CN106920559A

CN106920559A - 通话音的优化方法、装置及通话终端

Info

Publication number: CN106920559A
Application number: CN201710127275.5A
Authority: CN
Inventors: 陈宝全
Original assignee: Qiku Internet Technology Shenzhen Co Ltd
Current assignee: Qiku Internet Technology Shenzhen Co Ltd
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2017-07-04
Anticipated expiration: 2037-03-02
Also published as: CN106920559B

Abstract

本发明实施例提供一种通话音的优化方法、装置及通话终端，涉及通话语音技术领域。该方法包括：对当前的通话音进行降噪处理，得到去噪语音；获取去噪语音的音质清晰值，音质清晰值为衡量去噪语音清晰程度的参数；当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理；输出纠音处理后的去噪语音。与现有技术相比，本发明实施例提供的通话音的优化方法、装置及通话终端，通过对当前的通话音进行降噪处理，并在音质清晰值过低时对降噪后的去噪语音进行纠音处理，缓解了由于人为因素引起的通话质量差的问题，提高了通话音的音质，从而提升了通话者的通话感受。

Description

通话音的优化方法、装置及通话终端

技术领域

本发明涉及通话语音技术领域，具体而言，涉及一种通话音的优化方法、装置及通话终端。

背景技术

目前，用户在利用手机、电话机等通话设备进行远程沟通时，经常会因为通话质量差而影响沟通的效果。引起通话质量差的因素有很多种，包括小区基站问题、终端天线质量问题、人为因素等。由小区基站或终端天线等设备因素引起的通话质量差的问题，可通过运营商或生产商进行硬件的维修和调试得以缓解。但是人为因素是很难改变的，特别是由于通话者吐字不清晰、音质差而引起的通话质量差，目前仍然没有有效的解决方式。

发明内容

有鉴于此，本发明实施例的目的在于提供一种通话音的优化方法、装置及通话终端，以缓解由于人为因素引起的通话质量差的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种通话音的优化方法，该方法包括：对当前的通话音进行降噪处理，得到去噪语音；获取去噪语音的音质清晰值，音质清晰值为衡量去噪语音清晰程度的参数；当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理；输出纠音处理后的去噪语音。

在本发明较佳的实施例中，上述对当前的通话音进行降噪处理，得到去噪语音，包括：获取当前的通话音中的声纹特征；查找预存的目标声纹库中是否有与当前的通话音中声纹特征匹配的目标声纹；如果有，根据查找到的目标声纹从当前的通话音中滤除噪音；如果否，基于采样降噪法滤除通话音中的噪音。

在本发明较佳的实施例中，上述根据查找到的目标声纹从当前的通话音中滤除噪音，包括：采用设定的功率放大器对通话音进行功率放大处理；根据目标声纹从放大后的通话音中滤除噪音。

在本发明较佳的实施例中，上述获取去噪语音的音质清晰值，包括：基于预存的通用语音对所述去噪语音进行语音识别，将识别出的语音占所述去噪语音的比例确定为所述去噪语音的音质清晰值；或者，通过比对的方式确定去噪语音与预存的通用语音的匹配程度；将得到的匹配程度确定为去噪语音的音质清晰值。

在本发明较佳的实施例中，上述当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理，包括：当音质清晰值低于设定的第一清晰阈值而高于设定的第二清晰阈值时，采用预先设定的滤波器对去噪语音进行纠音；当音质清晰值低于设定的第二清晰阈值时，将去噪语音转换为通用语音；其中，第一清晰阈值大于第二清晰阈值。

在本发明较佳的实施例中，上述采用预先设定的滤波器对去噪语音进行纠音包括：获取去噪语音的声纹波形；查找预存的目标声纹库中是否有与去噪语音的声纹波形匹配的目标声纹；如果有，调用与该目标声纹对应的滤波器，对声纹波形进行补强操作。

在本发明较佳的实施例中，上述方法还包括：当在预存的目标声纹库中未查找到与声纹波形匹配的目标声纹时，提取去噪语音的声纹波形，作为目标声纹添加到目标声纹库中；生成并存储与声纹波形对应的滤波器。

在本发明较佳的实施例中，上述将去噪语音转换为通用语音包括：提取去噪语音的音调特征和音色特征；将去噪语音转换成通用语音对应的文字；

将文字转换成带有音调特征和音色特征的通用语音。

在本发明较佳的实施例中，上述将去噪语音转换成通用语音对应的文字，包括：确定去噪语音所属的方言类型；采用与方言类型对应的转换列表，将去噪语音转换成通用语音对应的文字；转换列表内设置有方言语音与通用语音的文字的对应关系。

在本发明较佳的实施例中，上述输出纠音处理后的去噪语音包括：当通话音来自本地通话者时，通过移动网络将纠音处理后的去噪语音传输至通话对端的终端；当通话音来自通话对端时，通过本地音频设备播放纠音处理后的去噪语音。

在本发明较佳的实施例中，上述方法还包括：当接收到当前的通话音时，检查设定的增强音质功能是否为开启状态；如果是开启状态，执行对当前的通话音进行降噪处理的步骤。

第二方面，本发明实施例提供了一种通话音的优化装置，该装置包括：降噪处理模块，用于对当前的通话音进行降噪处理，得到去噪语音；音质判定模块，用于获取去噪语音的音质清晰值，音质清晰值为衡量去噪语音清晰程度的参数；纠音模块，用于当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理；去噪语音输出模块，用于输出纠音处理后的去噪语音。

在本发明较佳的实施例中，上述降噪处理模块包括：声纹特征获取单元，用于获取当前的通话音中的声纹特征；目标声纹匹配单元，用于查找预存的目标声纹库中是否有与声纹特征匹配的目标声纹；第一噪音滤除单元，用于当目标声纹库中存在与声纹特征匹配的目标声纹时，根据目标声纹从通话音中滤除噪音；第二噪音滤除单元，用于当目标声纹库中不存在与声纹特征匹配的目标声纹时，基于采样降噪法滤除通话音中的噪音。

在本发明较佳的实施例中，上述第一噪音滤除单元还用于采用设定的功率放大器对通话音进行功率放大处理；根据目标声纹从放大后的通话音中滤除噪音。

在本发明较佳的实施例中，上述音质判定模块还用于通过比对的方式确定去噪语音与预存的通用语音的匹配程度；将匹配程度确定为去噪语音的音质清晰值。

在本发明较佳的实施例中，上述纠音模块包括：第一纠音单元，用于当音质清晰值低于设定的第一清晰阈值而高于设定的第二清晰阈值时，采用预先设定的滤波器对去噪语音进行纠音；第二纠音单元，用于当音质清晰值低于设定的第二清晰阈值时，将去噪语音转换为通用语音；其中，第一清晰阈值大于第二清晰阈值。

在本发明较佳的实施例中，上述第一纠音单元还用于获取去噪语音的声纹波形；查找预存的目标声纹库中是否有与声纹波形匹配的目标声纹；如果有，调用与目标声纹对应的滤波器，对声纹波形进行补强操作。

在本发明较佳的实施例中，上述第一纠音单元还用于当在预存的目标声纹库中未查找到与声纹波形匹配的目标声纹时，提取去噪语音的声纹波形，作为目标声纹添加到目标声纹库中；生成并存储与声纹波形对应的滤波器。

在本发明较佳的实施例中，上述第二纠音单元还用于提取去噪语音的音调特征和音色特征；将去噪语音转换成通用语音对应的文字；将文字转换成带有音调特征和音色特征的通用语音。

在本发明较佳的实施例中，上述第二纠音单元还用于确定去噪语音所属的方言类型；采用与方言类型对应的转换列表，将去噪语音转换成通用语音对应的文字；转换列表内设置有方言语音与通用语音的文字的对应关系。

在本发明较佳的实施例中，上述去噪语音输出模块包括：对端输出单元，用于当通话音来自本地通话者时，通过移动网络将纠音处理后的去噪语音传输至通话对端的终端；本地输出单元，用于当通话音来自通话对端时，通过本地音频设备播放纠音处理后的去噪语音。

在本发明较佳的实施例中，上述装置还包括：启动模块，用于当接收到当前的通话音时，检查设定的增强音质功能是否为开启状态；如果是开启状态，执行对当前的通话音进行降噪处理的步骤。

第三方面，本发明实施例提供了一种通话终端。在一个可能的设计中，通话终端的结构中包括处理器和存储器，存储器中存储有上述的通话音的优化装置；通话音的优化装置包括一个或多个由处理器执行的软件功能模组：降噪处理模块，用于对当前的通话音进行降噪处理，得到去噪语音；音质判定模块，用于获取去噪语音的音质清晰值，音质清晰值为衡量去噪语音清晰程度的参数；纠音模块，用于当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理；去噪语音输出模块，用于输出纠音处理后的去噪语音。

第四方面，本发明实施例提供了一种计算机存储介质，用于储存为上述通话音的优化装置所用的计算机软件指令，其包含用于执行上述方面为通话音的优化方法所设计的程序。

与现有技术相比，本发明实施例提供的通话音的优化方法、装置及通话终端，通过对当前的通话音进行降噪处理，并在音质清晰值过低时对降噪后的去噪语音进行纠音处理，不仅消除了环境噪音的干扰，还缓解了由于人为因素引起的通话质量差的问题，提高了通话音的音质，从而提升了通话者的通话感受。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明一实施例提供的通话音的优化方法的流程图；

图2是图1中步骤S101的流程图；

图3是本发明另一实施例提供的通话音的优化方法的流程图；

图4是本发明再一实施例提供的通话音的优化方法的流程图；

图5是本发明一实施例提供的通话音的优化装置的结构框图；

图6是本发明另一实施例提供的通话音的优化装置的结构框图；

图7是本发明实施例所提供的通话终端相关的手机的部分结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中对人为因素所引起的通话质量差的问题，如通话者使用方言或吐字不清晰，本发明实施例提供了一种通话音的优化方法、装置及通话终端。该方法或装置可以应用于移动或固定的通话终端上，移动通话终端包括但不限于手机、智能手表、膝上型便携计算机、智能穿戴设备、平板电脑等，固定通话终端包括但不限于电话机、计算机等。上述移动通话终端或固定通话终端处于通信网络中，上述通信网络可以是无线网络或有线网络，例如无线网络可以是，但不限于GSM、GPRS、CDMA、Wi-Fi(无线保真)网络、2G/3G/4G网络等。用户可以通过通话终端或通话终端上安装的软件(如电话、QQ、微信等)进行远程通话。

实施例一

图1示出了该实施例提供的通话音的优化方法的流程图。该方法可以在移动终端上执行，该移动终端可以是发起呼叫端的设备，也可以是被呼叫端的设备。如图1所示，该方法包括以下步骤：

步骤S101，对当前的通话音进行降噪处理，得到去噪语音；

该步骤中的降噪处理主要用于滤除本地通话者或通话对端的通话者的周边环境中的噪音。

步骤S102，获取去噪语音的音质清晰值，该音质清晰值为衡量去噪语音清晰程度的参数；

考虑到步骤S101中对通话音的降噪处理，通常是滤除环境噪音，无法缓解因人为因素导致的通话音不清晰，为了确定去噪语音能否正常输出，本实施例引入了音质清晰值这一参数。

具体实现时，可以基于通用语音(标准的普通话发音)对去噪语音进行语音识别，将识别出的语音占整个去噪语音的比例作为上述音质清晰值，用以衡量该去噪语音清晰程度，也可以将通用语音与去噪语音的匹配程度作为上述音质清晰值。

步骤S103，当上述音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理；

其中，设定的清晰阈值可以根据经验选取具体的数值，该数值可以是一个百分比形式的数字，例如：90％，60％等。当上述音质清晰值高于或等于设定的清晰阈值时，说明降噪后的去噪语音能够满足听觉要求，不需要进行纠音处理即可直接输出；当上述音质清晰值低于设定的清晰阈值时，说明去噪语音还不够清晰，直接输出后的收听效果较差，需要进行纠音处理。

该纠音处理可以有多种方式，针对某些字发音错误导致的不清楚，可以直接用对应字的正确发音替换。针对嗓音沙哑或方言等不清楚的问题，可以整体进行语音转文字，再文字转语音的方式进行纠音。

步骤S104，输出纠音处理后的去噪语音。

由于步骤S101中的通话音可能来自本地通话者或通话对端，所以，步骤S104中输出去噪语音也分为两种情况，一种情况是：当通话音来自本地通话者时，通过移动网络将纠音处理后的去噪语音传输至通话对端的终端；另一种情况是：当通话音来自通话对端时，通过本地音频设备播放纠音处理后的去噪语音。

该实施例提供的通话音的优化方法，通过对当前的通话音进行降噪处理，并在音质清晰值过低时对降噪后的去噪语音进行纠音处理，不仅消除了环境噪音的干扰，还缓解了由于人为因素引起的通话质量差的问题，提高了通话音的音质，从而提升了通话者的通话感受。

本发明实施例不仅可以对来自通话对端的对方通话者的语音进行优化处理，而且可以对本地通话者的语音进行优化处理再传输给对方，使通话双方都能听到清晰的语音，有效提高通话质量。

其中，步骤S101的一种具体实现方式如图2所示，进一步包括如下步骤：

步骤S1011，获取当前的通话音中的声纹特征。

在本实施例中，当前的通话音包括两种：一种来自本地通话者，一种来自一个或多个通话对端。当该方法应用于电话会议时，本地通话者和通话对端的通话者可以是一人或多人。

由于每个人的发声器官在尺寸和形态上各不相同，因此，每个人在讲话时的声纹图谱也会存在一定的差异。声纹特征是声纹所具备的特征参数，是使得声纹可量化的参数，不同的声纹特征可以区分不同的发声者。

步骤S1012，查找预存的目标声纹库中是否有与当前的通话音中声纹特征匹配的目标声纹；如果是，执行步骤S1013；如果否，执行步骤S1014。

目标声纹库中存储有已录入的通话者的语音声纹特征，这些语音声纹特征可以认为是不含噪音的正确的声纹特征。

目标声纹的录入过程包括但不限于通话终端的用户主动录制或通话终端在使用过程中进行录制。例如，在非通话模式下，通话终端的用户近距离地直接将被录音者的语音录入终端，然后通话终端提取被录音者的声纹特征并保存为目标声纹；在通话模式下，通话终端记录通话者的通话语音，然后提取该通话语音的声纹特征并保存为该通话者的目标声纹。

步骤S1013，根据查找到的目标声纹从当前的通话音中滤除噪音。其中，噪音的具体滤除过程可以采用如下方式实现：

(1)采用设定的功率放大器对通话音进行功率放大处理；例如：可以采用硬件的功率放大电路或软件的功率放大单元对通话音进行放大；

(2)根据上述目标声纹从放大后的通话音中滤除噪音。

上述通话音经功率放大后，更容易区分语音和噪音，进而便于按照目标声纹从通话音中识别出语音，将语音与噪音分离，滤除噪音。

步骤S1014，基于采样降噪法滤除通话音中的噪音。

采样降噪法首先获取一段无噪音的通话音的频率特性，然后对通话音进行采样，在混有噪音的音频波形中，将上述符合该频率特性的噪音从通话音中去除。

通过图2的方式滤除通话音中的噪音后，可以得到更纯粹的语音，使后续的纠音处理更有针对性，有助于增强纠音处理的效果，大幅度提高通话语音的清晰度，提高通话质量。

实施例二

本实施例中，主要考虑人为因素导致的音质不清晰中常见的两种因素：一种是方言，一种是吐字不清楚。而这两种因素对应的音质清晰值有明显不同的区间范围，基于此，本实施例提供了如图3所示的通话音的优化方法，该方法包括以下步骤：

步骤S301，对当前的通话音进行降噪处理，得到去噪语音；

步骤S302，获取去噪语音的音质清晰值，该音质清晰值为衡量去噪语音清晰程度的参数，具体内容同上述实施例中的描述，这里不再赘述；

步骤S303，判断音质清晰值是否低于设定的第一清晰阈值；如果是，执行步骤S304；如果否，执行步骤S307。

步骤S304，判断音质清晰值是否高于设定的第二清晰阈值；如果是，执行步骤305；如果否，执行步骤306。

其中，上述第一清晰阈值大于第二清晰阈值。

为了便于理解，本实施例设音质清晰值为A，设定S1为第一清晰阈值，S2为第二清晰阈值，S1>S2。当A≥S1时，说明当前的去噪语音足够清楚，可以直接输出；当S1>A≥S2时，说明当前的去噪语音还存在吐字不清楚的问题，需要进行滤波器纠音；当A<S2时，说明当前的去噪语音为方言，需要转换纠音，具体如下。

步骤S305，采用预先设定的滤波器对去噪语音进行纠音，然后执行步骤S307。

步骤S306，将去噪语音转换为通用语音，然后执行步骤S307；

步骤S307，输出上述语音，该语音可能是步骤S301降噪处理后的去噪语音，也可能是步骤S305的过滤器纠音后的去噪语音，还可能是步骤S306中转换处理后的通用语音。

当A≥S1时，表示去噪语音与通用语音几乎完全匹配，说明降噪后的去噪语音能够满足听觉要求，无需进行纠音处理，可直接输出去噪语音。

当S1>A≥S2时，说明去噪语音与通用语音大部分匹配，可认为通话者使用的是通用语言，但某些语音存在吐字不清的问题，因此可以先采用预先设定的滤波器对去噪语音进行纠音处理，例如：首先获取去噪语音的声纹波形；查找预存的目标声纹库中是否有与去噪语音的声纹波形匹配的目标声纹；如果有，调用与目标声纹对应的滤波器，对声纹波形进行补强操作；如果没有，提取去噪语音的声纹波形，作为目标声纹添加到目标声纹库中；生成并存储与声纹波形对应的滤波器。

当A<S2时，表示去噪语音与通用语音大部分不匹配，可认为通话者使用的不是通用语言，此时，可以将去噪语音转换为通用语音，例如：提取去噪语音的音调特征和音色特征；将去噪语音转换成通用语音对应的文字；将文字转换成带有上述音调特征和音色特征的通用语音。

考虑到方言的种类很多，系统可以预先为每一种方言设立了一个转换列表，转换列表内设置有方言语音与通用语音的文字的对应关系。在将去噪语音转换成通用语音对应的文字时，要先确定去噪语音所属的方言类型；采用与方言类型对应的转换列表，将去噪语音转换成通用语音对应的文字。

本发明实施例根据去噪语音的不同清晰程度，分析引起去噪语音不清晰的原因，采用不同的纠音方式对去噪语音进行纠音处理，能够更有效地提高输出的语音的清晰度。

实施例三

考虑到用户需求的多样化，本实施例还设置了供用户选择的增强音质功能的控制按键或选项，用户可以根据需要选择打开或关闭增强音质功能。如果该增强音质功能为打开状态，则可以执行实施例一或实施例二中的通话音的优化方法；如果该增强音质功能为关闭状态，则可以按照相关技术直接输出当前的通话音，或者仅对当前的通话音进行上述降噪处理后输出。

参见图4所示的通话音的优化方法的具体流程图，该方法包括以下步骤：

步骤S401，当接收到当前的通话音时，判断设定的增强音质功能是否为开启状态；如果是，执行步骤S402，如果否，执行步骤S405。

具体地，增强音质功能的开启包括以下方式中的一种：触屏方式、滑屏方式、按键方式。用户可以在通话接通前，开启增强音质功能，也可以在通话过程中，开启增强音质功能。

步骤S402，对当前的通话音进行降噪处理，得到去噪语音。

为了满足不同用户的个性化需求，如某些用户只需要滤除环境中的噪音，而并不需要对语音进行转换或纠音，在另一具体实施方式中，上述步骤S401和步骤S402的执行顺序可互换。即先对通话音进行降噪处理，然后再判断增强音质功能是否为开启状态；如果是，执行步骤S403，如果否，执行步骤S405。

步骤S403，获取去噪语音的音质清晰值。

步骤S404，当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理。

步骤S405，输出通话音。

由于步骤S401和步骤S402的执行顺序可互换，因此，步骤S405中输出的通话音可能是接收到当前的通话音，也可能是将降噪处理，滤除环境噪音后的去噪语音，还可能是步骤S404中纠音处理后的语音。

本实施例在上述两实施例的基础上，增设了可供用户选择的增强音质功能的控制方式，使用户可以自主打开或关闭增强音质功能，满足了用户的个性化需求。

实施例四

与上述实施例一提供的优化方法相对应的，该实施例还提供了一种通话音的优化装置。如图5所示，该装置包括：

降噪处理模块51，用于对当前的通话音进行降噪处理，得到去噪语音；

音质判定模块52，用于获取去噪语音的音质清晰值，音质清晰值为衡量去噪语音清晰程度的参数；在一个较佳的实施例中，音质判定模块52还用于基于预存的通用语音对去噪语音进行语音识别，将识别出的语音占去噪语音的比例确定为去噪语音的音质清晰值；或者，通过比对的方式确定去噪语音与预存的通用语音的匹配程度；将匹配程度确定为去噪语音的音质清晰值。

纠音模块53，用于当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理；

去噪语音输出模块54，用于输出纠音处理后的去噪语音。

该实施例提供的通话音的优化装置，通过降噪处理模块52对当前的通话音进行降噪处理，并在音质清晰值低于清晰阈值时，通过纠音模块53对去噪语音进行纠音处理，不仅可以消除环境噪音的干扰，而且能够缓解由于人为因素引起的通话质量差的问题，有效提高通话质量。

实施例五

图6示出了该实施例提供的通话音的优化装置的结构框图。如图6所示，在图5所示的通话音的优化装置的基础上，降噪处理模块51具体可以包括：

声纹特征获取单元511，用于获取当前的通话音中的声纹特征；

目标声纹匹配单元512，用于查找预存的目标声纹库中是否有与声纹特征匹配的目标声纹；

第一噪音滤除单元513，用于当目标声纹库中存在与声纹特征匹配的目标声纹时，根据目标声纹从通话音中滤除噪音；在一具体实现方式中，第一噪音滤除单元513还用于采用设定的功率放大器对通话音进行功率放大处理；根据目标声纹从放大后的通话音中滤除噪音。

第二噪音滤除单元514，用于当目标声纹库中不存在与声纹特征匹配的目标声纹时，基于采样降噪法滤除通话音中的噪音。

纠音模块53具体可以包括：

第一纠音单元531，用于当音质清晰值低于设定的第一清晰阈值而高于设定的第二清晰阈值时，采用预先设定的滤波器对去噪语音进行纠音；优选地，第一纠音单元531还用于获取去噪语音的声纹波形；查找预存的目标声纹库中是否有与声纹波形匹配的目标声纹；如果有，调用与目标声纹对应的滤波器，对声纹波形进行补强操作；具体来说，第一纠音单元531还用于当在预存的目标声纹库中未查找到与声纹波形匹配的目标声纹时，提取去噪语音的声纹波形，作为目标声纹添加到目标声纹库中；生成并存储与声纹波形对应的滤波器。

第二纠音单元532，用于当音质清晰值低于设定的第二清晰阈值时，将去噪语音转换为通用语音；其中，第一清晰阈值大于第二清晰阈值；优选地，第二纠音单元532还用于提取去噪语音的音调特征和音色特征；将去噪语音转换成通用语音对应的文字；将文字转换成带有音调特征和音色特征的通用语音；具体来说，第二纠音单元532还用于确定去噪语音所属的方言类型；采用与方言类型对应的转换列表，将去噪语音转换成通用语音对应的文字；转换列表内设置有方言语音与通用语音的文字的对应关系。

去噪语音输出模块54具体可以包括：

对端输出单元541，用于当通话音来自本地通话者时，通过移动网络将纠音处理后的去噪语音传输至通话对端的终端；

本地输出单元542，用于当通话音来自通话对端时，通过本地音频设备播放纠音处理后的去噪语音。

在另一较佳的实施例中，上述装置还可以包括：启动模块，用于当接收到当前的通话音时，检查设定的增强音质功能是否为开启状态；如果是开启状态，执行对当前的通话音进行降噪处理的步骤。

上述实施例所提供的通话音的优化装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例六

相应地，本发明实施例还提供了一种通话终端，如图7所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、便携计算机等任意终端设备，下面以通话终端为手机为例，进行说明：

图7示出了本发明实施例所提供的通话终端相关的手机的部分结构示意图。如图7所示，该手机包括：RF(Radio Frequency，射频)电路110、存储器120、输入单元130、显示单元140、传感器150、音频设备160、WiFi(wireless fidelity，无线保真)模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对通话终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)等。

存储器120可用于存储软件程序以及模块，如本发明实施例中的通话音的优化方法以及装置对应的程序指令/模块，处理器180通过运行存储在存储器120内的软件程序以及模块，从而执行手机的各种功能应用以及数据处理，如本发明实施例提供的通话音的优化方法。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、微信等)等；存储数据区可存储根据手机的使用所创建的数据(比如通话者的语音、目标声纹库等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例的存储器120中存储有通话音的优化装置；通话音的优化装置包括一个或多个由处理器180执行的软件功能模组，通话音的优化装置包括：降噪处理模块，用于对当前的通话音进行降噪处理，得到去噪语音；音质判定模块，用于获取去噪语音的音质清晰值，音质清晰值为衡量去噪语音清晰程度的参数；纠音模块，用于当音质清晰值低于设定的清晰阈值时，对去噪语音进行纠音处理；去噪语音输出模块，用于输出纠音处理后的去噪语音。

输入单元130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行(如执行本发明实施例中的增强音质功能的开启动作)。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型做处理。虽然在图7中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输出功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频设备160、扬声器161，传声器162可提供用户与手机之间的音频接口。音频设备160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频设备160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一手机或其它通话终端，或者将音频数据输出至存储器120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块170可以帮助用户通过QQ、微信等APP传输音频，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块170，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

手机还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

可以理解，图7所示的结构仅为示意，手机还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。

于本发明实施例中，手机中安装有客户端，该客户端可以是第三方应用软件，如QQ、微信等，为用户提供传输音频的服务。

本发明实施例所提供的通话终端，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，通话终端实施例部分未提及之处，可参考前述方法实施例中相应内容。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端、装置和方法，也可以通过其它的方式实现。以上所描述的装置和终端实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，也不能理解为指示或暗示相对重要性。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

本发明实施例还揭示了：

A1.一种通话音的优化方法，包括：

对当前的通话音进行降噪处理，得到去噪语音；

获取所述去噪语音的音质清晰值，所述音质清晰值为衡量所述去噪语音清晰程度的参数；

当所述音质清晰值低于设定的清晰阈值时，对所述去噪语音进行纠音处理；

输出纠音处理后的去噪语音。

A2.根据A1所述的方法，对当前的通话音进行降噪处理，得到去噪语音，包括：

获取当前的通话音中的声纹特征；

查找预存的目标声纹库中是否有与所述声纹特征匹配的目标声纹；

如果有，根据所述目标声纹从所述通话音中滤除噪音；

如果否，基于采样降噪法滤除所述通话音中的噪音。

A3.根据A2所述的方法，根据所述目标声纹从所述通话音中滤除噪音包括：

采用设定的功率放大器对所述通话音进行功率放大处理；

根据所述目标声纹从放大后的通话音中滤除噪音。

A4.根据A1所述的方法，获取所述去噪语音的音质清晰值包括：

基于预存的通用语音对所述去噪语音进行语音识别，将识别出的语音占所述去噪语音的比例确定为所述去噪语音的音质清晰值；或者，

通过比对的方式确定所述去噪语音与预存的通用语音的匹配程度；

将所述匹配程度确定为所述去噪语音的音质清晰值。

A5.根据A1所述的方法，当所述音质清晰值低于设定的清晰阈值时，对所述去噪语音进行纠音处理，包括：

当所述音质清晰值低于设定的第一清晰阈值而高于设定的第二清晰阈值时，采用预先设定的滤波器对所述去噪语音进行纠音；

当所述音质清晰值低于设定的第二清晰阈值时，将所述去噪语音转换为通用语音；

其中，所述第一清晰阈值大于所述第二清晰阈值。

A6.根据A5所述的方法，所述采用预先设定的滤波器对所述去噪语音进行纠音包括：

获取所述去噪语音的声纹波形；

查找预存的目标声纹库中是否有与所述声纹波形匹配的目标声纹；

如果有，调用与所述目标声纹对应的滤波器，对所述声纹波形进行补强操作。

A7.根据A6所述的方法，所述方法还包括：

当在预存的目标声纹库中未查找到与所述声纹波形匹配的目标声纹时，提取所述去噪语音的声纹波形，作为目标声纹添加到所述目标声纹库中；

生成并存储与所述声纹波形对应的滤波器。

A8.根据A5所述的方法，将所述去噪语音转换为通用语音包括：

提取所述去噪语音的音调特征和音色特征；

将所述去噪语音转换成通用语音对应的文字；

将所述文字转换成带有所述音调特征和音色特征的通用语音。

A9.根据A8所述的方法，将所述去噪语音转换成通用语音对应的文字，包括：

确定所述去噪语音所属的方言类型；

采用与所述方言类型对应的转换列表，将所述去噪语音转换成通用语音对应的文字；所述转换列表内设置有方言语音与通用语音的文字的对应关系。

A10.根据A1所述的方法，输出纠音处理后的去噪语音包括：

当所述通话音来自本地通话者时，通过移动网络将纠音处理后的去噪语音传输至通话对端的终端；

当所述通话音来自通话对端时，通过本地音频设备播放纠音处理后的去噪语音。

A11.根据A1-A10任一项所述的方法，所述方法还包括：

当接收到当前的通话音时，检查设定的增强音质功能是否为开启状态；

如果是开启状态，执行所述对当前的通话音进行降噪处理的步骤。

B12.一种通话音的优化装置，包括：

降噪处理模块，用于对当前的通话音进行降噪处理，得到去噪语音；

音质判定模块，用于获取所述去噪语音的音质清晰值，所述音质清晰值为衡量所述去噪语音清晰程度的参数；

纠音模块，用于当所述音质清晰值低于设定的清晰阈值时，对所述去噪语音进行纠音处理；

去噪语音输出模块，用于输出纠音处理后的去噪语音。

B13.根据B12所述的装置，所述降噪处理模块包括：

声纹特征获取单元，用于获取当前的通话音中的声纹特征；

目标声纹匹配单元，用于查找预存的目标声纹库中是否有与所述声纹特征匹配的目标声纹；

第一噪音滤除单元，用于当所述目标声纹库中存在与所述声纹特征匹配的目标声纹时，根据所述目标声纹从所述通话音中滤除噪音；

第二噪音滤除单元，用于当所述目标声纹库中不存在与所述声纹特征匹配的目标声纹时，基于采样降噪法滤除所述通话音中的噪音。

B14.根据B13所述的装置，所述第一噪音滤除单元还用于采用设定的功率放大器对所述通话音进行功率放大处理；根据所述目标声纹从放大后的通话音中滤除噪音。

B15.根据B12所述的装置，所述音质判定模块还用于基于预存的通用语音对所述去噪语音进行语音识别，将识别出的语音占所述去噪语音的比例确定为所述去噪语音的音质清晰值；或者，通过比对的方式确定所述去噪语音与预存的通用语音的匹配程度；将所述匹配程度确定为所述去噪语音的音质清晰值。

B16.根据B12所述的装置，所述纠音模块包括：

第一纠音单元，用于当所述音质清晰值低于设定的第一清晰阈值而高于设定的第二清晰阈值时，采用预先设定的滤波器对所述去噪语音进行纠音；

第二纠音单元，用于当所述音质清晰值低于设定的第二清晰阈值时，将所述去噪语音转换为通用语音；

其中，所述第一清晰阈值大于所述第二清晰阈值。

B17.根据B16所述的装置，所述第一纠音单元还用于获取所述去噪语音的声纹波形；查找预存的目标声纹库中是否有与所述声纹波形匹配的目标声纹；如果有，调用与所述目标声纹对应的滤波器，对所述声纹波形进行补强操作。

B18.根据B17所述的装置，所述第一纠音单元还用于当在预存的目标声纹库中未查找到与所述声纹波形匹配的目标声纹时，提取所述去噪语音的声纹波形，作为目标声纹添加到所述目标声纹库中；生成并存储与所述声纹波形对应的滤波器。

B19.根据B16所述的装置，所述第二纠音单元还用于提取所述去噪语音的音调特征和音色特征；将所述去噪语音转换成通用语音对应的文字；将所述文字转换成带有所述音调特征和音色特征的通用语音。

B20.根据B19所述的装置，所述第二纠音单元还用于确定所述去噪语音所属的方言类型；采用与所述方言类型对应的转换列表，将所述去噪语音转换成通用语音对应的文字；所述转换列表内设置有方言语音与通用语音的文字的对应关系。

B21.根据B12所述的装置，所述去噪语音输出模块包括：

对端输出单元，用于当所述通话音来自本地通话者时，通过移动网络将纠音处理后的去噪语音传输至通话对端的终端；

本地输出单元，用于当所述通话音来自通话对端时，通过本地音频设备播放纠音处理后的去噪语音。

B22.根据B12-B21任一项所述的装置，所述装置还包括：

启动模块，用于当接收到当前的通话音时，检查设定的增强音质功能是否为开启状态；如果是开启状态，执行所述对当前的通话音进行降噪处理的步骤。

C23.一种通话终端，包括处理器和存储器；

所述存储器中存储有通话音的优化装置；所述通话音的优化装置包括一个或多个由所述处理器执行的软件功能模组，所述通话音的优化装置包括：

去噪语音输出模块，用于输出纠音处理后的去噪语音。

Claims

1.一种通话音的优化方法，其特征在于，包括：

对当前的通话音进行降噪处理，得到去噪语音；

输出纠音处理后的去噪语音。

2.根据权利要求1所述的方法，其特征在于，对当前的通话音进行降噪处理，得到去噪语音，包括：

获取当前的通话音中的声纹特征；

如果有，根据所述目标声纹从所述通话音中滤除噪音；

如果否，基于采样降噪法滤除所述通话音中的噪音。

3.根据权利要求2所述的方法，其特征在于，根据所述目标声纹从所述通话音中滤除噪音包括：

采用设定的功率放大器对所述通话音进行功率放大处理；

根据所述目标声纹从放大后的通话音中滤除噪音。

4.根据权利要求1所述的方法，其特征在于，获取所述去噪语音的音质清晰值包括：

将所述匹配程度确定为所述去噪语音的音质清晰值。

5.根据权利要求1所述的方法，其特征在于，当所述音质清晰值低于设定的清晰阈值时，对所述去噪语音进行纠音处理，包括：

其中，所述第一清晰阈值大于所述第二清晰阈值。

6.根据权利要求5所述的方法，其特征在于，所述采用预先设定的滤波器对所述去噪语音进行纠音包括：

获取所述去噪语音的声纹波形；

7.根据权利要求5所述的方法，其特征在于，将所述去噪语音转换为通用语音包括：

提取所述去噪语音的音调特征和音色特征；

将所述去噪语音转换成通用语音对应的文字；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

9.一种通话音的优化装置，其特征在于，包括：

去噪语音输出模块，用于输出纠音处理后的去噪语音。

10.一种通话终端，其特征在于，包括处理器和存储器；

去噪语音输出模块，用于输出纠音处理后的去噪语音。