CN111696565B

CN111696565B - 语音处理方法、装置和介质

Info

Publication number: CN111696565B
Application number: CN202010508198.XA
Authority: CN
Inventors: 王颖; 李健涛; 张丹; 刘宝; 张硕; 杨天府; 梁宵; 荣河江; 李鹏翀
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-10-10
Anticipated expiration: 2040-06-05
Also published as: CN111696565A

Abstract

本发明实施例提供了一种语音处理方法和装置、一种用于语音处理的装置，其中的方法应用于耳机装置，具体包括：采集第一语音信号；确定所述第一语音信号对应的第二语音信号；所述第二语音信号为对所述第一语音信号进行美化处理得到；所述美化处理包括：滤除所述第一语音信号中的用户噪音；所述用户噪音表征用户产生的噪音；输出所述第二语音信号。本发明实施例能够提高语音信号的清晰度和质量，进而帮助用户实现打动听众、增强自信的目的。

Description

语音处理方法、装置和介质

技术领域

本发明涉及语音处理技术领域，特别是涉及一种语音处理方法和装置、一种机器可读介质。

背景技术

作为最自然的交流沟通方式之一，语音被广泛应用于语音对话、语音社交、k歌(Karaok TV)、直播、游戏、视频录制等语音处理场景。

目前，通常直接将采集的语音用于语音处理场景。例如，向通信对端发送采集的语音；又如，在视频中携带采集的录音等。

在实际应用中，可能存在用户对采集的语音不满意的情形，此种情况下用户将存在美化语音的需求。例如，有些用户希望通过美化语音，实现打动听众、增强自信的目的。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置及用于语音处理的装置，本发明实施例能够提高语音信号的清晰度和质量，进而帮助用户实现打动听众、增强自信的目的。

为了解决上述问题，本发明公开了一种语音处理方法，包括：

采集第一语音信号；

确定所述第一语音信号对应的第二语音信号；所述第二语音信号为对所述第一语音信号进行美化处理得到；所述美化处理包括：滤除所述第一语音信号中的用户噪音；所述用户噪音表征用户产生的噪音；

输出所述第二语音信号。

另一方面，本发明实施例公开了一种语音处理装置，包括：

采集模块，用于采集第一语音信号；

确定模块，用于确定所述第一语音信号对应的第二语音信号；所述第二语音信号为对所述第一语音信号进行美化处理得到；所述美化处理包括：滤除所述第一语音信号中的用户噪音；所述用户噪音表征用户产生的噪音；

输出模块，用于输出所述第二语音信号。

再一方面，本发明实施例公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采集第一语音信号；

输出所述第二语音信号。

本发明实施例还公开了一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。

本发明实施例包括以下优点：

本发明实施例的耳机装置可以采集第一语音信号，并针对第一语音信号，提供经过美化处理后的第二语音信号。由于上述美化处理滤除了第一语音信号中的用户噪音，因此能够提高语音信号的清晰度和质量，进而能够帮助用户实现打动听众和增强自信的目的。

本发明实施例的耳机装置可以对第一语音信号进行实时性地美化处理，故可以应用于对实时性要求较高的语音处理场景，如语音对话场景、K歌、直播场景等。

附图说明

图1是本发明实施例的一种语音处理方法的流程的示意；

图2是本发明的一种语音处理方法实施例一的步骤流程图；

图3是本发明的一种语音处理方法实施例二的步骤流程图；

图4是本发明的一种语音处理方法实施例三的步骤流程图；

图5是本发明的一种语音处理装置的结构框图；

图6是本发明的一种用于语音处理的装置1300的框图；及

图7是本发明的一种服务端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例可以适用于语音处理场景。语音处理场景可以包括：语音对话、语音社交、k歌、直播、游戏、视频录制等。

本发明实施例提供了一种语音处理方案，该方案可由耳机装置执行，该方案具体包括：采集第一语音信号；确定所述第一语音信号对应的第二语音信号；所述第二语音信号为对所述第一语音信号进行美化处理得到；所述美化处理具体包括：滤除所述第一语音信号中的用户噪音；所述用户噪音表征用户产生的噪音；以及输出所述第二语音信号。

本发明实施例的耳机装置可以为头戴式耳机，如蓝牙耳机、运动耳机、真无线立体(TWS，True Wireless Stereo)耳机等，也可以称为人工智能(AI，ArtificialIntelligence，)耳机。

可选地，耳机装置可以包括多个麦克风阵元、处理器和扬声器。

多个麦克风阵元可以拾取预设角度范围内的第一语音信号。处理器用于确定第一语音信号对应的第二语音信号。根据一种实施例，处理器可以对第一语音信号进行美化处理，以得到第二语音信号。根据另一种实施例，处理器可以与外界设备进行数据交互，以得到外界设备处理得到的第二语音信号。扬声器用于播放声音，如对第二语音信号进行播放。

外界设备可以包括：终端、和/或、耳机收纳装置。当然，外界设备可以包括：服务端。

在本发明的一种实施例中，受到体积的限制，可以不在耳机装置中设置运算芯片，将耳机装置对应的运算交由外界设备。因此，耳机装置可以与外界设备通信，由外界设备执行耳机装置对应的运算。耳机装置对应的运算可用于对第一语音信号进行美化处理等处理。

在本发明的一种实施例中，可以在耳机装置中设置运算芯片，由运算芯片执行耳机装置对应的运算。耳机装置对应的运算可用于对第一语音信号进行美化处理等处理。换言之，耳机装置中可设置有语音处理模块，该语音处理模块用于对第一语音信号进行美化处理等处理。

根据一种实施例，耳机收纳装置中可以设置有语音处理模块，该语音处理模块用于对第一语音信号进行美化处理，以得到第二语音信号。

根据一种实施例，耳机收纳装置中未设置有语音处理模块，将语音处理对应的运算交由服务端，由服务端对第一语音信号进行美化处理，以得到第二语音信号。

可选地，耳机收纳装置中可以设置有显示屏，该显示屏用于对第二语音信号的相关信息进行显示。上述相关信息可以包括如下信息中的至少一种：第二语音信号的波形信号、第二语音信号对应的文本、针对第一语音信号进行了哪些美化处理、以及美化处理后的效果等。

可选地，耳机收纳装置中可以设置有例如扬声器的声音播放器件，以对第二语音信号进行播放。

可选地，上述终端可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、智能音箱等等。可以理解，本发明实施例对于具体的终端不加以限制。

耳机收纳装置可用于收纳耳机装置。可选地，耳机收纳装置还用于向耳机装置提供电量。本发明实施例的耳机收纳装置还可用于从耳机装置接收第一语音信号，对第一语音信号进行美化处理，以得到第二语音信号。

本发明实施例中，耳机装置与外界设备之间的连接方式可以包括：物理连接、蓝牙连接、红外连接或者WIFI(无线保真，Wireless Fidelity)连接等。可以理解，本发明实施例对于耳机装置与外界设备之间的具体连接方式不加以限制。

本发明实施例中，可选的是，外界设备与服务端进行数据交互，例如，外界设备可以向服务端发送耳机装置采集的第一语音信号，以使服务端对第一语音信号进行美化处理。外界设备还可以向耳机装置发送处理得到的第二语音信号。

参照图1，示出了本发明实施例的一种语音处理系统的结构示意图，具体包括：耳机装置101、耳机收纳装置102、服务端103和移动终端104。

其中，耳机装置101与耳机收纳装置102通过蓝牙连接，耳机装置101与移动终端104通过蓝牙连接。

在用户使用移动终端104的过程中，用户佩戴耳机装置101，可以通过耳机装置101收音和发声。

耳机收纳装置102具备移动联网和无线联网能力，可以与服务端103进行数据交互。例如，耳机收纳装置102可以接收耳机装置采集的第一语音信号，并向服务端103发送第一语音信号；以及耳机收纳装置102可以向耳机装置发送服务端103处理得到的第二语音信号。

本发明实施例中，可选的是，耳机装置102的两侧分别设置有第一处理器和第二处理器，其中，第一处理器用于与耳机收纳装置102进行数据交互，第二处理器用于与移动终端104进行数据交互。

例如，在使用移动终端104进行语音对话或直播的过程中，用户可以通过耳机装置101发出第一语音信号，耳机装置101可以实时性地确定第一语音信号对应的第二语音信号，以向通信对端发送第二语音信号。由于通信对端可以接收到清晰度更高和质量更优的第二语音信号，因此能够提升用户自信和打动听众。

又如，在使用移动终端104在使用例如微信的社交应用发送语音条的过程中，假设耳机装置101接收到用户产生的第一语音条，则耳机装置101可以对第一语音条进行处理得到第二语音条，以向通信对端发送第二语音条。

本发明实施例中，可选的是，耳机装置101可以对第二语音信号进行播放，以使用户获得第一语音信号和第二语音信号的对比体验。

本发明实施例中，可选的是，耳机装置101可以包括第一侧和第二侧，第一侧用于播放第一语音信号或通信对端发送的语音信号，第二侧用于播放第二语音信号。依据耳机装置的处理能力，第一语音信号和第二语音信号之间的延迟时间的数量级可以为毫秒。

方法实施例一

参照图2，示出了本发明的一种语音处理方法实施例一的步骤流程图，应用于耳机装置，具体可以包括如下步骤：

步骤201、采集第一语音信号；

步骤202、确定上述第一语音信号对应的第二语音信号；上述第二语音信号为对上述第一语音信号进行美化处理得到；上述美化处理具体包括：滤除上述第一语音信号中的用户噪音；上述用户噪音表征用户产生的噪音；

步骤203、输出上述第二语音信号。

步骤201中，可以通过耳机装置的麦克风阵元，采集用户产生的第一语音信号。

步骤202中，耳机装置可以利用自身的语音处理模块，对第一语音信号进行美化处理，以得到第二语音信号；或者耳机装置可以向外界设备发送第一语音信号，以使外界设备对第一语音信号进行处理，以得到第二语音信号。

例如，在本发明的一种可选实施例中，上述确定所述第一语音信号对应的第二语音信号，具体包括：向外界设备发送所述第一语音信号，以使外界设备对所述第一语音信号进行美化处理；接收所述外界设备返回的第二语音信号。

由于本发明实施例的美化处理滤除了第一语音信号中的用户噪音，因此能够提高语音信号的清晰度和质量，进而能够帮助用户实现打动听众和增强自信的目的。这样，既可以保留用户自身独立的声音风格，又能够实现声音的美化。

本发明实施例中，可选的是，上述用户噪音具体包括：哈气音、咳嗽音、颤音和口音中的至少一种。可以理解，本领域技术人员可以根据实际应用需求，采用其他用户噪音，如走路音、敲击键盘的声音等，用户自身产生的噪音均在用户噪音的保护范围之内。

本发明实施例可以提供确定上述第一语音信号对应的第二语音信号的如下技术方案：

技术方案A1、

技术方案A1中，上述确定上述第一语音信号对应的第二语音信号，包括：确定用户噪音对应的预设声纹特征；从上述第一语音信号中滤除与上述预设声纹特征相对应的声音信号，以得到第二语音信号。

本发明实施例可以预先收集用户噪音样本，并提取用户噪音样本的声纹特征，作为预设声纹特征。可选地，可以对用户噪音样本进行分类，并针对多个用户噪音类别，分别确定对应的预设声纹特征。这样，在进行美化处理的过程中，可以从第一语音信号中滤除与上述预设声纹特征相对应的声音信号，以得到不包含用户噪音的语音信号，也即第二语音信号。这样，既可以保留用户自身独立的声音风格，又能够实现声音的美化。

本发明实施例对于预设声纹特征的具体种类不加以限制。例如，预设声纹特征的种类可以包括：梅尔频率倒谱系数(MFCC，Mel-frequency Cepstrum Coefficients)、基频参数、滤波器组(Fbank，Filter Banks)等。

技术方案A2、

技术方案A2中，上述确定上述第一语音信号对应的第二语音信号，包括：确定上述第一语音信号对应的目标语音类别；依据目标语音类别对应的第一语音参数，对上述第一语音信号进行处理，得到的第二语音信号对应的第二语音参数与上述第一语音参数相匹配。

本发明实施例可以预先收集语音样本，并对语音样本进行分类。可以对语音样本进行筛选，以得到不包含用户噪音的清晰度较高的语音。

语音类别可以包括：女音、男音、童音等。其中，女音可以包括：磁性女声、傻白甜妹子声；男音可以包括：磁性男音、沙哑男音等。可以理解，本领域技术人员可以根据实际应用需求，进行语音样本的分类，本发明实施例对于具体的语音类别不加以限制。

本发明实施例在美化处理的过程中，可以首先确定第一语音信号对应的目标语音类别，以确定第一语音信号属于哪种语音类别；然后，可以将目标语音类别的第一语音参数，作为第一语音信号的参考依据。例如，可以对第一语音信号进行调整，以使调整后的第二语音信号对应的第二语音参数与上述第一语音参数相匹配等。由于第二语音信号具有与目标语音类别相匹配的语音参数，而目标语音类别对应的语音样本可以对应经过筛选不包含用户噪音的清晰度较高的语音；因此本发明实施例依据目标语音类别对应的第一语音参数，得到第二语音信号，也可以提高语音信号的清晰度和质量，进而能够帮助用户实现打动听众和增强自信的目的。这样，既可以保留用户自身独立的声音风格，又能够实现声音的美化。

在本发明的一种可选实施例中，目标语音类别可由用户指定，以将用户喜好的语音类别用于第二语音信号的确定过程，由此可以提高第二语音信号与用户需求之间的匹配度。

在本发明的另一种可选实施例中，上述美化处理还可以包括：音效处理。也即，可以对第二语音信号进行音效处理，音效处理可用于提升语音信号的音效。

上述音效处理可以包括但不限于如下处理中的至少一种：环绕处理、信道均衡处理、以及混响处理。其中，环绕处理可以提高语音信号的空间感。信道均衡处理可以提升语音信号的磁性、浑厚度，进而提升语音信号的魅力感。混响处理可以提升语音信号的动听感和圆润度，不同的混响处理可以使用户处于不同的空间和场所中。场所的例子可以包括：ktv、录音棚、演唱会等，本发明实施例可以依据用户指定的场所，提供对应的混响处理。

在本发明的一种实施例中，可以采用头部相关传输函数(HRTF，Head RelatedTransfer Function)技术，对第二语音信号进行环绕处理。HRTF技术可以计算不同方向或位置声音所产生的大小和音调等，进而制造出立体空间声音定位的效果。

在本发明的一种实施例中，信道均衡处理可以确定第二语音信号对应的目标频段，然后依据目标频段对应的预设频率，对第二语音信号对应的频率参数进行调整。假设目标频段A为20～60Hz，目标频段A中20Hz左右的声音具有空虚感，而60Hz左右的声音可能出现低频共振问题，本发明实施例可以将目标频段A中的预设频率调整为45Hz左右，以提升语音信号的磁性。可以理解，本领域技术人员可以根据实际应用需求，进行所需的信道均衡处理，本发明实施例对于具体的信道均衡处理过程不加以限制。

本发明实施例可以采用如下混响处理方式产生混响声。一种混响处理方式，通过与所需模拟空间的单位冲击响应进行卷积运算来产生混响声，该方式将空间的单位冲击响应和语音信号进行卷积运算，得到系统的输出信号。另一种混响处理方式，通过梳状滤波器和全通滤波器的简单级联或嵌套来产生混响声，利用滤波器的特性来产生混响信号。可以理解，本发明实施例对于具体的混响处理方式不加以限制。

可选地，本发明实施例的美化处理可以对应有触发条件，若符合触发条件，则执行本发明实施例的美化处理，否则不执行本发明实施例的美化处理。

可选地，上述触发条件可以为：所处环境为预设环境。预设环境可以表征需要进行美化处理的环境。

预设环境可由本领域技术人员根据实际应用需求，确定预设环境，例如，预设环境可以包括：室外环境、唱歌APP(应用程序，Application)的环境、或者检测歌曲的背景音的环境等。可以通过声音检测、和/或、图像识别的方式，确定所处环境。

例如，用户A在室外直播，本发明实施例可以通过声音检测、和/或图像识别的方式，判定用户A处于室外环境，因此自动触发本发明实施例的美化处理。

又如，用户B打开了“唱吧”APP，本发明实施例检测到歌曲的背景音，判定用户准备唱歌了，会自动触发本发明实施例的美化处理。

本发明实施例在所处环境为预设环境的情况下，执行本发明实施例的美化处理；而在所处环境不为预设环境的情况下，不执行本发明实施例的美化处理，可以降低美化处理所耗费的资源。

当然，本发明实施例可以任意环境下，均执行本发明实施例的美化处理。本发明实施例对于本发明实施例的美化处理是否具有触发条件不加以限制。

步骤203中，上述输出上述第二语音信号，具体包括：

播放上述第二语音信号，以使用户获得第一语音信号与第二语音信号之间的对比体验；和/或

向终端发送上述第二语音信号，可以使终端将第二语音信号应用于语音处理场景中。一种情况下，可以使终端向通信对端发送第二语音信号，可以适用于语音对话、直播、社交语音、游戏等场景。另一种情况下，在视频录制场景下，可以使终端将第二语音信号与录制的视频画面进行合成。

综上，本发明实施例的语音处理方法，耳机装置可以采集第一语音信号，并针对第一语音信号，提供经过美化处理后的第二语音信号。由于上述美化处理滤除了第一语音信号中的用户噪音，因此能够提高语音信号的清晰度和质量，进而能够帮助用户实现打动听众和增强自信的目的。

方法实施例二

参照图3，示出了本发明的一种语音处理方法实施例二的步骤流程图，应用于手机装置，具体可以包括如下步骤：

步骤301、采集第一语音信号；

步骤302、确定上述第一语音信号对应的第二语音信号；上述第二语音信号为对上述第一语音信号进行美化处理得到；上述美化处理具体包括：滤除上述第一语音信号中的用户噪音；上述用户噪音表征用户产生的噪音；

步骤303、输出上述第二语音信号；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤304、确定上述第一语音信号或通信对端的语音信号中第一关键词对应的第一音频；

步骤305、依据上述第一关键词的输出操作，输出上述第一音频。

本发明实施例采用语义分析方法，确定第一语音信号或通信对端的语音信号中第一关键词，并自动确定第一关键词对应的第一音频。这样，可以在播放带有第一关键词的语音信号的过程中，提供第一音频的伴奏效果，进而能够增加语音处理过程中的趣味性。语义分析方法可以包括：句子成分分析方法、机器学习方法等，可以理解，本发明实施例对于具体的语义分析方法不加以限制。

例如，在语音对话过程中，对话的任一方说到第一关键词“外面闪电好大”，则任一方的耳机装置会自动获取闪电的音频，并向对话的双方提供闪电的音频。又如，在语音对话过程中，对话的任一方说到第一关键词“我知道真相了”，则可以向对话的双方提供柯楠经典台词“真相只有一个”的音频。再如，在直播场景下，主播说到第一关键词“好尴尬啊”，则可以提供“大片乌鸦飞过”的音频。

本发明实施例中，可选的是，可以首先利用语音识别技术，将第一语音信号转换为第一文本，然后从第一文本中获取第一关键词。当然，也可以利用语义分析技术，直接从第一语音信号中获取第一关键词对应的语音信号。

本发明实施例中，可选的是，可以保存有关键词与音频之间的映射关系，这样，可以依据第一关键词，在上述映射关系中进行查找，以得到第一音频。

本发明实施例中，可选的是，上述第一音频中的第二关键词与上述第一关键词相匹配，上述第二关键词源自预设作品。

第二关键词与第一关键词匹配，可以包括：字符相同、语义相同、语义相近、或语义相关等。预设作品的种类可以包括：小说、诗词、散文、论文、速记记录、数字游戏等文字作品；讲课、演说、布道等口语作品；配词或未配词的音乐作品；戏剧或音乐戏剧作品；哑剧和舞蹈艺术作品、绘画、书法、版画、雕塑、雕刻等美术作品；实用美术作品；建筑艺术作品；摄影艺术作品；电影作品等。

步骤305中，输出第一关键词可以包括：播放语音信号中的第一关键词、或者用户对语音信号中的第一关键词进行发声等。本发明实施例可以在输出第一关键词的过程中、或者可以第一关键词被输出完毕后，播放第一音频，以实现第一关键词和第一音频的配合效果。

综上，本发明实施例的语音处理方法，采用语义分析方法，确定第一语音信号或通信对端的语音信号中第一关键词，并自动确定第一关键词对应的第一音频。这样，可以在播放带有第一关键词的语音信号的过程中，提供第一音频的伴奏效果，进而能够增加语音处理过程中的趣味性。

方法实施例三

参照图4，示出了本发明的一种语音处理方法实施例三的步骤流程图，应用于手机装置，具体可以包括如下步骤：

步骤401、采集第一语音信号；

步骤402、确定上述第一语音信号对应的第二语音信号；上述第二语音信号为对上述第一语音信号进行美化处理得到；上述美化处理具体包括：滤除上述第一语音信号中的用户噪音；上述用户噪音表征用户产生的噪音；

步骤403、输出上述第二语音信号；

相对于图2所示方法实施例一，本实施例的方法还可以包括：

步骤404、确定上述第一语音信号对应的第二音频；所述第一语音信号对应的第一文本与所述第二音频对应的第二文本相匹配，或者，所述第一语音信号对应的第一语音片段与所述第二音频中第二语音片段相匹配；

步骤405、输出上述第二音频。

本发明实施例中，第一文本对应的语言单元可以为句子、短语等。本发明实施例可以将第一文本转换为第二文本，以优化或丰富第一文本对应的表达，以得到表达能力更好的第二文本。

可选地，第二文本的语言风格可以为：幽默风格、活泼风格、或书香风格等，以提高语音处理的趣味性。语言风格可由用户指定，以符合用户需求。

例如，第一文本为“好难过”，则对应的第二文本可以包括：“宝宝心里苦，宝宝要说”、“宝宝有些小难过，小伤感”、“心里好难受啊，堵得慌”、“眼睛干干的，有想哭的情绪”等。

可选地，第一文本的文本主题与第二文本的文本主题相同。可选地，可以依据第一文本的文本主题，在文本主题、语言风格与文本之间的映射关系中进行查找，以得到第二文本。

在得到第二文本后，可以依据用户自身的音色、或者用户指定的第三方音色，利用TTS(语音合成，Text To Speech)技术，将第二文本转换为第二音频。可以理解，可以按照语音合成参数，得到符合需求的第二音频。

可选地，语音合成参数可以包括：音色参数、音高参数和响度参数中的至少一种。

其中，音色参数可以指不同的声音的频率表现在波形方面的与众不同的特性，通常不同的发声体对应不同的音色，因此可以按照音色参数，得到与目标发声体的音色相匹配的第二音频，目标发声体可以为用户自身，或者可由用户指定，例如，目标发声体可以为指定的媒体工作者等。在实际应用中，可以依据目标发声体的预设长度的音频，得到目标发声体的音色参数。

音高参数可以表征声调，用频率来衡量。响度参数，又称之为声强或音量，可以指声音的大小，用分贝(dB)衡量。

可以理解，上述依据第一文本与第二文本之间的关系，确定第二音频，只是作为可选实施例。实际上，本发明实施例还可以依据第一语音片段与第二语音片段之间的关系，确定第二音频。其中，相对于第一语音片段，第二语音片段可以具有相同或相近的语义，但对表达进行了优化，例如，对语言风格进行了扩展，例如，提供多种语言风格，供用户选择。

步骤405中，第二音频可以起到替代第一文本或第一语音片段对应的第三语音信号的作用。第三语音信号可以对应第一语音信号的部分或全部。

在第三语音信号对应第一语音信号的全部的情况下，第二音频可以替代全部的第一语音信号或第二语音信号。此种情况下，可以将第二音频用于语音处理场景，例如，向通信对端发送第二音频。

在第三语音信号对应第一语音信号的部分的情况下，可以按照第一文本或第一语音片段所处的位置，按照顺序对第一语音信号或第二语音信号的部分、以及第二音频进行组合，并将组合音频应用于语音处理场景。

例如，第一语音信号包括：文本A、文本B和文本C，假设将文本A转换为文本A’，则可以依次将文本A’对应的第二音频、以及文本B和文本C对应的语音信号进行组合。假设将文本B转换为文本B’，则可以依次将文本A对应的语音信号、文本B’对应的第二音频、以及文本C对应的语音信号进行组合。

本发明实施例可以在输出第一文本对应的语音信号的过程中、或者可以第一文本对应的语音信号被输出完毕后，播放第二音频，以使用户获得第一文本对应的第一语音信号和第二音频的对比体验。

综上，本发明实施例的语音处理方法，将第一语音信号中第一文本转换为第二文本，并输出第二文本对应的第二音频；或者，将第一语音信号中的第一语音片段转换为第二音频中的第二语音片段。在语音处理场景下，可以将用户原始产生的一句普通的话，转换为一句趣味感十足的话，能够提增强语音处理过程中的趣味感。或者，可以将用户原始产生的一个词或一个短语，转换为用户喜好的语言风格的表达，以提高表达质量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图5，示出了本发明的一种语音处理装置实施例的结构框图，应用于耳机装置，该语音处理装置具体可以包括：

采集模块501，用于采集第一语音信号；

确定模块502，用于确定所述第一语音信号对应的第二语音信号；所述第二语音信号为对所述第一语音信号进行美化处理得到；所述美化处理包括：滤除所述第一语音信号中的用户噪音；所述用户噪音表征用户产生的噪音；

输出模块503，用于输出所述第二语音信号。

可选地，上述用户噪音可以包括：哈气音、咳嗽音、颤音和口音中的至少一种。

可选地，上述确定模块可以包括：

第一确定模块，用于确定用户噪音对应的预设声纹特征；

第一处理模块，用于从上述第一语音信号中滤除与上述预设声纹特征相对应的声音信号，以得到第二语音信号。

可选地，上述确定模块可以包括：

第二确定模块，用于确定上述第一语音信号对应的目标语音类别；

第二处理模块，用于依据目标语音类别对应的第一语音参数，对上述第一语音信号进行处理，得到的第二语音信号对应的第二语音参数与上述第一语音参数相匹配。

可选地，上述输出模块可以包括：

播放模块，用于播放上述第二语音信号；和/或

发送模块，用于向终端发送上述第二语音信号。

可选地，上述美化处理还可以包括：音效处理；

上述音效处理可以包括如下处理中的至少一种：环绕处理、信道均衡处理、以及混响处理。

可选地，上述装置还可以包括：

第三确定模块，用于确定上述第一语音信号或通信对端的语音信号中第一关键词对应的第一音频；

第一音频输出模块，用于依据上述第一关键词的输出操作，输出上述第一音频；

上述第一音频中的第二关键词与上述第一关键词相匹配，上述第二关键词源自预设作品。

可选地，上述装置还可以包括：

第四确定模块，用于确定上述第一语音信号对应的第二音频；上述第一语音信号对应的第一文本与上述第二音频对应的第二文本相匹配，或者，上述第一语音信号对应的第一语音片段与上述第二音频中第二语音片段相匹配；

第二音频输出模块，用于输出上述第二音频。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于语音处理的装置1300的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当装置1300处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种语音处理方法，所述方法包括：。

图7是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例公开了A1、一种语音处理方法，应用于耳机装置，所述方法包括：

采集第一语音信号；

输出所述第二语音信号。

A2、根据A1所述的方法，所述用户噪音包括：哈气音、咳嗽音、颤音和口音中的至少一种。

A3、根据A1或2所述的方法，所述确定所述第一语音信号对应的第二语音信号，包括：

确定用户噪音对应的预设声纹特征；

从所述第一语音信号中滤除与所述预设声纹特征相对应的声音信号，以得到第二语音信号。

A4、根据A1或A2所述的方法，所述确定所述第一语音信号对应的第二语音信号，包括：

确定所述第一语音信号对应的目标语音类别；

依据目标语音类别对应的第一语音参数，对所述第一语音信号进行处理，得到的第二语音信号对应的第二语音参数与所述第一语音参数相匹配。

A5、根据A1或A2所述的方法，所述输出所述第二语音信号，包括：

播放所述第二语音信号；和/或

向终端发送所述第二语音信号。

A6、根据A1或A2所述的方法，所述美化处理还包括：音效处理；

所述音效处理包括如下处理中的至少一种：环绕处理、信道均衡处理、以及混响处理。

A7、根据A1或A2所述的方法，所述方法还包括：

确定所述第一语音信号或通信对端的语音信号中第一关键词对应的第一音频；

依据所述第一关键词的输出操作，输出所述第一音频；

所述第一音频中的第二关键词与所述第一关键词相匹配，所述第二关键词源自预设作品。

A8、根据A1或A2所述的方法，所述方法还包括：

确定所述第一语音信号对应的第二音频；所述第一语音信号对应的第一文本与所述第二音频对应的第二文本相匹配，或者，所述第一语音信号对应的第一语音片段与所述第二音频中第二语音片段相匹配；

输出所述第二音频。

本发明实施例公开了B9、一种语音处理装置，应用于耳机装置，所述语音处理装置包括：

采集模块，用于采集第一语音信号；

输出模块，用于输出所述第二语音信号。

B10、根据B9所述的装置，所述用户噪音包括：哈气音、咳嗽音、颤音和口音中的至少一种。

B11、根据B9或B10所述的装置，所述确定模块包括：

第一确定模块，用于确定用户噪音对应的预设声纹特征；

第一处理模块，用于从所述第一语音信号中滤除与所述预设声纹特征相对应的声音信号，以得到第二语音信号。

B12、根据B9或B10所述的装置，所述确定模块包括：

第二确定模块，用于确定所述第一语音信号对应的目标语音类别；

第二处理模块，用于依据目标语音类别对应的第一语音参数，对所述第一语音信号进行处理，得到的第二语音信号对应的第二语音参数与所述第一语音参数相匹配。

B13、根据B9或B10所述的装置，所述输出模块包括：

播放模块，用于播放所述第二语音信号；和/或

发送模块，用于向终端发送所述第二语音信号。

B14、根据B9或B10所述的装置，所述美化处理还包括：音效处理；

B15、根据B9或B10所述的装置，所述装置还包括：

第三确定模块，用于确定所述第一语音信号或通信对端的语音信号中第一关键词对应的第一音频；

第一音频输出模块，用于依据所述第一关键词的输出操作，输出所述第一音频；

B16、根据B9或B10所述的装置，所述装置还包括：

第四确定模块，用于确定所述第一语音信号对应的第二音频；所述第一语音信号对应的第一文本与所述第二音频对应的第二文本相匹配，或者，所述第一语音信号对应的第一语音片段与所述第二音频中第二语音片段相匹配；

第二音频输出模块，用于输出所述第二音频。

本发明实施例公开了C17、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采集第一语音信号；

输出所述第二语音信号。

C18、根据C17所述的装置，所述用户噪音包括：哈气音、咳嗽音、颤音和口音中的至少一种。

C19、根据C17或C18所述的装置，所述确定所述第一语音信号对应的第二语音信号，包括：

确定用户噪音对应的预设声纹特征；

C20、根据C17或C18所述的装置，所述确定所述第一语音信号对应的第二语音信号，包括：

确定所述第一语音信号对应的目标语音类别；

C21、根据C17或C18所述的装置，所述输出所述第二语音信号，包括：

播放所述第二语音信号；和/或

向终端发送所述第二语音信号。

C22、根据C17或C18所述的装置，所述美化处理还包括：音效处理；

C23、根据C17或C18所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述第一关键词的输出操作，输出所述第一音频；

C24、根据C17或C18所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

输出所述第二音频。

本发明实施例公开了D25、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A8中一个或多个所述的方法。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，应用于耳机装置，所述方法包括：

采集第一语音信号；

输出所述第二语音信号；

所述确定所述第一语音信号对应的第二语音信号，包括：

确定所述第一语音信号对应的目标语音类别；依据目标语音类别对应的第一语音参数，对所述第一语音信号进行处理，得到的第二语音信号对应的第二语音参数与所述第一语音参数相匹配；所述目标语音类别包括：女音，或男音，或童音；

所述方法还包括：

确定所述第一语音信号对应的第二音频；所述第一语音信号对应的第一文本与所述第二音频对应的第二文本相匹配，或者，所述第一语音信号对应的第一语音片段与所述第二音频中第二语音片段相匹配；输出所述第二音频。

2.根据权利要求1所述的方法，其特征在于，所述用户噪音包括：哈气音、咳嗽音、颤音和口音中的至少一种。

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述第一语音信号对应的第二语音信号，包括：

确定用户噪音对应的预设声纹特征；

4.根据权利要求1或2所述的方法，其特征在于，所述输出所述第二语音信号，包括：

播放所述第二语音信号；和/或

向终端发送所述第二语音信号。

5.根据权利要求1或2所述的方法，其特征在于，所述美化处理还包括：音效处理；

6.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

依据所述第一关键词的输出操作，输出所述第一音频；

7.一种语音处理装置，其特征在于，应用于耳机装置，所述语音处理装置包括：

采集模块，用于采集第一语音信号；

输出模块，用于输出所述第二语音信号；

所述确定模块包括：

第二处理模块，用于依据目标语音类别对应的第一语音参数，对所述第一语音信号进行处理，得到的第二语音信号对应的第二语音参数与所述第一语音参数相匹配；所述目标语音类别包括：女音，或男音，或童音；

所述装置还包括：

第二音频输出模块，用于输出所述第二音频。

8.根据权利要求7所述的装置，其特征在于，所述用户噪音包括：哈气音、咳嗽音、颤音和口音中的至少一种。

9.根据权利要求7或8所述的装置，其特征在于，所述确定模块包括：

第一确定模块，用于确定用户噪音对应的预设声纹特征；

10.根据权利要求7或8所述的装置，其特征在于，所述输出模块包括：

播放模块，用于播放所述第二语音信号；和/或

发送模块，用于向终端发送所述第二语音信号。

11.根据权利要求7或8所述的装置，其特征在于，所述美化处理还包括：音效处理；

12.根据权利要求7或8所述的装置，其特征在于，所述装置还包括：

13.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采集第一语音信号；

输出所述第二语音信号；

所述确定所述第一语音信号对应的第二语音信号，包括：

所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

14.根据权利要求13所述的装置，其特征在于，所述用户噪音包括：哈气音、咳嗽音、颤音和口音中的至少一种。

15.根据权利要求13或14所述的装置，其特征在于，所述确定所述第一语音信号对应的第二语音信号，包括：

确定用户噪音对应的预设声纹特征；

16.根据权利要求13或14所述的装置，其特征在于，所述输出所述第二语音信号，包括：

播放所述第二语音信号；和/或

向终端发送所述第二语音信号。

17.根据权利要求13或14所述的装置，其特征在于，所述美化处理还包括：音效处理；

18.根据权利要求13或14所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述第一关键词的输出操作，输出所述第一音频；

19.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的方法。