CN103456305A

CN103456305A - 终端和基于多个声音采集单元的语音处理方法

Info

Publication number: CN103456305A
Application number: CN2013104226604A
Authority: CN
Inventors: 不公告发明人
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd; Dongguan Yulong Telecommunication Technology Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd; Dongguan Yulong Telecommunication Technology Co Ltd
Priority date: 2013-09-16
Filing date: 2013-09-16
Publication date: 2013-12-18
Anticipated expiration: 2033-09-16
Also published as: CN103456305B

Abstract

本发明提供了一种终端，包括：多个声音采集单元，分别用于采集声音数据；检测单元，检测所述终端当前所处的语音模式；语音处理单元，根据检测到的语音模式，选择对应的语音处理方式对所述多个声音采集单元采集的声音数据进行处理。相应地，本发明还提供了一种基于多个声音采集单元的语音处理方法。通过本发明的技术方案，可以针对不同的语音应用执行不同的语音处理，从而达到更好的语音处理效果。

Description

终端和基于多个声音采集单元的语音处理方法

技术领域

本发明涉及通信技术领域，具体而言，涉及一种终端和一种基于多个声音采集单元的语音处理方法。

背景技术

为了提高手机的语音应用的质量，许多手机厂商都通过增加麦克风数量来增加语音应用的质量，现有的多麦克风终端主要包括两麦克风终端和三麦克风终端，分别如图1和图2所示，而无论是两麦克风终端还是三麦克风终端，通常都是通过一个麦克风主要采集人声信号，其他麦克风来主要采集噪音信号来进行语音处理的，但是现有的两麦克风或三麦克风终端，在不同的语音应用中，其语音应用的处理方式只有一种，而且这种语音处理方式并不能适用于所有的语音应用，例如用户在将终端放在耳边打电话时，和在用户将终端放在眼前发送微信语音时，终端的摆放方式和嘴的距离及方位是不同的，因此，其各个麦克风接收的语音数据就会有所变化，若采用目前的语音增强技术，就不能兼顾这些变化，导致语音数据处理结果不准确，在相关技术中，并未针对不同的语音应用场景提出不同的语音处理方式，用户在不同的应用间来回切换时，也并不能够实现语音处理方式的切换，而只能使用同一种语音处理方式。

因此，需要一种新的技术方案，可以针对不同的语音应用场景执行不同的语音处理，从而达到更好的语音处理效果。

发明内容

本发明正是基于上述问题，提出了一种新的技术方案，可以针对不同的语音应用场景执行不同的语音增强方法，从而达到更好的语音处理效果。

有鉴于此，本发明提出了一种终端，包括：多个声音采集单元，分别用于采集声音数据；检测单元，检测所述终端当前所处的语音模式；语音处理单元，根据检测到的语音模式，选择对应的语音处理方式对所述多个声音采集单元采集的声音数据进行处理。

在该技术方案中，根据语音模式（语音模式可以理解为是一种特定的语音应用场景，例如用户发声位置与终端之间的某个特定相对位置，或启动特定的语音应用）的不同，可以采用不同的语音处理方式对声音数据进行处理，其中，语音模式可以包括打电话模式、基于语音信号录制或传输的应用模式（如微信、QQ里的语音聊天、对讲机应用、语音录制应用、语音记事本等）、基于语音识别或说话人识别的语音应用模式等，这样，针对不同的语音模式进行不同的语音处理，自适应选择合适的语音处理方式，不仅可提高语音处理的准确性，还可以满足用户在不同模式下的不同需求，给用户带来了更好的使用体验。

在上述技术方案中，优选地，所述语音处理单元包括：第一处理子单元，当检测到所述终端处于第一语音模式时，所述多个声音采集单元中的一个声音采集单元采集声音得到第一声音数据，所述多个声音采集单元中的其他声音采集单元采集声音得到第二声音数据，从所述第一声音数据中过滤所述第二声音数据，得到降噪后的声音数据。

在该技术方案中，第一语音模式可以是正常的语音通话模式（如将终端放在耳边接听电话），多个声音采集单元可以是多个麦克风，用户在进行正常语音通话时，终端下端的声音采集单元主要获取的是人的说话声音，而终端的其他位置上的声音采集单元主要获取的是外部环境的噪音，这样，从终端下端的声音采集单元采集的声音中过滤掉终端的其他位置上的声音采集单元采集的外部环境噪音，就可以获取到清晰的人声，从而达到降噪的目的。

在上述技术方案中，优选地，所述语音处理单元还包括：第二处理子单元，当检测到所述终端处于第二语音模式时，根据所述多个声音采集单元分别获取的声音数据来确定用户的发声位置，从每个声音采集单元采集的声音数据中提取来自所述用户的发声位置方向的声音信号，对提取的多个声音信号进行处理得到降噪后的声音数据。

在该技术方案中，第二语音模式所针对的语音应用场景可以是使用一些特定的语音应用的场景，例如用户不是正常的接听电话，如在进行微信语音聊天时，将终端置于眼前，在终端处于第二语音模式时，可以利用终端上的多个声音采集单元形成一个声音采集阵列，用基于阵列信号的处理方法来对音源进行定位，即对终端用户的发生源—嘴的方位进行定位，在获取到音源的方位信息之后，各个声音采集单元就能够有针对性的对该音源方向所传播的声音进行提取，从而抑制来自其他方向的各种环境噪音，达到降噪的目的。

在上述技术方案中，优选地，所述语音处理单元还包括：第三处理子单元，当检测到所述终端处于第三语音模式时，控制所述多个声音采集单元分别采集声音信号，根据所述多个声音采集单元的声音信号确定综合语音模型，并根据所述综合语音模型来进行语音识别。

在该技术方案中，第三语音模式所针对的语音应用场景可以是语音识别或说话人识别的场景，由于终端中的多个声音采集单元会置于其上的不同位置，那么它们距离发声源的方向和距离是有差异的，所以每个声音采集单元获取到的语音信号也是有差异的，这样，根据多个声音获取单元获取的声音信号来确定综合语音模型，使得最终的语音识别率更高、更准确。

在上述技术方案中，优选地，所述第三处理子单元还包括：第一确定子单元，根据每个所述声音信号构建一个语音模型，并比较建立的多个语音模型，从中选择一个语音模型作为所述综合语音模型，根据所述综合语音模型来进行语音识别。

在该技术方案中，从多个声音信号构建的多个语音模型中选择一个语音模型作为综合语音模型，其中，选择的一个语音模型可以是最能体现语言特征，并能进行有效识别的语音模型，这样，可以保证语音识别的识别率。

在上述技术方案中，优选地，所述第三处理子单元还包括：第二确定子单元，根据每个所述声音信号构建一个语音模型，并将建立的多个语音模型进行融合，生成所述综合语音模型，根据所述综合语音模型来进行语音识别。

在该技术方案中，为了保证语音识别的识别率，还可以将建立的多个语音模型融合在一起，构建一个更好的语音模型，用于后续的识别工作。其中，将多个语音模型进行融合具体可以为：根据每个声音信号构建的语音模型，将所有声音特征进行分类，针对每种声音特征类型，从多个声音信号中选择一个最合适的声音特征来代表该声音特征类型，最后根据选取的各个声音特征类型构建一个综合语音模型，这样，使得最终的语音识别率更高、更准确。

在上述技术方案中，优选地，所述检测单元包括：第一判定子单元，为每个语音应用绑定一个语音模式，在启动指定语音应用时，获取与所述指定语音应用对应的语音模式，以确定所述终端当前所处的语音模式；和/或第二判定子单元，为每段距离范围设定一个语音模式，通过设置在所述终端上的传感器检测所述终端与用户之间的距离，根据所述距离属于的距离范围确定与所述距离对应的语音模式，以确定所述终端当前所处的语音模式。

在该技术方案中，语音模式的判定可以通过两种方式来实现，一种是将语音应用和语音模式进行绑定，比如将拨号盘应用和第一语音模式进行绑定，微信和第二语音模式进行绑定，这样，在用户进入拨号盘应用时，根据该语音应用场景确定终端当前所处的语音模式为第一语音模式，那么会自适应执行第一语音模式下的语音处理操作，而当用户退出拨号盘应用，进入微信应用时，根据该语音应用场景确定终端当前所处的语音模式切换到第二语音模式，那么会自适应执行第二语音模式下的语音处理操作；另一种是通过距离传感器来判定终端所处的语音模式，比如，距离传感器检测到用户的耳朵离距离传感器较近，则认为终端当前所处的语音模式为第一语音模式，如果检测到用户的耳朵离距离传感器较远，则认为终端当前所处的语音模式为第二语音模式，这样，可以保证为不同的语音应用提供适合的语音模式，从而执行适合的语音处理，达到更好的语音处理效果。

根据本发明的又一方面，还提供了一种基于多个声音采集单元的语音处理方法，包括：步骤402，检测终端当前所处的语音模式；步骤404，根据检测到的语音模式，选择对应的语音处理方式对所述多个声音采集单元采集的声音数据进行处理。

根据语音模式（语音模式可以理解为是一种特定的语音应用场景，例如用户发声位置与终端之间的某个特定相对位置，或启动特定的语音应用）的不同，可以采用不同的语音处理方式对声音数据进行处理，其中，语音模式可以包括打电话模式、基于语音信号录制或传输的应用模式（如微信、QQ里的语音聊天、对讲机应用、语音录制应用、语音记事本等）、基于语音识别或说话人识别的语音应用模式等，这样，针对不同的语音模式进行不同的语音处理，自适应选择合适的语音处理方式，不仅可提高语音处理的准确性，还可以满足用户在不同模式下的不同需求，给用户带来了更好的使用体验。

在上述技术方案中，优选地，所述步骤202还包括：当检测到所述终端处于第一语音模式时，所述多个声音采集单元中的一个声音采集单元采集声音得到第一声音数据，所述多个声音采集单元中的其他声音采集单元采集声音得到第二声音数据，从所述第一声音数据中过滤所述第二声音数据，得到降噪后的声音数据。

在上述技术方案中，优选地，所述步骤404还包括：当检测到所述终端处于第二语音模式时，根据所述多个声音采集单元分别获取的声音数据来确定用户的发声位置，从每个声音采集单元采集的声音数据中提取来自所述用户的发声位置方向的声音信号，对提取的多个声音信号进行处理得到降噪后的声音数据。

第二语音模式所针对的语音应用场景可以是使用一些特定的语音应用的场景，例如用户不是正常的接听电话，如在进行微信语音聊天时，将终端置于眼前，在终端处于第二语音模式时，可以利用终端上的多个声音采集单元形成一个声音采集阵列，用基于阵列信号的处理方法来对音源进行定位，即对终端用户的发生源—嘴的方位进行定位，在获取到音源的方位信息之后，各个声音采集单元就能够有针对性的对该音源方向所传播的声音进行提取，从而抑制来自其他方向的各种环境噪音，达到降噪的目的。

在上述技术方案中，优选地，所述步骤404还包括：当检测到所述终端处于第三语音模式时，控制所述多个声音采集单元分别采集声音信号，根据所述多个声音采集单元的声音信号确定综合语音模型，并根据所述综合语音模型来进行语音识别。

在上述技术方案中，优选地，根据每个所述声音信号构建一个语音模型，并比较建立的多个语音模型，从中选择一个语音模型作为所述综合语音模型，根据所述综合语音模型来进行语音识别。

在该技术方案中，从多个声音信号构建的多个语音模型中选择一个语音模型作为综合语音模型，其中，选择的一个语音模型可以是最能体现语言特征，并能进行有效识别的，这样，可以保证语音识别的识别率。

在上述技术方案中，优选地，根据每个所述声音信号构建一个语音模型，并将建立的多个语音模型进行融合，生成所述综合语音模型，根据所述综合语音模型来进行语音识别。

在上述技术方案中，优选地，为每个语音应用绑定一个语音模式，在启动指定语音应用时，获取与所述指定语音应用对应的语音模式，以确定所述终端当前所处的语音模式；和/或为每段距离范围设定一个语音模式，通过设置在所述终端上的传感器检测所述终端与用户之间的距离，根据所述距离属于的距离范围确定与所述距离对应的语音模式，以确定所述终端当前所处的语音模式。

语音模式的判定可以通过两种方式来实现，一种是将语音应用和语音模式进行绑定，比如将拨号盘应用和第一语音模式进行绑定，微信和第二语音模式进行绑定，这样，在用户进入拨号盘应用时，根据该语音应用场景确定终端当前所处的语音模式为第一语音模式，那么会自适应执行第一语音模式下的语音处理操作，而当用户退出拨号盘应用，进入微信应用时，根据该语音应用场景确定终端当前所处的语音模式切换到第二语音模式，那么会自适应执行第二语音模式下的语音处理操作；另一种是通过距离传感器来判定终端所处的语音模式，比如，距离传感器检测到用户的耳朵离距离传感器较近，则认为终端当前所处的语音模式为第一语音模式，如果检测到用户的耳朵离距离传感器较远，则认为终端当前所处的语音模式为第二语音模式，这样，可以保证为不同的语音应用提供适合的语音模式，从而执行适合的语音处理，达到更好的语音处理效果。通过以上技术方案，可以针对不同的语音应用执行不同的语音处理，从而达到更好的语音处理效果。

附图说明

图1示出了双麦克风终端的双麦克风位置布置示意图；

图2示出了三麦克风终端的三麦克风位置布置示意图；

图3示出了根据本发明的实施例的终端的框图；

图4示出了根据本发明的实施例的基于多个声音采集单元的语音处理方法的流程图；

图5A和图5B示出了根据本发明的实施例的语音模式的示意图；

图6示出了根据本发明的实施例的语音识别应用的流程图；

图7示出了根据本发明的实施例的具有距离传感器的终端示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。由于装配两或三麦克风的手机的降噪技术仅仅是针对通话场景提出的。但是随着智能终端的发展，基于语音的各种应用成为了软件热点，例如基于语音识别，说话人识别的各种应用等，这些语音应用不再需要将手机放在耳朵边听取来自听筒的声音了（因为许多语音应用只会接收声音而不会发出声音），而是要将手机放在眼睛能看到屏幕的地方，然后根据屏幕提示进行语音输入，在这种情况下，如果再使用传统的降噪方案（即“背景技术”中所介绍的），就起不到好的降噪作用了，因为当手机置于人眼前方时，手机上端麦克风所获取的信号不再是以环境噪音信号为主了，它与下端的麦克风所获取的说话声和环境噪音信号的差异将会降低，在这一情况下，传统的降噪方案就不再有效，因此提出了如下面所描述的技术方案，但不仅限于下面所描述的各实施例。

图3示出了根据本发明的实施例的终端的框图。

如图3所示，根据本发明的实施例的终端300，包括：多个声音采集单元302，分别用于采集声音数据；检测单元304，检测所述终端当前所处的语音模式；语音处理单元306，根据检测到的语音模式，选择对应的语音处理方式对所述多个声音采集单元采集的声音数据进行处理。

在上述技术方案中，优选地，所述语音处理单元306包括：第一处理子单元3062，当检测到所述终端处于第一语音模式时，所述多个声音采集单元中的一个声音采集单元采集声音得到第一声音数据，所述多个声音采集单元中的其他声音采集单元采集声音得到第二声音数据，从所述第一声音数据中过滤所述第二声音数据，得到降噪后的声音数据。

在该技术方案中，第一语音模式可以是正常的语音通话模式（如将终端放在耳边接听电话），多个声音采集单元可以是多个麦克风，用户在进行正常语音通话时，终端下端的声音采集单元主要获取的是人的说话声音，而终端的其他位置上的声音采集单元主要获取的是外部环境的噪音，这样，从终端下端的声音采集单元采集的声音中过滤掉终端的其他位置的声音采集单元采集的外部环境噪音，就可以获取到清晰的人声，从而达到降噪的目的。

在上述技术方案中，优选地，所述语音处理单元306还包括：第二处理子单元3064，当检测到所述终端处于第二语音模式时，根据所述多个声音采集单元分别获取的声音数据来确定用户的发声位置，从每个声音采集单元采集的声音数据中提取来自所述用户的发声位置方向的声音信号，对提取的多个声音信号进行处理得到降噪后的声音数据。

第二语音模式所针对的语音应用场景可以是使用一些特定的语音应用的场景，例如用户不是正常的接听电话，如在进行微信语音聊天时，将终端置于眼前，在终端处于第二语音模式时，可以利用终端上的多个声音采集单元形成一个声音采集阵列，用基于阵列信号的处理方法来对音源进行定位，即对终端用户的发生源—嘴的方位进行定位，在获取到音源的方位信息之后，各个声音采集单元就能够有针对性的对该音源方向所传播的声音进行提取，从而抑制来自其他方向的各种环境噪音，达到降噪的目的。在本实施例中，由于每一个声音采集单元都只采集到达的声音信号，没有任何其他信息。因此在实施过程中，声音方向的判断实际上是通过声源到达各个声音采集单元的时间差异计算而得到的。

在上述技术方案中，优选地，所述语音处理单元306还包括：第三处理子单元3066，当检测到所述终端处于第三语音模式时，控制所述多个声音采集单元分别采集声音信号，根据所述多个声音采集单元的声音信号确定综合语音模型，并根据所述综合语音模型来进行语音识别。

在上述技术方案中，优选地，所述第三处理子单元3066还包括：第一确定子单元3066A，根据每个所述声音信号构建一个语音模型，并比较建立的多个语音模型，从中选择一个语音模型作为所述综合语音模型，根据所述综合语音模型来进行语音识别。

在该技术方案中，从多个声音信号构建的多个语音模型中选择一个语音模型作为综合语音模型，其中，选择的一个语音模型可以是最能体现语言特征，并能进行有效识别的语音模型。例如，对每一个声音采集单元采集的声音信号进行处理后，选择有最好识别效果的声音采集单元所采集的声音信号，并根据该声音采集单元所采集的声音信号建立模型。这样，可以保证语音识别的识别率。

在上述技术方案中，优选地，所述第三处理子单元3066还包括：第二确定子单元3066B，根据每个所述声音信号构建一个语音模型，并将建立的多个语音模型进行融合，生成所述综合语音模型，根据所述综合语音模型来进行语音识别。比如，对所采集的每个声音信号分别进行语音特征提取，然后通过聚类的方法从中选取最能代表语音信号内容的特征，用其生成所述综合语音模型，最后根据所述综合语音模型来进行语音识别。

在上述技术方案中，优选地，所述检测单元304包括：第一判定子单元3042，为每个语音应用绑定一个语音模式，在启动指定语音应用时，获取与所述指定语音应用对应的语音模式，以确定所述终端当前所处的语音模式；和/或第二判定子单元3044，为每段距离范围设定一个语音模式，通过设置在所述终端上的传感器检测所述终端与用户之间的距离，根据所述距离属于的距离范围确定与所述距离对应的语音模式，以确定所述终端当前所处的语音模式。

语音模式的判定可以通过两种方式来实现，一种是将语音应用和语音模式进行绑定，比如将拨号盘应用和第一语音模式进行绑定，微信和第二语音模式进行绑定，这样，在用户进入拨号盘应用时，根据该语音应用场景确定终端当前所处的语音模式为第一语音模式，那么会自适应执行第一语音模式下的语音处理操作，而当用户退出拨号盘应用，进入微信应用时，根据该语音应用场景确定终端当前所处的语音模式切换到第二语音模式，那么会自适应执行第二语音模式下的语音处理操作；另一种是通过距离传感器来判定终端所处的语音模式，比如，距离传感器检测到用户的耳朵离距离传感器较近，则认为终端当前所处的语音模式为第一语音模式，如果检测到用户的耳朵离距离传感器较远，则认为终端当前所处的语音模式为第二语音模式，这样，可以保证为不同的语音应用提供适合的语音模式，从而执行适合的语音处理，达到更好的语音处理效果。

图4示出了根据本发明的实施例的基于多个声音采集单元的语音处理方法的流程图。

如图4所示，根据本发明的实施例的基于多个声音采集单元的语音处理方法，包括：步骤402，检测终端当前所处的语音模式；步骤404，根据检测到的语音模式，选择对应的语音处理方式对所述多个声音采集单元采集的声音数据进行处理。

在上述技术方案中，优选地，所述步骤404还包括：当检测到所述终端处于第一语音模式时，所述多个声音采集单元中的一个声音采集单元采集声音得到第一声音数据，所述多个声音采集单元中的其他声音采集单元采集声音得到第二声音数据，从所述第一声音数据中过滤所述第二声音数据，得到降噪后的声音数据。

在上述技术方案中，优选地，所述步骤402还包括：当检测到所述终端处于第三语音模式时，控制所述多个声音采集单元分别采集声音信号，根据所述多个声音采集单元的声音信号确定综合语音模型，并根据所述综合语音模型来进行语音识别。

在该技术方案中，从多个声音信号构建的多个语音模型中选择一个语音模型作为综合语音模型，其中，选择的一个语音模型可以是最能体现语言特征，并能进行有效识别的语音模型，这样，可以保证语音识别的识别率。例如，对每一个声音采集单元采集的声音信号进行处理后，选择有最好识别效果的声音采集单元所采集的声音信号，并根据该声音采集单元所采集的声音信号建立模型。

在上述技术方案中，优选地，根据每个所述声音信号构建一个语音模型，并将建立的多个语音模型进行融合，生成所述综合语音模型，根据所述综合语音模型来进行语音识别。比如，对所采集的每个声音信号分别进行语音特征提取，然后通过聚类的方法从中选取最能代表语音信号内容的特征，用其生成所述综合语音模型，最后根据所述综合语音模型来进行语音识别。

图5A和图5B示出了根据本发明的实施例的语音模式的示意图。

在手机的语音使用过程中，根据不同的语音应用使用场景或语音使用状态，可以使手机的多麦克风系统处于不同的语音处理方式之下，如图5A所示，在手机处于正常的语音通话状态时，启用第一语音处理方式，即手机下端的麦克风主要获取人的说话声（如图1中的麦克风1和图2中的麦克风1），上端的一个或多个麦克风（如图1中的麦克风2和图2中的麦克风2、麦克风3）主要获取环境噪音信号，然后根据获取的噪音信号特征，从下端麦克风的信号中除去噪音信号，以获取到清晰的人声。

如图5B所示，当手机不再用于语音通话，而是开始使用其他语音应用时（如微信或语音识别等），此时终端就会启用第二语音处理方式。假设用户开始使用微信/QQ等的语音聊天，则在使用这些应用时，用户通常需要看着手机屏幕，根据屏幕上的提示来进行语音输入，同时还要时刻观测所输入的信息是否正确，所以说在使用此类功能时，用户通常会将手机放在脸部前方眼睛下部的位置。那么这种手机操作方式就与传统的打电话方式完全不同，在这种情况下，由于手机上端和下端的麦克风接收到的语音输入信号以及环境噪音的差异相对较小，特别是上端麦克风中获取的环境噪音不再是信号的主体，所以，传统的语音处理方式已经不再有效，此时终端会切换至第二语音处理方式。在这种方式下，利用手机上的两个麦克风（如图1中的麦克风1和麦克风2），或三个麦克风如图2中的麦克风1、麦克风2和麦克风3）来形成一个麦克风阵列，用基于阵列信号的处理方法来对音源进行定位，即对手机用户发声源——嘴的方位进行定位，在获得方位信息以后，就能有针对性地对这个方向所传播的声音进行提取，而抑制来自其他方向的各种环境噪音，从而起到降噪作用。

同样的，当用户进入一些基于语音识别或说话人识别等技术的应用时（如将用户说的话转换成短信等），需要将输入的声音信号进行处理与转换，例如转化为文字，或需要从中提取人的语言特征等，此时，终端将进入第三语音处理方式，在第三语音处理方式（语音输入增强方式）下，利用多个麦克风同时拾取语音信号，并将这些信号同时用于语音识别，这样会获得更好的识别效果。因为手机上的多个麦克风分别置于其上不同位置，那么它们距离发声源——嘴的方向和距离是有差异的，所以每一个麦克风所获取的语音信号也是有差异的，这样，独立地对每一个麦克风信号进行处理，提取其语音特征，建立各自的语音模型，然后综合考虑这些因素，构建更加客观语音模型，增强语音输入，使得最终的语音识别率更高。如图6所示，下面以具备三个麦克风的手机为例，提出针对语音识别应用的实现过程：手机上的每一个麦克风分别独立获取语音信号，并分别提取语音特征，然后对三个信号获取的语音特征综合在一起，通过聚类的方法进行语音特征选择，选择最能代表语音内容的一些特征，并用其建立一个综合的语音模型，然后再用通常的语音识别方法来进行语音识别（如基于神经网络的方法，基于统计模型的方法等），并将识别结果进行后处理，输出应用结果。

其中，综合语音模型的建立可以采用下列两种方法：

（1）将多个麦克风语音信号所建立的语音模型进行对比研究，看哪一个模型能够最好地体现语音特征，并能进行有效识别，那么就将这个语音模型作为综合语音模型用于后续的识别工作。例如，对每一个声音采集单元采集的声音信号进行处理后，选择有最好识别效果的声音采集单元所采集的声音信号，并根据该声音采集单元所采集的声音信号建立模型。

（2）将多个麦克风语音信号所建立的语音模型融合在一起，构造一个新的更好的语音模型，用于后续的识别工作。其中，将多个语音模型进行融合具体可以为：根据每个声音信号构建的语音模型，将所有声音特征进行分类，针对每种声音特征类型，从多个声音信号中选择一个最合适的声音特征来代表该声音特征类型，最后根据选取的各个声音特征类型构建一个综合语音模型，这样，使得最终的语音识别率更高、更准确。

在图6的流程图中，首先要对来自各个麦克风的语音信号进行预处理操作，这也是所有语音识别系统中必须具备的一个步骤，包括信号的抗混叠滤波，信号放大以及语音区间的端点检测等过程，这些过程是为了先一步能更好地进行语音特征提取。接下来的语音特征提取过程是语音识别系统中最重要的一个环节，是需要从语音信号每一帧中提取最能代表语言内容特征或说话人特征的参数，常常被使用的这类参数包括平均能量，平均过零率，频谱，共振峰，线性预测系数，偏自相关系数，线性预测系数，倒谱系数，梅尔频谱倒谱系数等，一般会选择一种或几种参数进行提取，作为一个语音特征组合。通常的语音识别系统就会对所提取的这些语音特征建立语音模型，最后进行语音识别步骤，但是在这里提出的基于多个麦克风信号的语音信号处理系统中，却需要对每一个麦克风信号分别进行特征提取过程，对每一个信号提取同一种或几种语音特征，然后通过聚类的方法对所几个麦克风信号提取的语音特征进行聚类，选择出最能代表语言内容或说话人特征的一些语音特征，然后对这些特征建立语音模型，一般来说，被使用最多的语音模型是基于统计模型和神经网络的语音模型，最后就是针对所建立的语音模型进行识别的语音识别方法了，主流的算法有基于参数模型的隐马尔科夫(HMM)的方法和基于非参数模型的矢量量化的方法。

就本方案的实施流程图来说，与一般语音识别系统不同的，以及最重要的部分是特征选择过程和综合的语音模型建立的过程，下面举一个例子来对其进行说明：假设从三个麦克风获取的语音信号分别表示为s₁，s₂，s3，对其进行预处理以后得到的信号分别记为se₁，se₂，se₃，然后分别对这三个信号进行特征提取，对每一个信号都提取平均能量，平均过零率，共振峰，线性预测系数，偏自相关系数，线性预测系数，倒谱系数，并构成一个特征向量，分别记为V₁=[r₁₁,r₁₂,r₁₃,r₁₄,r₁₅,r₁₆,r₁₇,]，V₂=[r₂₁,r₂₂,r₂₃,r₂₄,r₂₅,r₂₆,r₂₇,]，V₃=[r₃₁,r₃₂,r₁₃,r₃₄,r₁₅,r₃₆,r₃₇,]，式中r_i1,r_i2,r_i3,r_i4,r_i5,r_i6,r_i7,(i=1,2,3)分别代表这三个信号的平均能量，平均过零率，共振峰，线性预测系数，偏自相关系数，线性预测系数，倒谱系数这七个参数。然后要从三个语音特征向量V₁，V₂，V₃提取最能代表输入的语言特征或说话人特征的特征，考虑到来自三个语音信号的这些语音特征中，对于某一个特征来说，最具代表性的信号特征总是相距最近或者重合的，而远离平均值的那个特征可能就不能很好地代表该语音的特征，而是可能受到噪声影响，所获取的语音信号特征被噪音改变了，所以从这些语音特征集合中选择一些相距最近的特征参数来代表欲输入的语音信号是一种好的选择，在此可以采取K均值聚类算法类对这三组语音特征集进行聚类分析，从中选取一组特征，即从V₁，V₂，V₃中通过聚类分析获取一组语音特征V=[v₁,v₂,v₃,…]，这里得到的语音特征参数的数目应该小于21。然后再对V中的特征参数建立HMM模型，并进行相应的语音识别。

而对于终端所处的语音模式的确定，可以通过下面两种方式来实现：

（1）将手机中的语音应用与语音模式进行绑定，例如将拨号盘应用与第一语音模式进行绑定，将微信、QQ等与第二语音模式绑定，将信息等与第三语音模式绑定等，这样，在进入语音应用时，就会相应的将终端的语音模式也切换到与其绑定的语音模式。

（2）利用手机听筒旁边的距离传感器来确定采用哪种语音模式，即为每段距离范围设定一个语音模式，通过设置在终端上的距离传感器702（如图7所示）检测终端与用户之间的距离，根据距离属于的距离范围确定与距离对应的语音模式，即确定终端当前所处的语音模式。如果用户发生源与手机听筒距离很近，则启动一般的语音降噪处理方式，如果用户发生源与手机听筒距离较远，则启用新的语音处理方式。

以上结合附图详细说明了本发明的技术方案，在终端的各种语音应用中能自适应地选择合适的语音增强方法，这种选择不是人工选择的，而是根据终端的当前语音使用场景（或语音使用状态）例如通过不同语音应用来进行转换的，当手机放在耳边处于通话状态时，就启用传统的降噪技术，当手机放在胸前使用语音输入应用时，就采用新的基于音源定位的降噪技术。在进行语音通话时，手机启用传统的降噪功能，而当手机开启其它语音应用功能时，自动从传统降噪模式转换为新的利用多个麦克风来提高语音应用质量的语音处理方式，包括利用多麦克风的音源定位方法进行降噪处理功能，以及利用多个麦克风接收语音信号，同时进行语音特征提取，构建更好的语音特征模型进行识别，从而获得更好的语音识别效果的功能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种终端，其特征在于，包括：

多个声音采集单元，分别用于采集声音数据；

检测单元，检测所述终端当前所处的语音模式；

语音处理单元，根据检测到的语音模式，选择对应的语音处理方式对所述多个声音采集单元采集的声音数据进行处理。

2.根据权利要求1所述的终端，其特征在于，所述语音处理单元包括：

第二处理子单元，当检测到所述终端处于第二语音模式时，根据所述多个声音采集单元分别获取的声音数据来确定用户的发声位置，从每个声音采集单元采集的声音数据中提取来自所述用户的发声位置方向的声音信号，对提取的多个声音信号进行处理得到降噪后的声音数据。

3.根据权利要求1所述的终端，其特征在于，所述语音处理单元包括：

第三处理子单元，当检测到所述终端处于第三语音模式时，控制所述多个声音采集单元分别采集声音信号，根据所述多个声音采集单元的声音信号确定综合语音模型，并根据所述综合语音模型来进行语音识别。

4.根据权利要求3所述的终端，其特征在于，所述第三处理子单元包括：

第一确定子单元，根据每个所述声音信号构建一个语音模型，并比较建立的多个语音模型，从中选择一个语音模型作为所述综合语音模型，根据所述综合语音模型来进行语音识别。

5.根据权利要求3所述的终端，其特征在于，所述第三处理子单元包括：

第二确定子单元，根据每个所述声音信号构建一个语音模型，并将建立的多个语音模型进行融合，生成所述综合语音模型，根据所述综合语音模型来进行语音识别。

6.根据权利要求1至5中任一项所述的终端，其特征在于，所述检测单元包括：

第一判定子单元，为每个语音应用绑定一个语音模式，在启动指定语音应用时，获取与所述指定语音应用对应的语音模式，以确定所述终端当前所处的语音模式；和/或

第二判定子单元，为每段距离范围设定一个语音模式，通过设置在所述终端上的传感器检测所述终端与用户之间的距离，根据所述距离属于的距离范围确定与所述距离对应的语音模式，以确定所述终端当前所处的语音模式。

7.一种基于多个声音采集单元的语音处理方法，其特征在于，包括：

步骤402，检测终端当前所处的语音模式；

步骤404，根据检测到的语音模式，选择对应的语音处理方式对所述多个声音采集单元采集的声音数据进行处理。

8.根据权利要求7所述的基于多个声音采集单元的语音处理方法，其特征在于，所述步骤404还包括：

当检测到所述终端处于第二语音模式时，根据所述多个声音采集单元分别获取的声音数据来确定用户的发声位置，从每个声音采集单元采集的声音数据中提取来自所述用户的发声位置方向的声音信号，对提取的多个声音信号进行处理得到降噪后的声音数据。

9.根据权利要求7所述的基于多个声音采集单元的语音处理方法，其特征在于，所述步骤404还包括：

当检测到所述终端处于第三语音模式时，控制所述多个声音采集单元分别采集声音信号，根据所述多个声音采集单元的声音信号确定综合语音模型，并根据所述综合语音模型来进行语音识别。

10.根据权利要求9所述的基于多个声音采集单元的语音处理方法，其特征在于，根据每个所述声音信号构建一个语音模型，并比较建立的多个语音模型，从中选择一个语音模型作为所述综合语音模型，根据所述综合语音模型来进行语音识别。

11.根据权利要求9所述的基于多个声音采集单元的语音处理方法，其特征在于，根据每个所述声音信号构建一个语音模型，并将建立的多个语音模型进行融合，生成所述综合语音模型，根据所述综合语音模型来进行语音识别。

12.根据权利要求7至11任一项所述的基于多个声音采集单元的语音处理方法，其特征在于，为每个语音应用绑定一个语音模式，在启动指定语音应用时，获取与所述指定语音应用对应的语音模式，以确定所述终端当前所处的语音模式；和/或为每段距离范围设定一个语音模式，通过设置在所述终端上的传感器检测所述终端与用户之间的距离，根据所述距离属于的距离范围确定与所述距离对应的语音模式，以确定所述终端当前所处的语音模式。