CN113658588A

CN113658588A - 多音区语音识别方法、装置及存储介质

Info

Publication number: CN113658588A
Application number: CN202110970147.3A
Authority: CN
Inventors: 欧阳能钧; 梁启仍; 宋晔
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-11-16
Also published as: CN109192203A; CN109192203B

Abstract

本发明实施例提出一种多音区语音识别方法、装置及计算机可读存储介质。其中多音区语音识别方法包括：使用麦克风模组收集语音采集环境中的语音，其中，预先为所述麦克风模组中的每个麦克风设置目标音区，所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个；判断所述语音是否来自目标音区；对来自除所述目标音区之外的其他音区的语音进行抑制；对抑制后的语音进行识别。本发明实施例使用麦克风模组隔离出不同音区，通过隔离出多个音区实现了语音采集环境内全员使用语音，并且每个音区隔离度能达到15‑20dB，实现了理想的隔离效果。

Description

多音区语音识别方法、装置及存储介质

本申请是申请日为2018年09月29日、申请号为201811147010.2、发明名称为“多音区语音识别方法、装置及存储介质”的中国专利申请的分案申请。

技术领域

本发明涉及信息技术领域，尤其涉及一种多音区语音识别方法、装置及计算机可读存储介质。

背景技术

传统的语音识别技术方案都是围绕一个目标用户进行服务的。例如，传统的车载语音识别技术方案是围绕司机一个人服务的，前端麦克风的角度是对准主驾驶位来设计的。传统的核心垂类导航、音乐、电话等也都是围绕司机来展开设计的。其中，垂类就是垂直领域，特指某个领域，开发者可以根据用户使用场景设定特定领域使得识别结果更准确。比如垂直领域设定为“音乐”，则在语音识别时会优先识别为音乐相关的歌曲名、歌手名或者歌词。

传统的语音识别技术方案的缺陷在于只针对一个目标用户服务，无法实现在语音采集环境中全员使用语音服务。仍以车载语音识别为例，传统的语音识别技术方案只针对司机一个人服务，无法实现车内全员使用语音服务，给车内乘客带来不佳的用户体验。

发明内容

本发明实施例提供一种多音区语音识别方法、装置及计算机可读存储介质，以至少解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种多音区语音识别方法，包括：使用麦克风模组收集语音采集环境中的语音，其中，预先为所述麦克风模组中的每个麦克风设置目标音区，所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个；判断所述语音是否来自目标音区；对来自除所述目标音区之外的其他音区的语音进行抑制；对抑制后的语音进行识别。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，对抑制后的语音进行识别，包括：接收来自所述麦克风模组中的多个麦克风的抑制后的语音；从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

结合第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，从所述多个麦克风的目标音区中选择一个独立音区进行语音识别，包括：识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词；若识别出某个独立音区的语音中出现唤醒词，则选择出现唤醒词的独立音区作为识别音区，对所述识别音区的语音进行语音识别。

结合第一方面的第二种实现方式，本发明实施例在第一方面的第三种实现方式中，对所述识别音区的语音进行语音识别之后，还包括：判断所述识别音区的识别过程是否结束；若所述识别音区的识别过程已经结束，则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式或第一方面的第三种实现方式，本发明实施例在第一方面的第四种实现方式中，所述语音采集环境包括车载环境；所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组，或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。

结合第一方面的第四种实现方式，本发明实施例在第一方面的第五种实现方式中，对抑制后的语音进行识别之前，还包括：接收来自车机系统的所述抑制后的语音，其中，所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。

结合第一方面的第五种实现方式，本发明实施例在第一方面的第六种实现方式中，所述方法还包括：设置所述车机系统的时分传输机制的队列排布方式，以适于传输所述抑制后的语音。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式或第一方面的第三种实现方式，本发明实施例在第一方面的第七种实现方式中，对抑制后的语音进行识别之后，还包括：根据语音识别的结果产生对所述抑制后的语音的响应信息；展示所述语音识别的结果及所述响应信息。

第二方面，本发明实施例提供了一种多音区语音识别装置，包括：语音采集单元，用于使用麦克风模组收集语音采集环境中的语音，其中，预先为所述麦克风模组中的每个麦克风设置目标音区，所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个；判断单元，用于判断所述语音是否来自目标音区；抑制单元，用于对来自除所述目标音区之外的其他音区的语音进行抑制；语音识别单元，用于对抑制后的语音进行识别。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，所述语音识别单元包括：接收子单元，用于接收来自所述麦克风模组中的多个麦克风的抑制后的语音；识别子单元，用于从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

结合第二方面的第一种实现方式，本发明实施例在第二方面的第二种实现方式中，所述识别子单元还用于：识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词；若识别出某个独立音区的语音中出现唤醒词，则选择出现唤醒词的独立音区作为识别音区，对所述识别音区的语音进行语音识别。

结合第二方面的第二种实现方式，本发明实施例在第二方面的第三种实现方式中，所述识别子单元还用于：对所述识别音区的语音进行语音识别之后，判断所述识别音区的识别过程是否结束；若所述识别音区的识别过程已经结束，则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式或第二方面的第三种实现方式，本发明实施例在第二方面的第四种实现方式中，所述语音采集环境包括车载环境；所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组，或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。

结合第二方面的第四种实现方式，本发明实施例在第二方面的第五种实现方式中，所述语音识别单元包括接收子单元，用于：接收来自车机系统的所述抑制后的语音，其中，所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。

结合第二方面的第五种实现方式，本发明实施例在第二方面的第六种实现方式中，还包括设置单元，用于：设置所述车机系统的时分传输机制的队列排布方式，以适于传输所述抑制后的语音。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式或第二方面的第三种实现方式，本发明实施例在第二方面的第七种实现方式中，所述装置还包括：响应单元，用于根据语音识别的结果产生对所述抑制后的语音的响应信息；展示单元，用于展示所述语音识别的结果及所述响应信息。

在一个可能的设计中，多音区语音识别装置的结构中包括处理器和存储器，所述存储器用于存储支持多音区语音识别装置执行上述第一方面中多音区语音识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述多音区语音识别装置还可以包括通信接口，用于多音区语音识别装置与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种多音区语音识别装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一所述的方法。

上述技术方案具有如下优点或有益效果：使用麦克风模组隔离出不同音区，通过隔离出多个音区实现了语音采集环境内全员使用语音，并且每个音区隔离度能达到15-20dB，实现了理想的隔离效果。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明一实施例提供的多音区语音识别方法的流程图。

图2为本发明另一实施例提供的多音区语音识别方法的车载环境示意图。

图3为本发明另一实施例提供的多音区语音识别方法的四音区语音识别的信号流通示意图。

图4为本发明另一实施例提供的多音区语音识别方法的语音识别流程图。

图5为本发明另一实施例提供的多音区语音识别方法的时分传输机制的队列排布方式示意图。

图6为本发明一实施例提供的多音区语音识别装置的结构框图。

图7为本发明又一实施例提供的多音区语音识别装置的结构框图。

图8为本发明又一实施例提供的多音区语音识别装置的结构框图。

图9为本发明又一实施例提供的多音区语音识别装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1为本发明一实施例提供的多音区语音识别方法的流程图。如图1所示，本发明实施例的多音区语音识别方法包括：步骤S110，使用麦克风模组收集语音采集环境中的语音，其中，预先为所述麦克风模组中的每个麦克风设置目标音区，所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个；步骤S120，判断所述语音是否来自目标音区；步骤S130，对来自除所述目标音区之外的其他音区的语音进行抑制；步骤S140，对抑制后的语音进行识别。

在语音采集环境中，例如在一个房间内或者在车载环境中，通常情况下会有多个用户都需要语音服务。在这种应用场景中，为了使环境中全体成员都能使用语音服务，可将语音采集环境划分为多个独立音区。具体地，使用麦克风模组收集语音采集环境中的语音信号，并将来自所述多个独立音区的语音信号相互隔离。其中，将来自所述多个独立音区的语音信号相互隔离可包括上述步骤S120和步骤S130。然后执行步骤S140，对抑制后的语音进行识别，也就是识别隔离后的语音信号。

麦克风模组主要由多个数字麦克风、一颗DSP(Digital Signal Processing，数字信号处理)芯片以及一颗A2B(Automotive Audio Bus，汽车音频总线)芯片组成。图2为本发明另一实施例提供的多音区语音识别方法的车载环境示意图。图2中所示的标号如下：1表示多路并行语音引擎；2表示车机系统；3表示麦克风模组；4表示A2B音频总线。图2中所示的麦克风模组主要由两个数字麦克风、一颗DSP芯片以及一颗A2B芯片组成。在图2所示的车载环境中，将全车的空间划分为前后左右四个音区。通过使用麦克风模组，四个音区可以实现独立拾音，且能够自动屏蔽其他音区的声源。例如，在某个音区内有人正在打电话，这时对于其他音区可以正常进行语音识别，不会受到干扰。

具体地，麦克风模组可以隔离出独立音区，依赖的是DSP芯片中运行的波束形成算法。以包括两个麦克风的麦克风模组为例，波束形成算法根据语音到达两个麦克风的相位差，来进行声源定位，也就是判断语音是否来自目标音区。进而在空间角度上对感兴趣区域，也就是目标音区进行加权处理，对不感兴趣方向，也就是除所述目标音区之外的其他音区，则进行抑制，从而做到隔离出不同音区。应用麦克风模组，使得每个音区隔离度能达到15-20dB。因此，在图2的示例中，DSP芯片可以输出两路隔离度高的音区数据。

在一种可能的实现方式中，所述语音采集环境包括车载环境；所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组，或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。在语音采集环境中可设置一个或多个麦克风模组。麦克风模组的主要作用是将车内空间细分为多个音区，可对每个音区独立拾音。麦克风模组使得每个音区之间都具有足够的隔离度，可以隔离来自其他音区的声音。

参见图2，仍以车载环境为例，分别在前排位置和后排位置布置两个麦克风模组。其中，布置于前排位置的麦克风模组中的两个麦克风的目标音区分别是音区1和音区2；布置于后排位置的麦克风模组中的两个麦克风的目标音区分别是音区3和音区4。在一种实施方式中，两个麦克风模组所布置的位置分别位于前排顶灯位置、后排扶手箱出风口位置。在另一种实施方式中，两个麦克风模组所布置的位置分别位于前排顶灯位置、后排天窗边缘位置。为避免麦克风模组对后排扶手箱出风口有遮挡，可以将其布置于后排天窗边缘位置。考虑到波束形成算法的实现原理，合理布置麦克风模组的位置，可以使用较少的设备，尽量实现较多的功能。在以上两种实施方式中，仅使用两个麦克风模组，也就是仅使用二颗DSP芯片，达到了四路识音的效果，成本低，性价比高。

在一种可能的实现方式中，对抑制后的语音进行识别之前，还包括：接收来自车机系统的所述抑制后的语音，其中，所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。

例如，可采用A2B音频总线传输音区数据。A2B音频总线是把一堆音频线、扬声器线、麦克风线等变成一条双绞线。在车载环境中的应用场景中，可根据实际需求采用A2B音频总线在车内布置扬声器和麦克风等音频设备。而且，A2B音频总线能达到50Mbps带宽，同时支持正向和反向数据传输，例如同时支持32个上游和下游音频通道。因此，使用A2B音频总线不仅可以减少车内线重70％，还能让车内音频设备布置自由度更大。

图3为本发明另一实施例提供的多音区语音识别方法的四音区语音识别的信号流通示意图。参见图2和图3，本发明另一实施例的车载环境的多音区语音识别装置主要由四部分组成：一个以上麦克风模组、A2B音频总线、车机系统、多路并行语音引擎。麦克风模组收集到多路语音信号，将多路语音信号压缩成一路信号后，通过A2B音频总线将压缩后语音信号传输给车机系统。解码模块从车机系统中取到压缩后语音信号后进行解码，分离出四路语音信号分别给多路并行语音引擎。

参见图3，多路并行语音引擎包括引擎A、引擎B、引擎C和引擎D，多个引擎同时进行多路并行作业，例如识别哪个音区的语音中出现唤醒词。多路并行语音引擎识别得出的结果需要经过仲裁模块进行仲裁，选择出其中一路音区将其唤醒，使其获得语音识别的权限。可采取N选一的策略，例如在四路音区中只会选择一路音区进行语音识别。其中的一路音区一旦唤醒后，抑制其他三路音区的声源。其他音区要获得语音识别权限，必须等待这次识别结束后，通过唤醒抢占语音识别的权限。

在一种可能的实现方式中，对抑制后的语音进行识别，包括：接收来自所述麦克风模组中的多个麦克风的抑制后的语音；从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。由于网络带宽等系统资源的限制，仅选择一个独立音区进行语音识别，可以节省系统资源，提高执行效率。

图4为本发明另一实施例提供的多音区语音识别方法的语音识别流程图。如图4所示，在一种可能的实现方式中，从所述多个麦克风的目标音区中选择一个独立音区进行语音识别，包括：步骤S210，识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词；步骤S220，若识别出某个独立音区的语音中出现唤醒词，则选择出现唤醒词的独立音区作为识别音区，对所述识别音区的语音进行语音识别。

再参见图4，在一种可能的实现方式中，对所述识别音区的语音进行语音识别之后，还包括：步骤S230，判断所述识别音区的识别过程是否结束；步骤S240，若所述识别音区的识别过程已经结束，则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

仍以车载环境为例，全车分为N个独立音区，通过仲裁模块采取N选一的策略，N路音区只会选择一路音区进行语音识别，抑制其他N-1路音区的声源。具体实现方法如下：

1)识别N路音区是否有某个音区的语音信息中有唤醒词出现，例如，有人说：“我在呢”、“你好”、“Hello”等标志着某一轮对话开始的唤醒词。

2)若识别出某个音区的语音信息中出现了唤醒词，则通过仲裁模块选择说唤醒词的这一路音区进行语音识别，使这一路的音区获得语音识别权限。

3)其他音区要获得语音识别权限，必须等待这次识别结束后，通过唤醒抢占语音识别的权限。

例如一轮对话或多轮对话完成后的一段时间内没有语音信息可以识别为该音区本次识别结束了。本次识别结束后返回步骤1)继续识别N路音区是否有某个音区的语音信息中有唤醒词出现，如某个音区有唤醒词出现，则再通过唤醒抢占语音识别的权限。

在一种可能的实现方式中，所述方法还包括：设置所述车机系统的时分传输机制的队列排布方式，以适于传输所述抑制后的语音。

图5为本发明另一实施例提供的多音区语音识别方法的时分传输机制的队列排布方式示意图。如图5所示，仍以全车分为4个独立音区为例，车机系统从A2B芯片拿到四路语料后，需要传递给多路并行语音引擎。而现有技术的车机端一般都只支持左右两路声音通道。本发明实施例中支持四路语料同时传输，需要改造车机系统的时分传输机制。具体地，参见图5，将“LRLRLR”的队列排布方式，改为“12341234”的队列排布方式。队列中每个元素的长度根据相关系统设置而确定。多路并行语音引擎接收到语音信号后，再按照“12341234”的队列方式解码，分离出四路通道数据。

再参见图2，语音信号通过A2B音频总线传输给车机系统，车机系统再传递给多路并行语音引擎。在车机系统中，数据传输采用了TDM(Time-Division Multiplexing，时分复用)模式。时分复用是指一种通过不同信道或时隙中的交叉位脉冲，同时在同一个通信媒体上传输多个数字化数据、语音和视频信号等的技术。图2中的“TDM4”表示同时传输四路通道数据。

在一种可能的实现方式中，对抑制后的语音进行识别之后，还包括：根据语音识别的结果产生对所述抑制后的语音的响应信息；展示所述语音识别的结果及所述响应信息。例如在图3中，仲裁模块选择一路音区进行语音识别，可将识别出的相关信息传递给HMI(Human Machine Interface，人机接口)层进行展示。

参见图2和图3，麦克风模组接收到语音信号后，首先由DSP芯片做语音预处理，语音预处理可包括噪音消除、回声消除、时延估计、自动幅度控制等。

DSP输出高隔离度的各音区的语音信号后，通过A2B音频总线传输给车机系统。车机系统再传递给语音引擎。语音引擎将语音信号发送给云服务器。在云端进行在线语音识别，并生成响应内容。例如乘客询问天气情况，则生成有关天气预报的响应信息。

语音引擎接收云端返回的语音识别结果及响应信息，通过音效处理模块进行音效处理后，经过功放器将语音识别结果及响应信息进行HMI展示。HMI展示包括播放声音和/或显示字幕。例如，图2中所示的“To Speakers(展示给说话者)”，就是将识别结果和/或响应信息展示给包括说话者在内的车内成员。

其中，音效处理可包括将调节某些频段的音频信号的增益值以达到理想的声音效果。音效处理模块还用于提取音频信号中的回声信息，根据回声信息产生回声消除反馈信号，将回声消除反馈信号返回给麦克风模组，以使得麦克风模组根据回声消除反馈信号对接收到的语音信号进行调节以更好地消除回声。

图2中的SOC(System on Chip，系统级芯片)包括多路并行语音引擎和音效处理模块。其中，SOC也称为片上系统，是一个有专用目标的集成电路，其中包含完整系统并有嵌入软件的全部内容。它是信息系统核心的芯片集成，是将系统关键部件集成在一块芯片上。

上述技术方案具有如下优点或有益效果：使用麦克风模组通过DSP运行的波束形成算法隔离出不同音区，且每个音区隔离度能达到15-20dB。例如由副驾驶位置所在的音区发出的声音传到主驾驶位置所在的音区之后，声音经过抑制之后其强度仅有原来的1/10。通过隔离出多个音区实现了车内全员使用语音。

图6为本发明一实施例提供的多音区语音识别装置的结构框图。如图6所示，本发明实施例的多音区语音识别装置包括：语音采集单元100，用于使用麦克风模组收集语音采集环境中的语音，其中，预先为所述麦克风模组中的每个麦克风设置目标音区，所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个；判断单元200，用于判断所述语音是否来自目标音区；抑制单元300，用于对来自除所述目标音区之外的其他音区的语音进行抑制；语音识别单元400，用于对抑制后的语音进行识别。

图7为本发明又一实施例提供的多音区语音识别装置的结构框图。如图7所示，在一种可能的实现方式中，所述语音识别单元400包括：接收子单元410，用于接收来自所述麦克风模组中的多个麦克风的抑制后的语音；识别子单元420，用于从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

在一种可能的实现方式中，所述识别子单元420还用于：识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词；若识别出某个独立音区的语音中出现唤醒词，则选择出现唤醒词的独立音区作为识别音区，对所述识别音区的语音进行语音识别。

在一种可能的实现方式中，所述识别子单元420还用于：对所述识别音区的语音进行语音识别之后，判断所述识别音区的识别过程是否结束；若所述识别音区的识别过程已经结束，则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

在一种可能的实现方式中，所述语音采集环境包括车载环境；所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组，或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。

在一种可能的实现方式中，所述语音识别单元400包括接收子单元410，用于：接收来自车机系统的所述抑制后的语音，其中，所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。

在一种可能的实现方式中，所述装置还包括设置单元，用于：设置所述车机系统的时分传输机制的队列排布方式，以适于传输所述抑制后的语音。

图8为本发明又一实施例提供的多音区语音识别装置的结构框图。如图8所示，在一种可能的实现方式中，所述装置还包括：响应单元500，用于根据语音识别的结果产生对所述抑制后的语音的响应信息；展示单元600，用于展示所述语音识别的结果及所述响应信息。

本发明实施例的多音区语音识别装置中各单元的功能可以参见上述方法的相关描述，在此不再赘述。

在一个可能的设计中，多音区语音识别装置的结构中包括处理器和存储器，所述存储器用于存储支持多音区语音识别装置执行上述多音区语音识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述多音区语音识别装置还可以包括通信接口，用于多音区语音识别装置与其他设备或通信网络通信。

图9为本发明又一实施例提供的多音区语音识别装置的结构框图。如图9所示，该装置包括：存储器101和处理器102，存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的多音区语音识别方法。所述存储器101和处理器102的数量可以为一个或多个。

该装置还包括：

通信接口103，用于与外界设备进行通信，进行数据交互传输。

存储器101可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器101、处理器102和通信接口103独立实现，则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器101、处理器102及通信接口103集成在一块芯片上，则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。

又一方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述多音区语音识别方法中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多音区语音识别方法，其特征在于，包括：

使用麦克风模组收集语音采集环境中的语音，其中，预先为所述麦克风模组中的每个麦克风设置目标音区，所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个；判断所述语音是否来自目标音区；

对来自除所述目标音区之外的其他音区的语音进行抑制；

接收来自所述麦克风模组中的多个麦克风的抑制后的语音；

从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

2.根据权利要求1所述的方法，其特征在于，从所述多个麦克风的目标音区中选择一个独立音区进行语音识别，包括：

识别所述多个麦克风的目标音区中是否有某个独立音区的语音中出现唤醒词；

若识别出某个独立音区的语音中出现唤醒词，则选择出现唤醒词的独立音区作为识别音区，对所述识别音区的语音进行语音识别。

3.根据权利要求2所述的方法，其特征在于，对所述识别音区的语音进行语音识别之后，还包括：

判断所述识别音区的识别过程是否结束；

若所述识别音区的识别过程已经结束，则重新从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述语音采集环境包括车载环境；所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组，或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。

5.根据权利要求4所述的方法，其特征在于，对抑制后的语音进行识别之前，还包括：

接收来自车机系统的所述抑制后的语音，其中，所述抑制后的语音是由所述麦克风模组通过音频总线传输给所述车机系统的。

6.根据权利要求5所述的方法，其特征在于，还包括：

设置所述车机系统的时分传输机制的队列排布方式，以适于传输所述抑制后的语音。

7.根据权利要求1-3中任一项所述的方法，其特征在于，对抑制后的语音进行识别之后，还包括：

根据语音识别的结果产生对所述抑制后的语音的响应信息；

展示所述语音识别的结果及所述响应信息。

8.一种多音区语音识别装置，其特征在于，包括：

语音采集单元，用于使用麦克风模组收集语音采集环境中的语音，其中，预先为所述麦克风模组中的每个麦克风设置目标音区，所述目标音区是预先设定的所述语音采集环境中的多个独立音区中的一个；

判断单元，用于判断所述语音是否来自目标音区；

抑制单元，用于对来自除所述目标音区之外的其他音区的语音进行抑制；

语音识别单元，包括接收子单元和识别子单元，其中，所述接收子单元用于接收来自所述麦克风模组中的多个麦克风的抑制后的语音；所述识别子单元用于从所述多个麦克风的目标音区中选择一个独立音区进行语音识别。

9.根据权利要求8所述的装置，其特征在于，所述识别子单元还用于：

10.根据权利要求9所述的装置，其特征在于，所述识别子单元还用于：

对所述识别音区的语音进行语音识别之后，判断所述识别音区的识别过程是否结束；

11.根据权利要求8-10中任一项所述的装置，其特征在于，所述语音采集环境包括车载环境；所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排扶手箱出风口位置的第二麦克风模组，或者所述麦克风模组包括布置于前排顶灯位置的第一麦克风模组和布置于后排天窗边缘位置的第三麦克风模组。

12.根据权利要求11所述的装置，其特征在于，所述语音识别单元包括接收子单元，用于：

13.根据权利要求12所述的装置，其特征在于，还包括设置单元，用于：

14.根据权利要求8-10中任一项所述的装置，其特征在于，还包括：

响应单元，用于根据语音识别的结果产生对所述抑制后的语音的响应信息；

展示单元，用于展示所述语音识别的结果及所述响应信息。

15.一种多音区语音识别装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。