CN109697987A

CN109697987A - 一种外接式的远场语音交互装置及实现方法

Info

Publication number: CN109697987A
Application number: CN201811646458.9A
Authority: CN
Inventors: 郑炜乔; 雷雄国; 强胜轩; 刘强; 王强; 徐钢峰; 涂长宇; 何家锋; 段文杰; 卢玉环; 徐瑞婷; 郭鹏亮
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-30
Anticipated expiration: 2038-12-29
Also published as: CN109697987B

Abstract

本发明公开一种外接式的远场语音交互装置包括麦克风阵列，用于接收音频；数据处理模块，用于获取声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据，其中，至少声源音频来自所述麦克风阵列；和音频与数据传输模块，用于实现与外接设备的数据交互，将多路待传输音频和待传输数据输出至与之连接的外接设备。本发明还公开了一种实现外接式的远场语音交互装置的方法。根据本发明提供的装置和方法，可以使得终端设备无需做复杂集成即可具有远场语音交互的能力，且将音频和数据同时进行传输，既能够将语音唤醒和识别处理集成在外接式的远场语音交互设备中，又能够避免数据延迟的问题。

Description

一种外接式的远场语音交互装置及实现方法

技术领域

本发明涉及语音交互技术领域，特别是一种外接式的远场语音交互装置及实现方法。

背景技术

随着智能语音技术的快速发展，基于语音的新的交互方式和场景成为一种新的需求，且该需求呈快速增长趋势。目前的语音交互技术主要包括近场语音和远场语音，目前现有的终端设备大多数都只能实现近场语音功能，无法实现远场语音功能。因而为了使现有的终端设备更好地满足用户的语音交互需求，如何使终端设备支持远场语音功能，也是目前业内在努力解决的难题。目前，终端设备实现远场语音功能，主要是通过将麦克风阵列集成到终端设备实现的，这种方式需要依赖驱动，运算占用资源大，且改造成本高。

发明内容

针对背景技术提出的问题，发明人想到一种解决方案为：提供一种外接式远场语音设备，实现对终端设备进行远场语音功能扩展。

但在研发过程中，发明人也发现，通过外接式远场语音设备对终端设备进行功能扩展时，虽然能够解决现有技术中需要对终端设备进行复杂集成的问题，实现对原有终端设备的快速、简单改造和升级，但随之也面临以下问题需要在外接式远场语音设备中去克服：

1)如果在远场语音设备上进行语音唤醒或识别处理，向终端设备传输的数据就需要包括音频和识别结果数据，因而会导致音频与数据的传输间存在延迟，使得终端设备会接收到很多无用音频，如非命中音频，造成资源浪费；

2)如果为了避免延时问题，就需要将语音唤醒或识别处理放在终端设备上进行处理，这就需要终端设备不光具备复杂运算能力还需要具备复杂的集成处理能力，导致了该终端设备的造价成本高。

面临该问题，发明人想到了一种更优的解决方案，实现了将音频和数据同时进行传输，这样，既能够将语音唤醒和识别处理集成在外接式的远场语音交互设备中，又能够避免数据延迟的问题。

根据本发明的第一个方面，提供了一种外接式的远场语音交互装置。

包括

麦克风阵列，用于接收音频；

数据处理模块，用于获取声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据，其中，至少声源音频来自麦克风阵列；和

音频与数据传输模块，用于实现与外接设备的数据交互，将多路待传输音频和待传输数据输出至与之连接的外接设备。

根据本发明的第二个方面，提供了一种可以实现外接式的远场语音交互装置的方法，包括如下步骤：

获取麦克风阵列音频和终端设备参考音频；

对麦克风阵列音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据；

将多路待传输音频和待传输数据输出至终端设备。

根据本发明的第三个方面，提供了一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法的步骤。

根据本发明的第四个方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

根据本发明的装置和方法通过将麦克风阵列接收到的多路音频数据经过语音处理转换成多路传输音频和待传输数据，并将多路待传输音频和待传输数据输出至终端设备，使得终端设备可以根据多路传输音频进行语音识别或根据待传输数据让配套的软件工具进行交互处理，实现无需做复杂集成即可具有远场语音交互的能力，解决了远场语音交互对终端设备的结构和运算能力的依赖，更大限度地满足了终端设备尤其是低配置的终端设备对远场语音交互的需求。同时，通过本发明的装置和方法还可以实现多路的传输，其既包括音频的传输也包括控制信号数据的传输，二者同时传输可以避免数据延时。

附图说明

图1为本发明一实施方式的外接式的远场语音交互装置原理框图；

图2为本发明一实施方式的实现外接式的远场语音交互装置的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的接式的远场语音交互装置可以应用于任何配置了语音功能的终端设备，例如，智能手机、平板电脑、智能家居等终端设备，本发明对此不作限制。从而能够使得用户在使用这些终端设备的过程中获得更及时准确的响应，不会由于数据延时而影响用户体验。

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的一种实施方式的外接式的远场语音交互装置原理框图。如图1所示，

该外接式的远场语音交互装置，包括麦克风阵列1、数据处理模块2和音频与数据传输模块3。

麦克风阵列1用于接收音频。

数据处理模块2用于获取声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据，其中，至少声源音频来自麦克风阵列，而终端设备参考音频则可以是从终端设备系统的外放装置(例如喇叭、扩音器等)获取，或者可以是从终端设备的系统软件中读取，或者可以是从麦克风端获取(将麦克风对准终端设备的喇叭进行录音)。当通过麦克风获取终端设备参考音频时，采用的麦克风可以是麦克风阵列中的麦克风，此时麦克风阵列包括用于获取用户声源音频的麦克风和用于获取终端设备参考音频的麦克风；也可以不是麦克风阵列中的麦克风，即麦克风阵列仅设置成用于获取用户声源音频的麦克风，通过增设其他的麦克风来获取终端设备参考音频。

在优选实施例中，麦克风阵列1实现为多个固定间距的麦克风组成，以达到对声源的方向进行定位的效果。在使用时，用户可以直接对着麦克风阵列发出语音交互的指令，例如“我要录音”等，麦克风阵列即可获取音频输出至数据处理模块2。由于麦克风阵列具有一定的结构，可以实现针对声源方向进行增强,将来自其他角度方向噪音进行减弱,从而可以保证音频的质量。为获取终端设备的参考音频可以直接将可以移动的麦克风贴近终端设备的出音口,或者用单指向性麦克风对着终端设备播放的音源方向，获取终端设备播放音频的麦克风可以是麦克风阵列中的麦克风，也可以为额外的麦克风，本发明实施例不对此进行限制，只需要将获取参考音频的麦克风连接至数据处理模块2即可。

其中，如图1所示，数据处理模块2包括噪音消除单元201、信号增强与降噪处理单元202、语音唤醒与识别单元203和待传输音频获取单元204。

噪音消除单元201用于对获取的声源音频进行去噪处理，生成原始音频，即对声源音频和终端设备参考音频进行去噪处理，该本机噪音消除主要是去除终端设备本身的播放声音，从而得到消除终端设备本身播放声音噪声的原始音频。去噪处理的具体实现方法可以参照现有技术实现，例如采用自适应的滤波技术，故在此不赘述。

信号增强与降噪处理单元202用于对原始音频根据声源存在的空间预划分的区域进行方向性的空间增强和降噪处理，生成多路增强音频，包括对去噪处理后得到的原始音频进行区域性音频标记和增强降噪处理，音频标记的方式可以实现为根据声源音频的角度进行划分，因为麦克风阵列为多个麦克风个体，根据接收的声源音频数据可将增强音频按区域划分结果进行处理和标记，示例性的，将声源分布位置划分为A区域：0度-60度，B区域：60度-120度，C区域：120度到180度，假设用于采集声源音频的麦克风个体为2个，根据声源的可能分布位置将其划分到对应的区域中，这样就可得到多路音频标记，例如上述例子中的三路，分别为A区域对应的增强音频、B区域对应的增强音频和C区域对应的增强音频，为了方便标识各路增强音频，可以为三路增强音频分别分配音频序号1、2、3。区域性增强降噪处理方式为现有技术，其中，增强的内容包括降低干扰声源的噪声、消除背景声、对目标语音声源方向的音频进行增强，从而生成多路增强音频。

语音唤醒与识别单元203用于对多路增强音频分别进行语音唤醒或识别处理，生成待传输数据，其中，语音唤醒或识别的方式可以参照现有技术实现，识别或唤醒的结果包括有唤醒与识别结果以及置信度，根据唤醒与识别结果以及置信度确定选中的音频(即确定目标语音声源所在增强音频)，示例性地将置信度高的音频确定为识别或唤醒后选中的音频，由此就可以得到待传输数据为包括选中的增强音频的音频序号(1、2或3)、唤醒与识别结果、以及置信度。

待传输音频获取单元204用于根据终端设备指令将多路增强音频作为多路待传输音频，示例性地将上述三路增强音频作为多路待传输音频，或获取原始音频，将多路增强音频和原始音频共同作为多路待传输音频，示例性地多路待传输音频为包括上述三路增强音频和一路原始音频。在具体实现中，是只传输增强音频还是同时传输增强音频和原始音频至终端设备，可以根据需求进行配置，或者由终端设备通过输出指令参数的方式进行设定，本发明实施例对此不进行限制。

音频与数据传输模块3用于实现与外接设备的数据交互，将多路待传输音频和待传输数据输出至与之连接的外接设备，示例性地实现为USB接口。通过USB接口进行数据传输，只要将本发明的外接式远场语音装置插入终端设备的USB接口，就能让本没有远场语音功能或低配置的终端设备具有远场智能语音交互的能力，支持热插拔，免驱动，成本低，灵活性强。

通过上述的外接式的远场语音交互装置，将麦克风阵列接收到的多路音频数据经过前端信号处理和语音唤醒与识别处理等过程得到转换成增强音频和控制信号(即待传输数据)，通过USB接口传输至终端设备，使得终端设备可以进行单路音频语音识别或根据控制信号让配套的软件工具进行交互处理，由此，终端设备无需做复杂集成就具有远场语音交互的能力，解决了远场语音交互对终端设备的结构和运算能力的依赖，同时支持外接式和热插拔，成本低、开发时间短，灵活性强，更大限度地满足了尤其是低配置终端设备对远场语音交互的需求。

在优选实施例中，为了满足现有技术中的终端设备均是支持双通道协议，无法并行获取多路音频和数据的问题，还可以进一步对待传输数据和多路待传输音频做处理，将其转换为双路音频数据以经由双通道传输至终端设备。其中，转为双路音频数据的实现方式可以为：首先将待传输数据转码为十六进制编码，使其成为音频格式，接着对多路音频和转换为音频格式的待传输数据进行交织编码，使其转换为双路音频数据，示例性地将三路增强音频交织编码为一路音频数据，将原始音频和转换为音频格式的待传输数据交织编码为另一路音频数据。优选地，还可以增加校验码，将原始音频、转换为音频格式的待传输数据和校验码交织编码为另一路音频数据。

这样，在外接设备接收到双路音频数据后，可以对其进行解码，得到待传输音频和待传输数据，之后终端设备就可以根据需求进行相应的语音交互处理。

在优选实施方式中还可以对双路音频数据进行加密。

根据本发明实施例的方案，可以实现多路音频和数据的并行传输，其既包括增强音频和/或原始音频的传输也包括控制数据的传输，二者同时传输至终端设备进行后续处理，可以避免数据延时。

图2示意性地显示了根据本发明一实施方式的外接式的远场语音交互装置的实现方法，包括

步骤S301：获取声源音频和终端设备参考音频。声源音频获取的方式可以通过该装置的麦克风阵列1进行获取，终端设备参考音频的获取方式可以是从终端设备系统的外放装置(例如喇叭、扩音器等)获取，或者可以是从终端设备的系统软件中读取，或者可以是从麦克风阵列1获取(将麦克风阵列对准终端设备的喇叭进行录音)。当通过麦克风获取终端设备参考音频时，采用的麦克风可以是麦克风阵列中的麦克风，此时麦克风阵列包括用于获取用户声源音频的麦克风和用于获取终端设备参考音频的麦克风；也可以不是麦克风阵列中的麦克风，即麦克风阵列仅设置成用于获取用户声源音频的麦克风，通过增设其他的麦克风来获取终端设备参考音频。

步骤S302：对声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据。具体实现为：

首先，对声源音频和终端设备参考音频进行去噪处理，该去噪主要是去除终端设备本身的播放声音(即从声源音频中去除终端设备参考音频)，处理的方式可以参照现有技术，从而得到去除终端设备本身播放声音噪声的音频，为了方便进行描述，下文将得到的去除终端设备本身播放声音噪声的音频表述为原始音频，上文提及的原始音频也指相同含义。

之后，对去噪处理后得到的原始音频根据声源存在的空间进行预划分，形成多个区域，并进行区域音频标记和增强降噪处理，音频标记的方式可以实现为根据声源音频的角度进行划分，因为麦克风阵列为多个麦克风个体，根据接收的声源音频数据可将增强音频按区域划分结果进行处理和标记，示例性的，将声源分布位置划分为A区域：0度-60度，B区域：60度-120度，C区域：120度到180度，假设用于采集声源音频的麦克风个体为2个，根据声源的可能分布位置将其划分到对应的区域中，这样就可得到多路音频标记，例如上述例子中的三路，分别为A区域对应的增强音频、B区域对应的增强音频和C区域对应的增强音频，为了方便标识各路增强音频，可以为三路增强音频分别分配音频序号1、2、3。区域性增强降噪处理方式为现有技术，其中，增强的内容包括降低干扰声源的噪声、消除背景声、对目标语音声源方向的音频进行增强，从而生成多路增强音频。

然后，对多路增强音频分别进行语音唤醒或识别处理，生成待传输数据，其中，语音唤醒或识别的方式可以参照现有技术实现，识别或唤醒的结果包括有唤醒与识别结果以及相应的置信度结果，根据唤醒与识别结果以及置信度确定选中的音频(即确定目标语音声源所在增强音频)，示例性地将置信度高的音频确定为识别或唤醒后选中的音频，由此就可以得到待传输数据为包括选中的增强音频的音频序号(1、2或3)、唤醒与识别结果、以及置信度。

最后，根据终端设备指令将多路增强音频作为多路待传输音频，示例性地将上述三路增强音频作为多路待传输音频，或获取原始音频，将多路增强音频和原始音频共同作为多路待传输音频，示例性地多路待传输音频为包括上述三路增强音频和一路原始音频。在具体实现中，是只传输增强音频还是同时传输增强音频和原始音频至终端设备，可以根据需求进行配置，或者由终端设备通过输出指令参数的方式进行设定，本发明实施例对此不进行限制。

步骤S303：将多路待传输音频和待传输数据输出至终端设备。其中，多路待传输音频包括多路增强音频和原始音频。与终端设备的连接方式可以是通过USB进行连接。通过USB接口进行数据传输，只要将本发明的外接式远场语音装置插入终端设备的USB接口，就能让本没有远场语音功能或低配置的终端设备具有远场智能语音交互的能力，支持热插拔，免驱动，成本低，灵活性强。

根据本实施例的方法可以将音频和数据同时进行传输，这样，既能够将语音唤醒和识别处理集成在外接式的远场语音交互设备中，又能够避免数据延迟的问题。

在具体实现中，多路增强音频的数量可以根据需求进行设置，不局限于上述示例中的三路，还可以是一路、两路、四路、六路等，本领域技术人员应当能够理解，根据实际需求进行灵活变换设置的增强音频路数，也是能够实现上述发明目的的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.外接式的远场语音交互装置，其特征在于，包括

麦克风阵列，用于接收音频；

数据处理模块，用于获取声源音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据，其中，至少所述声源音频来自所述麦克风阵列；和

音频与数据传输模块，用于实现与外接设备的数据交互，将所述多路待传输音频和待传输数据输出至与之连接的外接设备。

2.根据权利要求1所述的装置，其特征在于，所述数据处理模块包括

噪音消除单元，用于对获取的声源音频和终端设备参考音频进行去噪处理，生成原始音频；

信号增强与降噪处理单元，用于对原始音频根据声源存在的空间预划分的区域进行方向性的空间增强和降噪处理，生成多路增强音频；

语音唤醒与识别单元，用于对所述多路增强音频分别进行语音唤醒或识别，生成待传输数据；

待传输音频获取单元，用于根据终端设备指令获取多路增强音频作为多路待传输音频，或获取原始音频和多路增强音频作为多路待传输音频。

3.根据权利要求2所述的装置，其特征在于，所述多路待传输音频包括三路增强音频；

或包括三路增强音频和一路原始音频。

4.根据权利要求2或3所述的装置，其中，所述待传输数据包括选中的音频序号、唤醒与识别结果、以及相应的置信度结果。

5.根据权利要求4所述的装置，其中，所述音频与数据传输模块实现为USB接口。

6.权利要求1至5任一项所述的装置的实现方法，其特征在于，包括

获取麦克风阵列音频和终端设备参考音频；

将所述多路待传输音频和待传输数据输出至终端设备。

7.根据权利要求6所述的方法，其特征在于，所述对麦克风阵列音频和终端设备参考音频进行语音处理，生成多路待传输音频和待传输数据包括：

对麦克风阵列音频和终端设备参考音频进行去噪处理，获取原始音频；

对原始音频进行增强和降噪，生成多路增强音频；

对所述多路增强音频分别进行唤醒识别，生成待传输数据；

根据终端设备指令获取多路待传输音频。

8.根据权利要求7所述的方法，其特征在于，所述对原始音频进行增强和降噪，生成多路增强音频包括：

根据声源存在的空间进行预划分，形成多个区域，并进行区域音频标记；

对原始音频分别根据预划分区域进行方向性的空间增强和降噪处理，生成多路增强音频。

9.根据权利要求6至8任一项所述的方法，其特征在于，所述多路待传输音频包括多路增强音频和原始音频，所述待传输数据包括选中的音频序号、唤醒与识别结果、以及相应的置信度结果。

10.根据权利要求9所述的方法，其特征在于，所述获取麦克风阵列音频和终端设备参考音频均是通过麦克风阵列获取；或

所述麦克风阵列音频通过麦克风阵列获取，所述终端设备参考音频通过终端设备系统组件获取。