CN111601198B

CN111601198B - 应用麦克风跟踪说话人的方法、装置及计算设备

Info

Publication number: CN111601198B
Application number: CN202010333691.2A
Authority: CN
Inventors: 李宏浩
Original assignee: Cloudminds Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2022-03-11
Anticipated expiration: 2040-04-24
Also published as: CN111601198A

Abstract

本发明实施例涉及通信技术领域，公开了一种应用麦克风跟踪说话人的方法、装置及计算设备，方法包括：通过声呐成像识别说话人；获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人，本发明实施例能够从声呐获取到说话人准确位置，通过动态调整麦克风与说话者之间的角度，使麦克风前端算法开发更集中于一定幅度角度的开发，能够节约开发时间，达到更好的语音效果。

Description

应用麦克风跟踪说话人的方法、装置及计算设备

技术领域

本发明实施例涉及通信技术领域，具体涉及一种应用麦克风跟踪说话人的方法、装置及计算设备。

背景技术

目前语音识别需要前端麦克风采集数据进行处理，但是在复杂环境中，麦克风采集的有效语音数据存在误采集和失真，不同角度、不通距离，说话人的有效语音数据采集效果差距明显。

现有技术中，传统麦克风的位置是固定不变的，而各个角度和距离调试开发都需要考虑全面，由此带来的开发成本和时间成本非常高，而且为了兼容各个角度语音采集识别，可能会牺牲掉更多性能或者算力、或者识别效果，最终效果并不是研发过程中最理想的状态。

发明内容

鉴于上述问题，本发明实施例提供了一种应用麦克风跟踪说话人的方法、装置及计算设备，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种应用麦克风跟踪说话人的方法，所述方法包括：通过声呐成像识别说话人；获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

在一种可选的方式中，所述通过声呐成像识别说话人，包括：在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人；所述获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离，包括：结合大数据等身高人类嘴巴坐标分布，获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。

在一种可选的方式中，所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。

在一种可选的方式中，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过机械臂实时控制麦克风在与所述嘴部坐标正对，或者左右摇摆30度的范围内。

在一种可选的方式中，所述方法还包括：获取所述麦克风采集的所述说话人的语音数据；获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离；对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。

在一种可选的方式中，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；所述获取所述麦克风采集的所述说话人的语音数据，包括：获取多个所述麦克风同时采集的所述说话人的语音数据。

在一种可选的方式中，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；所述获取所述麦克风采集的所述说话人的语音数据，包括：获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。

根据本发明实施例的另一方面，提供了一种应用麦克风跟踪说话人的装置，所述应用麦克风跟踪说话人的装置包括：识别单元，通过声呐成像识别说话人；坐标获取单元，获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；动态跟踪单元，用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

根据本发明实施例的另一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述应用麦克风跟踪说话人的方法的步骤。

根据本发明实施例的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使所述处理器执行上述应用麦克风跟踪说话人的方法的步骤。

本发明实施例的应用麦克风跟踪说话人的方法包括：通过声呐成像识别说话人；获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人，能够从声呐获取到说话人准确位置，通过动态调整麦克风与说话者之间的角度，使麦克风前端算法开发更集中于一定幅度角度的开发，能够节约开发时间，达到更好的语音效果。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的应用麦克风跟踪说话人的方法的流程示意图；

图2示出了本发明实施例提供的应用麦克风跟踪说话人的装置的结构示意图；

图3示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的应用麦克风跟踪说话人的方法的流程示意图，如图1所示，该应用麦克风跟踪说话人的方法应用于服务端，包括：

步骤S11：通过声呐成像识别说话人。

在本发明实施例中，使用声呐成像，对有效范围内进行不间断检测，频率为10到20HZ。声呐成像的具体实现与现有技术相同，在此不再赘述。

针对声呐成像得到的人像进行人像确认分析，具体地，在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人。如果不是人，则结束；如果是人，则进行后续的步骤。其中，第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内，再远距离则不做反馈。

步骤S12：获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离。

在本发明实施例中，在步骤S12中，结合大数据等身高人类嘴巴坐标分布，获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。具体通过大数据得知等身高人类的嘴部坐标分布，得出嘴部坐标的合理取值，嘴部坐标记录为msg1，麦克风至所述嘴部坐标的距离记录为msg2。

步骤S13：通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

具体地，通过机械臂实时控制麦克风在与所述嘴部坐标正对，或者左右摇摆30度的范围内。通过嘴部坐标，通过通信电路启动机械臂动态跟踪麦克风，控制麦克风尽量朝向嘴部坐标msg1。其中通信电路可以是现有技术中能实现与机械臂进行通信的任一电路，在此不作详述。机械臂可以采用环形运转进行简单左右调节位置，也可以做万向支持精准定位到嘴部坐标，可以将麦克风集成到机械臂。

在本发明实施例中，不间断重复以上步骤，就能动态跟踪到说话人，将距离参数记录到麦克风，以后续回声消除(Acoustic Echo Cancellation，AEC)、降噪、以及能力转变做参数化处理。将上述应用麦克风跟踪说话人的方法集成到机器人设备上，可以用于动态跟踪行人，也可用于进行安防检测，语音识别，机器人跟踪服务等。其中机器人设备可以是扫地机器人、安防机器人等各类人形机器人。本发明实施例通过动态调整麦克风与说话者之间的角度，以及声呐获得的距离，使开发更集中于一定幅度角度的开发，能够节约开发时间。

将上述应用麦克风跟踪说话人的方法应用于语音识别时，进一步获取所述麦克风采集的所述说话人的语音数据；获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离；对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。通过以上动态定位嘴部坐标，以及距离确认，在做麦克风降噪、能量转变、以及AEC等功能时，就可以主要以正对麦克风做开发优化，能节约更多的开发时间，而且语音效果也能做到最优的状态。

在本发明实施例中，可以应用多个麦克风同时采集说话人的语音数据，例如应用2个或3个麦克风同时采集说话人的语音数据。具体地，通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；获取多个所述麦克风同时采集的所述说话人的语音数据。

在本发明实施例中，当有多人对话场景时，通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。优选地，应用6到8个麦克风，以便覆盖到6到8个人同时说话时的语音采集需求。对于有多人对话场景，固定麦克风不能有效跟踪多人，保证其语音识别在合理均衡范围，而本发明实施例通过动态麦克风跟踪，可以同时跟踪多个说话人，从而实现多人讯息接受处理，更符合人与人讨论交流场景。

图2示出了本发明实施例的应用麦克风跟踪说话人的装置的结构示意图，如图2所示，该应用麦克风跟踪说话人的装置包括：识别单元201、坐标获取单元202、动态跟踪单元203以及语音识别单元304。

识别单元201通过声呐成像识别说话人；坐标获取单元202获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；动态跟踪单元203用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

在一种可选的方式中，识别单元201用于：在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人；坐标获取单元202用于结合大数据等身高人类嘴巴坐标分布，获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。

在一种可选的方式中，动态跟踪单元203用于：通过机械臂实时控制麦克风在与所述嘴部坐标正对，或者左右摇摆30度的范围内。

在一种可选的方式中，语音识别单元304用于：获取所述麦克风采集的所述说话人的语音数据；获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离；对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。

在一种可选的方式中，动态跟踪单元203用于：通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；语音识别单元304用于：获取多个所述麦克风同时采集的所述说话人的语音数据。

在一种可选的方式中，动态跟踪单元203用于：通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；语音识别单元304用于：获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的应用麦克风跟踪说话人的方法。

可执行指令具体可以用于使得处理器执行以下操作：

通过声呐成像识别说话人；

获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；

通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人。

在一种可选的方式中，所述可执行指令使所述处理器执行以下操作：

在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人；

结合大数据等身高人类嘴巴坐标分布，获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。

通过机械臂实时控制麦克风在与所述嘴部坐标正对，或者左右摇摆30度的范围内。

获取所述麦克风采集的所述说话人的语音数据；

获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离；

对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。

通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；

获取多个所述麦克风同时采集的所述说话人的语音数据。

通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；

获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。

图3示出了本发明设备实施例的结构示意图，本发明具体实施例并不对设备的具体实现做限定。

如图3所示，该设备可以包括：处理器(processor)302、通信接口(CommunicationsInterface)304、存储器(memory)306、以及通信总线308。

其中：处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。处理器302，用于执行程序310，具体可以执行上述应用麦克风跟踪说话人的方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行以下操作：

通过声呐成像识别说话人；

在一种可选的方式中，所述程序310使所述处理器执行以下操作：

获取所述麦克风采集的所述说话人的语音数据；

获取多个所述麦克风同时采集的所述说话人的语音数据。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种应用麦克风跟踪说话人的方法，其特征在于，所述方法包括：

通过声呐成像识别说话人；

结合大数据等身高人类嘴巴坐标分布，获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；

通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人；

所述通过声呐成像识别说话人，包括：在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人；所述方法还包括：获取所述麦克风采集的所述说话人的语音数据；通过动态定位所述说话人的嘴部坐标以及确认所述麦克风至所述嘴部坐标的距离，在所述麦克风与所述说话人的所述嘴部坐标正对时对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别；

所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；

所述获取所述麦克风采集的所述说话人的语音数据，包括：获取多个所述麦克风同时采集的所述说话人的语音数据。

2.如权利要求1所述的应用麦克风跟踪说话人的方法，其特征在于，所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。

3.如权利要求1所述的应用麦克风跟踪说话人的方法，其特征在于，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：

4.如权利要求1所述的应用麦克风跟踪说话人的方法，其特征在于，所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，包括：通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对；

所述获取所述麦克风采集的所述说话人的语音数据，包括：获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。

5.一种应用麦克风跟踪说话人的装置，其特征在于，所述装置包括：

识别单元，通过声呐成像识别说话人；

坐标获取单元，结合大数据等身高人类嘴巴坐标分布，获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离；

动态跟踪单元，用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对，动态跟踪所述说话人；

语音识别单元，用于获取所述麦克风采集的所述说话人的语音数据；通过动态定位所述说话人的嘴部坐标以及确认所述麦克风至所述嘴部坐标的距离，在所述麦克风与所述说话人的所述嘴部坐标正对时对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别;

所述动态跟踪单元还用于通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对；

所述语音识别单元还用于获取多个所述麦克风同时采集的所述说话人的语音数据。

6.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行根据权利要求1-4任一项所述应用麦克风跟踪说话人的方法的步骤。

7.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行根据权利要求1-4任一项所述应用麦克风跟踪说话人的方法的步骤。