CN115148207B

CN115148207B - 语音采集点确定方法、装置、芯片及电子设备

Info

Publication number: CN115148207B
Application number: CN202211059700.9A
Authority: CN
Inventors: 王海松; 李金晶; 王云峰
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2023-02-03
Anticipated expiration: 2042-09-01
Also published as: CN115148207A

Abstract

本申请公开一种语音采集点确定方法、装置、芯片及电子设备，该语音采集点确定方法包括：获取目标语音识别设备的声像图；基于所述声像图的图像信息，从所述目标语音识别设备中确定目标区域；向所述目标区域传输音频信号，并更新对应所述目标区域的声像图；基于更新后的声像图的图像信息，从所述目标区域中确定语音采集点的目标位置。本申请能够准确地确定语音采集点的位置，提高语音识别效果。

Description

语音采集点确定方法、装置、芯片及电子设备

技术领域

本申请涉及语音识别技术领域，具体涉及一种语音采集点确定方法、装置、芯片及电子设备。

背景技术

随着社会进步与科技发展，语音交互逐渐成为了一种便捷的人机交互方式。越来越多的智能家居产品上安装有语音识别设备。语音识别设备通过麦克风采集音频，为了使语音识别效果达到最佳，将麦克风设置在合适的语音采集点上便显得尤为重要。目前，技术人员根据家居设计原则和家居产品的结构，确定语音采集点所在位置，然而，技术人员依靠主观意识确定语音采集点的位置并不准确，产生不良的语音识别效果。

发明内容

鉴于此，本申请提供一种语音采集点确定方法、装置、芯片及电子设备，能够准确地确定语音采集点的位置，提高语音识别效果。

本申请提供一种语音采集点确定方法，包括：

获取目标语音识别设备的声像图；

基于所述声像图的图像信息，从所述目标语音识别设备中确定目标区域；

向所述目标区域传输音频信号，并更新对应所述目标区域的声像图；

基于更新后的声像图的图像信息，从所述目标区域中确定语音采集点的目标位置。

可选地，所述声像图的图像信息包括成像色彩深度值，所述从所述目标语音识别设备中确定目标区域，包括：

基于所述声像图的成像色彩深度值，将所述声像图划分为多个图像区域；

将成像色彩深度值最低的图像区域确定为所述目标区域。

可选地，所述向所述目标区域传输音频信号，并更新对应所述目标区域的声像图，包括：

在所述目标区域内设置多个预设采集点；

基于预设策略向所述多个预设采集点传输音频信号；

基于所述多个预设采集点采集到的音频信号，更新对应所述目标区域的声像图。

可选地，所述基于预设策略向所述多个预设采集点传输音频信号，包括：

根据多个预设角度向所述多个预设采集点传输对应的音频信号。

在以所述目标语音识别设备为中心的预设范围内确定音频信号的发射点，并基于所述发射点向所述多个预设采集点传输对应的音频信号。

可选地，所述基于更新后的声像图的图像信息，从所述目标区域中确定语音采集点的目标位置，包括：

基于多个预设策略获取多个更新后的声像图；

基于所述多个更新后的声像图的成像色彩深度值，分别确定所述多个更新后的声像图中语音采集点的位置；

基于所述多个更新后的声像图中的语音采集点的位置，得到语音采集点的目标位置。

可选地，所述方法还包括：

获取第一目标位置和第二目标位置；

分别在所述第一目标位置和所述第二目标位置获取音频信号，并对所述音频信号进行语音识别，得到对应所述第一目标位置的第一识别率和对应所述第二目标位置的第二识别率；

将所述第一识别率与所述第二识别率进行对比，并基于对比结果确定最优的目标位置。

本申请提供一种音频数据处理装置，包括：

获取模块，用于获取目标语音识别设备的声像图；

确定模块，用于基于所述声像图的图像信息，从所述目标语音识别设备中确定目标区域；

更新模块，用于向所述目标区域传输音频信号，并更新对应所述目标区域的声像图；

定位模块，用于基于更新后的声像图的图像信息，从所述目标区域中确定语音采集点的目标位置。

本申请提供一种芯片，用于执行如上任一项所述的语音采集点确定方法。

本申请提供一种电子设备，包括如上所述的芯片。

本申请提供一种语音采集点确定方法、装置、芯片及电子设备，其中，该语音采集点确定方法包括：首先，获取目标语音识别设备的声像图，接着，基于声像图的图像信息，从目标语音识别设备中确定目标区域，然后，向目标区域传输音频信号，并更新对应目标区域的声像图，最后，基于更新后的声像图的图像信息，从目标区域中确定语音采集点的目标位置。本申请依据声像图的图像信息选取目标区域并进一步选取精确的语音采集点的目标位置，与人工主观判定语音采集点的方案相比，本申请提供的语音采集点确定方法能够准确地确定语音采集点的位置，提高语音识别效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音采集点确定方法的第一流程示意图；

图2为本申请实施例提供的语音采集点确定方法的第二流程示意图；

图3为本申请实施例提供的语音采集点确定方法的第三流程示意图；

图4为本申请实施例提供的语音采集点确定方法的第四流程示意图；

图5为本申请实施例提供的语音采集点确定方法的第五流程示意图；

图6为本申请实施例提供的语音采集点确定装置的第一结构示意图。

具体实施方式

下面结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，下述各个实施例及其技术特征可以相互组合。

本申请提供一种语音采集点确定方法，请参见图1，图1为本申请实施例提供的语音采集点确定方法的第一流程示意图。该语音采集点确定方法包括：

S1、获取目标语音识别设备的声像图。

可以理解的是，可以通过如下方式获取声像图：利用声学成像仪器对目标语音识别设备进行扫描，从而得到声像图，或者，从数据库调用预存的声像图。例如，当获取声像图时，通过声学成像仪器对目标语音识别设备进行扫描，获取包括目标语音识别设备每个部分的声像图。

S2、基于声像图的图像信息，从目标语音识别设备中确定目标区域。

可以理解的是，声像图的图像信息包括成像色彩、成像色彩的覆盖范围以及成像色彩覆盖的图形区域。具体地，首先从声像图中确定一个图像区域，然后将该图像区域对应的真实位置区域确定为目标区域，即该目标区域为目标语音识别设备的部分区域。

可选地，在一些实施例中，声像图的图像信息包括成像色彩深度值。

请参见图2，图2为本申请实施例提供的语音采集点确定方法的第二流程示意图。步骤S2包括：

S21、基于声像图的成像色彩深度值，将声像图划分为多个图像区域。

S22、将成像色彩深度值最低的图像区域确定为目标区域。

可以理解的是，图像区域的成像色彩深度值越低，则该图像区域对应的现实地理区域的噪声越小，因此，成像色彩深度值最高的图像区域对应的现实地理区域的噪声最大，成像色彩深度值最低的图像区域对应的现实地理区域的噪声最小。因此，可以选取成像色彩深度值最低的图像区域为目标区域，此时，该成像色彩深度值最低的图像区域对应的现实地理区域的噪声最小，以最大程度降低后续采集音频信号时受到的噪声干扰。

在一种具体实施方式中，根据不同的成像色彩深度值，将声像图分成多个图像区域，图像区域相互之间不重叠，多个图像区域拼接得到该声像图；在另一种具体实施方式中，根据不同的成像色彩深度值，将声像图分成多个图像区域，图像区域相互之间重叠，进一步地，在一种具体情况中，以声像图整体为第一图像区域，然后在第一图像区域中设置一个第二图像区域，接着在第二图像区域中设置第三图像区域，由此将声像图分成多个重叠的图像区域。

S3、向目标区域传输音频信号，并更新对应目标区域的声像图。

可以理解的是，向目标区域传输音频信号，即向目标语音识别设备的一部分区域定向发射音频信号，当扫描该目标区域时，与原来的声像图相比，由于音频信号在该目标区域发生反射，并反映到声像图中呈现出成像色彩变化，因此根据成像色彩变化更新对应目标区域的声像图。

可选地，在一些实施例中，请参见图3，图3为本申请实施例提供的语音采集点确定方法的第三流程示意图。步骤S3包括：

S31、在目标区域内设置多个预设采集点。

S32、基于预设策略向多个预设采集点传输音频信号。

S33、基于多个预设采集点采集到的音频信号，更新对应目标区域的声像图。

在一些实施例中，通过在目标区域内设置阵列传声定位系统，并将阵列传声定位系统的多个拾音端对应设置于目标区域内的预设采集点，实现通过阵列传声定位系统的拾音端采集音频信号。然后，阵列声响系统与主机连接，在通过阵列声响系统的拾音端接收到音频信号后，该音频信号通过阵列声响系统传输至主机，并由主机产生更新后的声像图，更新后的声像图中，不同音频信号的强弱以不同色彩深度值的成像色彩进行显示。

可选地，在一个实施例中，步骤S32包括：

根据多个预设角度向多个预设采集点传输对应的音频信号。

在一些实施例中，通过人工嘴或高保真音响向多个预设采集点播放音频信号。

可选地，在一个具体应用场景中，每个预设角度向对应的预设采集点传输相同的音频信号或对应每个预设采集点的音频信号。例如，第一预设角度为0度，第二预设角度为90度，第三预设角度为180度，根据第一预设角度向第一预设采集点发射音频信号01，根据第二预设角度向第二预设采集点发射音频信号02，根据第三预设角度向第三预设采集点发射音频信号02。

可选地，在一个具体应用场景中，通过多个预设角度同时向一个或多个预设采集点传输音频信号。例如，通过0度、45度、90度、135度以及180度同时向第一预设采集点、第二预设采集点以及第三预设采集点发射音频信号01。由于从多个预设角度同时向一个或多个预设采集点传输音频信号，这样可以提高预设采集点所接收的有效音频信号的效果。

可选地，在一个实施例中，步骤S32包括：

在以目标语音识别设备为中心的预设范围内确定音频信号的发射点，并基于发射点向多个预设采集点传输对应的音频信号。

可选地，在一个具体应用场景中，在距离目标语音识别设备3米的预设范围内，设置一个发射点，并在该发射点向所有预设采集点发射相同的音频信号或对应每个预设采集点的音频信号。

可选地，在一个具体应用场景中，在距离目标语音识别设备3米的预设范围内设置多个发射点，并在多个发射点向多个预设采集点发射音频信号。例如，在距离目标语音识别设备3米的预设范围内设置3个发射点，第一发射点、第二发射点以及第三发射点，第一发射点向第一预设采集点发射音频信号，第二发射点向第二预设采集点发射音频信号，第三发射点向第三预设采集点发射音频信号；或者，第一发射点向第一预设采集点和第二预设采集点发射音频信号01，第二发射点和第三发射点向第三预设采集点发射音频信号02。

可选地，在一个实施例中，步骤S32包括：

在以目标语音识别设备为中心的预设范围内确定音频信号的发射点，基于发射点通过多个预设角度向多个预设采集点传输对应的音频信号。

例如，在距离目标语音识别设备3米的预设范围内设置一个发射点，在该发射点，第一次通过预设角度0度向预设采集点发射音频信号，第二次通过预设角度90度向预设采集点发射音频信号。

S4、基于更新后的声像图的图像信息，从目标区域中确定语音采集点的目标位置。

可以理解的是，在更新声像图后，声像图中对应目标区域的图像区域会呈现不同成像色彩深度值的图像子区域。

在一个实施例中，将成像色彩深度值最高的图像子区域确定为语音采集点的目标位置。

在另一个实施例中，将多个图像子区域的成像色彩深度值最高的交集处确定为语音采集点的目标位置。

可以理解的是，成像色彩深度值低的图像子区域，说明该图像子区域对应的位置收音效果差，相反，成像色彩深度值高的图像子区域，说明该图像子区域对应的位置收音效果好。

当目标语音识别设备需要进行语音采集时，在目标语音识别设备上确定语音采集点后的目标位置，并在该目标位置设置目标语音识别设备的拾音端，即可让目标语音识别设备在最佳位置接收音频，有利于减少噪声干扰以及提高接收到音频信号的清晰度，进而有利于提高语音识别率。

可选地，在一些实施例中，请参见图4，图4为本申请实施例提供的语音采集点确定方法的第四流程示意图。步骤S4包括：

S41、基于多个预设策略获取多个更新后的声像图。

S42、基于多个更新后的声像图的成像色彩深度值，分别确定多个更新后的声像图中语音采集点的位置。

S43、基于多个更新后的声像图中的语音采集点的位置，得到语音采集点的目标位置。

可以理解的是，在步骤S41中，每次采用一个预设策略向多个预设采集点传输音频信号时，可以获取一个更新后的声像图。每个更新后的声像图的成像色彩深度值可能相同，也可能不同，因此，在每个声像图中，根据其成像色彩深度值，确定一个或多个语音采集点的位置，由此可得到多个更新后的声像图中的语音采集点的位置。进一步地，根据实际需求，在多个更新后的声像图中的语音采集点的位置中，筛选出语音采集点的目标位置。

可以理解的是，基于上述实施例确定的目标区域，其覆盖的范围仍然较大，在目标区域中确定的语音采集点的目标位置可能不是最佳的语音采集点。为了进一步选取最佳的语音采集点，本申请还提供如下实施例：

请参见图5，图5为本申请实施例提供的语音采集点确定方法的第五流程示意图。语音采集点确定方法还包括：

S5、获取第一目标位置和第二目标位置。

S6、分别在第一目标位置和第二目标位置获取音频信号，并对音频信号进行语音识别，得到对应第一目标位置的第一识别率和对应第二目标位置的第二识别率。

S7、将第一识别率与第二识别率进行对比，并基于对比结果确定最优的目标位置。

基于上述语音采集点确定方法，从目标区域中确定语音采集点的第一目标位置01和第二目标位置02，第一目标位置01和第二目标位置02不相同。在第一目标位置01和第二目标位置02分别设置麦克风，然后在距离目标语音识别设备3至5米的位置向目标语音识别设备播放音频信号，以使目标语音识别设备对音频信号进行语音识别，每次播放一个音频信号，若目标语音识别设备成功识别，则对应得到一个语音识别结果，将对应第一目标位置01采集的音频信号作为第一识别结果，将对应第二目标位置02采集的音频信号作为第二识别结果，通过多次（50次以上）播放音频信号得到多个语音识别结果，基于第一识别结果及播放次数，计算出第一识别率，基于第二识别结果及播放次数，计算出第二识别率；将第一识别率与第二识别率进行对比，若第一识别率更高，则说明第一目标位置01是更佳的语音采集点的目标位置，反之，第二识别率更高，则说明第二目标位置02是更佳的语音采集点的目标位置。

本申请提供一种语音采集点确定方法，首先，获取目标语音识别设备的声像图，接着，基于声像图的图像信息，从目标语音识别设备中确定目标区域，然后，向目标区域传输音频信号，并更新对应目标区域的声像图，最后，基于更新后的声像图的图像信息，从目标区域中确定语音采集点的目标位置。本申请依据声像图的图像信息选取目标区域并进一步选取精确的语音采集点的目标位置，与人工主观判定语音采集点的方案相比，本申请提供的语音采集点确定方法更有实操性，并且选取的语音采集点更准确。

本申请提供一种语音采集点确定装置，请参见图6，图6为本申请实施例提供的语音采集点确定装置的第一结构示意图。该语音采集点确定装置包括：

获取模块1，用于获取目标语音识别设备的声像图。

确定模块2，用于基于声像图的图像信息，从目标语音识别设备中确定目标区域。

更新模块3，用于向目标区域传输音频信号，并更新对应目标区域的声像图。

定位模块4，用于基于更新后的声像图的图像信息，从目标区域中确定语音采集点的目标位置。

可选地，在一些实施例中，声像图的图像信息包括成像色彩深度值；确定模块2包括：

划分单元，用于基于声像图的成像色彩深度值，将声像图划分为多个图像区域。

确定单元，用于将成像色彩深度值最低的图像区域确定为目标区域。

可选地，在一些实施例中，更新模块3包括：

采集单元，用于在目标区域内设置多个预设采集点。

传输单元，用于基于预设策略向多个预设采集点传输音频信号。

更新单元，用于基于多个预设采集点采集到的音频信号，更新对应目标区域的声像图。

可选地，在一些实施例中，传输单元还用于：

根据多个预设角度向多个预设采集点传输对应的音频信号。

可选地，在一些实施例中，传输单元还用于：

可选地，在一些实施例中，定位模块4包括：

获取单元，用于基于多个预设策略获取多个更新后的声像图。

定位单元，用于基于多个更新后的声像图的成像色彩深度值，分别确定多个更新后的声像图中语音采集点的位置。

筛选单元，用于基于多个更新后的声像图中的语音采集点的位置，得到语音采集点的目标位置。

可选地，在一些实施例中，定位模块4，还用于获取第一目标位置和第二目标位置。

语音采集点确定装置还包括：

识别模块，用于分别在第一目标位置和第二目标位置获取音频信号，并对音频信号进行语音识别，得到对应第一目标位置的第一识别率和对应第二目标位置的第二识别率。

对比模块，用于将第一识别率与第二识别率进行对比，并基于对比结果确定最优的目标位置。

本申请提供一种语音采集点确定方法、装置、芯片及电子设备，在语音采集点确定装置中，首先，获取模块1获取目标语音识别设备的声像图，接着，确定模块2基于声像图的图像信息，从目标语音识别设备中确定目标区域，然后，更新模块3向目标区域传输音频信号，并更新对应目标区域的声像图，最后，定位模块4基于更新后的声像图的图像信息，从目标区域中确定语音采集点的目标位置。本申请依据声像图的图像信息选取目标区域并进一步选取精确的语音采集点的目标位置，相比起人工主观判定的语音采集点，本申请提供的语音采集点确定方法更有实操性，并且选取的语音采集点更准确。

本申请提供一种芯片，用于执行如上任一项的语音采集点确定方法。

本实施例的芯片能够实现如上的技术效果，在此不再累述。

本申请提供一种电子设备，包括上述芯片。

本实施例的电子能够实现如上的技术效果，在此不再累述。

尽管已经相对于一个或多个实现方式示出并描述了本申请，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本申请包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。

即，以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，例如各实施例之间技术特征的相互结合，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

另外，对于特性相同或相似的结构元件，本申请可采用相同或者不相同的标号进行标识。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词是用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何一个实施例不一定被解释为比其它实施例更加优选或更加具优势。为了使本领域任何技术人员能够实现和使用本申请，本申请给出了以上描述。在以上描述中，为了解释的目的而列出了各个细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实施例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

Claims

1.一种语音采集点确定方法，其特征在于，包括：

获取目标语音识别设备的声像图；

基于更新后的声像图的图像信息，从所述目标区域中确定语音采集点的第一目标位置和第二目标位置；

2.根据权利要求1所述的语音采集点确定方法，其特征在于，所述声像图的图像信息包括成像色彩深度值，所述从所述目标语音识别设备中确定目标区域，包括：

将成像色彩深度值最低的图像区域确定为所述目标区域。

3.根据权利要求1所述的语音采集点确定方法，其特征在于，所述向所述目标区域传输音频信号，并更新对应所述目标区域的声像图，包括：

在所述目标区域内设置多个预设采集点；

基于预设策略向所述多个预设采集点传输音频信号；

4.根据权利要求3所述的语音采集点确定方法，其特征在于，所述基于预设策略向所述多个预设采集点传输音频信号，包括：

5.根据权利要求3所述的语音采集点确定方法，其特征在于，所述基于预设策略向所述多个预设采集点传输音频信号，包括：

6.根据权利要求2所述的语音采集点确定方法，其特征在于，所述基于更新后的声像图的图像信息，从所述目标区域中确定语音采集点的目标位置，包括：

基于多个预设策略获取多个更新后的声像图；

7.一种语音采集点确定装置，其特征在于，包括：

获取模块，用于获取目标语音识别设备的声像图；

定位模块，用于基于更新后的声像图的图像信息，从所述目标区域中确定语音采集点的第一目标位置和第二目标位置；

识别模块，用于分别在第一目标位置和第二目标位置获取音频信号，并对音频信号进行语音识别，得到对应第一目标位置的第一识别率和对应第二目标位置的第二识别率；

8.一种芯片，其特征在于，用于执行如权利要求1-6任一项所述的语音采集点确定方法。

9.一种电子设备，其特征在于，包括如权利要求8所述的芯片。