CN111048067A

CN111048067A - 一种麦克风响应方法及装置

Info

Publication number: CN111048067A
Application number: CN201911097140.4A
Authority: CN
Inventors: 陈晓松
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-04-21

Abstract

本发明公开一种麦克风响应方法及装置，包括以下步骤：当用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度；利用选举算法分别为语音识别置信度和发音角度进行打分；结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分；激活得分最高的麦克风设备。通过获取每个麦克风的语音识别置信度和发音角度进而结合距离进行打分解决了现有技术中只针对距离判断交互对象的问题，同时获取的语音识别置信度和发音角度受外界噪声影响较小，解决了现有技术中基于能量的距离比较算法，受外界噪声影响较大，以致于选举算法无法正常工作的问题，提高了响应的准确度。

Description

一种麦克风响应方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种麦克风响应方法及装置。

背景技术

随着人工智能技术的发展，推动了认知能力、感知能力以及自然语音输出能力这三个维度上的进步。其中，针对认知能力，基于用户行为的画像，将人机交互从“单向”关系带入了“双向关系”；针对感知能力，由触摸输入到以语音输入、图像识别为核心的全自然交互；针对自然语音输出能力，其带来了新的“语音”设计材料。同时，在一定程度上也丰富了终端设备的使用方式，如麦克风。

分布式麦克风“单一唤醒响应”功能，要求同一空间内多台设备，在用户说出唤醒词后，选举出一个最适合与用户交互的设备进行应答和完成后续交互。其核心在于选举算法，选举算法基于设备端上传的信息，决策哪台设备应该被选中来响应客户。现有技术中通过声音在空气中传播，其能量随传播距离逐渐衰减的原理，通过比较不同设备上采集的唤醒词音频的平均能量来比较说话人距离不同设备的距离，选择距离最近的设备进行交互。这种方法存在着以下问题：1、在设备差异较大的使用场景中，难以选出最优的交互设备，因为距离无法完全代表设备的交互能力；2、基于能量的距离比较算法，受外界噪声影响较大，以致于上述算法无法正常工作。

发明内容

针对上述所显示出来的问题，本方法基于获取麦克风设备的语音识别置信度和发音角度并结合麦克风设备和用户之间的发音距离通过选举算法进行打分选取得分最高的麦克风设备来响应用户。

一种麦克风响应方法，包括以下步骤：

当用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度；

分别为语音识别置信度和发音角度进行打分；

结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分；

激活得分最高的麦克风设备响应所述语音。

优选的，当用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度，包括：

接收用户对每个麦克风设备说出预设唤醒词；

根据DSP算法输出每个麦克风设备采集的预设唤醒词的发音角度信息；

利用唤醒引擎输出每个麦克风设备对预设唤醒词的语音识别置信度。

优选的，分别为语音识别置信度和发音角度进行打分，包括：

利用下列公式为每个麦克风设备的语音识别置信度信息进行打分：

wuw_score＝(conf-thresh)*α

其中，conf为语音识别置信度，thresh为预设语音识别置信度，conf大于thresh，α为一个预设系数，wuw_score为每个麦克风设备的语音识别置信度得分。

优选的，分别为语音识别置信度和发音角度进行打分，还包括：

利用下列公式为每个麦克风设备的发音角度信息进行打分：

其中，δ为每个麦克风设备的预设偏移角度，angle为麦克风设备相对于预设法线的角度，angle_store为每个麦克风设备的发音角度得分。

优选的，结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分，包括：

获取所述每个麦克风设备和所述用户之间的发音距离；

根据下列公式计算所述每个麦克风设备的最终得分：

score＝distance_score+wuw_score+angle_score

其中，所述score为所述每个麦克风设备的总得分，所述distance_score为所述每个麦克风设备的距离得分，所述wuw_score为所述每个麦克风设备的语音识别置信度得分，所述angle_score为所述每个麦克风设备的发音角度得分；

输出最终得分最高的麦克风设备。

一种麦克风响应装置，该装置包括：

获取模块，用于当用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度；

打分模块，用于分别为所述语音识别置信度和所述发音角度进行打分；

计算模块，用于结合所述每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分；

激活模块，用于激活得分最高的麦克风设备响应所述语音。

优选的，获取模块，包括：

接收子模块，用于接收所述用户对每个麦克风设备说出预设唤醒词的信息；

第一输出子模块，用于根据DSP算法输出所述每个麦克风设备采集的所述预设唤醒词的发音角度信息；

第二输出子模块，用于利用唤醒引擎输出所述每个麦克风设备对所述预设唤醒词的语音识别置信度。

优选的，打分模块，包括：

第一打分子模块，用于利用下列公式为每个麦克风设备的语音识别置信度信息进行打分：

wuw_score＝(conf-thresh)*α

优选的，打分模块，还包括：

第二打分子模块，用于利用下列公式为每个麦克风设备的发音角度信息进行打分：

优选的，计算模块，包括：

获取子模块，用于获取每个麦克风设备和用户之间的发音距离；

计算子模块，用于根据下列公式计算所述每个麦克风设备的最终得分：

score＝distance_score+wuw_score+angle_score

输出子模块，用于输出最终得分最高的麦克风设备。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种麦克风响应方法的工作流程图；

图2为本发明所提供的一种麦克风响应方法的另一工作流程图；

图3为本发明所提供的一种麦克风响应装置的结构图；

图4为本发明所提供的一种麦克风响应装置的另一结构图；

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

分布式麦克风“单一唤醒响应”功能，要求同一空间内多台设备，在用户说出唤醒词后，选举出一个最适合与用户交互的设备进行应答和完成后续交互。其核心在于选举算法，选举算法基于设备端上传的信息，决策哪台设备应该被选中来响应客户。现有技术中通过声音在空气中传播，其能量随传播距离逐渐衰减的原理，通过比较不同设备上采集的唤醒词音频的平均能量来比较说话人距离不同设备的距离，选择距离最近的设备进行交互。这种方法存在着以下问题：1、在设备差异较大的使用场景中，难以选出最优的交互设备；2、距离无法完全代表设备的交互能力；3、基于能量的距离比较算法，受外界噪声影响较大，以致于上述算法无法正常工作；4、没有考虑用户的交互习惯，即用户倾向于跟视线正对的设备进行交互而不是背对设备进行交互。为了解决上述问题，本实施例公开了一种麦克风响应方法及装置。

一种麦克风响应方法，如图1所示，包括以下步骤：

步骤S101、当用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度；

步骤S102、分别为语音识别置信度和发音角度进行打分；

步骤S103、结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分；

步骤S104、激活得分最高的麦克风设备响应所述语音。

上述技术方案的工作原理为：在用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度并分别对语音置信度和发音角度进行打分，然后结合每个麦克风设备和用户发音的距离计算每个麦克风设备的最终得分，然后激活得分最高的麦克风设备来响应用户发出的语音。

上述技术方案的有益效果为：通过获取每个麦克风的语音识别置信度和发音角度进而结合距离进行打分解决了现有技术中只针对距离判断交互对象的问题，同时获取的语音识别置信度和发音角度受外界噪声影响较小，解决了现有技术中基于能量的距离比较算法，受外界噪声影响较大，以致于选举算法无法正常工作的问题，提高了响应的准确度。

特别的，上述噪声可以为电视机、洗衣机等大型家电的工作噪声。

在一个实施例中，当用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度，如图2所示，包括：

S201、接收用户对每个麦克风设备说出预设唤醒词；

S202、根据DSP算法输出每个麦克风设备采集的预设唤醒词的发音角度信息；

S203、利用唤醒引擎输出每个麦克风设备对预设唤醒词的语音识别置信度；

特别的，上述DSP算法为数字信号处理通用算法。

上述技术方案的有益效果为:利用DSP算法和唤醒引擎获取每个麦克风设备的发音角度信息和语音识别置信度信息，获取的发音角度信息和语音识别置信度信息不受麦克风设备硬件设备差异的影响，避免了现有技术中在设备差异较大的使用场景中，难以选出最优的交互设备的问题，使得响应的概率更高。

特别的，上述硬件设备差异可以为腔体结构、麦克风阵列、麦克风灵敏度等。

在一个实施例中，分别为语音识别置信度和发音角度进行打分，包括：

wuw_score＝(conf-thresh)*α

上述技术方案的有益效果为：语音识别置信度和麦克风设备的交互能力是直接相关的，即针对一次正常的设备响应操作，理论上设备的语音识别置信度越高，其拾音质量越高，交互能力越强。

在一个实施例中，分别为语音识别置信度和发音角度进行打分，还包括：

利用下列公式为每个麦克风设备的发音角度信息进行打分：

其中，δ为每个麦克风设备的预设偏移角度，angle为麦克风设备相对于预设法线的角度，angle_store为每个麦克风设备的发音角度得分；

特别的，上述法线可以为用户身体正前方一条直线，该直线与用户身体所在平面垂直，如果麦克风设备的角度在90°±δ的范围内时，则输出β；或者上述法线还可以为用户身体所在平面的一条水平直线，如果麦克风设备的角度在90°±δ的范围内时，则输出β，值得说明的是，法线为水平方向或者与用户身体所在平面垂直时，β值是不一样的，β根据实际情况制定。

上述技术方案的有益效果为：发音角度信息的引入可以使得用户正面相对的设备更容易和用户进行交互，解决了现有技术中没有考虑用户的交互习惯，即用户倾向于跟视线正对的设备进行交互而不是背对设备进行交互的问题，提高了用户的产品体验。

在一个实施例中，结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分，包括：

获取所述每个麦克风设备和所述用户之间的发音距离；

根据下列公式计算所述每个麦克风设备的最终得分：

score＝distance_score+wuw_score+angle_score

输出最终得分最高的麦克风设备。

上述技术方案的有益效果为：结合每个麦克风设备到用户发音的距离、语音识别置信度和发音角度三个维度进行打分，可以选出最优的交互设备来进行交互，降低了用户匹配到差的交互对象的情况。

在一个实施例中，包括：

第1步：在终端获取唤醒词识别置信度和人声角度这两个信息。因为选举发生在唤醒阶段，此时前端DSP算法和唤醒引擎可以分别输出说话人的角度信息和本次唤醒词识别的置信度；

第2步：在选举算法中考虑唤醒词识别置信度，方法是：将置信度减去唤醒的参考阈值(高于此阈值才能被唤醒)，乘以一个系数，得到总分中唤醒打分的相关部分，即：

wuw_score＝(conf-thresh)*α

其中α依据实测确定；

第3步：在选举算法中考虑人声角度，方法是：只针对麦克风线性阵列，奖励人声角度落在法线(90°)附近的设备，即：

其中β和δ依据实测确定；特别考虑法线附近的情况，一方面是刻意区分“正对”设备和“非正对”设备这两种情况，另一方面也是因为算法对法线附近的角度判断最准确；

第4步：计算每台设备的最终得分：

score＝distance_score+wuw_score+angle_score

选取得分最高的设备作为输出结果。

上述技术方案的工作原理和有益效果为：从距离、唤醒词识别置信度和角度，三个维度进行单一唤醒决策，具有以下优势：1，唤醒词识别的置信度和设备的交互能力是直接相关的，即综合考虑，针对一次正常的唤醒操作，理论上设备唤醒的置信度越高，其拾音质量越高，交互能力越强；2，角度信息的引入使得用户正对的设备更容易被选中和用户交互，更符合用户的交互习惯；3，置信度和角度这两个信息，受噪声影响较小，在噪声场景下能显著提高决策的准确率和用户体验。

一种麦克风响应装置，如图3所示，该装置包括：

获取模块301，用于当用户发出声音之后，获取每个麦克风设备的语音识别置信度和发音角度；

打分模块302，用于分别为所述语音识别置信度和所述发音角度进行打分；

计算模块303，用于结合所述每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分；

激活模块304，用于激活得分最高的麦克风设备响应所述语音。

在一个实施例中，获取模块，如图4所示，包括：

接收子模块401，用于接收所述用户对每个麦克风设备说出预设唤醒词的信息；

第一输出子模块402，用于根据DSP算法输出每个麦克风设备采集的预设唤醒词的发音角度信息；

第二输出子模块403，用于利用唤醒引擎输出每个麦克风设备对预设唤醒词的语音识别置信度。

在一个实施例中，打分模块，包括：

wuw_score＝(conf-thresh)*α

在一个实施例中，打分模块，还包括：

在一个实施例中，计算模块，包括：

score＝distance_score+wuw_score+angle_score

输出子模块，用于输出最终得分最高的麦克风设备。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种麦克风响应方法，其特征在于，包括以下步骤：

分别为所述语音识别置信度和所述发音角度进行打分；

结合所述每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分；

激活得分最高的麦克风设备响应所述语音。

2.根据权利要求1所述麦克风响应方法，其特征在于，所述当用户发出声音之后，获取所述每个麦克风设备的语音识别置信度和发音角度，包括：

接收所述用户对所述每个麦克风设备说出预设唤醒词；

根据DSP算法输出所每个麦克风设备采集的所述预设唤醒词的发音角度信息；

利用唤醒引擎输出所述每个麦克风设备对所述预设唤醒词的语音识别置信度。

3.根据权利要求2所述麦克风响应方法，其特征在于，所述分别为所述语音识别置信度和所述发音角度进行打分，包括：

利用下列公式为所述每个麦克风设备的语音识别置信度信息进行打分：

wuw_score＝(conf-thresh)*α

其中，conf为所述语音识别置信度，所述thresh为预设语音识别置信度，所述conf大于所述thresh，α为一个预设系数；所述wuw_score为每个麦克风设备的语音识别置信度得分。

4.根据权利要求3所述麦克风响应方法，其特征在于，所述分别为所述语音识别置信度和所述发音角度进行打分，还包括：

利用下列公式为所述每个麦克风设备的发音角度信息进行打分：

其中，所述δ为所述每个麦克风设备的预设偏移角度，所述angle为麦克风设备相对于预设法线的角度，所述angle_store为每个麦克风设备的发音角度得分。

5.根据权利要求1至4所述麦克风响应方法，其特征在于，所述结合每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分，包括：

获取所述每个麦克风设备和所述用户之间的发音距离；

根据下列公式计算所述每个麦克风设备的最终得分：

score＝distance_score+wuw_score+angle_score

输出最终得分最高的麦克风设备。

6.一种麦克风响应装置，其特征在于，该装置包括：

激活模块，用于激活得分最高的麦克风设备响应所述语音。

7.根据权利要求6所述麦克风响应装置，其特征在于，所述获取模块，包括：

接收子模块，用于接收所述用户对所述每个麦克风设备说出预设唤醒词；

8.根据权利要求7所述麦克风响应装置，其特征在于，所述打分模块，包括：

第一打分子模块，用于利用下列公式为所述每个麦克风设备的语音识别置信度信息进行打分：

wuw_score＝(conf-thresh)*α

其中，conf为所述语音识别置信度，所述thresh为预设语音识别置信度，所述conf大于所述thresh，α为一个预设系数，所述wuw_score为每个麦克风设备的语音识别置信度得分。

9.根据权利要求8所述麦克风响应装置，其特征在于，所述打分模块，还包括：

第二打分子模块，用于利用下列公式为所述每个麦克风设备的发音角度信息进行打分：

10.根据权利要求6至9所述麦克风响应装置，其特征在于，所述计算模块，包括：

获取子模块，用于获取所述每个麦克风设备和所述用户之间的发音距离；

score＝distance_score+wuw_score+angle_score

输出子模块，用于输出最终得分最高的麦克风设备。