CN111596882B

CN111596882B - 一种分布式阵列对齐方法

Info

Publication number: CN111596882B
Application number: CN202010255744.3A
Authority: CN
Inventors: 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-05-26
Anticipated expiration: 2040-04-02
Also published as: CN111596882A

Abstract

本发明提供一种分布式阵列对齐方法，解决各个分布式设备接收信号不对齐的问题。其中方法包括：获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列；以打分最高对应的短时能量序列为基准，截取能量集中的预设区域作为电子采集标签；将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，以所述位置为对齐点，按照所述对齐点，重新对各个设备对应的所述短时能量序列进行截取，完成对齐步骤。

Description

一种分布式阵列对齐方法

技术领域

本发明涉及语音交互技术领域，特别涉及一种分布式阵列对齐方法。

背景技术

在面对多个分布式设备做语音交互时，需要通过一些特征选择某个设备与人做交互，在仅有语音信息时通常使用临近响应的原则，可通过判断设备之间能量差异来选择。

每个设备独立拾音，分别通过本地唤醒引擎得到唤醒词对应信号的时间起止点，由于混响、噪声影响，每个设备接收的信号存在明显差异，从而造成每个设备取得的信号时间起止点并不一致，导致计算能量时并非同一时间段信号，从而影响最终判决结果。

发明内容

本发明提供一种分布式阵列对齐方法，解决各个分布式设备接收信号不对齐的问题。

本发明实施例提供一种，包括：获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列；

以打分最高对应的短时能量序列为基准，截取能量集中的预设区域作为电子采集标签；

将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，以所述位置为对齐点，按照所述对齐点，重新对各个设备对应的所述短时能量序列进行截取，完成对齐步骤。

在一种可能实现的方式中，所述基于预设规则生成的短时能量序列，具体包括：

每个设备通过唤醒模块获得唤醒词对应的语音数据；

通过前端降噪模块将所述语音数据进行降噪处理；

通过唤醒打分模块对降噪处理后的所述语音数据进行打分，同时将所述语音数据进行缓存；

当打分大于阈值时，依据唤醒模块给出的所述语音数据的起止点计算所述语音数据的所述短时能量序列。

在一种可能实现的方式中，所述预设区域为75％～85％的短时能量序列的部分。

在一种可能实现的方式中，所述将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，具体包括：

将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应；将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应，确定该对应关系的初始参考值；

然后，依次将所述电子采集标签的起始位与所述短时能量序列中的第二位能量值、第三位能量值直至最后一位能量值进行对应，确定多个所述初始参考值；

比较确定的多个所述初始参考值，取最大的所述参考值时的对应关系为所述电子采集标签在所述短时能量序列中的位置。

在一种可能实现的方式中，所述将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应；将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应，确定该对应关系的初始参考值，具体为：

首先，将所述电子采集标签的第一位能量值与所述短时能量序列中的第一位能量值进行比对；依次将所述电子采集标签的下一位能量值与所述短时能量序列中的下一位能量值进行比对；当所述电子采集标签的所有能量值比对完成后，统计比对符合的个数作为所述初始参考值。

在一种可能实现的方式中，通过唤醒打分模块对降噪处理后的所述语音数据进行打分中，打分的具体操作如下：

提取所述语音数据的特征序列；所述特征序列包括：所述语音数据的每一帧的特征向量；

将每一个所述特征向量分别带入到事先训练好的唤醒词模型中进行打分，获得所述特征向量的分值；所述唤醒词模型为混合高斯模型；

将所述特征序列中的各个所述特征向量的分值相加作为所述语音数据的分值；

其中，将所述特征向量o＝(o₁,o₂,···,o_i,···,o_n)带入到事先训练好的唤醒词模型中进行打分的计算公式为：

其中，log(P(O))为所述特征向量的分值，j表示为所述唤醒词模型的第j个参数向量，m表示所述唤醒词模型的所述参数向量的个数，所述唤醒词模型的平均向量为μ＝(μ₁,μ₂,···,μ_i,···,μ_n)，c_j为对应所述第j个参数向量的常数。

提取所述语音数据中的特征，所述特征包括各个字节之间的停顿时间、各个字节的能量幅值、各个字节的起止时间值；

基于所述各个字节之间的停顿时间与各个字节之间对应的预设的字节停顿时间，计算出第一分值A₁；公式如下：

其中，t_i表示第i个字节和第i+1个字节之间的停顿时间；T_i表示第i个字节和第i+1个字节之间对应的预设的字节停顿时间；a_i表示第i个字节和第i+1个字节之间对应的预设的字节停顿时间所对应的权重；n表示所述语音数据中的字节的个数；

基于所述各个字节的能量幅值与各个字节对应的预设的能量幅值，计算出第二分值A₂；公式如下：

其中，m_i表示第i个字节的能量幅值；M_i表示第i个字节对应的预设的能量幅值；b_i表示第i个字节对应的预设的能量幅值所对应的权重；

基于所述各个字节的起止时间值与各个字节对应的预设的起止时间值，计算出第三分值A₃；公式如下：

其中，d_i表示第i个字节的起止时间值；D_i表示第i个字节对应的预设的起止时间值；c_i表示第i个字节对应的预设的起止时间值所对应的权重；

基于所述第一分值、所述第二分值、所述第三分值及各个分值的权重，计算出所述语音数据的最终分值A_终；公式如下：

A_终＝αA₁+βA₂+γA₃；

其中，α、β、γ分别为所述第一分值的权重、所述第二分值的权重、所述第三分值的权重。

在一种可能实现的方式中，计算所述语音数据的所述短时能量序列具体包括：

将所述语音数据按每隔一预设时间截取为一个短时数据的方式获得多个短时数据，分别计算各个所述短时数据的能量；将各个所述短时数据的能量组成数组后形成所述短时能量序列。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种分布式阵列对齐方法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种分布式阵列对齐方法，如图1所示，包括：

步骤1：获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列；

步骤2：以打分最高对应的短时能量序列为基准，截取能量集中的预设区域作为电子采集标签；

步骤3：将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，以所述位置为对齐点，按照所述对齐点，重新对各个设备对应的所述短时能量序列进行截取，完成对齐步骤。

上述实施例的工作原理和有益效果为：

本发明的分布式阵列对齐方法是基于分布式设备的硬件基础上提出的。因为分布式设备的每个设备都是独立拾音，其距离交互人的距离是各不相同的；所以其音频的起止时间点各不相同，不进行对齐操作而直接计算各个时间的能量进行判断从而唤醒交互设备是不准确的，故而采用本发明的分布式阵列对齐方法可以有效解决，保证最终的唤醒的交互设备是交互人想要唤醒的交互设备。

本发明的分布式阵列对齐方法，首先是获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列；然后，将打分的分值进行比较；以打分最高对应的短时能量序列为基准，截取能量集中的预设区域作为电子采集标签；再然后，将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，以所述位置为对齐点，按照所述对齐点，重新对各个设备对应的所述短时能量序列进行截取，完成对齐步骤。以唤醒词的短时能量序列中能量集中区域为对齐点，保证对齐的准确性；从而使唤醒词的起止位置的短时能量一一对应，实现最终判决从而唤醒的交互设备是准确的；保证最终的唤醒的交互设备是交互人想要唤醒的交互设备。

本发明实施例提供一种分布式阵列对齐方法，所述基于预设规则生成的短时能量序列，具体包括：

每个设备通过唤醒模块获得唤醒词对应的语音数据；

通过前端降噪模块将所述语音数据进行降噪处理；

上述技术方案的有益效果为：

每个设备的数据通过前端降噪模块，送入唤醒打分模块，同时缓存数据，缓存长度可依唤醒词长度设定。首先对语音数据进行降噪处理，排出语音数据内的噪声的影响，从而保证后续语音处理的准确性。对语音数据进行打分，一般从清晰度、准确度、流利度等方面出发对语音数据进行评价；分值越高说明语音数据越好。设定阈值剔除评分不符和要求的语音数据，省去计算这部分语音数据的短时能量序列，提高计算效率。

本发明实施例提供一种分布式阵列对齐方法，所述预设区域为75％～85％的短时能量序列的部分。

依据大量数据发现，75％～85％的短时能量序列的部分为音频数据能量集中的部位。以此部分作为对齐标准，具有较高准确性。

本发明实施例提供一种分布式阵列对齐方法，所述将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，具体包括：

上述技术方案的工作原理及有益效果为：

依次将电子标签的起始位与短时能量序列中各个位能量值进行对应，从而获得多个参考值，当电子标签到达其对齐位时，参考值为最大。以此来确定短时能量序列对齐的位置。

本发明实施例提供一种分布式阵列对齐方法，所述将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应；将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应，确定该对应关系的初始参考值，具体为：

上述技术方案的工作原理及有益效果为：

短时能量序列中从某一位能量值与电子标签中的能量值是完全一致的，该位置可以确定为对齐用的对齐位置。初始参考值就是指示电子标签与短时能量序列对应位置的匹配度，初始参考值越高说明越匹配。

上述技术方案的工作原理及有益效果为：

采用事先训练好的唤醒词模型打分，具有打分快速、准确的优点。

本发明实施例提供一种分布式阵列对齐方法，通过唤醒打分模块对降噪处理后的所述语音数据进行打分中，打分的具体操作如下：

A_终＝αA₁+βA₂+γA₃；

上述技术方案的工作原理及有益效果为：

各个字节之间的停顿时间对应着语音数据的清晰度，各个字节的能量幅值对应着准确度，各个字节的起止时间对应着流利度；综合清晰度、准确度、流利度等方面出发对语音数据进行评价打分。

本发明实施例提供一种分布式阵列对齐方法，计算所述语音数据的所述短时能量序列具体包括：

按照预设规则进行划分，短时数据的时间跨度是一致的，为预设时间【例如10ms】，从而保证计算得到的能量值具有可比性。例如，一个1s的语音数据按照10ms一个短时数据截取可以截取100个，此时短时能量序列中的短时能量值个数为100个。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种分布式阵列对齐方法，其特征在于，包括：

获取多个分布式设备中每个设备对于唤醒词的打分及基于预设规则生成的短时能量序列；

将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，以所述位置为对齐点，重新对各个设备对应的所述短时能量序列进行截取，完成对齐步骤；

所述将电子采集标签与每个设备生成的所述短时能量序列做滑动相关检测，得到所述电子采集标签在所述短时能量序列中的位置，具体包括：

比较确定的多个所述初始参考值，取最大的所述参考值时的对应关系为所述电子采集标签在所述短时能量序列中的位置；

所述将所述电子采集标签的起始位与所述短时能量序列中的第一位能量值对应；将所述电子采集标签的后续的每一位能量值与所述短时能量序列中的第一位后续的每一位能量值进行一一对应，确定该对应关系的初始参考值，具体为：

2.如权利要求1所述的分布式阵列对齐方法，其特征在于，所述基于预设规则生成的短时能量序列，具体包括：

每个设备通过唤醒模块获得唤醒词对应的语音数据；

通过前端降噪模块将所述语音数据进行降噪处理；

3.如权利要求1所述的分布式阵列对齐方法，其特征在于，所述预设区域为75％～85％的短时能量序列的部分。

4.如权利要求2所述的分布式阵列对齐方法，其特征在于，通过唤醒打分模块对降噪处理后的所述语音数据进行打分中，打分的具体操作如下：

5.如权利要求2所述的分布式阵列对齐方法，其特征在于，计算所述语音数据的所述短时能量序列具体包括：