CN114464188A

CN114464188A - 一种基于分布式边缘计算的声纹唤醒算法

Info

Publication number: CN114464188A
Application number: CN202111625991.9A
Authority: CN
Inventors: 程亚宇; 张弛
Original assignee: Shenzhen Betterlife Electronic Science And Technology Co ltd
Current assignee: Shenzhen Betterlife Electronic Science And Technology Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-10

Abstract

本发明涉及互联网技术领域，公开了一种基于分布式边缘计算的声纹唤醒算法，通过传统唤醒算法和分布式边缘计算相结合，有效的发挥了算力分摊和分布式决策的优点，将高额算力进行节点分摊和设备分布式决策，有效的节约了计算资源，同时降低了单体的成本，为声纹唤醒在中低端市场的进一步推广扫除了技术障碍，通过把声纹唤醒的高额算力分摊到不同的计算芯片中，并通过中心决策的方式保证在相邻节点同时唤醒时有且仅有一个设备产生应答，从而有效的解决了声纹唤醒算法高算力和多设备联动的问题，同时由分布式边缘计算带来的算力分摊可以进一步实现更大资源模型的声纹唤醒算法跑在终端上，为效果的进一步优化也带来了可行性。

Description

一种基于分布式边缘计算的声纹唤醒算法

技术领域

本发明涉及互联网技术领域，特别涉及一种基于分布式边缘计算的声纹唤醒算法。

背景技术

声纹识别，生物识别技术的一种，也称为说话人识别。声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。声纹识别的一般步骤包括：收集语音->噪声抑制和有效语音检测 (VAD)->声纹特征提取->发声人的声音建模->识别匹配。

随着全球经济与科技的高速发展，声纹唤醒功能使用越来越频繁，小到手机、音箱等快销品的个性化唤醒功能，大到银行金融等领域的二次认证，传统声纹唤醒算法在算力要求上远高于同类前端声学智能产品，高算力带来的是高额的芯片成本，导致在中低端市场很难进一步普及和推广。同时传统的声纹唤醒算法在多设备联动方面没有效果优势，经典的处理问题是一句唤醒词将家里所有的智能设备全部唤醒，并开启了设备之间的不断对话环节。

发明内容

本发明的主要目的是提出一种基于分布式边缘计算的声纹唤醒算法，旨在通过分布式边缘计算的方法把声纹唤醒的高额算力分摊到不同的计算芯片中，并通过中心决策的方式保证在相邻节点同时唤醒时有且仅有一个设备产生应答，从而有效的解决了声纹唤醒算法高算力和多设备联动的问题。

为实现上述目的，本发明提出的基于分布式边缘计算的声纹唤醒算法，包括以下步骤：

声纹注册，用户通过分布式设备的其中一个节点进行录音采集，用户通过说命令词“开始声纹注册”进行事件触发，分布式设备对用户的数据进行多特征提取，并在特征提取后生成对应的声纹特征模型Model-X，分布式存储，声纹模型数据压缩，并同时存储在分布式节点的设备的多种存储介质中；

声纹验证，用户通过分布式麦克风中的任意一个设备进行验证，用户通过说命令词“开始声纹验证”进行事件触发，麦克风设备对用户语音数据进行录制之后，主机对用户的语音数据进行特征模型提取和压缩，解压并与存储介质上的声纹特征模型数据进行匹配，匹配成功则选出相应的用户信息。

进一步地，所述的声纹注册包括：启动注册程序，录制用户唤醒词文本录音，所述唤醒词文本的字数在4字和10字之间。

进一步地，所述的分布式设备对用户的数据进行多特征提取包括：在特征提取前对音频进行分帧处理，当前使用512个采样点作为1帧数据块，对应32ms一帧数据，对分帧后的信号进行加窗处理后，再进行相应的特征提取，以减小出现频谱泄漏。采用的Hamming窗函数进行声纹特征参数提取，具体如下：

其中a₀＝0.53856。

进一步地，所述的分布式设备对用户的数据进行多特征提取包括：将声纹和关键词唤醒均使用卷积神经网络(CNN)来进行声纹特征提取：

CNN由卷积层构成，每个卷积层定义一组卷积内核(convolutional kernel)，每一个卷积内核被重复作用到输入数据的不同位置，与该位置对应的局部数据进行逐个元素的乘加运算，结果即为该卷积内核在输入数据位置对应的输出，输入数据在经过一个卷积层之后得到的输出，其大小取决于：

1、卷积内核的数量；

2、每个卷积内核的大小；

3、在应用卷积内核时，相邻位置之间的间隔(内核的步长)。

当前使用到的是一维卷积神经网络，使用的Kernel Size为3的卷积核， kernelcount为4，同时定义卷积处理后的输出矩阵与输入矩阵有相同的列数。

进一步地，所述的主机对用户的语音数据进行特征模型提取和压缩，解压并与存储介质上的声纹特征模型数据进行匹配，匹配成功则选出相应的用户信息包括：声纹模型匹配过程使用余弦相似度方法进行相关的得分评价，余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦值越接近1，就表明夹角越接近0度，在做多人模型相似度匹配时，取余弦值最大的模型作为目标检出模。

采用本发明的技术方案，具有以下有益效果：本发明的技术方案，通过传统唤醒算法和分布式边缘计算相结合，有效的发挥了算力分摊和分布式决策的优点，将高额算力进行节点分摊和设备分布式决策，有效的节约了计算资源，同时降低了单体的成本，为声纹唤醒在中低端市场的进一步推广扫除了技术障碍，通过把声纹唤醒的高额算力分摊到不同的计算芯片中，并通过中心决策的方式保证在相邻节点同时唤醒时有且仅有一个设备产生应答，从而有效的解决了声纹唤醒算法高算力和多设备联动的问题，同时由分布式边缘计算带来的算力分摊可以进一步实现更大资源模型的声纹唤醒算法跑在终端上，通过对用户的音频数据进行统一的特征提取，该特征可同时有用于构建声纹模型也可以用于鉴别当前的唤醒词，在降低算法计算复杂度同时，在声纹特征鉴别的响应速度上也做到有效提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的整体框架流程图；

图2为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的用户声纹注册流程图；

图3为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的声纹验证流程图；

图4为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的分布式设备的通信建立示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种基于分布式边缘计算的声纹唤醒算法。

如图1至图4所示，在本发明一实施例中，该基于分布式边缘计算的声纹唤醒算法，包括以下步骤：

具体地，所述的声纹注册包括：启动注册程序，录制用户唤醒词文本录音，所述唤醒词文本的字数在4字和10字之间。

用户首先在声纹唤醒应用中使用分布式麦克风中的其中一个节点进行录音采集(用户说命令词“开始声纹注册”进行事件触发)，算法中会针对该用户的数据进行多特征提取(时频特征分布等)，并在特征提取后生成对应的模型 Model-X，模型数据可同时存储多份在分布式麦克风设备的多种存储介质中 (如Flash或Sdcard)。

特征参数提取的目的是从说话人语音中提取出能够表征说话人特定声学器官结构或习惯行为的特征参数。该特征参数对同一个说话人具有相对的稳定性，不能随时间或环境的变化而不一致，对同一个说话人的不同话语也应该是一致的。对于不同说话人即使说同样的话也应该有较好的区分性，具有不易模仿性和较强的抗噪性。目前我们使用的是神经网络模型，才采用一种分布式并行处理结构的网络模型，具有组织和自学习能力，很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，在训练过程中能不断调整自身的参数权值和结构拓扑，以适应环境和系统性能优化的需求。

具体地，所述的分布式设备对用户的数据进行多特征提取包括：在特征提取前对音频进行分帧处理，当前使用512个采样点作为1帧数据块，对应 32ms一帧数据，对分帧后的信号进行加窗处理后，再进行相应的特征提取，以减小出现频谱泄漏。采用的Hamming窗函数进行声纹特征参数提取，具体如下：

其中a₀＝0.53856。

具体地，所述的分布式设备对用户的数据进行多特征提取包括：在声纹识别系统流程中，可以将音频特征到说话人模型的声纹建模过程看作一个复杂的非线性函数，该函数定义了一个从音频特征空间到说话人模型空间的映射。基于深度学习方法的声纹识别要解决的问题就是将这一个复杂的函数用适合的神经网络来表示。考虑到将网络参数规模控制在一个合理范围内，同时与关键词唤醒引擎的特征提取进行融合，将声纹和关键词唤醒均使用卷积神经网络(CNN)来进行声纹特征提取：

1、卷积内核的数量；

2、每个卷积内核的大小；

3、在应用卷积内核时，相邻位置之间的间隔(内核的步长)。

其中N＝512，每一帧固定提取M(M＝3)维特征参数，参数的维度及Kernel Count可实时配置。

Kernel如下：

1	0	0
			0	1	0
0	0	1

Kernel 1

0	0	1
			0	1	0
1	0	0

Kernel 2

0	1	0
			1	0	1
0	0	0

Kernel 3

0	0	0
			1	0	1
0	1	0

Kernel 4

其卷积定义为：X(m)为3*3的kernel，K(n)为单帧对应的3*3矩阵，Z(m)为不同kernel输出结果。

通过以上计算后，每一帧输入数据最终将得到m个向量，同时对目标唤醒段音频的多帧进行处理获取结果，将以上获得的多帧结果与发音人ID，一并保存到相应的模型文件DatI中，通过分布式网络通道，将该模型文件DatI Copy多份到分布式网络的多个节点中。

具体地，所述的主机对用户的语音数据进行特征模型提取和压缩，解压并与存储介质上的声纹特征模型数据进行匹配，匹配成功则选出相应的用户信息包括：声纹模型匹配过程使用余弦相似度方法进行相关的得分评价，余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦值越接近1，就表明夹角越接近0度，在做多人模型相似度匹配时，取余弦值最大的模型作为目标检出模。

用户进行声纹验证时，可使用分布式麦克风中的任意一个设备进行验证 (用户说命令词“开始声纹验证”进行事件触发)，麦克风设备进行用户数据录制之后，对用户的数据进行多特征提取，并与存储介质上的模型数据进行匹配，匹配成功则pick出相应的用户信息，用户验证时使用的特征提取方法与，注册环节使用的方法一致。

模型匹配过程使用余弦相似度方法进行相关的得分评价，余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。

具体地，在声纹唤醒的通信端建立算力握手机制，主机结点将本机部分算法的算力分摊到点对点的设备上进行分布式计算。如图4所示，当N个设备进行通信时，第k个设备的算力为Tk，第k个设备的语音需要广播到N-1 个设备上完成声纹唤醒流程，把第k个设备上需要完成的提特征算力部分放到N-1个设备上进行分布式计算，提特征算法的算力要求为G，前置算力(必须放在本地端执行的算法部分所需算力)为Gsk，则第k个设备只需要具备 Gs+G*(Tk-Gsk)/(T1+T2+……+Tk+……+TN-Gs1-……Gsk-……-Gsn)的算力，参与分布式计算的设备要求平均算力不得低于算法前置算力Gsk，具体如图4 所示。

具体地，用户在进行声纹注册时，分布式结点设备会进行数据采样，同时通过判断每个节点触发注册唤醒词的时间(选择整个分布式系统中触发时间最短的结点)、节点录制到音频的能量大小(选取能量最大结点)，选择一个声纹注册/验证的主机结点。此外，分布式声纹唤醒的技术难点在于多个分布式麦克风之间的MIC Sensor的一致性、声学结构、声学系数要保持在相当好的水准才能较好的做到声纹模型数据的共享，为此算法中含有声学自动校准算法，通过外部播放特定信号源，控制麦克风设备在校准时的周围声场环境，设备通过录音后，可自动分析判断，当前麦克风与标准声学指标的差异，并对此在MICSensor对应的数字增益，特定频段的数据补偿等方面进行校准系数的计算，并将校准系数保存在存储介质中。

具体地，本发明通过传统唤醒算法和分布式边缘计算相结合，有效的发挥了算力分摊和分布式决策的优点，将高额算力进行节点分摊和设备分布式决策，有效的节约了计算资源，同时降低了单体的成本，为声纹唤醒在中低端市场的进一步推广扫除了技术障碍，通过把声纹唤醒的高额算力分摊到不同的计算芯片中，并通过中心决策的方式保证在相邻节点同时唤醒时有且仅有一个设备产生应答，从而有效的解决了声纹唤醒算法高算力和多设备联动的问题，同时由分布式边缘计算带来的算力分摊可以进一步实现更大资源模型的声纹唤醒算法跑在终端上，通过对用户的音频数据进行统一的特征提取，该特征可同时有用于构建声纹模型也可以用于鉴别当前的唤醒词，在降低算法计算复杂度同时，在声纹特征鉴别的响应速度上也做到有效提升。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于分布式边缘计算的声纹唤醒算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于分布式边缘计算的声纹唤醒算法，其特征在于，所述的声纹注册包括：启动注册程序，录制用户唤醒词文本录音，所述唤醒词文本的字数在4字和10字之间。

3.根据权利要求1所述的基于分布式边缘计算的声纹唤醒算法，其特征在于，所述的分布式设备对用户的数据进行多特征提取包括：在特征提取前对音频进行分帧处理，当前使用512个采样点作为1帧数据块，对应32ms一帧数据，对分帧后的信号进行加窗处理后，再进行相应的特征提取，以减小出现频谱泄漏。采用的Hamming窗函数进行声纹特征参数提取，具体如下：

其中a₀＝0.53856。

4.根据权利要求1所述的基于分布式边缘计算的声纹唤醒算法，其特征在于，所述的分布式设备对用户的数据进行多特征提取包括：将声纹和关键词唤醒均使用卷积神经网络(CNN)来进行声纹特征提取：

1、卷积内核的数量；

2、每个卷积内核的大小；

3、在应用卷积内核时，相邻位置之间的间隔(内核的步长)。

当前使用到的是一维卷积神经网络，使用的Kernel Size为3的卷积核，kernel count为4，同时定义卷积处理后的输出矩阵与输入矩阵有相同的列数。

5.根据权利要求1所述的基于分布式边缘计算的声纹唤醒算法，其特征在于，所述的主机对用户的语音数据进行特征模型提取和压缩，解压并与存储介质上的声纹特征模型数据进行匹配，匹配成功则选出相应的用户信息包括：声纹模型匹配过程使用余弦相似度方法进行相关的得分评价，余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦值越接近1，就表明夹角越接近0度，在做多人模型相似度匹配时，取余弦值最大的模型作为目标检出模。