CN115331658B

CN115331658B - 一种语音识别方法

Info

Publication number: CN115331658B
Application number: CN202211250643.2A
Authority: CN
Inventors: 姜晓琳; 刘炳展; 徐萌; 王秀翠; 杜玉霞; 朱佳; 王亮亮
Original assignee: Gaoxun Zhenyuan Shandong Education Technology Co ltd; Shandong Institute of Commerce and Technology
Current assignee: Gaoxun Zhenyuan Shandong Education Technology Co ltd; Shandong Institute of Commerce and Technology
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-24
Anticipated expiration: 2042-10-13
Also published as: CN115331658A

Abstract

本发明公开一种语音识别方法，应用于语音信号处理领域；解决的技术问题是语音识别，采用的技术方案是一种语音识别方法，包括：（S1）语音识别设备设置识别主题语言；（S2）语音识别设备接收语音信息，并将语音信息存储在语音识别设备中；（S3）采用DTW算法提取语音信息语义模板，与语音识别词典的参考模板进行匹配；（S4）模板匹配成功，语音识别设备的显示器显示语音识别结果；本发明大大提高了语音识别的准确性，提高了人与人之间的沟通能力。

Description

一种语音识别方法

技术领域

本发明涉及语音信息处理领域，且更确切地涉及一种语音识别方法。

背景技术

智能照明语音控制系统具有高效、节能、便捷、成本低廉等优点，在智能照明系统中得以迅速发展。由于智能照明声控信号的间歇性、非线性和非平稳性，且易受噪声干扰，使得不同人同一个命令的声控信号具有较大的相似性，难以对身份进行正确识别；同一个人同一个命令的声控信号具有较大的不一致性，难以对语义进行正确和快速识别。规定的若干人若干个命令的声控信号具有较大的随机性，难以适应场合的扩展和变化，这对智能照明语音控制系统推广应用带来了很大难度。因此，声控信号的身份与语义识别的正确、效率和泛化一直是重要的研究环节之一。

现有技术中采用一种基于听觉特性的声纹识别方法，通过大量的机器学习统计音频内容特征并进行分类处理。然而，该方法需要大量的音频信号波段样本训练，计算量过大导致智能音频设备识别音频内容出现混乱，检索精度较低。另一种解决方案是基于卷积神经网络和深度循环网络的音频内容分析系统，采用人工智能云存储方法在计算过程中进行缓存，避免了识别音频内容混乱现象，但该方法存在一定的计算冗余。

发明内容

针对上述问题，本发明公开一种语音识别方法，能够进行语音识别，实现语音数据的分析与处理，提高了语音识别能力。

为了实现上述技术效果，本发明采用以下技术方案：

一种语音识别方法，其特征在于：所述方法包括：

（S1）通过语音识别设备设置识别主题语言；

其中语音识别设备采用CN3704芯片进行语音识别信息控制，语音识别设备包括识别语言设置单元、语音识别处理单元、语音按钮、麦克风和显示器；

（S2）语音识别设备接收语音信息，并将语音信息存储在语音识别设备中；

其中语音识别设备通过语音按钮开启语音识别设备，采用麦克风接收语音信息，并将语音信号转换为电信号存储在语音识别设备的语音识别处理单元中；

（S3）采用DTW算法提取语音信息语义模板，与语音识别词典的参考模板进行匹配；

其中通过DTW算法按语音帧进行标记语音信息所有片段，得到语音信息的语义模板表示为

，

表示语音帧的标记序数，

表示语义模板中第

帧的特征矢量值；采用欧氏距离的方法计算语义模板与参考模板之间的最优距离

，将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配，则计算取最小匹配失真度为：

（8）

式（8）中，

表示参考模板

对应的最小匹配失真度；

表示语音信息语义模板与参考模板之间的距离；若

小于语音识别阈值

，则模板匹配成功，输出参考模板

的语义为语音信息识别结果；

（S4）模板匹配成功，语音识别设备的显示器显示语音识别结果；

其中，若G小于语音识别阈值E _S，则模板匹配成功，输出参考模板h的语义为语音信息识别结果。

作为对本技术方案的进一步限定，在步骤（S3）中，语音识别词典的训练方法，包括以下步骤：

步骤1：假设将输入的语音信息分割为

个音频分量的语音片段，通过计算每个语音片段的音频分量，获取音频向量

进行计数，则每个语音片段的信息熵为：

（1）

式（1）中，

表示语音片段的信息熵，下标

表示语音片段序数，

表示语音片段的带宽，

表示语音片段特征点出现频率，

表示语音片段的数据；当语音片段特征点出现频率为3MHz，则该语音片段为高频分量；当语音片段特征点出现频率为3kHz，则该语音片段为低频分量；

步骤2：使用OMP算法对每个高频分量的语音片段进行稀疏编码，假设稀疏系数

，利用max-L1融合规则对所有高频分量的语音片段进行融合得到：

（2）

式（2）中，

表示max-L1融合规则得到的高频分量的语音片段集，

表示每个高频分量的语音片段的稀疏系数，

表示OMP算法函数值；

步骤3：采用基于L2-范数的加权平均方法对低频分量进行融合，L2-范数最小化公式如下：

（3）

式（3）中，

表示L2-范数最小化，

表示L2-范数值，

表示具有满秩的约束矩阵，

表示常参数；为了减少计算量，在L2-范数中引入了拉格朗日乘子：

（4）

式（4）中，

表示拉格朗日拉格朗日乘子，

表示引入的拉格朗日参数，之后根据公式（4）得到融合后的低频分量的语音片段集：

（5）

式（5）中，

表示基于L2-范数的加权平均方法得到的低频分量的语音片段集；

步骤4：将融合后的高频分量和低频分量的语音片段集进一步融合，形成最终的融合语音信息：

（6）

式（6）中，

表示输出的融合语音信息；将融合语音信息进行深度学习，构建语音识别词典。

作为对本技术方案的进一步限定，步骤（S3）中采用DTW算法提取语音信息语义模板，步骤包括：

步骤1：对输入的语音信息进行识别确定主题，并通过动态时间规整的重心平均DTW算法得到语音信息的语义模板，按语音帧进行标记，得到语音信息的语义模板表示为

，

表示语音帧的标记序数，

表示语义模板中第

帧的特征矢量值；

步骤2：从语音识别词典中提取统一主题下的参考模板为

，

表示参考模板第

帧的特征矢量值；

步骤3：设动态时间规整函数为

，采用欧氏距离的方法计算语音信息语义模板与参考模板之间的最优距离：

（7）

式（7）中，

表示语音信息语义模板与参考模板之间的最优距离，

表示参考模板中的矢量值；

表示第

帧语音信息的语义模板特征矢量

与第

帧参考模板特征矢量

之间的距离，

表示时间规整函数；

步骤4：将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配，则计算取最小匹配失真度为：

（8）

式（8）中，

表示参考模板

对应的最小匹配失真度；

表示语音信息语义模板与参考模板之间的距离；若

小于语音识别阈值

，则模板匹配成功，输出参考模板

的语义为语音信息识别结果。

本发明有益的积极效果在于：

区别于常规技术，本发明能够提取语音信号，并对提取的语音信号进行分解、分析和处理，提高了智能语音数据信息的通话状态与现场环境分析能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：

图1展示了一种语音识别方法流程图；

图2展示了语音识别设备内部结构图；

图3展示了不同语音识别方法数据融合对比结果图；

图4展示了不同语音识别方法语音识别精度对比结果图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明；

如图1所示，一种语音识别方法，其步骤包括：

（S1）语音识别设备设置识别主题语言；

在具体实施例中，语音识别设备采用CN3704芯片进行控制，可同时控制8个模拟端口输入，具有更高的可靠性和抗干扰性，可以实现更复杂、更精准的计量校准控制，语音识别设备包括识别语言设置单元、语音识别处理单元、语音按钮、麦克风和显示器；语音识别设备通过识别语音设置单元设置要识别的语音信息的主题语言。

在具体实施例中，语音识别设备设置识别主题语言由CN3704芯片进行控制，CN3704芯片内部安装4.2V串联的锂电池，外接220V电压源进行充电，保证对语音识别设备的持续供电。

在具体实施例中，当用户希望将汉语设置为识别主题语言时，通过识别语言设置单元提供的人机界面设置汉语，因此，指示汉语的预定语音信息从识别语言设置单元通知识别语音设置单元，并且基于预定的语音信息，识别语音设置单元从语音识别引擎中选择对应于汉语的语音识别引擎，并将结果设置到语音识别单元。

在具体实施例中，语音识别设备通过语音按钮开启语音识别设备，语音识别控制单元确定是否由于用户按下语音按钮而接收到语音开始操作指令，如果接收到语音开始操作指令“是”，则语音识别控制单元参考存储在语音识别词典存储单元中的语音识别词典中的识别主题词信息，从识别主题词信息中选择并获取要在当前识别过程中使用的识别主题词汇表中的识别主题词信息。

在具体实施例中，采用麦克风接收语音信息，克风是由声音的振动传到麦克风的振膜上，推动里边的磁铁形成变化的电流，这样变化的电流送到后面的声音处理电路进行放大处理，并存储在语音识别设备的语音识别处理单元中。

在具体实施例中，通过DTW算法按语音帧进行标记语音信息所有片段，得到语音信息的语义模板表示为

，

表示语音帧的标记序数，

表示语义模板中第

（8）

式（8）中，

表示参考模板

对应的最小匹配失真度，

表示语音识别词典中的参考模板序数；若

小于语音识别阈值

，则模板匹配成功，输出参考模板

的语义为语音信息识别结果；

在具体实施例中，由于描述一个语音，需要的参数个数非常多，这样对处理速度的要求就很高（而且也没必要处理那么多的信息，只需要处理对识别有帮助的就行），所以需要对语音信息做优化，进行降维。本发明用帧去分割语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的特征，用特征向量来表示。

在具体实施例中，语音识别词典是用来约束单词搜索的，它定义了哪些词能跟在上一个已经识别的词的后面（匹配是一个顺序的处理过程），这样就可以为匹配过程排除一些不可能的单词。大部分的语音识别词典都是使用n-gram模型，它包含了单词序列的统计。为了达到比较好的识别准确率，语音识别词典必须能够很好的约束空间搜索，也就是说可以更好的预测下一个词。语音识别词典是约束词汇包含的单词的，这就出现一个问题，就是名字识别（因为名字可以随便由几个单词组成）。为了处理这种情况，语音识别词典可以包含更小的块，例如亚单词，甚至音素。但是这种情况，识别准确率将会低于基于单词的语音识别词典。

在具体实施例中，若

小于语音识别阈值

，则模板匹配成功，输出参考模板

的语义为语音信息识别结果。如果识别处理完成，则语音识别单元将相应处理的识别结果信息输出到显示控制单元，显示控制单元通过显示器将包含在识别结果信息中的写入信息作为识别结果呈现给用户，然后语音识别过程结束，用户按下语音识别设备的语音按钮，关闭语音识别设备。

在具体实施例中，（S1）步骤中一种语音识别设备包括识别语言设置单元、语音按钮、语音识别处理单元、显示器和麦克风。音识别设备由CN3704芯片控制，可同时控制8个模拟端口输入，具有更高的可靠性和抗干扰性，可以实现更复杂、更精准的语音识别。此外，语音识别设备能够将用户说出的语音输送至设于规定空间内例如房屋、建筑物内的私有通信网络上的其他语音识别设备，来与用户之间进行语音交流，该例虽然表示为住宅内，但并不限定于房屋内，在事务所、教室等特定的人群聚集的空间也能够应用本实施方式。

在具体实施例中，识别语言设置单元用于用户设置需要识别的主题语言，识别语言设置单元提供用于设置语言的人机界面，人机界面包括语音识别设备外部的接口，通过直通双绞线连接显示器和语音识别设备，如果用户设置了识别主题语言，则指示对应语言的预定主题语言从识别语言设置单元通知给识别语音设置单元和语音识别控制单元。

在具体实施例中，语音按钮用于向语音识别设备通知用户开始语音的按钮，语音按钮的外套为硅胶材料，内部为LM311的芯片，语音按钮需要安装硬件PLC，通过软件程序的编写来实现语音识别设备自动调节参数功能，主要接受运动控制的程序指令，包括转角、转速和转矩，并且有惯量小、响应迅速、转动平稳等优点，可根据现场实际情况进行修改，通用性强、可移植性好。在用户按下按钮时，则语音识别设备中指示语音开始识别通知信号被输出到语音识别控制单元。

在具体实施例中，麦克风用于将用户发出的语音信号转换为电信号，并将结果发送给语音识别单元。麦克风采用瑞勤KWD语音麦克风，是由金属隔膜连接到针上，这根针在一块金属箔上刮擦图案。当您朝着隔膜讲话时，产生的空气压差使隔膜运动，从而使针运动，针的运动被记录在金属箔上。随后，当您在金属箔上向回运行针时，在金属箔上刮擦产生的振动会使隔膜运动，将声音重现。瑞勤KWD语音麦克风通过内置MCU进行控制语音信号转换工作，内置MCU型号为STM32，其能够控制低功耗运行和低功耗睡眠两个低功耗模式，通过利用超低功耗的稳压器和振荡器，微控制器可大幅度降低在低频下的工作功耗。稳压器不依赖电源电压即可满足电流要求。STM32还提供动态电压升降功能，这是一项成功应用多年的节能技术，可进一步降低芯片在中低频下运行时的内部工作电压。在正常运行模式下，闪存的电流消耗最低230μA/MHz，STM32的功耗性能比最低仅为185μA。此外，STM32电路的设计目的是以低电压实现高性能，有效延长瑞勤KWD语音麦克风电池的充电间隔，片上模拟功能的最低工作电源电压为1.8V，数字功能的最低工作电源电压为1.65V，在电池电压降低时，可以延长瑞勤KWD语音麦克风的工作时间。

在具体实施例中，显示器用于在屏幕上显示由语音识别处理单元获取的语音信息。显示器是电脑的输入输出设备，由语音识别处理单元中的显示控制单元控制。

在具体实施例中，语音识别处理单元用于识别用户发出的语音并将识别结果告知用户。语音识别处理单元包括识别选择单元，识别选择单元用于从识别语言设置单元通知的预定语音信息。识别选择单元从存储在语音识别存储单元中的所有语音识别中选择预定识别主题语言。语音识别处理单元还包括语音识别词典单元，语音识别词典单元用于存储不同语音识别的参考模板，所述语音识别词典单元注册了指示识别主题词汇的书写、阅读和语言的识别主题词信息。

在具体实施例中，语音识别处理单元还包括语音识别存储单元，语音识别存储单元用于存储对应于多种语言的语音识别信息部分，语音识别存储单元是一个程序模块，用于通过参考识别主题词汇表中的识别主题词信息来对用户发出的语音执行识别处理，以输出指示识别结果的识别结果信息。语音识别处理单元还包括语音识别单元，语音识别单元用于在识别选择单元中设置的预定识别主题与输入语音信息进行匹配，语音识别单元的识别结果信息被传输到显示控制单元。

在具体实施例中，语音识别处理单元还包括显示控制单元，显示控制单元用于输入语音识别单元的识别结果信息，并将该信息输出到显示器。语音识别处理单元还包括语音识别控制单元，语音识别控制单元用于控制语音识别处理单元的各种操作指令。语音识别控制单元包括了CN3704芯片，同时控制8个模拟端口输入。

在具体实施例中，当用户启动语音按钮，操作命令到达语音识别控制单元，语音识别词典单元将会提供参考模板，通过语音识别控制单元输入到识别选择单元，语音识别存储单元也会执行识别处理命令程序输入到识别选择单元，识别选择单元将参考模板与命令程序输入到语音识别单元，语音识别单元接收到经过麦克风输入的待识别的语音信息，通过语义匹配输出语音识别结果经过显示控制单元到达显示器，显示器输出语音识别结果。

在具体实施例中，语音识别设备的显示器基于高斯混合模型能够将不同语言的阅读信息转换为预定语言的阅读信息。语音识别存储单元还包括写入转换器，用于根据写入转换数据库的写入转换规则在语言之间转换单词的写入信息。语音识别存储单元还包括写入转换规则，该写入转换规则指示多个语言中一种语言特有的特殊字符的写入信息与另一种语言中的写入信息之间的对应关系；

在具体实施例中，语音识别词典单元还包括写入转换器，用于根据写入转换数据库的写入转换规则在语言之间转换单词的写入信息。语音识别词典单元还包括写入转换规则，该写入转换规则指示多个语言中一种语言特有的特殊字符的写入信息与另一种语言中的写入信息之间的对应关系；

在具体实施例中，步骤（S3）中语音识别词典的训练方法，步骤包括：

步骤1：假设将输入的语音信息分割为

进行计数，则每个语音片段的信息熵为：

（1）

式（1）中，

表示语音片段的信息熵，下标

表示语音片段序数，

表示语音片段的带宽，

表示语音片段特征点出现频率，

表示语音片段的数据。

在具体实施例中，当语音片段特征点出现频率为3MHz，则该语音片段为高频分量；当语音片段特征点出现频率为3kHz，则该语音片段为低频分量。语音识别的过程可以被看作模式匹配的过程，模式匹配是指根据一定的准则，使未知模式与模型库中的某一个模型获得最佳匹配的过程。模式匹配中需要用到的参考模板通过模板训练获得。在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。

（2）

式（2）中，

表示max-L1融合规则得到的高频分量的语音片段集，

表示每个高频分量的语音片段的稀疏系数，

表示OMP算法函数值；

在具体实施例中，OMP是压缩感知领域的经典算法之一，是目前许多常用高效算法的基础，该算法具有简单高效的特点。OMP作为对信号进行稀疏分解的方法之一，将信号在完备字典库上进行分解，即在字典中找到一组基来表示信号，而用一组特定基表达一个信号其实就是找到相应的一组展开系数。一组基表达信号的能力取决于信号的特性是否与基向量的特性相吻合。现实世界中的语音信息经常包含有用单一基所不能表达的特征，对于这些语音信息，可以选择来自不同基的向量。要保证一个信号空间的所有信号向量，则由所有可选向量组成的字典应该能够张成这个信号空间。OMP算法对每个高频分量的语音片段进行稀疏编码，信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号，可以获得信号更为简洁的表示方式，从而更容易地获取信号中所蕴含的信息，更方便进一步对信号进行加工处理，如压缩、编码等。

（3）

式（3）中，

表示L2-范数最小化，

表示L2-范数值，

表示具有满秩的约束矩阵，

（4）

式（4）中，

表示拉格朗日拉格朗日乘子，

（5）

式（5）中，

在具体实施例中，加权平均法是利用过去若干个按照时间顺序排列起来的同一变量的观测值并以时间顺序变量出现的次数为权数，计算出观测值的加权算术平均数，以这一数字作为预测未来期间该变量预测值的一种趋势预测法。

（6）

式（6）中，

在具体实施例中，语音识别过程中所有词的结果均出自于语音识别词典，也就是说他是识别系统处理词和音素的集合。通过语音识别词典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作。语音识别词典可以认为是由多个词构成，而每个词又是由多个音素构成。一个音素对应的波形的声学特征的变化会受上下文，说话人等影响。需要被放到上下文中进行考虑，音素与音素相邻（过渡）部分可能比稳定部分蕴含更多的信息。

在具体实施例中，步骤（S3）中采用DTW算法提取语音信息语义模板，步骤包括：

，

表示语音帧的标记序数，

表示语义模板中第m帧的特征矢量值；

在具体实施例中，时间序列是很常见的一种数据存在方式，而在大多数数据挖掘工作中，计算时间序列之间的相似度是经常遇到的任务。而在现实情况下，进行相似度计算的时间序列往往在时间轴上存在大致相似，但具体对应关系不得而知。例如两个人说同一个词，因为每个人的说话的音色，频率不同，所以虽然听起来都是同一个词的发音，但是在同一时刻的对应关系却不一定相同。因此，如何计算非等长时间序列的相似度就是一个问题，DTW的出现就是解决这个问题的。DTW算法实质上是一个动态规划算法，不需要进行时间规整，直接计算欧式距离就可以计算出语音识别匹配度。

步骤2：从语音识别词典中提取统一主题下的参考模板为

，

表示参考模板第

帧的特征矢量值；

步骤3：设动态时间规整函数为

（7）

式（7）中，

表示语音信息语义模板与参考模板之间的最优距离，

表示第

帧语音信息的语义模板特征矢量

与第

帧参考模板特征矢量

之间的距离，

表示时间规整函数；

在具体实施例中，欧式距离也称欧几里得距离，是最常见的距离度量，衡量的是多维空间中两个点之间的绝对距离。也可以理解为：m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

（8）

式（8）中，

表示参考模板

对应的最小匹配失真度，

表示语音识别词典中的参考模板序数；若

小于语音识别阈值

，则模板匹配成功，输出参考模板

的语义为语音信息识别结果。

在具体实施例中，为了验证本发明的语音识别方法的实用性与可靠性，本发明在计算机实验室搭建仿真系统进行仿真对比，选用20人(规定声控10人，非规定10人)，在同一环境下采集每个人的20种主题语言声音信息，每段语音信息3～5s，构成400段语音信息的测试样本库。实验用计算机采用Inter i5以上处理器，应用Power Factory进行模型模拟仿真。在实验中有一定的环境要求：处理器CPU的额定功率>75%，语音识别精度>80%。本发明与现有技术中方案一（一种基于听觉特性的声纹识别方法）与方案二（基于卷积神经网络和深度循环网络的音频内容分析系统）进行仿真对比，为了防止数据出现过拟合现象，对所有语音识别算法框架进行Adam优化，关于具体实现程序相关代码见下表1。

表1实验相关参数表

参数	程序代码
		迭代次数	nmm_epochs=200
批处理个数	batch_size=1280
		学习速率	lerning_rate=1e-3
Adam优化器	Adam[model.parameters()]
		均方损失函数	criterion=nn.MSELoss

算法中数据融合评判指标采用融合矩阵

，其定义式为：

（9）

式（9）中，

表示测试的语音信息，

表示测试的语音信息的总数量，

是指需要调整的融合权重值，

是指经过调整后的融合性标准。当

趋近于0时，表明测试的语音信息融合性好。根据公式（9）分别计算三种语音识别方法在400段语音信息的测试样本库所得到数据融合

值，对比结果如图3所示。根据

越小数据融合性越好的准则，本发明语音信息融合性更好，语音识别效率高。此外，本发明与现方案一和方案二进行识别精度仿真对比，得到对比结果如表2所示：

表2总功率计量测试数据

测试语音信息总数量/条	方案一融合值	方案二融合值	本发明融合值
				100	78.564	53.748	95.457
200	75.562	55.457	94.714
				300	71.987	54.678	94.587
400	68.117	52.457	96.418

根据表2数据结果分析，对比分析三种语音识别方法在不同样本数的识别精度，其对比曲线如图4所示。通过图4中的对比示意图可以看出，本发明的语音识别准确度最高，平均值达到了95.24%，大大提高了语音识别的准确性，提高了人与人之间的沟通能力，也体现了本发明的可靠性。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变；例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围；因此，本发明的范围仅由所附权利要求书限定。