CN115331658B - 一种语音识别方法 - Google Patents

一种语音识别方法 Download PDF

Info

Publication number
CN115331658B
CN115331658B CN202211250643.2A CN202211250643A CN115331658B CN 115331658 B CN115331658 B CN 115331658B CN 202211250643 A CN202211250643 A CN 202211250643A CN 115331658 B CN115331658 B CN 115331658B
Authority
CN
China
Prior art keywords
voice
template
recognition
representing
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211250643.2A
Other languages
English (en)
Other versions
CN115331658A (zh
Inventor
姜晓琳
刘炳展
徐萌
王秀翠
杜玉霞
朱佳
王亮亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gaoxun Zhenyuan Shandong Education Technology Co ltd
Shandong Institute of Commerce and Technology
Original Assignee
Gaoxun Zhenyuan Shandong Education Technology Co ltd
Shandong Institute of Commerce and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gaoxun Zhenyuan Shandong Education Technology Co ltd, Shandong Institute of Commerce and Technology filed Critical Gaoxun Zhenyuan Shandong Education Technology Co ltd
Priority to CN202211250643.2A priority Critical patent/CN115331658B/zh
Publication of CN115331658A publication Critical patent/CN115331658A/zh
Application granted granted Critical
Publication of CN115331658B publication Critical patent/CN115331658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种语音识别方法,应用于语音信号处理领域;解决的技术问题是语音识别,采用的技术方案是一种语音识别方法,包括:(S1)语音识别设备设置识别主题语言;(S2)语音识别设备接收语音信息,并将语音信息存储在语音识别设备中;(S3)采用DTW算法提取语音信息语义模板,与语音识别词典的参考模板进行匹配;(S4)模板匹配成功,语音识别设备的显示器显示语音识别结果;本发明大大提高了语音识别的准确性,提高了人与人之间的沟通能力。

Description

一种语音识别方法
技术领域
本发明涉及语音信息处理领域,且更确切地涉及一种语音识别方法。
背景技术
智能照明语音控制系统具有高效、节能、便捷、成本低廉等优点,在智能照明系统中得以迅速发展。由于智能照明声控信号的间歇性、非线性和非平稳性,且易受噪声干扰,使得不同人同一个命令的声控信号具有较大的相似性,难以对身份进行正确识别;同一个人同一个命令的声控信号具有较大的不一致性,难以对语义进行正确和快速识别。规定的若干人若干个命令的声控信号具有较大的随机性,难以适应场合的扩展和变化,这对智能照明语音控制系统推广应用带来了很大难度。因此,声控信号的身份与语义识别的正确、效率和泛化一直是重要的研究环节之一。
现有技术中采用一种基于听觉特性的声纹识别方法,通过大量的机器学习统计音频内容特征并进行分类处理。然而,该方法需要大量的音频信号波段样本训练,计算量过大导致智能音频设备识别音频内容出现混乱,检索精度较低。另一种解决方案是基于卷积神经网络和深度循环网络的音频内容分析系统,采用人工智能云存储方法在计算过程中进行缓存,避免了识别音频内容混乱现象,但该方法存在一定的计算冗余。
发明内容
针对上述问题,本发明公开一种语音识别方法,能够进行语音识别,实现语音数据的分析与处理,提高了语音识别能力。
为了实现上述技术效果,本发明采用以下技术方案:
一种语音识别方法,其特征在于:所述方法包括:
(S1)通过语音识别设备设置识别主题语言;
其中语音识别设备采用CN3704芯片进行语音识别信息控制,语音识别设备包括识别语言设置单元、语音识别处理单元、语音按钮、麦克风和显示器;
(S2)语音识别设备接收语音信息,并将语音信息存储在语音识别设备中;
其中语音识别设备通过语音按钮开启语音识别设备,采用麦克风接收语音信息,并将语音信号转换为电信号存储在语音识别设备的语音识别处理单元中;
(S3)采用DTW算法提取语音信息语义模板,与语音识别词典的参考模板进行匹配;
其中通过DTW算法按语音帧进行标记语音信息所有片段,得到语音信息的语义模板表示为
Figure 248058DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
表示语音帧的标记序数,
Figure 100002_DEST_PATH_IMAGE003
表示语义模板中第
Figure 399668DEST_PATH_IMAGE002
帧的特征矢量值;采用欧氏距离的方法计算语义模板与参考模板之间的最优距离
Figure DEST_PATH_IMAGE004
,将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
Figure 100002_DEST_PATH_IMAGE005
(8)
式(8)中,
Figure DEST_PATH_IMAGE006
表示参考模板
Figure 100002_DEST_PATH_IMAGE007
对应的最小匹配失真度;
Figure DEST_PATH_IMAGE008
表示语音信息语义模板与参考模板之间的距离;若
Figure 56609DEST_PATH_IMAGE006
小于语音识别阈值
Figure 100002_DEST_PATH_IMAGE009
,则模板匹配成功,输出参考模板
Figure 235917DEST_PATH_IMAGE007
的语义为语音信息识别结果;
(S4)模板匹配成功,语音识别设备的显示器显示语音识别结果;
其中,若G小于语音识别阈值E S ,则模板匹配成功,输出参考模板h的语义为语音信息识别结果。
作为对本技术方案的进一步限定,在步骤(S3)中,语音识别词典的训练方法,包括以下步骤:
步骤1:假设将输入的语音信息分割为
Figure DEST_PATH_IMAGE010
个音频分量的语音片段,通过计算每个语音片段的音频分量,获取音频向量
Figure 100002_DEST_PATH_IMAGE011
进行计数,则每个语音片段的信息熵为:
Figure DEST_PATH_IMAGE012
(1)
式(1)中,
Figure 100002_DEST_PATH_IMAGE013
表示语音片段的信息熵,下标
Figure DEST_PATH_IMAGE014
表示语音片段序数,
Figure 100002_DEST_PATH_IMAGE015
表示语音片段的带宽,
Figure DEST_PATH_IMAGE016
表示语音片段特征点出现频率,
Figure 258843DEST_PATH_IMAGE010
表示语音片段的数据;当语音片段特征点出现频率为3MHz,则该语音片段为高频分量;当语音片段特征点出现频率为3kHz,则该语音片段为低频分量;
步骤2:使用OMP算法对每个高频分量的语音片段进行稀疏编码,假设稀疏系数
Figure 100002_DEST_PATH_IMAGE017
,利用max-L1融合规则对所有高频分量的语音片段进行融合得到:
Figure DEST_PATH_IMAGE018
(2)
式(2)中,
Figure 100002_DEST_PATH_IMAGE019
表示max-L1融合规则得到的高频分量的语音片段集,
Figure DEST_PATH_IMAGE020
表示每个高频分量的语音片段的稀疏系数,
Figure 100002_DEST_PATH_IMAGE021
表示OMP算法函数值;
步骤3:采用基于L2-范数的加权平均方法对低频分量进行融合,L2-范数最小化公式如下:
Figure DEST_PATH_IMAGE022
(3)
式(3)中,
Figure 100002_DEST_PATH_IMAGE023
表示L2-范数最小化,
Figure DEST_PATH_IMAGE024
表示L2-范数值,
Figure 100002_DEST_PATH_IMAGE025
表示具有满秩的约束矩阵,
Figure DEST_PATH_IMAGE026
表示常参数;为了减少计算量,在L2-范数中引入了拉格朗日乘子:
Figure 100002_DEST_PATH_IMAGE027
(4)
式(4)中,
Figure DEST_PATH_IMAGE028
表示拉格朗日拉格朗日乘子,
Figure 100002_DEST_PATH_IMAGE029
表示引入的拉格朗日参数,之后根据公式(4)得到融合后的低频分量的语音片段集:
Figure DEST_PATH_IMAGE030
(5)
式(5)中,
Figure 100002_DEST_PATH_IMAGE031
表示基于L2-范数的加权平均方法得到的低频分量的语音片段集;
步骤4:将融合后的高频分量和低频分量的语音片段集进一步融合,形成最终的融合语音信息:
Figure DEST_PATH_IMAGE032
(6)
式(6)中,
Figure 100002_DEST_PATH_IMAGE033
表示输出的融合语音信息;将融合语音信息进行深度学习,构建语音识别词典。
作为对本技术方案的进一步限定,步骤(S3)中采用DTW算法提取语音信息语义模板,步骤包括:
步骤1:对输入的语音信息进行识别确定主题,并通过动态时间规整的重心平均DTW算法得到语音信息的语义模板,按语音帧进行标记,得到语音信息的语义模板表示为
Figure DEST_PATH_IMAGE034
Figure 529679DEST_PATH_IMAGE002
表示语音帧的标记序数,
Figure 100002_DEST_PATH_IMAGE035
表示语义模板中第
Figure 582955DEST_PATH_IMAGE002
帧的特征矢量值;
步骤2:从语音识别词典中提取统一主题下的参考模板为
Figure DEST_PATH_IMAGE036
Figure 100002_DEST_PATH_IMAGE037
表示参考模板第
Figure DEST_PATH_IMAGE038
帧的特征矢量值;
步骤3:设动态时间规整函数为
Figure 100002_DEST_PATH_IMAGE039
,采用欧氏距离的方法计算语音信息语义模板与参考模板之间的最优距离:
Figure DEST_PATH_IMAGE040
(7)
式(7)中,
Figure 100002_DEST_PATH_IMAGE041
表示语音信息语义模板与参考模板之间的最优距离,
Figure DEST_PATH_IMAGE042
表示参考模板中的矢量值;
Figure 100002_DEST_PATH_IMAGE043
表示第
Figure 488375DEST_PATH_IMAGE002
帧语音信息的语义模板特征矢量
Figure DEST_PATH_IMAGE044
与第
Figure 100002_DEST_PATH_IMAGE045
帧参考模板特征矢量
Figure DEST_PATH_IMAGE046
之间的距离,
Figure 100002_DEST_PATH_IMAGE047
表示时间规整函数;
步骤4:将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
Figure DEST_PATH_IMAGE048
(8)
式(8)中,
Figure 3408DEST_PATH_IMAGE006
表示参考模板
Figure 298123DEST_PATH_IMAGE007
对应的最小匹配失真度;
Figure 100002_DEST_PATH_IMAGE049
表示语音信息语义模板与参考模板之间的距离;若
Figure 782019DEST_PATH_IMAGE006
小于语音识别阈值
Figure 529396DEST_PATH_IMAGE009
,则模板匹配成功,输出参考模板
Figure 723485DEST_PATH_IMAGE007
的语义为语音信息识别结果。
本发明有益的积极效果在于:
区别于常规技术,本发明能够提取语音信号,并对提取的语音信号进行分解、分析和处理,提高了智能语音数据信息的通话状态与现场环境分析能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1展示了一种语音识别方法流程图;
图2展示了语音识别设备内部结构图;
图3展示了不同语音识别方法数据融合对比结果图;
图4展示了不同语音识别方法语音识别精度对比结果图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明;
如图1所示,一种语音识别方法,其步骤包括:
(S1)语音识别设备设置识别主题语言;
在具体实施例中,语音识别设备采用CN3704芯片进行控制,可同时控制8个模拟端口输入,具有更高的可靠性和抗干扰性,可以实现更复杂、更精准的计量校准控制,语音识别设备包括识别语言设置单元、语音识别处理单元、语音按钮、麦克风和显示器;语音识别设备通过识别语音设置单元设置要识别的语音信息的主题语言。
在具体实施例中,语音识别设备设置识别主题语言由CN3704芯片进行控制,CN3704芯片内部安装4.2V串联的锂电池,外接220V电压源进行充电,保证对语音识别设备的持续供电。
在具体实施例中,当用户希望将汉语设置为识别主题语言时,通过识别语言设置单元提供的人机界面设置汉语,因此,指示汉语的预定语音信息从识别语言设置单元通知识别语音设置单元,并且基于预定的语音信息,识别语音设置单元从语音识别引擎中选择对应于汉语的语音识别引擎,并将结果设置到语音识别单元。
(S2)语音识别设备接收语音信息,并将语音信息存储在语音识别设备中;
在具体实施例中,语音识别设备通过语音按钮开启语音识别设备,语音识别控制单元确定是否由于用户按下语音按钮而接收到语音开始操作指令,如果接收到语音开始操作指令“是”,则语音识别控制单元参考存储在语音识别词典存储单元中的语音识别词典中的识别主题词信息,从识别主题词信息中选择并获取要在当前识别过程中使用的识别主题词汇表中的识别主题词信息。
在具体实施例中,采用麦克风接收语音信息,克风是由声音的振动传到麦克风的振膜上,推动里边的磁铁形成变化的电流,这样变化的电流送到后面的声音处理电路进行放大处理,并存储在语音识别设备的语音识别处理单元中。
(S3)采用DTW算法提取语音信息语义模板,与语音识别词典的参考模板进行匹配;
在具体实施例中,通过DTW算法按语音帧进行标记语音信息所有片段,得到语音信息的语义模板表示为
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
表示语音帧的标记序数,
Figure DEST_PATH_IMAGE052
表示语义模板中第
Figure DEST_PATH_IMAGE053
帧的特征矢量值;采用欧氏距离的方法计算语义模板与参考模板之间的最优距离
Figure DEST_PATH_IMAGE054
,将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
Figure DEST_PATH_IMAGE055
(8)
式(8)中,
Figure DEST_PATH_IMAGE056
表示参考模板
Figure 981029DEST_PATH_IMAGE007
对应的最小匹配失真度,
Figure 720315DEST_PATH_IMAGE007
表示语音识别词典中的参考模板序数;若
Figure DEST_PATH_IMAGE057
小于语音识别阈值
Figure DEST_PATH_IMAGE058
,则模板匹配成功,输出参考模板
Figure 678956DEST_PATH_IMAGE007
的语义为语音信息识别结果;
在具体实施例中,由于描述一个语音,需要的参数个数非常多,这样对处理速度的要求就很高(而且也没必要处理那么多的信息,只需要处理对识别有帮助的就行),所以需要对语音信息做优化,进行降维。本发明用帧去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的特征,用特征向量来表示。
在具体实施例中,语音识别词典是用来约束单词搜索的,它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。大部分的语音识别词典都是使用n-gram模型,它包含了单词序列的统计。为了达到比较好的识别准确率,语音识别词典必须能够很好的约束空间搜索,也就是说可以更好的预测下一个词。语音识别词典是约束词汇包含的单词的,这就出现一个问题,就是名字识别(因为名字可以随便由几个单词组成)。为了处理这种情况,语音识别词典可以包含更小的块,例如亚单词,甚至音素。但是这种情况,识别准确率将会低于基于单词的语音识别词典。
(S4)模板匹配成功,语音识别设备的显示器显示语音识别结果;
在具体实施例中,若
Figure DEST_PATH_IMAGE059
小于语音识别阈值
Figure 942316DEST_PATH_IMAGE058
,则模板匹配成功,输出参考模板
Figure 962356DEST_PATH_IMAGE007
的语义为语音信息识别结果。如果识别处理完成,则语音识别单元将相应处理的识别结果信息输出到显示控制单元,显示控制单元通过显示器将包含在识别结果信息中的写入信息作为识别结果呈现给用户,然后语音识别过程结束,用户按下语音识别设备的语音按钮,关闭语音识别设备。
在具体实施例中,(S1)步骤中一种语音识别设备包括识别语言设置单元、语音按钮、语音识别处理单元、显示器和麦克风。音识别设备由CN3704芯片控制,可同时控制8个模拟端口输入,具有更高的可靠性和抗干扰性,可以实现更复杂、更精准的语音识别。此外,语音识别设备能够将用户说出的语音输送至设于规定空间内例如房屋、建筑物内的私有通信网络上的其他语音识别设备,来与用户之间进行语音交流,该例虽然表示为住宅内,但并不限定于房屋内,在事务所、教室等特定的人群聚集的空间也能够应用本实施方式。
在具体实施例中,识别语言设置单元用于用户设置需要识别的主题语言,识别语言设置单元提供用于设置语言的人机界面,人机界面包括语音识别设备外部的接口,通过直通双绞线连接显示器和语音识别设备,如果用户设置了识别主题语言,则指示对应语言的预定主题语言从识别语言设置单元通知给识别语音设置单元和语音识别控制单元。
在具体实施例中,语音按钮用于向语音识别设备通知用户开始语音的按钮,语音按钮的外套为硅胶材料,内部为LM311的芯片,语音按钮需要安装硬件PLC,通过软件程序的编写来实现语音识别设备自动调节参数功能,主要接受运动控制的程序指令,包括转角、转速和转矩,并且有惯量小、响应迅速、转动平稳等优点,可根据现场实际情况进行修改,通用性强、可移植性好。在用户按下按钮时,则语音识别设备中指示语音开始识别通知信号被输出到语音识别控制单元。
在具体实施例中,麦克风用于将用户发出的语音信号转换为电信号,并将结果发送给语音识别单元。麦克风采用瑞勤KWD语音麦克风,是由金属隔膜连接到针上,这根针在一块金属箔上刮擦图案。当您朝着隔膜讲话时,产生的空气压差使隔膜运动,从而使针运动,针的运动被记录在金属箔上。随后,当您在金属箔上向回运行针时,在金属箔上刮擦产生的振动会使隔膜运动,将声音重现。瑞勤KWD语音麦克风通过内置MCU进行控制语音信号转换工作,内置MCU型号为STM32,其能够控制低功耗运行和低功耗睡眠两个低功耗模式,通过利用超低功耗的稳压器和振荡器,微控制器可大幅度降低在低频下的工作功耗。稳压器不依赖电源电压即可满足电流要求。STM32还提供动态电压升降功能,这是一项成功应用多年的节能技术,可进一步降低芯片在中低频下运行时的内部工作电压。在正常运行模式下,闪存的电流消耗最低230μA/MHz,STM32的功耗性能比最低仅为185μA。此外,STM32电路的设计目的是以低电压实现高性能,有效延长瑞勤KWD语音麦克风电池的充电间隔,片上模拟功能的最低工作电源电压为1.8V,数字功能的最低工作电源电压为1.65V,在电池电压降低时,可以延长瑞勤KWD语音麦克风的工作时间。
在具体实施例中,显示器用于在屏幕上显示由语音识别处理单元获取的语音信息。显示器是电脑的输入输出设备,由语音识别处理单元中的显示控制单元控制。
在具体实施例中,语音识别处理单元用于识别用户发出的语音并将识别结果告知用户。语音识别处理单元包括识别选择单元,识别选择单元用于从识别语言设置单元通知的预定语音信息。识别选择单元从存储在语音识别存储单元中的所有语音识别中选择预定识别主题语言。语音识别处理单元还包括语音识别词典单元,语音识别词典单元用于存储不同语音识别的参考模板,所述语音识别词典单元注册了指示识别主题词汇的书写、阅读和语言的识别主题词信息。
在具体实施例中,语音识别处理单元还包括语音识别存储单元,语音识别存储单元用于存储对应于多种语言的语音识别信息部分,语音识别存储单元是一个程序模块,用于通过参考识别主题词汇表中的识别主题词信息来对用户发出的语音执行识别处理,以输出指示识别结果的识别结果信息。语音识别处理单元还包括语音识别单元,语音识别单元用于在识别选择单元中设置的预定识别主题与输入语音信息进行匹配,语音识别单元的识别结果信息被传输到显示控制单元。
在具体实施例中,语音识别处理单元还包括显示控制单元,显示控制单元用于输入语音识别单元的识别结果信息,并将该信息输出到显示器。语音识别处理单元还包括语音识别控制单元,语音识别控制单元用于控制语音识别处理单元的各种操作指令。语音识别控制单元包括了CN3704芯片,同时控制8个模拟端口输入。
在具体实施例中,当用户启动语音按钮,操作命令到达语音识别控制单元,语音识别词典单元将会提供参考模板,通过语音识别控制单元输入到识别选择单元,语音识别存储单元也会执行识别处理命令程序输入到识别选择单元,识别选择单元将参考模板与命令程序输入到语音识别单元,语音识别单元接收到经过麦克风输入的待识别的语音信息,通过语义匹配输出语音识别结果经过显示控制单元到达显示器,显示器输出语音识别结果。
在具体实施例中,语音识别设备的显示器基于高斯混合模型能够将不同语言的阅读信息转换为预定语言的阅读信息。语音识别存储单元还包括写入转换器,用于根据写入转换数据库的写入转换规则在语言之间转换单词的写入信息。语音识别存储单元还包括写入转换规则,该写入转换规则指示多个语言中一种语言特有的特殊字符的写入信息与另一种语言中的写入信息之间的对应关系;
在具体实施例中,语音识别词典单元还包括写入转换器,用于根据写入转换数据库的写入转换规则在语言之间转换单词的写入信息。语音识别词典单元还包括写入转换规则,该写入转换规则指示多个语言中一种语言特有的特殊字符的写入信息与另一种语言中的写入信息之间的对应关系;
在具体实施例中,步骤(S3)中语音识别词典的训练方法,步骤包括:
步骤1:假设将输入的语音信息分割为
Figure DEST_PATH_IMAGE060
个音频分量的语音片段,通过计算每个语音片段的音频分量,获取音频向量
Figure DEST_PATH_IMAGE061
进行计数,则每个语音片段的信息熵为:
Figure 121810DEST_PATH_IMAGE062
(1)
式(1)中,
Figure DEST_PATH_IMAGE063
表示语音片段的信息熵,下标
Figure DEST_PATH_IMAGE064
表示语音片段序数,
Figure 686522DEST_PATH_IMAGE065
表示语音片段的带宽,
Figure DEST_PATH_IMAGE066
表示语音片段特征点出现频率,
Figure 646517DEST_PATH_IMAGE060
表示语音片段的数据。
在具体实施例中,当语音片段特征点出现频率为3MHz,则该语音片段为高频分量;当语音片段特征点出现频率为3kHz,则该语音片段为低频分量。语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。模式匹配中需要用到的参考模板通过模板训练获得。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。
步骤2:使用OMP算法对每个高频分量的语音片段进行稀疏编码,假设稀疏系数
Figure DEST_PATH_IMAGE067
,利用max-L1融合规则对所有高频分量的语音片段进行融合得到:
Figure 52221DEST_PATH_IMAGE068
(2)
式(2)中,
Figure DEST_PATH_IMAGE069
表示max-L1融合规则得到的高频分量的语音片段集,
Figure 569528DEST_PATH_IMAGE070
表示每个高频分量的语音片段的稀疏系数,
Figure DEST_PATH_IMAGE071
表示OMP算法函数值;
在具体实施例中,OMP是压缩感知领域的经典算法之一,是目前许多常用高效算法的基础,该算法具有简单高效的特点。OMP作为对信号进行稀疏分解的方法之一,将信号在完备字典库上进行分解,即在字典中找到一组基来表示信号,而用一组特定基表达一个信号其实就是找到相应的一组展开系数。一组基表达信号的能力取决于信号的特性是否与基向量的特性相吻合。现实世界中的语音信息经常包含有用单一基所不能表达的特征,对于这些语音信息,可以选择来自不同基的向量。要保证一个信号空间的所有信号向量,则由所有可选向量组成的字典应该能够张成这个信号空间。OMP算法对每个高频分量的语音片段进行稀疏编码,信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等。
步骤3:采用基于L2-范数的加权平均方法对低频分量进行融合,L2-范数最小化公式如下:
Figure DEST_PATH_IMAGE072
(3)
式(3)中,
Figure 372268DEST_PATH_IMAGE073
表示L2-范数最小化,
Figure DEST_PATH_IMAGE074
表示L2-范数值,
Figure DEST_PATH_IMAGE075
表示具有满秩的约束矩阵,
Figure 180693DEST_PATH_IMAGE076
表示常参数;为了减少计算量,在L2-范数中引入了拉格朗日乘子:
Figure DEST_PATH_IMAGE077
(4)
式(4)中,
Figure DEST_PATH_IMAGE078
表示拉格朗日拉格朗日乘子,
Figure 768800DEST_PATH_IMAGE079
表示引入的拉格朗日参数,之后根据公式(4)得到融合后的低频分量的语音片段集:
Figure DEST_PATH_IMAGE080
(5)
式(5)中,
Figure 682442DEST_PATH_IMAGE081
表示基于L2-范数的加权平均方法得到的低频分量的语音片段集;
在具体实施例中,加权平均法是利用过去若干个按照时间顺序排列起来的同一变量的观测值并以时间顺序变量出现的次数为权数,计算出观测值的加权算术平均数,以这一数字作为预测未来期间该变量预测值的一种趋势预测法。
步骤4:将融合后的高频分量和低频分量的语音片段集进一步融合,形成最终的融合语音信息:
Figure DEST_PATH_IMAGE082
(6)
式(6)中,
Figure DEST_PATH_IMAGE083
表示输出的融合语音信息;将融合语音信息进行深度学习,构建语音识别词典。
在具体实施例中,语音识别过程中所有词的结果均出自于语音识别词典,也就是说他是识别系统处理词和音素的集合。通过语音识别词典得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作。语音识别词典可以认为是由多个词构成,而每个词又是由多个音素构成。一个音素对应的波形的声学特征的变化会受上下文,说话人等影响。需要被放到上下文中进行考虑,音素与音素相邻(过渡)部分可能比稳定部分蕴含更多的信息。
在具体实施例中,步骤(S3)中采用DTW算法提取语音信息语义模板,步骤包括:
步骤1:对输入的语音信息进行识别确定主题,并通过动态时间规整的重心平均DTW算法得到语音信息的语义模板,按语音帧进行标记,得到语音信息的语义模板表示为
Figure DEST_PATH_IMAGE084
Figure 159428DEST_PATH_IMAGE051
表示语音帧的标记序数,
Figure DEST_PATH_IMAGE085
表示语义模板中第m帧的特征矢量值;
在具体实施例中,时间序列是很常见的一种数据存在方式,而在大多数数据挖掘工作中,计算时间序列之间的相似度是经常遇到的任务。而在现实情况下,进行相似度计算的时间序列往往在时间轴上存在大致相似,但具体对应关系不得而知。例如两个人说同一个词,因为每个人的说话的音色,频率不同,所以虽然听起来都是同一个词的发音,但是在同一时刻的对应关系却不一定相同。因此,如何计算非等长时间序列的相似度就是一个问题,DTW的出现就是解决这个问题的。DTW算法实质上是一个动态规划算法,不需要进行时间规整,直接计算欧式距离就可以计算出语音识别匹配度。
步骤2:从语音识别词典中提取统一主题下的参考模板为
Figure DEST_PATH_IMAGE086
Figure DEST_PATH_IMAGE087
表示参考模板第
Figure DEST_PATH_IMAGE088
帧的特征矢量值;
步骤3:设动态时间规整函数为
Figure DEST_PATH_IMAGE089
,采用欧氏距离的方法计算语音信息语义模板与参考模板之间的最优距离:
Figure DEST_PATH_IMAGE090
(7)
式(7)中,
Figure DEST_PATH_IMAGE091
表示语音信息语义模板与参考模板之间的最优距离,
Figure DEST_PATH_IMAGE092
表示第
Figure 405165DEST_PATH_IMAGE051
帧语音信息的语义模板特征矢量
Figure DEST_PATH_IMAGE093
与第
Figure DEST_PATH_IMAGE094
帧参考模板特征矢量
Figure DEST_PATH_IMAGE095
之间的距离,
Figure DEST_PATH_IMAGE096
表示时间规整函数;
在具体实施例中,欧式距离也称欧几里得距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离。也可以理解为:m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
步骤4:将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
Figure DEST_PATH_IMAGE097
(8)
式(8)中,
Figure DEST_PATH_IMAGE098
表示参考模板
Figure 939789DEST_PATH_IMAGE007
对应的最小匹配失真度,
Figure 97101DEST_PATH_IMAGE007
表示语音识别词典中的参考模板序数;若
Figure 530226DEST_PATH_IMAGE056
小于语音识别阈值
Figure DEST_PATH_IMAGE099
,则模板匹配成功,输出参考模板
Figure 634448DEST_PATH_IMAGE007
的语义为语音信息识别结果。
在具体实施例中,为了验证本发明的语音识别方法的实用性与可靠性,本发明在计算机实验室搭建仿真系统进行仿真对比,选用20人(规定声控10人,非规定10人),在同一环境下采集每个人的20种主题语言声音信息,每段语音信息3~5s,构成400段语音信息的测试样本库。实验用计算机采用Inter i5以上处理器,应用Power Factory进行模型模拟仿真。在实验中有一定的环境要求:处理器CPU的额定功率>75%,语音识别精度>80%。本发明与现有技术中方案一(一种基于听觉特性的声纹识别方法)与方案二(基于卷积神经网络和深度循环网络的音频内容分析系统)进行仿真对比,为了防止数据出现过拟合现象,对所有语音识别算法框架进行Adam优化,关于具体实现程序相关代码见下表1。
表1实验相关参数表
参数 程序代码
迭代次数 nmm_epochs=200
批处理个数 batch_size=1280
学习速率 lerning_rate=1e-3
Adam优化器 Adam[model.parameters()]
均方损失函数 criterion=nn.MSELoss
算法中数据融合评判指标采用融合矩阵
Figure DEST_PATH_IMAGE102
,其定义式为:
Figure DEST_PATH_IMAGE103
(9)
式(9)中,
Figure DEST_PATH_IMAGE104
表示测试的语音信息,
Figure DEST_PATH_IMAGE105
表示测试的语音信息的总数量,
Figure DEST_PATH_IMAGE106
是指需要调整的融合权重值,
Figure DEST_PATH_IMAGE107
是指经过调整后的融合性标准。当
Figure 950809DEST_PATH_IMAGE107
趋近于0时,表明测试的语音信息融合性好。根据公式(9)分别计算三种语音识别方法在400段语音信息的测试样本库所得到数据融合
Figure 544602DEST_PATH_IMAGE107
值,对比结果如图3所示。根据
Figure 199443DEST_PATH_IMAGE107
越小数据融合性越好的准则,本发明语音信息融合性更好,语音识别效率高。此外,本发明与现方案一和方案二进行识别精度仿真对比,得到对比结果如表2所示:
表2总功率计量测试数据
测试语音信息总数量/条 方案一融合值 方案二融合值 本发明融合值
100 78.564 53.748 95.457
200 75.562 55.457 94.714
300 71.987 54.678 94.587
400 68.117 52.457 96.418
根据表2数据结果分析,对比分析三种语音识别方法在不同样本数的识别精度,其对比曲线如图4所示。通过图4中的对比示意图可以看出,本发明的语音识别准确度最高,平均值达到了95.24%,大大提高了语音识别的准确性,提高了人与人之间的沟通能力,也体现了本发明的可靠性。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变;例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围;因此,本发明的范围仅由所附权利要求书限定。

Claims (2)

1.一种语音识别方法,其特征在于:所述方法包括:
(S1)通过语音识别设备设置识别主题语言;
其中语音识别设备采用CN3704芯片进行语音识别信息控制,语音识别设备包括识别语言设置单元、语音识别处理单元、语音按钮、麦克风和显示器;
(S2)语音识别设备接收语音信息,并将语音信息存储在语音识别设备中;
其中语音识别设备通过语音按钮开启语音识别设备,采用麦克风接收语音信息,并将语音信号转换为电信号存储在语音识别设备的语音识别处理单元中;
(S3)采用DTW算法提取语音信息语义模板,与语音识别词典的参考模板进行匹配;
其中通过DTW算法按语音帧进行标记语音信息所有片段,得到语音信息的语义模板表示为
Figure DEST_PATH_IMAGE001
Figure 59277DEST_PATH_IMAGE002
表示语音帧的标记序数,
Figure DEST_PATH_IMAGE003
表示语义模板中第
Figure 507576DEST_PATH_IMAGE002
帧的特征矢量值;采用欧氏距离的方法计算语义模板与参考模板之间的最优距离
Figure 146367DEST_PATH_IMAGE004
,将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
Figure DEST_PATH_IMAGE005
(8)
式(8)中,
Figure 102429DEST_PATH_IMAGE006
表示参考模板
Figure DEST_PATH_IMAGE007
对应的最小匹配失真度;
Figure 182380DEST_PATH_IMAGE008
表示语音信息语义模板与参考模板之间的距离;若
Figure 863897DEST_PATH_IMAGE006
小于语音识别阈值
Figure DEST_PATH_IMAGE009
,则模板匹配成功,输出参考模板
Figure 396510DEST_PATH_IMAGE007
的语义为语音信息识别结果;
(S4)模板匹配成功,语音识别设备的显示器显示语音识别结果;
其中,若G小于语音识别阈值E S ,则模板匹配成功,输出参考模板h的语义为语音信息识别结果;
在步骤(S3)中,语音识别词典的训练方法,包括以下步骤:
步骤1:假设将输入的语音信息分割为
Figure 690350DEST_PATH_IMAGE010
个音频分量的语音片段,通过计算每个语音片段的音频分量,获取音频向量
Figure DEST_PATH_IMAGE011
进行计数,则每个语音片段的信息熵为:
Figure 687125DEST_PATH_IMAGE012
(1)
式(1)中,
Figure DEST_PATH_IMAGE013
表示语音片段的信息熵,下标
Figure 211647DEST_PATH_IMAGE014
表示语音片段序数,
Figure DEST_PATH_IMAGE015
表示语音片段的带宽,
Figure 854725DEST_PATH_IMAGE016
表示语音片段特征点出现频率,
Figure 326157DEST_PATH_IMAGE010
表示语音片段的数据;当语音片段特征点出现频率为3MHz,则该语音片段为高频分量;当语音片段特征点出现频率为3kHz,则该语音片段为低频分量;
步骤2:使用OMP算法对每个高频分量的语音片段进行稀疏编码,假设稀疏系数
Figure DEST_PATH_IMAGE017
,利用max-L1融合规则对所有高频分量的语音片段进行融合得到:
Figure 239756DEST_PATH_IMAGE018
(2)
式(2)中,
Figure DEST_PATH_IMAGE019
表示max-L1融合规则得到的高频分量的语音片段集,
Figure 466338DEST_PATH_IMAGE020
表示每个高频分量的语音片段的稀疏系数,
Figure DEST_PATH_IMAGE021
表示OMP算法函数值;
步骤3:采用基于L2-范数的加权平均方法对低频分量进行融合,L2-范数最小化公式如下:
Figure 68482DEST_PATH_IMAGE022
(3)
式(3)中,
Figure DEST_PATH_IMAGE023
表示L2-范数最小化,
Figure 671502DEST_PATH_IMAGE024
表示L2-范数值,
Figure DEST_PATH_IMAGE025
表示具有满秩的约束矩阵,
Figure 215440DEST_PATH_IMAGE026
表示常参数;为了减少计算量,在L2-范数中引入了拉格朗日乘子:
Figure DEST_PATH_IMAGE027
(4)
式(4)中,
Figure 81765DEST_PATH_IMAGE028
表示拉格朗日拉格朗日乘子,
Figure DEST_PATH_IMAGE029
表示引入的拉格朗日参数,之后根据公式(4)得到融合后的低频分量的语音片段集:
Figure 138583DEST_PATH_IMAGE030
(5)
式(5)中,
Figure DEST_PATH_IMAGE031
表示基于L2-范数的加权平均方法得到的低频分量的语音片段集;
步骤4:将融合后的高频分量和低频分量的语音片段集进一步融合,形成最终的融合语音信息:
Figure 109075DEST_PATH_IMAGE032
(6)
式(6)中,
Figure DEST_PATH_IMAGE033
表示输出的融合语音信息;将融合语音信息进行深度学习,构建语音识别词典。
2.根据权利要求1所述的一种语音识别方法,其特征在于:步骤(S3)中采用DTW算法提取语音信息语义模板,步骤包括:
步骤1:对输入的语音信息进行识别确定主题,并通过动态时间规整的重心平均DTW算法得到语音信息的语义模板,按语音帧进行标记,得到语音信息的语义模板表示为
Figure 138211DEST_PATH_IMAGE034
Figure 503333DEST_PATH_IMAGE002
表示语音帧的标记序数,
Figure DEST_PATH_IMAGE035
表示语义模板中第
Figure 985130DEST_PATH_IMAGE002
帧的特征矢量值;
步骤2:从语音识别词典中提取统一主题下的参考模板为
Figure 959646DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
表示参考模板第
Figure 843288DEST_PATH_IMAGE038
帧的特征矢量值;
步骤3:设动态时间规整函数为
Figure DEST_PATH_IMAGE039
,采用欧氏距离的方法计算语音信息语义模板与参考模板之间的最优距离:
Figure 113732DEST_PATH_IMAGE040
(7)
式(7)中,
Figure DEST_PATH_IMAGE041
表示语音信息语义模板与参考模板之间的最优距离,
Figure 708924DEST_PATH_IMAGE042
表示参考模板中的矢量值;
Figure DEST_PATH_IMAGE043
表示第
Figure 395120DEST_PATH_IMAGE002
帧语音信息的语义模板特征矢量
Figure 461165DEST_PATH_IMAGE044
与第
Figure DEST_PATH_IMAGE045
帧参考模板特征矢量
Figure 105773DEST_PATH_IMAGE046
之间的距离,
Figure DEST_PATH_IMAGE047
表示时间规整函数;
步骤4:将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
Figure 857435DEST_PATH_IMAGE048
(8)
式(8)中,
Figure 878481DEST_PATH_IMAGE006
表示参考模板
Figure 533453DEST_PATH_IMAGE007
对应的最小匹配失真度;
Figure DEST_PATH_IMAGE049
表示语音信息语义模板与参考模板之间的距离;若
Figure 145700DEST_PATH_IMAGE006
小于语音识别阈值
Figure 856429DEST_PATH_IMAGE009
,则模板匹配成功,输出参考模板
Figure 618849DEST_PATH_IMAGE007
的语义为语音信息识别结果。
CN202211250643.2A 2022-10-13 2022-10-13 一种语音识别方法 Active CN115331658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211250643.2A CN115331658B (zh) 2022-10-13 2022-10-13 一种语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211250643.2A CN115331658B (zh) 2022-10-13 2022-10-13 一种语音识别方法

Publications (2)

Publication Number Publication Date
CN115331658A CN115331658A (zh) 2022-11-11
CN115331658B true CN115331658B (zh) 2023-01-24

Family

ID=83914810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211250643.2A Active CN115331658B (zh) 2022-10-13 2022-10-13 一种语音识别方法

Country Status (1)

Country Link
CN (1) CN115331658B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117393153B (zh) * 2023-12-11 2024-03-08 中国人民解放军总医院 基于医疗物联网时序数据和深度学习算法的休克实时风险预警监测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107195295B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN113076847B (zh) * 2021-03-29 2022-06-17 济南大学 一种多模态情感识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种聚焦式模糊分段算法及其在语音识别中的应用;马军等;《科技资讯》;20060303(第07期);全文 *

Also Published As

Publication number Publication date
CN115331658A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
WO2021051544A1 (zh) 语音识别方法及其装置
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
WO2018227780A1 (zh) 语音识别方法、装置、计算机设备及存储介质
EP2070079A1 (en) Method and apparatus for locating speech keyword and speech recognition system
CN109377981B (zh) 音素对齐的方法及装置
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
CN113643693B (zh) 以声音特征为条件的声学模型
CN105788596A (zh) 一种语音识别电视控制方法及系统
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN113450771B (zh) 唤醒方法、模型训练方法和装置
CN113393828A (zh) 一种语音合成模型的训练方法、语音合成的方法及装置
CN115331658B (zh) 一种语音识别方法
Benelli et al. A low power keyword spotting algorithm for memory constrained embedded systems
CN110853669B (zh) 音频识别方法、装置及设备
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
Li A lightweight architecture for query-by-example keyword spotting on low-power IoT devices
Barkani et al. Amazigh speech recognition embedded system
CN117219046A (zh) 一种交互语音情感控制方法及系统
CN115064160B (zh) 语音唤醒方法以及装置
Meirong et al. Query-by-example on-device keyword spotting using convolutional recurrent neural network and connectionist temporal classification
Qu et al. Realization of embedded speech recognition module based on STM32
Wang et al. Embedded speech recognition system on 8-bit MCU core

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant