CN111105799B - 基于发音量化和电力专用词库的离线语音识别装置及方法 - Google Patents

基于发音量化和电力专用词库的离线语音识别装置及方法 Download PDF

Info

Publication number
CN111105799B
CN111105799B CN201911255074.9A CN201911255074A CN111105799B CN 111105799 B CN111105799 B CN 111105799B CN 201911255074 A CN201911255074 A CN 201911255074A CN 111105799 B CN111105799 B CN 111105799B
Authority
CN
China
Prior art keywords
word
quantization
words
voice
electric power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911255074.9A
Other languages
English (en)
Other versions
CN111105799A (zh
Inventor
乐全明
裘愉涛
吴振杰
王源涛
吴靖
唐剑
侯伟宏
罗少杰
陈嘉宁
刘东冉
张魁
骆冰磊
周坤
甄家林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Kemov Electric Co ltd
State Grid Zhejiang Electric Power Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Wuhan Kemov Electric Co ltd
State Grid Zhejiang Electric Power Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Kemov Electric Co ltd, State Grid Zhejiang Electric Power Co Ltd, Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Wuhan Kemov Electric Co ltd
Priority to CN201911255074.9A priority Critical patent/CN111105799B/zh
Publication of CN111105799A publication Critical patent/CN111105799A/zh
Application granted granted Critical
Publication of CN111105799B publication Critical patent/CN111105799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明的目的是在于针对现有技术的缺陷和不足,提供基于发音量化和电力专用词库的离线语音识别装置,还提供基于发音量化和电力专用词库的离线语音识别方法,从而提高智能语音识别的效率和准确率,避免由于识别产生误差造成的损失,同时也提高了语音识别的效率和准确率。对此本发明提供了一种基于发音量化和电力专用词库的离线语音识别装置,包括与音频采集系统连接的通用语音识别模块,通用语音识别模块输出语音词语,还包括:输入特征提取模块、电力专用词库特征提取模块、语音词匹配检索模块、识别结果输出模块。本发明能够根据具体应用,修改编辑电力专用词库,也能够根据具体语音噪声环境修改量化值权重值,进而优化识别结果。

Description

基于发音量化和电力专用词库的离线语音识别装置及方法
技术领域
本发明智能语音识别应用技术领域,具体涉及基于发音量化和电力专用词库的离线语音识别装置,还涉及基于发音量化和电力专用词库的离线语音识别方法。
背景技术
随着人工智能的发展,智能语音识别技术广泛地应用在各行各业。即听即所得的语音交互方式,极大方便了人与机器的交互。
目前语音识别均采用云语音识别技术,该技术必须依靠互联网与云识别服务器。由于电力系统的网络安全性要求,处在电力生产的一区、二区设备,严格控制相关设备接入互联网络,以避免网络攻击。因此,基于离线的语音识别方案则成为电力系统语音识别的首选。现有技术中的离线语音识别模块为通用性语音识别,其离线识别引擎固化在模块内部,该离线语音模块能够识别常用汉字、字母、数字等人的语音输入,其应用定位在人们生产、生活各个行业。然而,离线语音识别的大而全的汉字库、广泛应用等特性,主要体现在语音识别的普适性,其识别率、识别的稳定性相对较差,误识别率将对较高。特别是在同音字、前后鼻音、声调相近、发音相似等词语上,具有较大的误识别。譬如,用户语音说出“电力”词语,其离线语音识别模块可能的输出有“店里”、“电你”、“电离”等等。因此,将通用性离线语音识别模块直接作为电力领域相关设备、测试、测量仪器的输入,存在一定风险。对于日常生活,语音控制系统略有误差尚可接受,但是在电力系统中,如果语音识别产生歧义将导致严重的后果,造成巨大的经济损失甚至还会带来人员伤亡。现有技术中专利申请号为CN201910408481.2的发明专利《基于语音识别的电力系统操作指令执行方法、装置及系统》中公开了一种基于语音识别的电力系统操作指令执行方法、装置及系统,包括获取语音指令集,所述语音指令集中包括操作指令和电网模型名称;基于语音识别服务将获取到的音频流在线转换成字符串;基于维护过的词句映射文件,对所述字符串进行二次转换,形成新的字符串;基于获得的语音指令集对所述新的字符串进行自动识别,获得操作指令,完成电力系统操作指令执行。该发明通过集成语音识别服务,将系统操作人员的语音转化成文字,进而执行相应的系统指令,具有灵活方便和识别准确的特点,提高了系统自动化操作的效率。
但是实际上,该发明只是简单执行了语义的映射,一旦出现歧义依然会导致事故的发生。
发明内容
本发明的目的是在于针对现有技术的缺陷和不足,提供基于发音量化和电力专用词库的离线语音识别装置,还提供基于发音量化和电力专用词库的离线语音识别方法,从而提高智能语音识别的效率和准确率,避免由于识别产生误差造成的损失,同时也提高了语音识别的效率和准确率。
对此本发明提供了一种基于发音量化和电力专用词库的离线语音识别装置,包括与音频采集系统连接的通用语音识别模块,通用语音识别模块输出语音词语,还包括:
输入特征提取模块,用于获得语音词语的各个字的量化特征,语音词语的各个字的量化特征构成语音词语的量化特征码,通用语音识别模块将语音词语的量化特征码发送到语音词匹配检索模块;
电力专用词库特征提取模块,用于获得电力专用词库中的电力系统专用性词语的每个字的量化特征,电力系统专用性词语的各个字的量化特征构成电力系统专用性词语的量化特征码,电力专用词库特征提取模块将电力系统专用性词语的量化特征码发送到语音词匹配检索模块;
语音词匹配检索模块,用于遍历电力系统专用性词语的量化特征码,寻找与语音词语的量化特征码的相似度高于相似度阈值,且与语音词语的量化特征码的相似度最高的电力系统专用性词语的量化特征码,输出对应的电力系统专用性词语到识别结果输出模块;
识别结果输出模块,根据识别出的电力系统专用性词语在电力系统专用性词语编码表中查找对应的词编码,并输出词编码。
进一步的,还包括用户数据库,用户数据库存储使用该装置的用户清单,所述电力专用词库特征提取模块针对每个用户单独设置量化特征码。这样针对每个用户单独建立词库特征提取模块,能避免不同方言导致整个词库学习量过大的问题。
如上所述的量化特征通过以下方式获得,将字依次拆分为声母、韵母、辅音、和音调,获得声母、韵母、辅音和音调对应的量化值构成字的量化特征。
如上所述的相似度通过以下步骤获得:
获得语音词语的量化特征码的求和值Sum(Va),
获得电力系统专用性词语的量化特征码的求和值Sum(Vb),
定义相似度为Sim(a,b),Sim(a,b)=1-(|Sum(Va)-Sum(Vb)|/Sum(Vb))。
如上所述的语音词语的量化特征码的求和值Sum(Va)为:语音词语的各个字的声母、韵母、辅音和音调的量化值的加权和;所述的电力系统专用性词语的量化特征码的求和值Sum(Vb)为:电力系统专用性词语的各个字的声母、韵母、辅音和音调的量化值的加权和,语音词语的声母、韵母、辅音、和音调的加权系数分别与电力系统专用性词语的声母、韵母、辅音、和音调的加权系数相同。
基于发音量化和电力专用词库的离线语音识别方法,包括以下步骤:
步骤1、生成电力系统专用性词语的电力专用词库;
步骤2、电力专用词库特征提取模块获得电力专用词库中的电力系统专用性词语的每个字的量化特征,电力系统专用性词语的各个字的量化特征构成电力系统专用性词语的量化特征码,电力专用词库特征提取模块将电力系统专用性词语的量化特征码发送到语音词匹配检索模块;
步骤3、通过音频采集系统获得多路拾音信号输入到通用语音识别模块;
步骤4、通用语音识别模块输出识别到的语音词语到输入特征提取模块;
步骤5、输入特征提取模块获得语音词语的各个字的量化特征,语音词语的各个字的量化特征构成语音词语的量化特征码,通用语音识别模块将语音词语的量化特征码发送到语音词匹配检索模块;
步骤6、语音词匹配检索模块根据接收到的语音词语的量化特征码,遍历电力系统专用性词语的量化特征码,寻找与语音词语的量化特征码的相似度高于相似度阈值,且与语音词语的量化特征码的相似度最高的电力系统专用性词语的量化特征码,输出对应的电力系统专用性词语到识别结果输出模块;
步骤7、根据识别出的电力系统专用性词语在电力系统专用性词语编码表中查找对应的词编码,并输出词编码。
通常,所述的音频采集系统为麦克风阵列。
如上所述的量化特征通过以下方式获得,将字依次拆分为声母、韵母、辅音、和音调,获得声母、韵母、辅音和音调对应的量化值构成字的量化特征。
如上所述的相似度通过以下步骤获得:
获得语音词语的量化特征码的求和值Sum(Va),
获得电力系统专用性词语的量化特征码的求和值Sum(Vb),
定义相似度为Sim(a,b),Sim(a,b)=1-(|Sum(Va)-Sum(Vb)|/Sum(Vb))。
如上所述的语音词语的量化特征码的求和值Sum(Va)为:语音词语的各个字的声母、韵母、辅音和音调的量化值的加权和;所述的电力系统专用性词语的量化特征码的求和值Sum(Vb)为:电力系统专用性词语的各个字的声母、韵母、辅音和音调的量化值的加权和,语音词语的声母、韵母、辅音、和音调的加权系数分别与电力系统专用性词语的声母、韵母、辅音、和音调的加权系数相同。
与现有技术相比,本发明有以下有益效果:
1、采用发音量化的方法相对通用语音识别模块具有更高的识别率,特别在汉语的同音字、前后鼻音、声调相近等识别率差、误识别问题上有明显改善;
2,本发明建立了电力专用词库的电力系统专用性词语的量化特征码,进一步限缩小了语音识别的数量,为发音量化减少了计算量,有利于提供高计算机的运算速度,便于低成本的ARM处理器部署与实施;
3,本发明能够根据具体应用,修改编辑电力专用词库,也能够根据具体语音噪声环境修改量化值权重值,进而优化识别结果。
附图说明
图1为基于发音量化和电力专用词库的离线语音识别方法的流程框图;
图2为电力系统专用性词语编码表;
图3为字拆分为声母、韵母、辅音和音调的示意图;
图4为各个声母的量化值图;
图5为各个韵母的量化值图;
图6为本发明的部分电力系统专用性词语与量化特征码的示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
如图1至图5所示,基于发音量化和电力专用词库的离线语音识别装置,包括音频采集系统、通用语音识别模块、输入特征提取模块、语音词匹配检索模块、电力专用词库特征提取模块、电力专用词库、识别结果输出模块。为方便起见,图中音频采集系统已经选用了常规的麦克风阵列。
所述的麦克风阵列是将2个或2个以上麦克风按照一定几何规则放置,同时将多个麦克风拾音送至后端的通用语音识别模块;
所述的通用语音识别模块,是一种通用的、普适的离线语音识别模块,通用语音识别模块接收音频采集系统输出的多路拾音信号,提取多路拾音信号中语音的频谱特征、音素信息等,再将这些特征与常用汉字、字母、数字比对匹配,输出识别到的语音词语。
所述的通用语音识别模块将识别的语音词语输出到输入特征提取模块,在输入特征提取模块,按照发音量化方法获得语音词语的各个字的量化特征,语音词语的各个字的量化特征构成语音词语的量化特征码,通用语音识别模块将语音词语的量化特征码发送到语音词匹配检索模块。
发音量化方法包括以下步骤:将字依次拆分为声母、韵母、辅音、和音调,获得声母、韵母、辅音和音调对应的量化值构成字的量化特征,具体为在声母发音量化表中查找声母对应的量化值,在韵母发音量化表中查找韵母和辅音对应的量化值,一声音调的量化值为0,二声音调的量化值为1,三声音调的量化值为2,四声音调的量化值为3,字的声母、韵母、辅音、和音调对应的量化值构成字的量化特征。
不同声母对应不同量化值,所有声母和对应的量化值构成声母发音量化表,由于汉语发音的特征,“n”和“l”、“ch”和“c”、“zh”和“z”、以及“sh”和“s”分别采用相同的量化值,如图4所示的声母发音量化表;
不同韵母对应不同量化值,不同辅音对应不同量化值,所有韵母和辅音和对应的量化值构成韵母发音量化表,如图5所示,由于有些汉字具有辅音或多韵母,该类情况都归类为辅音,辅音也采用韵母量化表;
不同音调对应不同量化值,汉字发音中的声调,数字量化为一声为0,二声为1,三声为2,四声为3;
优选的,便于CPU计算,声母的量化值、韵母的量化值分别采用5位二进制,由于辅音数量明显偏少采用4位二进制编码,声调采用2位二进制编码,通过发音量化方法,语音词语的每个字量化为16位二进制编码的量化特征,每个字的量化特征依次为5位二进制的声母的量化值、5位二进制的韵母的量化值、4位二进制的辅音的量化值、和2位二进制的音调的量化值,语音词语的各个字的量化特征构成语音词语的量化特征码。
所述电力专用词库包括电力系统专用性词语,电力系统专用性词语包括:电力、交流电、直流电、电压、电流、合并单元、智能终端、就地化变压器保护、就地化母线保护等,将这些词语组成电力专用词库;
电力专用词库特征提取模块,将电力专用词库中的电力系统专用性词语按照发音量化方法进行数字量化,生成电力系统专用性词语每个字的量化特征,电力系统专用性词语的各个字的量化特征构成电力系统专用性词语的量化特征码,电力专用词库特征提取模块将电力专用词库中的电力系统专用性词语转换为电力系统专用性词语的量化特征码发送到语音词匹配检索模块。
由于不同工作人员口音各不相同,而电力专用词库特征提取模块在匹配过程中也需要自行不断学习,因此在系统中单独设置了数据库用于将不同操作人员的电力专用词库特征提取模块相互分开。本发明特别选择了在电力专用词库特征提取模块中进行身份识别而不是在其他模块中设置身份识别,也是为了提高系统自我学习的效率,这样不仅能从口音上区别,还可以从他们从事的具体工种上寻找更为准确的电力专用词。
所述语音词匹配检索模块,同时接收两组量化特征码的输入,一组为语音词语的量化特征码,另一组为电力系统专用性词语的量化特征码,语音词匹配检索模块遍历电力专用词库特征提取模块中获得各个电力系统专用性词语的量化特征码,并分别与接收的语音词语的量化特征码进行词语相似度比较,寻找与语音词语的量化特征码的相似度高于相似度阈值,且与语音词语的量化特征码的相似度最高的电力系统专用性词语的量化特征码,输出对应的电力系统专用性词语到识别结果输出模块;
词语相似度比较包括以下步骤,将语音词语的量化特征码的所有声母、韵母、辅音及音调乘以对应的权重后求和,获得语音词语的量化特征码的求和值Sum(Va),将电力系统专用性词语的量化特征码的所有声母、韵母、辅音及音调乘以对应的权重后求和,获得电力系统专用性词语的量化特征码的求和值Sum(Vb),量化特征码的相似度Sim(a,b)=1-(|Sum(Va)-Sum(Vb)|/Sum(Vb)),相似度越趋近于1,词语相似度越高。
声母、韵母、辅音及音调对应的权重的和为1,优选的声母、韵母、辅音及音调的权重分别为0.4、0.4、0.1、0.1。
例如,电力系统专用性词语包括“电力”,对“电力”进行发音量化,其拼音分割为“d”、“i”、“an”、“l”、“i”,声调都为四声,其声母、韵母、辅音分别采用图4与图5量化值,“d”为05、“i”为4、“an”为15、“l”为07、“i”为04,四声音调为3。因此,量化特征码为051543-070403,如图6所示。
通用语音识别模块获得的语音词语为“店里”,对“店里”进行发音量化,其拼音分割为“d”、“i”、“an”、“l”、“i”,声调分别为四声与三声,其声母、韵母、辅音分别采用图4与图5量化值,“d”为05、“i”为4、“an”为15、“l”为07、“i”为04,四声音调为3,三声音调为2。因此,量化特征码为051543-070402。
通用语音识别模块获得的语音词语“店里”的量化特征码的求和值Sum(Va)=0.4*05+0.4*15+0.1*4+0.1*3+0.4*07+0.4*04+0.1*0+0.1*2=13.3。
电力系统专用性词语(电力)的量化特征码的求和值Sum(Vb)=
0.4*05+0.4*15+0.1*4+0.1*3+0.4*07+0.4*04+0.1*0+0.1*4=13.4。
二者的量化特征码的相似度=1-(|13.3-13.4|/13.4)=0.9925,最接近于1,相似度大于相似度阈值0.9,且相似度最高,因此语音词匹配检索模块将“电力”作为识别结果输出到识别结果输出模块。
语音词匹配检索模块遍历电力专用词库中的各个电力系统专用性词语,选取量化特征码的求和值最接近的电力系统专用性词语“电力”作为识别结果输出到识别结果输出模块。
识别结果输出模块根据识别出的电力系统专用性词语在电力系统专用性词语编码表中查找对应的词编码,在电力系统专用性词语编码表中电力系统专用性词语对应唯一的词编码,如图2所示,本实施例中,电力对应的词编码为00,识别结果输出模块输出词编码到应用程序,应用程序根据词编码调用相应的子程序进行响应。达到语音控制应用程序的目的。
一种基于发音量化和电力专用词库的离线语音二次识别方法,具体包括如下步骤:
步骤1、生成电力系统专用性词语的电力专用词库,电力系统专用性词语包括:电力、交流电、直流电、电压、电流、合并单元、智能终端、就地化变压器保护、就地化母线保护等。
步骤2、电力专用词库特征提取模块将电力专用词库中的电力系统专用性词语按照发音量化方法进行数字量化,生成电力系统专用性词语每个字的量化特征,电力系统专用性词语的各个字的量化特征构成电力系统专用性词语的量化特征码,电力专用词库中的电力系统专用性词语对应唯一的量化特征码,电力专用词库特征提取模块将电力系统专用性词语的量化特征码发送到语音词匹配检索模块;
步骤3、通过音频采集系统获得多路拾音信号输入到通用语音识别模块;
步骤4、通用语音识别模块提取多路拾音信号中语音的频谱特征、音素信息等,再将这些特征与常用汉字、字母、数字比对匹配,输出识别到的语音词语到输入特征提取模块,在本实施例中,语音词语为“店里”;
步骤5、输入特征提取模块,按照发音量化方法获得语音词语的各个字的量化特征,语音词语的各个字的量化特征构成语音词语的量化特征码,通用语音识别模块将语音词语的量化特征码发送到语音词匹配检索模块,
本实施例中,对“店里”进行发音量化,其拼音分割为“d”、“i”、“an”、“l”、“i”,声调分别为四声与三声,其声母、韵母、辅音分别采用图4与图5量化值,“d”为05、“i”为4、“an”为15、“l”为07、“i”为04,四声音调为3,三声音调为2。因此,量化特征码为051543-070402;
步骤6、语音词匹配检索模块根据接收到的语音词语的量化特征码,遍历电力系统专用性词语的量化特征码,寻找与语音词语的量化特征码的相似度高于相似度阈值,且与语音词语的量化特征码的相似度最高的电力系统专用性词语的量化特征码,输出对应的电力系统专用性词语到识别结果输出模块。
电力系统专用性词语“电力”的拼音分割为“d”、“i”、“an”、“l”、“i”,声调都为四声,其声母、韵母、辅音分别采用图4与图5量化值,“d”为05、“i”为4、“an”为15、“l”为07、“i”为04,四声音调为3。因此,量化特征码为051543-070403,如图6所示。
“店里”的量化特征码的求和值Sum(Va)=
0.4*05+0.4*15+0.1*4+0.1*3+0.4*07+0.4*04+0.1*0+0.1*2=13.3。
“电力”的量化特征码的求和值Sum(Vb)=
0.4*05+0.4*15+0.1*4+0.1*3+0.4*07+0.4*04+0.1*0+0.1*4=13.4。
二者的量化特征码的相似度=1-(|13.3-13.4|/13.4)=0.9925,最接近于1,相似度大于相似度阈值0.9,且相似度最高,因此语音词匹配检索模块将“电力”作为识别结果输出到识别结果输出模块。
发音量化方法包括以下步骤:将字依次拆分为声母、韵母、辅音、和音调,获得声母、韵母、辅音和音调对应的量化值构成字的量化特征,具体为在声母发音量化表中查找声母对应的量化值,在韵母发音量化表中查找韵母和辅音对应的量化值,一声音调的量化值为0,二声音调的量化值为1,三声音调的量化值为2,四声音调的量化值为3,字的声母、韵母、辅音、和音调对应的量化值构成字的量化特征。
不同声母对应不同量化值,所有声母和对应的量化值构成声母发音量化表,由于汉语发音的特征,“n”和“l”、“ch”和“c”、“zh”和“z”、以及“sh”和“s”分别采用相同的量化值,如图4所示的声母发音量化表;
不同韵母对应不同量化值,不同辅音对应不同量化值,所有韵母和辅音和对应的量化值构成韵母发音量化表,如图5所示,由于有些汉字具有辅音或多韵母,该类情况都归类为辅音,辅音也采用韵母量化表;
不同音调对应不同量化值,汉字发音中的声调,数字量化为一声为0,二声为1,三声为2,四声为3;
便于CPU计算,声母的量化值、韵母的量化值分别采用5位二进制,由于辅音数量明显偏少采用4位二进制编码,声调采用2位二进制编码,通过发音量化方法,语音词语的每个字量化为16位二进制编码的量化特征,每个字的量化特征依次为5位二进制的声母的量化值、5位二进制的韵母的量化值、4位二进制的辅音的量化值、和2位二进制的音调的量化值,语音词语的各个字的量化特征构成语音词语的量化特征码。
步骤7、识别结果输出模块根据识别出的电力系统专用性词语在电力系统专用性词语编码表中查找对应的词编码,在电力系统专用性词语编码表中电力系统专用性词语对应唯一的词编码,本实施例中,电力对应的词编码为00,识别结果输出模块输出词编码到应用程序,应用程序根据词编码调用相应的子程序进行响应。达到语音控制应用程序的目的。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.基于发音量化和电力专用词库的离线语音识别装置,包括与音频采集系统连接的通用语音识别模块,通用语音识别模块输出语音词语,其特征在于,还包括:
输入特征提取模块,用于获得语音词语的各个字的量化特征,语音词语的各个字的量化特征构成语音词语的量化特征码,通用语音识别模块将语音词语的量化特征码发送到语音词匹配检索模块;
电力专用词库特征提取模块,用于获得电力专用词库中的电力系统专用性词语的每个字的量化特征,电力系统专用性词语的各个字的量化特征构成电力系统专用性词语的量化特征码,电力专用词库特征提取模块将电力系统专用性词语的量化特征码发送到语音词匹配检索模块;
语音词匹配检索模块,用于遍历电力系统专用性词语的量化特征码,寻找与语音词语的量化特征码的相似度高于相似度阈值,且与语音词语的量化特征码的相似度最高的电力系统专用性词语的量化特征码,输出对应的电力系统专用性词语到识别结果输出模块;
识别结果输出模块,根据识别出的电力系统专用性词语在电力系统专用性词语编码表中查找对应的词编码,并输出词编码;
所述的量化特征通过以下方式获得,将字依次拆分为声母、韵母、辅音、和音调,获得声母、韵母、辅音和音调对应的量化值构成字的量化特征;
所述的相似度通过以下步骤获得:
获得语音词语的量化特征码的求和值Sum(Va),
获得电力系统专用性词语的量化特征码的求和值Sum(Vb),
定义相似度为Sim(a,b),Sim(a,b)=1-(|Sum(Va)-Sum(Vb)|/Sum(Vb));
所述的语音词语的量化特征码的求和值Sum(Va)为:语音词语的各个字的声母、韵母、辅音和音调的量化值的加权和;所述的电力系统专用性词语的量化特征码的求和值Sum(Vb)为:电力系统专用性词语的各个字的声母、韵母、辅音和音调的量化值的加权和,语音词语的声母、韵母、辅音、和音调的加权系数分别与电力系统专用性词语的声母、韵母、辅音、和音调的加权系数相同。
2.根据权利要求1所述的基于发音量化和电力专用词库的离线语音识别装置,其特征在于,还包括用户数据库,用户数据库存储使用该装置的用户清单,所述电力专用词库特征提取模块针对每个用户单独设置量化特征码。
3.基于发音量化和电力专用词库的离线语音识别方法,其特征在于,包括以下步骤:
步骤1、生成电力系统专用性词语的电力专用词库;
步骤2、电力专用词库特征提取模块获得电力专用词库中的电力系统专用性词语的每个字的量化特征,电力系统专用性词语的各个字的量化特征构成电力系统专用性词语的量化特征码,电力专用词库特征提取模块将电力系统专用性词语的量化特征码发送到语音词匹配检索模块;
步骤3、通过音频采集系统获得多路拾音信号输入到通用语音识别模块;
步骤4、通用语音识别模块输出识别到的语音词语到输入特征提取模块;
步骤5、输入特征提取模块获得语音词语的各个字的量化特征,语音词语的各个字的量化特征构成语音词语的量化特征码,通用语音识别模块将语音词语的量化特征码发送到语音词匹配检索模块;
步骤6、语音词匹配检索模块根据接收到的语音词语的量化特征码,遍历电力系统专用性词语的量化特征码,寻找与语音词语的量化特征码的相似度高于相似度阈值,且与语音词语的量化特征码的相似度最高的电力系统专用性词语的量化特征码,输出对应的电力系统专用性词语到识别结果输出模块;
步骤7、根据识别出的电力系统专用性词语在电力系统专用性词语编码表中查找对应的词编码,并输出词编码;
所述的量化特征通过以下方式获得,将字依次拆分为声母、韵母、辅音、和音调,获得声母、韵母、辅音和音调对应的量化值构成字的量化特征;
所述的相似度通过以下步骤获得:
获得语音词语的量化特征码的求和值Sum(Va),
获得电力系统专用性词语的量化特征码的求和值Sum(Vb),
定义相似度为Sim(a,b),Sim(a,b)=1-(|Sum(Va)-Sum(Vb)|/Sum(Vb));
所述的语音词语的量化特征码的求和值Sum(Va)为:语音词语的各个字的声母、韵母、辅音和音调的量化值的加权和;所述的电力系统专用性词语的量化特征码的求和值Sum(Vb)为:电力系统专用性词语的各个字的声母、韵母、辅音和音调的量化值的加权和,语音词语的声母、韵母、辅音、和音调的加权系数分别与电力系统专用性词语的声母、韵母、辅音、和音调的加权系数相同。
4.根据权利要求3所述的基于发音量化和电力专用词库的离线语音识别方法,其特征在于,所述的音频采集系统为麦克风阵列。
CN201911255074.9A 2019-12-09 2019-12-09 基于发音量化和电力专用词库的离线语音识别装置及方法 Active CN111105799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911255074.9A CN111105799B (zh) 2019-12-09 2019-12-09 基于发音量化和电力专用词库的离线语音识别装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911255074.9A CN111105799B (zh) 2019-12-09 2019-12-09 基于发音量化和电力专用词库的离线语音识别装置及方法

Publications (2)

Publication Number Publication Date
CN111105799A CN111105799A (zh) 2020-05-05
CN111105799B true CN111105799B (zh) 2023-07-07

Family

ID=70422540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911255074.9A Active CN111105799B (zh) 2019-12-09 2019-12-09 基于发音量化和电力专用词库的离线语音识别装置及方法

Country Status (1)

Country Link
CN (1) CN111105799B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0271619A1 (en) * 1986-12-15 1988-06-22 Yeh, Victor Chang-ming Phonetic encoding method for Chinese ideograms, and apparatus therefor
US6343270B1 (en) * 1998-12-09 2002-01-29 International Business Machines Corporation Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
JP2002073064A (ja) * 2000-08-28 2002-03-12 Yamaha Corp 音声処理装置、音声処理方法および情報記録媒体
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
CN106611595A (zh) * 2015-10-16 2017-05-03 三星电子株式会社 用于将文本转换为语音的电子装置和方法
CN109450925A (zh) * 2018-12-05 2019-03-08 国网浙江省电力有限公司杭州供电公司 用于电力二次系统运维的用户权限验证方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
CN101876856B (zh) * 2009-10-29 2013-05-15 臧广树 一种四数汉字音节汉字输入方法
CN103456297B (zh) * 2012-05-29 2015-10-07 中国移动通信集团公司 一种语音识别匹配的方法和设备
CN104637482B (zh) * 2015-01-19 2015-12-09 孔繁泽 一种语音识别方法、装置、系统以及语言交换系统
CN109147766B (zh) * 2018-07-06 2020-08-18 北京爱医声科技有限公司 基于端到端深度学习模型的语音识别方法及系统
CN110349576A (zh) * 2019-05-16 2019-10-18 国网上海市电力公司 基于语音识别的电力系统操作指令执行方法、装置及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0271619A1 (en) * 1986-12-15 1988-06-22 Yeh, Victor Chang-ming Phonetic encoding method for Chinese ideograms, and apparatus therefor
US6343270B1 (en) * 1998-12-09 2002-01-29 International Business Machines Corporation Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
JP2002073064A (ja) * 2000-08-28 2002-03-12 Yamaha Corp 音声処理装置、音声処理方法および情報記録媒体
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
CN106611595A (zh) * 2015-10-16 2017-05-03 三星电子株式会社 用于将文本转换为语音的电子装置和方法
CN109450925A (zh) * 2018-12-05 2019-03-08 国网浙江省电力有限公司杭州供电公司 用于电力二次系统运维的用户权限验证方法、装置及电子设备

Also Published As

Publication number Publication date
CN111105799A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
JP2986313B2 (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
Mao et al. Speech recognition and multi-speaker diarization of long conversations
US20020173956A1 (en) Method and system for speech recognition using phonetically similar word alternatives
JPH0581918B2 (zh)
WO2014183373A1 (en) Systems and methods for voice identification
JPH07110695A (ja) 音声符号化装置および方法
CN101515456A (zh) 语音识别接口装置及其语音识别方法
CN113920986A (zh) 会议记录生成方法、装置、设备及存储介质
Bhati et al. Self-expressing autoencoders for unsupervised spoken term discovery
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
CN111489743A (zh) 一种基于智能语音技术的运营管理分析系统
KR20090060631A (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
Gao et al. Zero-Shot Cross-Lingual Phonetic Recognition with External Language Embedding.
CN111105799B (zh) 基于发音量化和电力专用词库的离线语音识别装置及方法
Bhati et al. Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings.
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
KR20090063546A (ko) 음성인식 장치 및 방법
Ashihara et al. SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge?
JP5590549B2 (ja) 音声検索装置および音声検索方法
Diwan et al. Reduce and reconstruct: ASR for low-resource phonetic languages
JP2006053203A (ja) 音声処理装置および方法、記録媒体、並びにプログラム
Anoop et al. Exploring a unified ASR for multiple South Indian languages leveraging multilingual acoustic and language models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant