CN112863485A - 口音语音识别方法、装置、设备及存储介质 - Google Patents
口音语音识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112863485A CN112863485A CN202011635764.XA CN202011635764A CN112863485A CN 112863485 A CN112863485 A CN 112863485A CN 202011635764 A CN202011635764 A CN 202011635764A CN 112863485 A CN112863485 A CN 112863485A
- Authority
- CN
- China
- Prior art keywords
- accent
- voice
- information
- inputting
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000002372 labelling Methods 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims description 30
- 230000001755 vocal effect Effects 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 241001672694 Citrus reticulata Species 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及人工智能领域,公开了一种口音语音识别方法、装置、设备及存储介质。该方法包括:获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;分别提取所述各口音语音样本对应的第一声学特征;将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;获取待识别的口音语音,并提取所述口音语音的第二声学特征;将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。本发明通过引入门机制和口音识别分支,实现了多种口音语音的准确识别。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种口音语音识别方法、装置、设备及存储介质。
背景技术
语音识别作为人机交互的重要技术,在工业生产和日常生活中越来越重要,比如智能家居场景和智能车载系统等。标准普通话作为中国官方语言,但当粤、湘、客家、闽以及赣等方言地区的人将普通话作为第二语言时,普通话会携带很明显的口音。
如何有效的对口音普通话的识别,提高识别率成为当前研究的热门。但是传统的语音识别方法,在识别带有明显口音的普通话时,识别率很低,导致识别的结果错误很多。
发明内容
本发明的主要目的在于解决现有口音语音的识别准确率低的技术问题。
本发明第一方面提供了一种口音语音识别方法,所述口音语音识别方法包括:
获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
分别提取所述各口音语音样本对应的第一声学特征;
将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;
获取待识别的口音语音,并提取所述口音语音的第二声学特征;
将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。
可选的,在本发明第一方面的第一种实现方式中,所述训练模型包括:Baseline模型和Xvector模型,所述Baseline模型包括第一TDNN网络、门机制层、第二TDNN网络和Softmax层,所述将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型包括:
将所述第一声学特征输入所述第一TDNN网络进行声学信息提取,得到第一有效信息;
将所述第一有效信息输入所述Xvector模型进行口音类别识别,得到所述口音语音样本对应的口音类别;
将所述第一有效信息和所述第一口音类别输入所述门机制层进行口音信息融合,得到第一口音融合信息;
将所述第一口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第一口音调整信息;
将所述第一口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音样本对应的音素状态序列;
根据所述口音标签和所述音素状态序列,调用预置损失函数,计算所述口音语音样本对应的口音类别和音素状态序列的误差值;
根据所述误差值,对所述Baseline模型和所述Xvector模型进行参数调优,直至所述Baseline模型和所述Xvector模型收敛,得到口音语音识别模型。
可选的,在本发明第一方面的第二种实现方式中,所述Xvector模型包括第三TDNN网络、Statistics pooling层、第四TDNN网络和Softmax层,所述将所述第一有效信息输入所述Xvector模型进行类别识别,得到所述口音语音样本对应的口音类别包括:
将所述第一有效信息输入所述第三TDNN网络进行声学特征分割,得到第一帧级特征信息;
将所述第一帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第一平均特征信息;
将所述第一平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第一平均有效信息;
将所述第一平均有效信息输入所述Xvector模型中的Softmax层进行口音分类概率运算,得到所述口音语音样本对应的口音类别。
可选的,在本发明第一方面的第三种实现方式中,所述分别提取所述各口音语音样本对应的第一声学特征包括:
分别对所述各口音语音样本进行分帧,得到多个语音帧;
对所述各语音帧进行预增强和加窗,得到第一声学特征。
可选的,在本发明第一方面的第四种实现方式中,所述将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列包括:
将所述第二声学特征输入所述第一TDNN网络进行声学信息提取,得到第二有效信息;
将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别;
将所述第二有效信息和所述口音类别输入所述门机制层进行口音信息融合,得到第二口音融合信息;
将所述第二口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第二口音调整信息;
将所述第二口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音对应的音素状态序列。
可选的,在本发明第一方面的第五种实现方式中,所述将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别包括:
将所述第二有效信息输入所述第三TDNN网络进行声学特征分割,得到第二帧级特征信息;
将所述第二帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第二平均特征信息;
将所述第二平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第二平均有效信息;
将所述第二平均有效信息输入所述Xvector模型中的Softmax层进行口音概率运算,输出所述口音语音对应的口音类别。
可选的,在本发明第一方面的第六种实现方式中,所述获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列包括:
获取多种口音语音样本,并将所述各口音语音样本转换为文本;
分别对所述各口音语音样本进行口音类别标注,得到多种口音标签,以及分别对所述文本进行正则拼音转写并标注分词信息,得到音素状态序列。
本发明第二方面提供了一种口音语音识别装置,所述口音语音识别装置包括:
样本获取模块,用于获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
特征提取模块,用于分别提取所述各口音语音样本对应的第一声学特征;
模型训练模块,用于将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;
口音语音预处理模块,用于获取待识别的口音语音,并提取所述口音语音的第二声学特征;
口音语音识别模块,用于将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。
可选的,在本发明第二方面的第一种实现方式中,所述训练模型包括:Baseline模型和Xvector模型,所述Baseline模型包括第一TDNN网络、门机制层、第二TDNN网络和Softmax层,所述模型训练模块包括:
训练提取单元,用于将所述第一声学特征输入所述第一TDNN网络进行声学信息提取,得到第一有效信息;
训练口音识别单元,用于将所述第一有效信息输入所述Xvector模型进行口音类别识别,得到所述口音语音样本对应的口音类别;
训练语音识别单元,用于将所述第一有效信息和所述第一口音类别输入所述门机制层进行口音信息融合,得到第一口音融合信息;将所述第一口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第一口音调整信息;将所述第一口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音样本对应的音素状态序列;
模型优化单元,用于根据所述口音标签和所述音素状态序列,调用预置损失函数,计算所述口音语音样本对应的口音类别和音素状态序列的误差值;根据所述误差值,对所述Baseline模型和所述Xvector模型进行参数调优,直至所述Baseline模型和所述Xvector模型收敛,得到口音语音识别模型。
可选的,在本发明第二方面的第二种实现方式中,所述Xvector模型包括第三TDNN网络、Statistics pooling层、第四TDNN网络和Softmax层,所述训练口音识别单元具体用于:
将所述第一有效信息输入所述第三TDNN网络进行声学特征分割,得到第一帧级特征信息;将所述第一帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第一平均特征信息;将所述第一平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第一平均有效信息;将所述第一平均有效信息输入所述Xvector模型中的Softmax层进行口音分类概率运算,得到所述口音语音样本对应的口音类别。
可选的,在本发明第二方面的第三种实现方式中,所述特征提取模块具体用于:
分别对所述各口音语音样本进行分帧,得到多个语音帧;
对所述各语音帧进行预增强和加窗,得到第一声学特征。
可选的,在本发明第二方面的第四种实现方式中,所述口音语音识别模块包括:
信息提取单元,用于将所述第二声学特征输入所述第一TDNN网络进行声学信息提取,得到第二有效信息;
口音识别单元,用于将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别;
语音识别单元,用于将所述第二有效信息和所述口音类别输入所述门机制层进行口音信息融合,得到第二口音融合信息;将所述第二口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第二口音调整信息;将所述第二口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音对应的音素状态序列。
可选的,在本发明第二方面的第五种实现方式中,所述口音识别单元具体用于:
将所述第二有效信息输入所述第三TDNN网络进行声学特征分割,得到第二帧级特征信息;
将所述第二帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第二平均特征信息;
将所述第二平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第二平均有效信息;
将所述第二平均有效信息输入所述Xvector模型中的Softmax层进行口音概率运算,输出所述口音语音对应的口音类别。
可选的,在本发明第二方面的第六种实现方式中,所述样本获取模块具体用于:
获取多种口音语音样本,并将所述各口音语音样本转换为文本;
分别对所述各口音语音样本进行口音类别标注,得到多种口音标签,以及分别对所述文本进行正则拼音转写并标注分词信息,得到音素状态序列。
本发明第三方面提供了一种口音语音识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述口音语音识别设备执行上述的口音语音识别方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的口音语音识别方法。
本发明提供的技术方案中,为了解决现有语音识别无法有效识别口音语音的问题,因此在原有语音识别的基础上引入了门机制和语音识别分支,具体为:首先通过获取的多种口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列,然后提取出样本口音语音的声学特征;将样本的声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型,本发明采用的训练模型在Baseline模型的基础上增加了Xvector结构网络和门机制,使模型口音学习到不同口音普通话之间得差异性,从而实现对特定口音的普通话进行有效适应性训练;最后将待识别的口音语音提取得到的声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。本发明具有对口音语音更好的适应性,大大提高了口音语音的识别率。
附图说明
图1为本发明实施例中口音语音识别方法的第一个实施例示意图;
图2为本发明实施例中口音语音识别方法的第二个实施例示意图;
图3为本发明实施例中口音语音识别方法的第三个实施例示意图;
图4为本发明实施例中口音语音识别装置的一个实施例示意图;
图5为本发明实施例中口音语音识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种口音语音识别方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中口音语音识别方法的第一个实施例包括:
101、获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
可以理解的是,本发明的执行主体可以为口音语音识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,口音语音样本采集自多个不同地域的人所说的普通话语音,例如广东、广西、江西、西安等地的普通话语音。对采集得到的语音进行信息标注,首先对口音语音的起始时间段和对应的语音文本判断声音的有效性,若有效则对有效声音进行“广东、广西、江西、西安等”多个属性信息标注,得到带有口音标签的语音。
可选的,在一实施例中,所述获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列包括:
获取多种口音语音样本,并将所述各口音语音样本转换为文本;
分别对所述各口音语音样本进行口音类别标注,得到多种口音标签,以及分别对所述文本进行正则拼音转写并标注分词信息,得到音素状态序列。
本实施例中,首先通过语音转文字工具将多种口音语音样本转换为对应的文本,再将文本转化为注音字符就是将汉字转化为拼音。
例如:“上海餐厅”得到的音素状态序列为“shanghaicanting”。其中,“上”对应的音素为“shang”,“海”对应的音素为“hai”,“餐”对应的音素为“can”,“厅”对应的音素为“ting”。
102、分别提取所述各口音语音样本对应的第一声学特征;
本实施例中,采用Kaldi工具对口音语音样本进行特征提取,Kaldi框架是专门提取语音特征的脚本,例如提取Pip pitch特征采用Klp_pitch.sho输入的是训练音频数据的wav格式的音频流,训练数据是有口音的音频数据,所述Kaldi工具通过对口音语音进行分帧,再对得到的帧级语音进行预增强和加窗就可以得到所述口音语音的声学特征。
可选的,在一实施例中,所述分别提取所述各口音语音样本对应的第一声学特征包括:
分别对所述各口音语音样本进行分帧,得到多个语音帧;
对所述各语音帧进行预增强和加窗,得到第一声学特征。
本实施例中,Kaldi工具首先计算出一个口音语音文件中语音帧的数目(通常帧长25ms帧移10ms)。对每一帧提取数据,进行预加重和去除直流偏移,还可以和加窗函数相乘,例如:如汉明窗,最后进行特征级声道长度归一化,得到口音语音样本的声学特征。
103、将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;
本实施例中,所述训练模型包括Baseline模型和Xvector模型,所述Baseline模型由4层TDNN网络、门机制层、3层TDNN网络和Softmax层构成,Xvector模型由1层TDNN网络、Statistics pooling层、2层TDNN层和Softmax层。所述第一声学特征作为训练语音特征,所述口音标签和所述音素状态序列用于判断模型训练时输出的口音类别和音素状态序列的误差率,当误差率小于预置收敛阈值时,模型训练结束。
104、获取待识别的口音语音,并提取所述口音语音的第二声学特征;
本实施例中,采用Kaldi工具对待识别的口音语音进行特征提取,Kaldi框架是专门提取语音特征的脚本,所述Kaldi工具通过对待识别的口音语音进行分帧,再对得到的帧级语音进行预增强和加窗就可以得到所述待识别口音语音的声学特征。
105、将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。
本实施例中,所述口音语音识别模型中的Xvector模型对声学特征进行口音识别,得到所述口音语音的口音类别,再将口音类别和4层TDNN网络处理过的声学特征进行门机制处理,门机制可以控制口音类别信息的流动,将门机制处理后的Baseline模型中的3层TDNN网络和Softmax运算,输出所述口音语音的音素状态序列。
本发明实施例中,为了解决现有语音识别无法有效识别口音语音的问题,因此在原有语音识别的基础上引入了门机制和语音识别分支,具体为:首先通过获取的多种口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列,然后提取出样本口音语音的声学特征;将样本的声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型,本发明采用的训练模型在Baseline模型的基础上增加了Xvector结构网络和门机制,使模型口音学习到不同口音普通话之间得差异性,从而实现对特定口音的普通话进行有效适应性训练;最后将待识别的口音语音提取得到的声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。本发明具有对口音语音更好的适应性,大大提高了口音语音的识别率。
请参阅图2,本发明实施例中口音语音识别方法的第二个实施例包括:
201、获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
202、分别提取所述各口音语音样本对应的第一声学特征;
203、将所述第一声学特征输入所述第一TDNN网络进行声学信息提取,得到第一有效信息;
本实施例中,第一TDNN网络为4层TDNN网络,TDNN网络是多层的,每层对特征有较强的抽象能力,包括输入层、隐藏层和输出层,因此TDNN网络有能力表达语音特征在时间上的关系,4层TDNN网络结构,用于提取声学特征中高水平声学信息的表达。
204、将所述第一有效信息输入所述Xvector模型进行口音类别识别,得到所述口音语音样本对应的口音类别;
可选的,在一实施例中,所述将所述第一有效信息输入所述Xvector模型进行口音类别识别,得到所述口音语音样本对应的口音类别包括:
将所述第一有效信息输入所述第三TDNN网络进行声学特征分割,得到第一帧级特征信息;
本实施例中,第三TDNN网络为1层TDNN网络,所述第三TDNN网络将经过4层TDNN网络处理后的声学特征分割为帧级别的语音特征。
将所述第一帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第一平均特征信息;
本实施例中,Statistics pooling层对帧级别的语音特征按照整道音频进行均值和方差计算,也就是对音频包括的所有帧级别的语音特征求均值,将帧级别的语音特征转变为单通道音频的平均语音特征。
将所述第一平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第一平均有效信息;
将所述第一平均有效信息输入所述Xvector模型中的Softmax层进行口音分类概率运算,得到所述口音语音样本对应的口音类别。
本实施例中,第四TDNN网络为2层TDNN网络,平均语音特征经输出层Softmax后输出口音类别信息。Softmax层可以直观分辨平均语音特征直接的关联,对平均语音特征进行映射,并对所有输入数据进行归一化。
205、将所述第一有效信息和所述第一口音类别输入所述门机制层进行口音信息融合,得到第一口音融合信息;
206、将所述第一口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第一口音调整信息;
207、将所述第一口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音样本对应的音素状态序列;
208、根据所述口音标签和所述音素状态序列,调用预置损失函数,计算所述口音语音样本对应的口音类别和音素状态序列的误差值;
本实施例中,门机制是通过控制口音分类网络输出的各口音权重,从而控制不同口音信息输入语音识别分支的,第二TDNN网络包括3层TDNN网络,总损失函数L根据不同分支的损失函数通过加权平均求解,计算公式为:
L=w1*Lpri+w2*Lsec
其中,w1:表示语音识别分支(主分支)的权重;w2表示口音分类分支(次分支);Lpri表示语音识别分支(主分支)的损失函数;Lsec表示口音分类分支(次分支)的损失函数;L表示网络的总损失函数。
209、根据所述误差值,对所述Baseline模型和所述Xvector模型进行参数调优,直至所述Baseline模型和所述Xvector模型收敛,得到口音语音识别模型;
210、获取待识别的口音语音,并提取所述口音语音的第二声学特征;
211、将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。
本发明实施例中,多口音多任务联合训练网络可以实现语音识别任务和口音分类任务的联合训练,包括语音识别分支和口音分类分支,语音识别分支以音素状态作为训练目标实现自动语音识别,口音分类分支以口音类别作为训练目标实现口音分类,并且引入了门机制,有效控制了口音类别信息的流入,使训练得到的模型更加对口音语音识别这一任务有较好的适应性。
请参阅图3,本发明实施例中口音语音识别方法的第三个实施例包括:
301、获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
302、分别提取所述各口音语音样本对应的第一声学特征;
303、将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;
304、获取待识别的口音语音,并提取所述口音语音的第二声学特征;
本实施例中,采用Kaldi工具对待识别的口音语音进行特征提取,Kaldi框架是专门提取语音特征的脚本,所述Kaldi工具通过对待识别的口音语音进行分帧,再对得到的帧级语音进行预增强和加窗就可以得到所述待识别口音语音的声学特征。
305、将所述第二声学特征输入所述第一TDNN网络进行声学信息提取,得到第二有效信息;
306、将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别;
可选的,在一实施例中,所述将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别包括:
将所述第二有效信息输入所述第三TDNN网络进行声学特征分割,得到第二帧级特征信息;
将所述第二帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第二平均特征信息;
将所述第二平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第二平均有效信息;
将所述第二平均有效信息输入所述Xvector模型中的Softmax层进行口音概率运算,输出所述口音语音对应的口音类别。
307、将所述第二有效信息和所述口音类别输入所述门机制层进行口音信息融合,得到第二口音融合信息;
本实施例中,门机制是限流的作用,控制数值大小,通过点乘操作实现。门机制层用门控制口音类别的信息流动,接入语音识别分支网络,使得语音识别网络以特定口音的方式调整内部网络的表达能力。根据口音类别标签与语音识别分支结合方式的不同,可以设置不同的门结构。此处介绍三种不同的门机制:
g(hi,va)=hi+Vva+b;
g(hi,va)=hi*Vva+b;
g(hi,va)=hi*(hi+Vva+b);
其中,g(hi,va)表示门值,需传递到第(i+1)层,V表示M*N矩阵;hi表示第i层网络输出;va表示维度为N;b为向量。
308、将所述第二口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第二口音调整信息;
309、将所述第二口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音对应的音素状态序列。
本发明实施例中,门机制的引入可以使得语音识别分支对不同口音语音数据进行针对性的学习,以使得实现多种口音语音的识别。Baseline模型输入是文本序列对应的表达特征,通过语言模型对多个序列进行重打分,选择得分最高的序列结果,输出的多个音素识别序列,再加上口音识别网络的引入,使口音语音的识别结果加准确。
上面对本发明实施例中口音语音识别方法进行了描述,下面对本发明实施例中口音语音识别装置进行描述,请参阅图4,本发明实施例中口音语音识别装置一个实施例包括:
样本获取模块401,用于获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
特征提取模块402,用于分别提取所述各口音语音样本对应的第一声学特征;
模型训练模块403,用于将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;
口音语音预处理模块404,用于获取待识别的口音语音,并提取所述口音语音的第二声学特征;
口音语音识别模块405,用于将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。
可选的,在一实施例中,所述训练模型包括:Baseline模型和Xvector模型,所述Baseline模型包括第一TDNN网络、门机制层、第二TDNN网络和Softmax层,所述模型训练模块403包括:
训练提取单元4031,用于将所述第一声学特征输入所述第一TDNN网络进行声学信息提取,得到第一有效信息;
训练口音识别单元4032,用于将所述第一有效信息输入所述Xvector模型进行口音类别识别,得到所述口音语音样本对应的口音类别;
训练语音识别单元4033,用于将所述第一有效信息和所述第一口音类别输入所述门机制层进行口音信息融合,得到第一口音融合信息;将所述第一口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第一口音调整信息;将所述第一口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音样本对应的音素状态序列;
模型优化单元4034,用于根据所述口音标签和所述音素状态序列,调用预置损失函数,计算所述口音语音样本对应的口音类别和音素状态序列的误差值;根据所述误差值,对所述Baseline模型和所述Xvector模型进行参数调优,直至所述Baseline模型和所述Xvector模型收敛,得到口音语音识别模型。
可选的,在一实施例中,所述Xvector模型包括第三TDNN网络、Statisticspooling层、第四TDNN网络和Softmax层,所述训练口音识别单元4032具体用于:
将所述第一有效信息输入所述第三TDNN网络进行声学特征分割,得到第一帧级特征信息;将所述第一帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第一平均特征信息;将所述第一平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第一平均有效信息;将所述第一平均有效信息输入所述Xvector模型中的Softmax层进行口音分类概率运算,得到所述口音语音样本对应的口音类别。
可选的,在一实施例中,所述特征提取模块402具体用于:
分别对所述各口音语音样本进行分帧,得到多个语音帧;
对所述各语音帧进行预增强和加窗,得到第一声学特征。
可选的,在一实施例中,所述口音语音识别模块405包括:
信息提取单元4051,用于将所述第二声学特征输入所述第一TDNN网络进行声学信息提取,得到第二有效信息;
口音识别单元4052,用于将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别;
语音识别单元4053,用于将所述第二有效信息和所述口音类别输入所述门机制层进行口音信息融合,得到第二口音融合信息;将所述第二口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第二口音调整信息;将所述第二口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音对应的音素状态序列。
可选的,在一实施例中,所述口音识别单元4052具体用于:
将所述第二有效信息输入所述第三TDNN网络进行声学特征分割,得到第二帧级特征信息;
将所述第二帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第二平均特征信息;
将所述第二平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第二平均有效信息;
将所述第二平均有效信息输入所述Xvector模型中的Softmax层进行口音概率运算,输出所述口音语音对应的口音类别。
可选的,在一实施例中,所述样本获取模块401具体用于:
获取多种口音语音样本,并将所述各口音语音样本转换为文本;
分别对所述各口音语音样本进行口音类别标注,得到多种口音标签,以及分别对所述文本进行正则拼音转写并标注分词信息,得到音素状态序列。
本发明实施例中,为了解决现有语音识别无法有效识别口音语音的问题,因此在原有语音识别的基础上引入了门机制和语音识别分支,具体为:首先通过获取的多种口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列,然后提取出样本口音语音的声学特征;将样本的声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型,本发明采用的训练模型在Baseline模型的基础上增加了Xvector结构网络和门机制,使模型口音学习到不同口音普通话之间得差异性,从而实现对特定口音的普通话进行有效适应性训练;最后将待识别的口音语音提取得到的声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。本发明具有对口音语音更好的适应性,大大提高了口音语音的识别率。
上面图4从模块化功能实体的角度对本发明实施例中的口音语音识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中口音语音识别设备进行详细描述。
图5是本发明实施例提供的一种口音语音识别设备的结构示意图,该口音语音识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对口音语音识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在口音语音识别设备500上执行存储介质530中的一系列指令操作。
口音语音识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的口音语音识别设备结构并不构成对口音语音识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种口音语音识别设备,所述口音语音识别设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述口音语音识别方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述口音语音识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种口音语音识别方法,其特征在于,所述口音语音识别方法包括:
获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
分别提取所述各口音语音样本对应的第一声学特征;
将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;
获取待识别的口音语音,并提取所述口音语音的第二声学特征;
将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。
2.根据权利要求1所述的口音语音识别方法,其特征在于,所述训练模型包括:Baseline模型和Xvector模型,所述Baseline模型包括第一TDNN网络、门机制层、第二TDNN网络和Softmax层,所述将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型包括:
将所述第一声学特征输入所述第一TDNN网络进行声学信息提取,得到第一有效信息;
将所述第一有效信息输入所述Xvector模型进行口音类别识别,得到所述口音语音样本对应的口音类别;
将所述第一有效信息和所述第一口音类别输入所述门机制层进行口音信息融合,得到第一口音融合信息;
将所述第一口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第一口音调整信息;
将所述第一口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音样本对应的音素状态序列;
根据所述口音标签和所述音素状态序列,调用预置损失函数,计算所述口音语音样本对应的口音类别和音素状态序列的误差值;
根据所述误差值,对所述Baseline模型和所述Xvector模型进行参数调优,直至所述Baseline模型和所述Xvector模型收敛,得到口音语音识别模型。
3.根据权利要求2所述的口音语音识别方法,其特征在于,所述Xvector模型包括第三TDNN网络、Statistics pooling层、第四TDNN网络和Softmax层,所述将所述第一有效信息输入所述Xvector模型进行类别识别,得到所述口音语音样本对应的口音类别包括:
将所述第一有效信息输入所述第三TDNN网络进行声学特征分割,得到第一帧级特征信息;
将所述第一帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第一平均特征信息;
将所述第一平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第一平均有效信息;
将所述第一平均有效信息输入所述Xvector模型中的Softmax层进行口音分类概率运算,得到所述口音语音样本对应的口音类别。
4.根据权利要求1所述的口音语音识别方法,其特征在于,所述分别提取所述各口音语音样本对应的第一声学特征包括:
分别对所述各口音语音样本进行分帧,得到多个语音帧;
对所述各语音帧进行预增强和加窗,得到第一声学特征。
5.根据权利要求3所述的口音语音识别方法,其特征在于,所述将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列包括:
将所述第二声学特征输入所述第一TDNN网络进行声学信息提取,得到第二有效信息;
将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别;
将所述第二有效信息和所述口音类别输入所述门机制层进行口音信息融合,得到第二口音融合信息;
将所述第二口音融合信息输入所述第二TDNN网络进行口音信息调整,得到第二口音调整信息;
将所述第二口音调整信息输入所述Baseline模型中的Softmax层进行特征运算,输出所述口音语音对应的音素状态序列。
6.根据权利要求5所述的口音语音识别方法,其特征在于,所述将所述第二有效信息输入所述Xvector模型进行类别识别,输出所述口音语音对应的口音类别包括:
将所述第二有效信息输入所述第三TDNN网络进行声学特征分割,得到第二帧级特征信息;
将所述第二帧级特征信息输入所述Statistics pooling层进行均值方差计算,得到第二平均特征信息;
将所述第二平均特征信息输入所述第四TDNN网络进行声学特征信息提取,得到第二平均有效信息;
将所述第二平均有效信息输入所述Xvector模型中的Softmax层进行口音概率运算,输出所述口音语音对应的口音类别。
7.根据权利要求1-6中任一项所述的口音语音识别方法,其特征在于,所述获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列包括:
获取多种口音语音样本,并将所述各口音语音样本转换为文本;
分别对所述各口音语音样本进行口音类别标注,得到多种口音标签,以及分别对所述文本进行正则拼音转写并标注分词信息,得到音素状态序列。
8.一种口音语音识别装置,其特征在于,所述口音语音识别装置包括:
样本获取模块,用于获取多种口音语音样本,并分别对所述各口音语音样本进行口音标注和音素标注,对应得到多种口音标签和音素状态序列;
特征提取模块,用于分别提取所述各口音语音样本对应的第一声学特征;
模型训练模块,用于将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练,得到口音语音识别模型;
口音语音预处理模块,用于获取待识别的口音语音,并提取所述口音语音的第二声学特征;
口音语音识别模块,用于将所述第二声学特征输入所述口音语音识别模型进行识别,输出所述口音语音对应的口音类别和音素状态序列。
9.一种口音语音识别设备,其特征在于,所述口音语音识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述口音语音识别设备执行如权利要求1-7中任一项所述的口音语音识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的口音语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635764.XA CN112863485A (zh) | 2020-12-31 | 2020-12-31 | 口音语音识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635764.XA CN112863485A (zh) | 2020-12-31 | 2020-12-31 | 口音语音识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112863485A true CN112863485A (zh) | 2021-05-28 |
Family
ID=76000206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011635764.XA Pending CN112863485A (zh) | 2020-12-31 | 2020-12-31 | 口音语音识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863485A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360510A (zh) * | 2022-01-14 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种语音识别方法和相关装置 |
WO2023197977A1 (zh) * | 2022-04-13 | 2023-10-19 | 阿里巴巴(中国)有限公司 | 语音识别方法以及装置 |
-
2020
- 2020-12-31 CN CN202011635764.XA patent/CN112863485A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360510A (zh) * | 2022-01-14 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种语音识别方法和相关装置 |
WO2023197977A1 (zh) * | 2022-04-13 | 2023-10-19 | 阿里巴巴(中国)有限公司 | 语音识别方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN112331183B (zh) | 基于自回归网络的非平行语料语音转换方法及系统 | |
EP1906386B1 (en) | Using child directed speech to bootstrap a model based speech segmentation and recognition system | |
CN103810994B (zh) | 基于情感上下文的语音情感推理方法及系统 | |
CN107103903A (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
KR102221513B1 (ko) | 음성 감정 인식 방법 및 시스템 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
CN111968645B (zh) | 一种个性化的语音控制系统 | |
CN112863485A (zh) | 口音语音识别方法、装置、设备及存储介质 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
WO2023197977A1 (zh) | 语音识别方法以及装置 | |
CN111221961A (zh) | 一种基于s-lstm模型与槽值门的说话人意图识别系统及方法 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN115910066A (zh) | 用于区域配电网的智能调度指挥与运营系统 | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
CN110782916B (zh) | 一种多模态的投诉识别方法、装置和系统 | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
WO2020073839A1 (zh) | 语音唤醒方法、装置、系统及电子设备 | |
Chatziagapi et al. | Audio and ASR-based filled pause detection | |
CN107123420A (zh) | 一种语音识别系统及其交互方法 | |
CN116088788A (zh) | 人机交互方法、装置及系统 | |
CN113611285B (zh) | 基于层叠双向时序池化的语种识别方法 | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |