CN107452379B - 一种方言语言的识别方法及虚拟现实教学方法和系统 - Google Patents
一种方言语言的识别方法及虚拟现实教学方法和系统 Download PDFInfo
- Publication number
- CN107452379B CN107452379B CN201710708102.2A CN201710708102A CN107452379B CN 107452379 B CN107452379 B CN 107452379B CN 201710708102 A CN201710708102 A CN 201710708102A CN 107452379 B CN107452379 B CN 107452379B
- Authority
- CN
- China
- Prior art keywords
- accent
- voice
- data
- features
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 54
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000005457 optimization Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000000203 mixture Substances 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013077 scoring method Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 3
- 239000011521 glass Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012958 reprocessing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种方言语言的识别方法及虚拟现实教学方法和系统,方言语言的识别方法包括以下处理步骤:通过口音特征提取模块对口音特征进行实时提取;口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;口音识别模块根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话;本发明还提供了一种虚拟现实教学方法和虚拟现实教学系统。在解决方言问题的同时提高识别精度、识别系统响应速度。
Description
技术领域
本发明涉及语言识别领域,尤其涉及一种方言语言的识别方法,还涉及一种虚拟现实教学方法和一种虚拟现实教学系统。
背景技术
目前,虚拟现实技术在教育领域的应用已经引起了众多的关注。语音驱动课程已经开始成为虚拟现实教育技术的发展重点。按照控制方式进行划分有两种方式,分别是根据屏幕预留选项进行控制和输入语音来进行控制。根据屏幕预留选项进行控制的形式通过操纵杆等设备在用户眼前呈现的场景中进行选择,系统根据选择对象再映射成为课程关键词信息,从而进入预设的课程内容。但是该类方法存在着操作复杂并且所涉及的课程数量较少、不够智能化等问题。
输入语音来进行控制课程的形式主要是基于用户语音内容,然后通过提取语音中的关键词,并根据后台预设的关键词与课程进行关联关系,实现课程的展示。相对于前面的根据屏幕预留选项进行控制的方式而言,基于输入语音来进行控制的方式比较方便灵活,用户更加易于接受。但是该类方法同样存在识别精度不高、识别系统响应慢并且不能够识别带有方言口音的普通话等问题。
发明内容
本发明的目的一是,提供一种方言语言的识别方法,可以有效识别带有方言口音的普通话,帮助学生更好的学习、增加学习兴趣。
本发明的目的二是,提供一种虚拟现实教学方法。
本发明的目的三是,提供一种实现目的二方法的系统。
为实现该目的一,提供了一种方言语言的识别方法,该方法涉及到处理装置,该方法包括以下处理步骤:
步骤1:将实时采集的语音数据传递至口音特征提取模块,并且通过口音特征提取模块对口音特征进行实时提取;
步骤2:口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;
步骤3:口音识别模块根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话。
优选地,在步骤1中,口音特征提取模块对口音特征进行实时提取包括以下处理步骤:
步骤201:对语音声调特征的提取,
首先提高采集的语音数据的平滑度,其中提高语音平滑度的加重函数为:
H(z)=1-az-1
其中,H(z)表示加重函数,为预处理后输出的数据值;z表示采集的语音数据,a为平滑系数,a的范围是[0.91];
然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理,该分帧的函数为:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的语音数据,s-1(n)表示分帧后的语音数据,w(n)表示分帧函数,w(n)的定义如下:
其中,n表示对应语音帧的长度,N表示语音帧的总帧数;
步骤202:对语音能量值的提取,
将对分帧处理后的每帧数据的能量值进行提取,该提取函数为:
步骤203:对语音基频的提取,
进行每一帧的能量值提取后,将每一帧数据的频率映射到基频上,该提取方法为:
F=2595lg(1+f/700)
其中,f表示语音的每一帧的频率,F表示提取的基频;
步骤204:对语音声调特征、语音能量值、语音基频的提取后,进行动静结合的混合特征音素提取,该提取方法为:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示对应语音帧的长度。
优选地,在步骤2中,性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别,其过程为,首先对采集的语音数据进行基频提取,再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm,Sw),最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小,若结果大于0则为男,反之则为女。
优选地,在步骤2中,地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别,其过程为,首先对采集的语音数据进行混合特征的音素进行提取,并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S1,S2,S3,…Sn),然后分别计算|S1-S2|、|S2-S3|、|S3-S4|、…、|Sn-1-Sn|,并选出绝对值最大的|Sn-1-Sn|,则该|Sn-1-Sn|中的Sn-1则对应采集的语音数据所对应的归属地域。
优选地,所述口音模型库中选择的模型进行口音识别,将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤,
步骤601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
其中,ωi为口音特征的权、阈值,N表示语音帧的总帧数;
步骤604:根据第t个语音段的权重值β(t)调整ωi;
即ωi+1=ωi(1-l)β(t),其中,l为设定的值;
输出标准普通话。
优选地,在本方法中还进行口音模型库优化,即将步骤1中提取的口音特征和编著的普通话口音特征进行对比,提取出该口音特征的差异数据,对差异数据进行数据规范化,并且对规范化后的差异数据进行模糊性判断,找出该差异数据与标准普通话的差异性,并且将差异性融合入口音模型库对应的模型。
优选地,所述规范化的方法为:通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差,然后除以平均的语音时长,再乘以100;
所述模糊性判断的方法为:首先构造判断矩阵;然后判断该矩阵是互补型还是互反型,若是互补型,则计算其排序向量,该向量即为差异向量,若是互反型,则不存在差异向量;
所述融合的方法为:首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量;然后对这些概率矢量数据进行归一化处理,进行迭代训练至收敛,迭代完毕后,进入更新阶段;在更新阶段先对各个概率矢量进行评分,再根据评分结果进行非线性映射得出口音的地域分类结果,然后将评分数据与相应的地域方言模型进行集成,其中,评分方法采用余弦相似度计算方法,余弦值越接近1,则越接近对应地域口音,反之越接近0,则表示不相近。
为实现目的二,提供了一种虚拟现实教学方法,包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤,所述的语音采集步骤是对目标人物进行语音数据的实时采集,然后将实时采集的语音数据利用本发明的一种方言语音的识别方法进行处理并输出标准普通话的步骤。
为实现目的三,提供了一种虚拟显示教学系统,包括用于对目标人物进行语音数据实时采集的语音采集装置、用于对输出标准普通话信息进行识别显示的虚拟显示装置,其特征在于,还包括用于实现本发明的一种方言的语音识别方法的处理装置和用于给语音采集装置、虚拟显示装置和处理装置分别提供稳定电能的电源装置,所述语音采集装置与处理装置信号连接,所述处理装置与虚拟显示装置信号连接,所述处理装置包括依次信号连接的口音特征提取模块、口音特征分类模块和口音识别模块,从而形成方言的语音识别系统。
优选地,所述处理装置还包括用于将提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块、对差异数据进行数据规范化处理的第二级优化模块、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块和将差异性融合入口音模型库对应的模型的融合模块,所述口音特征提取模块还依次通过第一级优化模块、第二级优化模块、第三级优化模块和融合模块与口音识别模块信号连接。
本发明与现有技术相比,其有益效果在于:
本发明中通过对采集的语音数据处理转化成标准普通话进行输出,可以有效识别带有方言口音的普通话,帮助学生更好的学习、增加学习兴趣。在本发明中,本发明在口音识别过程中通过对性别的判断,能够性别对口音的影响,从而有效的提高口音识别的准确性,同时对被采集者的口音进行分类标注能够有效提高再次处理时的速度,从而提高效率。本发明在虚拟显示教学中运用方言的语音识别方法能够有效的提高输入语音来进行控制课程的准确性,在解决方言问题的同时提高识别精度、识别系统响应速度,从而能够有效提高实用性使得教学质量提高,帮助学生更好的学习、增加学习兴趣。在本发明中通过进行口音模型库优化能够有效度对口音模型库进行优化,提高识别效率。
附图说明
图1为本发明目的一的流程框图;
图2为本发明虚拟现实教学系统框图;
图3为本发明虚拟现实教学系统中处理装置控制框图;
图4为本发明虚拟现实教学系统中处理装置进一步深化控制框图。
具体实施方式
下面结合实施例,对本发明作进一步的描述,但不构成对本发明的任何限制,任何在本发明权利要求范围所做的有限次的修改,仍在本发明的权利要求范围内。
如图1-图4所示,本发明提供了一种方言语言的识别方法,该方法包括以下处理步骤:
步骤1:将实时采集的语音数据传递至口音特征提取模块21,并且通过口音特征提取模块21对口音特征进行实时提取;
步骤2:口音特征分类模块22根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;
步骤3:口音识别模块23根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话。
在本实施例中,通过麦克风进行实时的语音数据采集。对被采集者的口音进行分类标注即对被采集者的所在地域和性别进行标注,用于下次使用时调用,能够有效提高再处理时的速度,从而提高效率。
在步骤1中,口音特征提取模块对口音特征进行实时提取包括以下处理步骤:
步骤201:对语音声调特征的提取,
首先提高采集的语音数据的平滑度,其中提高语音平滑度的加重函数为:
H(z)=1-az-1
其中,H(z)表示加重函数,为预处理后输出的数据值;z表示采集的语音数据,a为平滑系数,a的范围是[0.91],可以取0.9或0.92或0.95或0.97或1;
然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理,该分帧的函数为:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的语音数据,s-1(n)表示分帧后的语音数据,w(n)表示分帧函数,w(n)的定义如下:
其中,n表示对应语音帧的长度,N表示语音帧的总帧数;
步骤202:对语音能量值的提取,
将对分帧处理后的每帧数据的能量值进行提取,该提取函数为:
步骤203:对语音基频的提取,
进行每一帧的能量值提取后,将每一帧数据的频率映射到基频上,该提取方法为:
F=2595lg(1+f/700)
其中,f表示语音的每一帧的频率,F表示提取的基频;
步骤204:对语音声调特征、语音能量值、语音基频的提取后,进行动静结合的混合特征音素提取,该提取方法为:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示对应语音帧的长度。
在本实施例中,由于通过麦克风采集用户的语音信号后,因为一般的方言在表达发音时,容易产生口腔和声带的共鸣震动。这样会导致高低频率的动态表现不一致,对特征提取产生困难。从而需要进行提高平滑度的处理。
一般在方言发声阶段,语音的变化与声带振动之间存在时间差,这样会产生一些随机信号,导致信号的不稳定。为了避免这个情况,需要对信号进行分帧处理。通过分帧处理能够确保在短时间帧内的信号变化较小。
通常语音信号分为清音和浊音,而清音的能量要小于浊音。是因为在进行声带发声时,浊音的波形变化幅度明显,而轻音较小。因此,需要对分帧后的每帧信号的能量值提取。
在步骤2中,性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别,其过程为,首先对采集的语音数据进行基频提取,再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm,Sw),最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小,若结果大于0则为男,反之则为女。
在步骤2中,地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别,其过程为,首先对采集的语音数据进行混合特征的音素进行提取,并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S1,S2,S3,…Sn),然后分别计算|S1-S2|、|S2-S3|、|S3-S4|、…、|Sn-1-Sn|,并选出绝对值最大的|Sn-1-Sn|,则该|Sn-1-Sn|中的Sn-1则对应采集的语音数据所对应的归属地域。
高斯混合模型为多维的概率密度函数,其定义为:
其中,λ为函数参数,xi表示上述提取的语音声调特征、语音能量值、语音音素和语音基频的特征,Ci表示混合权值,M表示xi的总数,EM参数估计法为通过EM方法估计λ的值。
在本实施例中,EM方法为,首先利用概率模型参数的现有估计值,计算隐藏变量的期望;再通过获得的隐藏变量的期望,对参数模型进行最大似然估计,找到参数估计值并将该值用于下一步期望的计算,然后不断交替的进行。
口音模型库中选择的模型进行口音识别,将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤,
步骤601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
其中,ωi为口音特征的权、阈值,N表示语音帧的总帧数;
步骤604:根据第t个语音段的权重值β(t)调整ωi;
即ωi+1=ωi(1-l)β(t),其中,l为设定的值;
输出标准普通话。
在本方法中还进行口音模型库优化,即将步骤1中提取的口音特征和编著的普通话口音特征通过第一级优化模块24进行对比,提取出该口音特征的差异数据,再通过第二级优化模块25对差异数据进行数据规范化,并且对规范化后的差异数据通过第三级优化模块26进行模糊性判断,找出该差异数据与标准普通话在语音声调、语音音律、语音基频、语音能量、音素上的差异性,最后通过融合模块27将差异性融合入口音模型库对应的模型。
规范化的方法为:通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差,然后除以平均的语音时长,再乘以100;计算公式如下:
其中,Δs表示语音声调特征的标准偏差,ΔE表示语音能量值的标准偏差,ΔF表示语音基频的标准偏差,ΔM表示音素的标准偏差,t表示平均的语音时长,s1表示提取的口音特征的语音声调特征,sm表示标准普通话语的音声调特征,E1表示提取的口音特征的语音能量值,Em表示标准普通话语的语音能量值,F1表示提取的口音特征的语音基频,Fm表示标准普通话语的语音基频,M1表示提取的口音特征的音素,Mm表示标准普通话语的音素。
所述模糊性判断的方法为:首先构造判断矩阵P;然后判断该矩阵是互补型还是互反型,若是互补型,则计算其排序向量,该向量即为差异向量,若是互反型,则不存在差异向量;若矩阵P所有非残缺元素,可用满足如下性质的转换函数
f(aij)+f(aji)=1
那么为互补性矩阵。否则为互反性矩阵。
差异向量计算方法如下:
所述融合的方法为:首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量;然后对这些概率矢量数据进行归一化处理,进行迭代训练至收敛,迭代完毕后,进入更新阶段;在更新阶段先对各个概率矢量进行评分,再根据评分结果进行非线性映射得出口音的地域分类结果,然后将评分数据与相应的地域方言模型进行集成,其中,评分方法采用余弦相似度计算方法,余弦值越接近1,说明越接近某地域口音,反之越接近0,则表示不相近。余弦值最大的则为对应的地域口音。
条件概率是指一个事件A在另外一个事件B已经发生条件下的发生概率。迭代训练、非线性映射属于数学计算中常规的手段。
如图1-图3所示,本发明还提供了一种虚拟现实教学方法,包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤,语音采集步骤是对目标人物进行语音数据的实时采集,然后将实时采集的语音数据利用本发明的一种方言语音的识别方法进行处理并输出标准普通话的步骤。
在本方法中还能够通过设置扬声装置4对利用本发明的一种方言的语音识别方法进行处理的数据以语音的形式进行输出。
在本实施例中,语音采集装置1为麦克风,虚拟显示装置3为VR眼镜或3D显示器,扬声装置4为音响或耳机。
如图2-图4所示,本发明还提供了一种虚拟现实教学系统,包括用于对目标人物进行语音数据实时采集的语音采集装置1、用于对输出标准普通话信息进行识别将对应的教学内容进行显示的虚拟显示装置3,还包括用于实现本发明的一种方言的语音识别方法的处理装置2和用于给语音采集装置1、虚拟显示装置3和处理装置2分别提供稳定电能的电源装置5,语音采集装置1与处理装置信号2连接,处理装置2与虚拟显示装置3信号连接,处理装置2包括依次信号连接的口音特征提取模块21、口音特征分类模块22和口音识别模块23,从而形成方言的语音识别系统。
处理装置2还包括用于提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块24、对差异数据进行数据规范化处理的第二级优化模块25、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块26和将差异性融合入口音模型库对应的模型的融合模块26,口音特征提取模块21还依次通过第一级优化模块24、第二级优化模块25、第三级优化模块26和融合模块27与口音识别模块23信号连接。
本系统还设置有用于对教学内容中语音进行输出的扬声装置4,扬声装置4分别与虚拟显示装置3信号连接。
在实施例中,第一级优化模块24包含编著的普通话口音特征,也可以将编著的普通话口音特征存于外部,在工作时进行调用。口音识别模块23包含口音模型库,或将口音模型库存于外部,在工作时进行调用。
在本实施例中,口音特征提取模块21与语音采集装置1信号连接,从而对目标人物进行实时采集的语音数据进行处理,口音识别模块23与虚拟显示装置3信号连接,将识别转化为标准普通话的数据发送给虚拟显示装置3进行处理,
在本实施例中,语音采集装置1为麦克风,虚拟显示装置3为VR眼镜或3D显示器,处理装置2为电脑或计算机设备,扬声装置4为音响或耳机。
在本实施例中,扬声装置4能够与处理装置2和虚拟显示装置3进行连接,其具体连接根据使用的显示处理的方式进行选择连接。
本发明的工作过程:语音采集装置1对目标人物进行语音数据实时采集并将语音数据发送给处理装置2,口音特征提取模块21对口音特征进行实时提取;然后口音特征分类模块22根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;最后口音识别模块23根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话发送虚拟显示装置3,虚拟显示装置3对输出标准普通话信息进行识别将对应的教学内容进行显示同时将相关语音通过扬声装置4进行输出,同时处理装置2还依次通过第一级优化模块24、第二级优化模块25、第三级优化模块26和融合模块27对口音模型库进行优化补充,使得口音识别模块23的识别效率提高。
通过本发明能够有效的提高输入语音来进行控制课程的准确性,在解决方言问题的同时提高识别精度、识别系统响应速度,从而能够有效提高实用性使得教学质量提高,帮助学生更好的学习、增加学习兴趣。
以上仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。
Claims (8)
1.一种方言语言的识别方法,其特征在于:包括以下处理步骤:
步骤1:将实时采集的语音数据传递至口音特征提取模块,并且通过口音特征提取模块对口音特征进行实时提取;
步骤2:口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;
步骤3:口音识别模块根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话;
在步骤1中,口音特征提取模块对口音特征进行实时提取包括以下处理步骤:
步骤201:对语音声调特征的提取,
首先提高采集的语音数据的平滑度,其中提高语音平滑度的加重函数为:
H(z)=1-az-1
其中,H(z)表示加重函数,为预处理后输出的数据值;z表示采集的语音数据,a为平滑系数,a的范围是[0.91];
然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理,该分帧的函数为:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的语音数据,s-1(n)表示分帧后的语音数据,w(n)表示分帧函数,w(n)的定义如下:
其中,n表示对应语音帧的长度,N表示语音帧的总帧数;
步骤202:对语音能量值的提取,
将对分帧处理后的每帧数据的能量值进行提取,该提取函数为:
步骤203:对语音基频的提取,
进行每一帧的能量值提取后,将每一帧数据的频率映射到基频上,该提取方法为:
F=2595lg(1+f/700)
其中,f表示语音的每一帧的频率,F表示提取的基频;
步骤204:对语音声调特征、语音能量值、语音基频的提取后,进行动静结合的混合特征音素提取,该提取方法为:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示对应语音帧的长度;
所述口音模型库中选择的模型进行口音识别,将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤,
步骤601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
其中,ωi为口音特征的权、阈值,N表示语音帧的总帧数;
步骤604:根据第t个语音段的权重值β(t)调整ωi;
即ωi+1=ωi(1-l)β(t),其中,l为设定的值;
2.根据权利要求1所述的一种方言语言的识别方法,其特征在于:在步骤2中,性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别,其过程为,首先对采集的语音数据进行基频提取,再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm,Sw),最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小,若结果大于0则为男,反之则为女。
3.根据权利要求1所述的一种方言语言的识别方法,其特征在于:在步骤2中,地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别,其过程为,首先对采集的语音数据进行混合特征的音素进行提取,并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S1,S2,S3,…Sn),然后分别计算|S1-S2|、|S2-S3|、|S3-S4|、…、|Sn-1-Sn|,并选出绝对值最大的|Sn-1-Sn|,则该|Sn-1-Sn|中的Sn-1则对应采集的语音数据所对应的归属地域。
4.根据权利要求1所述的一种方言语言的识别方法,其特征在于:在本方法中还进行口音模型库优化,即将步骤1中提取的口音特征和编著的普通话口音特征进行对比,提取出该口音特征的差异数据,对差异数据进行数据规范化,并且对规范化后的差异数据进行模糊性判断,找出该差异数据与标准普通话的差异性,并且将差异性融合入口音模型库对应的模型。
5.根据权利要求4所述的一种方言语言的识别方法,其特征在于:所述规范化的方法为:通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差,然后除以平均的语音时长,再乘以100;
所述模糊性判断的方法为:首先构造判断矩阵;然后判断该矩阵是互补型还是互反型,若是互补型,则计算其排序向量,该向量即为差异向量,若是互反型,则不存在差异向量;
所述融合的方法为:首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量;然后对这些概率矢量数据进行归一化处理,进行迭代训练至收敛,迭代完毕后,进入更新阶段;在更新阶段先对各个概率矢量进行评分,再根据评分结果进行非线性映射得出口音的地域分类结果,然后将评分数据与相应的地域方言模型进行集成,其中,评分方法采用余弦相似度计算方法,余弦值越接近1,则越接近对应地域口音,反之越接近0,则表示不相近。
6.一种虚拟现实教学方法,包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤,其特征在于,所述的语音采集步骤是对目标人物进行语音数据的实时采集,然后将实时采集的语音数据利用权利要求1-权利要求5任一的一种方言语音的识别方法进行处理并输出标准普通话的步骤。
7.一种虚拟现实教学系统,包括用于对目标人物进行语音数据实时采集的语音采集装置、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示装置,其特征在于,还包括用于实现权利要求1-权利要求5任一的一种方言语音的识别方法的处理装置和用于给语音采集装置、虚拟显示装置和处理装置分别提供稳定电能的电源装置,所述语音采集装置与处理装置信号连接,所述处理装置与虚拟显示装置信号连接,所述处理装置包括依次信号连接的口音特征提取模块、口音特征分类模块和口音识别模块,从而形成方言的语音识别系统。
8.根据权利要求7所述的一种虚拟现实教学系统,其特征在于,所述处理装置还包括用于将提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块、对差异数据进行数据规范化处理的第二级优化模块、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块和将差异性融合入口音模型库对应的模型的融合模块,所述口音特征提取模块还依次通过第一级优化模块、第二级优化模块、第三级优化模块和融合模块与口音识别模块信号连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710708102.2A CN107452379B (zh) | 2017-08-17 | 2017-08-17 | 一种方言语言的识别方法及虚拟现实教学方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710708102.2A CN107452379B (zh) | 2017-08-17 | 2017-08-17 | 一种方言语言的识别方法及虚拟现实教学方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107452379A CN107452379A (zh) | 2017-12-08 |
CN107452379B true CN107452379B (zh) | 2021-01-05 |
Family
ID=60492352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710708102.2A Active CN107452379B (zh) | 2017-08-17 | 2017-08-17 | 一种方言语言的识别方法及虚拟现实教学方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107452379B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417203A (zh) * | 2018-01-31 | 2018-08-17 | 广东聚晨知识产权代理有限公司 | 一种人体语音识别传输方法及系统 |
CN108965618A (zh) * | 2018-05-22 | 2018-12-07 | 国家电网公司客户服务中心南方分中心 | 一种智能语音系统 |
CN108877769B (zh) * | 2018-06-25 | 2020-12-01 | 北京语言大学 | 识别方言种类的方法和装置 |
CN109065020B (zh) * | 2018-07-28 | 2020-11-20 | 重庆柚瓣家科技有限公司 | 多语言类别的识别库匹配方法及系统 |
CN109147762A (zh) * | 2018-10-19 | 2019-01-04 | 广东小天才科技有限公司 | 一种语音识别方法及系统 |
CN109714608B (zh) * | 2018-12-18 | 2023-03-10 | 深圳壹账通智能科技有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN109887497B (zh) * | 2019-04-12 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
CN110033760B (zh) * | 2019-04-15 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
WO2021000068A1 (zh) * | 2019-06-29 | 2021-01-07 | 播闪机械人有限公司 | 一种非母语人士使用的语音识别方法及装置 |
CN110491368B (zh) * | 2019-07-23 | 2023-06-16 | 平安科技(深圳)有限公司 | 基于方言背景的语音识别方法、装置、计算机设备和存储介质 |
CN113781999B (zh) * | 2021-09-13 | 2024-02-20 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1412741A (zh) * | 2002-12-13 | 2003-04-23 | 郑方 | 带方言背景的汉语语音识别方法 |
US20060136207A1 (en) * | 2004-12-21 | 2006-06-22 | Electronics And Telecommunications Research Institute | Two stage utterance verification device and method thereof in speech recognition system |
US20070055523A1 (en) * | 2005-08-25 | 2007-03-08 | Yang George L | Pronunciation training system |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
CN103474061A (zh) * | 2013-09-12 | 2013-12-25 | 河海大学 | 基于分类器融合的汉语方言自动辨识方法 |
CN105408952A (zh) * | 2013-02-21 | 2016-03-16 | 谷歌技术控股有限责任公司 | 识别带口音的语音 |
CN106023693A (zh) * | 2016-05-25 | 2016-10-12 | 北京九天翱翔科技有限公司 | 一种基于虚拟现实技术和模式识别技术的教育系统及方法 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN106951417A (zh) * | 2017-05-05 | 2017-07-14 | 李宗展 | 识别汉语方言的多语互译方法及便携机 |
-
2017
- 2017-08-17 CN CN201710708102.2A patent/CN107452379B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
CN1412741A (zh) * | 2002-12-13 | 2003-04-23 | 郑方 | 带方言背景的汉语语音识别方法 |
US20060136207A1 (en) * | 2004-12-21 | 2006-06-22 | Electronics And Telecommunications Research Institute | Two stage utterance verification device and method thereof in speech recognition system |
US20070055523A1 (en) * | 2005-08-25 | 2007-03-08 | Yang George L | Pronunciation training system |
CN105408952A (zh) * | 2013-02-21 | 2016-03-16 | 谷歌技术控股有限责任公司 | 识别带口音的语音 |
US20170193990A1 (en) * | 2013-02-21 | 2017-07-06 | Google Technology Holdings LLC | Recognizing Accented Speech |
CN103474061A (zh) * | 2013-09-12 | 2013-12-25 | 河海大学 | 基于分类器融合的汉语方言自动辨识方法 |
CN106023693A (zh) * | 2016-05-25 | 2016-10-12 | 北京九天翱翔科技有限公司 | 一种基于虚拟现实技术和模式识别技术的教育系统及方法 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN106951417A (zh) * | 2017-05-05 | 2017-07-14 | 李宗展 | 识别汉语方言的多语互译方法及便携机 |
Non-Patent Citations (8)
Title |
---|
"3种基于互反判断矩阵的互补判断矩阵排序法";徐泽水 等;《东南大学学报》;20010930;第31卷(第5期);第105-109页 * |
"Automatic Accent Identification Using Gaussian Mixture Models";Tao Chen 等;《IEEE Workshop on Automatic Speech Recognition and Understanding》;IEEE;20021102;第343-346页 * |
"Automatic Identification of Gender & Accent in Spoken Hindi Utterances with Regional Indian Accents";Kamini Malhotr 等;《2008 IEEE Spoken Language Technology Workshop》;IEEE;20090206;第309-312页 * |
"基于GMM区分性别的汉语方言识别系统";王侠 等;《电声技术》;20111217;第35卷(第12期);第39-41页 * |
"基于MFCC特征和GMM模型的说话人识别系统研究";周春晖;《中国优秀硕士学位论文全文数据库信息科技辑》;20131215;I138-678 * |
"基于高斯混合模型的语音性别识别";张超琼 等;《计算机应用》;20081215;第28卷(第12期);第360-365页 * |
"模糊判断矩阵排序方法研究的综述";樊治平 等;《系统工程》;20010930;第19卷(第5期);第12-18页 * |
王侠 等."基于GMM区分性别的汉语方言识别系统".《电声技术》.2011,第35卷(第12期),第39-41页. * |
Also Published As
Publication number | Publication date |
---|---|
CN107452379A (zh) | 2017-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107452379B (zh) | 一种方言语言的识别方法及虚拟现实教学方法和系统 | |
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN105161092B (zh) | 一种语音识别方法和装置 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN111402928B (zh) | 基于注意力的语音情绪状态评估方法、装置、介质及设备 | |
CN108231062A (zh) | 一种语音翻译方法及装置 | |
JP2018147073A (ja) | 出力文生成装置、出力文生成方法および出力文生成プログラム | |
Noroozi et al. | Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost | |
Goto et al. | Face2Speech: Towards Multi-Speaker Text-to-Speech Synthesis Using an Embedding Vector Predicted from a Face Image. | |
Wu et al. | Speech emotion recognition using sequential capsule networks | |
CN113539240A (zh) | 动画生成方法、装置、电子设备和存储介质 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Ananthi et al. | Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired | |
CN114254096A (zh) | 一种基于交互机器人对话的多模态情感预测方法及系统 | |
CN112017690B (zh) | 一种音频处理方法、装置、设备和介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |