CN107452379A - 一种方言语言的识别技术及虚拟现实教学方法和系统 - Google Patents

一种方言语言的识别技术及虚拟现实教学方法和系统 Download PDF

Info

Publication number
CN107452379A
CN107452379A CN201710708102.2A CN201710708102A CN107452379A CN 107452379 A CN107452379 A CN 107452379A CN 201710708102 A CN201710708102 A CN 201710708102A CN 107452379 A CN107452379 A CN 107452379A
Authority
CN
China
Prior art keywords
accent
data
speech
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710708102.2A
Other languages
English (en)
Other versions
CN107452379B (zh
Inventor
刘志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Teng Monkey Technology Co Ltd
Original Assignee
Guangzhou Teng Monkey Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Teng Monkey Technology Co Ltd filed Critical Guangzhou Teng Monkey Technology Co Ltd
Priority to CN201710708102.2A priority Critical patent/CN107452379B/zh
Publication of CN107452379A publication Critical patent/CN107452379A/zh
Application granted granted Critical
Publication of CN107452379B publication Critical patent/CN107452379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了一种方言语言的识别技术及虚拟现实教学方法和系统,方言语言的识别技术包括以下处理步骤:通过口音特征提取模块对口音特征进行实时提取;口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;口音识别模块根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话;本发明还提供了一种虚拟显示教学方法和虚拟显示教学系统。在解决方言问题的同时提高识别精度、识别系统响应速度。

Description

一种方言语言的识别技术及虚拟现实教学方法和系统
技术领域
本发明涉及语言识别领域,尤其涉及一种方言语言的识别技术,还涉及一种虚拟显示教学方法和一种虚拟显示教学系统。
背景技术
目前,虚拟现实技术在教育领域的应用已经引起了众多的关注。语音驱动课程已经开始成为虚拟现实教育技术的发展重点。按照控制方式进行划分有两种方式,分别是根据屏幕预留选项进行控制和输入语音来进行控制。根据屏幕预留选项进行控制的形式通过操纵杆等设备在用户眼前呈现的场景中进行选择,系统根据选择对象再映射成为课程关键词信息,从而进入预设的课程内容。但是该类方法存在着操作复杂并且所涉及的课程数量较少、不够智能化等问题。
输入语音来进行控制课程的形式主要是基于用户语音内容,然后通过提取语音中的关键词,并根据后台预设的关键词与课程进行关联关系,实现课程的展示。相对于前面的根据屏幕预留选项进行控制的方式而言,基于输入语音来进行控制的方式比较方便灵活,用户更加易于接受。但是该类方法同样存在识别精度不高、识别系统响应慢并且不能够识别带有方言口音的普通话等问题。
发明内容
本发明的目的一是,提供一种方言语言的识别技术,可以有效识别带有方言口音的普通话,帮助学生更好的学习、增加学习兴趣。
本发明的目的二是,提供一种虚拟显示教学方法。
本发明的目的三是,提供一种实现目的二方法的系统。
为实现该目的一,提供了一种方言语言的识别技术,该方法涉及到处理装置,该方法包括以下处理步骤:
步骤1:将实时采集的语音数据传递至口音特征提取模块,并且通过口音特征提取模块对口音特征进行实时提取;
步骤2:口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;
步骤3:口音识别模块根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话。
优选地,在步骤1中,口音特征提取模块对口音特征进行实时提取包括以下处理步骤:
步骤201:对语音声调特征的提取,
首先提高采集的语音数据的平滑度,其中提高语音平滑度的加重函数为:
H(z)=1-az-1
其中,H(z)表示加重函数,为预处理后输出的数据值;z表示采集的语音数据,a为平滑系数,a的范围是[0.9 1];
然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理,该分帧的函数为:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的语音数据,s-1(n)表示分帧后的语音数据,w(n)表示分帧函数,w(n)的定义如下:
其中,n表示对应语音帧的长度,N表示语音帧的总帧数;
步骤202:对语音能量值的提取,
将对分帧处理后的每帧数据的能量值进行提取,该提取函数为:
其中,E(i)表示每帧数据的能量值函数,i表示帧的序号,N表示语音帧的总帧数,表示每帧的数据值;
步骤203:对语音基频的提取,
进行每一帧的能量值提取后,将每一帧数据的频率映射到基频上,该提取方法为:
F=2595lg(1+f/700)
其中,f表示语音的每一帧的频率,F表示提取的基频;
步骤204:对语音声调特征、语音能量值、语音基频的提取后,进行动静结合的混合特征音素提取,该提取方法为:
其中,C表示语音数据的音素,定义如下:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示对应语音帧的长度。
优选地,在步骤2中,性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别,其过程为,首先对采集的语音数据进行基频提取,再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm,Sw),最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小,若结果大于0则为男,反之则为女。
优选地,在步骤2中,地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别,其过程为,首先对采集的语音数据进行混合特征的音素进行提取,并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S1,S2,S3,…Sn),然后分别计算|S1-S2|、|S2-S3|、|S3-S4|、…、|Sn-1-Sn|,并选出绝对值最大的|Sn-1-Sn|,则该|Sn-1-Sn|中的Sn-1则对应采集的语音数据所对应的归属地域。
优选地,所述口音模型库中选择的模型进行口音识别,将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤,
步骤601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
并计算各口音特征的权、阈值,即i=1,2,3…,n
其中,ωi为口音特征的权、阈值,N表示语音帧的总帧数;
步骤602:依次计算每个ωi的误差和,即
步骤603:根据误差和计算第t个语音段的权重值,即
步骤604:根据第t个语音段的权重值β(t)调整ωi
即ωi+1=ωi(1-l)β(t),其中,l为设定的值;
步骤605:对ωi进行归一化处理,输出即输出标准普通话。
优选地,在本方法中还进行口音模型库优化,即将步骤1中提取的口音特征和编著的普通话口音特征进行对比,提取出该口音特征的差异数据,对差异数据进行数据规范化,并且对规范化后的差异数据进行模糊性判断,找出该差异数据与标准普通话的差异性,并且将差异性融合入口音模型库对应的模型。
优选地,所述规范化的方法为:通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差,然后除以平均的语音时长,再乘以100;
所述模糊性判断的方法为:首先构造判断矩阵;然后判断该矩阵是互补型还是互反型,若是互补型,则计算其排序向量,该向量即为差异向量,若是互反型,则不存在差异向量;
所述融合的方法为:首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量;然后对这些概率矢量数据进行归一化处理,进行迭代训练至收敛,迭代完毕后,进入更新阶段;在更新阶段先对各个概率矢量进行评分,再根据评分结果进行非线性映射得出口音的地域分类结果,然后将评分数据与相应的地域方言模型进行集成,其中,评分方法采用余弦相似度计算方法,余弦值越接近1,则越接近对应地域口音,反之越接近0,则表示不相近。
为实现目的二,提供了一种虚拟显示教学方法,包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤,所述的语音采集步骤是对目标人物进行语音数据的实时采集,然后将实时采集的语音数据利用权1-权7的方言语音的识别技术进行处理并输出标准普通话的步骤。
为实现目的三,提供了一种虚拟显示教学系统,包括用于对目标人物进行语音数据实时采集的语音采集装置、用于对输出标准普通话信息进行识别显示的虚拟显示装置,其特征在于,还包括用于实现权1-权7的方言的语音识别技术的处理装置和用于给语音采集装置、虚拟显示装置和处理装置分别提供稳定电能的电源装置,所述语音采集装置与处理装置信号连接,所述处理装置与虚拟显示装置信号连接,所述处理装置包括依次信号连接的口音特征提取模块、口音特征分类模块和口音识别模块,从而形成方言的语音识别系统。
优选地,所述处理装置还包括用于将提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块、对差异数据进行数据规范化处理的第二级优化模块、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块和将差异性融合入口音模型库对应的模型的融合模块,所述口音特征提取模块还依次通过第一级优化模块、第二级优化模块、第三级优化模块和融合模块与口音识别模块信号连接。
本发明与现有技术相比,其有益效果在于:
本发明中通过对采集的语音数据处理转化成标准普通话进行输出,可以有效识别带有方言口音的普通话,帮助学生更好的学习、增加学习兴趣。在本发明中,本发明在口音识别过程中通过对性别的判断,能够性别对口音的影响,从而有效的提高口音识别的准确性,同时对被采集者的口音进行分类标注能够有效提高再次处理时的速度,从而提高效率。本发明在虚拟显示教学中运用方言的语音识别技术能够有效的提高输入语音来进行控制课程的准确性,在解决方言问题的同时提高识别精度、识别系统响应速度,从而能够有效提高实用性使得教学质量提高,帮助学生更好的学习、增加学习兴趣。在本发明中通过进行口音模型库优化能够有效度对口音模型库进行优化,提高识别效率。
附图说明
图1为本发明目的一的流程框图;
图2为本发明虚拟显示教学系统框图;
图3为本发明虚拟显示教学系统中处理装置控制框图;
图4为本发明虚拟显示教学系统中处理装置进一步深化控制框图。
具体实施方式
下面结合实施例,对本发明作进一步的描述,但不构成对本发明的任何限制,任何在本发明权利要求范围所做的有限次的修改,仍在本发明的权利要求范围内。
如图1-图4所示,本发明提供了一种方言语言的识别技术,该方法包括以下处理步骤:
步骤1:将实时采集的语音数据传递至口音特征提取模块21,并且通过口音特征提取模块21对口音特征进行实时提取;
步骤2:口音特征分类模块22根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;
步骤3:口音识别模块23根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话。
在本实施例中,通过麦克风进行实时的语音数据采集。对被采集者的口音进行分类标注即对被采集者的所在地域和性别进行标注,用于下次使用时调用,能够有效提高再处理时的速度,从而提高效率。
在步骤1中,口音特征提取模块对口音特征进行实时提取包括以下处理步骤:
步骤201:对语音声调特征的提取,
首先提高采集的语音数据的平滑度,其中提高语音平滑度的加重函数为:
H(z)=1-az-1
其中,H(z)表示加重函数,为预处理后输出的数据值;z表示采集的语音数据,a为平滑系数,a的范围是[0.9 1],可以取0.9或0.92或0.95或0.97或1;
然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理,该分帧的函数为:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的语音数据,s-1(n)表示分帧后的语音数据,w(n)表示分帧函数,w(n)的定义如下:
其中,n表示对应语音帧的长度,N表示语音帧的总帧数;
步骤202:对语音能量值的提取,
将对分帧处理后的每帧数据的能量值进行提取,该提取函数为:
其中,E(i)表示每帧数据的能量值函数,i表示帧的序号,N表示语音帧的总帧数,表示每帧的数据值;
步骤203:对语音基频的提取,
进行每一帧的能量值提取后,将每一帧数据的频率映射到基频上,该提取方法为:
F=2595lg(1+f/700)
其中,f表示语音的每一帧的频率,F表示提取的基频;
步骤204:对语音声调特征、语音能量值、语音基频的提取后,进行动静结合的混合特征音素提取,该提取方法为:
其中,C表示语音数据的音素,定义如下:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示对应语音帧的长度。
在本实施例中,由于通过麦克风采集用户的语音信号后,因为一般的方言在表达发音时,容易产生口腔和声带的共鸣震动。这样会导致高低频率的动态表现不一致,对特征提取产生困难。从而需要进行提高平滑度的处理。
一般在方言发声阶段,语音的变化与声带振动之间存在时间差,这样会产生一些随机信号,导致信号的不稳定。为了避免这个情况,需要对信号进行分帧处理。通过分帧处理能够确保在短时间帧内的信号变化较小。
通常语音信号分为清音和浊音,而清音的能量要小于浊音。是因为在进行声带发声时,浊音的波形变化幅度明显,而轻音较小。因此,需要对分帧后的每帧信号的能量值提取。
在步骤2中,性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别,其过程为,首先对采集的语音数据进行基频提取,再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm,Sw),最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小,若结果大于0则为男,反之则为女。
在步骤2中,地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别,其过程为,首先对采集的语音数据进行混合特征的音素进行提取,并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S1,S2,S3,…Sn),然后分别计算|S1-S2|、|S2-S3|、|S3-S4|、…、|Sn-1-Sn|,并选出绝对值最大的|Sn-1-Sn|,则该|Sn-1-Sn|中的Sn-1则对应采集的语音数据所对应的归属地域。
高斯混合模型为多维的概率密度函数,其定义为:
其中,λ为函数参数,xi表示上述提取的语音声调特征、语音能量值、语音音素和语音基频的特征,Ci表示混合权值,M表示xi的总数,EM参数估计法为通过EM方法估计λ的值。
在本实施例中,EM方法为,首先利用概率模型参数的现有估计值,计算隐藏变量的期望;再通过获得的隐藏变量的期望,对参数模型进行最大似然估计,找到参数估计值并将该值用于下一步期望的计算,然后不断交替的进行。
口音模型库中选择的模型进行口音识别,将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤,
步骤601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
并计算各口音特征的权、阈值,即i=1,2,3…,n
其中,ωi为口音特征的权、阈值,N表示语音帧的总帧数;
步骤602:依次计算每个ωi的误差和,即
步骤603:根据误差和计算第t个语音段的权重值,即
步骤604:根据第t个语音段的权重值β(t)调整ωi
即ωi+1=ωi(1-l)β(t),其中,l为设定的值;
步骤605:对ωi进行归一化处理,输出即输出标准普通话。
在本方法中还进行口音模型库优化,即将步骤1中提取的口音特征和编著的普通话口音特征通过第一级优化模块24进行对比,提取出该口音特征的差异数据,再通过第二级优化模块25对差异数据进行数据规范化,并且对规范化后的差异数据通过第三级优化模块26进行模糊性判断,找出该差异数据与标准普通话在语音声调、语音音律、语音基频、语音能量、音素上的差异性,最后通过融合模块27将差异性融合入口音模型库对应的模型。
规范化的方法为:通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差,然后除以平均的语音时长,再乘以100;计算公式如下:
其中,Δs表示语音声调特征的标准偏差,ΔE表示语音能量值的标准偏差,ΔF表示语音基频的标准偏差,ΔM表示音素的标准偏差,t表示平均的语音时长,s1表示提取的口音特征的语音声调特征,sm表示标准普通话语的音声调特征,E1表示提取的口音特征的语音能量值,Em表示标准普通话语的语音能量值,F1表示提取的口音特征的语音基频,Fm表示标准普通话语的语音基频,M1表示提取的口音特征的音素,Mm表示标准普通话语的音素。
所述模糊性判断的方法为:首先构造判断矩阵P;然后判断该矩阵是互补型还是互反型,若是互补型,则计算其排序向量,该向量即为差异向量,若是互反型,则不存在差异向量;若矩阵P所有非残缺元素,可用满足如下性质的转换函数
f(aij)+f(aji)=1
那么为互补性矩阵。否则为互反性矩阵。
差异向量计算方法如下:
其中,θik为系数。
所述融合的方法为:首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量;然后对这些概率矢量数据进行归一化处理,进行迭代训练至收敛,迭代完毕后,进入更新阶段;在更新阶段先对各个概率矢量进行评分,再根据评分结果进行非线性映射得出口音的地域分类结果,然后将评分数据与相应的地域方言模型进行集成,其中,评分方法采用余弦相似度计算方法,余弦值越接近1,说明越接近某地域口音,反之越接近0,则表示不相近。余弦值最大的则为对应的地域口音。
条件概率是指一个事件A在另外一个事件B已经发生条件下的发生概率。迭代训练、非线性映射属于数学计算中常规的手段。
如图1-图3所示,本发明还提供了一种虚拟显示教学方法,包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤,语音采集步骤是对目标人物进行语音数据的实时采集,然后将实时采集的语音数据利用权1-权7的方言语音的识别技术进行处理并输出标准普通话的步骤。
在本方法中还能够通过设置扬声装置4对利用权1-权7的方言的语音识别技术进行处理的数据以语音的形式进行输出。
在本实施例中,语音采集装置1为麦克风,虚拟显示装置3为VR眼镜或3D显示器,扬声装置4为音响或耳机。
如图2-图4所示,本发明还提供了一种虚拟显示教学系统,包括用于对目标人物进行语音数据实时采集的语音采集装置1、用于对输出标准普通话信息进行识别将对应的教学内容进行显示的虚拟显示装置3,还包括用于实现权1-权7的方言的语音识别技术的处理装置2和用于给语音采集装置1、虚拟显示装置3和处理装置2分别提供稳定电能的电源装置5,语音采集装置1与处理装置信号2连接,处理装置2与虚拟显示装置3信号连接,处理装置2包括依次信号连接的口音特征提取模块21、口音特征分类模块22和口音识别模块23,从而形成方言的语音识别系统。
处理装置2还包括用于提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块24、对差异数据进行数据规范化处理的第二级优化模块25、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块26和将差异性融合入口音模型库对应的模型的融合模块26,口音特征提取模块21还依次通过第一级优化模块24、第二级优化模块25、第三级优化模块26和融合模块27与口音识别模块23信号连接。
本系统还设置有用于对教学内容中语音进行输出的扬声装置4,扬声装置4分别与虚拟显示装置3信号连接。
在实施例中,第一级优化模块24包含编著的普通话口音特征,也可以将编著的普通话口音特征存于外部,在工作时进行调用。口音识别模块23包含口音模型库,或将口音模型库存于外部,在工作时进行调用。
在本实施例中,口音特征提取模块21与语音采集装置1信号连接,从而对目标人物进行实时采集的语音数据进行处理,口音识别模块23与虚拟显示装置3信号连接,将识别转化为标准普通话的数据发送给虚拟显示装置3进行处理,
在本实施例中,语音采集装置1为麦克风,虚拟显示装置3为VR眼镜或3D显示器,处理装置2为电脑或计算机设备,扬声装置4为音响或耳机。
在本实施例中,扬声装置4能够与处理装置2和虚拟显示装置3进行连接,其具体连接根据使用的显示处理的方式进行选择连接。
本发明的工作过程:语音采集装置1对目标人物进行语音数据实时采集并将语音数据发送给处理装置2,口音特征提取模块21对口音特征进行实时提取;然后口音特征分类模块22根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;最后口音识别模块23根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话发送虚拟显示装置3,虚拟显示装置3对输出标准普通话信息进行识别将对应的教学内容进行显示同时将相关语音通过扬声装置4进行输出,同时处理装置2还依次通过第一级优化模块24、第二级优化模块25、第三级优化模块26和融合模块27对口音模型库进行优化补充,使得口音识别模块23的识别效率提高。
通过本发明能够有效的提高输入语音来进行控制课程的准确性,在解决方言问题的同时提高识别精度、识别系统响应速度,从而能够有效提高实用性使得教学质量提高,帮助学生更好的学习、增加学习兴趣。
以上仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。

Claims (10)

1.一种方言语言的识别技术,其特征在于:包括以下处理步骤:
步骤1:将实时采集的语音数据传递至口音特征提取模块,并且通过口音特征提取模块对口音特征进行实时提取;
步骤2:口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;
步骤3:口音识别模块根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话。
2.根据权利要求1所述的一种方言语言的识别技术,其特征在于:在步骤1中,口音特征提取模块对口音特征进行实时提取包括以下处理步骤:
步骤201:对语音声调特征的提取,
首先提高采集的语音数据的平滑度,其中提高语音平滑度的加重函数为:
H(z)=1-az-1
其中,H(z)表示加重函数,为预处理后输出的数据值;z表示采集的语音数据,a为平滑系数,a的范围是[0.9 1];
然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理,该分帧的函数为:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的语音数据,s-1(n)表示分帧后的语音数据,w(n)表示分帧函数,w(n)的定义如下:
其中,n表示对应语音帧的长度,N表示语音帧的总帧数;
步骤202:对语音能量值的提取,
将对分帧处理后的每帧数据的能量值进行提取,该提取函数为:
<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mi>log</mi> <mi> </mi> <msubsup> <mi>x</mi> <mi>n</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow>
其中,E(i)表示每帧数据的能量值函数,i表示帧的序号,N表示语音帧的总帧数,表示每帧的数据值;
步骤203:对语音基频的提取,
进行每一帧的能量值提取后,将每一帧数据的频率映射到基频上,该提取方法为:
F=2595lg(1+f/700)
其中,f表示语音的每一帧的频率,F表示提取的基频;
步骤204:对语音声调特征、语音能量值、语音基频的提取后,进行动静结合的混合特征音素提取,该提取方法为:
<mrow> <mi>C</mi> <mo>=</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <mi>M</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&amp;part;</mo> <mi>n</mi> </mrow> </mfrac> </mrow>
其中,C表示语音数据的音素,定义如下:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示对应语音帧的长度。
3.根据权利要求2所述的一种方言语言的识别技术,其特征在于:在步骤2中,性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别,其过程为,首先对采集的语音数据进行基频提取,再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm,Sw),最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小,若结果大于0则为男,反之则为女。
4.根据权利要求2所述的一种方言语言的识别技术,其特征在于:在步骤2中,地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别,其过程为,首先对采集的语音数据进行混合特征的音素进行提取,并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S1,S2,S3,…Sn),然后分别计算|S1-S2|、|S2-S3|、|S3-S4|、…、|Sn-1-Sn|,并选出绝对值最大的|Sn-1-Sn|,则该|Sn-1-Sn|中的Sn-1则对应采集的语音数据所对应的归属地域。
5.根据权利要求2所述的一种方言语言的识别技术,其特征在于:所述口音模型库中选择的模型进行口音识别,将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤,
步骤601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
并计算各口音特征的权、阈值,即
其中,ωi为口音特征的权、阈值,N表示语音帧的总帧数;
步骤602:依次计算每个ωi的误差和,即
步骤603:根据误差和计算第t个语音段的权重值,即
步骤604:根据第t个语音段的权重值β(t)调整ωi
即ωi+1=ωi(1-l)β(t),其中,l为设定的值;
步骤605:对ωi进行归一化处理,输出即输出标准普通话。
6.根据权利要求2所述的一种方言语言的识别技术,其特征在于:在本方法中还进行口音模型库优化,即将步骤1中提取的口音特征和编著的普通话口音特征进行对比,提取出该口音特征的差异数据,对差异数据进行数据规范化,并且对规范化后的差异数据进行模糊性判断,找出该差异数据与标准普通话的差异性,并且将差异性融合入口音模型库对应的模型。
7.根据权利要求6所述的一种方言语言的识别技术,其特征在于:所述规范化的方法为:通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差,然后除以平均的语音时长,再乘以100;
所述模糊性判断的方法为:首先构造判断矩阵;然后判断该矩阵是互补型还是互反型,若是互补型,则计算其排序向量,该向量即为差异向量,若是互反型,则不存在差异向量;
所述融合的方法为:首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量;然后对这些概率矢量数据进行归一化处理,进行迭代训练至收敛,迭代完毕后,进入更新阶段;在更新阶段先对各个概率矢量进行评分,再根据评分结果进行非线性映射得出口音的地域分类结果,然后将评分数据与相应的地域方言模型进行集成,其中,评分方法采用余弦相似度计算方法,余弦值越接近1,则越接近对应地域口音,反之越接近0,则表示不相近。
8.一种虚拟显示教学方法,包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤,其特征在于,所述的语音采集步骤是对目标人物进行语音数据的实时采集,然后将实时采集的语音数据利用权1-权7的方言语音的识别技术进行处理并输出标准普通话的步骤。
9.一种虚拟显示教学系统,包括用于对目标人物进行语音数据实时采集的语音采集装置、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示装置,其特征在于,还包括用于实现权1-权7的方言语音的识别技术的处理装置和用于给语音采集装置、虚拟显示装置和处理装置分别提供稳定电能的电源装置,所述语音采集装置与处理装置信号连接,所述处理装置与虚拟显示装置信号连接,所述处理装置包括依次信号连接的口音特征提取模块、口音特征分类模块和口音识别模块,从而形成方言的语音识别系统。
10.根据权利要求9所述的一种虚拟显示教学系统,其特征在于,所述处理装置还包括用于将提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块、对差异数据进行数据规范化处理的第二级优化模块、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块和将差异性融合入口音模型库对应的模型的融合模块,所述口音特征提取模块还依次通过第一级优化模块、第二级优化模块、第三级优化模块和融合模块与口音识别模块信号连接。
CN201710708102.2A 2017-08-17 2017-08-17 一种方言语言的识别方法及虚拟现实教学方法和系统 Active CN107452379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710708102.2A CN107452379B (zh) 2017-08-17 2017-08-17 一种方言语言的识别方法及虚拟现实教学方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710708102.2A CN107452379B (zh) 2017-08-17 2017-08-17 一种方言语言的识别方法及虚拟现实教学方法和系统

Publications (2)

Publication Number Publication Date
CN107452379A true CN107452379A (zh) 2017-12-08
CN107452379B CN107452379B (zh) 2021-01-05

Family

ID=60492352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710708102.2A Active CN107452379B (zh) 2017-08-17 2017-08-17 一种方言语言的识别方法及虚拟现实教学方法和系统

Country Status (1)

Country Link
CN (1) CN107452379B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417203A (zh) * 2018-01-31 2018-08-17 广东聚晨知识产权代理有限公司 一种人体语音识别传输方法及系统
CN108877769A (zh) * 2018-06-25 2018-11-23 北京语言大学 识别方言种类的方法和装置
CN108965618A (zh) * 2018-05-22 2018-12-07 国家电网公司客户服务中心南方分中心 一种智能语音系统
CN109065020A (zh) * 2018-07-28 2018-12-21 重庆柚瓣家科技有限公司 多语言类别的识别库匹配方法及系统
CN109147762A (zh) * 2018-10-19 2019-01-04 广东小天才科技有限公司 一种语音识别方法及系统
CN109714608A (zh) * 2018-12-18 2019-05-03 深圳壹账通智能科技有限公司 视频数据处理方法、装置、计算机设备和存储介质
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110033760A (zh) * 2019-04-15 2019-07-19 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110491368A (zh) * 2019-07-23 2019-11-22 平安科技(深圳)有限公司 基于方言背景的语音识别方法及相关设备
WO2021000068A1 (zh) * 2019-06-29 2021-01-07 播闪机械人有限公司 一种非母语人士使用的语音识别方法及装置
CN113781999A (zh) * 2021-09-13 2021-12-10 中国科学院计算技术研究所 一种方言语音数据切分及标注方法、系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
US20060136207A1 (en) * 2004-12-21 2006-06-22 Electronics And Telecommunications Research Institute Two stage utterance verification device and method thereof in speech recognition system
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
CN106023693A (zh) * 2016-05-25 2016-10-12 北京九天翱翔科技有限公司 一种基于虚拟现实技术和模式识别技术的教育系统及方法
CN106328125A (zh) * 2016-10-28 2017-01-11 许昌学院 一种河南方言语音识别系统
CN106951417A (zh) * 2017-05-05 2017-07-14 李宗展 识别汉语方言的多语互译方法及便携机

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
US20060136207A1 (en) * 2004-12-21 2006-06-22 Electronics And Telecommunications Research Institute Two stage utterance verification device and method thereof in speech recognition system
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system
CN105408952A (zh) * 2013-02-21 2016-03-16 谷歌技术控股有限责任公司 识别带口音的语音
US20170193990A1 (en) * 2013-02-21 2017-07-06 Google Technology Holdings LLC Recognizing Accented Speech
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
CN106023693A (zh) * 2016-05-25 2016-10-12 北京九天翱翔科技有限公司 一种基于虚拟现实技术和模式识别技术的教育系统及方法
CN106328125A (zh) * 2016-10-28 2017-01-11 许昌学院 一种河南方言语音识别系统
CN106951417A (zh) * 2017-05-05 2017-07-14 李宗展 识别汉语方言的多语互译方法及便携机

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
KAMINI MALHOTR 等: ""Automatic Identification of Gender & Accent in Spoken Hindi Utterances with Regional Indian Accents"", 《2008 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP》 *
TAO CHEN 等: ""Automatic Accent Identification Using Gaussian Mixture Models"", 《IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING》 *
周春晖: ""基于MFCC特征和GMM模型的说话人识别系统研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张超琼 等: ""基于高斯混合模型的语音性别识别"", 《计算机应用》 *
徐泽水 等: ""3种基于互反判断矩阵的互补判断矩阵排序法"", 《东南大学学报》 *
樊治平 等: ""模糊判断矩阵排序方法研究的综述"", 《系统工程》 *
王侠 等: ""基于GMM区分性别的汉语方言识别系统"", 《电声技术》 *
胡航: "《现代语音信号处理》", 31 July 2014, 电子工业出版社 *
赵力: "《语音信号处理》", 31 July 2017, 机械工业出版社 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417203A (zh) * 2018-01-31 2018-08-17 广东聚晨知识产权代理有限公司 一种人体语音识别传输方法及系统
CN108965618A (zh) * 2018-05-22 2018-12-07 国家电网公司客户服务中心南方分中心 一种智能语音系统
CN108877769A (zh) * 2018-06-25 2018-11-23 北京语言大学 识别方言种类的方法和装置
CN109065020B (zh) * 2018-07-28 2020-11-20 重庆柚瓣家科技有限公司 多语言类别的识别库匹配方法及系统
CN109065020A (zh) * 2018-07-28 2018-12-21 重庆柚瓣家科技有限公司 多语言类别的识别库匹配方法及系统
CN109147762A (zh) * 2018-10-19 2019-01-04 广东小天才科技有限公司 一种语音识别方法及系统
CN109714608A (zh) * 2018-12-18 2019-05-03 深圳壹账通智能科技有限公司 视频数据处理方法、装置、计算机设备和存储介质
CN109714608B (zh) * 2018-12-18 2023-03-10 深圳壹账通智能科技有限公司 视频数据处理方法、装置、计算机设备和存储介质
CN109887497B (zh) * 2019-04-12 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110033760B (zh) * 2019-04-15 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110033760A (zh) * 2019-04-15 2019-07-19 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
US11688391B2 (en) 2019-04-15 2023-06-27 Beijing Baidu Netcom Science And Technology Co. Mandarin and dialect mixed modeling and speech recognition
WO2021000068A1 (zh) * 2019-06-29 2021-01-07 播闪机械人有限公司 一种非母语人士使用的语音识别方法及装置
CN110491368A (zh) * 2019-07-23 2019-11-22 平安科技(深圳)有限公司 基于方言背景的语音识别方法及相关设备
CN110491368B (zh) * 2019-07-23 2023-06-16 平安科技(深圳)有限公司 基于方言背景的语音识别方法、装置、计算机设备和存储介质
CN113781999A (zh) * 2021-09-13 2021-12-10 中国科学院计算技术研究所 一种方言语音数据切分及标注方法、系统
CN113781999B (zh) * 2021-09-13 2024-02-20 中国科学院计算技术研究所 一种方言语音数据切分及标注方法、系统

Also Published As

Publication number Publication date
CN107452379B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN107452379A (zh) 一种方言语言的识别技术及虚拟现实教学方法和系统
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN105118498B (zh) 语音合成模型的训练方法及装置
CN108447486A (zh) 一种语音翻译方法及装置
CN110534087A (zh) 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN110246487A (zh) 用于单通道的语音识别模型的优化方法及系统
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN106531150A (zh) 一种基于深度神经网络模型的情感合成方法
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN101178896A (zh) 基于声学统计模型的单元挑选语音合成方法
WO2020248388A1 (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN109326162A (zh) 一种口语练习自动评测方法及装置
CN107705802A (zh) 语音转换方法、装置、电子设备及可读存储介质
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
CN110047516A (zh) 一种基于性别感知的语音情感识别方法
CN110246488A (zh) 半优化CycleGAN模型的语音转换方法及装置
CN110211594A (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN110853656A (zh) 基于改进神经网络的音频篡改识别算法
WO2023207541A1 (zh) 一种语音处理方法及相关设备
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
CN116797417A (zh) 一种基于大语言模型的智能辅助系统
CN111653274A (zh) 唤醒词识别的方法、装置及存储介质
CN106297766B (zh) 语音合成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant