CN107452379B

CN107452379B - 一种方言语言的识别方法及虚拟现实教学方法和系统

Info

Publication number: CN107452379B
Application number: CN201710708102.2A
Authority: CN
Inventors: 刘志
Original assignee: Guangzhou Tenho Technology Co ltd
Current assignee: Guangzhou Tenho Technology Co ltd
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2021-01-05
Anticipated expiration: 2037-08-17
Also published as: CN107452379A

Abstract

本发明公开了一种方言语言的识别方法及虚拟现实教学方法和系统，方言语言的识别方法包括以下处理步骤：通过口音特征提取模块对口音特征进行实时提取；口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别，并且对被采集者的口音进行分类标注；口音识别模块根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话；本发明还提供了一种虚拟现实教学方法和虚拟现实教学系统。在解决方言问题的同时提高识别精度、识别系统响应速度。

Description

一种方言语言的识别方法及虚拟现实教学方法和系统

技术领域

本发明涉及语言识别领域，尤其涉及一种方言语言的识别方法，还涉及一种虚拟现实教学方法和一种虚拟现实教学系统。

背景技术

目前，虚拟现实技术在教育领域的应用已经引起了众多的关注。语音驱动课程已经开始成为虚拟现实教育技术的发展重点。按照控制方式进行划分有两种方式，分别是根据屏幕预留选项进行控制和输入语音来进行控制。根据屏幕预留选项进行控制的形式通过操纵杆等设备在用户眼前呈现的场景中进行选择，系统根据选择对象再映射成为课程关键词信息，从而进入预设的课程内容。但是该类方法存在着操作复杂并且所涉及的课程数量较少、不够智能化等问题。

输入语音来进行控制课程的形式主要是基于用户语音内容，然后通过提取语音中的关键词，并根据后台预设的关键词与课程进行关联关系，实现课程的展示。相对于前面的根据屏幕预留选项进行控制的方式而言，基于输入语音来进行控制的方式比较方便灵活，用户更加易于接受。但是该类方法同样存在识别精度不高、识别系统响应慢并且不能够识别带有方言口音的普通话等问题。

发明内容

本发明的目的一是，提供一种方言语言的识别方法，可以有效识别带有方言口音的普通话，帮助学生更好的学习、增加学习兴趣。

本发明的目的二是，提供一种虚拟现实教学方法。

本发明的目的三是，提供一种实现目的二方法的系统。

为实现该目的一，提供了一种方言语言的识别方法，该方法涉及到处理装置，该方法包括以下处理步骤：

步骤1：将实时采集的语音数据传递至口音特征提取模块，并且通过口音特征提取模块对口音特征进行实时提取；

步骤2：口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别，并且对被采集者的口音进行分类标注；

步骤3：口音识别模块根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话。

优选地，在步骤1中，口音特征提取模块对口音特征进行实时提取包括以下处理步骤：

步骤201：对语音声调特征的提取，

首先提高采集的语音数据的平滑度，其中提高语音平滑度的加重函数为：

H(z)＝1-az^-1

其中，H(z)表示加重函数，为预处理后输出的数据值；z表示采集的语音数据，a为平滑系数，a的范围是[0.91]；

然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理，该分帧的函数为：

s^-1(n)＝w(n)×s(n)

其中，s(n)表示平滑后的语音数据，s^-1(n)表示分帧后的语音数据，w(n)表示分帧函数，w(n)的定义如下：

其中，n表示对应语音帧的长度，N表示语音帧的总帧数；

步骤202：对语音能量值的提取，

将对分帧处理后的每帧数据的能量值进行提取，该提取函数为：

其中，E(i)表示每帧数据的能量值函数，i表示帧的序号，N表示语音帧的总帧数，

表示每帧的数据值；

步骤203：对语音基频的提取，

进行每一帧的能量值提取后，将每一帧数据的频率映射到基频上，该提取方法为：

F＝2595lg(1+f/700)

其中，f表示语音的每一帧的频率，F表示提取的基频；

步骤204：对语音声调特征、语音能量值、语音基频的提取后，进行动静结合的混合特征音素提取，该提取方法为：

其中，C表示语音数据的音素，

定义如下：

M(n)＝(1-a²)M(n-1)

其中，a＝0.35，n表示对应语音帧的长度。

优选地，在步骤2中，性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别，其过程为，首先对采集的语音数据进行基频提取，再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(S_m，S_w)，最后通过计算男性后验概率值-女性后验概率值S_m-S_w与0的大小，若结果大于0则为男，反之则为女。

优选地，在步骤2中，地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别，其过程为，首先对采集的语音数据进行混合特征的音素进行提取，并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S₁，S₂，S₃,…S_n)，然后分别计算|S₁-S₂|、|S₂-S₃|、|S₃-S₄|、…、|S_n-1-S_n|，并选出绝对值最大的|S_n-1-S_n|，则该|S_n-1-S_n|中的S_n-1则对应采集的语音数据所对应的归属地域。

优选地，所述口音模型库中选择的模型进行口音识别，将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤，

步骤601:建立被采集者的口音特征集

(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n))，

并计算各口音特征的权、阈值，即

i＝1,2,3…,n

其中，ω_i为口音特征的权、阈值，N表示语音帧的总帧数；

步骤602:依次计算每个ω_i的误差和，即

步骤603:根据误差和计算第t个语音段的权重值，即

步骤604:根据第t个语音段的权重值β^(t)调整ω_i；

即ω_i+1＝ω_i(1-l)β^(t)，其中，l为设定的值；

步骤605:对ω_i进行归一化处理，输出

即

输出标准普通话。

优选地，在本方法中还进行口音模型库优化，即将步骤1中提取的口音特征和编著的普通话口音特征进行对比，提取出该口音特征的差异数据，对差异数据进行数据规范化，并且对规范化后的差异数据进行模糊性判断，找出该差异数据与标准普通话的差异性，并且将差异性融合入口音模型库对应的模型。

优选地，所述规范化的方法为：通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差，然后除以平均的语音时长，再乘以100；

所述模糊性判断的方法为：首先构造判断矩阵；然后判断该矩阵是互补型还是互反型，若是互补型，则计算其排序向量，该向量即为差异向量，若是互反型，则不存在差异向量；

所述融合的方法为：首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量；然后对这些概率矢量数据进行归一化处理，进行迭代训练至收敛，迭代完毕后，进入更新阶段；在更新阶段先对各个概率矢量进行评分，再根据评分结果进行非线性映射得出口音的地域分类结果，然后将评分数据与相应的地域方言模型进行集成，其中，评分方法采用余弦相似度计算方法，余弦值越接近1，则越接近对应地域口音，反之越接近0，则表示不相近。

为实现目的二，提供了一种虚拟现实教学方法，包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤，所述的语音采集步骤是对目标人物进行语音数据的实时采集，然后将实时采集的语音数据利用本发明的一种方言语音的识别方法进行处理并输出标准普通话的步骤。

为实现目的三，提供了一种虚拟显示教学系统，包括用于对目标人物进行语音数据实时采集的语音采集装置、用于对输出标准普通话信息进行识别显示的虚拟显示装置，其特征在于，还包括用于实现本发明的一种方言的语音识别方法的处理装置和用于给语音采集装置、虚拟显示装置和处理装置分别提供稳定电能的电源装置，所述语音采集装置与处理装置信号连接，所述处理装置与虚拟显示装置信号连接，所述处理装置包括依次信号连接的口音特征提取模块、口音特征分类模块和口音识别模块，从而形成方言的语音识别系统。

优选地，所述处理装置还包括用于将提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块、对差异数据进行数据规范化处理的第二级优化模块、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块和将差异性融合入口音模型库对应的模型的融合模块，所述口音特征提取模块还依次通过第一级优化模块、第二级优化模块、第三级优化模块和融合模块与口音识别模块信号连接。

本发明与现有技术相比，其有益效果在于：

本发明中通过对采集的语音数据处理转化成标准普通话进行输出，可以有效识别带有方言口音的普通话，帮助学生更好的学习、增加学习兴趣。在本发明中，本发明在口音识别过程中通过对性别的判断，能够性别对口音的影响，从而有效的提高口音识别的准确性，同时对被采集者的口音进行分类标注能够有效提高再次处理时的速度，从而提高效率。本发明在虚拟显示教学中运用方言的语音识别方法能够有效的提高输入语音来进行控制课程的准确性，在解决方言问题的同时提高识别精度、识别系统响应速度，从而能够有效提高实用性使得教学质量提高，帮助学生更好的学习、增加学习兴趣。在本发明中通过进行口音模型库优化能够有效度对口音模型库进行优化，提高识别效率。

附图说明

图1为本发明目的一的流程框图；

图2为本发明虚拟现实教学系统框图；

图3为本发明虚拟现实教学系统中处理装置控制框图；

图4为本发明虚拟现实教学系统中处理装置进一步深化控制框图。

具体实施方式

下面结合实施例，对本发明作进一步的描述，但不构成对本发明的任何限制，任何在本发明权利要求范围所做的有限次的修改，仍在本发明的权利要求范围内。

如图1-图4所示，本发明提供了一种方言语言的识别方法，该方法包括以下处理步骤：

步骤1：将实时采集的语音数据传递至口音特征提取模块21，并且通过口音特征提取模块21对口音特征进行实时提取；

步骤2：口音特征分类模块22根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别，并且对被采集者的口音进行分类标注；

步骤3：口音识别模块23根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话。

在本实施例中，通过麦克风进行实时的语音数据采集。对被采集者的口音进行分类标注即对被采集者的所在地域和性别进行标注，用于下次使用时调用，能够有效提高再处理时的速度，从而提高效率。

在步骤1中，口音特征提取模块对口音特征进行实时提取包括以下处理步骤：

步骤201：对语音声调特征的提取，

H(z)＝1-az^-1

其中，H(z)表示加重函数，为预处理后输出的数据值；z表示采集的语音数据，a为平滑系数，a的范围是[0.91]，可以取0.9或0.92或0.95或0.97或1；

s^-1(n)＝w(n)×s(n)

其中，n表示对应语音帧的长度，N表示语音帧的总帧数；

步骤202：对语音能量值的提取，

表示每帧的数据值；

步骤203：对语音基频的提取，

F＝2595lg(1+f/700)

其中，f表示语音的每一帧的频率，F表示提取的基频；

其中，C表示语音数据的音素，

定义如下：

M(n)＝(1-a²)M(n-1)

其中，a＝0.35，n表示对应语音帧的长度。

在本实施例中，由于通过麦克风采集用户的语音信号后，因为一般的方言在表达发音时，容易产生口腔和声带的共鸣震动。这样会导致高低频率的动态表现不一致，对特征提取产生困难。从而需要进行提高平滑度的处理。

一般在方言发声阶段，语音的变化与声带振动之间存在时间差，这样会产生一些随机信号，导致信号的不稳定。为了避免这个情况，需要对信号进行分帧处理。通过分帧处理能够确保在短时间帧内的信号变化较小。

通常语音信号分为清音和浊音，而清音的能量要小于浊音。是因为在进行声带发声时，浊音的波形变化幅度明显，而轻音较小。因此，需要对分帧后的每帧信号的能量值提取。

在步骤2中，性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别，其过程为，首先对采集的语音数据进行基频提取，再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(S_m，S_w)，最后通过计算男性后验概率值-女性后验概率值S_m-S_w与0的大小，若结果大于0则为男，反之则为女。

在步骤2中，地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别，其过程为，首先对采集的语音数据进行混合特征的音素进行提取，并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S₁，S₂，S₃,…S_n)，然后分别计算|S₁-S₂|、|S₂-S₃|、|S₃-S₄|、…、|S_n-1-S_n|，并选出绝对值最大的|S_n-1-S_n|，则该|S_n-1-S_n|中的S_n-1则对应采集的语音数据所对应的归属地域。

高斯混合模型为多维的概率密度函数，其定义为：

其中，λ为函数参数，x_i表示上述提取的语音声调特征、语音能量值、语音音素和语音基频的特征，C_i表示混合权值，M表示x_i的总数，EM参数估计法为通过EM方法估计λ的值。

在本实施例中，EM方法为，首先利用概率模型参数的现有估计值，计算隐藏变量的期望；再通过获得的隐藏变量的期望，对参数模型进行最大似然估计，找到参数估计值并将该值用于下一步期望的计算，然后不断交替的进行。

口音模型库中选择的模型进行口音识别，将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤，

步骤601:建立被采集者的口音特征集

(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n))，

并计算各口音特征的权、阈值，即

i＝1,2,3…,n

其中，ω_i为口音特征的权、阈值，N表示语音帧的总帧数；

步骤602:依次计算每个ω_i的误差和，即

步骤603:根据误差和计算第t个语音段的权重值，即

步骤604:根据第t个语音段的权重值β^(t)调整ω_i；

即ω_i+1＝ω_i(1-l)β^(t)，其中，l为设定的值；

步骤605:对ω_i进行归一化处理，输出

即

输出标准普通话。

在本方法中还进行口音模型库优化，即将步骤1中提取的口音特征和编著的普通话口音特征通过第一级优化模块24进行对比，提取出该口音特征的差异数据，再通过第二级优化模块25对差异数据进行数据规范化，并且对规范化后的差异数据通过第三级优化模块26进行模糊性判断，找出该差异数据与标准普通话在语音声调、语音音律、语音基频、语音能量、音素上的差异性，最后通过融合模块27将差异性融合入口音模型库对应的模型。

规范化的方法为：通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差，然后除以平均的语音时长，再乘以100；计算公式如下：

其中，Δs表示语音声调特征的标准偏差，ΔE表示语音能量值的标准偏差，ΔF表示语音基频的标准偏差，ΔM表示音素的标准偏差，t表示平均的语音时长，s₁表示提取的口音特征的语音声调特征，s_m表示标准普通话语的音声调特征，E₁表示提取的口音特征的语音能量值，E_m表示标准普通话语的语音能量值，F₁表示提取的口音特征的语音基频，F_m表示标准普通话语的语音基频，M₁表示提取的口音特征的音素，M_m表示标准普通话语的音素。

所述模糊性判断的方法为：首先构造判断矩阵P；然后判断该矩阵是互补型还是互反型，若是互补型，则计算其排序向量，该向量即为差异向量，若是互反型，则不存在差异向量；若矩阵P所有非残缺元素,可用满足如下性质的转换函数

f(a_ij)+f(a_ji)＝1

那么为互补性矩阵。否则为互反性矩阵。

差异向量计算方法如下：

其中，

θ_ik为系数。

所述融合的方法为：首先计算各差异向量与口音模型库中各个地域方言模型之间的条件概率形成概率矢量；然后对这些概率矢量数据进行归一化处理，进行迭代训练至收敛，迭代完毕后，进入更新阶段；在更新阶段先对各个概率矢量进行评分，再根据评分结果进行非线性映射得出口音的地域分类结果，然后将评分数据与相应的地域方言模型进行集成，其中，评分方法采用余弦相似度计算方法，余弦值越接近1，说明越接近某地域口音，反之越接近0，则表示不相近。余弦值最大的则为对应的地域口音。

条件概率是指一个事件A在另外一个事件B已经发生条件下的发生概率。迭代训练、非线性映射属于数学计算中常规的手段。

如图1-图3所示，本发明还提供了一种虚拟现实教学方法，包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤，语音采集步骤是对目标人物进行语音数据的实时采集，然后将实时采集的语音数据利用本发明的一种方言语音的识别方法进行处理并输出标准普通话的步骤。

在本方法中还能够通过设置扬声装置4对利用本发明的一种方言的语音识别方法进行处理的数据以语音的形式进行输出。

在本实施例中，语音采集装置1为麦克风，虚拟显示装置3为VR眼镜或3D显示器，扬声装置4为音响或耳机。

如图2-图4所示，本发明还提供了一种虚拟现实教学系统，包括用于对目标人物进行语音数据实时采集的语音采集装置1、用于对输出标准普通话信息进行识别将对应的教学内容进行显示的虚拟显示装置3，还包括用于实现本发明的一种方言的语音识别方法的处理装置2和用于给语音采集装置1、虚拟显示装置3和处理装置2分别提供稳定电能的电源装置5，语音采集装置1与处理装置信号2连接，处理装置2与虚拟显示装置3信号连接，处理装置2包括依次信号连接的口音特征提取模块21、口音特征分类模块22和口音识别模块23，从而形成方言的语音识别系统。

处理装置2还包括用于提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块24、对差异数据进行数据规范化处理的第二级优化模块25、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块26和将差异性融合入口音模型库对应的模型的融合模块26，口音特征提取模块21还依次通过第一级优化模块24、第二级优化模块25、第三级优化模块26和融合模块27与口音识别模块23信号连接。

本系统还设置有用于对教学内容中语音进行输出的扬声装置4，扬声装置4分别与虚拟显示装置3信号连接。

在实施例中，第一级优化模块24包含编著的普通话口音特征，也可以将编著的普通话口音特征存于外部，在工作时进行调用。口音识别模块23包含口音模型库，或将口音模型库存于外部，在工作时进行调用。

在本实施例中，口音特征提取模块21与语音采集装置1信号连接，从而对目标人物进行实时采集的语音数据进行处理，口音识别模块23与虚拟显示装置3信号连接，将识别转化为标准普通话的数据发送给虚拟显示装置3进行处理，

在本实施例中，语音采集装置1为麦克风，虚拟显示装置3为VR眼镜或3D显示器，处理装置2为电脑或计算机设备，扬声装置4为音响或耳机。

在本实施例中，扬声装置4能够与处理装置2和虚拟显示装置3进行连接，其具体连接根据使用的显示处理的方式进行选择连接。

本发明的工作过程：语音采集装置1对目标人物进行语音数据实时采集并将语音数据发送给处理装置2，口音特征提取模块21对口音特征进行实时提取；然后口音特征分类模块22根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别，并且对被采集者的口音进行分类标注；最后口音识别模块23根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话发送虚拟显示装置3，虚拟显示装置3对输出标准普通话信息进行识别将对应的教学内容进行显示同时将相关语音通过扬声装置4进行输出，同时处理装置2还依次通过第一级优化模块24、第二级优化模块25、第三级优化模块26和融合模块27对口音模型库进行优化补充，使得口音识别模块23的识别效率提高。

通过本发明能够有效的提高输入语音来进行控制课程的准确性，在解决方言问题的同时提高识别精度、识别系统响应速度，从而能够有效提高实用性使得教学质量提高，帮助学生更好的学习、增加学习兴趣。

以上仅是本发明的优选实施方式，应当指出对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些都不会影响本发明实施的效果和专利的实用性。

Claims

1.一种方言语言的识别方法，其特征在于：包括以下处理步骤：

步骤3：口音识别模块根据被采集者的口音特征和所在区域及性别，从口音模型库中选择模型进行口音识别，将实时采集的语音数据转化成标准普通话；

步骤201：对语音声调特征的提取，

H(z)＝1-az^-1

s^-1(n)＝w(n)×s(n)

其中，n表示对应语音帧的长度，N表示语音帧的总帧数；

步骤202：对语音能量值的提取，

表示每帧的数据值；

步骤203：对语音基频的提取，

F＝2595lg(1+f/700)

其中，f表示语音的每一帧的频率，F表示提取的基频；

其中，C表示语音数据的音素，

定义如下：

M(n)＝(1-a²)M(n-1)

其中，a＝0.35，n表示对应语音帧的长度；

所述口音模型库中选择的模型进行口音识别，将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤，

步骤601:建立被采集者的口音特征集

(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n))，

并计算各口音特征的权、阈值，即

其中，ω_i为口音特征的权、阈值，N表示语音帧的总帧数；

步骤602:依次计算每个ω_i的误差和，即

步骤603:根据误差和计算第t个语音段的权重值，即

步骤604:根据第t个语音段的权重值β^(t)调整ω_i；

即ω_i+1＝ω_i(1-l)β^(t)，其中，l为设定的值；

步骤605:对ω_i进行归一化处理，输出

即输出标准普通话。

2.根据权利要求1所述的一种方言语言的识别方法，其特征在于：在步骤2中，性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别，其过程为，首先对采集的语音数据进行基频提取，再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(S_m，S_w)，最后通过计算男性后验概率值-女性后验概率值S_m-S_w与0的大小，若结果大于0则为男，反之则为女。

3.根据权利要求1所述的一种方言语言的识别方法，其特征在于：在步骤2中，地域识别采用EM参数估计法来构建不同地域的高斯混合模型来识别，其过程为，首先对采集的语音数据进行混合特征的音素进行提取，并且通过混合特征音素分别计算出与不同地域的高斯混合模型的后验概率值(S₁，S₂，S₃,…S_n)，然后分别计算|S₁-S₂|、|S₂-S₃|、|S₃-S₄|、…、|S_n-1-S_n|，并选出绝对值最大的|S_n-1-S_n|，则该|S_n-1-S_n|中的S_n-1则对应采集的语音数据所对应的归属地域。

4.根据权利要求1所述的一种方言语言的识别方法，其特征在于：在本方法中还进行口音模型库优化，即将步骤1中提取的口音特征和编著的普通话口音特征进行对比，提取出该口音特征的差异数据，对差异数据进行数据规范化，并且对规范化后的差异数据进行模糊性判断，找出该差异数据与标准普通话的差异性，并且将差异性融合入口音模型库对应的模型。

5.根据权利要求4所述的一种方言语言的识别方法，其特征在于：所述规范化的方法为：通过计算得出提取的口音特征与标准普通话对应的各个特征的标准偏差，然后除以平均的语音时长，再乘以100；

6.一种虚拟现实教学方法，包括用于对目标人物进行语音数据实时采集的语音采集步骤、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示步骤，其特征在于，所述的语音采集步骤是对目标人物进行语音数据的实时采集，然后将实时采集的语音数据利用权利要求1-权利要求5任一的一种方言语音的识别方法进行处理并输出标准普通话的步骤。

7.一种虚拟现实教学系统，包括用于对目标人物进行语音数据实时采集的语音采集装置、用于对输出标准普通话信息进行识别并将对应的教学内容进行显示的虚拟显示装置，其特征在于，还包括用于实现权利要求1-权利要求5任一的一种方言语音的识别方法的处理装置和用于给语音采集装置、虚拟显示装置和处理装置分别提供稳定电能的电源装置，所述语音采集装置与处理装置信号连接，所述处理装置与虚拟显示装置信号连接，所述处理装置包括依次信号连接的口音特征提取模块、口音特征分类模块和口音识别模块，从而形成方言的语音识别系统。

8.根据权利要求7所述的一种虚拟现实教学系统，其特征在于，所述处理装置还包括用于将提取的口音特征和编著的普通话口音特征进行对比从而提取出该口音特征的差异数据的第一级优化模块、对差异数据进行数据规范化处理的第二级优化模块、用于对规范化后的差异数据进行模糊性判断从而找出该差异数据与标准普通话的差异性的第三级优化模块和将差异性融合入口音模型库对应的模型的融合模块，所述口音特征提取模块还依次通过第一级优化模块、第二级优化模块、第三级优化模块和融合模块与口音识别模块信号连接。