CN116682414B

CN116682414B - 一种基于大数据的方言语音识别系统

Info

Publication number: CN116682414B
Application number: CN202310663719.2A
Authority: CN
Inventors: 李立强; 陈金明
Original assignee: Anhui Dike Digital Gold Technology Co ltd
Current assignee: Anhui Dike Digital Gold Technology Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2024-01-30
Anticipated expiration: 2043-06-06
Also published as: CN116682414A

Abstract

本发明公开了一种基于大数据的方言语音识别系统，涉及语音识别技术领域，解决了现有技术针对每个语音指令匹配对应的语音特征，影响方言识别效率，降低了智能终端控制体验的技术问题；本发明基于目标特征组对实时语音数据进行语音特征提取，获取方言特征组；根据方言特征组确定实时语音数据对应的方言类型，并结合与方言类型相匹配的语言转换模型完成方言识别；本发明设计了一种通用可靠的方言识别系统，不需要提前录制语音数据，提升用户体验；本发明根据方言识别系数筛选出至少一个语音特征组，标记为目标特征组；本发明通过对若干多源语音数据的分析，确定最贴合的目标特征组，通过目标特征组实现的方言识别应用范围更广，识别的内容更加丰富。

Description

一种基于大数据的方言语音识别系统

技术领域

本发明属于语音识别领域，涉及基于大数据的方言语音识别技术，具体是一种基于大数据的方言语音识别系统。

背景技术

很多智能终端中均引入了语音控制技术，但大多智能设备仅能识别普通话，对于方言区的用户来说并不实用。各种方言之间存在一定相似度，但在语言层面上通常存在较大差异，因此开发出能够进行方言识别的语音识别系统非常重要。

目前的方言识别系统进行方言识别时，需要用户录入语音指令以及对应的操作指令；之后在获取语音信息之后，提取语音信息中的语音指令，进而根据语音指令匹配发出对应的操作指令。现有技术需要进行信息提前录入，以及根据预先设置的至少一个语音特征来识别语音指令；增加操作难度，同时针对单个语音指令进行匹配难以完成连续语音的识别，影响方言识别效率，进而导致智能设备的控制效果不好。

本发明提出了一种基于大数据的方言语音识别系统，以解决上述问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一；为此，本发明提出了一种基于大数据的方言语音识别系统，用于解决现有技术针对每个语音指令匹配对应的语音特征，影响方言识别效率，降低了智能终端控制体验的技术问题。

为实现上述目的，本发明的第一方面提供了一种基于大数据的方言语音识别系统，包括中枢控制模块，以及与之相连接的数据交互模块；数据交互模块分别与数据库和语音采集设备相连接；中枢控制模块通过数据库提取若干多源语音数据；按照方言类型对若干多源语音数据进行归类，获取若干方言组；之后获取若干语音特征，组合若干语音特征获取若干语音特征组；以及通过若干方言组验证若干语音特征组对应的方言识别效率，获取方言识别系数；根据方言识别系数筛选出至少一个语音特征组，标记为目标特征组；中枢控制模块通过语音采集设备采集实时语音数据；基于目标特征组对实时语音数据进行语音特征提取，获取方言特征组；根据方言特征组确定实时语音数据对应的方言类型，并结合与方言类型相匹配的语言转换模型完成方言识别。

现有技术在进行方言识别时，需要预先录制语音指令以及对应的操作指令，对语音指令和操作指令进行处理关联后备用。在用户通过语音进行控制时采集语音数据，从语音数据中提取语音指令，根据语音指令匹配对应的控制指令。这种方式不仅需要提前进行数据录制，影响用户体验；而且在没有相对应的语音指令时即无法进行控制，限制了该方言识别方法的应用领域。

本发明根据记载或者已知的方言类型设置若干语音特征组，并通过大量的多源语音数据验证各语音特征组的效果，选择效果最好的一个作为目标特征组，并将验证过程中该目标特征组对应的人工智能模型标记为方言识别模型。之后通过语音采集设备采集实时语音数据，按照目标特征组对其进行特征提取，结合方言识别模型可确定对应的方言类型，结合相匹配的语音转换模型将实时语音数据转换成普通话，便于后续的控制。

本发明中的中枢控制模块与数据交互模块通信和/或电气连接；数据交互模块分别与数据库和语音采集设备通信和/或电气连接；数据库用于存储多源语音数据和若干语音特征；语音采集设备用于采集用户的实时语音数据。中枢控制模块主要负责数据处理工作，数据交互模块则负责采集数据；数据库可设置在后端或者云存储器中；数据处理过程均可在云服务器中进行。语音采集设备可集成在智能终端中，用于实时采集用户的实时语音数据。本发明的多源语音数据通过大数据技术获取，是通过大数据技术从互联网或者第三方数据库中获取的各种方言对应的语音数据集。

本发明中的语言转换模型将方言语音数据转换为普通话语音数据，每种类型的方言数据均对应一个语言转换模型，该语言转换模型也是基于人工智能模型构建的。具体构建方式可参考公开号为CN112509555A的中国发明专利申请，该发明专利申请公开了一种方言语音识别方法、装置、介质及电子设备。该方法包括：获取待识别方言语音；将待识别方言语音输入编码模型得到与待识别方言语音对应的待识别低维序列，编码模型是基于使用普通话训练样本集训练得到的第一比对模型和使用方言训练样本集训练的第二比对模型得到的，将待识别低维序列进行解码，得到与待识别方言语音对应的文本，能够在一定程度上增加方言语音识别的准确性。

优选的，所述按照方言类型对多源语音数据进行归类，包括：根据方言类型对多源语音数据进行划分，获取若干数据组；验证若干数据组中多源语音数据的数量大于数量阈值；是，则将若干数据组标记为若干方言组，并与方言类型进行关联；否，则对数据组进行数据补充。

本发明根据预先设置的方言类型对多源语音数据进行划分，这样可获取包含同种方言语音数据的若干数据组。之后，需要对若干数据组进行验证，这里主要进行数量验证，只有语音数据的数量足够时才能挖掘出该种方言与其他方言之间语音特征的区别。当某方言对应数据组的语音数据数量不满足要求时，则对其进行补充。在另外一些优选的实施例中，在数量验证的基础上还可以进行质量验证，如语音数据内容是否有效，语音数据是否足够长等。需要说明的是，本发明中方言类型根据记载的方言区或者方言区中的地方方言设置。

优选的，所述组合若干语音特征获取若干语音特征组，包括：在效率和精度的基础上预先设置语音特征组对应语音特征的数量范围；将若干语音特征划分为主特征和次特征；在数量范围的限定下对次特征进行排列组合，获取若干次特征组；将若干次特征组与主特征整合，获取若干语音特征组。

本发明中的主特征和次特征按照方言识别过程各自对应的权重进行划分。主特征包括基频特征、能量特征和时长特征；基频特征主要包括基音频率及其均值、变化范围、变化率和均方差；能量特征主要包括短时平均能量、短时能量变化率、短时平均振幅、振幅平均变化率和短时最大振幅；时长特征主要包括语速和短时平均过零率。次特征包括基频构造、共振峰构造、MFCC系数或者Mel频谱能量动态系数；基频构造包括基频轨迹曲线的最大值、整个曲线的基频平均值、变化范围以及基音频率的1/4分位点、3/4分位点、1/3分位点和2/3分位点；共振峰构造包括第一共振峰频率、第二共振峰频率、第三共振峰频率的最大值、平均值、动态变化范围、1/4分位点、3/4分位点、1/3分位点和2/3分位点；MFCC系数包括1-12阶的MFCC系数；Mel频谱能量动态系数包括12个等间隔的频带上的频谱能量动态系数。

在效率和精度的双重考虑下设置语音特征组对应语音特征的数量范围。效率的限制主要是避免数量范围过大，如某语音特征组的语音特征数量为10000，则明显会降低数据处理效率。精度的限制主要是避免数量范围过小，如某语音特征组的语音特征数量为1，则该语音特征组显然难以区分出各种方言。一般来说，可将语音特征组对应语音特征的数量范围设置为3-50。

本发明中可从基频特征、能量特征和时长特征中各选择一个具有代表性的语音特征作为主特征，然后对次特征进行排列组合获取若干次特征组。将著特征与次特征组整合起来获取语音特征组。在另外一些优选的实施例中，可以将基频特征、能量特征和时长特征中所有的特征均为主特征；或者不区分主特征与次特征，对所有语音特征进行排列组合获取若干语音特征组。

优选的，所述通过若干方言组验证若干语音特征组对应的方言识别效率，包括：为若干方言组中若干多源语音数据设置方言标签，基于若干语音特征组依次提取多源语音数据的语音特征；将每条多源语音数据对应的语音特征整合成标准输入数据，将对应的方言标签整合成标准输出数据；通过同一语音特征组对应的标准输入数据和标准输出数据训练人工智能模型，根据识别时长和人工智能模型的识别精度获取对应语音特征组的方言识别系数。

每条多源语音数据均需要设置方言标签，也就是需要明确其所属的方言类型。然后基于若干语音特征组依次提取多源语音数据的语音特征，在每个语音特征组之下，均包括若干组语音特征(数量与多源语音数据相同)，这若干组语音特征作为该语音特征组下的标准输入数据，而将方言标签作为标准输出数据；通过标准输入数据和标准输出数据来训练人工智能模型，在训练完成之后对其进行验证，在验证过程中提取方言的识别时长和识别精度，两个参数结合可获取对应的方言识别系数。该方言识别系数与语音特征组相关联。

优选的，所述根据方言识别系数筛选出至少一个语音特征组，包括：判断语音特征组的方言识别系数是否大于设定的方言识别阈值；是，则判断语音特征组符合要求；否，则判断语音特征组不符合要求；从符合要求的语音特征组中选择识别时长最短和/或识别精度最高的语音特征组作为目标特征组。

本发明将若干语音特征组的方言识别系数与方言识别阈值进行比较，提取符合要求的语音特征组。从符合要求的语音特征组中提取识别时长最短的语音特征组作为目标特征组，则对应训练的人工智能模型作为方言识别模型。或者提取识别精度最高的语音特征组作为目标特征组。或者将识别时长最短的语音特征组和识别精度最高的语音特征组均提取出来作为目标特征组；其中一个目标特征组用于方言识别，另外一个用于对识别结果进行验证。

优选的，所述基于目标特征组对实时语音数据进行语音特征提取，包括：在采集到实时语音数据之后，提取目标特征组中的若干语音特征；按照提取的若干语音特征从实时语音数据中提取数据，整合成方言特征组。

本发明在获取实时语音数据之后，根据确定的目标特征组提取实时语音数据的若干语音特征，获取方言特征组。将方言特征组输入至方言识别模型即可确定对应的方言类型，进而通过与该方言类型相匹配的语言转换模型将实时语音数据转换成普通话。

优选的，所述根据方言特征组确定实时语音数据对应的方言类型，包括：在目标特征组的筛选过程中，将目标特征组对应的人工智能模型标记为方言识别模型；将获取的方言特征组输入至方言识别模型，获取对应的方言标签；根据方言标签确定方言类型。

与现有技术相比，本发明的有益效果是：

1.本发明基于目标特征组对实时语音数据进行语音特征提取，获取方言特征组；根据方言特征组确定实时语音数据对应的方言类型，并结合与方言类型相匹配的语言转换模型完成方言识别；本发明设计了一种通用可靠的方言识别系统，不需要提前录制语音数据，提升用户体验。

2.本发明按照方言类型对若干多源语音数据进行归类，获取若干方言组；通过若干方言组验证若干语音特征组对应的方言识别效率，获取方言识别系数；根据方言识别系数筛选出至少一个语音特征组，标记为目标特征组；本发明通过对若干多源语音数据的分析，确定最贴合的目标特征组，通过目标特征组实现的方言识别应用范围更广，识别的内容更加丰富。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的工作步骤示意图；

图2为本发明的系统原理示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-图2，本发明第一方面实施例提供了一种基于大数据的方言语音识别系统，包括中枢控制模块，以及与之相连接的数据交互模块；数据交互模块分别与数据库和语音采集设备相连接；中枢控制模块通过数据库提取若干多源语音数据；按照方言类型对若干多源语音数据进行归类，获取若干方言组；之后获取若干语音特征，组合若干语音特征获取若干语音特征组；以及通过若干方言组验证若干语音特征组对应的方言识别效率，获取方言识别系数；根据方言识别系数筛选出至少一个语音特征组，标记为目标特征组；中枢控制模块通过语音采集设备采集实时语音数据；基于目标特征组对实时语音数据进行语音特征提取，获取方言特征组；根据方言特征组确定实时语音数据对应的方言类型，并结合与方言类型相匹配的语言转换模型完成方言识别。

本实施例的第一步是中枢控制模块通过数据库提取若干多源语音数据；按照方言类型对若干多源语音数据进行归类，获取若干方言组；之后获取若干语音特征，组合若干语音特征获取若干语音特征组。

对若干多源语音数据进行预判断，按照方言类型对其进行划分，可得到若干数据组。当数据组对应的多源语音数据的数量满足模型训练要求时，则标记为方言组；否则，通过各种途径对方言组进行数据补充。

将目前语音识别常用的语音特征集合起来，根据现有研究将语音特征分为主特征和次特征，也就是现有方言识别技术占比较大的语音特征划分至主特征，将占比较小的语音特征划分至次特征，则可以获取两组特征。

在语音特征组中，主特征为必选，次特征根据排列组合的方式来选择，保证主特征与次特征结合之后得到的语音特征组中语音特征的数量在设定的数据范围之内。在另外一些优选的实施例中，可以对主特征和次特征进行混合后排列组合，获取若干语音特征组。

本实施例的第二步是通过若干方言组验证若干语音特征组对应的方言识别效率，获取方言识别系数；根据方言识别系数筛选出至少一个语音特征组，标记为目标特征组。

确定了若干语音特征组，则根据每个语音特征组均对若干多源语音数据进行特征提取，则每个语音特征组均对应一组标准输入数据和标准输出数据。将标准输入数据和标准输出数据划分为训练数据和验证数据，通过训练数据对人工智能模型进行训练，通过验证数据来验证训练得到的人工智能模型的方言识别时长和识别精度，这样获取该语音特征组对应的方言识别系数。方言识别系数的具体获取方式如下：将识别时长和识别精度分别标记为SS和SJ，通过公式FSX＝α×SS×exp(SJ)计算获取方言识别系数FSX。

重复上述过程，每个语音特征组均对应一个方言识别系数，结合方言识别阈值进行筛选，获取符合要求的若干语音特征组。选择符合要求的若干语音特征组中的识别时长最短的作为目标特征组，该目标特征组对应的方言识别过程能够保证最佳的识别效率。或选择符合要求的若干语音特征组中的识别精度最高的作为目标特征组，该目标特征组对应的方言识别过程能够保证最高的识别精度。还可以用识别时长最短和识别精度最高的目标特征组相互验证方言识别结果。

本实施例的第三步是中枢控制模块通过语音采集设备采集实时语音数据；基于目标特征组对实时语音数据进行语音特征提取，获取方言特征组；根据方言特征组确定实时语音数据对应的方言类型，并结合与方言类型相匹配的语言转换模型完成方言识别。

在获取实时语音数据之后，根据确定的目标特征组提取实时语音数据对应的若干语音特征，将其整合之后输入至方言识别模型中获取对应的方言标签。根据方言标签可确定方言类型，进而调用对应的语言转换模型，完成将实时语音信息翻译成普通话的过程，当然也可以直接输出文本，以便进行后续的控制。需要说明的是，本实施例中的若干多源语音数据均对应一个方言标签，方言标签用数字表示，如01、02、……、99，每个方言标签均与一种方言类型相对应。

上述公式中的部分数据是去除量纲取其数值计算，公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式；公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。

本发明的工作原理：提取若干多源语音数据；按照方言类型对若干多源语音数据进行归类，获取若干方言组；之后获取若干语音特征，组合若干语音特征获取若干语音特征组。通过若干方言组验证若干语音特征组对应的方言识别效率，获取方言识别系数；根据方言识别系数筛选出至少一个语音特征组，标记为目标特征组。采集实时语音数据；基于目标特征组对实时语音数据进行语音特征提取，获取方言特征组；根据方言特征组确定实时语音数据对应的方言类型，并结合与方言类型相匹配的语言转换模型完成方言识别。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种基于大数据的方言语音识别系统，包括中枢控制模块，以及与之相连接的数据交互模块；数据交互模块分别与数据库和语音采集设备相连接；其特征在于：

中枢控制模块通过数据库提取若干多源语音数据；按照方言类型对若干多源语音数据进行归类，获取若干方言组；之后获取若干语音特征，组合若干语音特征获取若干语音特征组；以及，

通过若干方言组验证若干语音特征组对应的方言识别效率，获取方言识别系数；根据方言识别系数筛选出至少一个语音特征组，标记为目标特征组；其中，通过公式FSX=α×SS×exp(SJ)计算获取方言识别系数FSX，SS为识别时长，SJ为识别精度；

中枢控制模块通过语音采集设备采集实时语音数据；基于目标特征组对实时语音数据进行语音特征提取，获取方言特征组；根据方言特征组确定实时语音数据对应的方言类型，并结合与方言类型相匹配的语言转换模型完成方言识别；其中，语言转换模型将方言语音数据转换为普通话语音数据；

所述组合若干语音特征获取若干语音特征组，包括：

在效率和精度的基础上预先设置语音特征组对应语音特征的数量范围；将若干语音特征划分为主特征和次特征；其中，主特征和次特征按照方言识别过程各自对应的权重进行划分；

在数量范围的限定下对次特征进行排列组合，获取若干次特征组；将若干次特征组与主特征整合，获取若干语音特征组；

所述通过若干方言组验证若干语音特征组对应的方言识别效率，包括：

为若干方言组中若干多源语音数据设置方言标签，基于若干语音特征组依次提取多源语音数据的语音特征；将每条多源语音数据对应的语音特征整合成标准输入数据，将对应的方言标签整合成标准输出数据；

通过同一语音特征组对应的标准输入数据和标准输出数据训练人工智能模型，根据识别时长和人工智能模型的识别精度获取对应语音特征组的方言识别系数；其中，人工智能模型包括BP神经网络模型或者RBF神经网络模型。

2.根据权利要求1所述的一种基于大数据的方言语音识别系统，其特征在于，所述按照方言类型对多源语音数据进行归类，包括：

根据方言类型对多源语音数据进行划分，获取若干数据组；其中，方言类型根据记载的方言区或者方言区中的地方方言设置；

验证若干数据组中多源语音数据的数量大于数量阈值；是，则将若干数据组标记为若干方言组，并与方言类型进行关联；否，则对数据组进行数据补充。

3.根据权利要求1所述的一种基于大数据的方言语音识别系统，其特征在于，所述根据方言识别系数筛选出至少一个语音特征组，包括：

判断语音特征组的方言识别系数是否大于设定的方言识别阈值；是，则判断语音特征组符合要求；否，则判断语音特征组不符合要求；

从符合要求的语音特征组中选择识别时长最短和/或识别精度最高的语音特征组作为目标特征组。

4.根据权利要求3所述的一种基于大数据的方言语音识别系统，其特征在于，所述基于目标特征组对实时语音数据进行语音特征提取，包括：

在采集到实时语音数据之后，提取目标特征组中的若干语音特征；

按照提取的若干语音特征从实时语音数据中提取数据，整合成方言特征组。

5.根据权利要求4所述的一种基于大数据的方言语音识别系统，其特征在于，所述根据方言特征组确定实时语音数据对应的方言类型，包括：

在目标特征组的筛选过程中，将目标特征组对应的人工智能模型标记为方言识别模型；

将获取的方言特征组输入至方言识别模型，获取对应的方言标签；根据方言标签确定方言类型；其中，方言标签与方言类型一一对应。

6.根据权利要求1所述的一种基于大数据的方言语音识别系统，其特征在于，所述中枢控制模块与所述数据交互模块通信和/或电气连接；所述数据交互模块分别与数据库和语音采集设备通信和/或电气连接；

所述数据库用于存储多源语音数据和若干语音特征；所述语音采集设备用于采集用户的实时语音数据；其中，多源语音数据通过大数据技术获取。