CN112908296A

CN112908296A - 一种方言识别方法

Info

Publication number: CN112908296A
Application number: CN202110187552.8A
Authority: CN
Inventors: 郑增亮; 苏前敏
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-06-04

Abstract

本发明公开了一种方言识别方法包括：收集并录入各地区方言数据，并基于Hadoop平台建立初始方言数据库，提取所述初始方言数据库中的语音特征，并建立卷积神经网络模型，对所述卷积神经网络模型进行训练，将训练后的所述卷积神经网络模型进行用户语音匹配检测，并根据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优化。本发明弥补了当前语音识别中方言识别欠缺的缺陷，初始方言数据库可通过自我学习不断完善，当达到一定规模时，其识别精度与普通话识别无异，使得语音识别系统可以应用的领域更加广泛。

Description

一种方言识别方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种语音识别方法。

背景技术

近年来，随着人工智能的兴起，语音识别技术取得明显的进步，并应用于我们生活的各个方面，例如苹果公司的Siri、微软公司的小娜、小米公司的小爱同学、百度公司的小度。语音智能助理的功能不断完善，可以与用户聊天、操作智能设备、智能家居管理等等。

目前，普通话识别技术逐渐成熟，但对于方言的识别仍然非常欠缺。一方面，中国的地区多，不同地区都有自己的方言，方言统计起来耗时耗力；另一方面，方言口口相传，并没有确定的方言标准。所以，到目前为止，并未有一个可以识别全国方言的语音识别系统。因此，如何解决语音识别中的缺陷，完善语音识别功能是目前有待解决的问题。

发明内容

本发明要解决的技术问题是如何解决语音识别中的缺陷，完善语音识别功能，提供一种方言识别方法。

本发明是通过下述技术方案来解决上述技术问题：

一种方言识别方法，所述识别方法包括：

收集并录入各地区方言数据，并基于Hadoop平台建立初始方言数据库；

提取所述初始方言数据库中的语音特征，并建立卷积神经网络模型；

对所述卷积神经网络模型进行训练；

将训练后的所述卷积神经网络模型进行用户语音匹配检测，并根据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优化。

进一步地，所述初始方言数据库中存储的数据包括：各方言所属的地区，与方言对应的语音数据，与方言对应的文本数据，所述用户满意度。

进一步地，所述方言数据包括：语音数据和文本数据，所述语音数据和所述文本数据存储于所述初始方言数据库的分布式文件系统中。

进一步地，所述提取所述方言数据库中的语音特征包括：

使用VAD技术对录入的所述语音数据按频率进行分段处理；

对进行所述分段处理后的所述语音数据采用聚类方法进行降噪处理。

进一步地，所述进行用户语音匹配检测包括：

用户录入方言；

所述卷积神经网络模型对所述用户录入方言进行语音特征提取，获取用户语音特征；

当所述用户语音特征存在于所述初始方言数据库中时，进行语音征匹配，当语音特征匹配成功时，则输出所述用户语音特征的匹配文本，当语音特征匹配不成功时，所述初始方言数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本数据；

当所述用户语音特征不存在于所述初始方言数据库中时，所述初始方言数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本数据。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明弥补了当前语音识别中方言识别欠缺的缺陷；初始方言数据库可通过自我学习不断完善，当达到一定规模时，其识别精度与普通话识别无异，使得语音识别系统可以应用的领域更加广泛。

附图说明

图1为本发明一种方言识别方法一实施例中的方法流程图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

S01：收集并录入各地区方言数据，并基于Hadoop平台建立初始方言数据库；

在一个示例中，收集大量的各个地区的方言资料，根据地区把这些语音及其文本数据分地区全部录入，基于Hadoop平台，建立初始方言数据库，语音数据和文本数据均存储在HDFS(Hadoop Distributed File System，Hadoop 分布式文件系统)中。初始方言数据库中需存储以下数据：一是该方言所属地区；二是的该方言提取的声音特征；三是该方言的文本数据；四是用户满意度信息。

S02：提取所述初始方言数据库中的语音特征，并建立卷积神经网络模型；

在一个示例中，从语音波形中提取出语音特征序列，建立卷积神经网络模型，首先使用基于模型的VAD(Voice Activity Detection，语音活动检测)技术对录入的方言按照频率进行分段，然后采用聚类的方法对语音模型进行降噪处理，排除不同人之间的口音特征，按照不同地区的方言进行聚类。主流的特征域的处理方式包括VTLN(Vocal TractLength Normalization，声道长度归一化)、HLDA、特征域SAT相关技术，较好的提取其声学特征。所建立的卷积神经网络模型，使用大量的卷积层直接对整句语音信号进行建模，每个卷积层使用3x3的小卷积核，并在多个卷积层之后再加上池化层。 CNN(ConvolutionalNeural Network，卷积神经网络)，最开始应用于图像处理，当运用于语音识别中的频谱图时，可以克服传统语音识别中采样时间，频率而导致的不稳定问题。

S03：对所述卷积神经网络模型进行训练；

在一个示例中，使用在初始方言数据库中与初筛数据集关联性大于设定阈值的数据对卷积神经网络模型进行训练，从而确定卷积神经网络模型的参数。

S04:将训练后的所述卷积神经网络模型进行用户语音匹配检测，并根据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优化。

在一个示例中，在录入端，用户录入方言，然后对用户录入的方言进行语音特征提取，当提取的语音特征存在于初始方言数据库中时，与初始方言数据库中的语音特征进行比对，若成功匹配，则输出匹配文本；若没有匹配项，初始方言数据库储存其声音特征，并向录入模块进行反馈，用户自行输入方言的文本数据，输入后的文本数据和语音特征共同存储在初始方言数据库中。当提取的语音特征不存在于初始方言数据库中时，则初始方言数据库暂时存储方言的语音特征，然后反馈给录入模块，录入模块给用户提供一个输入文本数据的选项，用户根据自己所录入的方言语音，自行录入文本数据。卷积神经网络模型可以将新增的用户输入的语音和文本数据输入神经网络模型进行计算，得到预测结果集；建立每个预测结果与其时间维度上相邻数据的关联映射，对预测结果进行调整，使关联映射全部收敛，不断调整优化模型，以此提高方言数据库的识别精确度。并且，用户根据输出的文本信息进行满意度的反馈，反馈的满意度越高，说明该方言识别的准确度越高。通过对模型的不断优化，对用户反馈的识别满意度不高的方言重点进行优化，更加高效迅速的提高方言识别系统的识别准确度。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种方言识别方法，其特征在于，所述识别方法包括：

对所述卷积神经网络模型进行训练；

2.如权利要求1所述的一种方言识别方法，其特征在于，所述初始方言数据库中存储的数据包括：各方言所属的地区，与方言对应的语音数据，与方言对应的文本数据，所述用户满意度。

3.如权利要求1所述的一种方言识别方法，其特征在于，所述方言数据包括：语音数据和文本数据，所述语音数据和所述文本数据存储于所述初始方言数据库的分布式文件系统中。

4.如权利要求1所述的一种方言识别方法，其特征在于，所述提取所述方言数据库中的语音特征包括：

使用VAD技术对录入的所述语音数据按频率进行分段处理；

5.如权利要求1所述的一种方言识别方法，其特征在于，所述进行用户语音匹配检测包括：

用户录入方言；