CN110211565B

CN110211565B - 方言识别方法、装置及计算机可读存储介质

Info

Publication number: CN110211565B
Application number: CN201910370435.8A
Authority: CN
Inventors: 赵婧; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2023-04-04
Anticipated expiration: 2039-05-06
Also published as: CN110211565A

Abstract

本发明涉及智能决策技术领域，公开了一种方言识别方法，该方法包括：获取原始方言样本；预处理原始方言样本，得到预处理后的样本；从所述预处理后的样本中提取方言特征向量；利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；获取待识别的目标方言数据；基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；根据所述多个不同相似度的语音文本中，确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。本发明还提出一种方言识别装置以及一种计算机可读存储介质。本发明能实现利用深度神经网络提取语音的抽象特征，能更准确的识别方言。

Description

方言识别方法、装置及计算机可读存储介质

技术领域

本发明涉及智能决策技术领域，尤其涉及一种方言识别方法、装置及计算机可读存储介质。

背景技术

中国话将普通话作为官方语言。但是各地区、各民族的方言种类众多。方言则普遍的通用于各个不同地区。例如四川方言是盛行于四川省和重庆市的主要方言，并对云贵地区方言产生深远影响。方言发音主要从古巴蜀语的西南官话演变而来。但由于四川方言缺少舌尖后音声母和韵母儿化的特点。四川方言发音与普通话有很大区别。这也同时表现在声学特征方面，其中重点是表现在声韵母系统和语音韵律不同。元音声学特征的共振峰上的差异是四川方言与普通话声韵母系统不同的主要表现：普通发音音调和说话语速之间的差别导致四川方言的语音韵律有明显不同。其中用来衡量说话人发音韵律变化的特征向量的连续动态变化轨迹的差分特征表现最为明显。虽然国内对于语音识别技术已日趋成熟，但是方言识别还甚少研究，因此，为了更准确的识别方言，需要提出一种更准备的方言识别方法，以提高方言的识别率。

发明内容

本发明提供一种方言识别方法、装置及计算机可读存储介质，其主要目的在于实现利用深度神经网络提取语音的抽象特征，能更准确的识别方言。

为实现上述目的，本发明还提供一种方言识别方法，所述方法包括：

获取原始方言样本；

预处理原始方言样本，得到预处理后的样本；

从所述预处理后的样本中提取方言特征向量；

利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；

获取待识别的目标方言数据；

基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；

根据所述多个不同相似度的语音文本中，确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。

优选地，所述预处理原始方言样本，得到预处理后的样本包括：

对所述原始方言样本预加重，得到预加重后的样本；

对预加重后的样本进行加窗分帧操作，获得语音帧；

通过端点检测将语音帧划分为多个阶段，所述多个阶段包括静音帧、缓冲音帧、非静音帧、结束帧；

去除所述语音帧中的静音帧，得到去除的语音帧。

优选地，所述从所述预处理后的样本中提取方言特征向量包括：

利用递归神经网络模型结构，从去除后的语音帧中提取方言特征向量，其中所述递归神经网络模型结构包括输入层、隐藏层及输出层，所述输入层包括128和64神经元的两个双向循环层，并含有32个神经元的单向循环层，所述隐藏层有256个神经元。

优选地，利用递归神经网络模型结构，从去除后的语音帧中提取方言特征向量包括：

将去除后的语音帧作为序列输入到编码器中，通过GRU进行复位门和更新门，并确定递归迭代过程中对之前状态的依赖程度，所述隐藏层将学到的分布式特征表示映射到样本标记空间，组合学习到的序列对应的音素序列的特征作为方言特征向量。

优选地，所述方言识别模型为深度神经网络DNN模型，所述利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型包括：

获取第一预设数量的训练数据；

将所述第一预设数量的训练数据依次输入所述方言识别模型，并利用第二预设数量的训练数据校验训练后的方言识别模型；

利用第二预设数量的训练数据校验训练后的方言识别模型，若训练后的方言识别模型的识别准确率大于或等于预设阈值，则训练完成；

若训练后的方言识别模型的识别准确率小于预设阈值，则发出提醒信息，提醒用户增加样本数量重新训练所述方言识别模型。

优选地，所述基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本包括：

提取所述目标方言数据的特征向量；

将所述目标方言数据的特征向量作为输入信号输入到所述方言识别模型的输入层；

在所述方言识别模型的多个隐藏层中，利用每个隐藏层对应的第一权值，对所述每个隐藏层的输入信号进行处理，获得所述每个隐藏层的输出信号；

在所述方言识别模型的输出层，对最上一隐藏层的输出信号进行处理，获得多个不同相似度的语音文本。

为了实现上述目的，本发明还提供一种方言识别装置，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的方言识别程序，所述方言识别程序被所述处理器执行时实现如下步骤：

获取原始方言样本；

预处理原始方言样本，得到预处理后的样本；

从所述预处理后的样本中提取方言特征向量；

获取待识别的目标方言数据；

对所述原始方言样本预加重，得到预加重后的样本；

对预加重后的样本进行加窗分帧操作，获得语音帧；

去除所述语音帧中的静音帧，得到去除的语音帧。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有方言识别程序，所述方言识别程序可被一个或者多个处理器执行，以实现如上所述的方言识别方法的步骤。

本发明获取原始方言样本；预处理原始方言样本，得到预处理后的样本；从所述预处理后的样本中提取方言特征向量；利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；获取待识别的目标方言数据；基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；根据所述多个不同相似度的语音文本中，确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。本发明能实现利用深度神经网络提取语音的抽象特征，能更准确的识别方言。

附图说明

图1为本发明一实施例提供的方言识别方法的流程示意图；

图2为本发明一实施例提供的方言识别装置的内部结构示意图；

图3为本发明一实施例提供的方言识别装置中方言识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种方言识别方法。参照图1所示，为本发明一实施例提供的方言识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，方言识别方法包括：

S10、获取原始方言样本。

在本实施例中，原始方言样本来源于语料库，例如四川方言语料来源于20个说话人(男性10人，女性10人)录制的音素覆盖平衡的四川方言语句，录音文件由20名说话者分别朗读产生。而所构成四川方言语音库中语音数据采用单通道16kHz采样，16位PCM量化，存储为wav格式。且该语料库的所有数据均配有对应四川话、普通话中文释义和对应字词典，以及分词文件。

S11、预处理原始方言样本，得到预处理后的样本。

在本实施例中，优选地，所述预处理原始方言样本，得到预处理后的样本包括：

对所述原始方言样本预加重，得到预加重后的样本；

对预加重后的样本进行加窗分帧操作，获得语音帧；

去除所述语音帧中的静音帧，得到去除的语音帧。

具体地，所述预加重即提高高频部分，使在低频到高频的整个频带中，信号频谱变得平坦，使其信噪比基本一致，以便于后续的一些处理，使音频信号不丢失，同时，还能通过增加语音部分能量，抑制随机噪声和直流漂移的影响。在本发明实施例中，选择数字滤波器对声音频率进行预加重。

所述加窗分帧即根据语音信号在一个非常小的时间范围内，其特性基本保持不变即相对稳定的特点，对音频信号进行分帧处理，在本发明实施例中，将声波数据流分段为每4毫秒长的帧，同时使相邻帧之间重叠约0-0.5倍帧长，防止了信号丢失。加窗与分帧一样，都起到把一段音频信号分割成若干个短时音频段的作用，即使音频信号实现“短时”。因为对音频信号分帧后，会在信号连续处突然截止(帧结束)，称之为音频帧的截断效应。所以就要对音频信号进行加窗处理，使帧信号的信号平滑降低到零，相当于在帧信号两端增加了坡度，平缓而不突兀。总的来说就是给音频信号乘以一个窗函数。在本发明实施例中，所选窗函数为汉明窗的窗函数。

在本发明实施例中，在对音频信号进行加窗处理后，并将不相关的数据去除，如静音和背景噪音,选择采用双门限端点检测的方法，区分语音、噪音和静音。所述双门限端点检测方法，也称两级判决法，其中“双门限”和“两级”是指对于短时过零率和短时能量这两个特征分别设置高门限和低门限，共四个门限值。因为端点检测主要区分静音段和非静音段，同时由于门限的设置。因此可以根据这两个音频特征参数与高低门限值的比较，可以把音频信号通过端点检测划分为静音段、缓冲音段、非静音段、结束段四个段。从而将静音段的声音去除，以减少噪声对特征向量的干扰，提高后续模型训练的准确性。

S12、从所述预处理后的样本中提取方言特征向量。

该语音特征向量也可以是上下文相关的，配置成接收多个帧的特征向量。该语音特征向量例如可以是Mel频率倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)、知觉线性预测(Perceptual Linear Predictive，PLP)特征等。

S13、利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型。

在本实施例中，方言识别模型是DNN声学模型，包括：

输入层，用于接收语音特征向量。

多个隐藏层(至少三个)。其中，每一隐藏层包括相应多个节点(神经元)，每一隐藏层中的每一节点被配置成，对来自所述DNN中的相邻下层的至少一个节点的输出执行线性或非线性变换。其中，上层隐藏层的节点的输入可以基于相邻下层中的一个节点或若干节点的输出。每个隐藏层具有对应的权值，其中该权值是基于训练数据的声学信号获得的。在对模型进行训练时，可以通过利用受监督或无监督的学习过程来进行模型的预训练，得到各个隐藏层的初始权值。对各隐藏层的权值的精细调节，可以通过采用向后传播(Backpropagation，BP)算法来进行。

输出层，用于接收来自最上一层隐藏层的输出信号。输出层的节点利用根据普通话发音音素组成的建模单元对接收到的信号进行处理，其输出是所述建模单元上的概率分布，在此将其称为概率。

优选地，所述方言识别模型为所述深度神经网络DNN模型，所述利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型包括：

获取第一预设数量的训练数据；

S14、获取待识别的目标方言数据。

其中，所述待识别的目标方言数据可以是任一种带有方言口音的普通话数据。

S15、基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本。

提取所述目标方言数据的特征向量；

S16、根据所述多个不同相似度的语音文本中，确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。

在本实施例中，利用定向搜索算法找出概率最大的音素序列，即所述目标方言数据对应的识别结果。

本发明还提供一种方言识别装置。参照图2所示，为本发明一实施例提供的方言识别装置的内部结构示意图。

在本实施例中，方言识别装置1可以是个人电脑(Personal Computer，PC)，也可以是智能手机、平板电脑、便携计算机等终端设备。该方言识别装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是方言识别装置1的内部存储单元，例如该方言识别装置1的硬盘。存储器11在另一些实施例中也可以是方言识别装置1的外部存储设备，例如方言识别装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括方言识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于方言识别装置1的应用软件及各类数据，例如方言识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行方言识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在方言识别装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及方言识别程序01的方言识别装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对方言识别装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有方言识别程序01；处理器12执行存储器11中存储的方言识别程序01时实现如下步骤：

获取原始方言样本。

预处理原始方言样本，得到预处理后的样本。

对所述原始方言样本预加重，得到预加重后的样本；

对预加重后的样本进行加窗分帧操作，获得语音帧；

去除所述语音帧中的静音帧，得到去除的语音帧。

从所述预处理后的样本中提取方言特征向量。

利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型。

在本实施例中，方言识别模型是DNN声学模型，包括：

输入层，用于接收语音特征向量。

获取第一预设数量的训练数据；

获取待识别的目标方言数据。

基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本。

提取所述目标方言数据的特征向量；

可选地，在其他实施例中，方言识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述方言识别程序在方言识别装置中的执行过程。

例如，参照图3所示，为本发明方言识别装置一实施例中的方言识别程序的程序模块示意图，该实施例中，方言识别程序可以被分割为获取模块10、预处理模块20、提取模块30、训练模块40、输出模块50及确定模块60，示例性地：

获取模块10获取原始方言样本；

预处理模块20预处理原始方言样本，得到预处理后的样本；

提取模块30从所述预处理后的样本中提取方言特征向量；

训练模块40利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；

所述获取模块10获取待识别的目标方言数据；

输出模块50基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；

确定模块60根据所述多个不同相似度的语音文本中，确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。

上述获取模块10、预处理模块20、提取模块30、训练模块40、输出模块50及确定模块60等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有方言识别程序，所述方言识别程序可被一个或多个处理器执行，以实现如下操作：

获取原始方言样本；

预处理原始方言样本，得到预处理后的样本；

从所述预处理后的样本中提取方言特征向量；

获取待识别的目标方言数据；

本发明计算机可读存储介质具体实施方式与上述方言识别装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种方言识别方法，其特征在于，所述方法包括：

获取原始方言样本；

预处理原始方言样本，得到预处理后的样本；

将预处理后的样本作为序列输入到递归神经网络模型结构的编码器中，通过GRU进行复位门和更新门，并确定递归迭代过程中对之前状态的依赖程度，利用隐藏层将学到的分布式特征表示映射到样本标记空间，组合学习到的序列对应的音素序列的特征作为方言特征向量，其中，所述方言特征向量包括Mel频率倒谱系数、知觉线性预测特征；

获取待识别的目标方言数据；

利用定向搜索算法从所述多个不同相似度的语音文本中找出概率最大的音素序列，作为所述目标方言数据对应的识别结果。

2.如权利要求1所述的方言识别方法，其特征在于，所述预处理原始方言样本，得到预处理后的样本包括：

对所述原始方言样本预加重，得到预加重后的样本；

对预加重后的样本进行加窗分帧操作，获得语音帧；

去除所述语音帧中的静音帧，得到去除的语音帧。

3.如权利要求2所述的方言识别方法，其特征在于，所述所述递归神经网络模型结构包括输入层、隐藏层及输出层，所述输入层包括128和64神经元的两个双向循环层，并含有32个神经元的单向循环层，所述隐藏层有256个神经元。

4.如权利要求1所述的方言识别方法，其特征在于，所述方言识别模型为深度神经网络DNN模型，所述利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型包括：

获取第一预设数量的训练数据；

5.如权利要求1至4中任一项所述的方言识别方法，其特征在于，所述基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本包括：

提取所述目标方言数据的特征向量；

6.一种方言识别装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的方言识别程序，所述方言识别程序被所述处理器执行时实现如下步骤：

获取原始方言样本；

预处理原始方言样本，得到预处理后的样本；

获取待识别的目标方言数据；

7.如权利要求6所述的方言识别装置，其特征在于，所述预处理原始方言样本，得到预处理后的样本包括：

对所述原始方言样本预加重，得到预加重后的样本；

对预加重后的样本进行加窗分帧操作，获得语音帧；

去除所述语音帧中的静音帧，得到去除的语音帧。

8.如权利要求7所述的方言识别装置，其特征在于，所述递归神经网络模型结构包括输入层、隐藏层及输出层，所述输入层包括128和64神经元的两个双向循环层，并含有32个神经元的单向循环层，所述隐藏层有256个神经元。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有方言识别程序，所述方言识别程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的方言识别方法。