CN113571045A

CN113571045A - 一种闽南语语音识别方法、系统、设备及介质

Info

Publication number: CN113571045A
Application number: CN202110615995.2A
Authority: CN
Inventors: 欧智坚; 刘岩; 肖吉; 孙磊
Original assignee: Beijing Tasi Intelligent Technology Co ltd
Current assignee: Beijing Tasi Intelligent Technology Co ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-10-29
Anticipated expiration: 2041-06-02
Also published as: CN113571045B

Abstract

本发明公开了一种闽南语语音识别方法、系统、设备及介质，使用普通话音素作为建模单元对闽南语进行识别，相较于传统的使用闽南语音素作为建模单元，大幅减少了音素序列的数量，降低了基于音素的n‑gram语言模型的复杂度，降低了工作量，从而提高了建模效率；同时，在目标函数中引入条件随机场CRF，CTC的状态后验可以看作是条件随机场的点势能，状态与状态之间的联系可以通过边势能引入，改善了词错误率水平，提高了声学模型的性能，从而提高了识别准确率。

Description

一种闽南语语音识别方法、系统、设备及介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种闽南语语音识别方法、系统、设备及介质。

背景技术

随着人工智能技术的发展，语音识别技术取得了巨大的进步，并开始进入家电、通信、汽车、医疗等各个领域。语音识别是把人的语音通过机器进行信号处理和识别，转变为相应文本，再通过语义分析和理解，最终让机器像人一样听懂我们的声音。

现有语音识别系统主要包括声学模型、语言模型和解码器三大模块。具体的，将带有标签的训练语音数据输入语音识别系统后，经过特征提取，得到声学特征向量；声学特征向量经由声学模型，得到每一声学特征向量对应的各个发音单元，解码器根据各个发音单元和语言模型来得到最终的语音识别结果。

虽然普通话识别已达到实用的水准，但直至目前，以闽南语作为研究对象的语音识别系统，尚未有成熟可靠的解决方案，实现闽南语语音识别系统将为闽南语各个片区提供友好的本地化服务，也能够为闽南语教学，闽南文化的传承与弘扬，创建更为便捷的环境。闽南语声母18 个，韵母至少有85个，声调7个，声母、韵母、声调三者能结合和使用的音节在2300个左右，与普通话只有1300多个音节相比，多了将近一倍的音节。

目前闽南语语音识别，主要是通过构建闽南语的声母表、韵母表和声调表来实现，即将闽南语汉字直接转换成闽南语音素序列，由于闽南语音节数量大，导致转换成闽南语音素序列工作量大。同时，声学模型作为闽南语语音识别系统的主要模块，其性能高低直接决定了闽南语语音识别系统的识别准确率的高低。目前，由于语音数据标注错误等原因导致声学模型训练精度不高，导致声学模型性能不高，进而导致识别准确率较低。

发明内容

本发明的目的在于提供一种闽南语语音识别方法、系统、设备及介质，以克服现有闽南语语音识别系统构建工作量大，效率低的问题，以及声学模型性能较低导致识别准确率较低的问题。

第一方面，本发明提供一种闽南语语音识别方法，包括以下步骤：

获取闽南语语音原始数据，提取所述原始数据中的语音特征序列；将所述语音特征序列输入至目标模型中，得到所述语音特征序列对应不同的预测音素序列的概率分布；

将汉语词典通过CTC算法映射到对应的音素标注序列，记为T.fst；

获取闽南语汉字信息，将所述闽南语汉字信息转换成多个汉语音素序列；多个所述汉语音素序列经过分母LM训练得到基于音素的n-gram语言模型，记为G.fst；

对所述T.fst与所述G.fst进行组合操作得到分母图，记为fst；

根据所述概率分布以及分母图，通过目标函数计算得到最优的预测音素序列所对应的概率，通过目标函数的值反向传播训练，得到训练好的声学模型；

识别时，将待识别语音特征序列输入至训练好的声学模型，得到待识别语音特征序列对应不同的预测音素序列的概率，再结合语言模型，解码搜索得到最优的识别结果。

进一步地，所述语音特征序列的提取过程为：

对所述原始数据提取Fbank特征，并获取Fbank特征的一阶差分特征和二阶差分特征；

将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接；

对拼接后的特征进行倒谱均值方差归一化处理；

对经倒谱均值方差归一化处理后的特征进行降采样，得到所述语音特征序列。

进一步地，将所述汉语词典通过CTC算法映射到对应的音素标注序列的具体步骤为：

将所述汉语词典转换成多个汉语音素标注序列；

在所述汉语音素标注序列中添加空白符，使汉语词典中的特征序列与汉语音素标注序列对齐；

去除掉添加了空白符的汉语音素标注序列中连续重复的字符；

去除掉所有空白符，得到对应的音素标注序列。

进一步地，所述目标函数通过最大化条件似然来定义，目标函数的具体表达式为：

其中，J_all(θ)表示目标函数，α表示辅助因子，x表示输入的语音特征序列，θ表示模型参数，π_m表示所述语音特征序列x对应的第m个预测音素序列，M表示所述语音特征序列x对应的不同的预测音素序列的数量，l表示所述语音特征序列x对应的音素标注序列，p(π_m|x)表示对于输入的语音特征序列为x，输出的预测音素序列为π_m时的概率，p(l|x；θ)表示在模型参数θ下，对于输入的语音特征序列为x，输出的音素标注序列为l时的概率。

进一步地，在所述解码搜索时，识别结果所采用的打分函数为：

S＝logp(l|x)+βlogp_w(l)

其中，S表示识别结果的得分，p(l|x)表示所述声学模型输出的待识别语音特征序列为x，对应的音素标注序列为l时的概率，β表示影响系数，p_w(l)表示单词级别的语言模型中音素标注序列l的概率。

第二方面，本发明提供一种闽南语语音识别系统，包括：

概率分布获取模块，用于获取闽南语语音原始数据，提取所述原始数据中的语音特征序列；将所述语音特征序列输入至目标模型中，得到所述语音特征序列对应不同的预测音素序列的概率分布；

第一有限状态转换器模块，用于将汉语词典通过CTC算法映射到对应的音素标注序列，记为T.fst；

第二有限状态转换器模块，用于获取闽南语汉字信息，将所述闽南语汉字信息转换成多个汉语音素序列；多个所述汉语音素序列经过分母LM训练得到基于音素的n-gram语言模型，记为G.fst；

分母图构建模块，用于对所述T.fst与所述G.fst进行组合操作得到分母图，记为fst；

目标函数计算模块，用于根据所述概率分布以及分母图，通过目标函数计算得到最优的预测音素序列所对应的概率，通过目标函数的值反向传播训练，得到训练好的声学模型；

识别模块，用于识别时，将待识别语音特征序列输入至训练好的声学模型，得到待识别语音特征序列对应不同的预测音素序列的概率，再结合语言模型，解码搜索得到最优的识别结果。

进一步地，所述概率分布获取模块，具体用于：

对拼接后的特征进行倒谱均值方差归一化处理；

进一步地，所述第一有限状态转换器模块，具体用于：

将所述汉语词典转换成多个汉语音素标注序列；

去除掉所有空白符，得到对应的音素标注序列。

进一步地，所述目标函数计算模块中，目标函数的具体表达式为：

第三方面，本发明提供一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的闽南语语音识别方法的步骤。

第四方面，本发明提供一种介质，所述介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的闽南语语音识别方法的步骤。

有益效果

与现有技术相比，本发明的优点在于：

本发明所提供的技术方案，使用普通话音素作为建模单元对闽南语进行识别，相较于传统的使用闽南语音素作为建模单元，大幅减少了音素序列的数量，降低了基于音素的n-gram语言模型的复杂度，降低了工作量，从而提高了建模效率；同时，在目标函数中引入条件随机场CRF， CTC的状态后验可以看作是条件随机场的点势能，状态与状态之间的联系可以通过边势能引入，改善了词错误率水平，提高了声学模型的性能，从而提高了识别准确率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中声学模型训练流程图；

图2是本发明实施例中CTC的条件随机场表示图；

图3是本发明实施例中CTC-CRF所使用的条件随机场；

图4是本发明实施例中闽南语语音识别流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，对于本发明实施例中出现的词语进行说明。

音节：是用听觉可以区分清楚的语音基本单位，为人正常的发音单元，音节之间具有明显可感知的界限；汉语音节中，一般一个汉字的读音为一个音节，示例性的，汉语文本“你”对应的音节为{ni}；

音素：为音标，是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位，音素间的界限模糊，其与上下文相关严重；

状态：为一个音素被人为的分成多个没有物理意义的状态，可以认为单个状态内音素的特征保持平稳，状态间的界限模糊，其与上下文相关严重；

CTC：Connectionist Temporal Classification，连接主义时序分类。CTC算法对于输入的X 能够给出非常多的Y的条件概率输出，虽然CTC算法不要求输入输出严格对齐，但是为了方便训练模型，需要一个将输入输出对齐的映射关系。

FST：Finite State Transducer，有限状态转换器。FST可描述一组规则的转换或一组符号序列到另一种符号序列的转换。

WFST：Weighted Finite State Transducer，加权有限状态转换器。在每一次状态转移时都有一个权重，在每次的初始状态都有初始权重，在每次的终止状态都有终止权重，权重一般是转移或初始/终止状态的概率或损失，权重会延每条路径进行累积，并在不同路径进行累加。

CRF：Conditional Random Field，条件随机场。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

第一方面，为了更清楚的描述方案，在对本发明实施例所提供的闽南语语音识别方法进行介绍之前，首先对声学模型训练的流程进行简单说明。

如图1所示，本实施例声学模型的训练流程为：

S110：获取闽南语语音原始数据，提取原始数据中的语音特征序列。

闽南语语音原始数据为已有数据集，采用已有数据集便于对声学模型进行训练。对于语音特征序列的提取分为以下几个步骤：

S111：对原始数据提取40维的Fbank特征，并获取Fbank特征的一阶差分特征和二阶差分特征。

S112：将当前帧的Fbank特征与该Fbank特征的一阶差分特征和二阶差分特征进行拼接。

S113：对拼接后的特征进行倒谱均值方差归一化处理。

S114：对经倒谱均值方差归一化处理后的特征进行3倍降采样，得到语音特征序列。

降采样的目的主要是为了训练和解码的速度，由于语音特征序列中包含了二阶差分特征，可以认为降采样并没有损失精度。示例性的，闽南语语音原始数据对应的汉语标注文本数据为我爱北京，提取的语音特征序列可以为4个，分别为“我”对应的语音特征帧，“爱”对应的语音特征帧，“北”对应的语音特征帧，“京”对应的语音特征帧。

S120：将步骤S114输出的语音特征序列输入至目标模型中，得到语音特征序列对应不同的预测音素序列的概率分布。

目标模型有多种形式，包括CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短时记忆网络)、RNN(Simple RecurrentNeuralNetwork，循环神经网络) 等。本实施例中，目标模型选用LSTM模型，为了解决RNN模型中梯度消失的问题，LSTM 模型通过引入状态c来保持梯度，从而达到缓解梯度消失的问题。示例性的，目标模型为6层双向LSTM，隐层单元的数目设置为320，在每层LSTM之间均添加了Dropout层，并将保留概率设置为0.5。可使用Pytorch来构建双向LSTM模型，使用Adam作为参数学习的优化器。一开始学习速率设置为0.001，当目标函数不再变化时，再将学习速率降为0.0001继续训练，直到目标函数不再变化，并没有对双向LSTM模型进行任何预训练。

对于条件随机场模型CRF，给定观测变量x，状态序列π的定义如下：

其中，π和x长度相等，θ为模型需要学习的参数。π通过一个CTC映射B：

和l联系起来。这个CTC映射B将状态序列π映射到了唯一的一个标注序列l。S_π和S_l分别是π和 l对应的符号表，M和L分别是π和l的长度，给定这些定义后，将p(l|x；θ)定义为

当x为输入的语音特征序列时，π即为对应的不同的预测音素序列，得到每个语音特征序列对应的所有的预测音素序列{π₁,π₂,……,π_M}，以及对应的预测音素序列的概率分布。如图2 所示，各个状态序列之间是相互独立的，要打破这种状态序列之间的相互独立，需要在CTC对应的CRF中加入边，加入了基于语言模型的边势能以取得更好的性能。在CTC对应的CRF中加入了边势能得到CTC-CRF模型，加入了边势能的条件随机场如图3所示，边势能是提前计算好的，而不是通过参数进行学习，边势能函数φ(π,x)定义为：

其中，l是状态序列π经过映射后得到的标注序列l＝B(π)。式(3)中的第一项代表了点势能，第二项代表了边势能，其中p_LM(l)是通过一个音素级别的n-gram代表的WFST定义的。

示例性的，语音特征帧“我”对应的不同的预测音素为“wo1”、“wo3”、“wo4”，语音特征帧“爱”对应的不同的预测音素为“ai1”、“ai2”、“ai3”、“ai4”，其中，数字1 表示一声调，数字2表示二声调，数字3表示三声调，数字4表示四声调。

S130：将汉语词典通过CTC算法映射到对应的音素标注序列，记为T.fst。

CTC的基本思想是通过引入空白符来对齐语音特征序列和标注序列，并建立从添加了空白序列的标注序列到实际的标注序列的映射，这个映射关系记为B，即CTC映射关系。CTC映射的具体步骤为：

S131：将汉语词典转换成多个汉语音素标注序列；

S132：在汉语音素标注序列中添加空白符，使汉语词典中的特征序列与汉语音素标注序列对齐；

S133：去除掉添加了空白符的汉语音素标注序列中连续重复的字符；

S134：去除掉所有空白符，得到对应的音素标注序列。

示例性的，以状态序列A---RR-R--A-为例，首先去掉所有空白符之后的重复字符得到 A---R-R--A-，然后再去除掉所有的空白符得到ARRA，也就是B(A---RR-R--A-)＝ARRA。

S140：对T.fst与G.fst进行组合操作得到分母图，记为fst。

为了避免在标注序列中随机插入静音音素导致分母图的估计不准确，选择不使用静音音素，或者可以理解为采用空白符吸收了静音音素。

Daniel Povey在2016年提出了词格无关最大化互信息训练LF-MMI。在LF-MMI中，用来进行路径求和的分母图不是来自解码所得到得词格，而是来自一个预先准备好的分母图。该分母图

T代表汉语词典到音素标注序列的WFST，G代表一个基于音素的n-gram语言模型。LF-MMI在GPU上实现分母图的估计。

概念分布的获取步骤S110～S120与分母图的构建步骤S130～S140可以并列进行，没有时间上的先后顺序。

S150：根据概率分布以及分母图，通过目标函数计算得到最优的预测音素序列所对应的概率，通过目标函数的值反向传播训练，得到训练好的声学模型。

在训练过程中，考虑到加速收敛和加强训练稳定性，采用CTC目标函数作为辅助的目标函数，因此，用于训练的目标函数为：

其中，J_all(θ)表示目标函数，α表示辅助因子，x表示输入的语音特征序列，θ表示模型参数，π_m表示所述语音特征序列x对应的第m个预测音素序列，M表示所述语音特征序列x对应的不同的预测音素序列的数量，l表示所述语音特征序列x对应的音素标注序列，p(π_m|x)表示对于输入的语音特征序列为x，输出的预测音素序列为π_m时的概率，p(l|x；θ)表示在模型参数θ下，对于输入的语音特征序列为x，输出的音素标注序列为l时的概率。本实施例中，α设为0.1。

示例性的，“我爱北京”对应的语音特征帧对应得到的预测音素序列“wo3 ai4bei3 jing1” 的概率为1，预测音素序列“wo1 ai4 bei3 jing1”的概率为0.75，预测音素序列“wo1 ai2 bei3 jing1” 的概率为0.5，预测音素序列“wo1 ai2 bei1 jing1”的概率为0.25，预测音素序列“wo1 ai2 bei1 jing3”的概率为0，等等。

在得到训练好的声学模型之后，即将训练好的声学模型应用到闽南语语音识别中，如图4 所示，具体的闽南语语音识别过程包括：

S210：识别时，将待识别语音特征序列输入至训练好的声学模型，得到待识别语音特征序列对应不同的预测音素序列的概率。

示例性的，声学模型输出“天安门”的概率为0.5，“天暗门”的概率为0.5。

S220：结合词典，语言模型输出概率。

S230：根据声学模型输出的概率以及语言模型输出的概率解码搜索得到最优的识别结果。

在解码搜索时，识别结果所采用的打分函数为：

S＝logp(l|x)+βlogp_w(l) (5)

其中，S表示识别结果的得分，p(l|x)表示所述声学模型输出的待识别语音特征序列为x，对应的音素标注序列为l时的概率，β表示影响系数，p_w(l)表示单词级别的语言模型中音素标注序列l的概率。本实施例中，β设为1。示例性的，“天安门”的得分为S₁＝0.5+1×1＝1.5， “天暗门”的得分为S₂＝0.5+1×0.5＝1，最后输出得分较高的识别结果作为最优的识别结果。

闽南语语音识别引擎通过跨平台的多媒体处理框架Gstreamer将引擎封装并构建一条完整的语音识别pipeline，可支持wav、ogg、mp3等常用的格式，适配不同的声道和采样率；语音识别引擎通过websocket或HTTP协议向外提供服务，通过特征提取获取输入音频的特征，提交至声学模型，并结合语言模型做综合解码搜索，输出识别结果。

第二方面，本实施例还提供了一种闽南语语音识别系统，包括：

优选地，所述概率分布获取模块，具体用于：

对拼接后的特征进行倒谱均值方差归一化处理；

优选地，所述第一有限状态转换器模块，具体用于：

将所述汉语词典转换成多个汉语音素标注序列；

去除掉所有空白符，得到对应的音素标注序列。

优选地，所述目标函数计算模块中，目标函数的具体表达式为式(4)。

第三方面，本实施例还提供一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的闽南语语音识别方法的步骤。

本实施例中，处理器为中央处理单元、或是其他可编程的一般用途或特殊用途的微处理器、数字信号处理器、可编程控制器、特殊应用集成电路、可编程逻辑装置、其他类似处理电路或这些装置的组合。

本实施例中，存储器为EEPROM、内嵌式多媒体存储卡eMMC、DRAM、快闪存储器或非易失性随机存取存储器等等。

所述介质为存储介质，具体为EEPROM、内嵌式多媒体存储卡eMMC、DRAM、快闪存储器或非易失性随机存取存储器等等。

以上所揭露的仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或变型，都应涵盖在本发明的保护范围之内。

Claims

1.一种闽南语语音识别方法，其特征在于，包括以下步骤：

对所述T.fst与所述G.fst进行组合操作得到分母图，记为fst；

2.如权利要求1所述的一种闽南语语音识别方法，其特征在于，所述语音特征序列的提取过程为：

对拼接后的特征进行倒谱均值方差归一化处理；

3.如权利要求1所述的一种闽南语语音识别方法，其特征在于，将所述汉语词典通过CTC算法映射到对应的音素标注序列的具体步骤为：

将所述汉语词典转换成多个汉语音素标注序列；

去除掉所有空白符，得到对应的音素标注序列。

4.如权利要求1～3中任一项所述的一种闽南语语音识别方法，其特征在于，所述目标函数通过最大化条件似然来定义，目标函数的具体表达式为：

其中，J_all(θ)表示目标函数，α表示辅助因子，x表示输入的语音特征序列，θ表示模型参数，π_m表示所述语音特征序列x对应的第m个预测音素序列，M表示所述语音特征序列x对应的不同的预测音素序列的数量，l表示所述语音特征序列x对应的音素标注序列，p(π_m|x)表示对于输入的语音特征序列为x，输出的预测音素序列为π_m时的概率，p(l|x；θ)表示在模型参数θ下，对于输入的语音特征序列为x，输出的音素标注序列为l时的概率；

在所述解码搜索时，识别结果所采用的打分函数为：

S＝logp(l|x)+βlogp_w(l)

5.一种闽南语语音识别系统，其特征在于，包括：

6.如权利要求5所述的一种闽南语语音识别系统，其特征在于，所述概率分布获取模块，具体用于：

对拼接后的特征进行倒谱均值方差归一化处理；

7.如权利要求5所述的一种闽南语语音识别系统，其特征在于，所述第一有限状态转换器模块，具体用于：

将所述汉语词典转换成多个汉语音素标注序列；

去除掉所有空白符，得到对应的音素标注序列。

8.如权利要求5～7中任一项所述的一种闽南语语音识别系统，其特征在于，所述目标函数计算模块中，目标函数的具体表达式为：

9.一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～4中任一项所述的闽南语语音识别方法的步骤。

10.一种介质，所述介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～4中任一项所述的闽南语语音识别方法的步骤。