CN116013278A

CN116013278A - 基于拼音对齐算法的语音识别多模型结果合并方法及装置

Info

Publication number: CN116013278A
Application number: CN202310016777.6A
Authority: CN
Inventors: 陶金; 陈禹; 汪健
Original assignee: Hangzhou Jianhai Technology Co ltd
Current assignee: Hangzhou Jianhai Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-25
Anticipated expiration: 2043-01-06
Also published as: CN116013278B

Abstract

本发明公开了基于拼音对齐算法的语音识别多模型结果合并方法及装置，通过构建业务领域范围内的拼音‑汉字的映射数据对，并基于拼音‑汉字的映射数据对，训练拼音翻译汉字模型；利用至少两种不同的语音识别模型生成的文本序列，分别转化为对应的拼音序列；再利用拼音对齐算法，对齐不同的拼音序列，得到候选拼音对齐序列；以最大化局部相似性为原则，利用动态规划的思想，构建待对齐拼音序列的相似度矩阵；利用贪心的思想，从相似度矩阵中找到一条最优对齐路径，并根据相似度计算规则，生成候选拼音对齐序列；最后，通过训练好的拼音翻译汉字模型，将候选拼音对齐序列映射为汉字序列。

Description

基于拼音对齐算法的语音识别多模型结果合并方法及装置

技术领域

本发明涉及语音识别技术领域，尤其是涉及基于拼音对齐算法的语音识别多模型结果合并方法及装置。

背景技术

近年来，在深度学习技术的持续发展推动下，端到端的语音识别技术大放异彩。国内语音识别技术领先的单位，在汉语语音识别的通用场景识别技术研发上，投入了巨大的人力和财力，并且在绝大部分通用场景下都能取得令人满意的识别准确率。但是，在实际的业务场景落地之中，中小公司很难直接使用大公司开源的语音识别引擎，往往需要利用大公司开源的语音识别引擎对语料进行预标注后，再进行人工标注，然后再训练模型。但是，单一的预标注结果往往会有比较大的偏差，在工业界，通常都会采用融合多模型的标注结果来提高整体的准确率。因此，在冷启动阶段，如果能同时利用多方开源的识别引擎，可以提升预标注的质量。由此，亟需一种低成本的多模型结果合并方法。

发明内容

为解决现有技术的不足，实现提升语料预标注质量的目的，本发明采用如下的技术方案：

基于拼音对齐算法的语音识别多模型结果合并方法，包括如下步骤：

步骤S1：构建业务领域范围内的拼音-汉字的映射数据对；

步骤S2：基于拼音-汉字的映射数据对，训练拼音翻译汉字模型；

步骤S3：利用至少两种不同的语音识别模型生成两种不同的文本序列，分别转化为对应的两种不同的拼音序列；

步骤S4：利用拼音对齐算法，对齐2种不同的拼音序列，得到一个候选拼音对齐序列，包括如下步骤：

步骤S4.1：以尼德曼-翁施算法为基础，以最大化局部相似性为原则，利用动态规划的思想，构建待对齐拼音序列的相似度矩阵；

步骤S4.2：利用贪心的思想，从相似度矩阵中找到一条最优对齐路径，并根据设定的拼音生成规则，生成候选拼音对齐序列；

步骤S5：利用训练好的拼音翻译汉字模型，将已对齐的候选拼音对齐序列映射为汉字序列。

进一步地，所述步骤S1中，映射方式是建立汉字到拼音的映射表，将文本数据映射转写为对应的拼音序列，同时保留声母、韵母和音调；所述步骤S3中，映射方式是基于所述汉字到拼音的映射表，将文本数据映射转写为对应的拼音序列，同时标注出声母、韵母和音调。

进一步地，所述步骤S1中的映射表，是规整好词组到拼音的映射表。

进一步地，所述步骤S4.1中，拼音序列相似度分数的计算规则为同一位置的相似度累计和，两个序列的相似度计算公式为其中长度更长的序列默认为冗余度更高的，即将短序列向长序列对齐：

max(len(A),len(B))

其中A、B分别表示进行相似度比较的两个拼音序列，Score(·)表示相似度分数，Sim(·)表示相似度函数，len(·)表示长度获取函数。

进一步地，基于短序列向长序列对齐，在短序列对应位置添加<UNK>，构建相似度矩阵M，基于相似度矩阵，寻找一条最符合目标的对齐路径；

相似度矩阵各个位置的动态转移方程为：

其中M(i,j)表示拼音序列A(a1,a2...ai)和拼音序列B(b1,b2...bj)对齐后的序列最大相似度，i、j分别表示拼音序列A、B的长度序数。

进一步地，基于相似度分数，构建相似度分数表，以拼音序列A为行，拼音序列B为列，按序列逐一配对拼音并填充相似度分数，其中路径的方向为：向右，向下，斜角；

向右，对应操作即为序列B新增一个<UNK>，记为路径操作0；

向下，对应操作即为序列A新增一个<UNK>，记为路径操作1；

斜角，对应操作即为序列A，序列B保留当前位置字符不变，记为路径操作2；

最优路径寻找如下：

1)在当前节点，总是选择往分值最大的方向前进；

2)在当前节点，若三个方向的分值均相同，总是选择向右移动，即总是倾向于在短序列上新增<UNK>。

进一步地，所述步骤S4.2中，对于不同拼音序列中对应的两个拼音，其相似度计算规则如下：

1)若两个拼音的声母、韵母、音调均一致；

2)若两个拼音的声母、韵母均一致，但音调不一致；

3)若两个拼音的声母一致，但韵母不一致；

4)若两个拼音的韵母一致，但声母不一致；

5)若两个拼音的声母、韵母均不一致，但声母或者韵母互为混淆对；

6)若两个拼音的声母、韵母均不一致，且声母和韵母均不存在混淆对；

上述相似度计算规则对应的相似度分数，依次递减。

进一步地，易混淆的声母对定义如下：

(b,d)/(p,q)/(f,t)/(z,zh)/(c,ch)/(s,sh)

易混淆的韵母对定义如下：

(an,ang)/(en,eng)/(in,ing)/(un,ui)/(ei,ai)。

进一步地，所述步骤S4.2中，生成的候选拼音规则如下：

1)若两个拼音的声母、韵母、音调均一致，则保持原有拼音；

2)若两个拼音的声母、韵母一致，但音调不一致，则去掉音调，保持声母和韵母；

3)若两个拼音的声母一致，韵母不一致，则仅保留声母；

4)若两个拼音的韵母一致，但声母不一致，则仅保留韵母；

5)若两个拼音的声母、韵母均不一致，则返回<UNK>。

基于拼音对齐算法的语音识别多模型结果合并装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的基于拼音对齐算法的语音识别多模型结果合并方法。

本发明的优势和有益效果在于：

本发明的基于拼音对齐算法的语音识别多模型结果合并方法及装置，能够利用多个语音模型的结果，融合生成一个合并的结果，为语音模型的融合提供了一种新的思路，并且是有成效的；在冷启动数据标注阶段，能够充分利用开源已有的模型的识别结果，对多个结果进行融合，能够有效提高模型预测的准确率，降低冷启动标注阶段的标注成本。

附图说明

图1是本发明实施例中基于拼音对齐算法的语音识别多模型结果合并方法的流程图。

图2是本发明实施例中基于拼音对齐算法的语音识别多模型结果合并装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，基于拼音对齐算法的语音识别多模型结果合并方法，包括如下步骤：

步骤S1：构建业务领域范围内的拼音-汉字的映射数据对；

具体地，整理领域相关数据，构建该领域下的，文本数据库，并构建<文本，拼音>的训练数据对，其中，文本到拼音的映射方式为：基于规整好的汉字到拼音的映射表，将文本数据映射转写为对应的拼音序列，同时保留声母，韵母和音调。

具体地，将生成的拼音与汉字的映射样本对，输入到seq2seq框架模型中进行模型训练，训练完成后得到拼音翻译汉字模型。

其中，该模型架构的选择是多样的，只要是序列模型均可，该模型训练的目标损失函数与传统的翻译模型目标损失函数相同，该训练方法为通用的翻译模型训练方法，并不在本专利的保护范围之中，故不做展开。

步骤S3：利用2种不同的语音识别模型，生成2种不同的文本序列，并分别转化为2种不同的拼音序列；

具体地，利用2种不同的中文开源的或已有的ASR(Auto Speech Recognition，自动语音识别)模型，将音频信息转化为文本序列，并将获取的文本序列映射为对应的拼音序列，得到2个拼音序列对。

其中映射的方式为，基于规整好的汉字到拼音的映射表，将文本数据映射转写为对应的拼音序列；其中拼音序列的标注风格为，同时标注出声母，韵母，音调。

例如：没有伤口->méi yǒu shāng kǒu

一种可选的优化方案是，为了考虑多音字的情况，可以规整好词组到拼音的映射表，再将文本数据映射转写为对应的拼音序列。

步骤S4.1：以最大化局部相似性为原则，利用动态规划的思想，构建待对齐拼音序列的相似度矩阵；

具体地，以尼德曼-翁施算法(Needleman-Wunsch Algorithm)为基础，以最大化对齐后的拼音序列相似度分数为目标，对齐两个拼音序列，并获得对齐序列。

尼德曼-翁施算法(Needleman-Wunsch Algorithm)是基于生物信息学的知识来匹配蛋白序列或者DNA序列的算法。这是将动态算法应用于生物序列的实例之一。

拼音序列相似度的分数计算规则为同一位置的相似度累计和。假设有拼音序列A和拼音序列B，则对齐后，两个序列的相似度计算公式为其中长度更长的序列默认为冗余度更高的，即将短序列向长序列对齐：

max(len(A),len(B))

两个拼音的相似度计算规则如下，

1)若两个拼音的声母，韵母，音调均一致，则相似度为1.0，

例如：Sim(kě，kě)＝1.0

2)若两个拼音的声母，韵母一致，但音调不一致，则相似度为0.8，

例如：Sim(shì，shí)＝0.8

3)若两个拼音的声母一致，韵母不一致，则相似度为0.6，

例如：Sim(hǎo，hái)＝0.6

4)若两个拼音的韵母一致，但声母不一致，则相似度为0.4，

例如：Sim(nǐ，yǐ)＝0.4

5)若两个拼音的声母，韵母均不一致，但声母或者韵母互为混淆对，则相似度为0.2，

易混淆的声母对定义如下：

(b,d)/(p,q)/(f,t)/(z,zh)/(c,ch)/(s,sh)

易混淆的韵母对定义如下：

(an,ang)/(en,eng)/(in,ing)/(un,ui)/(ei,ai)

例如：Sim(bǐ，dōu)＝0.2

6)若两个拼音的声母，韵母均不一致，且声母和韵母均不存在混淆对，则相似度为0.0，例如：Sim(zhī，dào)＝0.0

为更好的理解本发明的拼音对齐算法，下面将用一个示例，来具体阐述。

假设现在有如下拼音序列：

序列A.kěyǐa hěn hǎo

序列B.kěyǐfěn hǎo

首先定义对齐的原则为最大化局部相似性，则上述两个序列最佳的一种序列对齐结果为：

kě-kě

yǐ-yǐ

a-<UNK>

hěn-fěn

hǎo-hǎo

因为序列A的长度大于序列B，默认序列A的冗余度更高，故使序列B向序列A对齐，既仅在序列B中新添<UNK>，最后两个序列的长度均为序列A的长度。

对齐之后的相似度分数计算公式为：

Sim(kě,kě)+Sim(yǐ,yǐ)+Sim(a,<UNK>)+Sim(hěn,fěn)+Sim(hǎo,hǎo)＝1.0+1.0+0.0+0.4+1.0＝3.4

现阐述一种找到该种对齐方法的具体过程，为方便理解，现定义相似度矩阵M，其中M(i,j)表示序列A(a1,a2...ai)和序列B(b1,b2...bj)对齐后的序列最大相似度。

根据动态规划的思想，可以得到该矩阵各个位置的动态转移方程为：

一种更直观的理解图示为M(i,j)可能存在的三种对齐方式如下所示，

对齐方式1，即不插入<UNK>：

a₁,a₂...a_i-1,a_i

b₁,b₂...b_j-1,b_j

对齐方式2，即在A序列当前位置插入<UNK>：

a₁,a₂...a_i,<UNK>

b₁,b₂...b_j-1,b_j

对齐方式3，即在B序列当前位置插入<UNK>：

a₁,a₂...a_i-1,a_i

b₁,b₂...b_j-1,<UNK>

根据上述动态转移的递归方程式，即可计算完成整个相似度矩阵M，其中，上述示例中的相似度矩阵，计算如下表可得：

score	0	kě	yǐ	a	hěn	hǎo
							0	0.0	0.0	0.0	0.0	0.0	0.0
kě	0.0	1.0	1.0	1.0	1.0	1.0
							yǐ	0.0	1.0	2.0	2.0	2.0	2.0
fěn	0.0	1.0	2.0	2.0	2.4	2.4
							hǎo	0.0	1.0	2.0	2.0	2.6	3.4

此时，可以得知，序列A和序列B对齐后的最大相似度为3.4，然后，需要利用上述相似度矩阵，寻找一条最符合目标的对齐路径，即将问题转换为找到一条从左上角出发，重点为右下角的路径，其中路径的方向为：向右，向下，斜角。

向右，对应操作即为序列B新增一个<UNK>，记为路径操作0；

向下，对应操作即为序列A新增一个<UNK>，记为路径操作1；

斜角，对应操作即为序列A，序列B保留当前位置字符不变，记为路径操作2。

利用贪心的思想寻找该条最优路径，其核心是：

1)在当前节点，总是会选择往分值最大的方向前进；

例如：在上述矩阵(1，1)，向右分值为1.0，向下分值为1.0，斜角分值为2.0，则我们的路径为斜角走，从(1，1)转移到(2，2)，即记录路径操作为2。

2)在当前节点，若是三个方向的分值均相同，总是会选择向右移动，即总是倾向于在短序列上新增<UNK>；

例如：在上述矩阵(2，2)位置，向右分值为2.0，向下分值为2.0，斜角分值为2.0，则我们的路径为向右走，从(2，2)转移到(2，3)，即记录路径操作为9。

基于上述2个贪心算法的规则，如下表所示，可以用加粗字体，标记出上述矩阵的最佳路径：

对应的路径操作为，“22022”，根据路径操作码，可以推出，拼音的对应路径：

序列A.kě yǐ a hěn hǎo

序列B.kě yǐ fěn hǎo

路径操作2，序列AB同时前移下标，此时A的序列下标为1，B的序列下标为1；

kě-kě

路径操作22，序列AB同时前移下标，此时A的序列下标为2，B的序列下标为2；

kě-kě

yǐ-yǐ

路径操作220，序列B下标不变，A前移下标，此时A的序列下标为3，B的序列下标为2；

kě-kě

yǐ-yǐ

a-<UNK>

路径操作2202，序列AB同时前移下标，此时A的序列下标为4，B的序列下标为3；

kě-kě

yǐ-yǐ

a-<UNK>

hěn-fěn

路径操作22022，序列AB同时前移下标，此时A的序列下标为5，B的序列下标为4；

kě-kě

yǐ-yǐ

a-<UNK>

hěn-fěn

hǎo-hǎo

至此，完成2个拼音序列的对齐工作。

利用对齐后的拼音序列生成候选拼音序列集合，其中，生成的方法规则阐述如下，针对序列中的每一个位置，生成的候选拼音规则如下：

1)若两个拼音的声母，韵母，音调均一致，则保持原有拼音；

例如：kě-kě，依旧生成，kě

2)若两个拼音的声母，韵母一致，但音调不一致，则去掉音调，保持声母和韵母；

例如：shì-shí，生成，shi

3)若两个拼音的声母一致，韵母不一致，则仅保留声母；

例如：hǎo-hái，生成，h

4)若两个拼音的韵母一致，但声母不一致，则仅保留韵母；

例如：nǐ-yǐ，生成，i

5)若两个拼音的声母，韵母均不一致，则返回，<UNK>；

例如：zhī-dào，生成，<UNK>

基于上述对齐规则，可以得到示例的拼音序列对齐后，可以生成的候选拼音为：

kěyǐ<UNK>en hǎo

步骤S5：利用训练好的拼音翻译汉字模型，将已对齐的候选拼音对齐序列，映射为汉字序列。

具体地，将生成的候选拼音输入到步骤S2中训练好的拼音翻译汉字模型，得到对应的汉字序列，即为最终的合并结果。

例如：本案例中的候选拼音序列，映射的结果为：

kěyǐ<UNK>en hǎo

可以啊很好

这部分内容实施方式与上述方法实施例的实施方式类似，此处不再赘述。

与前述基于拼音对齐算法的语音识别多模型结果合并方法的实施例相对应，本发明还提供了基于拼音对齐算法的语音识别多模型结果合并装置的实施例。

参见图2，本发明实施例提供的基于拼音对齐算法的语音识别多模型结果合并装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于拼音对齐算法的语音识别多模型结果合并方法。

本发明基于拼音对齐算法的语音识别多模型结果合并装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本发明基于拼音对齐算法的语音识别多模型结果合并装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于拼音对齐算法的语音识别多模型结果合并方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于包括如下步骤：

步骤S1：构建业务领域范围内的拼音-汉字的映射数据对；

步骤S3：利用至少两种不同的语音识别模型生成的文本序列，分别转化为对应的拼音序列；

步骤S4：利用拼音对齐算法，对齐不同的拼音序列，得到候选拼音对齐序列，包括如下步骤：

2.根据权利要求1所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：所述步骤S1中，映射方式是建立汉字到拼音的映射表，将文本数据映射转写为对应的拼音序列，同时保留声母、韵母和音调；所述步骤S3中，映射方式是基于所述汉字到拼音的映射表，将文本数据映射转写为对应的拼音序列，同时标注出声母、韵母和音调。

3.根据权利要求2所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：所述步骤S1中的映射表，是规整好词组到拼音的映射表。

4.根据权利要求1所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：所述步骤S4.1中，采用拼音序列相似度分数的计算规则，对同一位置的相似度累计和，两个序列的相似度计算公式为其中长度更长的序列默认为冗余度更高的，即将短序列向长序列对齐：

5.根据权利要求4所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：基于短序列向长序列对齐，在短序列对应位置添加<UNK>，构建相似度矩阵M，基于相似度矩阵，寻找一条最符合目标的对齐路径；

相似度矩阵各个位置的动态转移方程为：

6.根据权利要求5所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：基于相似度分数，构建相似度分数表，以拼音序列A为行，拼音序列B为列，按序列逐一配对拼音并填充相似度分数，其中路径的方向为：向右，向下，斜角；

向右，对应操作即为序列B新增一个<UNK>；

向下，对应操作即为序列A新增一个<UNK>；

斜角，对应操作即为序列A，序列B保留当前位置字符不变；

最优路径寻找如下：

1)在当前节点，总是选择往分值最大的方向前进；

7.根据权利要求2所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：所述步骤S4.2中，对于不同拼音序列中对应的两个拼音，其相似度计算规则如下：

1)若两个拼音的声母、韵母、音调均一致；

2)若两个拼音的声母、韵母均一致，但音调不一致；

3)若两个拼音的声母一致，但韵母不一致；

4)若两个拼音的韵母一致，但声母不一致；

上述相似度计算规则对应的相似度分数，依次递减。

8.根据权利要求7所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：易混淆的声母对定义如下：

(b,d)/(p,q)/(f,t)/(z,zh)/(c,ch)/(s,sh)

易混淆的韵母对定义如下：

(an,ang)/(en,eng)/(in,ing)/(un,ui)/(ei,ai)。

9.根据权利要求2所述的基于拼音对齐算法的语音识别多模型结果合并方法，其特征在于：所述步骤S4.2中，生成的候选拼音规则如下：

3)若两个拼音的声母一致，韵母不一致，则仅保留声母；

4)若两个拼音的韵母一致，但声母不一致，则仅保留韵母；

5)若两个拼音的声母、韵母均不一致，则返回<UNK>。

10.基于拼音对齐算法的语音识别多模型结果合并装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-9中任一项所述的基于拼音对齐算法的语音识别多模型结果合并方法。