CN115617955B

CN115617955B - 分级预测模型训练方法、标点符号恢复方法及装置

Info

Publication number: CN115617955B
Application number: CN202211602620.3A
Authority: CN
Inventors: 王大亮; 王萌; 齐红威; 姜丹
Original assignee: Hebei Shuyuntang Intelligent Technology Co ltd; Datatang Beijing Technology Co ltd
Current assignee: Hebei Shuyuntang Intelligent Technology Co ltd; Datatang Beijing Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-21
Anticipated expiration: 2042-12-14
Also published as: CN115617955A

Abstract

本发明涉及一种分级预测模型训练方法、标点符号恢复方法及装置，所述训练方法包括如下步骤：提取样本文本的样本词语集合，以及提取样本语音的样本音频特征；将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得乘积量化特征；提取所述样本词语集合的样本语义特征，将所述样本语义特征与所述乘积量化特征分别输入低频标点符号预测模型、高频标点符号预测模型。本标点符号分级预测模型训练方法通过低频标点符号预测模型、高频标点符号预测模型进行训练，从而获得最优低频预测模型以及最优高频预测模型，利用两种不同的预测模型对文本的标点符号进行分级预测，可以扩大标点符号识别范围，提高文本标点符号的准确率。

Description

分级预测模型训练方法、标点符号恢复方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种分级预测模型训练方法、标点符号恢复方法及装置。

背景技术

自动语音识别（ASR）系统产生的输出文本通常是缺乏标点符号和句子格式。由于缺少句子分割和标点符号，ASR的输出很难被人们理解。中文标点符号预测是自然语言处理任务中的一项重要任务，该任务是在语音识别后的一段未分割的文本中找到合适的位置进行标点恢复的过程，可以帮助人们确切的表达思想感情，消除歧义，更加准确的理解文本。

标点符号恢复问题吸引了语音处理领域和自然语言处理领域学者的关注，研究人员早期利用统计模型中的局部特征进行预测，如词汇、韵律特征。近几年工作主要集中在深度学习方法上，通常将标点符号预测任务作为序列标记任务或者分类标记任务来进行。例如卷积神经网络(CNN)、长短期记忆(LSTM)网络，已经取得了比较不错的结果。目前，很多方法使用了多模态融合（文本和音频）信息来恢复标点符号。许多研究表明，将这两种模态特征融合可以获得更优性能。

然而，在中文标点符号恢复的进一步研究实践中发现，存在以下难点，第一，以往的标点符号恢复模型把所有标点符号同等对待，不区分常见符号和罕见符号，导致模型预测结果整体准确率很低，进而直接放弃了罕见标点符号预测；第二，以往的预测模型使用音频和文本的多模态融合，致使多源的、高维的特征膨胀，导致计算效率降低。第三，由于标点符号样本分布极不均衡，导致标点符号恢复模型训练非常匮乏，特别是低频标点符号训练数据。

目前自动语音识别（ASR）技术取得了重大进展,涌现出大量标点符号恢复模型。首先是基于统计的学习方法，例如N-gram语言模型用以检测句子边界判断标点类型；其次是基于深度学习的标点预测方法，例如卷积神经网络和基于长短时记忆网络等模型结构，纷纷被用于标点符号预测任务当中，相关专利和研究技术如下：

中国专利CN114880990A-标点符号预测模型训练方法、标点符号预测方法及装置公开了一种标点符号预测模型训练方法、标点符号预测方法及装置，属于计算机技术领域。该标点符号预测模型训练方法包括：训练多个领域的语料对应的文本集；将每个领域的语料对应的文本集输入所述预训练标点符号预测模型，分别进行模型迭代训练，得到每个领域的语料对应的标点符号预测模型。此发明专利申请的标点符号预测模型训练方法可以使得训练出的模型适用范围广，并且对不同领域的语料也有较高的预测成功率。然而，在此专利发明中，预测符号种类仍是常见的三种标点符号，并没有解决中文中的一些低频标点符号的预测。

中国专利CN109918666A-一种基于神经网络的中文标点符号添加方法提出一种基于神经网络的中文标点符号添加方法，包括以下步骤：构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误；该发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，可应用于对语音合成文字后的文本进行标点符号勘误。然而，在此专利发明中，只考虑文本特征，忽略了音频特征的重要性，大大降低无标点文本的断句正确性，及标点符号恢复的正确性。

中国专利CN113609819A-标点符号确定模型及确定方法提供一种标点符号确定模型及确定方法，所述模型包括：嵌入查找层，配置为将输入文本中的每个字符转换为字符嵌入向量；深度学习层，配置为，对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果，获取第一特征向量；条件随机场层，配置为根据第一特征向量确定输入文本的每个字符对应的符号标签，其中，符号标签用于指示对应字符后面的标点符号。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题，同时在预测标点符号种类较多，包含问号、感叹号。然而，在此专利发明中，并没有提出在数据集中出现的问号与感叹号同类标点符号样本不均衡问题的解决办法。

总结现有发明技术，第一，对高低频标点符号训练同一预测模型，同时并没有计算低频标点符号使用时需要的语义信息，会导致低频标点符号预测准确性降低；第二，在标点符号预测任务上，将多个模态特征进行粗粒度的简单拼接，导致计算量增加，特征向量数据稀疏，预测准确性下降；第三，在数据处理模块上，没有解决现有的低频标点符号存在的样本不均衡问题。

发明内容

本发明的目的是提出分级预测模型训练方法、标点符号恢复方法及装置，旨在解决现有预测模型训练方法仅采用同一预测模型对高、低频标点符号进行训练，由于低频标点符号样本数量少，导致低频标点符号预测准确性降低的技术问题。

为实现上述目的，本发明提出一种标点符号分级预测模型训练方法包括如下步骤：

提取样本文本的样本词语集合，以及提取样本语音的样本音频特征；

将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得乘积量化特征；

提取所述样本词语集合的样本语义特征，将所述样本语义特征与所述乘积量化特征分别输入低频标点符号预测模型、高频标点符号预测模型，通过训练获得最优低频预测模型以及最优高频预测模型。

作为本发明的进一步改进：所述提取样本文本的样本词语集合的步骤包括：

根据样本文本的序列数据对样本文本进行分词，获得样本词语集合。

作为本发明的进一步改进：所述提取所述样本词语集合的样本语义特征的步骤包括：

根据BERT的预训练模型对所述样本词语集合进行学习，将所述样本词语集合转化为设定维度的词向量文本；

提取所述词向量文本的样本语义特征。

作为本发明的进一步改进：所述提取样本语音的样本音频特征的步骤包括：

通过ASR工具包对样本语音进行提取，获得样本音频特征，所述音频特征包括Pitch特征、MFCC特征、基音特征。

作为本发明的进一步改进：所述将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得乘积量化特征的步骤包括：

将所述样本词语集合强制对齐，获得关于开始时间和持续时间的字级信息以及带有停顿时间的文本文件；

将停顿时间用于分割，获得分割后的语音识别文本向量；

将所述样本音频特征进行进行训练、聚类；

量化所述样本音频特征；

将量化后的样本音频特征，与所述语音识别文本向量进行拼接融合，形成乘积量化特征。

作为本发明的进一步改进：还包括：

根据样本文本以及低频标点符号需求，寻找样本文本中低频标点符号片段；

对所述样本文本中低频标点符号片段设置注意力分数；

将具有所述注意力分数的低频标点符号片段，利用序列对抗网络生成增强文本数据；

将所述增强文本数据输入低频标点符号预测模型。

作为本发明的进一步改进：还包括：

将所述乘积量化特征输入高频标点符号预测模型，调整高频标点符号预测模型的参数；

对高频标点符号进行预测，根据所述乘积量化特征，获取所有标点的可能性概率分布，将所有概率结果进行评测；

将所有标点的可能性概率进行排序评测，选择其中最靠前的符号；

评估模型的损失函数是否收敛，若是，停止训练，获得最优高频预测模型；

若不是，继续调整高频标点符号预测模型的参数。

作为本发明的进一步改进：还包括：

将所述样本语义特征输入低频标点符号预测模型，调整低频标点符号预测模型的参数；

将所述样本语义特征进行相似度判断，获得相似度判断数据；

对低频标点符号进行预测，根据样本语义特征及相似度判断数据，获取所有标点的可能性概率分布；

评估模型的损失函数是否收敛，若是，停止训练，获得最优低频预测模型；

若不是，继续调整低频标点符号预测模型的参数。

此外，为实现上述目的，本发明还提供一种标点符号恢复方法，包括上述的标点符号分级预测模型训练方法的最优低频预测模型以及最优高频预测模型，所述标点符号恢复方法包括如下步骤：

提取原始文本的语义特征，以及提取原始语音的音频特征，将所述语义特征以及所述音频特征进行多模态融合，形成原始乘积量化特征；

将所述原始乘积量化特征输入最优高频预测模型，获得预测的高频标点符号；

将所述语义特征输入最优低频预测模型，获得预测的低频标点符号；

比对且分析所述预测的高频标点符号、所述预测的低频标点符号，选择最优的标点符号并且进行恢复，得到具有标点符号的文本。

作为本发明的进一步改进：还包括：

将所述最优高频预测模型以及所述最优低频预测模型的输出数据组成数据集；

对所述数据集训练，生成标点符号恢复模型；

通过所述标点符号恢复模型比对且分析所述预测的高频标点符号、所述预测的低频标点符号，输出最优的标点符号。

此外，为实现上述目的，本发明还提供一种标点符号恢复装置，包括：

多模态特征融合模块，用于将获取到的多个模态特征向量进行融合；

高频标点符号预测模型训练模块，用于高频标点符号预测模型训练过程中，通过逐步迭代训练，最终获得最优高频预测模型；

低频标点符号预测模型训练模块，用于低频标点符号预测模型训练过程中，通过逐步迭代训练，最终获得最优低频预测模型；

标点符号分级恢复推断模块，用于对输入的语音音频及无标点符号的语音识别文本进行标点符号恢复，并输出具有标点符号的文本。

作为本发明的进一步改进：所述多模态特征融合模块包括与样本文本连接的音频特征提取子模块、文本特征提取子模块、数据增强子模块。

作为本发明的进一步改进：所述标点符号分级恢复推断模块包括信息获取单元、低频标点符号预测单元、多模态特征融合单元、高频标点符号预测单元、冲突决策单元、输出单元。

此外，为实现上述目的，本发明还提供一种恢复设备，所述恢复设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的恢复程序，所述恢复程序被所述处理器执行时实现上述的标点符号恢复方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储恢复程序，所述程序被处理器执行时实现上述的标点符号恢复方法的步骤。

相对于现有技术，本发明具有以下有益效果：

本技术方案的标点符号分级预测模型训练方法通过低频标点符号预测模型、高频标点符号预测模型进行训练，从而获得最优低频预测模型以及最优高频预测模型，利用两种不同的预测模型对文本的标点符号进行分级预测，可以扩大标点符号识别范围，提高文本标点符号的准确率；并且对词语集合和音频特征进行对齐融合以及乘积量化，使预测模型的判断信息更充足，继而提高预测模型的预测效率以及预测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本申请的标点符号恢复装置一实施例的结构示意图；

图2为本申请的标点符号分级预测模型训练方法一实施例的流程示意图；

图3为本申请的标点符号分级预测模型训练方法一实施例的乘积量化流程示意图；

图4为本申请的标点符号分级预测模型训练方法一实施例的多模态特征融合过程示意图；

图5为本申请的标点符号分级预测模型训练方法一实施例的基于点积的向量相关性计算图；

图6为本申请的标点符号分级预测模型训练方法一实施例的序列对抗网络模型；

图7为本申请的标点符号恢复方法一实施例的Stacking结合策略如图；

图8为本申请涉及的硬件运行环境的恢复设备一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，若全文中出现的“和/或”或者“及/或”，其含义包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

现有发明技术，第一，对高低频标点符号训练同一预测模型，同时并没有计算低频标点符号使用时需要的语义信息，会导致低频标点符号预测准确性降低；第二，在标点符号预测任务上，将多个模态特征进行粗粒度的简单拼接，导致计算量增加，特征向量数据稀疏，预测准确性下降；第三，在数据处理模块上，没有解决现有的低频标点符号存在的样本不均衡问题。

请参阅图1，本技术方案的标点符号恢复装置一实施例中，该装置包括：

值得注意的是，上述的多模态特征融合模块、高频标点符号预测模型训练模块、低频标点符号预测模型训练模块用于标点符号分级预测模型的训练；而标点符号分级恢复推断模块用于文本的标点符号恢复。

进一步地，所述多模态特征融合模块包括与样本文本连接的音频特征提取子模块、文本特征提取子模块、数据增强子模块。其中，多模态特征融合模块是将获取到多个模态特征向量进行融合，其包含音频特征提取子模块、文本特征提取子模块、数据增强子模块、多模态特征融合单元。

音频特征提取子模块：该模块的功能是对音频进行预处理，通过预训练将音频转化成特征向量。音频特征提取子模块包含音频数据预处理单元、特征提取单元。音频数据预处理单元是对输入的音频进行预处理，对音频数据进行切分，为特征提取单元做准备；特征提取单元是基于LSTM的声学编码器对帧级声学特征建模，将识别文本与音频强制对齐，获得关于开始时间和持续时间的字级信息及含有停顿时间的文本文件，同时使用ASR工具包获取pitch特征、MFCC等音频特征。

文本特征提取子模块：该模块的功能是对文本进行预处理，通过预训练将文本转化为词向量并计算文本语义。文本特征提取子模块包含文本数据预处理单元、嵌入向量训练单元、语义特征获取单元。文本数据预处理单元是对输入文本进行预处理，对中文语音识别文本序列数据进行分词，将序列文本转化为词语集合，用于词向量训练；嵌入向量训练单元是基于BERT的预训练模型对词语进行学习，将词语转化为设定维度的词向量；语义特征获取单元是在文本预训练的基础上，进行进一步语义特征提取，获取文本深层语义，用于低频标点符号预测模型语义输入。

数据增强子模块：该模块的功能是处理对于标点符号预测任务中出现的标点符号稀疏，造成的严重样本不均衡问题，以完成数据增强任务。数据增强子模块包含自注意力机制抽取低频标点符号片段单元、生成单元。自注意力机制抽取低频标点符号片段单元是根据语音识别文本内容以及低频标点符号任务需求，重点关注到语音识别文本中的低频符号片段，针对此段文本向量设置较高注意力分数，得到更加有利的信息；生成单元是将带有注意力分数的数据，利用序列对抗seqGAN网络生成类似真实的文本数据。

多模态特征融合单元：该单元是将获取到的pitch、MFCC等音频特征、带有停顿时间的文本文件和文本向量进行融合，形成一个特征向量，输入到高频标点符号预测模型中进行训练。

所述高频标点符号预测模型训练模块包括模型参数调整单元、预测单元、评估单元、模型评估单元、最优模型获取单元。

高频标点符号预测模型训练模块：该模块的功能是高频标点符号预测模型的训练过程，通过逐步迭代训练，最终生成最优模型参数。高频标点符号预测模型训练模块包含模型参数调整单元、预测单元、评测单元、模型评估单元、最优模型获取单元。

模型参数调整单元：该单元是获取预测模型的历史信息，输入多模态融合特征，针对输入信息进行调整模型参数。

预测单元：该单元是对高频标点符号进行预测，包含五种标点符号预测模式，分别是{“，”、“。”、“！”、“

”、“∅”}，根据输入信息，获取所有标点的可能性概率分布，将所有概率结果输入到评测单元进行评测。

评测单元：该单元是将所有标点的可能性概率进行排序评测，选择其中最靠前的符号。

模型评估单元：该单元是评估训练好的模型是否是最优模型，当模型的损失函数收敛时，停止训练，否则继续训练。

最优模型获取单元：该单元获取训练后所得最优模型的参数，保存并输出到下一模块，用于模型推断。

所述低频标点符号预测模型训练模块包括模型参数调整单元、语义相似度判断单元、预测单元、评估单元、模型评估单元、最优模型获取单元。

低频标点符号预测模型训练模块，该模块是低频标点符号预测模型的训练过程，通过逐步迭代训练，最终生成最优模型参数。低频标点符号预测模型训练模块包含模型参数调整单元、语义相似度判断单元、预测单元、评估单元、模型评估单元、最优模型获取单元。

语义相似度判断单元：该单元是在将输入的特殊词语、句子向量特征，经过余弦相似度公式，判断输入向量两者相似度大小，进而将结果输入下一单元进行预测。

预测单元：该单元是对低频标点符号进行预测，包含三种标点符号预测模式，分别是{“、”、“；”、“∅”}，根据输入向量信息及相似度信息，获取所有标点的可能性概率分布，将所有概率结果输入到评测单元进行评测。

评测单元：该单元是将所有标点的可能性概率进行排序评测，选择其中最靠前的符号作为结果输出。

所述标点符号分级恢复推断模块包括信息获取单元、低频标点符号预测单元、多模态特征融合单元、高频标点符号预测单元、冲突决策单元、输出单元。

标点符号分级恢复推断模块：该模块的功能是对输入的语音音频及无标点符号的语音识别文本进行标点符号恢复，输出带有标点符号的文本。标点符号分级恢复推断模块包含信息获取单元、多模态特征融合单元、频标点符号预测单元、高频标点符号预测单元、冲突决策单元、输出单元。

信息获取单元：该单元是在标点符号恢复模型前引入语音音频的基音特征、停顿时间及文本特征信息，用于恢复模型推断。

多模态特征融合单元：该单元是将获取到的特征融合，形成一个向量特征，输入到高频标点符号预测模型中。

低频标点符号预测单元：该单元是使用训练所得的低频标点符号恢复最优模型。综合外部信息，对语音识别文本进行低频标点符号恢复。

高频标点符号预测单元：该单元是使用训练所得的高频标点符号恢复最优模型。根据上一级多模态融合单元输出信息，综合外部信息，对语音语音识别文本进行高频标点符号恢复。

冲突决策单元：该单元是将分级预测的高低频标点符号进行比对分析，采取相应的最优对策。

输出单元：该单元是根据冲突决策单元的标点符号输出生成的最终带有标点符号的语音音频流式文本。

请参阅图2-图7，本技术方案的标点符号分级预测模型训练方法一实施例中，该方法应用于上述实施例的标点符号恢复装置，该方法包括如下步骤：

S100：提取样本文本的样本词语集合，以及提取样本语音的样本音频特征；

S200：将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得乘积量化特征；

S300：提取所述样本词语集合的样本语义特征，将所述样本语义特征与所述乘积量化特征分别输入低频标点符号预测模型、高频标点符号预测模型，通过训练获得最优低频预测模型以及最优高频预测模型。

具体而言，通过标点符号恢复装置的音频特征提取子模块提取样本音频特征，同时通过文本特征提取子模块提取样本词语集合，通过多模态特征融合单元对样本音频特征、样本词语集合进行多模态特征融合，获得乘积量化特征。随后，将样本语义特征与乘积量化特征分别输入低频标点符号预测模型训练模块、高频标点符号预测模型训练模块中，以获得最优低频预测模型以及最优高频预测模型。

进一步地，所述提取样本文本的样本词语集合的步骤包括：

S101：根据样本文本的序列数据对样本文本进行分词，获得样本词语集合。

具体而言，该步骤通过标点符号恢复装置的多模态特征融合模块的文本特征提取子模块对样本文本进行预处理，通过对中文语音识别文本的序列数据进行分词，将序列文本转化为词语集合，同时也用于词向量训练。

进一步地，所述提取所述样本词语集合的样本语义特征的步骤包括：

S102：根据BERT的预训练模型对所述样本词语集合进行学习，将所述样本词语集合转化为设定维度的词向量文本；

S103：提取所述词向量文本的样本语义特征。

具体而言，该步骤通过标点符号恢复装置的多模态特征融合模块的文本特征提取子模块的嵌入向量训练单元根据BERT的预训练模型对所述样本词语集合进行学习，将所述样本词语集合转化为设定维度的词向量文本，再通过多模态特征融合模块的文本特征提取子模块的语义特征获取单元提取所述词向量文本的样本语义特征。

进一步地，在某一实施例中，所述提取样本语音的样本音频特征的步骤包括：

S110：通过ASR工具包对样本语音进行提取，获得样本音频特征，所述音频特征包括Pitch特征、MFCC特征、基音特征。

具体而言，该步骤通过标点符号恢复装置的多模态特征融合模块的特征提取单元对样本语音进行提取。

进一步地，所述S200：将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得乘积量化特征的步骤包括：

S201：将所述样本词语集合强制对齐，获得关于开始时间和持续时间的字级信息以及带有停顿时间的文本文件；

S202：将停顿时间用于分割，获得分割后的语音识别文本向量；

S203：将所述样本音频特征进行进行训练、聚类；

S204：量化所述样本音频特征；

S205：将量化后的样本音频特征，与所述语音识别文本向量进行拼接融合，形成乘积量化特征。

在本实施例中，多模态特征的融合具体过程如下：

多模态特征是在模型训练前将获取到多个独立向量进行融合。本技术方案使用基于LSTM的声学编码器对帧级声学特征建模，其中使用强制对齐的单词持续时间来获得最终的停顿时间，同时使用ASR工具包获取Pitch特征、MFCC特征、基音特征等音频特征，经过拼接融合后音频样本特征表示为（rowNum,colNum),rowNum为帧数与音频时长有关,colNum是各音频特征之和。例如其中Pitch 特征，colNum=3。

在特征融合开始前，我们设置单词W的有序集W= {W_i}，对应音频时长r_i帧，其中每个W有几个属性:s_i是一个实数，描述单词W_i开始的时间偏移(以秒为单位);d_i是一个实数，描述单词W_i的持续时间(以秒为单位);P_i是停顿时间，出现在单词W_i后面。具体融合过程包含如下三个部分。

1.1 对齐操作

计算带时间注释的转录本的强制对齐，以获得关于开始时间和持续时间(s和d属性)的字级信息以及带有停顿时间的文本文件。

1.2 语音识别文本分割

将停顿时间用于分割，获取分割后语音识别文本。

1.3 多模态融合

本专利中提取到的Pitch特征、MFCC特征、基音特征等音频特征，经过拼接融合后音频样本特征维度为D_s。文本特征经预处理后维度为D_T。针对音频特征和语音识别文本特征两种不同维度的向量，采用乘积量化（PQ）算法进行多模态特征融合。该算法来源于图像检索，本质上是对向量进行压缩。具体步骤如下。

第一步，将训练集音频特征样本整体进行训练、聚类。将音频特征向量维度D_s分成M段（此处应/为D_s/M=D_T），对每一段向量进行K-means聚类，找到类中心，那么每段存在K个聚类中心向量，每个聚类中心可以用类别ID（0~k）表示，维度是D_T，这样整个训练集可以表示成M个子空间，K个聚类中心的码本。

第二步，量化样本。将训练集每个音频特征样本，以相同方式进行切分，并将每一字子段在各自子空间里寻找最近的类中心，并将类中心编码作为量化后的向量元素，这样每个样本就量化成一个D_T维短向量。

如图3所示，图3为乘积量化流程示意图。假设音频特征向量样本Y的维度D_s=64，文本特征向量维度D_T=8,故M=8。作聚类时选择K=256，每个类中心C的维度为D_T=8。

最终将量化后的音频特征，与语音识别文本向量进行拼接融合，为下一步标点符号预测做好准备。多模态特征融合过程如图4所示。

进一步地，标点符号分级预测模型训练方法还包括如下步骤：

S161：根据样本文本以及低频标点符号需求，寻找样本文本中低频标点符号片段；

S162：对所述样本文本中低频标点符号片段设置注意力分数；

S163：将具有所述注意力分数的低频标点符号片段，利用序列对抗网络生成增强文本数据；

S164：将所述增强文本数据输入低频标点符号预测模型。

具体而言，该步骤通过标点符号恢复装置的多模态特征融合模块的数据增强子模块进行数据增强，通过序列对抗网络与自注意力机制结合的低频标点符号文本数据生成装置，以完成标点符号数据集数据增强目的。

在本实施例中，低频标点符号文本数据增强具体过程如下：

标点符号预测任务的最大挑战之一是大型文本数据集中的标点符号稀疏，造成严重的样本不均衡问题，其中低频标点符号更为稀疏。在本专利中，提出一种结合自注意力机制的序列对抗网络低频标点符合文本数据增强方法。利用自注意力机制可以聚焦到全局信息，同时可以关注对本任务更关键的信息的能力，在大型文本语料库中获取文本中重点信息，经过序列对抗网络模型，最终生成符合标点符号预测任务要求且多数量的文本数据。

基于自注意力机制的重点段落提取

自注意力机制的核心是捕捉向量之间的相关性。仅仅需要三步既可以实现自注意力：一是为每个词构建Query，Key，Value；二是对每个输入向量，使用其Query向量对其他所有的向量的Key向量进行评分，获得注意力分数。将Value向量乘以上一步得到的注意力分数，之后相加，具体步骤如下。

首先计算两个向量之间的相关性，采用的是常见方法是求点积（dot-product)，具体做法是将左边的向量乘以一个变换矩阵W^k得到向量q，这里称为”Query”,右边向量乘以一个变换矩阵W^k的搭配向量k,称为”Key”.将向量k、向量q，点积即可得到相关性α,称为“注意力分数”。基于点积的向量相关性计算方式如图5所示。

基于点积计算后，可以获取到向量两两之间的关联性，接下来可以抽取这些向量中的重要信息输出b。方法是将获取到的α乘以一个变换矩阵W^v得到向量v，这里称为“Value”，将其与对应的注意力分数相乘，在求和，可输出向量b。

将上述描述技术应用到本专利中，所有训练向量所有向量都有参与计算，这样就做到了看全局。但是各向量参与计算的程度不一样，α就相当权重值，权重越大越聚焦于其对应的Vaule值，对应向量参与计算的程度就越大，最后得到的输出向量b就和该向量越相似，重点信息越明显，实际应用是提取本任务中的低频标点符号文本片段。

基于序列对抗网络的增强数据方法

GAN模型对于离散型文本数据的生成，存在反向传播失败的现象。所以本专利使用结合强化学习方法的seqGAN模型，处理上一步带注意力分数的数据集。序列对抗网络模型如图6所示。

其中左图为GAN网络训练的第一步，判别器D主要用来区分真实样本和伪造样本，这里的判别器D是用CNN来实现的。右图为GAN网络训练的第二步，根据判别器D回传的判别概率回传给生成器G，通过增强学习的方法来更新生成器G，这里的的生成器G是用LSTM来实现的.这里采用的更新策略是增强学习。

在此部分，输入现有的带注意力分数的数据集作为训练，用seqGAN生成增强数据。

举例说明，在文本中“自然语言处理是一门融语言学、计算机科学、数学于一体的科学。是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。”自注意力机制模型通过训练学习后，将第一句“自然语言处理是一门融语言学、计算机科学、数学于一体的科学。”的注意力分数提高。接下来通过seqGAN网络生成同样类型的文字，例如“自然语言是指汉语、英语、法语等人们日常使用的语言。”

S301：将所述乘积量化特征输入高频标点符号预测模型，调整高频标点符号预测模型的参数；

S302：对高频标点符号进行预测，根据所述乘积量化特征，获取所有标点的可能性概率分布，将所有概率结果进行评测；

S303：将所有标点的可能性概率进行排序评测，选择其中最靠前的符号；

S304：评估模型的损失函数是否收敛，若是，停止训练，获得最优高频预测模型；

S305：若不是，继续调整高频标点符号预测模型的参数。

具体而言，该步骤通过高频标点符号预测模型训练模块的模型参数调整单元进行参数调整，该单元是获取预测模型的历史信息，输入多模态融合特征，针对输入信息进行调整模型参数；通过预测单元对高频标点符号进行预测，包含五种标点符号预测模式，分别是 {“，”、“。”、“！”、“

”、“∅”}，根据输入信息，获取所有标点的可能性概率分布，将所有概率结果输入到评测单元进行评测；通过评测单元将所有标点的可能性概率进行排序评测，选择其中最靠前的符号；通过模型评估单元评估训练好的模型是否是最优模型，当模型的损失函数收敛时，停止训练，否则继续训练；通过最优模型获取单元获取训练后所得最优模型的参数，保存并输出到下一模块，用于模型推断。

S306：将所述样本语义特征输入低频标点符号预测模型，调整低频标点符号预测模型的参数；

S307：将所述样本语义特征进行相似度判断，获得相似度判断数据；

S308：对低频标点符号进行预测，根据样本语义特征及相似度判断数据，获取所有标点的可能性概率分布；

S309：将所有标点的可能性概率进行排序评测，选择其中最靠前的符号；

S310：评估模型的损失函数是否收敛，若是，停止训练，获得最优低频预测模型；

S311：若不是，继续调整低频标点符号预测模型的参数。

具体而言，该步骤通过低频标点符号预测模型训练模块的模型参数调整单元获取预测模型的历史信息，输入多模态融合特征，针对输入信息进行调整模型参数；通过语义相似度判断单元将输入的特殊词语、句子向量特征，经过余弦相似度公式，判断输入向量两者相似度大小，进而将结果输入下一单元进行预测；通过预测单元是对低频标点符号进行预测，包含三种标点符号预测模式，分别是{“、”、“；”、“∅”}，根据输入向量信息及相似度信息，获取所有标点的可能性概率分布，将所有概率结果输入到评测单元进行评测；通过评测单元将所有标点的可能性概率进行排序评测，选择其中最靠前的符号作为结果输出；通过模型评估单元评估训练好的模型是否是最优模型，当模型的损失函数收敛时，停止训练，否则继续训练；通过最优模型获取单元获取训练后所得最优模型的参数，保存并输出到下一模块，用于模型推断。

本技术方案还提出一种标点符号恢复方法，该方法包括上述实施例标点符号分级预测模型训练方法获得的最优低频预测模型以及最优高频预测模型，所述标点符号恢复方法包括如下步骤：

S500：提取原始文本的语义特征，以及提取原始语音的音频特征，将所述语义特征以及所述音频特征进行多模态融合，形成原始乘积量化特征；

S600：将所述原始乘积量化特征输入最优高频预测模型，获得预测的高频标点符号；

S700：将所述语义特征输入最优低频预测模型，获得预测的低频标点符号；

S800：比对且分析所述预测的高频标点符号、所述预测的低频标点符号，选择最优的标点符号并且进行恢复，得到具有标点符号的文本。

进一步地，标点符号恢复方法还包括如下步骤：

S801：将所述最优高频预测模型以及所述最优低频预测模型的输出数据组成数据集；

S802：对所述数据集训练，生成标点符号恢复模型；

S803：通过所述标点符号恢复模型比对且分析所述预测的高频标点符号、所述预测的低频标点符号，输出最优的标点符号。

在本实施例中，标点符号恢复方法利用齐夫定律对文本中标识符频率进行定义。齐夫定律指出，在文本中，标识符在出现的频率与其在排列序表中的排名或位置成反比。这正是在中文标点符号恢复任务中，影响标点符号预测准确率及最终文本的可读性的一个重要原因。在文本数据中，标点符号占比3%-5%，并且其中“，”、“。”、“！”、“

”、“、”，“；”、“——” 等各类别标点符号频率非常不均衡。

在本技术方案中将在训练数据集抄本中，计算所有标点符号出现频率f，并将该频率进行排序，排名为r。应用齐夫定律公式r*f=C（C一般取0.1），将标点符号频率排名前20%的标点符号定义为高频标点符号，其他排名的标点符号定义为低频标点符号。

在本技术方案中，高频标点符号规定为{“，”、“。”、“！”、“

”}，低频标点符号规定为{“、”、“；”}。根据以上发现将标点符号预测分两级进行预测，一是基于LSTM的高频标点符号预测模块，二是基于语义相似度判断的低频标点符号预测模块。

高频标点符号预测模型训练

首先训练包含多模态融合特征的预测模型M-LSTM，M-LSTM模型的前向传递公式如下：

其中y是激活向量，W是权重矩阵，下标与层数相匹配。X₀表示标点符号后的输入单词。M-LSTM根据上述公式获得最有可能标点的概率分布。将概率分布通过评测单元进行评分，选择分数高的作为高频标点符号预测模型的输出。

最终预测训练单元由模型评估单元确定，当损失函数收敛时模型停止训练。由于高频标点符号预测任务是可以看作是一个多分类问题，所以将损失函数设置为交叉熵损失函数，公式如下：

其中，M为类别个数；y_ic是符号函数（0或1），如果样本i的真实类别等于c取1，否则取0；p_ic为观测样本i属于类别c的预测概率。

在例子中第一句文本，预测时输入无标点文字:“自然语言处理是一门融语言学计算机科学数学于一体的科学”，经预处理及多模态特征融合后，可用（w₁,w₂,...,w₁₁）表示文本，可在处w₅、w₆、w₇、w₁₁后增加标点符号，预测结果为“自然语言处理是一门融语言学，计算机科学，数学于一体的科学。”

低频标点符号预测模型训练

首先训练包含文本语义特征的预测模型T-LSTM，该训练过程增加一个语义相似度判断单元。语义相似度判断单元将句子和词语对的关系看做是一个二分类问题，采用语义级相似度计算方法计算两个样本特征是否相似。在语义是否相似判断后，继续训练低频标点符号预测模型T-LSTM，M-LSTM模型的前向传递公式如下：

x₁与x₀相似，是T-LATM的输入、输出层，y₅表示所有低频标点符号可能性的概率分布，训练过程如高频预测模型，选择分数高的作为低频标点符号预测模型的输出。将概率分布通过评测单元进行评分，选择分数高的作为低频标点符号预测模型的输出。

最终预测训练单元由模型评估单元确定，低频符号模型的损失Loss包括符号预测的交叉熵损失函数Loss₁和对比损失函数Loss₂，公式如下：

Loss₂中，y为两个样本是否匹配的标签，y=1代表两个样本相似或者匹配，y=0则代表不匹配，margin为设定的阈值。其中可以通过调整margin值来控制相似度的苛刻度。

在例子中第一句文本，预测时输入无标点文字:“自然语言处理是一门融语言学计算机科学数学于一体的科学”，经预处理及多模态特征融合后，可用（w₁,w₂,...,w₁₁）表示文本，可在处w₅、w₆、w₇、w₁₁后增加标点符号，并且w₅、w₆、w₇三个词语语义相似度较高，标点符号预测为“、”，最终预测结果为“自然语言处理是一门融语言学、计算机科学、数学于一体的科学。”

标点符号分级恢复推断与冲突决策

基于Stacking结合策略的冲突决策方法：在冲突决策单元中，需要对分级预测的高低频标点符号进行比对分析，本专利采用Stacking的结合策略，选择最优输出结果。Stacking做法是将高频标点符号预测模型与低频标点符号预测模型两个模型的输出组成新的数据集，进行训练，生成一个更加强大的最终标点符号恢复模型。在最终推断模块的冲突决策单元中，应用该恢复模型以及两级预测结果，输出最终的标点符号恢复结果。Stacking结合策略如图7所示。

在例子中第一句文本，两级模型预测结果存在差异，高频标点符号预测结果为“自然语言处理是一门融语言学，计算机科学，数学于一体的科学。”低频标点符号预测结果为“自然语言处理是一门融语言学、计算机科学、数学于一体的科学。”最终经过冲突决策单元的标点符号恢复模型判断，输出结果为“自然语言处理是一门融语言学、计算机科学、数学于一体的科学。”

标点符号分级恢复推断

标点符号恢复模型的输入为语音识别文本，结合语音音频获取文本特征、pitch特征、音频停顿时间。首先融合多模态特征信息，利用高频标点符号训练获得的最优模型进行高频标点符号预测；同时利用文本特征信息级低频标点符号训练获得的最优模型进行低频标点符号预测。将两级模型输出结果输入冲突决策单元进行判断，最终生成预测后的含有标点符号的语音识别文本。

综上所述，本技术方案提出一种标点符号分级预测模型训练方法、标点符号恢复方法及恢复装置。该方法与装置基于统计特性将标点符号划分为高频和低频，采取分别对待的策略进行独立预测，最终通过冲突消解决策进行结果融合；在字的粒度上，将多模态信息，将单字的文本特征和多帧的音频特征（包括音调特征、停顿时间、基音特征等）进行对齐融合，并采取乘积量化的方法提高模型预测准确性和效率；针对低频符号样本数据稀缺的问题，利用序列对抗网络及自注意力机制结合方法，对训练数据进行增强，选取并生成低频标点符号文本片段，在保持语义的前提下，提高低频标点符号在文本语料库中占比，扩大低频标点符号数据集。通过本技术方案，基于分级预测标点符号恢复模型，可以扩大标点符号识别范围，提高文本标点符号的准确率。

本技术方案还提出一种恢复设备，所述恢复设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的恢复程序，所述恢复程序被所述处理器执行时实现上述的标点符号恢复方法的步骤。

本技术方案还提出一种可读存储介质，所述可读存储介质上存储恢复程序，所述程序被处理器执行时实现上述的标点符号恢复方法的步骤。

参照图8，图8为本发明一实施例方案涉及的硬件运行环境的恢复设备结构示意图。

如图8所示，该恢复设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM）存储器，也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图8中示出的结构并不构成对恢复设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图8所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及恢复程序。

在图8所示的恢复设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明恢复设备中的处理器1001、存储器1005可以设置在恢复设备中，所述恢复设备通过处理器1001调用存储器1005中存储的恢复程序，并执行本发明实施例提供的标点符号恢复方法。

此外，本实施例还提出一种存储介质，所述存储介质上存储有恢复程序，该恢复程序被处理器执行时实现如上文所述的标点符号恢复方法的步骤。

存储介质的具体实施方式与上述的标点符号恢复方法的实施方式基本一致，此处不做赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种标点符号分级预测模型训练方法，其特征在于，包括如下步骤：

提取所述样本词语集合的样本语义特征，将所述样本语义特征与所述乘积量化特征分别输入低频标点符号预测模型、高频标点符号预测模型，通过训练获得最优低频预测模型以及最优高频预测模型；

其中，所述通过训练获得最优高频预测模型的步骤包括：

若不是，继续调整高频标点符号预测模型的参数；

所述通过训练获得最优低频预测模型的步骤包括：

若不是，继续调整低频标点符号预测模型的参数。

2.根据权利要求1所述的标点符号分级预测模型训练方法，其特征在于，所述提取样本文本的样本词语集合的步骤包括：

3.根据权利要求2所述的标点符号分级预测模型训练方法，其特征在于，所述提取所述样本词语集合的样本语义特征的步骤包括：

提取所述词向量文本的样本语义特征。

4.根据权利要求1所述的标点符号分级预测模型训练方法，其特征在于，所述提取样本语音的样本音频特征的步骤包括：

5.根据权利要求1所述的标点符号分级预测模型训练方法，其特征在于，所述将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得乘积量化特征的步骤包括：

将停顿时间用于分割，获得分割后的语音识别文本向量；

将所述样本音频特征进行训练、聚类；

量化所述样本音频特征；

6.根据权利要求1所述的标点符号分级预测模型训练方法，其特征在于，还包括：

对所述样本文本中低频标点符号片段设置注意力分数；

将所述增强文本数据输入低频标点符号预测模型。

7.一种标点符号恢复方法，其特征在于，包括如权利要求1-6任一项所述的标点符号分级预测模型训练方法获得的最优低频预测模型以及最优高频预测模型，所述标点符号恢复方法包括如下步骤：

8.根据权利要求7所述的标点符号恢复方法，其特征在于，还包括：

对所述数据集训练，生成标点符号恢复模型；

9.一种标点符号恢复装置，其特征在于，包括：

10.根据权利要求9所述的标点符号恢复装置，其特征在于，所述多模态特征融合模块包括与样本文本连接的音频特征提取子模块、文本特征提取子模块、数据增强子模块。

11.根据权利要求9所述的标点符号恢复装置，其特征在于，所述标点符号分级恢复推断模块包括信息获取单元、低频标点符号预测单元、多模态特征融合单元、高频标点符号预测单元、冲突决策单元、输出单元。

12.一种恢复设备，其特征在于，所述恢复设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的恢复程序，所述恢复程序被所述处理器执行时实现如权利要求7-8任一项所述的标点符号恢复方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储恢复程序，所述程序被处理器执行时实现如权利要求7-8任一项所述的标点符号恢复方法的步骤。