CN115827854B

CN115827854B - 语音摘要生成模型训练方法、语音摘要生成方法及装置

Info

Publication number: CN115827854B
Application number: CN202211687868.4A
Authority: CN
Inventors: 王大亮; 李昱璇; 齐红威; 姜丹
Original assignee: Hebei Shuyuntang Intelligent Technology Co ltd; Datatang Beijing Technology Co ltd
Current assignee: Hebei Shuyuntang Intelligent Technology Co ltd; Datatang Beijing Technology Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-08-11
Anticipated expiration: 2042-12-28
Also published as: CN115827854A

Abstract

本发明涉及一种语音摘要生成模型训练方法、语音摘要生成方法及装置，训练方法包括如下步骤：提取样本文本的样本词语集合，以及提取样本音频数据的样本音频特征；将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得多模态特征向量；根据样本文本所归属的领域，获得样本文本的领域权重；将所述领域权重加入所述多模态特征向量；将所述多模态特征向量输入摘要生成模型，通过逐步迭代训练获得最优摘要生成模型。本技术方案的语音摘要生成模型训练方法通过融合音频数据与文本的多模态信息，使生成的语音摘要更精确、重点性更强；并且通过校正多模态特征向量的领域，增强了语音摘要的领域倾向性，修正生成的语音摘要，使语音摘要更精准。

Description

语音摘要生成模型训练方法、语音摘要生成方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种语音摘要生成模型训练方法、语音摘要生成方法及装置。

背景技术

语音摘要是一项利用计算机自动从语音文件中提取摘要的技术，应用于会议纪要、演讲摘要、通话录音摘要和语音新闻摘要等多个场景。由于当前语音识别技术能力的限制，无法直接将语音信号转换为质量较高的文本摘要，需要通过自然语言处理技术来弥补不足。而经语音识别后的文本存在口语性强，语气词出现频率高以及易出现表达重复、语法错误等问题，使语音摘要技术存在一定的研究难度，近几年受到了研究学者的广泛关注。

目前，语音摘要的研究大多依赖于文本摘要技术，这些方法通常输入经过语音识别后文本，输出文本内容的对应摘要。然而，语音识别后的文本并不能表现说话人在发音、停顿、语气及流畅度等特点的多种差异，单单通过语音识别系统来提高语音摘要的精确度和可读性是比较困难的。并且，现有的语音摘要生成方法通常是针对特定领域或特定场景的，较少研究出能实现多个领域同样适用的模型，因此并不能满足广泛的应用场景。在具体语音摘要生成的方法上，常采用RNN的生成式摘要模型，利用序列到序列（Sequence-to-Sequence）框架作为模型的基础。但传统的编码器-解码器结构由于上下文向量维度有限，所以在编码固定长度的上下文向量时会损失部分编码信息。并且，由于RNN具有依据时序来输入信息的特征，会导致模型的许多特征损失，故需要对传统编码器-解码器模型做出一定的改进。

对于现有的语音摘要技术，研究方法往往基于文本自动摘要技术中的生成式摘要方法，包括指针生成网络、基于语义相关性的神经网络模型以及基于注意力的编码-解码模型等。随着语音识别技术的发展，语音自动摘要可以结合语音信息中隐含的声韵变化、说话人情绪和场景等相关信息，可以生成更高质量的摘要。

中国专利CN1138085A提出一种语音摘要的智能提取方法，该方法通过获取用户语音，对用户语音进行信号提取，得到语音信号，并提取语音信号的频谱特征；利用预设的语音识别模型对频谱特征进行文本转换，得到语音文本；利用预设的情绪识别模型识别语音文本的情绪特征，并从语音文本中提取情绪特征的第一关键语句；从语音文本中选取符合预设业务规则的第二关键语句；将第一关键语句和第二关键语句进行合并后作为用户语音的关键摘要语句。此外，该发明还涉及区块链技术，所述情绪特征可存储区块链中。然而，这种方法并未融合语音音频与抄本文本的多模态信息，生成的摘要不够精确，重点性不强。

中国专利CN112017632A提出了一种自动化会议记录生成方法，该方法包括：收集音频数据，对音频数据进行预处理，采用DNN算法模型对处理后的数据进行声纹识别，识别说话人；采用翻译模型对处理后的数据进行语音识别，将语音转换为文字，获取文本数据；采用TextRank算法对文本信息进行文本摘要；采用了DCNN模型对文本信息进行句子级情感识别；最后生成会议记录。该自动化会议记录生成方法，可以对会议的音频数据进行音频预处理，通过声纹识别算法识别说话人，然后通过语音识别算法将语音转换成文字，并通过文本摘要算法生成会议摘要，同时通过情绪识别算法识别说话人的情绪，最后生成会议记录，大大节省了人力资源，提高了效率。但是，该方法针对的是对会议记录的语音摘要，适用范围较窄，不能达到领域自适应的要求。

中国专利CN110209801A提出了一种基于自注意力网络的文本摘要自动生成方法，该方法包括：将输入文本进行分词,得到词序列；将词序列进行词嵌入产生相应的词向量序列；使用自注意力网络编码器对词向量序列进行编码；使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要。该发明方法具有模型计算速度快，训练效率高，模型的泛化性能好等优点。但是此方法没有充分地从多维度的特征向量计算中引入更多信息。

综合现有的技术，首先，大多数的文本摘要预测模型缺乏引入音频特征，导致预测模型的预测结果不够准确；其次，现有技术大多采用单一的固定语料训练模型，仅适用于通用领域或某一特定领域，领域适用范围小。

发明内容

本发明的目的是提出语音摘要生成模型训练方法、语音摘要生成方法及装置，旨在解决现有语音摘要生成模型缺乏引入音频特征，导致预测模型的预测结果不够准确的技术问题。

为实现上述目的，本发明提出一种语音摘要生成模型训练方法包括如下步骤：

提取样本文本的样本词语集合，以及提取样本音频数据的样本音频特征；

将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得多模态特征向量；

根据样本文本所归属的领域，获得样本文本的领域权重；

将所述领域权重加入所述多模态特征向量；

将所述多模态特征向量输入摘要生成模型，通过逐步迭代训练获得最优摘要生成模型。

作为本发明的进一步改进：所述将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得多模态特征向量的步骤包括：

将所述样本词语集合嵌入向量，获得文本特征矩阵；

提取所述样本音频特征，获得音频特征矩阵；

将所述音频特征矩阵转换成与所述文本特征矩阵的向量相同的音频转换矩阵；

将所述音频转换矩阵、所述文本特征矩阵进行连接融合，获得多模态特征向量。

作为本发明的进一步改进：所述根据样本文本所归属的领域，获得样本文本的领域权重的步骤包括：

提取样本文本的领域特征；

将所述领域特征与领域词典对比，确定相似度最大的领域为样本文本的领域类型；

根据所述领域类型，增加特定领域的词汇的领域权重。

作为本发明的进一步改进：所述通过逐步迭代训练获得最优摘要生成模型的步骤包括：

学习所述多模态特征向量的关键语义，获得深层语义；

基于多头注意力机制进行建模，根据所述深层语义生成语音摘要；

提高语音摘要与样本文本的关联性；

判断摘要生成模型的训练损失是否小于设定的阈值，若是，摘要生成模型停止训练，生成最优摘要生成模型；

若否，则继续训练摘要生成模型。

作为本发明的进一步改进：所述音频特征包括Pitch特征、i-vector特征、x-vector特征。

此外，为实现上述目的，本发明还提供一种语音摘要生成方法，包括上述的语音摘要生成模型训练方法获得的最优摘要生成模型，所述语音摘要生成方法包括如下步骤：

输入原始语音音频，提取所述原始语音音频的原始音频特征；

对所述原始语音音频进行语音解码，获得原始语音文本；

将所述原始语音文本与所述原始音频特征进行多模态特征融合，形成多模态特征向量；

增强多模态特征向量的领域倾向性；

将所述多模态特征向量输入所述最优摘要生成模型，生成语音摘要。

作为本发明的进一步改进：所述增强多模态特征向量的领域倾向性的步骤包括：

提取原始语音文本的领域特征；

将所述领域特征与领域词典对比，确定相似度最大的领域为原始语音文本的领域类型；

根据所述领域类型，增加特定领域的词汇的领域权重；

将所述领域权重赋值到所述多模态特征向量。

此外，为实现上述目的，本发明还提供一种语音摘要生成装置，包括：

数据处理模块，用于提取样本音频数据的样本音频特征以及提取样本文本的样本词语集合，并进行多模态融合，供摘要生成模型学习；

领域自适应模块，用于获取样本文本的领域特征，判定领域类型，将领域权重赋予多模态特征向量；

多模态领域性摘要训练模块，用于通过逐步迭代训练，生成最优摘要生成模型；

语音摘要生成模块，用于对输入的语音音频进行语音摘要生成，输出最终的语音摘要。

此外，为实现上述目的，本发明还提供一种语音摘要生成设备，所述语音摘要生成设备设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的语音摘要生成程序，所述语音摘要生成程序被所述处理器执行时实现上述的语音摘要生成方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储语音摘要生成程序，所述程序被处理器执行时实现上述的语音摘要生成方法的步骤。

相对于现有技术，本发明具有以下有益效果：

本技术方案的语音摘要生成模型训练方法通过融合音频数据与文本的多模态信息，使生成的语音摘要更精确、重点性更强；并且通过校正多模态特征向量的领域，增强了语音摘要的领域倾向性，修正生成的语音摘要，使语音摘要更精准。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本申请的语音摘要生成装置一实施例的结构示意图；

图2为本申请的语音摘要生成模型训练方法一实施例的流程示意图；

图3为本申请的语音摘要生成模型训练方法一实施例的多模态特征融合流程示意图；

图4为本申请的语音摘要生成模型训练方法一实施例的Transformer模型结构图；

图5为本申请的语音摘要生成模型训练方法一实施例的多头注意力机制框架图；

图6为本申请的语音摘要生成模型训练方法一实施例的生成摘要模型图；

图7为本申请涉及的硬件运行环境的语音摘要生成设备一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，若全文中出现的“和/或”或者“及/或”，其含义包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

现有的技术，首先，大多数的文本摘要预测模型缺乏引入音频特征，导致预测模型的预测结果不够准确；其次，现有技术大多采用单一的固定语料训练模型，仅适用于通用领域或某一特定领域，领域适用范围小。

请参阅图1，本技术方案的语音摘要生成装置一实施例中，该装置包括：

值得注意的是，上述的数据处理模块、领域自适应模块、多模态领域性摘要训练模块用于语音摘要生成模型的训练；而语音摘要生成模块用于语音摘要的生成。

数据处理模块：该模块的功能为提取出音频数据以及语音文档数据特征，并进行特征融合，供生成摘要模型学习。模块输入部分为训练数据集，包含音频数据、文本以及参考摘要数据。该模块包含音频数据预处理单元、特征提取单元、文本预处理单元、词向量预训练单元、文本嵌入向量单元、特征融合单元。

音频数据预处理单元：该单元用于对输入音频数据进行预处理，增强语音数据，为特征提取单元做准备。

特征提取单元：该单元在音频数据预处理的基础上，提取样本音频数据的样本音频特征，音频特征包括：Pitch、MFCC、i-vector和x-vector等。

文本预处理单元：该单元对输入样本文本进行预处理，对中文序列数据进行分词、词性标注、去除语气词、停用词，将序列文本转化为样本词语集合，用于词向量训练。

词向量预训练单元：该单元采用预训练模型对词语进行学习，将样本词语集合转化为设定维度的词向量。

文本嵌入向量单元：该单元将样本词语集合生成嵌入向量，获得样本词向量，用于多模态特征向量融合。

特征融合单元：该单元将样本音频数据提取的样本音频特征与样本词向量进行融合，形成多模态特征向量，作为多模态领域性摘要训练模块的输入。

领域自适应模块：该模块在领域词典的基础上，获取输入文本的领域特征，判定领域类型，将领域权重赋予多模态特征向量，继而输入到摘要生成模型的训练过程中。该模块包含领域特征计算单元、领域判定单元、领域权重赋值单元。

领域特征计算单元：该单元通过深度神经网络学习文本的领域特征，获取文本对于特定领域的倾向。

领域判定单元：该单元根据领域词典和领域特征计算结果对文本的领域类型进行判定，获取文本的领域类型。

领域权重赋值单元：该单元根据文本的领域类型增加特定领域的词汇的权重，将权重加入多模态特征向量，使摘要模型能够针对特定领域有更好的适应性。

多模态领域性摘要训练模块：该模块是摘要模型的训练过程，通过逐步迭代训练，最终生成最优模型参数，该模块包含关键语义学习单元、领域性多头注意力建模单元、语义理解单元、模型评估单元、模型训练决策单元、最优模型生成单元。

关键语义学习单元：该单元在预训练的基础上，对多模态特征向量进行关键语义学习，获得深层语义。

领域性多头注意力建模单元：该单元基于多头注意力机制进行建模，根据深层语义生成语音摘要。

语义理解单元：该单元用于提高语音摘要与样本文本的关联性，增强生成语音摘要时的准确性。

模型评估单元：该单元用于评测生成语音摘要的结果。

模型训练决策单元：该单元用于判断模型训练效果，并决定是否继续训练。当模型的训练损失小于设定的阈值时，模型停止训练，生成最佳模型参数；否则，继续训练。

最优模型生成单元：该单元获取训练后所得最优模型的参数，保存并输出到下一模块，用于模型推断。

语音摘要生成模块：该模块的功能为对输入的语音音频进行语音摘要生成操作，输出最终的语音摘要，该模块包含语音识别单元、文本向量表示单元、多模态特征向量融合单元、语音摘要生成单元。

语音识别单元：该单元在语音音频输入后，通过语音特征提取子单元进行音频特征提取以及通过语音解码子单元进行语音解码。

文本向量表示单元：该单元通过文本嵌入向量生成子单元对音频特征的文本进行文本嵌入向量生成，并通过领域信息判定子单元根据领域词典和计算得到音频特征的文本的领域信息。

多模态特征向量融合单元：该单元将音频特征及文本的特征向量进行融合，用于语音摘要生成的输入部分。

语音摘要生成单元：该单元将领域权重赋值后的多模态特征向量作为输入，使用训练得到的最优摘要生成模型，形成最终的语音摘要并且将其输出。

请参阅图2-图6，本技术方案的语音摘要生成模型训练方法一实施例中，该方法应用于上述实施例的语音摘要生成装置，该方法包括如下步骤：

S100：提取样本文本的样本词语集合，以及提取样本音频数据的样本音频特征；

S200：将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得多模态特征向量；

S300：根据样本文本所归属的领域，获得样本文本的领域权重；

S400：将所述领域权重加入所述多模态特征向量；

S500：将所述多模态特征向量输入摘要生成模型，通过逐步迭代训练获得最优摘要生成模型。

具体而言，通过语音摘要生成装置的数据处理模块的文本预处理单元提取样本文本的样本词语集合，以及同时通过音频数据预处理单元、特征提取单元提取样本音频数据的样本音频特征；通过特征融合单元对样本音频特征、样本词语集合进行多模态特征融合，获得多模态特征向量。随后，通过领域自适应模块的领域特征计算单元、领域判定单元获得样本文本的领域权重，通过领域权重赋值单元将领域权重加入所述多模态特征向量，多模态特征向量输入多模态领域性摘要训练模块中的摘要生成模型，通过多模态领域性摘要训练模块逐步迭代训练获得最优摘要生成模型。

进一步地，S200：将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得多模态特征向量的步骤包括：

S201：将所述样本词语集合嵌入向量，获得文本特征矩阵；

S202：提取所述样本音频特征，获得音频特征矩阵；

S203：将所述音频特征矩阵转换成与所述文本特征矩阵的向量相同的音频转换矩阵；

S204：将所述音频转换矩阵、所述文本特征矩阵进行连接融合，获得多模态特征向量。

可以理解的是，当语音摘要任务过度依赖文本数据时，由于文本没有断句且没有标点符号，在分词时可能会出现歧义。而且，只利用文本生成的语音摘要重点性不强，没有结合说话人的语气、韵律、腔调和说话的轻重缓急。为了解决文本进行摘要生成时的判断信息不足，且语音音频中存在大量可供语音摘要生成的参考信息，本技术方案加入了语音模态，通过对音频数据及文本数据进行多模态特征融合来弥补文本单模态所不具备的信息。因此，在本实施例中，多模态特征的融合具体过程如下：

请参阅图3，图3为多模态特征融合流程示意图。样本文本数据在文本嵌入向量后得到文本特征矩阵，该文本特征矩阵的向量维度为（300,m）；

音频数据在特征提取后得到音频特征矩阵，该音频特征矩阵的向量维度为（ri,n），音频特征矩阵在经过LSTM网络预处理后，转换成与文本特征矩阵的向量相同的音频转换矩阵，该音频转换矩阵的向量维度为（300,m）；

将文本特征与音频特征矩阵按两通道进行连接，获取到的多模态特征向量为（300,m,2）；

该多模态特征向量（300,m,2）在进行领域性信息增强后输入摘要生成模型中。

举例说明，当得到的文本为 “疫苗是指用各种病原微生物制作的生物制品”时，设文本向量的文本特征矩阵为（300，12），得到的音频特征矩阵为（240,300）。音频特征矩阵在经过LSTM网络后得到的音频转换矩阵为（300,12），经过两通道连接后，融合后的多模态特征向量为（300,12,2）。

进一步地，S300：所述根据样本文本所归属的领域，获得样本文本的领域权重的步骤包括：

S301：提取样本文本的领域特征；

S302：将所述领域特征与领域词典对比，确定相似度最大的领域为样本文本的领域类型；

S303：根据所述领域类型，增加特定领域的词汇的领域权重。

在本实施例中，领域权重的赋值具体过程如下：

领域判定：领域特征计算的输入为文本的词向量，通过Transformer模型提取词向量的领域特征，获得设定维度矩阵形式的领域特征。针对不同的领域，根据领域词典和计算所得文本的领域特征，获得语音的内容最终的领域类型。

请参阅图4，图4为Transformer模型结构图。在图4中，模型输入词向量，输出文本的领域特征，将领域特征与领域词典特征对比，确定相似度最大的领域为文本所属的领域类型。

Transformer模型是叠加的自注意力机制（self-Attention）构成的深度网络，是目前NLP里最强大的特征提取器。以领域词典为基础，训练所得模型能够对文本进行领域类型的判定。

例如，文本“疫苗是指用各种病原微生物制作的生物制品”的词向量输入领域特征判定模型中，获得领域特征，将领域特征与领域词典特征对比，获得该文本所属的领域为“生物医学”。

领域权重赋值：根据确定的领域类型，通过将多模态融合后的多模态特征向量赋予领域权重，增加领域倾向性，从而使生成的语音摘要满足领域特征。

上例中，“生物医学”领域在词典中包含若干相关词汇，如“疫苗研制”等。在模型的训练过程中，模型需重点关注“生物医学”领域词汇，为这些词汇重新赋予权重，使模型在生成摘要的过程中不忽略“生物医学”领域的词汇。

对于通用领域，多模态特征向量的权重在模型训练中确定。在特殊领域中，多模态特征向量被赋予特殊领域权重值以增强领域倾向性。权重大小由特定领域词汇在语料中的重要性设定权重，即若文本中的特殊领域词与判定后的领域范围关联程度大，则赋予特征向量相对较大的相关领域权重。为增加领域倾向性，特殊领域权重比通用领域中的权重值更大。领域权重赋值的具体方法为：

其中，Median(Sen_t)表示该词所在句子在文本中的位置中位数。C_i是词语在文本中出现的次数，N_i是文本中词语的总数。MeanT_f是整个词的词频均值，是标准差。公式中W’为通用领域下的权重，权重参数

，因此特定领域相比通用领域赋予特征向量更大的权重。

进一步地，S500：通过逐步迭代训练获得最优摘要生成模型的步骤包括：

S501：学习所述多模态特征向量的关键语义，获得深层语义；

S502：基于多头注意力机制进行建模，根据所述深层语义生成语音摘要；

S503：提高语音摘要与样本文本的关联性；

S504：判断摘要生成模型的训练损失是否小于设定的阈值，若是，摘要生成模型停止训练，生成最优摘要生成模型；

S505：若否，则继续训练摘要生成模型。

具体而言，在融合多模态信息的语音摘要方法中，多模态信息在向量表示及融合的过程中会产生高维度的稀疏语义向量，通过加入多头注意力机制，在将多模态融合后的多模态特征向量降维的同时，使摘要生成模型可以捕获多信息的依赖关系，避免生成的语音摘要遗漏重点信息。

多头注意力机制：与使用单独的一个注意力池化不同，在多头注意力机制中，模型可以独立学习到h组不同的线性投影来变换查询、键和值，即模型被允许在不同的表示子空间里学习到相关的信息。多头注意力机制的框架如图5所示。

在图5中，表示query，表示key，表示value。通过的各个维度进行多次线性映射，重复执行h次的Attention操作，最后将结果通过多个自注意力机制进行拼接。

模型将使用不同序列位置的不同子空间的表征信息来进行序列数据处理。

生成式摘要模型：生成式的摘要模型以序列到序列的生成模型（Seq2Seq）为基础，结构如图6所示。

在图6中，多模态嵌入式向量输入编码器中，经过注意力机制后从解码器输出，得到最终语音摘要。在编码器中，用BiLSTM网络代替RNN网络，在增加了从后往前传递信息的隐藏层之后，对序列数据进行双向处理，克服RNN中的梯度消失与梯度爆炸的弊端。在解码器中，用LSTM网络代替RNN网络，LSTM的计算单元中含有输入门、遗忘门和输出门，其通过这些门控机制来保存与控制信息流动，能够很好地解决RNN的长期依赖问题。

模型决策：语音摘要生成模型是否继续训练由模型训练决策单元确定，当模型训练的损失达到或小于某设定值时，模型停止训练。语音摘要生成的损失使用交叉熵损失函数，具体的损失loss计算方法如下公式所示：

其中，{y₁,y₂,...,y_n}表示模型的摘要输出。

模型评估：语音摘要模型的生成结果需要和人工生成的参考摘要数据进行对比，使用ROUGE评价指标对模型进行评估得分，以此来衡量模型的精确度。

Rouge-N统计了预测结果和人工结果两个字符串的n-gram重叠单元的数量，并计算了重叠单元在人工摘要结果字符串中的占比。Rouge-N计算方法如下公式所示。

其中，C_Pred&idea为预测结果与人工结果的n-gram重叠数量，C_idea为人工结果的n-gram数量。ROUGE-L计算时使用了机器译文C和参考译文S的最长公共子序列，计算公式如下：

其中，R_lcs表示召回率，P_lcs表示精确率。

所述提取样本音频数据的样本音频特征的步骤包括：

进一步地，所述音频特征包括Pitch特征、i-vector特征、x-vector特征。

语音中的声学特征包含时域特征和频域特征。基音频率（Pitch）是语音在时域上的重要特征之一，它是指声带的振动频率，其倒数为基音周期。获取到的pitch特征通常以矩阵的形式进行存储，其矩阵维度为(rowNum, colNum)，其中，colNum=16，rowNum为帧数，与音频时长有关。

语速代表一个人说话的快慢，可以表示为语音识别后文本所含字数与其对应的语音信号持续时间的比值。语速属于语音信号在时间构造上的特性，反映了一个人在说话时的心情的急切程度，可以表现出部分信息的重要程度。当说话人传达信息时，通常会降低语速，用清晰且缓慢的语调表达出来。该信息是一个摘要重要的组成部分。声功率是声源在单位时间内辐射的总声能量。声功率越大，表示声源单位时间内发射的声能量越大。说话人在讲话过程中，不同的位置或不同的感情中声音的轻重不同，这是说话人突出重要信息的一种方式。通过对声功率的检测，可以将文本中不重要的片段弱化，减少摘要中的垃圾信息。

对于从语音音频文件中提取到的音频特征，音频特征包括MFCC、i-vector和x-vector，这些特征将以矩阵的形式进行存储，从而与文本的词向量进行多模态融合。

例如，当输入一段演讲现场的语音音频时，经过音频特征提取可得到演讲人的声音特征，用维度为（ri,n）的特征矩阵(c₁,c₂,...,c_n)表示，其中ri为音频时长对应总帧数，n为各音频特征矩阵维度列数之和。

本技术方案还提出一种语音摘要生成方法，该方法包括上述实施例语音摘要生成模型训练方法获得的最优摘要生成模型，所述语音摘要生成方法包括如下步骤：

S600：输入原始语音音频，提取所述原始语音音频的原始音频特征；

S700：对所述原始语音音频进行语音解码，获得原始语音文本；

S800：将所述原始语音文本与所述原始音频特征进行多模态特征融合，形成多模态特征向量；

S900：增强多模态特征向量的领域倾向性；

S1000：将所述多模态特征向量输入所述最优摘要生成模型，生成语音摘要。

在本实施例中，语音摘要生成模块的输入为原始语音音频，首先进行音频特征提取和语音解码，得到音频特征以及原始语音文本；随后，对原始语音文本进行文本嵌入向量得到文本特征，同时对文本特征进行领域信息判定，文本特征结合音频特征进行多模态特征融合；再者，通过领域权重赋值增强特征向量领域倾向性；最后，利用摘要模型训练获取到的最优摘要生成模型进行语音摘要生成，输出最终的语音摘要。

综上所述，本技术方案提出一种语音摘要生成模型训练方法、语音摘要生成方法及装置。该方法与装置通过融合语音音频与文本文本的多模态信息，以解决语音摘要任务中生成的摘要不够精确、重点性不强的问题；其次，通过对多模态特征向量的领域特征的校正，增强了语音摘要的领域倾向性，以弥补对话场景中，默认或缺失的背景和领域信息；再次，使用了一种面向高维度稀疏语义向量的多头注意力机制生成式摘要方法，以解决对话场景的口语化语义分散，导致的高维度的特征向量稀疏，从而导致生成的摘要遗漏重点信息的问题。通过本发明，在更加丰富的领域，针对对话场景的语音记录，生成准确且可读性强的语音摘要。

本技术方案还提出一种语音摘要生成设备，所述语音摘要生成设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的语音摘要生成程序，所述语音摘要生成程序被所述处理器执行时实现上述的语音摘要生成方法的步骤。

本技术方案还提出一种可读存储介质，所述可读存储介质上存储语音摘要生成程序，所述程序被处理器执行时实现上述的语音摘要生成方法的步骤。

参照图7，图7为本发明一实施例方案涉及的硬件运行环境的语音摘要生成设备结构示意图。

如图7所示，该语音摘要生成设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM）存储器，也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图7中示出的结构并不构成对语音摘要生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图7所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及语音摘要生成程序。

在图7所示的语音摘要生成设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明语音摘要生成设备中的处理器1001、存储器1005可以设置在语音摘要生成设备中，所述语音摘要生成设备通过处理器1001调用存储器1005中存储的语音摘要生成程序，并执行本发明实施例提供的语音摘要生成方法。

此外，本实施例还提出一种存储介质，所述存储介质上存储有语音摘要生成程序，该语音摘要生成程序被处理器执行时实现如上文所述的语音摘要生成方法的步骤。

存储介质的具体实施方式与上述的语音摘要生成方法的实施方式基本一致，此处不做赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音摘要生成方法，其特征在于，所述语音摘要生成方法包括如下步骤：

对所述原始语音音频进行语音解码，获得原始语音文本；

增强多模态特征向量的领域倾向性；

将所述多模态特征向量输入最优摘要生成模型，生成语音摘要；

其中，最优摘要生成模型通过语音摘要生成模型训练方法获得，所述语音摘要生成模型训练方法包括如下步骤：

根据样本文本所归属的领域，获得样本文本的领域权重；

将所述领域权重加入所述多模态特征向量；

将所述多模态特征向量输入摘要生成模型，通过逐步迭代训练获得最优摘要生成模型；

其中，所述样本音频特征包括Pitch特征、i-vector特征、x-vector特征，所述通过逐步迭代训练获得最优摘要生成模型的步骤包括：

学习所述多模态特征向量的关键语义，获得深层语义；

提高语音摘要与样本文本的关联性；

若否，则继续训练摘要生成模型；

其中，所述将所述多模态特征向量输入所述最优摘要生成模型，生成语音摘要的步骤还包括：

所述最优摘要生成模型包括编码器、解码器，所述多模态特征向量输入编码器中，经过注意力机制后从解码器输出，得到最终语音摘要；其中，编码器采用BiLSTM网络，解码器采用LSTM网络；

其中，在生成最优摘要生成模型之后，还包括如下模型评估步骤：

将所述摘要生成模型的生成结果和人工生成的参考摘要数据进行对比；

使用ROUGE-N评价指标对所述摘要生成模型进行评估得分，所述ROUGE-N计算方法如下公式所示：

其中，为预测结果与人工结果的n-gram重叠数量，/>为人工结果的n-gram数量，ROUGE-L计算时使用了机器译文C和参考译文S的最长公共子序列，计算公式如下：

其中，表示召回率，/>表示精确率；

其中，所述根据样本文本所归属的领域，获得样本文本的领域权重的步骤包括：

提取样本文本的领域特征；

根据所述领域类型，增加特定领域的词汇的领域权重；

其中，增加特定领域的词汇的领域权重方法为：

其中，表示该词所在句子在文本中的位置中位数，/>是词语在文本中出现的次数，/>是文本中词语的总数， />是整个词的词频均值，/>是标准差，/>为通用领域下的权重，W为特定领域权重，权重参数/>。

2.根据权利要求1所述的语音摘要生成方法，其特征在于，所述增强多模态特征向量的领域倾向性的步骤包括：

提取原始语音文本的领域特征；

根据所述领域类型，增加特定领域的词汇的领域权重；

将所述领域权重赋值到所述多模态特征向量。

3.根据权利要求1所述的语音摘要生成方法，其特征在于，所述将所述样本词语集合、所述样本音频特征进行多模态特征融合，获得多模态特征向量的步骤包括：

将所述样本词语集合嵌入向量，获得文本特征矩阵；

提取所述样本音频特征，获得音频特征矩阵；

4.一种语音摘要生成设备，其特征在于，所述语音摘要生成设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的语音摘要生成程序，所述语音摘要生成程序被所述处理器执行时实现如权利要求1-3任一项所述的语音摘要生成方法的步骤。

5.一种可读存储介质，其特征在于，所述可读存储介质上存储语音摘要生成程序，所述程序被处理器执行时实现如权利要求1-3任一项所述的语音摘要生成方法的步骤。