CN113836346B

CN113836346B - 为音频文件生成摘要的方法、装置、计算设备及存储介质

Info

Publication number: CN113836346B
Application number: CN202111051435.5A
Authority: CN
Inventors: 袁威强; 韩其琛; 刘�东; 杨震; 李响; 胡光龙
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-08-08
Anticipated expiration: 2041-09-08
Also published as: CN113836346A

Abstract

本公开的实施方式提供了一种为音频文件生成摘要的方法、装置、计算设备及存储介质，所述方法包括：获取待处理音频及其对应的音频特征序列；基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，其中，所述第一音频预先标注有对应的第一摘要，所述候选音频为音频相似度高于第一预设阈值的第一音频；基于所述候选音频中各第一音频的第一摘要提取关键词；根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。可以生成描述所述待处理音频的主要内容的自然语言性质的摘要，从而在已有的第一摘要的基础上降低了对标注数据的依赖程度，并大大提升了为音频文件生成摘要的效率。

Description

为音频文件生成摘要的方法、装置、计算设备及存储介质

技术领域

本公开的实施方式涉及音频处理技术领域，更具体地，本公开的实施方式涉及一种为音频文件生成摘要的方法、装置、计算设备及存储介质。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

音频资料的文本摘要可以使得音频内容被快速理解，并且使得音频资料可以基于自然语言的检索系统进行查询和检索。然而对于无人声的音频资料，比如纯音乐、自然声音等，无法通过语音识别技术直接获得可被理解的文本内容信息，来对音频资料进行音频标注。

现有的音频摘要生成方法中，通常利用音频和预先标注的摘要构成数据样本对进行生成模型训练，这种方法需要大量的人工标注数据，成本高昂。

发明内容

有鉴于此，本公开实施例至少提供一种为音频文件生成摘要的方法、装置、计算设备及存储介质，以缓解对人工标注数据的需求。

在本公开实施方式的第一方面中，提供了一种为音频文件生成摘要的方法，包括：

获取待处理音频及其对应的音频特征序列；

基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，其中，所述第一音频预先标注有对应的第一摘要，所述候选音频为音频相似度高于第一预设阈值的第一音频；

基于所述候选音频中各第一音频的第一摘要提取关键词；

根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。

在本公开的一种实施方式中，所述获取待处理音频的音频特征序列，包括：

对所述待处理音频进行频谱变换；

将频谱变换结果输入至音频编码器，得到所述音频特征序列。

在本公开的一种实施方式中，所述方法还包括：

在对所述待处理音频进行频谱变换之前，根据预设频率对所述待处理音频进行采样，其中，所述预设频率根据所述音频编码器的训练样本的采样频率确定。

在本公开的一种实施方式中，所述基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，包括：

将所述待处理音频的音频特征序列，和所述第一音频的音频特征序列输入至相似度预测网络，得到所述待处理音频与所述第一音频之间的音频相似度；

在所述音频相似度高于第一预设阈值情况下，确定所述第一音频为候选音频。

在本公开的一种实施方式中，所述基于所述候选音频中各第一音频的第一摘要提取关键词，包括：

根据所述候选音频中各第一音频的第一摘要中的每个词语与所述候选音频中所有第一音频的第一摘要的相关性，确定所述词语的权值；

确定权值最高的m个词语为所述关键词，其中，m为正整数，且小于所述候选音频中第一音频的数目。

在本公开的一种实施方式中，所述第一音频为预先获取的第一音频集合中的任一音频，所述根据所述候选音频中各第一音频的第一摘要中的每个词语与所述候选音频中所有第一音频的第一摘要的相关性，确定所述词语的权值，包括：

确定所述词语在所述候选音频中所有第一音频的第一摘要中出现的第一次数；

确定所述词语在所述第一音频集合中所有第一音频的第一摘要中出现的第二次数；

根据所述第一音频集合中第一音频的数目，以及所述词语对应的第一次数、第二次数，确定所述词语的权值。

在本公开的一种实施方式中，所述根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要，包括：

将所述音频特征序列输入至解码网络，所述解码网络确定待生成的目标摘要中每个字符对应于所述预设词表中各个字符的概率值；

响应于所述预设词表中的字符为所述关键词，利用所述关键词的权值对所述字符的概率值进行加权处理；

根据加权后的概率值中的最大值确定所述目标摘要中的每个字符。

在本公开的一种实施方式中，所述解码器通过以下方式确定待生成字符对应于所述预设词表中各个字符的概率值，所述待生成字符对应于所述解码器生成的目标摘要中第t+1位置处：

根据预设词表、所述待处理音频的音频特征序列以及待生成字符之前的t个字符的特征序列确定待生成字符对应于所述预设词表中各个字符的概率值；

其中，t为正整数，所述特征序列是对所述待生成字符之前的t个字符进行特征提取得到的；

并且，对于t＝1时的第1个字符，是根据所述预设词表以及所述待处理音频的音频特征序列确定的。

在本公开的一种实施方式中，所述方法还包括：

获取训练样本集，所述训练样本集中的每个样本音频具有样本摘要，并且所述训练样本集中任意两样本摘要之间的文本相似度已知；

利用所述训练样本集，对所述相似度预测网络进行训练。

在本公开的一种实施方式中，所述利用所述训练样本集，对所述相似度预测网络进行训练，包括：

从所述训练样本集中获取多个三元组样本；

利用所述三元组样本对所述相似度预测网络进行训练；其中，所述三元组样本包括：

基准音频，所述基准音频是所述训练样本集中的任一样本音频；

正样本，所述正样本是与所述基准音频的样本摘要的相似度高于第二预设阈值的样本音频；

负样本，所述负样本是与所述基准音频的样本摘要的相似度低于第三预设阈值的样本音频，其中，所述第二预设阈值高于所述第三预设阈值。

在本公开的一种实施方式中，所述相似度预测网络的训练损失包括：

第一相似度与第二相似度之差，其中，所述第一相似度指示所述基准音频与所述负样本的音频相似度，所述第二相似度指示所述基准音频与所述正样本的音频相似度；和，

预设间隔，所述预设间隔根据第三相似度与第四相似度之差确定，其中，所述第三相似度指示所述基准音频的样本摘要与所述负样本的样本摘要的相似度，所述第四相似度指示所述基准音频的样本摘要与所述正样本的样本摘要的相似度。

在本公开实施方式的第二方面中，提供了一种为音频文件生成摘要的装置，包括：

第一获取单元，用于获取待处理音频及其对应的音频特征序列；

第二获取单元，用于基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，其中，所述第一音频预先标注有对应的第一摘要，所述候选音频为音频相似度高于第一预设阈值的第一音频；

提取单元，用于基于所述候选音频中各第一音频的第一摘要提取关键词；

确定单元，用于根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。

在本公开的一种实施方式中，所述第一获取单元具体用于：

对所述待处理音频进行频谱变换；

在本公开的一种实施方式中，所述装置还包括采样单元，用于在对所述待处理音频进行频谱变换之前，根据预设频率对所述待处理音频进行采样，其中，所述预设频率根据所述音频编码器的训练样本的采样频率确定。

在本公开的一种实施方式中，所述第二获取单元具体用于：

在本公开的一种实施方式中，所述提取单元具体用于：

在本公开的一种实施方式中，所述第一音频为预先获取的第一音频集合中的任一音频，所述提取单元在用于根据所述候选音频中各第一音频的第一摘要中的每个词语与所述候选音频中所有第一音频的第一摘要的相关性，确定所述词语的权值时，具体用于：

在本公开的一种实施方式中，所述确定单元具体用于：

在本公开的一种实施方式中，所述装置还包括训练单元，用于：

利用所述训练样本集，对所述相似度预测网络进行训练。

在本公开的一种实施方式中，所述训练单元在用于利用所述训练样本集，对所述相似度预测网络进行训练时，具体用于：

从所述训练样本集中获取多个三元组样本；

在本公开实施方式的第三方面中，提供了一种计算设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现本公开任一实施例所述的方法。

在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，包括：计算机程序，所述计算机程序被处理器执行时实现本公开任一实施例所述的方法。

根据本公开实施方式的为音频文件生成摘要的方法、装置、计算设备及存储介质，通过获取待处理音频及其对应的音频特征序列；并基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，其中，所述第一音频预先标注有对应的第一摘要，所述候选音频为音频相似度高于第一预设阈值的第一音频；再基于所述候选音频中各第一音频的第一摘要提取关键词；最后根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。通过基于与待处理音频较为相似的候选音频的第一摘要提取关键词，并根据所述待处理音频的特征序列和所述关键词，可以生成描述所述待处理音频的主要内容的自然语言性质的摘要，从而在已有的第一摘要的基础上降低了对标注数据的依赖程度，并大大提升了为音频文件生成摘要的效率。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开实施方式的为音频文件生成摘要的方法流程图；

图2示意性地示出了根据本公开实施方式的相似度预测网络的训练方法的流程图；

图3示意性地示出了根据本公开实施例方式的生成目标摘要方法的示意图；

图4示意性地示出了根据本公开一实施例的一种为音频文件生成摘要的装置的结构示意图；

图5示意性地示出了根据本公开一实施例的计算机可读存储介质；

图6示意性地示出了根据本公开一实施例的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种方法、装置、计算设备和存储介质。在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

相关技术中的音频摘要生成方法中，通常利用音频和预先标注的摘要构成数据样本对进行生成模型训练，这种方法需要大量的人工标注数据，成本高昂。

因此，本公开实施方式提出的为音频文件生成摘要方案，旨在缓解对人工标注数据的需求，并保证为音频文件生成摘要的质量。

图1示意性地示出了根据本公开实施方式的一种为音频文件生成摘要的方法的流程。所述为音频文件生成摘要的方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该方法可以包括以下处理：

在步骤101中，获取待处理音频及其对应的音频特征序列。

其中，所述待处理音频可以是无人声的音频，比如纯音乐、自然声音等音频；然而，对于包含人声的音频，本公开实施方式所提出的摘要生成方法也同样适用。

通过对所述待处理音频进行特征提取，可以得到所述待处理音频对应的音频特征序列。

在步骤102中，基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频。

其中，所述第一音频是预先获得的音频，例如可以是预先获取的第一音频集合中的任一音频，并且所述第一音频预先标注有对应的第一摘要。所述第一摘要可以是人工进行标注的，也可以是通过其他方式获取的，本公开实施例对于第一音频的第一摘要的获取方式不进行限制。

通过将所述待处理音频的音频特征序列与所述第一音频的音频特征序列进行比较，可以获得所述待处理音频与所述第一音频之间的音频相似度，并将所述音频相似度高于第一预设阈值的第一音频确定为候选音频。在所述第一音频是预先获取的第一音频集合中的音频的情况下，根据所述音频特征序列可以确定出所述第一音频集合中所包含的一个或多个候选音频。

在步骤103中，基于所述候选音频中各第一音频的第一摘要提取关键词。

对于所述候选音频中每个第一音频的第一摘要中的每一个词语，判断该词语是否为关键词，从而可以获得所有候选音频对应的第一摘要中所包含的关键词。

在步骤104中，根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。

利用经训练的神经网络，可以根据待处理音频的音频特征序列预测生成该待处理音频的摘要文本，然而该方法需要大量的人工标注的数据。

在本步骤中，在所述待处理音频的音频特征序列的基础上，进一步利用步骤103中所获取的候选音频中各第一音频的第一摘要中包含的关键字，来确定所述待处理的目标摘要。由于待处理音频与候选音频具有较高的音频相似度，因此待处理音频与候选音频具有相似的表达方式，因而借助候选音频对应的第一摘要中的关键字，可以在标注数据不足的情况下，提升所生成的目标摘要的质量。

在本公开实施例中，通过获取待处理音频及其对应的音频特征序列；并基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，其中，所述第一音频预先标注有对应的第一摘要，所述候选音频为音频相似度高于第一预设阈值的第一音频；再基于所述候选音频中各第一音频的第一摘要提取关键词；最后根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。通过基于与待处理音频较为相似的候选音频的第一摘要提取关键词，并根据所述待处理音频的特征序列和所述关键词，可以生成描述所述待处理音频的主要内容的自然语言性质的摘要，从而在已有的第一摘要的基础上降低了对标注数据的依赖程度，并大大提升了为音频文件生成摘要的效率。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

在一些实施方式中，可以通过对所述待处理音频进行频谱变换，并将频谱变换结果输入至音频编码器，得到所述音频特征序列。

其中，对所述待处理音频进行频谱变换所到的频谱变换结果，可以是对数梅尔频谱特征。之后，将所述对数梅尔频谱特征输入音频编码器，该音频编码器对于所接收的对数梅尔频谱特征，输出预设维度的音频特征序列。

在一个示例中，所述音频编码器可以包括多个卷积层，并基于音频事件检测任务进行了预训练。本领域技术人员应当理解，音频编码器还可以是其他结构的神经网络，本公开实施方式对于音频编码器的具体结构不进行限制。

在一些实施方式中，还可以对待处理音频进行预处理。具体地，根据预设频率对所述待处理音频进行采样，其中，所述预设频率根据所述音频编码器的训练样本的采样频率确定。例如，在音频编码器在训练时使用32K的采样频率的情况下，可以以32K对所述待处理音频进行采样，以保持音频采样频率与音频编码器训练时使用的采样频率一致，从而进一步提高音频编码器输出音频特征序列的质量。

在一些实施方式中，可以通过以下方式获得候选音频。

首先，将所述待处理音频的音频特征序列，和所述第一音频的音频特征序列输入至相似度预测网络，得到所述待处理音频与所述第一音频之间的音频相似度；在所述音频相似度高于第一预设阈值情况下，确定所述第一音频为候选音频。

在所述第一音频为预先获取的第一音频集合中的音频的情况下，将待处理音频与所述第一音频集合中的每一个第一音频依次进行相似度计算，如果进行计算的第一音频对应的音频相似度高于第一预设阈值，则可以将该第一音频归入候选音频集合中。在遍历所述第一音频集合后，得到的候选音频集合中包含所有的候选音频。

由于具有较高音频相似度的音频通常具有相似的表达，因此通过确定与待处理音频的音频相似度的候选音频，可以获得与待处理音频的摘要较为相似的第一摘要，为后续生成目标摘要提供支撑。

图2示意性地示出了根据本公开实施方式的相似度预测网络的训练方法的流程图，该方法基于摘要的文本相似度来训练音频相似度。

在步骤201中，获取训练样本集，并获取所述训练样本集中任意两样本摘要之间的文本相似度。

也即，挑选包含摘要的音频构成训练样本集。所述训练样本集中的每个样本音频具有样本摘要，所述训练样本集中任意两样本摘要之间的文本相似度已知。

计算文本相似度的方法包括但不限于基于编辑距离、基于词向量相似度、基于句子向量相似度等的方法，以及通过经训练的深度神经网络预测两个文本的相似度的方法，等等。

在步骤202中，利用所获取的训练样本集，对所述相似度预测网络进行训练。

具体地，从所述训练样本集中获取多个三元组样本，利用所述三元组样本对所述相似度预测网络进行训练。

其中，所述三元组样本包括：

基准音频(anchor)，所述基准音频是所述训练样本集中的任一样本音频，所述基准音频是在训练样本中随机抽取的；

正样本(positive)，所述正样本是与所述基准音频的样本摘要的相似度高于第二预设阈值的样本音频，所述正样本是从摘要文本相似度大于所述第二预设阈值的音频集里随机抽取的；

负样本，所述负样本是与所述基准音频的样本摘要的相似度低于第三预设阈值的样本音频，所述负样本是从摘要文本相似度低于所述第三预设阈值的音频集里随机抽取的；

其中，所述第二预设阈值高于所述第三预设阈值。

对于每个基准音频，可以抽取多组正负样本，构造出多样性的样本组合。

在步骤203中，计算每个三元组样本中，所述基准音频与所述正样本的音频相似度，以及所述基准音频与所述负样本的音频相似度。

其中，所述基准音频与所述正样本的音频相似度，以及所述基准音频与所述负样本的音频相似度，可以利用本公开实施方式中提出的两个音频之间的音频相似度的方法进行计算，也可以利用其他计算音频相似度的方法进行计算，本公开实施方式对于计算音频相似度的具体方法不进行限制。

在步骤204中，计算每个三元组样本所产生的训练损失。

其中，每个三元组样本所产生的训练损失包括：

相应地，三元组样本所产生的训练损失Loss(anchor，positive，negtive)可以以公式(1)表示：

Loss(anchor，positive，negtive)＝max(0，margin(anchor，positive，negtive)+sim_audio(anchor，negative)-sim_audio(anchor，positive)) (1)

其中，sim_audio(anchor，negative)表示第一相似度，也即所述基准音频与所述负样本的音频相似度；sim_audio(anchor，negative)表示第二相似度，也即所述基准音频与所述正样本的音频相似度；

margin(anchor，positive，negtive)表示预设间隔，可以通过公式(2)得到：

margin(anchor，positive，negtive)＝mim(a，max(b，sim_caption(anchor，negative)-sim_caption(anchor，positive))) (2)

其中，sim_caption(anchor，negative)表示第三相似度，也即所述基准音频的样本摘要与所述负样本的样本摘要的相似度；

sim_caption(anchor，positive)表示第四相似度，也即所述基准音频的样本摘要与所述正样本的样本摘要的相似度；a、b为经验参数，例如a可以取0.4，b可以取0.1。

在步骤205中，更新所述相似度预测网络的参数。

基于在步骤204中的训练损失，根据网络训练优化方法，例如随机梯度下降、ADAM进行相似度预测网络的参数更新。

在本公开实施例中，通过抽取三元组样本对相似度预测网络进行训练，可以提高相似度预测网络的相似度预测准确度。

在一些实施方式中，可以利用以下方法从候选音频中各第一音频的第一摘要提取关键词。

首先，根据所述候选音频中各第一音频的第一摘要中的每个词语与所述候选音频中所有第一音频的第一摘要的相关性，确定所述词语的权值。一个词语与候选音频中所有第一音频的第一摘要的相关性越大，该词语的权值也即越高。

接下来，确定权值最高的m个词语为所述关键词，其中，m为正整数，且小于所述候选音频中第一音频的数目。也即是说，在所述候选音频所对应的第一摘要中所包含的所有词语中，将与候选音频中所有第一摘要的相关性最高的m个词语作为关键词。

在所述第一音频为预先获取的第一音频集合中的任一音频的情况下，可以通过以下方式确定每个词语的权值。

首先，确定所述词语在所述候选音频中所有第一音频的第一摘要中出现的第一次数。由于候选音频与待处理音频的音频相似度较高，若一个词语在候选音频对应的第一摘要中出现的次数较多，则说明该词语与候选音频的相关性是较高的。也可以将该第一次数称为该词语的词频t(w)。

接下来，确定所述词语在所述第一音频集合中所有第一音频的第一摘要中出现的第二次数。若一个词语在所有的第一音频对应的第一摘要中出现的次数较多，则说明该词语的重要程度越低，该词语很可能是″的″。″是″等。也可以将该第二次数称为该词语的文档频率d(w)。

最后，根据所述第一音频集合中第一音频的数目，以及所述词语对应的第一次数、第二次数，确定所述词语的权值。

在一个示例中，每个词语的权值可以通过公式(3)进行计算：

其中，w表示词语，t(w)表示第一次数，d(w)表示第二次数，D表示第一音频集合中第一音频的数目。

在一些实施方式中，还可以对每个词语的权值进行归一化处理，根据归一化结果更新所这词语的权值。

以下对关键词的获取方法进行就举例说明。

首先，对于预先获取的第一音频集合中所有第一摘要中每个词语w，统计其文档频率，也即每个词语在所有第一摘要中出现的第二次数。以某个第一摘要″一辆汽车从嘈杂的街道走过″为例，进行切词得到″一辆\汽车\从\嘈杂\的\街道\走过″，那么可以将其中每个词语的文档频率增加1，得到d(一辆)＝1，d(汽车)＝1...。遍历处理第一音频集合对应的所有第一摘要，即可获取每个词语w的文档频率d(w)。每个词语的文档频率d(w)只需处理一次即可固定。

对一个待生成摘要的待处理音频，可以根据音频相似度从上述第一音频集合中获取候选音频及对应的第一摘要，如″树林中有两只鸟在鸣叫″，″一些鸟在树林里鸣叫″，将其分别切词并拼在一起，得到词语列表{树林、中、有、两、只、鸟、在、鸣叫、一些、鸟、在、树林、里、鸣叫}，之后可以得到其中每个词语的词频t(树林)＝2，t(鸟)＝2，t(鸣叫)＝2...。

最后，可根据公式(3)计算每个词语的权值，并将权值最高的3个词作为关键词，得到的待处理音频的关键词及权值分别为：树林(0.32)、鸟(0.3)、鸣叫(0.38)。

在一些实施方式中，通过以下方式根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。

图3示意性地示出了根据本公开实施例方式的生成目标摘要方法的示意图。其中，用于生成目标摘要的网络可以包括解码网络301、激活层302。如图3所示，所述方法可以包括以下处理：

首先，将音频特征序列{x1，x2，...，xm}输入解码网络301，解码网络301逐个特征进行解码，并通过激活层302输出待生成的目标摘要中每个字符对应于所述预设词表中各个字符的概率值，直到生成终止标记＜EOS>。其中，解码网络301可以是具有注意力(Attention)机制的多层双向长短期记忆网络(bidirectional long short-term memory，BLSTM)或转换(Transformer)网络。

在一些实施例中，解码网络301可以通过以下方式获得待生成字符的概率值，所述待生成字符对应于所述解码网络生成的目标摘要中第t+1位置处：根据预设词表、所述待处理音频的音频特征序列以及待生成字符之前的t个字符的特征序列确定待生成字符对应于所述预设词表中各个字符的概率值；其中，t为正整数，所述特征序列是对所述待生成字符之前的t个字符进行特征提取得到的；并且，对于t＝1时的第1个字符，是根据所述预设词表以及所述待处理音频的音频特征序列确定的。所述预设词表通常为包含了多个常用词的词表，可以是预先获得的或者是预先构建的，本公开实施例对于预设词表的获取方式以及具体形式不进行限制。

具体地，对于待生成字符之前的t个字符，也即已生成字符序列，可以表示为{<SOS>，w1，w2，...，wt}，其中，<SOS>为起始标记。首先获得所述已生成字符序列的第一特征序列{e0，e1，e2，...，et}，然后将待处理音频的音频特征序列{x1，x2，...，xm}以及已生成字符序列的第一特征序列{e0，e1，e2，...，et}输入解码网络301，解码网络301输出第t+1个字符对应于所述预设词表中各个字符的概率值，也即解码网络301输出第t+1个字符的词表概率分布y_t+1，y_t+1是大小与所述预设词表大小一致的概率分布向量，每个维度j的值表示了生成所述预设词表中第j个词语的概率大小。

在还未生成字符的情况下，也即待生成字符为第1个字符，则可以根据所述预设词表，以及所述音频特征序列来获得第1个字符对应于所述预设词表中各个字符的概率值。

响应于所述预设词表中的字符为所述关键词，利用所述关键词的权值对所述字符的概率值进行加权处理，并根据加权后的概率值中的最大值确定所述目标摘要中的每个字符。

也即，将由解码网络预测的词语概率分布和关键词权值进行加权合，并获取最终的词表概率分布。

举例来说，对于预设词表中的某个词w，解码网络预测的词语概率为p_d(w)，而根据本公开实施方式提出的确定关键词的方法，可以确定该关键词的权值weight′(w)(若w未被选为关键词，则该权值为0)，则加权后词语w的概率值p(w)＝p_d(w)+α*weight′(w)，其中α为关键词权重系数，可根据实际需要调节，通常不超过0.5。

基于该词表概率分布即可生成第t+1个词语，例如可以选择概率最大的词语最为输出，或者可以选概率最大的n个词语进行束搜索(beam search)确定。

本公开实施方式借助具有高频相似度的候选音频的第一摘要获取关键词，然后在解码过程中利用关键词的权重进行加强，在训练数据不充分的情况下，可以有效提升摘要生成的质量。

为了实现本公开任一实施例的为音频文件生成摘要的方法，本公开实施例还提供了一种为音频文件生成摘要的装置。图4示意性地示出了根据本公开一实施例的为音频文件生成摘要装置的结构示意图，例如，该装置可以应用于计算设备。如下的描述中，将简单描述该装置的各个模块的功能，其详细的处理可以结合参见前述的本公开任一实施例的为音频文件生成摘要的方法的描述。

如图4所示，该装置可以包括：第一获取单元401，用于获取待处理音频及其对应的音频特征序列；第二获取单元402，用于基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，其中，所述第一音频预先标注有对应的第一摘要，所述候选音频为音频相似度高于第一预设阈值的第一音频；提取单元403，用于基于所述候选音频中各第一音频的第一摘要提取关键词；确定单元404，用于根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要。

在本公开的一种实施方式中，所述第一获取单元具体用于：

对所述待处理音频进行频谱变换；

在本公开的一种实施方式中，所述第二获取单元具体用于：

在本公开的一种实施方式中，所述提取单元具体用于：

在本公开的一种实施方式中，所述确定单元具体用于：

利用所述训练样本集，对所述相似度预测网络进行训练。

从所述训练样本集中获取多个三元组样本；

应当注意，尽管在上文详细描述中提及了为音频文件生成摘要装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本公开实施例还提供了一种计算机可读存储介质。如图5所示，该存储介质上存储有计算机程序501，该计算机程序501被处理器执行时可以执行本公开任一实施例的为音频文件生成摘要的方法。

本公开实施例还提供了一种计算设备，该设备可以包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的为音频文件生成摘要的方法。

图6示例了一种该计算设备的结构，如图6所示，该计算设备60可以包括但不限于：处理器61、存储器62、连接不同系统组件(包括存储器62和处理器61)的总线63。

其中，存储器62存储有计算机指令，该计算机指令可以被处理器61执行，使得处理器61能够执行本公开任一实施例的为音频文件生成摘要的方法。存储器62可以包括随机存取存储单元RAM621、高速缓存存储单元622和/或只读存储单元ROM623。该存储器62还可以包括：具有一组程序模块624的程序工具625，该程序模块624包括但不限于：操作系统、一个或多个应用程序、其他程序模块和程序数据，这些程序模块一种或多种组合可以包含网络环境的实现。

总线63例如可以包括数据总线、地址总线和控制总线等。该计算设备60还可以通过I/O接口64与外部设备65通信，该外部设备65例如可以是键盘、蓝牙设备等。该计算设备60还可以通过网络适配器66与一个或多个网络通信，例如，该网络可以是局域网、广域网、公共网络等。如图6所示，该网络适配器66还可以通过总线63与计算设备60的其他模块进行通信。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种为音频文件生成摘要的方法，其特征在于，包括：

获取待处理音频及其对应的音频特征序列；

基于所述候选音频中各第一音频的第一摘要提取关键词；

根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要，包括：

响应于所述预设词表中的字符为所述关键词，利用所述关键词的权值对所述字符的概率值进行加权处理，其中，所述权值根据所述候选音频中各第一音频的第一摘要中的每个词语与所述候选音频中所有第一音频的第一摘要的相关性确定；

2.根据权利要求1所述的方法，其特征在于，所述获取待处理音频的音频特征序列，包括：

对所述待处理音频进行频谱变换；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述音频特征序列确定所述待处理音频与第一音频之间的音频相似度，并根据所述音频相似度获得候选音频，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述候选音频中各第一音频的第一摘要提取关键词，包括：

6.根据权利要求5所述的方法，其特征在于，所述第一音频为预先获取的第一音频集合中的任一音频，所述根据所述候选音频中各第一音频的第一摘要中的每个词语与所述候选音频中所有第一音频的第一摘要的相关性，确定所述词语的权值，包括：

7.根据权利要求1所述的方法，其特征在于，所述解码网络通过以下方式确定待生成字符对应于所述预设词表中各个字符的概率值，所述待生成字符对应于所述解码网络生成的目标摘要中第t+1位置处：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

利用所述训练样本集，对所述相似度预测网络进行训练。

9.根据权利要求8所述的方法，其特征在于，所述利用所述训练样本集，对所述相似度预测网络进行训练，包括：

从所述训练样本集中获取多个三元组样本；

10.根据权利要求9所述的方法，其特征在于，所述相似度预测网络的训练损失包括：

11.一种为音频文件生成摘要的装置，其特征在于，包括：

确定单元，用于根据所述音频特征序列以及所述关键词确定所述待处理音频的目标摘要，具体用于：将所述音频特征序列输入至解码网络，所述解码网络确定待生成的目标摘要中每个字符对应于所述预设词表中各个字符的概率值；

12.根据权利要求11所述的装置，其特征在于，所述第一获取单元具体用于：

对所述待处理音频进行频谱变换；

13.根据权利要求12所述的装置，其特征在于，所述装置还包括采样单元，用于在对所述待处理音频进行频谱变换之前，根据预设频率对所述待处理音频进行采样，其中，所述预设频率根据所述音频编码器的训练样本的采样频率确定。

14.根据权利要求11所述的装置，其特征在于，所述第二获取单元具体用于：

15.根据权利要求11所述的装置，其特征在于，所述提取单元具体用于：

16.根据权利要求15所述的装置，其特征在于，所述第一音频为预先获取的第一音频集合中的任一音频，所述提取单元在用于根据所述候选音频中各第一音频的第一摘要中的每个词语与所述候选音频中所有第一音频的第一摘要的相关性，确定所述词语的权值时，具体用于：

17.根据权利要求11所述的装置，其特征在于，所述解码网络通过以下方式确定待生成字符对应于所述预设词表中各个字符的概率值，所述待生成字符对应于所述解码网络生成的目标摘要中第t+1位置处：

18.根据权利要求11至17任一项所述的装置，其特征在于，所述装置还包括训练单元，用于：

利用所述训练样本集，对所述相似度预测网络进行训练。

19.根据权利要求18所述的装置，其特征在于，所述训练单元在用于利用所述训练样本集，对所述相似度预测网络进行训练时，具体用于：

从所述训练样本集中获取多个三元组样本；

20.根据权利要求19所述的装置，其特征在于，所述相似度预测网络的训练损失包括：

21.一种计算设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至10任一项所述的为音频文件生成摘要的方法。

22.一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的为音频文件生成摘要的方法。