CN114254587A

CN114254587A - 主题段落划分方法、装置、电子设备及存储介质

Info

Publication number: CN114254587A
Application number: CN202111538297.3A
Authority: CN
Inventors: 顾成敏; 代旭东; 李宝善; 陈志刚
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-29

Abstract

本发明提供一种主题段落划分方法、装置、电子设备及存储介质，首先获取目标文本；目标文本基于对目标音频进行转写得到，目标文本携带有目标音频中的音频片段标识，音频片段标识包括说话人标识、听众标识以及静音标识；然后基于音频片段标识，对目标文本进行语句划分及标点标注，得到待划分文本；最后确定待划分文本中各语句的向量表征，基于待划分文本中各语句的向量表征和/或音频片段标识，对待划分文本进行主题段落划分。引入了目标音频中的音频片段标识，结合该音频片段标识得到待划分文本，并对待划分文本进行主题段落划分，可以充分利用目标音频中包含的信息，降低目标文本的可信度对划分结果的影响，使得主题段落的划分结果更加准确。

Description

主题段落划分方法、装置、电子设备及存储介质

技术领域

本发明涉及文本挖掘技术领域，尤其涉及一种主题段落划分方法、装置、电子设备及存储介质。

背景技术

随着技术的发展，文本识别已广泛应用于各领域。为实现文本识别，将文本进行主题段落划分至关重要，尤其是针对于语音转写得到的文本的主题段落划分。

目前，针对于语音转写得到的文本，其主题段落划分的方法通常是利用深度学习中的长短期记忆网络(Long Short-Term Memory，LSTM)模型，把语音转写得到的文本的主题段落划分当作纯自然语言处理的任务。

上述方案优点是可以处理任意长短的文本，但是由于语音转写过程存在误差，导致语音转写得到的文本的可信度降低，影响划分结果。

发明内容

本发明提供一种主题段落划分方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明提供一种主题段落划分方法，包括：

获取目标文本；所述目标文本基于对目标音频进行转写得到，所述目标文本携带有所述目标音频中的音频片段标识，所述音频片段标识包括说话人标识、听众标识以及静音标识；

基于所述音频片段标识，对所述目标文本进行语句划分及标点标注，得到待划分文本；

确定所述待划分文本中各语句的向量表征，基于所述待划分文本中各语句的向量表征和/或所述音频片段标识，对所述待划分文本进行主题段落划分。

根据本发明提供的一种主题段落划分方法，所述目标文本基于如下方法获取：

提取所述目标音频的音频特征，并基于所述音频特征，确定所述目标音频中所述音频片段标识对应的音频片段；

将所述说话人标识对应的音频片段转换为音频转写文本，并将所述音频片段标识与所述音频转写文本进行关联，得到所述目标文本。

根据本发明提供的一种主题段落划分方法，所述音频特征包括所述目标音频中各帧音频的滤波器组特征以及梅尔倒谱系数；

相应地，所述基于所述音频特征，确定所述目标音频中所述音频片段标识对应的音频片段，包括：

基于所述各帧音频的滤波器组特征以及梅尔倒谱系数，确定所述各帧音频的注意力特征；

对所述各帧音频的注意力特征进行仿射变换，得到所述各帧音频对应的类别；

基于所述各帧音频对应的类别，确定所述音频片段标识对应的音频片段。

根据本发明提供的一种主题段落划分方法，基于所述待划分文本中各语句的向量表征，对所述待划分文本进行主题段落划分，包括：

基于所述待划分文本中各语句的向量表征，对所述待划分文本中各语句进行聚合，确定所述待划分文本中包含的各语句集合；

基于所述各语句集合，确定所述待划分文本中包含的各主题段落。

根据本发明提供的一种主题段落划分方法，所述基于所述待划分文本中各语句的向量表征，对所述待划分文本中各语句进行聚合，确定所述待划分文本中包含的各主题段落，包括：

对于所述待划分文本中的任一语句，若所述任一语句之前存在备用语句集合，所述备用语句集合中包含所述任一语句的临近语句，则计算所述备用语句集合的向量表征，并计算所述任一语句的向量表征与所述备用语句集合的向量表征之间的相似度；

基于所述相似度，对所述任一语句进行归类，得到所述任一语句的归类结果，并基于所述待划分文本中各语句的归类结果，确定所述待划分文本中包含的各语句集合。

根据本发明提供的一种主题段落划分方法，基于所述音频片段标识，对所述待划分文本进行主题段落划分，包括：

基于所述音频片段标识，采用段落识别模型，确定所述待划分文本中各语句对应的得分信息；所述得分信息用于表征所述待划分文本中各语句是段落结束句的得分；

基于所述待划分文本中各语句对应的得分信息，确定所述待划分文本中的各主题段落；

其中，所述段落识别模型基于携带有段落结束句标签和音频片段标识标签的目标文本样本以及互联网文本样本训练得到。

根据本发明提供的一种主题段落划分方法，所述基于所述音频片段标识，采用段落识别模型，确定所述待划分文本中各语句对应的得分信息，包括：

基于所述段落识别模型的字符识别长度，确定各识别窗口；

基于所述各识别窗口内的音频片段标识，采用所述段落识别模型，确定所述待划分文本中各语句对应的初始得分信息；

基于所述待划分文本中各语句在所述各识别窗口内对应的初始得分信息，确定所述待划分文本中各语句对应的得分信息。

根据本发明提供的一种主题段落划分方法，所述基于所述各识别窗口内的音频片段标识，采用所述段落识别模型，确定所述待划分文本中各语句对应的初始得分信息，包括：

确定所述音频片段标识的向量表征以及所述待划分文本中各标点的位置向量表征；

在所述各识别窗口中的任一窗口内，将所述任一窗口内的音频片段标识的向量表征、各标点的位置向量表征以及与所述任一窗口内的待划分文本输入至所述段落识别模型的编码层，得到所述任一窗口内的音频片段标识中各字符的向量表征以及所述任一窗口的编码特征；

将所述任一窗口内的编码特征输入至所述段落识别模型的解码层，得到所述任一窗口内的解码信息；

将所述任一窗口内的解码信息输入至输出层，得到所述输出层输出的所述任一窗口内的待划分文本中各语句对应的初始得分信息。

根据本发明提供的一种主题段落划分方法，基于所述待划分文本中各语句的向量表征和所述音频片段标识，对所述待划分文本进行主题段落划分，包括：

对于所述各语句集合中的任一语句集合，基于所述音频片段标识，采用段落识别模型，确定所述任一语句集合中各语句对应的得分信息；所述得分信息用于表征所述任一语句集合中各语句是段落结束句的得分；

基于所述各语句集合中各语句对应的得分信息，确定所述待划分文本中的各主题段落；

本发明还提供一种主题段落划分装置，包括：

获取模块，用于获取目标文本；所述目标文本基于对目标音频进行转写得到，所述目标文本携带有所述目标音频中的音频片段标识，所述音频片段标识包括说话人标识、听众标识以及静音标识；

标注模块，用于基于所述音频片段标识，对所述目标文本进行语句划分及标点标注，得到待划分文本；

划分模块，用于确定所述待划分文本中各语句的向量表征，基于所述待划分文本中各语句的向量表征和/或所述音频片段标识，对所述待划分文本进行主题段落划分。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述主题段落划分方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述主题段落划分方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述主题段落划分方法的步骤。

本发明提供的主题段落划分方法、装置、电子设备及存储介质，首先获取目标文本；目标文本基于对目标音频进行转写得到，目标文本携带有目标音频中的音频片段标识，音频片段标识包括说话人标识、听众标识以及静音标识；然后基于音频片段标识，对目标文本进行语句划分及标点标注，得到待划分文本；最后确定待划分文本中各语句的向量表征，基于待划分文本中各语句的向量表征和/或音频片段标识，对待划分文本进行主题段落划分。引入了目标音频中的音频片段标识，结合该音频片段标识得到待划分文本，并对待划分文本进行主题段落划分，可以充分利用目标音频中包含的信息，降低目标文本的可信度对划分结果的影响，使得主题段落的划分结果更加准确。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的主题段落划分方法的流程示意图；

图2是本发明提供的目标音频中音频片段标识对应的音频片段的示意图；

图3是本发明提供的主题段落划分装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

众所周知，语音识别技术的发展已经应用于各种领域，智慧医疗、司法、教育以及各种C端消费者产品中，例如录音笔、翻译机等智能化终端设备中。智能化终端设备通过语音识别技术能够对说话人的说话内容进行实时语音识别，并将其转写成文本进行呈现。但是如何对语音转写得到的文本进行主题段落划分，则是需要解决的问题。

目前，针对于语音转写得到的文本，其主题段落划分的方法通常是把语音转写得到的文本的主题段落划分当作纯自然语言处理的任务进行执行。依靠机器学习的方法，通过主题模型(Latent Dirichlet Allocation，LDA)获得一些文本的主题词汇的特征，将所有的句子通过一定的熵准则聚合在一起，形成相关的段落。但是这种方式只能粗略的进行段落划分，无法保证划分效果。

或者，依靠深度学习的方法，基于LSTM模型，将现有句子当作序列标注的任务来进行，对整个文本中的所有句子进行二分类，判断句子是否是段落的最后一句，最终将所有的文本段落划分开。这种方案优点是可以处理任意长短的文本，但是没有考虑在语音转写过程存在误差，导致语音转写得到的文本的可信度降低，影响划分结果。同时，随着文本长度的增加，主题段落划分的可信度也会降低，导致划分效果不好。

上述不管是机器学习或者深度学习中的方案，都是在解决一个NLP问题，在实际使用的过程中，尤其对于语音转写的文本一般都包含丰富的先验信息，这些信息有助于更好地实现文本的主题段落划分。例如，说话人特征是一种极其重要的生物特征，尤其在演讲中间的停顿状态、现场反馈等信息内容。停顿状态可以包括(1)思考、稍事休息、演讲中间喝水、演讲主旨切换等原因引起的一段话之间的停顿，这种停顿间隙长而出现频率低；(2)说话人中间的停顿，如犹豫，呼吸，口吃等，这种停顿间隙短而出现频率高。现场反馈可以包括现场观众出现的掌声等。通常情况下，静音片段和听众片段都是很重要的信息，是语音转写得到的文本中话题的重要转折点。

为此，本发明实施例中提供了一种主题段落划分方法，利用上述音频中包含的说话人片段、听众片段以及静音片段，可以实现语音转写得到的文本的主题段落划分。

图1为本发明实施例中提供的一种主题段落划分方法的流程示意图，如图1所示，该方法包括：

S1，获取目标文本；所述目标文本基于对目标音频进行转写得到，所述目标文本携带有所述目标音频中的音频片段标识，所述音频片段标识包括说话人标识、听众标识以及静音标识；

S2，基于所述音频片段标识，对所述目标文本进行语句划分及标点标注，得到待划分文本；

S3，确定所述待划分文本中各语句的向量表征，基于所述待划分文本中各语句的向量表征和/或所述音频片段标识，对所述待划分文本进行主题段落划分。

具体地，本发明实施例中提供的主题段落划分方法，其执行主体为主题段落划分装置，该装置可以配置于服务器内，该服务器可以是本地服务器，也可以是云端服务器，本地服务器具体可以是计算机、平板电脑以及智能手机等，本发明实施例中对此不作具体限定。

首先执行步骤S1，获取目标文本，该目标文本可以通过对目标音频进行转写得到，目标音频可以是目标场景下智能设备采集到的说话人的音频。该目标场景可以是演讲场景，也可以是其他场景，此处不作具体限定。以演讲场景为例，则说话人为演讲者。

由于目标音频中除说话人的音频片段，还可能会存在听众的音频片段以及静音片段，即目标音频中音频片段的类别可以包括说话人片段、听众片段以及静音片段。因此，本发明实施例中，可以对目标音频中不同类别的音频片段采用音频片段标识进行标注，音频片段标识用于表征目标音频中各类别的音频片段，即音频片段标识与目标音频中包含的音频片段的类别是一一对应的。因此，音频片段标识可以包括说话人标识、听众标识以及静音标识。

本发明实施例中，可以在目标文本中，携带有目标音频中的音频片段标识，以便于后续对目标文本的主题段落划分。

然后执行步骤S2，根据音频片段标识，对目标文本进行语句划分及标点标注，得到待划分文本。此处，由于目标文本中包含至少一个语句，因此可以对目标文本进行语句划分及标点标注，通过对目标文本进行语句划分，可以得到目标文本中的各语句，通过标点标注，可以为划分得到的各语句添加标点。在语句划分及标点标注的过程中，可以引入音频片段标识，结合音频片段标识，实现对目标文本进行语句划分及标点标注。得到的待划分文本中包含有各携带有标点信息的语句，该标点信息可以包括逗号、句号、感叹号、问号以及无标记等。

本发明实施例中，上述过程可以通过深度神经网络模型自动实现，例如可以将音频片段标识以及目标文本输入至深度神经网络模型，得到深度神经网络模型输出的待划分文本。采用的深度神经网络模型可以是seq2seq深度神经网络模型，该模型可以是双向LSTM模型。

深度神经网络模型可以包括编码(encoder)层以及解码(decoder)层，编码层用于获取音频片段标识以及目标文本，将音频片段标识以及目标文本进行编码，分别得到音频片段标识的one-hot特征向量以及目标文本中各单词的向量表征。解码器用于获取音频片段标识的one-hot特征向量以及各单词的向量表征，对二者进行解码，得到并输出待划分文本。

深度神经网络模型可以采用携带有标点信息标签的语音识别文本训练得到。即可以将语音识别文本输入至深度神经网络模型的初始模型，得到初始模型输出的标点信息，基于初始模型输出的标点信息与标点信息标签，确定初始模型的损失函数值。调整初始模型的模型参数，重复执行上述过程，直至损失函数收敛，则训练完成，得到具有语句划分且标点标注的功能的深度神经网络模型。

最后执行步骤S3，对待划分文本进行主题段落划分。在划分时，既可以先确定待划分文本中各语句的向量表征，然后根据待划分文本中各语句的向量表征，对待划分文本进行主题段落划分。也可以直接通过神经网络模型，对待划分文本进行主题段落划分。还可以将待划分文本中各语句的向量表征与神经网络模型进行结合，进而实现对待划分文本进行主题段落划分。可以理解的是，主题段落划分，即确定待划分文本中包含的主题段落，也即将待划分文本中各语句按主题内容进行聚类，得到主题段落。

待划分文本中各语句的向量表征可以是待划分文本中各语句对应的句子向量，待划分文本中每个语句均具有一个向量表征。该向量表征可以通过sentence-bert模型抽取得到，此处不作具体限定。

在根据待划分文本中各语句的向量表征对待划分文本进行主题段落划分时，可以通过待划分文本中任意两个相邻的语句的向量表征，计算这两个相邻的语句之间的相似度，以判断这两个相邻的语句之间的相关性，进而可以根据相关性对这两个相邻的语句进行归类。迭代进行上述过程，可以最终确定出待划分文本中各语句所属的段落，以实现对待划分文本的主题段落划分。

由于引入了相似度，该相似度可以用于表征待划分文本中相邻两个语句之间的内容相似度，因此可以确定待划分文本中各语句所属的段落之后，得到的待划分文本中各段落即对应于不同的主题。

在直接通过神经网络模型对待划分文本进行主题段落划分时，可以将待划分文本输入至基于神经网络模型构建的段落识别模型，由于待划分文本中包含有音频片段标识，因此通过该段落识别模型可以确定待划分文本中是段落结束句的语句，进而实现主题段落的划分。

在将待划分文本中各语句的向量表征与神经网络模型进行结合，进而实现对待划分文本进行主题段落划分时，可以先确定待划分文本中各语句的向量表征，然后根据各语句的向量表征，对待划分文本进行主题段落划分，确定多个语句集合，然后将各语句集合输入至神经网络模型，通过神经网络模型确定各语句集合中的段落结束句，进而实现对待划分文本进行主题段落划分。

本发明实施例中提供的主题段落划分方法，首先获取目标文本；目标文本基于对目标音频进行转写得到，目标文本携带有目标音频中的音频片段标识，音频片段标识包括说话人标识、听众标识以及静音标识；然后基于音频片段标识，对目标文本进行语句划分及标点标注，得到待划分文本；最后确定待划分文本中各语句的向量表征，基于待划分文本中各语句的向量表征和/或音频片段标识，对待划分文本进行主题段落划分。引入了目标音频中的音频片段标识，结合该音频片段标识得到待划分文本，并对待划分文本进行主题段落划分，可以充分利用目标音频中包含的信息，降低目标文本的可信度对划分结果的影响，使得主题段落的划分结果更加准确。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，所述目标文本基于如下方法获取：

具体地，本发明实施例中，在确定目标文本时，可以先提取目标音频的音频特征。该音频特征可以用于标识目标音频的相关特征，例如可以包括滤波器组(filter bank)特征以及梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)等。可以理解的是，目标音频中可以包括多帧音频，每帧音频均对应有滤波器组特征以及MFCC。

然后，可以结合目标音频的音频特征，确定出目标音频中音频片段标识对应的音频片段。确定目标音频中音频片段标识对应的音频片段的过程，可以理解为是对目标音频中各帧音频进行分类的过程。该过程可以通过语音激活检测(Voice Activity Detection，VAD)模型实现。VAD模型能够区分目标音频中的说话人语音和听众背景噪音，还能区分语音和静音，可以避免带宽资源的浪费。

此处，VAD模型可以是以双层BI-LSTM+Attention为基本结构的神经网络分类模型。VAD模型可以包括输入层和处理层，通过输入层可以提取目标音频中的音频特征，该音频特征的维数可以根据需要进行设定，例如可以是64维。通过处理层可以结合音频特征确定出目标音频中各音频片段，每个音频片段均对应有一个音频片段标识。

最后，将目标音频中说话人标识对应的音频片段转换为音频转写文本，并将音频片段标识与音频转写文本进行关联，即得到目标文本。也就是说，目标文本是携带有音频片段标识的音频转写文本。

本发明实施例中，在确定目标文本时，考虑了将音频片段标识与音频转写文本进行关联，得到目标文本，使得后续基于目标文本中的音频片段标识辅助主题段落的划分，可以保证划分结果的准确性。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，所述音频特征包括所述目标音频中各帧音频的滤波器组特征以及梅尔倒谱系数；

具体地，由于目标音频中包括各帧音频，其音频特征则可以包括目标音频中各帧音频的滤波器组特征以及梅尔倒谱系数。

进而，在确定目标音频中音频片段标识对应的音频片段时，可以先通过各帧音频的滤波器组特征以及梅尔倒谱系数，确定出各帧音频的注意力特征；然后对各帧音频的注意力特征进行仿射变换，得到各帧音频对应的类别；最后根据各帧音频对应的类别，确定音频片段标识对应的音频片段。

上述过程可以通过VAD模型中的处理层实现，该处理层可以包括语音特征变换层以及决策层，语音特征变换层可以对滤波器组特征以及梅尔倒谱系数进行联合处理，得到联合特征。联合处理的方式可以是将滤波器组特征与梅尔倒谱系数进行拼接，得到的联合特征可以是拼接之后得到的特征。

语音特征变换层还可以基于Attention机制对联合特征进行注意力变换，得到各帧音频的注意力特征。可以理解的是，经过语音特征变换层后，每帧音频均具有一个注意力特征fb_voice。

决策层可以用于对各帧音频的注意力特征进行仿射变换，预测出目标音频中各帧音频对应的类别，即判断各帧音频是属于静音片段、听众片段或说话人片段，并确定各帧音频属于各片段的置信度。

在确定目标音频中各帧音频对应的类别后，由于各类音频片段均具有最小语音间隔，因此需要对各帧音频对应的类别进行决策处理，即判断同一类别的连续帧音频构成的音频片段的长度是否大于最小语音间隔，如果大于则认为该音频片段为该类别下的音频片段。为保证语音片段之间的顺滑性和连续性，各类别下的音频片段可以包括说话人片段、听众片段以及静音片段，对应的音频片段标识可以分别为<s>、<a>以及</s>。其中，最小语音间隔可以根据需要进行设定，例如可以设定为t1ms。

图2为目标音频中音频片段标识对应的音频片段的示意图，如图2所示，目标音频中1表示说话人片段，2表示听众片段，3表示静音片段。

本发明实施例中，通过各帧音频的滤波器组特征以及梅尔倒谱系数，并结合注意力机制，确定出音频片段标识对应的音频片段，可以使得目标音频中的信息可以被充分利用。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，基于所述待划分文本中各语句的向量表征，对所述待划分文本进行主题段落划分，包括：

具体地，本发明实施例中，在根据待划分文本中各语句的向量表征，对待划分文本进行主题段落划分时，可以先根据各语句的向量表征，对各语句进行聚合，确定待划分文本中包含的各主题段落。

聚合的过程可以通过聚类算法实现，也可以通过计算语句之间的相似度实现，此处不作具体限定。例如，以计算语句之间的相似度实现聚合为例，则可以从待划分文本的第一个语句开始，基于第一个语句与第二个语句的向量表征，计算第一个语句与第二个语句之间的相似度，根据该相似度判断第一个语句与第二个语句之间的相关性。相关性较大的语句可以处于同一个主题段落，相关性较小的语句可以处于不同主题段落。

进一步地，可以继续判断第三个语句与第二个语句之间的相关性，当第一个语句与第二个语句相关性较大，则可以判断第三个语句与前两个语句整体之间的相关性。以此类推，直至确定出所有语句的相关性，即确定待划分文本中包含的各语句集合。

然后，可以根据各语句集合，确定待划分文本中包含的各主题段落，实现主题段落的划分。此处，可以直接将每一语句集合作为一个段落主题，也可以进一步结合神经网络模型判断各语句集合中的段落结束句，以实现主题段落的精确划分。

本发明实施例中，通过聚合方法，实现对待划分文本中包含的各主题段落的确定，可以大大提高划分效率。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，所述基于所述待划分文本中各语句的向量表征，对所述待划分文本中各语句进行聚合，确定所述待划分文本中包含的各语句集合，包括：

具体地，本发明实施例中，在通过待划分文本中各语句的向量表征，对待划分文本中各语句进行聚合，确定待划分文本中包含的各语句集合时，对于待划分文本中的任一语句，若任一语句之前存在备用语句集合，该备用语句集合中包含该任一语句的临近语句，则计算备用语句集合的向量表征，并计算任一语句的向量表征与所述备用语句集合的向量表征之间的相似度。

此处，任一语句可以是待划分文本中除第一个语句之外的任意一个语句。临近语句是指在该任一语句之前且与该任一语句邻接的语句。备用语句集合中除包含有临近语句之外，还包含有其向量表征与临近语句的向量表征之间的相似度达到相似度阈值的备用语句集合，本发明实施例中不作具体限定。其中，相似度阈值可以根据需要进行设定，例如可以设置为0.6等数值。备用语句集合的向量表征是指该备用语句集合中所有语句的向量表征的平均池化向量。

例如，当该任一语句为第二个语句时，临近语句为第一个语句，语句集合中仅包含有第一个语句，该备用语句集合可以记为第一备用语句集合。此时可以计算第一备用语句集合的向量表征，由于该第一备用语句集合中仅包含有第一个语句，则可以直接将第一个语句的向量表征作为该第一备用语句集合的向量表征。此时，第二个语句的向量表征与第一备用语句集合的向量表征之间的相似度可以通过如下公式计算：

score<v_k,v_i>＝cos(v_k,v_i)

其中，v_k为任一语句之前存在的备用语句集合的向量表征，v_i为任一语句。1≤i≤n，n为待划分文本中包含的语句总数。

然后判断该相似度与相似度阈值之间的大小关系，如果该相似度大于等于相似度阈值，则可以确定第二个语句与第一备用语句集合的相关性较大，则可以将第二个语句归到第一备用语句集合中。如果该相似度小于相似度阈值，则可以确定第二个语句与第一备用语句集合的相关性较小，则可以将第二个语句归到一个新的备用语句集合，该新的备用语句集合可以记为第二备用语句集合。

当该任一语句为第三个语句时，临近语句为第二个语句，基于上述过程可以确定第二个语句是在第一备用语句集合中还是第二备用语句集合中。进而，可以通过上述公式计算第三个语句的向量表征与第二备用语句集合的向量表征之间的相似度，并基于该相似度与相似度阈值之间的大小关系，判断第二个语句是归到第二备用语句集合中还是一个新的备用语句集合中。当该任一语句为待划分文本中的其他语句时，可以迭代执行上述过程，直至待划分文本中所有语句均归到一个备用语句集合中，则完成主题段落的划分，得到的每个备用语句集合均作为待划分文本中的一个语句集合，且每一个语句集合对应于一个主题段落。

本发明实施例中，通过迭代计算相似度的方法对待划分文本进行主题段落划分，可以提高划分速度，且通过计算任一语句的向量表征与之前的备用语句集合的向量表征之间的相似度，能够保证该划分结果的准确性。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，基于所述音频片段标识，对所述待划分文本进行主题段落划分，包括：

具体地，本发明实施例中，在通过音频片段标识，对待划分文本进行主题段落划分时，可以先根据音频片段标识，采用段落识别模型，确定待划分文本中各语句对应的得分信息。该段落识别模型可以基于神经网络模型构建，在采用段落识别模型时，可以将待划分文本均输入至该段落识别模型中，通过该段落识别模型结合待划分文本携带的音频片段标识，输出待划分文本中各语句对应的得分信息。待划分文本中每一语句均对应有一个得分信息，该得分信息可以用于表征对应的语句是段落结束句的得分。

该段落识别模型可以通过携带有段落结束句标签和音频片段标识标签的目标文本样本以及互联网文本样本对初始模型训练得到。目标文本样本是指基于对语音样本进行转写得到的文本，此处可以采用1万小时的中文目标文本样本。互联网文本样本是指互联网上存在的演讲文本，此处可以采用40G的互联网文本样本。通过目标文本样本以及互联网文本样本对初始模型进行联合训练，由于互联网文本样本的数据量较大，因此互联网文本样本的引入，可以保证段落识别模型的稳定性。目标文本样本的引入，则可以提高段落识别模型的可靠性，使其可以应用于对语音转换得到的文本进行段落结束句的识别。

可以理解的是，本发明实施例中的初始模型可以是随机初始化得到的模型，也可以是mac-BERT预训练语言模型，此处不作具体限定。若初始模型为mac-BERT预训练语言模型，则对初始模型的训练过程可以理解为是对mac-BERT预训练语言模型的微调(fine-tune)过程。

由于语音转写得到的文本风格一般与mac-BERT预训练语言模型训练时采用的互联网文本样本风格差异很大，因此通过目标文本样本以及互联网文本样本对mac-BERT预训练语言模型进行微调，可以实现模型的风格迁移，保证得到的段落识别模型处理对语音转写得到的文本进行段落结束句进行识别等下游任务时，不会因为语言风格的差异性而导致识别效果下降。

最后，在确定了待划分文本中各语句对应的得分信息之后，可以根据该得分信息，判断待划分文本中各语句是否是段落结束句。例如，可以将待划分文本中各语句对应的得分信息与得分阈值进行比较，如果待划分文本中任一语句对应的得分信息大于等于得分阈值，则确定待划分文本中该语句为段落结束句。否则，若待划分文本中任一语句对应的得分信息小于得分阈值，则确定待划分文本中该语句为段落中语句。

进一步地，在确定待划分文本中所有语句是否是段落结束句之后，可以将每个段落结束句之前至上一个段落结束句之间的语句归为一个主题段落，进而确定待划分文本中的各主题段落。

本发明实施例中，在确定待划分文本中的各主题段落时，引入了段落识别模型，可以简化待划分文本的划分。而且，通过目标文本样本以及互联网文本样本作为训练样本训练得到段落识别模型，可以降低训练样本的采集难度，提高训练效率，保证段落识别模型的可靠性以及准确性。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，所述基于所述音频片段标识，采用段落识别模型，确定所述待划分文本中各语句对应的得分信息，包括：

基于所述段落识别模型的字符识别长度，确定各识别窗口；

具体地，本发明实施例中，在应用段落识别模型时，可以先确定段落识别模型的字符识别长度。通常情况下，该段落识别模型的字符识别长度可以是512个字符。然后，根据段落识别模型的字符识别长度，可以确定各识别窗口。各识别窗口可以是通过一个滑动窗口的滑动动作得到，各识别窗口的宽度以及相邻两个识别窗口之间的距离均可以根据需要进行设定，例如各识别窗口的宽度可以与滑动窗口相同，均可以是512个字符，相邻两个识别窗口之间的距离可以滑动窗口的滑动距离相同，均可以是256个字符。

进一步地，可以根据每个识别窗口内的音频片段标识，采用段落识别模型，确定该识别窗口内待划分文本中各语句对应的初始得分信息；

由于相邻两个识别窗口具有重叠区域，因此使得重叠区域内的语句对应有两个初始得分信息，此时重叠区域内的语句对应的得分信息可以是这两个初始得分信息的均值。除重叠区域外的其他区域内的语句均对应有一个初始得分信息，此时可以将该初始得分信息作为该语句对应的得分信息。

本发明实施例中，在采用段落识别模型时，考虑了段落识别模型的字符识别长度，可以避免出现得分信息遗漏的现象出现，保证得到的各语句对应的得分信息的准确性。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，所述基于所述各识别窗口内的音频片段标识，采用所述段落识别模型，确定所述待划分文本中各语句对应的初始得分信息，包括：

在所述各识别窗口中的任一窗口内，将所述任一窗口内的音频片段标识的向量表征、各标点的位置向量表征以及所述任一窗口内的待划分文本输入至所述段落识别模型的编码层，得到所述任一窗口内的编码特征；

具体地，本发明实施例中，在各识别窗口内采用段落识别模型时，可以先确定出音频片段标识的向量表征以及待划分文本中各标点的位置向量表征。音频片段标识的向量表征可以是音频片段标识通过转换得到的one-hot向量，待划分文本中各标点的位置向量表征也可以是待划分文本中各标点通过转换得到的one-hot向量。

然后，可以在各识别窗口中的任一窗口内，将该任一窗口内的音频片段标识的向量表征、该任一窗口内待划分文本中各标点的位置向量表征以及该任一窗口内的待划分文本输入至段落识别模型的编码层，得到该任一窗口内的编码特征，该编码特征可以包括该任一窗口内音频片段标识的向量表征对应的编码特征、该任一窗口内待划分文本中各标点的位置向量表征对应的编码特征以及该任一窗口内的待划分文本中各语句的向量表征对应的编码特征。其中，编码层可以是12层的transformer结构。

然后，将该任一窗口内的编码特征输入至段落识别模型的解码层，得到该任一窗口内的解码信息，该解码信息可以包括该任一窗口内各编码特征对应的解码信息。解码层可以是bilstm+attention的结构，各语句的标记位可以是[SEP]。通过解码层可以实现各[SEP]对应的语句的向量表征进行特征的仿射变换，使得各[SEP]之间具有关联性。

最后，将该任一窗口内的解码信息输入至输出层，得到输出层输出的该任一窗口内的待划分文本中各语句对应的初始得分信息。该输出层可以通过sigmoid激活函数实现。

本发明实施例中，给出了段落识别模型的具体结构以及其在每个识别窗口内的操作流程，可以保证段落识别模型的可实施性。

在上述实施例的基础上，本发明实施例中提供的主题段落划分方法，基于所述待划分文本中各语句的向量表征和所述音频片段标识，对所述待划分文本进行主题段落划分，包括：

具体地，本发明实施例中，在根据待划分文本中各语句的向量表征和音频片段标识，对待划分文本进行主题段落划分时，可以先根据待划分文本中各语句的向量表征，对待划分文本中各语句进行聚合，确定所述待划分文本中包含的各语句集合。详细过程可参见上述实施例，此处不再赘述。

然后，对于各语句集合中的任一语句集合，可以通过音频片段标识，采用段落识别模型，确定该任一语句集合中各语句对应的得分信息；该得分信息用于表征该任一语句集合中各语句是段落结束句的得分。基于段落识别模型，可以确定出所有语句集合中各语句对应的得分信息。然后根据各语句集合中各语句对应的得分信息，确定待划分文本中的各主题段落。详细过程可参见上述实施例，此处不再赘述。需要说明的是，上述实施例与本发明实施例的区别仅在于段落识别模型处理的对象不同，上述实施例中段落识别模型处理的对象是待划分文本，而本发明实施例中段落识别模型处理的对象是每一个语句集合。

本发明实施例中，通过聚合方法，实现对待划分文本中包含的各语句集合的确定，可以大大提高划分效率。进一步地，段落识别模型的引入，可以确定各语句集合中各语句是否是段落结束句，可以更加准确的实现主题段落划分。

如图3所示，在上述实施例的基础上，本发明实施例中提供了一种主题段落划分装置，包括：

获取模块31，用于获取目标文本；所述目标文本基于对目标音频进行转写得到，所述目标文本携带有所述目标音频中的音频片段标识，所述音频片段标识包括说话人标识、听众标识以及静音标识；

标注模块32，用于基于所述音频片段标识，对所述目标文本进行语句划分及标点标注，得到待划分文本；

划分模块33，用于确定所述待划分文本中各语句的向量表征，基于所述待划分文本中各语句的向量表征和/或所述音频片段标识，对所述待划分文本进行主题段落划分。

在上述实施例的基础上，本发明实施例中提供的主题段落划分装置，所述获取模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的主题段落划分装置，所述音频特征包括所述目标音频中各帧音频的滤波器组特征以及梅尔倒谱系数；

相应地，所述获取模块，还用于：

在上述实施例的基础上，本发明实施例中提供的主题段落划分装置，所述划分模块，具体用于：

基于所述段落识别模型的字符识别长度，确定各识别窗口；

在上述实施例的基础上，本发明实施例中提供的主题段落划分装置，所述划分模块，还具体用于：

具体地，本发明实施例中提供的主题段落划分装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行上述各实施例中提供的主题段落划分方法，该方法包括：获取目标文本；所述目标文本基于对目标音频进行转写得到，所述目标文本携带有所述目标音频中的音频片段标识，所述音频片段标识包括说话人标识、听众标识以及静音标识；基于所述音频片段标识，对所述目标文本进行语句划分及标点标注，得到待划分文本；确定所述待划分文本中各语句的向量表征，基于所述待划分文本中各语句的向量表征和/或所述音频片段标识，对所述待划分文本进行主题段落划分。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的主题段落划分方法，该方法包括：获取目标文本；所述目标文本基于对目标音频进行转写得到，所述目标文本携带有所述目标音频中的音频片段标识，所述音频片段标识包括说话人标识、听众标识以及静音标识；基于所述音频片段标识，对所述目标文本进行语句划分及标点标注，得到待划分文本；确定所述待划分文本中各语句的向量表征，基于所述待划分文本中各语句的向量表征和/或所述音频片段标识，对所述待划分文本进行主题段落划分。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的主题段落划分方法，该方法包括：获取目标文本；所述目标文本基于对目标音频进行转写得到，所述目标文本携带有所述目标音频中的音频片段标识，所述音频片段标识包括说话人标识、听众标识以及静音标识；基于所述音频片段标识，对所述目标文本进行语句划分及标点标注，得到待划分文本；确定所述待划分文本中各语句的向量表征，基于所述待划分文本中各语句的向量表征和/或所述音频片段标识，对所述待划分文本进行主题段落划分。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种主题段落划分方法，其特征在于，包括：

2.根据权利要求1所述的主题段落划分方法，其特征在于，所述目标文本基于如下方法获取：

3.根据权利要求2所述的主题段落划分方法，其特征在于，所述音频特征包括所述目标音频中各帧音频的滤波器组特征以及梅尔倒谱系数；

4.根据权利要求1-3中任一项所述的主题段落划分方法，其特征在于，基于所述待划分文本中各语句的向量表征，对所述待划分文本进行主题段落划分，包括：

5.根据权利要求4所述的主题段落划分方法，其特征在于，所述基于所述待划分文本中各语句的向量表征，对所述待划分文本中各语句进行聚合，确定所述待划分文本中包含的各语句集合，包括：

6.根据权利要求1-3中任一项所述的主题段落划分方法，其特征在于，基于所述音频片段标识，对所述待划分文本进行主题段落划分，包括：

7.根据权利要求6所述的主题段落划分方法，其特征在于，所述基于所述音频片段标识，采用段落识别模型，确定所述待划分文本中各语句对应的得分信息，包括：

基于所述段落识别模型的字符识别长度，确定各识别窗口；

8.根据权利要求7所述的主题段落划分方法，其特征在于，所述基于所述各识别窗口内的音频片段标识，采用所述段落识别模型，确定所述待划分文本中各语句对应的初始得分信息，包括：

9.根据权利要求1-3中任一项所述的主题段落划分方法，其特征在于，基于所述待划分文本中各语句的向量表征和所述音频片段标识，对所述待划分文本进行主题段落划分，包括：

10.一种主题段落划分装置，其特征在于，包括：

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述主题段落划分方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述主题段落划分方法的步骤。