CN110717316A

CN110717316A - 字幕对话流的主题分割方法及装置

Info

Publication number: CN110717316A
Application number: CN201910906359.8A
Authority: CN
Inventors: 周强; 张镭镧
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-21
Anticipated expiration: 2039-09-24
Also published as: CN110717316B

Abstract

本发明提供一种字幕对话流的主题分割方法及装置，方法包括：基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；根据所述标签序列，对所述字幕对话流进行主题分割。本发明自动完成字幕对话流的主题分割，有效提高了分割效率和准确率。

Description

字幕对话流的主题分割方法及装置

技术领域

本发明属于文本流的主题分割技术领域，尤其涉及一种字幕对话流的主题分割方法及装置。

背景技术

主题分割技术，是指将文本根据主题划分为多个片段，每个片段内保持主题的连续性，而分割点前后则存在主题的转换。

图1展示了这一过程，图1的左边是分割之前的原始对话流，其中的对话包含多个主题，在对话的过程中可能会从一个主题转移到另一个新的主题，此时不同主题所覆盖的对话之间的边界没有显式地标明；图1的右边是切分后的对话片段，每一个小方块表示一个对话片段，对话片段中的话语指涉同一个主题，不同的对话片段通常拥有不同的主题，用不同的填充表示，此时对话片段之间的边界会显式标明。

主题分割可以为诸如文本摘要、信息抽取、对话分析、问答等任务提供支持。例如，一段长文本流例如会议记录或字幕等，通常会包含不同主题的片段。如果不进行主题分割，当需要查找特定部分时，尽管可以通过搜索关键词的方式找到其所在的语句，但很难定位到该主题片段的开头。而将文本流按照主题切分后进行组织，对于主题片段的摘要和检索都会更加容易。

互联网上数量巨大的影视剧字幕为自然语言处理提供了丰富的数据资源。影视剧的字幕文件是一种典型的文本流，其按时间顺序记录了每个角色的说话内容，但每条说话内容并未标明说话人的身份信息，也没有明确给出场景之间的转换标记，具有不同主题的对话片段通常连接在一起。主题片段的转换点通常需要通过人工标出的转换标记确定。

已有的传统方法通常利用句子的某些统计特征作为主题变换的判断依据，往往针对新闻、百科和教科书等独白文本或者会议记录等文本进行主题分割，这类文本用语正式，句子较长，反映主题的词项较多，且主题内聚性高。相比而言，诸如影视剧字幕这类对话流文本通常话语较短，用词口语化，且主题内聚性较低，使用传统方法对对话流文本进行主题切分难以取得较好效果。

发明内容

为克服上述现有的主题分割方法应用于字幕对话流分割效果差的问题或者至少部分地解决上述问题，本发明实施例提供一种字幕对话流的主题分割方法及装置。

根据本发明实施例的第一方面，提供一种字幕对话流的主题分割方法，包括：

基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；

将所有所述句子的向量输入至TCN(Temporal Convolutional Network，时序卷积网络)，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；

根据所述标签序列，对所述字幕对话流进行主题分割。

根据本发明实施例第二方面提供一种字幕对话流的主题分割装置，包括：

句子表示模块，用于基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；

主题检测模块，用于将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；

主题分割模块，用于根据所述标签序列，对所述字幕对话流进行主题分割。

根据本发明实施例的第三个方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的字幕对话流的主题分割方法。

根据本发明实施例的第四个方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的字幕对话流的主题分割方法。

本发明实施例提供一种字幕对话流的主题分割方法及装置，该方法通过从字幕对话流的时序特点出发，利用预训练语言模型BERT对字幕对话流中的句子语义进行编码，将句子表示为向量，进而利用句子级序列标注架构，基于时序卷积网络自动完成对对话流中主题变换的检测，从整段对话的全局出发，综合考虑句子语义变换，输出与句子序列相同长度的标签序列，有效提高了分割效率和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中对话流主题分割示意图；

图2为本发明实施例提供的字幕对话流的主题分割方法流程示意图；

图3为本发明实施例提供的字幕对话流的主题分割方法中的整体架构示意图；

图4为本发明实施例提供的字幕对话流的主题分割方法中基于BERT中提取句子的语义表示向量的流程示意图；

图5为本发明实施例提供的字幕对话流的主题分割方法中TCN的结构示意图；

图6为本发明实施例提供的字幕对话流的主题分割装置结构示意图；

图7为本发明实施例提供的电子设备结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在本发明的一个实施例中提供一种字幕对话流的主题分割方法，图2为本发明实施例提供的字幕对话流的主题分割方法流程示意图，该方法包括：S201，基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；

其中，BERT(Bidirectional Encoder Representations from Transformers，基于Transformers的双向编码表示)模型为一种预训练语言模型，本实施例采用BERT为句子生成编码，用于从句子中提取语义特征，并将句子表示为向量。

由于人类语言的句子由离散的文字符号构成，在计算机中难以直接参与计算。因此，要让计算机能够处理自然语言，需要先将文字数值化，即使用某种编码方式将一个句子编码为一组向量，再用这组向量代表该句子送入后端的TCN进行计算。不同的编码方式对于句子语义的表达能力不同。

一般而言，在自然语言处理任务中，首先会对句子进行分词，将每个词转化为对应的词向量序列，进而将一个句子表示为一个矩阵X＝(x₁,x₂,…,x_n)，其中x_i表示第i个词的d维词向量。常见的用于句子编码的模型包括word2vec、ELMO(Embedding from LanguageModels，嵌入式语言模型)、GPT(Generative Pre-trained Transformer，生成式预训练Transformer模型)和BERT等。

其中，word2vec着眼于学习词与词之间的语义关系，但word2vec只能静态地将一个词映射为一个固定的向量，而不能根据上下文调整词的词向量，因此无法区分多义词的不同语义；ELMO则在词向量的基础上加入了正向和反向的双层LSTM(Long Short-TermMemory，长短时记忆)网络，用不同的层来分别编码句子的句法特征和语义特征，经过预训练后，当要编码一个新句子时，将底层的词向量和另两层表征句法和语义的向量加权求和，使得词的向量不再是固定的表示，而可以根据上下文进行动态调整。为了弥补ELMO中LSTM特征提取能力的不足，GPT采用了Transformer模型作为特征提取器。但GPT仅采用了单向的语言模型进行训练，这使得GPT只能结合上文而不能结合下文进行预测。BERT改进了这一结构，在使用多层Transformer的基础上，采用双向语言模型进行预训练，使模型能同时结合上文和下文进行预测。

在本实施例中，为了更好地表征句子语义，采用语言表示能力最强的预训练模型BERT进行句子表示。BERT是在海量语料的基础上，通过进行遮蔽语言模型和下一句预测两项任务完成的预训练。BERT是一个多层双向的结构，其中每一层是Transformer编码器，用于从下一层的输出中提取特征。输入的句子在经过分词后被初步编码为若干个词项编码，每个词项编码由词表示、位置表示和分隔符表示三层特征共同组成。

S202，将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；

本实施例采用时序卷积网络TCN对句子进行主题检测，在考查对话全局信息的基础上检测主题片段边界，即主题变换点。在进行主题检测时，采用了句子级序列标注的架构，对于对话流中的每一个句子，输出一个0-1标签，用以标明该句子是否是一个新的主题片段的开始。例如，用标签0表示该句子不是一个新的主题片段的开始，用标签1表示该句子是一个新的主题片段的开始，即标签1标示了主题片段的边界。标签序列与对话流中句子序列具有相同的长度。

序列标注的传统模型一般为循环神经网络(Recurrent Neural Network，RNN)结构，通常采用长短时记忆单元LSTM。但LSTM的记忆能力有限，存在长距离信息衰减问题。对于较长的文档，LSTM不能很好地掌握其全局结构。此外，LSTM不支持并行计算，收敛速度慢。为此，本实施例中进行主题检测时选择采用时序卷积网络TCN。TCN通常用于序列建模任务，对于大小为N的序列数据{x₁,x₂,…,x_n}，TCN能够产生同样长度的预测序列{y₁,y₂,…,y_n}。

S203，根据所述标签序列，对所述字幕对话流进行主题分割。

根据标签序列中每个句子的标签，将当前标签为1的句子作为一个新的主题片段，从该句子开始到下一个标签为1的句子之前分割为同一主题的对话片段，从而将原始字幕对话流分割为多个对话片段。

图3展示了本实施例的整体架构，对于句子序列{S₁,S₂,…,S_M,}，利用BERT提取出各句子的语义特征{E₁,E₂,…,E_M}，将这些语义特征经过平均池化后送入时序卷积网络TCN，输出同句子序列等长的0-1标签序列。

本实施例通过从字幕对话流的时序特点出发，利用预训练语言模型BERT对字幕对话流中的句子语义进行编码，将句子表示为向量，进而利用句子级序列标注架构，基于时序卷积网络自动完成对对话流中主题变换的检测，从整段对话的全局出发，综合考虑句子语义变换，输出与句子序列相同长度的标签序列，有效提高了分割效率和准确率。

在上述实施例的基础上，本实施例中基于BERT提取字幕对话流的句子序列中每个句子的语义特征的步骤具体包括：当所述字幕对话流为中文时，将每个句子划分为N个字；基于所述BERT对每个字进行处理，获取每个字对应的大小为H的特征向量；将每个句子表示为N*H的矩阵。

具体地，目前BERT对于中文并未采取分词处理，而是以单个字作为句子的基本单位。因此，对于一个包含N个字的句子，经BERT处理后将输出每个单字对应的大小为H的特征向量，整个句子将被表示为一个N*H的矩阵。

在上述实施例的基础上，本实施例中基于BERT提取字幕对话流的句子序列中每个句子的语义特征的步骤具体包括：将所述BERT的每一层在其前一层的输出上加上自注意力，输出N*H的矩阵；其中，N为输入所述预训练语言模型BERT中的句子的长度，H为所述BERT中隐含层的大小；将所述BERT的倒数预设层输出的矩阵作为每个句子的语义特征。

如图4所示，在BERT内部共有12层，每一层在前一层的输出上加上自注意力并输出形状为[N,H]的矩阵，其中N和H分别为输入句子的长度和隐含层的大小。一般而言，较高网络层的权重参数通常会具有原始任务相关的信息。由于BERT是针对遮蔽语言模型和下一句预测这两个原始任务进行预训练，使得越靠近最后一层其权重参数对于这两个目标越具有偏向性，这将降低所抽取的语义向量的通用性。此外，越靠近底层的权重参数越接近词项原本的词向量而不具有高层次的语义信息。因此，从语义表达能力的角度出发，提取出BERT的倒数预设层数的输出矩阵作为句子的语义特征。其中，预设层数可以设置为2层，即将倒数第二层的输出矩阵作为句子的语义特征。将倒数第二层的输出矩阵进行平均池化，输出句子的向量(e₁,e₂,…,e_L)。

在上述实施例的基础上，本实施例中根据每个句子的语义特征将每个句子表示为向量的步骤具体包括：对每个句子的语义特征进行平均池化，将每个句子的语义特征平均池化为维度为H的特征向量。

具体地，为了提高计算效率，每个句子的语义特征并未被直接送入后端的TCN网络，而是对其进行平均池化，将其化为维度为H的向量，作为输入TCN网络中句子的特征表示。

本实施例中所述TCN的卷积层中采用扩张卷积和因果卷积，所述TCN中加入有残差网络。TCN的结构如图5所示，其最显著的特点是采用了扩张卷积，越接近上层，卷积窗口越大。使用扩张卷积可以使TCN的每一层都和输入序列同样大，而且相比于相同层数的普通卷积网络拥有更大的感受野(Receptive field)。TCN的卷积层中同时使用了因果卷积，以保证对时间步t的预测只会利用时间步t-1及之前的信息，这个特点正好适合于句子以时间顺序出现的对话流。在TCN的结构中还加入了残差网络，使得底层特征能够被直接送入高层，提升TCN网络的性能，这个特点使得TCN能够更好地学习到序列的整体特征。此外，TCN的卷积操作可以并行计算，相比于RNN，能极大地缩短训练和预测的时间。

在上述实施例的基础上，本实施例中将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列的步骤之前还包括：使用损失函数Focal Loss对所述TCN进行训练。

具体地，由于在主题分割任务中，分割边界的数量十分稀疏，这使得标签序列中0和1的分布极不平衡，容易造成TCN网络学习的偏斜。为了解决类别不平衡的问题，使用Focal Loss作为TCN中的损失函数，Focal Loss的计算公式为:

其中，γ为整数，通常可设置为2。Focal Loss通过调节对不同类别的关注程度差异来解决类别不均衡的问题。例如，当数据集中的负样本(y＝0)远多于正样本(y＝1)时，TCN网络模型会倾向于将样本判为负类

对于负样本(y＝0)而言，此时和

都很小，模型在这部分样本上不需要做太多调整；对于正样本(y＝1)而言，此时

和

都很大，模型在这些样本上需要较大程度地调整参数，因此原本数量较少的正样本会对模型有更大的影响，很好地解决了类别失衡的问题。

在本发明的另一个实施例中提供一种字幕对话流的主题分割装置，该装置用于实现前述各实施例中的方法。因此，在前述字幕对话流的主题分割方法的各实施例中的描述和定义，可以用于本发明实施例中各个执行模块的理解。图6为本发明实施例提供的字幕对话流的主题分割装置结构示意图，该装置包括句子表示模块601、主题检测模块602和主题分割模块603，其中：

句子表示模块601用于基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；

其中，BERT模型为一种预训练语言模型，句子表示模块601采用BERT为句子生成编码，用于从句子中提取语义特征，并将句子表示为向量。

主题检测模块602用于将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；

主题检测模块602采用时序卷积网络TCN对句子进行主题检测，在考查对话全局信息的基础上检测主题片段边界，即主题变换点。在进行主题检测时，采用了句子级序列标注的架构，对于对话流中的每一个句子，输出一个0-1标签，用以标明该句子是否是一个新的主题片段的开始。因此，标签序列与对话流中句子序列具有相同的长度。

主题分割模块603用于根据所述标签序列，对所述字幕对话流进行主题分割。

主题分割模块603根据标签序列中每个句子的标签，将当前标签为1的句子作为一个新的主题片段，从该句子开始到下一个标签为1的句子之前分割为同一主题的对话片段，从而将原始字幕对话流分割为多个对话片段。

在上述实施例的基础上，本实施例中句子表示模块具体用于：当所述字幕对话流为中文时，将每个句子划分为N个字；基于所述BERT对每个字进行处理，获取每个字对应的大小为H的特征向量；将每个句子表示为N*H的矩阵。

在上述实施例的基础上，本实施例中句子表示模块具体用于：将所述BERT的每一层在其前一层的输出上加上自注意力，输出N*H的矩阵；其中，N为输入所述BERT中的句子的长度，H为所述BERT中隐含层的大小；将所述BERT的倒数预设层输出的矩阵作为每个句子的语义特征。

在上述实施例的基础上，本实施例中句子表示模块具体用于：对每个句子的语义特征进行平均池化，将每个句子的语义特征平均池化为大小为H的特征向量。

在上述各实施例的基础上，本实施例中所述标签序列中包括标签0和标签1；其中，所述标签1表示所述字幕对话流的主题转换标记。

在上述各实施例的基础上，本实施例中还包括训练模块，用于使用损失函数FocalLoss对所述TCN进行训练。

本实施例提供一种电子设备，图7为本发明实施例提供的电子设备结构示意图，该设备包括：至少一个处理器701、至少一个存储器702和总线703；其中，

处理器701和存储器702通过总线703完成相互间的通信；

存储器702存储有可被处理器701执行的程序指令，处理器调用程序指令能够执行上述各方法实施例所提供的方法，例如包括：基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；根据所述标签序列，对所述字幕对话流进行主题分割。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：基于BERT提取字幕对话流的句子序列中每个句子的语义特征，并根据每个句子的语义特征将每个句子表示为向量；将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；根据所述标签序列，对所述字幕对话流进行主题分割。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种字幕对话流的主题分割方法，其特征在于，包括：

将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列；其中，所述句子序列中的句子与所述标签序列中的标签一一对应；

根据所述标签序列，对所述字幕对话流进行主题分割。

2.根据权利要求1所述的字幕对话流的主题分割方法，其特征在于，基于BERT提取字幕对话流的句子序列中每个句子的语义特征的步骤具体包括：

当所述字幕对话流为中文时，将每个句子划分为N个字；

基于所述BERT对每个字进行处理，获取每个字对应的大小为H的特征向量；

将每个句子表示为N*H的矩阵。

3.根据权利要求1所述的字幕对话流的主题分割方法，其特征在于，基于BERT提取字幕对话流的句子序列中每个句子的语义特征的步骤具体包括：

将所述BERT的每一层在其前一层的输出上加上自注意力，输出N*H的矩阵；其中，N为输入所述BERT中的句子的长度，H为所述BERT中隐含层的大小；

将所述BERT的倒数第二层输出的矩阵作为每个句子的语义特征。

4.根据权利要求2所述的字幕对话流的主题分割方法，其特征在于，根据每个句子的语义特征将每个句子表示为向量的步骤具体包括：

对每个句子的语义特征进行平均池化，将每个句子的语义特征平均池化为大小为H的特征向量。

5.根据权利要求1-4任一所述的字幕对话流的主题分割方法，其特征在于，所述标签序列中包括标签0和标签1；

其中，所述标签1表示所述字幕对话流的主题转换标记。

6.根据权利要求1-4任一所述的字幕对话流的主题分割方法，其特征在于，根据权利要求1所述的字幕对话流的主题分割方法，其特征在于，将所有所述句子的向量输入至TCN，输出所述句子序列对应的标签序列的步骤之前还包括：

使用损失函数FocalLoss对所述TCN进行训练。

7.一种字幕对话流的主题分割装置，其特征在于，包括：

8.根据权利要求7所述的字幕对话流的主题分割装置，其特征在于，所述句子表示模块具体用于：

当所述字幕对话流为中文时，将每个句子划分为N个字；

将每个句子表示为N*H的矩阵。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述字幕对话流的主题分割方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述字幕对话流的主题分割方法的步骤。