CN108984520A

CN108984520A - 层次化文本主题分割方法

Info

Publication number: CN108984520A
Application number: CN201810629577.7A
Authority: CN
Inventors: 宗成庆; 亢晓勉
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2018-12-11

Abstract

本发明涉及语言处理技术领域，并提出了一种层次化文本主题分割方法，旨在解决在文本主题分割中，忽视文本整体结构，无法利用层次化文本结构信息进行主题分割的技术问题。为此目的，本发明中的层次化文本主题分割方法包括：根据预设的标点符号对待分割文本进行切分，得到包含多个句子的句子集合；利用预先构建的词向量生成上述句子集合中每个句子对应的句向量；按照上述每个句子在上述待分割文本中出现的顺序，依次根据每个句子对应的句向量对预设的子主题向量进行更新；利用更新后的子主题向量计算在每个句子处进行主题分割的概率，并根据上述概率选择性地分割上述待分割文本。本发明可以快速、准确的对文本进行层次化分割。

Description

层次化文本主题分割方法

技术领域

本发明涉及自然语言处理技术领域，特别是基于深度学习的自然语言处理领域，具体涉及一种层次化文本主题分割方法。

背景技术

文本主题分割是对一篇文本，根据其中句子之间所表达的主题的不同，将其分割为一个或多个句群的过程。一个句群通常由一个或多个连续的句子构成，这些句子表达同一个主题。

文本主题分割能够清晰地表示文本中所蕴含的子主题的范围，对理解文本的内容和整体结构具有重要意义；文本主题分割出的句群可以应用于自然语言处理的其它下游任务中。在机器阅读理解和信息检索中，其目标信息可能存在于与问题或查询语句的主题最相关的句群中，而与文本中的其它部分无关。因此，借助文本分割结果所划分的主题范围，能够帮助缩小目标的搜索空间。在自动摘要任务中，摘要系统需要衡量文本中句子的重要程度并尽量保证内容的完整。文本主题分割的结果可以反映篇章中所包含的子主题的数目，以及每个子主题对应的句群在文本中所占的篇幅，这可以为摘要内容的选择提供参考信息。

目前，文本主题分割方法主要基于词袋模型设计特征，计算片段之间的相似性。近年来随着深度学习技术的兴起，神经网络方法可以更好地建模句子的语义表示，从而提升相似性的比较效果。文本中存在着明显的层次结构，即词汇构成句子，相同主题的连续句子构成句群，句群构成整个文本；但这些方法忽视了文本的整体结构，无法利用层次化的结构信息对文本进行分割。

发明内容

为了解决现有技术中的上述技术问题，即为了解决在文本主题分割中忽视文本整体结构，无法利用层次化的结构信息对文本进行分割的技术问题，为此目的，本发明提供了一种层次化文本主题分割方法，以解决上述问题。

第一方面，本发明提供的层次化文本主题分割方法包括如下步骤：根据预设的标点符号对待分割文本进行切分，得到包含多个句子的句子集合；利用预先构建的词向量生成上述句子集合中每个句子对应的句向量；按照上述每个句子在上述待分割文本中出现的顺序，依次根据每个句子对应的句向量对预设的子主题向量进行更新；利用更新后的子主题向量计算在每个句子处进行主题分割的概率，并根据上述概率选择性地分割上述待分割文本。

进一步地，本发明提供的一个优选技术方案中，“根据预设的标点符号对待分割文本进行切分”的步骤包括：对上述待分割文本进行逐字扫描，判断上述待分割文本中的每个字符与上述标点符号是否匹配，若某个字符与上述标点符号匹配，则在上述某个字符处对上述待分割文本进行切分；根据切分结果，将上述待分割文本中相邻匹配字符之间的字符串作为上述句子集合的一个句子。

进一步地，本发明提供的一个优选技术方案中，“依次根据每个句子对应的句向量对预设的子主题向量进行更新”的步骤包括：获取上述句向量对上述子主题向量更新的贡献权重；根据上述句向量和贡献权重对上述子主题向量进行更新。

进一步地，本发明提供的一个优选技术方案中，“获取上述句向量对上述子主题向量更新的贡献权重”的步骤包括：通过如下公式计算在每个句子处，当前句子的句向量对上述子主题向量更新的贡献权重：

u_t＝σ(W_uxx_t+W_uhh_t-1+W_udd_t-1+b_u)

其中，x_t表示第t个句子对应的句向量，h_t-1为利用第t-1个句子对应的句向量对上述子主题向量进行更新后得到的子主题向量，d_t-1为利用上述子主题向量h_t-1对预设的文本主题向量进行更新后得到的文本主题向量，W_ux、W_uh和W_ud分别为上述句向量x_t、子主题向量h_t-1和文本主题向量d_t-1的权重矩阵，b_u为预设的偏置向量，σ表示预设的激活函数，u_t为贡献权重。

进一步地，本发明提供的一个优选技术方案中，“根据上述句向量和贡献权重对上述子主题向量进行更新”的步骤包括：根据上述句向量和贡献权重，并按照下式所示的方法对上述子主题向量进行更新：

其中，h_t为利用第t个句子对应的句向量x_t对上述子主题向量进行更新后得到的子主题向量，u_t为第t个句子对应的贡献权重，W_h和b_h分别为预设的权重矩阵和预设的偏置向量，为中间变量。

进一步地，本发明提供的一个优选技术方案中，在“根据上述句向量和贡献权重对上述子主题向量进行更新”的步骤之后，上述方法还包括：根据更新后的上述子主题向量并按照下式所示的方法对预设的文本主题向量进行更新：

d_t＝tanh(W_hdh_t+W_dd_t-1+b_d)

其中，W_hd和W_d分别为预设的权重矩阵，b_d为预设的偏置向量，d_t为利用第t个句子对应的子主题向量h_t对文本主题向量更新后得到的文本主题向量，d_t-1为利用第t-1个句子对应的子主题向量h_t-1对文本主题向量更新后得到的文本主题向量。

进一步地，本发明提供的一个优选技术方案中，“利用更新后的子主题向量计算在每个句子处进行主题分割的概率”的步骤包括：利用如下公式，根据更新后的子主题向量，计算在每个句子处进行主题分割的概率：

p_t＝softmax(W_hnh_t-W_hoh_t-1+b_p)

其中，h_t为利用第t个句子对应的句向量更新后的子主题向量，h_t-1为利用第t-1个句子对应的句向量更新后的子主题向量，W_ho和W_hn分别为子主题向量h_t和子主题向量h_t-1的权重矩阵，b_p为预设的偏置向量，p_t为利用上述子主题向量h_t和子主题向量h_t-1计算得到的概率。

第二方面，本申请还提供了一种存储装置，上述存储装置存储有多条程序，上述程序适于由处理器加载以执行，上述发明内容中的任一方法。

第三方面，本申请还提供了一种处理装置，包括处理器和存储设备，上述存储设备，适于存储多条程序；其中，上述程序适于由处理器加载以执行上述发明内容中的任一方法。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

本发明提供的层次化文本主题分割方法，实现从词语、语句、子主题、文本主题的分层次提取，实现对文本主题的分割。借助文本分割结果所划分的主题范围，能够缩小主题的搜索空间，提高分割效率。并且主题分割的结果可以分层次的反映出文本篇章中所包含的子主题的数目，以及每个子主题对应的自然语句的句群在文本中所占的篇幅，为文本摘要内容的选择提供参考信息。

附图说明

图1是本发明实施例中一种层次化文本主题分割方法主要步骤示意图；

图2是本发明实施例中，在层次化文本主题分割方法中，分层次提取文本主题的示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参阅附图1，附图1示例性示出了本发明实施例中一种层次化文本主题分割方法的主要步骤。如图1所示，本实施例中层次化文本主题分割方法，包括以下步骤：

步骤1，根据预设的标点符号对待分割文本进行切分，得到包含多个句子的句子集合。

在本实施例中，可以应用于层次化文本主题分割方法的电子设备，例如，服务器或应用平台，获得待进行主题提取或主题分割的文本，根据预设的标点符号对所获得的文本进行语句切分，将文本切分为多个句子，并由所切分出的多个句子构成句子集合。具体可以根据文本中的标点符号，例如句号，将待进行主题分割的文本切分为多个句子，根据所切分出的各个句子得到句子集合。例如，可以将文本中两个句号之间的字符切分为一个句子。上述待进行主题提取或主题分割的文本可以是社会媒体中的文本，还可以是文库中的文本。

进一步地，本实施例提供的一个优选技术方案中，“根据预设的标点符号对待分割文本进行切分”的步骤包括：对上述待分割文本进行逐字扫描，判断上述待分割文本中的每个字符与上述标点符号是否匹配，若某个字符与上述标点符号匹配，则在上述某个字符处对上述待分割文本进行切分；根据切分结果，将上述待分割文本中相邻匹配字符之间的字符串作为上述句子集合的一个句子。具体地，上述预设的标点符号可以是预先给定的标点列表中的任一标点符号。例如“。”(句号)、“！”(感叹号)、“？”(问号)、“；”(分号)、“……”(省略号)、“——”(破折号)、“。””(句号+后引号)、“！””(感叹号+后引号)、“？””(问号+后引号)、“……””(省略号+后引号)等。可以对上述待分割文本进行全文的逐字扫描，逐个判断文本中各个字符是否与标点列表中的标点符号相匹配，如果扫描到的字符与上述标点列表中的任意一个标点符号相匹配，在匹配处将上述文本进行切分；将相邻两个匹配的标点符号之间的字符或字符串作为一个句子。作为示例，待切分文本的全文是：“我是中国人，我爱中国。祖国真伟大！她有悠久的历史，和丰富的物产。”扫描上述文本的各个字符，可以扫描到与标点列表中的标点相匹配的三个标点符号，分别为“。”、“！”和“。”，根据上述扫描结果将上述文本切分为三个自然句，分别为：“我是中国人，我爱中国。”，“祖国真伟大！”，“她有悠久的历史，和丰富的物产。”。由所切分出的三个上述自然句构建该待切分文本的句子集合。

步骤2，利用预先构建的词向量生成上述句子集合中每个句子对应的句向量。

本实施例中，词向量为使用向量来表达词，例如，表达方式为"one-hot"的词向量，其向量维度为整个语料库中词的总数；每一维代表语料库中的一个词(出现为1，不出现为0)。每一个词都有一个原始的词向量，该原始词向量可以认为是预设的。优选的实现方案中，上述预先构建的词向量，可以是基于word2vec工具预先构建的词向量。

可以对上述各个句子进行分词操作，得到组成各句子的单词。根据组成各个句子的单词，利用上述词向量，生成各句子的句向量；上述句向量为使用向量表达的语句。具体地，可以利用Word2Vec工具在大规模中文语料上训练维度为300维的词向量，采用长短时记忆网络(LSTM)对词向量进行编码，生成句子的向量表示，即生成各个自然句的句向量，句向量的维数为300维。

步骤3，按照上述每个句子在上述待分割文本中出现的顺序，依次根据每个句子对应的句向量对预设的子主题向量进行更新。

在本实施例中，按照各个自然句在文本中出现的顺序，依次根据每个句子对应的句向量对预设的子主题向量进行更新。上述子主题向量描述当前的句子所属的子主题的语义。例如，一篇文章的文本主题是介绍飞机，有多个子主题，例如飞机的原理、飞机的构造等等，每个子主题是由一些句子来描述的。子主题向量表示子主题的语义，但是，其中的语义是一个向量。根据当前的自然句对应的句向量对预设的子主题向量进行更新。

进一步地，本实施例提供的一个优选技术方案中，“依次根据每个句子对应的句向量对预设的子主题向量进行更新”的步骤包括：获取上述句向量对上述子主题向量更新的贡献权重；根据上述句向量和贡献权重对上述子主题向量进行更新。

进一步地，本实施例提供的一个优选技术方案中，在完成“根据预设的标点符号对待分割文本进行切分，得到包含多个句子的句子集合”的步骤之后，随机生成初始的128维的子主题向量h₀和初始的128维的文本主题向量d₀。在一些实现方式中，初始的子主题向量和初始的文本主题向量的每一维度可以由在[-1,1]的均匀分布中随机采用一个数值得到。“获取上述句向量对上述子主题向量更新的贡献权重”的步骤包括：通过如下公式计算在每个句子处，当前句子的句向量对上述子主题向量更新的贡献权重：

u_t＝σ(W_uxx_t+W_uhh_t-1+W_udd_t-1+b_u) (1)

设当前待处理的句子为文本中的第t个句子，x_t表示第t个句子对应的句向量，h_t-1为利用第t-1个句子对应的句向量对上述子主题向量进行更新后得到的子主题向量，d_t-1为利用上述子主题向量h_t-1对预设的文本主题向量进行更新后得到的文本主题向量，W_ux、W_uh和W_ud分别表示句向量x_t、子主题向量h_t-1和文本主题向量d_t-1的权重矩阵，b_u为预设的偏置向量，σ为预设的激活函数，u_t为贡献权重。

可以理解，将上述第t个自然语句的句向量x_t，待更新的子主题向量h_t-1，待更新的文本主题向量d_t-1，作为当前处理的句子的句向量、当前的子主题向量、当前文本主题向量。贡献权重根据当前句向量、当前子主题向量、当前文本主题向量三者，利用公式(1)进行计算。具体地，上述公式中，当前的句子向量x_t为300维，当前子主题向量h_t-1为128维，当前文本主题向量d_t-1为128维。权重矩阵W_ux、W_uh、W_ud的维度分别为300×128维、128×128维、128×128维，偏置向量b_u的维度为128维。通过σ激活函数作用之后的得到的值，作为贡献权重向量，其维数为128维。

进一步地，本实施例提供的一个优选技术方案中，“根据所述句向量和贡献权重对所述子主题向量进行更新”的步骤包括：根据上述句向量和贡献权重，并按照下式所示的方法对上述子主题向量进行更新：

其中，h_t为利用第t个句子对应的句向量x_t对所述子主题向量进行更新后得到的子主题向量，u_t为第t个句子对应的贡献权重，W_h和b_h分别为预设的权重矩阵和预设的偏置向量，为中间变量。

可以理解，子主题向量的更新主要考虑当前语句的信息和待更新的子主题的信息。上述公式(2)和公式(3)中，中间向量为128维，权重矩阵W_h为128×128维，偏置向量b_h为128维，通过tanh激活函数，生成新的128维的子主题向量h_t。

进一步地，本实施例提供的一个优选技术方案中，在“根据上述句向量和贡献权重对上述子主题向量进行更新”的步骤之后，所述方法还包括：根据更新后的上述子主题向量并按照下式所示的方法对预设的文本主题向量进行更新：

d_t＝tanh(W_hdh_t+W_dd_t-1+b_d) (4)

其中，W_hd和W_d分别为预设的权重矩阵，b_d为预设的偏置向量，d_t为利用第t个句子对应的子主题向量对文本主题向量更新后得到的文本主题向量，d_t-1为利用第t-1个句子对应的子主题向量对文本主题向量更新后得到的文本主题向量。

上述文本主题向量的更新主要参考已更新的子主题向量和上一时刻更新的文本主题向量。其中，权重矩阵W_hd、W_d分别为128×128维，偏置向量b_d设置为128维，通过tanh激活函数，生成新的128维的文本主题向量d_t。

步骤4，利用更新后的子主题向量计算在每个句子处进行主题分割的概率，并根据上述概率选择性地分割上述待分割文本。

在本实施例中，利用上述步骤3所得到的子主题向量，并根据更新后的子主题向量计算在各个句子处对文本进行主题分割的概率；并基于上述主题分割的概率分割上述待分割文本。例如，可以预先设置分割概率阈值，如果计算得到在某个句子处的进行主题分割的概率大于上述分割概率阈值，则在该句子处对上述文本进行分割。

进一步地，本实施例提供的一个优选技术方案中，“利用更新后的子主题向量计算在每个句子处进行主题分割的概率”的步骤包括：利用如下公式，根据更新后的子主题向量，计算在每个句子处进行主题分割的概率：

p_t＝softmax(W_hnh_t-W_hoh_t-1+b_p) (5)

其中，W_ho、W_hn分别为子主题向量h_t和子主题向量h_t-1的权重矩阵，b_p为偏置向量，p_t为利用上述子主题向量h_t和子主题向量h_t-1计算得到的概率。

判断分割概率基于当前句子的语句信息和当前子主题向量与前一时刻子主题向量的差。其中，子主题向量的权重矩阵W_ho、W_hn均设置为2×128维，b_p设置为2维。通过softmax函数后输出分割概率p_t为2维，第一维和第二维分别表示在当前自然语句处分割和不分割的概率，对应标签“1”和“0”。若标注为“1”的概率大于标注为“0”的概率，则在当前自然语句处进行分割，否则，在此处不分割。

作为示例，参考附图2，附图2示出了层次化文本主题分割方法应用中，分层次提取文本主题的示意图。如图2所示，应用于上述层次化文本主题分割方法的电子设备或应用平台，将待分割文本切分为多个自然句，根据预先构建的词向量，利用LSTM对词向量进行编码，生成各个自然句的句向量，如图中201所示。将随机生成的子主题向量和文本主题向量作为预设的子主题向量和预设的文本主题向量。按照文本切分出的句子的顺序，利用所生成的自然句的句向量、预设的子主题向量和预设的文本主题向量对子主题向量进行更新，如图中202所示；利用更新后的子主题向量和预设的文本主题向量更新文本主题向量如图中203所示。然后将更新后的子主题向量和文本主题向量分别作为预设的子主题向量和预设的文本主题向量，利用下一自然句的句向量，继续对其进行更新，直到文本的自然段末，或文本的最后一个自然句，得到待分割文本的主题向量。

本申请还提供了一种存储装置，该存储装置可以是上述实施例中描述的服务器中所包含的；也可以是单独存在，而未装配入该服务器中。上述存储装置承载有一个或者多个程序，上述程序适于由处理器加载并执行，当上述一个或者多个程序被该装置执行时可以是实现上述实施例中的任一方法。

本申请还提供了一种处理装置，该处理装置包括处理器，适于执行各条程序；以及存储设备，适于存储多条程序；其中，上述程序适于由处理器加载并执行以实现上述实施例中的任一方法。

本发明上述实施例所提供的方法对待分割文本进行切分得到多个句子，并预先随机生成子主题向量和文本主题向量；利用预先构建的词向量对各个句进行编码，得到各个句子的句向量；利用句向量和预设的子主题向量更新子主题向量，利用更新后的子主题向量和预设的文本主题向量更新文本主题向量，确定出在各个句子处分割文本的概率，并基于该概率对文本进行分割。本发明实现从单词、语句、子主题、文本主题的分层次提取，实现对文本主题的分割。借助文本分割结果所划分的主题范围，能够缩小主题的搜索空间，提高分割效率。并且分层次文本主题分割的结果可以分层次的反映出篇章中所包含的子主题的数目，以及每个子主题对应的自然语句的句群在文本中所占的篇幅，为摘要内容的选择提供参考信息。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种层次化文本主题分割方法，其特征在于，所述方法包括：

根据预设的标点符号对待分割文本进行切分，得到包含多个句子的句子集合；

利用预先构建的词向量生成所述句子集合中每个句子对应的句向量；

按照所述每个句子在所述待分割文本中出现的顺序，依次根据每个句子对应的句向量对预设的子主题向量进行更新；

利用更新后的子主题向量计算在每个句子处进行主题分割的概率，并根据所述概率选择性地分割所述待分割文本。

2.根据权利要求1所述的层次化文本主题分割方法，其特征在于，“根据预设的标点符号对待分割文本进行切分”的步骤包括：

对所述待分割文本进行逐字扫描，判断所述待分割文本中的每个字符与所述标点符号是否匹配，若某个字符与所述标点符号匹配，则在所述某个字符处对所述待分割文本进行切分；

根据切分结果，将所述待分割文本中相邻匹配字符之间的字符串作为所述句子集合的一个句子。

3.根据权利要求1所述的层次化文本主题分割方法，其特征在于，“依次根据每个句子对应的句向量对预设的子主题向量进行更新”的步骤包括：

获取所述句向量对所述子主题向量更新的贡献权重；

根据所述句向量和贡献权重对所述子主题向量进行更新。

4.根据权利要求3所述的层次化文本主题分割方法，其特征在于，“获取所述句向量对所述子主题向量更新的贡献权重”的步骤包括：

通过如下公式计算在每个句子处，当前句子的句向量对所述子主题向量更新的贡献权重：

u_t＝σ(W_uxx_t+W_uhh_t-1+W_udd_t-1+b_u)

其中，x_t表示第t个句子对应的句向量，h_t-1为利用第t-1个句子对应的句向量对所述子主题向量进行更新后得到的子主题向量，d_t-1为利用所述子主题向量h_t-1对预设的文本主题向量进行更新后得到的文本主题向量，W_ux、W_uh和W_ud分别为所述句向量x_t、子主题向量h_t-1和文本主题向量d_t-1的权重矩阵，b_u为预设的偏置向量，σ表示预设的激活函数，u_t为贡献权重。

5.根据权利要求4所述的层次化文本主题分割方法，其特征在于，“根据所述句向量和贡献权重对所述子主题向量进行更新”的步骤包括：

根据所述句向量和贡献权重，并按照下式所示的方法对所述子主题向量进行更新：

6.根据权利要求5所述的层次化文本主题分割方法，其特征在于，在“根据所述句向量和贡献权重对所述子主题向量进行更新”的步骤之后，所述方法还包括：

根据更新后的所述子主题向量并按照下式所示的方法对预设的文本主题向量进行更新：

d_t＝tanh(W_hdh_t+W_dd_t-1+b_d)

7.根据权利要求1-6中任一项所述的层次化文本主题分割方法，其特征在于，“利用更新后的子主题向量计算在每个句子处进行主题分割的概率”的步骤包括：

利用如下公式，根据更新后的子主题向量，计算在每个句子处进行主题分割的概率：

p_t＝softmax(W_hnh_t-W_hoh_t-1+b_p)

其中，h_t为利用第t个句子对应的句向量更新后的子主题向量，h_t-1为利用第t-1个句子对应的句向量更新后的子主题向量，W_ho和W_hn分别为子主题向量h_t和子主题向量h_t-1的权重矩阵，b_p为预设的偏置向量，p_t为利用所述子主题向量h_t和子主题向量h_t-1计算得到的概率。

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载以执行权利要求1-7任一项所述的层次化文本主题分割方法。

9.一种处理装置，包括处理器和存储设备，所述存储设备适于存储多条程序；

其特征在于，所述程序适于由处理器加载以执行权利要求1-7任一项所述的层次化文本主题分割方法。