CN110795943B

CN110795943B - 一种针对事件的话题表示生成方法及系统

Info

Publication number: CN110795943B
Application number: CN201910909274.5A
Authority: CN
Inventors: 史存会; 王伟玉; 俞晓明; 刘悦; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-10-08
Anticipated expiration: 2039-09-25
Also published as: CN110795943A

Abstract

本发明提出一种针对事件的话题表示生成方法及系统，包括：获取包含多个文档的文档集，且该多篇文档表述同一事件，提取该文档集中各个文档的标题，形成该事件的标题集合；通过对该标题集合中每N个标题获取其最长公共子序列，得到该标题集合的最长公共子序列集合；统计该最长公共子序列集合中各非空最长公共子序列的出现次数，选择出现次数最多的前K个高频最长公共子序列，从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预，其中不存在人为因素，省时省力。因此，相比现有的技术，提高了针对事件的话题表示的可读性，经过筛选处理得到的话题表示也较精炼和准确。

Description

一种针对事件的话题表示生成方法及系统

技术领域

本发明涉及信息处理技术领域，特别涉及一种针对事件的话题表示生成方法及系统。

背景技术

随着互联网技术的蓬勃发展以及网络信息的爆炸式增长，利用话题检测与跟踪技术可把信息按话题进行有效地分类组织，供用户查阅，应对信息过载问题。同时，从用户的角度出发，用户也希望能迅速地了解这些话题，及时获取所需信息。

话题指某个事件或活动及所有与其直接相关的事件或活动。事件可视为特殊的话题。针对事件的话题表示指以简洁明了的文字表征事件粒度的话题，该文字能反映事件的中心思想及核心内容。例如，“首张黑洞照片”是针对关于“全球天文学家发布首张黑洞照片”，“人类首张黑洞照片”事件的话题表示。

自动生成针对事件的话题表示能让用户快速了解事件大意，不必为信息理解再进一步花费脑力，更高效地获取并掌握所需信息。

现有的针对事件的话题表示方法主要有以下三种方式：

1、通过人工干预(存在人为因素)的方式产生针对事件的话题表示：1.根据事件文本数据，人工编写其话题表示。2.根据用户对事件的查询输入，将满足预设搜索结果的搜索词作为其话题表示，其中预设搜索结果包括在规定时间内满足预设查询次数、或查询次数最多等。(相关专利：《一种热点事件名称的确定方法及装置》、《一种热搜词生成方法与系统》)

2、通过自动从事件文本中直接抽取多个关键词，由这些关键词组成的词簇作为该事件的话题表示。其中，关键词的抽取技术主要基于TF-IDF(Term Frequency–InverseDocument Frequency)的方法、基于主题模型LDA(latent dirichlet allocation)的方法、基于TextRank的方法以及基于聚类的方法。

3、通过自动从话题文本数据中提取目标共现词作为话题表示。实现方案为：获取文本数据中各个共现词分别对应的互信息值，从所述共现词中提取互信息值大于预置互信息值的目标共现词，分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，将相似度值大于预置阈值的目标共现词确定为话题表示。(出处：专利《话题名称的提取方法及装置》)

通过人工干预(存在人为因素)的方式产生针对事件的话题表示，虽然效果较为精炼准确，可读性好。但是耗时费力，随着科技发展及网络文本信息的快速增长，人工成本也日益增高，而且通过人工获取话题表示的难度日益加大。

通过自动从事件文本中直接抽取多个关键词，由这些关键词组成的词簇作为该事件的话题表示。由于关键词提取受到中文分词、词性标注等影响，所以关键词提取的结果中本身就存在一定的错误，从而导致由关键词组成的词簇无法准确地表征话题。而且，词簇往往是词语的罗列，缺乏语法规则约束，导致可读性差，读者难以理解话题大意。

通过自动从话题文本数据中提取目标共现词作为话题表示。虽然该方法采用从文本中提取与话题词簇满足一定相似度的共现词作为话题表示，相比基于词簇的话题表示提高了准确性和可读性。但是，仅用共现词作为话题表示，语义不够明确完整，仍不能准确地表述话题，体现话题大意，可读性欠佳。

综上所述，利用现有技术中无人工干预的技术方案，针对事件还不能生成精炼准确，语义明确完整，可读性好的话题表示。

发明内容

本发明的目的是提供一种针对事件的话题表示生成方法及系统，以能够自动地生成针对事件的精炼准确、语义较明确完整且可读性好的话题表示，无需人工干预(不存在人为因素)，减少人为工作量，以解决现有针对事件的话题表示准确性低、语义不够明确完整、可读性不佳的问题。

具体来说本发明提供了一种针对事件的话题表示生成方法，其中包括：

步骤1、获取包含多个文档的文档集，且该多篇文档表述同一事件，提取该文档集中各个文档的标题，形成该事件的标题集合；

步骤2、通过对该标题集合中每N个标题获取其最长公共子序列，得到该标题集合的最长公共子序列集合，其中N为大于1的正整数；

步骤3、统计该最长公共子序列集合中各非空最长公共子序列的出现次数，选择出现次数最多的前K个高频最长公共子序列，从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示，其中K为小于集合长度的正整数。

所述的针对事件的话题表示生成方法，其中该步骤3包括：

步骤31、对该前K个高频最长公共子序列，筛选满足预设长度范围的高频最长公共子序列，若仅有1个高频最长公共子序列满足该预设长度范围，则将该1个高频最长公共子序列，作为该事件的话题表示；若满足该预设长度范围的高频最长公共子序列个数＞1，则对满足该预设长度范围的高频最长公共子序列，分别统计其在该最长公共子序列集合中拥有的子序列数量，选择子序列数量最高的高频最长公共子序列，作为该事件的话题表示。

所述的针对事件的话题表示生成方法，其中该步骤1包括：

步骤11、提取文档集中各个文档的标题，并对标题进行去重、去特殊符号和去无用信息处理，得到该标题集合。

所述的针对事件的话题表示生成方法，其中该步骤2包括：

步骤21、随机抽取该标题集合中任意N个标题，获取其最长公共子序列；

步骤22、迭代M次该步骤21，集合得到的M个最长公共子序列，作为该最长公共子序列集合，其中M为大于1的正整数。

本发明还提出了一种针对事件的话题表示生成系统，其中包括：

模块1、获取包含多个文档的文档集，且该多篇文档表述同一事件，提取该文档集中各个文档的标题，形成该事件的标题集合；

模块2、通过对该标题集合中每N个标题获取其最长公共子序列，得到该标题集合的最长公共子序列集合，其中N为大于1的正整数；

模块3、统计该最长公共子序列集合中各非空最长公共子序列的出现次数，选择出现次数最多的前K个高频最长公共子序列，从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示，其中K为小于集合长度的正整数。

所述的针对事件的话题表示生成系统，其中该模块3包括：

模块31、对该前K个高频最长公共子序列，筛选满足预设长度范围的高频最长公共子序列，若仅有1个高频最长公共子序列满足该预设长度范围，则将该1个高频最长公共子序列，作为该事件的话题表示；若满足该预设长度范围的高频最长公共子序列个数＞1，则对满足该预设长度范围的高频最长公共子序列，分别统计其在该最长公共子序列集合中拥有的子序列数量，选择子序列数量最高的高频最长公共子序列，作为该事件的话题表示。

所述的针对事件的话题表示生成系统，其中该模块1包括：

模块11、提取文档集中各个文档的标题，并对标题进行去重、去特殊符号和去无用信息处理，得到该标题集合。

所述的针对事件的话题表示生成系统，其中该模块2包括：

模块21、随机抽取该标题集合中任意N个标题，获取其最长公共子序列；

模块22、迭代M次该模块21，集合得到的M个最长公共子序列，作为该最长公共子序列集合，其中M为大于1的正整数。

由以上方案可知，本发明的优点在于：

由于本发明实施例通过提取同一事件文档集标题中的高频最长公共子序列，将满足筛选条件的(对其长度、出现次数、剩余最长公共子序列是其子序列个数有所要求)或经过处理后的高频最长公共子序列作为该事件的话题表示。最终作为该事件话题表示的高频最长公共子序列本身相对词语更具有语义完整性，而且从包含事件主要内容的事件标题集中提取，可获得事件关键信息，按文本原序组合得到，保证了事件关键信息的显著性和语言表达的流畅性。本发明无需人工干预，其中不存在人为因素，省时省力。因此，相比现有的技术，提高了针对事件的话题表示的可读性，经过筛选处理得到的话题表示也较精炼和准确。

附图说明

图1为本发明针对事件的话题表示生成方法流程图；

图2为本发明将高频最长公共子序列作为话题表示的方法流程图；

图3为本发明针对事件的话题表示生成系统框图。

具体实施方式

现有技术中直接采用词语提取技术往往因缺乏语法规则约束、语义不完整等不能得到一个能反映文本中心思想、可读性好的话题表示。因为大多时候文本大意无法用直接提取的一个词语体现，而要通过提取的几个词语来感知，还需考虑语序及词语搭配等问题。

经过对同一事件的文档集研究发现，标题概括了文档主要内容，虽然文档间对同一事件会有不同的描述，但是这些文档的主要内容一致，它们的标题内容高度相似。通过观察，一般来说，事件关键信息会在其文档集的标题中频繁出现。标题本身具有好的可读性，其原顺序表达流畅，有较好的语法规则约束。

子序列是从序列中按原顺序保留任意若干项得到的序列。最长公共子序列是两个或多个已知序列的最长子序列，即其含有序列中公共元素的数量最多。最长公共子序列由于含有一组序列中最多的公共元素，这些公共元素往往是关键信息的反映，而且其元素与原序列中相对顺序一致，保证了其可读性。通过提取同一事件文档集标题中的高频最长公共子序列，可获取事件关键信息，又因其通过按原序组合得到，保证了事件关键信息的显著性和语言表达的流畅性，最长公共子序列相对词语也更具有语义完整性。

因此，解决所述缺陷可通过提取同一事件文档集标题中的高频最长公共子序列方法实现，将满足筛选条件的(对其长度、出现次数、剩余最长公共子序列是其子序列个数有所要求)或经过处理后的高频最长公共子序列作为该事件的话题表示。本发明包括以下关键技术点：

关键点1：提取同一事件文档集中各个文档的标题，并对这些标题进行预处理(去重、去特殊符号、去无用信息等)，形成该事件的标题集合；技术效果：因为标题本身具有好的可读性，往往能反映事件的中心思想，包含事件的关键信息，此操作能保证获取到含有事件关键信息，可读性好的数据集；

关键点2：对该事件标题集合中的每N个标题获取其最长公共子序列(或：随机抽取该事件标题集合中的任意N个标题，获取其最长公共子序列，迭代M次。其中，M为高于预设阈值的正整数)，形成该事件标题集的最长公共子序列集合。其中N为预设的大于1的正整数，如N取4；对该事件标题集的最长公共子序列集合进行空值过滤，并统计各个非空最长公共子序列在集合中出现的次数，将它们按出现次数降序排列(若出现次数相等，则比较这些最长公共子序列的长度，按长度降序排列)，选出排列在前K个的高频最长公共子序列。其中，K为预设的小于集合长度的正整数，如K取3；技术效果：通过提取高频最长公共子序列，保证事件关键信息的显著性、语义的较完整性和语言表达的流畅性；

关键点3：将满足筛选条件的(对其长度、出现次数、剩余最长公共子序列是其子序列个数有所要求)或经过处理后的高频最长公共子序列作为该事件的话题表示；技术效果：获得该事件精炼准确、语义较明确完整、可读性好的话题表示。

具体技术方案如下：

提出一种针对事件的话题表示生成方法，该方法包括：

提取同一事件文档集中各个文档的标题，并对这些标题进行预处理(去重、去特殊符号、去无用信息等)，形成该事件的标题集合；

对该事件标题集合中的每N个标题获取其最长公共子序列(或：随机抽取该事件标题集合中的任意N个标题，获取其最长公共子序列，迭代M次。其中，M为高于预设阈值的正整数)，形成该事件标题集的最长公共子序列集合。其中N为预设的大于1的正整数，如N取4；

对该事件标题集的最长公共子序列集合进行空值过滤，并统计各个非空最长公共子序列在集合中出现的次数，将它们按出现次数降序排列(若出现次数相等，则比较这些最长公共子序列的长度，按长度降序排列)，选出排列在前K个的高频最长公共子序列。其中，K为预设的小于最长公共子序列集合的正整数，如K取3；

将满足筛选条件的或经过处理后的高频最长公共子序列作为该事件的话题表示。具体步骤如下：

对选出的前K个高频最长公共子序列，筛选满足3≤长度≤10的高频最长公共子序列。若仅有1个高频最长公共子序列满足此条件，则将该高频最长公共子序列作为该事件的话题表示；若满足此条件的高频最长公共子序列个数＞1，则对这些高频最长公共子序列分别判断剩余的(排名在K之后)每一个最长公共子序列是否为它的子序列，并统计“是”的个数，将剩余最长公共子序列是其子序列个数最多且唯一的高频最长公共子序列作为该事件的话题表示。若剩余最长公共子序列是其子序列个数最多的高频最长公共子序列不唯一，则将它们先按在该事件标题集的最长公共子序列集合中出现次数降序排列，若出现次数相等，再按其长度降序排列，取按此排列第1个高频最长公共子序列作为该事件的话题表示；若满足此条件的高频最长公共子序列个数＝0，则依次判断选出的前K个高频最长公共子序列的长度小于3还是大于10，同时，选出其中长度大于10的高频最长公共子序列，对它们分别判断剩余的(排名在K之后)每一个最长公共子序列是否为它的子序列，并统计“是”的个数，选出剩余最长公共子序列是其子序列个数最多的高频最长公共子序列，并对其进行去停用词、同义词代词替换等压缩处理，将其中处理完满足3≤长度≤10的高频最长公共子序列(按原排名相对第一)作为该事件的话题表示；若其中不存在长度大于10的高频最长公共子序列，则继续从排名在K之后的找，找到第1个满足3≤长度≤10且其之后的最长公共子序列是其子序列个数大于预设阈值的高频最长公共子序列作为该事件的话题表示；若上述情况都不满足，仍未确定该事件的话题表示，则直接取原排名第一的高频最长公共子序列作为该事件的话题表示(此情况为前K个最长公共子序列长度＜3排名在K之后的所有最长公共子序列长度＞10，或该事件标题集的最长公共子序列集合中的所有最长公共子序列的长度＜3)。

提供一种针对事件的话题表示生成系统，该系统包括：

事件标题集提取单元，用于提取同一事件文档集中各个文档的标题，并对这些标题进行预处理(去重、去特殊符号、去无用信息等)，形成该事件的标题集合；

最长公共子序列集获取单元，用于对该事件标题集合中的每N个标题获取其最长公共子序列(或：随机抽取该事件标题集合中的任意N个标题，获取其最长公共子序列，迭代M次。其中，M为高于预设阈值的正整数)，形成该事件标题集的最长公共子序列集合。其中N为预设的大于1的正整数，如N取4；

高频最长公共子序列获取单元，用于对该事件标题集的最长公共子序列集合进行空值过滤，并统计各个非空最长公共子序列在集合中出现的次数，将它们按出现次数降序排列(若出现次数相等，则比较这些最长公共子序列的长度，按长度降序排列)，选出排列在前K个的高频最长公共子序列。其中，K为预设的小于集合长度的正整数，如K取3；

话题表示确定单元，用于将满足筛选条件的或经过处理后的高频最长公共子序列作为该事件的话题表示。具体步骤如下：

话题表示确定单元中又包括：

长度筛选模块，用于对选出的前K个高频最长公共子序列，筛选满足3≤长度≤10的高频最长公共子序列；

子序列个数统计模块，用于对选出的高频最长公共子序列分别判断剩余的(排名在K之后)每一个最长公共子序列是否为它的子序列，并统计“是”的个数。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提供的一种针对事件的话题表示生成方法如图1所示，下面通过实施例进行详细描述：

1.提取同一事件文档集中各个文档的标题，并对这些标题进行预处理，形成该事件的标题集合；

其中，同一事件的文档集是由描述同一个事件的多篇文档构成，这些文档可以来自新闻、论坛、APP、微信公众号等，每篇文档含有标题和正文，由于这些文档都在描述同一个事情，所以内容高度相关。预处理指去重、去特殊符号、去无用信息等，无用信息指与文本标题内容无关的信息，如来源网站名等。

2.对该事件标题集合中的每N个标题获取其最长公共子序列(或：随机抽取该事件标题集合中的任意N个标题，获取其最长公共子序列，迭代M次。其中，M为高于预设阈值的正整数)，形成该事件标题集的最长公共子序列集合。其中N为预设的大于1的正整数，如N取4；

其中，对该事件标题集合中的每N个标题获取其最长公共子序列时，若该事件标题集中的标题数不是N的整倍数，则余下的标题与前面的任意标题凑成N个获取其最长公共子序列；

3.对该事件标题集的最长公共子序列集合进行空值过滤，并统计各个非空最长公共子序列在集合中出现的次数，将它们按出现次数降序排列(若出现次数相等，则比较这些最长公共子序列的长度，按长度降序排列)，选出排列在前K个的高频最长公共子序列。其中，K为预设的小于集合长度的正整数，如K取3；

4.将满足筛选条件的或经过处理后的高频最长公共子序列作为该事件的话题表示。具体步骤(图2)如下：

对选出的前K个高频最长公共子序列，筛选满足3≤长度≤10的高频最长公共子序列。若仅有1个高频最长公共子序列满足此条件，则将该高频最长公共子序列作为该事件的话题表示；若满足此条件的高频最长公共子序列个数＞1，则对这些高频最长公共子序列分别判断剩余的(排名在K之后)每一个最长公共子序列是否为它的子序列，并统计“是”的个数，将剩余最长公共子序列是其子序列个数最多且唯一的高频最长公共子序列作为该事件的话题表示。若剩余最长公共子序列是其子序列个数最多的高频最长公共子序列不唯一，则将它们先按在该事件标题集的最长公共子序列集合中出现次数降序排列，若出现次数相等，再按其长度降序排列，取按此排列第1个高频最长公共子序列作为该事件的话题表示；若满足此条件的高频最长公共子序列个数＝0，则依次判断选出的前K个高频最长公共子序列的长度小于3还是大于10，同时，选出其中长度大于10的高频最长公共子序列，对它们分别判断剩余的(排名在K之后)每一个最长公共子序列是否为它的子序列，并统计“是”的个数，选出剩余最长公共子序列是其子序列个数最多的高频最长公共子序列，并对其进行去停用词、同义词代词替换等压缩处理，将其中处理完满足3≤长度≤10的高频最长公共子序列作为该事件的话题表示；若其中不存在长度大于10的高频最长公共子序列，则继续从排名在K之后的找，找到第1个满足3≤长度≤10且其之后的最长公共子序列是其子序列个数大于预设阈值的高频最长公共子序列作为该事件的话题表示；若上述情况都不满足，仍未确定该事件的话题表示，则直接取原排名第一的高频最长公共子序列作为该事件的话题表示(此情况为前K个最长公共子序列长度＜3排名在K之后的所有最长公共子序列长度＞10，或该事件标题集的最长公共子序列集合中的所有最长公共子序列的长度＜3)。

其中，若经过压缩处理后满足3≤长度≤10的高频最长公共子序列不唯一，则选它们中按原排名(步骤3)相对第一的作为该事件的话题表示；

在此简单地举一个利用上述实施例确定事件的话题表示的例子。在对关于“A国B市教堂爆炸”的事件提取该事件文档集中的标题，对这些标题进行去重、去特殊符号、去无用信息等处理后，得到该事件的标题集合[“A国B市一教堂门口发生爆炸2人轻伤”，“A国B市教堂外发生爆炸”，“A国B市一个教堂门口爆炸警方介入调查”，“A国B市教堂发生爆炸”，“A国B市教堂爆炸背后真相吓人”，“A国B市一个教堂爆炸”，“B市市中心一个教堂外发生爆炸”，“B市教堂门前爆炸伤2人”，“揭露A国B市教堂爆炸原因”，“为何A国B市的一个教堂发生爆炸”，“A国B市教堂爆炸伤人”，“位于A国的某教堂居然爆炸了”]，分别对每3个标题求其最长公共子序列，得到该事件文档标题集的最长公共子序列集合[“A国B市教堂爆炸”，“A国B市教堂爆炸”，“B市教堂爆炸”，“A国教堂爆炸”]，将它们按步骤3的排列规则排序后得到：1.“A国B市教堂爆炸”2.“B市教堂爆炸”3.“A国教堂爆炸”，选取前2个高频最长公共子序列，“A国B市教堂爆炸”和“B市教堂爆炸”都满足3≤长度≤10，所以判断排名在2以后的最长公共子序列是否为前2名的子序列，并统计“是”的个数，即判断“A国教堂爆炸”是否为“A国B市教堂爆炸”和“B市教堂爆炸”的子序列，因为“A国教堂爆炸”只是“A国B市教堂爆炸”的子序列，所以前2名“是”的个数分别为1和0，“A国B市教堂爆炸”获得的剩余最长公共子序列作为子序列的个数最多且唯一，将“A国B市教堂爆炸”作为该事件的话题表示。

进一步地，本发明提供一种针对事件的话题表示生成系统，如图3所示，所述系统包括：事件标题集提取单元、最长公共子序列集获取单元、高频最长公共子序列获取单元、话题表示确定单元。

事件标题集提取单元，用于提取同一事件文档集中各个文档的标题，并对这些标题进行去重、去特殊符号、去无用信息等处理，形成该事件的标题集合。其中，同一事件的文档集是由描述同一个事件的多篇文档构成，这些文档可以来自新闻、论坛、APP、微信公众号等，每篇文档含有标题和正文，由于这些文档都在描述同一个事情，所以内容高度相关。无用信息指与文本标题内容无关的信息，如来源网站名等；

最长公共子序列集获取单元，用于对该事件标题集合中的每N个标题获取其最长公共子序列(或：随机抽取该事件标题集合中的任意N个标题，获取其最长公共子序列，迭代M次。其中，M为高于预设阈值的正整数)，形成该事件标题集的最长公共子序列集合。其中N为预设的大于1的正整数，如N取4。其中，对该事件标题集合中的每N个标题获取其最长公共子序列时，若该事件标题集中的标题数不是N的整倍数，则余下的标题与前面的任意标题凑成N个获取其最长公共子序列；

其中，若经过压缩处理后满足3≤长度≤10的高频最长公共子序列不唯一，则选它们中按原排名(高频最长公共子序列获取单元中的排序)相对第一的作为该事件的话题表示；

话题表示确定单元中又包括：

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

所述的针对事件的话题表示生成系统，其中该模块3包括：

所述的针对事件的话题表示生成系统，其中该模块1包括：

所述的针对事件的话题表示生成系统，其中该模块2包括：

Claims

1.一种针对事件的话题表示生成方法，其特征在于，包括：

步骤3、统计该最长公共子序列集合中各非空最长公共子序列的出现次数，选择出现次数最多的前K个高频最长公共子序列，从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示，其中K为小于集合长度的正整数；

其中该步骤2包括：

2.如权利要求1所述的针对事件的话题表示生成方法，其特征在于，该步骤3包括：

3.如权利要求1所述的针对事件的话题表示生成方法，其特征在于，该步骤1包括：

4.一种针对事件的话题表示生成系统，其特征在于，包括：

模块3、统计该最长公共子序列集合中各非空最长公共子序列的出现次数，选择出现次数最多的前K个高频最长公共子序列，从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示，其中K为小于集合长度的正整数；

其中该模块2包括：

5.如权利要求4所述的针对事件的话题表示生成系统，其特征在于，该模块3包括：

6.如权利要求4所述的针对事件的话题表示生成系统，其特征在于，该模块1包括：