CN111708879A

CN111708879A - 针对事件的文本聚合方法、装置及计算机可读存储介质

Info

Publication number: CN111708879A
Application number: CN202010393010.1A
Authority: CN
Inventors: 袁杰; 张�杰; 于皓; 陈秀坤; 高古明
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-25

Abstract

一种针对事件的文本聚合方法、装置、及计算机可读存储介质，包括：分别提取待聚合的多个目标文本中每个目标文本的多种特征；所述多种特征包括：内容类别、实体集合、向量特征；所述向量特征包括文本向量和/或词频向量；根据所提取的每个目标文本的多种特征，对所述待聚合的多个目标文本两两进行相似度计算，得到相似度值；根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。本申请能够在多个目标文本中对同一事件的目标文本进行聚合。

Description

针对事件的文本聚合方法、装置及计算机可读存储介质

技术领域

本文涉及计算机技术，尤指一种针对事件的文本聚合方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的飞快发展，人类的生活已经进入了信息爆炸的时代。在这样海量文本信息的背景下，需要机器帮助人类更加有效和方便的获取知识，其中就涉及到了如何从文中提取结构化的信息以便人类阅读和理解。

发明内容

本申请提供了一种针对事件的文本聚合方法、装置及计算机可读存储介质，可以实现在多个目标文本中对同一事件的目标文本进行聚合的目的。

本申请提供了一种针对事件的文本聚合方法，包括分别提取待聚合的多个目标文本中每个目标文本的多种特征；所述多种特征包括：内容类别、实体集合、向量特征；所述向量特征包括文本向量和/或词频向量；根据所提取的每个目标文本的多种特征，对所述待聚合的多个目标文本两两进行相似度计算，得到相似度值；根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。

与相关技术相比，本申请通过提取多个文本中每个文本的多种特征，对新闻事件两两进行相似度计算相似度；根据得到的每两个目标文本之间的相似度值确定多个文本中对应同一事件的文本，实现对同一事件的文本进行聚合。

在一个示例性实施例中，本申请通过对多个对应同一事件的文本根据发表时间进行排查，从而根据事件发展顺序，构建事件发展链条，可以让读者更加清晰的了解事件的发展。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例针对事件的文本聚合方法流程图；

图2为本申请实施例针对事件的文本聚合装置示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

如图1所示，本申请实施例一种针对事件的文本聚合方法，包括如下操作：

S1、分别提取待聚合的多个目标文本中每个目标文本的多种特征；所述多种特征包括：内容类别、实体集合、向量特征；所述向量特征包括文本向量和/或词频向量；

S2、根据所提取的每个目标文本的多种特征，对所述待聚合的多个目标文本两两进行相似度计算，得到相似度值；

S3、根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。

本申请实施例通过提取多个文本中每个文本的多种特征，确定多个文本中对应同一事件的文本，实现对应同一事件的文本进行聚合。

在一个示例实施例中，上述中的目标文本是通过在互联网中爬取各种新闻信息得到。例如，可以采用爬虫技术，爬取全类别或者指定类别的新闻信息，将爬取的新闻信息进行文本化得到多个目标文本。爬取的新闻类别可以为金融类新闻、体育类新闻、或者军事类新闻等等。

在一个示例实施例中，上述目标文本的多个特征中内容类别的提取，可以利用NLP(自然语言处理)技术中文本分类的方法，对新闻或者文章的大类进行判定，例如，判断是金融类新闻还是体育类新闻或者军事类新闻等。本申请实施例中采用A表示。

在一个示例实施例中，上述目标文本的多个特征中实体集合的提取可以利用NLP(自然语言处理)中命名实体识别的方法，抽取出新闻或者文中所提及到的所有实体，例如机构名称，人名，地名，时间，数量词等信息。实体集合用B表示，B中包含了文中的所有实体，例如实体集合B＝{xx公司，美国，通用汽车，福特，特斯拉}。

在一个示例实施例中，上述目标文本的多个特征中文本向量的提取可以利用NLP(自然语言处理)中word2vec的方法构建事件文本的向量表示。具体来说，对文本的每一句子进行分词，获得每个句子分词后的结果。通过加载预先训练好的word2vec的词向量，获得分词后句子中每一个词对应的词向量。最后将所有词的词向量相加取平均数，获得文本最终的文本向量表示结果，本申请实施例中采用C表示。

在一个示例实施例中，上述目标文本的多个特征中词频向量提取可以对目标文本中的句子进行分词，计算所有分词后词语的词频数(每个词语在文中出现的次数/文中词语的总个数(去重))。对部分停用词语进行过滤，例如(是，的，在，也)等词语。最后根据词频数值的从大到小的顺序排序，取前20个词语的词频作为词频向量的结果，本申请实施例中采用D表示。

在一个示例性实施例中，上述操作S2根据所提取的每个目标文本的多种特征，对所述待聚合的多个目标文本两两进行相似度计算，得到相似度值，包括：对于所述待聚合的多个目标文本中每两个目标文本分别进行如下操作：

S21、对两个目标文本的每个特征分别进行计算；

S22、根据两个目标文本的多种特征各自的计算值，得到两个目标文本的相似度值。

在一个示例性实施例中，上述操作S21中所述对两个目标文本的每个特征分别进行计算，包括：对两个目标文本的内容类别进行计算，得到两个目标文本内容类别的计算值。在其他实施例中，目标文本的内容类别可以不进行计算，可以设置成当内容类别相同时根据其它特征的计算值计算出的相似度值有效或为正数，当内容类别不同时根据其它特征的计算值计算出的相似度值无效或为0。

在一个示例性实施例中，通过定义类别计算函数对两个目标文本的内容类别进行计算，得到两个目标文本的内容类别的计算值。

示例性的，定义类别计算函数为：

其中，f_A表示两个目标文本内容类别的计算值，x₁、y₁分别表示两个目标文本的内容类别。

示例性的，例如两篇新闻：

1.第一篇

3月9日，纽约股市开盘出现暴跌，随后跌幅达到7％上限，触发熔断机制，恢复交易后跌幅一度有所收窄，收盘时道琼斯工业平均指数、标准普尔500种股票指数、纳斯达克综合指数跌幅均超过7％。

2.第二篇

3月12日，纽约股市三大股指在开盘出现暴跌，跌幅超过7％。暴跌行情导致美股再次触发熔断机制，暂停交易15分钟。收盘时，三大股指跌幅均超过9％。

通过事件分类模型判断两篇新闻的事件类别，例如第一篇新闻的事件类型为金融新闻，第二篇新闻的事件类型为金融新闻。其中，事件分类模型可以为基于lda的文本聚合，或者bert，bilstm的深度学习模型。

所以内容类别维度下的f_A＝(金融新闻，金融新闻)＝1

上述内容类别的计算函数可以采用其它形式，比如当x₁＝y₁时f_A可以为其它正数，再比如当x₁≠y₁时f_A可以为负数；再比如设计成内容类别相同和不同时有相差较大的取值。

在一个示例性实施例中，上述所述操作S21中所述对两个目标文本的每个特征分别进行计算，包括：对两个目标文本的实体集合的交集和并集进行计算，得到两个目标文本集合的计算值；

在一个示例性实施例中，可以通过定义实体关系计算函数对两个目标文本的实体集合的交集和并集进行计算，得到两个目标文本实体集合的计算值。

示例性的，定义的实体关系计算函数为：

f_B表示两个目标文本实体集合的计算，X₂、Y₂分别表示两个目标文本的实体集合。

继续以上述两篇新闻为例，第一篇新闻中识别到的实体为:

X₂＝{3月9日,纽约股市,触发熔断,琼斯工业平均指数,标准普尔500种股票指数,纳斯达克综合指数,7％}；

例如第二篇新闻中试别到的实体为:

Y₂＝{3月12日，纽约股市，7％，触发熔断，9％，三大股指}；

所以

上述实体集合的计算函数不限于上述形式，可以采用别的计算式，来表示两个目标文本的实体集合之间的关系。

在一个示例性实施例中，上述所述操作S21中所述对两个目标文本的每个特征分别进行计算，包括：对两个目标文本的向量特征的点乘结果和叉乘结果进行计算，得到两个目标文本的向量特征的计算值。

在一个示例性实施例中，对两个目标文本的向量特征的点乘结果和叉乘结果进行计算，得到两个目标文本的向量特征的计算值，包括：对两个目标文本的文本向量的点乘结果和叉乘结果进行计算，得到两个目标文本的文本向量的计算值

在一个示例性实施例中，通过文本向量计算函数对两个目标文本的文本向量进行计算，得到两个目标文本的文本向量的计算值。

示例性的，定义的文本向量计算函数为：

其中f_c表示两个目标文本向量的计算值，x₃、y₃分别表示两个目标文本的文本向量。

继续以上述两篇新闻为例，

第一篇新闻的分词结果：

'3/月/9/日/，/纽约/股市/开盘/出现/暴跌/，/随后/跌幅/达到/7％/上限/，/触发/熔断/机制/，/恢复/交易/后/跌幅/一度/有所/收窄/，/收盘/时/道琼斯/工业/平均/指数/、/标准/普尔/500/种/股票指数/、/纳斯达克/综合/指数/跌幅/均/超过/7％'。

通过上述分词结果，寻找对应每一个字的向量的到最终的文章向量。

假如数字3的向量是[0.213,0.323,0.43435]最终将所有的字向量加起来求平均，得到最终的向量x₃，假如x₃＝[2,3,4]。

类似得到第二篇新闻的最终向量表示y₃,假如y＝[4,5,6]。

上述文本向量的计算函数不限于上述形式，可以采用别的计算式，来表示两个目标文本的文本向量之间的关系。

在一个示例性实施例中，对两个目标文本的向量特征的点乘结果和叉乘结果进行计算，得到两个目标文本的向量特征的计算值，包括：对两个目标文本的词频向量的点乘结果和叉乘结果进行计算，得到两个目标文本的词频向量的计算值。

在一个示例性实施例中，可以通过定义词频向量计算函数对两个目标文本的词频向量进行计算确定两个目标文本的词频向量的计算值。

示例性的，定义的词频向量计算函数为：

其中，f_D表示两个目标文本向量的计算值，x4、y₄分别表示两个目标文本的文本向量。

继续以上述两篇新闻为例，统计句子中的词在文中出现的频率，每个维度是这个词出现的概率，词频的计算与上述计算方法类似，得到f_D。

上述词频向量的计算函数不限于上述形式，可以采用别的计算式，来表示两个目标文本的词频向量之间的关系。

在一个示例性实施例中上述操作S22中所述根据两个目标文本的多种特征各自的计算值，得到两个目标文本的相似度值，包括操作：

S221、将所述两个目标文本的实体集合的计算值和向量特征的计算值进行加权求和；所述向量特征的计算值包括：文本向量的计算值和/或词频向量的计算值；

S222、根据加权求和的结果，以及所述两个目标文本的内容类别的结算结果得到相似度值。

在一个示例性实施例中，通过定义计算值R为：

R＝f_A*(λf_B+(1-λ)(f_C+f_D))

本申请实施例采用的是在目标文本类别相同的情况下才能归为同一事件，因此同一事件的f_A必定为1，因此用乘法。其中的λ是一个调和的参数，取值区间在[0,1]，用于给定不同的权重，便于做调整。

在一个示例性实施例中，操作S3中所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本，包括：

操作S31、将相似度值满足预定阈值的每两个目标文本，确定为相似目标文本对；

操作S32、将确定为相似目标文本对的集合中与同一目标文本相似的目标文本，确定为同一事件的目标文本。

在另一个示例性实施例中，操作S3中所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本，包括：

在所述多个目标文本中，将任一个目标文本，以及与该目标文本相似度值大于预定阈值的其它目标文本确定为对应同一事件。

示例性的，比如有目标文本的1、2、3、4、5，两两计算相似度，则共有10个相似度值(分别是文本12、13、14、15、23、24、25、34、35、45之间的相似度)。假设其中，满足阈值的有12、14、35，将与文本1相似的文本2、4确定为与1为同一事件的目标文本；将与文本3相似的文本5确定为同一时间的目标文本。

在一个示例性实施例中，操作S3中所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本后还包括：将对应同一事件的目标文本根据发表时间进行排序

本申请实施例通过对多个对应同一事件的文本根据发表时间进行排序，从而根据事件发展顺序，构建事件发展链条，可以让读者更加清晰的了解事件的发展。

如图2所示，本申请实施例一种针对事件的文本聚合的装置，包括处理器和存储器，所述存储器中存储有用于进行针对事件的文本聚合的程序；所述处理器用于读取所述用于针对事件的文本聚合的程序，执行上述中任一项所述的方法。

本申请实施例一种计算机可读介质，用于存储用于进行针对事件的文本聚合的程序，所述程序在被执行时执行上述中任一项所述的方法。

本申请能够对属于同一事件的新闻或者文章进行聚合。同时，由于实体抽取结果或者新闻发布都会带有新闻或者文章的发布时间，因此基于事件的时间发展顺序，以时间轴的形式构建同一事件发展的顺序链条。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种针对事件的文本聚合方法，包括：

分别提取待聚合的多个目标文本中每个目标文本的多种特征；所述多种特征包括：内容类别、实体集合、向量特征；所述向量特征包括文本向量和/或词频向量；

根据所提取的每个目标文本的多种特征，对所述待聚合的多个目标文本两两进行相似度计算，得到相似度值；

根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。

2.根据权利要求1所述的文本聚合方法，其特征在于，所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本，包括：

3.根据权利要求1所述的文本聚合方法，其特征在于，所述根据所提取的每个目标文本的多种特征，对所述待聚合的多个目标文本两两进行相似度计算，包括：

对于所述待聚合的多个目标文本中每两个目标文本分别进行如下操作：

对两个目标文本的每个特征分别进行计算；

根据两个目标文本的多种特征各自的计算结果，得到两个目标文本的相似度值。

4.根据权利要求3所述的文本聚合方法，其特征在于，所述对两个目标文本的每个特征分别进行计算，包括：

对两个目标文本的内容类别进行计算，得到两个目标文本的内容类别的计算值；其中，当两个目标文本的内容类别相同时计算值为1，不同时为零。

5.根据权利要求3所述的文本聚合方法，其特征在于，所述对两个目标文本的每个特征分别进行计算，包括：

对两个目标文本的实体集合的交集和并集进行计算，得到两个目标文本集合的计算值。

6.根据权利要求3所述的文本聚合方法，其特征在于，所述对两个目标文本的每个特征分别进行计算，包括：

对两个目标文本的向量特征的点乘结果和叉乘结果进行计算，得到两个目标文本的向量特征的计算值。

7.根据权利要求3所述的文本聚合方法，其特征在于，所述根据两个目标文本的多种特征各自的计算结果，得到两个目标文本的相似度，包括：

将所述两个目标文本的实体集合的计算值和向量特征的计算值进行加权求和；所述向量特征的计算值包括：文本向量的计算值和/或词频向量的计算值；

根据加权求和的结果，以及所述两个目标文本的内容类别的计算结果得到相似度值。

8.根据权利要求1所述的文本聚合方法，其特征在于，所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本后还包括：

将对应同一事件的目标文本根据发表时间进行排序。

9.一种针对事件的文本聚合的装置，包括处理器和存储器，其特征在于，所述存储器中存储有用于进行针对事件的文本聚合的程序；所述处理器用于读取所述用于针对事件的文本聚合的程序，执行权利要求1-8中任一项所述的方法。

10.一种计算机可读介质，用于存储用于进行针对事件的文本聚合的程序，所述程序在被执行时执行权利要求1-8中任一项所述的方法。