CN110209808B - 一种基于文本信息的事件生成方法以及相关装置 - Google Patents
一种基于文本信息的事件生成方法以及相关装置 Download PDFInfo
- Publication number
- CN110209808B CN110209808B CN201810898747.1A CN201810898747A CN110209808B CN 110209808 B CN110209808 B CN 110209808B CN 201810898747 A CN201810898747 A CN 201810898747A CN 110209808 B CN110209808 B CN 110209808B
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- information
- cluster
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 130
- 238000012545 processing Methods 0.000 claims abstract description 59
- 239000013598 vector Substances 0.000 claims description 83
- 239000006185 dispersion Substances 0.000 claims description 13
- 238000005065 mining Methods 0.000 abstract description 41
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于文本信息的事件生成方法,包括:获取待处理文本信息集合,待处理文本信息集合包含N个待处理文本信息;对待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,每个文本小组中的待处理文本信息对应于相同的词语类别;对目标文本小组进行分簇处理,得到文本结果簇,其中,目标文本小组为M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;根据文本结果簇生成对应的第一事件。本发明实施例中还提供了一种事件生成装置。本发明实施例一方面节省了处理资源和计算资源,提升事件挖掘效率,另一方面,对分组后的待处理文本信息进行聚类,可以有效地增强事件生成的准确度。
Description
技术领域
本发明涉及计算机处理领域,尤其涉及一种基于文本信息的事件生成方法以及相关装置。
背景技术
随着互联网技术的迅猛发展和计算机的普及,用户越来越容易在网站上获得大量正在发生的事件新闻。大量新闻媒体将新闻放到网站,这对用户能否快速掌握主要事件成为一个挑战。因此,新闻事件的挖掘是一个非常有意义的研究课题。
基于新闻流的事件挖掘是指从海量的实时新闻数据中挖掘出蕴含其中的事件,并对挖掘的事件构建一个完备的事件库。目前,已构建了一种事件挖掘系统,首先对每条文本信息进行词性标注和命名实体识别,然后从文本信息中抽取事件时间及事件短语,再依据事件短语对事件进行分类,最后依据事件实体和事件时间的共现信息生成事件。
然而,由于每天更新的新闻量非常大,往往有几十万条,采用上述介绍的事件挖掘系统对每条新闻的文本信息进行处理,需要耗费相当多的处理资源和计算资源,导致事件挖掘时延较高。
发明内容
本发明实施例提供了一种基于文本信息的事件生成方法以及相关装置,一方面节省了处理资源和计算资源,提升事件挖掘效率,另一方面,对分组后的待处理文本信息进行聚类,可以有效地增强事件生成的准确度。
有鉴于此,本发明的第一方面提供了一种基于文本信息的事件生成方法,包括:
获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
对所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;
根据所述文本结果簇生成对应的第一事件。
本发明的第二方面提供了一种事件生成装置,包括:
获取模块,用于获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
处理模块,用于对所述获取模块获取的所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
所述处理模块,还用于对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;
生成模块,用于根据所述处理模块处理得到的所述文本结果簇生成对应的第一事件。
本发明的第三方面提供了一种事件生成装置,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
对所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;
根据所述文本结果簇生成对应的第一事件;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,提供了一种基于文本信息的事件生成方法,首先获取待处理文本信息集合,然后对待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,每个文本小组中的待处理文本信息对应于相同的词语类别,再对目标文本小组进行分簇处理,得到文本结果簇,其中,目标文本小组为M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词,最后根据文本结果簇生成对应的第一事件。通过上述方式,在待处理文本信息集合包含大量待处理文本信息的情况下,能够根据词语类别对这些待处理文本信息先进行分组,然后进行聚类处理,避免了同时处理大量的待处理文本信息,同时提升了聚类的可信度,一方面节省了处理资源和计算资源,提升事件挖掘效率,另一方面,对分组后的待处理文本信息进行聚类,可以有效地增强事件生成的准确度。
附图说明
图1为本发明实施例中事件生成系统的一个结构示意图;
图2为本发明实施例中基于文本信息的事件生成系统一个架构示意图;
图3为本发明实施例中基于文本信息的事件生成方法一个实施例示意图;
图4为本发明实施例中增量更新事件的一个实施例示意图;
图5为本发明实施例中事件融合的一个实施例示意图;
图6为本发明实施例中事件生成装置的一个实施例示意图;
图7为本发明实施例中事件生成装置的另一个实施例示意图;
图8为本发明实施例中事件生成装置的一个结构示意图。
具体实施方式
本发明实施例提供了一种基于文本信息的事件生成方法以及相关装置,一方面节省了处理资源和计算资源,提升事件挖掘效率,另一方面,对分组后的待处理文本信息进行聚类,可以有效地增强事件生成的准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本发明可以应用于事件挖掘的场景,基于新闻流的事件挖掘是指从海量的实时新闻数据中挖掘出蕴含其中的事件,并对挖掘的事件构建一个完备的事件库。其中,事件库中的每个事件对应一个全局唯一的事件标识。所挖掘的事件可以以结构化数据的形式表示,比如事件的实体、时间、地点和关键词等事件信息。事件挖掘属于信息抽取的子任务,近几年的事件挖掘方法从技术上可分为以下三种:
第一种为基于数据驱动的事件抽取方法;
数据驱动的方法是自然语言处理(Natural Language Processing,NLP)领域常用的方法,这种方法通过构建模型模拟数据之间的统计关系。基于数据驱动的文本信息挖掘方法可包括基于概率论的统计推理模型、概率模型、信息论理论以及几何代数的相关模型。常用的技术有词频统计,词义消歧,语言模型和聚类等。目前,已提出一种探测偶然事件和突发地方性事件的方法,他们通过在由搜索查询问题中的到的基于时间序列的实体上使用双层的层次聚类的方法探测事件主题及事件变化。又提出了一种从每日新闻中抽取事件的方法,他们依据实体和文档关系建立无向二分图,通过实体特征和文档的关系对文档和实体进行加权,然后对文档聚类,聚类结果得分由文档得分计算得到,得分高的结果为当天的新闻事件。后续还提出了一个开放领域的事件抽取和分类系统“TwiCal”,在“TwiCal”中对于一条新的评论数据,通过自然语言处理方法抽取事件短语及时间信息,依据事件短语对事件分类,通过事件实体和时间共现信息判断抽取的事件短语是否是一个有意义的事件。基于“TwiCal”又提出了一种无监督的贝叶斯模型模型挖掘事件,对文档、事件及实体之间分布建立模型,通过吉布斯采样更新模型参数。
在基于狄利克雷过程的事件混合模型中,在模型中事件个数不需提前指定,而是通过模型在数据中学习得到,同时,为了解决实体词表示多样化问题,在模型中使用了词向量来表示词语。在一种半监督的文本聚类方法的中,首先通过使用卷积神经网络(Convolutional Neural Network,CNN)网络将文本进行特征化表示,然后对文本进行聚类。其中,聚类方法可以为K均值(k-means)聚类,且将聚类融合到神经网络结果中,网络参数及聚类参数同时学习,得到文本聚类模型。
第二种为基于知识模版的事件挖掘方法;
该方法依据基于专家知识构建的模版进行事件挖掘。通过预定义的模版或语义学规则从语料库中挖掘需求的数据信息。如通过预设的地点、目的和行为关键词模版从文档中挖掘事件信息。或者通过种子事件从文本中挖掘事件模版,然后通过使用事件模版探测新事件和事件词。
第三种为基于混合模型的事件挖掘方法;
基于数据的事件挖掘方法和基于知识的事件挖掘方法在使用时各有优势,但有些情形,单纯使用一种方法不能达到预期的效果,有学者将两种方法结合使用,构建事件挖掘的混合模型。可以通过使用词语句法规则和无向图的方法从议会记录中挖掘事件,或者将词语语义模版与聚类相结合从新闻文本中挖掘事件。
相对于基于数据驱动的事件抽取方法,基于知识模版的事件挖掘方法需要更少的标注数据,其次,通过使用词法,句法及语义元素信息定义可构建有效的事件挖掘模版,并且数据结果易于解释和追踪。当挖掘特定的事件信息时,基于模版的方法通常能够更高效且精确。但是,基于模版的事件挖掘方法需要有先验知识,并且预定义的知识模版不适宜大范围使用,缺乏泛化能力。目前主要的研究方向为基于数据的事件抽取方法。
应理解,本发明所提供的事件生成方法可以应用于事件生成系统,请参阅图1,图1为本发明实施例中事件生成系统的一个结构示意图,如图所示,本发明所提供的事件生成装置可部署于服务器,在服务器在挖掘到事件后可存储于本地,并将事件发送至终端设备,由终端设备向用户展示事件。其中,终端设备包含但不仅限于笔记本电脑、平板电脑、掌上电脑、手机以及个人电脑(personal computer,PC)。
为了便于理解,下面将结合图2对本发明中的事件生成方法进行介绍,请参阅图2,图2为本发明实施例中基于文本信息的事件生成系统一个架构示意图,如图所示,具体地:
步骤S1中,首先事件生成装置需要获取新闻集合,通常情况下,新闻集合中包含了大量的新闻内容,新闻内容又包括了新闻标题和新闻正文等,本发明主要以新闻标题为主,对新闻内容进行划分。
步骤S2中,对新闻标题按照实体信息进行划分,可以分为若干个堆,其中,每个堆包括不同的实体信息,比如一个堆中为“人物A相关新闻”,一个堆为“腾讯相关新闻”,一个堆为“北京新闻”。
步骤S3中,对不同堆中的新闻标题进行聚合,比如一个堆为“人物A相关新闻”,在这一堆中包括事件A,事件A为“人物A五十大寿人物B送对联事件相关新闻”。在另一堆“人物B相关新闻”中包含事件B和事件C,其中,事件B为“人物A五十大寿人物B送对联事件相关新闻”,事件C为“人物B在新节目中大赞人物C人品事件相关新闻”。其中,每个相关新闻都包括至少一篇新闻内容。
步骤S4中,对包含不同实体信息的事件进行融合,比如,“人物A相关新闻”中包括“人物A五十大寿人物B送对联事件相关新闻”,而在“人物B相关新闻”中也包括“人物A五十大寿人物B送对联事件相关新闻”,于是可以将这两个事件进行融合,也就认为这是同一个事件,可分配同一个标识。
步骤S5中,将新挖掘事件与历史事件进行融合,去掉重复的事件,将未融合的事件加入至数据库中。
下面将从事件生成装置的角度,对本发明中基于文本信息的事件生成方法进行介绍,请参阅图3,本发明实施例中基于文本信息的事件生成方法一个实施例包括:
101、获取待处理文本信息集合,其中,待处理文本信息集合包含N个待处理文本信息,N为大于或等于1的整数;
本实施例中,部署于服务器上的事件生成装置首先可以获取待处理文本信息集合,这里的待处理文本信息集合中包含至少一个待处理文本信息。其中,待处理文本信息具体可以指新闻的标题。
102、对待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,M为大于或等于1的整数;
本实施例中,事件生成装置需要对待处理文本信息集合中的每个待处理文本信息进行分组,假设有十万条待处理文本信息,那么就需要对这十万条待处理文本信息进行归类划分,分在一起的待处理文本信息形成一个文本小组,从而构成M个文本小组,M可以是大于或等于1的整数。
其中,每个文本小组对应于相同的词语类别,词语类别包含但不仅限于实体信息、通名信息、地域信息、领域信息和事件信息。实体信息是指一个具体的事物,比如“腾讯科技有限公司”以及“北京”等。通名信息是指一类具体的事务,比如“老人”、“孕妇”、“教师”以及“警察”等。地域信息是指具体的地点名称,通常不一定包含在新闻的标题中,需要通过神经网络对标题进行地域识别才能得到。领域信息是指一个领域,比如“外卖”、“楼市”以及“通信”等。事件信息是指一类事件,比如“大雪”以及“上涨”等。
103、对目标文本小组进行分簇处理,得到文本结果簇,其中,目标文本小组为M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;
本实施例中,事件生成装置需要对各个文本小组进行聚类分簇,这里以M个文本小组中的其中一个文本小组为例进行介绍,该文本小组即为目标文本小组。在目标文本小组中可以包括多个待处理文本信息,即新闻标题,通过这些新闻标题挖掘其中的关键字,然后基于关键字进行聚类,从而得到至少一个文本结果簇,每个文本结果簇中由包含有至少一个关键词。
104、根据文本结果簇生成对应的第一事件。
本实施例中,事件生成装置基于文本结果簇,在每个文本结果簇中,当新闻标题满足事件生成条件时能够生成第一事件,因此,基于K文本结果簇最多能够生成K个事件。其中,事件生成条件为需要在包含一些基本元素,比如事件时间、地点、相关实体信息、关键词以及新闻来源等。
本发明实施例中,提供了一种基于文本信息的事件生成方法,首先获取待处理文本信息集合,然后对待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,每个文本小组中的待处理文本信息对应于相同的词语类别,再对目标文本小组进行分簇处理,得到文本结果簇,其中,目标文本小组为M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词,最后根据文本结果簇生成对应的第一事件。通过上述方式,在待处理文本信息集合包含大量待处理文本信息的情况下,能够根据词语类别对这些待处理文本信息先进行分组,然后进行聚类处理,避免了同时处理大量的待处理文本信息,同时提升了聚类的可信度,一方面节省了处理资源和计算资源,提升事件挖掘效率,另一方面,对分组后的待处理文本信息进行聚类,可以有效地增强事件生成的准确度。
可选地,在上述图3对应的实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第一个可选实施例中,对待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,可以包括:
获取目标待处理文本信息,其中,目标待处理文本信息属于待处理文本信息集合中的任意一个待处理文本信息;
若目标待处理文本信息中包含实体信息,则将目标待处理文本信息划分至第一文本小组,其中,第一文本小组属于M个文本小组中的一个文本小组,实体信息用于表示一个固定信息。
本实施例中,由于新闻数量巨大,为提高事件抽取的效率,本发明实施例对待处理文本信息(即新闻标题)进行了分组,输入的待处理文本信息可以为一周内的新闻标题。分组方法为依据待处理文本信息(新闻标题)中包含的实体信息,通名信息,地域信息,事件信息以及领域信息对待处理文本信息(新闻标题)进行分组,同一待处理文本信息(新闻标题)包含多个实体,可被分到多个文本小组中,即不同的文本小组可能包含相同的新闻内容,具体的文档分堆策略如下:
以任意一个待处理文本信息的划分方式为例,假设该待处理文本信息为目标待处理文本信息,那么判断这个目标待处理文本信息中是否包含实体信息,如果包含,就直接将目标待处理文本信息划分到实体信息对应的第一文本小组中。其中,实体信息是指一个具体的事物,比如“腾讯科技有限公司”以及“北京”等,比如“A市外国语学校4名女生美术馆办画展”中包含了实体信息“A市外国语学校”,于是可以划分到第一文本小组中。
第一文本小组中还可以包括子文本小组,每个子文本小组可以对应于具体的实体信息,比如第一个子文本小组是“A市外国语学校”相关新闻,第二个子文本小组是“腾讯”相关新闻,第三个子文本小组是“人物A”相关新闻,每个待处理文本信息通常包含至少一个实体信息,比如“人物A五十大寿人物B送对联事件相关新闻”中,既包含实体信息“人物A”,又包含实体信息“人物B”,因此,可能会被划分到两个不同的文本小组内。
其次,本发明实施例中,在对待处理文本信息集合中的每个待处理文本信息进行分组处理的过程中,首先,获取目标待处理文本信息,如果该目标待处理文本信息中包含实体信息,则将目标待处理文本信息划分至第一文本小组,第一文本小组属于M个文本小组中的一个文本小组,实体信息用于表示一个固定信息。通过上述方式,由于新闻数量巨大,为了提高事件抽取的效率,可以对待处理文本信息进行分类,从而得到多个不同的文本小组,再分别对每个文本小组中的待处理文本信息进行处理,这样可以降低数据处理量,从而提升数据处理效率。
可选地,在上述图3对应的第一个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第二个可选实施例中,获取目标待处理文本信息之后,还可以包括:
若目标待处理文本信息中不包含实体信息,则判断目标待处理文本信息中是否包含第一词语组合或第二词语组合,其中,第一词语组合包含地域信息和通名信息,第二词语组合包含地域信息和领域信息,地域信息用于表示地点名称,通名信息用于表示一类固定信息,领域信息用于表示一个领域;
若目标待处理文本信息中包含第一词语组合或第二词语组合,则将目标待处理文本信息划分至第二文本小组,其中,第二文本小组属于M个文本小组中的一个文本小组。
本实施例中,以任意一个待处理文本信息的划分方式为例,假设该待处理文本信息为目标待处理文本信息,那么判断这个目标待处理文本信息中是否包含实体信息,如果包含,就直接将目标待处理文本信息划分到实体信息对应的第一文本小组中。反之,如果目标待处理文本信息中不包含实体信息,那么需要判断目标待处理文本信息中是否包含第一词语组合或第二词语组合,这里的第一词语组合包含地域信息和通名信息,第二词语组合包含地域信息和领域信息,通名信息是指一类具体的事务,比如“老人”、“孕妇”、“教师”以及“警察”等。地域信息是指具体的地点名称,通常不一定包含在新闻的标题中,需要通过神经网络对标题进行地域识别才能得到。领域信息是指一个领域,比如“外卖”、“楼市”以及“通信”等。
比如“A市高速上一小车自燃交警发布夏季防自燃攻略”中包含地域信息“A市”和通名信息“交警”,即包含第一词语组合,因此,可以划分到第二文本小组中。
第二文本小组中还可以包括子文本小组,每个子文本小组可以对应于具体的第一词语组合或者第二词语组合,每个待处理文本信息通常包含至少一个第一词语组合或者第二词语组合,可能会被划分到两个不同的文本小组内。
再次,本发明实施例中,若目标待处理文本信息中不包含实体信息,则判断目标待处理文本信息中是否包含第一词语组合或第二词语组合,若目标待处理文本信息中包含第一词语组合或第二词语组合,则将目标待处理文本信息划分至第二文本小组,其中,第二文本小组属于M个文本小组中的一个文本小组。通过上述方式,经过一系列的实验可以得到,在新闻标题中不包含实体信息的时候,优先以第一词语组合所包含的地域信息和通名信息,或者第二词语组合所包含的地域信息和领域信息为主,这样可以使得每个文本小组分到相对均衡的新闻标题,提升事件挖掘效率。
可选地,在上述图3对应的第二个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第三个可选实施例中,判断目标待处理文本信息中是否包含第一词语组合或第二词语组合之后,还可以包括:
若目标待处理文本信息中不包含第一词语组合或第二词语组合,则判断目标待处理文本信息中是否包含地域信息;
若目标待处理文本信息中包含地域信息,则将目标待处理文本信息划分至第三文本小组,其中,第三文本小组属于M个文本小组中的一个文本小组。
本实施例中,以任意一个待处理文本信息的划分方式为例,假设该待处理文本信息为目标待处理文本信息,那么判断这个目标待处理文本信息中是否包含实体信息,如果不包含实体信息,则判断目标待处理文本信息中是否包含第一词语组合或第二词语组合,如果也不包含第一词语组合或第二词语组合,则继续判断是否包含地域信息,如果包含地域信息,那么就将目标待处理文本信息加入到第三文本小组。
但是一些情况下地域信息是指具体的地点名称,通常不一定包含在待处理文本信息中,需要通过神经网络对待处理文本信息进行地域识别才能得到。比如“荔枝公园寻梅狂拍季开始啦”中包含地域信息“荔枝公园”,因此,可以划分到第三文本小组中。
第三文本小组中还可以包括子文本小组,每个子文本小组可以对应于具体的地域信息,每个待处理文本信息通常包含至少一个地域信息,可能会被划分到不同的文本小组内。
进一步地,本发明实施例中,如果目标待处理文本信息中不包含第一词语组合或第二词语组合,则判断目标待处理文本信息中是否包含地域信息,如果目标待处理文本信息中包含地域信息,则将目标待处理文本信息划分至第三文本小组。通过上述方式,经过一系列的实验可以得到,在新闻标题中不包含实体信息、第一词语组合或者第二词语组合的时候,优先以地域信息为主,这样可以使得每个文本小组分到相对均衡的新闻标题,提升事件挖掘效率。
可选地,在上述图3对应的第三个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第四个可选实施例中,判断目标待处理文本信息中是否包含地域信息之后,还可以包括:
若目标待处理文本信息中不包含地域信息,则判断目标待处理文本信息中是否包含第三词语组合或第四词语组合,其中,第三词语组合包含通名信息和事件信息,第四词语组合包含领域信息和事件信息,事件信息用于表示一个事件;
若目标待处理文本信息中包含第三词语组合或第四词语组合,则将目标待处理文本信息划分至第四文本小组,其中,第四文本小组属于M个文本小组中的一个文本小组;
若目标待处理文本信息中不包含第三词语组合或第四词语组合,则从待处理文本信息集合中剔除目标待处理文本信息。
本实施例中,以任意一个待处理文本信息的划分方式为例,假设该待处理文本信息为目标待处理文本信息,那么判断这个目标待处理文本信息中是否包含实体信息,如果不包含实体信息,则判断目标待处理文本信息中是否包含第一词语组合或第二词语组合,如果也不包含第一词语组合或第二词语组合,则继续判断是否包含地域信息,如果不包含地域信息,那么再判断是否包含第三词语组合或第四词语组合,如果包含第三词语组合或第四词语组合,那么可以将目标待处理文本信息划分至第四文本小组,如果不包含第三词语组合或第四词语组合,则从待处理文本信息集合中剔除目标待处理文本信息。
其中,第三词语组合包含通名信息和事件信息,第四词语组合包含领域信息和事件信息。比如“股市持续下跌偶然上涨各界褒贬不一”中包含领域信息“股市”和事件信息“下跌”以及“上涨”,即包含第四词语组合,因此,可以划分到第四文本小组中。
第四文本小组中还可以包括子文本小组,每个子文本小组可以对应于具体的第三词语组合或者第四词语组合,每个待处理文本信息通常包含至少一个第三词语组合或者至少一个第四词语组合,可能会被划分到不同的文本小组内。
经过分组后,每组的待处理文本信息个数在100至2500左右不等,大大提高了事件挖掘的效率,同时,相同类型但不同实体信息的待处理文本信息也被分到了不同的文本小组中,而包含同一个实体信息的不同的待处理文本信息会被分到同一个文本小组中。
更进一步地,本发明实施例中,如果目标待处理文本信息中包含第三词语组合或第四词语组合,则将目标待处理文本信息划分至第四文本小组,如果目标待处理文本信息中不包含第三词语组合或第四词语组合,则从待处理文本信息集合中剔除目标待处理文本信息。通过上述方式,经过一系列的实验可以得到,在新闻标题中不包含实体信息、第一词语组合、第二词语组合或者地域信息的时候,优先以第三词语组合所包含的通名信息和事件信息,或者第四词语组合所包含的领域信息和事件信息为主,这样可以使得每个文本小组分到相对均衡的新闻标题,提升事件挖掘效率。
可选地,在上述图3对应的实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第五个可选实施例中,对目标文本小组进行分簇处理,得到文本结果簇,可以包括:
从目标文本小组中获取待选关键词集合,其中,待选关键词集合中包含至少一个待选关键词;
根据目标文本小组中的待处理文本信息数量,计算得到关键词个数;
按照关键词个数从待选择关键词集合中选择P个目标关键词,其中,P为大于或等于1的整数,且P表示关键词个数;
根据P个目标关键词生成至少一个文本结果簇。
本实施例中,将以M个文本小组中的任意一个文本小组为例进行分簇介绍,假设该文本小组为目标文本小组。在目标文本小组包含多个待处理文本信息,即多个新闻标题。首先需要从目标文本小组中获取待选关键词集合,可以采用术语频率逆文档频率(termfrequency inverse document frequency,TF-IDF)和/或文本排序(text rank)两种方法对目标文本小组中待处理文本信息的单词计算权重,从而得到待选关键词集合。
可以理解的是,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
textrank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。若待处理文本信息中存在若干个目标关键词相邻的情况,那么这些目标关键词可以构成一个关键短语。例如,在一篇介绍“支持向量机”的文章中,可以找到三个关键词,分别为支持、向量、机,通过关键短语提取,可以得到支持向量机。将每个待处理文本信息看成一个节点,若两个待处理文本信息之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度,从而计算得到的重要性最高的若干待处理文本信息可以当作摘要。
权重计算方法经常会和余弦相似度共同使用于向量空间模型中,用以判断两份文件之间的相似性。
但通常情况下待选关键词集合所包含的待选关键词数量非常多,所以还需要从待选关键词集合中再选择出权重在前P位的目标关键词。假设待选关键词集合有200个,然后根据目标文本小组中待处理文本信息的数量,计算后续需要获取的关键词个数。对关键词个数的计算,可以通过对待处理文本信息的数量和事件数量的分布数据分析得到。假设事件数量和待处理文本信息的数量满足幂率分布:
Y∝βX-r;
Y表示一个事件包括的关键词个数,β表示一个系数,X表示待处理文本信息的数量,r表示表示经验值。假设每个事件平均由6个关键词描述(考虑到同义词),则r取3,得到关键词个数的经验取值为:
P∝7N-3;
其中,P表示关键词个数,N表示待处理文本信息的数量。
假设P为5,则从待选择关键词集合中选择权重排序在前5位的关键词作为目标关键词。然后,对每个目标关键词构建一个特征向量,这个特征向量具有一个性质,两个向量的余弦相似度描述了两个目标关键词的共现程度。余弦相似度是通过计算两个向量的夹角余弦值来评估它们之间的相似度,余弦相似度将向量根据坐标值绘制到向量空间中,如最常见的二维空间。
最后根据这5个目标关键词的聚类情况生成至少一个文本结果簇,每个文本结果簇对应至少一个目标关键词。
需要说明的是,针对一个文本小组,目标关键词来自于待处理文本信息。针对目标关键词有以下两个假设,目标关键词列表能唯一确定这个事件,且目标关键词的特点是相互之间共现比较强,不同事件关键词共现较弱,频次高的单词不一定就是目标关键词。
其次,本发明实施例中,介绍了一种对目标文本小组进行分簇处理,得到文本结果簇的方法,首先从目标文本小组中获取待选关键词集合,然后根据目标文本小组中的待处理文本信息数量,计算得到关键词个数,再按照关键词个数从待选择关键词集合中选择P个目标关键词,最后根据P个目标关键词生成至少一个文本结果簇。通过上述方式,对关键词聚类并提取事件,且聚类关键词的特征向量依据待处理文本信息生成,从而提升了关键词聚类的可靠性。
可选地,在上述图3对应的第五个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第六个可选实施例中,根据P个目标关键词生成至少一个文本结果簇,可以包括:
根据P个目标关键词生成P个特征向量,其中,每个目标关键词对应于一个特征向量,每个特征向量中包含特征元素,特征元素用于表示目标关键词在待处理文本信息中的出现情况;
根据P个特征向量确定聚类个数;
根据聚类个数生成所对应的文本结果簇。
本实施例中,介绍了一种文本结果簇的方法,首先,根据P个目标关键词生成P个特征向量,假设P为5,即存在5个目标关键词,且对应于5组关键词的特征向量。每个特征向量中包含至少一个特征元素。
为了便于介绍,请参阅表1,表1为目标文本小组中待处理文本信息的一个示意。
表1
基于表1所示的目标文本小组中的待处理文本信息,假设目标关键词有5个,请参阅表2,表2是构建的关键词特征向量示意。
表2
目标关键词 | 1号文本 | 2号文本 | 3号文本 | 4号文本 | 5号文本 | 6号文本 |
贩子 | 1 | 1 | 1 | 0 | 0 | 0 |
打掉 | 1 | 1 | 1 | 0 | 0 | 0 |
警察 | 1 | 1 | 1 | 1 | 1 | 1 |
女司机 | 0 | 0 | 0- | 1 | 1 | 1 |
逆行 | 0 | 0 | 0 | 1 | 1 | 1 |
可以理解的是,上述目标文本小组中待处理文本信息的数量仅为一个示意,在实际应用中,一个文本小组中待处理文本信息的数量可以在100至2000。而目标关键词的数量也可以是其他数值,此处仅为一个示意。
每个目标关键词生成一个特征向量,比如“贩子”的特征向量为“111000”,“女司机”的特征向量为“000111”。特征向量的维度为待处理文本信息的数量,每个特征向量的维度对应一个待处理文本信息,当目标关键词在待处理文本信息中出现时,特性向量在该维度的值为1,反之为0。“1”和“0”均为特征元素。
最后基于目标关键词的特征向量,对P个目标关键词进行无监督聚类,从而生成至少一个文本结果簇。其中,无监督聚类的方法可以是硬聚类K-means算法,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量最优分类,使得评价指标最小,算法采用误差平方和准则函数作为聚类准则函数。
再次,本发明实施例中,提供了一种获取文本结果簇的方法,首先根据P个目标关键词生成P个特征向量,然后根据P个特征向量确定聚类个数,最后根据聚类个数生成所对应的文本结果簇。通过上述方式,能够根据关键词的特征向量确定聚类个数,从而提升方案的可行性。
可选地,在上述图3对应的第六个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第七个可选实施例中,根据P个特征向量确定聚类个数,可以包括:
获取预设聚类个数;
根据预设聚类个数以及P个特征向量,计算得到轮廓系数;
根据预设聚类个数计算各个预设聚类簇之间的平均相似度;
根据预设聚类个数计算每个预设聚类簇内待处理文本信息的相似度;
根据各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数;
根据轮廓系数以及离散系数,计算簇数得分;
若簇数得分满足簇数选取条件,则将预设聚类个数确定为聚类个数。
本实施例中,介绍了一种确定聚类个数的具体方式,基于目标关键词的特征向量,对P个关键词进行无监督聚类,无监督聚类的目的在于把相似的东西聚在一起,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。聚类算法一般有五种方法,最主要的是划分方法和层次方法两种。划分聚类算法通过优化评价函数把数据集分割为A个部分,需要A作为输人参数。典型的分割聚类算法有K-means聚类算法,K-medoids聚类算法以及基于随机选择的聚类(CLARANS)算法。层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,典型的分层聚类算法有平衡迭代削减聚类(BIRCH)算法、基于密度的聚类(DBSCAN)算法和使用代表点的聚类(CURE)算法等。
下面以K-means聚类算法为例进行说明。聚类过程中尝试多个预设聚类个数的结果,对于任意的预设聚类个数,聚类结果的每个预设聚类簇中包含一个或多个目标关键词。对每个待处理文本信息而言,通过选取与待处理文本信息待处理文本信息相似度最高的簇作为预设聚类簇,待处理文本信息与预设聚类簇的相似度与待处理文本信息包含预设聚类簇中目标关键词的数目成正比。通过计算每个预设聚类簇中目标关键词在类中和类内的分布,以及待处理文本信息的情况,为每个预设聚类个数打分,然后选取簇数得分最高的预设聚类个数,从而动态的选取最优的预设聚类个数作为最终的聚类个数。
对于设定的预设聚类个数,首先需要计算该预设聚类个数所对应的轮廓系数,此外,还需要计算预设聚类个数所对应的离散系数,结合轮廓系数和离散系数可以得到簇数得分,簇数得分越高,表明所设定的预设聚类个数越贴近最优聚类个数。
进一步地,本发明实施例中,在确定聚类个数的时候需要采用假设法,也就是先设定预设聚类个数,然后计算预设聚类个数所对应的轮廓系数和离散系数,最后根据轮廓系数和离散系数计算得到簇数得分。如果簇数得分满足簇数选取条件,则将预设聚类个数确定为聚类个数,反之,如果不满足簇数选取条件,则可以对下一个预设聚类个数进行判断。通过上述方式,为确定聚类个数提供了具体的实现方式,考虑到不同预设聚类个数的簇数得分情况,能够选择更加合理的聚类个数,从而提升方案的可靠性。
可选地,在上述图3对应的第七个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第八个可选实施例中,根据预设聚类个数以及P个特征向量,计算得到轮廓系数,可以包括:
采用如下方式计算轮廓系数:
其中,表示在预设聚类个数下得到的轮廓系数,P表示目标关键词的数目,k表示预设聚类个数,i表示第i个特征向量,a(k,i)表示在预设聚类个数为k时第i个特征向量到同一簇内其他特征向量的平均距离,b(k,i)表示在预设聚类个数为k时第i个特征向量到其他簇所有特征向量的平均距离;
根据预设聚类个数计算各个预设聚类簇之间的平均相似度,包括:
采用如下方式计算各个预设聚类簇之间的平均相似度:
其中,表示第i个预设聚类簇与其他预设聚类簇之间的平均相似度,Pi表示第i个预设聚类簇中待处理文本信息的数目,set(keywordi)表示第i个预设聚类簇的关键词列表,set(sentencej)表示第i个预设聚类簇的第j个待处理文本信息的词语列表,∩表示词语列表的交集,Len()表示词语列表中的词语个数;
根据预设聚类个数计算每个预设聚类簇内待处理文本信息的相似度,可以包括:
采用如下方式计算预设聚类簇内待处理文本信息的相似度:
其中,si表示第i个预设聚类簇待处理文本信息的相似度;
根据各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数,包括:
采用如下方式计算离散系数:
根据轮廓系数以及离散系数,计算簇数得分,可以包括:
采用如下方式计算簇数得分:
其中,scorek表示表示在预设聚类个数下得到的簇数得分。
本实施例中,通过下面介绍当方法动态选取最优的预设聚类个数作为最终的聚类个数。
具体地,可以计算目标关键词聚集和离散程度的轮廓系数。即采用如下方式计算轮廓系数:
其中,表示在预设聚类个数下得到的轮廓系数,P表示目标关键词的数目,k表示预设聚类个数,i表示第i个特征向量,a(k,i)表示在预设聚类个数为k时第i个特征向量到同一簇内其他特征向量的平均距离,b(k,i)表示在预设聚类个数为k时第i个特征向量到其他簇所有特征向量的平均距离;
可以计算待处理文本信息质量的匹配分数,即先采用如下方式计算各个预设聚类簇之间的平均相似度:
其中,表示第i个预设聚类簇与其他预设聚类簇之间的平均相似度,Pi表示第i个预设聚类簇中待处理文本信息的数目,set(keywordi)表示第i个预设聚类簇的关键词列表,set(sentencej)表示第i个预设聚类簇的第j个待处理文本信息的词语列表,∩表示词语列表的交集,Len()表示词语列表中的词语个数;
然后采用如下方式计算预设聚类簇内待处理文本信息的相似度:
其中,si表示第i个预设聚类簇待处理文本信息的相似度;
最后,结合各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,可以计算离散系数,即采用如下方式计算离散系数:
将轮廓系数以及离散系数加和,从而得到簇数得分,即采用如下方式计算簇数得分:
其中,scorek表示表示在预设聚类个数下得到的簇数得分。
更进一步地,本发明实施例中,提供了计算轮廓系数的具体方式,计算离散系数的具体方式,以及计算簇数得分的具体方式。通过上述方式,能够为方案的实现提供具体依据,从而保证方案的可行性和可操作性。
可选地,在上述图3对应的第六个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第九个可选实施例中,根据P个特征向量确定聚类个数,可以包括:
根据P个特征向量生成Q个待选择文本簇,其中,每个待选择文本簇中包含至少一个待处理文本信息,Q为大于或等于1的整数;
1)获取Q个待选择文本簇中一个待选择文本簇的待处理文本信息数量;
2)若待处理文本信息数量大于或等于数量阈值,则在上一个聚类计数值上增加1,得到本次聚类计数值;
重复执行步骤1)和步骤2),直至Q个待选择文本簇中的待处理文本信息数量均与数量阈值比对完成,根据本次聚类计数值确定聚类个数。
本实施例中,介绍了另一种确定聚类个数的具体方式。除了可以采用K-means聚类算法,还可以采用其他距离方式,比如基于密度的聚类(DBSCAN)算法。使用密度聚类时将直接得到聚类结果,不需要选择预设聚类个数,使用DBSCAN算法时直接得到聚类结果,即Q个待选择文本簇。假设得到3个待选择文本簇,且每个待选择文本簇中包含至少一个待处理文本信息,假设第一个待选择文本簇中待处理文本信息的数量为35个,第二个待选择文本簇中待处理文本信息的数量为50个,第三个待选择文本簇中待处理文本信息的数量为8个,且假设数量阈值为10个。于是依次对待选择文本簇进行选择,先选择第一个待选择文本簇,35个待处理文本信息的数量大于数量阈值,因此,第一个待选择文本簇满足条件,那么聚类计数值由初始值0增加1,得到本次聚类计数值为1。然后,选择下一个待选择文本簇,如第二个待选择文本簇,显然,50个待处理文本信息的数量也大于数量阈值,因此,第二个待选择文本簇也满足条件,那么聚类计数值在1的基础上再增加1,得到本次聚类计数值为2。最后,选择第三个待选择文本簇,8个待处理文本信息的数量小于数量阈值,因此,第三个待选择文本簇不满足条件,那么则不对本次聚类计数值做任何处理。最后得到的本次聚类计数值为2,也就是说,聚类个数可以设定为2。
进一步地,本发明实施例中,介绍了另一种确定聚类个数的方式,除了假设法设定预设聚类个数以外,还可以生成若干个待选择文本簇,然后依次对每个待选择文本簇进行筛选,如果待处理文本信息数量大于或等于数量阈值,那认为是合格的待选择文本簇。通过上述方式,为聚类个数的确定提供了另一个可行的方式,从而提升了方案的可行性和可操作性。且该方式也具有较高的可信度,由此增加了方案的灵活性和实用性。
可选地,在上述图3以及图3对应的第一个至第九个实施例中任一项的基础上,本发明实施例提供的基于文本信息的事件生成方法第十个可选实施例中,根据文本结果簇生成对应的第一事件之后,还可以包括:
获取第二事件;
根据第一事件和第二事件计算事件相似度,其中,第一事件对应于至少一个第一文本信息,第二事件对应于至少一个第二文本信息;
若相似度大于或等于预设门限,则确定第二事件与第一事件为相似事件,并将第二事件与第一事件进行合并;
若相似度小于预设门限,则为第二事件分配标识,其中,不同的标识用于表示不同的事件。
本实施例中,在事件生成装置生成了第一事件之后,继续生成第二事件,因此,这里的第一事件即为历史事件,第二事件为新加入的事件,每个事件对应于多个文本信息,比如第一事件为“国庆节全国人民观看阅兵仪式的相关新闻”,第一事件中包括200条相关文本信息,即第一文本信息。第二事件为“国庆节天安门前万人观看升旗的相关新闻”,第二事件中包括300条相关文本信息,即第二文本信息。为了便于理解,请参阅图4,图4为本发明实施例中增量更新事件的一个实施例示意图,如图所示,由于事件是根据动态新闻流生成的,因此,前后两批数据之间可能会有部分文本信息相同,即第一文本信息和第二文本信息有部分重合,基动态增量新闻流生成的新事件可能已经在历史事件中存在,需要对新生成的事件进行融合并去重。
请参阅图5,图5为本发明实施例中事件融合的一个实施例示意图,如图所示,第一事件与第二事件中会存在一部分重叠的文本信息,即图5中的阴影部分,这部分重叠区域即可以表示为第一事件和第二事件计算事件相似度,如果该相似度大于或等于预设门限,那么可以认为第一事件和第二事件属于相似事件,也可以将这两个事件进行融合,从而分配同一个事件的标识,比如标识为10265。如果相似度小于预设门限,则对新加入的第二事件分配新的标识,假设历史事件已经有标识1至10265,那么第二事件的标识不同于1至10265中任意一个标识,比如为10266。
再进一步地,本发明实施例中,事件生成装置根据文本结果簇生成对应的第一事件之后,还可以获取第二事件,然后根据第一事件和第二事件计算事件相似度,若相似度大于或等于预设门限,则确定第二事件与第一事件为相似事件,并将第二事件与第一事件进行合并,若相似度小于预设门限,则为第二事件分配标识,其中,不同的标识用于表示不同的事件。通过上述方式,能够根据文本信息的重合度对事件进行融合,从而避免相似度较大的事件被重复存储,一方面有利于提升存储资源的利用率,另一方面,在展示事件的时候可以更准确的定位到与该事件相关的新闻内容。
可选地,在上述图3对应的第十个实施例的基础上,本发明实施例提供的基于文本信息的事件生成方法第十一个可选实施例中,根据第一事件和第二事件计算事件相似度,可以包括:
采用如下方式计算事件相似度:
其中,α表示事件相似度,A表示第一事件对应于第一文本信息的个数,B表示第二事件对应于第二文本信息的个数。
本实施例中,介绍了一种计算两个事件相似度的方法,当两个事件的相似度大于或等于预设门限时,认为两个事件为同一事件,并可以将新的事件融合更新到历史的事件中,事件之间的相似度可以通过两个事件共有的文本信息个数和分别包含的文本信息个数计算得到,假设相似度的预设门限为60%,第一事件对应于第一文本信息的个数为200,第二事件对应于第二文本信息的个数为300,第一文本信息和第二文本信息重合的个数为100,则利用如下公式:
=50%
50%小于预设门限60%,因此,认为第二事件与第一事件是不同的事件,需要给第二事件分配一个新的标识。
再进一步地,本发明实施例中,提供了一种计算事件相似度的方式,通过两个事件共有的文本信息个数和分别包含的文本信息个数,可以计算得到事件相似度。通过上述方式,为事件相似度的计算提供了一种可行的方法,从而提升了方案的可操作性和可行性。
下面对本发明中的事件生成装置进行详细描述,请参阅图6,图6为本发明实施例中事件生成装置一个实施例示意图,事件生成装置20包括:
获取模块201,用于获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
处理模块202,用于对所述获取模块201获取的所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
所述处理模块202,还用于对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;
生成模块203,用于根据所述处理模块202处理得到的所述文本结果簇生成对应的第一事件。
本实施例中,获取模块201获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数,处理模块202对所述获取模块201获取的所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数,所述处理模块202,还用于对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词,生成模块203根据所述处理模块202处理得到的所述文本结果簇生成对应的第一事件。
本发明实施例中,提供了一种事件生成装置,首先获取待处理文本信息集合,然后对待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,每个文本小组中的待处理文本信息对应于相同的词语类别,再对目标文本小组进行分簇处理,得到文本结果簇,其中,目标文本小组为M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词,最后根据文本结果簇生成对应的第一事件。通过上述方式,在待处理文本信息集合包含大量待处理文本信息的情况下,能够根据词语类别对这些待处理文本信息先进行分组,然后进行聚类处理,避免了同时处理大量的待处理文本信息,同时提升了聚类的可信度,一方面节省了处理资源和计算资源,提升事件挖掘效率,另一方面,对分组后的待处理文本信息进行聚类,可以有效地增强事件生成的准确度。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于获取目标待处理文本信息,其中,所述目标待处理文本信息属于所述待处理文本信息集合中的任意一个待处理文本信息;
若所述目标待处理文本信息中包含实体信息,则将所述目标待处理文本信息划分至第一文本小组,其中,所述第一文本小组属于所述M个文本小组中的一个文本小组,所述实体信息用于表示一个固定信息。
其次,本发明实施例中,在对待处理文本信息集合中的每个待处理文本信息进行分组处理的过程中,首先,获取目标待处理文本信息,如果该目标待处理文本信息中包含实体信息,则将目标待处理文本信息划分至第一文本小组,第一文本小组属于M个文本小组中的一个文本小组,实体信息用于表示一个固定信息。通过上述方式,由于新闻数量巨大,为了提高事件抽取的效率,可以对待处理文本信息进行分类,从而得到多个不同的文本小组,再分别对每个文本小组中的待处理文本信息进行处理,这样可以降低数据处理量,从而提升数据处理效率。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于获取目标待处理文本信息之后,若所述目标待处理文本信息中不包含所述实体信息,则判断所述目标待处理文本信息中是否包含第一词语组合或第二词语组合,其中,所述第一词语组合包含地域信息和通名信息,所述第二词语组合包含地域信息和领域信息,所述地域信息用于表示地点名称,所述通名信息用于表示一类固定信息,所述领域信息用于表示一个领域;
若所述目标待处理文本信息中包含所述第一词语组合或所述第二词语组合,则将所述目标待处理文本信息划分至第二文本小组,其中,所述第二文本小组属于所述M个文本小组中的一个文本小组。
再次,本发明实施例中,若目标待处理文本信息中不包含实体信息,则判断目标待处理文本信息中是否包含第一词语组合或第二词语组合,若目标待处理文本信息中包含第一词语组合或第二词语组合,则将目标待处理文本信息划分至第二文本小组,其中,第二文本小组属于M个文本小组中的一个文本小组。通过上述方式,经过一系列的实验可以得到,在新闻标题中不包含实体信息的时候,优先以第一词语组合所包含的地域信息和通名信息,或者第二词语组合所包含的地域信息和领域信息为主,这样可以使得每个文本小组分到相对均衡的新闻标题,提升事件挖掘效率。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于判断所述目标待处理文本信息中是否包含第一词语组合或第二词语组合之后,若所述目标待处理文本信息中不包含所述第一词语组合或所述第二词语组合,则判断所述目标待处理文本信息中是否包含所述地域信息;
若所述目标待处理文本信息中包含所述地域信息,则将所述目标待处理文本信息划分至第三文本小组,其中,所述第三文本小组属于所述M个文本小组中的一个文本小组。
进一步地,本发明实施例中,如果目标待处理文本信息中不包含第一词语组合或第二词语组合,则判断目标待处理文本信息中是否包含地域信息,如果目标待处理文本信息中包含地域信息,则将目标待处理文本信息划分至第三文本小组。通过上述方式,经过一系列的实验可以得到,在新闻标题中不包含实体信息、第一词语组合或者第二词语组合的时候,优先以地域信息为主,这样可以使得每个文本小组分到相对均衡的新闻标题,提升事件挖掘效率。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于判断所述目标待处理文本信息中是否包含所述地域信息之后,若所述目标待处理文本信息中不包含所述地域信息,则判断所述目标待处理文本信息中是否包含第三词语组合或第四词语组合,其中,所述第三词语组合包含所述通名信息和事件信息,所述第四词语组合包含所述领域信息和所述事件信息,所述所述事件信息用于表示一个事件;
若所述目标待处理文本信息中包含所述第三词语组合或所述第四词语组合,则将所述目标待处理文本信息划分至第四文本小组,其中,所述第四文本小组属于所述M个文本小组中的一个文本小组;
若所述目标待处理文本信息中不包含所述第三词语组合或所述第四词语组合,则从所述待处理文本信息集合中剔除所述目标待处理文本信息。
更进一步地,本发明实施例中,如果目标待处理文本信息中包含第三词语组合或第四词语组合,则将目标待处理文本信息划分至第四文本小组,如果目标待处理文本信息中不包含第三词语组合或第四词语组合,则从待处理文本信息集合中剔除目标待处理文本信息。通过上述方式,经过一系列的实验可以得到,在新闻标题中不包含实体信息、第一词语组合、第二词语组合或者地域信息的时候,优先以第三词语组合所包含的通名信息和事件信息,或者第四词语组合所包含的领域信息和事件信息为主,这样可以使得每个文本小组分到相对均衡的新闻标题,提升事件挖掘效率。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于从所述目标文本小组中获取待选关键词集合,其中,所述待选关键词集合中包含至少一个待选关键词;
根据所述目标文本小组中的待处理文本信息数量,计算得到关键词个数;
按照所述关键词个数从所述待选择关键词集合中选择P个目标关键词,其中,所述P为大于或等于1的整数,且所述P表示所述关键词个数;
根据所述P个目标关键词生成至少一个所述文本结果簇。
其次,本发明实施例中,介绍了一种对目标文本小组进行分簇处理,得到文本结果簇的方法,首先从目标文本小组中获取待选关键词集合,然后根据目标文本小组中的待处理文本信息数量,计算得到关键词个数,再按照关键词个数从待选择关键词集合中选择P个目标关键词,最后根据P个目标关键词生成至少一个文本结果簇。通过上述方式,对关键词聚类并提取事件,且聚类关键词的特征向量依据待处理文本信息生成,从而提升了关键词聚类的可靠性。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于根据所述P个目标关键词生成P个特征向量,其中,每个目标关键词对应于一个特征向量,每个特征向量中包含特征元素,所述特征元素用于表示目标关键词在待处理文本信息中的出现情况;
根据所述P个特征向量确定聚类个数;
根据所述聚类个数生成所对应的所述文本结果簇。
再次,本发明实施例中,提供了一种获取文本结果簇的方法,首先根据P个目标关键词生成P个特征向量,然后根据P个特征向量确定聚类个数,最后根据聚类个数生成所对应的文本结果簇。通过上述方式,能够根据关键词的特征向量确定聚类个数,从而提升方案的可行性。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于获取预设聚类个数;
根据所述预设聚类个数以及所述P个特征向量,计算得到轮廓系数;
根据所述预设聚类个数计算各个预设聚类簇之间的平均相似度;
根据所述预设聚类个数计算每个所述预设聚类簇内待处理文本信息的相似度;
根据所述各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数;
根据所述轮廓系数以及所述离散系数,计算簇数得分;
若所述簇数得分满足簇数选取条件,则将所述预设聚类个数确定为所述聚类个数。
进一步地,本发明实施例中,在确定聚类个数的时候需要采用假设法,也就是先设定预设聚类个数,然后计算预设聚类个数所对应的轮廓系数和离散系数,最后根据轮廓系数和离散系数计算得到簇数得分。如果簇数得分满足簇数选取条件,则将预设聚类个数确定为聚类个数,反之,如果不满足簇数选取条件,则可以对下一个预设聚类个数进行判断。通过上述方式,为确定聚类个数提供了具体的实现方式,考虑到不同预设聚类个数的簇数得分情况,能够选择更加合理的聚类个数,从而提升方案的可靠性。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于采用如下方式计算所述轮廓系数:
其中,所述表示在所述预设聚类个数下得到的所述轮廓系数,所述P表示所述目标关键词的数目,所述k表示所述预设聚类个数,所述i表示第i个特征向量,所述a(k,i)表示在所述预设聚类个数为k时第i个特征向量到同一簇内其他特征向量的平均距离,所述b(k,i)表示在所述预设聚类个数为k时第i个特征向量到其他簇所有特征向量的平均距离;
采用如下方式计算所述各个预设聚类簇之间的平均相似度:
其中,所述表示第i个预设聚类簇与其他预设聚类簇之间的平均相似度,所述Pi表示所述第i个预设聚类簇中待处理文本信息的数目,所述set(keywordi)表示所述第i个预设聚类簇的关键词列表,所述set(sentencej)表示所述第i个预设聚类簇的第j个待处理文本信息的词语列表,所述∩表示词语列表的交集,所述Len()表示所述词语列表中的词语个数;
采用如下方式计算所述预设聚类簇内待处理文本信息的相似度:
其中,所述si表示所述第i个预设聚类簇待处理文本信息的相似度;
采用如下方式计算所述离散系数:
所述根据所述轮廓系数以及所述离散系数,计算簇数得分,包括:
采用如下方式计算所述簇数得分:
其中,所述scorek表示表示在所述预设聚类个数下得到的所述簇数得分。
更进一步地,本发明实施例中,提供了计算轮廓系数的具体方式,计算离散系数的具体方式,以及计算簇数得分的具体方式。通过上述方式,能够为方案的实现提供具体依据,从而保证方案的可行性和可操作性。
可选地,在上述图6所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述处理模块202,具体用于根据所述P个特征向量生成Q个待选择文本簇,其中,每个待选择文本簇中包含至少一个待处理文本信息,所述Q为大于或等于1的整数;
1)获取Q个待选择文本簇中一个待选择文本簇的待处理文本信息数量;
2)若所述待处理文本信息数量大于或等于数量阈值,则在上一个聚类计数值上增加1,得到本次聚类计数值;
重复执行步骤1)和步骤2),直至所述Q个待选择文本簇中的待处理文本信息数量均与所述数量阈值比对完成,根据所述本次聚类计数值确定所述聚类个数。
进一步地,本发明实施例中,介绍了另一种确定聚类个数的方式,除了假设法设定预设聚类个数以外,还可以生成若干个待选择文本簇,然后依次对每个待选择文本簇进行筛选,如果待处理文本信息数量大于或等于数量阈值,那认为是合格的待选择文本簇。通过上述方式,为聚类个数的确定提供了另一个可行的方式,从而提升了方案的可行性和可操作性。且该方式也具有较高的可信度,由此增加了方案的灵活性和实用性。
可选地,在上述图6所对应的实施例的基础上,请参阅图7,本发明实施例提供的事件生成装置20的另一实施例中,所述事件生成装置20还包括计算模块204、合并模块205以及分配模块206;
所述获取模块201,还用于所述生成模块203根据所述文本结果簇生成对应的第一事件之后,获取第二事件;
所述计算模块204,用于根据所述获取模块201获取到的所述第一事件和所述第二事件计算事件相似度,其中,所述第一事件对应于至少一个第一文本信息,所述第二事件对应于至少一个第二文本信息;
所述合并模块205,用于若所述计算模块204计算得到的所述相似度大于或等于预设门限,则确定所述第二事件与所述第一事件为相似事件,并将所述第二事件与所述第一事件进行合并;
所述分配模块206,用于若所述计算模块204计算得到的所述相似度小于所述预设门限,则为所述第二事件分配标识,其中,不同的标识用于表示不同的事件。
再进一步地,本发明实施例中,事件生成装置根据文本结果簇生成对应的第一事件之后,还可以获取第二事件,然后根据第一事件和第二事件计算事件相似度,若相似度大于或等于预设门限,则确定第二事件与第一事件为相似事件,并将第二事件与第一事件进行合并,若相似度小于预设门限,则为第二事件分配标识,其中,不同的标识用于表示不同的事件。通过上述方式,能够根据文本信息的重合度对事件进行融合,从而避免相似度较大的事件被重复存储,一方面有利于提升存储资源的利用率,另一方面,在展示事件的时候可以更准确的定位到与该事件相关的新闻内容。
可选地,在上述图7所对应的实施例的基础上,本发明实施例提供的事件生成装置20的另一实施例中,
所述计算模块204,用于采用如下方式计算所述事件相似度:
其中,所述α表示所述事件相似度,所述A表示所述第一事件对应于所述第一文本信息的个数,所述B表示所述第二事件对应于所述第二文本信息的个数。
再进一步地,本发明实施例中,提供了一种计算事件相似度的方式,通过两个事件共有的文本信息个数和分别包含的文本信息个数,可以计算得到事件相似度。通过上述方式,为事件相似度的计算提供了一种可行的方法,从而提升了方案的可操作性和可行性。
图8是本发明实施例提供的一种服务器结构示意图,该事件生成装置300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在事件生成装置300上执行存储介质330中的一系列指令操作。
事件生成装置300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。
本发明实施例中,CPU 322用于执行如下步骤:
获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
对所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;
根据所述文本结果簇生成对应的第一事件。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
获取目标待处理文本信息,其中,所述目标待处理文本信息属于所述待处理文本信息集合中的任意一个待处理文本信息;
若所述目标待处理文本信息中包含实体信息,则将所述目标待处理文本信息划分至第一文本小组,其中,所述第一文本小组属于所述M个文本小组中的一个文本小组,所述实体信息用于表示一个固定信息。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
若所述目标待处理文本信息中不包含所述实体信息,则判断所述目标待处理文本信息中是否包含第一词语组合或第二词语组合,其中,所述第一词语组合包含地域信息和通名信息,所述第二词语组合包含地域信息和领域信息,所述地域信息用于表示地点名称,所述通名信息用于表示一类固定信息,所述领域信息用于表示一个领域;
若所述目标待处理文本信息中包含所述第一词语组合或所述第二词语组合,则将所述目标待处理文本信息划分至第二文本小组,其中,所述第二文本小组属于所述M个文本小组中的一个文本小组。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
若所述目标待处理文本信息中不包含所述第一词语组合或所述第二词语组合,则判断所述目标待处理文本信息中是否包含所述地域信息;
若所述目标待处理文本信息中包含所述地域信息,则将所述目标待处理文本信息划分至第三文本小组,其中,所述第三文本小组属于所述M个文本小组中的一个文本小组。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
若所述目标待处理文本信息中不包含所述地域信息,则判断所述目标待处理文本信息中是否包含第三词语组合或第四词语组合,其中,所述第三词语组合包含所述通名信息和事件信息,所述第四词语组合包含所述领域信息和所述事件信息,所述所述事件信息用于表示一个事件;
若所述目标待处理文本信息中包含所述第三词语组合或所述第四词语组合,则将所述目标待处理文本信息划分至第四文本小组,其中,所述第四文本小组属于所述M个文本小组中的一个文本小组;
若所述目标待处理文本信息中不包含所述第三词语组合或所述第四词语组合,则从所述待处理文本信息集合中剔除所述目标待处理文本信息。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
从所述目标文本小组中获取待选关键词集合,其中,所述待选关键词集合中包含至少一个待选关键词;
根据所述目标文本小组中的待处理文本信息数量,计算得到关键词个数;
按照所述关键词个数从所述待选择关键词集合中选择P个目标关键词,其中,所述P为大于或等于1的整数,且所述P表示所述关键词个数;
根据所述P个目标关键词生成至少一个所述文本结果簇。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
根据所述P个目标关键词生成P个特征向量,其中,每个目标关键词对应于一个特征向量,每个特征向量中包含特征元素,所述特征元素用于表示目标关键词在待处理文本信息中的出现情况;
根据所述P个特征向量确定聚类个数;
根据所述聚类个数生成所对应的所述文本结果簇。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
获取预设聚类个数;
根据所述预设聚类个数以及所述P个特征向量,计算得到轮廓系数;
根据所述预设聚类个数计算各个预设聚类簇之间的平均相似度;
根据所述预设聚类个数计算每个所述预设聚类簇内待处理文本信息的相似度;
根据所述各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数;
根据所述轮廓系数以及所述离散系数,计算簇数得分;
若所述簇数得分满足簇数选取条件,则将所述预设聚类个数确定为所述聚类个数。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
采用如下方式计算所述轮廓系数:
其中,所述表示在所述预设聚类个数下得到的所述轮廓系数,所述P表示所述目标关键词的数目,所述k表示所述预设聚类个数,所述i表示第i个特征向量,所述a(k,i)表示在所述预设聚类个数为k时第i个特征向量到同一簇内其他特征向量的平均距离,所述b(k,i)表示在所述预设聚类个数为k时第i个特征向量到其他簇所有特征向量的平均距离;
采用如下方式计算所述各个预设聚类簇之间的平均相似度:
其中,所述表示第i个预设聚类簇与其他预设聚类簇之间的平均相似度,所述Pi表示所述第i个预设聚类簇中待处理文本信息的数目,所述set(keywordi)表示所述第i个预设聚类簇的关键词列表,所述set(sentencej)表示所述第i个预设聚类簇的第j个待处理文本信息的词语列表,所述∩表示词语列表的交集,所述Len()表示所述词语列表中的词语个数;
采用如下方式计算所述预设聚类簇内待处理文本信息的相似度:
其中,所述si表示所述第i个预设聚类簇待处理文本信息的相似度;
采用如下方式计算所述离散系数:
所述根据所述轮廓系数以及所述离散系数,计算簇数得分,包括:
采用如下方式计算所述簇数得分:
其中,所述scorek表示表示在所述预设聚类个数下得到的所述簇数得分。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
根据所述P个特征向量生成Q个待选择文本簇,其中,每个待选择文本簇中包含至少一个待处理文本信息,所述Q为大于或等于1的整数;
1)获取Q个待选择文本簇中一个待选择文本簇的待处理文本信息数量;
2)若所述待处理文本信息数量大于或等于数量阈值,则在上一个聚类计数值上增加1,得到本次聚类计数值;
重复执行步骤1)和步骤2),直至所述Q个待选择文本簇中的待处理文本信息数量均与所述数量阈值比对完成,根据所述本次聚类计数值确定所述聚类个数。
可选地,本发明实施例中CPU 322还用于执行如下步骤:
获取第二事件;
根据所述第一事件和所述第二事件计算事件相似度,其中,所述第一事件对应于至少一个第一文本信息,所述第二事件对应于至少一个第二文本信息;
若所述相似度大于或等于预设门限,则确定所述第二事件与所述第一事件为相似事件,并将所述第二事件与所述第一事件进行合并;
若所述相似度小于所述预设门限,则为所述第二事件分配标识,其中,不同的标识用于表示不同的事件。
可选地,本发明实施例中CPU 322具体用于执行如下步骤:
采用如下方式计算所述事件相似度:
其中,所述α表示所述事件相似度,所述A表示所述第一事件对应于所述第一文本信息的个数,所述B表示所述第二事件对应于所述第二文本信息的个数。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种基于文本信息的事件生成方法,其特征在于,包括:
获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
对所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;所述对目标文本小组进行分簇处理,得到文本结果簇,包括:从所述目标文本小组中获取待选关键词集合,其中,所述待选关键词集合中包含至少一个待选关键词;根据所述目标文本小组中的待处理文本信息数量,计算得到关键词个数;按照所述关键词个数从所述待选择关键词集合中选择P个目标关键词,其中,所述P为大于或等于1的整数,且所述P表示所述关键词个数;根据所述P个目标关键词生成至少一个所述文本结果簇;所述根据所述P个目标关键词生成至少一个所述文本结果簇,包括:根据所述P个目标关键词生成P个特征向量,其中,每个目标关键词对应于一个特征向量,每个特征向量中包含特征元素,所述特征元素用于表示目标关键词在待处理文本信息中的出现情况;根据所述P个特征向量确定聚类个数;根据所述聚类个数生成所对应的所述文本结果簇;所述根据所述P个特征向量确定聚类个数,包括:获取预设聚类个数;根据所述预设聚类个数以及所述P个特征向量,计算得到轮廓系数;根据所述预设聚类个数计算各个预设聚类簇之间的平均相似度;根据所述预设聚类个数计算每个所述预设聚类簇内待处理文本信息的相似度;根据所述各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数;根据所述轮廓系数以及所述离散系数,计算簇数得分;若所述簇数得分满足簇数选取条件,则将所述预设聚类个数确定为所述聚类个数;
根据所述文本结果簇生成对应的第一事件。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,包括:
获取目标待处理文本信息,其中,所述目标待处理文本信息属于所述待处理文本信息集合中的任意一个待处理文本信息;
若所述目标待处理文本信息中包含实体信息,则将所述目标待处理文本信息划分至第一文本小组,其中,所述第一文本小组属于所述M个文本小组中的一个文本小组,所述实体信息用于表示一个固定信息。
3.根据权利要求2所述的方法,其特征在于,所述获取目标待处理文本信息之后,所述方法还包括:
若所述目标待处理文本信息中不包含所述实体信息,则判断所述目标待处理文本信息中是否包含第一词语组合或第二词语组合,其中,所述第一词语组合包含地域信息和通名信息,所述第二词语组合包含地域信息和领域信息,所述地域信息用于表示地点名称,所述通名信息用于表示一类固定信息,所述领域信息用于表示一个领域;
若所述目标待处理文本信息中包含所述第一词语组合或所述第二词语组合,则将所述目标待处理文本信息划分至第二文本小组,其中,所述第二文本小组属于所述M个文本小组中的一个文本小组。
4.根据权利要求3所述的方法,其特征在于,所述判断所述目标待处理文本信息中是否包含第一词语组合或第二词语组合之后,所述方法还包括:
若所述目标待处理文本信息中不包含所述第一词语组合或所述第二词语组合,则判断所述目标待处理文本信息中是否包含所述地域信息;
若所述目标待处理文本信息中包含所述地域信息,则将所述目标待处理文本信息划分至第三文本小组,其中,所述第三文本小组属于所述M个文本小组中的一个文本小组。
5.根据权利要求4所述的方法,其特征在于,所述判断所述目标待处理文本信息中是否包含所述地域信息之后,所述方法还包括:
若所述目标待处理文本信息中不包含所述地域信息,则判断所述目标待处理文本信息中是否包含第三词语组合或第四词语组合,其中,所述第三词语组合包含所述通名信息和事件信息,所述第四词语组合包含所述领域信息和所述事件信息,所述所述事件信息用于表示一个事件;
若所述目标待处理文本信息中包含所述第三词语组合或所述第四词语组合,则将所述目标待处理文本信息划分至第四文本小组,其中,所述第四文本小组属于所述M个文本小组中的一个文本小组;
若所述目标待处理文本信息中不包含所述第三词语组合或所述第四词语组合,则从所述待处理文本信息集合中剔除所述目标待处理文本信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述预设聚类个数以及所述P个特征向量,计算得到轮廓系数,包括:
采用如下方式计算所述轮廓系数:
其中,所述表示在所述预设聚类个数下得到的所述轮廓系数,所述P表示所述目标关键词的数目,所述k表示所述预设聚类个数,所述i表示第i个特征向量,所述a(k,i)表示在所述预设聚类个数为k时第i个特征向量到同一簇内其他特征向量的平均距离,所述b(k,i)表示在所述预设聚类个数为k时第i个特征向量到其他簇所有特征向量的平均距离;
所述根据所述预设聚类个数计算各个预设聚类簇之间的平均相似度,包括:
采用如下方式计算所述各个预设聚类簇之间的平均相似度:
其中,所述表示第i个预设聚类簇与其他预设聚类簇之间的平均相似度,所述Pi表示所述第i个预设聚类簇中待处理文本信息的数目,所述set(keywordi)表示所述第i个预设聚类簇的关键词列表,所述set(sentencej)表示所述第i个预设聚类簇的第j个待处理文本信息的词语列表,所述∩表示词语列表的交集,所述Len()表示所述词语列表中的词语个数;
所述根据所述预设聚类个数计算每个所述预设聚类簇内待处理文本信息的相似度,包括:
采用如下方式计算所述预设聚类簇内待处理文本信息的相似度:
其中,所述si表示所述第i个预设聚类簇待处理文本信息的相似度;
所述根据所述各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数,包括:
采用如下方式计算所述离散系数:
所述根据所述轮廓系数以及所述离散系数,计算簇数得分,包括:
采用如下方式计算所述簇数得分:
其中,所述scorek表示表示在所述预设聚类个数下得到的所述簇数得分。
7.根据权利要求1所述的方法,其特征在于,所述根据所述P个特征向量确定聚类个数,替换为包括:
根据所述P个特征向量生成Q个待选择文本簇,其中,每个待选择文本簇中包含至少一个待处理文本信息,所述Q为大于或等于1的整数;
1)获取Q个待选择文本簇中一个待选择文本簇的待处理文本信息数量;
2)若所述待处理文本信息数量大于或等于数量阈值,则在上一个聚类计数值上增加1,得到本次聚类计数值;
重复执行步骤1)和步骤2),直至所述Q个待选择文本簇中的待处理文本信息数量均与所述数量阈值比对完成,根据所述本次聚类计数值确定所述聚类个数。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述根据所述文本结果簇生成对应的第一事件之后,所述方法还包括:
获取第二事件;
根据所述第一事件和所述第二事件计算事件相似度,其中,所述第一事件对应于至少一个第一文本信息,所述第二事件对应于至少一个第二文本信息;
若所述相似度大于或等于预设门限,则确定所述第二事件与所述第一事件为相似事件,并将所述第二事件与所述第一事件进行合并;
若所述相似度小于所述预设门限,则为所述第二事件分配标识,其中,不同的标识用于表示不同的事件。
10.一种事件生成装置,其特征在于,包括:
获取模块,用于获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
处理模块,用于对所述获取模块获取的所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
所述处理模块,还用于对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;
生成模块,用于根据所述处理模块处理得到的所述文本结果簇生成对应的第一事件;
所述处理模块,具体用于从所述目标文本小组中获取待选关键词集合,其中,所述待选关键词集合中包含至少一个待选关键词;根据所述目标文本小组中的待处理文本信息数量,计算得到关键词个数;按照所述关键词个数从所述待选择关键词集合中选择P个目标关键词,其中,所述P为大于或等于1的整数,且所述P表示所述关键词个数;根据所述P个目标关键词生成至少一个所述文本结果簇;所述根据所述P个目标关键词生成至少一个所述文本结果簇,包括:根据所述P个目标关键词生成P个特征向量,其中,每个目标关键词对应于一个特征向量,每个特征向量中包含特征元素,所述特征元素用于表示目标关键词在待处理文本信息中的出现情况;根据所述P个特征向量确定聚类个数;根据所述聚类个数生成所对应的所述文本结果簇;所述根据所述P个特征向量确定聚类个数,包括:获取预设聚类个数;根据所述预设聚类个数以及所述P个特征向量,计算得到轮廓系数;根据所述预设聚类个数计算各个预设聚类簇之间的平均相似度;根据所述预设聚类个数计算每个所述预设聚类簇内待处理文本信息的相似度;根据所述各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数;根据所述轮廓系数以及所述离散系数,计算簇数得分;若所述簇数得分满足簇数选取条件,则将所述预设聚类个数确定为所述聚类个数。
11.一种事件生成装置,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待处理文本信息集合,其中,所述待处理文本信息集合包含N个待处理文本信息,所述N为大于或等于1的整数;
对所述待处理文本信息集合中的每个待处理文本信息进行分组处理,得到M个文本小组,其中,每个文本小组中的待处理文本信息对应于相同的词语类别,所述M为大于或等于1的整数;
对目标文本小组进行分簇处理,得到文本结果簇,其中,所述目标文本小组为所述M个文本小组中的任意一个文本小组,每个文本结果簇包含至少一个的关键词;所述对目标文本小组进行分簇处理,得到文本结果簇,包括:从所述目标文本小组中获取待选关键词集合,其中,所述待选关键词集合中包含至少一个待选关键词;根据所述目标文本小组中的待处理文本信息数量,计算得到关键词个数;按照所述关键词个数从所述待选择关键词集合中选择P个目标关键词,其中,所述P为大于或等于1的整数,且所述P表示所述关键词个数;根据所述P个目标关键词生成至少一个所述文本结果簇;所述根据所述P个目标关键词生成至少一个所述文本结果簇,包括:根据所述P个目标关键词生成P个特征向量,其中,每个目标关键词对应于一个特征向量,每个特征向量中包含特征元素,所述特征元素用于表示目标关键词在待处理文本信息中的出现情况;根据所述P个特征向量确定聚类个数;根据所述聚类个数生成所对应的所述文本结果簇;所述根据所述P个特征向量确定聚类个数,包括:获取预设聚类个数;根据所述预设聚类个数以及所述P个特征向量,计算得到轮廓系数;根据所述预设聚类个数计算各个预设聚类簇之间的平均相似度;根据所述预设聚类个数计算每个所述预设聚类簇内待处理文本信息的相似度;根据所述各个预设聚类簇之间的平均相似度,以及每个预设聚类簇内待处理文本信息的相似度,计算得到离散系数;根据所述轮廓系数以及所述离散系数,计算簇数得分;若所述簇数得分满足簇数选取条件,则将所述预设聚类个数确定为所述聚类个数;
根据所述文本结果簇生成对应的第一事件;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
12.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810898747.1A CN110209808B (zh) | 2018-08-08 | 2018-08-08 | 一种基于文本信息的事件生成方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810898747.1A CN110209808B (zh) | 2018-08-08 | 2018-08-08 | 一种基于文本信息的事件生成方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209808A CN110209808A (zh) | 2019-09-06 |
CN110209808B true CN110209808B (zh) | 2023-03-10 |
Family
ID=67779973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810898747.1A Active CN110209808B (zh) | 2018-08-08 | 2018-08-08 | 一种基于文本信息的事件生成方法以及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209808B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763208B (zh) * | 2018-05-22 | 2023-09-05 | 腾讯科技(上海)有限公司 | 话题信息获取方法、装置、服务器和计算机可读存储介质 |
CN110929145B (zh) * | 2019-10-17 | 2023-07-21 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、计算机装置及存储介质 |
CN110851598B (zh) * | 2019-10-30 | 2023-04-07 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN113377949A (zh) * | 2020-03-10 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 一种目标对象的摘要生成方法和装置 |
CN111159977B (zh) * | 2020-04-07 | 2020-09-08 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN111708879A (zh) * | 2020-05-11 | 2020-09-25 | 北京明略软件系统有限公司 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
CN111737461B (zh) * | 2020-06-03 | 2023-11-07 | 新华网股份有限公司 | 文本的处理方法、装置、电子设备及计算机可读存储介质 |
CN111767404B (zh) * | 2020-07-14 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 一种事件挖掘方法和装置 |
CN111914536B (zh) * | 2020-08-06 | 2021-12-17 | 北京嘀嘀无限科技发展有限公司 | 观点分析方法、装置、设备及存储介质 |
CN112370790B (zh) * | 2020-12-01 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 游戏地图绘制方法、装置、电子设备和存储介质 |
CN112256842B (zh) * | 2020-12-17 | 2021-03-26 | 上海朝阳永续信息技术股份有限公司 | 用于文本聚类的方法、电子设备和存储介质 |
CN113011152B (zh) * | 2021-03-04 | 2022-08-26 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN113010759B (zh) * | 2021-03-10 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 聚类集合的处理方法、装置、计算机可读介质及电子设备 |
CN113326505B (zh) * | 2021-05-19 | 2023-06-02 | 中国联合网络通信集团有限公司 | 数据处理方法及装置 |
CN115879901B (zh) * | 2023-02-22 | 2023-07-28 | 陕西湘秦衡兴科技集团股份有限公司 | 一种智能人事自助服务平台 |
CN117787282B (zh) * | 2023-12-29 | 2024-09-06 | 杭州全诊医学科技有限公司 | 基于大语言模型的医患文本智能提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9116995B2 (en) * | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
-
2018
- 2018-08-08 CN CN201810898747.1A patent/CN110209808B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110209808A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209808B (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Alami et al. | Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling | |
Zhu et al. | Mobile app classification with enriched contextual information | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
KR20180011254A (ko) | 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN111611801B (zh) | 一种识别文本地域属性的方法、装置、服务器及存储介质 | |
CN106294500B (zh) | 内容项目的推送方法、装置及系统 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
CN106599072B (zh) | 一种文本聚类方法及装置 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
US20230282018A1 (en) | Generating weighted contextual themes to guide unsupervised keyphrase relevance models | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
Lee et al. | Web document classification using topic modeling based document ranking | |
Xiao | A Survey of Document Clustering Techniques & Comparison of LDA and moVMF | |
Jain et al. | FLAKE: fuzzy graph centrality-based automatic keyword extraction | |
CN113705217B (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 | |
CN115114425A (zh) | 文本推送方法、装置、电子设备及计算机可读存储介质 | |
Li et al. | A keyword extraction method for Chinese scientific abstracts | |
Keyan et al. | Multi-document and multi-lingual summarization using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |