CN110442726B - 基于实体约束的社交媒体短文本在线聚类方法 - Google Patents

基于实体约束的社交媒体短文本在线聚类方法 Download PDF

Info

Publication number
CN110442726B
CN110442726B CN201910752004.8A CN201910752004A CN110442726B CN 110442726 B CN110442726 B CN 110442726B CN 201910752004 A CN201910752004 A CN 201910752004A CN 110442726 B CN110442726 B CN 110442726B
Authority
CN
China
Prior art keywords
text
similarity
word
cluster
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910752004.8A
Other languages
English (en)
Other versions
CN110442726A (zh
Inventor
费高雷
刘卓
胡光岷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910752004.8A priority Critical patent/CN110442726B/zh
Publication of CN110442726A publication Critical patent/CN110442726A/zh
Application granted granted Critical
Publication of CN110442726B publication Critical patent/CN110442726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于实体约束的社交媒体短文本在线聚类方法,该方法采用以实时推文流来构建具有时效性的单词关联空间,根据单词的共现关系与作为关键词的关键实体得到文本间的共现相似度与关联相似度,与向量相似度共同构建文本间的距离度量,之后以该度量进行SinglePass聚类得到初始文本簇,并进行基于命名实体的簇之间的动态融合,从而达到更加准确地描述文本间的关系,并在保持聚类较高纯的的前提下,减少重复簇的效果。

Description

基于实体约束的社交媒体短文本在线聚类方法
技术领域
本发明属于文本信息挖掘技术领域,具体涉及一种基于实体约束的社交媒体短文本在线聚类方法。
背景技术
伴随着互联网的不断普及,尤其是由通信技术与智能手机带来的移动互联网的飞速发展,社交媒体也不断地走进了每个人的生活。社交媒体目前范围十分广泛,以国外的Twitter与Facebook与国内的微博为其著名的代表,这些社交媒体改变了人们利用网络的方式,使得社会中的大部分的网民从过去的内容接收者,转变为内容的创造者。这一转变,导致网络中的信息的数量急剧增加,且由于发布者分布的广泛性与消息的实时性,最终使得社交媒体中包含了非常丰富的信息,因此,在社交网络中进行信息的挖掘将具有重要的意义。
在大量的文本信息中进行信息挖掘的方式有很多,其中聚类是一种常用的方式。而进行聚类的一个必要的工作是计算文本间的相似度,即对于文本间的距离进行度量,因为无论是文本与文本之间,还是文本与类之间,若需要衡量其相关性,都需要通过文本之间的距离来进行比较。当前已经有一些针对文档间相似度计算的有效方式,但是社交媒体中的文本主要为短文本,相比于传统的方法所针对的文档中的长文本,短文本有着新的挑战。首先是短文本中大部分单词只会出现一次,这使得词频的统计在很大程度上失去了意义,且若使用向量空间模型表示,向量空间较为稀疏。其次,社交媒体中的语言环境的变化极快,这使得引入外部的知识库变得困难,同时由于文本量的巨大与对于实时性的要求,这使得对于文本相似度计算的时间复杂度也提出了较高的要求。
对于实时的文本流,需要在线的聚类方法,在线聚类是指不需要同时处理全部数据的聚类方法,其数据的输入并不是一次全部输入,而是以数据流的形式不断地在线输入,在每个时间点都会接收到新的数据。在针对社交媒体的特定场景下,对其中流式数据的一个常用的聚类方法为在SinglePass的方式。一方面,这是一种无监督的聚类方法,复杂度较低,因为如前文所述,当前社交媒体中的数据的数量非常庞大,因此难以采用较复杂的算法,而增量聚类可以有效地将相似数据聚集到一起,对海量数据进行高效的存储与记录,且可以对海量的数据进行不同粒度的查询,方便后续的进一步的数据挖掘与处理。另一方面,社交媒体不同于传统媒体的一个显著的特点为,其中内容的更新速度极快,这使得其拥有着很强的时效性的优点,但同时也让许多传统的离线聚类方法无法应用在社交媒体的聚类任务中,因其往往针对的是离线的数据集,且需要簇的数量等先验信息,因此在要求实时性的数据挖掘的工作中无法采用这些离线聚类方法,而在线增量聚类方法可以有效的满足以上的要求。
对于文本距离的度量是进行文本聚类等操作的基础,对距离能否能够进行合适的定义对于后续操作的性能有着巨大的影响。当前对于文本距离的度量主要分为无语义的距离度量方法与包含语义扩展的距离度量方法。
其中,无语义的距离度量方式一般是以文本的向量空间模型为基础,再使用数学距离公式对多个文本向量之间计算,从而得到距离度量的方式。常用的向量空间模型有0/1词袋模型,与利用TF-IDF值作为单词权值构建的方式,而计算相似度的方式有余弦相似度、欧氏距离与杰卡德相似系数等。在这些方法中,依赖TF-IDF值构建单词向量的方式是过去在文档中的长文本处理时常用的一种方法,但是Yin J在文献中指出,TF-IDF方法在短文本处理的任务中并不会有很好的表现,因为在短文本中绝大多数单词只会出现一次,因此TF-IDF值往往会退化成IDF值,这时,采用词袋模型可能会取得更好的效果。
另一种方式为包含语义扩展的距离度量方法,这种方法追求的目标为使计算机能够以类似人的思维方式实现根据语句的含义进行相似度的度量。早期的研究大多以语言规则入手,希望能够通过人类语言的规则来解析语句中的语义,从而让计算机理解语句的含义,但是,经过长时间的研究发现,得到一个语言完备的规则是一件非常困难的事情。在之后,基于统计的方法逐渐占据了研究的主流位置,在这种方式中,会认为上下文相似的单词之间有着更高的相似性,从而期望建立一个稠密而较短的向量来代替向量空间模型中的较长的稀疏矩阵来表征语句。在2013年,Tomas Mikolov提出了word2vec模型,之后这一模型得到了广泛的使用,同时,word2vec仍然在不断改进。R.Mihalcea等人提出了在获取单词相似度时,通过使用基于语料库和基于知识的度量来测量短文本的相似性的方法,M.Sahami则利用搜索引擎来扩展文本的语义信息,而在文献中,Yih W T等人通过让学习过程更加适合目标语料库,改进了M.Sahami的工作。
在获取了文本相似度之后,许多聚类方法都可以应用于文本聚类。一种常用的聚类方式为基于划分的聚类,其中最典型的算法是k-means,但其缺点也很明显,因为总的类的数量需要指定,但这个数量在很多聚类场景下是难以提前确定的,且初始类中心的选择也会影响聚类的结果。另一种常用的聚类方法为层次聚类方法,其中有代表性的算法有BIRCH算法、CURE算法、CHAMELEON算法等,而这些方法的缺点是计算的时间复杂度太高,难以扩展。
社交媒体中的短文本在线聚类是针对社交媒体中的所存在的数量巨大的短文本流,期望得到短文本间准确且适当的距离度量,并根据此度量通过使用聚类技术使得描述同一事物的文本准确地分在相同的簇中,是在文本流中进行信息挖掘等操作的基础。现有的文本相似度的度量方法无法在满足时间性能的前提下保证度量的效果,而目前的聚类方法也难以兼顾较高的类内的纯度与较少的重复簇数量。
发明内容
本发明的主要目的在于提供一种基于实体约束的社交媒体短文本在线聚类方法,旨在解决既有方法中存在的以上技术问题。
为实现上述目的,本发明提供一种基于实体约束的社交媒体短文本在线聚类方法,包括以下步骤:
S1、将社交媒体短文本进行命名实体识别;
S2、采用基于实体约束的文本相似度计算方法计算文本与现有文本簇之间的相似度;
S3、判断步骤S2计算得到的相似度是否大于设定的相似度阈值;若是,则将该文本添加到对应的文本簇中;若否,则创建一个新的包含该文本的文本簇;
S4、判断已处理的文本数量是否超过设定的文本阈值;若是,则对步骤S3得到的文本簇进行融合;若否,则返回步骤S1。
进一步地,所述步骤S2中基于实体约束的文本相似度计算方法具体包括:
通过词袋模型构建文本词向量,计算文本向量相似度;
将文本内容更新至单词关联空间,同时添加至链表头部,判断链表尾部是否超出时间窗;若是,则将链表尾部文本内容移出单词关联空间,并删除该节点,重新进行判断;若否,则分别计算文本共现相似度和文本关联相似度;
根据计算得到的文本向量相似度、文本共现相似度和文本关联相似度构建文本之间最终的文本相似度。
进一步地,所述计算文本向量相似度具体为:
设文本di与文本dj的词向量为vi与vj,计算文本di与文本dj之间的向量相似度,表示为
Figure BDA0002167522600000051
其中,simvec(di,dj)为文本di与文本dj之间的向量相似度。
进一步地,所述计算文本共现相似度具体为:
设文本di={w1,w2,w3,...,wm},文本dj={wm+1,wm+2,wm+3,...,wn),利用两条文本间所有的单词之间的共现关系来构建文本di与文本dj的共现相似度,表示为
word_simprob(wi,wj)=max(P(wi|wj),P(wj|wi))
Figure BDA0002167522600000052
其中,simprob(di,dj)为文本di与文本dj之间的共现相似度,i∈[1,m],j∈[m+1,n]。
进一步地,所述计算文本关联相似度具体为:
选取文本中的频率最高的实体作为关键词,利用关键词wN构建单词wi与单词wj之间的关联度word_simrelevant,通过文本di与文本dj中所有单词之间的关联度构建文本di与文本dj的关联相似度,表示为
Figure BDA0002167522600000053
Figure BDA0002167522600000054
其中,simrelevant(di,dj)为文本di与文本dj之间的共现相似度。
进一步地,所述根据计算得到的文本向量相似度、文本共现相似度和文本关联相似度构建文本之间最终的文本相似度,表示为
sim(di,dj)=max(simvec(di,dj),simprob(di,dj),simrelevant(di,dj))
其中,sim(di,dj)为文本di与文本dj之间最终的文本相似度。
进一步地,对单词关联空间进行更新时,首先设定所需要的时间窗w大小,初始化链表
Figure BDA0002167522600000061
来保存文本信息,再将输入的文本di={w1,w2,w3,......,wn}的词向量vi与输入时间ti记录在链表
Figure BDA0002167522600000062
的头部,并根据该文本的词向量,在单词关联空间内更新该文本di内的每个单词wi的共现单词的词频列表;根据该文本的时间ti与时间窗的长度w,更新有效时间的起点tstart=ti-w,再判断链表
Figure BDA0002167522600000063
的尾部节点的时间tn是否位于有效时间的起点tstart之后,若尾部节点的时间在有效时间的起点之前,则删除该节点,并根据该节点内的词向量vn来更新单词关联空间;删除该尾节点tn之后,再采用相同的方式判断尾部节点的时间是否在有效时间的起始点tstart之后,若不在,则执行删除节点的操作,直到链表的尾部节点位于有效时间内为止。
进一步地,计算文本与现有文本簇之间的相似度时,使用每个文本簇的中心点的词向量来表示这个文本簇,再采用基于实体约束的文本相似度计算方法计算文本与现有文本簇之间的相似度。
进一步地,对步骤S3得到的文本簇进行融合具体包括:
通过每个文本簇的词频信息根据向量空间模型构建每个簇的词向量,再根据命名实体识别得到的实体信息,将词向量划分为包含各个实体信息的向量;
将文本簇内频率最高的实体的类型作为关键实体类型,将属于关键实体类型的向量作为关键实体向量key_vec,将其余向量作为非关键实体向量non_key_vec;
比较文本簇之间的关键实体类型是否相同;若否,则不进行融合;若是,则计算文本簇之间的相似度;
判断文本簇之间的相似度是否大于设的文本簇相似度阈值;若否,则不进行融合;若是,则将两个初始文本簇融合后的融合簇添加到簇的列表中进行动态融合。
进一步地,所述计算文本簇之间的相似度表示为
simcluster(ci,cj)=sim(key_veci,key_vecj)*sim(non_key_veci,non_key_vecj)
其中,simcluster(ci,cj)为文本簇ci与文本簇cj之间的相似度。
本发明具体以下有益效果:
(1)通过实时的短文本流构建单词关联空间,可以得到动态变化的语言环境信息;
(2)通过单词关联空间计算文本间的共现相似度与关联相似度,可以弥补向量空间模型下无法衡量未共同出现的单词之间的缺陷,从而更加准确地描述文本之间的相似度;
(3)可以在保持文本簇内较高纯度的前提下,减少重复簇的数量。
附图说明
图1是本发明的基于实体约束的社交媒体短文本在线聚类方法流程图;
图2是本发明的文本相似度计算流程图;
图3是本发明关联单词空间的结构示意图;
图4是本发明中向量的拆分与组合流程图;
图5是本发明中融合簇的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:
采用以实时推文流来构建具有时效性的单词关联空间,根据单词的共现关系与作为关键词的关键实体得到文本间的共现相似度与关联相似度,与向量相似度共同构建文本间的距离度量,之后以该度量进行SinglePass聚类得到初始文本簇,并进行基于命名实体的簇之间的动态融合,从而达到更加准确地描述文本间的关系,并在保持聚类较高纯的的前提下,减少重复簇的效果。
如图1所示,一种基于实体约束的社交媒体短文本在线聚类方法,包括以下步骤:
S1、将社交媒体短文本进行命名实体识别;
S2、采用基于实体约束的文本相似度计算方法计算文本与现有文本簇之间的相似度;
S3、判断步骤S2计算得到的相似度是否大于设定的相似度阈值;若是,则将该文本添加到对应的文本簇中;若否,则创建一个新的包含该文本的文本簇;
S4、判断已处理的文本数量是否超过设定的文本阈值;若是,则对步骤S3得到的文本簇进行融合;若否,则返回步骤S1。
在本发明的一个可选实施例中,上述步骤S1通过对社交媒体短文本进行命名实体识别,得到文本中包含的各个实体信息;本发明采用的命名实体识别方法为本领域的常规技术手段,这里不作赘述。
在本发明的一个可选实施例中,上述步骤S2中相似度的计算主要有两种方式,分别是以文本的向量空间模型为基础,再使用数学距离公式对多个文本向量之间计算,与语义扩展的距离度量方法。这两种方式都有一定的不足,如在向量空间模型下,无论对于单词向量如何取值,如果两条文本之间没有相同的单词,则相似度会为0,而语义扩展的方法往往需要依赖先验的知识库,然而这样的扩展信息在语言环境迅速变化的社交媒体的领域中并不适用,且一些进行语义扩展的方法的时间复杂度也不能满足实时任务的要求。
本发明采用动态的单词关联空间来实现一个根据实时的推文流中的信息进行变化的语义空间,通过词袋模型来构建向量,之后通过语义空间来进行信息扩展,从而实现提高文本相似度的计算的效果的目的。
如图2所示,上述基于实体约束的文本相似度计算方法具体包括:
(1)通过词袋模型构建文本词向量,计算文本向量相似度。
本实施例中,由于在社交媒体的短文本这样的环境下,多数单词仅会出现一次,且语言环境变化极快,采用TF-IDF与word2vec等方法构建的词向量并不能很好地适应这样的任务,因此本发明采用词袋模型构建文本词向量,设文本di与文本dj的词向量为vi与vi,计算文本di与文本dj之间的向量相似度,表示为
Figure BDA0002167522600000091
其中,simvec(di,dj)为文本di与文本dj之间的向量相似度。
(2)将文本内容更新至单词关联空间,同时添加至链表头部,判断链表尾部是否超出时间窗;若是,则将链表尾部文本内容移出单词关联空间,并删除该节点,重新进行判断;若否,则分别计算文本共现相似度和文本关联相似度.
本实施例中,单词关联空间的构建与更新的方式如图3所示。在单词关联空间中记录着一段时间之内的每个单词之间的共现关系,具体为:
首先设定所需要的时间窗w的大小(如12小时),之后,初始化一个链表
Figure BDA0002167522600000101
来保存文本信息;在任务开始后,将输入的文本di={w1,w2,w3,.....,wn}的词向量vi与输入时间ti记录在链表
Figure BDA0002167522600000102
的头部,作为一个节点ni来记录该文本的信息;并根据该文本的词向量,在单词关联空间内更新该文本di内的每个单词wi的共现单词的词频列表,其共现单词为文本di内除了该单词wi之外的所有单词;之后,根据该文本的时间ti与时间窗的长度w,更新有效时间的起点tstart=ti-w,再判断链表
Figure BDA0002167522600000103
的尾部节点的时间tn是否位于有效时间的起点tstart之后,若尾部节点的时间在有效时间的起点之前,则删去该节点,并根据该节点内的词向量vn来更新单词关联空间;删除完该尾节点tn之后,再不断用相同的方式判断尾部节点的时间是否在有效时间的起始点tstart之后,若不在,则执行删除节点的操作,直到聊表的尾部节点位于有效时间内为止。
通过以上步骤可以得到所需的指定时间窗内的单词关联空间,通过该空间可以动态地根据实时的推文流中的单词之间的共现关系构建符合当前语言环境的语义空间,根据该空间可以获取从文本的单词向量本身无法得到的语义信息。
由于基于向量空间模型得到的余弦相似度对于描述同一事物的,但是并不包含相同单词的文本,是无法描述其相似度的,因为在这种情况下,余弦相似度的值会降至0。而上述根据文本的更新得到了实时的单词关联空间,在这里,便可以根据所得到的单词关联空间中所包含的语义信息来构建新的文本间的相似度。对于不同的单词,虽然由于单词不同使得其词向量的余弦相似度为0,但是可以通过使用条件概率来计算一个单词影响另一个单词出现的可能性,这里用共现相似度simprob来表示这种关系。
设文本di={w1,w2,w3,..,wm},文本dj={wm+1,wm+2,wm+3,..,wn},对于其中的单词wi与单词wj而言,可以通过单词关联空间求得条件概率来衡量这两个单词之间的共现关系,即一者出现,另一者也会出现的概率,其计算方式为:
word_simprob(wi,wj)=max(P(wi|wj),P(wj|wi))
再利用两条文本间所有的单词w之间的共现关系来构建文本d1与d2的共现相似度,其计算方式为:
Figure BDA0002167522600000111
其中,simprob(di,dj)为文本di与文本dj之间的共现相似度,i∈[1,m],j∈[m+1,n]。
在以上的计算中,本发明得到了共现相似度来衡量两条文本中并没有共同出现的单词之间的相似度,计算其相似度的方式是基于两个单词在所构建的单词关联空间中的共现的概率。对于两个单词在单词关联空间中出现共现的情况,这样的两个单词实际上可能是存在关联关系的,因为可能有多个单词描述同一件物体或者同一个动作,而一旦出现其中一个单词,往往不会出现另一个单词,如“某地发生暴雨”与“某地发生雷雨”,“暴雨”与“雷雨”两个单词为描述同一事件,但是这两者为两个不同的词,且这两个词语几乎不会共同出现在同一条短文本中,所以无论是词向量本身还是共现相似度都无法衡量其关系。因此,本发明中采用关联相似度来构建类似于这样描述同一事件的不同的单词之间的关系。
关联相似度的计算是基于命名实体识别与上文中所提及的单词关联空间的。一个文本簇所描述的事物通常是以地名实体、人名实体或组织实体为事件的主体的,因此可以选出高频的这三种实体作为指定的关键词,以关键词作为桥梁构建两个单词之间的关系,如“某地发生暴雨”与“某地发生雷雨”,便可以“某地”这一地理实体,因为“暴雨”与“雷雨”出现时,都是与“某地”同时出现的,即两个没有同时出现过的单词wi与wj,可以通过所确定的关键词wn(n=1,2,3,...)来构建这两个单词之间的关联度word_simrelevant,其计算方式为:
Figure BDA0002167522600000121
而两条文本di与dj,则可以通过其中所有单词之间的关联度来构建文本间的关联相似度simrelevant,其计算方式为:
Figure BDA0002167522600000122
其中,simrelevant(di,dj)为文本di与文本dj之间的共现相似度。
(3)根据计算得到的文本向量相似度、文本共现相似度和文本关联相似度构建文本之间最终的文本相似度。
本实施例中,在得到了两条文本di与dj之间的文本向量相似度simvec(di,dj)、共现相似度simprob(di,dj)与关联相似度simrelevant(di,dj)之后,便可以以这三者构建di与dj之间的最终的文本相似度sim(di,dj),其计算方式为:
sim(di,dj)=max(simvec(di,dj),simprob(di,dj),simrelevant(di,dj))
其中,sim(di,dj)为文本di与文本dj之间最终的文本相似度。
在本发明的一个可选实施例中,上述步骤S3采用基于SinglePass增量聚类方法所改进的在线聚类方法来对实时的短文本流进行聚类,即每输入一条文本d,将输入的文本d与所有已存在的簇ci(i=1,2,3,...,n)进行相似度的计算,若存在相似度高于阈值t的簇cm,则将文本d加入簇cm中,若不存在相似度高于阈值t的簇,则创建一个新的包含文本d的簇cn+1
本发明基于上述聚类方法进行以下两个方面的改进:
首先,在将输入的文本d与所有已存在的簇ci(i=1,2,3,...,n)进行相似度的计算时,使用每个簇的中心点的词向量来表示这个簇,使用上一节中所提出的综合了文本向量相似度、共现相似度与关联相似度的文本相似度计算方法来计算文本d与簇ci之间的相似度,可以更准确地判断文本与簇之间的距离。
其次,在每输入一定数量的短文本,便进行一次簇的融合,以减少重复簇的数量,达到更好的聚类效果。
在使用SinglePass聚类方法时,聚类的效果是依赖于所设定的聚类的阈值t的,若阈值t设置得较低,会导致每个簇内的纯度较低,使得聚类的结果中容易包含较多的噪声,而若阈值t设置得较高,则可能会导致本应聚到一个簇内的描述同一事物的文本被分到了不同的簇中,造成了较多的冗余簇。而本发明中所采用的簇的融合,便可以使得在设定相对较高的阈值t来保证簇内纯度的同时,减少冗余簇的数量。
在经过一段时间的SinglePass聚类之后,已输入过一定量的推文,此时已经存在了大量的文本簇,这时需要比较每两个簇之间的相似度进行融合,具体包括:
首先通过每个簇的词频信息根据向量空间模型构建每个簇的词向量,再根据命名实体识别所提供的实体信息,将这个词向量拆分成四个向量,分别是包含地理实体的向量vecloc,包含人名实体的向量vecper,包含组织实体的向量vecorg,与其它实体vecother,如图4所示。
在进行向量的拆分之后,还需要将拆分出的向量进行组合。由于簇中包含的文本需要描述一个事件,而一个事件是需要有一个主体的,如发生在某地的事件,则这个事件的主体便是某地,即一个地理实体,再如某人做了某事,则这个事件的主体便是某人,即人名实体,此时,这些描述事件的主体的关键的实体类型在进行簇之间相似度判定的时候应扮演更重要的角色。因此,在这里,将簇内频率最高的实体的类型作为该类的关键实体类型,之后,便可以根据关键实体的类型,将4个向量中属于关键实体类型的向量作为关键实体向量key_vec,将其余3个向量作为非关键实体向量non_key_vec。
通过以上方法可以分别得到簇ci与簇cj的关键实体向量key_veci与key_vecj及非关键实体向量non_key_veci与non_key_vecj之后,之后便可以进行簇之间的比较了。当比较簇ci与簇cj时,若两个簇描述同一个事物,则其关键实体类型也应相同,所以,若关键实体类型不同,则可直接跳过,认为簇ci与簇cj之间为描述不同事物的簇。若簇ci与簇cj的关键实体类型相同,计算文本簇之间的相似度,表示为
simcluster(ci,cj)=sim(key_veci,key_vecj)*sim(non_key_veci,non_key_vecj)
其中,simcluster(ci,cj)为文本簇ci与文本簇cj之间的相似度。
当簇ci与簇cj之间的相似度高于阈值时,便可以判定这两个簇是可以融合的簇。但是,当采用簇融合时,在SinglePass聚类过程中可以采用相对较高的阈值,这时每个簇内的纯度较高,而在进行簇融合之后,融合簇可能会发生簇中心的偏移,如果采用将初始簇删去,而将其中所有数据添加到融合簇内的方法,会导致在之后的聚类过程中,许多原先会通过初始簇汇聚到这个融合簇内的文本不会再聚到该融合簇。因此,本发明中采用的簇的融合的方法并不是去掉原有簇,而是将融合簇作为一个个的“虚拟”簇添加进簇的列表中的动态的融合的方法,如图5所示。
当需要对数据进行进一步的处理,如通过文本簇进行其中突发事件检测时,会对所有簇进行一次融合簇的检测,并创建出所需的融合簇,每个融合簇中包含所有其所汇聚的初始簇中的所有信息,同时,在事件检测或其它处理的过程中,对于已经被汇聚到融合簇的初始簇,会跳过这些簇,不做处理,而对于融合簇则会将其作为如同其他正常的簇一样处理,在处理完之后,会将融合簇删除,而初始簇会依旧按照增量聚类的方式继续进行聚类过程。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于实体约束的社交媒体短文本在线聚类方法,其特征在于,包括以下步骤:
S1、将社交媒体短文本进行命名实体识别;
S2、采用基于实体约束的文本相似度计算方法计算文本与现有文本簇之间的相似度;具体包括:
通过词袋模型构建文本词向量,计算文本向量相似度;具体为:
设文本di与文本dj的词向量为vi与vj,计算文本di与文本dj之间的向量相似度,表示为
Figure FDA0003382521260000011
其中,simvec(di,dj)为文本di与文本dj之间的向量相似度;
将文本内容更新至单词关联空间,同时添加至链表头部,判断链表尾部是否超出时间窗;若是,则将链表尾部文本内容移出单词关联空间,并删除尾部节点,重新进行判断;若否,则分别计算文本共现相似度和文本关联相似度;
计算文本共现相似度具体为:
设文本di={w1,w2,w3,...,wm},文本dj={wm+1,wm+2,wm+3,...,wn},利用两条文本间所有的单词之间的共现关系来构建文本di与文本dj的共现相似度,表示为
word_simprob(wi,wj)=max(P(wi|wj),P(wj|wi))
Figure FDA0003382521260000012
其中,simprob(di,dj)为文本di与文本dj之间的共现相似度,i∈[1,m],j∈[m+1,n];
计算文本关联相似度具体为:
选取文本中的频率最高的实体作为关键词,利用关键词wN构建单词wi与单词wj之间的关联度word_simrelevant,通过文本di与文本dj中所有单词之间的关联度构建文本di与文本dj的关联相似度,表示为
Figure FDA0003382521260000013
Figure FDA0003382521260000014
其中,simrelevant(di,dj)为文本di与文本dj之间的共现相似度;
根据计算得到的文本向量相似度、文本共现相似度和文本关联相似度构建文本之间最终的文本相似度,表示为
sim(di,dj)=max(simvec(di,dj),simprob(di,dj),simrelevant(di,dj))
其中,sim(di,dj)为文本di与文本dj之间最终的文本相似度;
对单词关联空间进行更新时,首先设定所需要的时间窗w大小,初始化链表
Figure FDA0003382521260000021
来保存文本信息,再将输入的文本di={w1,w2,w3,......,wn}的词向量vi与输入时间ti记录在链表
Figure FDA0003382521260000022
的头部,并根据该文本的词向量,在单词关联空间内更新该文本di内的每个单词wi的共现单词的词频列表;根据该文本的时间ti与时间窗的长度w,更新有效时间的起点tstart=ti-w,再判断链表
Figure FDA0003382521260000023
的尾部节点的时间tn是否位于有效时间的起点tstart之后,若尾部节点的时间在有效时间的起点之前,则删除该节点,并根据该节点内的词向量vn来更新单词关联空间;删除尾节点tn之后,再采用相同的方式判断尾部节点的时间是否在有效时间的起始点tstart之后,若不在,则执行删除节点的操作,直到链表的尾部节点位于有效时间内为止;
S3、判断步骤S2计算得到的相似度是否大于设定的相似度阈值;若是,则将该文本添加到对应的文本簇中;若否,则创建一个新的包含该文本的文本簇;
S4、判断已处理的文本数量是否超过设定的文本阈值;若是,则对步骤S3得到的文本簇进行融合;若否,则返回步骤S1。
2.如权利要求1所述的基于实体约束的社交媒体短文本在线聚类方法,其特征在于,计算文本与现有文本簇之间的相似度时,使用每个文本簇的中心点的词向量来表示这个文本簇,再采用基于实体约束的文本相似度计算方法计算文本与现有文本簇之间的相似度。
3.如权利要求2所述的基于实体约束的社交媒体短文本在线聚类方法,其特征在于,对步骤S3得到的文本簇进行融合具体包括:
通过每个文本簇的词频信息根据向量空间模型构建每个簇的词向量,再根据命名实体识别得到的实体信息,将词向量划分为包含各个实体信息的向量;
将文本簇内频率最高的实体的类型作为关键实体类型,将属于关键实体类型的向量作为关键实体向量key_vec,将其余向量作为非关键实体向量non_key_vec;
比较文本簇之间的关键实体类型是否相同;若否,则不进行融合;若是,则计算文本簇之间的相似度;
判断文本簇之间的相似度是否大于设的文本簇相似度阈值;若否,则不进行融合;若是,则将两个初始文本簇融合后的融合簇添加到簇的列表中进行动态融合。
4.如权利要求3所述的基于实体约束的社交媒体短文本在线聚类方法,其特征在于,所述计算文本簇之间的相似度表示为
simcluster(ci,cj)=sim(key_veci,key_vecj)*sim(non_key_veci,non_key_vecj)
其中,simcluster(ci,cj)为文本簇ci与文本簇cj之间的相似度。
CN201910752004.8A 2019-08-15 2019-08-15 基于实体约束的社交媒体短文本在线聚类方法 Active CN110442726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752004.8A CN110442726B (zh) 2019-08-15 2019-08-15 基于实体约束的社交媒体短文本在线聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752004.8A CN110442726B (zh) 2019-08-15 2019-08-15 基于实体约束的社交媒体短文本在线聚类方法

Publications (2)

Publication Number Publication Date
CN110442726A CN110442726A (zh) 2019-11-12
CN110442726B true CN110442726B (zh) 2022-03-04

Family

ID=68435698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752004.8A Active CN110442726B (zh) 2019-08-15 2019-08-15 基于实体约束的社交媒体短文本在线聚类方法

Country Status (1)

Country Link
CN (1) CN110442726B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991168B (zh) * 2019-12-05 2024-05-17 京东方科技集团股份有限公司 同义词挖掘方法、同义词挖掘装置及存储介质
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112597309A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 实时识别突发事件微博数据流的检测系统
CN112732914A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 基于关键词匹配的文本聚类方法、系统、储存介质及终端
CN114969348B (zh) * 2022-07-27 2023-10-27 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195640B1 (en) * 2009-01-12 2015-11-24 Sri International Method and system for finding content having a desired similarity
CN107609103A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种基于推特的事件检测方法
CN107609102A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种短文本在线聚类方法
CN109145114A (zh) * 2018-08-29 2019-01-04 电子科技大学 基于Kleinberg在线状态机的社交网络事件检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195640B1 (en) * 2009-01-12 2015-11-24 Sri International Method and system for finding content having a desired similarity
CN107609103A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种基于推特的事件检测方法
CN107609102A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种短文本在线聚类方法
CN109145114A (zh) * 2018-08-29 2019-01-04 电子科技大学 基于Kleinberg在线状态机的社交网络事件检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Online event detection and tracking in social media based on neural similarity metric learning》;Guandan Chen等;《2017 IEEE International Conference on Intelligence and Security Informatics (ISI)》;20170724;626-635 *

Also Published As

Publication number Publication date
CN110442726A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442726B (zh) 基于实体约束的社交媒体短文本在线聚类方法
AU2020103654A4 (en) Method for intelligent construction of place name annotated corpus based on interactive and iterative learning
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN107862027B (zh) 检索意图识别方法、装置、电子设备及可读存储介质
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
Li et al. Filtering out the noise in short text topic modeling
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
TWI653542B (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN104239501B (zh) 一种基于Spark的海量视频语义标注方法
US20220318275A1 (en) Search method, electronic device and storage medium
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN105740448B (zh) 面向话题的多微博时序文摘方法
WO2009085815A1 (en) Expanding a query to include terms associated through visual content
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN109766408A (zh) 综合词位置因素和词频因素的文本关键词权重计算方法
US20200065395A1 (en) Efficient leaf invalidation for query execution
CN116401345A (zh) 智能问答方法、装置、存储介质和设备
CN117932000A (zh) 基于主题聚类全局特征的长文档稠密检索方法及系统
Zhao et al. A New Chinese Word Segmentation Method Based on Maximum Matching.
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
Zhou et al. Named Entity Recognition of Ancient Poems Based on Albert‐BiLSTM‐MHA‐CRF Model
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant