CN112650852A - 一种基于命名实体和ap聚类的事件归并方法 - Google Patents

一种基于命名实体和ap聚类的事件归并方法 Download PDF

Info

Publication number
CN112650852A
CN112650852A CN202110015195.7A CN202110015195A CN112650852A CN 112650852 A CN112650852 A CN 112650852A CN 202110015195 A CN202110015195 A CN 202110015195A CN 112650852 A CN112650852 A CN 112650852A
Authority
CN
China
Prior art keywords
text
clustering
merged
event
semantic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110015195.7A
Other languages
English (en)
Inventor
张奥多
张良均
王宏刚
施兴
林碧娴
刘名军
张敏
赵云龙
莫济成
周东平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Teddy Intelligent Technology Co ltd
Original Assignee
Guangdong Teddy Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Teddy Intelligent Technology Co ltd filed Critical Guangdong Teddy Intelligent Technology Co ltd
Priority to CN202110015195.7A priority Critical patent/CN112650852A/zh
Publication of CN112650852A publication Critical patent/CN112650852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于事件归并领域,尤其是一种基于命名实体和AP聚类的事件归并方法,针对现有的仅依靠无监督的聚类算法存在一定的归并误差的问题,现提出如下方案,其包括以下步骤:生成待归并文本的语义向量;对语义向量采用AP聚类获得初始事件簇;根据语义向量提取待归并文本的命名实体;根据命名实体构建清洗规则集对初始事件簇进行清洗获得事件归并结果。本发明充分考虑了事件个数未知的前提,采用无需预先设定聚类数的AP聚类算法,并将文本转化为语义向量使数值向量涵盖文本语义信息,以此作为聚类算法的输入,以提升聚类精度;遵循描述同一事件的文本所含命名实体一致的原则,构建清洗规则集对初始聚类结果进行清洗优化,有效提升事件归并效果。

Description

一种基于命名实体和AP聚类的事件归并方法
技术领域
本发明涉及事件归并方法技术领域,尤其涉及一种基于命名实体和AP聚类的事件归并方法。
背景技术
近年来,随着论坛、微博、市长信箱、阳光热线、网上信访等网络平台逐步成为政府了解民意、汇聚民智、舆情监控的重要渠道,各类社情民意相关的文本数据量不断攀升,给以往主要依靠人工来进行文章、留言和信件等整理的相关部门带来极大挑战。其中,对于杂糅了大量不同事件的文本数据,如何将描述同一事件的文本进行信息归并,是对事件总体信息归纳梳理的基础,是帮助相关人员梳理事件脉络的关键。
目前,大数据、人工智能、自然语言处理等技术已广泛应用于文本处理中。针对文本数据中的事件归并问题,可通过计算文本间相似度对达到阈值的文本进行归并的方法来实现,该方法计算过程简单但计算量大,且阈值不好确定;也可通过如层次聚类、K-Menas聚类、LDA主题模型等算法实现,但需预先设定聚类数或主题数,而文本集中总共反映了多少个事件未知,即聚类数或主题数无法确定;还可通过如AP聚类等基于图的聚类算法实现,虽无需预先设定聚类数,但仅依靠无监督的聚类算法存在一定的归并误差。
发明内容
本发明的目的是为了解决现有技术中存在仅依靠无监督的聚类算法存在一定的归并误差的缺点,而提出的一种基于命名实体和AP聚类的事件归并方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于命名实体和AP聚类的事件归并方法,包括以下步骤:
步骤1:生成待归并文本的语义向量;
步骤2:对语义向量采用AP聚类获得初始事件簇;
步骤3:根据语义向量提取待归并文本的命名实体;
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合。
优选的,所述步骤1具体包括:
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词停用词;
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数,所述的已训练的文本向量化模型是通过自学习模型训练得到。
优选的,所述的步骤2具体包括:
(1)根据语义向量集X,计算两两向量相似度生成相似度矩阵S,公式如下:
Figure BDA0002886567660000021
其中,s(x1,x1)表示语义向量x1和语义向量x1间的相似度,n为语义向量个数即待归并文档数;
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
(2)初始化吸引度矩阵R和归属度矩阵A为n×n的零矩阵,设置最大迭代次数N;
(3)根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
Figure BDA0002886567660000031
Figure BDA0002886567660000032
(4)设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,λ∈[0.5,1);
(5)重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。
优选的,所述步骤3根据语义向量提取待归并文本的命名实体,命名实体包括人名、地名、组织机构名。
优选的,所述的步骤4具体包括:
(1)根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则;
(2)根据清洗规则集C对初始事件簇进行清洗,对簇中满足规则的文本进行相应处理,得到最终事件簇,即反映同一事件的文本集合。
优选的,所述的清洗规则集C={c1,c2,c3},其中规则c1、c2和c3的详细内容如下:
c1:待归并文本的命名实体数量为0时,则自成一个事件簇;
c2:待归并文本所含命名实体在所属初始事件簇所含的全部命名实体集合中,仅出现1次,则自成一个事件簇;
c3:待归并文本所属初始事件簇所含命名实体中最高频的3个实体,在该待归并文本中未出现,则自成一个事件簇。
与现有技术相比,本发明的有益效果在于:
本发明充分考虑了事件个数未知的前提,采用无需预先设定聚类数的AP聚类算法,并将文本转化为语义向量使数值向量涵盖文本语义信息,以此作为聚类算法的输入,以提升聚类精度;遵循描述同一事件的文本所含命名实体一致的原则,根据命名实体构建清洗规则集对初始聚类结果进行清洗优化,有效提升事件归并效果,本发明可智能对描述同一事件的文本进行归并,为进一步梳理事件脉络奠定基础。
附图说明
图1为本发明提出的一种基于命名实体和AP聚类的事件归并方法的流程图;
图2为本发明提出的一种基于命名实体和AP聚类的事件归并方法的生成待归并文本的语义向量的流程图;
图3为本发明提出的一种基于命名实体和AP聚类的事件归并方法的对语义向量采用AP聚类获得初始事件簇的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,一种基于命名实体和AP聚类的事件归并方法,包括以下步骤:
步骤1:生成待归并文本的语义向量;
步骤2:对语义向量采用AP聚类获得初始事件簇;
步骤3:根据语义向量提取待归并文本的命名实体;
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合。
本发明中,步骤1具体包括:
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词停用词;
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数,的已训练的文本向量化模型是通过自学习模型训练得到。
本发明中,步骤2具体包括:
(1)根据语义向量集X,计算两两向量相似度生成相似度矩阵S,公式如下:
Figure BDA0002886567660000051
其中,s(x1,x1)表示语义向量x1和语义向量x1间的相似度,n为语义向量个数即待归并文档数;
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
(2)初始化吸引度矩阵R和归属度矩阵A为n×n的零矩阵,设置最大迭代次数N;
(3)根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
Figure BDA0002886567660000061
Figure BDA0002886567660000062
(4)设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,λ∈[0.5,1);
(5)重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。
本发明中,步骤3根据语义向量提取待归并文本的命名实体,命名实体包括人名、地名、组织机构名。
本发明中,步骤4具体包括:
(1)根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则;
(2)根据清洗规则集C对初始事件簇进行清洗,对簇中满足规则的文本进行相应处理,得到最终事件簇,即反映同一事件的文本集合。
本发明中,的清洗规则集C={c1,c2,c3},其中规则c1、c2和c3的详细内容如下:
c1:待归并文本的命名实体数量为0时,则自成一个事件簇;
c2:待归并文本所含命名实体在所属初始事件簇所含的全部命名实体集合中,仅出现1次,则自成一个事件簇;
c3:待归并文本所属初始事件簇所含命名实体中最高频的3个实体,在该待归并文本中未出现,则自成一个事件簇。
本发明中,步骤1:生成待归并文本的语义向量;
现有D1、D2、D3、D4、D5和D6共计6篇来源于阳光热线问政平台的留言详情文本,详情内容示例如表1所示;
表1阳光热线问政平台的留言详情文本示例
Figure BDA0002886567660000071
Figure BDA0002886567660000081
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词等停用词,处理结果示例如表2所示;
表2分词和停用词过滤结果示例
Figure BDA0002886567660000082
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数。所述的已训练的文本向量化模型是通过自学习模型训练得到。
步骤2:对语义向量采用AP聚类获得初始事件簇;
根据语义向量集X,计算两两向量相似度生成相似度矩阵S,相似度矩阵计算结果示例如下所示:
表3相似度矩阵S计算结果示例
x<sub>1</sub> …… x<sub>6</sub>
x<sub>1</sub> 1 …… 0.2312
…… …… …… ……
x<sub>6</sub> 0.2312 …… 1
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
初始化吸引度矩阵R和归属度矩阵A为6×6的零矩阵,设置最大迭代次数N为100;
根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
Figure BDA0002886567660000091
Figure BDA0002886567660000092
设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,设置λ为0.5,当设置的阻尼系数值越小时,迭代次数会减小,阻尼系数值越大时,迭代次数增大;
重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。聚类结果示例如下表4所示:
表4聚类结果示例
Figure BDA0002886567660000093
Figure BDA0002886567660000101
根据上表4可知,由初始聚类标签形成2个文本簇即2个初始事件簇,分别为(D1,D2,D3,D4)和(D5,D6)。
步骤3:根据语义向量提取待归并文本的命名实体;
根据语义向量提取待归并文本的命名实体,所述的命名实体包括人名、地名、组织机构名,提取结果示例如下表5所示。
表5命名实体提取结果示例
Figure BDA0002886567660000102
Figure BDA0002886567660000111
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合;
根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则,设置的清洗规则集C示例如下表6所示;
表6清洗规则集C示例
Figure BDA0002886567660000112
当留言的命名实体满足上述表中3个规则中的任一个规则时,需按规则处理;若3个规则均不满足,则保留原初始聚类标签。
根据清洗规则集C对初始事件簇进行清洗,对簇中不满足规则的文本进行过滤,得到最终事件簇,即反映同一事件的文本集合,最终事件簇结果示例如下表7所示。
表7根据清洗规则集C过滤后的结果示例
Figure BDA0002886567660000121
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于命名实体和AP聚类的事件归并方法,其特征在于,包括以下步骤:
步骤1:生成待归并文本的语义向量;
步骤2:对语义向量采用AP聚类获得初始事件簇;
步骤3:根据语义向量提取待归并文本的命名实体;
步骤4:根据命名实体设置清洗规则集,对初始事件簇进行清洗获得反映同一事件的文本集合。
2.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述步骤1具体包括:
对每一篇待归并文本进行分词,进一步根据停用词典过滤语气词、助词停用词;
基于过滤后的分词结果采用已预训练的文本向量化模型生成文本的语义向量集X={x1,x2,x3...,xn},其中xi为第i篇待归并文本的语义向量,i=1,2,3,...,n,n为待归并文本数,所述的已训练的文本向量化模型是通过自学习模型训练得到。
3.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述的步骤2具体包括:
(1)根据语义向量集X,计算两两向量相似度生成相似度矩阵S,公式如下:
Figure FDA0002886567650000011
其中,s(x1,x1)表示语义向量x1和语义向量x1间的相似度,n为语义向量个数即待归并文档数;
设置参考度P(i)即第i篇文本的语义向量作为聚类中心的参考度,设置P(i)为相似度矩阵的中值;
(2)初始化吸引度矩阵R和归属度矩阵A为n×n的零矩阵,设置最大迭代次数N;
(3)根据相似度矩阵S更新吸引度矩阵R和归属度矩阵A,更新公式如下:
Figure FDA0002886567650000021
Figure FDA0002886567650000022
(4)设置阻尼系数λ在吸引度矩阵和归属度矩阵A进行迭代更新中起收敛作用,公式如下:
rt+1(i,k)=λ×rt(i,k)+(1-λ)×rt+1(i,k)
at+1(i,k)=λ×at(i,k)+(1-λ)×at+1(i,k)
其中,λ∈[0.5,1);
(5)重复步骤(3)、(4)直至迭代次数达到最大值N或矩阵R和A不再变化时,算法结束,获得每一篇待归并文本的初始聚类标签,根据初始聚类标签形成的文本簇即为初始事件簇。
4.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述步骤3根据语义向量提取待归并文本的命名实体,命名实体包括人名、地名、组织机构名。
5.根据权利要求1所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述的步骤4具体包括:
(1)根据命名实体设置清洗规则集C,清洗规则的设置遵循表述同一事件的不同文本中所含的命名实体一致的原则;
(2)根据清洗规则集C对初始事件簇进行清洗,对簇中满足规则的文本进行相应处理,得到最终事件簇,即反映同一事件的文本集合。
6.根据权利要求5所述的一种基于命名实体和AP聚类的事件归并方法,其特征在于,所述的清洗规则集C={c1,c2,c3},其中规则c1、c2和c3的详细内容如下:
c1:待归并文本的命名实体数量为0时,则自成一个事件簇;
c2:待归并文本所含命名实体在所属初始事件簇所含的全部命名实体集合中,仅出现1次,则自成一个事件簇;
c3:待归并文本所属初始事件簇所含命名实体中最高频的3个实体,在该待归并文本中未出现,则自成一个事件簇。
CN202110015195.7A 2021-01-06 2021-01-06 一种基于命名实体和ap聚类的事件归并方法 Pending CN112650852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110015195.7A CN112650852A (zh) 2021-01-06 2021-01-06 一种基于命名实体和ap聚类的事件归并方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110015195.7A CN112650852A (zh) 2021-01-06 2021-01-06 一种基于命名实体和ap聚类的事件归并方法

Publications (1)

Publication Number Publication Date
CN112650852A true CN112650852A (zh) 2021-04-13

Family

ID=75367865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110015195.7A Pending CN112650852A (zh) 2021-01-06 2021-01-06 一种基于命名实体和ap聚类的事件归并方法

Country Status (1)

Country Link
CN (1) CN112650852A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050192926A1 (en) * 2004-02-18 2005-09-01 International Business Machines Corporation Hierarchical visualization of a semantic network
WO2016095487A1 (zh) * 2014-12-17 2016-06-23 中山大学 一种基于人机交互的图像高级语义解析的方法
CN107688652A (zh) * 2017-08-31 2018-02-13 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN109960763A (zh) * 2019-03-21 2019-07-02 湖南大学 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN110188197A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN110489558A (zh) * 2019-08-23 2019-11-22 网易传媒科技(北京)有限公司 文章聚合方法和装置、介质和计算设备
CN110569328A (zh) * 2019-07-31 2019-12-13 平安科技(深圳)有限公司 实体链接方法、电子装置及计算机设备
CN110990566A (zh) * 2019-11-21 2020-04-10 华东师范大学 一种基于社区检测的增量聚类算法
CN111221968A (zh) * 2019-12-31 2020-06-02 北京航空航天大学 基于学科树聚类的作者消歧方法及装置
CN112131872A (zh) * 2020-09-18 2020-12-25 三螺旋大数据科技(昆山)有限公司 一种文献作者重名消歧方法和构建系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050192926A1 (en) * 2004-02-18 2005-09-01 International Business Machines Corporation Hierarchical visualization of a semantic network
WO2016095487A1 (zh) * 2014-12-17 2016-06-23 中山大学 一种基于人机交互的图像高级语义解析的方法
CN107688652A (zh) * 2017-08-31 2018-02-13 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN109960763A (zh) * 2019-03-21 2019-07-02 湖南大学 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN110188197A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置
CN110569328A (zh) * 2019-07-31 2019-12-13 平安科技(深圳)有限公司 实体链接方法、电子装置及计算机设备
CN110489558A (zh) * 2019-08-23 2019-11-22 网易传媒科技(北京)有限公司 文章聚合方法和装置、介质和计算设备
CN110990566A (zh) * 2019-11-21 2020-04-10 华东师范大学 一种基于社区检测的增量聚类算法
CN111221968A (zh) * 2019-12-31 2020-06-02 北京航空航天大学 基于学科树聚类的作者消歧方法及装置
CN112131872A (zh) * 2020-09-18 2020-12-25 三螺旋大数据科技(昆山)有限公司 一种文献作者重名消歧方法和构建系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LEILEI SUN等: "fast affinity propagation clustering based on incomplete similarity matrix", KNOWLEDGE AND INFORMATION SYSTEMS, pages 941 - 963 *
唐琳;郭崇慧;陈静锋;孙磊磊;: "基于中文学术文献的领域本体概念层次关系抽取研究", 情报学报, vol. 39, no. 04, pages 387 - 398 *
毕崇武;叶光辉;李明倩;曾杰妍;: "基于标签语义挖掘的城市画像感知研究", 数据分析与知识发现, vol. 3, no. 12, pages 41 - 51 *
汪沛;线岩团;郭剑毅;文永华;陈玮;王红斌;: "一种结合词向量和图模型的特定领域实体消歧方法", 智能系统学报, vol. 11, no. 03, pages 366 - 375 *
王艳松等: "基于核主成分分析和AP聚类算法的电力系统态势感知技术", 国网北京市电力公司, vol. 59, no. 1, pages 25 - 36 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN114266255B (zh) * 2022-03-01 2022-05-17 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法

Similar Documents

Publication Publication Date Title
CN106484664B (zh) 一种短文本间相似度计算方法
WO2020108430A1 (zh) 一种微博情感分析方法及系统
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
Wen et al. Research on keyword extraction based on word2vec weighted textrank
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN107515873A (zh) 一种垃圾信息识别方法及设备
CN108345585A (zh) 一种基于深度学习的自动问答方法
CN103150333B (zh) 微博媒体中的意见领袖识别方法
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN107992609A (zh) 一种基于文本分类技术和决策树的投诉倾向判断方法
CN105893582B (zh) 一种社交网络用户情绪判别方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN106202053B (zh) 一种社交关系驱动的微博主题情感分析方法
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN112650852A (zh) 一种基于命名实体和ap聚类的事件归并方法
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
Huang et al. A topic BiLSTM model for sentiment classification
CN108256968A (zh) 一种电商平台商品专家评论生成方法
CN113553510B (zh) 一种文本信息推荐方法、装置及可读介质
CN109145090A (zh) 一种基于深度学习的微博用户情感影响力分析方法
CN113220964A (zh) 一种基于网信领域短文本的观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination