CN106372208B - 一种基于语句相似度的话题观点聚类方法 - Google Patents

一种基于语句相似度的话题观点聚类方法 Download PDF

Info

Publication number
CN106372208B
CN106372208B CN201610801675.5A CN201610801675A CN106372208B CN 106372208 B CN106372208 B CN 106372208B CN 201610801675 A CN201610801675 A CN 201610801675A CN 106372208 B CN106372208 B CN 106372208B
Authority
CN
China
Prior art keywords
viewpoint
sentence
similarity
topic
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610801675.5A
Other languages
English (en)
Other versions
CN106372208A (zh
Inventor
杨鹏
袁志伟
顾梁
赵丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201610801675.5A priority Critical patent/CN106372208B/zh
Publication of CN106372208A publication Critical patent/CN106372208A/zh
Application granted granted Critical
Publication of CN106372208B publication Critical patent/CN106372208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。

Description

一种基于语句相似度的话题观点聚类方法
技术领域
本发明涉及一种基于语句相似度的话题观点聚类方法,可用于实现互联网热门话题的观点聚类和观点挖掘等,属于计算机网络技术领域。
背景技术
随着移动互联网的飞速发展,网络上的内容信息纷繁复杂,观点多元化特征明显。为了增加对互联网内容话题的深度认知和避免被片面的信息误导,人们越来越需要从大量互联网信息中获取其他人对某一话题的观点,并通过对相关不同观点进行对比,帮助自己做出更加合理的决策。例如,在电子购物时,人们往往需要根据商品评论的倾向性,判断该商品是否值得购买。观点聚类是解决此类问题的主要方法,通过对大量的商品评论进行观点聚类,可以增加用户对商品优点和缺陷的认识,从而更加理性地决策是否应该购买该商品。
传统的观点聚类方法所针对的对象一般是网络短文本,如商品评论、新闻评论、意见征询等观点密度较高的文本。通常的做法是,首先识别出文本中的感情词,然后计算感情词的极性大小,最后通过感情词极性累加求和的方式,获得文本的观点倾向值。但是,由于传统方法在进行观点聚类时的主要依据是文本观点倾向值,所关注的是对特定话题的整体感觉,通常只是将文本分成三类:正面、反面和中性等。因此分类粒度较为粗糙,用户一般只能了解每一类别的极性,而无法了解类别的论点、论据和论证过程。并且,对于观点数量较多的话题,或者难以简单地用正和反来描述观点的话题,传统观点聚类方法的效果有很大局限性,很难满足用户的需求。因此,针对这类应用,亟需设计一种更加精细化的观点聚类方法,以便用户能更清晰地了解某一话题的各方观点及其细节,增加用户见闻,厘清各种观点,避免被片面性的观点所误导等。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于语句相似度的话题观点聚类方法,可以对围绕某一话题的主要观点进行聚类,确保聚类结果更加多样化和精细化,从而让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。
技术方案:一种基于语句相似度的话题观点聚类方法,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句(包含观点词的语句)并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。具体可以分为三个步骤:
步骤1,构建观点词库。先通过人工方式从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词,之后利用同义词扩展规则对种子观点词进行扩展,最终形成针对该话题的观点词库。
步骤2,话题观点聚类。抽取该话题所有相关文本中的观点语句(包含观点词的语句),利用语句相似度计算公式计算这些观点语句之间的相似度,再利用自底向上的层次聚类方法完成话题观点聚类。
步骤3,抽取观点代表语句。对于聚类所得的该话题每一观点类,从隶属该观点类的所有观点语句中,按照语句平均相似度最高的原则,选取其中最具代表性的语句作为该观点类的代表观点语句。
有益效果:
1.采用能够反映立场、看法、主张等的观点词作为观点语句的标志,有利于表征和抽取长文本中蕴含观点的多个语句(即观点语句)。
2.通过语句相似度来量化表示观点语句间的相似关系,以此为基础进行观点语句聚类,可以确保聚类结果更加多样化和精细化,并能有效避免观点聚类及其描述的模糊性和片面性。
3.不但能够对话题观点进行聚类,而且能够根据语句平均相似度为每一观点类选取代表观点语句,从而方便用户能更清晰地了解话题主要观点类的论点、论据和论证过程等细节。
附图说明
图1为本发明实施例中种子观点词的示例;
图2为哈工大信息检索研究室《同义词词林扩展版》的五层结构;
图3为本发明实施例所得的观点词库示例;
图4为本发明进行话题观点聚类的计算流程。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明在具体实施时,先通过网络爬虫等工具从互联网采集与待聚类话题相关的文本,然后按照构建观点词库、话题观点聚类、抽取观点代表语句等3个步骤进行观点聚类,具体各步骤的实施如下:
步骤1,构建观点词库。首先根据话题相关文本,通过经验知识、观察阅读与分析等,为待聚类话题选择最基本的“种子”观点词,图1为“种子”观点词的示例。互联网中的内容信息纷繁复杂,但仅通过人工方式筛选搜集的“种子”观点词数量一般较少,因此其覆盖度相对有限,难以构成比较完整、全面的观点词库。所以,本发明采用哈工大信息检索研究室《同义词词林扩展版》建立同义词规则,对经人工方式所得的“种子”观点词进行扩展。
《同义词词林扩展版》是哈尔滨工业大学信息检索实验室在梅家驹等人编撰的《同义词词林》基础上,参照多部电子词典资源及人民日报语料库等所编写的比较权威的汉语同义词词表,一共包含77343条词语。《同义词词林扩展版》将中文词条按照语义的相近性组织成树状层次结构,它所采用的五层结构如图2所示。所有词条都位于树的叶结点上,两个词的距离越近则它们的语义相似度越高;而同一个叶结点下的词条,语义基本相似,彼此互为同义词。借助于同义词规则,进一步对“种子”观点词集合进行扩展,过程如下:
首先,将经人工方式获得的基本“种子”观点词作为初始数据,加入到观点词集合中;然后,根据《同义词词林扩展版》及同义词规则,对观点词集合中的“种子”观点词进行扩展,把“种子”观点词的同义词也加入到观点词集合中;最后,对经扩展所得的观点词集合,再进行一轮人工筛选,确保观点词集合的合理性和有效性。按上述过程最终获得的观点词集合如图3所示。
步骤2,话题观点聚类。首先根据分句规则对网页正文进行分句,然后抽取该话题所有相关文本中的观点语句(包含观点词的语句),构建该话题的观点语句库。接下来,利用语句相似度计算公式计算这些观点语句之间的相似度,最后利用自底向上的层次聚类方法完成话题观点聚类。该步骤具体又分为4个子步骤,具体实施方式如下:
子步骤2-1,网页正文分句。首先根据分句规则对网页正文进行分句。假设网页集合DS={d1,d2,d3,...},对每一个网页di根据以下3条规则进行分句:
分句规则(1):句子结束符规则。利用句号、叹号、问号作为句子结束符进行分句,拆分出的每一个句子都是一个单句。
分句规则(2):问号删除规则。当一个单句以问号结尾时,删除该单句。
分句规则(3):连词和分号规则。当单句中含有分号的时候,使用分号对单句进行拆分;单句中含有“但是”、“而且”等连词的时候,使用连词对单句进行拆分。
子步骤2-2:构建观点语句库。初始化观点语句库对子步骤2-1中每一条拆分出的单句si,都遍历观点词集合,判断si是否含有观点词。如果si含有观点词,则把si加入到观点语句库SS中;否则,抛弃si。设最后获得的观点语句集合为SS={s1,s2,s3,...,sk}。
子步骤2-3:计算观点语句间的相似度。不失一般性,不妨设SS中任意两条不同的观点语句分别为si,sj。接下来,按照公式(1)计算si和sj之间的语句相似度SimS(si,sj):
SimS(si,sj)=SimB(si,sj)·SimR(si,sj) 公式(1)
其中,SimB(si,sj)表示si和sj之间基于词袋模型的语句相似度,SimR(si,sj)表示si和sj之间基于词序关系的语句相似度,它们的具体计算方式如下:
(1)计算si和sj之间基于词袋模型的语句相似度SimB(si,sj)
假定语句si和sj经过分词并去除停用词之后,所得到的单词集合分别是并且,它们之间的共有单词集合SVi,j=SVi∪SVj={wd1,wd2,wd3,...,wdt}。则基于词袋模型的语句相似度计算方式如下:
设语句si所对应的词袋向量是而语句sj所对应的词袋向量是其中计算BVi的分量的公式如下:
公式(2)中的SimW中表示单词之间的相似度,δ表示阀值,在本实施例中取δ=0.3。对于单词相似度的计算,根据单词wd1和wd2是否都被包含在《同义词词林扩展版》中,将单词相似度分为基于字典的单词相似度和基于搜索引擎的单词相似度两类进行计算:
若单词wd1、wd2都被包含在《同义词词林扩展版》中,则采用公式(3)计算基于字典的单词相似度:
公式(3)中的Dst(wd1,wd2)表示单词wd1、wd2在《同义词词林扩展版》中的最短距离,即结点wd1到结点wd2最短路径的步数;Dep(wd1,wd2)表示wd1和wd2的最近公共父结点的深度;α和β代表系数,取α=0.5,β=0.2。
若单词wd1、wd2不都被包含在《同义词词林扩展版》中时,则采用公式(4)计算基于搜索引擎的单词相似度:
公式(4)中的Doc(wd1)和Doc(wd2)分别表示以wd1和wd2作为关键词进行搜索时,搜索引擎所返回的文档数量,而Doc(wd1,wd2)表示同时以wd1和wd2作为关键词进行搜索时,搜索引擎返回的文档数量。
以公式(3)和公式(4)为基础,应用公式(2)计算出词袋向量BVi和BVj的具体取值之后,进而计算BVi和BVj的相似度SimBV(BVi,BVj),并以它作为语句si和sj之间基于词袋模型的语句相似度SimB(si,sj)。本实施例采用基于余弦相似度的公式(5),计算词袋向量BVi和BVj的相似度:
(2)计算si和sj之间基于词序关系的语句相似度SimR(si,sj)
假定语句si对应的词序向量为而语句sj对应的词序向量为其中计算RVi的分量的公式如下:
公式(6)中的SimW表示单词之间的相似度,δ表示阀值,本发明中取δ=0.3;Index(wdk,SVi)表示wdk在词序向量SVi中的下标,如
应用公式(6)计算出词序向量RVi和RVj的具体取值之后,采用公式(7)计算RVi和RVj的相似度SimBV(BVi,BVj),并以它作为语句si和sj之间基于词序关系的语句相似度SimR(si,sj):
子步骤2-4:采用自底向上聚类方法完成观点聚类。具体过程如下:
(1):首先根据k条观点语句进行初始化,得到k个初始观点类,它们构成的集合VC_Set={VC1,VC2,VC3,...,VCk};
(2):计算集合VC_Set中每两个观点类的类间相似度,寻找类间相似度最大的两个观点类(不妨记为VCi和VCj),按照公式(8)计算它们的类间相似度SimVC(VCi,VCj):
接着将SimVC(VCi,VCj)的具体取值与阀值λ(本发明取λ=0.2)进行比较,若大于阀值λ,跳转至(3),否则,跳转至(4);
(3):将观点类VCj中的观点语句加入观点类VCi中,并从集合VC_Set中删除VCj,即完成观点类VCi和VCj的合并,然后跳转至(2);
(4):完成观点聚类,输出经聚类后的观点类集合VC_Set。
步骤3:抽取观点代表语句。最后,对于聚类所得的该话题每一观点类,从隶属该观点类的所有观点语句中,按照语句平均相似度最高的原则,选取其中最具代表性的语句作为该观点类的代表观点语句,以便用户快速了解每一个观点类的细节。例如,对于观点类VCi,它的代表观点语句sci满足公式(9):
在上述公式(9)中,Sim_Avg的计算方法如公式(10)所示:

Claims (4)

1.一种基于语句相似度的话题观点聚类方法,其特征在于:首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句;具体可以分为三个步骤:
步骤1,构建观点词库;从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词,之后利用同义词扩展规则对种子观点词进行扩展,最终形成针对该话题的观点词库;
步骤2,话题观点聚类;抽取该话题所有相关文本中的观点语句,利用语句相似度计算公式计算这些观点语句之间的相似度,再利用自底向上的层次聚类方法完成话题观点聚类;
步骤3,抽取观点代表语句;对于聚类所得的该话题每一观点类,从隶属该观点类的所有观点语句中,按照语句平均相似度最高的原则,选取其中最具代表性的语句作为该观点类的代表观点语句;
该步骤2具体又分为4个子步骤:
子步骤2-1,网页正文分句;根据分句规则对网页正文进行分句;
子步骤2-2:构建观点语句库;初始化观点语句库对子步骤2-1中每一条拆分出的单句si,遍历观点词集合,判断si是否含有观点词;如果si含有观点词,则把si加入到观点语句库SS中;否则,抛弃si;设最后获得的观点语句集合为SS={s1,s2,s3,...,sk};
子步骤2-3:计算观点语句间的相似度;设SS中任意两条不同的观点语句分别为si,sj;接下来,按照公式(1)计算si和sj之间的语句相似度SimS(si,sj):
SimS(si,sj)=SimB(si,sj)·SimR(si,sj) 公式(1)
其中,SimB(si,sj)表示si和sj之间基于词袋模型的语句相似度,SimR(si,sj)表示si和sj之间基于词序关系的语句相似度,它们的具体计算方式如下:
(1)计算si和sj之间基于词袋模型的语句相似度SimB(si,sj)
假定语句si和sj经过分词并去除停用词之后,所得到的单词集合分别是并且,它们之间的共有单词集合SVi,j=SVi∪SVj={wd1,wd2,wd3,...,wdt},则基于词袋模型的语句相似度计算方式如下:
设语句si所对应的词袋向量是而语句sj所对应的词袋向量是其中计算BVi的分量的公式如下:
公式(2)中的SimW中表示单词之间的相似度,δ表示阈值;应用公式(2)计算出词袋向量BVi和BVj的具体取值之后,进而计算BVi和BVj的相似度SimBV(BVi,BVj),并以它作为语句si和sj之间基于词袋模型的语句相似度SimB(si,sj);
(2)计算si和sj之间基于词序关系的语句相似度SimR(si,sj)
假定语句si对应的词序向量为而语句sj对应的词序向量为其中计算RVi的分量的公式如下:
公式(6)中的SimW表示单词之间的相似度,δ表示阈值;Index(wdk,SVi)表示wdk在词序向量SVi中的下标;
应用公式(6)计算出词序向量RVi和RVj的具体取值之后,采用公式(7)计算RVi和RVj的相似度SimRV(RVi,RVj),并以它作为语句si和sj之间基于词序关系的语句相似度SimR(si,sj):
子步骤2-4:采用自底向上聚类方法完成观点聚类。
2.如权利要求1所述的基于语句相似度的话题观点聚类方法,其特征在于:子步骤2-4的具体过程如下:
(1):首先根据k条观点语句进行初始化,得到k个初始观点类,它们构成的集合VC_Set={VC1,VC2,VC3,...,VCk};
(2):计算集合VC_Set中每两个观点类的类间相似度,寻找类间相似度最大的两个观点类,记为VCi和VCj,按照公式(8)计算它们的类间相似度SimVC(VCi,VCj):
接着将SimVC(VCi,VCj)的具体取值与阈值λ进行比较,若大于阈值λ,跳转至(3),否则,跳转至(4);
(3):将观点类VCj中的观点语句加入观点类VCi中,并从集合VC_Set中删除VCj,即完成观点类VCi和VCj的合并,然后跳转至(2);
(4):完成观点聚类,输出经聚类后的观点类集合VC_Set。
3.如权利要求2所述的基于语句相似度的话题观点聚类方法,其特征在于:假设网页集合DS={d1,d2,d3,...},对每一个网页di根据以下3条规则进行分句:
分句规则(1):句子结束符规则;利用句号、叹号、问号作为句子结束符进行分句,拆分出的每一个句子都是一个单句;
分句规则(2):问号删除规则;当一个单句以问号结尾时,删除该单句;
分句规则(3):连词和分号规则;当单句中含有分号的时候,使用分号对单句进行拆分;单句中含有连词的时候,使用连词对单句进行拆分。
4.如权利要求2所述的基于语句相似度的话题观点聚类方法,其特征在于:对于聚类所得的该话题每一观点类,从隶属该观点类的所有观点语句中,按照语句平均相似度最高的原则,选取其中最具代表性的语句作为该观点类的代表观点语句,以便用户快速了解每一个观点类的细节;对于观点类VCi,它的代表观点语句sci满足公式(9):
在上述公式(9)中,Sim_Avg的计算方法如公式(10)所示:
CN201610801675.5A 2016-09-05 2016-09-05 一种基于语句相似度的话题观点聚类方法 Active CN106372208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610801675.5A CN106372208B (zh) 2016-09-05 2016-09-05 一种基于语句相似度的话题观点聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610801675.5A CN106372208B (zh) 2016-09-05 2016-09-05 一种基于语句相似度的话题观点聚类方法

Publications (2)

Publication Number Publication Date
CN106372208A CN106372208A (zh) 2017-02-01
CN106372208B true CN106372208B (zh) 2019-07-12

Family

ID=57898796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610801675.5A Active CN106372208B (zh) 2016-09-05 2016-09-05 一种基于语句相似度的话题观点聚类方法

Country Status (1)

Country Link
CN (1) CN106372208B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402998B (zh) * 2017-07-20 2020-01-31 山东师范大学 一种基于网址结构的网络论坛页面聚类方法及设备
CN107704558A (zh) * 2017-09-28 2018-02-16 北京车慧互动广告有限公司 一种用户意见抽取方法及系统
CN109784354B (zh) * 2017-11-14 2021-07-09 中移(杭州)信息技术有限公司 基于改进分类效用的无参数聚类方法及电子设备
CN108959269B (zh) * 2018-07-27 2019-07-05 首都师范大学 一种语句自动排序方法及装置
CN109522332A (zh) * 2018-11-22 2019-03-26 泰康保险集团股份有限公司 客户信息数据合并方法、装置、设备及可读存储介质
CN111324723B (zh) * 2018-12-13 2023-04-25 阿里巴巴集团控股有限公司 语句选取方法、语句显示方法、相关装置及计算设备
CN109960756B (zh) * 2019-03-19 2021-04-09 国家计算机网络与信息安全管理中心 新闻事件信息归纳方法
CN110134942B (zh) * 2019-04-01 2020-10-23 北京中科闻歌科技股份有限公司 文本热点提取方法及装置
CN110737751B (zh) * 2019-09-06 2023-10-20 平安科技(深圳)有限公司 基于相似度值的搜索方法、装置、计算机设备和存储介质
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理系统及方法
CN111368553B (zh) * 2020-02-27 2024-02-06 广州视源电子科技股份有限公司 智能词云图数据处理方法、装置、设备及存储介质
CN112199480B (zh) * 2020-09-18 2022-12-06 厦门快商通科技股份有限公司 一种基于bert模型的在线对话日志违规检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN105005590A (zh) * 2015-06-29 2015-10-28 北京信息科技大学 一种信息媒介的专题阶段性摘要的生成方法
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN105005590A (zh) * 2015-06-29 2015-10-28 北京信息科技大学 一种信息媒介的专题阶段性摘要的生成方法
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A survey of text similarity approaches;Gomaa W H, Fahmy A A;《International Journal of Computer Applications》;20131231;第68卷(第13期);1-6
微博客话题评论的聚类分析;张超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140415(第04期);1

Also Published As

Publication number Publication date
CN106372208A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN106372208B (zh) 一种基于语句相似度的话题观点聚类方法
Kanan et al. A review of natural language processing and machine learning tools used to analyze arabic social media
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Thushara et al. A comparative study on different keyword extraction algorithms
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
Duari et al. Complex network based supervised keyword extractor
Pourvali et al. Automated text summarization base on lexicales chain and graph using of wordnet and wikipedia knowledge base
CN110807326B (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
CN102662936A (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
Nandi et al. Bangla news recommendation using doc2vec
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Lynn et al. An improved method of automatic text summarization for web contents using lexical chain with semantic-related terms
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
Subramaniam et al. Test model for rich semantic graph representation for Hindi text using abstractive method
Wang et al. A semantic query expansion-based patent retrieval approach
Yuan et al. Task-specific word identification from short texts using a convolutional neural network
Nehrdich A method for the calculation of parallel passages for Buddhist Chinese sources based on million-scale nearest neighbor search
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
Zhao et al. Expanding approach to information retrieval using semantic similarity analysis based on WordNet and Wikipedia
Liu et al. Keyword extraction using PageRank on synonym networks
Hajjem et al. Building comparable corpora from social networks
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
Zhang et al. Research and implementation of keyword extraction algorithm based on professional background knowledge

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant