CN104778204A - 基于两层聚类的多文档主题发现方法 - Google Patents

基于两层聚类的多文档主题发现方法 Download PDF

Info

Publication number
CN104778204A
CN104778204A CN201510093441.5A CN201510093441A CN104778204A CN 104778204 A CN104778204 A CN 104778204A CN 201510093441 A CN201510093441 A CN 201510093441A CN 104778204 A CN104778204 A CN 104778204A
Authority
CN
China
Prior art keywords
word
sentence
sent
semantic concept
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510093441.5A
Other languages
English (en)
Other versions
CN104778204B (zh
Inventor
陈健
袁慎溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Samsung Guangzhou Mobile R&D Center
Samsung Electronics Co Ltd
Original Assignee
South China University of Technology SCUT
Samsung Guangzhou Mobile R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Samsung Guangzhou Mobile R&D Center, Samsung Electronics Co Ltd filed Critical South China University of Technology SCUT
Priority to CN201510093441.5A priority Critical patent/CN104778204B/zh
Publication of CN104778204A publication Critical patent/CN104778204A/zh
Application granted granted Critical
Publication of CN104778204B publication Critical patent/CN104778204B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于两层聚类的多文档主题发现方法,包括下述步骤:S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。本发明提炼出词语间的内在语义联系,解决建立句子特征向量时各个特征项之间“非正交”的情况。

Description

基于两层聚类的多文档主题发现方法
技术领域
本发明涉及两层聚类的研究领域,特别涉及一种基于两层聚类的多文档主题发现方法。
背景技术
在多文档的主题发现的句子表示方面,一般技术主要使用句子分词,使用基于分词结果的词频向量或TF-IDF向量等方式来表示句子。通常情况下,词语在语义空间中的分布不是均匀的,这样,传统向量空间模型中特征分量间“斜交”会给句子聚类带来负面的影响。而在基于密度的句子聚类算法中,一般半径参数需要提前指定,这也给多文档的主题发现带来了不便。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于两层聚类的多文档主题发现方法。
为了达到上述目的,本发明采用以下技术方案:
一种基于两层聚类的多文档主题发现方法,包括下述步骤:
S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;
S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;
S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。
优选的,步骤S1中,词义消歧处理的具体方法为:
对于分词后的结果,首先标注其词性,只关注名词集合和动词集合,对于其中的多义词w,首先使用语义词典获取它的各个词义,然后分别计算每个词义与其前后各k个相同词性的词的词义相似度的和。
优选的,词义相似度的计算方法为:
S11、对于中文语料的词义相似度,利用知网词典中用于描述一个概念特征结构的前三个部分来定义两个词语w1和w2之间的相似度,即定义:1)基于第一基本义原描述的相似度定义为Sim1(w1,w2);2)基于其他基本义原描述的相似度定义为Sim2(w1,w2);3)基于关系义原描述的相似度定义为Sim3(w1,w2),最后对上述3项相似度加权求和,从而得到两个词w1和w2基于词义间的整体相似度如下式:
Sim ( w 1 , w 2 ) = Π i = 1 3 α i ( Π j = 1 i Sim j ( w 1 , w 2 ) )
其中,αi为调节参数,且α123=1。
为了表示在上下文中距离更近的词对该多义词词义起到更大的影响作用,在此处引入距离衰竭函数,假设多义词w与某同性词语w’间隔n个单词,则相似度为
Sim ( w , w ′ ) = 1 n 2 Σ i = 1 4 α i ( Π j = 1 i Sim j ( w 1 , w 2 ) ) .
优选的,步骤S2中,采用改进的OPTICS算法对词语进行聚类分析具体为:
S21、按上述步骤对数据集中的名词集合、动词集合分别进行词义消歧后,使用OPTICS算法分别对名词集合、动词集合进行聚类分析,具体为:
S21、遍历词语集合,如果在半径参数ε范围内的相似词语大于另一参数minPts,则定义该词语为核心词语;
S212、如是核心词语,则存储其语义概念半径参数ε范围内的所有词语,表示为同一个语义概念。
S22、对名词集合、动词集合分别进行聚类分析后,该方法把聚类结果中的一个簇对象定义为一个语义概念,表示为Concept=(POS,w1,w2,…,wn),其中POS表示该语义概念的词性,{w1,w2,…,wn}表示该语义概念包含的词语集合。
优选的,步骤S2中,对句子进行建立向量空间模型的具体方法为:
词语聚类分析后,把语义概念Concept作为特征项,使用词频作为特征项的权重,从而对每个句子建立特征向量,称为语义概念向量;假设词语聚类分析后的语义概念有n个,则句子Sentj的语义概念向量表示为其中,iij=TFij,指的是语义概念Concepti在句子Sentj中出现的次数,也就是词频。
优选的,步骤S3中,采用了改进的k中心点算法对句子进行聚类分析,具体为:
S31、随机选取k个句子为中心点,代表了k个簇;
S32、为k个中心点句子寻找与其最近的k个邻居放入对应的簇中;
S33、计算k个簇的半径,所述半径为每两个句子的距离和的平均,并计算所有簇的平均半径记为r;
S34、若某个句子Senti的半径r内有另一个句子Sentj,则称这两个句子直接密度可达,对应的句子则表达同样的主题,继续这个过程直至没有句子加入到簇中,则识别为一个主题,表示为:Topici={Sent1,Sent2,…,Sentn}。
优选的,步骤S33中,句子Senti到Sentj之间的距离使用其语义概念向量间的修正余弦相似度来衡量,计算方法如下:
其中:n表示词语聚类分析后的语义概念个数,ωki表示Senti中第k个语义概念出现的次数,ωkj表示Sentj中第k个语义概念出现的次数,表示第k个语义概念在所有句子中出现的平均次数。
本发明与现有技术相比,具有如下优点和有益效果:
1)本发明提炼出词语间的内在语义联系,解决建立句子特征向量时各个特征项之间“非正交”的情况。
2)本发明通过找出部分能代表多文档集合主题的名词、动词,上升为语义概念,作为句子特征向量的特征项,同时剔除一些与主题关系不大的词语,有利于减少特征向量空间维度,提高运算速度。
3)本发明采用对词语、句子分别进行聚类的方法来挖掘句之间内在联系,提高基于语义的主题发现的精度。
4)本发明采用改进的OPTICS算法对词语进行聚类分析,有助于挖掘出各种形状的词语聚集区域,同时又能把一些被看作噪声的词语剔除出去
5)本发明采用改进的k中心点算法对句子进行聚类分析,主要优势在于使用自动聚类簇的平均半径来确定句子间的紧密程度,并采用语义概念向量间的修正余弦相似度来衡量句子之间的距离,能够凸显基于语义概念的主题内容相似性,同时也能处理句子语义概念向量分布不均匀的问题。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于两层聚类的多文档主题发现方法,包括下述步骤:
S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;其中词义消歧处理的具体方法为:
对于分词后的结果,首先标注其词性,只关注名词集合和动词集合,对于其中的多义词w,首先使用语义词典获取它的各个词义,然后分别计算每个词义与其前后各k个相同词性的词的词义相似度的和。
上述词义相似度的计算方法为:
S11、对于中文语料的词义相似度,利用知网词典中用于描述一个概念特征结构的前三个部分来定义两个词语w1和w2之间的相似度,即定义:1)基于第一基本义原描述的相似度定义为Sim1(w1,w2);2)基于其他基本义原描述的相似度定义为Sim2(w1,w2);3)基于关系义原描述的相似度定义为Sim3(w1,w2),最后对上述3项相似度加权求和,从而得到两个词w1和w2基于词义间的整体相似度如下式:
Sim ( w 1 , w 2 ) = Π i = 1 3 α i ( Π j = 1 i Sim j ( w 1 , w 2 ) )
其中,αi为调节参数,且α123=1。
为了表示在上下文中距离更近的词对该多义词词义起到更大的影响作用,在此处引入距离衰竭函数,假设多义词w与某同性词语w’间隔n个单词,则相似度为
Sim ( w , w ′ ) = 1 n 2 Σ i = 1 4 α i ( Π j = 1 i Sim j ( w 1 , w 2 ) ) .
S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型。
本实施例中,采用改进的OPTICS算法对词语进行聚类分析具体为:
S21、按上述步骤对数据集中的名词集合、动词集合分别进行词义消歧后,使用OPTICS算法分别对名词集合、动词集合进行聚类分析,具体为:
S21、遍历词语集合,如果在半径参数ε范围内的相似词语大于另一参数minPts,则定义该词语为核心词语;
S212、如是核心词语,则存储其语义概念半径参数ε范围内的所有词语,表示为同一个语义概念。
S22、对名词集合、动词集合分别进行聚类分析后,该方法把聚类结果中的一个簇对象定义为一个语义概念,表示为Concept=(POS,w1,w2,…,wn),其中POS表示该语义概念的词性,{w1,w2,…,wn}表示该语义概念包含的词语集合。
进一步的,上述对句子进行建立向量空间模型的具体方法为:
词语聚类分析后,把语义概念Concept作为特征项,使用词频作为特征项的权重,从而对每个句子建立特征向量,称为语义概念向量;假设词语聚类分析后的语义概念有n个,则句子Sentj的语义概念向量表示为其中,ωij=TFij,指的是语义概念Concepti在句子Sentj中出现的次数,也就是词频。
S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。
采用了改进的k中心点算法对句子进行聚类分析,具体为:
S31、随机选取k个句子为中心点,代表了k个簇;
S32、为k个中心点句子寻找与其最近的k个邻居放入对应的簇中;
S33、计算k个簇的半径,所述半径为每两个句子的距离和的平均,并计算所有簇的平均半径记为r;
步骤S33中,句子Senti到Sentj之间的距离使用其语义概念向量间的修正余弦相似度来衡量,计算方法如下:
其中:n表示词语聚类分析后的语义概念个数,ωki表示Senti中第k个语义概念出现的次数,ωkj表示Sentj中第k个语义概念出现的次数,表示第k个语义概念在所有句子中出现的平均次数。
S34、若某个句子Senti的半径r内有另一个句子Sentj,则称这两个句子直接密度可达,对应的句子则表达同样的主题,继续这个过程直至没有句子加入到簇中,则识别为一个主题,表示为:Topici={Sent1,Sent2,…,Sentn}。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于两层聚类的多文档主题发现方法,其特征在于,包括下述步骤:
S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;
S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;
S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。
2.根据权利要求1所述的基于两层聚类的多文档主题发现方法,其特征在于,步骤S1中,词义消歧处理的具体方法为:
对于分词后的结果,首先标注其词性,只关注名词集合和动词集合,对于其中的多义词w,首先使用语义词典获取它的各个词义,然后分别计算每个词义与其前后各k个相同词性的词的词义相似度的和。
3.根据权利要求2所述的基于两层聚类的多文档主题发现方法,其特征在于,词义相似度的计算方法为:
S11、对于中文语料的词义相似度,利用知网词典中用于描述一个概念特征结构的前三个部分来定义两个词语w1和w2之间的相似度,即定义:1)基于第一基本义原描述的相似度定义为Sim1(w1,w2);2)基于其他基本义原描述的相似度定义为Sim2(w1,w2);3)基于关系义原描述的相似度定义为Sim3(w1,w2),最后对上述3项相似度加权求和,从而得到两个词w1和w2基于词义间的整体相似度如下式:
Sim ( w 1 , w 2 ) = Σ i = 1 3 α i ( Π j = 1 i Sim j ( w 1 , w 2 ) )
其中,αi为调节参数,且α123=1。
为了表示在上下文中距离更近的词对该多义词词义起到更大的影响作用,在此处引入距离衰竭函数,假设多义词w与某同性词语w’间隔n个单词,则相似度为
Sim ( w , w ′ ) = 1 n 2 Σ i = 1 4 α i ( Π j = 1 i Sim j ( w 1 , w 2 ) ) .
4.根据权利要1所述的基于两层聚类的多文档主题发现方法,其特征在于,步骤S2中,采用改进的OPTICS算法对词语进行聚类分析具体为:
S21、按上述步骤对数据集中的名词集合、动词集合分别进行词义消歧后,使用OPTICS算法分别对名词集合、动词集合进行聚类分析,具体为:
S21、遍历词语集合,如果在半径参数ε范围内的相似词语大于另一参数minPts,则定义该词语为核心词语;
S212、如是核心词语,则存储其语义概念半径参数ε范围内的所有词语,表示为同一个语义概念。
S22、对名词集合、动词集合分别进行聚类分析后,该方法把聚类结果中的一个簇对象定义为一个语义概念,表示为Concept=(POS,w1,w2,…,wn),其中POS表示该语义概念的词性,{w1,w2,…,wn}表示该语义概念包含的词语集合。
5.根据权利要求1所述的基于两层聚类的多文档主题发现方法,其特征在于,步骤S2中,对句子进行建立向量空间模型的具体方法为:
词语聚类分析后,把语义概念Concept作为特征项,使用词频作为特征项的权重,从而对每个句子建立特征向量,称为语义概念向量;假设词语聚类分析后的语义概念有n个,则句子Sentj的语义概念向量表示为其中,ωij=TFij,指的是语义概念Concepti在句子Sentj中出现的次数,也就是词频。
6.根据权利要求1所述的基于两层聚类的多文档主题发现方法,其特征在于,步骤S3中,采用了改进的k中心点算法对句子进行聚类分析,具体为:
S31、随机选取k个句子为中心点,代表了k个簇;
S32、为k个中心点句子寻找与其最近的k个邻居放入对应的簇中;
S33、计算k个簇的半径,所述半径为每两个句子的距离和的平均,并计算所有簇的平均半径记为r;
S34、若某个句子Senti的半径r内有另一个句子Sentj,则称这两个句子直接密度可达,对应的句子则表达同样的主题,继续这个过程直至没有句子加入到簇中,则识别为一个主题,表示为:Topici={Sent1,Sent2,…,Sentn}。
7.根据权利要求6所述的基于两层聚类的多文档主题发现方法,其特征还在于,步骤S33中,句子Senti到Sentj之间的距离使用其语义概念向量间的修正余弦相似度来衡量,计算方法如下:
Sim ( Sent i → , Sent j → ) = Σ k = 1 n ( ω ki - ω k ‾ ) * ( ω kj - ω k ‾ ) Σ k = 1 n ( ω ki - ω k ‾ ) 2 * Σ k = 1 n ( ω kj - ω k ‾ ) 2
其中:n表示词语聚类分析后的语义概念个数,ωki表示Senti中第k个语义概念出现的次数,ωkj表示Sentj中第k个语义概念出现的次数,表示第k个语义概念在所有句子中出现的平均次数。
CN201510093441.5A 2015-03-02 2015-03-02 基于两层聚类的多文档主题发现方法 Expired - Fee Related CN104778204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510093441.5A CN104778204B (zh) 2015-03-02 2015-03-02 基于两层聚类的多文档主题发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510093441.5A CN104778204B (zh) 2015-03-02 2015-03-02 基于两层聚类的多文档主题发现方法

Publications (2)

Publication Number Publication Date
CN104778204A true CN104778204A (zh) 2015-07-15
CN104778204B CN104778204B (zh) 2018-03-02

Family

ID=53619668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510093441.5A Expired - Fee Related CN104778204B (zh) 2015-03-02 2015-03-02 基于两层聚类的多文档主题发现方法

Country Status (1)

Country Link
CN (1) CN104778204B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893611A (zh) * 2016-04-27 2016-08-24 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN106250502A (zh) * 2016-07-28 2016-12-21 五八同城信息技术有限公司 确定相似职位的方法及装置
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
CN107391613A (zh) * 2017-07-04 2017-11-24 北京航空航天大学 一种工业安全主题多文档自动消歧方法及装置
CN107430633A (zh) * 2015-11-03 2017-12-01 慧与发展有限责任合伙企业 与数据存储系统相关联的经相关优化的代表性内容
CN109165388A (zh) * 2018-09-28 2019-01-08 郭派 一种构建英语多义词释义语义树的方法和模块
CN110019806A (zh) * 2017-12-25 2019-07-16 中国移动通信集团公司 一种文档聚类方法及设备
CN110866110A (zh) * 2019-09-20 2020-03-06 平安科技(深圳)有限公司 基于人工智能的会议纪要生成方法、装置、设备及介质
CN111104478A (zh) * 2019-09-05 2020-05-05 李轶 一种领域概念语义漂移探究方法
CN111414523A (zh) * 2020-03-11 2020-07-14 中国建设银行股份有限公司 一种数据获取方法和装置
CN112307204A (zh) * 2020-10-22 2021-02-02 首都师范大学 基于聚类等级关系自动识别方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
US20090300486A1 (en) * 2008-05-28 2009-12-03 Nec Laboratories America, Inc. Multiple-document summarization using document clustering
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN103049524A (zh) * 2012-12-20 2013-04-17 中国科学技术信息研究所 同义词检索结果按词义自动聚类方法
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
US20090300486A1 (en) * 2008-05-28 2009-12-03 Nec Laboratories America, Inc. Multiple-document summarization using document clustering
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN103049524A (zh) * 2012-12-20 2013-04-17 中国科学技术信息研究所 同义词检索结果按词义自动聚类方法
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
胡立: "基于语义层次聚类的多文档自动摘要研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈戈等: "基于潜在语义索引和句子聚类的中文自动文摘", 《计算机仿真》 *
鲁婷: "一种基于中心文档的KNN中文文本分类算法", 《计算机工程与应用》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430633A (zh) * 2015-11-03 2017-12-01 慧与发展有限责任合伙企业 与数据存储系统相关联的经相关优化的代表性内容
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
CN105893611B (zh) * 2016-04-27 2020-04-07 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN105893611A (zh) * 2016-04-27 2016-08-24 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN106250502A (zh) * 2016-07-28 2016-12-21 五八同城信息技术有限公司 确定相似职位的方法及装置
CN106708969B (zh) * 2016-12-02 2020-01-10 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法
CN107391613A (zh) * 2017-07-04 2017-11-24 北京航空航天大学 一种工业安全主题多文档自动消歧方法及装置
CN110019806A (zh) * 2017-12-25 2019-07-16 中国移动通信集团公司 一种文档聚类方法及设备
CN110019806B (zh) * 2017-12-25 2021-08-06 中移动信息技术有限公司 一种文档聚类方法及设备
CN109165388A (zh) * 2018-09-28 2019-01-08 郭派 一种构建英语多义词释义语义树的方法和模块
CN109165388B (zh) * 2018-09-28 2022-06-21 郭派 一种构建英语多义词释义语义树的方法和系统
CN111104478A (zh) * 2019-09-05 2020-05-05 李轶 一种领域概念语义漂移探究方法
CN110866110A (zh) * 2019-09-20 2020-03-06 平安科技(深圳)有限公司 基于人工智能的会议纪要生成方法、装置、设备及介质
CN111414523A (zh) * 2020-03-11 2020-07-14 中国建设银行股份有限公司 一种数据获取方法和装置
CN112307204A (zh) * 2020-10-22 2021-02-02 首都师范大学 基于聚类等级关系自动识别方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN104778204B (zh) 2018-03-02

Similar Documents

Publication Publication Date Title
CN104778204A (zh) 基于两层聚类的多文档主题发现方法
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
CN104915340B (zh) 自然语言问答方法及装置
CN106484664B (zh) 一种短文本间相似度计算方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104462378B (zh) 用于文本识别的数据处理方法及装置
CN102866989B (zh) 基于词语依存关系的观点抽取方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN106445920A (zh) 利用句义结构特征的句子相似度计算方法
CN103136359A (zh) 单文档摘要生成方法
CN108132929A (zh) 一种海量非结构化文本的相似性计算方法
CN103778207A (zh) 基于lda的新闻评论的话题挖掘方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN103823848A (zh) 一种基于lda和vsm的中草药相似文献的推荐方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN103559174B (zh) 语义情感分类特征值提取方法及系统
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110502742A (zh) 一种复杂实体抽取方法、装置、介质及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180302

Termination date: 20190302