CN103064969A - 自动建立关键词索引表的方法 - Google Patents

自动建立关键词索引表的方法 Download PDF

Info

Publication number
CN103064969A
CN103064969A CN2012105930972A CN201210593097A CN103064969A CN 103064969 A CN103064969 A CN 103064969A CN 2012105930972 A CN2012105930972 A CN 2012105930972A CN 201210593097 A CN201210593097 A CN 201210593097A CN 103064969 A CN103064969 A CN 103064969A
Authority
CN
China
Prior art keywords
word
vocabulary
keyword
value
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105930972A
Other languages
English (en)
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN2012105930972A priority Critical patent/CN103064969A/zh
Publication of CN103064969A publication Critical patent/CN103064969A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种自动建立关键词索引表的方法,包括:对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;过滤词语列表中的候选关键词,获得粗候选词语集合,获取候选关键词各个义项的代码;根据词语的语义相似度对候选关键词进行构建同义词词链,得到同义词链集合;获取同义词链集合中词汇的词语权值,按照词语权值提取关键词组成关键词集合;将关键词集合和已有的参考库关键词索引集合比较,如果参考库关键词索引集合包含候选关键词,则给出相关文档集;如果不包含候选关键词字,将候选关键词加入参考库关键词集合,同时建立索引。本发明技术方案与传统的关键词提取方法相比,在查准率和召回率上有明显提高。

Description

自动建立关键词索引表的方法
技术领域
本发明涉及一种计算机技术,具体说,涉及一种自动建立关键词索引表的方法。
背景技术
关键词用于表征文档的重要信息和核心内容,便于得到文档的摘要信息和检索具体文档。传统的关键词提取一般采用人工提取,而人工提取关键词非常费时,随着文档数量的剧增,人工提取关键词越来越不能满足实际应用的需求。因此,如何自动提取关键词是文档检索研究的一个热点难点。
关键词提取是文本挖掘领域的基础性研究问题,许多文本挖掘系统以关键词所在的句子作为文摘句,大多聚类和分类算法也是用关键词算法构造文章的特征向量以提高算法的准确度同时降低特征空间的维度。目前多数关键词提取算法是利用词的统计信息判断词的重要性,并选取超过一定阀值的词作为文章的关键词,基于这种方法提出了多个关键词衡量函数,包括TFIDF、熵函数、分布系数等。
许多机器学习算法也应用于关键词提取,例如朴素贝叶斯算法、决策树和最大熵算法。上述算法通过训练语料获得提取函数,然后选取能够使提取函数得到最大值的词作为关键词。
由于文档包含信息的多样性,使得现实应用中很难获得一个通用的提取函数或模型用于关键词提取。现有的关键词自动提取算法可以分为3大类:
1、基于统计的方法,该方法简单易行不需要复杂的算法过程,如词语频率统计方法。
2、基于规则的方法,根据一定规则将文档映射为词语网络,利用词语网络计算词语的关键度,如采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,然后从文档中抽取关键词。
以上两类方法都是从频度或规则上提取关键词,没有考虑到词语的语义、词性等信息,相对来说精确度不高。
3、基于上下文语义的自然语言理解的方法,该方法主要利用词义或语义和词性特征来提取关键词,配合上述两类方法,能从文档中提取出较高正确率的关键词。这是自动提取关键词的主要研究方向。
发明内容
本发明所解决的技术问题是提供一种自动建立关键词索引表的方法,与传统的关键词提取方法相比,在查准率和召回率上有明显提高。
技术方案如下:
一种自动建立关键词索引表的方法,包括:
对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;
过滤所述词语列表中的候选关键词,获得粗候选词语集合,获取所述粗选词语集合中候选关键词各个义项的代码,两个义项的代码距离表征义项的语义距离;
根据词语的语义相似度,对粗选词语集合中候选关键词进行构建同义词词链,得到同义词链集合;
获取所述同义词链集合中词汇的词语权值,按照所述词语权值提取关键词,组成关键词集合;
将所述关键词集合和已有的参考库关键词索引集合比较,如果所述参考库关键词索引集合包含所述关键词集合中的候选关键词,则给出相关文档集;如果不包含所述候选关键词字,将所述候选关键词加入参考库关键词集合,同时建立索引。
进一步,对待翻译文档进行分词处理和词性标注的过程包括:
对待翻译文档进行分词处理,获得文档的所有词语列表;
对该词语列表进行词性标注,将词汇按照停用词、形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词等词性分类标准进行词性标注。
进一步,过滤候选关键词的过程包括:去除所获词语列表中的停用词,保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词,获得所述粗候选词语集合。
进一步,构建同义词链集合的步骤包括:
计算候选词集合W中的每个词汇在文本中出现的次数t;
根据词汇的t值的大小对W中所有的词汇按降序排列,假设排序后W={w1,w2,…,wn},并为每个词汇设立一个开关项F,F=1表示该词汇已成为某同义词集中的元素,初始全部设为0;
将W中w1作为第一个词集WG1的第一个元素,将wi(2≤i≤n)中F值不为1的词语与w1按式1进行语义相似度计算,当其语义相似度大于阈值0.7时,认定wi属于WG1,将wi插入词集WG1中,并将wi的F值改为1;
按排序将w1后首个F值不不为1的词语作为词链WG2的头,重复第3步的算法,得到WG2
重复这个过程直到W中所有词汇的F值为1,得到同义词链集合{WG1,WG2,...,WGk}。
进一步,获取所述同义词链集合中词汇的词语权值的过程包括:
根据得到的所述同义词链集合,计算每个同义词集中的元素个数num,及该集合中包含标题词的数目head;
计算每个词汇的位置特征值loc和词性特征值ch;若该词汇出现在标题中loc值为5,若出现在正文中loc值为1,若词汇为名词则ch值为2,其他词汇ch值为1;
获取词汇权重
Weights(wi)=α×numi+β×TFiIDKFi+γ×loci+δ×headi+ε×chi
其中,α,β,γ,δ,ε为人为设定的权重调节因子,取值为0~1,且α+β+γ+δ+ε=1,此处设定α=0.45,β=0.25,γ=0.1,δ=0.1,ε=0.1;numi为词汇wi所在同义词集的集合个数;loci为wi的位置特征值;headi为wi所在同义词集包含标题词的数目;chi为wi的词性特征值。
与现有技术相比,技术效果如下:
本发明提供一种快速自动提取关键词建立索引表的方法,该方法使用以词汇语义构建同义词集合为基础,结合词频统计与词汇区域特征,并考虑词性、词语上下文关系等启发性知识计算词汇权重,通过对大量文档的测试,这种关键词提取方法与传统的关键词提取方法相比在查准率和召回率上有明显提高,为进行文档相似性计算、文档聚类、文档分类提供了基础性的工作。
附图说明
图1是本发明中自动建立关键词索引表的方法的流程图。
具体实施方式
面对海量参考翻译文献库,要为待译文档找到合适的相似文档,需对文献库进行完整的相似性匹配,无论时间还是空间都很难达到要求。通过为参考翻译文献库建立关键词索引表,可以快速在翻译文献库中为待译文档找到合适的参考文档子集,这样可以有效提高查询速度,得到相对准确的匹配文档。关键词用于表征文档的重要信息和核心内容,便于得到文档的摘要信息和检索具体文档。
同义词词典是一种按树形结构编码的同义词分类词典,该树结构的每个节点有唯一的代码,对应了若干个义项;这样词语的语义距离,就可以通过计算该词语的义项在树结构上的距离得到。
一个词语往往有多种表达含义,每个不同的含义称之为词语的一个义项。义项为同义词词典中的最小单位,在词典中有相应的代码与其对应。例如:“骄傲”这个词可以有两种含义,“自豪”和“傲慢”,这就是骄傲这个词语的两个义项。
两个义项(S1,S2)的距离通过计算其在词典中的代码距离得到,记为:Dis(S1,S2)。义项相似度与义项距离为反比关系,记为:Sim(S1,S2)=L/(Dis(S1,S2)+L),其中L为调节参数,L越大相似度表现得越不灵敏,一般可以取为词典树结构的层数。
词语的语义相似度是个取值范围在[0,1]之间的数值。词语与其本身的语义相似度为1,如果两个词语在任何上下文中都不可替换,则相似度为0。词语的语义相似度同词语的语义距离为反比关系。设有两个词语w1和w2,如果w1有n个义项:s11,s12,...,s1n,w2有m个义项:s21,s22,...,s2m,则规定w1和w2的词语相似度(Sim(w1,w2))为这两个词语各个义项相似度的最大值,即:
Sim ( w 1 , w 2 ) = max i = 1,2 , . . . , n ; j = 1,2 , . . . , m Sim ( s 1 i , s 2 j ) - - - ( 1 )
同义词集是通过一定算法将文档中表达相同意思的词汇组成的集合,一篇文档可以抽象为多个同义词集(关键词的同义词集)构成的集合。构建同义词集:首先对文档进行分词,再对这些候选词进行词义相似度计算,相似度在一定阀值内的词语组成了相应的同义词集。
TF-IDF(term frequency–inverse document frequency)即TF×IDF,是一种统计方法,用以评估词语对于一个文件集或一个语料库中的其中一份文件的重要程度。TF:词语在文档中的出现的频率;IDF:逆向文档频率。词语wi在文档D中出现的频率TFi=ti/N(ti为wi在文档中的出现次数,N为文档中的词语总数)。
词语wi在文档集合DS中的逆向文档频率
Figure BDA00002686840100052
|DS|为文档集合中的文档总数;分母是文档集合DS中包含wi的文档数。
本发明采取基于上下文语义的方法,利用哈工大的《同义词词林》扩展版和普林斯顿的《WorldNet》分别作为中英文的同义词词典,来计算词语的语义距离,获得词语的语义相似度,通过语义相似度构建同义词集,以同义词集为基础,结合词频特征、位置特征和集聚特征计算词汇在文档中的权重,从而得到关键词,并建立关键词索引表。
下面参考附图,对本发明技术方案作详细描述。如图1所示,是本发明中自动建立关键词索引表的方法的流程图。
步骤101:对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;
1、对待翻译文档进行分词处理,获得文档的所有词语列表;
2、对该词语列表进行词性标注,将词汇按照停用词、形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词等词性分类标准进行词性标注。
步骤102:过滤所获词语列表中的候选关键词,获得粗候选词语集合;
去除所获词语列表中的停用词,保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词,获得粗候选词语集合W。
步骤103:获取粗选词语集合W中候选关键词各个义项的代码,两个义项的代码距离(即代码值的差)表征义项的语义距离;
根据《同义词词林》和《WorldNet》,获得候选词语集合W中词语的各个义项的代码。
步骤104:根据词语的语义相似度,对粗选词语集合中候选关键词进行构建同义词词链,得到同义词链集合;
同义词链是将文档中表达相同意思的候选关键词通过算法组成的词语集合,一篇文档可以抽象为多个同义词的同义词链集合。在构建同义词链时,首先要做的是对文档进行分词,对这些候选词进行词义相似度计算,从而得到同义词链。
构建同义词链集合的步骤包括:
1、计算候选词集合W中的每个词汇在文本中出现的次数t;
2、根据词汇的t值的大小对W中所有的词汇按降序排列,假设排序后W={w1,w2,…,wn},并为每个词汇设立一个开关项F(F=1表示该词汇已成为某同义词集中的元素,初始全部设为0);
3、将W中w1作为第一个词集WG1的第一个元素,将wi(2≤i≤n)中F值不为1的词语与w1按式1进行语义相似度计算,当其语义相似度大于阈值0.7时,认定wi属于WG1,将wi插入词集WG1中,并将wi的F值改为1;
4、按排序将w1后首个F值不不为1的词语作为词链WG2的头,重复第3步的算法,得到WG2
5、重复这个过程直到W中所有词汇的F值为1,得到同义词链集合{WG1,WG2,...,WGk}。
步骤105:计算同义词链集合中词汇的词语权值;
1、根据得到的同义词链集合,计算每个同义词集中的元素个数num,及该集合中包含标题词的数目head;
2、计算每个词汇的位置特征值loc(若该词汇出现在标题中loc值为5,若出现在正文中loc值为1),和词性特征值ch(若该词汇为名词则ch值为2,其他词汇ch值为1);
3、计算词汇权重,计算公式如下:
Weights(wi)=α×numi+β×TFiIDFi+γ×loci+δ×headi+ε×chi
其中,α,β,γ,δ,ε为人为设定的权重调节因子,取值为0~1,且α+β+γ+δ+ε=1,此处设定α=0.45,β=0.25,γ=0.1,δ=0.1,ε=0.1;
numi为词汇wi所在同义词集的集合个数;
loci为wi的位置特征值;
headi为wi所在同义词集包含标题词的数目;
chi为wi的词性特征值。
步骤106:提取关键词,组成关键词集合;
按词汇的权重,根据一定阀值取排在前列的为该文档的关键词,数目不超过8个不少于3个,组成关键词集合。
步骤107:关键词比较;
比较所获得的待翻译文档的关键词集合和已有的参考库关键词索引集合,若参考库关键词索引集合包含该关键词,给出相关文档集,若无该关键词,将该关键词加入参考库关键词集合同时建立索引。
合并给出的符合关键词条件的文档集,得到符合条件的文档子集。

Claims (5)

1.一种自动建立关键词索引表的方法,包括:
对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;
过滤所述词语列表中的候选关键词,获得粗候选词语集合,获取所述粗选词语集合中候选关键词各个义项的代码,两个义项的代码距离表征义项的语义距离;
根据词语的语义相似度,对粗选词语集合中候选关键词进行构建同义词词链,得到同义词链集合;
获取所述同义词链集合中词汇的词语权值,按照所述词语权值提取关键词,组成关键词集合;
将所述关键词集合和已有的参考库关键词索引集合比较,如果所述参考库关键词索引集合包含所述关键词集合中的候选关键词,则给出相关文档集;如果不包含所述候选关键词字,将所述候选关键词加入参考库关键词集合,同时建立索引。
2.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,对待翻译文档进行分词处理和词性标注的过程包括:
对待翻译文档进行分词处理,获得文档的所有词语列表;
对该词语列表进行词性标注,将词汇按照停用词、形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词等词性分类标准进行词性标注。
3.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,过滤候选关键词的过程包括:去除所获词语列表中的停用词,保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词,获得所述粗候选词语集合。
4.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,构建同义词链集合的步骤包括:
计算候选词集合W中的每个词汇在文本中出现的次数t;
根据词汇的t值的大小对W中所有的词汇按降序排列,假设排序后W={w1,w2,…,wn},并为每个词汇设立一个开关项F,F=1表示该词汇已成为某同义词集中的元素,初始全部设为0;
将W中w1作为第一个词集WG1的第一个元素,将wi(2≤i≤n)中F值不为1的词语与w1按式1进行语义相似度计算,当其语义相似度大于阈值0.7时,认定wi属于WG1,将wi插入词集WG1中,并将wi的F值改为1;
按排序将w1后首个F值不不为1的词语作为词链WG2的头,重复第3步的算法,得到WG2
重复这个过程直到W中所有词汇的F值为1,得到同义词链集合{WG1,WG2,...,WGk}。
5.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,获取所述同义词链集合中词汇的词语权值的过程包括:
根据得到的所述同义词链集合,计算每个同义词集中的元素个数num,及该集合中包含标题词的数目head;
计算每个词汇的位置特征值loc和词性特征值ch;若该词汇出现在标题中loc值为5,若出现在正文中loc值为1,若词汇为名词则ch值为2,其他词汇ch值为1;
获取词汇权重
Weights(wi)=α×numi+β×TFiIDFi+γ×loci+δ×headi+ε×chi
其中,α,β,γ,δ,ε为人为设定的权重调节因子,取值为0~1,且α+β+γ+δ+ε=1,此处设定α=0.45,β=0.25,γ=0.1,δ=0.1,ε=0.1;numi为词汇wi所在同义词集的集合个数;loci为wi的位置特征值;headi为wi所在同义词集包含标题词的数目;chi为wi的词性特征值。
CN2012105930972A 2012-12-31 2012-12-31 自动建立关键词索引表的方法 Pending CN103064969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105930972A CN103064969A (zh) 2012-12-31 2012-12-31 自动建立关键词索引表的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105930972A CN103064969A (zh) 2012-12-31 2012-12-31 自动建立关键词索引表的方法

Publications (1)

Publication Number Publication Date
CN103064969A true CN103064969A (zh) 2013-04-24

Family

ID=48107599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105930972A Pending CN103064969A (zh) 2012-12-31 2012-12-31 自动建立关键词索引表的方法

Country Status (1)

Country Link
CN (1) CN103064969A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN104199833A (zh) * 2014-08-01 2014-12-10 北京奇虎科技有限公司 一种网络搜索词的聚类方法和聚类装置
CN105630769A (zh) * 2015-12-24 2016-06-01 东软集团股份有限公司 文档主题词提取方法及装置
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN107402960A (zh) * 2017-06-15 2017-11-28 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
CN107766853A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 一种图像的文本信息的生成、显示方法及电子设备
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN108255985A (zh) * 2017-12-28 2018-07-06 东软集团股份有限公司 数据索引构建方法、检索方法及装置、介质及电子设备
CN108427769A (zh) * 2018-03-29 2018-08-21 苏州大学 一种基于社交网络的人物兴趣标签提取方法
CN108536676A (zh) * 2018-03-28 2018-09-14 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
US10176175B2 (en) 2015-08-19 2019-01-08 International Business Machines Corporation System and method for identifying candidates for back-of-book index
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110083837A (zh) * 2019-04-26 2019-08-02 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110347794A (zh) * 2019-07-03 2019-10-18 西南交通大学 一种高速列车设计词库构建方法及构建系统
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法
CN110688838A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN107562919B (zh) * 2017-09-13 2020-07-17 云南大学 一种基于信息检索的多索引集成软件构件检索方法及系统
CN111552776A (zh) * 2020-04-24 2020-08-18 周敬洋 一种基于人工智能的Meta分析生成方法
CN112148879A (zh) * 2019-04-16 2020-12-29 中森云链(成都)科技有限责任公司 一种自动给代码打数据结构标签的计算机可读存储介质
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、系统、介质及电子器件
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
US20120158691A1 (en) * 2010-12-15 2012-06-21 Electronics And Telecommunications Research Institute Apparatus and method of searching hs codes using ontology
CN102779119A (zh) * 2012-06-21 2012-11-14 盘古文化传播有限公司 一种抽取关键词的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
US20120158691A1 (en) * 2010-12-15 2012-06-21 Electronics And Telecommunications Research Institute Apparatus and method of searching hs codes using ontology
CN102779119A (zh) * 2012-06-21 2012-11-14 盘古文化传播有限公司 一种抽取关键词的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张颖颖: "基于同义词链的中文关键词提取算法", 《计算机工程》 *
王斌: "汉英双语语料库自动对齐研究", 《中国博士学位论文全文数据库》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN104199833A (zh) * 2014-08-01 2014-12-10 北京奇虎科技有限公司 一种网络搜索词的聚类方法和聚类装置
CN104199833B (zh) * 2014-08-01 2017-09-01 北京奇虎科技有限公司 一种网络搜索词的聚类方法和聚类装置
US10176175B2 (en) 2015-08-19 2019-01-08 International Business Machines Corporation System and method for identifying candidates for back-of-book index
US11010433B2 (en) 2015-08-19 2021-05-18 International Business Machines Corporation System and method for identifying candidates for back-of-book index
CN105630769A (zh) * 2015-12-24 2016-06-01 东软集团股份有限公司 文档主题词提取方法及装置
CN105630769B (zh) * 2015-12-24 2019-04-12 东软集团股份有限公司 文档主题词提取方法及装置
CN107766853B (zh) * 2016-08-16 2021-08-06 阿里巴巴集团控股有限公司 一种图像的文本信息的生成、显示方法及电子设备
CN107766853A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 一种图像的文本信息的生成、显示方法及电子设备
CN108614825B (zh) * 2016-12-12 2022-04-15 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
CN107402960B (zh) * 2017-06-15 2020-11-10 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
CN107402960A (zh) * 2017-06-15 2017-11-28 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN107562919B (zh) * 2017-09-13 2020-07-17 云南大学 一种基于信息检索的多索引集成软件构件检索方法及系统
CN107885793A (zh) * 2017-10-20 2018-04-06 江苏大学 一种微博热点话题分析预测方法及系统
CN107944027B (zh) * 2017-12-12 2020-03-31 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN107944027A (zh) * 2017-12-12 2018-04-20 苏州思必驰信息科技有限公司 创建语义键索引的方法及系统
CN108182182A (zh) * 2017-12-27 2018-06-19 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN108255985A (zh) * 2017-12-28 2018-07-06 东软集团股份有限公司 数据索引构建方法、检索方法及装置、介质及电子设备
CN108536676A (zh) * 2018-03-28 2018-09-14 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN108536676B (zh) * 2018-03-28 2020-10-13 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN108427769A (zh) * 2018-03-29 2018-08-21 苏州大学 一种基于社交网络的人物兴趣标签提取方法
CN108427769B (zh) * 2018-03-29 2021-10-08 苏州大学 一种基于社交网络的人物兴趣标签提取方法
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN112148879B (zh) * 2019-04-16 2023-06-23 中森云链(成都)科技有限责任公司 一种自动给代码打数据结构标签的计算机可读存储介质
CN112148879A (zh) * 2019-04-16 2020-12-29 中森云链(成都)科技有限责任公司 一种自动给代码打数据结构标签的计算机可读存储介质
CN110083837B (zh) * 2019-04-26 2023-11-24 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110083837A (zh) * 2019-04-26 2019-08-02 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法
CN110347794A (zh) * 2019-07-03 2019-10-18 西南交通大学 一种高速列车设计词库构建方法及构建系统
CN110688838B (zh) * 2019-10-08 2023-07-18 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN110688838A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111552776B (zh) * 2020-04-24 2021-03-19 周敬洋 一种基于人工智能的Meta分析生成方法
CN111552776A (zh) * 2020-04-24 2020-08-18 周敬洋 一种基于人工智能的Meta分析生成方法
CN112307210A (zh) * 2020-11-06 2021-02-02 中冶赛迪工程技术股份有限公司 一种文档标签预测方法、系统、介质及电子器件
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质
CN114238619B (zh) * 2022-02-23 2022-04-29 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质

Similar Documents

Publication Publication Date Title
CN103064969A (zh) 自动建立关键词索引表的方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103399901B (zh) 一种关键词抽取方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN111309925A (zh) 一种军事装备的知识图谱构建方法
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN103150381A (zh) 一种高精度汉语谓词识别方法
CN104317783A (zh) 一种语义关系密切度的计算方法
CN102779119B (zh) 一种抽取关键词的方法及装置
Keikha et al. Rich document representation and classification: An analysis
Cordeiro et al. A metric for paraphrase detection
Jiao et al. Chinese keyword extraction based on N-gram and word co-occurrence
Zhang et al. Domain-specific term extraction from free texts
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Tambouratzis et al. Discriminating the registers and styles in the Modern Greek language
Souza et al. Extraction of keywords from texts: an exploratory study using Noun Phrases
Sinha A system for identification of idioms in Hindi
Zhao et al. Hit: Web based scoring method for english lexical substitution
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
Ion PEXACC: A Parallel Sentence Mining Algorithm from Comparable Corpora.
Rahma et al. Finding the Relevance Degree between an English Text and its Title
Kaur et al. Keyword extraction for punjabi language
Rahimi et al. Creating a Wikipedia-based Persian-English word association dictionary
Osochkin et al. Automatic Identification of Authors' Stylistics and Gender on the Basis of the Corpus of Russian Fiction Using Extended Set-theoretic Model with Collocation Extraction.
Tianwen et al. Evaluate the chinese version of machine translation based on perplexity analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130424