CN103559310A - 一种从文章中提取关键词的方法 - Google Patents

一种从文章中提取关键词的方法 Download PDF

Info

Publication number
CN103559310A
CN103559310A CN201310581543.2A CN201310581543A CN103559310A CN 103559310 A CN103559310 A CN 103559310A CN 201310581543 A CN201310581543 A CN 201310581543A CN 103559310 A CN103559310 A CN 103559310A
Authority
CN
China
Prior art keywords
word
value
described word
article
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310581543.2A
Other languages
English (en)
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Original Assignee
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD filed Critical GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Priority to CN201310581543.2A priority Critical patent/CN103559310A/zh
Publication of CN103559310A publication Critical patent/CN103559310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种从文章中提取关键词的方法,包括:对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;选取同义词链中的一个代表词,按一定规则分别计算出所述词语的词频变量值,区域位置变量值及分词距离次序变量值;根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词,解决了现有技术中关键词提取算法资源占用多,提取的准确率低的问题,降低了系统资源占用率,提高了提取关键词的准确率。

Description

一种从文章中提取关键词的方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种从文章中提取关键词的方法。
背景技术
互联网络积累了海量的文本信息,如何高效地检索文本信息成为亟需解决的技术问题。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容,而本文关键词提取在上述方面有着广发的应用,它不仅是进行这些工作不可缺少的基础和前提,也是互联网信息建库的一项重要的工作,英文文本的关键词自动标引的研究起步较早,已开发了一些相关的系统。主要有Turney在C4.5决策树算法基础上实现的GenEx系统。该系统使用遗传算法训练关键词提取器,然后提取器以文档为输入,经过处理后输出关键词;Frank等人提出了基于朴素贝叶斯方法的提取算法,使用离散的短语特征值训练统计学习模型以获取输入参数,较好地实现了关键词的自动提取。
由于汉语没有显示词的词边界,其关键词的自动抽取问题较英文文本的相同问题更为困难。为此要依次对文本进行应用分词算法、词法分析、语法处理以及语义分析,使用最多的一种方法是基于PAT Tree结构获取新词。另外有学者研究提出了最优概率分布的方法,并建立了一个特征集合,再根据丰富的语言特征来判断候选项是否可以选做文档的关键词。而基于语义的关键词提取算法在统计信息的基础上着重强调了语义对关键词判断的影响。此外,基于词汇链的关键词提取算法则在分词词频、文档反频、分词位置等基本统计手段的基础上,引入了词汇链的概念。
然而,现有中文文本关键词提取算法需要较大的空间代价,资源占用多,导致其实用性受限,此外,实际应用系统工作通常基于高频词提取等手段,但文档中的关键字往往并不都是高频词,导致提取关键词的准确率低。
发明内容
本发明的目的是克服现有技术中的不足之处,提供一种从文章中提取关键词的方法,解决了现有技术中关键词提取算法资源占用多,提取的准确率低的问题,降低了系统资源占用率,提高了提取关键词的准确率。
本发明实施例提供一种从文章中提取关键词的方法,包括:
对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;
选取同义词链中的一个代表词,分别计算出所述词语的词频值,区域位置值及分词距离次序值;
根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词。
通过本发明实施例提供的方法,选取词频、区域位置以及分词距离次序作为衡量关键词权重的主要因素,并为每一个因素构建了非线性计算函数。同时,利用训练样例训练该公式的调整因子是的其更好的逼近训练取值,并与已有相关工作进行了比较实验,其结果表明该方法改进了文本关键词提取算法的查准率和查全率,并具有良好的扩展性,可应用于文本信息处理中的自动关键词提取。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一的方法流程图.
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一的方法流程图,如图1所示,该方法包括:
S101、对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;
需要说明的是,本发明的实施主体可以是计算机,也可以是终端,本发明实施例对此并无限制。
停用词是指那些不能反映主题的功能词,它们不但不能反映文献的主题,而且还会对关键词的抽取造成干扰,有必要将其滤除。停用词通常包含虚词、实词以及标点符号。如,在对文本扫描、进行词频统计时,有目的性地去掉一些对文章的关键词的抽取无实质作用的实词、虚词或标点,以避免对实验结果造成干扰。如标点“,”、“。”,实、实虚词如:我、他、你、的、地等,在词频统计前就将这些词语过滤掉。之所以进行词性过滤,是因为在汉语言中,这些词语或标点对标识文本的类别特性并没有贡献。如果把这些对文本分类没有意义的实虚词或标点作为文本特征词,将会带来很大的噪音,从而直接降低文本分词的效率和准确率。因此,在提取文本特征时,首先考虑剔除这些对文本分类没有用的虚词。
同义词链是指文档中根据上下文信息确定词义相同或相似的词的集合。基本思想是:根据上下文信息,利用词义相似度确定词汇在具体语境下的词义,用该词义代替词,利用义项相似度计算得到一系列的同义词,组成同义词链。
同义词的构建,主要是考虑到一篇文章中,也许对相同人、物、事前后称呼有些许不同,但它们其实是代表同一个意思,如:李天王、李某某、李某人、李天一,实际上,这4个词都可以归纳到同一个关键词中:李天一。采用同义词的构建主要是为了提高这种关键词提取结果的准确性。
S102、选取同义词链中的一个代表词,分别计算出所述词语的词频值,区域位置值及分词距离次序值;
其中,词频是对词的一种最简单的测度,也是最常用的参数之一。可以直接用它表示词在篇章或类别中的权重,这种处理方法假定一个词的重要程度与它出现的次数成正比例;区域位置:经调查发现,出现在标题中的词比出现在摘要中的词更能反映文献的主题,而出现在摘要中的词比出现在正文中的词更能反映文献主题,同时出现在首段中的词比其他段落中的词更能反映文献的主题;分词举例次序:随着文本长度的增加,利用词语第一次在文本中出现时距离文本开头的距离来衡量词语反映文本主题的价值也是很有意义的。因此,可将该因素引入关键词的抽取算法中,用来反映词语在文本中的权重。
其中,所述分别计算出所述词语的词频值,区域位置值及分词距离次序值,具体为:
一、计算出所述词语在所述词语集合中的出现次数,该结果为所述词频值。
二、对文章结构进行分类,按照不同类别分别统计所述词语在该类别中的出现次数,该结果为所述区域位置值,所述类别包括标题类、摘要类、段首类、段中类以及结尾类。
需要说明的是,按照不同类别分别统计所述词语在该类别中的出现次数,具体为:根据公式loci=ci×BT+di×ZY+ei×DS+fi×DZ+gi×JW计算出所述区域位置值,其中,loci是所述词语i的区域位置值,BT是所述词语在标题中的出现次数,ZY是所述词语在摘要中的出现次数,DS是所述词语在段首中的出现次数,DZ是所述词语在段中的出现次数,JW是所述词语在结尾中的出现次数,c、d、e、f、h为预设置的常数因子。
三、计算出所述词语第一次在文章中出现时与文本开头的距离值,该值为所述分词距离次序值。需要说明的是,计算出所述词语第一次在文章中出现时与文本开头的距离值,具体为:根据公式disi=a×Wi+b来计算所述词语的距离值,其中,disi表示第i个所述词语与文本开头的距离值,Wi表示第i个所述词语在文本中出现的次序,a、b均为可调节的常数因子。如“李天一”距离文章开头共800个字节,那么可以设Wi=800。
S103、根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词。
本发明实施例中,可根据公式Weighti=αx tfi+βx loci+γx disi计算出所述词语的权重值,其中,weighti是第i个所述词语的权重,tfi是词频值,loci是区域位置值,disi是分词距离次序值,α、β、γ是预设置的调节因子。
假设本次实验统计的结果中,李天一(含李天王、李某某、李某人)在该文本中一共出现的频数为:27,即tf=27;而且仅在标题出现,假设c、d、e、f、g依次为5、4、3、2、1,由于仅在标题出现,所以仅标题取值1,其它区域位置均取0,即loc=5;(此处简单假设以下的常数因子a、b、α、β均为1,γ=-1)该关键词第一次出现的位置距离文章开头共10个字节,即W=10,得出dis=11,那么采用公式得出的“李天一”这个词语的关键词权重指数为:Weigh=1*27+1*5+(-1)*11=21。
需要说明的是,实际操作中,γ应该要小得多,或者相对的,α、β要大一些。γ之所以采用负数,是因为dis表示的是词语第一次在文本中出现时距离文本开头的距离。即距离文章开头越远,dis值越大,该词的关键词权重就越小,dis对Weigh是成反比关系,因此γ常熟因子应该为负数才符合它的实际意义。
从统计学的角度来讲,认为通过次公式得出的Weigh值越大,表示该词为关键词的可能性就越高。从理论上讲,Weigh值越大,反映该词在文本中出现的频率较高、在文章的标题、摘要、段首、结尾等关键位置出现、距离文章的开头越近,即在文章中很早就被提及,这样的词语可判断其为文章关键词的可能性非常大。因此,本发明实施例可通过对权重值的判断与统计各词语的权重值,来确定文章的关键词,解决了现有技术中关键词提取算法资源占用多,提取的准确率低的问题,降低了系统资源占用率,提高了提取关键词的准确率。

Claims (5)

1.一种从文章中提取关键词的方法,其特征在于,包括:
对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;
选取同义词链中的一个代表词,分别计算出所述词语的词频值,区域位置值及分词距离次序值;
根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词。
2.根据权利要求1所述的方法,其特征在于,所述分别计算出所述词语的词频值,区域位置值及分词距离次序值,包括:
计算出所述词语在所述词语集合中的出现次数,该结果为所述词频值;
对文章的结构进行分类,按照不同类别分别统计所述词语在该类别中的出现次数,该结果为所述区域位置值,所述类别包括标题类、摘要类、段首类、段中类以及结尾类;
计算出所述词语第一次出现在文章中出现时与文本开头的距离值,该结果为所述分词距离次序值。
3.根据权利要求2所述的方法,其特征在于,所述按照不同类别分别统计所述词语在该类别中的出现次数,包括:
根据公式loci=c×BTi+d×ZYi+e×DSi+f×DZi+g×JWi计算出所述区域位置值,其中,loci是所述词语i的区域位置值,BTi是第i个所述词语在标题中的出现次数,ZYi是第i个所述词语在摘要中的出现次数,DSi是第i个所述词语在段首中的出现次数,DZi是第i个所述词语在段中的出现次数,JWi是第i个所述词语在结尾中的出现次数,c、d、e、f、h为预设置的常数因子。
4.根据权利要求2所述的方法,其特征在于,所述计算出所述词语第一次出现在文章中出现时与文本开头的距离值,包括:
根据公式disi=a×Wi+b来计算所述词语的距离值,其中,dis表示距离值,Wi表示第i个所述词语在文本中出现的次序,a、b均为可调节的常数因子。
5.根据权利要求1—4任一项所述的方法,其特征在于,所述根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,包括:
根据公式Weighti=α×tfi+β×loci+γ×disi计算出所述词语的权重值,其中,weighti是第i个所述词语的权重,tfi是其词频值,loci是其区域位置值,disi是其分词距离次序值,α、β、γ是预设置的调节因子。
CN201310581543.2A 2013-11-18 2013-11-18 一种从文章中提取关键词的方法 Pending CN103559310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310581543.2A CN103559310A (zh) 2013-11-18 2013-11-18 一种从文章中提取关键词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310581543.2A CN103559310A (zh) 2013-11-18 2013-11-18 一种从文章中提取关键词的方法

Publications (1)

Publication Number Publication Date
CN103559310A true CN103559310A (zh) 2014-02-05

Family

ID=50013556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310581543.2A Pending CN103559310A (zh) 2013-11-18 2013-11-18 一种从文章中提取关键词的方法

Country Status (1)

Country Link
CN (1) CN103559310A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942189A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种确定作品关键词的方法和设备
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105488151A (zh) * 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置
CN105868182A (zh) * 2016-04-21 2016-08-17 努比亚技术有限公司 一种文本信息处理方法及装置
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN106708861A (zh) * 2015-11-13 2017-05-24 北京国双科技有限公司 一种文章关键实体获取方法及装置
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
CN107515934A (zh) * 2017-08-29 2017-12-26 四川长虹电器股份有限公司 一种基于大数据的电影语义个性化标签优化方法
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN108399165A (zh) * 2018-03-28 2018-08-14 广东技术师范学院 一种基于位置加权的关键词抽取方法
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN110489570A (zh) * 2019-08-06 2019-11-22 北京如优教育科技有限公司 候选全网参考文献实时更新平台和系统
CN111046169A (zh) * 2019-12-24 2020-04-21 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111611341A (zh) * 2020-04-09 2020-09-01 中南大学 一种词项文档结构位置权重的获取方法及装置
CN112052396A (zh) * 2020-09-28 2020-12-08 中国平安人寿保险股份有限公司 课程匹配方法、系统、计算机设备和存储介质
CN113032517A (zh) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 一种从文章中获取结构化标签的方法
CN114510566A (zh) * 2021-11-29 2022-05-17 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) 基于工单的热词挖掘、分类和分析的方法和系统
CN114611507A (zh) * 2022-03-10 2022-06-10 北京思源智通科技有限责任公司 一种文本关键词分析方法、系统及计算机可读介质
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
CN115658847A (zh) * 2022-10-27 2023-01-31 山东迪海信息科技有限公司 一种基于大数据的知识产权成果转化管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161343A (ja) * 1994-12-01 1996-06-21 Fuji Xerox Co Ltd 関連語辞書作成装置
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161343A (ja) * 1994-12-01 1996-06-21 Fuji Xerox Co Ltd 関連語辞書作成装置
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
张红鹰: "《基于模糊处理的中文文本关键词提取算法》", 《现代图书情报技术》 *
张颖颖 等: "《基于同义词链的中文关键词提取算法》", 《计算机工程》 *
戴霖: ""网络舆情信息挖掘关键技术研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
管瑞霞 等: "《TFLD:一种中文文本关键词自动提取方法》", 《机电工程》 *
肖明 等: ""基于词频分析的国内情报学研究热点"", 《情报杂志》 *
蒋昌金 等: ""基于组合词和同义词集的关键词提取算法"", 《计算机应用研究》 *
陈冲: ""互联网中文文本分类的研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942189A (zh) * 2014-03-19 2014-07-23 百度在线网络技术(北京)有限公司 一种确定作品关键词的方法和设备
CN103942189B (zh) * 2014-03-19 2017-09-15 百度在线网络技术(北京)有限公司 一种确定作品关键词的方法和设备
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105354182B (zh) * 2015-09-28 2018-06-26 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105224521B (zh) * 2015-09-28 2018-05-25 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN106708861A (zh) * 2015-11-13 2017-05-24 北京国双科技有限公司 一种文章关键实体获取方法及装置
CN105488151A (zh) * 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
CN107229939B (zh) * 2016-03-24 2020-12-04 北大方正集团有限公司 相似文档的判定方法和装置
CN105868182B (zh) * 2016-04-21 2019-08-30 深圳市中兴移动软件有限公司 一种文本信息处理方法及装置
CN105868182A (zh) * 2016-04-21 2016-08-17 努比亚技术有限公司 一种文本信息处理方法及装置
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN107515934A (zh) * 2017-08-29 2017-12-26 四川长虹电器股份有限公司 一种基于大数据的电影语义个性化标签优化方法
CN107515934B (zh) * 2017-08-29 2020-12-15 四川长虹电器股份有限公司 一种基于大数据的电影语义个性化标签优化方法
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN108399165A (zh) * 2018-03-28 2018-08-14 广东技术师范学院 一种基于位置加权的关键词抽取方法
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109344397B (zh) * 2018-09-03 2023-08-08 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN110489570A (zh) * 2019-08-06 2019-11-22 北京如优教育科技有限公司 候选全网参考文献实时更新平台和系统
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
CN111046169B (zh) * 2019-12-24 2024-03-26 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111046169A (zh) * 2019-12-24 2020-04-21 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN113032517A (zh) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 一种从文章中获取结构化标签的方法
CN113032517B (zh) * 2019-12-25 2022-05-03 厦门铠甲网络股份有限公司 一种从文章中获取结构化标签的方法
CN111611341B (zh) * 2020-04-09 2023-04-25 中南大学 一种词项文档结构位置权重的获取方法及装置
CN111611341A (zh) * 2020-04-09 2020-09-01 中南大学 一种词项文档结构位置权重的获取方法及装置
CN112052396A (zh) * 2020-09-28 2020-12-08 中国平安人寿保险股份有限公司 课程匹配方法、系统、计算机设备和存储介质
CN114510566B (zh) * 2021-11-29 2023-07-07 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) 基于工单的热词挖掘、分类和分析的方法和系统
CN114510566A (zh) * 2021-11-29 2022-05-17 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) 基于工单的热词挖掘、分类和分析的方法和系统
CN114611507A (zh) * 2022-03-10 2022-06-10 北京思源智通科技有限责任公司 一种文本关键词分析方法、系统及计算机可读介质
CN115658847A (zh) * 2022-10-27 2023-01-31 山东迪海信息科技有限公司 一种基于大数据的知识产权成果转化管理系统
CN115658847B (zh) * 2022-10-27 2024-03-26 山东迪海信息科技有限公司 一种基于大数据的知识产权成果转化管理系统

Similar Documents

Publication Publication Date Title
CN103559310A (zh) 一种从文章中提取关键词的方法
CN109255118B (zh) 一种关键词提取方法及装置
CN105426539B (zh) 一种基于词典的lucene中文分词方法
CN106528532B (zh) 文本纠错方法、装置及终端
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN106874292B (zh) 话题处理方法及装置
CN105095204A (zh) 同义词的获取方法及装置
CN109471933A (zh) 一种文本摘要的生成方法、存储介质和服务器
WO2021043087A1 (zh) 文字布局方法、装置、电子设备及计算机可读存储介质
CN101075251A (zh) 一种基于数据挖掘的文本搜索方法
CN104182388A (zh) 一种基于语义分析的文本聚类系统及方法
CN101968801A (zh) 一种单篇文本关键词的提取方法
CN109101491B (zh) 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
WO2016036345A1 (en) External resource identification
Mazari et al. Automatic Construction of Ontology from Arabic Texts.
CN105335350A (zh) 一种基于集成学习的语种识别方法
CN102999533A (zh) 一种火星文识别方法和系统
CN103886077A (zh) 短文本的聚类方法和系统
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
CN108108346A (zh) 文档的主题特征词抽取方法及装置
CN105404903B (zh) 信息处理方法、装置及电子设备
Oo et al. An analysis of ambiguity detection techniques for software requirements specification (SRS)
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN112487293A (zh) 一种安全事故案例结构化信息抽取方法、装置及介质
CN113505222A (zh) 一种基于文本循环神经网络的政务文本分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205

RJ01 Rejection of invention patent application after publication