CN110188344A - 一种多特征融合的关键词提取方法 - Google Patents
一种多特征融合的关键词提取方法 Download PDFInfo
- Publication number
- CN110188344A CN110188344A CN201910328467.1A CN201910328467A CN110188344A CN 110188344 A CN110188344 A CN 110188344A CN 201910328467 A CN201910328467 A CN 201910328467A CN 110188344 A CN110188344 A CN 110188344A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text
- word
- information
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种多特征融合的关键词提取方法,首先根据文本词性和词频信息筛选候选关键词,统计候选关键词的多种特征属性,训练基于决策树分类模型,将新文本中的候选关键词的属性信息输入模型预测出文本的关键词序列,然后进行n‑gram连接得到关键词组,最后取权重最高的topK个关键词或关键词组进行结果评估。本发明可以全面的考虑关键词在文本中的词频、位置、跨度、词性、词语的区分度等信息,并结合机器学习分类算法得到分类的概率值,最后结合关键词的权重信息和n‑gram信息计算关键词组的最终得分。可以有效的提取关键词和关键词短语,相较于现有的方法在准确率上有一定的提升。
Description
技术领域
本发明涉及一种基于多特征融合的关键词提取方法,特别是针对学术摘要文本的关键词提取。利用中文文本分词工具对文本进行分词,然后再统计文本词语的多种属性特征,将关键词提取看作一个二分类问题利用机器学习分类模型训练关键词分类器,涉及概率模型,语言模型,机器学习等领域,具体涉及基于机器学习建模领域。
背景技术
随着学术研究成果的不断积累,论文库越来越大,如何在海量的学术文章中准确的找到领域相关的文章是一个重要的技术要求。关键词提取能够对文本的主要信息进行提炼,能够很好的提取出反映文章主要内容的关键短语,更好的提高了信息查询的准确度和信息访问的效率。
从提取方法来说大致有两种:关键词分配,即给定一个关键词库然后从词库中找到几个短语作为某篇文章的关键词。另一种方法是关键词提取,即就是从一篇文章中提取一些词语作为这篇文章的关键词。目前大多数关键词研究都是基于关键词提取的,关键词提取相比于关键词分配更具有实际意义。基于是否需要标记语料库,自动关键词提取方法可以大致分为有监督方法和无监督方法。有监督机器学习是从给定的训练集中训练出一个模型,对新数据,利用这个模型来预测结果。在关键词抽取领域中,可以把关键词抽取任务转化为分类问题或标注问题即:把文档中的词看成是候选的关键词,通过分类学习算法或序列标注方法来判断这些候选词是否为关键词。基于有监督学习的关键词抽取的一般步骤是:首先,建立一个包含大量文本并标出关键词的训练集合;然后,利用训练集合对分类或标注算法进行训练得到一个模型;最后,应用训练好的模型对新文本进行关键词抽取。从研究方法上有监督学习方法又可以被分为两类:一是把关键词抽取看成二分类问题,即判断文档中的一个词是关键词或不是关键词。有监督学习的方法,研究点主要放在词语特征表示、分类模型表示和标注语料方面。无监督关键词提取方法包括语言分析法、统计方法、主题方法和基于网络图的方法。这些方法用于从未标记的语料库中提取关键词。比较经典的TFIDF方法考虑了词的频率和逆文档频率,TF-IWF等方法在此基础上做了改进。TextRank考虑了词的共现信息,Rake方法考虑了词的共现矩阵中词的度的信息和词频信息。现在也有很多研究者在此基础上作者各种改进,尽管如此现有的关键词提取方法不足之处还是很明显:1、候选词的属性考虑不全面,有的考虑了词的频率忽略了词性、位置信息,有的考虑了词的共现信息忽略了文本结构信息等,影响了关键词提取的准确率。2、候选词的评分机制过于主观化,以人的先验知识作为评分规则的解释标准或是根本就没有说明评分规则设定的依据。
在学术论文分析领域,关键词对于任何学术论文都是非常重要的,关键词是反映学术论文主旨的单个词或词语的组合,是一篇文章中的一组重要词汇,它向读者提供了对其内容的高级描述,是对文本最简洁的描述,也可以基本上反映文本主题,在信息检索、文本分类和聚类、数据挖掘等领域有重要意义。学术关键词存在于文本标题和摘要甚至全文中的语句都是蕴藏大量原始知识内容的集合体中,但是学术文章中关键词提取面临着很多的难点:一方面,学术论文章节多、信息量大,关键词全文提取获得的候选词数量巨大,加重了选择的难度,降低了准确度。另一方面,受知识产权保护,大量学术论文仅提供前16页或大纲、摘要部分供读者阅览,难以从全文中提取关键词。尽管有许多标记界面可以手动标记文献,但这种行为既可以是主观的,也是劳动密集型的,所以关键词提取在学术文章领域有很好的应用前景。
因此,如何有效的提取学术文本中的关键词,快速、准确的实现学术摘要中关键信息的提取,成为需要技术人员解决的问题。
发明内容
为了解决现有学术文章领域文本关键内容的抽取问题,针对现阶段关键词抽取技术考的不足之处,本发明提出了一种结合多种统计特征的关键词分类方法,可以全面的考虑关键词在文本中的词频、位置、跨度、词性、词语的区分度等信息,并结合机器学习分类算法得到分类的概率值,最后结合关键词的权重信息和n-gram信息计算关键词组的最终得分。可以有效的提取关键词和关键词短语,相较于现有的方法在准确率上有一定的提升。
为了解决上述问题,本发明提供的技术方案为:
一种多特征融合的关键词提取方法,包括以下步骤:
步骤1:从中国知网上学术信息,解析html文件,提取网页中文本标题、摘要和关键词;
步骤2:对提取的文本进行处理,标题和摘要合并成一个短文本,除去文本中的特殊符号,对文本进行分句处理;
步骤3:利用分词工具对文本进行分词和词性标注得到单词,对上述单词进行过滤根据词性选择生成候选关键词集合;
步骤4:将文本分成训练文本和测试文本,根据文本和关键词组信息,对文本中的单词进行标签化处理,如果出先在关键词序列中或是关键词组的一部分label=1,否则label=0;
步骤5:统计候选关键词集合中词语在文本中出现的频率、句子中出现的频率、词语的跨度、词语的共现情况以及词语在文本中的位置信息;
步骤6:由上述统计信息利用公式计算得到单词的各种特征属性;
步骤7:由训练文本得到的上述特征属性信息用C4.5决策树分类方法训练关键词分类器;
步骤8:用测试集合中文本单词的统计属性对单词进行预测,得到关键词序列;
步骤9:对得到的关键词计算进行评分;
步骤10:对得到的关键词的序列结合文本信息得到关键词序列扩展后的n-gram关键词组,计算关键词组的得分;
步骤11:将关键词和关键词组根据字符串的编剧距离计算两个关键词(组)的距离dist。如果dist大于阈值,保留关键词(组)权重更高的一个,经过筛选后得到最终的关键词(组)序列;
步骤12:对关键词(组)序列进行排序获得topK个关键词(组)。
与现有技术相比,本发明的优点在于:
1.不仅考虑和词语的词频、位置、共现、情况还考虑的词语的句子、词性、跨度、结构等特征,很好的提高了关键词提取的准确率。
2.利用分类模型对关键词评分进行排序,很好的学习了文本中关键词在文本中各种属性的关系,避免了人为设定评分标准的主观影响因素。
3.在获得关键词序列后在对用关键词组进行扩展,在一定程度上减少了计算量,提高了程序的效率。
附图说明
图1为本发明的数据存储格式图;
图2为本发明的整体流程示意图;
图3为关键词词性统计结果图;
图4为实例文本词语共现连接图;
具体实施方式
下面结合附图对本发明作进一步详细说明。
参照图1~图4,一种多特征融合的关键词提取方法,包括以下步骤:
步骤1:从中国知网上学术信息,解析html文件,提取网页中文本标题、摘要和关键词;
步骤2:对提取的文本进行处理,标题和摘要合并成一个短文本,除去文本中的特殊符号,对文本进行分句处理;
步骤3:利用分词工具对文本进行分词和词性标注得到单词,对上述单词进行过滤根据词性选择生成候选关键词集合;
步骤4:将文本分成训练文本和测试文本,根据文本和关键词组信息,对文本中的单词进行标签化处理,如果出先在关键词序列中或是关键词组的一部分label=1,否则label=0;
步骤5:统计候选关键词集合中词语在文本中出现的频率、句子中出现的频率、词语的跨度、词语的共现情况以及词语在文本中的位置信息等;
步骤6:由上述统计信息利用公式计算得到单词的各种特征属性;
步骤7:由训练文本得到的上述特征属性信息用C4.5决策树分类方法训练关键词分类器;
步骤8:用测试集合中文本单词的统计属性对单词进行预测,得到关键词序列;
步骤9:对得到的关键词计算进行评分;
步骤10:对得到的关键词的序列结合文本信息得到关键词序列扩展后的n-gram关键词组,计算关键词组的得分;
步骤11:将关键词和关键词组根据字符串的编剧距离计算两个关键词(组)的距离dist。如果dist大于阈值,保留关键词(组)权重更高的一个,经过筛选后得到最终的关键词(组)序列;
步骤12:对关键词(组)序列进行排序获得topK个关键词(组)。
本实施例以‘轮机工程’领域相关的文本为例进行展示:
步骤1:从中国知网上学术信息,解析html文件,提取网页中文本标题、摘要、关键词等信息。
步骤2:对提取的文本进行处理,除去文本中的“引号,感叹号,波浪号,省略号”等特殊符号。得到的数据如图1所示的文本结果。接着将标题和摘要合并成文本形式,利用句子分隔符好对文本进行分句。对关键词字符串用“;”进行分割,得到关键词列表。
步骤3:根据对关键词词性的统计,所有候选关键词词性应在pos_list=['m','p','j','s','t','nrt','nr','ad','l','eng','c','uj','f','q','b','h','o','r','vd','zg','ns','an','v','a','ng','i','k','d','nz','nt','n','vn','x']列表中进行选择。根据搜狗实验室的停用词库,去除文本中的停用词。利用jieba分词工具对文本进行分词和词性标注得到单词,过滤生成候选关键词集合。jieba词性标注参考表1:
表1
步骤4:将文本分成训练文本和测试文本。根据文本和关键词组信息,对文本中的单词进行标签化处理,如果出先在关键词序列中或是关键词组的一部分label=1,否则label=0。
步骤5:统计候选关键词集合中单词的词频,在各个句子或文本中出现的情况,单词的共现矩阵等信息。词的跨度信息,在相邻窗口中单词与其他词语的共享情况,词的共现矩阵中的入度和出度信息,词的位置信息等。文本中词语的共现情况如图4。
步骤6:由上述统计信息得到单词的各种属性信息。
(1)词语的频率(Wfreq)
词频TF(w)表示词语w在该文档中出现的次数,我们假设文本中词语出现的次数越高则这个词的词频越大,对应在文本中的重要程度越高。为了防止在长文本中这个值偏大,我们用标准差来平衡所有高频率的词的权重,所以用词频除以词频的平均值加上他们的标准差的形式,如公式(1)所示:
(2)词的位置(Wposition)
词语所在的位置也是关键词提取中的重要的特征,特别是在科学或新闻类文章中,往往一个词出现在标题或者是文章的前面的概率大一点。因此我们把位置信息分成了三类第一类是出现在标题中,第二类是出现在摘要的段首或短尾,其他的归结为另一类。我们认为词的位置越靠前,是文章的关键词的概率大一些。
其中sen0表示词语出现在标题中的位置,sen1,2表示词语在摘要中的1,2句中的位置,senj表示词语在其他句子中的位置,median()是中值函数。
(3)词语共现情况(Wrel)
这个值可以量化某个词和停用词之间的相似性,候选词的wrel值越大表示其与停用词的相似度越大。我们用候选关键词左右两侧口大小为n的窗口中出现的不同的词语的个数来量化这个值。与候选关键词共现的不同的词语越多,则这个值越大,候选关键词越无意义。
其中WL/WR表示左/右半边窗口出现不同词的数量,PL/PR表示左/右半边候选词共同出现的不同词的数量与它共同出现的词的数量之间的比率。TF(w)表示候选词在文本中出现的频率,MaxTF表示所有单词中的最大术语频率。候选词越不重要,Wrel值就越高。因此,类似停用词的术语很容易获得更高的分数。
(4)词语在句子中出现频率(WdifSentence),这个值可量化候选词在不同句子中出现的频率。
其中#sentences表示文本句子总数,SF(w)候选词w出现过的句子数。
(5)词性权重(Pos_weight)
学术论文中候选关键词主要是名词,动名词等,所以词性信息也是关键词提取的一个很重要的因素。针对学科论文标题和摘要进行统计词性最多的是Pos_list=['n','vn','v','l','eng','m','a','p','b','j','nr','nz','d','ns','t','q','nt','k','i','c','nrt','r','an','x','h','ng','f','vd','uj','zg','o','s','ad']根据统计结果,我们用上述词性作为筛选条选出候选关键词。将词性标注划分成3个等级:
其中的符号代表词语的词性:’n’表示名词、’v’表示动词等。
经过以上步骤,统计得到词语的各种统计信息如表2:
表2
其中occrs是中间存储变量,字典表示{词语在文中出现的总次数:[(句子中的位置,文本中的位置)]},label表示该词是否是关键词的一部分,label=1表示是,label=0表示否。
步骤7:由训练文本得到的上述统计信息用C4.5决策树分类方法训练关键词分类器。
步骤8:用测试集合中文本单词的统计属性对单词进行预测,得到关键词序列。
步骤9:对得到的关键词计算进行评分:
sw_weight=prob×pos_weight×tf (6)
其中prob是有分类模型得到的概率值,pos_weight是单词的词性权重,tf表示单词的频率。
步骤10:对得到的关键词的序列结合文本信息得到关键词序列扩展后的n-gram关键词组。结合(6)式计算关键词组的得分:
cw_weight=avg(∑sw_weight) (7)
步骤11:将关键词和关键词组根据字符串的编剧距离计算两个关键词(组)的距离dist。如果dist大于阈值,保留关键词(组)权重更高的一个,得到最终的关键词(组)序列。
步骤12:对关键词(组)序列进行排序获得topK个关键词(组)。输出提取的文本关键词组。
本发明综合考虑了学术文本中词语的词频、位置、词语共现性等多种统计特征,首先将关键词提取看作一个二分类问题,利用C4.5决策树的方法预测词语的分类结果,能够从更深的层次挖掘词语之间的内在联系,以及潜在的影响词语分类结果的关联属性。然后结合人为的评估计算方法对结果进行筛选,进一步提升了结果的准确率。
本发明已经通过上述实例进行了说明,但应当注意的是实例只是解释说明的目的,而非将本发明局限于该实例范围内。尽管参照前述实例本发明进行了详尽的说明,本领域研究人员应当能够理解:其依然可以随前述各实例所记载的技术方案进行修改,或者对其部分技术特征进行同等提花;二这些修改或替换,并不使相应的技术方案脱离本发明的保护范围。本发明的保护范围由附属的权力要求书机器等效范围所界定。
Claims (1)
1.一种多特征融合的关键词提取方法,其特征在于,所述方法包括以下步骤:
步骤1:从中国知网上学术信息,解析html文件,提取网页中文本标题、摘要和关键词;
步骤2:对提取的文本进行处理,标题和摘要合并成一个短文本,除去文本中的特殊符号,对文本进行分句处理;
步骤3:利用分词工具对文本进行分词和词性标注得到单词,对上述单词进行过滤根据词性选择生成候选关键词集合;
步骤4:将文本分成训练文本和测试文本,根据文本和关键词组信息,对文本中的单词进行标签化处理,如果出先在关键词序列中或是关键词组的一部分label=1,否则label=0;
步骤5:统计候选关键词集合中词语在文本中出现的频率、句子中出现的频率、词语的跨度、词语的共现情况以及词语在文本中的位置信息;
步骤6:由上述统计信息利用公式计算得到单词的各种特征属性;
步骤7:由训练文本得到的上述特征属性信息用C4.5决策树分类方法训练关键词分类器;
步骤8:用测试集合中文本单词的统计属性对单词进行预测,得到关键词序列;
步骤9:对得到的关键词计算进行评分;
步骤10:对得到的关键词的序列结合文本信息得到关键词序列扩展后的n-gram关键词组,计算关键词组的得分;
步骤11:将关键词和关键词组根据字符串的编剧距离计算两个关键词的距离dist。如果dist大于阈值,保留关键词权重更高的一个,得到最终的关键词序列;
步骤12:对关键词序列进行排序获得topK个关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328467.1A CN110188344A (zh) | 2019-04-23 | 2019-04-23 | 一种多特征融合的关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328467.1A CN110188344A (zh) | 2019-04-23 | 2019-04-23 | 一种多特征融合的关键词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110188344A true CN110188344A (zh) | 2019-08-30 |
Family
ID=67714955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910328467.1A Pending CN110188344A (zh) | 2019-04-23 | 2019-04-23 | 一种多特征融合的关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188344A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580290A (zh) * | 2019-09-12 | 2019-12-17 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
CN110728136A (zh) * | 2019-10-14 | 2020-01-24 | 延安大学 | 一种融合多因素的textrank关键词提取算法 |
CN110851598A (zh) * | 2019-10-30 | 2020-02-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111078838A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN111078884A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111259156A (zh) * | 2020-02-18 | 2020-06-09 | 北京航空航天大学 | 一种面向时间序列的热点聚类方法 |
CN111401040A (zh) * | 2020-03-17 | 2020-07-10 | 上海爱数信息技术股份有限公司 | 一种适用于word文本的关键词提取方法 |
CN111553156A (zh) * | 2020-05-25 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种关键词提取方法、装置及设备 |
CN111680509A (zh) * | 2020-06-10 | 2020-09-18 | 四川九洲电器集团有限责任公司 | 基于共现语言网络的文本关键词自动抽取方法和装置 |
CN112307302A (zh) * | 2020-09-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 基于关键词提取的新技术查询推荐方法 |
CN112307206A (zh) * | 2020-10-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 一种关于新技术的领域分类方法 |
CN112699686A (zh) * | 2021-01-05 | 2021-04-23 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112732904A (zh) * | 2020-10-15 | 2021-04-30 | 中科曙光南京研究院有限公司 | 一种基于文本处理的异常突发事件检测方法及系统 |
CN112765979A (zh) * | 2021-01-15 | 2021-05-07 | 西华大学 | 论文关键词提取系统及其方法 |
CN112800757A (zh) * | 2021-04-06 | 2021-05-14 | 杭州远传新业科技有限公司 | 关键词生成方法、装置、设备及介质 |
CN113270092A (zh) * | 2021-05-11 | 2021-08-17 | 云南电网有限责任公司 | 一种基于lda算法的调度语音关键词提取方法 |
CN113657113A (zh) * | 2021-08-24 | 2021-11-16 | 北京字跳网络技术有限公司 | 文本处理方法、装置和电子设备 |
CN113673229A (zh) * | 2021-08-23 | 2021-11-19 | 广东电网有限责任公司 | 一种电力营销数据交互方法、系统及存储介质 |
CN113743090A (zh) * | 2021-09-08 | 2021-12-03 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113971216A (zh) * | 2021-10-22 | 2022-01-25 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和存储器 |
CN115221871A (zh) * | 2022-06-24 | 2022-10-21 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
CN116737940A (zh) * | 2023-08-14 | 2023-09-12 | 成都飞航智云科技有限公司 | 一种智能决策方法、决策系统 |
CN116936135A (zh) * | 2023-09-19 | 2023-10-24 | 北京珺安惠尔健康科技有限公司 | 基于nlp技术的医疗大健康数据采集分析方法 |
CN117494726A (zh) * | 2023-12-29 | 2024-02-02 | 成都航空职业技术学院 | 一种情报关键词提取方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021457A (zh) * | 2016-05-17 | 2016-10-12 | 福州大学 | 基于关键词的rdf分布式语义搜索方法 |
-
2019
- 2019-04-23 CN CN201910328467.1A patent/CN110188344A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021457A (zh) * | 2016-05-17 | 2016-10-12 | 福州大学 | 基于关键词的rdf分布式语义搜索方法 |
Non-Patent Citations (3)
Title |
---|
常耀成等: "《特征驱动的关键词提取算法综述》" * |
王万良;潘蒙;: "基于多特征的视频关联文本关键词提取方法" * |
胡燕;邱英;: "基于改进词共现模型的自动摘要研究" * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580290A (zh) * | 2019-09-12 | 2019-12-17 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
CN110580290B (zh) * | 2019-09-12 | 2022-12-13 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
CN110728136A (zh) * | 2019-10-14 | 2020-01-24 | 延安大学 | 一种融合多因素的textrank关键词提取算法 |
CN110851598A (zh) * | 2019-10-30 | 2020-02-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111078838A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN111078884A (zh) * | 2019-12-13 | 2020-04-28 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111078838B (zh) * | 2019-12-13 | 2023-08-18 | 北京小米智能科技有限公司 | 关键词提取方法、关键词提取装置及电子设备 |
CN111078884B (zh) * | 2019-12-13 | 2023-08-15 | 北京小米智能科技有限公司 | 一种关键词提取方法、装置及介质 |
CN111259156A (zh) * | 2020-02-18 | 2020-06-09 | 北京航空航天大学 | 一种面向时间序列的热点聚类方法 |
CN111401040A (zh) * | 2020-03-17 | 2020-07-10 | 上海爱数信息技术股份有限公司 | 一种适用于word文本的关键词提取方法 |
CN111401040B (zh) * | 2020-03-17 | 2021-06-18 | 上海爱数信息技术股份有限公司 | 一种适用于word文本的关键词提取方法 |
CN111553156A (zh) * | 2020-05-25 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种关键词提取方法、装置及设备 |
CN111553156B (zh) * | 2020-05-25 | 2023-08-04 | 支付宝(杭州)信息技术有限公司 | 一种关键词提取方法、装置及设备 |
CN111680509A (zh) * | 2020-06-10 | 2020-09-18 | 四川九洲电器集团有限责任公司 | 基于共现语言网络的文本关键词自动抽取方法和装置 |
CN112307302A (zh) * | 2020-09-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 基于关键词提取的新技术查询推荐方法 |
CN112732904A (zh) * | 2020-10-15 | 2021-04-30 | 中科曙光南京研究院有限公司 | 一种基于文本处理的异常突发事件检测方法及系统 |
CN112307206A (zh) * | 2020-10-29 | 2021-02-02 | 青岛檬豆网络科技有限公司 | 一种关于新技术的领域分类方法 |
CN112699686B (zh) * | 2021-01-05 | 2024-03-08 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112699686A (zh) * | 2021-01-05 | 2021-04-23 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112765979A (zh) * | 2021-01-15 | 2021-05-07 | 西华大学 | 论文关键词提取系统及其方法 |
CN112765979B (zh) * | 2021-01-15 | 2023-05-09 | 西华大学 | 论文关键词提取系统及其方法 |
CN112800757A (zh) * | 2021-04-06 | 2021-05-14 | 杭州远传新业科技有限公司 | 关键词生成方法、装置、设备及介质 |
CN113270092A (zh) * | 2021-05-11 | 2021-08-17 | 云南电网有限责任公司 | 一种基于lda算法的调度语音关键词提取方法 |
CN113673229A (zh) * | 2021-08-23 | 2021-11-19 | 广东电网有限责任公司 | 一种电力营销数据交互方法、系统及存储介质 |
CN113673229B (zh) * | 2021-08-23 | 2024-04-05 | 广东电网有限责任公司 | 一种电力营销数据交互方法、系统及存储介质 |
CN113657113A (zh) * | 2021-08-24 | 2021-11-16 | 北京字跳网络技术有限公司 | 文本处理方法、装置和电子设备 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113743090B (zh) * | 2021-09-08 | 2024-04-12 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
CN113743090A (zh) * | 2021-09-08 | 2021-12-03 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
CN113971216A (zh) * | 2021-10-22 | 2022-01-25 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和存储器 |
CN115221871B (zh) * | 2022-06-24 | 2024-02-20 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115221871A (zh) * | 2022-06-24 | 2022-10-21 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
CN116737940B (zh) * | 2023-08-14 | 2023-11-07 | 成都飞航智云科技有限公司 | 一种智能决策方法、决策系统 |
CN116737940A (zh) * | 2023-08-14 | 2023-09-12 | 成都飞航智云科技有限公司 | 一种智能决策方法、决策系统 |
CN116936135A (zh) * | 2023-09-19 | 2023-10-24 | 北京珺安惠尔健康科技有限公司 | 基于nlp技术的医疗大健康数据采集分析方法 |
CN116936135B (zh) * | 2023-09-19 | 2023-11-24 | 北京珺安惠尔健康科技有限公司 | 基于nlp技术的医疗大健康数据采集分析方法 |
CN117494726A (zh) * | 2023-12-29 | 2024-02-02 | 成都航空职业技术学院 | 一种情报关键词提取方法 |
CN117494726B (zh) * | 2023-12-29 | 2024-04-12 | 成都航空职业技术学院 | 一种情报关键词提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188344A (zh) | 一种多特征融合的关键词提取方法 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
US9971974B2 (en) | Methods and systems for knowledge discovery | |
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
Inzalkar et al. | A survey on text mining-techniques and application | |
Su et al. | Hidden sentiment association in chinese web opinion mining | |
CN106326212B (zh) | 一种基于层次深度语义的隐式篇章关系分析方法 | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
Chaovalit et al. | Movie review mining: A comparison between supervised and unsupervised classification approaches | |
CN110516067A (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
US7877383B2 (en) | Ranking and accessing definitions of terms | |
US20050080613A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
Rothfels et al. | Unsupervised sentiment classification of English movie reviews using automatic selection of positive and negative sentiment items | |
CN112837184A (zh) | 一种适用于建筑工程的项目管理系统 | |
Liu et al. | Short Paper_ | |
CN112000802A (zh) | 基于相似度集成的软件缺陷定位方法 | |
CN108038099A (zh) | 基于词聚类的低频关键词识别方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN113157860A (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
Gopan et al. | Comparative study on different approaches in keyword extraction | |
CN114896387A (zh) | 军事情报分析可视化方法、装置以及计算机可读存储介质 | |
Jha et al. | Hsas: Hindi subjectivity analysis system | |
Chin et al. | Automatic discovery of concepts from text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |