CN112765979B - 论文关键词提取系统及其方法 - Google Patents

论文关键词提取系统及其方法 Download PDF

Info

Publication number
CN112765979B
CN112765979B CN202110059411.8A CN202110059411A CN112765979B CN 112765979 B CN112765979 B CN 112765979B CN 202110059411 A CN202110059411 A CN 202110059411A CN 112765979 B CN112765979 B CN 112765979B
Authority
CN
China
Prior art keywords
paper
text
abstract
training set
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110059411.8A
Other languages
English (en)
Other versions
CN112765979A (zh
Inventor
李显勇
李齐治
杜亚军
范永全
陈晓亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN202110059411.8A priority Critical patent/CN112765979B/zh
Publication of CN112765979A publication Critical patent/CN112765979A/zh
Application granted granted Critical
Publication of CN112765979B publication Critical patent/CN112765979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,具体是论文关键词提取系统,包括训练集、Jieba分词器、清洗模块、权重计算模型、频率计算模型和输出模型;论文关键词提取方法,包括如下步骤:S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集;S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语,并通过清洗模块输出关键词语;S3、将步骤S2的结果输入权重计算模型进行训练;S4、将步骤S2的结果输入频率计算模型进行训练;S5、将步骤S3和S4的输出结果输入输出模型进行训练;S6、将目标论文输入权重计算模型、频率计算模型和输出模型,得到关键字;提出了将无监督的方法和有监督的方法相结合的方式对论文的关键字进行一个获取。

Description

论文关键词提取系统及其方法
技术领域
本发明涉及人工智能领域,具体是指论文关键词提取系统及其方法。
背景技术
一篇论文,分为摘要、关键字、目录、正文、致谢、参考文献和总结,读者在检索或工作需求时,需要快速的找出谋篇论文的关键字,虽然论文都设置了关键字一项,但是此关键字并非准确,需要读者自行判断,由于关键字主要出现在摘要、正文和总结中,因此现有技术通常利用如下两种方法进行提取:
(1)无监督的方法不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练,极大地增大了系统的运行效率,降低了人工的成本,TF算法是一种无监督的基于统计的关键字提取算法,用于评估一个文档集中一个词对某份文档的重要程度,还能统计一个词在一篇文档中出现的频次,如果一个词在一篇文档中出现的次数过多,那么表明这个词语对这篇文章的表达就更强,但使用无监督的方法缺点在于准确率不高;
(2)有监督的方法训练权重比值,能够得到较高的精度,获得更准确的权重,使得结果能够减少出错的可能,但缺点是运行速度慢。
综上,如何将无监督的方法和有监督的方法结合进行论文中关键字的提取,成为了难题。
发明内容
基于以上问题,本发明提供了论文关键词提取系统及其方法,提出了将无监督的方法和有监督的方法相结合的方式对论文的关键字进行一个获取。
为解决以上技术问题,本发明采用的技术方案如下:
论文关键词提取系统,包括
训练集,包含了若干篇用于训练的论文;
词语筛选模块,用于获取论文中正文部分的词语形成词语训练集;
Jieba分词器,用于分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语;
清洗模块,用于将Jieba分词器提取出来的词语进行停用词清洗得到关键词语;
权重计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的权重;
频率计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的出现频率;
输出模型,用于输出关键字。
论文关键词提取方法,采用论文关键词提取系统,包括如下步骤:
S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集;
S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语,并将该词语输入清洗模块进行停用词清洗,输出经过停用词清洗后的关键词语;
S3、将步骤S2的结果输入权重计算模型进行训练;
S4、将步骤S2的结果输入频率计算模型进行训练;
S5、将步骤S3和S4的输出结果输入到输出模型进行训练;
S6、将待提取关键字的论文输入到权重计算模型、频率计算模型和输出模型,得到关键字。
进一步,所述步骤S1中,获取训练集中论文正文的词语的方法如下:
S11、将论文中除正文内容以外的部分去除,获得论文的正文;
S12、使用正则表达式获取论文的正文中所有词语形成词语训练集。
进一步,所述步骤S3具体包括:
S31、计算关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值;
S32、计算单个论文中摘要占论文训练集中所有论文的摘要的算术平均值,计算单个论文中正文占论文训练集中所有论文的正文的算术平均值,计算单个论文中总结占论文训练集中所有论文的总结的算术平均值;
S33、计算关键词语分别占训练集中摘要、正文和总结的权重。
进一步,所述步骤S31的公式如下:
Figure BDA0002900581520000021
其中,prop(p)为关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值,p的取值为1代表摘要,2代表正文,3代表总结,k为关键词语,leni(k)为关键词语的总长度,m为关键词语的数量,len(p)为单个论文中摘要或正文或总结的总长度;
所述步骤S32中算术平均值的公式为:
Figure BDA0002900581520000022
其中,n为论文训练集中论文的数量,score(p)为单个论文摘要或正文或总结的得分情况;
所述步骤S33的公式如下:
Figure BDA0002900581520000031
其中,weight(p)为关键词语分别占训练集中摘要、正文和总结的权重。
进一步,所述步骤S4中关键词语在论文训练集内摘要或正文或总结的出现频率的公式如下:
Figure BDA0002900581520000032
其中,tf为关键词语在论文训练集内摘要或正文或总结的出现频率,j为关键词语在论文训练集内摘要或正文或总结的出现次数,N为训练集中摘要或正文或总结的词语数量。
进一步,所述步骤S5中,关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分,关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分,关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分,最后关键词语在摘要、正文和总结中的总得分得到关键字集合。
与现有技术相比,本发明的有益效果是:
(1)针对单个部分(摘要、正文、总结)的权重计算是采用有监督的训练方式,能够使得权重更加真实地反映出某个部分产生关键字的概率,使用本发明只需要经过一次训练,就可以获得更加准确的结果,之后的使用无需再次进行训练,即只有第一次使用需要长时间的训练,之后只需读取文件就能够获得结果;
(2)针对目标论文采用的是基于统计的无监督的方式,整体时间复杂度为O(n),能够极快地获得最终的结果,同时配合上有监督训练后的权重,既能够再极短的时间内获得极准确的结果;
(3)使用了jieba分词器以及清洗模块,能够将类似于“同时”、“并且”、“然后”等毫无实际意义的词语去除,增加了结果的准确性,减少了需要计算的段落的长度,从而使得时间消耗降低。
附图说明
图1为本实施例的流程图。
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
论文关键词提取系统,包括
训练集,包含了若干篇用于训练的论文;
词语筛选模块,用于获取论文中正文部分的词语形成词语训练集,由于关键词必然会出现在正文内,因此,以论文中的正文部分的词语形成词语训练集即可,提高运行速度;
Jieba分词器,用于分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语;
清洗模块,用于将Jieba分词器提取出来的词语进行停用词清洗得到关键词语,针对论文中停用词的清洗,使得例如“然而”、“并且”等没有实际意义的词语不会成为关键词语,本实施例加载的是哈工大的停用词表;
权重计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的权重;
频率计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的出现频率;
输出模型,用于输出关键字。
如图1所示,论文关键词提取方法,采用论文关键词提取系统,包括如下步骤:
S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集;
利用词语筛选模块获取训练集中论文正文的词语的方法如下:
S11、将论文中原始存在的的摘要、abstract、关键字、keyword、目录、总结、致谢、参考文献去掉,即可获得论文的正文内容;
S12、使用正则表达式获取论文的正文中所有词语形成词语训练集。
S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语,并将该词语输入清洗模块进行停用词清洗,输出经过停用词清洗后的关键词语;
S3、将步骤S2的结果输入权重计算模型进行训练;
具体包括:
S31、计算关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值,具体公式如下:
Figure BDA0002900581520000041
其中,prop(p)为关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值,p的取值为1代表摘要,2代表正文,3代表总结,k为关键词语,leni(k)为关键词语的总长度,m为关键词语的数量,len(p)为单个论文中摘要或正文或总结的总长度;
S32、计算单个论文中摘要占论文训练集中所有论文的摘要的算术平均值,计算单个论文中正文占论文训练集中所有论文的正文的算术平均值,计算单个论文中总结占论文训练集中所有论文的总结的算术平均值,具体公式如下:
Figure BDA0002900581520000051
其中,n为论文训练集中论文的数量,score(p)为单个论文摘要或正文或总结的得分情况;
S33、计算关键词语分别占训练集中摘要、正文和总结的权重,具体公式如下:
Figure BDA0002900581520000052
其中,weight(p)为关键词语分别占训练集中摘要、正文和总结的权重。
S4、将步骤S2的结果输入频率计算模型进行训练;
具体包括通过TF算法计算关键词语在论文训练集内摘要或正文或总结的出现频率,公式如下:
Figure BDA0002900581520000053
其中,tf为关键词语在论文训练集内摘要或正文或总结的出现频率,j为关键词语在论文训练集内摘要或正文或总结的出现次数,N为训练集中摘要或正文或总结的词语数量;
另外,TF算法可替换为TextRank算法,或者将两者结合在一起使用。
S5、将步骤S3和S4的输出结果输入到输出模型进行训练;
具体包括将关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分,关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分,关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分,最后关键词语在摘要、正文和总结中的总得分得到关键字集合,公式如下:
K(p)=tf(p)*weight(p),p=[1,2,3]
Figure BDA0002900581520000054
其中,K(p)为摘要或正文或总结中关键字集合,K为关键字集合,另外,可对K进行降序排列,按照用户的需求输出K中排序靠前的关键字。
S6、当权重计算模型、频率计算模型和输出模型都训练好后,用户将待提取关键字的论文输入到权重计算模型、频率计算模型和输出模型,最终输出得到排序靠前的关键字。
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (2)

1.论文关键词提取系统,其特征在于:包括
训练集,包含了若干篇用于训练的论文;
词语筛选模块,用于获取论文中正文部分的词语形成词语训练集;
Jieba分词器,用于分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语;
清洗模块,用于将Jieba分词器提取出来的词语进行停用词清洗得到关键词语;
权重计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的权重;
频率计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的出现频率;
输出模型,用于输出关键字;
训练集中,获取训练集中论文正文的词语的方法如下:
S11、将论文中除正文内容以外的部分去除,获得论文的正文;
S12、使用正则表达式获取论文的正文中所有词语形成词语训练集;
Jieba分词器在进行分词切割时,具体包括:
S31、计算关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值;
S32、计算单个论文中摘要占论文训练集中所有论文的摘要的算术平均值,计算单个论文中正文占论文训练集中所有论文的正文的算术平均值,计算单个论文中总结占论文训练集中所有论文的总结的算术平均值;
S33、计算关键词语分别占训练集中摘要、正文和总结的权重;
所述步骤S31的公式如下:
Figure FDA0004161173370000011
其中,prop(p)为关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值,p的取值为1代表摘要,2代表正文,3代表总结,k为关键词语,leni(k)为关键词语的总长度,m为关键词语的数量,len(p)为单个论文中摘要或正文或总结的总长度;
所述步骤S32中算术平均值的公式为:
Figure FDA0004161173370000021
其中,n为论文训练集中论文的数量,score(p)为单个论文摘要或正文或总结的得分情况;
所述步骤S33的公式如下:
Figure FDA0004161173370000022
其中,weight(p)为关键词语分别占训练集中摘要、正文和总结的权重;
清洗模块中关键词语在论文训练集内摘要或正文或总结的出现频率的公式如下:
Figure FDA0004161173370000023
其中,tf为关键词语在论文训练集内摘要或正文或总结的出现频率,j为关键词语在论文训练集内摘要或正文或总结的出现次数,N为训练集中摘要或正文或总结的词语数量;
权重计算模型中,关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分,关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分,关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分,最后关键词语在摘要、正文和总结中的总得分得到关键字集合,得到关键字集合的公式如下:
K(p)=tf(p)*weight(p),p=[1,2,3]
Figure FDA0004161173370000031
其中,K(p)为摘要或正文或总结中关键字集合,K为关键字集合,另外,可对K进行降序排列,按照用户的需求输出K中排序靠前的关键字。
2.一种采用权利要求1所述的论文关键词提取系统进行论文关键词提取的方法,其特征在于:包括如下步骤:
S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集;
S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语,并将该词语输入清洗模块进行停用词清洗,输出经过停用词清洗后的关键词语;
S3、将步骤S2的结果输入权重计算模型进行训练;
S4、将步骤S2的结果输入频率计算模型进行训练;
S5、将步骤S3和S4的输出结果输入到输出模型进行训练;
S6、将待提取关键字的论文输入到权重计算模型、频率计算模型和输出模型,得到关键字;
所述步骤S1中,获取训练集中论文正文的词语的方法如下:
S11、将论文中除正文内容以外的部分去除,获得论文的正文;
S12、使用正则表达式获取论文的正文中所有词语形成词语训练集;
所述步骤S3具体包括:
S31、计算关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值;
S32、计算单个论文中摘要占论文训练集中所有论文的摘要的算术平均值,计算单个论文中正文占论文训练集中所有论文的正文的算术平均值,计算单个论文中总结占论文训练集中所有论文的总结的算术平均值;
S33、计算关键词语分别占训练集中摘要、正文和总结的权重;
所述步骤S31的公式如下:
Figure FDA0004161173370000032
其中,prop(p)为关键词语的长度分别占单个论文中摘要、正文和总结的总长度的比值,p的取值为1代表摘要,2代表正文,3代表总结,k为关键词语,leni(k)为关键词语的总长度,m为关键词语的数量,len(p)为单个论文中摘要或正文或总结的总长度;
所述步骤S32中算术平均值的公式为:
Figure FDA0004161173370000041
其中,n为论文训练集中论文的数量,score(p)为单个论文摘要或正文或总结的得分情况;
所述步骤S33的公式如下:
Figure FDA0004161173370000042
其中,weight(p)为关键词语分别占训练集中摘要、正文和总结的权重;
所述步骤S4中关键词语在论文训练集内摘要或正文或总结的出现频率的公式如下:
Figure FDA0004161173370000043
其中,tf为关键词语在论文训练集内摘要或正文或总结的出现频率,j为关键词语在论文训练集内摘要或正文或总结的出现次数,N为训练集中摘要或正文或总结的词语数量;
所述步骤S5中,关键词语在论文训练集内摘要的权重乘以关键词语在论文训练集内摘要出现频率得到关键词语在摘要中的得分,关键词语在论文训练集内正文的权重乘以关键词语在论文训练集内正文出现频率得到关键词语在正文中的得分,关键词语在论文训练集内总结的权重乘以关键词语在论文训练集内总结出现频率得到关键词语在总结中的得分,最后关键词语在摘要、正文和总结中的总得分得到关键字集合,得到关键字集合的公式如下:
K(p)=tf(p)*weight(p),p=[1,2,3]
Figure FDA0004161173370000051
其中,K(p)为摘要或正文或总结中关键字集合,K为关键字集合,另外,可对K进行降序排列,按照用户的需求输出K中排序靠前的关键字。
CN202110059411.8A 2021-01-15 2021-01-15 论文关键词提取系统及其方法 Active CN112765979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110059411.8A CN112765979B (zh) 2021-01-15 2021-01-15 论文关键词提取系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110059411.8A CN112765979B (zh) 2021-01-15 2021-01-15 论文关键词提取系统及其方法

Publications (2)

Publication Number Publication Date
CN112765979A CN112765979A (zh) 2021-05-07
CN112765979B true CN112765979B (zh) 2023-05-09

Family

ID=75702260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110059411.8A Active CN112765979B (zh) 2021-01-15 2021-01-15 论文关键词提取系统及其方法

Country Status (1)

Country Link
CN (1) CN112765979B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN107656958A (zh) * 2017-06-09 2018-02-02 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN109815401A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 一种应用于Web人物搜索的人名消歧方法
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110362673A (zh) * 2019-07-17 2019-10-22 福州大学 基于摘要语义分析的计算机视觉类论文内容判别方法及系统
CN110837556A (zh) * 2019-10-30 2020-02-25 深圳价值在线信息科技股份有限公司 摘要生成方法、装置、终端设备及存储介质
CN111858914A (zh) * 2020-07-27 2020-10-30 湖南大学 一种基于句级评估的文本摘要生成方法和系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN107656958A (zh) * 2017-06-09 2018-02-02 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN109815401A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 一种应用于Web人物搜索的人名消歧方法
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110362673A (zh) * 2019-07-17 2019-10-22 福州大学 基于摘要语义分析的计算机视觉类论文内容判别方法及系统
CN110837556A (zh) * 2019-10-30 2020-02-25 深圳价值在线信息科技股份有限公司 摘要生成方法、装置、终端设备及存储介质
CN111858914A (zh) * 2020-07-27 2020-10-30 湖南大学 一种基于句级评估的文本摘要生成方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种基于注意力机制的中文短文本关键词提取模型;杨丹浩;吴岳辛;范春晓;;计算机科学(第01期);193-198 *
基于多特征的关键词抽取算法;郭建波;谢飞;;合肥工业大学学报(自然科学版)(第09期);1215-1219 *
快速的领域文档关键词自动提取算法;杨春明;韩永国;;计算机工程与设计(第06期);2142-2145 *
新闻文档关键词抽取技术研究;王民;;科技传播(第07期);85-86+204 *

Also Published As

Publication number Publication date
CN112765979A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN105022725B (zh) 一种应用于金融Web领域的文本情感倾向分析方法
Khreisat Arabic text classification using N-gram frequency statistics a comparative study
Song et al. Research on text classification based on convolutional neural network
CN105260359B (zh) 语义关键词提取方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN109543178A (zh) 一种司法文本标签体系构建方法及系统
Singh et al. Bilingual automatic text summarization using unsupervised deep learning
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN105551485B (zh) 语音文件检索方法及系统
CN109582704A (zh) 招聘信息和求职简历匹配的方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN108363694B (zh) 关键词提取方法及装置
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN102682120A (zh) 一种网络评论精华文章的获取方法、装置和系统
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN112989802A (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN107688630A (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN110399606A (zh) 一种无监督电力文档主题生成方法及系统
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN105488098A (zh) 一种基于领域差异性的新词提取方法
CN107908622A (zh) 一种基于同义关联词的文本对比方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant