CN109766544B - 基于lda和词向量的文档关键词抽取方法和装置 - Google Patents

基于lda和词向量的文档关键词抽取方法和装置 Download PDF

Info

Publication number
CN109766544B
CN109766544B CN201811579479.3A CN201811579479A CN109766544B CN 109766544 B CN109766544 B CN 109766544B CN 201811579479 A CN201811579479 A CN 201811579479A CN 109766544 B CN109766544 B CN 109766544B
Authority
CN
China
Prior art keywords
document
word
word vector
lda
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811579479.3A
Other languages
English (en)
Other versions
CN109766544A (zh
Inventor
胡泽林
曹宜超
高翊
李淼
冯韬
付莎
李华龙
杨选将
刘先旺
郭盼盼
曾伟辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN201811579479.3A priority Critical patent/CN109766544B/zh
Publication of CN109766544A publication Critical patent/CN109766544A/zh
Application granted granted Critical
Publication of CN109766544B publication Critical patent/CN109766544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于LDA和词向量的文档关键词抽取方法,包括以下步骤:(A)使用标题判别器判断文档标题和内容是否相符,如果相符,则执行下一步;(B)计算文档中主题的权重和文档中词汇对主题的权重;(C)计算文档中词汇的权重,并根据权重值大小排序,生成文档的候选关键词集合;(E)将词汇映射到词向量空间中;(F)计算词向量空间中词向量之间的距离,并按照距离排序,选择排序后的前M个词汇作为文档的关键词;还公开一种抽取装置。本方法相比于传统的方法所提取的文档关键词精度高,可靠性强,且过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。

Description

基于LDA和词向量的文档关键词抽取方法和装置
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于LDA和词向量的文档关键词抽取方法和装置。
背景技术
关键词能够简洁准确地描述文本的内容,一般由数个词和短语构成。关键词抽取也称为关键词标注,是指从文本或文本集合中抽取出若干有代表性的词或短语,用以反映文本的主要语义信息,是信息时代人们从海量文档数据中快速掌握感兴趣信息的重要的途径。互联网时代的到来为关键词提取工作提出了新的要求,所提取的关键词应该具备以下三个特点:显著性,可读性和全面性。显著性是指所提取出的关键词应该反映文档的核心内容,例如:在双语语料库价值介绍的文档中提取出“机器翻译”,它并非此文档讨论的核心,不符合显著性的特点,因此不能被选取作为此文档的关键词;可读性指的是关键词本身应该有完全含义的词或短语,即含义明确,具有实际的意义;全面性是指所提取出的关键词必须全面反映文档的所有核心主题,不能只集中于某个主题而忽略了其他主题,且关键词或短语不能出现冗余。
关键词提取方法可分为有监督方法和无监督方法两种,主要区别在于是否需要带标签的训练文本集合。有监督关键词抽取方法的核心是用标注好的训练文本集合来进行训练关键词抽取器,这种方法可以看成二分类问题,即训练时提取关键词特征构造分类模型,分类时根据模型判断词语是否为关键词。Nguyen等使用显著的形态特征抽取科学文献的关键词;李素建等利用最大熵模型来提取关键词;Treeratpituk等使用随机深林来识别关键词。有监督的方法虽然准确度较高,但标注的训练集耗时耗力,分类器受限于特定领域且存在过拟合问题,因此目前关键词抽取大多采用无监督的方法。无监督的关键词抽取方法主要包括3种:基于统计信息的方法、基于图模型的方法和基于语义的方法。统计方法主要利用词频(TF)、词频逆文档频率(TFIDF)、词性、词语位置、词语同现频率等抽取关键词,Hurst等使用多个语言模型间的KL散度评价短语的信息量。基于图模型的方法是对文本的处理转化成网络图的连续分析,Mihalcea等基于词汇的共现链提出TextRank模型排序关键词;Litvak等将网页排序的HITS算法引入关键词抽取。在基于语义的研究方法中,胡学钢等利用词语在文档中语义联系将文档表示成词汇链的形式抽取关键词。
现有的无论是有监督的方法还是无监督的方法,它们都缺乏从文档主题的角度对文档进行显著性、可读性和全面性的综合分析和考察。而现有的基于主题模型的研究,大都通过大规模文档集学习隐含主题。Chen等利用候选关键词在潜在语义索引权重的频率来选择关键词;Liu等根据文档主题和候选关键词主题分布的相似度抽取关键词。这些研究中都存在着一些不足:其一,在主题层次推荐的关键词倾向于文档常用词,无法突出每个文档的核心内容;其二,提取出的主题词汇可能含有其他不相关词汇,造成关键词的偏移;其三,主题相关性最大的同义词或近义词出现,导致推荐的关键词出现冗余,无法实现关键词对文档主题的全面性。
发明内容
本发明的首要目的在于提供一种基于LDA和词向量的文档关键词抽取方法,提取的精度高、可靠性强。
为实现以上目的,本发明采用的技术方案为:一种基于LDA和词向量的文档关键词抽取方法,包括以下步骤:(A)使用标题判别器判断文档标题和内容是否相符,如果不相符,则跳过,如果相符,则执行下一步;(B)使用LDA主题模型计算文档中主题的权重;并使用TF-IDF算法计算文档中词汇对主题的权重;(C)根据步骤B的结果计算文档中词汇的权重,并根据权重值按权重从大到小对词汇进行排序,取排序后的N个词汇生成文档的候选关键词集合;(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中;(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离,并按照距离从小到大对关键词集合中词汇进行排序,选择排序后的前M个词汇作为文档的关键词。
与现有技术相比,本发明存在以下技术效果:本方法采用人工智能技术将词映射为词向量,在数学层面结合主题模型解决语义问题,相比于传统的方法所提取的文档关键词精度高,可靠性强,更能体现文档的主旨内容;且训练了一个神经网络用于判断文档的标题和内容是否相符,过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。
本发明的另一个目的在于提供一种基于LDA和词向量的文档关键词抽取装置,提取的精度高、可靠性强。
为实现以上目的,本发明采用的技术方案为:一种包括基于LDA和词向量的文档关键词抽取方法的装置,包括标题判别器、候选关键词生成器以及关键词生成器;所述的标题判别器用于判别文档的标题和内容是否相符并将判别结果输出至候选关键词生成器中;候选关键词生成器通过LDA主题模型和TF-IDF权值计算生成候选关键词集合;关键词生成器通过词向量空间中的距离从候选关键词集合中挑选出与标题接近的词汇作为文档的关键词后输出。
与现有技术相比,本发明存在以下技术效果:本装置采用人工智能技术将词映射为词向量,在数学层面结合主题模型解决语义问题,相比于传统的方法所提取的文档关键词精度高,可靠性强,更能体现文档的主旨内容;且训练了一个神经网络用于判断文档的标题和内容是否相符,过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。
附图说明
图1是本发明的流程图;
图2是LDA主题模型生成图;
图3是本发明的结构框图。
具体实施方式
下面结合图1至图3,对本发明做进一步详细叙述。
参阅图1,一种基于LDA和词向量的文档关键词抽取方法,包括以下步骤:(A)使用标题判别器10判断文档标题和内容是否相符,如果不相符,则跳过,如果相符,则执行下一步;(B)使用LDA主题模型计算文档中主题的权重;并使用TF-IDF算法计算文档中词汇对主题的权重;(C)根据步骤B的结果计算文档中词汇的权重,并根据权重值按权重从大到小对词汇进行排序,取排序后的N个词汇生成文档的候选关键词集合;(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中;(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离,并按照距离从小到大对关键词集合中词汇进行排序,选择排序后的前M个词汇作为文档的关键词。本方法采用人工智能技术将词映射为词向量,在数学层面结合主题模型解决语义问题,相比于传统的方法所提取的文档关键词精度高,可靠性强,更能体现文档的主旨内容;且训练了一个神经网络用于判断文档的标题和内容是否相符,过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。这里的文档可以是新闻,也可以是其他文本、论文等。
优选地,所述的步骤C和步骤E之间还包括如下步骤:(D)用同义词词典对候选关键词集合中的词汇进行处理,去掉同义词中权重较低的词汇;所述的步骤E和F中的关键词集合为去同义词后的剩余词汇生成的关键词集合。这里对同义词进行去除,避免了最后抽取的关键字中存在多个相同意思的词汇。
标题和内容是否相符的判定方案有很多,本发明中优选地,所述的步骤A中,按如下步骤判断文档标题和内容是否相符:(A1)建立一个二分类神经网络,该神经网络由包含两个隐层的多层感知机组成,输出层使用softmax激活函数进行类别的判断;(A2)使用S1条标题和内容相符的语料以及S2条标题和内容不相符的语料对二分类神经网络进行训练,实际使用时,S1和S2可以分别取值为10万和1万,然后使用这11万条语料对该神经网络进行训练;(A3)将文档标题和内容输入训练好的二分类神经网络中后即可输出判断结果。这里之所以要先进行标题和内容的判定,主要为了挑选出“标题党”文档,由于这种内容一般有断章取义,夸大事实,无中生有,偷换概念等特征,并不符合文档客观公正的特性,无论是在语料挖掘还是在其他方面,“标题党”文档的应用价值不大,因此在本方法中,对这种文档进行跳过,不再做关键词抽取处理。
候选关键词的挑选有很多方案可以实现,本发明中优选地采用LDA主题模型和TF-IDF权值计算生成候选关键词集合。
具体地,所述的步骤B中,按如下步骤计算文档中主题的权重:(B1)在语料库中选择多篇采样文档来训练LDA主题模型;LDA主题模型可以实现对文本数据的主题信息进行完全建模,LDA模型具有词项、主题和文档三层结构,定义
Figure GDA0003819209760000051
表示主题k中的词汇频率分布,θm表示第m篇文档的主题概率分布,
Figure GDA0003819209760000052
和θm服从Dirichlet分布,且这二者作为多项式分布的参数分别用于生成主题和词项;定义α和β分别是θm
Figure GDA0003819209760000053
的分布参数,α反映了文档集中隐含主题间的相对强弱,β代表了所有隐含主题自身的概率分布;定义K表示主题数目,M代表文档集中文档的数目,Nm表示第m篇文档的词项总数;定义ωm,n和Zm,n分别表示第m篇文档中第n个词项及其隐含主题,LDA主题模型生成流程如图2所示。
LDA主题模型的生成过程如下:(1)首先对主题采样:
Figure GDA0003819209760000054
其中k∈[1,K];(2)对语料中的第m个文档采样主题概率分布θm~Dir(α),并采样文档长度Nm~Poiss(ξ),其中m∈[1,M];(3)对文档m中的第n个单词选择隐含主题Zm,n~Mult(θm),其中n∈[1,Nm];(4)生成一个单词
Figure GDA0003819209760000055
LDA主题模型的生成现有技术中有很多记载,这里简单的写个步骤以供参考。
LDA主题模型的参数估计使用Gibbs采样,在获得每一个词ω的主题Z的标号后,参数
Figure GDA0003819209760000061
和θm,k的计算公式如下:
Figure GDA0003819209760000062
Figure GDA0003819209760000063
其中,
Figure GDA0003819209760000064
表示主题k中词项t的概率,θm,k表示文档m中主题k的概率。当LDA主题模型训练好以后,(B2)将待判别文档代入LDA主题模型中得到每个词汇的隐含主题概率;(B3)通过Gibbs采样方法对隐含主题概率进行处理得到每个词汇的主题标号;(B4)对每个词汇的主题标号进行计数累加后再除以总的词汇数量计算得到文档中每个主题的权重,比如某个标号的主题在步骤B3中出现过5次,总词汇数量是1000个,那么该标号对应的主题的权重就是0.5%。
计算出文档中主题的权重后,之后参照TFIDF的思想,根据词汇对主题的权重和词汇在所有主题中出现的频率,计算最终的词汇对主题的权重。TFIDF的思想是根据词汇在文档中出现的频率和词汇在所有文档中出现的频率计算词汇对文档的TFIDF权重,计算公式如下:
Figure GDA0003819209760000065
其中,Nt表示词汇t在文档d中出现的次数,Nd表示文档d中所有词汇的总数,D表示文档集中文档的数目,Dt表示文档集里包含词汇t的文档数目。这里借鉴TFIDF的思想,计算词汇对主题的权重,即认为一个词汇对主题的权重与这个词在主题中的概率成正比,与词在所有主题中的概率成反比。故本发明中优选地,所述的步骤B中,按如下公式计算词汇对主题的权重:
Figure GDA0003819209760000071
式中,WTk,n为词汇ωn对主题Zk的权重,
Figure GDA0003819209760000072
为词汇ωn对主题Zk的词频,词在主题上体现的阈值ε=0.005。在得到词对主题的权重后,结合LDA模型预测的主题在文档中的概率,可以得到词对文档的权重。故进一步地,所述的步骤C中,按以下公式计算文档中词汇的权重:
Figure GDA0003819209760000073
式中,Dm为词汇ωn所在的文档,θm,k即为步骤B4中计算出的主题Zk在文档Dm中的权重。
在上述的处理步骤中,所述的步骤C和步骤F中N和M的取值为整数或百分比数,当取值为整数时,则取固定数量的词汇,如果取值是百分比时,则所取词汇的数量是不固定的,跟文档总的词汇数量相关。本发明中优选地,采用百分比的取值方式,比如步骤C中,取排序后的前10%的词汇作为文档的候选关键词放入候选关键词集合;步骤F中,将排序后前60%的词汇作为文档的最终关键词。具体的整数取值和百分比数取值根据实际的需要来设定,这里的10%和60%只是一种较为优选的方案。
所述的步骤E中,按如下步骤得到词向量空间:(E1)搜集多篇网页文档并进行去噪处理得到语料,假设需要新闻语料,那么可以从人民网、新华网、凤凰网等网站使用爬虫程序收集;(E2)使用中科院汉语词法分析系统ICTCLAS对去噪后的语料进行分词、去停用词操作后,得到较高质量的文本级语料;(E3)利用Word2Vec对文本级语料进行词向量模型的训练,将词映射到词向量空间中,在词向量空间中每个词对应一个词向量。在训练好词向量后,就可以将去同义词之后的候选关键词集合中的词汇映射到向量空间中,同时将当前文档的标题词汇作为锚点也映射到相同的向量空间中。在词向量空间中,如果两个词表达的意思相近那么这两个词在向量空间的距离也是相近的,由于在文档中,文档的标题是整个文档的概括性语句,最能表达文档的主旨,因此在过滤掉所谓的“标题党”文档后,就可以使用文档标题中的词汇作为锚点来指导文档关键词的生成。
为了准确的计算两个词在向量空间中的距离,本发明中优选地:所述的步骤F中,按如下步骤进行距离的从小到大排序:(F1)以标题中词汇的词向量作为锚点得到多个锚点词向量;(F2)分别计算每个候选关键词向量与每个锚点词向量之间距离,取最近的距离作为这个候选关键词向量与此文档主题之间的最终距离,词向量之间的最终距离按如下公式计算:
Figure GDA0003819209760000081
式中,其中Xi表示候选关键词集合中的第i个候选关键词词向量,Yj表示锚点集合中的第j个锚点词向量,Li表示第i个候选关键词相对于此文档主题的最终距离,||||F表示Frobenius范数;(F3)将候选关键词集合中的所有词汇所对应的最终距离按从小到大排序即可。
参阅图3,本发明还公开了一种包括基于LDA和词向量的文档关键词抽取方法的装置,包括标题判别器10、候选关键词生成器20以及关键词生成器30;所述的标题判别器10用于判别文档的标题和内容是否相符并将判别结果输出至候选关键词生成器20中;候选关键词生成器20通过LDA主题模型和TF-IDF权值计算生成候选关键词集合;关键词生成器30通过词向量空间中的距离从候选关键词集合中挑选出与标题接近的词汇作为文档的关键词后输出。本装置采用人工智能技术将词映射为词向量,在数学层面结合主题模型解决语义问题,相比于传统的方法所提取的文档关键词精度高,可靠性强,更能体现文档的主旨内容;且训练了一个神经网络用于判断文档的标题和内容是否相符,过滤掉了“标题党”文档,避免了噪声数据的干扰,进一步提高了准确度。
通过以上方法和装置,可以提取出文档的关键词,为可比语料挖掘等任务打下基础,非常值得推广使用。

Claims (10)

1.一种基于LDA和词向量的文档关键词抽取方法,其特征在于:包括以下步骤:
(A)使用标题判别器(10)判断文档标题和内容是否相符,如果不相符,则跳过,如果相符,则执行下一步;
(B)使用LDA主题模型计算文档中主题的权重;并使用TF-IDF算法计算文档中词汇对主题的权重;
(C)根据步骤B的结果计算文档中词汇的权重,并根据权重值按权重从大到小对词汇进行排序,取排序后的N个词汇生成文档的候选关键词集合;
(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中;
(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离,并按照距离从小到大对关键词集合中词汇进行排序,选择排序后的前M个词汇作为文档的关键词。
2.如权利要求1所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤C和步骤E之间还包括如下步骤:
(D)用同义词词典对候选关键词集合中的词汇进行处理,去掉同义词中权重较低的词汇;
所述的步骤E和F中的关键词集合为去同义词后的剩余词汇生成的关键词集合。
3.如权利要求1或2所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤A中,按如下步骤判断文档标题和内容是否相符:
(A1)建立一个二分类神经网络,该神经网络由包含两个隐层的多层感知机组成,输出层使用softmax激活函数进行类别的判断;
(A2)使用S1条标题和内容相符的语料以及S2条标题和内容不相符的语料对二分类神经网络进行训练;
(A3)将文档标题和内容输入训练好的二分类神经网络中后即可输出判断结果。
4.如权利要求2所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤B中,按如下步骤计算文档中主题的权重:
(B1)在语料库中选择多篇采样文档来训练LDA主题模型;
(B2)将待判别文档代入LDA主题模型中得到每个词汇的隐含主题概率;
(B3)通过Gibbs采样方法对隐含主题概率进行处理得到每个词汇的主题标号;
(B4)对每个词汇的主题标号进行计数累加后再除以总的词汇数量计算得到文档中每个主题的权重。
5.如权利要求4所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤B中,按如下公式计算词汇对主题的权重:
Figure FDA0003819209750000021
式中,WTk,n为词汇ωn对主题Zk的权重,
Figure FDA0003819209750000022
为词汇ωn对主题Zk的词频,词在主题上体现的阈值ε=0.005。
6.如权利要求5所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤C中,按以下公式计算文档中词汇的权重:
Figure FDA0003819209750000023
式中,Dm为词汇ωn所在的文档,θm,k即为步骤B4中计算出的主题Zk在文档Dm中的权重。
7.如权利要求1、2、4、5或6任一项所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤C和步骤F中,N和M的取值为整数或百分比数。
8.如权利要求1、2、4、5或6任一项所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤E中,按如下步骤得到词向量空间:
(E1)搜集多篇网页文档并进行去噪处理得到语料;
(E2)使用中科院汉语词法分析系统ICTCLAS对去噪后的语料进行分词、去停用词操作后,得到文本级语料;
(E3)利用Word2Vec对文本级语料进行词向量模型的训练,将词映射到词向量空间中,在词向量空间中每个词对应一个词向量。
9.如权利要求1、2、4、5或6任一项所述的基于LDA和词向量的文档关键词抽取方法,其特征在于:所述的步骤F中,按如下步骤进行距离的从小到大排序:
(F1)以标题中词汇的词向量作为锚点得到多个锚点词向量;
(F2)分别计算每个候选关键词向量与每个锚点词向量之间距离,取最近的距离作为这个候选关键词向量与此文档主题之间的最终距离,词向量之间的最终距离按如下公式计算:
Figure FDA0003819209750000031
式中,其中Xi表示候选关键词集合中的第i个候选关键词词向量,Yj表示锚点集合中的第j个锚点词向量,Li表示第i个候选关键词相对于此文档主题的最终距离,|| ||F表示Frobenius范数;
(F3)将候选关键词集合中的所有词汇所对应的最终距离按从小到大排序即可。
10.一种包括权利要求1所述基于LDA和词向量的文档关键词抽取方法的装置,其特征在于:包括标题判别器(10)、候选关键词生成器(20)以及关键词生成器(30);所述的标题判别器(10)用于判别文档的标题和内容是否相符并将判别结果输出至候选关键词生成器(20)中;候选关键词生成器(20)通过LDA主题模型和TF-IDF权值计算生成候选关键词集合;关键词生成器(30)通过词向量空间中的距离从候选关键词集合中挑选出与标题接近的词汇作为文档的关键词后输出。
CN201811579479.3A 2018-12-24 2018-12-24 基于lda和词向量的文档关键词抽取方法和装置 Active CN109766544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811579479.3A CN109766544B (zh) 2018-12-24 2018-12-24 基于lda和词向量的文档关键词抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811579479.3A CN109766544B (zh) 2018-12-24 2018-12-24 基于lda和词向量的文档关键词抽取方法和装置

Publications (2)

Publication Number Publication Date
CN109766544A CN109766544A (zh) 2019-05-17
CN109766544B true CN109766544B (zh) 2022-09-30

Family

ID=66450921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811579479.3A Active CN109766544B (zh) 2018-12-24 2018-12-24 基于lda和词向量的文档关键词抽取方法和装置

Country Status (1)

Country Link
CN (1) CN109766544B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210022B (zh) * 2019-05-22 2022-12-27 北京百度网讯科技有限公司 标题识别方法及装置
CN110795936B (zh) * 2019-08-14 2023-09-22 腾讯科技(深圳)有限公司 词向量的获取方法和装置、存储介质及电子装置
CN110457708B (zh) * 2019-08-16 2023-05-16 腾讯科技(深圳)有限公司 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110543564B (zh) * 2019-08-23 2023-06-20 北京信息科技大学 基于主题模型的领域标签获取方法
CN110489758B (zh) * 2019-09-10 2023-04-18 深圳市和讯华谷信息技术有限公司 应用程序的价值观计算方法及装置
CN110852100B (zh) * 2019-10-30 2023-07-21 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN110909550B (zh) * 2019-11-13 2023-11-03 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN111694927B (zh) * 2020-05-22 2023-07-21 电子科技大学 一种基于改进词移距离算法的文档自动评阅方法
CN111597328B (zh) * 2020-05-27 2022-10-18 青岛大学 一种新事件主题提取方法
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质
CN115221871B (zh) * 2022-06-24 2024-02-20 毕开龙 多特征融合的英文科技文献关键词提取方法
CN116975246B (zh) * 2023-08-03 2024-04-26 深圳市博锐高科科技有限公司 一种数据采集方法、装置、芯片及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于图和LDA主题模型的关键词抽取算法;刘啸剑等;《情报学报》;20160624(第06期);全文 *
融合Word2vec与TextRank的关键词抽取研究;宁建飞等;《现代图书情报技术》;20160625(第06期);全文 *

Also Published As

Publication number Publication date
CN109766544A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN109766544B (zh) 基于lda和词向量的文档关键词抽取方法和装置
Devika et al. Sentiment analysis: a comparative study on different approaches
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN111159342A (zh) 一种基于机器学习的公园文本评论情绪打分方法
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
Sivanaiah et al. Techssn at semeval-2020 task 12: Offensive language detection using bert embeddings
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
Jawad et al. Combination Of Convolution Neural Networks And Deep Neural Networks For Fake News Detection
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
Al Taawab et al. Transliterated bengali comment classification from social media
CN116628377A (zh) 一种网页主题相关度判别方法
Yafoz et al. Analyzing machine learning algorithms for sentiments in arabic text
Abdullah et al. A deep learning approach to classify and quantify the multiple emotions of arabic tweets
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN115017279A (zh) 基于文本语义匹配的Stack Overflow相关问答检索方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant