CN110851570A - 基于Embedding技术的无监督关键词提取方法 - Google Patents

基于Embedding技术的无监督关键词提取方法 Download PDF

Info

Publication number
CN110851570A
CN110851570A CN201911114365.6A CN201911114365A CN110851570A CN 110851570 A CN110851570 A CN 110851570A CN 201911114365 A CN201911114365 A CN 201911114365A CN 110851570 A CN110851570 A CN 110851570A
Authority
CN
China
Prior art keywords
word
words
vector
occurrence
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911114365.6A
Other languages
English (en)
Other versions
CN110851570B (zh
Inventor
张兴宇
潘炎
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911114365.6A priority Critical patent/CN110851570B/zh
Publication of CN110851570A publication Critical patent/CN110851570A/zh
Application granted granted Critical
Publication of CN110851570B publication Critical patent/CN110851570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于Embedding技术的无监督关键词提取方法,该方法利用图卷积词嵌入技术得到文章单词的语义兼句法词向量;利用Node2Vec技术训练单词的共现关系拓扑图,从而得到共现特征词向量;利用主题词嵌入技术,得到文章单词的主题词向量;将单词的三种特征向量拼接得到混合词向量,利用混合词向量计算单词间的余弦相似度去构造单词拓扑图,使用PageRank图迭代算法得到单词的重要性分数。该方法运用多种词嵌入技术,综合了单词间的语义、句法、共现以及主题多种关联特征,使得提取效果得到大大的提升。

Description

基于Embedding技术的无监督关键词提取方法
技术领域
本发明涉及文本处理算法领域,更具体地,涉及一种基于Embedding技术的无监督关键词提取方法。
背景技术
随着文本数据(如学术论文、Web网页、社交推文、热点新闻)的快速成长,对文本数据的分析和挖掘成为当前备受关注的重要研究领域。其中,如何从文本文档中提取反映文档主题的关键词(keyphrases,包括单词和短语)一直以来都是自然语言处理领域亟待解决的关键基础问题和研究热点,其研究成果可广泛用于文档检索、文档摘要、文本分类、话题检测、意图识别等具体应用领域。
无监督关键词提取方法中,基于图的关键词提取方法是目前最有效、被广泛研究的一类无监督提取方法。因为该类方法考虑了文档中词与词之间的关联信息(如共现关系、语义相似度)且可以融合单词的特性(如主题特性、位置特性等),因此取得了较好的提取效果,通常优于其他无监督方法,且在一些情况接近有监督的方法。从2004年最初提出的TextRank方法至2017年发表于NLP领域顶会ACL的SalienceRank,十几年间研究者相继提出了诸多基于图的无监督算法,彼此之间不断借鉴改进。
TextRank算法主要基于PageRank算法框架,该算法的原理包括“重要的单词往往和很多单词有关联”、“和重要的单词有关联的单词往往很重要”两点。算法具体先对文档进行切词处理和词性标注,得到单词集合。然后利用固定大小的窗口在文章中进行滑动,得到单词之间的共现关系,从而构建该文档对应的单词拓扑图。其中,图节点为各个单词,单词间的共现次数做为边权,即两个单词在同一个窗口内出现的次数。最后利用PageRank算法对图中的每个单词节点迭代计算分数,利用每个单词的最终评分即可筛选出文档的关键词。
关键词应当反应文章的主题,为此,清华大学的刘知远首次将LDA主题模型融入TextRank算法当中,提出了TopicalPageRank(TPR)算法。该算法的主要原理为每个隐含主题下的单词,运行一次带主题偏好的PageRank算法,每个主题内的TextRank算法都会给予那些主题关联度高的单词更大的分数。
2014年的WordAttractionRank首次将word2vec词嵌入技术应用到无监督关键词提取领域,利用单词频率的DICE系数和词向量的欧式距离定义了单词之间的关联性,作为单词拓扑图的边权。
2017年ACL上发表的SalienceRank是对TopicalPageRank算法的改进,SalienceRank(SR)算法将LDA估计出得K个潜在主题组合成一个词的度量标准,叫做word salience,并将每个单词的word salience分数作为PageRank的重启概率以让算法更偏好于主题特异性高的单词,但是该算法仍然用单词的共现次数作为图的边权。
基于图结构的无监督关键词提取方法,绝大部分只是考虑了单一的词关联特征,比如TextRank、TPR、SR算法都只使用了共现次数作为边权。然而单词之间关联特征往往是多方面的,如语义相似度、主题相似度、共现关系、句法依存关系等。即使两个单词不存在共现关系的时候,它们之间往往还会存在语义强相关的情况,或者主题强相关的情况等。因此考虑单一的关联特征,或者考虑较少的关联特征,会损失很多有用的语义信息,无法进一步提高算法的精度。
综合考虑单词的多个关联特征,并不是简单的加权求和,这样做往往效果并不好,或者适用性过低。它的难度在于如何将多种特征进行低维的向量化表示。原始的向量化表示往往是基于统计手法。这样做的缺点就是向量稀疏维度过大,运算时间过长,内存占用多大,计算关联性并不准确等。随着嵌入(Embedding)技术的发展,利用无监督的神经网络算法训练得到单词的分布式向量表示成为主流。利用不同的词嵌入(Embedding)技术,如图卷积词嵌入、共现拓扑图node2vec、主题词嵌入,最后拼接成混合词向量,可以很好地表征单词的语义、句法、共现关联以及主题特征。
对比目前主流的无监督关键词提取方法大多只使用共现关系或者语义相似度特征作为图的边权,本发明不仅考虑了共现关系和语义相似度,还考虑了句法依存关系和主题嵌入技术(可解决一词多义现象),使得关键词提取的效果大幅度提升。
发明内容
本发明提供一种关键词提取的精度较高的基于Embedding技术的无监督关键词提取方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于Embedding技术的无监督关键词提取方法,包括以下步骤:
S1:对文档进行切词和词性标注,得到一个单词集合W;
S2:利用词性标注和“形容词+名词”模式得到一系列候选短语;
S3:利用无监督图卷积词嵌入技术得到集合W中每个单词的句法兼语义词向量Gi;
S4:以W集合中单词的共现关系构造单词的共现拓扑图,使用Node2Vec技术训练得到单词的共现特征向量Ni;
S5:利用主题词嵌入技术得到集合W中每个单词的主题词向量Ti;
S6:将W集合中单词的三种向量进行拼接得到混合词向量Vi=[Gi,Ni,Ti],利用混合词向量得到单词之间的余弦相似度,以单词为节点,相似度作为边权构造单词的拓扑图。利用PageRank算法迭代单词的分数;
S7:根据单词的分数间接对候选短语排序,从而得到关键词。
进一步地,所述步骤S3的具体过程是:
S31:以句子为单位,构造每个句子的句法依存树;
S32:利用图卷积神经网络和句法依存树中单词的邻居关系去得到每个单词的隐层状态,即向量表示Gi;
S33:利用每个单词的邻居集合去极大化该单词的条件概率,以此作为图卷积神经网络的损失函数,去训练得到单词的词向量。该向量具备单词的语义和句法依存特征。
进一步地,所述步骤S4的具体过程是:
S41:设置共现窗口,在文章中进行滑动,将两个单词出现在同一窗口的次数作为单词间的共现次数,以单词为节点,单词间的共现次数构造单词的共现拓扑图;
S42:利用Node2Vec技术,去训练单词的共现拓扑图,将单词节点向量化,每个单词的向量Ni融入了该单词的共现关联特征和共现图的结构相似特征。
进一步地,所述步骤S5的具体过程是:
S51:利用LDA主题模型得到文章中的K个潜在主题,每个单词分配一个主题;
S52:替每个单词和主题都保留不同的嵌入向量Ui与Ki,将单词和主题的向量进行拼接Ti=[Ui,Ki],利用word2vec的原理去训练拼接后的向量Ti;
S53:将训练好的单词向量和其对应的主题向量进行拼接,得到该单词的主题词向量Ti,该向量融入了语义特征和主题特征。
进一步地,将步骤S3、S4和S5步骤中的三种词向量进行拼接,得到混合词向量Vi=[Gi,Ni,Ti],该向量兼具单词的语义特征、句法依存特征、共现关联特征以及主题特征。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法利用图卷积词嵌入技术(GCN Embedding)将单词的语义和句法依存关系向量化,利用Node2Vec技术训练单词共现关系拓扑图,有效地将单词的共现关系特征向量化,利用主题词嵌入(Topical Word Embedding)技术将单词的主题特征和主题关联度向量化。将上述三种词向量进行拼接得到混合词向量,利用余弦相似度去构造单词拓扑图的边权。因为综合考虑了语义、句法、主题、共现多个特征,使得关键词提取效果得到进一步提升。此外,该方法使用了主题词嵌入技术,超参数定义较少,因此领域不敏感,适用性很高。无论是学术文章,新闻热点还是热门推文,均可高效地提取出关键词。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于多种Embedding技术地的更高效的无监督关键词提取方法,具体过程是:
S1:对文档数据进行预处理,包括切词,去除停用词,词性标注,去除标点符号和非法符号等,得到一个单词集合W。
S2:采用模式匹配结合正则规则来进行名词短语分块,具体利用词性标注和“形容词+名词”模式得到一系列候选关键短语。
S3:利用无监督图卷积词嵌入技术(GCN Word Embedding)得到集合W中每个单词的词向量Gi,该词限量兼具语义和句法特征。
S4:以W集合中单词的共现关系构造单词的共现拓扑图,使用Node2Vec技术训练得到单词的共现特征向量Ni。
S5:利用主题词嵌入技术(Topical Word Embedding)得到集合W中每个单词的主题词向量Ti。
S6:将W集合中单词的三种向量进行拼接,利用混合词向量Vi=[Gi,Ni,Ti]计算单词之间的余弦相似度,以单词为节点,相似度作为边权构造单词的拓扑图。利用PageRank算法迭代单词的分数。
S7:根据单词的分数间接对候选短语排序,从而得到关键词。
步骤S3的具体过程是:
对于文章的每一个句子,利用斯坦福corenlp工具去提取句子中的句法依存关系,构造句法依存树(句法依存图)。这样就可以得到每个单词在句法依存图中的直接邻居集合。
对每个句法依存树使用K层图卷积神经网络进行训练,得到每个单词的向量表示,神经网络的前馈传播计算方式如下所示:
Figure BDA0002273659000000051
其中
Figure BDA0002273659000000052
表示单词i的第k+1层隐层向量表示,N(i)表示单词i的直接邻居集合,
Figure BDA0002273659000000053
单词i与单词j的可训练归一化的边权,
Figure BDA0002273659000000054
表示可训练的权重矩阵,f为激活函数。
该方法训练方式相当于word2vec模型中的CBOW算法加上图卷积神经网络。
目标损失函数为:
Figure BDA0002273659000000055
即利用极大似然估计,最大化每个单词相对于其邻居集合的后验概率。
最终,将训练完成的每个单词的第K层隐层作为单词的词向量表示Gi,该向量将会具备语义和句法特征。
步骤S4的具体过程是:
设置共现窗口,在文章中进行滑动,将两个单词出现在同一窗口的次数作为单词间的共现次数,以单词为节点,单词间的共现次数构造单词的共现拓扑图。
利用经典DeepWalk算法改进的Node2Vec技术,训练出该拓扑图中的每个节点的向量化表示,具体对于每个节点,利用深度优先搜索和广度优先搜索两种随机游走的策略得到其近邻节点集合。
利用SkipGram算法得到该节点的向量化表示,具体构造节点的Embedding矩阵,该矩阵行数为节点个数,每一行权重代表该节点的向量。每个单词u的目标函数如下所示:
Figure BDA0002273659000000061
其中N(u)为该单词节点的近邻集合,f为节点的向量表示,即Embedding矩阵对应的行向量。目标是极大化每个单词的近邻节点相对于该单词的后验概率。
最终得到每个单词节点的向量表示Ni,具备了单词在这篇文章的共现关系特征和共现图的结构相似特征。
步骤S5的具体过程是:
利用LDA主题模型得到文章中的K个潜在主题,每个单词分配一个主题。构造出单词和主题对。
为单词构造单词的Embedding矩阵,为主题构造主题的Embedding矩阵,即每个单词和每个主题都是可训练的低维向量。将单词和主题对的两个向量进行拼接,利用Word2vec算法对拼接向量进行训练,不断更新两个Embedding矩阵的权重。
最终得到每个单词的词向量Ui,和每个主题的向量Ki,将单词和其对应的主题向量进行拼接,就是该单词的主题词向量Ti=[Ui,Ki]。该向量具备主题特征,同时可以表征一词多义现象。
步骤S6的具体过程是:
将S3、S4、S5每个步骤生成的单词词向量进行拼接,得到该单词的混合词向量,以单词为节点,混合词向量计算余弦相似度作为单词间的边权,构造出单词图。
对于构建好的单词图,初始化每个节点的分数为节点总数的倒数,通过如下PageRank算法公式去迭代每个单词的分数:
Figure BDA0002273659000000062
其中Out(vj)是节点vj的出度,λ是权衡因子,一般取值0.85,R(vi)为节点vi的分数,wi,j是vj与vi通过混合词向量计算得到的余弦相似度。
经过多轮迭代收敛之后,每个单词的分数将不再改变,将每个候选词中的单词分数进行相加得到候选词的分数,取前几个最高得分的候选词就是需要提取的关键词。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于Embedding技术的无监督关键词提取方法,其特征在于,包括以下步骤:
S1:对文档进行切词和词性标注,得到一个单词集合W;
S2:利用词性标注和“形容词+名词”模式得到一系列候选短语;
S3:利用无监督图卷积词嵌入技术得到集合W中每个单词的句法兼语义词向量Gi;
S4:以W集合中单词的共现关系构造单词的共现拓扑图,使用Node2Vec技术训练得到单词的共现特征向量Ni;
S5:利用主题词嵌入技术得到集合W中每个单词的主题词向量Ti;
S6:将W集合中单词的三种向量进行拼接得到混合词向量Vi=[Gi,Ni,Ti],利用混合词向量得到单词之间的余弦相似度,以单词为节点,相似度作为边权构造单词的拓扑图。利用PageRank算法迭代单词的分数;
S7:根据单词的分数间接对候选短语排序,从而得到关键词。
2.根据权利要求1所述的基于Embedding技术的无监督关键词提取方法,其特征在于,所述步骤S3的具体过程是:
S31:以句子为单位,构造每个句子的句法依存树;
S32:利用图卷积神经网络和句法依存树中单词的邻居关系去得到每个单词的隐层状态,即向量表示Gi;
S33:利用每个单词的邻居集合去极大化该单词的条件概率,以此作为图卷积神经网络的损失函数,去训练得到单词的词向量。该向量具备单词的语义和句法依存特征。
3.根据权利要求2所述的基于Embedding技术的无监督关键词提取方法,其特征在于,所述步骤S4的具体过程是:
S41:设置共现窗口,在文章中进行滑动,将两个单词出现在同一窗口的次数作为单词间的共现次数,以单词为节点,单词间的共现次数构造单词的共现拓扑图;
S42:利用Node2Vec技术,去训练单词的共现拓扑图,将单词节点向量化,每个单词的向量Ni融入了该单词的共现关联特征和共现图的结构相似特征。
4.根据权利要求3所述的基于Embedding技术的无监督关键词提取方法,其特征在于,所述步骤S5的具体过程是:
S51:利用LDA主题模型得到文章中的K个潜在主题,每个单词分配一个主题;
S52:替每个单词和主题都保留不同的嵌入向量Ui与Ki,将单词和主题的向量进行拼接Ti=[Ui,Ki],利用word2vec的原理去训练拼接后的向量Ti;
S53:将训练好的单词向量和其对应的主题向量进行拼接,得到该单词的主题词向量Ti,该向量融入了语义特征和主题特征。
5.根据权利要求4所述的基于Embedding技术的无监督关键词提取方法,其特征在于,将步骤S3、S4和S5步骤中的三种词向量进行拼接,得到混合词向量Vi=[Gi,Ni,Ti],该向量兼具单词的语义特征、句法依存特征、共现关联特征以及主题特征。
CN201911114365.6A 2019-11-14 2019-11-14 基于Embedding技术的无监督关键词提取方法 Active CN110851570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911114365.6A CN110851570B (zh) 2019-11-14 2019-11-14 基于Embedding技术的无监督关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911114365.6A CN110851570B (zh) 2019-11-14 2019-11-14 基于Embedding技术的无监督关键词提取方法

Publications (2)

Publication Number Publication Date
CN110851570A true CN110851570A (zh) 2020-02-28
CN110851570B CN110851570B (zh) 2023-04-18

Family

ID=69601647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911114365.6A Active CN110851570B (zh) 2019-11-14 2019-11-14 基于Embedding技术的无监督关键词提取方法

Country Status (1)

Country Link
CN (1) CN110851570B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475651A (zh) * 2020-04-08 2020-07-31 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN111581969A (zh) * 2020-05-08 2020-08-25 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111666772A (zh) * 2020-06-18 2020-09-15 南昌大学 一种基于深度图神经网络的关键词抽取方法
CN112241481A (zh) * 2020-10-09 2021-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及系统
CN112507726A (zh) * 2020-12-14 2021-03-16 北京搜狗科技发展有限公司 一种义项嵌入向量的训练方法及装置
CN113688215A (zh) * 2021-08-03 2021-11-23 上海浦东发展银行股份有限公司 信息抽取、模型训练方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN110162592A (zh) * 2019-05-24 2019-08-23 东北大学 一种基于万有引力改进的TextRank的新闻关键词提取方法
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法
CN110162592A (zh) * 2019-05-24 2019-08-23 东北大学 一种基于万有引力改进的TextRank的新闻关键词提取方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475651A (zh) * 2020-04-08 2020-07-31 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN111475651B (zh) * 2020-04-08 2023-04-07 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN111581969A (zh) * 2020-05-08 2020-08-25 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111581969B (zh) * 2020-05-08 2023-03-31 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111666772A (zh) * 2020-06-18 2020-09-15 南昌大学 一种基于深度图神经网络的关键词抽取方法
CN112241481A (zh) * 2020-10-09 2021-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及系统
CN112241481B (zh) * 2020-10-09 2024-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及系统
CN112507726A (zh) * 2020-12-14 2021-03-16 北京搜狗科技发展有限公司 一种义项嵌入向量的训练方法及装置
CN113688215A (zh) * 2021-08-03 2021-11-23 上海浦东发展银行股份有限公司 信息抽取、模型训练方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110851570B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110851570B (zh) 基于Embedding技术的无监督关键词提取方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Nickel et al. Poincaré embeddings for learning hierarchical representations
CN110516146B (zh) 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
Zhu et al. Statsnowball: a statistical approach to extracting entity relationships
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN110472005B (zh) 一种无监督关键词提取方法
Zhao et al. Representation Learning for Measuring Entity Relatedness with Rich Information.
US11481560B2 (en) Information processing device, information processing method, and program
CN111191466A (zh) 一种基于网络表征和语义表征的同名作者消歧方法
Amancio et al. Unveiling the relationship between complex networks metrics and word senses
Yu et al. Corpus-based set expansion with lexical features and distributed representations
Tariq et al. Exploiting topical perceptions over multi-lingual text for hashtag suggestion on twitter
Li et al. CIST@ CLSciSumm-17: Multiple Features Based Citation Linkage, Classification and Summarization.
Sousa et al. Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings
Huang et al. Enriching cold start personalized language model using social network information
Yang et al. Ensemble sentiment analysis method based on R-CNN and C-RNN with fusion gate
Gong et al. Understanding partial multi-label learning via mutual information
CN113449508B (zh) 一种基于事件链的网络舆情关联推演预测分析方法
Chou et al. Boosted web named entity recognition via tri-training
Adami et al. Clustering documents into a web directory for bootstrapping a supervised classification
Wang et al. Extracting discriminative keyphrases with learned semantic hierarchies
Showrov et al. Keyword extraction from bengali news
Xu et al. Web person disambiguation using hierarchical co-reference model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant