CN106202042B - 一种基于图的关键词抽取方法 - Google Patents

一种基于图的关键词抽取方法 Download PDF

Info

Publication number
CN106202042B
CN106202042B CN201610530337.2A CN201610530337A CN106202042B CN 106202042 B CN106202042 B CN 106202042B CN 201610530337 A CN201610530337 A CN 201610530337A CN 106202042 B CN106202042 B CN 106202042B
Authority
CN
China
Prior art keywords
word
node
feature
formula
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610530337.2A
Other languages
English (en)
Other versions
CN106202042A (zh
Inventor
王志娟
冯迎辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN201610530337.2A priority Critical patent/CN106202042B/zh
Publication of CN106202042A publication Critical patent/CN106202042A/zh
Application granted granted Critical
Publication of CN106202042B publication Critical patent/CN106202042B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明涉及一种基于图的关键词抽取方法,该方法包括以下步骤:对文本信息进行预处理,预处理包括分词处理、词性标注处理和命名实体识别处理;计算节点特征,以及计算词汇的统计关系和词汇的语义关系;根据节点特征计算节点权重,以及根据词汇的统计关系和词汇的语义关系计算边权重;根据节点权重和边权重计算候选词的分值;根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。本发明提出的一种基于图的关键词抽取方法不需要标注语料,而且可以通过对TextRank算法基于候选词特征增加节点权重、基于词汇语义关系改进边权重可以以较低成本提高关键词抽取的准确率。

Description

一种基于图的关键词抽取方法
技术领域
本发明涉及一种关键词的提取方法,具体涉及一种基于图的关键词抽取方法。
背景技术
关键词(Key Word)是反映文本内容特征的、起关键作用的词,关键词类型丰富,可以是普通名词,也可以是人名、地名、书籍名等。关键词抽取常见方法有:监督式学习模型和无监督式学习模型两大类。
早期的基于监督式学习的关键词抽取方法的主要任务是训练一个分类器判断候选词是否为关键词,基于这种思想的关键词抽取方法有:朴素贝叶斯(Naive Bayes)、决策树(decision trees)、Boosting算法、最大熵(Maximum Entropy)、支持向量机(supportvector machines)等等。使用这些方法仅能得到关键词候选列表,其中的关键词都是同等重要的,但是事实上,不同的关键词具有不同的重要性(即权重),关键词抽取需要对关键词按重要程度进行排序,而不是仅仅给出关键词的列表,因此人们提出了一种基于排序机制的关键词抽取方法,该机制的核心是为候选关键词设计排序器,其基本思想是首先基于词汇识别候选关键词,计算每个候选关键词的特征值,然后根据机器学习方法预测哪些候选词是好的关键词,该方法在后来的基于监督式学习的关键词抽取研究中取得了不错的效果。基于监督式学习的关键词抽取的缺点是需要大量、高质量的标注语料,而标注语料需要大量的时间、人力和资金成本。
基于无监督学习的关键词抽取不需要标注语料,是当前主流的关键词抽取方法。目前基于无监督式学习的关键词抽取方法可以分为四大类:基于图排序、主题聚类、联合学习、语言模型。
基于图排序的关键词抽取:关键词抽取的核心是寻找文档中重要的词或者短语,通常而言,一个候选词重要性不仅与它的出现次数有关,还和它与文档中其他词的关系有关。基于图排序的关键词抽取的基本思想是:基于文本构建图,其中,节点(Node)是候选词,节点之间的边连接两个的候选词,通过节点权重或者边权重可以反映候选词的重要程度。通过图排序可以在没有标注语料的情况下得到候选词的权重排序表,可以选取排名靠前的N个词作为该文本的关键词。
基于主题聚类的关键词抽取:由于关键词通常与主题相关,因此一些研究者基于主题聚类研究关键词抽取方法,Grineva提出了基于CommunityCluter的关键词抽取方法,刘致远基于主题聚类原理提出了基于KeyCluster方法的关键词抽取方法以及基于TopicalPagRank(TPR)的关键词抽取方法。
基于联合学习的关键词抽取:由于关键词能够反映文档的概要,所以有些研究者假定关键词抽取和自动文摘能够从对方获取更多信息,Zha提出了第一个基于图的能够同时进行自动文摘和关键词抽取的方法,Wan对Zha的工作进行了扩展,构建了三个图来获取句子(S)和词(W)之间的关系(三个图分别是S-S图、S-W图、W-W图),进而同时获得关键词和文档摘要。
基于语言模型的关键词抽取:之前的方法在关键词抽取/排序之前通过一些基于语言模型的方法抽取了候选关键词,Tomokiyo和Hurst提出了融合这两个步骤的方法,该方法基于短语性(Phraseness)和信息性(Informativeness)对候选关键词打分,通过前景语料库(Foreground corpus)和背景语料库(Background corpus)训练的语言模型估计短语性和信息性这两个特征值,进而得到文本的词的分值,最终选取高分值的词作为关键词。
发明内容
本发明的目的在于提供一种基于图的关键词抽取方法,不需要标注语料,而且可以通过对TextRank算法基于候选词特征增加节点权重、基于词汇语义关系改进边权重可以以较低成本提高关键词抽取的准确率。
为了实现上述目的,发明提供了一种基于图的关键词抽取方法,该方法包括以下步骤:
对文本信息进行预处理,预处理包括分词处理、词性标注处理和命名实体识别处理;
计算节点特征,以及计算词汇的统计关系和词汇的语义关系;节点特征包括:节点的统计特征、位置特性、词性特征和实体特征;
根据节点特征计算节点权重,以及根据词汇的统计关系和词汇的语义关系计算边权重;
根据节点权重和边权重计算候选词的分值;
根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。
优选地,在对文本信息进行预处理步骤之后,以及在计算节点特征步骤之前,还包括去停用词步骤。
本发明提供的一种基于图的关键词抽取方法,不需要标注语料,而且可以通过对TextRank算法基于候选词特征增加节点权重、基于词汇语义关系改进边权重可以以较低成本提高关键词抽取的准确率。
附图说明
图1为本发明实施例提供的基于图的关键词提取方法的Textrank原理图;
图2为本发明实施例提供的基于图的关键词提取方法流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案作进一步的详细描述。
图1为本发明实施例提供的基于图的关键词提取方法的Textrank原理图。
如图1所示,其中:节点表示词,边表示词与词之间的关系。对于基于图的关键词抽取方法而言,一个节点(词)的重要程度取决于连接到它的节点(词)投给它的票数。
将文本表示为一个加权有向图G=(V,E),其中,由点集合V和边集合E组成,E是V*V的子集。给图中的节点指定任意相同的初值,然后由公式1递归计算每个节点的分数到某个词语分数收敛,收敛后每个节点获得一个分数,代表该节点在图中的重要性,公式1是基于TextRank的候选词打分机制。
其中,wij表示两节点Vi和Vj之间边的权重;d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向任意随机节点的概率,通常取值为0.85;Vj是距离Vi在窗口L中出现的词。
对于一个给定的节点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。可见:是在窗口L内,Vi与Vj两个节点之间的边的权重,因此,公式(1)可以改写为公式(2)的形式,
Score(Vi)=(1-d)+d*EdgeJT(Vi,Vj)*Score(Vj) (2)
其中,EdgeTJ(Vi,Vj)为Vi与Vj两个节点在窗口L内的词汇统计关系。
将Vi称为被打分词、将Vj称为打分词,由公式2可见:对TextRank算法而言,被打分词的分值仅仅来源于与它相邻词的统计关系。
图2为本发明实施例提供的基于图的关键词提取方法流程图。
如图2所示,该方法的实现包括步骤101-105。
步骤101,对文本信息进行预处理,预处理包括分词处理、词性标注处理和命名实体识别处理;
步骤102,计算节点特征,以及计算词汇的统计关系和词汇的语义关系;节点特征包括:节点的统计特征、位置特性、词性特征和实体特征;其中,实体特征包括实体类型特征和命名实体链接特征。
根据节点的统计特征、位置特性、词性特征和实体特征判断一个词是否为关键词;
通过公式(3)计算基于TF*IDF的候选词统计特征:
Feature1(Vi)=TF(Vi)*IDF(Vi) (3)
Feature1(Vi)=TFi,j*IDFi
其中,词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的次数,ni,j是词Vi在文件j中的出现次数,而分母则是在文件j中所有字词的出现次数之和。
IDF(Inverse Document Frequency,IDF)是反文档频率, |D|是语料库中文档的总数,|j:{Vi∈dj}|是包含Vi的文档数;
通过公式(4)计算候选词的位置特征:
通过公式(5)计算候选词的词性特征:
通过公式(6)计算候选词的实体类型特征:
通过公式(7)计算候选词的实体特性:
计算词汇的统计关系和词汇的语义关系:
通过公式(8)计算词汇统计关系STJ(Vi,Vj):
其中,k为词Vi和Vj共现的窗口个数,L为窗口大小。
通过公式(9)计算词汇的语义关系SYY(Vi,Vj):
其中:βi(1≤i≤4)是可调节的参数,且有:β1234=1;
Sim1(Vi,Vj)为第一独立义原描述式,即两个义原的相似度,计算公式如下:
其中,Vi和Vj表示两个义原,d是Vi和Vj在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数;
Sim2(Vi,Vj)为其他独立义原描述式(除第一独立义原以外的所有其他独立义原),计算方法是,先把两个表达式的所有独立义原(第一个除外)任意配对,计算出所有可能的配对的义原相似度;取相似度最大的一对,并将它们归为一组;在剩下的独立义原的配对相似度中,取最大的一对,并归为一组,如此反复,直到所有独立义原都完成分组。
Sim3(Vi,Vj)为关系义原描述式(语义表达式中所有的用关系义原描述式),把关系义原相同的描述式分为一组,并计算其相似度。
Sim4(Vi,Vj)为符号义原描述式(语义表达式中所有的用符号义原描述式),符号义原描述式的配对分组与关系义原描述式类似,我们把关系符号相同的描述式分为一组,并计算其相似度。
步骤103,根据节点特征计算节点权重,以及根据词汇的统计关系和词汇的语义关系计算边权重。
通过公式(13)计算节点权重:
其中,Featurei为被打分词的特征,αki为被打分词Vi的第k个特征的系数,即不同的特征对被打分词的分值计算的贡献是不同的,Featurek(Vi)∈[0,1.1]。
通过公式(12)计算边的权重:
其中,β决定计算边权重时,侧重词汇统计关系STJ(Vi,Vj),或者词汇语义关系SYY(Vi,Vj),β可以设定为1、2或者1/2,β=1时则视二者一样重要。
步骤104,根据节点权重和边的权重计算候选词的分值;
通过公式(13)计算候选词的分值:
Score(Vi)=(1-d)*Node(Vi)+d*Node(Vi)*Edge(STJ(Vi,Vj),
SYY(Vi,Vj))*Score(Vj) (13)
其中,Node(Vi)是被打分词的权重,Edge(STJ(Vi,Vj),SYY(Vi,Vj))是被打分词和被打分词之间的边权重,它由两部分构成:STJ(Vi,Vj)是Vi与相邻词Vj在窗口L中的统计关系,SYY(Vi,Vj)是Vi与Vj的语义关系。
步骤105,根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。
根据候选词的分值排序结果以及文本大小抽取Top N个分值最高的词作为该文本的关键词。
优选地,在对文本信息进行预处理步骤之后,以及在计算节点特征步骤之前,还包括去停用词步骤。
本发明实施例提供的一种基于图的关键词抽取方法,不需要标注语料,而且可以通过对TextRank算法基于候选词特征增加节点权重、基于词汇语义关系改进边权重可以以较低成本提高关键词抽取的准确率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于图的关键词抽取方法,其特征在于,包括以下步骤:
对文本信息进行预处理,所述预处理包括分词处理、词性标注处理和命名实体识别处理;
计算节点特征,以及计算词汇的统计关系和词汇的语义关系;所述节点特征包括:节点的统计特征、位置特性、词性特征和实体特征;所述实体特征包括实体类型特征和命名实体链接特征;
根据所述节点特征计算节点权重,以及根据所述词汇的统计关系和词汇的语义关系计算边权重;
其中,通过公式(11)计算节点权重:
其中:Featurek(Vi)为被打分词Vi的第k个特征,αk为第k个特征的权重,即不同的特征对被打分词的分值计算的贡献是不同的,Featurek(Vi)∈[0,1.1];
通过公式(8)计算词汇统计关系STJ(Vi,Vj):
其中,k为词Vi和Vj共现的窗口个数,L为窗口大小;
根据所述节点权重和所述边权重计算候选词的分值;通过公式(13)计算候选词的分值:
Score(Vi)=(1-d)*Node(Vi)+d*Node(Vi)*Edge(STJ(Vi,Vj),
SYY(Vi,Vj))*Score(Vj) (13)
其中,Node(Vi)是被打分词的节点权重,Edge(STJ(Vi,Vj),SYY(Vi,Vj))是被打分词和被打分词之间的边权重,它由两部分构成:STJ(Vi,Vj)是Vi与相邻词Vj在窗口L中的统计关系,SYY(Vi,Vj)是Vi与Vj的语义关系;根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。
2.根据权利要求1所述的方法,其特征在于,在所述对文本信息进行预处理步骤之后,以及在所述计算节点特征步骤之前,还包括去停用词步骤。
3.根据权利要求1所述的方法,其特征在于,所述根据所述节点特征计算节点权重步骤包括:
通过公式(3)计算基于TF*IDF的候选词统计特征:
Feature1(Vi)=TF(Vi)*IDF(Vi) (3)
Feature1(Vi)=TFi,j*IDFi
其中,词频TF指的是某一个给定的词语在文件中出现的次数,ni,j是词Vi在文件j中的出现次数,而分母则是在文件j中所有字词的出现次数之和;
IDF(Inverse Document Frequency,IDF)是反文档频率, |D|是语料库中文档的总数,|j:{Vi∈dj}|是包含Vi的文档数;
通过公式(4)计算候选词的位置特征:
通过公式(5)计算候选词的词性特征:
通过公式(6)计算候选词的实体类型特征:
通过公式(7)计算候选词的实体特性:
4.根据权利要求1所述的方法,其特征在于,所述计算词汇的统计关系和词汇的语义关系步骤包括:
通过公式(9)计算词汇的语义关系SYY(Vi,Vj):
其中,βi(1≤i≤4)是可调节的参数,且有:β1234=1;
Sim1(Vi,Vj)为第一独立义原描述式,即两个义原的相似度,计算公式如下:
其中,Vi和Vj表示两个义原,d是Vi和Vj在义原层次体系中的路径长度,是一个正整数;α是一个可调节的参数;Sim2(Vi,Vj)为其他独立义原描述式;Sim3(Vi,Vj)为关系义原描述式;Sim4(Vi,Vj)为符号义原描述式。
5.根据权利要求1所述的方法,其特征在于,所述根据词汇的统计关系和词汇的语义关系计算边权重步骤包括:
通过公式(12)计算边的权重:
其中,β决定计算边权重时,侧重词汇统计关系STJ(Vi,Vj),或者词汇语义关系SYY(Vi,Vj),β可以设定为1、2或者1/2,β=1时则视二者一样重要。
6.根据权利要求1所述的方法,其特征在于,所述根据候选词的分值排序结果以及文本大小信息确定该文本的关键词步骤包括,根据候选词的分值排序结果以及文本大小抽取Top N个分值最高的词作为该文本的关键词。
CN201610530337.2A 2016-07-06 2016-07-06 一种基于图的关键词抽取方法 Expired - Fee Related CN106202042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610530337.2A CN106202042B (zh) 2016-07-06 2016-07-06 一种基于图的关键词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610530337.2A CN106202042B (zh) 2016-07-06 2016-07-06 一种基于图的关键词抽取方法

Publications (2)

Publication Number Publication Date
CN106202042A CN106202042A (zh) 2016-12-07
CN106202042B true CN106202042B (zh) 2019-07-02

Family

ID=57472419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610530337.2A Expired - Fee Related CN106202042B (zh) 2016-07-06 2016-07-06 一种基于图的关键词抽取方法

Country Status (1)

Country Link
CN (1) CN106202042B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN106997345A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 基于词向量和词统计信息的关键词抽取方法
CN109255118B (zh) * 2017-07-11 2023-08-08 普天信息技术有限公司 一种关键词提取方法及装置
CN107832457A (zh) * 2017-11-24 2018-03-23 国网山东省电力公司电力科学研究院 基于TextRank算法的输变电设备缺陷词库建立方法及系统
CN108132927B (zh) * 2017-12-07 2022-02-11 西北师范大学 一种融合图结构与节点关联的关键词提取方法
CN108197118A (zh) * 2018-02-05 2018-06-22 齐鲁工业大学 一种利用计算机系统进行自动标引及检索的方法
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN108681574B (zh) * 2018-05-07 2021-11-05 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN108846023A (zh) * 2018-05-24 2018-11-20 普强信息技术(北京)有限公司 文本的非常规特性挖掘方法及装置
CN110633464A (zh) * 2018-06-22 2019-12-31 北京京东尚科信息技术有限公司 一种语义识别方法、装置、介质及电子设备
CN110765271B (zh) * 2018-07-09 2024-02-09 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN109062895B (zh) * 2018-07-23 2022-06-24 挖财网络技术有限公司 一种智能语义处理方法
CN109255014A (zh) * 2018-10-17 2019-01-22 北京京航计算通讯研究所 基于多种算法提升文件关键词准确度的识别方法
CN110532390B (zh) * 2019-08-26 2022-07-29 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN110874396B (zh) * 2019-11-07 2024-02-09 腾讯科技(深圳)有限公司 一种关键词抽取方法、装置以及计算机存储介质
CN111460079B (zh) * 2020-03-06 2023-03-28 华南理工大学 一种基于概念信息和词权重的主题生成方法
CN111401928B (zh) * 2020-04-01 2022-04-12 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111639189B (zh) * 2020-04-29 2023-03-21 西北工业大学 一种基于文本内容特征的文本图构建方法
CN111666769A (zh) * 2020-06-11 2020-09-15 暨南大学 一种年报中的金融领域事件句提取方法
CN111859961B (zh) * 2020-07-29 2024-02-23 华中师范大学 一种基于改进TopicRank算法的文本关键词抽取方法
CN112800175B (zh) * 2020-11-03 2022-11-25 广东电网有限责任公司 一种电力系统知识实体跨文档搜索方法
CN113345053B (zh) * 2021-06-30 2023-12-26 北京华录新媒信息技术有限公司 一种智能配色方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002057961A2 (en) * 2001-01-18 2002-07-25 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105095430A (zh) * 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002057961A2 (en) * 2001-01-18 2002-07-25 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105095430A (zh) * 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
TextRank: Bringing Order into Texts;Rada Mihalcea;《Proceedings of the 2004 conference on empirical methods in natural language processing》;20041231;全文
基于《知网》的词汇语义相似度计算;刘群等;《第三届汉语词汇语义学研讨会论文集》;20021231;第11、14页
基于信息融合的Web信息可信度研究;罗庆平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150315(第2015年第03期);第24页最后一段至第26页
基于内容的社会标签推荐与分析研究;司宪策;《清华大学博士学位论文集》;20121226;第73页
基于多特征融合的中文文本关键词提取方法;张建娥等;《情报理论与实践》;20131030(第2013年第10期);第2页
多文档关键词抽取技术的研究;杨洁;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091015(第2009年第10期);第28页

Also Published As

Publication number Publication date
CN106202042A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202042B (zh) 一种基于图的关键词抽取方法
Grönroos et al. Morfessor FlatCat: An HMM-based method for unsupervised and semi-supervised learning of morphology
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
WO2017084267A1 (zh) 一种关键词提取方法和装置
CN110543639A (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
CN108763402A (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
Rothfels et al. Unsupervised sentiment classification of English movie reviews using automatic selection of positive and negative sentiment items
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN105389379A (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN109697288B (zh) 一种基于深度学习的实例对齐方法
Nabil et al. Labr: A large scale arabic sentiment analysis benchmark
Blodgett et al. A dataset and classifier for recognizing social media English
Hakkani-Tür et al. Exploiting query click logs for utterance domain detection in spoken language understanding
CN106598941A (zh) 一种全局优化文本关键词质量的算法
Popov et al. Unsupervised dialogue intent detection via hierarchical topic model
Legrand et al. Phrase representations for multiword expressions
Lefevre Dynamic bayesian networks and discriminative classifiers for multi-stage semantic interpretation
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
Ceolin et al. Discriminating between standard Romanian and Moldavian tweets using filtered character ngrams
Zu et al. Graph-based keyphrase extraction using word and document em beddings
Althobaiti et al. A semi-supervised learning approach to arabic named entity recognition
Çano Albmore: A corpus of movie reviews for sentiment analysis in albanian

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190702

Termination date: 20200706

CF01 Termination of patent right due to non-payment of annual fee