CN109918657B - 一种从文本中提取目标关键词的方法 - Google Patents

一种从文本中提取目标关键词的方法 Download PDF

Info

Publication number
CN109918657B
CN109918657B CN201910152460.9A CN201910152460A CN109918657B CN 109918657 B CN109918657 B CN 109918657B CN 201910152460 A CN201910152460 A CN 201910152460A CN 109918657 B CN109918657 B CN 109918657B
Authority
CN
China
Prior art keywords
word
sentence
sentences
words
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910152460.9A
Other languages
English (en)
Other versions
CN109918657A (zh
Inventor
曾俊瑀
张文斌
贾显伏
乔咏田
李德方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunfu Technology Beijing Co ltd
Original Assignee
Yunfu Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunfu Technology Beijing Co ltd filed Critical Yunfu Technology Beijing Co ltd
Priority to CN201910152460.9A priority Critical patent/CN109918657B/zh
Publication of CN109918657A publication Critical patent/CN109918657A/zh
Application granted granted Critical
Publication of CN109918657B publication Critical patent/CN109918657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的文本中提取目标关键词的方法,涉及数据挖掘技术领域,利用基于统计学的规则分句技术,将文本分割为多个分句,利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系,选取标注为名词的词句,生成第一候选关键词集合,分别计算第二候选关键词集合中各个词句在文本中的覆盖率,并根据综合分计算公式,计算第二候选关键词集合中各个词句的综合分数,根据K‑means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据距离的大小,分别选择与K个词向量距离最近的词向量,得到K个目标关键词,提高了目标关键词提取的准确率及效率。

Description

一种从文本中提取目标关键词的方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种从文本中提取目标关键词的方法。
背景技术
随着现代信息技术的发展,网络上的各类数据正在以惊人的方式爆炸增长,对于这些“大数据”,一方面人们可以获得更加丰富的信息,另一方面人们则需要花费更多的时间和精力去从中获取对自己有价值的信息。为了解决这一问题,节省人们的时间并提高工作效率,对于文本数据的各种技术研究应用而生,如文本摘要及关键词自动提取技术等。
关键词自动提取是从文本或文本集合中自动抽取主题性或重要性的词或短语的一种技术,是许多文本挖掘任务中基础性和必要性的工作。随着计算机技术的发展,自动关键词抽取越来越多受到关注。
目前的关键词提取技术主要包括统计法、主题模型法、图模型法。其中,统计法实现简单,不需要训练数据,但是单纯文档的统计信息并不能很好的反映出文档的关键词,因此准确率不高;主题模型法中,对于比较短的语料则并不能取得太好的效果,同时其需要使用大量的数据来进行模型训练;图模型则比较复杂,在具体实践过程中效率不太高,效果也并不显著。
发明内容
为解决现有技术的不足,本发明实施例提供了一种从文本中提取目标关键词的方法,该方法包括:
Step1、利用基于统计学的规则分句技术,将文本分割为多个分句;
Step2、利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系;
Step3、选取标注为名词的词句,生成第一候选关键词集合并根据所述句法依存关系设置所述候选关键词集合中各个词句的关联度,将所述各个词句当前关联度的值及与所述各个词句存在句法依存关系的词句当前关联度的值分别加一,其中,各个词句的关联度的初始值为零;
Step4、从所述第一候选关键词集合中选择关联度的值不为零的词句,生成第二候选关键词集合;
Step5、根据TF-IDF算法,分别计算所述第二候选关键词集合中各个词句的TF-IDF值;根据覆盖率计算公式F=a÷n×l,分别计算所述第二候选关键词集合中各个词句在文本中的覆盖率,根据训练过的评估实体质量模型,分别计算所述第二候选关键词集合中各个词句的实体质量分数P;其中,a为各个词句所在分句的权值的和,n为文本中词句的总个数,l为所述第二候选关键词集合中各个词句首次出现的位置及末次出现的位置之间的距离,TF-IDF值等于词句的TF值与IDF值的乘积;
Step6、分别为所述TF-IDF值、所述覆盖率、所述评估实体质量模型及所述关联度设置相应的权值,并根据综合分计算公式,计算所述第二候选关键词集合中各个词句的综合分数,选择综合分数大于设定阈值的词句,生成第三候选关键词集合;
Step7、利用Word2Vec模型,将所述第三候选关键词集合中各个的词句转化为词向量,根据K-means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据所述距离的大小,分别选择与所述K个词向量距离最近的词向量,得到K个目标关键词。
进一步地,所述关键词字典的创建过程包括:
创建内容为空的初始关键词字典;
判断通用关键词字典中是否存在与所述第二候选关键词集合相同的词句,包括:
若是,则将所述词句添加至所述初始关键词字典,将所述词句在所述通用关键词字典中的值加上所述词句关联度的值;
若否,则将所述词句添加至所述初始关键词字典,将所述词句关联度的值作为其在所述通用关键词字典中的值。
进一步地,
所述综合分计算公式包括:S=T×V1+F×V2+P×V3+G×V4及S=TV1+FV2+PV3+GV4,其中,T为词句的TF-IDF值,F为词句的覆盖率,G为词句的关联度,V1为T的权值,V2为F的权值,V3为P的权值,V4为G的权值。
本发明实施例提供的从文本中提取目标关键词的方法具有以下有益效果:
综合考虑了候选关键词的各种属性,采用Word2Vec技术对候选关键词进行K-means加权聚类,提高了目标关键词提取的准确率及效率。
附图说明
图1是本发明实施例提供的从文本中提取目标关键词的方法的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
参照图1,本发明实施例提供的从文本中提取目标关键词的方法包括以下步骤:
S101、利用基于统计学的规则分句技术,将文本分割为多个分句。
S102、利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系。
S103、选取标注为名词的词句,生成第一候选关键词集合并根据句法依存关系设置候选关键词集合中各个词句的关联度,将各个词句当前关联度的值及与各个词句存在句法依存关系的词句当前关联度的值分别加一,其中,各个词句的关联度的初始值为零。
S104、从第一候选关键词集合中选择关联度的值不为零的词句,生成第二候选关键词集合。
S105、根据TF-IDF算法,分别计算所述第二候选关键词集合中各个词句的TF-IDF值;根据覆盖率计算公式F=a÷n×l,分别计算所述第二候选关键词集合中各个词句在文本中的覆盖率,根据训练过的评估实体质量模型,分别计算所述第二候选关键词集合中各个词句的实体质量分数P;其中,a为各个词句所在分句的权值的和,n为文本中词句的总个数,l为所述第二候选关键词集合中各个词句首次出现的位置及末次出现的位置之间的距离,TF-IDF值等于词句的TF值与IDF值的乘积。
作为一个具体的实施例,由于文本中不同位置的语句对关键词的贡献率不同,所以可以简单设置文章标题中的分句的权值为3,文章正文中前1/10的句子的权值为2,文章正文中后1/10的句子的权值为2,其他为1。
作为另一个具体的实施例,采用传统词袋模型表示各词句,使用从百度百科上抓取的各词条名称作为正例训练数据,使用网上抓取的大规模语料分词后的结果在去除所有的正例训练数据的条目后作为负例训练数据,采用支持向量机-机器学习方法训练评估实体质量的模型,生成训练过的评估实体质量模型,该评估实体质量模型采用sigmoid函数,得到数值为0~1的实体质量分数值。
进一步地,TF表示词句在文档d中出现的频率,IDF为逆向文件频率,IDF的值越大,词句的类别区分能力就越大。
S106、分别为TF-IDF值、覆盖率、评估实体质量模型及关联度设置相应的权值,并根据综合分计算公式,计算第二候选关键词集合中各个词句的综合分数,选择综合分数大于设定阈值的词句,生成第三候选关键词集合。
S107、利用Word2Vec模型,将第三候选关键词集合中各个的词句转化为词向量,根据K-means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据距离的大小,分别选择与K个词向量距离最近的词向量,得到K个目标关键词。
可选地,关键词字典的创建过程包括:
创建内容为空的初始关键词字典;
判断通用关键词字典中是否存在与第二候选关键词集合相同的词句,包括:
若是,则将词句添加至初始关键词字典,将词句在通用关键词字典中的值加上词句关联度的值;
若否,则将词句添加至初始关键词字典,将词句关联度的值作为其在通用关键词字典中的值。
可选地,综合分计算公式包括:S=T×V1+F×V2+P×V3+G×V4及S=TV1+FV2+PV3+GV4,其中,T为词句的TF-IDF值,F为词句的覆盖率,G为词句的关联度,V1为T的权值,V2为F的权值,V3为P的权值,V4为G的权值。
本发明实施例提供的文本中提取目标关键词的方法,利用基于统计学的规则分句技术,将文本分割为多个分句,利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系,选取标注为名词的词句,生成第一候选关键词集合并根据句法依存关系设置候选关键词集合中各个词句的关联度,将各个词句当前关联度的值及与各个词句存在句法依存关系的词句当前关联度的值分别加一,从第一候选关键词集合中选择关联度的值不为零的词句,生成第二候选关键词集合,分别统计第二候选关键词集合中各个词句的TF-IDF值;根据覆盖率计算公式F=a÷n×l,分别计算第二候选关键词集合中各个词句在文本中的覆盖率,根据训练过的评估实体质量模型,分别计算第二候选关键词集合中各个词句的实体质量分数P,分别为TF-IDF值、覆盖率、评估实体质量模型及关联度设置相应的权值,并根据综合分计算公式,计算第二候选关键词集合中各个词句的综合分数,选择综合分数大于设定阈值的词句,生成第三候选关键词集合,利用Word2Vec模型,将第三候选关键词集合中各个的词句转化为词向量,根据K-means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据距离的大小,分别选择与K个词向量距离最近的词向量,得到K个目标关键词,提高了目标关键词提取的准确率及效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (3)

1.一种从文本中提取目标关键词的方法,其特征在于,包括:
Step1、利用基于统计学的规则分句技术,将文本分割为多个分句;
Step2、利用语言技术平台LTP对各个分句进行分词,得到多个词句,分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系;
Step3、选取标注为名词的词句,生成第一候选关键词集合并根据所述句法依存关系设置所述候选关键词集合中各个词句的关联度,将所述各个词句当前关联度的值及与所述各个词句存在句法依存关系的词句当前关联度的值分别加一,其中,各个词句的关联度的初始值为零;
Step4、从所述第一候选关键词集合中选择关联度的值不为零的词句,生成第二候选关键词集合;
Step5、根据TF-IDF算法,分别计算所述第二候选关键词集合中各个词句的TF-IDF值;根据覆盖率计算公式F=a÷n×l,分别计算所述第二候选关键词集合中各个词句在文本中的覆盖率,根据训练过的评估实体质量模型,分别计算所述第二候选关键词集合中各个词句的实体质量分数P;其中,a为各个词句所在分句的权值的和,n为文本中词句的总个数,l为所述第二候选关键词集合中各个词句首次出现的位置及末次出现的位置之间的距离,TF-IDF值等于词句的TF值与IDF值的乘积;
Step6、分别为所述TF-IDF值、所述覆盖率、所述评估实体质量模型及所述关联度设置相应的权值,并根据综合分计算公式,计算所述第二候选关键词集合中各个词句的综合分数,选择综合分数大于设定阈值的词句,生成第三候选关键词集合;
Step7、利用Word2Vec模型,将所述第三候选关键词集合中各个的词句转化为词向量,根据K-means算法及各个词句在关键词字典中的值,分别计算各个词向量与选定的K个词向量的距离,根据所述距离的大小,分别选择与所述K个词向量距离最近的词向量,得到K个目标关键词。
2.根据权利要求1所述的一种从文本中提取目标关键词的方法,其特征在于,所述关键词字典的创建过程包括:
创建内容为空的初始关键词字典;
判断通用关键词字典中是否存在与所述第二候选关键词集合相同的词句,包括:
若是,则将所述词句添加至所述初始关键词字典,将所述词句在所述通用关键词字典中的值加上所述词句关联度的值;
若否,则将所述词句添加至所述初始关键词字典,将所述词句关联度的值作为其在所述通用关键词字典中的值。
3.根据权利要求1所述的一种从文本中提取目标关键词的方法,其特征在于,所述综合分计算公式包括:S=T×V1+F×V2+P×V3+G×V4及S=TV1+FV2+PV3+GV4,其中,T为词句的TF-IDF值,F为词句的覆盖率,G为词句的关联度,V1为T的权值,V2为F的权值,V3为P的权值,V4为G的权值。
CN201910152460.9A 2019-02-28 2019-02-28 一种从文本中提取目标关键词的方法 Active CN109918657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910152460.9A CN109918657B (zh) 2019-02-28 2019-02-28 一种从文本中提取目标关键词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910152460.9A CN109918657B (zh) 2019-02-28 2019-02-28 一种从文本中提取目标关键词的方法

Publications (2)

Publication Number Publication Date
CN109918657A CN109918657A (zh) 2019-06-21
CN109918657B true CN109918657B (zh) 2023-04-18

Family

ID=66962769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910152460.9A Active CN109918657B (zh) 2019-02-28 2019-02-28 一种从文本中提取目标关键词的方法

Country Status (1)

Country Link
CN (1) CN109918657B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263345B (zh) * 2019-06-26 2023-09-05 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110321561B (zh) * 2019-06-27 2024-09-27 腾讯科技(深圳)有限公司 一种关键词提取方法和装置
CN110347903A (zh) * 2019-07-17 2019-10-18 江苏东网信息科技有限公司 基于统计语言模型算法的智能信息评估和营销系统
CN110532393B (zh) * 2019-09-03 2023-09-26 腾讯科技(深圳)有限公司 文本处理方法、装置及其智能电子设备
CN110690992B (zh) * 2019-09-16 2022-03-29 中盈优创资讯科技有限公司 网络割接异常识别方法及装置
CN111078838B (zh) * 2019-12-13 2023-08-18 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111061879A (zh) * 2019-12-13 2020-04-24 云孚科技(北京)有限公司 一种关键词抽取效果评估方法
CN111522932B (zh) * 2020-04-23 2023-05-16 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质
CN111553156B (zh) * 2020-05-25 2023-08-04 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN111460797B (zh) * 2020-06-09 2021-01-15 平安国际智慧城市科技股份有限公司 关键字抽取方法、装置、电子设备及可读存储介质
CN111814482B (zh) * 2020-09-03 2020-12-11 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、系统和计算机设备
CN112989803B (zh) * 2021-02-25 2023-04-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接预测方法
CN114328852B (zh) * 2021-08-26 2024-06-14 腾讯科技(深圳)有限公司 一种文本处理的方法、相关装置及设备
CN114461783A (zh) * 2022-01-14 2022-05-10 腾讯科技(深圳)有限公司 关键词生成方法、装置、计算机设备、存储介质和产品
CN116992875B (zh) * 2023-09-27 2024-01-09 之江实验室 文本生成方法、装置、计算机设备和存储介质
CN117540750B (zh) * 2023-12-25 2024-03-22 卓世科技(海南)有限公司 基于知识图谱的智能客服语义分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281645B (zh) * 2014-08-27 2017-06-16 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN108241667B (zh) * 2016-12-26 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108241613B (zh) * 2018-01-03 2021-05-28 新华智云科技有限公司 一种提取关键词的方法及设备

Also Published As

Publication number Publication date
CN109918657A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109918657B (zh) 一种从文本中提取目标关键词的方法
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN110019668A (zh) 一种文本检索方法及装置
CN109165380A (zh) 一种神经网络模型训练方法及装置、文本标签确定方法及装置
US20200073890A1 (en) Intelligent search platforms
CN116911312A (zh) 一种任务型对话系统及其实现方法
CN113553806B (zh) 文本数据增强方法、装置、设备和介质
Kurniawan et al. Indonesian twitter sentiment analysis using Word2Vec
CN109284389A (zh) 一种文本数据的信息处理方法、装置
Mosolova et al. Conditional random fields for metaphor detection
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN110019670A (zh) 一种文本检索方法及装置
CN109299007A (zh) 一种缺陷修复者自动推荐方法
Fei et al. Sentiment word identification using the maximum entropy model
Özdemirci et al. Case study on well-known topic modeling methods for document classification
JP6232358B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
Tezcan et al. UGENT-LT3 SCATE system for machine translation quality estimation
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
CN112434518B (zh) 一种文本报告打分方法及系统
Gendron et al. Natural language processing: a model to predict a sequence of words
Qu et al. Sentence dependency tagging in online question answering forums
Mahalakshmi et al. Context based retrieval of scientific publications via reader lens
JP6574469B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
Tang et al. Labeled phrase latent Dirichlet allocation
Smatana et al. Active learning enhanced semi-automatic annotation tool for aspect-based sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant