CN106557460A - 从单文档中提取关键词的装置及方法 - Google Patents

从单文档中提取关键词的装置及方法 Download PDF

Info

Publication number
CN106557460A
CN106557460A CN201510632825.XA CN201510632825A CN106557460A CN 106557460 A CN106557460 A CN 106557460A CN 201510632825 A CN201510632825 A CN 201510632825A CN 106557460 A CN106557460 A CN 106557460A
Authority
CN
China
Prior art keywords
keyword
sentence
key word
single document
critical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510632825.XA
Other languages
English (en)
Inventor
薛征山
张大鲲
郭继冲
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201510632825.XA priority Critical patent/CN106557460A/zh
Priority to JP2016161523A priority patent/JP6232478B2/ja
Priority to US15/247,396 priority patent/US20170091318A1/en
Publication of CN106557460A publication Critical patent/CN106557460A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供从单文档中提取关键词的方法和装置。根据一个实施方式,从单文档中提取关键词的装置,包括:关键句提取单元,其从所述单文档中提取关键句;以及关键词提取单元,其从所述关键句中提取关键词。

Description

从单文档中提取关键词的装置及方法
技术领域
本发明的实施方式涉及自然语言处理领域,具体地说,涉及从单文档中提取关键词的装置及方法。
背景技术
在自然语言处理领域中,会涉及到提取关键词。作为关键词提取的方法,可以大致分为两类,即有监督的方法和无监督的方法。有监督的方法是将关键词提取问题看成分类问题,需要人工标注训练数据,费时费力,不适用于网络时代。随着科技进步及网络普及,有监督的方法基本上已经很少使用。
关于无监督的方法,在现有技术中,主要有如下三种:
(1)基于TF-IDF及其变形的方法:其数学公式如下:
ω表示关键词,TFω表示ω在文档集合中出现的频率,Dset表示文档集合数,DFω表示包含ω的文档数(非专利文献1)。
(2)基于图的提取方法:其最经典的方法是TextRank.
WS(Vi)表示Vi的得分,In(Vi)表示Vi的进度,Out(Vj)表示Vj的出度,wji表示ωj→wi边的权重,d表示阻尼系数(非专利文献2)。
(3)基于分隔符(delimiter-based)的方法:
首先利用分隔符列表中的词,将文档中的句子切分成一个个的片段,然后使用类似LA(Link Analysis)的方法,获得文档内部每个候选关键词的得分。而后使用如下公式,获得候选关键词的最终得分。
Score(ω)表示候选关键词的最终得分,表示文档j中关键词ω的得分,Dset表示文档集合数量,DFω表示包含ω的文档数(非专利文献3)。
上述方法(1)中的TF-IDF是“term frequency–inverse documentfrequency”的缩略,是一种统计方法,用以评估一词语对于文档集或语料库的重要程度。词语的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在文档集或语料库中的覆盖度成反比下降,覆盖度表示一个词在文档集或语料库中的覆盖程度,即有多少文档里出现过这个词。具体而言,TF表示词语在文档中出现的频率,IDF表示逆文档频率(InverseDocument Frequency),可以理解为,在文档集或语料库中,对于某一词语而言,如果包含该词语的文档的数量越少,则该词语的IDF越大。这样一来,对于在某些特定文档内的出现频率高而在整个文档集或语料库中覆盖度低(例如仅在一个文档中出现,在其他文档中未出现)的词语,通过计算TF与IDF的乘积,可以产生出高权重的TF-IDF。因此,TF-IDF能够过滤掉常见的词语,保留关键词。
现有技术相关文献:
非专利文献1:Domain-specific keyphrase extraction.(Frank,Gordon.In Proceedings of the 16th International Conference on ComputationalLinguistics 1996.Page 41-46)
非专利文献2:Bringing Order into Texts.(Rada Mihalcea,Paul Tarau.In Proceedings of EMNLP 2004.Page 404-411.)
非专利文献3:A delimiter-based general approach for Chinese termextraction.(Yuhang Yang,Qin Lu,Tiejun Zhao.Journal of the Americansociety for information science and technology 2010.Page 111-125.)
发明内容
本发明的发明人发现上述现有技术中存在以下问题。
在将IDF应用于单文档关键词提取,则其提取效果远远不及在多文档中的提取效果。其原因是:(1)如上所述,在多文档关键词提取中,IDF的作用是提高候选关键词中目标关键词的相对得分,从而提高目标关键词被提取的准确率。而在单文档中,IDF信息对于所有候选关键词来说,都是一样的,所以IDF失去了意义。没有IDF信息的帮助,单文档中提取关键词的方法在很大程度上,偏向于词频高的词,即使过滤了高频的停用词,提取出来的仍然可能是在单文档中很多句子中出现的其他高频词,但这些并不是要提取的目标关键词。(2)单文档中的可用信息有限,而且还存在很多燥音。所以仅凭文档本身的内容,想高质量地提取关键词是非常困难的。
上述方法(1)和(3)都与IDF有关,因此,应用于单文档关键词提取时效果不理想。方法(2)虽然与IDF无关,但是由于在单文档中缺乏足够的统计信息,很难精确估计词图中两个节点间的权重,导致提取的关键词倾向于词频高的词项,而忽略某些出现次数少的目标关键词(如专有名词)。
本发明是鉴于现有技术中存在的上述问题所提出的,其目的在于,提供能够有效提高关键词的提取质量的从单文档中提取关键词的装置及方法。具体地,提供以下技术方案。
本发明的技术方案[1],提供一种从单文档中提取关键词的装置,包括:
关键句提取单元,其从所述单文档中提取关键句;以及
关键词提取单元,其从所述关键句中提取关键词。
根据技术方案[1],通过提取单文档中的关键句,再从关键句中提取关键词,能够有效提高目标关键词的提取质量。一般情况下,出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词,而是从仅是文档所有句子的子集的关键句集合中进行提取,所以可以减少候选关键词的个数,这意味着目标关键词被提取的概率提高,提取质量也会明显提高。
本发明的技术方案[2],在技术方案[1]的从单文档中提取关键词的装置中,还包括:
识别单元,其识别所述单文档的类别;以及
分类单元,其对所述单文档中的句子进行分类;
所述关键句提取单元提取所述单文档中的与所述单文档的类别相同的句子,作为第一关键句集合,
所述关键词提取单元从所述第一关键句集合中提取关键词。
根据技术方案[2],在提取单文档中的与单文档的类别相同的句子作为关键句的情况下,关键句能够表征该文档的主要含义,因此能够更有效地提高目标关键词的提取质量。
本发明的技术方案[3],在技术方案[2]的从单文档中提取关键词的装置中,
所述关键词提取单元,从所述第一关键句集合中提取第一关键词集合,
所述关键句提取单元,从语料库中提取与所述第一关键句集合中的关键句相似的句子,作为第二关键句集合,
所述关键词提取单元,从所述第二关键句集合提取第二关键词集合,
所述装置还包括排序单元,其基于所述第二关键词集合,对所述第一关键词集合中的关键词进行重排序,
所述关键词提取单元从重新排序后的第一关键词集合中提取关键词。
根据技术方案[3],通过排序单元基于第二关键词集合对第一关键词集合中的关键词进行重排序,能够进一步提高目标关键词的提取质量。这是因为,在单个文档中,内容有限,缺乏足够信息来辅助提取目标关键词。在技术方案[3]中,借助语料库中与单文档相关的信息,来对文档内关键词进行调整,能够相对提高目标关键词在排序中的位置,进而提高目标关键词被提取的概率,提取质量会明显提高。
本发明的技术方案[4],在技术方案[3]的从单文档中提取关键词的装置中,
所述排序单元,基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第二关键词集合的权重和所述关键词在所述第二关键词集合中的权重,计算所述关键词的权重,基于计算出的权重,对所述第一关键词集合进行重排序。
根据技术方案[4],利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第二关键词集合的权重和关键词在第二关键词集合中的权重来对第一关键词集合进行重排序,能够有效地利用语料库中的信息对候选关键词进行排序,能够提高目标关键词的提取质量。
本发明的技术方案[5],在技术方案[3]的从单文档中提取关键词的装置中,
所述关键词提取单元,从所述第二关键词集合中删除从所述第一关键词集合中提取出的关键词,从进行了删除的所述第二关键词集合中提取关键词。
根据技术方案[5],通过从第二关键词集合中提取关键词,能够借助语料库来扩展关键词。这是因为,在某些情况下,存在虽然未存在于单文档中但仍与单文档的内容高度相关的关键词。通过将这样的关键词提取出来而进行扩充,也能够明显改进关键词的提取质量。
本发明的技术方案[6],在技术方案[1]~[5]的从单文档中提取关键词的装置中,
所述关键词提取单元,从所述第一关键句集合中提取第一关键词集合,
所述关键句提取单元,从用户历史文档中提取与所述第一关键句集合中的关键句相似的句子作为第三关键句集合,
所述关键词提取单元,从所述第三关键句集合提取第三关键词集合,
所述装置还包括排序单元,其基于所述第三关键词集合,对所述第一关键词集合中的关键词进行重排序,
所述关键词提取单元从重新排序后的第一关键词集合中提取关键词。
根据技术方案[6],通过排序单元基于第三关键词集合对第一关键词集合中的关键词进行重排序,能够进一步提高目标关键词被提取的概率。其原因与使用语料库的原理相似。也就是说,借助用户历史文档中与单文档相关的信息,来对文档内关键词进行调整,能够相对提高目标关键词在排序中的位置,进而提高目标关键词被提取的概率,提取质量会明显提高。
本发明的技术方案[7],在技术方案[6]的从单文档中提取关键词的装置中,
所述关键句提取单元,计算所述语料库中的句子与所述关键句的相似度,从所述语料库中提取相似度大于预先设定的第一阈值的句子,作为与所述关键句相似的句子,计算所述用户历史文档中的句子与所述关键句的相似度,从所述用户历史文档中提取相似度大于预先设定的第二阈值的句子,作为与所述关键句相似的句子。
本发明的技术方案[8],在技术方案[6]的从单文档中提取关键词的装置中,
所述排序单元,基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第三关键词集合的权重和所述关键词在所述第三关键词集合中的权重,计算所述关键词的权重,基于计算出的权重,对所述第一关键词集合进行重排序。
根据技术方案[8],利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第三关键词集合的权重和关键词在第三关键词集合中的权重来对第一关键词集合进行重排序,能够有效地利用用户历史文档中的信息对候选关键词进行排序,能够提高目标关键词的提取质量。
本发明的技术方案[9],在技术方案[6]的从单文档中提取关键词的装置中,
所述关键词提取单元,从所述第三关键词集合中删除从所述第一关键词集合中提取出的关键词,从进行了删除的所述第三关键词集合中提取关键词。
根据技术方案[9],通过从第三关键词集合中提取关键词,能够借助用户历史文档来扩展关键词。通过将这样的关键词提取出来而进行扩充,能够明显改进关键词的提取质量。
本发明的技术方案[10],提供一种从单文档中提取关键词的方法,包括:
从所述单文档中提取关键句的关键句提取步骤;以及
从所述关键句中提取关键词的关键词提取步骤。
根据技术方案[10],通过提取单文档中的关键句,再从关键句中提取关键词,能够有效提高目标关键词的提取质量。一般情况下,出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词,而是从仅是文档所有句子的子集的关键句集合中进行提取,所以可以减少候选关键词的个数,这意味着目标关键词被提取的概率提高,提取质量也会明显提高。
本发明的技术方案[11],在技术方案[10]的从单文档中提取关键词的方法中,还包括:
识别单文档的类别;
对所述单文档中的句子进行分类;
在所述关键句提取步骤中,提取所述单文档中的与所述单文档的类别相同的句子,作为第一关键句集合,
在所述关键词提取步骤中,从所述第一关键句集合中提取关键词。
根据技术方案[11],在提取单文档中的与单文档的类别相同的句子作为关键句的情况下,关键句能够表征该文档的主要含义,因此能够更有效地提高目标关键词的提取质量。
本发明的技术方案[12],在技术方案[11]的从单文档中提取关键词的方法中,
在所述关键词提取步骤中,从所述第一关键句集合中提取第一关键词集合,
所述关键句提取步骤还包括:从语料库中提取与所述第一关键句集合中的关键句相似的句子作为第二关键句集合,
所述关键词提取步骤还包括:从所述第二关键句集合提取第二关键词集合,
所述方法还包括:基于所述第二关键词集合,对所述第一关键词集合中的关键词进行重排序的重排序步骤;
在所述关键词提取步骤中,从重新排序后的第一关键词集合中提取关键词。
根据技术方案[12],通过基于第二关键词集合对第一关键词集合中的关键词进行重排序,能够进一步提高目标关键词的提取质量。这是因为,在单个文档中,内容有限,缺乏足够信息来辅助提取目标关键词。在技术方案[12]中,借助语料库中与单文档相关的信息,来对文档内关键词进行调整,能够相对提高目标关键词在排序中的位置,进而提高目标关键词被提取的概率,提取质量会明显提高。
本发明的技术方案[13],在技术方案[12]的从单文档中提取关键词的方法中,
所述重排序步骤包括:
基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第二关键词集合的权重和所述关键词在所述第二关键词集合中的权重,计算所述关键词的权重;以及
基于计算出的权重,对所述第一关键词集合进行重排序。
根据技术方案[13],利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第二关键词集合的权重和关键词在第二关键词集合中的权重来对第一关键词集合进行重排序,能够有效地利用语料库中的信息对候选关键词进行排序,能够提高目标关键词的提取质量。
本发明的技术方案[14],在技术方案[12]的从单文档中提取关键词的方法中,所述关键词提取步骤还包括:
从所述第二关键词集合中删除从所述第一关键词集合中提取出的关键词;以及
从进行了删除的所述第二关键词集合中提取关键词。
根据技术方案[14],通过从第二关键词集合中提取关键词,能够借助语料库来扩展关键词。这是因为,在某些情况下,存在虽然未存在于单文档中但仍与单文档的内容高度相关的关键词。通过将这样的关键词提取出来而进行扩充,也能够明显改进关键词的提取质量。
本发明的技术方案[15],在技术方案[10]~[14]的从单文档中提取关键词的方法中,
在所述关键词提取步骤中,从所述第一关键句集合中提取第一关键词集合,
所述关键句提取步骤还包括:从用户历史文档中提取与所述第一关键句集合中的关键句相似的句子作为第三关键句集合,
所述关键词提取步骤还包括:从所述第三关键句集合提取第三关键词集合,
所述方法还包括:基于所述第三关键词集合,对所述第一关键词集合中的关键词进行重排序的重排序步骤,
在所述关键词提取步骤中,从重新排序后的第一关键词集合中提取关键词。
根据技术方案[15],通过基于第三关键词集合对第一关键词集合中的关键词进行重排序,能够进一步提高目标关键词被提取的概率。其原因与使用语料库的原理相似。也就是说,借助用户历史文档中与单文档相关的信息,来对文档内关键词进行调整,能够相对提高目标关键词在排序中的位置,进而提高目标关键词被提取的概率,提取质量会明显提高。
本发明的技术方案[16],在技术方案[15]的从单文档中提取关键词的方法中,
从所述语料库中提取与所述第一关键句集合中的关键句相似的句子的步骤包括:
计算所述语料库中的句子与所述关键句的相似度;以及
从所述语料库中提取相似度大于预先设定的第一阈值的句子,作为与所述关键句相似的句子
从所述用户历史文档中提取与所述第一关键句集合中的关键句相似的句子的步骤包括:
计算所述用户历史文档中的句子与所述关键句的相似度;以及
从所述用户历史文档中提取相似度大于预先设定的第二阈值的句子,作为与所述关键句相似的句子。
本发明的技术方案[17],在技术方案[15]的从单文档中提取关键词的方法中,
所述重排序步骤包括:
基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第三关键词集合的权重和所述关键词在所述第三关键词集合中的权重,计算所述关键词的权重;以及
基于计算出的权重,对所述第一关键词集合进行重排序。
根据技术方案[17],利用第一关键词集合的权重、关键词在第一关键词集合中的权重、第三关键词集合的权重和关键词在第三关键词集合中的权重来对第一关键词集合进行重排序,能够有效地利用用户历史文档中的信息对候选关键词进行排序,能够提高目标关键词的提取质量。
本发明的技术方案[18],在技术方案[15]的从单文档中提取关键词的方法中,所述关键词提取步骤还包括:
从所述第三关键词集合中删除从所述第一关键词集合中提取出的关键词;以及
从进行了删除的所述第三关键词集合中提取关键词。
根据技术方案[18],通过从第三关键词集合中提取关键词,能够借助用户历史文档来扩展关键词。通过将这样的关键词提取出来而进行扩充,能够明显改进关键词的提取质量。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是本发明的一个实施方式的从单文档中提取关键词的方法的流程图;
图2是本发明的另一实施方式的从单文档中提取关键句的方法的流程图;
图3是本发明的图2的实施方式的从单文档中提取关键词的方法的关键词重排序处理的详细流程图;
图4是本发明的图2的实施方式的从单文档中提取关键词的方法的关键词扩展处理的详细流程图;
图5是本发明的另一实施方式的从单文档中提取关键词的装置的概略框图;
图6是本发明的另一实施方式的从单文档中提取关键词的装置的提取关键句所使用的单元的概略框图
具体实施方式
下面就结合附图对本发明的各个优选实施方式进行详细的说明。
从单文档中提取关键词的方法
图1是本发明的一个实施方式的从单文档中提取关键词的方法的流程图。
如图1所示,首先,在步骤S130中,提取单文档中的关键句作为第一关键句集合10。在本实施方式中,单文档可以是任何语言的任何类型的文档,本实施方式对此没有任何限制。
然后,进入步骤S140,从第一关键句集合10中提取目标关键词。
根据本实施方式的上述方法,通过提取单文档中的关键句,再从关键句中提取关键词,能够有效提高目标关键词的提取质量。一般情况下,出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词,而是从仅是文档所有句子的子集的关键句集合中进行提取,所以可以减少候选关键词的个数,这意味着目标关键词被提取的概率提高,提取质量也会明显提高。
在此,作为例子,假设单文档中有100句话,总共包含1000个不同的词,有20个目标关键词。去掉停用词的话(假设停用词占总词数的30%),则剩余的700个词都是候选关键词。而目标关键词需要从700个候选关键词中选出。如果文档中有40句关键句,总共包含400个不同的词,去掉停用词以后,剩余的280个词是候选关键词,从280个候选关键词中正确选择出20个目标关键词的概率显然比从700个候选关键词中正确选择出20个目标关键词的概率大。
作为从单文档中提取关键句的方法,并不特别限定。例如,在提取关键句之前,如图2所示,可以还包括如下步骤:
在步骤S110中,识别单文档的类别。在本实施方式中,例如,预先使用文档分类器为单文档本身自动分配一个类别标签。文本分类器可以使用成熟的算法(SVM、NBM、VSM等)训练得到,也可以使用其他科研机构或组织提供的现成的工具,本实施方式对此没有任何限制。
接着,在步骤S120中,对所述单文档中的句子进行分类。在本实施方式中,例如,使用句子分类器,为单文档中的每个句子自动分配一个类别标签。句子分类器与文档分类器同样地,可以使用成熟的算法(SVM、NBM、VSM等)训练得到,也可以使用其他科研机构或组织提供的现成的工具,本实施方式对此没有任何限制。
在S110和S120的基础上,在步骤S130中,提取单文档中的与单文档的类别相同的句子,在本实施方式中,由于使用了类别标签,因此,选取单文档中的类别标签与单文档的类别标签相同的句子,作为第一关键句集合10。
在提取单文档中的与单文档的类别相同的句子作为关键句的情况下,关键句能够表征该文档的主要含义,因此能够更有效地提高目标关键词的提取质量。
在本实施方式中,优选在提取关键句之后,对基于第一关键句集合10的关键词进行重排序,再提取目标关键词。以下,参照图3进行说明。
如图3所示,在步骤S130之后,首先,在步骤S131b中,遍历第一关键句集合10,通过句子相似度算法(例如VSM),计算在语料库中每个句子与第一关键句集合10中的句子的相似度。同样地,在步骤S131c中,遍历第一关键句集合10,通过句子相似度算法(例如VSM),计算在用户历史文档中每个句子与第一关键句集合10中的句子的相似度。
接着,在步骤S132b中,从语料库中提取所计算出的相似度大于预先设定的阈值X的句子,作为第二关键句集合20,同样地,在步骤S132c中,从用户历史文档中提取所计算出的相似度大于预先设定的Y的句子,作为第三关键句集合30。对于X和Y,可以设为相同,也可以设为不同,根据需要设定即可。
通过预先设定阈值X和Y,能够准确地根据需要筛选语料库和用户历史文档中与单文档中的关键句相似的句子,这有助于提高目标关键词的提取质量。
接着,在步骤S133a中,采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等),从第一关键句集合10中,提取相应的带有权重的候选关键词集合即第一候选关键词集合11,同样地,在步骤S133b中,采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等),从第二关键句集合20中,提取相应的带有权重的第二候选关键词集合21,在步骤S133c中,采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等),从第三关键句集合30中,提取相应的带有权重的第三候选关键词集合31。
接着,在步骤S134,基于第二候选关键词集合21和第三候选关键词集合31,对第一候选关键词集合11进行重排序。
接着,进入步骤S140,从重新排序后的第一候选关键词集合11中提取目标关键词。
下面,对步骤S134中所采用的重排序的方法,以采用线性插值法为例,进行详细说明。
首先,对第一候选关键词集合11、第二候选关键词集合21以及第三候选关键词集合31分别赋予权重α、β、γ。设Score(ω in 11)表示某候选关键词在第一候选关键词集合11中的权重,Score(ω in 21)表示该候选关键词在第二候选关键词集合21中的权重,Score(ω in 31)表示该候选关键词在第三候选关键词集合31中的权重。并基于下式(4),对第一候选关键词集合11中的每一个候选关键词进行计算:
Score(ω)=α*Score(ω in 11)+β*Score(ω in 21)+γ*Score(ω in 31) (4)
之后,基于计算所得的综合权重Score(ω),对第一候选关键词集合11中候选关键词进行重排序。
在单个文档中,内容有限,缺乏足够信息来辅助提取目标关键词。而在本实施方式中,通过如上所述基于第二候选关键词集合21以及第三候选关键词集合31对第一关键词集合11中的关键词进行重排序,借助语料库以及用户历史文档中与单文档相关的信息来对文档内关键词进行调整,能够相对提高目标关键词在排序中的位置,进一步提高目标关键词的提取质量。
另外,由于使用各预先确定的权重来进行重排序,因此,能够更有效地利用语料库和用户历史文档中的信息对候选关键词准确地进行排序,提高目标关键词的提取质量。
在本实施方式中,优选在进行重排序之后,进行关键词的扩展。以下,参照图4进行说明。
在将第一候选关键词集合11中候选关键词进行重排序即S134之后,如图4所示,在步骤S135,从第一候选关键词集合11中提取前N个候选关键词作为集合12。
接着,在步骤S136b中,从第二候选关键词集合21中删除包含在步骤S135中提取的集合12中的候选关键词,同样地,在步骤S136c中,从第三候选关键词集合31中删除包含在步骤S135中提取的集合12中的候选关键词。
接着,在步骤S137b中,从进行了删除的第二候选关键词集合21中,提取前M个候选关键词作为集合22,同样地,在步骤S137c中,从进行了删除的第三候选关键词集合31中,提取前V个候选关键词作为集合32。
接着,在步骤S138中,将集合12、22以及32合并,由此,得到最终的目标关键词集合。
在某些情况下,存在一些关键词,其虽然不存在于单文档中,但仍与单文档的内容高度相关。因此,在实施方式中,为了不遗漏掉上述关键词,优选将存在于语料库和用户历史文档中的与单文档的内容高度相关的关键词提取出来,与从单文档中提取出的关键词一并组成了最终的关键词集合。通过如此进行扩充,能够明显改进关键词的提取质量。
在上述实施方式中,以同时使用语料库和用户历史文档进行关键词的重排序和扩展关键词为例进行了说明,但是,也可以仅使用语料库和用户历史文档中的一方来进行关键词的重排序和扩展关键词。
另外,上述步骤的顺序并非固定的,例如,在本实施方式中,在识别单文档的类别(即S110)之后,对单文档中的句子进行分类(即S120),但并不限于此,也可以在对单文档中的句子进行分类之后,再识别单文档的类别。
从单文档中提取关键词的装置
在同一发明构思下,图5和图6是根据本发明的另两个实施方式的从单文档中提取关键词的装置的方框图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
如图5所示,本实施方式的从单文档中提取关键词的装置(以下称为“关键词提取装置”)100包括:关键句提取单元103和关键词提取单元104。关键句提取单元103从单文档中提取关键句作为第一关键句集合10,关键词提取单元104从第一关键句集合10中提取关键词。
根据本实施方式的关键词提取装置100,通过提取单文档中的关键句,再从关键句中提取关键词,能够有效提高目标关键词的提取质量。一般情况下,出现在关键句中的概率比出现在非关键句中的概率高很多。因为并非从单文档中所有句子中提取候选关键词,而是从仅是文档所有句子的子集的关键句集合中进行提取,所以可以减少候选关键词的个数,这意味着目标关键词被提取的概率提高,提取质量也会明显提高。
在此,作为例子,假设单文档中有100句话,总共包含1000个不同的词,有20个目标关键词。去掉停用词的话(假设停用词占总词数的30%),则剩余的700个词都是候选关键词。而目标关键词需要从700个候选关键词中选出。如果文档中有40句关键句,总共包含400个不同的词,去掉停用词以后,剩余的280个词是候选关键词,从280个候选关键词中正确选择出20个目标关键词的概率显然比从700个候选关键词中正确选择出20个目标关键词的概率大。
另外,关键词提取装置100,如图6所示,可以还具备识别单元101和分类单元102。
识别单元101用于识别单文档的类别。在本实施方式中,例如,预先使用文档分类器为单文档本身自动分配一个类别标签。文本分类器可以使用成熟的算法(SVM、NBM、VSM等)训练得到,也可以使用其他科研机构或组织提供的现成的工具。文本分类器没有特别地限制,只要能对单文档进行分类即可。
分类单元102用于对单文档中的句子进行分类。在本实施方式中,例如,分类单元102可以是句子分类器,该句子分类器为单文档中的每个句子自动分配一个类别标签。句子分类器与文档分类器同样地,可以使用成熟的算法(SVM、NBM、VSM等)训练得到,也可以使用其他科研机构或组织提供的现成的工具。句子分类器没有特别地限制,只要能对单文档中每个句子进行分类即可。
关键句提取单元103,根据识别单元101的识别结果和分类单元102的分类结果,从单文档中提取与该单文档的类别相同的句子,作为第一关键句集合10。
在提取单文档中的与单文档的类别相同的句子作为关键句的情况下,关键句能够表征该文档的主要含义,因此能够更有效地提高目标关键词的提取质量。
此外,关键词提取装置100可以还包括排序单元105,该排序单元105对基于第一关键句集合10的关键词进行重排序。
首先,通过关键句提取单元103,遍历第一关键句集合10,通过句子相似度算法(例如VSM),计算在语料库中每个句子与第一关键句集合10中的句子的相似度。同样地,通过关键句提取单元103,遍历第一关键句集合10,通过句子相似度算法(例如VSM),计算在用户历史文档中每个句子与第一关键句集合10中的句子的相似度。
基于相似度的结果,从语料库中提取所计算出的相似度大于预先设定的阈值X的句子,作为第二关键句集合20,同样地,从用户历史文档中提取所计算出的相似度大于预先设定的Y的句子,作为第三关键句集合30。对于X和Y,可以设为相同,也可以设为不同,根据需要设定即可。
通过预先设定阈值X和Y,能够准确地根据需要筛选语料库和用户历史文档中与单文档中的关键句相似的句子,这有助于提高目标关键词的提取质量。
接着,关键词提取单元104,采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等),从第一关键句集合10中,提取相应的带有权重的候选关键词集合即第一候选关键词集合11,同样地,采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等),从第二关键句集合20中,提取相应的带有权重的第二候选关键词集合21,并且,采用常用的关键词提取算法(例如TF-IDF、TextRank、Delimiter-Based等),从第三关键句集合30中,提取相应的带有权重的第三候选关键词集合31。
接着,排序单元105基于通过关键词提取单元104提取出的第二候选关键词集合21和第三候选关键词集合31,对第一候选关键词集合11进行重排序。
接着,关键词提取单元104从重新排序后的第一候选关键词集合11中提取目标关键词。
下面,对排序单元105所采用的重排序的方法,以采用线性插值法为例,进行详细说明。
首先,对第一候选关键词集合11、第二候选关键词集合21以及第三候选关键词集合31分别赋予权重α、β、γ。设Score(ω in 11)表示某候选关键词在第一候选关键词集合11中的权重,Score(ω in 21)表示该候选关键词在第二候选关键词集合21中的权重,Score(ω in 31)表示该候选关键词在第三候选关键词集合31中的权重。并基于下式(4),对第一候选关键词集合11中的每一个候选关键词进行计算:
Score(ω)=α*Score(ω in 11)+β*Score(ω in 21)+γ*Score(ω in 31) (4)
之后,基于计算所得的综合权重Score(ω),对第一候选关键词集合11中候选关键词进行重排序。
在单个文档中,内容有限,缺乏足够信息来辅助提取目标关键词。而在本实施方式中,通过如上所述基于第二候选关键词集合21以及第三候选关键词集合31对第一关键词集合11中的关键词进行重排序,借助语料库以及用户历史文档中与单文档相关的信息来对文档内关键词进行调整,能够相对提高目标关键词在排序中的位置,进一步提高目标关键词的提取质量。
另外,由于使用各预先确定的权重来进行重排序,因此,能够更有效地利用语料库和用户历史文档中的信息对候选关键词准确地进行排序,提高目标关键词的提取质量。
关键词提取单元104优选在进行重排序之后进行关键词的扩展。具体地,关键词提取单元104从第一候选关键词集合11中,提取前N个关键词作为集合12,并且,从第二候选关键词集合21和第三候选关键词集合31中分别删除集合12所包含的关键词,进而,从进行了删除的第二候选关键词集合21中,提取前M个候选关键词作为集合22,同样地,从进行了删除的第三候选关键词集合31中,提取前V个候选关键词作为集合32,将集合12、22以及32合并,得到最终的目标关键词集合。
在某些情况下,存在一些关键词,其虽然不存在于单文档中,但仍与单文档的内容高度相关。因此,在实施方式中,为了不遗漏掉上述关键词,优选将存在于语料库和用户历史文档中的与单文档的内容高度相关的关键词提取出来,与从单文档中提取出的关键词一并组成了最终的目标关键词集合。通过如此进行扩充,能够明显改进关键词的提取质量。
在上述实施方式中,以同时使用语料库和用户历史文档进行关键词的重排序和扩展关键词为例进行了说明,但是,也可以仅使用语料库和用户历史文档中的一方来进行关键词的重排序和扩展关键词。
本发明的上述从单文档中提取关键词的装置及方法可以应用于自然语言处理的各个领域,例如机器翻译,文本摘要等,本发明对此没有任何限制。
以上,虽然通过一些示例性的实施方式详细地描述了本发明的从单文档中提取关键词的装置及方法,但是以上这些实施方式并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。本发明并不限于这些实施方式,本发明的范围仅由所附权利要求为准。

Claims (10)

1.一种从单文档中提取关键词的装置,包括:
关键句提取单元,其从所述单文档中提取关键句;以及
关键词提取单元,其从所述关键句中提取关键词。
2.根据权利要求1所述的从单文档中提取关键词的装置,还包括:
识别单元,其识别所述单文档的类别;以及
分类单元,其对所述单文档中的句子进行分类;
所述关键句提取单元提取所述单文档中的与所述单文档的类别相同的句子,作为第一关键句集合,
所述关键词提取单元从所述第一关键句集合中提取关键词。
3.根据权利要求2所述的从单文档中提取关键词的装置,其中,
所述关键词提取单元,从所述第一关键句集合中提取第一关键词集合,
所述关键句提取单元,从语料库中提取与所述第一关键句集合中的关键句相似的句子,作为第二关键句集合,
所述关键词提取单元,从所述第二关键句集合提取第二关键词集合,
所述装置还包括排序单元,其基于所述第二关键词集合,对所述第一关键词集合中的关键词进行重排序,
所述关键词提取单元从重新排序后的第一关键词集合中提取关键词。
4.根据权利要求3所述的从单文档中提取关键词的装置,其中,
所述排序单元,基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第二关键词集合的权重和所述关键词在所述第二关键词集合中的权重,计算所述关键词的权重,基于计算出的权重,对所述第一关键词集合进行重排序。
5.根据权利要求3所述的从单文档中提取关键词的装置,其中,
所述关键词提取单元,从所述第二关键词集合中删除从所述第一关键词集合中提取出的关键词,从进行了删除的所述第二关键词集合中提取关键词。
6.根据权利要求1至5中的任一项所述的从单文档中提取关键词的装置,其中,
所述关键词提取单元,从所述第一关键句集合中提取第一关键词集合,
所述关键句提取单元,从用户历史文档中提取与所述第一关键句集合中的关键句相似的句子作为第三关键句集合,
所述关键词提取单元,从所述第三关键句集合提取第三关键词集合,
所述装置还包括排序单元,其基于所述第三关键词集合,对所述第一关键词集合中的关键词进行重排序,
所述关键词提取单元从重新排序后的第一关键词集合中提取关键词。
7.根据权利要求6所述的从单文档中提取关键词的装置,其中,
所述关键句提取单元,
计算所述语料库中的句子与所述关键句的相似度,从所述语料库中提取相似度大于预先设定的第一阈值的句子,作为与所述关键句相似的句子,
计算所述用户历史文档中的句子与所述关键句的相似度,从所述用户历史文档中提取相似度大于预先设定的第二阈值的句子,作为与所述关键句相似的句子。
8.根据权利要求6所述的从单文档中提取关键词的装置,其中,
所述排序单元,基于所述第一关键词集合的权重、关键词在所述第一关键词集合中的权重、所述第三关键词集合的权重和所述关键词在所述第三关键词集合中的权重,计算所述关键词的权重,基于计算出的权重,对所述第一关键词集合进行重排序。
9.根据权利要求6所述的从单文档中提取关键词的装置,其中,
所述关键词提取单元,从所述第三关键词集合中删除从所述第一关键词集合中提取出的关键词,从进行了删除的所述第三关键词集合中提取关键词。
10.一种从单文档中提取关键词的方法,包括:
从所述单文档中提取关键句;以及
从所述关键句中提取关键词。
CN201510632825.XA 2015-09-29 2015-09-29 从单文档中提取关键词的装置及方法 Pending CN106557460A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510632825.XA CN106557460A (zh) 2015-09-29 2015-09-29 从单文档中提取关键词的装置及方法
JP2016161523A JP6232478B2 (ja) 2015-09-29 2016-08-19 単一文書からのキーワード抽出装置及び方法
US15/247,396 US20170091318A1 (en) 2015-09-29 2016-08-25 Apparatus and method for extracting keywords from a single document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510632825.XA CN106557460A (zh) 2015-09-29 2015-09-29 从单文档中提取关键词的装置及方法

Publications (1)

Publication Number Publication Date
CN106557460A true CN106557460A (zh) 2017-04-05

Family

ID=58409539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510632825.XA Pending CN106557460A (zh) 2015-09-29 2015-09-29 从单文档中提取关键词的装置及方法

Country Status (3)

Country Link
US (1) US20170091318A1 (zh)
JP (1) JP6232478B2 (zh)
CN (1) CN106557460A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN111433768A (zh) * 2019-03-07 2020-07-17 北京京东尚科信息技术有限公司 智能引导购物的系统和方法
CN114281992A (zh) * 2021-12-22 2022-04-05 北京朗知网络传媒科技股份有限公司 基于传媒领域的汽车文章智能分类方法及系统
CN115878847A (zh) * 2023-02-21 2023-03-31 云启智慧科技有限公司 基于自然语言的视频引导方法、系统、设备及存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
US11514498B2 (en) 2019-03-07 2022-11-29 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for intelligent guided shopping
CN110298035B (zh) * 2019-06-04 2023-12-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110598209B (zh) * 2019-08-21 2022-11-04 合肥工业大学 用于提取关键词的方法、系统及存储介质
CN111090997B (zh) * 2019-12-20 2021-07-20 中南大学 一种基于分级词项的地质文档特征词项排序方法与装置
CN111680505B (zh) * 2020-04-21 2023-08-08 华东师范大学 一种Markdown特征感知的无监督关键词提取方法
CN112364601B (zh) * 2020-10-28 2023-04-07 南阳理工学院 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置
CN112597776A (zh) * 2021-03-08 2021-04-02 中译语通科技股份有限公司 关键词提取方法及系统
CN113723058B (zh) * 2021-11-02 2022-03-08 深圳市北科瑞讯信息技术有限公司 文本摘要与关键词抽取方法、装置、设备及介质
CN117743376B (zh) * 2024-02-19 2024-05-03 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质
CN118035388B (zh) * 2024-04-11 2024-06-11 材料科学姑苏实验室 一种文档关键词确定方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
CN101533393A (zh) * 2008-03-11 2009-09-16 深圳市乐天科技有限公司 用电子装置对文章句子快速进行的分类及检索方法
CN102193971A (zh) * 2010-03-18 2011-09-21 柯尼卡美能达商用科技株式会社 内容收集装置和内容收集方法
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
US20150120738A1 (en) * 2010-12-09 2015-04-30 Rage Frameworks, Inc. System and method for document classification based on semantic analysis of the document
CN104679733A (zh) * 2013-11-26 2015-06-03 中国移动通信集团公司 一种语音对话翻译方法、装置及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
JP2572314B2 (ja) * 1991-05-31 1997-01-16 株式会社テレマティーク国際研究所 キーワード抽出装置
US8155951B2 (en) * 2003-06-12 2012-04-10 Patrick William Jamieson Process for constructing a semantic knowledge base using a document corpus
KR101005337B1 (ko) * 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
KR20130097290A (ko) * 2012-02-24 2013-09-03 한국전자통신연구원 사용자의 관심주제를 기반으로 인터넷 문서를 제공하는 장치 및 그 방법
US9244909B2 (en) * 2012-12-10 2016-01-26 General Electric Company System and method for extracting ontological information from a body of text
US9189540B2 (en) * 2013-04-05 2015-11-17 Hewlett-Packard Development Company, L.P. Mobile web-based platform for providing a contextual alignment view of a corpus of documents
US10191893B2 (en) * 2013-07-22 2019-01-29 Open Text Holdings, Inc. Information extraction and annotation systems and methods for documents

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
CN101533393A (zh) * 2008-03-11 2009-09-16 深圳市乐天科技有限公司 用电子装置对文章句子快速进行的分类及检索方法
CN102193971A (zh) * 2010-03-18 2011-09-21 柯尼卡美能达商用科技株式会社 内容收集装置和内容收集方法
US20150120738A1 (en) * 2010-12-09 2015-04-30 Rage Frameworks, Inc. System and method for document classification based on semantic analysis of the document
CN104679733A (zh) * 2013-11-26 2015-06-03 中国移动通信集团公司 一种语音对话翻译方法、装置及系统
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘佳宾 等: "基于机器学习的科技文摘关键词自动提取方法", 《计算机工程与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062895A (zh) * 2018-07-23 2018-12-21 挖财网络技术有限公司 一种智能语义处理方法
CN109062895B (zh) * 2018-07-23 2022-06-24 挖财网络技术有限公司 一种智能语义处理方法
CN111433768A (zh) * 2019-03-07 2020-07-17 北京京东尚科信息技术有限公司 智能引导购物的系统和方法
CN111433768B (zh) * 2019-03-07 2024-01-16 北京京东尚科信息技术有限公司 智能引导购物的系统和方法
CN114281992A (zh) * 2021-12-22 2022-04-05 北京朗知网络传媒科技股份有限公司 基于传媒领域的汽车文章智能分类方法及系统
CN115878847A (zh) * 2023-02-21 2023-03-31 云启智慧科技有限公司 基于自然语言的视频引导方法、系统、设备及存储介质

Also Published As

Publication number Publication date
JP2017068833A (ja) 2017-04-06
US20170091318A1 (en) 2017-03-30
JP6232478B2 (ja) 2017-11-15

Similar Documents

Publication Publication Date Title
CN106557460A (zh) 从单文档中提取关键词的装置及方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN105354333B (zh) 一种基于新闻文本的话题提取方法
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN106294320B (zh) 一种面向学术论文的术语抽取方法及系统
CN103559233B (zh) 微博中网络新词抽取方法和微博情感分析方法及系统
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN108268668B (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
CN108228541B (zh) 生成文档摘要的方法和装置
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN104778201B (zh) 一种基于多查询结果合并的在先技术检索方法
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN110399606A (zh) 一种无监督电力文档主题生成方法及系统
Sarkar A hybrid approach to extract keyphrases from medical documents
CN105095196A (zh) 文本中新词发现的方法和装置
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
Diri et al. Automatic author detection for Turkish texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170405