CN104063387A - 在文本中抽取关键词的装置和方法 - Google Patents

在文本中抽取关键词的装置和方法 Download PDF

Info

Publication number
CN104063387A
CN104063387A CN201310089672.XA CN201310089672A CN104063387A CN 104063387 A CN104063387 A CN 104063387A CN 201310089672 A CN201310089672 A CN 201310089672A CN 104063387 A CN104063387 A CN 104063387A
Authority
CN
China
Prior art keywords
word
text
candidate keywords
occurrence number
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310089672.XA
Other languages
English (en)
Other versions
CN104063387B (zh
Inventor
周进华
李雄锋
吕光华
张涛
叶青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN201310089672.XA priority Critical patent/CN104063387B/zh
Publication of CN104063387A publication Critical patent/CN104063387A/zh
Application granted granted Critical
Publication of CN104063387B publication Critical patent/CN104063387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Abstract

公开了一种在文本中抽取关键词的装置和方法。所述方法包括:对文本进行预处理,包括根据标点符号将原始文本切分为段的集合;统计预处理后的文本的词语频率和基于段的词对的共现次数;根据统计结果,选择词语频率大于或等于2的词语构成候选关键词的集合;结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分;根据评分结果从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。

Description

在文本中抽取关键词的装置和方法
技术领域
本发明涉及一种在文本中抽取关键词的装置和方法,更具体地说,涉及一种通过共现次数和规范化的点互信息计算候选关键词与文本内容的相关性,来抽取相关性高的预定数量的词语作为关键词的装置和方法。
背景技术
随着计算机和网络技术的发展,数字化的文件正以惊人的速度在疯狂增长。人们每天要花费大量的时间和精力去阅读和查找文件。为了节省时间和提高人们工作的效率,原始文档的各种简洁表示(例如摘要和关键词等形式)应运而生。
关键词被定义成压缩表示了原始文本重要信息和核心内容的词语。人们可以通过它快速了解文本的大致内容,而不需要通读全文。在信息检索中,关键词常被我们用来查找内容相关的文档。此外,在话题探测和跟踪、文本分类和聚类等任务中都有重要的应用。目前,除了形式规范的科技论文提供了关键词外,大部分文档都没有作者或读者分配的关键词。传统依靠人工去阅读文本,然后抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需求。因此,如何自动抽取关键词成了时下文本处理领域的一个研究热点。
从人工选择关键词的过程可以知道,关键词可以是预定义好的类别,也可以是从文本中抽取的反映核心内容和重要信息的词语。第一种方法可以看成是一个文本分类的问题,它将现成的文本分配到预定义好的一个或几个类别中。从而可以采用文本分类的思路和技术进行关键词的抽取。第二种方法就是本发明所采用的方法,它从原始文本中抽取反映文档主要内容的词语,而不需要预先建立一个相关领域的类别体系。目前关键词自动抽取的技术可以分为简单统计的方法、语言分析的方法和机器学习的方法。语言分析的方法采用自然语言处理中词法、句法及语义分析等技术,在对文档进行深入理解的基础上抽取文档中反映其主要内容的词语。虽然该类方法在提高抽取的关键词的质量方面具有很大的潜力,但是目前自然语言处理技术还在发展过程中,暂时还没有成熟到可以有效应用到关键词抽取的各种场合。基于机器学习的方法需要提供大规模特定的样例进行学习。不同领域的应用需要采用相应领域的样例。而且训练模型需要花费大量的时间。该类方法对authoring及网页等不确定领域环境中关键词抽取的应用,效果较差。简单统计的方法不依赖于特定语言和特定领域,仅通过对文本中各种语言单元进行统计分析以自动产生关键词。这种方法简单、快速、几乎可以应用于所有需要关键词的任务中。
在简单统计的方法中,词频(即,词语频率)和词语共现关系等常被用于关键词的抽取。统计方法tf×idf中的tf表示词频,词频是词语在文本中总共出现的次数,常用于评估特定词语对一个文档集或语料库中某个文档的重要性,idf反映了词语对文本或类别的区分能力。Yukio Ohsawa等人在1998年提出的Key Graph方法利用文档中词语间的共现关系构造词共现图,其中每个节点表示一个词项。Key Graph方法将词共现图切割成多个涵盖了作者观点的互相连通的最大子图(簇),然后统计词项和这些簇的关系并将排名靠前的若干个词语返回做关键词。Text Rank是Rada Mihalcea和Paul Tarau在2004年提出的又一个基于图的关键词抽取算法。该算法利用长度为n的窗口中词项的共现关系构建词共现图,然后通过节点的出度、入度及边的权重计算词项的重要性,并选取最重要的若干个词作为文档的关键词。2004年,YutakaMatsuo等人采用χ2计算单文本中词项的共现分布对高频词集的偏置程度来决定词语的重要性。该方法还通过对共现矩阵中高频列的聚类来改善算法的准确性。Stuart Rose等人在2010年提出的RAKE算法利用词度对词频的比例从文本摘要中抽取关键词,其中词度为词频和该词的所有共现次数之和。
互信息(Mutual Information,MI)是衡量两个随机变量间信息重叠程度的一种统计方法。它表示在知道了一个随机变量的值之后,我们对另一个随机变量不确定性的减少,即一个随机变量揭示了多少关于另一个随机变量的信息量。给定两个随机变量X和Y,假设它们的先验概率和联合概率分别为p(x),p(y)和p(x,y),那么随机变量X和Y的互信息可以表示成:
MI ( X , Y ) = Σ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) = Σ x , y p ( x , y ) pmi ( x , y ) - - - ( 1 )
其中,pmi(x,y)就是点互信息。对于单文档来说,存在大量词语出现次数为1的情况,其中不乏包含文本重要信息的关键词。根据观察知道,相对于MI来说,PMI更倾向于让低频词语获得相对高的评分。假设N为文本中的词语总数,对于文本中的词对w1和w2,它们的点互信息为:
pmi ( w 1 , w 2 ) = log p ( w 1 , w 2 ) p ( w 1 ) p ( w 2 ) = log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) - - - ( 2 )
其中,N为文本总词数,c(w1,w2)为词语w1和w2共现的次数,c(w1)和c(w2)分别为词语w1和w2单独在文本中出现的次数。然而,点互信息对共现次数较高的词对不利,例如,假设N=100,c(w1)、c(w2)和c(w1,w2)均为1和均为2时的点互信息分别为log100(pmi=log(100×1/1×1))和log50(pmi=log(100×2/2×2))。实际上,共现次数越高越可靠。
但是仅考虑共现次数也不妥。自然语言中有些词语会与许多其它词语共现,它们每次出现要么意义不一样,要么没有实际意义。对于没有实际意义的词语,利用停用词表可以过滤掉。但是对于那些多次出现,意义都不一样的词语,即变异性强的词语,会因为共现次数高而获得不正当利益,影响关键词抽取的准确率。
虽然目前有很多优秀的方法可用于关键词的抽取,特别是基于机器学习的方法和基于语言分析的方法,但是这些方法要么需要带标注的大规模语料用于学习,要么需要复杂的自然语言处理技术对文本进行深入分析,这些要求对许多应用都不可行或很难满足。具体来说,现有技术有如下需要改善的地方:
1、现有的基于机器学习和基于语言分析的方法都需要特定语言或领域的知识,对于多语言或多领域的应用,需要针对每种语言或领域单独实现算法,然而对任何团队来说,在短时间内获取各种语言的语料和领域知识都是一件十分困难的事情。
2、目前简单统计的方法大多针对摘要等语言表达紧凑的短文的关键词抽取,这些算法对篇幅较长文本则效果很差。
3、单独使用共现频率度量相关性时,忽略词语变异性的影响。容易抽取那些没有实际意义,但共现次数很高的连接词作为关键词。
4、单独使用点互信息时,存在对共现次数高的词语不公平的现象。
发明内容
针对上述问题,本发明提出了一种领域独立的文本关键词抽取装置和方法。该方法不依赖于任何语言,不需要任何领域相关的工具或资源的支持。基于词语间的共现关系,该方法结合共现次数和规范化的点互信息考虑单个词语对文档内容的相关性,并选择相关性最高的预定数量的词语作为文档的关键词。
根据本发明的一方面,提供了一种在文本中抽取关键词的方法,所述方法包括:对文本进行预处理,包括根据标点符号将原始文本切分为段的集合;统计预处理后的文本的词语频率和基于段的词对的共现次数;根据统计结果,选择词语频率大于或等于2的词语构成候选关键词的集合;结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分;根据评分结果从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。
词语频率可以是词语在文本中总共出现的次数。
对文本进行预处理的步骤还可包括:去除文本中的停用词和/或明显不是关键词的字符串。
对文本进行预处理的步骤还可包括:对没有间隔符的语言的文本进行分词处理。
对文本进行预处理的步骤还可包括:针对具有间隔符的语言的文本,去除文本中的长度小于3的词语。
对候选关键词进行评分的步骤可包括:通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和,来衡量候选关键词和文本内容的相关性。
基于段的词对的共现次数的计算公式可以是:
c ( w 1 , w 2 ) = Σ seg 1 len ( w 1 , w 2 ) ,
其中,c(w1,w2)为词对(w1,w2)在文本中的共现次数,seg为根据标点符号切分后的段,len(w1,w2)为词语w1和词语w2在段seg中出现的位序之差的绝对值。
词对间规范化点互信息的计算公式可以是:
npmi ( w 1 , w 2 ) = ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 ) ,
其中,N为文本总词数;c(w1,w2)为词对(w1,w2)在文本中的共现次数;c(w1)为词语w1在文本中出现的次数;c(w2)为词语w2在文本中出现的次数。
候选关键词和文本中其他词语的相关性评分的计算公式可以是:
score ( w 1 , w 2 ) = c ( w 1 , w 2 ) × npmi ( w 1 , w 2 )
= c ( w 1 , w 2 ) × ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 ) ,
其中,c(w1,w2)为词对(w1,w2)在文本中的共现次数,npmi(w1,w2)为词对(w1,w2)的词对间规范化点互信息。
根据本发明的另一方面,提供了一种在文本中抽取关键词的装置,所述装置包括:预处理单元,被配置为对文本进行预处理,其中,预处理单元根据标点符号将原始文本切分为段的集合;统计单元,被配置为统计预处理后的文本的词语频率和基于段的词对的共现次数;选择单元,被配置为根据统计单元的统计结果,选择词语频率大于或等于2的词语构成候选关键词的集合;评分单元,被配置为结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分;排序单元,被配置为根据评分单元的评分结果从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明实施例的用于在文本中自动抽取关键词的装置的框图。
图2示出根据本发明实施例的对文本进行预处理操作的方法的流程图。
图3示出根据本发明实施例的词频和共现次数统计的方法的流程图。
图4示出根据本发明实施例的候选关键词评分的方法的流程图。
图5示出根据本发明实施例的用于在文本中自动抽取关键词的方法的流程图。
具体实施方式
现在,将参照附图更充分地描述本发明的实施例。在附图中,相同的标号表示相同的元件。
图1示出根据本发明实施例的用于在文本中自动抽取关键词的装置的框图。
在图1中,用于在文本中自动抽取关键词的装置100包括预处理单元101、统计单元102、选择单元103、评分单元104和排序单元105。
根据本发明示例性实施例的装置100适用于处理所有语言。对于没有间隔符的语言(例如中文,韩文,日文,泰文等),需要预先对其进行分词处理。为了简洁和方便,本实施例将基于英文文本介绍本方法实现关键词自动抽取的方法的步骤。然而,应该理解的是,本发明的实施例不限于英文,而是可以类似地应用于其它语言。
参照图1,预处理单元101对文本进行预处理。预处理单元101根据标点符号将原始文本切分为自然语言的逻辑单位(以下称为段)的集合,并去除停用词和/或诸如HTML/XML标记(网页标记)、数字、时间等明显不是关键词的字符串。预处理单元101进行预处理的具体步骤将参照图2详细示出。统计单元102统计预处理后的文本的词语频率和基于段的词对的共现次数。例如,仅在词对(w1,w2)(即,词语w1和w2)同时出现在特定段中时,词对(w1,w2)的共现次数才不为零;而在词对(w1,w2)分别出现在不同段中的情况下,词对(w1,w2)的共现次数为零。这比基于任意设定的一个距离范围进行的统计更准确。另外,在计算共现次数时,本发明考虑了词语间的距离。词语间距离越远,其相关性也越弱。统计单元102进行统计操作的具体步骤将参照图3详细示出。选择单元103根据统计单元102的统计结果,选择高频词来构成候选关键词的集合。例如,可以选择词频大于或等于2的所有单词作为候选关键词。
评分单元104结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分。例如,可通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和,来衡量候选关键词和文本内容的相关性。对于词对间规范化点互信息,其计算公式为:
npmi ( w 1 , w 2 ) = ( log p ( w 1 , w 2 ) p ( w 1 ) p ( w 2 ) ) / - log p ( w 1 , w 2 ) (3)
= ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 )
其中,N为文本总词数;p(w1,w2)为词对(w1,w2)的共现概率,p(w1)和p(w2)分别为词语w1和w2的先验概率;c(w1,w2)为词对(w1,w2)在文本中的共现次数;c(w1)为词语w1在文本中出现的次数;c(w2)为词语w2在文本中出现的次数。这里,本发明通过基于标点符号切分出的段来统计共现次数c(w1,w2)。当词对(w1,w2)在特定段中同时出现时,其共现次数增加由1/len表示的浮点值,其中,len为词对中词语在该段中位序之差的绝对值。共现次数统计的公式表示如下:
c ( w 1 , w 2 ) = Σ seg 1 len ( w 1 , w 2 ) - - - ( 4 )
其中,seg为根据标点符号切分后的段,len(w1,w2)为词语w1和w2在段seg中出现的位序之差的绝对值。
候选关键词与任意其他词语的相关性评分score(w1,w2)由以下公式计算:
score ( w 1 , w 2 ) = c ( w 1 , w 2 ) × npmi ( w 1 , w 2 )
= c ( w 1 , w 2 ) × ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 ) - - - ( 5 )
这里,c(w1,w2)、npmi(w1,w2)的计算方法已在上文示出,因此不再对其进行详细描述。候选关键词的评分是该候选关键词与所有其他词语的相关性评分之和。例如,可以根据公式来计算候选关键词w的评分,其中,rank(w)是候选关键词w的评分,是候选关键词w与所有其他词语的相关性评分之和。候选关键词的评分越高,候选关键词和文本内容的相关性越大。评分单元104对候选关键词进行评分的具体步骤将参照图4详细示出。
当计算得到所有候选关键词的评分后,排序单元105按照评分从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。
图2示出根据本发明实施例的预处理单元对文本进行预处理操作的方法的流程图。
参照图2,在步骤S201,确定词语间是否有分隔符。如果没有,则在步骤S202对文本进行分词处理;如果有,则在步骤S203创建空段。在步骤S204,读取一个词。在步骤S205,确定该词是否为空,即,确定取词是否成功。如果取词不成功,则处理结束;如果取词成功,则在步骤S206确定该词是否为停用词。如果该词为停用词,则在步骤S207去除该词;如果该词不是停用词,则在步骤S208,确定该词是否是数字串。如果该词是数字串,则在步骤S209去除该词;如果该词不是数字串,则在步骤S210确定该词是否是噪音串,诸如PDF转换过程中带入的“-LRB-”等符号。如果该词是噪音串,则在步骤S211去除该词;如果该词不是噪音串,则在步骤S212确定该词是否是标点符号。如果该词不是标点符号,则在步骤S213将该词添加到当前段中;如果该词是标点符号,则在步骤S214保存当前段。在步骤S215新建空段。之后,处理返回步骤S204。
这里,对于诸如英语的存在间隔符的语言来说,大部分长度小于3的词语都没有实际意义,所以可以在预处理操作中添加去除词语长度小于3的词语的步骤,从而提高关键词抽取的准确性。
图3示出根据本发明实施例的统计单元统计词频和共现次数的方法的流程图。
参照图3,在步骤S301,获取一个未被统计的完整的段,确定段中的词语的数量为n(n为正整数)。在步骤S302,从该段中抽取第i个词,将该词记为词i,并将i的初始值设置为0。在步骤S303,检查词i是否出现过。如果词i出现过,则在步骤S304,在词频表中将词i的词频增加1;如果词i没有出现过,则在步骤S305向词频表中插入词i的记录,并将其词频记为1。在步骤S306,从该段中抽取第j个词,将该词记为词j,并将j的初始值设置为i+1。在步骤S307,确定词j是否为空,即,确定词j的抽取是否成功。如果词j为空,则在步骤S313更新i的值(即,将i+1的值赋给i);如果词j不为空,则在步骤S308,检查该段中的词i和词j构成的词对是否曾共现过。如果共现过,则在步骤S309,在共现表中将该词对的共现次数增加1/(j-i);如果没有共现过,则在步骤S310,向共现表中插入该词对的共现记录,并将其共现次数记为1/(j-i)。之后在步骤S311,确定j是否小于n-1。如果j小于n-1,则在步骤S312更新j的值(即,将j+1的值赋给j);如果j大于或等于n-1,则在步骤S313更新i的值(即,将i+1的值赋给i)。之后在步骤S314,确定i是否大于n-1。如果i小于等于n-1,则处理返回步骤S302;如果i大于n-1,则处理结束。如果未处理完文本中的所有的段,则重复上述步骤。
图4示出根据本发明实施例的评分单元对候选关键词进行评分的方法的流程图。
在步骤S401,从候选关键词集中提取候选关键词w。在步骤S402,确定候选关键词w是否为空,即,确定选词是否成功。如果不为空,则处理进行到步骤S403;否则,处理结束。在步骤S403,将候选关键词w的评分rank(w)设置为0.0。在步骤S404,从文本的所有词语中选择不同于候选关键词w的对等词w’。这里,对等词w’表示文本中除了候选关键词w以外的任何词语。在步骤S405,确定对等词w’是否为空。如果为空,则处理在步骤S406输出该候选关键词及其评分rank(w);否则,处理在步骤S407将候选关键词w和对等词w’(即,词对(w,w′))的相关性评分score(w,w′)设置为0.0。在步骤S408,确定候选关键词w和对等词w’的共现次数是否为零。对于共现次数为0的词对(即,c(w,w′)=0),其score(w,w′)等于0。如果共现次数为零,则处理返回步骤S404;如果共现次数不为零,则处理在步骤S409计算词对(w,w′)的相关性评分score(w,w′)。由于相关性评分score(w,w′)的计算方法已经在上文详细描述,因此不再赘述。之后,在步骤S410,将rank(w)+score(w,w′)的值赋给rank(w)之后,处理返回步骤S404。
图5示出根据本发明实施例的用于在文本中自动抽取关键词的方法的流程图。
参照图5,在步骤S501,对文本进行预处理。
在步骤S502,统计预处理后的文本的词语频率和基于段的词对的共现次数。
在步骤S503,根据在步骤S502的统计结果,选择高频词来构成候选关键词的集合。
在步骤S504,结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分。
在步骤S505,按照评分高低从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。
本发明通过共现次数和规范化点互信息计算候选关键词对文本内容的相关性,来抽取相关性最强的预定数量的词语作为关键词。具体来说,本发明产生了如下有益效果:关键词的抽取不依赖于任何语言或领域相关的知识或资源,能够适用于更一般的场景。能够对单文本进行关键词抽取,并不受文本篇幅长短的影响。不仅克服了使用共现频率时的词语变异性问题,还解决了单独使用点互信息时对高频词语不公平的现象。本发明的方法简单,可以在便携式设备上、或资源使用受限、或对响应时间要求较高的场合进行关键词抽取。共现次数的统计基于自然语言的逻辑单位进行,而不是人为定义的固定范围,因此统计更加准确。此外,本发明通过考虑自然语言中相关性随距离增加而变弱的现象,利用共现词对间的距离计算词对的相关性,使得相关性的计算更准确。
尽管已经参照本发明的实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (18)

1.一种在文本中抽取关键词的方法,所述方法包括:
对文本进行预处理,包括根据标点符号将原始文本切分为段的集合;
统计预处理后的文本的词语频率和基于段的词对的共现次数;
根据统计结果,选择词语频率大于或等于2的词语构成候选关键词的集合;
结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分;
根据评分结果从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。
2.如权利要求1所述的方法,其中,词语频率为词语在文本中总共出现的次数。
3.如权利要求1所述的方法,其中,对文本进行预处理的步骤还包括:去除文本中的停用词和/或明显不是关键词的字符串。
4.如权利要求1所述的方法,其中,对文本进行预处理的步骤还包括:对没有间隔符的语言的文本进行分词处理。
5.如权利要求1所述的方法,其中,对文本进行预处理的步骤还包括:针对具有间隔符的语言的文本,去除文本中的长度小于3的词语。
6.如权利要求1所述的方法,其中,对候选关键词进行评分的步骤包括:通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和,来衡量候选关键词和文本内容的相关性。
7.如权利要求1所述的方法,其中,基于段的词对的共现次数的计算公式为:
c ( w 1 , w 2 ) = Σ seg 1 len ( w 1 , w 2 ) ,
其中,c(w1,w2)为词对(w1,w2)在文本中的共现次数,seg为根据标点符号切分后的段,len(w1,w2)为词语w1和词语w2在段seg中出现的位序之差的绝对值。
8.如权利要求7所述的方法,其中,词对间规范化点互信息的计算公式为:
npmi ( w 1 , w 2 ) = ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 ) ,
其中,N为文本总词数;c(w1,w2)为词对(w1,w2)在文本中的共现次数;c(w1)为词语w1在文本中出现的次数;c(w2)为词语w2在文本中出现的次数。
9.如权利要求8所述的方法,其中,候选关键词和文本中其他词语的相关性评分的计算公式为:
score ( w 1 , w 2 ) = c ( w 1 , w 2 ) × npmi ( w 1 , w 2 )
= c ( w 1 , w 2 ) × ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 ) ,
其中,c(w1,w2)为词对(w1,w2)在文本中的共现次数,npmi(w1,w2)为词对(w1,w2)的词对间规范化点互信息。
10.一种在文本中抽取关键词的装置,所述装置包括:
预处理单元,被配置为对文本进行预处理,其中,预处理单元根据标点符号将原始文本切分为段的集合;
统计单元,被配置为统计预处理后的文本的词语频率和基于段的词对的共现次数;
选择单元,被配置为根据统计单元的统计结果,选择词语频率大于或等于2的词语构成候选关键词的集合;
评分单元,被配置为结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分;
排序单元,被配置为根据评分单元的评分结果从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。
11.如权利要求10所述的装置,其中,词语频率为词语在文本中总共出现的次数。
12.如权利要求10所述的装置,其中,预处理单元还被配置为去除文本中的停用词和/或明显不是关键词的字符串。
13.如权利要求10所述的装置,其中,预处理单元还被配置为对没有间隔符的语言的文本进行分词处理。
14.如权利要求10所述的装置,其中,预处理单元还被配置为针对具有间隔符的语言的文本,去除文本中的长度小于3的词语。
15.如权利要求10所述的装置,其中,评分单元还被配置为:通过结合词对的共现次数和词对间规范化点互信息计算候选关键词和文本中所有其他词语的相关性评分的和,来衡量候选关键词和文本内容的相关性。
16.如权利要求10所述的装置,其中,基于段的词对的共现次数的计算公式为:
c ( w 1 , w 2 ) = Σ seg 1 len ( w 1 , w 2 ) ,
其中,c(w1,w2)为词对(w1,w2)在文本中的共现次数,seg为根据标点符号切分后的段,len(w1,w2)为词语w1和词语w2在段seg中出现的位序之差的绝对值。
17.如权利要求16所述的装置,其中,词对间规范化点互信息的计算公式为:
npmi ( w 1 , w 2 ) = ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 ) ,
其中,N为文本总词数;c(w1,w2)为词对(w1,w2)在文本中的共现次数;c(w1)为词语w1在文本中出现的次数;c(w2)为词语w2在文本中出现的次数。
18.如权利要求17所述的装置,其中,候选关键词和文本中其他词语的相关性评分的计算公式为:
score ( w 1 , w 2 ) = c ( w 1 , w 2 ) × npmi ( w 1 , w 2 )
= c ( w 1 , w 2 ) × ( log N × c ( w 1 , w 2 ) c ( w 1 ) c ( w 2 ) ) / log N c ( w 1 , w 2 ) ,
其中,c(w1,w2)为词对(w1,w2)在文本中的共现次数,npmi(w1,w2)为词对(w1,w2)的词对间规范化点互信息。
CN201310089672.XA 2013-03-19 2013-03-19 在文本中抽取关键词的装置和方法 Active CN104063387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310089672.XA CN104063387B (zh) 2013-03-19 2013-03-19 在文本中抽取关键词的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310089672.XA CN104063387B (zh) 2013-03-19 2013-03-19 在文本中抽取关键词的装置和方法

Publications (2)

Publication Number Publication Date
CN104063387A true CN104063387A (zh) 2014-09-24
CN104063387B CN104063387B (zh) 2017-07-28

Family

ID=51551103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310089672.XA Active CN104063387B (zh) 2013-03-19 2013-03-19 在文本中抽取关键词的装置和方法

Country Status (1)

Country Link
CN (1) CN104063387B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN105512104A (zh) * 2015-12-02 2016-04-20 上海智臻智能网络科技股份有限公司 词典降维方法及装置、信息分类方法及装置
CN105718595A (zh) * 2016-02-17 2016-06-29 无线生活(杭州)信息科技有限公司 一种关键词提取方法及装置
CN106610931A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 话题名称的提取方法及装置
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107463682A (zh) * 2017-08-08 2017-12-12 深圳市腾讯计算机系统有限公司 一种关键词的识别方法和装置
CN107615268A (zh) * 2015-03-10 2018-01-19 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN108509555A (zh) * 2018-03-22 2018-09-07 武汉斗鱼网络科技有限公司 搜索词确定方法、装置、设备及存储介质
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN108776709A (zh) * 2015-10-27 2018-11-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN109598402A (zh) * 2018-10-23 2019-04-09 平安科技(深圳)有限公司 基于数据挖掘的数据报告生成方法、装置、计算机设备
CN110020132A (zh) * 2017-11-03 2019-07-16 腾讯科技(北京)有限公司 关键词推荐方法、装置、计算设备及存储介质
CN110781662A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN110888986A (zh) * 2019-12-06 2020-03-17 北京明略软件系统有限公司 信息推送方法、装置、电子设备和计算机可读存储介质
CN111079411A (zh) * 2019-12-12 2020-04-28 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111259156A (zh) * 2020-02-18 2020-06-09 北京航空航天大学 一种面向时间序列的热点聚类方法
CN112188312A (zh) * 2019-07-02 2021-01-05 百度(美国)有限责任公司 用于确定新闻的视频素材的方法和装置
CN112183108A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 短文本主题分布的推理方法、系统、计算机设备和存储介质
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统
CN112597760A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 文档中的领域词提取方法和装置
CN112732904A (zh) * 2020-10-15 2021-04-30 中科曙光南京研究院有限公司 一种基于文本处理的异常突发事件检测方法及系统
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN113590773A (zh) * 2021-06-10 2021-11-02 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本主题标引的方法、装置、设备及可读存储介质
CN115618857A (zh) * 2022-09-09 2023-01-17 中国电信股份有限公司 威胁情报处理方法、威胁情报推送方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404036A (zh) * 2008-11-07 2009-04-08 西安交通大学 PowerPoint电子演示文稿的关键词抽取方法
US20090300007A1 (en) * 2008-05-28 2009-12-03 Takuya Hiraoka Information processing apparatus, full text retrieval method, and computer-readable encoding medium recorded with a computer program thereof
CN102262625A (zh) * 2009-12-24 2011-11-30 华为技术有限公司 网页关键词提取方法及装置
CN102298576A (zh) * 2010-06-25 2011-12-28 株式会社理光 文档关键词生成方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300007A1 (en) * 2008-05-28 2009-12-03 Takuya Hiraoka Information processing apparatus, full text retrieval method, and computer-readable encoding medium recorded with a computer program thereof
CN101404036A (zh) * 2008-11-07 2009-04-08 西安交通大学 PowerPoint电子演示文稿的关键词抽取方法
CN102262625A (zh) * 2009-12-24 2011-11-30 华为技术有限公司 网页关键词提取方法及装置
CN102298576A (zh) * 2010-06-25 2011-12-28 株式会社理光 文档关键词生成方法和装置

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107615268A (zh) * 2015-03-10 2018-01-19 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
CN106610931B (zh) * 2015-10-23 2019-12-31 北京国双科技有限公司 话题名称的提取方法及装置
CN106610931A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 话题名称的提取方法及装置
CN108776709B (zh) * 2015-10-27 2020-05-19 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN108776709A (zh) * 2015-10-27 2018-11-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及词典更新方法
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN105512104A (zh) * 2015-12-02 2016-04-20 上海智臻智能网络科技股份有限公司 词典降维方法及装置、信息分类方法及装置
CN105718595A (zh) * 2016-02-17 2016-06-29 无线生活(杭州)信息科技有限公司 一种关键词提取方法及装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN107122352B (zh) * 2017-05-18 2020-04-07 成都四方伟业软件股份有限公司 一种基于k-means、word2vec的抽取关键词的方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107463682A (zh) * 2017-08-08 2017-12-12 深圳市腾讯计算机系统有限公司 一种关键词的识别方法和装置
CN110020132B (zh) * 2017-11-03 2023-04-11 腾讯科技(北京)有限公司 关键词推荐方法、装置、计算设备及存储介质
CN110020132A (zh) * 2017-11-03 2019-07-16 腾讯科技(北京)有限公司 关键词推荐方法、装置、计算设备及存储介质
CN108509555A (zh) * 2018-03-22 2018-09-07 武汉斗鱼网络科技有限公司 搜索词确定方法、装置、设备及存储介质
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN109598402A (zh) * 2018-10-23 2019-04-09 平安科技(深圳)有限公司 基于数据挖掘的数据报告生成方法、装置、计算机设备
CN112188312B (zh) * 2019-07-02 2023-10-27 百度(美国)有限责任公司 用于确定新闻的视频素材的方法和装置
CN112188312A (zh) * 2019-07-02 2021-01-05 百度(美国)有限责任公司 用于确定新闻的视频素材的方法和装置
CN110781662B (zh) * 2019-10-21 2022-02-01 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN110781662A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN110888986A (zh) * 2019-12-06 2020-03-17 北京明略软件系统有限公司 信息推送方法、装置、电子设备和计算机可读存储介质
CN111079411B (zh) * 2019-12-12 2023-10-13 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111079411A (zh) * 2019-12-12 2020-04-28 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111259156A (zh) * 2020-02-18 2020-06-09 北京航空航天大学 一种面向时间序列的热点聚类方法
CN112183108A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 短文本主题分布的推理方法、系统、计算机设备和存储介质
CN112732904A (zh) * 2020-10-15 2021-04-30 中科曙光南京研究院有限公司 一种基于文本处理的异常突发事件检测方法及系统
CN112597760A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 文档中的领域词提取方法和装置
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统
CN113590773A (zh) * 2021-06-10 2021-11-02 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本主题标引的方法、装置、设备及可读存储介质
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN115618857A (zh) * 2022-09-09 2023-01-17 中国电信股份有限公司 威胁情报处理方法、威胁情报推送方法及装置
CN115618857B (zh) * 2022-09-09 2024-03-01 中国电信股份有限公司 威胁情报处理方法、威胁情报推送方法及装置

Also Published As

Publication number Publication date
CN104063387B (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN103399901B (zh) 一种关键词抽取方法
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
CN101510221B (zh) 一种用于信息检索的查询语句分析方法与系统
CN102360383B (zh) 一种面向文本的领域术语与术语关系抽取方法
Surdeanu et al. A Simple Distant Supervision Approach for the TAC-KBP Slot Filling Task.
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
CN104102721A (zh) 信息推荐方法和装置
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN103902652A (zh) 自动问答系统
Hadni et al. A new and efficient stemming technique for Arabic Text Categorization
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN103678576A (zh) 基于动态语义分析的全文检索系统
US20190163737A1 (en) Method and apparatus for constructing binary feature dictionary
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
Kotenko et al. Analysis and evaluation of web pages classification techniques for inappropriate content blocking
CN104765779A (zh) 一种基于YAGO2s的专利文档查询扩展方法
CN109213998A (zh) 中文错字检测方法及系统
CN108038099A (zh) 基于词聚类的低频关键词识别方法
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
François et al. On the contribution of MWE-based features to a readability formula for French as a foreign language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant