CN101196904A - 一种基于词频和多元文法的新闻关键词抽取方法 - Google Patents

一种基于词频和多元文法的新闻关键词抽取方法 Download PDF

Info

Publication number
CN101196904A
CN101196904A CNA2007101770742A CN200710177074A CN101196904A CN 101196904 A CN101196904 A CN 101196904A CN A2007101770742 A CNA2007101770742 A CN A2007101770742A CN 200710177074 A CN200710177074 A CN 200710177074A CN 101196904 A CN101196904 A CN 101196904A
Authority
CN
China
Prior art keywords
speech
word
keyword
keywords
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101770742A
Other languages
English (en)
Other versions
CN100520782C (zh
Inventor
李涓子
樊绮娜
李军
唐杰
张鹏
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CNB2007101770742A priority Critical patent/CN100520782C/zh
Publication of CN101196904A publication Critical patent/CN101196904A/zh
Application granted granted Critical
Publication of CN100520782C publication Critical patent/CN100520782C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。

Description

一种基于词频和多元文法的新闻关键词抽取方法
技术领域
本发明属于文本挖掘领域,尤其涉及新闻文本挖掘。
背景技术
关键词抽取是文本信息检索的一个重要研究课题。中文新闻的关键词抽取对于理解新闻的重要内容和实现相关新闻事件的精确检索有着极其重要的作用。文本关键词是指几个能对文本概述、与文本语义内容相关的词或短语。通过关键词,人们可以快速地查找所需要的信息。更进一步,关键词还能为更深一层的文本挖掘应用提供丰富的语义信息,如文本分类、文本聚类、文本检索及主题挖掘等。
目前国内外已有很多关键词抽取方法,并且已被广泛应用。但大部分的研究工作都集中在提高关键词抽取的准确率,没有仔细地研究什么词才是关键词,导致关键词定义的标准不统一,各种方法之间难以比较。另外关键词抽取的结果受分词系统质量的影响较大,在关键词抽取中,大多数的关键词抽取方法以分词作为处理的第一步,而分词过程出现的漏检和错误直接造成了文本后续处理的困难,亦因为这个原因,关键词抽取方法还要解决未登录词的抽取问题。
针对这些问题,本文首先从语言学的角度对中文文本进行分析,提出我们对新闻关键词的定义规范。根据关键词的定义规范,基于ICTCLAS词法分析系统,我们统计关键词潜在的词性模式,分别采用了一元、二元及三元文法在文本中挖掘候选关键词。为了修正分词的错误,我们提出了基于标题挖掘的方法来检测未被分词器发现的潜在关键词。最后对各候选词进行特征计算及拟合,取最高分值的五个词作为文本关键词。实验结果表明,该方法较baseline的结果有明显的提升。另外,我们还把该方法应用于新闻回溯事件检测中,实验表明关键词抽取能有效地提高该任务的效率和正确率。
发明内容
本发明的目的在于提供一个新闻文本的关键词定义规范及抽取方法。
本发明所提出的方法的思路在于:首先通过对新闻文本语言学和语义特征的分析,给出新闻文本关键词的定义规范;然后根据这个定义规范,我们在文本中统计关键词的潜在词性模式,并提出以此词性模式为基础的一元、二元及三元文法的候选关键词挖掘方法,得出候选关键词列表。我们用基于标题挖掘的方法来检测未被分词器发现的潜在关键词,并将它们加入到候选关键词列表中。最后,通过对各候选关键词进行特征计算及拟合并得出分数,分值最高的几个候选关键词将成为最终的关键词。
所述方法是基于一个已经存在的社会网络依次按以下步骤具体实现的,所采用的步骤框图请见图1,
一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤:
步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式。
步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词。
步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;
步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下:
步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注;
步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;
步骤(2.3)分别采用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2)所述词性模式的词,作为候选关键词;
步骤(3)计算机为步骤(2)得到的每个候选关键词w按以下方法计算出下述八个特征值:
词频:分别以三个特征值w.tf、w.ctf、termSum表示:
w.tf:w在所在新闻文本中的出现次数。其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;
w.ctf:w在所述某个新闻文本集中出现的总次数;
termSum:在所述某个新闻文本集中,基于该词w所属文法的一元/二元/三元文法字的词频总和;
文本位置:分别用w.inTitle及w.inFirst表示,其中:
w.inTitle:表示词w是否在新闻的标题中出现,w.inTitle=0表是否,w.inTitle=1表是肯定;
w.inFirst:表示词w是否在所在新闻文本的第一段中出现,w.inFirst=0表是否,w.inFirst=1表是肯定;
词性:用w.POS表示,指词w的词性;
形态:分别用w.quo、w.sign表示,其中:
w.quo:表示引用强调,是指词w是否被包括引号、书名号在内的符号括起来,w.quo=0表是否,w.quo=1表是肯定;
w.sign:表示词w的长度,按式Se(w)=g(x)计算得出,其中x为字词的长度,g(1)=0;当2≤x≤8时,g(x)=log2x;当 x>8时,g(x)=3;
步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下:
步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;
步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理:
步骤(4.2.1)设定以下四个识别检测的指标:
最大重复:设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S’的频率均小于S的频率,则S是最大重复的;
完整:设p1,p2,...,pk为字串S在文本T中出现的k个不同位置,当且仅当下列条件同时成立时,S是完整的;
1)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pi-1)个字与第(pj-1)个字不同;
2)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pj+|S|)个字与第(pj+|S|)个字不同,其中|S|为字串S的长度值;
稳定度:设S=”c1c2......cp”,则S的稳定度定义为 MI ( S ) = f ( S ) f ( S L ) + f ( S R ) - f ( S ) , SL=”c1c2......cp-1”,SR=”c2......cp”,f(S),f(SL),f(SR)分别是S,SL,SR在潜在关键.词所在文本中出现的频率;
相对频率:设S是潜在关键词文本中的一个字串,则S的相对频率为w为该文本中所出现的所有词。f(w)为词w在该文本中出现的频率;
步骤(4.2.2)根据以下4个必须同时满足的条件,把标题中的潜在关键词字串挖掘出来:
1)不能是单个字;
2)必须是最大重复的和完整的;
3)稳定度至少为t,当字符数为2时,t=0.38;当字符数为3时,t=0.67;该字符数有其他值时,t=0.8;
4)频率至少为3,相对频率大于等于0.021。
然后,把潜在关键词作为候选词,加入到关键词候选集中,把这些潜在关键词的特征值算出,对标题中其他已被ICTCLAS分词工具发现的及不适合的词去掉;
步骤(5)计算机按下式进行特征拟合,根据计算出的特征分值score(w)得出候选关键词的排名次序:
所有候选关键词集合中,各个关键词的特征分值score(w)按下式算出:
scpre ( w ) = ( w . tf ) t 1 * ( f + Σ fi ∈ F w . fi * t fi ) * ln termSum t 2 w . ctf t 1 公式(1)
其中:t1,t2和t3分别是w.tf,termSum和w.ctf的权重,具体为t1=0.99,t2=1.0,t3=0.95;
公式中,F={inTitle,quo,inFirst,sign}是一组特征。
w.inTitle的权重tinTitle=2.3;
w.quo的权重tquo=2.3;
w.inFirst的权重tinFirst=0.01;
w.sign的权重tsign=0.85;
w.fi为F中的某一特征;
t.fi为相应特征w.fi的权重。
从而得到各项候选词的一个特征分值score(w);
步骤(6)计算机优化结果,得出关键词。
步骤(6.1)对特征分值最高的5个关键词按下述方法进行评测;
步骤(6.2)删除单项特征过低,以及存在包含或重复现象的关键词,使最终所得.关键词保持各项特征分值均达到优良;
步骤(6.2.1)稳定度的要求和字串的长度相关,越长的字串,它的稳定度要求越严格,检测词的稳定度,按照下述标准删除稳定度过低的词;
1)候选词的二元及三元文法中的长度大于5且稳定度少于0.8的词;
2)稳定度少于0.5且词频太低,或是没有在标题或第一段中出现的词;
步骤(6.2.2)检测关键词之间是否存在重叠或包含的现象,如果存在,则会根据下述标准决定是否删去其中的一个词,为了便于叙述,在这里我们统称存在重叠或包含现象的两词中长度值较大的词为长词,长度值较短的词为短词;
1)被引用强调的词优先保留,
2)若长词的特征分值高于短词的特征分值:
a)保留长词;
b)若长词被引用强调,长词的词频小于短词的词频,短词的长度大于1,长词为一元文法的词,以上四个条件同时成立时,则短词也被保留;
3)若短词的特征分值高于长词的特征分值:
a)若短词的长度等于1,长词被引用强调,短词是实体关键词或主题关键词,长词的词频小于短词的词频,以上四个条件中任意某一个条件成立时,则保留长词,去掉短词;否则:
b)若长词是通过新词发现找到的,或是三元文法的词,则去掉长词;否则:
c)同时保留长词和短词;
步骤(6.3)把特征分值次低的关键词前移一位,重新执行步骤(6.2),直到最高特征分值的5个关键词同时满足要求或无候选关键词为止。
本发明所提出的一种基于词频和多元文法的新闻关键词抽取方法的突出贡献在于,我们不仅提出了关键词抽取的方法,还给出了新闻文本关键词的定义规范。在采用多元文法进行候选词抽取时,有别于一般没有考虑词性的多元文法抽取方法,我们引入了关键词的潜在词性模式的概念,使抽取出的候选关键词更加准确。另外,我们提出了基于对新闻标题进行挖掘的潜在关键词发现方法,能有效地发掘未登录的关键词。本发明中的抽取方法应用性广,可供新闻资料社、讨论区等存有大量文本信息的地方使用,对领域中的文本处理研究也提供了一种预处理的工具。
附图说明
图1.系统的整体框图;
图2.关键词抽取系统的硬件结构图;
图3.关键词抽取方法的实现效果;
具体实施方式
该方法包括如下步骤:
(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的定义规范
(1.1)研究关键词的特征词性
本部分内容是由人工对某个新闻文本集进行语言学和语义特征的分析,参考现时网上常见的文本及关键词,结合新闻六要素,总结出新闻关键词的几大类型。
新闻文本通常包括新闻事件,而新闻事件一般都包括5W1H六要素,分别是“When,What,Who,Where,Why和How”。而这六要素也正是人们所关心的,新闻关键词应尽量和六要素相关,可以说,六要素是关键词抽取的目标。通过对新闻文本进行分析,我们总结了新闻六要素的潜在词性,即六要素在句子中可能的词性及句子成分,如表1所示。
表1.5W和1H的潜在词性
5W1H 潜在词性 例子
Who 人名(nr) 孔子
Where 组织名(nt),地方名(ns) 上海,清华大学
When 时间词(t) 中秋节
What 基本名词,名词短语,动词短语 硬币,蝴蝶效应,挪用公款
Why 名词短语,动词短语 讨厌学习
How 修饰语 轻松,紧张
通过考察词在文本中的词性特征,可容易地区分出它是那一类关键词。更重要一点是,它还可以有效地区分什么词不是关键词。考察表1,可知关键词的潜在词性主要有四大类,分别是名词、修饰语、名词短语及动词短语。因此,在进行关键词抽取时,文本中非上述词性的词可以滤掉,例如一些虚词、数量词、拟声词等。这样,我们就可以通过考查词性,初步定义了关键词的潜在词性,过滤了一些没用的词,同时,表1也从语言学上解释了为什么这些词应该滤掉。
(1.2)统计并提取出关键词的潜在词性模式。
根据1.1中总结的关键词类型,可知关键词的潜在词性主要有四大类,我们利用ICTCLAS分词工具对新闻文本进行词性标注,然后分别采用以分词器切分出来的词为单位的一元、二元及三元文法在新闻集中统计出这四类关键词的多元词性模式,如表2所示,我们把这些词性模式称为关键词的潜在词性模式,它将成为抽取候选关键词的依据。
表2常见的关键词种类及其潜在词性模式
潜在词性模式 例子
一般名词 一般名词:名词(n),人名(nr),地方名(ns),英文字符(nx),组织名(nt),其他专有名词(nz),名动词(vn) 食品(n),姚明(nr),北京(ns),微软(nt),NBA(nx),奥斯卡(nz),赌博(vn)
名词(n),动词(v),名动词(vn),状态形容词(z)后接后缀(k)或语素(ng,vg) 报+业(n+k),跟踪+仪(vn+k)
时间词(t),名词/动词/修饰语后接时间语素(tg) 圣诞节,黄金周
简略语(j) 房地产
习惯用语(l) 花样游泳
修饰语 形容词(a),名形词(an),区别词(b),副形词(ad),名动词(vn),状态形容词(z) 火爆(a),贫困(an),踊跃(ad),超大型(b),痴呆(z)
名词短语 一般名词前接修饰语 原始+森林,年轻+艺术家
一般名词序列(可接修饰语) 中等+职业+学校
动词短语 动词(v)+一般名词 看+电视,订+票
表2能较全面的对现时常见的关键词从词性方面作出归纳定义,可能说是一个判断一个词在文本中是否关键词的初步指标。
除此之外,新闻中的关键词还应该容易被人们所理解,语义明确。为了降低关键词的异义性,本发明规定除了个别化学元素、动植物统称及其他专有名词外,关键词不能是单个字。另外,除了节假日外,人们一般不会对特定的日期、时间感兴趣,因此,除非文本确实强调某个具体时间,否则如“2003年”、“三月”等词不应是关键词。
以上这些都是本发明中关键词定义规范的内容,而此部分内容将为下一步的关键词抽取作出指导工作。
(2)根据潜在词性模式提取候选关键词
这是待抽取新闻的预处理过程。算法获得一篇完整的新闻文本后,会先把新闻文本分段利用ICTCLAS进行分词及词性标注,根据我们对关键词的潜在词性模式等定义规范,去掉一些不符合定义规范的词(例如一些虚词、数量词、拟声词等)及停用词,然后分别采用以分词器切分出来的词为单位的一元、二元及三元文法在文本中挖掘符合表2的词性模式的词,作为本发明的候选关键词(下简称作“候选词”)。
(3)特征计算
这里我们会先对此时的候选词进行部分特征的计算。除词性外,我们从词的词频、出现位置及形态三方面考虑,为每个词设置了八个特征值,所有特征及计算方法如表3所示。
表3.特征及其计算方法
  特征 备注
词频   w.tf w在所在新闻文本中的出现的次数
w.ctf w在某个文本集中的出现的总次数
  termSum 文本集中所有一元/二元/三元文法字的词频总和(根据w的所属文法而定)。
文本位置   w.inTitle 表示w是否在新闻的标题中出现。值0表”否”,值1表”是”。
  w.inFirst 表示w是否在新闻的第一段中出现。值0表”否”,值1表”是”。
  词性   w.POS w的词性
形态   引用强调(w.quo) 表示w是否被引号、书名号等括起来。值0表”否”,值1表”是”。
  长度(w.sign) 根据词的长度设置的特征值w.sign,表示该词所包括的信息量。其值通过公Se(w)=g(x)计算,其中x为字词的长度,g(1)=0;当2≤x≤8时,g(x)=log2x当x>8时,g(x)=3.
特征计算过程还负责对一些时间词、地点词等进行归一化处理,如“圣诞”及“圣诞节”、“北京”及“北京市”,这些词在同一篇新闻中出现,其实是同一个概念,本文根据它们的常用程度w.ctf及在文中的出现频率w.tf,将其中一个的词合并到另一个词中,频率相加,其他特征的合并以强特征的为准。如其中一词w.quo为1,则合并后的w.quo也为1。
此部分所计算的特征值将作为之后评分公式中的参数使用。
(4)基于标题挖掘的方法来检测潜在关键词。
新闻文本中经常会出现分词器字典中没有的未登录词,这些词很多时不能被分词工具正确处理而遭到破坏或过滤。为了解决未登录的关键词的抽取问题,本发明设置了基于标题掘挖的新词发现机制。
我们把没有被分词器正确处理的却又可能是关键词的词认为是潜在关键词,这些词可分为两类,一类是被引号或书名号括起来的词,如“恶性打折”、《计算机科学》等,这些词应该是一个整体,但分词程序可能会把它们从中折断。检测这种词的方法十分简单,我们同时在标题和正文中挖掘它们并把它们作为候选词。
另一种潜在关键词则多数是新出现的简略语或专有名词,不像第一种词,这些词没有像引号、书名词的符号作为分词标记,由于中文文本中的词之间并没有明显的符号分隔,文本中的连续几个字都可能是新词,因此我们引入了最大重复、完整、稳定度及相对频率四个指标来衡量这些词。并定义了潜在关键词必须满足的条件。指标的定义如下:
最大重复:设S是文本中的一个字串。若字串S的频率至少为1且S的任意子串S’的频率均小于S的频率,则S是最大重复的。
完整:设p1,p2,...,pk为字串S在文本T中出现的k个不同位置,当且仅当下列条件成立时,S是完整的。
1)至少有一(i,j)对,1≤i<j≤k,使第(pi-1)个字与第(pi-1)个字不同;
2)至少有一(i,j)对,1≤i<j≤k,使第(pj+|S|)个字与第(pj+|S|)个字不同,其中|S|为字串S的长度值。
稳定度:设S=”c1c2......cp”,则S的稳定度定义为 MI ( S ) = f ( S ) f ( S L ) + f ( S R ) - f ( S ) , SL=”c1c2......cp-1”,SR=”c2......cp”,f(S),f(SL),f(SR)分别是S,SL,SR在文本中出现的频率。
相对频率:设S是文本中的一个字串,则S的相对频率为
Figure S2007101770742D00102
w为文本中所出现的所有词。f(w)为字串w在文本中的频率。
由于潜在关键词大部分都会在标题中出现,因此我们也只在标题中挖掘它们。根据上述4个指标,我们定义了潜在关键词必须满足的条件:
1)不能是单字;
2)必须是最大重复的和完整的;
3)稳定度至少为t。当字符数为2时,t=0.38;当字符数为3时,t=0.67;其他字符数,t=0.8;
4)频率至少为3,相对频率大于等于0.021。
其中,稳定度的数值是通过实践经验设置的,字符串越长,稳定度要求越高。相对频率的阈值也是由实践经验得出的。需要注意一点是,虽然新词主要是在标题中挖掘的,但四个指标中的频率是在整个文本中计算的。即最大重复、稳定度、相对频率中的频率均是在全文中计算的,指标“完整”中的文本T也是指整个新闻文本。
我们把满足以上4个条件的字串从标题中挖掘出来,把里面已经被分词工具发现的及不适当的词去掉,最后把这些字串作为候选词加入到候选词集中,并把这些词的特征值补上。
(5)特征拟合,得出候选词排名
特征拟合可以简单地理解成对候选词进行评分,其目的是为各候选词计算一个用作衡量该词能否成为最终关键词的数值,称为特征分值,本发明用的特征拟合公式是基于tf/idf公式扩展并加权得出的,计算如公式(1)所示:
公式(1)是对单文本词汇频率/逆文本频率值(tf/idf)扩展而得到的,我们修改了原tf/idf公式中的idf项,增加了有关特征计算的特征项。我们根据每个特征的特点,给出不同的加权方法。公式中,F={inTitle,quo,inFirst,sign}是一组特征,tfi是它们的权重。t1,t2和t3分别是w.tf,termSum和w.ctf的权重。根据多次分层实验调试,我们把t1,t2,t3,tinTitle,tquo,tinFirst,tsign的值分别设为0.99,1.0,0.95,2.3,2.3,0.01,0.85,其他参数的计算请参考表3。
各候选词经过特征拟合后均得到一个特征分值,之后,本发明会按照特征分值,由高至低将候选词排序,得出关键词排名。
(6)结果优化,得出关键词
根据评分及排名方法可知,排名越前的候选词越有可能成为最终的关键词。在结果优化阶段,我们对分值最高的五个候选词重新进行评测。包括评测它们的完整性、稳定度、是否有某个单项特征过低等。另外,我们还会检查最后各关键词之间是否有包含或重叠现象,通过对它们的长度、频率等特征进行比较,决定是否删去其中的一个词。
1)检测词的稳定度
在新词发现机制中,本文已经介绍了词的稳定度这个概念,它的计算公式如下:
stability ( w ) = MI ( S ) = f ( S ) f ( S L ) + f ( S R ) - f ( S ) 公式(2)
由于新词是由几个连续的字所组成的,而稳定度是衡量这个字串是否一个词的重要指标,它指示这个字串中的字是经常出现还是偶然、碰巧地连在一起。而本方法在生成候选词时使用了二元文法及三元文法的潜在词性模式来合成名词或短语,方法需要衡量这个合成出来的字串是否一个词,参考了前面定义的稳定度,我们也用了这个准则来衡量这些合成词的稳定度,但公式中的SL及SR的定义和原式的有所不同。对于二元的合成词,设它的模式为“word1+word2”,则SL=word1,SR=word2。对于三元的合成词,设它的模式为“word1+word2+word3”,则SL=word1+word2,SR=word2+word3。
如新词发现里所述,稳定度的要求和字串的长度相关,越长的字串,它的稳定度要求越严格。我们把候选词的二元及三元文法中的长度大于5且稳定度少于0.8的词删掉。对于稳定度少于0.5且其他特征过弱(如词频太低,或是没有在标题或第一段中出现)的词也会删掉。
2)字符重叠
这步骤是检测最高分值的5个词是否有互相包含的关系。如果有,则会根据具体情况,通过对它们的长度、频率等特征进行比较,决定是否删去其中的一个词。假设现有存在重叠或包含现象的两,其中长度值较大的词简称为长词,长度值较小的词简称为短词,判断的具体准则如下:
a)被引用强调的词优先保留,
b)若长词的特征分值高于短词的特征分值:
-保留长词
-若(长词被强调引用)&&(长词的词频小于短词的词频)&&(短词的长度值大于1)&&(长词为一元文法的词),则短词也被保留,其中“&&”为表示“并且”的符号;
c)若短词的特征分值高于长词的特征分值:
-若(短词的长度值等于1)||(长词被强调引用)||(短词是实体关键词或主题关键词)||(长词的词频小于短词的词频),则保留长词,去掉短词,其中“||”为表示“或者”的符号;否则:
-若长词是通过新词发现找到的,或是三元文法的词,则去掉长词;否则:
-同时保留长词和短词。
除此之外,属性关键词的要求会比实体关键词及主题关键词的要求严格。如属性关键词在文集里总频率过低,特征性过弱或者特征为0,稳定度或分数过低,则也会被从候选词列表中移除。
在整个结果优化阶段,不合格的词会被删除,分数比它低的候选词排名会向前移一位,新进前五的候选词继续被检查。最后,直到最高分的五个候选词均附合要求或再没有候选词时,剩下的词则为关键词。
整个关键词抽取系统的框图可参考图1所示。
利用上述步骤(1)-(6),创建了一个从新闻文本中抽取出关键词的系统。本发明所有实验用Java编程实现,测试页面使用了html及jsp,并在配置为Intel PM1400MHZ,768M内存的笔记本电脑上运行。硬件结构图如图2所示。
(1)文本集及测试集的建立
我们收集了27612篇覆盖不同范畴的新闻文本作为文本集,用于进行新闻文本分析,及统计关键词的潜在词性模式、w.ctf和termsum。
期后,我们从中删除一些不合格新闻文本(只有新闻标题、改稿通知、新闻目录等),最后得到19947篇新闻作为测试集I。在测试集I中,随机选取400篇新闻文本作为测试集II,手工抽取并标记它们的关键词。标记关键词的数目一般为5,个别信息量少的文本可根据情况少标一些,但关键词的数目至少为3。测试集I及II将作为本发明的效果评估实验的实验集。
(2)抽取方法实施
这里以文本库中的一篇新闻文本作为例子说明抽取的步骤(注:此新闻源自新华社,新闻全文可参考此链接:http://www.cnwnc.com/20050421/ca1561711.htm),图3是用作观察抽取结果的web页面,抽取效果如图所示,步骤如下:
1)提取候选词集,并进行特征计算
根据本发明的方法,对图3中的新闻文本进行分词及标注后,初步提取出的候选词集如下:
一元候选词:网络 实验室 开 放式 体现 系统 技术 全球状态 相当 围绕工程汽车 优越性 合作 建立 人才 目前 中国 原型 智能 大学 近期 院长 参与 应用 展开 Windows 力量 总裁 专业 交通 重要性 同济 通讯 设备 开始 储备形成 开发 嵌入 研发 建设 车辆 快速 中心 终端 车载 服务 推动 软件 培训培养 Embedded 研究院 放在 科研 监控 研究 重心 电子 发展 新兴 环境 无缝 透露 CE 致力 亚洲 课程 信息 计算 选择 具备 共建 课题 能力 关键 学院 表示 高层次 需求 双方 跨学科 移动 未来 日前
二元候选词:科研能力 是全球 大学电子 WindowsEmbedded 同济大学 科研重心系统研究 软件学院 课程建设 人才储备 软全球 研究院院长 开放式实验室 和人才 无缝计算 设备需求 沈向洋 计算环境 关键技术 亚洲研究院 网络技术 汽车学院 交通信息 研发力量 专业人才 技术中心 状态监控 移动交通 监控系统Windows 移动 WindowsCE 智能设备 车辆状态 张亚勤 工程学院 信息工程 和重要性 快速发展 近期科研 嵌入式 大学共建 新兴应用 合作建立 车 载终端 信息系统
三元候选词:状态监控系统 无缝计算环境 移动交通信息 近期科研重心 车辆状态监控 信息系统研究 亚洲研究院院长 交通信息系统 同济大学共建 信息工程学院 同济大学电子
2)标题挖掘,提取出新词“微软”
3)进一步筛选候选词及对各词评分,得到候选词排名
排名列表如图3中关键词抽取结果中最左一列所示(只列出了部分,排名在后的在页面下方,向下滚动即可查看),该列中已把多元词及新词加入进去,每个词后面列出了若干特征,顺序是词性、w.tf、w.ctf、特征分数、是否在标题中出现(1位,0或1)、是否被引用强调(1位,0或1)、是否完整(true或false)及它的稳定度,另有一些特征没有列出。
4)结果优化及关键词输出
排名最前的五个词中,词频、完整性及稳定度(其中,外文windows作为一个单词)等都符合要求,相互之间也没有重叠,结果优化后,最后的关键词抽取结果为“嵌入式”、“微.软”、“技术中心”、“Windows”及“同济大学”。与文本的主题贴切,均可被视为正确的关键词。其中包括二元词“嵌入式”、“技术中心”及“同济大学”,外文一元词“Windows”及新词“微软”。
为了评测我们发明的新闻文本关键词抽取方法,我们设计了如下的实验,其中,实验的文本集构成在上文中已说明。
(3)实验衡量的准则
我们以查准率precision、查全率recall和F1-Measure来评价实验结果,具体定义如下:
查准率precision:P=系统正确抽取的关键词数目/系统抽取出的关键词数目
查全率recall:R=系统正确抽取的关键词数目/标准关键词的数目
F1-Measure:F1=2PR/(P+R)
(4)实验结果
我们首先在测试集I上执行程序,得到关键词的分布结果,如表4所示。该表表明:超过75%的关键词来自一元文法模型,通过二元和三元文法得到的占了18.59%的关键词。而通过新词挖掘得到的关键词大约有6%。这表明我们采用的多元文法模型抽取及新词挖掘方法是有理及有效的。
表4.测试集I的关键词分布情况
    一元文法     二元文法     三元文法     引用强调 新词 总数
  关键词数 72601 16372 1531 1069 4700 96273
  占百分比 75.41% 17.00% 1.59% 1.11% 4.88% 1 00%
  关键词/文本 3.6397 0.8208 0.0768 0.0536 0.2356 4.8264
其后,我们在测试集II上执行程序,并将结果与Baseline方法进行比较,这里的Baseline方法即基于tf/idf的传统方法。这样可以通过实验得出我们的方法使用的各种策略对结果提高了多少。Baseline方法的计算公式如公式2所示,且不涉及多元文法、新词发词及结果优化。表5则是两种方法的评测结果。
baseline ( w ) = ( w . tf ) * ln termSum w . ctf 公式(3)
表5.与baseline的结果比较
方法 查准率 查全率 F1-measure 方法 查准率 查全率 F1-measure
Baseline 59.00% 11.81% 我们的方法 88.50% 17.74%
57.63% 23.09% 84.63% 33.90%
55.42% 33.30% 81.92% 49.21%
52.08% 41.68% 78.45% 62.84%
49.17% 49.19% 49.18% 74.16% 74.19% 74.18%
在表5中有两组实验结果分别对应两种方法,每一组结果列出了抽取不同关键词数目(从上到下,由1到5)的查准率和查全率,F1-measure则只列出了抽取5个关键词时的结果。对比baseline,我们的方法能有效地提高关键词抽取的查准率及查全率,在抽取关键词数目为5时,F1-measure由49.18%增加至74.18%。
另外,我们也就方法的时间开销问题单独做过实验,实验证明我们的方法与Baseline方法的效率相当,策略的引入并没有导致过大的时间开销。
结论
从实验结果可以看出,我们的方法在实验集中明显优于baseline方法。实验表明,我们提出的新闻文本关键词抽取的方法是切实有效的。

Claims (1)

1.一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤:
步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式:
步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词;
步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;
步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下:
步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注;
步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;
步骤(2.3)分别采用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2)所述词性模式的词,作为候选关键词;
步骤(3)计算机为步骤(2)得到的每个候选关键词w按以下方法计算出下述八个特征值:
词频:分别以三个特征值w.tf、w.ctf、termSum表示:
w.tf:w在所在新闻文本中的出现次数,其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;
w.ctf:w在所述某个新闻文本集中出现的总次数;
termSum:在所述某个新闻文本集中,基于该词w所属文法的一元/二元/三元文法字的词频总和;
文本位置:分别用w.inTitle及w.inFirst表示,其中:
w.inTitle:表示词w是否在新闻的标题中出现,w.inTitle=0表是否,w.inTitle=1表是肯定;
w.inFirst:表示词w是否在所在新闻文本的第一段中出现,w.inFirst=0表是否,w.inFirst=1表是肯定;
词性:用w.POS表示,指词w的词性;
形态:分别用w.quo、w.sign表示,其中:
w.quo:表示引用强调,是指词w是否被包括引号、书名号在内的符号括起来,w.quo=0表是否,w.quo=1表是肯定;
w.sign:表示词w的长度,按式Se(w)=g(x)计算得出,其中x为字词的长度,g(1)=0;当2≤x≤8时,g(x)=log2x;当x>8时,g(x)=3;
步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下:
步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;
步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理:
步骤(4.2.1)设定以下四个识别检测的指标:
最大重复:设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S’的频率均小于S的频率,则S是最大重复的;
完整:设p1,p2,...,pk为字串S在文本T中出现的k个不同位置,当且仅当下列条件同时成立时,S是完整的;
1)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pi-1)个字与第(pj-1)个字不同;
2)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pj+|S|)个字与第(pj+|S|)个字不同,其中|S|为字串S的长度值;
稳定度:设S=”c1c2......cp”,则S的稳定度定义为 MI ( S ) = f ( S ) f ( S L ) + f ( S R ) - f ( S ) , SL=”c1c2......cp-1”,SR=”c2......cp”,f(S),f(SL),f(SR)分别是S,SL,SR在潜在关键词所在文本中出现的频率;
相对频率:设S是潜在关键词文本中的一个字串,则S的相对频率为
Figure S2007101770742C00031
w为该文本中所出现的所有词。f(W)为词w在该文本中出现的频率;
步骤(4.2.2)根据以下4个必须同时满足的条件,把标题中的潜在关键词字串挖掘出来:
1)不能是单个字;
2)必须是最大重复的和完整的;
3)稳定度至少为t。当字符数为2时,t=0.38;当字符数为3时,t=0.67;该字符数有其他值时,t=0.8;
4)频率至少为3,相对频率大于等于0.021;
然后,把潜在关键词作为候选词,加入到关键词候选集中,把这些潜在关键词的特征值算出,对标题中其他已被ICTCLAS分词工具发现的及不适合的词去掉;
步骤(5)计算机按下式进行特征拟合,根据计算出的特征分值score(w)得出候选关键词的排名次序:
所有候选关键词集合中,各个关键词的特征分值score(w)按下式算出:
score ( w ) = ( w . tf ) t 1 * ( 1 + Σ fi ∈ F w . fi * t fi ) * ln termSum t 2 w . ctf t 3
其中:t1,t2和t3分别是w.tf,termSum和w.ctf的权重,具体为t1=0.99,t2=1.0,t3=0.95;
F={inTitle,quo,inFirst,sign}是一组特征;
w.inTitle的权重tinTitle=2.3;
w.quo的权重tquo=2.3;
w.inFirst的权重tinFirst=0.01;
w.sign的权重tsign=0.85;
w.fi为F中的某一特征;
t.fi为相应特征w.fi的权重;
从而得到各项候选词的一个特征分值score(w);
步骤(6)计算机优化结果,得出关键词:
步骤(6.1)对特征分值最高的5个关键词按下述方法进行评测;
步骤(6.2)删除单项特征过低,以及存在包含或重复现象的关键词,使最终所得关键词保持各项特征分值均达到优良;
步骤(6.2.1)稳定度的要求和字串的长度相关,越长的字串,它的稳定度要求越严格,检测词的稳定度,按照下述标准删除稳定度过低的词;
1)候选词的二元及三元文法中的长度大于5且稳定度少于0.8的词;
2)稳定度少于0.5且词频太低,或是没有在标题或第一段中出现的词;
步骤(6.2.2)检测关键词之间是否存在重叠或包含的现象,如果存在,则会根据下述标准决定是否删去其中的一个词,为了便于叙述,在这里我们统称存在重叠或包含现象的两词中长度值较大的词为长词,长度值较短的词为短词;
1)被引用强调的词优先保留,
2)若长词的特征分值高于短词的特征分值:
a)保留长词;
b)若长词被引用强调,长词的词频小于短词的词频,短词的长度大于1,长词为一元文法的词,以上四个条件同时成立时,则短词也被保留;
3)若短词的特征分值高于长词的特征分值:
a)若短词的长度等于1,长词被引用强调,短词是实体关键词或主题关键词,长词的词频小于短词的词频,以上四个条件中任意某一条件成立时,则保留长词,去掉短词;否则:
b)若长词是通过新词发现找到的,或是三元文法的词,则去掉长词;否则:
c)同时保留长词和短词;
步骤(6.3)把特征分值次低的关键词前移一位,重新执行步骤(6.2),直到最高特征分值的5个关键词同时满足要求或无候选关键词为止。
CNB2007101770742A 2007-11-09 2007-11-09 一种基于词频和多元文法的新闻关键词抽取方法 Expired - Fee Related CN100520782C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101770742A CN100520782C (zh) 2007-11-09 2007-11-09 一种基于词频和多元文法的新闻关键词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101770742A CN100520782C (zh) 2007-11-09 2007-11-09 一种基于词频和多元文法的新闻关键词抽取方法

Publications (2)

Publication Number Publication Date
CN101196904A true CN101196904A (zh) 2008-06-11
CN100520782C CN100520782C (zh) 2009-07-29

Family

ID=39547321

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101770742A Expired - Fee Related CN100520782C (zh) 2007-11-09 2007-11-09 一种基于词频和多元文法的新闻关键词抽取方法

Country Status (1)

Country Link
CN (1) CN100520782C (zh)

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808210A (zh) * 2009-02-18 2010-08-18 索尼公司 信息处理设备、信息处理方法和程序
CN101872363A (zh) * 2010-06-24 2010-10-27 北京邮电大学 一种抽取关键词的方法
CN102073647A (zh) * 2009-11-23 2011-05-25 北京科技大学 一种面向e-Science环境的多领域Web文本特征抽取系统及方法
CN102207947A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种直接引语素材库的生成方法
CN102332133A (zh) * 2011-07-22 2012-01-25 深圳市财富万方信息技术有限公司 一种应用电子标签的虚拟物品交易方法及系统
CN102467548A (zh) * 2010-11-15 2012-05-23 腾讯科技(深圳)有限公司 一种新词的识别方法及系统
CN101645083B (zh) * 2009-01-16 2012-07-04 中国科学院声学研究所 一种基于概念符号的文本领域的获取系统及方法
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法
CN102890674A (zh) * 2011-07-18 2013-01-23 阿里巴巴集团控股有限公司 一种查询词的处理方法和装置
CN101321190B (zh) * 2008-07-04 2013-01-30 清华大学 一种异构网络中的推荐方法及推荐系统
CN101763424B (zh) * 2009-12-14 2013-03-06 刘二中 根据文件内容确定特征词并用于检索的方法
CN103218368A (zh) * 2012-01-20 2013-07-24 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN103514213A (zh) * 2012-06-28 2014-01-15 华为技术有限公司 词语提取方法及装置
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN103678355A (zh) * 2012-09-11 2014-03-26 富士通株式会社 文本挖掘方法和文本挖掘装置
CN103885989A (zh) * 2012-12-24 2014-06-25 腾讯科技(武汉)有限公司 预估新词文档频率的方法及装置
CN103886051A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于实体及特征的评论分析方法
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
US8849798B2 (en) 2009-01-22 2014-09-30 Alibaba Group Holding Limited Sampling analysis of search queries
CN104182549A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种电子邮件摘要生成方法及装置
CN104915359A (zh) * 2014-03-14 2015-09-16 华为技术有限公司 主题标签推荐方法及装置
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN105589847A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 带权重的文章标识方法和装置
WO2016082092A1 (en) * 2014-11-25 2016-06-02 Yahoo! Inc. Method and system for analyzing user agent string
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法
CN106503101A (zh) * 2016-10-14 2017-03-15 五邑大学 电商客服自动问答系统语句关键词提取方法
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107544958A (zh) * 2017-07-12 2018-01-05 清华大学 术语抽取方法和装置
CN107918818A (zh) * 2016-10-10 2018-04-17 香港纺织及成衣研发中心有限公司 基于大数据技术的供应链管理决策支持系统
WO2018086470A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 关键词提取方法、装置和服务器
US10025847B2 (en) 2014-11-25 2018-07-17 Oath Inc. Method and system for providing a user agent string database
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108875065A (zh) * 2018-07-02 2018-11-23 电子科技大学 一种基于内容的印尼新闻网页推荐方法
CN109344402A (zh) * 2018-09-20 2019-02-15 中国科学技术信息研究所 一种新术语自动发现识别方法
CN109408819A (zh) * 2018-10-16 2019-03-01 武大吉奥信息技术有限公司 一种基于自然语言处理技术的核心地名提取方法及装置
CN110008309A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
CN110019834A (zh) * 2017-10-16 2019-07-16 百度在线网络技术(北京)有限公司 一种标注文字链的方法、装置、服务器及介质
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110852097A (zh) * 2019-10-15 2020-02-28 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN111476025A (zh) * 2020-02-28 2020-07-31 开普云信息科技股份有限公司 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
CN111858908A (zh) * 2020-03-03 2020-10-30 北京市计算中心 一种摘报文本生成方法、装置、服务器及可读存储介质
WO2021027085A1 (zh) * 2019-08-15 2021-02-18 苏州朗动网络科技有限公司 文本关键词自动提取的方法、设备和存储介质
CN112420026A (zh) * 2019-08-23 2021-02-26 微软技术许可有限责任公司 优化关键词检索系统
CN112668321A (zh) * 2020-12-29 2021-04-16 竹间智能科技(上海)有限公司 关键词提取方法及装置、电子设备、存储介质
CN113449073A (zh) * 2021-06-21 2021-09-28 福州米鱼信息科技有限公司 一种关键词的选取方法及系统
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN115066679A (zh) * 2020-03-25 2022-09-16 苏州七星天专利运营管理有限责任公司 一种提取专业领域内的自造术语的方法及系统
CN117391071A (zh) * 2023-12-04 2024-01-12 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823803B (zh) * 2012-11-16 2018-12-07 腾讯科技(深圳)有限公司 一种关键词筛选的方法、装置和设备

Cited By (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321190B (zh) * 2008-07-04 2013-01-30 清华大学 一种异构网络中的推荐方法及推荐系统
CN101645083B (zh) * 2009-01-16 2012-07-04 中国科学院声学研究所 一种基于概念符号的文本领域的获取系统及方法
US8849798B2 (en) 2009-01-22 2014-09-30 Alibaba Group Holding Limited Sampling analysis of search queries
CN101808210A (zh) * 2009-02-18 2010-08-18 索尼公司 信息处理设备、信息处理方法和程序
CN102073647B (zh) * 2009-11-23 2013-12-11 北京科技大学 一种面向e-Science环境的多领域Web文本特征抽取系统及方法
CN102073647A (zh) * 2009-11-23 2011-05-25 北京科技大学 一种面向e-Science环境的多领域Web文本特征抽取系统及方法
CN101763424B (zh) * 2009-12-14 2013-03-06 刘二中 根据文件内容确定特征词并用于检索的方法
CN101872363A (zh) * 2010-06-24 2010-10-27 北京邮电大学 一种抽取关键词的方法
CN102207947A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种直接引语素材库的生成方法
CN102207947B (zh) * 2010-06-29 2013-05-15 天津海量信息技术有限公司 一种直接引语素材库的生成方法
CN102467548A (zh) * 2010-11-15 2012-05-23 腾讯科技(深圳)有限公司 一种新词的识别方法及系统
CN102467548B (zh) * 2010-11-15 2015-09-16 腾讯科技(深圳)有限公司 一种新词的识别方法及系统
CN102890674A (zh) * 2011-07-18 2013-01-23 阿里巴巴集团控股有限公司 一种查询词的处理方法和装置
CN102890674B (zh) * 2011-07-18 2015-12-02 阿里巴巴集团控股有限公司 一种查询词的处理方法和装置
CN102332133A (zh) * 2011-07-22 2012-01-25 深圳市财富万方信息技术有限公司 一种应用电子标签的虚拟物品交易方法及系统
CN103218368A (zh) * 2012-01-20 2013-07-24 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN103218368B (zh) * 2012-01-20 2016-03-30 深圳市腾讯计算机系统有限公司 一种挖掘热词的方法与装置
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法
CN103514213B (zh) * 2012-06-28 2016-12-21 华为技术有限公司 词语提取方法及装置
CN103514213A (zh) * 2012-06-28 2014-01-15 华为技术有限公司 词语提取方法及装置
CN103678355A (zh) * 2012-09-11 2014-03-26 富士通株式会社 文本挖掘方法和文本挖掘装置
CN103678355B (zh) * 2012-09-11 2017-03-01 富士通株式会社 文本挖掘方法和文本挖掘装置
CN103885989A (zh) * 2012-12-24 2014-06-25 腾讯科技(武汉)有限公司 预估新词文档频率的方法及装置
CN103885989B (zh) * 2012-12-24 2017-12-01 腾讯科技(武汉)有限公司 预估新词文档频率的方法及装置
CN103235774B (zh) * 2013-04-27 2016-04-06 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN103631858B (zh) * 2013-10-24 2017-07-21 杭州电子科技大学 一种科技项目相似度计算方法
CN103886051A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于实体及特征的评论分析方法
CN104915359A (zh) * 2014-03-14 2015-09-16 华为技术有限公司 主题标签推荐方法及装置
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN104978320B (zh) * 2014-04-02 2018-11-02 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
CN104182549A (zh) * 2014-09-15 2014-12-03 中国联合网络通信集团有限公司 一种电子邮件摘要生成方法及装置
US11537642B2 (en) 2014-11-25 2022-12-27 Yahoo Assets Llc Method and system for providing a user agent string database
WO2016082092A1 (en) * 2014-11-25 2016-06-02 Yahoo! Inc. Method and system for analyzing user agent string
US11120004B2 (en) 2014-11-25 2021-09-14 Verizon Media Inc. Method and system for analyzing a user agent string
US10025847B2 (en) 2014-11-25 2018-07-17 Oath Inc. Method and system for providing a user agent string database
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105389341B (zh) * 2015-10-22 2019-04-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105335496B (zh) * 2015-10-22 2019-05-21 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN105589847B (zh) * 2015-12-22 2019-02-15 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN105589847A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 带权重的文章标识方法和装置
WO2017152802A1 (zh) * 2016-03-07 2017-09-14 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法
CN106445917B (zh) * 2016-09-23 2019-02-19 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法
CN107918818A (zh) * 2016-10-10 2018-04-17 香港纺织及成衣研发中心有限公司 基于大数据技术的供应链管理决策支持系统
CN107918818B (zh) * 2016-10-10 2022-01-21 香港纺织及成衣研发中心有限公司 基于大数据技术的供应链管理决策支持系统
CN106503101A (zh) * 2016-10-14 2017-03-15 五邑大学 电商客服自动问答系统语句关键词提取方法
WO2018086470A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 关键词提取方法、装置和服务器
CN108073568A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 关键词提取方法和装置
US10878004B2 (en) 2016-11-10 2020-12-29 Tencent Technology (Shenzhen) Company Limited Keyword extraction method, apparatus and server
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统
CN106970910B (zh) * 2017-03-31 2020-03-27 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107544958A (zh) * 2017-07-12 2018-01-05 清华大学 术语抽取方法和装置
CN107544958B (zh) * 2017-07-12 2020-02-18 清华大学 术语抽取方法和装置
CN110019834A (zh) * 2017-10-16 2019-07-16 百度在线网络技术(北京)有限公司 一种标注文字链的方法、装置、服务器及介质
CN108563636A (zh) * 2018-04-04 2018-09-21 广州杰赛科技股份有限公司 提取文本关键词的方法、装置、设备及存储介质
CN108875065A (zh) * 2018-07-02 2018-11-23 电子科技大学 一种基于内容的印尼新闻网页推荐方法
CN108875065B (zh) * 2018-07-02 2021-07-06 电子科技大学 一种基于内容的印尼新闻网页推荐方法
CN109344402A (zh) * 2018-09-20 2019-02-15 中国科学技术信息研究所 一种新术语自动发现识别方法
CN109408819A (zh) * 2018-10-16 2019-03-01 武大吉奥信息技术有限公司 一种基于自然语言处理技术的核心地名提取方法及装置
CN110008309A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
CN110008309B (zh) * 2019-03-21 2021-03-30 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
WO2021027085A1 (zh) * 2019-08-15 2021-02-18 苏州朗动网络科技有限公司 文本关键词自动提取的方法、设备和存储介质
CN112420026A (zh) * 2019-08-23 2021-02-26 微软技术许可有限责任公司 优化关键词检索系统
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
US11507882B2 (en) 2019-09-12 2022-11-22 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for optimizing training set for text classification and storage medium
CN110852097B (zh) * 2019-10-15 2022-02-01 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN110852097A (zh) * 2019-10-15 2020-02-28 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN111476025A (zh) * 2020-02-28 2020-07-31 开普云信息科技股份有限公司 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
CN111858908A (zh) * 2020-03-03 2020-10-30 北京市计算中心 一种摘报文本生成方法、装置、服务器及可读存储介质
CN115066679A (zh) * 2020-03-25 2022-09-16 苏州七星天专利运营管理有限责任公司 一种提取专业领域内的自造术语的方法及系统
CN115066679B (zh) * 2020-03-25 2024-02-20 苏州七星天专利运营管理有限责任公司 一种提取专业领域内的自造术语的方法及系统
CN112668321A (zh) * 2020-12-29 2021-04-16 竹间智能科技(上海)有限公司 关键词提取方法及装置、电子设备、存储介质
CN112668321B (zh) * 2020-12-29 2023-11-07 竹间智能科技(上海)有限公司 关键词提取方法及装置、电子设备、存储介质
CN113449073A (zh) * 2021-06-21 2021-09-28 福州米鱼信息科技有限公司 一种关键词的选取方法及系统
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN117391071A (zh) * 2023-12-04 2024-01-12 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质
CN117391071B (zh) * 2023-12-04 2024-02-27 中电科大数据研究院有限公司 一种新闻话题数据挖掘方法、装置及存储介质

Also Published As

Publication number Publication date
CN100520782C (zh) 2009-07-29

Similar Documents

Publication Publication Date Title
CN100520782C (zh) 一种基于词频和多元文法的新闻关键词抽取方法
Sharma et al. Prediction of Indian election using sentiment analysis on Hindi Twitter
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
Al-Hashemi Text Summarization Extraction System (TSES) Using Extracted Keywords.
CN103399901B (zh) 一种关键词抽取方法
Abujar et al. A heuristic approach of text summarization for Bengali documentation
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
Weir et al. Positing the problem: enhancing classification of extremist web content through textual analysis
CN113515939B (zh) 一种勘察报告文本关键信息提取系统和提取方法
CN110851714A (zh) 基于异构主题模型和词嵌入模型的文本推荐方法和系统
CN110209721A (zh) 判决文书调取方法、装置、服务器及存储介质
CN101853298B (zh) 一种面向事件的查询扩展方法
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111611404A (zh) 一种基于地质文本语料预测目标区矿产的方法
CN110008312A (zh) 一种文档写作助手实现方法、系统及电子设备
Jha et al. Hsas: Hindi subjectivity analysis system
CN106294315A (zh) 基于句法特性与统计融合的自然语言谓语动词识别方法
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN106126501A (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
CN112269852B (zh) 生成舆情专题方法、系统及存储介质
Bolea Language processes and related statistics in the posts associated to disasters on Social Networks
CN111767730B (zh) 一种事件类型识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090729

Termination date: 20101109