CN104298746A - 一种基于短语网络图排序的领域文献关键词提取方法 - Google Patents

一种基于短语网络图排序的领域文献关键词提取方法 Download PDF

Info

Publication number
CN104298746A
CN104298746A CN201410532681.6A CN201410532681A CN104298746A CN 104298746 A CN104298746 A CN 104298746A CN 201410532681 A CN201410532681 A CN 201410532681A CN 104298746 A CN104298746 A CN 104298746A
Authority
CN
China
Prior art keywords
phrase
keyword
node
score
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410532681.6A
Other languages
English (en)
Inventor
王厚峰
李广一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201410532681.6A priority Critical patent/CN104298746A/zh
Publication of CN104298746A publication Critical patent/CN104298746A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于短语网络图排序的领域文献关键词提取方法,首先对领域文献的文本进行预处理,将文本切分成词序列;然后基于DFAV统计量提取关键词候选短语,再构建短语网络;利用图排序算法对短语网络中的关键词候选短语进行排序,排名靠前的短语作为结果关键词。

Description

一种基于短语网络图排序的领域文献关键词提取方法
技术领域
本发明提供了一种领域关键词抽取方法,具体涉及一种通过DFAV统计量提取关键词候选短语及基于短语网络的图排序来提取关键词的方法,属于自然语言处理、信息检索领域。
背景技术
关键词是对文档内容和主题的浓缩,通常由几个词或者短语构成。关键词在信息检索、文本分类、知识挖掘等领域有着广泛应用。在当今信息爆炸式增长的时代,海量的文档已经超出人力在特定时间内所能浏览的范围。为了快速准确地获取所需信息,关键词就成为快速阅读海量数据的重要形式。
虽然很多专业文献(如论文)都有关键词,但仍然有大量的文献没有关键词。文献的关键词通常需要具有相关领域知识的人去标引,以保证关键词能够准确地反映文档的内容和主题。然而,随着各类文献的大量涌现,单纯依靠人工获取关键词已经十分困难;而且,人工提取的关键词标准难以统一,可能存在不规范或不能准确反映文本内容的现象。这就迫切需要一种自动提取文献关键词的技术。
发明内容
为了便于说明,首先约定下列概念:
关键词:能够表达文档主题思想的词或词组成的短语,一个文档的关键词通常不止一个。
关键词候选短语:可能作为文档关键词的词或短语。
DF(phr):词(或短语)phr的文档频率。即phr在文档集合的多少个文档中出现,出现过的文档数称为文档频率。
DFAV(phr):指在一个词(或短语)phr左侧(或右侧)出现过的所有词语的文档频率之和(或者频率的对数之和)。例如,若计算词(或短语)phr左边的DFAV(phr)(表示为DFAVL(phr)),先假定SL(phr)是phr在文档集合中左边的词的集合(类似地,可以用SR(phr)表示phr右边的词集合),按取频率的对数计算,则:
DFAV L ( phr ) = Σ Lphr ∈ S L ( phr ) log DF ( Lphr )
短语网络:指由词或者短语表示节点,边表示节点之间的关系而形成的图。
为描述方便,本文中词和词组成的短语不做严格区分,短语网络中的短语泛指词和词组成的短语。
本发明的目的是提供一种新方法,在无人工干预的情况下从领域文献中提取关键词。
本发明的原理是:首先,对文档(可以包括题目、摘要和正文,也可以只包括题目、摘要)进行预处理,然后,基于DFAV统计量,提取关键词候选短语,再构建短语网络,利用图排序算法对关键词候选短语进行排序,排名靠前的短语作为结果关键词。在计算中,会利用相同领域中已有关键词的文档中所有关键词的相关信息。
本发明对应的流程图参见图1,详细技术方案如下:
一种领域文献关键词提取方法,包括以下步骤:
1)通过DFAV统计量提取领域文献中的关键词候选短语;
2)基于候选短语及它们之间的关系,构建短语网络;
3)依据图排序算法,对短语网络中的每个短语计算一个表示重要程度的得分;
4)按短语得分进行排序,将重要程度高的短语输出,即为所提取的关键词。上述步骤1)提取关键词候选短语,具体执行如下操作(如图2):
A1.分别统计各短语在领域文献中所有出现位置左侧和右侧的词语集合;
A2.利用大规模语料,统计词语的文档频率,即DF值;
A3.依据领域内已知关键词的统计特性,剔除部分短语,例如:选取所有小于某一长度的短语,利用该领域内已有的关键词特性(如长度、构词特征)作为剔除依据;
A4.对于每个候选短语,求出它左侧出现过的词语的DF值之和,及它右侧出现过的词语的DF值之和(若DF值较大,可以取其对数),二者相乘作为该短语的DFAV得分;
A5.依据DFAV得分从高到低排序,得分高于某一阈值的短语即为关键词候选短语。
对于中文文献,在提取关键词候选短语前通常先对文本进行预处理,预处理主要包括切分词,还可以进一步包括词性标注,目的是将文本切分成词序列(如果是英语论文,则不必要切分词)。预处理之后计算DFAV,提取关键词候选短语。
获得关键词候选短语后,在步骤2)基于候选短语以及各候选短语之间的关系,构建短语网络。两个候选短语之间的关系可以是一定窗口大小内两者的共现关系,也可以是短语间的其他关系。
可以对短语网络进一步简化,将共现程度高的相邻词语进行合并,以降低图的复杂性,并减少结果出现部分重叠的现象。
构建短语网络后,在步骤3)首先需要计算边的权重。对于短语网络中的每一条边,根据对应的两个短语的特定属性,计算该边的权重。其属性可以是两个短语在文中的距离、短语的长度,或者其他属性。然后依据图排序算法,对每个短语计算一个表示重要程度的得分。图排序算法可以是经典的TextRank算法,也可以是其他排序算法。
如果已获得某些该领域内关键词的统计特征,如关键词出现频率、关键词长度等,利用这些特性对短语得分进行加权处理。
最后,在步骤4)将短语按重要程度的得分排序,将重要程度高的短语输出,即为所提取的关键词。
利用本发明提供的技术方案,可以将文献转换为短语网络,通过图排序的方法提取其中的关键词。
附图说明
图1是本发明的关键词提取流程图;
图2是本发明提取候选短语流程图;
图3是从候选短语提取关键词的流程图;
图4是实施例列举的短语连通图;
图5是实施例中针对图4的短语连通图构建的短语网络图;
图6是实施例中将图5所示的短语网络精简后的网络图。
具体实施方式
下面通过实例对本发明做进一步的说明。需要注意的是,公布实施例的目的在于帮助进一步理解本发明。在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于本实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
假定本例中,目标论文为一篇汉语科技类论文,需要提取的是该论文的关键词列表。
首先需要对论文(包括题目、摘要和正文)进行预处理。预处理包括切分词、词性标注(可选),目的是将论文切分成词序列(如果是英语论文,则不必要切分词)。
文档频率(DF)可以反映一个词语是否常用,越常用的词语,越可能在更多的文档中出现,即,文档频率就会越高;反过来,作为文献的关键词,应突显文献内容的特点,其文档频率相对较低。专业领域论文的关键词,大多是专业性词汇,在日常语境中较少使用。统计发现,科技论文中关键词出现的位置左右两侧通常是常用词,因而可以利用DFAV统计量提取关键词候选短语。
文档频率需要基于一个较大规模的文档集合计算,这里以中文Gigaword语料为例,统计每个词语出现在多少篇文档中。Gigaword是语言资源联盟LDC(Linguistic Data Consortium)提供的,主要包含了新华社的文稿。由于Gigaword规模大,文档频率值也较大。为了方便计算,对文档频率取对数操作。于是,定义左右DFAV值和短语的分数如下:
DFAV L ( phr ) = Σ Lphr ∈ S L ( phr ) log DF ( Lphr )
DFAV R ( phr ) = Σ Lphr ∈ S R ( phr ) log DF ( Lphr )
Score(phr)=DFAVL(phr)×DFAVR(phr)
计算DFAV值时,可以依据领域内已知关键词的统计特性,剔除部分短语,如:过短或过长的短语,以及从未作为关键词成分的常用词作为组成成分的短语,等等。这可以利用领域已知关键词的规律(如长度信息)作为剔除依据;计算出剩余短语的分数后,将分数超过某预定阈值的短语选出作为关键词候选短语。
基于关键词候选短语,可以构造短语的网络。两个短语之间的连接边可以由这两个短语在窗口内的共现关系确定,边的方向是由出现在前的短语指向出现在后的短语。以词语序列“辐射带电子通量模式研究”为例,假定候选短语包含了“电子通量”、“通量模式”、“电子通量模式”,则将这些短语和词汇一起构造短语连通图。如果两个候选短语相邻,那么就在二者之间连接一条边。据此构建的短语连通图如图4所示。
基于短语连通图可以建立短语网络。具体方法是,假如窗口大小为n(n为自然数),如果两个节点之间存在一条长度不大于n的有向路径(节点Vi到节点Vj的有向路径长度是指按照有向边的方向从节点Vi到节点Vj所经过的边的条数),那么就在两个节点间添加一个连接边,部分重叠的两个节点间不会有链接,比如“电子”、“电子通量”、“电子通量模式”之间都不会有链接。以窗口大小取n=2为例,针对图4的短语连通图构建的短语网络如图5所示。
短语网络进一步简化。如果两个词语的共现程度很高,比如词语“电子”和“通量”总是在该文档中同时出现,那么就将“电子”和“通量”结合在一起,作为一个短语,相应的,短语网络中“电子”和“通量”表示的节点和相关的路径都删除,只保留短语“电子通量”。于是,图5的短语网络图简化后如图6所示。可以看出网络得到明显简化。
构建短语网络后,需要计算边的权重。边的权重主要考虑两个因素:(1)节点间距离权重。定义distij为节点Vi和节点Vj在短语网络中的最短路径长度,距离权重为: 距离越长则权重越小。(2)头节点短语长度权重。以有向边的头节点(Vj)的长度为基础计算短语长度权重为:其中len(Vj)表示头节点(Vj)的短语长度,Nlen(Vj)表示在领域已知关键词集合中长度与len(Vj)相同的关键词频数,NMax是该关键词集合中,各长度中频数最高的值。于是,边eij的权重wij为上述两个权重的乘积,即wij=wdist(i,j)×wlen(Vj)。
有了短语网络,就可以利用图排序算法对每个短语的重要程度进行排序。以TextRank算法为例,定义有向图G=(V,E)为该短语网络,V为节点集合,E为有向边的集合。对节点Vi,定义In(Vi)为有边指向Vi的节点集合,Out(Vj)为Vj指向的节点集合,则节点Vi的得分WS(Vi)由如下公式计算,其中,d取值0~1之间:
WS ( V i ) = ( 1 - d ) + d * Σ V j ∈ In ( V i ) w ji Σ V k ∈ Out ( V j ) w jk WS ( V j )
上面公式中,wji表示边eji的权重(同样,wjk表示边ejk的权重)。TextRank可以通过迭代和矩阵运算得到稳定状态下每个短语的得分。得到分数后,可以依据领域内已知关键词的频率对得分进行调整,频率高的关键词短语得分相应地提升。假设phr在已知关键词中出现的次数为freq(phr),则权重对短语phr的TextRank得分乘上wf得到最终分数。将调整后的得分由高到低排序,输出关键词结果。

Claims (9)

1.一种领域文献关键词提取方法,包括以下步骤:
1)通过DFAV统计量提取领域文献中的关键词候选短语;
2)基于候选短语及它们之间的关系,构建短语网络;
3)依据图排序算法,对短语网络中的每个短语计算一个表示重要程度的得分;
4)按短语得分进行排序,将得分高的短语输出,即为所提取的关键词。
2.如权利要求1所述的领域文献关键词提取方法,其特征在于,所述步骤1)包括如下操作:
A1.分别统计各短语在领域文献中所有出现位置左侧和右侧的词语集合;
A2.利用大规模语料,统计词语的文档频率,即DF值;
A3.依据领域内已知关键词的统计特性,剔除部分短语;
A4.对于剩余的每个候选短语,求出它左侧出现过的词语的DF值或其对数之和,及它右侧出现过的词语的DF值或其对数之和,将两个和相乘作为该短语的DFAV得分;
A5.依据DFAV得分从高到低对短语排序,得分高于某一阈值的短语即为关键词候选短语。
3.如权利要求2所述的领域文献关键词提取方法,其特征在于,步骤A2所述大规模语料是中文Gigaword语料。
4.如权利要求1所述的领域文献关键词提取方法,其特征在于,在提取关键词候选短语前对文本进行预处理,将文本切分成词序列。
5.如权利要求1所述的领域文献关键词提取方法,其特征在于,步骤2)中两个候选短语之间的关系是指一定窗口大小内两者的共现关系,构建短语网络的步骤是:
2-1)基于候选短语构建短语连通图:在两个相邻候选短语之间连接一条边,边的方向是由出现在前的短语指向出现在后的短语;
2-2)基于短语连通图建立短语网络:在短语联通图的基础上,以短语表示节点,边表示节点之间的关系,假如窗口大小为n,如果两个节点之间存在一条长度小于n的有向路径,那么就在两个节点间添加一个连接边,部分重叠的两个短语节点间没有链接,其中n为自然数,节点Vi到节点Vj的有向路径长度是指按照有向边的方向从节点Vi到节点Vj所经过的边的条数;
2-3)简化短语网络:将共现程度高的相邻词语进行合并。
6.如权利要求1所述的领域文献关键词提取方法,其特征在于,步骤3)首先对于短语网络中的每一条边,根据对应的两个短语的特定属性,计算该边的权重;然后依据图排序算法,对每个短语计算一个表示重要程度的得分。
7.如权利要求6所述的领域文献关键词提取方法,其特征在于,边的权重是节点间距离权重和头节点短语长度权重的乘积,即wij=wdist(i,j)×wlen(Vj);其中节点间距离权重distij为节点Vi和节点Vj在短语网络中的最短路径长度;头节点短语长度权重其中len(Vj)表示头节点Vj的短语长度,Nlen(Vj)表示在领域已知关键词集合中长度与len(Vj)相同的关键词频数,NMax是该关键词集合中各长度中频数最高的值。
8.如权利要求7所述的领域文献关键词提取方法,其特征在于,所述图排序算法是TextRank算法,定义有向图G=(V,E)为所述短语网络,V为节点集合,E为有向边的集合;对节点Vi,定义In(Vi)为有边指向Vi的节点集合,Out(Vj)为Vj指向的节点集合,则节点Vi的得分WS(Vi)由如下公式计算:
WS ( V i ) = ( 1 - d ) + d * Σ V j ∈ In ( V i ) w ji Σ V k ∈ Out ( V j ) w jk WS ( V j )
其中,d取值0~1之间。
9.如权利要求8所述的领域文献关键词提取方法,其特征在于,依据领域内已知关键词的频率对短语得分进行调整:假设phr在已知关键词中出现的次数为freq(phr),则权重对短语phr的TextRank得分乘上wf得到短语的最终得分。
CN201410532681.6A 2014-10-10 2014-10-10 一种基于短语网络图排序的领域文献关键词提取方法 Pending CN104298746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410532681.6A CN104298746A (zh) 2014-10-10 2014-10-10 一种基于短语网络图排序的领域文献关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410532681.6A CN104298746A (zh) 2014-10-10 2014-10-10 一种基于短语网络图排序的领域文献关键词提取方法

Publications (1)

Publication Number Publication Date
CN104298746A true CN104298746A (zh) 2015-01-21

Family

ID=52318471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410532681.6A Pending CN104298746A (zh) 2014-10-10 2014-10-10 一种基于短语网络图排序的领域文献关键词提取方法

Country Status (1)

Country Link
CN (1) CN104298746A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933032A (zh) * 2015-06-29 2015-09-23 电子科技大学 一种基于复杂网络的博客关键词提取方法
CN105740229A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 关键词提取的方法及装置
CN106776678A (zh) * 2016-11-02 2017-05-31 四川用联信息技术有限公司 新的关键词优化实现搜索引擎优化技术
CN107391690A (zh) * 2017-07-25 2017-11-24 李小明 一种处理文献信息的方法
CN107451168A (zh) * 2016-05-30 2017-12-08 中华电信股份有限公司 基于词汇统计的档案分类系统及方法
CN107544958A (zh) * 2017-07-12 2018-01-05 清华大学 术语抽取方法和装置
CN108897737A (zh) * 2018-06-28 2018-11-27 中译语通科技股份有限公司 一种基于大数据分析的核心语汇专题构建方法及系统
CN112307155A (zh) * 2019-07-23 2021-02-02 慧科讯业有限公司 针对互联网中文文本的关键词提取方法和提取系统
CN114186557A (zh) * 2022-02-17 2022-03-15 阿里巴巴达摩院(杭州)科技有限公司 主题词确定方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
WO2008096992A1 (en) * 2007-02-09 2008-08-14 Netpia.Com, Inc. System and method for providing search service by keywords
US20110060747A1 (en) * 2009-07-02 2011-03-10 Battelle Memorial Institute Rapid Automatic Keyword Extraction for Information Retrieval and Analysis
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008096992A1 (en) * 2007-02-09 2008-08-14 Netpia.Com, Inc. System and method for providing search service by keywords
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
US20110060747A1 (en) * 2009-07-02 2011-03-10 Battelle Memorial Institute Rapid Automatic Keyword Extraction for Information Retrieval and Analysis
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁伟明: ""中文关键词提取技术"", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933032A (zh) * 2015-06-29 2015-09-23 电子科技大学 一种基于复杂网络的博客关键词提取方法
CN105740229A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 关键词提取的方法及装置
CN105740229B (zh) * 2016-01-26 2018-05-11 中国人民解放军国防科学技术大学 关键词提取的方法及装置
CN107451168A (zh) * 2016-05-30 2017-12-08 中华电信股份有限公司 基于词汇统计的档案分类系统及方法
CN107451168B (zh) * 2016-05-30 2023-08-04 台湾中华电信股份有限公司 基于词汇统计的档案分类系统及方法
CN106776678A (zh) * 2016-11-02 2017-05-31 四川用联信息技术有限公司 新的关键词优化实现搜索引擎优化技术
CN107544958B (zh) * 2017-07-12 2020-02-18 清华大学 术语抽取方法和装置
CN107544958A (zh) * 2017-07-12 2018-01-05 清华大学 术语抽取方法和装置
CN107391690A (zh) * 2017-07-25 2017-11-24 李小明 一种处理文献信息的方法
CN107391690B (zh) * 2017-07-25 2020-03-31 李小明 一种处理文献信息的方法
CN108897737A (zh) * 2018-06-28 2018-11-27 中译语通科技股份有限公司 一种基于大数据分析的核心语汇专题构建方法及系统
CN112307155A (zh) * 2019-07-23 2021-02-02 慧科讯业有限公司 针对互联网中文文本的关键词提取方法和提取系统
CN114186557A (zh) * 2022-02-17 2022-03-15 阿里巴巴达摩院(杭州)科技有限公司 主题词确定方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104298746A (zh) 一种基于短语网络图排序的领域文献关键词提取方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Jain et al. Application of machine learning techniques to sentiment analysis
CN102930055B (zh) 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN105335352A (zh) 基于微博情感的实体识别方法
US20140032207A1 (en) Information Classification Based on Product Recognition
CN105808526A (zh) 商品短文本核心词提取方法和装置
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN103473262B (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN109739986A (zh) 一种基于深度集成学习的投诉短文本分类方法
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN110909160A (zh) 正则表达式生成方法、服务器及计算机可读存储介质
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN103914494A (zh) 一种微博用户身份识别方法及系统
CN103927302A (zh) 一种文本分类方法和系统
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN104899230A (zh) 舆情热点自动监测系统
WO2023071118A1 (zh) 一种计算文本相似度的方法、系统、设备和存储介质
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN104967558A (zh) 一种垃圾邮件的检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150121

WD01 Invention patent application deemed withdrawn after publication