CN102314448A - 一种在文档中获得一个或多个关键元素的设备和方法 - Google Patents

一种在文档中获得一个或多个关键元素的设备和方法 Download PDF

Info

Publication number
CN102314448A
CN102314448A CN2010102181484A CN201010218148A CN102314448A CN 102314448 A CN102314448 A CN 102314448A CN 2010102181484 A CN2010102181484 A CN 2010102181484A CN 201010218148 A CN201010218148 A CN 201010218148A CN 102314448 A CN102314448 A CN 102314448A
Authority
CN
China
Prior art keywords
layer
weight
structural
extracted
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102181484A
Other languages
English (en)
Other versions
CN102314448B (zh
Inventor
谢宣松
姜珊珊
孙军
郑继川
赵利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN2010102181484A priority Critical patent/CN102314448B/zh
Priority to JP2011149434A priority patent/JP5733062B2/ja
Publication of CN102314448A publication Critical patent/CN102314448A/zh
Application granted granted Critical
Publication of CN102314448B publication Critical patent/CN102314448B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种在文档中获得一个或多个关键元素的方法和设备。该方法包括:抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;确定所述被抽取的结构元素与标题元素之间的全局权重;组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。

Description

一种在文档中获得一个或多个关键元素的设备和方法
技术领域
本申请一般涉及文本处理,且更具体地,涉及用于获得关键元素的文本处理。
背景技术
随着网络中出现的文档越来越多,越来越需要从各个文档中获得代表该文档信息的关键词或关键句子来便于搜索文档、生成文档摘要等等。人们已经越来越关注如何更准确地从文档中获得关键元素。获得的关键词或关键句子越准确,则通过该关键词或关键句子进行搜索得到所期望的文档的可能性越大,且通过该关键词或关键句子生成的文档摘要更确切地表示了文档的信息。
从文档中获得关键元素的一种传统的技术是TextRank(文本分级)方法,这在Rada Mihalcea和Paul Tarau的论文“TextRank:Bring Order into Texts”中可以找到相关描述,其全文被引用合并于此。TextRank模型从自然语言的文档中提取词或句子元素,然后将这些词或句子元素作为图的节点来打分,其基本思想是当一个节点链接到另一节点时,给该另一节点加一分。而且该节点的分值越高,该节点的重要程度越高。通过计算这些节点的最后分值来获得每个节点的重要程度,以便得到关键的词元素或关键的句子元素。但是,该TextRank方法只考虑同一类型(例如词或句子)的元素之间的链接关系,而不考虑不同类型的元素之间(例如,词和句子之间)的关系。通过这种方法计算的节点的分值不能更准确地表示该元素的重要程度,因此会导致通过关键词或关键句子搜索得不到想要得到的结果。
从文档中获得关键元素的另一传统的技术是在专利WO2006/001906,Graph-based ranking algorithms for text processing中提出的一种使用图来处理至少一种自然语言形式的文本的方法,其全部内容被引用附于此。该方法包括:从自然语言文本中确定同种类型(例如,词或句子)的多个文本单元,把这多个文本单元与多个图节点关联起来,并且确定至少两个文本单元之间的至少一个连接关系。但是,该专利主要关注于独立的句子与句子之间和字与字之间的关系,即同种类型的文本单元之间的关系,也不考虑句子和字之间的关系,因此同样,通过这种方法得到的同种类型的文本单元之间的关系也不能准确地表示该文本单元在整个文档中的重要程度,因此会导致通过关键词或关键句子搜索得不到想要得到的结果。
从文档中获得关键元素的另一传统的技术是Xiaojun Wan等的“Towardsan iterative reinforcement approach for simultaneous document summarizationand keyword extraction”.(ACL),2007中提出的一种关键词获得方法,其全部内容被引用附于此。该方法基于句子与词之间的关系。但是,该方法不考虑文档标题对文档中的句子和词的影响。而且该方法也不涉及其他文本元素(例如,区域、段落等)之内或之间的关系。因此同样,通过这种方法得到的同种类型的文本单元之间的关系也不能准确地表示该文本单元在整个文档中的重要程度。
因此,需要一种改进的、更准确地得到在文档中的文本元素的重要程度以便得到关键元素的方法和设备。
发明内容
关键元素获得和文本摘要都瞄准从文档中获得精准的能够代表该文的信息的关键元素。现有技术中的一般技术方案都是关注于使用独立的句子、词以及他们之间的关系。但是,文档的物理结构并没有充分地被挖掘。因此,现有技术中的获得关键元素的方案都不能准确地表示该文本元素在整个文档中的重要程度,因此所获得的关键元素不能恰当地代表整个文档的内容信息,从而导致无法通过该关键元素得到期望的文档搜索结果,也无法获得确切的文档摘要。
根据本申请的一个方面,提供一种在文档中获得一个或多个关键元素的方法,包括以下步骤:抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;确定所述被抽取的结构元素与标题元素之间的全局权重;组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。
根据本申请的另一方面,还提供一种在文档中获得一个或多个关键元素的设备,包括:抽取装置,抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;层内权重确定装置,确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;跨层权重确定装置,确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;全局权重确定装置,确定所述被抽取的结构元素与标题元素之间的全局权重;最后权重确定装置,组合被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及关键元素获得装置,根据所述一层中的被抽取的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。
因此,本申请可以实现更准确地计算文档中的结构元素的重要程度,从而更准确地得到文档中的关键结构元素,以便利用这些关键结构元素来进行一系列相关应用。
附图说明
图1示意性地示出了根据本发明的一个实施例的获得一个或多个关键元素的方法;
图2通过树结构示意性地示出了根据本发明的一种实施例、文档的结构元素的关系;
图3是示意性地具体示出了根据本发明的一种实施例、组合不同元素的层内权重、跨层权重和全局权重的整体算法图;
图4示意性地示出了根据本发明的一种实施例、建立词、字层的层内关系;
图5示意性地示出了根据本发明的一种实施例、计算层内权重时使用的TextRank的基于图的算法;
图6示意性地示出了根据本发明的一种实施例、计算跨层关系时使用的命中矩阵;以及
图7示意性地示出了根据本发明的一个实施例的获得一个或多个关键元素的设备。
具体实施方式
下面结合附图详细描述本发明的各个实施例。但是,注意,这些实施例仅是举例,而不是限制。
图1示意性地示出了根据本发明的一个实施例的获得一个或多个关键元素的方法100。该方法100包括步骤S101,抽取该文档的结构元素。如上所述,该结构元素可以包含标题元素。该文档可以包括多个结构上的层,这些结构上的层可以至少包含标题层。且每个结构元素对应于各自的层。该方法100还包括步骤S102,确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重。该方法100还包括步骤S103,确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重。该方法100还包括步骤S104,确定所述被抽取的结构元素与标题元素之间的全局权重。该方法100还包括步骤S105,组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重。该方法100还包括步骤S106,根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。
如此,可以通过组合结构元素的层内权重、跨层权重和全局权重以更准确地得到结构元素的重要性程度,从而可以更准确地获得一个或多个关键元素。
下面,描述根据本发明的一个实施例的获得一个或多个关键元素的具体流程。
为了便于描述而不意图限制,以下以树的结构来自然地表示文档的结构信息,这棵树中的每层可以分别代表标题、区域、段落、句子、词(和/或字)(其中,区域指的是以文档作为整体所划分的部分,其可以包括一个或多个段落;另外,词和字在中文表述里进行区分,而在英文等外文表述里不进行区分而统称为词,即在中文表述里字是文本的最小单位,而在外文表述里词是文本的最小单位,在此,为了最大的保护范围,本申请的描述中包括了在中文环境下的词和字,但是实际上在外文环境下,可以将词和字统称为词),这种层次关系同样透露很多有意义的信息。获得不同的层次中的关键元素并且把它们之间的关系整合起来考虑,更具合理性,可以得到更准确的关键元素重要性,得到的效果也更好。
此外,在一个联合模型中,获得不同种类的关键元素,并同时考虑同一层内的关系和不同层之间跨层的关系,这样的模型是有用而且是新颖的,因此下面详细描述基于树结构信息的获得一个或多个关键元素的一种具体方法。
图2通过例如树结构示出了文档中结构元素的关系。图2示意性地显示了文档中的4种层次、例如标题层、区域层、句子层、和词层。但是,这种层次结构仅是为了便于描述的目的,本申请显然不限于此。取决于所要获得的关键元素、获得关键元素的准确性或者其他要求,层次还可以只有3种层,例如标题层、句子层、和词层,或者更少。或者,层次还可以包括文档中的其他层次,例如段落层和字层等等。有时,根据文档的结构信息,还可以使用另外的层次、例如摘要层、图片层等等。
从图2中可以看到这里有两种类型的关系:同层之间的层内关系以及不同层之间的跨层关系。
在此实施例中,一些结构化的信息可以被假定而且能够被抽取:
√每个文档通常有个标题;
√每个文档通常由一系列区域组成;
√每个区域通常由一系列句子组成;
√每个句子通常由一系列词组成。
因此,图2中示出了4种层次关系、标题层、区域层、句子层、和词层。在这种情况下,层内的关系可以由位置关系、顺序关系,或者元素之间的相似度得到。
对跨层的关系来说,最自然的关系是在树中的父与子之间的关系,同样地,针对这种树中的关系可以有些假设:如果孩子在一个更为重要的父之下,那么他们也更为重要;如果父更为重要的话,那么在他们之下的孩子也相对更为重要。根据这个假设,可以知道:
√标题表达了一篇文档的相对重要的信息;
√如果句子在一个重要的区域中,那么这些句子也相对重要一些;
√如果区域包括了一些重要的句子,那么这个区域也相对重要一些;
√如果词在一个重要的句子中,那么这些词也相对重要一些;
√如果句子包括了一些重要的词,那么这个句子也相对重要一些。
以上是对评价一个结构元素的重要程度的一些假设,但是,可以存在其他的评价结构元素的重要程度的假设和推论。
图3是示意性地具体示出了组合不同元素的层内权重、跨层权重和全局权重的整体算法图。当然,这种算法只是根据本发明的一个实施例的一种具体的算法,仅是示例,而不是限制。
如图3中所示,对于区域、句子、词(和/或段落、字等)来说,步骤S201-S209是为了计算结构元素在同层内的层内权重,其中步骤S201、S202、S203计算同层的结构元素的初始权重;步骤S204、S205、S206建立结构元素在同层之内的层内关系;步骤S207、S208、S209计算同层的结构元素的层内权重。
步骤S210-S211是为了计算不同层的结构元素之间的跨层权重。
对于标题来说,标题是对应标题层的一个单独的节点,在步骤S212中,标题对所有下面的元素(包括区域、句子、词元素)有一个全局的加权关系。在这种情况下,标题是被当作一种查询条件来找到具有关系的文本元素。
层内权重的计算
下面具体描述区域、句子、词元素的层内权重的一个具体计算方法,其由以下步骤完成:
1.各结构元素的初始权重:
首先,可以给各个结构元素赋予初始权重(S201、S202、S203)。
区域元素或段落元素的初始权重可以与区域或段落的位置信息有关;句子元素的初始权重可以与该句子被其他句子引用的次数有关;而且/或者词或字的初始权重可以与该词或字的词性和/或出现频率有关。
具体地,对区域或段落来说,决定初始权重的可以是位置。不同的位置可以被赋予不同的经验的初始权重(S201);其中一种实施方式是:
·c(si)=1,如果位置在开始,或者结束,则为1,否则为0.5;
其中,c(si)指的是元素si的初始权重。显然,上述设置初始权重的方式不是唯一的,而是可以根据不同的情况来设置不同的初始权重计算方式。
对句子来说,先验的初始权重可以由该句子被其它句子引用的次数决定(S202),其中一种实施方式为:
·c(si)=log(e+cin)    ......公式(1)
·其中c(si)指的是元素si的初始权重,cin表示其他元素对元素si的引用次数,而引用次数则由该句的代表性词是在别的句子中出现。
显然,上述设置初始权重的方式不是唯一的,而是可以根据不同的情况来设置不同的初始权重计算方式。
对词/字来说,其初始权重可以根据词性的经验权重来决定(S203),如名词的重要程度高一些,为1.0,动态稍次,为0.7等。但是,其初始权重不限于此,还可以根据词/字出现的频率,或者预设值等来决定。也就是说,上述设置初始权重的方式不是唯一的,而是可以根据不同的情况来设置不同的初始权重计算方式。
2.层内关系链的权重的计算
在此,可以确定该结构元素与在其对应的层内的其他结构元素之间的层内关系链的权重。
对于区域元素、段落元素和句子元素,可以通过两个结构元素之间共同包含的词或字的数目和两个结构元素的词或字的总数来计算两个结构元素之间的层内关系链的权重。
具体地,对区域(或段落)和句子层来说,层内的关系链是由相似度决定的(S204,S205),其中一种计算方式如:
sim(ei,ej)=|{wk|wk∈ei & wk∈ej}|/(log(|ei|)+lig(|ej|)    ......公式(2)
其中,sim(ei,ei)表示元素ei和ej之间的相似度,ei和ej在树结构中是两个属性节点,一般是区域(或段落)或句子层内的一个短语或词,wk表示组成这个词的单词或字,log(|ei|)表示此属性节点有几个字,而|{wk|wk∈ei & wk∈ej}|则代表即属于ei又属于ej的字的数目。
如此,通过遍历区域(或段落)、或句子层内的所有短语或字,得到两个区域(或段落)、或句子之间的总相似度。当然,区域(或段落)和句子层的相似度还可以由其他已知方法来获得。另外,可以在相似度大于某个阈值的情况下决定两个元素之间具有层内关系。
对于词元素和字元素,则可以通过同层的两个结构元素同时出现在同一个预定大小的元素窗口内时之间的距离和该元素窗口的预定大小来计算两个结构元素在该元素窗口内的关系值,并可以通过这两个结构元素在整个文档中的各个元素窗口内的关系值之和来计算这两个结构元素在整个文档中层内关系链的权重。
具体地,对词、字层的关系链的建立而言,例如可以采用共现的方法(S206)。图4示出了建立词、字层的层内关系链的示意图:
·如果某些词/字在同一个预定大小的窗口内(典型地,大小为5),则认为这两个词/字之间存在关系。
·可以使用距离来计算两个词/字在该窗口内的关系值,其公式为:
·1-log d/log n    ......公式(3)
·其中d为两个元素的距离,n为窗口大小。
然后,可以遍历整个文档,以一个字为单位或多个字为单位移动该预设的窗口,并逐一计算某两个词/字在整个文档中所有窗口内的关系值,并求总和,以获得这两个词/字在整个文档中的层内关系链的权重。当然,显然上述公式不是限制性的,还可以使用其他公式来获得层内关系链的权重。
3.层内权重计算(排序)算法:
可以根据该结构元素的初始权重和其层内关系链的权重,确定结构元素在其对应的层内的层内权重。可以利用TextRank的基于图的算法,根据该结构元素的初始权重和其层内关系链的权重,来计算该结构元素在其对应的层内的层内权重。
具体地,基于图5来描述使用基于图的排序算法(S207,S208,S209)、例如TextRank方法来计算元素的层内权重。每个元素看成一个节点,其中公式为:
W ( V i ) = ( 1 - σ ) + σ * Σ V j ∈ In ( V i ) ( W ( V j ) * ω ji / Σ Vk ∈ Out ( V j ) ω jk ) ;
σ=0.85;
......公式(4)
其中:
W(Vi)为目标节点Vi的分数,在第一次迭代中,该分数为初始权重;
In(Vi)代表与此节点Vi有联系的节点集合(即,图5中的Vj和Vk);
Out(Vj)代表与节点Vj有联系的节点集合(即,图5中的Vi和Vk和Vl);
ωii代表此两节点(Vi和Vj)之间的边(联系)的权重、例如如上述求得的关系链的权重;
此公式中的Vj代表与当前节点Vi有关系的其中一个节点。
按上述公式运算,每次每个节点会得到一个新的节点权重分数,然后将此分数重新代入公式计算,迭代数次后(假定5次)会得到一个比较收敛的值,将此值作为每个元素节点最后值、即层内权重。当然,计算层内权重的方法不限于此,本领域技术人员还可以通过初始权重和层内关系链的权重来用其他方式或公式来计算层内权重。
跨层权重的计算
可以通过结构元素和其他层中的结构元素之间的包含次数、该结构元素的层内权重和/或其他层结构元素的层内权重来计算在该结构元素的跨层权重。
下面基于图6来介绍元素的跨层关系的一种具体的计算方式。
首先定义一个命中矩阵Cm×n=(ci,j),其中j∈[1,n]表示一个元素,如一个句子;而i∈[1,m]代表另一个元素,如一个词,(其中m代表句子的条数,而n代表词的个数);Cij表示词j出现在句子i中的次数,如图6所示。
其中,每个句子有一个权重wsi,而每个词有自己的权重wtj,从图6的右半部分来看,Xi代表目标词,而Yj代表目标句子(S210,S211),其最终权重计算方法为:
Y i = Σ j ∈ [ 1 , n ] wt j × c i , j X j = Σ i ∈ [ 1 , m ] ws i × c i , j ......公式(5)
当然,计算元素的跨层关系的权重不局限于上述方式,本领域技术人员还可以考虑其他计算方式。
标题元素与结构元素之间的全局权重的计算
可以通过结构元素与标题元素之间共同包含的词或字的数目、共同包含的词或字出现的词频、共同包含的词或字的词性、结构元素的词或字的总数、标题元素的词或字的总数、结构元素的层内权重和/或结构元素的跨层权重这些参数中的一个或多个来计算结构元素的全局权重。
下面具体例示计算标题元素与结构元素之间的全局权重的两种具体方法。
第一种方法
对标题来说,可以把它看成对其它所有下层元素关联的一个全局权重,也可以理解成以标题作为查询条件找到相关结构元素的过程。标题通常表达了一篇文档的主题或最重要的信息,因此,使用标题信息对获得关键元素来说具体潜在意义。在根据本申请的一个实施例中,以句子为例,每个句子都会从标题得到一个额外的加权(称为全局权重),假定标题为st,则在步骤S212中全局权重的计算公式(6)可以是:
w title new ( s i , s t ) = w title ( s i , s t ) + γ Σ j ≠ i w title ( s i , s j ) ......公式(6)
其中:(0<γ<1),si代表目标节点,如句子,w(si,st)表示元素si和st之间的关系,例如两者之间的相似度。而相似度的计算可以采用本申请中公开的方式,也可以采用其他方式,在此不赘述。也就是说,这种计算全局权重的方法是基于该结构元素与该标题元素之间的相似度(可以用共同包含的词或字的数目、结构元素的词或字的总数和标题元素的词或字的总数来计算)、以及该结构元素与其他结构元素的相似度(可以用该结构元素的层内权重来计算)。
第二种方法
首先,某一个词/字的词频可以包括句子词频和全文词频。所谓“句子词频”是指:某一个词/字在全文中的所有句子中出现的频率,其有两个特征:一是,一旦该词在某句子中出现,计数加一;二是,重复出现在某个句子中,不增加计数。此句子频率不同于普通的全文词频,全文词频是指该词在全文中出现的频率。
以句子元素和标题元素的关系为例,本方法可以基于“逆句子词频”。
假设标题可以拆成不重复的词:St={w1,w2,...,wn};其中,n是标题中包含的不重复的词的数量。
在句子元素和标题元素共同出现的词为:W1、W2......Wk,其中,Wj∈St,其中,j∈{1,2,......k},k是在句子元素和标题元素共同出现的词的数量。
共同出现的每个词的对应的句子词频为:Wf={wf1,wf2,...,wfk}。
该文档的所有句子数目为:Sc=SentCount;
则在步骤S212中计算该句子与标题的全局关系的权重的公式(7)可以是:
w ( s i , s t ) = Σ j = 0 k ( 1 - log w fj log S C ) ......公式(7)
也就是说,该结构元素与标题元素共同包含的各个词或字出现的句子词频(或全文词频)越大,则该标题元素对该结构元素施加的全局权重越小,这就是所谓的“逆句子词频”。例如,一个句子与标题元素共同包含的词或字只有例如“是”、“的”等,这些词或字的句子词频一般较大,则说明该句子与标题元素之间共同包含的词或字并不那么特殊,即该句子的全局权重较小。相反,如果一个句子与标题元素共同包含的词或字是例如“关键元素”、“文档”等,且这些词或字的句子词频较小,则说明该句子与标题元素之间共同包含的词或字比较特殊、或者比较重要,即该句子的全局权重较大。
很显然,这两种计算方法都可以得到标题与结构元素(例如句子)的全局权重,但是这两种计算方法仅是示例,而不是限制。还可以采用其他参数、例如结构元素与标题元素共同包含的词的词性来计算。例如,共同包含的词是名词可能较重要,而共同包含的词是介词、副词、连接词等也许较不重要。也就是说,只要计算方法能够准确地确定该结构元素与该标题元素之间的关系的权重,那么该计算方法也是可以适用的。
各种元素的最终权重的计算
具体地,每个元素最终的权重组合可以由该元素的层内权重,跨层权重以及标题赋予的全局权重共同决定,如下公式所示:
Welement=λiWinsidecWcrosstWtitle    ......公式(8)
Winside表示所计算的层内权重;
Wcross表示所计算的跨层权重;
Wtitle表示所计算的基于标题的全局权重;
λi、λc和λt表示每种权重相对应的经验比率,在实际应用中可以视情况而变化,其也可以是零。
获得关键元素
通过以上的各种步骤,每个不同层的不同元素都会得到一个最终的权重分数。如果要获得任何一个层的关键元素,只需要把该层所有的元素按最终权重大小进行排序,然后即可以将最终权重最高的n个元素看作成关键元素。
具体地,如果把文档分成4层,标题、区域、句子和词,且如果想获得例如关键句子,就可以将句子层次的各个元素按照最终权重进行排序,然后得到最终权重最高的n个句子作为关键句子。
另外,也可以将一层的每个元素的最终权重与预定阈值进行比较,将最终权重大于预定阈值的元素作为关键元素。
当然,获得关键元素的方法不限于上述两种,还可以使用其他方法通过元素的最终权重来获得关键元素。
基于说明书的描述,本申请提供了一种新的从文档中、基于结构信息获得关键元素的方法。在这些结构信息中,如标题层、句子层、词层,存在很多有意义的信息;本申请的方法可以从该文档中获得不同层的关键元素,而且这个获得关键元素的方法是一种统一的模型,即可以同时自动地获得多种不同层次的相应关键元素。
这个方法可以应用在信息概括中,用以得到代表一篇文章的摘要句子,关键词等非常有用的信息,从而可以用于对文档进行摘要生成、统计分析,自动贴标签,自动分类、索引等。
图7示意性地示出了根据本发明的一个实施例的获得一个或多个关键元素的设备700。该设备700包括:抽取装置701,抽取该文档的结构元素。所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层。该设备700还包括:层内权重确定装置702,确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重。该设备700还包括:跨层权重确定装置703,确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重。该设备700还包括:全局权重确定装置704,确定所述被抽取的结构元素与标题元素之间的全局权重。该设备700还包括:最后权重确定装置705,组合被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重。该设备700还包括:关键元素获得装置706,根据所述一层中的被抽取的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。
根据本发明的另一实施例,所述层内权重确定装置702可以包括:给被抽取的结构元素赋予初始权重的装置;确定被抽取的结构元素与在其对应的层内的其他结构元素之间的层内关系链的权重的装置;根据被抽取的结构元素的初始权重和其层内关系链的权重,确定被抽取的结构元素在其对应的层内的层内权重的装置。
优选地,区域元素或段落元素的初始权重可以与区域或段落的位置信息有关。句子元素的初始权重可以与该句子被其他句子引用的次数有关。词或字的初始权重可以与该词或字的词性和/或出现频率有关。
优选地,对于区域元素、段落元素和句子元素,层内权重确定装置702可以通过两个结构元素之间共同包含的词或字的数目和两个结构元素的词或字的总数来计算两个结构元素之间的层内关系链的权重。且对于词元素和字元素,则层内权重确定装置702可以通过同层的两个结构元素同时出现在同一个预定大小的元素窗口内时之间的距离和该元素窗口的预定大小来计算两个结构元素在该元素窗口内的关系值,并可以通过这两个结构元素在整个文档中的各个元素窗口内的关系值之和来计算这两个结构元素在整个文档中层内关系链的权重。
层内权重确定装置702可以利用TextRank的基于图的算法,根据被抽取的结构元素的初始权重和其层内关系链的权重,来计算被抽取的结构元素在其对应的层内的层内权重。
跨层权重确定装置703可以通过所述被抽取的结构元素和所述其他层中的结构元素之间的包含次数、该被抽取的结构元素的层内权重和/或其他层结构元素的层内权重这些参数中的一个或多个来计算在所述被抽取的结构元素的跨层权重。
全局权重确定装置704可以通过被抽取的结构元素与标题元素之间共同包含的词或字的数目、共同包含的词或字出现的词频、共同包含的词或字的词性、被抽取的结构元素的词或字的总数、标题元素的词或字的总数、被抽取的结构元素的层内权重和/或被抽取的结构元素的跨层权重这些参数中的一个或多个来计算被抽取的结构元素的全局权重。
关键元素获得装置706可以将所述一层中的结构元素的最后权重进行排序,获得最后权重最高的一个或多个结构元素作为所述一层中的一个或多个关键元素。
基于说明书的描述,本申请还提供了一种新的从文档中、基于结构信息获得关键元素的设备。在这些结构信息中,如标题层、句子层、词层,存在很多有意义的信息;本申请的设备可以从该文档中获得不同层的关键元素,而且这个获得关键元素的方法是一种统一的模型,即可以同时自动地获得多种不同层次的相应关键元素。
这个设备可以应用在信息概括中,用以得到代表一篇文章的摘要句子,关键词等非常有用的信息,从而可以用于对文档进行摘要生成、统计分析,自动贴标签,自动分类、索引等。
虽然已经参照本发明的具体优选实施例示出和说明了本发明,但是本领域技术人员应该理解,在所附权利要求或其等同物的范围内,可以基于设计需要和其他因素进行各种修改、组合、子组合和变更。

Claims (11)

1.一种在文档中获得一个或多个关键元素的方法,包括以下步骤:
a)抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;
b)确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;
c)确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;
d)确定所述被抽取的结构元素与标题元素之间的全局权重;
e)组合所述被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及
f)根据所述一层中的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。
2.根据权利要求1所述的方法,其中所述结构元素还包括区域元素、段落元素、句子元素、词元素、字元素中的一个或多个,所述结构上的层还包括区域层、段落层、句子层、词层和字层中的一个或多个。
3.根据权利要求1或2所述的方法,其中,所述步骤b)包括:
b-1)给被抽取的结构元素赋予初始权重;
b-2)确定被抽取的结构元素与在其对应的层内的其他结构元素之间的层内关系链的权重;
b-3)根据被抽取的结构元素的初始权重和其层内关系链的权重,确定被抽取的结构元素在其对应的层内的层内权重。
4.根据权利要求3所述的方法,其中,在步骤b-1)中,区域元素或段落元素的初始权重与区域或段落的位置信息有关;句子元素的初始权重与该句子被其他句子引用的次数有关;而且/或者词或字的初始权重与该词或字的词性和/或出现词频有关。
5.根据权利要求3所述的方法,其中,在步骤b-2)中,对于区域元素、段落元素和句子元素,通过两个结构元素之间共同包含的词或字的数目和两个结构元素的词或字的总数来计算两个结构元素之间的层内关系链的权重;且对于词元素和字元素,则通过同层的两个结构元素同时出现在同一个预定大小的元素窗口内时之间的距离和该元素窗口的预定大小来计算两个结构元素在该元素窗口内的关系值,并通过这两个结构元素在整个文档中的各个元素窗口内的关系值之和来计算这两个结构元素在整个文档中层内关系链的权重。
6.根据权利要求3所述的方法,其中,在步骤b-3)中,利用TextRank的基于图的算法,根据被抽取的结构元素的初始权重和其层内关系链的权重,来计算被抽取的结构元素在其对应的层内的层内权重。
7.根据权利要求1或2所述的方法,其中,在所述步骤c)中,通过所述被抽取的结构元素和所述其他层中的结构元素之间的包含次数、该被抽取的结构元素的层内权重和/或其他层结构元素的层内权重这些参数中的一个或多个来计算在所述被抽取的结构元素的跨层权重。
8.根据权利要求1或2所述的方法,其中,在所述步骤d)中,通过被抽取的结构元素与标题元素之间共同包含的词或字的数目、共同包含的词或字出现的词频、共同包含的词或字的词性、被抽取的结构元素的词或字的总数、标题元素的词或字的总数、被抽取的结构元素的层内权重和/或被抽取的结构元素的跨层权重这些参数中的一个或多个来计算被抽取的结构元素的全局权重。
9.根据权利要求1所述的方法,其中,在所述步骤f)中,将所述一层中的结构元素的最后权重进行排序,获得最后权重最高的一个或多个结构元素作为所述一层中的一个或多个关键元素。
10.一种在文档中获得一个或多个关键元素的设备,包括:
抽取装置,抽取该文档的结构元素,所述结构元素至少包含标题元素,其中,该文档包括多个结构上的层,所述结构上的层至少包含标题层,且每个结构元素对应于各自的层;
层内权重确定装置,确定除了标题层以外的一层中的被抽取的结构元素在其对应的层内的层内权重;
跨层权重确定装置,确定所述被抽取的结构元素与除了其对应的层和标题层以外的其他层中的结构元素之间的跨层权重;
全局权重确定装置,确定所述被抽取的结构元素与标题元素之间的全局权重;
最后权重确定装置,组合被抽取的结构元素的层内权重、跨层权重和全局权重来确定所述被抽取的结构元素的最后权重;以及
关键元素获得装置,根据所述一层中的被抽取的结构元素的最后权重,来获得所述一层中的一个或多个关键元素。
11.根据权利要求10所述的设备,其中所述结构元素还包括区域元素、段落元素、句子元素、词元素、字元素中的一个或多个,所述结构上的层还包括区域层、段落层、句子层、词层和字层中的一个或多个。
CN2010102181484A 2010-07-06 2010-07-06 一种在文档中获得一个或多个关键元素的设备和方法 Expired - Fee Related CN102314448B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010102181484A CN102314448B (zh) 2010-07-06 2010-07-06 一种在文档中获得一个或多个关键元素的设备和方法
JP2011149434A JP5733062B2 (ja) 2010-07-06 2011-07-05 文書からの1つ又は複数のキー要素取得方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102181484A CN102314448B (zh) 2010-07-06 2010-07-06 一种在文档中获得一个或多个关键元素的设备和方法

Publications (2)

Publication Number Publication Date
CN102314448A true CN102314448A (zh) 2012-01-11
CN102314448B CN102314448B (zh) 2013-12-04

Family

ID=45427627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102181484A Expired - Fee Related CN102314448B (zh) 2010-07-06 2010-07-06 一种在文档中获得一个或多个关键元素的设备和方法

Country Status (2)

Country Link
JP (1) JP5733062B2 (zh)
CN (1) CN102314448B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461348A (zh) * 2014-10-31 2015-03-25 小米科技有限责任公司 信息选取方法及装置
CN105183710A (zh) * 2015-06-23 2015-12-23 武汉传神信息技术有限公司 一种文档摘要自动生成的方法
CN105718445A (zh) * 2016-01-28 2016-06-29 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
CN111611341A (zh) * 2020-04-09 2020-09-01 中南大学 一种词项文档结构位置权重的获取方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592541B2 (en) * 2015-05-29 2020-03-17 Intel Corporation Technologies for dynamic automated content discovery
WO2021248435A1 (en) * 2020-06-12 2021-12-16 Bayer Aktiengesellschaft Method and apparatus for automatically generating summary document

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075260A (zh) * 2007-06-28 2007-11-21 腾讯科技(深圳)有限公司 摘要提取方法以及摘要提取模块
US20080195595A1 (en) * 2004-11-05 2008-08-14 Intellectual Property Bank Corp. Keyword Extracting Device
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3997412B2 (ja) * 2002-11-13 2007-10-24 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4525154B2 (ja) * 2004-04-21 2010-08-18 富士ゼロックス株式会社 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
US7461056B2 (en) * 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195595A1 (en) * 2004-11-05 2008-08-14 Intellectual Property Bank Corp. Keyword Extracting Device
CN101075260A (zh) * 2007-06-28 2007-11-21 腾讯科技(深圳)有限公司 摘要提取方法以及摘要提取模块
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461348A (zh) * 2014-10-31 2015-03-25 小米科技有限责任公司 信息选取方法及装置
WO2016065814A1 (zh) * 2014-10-31 2016-05-06 小米科技有限责任公司 信息选取方法及装置
RU2643437C2 (ru) * 2014-10-31 2018-02-01 Сяоми Инк. Способ и устройство для выделения информации
CN104461348B (zh) * 2014-10-31 2018-09-04 小米科技有限责任公司 信息选取方法及装置
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
CN105183710A (zh) * 2015-06-23 2015-12-23 武汉传神信息技术有限公司 一种文档摘要自动生成的方法
CN105718445A (zh) * 2016-01-28 2016-06-29 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN105718445B (zh) * 2016-01-28 2018-05-11 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN111611341A (zh) * 2020-04-09 2020-09-01 中南大学 一种词项文档结构位置权重的获取方法及装置
CN111611341B (zh) * 2020-04-09 2023-04-25 中南大学 一种词项文档结构位置权重的获取方法及装置

Also Published As

Publication number Publication date
CN102314448B (zh) 2013-12-04
JP2012018674A (ja) 2012-01-26
JP5733062B2 (ja) 2015-06-10

Similar Documents

Publication Publication Date Title
CN102314448B (zh) 一种在文档中获得一个或多个关键元素的设备和方法
US10437867B2 (en) Scenario generating apparatus and computer program therefor
CN105243152B (zh) 一种基于图模型的自动文摘方法
CN103559233B (zh) 微博中网络新词抽取方法和微博情感分析方法及系统
CN102298642B (zh) 文本信息抽取方法和系统
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN106776562A (zh) 一种关键词提取方法和提取系统
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN101404033A (zh) 本体层级结构的自动生成方法及系统
US10430717B2 (en) Complex predicate template collecting apparatus and computer program therefor
CN104598588A (zh) 基于双聚类的微博用户标签自动生成算法
CN106257441A (zh) 一种基于词频的skip语言模型的训练方法
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN101650729B (zh) 一种Web服务构件库动态构造方法及其服务检索方法
Jahangir et al. N-gram and gazetteer list based named entity recognition for urdu: A scarce resourced language
Luu et al. Comparison between traditional machine learning models and neural network models for vietnamese hate speech detection
CN104573057A (zh) 一种用于跨ugc网站平台的帐户关联方法
CN106202065A (zh) 一种跨语言话题检测方法及系统
CN109299248A (zh) 一种基于自然语言处理的商业情报收集方法
CN102779119B (zh) 一种抽取关键词的方法及装置
CN108536757B (zh) 一种基于用户历史网络潜在有害主题引导方法
CN114997288A (zh) 一种设计资源关联方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131204

Termination date: 20160706