CN103412852B

CN103412852B - 一种自动提取英文文献关键信息的方法

Info

Publication number: CN103412852B
Application number: CN201310368688.4A
Authority: CN
Inventors: 袁子牧; 袁宁新; 徐志伟; 岳强
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-08-21
Filing date: 2013-08-21
Publication date: 2017-12-15
Anticipated expiration: 2033-08-21
Also published as: CN103412852A

Abstract

本发明涉及文本处理技术领域，特别涉及一种自动提取英文文献关键信息的方法。本发明从英文文献中获取文本信息，从文本信息抽取出标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词这些关键信息，并且用搜索引擎所提供的文献资料库和专业的文献数据库验证所获取的关键信息，补充和纠正关键信息中的错误。本发明使得英文文献的阅读者可以方便快捷的获知文献关键信息，免去手动查寻信息的过程；可以应用于英文文献关键信息的提取。

Description

一种自动提取英文文献关键信息的方法

技术领域

本发明涉及文本处理技术领域，特别涉及一种自动提取英文文献关键信息的方法。

背景技术

英文文献的关键信息在下列三种场合有价值：1、阅读者在查阅英文文献的过程中，会留意其中的标题、关键词、摘要等一些关键信息，以便根据信息判断是否有进一步阅读文献全文的价值。2、阅读者在阅读英文文献之后，如认为该文献由保存价值，则需要对其中的关键信息进行存储，以便以后查看。3、阅读者在查找之前已阅读过英文文献过程中，可根据简明有条理的关键信息，以便能更快捷的查询到该文献。

自动提取英文文献的关键信息涉及到文本处理技术。文本处理技术有两个关键要素，一是特征提取，二是文本匹配。特征提取指采用计算机可执行程序获取文本中的子集，进行合并、分割或融合，从中抽取出明显的表征。文本匹配指采用计算机可执行程序将文本中的子集与特征进行比对，以便找出符合要求的文本部分。自动提取英文文献的关键信息在文本中呈现诸多特征，需要对这些特征进行提取，根据特征分割文本，匹配出相应的关键信息。

发明内容

本发明解决的技术问题在于提供一种自动提取英文文献关键信息的方法；对英文文献中的关键信息进行提取。

本发明解决上述技术问题的技术方案是：

按如下步骤进行：

步骤1，读取英文文献，将其处理为纯文本格式；

步骤2，以符号‘,’和单词“and”作为包含作者名的行所具有的特征，区分标题和作者名；

以单词“Abstract”为文献摘要的开头，以符号‘@’为作者邮箱的行的特征，区分作者邮箱和文献摘要；

以单词“Index items”或“Keywords”标识文献关键词的特征，区分文献摘要和文献关键词；

以文献正文第一部分标题数字‘1’或者符号‘Ⅰ’为开头，通常包含单词”Introduction”的特征；当文献包含文献关键词，以此为特征区分文献关键词和文献正文；不包含关键词时，以此为特征区分文献摘要和文献正文；

从而获取到<标题>、<作者名，作者邮箱，作者单位>、<文献摘要>、<文献关键词>这四部分关键信息；

步骤3，根据获取的关键信息标题、作者名、作者邮箱、作者单位、文献摘要和文献关键词，检索搜索引擎提供的文献资料库；以提取出来的标题和随机抽取的部分文献摘要检索两次，每次都获取检索出来的第一个条目；在两次检索中所获取的条目以匹配率最高的为准，并且匹配率需超过80%；

所检索得到的条目与提取的关键信息比对，如检索出来的一致条目中包含有发表刊物、发表时间这两项未知的关键信息则记录之；如检索出来的一致条目中记录的关键信息与提取的关键信息相同，则标记为确认；如不相同，则标记为不确定；

步骤4，对所获取到的关键信息标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词，检索专业文献数据库，用标题和随机抽取的部分文献摘要检索两次，每次都获取检索出来的第一个条目；在两次检索中所获取的条目以匹配率最高的为准，并且匹配率需超过80%；

所检索得到的条目与关键信息比对，如除条目中相关关键信息为空或者不包含相关关键信息之外，以检索出来的一致条目中的关键信息为准，并将相关标记置为确定；

步骤5，返回相关关键信息和标记信息，关键信息包括标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词这些英文文献并且相关关键信息有确认或不确定的标记。

对获取的关键信息<作者名，作者邮箱，作者单位>，区分其中作者名、作者邮箱和作者单位这三项关键信息排列的特征；

当三项关键信息按作者单独布局，即某一个或几个作者的作者名，作者邮箱和作者单位放在一起统一排列，这三项中的每一项关键信息会分布在并不连续的多行之中属于第①类布局方式；

当三项关键信息统一布局，即所有作者的作者名，作者邮箱和作者单位会放在一起统一排列，这三项关键信息会分布在连续的一行或多行之中属于第②类布局方式；

标题下方仅有所有作者的作者名这一项关键信息，而另外两项关键信息分布在第一页的页脚属于第③类布局方式；

匹配区分这三种布局方式，如果标题下方摘要之前不包含‘@’字符，则说明文献文本中是第③类布局方式；如果在并不连续的多行之中均包含有‘@’字符，则说明文献文本中是第①类布局方式；如果在连续的一行或多行之中包含有‘@’字符，则说明文献文本中是第②类布局方式。

所匹配区分的三种布局方式，匹配作者名对应的作者单位，采取数字或特殊字符标记；匹配作者名对应的作者邮箱，采取最大公共子字符串匹配之和方法。

本发明从英文文献中获取文本信息，从文本信息抽取出标题，作者名，作者邮箱，作者单位，发表刊物，发表时间，文献摘要，文献关键词这些关键信息，并且用搜索引擎所提供的文献资料库和专业的文献数据库验证所获取的关键信息，补充和纠正关键信息中的错误。这使得英文文献的阅读者可以方便快捷的获知文献关键信息，免去手动查寻信息的过程。

附图说明

下面结合附图对本发明进一步说明：

图1是本发明英文文献关键信息提取实施图；

图2是本发明英文文献示意图；

图3是本发明英文文献文本示意图；

图4是本发明作者名、作者单位和作者邮箱文本示意图；

图5是本发明检索条目示意图。

具体实施方式

如图1所示，本发明方法流程是：

英文文献(附图2)在计算机处理程序读取之后变为纯文本格式(附图3)。本发明将从纯文本信息中提取英文文献的关键信息，其中文献文本通常包含标题，作者名，作者邮箱，作者单位，文献摘要这五项关键信息，部分文献文本包含文献关键词这一项关键信息，文献文本通常不包含发表刊物，发表时间这两项关键信息。对于文献文本中不包含的关键信息，本发明将采用检索的方式从其它信息源获取。

在提取标题，作者名，作者邮箱，作者单位，发表刊物，发表时间，文献摘要，文献关键词这些英文文献的关键信息之前，需要区分这些信息在文献文本中所处的位置。关键信息在文本中出现的顺序依次为标题，作者名，作者单位，作者邮箱，文献摘要和文献关键词，本发明根据文献文本中的一些特征对这些信息的位置进行标记。

包含作者名的行通常以符号‘,’和单词“and”分隔不同的作者名，并且在相邻的符号‘,’和‘,’(或者‘,’和“and”)之间通常间隔两到三个词。有两个词时，其中一个词为作者姓氏，另一个为作者名字；有三个词时，为作者姓氏，中间名和作者名字。以此为特征，区分标题和作者名。

单词“Abstract”通常用来标识文献摘要的开头，符号‘@’通常只在包含作者邮箱的行出现。以单词“Abstract”和符号‘@’为特征，可以区分作者邮箱和文献摘要。

单词“Index items”或“Keywords”通常被用来标识文献关键词，部分文献包含有关键词。如果一篇文献包含文献关键词，则以单词“Index items”或“Keywords”作为特征区分文献摘要和文献关键词。

文献正文的第一部分标题以数字‘1’或者符号‘Ⅰ’为开头，通常包含单词”Introduction”。当文献包含文献关键词，以此为特征区分文献关键词和文献正文；不包含关键词时，以此为特征区分文献摘要和文献正文。

根据上述特征，可将关键信息划分成<标题>，<作者名，作者邮箱，作者单位>，<文献摘要>，<文献关键词>这四部分。

对于作者名(Author)，作者邮箱(Email)和作者单位(Affiliation)这三项关键信息，在文献文本中标题下方存在三种布局方式：

①

……

②

③

Affiliation和Email位于第一页页脚

对于第①类布局方式，这三项关键信息按作者单独布局，即某一个或几个作者的作者名，作者邮箱和作者单位会放在一起统一排列。这样使得这三项中的每一项关键信息会分布在并不连续的多行之中。对于第②类布局方式，这三项关键信息统一布局，即所有作者的作者名，作者邮箱和作者单位会放在一起统一排列。这样使得这三项关键信息会分布在连续的一行或多行之中。对于第③类布局方式，标题下方仅有所有作者的作者名这一项关键信息，而另外两项关键信息分布在第一页的页脚。

针对作为输入的文本文献，采用匹配模式区分这三种布局方式。如果标题下方摘要之前不包含‘@’字符，则说明文献文本中是第③类布局方式；如果在并不连续的多行之中均包含有‘@’字符，则说明文献文本中是第①类布局方式；如果在连续的一行或多行之中包含有‘@’字符，则说明文献文本中是第②类布局方式。

根据匹配得到的布局方式，可获取到作者名，作者邮箱和作者单位这三项关键信息。然而，在这三项关键信息的对应关系仍然未知，即一个作者对应哪个作者名，哪个作者邮箱和哪个作者单位。从获取到的作者名出发，需要对应到相应的作者单位和作者邮箱。

在文献文本中，紧跟作者名后会有数字或特殊字符作为标记。同样，在作者单位名之前也会有数字或特殊字符作为标记。如果数字或特殊字符相同，则该作者和该作者单位名对应(如紧跟作者名后无标记，则作者名对应同样无标记的作者单位名)。由于作者邮箱与作者名之间没有数字或特殊字符的对应关系，本发明使用最大公共子字符串匹配之和的方法来匹配作者邮箱和作者名。第一步，将作者名中的姓，名以及中间名分隔开。如作者名Zimu Yuan分为Zimu和Yuan(附图4)。第二步，获取所有的邮箱名。如yuanzimu@ict.ac.cn，liwei@ict.ac.cn，lzyou@ie.cuhk.edu.hk,youruibang@iie.ac.cn和mb25504@umac.mo(附图4)。第三步，将分隔开的作者名与所有的邮箱名进行字符串匹配，匹配过程不区分大小写。如Zimu与yuanzimu@ict.ac.cn有4个公共子字符串，Yuan与yuanzimu@ict.ac.cn也有4个公共子字符串，因此匹配字符串之和为8(附图4)。第四步，取公共子字符串匹配之和的最大值所对应的邮箱名。如Zimu Yuan对应yuanzimu@ict.ac.cn(附图4)。

汇总所提取出来的信息，包括标题，作者名，作者邮箱，作者单位，文献摘要，文献关键词，但不包含发表刊物，发表时间这两项关键信息，并且所提取出来的信息有可能不是完全准确。本发明将根据其它的信息源获取未知的关键信息，验证所提取的关键信息。

信息源包括两类，一类是专业的文献数据库，包括DBLP(http://dblp.uni-trier.de/)，IEEE(http://ieeexplore.ieee.org/Xplore/home.jsp)，ACM(http://dl.acm.org/)数据库，这里面所包含的数据是精确的；一类是搜索引擎的文献资料库，包括Google(http://scholar.google.com/)和Microsoft(http://academic.research.microsoft.com/)所提供的资料库，这里面所包含的数据是大概的。本发明在信息源中所获取的数据都是公开免费的。

对于每个信息源，以提取出来的标题和随机抽取的部分文献摘要检索两次，每次都获取检索出来的第一个条目(附图5)。将条目中所记载的标题和文献摘要与从文献文本中所提取的标题和文献摘要匹配，如果匹配率超过80%，即条目中标题和文献摘要内的单词有超过80%在所提取的标题和文献摘要中存在，则认为条目中所记载的文献和所提取的文献一致。在两次检索中所获取的条目以匹配率最高的为准，并且匹配率需超过80%，称为一致条目。

对于搜索引擎提供的文献资料库，如检索出来的一致条目中包含有发表刊物，发表时间这两项未知的关键信息则记录之；如检索出来的一致条目中记录的关键信息与提取的关键信息相同，则标记为确认；如不相同，则标记为不确定。对于专业文献数据库，除非条目中相关关键信息为空或者不包含相关关键信息，否则以检索出来的一致条目中的关键信息为准，并将相关标记置为确定。

经过外部信息源的验证和补充，得到标题，作者名，作者邮箱，作者单位，发表刊物，发表时间，文献摘要，文献关键词这些英文文献的完整关键信息以及相关信息的确认或不确定的标记。

Claims

1.一种自动提取英文文献关键信息的方法，其特征在于：按如下步骤进行：

步骤1，读取英文文献，将其处理为纯文本格式；

从而获取到<标题>、<作者名，作者邮箱>、<文献摘要>、<文献关键词>这四部分关键信息；

步骤3，根据获取的关键信息标题、作者名、作者邮箱、作者单位、文献摘要和文献关键词，检索搜索引擎提供的文献资料库；以提取出来的标题和随机抽取的部分文献摘要检索两次，每次都获取检索出来的第一个条目；在两次检索中所获取的条目以匹配率最高的为准，并且匹配率需超过80％；

步骤4，对所获取到的关键信息标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词，检索专业文献数据库，用标题和随机抽取的部分文献摘要检索两次，每次都获取检索出来的第一个条目；在两次检索中所获取的条目以匹配率最高的为准，并且匹配率需超过80％；

步骤5，返回相关关键信息和标记信息，关键信息包括：标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要和文献关键词；并且相关关键信息有确认或不确定的标记；

2.根据权利要求1所述的自动提取英文文献关键信息的方法，其特征在于：所匹配区分的三种布局方式，匹配作者名对应的作者单位，采取数字或特殊字符标记；匹配作者名对应的作者邮箱，采取最大公共子字符串匹配之和方法。