CN103412852B - 一种自动提取英文文献关键信息的方法 - Google Patents

一种自动提取英文文献关键信息的方法 Download PDF

Info

Publication number
CN103412852B
CN103412852B CN201310368688.4A CN201310368688A CN103412852B CN 103412852 B CN103412852 B CN 103412852B CN 201310368688 A CN201310368688 A CN 201310368688A CN 103412852 B CN103412852 B CN 103412852B
Authority
CN
China
Prior art keywords
authors
author
name
document
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310368688.4A
Other languages
English (en)
Other versions
CN103412852A (zh
Inventor
袁子牧
袁宁新
徐志伟
岳强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310368688.4A priority Critical patent/CN103412852B/zh
Publication of CN103412852A publication Critical patent/CN103412852A/zh
Application granted granted Critical
Publication of CN103412852B publication Critical patent/CN103412852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本处理技术领域,特别涉及一种自动提取英文文献关键信息的方法。本发明从英文文献中获取文本信息,从文本信息抽取出标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词这些关键信息,并且用搜索引擎所提供的文献资料库和专业的文献数据库验证所获取的关键信息,补充和纠正关键信息中的错误。本发明使得英文文献的阅读者可以方便快捷的获知文献关键信息,免去手动查寻信息的过程;可以应用于英文文献关键信息的提取。

Description

一种自动提取英文文献关键信息的方法
技术领域
本发明涉及文本处理技术领域,特别涉及一种自动提取英文文献关键信息的方法。
背景技术
英文文献的关键信息在下列三种场合有价值:1、阅读者在查阅英文文献的过程中,会留意其中的标题、关键词、摘要等一些关键信息,以便根据信息判断是否有进一步阅读文献全文的价值。2、阅读者在阅读英文文献之后,如认为该文献由保存价值,则需要对其中的关键信息进行存储,以便以后查看。3、阅读者在查找之前已阅读过英文文献过程中,可根据简明有条理的关键信息,以便能更快捷的查询到该文献。
自动提取英文文献的关键信息涉及到文本处理技术。文本处理技术有两个关键要素,一是特征提取,二是文本匹配。特征提取指采用计算机可执行程序获取文本中的子集,进行合并、分割或融合,从中抽取出明显的表征。文本匹配指采用计算机可执行程序将文本中的子集与特征进行比对,以便找出符合要求的文本部分。自动提取英文文献的关键信息在文本中呈现诸多特征,需要对这些特征进行提取,根据特征分割文本,匹配出相应的关键信息。
发明内容
本发明解决的技术问题在于提供一种自动提取英文文献关键信息的方法;对英文文献中的关键信息进行提取。
本发明解决上述技术问题的技术方案是:
按如下步骤进行:
步骤1,读取英文文献,将其处理为纯文本格式;
步骤2,以符号‘,’和单词“and”作为包含作者名的行所具有的特征,区分标题和作者名;
以单词“Abstract”为文献摘要的开头,以符号‘@’为作者邮箱的行的特征,区分作者邮箱和文献摘要;
以单词“Index items”或“Keywords”标识文献关键词的特征,区分文献摘要和文献关键词;
以文献正文第一部分标题数字‘1’或者符号‘Ⅰ’为开头,通常包含单词”Introduction”的特征;当文献包含文献关键词,以此为特征区分文献关键词和文献正文;不包含关键词时,以此为特征区分文献摘要和文献正文;
从而获取到<标题>、<作者名,作者邮箱,作者单位>、<文献摘要>、<文献关键词>这四部分关键信息;
步骤3,根据获取的关键信息标题、作者名、作者邮箱、作者单位、文献摘要和文献关键词,检索搜索引擎提供的文献资料库;以提取出来的标题和随机抽取的部分文献摘要检索两次,每次都获取检索出来的第一个条目;在两次检索中所获取的条目以匹配率最高的为准,并且匹配率需超过80%;
所检索得到的条目与提取的关键信息比对,如检索出来的一致条目中包含有发表刊物、发表时间这两项未知的关键信息则记录之;如检索出来的一致条目中记录的关键信息与提取的关键信息相同,则标记为确认;如不相同,则标记为不确定;
步骤4,对所获取到的关键信息标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词,检索专业文献数据库,用标题和随机抽取的部分文献摘要检索两次,每次都获取检索出来的第一个条目;在两次检索中所获取的条目以匹配率最高的为准,并且匹配率需超过80%;
所检索得到的条目与关键信息比对,如除条目中相关关键信息为空或者不包含相关关键信息之外,以检索出来的一致条目中的关键信息为准,并将相关标记置为确定;
步骤5,返回相关关键信息和标记信息,关键信息包括标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词这些英文文献并且相关关键信息有确认或不确定的标记。
对获取的关键信息<作者名,作者邮箱,作者单位>,区分其中作者名、作者邮箱和作者单位这三项关键信息排列的特征;
当三项关键信息按作者单独布局,即某一个或几个作者的作者名,作者邮箱和作者单位放在一起统一排列,这三项中的每一项关键信息会分布在并不连续的多行之中属于第①类布局方式;
当三项关键信息统一布局,即所有作者的作者名,作者邮箱和作者单位会放在一起统一排列,这三项关键信息会分布在连续的一行或多行之中属于第②类布局方式;
标题下方仅有所有作者的作者名这一项关键信息,而另外两项关键信息分布在第一页的页脚属于第③类布局方式;
匹配区分这三种布局方式,如果标题下方摘要之前不包含‘@’字符,则说明文献文本中是第③类布局方式;如果在并不连续的多行之中均包含有‘@’字符,则说明文献文本中是第①类布局方式;如果在连续的一行或多行之中包含有‘@’字符,则说明文献文本中是第②类布局方式。
所匹配区分的三种布局方式,匹配作者名对应的作者单位,采取数字或特殊字符标记;匹配作者名对应的作者邮箱,采取最大公共子字符串匹配之和方法。
本发明从英文文献中获取文本信息,从文本信息抽取出标题,作者名,作者邮箱,作者单位,发表刊物,发表时间,文献摘要,文献关键词这些关键信息,并且用搜索引擎所提供的文献资料库和专业的文献数据库验证所获取的关键信息,补充和纠正关键信息中的错误。这使得英文文献的阅读者可以方便快捷的获知文献关键信息,免去手动查寻信息的过程。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明英文文献关键信息提取实施图;
图2是本发明英文文献示意图;
图3是本发明英文文献文本示意图;
图4是本发明作者名、作者单位和作者邮箱文本示意图;
图5是本发明检索条目示意图。
具体实施方式
如图1所示,本发明方法流程是:
英文文献(附图2)在计算机处理程序读取之后变为纯文本格式(附图3)。本发明将从纯文本信息中提取英文文献的关键信息,其中文献文本通常包含标题,作者名,作者邮箱,作者单位,文献摘要这五项关键信息,部分文献文本包含文献关键词这一项关键信息,文献文本通常不包含发表刊物,发表时间这两项关键信息。对于文献文本中不包含的关键信息,本发明将采用检索的方式从其它信息源获取。
在提取标题,作者名,作者邮箱,作者单位,发表刊物,发表时间,文献摘要,文献关键词这些英文文献的关键信息之前,需要区分这些信息在文献文本中所处的位置。关键信息在文本中出现的顺序依次为标题,作者名,作者单位,作者邮箱,文献摘要和文献关键词,本发明根据文献文本中的一些特征对这些信息的位置进行标记。
包含作者名的行通常以符号‘,’和单词“and”分隔不同的作者名,并且在相邻的符号‘,’和‘,’(或者‘,’和“and”)之间通常间隔两到三个词。有两个词时,其中一个词为作者姓氏,另一个为作者名字;有三个词时,为作者姓氏,中间名和作者名字。以此为特征,区分标题和作者名。
单词“Abstract”通常用来标识文献摘要的开头,符号‘@’通常只在包含作者邮箱的行出现。以单词“Abstract”和符号‘@’为特征,可以区分作者邮箱和文献摘要。
单词“Index items”或“Keywords”通常被用来标识文献关键词,部分文献包含有关键词。如果一篇文献包含文献关键词,则以单词“Index items”或“Keywords”作为特征区分文献摘要和文献关键词。
文献正文的第一部分标题以数字‘1’或者符号‘Ⅰ’为开头,通常包含单词”Introduction”。当文献包含文献关键词,以此为特征区分文献关键词和文献正文;不包含关键词时,以此为特征区分文献摘要和文献正文。
根据上述特征,可将关键信息划分成<标题>,<作者名,作者邮箱,作者单位>,<文献摘要>,<文献关键词>这四部分。
对于作者名(Author),作者邮箱(Email)和作者单位(Affiliation)这三项关键信息,在文献文本中标题下方存在三种布局方式:
……
Affiliation和Email位于第一页页脚
对于第①类布局方式,这三项关键信息按作者单独布局,即某一个或几个作者的作者名,作者邮箱和作者单位会放在一起统一排列。这样使得这三项中的每一项关键信息会分布在并不连续的多行之中。对于第②类布局方式,这三项关键信息统一布局,即所有作者的作者名,作者邮箱和作者单位会放在一起统一排列。这样使得这三项关键信息会分布在连续的一行或多行之中。对于第③类布局方式,标题下方仅有所有作者的作者名这一项关键信息,而另外两项关键信息分布在第一页的页脚。
针对作为输入的文本文献,采用匹配模式区分这三种布局方式。如果标题下方摘要之前不包含‘@’字符,则说明文献文本中是第③类布局方式;如果在并不连续的多行之中均包含有‘@’字符,则说明文献文本中是第①类布局方式;如果在连续的一行或多行之中包含有‘@’字符,则说明文献文本中是第②类布局方式。
根据匹配得到的布局方式,可获取到作者名,作者邮箱和作者单位这三项关键信息。然而,在这三项关键信息的对应关系仍然未知,即一个作者对应哪个作者名,哪个作者邮箱和哪个作者单位。从获取到的作者名出发,需要对应到相应的作者单位和作者邮箱。
在文献文本中,紧跟作者名后会有数字或特殊字符作为标记。同样,在作者单位名之前也会有数字或特殊字符作为标记。如果数字或特殊字符相同,则该作者和该作者单位名对应(如紧跟作者名后无标记,则作者名对应同样无标记的作者单位名)。由于作者邮箱与作者名之间没有数字或特殊字符的对应关系,本发明使用最大公共子字符串匹配之和的方法来匹配作者邮箱和作者名。第一步,将作者名中的姓,名以及中间名分隔开。如作者名Zimu Yuan分为Zimu和Yuan(附图4)。第二步,获取所有的邮箱名。如yuanzimu@ict.ac.cn,liwei@ict.ac.cn,lzyou@ie.cuhk.edu.hk,youruibang@iie.ac.cn和mb25504@umac.mo(附图4)。第三步,将分隔开的作者名与所有的邮箱名进行字符串匹配,匹配过程不区分大小写。如Zimu与yuanzimu@ict.ac.cn有4个公共子字符串,Yuan与yuanzimu@ict.ac.cn也有4个公共子字符串,因此匹配字符串之和为8(附图4)。第四步,取公共子字符串匹配之和的最大值所对应的邮箱名。如Zimu Yuan对应yuanzimu@ict.ac.cn(附图4)。
汇总所提取出来的信息,包括标题,作者名,作者邮箱,作者单位,文献摘要,文献关键词,但不包含发表刊物,发表时间这两项关键信息,并且所提取出来的信息有可能不是完全准确。本发明将根据其它的信息源获取未知的关键信息,验证所提取的关键信息。
信息源包括两类,一类是专业的文献数据库,包括DBLP(http://dblp.uni-trier.de/),IEEE(http://ieeexplore.ieee.org/Xplore/home.jsp),ACM(http://dl.acm.org/)数据库,这里面所包含的数据是精确的;一类是搜索引擎的文献资料库,包括Google(http://scholar.google.com/)和Microsoft(http://academic.research.microsoft.com/)所提供的资料库,这里面所包含的数据是大概的。本发明在信息源中所获取的数据都是公开免费的。
对于每个信息源,以提取出来的标题和随机抽取的部分文献摘要检索两次,每次都获取检索出来的第一个条目(附图5)。将条目中所记载的标题和文献摘要与从文献文本中所提取的标题和文献摘要匹配,如果匹配率超过80%,即条目中标题和文献摘要内的单词有超过80%在所提取的标题和文献摘要中存在,则认为条目中所记载的文献和所提取的文献一致。在两次检索中所获取的条目以匹配率最高的为准,并且匹配率需超过80%,称为一致条目。
对于搜索引擎提供的文献资料库,如检索出来的一致条目中包含有发表刊物,发表时间这两项未知的关键信息则记录之;如检索出来的一致条目中记录的关键信息与提取的关键信息相同,则标记为确认;如不相同,则标记为不确定。对于专业文献数据库,除非条目中相关关键信息为空或者不包含相关关键信息,否则以检索出来的一致条目中的关键信息为准,并将相关标记置为确定。
经过外部信息源的验证和补充,得到标题,作者名,作者邮箱,作者单位,发表刊物,发表时间,文献摘要,文献关键词这些英文文献的完整关键信息以及相关信息的确认或不确定的标记。

Claims (2)

1.一种自动提取英文文献关键信息的方法,其特征在于:按如下步骤进行:
步骤1,读取英文文献,将其处理为纯文本格式;
步骤2,以符号‘,’和单词“and”作为包含作者名的行所具有的特征,区分标题和作者名;
以单词“Abstract”为文献摘要的开头,以符号‘@’为作者邮箱的行的特征,区分作者邮箱和文献摘要;
以单词“Index items”或“Keywords”标识文献关键词的特征,区分文献摘要和文献关键词;
以文献正文第一部分标题数字‘1’或者符号‘Ⅰ’为开头,通常包含单词”Introduction”的特征;当文献包含文献关键词,以此为特征区分文献关键词和文献正文;不包含关键词时,以此为特征区分文献摘要和文献正文;
从而获取到<标题>、<作者名,作者邮箱>、<文献摘要>、<文献关键词>这四部分关键信息;
步骤3,根据获取的关键信息标题、作者名、作者邮箱、作者单位、文献摘要和文献关键词,检索搜索引擎提供的文献资料库;以提取出来的标题和随机抽取的部分文献摘要检索两次,每次都获取检索出来的第一个条目;在两次检索中所获取的条目以匹配率最高的为准,并且匹配率需超过80%;
所检索得到的条目与提取的关键信息比对,如检索出来的一致条目中包含有发表刊物、发表时间这两项未知的关键信息则记录之;如检索出来的一致条目中记录的关键信息与提取的关键信息相同,则标记为确认;如不相同,则标记为不确定;
步骤4,对所获取到的关键信息标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要、文献关键词,检索专业文献数据库,用标题和随机抽取的部分文献摘要检索两次,每次都获取检索出来的第一个条目;在两次检索中所获取的条目以匹配率最高的为准,并且匹配率需超过80%;
所检索得到的条目与关键信息比对,如除条目中相关关键信息为空或者不包含相关关键信息之外,以检索出来的一致条目中的关键信息为准,并将相关标记置为确定;
步骤5,返回相关关键信息和标记信息,关键信息包括:标题、作者名、作者邮箱、作者单位、发表刊物、发表时间、文献摘要和文献关键词;并且相关关键信息有确认或不确定的标记;
对获取的关键信息<作者名,作者邮箱,作者单位>,区分其中作者名、作者邮箱和作者单位这三项关键信息排列的特征;
当三项关键信息按作者单独布局,即某一个或几个作者的作者名,作者邮箱和作者单位放在一起统一排列,这三项中的每一项关键信息会分布在并不连续的多行之中属于第①类布局方式;
当三项关键信息统一布局,即所有作者的作者名,作者邮箱和作者单位会放在一起统一排列,这三项关键信息会分布在连续的一行或多行之中属于第②类布局方式;
标题下方仅有所有作者的作者名这一项关键信息,而另外两项关键信息分布在第一页的页脚属于第③类布局方式;
匹配区分这三种布局方式,如果标题下方摘要之前不包含‘@’字符,则说明文献文本中是第③类布局方式;如果在并不连续的多行之中均包含有‘@’字符,则说明文献文本中是第①类布局方式;如果在连续的一行或多行之中包含有‘@’字符,则说明文献文本中是第②类布局方式。
2.根据权利要求1所述的自动提取英文文献关键信息的方法,其特征在于:所匹配区分的三种布局方式,匹配作者名对应的作者单位,采取数字或特殊字符标记;匹配作者名对应的作者邮箱,采取最大公共子字符串匹配之和方法。
CN201310368688.4A 2013-08-21 2013-08-21 一种自动提取英文文献关键信息的方法 Active CN103412852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310368688.4A CN103412852B (zh) 2013-08-21 2013-08-21 一种自动提取英文文献关键信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310368688.4A CN103412852B (zh) 2013-08-21 2013-08-21 一种自动提取英文文献关键信息的方法

Publications (2)

Publication Number Publication Date
CN103412852A CN103412852A (zh) 2013-11-27
CN103412852B true CN103412852B (zh) 2017-12-15

Family

ID=49605865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310368688.4A Active CN103412852B (zh) 2013-08-21 2013-08-21 一种自动提取英文文献关键信息的方法

Country Status (1)

Country Link
CN (1) CN103412852B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376108B (zh) * 2014-11-26 2017-06-06 克拉玛依红有软件有限责任公司 一种基于6w语义标识的非结构化自然语言信息抽取方法
US9430451B1 (en) 2015-04-01 2016-08-30 Inera, Inc. Parsing author name groups in non-standardized format
CN107506374B (zh) * 2017-07-14 2020-02-21 北京赛时科技有限公司 邮箱作者对应方法和装置及计算机可读存储介质
CN109189916B (zh) * 2018-08-17 2022-04-22 杜林蔚 英文摘要关键信息提取方法、装置及电子设备
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN114285719B (zh) * 2021-12-23 2024-05-14 天翼视讯传媒有限公司 多idc环境中集中识别不同类网络设备的策略方法和系统
CN115392240B (zh) * 2022-07-21 2023-04-18 成都成电金盘健康数据技术有限公司 基于文本结构的数据自动提取处理方法、装置及系统
CN116701640B (zh) * 2023-08-04 2024-01-26 腾讯科技(深圳)有限公司 水印识别模型生成方法、水印识别方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1299104A (zh) * 2001-01-05 2001-06-13 清华大学 个人光盘图书馆系统及其数据自动处理方法
CN1581171A (zh) * 2003-08-12 2005-02-16 国际商业机器公司 信息处理设备、信息处理系统、数据库搜索方法和程序
WO2009123594A1 (en) * 2008-04-04 2009-10-08 Fabian-Baber, Inc. Correlating the results of a computer network text search with relevant multimedia files
CN101673291A (zh) * 2009-10-28 2010-03-17 北京东方灵盾科技有限公司 一种专利文献数据检索的方法、系统和装置
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1299104A (zh) * 2001-01-05 2001-06-13 清华大学 个人光盘图书馆系统及其数据自动处理方法
CN1581171A (zh) * 2003-08-12 2005-02-16 国际商业机器公司 信息处理设备、信息处理系统、数据库搜索方法和程序
WO2009123594A1 (en) * 2008-04-04 2009-10-08 Fabian-Baber, Inc. Correlating the results of a computer network text search with relevant multimedia files
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法
CN101673291A (zh) * 2009-10-28 2010-03-17 北京东方灵盾科技有限公司 一种专利文献数据检索的方法、系统和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SemreX 中基于语义的文档参考文献元数据信息提取;郭志鑫 等;《计算机研究与发展》;20060830;第1370页第3.1节 *

Also Published As

Publication number Publication date
CN103412852A (zh) 2013-11-27

Similar Documents

Publication Publication Date Title
CN103412852B (zh) 一种自动提取英文文献关键信息的方法
CN102959578B (zh) 取证系统、取证方法及取证程序
US9773039B2 (en) Computer-implemented system and method for identifying near duplicate documents
KR101450358B1 (ko) 구조형 지리적 데이터 검색
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN102110123B (zh) 倒排索引建立方法
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN103309879B (zh) 一种管理word文档中的标记的方法及装置
US20140143680A1 (en) Segmented graphical review system and method
CN110390000A (zh) 一种法律文书自动识别、生成系统及其方法
Singh et al. OCR++: a robust framework for information extraction from scholarly articles
Brenner et al. Social event detection and retrieval in collaborative photo collections
US6694302B2 (en) System, method and article of manufacture for personal catalog and knowledge management
US20100010970A1 (en) Document searching device, document searching method, document searching program
CN106407450A (zh) 文件搜索方法及装置
CN106250552A (zh) 在搜索引擎结果页面上聚集web页面
JP2009098763A (ja) 手書き注釈管理装置およびインタフェース
Granitzer et al. A comparison of metadata extraction techniques for crowdsourced bibliographic metadata management
US20120109638A1 (en) Electronic device and method for extracting component names using the same
Ohta et al. CRF-based bibliography extraction from reference strings focusing on various token granularities
US20090327210A1 (en) Advanced book page classification engine and index page extraction
Yurtsever et al. Figure search by text in large scale digital document collections
TW202025073A (zh) 文書檢索裝置、文書檢索程式、文書檢索方法
CN107066474A (zh) 文献搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant