CN102567463A

CN102567463A - 一种基于互联网的人物传记自动提取方法

Info

Publication number: CN102567463A
Application number: CN2011103865851A
Authority: CN
Inventors: 周文; 李辉
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2011-11-29
Filing date: 2011-11-29
Publication date: 2012-07-11

Abstract

本发明公开了一种基于互联网的人物传记自动提取方法，它的步骤如下：1、获取预置的与人物传记相关的网站集合，以数组保存，该数组记为传记类网站数组A；2、输入待检索的人物姓名搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中，该数组记为传记类网页脚本数组B；3、采用标签过滤工具对传记类网页脚本数组B中的各元素进行处理，将各网页的正文保存在传记数组中，该数组记为传记数组C；4、输入待生成的人物传记长度的字数，从传记数组C中提取一篇人物传记。该方法不仅能即时获取互联网上的信息用于人物传记生成，还能利用构建的人物信息相关文本库提取人物传记信息用于生成人物传记。

Description

一种基于互联网的人物传记自动提取方法

技术领域

本发明涉及的是一种基于互联网的人物传记自动提取方法，属于信息处理技术领域。

背景技术

随着互联网技术的迅猛发展，大量的信息以电子文档的形式保存在网络服务器上，面对大量的电子信息，如何从网络上这些无序的信息中及时准确的提取、整理，将无序的信息整理成人们感兴趣的信息，已成为一个亟待解决的难题。

人物传记的信息提取，它是从互联网中已有的信息提取出与人物相关的信息，整理成一篇与人物有关的传记。

Schiffman 在2001 年最早提出人物传记概念(Schiffman, Mani, Concepcion, Producing biographical summaries: Combining linguistic knowledge with corpus statistics[C].Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(ACL'2001).New Brunswick,New Jersey:Association for Computational Linguistics, 2001:450-457)，他把多文档摘要技术应用到人物传记抽取，设计了一个多文档人物传记自动摘要系统，利用在语料库上的统计信息和语言学知识，由计算机选择、合并针对新闻中人物的描述语句，从而形成一篇新闻人物的传记，它是将描述一个人物的多个文本的主要信息按一定的压缩比例提炼为一个简短的摘要。

人物传记方法是一种基于多文档的摘要方法的延伸，是将同一主题下的多个文本描述的的信息按一定的压缩比提炼为一个文本的自然语言处理方法。Miller(Miller.WordNet:A lexical database for English[C].Communications of the ACM,2004:39-41)认为不同于多文档摘要方法，传记方法是研究如何通过语义理解生成简洁的人物传记。

超文本标记语言HTML标签过滤工具主要是对网页的超文本标记语言HTML脚本中的标签进行过滤的一种工具，目前此类过滤工具已经很成熟，包括C++、Java、C#等多种主流语言均可以编写此类过滤工具。

爬虫技术是指，从互联网中爬取与预置信息有关系的网页，最后返回网页的链接和正文的一种技术。

美国南加州大学的Zhou、Ticrea 和Hovy在2004 年设计了一个英文的多文档传记摘要系统(Zhou, Ticrea, Hovy.Multi-document biography summarization [C]. Proceedings of EMNLP, 2004,434-441.)，该方法首先把句子定义为人物传记和非人物传记，其中人物传记的句子分为9类：个人简历信息、声望、个性、社会关系、受教育程度、国籍、丑闻、私人信息、工作信息和其它，然后，把句子分类，抽取描述人物传记的句子中各类型的句子组成一个人物传记。

目前，Zhou的方法是基于事件的英文人物传记提取方法，上述方法不能用于中文的人物传记提取，没有利用互联网，换言之，一方面，该方法只能提取英文的人物传记，不能提取中文的人物传记，原因是：上述方法中的英语与中文存在语言上的差异，涉及的语言处理技术、工具有较大的不同。比如，中文需要对文本先进行分词，而英文则不需要进行文本的分词操作；英文需要对词汇进行原形提取，而中文的词汇不存在时态、第三人称单数等变化，不需要进行原形提取。另一方面，现有的方法并不能即时从互联网上信息提取人物传记。

发明内容

鉴于现有的技术存在的问题和不足，本发明的目的在于提供一种基于互联网的人物传记自动提取方法，该方法不仅能从互联网上及时的获取人物信息，而且能从人物信息中提取人物传记。

为了达到上述的目的，本发明采用下述技术方案：

一种基于互联网的人物传记自动提取方法，它包括如下步骤：

步骤1、获取预置的与人物传记相关的网站集合，将该集合以数组的形式保存，该数组记为传记类网站数组A；

步骤2、输入待检索的人物姓名，对传记类网站数组A中的每一个网站分别对该姓名进行搜索，将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中，该数组记为传记类网页脚本数组B；

步骤3、采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理，将各网页的正文保存在传记数组中，该数组记为传记数组C；

步骤4、输入待生成的人物传记长度的字数，根据输入的人物传记的字数从传记数组C中提取一篇人物传记。

上述步骤1所述的获取预置的与人物传记相关的网站集合，将该集合以数组的形式保存，记该数组为传记类网站数组A，其中，对上述传记类网站数组A的索引从1开始进行编号，其索引号依次递增，传记类网站数组A中的元素的优先级随着索引号的递增依次递减，该优先级预置为人物传记相关的网站的优先级。

上述步骤2所述的输入待检索的人物姓名，传记类网站数组A中的每一个网站分别对该姓名进行搜索，将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中，该数组记为传记类网页脚本数组B，其中，对上述传记类网页脚本数组B中的索引依次递增编号，其索引号为1至n，传记类网页脚本数组B的索引号与传记类网站数组A的索引号一一对应，定义上述传记类网页脚本数组B中元素依次递增编排的索引号为传记类网页脚本数组B中的元素依次递减编排的优先级，该优先级为搜索后得到的每个网页的超文本标记语言HTML脚本的优先级

本发明的一种基于互联网的人物传记自动提取方法与现有技术相比较，具有如下实质性特点和显著的优点如下：该方法克服了现有的基于事件的英文人物传记提取方法存在的不能用于中文的提取人物传记及没有利用互联网知识库的缺陷，不仅能即时获取互联网上的信息用于人物传记生成，还能利用构建的人物信息相关文本库提取人物传记信息用于生成人物传记。

附图说明

图1是本发明的一种基于互联网的人物传记自动提取方法的流程图；

图2是图1中步骤2的流程图；

图3是图1中步骤3的流程图；

图4是图1中步骤4的流程图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明作进一步详细的说明。

参照图1，本发明的一种基于互联网的人物传记自动提取方法，其具体步骤如下：

步骤1、获取预置的与人物传记相关的网站集合，将该集合以数组的形式保存，该数组记为传记类网站数组A，其中，对上述传记类网站数组A的索引从1开始进行编号，其索引号依次递增，传记类网站数组A中的元素的优先级随着索引号的递增依次递减，该优先级预置为人物传记相关的网站的优先级，如表1所示，

表1 传记类网站数组A

索引号	数组元素
		1	http://wikipedia.jaylee.cn/
2	http://baike.baidu.com/
		3	http://www.hudong.com/
4	http://baike.soso.com/
		5	http://uleader.com/index.php/
6	http://bk.pps.tv/People.html

表1中，所列的传记类网站数组A结构，第1列中的数字为传记类网站数组A的索引从1开始依次递增编号，索引号小的那一行对应的数组元素的优先级高，传记类网站数组A中的第i个元素记为A[i]，从表1中可以看出，索引号为1的传记类网站数组元素A[1]=http://wikipedia.jaylee.cn/，索引号为2的传记类网站数组元素A[2]= http://baike.baidu.com/，因此，A[1]的优先级高于A[2] 的优先级,即 http://wikipedia.jaylee.cn/ 的优先级高于http://baike.baidu.com/的优先级。

步骤2、输入待检索的人物姓名，传记类网站数组A中的每一个网站分别对该姓名进行搜索，将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中，该数组记为传记类网页脚本数组B，其中，对上述传记类网页脚本数组B中的索引依次递增编号，其索引号为1至n，传记类网页脚本数组B的索引号与传记类网站数组A的索引号一一对应，定义上述传记类网页脚本数组B中元素依次递增编排的索引号为传记类网页脚本数组B中的元素依次递减编排的优先级，该优先级为搜索后得到的每个网页的超文本标记语言HTML脚本的优先级，如图2所示，其具体步骤如下：

21、输入待检索的人物姓名H，如“成龙”，记H=“成龙”，跳转到步骤22；

22、初始化一个整型变量i，当i=1，跳转到步骤23；

23、判断i是否大于传记类网站数组A的最大索引号，如果大于传记类网站数组A的最大索引号，则对传记类网站数组A读取结束，跳转到步骤27，否则跳转到步骤24；

24、读取传记类网站数组A中的第i个元素A[i]，在网站A[i]中搜索上述步骤21中所述的输入的人物名称H，将搜索后得到的网址记为W，跳转到步骤25，

如表1所示， A[1]= http://wikipedia.jaylee.cn/，H=“成龙”，在网址http://wikipedia.jaylee.cn/中搜索“成龙”，搜索后得到的网址为：http://zh.wikipedia.org/wiki/%E6%88%90%E9%BE%8D，记为：W=http://zh.wikipedia.org/wiki/%E6%88%90%E9%BE%8D；

25、采用网络爬虫技术爬取网站W的超文本标记语言HTML脚本，保存在传记类网页脚本数组B中，记为传记类网页脚本数组B的第i个元素，即B[i]，跳转到步骤26；

26、整型变量i=i+1，则跳转到步骤23；

27、输入待检索的人物姓名结束；

步骤3.采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理，将各网页的正文保存在传记数组中，该数组记为传记数组C，对传记数组C中的元素依次递增编排索引号，其索引号为1至n，传记数组C的索引号与传记类网页脚本数组B的索引号一一对应，定义上述传记数组C中的元素依次递增编排的索引号为传记数组C中的元素依次递减编排的优先级，该优先级为得到的各网页的正文的优先级，如图3所示，其具体步骤如下：

31、初始化一个整型变量i，当i=1，则跳转到步骤32；

32、判断i是否大于传记类网页脚本数组B的最大索引号，如果i大于传记类网页脚本数组B的最大索引号，则对传记类网页脚本数组B读取结束，转步骤36，否则跳转到步骤33；

33、读取传记类网页脚本数组B的第i个元素B[i],B[i]中保存的是各网站的超文本标记语言HTML脚本，采用现有的超文本标记语言HTML脚本处理工具对B[i]进行处理，获得超文本标记语言HTML脚本中的正文，将超文本标记语言HTML脚本中的正文的脚本正文记为J，跳转到步骤34;

34、将上述脚本正文J保存到传记数组C中，该传记数组C的第i个元素，记为C[i]，转到步骤35；

35、当整型变量i=i+1，则跳转到步骤32；

36、结束。

步骤4、输入待生成的人物传记长度的字数，根据输入的人物传记的字数从传记数组C中提取一篇人物传记，如图4所示，其具体步骤如下：

41、输入待生成的人物传记长度的字数N，例如N=500，表示待生成的人物传记的字数不超过500，跳转到步骤42；

42、建立一个空文档，该文档为文本类型的文档，记为T，初始化一个整型变量i，当i=1，跳到步骤43；

43、判断整型变量i是否大于传记数组C的最大索引号，如果i大于传记数组C的最大索引号，则对传记数组C读取结束，转步骤410，否则跳转到步骤44；

44、初始化一个整型变量j，当整型变量j=1，则跳转到步骤45;

45、传记数组C中保存的是网站脚本正文，C[i]为第i个网站脚本正文,判断j是否大于元素C[i]的最大行号，如果j大于元素C[i]的最大行号，则跳转到步骤46，否则，跳转到步骤47；

46、当整型变量i=i+1，跳转到步骤43；

47、判断文档T的字数是否大于N，如果文档T的字数大于N，则结束该步骤，跳410，否则跳转到步骤48；

48、将C[i]的第j行写入到文档T中，跳转到步骤49；

49、当整型变量j=j+1，跳转到步骤45

410、程序结束。

Claims

1.一种基于互联网的人物传记自动提取方法，它包括如下步骤：

步骤1、获取预置的与人物传记相关的网站集合，将该集合以数组的形式保存，记该数组为传记类网站数组A；

2.根据权利要求1所述的一种基于互联网的人物传记自动提取方法，其特征在于，上述步骤1所述的获取预置的与人物传记相关的网站集合，将该集合以数组的形式保存，记该数组为传记类网站数组A，其中，对上述传记类网站数组A中的索引从1开始进行编号，其索引号依次递增，传记类网站数组A中的元素的优先级随着索引号的递增依次递减，该优先级预置为人物传记相关的网站的优先级。

3.根据权利要求1所述的一种基于互联网的人物传记自动提取方法，其特征在于，上述步骤2所述的输入待检索的人物姓名，传记类网站数组A中的每一个网站分别对该姓名进行搜索，将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中，该数组记为传记类网页脚本数组B，其中，对上述对传记类网页脚本数组B中的索引依次递增编，其索引号为1至n，传记类网页脚本数组B的索引号与传记类网站数组A的索引号一一对应，定义上述传记类网页脚本数组B中元素依次递增编排的索引号为传记类网页脚本数组B中的元素依次递减编排的优先级，该优先级为搜索后得到的每个网页的超文本标记语言HTML脚本的优先级。

4.根据权利要求1所述的一种基于互联网的人物传记自动提取方法，其特征在于，上述步骤3所述的采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理，将各网页的正文保存在传记数组中，该数组记为传记数组C，对传记数组C中的元素依次递增编排索引号，其索引号为1至n，传记数组C的索引号与传记类网页脚本数组B的索引号一一对应，定义上述传记数组C中的元素依次递增编排的索引号为传记数组C中的元素依次递减编排的优先级，该优先级为得到的各网页的正文的优先级。

5.根据权利要求1所述的一种基于互联网的人物传记自动提取方法，其特征在于，上述步骤4所述的输入待生成的人物传记长度的字数，根据输入的人物传记的字数从传记数组C中提取一篇人物传记，如图4所示，其具体步骤如下：

44、初始化一个整型变量j，当整型变量j=1，则跳转到步骤45;

46、当整型变量i=i+1，跳转到步骤43；

48、将C[i]的第j行写入到文档T中，跳转到步骤49；

49、当整型变量j=j+1，跳转到步骤45；

410、程序结束。