CN1687924A - 互联网人物信息搜索引擎的生成方法 - Google Patents
互联网人物信息搜索引擎的生成方法 Download PDFInfo
- Publication number
- CN1687924A CN1687924A CN 200510011644 CN200510011644A CN1687924A CN 1687924 A CN1687924 A CN 1687924A CN 200510011644 CN200510011644 CN 200510011644 CN 200510011644 A CN200510011644 A CN 200510011644A CN 1687924 A CN1687924 A CN 1687924A
- Authority
- CN
- China
- Prior art keywords
- personage
- search engine
- name
- attribute
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网信息搜索引擎技术领域,互联网人物相关信息的搜索引擎的生成方法。方法包括:S1,针对人物的数据预处理,主要包括网页去重、网页噪音过滤;S2,同名人物的判别和人物履历的填充,S3:人物事件报道的组织;S4,人物知名度变化的统计。本发明适用于建立大规模商用人物相关信息的搜索引擎。
Description
技术领域
本发明涉及互联网信息搜索引擎技术领域,更具体地说,本发明涉及互联网人物相关信息的搜索引擎的生成方法。
背景技术
随着互联网的发展,人们对互联网信息服务的需求正呈现多样化发展的趋势,传统的搜索引擎并不能完全满足这种要求。尽管目前流行的信息服务形式很多,例如“图片搜索”、“歌曲/歌词搜索”、“热点新闻搜索”等,但从人物角度来组织信息的服务还不常见。目前已经公开的技术只能根据提交的人名关键词返回含有该人名的原始网页,处理的精细程度不够;或只能对部分名人的信息进行较精细的处理,返回相关名人的特征属性和特征人群,所能处理的人物范围有限。在这种情况下,人们要想了解一个在互联网上出现过的人物的信息,往往不得不借助于通用领域的搜索引擎,例如Google等,键入相关的人名,得到返回页面,其中不乏与同名同姓的不同人物相关的页面,也不乏与人物姓名词形相同的非人物实体;页面只是采取简单罗列的方式,未根据人物的特征进行整理,用户无法对所关注人物的信息进行清晰的把握。
发明内容
本发明的目的在于克服现有技术的缺点,解决目前无法对人物信息进行大规模有效处理的问题,提供一种新颖实用的互联网人物搜索引擎的生成方法。
本发明的目的通过下述技术方案予以实现。
本发明提供的互联网人物搜索引擎所呈现的人物相关信息主要包括人物的履历和人物的事件报道专集以及人物的知名度变化统计图。制作人物履历就是从网页中自动抽取出该人物的属性信息和特定类型的事件信息,并把分散的各种属性、特定类型事件信息进行整合,形成完整的生平履历。制作人物的事件报道专集,就是把人物参与的事件报道按照内在发展逻辑有效地组织起来,形成清晰的逻辑结构。在具体流程上,主要有以下四个步骤:针对人物的数据预处理,主要包括网页去重、网页噪音过滤、人名的识别、人物对应语段的确定、时间标签的确定、人物属性的抽取、人物特定类型事件的抽取等;同名人物的判别和人物履历的填充,主要是对人名出现的上下文进行影响范围划分,使得在同一分区里的人名,在真实世界里“指称”同一个人,并对同一人物的履历信息进行填充;人物事件报道的组织,主要是把与同一人物相关的活动报道按照事件的发展逻辑组织起来,形成清晰的逻辑结构;人物知名度变化的统计,主要是生成人物知名度变化的曲线图。
搜索引擎接受用户输入的人名,首先让搜索引擎向用户呈现同名人物的信息,等待用户点击具体某一人物时再向用户提供该人物的具体信息。
人物履历信息的生成采用同名人物的判别,以及人物属性抽取或人物特定事件抽取来完成。
人物属性的抽取采用机器学习训练二元分类器的方法来实现。
同名人物的判别采用数值属性计算或类属性、数值属性计算相混合的聚类方法来实现。
人物事件报道的组织在同名人物判别的基础上,采用对同一人物的网页内容或网页内容片断进行聚类的方法来实现。
人物知名度变化的统计在同名人物判别的基础上,采用计算单位时间内人名在报道中的出现的方法来实现。
本发明与现有技术相比,有如下优点:
1.克服了同名人物和非人物返回页面的问题,这样就可以减少跟人物不相关的信息的冗余,降低用户的阅读工作量。
2.提供了人物的履历,这样就可以简明清晰地突出人物的主要特征。
3.提供了人物的活动报道专集,这样可以克服传统技术返回的人物相关页面杂乱无章的局面。
4.提供了人物知名度的变化统计图,这样可以呈现人物在互联网上的知名变化程度。
我们组织人力手工标注了万篇级的语料,语料涉及20个人名,分属不同的领域和不同的知名程度。语料来源于“百度”搜索引擎中的新闻搜索所返回的人物相关网页。我们在这个语料上做了相关的实验,其人物属性抽取的平均性能达到79.41%,同名人物判别的平均性能达到91.69%(只对人名周边词场进行数值计算的方法进行聚类,性能达到86.49%;对人名周边词场和人物属性进行类属性与数值属性混合计算来聚类,性能达到91.69%);我们没有标注人物参与的事件的语料,但在新闻事件组织方面有国际标准评测,叫做“话题识别与跟踪”(topicdetection and tracking),我们的技术在世界著名研究机构中,处于领先地位。我们认为其技术完全适用于对人物事件的组织。互联网人物信息搜索引擎的生成涉及的其它技术问题采用目前已经公开的技术可以得到有效解决。
附图说明
图1示出人物搜索引擎生成方法的文档处理流程图。
具体实施方法
下面结合附图和具体实施方式对本发明作进一步的描述。
如图1所示,按照对文档的处理流程,人物信息搜索引擎的生成方法可大致分为以下四个步骤:数据预处理、同名人物的判别及履历信息的填充、人物事件报道的组织和人物知名度变化的统计。
步骤S1:在数据预处理阶段,系统只接受收集到的新闻网站上的网页,然后对各个网页顺序处理,包括网页去重、网页噪音过滤、人名的识别、人物对应语段的确定、时间标签的确定、人物属性的抽取、人物特定类型事件的抽取等。
网页去重可以采用目前成熟的技术。对于人物信息搜索引擎来说,除了新闻正文和标题,其它内容均可视为网页噪音,这些噪音可以通过对页面源文件的解析来去除,目前该项技术也已经成熟。
人名的识别需要借助于词法分析工具,所用工具必须具有词性标注和命名实体识别的功能。目前,世界上大多数语种都有性能比较好的相关工具,其中,在汉语词法分析方面,根据其使用的方法不同,大致可分为三种:规则方法,统计方法以及规则与统计相结合的方法。目前效果比较好的是采用Viterbi算法对切词结果进行角色标注,然后进行模式最大匹配的方法。该方法人名识别的正确率和召回率分别达到95.57%和95.23%,能够达到实用的要求。
在一篇新闻报道中,跟一个人物相关的语段范围是有限的,它往往不是全文,而只是报道的一部分,所以需要挖掘出人物在报道中相关的语段。在做法上,可以利用一些启发式知识,以人名及其指代词为中心来对文档进行分割。这些启发式知识主要是利用人名相关词在文档中的位置分布来确定人物的作用范围,例如:如果人名出现在报道的标题和正文第一段,则它的作用范围是新闻全篇;出现在其它段落,则作用范围是当前段落;如果与某一段落相邻的其它语段都是有效段落,则它也成为有效段落等。这样,如果一篇报道描述了N个人,我们就对该报道确立出N个语段的集合{P1,P2,...,PN},分别与这N个人相对应。
时间是构成新闻的一个重要因素。在这里,时间标签的选取可以采用新闻报道本身的时间戳记,也可以对人物对应语段Pi(1≤i≤N)中的时间表达式进行识别和规范化处理,采用对基准日期和相对日期进行时制计算的方法来确定。目前该项技术已经可以实用化。
确定人物对应的语段后,还要从相关语段中抽取出人物的属性信息,诸如性别、年龄、民族、籍贯、出生年月、职位、住址及亲属关系等,为后续处理做准备。抽取人物的属性,可以事先手工标注一定规模的训练集,然后选取人名和某一属性周边若干数目的词,对这些词进行语义聚类,形成特征向量,并统计出各个语义词在特征向量中的权重;根据特征向量和标注的答案,训练出人名和属性的二元关系分类器,具体分类算法可选用SVM、Winnow等。分类器训练好之后,就可对新的候选单句判断其是否包含人名和属性的二元关系。为了识别出人物的属性,需要事先建立若干触发词库,如把语义上位是“职位”的词语作为“人物职位”的触发词库(汉语词语的语义上位可通过查“知网”来获取);把地名短语作为“人物住址”的触发词库等。在词法分析的结果中,寻找一定窗口内人名和满足触发条件的词语,利用简单规则的方法寻求该触发词对应的最大名词短语和并列短语,挖掘出它们对应的特征向量,然后跟分类器进行比较,相似度大于预设阈值的就是该人物的属性。
如下是在分词结果上进行训练语料标注的一种格式:
人物职位语料:
1)[东安县职业中专/nt 校长/n][李华/nr]被/pbei 授予/v[永州市/ns 优秀/a 教育工作者/n]荣誉/n 称号/n
2)[李华/nr]9/m 次/qv 被/pbei 评为/v[县/n 先进/a 教育工作者/n]
人物住址语料:
1)[李华/nr],/wd 家/n 住/vi[北京市/ns 海淀区/ns]
2)一个/mq“/wyz[濮阳县城关镇/nt 南环/ns 西路/ns 163/m 号/q][李华/nr]”/wyy的/udel汇款/n 地址/n
人物亲属关系语料:
1)姐妹/n 俩/m[李中/nr]和/cc[李华/nr]
2)那/rzv 妇女/n 名叫/v[赵桂花/nr],/wd 这天/rzt 打算/v 带/v 着/uzhe儿子/n[李华/nr] 从/p 深圳/ns 乘/v 1506/m 次/qv 列车/n 回/v 江西/ns 老家/n
人物性别语料:
1)[李华/nr],/wd[男/b],/wd 住/vi 广西/ns 全州县/ns 全州/n 镇/n黄中路/ns 95/m 号/q
2)[李华/nr][先生/n]被/pbei 任命/v 为/v 东安/nz 四中/n 校长/n
人物特定类型事件的抽取主要是抽取出对一个人物来说比较重要的事件类型,例如“毕业升学”、“职业变动”等,因为这些类型的事件能够反映人物的成长经历,且往往出现在一个单句中,易于识别。具体做法上,可以应用事件信息抽取的方法。事件信息抽取就是从文档中识别出某个事件发生的时间、地点、事件的参与者、造成的后果等信息,填入预先设定的模板槽中。这些类型的事件信息的抽取可采取模式匹配法,以“加入”、“当选”、“担任”、“考入”等词汇为触发特征来进行模式的获取和匹配。目前特定类型事件的抽取已经达到实用的性能。
步骤S2:在同名人物判别及履历信息的填充阶段,系统需要对数据预处理阶段生成的人物信息片断做进一步的处理,不仅要把代表不同人物的信息片断区分开,还要对同一人物的信息片断进行有机整合,形成完整的人物履历。同名人物判别就是要把代表同一人物的信息片断归结在一起,其过程可采用聚类的方法,参与聚类的数据主要是同一姓名对应的信息片断,可以利用的特征包括人物的属性信息,人名周边的词场以及与该人名共现的其它人名等。在一般的聚类算法中,点之间的相似度或距离是采用数字化的方式来度量的;然而,并不是所有的相似度都适合采用数字化的方式来度量,例如,两个职业概念之间的相似度,“律师”和“法官”。所以,同名人物的判别应该采用类属性和数值属性相结合来进行聚类的方法。具体做法上,可以首先按照人物关键属性的匹配,例如“出生年月”、“亲属关系”,或失配,例如“性别”、“民族”,把同名人物的信息片断聚合成若干紧密的团,再对这些团利用词场相似度计算或词场相似度与布尔属性(职位、共现人名等)匹配计算相结合的方法来进一步聚类。
在进行同名人物判别的同时,还要把代表相同人物的信息片断进行合并。其中,普通词场的合并比较简单,进行词频向量的并集操作即可;人物的属性及人物特定类型的事件信息需要经过同一性判断之后再进行合并。通过制定人物履历模板,就可以生成人物的履历信息。
步骤S3:人物事件报道的组织,即制作人物的事件报道专集,就是把人物参与的事件的报道按照内在发展逻辑有效地组织起来,形成清晰的逻辑结构。在具体做法上,可以借鉴话题识别与跟踪(topic detection andtracking,简称TDT)的方法。话题识别与跟踪能够把具有事件内在发展逻辑的报道以话题的形式组织在一起。例如,把所有关于“非典”话题的报道组织在一起,其中包括政治、经济、医学等方方面面的描述,它们的内容相似度也许并不高,但是有内在的逻辑联系。与话题识别与跟踪不同的是,人物事件报道的组织仅仅把同一人物参与的围绕不同事件的报道组织在一起,即以同一人物在文本中对应的语段为基本的处理单位,采用聚类的技术,形成若干个话题。可以把事件组织成同一粒度的扁平结构,也可以组织成层次化的结构,层次化的结构能够体现事件之间的层次包容关系,这样更加符合事件的特点。
步骤S4:人物的知名度变化可以用一个曲线图来表示。有了同名人物判别的基础,知名度变化的统计变得相对简单,可以利用一些启发式知识来判断。这些启发式知识包括:人物在新闻标题或正文开头出现的数量;在新闻正文中被引用的数量;人物相关网页在搜索引擎中的排名情况;报道人物信息的新闻媒体的级别程度等等。可以对这些信息赋予不同的权重来进行加权求和。通过一段时间内相关信息的统计值来判断某一人物的知名度变化。
Claims (7)
1.一种互联网人物信息搜索引擎的生成方法,该方法包括下列步骤:
步骤S1,针对人物的数据预处理,主要包括网页去重、网页噪音过滤、人名的识别、人物对应语段的确定、时间标签的确定、人物属性的抽取、人物特定类型事件的抽取;
步骤S2,同名人物的判别和人物履历的填充,主要是采用聚类的技术对同名人物的信息进行区分,并对同一人物的履历信息进行填充;
步骤S3,人物事件报道的组织,主要是把与同一人物相关的活动报道采用聚类技术按照事件的发展逻辑组织起来,形成清晰的逻辑结构;
步骤S4,人物知名度变化的统计,主要是通过统计人物报道的相关特征来分析人物的知名度变化。
2.根据权利要求1所述的人物搜索引擎的生成方法,其特征是,搜索引擎接受用户输入的人名,首先让搜索引擎向用户呈现同名人物的信息,等待用户点击具体某一人物时再向用户提供该人物的具体信息。
3.根据权利要求1所述的人物搜索引擎的生成方法,其特征是,人物履历信息的生成采用同名人物的判别,以及人物属性抽取或人物特定事件抽取来完成。
4.根据权利要求3所述的人物搜索引擎的生成方法,其特征是,人物属性的抽取采用机器学习训练二元分类器的方法来实现。
5.根据权利要求1所述的人物搜索引擎的生成方法,其特征是,同名人物的判别采用数值属性计算或类属性、数值属性计算相混合的聚类方法来实现。
6.根据权利要求1所述的人物搜索引擎的生成方法,其特征是,人物事件报道的组织在同名人物判别的基础上,采用对同一人物的网页内容或网页内容片断进行聚类的方法来实现。
7.根据权利要求1所述的人物搜索引擎的生成方法,其特征是,人物知名度变化的统计在同名人物判别的基础上,采用计算单位时间内人名在报道中的出现的方法来实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510011644 CN1687924A (zh) | 2005-04-28 | 2005-04-28 | 互联网人物信息搜索引擎的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510011644 CN1687924A (zh) | 2005-04-28 | 2005-04-28 | 互联网人物信息搜索引擎的生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1687924A true CN1687924A (zh) | 2005-10-26 |
Family
ID=35305965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200510011644 Pending CN1687924A (zh) | 2005-04-28 | 2005-04-28 | 互联网人物信息搜索引擎的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1687924A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100470549C (zh) * | 2007-08-21 | 2009-03-18 | 南京新恺拓网络技术有限公司 | 一种表格定位的数据挖掘方法 |
CN101192220B (zh) * | 2006-11-21 | 2010-09-15 | 财团法人资讯工业策进会 | 适用于资源搜寻的标签建构方法及系统 |
CN102053997A (zh) * | 2009-10-29 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种人物踪迹的搜索方法及装置 |
CN102063428A (zh) * | 2009-11-17 | 2011-05-18 | 腾讯科技(深圳)有限公司 | 互联网信息中重名人物的处理方法及系统 |
CN102567463A (zh) * | 2011-11-29 | 2012-07-11 | 上海大学 | 一种基于互联网的人物传记自动提取方法 |
CN102831128A (zh) * | 2011-06-15 | 2012-12-19 | 富士通株式会社 | 一种对互联网上的同名人物信息进行分类的方法及装置 |
CN102880623A (zh) * | 2011-07-13 | 2013-01-16 | 富士通株式会社 | 同名人物搜索方法及系统 |
CN103778162A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种互联网人物搜索信息整合分析方法 |
CN105589863A (zh) * | 2014-10-22 | 2016-05-18 | 腾讯科技(深圳)有限公司 | 一种搜索方法及数据处理方法、装置及系统 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
CN107908749A (zh) * | 2017-11-17 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种基于搜索引擎的人物检索系统及方法 |
CN110232125A (zh) * | 2019-06-11 | 2019-09-13 | 吉林大学 | 一种进行学术人物信息抽取和聚合的方法 |
CN113157996B (zh) * | 2020-01-23 | 2022-09-16 | 久瓴(上海)智能科技有限公司 | 文档信息处理方法、装置、计算机设备及可读存储介质 |
-
2005
- 2005-04-28 CN CN 200510011644 patent/CN1687924A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192220B (zh) * | 2006-11-21 | 2010-09-15 | 财团法人资讯工业策进会 | 适用于资源搜寻的标签建构方法及系统 |
CN100470549C (zh) * | 2007-08-21 | 2009-03-18 | 南京新恺拓网络技术有限公司 | 一种表格定位的数据挖掘方法 |
CN102053997A (zh) * | 2009-10-29 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种人物踪迹的搜索方法及装置 |
CN102053997B (zh) * | 2009-10-29 | 2014-06-18 | 腾讯科技(深圳)有限公司 | 一种人物踪迹的搜索方法及装置 |
CN102063428A (zh) * | 2009-11-17 | 2011-05-18 | 腾讯科技(深圳)有限公司 | 互联网信息中重名人物的处理方法及系统 |
CN102063428B (zh) * | 2009-11-17 | 2014-10-15 | 深圳市世纪光速信息技术有限公司 | 互联网信息中重名人物的处理方法及系统 |
CN102831128B (zh) * | 2011-06-15 | 2015-03-25 | 富士通株式会社 | 一种对互联网上的同名人物信息进行分类的方法及装置 |
CN102831128A (zh) * | 2011-06-15 | 2012-12-19 | 富士通株式会社 | 一种对互联网上的同名人物信息进行分类的方法及装置 |
CN102880623A (zh) * | 2011-07-13 | 2013-01-16 | 富士通株式会社 | 同名人物搜索方法及系统 |
CN102880623B (zh) * | 2011-07-13 | 2015-09-09 | 富士通株式会社 | 同名人物搜索方法及系统 |
CN102567463A (zh) * | 2011-11-29 | 2012-07-11 | 上海大学 | 一种基于互联网的人物传记自动提取方法 |
CN103778162A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种互联网人物搜索信息整合分析方法 |
CN105589863A (zh) * | 2014-10-22 | 2016-05-18 | 腾讯科技(深圳)有限公司 | 一种搜索方法及数据处理方法、装置及系统 |
CN105589863B (zh) * | 2014-10-22 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 一种搜索方法及数据处理方法、装置及系统 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
CN107908749A (zh) * | 2017-11-17 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种基于搜索引擎的人物检索系统及方法 |
CN110232125A (zh) * | 2019-06-11 | 2019-09-13 | 吉林大学 | 一种进行学术人物信息抽取和聚合的方法 |
CN110232125B (zh) * | 2019-06-11 | 2020-10-02 | 吉林大学 | 一种进行学术人物信息抽取和聚合的方法 |
CN113157996B (zh) * | 2020-01-23 | 2022-09-16 | 久瓴(上海)智能科技有限公司 | 文档信息处理方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1687924A (zh) | 互联网人物信息搜索引擎的生成方法 | |
US10706113B2 (en) | Domain review system for identifying entity relationships and corresponding insights | |
Yang et al. | Near-duplicate detection by instance-level constrained clustering | |
Agirre et al. | Enriching WordNet concepts with topic signatures | |
CN110059311A (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
Martins et al. | Language identification in web pages | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
US20110112995A1 (en) | Systems and methods for organizing collective social intelligence information using an organic object data model | |
US20050234904A1 (en) | Systems and methods that rank search results | |
Yin et al. | Facto: a fact lookup engine based on web tables | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
Park et al. | Aspect-level news browsing: Understanding news events from multiple viewpoints | |
CN113076411A (zh) | 一种基于知识图谱的医疗查询扩展方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
Carrasco et al. | A new model for linguistic summarization of heterogeneous data: an application to tourism web data sources | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
Phan et al. | Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |