CN108090223B

CN108090223B - 一种基于互联网信息的开放学者画像方法

Info

Publication number: CN108090223B
Application number: CN201810011616.7A
Authority: CN
Inventors: 牛海波; 罗威; 尹忠博; 毛彬; 田昌海
Original assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Current assignee: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2020-05-12
Anticipated expiration: 2038-01-05
Also published as: CN108090223A

Abstract

本发明公开了一种基于互联网信息的实现开放学者画像方法，所述方法包括：步骤1)利用训练语料，训练主页排序模型和LSTM序列标注模型；步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果，利用爬虫获取检索结果信息作为开放学者候选页；步骤3)对于每个开放学者候选页，利用步骤1)训练好的主页排序模型，按照主页概率排序获取候选主页概率列表，从中选取前两个主页作为候选主页，对主页内容进行图片识别和Email抽取，利用抽取结果对两个候选主页做二次判断，选取其中一个候选主页作为最终的学者个人主页；步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息，结合步骤3)的信息抽取结果，实现开放学者的画像。

Description

一种基于互联网信息的开放学者画像方法

技术领域

本发明涉及信息抽取技术领域，尤其涉及学者具有个人学术主页信息的文本信息抽取技术领域，具体涉及一种基于互联网信息的实现开放学者画像方法。

背景技术

随着信息技术和互联网技术的快速发展，各个学术系统的出现，为科研人员的研究工作带来了极大的便利。对于学术系统而言，如何能够提供高质量的信息服务是其非常重要的问题。学者相关的信息服务是学术系统中重要的组成部分，因此如何有效地分析挖掘学者信息成为了学术系统的一个基础性问题。同时，越来越多的学者在互联网上建立了个人主页，充分利用这些信息，实现学者信息的准确识别、相关信息抽取是构建学者学术画像的有效途径。

传统的主页识别与学者画像抽取一般通过以下步骤：一是利用搜索引擎获取学者搜索结果，并训练一个二分类器判断返回的网页是否是该研究者的个人主页或者是该研究者的介绍性网页；二是利用手工编制模板或传统CRF方法来进行序列标注，抽取学者名字、照片、职位、工作单位、Email等属性信息。

而由于现有的学者变动更频繁，社交网络、博客等多方面干扰信息更多，传统方法存在主页识别错误率高、信息抽取的准确率和召回率不高的问题。而学者画像是学术系统的基础性问题，为知识图谱、技术发展分析、科研管理等多种应用的基础性工作，实现学者精准画像具有重要意义。

发明内容

本发明的目的在于解决利用互联网搜索引擎信息实现学者精准画像的问题。区别于传统方法，本发明认为排序学习更适应于学者主页判定问题。针对搜索学者与其机构返回的搜索引擎检索结果，充分利用学者姓名及相关学术特征，构建高精度的学者主页判别器，并充分利用学者姓名、照片、单位等多种信息的不同特点，构建集合正则表达式、模式判断、神经网络序列标注模型等多种抽取方法的学者信息抽取技术，实现学者的精准画像。

为了实现上述目的，本发明提出了一种基于互联网信息的开放学者画像方法，所述方法包括：

步骤1)利用训练语料，训练主页排序模型和LSTM序列标注模型；

步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果，利用爬虫获取检索结果信息作为开放学者候选页；

步骤3)对于每个开放学者候选页，利用步骤1)训练好的主页排序模型，按照主页概率排序获取候选主页概率列表，从中选取前两个主页作为候选主页，对主页内容进行图片识别和Email抽取，利用抽取结果对两个候选主页做二次判断，选取其中一个候选主页作为最终的学者个人主页；

步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息，结合步骤3)的信息抽取结果，实现开放学者的画像。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)对于若干个开放学者，利用搜索引擎实现学者姓名和机构的联合检索结果，利用爬虫获取检索结果信息作为开放学者候选页面采集；

步骤1-2)人工标注主页及待抽取信息，形成训练语料；

步骤1-3)利用已标注好的主页语料数据，利用候选主页是否包含“～”、“edu”、“profile”字符特征、学者姓名与网址匹配度URL特征，以及网页标题是否包含学者姓名、是否包含“professor”、“homepage”组合特征，利用LambdaMART算法训练排序模型；

步骤1-4)针对国家/职位信息，使用语料数据，训练LSTM序列标注模型，从确定的主页信息中抽取国家/职位信息。

作为上述方法的一种改进，所述步骤3)具体包括：

步骤3-1)对于排序模型生成的候选主页概率列表，从列表中选取前两个候选主页A和B；

步骤3-2)针对候选主页A的个人照片信息，利用姓名和图片文件名匹配程度，集合图片中人脸识别结果及人物个数，综合判定此图片是否为学者个人照片；如果是，转入步骤3-3)，否则，转入步骤3-6)；

步骤3-3)利用开源工具face_classification对学者个人照片进行处理，判断学者性别；

步骤3-4)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email；

步骤3-5)候选主页A为最终的学者个人主页；进入步骤4)；

步骤3-6)针对候选主页B的个人照片信息，利用姓名和图片文件名匹配程度，集合图片中人脸识别结果及人物个数，综合判定此图片是否为学者个人照片；如果是，转入步骤3-7)，否则，转入步骤3-4)；

步骤3-7)利用开源工具face_classification对学者个人照片进行处理，判断学者性别；

步骤3-8)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email；

步骤3-9)候选主页B为最终的学者个人主页。

本发明的优势在于：

1、本发明的方法充分利用了搜索引擎信息，极大降低了信息来源成本；

2、本发明的方法充分利用了学者与主页的关联特征，重新定义了问题模型，获得了优于传统方法的主页判定准确度；

3、本发明的方法利用了主页抽取结果对主页进行二次判定，进一步提高了主页判断准确率；

4、本发明针对抽取的学者信息的不同类型，综合利用了模式匹配、正则表达式、神经网络序列标注、人脸识别等多种技术方法，达成了很好的抽取效果。

附图说明

图1为本发明的学者主页判定示意图；

图2为本发明的学者主页信息抽取示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

利用开放信息进行学者画像主要分为三个部分。一是学者候选页面采集，利用搜索引擎实现学者姓名和机构的联合检索结果，利用爬虫获取检索结果网页信息；二是人工标注主页及待抽取信息，形成训练语料；三是是学者主页判定，利用已获取的搜索结果信息，分析判断正确的学者主页；四是利用已判定的学者主页抽取如Email、性别、照片、国家等待抽取学者信息。接下来详细讲述学者主页判定和学者主页信息抽取。

步骤1)学者主页判定；

图1所示为学者主页判定示意图，从搜索列表中判定正确的学者主页，其过程主要分为设计特征、训练排序模型、候选主页生成三个步骤。该方法具体包括：

步骤1-1)设计特征，利用是否包含”～”、”edu”、“profile”等字符特征、学者姓名与网址匹配度等URL特征，以及网页标题是否包含学者姓名、是否包含”professor”、“homepage”等特征以及检索结果返回的排序信息，利用这些标识特点明显的特征作为学者主页判断组合特征。

步骤1-2)训练排序模型，利用已标注好的语料数据，利用排序LambdaMART算法，对搜索结果主页进行训练排序，获取按照主页概率排序的候选主页概率列表。

步骤1-3)选取候选主页列表中概率大于一定阈值的两个主页结果作为候选主页，对主页内容进行图片识别和Email抽取，利用抽取结果对候选主页做二次判断，将具有更好结果的候选主页作为最终的学者个人主页。

步骤2)学者信息抽取；

图2所示为学者信息抽取示意图，在上一步骤确定最终的个人主页后，针对不同抽取对象分别设计抽取方法。具体包含以下几步：

步骤2-1)针对个人照片信息，利用姓名和图片文件名匹配程度，集合图片中人脸识别结果及人物个数，综合判定此图片是否为学者个人照片；

步骤2-2)利用开源工具face_classification对学者个人照片进行处理，判断学者性别；

步骤2-3)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置等信息综合判定待抽取的学者Email；

步骤2-4)针对国家/职位信息，使用语料数据，训练LSTM序列标注模型，从确定的主页信息中抽取国家/职位信息；

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于互联网信息的实现开放学者画像方法，所述方法包括：

步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息，结合步骤3)的信息抽取结果，实现开放学者的画像；

所述步骤1)具体包括：

步骤1-2)人工标注主页及待抽取信息，形成训练语料；

2.根据权利要求1所述的基于互联网信息的实现开放学者画像方法，其特征在于，所述步骤3)具体包括：

步骤3-5)候选主页A为最终的学者个人主页；进入步骤4)；

步骤3-9)候选主页B为最终的学者个人主页。