CN108090223B - 一种基于互联网信息的开放学者画像方法 - Google Patents

一种基于互联网信息的开放学者画像方法 Download PDF

Info

Publication number
CN108090223B
CN108090223B CN201810011616.7A CN201810011616A CN108090223B CN 108090223 B CN108090223 B CN 108090223B CN 201810011616 A CN201810011616 A CN 201810011616A CN 108090223 B CN108090223 B CN 108090223B
Authority
CN
China
Prior art keywords
homepage
candidate
student
information
utilizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810011616.7A
Other languages
English (en)
Other versions
CN108090223A (zh
Inventor
牛海波
罗威
尹忠博
毛彬
田昌海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA
Original Assignee
Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Military Science Information Research Center Of Military Academy Of Chinese Pla filed Critical Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority to CN201810011616.7A priority Critical patent/CN108090223B/zh
Publication of CN108090223A publication Critical patent/CN108090223A/zh
Application granted granted Critical
Publication of CN108090223B publication Critical patent/CN108090223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于互联网信息的实现开放学者画像方法,所述方法包括:步骤1)利用训练语料,训练主页排序模型和LSTM序列标注模型;步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页;步骤3)对于每个开放学者候选页,利用步骤1)训练好的主页排序模型,按照主页概率排序获取候选主页概率列表,从中选取前两个主页作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对两个候选主页做二次判断,选取其中一个候选主页作为最终的学者个人主页;步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息,结合步骤3)的信息抽取结果,实现开放学者的画像。

Description

一种基于互联网信息的开放学者画像方法
技术领域
本发明涉及信息抽取技术领域,尤其涉及学者具有个人学术主页信息的文本信息抽取技术领域,具体涉及一种基于互联网信息的实现开放学者画像方法。
背景技术
随着信息技术和互联网技术的快速发展,各个学术系统的出现,为科研人员的研究工作带来了极大的便利。对于学术系统而言,如何能够提供高质量的信息服务是其非常重要的问题。学者相关的信息服务是学术系统中重要的组成部分,因此如何有效地分析挖掘学者信息成为了学术系统的一个基础性问题。同时,越来越多的学者在互联网上建立了个人主页,充分利用这些信息,实现学者信息的准确识别、相关信息抽取是构建学者学术画像的有效途径。
传统的主页识别与学者画像抽取一般通过以下步骤:一是利用搜索引擎获取学者搜索结果,并训练一个二分类器判断返回的网页是否是该研究者的个人主页或者是该研究者的介绍性网页;二是利用手工编制模板或传统CRF方法来进行序列标注,抽取学者名字、照片、职位、工作单位、Email等属性信息。
而由于现有的学者变动更频繁,社交网络、博客等多方面干扰信息更多,传统方法存在主页识别错误率高、信息抽取的准确率和召回率不高的问题。而学者画像是学术系统的基础性问题,为知识图谱、技术发展分析、科研管理等多种应用的基础性工作,实现学者精准画像具有重要意义。
发明内容
本发明的目的在于解决利用互联网搜索引擎信息实现学者精准画像的问题。区别于传统方法,本发明认为排序学习更适应于学者主页判定问题。针对搜索学者与其机构返回的搜索引擎检索结果,充分利用学者姓名及相关学术特征,构建高精度的学者主页判别器,并充分利用学者姓名、照片、单位等多种信息的不同特点,构建集合正则表达式、模式判断、神经网络序列标注模型等多种抽取方法的学者信息抽取技术,实现学者的精准画像。
为了实现上述目的,本发明提出了一种基于互联网信息的开放学者画像方法,所述方法包括:
步骤1)利用训练语料,训练主页排序模型和LSTM序列标注模型;
步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页;
步骤3)对于每个开放学者候选页,利用步骤1)训练好的主页排序模型,按照主页概率排序获取候选主页概率列表,从中选取前两个主页作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对两个候选主页做二次判断,选取其中一个候选主页作为最终的学者个人主页;
步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息,结合步骤3)的信息抽取结果,实现开放学者的画像。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)对于若干个开放学者,利用搜索引擎实现学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页面采集;
步骤1-2)人工标注主页及待抽取信息,形成训练语料;
步骤1-3)利用已标注好的主页语料数据,利用候选主页是否包含“~”、“edu”、“profile”字符特征、学者姓名与网址匹配度URL特征,以及网页标题是否包含学者姓名、是否包含“professor”、“homepage”组合特征,利用LambdaMART算法训练排序模型;
步骤1-4)针对国家/职位信息,使用语料数据,训练LSTM序列标注模型,从确定的主页信息中抽取国家/职位信息。
作为上述方法的一种改进,所述步骤3)具体包括:
步骤3-1)对于排序模型生成的候选主页概率列表,从列表中选取前两个候选主页A和B;
步骤3-2)针对候选主页A的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-3),否则,转入步骤3-6);
步骤3-3)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-4)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-5)候选主页A为最终的学者个人主页;进入步骤4);
步骤3-6)针对候选主页B的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-7),否则,转入步骤3-4);
步骤3-7)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-8)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-9)候选主页B为最终的学者个人主页。
本发明的优势在于:
1、本发明的方法充分利用了搜索引擎信息,极大降低了信息来源成本;
2、本发明的方法充分利用了学者与主页的关联特征,重新定义了问题模型,获得了优于传统方法的主页判定准确度;
3、本发明的方法利用了主页抽取结果对主页进行二次判定,进一步提高了主页判断准确率;
4、本发明针对抽取的学者信息的不同类型,综合利用了模式匹配、正则表达式、神经网络序列标注、人脸识别等多种技术方法,达成了很好的抽取效果。
附图说明
图1为本发明的学者主页判定示意图;
图2为本发明的学者主页信息抽取示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
利用开放信息进行学者画像主要分为三个部分。一是学者候选页面采集,利用搜索引擎实现学者姓名和机构的联合检索结果,利用爬虫获取检索结果网页信息;二是人工标注主页及待抽取信息,形成训练语料;三是是学者主页判定,利用已获取的搜索结果信息,分析判断正确的学者主页;四是利用已判定的学者主页抽取如Email、性别、照片、国家等待抽取学者信息。接下来详细讲述学者主页判定和学者主页信息抽取。
步骤1)学者主页判定;
图1所示为学者主页判定示意图,从搜索列表中判定正确的学者主页,其过程主要分为设计特征、训练排序模型、候选主页生成三个步骤。该方法具体包括:
步骤1-1)设计特征,利用是否包含”~”、”edu”、“profile”等字符特征、学者姓名与网址匹配度等URL特征,以及网页标题是否包含学者姓名、是否包含”professor”、“homepage”等特征以及检索结果返回的排序信息,利用这些标识特点明显的特征作为学者主页判断组合特征。
步骤1-2)训练排序模型,利用已标注好的语料数据,利用排序LambdaMART算法,对搜索结果主页进行训练排序,获取按照主页概率排序的候选主页概率列表。
步骤1-3)选取候选主页列表中概率大于一定阈值的两个主页结果作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对候选主页做二次判断,将具有更好结果的候选主页作为最终的学者个人主页。
步骤2)学者信息抽取;
图2所示为学者信息抽取示意图,在上一步骤确定最终的个人主页后,针对不同抽取对象分别设计抽取方法。具体包含以下几步:
步骤2-1)针对个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;
步骤2-2)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤2-3)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置等信息综合判定待抽取的学者Email;
步骤2-4)针对国家/职位信息,使用语料数据,训练LSTM序列标注模型,从确定的主页信息中抽取国家/职位信息;
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于互联网信息的实现开放学者画像方法,所述方法包括:
步骤1)利用训练语料,训练主页排序模型和LSTM序列标注模型;
步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页;
步骤3)对于每个开放学者候选页,利用步骤1)训练好的主页排序模型,按照主页概率排序获取候选主页概率列表,从中选取前两个主页作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对两个候选主页做二次判断,选取其中一个候选主页作为最终的学者个人主页;
步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息,结合步骤3)的信息抽取结果,实现开放学者的画像;
所述步骤1)具体包括:
步骤1-1)对于若干个开放学者,利用搜索引擎实现学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页面采集;
步骤1-2)人工标注主页及待抽取信息,形成训练语料;
步骤1-3)利用已标注好的主页语料数据,利用候选主页是否包含“~”、“edu”、“profile”字符特征、学者姓名与网址匹配度URL特征,以及网页标题是否包含学者姓名、是否包含“professor”、“homepage”组合特征,利用LambdaMART算法训练排序模型;
步骤1-4)针对国家/职位信息,使用语料数据,训练LSTM序列标注模型,从确定的主页信息中抽取国家/职位信息。
2.根据权利要求1所述的基于互联网信息的实现开放学者画像方法,其特征在于,所述步骤3)具体包括:
步骤3-1)对于排序模型生成的候选主页概率列表,从列表中选取前两个候选主页A和B;
步骤3-2)针对候选主页A的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-3),否则,转入步骤3-6);
步骤3-3)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-4)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-5)候选主页A为最终的学者个人主页;进入步骤4);
步骤3-6)针对候选主页B的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-7),否则,转入步骤3-4);
步骤3-7)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-8)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-9)候选主页B为最终的学者个人主页。
CN201810011616.7A 2018-01-05 2018-01-05 一种基于互联网信息的开放学者画像方法 Active CN108090223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810011616.7A CN108090223B (zh) 2018-01-05 2018-01-05 一种基于互联网信息的开放学者画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810011616.7A CN108090223B (zh) 2018-01-05 2018-01-05 一种基于互联网信息的开放学者画像方法

Publications (2)

Publication Number Publication Date
CN108090223A CN108090223A (zh) 2018-05-29
CN108090223B true CN108090223B (zh) 2020-05-12

Family

ID=62180989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810011616.7A Active CN108090223B (zh) 2018-01-05 2018-01-05 一种基于互联网信息的开放学者画像方法

Country Status (1)

Country Link
CN (1) CN108090223B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063628B (zh) * 2018-07-27 2023-04-21 平安科技(深圳)有限公司 人脸识别方法、装置、计算机设备及存储介质
CN109522829B (zh) * 2018-11-02 2021-10-26 南京邮电大学 一种基于深度学习的智能手机“刷脸”会议注册方法
CN109657135B (zh) * 2018-11-13 2023-06-23 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型
CN110968782B (zh) * 2019-10-15 2023-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN110781368A (zh) * 2019-10-22 2020-02-11 北京赛时科技有限公司 一种针对指定专家的信息爬取系统及方法
CN115587262B (zh) * 2022-12-12 2023-03-21 中国人民解放军国防科技大学 基于语义增强的用户身份关联方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6163778A (en) * 1998-02-06 2000-12-19 Sun Microsystems, Inc. Probabilistic web link viability marker and web page ratings
CN102760151B (zh) * 2012-04-05 2015-02-25 中国人民解放军国防科学技术大学 开源软件获取与搜索系统的实现方法
CN104408148B (zh) * 2014-12-03 2017-12-01 复旦大学 一种基于通用百科网站的领域百科构建系统
CN105095400B (zh) * 2015-07-07 2019-02-05 清华大学 个人主页的查找方法

Also Published As

Publication number Publication date
CN108090223A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108090223B (zh) 一种基于互联网信息的开放学者画像方法
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
Chen et al. A two-step resume information extraction algorithm
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN104090955A (zh) 一种音视频标签自动标注方法及系统
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
CN104090907A (zh) 一种用于特定应用领域的向用户提供信息的方法与装置
US20130036076A1 (en) Method for keyword extraction
CN105868177A (zh) 一种通用公式搜索方法
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN102841920A (zh) 一种页面信息提取方法及装置
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
CN104133855A (zh) 一种输入法智能联想的方法及装置
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施系统
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
CN114840756A (zh) 一种基于关键热点信息的媒体生成推荐系统
CN103823868A (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210317

Address after: 100142 courtyard 26, Fucheng Road, Haidian District, Beijing

Patentee after: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA

Address before: 100142 courtyard 26, Fucheng Road, Haidian District, Beijing

Patentee before: Niu Haibo

Patentee before: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA