CN108090223A - 一种基于互联网信息的开放学者画像方法 - Google Patents
一种基于互联网信息的开放学者画像方法 Download PDFInfo
- Publication number
- CN108090223A CN108090223A CN201810011616.7A CN201810011616A CN108090223A CN 108090223 A CN108090223 A CN 108090223A CN 201810011616 A CN201810011616 A CN 201810011616A CN 108090223 A CN108090223 A CN 108090223A
- Authority
- CN
- China
- Prior art keywords
- scholar
- homepage
- candidate
- information
- open
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于互联网信息的实现开放学者画像方法,所述方法包括:步骤1)利用训练语料,训练主页排序模型和LSTM序列标注模型;步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页;步骤3)对于每个开放学者候选页,利用步骤1)训练好的主页排序模型,按照主页概率排序获取候选主页概率列表,从中选取前两个主页作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对两个候选主页做二次判断,选取其中一个候选主页作为最终的学者个人主页;步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息,结合步骤3)的信息抽取结果,实现开放学者的画像。
Description
技术领域
本发明涉及信息抽取技术领域,尤其涉及学者具有个人学术主页信息的文本信息抽取技术领域,具体涉及一种基于互联网信息的实现开放学者画像方法。
背景技术
随着信息技术和互联网技术的快速发展,各个学术系统的出现,为科研人员的研究工作带来了极大的便利。对于学术系统而言,如何能够提供高质量的信息服务是其非常重要的问题。学者相关的信息服务是学术系统中重要的组成部分,因此如何有效地分析挖掘学者信息成为了学术系统的一个基础性问题。同时,越来越多的学者在互联网上建立了个人主页,充分利用这些信息,实现学者信息的准确识别、相关信息抽取是构建学者学术画像的有效途径。
传统的主页识别与学者画像抽取一般通过以下步骤:一是利用搜索引擎获取学者搜索结果,并训练一个二分类器判断返回的网页是否是该研究者的个人主页或者是该研究者的介绍性网页;二是利用手工编制模板或传统CRF方法来进行序列标注,抽取学者名字、照片、职位、工作单位、Email等属性信息。
而由于现有的学者变动更频繁,社交网络、博客等多方面干扰信息更多,传统方法存在主页识别错误率高、信息抽取的准确率和召回率不高的问题。而学者画像是学术系统的基础性问题,为知识图谱、技术发展分析、科研管理等多种应用的基础性工作,实现学者精准画像具有重要意义。
发明内容
本发明的目的在于解决利用互联网搜索引擎信息实现学者精准画像的问题。区别于传统方法,本发明认为排序学习更适应于学者主页判定问题。针对搜索学者与其机构返回的搜索引擎检索结果,充分利用学者姓名及相关学术特征,构建高精度的学者主页判别器,并充分利用学者姓名、照片、单位等多种信息的不同特点,构建集合正则表达式、模式判断、神经网络序列标注模型等多种抽取方法的学者信息抽取技术,实现学者的精准画像。
为了实现上述目的,本发明提出了一种基于互联网信息的开放学者画像方法,所述方法包括:
步骤1)利用训练语料,训练主页排序模型和LSTM序列标注模型;
步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页;
步骤3)对于每个开放学者候选页,利用步骤1)训练好的主页排序模型,按照主页概率排序获取候选主页概率列表,从中选取前两个主页作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对两个候选主页做二次判断,选取其中一个候选主页作为最终的学者个人主页;
步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息,结合步骤3)的信息抽取结果,实现开放学者的画像。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)对于若干个开放学者,利用搜索引擎实现学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页面采集;
步骤1-2)人工标注主页及待抽取信息,形成训练语料;
步骤1-3)利用已标注好的主页语料数据,利用候选主页是否包含“~”、“edu”、“profile”字符特征、学者姓名与网址匹配度URL特征,以及网页标题是否包含学者姓名、是否包含“professor”、“homepage”组合特征,利用LambdaMART算法训练排序模型;
步骤1-4)针对国家/职位信息,使用语料数据,训练LSTM序列标注模型,从确定的主页信息中抽取国家/职位信息。
作为上述方法的一种改进,所述步骤3)具体包括:
步骤3-1)对于排序模型生成的候选主页概率列表,从列表中选取前两个候选主页A和B;
步骤3-2)针对候选主页A的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-3),否则,转入步骤3-6);
步骤3-3)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-4)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-5)候选主页A为最终的学者个人主页;进入步骤4);
步骤3-6)针对候选主页B的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-7),否则,转入步骤3-4);
步骤3-7)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-8)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-9)候选主页B为最终的学者个人主页。
本发明的优势在于:
1、本发明的方法充分利用了搜索引擎信息,极大降低了信息来源成本;
2、本发明的方法充分利用了学者与主页的关联特征,重新定义了问题模型,获得了优于传统方法的主页判定准确度;
3、本发明的方法利用了主页抽取结果对主页进行二次判定,进一步提高了主页判断准确率;
4、本发明针对抽取的学者信息的不同类型,综合利用了模式匹配、正则表达式、神经网络序列标注、人脸识别等多种技术方法,达成了很好的抽取效果。
附图说明
图1为本发明的学者主页判定示意图;
图2为本发明的学者主页信息抽取示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
利用开放信息进行学者画像主要分为三个部分。一是学者候选页面采集,利用搜索引擎实现学者姓名和机构的联合检索结果,利用爬虫获取检索结果网页信息;二是人工标注主页及待抽取信息,形成训练语料;三是是学者主页判定,利用已获取的搜索结果信息,分析判断正确的学者主页;四是利用已判定的学者主页抽取如Email、性别、照片、国家等待抽取学者信息。接下来详细讲述学者主页判定和学者主页信息抽取。
步骤1)学者主页判定;
图1所示为学者主页判定示意图,从搜索列表中判定正确的学者主页,其过程主要分为设计特征、训练排序模型、候选主页生成三个步骤。该方法具体包括:
步骤1-1)设计特征,利用是否包含”~”、”edu”、“profile”等字符特征、学者姓名与网址匹配度等URL特征,以及网页标题是否包含学者姓名、是否包含”professor”、“homepage”等特征以及检索结果返回的排序信息,利用这些标识特点明显的特征作为学者主页判断组合特征。
步骤1-2)训练排序模型,利用已标注好的语料数据,利用排序LambdaMART算法,对搜索结果主页进行训练排序,获取按照主页概率排序的候选主页概率列表。
步骤1-3)选取候选主页列表中概率大于一定阈值的两个主页结果作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对候选主页做二次判断,将具有更好结果的候选主页作为最终的学者个人主页。
步骤2)学者信息抽取;
图2所示为学者信息抽取示意图,在上一步骤确定最终的个人主页后,针对不同抽取对象分别设计抽取方法。具体包含以下几步:
步骤2-1)针对个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;
步骤2-2)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤2-3)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置等信息综合判定待抽取的学者Email;
步骤2-4)针对国家/职位信息,使用语料数据,训练LSTM序列标注模型,从确定的主页信息中抽取国家/职位信息;
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于互联网信息的实现开放学者画像方法,所述方法包括:
步骤1)利用训练语料,训练主页排序模型和LSTM序列标注模型;
步骤2)利用搜索引擎实现开放学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页;
步骤3)对于每个开放学者候选页,利用步骤1)训练好的主页排序模型,按照主页概率排序获取候选主页概率列表,从中选取前两个主页作为候选主页,对主页内容进行图片识别和Email抽取,利用抽取结果对两个候选主页做二次判断,选取其中一个候选主页作为最终的学者个人主页;
步骤4)在最终的学者个人主页中利用LSTM序列标注模型获取学者的国家/职位信息,结合步骤3)的信息抽取结果,实现开放学者的画像。
2.根据权利要求1所述的基于互联网信息的实现开放学者画像方法,其特征在于,所述步骤1)具体包括:
步骤1-1)对于若干个开放学者,利用搜索引擎实现学者姓名和机构的联合检索结果,利用爬虫获取检索结果信息作为开放学者候选页面采集;
步骤1-2)人工标注主页及待抽取信息,形成训练语料;
步骤1-3)利用已标注好的主页语料数据,利用候选主页是否包含“~”、“edu”、“profile”字符特征、学者姓名与网址匹配度URL特征,以及网页标题是否包含学者姓名、是否包含“professor”、“homepage”组合特征,利用LambdaMART算法训练排序模型;
步骤1-4)针对国家/职位信息,使用语料数据,训练LSTM序列标注模型,从确定的主页信息中抽取国家/职位信息。
3.根据权利要求1所述的基于互联网信息的实现开放学者画像方法,其特征在于,所述步骤3)具体包括:
步骤3-1)对于排序模型生成的候选主页概率列表,从列表中选取前两个候选主页A和B;
步骤3-2)针对候选主页A的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-3),否则,转入步骤3-6);
步骤3-3)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-4)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-5)候选主页A为最终的学者个人主页;进入步骤4);
步骤3-6)针对候选主页B的个人照片信息,利用姓名和图片文件名匹配程度,集合图片中人脸识别结果及人物个数,综合判定此图片是否为学者个人照片;如果是,转入步骤3-7),否则,转入步骤3-4);
步骤3-7)利用开源工具face_classification对学者个人照片进行处理,判断学者性别;
步骤3-8)综合利用正则表达式、Email与学者名称匹配度、Email在正文中出现位置信息综合判定待抽取的学者Email;
步骤3-9)候选主页B为最终的学者个人主页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810011616.7A CN108090223B (zh) | 2018-01-05 | 2018-01-05 | 一种基于互联网信息的开放学者画像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810011616.7A CN108090223B (zh) | 2018-01-05 | 2018-01-05 | 一种基于互联网信息的开放学者画像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090223A true CN108090223A (zh) | 2018-05-29 |
CN108090223B CN108090223B (zh) | 2020-05-12 |
Family
ID=62180989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810011616.7A Active CN108090223B (zh) | 2018-01-05 | 2018-01-05 | 一种基于互联网信息的开放学者画像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090223B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522829A (zh) * | 2018-11-02 | 2019-03-26 | 南京邮电大学 | 一种基于深度学习的智能手机“刷脸”会议注册方法 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
WO2020019451A1 (zh) * | 2018-07-27 | 2020-01-30 | 平安科技(深圳)有限公司 | 人脸识别方法、装置、计算机设备及存储介质 |
CN110781368A (zh) * | 2019-10-22 | 2020-02-11 | 北京赛时科技有限公司 | 一种针对指定专家的信息爬取系统及方法 |
CN110968782A (zh) * | 2019-10-15 | 2020-04-07 | 东北大学 | 一种面向学者的用户画像构建及应用方法 |
CN115587262A (zh) * | 2022-12-12 | 2023-01-10 | 中国人民解放军国防科技大学 | 基于语义增强的用户身份关联方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6163778A (en) * | 1998-02-06 | 2000-12-19 | Sun Microsystems, Inc. | Probabilistic web link viability marker and web page ratings |
CN102760151A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 开源软件获取与搜索系统的实现方法 |
CN104408148A (zh) * | 2014-12-03 | 2015-03-11 | 复旦大学 | 一种基于通用百科网站的领域百科构建系统 |
CN105095400A (zh) * | 2015-07-07 | 2015-11-25 | 清华大学 | 个人主页的查找方法 |
-
2018
- 2018-01-05 CN CN201810011616.7A patent/CN108090223B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6163778A (en) * | 1998-02-06 | 2000-12-19 | Sun Microsystems, Inc. | Probabilistic web link viability marker and web page ratings |
CN102760151A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 开源软件获取与搜索系统的实现方法 |
CN104408148A (zh) * | 2014-12-03 | 2015-03-11 | 复旦大学 | 一种基于通用百科网站的领域百科构建系统 |
CN105095400A (zh) * | 2015-07-07 | 2015-11-25 | 清华大学 | 个人主页的查找方法 |
Non-Patent Citations (1)
Title |
---|
李毅 等: "学术主页信息抽取系统的研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020019451A1 (zh) * | 2018-07-27 | 2020-01-30 | 平安科技(深圳)有限公司 | 人脸识别方法、装置、计算机设备及存储介质 |
CN109522829A (zh) * | 2018-11-02 | 2019-03-26 | 南京邮电大学 | 一种基于深度学习的智能手机“刷脸”会议注册方法 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
CN109657135B (zh) * | 2018-11-13 | 2023-06-23 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
CN110968782A (zh) * | 2019-10-15 | 2020-04-07 | 东北大学 | 一种面向学者的用户画像构建及应用方法 |
CN110968782B (zh) * | 2019-10-15 | 2023-04-07 | 东北大学 | 一种面向学者的用户画像构建及应用方法 |
CN110781368A (zh) * | 2019-10-22 | 2020-02-11 | 北京赛时科技有限公司 | 一种针对指定专家的信息爬取系统及方法 |
CN115587262A (zh) * | 2022-12-12 | 2023-01-10 | 中国人民解放军国防科技大学 | 基于语义增强的用户身份关联方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108090223B (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN108090223A (zh) | 一种基于互联网信息的开放学者画像方法 | |
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN108415902A (zh) | 一种基于搜索引擎的命名实体链接方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN110110335A (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN109948143A (zh) | 社区问答系统的答案抽取方法 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN105654144B (zh) | 一种基于机器学习的社交网络本体构建方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN108664599A (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN110134949A (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN108520038B (zh) | 一种基于排序学习算法的生物医学文献检索方法 | |
CN110377690B (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及系统 | |
CN106886565B (zh) | 一种基础房型自动聚合方法 | |
CN106021424B (zh) | 一种文献作者重名检测方法 | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
CN109446399A (zh) | 一种影视实体搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210317 Address after: 100142 courtyard 26, Fucheng Road, Haidian District, Beijing Patentee after: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA Address before: 100142 courtyard 26, Fucheng Road, Haidian District, Beijing Patentee before: Niu Haibo Patentee before: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA |