CN111241283A - 一种科研学者画像的快速表征方法 - Google Patents
一种科研学者画像的快速表征方法 Download PDFInfo
- Publication number
- CN111241283A CN111241283A CN202010040201.XA CN202010040201A CN111241283A CN 111241283 A CN111241283 A CN 111241283A CN 202010040201 A CN202010040201 A CN 202010040201A CN 111241283 A CN111241283 A CN 111241283A
- Authority
- CN
- China
- Prior art keywords
- abstract
- text
- data
- portrait
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及数据挖掘领域,特别是学术研究中针对科研学者画像的快速表征方法。
背景技术
随着互联网技术的蓬勃发展,越来越多的用户行为和生产行为数据被我们所记录,在商业、生活和科研领域的数据量都呈现出了爆发式的增加,由此我们迎来了大数据时代。在大数据时代,用户的信息在各式各样的站点和网络中出现,用户画像是一种对目标群体进行详细刻绘、结合相关用途进行画像设计,从而利用相应的标签信息为群体提供服务的有效工具。在学术大数据领域,由于学术数据的日益完善,对于科研学者这一群体的分析挖掘提供了更加丰富的佐证,也为科研学者画像的构建提供了新的思路。
学者的学术画像有助于对学者的研究兴趣、社区划分和影响力评估等方面进行更准确的分析,对于相关的学术推荐和学术合作提供重要依据。由于当前学术数据呈现指数增长趋势,全球学术论文已超过3亿篇,科研学术领域的工作者也已达到1亿人,给科研学者画像带来了更多的机遇和挑战。因此,如果能够提供一种在大规模学术数据集上对科研学者的画像维度进行快速表征的方法,就可以大大减少工作量、并且提高画像的多样性。
近年来,科研学者画像的研究尚处于起步阶段,目前已知的一些画像构建方法有如下缺点:
数据集之间缺乏有效的清洗和融合,在没有对数据孤岛进行有效连通之前,得到的信息往往都以偏概全。因此,采用合理、高效的数据融合方法既可以提升数据的多样性,又可以为科研学者画像的准确性提供保障。
画像构建使用的标签的种类有限。在大量采用直接数据的情况下,缺少对于数据文本的二次利用,也缺乏使用自然语言处理等相关技术对于文本进行再挖掘,从而提取出间接数据。因为,在有限的文本语料中进行充分挖掘可以提升数据价值,这对于画像之间的差异性刻画尤其重要。
传统的画像构建方法大多都从最基本的统计学角度进行分析。缺乏运用当前更加合理准确的人工智能和机器学习领域相关工具解决问题的思考,因此,刻画出的画像维度不够鲜明,对于画像模型真正的应用场景考虑并不周全,难以进行有效的使用。
发明内容
本发明提供了一种科研学者画像的快速表征方法。充分利用科研学者所发表的学术论文数据,通过数据驱动,发明一种能够结合自然语言处理技术和机器学习算法的画像维度快速表征方法,能够对科研学者的研究兴趣的维度进行快速准确的刻画。除此以外,该方法具有自适应性,适用于不同种类不同领域的学术数据集,并且能够对大规模数据集的进行批量处理。
在本发明中,选取了易取、免费的学术论文摘要作为主要语料。在学术论文的结构中,由于论文的摘要是整个文章的精简说明,它用简短文字陈述论文内容,概况出论文的主要观点。因此,摘要文本内容与难以获取的全文文本内容相比,不仅具有很高的挖掘价值,而且易于获取。因此,本发明提供的方法将重心放在学术论文的摘要文本上,利用相关文本挖掘和向量表征方法,结合机器学习中的聚类算法,形成一种通用数据的提取、处理和表征流程,从而提出了一种能够对科研学者画像维度进行快速表征的方法。
本发明所提出的一种科研学者画像的快速表征方法,包括下列步骤:
步骤1:对学者数据库和论文数据库进行数据融合匹配,其中学者库中“姓名”与论文库中“作者名”进行关联,对于重名问题进行姓名-邮箱-机构三重绑定验证,以降低数据融合过程中误差出现的可能性,对于数据量和数据字段缺失严重的目标进行排除;
步骤2:从融合筛选后的数据中提取出论文摘要的语料文本,形成科研学者<s>-学术论文<p>-摘要文本<a>之间的直接关系,并且精简为科研学者<s>-摘要文本<a>的直接对应关系;
步骤3:保留学术论文<p>中的“关键字”字段,如缺失则置空;步骤2和步骤3为整个构建方法提供直接数据,接下来对该数据进行预处理;
步骤4:利用词频-逆向文件频率来对每份数据中的摘要文本<a>进行有效词或有效短语的预处理,找到能体现差异性的关键词,得到文本语料的向量化特征;
步骤5:对步骤4中所有预处理得到的向量化特征进行粗聚类,将摘要文本语料根据词性差异进行有效划分;
步骤6:对步骤5中的聚类结果,通过逆向查询论文关键词,并对同类别中的学术论文“关键词”字段进行统计和词频排序,根据排名第一的关键词对聚类结果进行标注,从而标注出所有的学术论文的相应标签;
步骤6的方法为基于聚类算法的内部相似性原理,对于同一类中包含的语料给予同一标注;标注的来源为科研论文的“关键词”字段,由于该字段在不同数据集的学术论文中缺失严重,故无法直接进行统计;所以根据聚类结果对同一类中所有论文的“关键词”字段进行词频统计,取统计数量最高的“关键词”对该类别文本进行标注。
本发明和现有的画像维度表征方法相比,本发明的创新点在于:
1、重点针对摘要文本进行挖掘。在数据库中用多字段联合查询,通过数据融合匹配的方式将多个分散数据集结合,形成了科研学者<s>与摘要文本<a>之间的一对多关系。对全数据集的摘要语料进行相应的文本向量表示,以此作为表征学者画像维度差异性的关键语料。
2、方法最后提取出了一种新的学术画像维度。区别于过去基于统计学基础所构建的学者画像维度,本发明利用机器学习方法,在相关算法的基础上,对于所有摘要文本语料进行了聚类,利用同类结果的相似关系检索关键词字段,经统计排序最终形成画像标签的排序向量集合,用于表征科研学者的研究兴趣。同时,这一排序向量对于科研学者的研究领域相似度计算和社区划分等方面都具有应用价值。
附图说明
图1为科研学者画像的快速表征方法流程图。
图2为学者-论文-摘要三维结构示意图。
图3为学者-摘要-标签三维结构示意图。
图4为摘要文本聚类算法流程图。
图5为某科研学者画像的兴趣表征结果。
具体实施方式
为了使本发明的目的更加清晰,以下结合附图进行进一步详细介绍:
图1是对本发明所提出的科研学者画像的快速表征方法的具体流程。首先,对多个数据集进行数据融合匹配,该结果包含了科研学者<s>-学术论文<p>-摘要文本<a>三层维度结构,为图2所示。对数据融合之后得到的摘要文本<a>进行TF-IDF文本特征提取,得到论文摘要中关键短语的权重向量,以此权重向量来表征语料文本,然后使用K-Means聚类算法,根据文本的权重向量将不同的论文聚合为不同的类别,再通过对“关键词字段”的逆向检索,统计排序后得到各聚类的标注结果,由此完成对数据集中所有摘要文本的标注。由此得到关于科研学者-摘要文本-画像标签的结果如图3所示。
其中,文本特征提取具体过程如下:
通常认为,如果文本中的某个词在一段文本中频繁出现,那么这个词对这段文本越重要,越能够表征这段文本。因此,需要对摘要文本中的词进行简单的词频统计,得到TF向量。在进行词频计算之前,需要事先去掉不需要统计的无关词组,该无关词组为每篇论文都会大概率出现,但与论文内容无关的词组。
对于图2中得到的论文摘要文本表征为W=(w1,w2,…,wi,…,wn),其TF向量计算方法为:
同时,对于一些经常出现的高频词,例如介词,冠词等没有实际意义,仅在文本中仅仅起到连接作用的,对于文本语意表达并不能起到表征作用,需要降低其权重;因此对于摘要文本W,还需要计算其逆向文件频率IDF,得到文本的IDF向量;IDF向量的计算方法为:
最后,文本的TF-IDF矩阵计算为词频TF和逆向文件频率IDF的乘积,即:
TF-IDF(W)=TF(W)*IDF(W)
这样就得到了论文摘要的向量化特征。
对摘要文本的特征提取过后,进一步根据特征将摘要文本划分为互不相交的摘要簇(a1,a2,..aj..,ak),其主要步骤如图4所示。
其中,按照图4所示的方法进行摘要簇的划分时,摘要簇的中心μj按照如下的方法计算:
其中N(aj)表示属于簇aj中的样本个数,xi表示第i篇摘要的TF-IDF向量;
将每篇摘要文本重新划分到一个类,使用的是摘要文本向量到各个类中心的距离最短的原则,这个距离计算为:
μj的第i个分量,第一次实施聚类将随机指定摘要文本属于某个摘要簇,经过两次迭代后,将得到如图3所示的互不相交的摘要簇;
对摘要簇中的关键字进行词频统计,将摘要簇的关键字表征转化为向量化的词频表征并排序。于是,摘要簇的类别标注为:
Cate(Pj)=max(sort(sum(Pj)))
由此,得到的科研学者-摘要文本-画像标签结果如图3所示。
在构建完成摘要文本-画像标签的网络关系的基础上,利用科研学者-摘要文本的二部图网络关系构建得到科研学者的画像维度表示,具体做法如下所述:
对科研学者所发表的论文进行统计。某个科研学者所发表的论文集合可以表示为Ri=(P1,P2,Pj,...,Pn),对其发表的n篇论文中,基于以上聚类方法得到的论文标签,统计其发表的所有论文中各个标签对应的论文数,得到带权重的学者的维度向量。于是,学者的带权维度向量Hi计算为:
Hi=sum(cate(Pj))
最终构建得到的科研学者的画像维度表示如图5所示。
Claims (4)
1.一种科研学者画像的快速表征方法,包括下列步骤:
步骤1:对学者数据库和论文数据库进行数据融合匹配,其中学者库中“姓名”与论文库中“作者名”进行关联,对于重名问题进行姓名-邮箱-机构三重绑定验证,以降低数据融合过程中误差出现的可能性,对于数据量和数据字段缺失严重的目标进行排除;
步骤2:从融合筛选后的数据中提取出论文摘要的语料文本,形成科研学者<s>-学术论文<p>-摘要文本<a>之间的直接关系,并且精简为科研学者<s>-摘要文本<a>的直接对应关系;
步骤3:保留学术论文<p>中的“关键字”字段,如缺失则置空;步骤2和步骤3为整个构建方法提供直接数据,接下来对该数据进行预处理;
步骤4:利用词频-逆向文件频率来对每份数据中的摘要文本<a>进行有效词或有效短语的预处理,找到能体现差异性的关键词,得到文本语料的向量化特征;
步骤5:对步骤4中所有预处理得到的向量化特征进行粗聚类,将摘要文本语料根据词性差异进行有效划分;
步骤6:对步骤5中的聚类结果,通过逆向查询论文关键词,并对同类别中的学术论文“关键词”字段进行统计和词频排序,根据排名第一的关键词对聚类结果进行标注,从而标注出所有的学术论文的相应标签;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040201.XA CN111241283B (zh) | 2020-01-15 | 2020-01-15 | 一种科研学者画像的快速表征方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040201.XA CN111241283B (zh) | 2020-01-15 | 2020-01-15 | 一种科研学者画像的快速表征方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241283A true CN111241283A (zh) | 2020-06-05 |
CN111241283B CN111241283B (zh) | 2023-04-07 |
Family
ID=70872367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040201.XA Active CN111241283B (zh) | 2020-01-15 | 2020-01-15 | 一种科研学者画像的快速表征方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241283B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030177000A1 (en) * | 2002-03-12 | 2003-09-18 | Verity, Inc. | Method and system for naming a cluster of words and phrases |
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN105843799A (zh) * | 2016-04-05 | 2016-08-10 | 电子科技大学 | 一种基于多源异构信息图模型的学术论文标签推荐方法 |
CN107908749A (zh) * | 2017-11-17 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种基于搜索引擎的人物检索系统及方法 |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN109670014A (zh) * | 2018-11-21 | 2019-04-23 | 北京大学 | 一种基于规则匹配和机器学习的论文作者名消歧方法 |
CN109933699A (zh) * | 2019-03-05 | 2019-06-25 | 中国科学院文献情报中心 | 一种学术画像模型的构建方法及装置 |
CN110263319A (zh) * | 2019-03-21 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种基于网页文本的学者观点抽取方法 |
CN110516064A (zh) * | 2019-07-11 | 2019-11-29 | 同济大学 | 一种基于深度学习的航空科研论文分类方法 |
CN110543564A (zh) * | 2019-08-23 | 2019-12-06 | 北京信息科技大学 | 基于主题模型的领域标签获取方法 |
-
2020
- 2020-01-15 CN CN202010040201.XA patent/CN111241283B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030177000A1 (en) * | 2002-03-12 | 2003-09-18 | Verity, Inc. | Method and system for naming a cluster of words and phrases |
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN105843799A (zh) * | 2016-04-05 | 2016-08-10 | 电子科技大学 | 一种基于多源异构信息图模型的学术论文标签推荐方法 |
CN107908749A (zh) * | 2017-11-17 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种基于搜索引擎的人物检索系统及方法 |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN109670014A (zh) * | 2018-11-21 | 2019-04-23 | 北京大学 | 一种基于规则匹配和机器学习的论文作者名消歧方法 |
CN109933699A (zh) * | 2019-03-05 | 2019-06-25 | 中国科学院文献情报中心 | 一种学术画像模型的构建方法及装置 |
CN110263319A (zh) * | 2019-03-21 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种基于网页文本的学者观点抽取方法 |
CN110516064A (zh) * | 2019-07-11 | 2019-11-29 | 同济大学 | 一种基于深度学习的航空科研论文分类方法 |
CN110543564A (zh) * | 2019-08-23 | 2019-12-06 | 北京信息科技大学 | 基于主题模型的领域标签获取方法 |
Non-Patent Citations (6)
Title |
---|
SHENG HE等: "A Multiple-Label Guided Clustering Algorithm for Historical Document Dating and Localization", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
吕海燕等: "基于聚类分析的微博用户标签自动生成", 《电子设计工程》 * |
徐涵等: "作者主题模型及其改进的方法与应用研究综述" * |
池雪花等: "基于学术论文的学者研究兴趣标签发现研究", 《情报工程》 * |
温昂展: "基于多源异构大数据的学者用户画像关键技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
王锐杰: "基于多源信息融合的科研学者画像及应用研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111241283B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Negara et al. | Topic modelling twitter data with latent dirichlet allocation method | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
US6965900B2 (en) | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
Santra et al. | Genetic algorithm and confusion matrix for document clustering | |
Kano et al. | Coliee-2018: Evaluation of the competition on legal information extraction and entailment | |
CN111401040B (zh) | 一种适用于word文本的关键词提取方法 | |
CN112131872A (zh) | 一种文献作者重名消歧方法和构建系统 | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
Tao et al. | Doc2cube: Allocating documents to text cube without labeled data | |
CN113673252B (zh) | 一种基于字段语义的数据表自动join推荐方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
Shehata et al. | An efficient concept-based retrieval model for enhancing text retrieval quality | |
Abimbola et al. | A noun-centric keyphrase extraction model: Graph-based approach | |
Park et al. | Extracting search intentions from web search logs | |
CN114298020B (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
CN111241283B (zh) | 一种科研学者画像的快速表征方法 | |
Jotikabukkana et al. | Social media text classification by enhancing well-formed text trained model | |
Edi | Topic modelling Twitter data with latent Dirichlet allocation method | |
Liu et al. | A query suggestion method based on random walk and topic concepts | |
Niam et al. | A literature review of bangla document clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |