CN109933699A - 一种学术画像模型的构建方法及装置 - Google Patents

一种学术画像模型的构建方法及装置 Download PDF

Info

Publication number
CN109933699A
CN109933699A CN201910163197.3A CN201910163197A CN109933699A CN 109933699 A CN109933699 A CN 109933699A CN 201910163197 A CN201910163197 A CN 201910163197A CN 109933699 A CN109933699 A CN 109933699A
Authority
CN
China
Prior art keywords
scientific research
research clients
science
portrait
multistage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910163197.3A
Other languages
English (en)
Inventor
谢靖
孔贝贝
钱力
师洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Science Library Chinese Academy Of Sciences
Original Assignee
National Science Library Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Science Library Chinese Academy Of Sciences filed Critical National Science Library Chinese Academy Of Sciences
Priority to CN201910163197.3A priority Critical patent/CN109933699A/zh
Publication of CN109933699A publication Critical patent/CN109933699A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种学术画像模型的构建方法及装置,所述方法包括:获得科研用户与参加的科研活动、产出科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,进而建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层和数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。达到了提升用户在资源服务平台中获取信息的精准度,并实现用户聚类,且针对不同用户群体,制定不同服务策略的技术效果。

Description

一种学术画像模型的构建方法及装置
技术领域
本申请涉及用户数据分析技术领域,尤其涉及一种学术画像模型的构建方法及装置。
背景技术
科研人员用于科研的文献种类众多,文献资源的增长速度飞快,可供用户使用的相关文献也很多,通过对用户画像信息的构建,分析用户兴趣及兴趣之间的关联关系,改变当前资源服务平台的服务模型由被动为主动,提供更加满足用户需求的文献资源。其中,用户画像是在用户完整信息的基础上,勾画目标用户喜好、用户诉求、潜在意愿,是一种产品设计与精准服务方向的有效工具,用户画像在各领域都已得到广泛的应用。比如,商业服务系统亚马逊、淘宝、京东等根据用户购买及浏览行为,构建用户商业行为个人画像,进而实现商品的推荐。
但本申请发明人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
现有技术中互联网平台偏向于从日志行为中构建用户画像,由于日志行为数据稀疏,缺少多维度数据关联,维度分析不完整,标签体系粒度不精细,从而造成用户画像不完整不精准的技术问题。
申请内容
本申请实施例通过提供一种学术画像模型的构建方法及装置,用以解决现有技术中互联网平台偏向于从日志行为中构建用户画像,由于日志行为数据稀疏,缺少多维度数据关联,维度分析不完整,标签体系粒度不精细,从而造成用户画像不完整不精准的技术问题。通过构建多维度的科研用户画像模型,达到了提升用户在资源服务平台中获取信息的精准度,并实现用户聚类,且针对不同用户群体,制定不同服务策略的技术效果。
为了解决上述问题,第一方面,本申请实施例提供了一种学术画像模型的构建方法,所述方法包括:获得科研用户与参加的科研活动、产出科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
优选的,所述用户原始数据层包括:所述科研用户的基本信息维度数据;所述科研用户的科研活动行为日志数据;所述科研用户的产出科研成果数据;所述科研用户的补充数据。
优选的,所述根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层,包括:根据所述科研用户原始数据层中的行为日志数据,采用统计分析方法,获得所述科研用户的初步标签聚类;根据所述科研用户的初步标签聚类,完成定量标签计算,建立粗粒度抽取标签层。
优选的,所述根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层,包括:对所述科研用户的原始数据层进行统计分析,获得所述标签库中标签数据的权重值;根据所述标签数据和所述标签的权重值,完成定性标签计算,建立数据归纳分析标签层。
优选的,所述根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层,包括:根据所述标签数据,通过K-means无监督学习算法,对所述科研用户的标签数据进行分类预测;获得所述分类预测的输出结果;根据所述输出结果,建立所述应用决策支撑标签层。
优选的,所述通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像,包括:将所述输出结果作为所述多级科研用户学术画像模型的输入数据,通过多维度json概率模型输出格式,通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像;将所述科研用户的学术画像按照时间片段进行归类存储,获得不同时期的用户画像文件,包括用户的长期全景画像和短期兴趣画像。
第二方面,本申请实施例还提供了一种学术画像模型的构建装置,所述装置包括:
第一获得单元,所述第一获得单元用于获得科研用户与参加的科研活动、产出科研成果相关的数据信息;
第一构建单元,所述第一构建单元用于根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;
第一建立单元,所述第一建立单元用于根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;
第二建立单元,所述第二建立单元用于根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;
第三建立单元,所述第三建立单元用于根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;
第四建立单元,所述第四建立单元用于根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;
第一输出单元,所述第一输出单元用于通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
优选的,所述用户原始数据层包括:
所述科研用户的基本信息维度数据;
所述科研用户的科研活动行为日志数据;
所述科研用户的科研成果产出数据;
所述科研用户的补充数据。
优选的,所述第二建立单元包括:
第三获得单元,所述第三获得单元用于根据所述科研用户原始数据层中的行为日志数据,采用统计分析方法,获得所述科研用户的初步标签聚类;
第五建立单元,所述第五建立单元用于根据所述科研用户的初步标签聚类,完成定量标签计算,建立粗粒度抽取标签层。
优选的,所述第三建立单元包括:
第四获得单元,所述第四获得单元用于对所述科研用户的原始数据层进行统计分析,获得所述标签库中标签数据的权重值;
第六建立单元,所述第六建立单元用于根据所述标签数据和所述标签的权重值,完成定性标签计算,建立数据归纳分析标签层。
优选的,所述第四建立单元包括:
第一预测单元,所述第一预测单元用于根据所述标签数据,通过K-means无监督学习算法,对所述科研用户的标签数据进行分类预测;
第五获得单元,所述第五获得单元用于获得所述分类预测的输出结果;
第七建立单元,所述第七建立单元用于根据所述输出结果,建立所述应用决策支撑标签层。
优选的,所述第一输出单元包括:
第二输出单元,所述第二输出单元用于将所述输出结果作为所述多级科研用户学术画像模型的输入数据,通过多维度json概率模型输出格式,通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像;
第六获得单元,所述第六单元用于将所述科研用户的学术画像按照时间片段进行归类存储,获得不同时期的用户画像文件,包括用户的长期全景画像和短期兴趣画像。
第三方面,本申请实施例还提供了一种学术画像模型的构建装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获得科研用户与参加的科研活动、产出科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获得科研用户与参加的科研活动、产出科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种学术画像模型的构建方法及装置,所述方法包括:获得科研用户与参加的科研活动、产出科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。用以解决现有技术中互联网平台偏向于从日志行为中构建用户画像,由于日志行为数据稀疏,缺少多维度数据关联,维度分析不完整,标签体系粒度不精细,从而造成用户画像不完整不精准的技术问题。通过构建多维度的科研用户画像模型,达到了提升用户在资源服务平台中获取信息的精准度,并实现用户聚类,且针对不同用户群体,制定不同服务策略的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本发明实施例中一种学术画像模型的构建方法的流程示意图;
图2为本发明实施例中一种学术画像模型的构建装置的结构示意图;
图3为本发明实施例中另一种学术画像模型的构建装置的结构示意图。
附图标记说明:第一获得单元11,第一构建单元12,第一建立单元13,第二建立单元14,第三建立单元15,第四建立单元16,第一输出单元17,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本申请实施例提供了一种学术画像模型的构建方法及装置,用以解决现有技术中互联网平台偏向于从日志行为中构建用户画像,由于日志行为数据稀疏,缺少多维度数据关联,维度分析不完整,标签体系粒度不精细,从而造成用户画像不完整不精准的技术问题。
为了解决上述技术问题,本申请提供的技术方案总体思路如下:通过获得科研用户与参加的科研活动、产出科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。通过构建多维度的科研用户画像模型,达到了提升用户在资源服务平台中获取信息的精准度,并实现用户聚类,且针对不同用户群体,制定不同服务策略的技术效果。
下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
实施例一
图1为本发明实施例中一种学术画像模型的构建方法的流程示意图,如图1所示,所述方法包括:
步骤110:获得科研用户与参加的科研活动、产出科研成果相关的数据信息;
步骤120:根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;
步骤130:根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;
步骤140:根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;
步骤150:根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;
步骤160:根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;
步骤170:通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
具体而言,本发明实施例提供的一种学术画像模型构建方法是基于科研人员的学术行为特征,如与科研人员相关联的论文、期刊、会议、机构、合作学者等参与的科研活动、产出科研成果相关相关数据信息,进而获得多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;并根据所述多级科研用户学术画像模型构架,对所述科研用户的学术文献、科研活动、日志行为等多源数据进行深度挖掘,计算用户画像数据及关联信息数据,首先建立多级科研用户学术画像模型的用户原始数据层;然后基于所述科研用户原始数据层,采用统计分析,对所述科研用户进行初步标签聚类,完成定量标签计算,建立所述多级科研用户学术画像模型的粗粒度抽取标签层,同时采用权重计算等方法完成所述科研用户的标签的定性分析,建立所述多级科研用户学术画像模型的数据归纳分析标签层;再根据所述粗粒度抽取标签层和所述数据归纳分析标签层,采用K-means等无监督学习算法以及基于多标签采用SVM、KNN、神经网络、深度学习等方式完成所述科研用户标签的分类预测,建立所述多级科研用户学术画像模型的应用决策支撑标签层;最后采用多维度json概率模型输出格式,逐层输出所述科研用户的学术画像。进一步达到了提升用户在资源服务平台中获取信息的精准度,保证向用户推荐资源的准确度,并实现用户聚类,针对不同用户群体,制定不同服务策略,进而实现科研资源的优化配置的技术效果。
在步骤120中,基于对所述科研用户及其参加科研活动、产出科研成果相关联的数据,设计出的所述多级科研用户学术画像模型构架包括13个维度、100多种标签。其中,13个维度分别是属性信息维度、环境维度、行为维度、文献维度、主题维度、时间维度、学科维度、期刊维度、学者维度、地理位置维度、机构维度、专利维度、会议维度。所述多级科研用户学术画像模型构架以科研人员为切入点,从13个方面反应所述科研用户属性信息及科研行为能力,适用于科研个体用户画像、科研人员长期画像、科研人员短期画像。所述环境维度是通过采集所述科研用户采用的浏览器、服务器、IP地址等相关信息,采用统计分析方法完成计算,用于分析当前主流浏览器等信息,为保障网站服务系统服务能力提供支撑。所述行为维度主要是跟踪当前文献服务系统的被使用情况,采用SVM流失预测模型、COX用户流失预测模型为用户流失预测及策略制定提供基础。所述文献维度的数据来源于网站的用户行为日志,以及文献资源本身的属性信息,基于统计分析计算方法实现,为决策资源的订购及资源订购范围提供协助。所述学科维度的分析数据来源于文献的学科信息,用于获取当前热门学科,及热点研究学科走势。所述主题维度是针对用户关注主题及主题变化趋势的分析,主题信息来源于用户行为日志中的文献信息,通过主题计算,完成用户关注主题分析。所述期刊维度是通过对当前文献服务资源的用户访问日志分析,用户对期刊资源的使用占绝大多数,刻画用户对期刊信息的关注状况及用户兴趣的变化基本可反应出用户的整体研究现状。所述会议维度是通过对用户参会及会议学科等分析,获取用户当前跟踪研究的方向。所述专利维度是根据专利所属学科领域信息,结合专利申请国家、专利申请人等信息,采用统计分析计算、权重计算构建用户在专利维度上的标签内容。所述机构维度是通过对用户关注文献作者所属机构、用户发文合作机构等进行分析,构建用户合作关系网络,得出用户在不同时间合作机构的权重及不同时期合作机构的变化。所述学者维度通过对科研人员发文合作作者、科研人员引用文献作者、科研人员行为日志关注文献作者进行分析,构建用户关系分布。所述时间维度通过对用户对文献系统访问时段的分析,获取用户操作习惯,为系统更新及保障系统服务提供数据支撑。所述地理位置维度通过科研人员地理位置变化分析,获取科研人员在不同时期的地理位置分布。
在步骤130中,所述用户原始数据层包括所述科研用户的基本信息维度数据、科研活动行为日志数据,科研成果产出数据和补充数据,在对所述用户原始数据层的数据进行处理时,首先将所述用户原始数据层按照所述学术画像模型的分析目标,分别导出所述学术画像模型计算所需的属性维度数据、行为日志数据和补充数据到文件中,供所述学术画像模型计算使用。
在步骤140中,根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层,包括:根据所述科研用户原始数据层中的行为日志数据和补充数据所存在的字段,采用统计分析方法,分别对所述科研用户的不同维度中的标签数据进行聚类统计计算,获得所述科研用户的初步标签聚类,进而完成定量标签计算,建立粗粒度抽取标签层。举例而言,若对所述科研用户的环境维度进行分析,即根据所述科研用户使用期刊的情况,以期刊的名称进行统计,获取所述科研用户在不同时间段内的期刊使用次数排序,从而分析出所述科研用户期刊使用情况的变化。
在步骤150中,根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层,包括:基于粗粒度统计结果,对所述科研用户的原始数据层进行统计分析,选用TOPN的画像计算结果作为画像计算输出中间结果,其中,N为一个整数,根据实际需要确定N的取值,将该计算结果转化成占比数据,并结合时间衰减、行为权重,完成标签数据的权重化计算,进而获得所述标签库中标签数据的权重值;根据所述标签数据和所述标签的权重值,完成定性标签计算,建立数据归纳分析标签层。举例而言,基于用户标签的数值统计结果,结合时间衰减模型、行为类型等权重指数信息,其中,用户的不同行为的权重指数不同,比如可将下载行为权重设置为1,浏览行为权重设置为0.6,计算获得所述用户标签的权重值,即完成所述科研用户对不同关键词的关注度。
在步骤160中,根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层,包括:基于所述数据归纳标签层获得的用户标签及标签权重计算结果,通过K-means无监督学习算法,采用SVM、KNN、神经网络、深度学习等方式完成对所述科研用户的标签数据进行分类预测;获得所述分类预测的输出结果;根据所述输出结果,建立所述应用决策支撑标签层。举例而言,根据用户发表文献频次、用户发表文献等级、用户文献被引次数等,可以预测所述用户是某一个行业内具有高影响力的用户,在进行资源推荐时,就会向所述用户推荐相对高影响力的文献。
在步骤170中,通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像,包括:将所述科研用户的学术画像按照时间片段进行归类存储,比如按照天、周、月、季度、年、总体构建不同时期的用户画像文件,用于解决所述科研用户的长期画像、短期画像问题;将所述输出结果作为所述多级科研用户学术画像模型的输入数据,通过多维度json概率模型输出格式,逐层输出科研用户的学术画像,用于解决应用系统灵活控制精准度和用户兴趣喜好非单一性的问题。采用所述多维度json概率模型输出格式,便于上层画像展示系统及接口系统等快速定位到用户的画像输出结果,供上层展示使用或画像接口系统直接调用输出画像结果给调用人员。所述画像结果采用画像模型的多级标签模式,输入到.json类型的文件中,以年度输出结果为例,每一年根据所述学术画像模型的设计输出11个维度的画像计算结果,每个维度输出具体的维度标签,最后一级标签为概率模型输出形式,采用归一化的形式标识出用户与标签的相关度。
实施例二
基于与前述实施例中一种学术画像模型的构建方法同样的发明构思,本发明还提供一种学术画像模型的构建装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于获得科研用户与参加的科研活动、产出科研成果相关的数据信息;
第一构建单元12,所述第一构建单元12用于根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;
第一建立单元13,所述第一建立单元13用于根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;
第二建立单元14,所述第二建立14单元用于根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;
第三建立单元15,所述第三建立单元15用于根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;
第四建立单元16,所述第四建立单元16用于根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;
第一输出单元17,所述第一输出单元17用于通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
优选的,所述用户原始数据层包括:
所述科研用户的基本信息维度数据;
所述科研用户的科研活动行为日志数据;
所述科研用户的科研成果产出数据;
所述科研用户的补充数据。
优选的,所述第二建立单元14包括:
第三获得单元,所述第三获得单元用于根据所述科研用户原始数据层中的行为日志数据,采用统计分析方法,获得所述科研用户的初步标签聚类;
第五建立单元,所述第五建立单元用于根据所述科研用户的初步标签聚类,完成定量标签计算,建立粗粒度抽取标签层。
优选的,所述第三建立单元15包括:
第四获得单元,所述第四获得单元用于对所述科研用户的原始数据层进行统计分析,获得所述标签库中标签数据的权重值;
第六建立单元,所述第六建立单元用于根据所述标签数据和所述标签的权重值,完成定性标签计算,建立数据归纳分析标签层。
优选的,所述第四建立单元16包括:
第一预测单元,所述第一预测单元用于根据所述标签数据,通过K-means无监督学习算法,对所述科研用户的标签数据进行分类预测;
第五获得单元,所述第五获得单元用于获得所述分类预测的输出结果;
第七建立单元,所述第七建立单元用于根据所述输出结果,建立所述应用决策支撑标签层。
优选的,所述第一输出单元17包括:
第二输出单元,所述第二输出单元用于将所述输出结果作为所述多级科研用户学术画像模型的输入数据,通过多维度json概率模型输出格式,通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像;
第六获得单元,所述第六单元用于将所述科研用户的学术画像按照时间片段进行归类存储,获得不同时期的用户画像文件,包括用户的长期全景画像和短期兴趣画像。
前述图1实施例一中的一种学术画像模型的构建方法的各种变化方式和具体实例同样适用于本实施例的一种学术画像模型的构建装置,通过前述对一种学术画像模型的构建方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种学术画像模型的构建装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种学术画像模型的构建方法同样的发明构思,本发明还提供一种学术画像模型的构建装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种学术画像模型的构建方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于与前述实施例中一种学术画像模型的构建方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获得科研用户与参加的科研活动、产出的科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
在具体实施过程中,该程序被处理器执行时,还可以实现实施例一中的任一方法步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种学术画像模型的构建方法及装置,所述方法包括:获得科研用户与参加的科研活动、产出的科研成果相关的数据信息;根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。用以解决现有技术中互联网平台偏向于从日志行为中构建用户画像,由于日志行为数据稀疏,缺少多维度数据关联,维度分析不完整,标签体系粒度不精细,从而造成用户画像不完整不精准的技术问题。通过构建多维度的科研用户画像模型,达到了提升用户在资源服务平台中获取信息的精准度,并实现用户聚类,且针对不同用户群体,制定不同服务策略的技术效果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种学术画像模型的构建方法,其特征在于,所述方法包括:
获得科研用户与参加的科研活动、产出科研成果相关的数据信息;
根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;
根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;
根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;
根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;
根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;
通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
2.如权利要求1所述的方法,其特征在于,所述用户原始数据层包括:
所述科研用户的基本信息维度数据;
所述科研用户的科研活动行为日志数据;
所述科研用户的科研成果产出数据;
所述科研用户的补充数据。
3.如权利要求1所述的方法,其特征在于,所述根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层,包括:
根据所述科研用户原始数据层中的基本信息、科研行为日志、科研成果产出数据,采用统计分析方法,获得所述科研用户的初步标签聚类;
根据所述科研用户的初步标签聚类,完成定量标签计算,建立粗粒度抽取标签层。
4.如权利要求1所述的方法,其特征在于,所述根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层,包括:
对所述科研用户的原始数据层进行统计分析,获得所述标签库中标签数据的权重值;
根据所述标签数据和所述标签的权重值,完成定性标签计算,建立数据归纳分析标签层。
5.如权利要求1所述的方法,其特征在于,所述根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层,包括:
根据所述标签数据,通过K-means无监督学习算法,对所述科研用户的标签数据进行分类预测;
获得所述分类预测的输出结果;
根据所述输出结果,建立所述应用决策支撑标签层。
6.如权利要求5所述的方法,其特征在于,所述通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像,包括:
将所述输出结果作为所述多级科研用户学术画像模型的输入数据,通过多维度json概率模型输出格式,通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像;
将所述科研用户的学术画像按照时间片段进行归类存储,获得不同时期的用户画像文件,包括用户的长期全景画像和短期兴趣画像。
7.一种学术画像模型的构建装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得科研用户与参加的科研活动、产出科研成果相关的数据信息;
第一构建单元,所述第一构建单元用于根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;
第一建立单元,所述第一建立单元用于根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;
第二建立单元,所述第二建立单元用于根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;
第三建立单元,所述第三建立单元用于根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;
第四建立单元,所述第四建立单元用于根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;
第一输出单元,所述第一输出单元用于通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
8.一种学术画像模型的构建装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得科研用户与参加的科研活动、产出科研成果相关的数据信息;
根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;
根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;
根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;
根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;
根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;
通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获得科研用户与参加的科研活动、产出科研成果相关的数据信息;
根据所述数据信息,构建多级科研用户学术画像模型构架,其中,所述多级科研用户学术画像模型构架包括属性维度库和标签库;
根据所述多级科研用户学术画像模型构架,建立多级科研用户学术画像模型的用户原始数据层;
根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的粗粒度抽取标签层;
根据所述科研用户原始数据层,建立所述多级科研用户学术画像模型的数据归纳分析标签层;
根据所述粗粒度抽取标签层和所述数据归纳分析标签层,建立所述多级科研用户学术画像模型的应用决策支撑标签层;
通过所述多级科研用户学术画像模型,逐层输出科研用户的学术画像。
CN201910163197.3A 2019-03-05 2019-03-05 一种学术画像模型的构建方法及装置 Pending CN109933699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910163197.3A CN109933699A (zh) 2019-03-05 2019-03-05 一种学术画像模型的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910163197.3A CN109933699A (zh) 2019-03-05 2019-03-05 一种学术画像模型的构建方法及装置

Publications (1)

Publication Number Publication Date
CN109933699A true CN109933699A (zh) 2019-06-25

Family

ID=66986404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910163197.3A Pending CN109933699A (zh) 2019-03-05 2019-03-05 一种学术画像模型的构建方法及装置

Country Status (1)

Country Link
CN (1) CN109933699A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704738A (zh) * 2019-09-29 2020-01-17 平安直通咨询有限公司上海分公司 基于法官画像的服务信息推送方法、装置、终端及存储介质
CN110968782A (zh) * 2019-10-15 2020-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN111210275A (zh) * 2020-01-06 2020-05-29 平安科技(深圳)有限公司 基于vr数据的用户画像构建方法、装置及计算机设备
CN111241283A (zh) * 2020-01-15 2020-06-05 电子科技大学 一种科研学者画像的快速表征方法
CN111309936A (zh) * 2019-12-27 2020-06-19 上海大学 一种电影用户画像的构建方法
CN111460250A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 用于画像的数据的清洗方法、装置、介质及电子设备
CN112418695A (zh) * 2020-11-27 2021-02-26 中国烟草总公司郑州烟草研究院 面向烟草领域科研人员的多维度画像构建方法及推荐方法
CN112862546A (zh) * 2021-04-25 2021-05-28 平安科技(深圳)有限公司 用户流失预测方法、装置、计算机设备及存储介质
CN113158077A (zh) * 2021-04-08 2021-07-23 南京邮电大学 一种基于用户画像的学术资源推荐方法
CN113656687A (zh) * 2021-07-27 2021-11-16 华南师范大学 基于教研数据的教师画像构建方法
CN113704412A (zh) * 2021-08-31 2021-11-26 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法
CN113821703A (zh) * 2020-06-18 2021-12-21 广州汽车集团股份有限公司 一种车联网用户画像生成方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886700B2 (en) * 2012-11-01 2014-11-11 LavaRipples, LLC Content sharing with limited cloud storage
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886700B2 (en) * 2012-11-01 2014-11-11 LavaRipples, LLC Content sharing with limited cloud storage
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范晓玉: ""融合多源数据的科研人员画像构建方法研究"", 《图书情报工作》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704738A (zh) * 2019-09-29 2020-01-17 平安直通咨询有限公司上海分公司 基于法官画像的服务信息推送方法、装置、终端及存储介质
CN110704738B (zh) * 2019-09-29 2023-11-07 平安直通咨询有限公司上海分公司 基于法官画像的服务信息推送方法、装置、终端及存储介质
CN110968782A (zh) * 2019-10-15 2020-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN110968782B (zh) * 2019-10-15 2023-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN111309936A (zh) * 2019-12-27 2020-06-19 上海大学 一种电影用户画像的构建方法
CN111210275A (zh) * 2020-01-06 2020-05-29 平安科技(深圳)有限公司 基于vr数据的用户画像构建方法、装置及计算机设备
CN111210275B (zh) * 2020-01-06 2023-07-21 平安科技(深圳)有限公司 基于vr数据的用户画像构建方法、装置及计算机设备
CN111241283A (zh) * 2020-01-15 2020-06-05 电子科技大学 一种科研学者画像的快速表征方法
CN111460250A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 用于画像的数据的清洗方法、装置、介质及电子设备
CN111460250B (zh) * 2020-03-02 2022-07-08 平安科技(深圳)有限公司 用于画像的数据的清洗方法、装置、介质及电子设备
CN113821703A (zh) * 2020-06-18 2021-12-21 广州汽车集团股份有限公司 一种车联网用户画像生成方法及其系统
CN113821703B (zh) * 2020-06-18 2023-12-08 广州汽车集团股份有限公司 一种车联网用户画像生成方法及其系统
CN112418695A (zh) * 2020-11-27 2021-02-26 中国烟草总公司郑州烟草研究院 面向烟草领域科研人员的多维度画像构建方法及推荐方法
CN113158077A (zh) * 2021-04-08 2021-07-23 南京邮电大学 一种基于用户画像的学术资源推荐方法
CN113158077B (zh) * 2021-04-08 2022-11-08 南京邮电大学 一种基于用户画像的学术资源推荐方法
CN112862546B (zh) * 2021-04-25 2021-08-13 平安科技(深圳)有限公司 用户流失预测方法、装置、计算机设备及存储介质
CN112862546A (zh) * 2021-04-25 2021-05-28 平安科技(深圳)有限公司 用户流失预测方法、装置、计算机设备及存储介质
CN113656687A (zh) * 2021-07-27 2021-11-16 华南师范大学 基于教研数据的教师画像构建方法
CN113656687B (zh) * 2021-07-27 2022-12-20 华南师范大学 基于教研数据的教师画像构建方法
CN113704412A (zh) * 2021-08-31 2021-11-26 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法

Similar Documents

Publication Publication Date Title
CN109933699A (zh) 一种学术画像模型的构建方法及装置
Yang et al. Social media data analytics for business decision making system to competitive analysis
Varsha et al. The impact of artificial intelligence on branding: a bibliometric analysis (1982-2019)
US11157926B2 (en) Digital content prioritization to accelerate hyper-targeting
Pan et al. Study on convolutional neural network and its application in data mining and sales forecasting for E-commerce
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
CN104268292B (zh) 画像系统的标签词库更新方法
Tamaddoni Jahromi et al. Modeling customer churn in a non-contractual setting: the case of telecommunications service providers
CN106355442A (zh) 基于大数据驱动的在线广告精准投放方法和系统
CN103295145A (zh) 一种基于用户消费特征向量的手机广告投放方法
CN106062743A (zh) 用于关键字建议的系统和方法
Tsai et al. Looking for potential service quality gaps to improve customer satisfaction by using a new GA approach
KR102458510B1 (ko) 실시간 보완 가능한 마케팅 시스템
CN103177129A (zh) 互联网实时信息推荐预测系统
CN112487109A (zh) 实体关系抽取方法、终端和计算机可读存储介质
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
Hussein How many old and new big data v’s characteristics, processing technology, and applications (bd1)
CN109190027A (zh) 多源推荐方法、终端、服务器、计算机设备、可读介质
Singh et al. Automated machine learning (AutoML): an overview of opportunities for application and research
Jayawardena et al. Artificial intelligence (AI)-based market intelligence and customer insights
Mousavian et al. A design concept of big data analytics model for managers in hospitality industries
KR102238438B1 (ko) 규격화된 광고상품을 이용한 광고상품거래 서비스 제공 시스템
CN115222433A (zh) 一种信息推荐方法、装置及存储介质
CN115526659A (zh) 基于调查问卷的数据分析方法、装置、设备及存储介质
CN112085566B (zh) 基于智能决策的产品推荐方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625

RJ01 Rejection of invention patent application after publication