CN112182072A - 一种科技工作者信用大数据整合方法 - Google Patents
一种科技工作者信用大数据整合方法 Download PDFInfo
- Publication number
- CN112182072A CN112182072A CN201910603385.3A CN201910603385A CN112182072A CN 112182072 A CN112182072 A CN 112182072A CN 201910603385 A CN201910603385 A CN 201910603385A CN 112182072 A CN112182072 A CN 112182072A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- scientific
- technological
- science
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种科技工作者信用大数据整合方法,所述科技工作者信用大数据整合方法包括数据采集、数据质量分析、数据可信分析、数据关联分析、科研信用公示和异议处理。本方法的有益效果在于充分利用计算机资源,通过伺服程序定期把分布在各个门户网站的信息采集到科研信用数据中心,通过质量分析等手段,给信息使用者一个科技工作者全面信息。本方法采用科技成果为核心,并通过可信度分析、数据关联分析,形成可靠直观的科技工作者信息数据图谱,并关联企业和其他科技工作者,以此展现科技工作者在其研究领域的实力和活跃度。有助于全面了解该科技工作者的科研经历、科技成果情况、现就职情况、对外合作情况等信息。
Description
技术领域
本发明涉及信用大数据整合技术领域,尤其涉及一种科技工作者信用大数据整合方法。
背景技术
诚信是中国的传统美德,也是现代文明的基石,建立和完善个人信用体系是现代社会管理的重要内容之一。科技工作者是从事现代科学技术工作的群体。随着科学技术的迅速发展和其在社会生活中的影响越来越大,科技工作者的行为具有越来越多的公共属性,因而有必要制定一套合理的信用评价体系规范科技工作者的行为,在树立良好的科技工作者形象的同时,对有污形象的科技工作者予以打击和警示。
科技工作者的信用问题主要在弄虚作假方面。一些科技工作者为完成科研任务急功近利地撰写论文;有的论文伪造数据、剽窃抄袭,将别人的研究成果进行包装加工变成自己的成果。科技工作者学术信用失真违背了学术发展和创新的初衷,一定程度上妨碍了学术的发展和创新。由于科技工作者的信息比较分散,很难关联在一个科技工作中上。例如本单位有个人简介,职称网上有职称评定信息、科技口门户网站上有获奖情况。有些信息属于偶发性信息,例如职称公示,科技进步奖等,分别公布在不同的门户网站上,除非长时间关注,短时间难于搜集完整;
发明内容
本发明的目的在于提供一种科技工作者信用大数据整合方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明采用了如下技术方案:
一种科技工作者信用大数据整合方法,所述科技工作者信用大数据整合方法包括数据采集、数据质量分析、数据可信分析、数据关联分析、科研信用公示和异议处理。
优选的,所述数据采集的绝缘体步骤如下:
步骤S101:个人基本信息采集
个人基本信息包括姓名、性别、籍贯、出生年月、职称、职务、任职单位、家庭住址、身份证号、个人照片、专业、个人介绍、可信因子等信息。
数据来源:全国各高校网站的科研队伍介绍、科研单位网站的研究队伍、百度百科、搜狗百科、各省职称公告等。
具体步骤如下:
步骤S10101:查询条件
分别打开数据来源所涉及的网站,在相关栏目中查找科研人员,并下载科研人员数据。
步骤S10102:数据整理
从下载的科研人员信息中,按照每个网站中文本固定格式识别姓名、性别。按照单位、数据来源、采集时间,把下载的科研人员信息整理的“科技人员数据采集表”中。
步骤S102:科技单位信息查询
科技单位信息包括以下内容:单位名称、统一社会信用代码号、单位性质、法人代表、注册时间、注册地点、官网网址、单位介绍、可信因子等。涉及到数据表为科技单位信息表。
数据来源:壹佰利、企查查、启信宝、百度企业信用等
具体步骤如下:
步骤S10201:查询条件
分别打开数据来源所涉及的网站,在相关栏目中分别录入“科技单位信息采集表”中的第一个单位名称,并下载对应科技单位数据。
步骤S10202:数据整理
按照科技单位信息要求的内容,对下载的数据进行整理,并保存到“科技单位信息采集表”中。
步骤S10203:重复查询
重复步骤S10201至步骤S10202,依次录入“科技单位信息采集表”中的下一个单位名称,直至所有单位查询完毕。
步骤S103:论文信息采集
论文信息包括论文名称、作者、发表单位、刊物名称、刊物类型(期刊、会议、报纸等)、发表时间、摘要、管检测、分类号、参考文献、刊物级别、引文网络、参考引证图谱、被引用次数、数据来源、采集时间、可信因子等信息。
数据来源:中国知网、万方数据知识服务平台
具体步骤如下:
步骤S10301:查询条件
在知网和万方数据知识服务平台上,在查询条件中选择作者,从“科技工作者信息表”第一个人员,录入到查询栏中,点击查询按钮。
步骤S10302:数据整理
数据从上述网站采集到数据后,按照论文信息所列内容进行整理,并保存到“论文数据采集表”中。
步骤S10303:重复查询
选取“科技工作者信息表”中下一个人员,重复步骤S10301至步骤S10302,直至所有人员完成为止。
步骤S10304:按单位查询
在知网和万方数据知识服务平台上,在查询条件中选择单位,从“科技单位信息表”中第一个单位,录入到查询栏中,点击查询按钮。
步骤S10305:数据整理
数据从上述网站采集到数据后,按照论文信息所列内容进行整理,并保存到“论文数据采集表”中。
步骤S10306:重复查询
选取“科技单位信息表”中下一个单位,重复步骤S10304至步骤S10305,直至所有单位完成为止。
步骤S104:专利信息采集
专利信息包括专利类型、申请号/专利号、发明名称、申请人、发明人、申请日、授权公告日、主分类号、法律状态、可信因子等信息。
数据来源:中国及多国专利审查信息查询网
具体步骤如下:
步骤S10401:在“中国及多国专利审查信息查询网”上,从“科技工作者信息表”第一个人员,录入到“申请人”栏目中,录入相应验证码后,点击查询按钮。
步骤S10402:数据从上述网站采集到数据后,按照专利信息所列内容进行整理,并保存到“专利数据采集表”中。
步骤S10403:选取“科技工作者信息表”中下一个人员,重复步骤S10401至步骤S10402,直至所有人员完成为止。
步骤S10404:在“中国及多国专利审查信息查询网”上,从“科技单位信息表”中第一个单位,录入到“申请人”栏中,点击查询按钮。
步骤S10405:数据从上述网站采集到数据后,按照专利信息所列内容进行整理,并保存到“专利数据采集表”中。
步骤S10406:选取“科技单位信息表”中下一个单位,重复步骤S10404至步骤S10405,直至所有单位完成为止。
步骤S105:科研项目信息
科研项目信息包括项目名称、申报单位、受理单位、类别、项目负责人、数据来源、采集时间、可信因子等信息。
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育等部门官方网站的项目公示信息。
采集方法:定期关注相关网站,下载公示信息,并按单位整理到“科研项目信息采集表”中,同时保存科研项目信息采集日志文件。
步骤S106:科技奖励信息
科研项目信息包括项目名称、申报单位、受理单位、类别、项目奖励人员、数据来源、采集时间、可信因子等信息。
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育等官方网站的科技奖励公示信息。
采集方法:定期关注相关网站,下载科技奖励公示信息,并按单位整理到“科技奖励信息采集表”中,同时保存科技奖励信息采集日志文件。
步骤S107:科技处罚信息
科技处罚信息包括单位、姓名、处罚名称、处罚单位、处罚事项、处罚时间、数据来源、采集时间、可信因子等信息。
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育、各高校、科研院所等官方网站的科技处罚公示信息。
采集方法:定期关注相关网站,下载科技处罚公示信息,并按单位整理到“科技处罚信息采集表”中,同时保存科技处罚信息采集日志文件。
优选的,所述数据质量分析的具体步骤如下:
步骤S201:科技人员数据处理
步骤S20101:第一级查重
“科技人员数据采集表”中,按照单位、姓名、性别进行查重,对重复数据进行归一化处理,对于不同数据标注单位保存。
步骤S20102:数据转存
把整理后的“科技工作者信息采集表”中的数据更新到“科技工作者信息表”中,成功后,“科技工作者信息采集表”中数据转存到科技工作者信息表采集日志文件中,文件名标注科技工作者数据采集表、日期和时间。删除“科技工作者信息采集表”中数据。
步骤S20103:个人介绍信息合并
合并该科技工作者介绍中的其他信息,保存到个人介绍中,并标注数据来源及采集时间。把合并好的信息存入“科技工作者信息表”中。
步骤S20104:科技单位数据合并
把上述的科技人员涉及的任职单位整理出来,保存到“科技单位信息采集表”中。
步骤S202:科技单位信息数据处理
步骤S20201:第一级查重
在“科技单位信息采集表”中,按照统一社会信用代码号进行查重,对重复数据进行归一化处理,对于不同数据标注单位保存。信息整理好后,保存到“科技单位信息表”中。
步骤S20202:数据转存
把整理后的“科技单位信息采集表”中的数据更新到“科技单位信息表”中,成功后,“科技单位信息采集表”中数据转存到科技单位信息表采集日志文件中,文件名标注科技单位信息采集表、日期和时间。删除“科技单位信息采集表”中数据。
步骤S203:论文数据处理
步骤S20301:第一级查重
在“论文数据采集表”中,按照论文名称、发表时间、单位、刊物名称进行排序,剔除重复数据。并把数据来源加到对应字段中。
步骤S20302:科研人员更新
在“论文数据采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中。
步骤S20303:数据转存
把整理后的“论文数据采集表”中的数据更新到“论文数据表”中,成功后,“论文数据采集表”中数据转存到论文数据采集日志文件中,文件名标注论文数据采集表、日期和时间。删除“论文数据采集表”中数据。
步骤S20303:第二级查重
在“论文数据表”中,按照论文名称、发表时间、刊物名称进行排序,剔除重复数据。
步骤S204:专利数据处理
步骤S20401:第一级查重
在“专利数据采集表”中,按照申请号/专利号进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中。
步骤S20402:科研人员更新
在“专利数据采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中。
步骤S20403:数据转存
把整理后的“专利数据采集表”中的数据更新到“专利数据表”中,成功后,“专利数据采集表”中数据转存到专利数据采集日志文件中,文件名标注专利数据采集表、日期和时间。删除“专利数据采集表”中数据。
步骤S20404:第二级查重
在“专利数据表”中,按照申请号/专利号进行排序,剔除重复数据。
步骤S205:科研项目信息处理
步骤S20501:第一级查重
在“科研项目数据采集表”中,按照核准单位、项目类型、申请单位、项目名称进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中。
步骤S20502:数据转存
把整理后的“科研项目数据采集表”中的数据更新到“科研项目数据表”中,成功后,“科研项目数据采集表”中数据转存到科研项目数据采集日志文件中,文件名标注科研项目数据采集表、日期和时间。删除“科研项目数据采集表”中数据。
步骤S20503:第二级查重
在“科研项目数据表”中,按照核准单位、项目类型、申请单位、项目名称进行排序,剔除重复数据。
步骤S206:科技奖励信息处理
步骤S20601:第一级查重
在“科技奖励数据采集表”中,按照颁发单位、奖励类型、颁奖单位、项目名称进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中。
步骤S20602:科研人员更新
在“科技奖励信息采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中。
步骤S20603:数据转存
把整理后的“科技奖励数据采集表”中的数据更新到“科技奖励数据表”中,成功后,“科技奖励数据采集表”中数据转存到科技奖励数据采集日志文件中,文件名标注科技奖励数据采集表、日期和时间。删除“科技奖励数据采集表”中数据。
步骤S20604:第二级查重
在“科技奖励数据表”中,按照颁发单位、奖励类型、颁奖单位、项目名称进行排序,剔除重复数据。
步骤S207:科技处罚信息处理
步骤S20701:第一级查重
在“科技处罚数据采集表”中,按照发出单位、处罚类型、处罚单位、处罚名称、出发时间进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中。
步骤S20702:数据转存
把整理后的“科技处罚数据采集表”中的数据更新到“科技处罚数据表”中,成功后,“科技处罚数据采集表”中数据转存到科技处罚数据采集日志文件中,文件名标注科技处罚数据采集表、日期和时间。删除“科技处罚数据采集表”中数据。
步骤S20703:第二级查重
在“科技处罚数据表”中,按照发出单位、处罚类型、处罚单位、处罚名称、处罚时间进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中。
优选的,所述数据可信性分析具体步骤如下:
步骤S301:可信等级设定
本方法把可信定义成5级。
5级:为决绝对信任;
4级:为相对信任;
3级:为一般信任;
2级:为一般信任,存在可疑点;
1级:为数据可疑。
步骤S302:可信信息来源维护
这里我们根据数据来源首先确定一个数据可信程度。这里规定
数据来源 | 可信级别 |
政府门户网站、政府各部门门户网站、中国及多国专利审查信息查询网 | 5级 |
高校、科研院所、事业单位(人数大于等于1000人)、知网、万方数据知识服务平台 | 4级 |
一般企业单位、事业单位(人数小于1000人) | 3级 |
百度、搜狗等互联网网站 | 2级 |
存在数据冲突或矛盾的信息 | 1级 |
步骤S303:可信分数
步骤S30301:初始可信分数设定
在可信级别基础上,为每个可信网站设定一个分数值n,即可信级别*n,n值一般设定为100分。例如吉林省科技厅网站的初始可信分数为500分;吉林大学初始可信分数为400分等。
步骤S30302:可信值调整参数设置
设置每百次3天内无异议申诉查询次数设置(科技人员数据表、科技单位信息表、论文数据表、专利数据表、科研项目数据表、科技奖励数据表、科技处罚数据表)可信调整值mChange。
步骤S30303:科研查询可信调整
系统中每天根据查询中没有出现在异议申请的统计数据,每百次根据对应数据来源的设置的mChange,增加对应信息来源的可信分数值。
步骤S30304:可信级别调整
根据后期运营期间(步骤六可信信用公示和步骤七异议处理的分数调整)分数,调整各信息来源的可信级别。。
步骤S304:职称核实
步骤S30401:个人简历
首先提取个人简历,查看该人的所在单位、职称信息。
步骤S30402:职称平台数据查询
查找各“**省职称管理平台”中职称公示信息,用单位和个人姓名核实其真实性。如果存在且一致,职称为可信。如果日期最后的信息与该人简历不一致,把职称信息和从“**省职称管理平台”查询的信息写到该人的可以数据项说明字段中。并与该人关联。
步骤S30403:科研人员更新
在查找的职称公示中,归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中。
步骤S305:学历核实
步骤S30501:首先提取个人简历,查看该人的所在单位、学历信息。
步骤S30502:查找“学信网”,用单位和个人姓名核实其真实性。如果存在且一致,学历为可信。如果已查询到的信息与个人简历中信息不一致,把学历信息和从“学信网”查询的信息写到该人的可以数据项说明字段中。并与该人关联。
优选的,所述数据关联分析的具体步骤如下:
步骤S401:信息关联可信度确认
步骤S40101:首先提取个人简历,查看该人的所在单位、研究领域、发表论文信息。
步骤S40102:其次分析论文、专利、报奖、项目信息所体现的单位是否一致,如果不一致,确定为非同一人信息,删除该信息与该人的关联项。如果一致确认其信息所属领域,如果仍然一致,确定同一人信息,把该信息项关联到该人上。
步骤S40103:其次分析信息中关键字与个人简历中是否存在,如果存在,确定为同一人信息,把该项信息关联到该人上。
步骤S40104:对于不能确定的关联关系,在关联图谱上标注疑似关联。可以在系统中隐藏或者显示。
步骤S402:信息关联关系确认
步骤S40201:对于在同一篇论文/专利/科技进步奖中同时出现两个相同的科技工作者。在其他论文中也出现这两个科技工作者的,既可以视为这两个人为合作关联关系。在“科技工作者关联表”中把这两个人定义成“合作关系”。
步骤S40202:对于一个科技单位在科研项目处于第一位,即视同该项目为该单位的承担单位项目,在“企业信息关联表”把该单位与该科研项目关系列为“承担单位项目”;如果处于第二及以后位置,即视同该项目为该单位的参加单位项目,在“企业信息关联表”把该单位与该科研项目关系列为“参加单位项目”。
步骤S40203:对于一个科技工作者在科研项目处于第一位,即视同该科技工作者为该项目负责人,在“科技工作者关联表”把该科技工作者与该科研项目关系列为“负责项目”。
步骤S403:科技工作者关系图谱
步骤S40301:首先提取该科技工作者基本信息作为核心点。并提取单位作为工作关系单位。
步骤S40302:在“科技工作者关联表”提取该科技工作者的所有关系论文/专利/科技进步奖,每个论文/专利/科技进步奖在科技工作者周围方形框,并把科技工作者与论文/专利/科技进步奖通过线连接起来,其关系定义为“作者+位次”关系。
步骤S40303:在“科技工作者关联表”提取“合作关系”的其他科技工作者,每个科技工作者用圆形图框表示,并用线连接,标识合作关系。
步骤S40304:在“科技工作者关联表”提取该科技工作者的“负责项目”,每个项目用方形图框表示,并用线连接,标识负责关系。
步骤S40305:在“企业信息关联表”提取“承担单位项目”标志的项目,每个项目用方形图框表示,并用线连接,标识承担关系。
步骤S40306:在“企业信息关联表”提取“参加单位项目”标志的项目,每个项目用方形图框表示,并用线连接,标识参加关系。
步骤S40307:在“科技处罚数据表”中查找该科技工作者的信息。如果存在,每条标题设置一个方框表示,并用线连接,标识处罚关系。
步骤S40308:科研历程
如附图6所示,上述关联关系可以以时间为轴,展现该科技工作者的科研历程,同论文、专利、奖项的关系定义为“作者+位次”关系;同项目关系为“科技人员+位次”关系;同单位关系为“工作”关系或者“协作关系”;同其他科技工作者为“协作关系”。
优选的,所述科研信用公示的具体步骤如下:
信用动态:展示科研信用工作动态信息。
通知公告:发布科研信用体系建设相关通知与公告信息。
双公示信息:展示科研信用领域行政许可和行政处罚双公示信息。
信用查询:提供根据企业名称、统一社会信息代码、科研人员等查询科技工作者信用主体信用信息。
优选的,所述异议处理的具体步骤如下:步骤S601:异议申请
用户就“科研信用公示”的信用信息与自身实际不一致的信息,可提出异议申请。
步骤S602:异议受理
用户查询提出的异议申请的受理情况。
步骤S603:异议核查
数据提供方接收到异议数据,进行审核检查,确认后修改对应的基础数据(科技人员数据表、科技单位信息表、论文数据表、专利数据表、科研项目数据表、科技奖励数据表、科技处罚数据表),并给出是否修正的意见。
步骤S604:数据可信度调整
对于确定的错误的信息,根据错误程度,在数据来源网站的可信分数上进行消减相应的分数,降低分数以1-3分为宜。
对于确定的正确信息,根据提交反馈,在数据来源网站的可信分数上进行增加相应的分数,增加分数以1-3分为宜。
每个数据来源的分数记载相应日志。
步骤S605:异议回复
工作人员根据修正意见对用户的异议信息进行回复。
步骤S606:异议查询
工作人员可以查询异议申请详情。
本发明提供的一种科技工作者信用大数据整合方法,本方法的有益效果在于充分利用计算机资源,通过伺服程序定期把分布在各个门户网站的信息采集到科研信用数据中心,通过质量分析等手段,给信息使用者一个科技工作者全面信息。从而避免了多网站查询的困扰,也解决的不定期信息很难查询到的问题。
本方法采用科技成果为核心,并通过可信度分析、数据关联分析,形成可靠直观的科技工作者信息数据图谱,并关联企业和其他科技工作者,直观的展现科研能力和科技成果转化能力,以此展现科技工作者在其研究领域的实力和活跃度。有助于全面了解该科技工作者的科研经历、科技成果情况、现就职情况、对外合作情况等信息。
附图说明
附图1 是一种科技工作者信用大数据整合方法的科研信用整体流程示意图;
附图2是一种科技工作者信用大数据整合方法的数据采集流程示意图;
附图3 是一种科技工作者信用大数据整合方法的数据质量分析流程示意图;
附图4 是一种科技工作者信用大数据整合方法的数据可信分析流程示意图;
附图5是一种科技工作者信用大数据整合方法的数据关联分析流程示意图;
附图6是一种科技工作者信用大数据整合方法的科研历程流程示意图。
在附图5、附图6中:
连线1为直接工作关系;
连线2为作者+位次工作关系;
连线3为直接关系;
连线4为项目负责+位次关系;
连线5为协作关系;
连线6为承担关系;
连线7为参加关系;
连线8为承担关系;
连线9为参加关系;
连线10为协作关系;
连线11为协作关系;
连线12为直接工作关系。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1-6,一种科技工作者信用大数据整合方法,所述科技工作者信用大数据整合方法包括数据采集、数据质量分析、数据可信分析、数据关联分析、科研信用公示和异议处理。
所述数据采集的绝缘体步骤如下:
步骤S101:个人基本信息采集
个人基本信息包括姓名、性别、籍贯、出生年月、职称、职务、任职单位、家庭住址、身份证号、个人照片、专业、个人介绍、可信因子等信息;
数据来源:全国各高校网站的科研队伍介绍、科研单位网站的研究队伍、百度百科、搜狗百科、各省职称公告等;
具体步骤如下:
步骤S10101:查询条件
分别打开数据来源所涉及的网站,在相关栏目中查找科研人员,并下载科研人员数据。
步骤S10102:数据整理
从下载的科研人员信息中,按照每个网站中文本固定格式识别姓名、性别。按照单位、数据来源、采集时间,把下载的科研人员信息整理的“科技人员数据采集表”中;
步骤S102:科技单位信息查询
科技单位信息包括以下内容:单位名称、统一社会信用代码号、单位性质、法人代表、注册时间、注册地点、官网网址、单位介绍、可信因子等。涉及到数据表为科技单位信息表;
数据来源:壹佰利、企查查、启信宝、百度企业信用等
具体步骤如下:
步骤S10201:查询条件
分别打开数据来源所涉及的网站,在相关栏目中分别录入“科技单位信息采集表”中的第一个单位名称,并下载对应科技单位数据。
步骤S10202:数据整理
按照科技单位信息要求的内容,对下载的数据进行整理,并保存到“科技单位信息采集表”中;
步骤S10203:重复查询
重复步骤S10201至步骤S10202,依次录入“科技单位信息采集表”中的下一个单位名称,直至所有单位查询完毕;
步骤S103:论文信息采集
论文信息包括论文名称、作者、发表单位、刊物名称、刊物类型(期刊、会议、报纸等)、发表时间、摘要、管检测、分类号、参考文献、刊物级别、引文网络、参考引证图谱、被引用次数、数据来源、采集时间、可信因子等信息;
数据来源:中国知网、万方数据知识服务平台
具体步骤如下:
步骤S10301:查询条件
在知网和万方数据知识服务平台上,在查询条件中选择作者,从“科技工作者信息表”第一个人员,录入到查询栏中,点击查询按钮。
步骤S10302:数据整理
数据从上述网站采集到数据后,按照论文信息所列内容进行整理,并保存到“论文数据采集表”中;
步骤S10303:重复查询
选取“科技工作者信息表”中下一个人员,重复步骤S10301至步骤S10302,直至所有人员完成为止;
步骤S10304:按单位查询
在知网和万方数据知识服务平台上,在查询条件中选择单位,从“科技单位信息表”中第一个单位,录入到查询栏中,点击查询按钮;
步骤S10305:数据整理
数据从上述网站采集到数据后,按照论文信息所列内容进行整理,并保存到“论文数据采集表”中;
步骤S10306:重复查询
选取“科技单位信息表”中下一个单位,重复步骤S10304至步骤S10305,直至所有单位完成为止;
步骤S104:专利信息采集
专利信息包括专利类型、申请号/专利号、发明名称、申请人、发明人、申请日、授权公告日、主分类号、法律状态、可信因子等信息;
数据来源:中国及多国专利审查信息查询网
具体步骤如下:
步骤S10401:在“中国及多国专利审查信息查询网”上,从“科技工作者信息表”第一个人员,录入到“申请人”栏目中,录入相应验证码后,点击查询按钮;
步骤S10402:数据从上述网站采集到数据后,按照专利信息所列内容进行整理,并保存到“专利数据采集表”中;
步骤S10403:选取“科技工作者信息表”中下一个人员,重复步骤S10401至步骤S10402,直至所有人员完成为止;
步骤S10404:在“中国及多国专利审查信息查询网”上,从“科技单位信息表”中第一个单位,录入到“申请人”栏中,点击查询按钮;
步骤S10405:数据从上述网站采集到数据后,按照专利信息所列内容进行整理,并保存到“专利数据采集表”中;
步骤S10406:选取“科技单位信息表”中下一个单位,重复步骤S10404至步骤S10405,直至所有单位完成为止;
步骤S105:科研项目信息
科研项目信息包括项目名称、申报单位、受理单位、类别、项目负责人、数据来源、采集时间、可信因子等信息;
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育等部门官方网站的项目公示信息;
采集方法:定期关注相关网站,下载公示信息,并按单位整理到“科研项目信息采集表”中,同时保存科研项目信息采集日志文件;
步骤S106:科技奖励信息
科研项目信息包括项目名称、申报单位、受理单位、类别、项目奖励人员、数据来源、采集时间、可信因子等信息;
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育等官方网站的科技奖励公示信息;
采集方法:定期关注相关网站,下载科技奖励公示信息,并按单位整理到“科技奖励信息采集表”中,同时保存科技奖励信息采集日志文件;
步骤S107:科技处罚信息
科技处罚信息包括单位、姓名、处罚名称、处罚单位、处罚事项、处罚时间、数据来源、采集时间、可信因子等信息;
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育、各高校、科研院所等官方网站的科技处罚公示信息;
采集方法:定期关注相关网站,下载科技处罚公示信息,并按单位整理到“科技处罚信息采集表”中,同时保存科技处罚信息采集日志文件;
所述数据质量分析的具体步骤如下:
步骤S201:科技人员数据处理
步骤S20101:第一级查重
“科技人员数据采集表”中,按照单位、姓名、性别进行查重,对重复数据进行归一化处理,对于不同数据标注单位保存;
步骤S20102:数据转存
把整理后的“科技工作者信息采集表”中的数据更新到“科技工作者信息表”中,成功后,“科技工作者信息采集表”中数据转存到科技工作者信息表采集日志文件中,文件名标注科技工作者数据采集表、日期和时间;删除“科技工作者信息采集表”中数据;
步骤S20103:个人介绍信息合并
合并该科技工作者介绍中的其他信息,保存到个人介绍中,并标注数据来源及采集时间。把合并好的信息存入“科技工作者信息表”中;
步骤S20104:科技单位数据合并
把上述的科技人员涉及的任职单位整理出来,保存到“科技单位信息采集表”中;
步骤S202:科技单位信息数据处理
步骤S20201:第一级查重
在“科技单位信息采集表”中,按照统一社会信用代码号进行查重,对重复数据进行归一化处理,对于不同数据标注单位保存。信息整理好后,保存到“科技单位信息表”中;
步骤S20202:数据转存
把整理后的“科技单位信息采集表”中的数据更新到“科技单位信息表”中,成功后,“科技单位信息采集表”中数据转存到科技单位信息表采集日志文件中,文件名标注科技单位信息采集表、日期和时间。删除“科技单位信息采集表”中数据;
步骤S203:论文数据处理
步骤S20301:第一级查重
在“论文数据采集表”中,按照论文名称、发表时间、单位、刊物名称进行排序,剔除重复数据。并把数据来源加到对应字段中;
步骤S20302:科研人员更新
在“论文数据采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S20303:数据转存
把整理后的“论文数据采集表”中的数据更新到“论文数据表”中,成功后,“论文数据采集表”中数据转存到论文数据采集日志文件中,文件名标注论文数据采集表、日期和时间。删除“论文数据采集表”中数据;
步骤S20303:第二级查重
在“论文数据表”中,按照论文名称、发表时间、刊物名称进行排序,剔除重复数据;
步骤S204:专利数据处理
步骤S20401:第一级查重
在“专利数据采集表”中,按照申请号/专利号进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中;
步骤S20402:科研人员更新
在“专利数据采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S20403:数据转存
把整理后的“专利数据采集表”中的数据更新到“专利数据表”中,成功后,“专利数据采集表”中数据转存到专利数据采集日志文件中,文件名标注专利数据采集表、日期和时间。删除“专利数据采集表”中数据;
步骤S20404:第二级查重
在“专利数据表”中,按照申请号/专利号进行排序,剔除重复数据;
步骤S205:科研项目信息处理
步骤S20501:第一级查重
在“科研项目数据采集表”中,按照核准单位、项目类型、申请单位、项目名称进行排序,剔除重复数据;并把数据来源、采集时间加到对应字段中;
步骤S20502:数据转存
把整理后的“科研项目数据采集表”中的数据更新到“科研项目数据表”中,成功后,“科研项目数据采集表”中数据转存到科研项目数据采集日志文件中,文件名标注科研项目数据采集表、日期和时间。删除“科研项目数据采集表”中数据;
步骤S20503:第二级查重
在“科研项目数据表”中,按照核准单位、项目类型、申请单位、项目名称进行排序,剔除重复数据;
步骤S206:科技奖励信息处理
步骤S20601:第一级查重
在“科技奖励数据采集表”中,按照颁发单位、奖励类型、颁奖单位、项目名称进行排序,剔除重复数据;并把数据来源、采集时间加到对应字段中;
步骤S20602:科研人员更新
在“科技奖励信息采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S20603:数据转存
把整理后的“科技奖励数据采集表”中的数据更新到“科技奖励数据表”中,成功后,“科技奖励数据采集表”中数据转存到科技奖励数据采集日志文件中,文件名标注科技奖励数据采集表、日期和时间。删除“科技奖励数据采集表”中数据;
步骤S20604:第二级查重
在“科技奖励数据表”中,按照颁发单位、奖励类型、颁奖单位、项目名称进行排序,剔除重复数据;
步骤S207:科技处罚信息处理
步骤S20701:第一级查重
在“科技处罚数据采集表”中,按照发出单位、处罚类型、处罚单位、处罚名称、出发时间进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中;
步骤S20702:数据转存
把整理后的“科技处罚数据采集表”中的数据更新到“科技处罚数据表”中,成功后,“科技处罚数据采集表”中数据转存到科技处罚数据采集日志文件中,文件名标注科技处罚数据采集表、日期和时间。删除“科技处罚数据采集表”中数据;
步骤S20703:第二级查重
在“科技处罚数据表”中,按照发出单位、处罚类型、处罚单位、处罚名称、处罚时间进行排序,剔除重复数据。并把数据来源、采集时间加到对应字段中;
所述数据可信性分析具体步骤如下:
步骤S301:可信等级设定
本方法把可信定义成5级;
5级:为决绝对信任;
4级:为相对信任;
3级:为一般信任;
2级:为一般信任,存在可疑点;
1级:为数据可疑。
步骤S302:可信信息来源维护
这里我们根据数据来源首先确定一个数据可信程度。这里规定
数据来源 | 可信级别 |
政府门户网站、政府各部门门户网站、中国及多国专利审查信息查询网 | 5级 |
高校、科研院所、事业单位(人数大于等于1000人)、知网、万方数据知识服务平台 | 4级 |
一般企业单位、事业单位(人数小于1000人) | 3级 |
百度、搜狗等互联网网站 | 2级 |
存在数据冲突或矛盾的信息 | 1级 |
步骤S303:可信分数
步骤S30301:初始可信分数设定
在可信级别基础上,为每个可信网站设定一个分数值n,即可信级别*n,n值一般设定为100分。例如吉林省科技厅网站的初始可信分数为500分;吉林大学初始可信分数为400分等;
步骤S30302:可信值调整参数设置
设置每百次3天内无异议申诉查询次数设置(科技人员数据表、科技单位信息表、论文数据表、专利数据表、科研项目数据表、科技奖励数据表、科技处罚数据表)可信调整值mChange;
步骤S30303:科研查询可信调整
系统中每天根据查询中没有出现在异议申请的统计数据,每百次根据对应数据来源的设置的mChange,增加对应信息来源的可信分数值;
步骤S30304:可信级别调整
根据后期运营期间(步骤六可信信用公示和步骤七异议处理的分数调整)分数,调整各信息来源的可信级别;
步骤S304:职称核实
步骤S30401:个人简历
首先提取个人简历,查看该人的所在单位、职称信息;
步骤S30402:职称平台数据查询
查找各“**省职称管理平台”中职称公示信息,用单位和个人姓名核实其真实性。如果存在且一致,职称为可信。如果日期最后的信息与该人简历不一致,把职称信息和从“**省职称管理平台”查询的信息写到该人的可以数据项说明字段中;并与该人关联;
步骤S30403:科研人员更新
在查找的职称公示中,归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S305:学历核实
步骤S30501:首先提取个人简历,查看该人的所在单位、学历信息;
步骤S30502:查找“学信网”,用单位和个人姓名核实其真实性;如果存在且一致,学历为可信;如果已查询到的信息与个人简历中信息不一致,把学历信息和从“学信网”查询的信息写到该人的可以数据项说明字段中。并与该人关联;
所述数据关联分析的具体步骤如下:
步骤S401:信息关联可信度确认
步骤S40101:首先提取个人简历,查看该人的所在单位、研究领域、发表论文信息;
步骤S40102:其次分析论文、专利、报奖、项目信息所体现的单位是否一致,如果不一致,确定为非同一人信息,删除该信息与该人的关联项;如果一致确认其信息所属领域,如果仍然一致,确定同一人信息,把该信息项关联到该人上;
步骤S40103:其次分析信息中关键字与个人简历中是否存在,如果存在,确定为同一人信息,把该项信息关联到该人上;
步骤S40104:对于不能确定的关联关系,在关联图谱上标注疑似关联;可以在系统中隐藏或者显示;
步骤S402:信息关联关系确认
步骤S40201:对于在同一篇论文/专利/科技进步奖中同时出现两个相同的科技工作者。在其他论文中也出现这两个科技工作者的,既可以视为这两个人为合作关联关系;在“科技工作者关联表”中把这两个人定义成“合作关系”;
步骤S40202:对于一个科技单位在科研项目处于第一位,即视同该项目为该单位的承担单位项目,在“企业信息关联表”把该单位与该科研项目关系列为“承担单位项目”;如果处于第二及以后位置,即视同该项目为该单位的参加单位项目,在“企业信息关联表”把该单位与该科研项目关系列为“参加单位项目”;
步骤S40203:对于一个科技工作者在科研项目处于第一位,即视同该科技工作者为该项目负责人,在“科技工作者关联表”把该科技工作者与该科研项目关系列为“负责项目”;
步骤S403:科技工作者关系图谱
步骤S40301:首先提取该科技工作者基本信息作为核心点;并提取单位作为工作关系单位;
步骤S40302:在“科技工作者关联表”提取该科技工作者的所有关系论文/专利/科技进步奖,每个论文/专利/科技进步奖在科技工作者周围方形框,并把科技工作者与论文/专利/科技进步奖通过线连接起来,其关系定义为“作者+位次”关系;
步骤S40303:在“科技工作者关联表”提取“合作关系”的其他科技工作者,每个科技工作者用圆形图框表示,并用线连接,标识合作关系;
步骤S40304:在“科技工作者关联表”提取该科技工作者的“负责项目”,每个项目用方形图框表示,并用线连接,标识负责关系;
步骤S40305:在“企业信息关联表”提取“承担单位项目”标志的项目,每个项目用方形图框表示,并用线连接,标识承担关系;
步骤S40306:在“企业信息关联表”提取“参加单位项目”标志的项目,每个项目用方形图框表示,并用线连接,标识参加关系;
步骤S40307:在“科技处罚数据表”中查找该科技工作者的信息。如果存在,每条标题设置一个方框表示,并用线连接,标识处罚关系;
步骤S40308:科研历程
如附图6所示,上述关联关系可以以时间为轴,展现该科技工作者的科研历程,同论文、专利、奖项的关系定义为“作者+位次”关系;同项目关系为“科技人员+位次”关系;同单位关系为“工作”关系或者“协作关系”;同其他科技工作者为“协作关系”;
所述科研信用公示的具体步骤如下:
信用动态:展示科研信用工作动态信息;
通知公告:发布科研信用体系建设相关通知与公告信息;
双公示信息:展示科研信用领域行政许可和行政处罚双公示信息;
信用查询:提供根据企业名称、统一社会信息代码、科研人员等查询科技工作者信用主体信用信息;
所述异议处理的具体步骤如下:步骤S601:异议申请
用户就“科研信用公示”的信用信息与自身实际不一致的信息,可提出异议申请;
步骤S602:异议受理
用户查询提出的异议申请的受理情况;
步骤S603:异议核查
数据提供方接收到异议数据,进行审核检查,确认后修改对应的基础数据(科技人员数据表、科技单位信息表、论文数据表、专利数据表、科研项目数据表、科技奖励数据表、科技处罚数据表),并给出是否修正的意见;
步骤S604:数据可信度调整
对于确定的错误的信息,根据错误程度,在数据来源网站的可信分数上进行消减相应的分数,降低分数以1-3分为宜;
对于确定的正确信息,根据提交反馈,在数据来源网站的可信分数上进行增加相应的分数,增加分数以1-3分为宜;
每个数据来源的分数记载相应日志;
步骤S605:异议回复
工作人员根据修正意见对用户的异议信息进行回复;
步骤S606:异议查询
工作人员可以查询异议申请详情。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种科技工作者信用大数据整合方法,其特征在于:所述科技工作者信用大数据整合方法包括数据采集、数据质量分析、数据可信分析、数据关联分析、科研信用公示和异议处理。
2.根据权利要求1所述的一种科技工作者信用大数据整合方法,其特征在于:所述数据采集的绝缘体步骤如下:
步骤S101:个人基本信息采集
个人基本信息包括姓名、性别、籍贯、出生年月、职称、职务、任职单位、家庭住址、身份证号、个人照片、专业、个人介绍、可信因子等信息;
数据来源:全国各高校网站的科研队伍介绍、科研单位网站的研究队伍、百度百科、搜狗百科、各省职称公告等;
具体步骤如下:
步骤S10101:查询条件
分别打开数据来源所涉及的网站,在相关栏目中查找科研人员,并下载科研人员数据;
步骤S10102:数据整理
从下载的科研人员信息中,按照每个网站中文本固定格式识别姓名、性别;
按照单位、数据来源、采集时间,把下载的科研人员信息整理的“科技人员数据采集表”中;
步骤S102:科技单位信息查询
科技单位信息包括以下内容:单位名称、统一社会信用代码号、单位性质、法人代表、注册时间、注册地点、官网网址、单位介绍、可信因子等;
涉及到数据表为科技单位信息表;
数据来源:壹佰利、企查查、启信宝、百度企业信用等
具体步骤如下:
步骤S10201:查询条件
分别打开数据来源所涉及的网站,在相关栏目中分别录入“科技单位信息采集表”中的第一个单位名称,并下载对应科技单位数据;
步骤S10202:数据整理
按照科技单位信息要求的内容,对下载的数据进行整理,并保存到“科技单位信息采集表”中;
步骤S10203:重复查询
重复步骤S10201至步骤S10202,依次录入“科技单位信息采集表”中的下一个单位名称,直至所有单位查询完毕;
步骤S103:论文信息采集
论文信息包括论文名称、作者、发表单位、刊物名称、刊物类型(期刊、会议、报纸等)、发表时间、摘要、管检测、分类号、参考文献、刊物级别、引文网络、参考引证图谱、被引用次数、数据来源、采集时间、可信因子等信息;
数据来源:中国知网、万方数据知识服务平台
具体步骤如下:
步骤S10301:查询条件
在知网和万方数据知识服务平台上,在查询条件中选择作者,从“科技工作者信息表”第一个人员,录入到查询栏中,点击查询按钮;
步骤S10302:数据整理
数据从上述网站采集到数据后,按照论文信息所列内容进行整理,并保存到“论文数据采集表”中;
步骤S10303:重复查询
选取“科技工作者信息表”中下一个人员,重复步骤S10301至步骤S10302,直至所有人员完成为止;
步骤S10304:按单位查询
在知网和万方数据知识服务平台上,在查询条件中选择单位,从“科技单位信息表”中第一个单位,录入到查询栏中,点击查询按钮;
步骤S10305:数据整理
数据从上述网站采集到数据后,按照论文信息所列内容进行整理,并保存到“论文数据采集表”中;
步骤S10306:重复查询
选取“科技单位信息表”中下一个单位,重复步骤S10304至步骤S10305,直至所有单位完成为止;
步骤S104:专利信息采集
专利信息包括专利类型、申请号/专利号、发明名称、申请人、发明人、申请日、授权公告日、主分类号、法律状态、可信因子等信息;
数据来源:中国及多国专利审查信息查询网
具体步骤如下:
步骤S10401:在“中国及多国专利审查信息查询网”上,从“科技工作者信息表”第一个人员,录入到“申请人”栏目中,录入相应验证码后,点击查询按钮;
步骤S10402:数据从上述网站采集到数据后,按照专利信息所列内容进行整理,并保存到“专利数据采集表”中;
步骤S10403:选取“科技工作者信息表”中下一个人员,重复步骤S10401至步骤S10402,直至所有人员完成为止;
步骤S10404:在“中国及多国专利审查信息查询网”上,从“科技单位信息表”中第一个单位,录入到“申请人”栏中,点击查询按钮;
步骤S10405:数据从上述网站采集到数据后,按照专利信息所列内容进行整理,并保存到“专利数据采集表”中;
步骤S10406:选取“科技单位信息表”中下一个单位,重复步骤S10404至步骤S10405,直至所有单位完成为止;
步骤S105:科研项目信息
科研项目信息包括项目名称、申报单位、受理单位、类别、项目负责人、数据来源、采集时间、可信因子等信息;
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育等部门官方网站的项目公示信息;
采集方法:定期关注相关网站,下载公示信息,并按单位整理到“科研项目信息采集表”中,同时保存科研项目信息采集日志文件;
步骤S106:科技奖励信息
科研项目信息包括项目名称、申报单位、受理单位、类别、项目奖励人员、数据来源、采集时间、可信因子等信息;
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育等官方网站的科技奖励公示信息;
采集方法:定期关注相关网站,下载科技奖励公示信息,并按单位整理到“科技奖励信息采集表”中,同时保存科技奖励信息采集日志文件;
步骤S107:科技处罚信息
科技处罚信息包括单位、姓名、处罚名称、处罚单位、处罚事项、处罚时间、数据来源、采集时间、可信因子等信息;
数据来源:国家及各省、市的科技部门、工信部门、发改部门、人社部门、商务部门、教育、各高校、科研院所等官方网站的科技处罚公示信息;
采集方法:定期关注相关网站,下载科技处罚公示信息,并按单位整理到“科技处罚信息采集表”中,同时保存科技处罚信息采集日志文件。
3.根据权利要求1所述的一种科技工作者信用大数据整合方法,其特征在于:所述数据质量分析的具体步骤如下:
步骤S201:科技人员数据处理
步骤S20101:第一级查重
“科技人员数据采集表”中,按照单位、姓名、性别进行查重,对重复数据进行归一化处理,对于不同数据标注单位保存;
步骤S20102:数据转存
把整理后的“科技工作者信息采集表”中的数据更新到“科技工作者信息表”中,成功后,“科技工作者信息采集表”中数据转存到科技工作者信息表采集日志文件中,文件名标注科技工作者数据采集表、日期和时间;删除“科技工作者信息采集表”中数据;
步骤S20103:个人介绍信息合并
合并该科技工作者介绍中的其他信息,保存到个人介绍中,并标注数据来源及采集时间;
把合并好的信息存入“科技工作者信息表”中;
步骤S20104:科技单位数据合并
把上述的科技人员涉及的任职单位整理出来,保存到“科技单位信息采集表”中;
步骤S202:科技单位信息数据处理
步骤S20201:第一级查重
在“科技单位信息采集表”中,按照统一社会信用代码号进行查重,对重复数据进行归一化处理,对于不同数据标注单位保存;
信息整理好后,保存到“科技单位信息表”中;
步骤S20202:数据转存
把整理后的“科技单位信息采集表”中的数据更新到“科技单位信息表”中,成功后,“科技单位信息采集表”中数据转存到科技单位信息表采集日志文件中,文件名标注科技单位信息采集表、日期和时间;
删除“科技单位信息采集表”中数据;
步骤S203:论文数据处理
步骤S20301:第一级查重
在“论文数据采集表”中,按照论文名称、发表时间、单位、刊物名称进行排序,剔除重复数据;
并把数据来源加到对应字段中;
步骤S20302:科研人员更新
在“论文数据采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S20303:数据转存
把整理后的“论文数据采集表”中的数据更新到“论文数据表”中,成功后,“论文数据采集表”中数据转存到论文数据采集日志文件中,文件名标注论文数据采集表、日期和时间;
删除“论文数据采集表”中数据;
步骤S20303:第二级查重
在“论文数据表”中,按照论文名称、发表时间、刊物名称进行排序,剔除重复数据;
步骤S204:专利数据处理
步骤S20401:第一级查重
在“专利数据采集表”中,按照申请号/专利号进行排序,剔除重复数据;
并把数据来源、采集时间加到对应字段中;
步骤S20402:科研人员更新
在“专利数据采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S20403:数据转存
把整理后的“专利数据采集表”中的数据更新到“专利数据表”中,成功后,“专利数据采集表”中数据转存到专利数据采集日志文件中,文件名标注专利数据采集表、日期和时间;
删除“专利数据采集表”中数据;
步骤S20404:第二级查重
在“专利数据表”中,按照申请号/专利号进行排序,剔除重复数据;
步骤S205:科研项目信息处理
步骤S20501:第一级查重
在“科研项目数据采集表”中,按照核准单位、项目类型、申请单位、项目名称进行排序,剔除重复数据;
并把数据来源、采集时间加到对应字段中;
步骤S20502:数据转存
把整理后的“科研项目数据采集表”中的数据更新到“科研项目数据表”中,成功后,“科研项目数据采集表”中数据转存到科研项目数据采集日志文件中,文件名标注科研项目数据采集表、日期和时间;
删除“科研项目数据采集表”中数据;
步骤S20503:第二级查重
在“科研项目数据表”中,按照核准单位、项目类型、申请单位、项目名称进行排序,剔除重复数据;
步骤S206:科技奖励信息处理
步骤S20601:第一级查重
在“科技奖励数据采集表”中,按照颁发单位、奖励类型、颁奖单位、项目名称进行排序,剔除重复数据;并把数据来源、采集时间加到对应字段中;
步骤S20602:科研人员更新
在“科技奖励信息采集表”中归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S20603:数据转存
把整理后的“科技奖励数据采集表”中的数据更新到“科技奖励数据表”中,成功后,“科技奖励数据采集表”中数据转存到科技奖励数据采集日志文件中,文件名标注科技奖励数据采集表、日期和时间;
删除“科技奖励数据采集表”中数据;
步骤S20604:第二级查重
在“科技奖励数据表”中,按照颁发单位、奖励类型、颁奖单位、项目名称进行排序,剔除重复数据;
步骤S207:科技处罚信息处理
步骤S20701:第一级查重
在“科技处罚数据采集表”中,按照发出单位、处罚类型、处罚单位、处罚名称、出发时间进行排序,剔除重复数据;
并把数据来源、采集时间加到对应字段中;
步骤S20702:数据转存
把整理后的“科技处罚数据采集表”中的数据更新到“科技处罚数据表”中,成功后,“科技处罚数据采集表”中数据转存到科技处罚数据采集日志文件中,文件名标注科技处罚数据采集表、日期和时间;
删除“科技处罚数据采集表”中数据;
步骤S20703:第二级查重
在“科技处罚数据表”中,按照发出单位、处罚类型、处罚单位、处罚名称、处罚时间进行排序,剔除重复数据;
并把数据来源、采集时间加到对应字段中。
4.根据权利要求1所述的一种科技工作者信用大数据整合方法,其特征在于:所述数据可信性分析具体步骤如下:
步骤S301:可信等级设定
本方法把可信定义成5级;
5级:为决绝对信任;
4级:为相对信任;
3级:为一般信任;
2级:为一般信任,存在可疑点;
1级:为数据可疑;
步骤S302:可信信息来源维护
这里我们根据数据来源首先确定一个数据可信程度;
这里规定
步骤S303:可信分数
步骤S30301:初始可信分数设定
在可信级别基础上,为每个可信网站设定一个分数值n,即可信级别*n,n值一般设定为100分;
例如吉林省科技厅网站的初始可信分数为500分;吉林大学初始可信分数为400分等;
步骤S30302:可信值调整参数设置
设置每百次3天内无异议申诉查询次数设置(科技人员数据表、科技单位信息表、论文数据表、专利数据表、科研项目数据表、科技奖励数据表、科技处罚数据表)可信调整值mChange;
步骤S30303:科研查询可信调整
系统中每天根据查询中没有出现在异议申请的统计数据,每百次根据对应数据来源的设置的mChange,增加对应信息来源的可信分数值;
步骤S30304:可信级别调整
根据后期运营期间(步骤六可信信用公示和步骤七异议处理的分数调整)分数,调整各信息来源的可信级别;
步骤S304:职称核实
步骤S30401:个人简历
首先提取个人简历,查看该人的所在单位、职称信息;
步骤S30402:职称平台数据查询
查找各“**省职称管理平台”中职称公示信息,用单位和个人姓名核实其真实性;如果存在且一致,职称为可信;如果日期最后的信息与该人简历不一致,把职称信息和从“**省职称管理平台”查询的信息写到该人的可以数据项说明字段中;并与该人关联;
步骤S30403:科研人员更新
在查找的职称公示中,归一化单位和人员,并与“科技工作者信息表”中人员进行对比,对于不存在的人员,把该人员增加到“科技工作者信息采集表”中;
步骤S305:学历核实
步骤S30501:首先提取个人简历,查看该人的所在单位、学历信息;
步骤S30502:查找“学信网”,用单位和个人姓名核实其真实性;如果存在且一致,学历为可信;如果已查询到的信息与个人简历中信息不一致,把学历信息和从“学信网”查询的信息写到该人的可以数据项说明字段中;并与该人关联。
5.根据权利要求1所述的一种科技工作者信用大数据整合方法,其特征在于:所述数据关联分析的具体步骤如下:
步骤S401:信息关联可信度确认
步骤S40101:首先提取个人简历,查看该人的所在单位、研究领域、发表论文信息;
步骤S40102:其次分析论文、专利、报奖、项目信息所体现的单位是否一致,如果不一致,确定为非同一人信息,删除该信息与该人的关联项;
如果一致确认其信息所属领域,如果仍然一致,确定同一人信息,把该信息项关联到该人上;
步骤S40103:其次分析信息中关键字与个人简历中是否存在,如果存在,确定为同一人信息,把该项信息关联到该人上;
步骤S40104:对于不能确定的关联关系,在关联图谱上标注疑似关联;
可以在系统中隐藏或者显示;
步骤S402:信息关联关系确认
步骤S40201:对于在同一篇论文/专利/科技进步奖中同时出现两个相同的科技工作者;
在其他论文中也出现这两个科技工作者的,既可以视为这两个人为合作关联关系;
在“科技工作者关联表”中把这两个人定义成“合作关系”;
步骤S40202:对于一个科技单位在科研项目处于第一位,即视同该项目为该单位的承担单位项目,在“企业信息关联表”把该单位与该科研项目关系列为“承担单位项目”;如果处于第二及以后位置,即视同该项目为该单位的参加单位项目,在“企业信息关联表”把该单位与该科研项目关系列为“参加单位项目”;
步骤S40203:对于一个科技工作者在科研项目处于第一位,即视同该科技工作者为该项目负责人,在“科技工作者关联表”把该科技工作者与该科研项目关系列为“负责项目”;
步骤S403:科技工作者关系图谱
步骤S40301:首先提取该科技工作者基本信息作为核心点;
并提取单位作为工作关系单位;
步骤S40302:在“科技工作者关联表”提取该科技工作者的所有关系论文/专利/科技进步奖,每个论文/专利/科技进步奖在科技工作者周围方形框,并把科技工作者与论文/专利/科技进步奖通过线连接起来,其关系定义为“作者+位次”关系;
步骤S40303:在“科技工作者关联表”提取“合作关系”的其他科技工作者,每个科技工作者用圆形图框表示,并用线连接,标识合作关系;
步骤S40304:在“科技工作者关联表”提取该科技工作者的“负责项目”,每个项目用方形图框表示,并用线连接,标识负责关系;
步骤S40305:在“企业信息关联表”提取“承担单位项目”标志的项目,每个项目用方形图框表示,并用线连接,标识承担关系;
步骤S40306:在“企业信息关联表”提取“参加单位项目”标志的项目,每个项目用方形图框表示,并用线连接,标识参加关系;
步骤S40307:在“科技处罚数据表”中查找该科技工作者的信息;
如果存在,每条标题设置一个方框表示,并用线连接,标识处罚关系;
步骤S40308:科研历程
如附图6所示,上述关联关系可以以时间为轴,展现该科技工作者的科研历程,同论文、专利、奖项的关系定义为“作者+位次”关系;同项目关系为“科技人员+位次”关系;同单位关系为“工作”关系或者“协作关系”;同其他科技工作者为“协作关系”。
6.根据权利要求1所述的一种科技工作者信用大数据整合方法,其特征在于:所述科研信用公示的具体步骤如下:
信用动态:展示科研信用工作动态信息;
通知公告:发布科研信用体系建设相关通知与公告信息;
双公示信息:展示科研信用领域行政许可和行政处罚双公示信息;
信用查询:提供根据企业名称、统一社会信息代码、科研人员等查询科技工作者信用主体信用信息。
7.根据权利要求1所述的一种科技工作者信用大数据整合方法,其特征在于:所述异议处理的具体步骤如下:步骤S601:异议申请
用户就“科研信用公示”的信用信息与自身实际不一致的信息,可提出异议申请;
步骤S602:异议受理
用户查询提出的异议申请的受理情况;
步骤S603:异议核查
数据提供方接收到异议数据,进行审核检查,确认后修改对应的基础数据(科技人员数据表、科技单位信息表、论文数据表、专利数据表、科研项目数据表、科技奖励数据表、科技处罚数据表),并给出是否修正的意见;
步骤S604:数据可信度调整
对于确定的错误的信息,根据错误程度,在数据来源网站的可信分数上进行消减相应的分数,降低分数以1-3分为宜;
对于确定的正确信息,根据提交反馈,在数据来源网站的可信分数上进行增加相应的分数,增加分数以1-3分为宜;
每个数据来源的分数记载相应日志;
步骤S605:异议回复
工作人员根据修正意见对用户的异议信息进行回复;
步骤S606:异议查询
工作人员可以查询异议申请详情。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910603385.3A CN112182072A (zh) | 2019-07-05 | 2019-07-05 | 一种科技工作者信用大数据整合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910603385.3A CN112182072A (zh) | 2019-07-05 | 2019-07-05 | 一种科技工作者信用大数据整合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112182072A true CN112182072A (zh) | 2021-01-05 |
Family
ID=73914639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910603385.3A Withdrawn CN112182072A (zh) | 2019-07-05 | 2019-07-05 | 一种科技工作者信用大数据整合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182072A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014647A (zh) * | 2021-02-25 | 2021-06-22 | 浙江正元智慧科技股份有限公司 | 一种基于大数据的运维平台远程数据采集系统 |
-
2019
- 2019-07-05 CN CN201910603385.3A patent/CN112182072A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014647A (zh) * | 2021-02-25 | 2021-06-22 | 浙江正元智慧科技股份有限公司 | 一种基于大数据的运维平台远程数据采集系统 |
CN113014647B (zh) * | 2021-02-25 | 2022-05-03 | 浙江正元智慧科技股份有限公司 | 一种基于大数据的运维平台远程数据采集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | A database linking Chinese patents to China’s census firms | |
Penn-Edwards | Computer aided phenomenography: the role of Leximancer computer software in phenomenographic investigation. | |
US20070226250A1 (en) | Patent Figure Drafting Tool | |
US20020178120A1 (en) | Contract generation and administration system | |
CN110599289A (zh) | 一种裁判文书格式化处理方法 | |
US20020194059A1 (en) | Business process control point template and method | |
James | The spill-over and displacement effects of implementing election administration reforms: introducing individual electoral registration in Britain | |
US20050210068A1 (en) | Title examination systems and methods | |
Ndasana et al. | Performance management in South Africa’s municipalities: A case study of Buffalo City Metro | |
CN112182072A (zh) | 一种科技工作者信用大数据整合方法 | |
CN108510184A (zh) | 节能目标考核电子化信息系统 | |
Bowen et al. | A policy-mapping primer for social work researchers and advocates | |
US7973979B2 (en) | Methods and systems for centralizing an application process | |
CN111949698B (zh) | 基于大数据挖掘的高校研发方向推荐方法 | |
US20050209872A1 (en) | Title quality scoring systems and methods | |
Nursahla et al. | Legal Aspects of the Central Bank’s Green Finance Instruments in Indonesia: An Overview | |
JPWO2004003804A1 (ja) | 監査業務管理システム | |
Thomas | Statistical sources and databases | |
Ahmad et al. | Developing the modified accountability disclosure index for local governments | |
Liu | Managing social risk in China local administration: an examination of SSRA initiative | |
Griffin et al. | Managing Personnel Records in an Electronic Environment | |
Lee et al. | Labor Repression, Democracy, and Growth in South Korea: Data Construction and Preliminary Results | |
Innovation Project Team on Rule of Law Index, Institute of Law, Chinese Academy of Social Sciences | Openness of Government Affairs in China: Developments in 2019 and Prospects in 2020 | |
Lv et al. | The 2012 Evaluation of China’s Government Transparency | |
Bradul et al. | Organization and implementation of electronic document management at enterprises: the path to digitization of the information space of the accounting and taxation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210105 |
|
WW01 | Invention patent application withdrawn after publication |