CN114358611A - 一种基于学科发展的科研能力评估用数据采集系统 - Google Patents

一种基于学科发展的科研能力评估用数据采集系统 Download PDF

Info

Publication number
CN114358611A
CN114358611A CN202210015385.3A CN202210015385A CN114358611A CN 114358611 A CN114358611 A CN 114358611A CN 202210015385 A CN202210015385 A CN 202210015385A CN 114358611 A CN114358611 A CN 114358611A
Authority
CN
China
Prior art keywords
data
module
scientific research
scientific
electrically connected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210015385.3A
Other languages
English (en)
Inventor
武青松
张颖聪
马鸣
向璨
陈实
吴建才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji Medical College of Huazhong University of Science and Technology
Original Assignee
Tongji Medical College of Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji Medical College of Huazhong University of Science and Technology filed Critical Tongji Medical College of Huazhong University of Science and Technology
Priority to CN202210015385.3A priority Critical patent/CN114358611A/zh
Publication of CN114358611A publication Critical patent/CN114358611A/zh
Priority to PCT/CN2022/121792 priority patent/WO2023130774A1/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于学科发展的科研能力评估用数据采集系统,具体涉及科研能力评估技术领域,本发明通过随机选择聚类阈值,并通过随机算法确定类聚类数据的基本重要特征,再通过聚类算法对特征进行聚类,得到归类完成的特征数据,然后进行深度计算类别特征的平均区分数值,并通过降维排列得到数据特征通过折线图明确表示,即可得出准确评估数据,并通过置信度和支撑度的建立找出给定满足的最小支持度及最小可信度,并进行关联规则的挖掘分析,随后通过量化计算得出量化成果指标值,则通过以上聚类处理,降维排列及数据的关联分析处理确保提取准确的信息,进而可以为后续评估奠定切实基础,提高科研成果评估的可信性真实性。

Description

一种基于学科发展的科研能力评估用数据采集系统
技术领域
本发明涉及科研能力评估技术领域,更具体地说,本发明涉及一种基于学科发展的科研能力评估用数据采集系统。
背景技术
科技是第一生产力,科学研究是高等医学院校的基本职能之一,附属医院作为医学院校的重要组成部分,除承担着治病救人的职能外,科研工作也是其重要组成部分,同时科研能力是衡量医学院校综合实力的重要指标之一,医学作为一门高度分化又高度综合的学科,强势的学科建设是实现医院可持续发展的关键之一,学科建设作为医院建设发展的一项基础工程,承担着长期的战略性任务。
科研能力评估是旨在提高科技管理与科技决策水平的科技咨询活动,按照特定的目的,遵循一定的原则、程序和指标,运用科学、公正和可行的方法对科技活动及其相关环境进行综合分析和判断,并作出定性及定量的评价与估量,科研能力评估不能只局限于科技活动本身,还要考虑科技活动所处的环境条件因素及其所产生的效果,要全面地描述科研实力、准确地把握科研实力,应该采用若干指标来橘述科研实力的内部结构,以完整的指标体系来全面综合描述科研实力,充分发挥指标体系的科学评价考核作用及对于科研发展的导向作用。
而一所医院的科研水平取决于医生的科研能力,其中科研能力评估是检验科研水平的有效办法之一,同时也为加强医院科研管理和制定科研发展规划策略提供参考依据,而在对科研能力进行评估的过程中往往需要先对评估数据进行采集,现有技术中一般根据量化评价的特点,为了更好地描述科研成果的定性特征,经常需要对所评估人员的科研成果进行数据采集,但是一般采集时只是单单的考虑科研成果的数量,没有考虑到科研人员在科研成果中的排名,使得科研评估的准确性较低,而且由于信息来源的多样性和数据结构的复杂性等原因,从而很难提取到准确的有效信息,并且也不会对采集到的数据进行关联性分析,使得数据较为分散,不便于后续评估使用,因此,研究一种基于学科发展的科研能力评估用数据采集系统来解决上述问题具有重要意义。
发明内容
为了克服现有技术的上述缺陷,本发明提供了一种基于学科发展的科研能力评估用数据采集系统,本发明所要解决的技术问题是:现有技术中一般根据量化评价的特点,为了更好地描述科研成果的定性特征,经常需要对所评估人员的科研成果进行数据采集,但是一般采集时只是单单的考虑科研成果的数量,没有考虑到科研人员在科研成果中的排名,使得科研评估的准确性较低,而且由于信息来源的多样性和数据结构的复杂性等原因,从而很难提取到准确的有效信息,并且也不会对采集到的数据进行关联性分析,使得数据较为分散,不便于后续评估使用的问题。
为实现上述目的,本发明提供如下技术方案:一种基于学科发展的科研能力评估用数据采集系统,包括数据挖掘模块、数据上报模块和互联网,所述互联网的输出端与数据挖掘模块的输入端电连接,所述数据挖掘模块的输出端与数据预处理模块的输入端电连接,所述数据上报模块的输出端与数据预处理模块的输入端电连接,所述数据预处理模块的输出端与特征提取模块的输入端电连接,所述特征提取模块的输出端与调研校正模块的输入端电连接。
所述调研校正模块的输出端与聚类分析模块的输入端电连接,所述聚类分析模块的输出端与关联模块的输入端电连接,所述关联模块的输出端与量化计算模块的输入端电连接,所述量化计算模块的输出端与数据降维模块的输入端电连接,所述数据降维模块的输出端与数据库的输入端电连接,所述数据库的输出端与特征提取模块的输入端电连接。
作为本发明的进一步方案:所述数据上报模块包括文字录入模块、语音录入模块和图像录入模块,所述文字录入模块、语音录入模块和图像录入模块的输出端与数据预处理模块的输入端电连接。
作为本发明的进一步方案:所述数据挖掘中挖掘的相关数据为:与科研能力相关的数据,所述科研能力包括科技创新能力、科技转化能力、科技竞争能力和科技支撑能力,所述科技创新能力理论创新、技术创新和协同创新三个要素,所述科技转换能力包括军事效益和经济效益两个要素,所述科技竞争能力包括学术竞争、人才竞争和发展潜力三个要素,所述科技支撑能力包括平台支撑和管理支撑两个要素。
作为本发明的进一步方案:所述数据挖掘模块的具体挖掘步骤为:借助网络爬虫工具进行爬取数据,借助Scrapy抓取框架快速高层次的跨屏幕抓取网络上数据,同时从页面中抓取结构化数据,利用基于Python的Scrapy技术框架实现在网站中进行数据抓取,然后根据评估数据的需要,通过数据挖掘对抓取的数据进行关联算法分析。
作为本发明的进一步方案:所述数据预处理的具体步骤为:先将爬取的数据转换为计算机可以识别和运算的数据集,剔除异常数据,并检查数据拼写错误、去掉数据重复记录,然后通过推导计算缺失的数据并补上不完全的记录数据,通过滤波技术和数据清洗去除数据中的干扰和噪声,并对有用信息进行加强处理。
作为本发明的进一步方案:所述聚类分析模块的具体实现步骤如下:
S1、随机选择聚类的阈值,通过随机算法进行确定每个簇的类别,并使用聚类算法对调研校正后的数据进行聚类,得到具有类别的聚类: C={C1,C2,…,Ck},然后计算每个特征中任何一个簇到其他簇之间的区分度。
S2、并计算其在不同类别之间的区分度的平均值Meani,然后进一步计算每个特征上不同类别之间平均区分度的最大值Maxi和最小值Mini,然后计算每个特征在不同类别上的区分度,即fi=(Maxi-Mini)/Meani,然后对特征按照fi降序排列得到fi *(i=1,2,…,m)。
S3、将上述得到的结果通过折线图来表示,并在折线图中找到变化剧烈的点或拐点i0
Figure BDA0003460366780000041
即为选择的特征子集,并由此特征子集共同构成特征聚类分析文档。
作为本发明的进一步方案:所述关联模块的具体关联步骤和规则为:
设I={i1,i2,…im}是m个不同的项目的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即
Figure RE-GDA0003546000800000045
T有唯一的标识符TID,关联规则是形如
Figure RE-GDA0003546000800000042
的蕴含式,其中
Figure RE-GDA0003546000800000049
X∩Y=Φ,关联规则成立的条件是支持度S和置信度C,所述支持度S中,D中至少有S%的事务包含 X∪Y,即
Figure RE-GDA0003546000800000048
所述置信度C中,在D所包含X的事务中,至少有C%的事务同时也包含Y,即
Figure RE-GDA0003546000800000043
关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的满足最小支持度Smin和最小置信度Cmin的关联规则。
作为本发明的进一步方案:所述量化计算模块的计算公式为:
Figure BDA0003460366780000047
其中,A为科研人员绩效评估的量化得分,th,Sh分别为某科研人员符合量化指标Kij…x的科研活动h中人员数和排序,Kij…x为某科研人员满足量化指标Kij…x的科研成果的实际数量,Kij…x为某科研人员满足量化指标Kij…x的量化指标值。
作为本发明的进一步方案:所述数据降维模块的具体实现方式为:通过 OLAP将多维数据降维,将其转化为报表形式或存入数据库,可在数据库中进行查询,最终利用数据作为评估依据进行科研能力评估。
作为本发明的进一步方案:所述文字录入模块:采用文字输入的方式对数据信息进行录入。
所述语音录入模块:采用语音输入的方式对数据信息进行录入。
所述图像录入模块:采用图像输入的方式进行数据的录入,并可进行文字的数据。
所述互联网:用于对数据信息的搜索、获取及共享。
所述数据库:用于对系统中的各项数据信息的管理及分类排序,同时实现对数据信息的存储。
所述特征提取模块:用于对挖掘的数据信息进一步进行重要特征及特点的筛选提取。
本发明的有益效果在于:
1、本发明通过随机选择聚类阈值,并通过随机算法确定类聚类数据的基本重要特征,再通过聚类算法对特征进行聚类,得到归类完成的特征数据,然后进行深度计算类别特征的平均区分数值,并通过降维排列得到数据特征通过折线图明确表示,即可得出准确评估数据,并通过置信度和支撑度的建立找出给定满足的最小支持度及最小可信度,并进行关联规则的挖掘分析,随后通过量化计算得出量化成果指标值,则通过以上聚类处理,降维排列及数据的关联分析处理确保提取准确的信息,进而可以为后续评估奠定切实基础,提高科研成果评估的可信性真实性;
2、本发明通过互联网提供广泛的数据信息,进而便于提供大数据的搜索及获取,使得数据挖掘模块借助网络爬虫工具进行信息的获取,抓取网络数据,同时从页面中抓取结构化数据,并利用基于Python的Scrapy技术框架实现在网站中进行数据抓取,以此可以通过网络进行数据信息的实时获取,提高数据关联更新的实时性。
附图说明
图1为本发明系统的结构示意图;
图2为本发明数据上报模块系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,本发明提供了一种基于学科发展的科研能力评估用数据采集系统,包括数据挖掘模块、数据上报模块和互联网,互联网的输出端与数据挖掘模块的输入端电连接,数据挖掘模块的输出端与数据预处理模块的输入端电连接,数据上报模块的输出端与数据预处理模块的输入端电连接,数据预处理模块的输出端与特征提取模块的输入端电连接,特征提取模块的输出端与调研校正模块的输入端电连接。
调研校正模块的输出端与聚类分析模块的输入端电连接,聚类分析模块的输出端与关联模块的输入端电连接,关联模块的输出端与量化计算模块的输入端电连接,量化计算模块的输出端与数据降维模块的输入端电连接,数据降维模块的输出端与数据库的输入端电连接,数据库的输出端与特征提取模块的输入端电连接。
数据上报模块包括文字录入模块、语音录入模块和图像录入模块,文字录入模块、语音录入模块和图像录入模块的输出端与数据预处理模块的输入端电连接。
文字录入模块:采用文字输入的方式对数据信息进行录入。
语音录入模块:采用语音输入的方式对数据信息进行录入。
图像录入模块:采用图像输入的方式进行数据的录入,并可进行文字的数据。
互联网:用于对数据信息的搜索、获取及共享。
数据库:用于对系统中的各项数据信息的管理及分类排序,同时实现对数据信息的存储。
特征提取模块:用于对挖掘的数据信息进一步进行重要特征及特点的筛选提取。
数据挖掘中挖掘的相关数据为:与科研能力相关的数据,科研能力包括科技创新能力、科技转化能力、科技竞争能力和科技支撑能力,科技创新能力理论创新、技术创新和协同创新三个要素,科技转换能力包括军事效益和经济效益两个要素,科技竞争能力包括学术竞争、人才竞争和发展潜力三个要素,科技支撑能力包括平台支撑和管理支撑两个要素。
数据挖掘模块的具体挖掘步骤为:借助网络爬虫工具进行爬取数据,借助Scrapy抓取框架快速高层次的跨屏幕抓取网络上数据,同时从页面中抓取结构化数据,利用基于Python的Scrapy技术框架实现在网站中进行数据抓取,然后根据评估数据的需要,通过数据挖掘对抓取的数据进行关联算法分析,本发明通过互联网提供广泛的数据信息,进而便于提供大数据的搜索及获取,使得数据挖掘模块借助网络爬虫工具进行信息的获取,抓取网络数据,同时从页面中抓取结构化数据,并利用基于Python的Scrapy技术框架实现在网站中进行数据抓取,以此可以通过网络进行数据信息的实时获取,提高数据关联更新的实时性。
数据预处理的具体步骤为:先将爬取的数据转换为计算机可以识别和运算的数据集,剔除异常数据,并检查数据拼写错误、去掉数据重复记录,然后通过推导计算缺失的数据并补上不完全的记录数据,通过滤波技术和数据清洗去除数据中的干扰和噪声,并对有用信息进行加强处理。
聚类分析模块的具体实现步骤如下:
S1、随机选择聚类的阈值,通过随机算法进行确定每个簇的类别,并使用聚类算法对调研校正后的数据进行聚类,得到具有类别的聚类: C={C1,C2,…,Ck},然后计算每个特征中任何一个簇到其他簇之间的区分度。
S2、并计算其在不同类别之间的区分度的平均值Meani,然后进一步计算每个特征上不同类别之间平均区分度的最大值Maxi和最小值Mini,然后计算每个特征在不同类别上的区分度,即fi=(Maxi-Mini)/Meani,然后对特征按照fi降序排列得到fi *(i=1,2,…,m)。
S3、将上述得到的结果通过折线图来表示,并在折线图中找到变化剧烈的点或拐点i0
Figure BDA0003460366780000081
即为选择的特征子集,并由此特征子集共同构成特征聚类分析文档。
关联模块的具体关联步骤和规则为:
设I={i1,i2,…im}是m个不同的项目的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即
Figure BDA0003460366780000082
T有唯一的标识符TD,关联规则是形如
Figure BDA0003460366780000083
的蕴含式,其中
Figure BDA0003460366780000084
X∩Y=Φ,关联规则成立的条件是支持度S和置信度C,支持度S中,D中至少有S%的事务包含X∪Y,即
Figure BDA0003460366780000085
置信度C中,在D所包含X的事务中,至少有C%的事务同时也包含Y,即
Figure BDA0003460366780000086
关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的满足最小支持度Smin和最小置信度Cmin的关联规则。
量化计算模块的计算公式为:
Figure BDA0003460366780000091
其中,A为科研人员绩效评估的量化得分,th,Sh分别为某科研人员符合量化指标Kij…x的科研活动h中人员数和排序,Kij…x为某科研人员满足量化指标 Kij…x的科研成果的实际数量,Kij…x为某科研人员满足量化指标Kij…x的量化指标值。
数据降维模块的具体实现方式为:通过OLAP将多维数据降维,将其转化为报表形式或存入数据库,可在数据库中进行查询,最终利用数据作为评估依据进行科研能力评估。
本发明的工作原理为:
S1、首先通过数据上报模块对数据信息的录入,同时也可通过数据挖掘模块对互联网上信息进行网络抓取及结构化抓取数据的操作,此时将挖掘得出数据信息传递给数据预处理模块,数据预处理模块对数据信息进行错误筛选,异常数据的删除,并通过推导计算得出缺失数据,使得数据信息得到加强处理;
S2、然后即可通过特征提取模块提取重要基本特征,或者从数据库中提取相类似中要基本特征,并通过调研校正模块对数据特征进行可信度调研校对;
S3、最后交由聚类分析模块随机选择聚类阈值,并通过聚类算法得出数据类别,区分得到降维排序,并通过关联模块建立支持度和置信度,并分析得整合关联规则性,此时通过量化计算模块计算评估指标值,得到准确结果评估值,最后通过数据降维模块的OLAP将多维数据降维,将其转化为报表形式存入数据库。
最后应说明的几点是:虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明的基础上,以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于学科发展的科研能力评估用数据采集系统,包括数据挖掘模块、数据上报模块和互联网,其特征在于:所述互联网的输出端与数据挖掘模块的输入端电连接,所述数据挖掘模块的输出端与数据预处理模块的输入端电连接,所述数据上报模块的输出端与数据预处理模块的输入端电连接,所述数据预处理模块的输出端与特征提取模块的输入端电连接,所述特征提取模块的输出端与调研校正模块的输入端电连接;
所述调研校正模块的输出端与聚类分析模块的输入端电连接,所述聚类分析模块的输出端与关联模块的输入端电连接,所述关联模块的输出端与量化计算模块的输入端电连接,所述量化计算模块的输出端与数据降维模块的输入端电连接,所述数据降维模块的输出端与数据库的输入端电连接,所述数据库的输出端与特征提取模块的输入端电连接。
2.根据权利要求1所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述数据上报模块包括文字录入模块、语音录入模块和图像录入模块,所述文字录入模块、语音录入模块和图像录入模块的输出端与数据预处理模块的输入端电连接。
3.根据权利要求1所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述数据挖掘中挖掘的相关数据为:与科研能力相关的数据,所述科研能力包括科技创新能力、科技转化能力、科技竞争能力和科技支撑能力,所述科技创新能力理论创新、技术创新和协同创新三个要素,所述科技转换能力包括军事效益和经济效益两个要素,所述科技竞争能力包括学术竞争、人才竞争和发展潜力三个要素,所述科技支撑能力包括平台支撑和管理支撑两个要素。
4.根据权利要求3所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述数据挖掘模块的具体挖掘步骤为:借助网络爬虫工具进行爬取数据,借助Scrapy抓取框架快速高层次的跨屏幕抓取网络上数据,同时从页面中抓取结构化数据,利用基于Python的Scrapy技术框架实现在网站中进行数据抓取,然后根据评估数据的需要,通过数据挖掘对抓取的数据进行关联算法分析。
5.根据权利要求4所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述数据预处理的具体步骤为:先将爬取的数据转换为计算机可以识别和运算的数据集,剔除异常数据,并检查数据拼写错误、去掉数据重复记录,然后通过推导计算缺失的数据并补上不完全的记录数据,通过滤波技术和数据清洗去除数据中的干扰和噪声,并对有用信息进行加强处理。
6.根据权利要求1所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述聚类分析模块的具体实现步骤如下:
S1、随机选择聚类的阈值,通过随机算法进行确定每个簇的类别,并使用聚类算法对调研校正后的数据进行聚类,得到具有类别的聚类:C={C1,C2,…,Ck},然后计算每个特征中任何一个簇到其他簇之间的区分度;
S2、并计算其在不同类别之间的区分度的平均值Meani,然后进一步计算每个特征上不同类别之间平均区分度的最大值Maxi和最小值Mini,然后计算每个特征在不同类别上的区分度,即fi=(Maxi-Mini)/Meani,然后对特征按照fi降序排列得到fi *(i=1,2,…,m);
S3、将上述得到的结果通过折线图来表示,并在折线图中找到变化剧烈的点或拐点i0
Figure FDA0003460366770000021
即为选择的特征子集,并由此特征子集共同构成特征聚类分析文档。
7.根据权利要求1所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述关联模块的具体关联步骤和规则为:
设I={i1,i2,…im}是m个不同的项目的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即
Figure RE-FDA0003546000790000031
T有唯一的标识符TID,关联规则是形如
Figure RE-FDA0003546000790000032
的蕴含式,其中
Figure RE-FDA0003546000790000033
X∩Y=Φ,关联规则成立的条件是支持度S和置信度C,所述支持度S中,D中至少有S%的事务包含X∪Y,即
Figure RE-FDA0003546000790000034
所述置信度C中,在D所包含X的事务中,至少有C%的事务同时也包含Y,即
Figure RE-FDA0003546000790000035
关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的满足最小支持度Smin和最小置信度Cmin的关联规则。
8.根据权利要求1所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述量化计算模块的计算公式为:
Figure FDA0003460366770000036
其中,A为科研人员绩效评估的量化得分,th,Sh分别为某科研人员符合量化指标Kij…x的科研活动h中人员数和排序,Kij…x为某科研人员满足量化指标Kij…x的科研成果的实际数量,Kij…x为某科研人员满足量化指标Kij…x的量化指标值。
9.根据权利要求1所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述数据降维模块的具体实现方式为:通过OLAP将多维数据降维,将其转化为报表形式或存入数据库,可在数据库中进行查询,最终利用数据作为评估依据进行科研能力评估。
10.根据权利要求2所述的一种基于学科发展的科研能力评估用数据采集系统,其特征在于:所述文字录入模块:采用文字输入的方式对数据信息进行录入;
所述语音录入模块:采用语音输入的方式对数据信息进行录入;
所述图像录入模块:采用图像输入的方式进行数据的录入,并可进行文字的数据;
所述互联网:用于对数据信息的搜索、获取及共享;
所述数据库:用于对系统中的各项数据信息的管理及分类排序,同时实现对数据信息的存储;
所述特征提取模块:用于对挖掘的数据信息进一步进行重要特征及特点的筛选提取。
CN202210015385.3A 2022-01-07 2022-01-07 一种基于学科发展的科研能力评估用数据采集系统 Withdrawn CN114358611A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210015385.3A CN114358611A (zh) 2022-01-07 2022-01-07 一种基于学科发展的科研能力评估用数据采集系统
PCT/CN2022/121792 WO2023130774A1 (zh) 2022-01-07 2022-09-27 一种基于学科发展的科研能力评估用数据采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210015385.3A CN114358611A (zh) 2022-01-07 2022-01-07 一种基于学科发展的科研能力评估用数据采集系统

Publications (1)

Publication Number Publication Date
CN114358611A true CN114358611A (zh) 2022-04-15

Family

ID=81107471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210015385.3A Withdrawn CN114358611A (zh) 2022-01-07 2022-01-07 一种基于学科发展的科研能力评估用数据采集系统

Country Status (2)

Country Link
CN (1) CN114358611A (zh)
WO (1) WO2023130774A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384820A (zh) * 2023-03-31 2023-07-04 四川省自然资源科学研究院(四川省生产力促进中心) 一种企业的科技创新能力评估方法、系统、设备及介质
WO2023130774A1 (zh) * 2022-01-07 2023-07-13 华中科技大学同济医学院附属协和医院 一种基于学科发展的科研能力评估用数据采集系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891812B (zh) * 2024-03-18 2024-05-24 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754651B2 (en) * 2001-04-17 2004-06-22 International Business Machines Corporation Mining of generalized disjunctive association rules
CN110751355A (zh) * 2018-12-06 2020-02-04 国网河北省电力有限公司经济技术研究院 一种科技成果评估方法和装置
CN111078852A (zh) * 2019-12-09 2020-04-28 武汉大学 基于机器学习的高校前沿科研团队探测系统
CN111639237B (zh) * 2020-04-07 2023-04-07 安徽理工大学 一种基于聚类和关联规则挖掘的电力通信网风险评估系统
CN112149955A (zh) * 2020-08-18 2020-12-29 国网河北省电力有限公司沧州供电分公司 一种科技成果评价平台系统
CN114358611A (zh) * 2022-01-07 2022-04-15 华中科技大学同济医学院附属协和医院 一种基于学科发展的科研能力评估用数据采集系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023130774A1 (zh) * 2022-01-07 2023-07-13 华中科技大学同济医学院附属协和医院 一种基于学科发展的科研能力评估用数据采集系统
CN116384820A (zh) * 2023-03-31 2023-07-04 四川省自然资源科学研究院(四川省生产力促进中心) 一种企业的科技创新能力评估方法、系统、设备及介质

Also Published As

Publication number Publication date
WO2023130774A1 (zh) 2023-07-13

Similar Documents

Publication Publication Date Title
Milovic et al. Prediction and decision making in health care using data mining
CN114358611A (zh) 一种基于学科发展的科研能力评估用数据采集系统
López-Robles et al. Understanding the intellectual structure and evolution of Competitive Intelligence: A bibliometric analysis from 1984 to 2017
Lee et al. Data mining techniques applied to medical information
CN113688635B (zh) 一种基于语义相似度的类案推荐方法
Al-Janabi A proposed framework for analyzing crime data set using decision tree and simple k-means mining algorithms
CN116739811A (zh) 一种自适应风险控制的企业财务信息智能管理系统及方法
CN113781006A (zh) 一种基于大数据的人力资源管理系统及方法
CN110033191B (zh) 一种商业人工智能的分析方法及系统
Taherinezhad et al. COVID-19 crisis management: Global appraisal using two-stage DEA and ensemble learning algorithms
CN116756373A (zh) 基于知识图谱更新的项目评审专家筛选方法、系统及介质
KR101985961B1 (ko) 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법
Kim et al. On a patent analysis method for identifying core technologies
CN116152018A (zh) 一种高新技术企业专利知识产权项目可行性预评估系统
Ersoz et al. Knowledge discovery and data mining techniques in textile industry
CN115936293A (zh) 一种基于pca的地铁施工安全事故风险评价方法
Chou et al. An information retrieval system for medical records & documents
CN113902532A (zh) 一种发票虚开风险识别方法
Mao et al. Design of Early warning platform for college students’ achievement based on data mining
CN111461524A (zh) 司法辅助机构信誉评价方法、系统、设备及存储介质
Yin et al. Stroke risk prediction: Comparing different sampling algorithms
CN113590597B (zh) 网络异常行为重点人员分析层级划分的识别方法及设备
GururamaSenthilvel et al. Artificial Intelligence enabled Employee Performance Prediction using Comprehensive Learning Metrics
Man et al. Fuzzy sets for data mining and recommendation algorithms
Waghmare et al. Analytical study using data mining for periodical medical examination of employees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220415

WW01 Invention patent application withdrawn after publication