CN109919469A - 一种全息科技数据处理方法 - Google Patents

一种全息科技数据处理方法 Download PDF

Info

Publication number
CN109919469A
CN109919469A CN201910145268.7A CN201910145268A CN109919469A CN 109919469 A CN109919469 A CN 109919469A CN 201910145268 A CN201910145268 A CN 201910145268A CN 109919469 A CN109919469 A CN 109919469A
Authority
CN
China
Prior art keywords
data
science
holographic
project
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910145268.7A
Other languages
English (en)
Inventor
王乐
曲翠钰
杜长彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201910145268.7A priority Critical patent/CN109919469A/zh
Publication of CN109919469A publication Critical patent/CN109919469A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Holo Graphy (AREA)

Abstract

本发明提供一种全息科技数据处理方法,属于软件架构技术领域,本发明主要包括四个步骤:1)全息科技数据梳理与描述;2)全息科技数据模型设计;3)全息科技数据清洗;4)全息科技数据数据融合。有效整合政府各职能部门的科技管理信息资源,建立贯穿科技项目管理生命周期全过程的科技项目全息数据模型,实现不同来源数据清洗、融合,作为数据分析、挖掘前的重要数据准备工作,可以保证数据的准确性和有效性。

Description

一种全息科技数据处理方法
技术领域
本发明涉及软件架构技术,尤其涉及一种全息科技数据处理方法。
背景技术
随着“以用户为中心、以服务为导向”的政府形态的提出,对分散在政府各职能部门的科技项目资源进行有效的梳理和整合,设计科技全息数据模型,对于全面掌握项目生命周期全过程的信息,为用户提供个性化、精细化和移动化的服务。
因为数据类型和组织模式多样化、关联关系繁杂、质量良莠不齐等内在的复杂性,使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战。
发明内容
为了解决以上技术问题,本发明提出了一种全息科技数据处理方法,结合各类科技信息资源,设计全息科技数据模型,对数据模型进行系列处理,提高数据的准确性。
本发明的技术方案是:
一种全息科技数据处理方法,主要包括四个步骤:
1)全息科技数据梳理与描述;
2)全息科技数据模型设计
3)全息科技数据清洗;
4)全息科技数据数据融合。
其中,1)全息科技数据梳理与描述
在科技项目信息数据服务的基础上,建立科技数据分类体系,将业务分成需求征集、重点任务布局、实施方案编制、专项设立、编制项目指南、合规性审核、答辩评审、正式申报、首轮评审、预申报、指南发布、立项结果公示、项目立项、预算经费监管、项目绩效评估、项目成果管理、项目成果转化、科技成果推广宣传、科技奖励阶段;
通过上述梳理,将科技项目管理业务归为项目、机构、人员、产出、环境、条件、事件和项目管理过程这八类要素。
2)全息科技数据模型设计
按照上述构成科技数据的八要素,设计科技全息数据模型;
3)全息科技数据清洗
数据清洗包括清除重复数据、消除噪声数据。
其中,重复数据的清洗:
如果有两个及以上的实例表示的是同一实体,那么即为重复记录。为了发现重复实例,将每一个实例都与其他实例进行对比,找出与之相同的实例;对于实例中的数值型属性,采用统计学的方法来检测,根据不同的数值型属性的均值和标准方差值,设置不同属性的置信区间来识别异常属性对应的记录,识别出数据集合中的重复记录,并加以消除;
相似度计算是重复数据清洗过程中的常用方法,通过计算记的各属性的相似度,再考虑每个属性的不同权重值,加权平均后得到记录的相似度;
如果两条记录相似度超过了设定的阈值,则认为两条记录是匹配的,否则,认为这两条记录指向不同实体。
噪声数据处理:
在数据收集、整理的过程中,产生的噪声数据,即“离群点”;通过值域及文本语义理解判定数据内容值的合理性并修订。
对于数值型数据采用平滑数据的方法,文本内容采用语义判断-相似文本替换的方法。
4)全息科技数据数据融合
数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义模糊性;该部分主要涉及数据的选择、不一致数据的处理问题。
数据选择指不同来源信息对实体的同一属性进行描述时做的选择;
根据算法矩阵用于判定不同数据源的内容权重值,根据最后权重值计算最终的内容项。
当内容适合使用数据选择矩阵时,可以进行权重计算,数据重构。
当内容不适用数据选择矩阵时,分别对数据源进行数据质量评估,依据数据质量评估矩阵进行数据内容重构。
本发明的有益效果是
有效整合政府各职能部门的科技管理信息资源,建立贯穿科技项目管理生命周期全过程的科技项目全息数据模型,实现不同来源数据清洗、融合,作为数据分析、挖掘前的重要数据准备工作,可以保证数据的准确性和有效性。
附图说明
图1是本发明的数据融合流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种全息科技数据处理方法,主要包括四个步骤:
1)全息科技数据梳理与描述;
2)全息科技数据模型设计
3)全息科技数据清洗;
4)全息科技数据数据融合。
其中,1)全息科技数据梳理与描述
在科技项目信息数据服务的基础上,建立科技数据分类体系,将业务分成需求征集、重点任务布局、实施方案编制、专项设立、编制项目指南、合规性审核、答辩评审、正式申报、首轮评审、预申报、指南发布、立项结果公示、项目立项、预算经费监管、项目绩效评估、项目成果管理、项目成果转化、科技成果推广宣传、科技奖励阶段。
通过上述梳理,发现科技项目管理业务涉及项目、机构、人员、产出、环境、条件、事件和项目管理过程这八类要素。如下表所示
2)全息科技数据模型设计
按照上述构成科技数据的八要素,设计科技全息数据模型。
3)全息科技数据清洗
数据清洗包括清除重复数据、消除噪声数据。在分析“脏数据”的产生来源和存在形式后,充分利用新兴的技术手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据。
重复数据的清洗。如果有两个及以上的实例表示的是同一实体,那么即为重复记录。为了发现重复实例,通常的做法是将每一个实例都与其他实例进行对比,找出与之相同的实例。对于实例中的数值型属性,可以采用统计学的方法来检测,根据不同的数值型属性的均值和标准方差值,设置不同属性的置信区间来识别异常属性对应的记录,识别出数据集合中的重复记录,并加以消除。
相似度计算是重复数据清洗过程中的常用方法,通过计算记的各属性的相似度,再考虑每个属性的不同权重值,加权平均后得到记录的相似度。如果两条记录相似度超过了某一阈值,则认为两条记录是匹配的,否则,认为这两条记录指向不同实体。关于相似度计算可以参见《一种基于数据图谱的科技资源关联推荐方法》中的描述。
缺失数据,在现实世界中,由于手动输入的失误操作、部分信息需要保密或者数据来源不可靠等各种各样的原因,使得数据集中的内容残缺不完整。这部分数据的处理依赖于后面数据融合阶段来完善。
噪声数据处理。在实际应用中因为各种原因,在数据收集、整理的过程中,产生大量的噪声数据,即“离群点”。因为噪声数据不在合理的数据域内,所以通过值域及文本语义理解判定数据内容值的合理性并修订。对于数值型数据采用平滑数据的方法,文本内容采用语义判断-相似文本替换的方法。
4)全息科技数据数据融合
数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义模糊性。该部分主要涉及数据的选择、不一致数据的处理问题。
数据选择指不同来源信息对实体的同一属性进行描述时做的选择。本方法形成的一套算法矩阵用于判定不同数据源的内容权重值,根据最后权重值计算最终的内容项。
该内容适合使用数据选择矩阵,可以进行权重计算,数据重构。
该内容不适用数据选择矩阵,分别对数据源进行数据质量评估,依据数据质量评估矩阵进行数据内容重构。
本发明建立了一套用以描述科技管理领域的数据集合和一个描述服务、文件的元数据模型,并通过对数据的处理,形成准确、完整的数据仓库。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种全息科技数据处理方法,其特征在于,
主要包括四个步骤:
1)全息科技数据梳理与描述;
2)全息科技数据模型设计
3)全息科技数据清洗;
4)全息科技数据数据融合。
2.根据权利要求1所述的方法,其特征在于,
其中,1)全息科技数据梳理与描述
在科技项目信息数据服务的基础上,建立科技数据分类体系,将业务分成需求征集、重点任务布局、实施方案编制、专项设立、编制项目指南、合规性审核、答辩评审、正式申报、首轮评审、预申报、指南发布、立项结果公示、项目立项、预算经费监管、项目绩效评估、项目成果管理、项目成果转化、科技成果推广宣传、科技奖励阶段;
通过上述梳理,将科技项目管理业务归为项目、机构、人员、产出、环境、条件、事件和项目管理过程这八类要素。
3.根据权利要求2所述的方法,其特征在于,
2)全息科技数据模型设计
按照上述构成科技数据的八要素,设计科技全息数据模型。
4.根据权利要求3所述的方法,其特征在于
3)全息科技数据清洗
数据清洗包括清除重复数据、消除噪声数据。
5.根据权利要求4所述的方法,其特征在于
其中,重复数据的清洗:
如果有两个及以上的实例表示的是同一实体,那么即为重复记录。为了发现重复实例,将每一个实例都与其他实例进行对比,找出与之相同的实例;对于实例中的数值型属性,采用统计学的方法来检测,根据不同的数值型属性的均值和标准方差值,设置不同属性的置信区间来识别异常属性对应的记录,识别出数据集合中的重复记录,并加以消除;
相似度计算是重复数据清洗过程中的常用方法,通过计算记的各属性的相似度,再考虑每个属性的不同权重值,加权平均后得到记录的相似度;
如果两条记录相似度超过了设定的阈值,则认为两条记录是匹配的,否则,认为这两条记录指向不同实体。
6.根据权利要求4或5所述的方法,其特征在于
噪声数据处理:
在数据收集、整理的过程中,产生的噪声数据,即“离群点”;通过值域及文本语义理解判定数据内容值的合理性并修订。
7.根据权利要求6所述的方法,其特征在于
对于数值型数据采用平滑数据的方法,文本内容采用语义判断-相似文本替换的方法。
8.根据权利要求8所述的方法,其特征在于
4)全息科技数据数据融合
数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义模糊性;该部分主要涉及数据的选择、不一致数据的处理问题。
9.根据权利要求8所述的方法,其特征在于
数据选择指不同来源信息对实体的同一属性进行描述时做的选择;
根据算法矩阵用于判定不同数据源的内容权重值,根据最后权重值计算最终的内容项。
10.根据权利要求9所述的方法,其特征在于
当内容适合使用数据选择矩阵时,可以进行权重计算,数据重构。
当内容不适用数据选择矩阵时,分别对数据源进行数据质量评估,依据数据质量评估矩阵进行数据内容重构。
CN201910145268.7A 2019-02-27 2019-02-27 一种全息科技数据处理方法 Pending CN109919469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910145268.7A CN109919469A (zh) 2019-02-27 2019-02-27 一种全息科技数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910145268.7A CN109919469A (zh) 2019-02-27 2019-02-27 一种全息科技数据处理方法

Publications (1)

Publication Number Publication Date
CN109919469A true CN109919469A (zh) 2019-06-21

Family

ID=66962491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910145268.7A Pending CN109919469A (zh) 2019-02-27 2019-02-27 一种全息科技数据处理方法

Country Status (1)

Country Link
CN (1) CN109919469A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023993A (zh) * 2012-11-28 2013-04-03 青岛双瑞海洋环境工程股份有限公司 一种基于云计算的企业信息系统
CN107122500A (zh) * 2017-06-09 2017-09-01 林飞宇 促进成果转化的科技大数据服务系统和方法
CN107193858A (zh) * 2017-03-28 2017-09-22 福州金瑞迪软件技术有限公司 面向多源异构数据融合的智能服务应用平台和方法
CN107357933A (zh) * 2017-08-04 2017-11-17 刘应波 一种用于多源异构科技信息资源的标签描述方法和装置
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统
CN108829721A (zh) * 2018-05-08 2018-11-16 浪潮软件集团有限公司 一种基于数据模型的科技用户画像构建方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023993A (zh) * 2012-11-28 2013-04-03 青岛双瑞海洋环境工程股份有限公司 一种基于云计算的企业信息系统
CN107193858A (zh) * 2017-03-28 2017-09-22 福州金瑞迪软件技术有限公司 面向多源异构数据融合的智能服务应用平台和方法
CN107122500A (zh) * 2017-06-09 2017-09-01 林飞宇 促进成果转化的科技大数据服务系统和方法
CN107357933A (zh) * 2017-08-04 2017-11-17 刘应波 一种用于多源异构科技信息资源的标签描述方法和装置
CN108829721A (zh) * 2018-05-08 2018-11-16 浪潮软件集团有限公司 一种基于数据模型的科技用户画像构建方法及系统
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统

Similar Documents

Publication Publication Date Title
CN110020660B (zh) 使用人工智能(ai)技术的非结构化过程的完整性评估
Kemerer et al. An empirical approach to studying software evolution
Werner et al. Multilevel process mining for financial audits
Moges et al. A multidimensional analysis of data quality for credit risk management: New insights and challenges
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
Altendeitering et al. Designing Data Quality Tools: Findings from an Action Design Research Project at Boehringer Ingelheim.
Si Construction and application of enterprise internal audit data analysis model based on decision tree algorithm
Pandey et al. Association rules network: Definition and applications
Bildosola et al. An approach for modelling and forecasting research activity related to an emerging technology
Deokar et al. Orgminer: A framework for discovering user-related process intelligence from event logs
CN109919469A (zh) 一种全息科技数据处理方法
Fajri et al. Implementation of business intelligence to determine evaluation of activities (Case Study Indonesia Stock Exchange)
Qian et al. [Retracted] Study on Employee Performance Evaluation Based on Adaptive Feature Selection Fuzzy Algorithm
Grambau et al. Reference Architecture framework for enhanced social media data analytics for Predictive Maintenance models
Ersoz et al. Knowledge discovery and data mining techniques in textile industry
Pawar et al. An assessment model to evaluate quality attributes in big data quality
Sheema et al. Data Analytics and data mining strategy to improve quality, performance and decision making
Greasley Using analytics with discrete-event simulation
Hamraoui et al. Can Twitter Sentiment Gives the Weather of the Financial Markets?
CN114626076B (zh) 一种安全对象画像的构建方法及装置
Aziz et al. Developing sales information system application using Prototyping model
TWI550531B (zh) 企業資源規劃績效評估系統及方法
Feng et al. Time-Dependent Reliability Analysis of System Based on Dynamic Bayesian Fault Network
Bera et al. A software tool to convert requirements to test cases
Longard et al. Analyzing Inter-Temporal Correlations Of KPIs For Cross-Value Stream Performance Management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190621

RJ01 Rejection of invention patent application after publication