CN116303379A - 一种数据处理方法、系统及计算机储存介质 - Google Patents
一种数据处理方法、系统及计算机储存介质 Download PDFInfo
- Publication number
- CN116303379A CN116303379A CN202211603850.1A CN202211603850A CN116303379A CN 116303379 A CN116303379 A CN 116303379A CN 202211603850 A CN202211603850 A CN 202211603850A CN 116303379 A CN116303379 A CN 116303379A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- service
- directory
- data information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 25
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000013499 data model Methods 0.000 claims abstract description 48
- 238000004140 cleaning Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 23
- 238000013523 data management Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 abstract description 17
- 238000004458 analytical method Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000011084 recovery Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2141—Access rights, e.g. capability lists, access control lists, access tables, access matrices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种数据处理方法、系统及计算机储存介质,方法包括:获取目标数据信息;对目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息;基于业务主题域及业务场景,构建适于第一数据信息的目标数据模型;基于目标数据模型将第一数据信息形成第一数据集,第一数据集包含若干个共性数据子集;基于第一数据集,构建数据资产共享平台,并将数据资产共享平台对接需求端。上述通过进行数据清洗、构建数据模型,并基于所构建的数据模型,将获取的目标数据信息形成具有相关共性的第一数据集,便于后续的需求端资产共享平台,进而便于满足需求端用户的数据分析需求。解决了对于用户来说技术门槛过高、体验不佳的问题。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理方法、系统及计算机储存介质。
背景技术
随着工业自动化技术和大数据技术的不断更新与发展,越来越多在工业生产过程各环节中采集到的数据被实时存储到数据仓库中,这些数据数量庞大、种类繁多、关系复杂、冗余度高,无法被直接利用管理。工业过程中很多重要的关键信息隐藏在海量工业数据中,将这些有益信息用高效快捷的方式挖掘出来应用与生产过程中,将极大地提高生产效益和社会价值。
工业大数据分析有别于其它领域或行业的大数据分析。数据来源多样,工业大数据以非结构化和半结构化为主,不同数据之间存在复杂的内部关系,数据量增长快,动态的实时数据对工业过程控制的参考价值高,工业数据价值密度低。因此,对工业大数据的分析和处理需要通过采用有针对性的处理工具和计算模型来满足对数据的实时清洗和事件处理。数据清洗是为了解决数据质量的问题,通过识别工业大数据中的错误记录并对记录进行修正,能够尽最大可能确保交付数据的一致性和准确性,进而提高参加决策的数据质量;事件处理是在数据清洗的基础上寻找对工业过程控制有用的事件信息,并通过可视化的方式展示出来,然后通过事件检测和事件关联将事件以合理化的形式展现,对企业后续分析问题、研究措施、解决问题和预防故障起到积极的作用。
数据处理,数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。
而目前对数据处理的过程中,数据报表开发通常依赖于ETL工程师、前端工程师、数据建模人员等专业技术人员,难以快速适应普通用户灵活多变的数据分析需求。数据分析系统缺乏统一的数据治理与盘点过程,进而导致数据质量难以保证;
发明内容
基于此,有必要针对上述数据质量难以保证、数据难以分析的问题,提供一种数据处理方法。
一种数据处理方法,包括:
获取目标数据信息;
对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息;
基于业务主题域及业务场景,构建适于所述第一数据信息的目标数据模型;
基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集;
基于所述第一数据集,构建数据资产共享平台,并将所述数据资产共享平台对接需求端。
在其中一个优选实施方式中,所述对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息,包括:
基于数据管理规范对所述目标数据信息进行数据清洗,以去除所述目标数据信息的数据噪音;
将去除数据噪音后的目标数据信息进行整理,以得到清洗后的第一数据信息。
在其中一个优选实施方式中,所述基于业务主题域及业务场景,构建适于所述第一数据信息的目标数据模型,包括:
构建业务主题目录及所述业务场景目录,并基于所述业务主题目录及所述业务场景目录,将所述第一数据信息索引至对应业务主题目录或所述业务场景目录的类别内;
识别已索引至对应业务主题目录或所述业务场景目录的类别内的第一数据信息所对应的业务需求信息,并根据所述业务需求信息构建业务需求目录;
基于所述业务主题目录、业务场景目录及所述业务需求目录,构建所述目标数据模型。
在其中一个优选实施方式中,所述基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集,包括:
基于所述目标数据模型从所述第一数据信息提取对应若干个的共性特征;
根据所述共性特征将所述第一数据信息进行提取分类,以得到关联所述第一数据信息的若干个共性数据子集;
将所述若干个共性数据子集进行关联,以得到所述第一数据集。
在其中一个优选实施方式中,所述目标数据信息基于数据中台源端进行获取。
在其中一个优选实施方式中,所述将所述数据资产共享平台对接需求端,包括:
对所述需求端进行身份认证。
在其中一个优选实施方式中,所述对需求端进行身份认证,包括:
获取所述身份认证信息;
根据所述身份认证信息,得到对应该身份的访问权限信息;
根据所述访问权限信息,对所述第一数据集进行拆分,以获取对应所述访问权限信息的数据信息并反馈至对应需求端。
本发明上述实施方式公开了一种数据处理方法,通过进行数据清洗、构建数据模型,并基于所构建的数据模型,将获取的目标数据信息形成具有相关共性的第一数据集,便于后续的需求端资产共享平台,进而便于满足需求端用户的数据分析需求。实现了将数据采集、数据治理、数据共享、数据分析各个过程通过系统进行了全过程的集成,解决了对于用户来说技术门槛过高、体验不佳的问题。
一种数据处理系统,包括:
数据获取模块,用以获取目标数据信息;
数据清洗模块,用以对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息;
模型构建模块,用以基于业务主题域及业务场景,构建适于所述第一数据信息的目标数据模型;
数据集形成模块,用以基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集;
资产共享模块,用以基于所述第一数据集,构建数据资产共享平台,并将所述数据资产共享平台对接需求端。
在其中一个优选实施方式中,所述模型构建模块包括:
目录构建单元,用以构建业务主题目录及所述业务场景目录,并基于所述业务主题目录及所述业务场景目录,将所述第一数据信息索引至对应业务主题目录或所述业务场景目录的类别内;
目录识别单元,用以识别已索引至对应业务主题目录或所述业务场景目录的类别内的第一数据信息所对应的业务需求信息,并根据所述业务需求信息构建业务需求目录;
模型构建单元,用以基于所述业务主题目录、业务场景目录及所述业务需求目录,构建所述目标数据模型。
本发明上述实施方式公开了一种数据处理系统,通过进行数据清洗、构建数据模型,并基于所构建的数据模型,将获取的目标数据信息形成具有相关共性的第一数据集,便于后续的需求端资产共享平台,进而便于满足需求端用户的数据分析需求。实现了将数据采集、数据治理、数据共享、数据分析各个过程通过系统进行了全过程的集成,解决了对于用户来说技术门槛过高、体验不佳的问题。
一种计算机储存介质,所述储存介质包括存储的程序,其中,在所述程序运行时控制所述储存介质所在设备执行以上所述的方法。
本发明上述实施方式公开了计算机储存介质通过执行上述数据处理方法,通过进行数据清洗、构建数据模型,并基于所构建的数据模型,将获取的目标数据信息形成具有相关共性的第一数据集,便于后续的需求端资产共享平台,进而便于满足需求端用户的数据分析需求。实现了将数据采集、数据治理、数据共享、数据分析各个过程通过系统进行了全过程的集成,解决了对于用户来说技术门槛过高、体验不佳的问题。
附图说明
图1为本发明一优选实施方式中的一种数据处理方法的流程图;
图2为本发明另一优选实施方式中的一种数据处理系统的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“设置于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示,本发明第一优选实施方式公开了一种数据处理方法,该数据处理方法包括:
S10:获取目标数据信息;
本实施方式中,上述目标数据信息可以基于数据中台源端进行获取。具体地,上述目标数据信息一般是从数据中台所对应的数据获取终端进行获取,并经信号处理器处理得到。
具体地,本实施方式中可以通过数据中台中的开放数据采集接口,本步骤中上述数据中台还可以包括进程调节器,可以通过进程调度器提供的动态进程采集数据,进程调度器可以通过数据采集接口监控的实时流量为不同数据源分配合适的进程数,及时回收空闲进程,对异常进程进行日志记录并尝试主动恢复,同时通知系统运维人员,以便在自动恢复失败的情况下人工介入恢复,避免数据丢失。
S20:对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息;
本实施方式中,上述步骤S20具体可以包括以下细分步骤:
S21:基于数据管理规范对所述目标数据信息进行数据清洗,以去除所述目标数据信息的数据噪音;
S22:将去除数据噪音后的目标数据信息进行整理,以得到清洗后的第一数据信息。
本实施方式中,上述本步骤可以对目标数据信息进行数据清洗,经本步骤S20清洗后,得到上述第一数据信息。对目标数据信息的清洗内容包括以下至少之一:对主键字段的长度检查、类型检查和非空检查;对非主键字段的类型检查(可以包括但不限于长度检查和空格检查);对不可见字符的处理;对特定类型的字段的检查;对非主键日期类型的字段的类型检查,以及对清洗后文件与数据文件的字段顺序匹配检查等。上述数据噪音便可以为上述清洗内容所剔除的部分,此外,由于清洗规则是一种通用的规则,在实际应用中很难对繁杂的业务规则进行统一,因而在此步骤中的清洗过程中,不对业务规则进行清洗检查,仅进行技术上的检查。
更详细地说,可以根据源系统数据表的数据定义、预定义的数据下传平台对数据的统一要求以及分析类系统对数据的统一要求,确定每个数据文件的清洗内容和清洗规则,并编制清洗进程步骤,本实施方式中,可以由数据下传平台为用于下传各个源系统的数据文件的一个下载中介,数据下传平台对数据文件的要求可以为其对数据文件的各类规范要求,并且由于数据文件清洗过后是供给分析类系统使用,因而也要把分析类系统对数据的要求作为确定清洗规则的其中一个依据,其中,分析类指的是数据分析,该类系统的数据源往往来自多个系统,相同性质的数据往往有不同的格式和表现形式,本实施方式中,以日期的格式为例,上述获取的目标数据信息对应的日期格式可能为yyyy-mm-dd(4位年-月-日),有的目标数据信息对应的日期格式也可能为yyyymmdd(年月日),有的目标数据信息对应的日期格式还可能是mm-dd-yy(月-日-2位年),更有可能为是空的表达,可能有的目标数据信息中直接就不写值了,而有的目标数据信息会用NULL表示空值。对数据的统一要求,就是要把这些不同的格式和表现形式统一起来,例如日期都统一为yyyymmdd格式,用于后续的数据加工,进而得到清洗后的上述第一数据信息。
S30:基于业务主题域及业务场景,构建适于所述第一数据信息的目标数据模型;
本实施方式中,上述步骤S30可以包括以下细分步骤:
S31:构建业务主题目录及所述业务场景目录,并基于所述业务主题目录及所述业务场景目录,将所述第一数据信息索引至对应业务主题目录或所述业务场景目录的类别内。
本细分步骤中,可以基于上述业务主题域及业务场景构建数据资产目录,该数据资产目录可以包括上述业务主题目录以及上述业务场景目录。具体地,可以通过上述业务主题目录及上述业务场景目录将第一数据信息依据上述业务主题目录、业务场景目录所包含的业务流程信息、业务管理属性信息、数据技术属性信息、元数据信息等,快速创建多维级联的数据资产目录,并根据该数据资产目录,创建所述第一数据信息索引至对应业务主题目录或所述业务场景的类别内。
S32:识别已索引至对应业务主题目录或所述业务场景目录的类别内的第一数据信息所对应的业务需求信息,并根据所述业务需求信息构建业务需求目录。
本细分步骤中,识别业务需求主题,该业务需求主题是根据从第一数据信息内的所对应的上述步骤S31完成的已索引至对应业务主题目录或所述业务场景目录的类别进行得到,进一步得到对应第一数据信息对应的业务需求目录。
S33:基于所述业务主题目录、业务场景目录及所述业务需求目录,构建所述目标数据模型。
本细分步骤中,根据上述细分步骤S31以及上述细分步骤S32所得到的业务主题目录、业务场景目录以及上述需求目录,进一步进行模型构建,进而构建所述目标数据模型。
S40:基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集;
本实施方式中,上述步骤S40可以包括以下细分步骤:
S41:基于所述目标数据模型从所述第一数据信息提取对应若干个的共性特征;
本细分步骤中,根据上述S30步骤中所得到的目标数据模型,对第一数据信息进行共性特征提取,以提取到若干个的共性特征,以为上述得到共性数据子集作数据依据。
本步骤中,上述步骤S40中基于上述目标数据模型对第一数据信息进行解析。更详细地说,本实施方式中,获取待处理的第一数据信息的分割符号;若所从数据中台所获取并处理后的第一数据信息的格式为csv文件格式,则该分割符号为半角逗号,若所从数据中台所获取并处理后的第一数据信息输入的格式为libsvm文件格式,则该分割符号为空格。接着根据上述分割符号分割待处理数据集。
若获取的上述第一数据信息的格式为csv文件格式,则按照行作为单位,划分待处理的第一数据信息,将该待处理的第一数据信息划分为若干行;获取的第一数据信息的格式为libsvm文件格式,则按照行作为单位,划分待处理数据集,提取每行中的特征值,以此将该待处理数据集划分为若干行。
S42:根据所述共性特征将所述第一数据信息进行提取分类,以得到关联所述第一数据信息的若干个共性数据子集。
本细分步骤中,根据上述步骤S41所提取的若干个的共性特征,对上述第一数据信息进行分类,得到以上述共性特征为基础进行关联的若干个共性数据子集。
通过对数据集进行读取并存储成key-value(特征名为键且值为数据列表)的字典格式。调用基本运算类中的不同方法做基本运算分别生成新的key-value,完成运算方法调用后,采用解析数据集相对应的存储数据集方法,写成一个与原数据及格式一致的新数据集输出。
在本实施例中,上述的预设条件是指格式是特征名为键且值为数据列表。
S43:将所述若干个共性数据子集进行关联,以得到所述第一数据集。
接着,按照预设条件以列表形式存储分割后的第一数据信息,形成数据列表以得到对应第一数据信息的解析结果。本实施方式中,具体是将分割后的待处理第一数据信息每行数据存为一个数据列表。
该数据列表的关键值即特征名,在本实施例中,该关键值指的是数据列表的特征值,以此生成以特征名为键,值为数据列表的字典。如此,用户在调用方法对不同特征对应的数据进行操作时,就可以在调用方法时只提供特征名,各个特征构造的方法中会根据特征名所引取到对应的数据,便于用户使用,且效率高。
S50:基于所述第一数据集,构建数据资产共享平台,并将所述数据资产共享平台对接需求端。
本步骤中,上述将所述数据资产共享平台对接需求端的过程中,可以对上述需求端进行身份认证。具体地,上述对需求端进行身份认证,可以包括:
S51:获取所述身份认证信息;
S52:根据所述身份认证信息,得到对应该身份的访问权限信息;
S53:根据所述访问权限信息,对所述第一数据集进行拆分,以获取对应所述访问权限信息的数据信息并反馈至对应需求端。
上述数据运营服务平台与统一权限系统集成,由统一权限进行用户验证,获取用户所在组织等身份信息,在不对数据进行拆分并分别进行数据集配置情况下,实现用户基于组织身份信息的数据行权限控制,即在公司全范围数据集内,地市公司用户能看到和使用本地市数据,县/区公司用户能看到和使用本区县数据,供电所用户仅能看到和使用本供电所数据,确保基层用户安全便捷用数。
本发明上述实施方式公开了一种数据处理方法,通过进行数据清洗、构建数据模型,并基于所构建的数据模型,将获取的目标数据信息形成具有相关共性的第一数据集,便于后续的需求端资产共享平台,进而便于满足需求端用户的数据分析需求。实现了将数据采集、数据治理、数据共享、数据分析各个过程通过系统进行了全过程的集成,解决了对于用户来说技术门槛过高、体验不佳的问题。
如图1所示,本发明第一优选实施方式公开了一种数据处理系统100,该数据处理系统100包括数据获取模块110、数据清洗模块120、模型构建模块130、数据集形成模块140及资产共享模块150。
上述数据获取模块110用以获取目标数据信息。
本实施方式中,上述数据获取模块110所获取的目标数据信息可以基于数据中台源端进行获取。具体地,上述目标数据信息一般是从数据中台所对应的数据获取终端进行获取,并经信号处理器处理得到。
具体地,本实施方式中可以通过数据中台中的开放数据采集接口,本步骤中上述数据中台还可以包括进程调节器,可以通过进程调度器提供的动态进程采集数据,进程调度器可以通过数据采集接口监控的实时流量为不同数据源分配合适的进程数,及时回收空闲进程,对异常进程进行日志记录并尝试主动恢复,同时通知系统运维人员,以便在自动恢复失败的情况下人工介入恢复,避免数据丢失。
上述数据清洗模块120用于对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息。
上述数据清洗模块120基于数据管理规范对所述目标数据信息进行数据清洗,以去除所述目标数据信息的数据噪音;
上述数据清洗模块120将去除数据噪音后的目标数据信息进行整理,以得到清洗后的第一数据信息。
本实施方式中,上述可以对目标数据信息进行数据清洗,经上述数据清洗模块120清洗后,得到上述第一数据信息。对目标数据信息的清洗内容包括以下至少之一:对主键字段的长度检查、类型检查和非空检查;对非主键字段的类型检查(可以包括但不限于长度检查和空格检查);对不可见字符的处理;对特定类型的字段的检查;对非主键日期类型的字段的类型检查,以及对清洗后文件与数据文件的字段顺序匹配检查等。上述数据噪音便可以为上述清洗内容所剔除的部分,此外,由于清洗规则是一种通用的规则,在实际应用中很难对繁杂的业务规则进行统一,因而在清洗过程中,不对业务规则进行清洗检查,仅进行技术上的检查。
更详细地说,可以根据源系统数据表的数据定义、预定义的数据下传平台对数据的统一要求以及分析类系统对数据的统一要求,确定每个数据文件的清洗内容和清洗规则,并编制清洗进程,本实施方式中,可以由数据下传平台为用于下传各个源系统的数据文件的一个下载中介,数据下传平台对数据文件的要求可以为其对数据文件的各类规范要求,并且由于数据文件清洗过后是供给分析类系统使用,因而也要把分析类系统对数据的要求作为确定清洗规则的其中一个依据,其中,分析类指的是数据分析,该类系统的数据源往往来自多个系统,相同性质的数据往往有不同的格式和表现形式,本实施方式中,以日期的格式为例,上述获取的目标数据信息对应的日期格式可能为yyyy-mm-dd(4位年-月-日),有的目标数据信息对应的日期格式也可能为yyyymmdd(年月日),有的目标数据信息对应的日期格式还可能是mm-dd-yy(月-日-2位年),更有可能为是空的表达,可能有的目标数据信息中直接就不写值了,而有的目标数据信息会用NULL表示空值。对数据的统一要求,就是要把这些不同的格式和表现形式统一起来,例如日期都统一为yyyymmdd格式,用于后续的数据加工,进而得到清洗后的上述第一数据信息。
上述模型构建模块130基于业务主题域及业务场景,构建适于所述第一数据信息的目标数据模型;
本实施方式中,上述模型构建模块130构建业务主题目录及所述业务场景目录,并基于所述业务主题目录及所述业务场景目录,将所述第一数据信息索引至对应业务主题目录或所述业务场景目录的类别内。
本细分步骤中,可以基于上述业务主题域及业务场景构建数据资产目录,该数据资产目录可以包括上述业务主题目录以及上述业务场景目录。具体地,可以通过上述业务主题目录及上述业务场景目录将第一数据信息依据上述业务主题目录、业务场景目录所包含的业务流程信息、业务管理属性信息、数据技术属性信息、元数据信息等,快速创建多维级联的数据资产目录,并根据该数据资产目录,创建所述第一数据信息索引至对应业务主题目录或所述业务场景的类别内。
上述模型构建模块130识别已索引至对应业务主题目录或所述业务场景目录的类别内的第一数据信息所对应的业务需求信息,并根据所述业务需求信息构建业务需求目录。
本细分步骤中,识别业务需求主题,该业务需求主题是根据从第一数据信息内的所对应的上述模型构建模块130完成的已索引至对应业务主题目录或所述业务场景目录的类别进行得到,进一步得到对应第一数据信息对应的业务需求目录。
接着模型构建模块130基于所述业务主题目录、业务场景目录及所述业务需求目录,构建所述目标数据模型。根据上述所得到的业务主题目录、业务场景目录以及上述需求目录,进一步进行模型构建,进而构建所述目标数据模型。
数据集形成模块140基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集;
本实施方式中,上述数据集形成模块140基于所述目标数据模型从所述第一数据信息提取对应若干个的共性特征;
本细分步骤中,根据上述上述模型构建模块130中所得到的目标数据模型,对第一数据信息进行共性特征提取,以提取到若干个的共性特征,以为上述得到共性数据子集作数据依据。
本步骤中,上述数据集形成模块140中基于上述目标数据模型对第一数据信息进行解析。更详细地说,本实施方式中,获取待处理的第一数据信息的分割符号;若所从数据中台所获取并处理后的第一数据信息的格式为csv文件格式,则该分割符号为半角逗号,若所从数据中台所获取并处理后的第一数据信息输入的格式为libsvm文件格式,则该分割符号为空格。接着根据上述分割符号分割待处理数据集。
若获取的上述第一数据信息的格式为csv文件格式,则按照行作为单位,划分待处理的第一数据信息,将该待处理的第一数据信息划分为若干行;获取的第一数据信息的格式为libsvm文件格式,则按照行作为单位,划分待处理数据集,提取每行中的特征值,以此将该待处理数据集划分为若干行。
数据集形成模块140根据所述共性特征将所述第一数据信息进行提取分类,以得到关联所述第一数据信息的若干个共性数据子集。
本细分步骤中,根据上述所提取的若干个的共性特征,对上述第一数据信息进行分类,得到以上述共性特征为基础进行关联的若干个共性数据子集。
通过对数据集进行读取并存储成key-value(特征名为键且值为数据列表)的字典格式。调用基本运算类中的不同方法做基本运算分别生成新的key-value,完成运算方法调用后,采用解析数据集相对应的存储数据集方法,写成一个与原数据及格式一致的新数据集输出。
在本实施例中,上述的预设条件是指格式是特征名为键且值为数据列表。
将所述若干个共性数据子集进行关联,以得到所述第一数据集。
接着,按照预设条件以列表形式存储分割后的第一数据信息,形成数据列表以得到对应第一数据信息的解析结果。本实施方式中,具体是将分割后的待处理第一数据信息每行数据存为一个数据列表。
该数据列表的关键值即特征名,在本实施例中,该关键值指的是数据列表的特征值,以此生成以特征名为键,值为数据列表的字典。如此,用户在调用方法对不同特征对应的数据进行操作时,就可以在调用方法时只提供特征名,各个特征构造的方法中会根据特征名所引取到对应的数据,便于用户使用,且效率高。
资产共享模块150基于所述第一数据集,构建数据资产共享平台,并将所述数据资产共享平台对接需求端。
本步骤中,上述将所述数据资产共享平台对接需求端的过程中,可以对上述需求端进行身份认证。具体地,上述对需求端进行身份认证,可以包括:
资产共享模块150获取所述身份认证信息;
资产共享模块150根据所述身份认证信息,得到对应该身份的访问权限信息;
资产共享模块150根据所述访问权限信息,对所述第一数据集进行拆分,以获取对应所述访问权限信息的数据信息并反馈至对应需求端。
上述数据运营服务平台与统一权限系统集成,由统一权限进行用户验证,获取用户所在组织等身份信息,在不对数据进行拆分并分别进行数据集配置情况下,实现用户基于组织身份信息的数据行权限控制,即在公司全范围数据集内,地市公司用户能看到和使用本地市数据,县/区公司用户能看到和使用本区县数据,供电所用户仅能看到和使用本供电所数据,确保基层用户安全便捷用数。
本发明上述实施方式公开了一种数据处理系统,通过进行数据清洗、构建数据模型,并基于所构建的数据模型,将获取的目标数据信息形成具有相关共性的第一数据集,便于后续的需求端资产共享平台,进而便于满足需求端用户的数据分析需求。实现了将数据采集、数据治理、数据共享、数据分析各个过程通过系统进行了全过程的集成,解决了对于用户来说技术门槛过高、体验不佳的问题。
一种计算机储存介质,所述储存介质包括存储的程序,其中,在所述程序运行时控制所述储存介质所在设备执行以上所述的方法。
本发明上述实施方式公开了计算机储存介质通过执行上述数据处理方法,通过进行数据清洗、构建数据模型,并基于所构建的数据模型,将获取的目标数据信息形成具有相关共性的第一数据集,便于后续的需求端资产共享平台,进而便于满足需求端用户的数据分析需求。实现了将数据采集、数据治理、数据共享、数据分析各个过程通过系统进行了全过程的集成,解决了对于用户来说技术门槛过高、体验不佳的问题。
需要说明的是,本公开上述的计算机储存介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机储存介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机储存介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机储存介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机储存介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
以上上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取目标数据信息;
对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息;
基于业务主题域及业务场景,构建适于所述第一数据信息的目标数据模型;
基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集;
基于所述第一数据集,构建数据资产共享平台,并将所述数据资产共享平台对接需求端。
2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息,包括:
基于数据管理规范对所述目标数据信息进行数据清洗,以去除所述目标数据信息的数据噪音;
将去除数据噪音后的目标数据信息进行整理,以得到清洗后的第一数据信息。
3.根据权利要求1所述的数据处理方法,其特征在于,所述基于业务主题域及业务场景,构建适于所述第一数据信息的目标数据模型,包括:
构建业务主题目录及所述业务场景目录,并基于所述业务主题目录及所述业务场景目录,将所述第一数据信息索引至对应业务主题目录或所述业务场景目录的类别内;
识别已索引至对应业务主题目录或所述业务场景目录的类别内的第一数据信息所对应的业务需求信息,并根据所述业务需求信息构建业务需求目录;
基于所述业务主题目录、业务场景目录及所述业务需求目录,构建所述目标数据模型。
4.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集,包括:
基于所述目标数据模型从所述第一数据信息提取对应若干个的共性特征;
根据所述共性特征将所述第一数据信息进行提取分类,以得到关联所述第一数据信息的若干个共性数据子集;
将所述若干个共性数据子集进行关联,以得到所述第一数据集。
5.根据权利要求1所述的数据处理方法,其特征在于,所述目标数据信息基于数据中台源端进行获取。
6.根据权利要求1所述的数据处理方法,其特征在于,所述将所述数据资产共享平台对接需求端,包括:
对所述需求端进行身份认证。
7.根据权利要求6所述的数据处理方法,其特征在于,所述对需求端进行身份认证,包括:
获取所述身份认证信息;
根据所述身份认证信息,得到对应该身份的访问权限信息;
根据所述访问权限信息,对所述第一数据集进行拆分,以获取对应所述访问权限信息的数据信息并反馈至对应需求端。
8.一种数据处理系统,其特征在于,包括:
数据获取模块,用以获取目标数据信息;
数据清洗模块,用以对所述目标数据信息进行数据清洗,以得到数据清洗后的第一数据信息;
模型构建模块,用以基于业务主题域及业务场景,构建/8适于所述第一数据信息的目标数据模型;
数据集形成模块,用以基于所述目标数据模型将所述第一数据信息形成第一数据集,所述第一数据集包含若干个共性数据子集;
资产共享模块,用以基于所述第一数据集,构建数据资产共享平台,并将所述数据资产共享平台对接需求端。
9.根据权利要求8所述的一种数据处理系统,其特征在于,所述模型构建模块包括:
目录构建单元,用以构建业务主题目录及所述业务场景目录,并基于所述业务主题目录及所述业务场景目录,将所述第一数据信息索引至对应业务主题目录或所述业务场景目录的类别内;
目录识别单元,用以识别已索引至对应业务主题目录或所述业务场景目录的类别内的第一数据信息所对应的业务需求信息,并根据所述业务需求信息构建业务需求目录;
模型构建单元,用以基于所述业务主题目录、业务场景目录及所述业务需求目录,构建所述目标数据模型。
10.一种计算机储存介质,其特征在于,所述储存介质包括存储的程序,其中,在所述程序运行时控制所述储存介质所在设备执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211603850.1A CN116303379A (zh) | 2022-12-13 | 2022-12-13 | 一种数据处理方法、系统及计算机储存介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211603850.1A CN116303379A (zh) | 2022-12-13 | 2022-12-13 | 一种数据处理方法、系统及计算机储存介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303379A true CN116303379A (zh) | 2023-06-23 |
Family
ID=86789455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211603850.1A Pending CN116303379A (zh) | 2022-12-13 | 2022-12-13 | 一种数据处理方法、系统及计算机储存介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303379A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056110A (zh) * | 2023-08-17 | 2023-11-14 | 北京优特捷信息技术有限公司 | 一种系统故障排查方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396404A (zh) * | 2020-11-27 | 2021-02-23 | 广州光点信息科技有限公司 | 一种数据中台系统 |
CN113076305A (zh) * | 2021-04-20 | 2021-07-06 | 广东电网有限责任公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113392646A (zh) * | 2021-07-07 | 2021-09-14 | 上海软中信息技术有限公司 | 一种数据中台系统、构建方法及装置 |
-
2022
- 2022-12-13 CN CN202211603850.1A patent/CN116303379A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396404A (zh) * | 2020-11-27 | 2021-02-23 | 广州光点信息科技有限公司 | 一种数据中台系统 |
CN113076305A (zh) * | 2021-04-20 | 2021-07-06 | 广东电网有限责任公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113392646A (zh) * | 2021-07-07 | 2021-09-14 | 上海软中信息技术有限公司 | 一种数据中台系统、构建方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117056110A (zh) * | 2023-08-17 | 2023-11-14 | 北京优特捷信息技术有限公司 | 一种系统故障排查方法、装置、电子设备及存储介质 |
CN117056110B (zh) * | 2023-08-17 | 2024-02-23 | 北京优特捷信息技术有限公司 | 一种系统故障排查方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874134B (zh) | 工单类型的处理方法、装置及系统 | |
CN106934068A (zh) | 机器人基于环境上下文的语义理解的方法 | |
CN109857803B (zh) | 数据同步方法、装置、设备、系统及计算机可读存储介质 | |
US11568344B2 (en) | Systems and methods for automated pattern detection in service tickets | |
CN112306787B (zh) | 报错日志处理方法、装置、电子设备和智能音箱 | |
CN112749266A (zh) | 一种工业问答方法、装置、系统、设备及存储介质 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN110929105A (zh) | 一种基于大数据技术的用户id关联方法 | |
CN116303379A (zh) | 一种数据处理方法、系统及计算机储存介质 | |
CN105786941B (zh) | 一种信息挖掘方法和装置 | |
CN111522705A (zh) | 一种工业大数据智能运维解决方法 | |
CN116881430A (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN116049159A (zh) | 面向数据要素化的电力基础数据结构化处理方法和设备 | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN115062087A (zh) | 一种用户画像构建方法、装置、设备和介质 | |
CN112199488B (zh) | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 | |
CN109145092B (zh) | 一种数据库更新、智能问答管理方法、装置及其设备 | |
CN113205808A (zh) | 一种基于ai咨询云计算搭建方法及系统 | |
CN112883703A (zh) | 一种识别关联文本的方法、装置、电子设备及存储介质 | |
CN104573098B (zh) | 基于Spark系统的大规模对象识别方法 | |
CN116703141A (zh) | 审计数据处理方法、装置、计算机设备和存储介质 | |
CN110147980A (zh) | 工单处理方法及装置 | |
CN110727532B (zh) | 一种数据修复方法、电子设备及存储介质 | |
CN115270947A (zh) | 标准化能效服务模型构建方法、系统、终端及存储介质 | |
CN113760864A (zh) | 数据模型的生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |