CN112181955B - 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 - Google Patents
一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 Download PDFInfo
- Publication number
- CN112181955B CN112181955B CN202010905124.XA CN202010905124A CN112181955B CN 112181955 B CN112181955 B CN 112181955B CN 202010905124 A CN202010905124 A CN 202010905124A CN 112181955 B CN112181955 B CN 112181955B
- Authority
- CN
- China
- Prior art keywords
- data
- heavy haul
- haul railway
- platform
- heavy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机软件技术领域,公开了一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,包括有数据接入、数据预处理、异常数据筛选清洗、数据标准化和数据发布等环节,并在数据标准化环节中,通过采用数据同趋化和无量纲化综合处理技术手段,对不同性质数据问题进行标准化处理,并把从不同系统接入的数据与重载铁路大数据平台业务主数据进行结合,可使不同源数据之间实现关联标准化,为重载铁路综合大数据平台的数据共享提供统一的路径,保证重载铁路业务数据的一致性和规范化,从而可有效解决重载铁路大数据处理过程中遇到的数据不规范问题,实现重载铁路大数据价值的最大化以及确保大数据平台信息共享的及时性,达成信息共享目的。
Description
技术领域
本发明属于计算机软件技术领域,具体地涉及一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,可以实现基于重载铁路综合大数据平台的信息共享目的。
背景技术
近年来,随着国家经济的不断发展,国内重载运输行业发挥着举足轻重的作用,同时大数据技术越来越多地在轨道交通领域得到不断发展与运用,因此,各类数字化信息平台建设对大数据平台信息共享的依赖也越来越高。
由于重载铁路的行业特殊性,大数据平台信息共享是提高重载铁路管理水平、决策能力和运输效率,以及保障运输安全,支撑国家运力建设的现代化重载铁路的重要手段。重载铁路公司对铁路信息化建设高度重视,且已经展开了部分信息化建设,取得了一定的成绩和效益。但由于缺乏统一的铁路信息化规划,造成各铁路公司众多信息系统和数据标准不一,在铁路沿线不同区间站段、不同业务部门之间的很多系统建设只考虑到本单位业务开展,并没有考虑数据规模和数据质量对大数据平台及系统应用等方面的影响,缺乏从长远角度对重载铁路大数据平台数据资源进行整体统筹规划和综合治理,使得铁路公司与铁路公司之间、铁路公司内部之间信息不能交换和有效共享,形成了信息孤岛和信息断链,制约了信息共享一体化优势的充分发挥。
随着国家政策支持以及重载铁路运输产业实际需求的增长,大数据平台数据共享是铁路信息化建设的基础,高质量的大数据平台信息共享可以为重载铁路运营效率、安全运输和维修维护等提供更好的决策依据。如何通过数据治理提升组织数据管理能力、消除数据孤岛和挖掘数据潜在的价值,将成为重载铁路大数据平台信息共享的重点建设内容。
建设重载铁路大数据平台,综合平台现有应用及兼容集成已有系统数据,是重载铁路信息系统发展的必由之路,大数据资源将成为宝贵的战略资产。因此,为了进行重载铁路大数据平台信息共享建设,研发一种基于重载铁路大数据平台信息共享的数据规范治理方案是达成大数据平台信息共享的前提条件。然而现有技术正缺少这样一种高效率和高质量的数据规范治理方案,无法有效解决重载铁路大数据处理过程中遇到的数据不规范问题,使得不能实现重载铁路大数据价值的最大化以及确保大数据平台信息共享的及时性。
发明内容
为了解决现有技术无法有效解决重载铁路大数据处理过程中遇到的数据不规范问题,本发明目的在于提供一种用于重载铁路综合大数据平台信息共享的数据规范治理方法、装置、计算机设备及计算机可读存储介质,可以实现基于重载铁路综合大数据平台的信息共享目的,实现重载铁路大数据价值的最大化以及确保大数据平台信息共享的及时性。
第一方面,本发明提供了一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,包括:
数据接入:通过重载铁路综合大数据平台的对外数据接口,将包含结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据的源数据统一接入到平台数据源系统中,形成最初的数据容器;
数据预处理:在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理;
异常数据筛选清洗:对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤;
数据标准化:根据重载铁路业务数据标准规范规则,对完成筛选清洗的数据进行包括数据质量评估、空值率计算、数据特征分析和/或数据格式分析的特征判断,若判定数据不符合设定标准,则对该数据提取需要的数据属性和元数据,然后经过统一处理路径进行重载铁路业务数据标准化规范处理,其中,所述进行重载铁路业务数据标准化规范处理为对重载铁路业务数据中且包括字段解释、数据来源和/或代码表的数据信息描述内容进行标准化规范处理;
数据发布:对经过筛选清洗并标准化处理的数据,在所述重载铁路综合大数据平台上进行统一地存储及发布。
基于上述发明内容,提供了一种用于实现重载铁路综合大数据平台信息共享的大数据接入预处理、标准化及统一化的数据规范治理方案,即包括有数据接入、数据预处理、异常数据筛选清洗、数据标准化和数据发布等环节,其中,在数据标准化环节中,通过采用数据同趋化和无量纲化综合处理技术手段,对不同性质数据问题进行标准化处理,并把从不同系统接入的数据与重载铁路大数据平台业务主数据进行结合,可使不同源数据之间实现关联标准化,为重载铁路综合大数据平台的数据共享提供统一的路径,保证重载铁路业务数据的一致性和规范化,从而可有效解决重载铁路大数据处理过程中遇到的数据不规范问题,实现重载铁路大数据价值的最大化以及确保大数据平台信息共享的及时性,达成基于重载铁路综合大数据平台的信息共享目的。
在一个可能的设计中,当所述源数据分为平台内部数据和平台外部数据时,在所述数据接入前,所述数据规范治理方法还包括:
基于云计算和分布存储的采集工具对所述平台外部数据进行采集;
采用标准化和规范化的抽取手段,对采集的所述平台外部数据进行结构化、半结构化和/或非结构化资源地统一抽取、整合、加工、转换和装载,使所述平台外部数据通过所述对外数据接口汇入到所述数据容器中。
在一个可能的设计中,所述数据接入包括:
根据不同类型的数据源,按照重载铁路大数据平台数据制约规范,以表或文件为单位选择要采集的数据;
使用文件解析器对采集的文件格式进行解析,获取数据内容;
通过填补重载铁路业务遗漏数据、消除重载铁路业务异常数据、平滑重载铁路业务噪声数据,以及纠正不一致数据,去掉数据内容中的噪音、填充空值、丢失值和处理不一致数据,过滤去掉噪声和无关数据,最后将完成解析的数据结合起来存放在一个一致的数据存储模块中,形成最初的数据容器。
在一个可能的设计中,所述数据预处理包括如下方式(A)~(D)中的任意一种:
(A)根据确定重载铁路业务数据的缺失值范围,对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,依据制定策略对缺失值进行清洗;
(B)在处理预设规模的全量数据成功基础上,去除不需要的字段,以及在清洗数据时每做一步都执行备份操作,以及对简单数据直接删掉;
(C)对重载铁路业务数据进行缺失内容填充;
(D)针对指标重要且缺失率高的重载铁路业务数据,重新取数。
在一个可能的设计中,所述对判定不完整和/或不一致的异常数据进行筛选清洗,包括:对所述数据容器的数据进行类别划分和数据关联,并在过滤不合规则数据、删除记录重复数据和/或纠正格式错误数据后完成数据格式转换,以及对不满足重载铁路综合大数据平台业务需求及数据处理逻辑的不合规数据进行清理。
在一个可能的设计中,在进行重载铁路业务数据标准化规范处理后,所述数据规范治理方法还包括:对重载铁路业务数据进行数据一致性的审查和检验。
在一个可能的设计中,所述对重载铁路业务数据进行数据一致性的审查和检验包括:
识别出标识同一个重载铁路业务实体的记录匹配过程;
对所述记录匹配过程进行查验,若发现数据存在错误,则引入重载铁路综合大数据平台的匹配规则,并利用重载铁路综合大数据平台的系统自定义函数来完成模糊匹配;
对通过规则匹配及查验的重载铁路业务数据进行统一标准化。
第二方面,本发明提供了一种用于重载铁路综合大数据平台信息共享的数据规范治理装置,包括依次通信连接的数据接入单元、数据预处理单元、异常数据筛选清洗单元、数据标准化单元和数据发布单元;
所述数据接入单元,用于通过重载铁路综合大数据平台的对外数据接口,将包含结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据的源数据统一接入到平台数据源系统中,形成最初的数据容器;
所述数据预处理单元,用于在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理;
所述异常数据筛选清洗单元,用于对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤;
所述数据标准化单元,用于根据重载铁路业务数据标准规范规则,对完成筛选清洗的数据进行包括数据质量评估、空值率计算、数据特征分析和/或数据格式分析的特征判断,若判定数据不符合设定标准,则对该数据提取需要的数据属性和元数据,然后经过统一处理路径进行重载铁路业务数据标准化规范处理,其中,所述进行重载铁路业务数据标准化规范处理为对重载铁路业务数据中且包括字段解释、数据来源和/或代码表的数据信息描述内容进行标准化规范处理;
所述数据发布单元,用于对经过筛选清洗并标准化处理的数据,在所述重载铁路综合大数据平台上进行统一地存储及发布。
第三方面,本发明提供了一种计算机设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如在第一方面中的所述数据规范治理方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如在第一方面中的所述数据规范治理方法。
第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如在第一方面中的所述数据规范治理方法。
本发明内容的有益效果为:
(1)本发明创造提供了一种用于实现重载铁路综合大数据平台信息共享的大数据接入预处理、标准化及统一化的数据规范治理方案,即包括有数据接入、数据预处理、异常数据筛选清洗、数据标准化和数据发布等环节,其中,在数据标准化环节中,通过采用数据同趋化和无量纲化综合处理技术手段,对不同性质数据问题进行标准化处理,并把从不同系统接入的数据与重载铁路大数据平台业务主数据进行结合,可使不同源数据之间实现关联标准化,为重载铁路综合大数据平台的数据共享提供统一的路径,保证重载铁路业务数据的一致性和规范化,从而可有效解决重载铁路大数据处理过程中遇到的数据不规范问题,实现重载铁路大数据价值的最大化以及确保大数据平台信息共享的及时性,达成基于重载铁路综合大数据平台的信息共享目的;
(2)在数据接入环节中,通过在重载铁路业务数据传输方面,优化高速数据通道技术,能够在高并发和大容量的基础上对重载铁路平台外部系统提供安全可靠的数据接入支持,以及能够满足大数据量的并发请求和分发,通过优化负载均衡、伸缩性、动态配置管理和网络调度等平台设计功能,可对外提供数据接入,提高重载铁路平台业务数据的接口吞吐能力,保证重载铁路数据平台系统的整体数据处理能力;
(3)在数据预处理环节中,可根据接入重载铁路综合大数据平台的所有数据,从影响重载铁路业务数据质量的准确性、完成性和一致性三个因素入手,并对预先划分的数据进行分类抽样,以及使用连续属性的线性代数技术,降低数据维度,捕获数据属性的最大变差,对选择分析所需要的重载铁路业务数据对象和属性进行创建及改变属性的处理;
(4)在异常数据筛选清洗环节中,可针对平台业务领域各个环节可能出现的异常数据进行属性值匹配,对于重复、不完整和歧义性等不符合规则定义的数据进行抽取,将这类数据记录剔除出来,并通过重载铁路平台数据规则来检验数据属性和完整度,可根据实际情况调整相应的清洗操作,保证重载铁路业务数据清洗的安全性和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据规范治理方法的流程示意图。
图2是本发明提供的实现数据规范治理方法的技术框架图。
图3是本发明提供的实现数据规范治理方法的完整流程图。
图4是本发明提供的在数据规范治理方法中涉及数据接入的完整流程图。
图5是本发明提供的在数据规范治理方法中涉及数据不一致修复的完整流程图。
图6是本发明提供的在数据规范治理方法中涉及数据标准化的完整流程图。
图7是本发明提供的数据规范治理装置的结构示意图。
图8是本发明提供的计算机设备的结构示意图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时,表示不存在中间单元。另外,应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
应当理解,本文使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。若本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解,若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
应当理解,还应当注意到在一些备选可能设计中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
如图1~6所示,本实施例第一方面提供的所述用于重载铁路综合大数据平台信息共享的数据规范治理方法,可以但不限于包括有如下步骤S101~S105。
S101.数据接入:通过重载铁路综合大数据平台的对外数据接口,将包含但不限于结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据等的源数据统一接入到平台数据源系统中,形成最初的数据容器。
在所述步骤S101之前,如图1所示,所述数据规范治理方法还包括:步骤S100.制定重载铁路业务数据标准规范规则,即针对诸如工务、机务、电务和供电等方面的重载铁路业务数据,制定重载铁路元数据标准,以便后续按照数据定义标准进行规范化,例如对数据、名称和/或字段等进行标准化。
在所述步骤S101中,所述对外数据接口的设计需要遵循重载铁路大数据业务流转及数据表单的基础需求。此外,当所述源数据分为平台内部数据和平台外部数据时,在所述数据接入前,所述数据规范治理方法还包括:基于云计算和分布存储的采集工具对所述平台外部数据进行采集;采用标准化和规范化的抽取手段,对采集的所述平台外部数据进行结构化、半结构化和/或非结构化资源地统一抽取、整合、加工、转换和装载,使所述平台外部数据通过所述对外数据接口汇入到所述数据容器中。
在所述步骤S101中,所述数据接入为数据治理规范方法的基础,其实现机理可举例为:通过重载铁路综合大数据平台对外数据实时同步工具,读取外部业务数据库日志文件,将增量部分的数据写入日志解析文件,组件读取文件,使用文件监控获取文件实时变化事件,通过非阻塞进程的方式将文件增量部分读出,并支持断点续传的功能。此外,重载铁路综合大数据实时同步工具会实时读取日志解析文件数据的内容,通过HTTPS(Hyper TextTransfer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性)协议发送到数据接收平台,期间如果没有数据,则保持固定时间间隔发送一次。重载铁路综合大数据平台接收组件也支持断点续传的功能,数据发送和数据接收组件都是无状态的,可在极端情况下保证数据不丢失。负载均衡组件用于分发从数据发送组件传输过来的报文,并根据报文内容按照路由规则分发到相应的数据接收端,路由规则支持转移和负载均衡。负载均衡分发组件会将同一个数据源的日志解析报文写入,分布式文件系统的内容保持日志解析文件中的顺序,记录最后一条成功写入日志记录序列号,数据同步工具检查每个报文的序列号,如果连续,则写入,不连续则返回最后一条成功写入日志记录序列号,并要求重新发送,该机制保证重载铁路业务数据发送不丢失和不重复。数据接入流程如图4所示。
在所述步骤S101中,具体可包括但不限于如下两个步骤:首先将接入所述重载铁路综合大数据平台的数据源分为来源数据和目标库,并按照重载铁路业务分类配置数据的连接参数,以便尽可能多地适配主流数据库和文件格式等;然后在通过采集任务配置组件将重载铁路数据从外部源数据库获取后,经过简单地映射存储到所述目标库,并使用关系数据库对结构化数据进行存储,以及使用分布式文件系统对非结构化数据进行存储。
在所述步骤S101中,所述数据接入还具体包括但不限于有:S1011.根据不同类型的数据源,按照重载铁路大数据平台数据制约规范,以表或文件为单位选择要采集的数据;S1012.使用文件解析器对采集的文件格式进行解析,获取数据内容;S1013.通过填补重载铁路业务遗漏数据、消除重载铁路业务异常数据、平滑重载铁路业务噪声数据,以及纠正不一致数据,去掉数据内容中的噪音、填充空值、丢失值和处理不一致数据,过滤去掉噪声和无关数据,最后将完成解析的数据结合起来存放在一个一致的数据存储模块中,形成最初的数据容器。详细的,所述步骤S1011用于实现对重载铁路综合大数据的容器数据库选择要采集的数据,并可针对不同类型的重载铁路业务数据源,设置过滤条件或筛选模式,比如:表的过滤条件、文件名的匹配格式等,以及增量全量字段等。此外,在所述步骤S1012中,举例的,对于重载铁路综合大数据的结构化数据,将重载铁路业务源数据映射为表和字段;对于Excel和XML等半结构化数据,也映射为表和字段,包括表名和字段名等。
S102.数据预处理:在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理。
在所述步骤S102中,所述数据预处理可以但不限于包括如下方式(A)~(D)中的任意一种。
(A)根据确定重载铁路业务数据的缺失值范围,对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,依据制定策略对缺失值进行清洗。
(B)在处理预设规模的全量数据成功基础上,去除不需要的字段,以及在清洗数据时每做一步都执行备份操作,以及对简单数据直接删掉。所述预设规模可为满足一定规模条件的小规模,并通过前述方式(B),可以保证后续数据清洗的准确率。
(C)对重载铁路业务数据进行缺失内容填充。详细的,对于某些缺失值可以按照如下方式进行填充:以平台约束条件为前提推测填充缺失值、以同一指标的计算结果(例如均值、中位数和众数等)填充缺失值或者以不同指标的计算结果填充缺失值。
(D)针对指标重要且缺失率高的重载铁路业务数据,重新取数。通过前述方式(D),同样可以确保后续数据清洗效率和准确度。
S103.异常数据筛选清洗:对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤。
在所述步骤S103中,通过筛选清洗及过滤,可以保证数据的一致性、准确性和规范性,以及满足重载铁路综合大数据平台信息共享的业务需求。具体的,所述对判定不完整和/或不一致的异常数据进行筛选清洗,包括但不限于:对所述数据容器的数据进行类别划分和数据关联,并在过滤不合规则数据、删除记录重复数据和/或纠正格式错误数据后完成数据格式转换,以及对不满足重载铁路综合大数据平台业务需求及数据处理逻辑的不合规数据进行清理。
在所述步骤S102~S103中,所述数据预处理和所述异常数据筛选清洗分别是重载铁路大数据治理优化的一个重要环节,由于重载铁路大数据平台数据复杂多样的特殊性,采用灵活的数据治理技术对不同类型数据按照重载铁路业务分类进行综合治理。如图5所示,在此选择不一致数据修复治理为例来说明重载铁路数据预处理和异常数据筛选清洗的实施流程:1031.使用重载铁路综合大数据平台数据接收组件对接入数据容器的数据文件和异常文件并进行预处理,将数据格式更改成符合系统要求的格式,并对数据进行初步检测,方便后续处理;S1032.对预处理结果中的数据文件进行检测与修复,得到初次修复结果;S1033.对初次修复结果进行检测,判断修复数据是否与重载铁路综合大数据平台数据修复规则一致,若处理后的数据与判断规则不一致,则返回步骤S1031,否则进入步骤S1034,其中,为了避免预处理陷入死循环,重载铁路综合大数据平台系统可为检测与修复的次数设置了一个上限;S1034.对修复结果进行后处理,将重载铁路数据格式更改成数据的原始格式,使得修复结果能正常地被重载铁路综合大数据平台的其它系统使用。
S104.数据标准化:根据重载铁路业务数据标准规范规则,对完成筛选清洗的数据进行包括但不限于数据质量评估、空值率计算、数据特征分析和/或数据格式分析等的特征判断,若判定数据不符合设定标准,则对该数据提取需要的数据属性和元数据,然后经过统一处理路径进行重载铁路业务数据标准化规范处理,其中,所述进行重载铁路业务数据标准化规范处理为对重载铁路业务数据中且包括但不限于字段解释、数据来源和/或代码表等的数据信息描述内容进行标准化规范处理。
在所述步骤S104中,所述数据标准化是数据规范治理方案中最核心的一步,即在完成重载铁路综合大数据的数据转化和其它清洗步骤以后,根据重载铁路业务数据的标准化规范和重载铁路中大数据平台内置算法,对经过预处理查验的数据,执行相似重复记录的匹配、合并及其标准化。
在所述步骤S104中,具体的,在进行重载铁路业务数据标准化规范处理后,所述数据规范治理方法还包括:对重载铁路业务数据进行数据一致性的审查和检验。进一步具体的,如图6所示,所述对重载铁路业务数据进行数据一致性的审查和检验包括但不限于有如下步骤S1041~S1043。
S1041.识别出标识同一个重载铁路业务实体的记录匹配过程。详细的,将相似重复记录合并成一个包含该实体的更多属性,同时从数据日志中删除多余的记录。例如最简单的情况是,重载铁路综合大数据平台数据记录具有能够唯一标识一个实体的属性,只要对两个记录集在该属性集上进行等值连接,就完成了记录匹配过程;对单个记录集的情形,先根据该属性集进行排序,然后通过检查相邻的记录,就可以判断出它们是否为相似重复记录。
S1042.对所述记录匹配过程进行查验,若发现数据存在错误,则引入重载铁路综合大数据平台的匹配规则,并利用重载铁路综合大数据平台的系统自定义函数来完成模糊匹配。详细的,所述数据存在错误可举例为拼写错误等,又例如重载铁路业务数据表中的name字段相同,而且address字段相似度也很大,那么这两条记录是重复记录。根据重载铁路综合大数据平台的数据匹配规则及算法规定,字段之间的相似度,一般用0-1之间的数值来表示,而且不同的字段对记录之间总的相似度的贡献,具有不同的权值。而对字符串类型的数据,精确匹配或者基于通配符、词频、编辑距离、键盘距离和发音相似度的模糊匹配,并且对字符串的缩写形式也进行了匹配原则的查验规范制定。
S1043.对通过规则匹配及查验的重载铁路业务数据进行统一标准化。详细的,可根据重载铁路业务数据属性相似度排序,相似度超过某一阈值的记录被认为是重复记录,低于某一阈值的记录被认为不是重复记录,而相似度介于这两个阈值之间的记录是候选的相似重复记录,需要平台系统用户根据数据的业务需求做出决定。具体方法可为:对单一数据源,每次排序在不同的属性集上进行对排过序的记录集,看它们是否满足匹配规则,综合多次排序的匹配结果,并计算传递闭包,完成匹配数据的标准化,得到基于平台统一准则的重载铁路综合大数据平台业务的标准化数据,通过平台进行存储和发布后,可对平台系统应用提供使用功能。
S105.数据发布:对经过筛选清洗并标准化处理的数据,在所述重载铁路综合大数据平台上进行统一地存储及发布。
在所述步骤S105中,具体可包括但不限于有如下两个步骤:首先将完成标准化规范处理的重载铁路业务数据,按照指定地址路径进行数据存储;然后根据重载铁路综合大数据平台业务需求,可以对存储路径下的重载铁路业务数据进行激活发布,并对平台系统提供使用服务。
由此通过前述步骤S101~S105所详细描述的数据规范治理方法,具有如下技术效果:
(1)本实施例提供了一种用于实现重载铁路综合大数据平台信息共享的大数据接入预处理、标准化及统一化的数据规范治理方案,即包括有数据接入、数据预处理、异常数据筛选清洗、数据标准化和数据发布等环节,其中,在数据标准化环节中,通过采用数据同趋化和无量纲化综合处理技术手段,对不同性质数据问题进行标准化处理,并把从不同系统接入的数据与重载铁路大数据平台业务主数据进行结合,可使不同源数据之间实现关联标准化,为重载铁路综合大数据平台的数据共享提供统一的路径,保证重载铁路业务数据的一致性和规范化,从而可有效解决重载铁路大数据处理过程中遇到的数据不规范问题,实现重载铁路大数据价值的最大化以及确保大数据平台信息共享的及时性,达成基于重载铁路综合大数据平台的信息共享目的;
(2)在数据接入环节中,通过在重载铁路业务数据传输方面,优化高速数据通道技术,能够在高并发和大容量的基础上对重载铁路平台外部系统提供安全可靠的数据接入支持,以及能够满足大数据量的并发请求和分发,通过优化负载均衡、伸缩性、动态配置管理和网络调度等平台设计功能,可对外提供数据接入,提高重载铁路平台业务数据的接口吞吐能力,保证重载铁路数据平台系统的整体数据处理能力;
(3)在数据预处理环节中,可根据接入重载铁路综合大数据平台的所有数据,从影响重载铁路业务数据质量的准确性、完成性和一致性三个因素入手,并对预先划分的数据进行分类抽样,以及使用连续属性的线性代数技术,降低数据维度,捕获数据属性的最大变差,对选择分析所需要的重载铁路业务数据对象和属性进行创建及改变属性的处理;
(4)在异常数据筛选清洗环节中,可针对平台业务领域各个环节可能出现的异常数据进行属性值匹配,对于重复、不完整和歧义性等不符合规则定义的数据进行抽取,将这类数据记录剔除出来,并通过重载铁路平台数据规则来检验数据属性和完整度,可根据实际情况调整相应的清洗操作,保证重载铁路业务数据清洗的安全性和可靠性。
如图7所示,本实施例第二方面提供了一种实现第一方面所述数据规范治理方法的虚拟装置,包括依次通信连接的数据接入单元、数据预处理单元、异常数据筛选清洗单元、数据标准化单元和数据发布单元;所述数据接入单元,用于通过重载铁路综合大数据平台的对外数据接口,将包含但不限于结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据等的源数据统一接入到平台数据源系统中,形成最初的数据容器;所述数据预处理单元,用于在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理;所述异常数据筛选清洗单元,用于对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤;所述数据标准化单元,用于根据重载铁路业务数据标准规范规则,对完成筛选清洗的数据进行包括但不限于数据质量评估、空值率计算、数据特征分析和/或数据格式分析等的特征判断,若判定数据不符合设定标准,则对该数据提取需要的数据属性和元数据,然后经过统一处理路径进行重载铁路业务数据标准化规范处理,其中,所述进行重载铁路业务数据标准化规范处理为对重载铁路业务数据中且包括但不限于字段解释、数据来源和/或代码表等的数据信息描述内容进行标准化规范处理;所述数据发布单元,用于对经过筛选清洗并标准化处理的数据,在所述重载铁路综合大数据平台上进行统一地存储及发布。
本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果,可以参见第一方面所述的数据规范治理方法,于此不再赘述。
如图8所示,本实施例第三方面提供了一种执行在第一方面中所述数据规范治理方法的计算机设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如在第一方面中所述的数据规范治理方法。具体举例的,所述存储器可以但不限于包括随机存取存储器(RAM,Random-AccessMemory)、只读存储器(ROM,Read-Only Memory)、闪存(Flash Memory)、先进先出存储器(FIFO,First Input First Output)和/或先进后出存储器(FILO,First Input LastOutput)等等;所述处理器可以不限于采用型号为STM32F105系列的微处理器。此外,所述计算机设备还可以但不限于包括电源模块、显示屏和其它必要的部件。
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见如上第一方面所述的数据规范治理方法,于此不再赘述。
本实施例第四方面提供了一种存储包含在第一方面中所述数据规范治理方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如在第一方面中所述的数据规范治理方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见如上第一方面所述的数据规范治理方法,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如在第一方面中所述的数据规范治理方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
以上所描述的实施例仅仅是示意性的,若涉及到作为分离部件说明的单元,其可以是或者也可以不是物理上分开的;若涉及到作为单元显示的部件,其可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (9)
1.一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,其特征在于,包括:
数据接入:通过重载铁路综合大数据平台的对外数据接口,将包含结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据的源数据统一接入到平台数据源系统中,形成最初的数据容器,其中,所述数据接入包括:根据不同类型的数据源,按照重载铁路大数据平台数据制约规范,以表或文件为单位选择要采集的数据;使用文件解析器对采集的文件格式进行解析,获取数据内容;通过填补重载铁路业务遗漏数据、消除重载铁路业务异常数据、平滑重载铁路业务噪声数据,以及纠正不一致数据,去掉数据内容中的噪音、填充空值、丢失值和处理不一致数据,过滤去掉噪声和无关数据,最后将完成解析的数据结合起来存放在一个一致的数据存储模块中,形成最初的数据容器;
数据预处理:在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理;
异常数据筛选清洗:对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤;
数据标准化:根据重载铁路业务数据标准规范规则,对完成筛选清洗的数据进行包括数据质量评估、空值率计算、数据特征分析和/或数据格式分析的特征判断,若判定数据不符合设定标准,则对该数据提取需要的数据属性和元数据,然后经过统一处理路径进行重载铁路业务数据标准化规范处理,其中,所述进行重载铁路业务数据标准化规范处理为对重载铁路业务数据中且包括字段解释、数据来源和/或代码表的数据信息描述内容进行标准化规范处理;
数据发布:对经过筛选清洗并标准化处理的数据,在所述重载铁路综合大数据平台上进行统一地存储及发布。
2.如权利要求1所述的数据规范治理方法,其特征在于,当所述源数据分为平台内部数据和平台外部数据时,在所述数据接入前,所述数据规范治理方法还包括:
基于云计算和分布存储的采集工具对所述平台外部数据进行采集;
采用标准化和规范化的抽取手段,对采集的所述平台外部数据进行结构化、半结构化和/或非结构化资源地统一抽取、整合、加工、转换和装载,使所述平台外部数据通过所述对外数据接口汇入到所述数据容器中。
3.如权利要求1所述的数据规范治理方法,其特征在于,所述数据预处理包括如下方式(A)~(D)中的任意一种:
(A)根据确定重载铁路业务数据的缺失值范围,对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,依据制定策略对缺失值进行清洗;
(B)在处理预设规模的全量数据成功基础上,去除不需要的字段,以及在清洗数据时每做一步都执行备份操作,以及对简单数据直接删掉;
(C)对重载铁路业务数据进行缺失内容填充;
(D)针对指标重要且缺失率高的重载铁路业务数据,重新取数。
4.如权利要求1所述的数据规范治理方法,其特征在于,所述对判定不完整和/或不一致的异常数据进行筛选清洗,包括:对所述数据容器的数据进行类别划分和数据关联,并在过滤不合规则数据、删除记录重复数据和/或纠正格式错误数据后完成数据格式转换,以及对不满足重载铁路综合大数据平台业务需求及数据处理逻辑的不合规数据进行清理。
5.如权利要求1所述的数据规范治理方法,其特征在于,在进行重载铁路业务数据标准化规范处理后,所述数据规范治理方法还包括:对重载铁路业务数据进行数据一致性的审查和检验。
6.如权利要求5所述的数据规范治理方法,其特征在于,所述对重载铁路业务数据进行数据一致性的审查和检验包括:
识别出标识同一个重载铁路业务实体的记录匹配过程;
对所述记录匹配过程进行查验,若发现数据存在错误,则引入重载铁路综合大数据平台的匹配规则,并利用重载铁路综合大数据平台的系统自定义函数来完成模糊匹配;
对通过规则匹配及查验的重载铁路业务数据进行统一标准化。
7.一种用于重载铁路综合大数据平台信息共享的数据规范治理装置,其特征在于,包括依次通信连接的数据接入单元、数据预处理单元、异常数据筛选清洗单元、数据标准化单元和数据发布单元;
所述数据接入单元,用于通过重载铁路综合大数据平台的对外数据接口,将包含结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据的源数据统一接入到平台数据源系统中,形成最初的数据容器,其中,所述数据接入包括:根据不同类型的数据源,按照重载铁路大数据平台数据制约规范,以表或文件为单位选择要采集的数据;使用文件解析器对采集的文件格式进行解析,获取数据内容;通过填补重载铁路业务遗漏数据、消除重载铁路业务异常数据、平滑重载铁路业务噪声数据,以及纠正不一致数据,去掉数据内容中的噪音、填充空值、丢失值和处理不一致数据,过滤去掉噪声和无关数据,最后将完成解析的数据结合起来存放在一个一致的数据存储模块中,形成最初的数据容器;
所述数据预处理单元,用于在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理;
所述异常数据筛选清洗单元,用于对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤;
所述数据标准化单元,用于根据重载铁路业务数据标准规范规则,对完成筛选清洗的数据进行包括数据质量评估、空值率计算、数据特征分析和/或数据格式分析的特征判断,若判定数据不符合设定标准,则对该数据提取需要的数据属性和元数据,然后经过统一处理路径进行重载铁路业务数据标准化规范处理,其中,所述进行重载铁路业务数据标准化规范处理为对重载铁路业务数据中且包括字段解释、数据来源和/或代码表的数据信息描述内容进行标准化规范处理;
所述数据发布单元,用于对经过筛选清洗并标准化处理的数据,在所述重载铁路综合大数据平台上进行统一地存储及发布。
8.一种计算机设备,其特征在于,包括通信连接的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如权利要求1~6中任意一项所述的数据规范治理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~6中任意一项所述的数据规范治理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010905124.XA CN112181955B (zh) | 2020-09-01 | 2020-09-01 | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010905124.XA CN112181955B (zh) | 2020-09-01 | 2020-09-01 | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112181955A CN112181955A (zh) | 2021-01-05 |
CN112181955B true CN112181955B (zh) | 2022-12-09 |
Family
ID=73925056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010905124.XA Active CN112181955B (zh) | 2020-09-01 | 2020-09-01 | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112181955B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732815A (zh) * | 2021-01-07 | 2021-04-30 | 永辉云金科技有限公司 | 一种外部数据管理方法、系统、设备和存储介质 |
CN112700157A (zh) * | 2021-01-07 | 2021-04-23 | 杭州数梦工场科技有限公司 | 数据资产生成方法、装置、电子设备 |
CN112817956A (zh) * | 2021-02-04 | 2021-05-18 | 北京易车互联信息技术有限公司 | 数据治理系统 |
CN113836126B (zh) * | 2021-09-22 | 2024-01-30 | 上海妙一生物科技有限公司 | 一种数据清洗方法、装置、设备及存储介质 |
CN114329076A (zh) * | 2021-12-13 | 2022-04-12 | 珠海市新德汇信息技术有限公司 | 半结构化数据规范处理方法、存储介质及设备 |
CN117251254B (zh) * | 2023-11-14 | 2024-02-27 | 广州中长康达信息技术有限公司 | 基于容器分离的数据治理方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4840056A (en) * | 1987-12-11 | 1989-06-20 | Pulse Electronics, Inc. | Fuel measuring system |
CN103745229A (zh) * | 2013-12-31 | 2014-04-23 | 北京泰乐德信息技术有限公司 | 一种基于svm的轨道交通故障诊断方法及系统 |
CN105045256A (zh) * | 2015-07-08 | 2015-11-11 | 北京泰乐德信息技术有限公司 | 基于数据对比分析的轨道交通实时故障诊断方法和系统 |
CN107480918A (zh) * | 2017-10-12 | 2017-12-15 | 天津摩嵌动力技术有限公司 | 基于国际道路运输的口岸运输云管理系统及服务方法 |
CN107506858A (zh) * | 2017-08-16 | 2017-12-22 | 山东百世通大数据科技有限公司 | 基于中小尺度气象预报数据、路网数据及路网气象传感数据的交通气象预报预警方法及系统 |
CN108769255A (zh) * | 2018-06-26 | 2018-11-06 | 铭阳数通科技(西安)有限公司 | 企业数据的采集和治理方法 |
CN110119884A (zh) * | 2019-04-17 | 2019-08-13 | 五邑大学 | 一种基于近邻传播聚类的高速铁路客流时段划分方法 |
CN110458350A (zh) * | 2019-08-06 | 2019-11-15 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 铁路交通系统的基础服务平台构建方法、装置与电子设备 |
CN110781236A (zh) * | 2019-10-29 | 2020-02-11 | 山西云时代技术有限公司 | 一种构建政务大数据治理体系的方法 |
CN211184122U (zh) * | 2020-01-13 | 2020-08-04 | 广西天道信息技术有限公司 | 铁路作业安全防控和大客流预警联动的智能视频分析系统 |
CN111538753A (zh) * | 2020-06-04 | 2020-08-14 | 南京金鼎嘉崎信息科技有限公司 | 一种基于大数据分析的研判平台 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT201600103594A1 (it) * | 2016-10-14 | 2018-04-14 | Sws Eng S P A | Procedimento e sistema per il calcolo del livello di rischio in prossimita’ del fronte di scavo di un’opera sotterranea |
-
2020
- 2020-09-01 CN CN202010905124.XA patent/CN112181955B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4840056A (en) * | 1987-12-11 | 1989-06-20 | Pulse Electronics, Inc. | Fuel measuring system |
CN103745229A (zh) * | 2013-12-31 | 2014-04-23 | 北京泰乐德信息技术有限公司 | 一种基于svm的轨道交通故障诊断方法及系统 |
CN105045256A (zh) * | 2015-07-08 | 2015-11-11 | 北京泰乐德信息技术有限公司 | 基于数据对比分析的轨道交通实时故障诊断方法和系统 |
CN107506858A (zh) * | 2017-08-16 | 2017-12-22 | 山东百世通大数据科技有限公司 | 基于中小尺度气象预报数据、路网数据及路网气象传感数据的交通气象预报预警方法及系统 |
CN107480918A (zh) * | 2017-10-12 | 2017-12-15 | 天津摩嵌动力技术有限公司 | 基于国际道路运输的口岸运输云管理系统及服务方法 |
CN108769255A (zh) * | 2018-06-26 | 2018-11-06 | 铭阳数通科技(西安)有限公司 | 企业数据的采集和治理方法 |
CN110119884A (zh) * | 2019-04-17 | 2019-08-13 | 五邑大学 | 一种基于近邻传播聚类的高速铁路客流时段划分方法 |
CN110458350A (zh) * | 2019-08-06 | 2019-11-15 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 铁路交通系统的基础服务平台构建方法、装置与电子设备 |
CN110781236A (zh) * | 2019-10-29 | 2020-02-11 | 山西云时代技术有限公司 | 一种构建政务大数据治理体系的方法 |
CN211184122U (zh) * | 2020-01-13 | 2020-08-04 | 广西天道信息技术有限公司 | 铁路作业安全防控和大客流预警联动的智能视频分析系统 |
CN111538753A (zh) * | 2020-06-04 | 2020-08-14 | 南京金鼎嘉崎信息科技有限公司 | 一种基于大数据分析的研判平台 |
Non-Patent Citations (2)
Title |
---|
A Faster R-CNN Based High-Normalization Sample Calibration Method for Dense Subway Passenger Flow Detection;Zhiyong Sheng等;《IEEE》;20190204;第1-5页 * |
大数据技术及其行业应用:基于铁路领域的概念框架研究;马丽梅等;《北京交通大学学报(社会科学版)》;20190717;第58-67页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112181955A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112181955B (zh) | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 | |
CN110457294B (zh) | 一种数据处理方法和装置 | |
Yang et al. | A system architecture for manufacturing process analysis based on big data and process mining techniques | |
US9354867B2 (en) | System and method for identifying, analyzing and integrating risks associated with source code | |
CN107809467B (zh) | 一种云环境下容器镜像数据的删减方法 | |
CN111027615A (zh) | 基于机器学习的中间件故障预警方法和系统 | |
CN109213752A (zh) | 一种基于cim的数据清洗转换方法 | |
CN102932195A (zh) | 一种基于网络协议分析的业务分析监控方法及系统 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN110544035A (zh) | 一种内控检测方法、系统和计算机可读存储介质 | |
CN114281877A (zh) | 一种数据管理系统及方法 | |
CN109308290A (zh) | 一种基于cim的高效数据清洗转换方法 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN114968727A (zh) | 基于人工智能运维的数据库贯穿基础设施的故障定位方法 | |
Xu et al. | A platform for fault diagnosis of high-speed train based on big data | |
US20170109640A1 (en) | Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process | |
CN104516953B (zh) | 一种用于电力调度自动化海量报文的黑匣子系统 | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
CN111143432A (zh) | 一种事件处理结果的数据分析预警系统及方法 | |
CN115829412A (zh) | 一种基于业务过程的指标数据量化处理方法、系统及介质 | |
Korzeniowski et al. | Discovering interactions between applications with log analysis | |
CN112395343B (zh) | 一种基于dsg的字段变更数据采集抽取方法 | |
CN111291029B (zh) | 数据清洗方法及装置 | |
CN114510462A (zh) | 软件研发效能的度量方法、平台、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |