CN108769255A - 企业数据的采集和治理方法 - Google Patents
企业数据的采集和治理方法 Download PDFInfo
- Publication number
- CN108769255A CN108769255A CN201810665235.0A CN201810665235A CN108769255A CN 108769255 A CN108769255 A CN 108769255A CN 201810665235 A CN201810665235 A CN 201810665235A CN 108769255 A CN108769255 A CN 108769255A
- Authority
- CN
- China
- Prior art keywords
- data
- business
- acquisition
- business data
- collector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/565—Conversion or adaptation of application format or content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及数据的采集和治理技术领域,尤其涉及企业数据的采集和治理方法。所述方法包括:数据源评估,对企业数据进行全面梳理,形成数据分类管理报告,建立数据资产树;数据代理安装,在数据源上安装数据代理组件,将企业数据发送给数据采集器;数据采集,数据代理组件通过数据加密传输通道将企业数据发送至数据采集器,数据采集器根据预设参数接收传输的企业数据;数据过滤,对企业数据进行重新审查和校验,根据过滤规则对企业数据进行匹配;数据格式化,对符合过滤规则的企业数据的格式进行标准化处理;数据脱敏,根据脱敏规则对企业数据中包含的规定信息进行数据变形。本申请提供的方法数据采集实时性强、效率高、可读性好,可满足需求。
Description
技术领域
本申请涉及数据的采集和治理技术领域,尤其涉及企业数据的采集和治理方法。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在大数据平台阶段,用户对数据的需求持续增长,用户范围从数据部门扩展到全企业,数据治理不能再只是面向数据部门了,需要成为面向全企业用户的工作环境,需要以全企业用户为中心,从给用户提供服务的角度,管理好数据的同时为用户提供自助获得大数据的能力,帮助企业完成数字化转型。
数据治理涉及的技术众多,包括元数据管理、主数据管理、数据采集、数据清洗、数据集成、监控与报告等。传统的数据采集大都是采集来自数据库或文本文件的静态数据,采用点对点数据采集,采取一次性读取文件的方式,采用关系型数据库和并行数据库存储数据。
传统的数据采集及存储方式,采集的数据种类单一,无法对网络设备、应用系统、中间件等产生的大量动态数据进行实时采集,采集和传输数据缺少容错性和中断续传机制,数据采集的效率和可靠性低,且缺乏数据格式标准,导致采集后的数据可读性差,难以满足后续的数据分析和治理需要,相关数据无法进行关联融合,易形成数据孤岛。
发明内容
本申请提供了企业数据的采集和治理方法,以解决传统数据采集存储的有效信息少、格式不标准、质量低、容易形成数据孤岛的问题。
企业数据的采集和治理方法,其特征在于,所述方法包括:
数据源评估,对所述企业数据进行全面梳理,形成数据分类管理报告,建立数据资产树;
数据代理安装,在所述数据源上安装数据代理组件,将所述数据源中的所述企业数据发送给数据采集器;
数据采集,所述数据代理组件通过数据加密传输通道将所述企业数据发送至数据采集器,所述数据采集器根据预设参数接收传输的所述企业数据;
数据过滤,对所述企业数据进行重新审查和校验,数据过滤器根据过滤规则对所述企业数据进行匹配;其中,符合所述过滤规则的所述企业数据进入下一处理流程,不符合所述过滤规则的所述企业数据则被丢弃;
数据格式化,对所述符合所述过滤规则的所述企业数据的格式进行标准化处理;
数据脱敏,根据脱敏规则对格式化之后的所述企业数据中包含的规定信息进行数据变形。
可选的,所述企业数据的采集和治理方法,还包括:
数据入库,将经过所述数据脱敏之后的所述企业数据存储于分布式文件系统。
可选的,所述数据源包括但不限于系统日志数据、应用程序日志数据、服务器告警日志和网络设备告警日志。
可选的,所述数据资产树中的数据资产包括但不限于网络设备、数据库、应用系统、中间件和网络传感器产生的动态数据。
可选的,所述数据采集器根据预设参数接收传输的所述企业数据,其中,所述预设参数包括数据传输协议、传输时间、传输周期和传输量/次。
可选的,所述数据采集包括:
当所述企业数据的传输量超过预设上限时,所述数据采集器自启动负载均衡模式;
当所述数据采集器出现意外故障导致传输中断时,所述数据采集器自启动断点数据持久化模式。
可选的,所述数据格式化包括:字段提取、数据补齐、数据标签、数据转译和语义分析。
本申请提供的技术方案包括以下有益技术效果:
本申请提供的企业数据的采集和治理方法,可采集来自网络设备、数据库、应用系统、中间件和网络传感器等产生的动态数据,首先对数据源进行评估,形成数据分类管理报告,按照不同分类制作不同的数据结构模板并建立数据资产树;在数据源上安装数据代理组件,将数据源中的企业数据进行汇总、分类,然后发送给数据采集器;数据采集器通过与数据代理组件之间建立的数据加密传输通道接收企业数据,其中,数据采集器按照预设参数接收企业数据,并且数据采集器包含有负载均衡模式和断点数据持久化模式,可灵活应对数据传输量过大和数据采集器出现意外故障的情况;采集完企业数据之后,还会进行数据过滤,根据过滤规则对企业数据进行重新审查和校验,删除重复数据和无效数据;之后再对企业数据进行数据格式化,对企业数据的格式进行标准化处理,提高企业数据的可读性和完整性,这其中包括字段提取、数据补齐、数据标签、数据转译和语义分析;最后,进行数据脱敏,对企业数据中包含的敏感信息、隐私信息等通过脱敏规则进行数据变形,实现对敏感隐私数据的保护。本申请提供的企业数据的采集和治理方法,基于大数据技术的智能企业级机器数据和日志管理流程,能够采集、存储、搜索、关联分析、可视化、告警、合规性审计和分析现代网络中产生的海量数据,数据采集效率高,对数据的分类精准完善,数据的格式标准,可读性高、完整性好,便于查询、检索及与相关信息关联,可更灵活、高效的为各行业和规模的企业的数据管理服务。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的企业数据的采集和治理方法的流程图。
图2为本申请实施例提供的数据格式化的流程图。
具体实施方式
请参考附图1,该图示出了本申请实施例提供的企业数据的采集和治理方法的流程。
企业数据的采集和治理方法,所述方法包括:
数据源评估,对所述企业数据进行全面梳理,形成数据分类管理报告,建立数据资产树。
本申请实施例提供的企业数据的采集和治理方法,首先是对企业数据进行全面梳理,掌握企业大数据的情况。从用户视角出发调研企业有哪些方面、哪些类型的数据,根据企业数据的实际情况,形成数据分类管理报告;根据数据分类建立数据资产树,按照不同的数据分类,制作不同的与类型需求相适应的数据结构模板。此阶段被定义为数据源评估。
数据代理安装,在所述数据源上安装数据代理组件,将所述数据源中的所述企业数据发送给数据采集器。
数据代理的作用主要是对数据源中的数据进行转发,数据代理组件作为一个轻量级的数据转发器安装在数据源上,将数据源中的企业数据发送给数据采集器。数据代理组件启动时,首先会根据预先配置的选项对数据源中的企业数据进行汇总、分类,例如,先将数据源中的数据汇集至一处,再根据分类资产树中定义的分类选项,将相匹配的数据分配入相应的类型项下;然后通过指定的协议和端口将企业数据转发给数据采集器,以使数据采集器可完全、精准地接收到企业数据,避免协议和端口的不确定性导致数据丢失或混乱。
数据采集,所述数据代理组件通过数据加密传输通道将所述企业数据发送至数据采集器,所述数据采集器根据预设参数接收传输的所述企业数据。
数据采集指的是数据采集器接收数据代理组件发送的企业数据的过程。为保证数据采集的有效性,首先,数据采集器会与数据代理组件建立数据加密传输通道,使企业数据从专有通道进入数据采集器,确保数据传输的准确性和完整性,不致使数据缺失、遗漏或泄密;其次,数据采集器接收数据时是根据预设参数采集的,预设参数主要是保证数据单次传输时长、单次传输量及传输周期等参数,保证企业数据传输的规律性,保护数据采集器正常、有效的运转。
数据过滤,对所述企业数据进行重新审查和校验,数据过滤器根据过滤规则对所述企业数据进行匹配;其中,符合所述过滤规则的所述企业数据进入下一处理流程,不符合所述过滤规则的所述企业数据则被丢弃。
将企业数据分类采集之后,由于数据的数量庞大、类别众多,仍然不能保证采集时是否能完全做到不重复采集,采集的所有数据是否都是有效的。因此,对数据采集器接收到的企业数据还需进行数据过滤,对企业数据进行重新审查和校验,以便删除重复数据和无效数据。
数据过滤需要根据预设的过滤规则对企业数据进行匹配,匹配项包括日期、阈值、数据取值等,匹配方式包括大于、等于、包含、不包含、正则表达式等。根据特定类型的企业数据进行相应的匹配,此过程可通过逻辑语法进行控制。其中,若企业数据符合过滤规则,则进入下一处理流程;若企业数据不符合过滤规则,则企业数据被丢弃。
数据格式化,对所述符合所述过滤规则的所述企业数据的格式进行标准化处理。
经过上述处理流程之后的企业数据,基本保证了数据分类准确,无重复数据和无效数据,但由于企业数据的数量巨大,类型众多、形式各异,仍然无法确保采集到的企业数据的完整性,其可读性也较低。
因此,本申请实施例继续对采集到的企业数据进行了数据格式化处理,对企业数据的格式进行标准化处理,以提高企业数据的可读性和完整性。
数据脱敏,根据脱敏规则对格式化之后的所述企业数据中包含的规定信息进行数据变形。
将各类企业数据按特定类别所需的数据结构进行相应的标准化处理之后,企业数据即可满足可读性和完整性要求。接下来,本申请实施例还对企业数据进行了数据脱敏处理,将企业数据中包含的敏感信息、隐私信息等规定信息通过脱敏规则进行数据变形,实现对敏感、隐私信息的安全性保护。此过程需要预先定义脱敏规则,匹配企业数据中包含的身份证号、手机号、卡号、客户号等个人信息,当发现以上这些敏感、隐私信息时,则根据脱敏规则对上述此类信息进行数据变形操作,用特殊符号代替以上信息,确保信息不被泄露,以实现对此类敏感、隐私信息的保护。
以往的企业数据采集主要来源为数据库或文本文件的静态数据,采集来源单一,这在来源众多、数量巨大、形式各异的大数据面前,无法做到有效和全面采集,对大量动态数据无法做到实时采集。而本申请实施例提供的方法,可做到对企业数据的全面调研和全面采集,尤其是对动态数据的采集,可做到企业数据的全覆盖,并且可根据数据类型的不同进行分类采集,采集效率高,完整度高。并且,以往的企业数据采集大都采用点对点数据采集、一次性读取文件的方式,导致能够适用的采集场景很少,不能完成对操作系统级的审计数据和安全数据的采集;且缺少定时采集机制,容易影响网络带宽。而本申请实施例提供的方法可适用于各种采集场景,可进行分段、分量式对数据进行采集,在保证完整、准确采集之余,还不影响网络带宽。同时,以往的企业数据采集未考虑到将各类不同形式的数据进行标准化处理,导致采集后的数据可读性差,难以满足后续的数据分析和治理需求。而本申请实施例提供的方法,按照不同类型数据的结构需求对企业数据进行了标准化处理,提高了企业数据的可读性和完整性,可满足后续需求。
可选的,所述方法还包括:
数据入库,将经过所述数据脱敏之后的所述企业数据存储于分布式文件系统。
将企业数据进行分类采集,去除掉重复数据和无效数据,对企业数据的格式进行了标准化处理,并且对相关敏感和隐私信息进行了数据脱敏之后,即形成了分类准确、信息有效、格式标准,满足可读性和完整性要求的企业数据,接下来,自然需要对企业数据进行入库保存。
本申请实施例将企业数据存储于分布式文件系统中。以往的企业数据存储采用关系型数据库和并行数据库作为存储介质,此类存储介质存储、管理和分析治理的数据量都相对较小;而且在依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术要求高度的一致性和容错性,很难保证其可用性和扩展性。
而本申请实施例提供的方法,存储介质采用分布式文件系统,其可将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。人们在使用分布式文件系统时,无需关心数据是存储在哪个节点上,或是从哪个节点获取的,只需要像使用本地文件系统一样,管理和存储文件系统中的数据。
可选的,所述数据源包括但不限于系统日志数据、应用程序日志数据、服务器告警日志和网络设备告警日志。
本申请实施例提供的企业数据的采集和治理方法,基于大数据技术的智能企业级机器数据和日志管理流程,能够采集、存储、搜索、关联分析、可视化、告警、合规性审计和分析现代网络中产生的海量数据,可在几分钟内快速定位和解决安全事件,监视服务运行情况,避免服务故障,挖掘客户体验、交易数据和商业指标,为各种行业和规模的企业的海量日志审计、运维监控、IT(Information Technology,即信息科技和产业)故障分析、BI(Business Intelligence,即商务智能)、合规性审计提供高效、灵活、低成本的解决方案。
可选的,所述数据资产树中的数据资产包括但不限于网络设备、数据库、应用系统、中间件和网络传感器产生的动态数据。
本申请实施例提供的方法,会对企业数据进行全面梳理,掌握企业的大数据情况,从用户视角出发调研企业有哪些数据,形成数据分类管理报告,建立数据资产树,按照数据的不同分类制定不同的数据结构模板。数据资产树中的数据资产主要包括网络设备、数据库、应用系统、中间件和网络传感器等产生的动态数据。
可选的,所述数据采集器根据预设参数接收传输的所述企业数据,其中,所述预设参数包括数据传输协议、传输时间、传输周期和传输量/次。
数据采集器根据预设参数接收企业数据,预设参数包括数据传输协议、传输时间、传输周期和传输量/次。只有符合数据传输协议的企业数据可被采集,企业数据从数据代理组件传输至数据采集器的过程中,根据设置的传输时间、传输周期和传输量/次来传输数据,可保证企业数据定时、定量和定期传输,在保证数据传输的准确性和完整性的同时,不会影响网络带宽。
可选的,所述数据采集包括:
当所述企业数据的传输量超过预设上限时,所述数据采集器自启动负载均衡模式;
当所述数据采集器出现意外故障导致传输中断时,所述数据采集器自启动断点数据持久化模式。
本申请实施例提供的方法,充分考虑到了数据传输时,传输量过大和传输中断的问题。数据采集器包括两种模式,负载均衡模式和断点数据持久化模式;当数据传输量过大,超过预设上线,可能会影响传输速度和传输数据完整性时,启动负载均衡模式,保证数据传输稳定性;当数据采集器出现意外故障导致传输中断时,启动断点数据持久化模式,当故障消除后可自动进行断点续传,保证数据输出的完整性,不会丢失数据。另外,断点数据持久化模式启动后,可临时将数据从内存写入磁盘缓冲中,等故障消除后,再将数据从磁盘缓冲中读入内存,继续处理。
值得注意的是,上述数据采集器的两种模式,可根据监测到的数据传输的实际情况,当发生上述状况时,自行启动,无须人为控制,灵敏度高、启动及时且处理高效。
可选的,所述数据格式化包括:字段提取、数据补齐、数据标签、数据转译和语义分析。
字段提取,即提取字段中的主要字段,用于后续数据分析,可通过正则表达式匹配的方式从数据中提取具有指定特征的字段。
数据补齐,通过外联其他数据资产中的信息,对数据进行信息补全,可通过查询第三方数据字典或数据库的方式对数据进行关联补齐,例如通过IP(Internet Protocol,网络之间互联的协议)地址关联IP地址地理信息库为IP数据添加国家、省、市、单位等地理信息。
数据标签,根据预先定义的数据资产树,为采集的数据添加数据分类标签,为数据的分类管理提供依据,例如为从IDS(Intrusion Detection Systems,入侵检测系统)采集的告警数据添加系统攻击类数据标签。
数据转译,为提升数据可读性,需要与预先定义的数据字典进行匹配,将采集的数据进行转译操作,将原始数据中可读和可理解性差的部分翻译成可读性高的数据,例如将某一个产品编号转译成具体的产品名称,增强数据语义。
语义分析,对采集的数据进行语义分析和语义理解,为数据添加语义分析标签,增强数据的可分析性,例如将采集的用户评论数据进行语义分析,判读评论数据是好评还是差评等。
本申请提供的企业数据的采集和治理方法,可采集来自网络设备、数据库、应用系统、中间件和网络传感器等产生的动态数据,首先对数据源进行评估,形成数据分类管理报告,按照不同分类制作不同的数据结构模板并建立数据资产树;在数据源上安装数据代理组件,将数据源中的企业数据进行汇总、分类,然后发送给数据采集器;数据采集器通过与数据代理组件之间建立的数据加密传输通道接收企业数据,其中,数据采集器按照预设参数接收企业数据,并且数据采集器包含有负载均衡模式和断点数据持久化模式,可灵活应对数据传输量过大和数据采集器出现意外故障的情况;采集完企业数据之后,还会进行数据过滤,根据过滤规则对企业数据进行重新审查和校验,删除重复数据和无效数据;之后再对企业数据进行数据格式化,对企业数据的格式进行标准化处理,提高企业数据的可读性和完整性,这其中包括字段提取、数据补齐、数据标签、数据转译和语义分析;最后,进行数据脱敏,对企业数据中包含的敏感信息、隐私信息等通过脱敏规则进行数据变形,实现对敏感隐私数据的保护。本申请提供的企业数据的采集和治理方法,基于大数据技术的智能企业级机器数据和日志管理流程,能够采集、存储、搜索、关联分析、可视化、告警、合规性审计和分析现代网络中产生的海量数据,数据采集效率高,对数据的分类精准完善,数据的格式标准,可读性高、完整性好,便于查询、检索及与相关信息关联,可更灵活、高效的为各行业和规模的企业的数据管理服务。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的内容,并且可以不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (7)
1.企业数据的采集和治理方法,其特征在于,所述方法包括:
数据源评估,对所述企业数据进行全面梳理,形成数据分类管理报告,建立数据资产树;
数据代理安装,在所述数据源上安装数据代理组件,将所述数据源中的所述企业数据发送给数据采集器;
数据采集,所述数据代理组件通过数据加密传输通道将所述企业数据发送至数据采集器,所述数据采集器根据预设参数接收传输的所述企业数据;
数据过滤,对所述企业数据进行重新审查和校验,数据过滤器根据过滤规则对所述企业数据进行匹配;其中,符合所述过滤规则的所述企业数据进入下一处理流程,不符合所述过滤规则的所述企业数据则被丢弃;
数据格式化,对所述符合所述过滤规则的所述企业数据的格式进行标准化处理;
数据脱敏,根据脱敏规则对格式化之后的所述企业数据中包含的规定信息进行数据变形。
2.根据权利要求1所述的企业数据的采集和治理方法,其特征在于,所述方法还包括:
数据入库,将经过所述数据脱敏之后的所述企业数据存储于分布式文件系统。
3.根据权利要求1所述的企业数据的采集和治理方法,其特征在于,所述数据源包括但不限于系统日志数据、应用程序日志数据、服务器告警日志和网络设备告警日志。
4.根据权利要求1所述的企业数据的采集和治理方法,其特征在于,所述数据资产树中的数据资产包括但不限于网络设备、数据库、应用系统、中间件和网络传感器产生的动态数据。
5.根据权利要求1所述的企业数据的采集和治理方法,其特征在于,所述数据采集器根据预设参数接收传输的所述企业数据,其中,所述预设参数包括数据传输协议、传输时间、传输周期和传输量/次。
6.根据权利要求1所述的企业数据的采集和治理方法,其特征在于,所述数据采集包括:
当所述企业数据的传输量超过预设上限时,所述数据采集器自启动负载均衡模式;
当所述数据采集器出现意外故障导致传输中断时,所述数据采集器自启动断点数据持久化模式。
7.根据权利要求1所述的企业数据的采集和治理方法,其特征在于,所述数据格式化包括:字段提取、数据补齐、数据标签、数据转译和语义分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810665235.0A CN108769255A (zh) | 2018-06-26 | 2018-06-26 | 企业数据的采集和治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810665235.0A CN108769255A (zh) | 2018-06-26 | 2018-06-26 | 企业数据的采集和治理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108769255A true CN108769255A (zh) | 2018-11-06 |
Family
ID=63977547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810665235.0A Pending CN108769255A (zh) | 2018-06-26 | 2018-06-26 | 企业数据的采集和治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108769255A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109818787A (zh) * | 2019-01-21 | 2019-05-28 | 苏州科达科技股份有限公司 | 业务异常检测方法、装置及存储介质 |
CN109886843A (zh) * | 2019-03-13 | 2019-06-14 | 山东浪潮云信息技术有限公司 | 一种旅游数据中多目的地数据的处理方法 |
CN111274301A (zh) * | 2020-01-20 | 2020-06-12 | 启迪数华科技有限公司 | 一种基于数据资产智能治理方法及系统 |
CN112181955A (zh) * | 2020-09-01 | 2021-01-05 | 西南交通大学 | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 |
CN112306992A (zh) * | 2020-11-04 | 2021-02-02 | 内蒙古证联信息技术有限责任公司 | 一种基于互联网的大数据平台 |
CN112418688A (zh) * | 2020-11-26 | 2021-02-26 | 深圳市中博科创信息技术有限公司 | 一种基于企业服务门户的企业数据管理方法 |
CN112559823A (zh) * | 2020-12-23 | 2021-03-26 | 光大兴陇信托有限责任公司 | 一种数据标准化的数据采集方法 |
CN114598492A (zh) * | 2021-12-22 | 2022-06-07 | 航天信息股份有限公司 | 一种用于共采及共享数据的系统及方法 |
CN115033630A (zh) * | 2022-06-16 | 2022-09-09 | 中国电信股份有限公司 | 信息处理方法、系统、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111983A (zh) * | 2014-06-30 | 2014-10-22 | 中国科学院信息工程研究所 | 一种开放式的多源数据采集系统及方法 |
CN106407278A (zh) * | 2016-08-26 | 2017-02-15 | 武汉钢铁工程技术集团自动化有限责任公司 | 一种大数据平台的架构设计系统 |
US9600666B1 (en) * | 2015-12-03 | 2017-03-21 | International Business Machines Corporation | Dynamic optimizing scanner for identity and access management (IAM) compliance verification |
CN107395669A (zh) * | 2017-06-01 | 2017-11-24 | 华南理工大学 | 一种基于流式实时分布式大数据的数据采集方法及系统 |
CN107733902A (zh) * | 2017-10-23 | 2018-02-23 | 中国移动通信集团广东有限公司 | 一种目标数据扩散过程的监控方法及装置 |
CN108108459A (zh) * | 2017-12-29 | 2018-06-01 | 长威信息科技发展股份有限公司 | 多源融合及环路关联的动态数据清洗方法及电子设备 |
-
2018
- 2018-06-26 CN CN201810665235.0A patent/CN108769255A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111983A (zh) * | 2014-06-30 | 2014-10-22 | 中国科学院信息工程研究所 | 一种开放式的多源数据采集系统及方法 |
US9600666B1 (en) * | 2015-12-03 | 2017-03-21 | International Business Machines Corporation | Dynamic optimizing scanner for identity and access management (IAM) compliance verification |
CN106407278A (zh) * | 2016-08-26 | 2017-02-15 | 武汉钢铁工程技术集团自动化有限责任公司 | 一种大数据平台的架构设计系统 |
CN107395669A (zh) * | 2017-06-01 | 2017-11-24 | 华南理工大学 | 一种基于流式实时分布式大数据的数据采集方法及系统 |
CN107733902A (zh) * | 2017-10-23 | 2018-02-23 | 中国移动通信集团广东有限公司 | 一种目标数据扩散过程的监控方法及装置 |
CN108108459A (zh) * | 2017-12-29 | 2018-06-01 | 长威信息科技发展股份有限公司 | 多源融合及环路关联的动态数据清洗方法及电子设备 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109818787A (zh) * | 2019-01-21 | 2019-05-28 | 苏州科达科技股份有限公司 | 业务异常检测方法、装置及存储介质 |
CN109886843A (zh) * | 2019-03-13 | 2019-06-14 | 山东浪潮云信息技术有限公司 | 一种旅游数据中多目的地数据的处理方法 |
CN111274301A (zh) * | 2020-01-20 | 2020-06-12 | 启迪数华科技有限公司 | 一种基于数据资产智能治理方法及系统 |
CN111274301B (zh) * | 2020-01-20 | 2023-08-29 | 国云数字科技(重庆)有限公司 | 一种基于数据资产智能治理方法及系统 |
CN112181955B (zh) * | 2020-09-01 | 2022-12-09 | 西南交通大学 | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 |
CN112181955A (zh) * | 2020-09-01 | 2021-01-05 | 西南交通大学 | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 |
CN112306992A (zh) * | 2020-11-04 | 2021-02-02 | 内蒙古证联信息技术有限责任公司 | 一种基于互联网的大数据平台 |
CN112306992B (zh) * | 2020-11-04 | 2024-02-13 | 内蒙古证联信息技术有限责任公司 | 一种基于互联网的大数据平台系统 |
CN112418688A (zh) * | 2020-11-26 | 2021-02-26 | 深圳市中博科创信息技术有限公司 | 一种基于企业服务门户的企业数据管理方法 |
CN112559823A (zh) * | 2020-12-23 | 2021-03-26 | 光大兴陇信托有限责任公司 | 一种数据标准化的数据采集方法 |
CN112559823B (zh) * | 2020-12-23 | 2022-06-10 | 光大兴陇信托有限责任公司 | 一种数据标准化的数据采集方法 |
CN114598492A (zh) * | 2021-12-22 | 2022-06-07 | 航天信息股份有限公司 | 一种用于共采及共享数据的系统及方法 |
CN115033630A (zh) * | 2022-06-16 | 2022-09-09 | 中国电信股份有限公司 | 信息处理方法、系统、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108769255A (zh) | 企业数据的采集和治理方法 | |
Alam et al. | Processing social media images by combining human and machine computing during crises | |
CN108459939B (zh) | 一种日志收集方法、装置、终端设备及存储介质 | |
Inel et al. | Crowdtruth: Machine-human computation framework for harnessing disagreement in gathering annotated data | |
AU2013261007B2 (en) | System and method for creating structured event objects | |
CN110569214B (zh) | 用于日志文件的索引构建方法、装置及电子设备 | |
CN111881011A (zh) | 日志管理方法、平台、服务器及存储介质 | |
CN111708794B (zh) | 基于大数据平台的数据比对方法、装置和计算机设备 | |
US10783453B2 (en) | Systems and methods for automated incident response | |
CN104462096B (zh) | 舆情监测分析方法和装置 | |
CN111461538A (zh) | 基于大数据分析的绩效管理系统 | |
US11822578B2 (en) | Matching machine generated data entries to pattern clusters | |
CN117251414B (zh) | 一种基于异构技术的数据存储及处理方法 | |
CN117421640A (zh) | 一种api资产识别方法、装置、设备及存储介质 | |
CN111984797A (zh) | 客户身份识别装置及方法 | |
CN106982147B (zh) | 一种Web通讯应用的通讯监控方法和装置 | |
CN110781232A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
WO2023039973A1 (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN113569879B (zh) | 异常识别模型的训练方法、异常账号识别方法及相关装置 | |
CN112579747B (zh) | 一种身份信息提取方法及装置 | |
CN210804423U (zh) | 一种网站信息采集发布平台系统 | |
CN112464653A (zh) | 一种基于通信短信的实时事件识别和匹配方法 | |
CN205754379U (zh) | 日志处理系统 | |
CN106326225B (zh) | 页面数据采集方法及装置 | |
Eriksson et al. | Surveillance Using Facial Recognition and Social Media Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181106 |