CN111897863A - 多源异构数据融合汇聚方法 - Google Patents

多源异构数据融合汇聚方法 Download PDF

Info

Publication number
CN111897863A
CN111897863A CN202010761729.6A CN202010761729A CN111897863A CN 111897863 A CN111897863 A CN 111897863A CN 202010761729 A CN202010761729 A CN 202010761729A CN 111897863 A CN111897863 A CN 111897863A
Authority
CN
China
Prior art keywords
data
source
extraction
task
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010761729.6A
Other languages
English (en)
Other versions
CN111897863B (zh
Inventor
龚波
苏学武
水军
刘怀春
唐飞
李天琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Xindehui Information Technology Co ltd
Original Assignee
Zhuhai Xindehui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Xindehui Information Technology Co ltd filed Critical Zhuhai Xindehui Information Technology Co ltd
Priority to CN202010761729.6A priority Critical patent/CN111897863B/zh
Publication of CN111897863A publication Critical patent/CN111897863A/zh
Application granted granted Critical
Publication of CN111897863B publication Critical patent/CN111897863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多源异构数据融合汇聚方法,通过对不同数据源的访问方式进行归纳总结,对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口;为包装后的数据接口生成配置文件,用于配置数据接口访问规则;根据要求配置数据抽取规则,通过主机的资源使用率选择利用率低的主机执行数据抽取任务;根据配置的规则对数据进行进一步处理,符合侦查情报特色需求;将抽取处理后的数据发送到中间库进行数据去重处理;最后将处理后的数据汇聚到目标库中,根据指定时间内来源数据源数据总量和目标数据源总量是否一致,确定数据抽取任务是否执行成功。

Description

多源异构数据融合汇聚方法
技术领域
本发明涉及情报侦查数据融合领域,特别是一种多源异构数据融合汇聚方法。
背景技术
情报侦查系统、业务系统由于建设时间不同、技术发展程度不同,导致数据标准不统一、字段类型不一致、数据质量不过关、数据库技术不统一等诸多问题;系统间数据分散,信息孤岛现象普遍存在,无法形成情报数据合力。线索关联度不高、数据使用复杂,往往无从下手,同时各系统之间同类数据无法统一,为了对某一种类或某个字段对应的数据进行比对分析处理和数据分析处理。往往需要横跨多个系统。为了破解此难题,目前传统的做法是是使用etl工具对数据进行综合治理,根据来源数据的特点和目标结构直接做映射,汇聚多个数据来源的数据,在汇聚数据的基础上对汇聚数据进行二次处理。
该技术手段虽然一定程度解决了数据融合问题,部分解决了自动化抽取、清洗、导入的问题,但是该方案的设计思路并没有结合情报侦查业务需求,无法与布控比对、数据标签、情报发现等侦查工作模式紧密融合,同时ETL工具的数据汇聚任务往往由数据运维人员指定运行主机,人工参与程度高,很难满足时效性问题,对于通道队列类数据,无法实时获取队列数据,数据实时利用程度不高。
发明内容
本发明旨在提供适用于情报侦查领域的一种多源异构数据融合汇聚方法,以解决传统的ETL工具无法与侦查业务紧密相连,不能对海量轨迹数据进行实时分析处理的问题,以实现对在多源异构数据融合同时与情报侦查工作紧密结合,实现海量实时多源异构数据汇聚融合分析的应用场景。
为解决上述技术问题,本发明所采取的技术方案如下:
一种多源异构数据融合汇聚方法,包括以下具体步骤:
S1、分类归纳数据源类型,其中包括关系性数据源,非关系性数据源,文件类数据源,关系性数据源;
S2、对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口,访问接口分为关系型数据接口、非关系型数据接口、文件型数据接口、实时队列数据接口四大类接口插件;
S3、根据不同类型接口访问方式,对外提供相关配置信息,包括数据源的地址、数据源账密、数据格式、数据处理方式、任务名;
S4、定义数据抽取的时间规则,规则包括时间规则和抽取规则,时间规则包括年,月,周,日,时,分,秒;抽取规则包括增量抽取、全量抽取、实时抽取;
S5、根据配置文件和数据抽取规则生成数据抽取任务;
S6、数据抽取任务在所有部署数据源接口插件的主机的列表内,选择资源利用率最低的主机来执行数据抽取任务;
S7、数据抽取任务抽取的数据需要先抽取到中间库
S8、数据抽取到中间库的过程中,数据抽取任务根据数据主键确定数据是否唯一存在;
S9、数据抽取任务发现本条数据不唯一,对上一条重复数据的版本号修改为数据插入时间和主键组合的唯一值;
S10、数据抽取任务发现本条数据不重复,则直接插入本条数据,将数据的版本号标记为01,同时记录数据插入时间;
S11、将中间库中不同来源的数据抽取到目标库中,并将版本不为01的数据抽取到目标库对应的历史数据表中;
S12、根据数据抽取任务的开始时间和截止时间统计来源数据的数据总量和目标数据的数据总量,根据数据总量确定数据抽取任务是否执行成功。
进一步优化技术方案,所述步骤S2中,所述实时队列数据获取插件能够获取kafka、redis、activemq队列的数据。
进一步优化技术方案,所述步骤S2中,所述关系型数据接口插件内包含oracle数据源、mysql数据源、postgre数据源、sybase数据源;非关系型数据接口插件内包含mongodb数据源、hbase数据源、elasticsearch数据源;文件型数据接口插件内包含本地文件数据源、ftp文件数据源、hdfs文件数据源;采用java开发技术使用策略模式和模板设计方法对几大类数据接口插件进行封装,插件可以根据配置信息,根据配置的策略模式调用具体的数据源访问方法,采用策略模式是为了减少相同类型插件相同工作的重复开发。
进一步优化技术方案,所述步骤S3中,数据格式包括表类型和文件类型,表类型描述包括表中文名、表英文名、字段中文名、字段英文名;文件类型描述包括文件列分割符、行分隔符、列含义。
进一步优化技术方案,所述步骤S3中,数据处理方式包括数据清洗、数据质量效验、核心数据提取、数据比对、数据对标、文本实体识别、图像重点物品分类。
进一步优化技术方案,配置数据融合任务时,数据处理方式的顺序为数据质量效验、数据清洗、数据对标、核心数据提取、数据比对、文本实体识别、图像重点物品分类。
进一步优化技术方案,数据质量效验为对源头数据的质量合规性做检查,用户选定源头数据的格式,系统会根据预定义的格式采用正则表达式的方式确定源头数据是否符合要求,不符合要求的数据直接丢弃,系统记录丢弃数据日志,同时记录丢弃原因。
进一步优化技术方案,数据清洗是在数据质量效验数据符合要求,对数据进一步处理,用户指定数据清洗规则,清洗规则包括截取、合并、拆分。
进一步优化技术方案,用户指定需要对标的字段,系统根据数据清洗后的字段与系统标识库中的字典进行比对,替换原始数据为标准字典数据。
进一步优化技术方案,用户指定需要数据提取的字段,指定需要提取的数据内容,包括身份证件、手机号码、车牌号码、邮箱、虚拟身份、IMEI、车架号,系统根据指定数据提取内容使用正则表达式效验数据中是否包含指定格式数据,检测到指定格式数据,进行内容提取。
进一步优化技术方案,用户指定需要数据比对的字段,指定比对的类型,包括身份证类型、手机号类型、车牌号类型,系统使用http协议将待比对的数据和比对类型发送到指定的url,效验数据是否命中,系统记录比对命中的数据。
进一步优化技术方案,对非格式化的文本数据,用户指定待提取实体的字段,系统在指定文本数据中提取实体信息包括姓名、地点、时间、组织实体,并记录实体之间的关系。
进一步优化技术方案,对非格式化的文本数据,用户指定待提取实体的字段,系统在指定文本数据中提取实体信息包括姓名、地点、时间、组织实体,并记录实体之间的关系。
进一步优化技术方案,对图像类的图像数据,用户指定待分类的字段,指定分类提取目标,目标包括涉黄、涉毒、涉爆、涉敏感,系统基于tensorflow框架使用ssd模型预训练相关物品识别分类模型,根据输入的图片信息使用预训练模型进行预测,系统记录涉重点分类图片。
进一步优化技术方案,所述步骤S4中,抽取规则包括增量抽取、全量抽取和实时抽取,指定抽取规则为实时抽取,自动失效定时任务,需要用户手动停止实时抽取任务。
进一步优化技术方案,所述步骤S9中,数据汇聚融合使用批量插入的方式向中间库中插入数据,遇到唯一性错误,系统修改数据插入方式为单条插入,再次遇到插入错误,更新重复数据版本号后,再次插入数据。
由于采用了以上技术方案,本发明所取得技术进步如下:
本发明主要应用于如何通过对不同数据源的访问方式进行归纳总结,对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口,采用插件的方式对不同异构数据源的数据进行提取,能够根据需要对不同类型数据源的提取进行横向扩展,采用配置的方式抽取不同数据源的数据,解决数据抽取工作重复开发的问题;同时本发明能够根据预先配置的规则对数据进行二次处理,并记录处理后的结果,方便运维人员及时发现数据质量问题,能够快速响应需求变化,通过配置的数据比对规则和数据提取规则等满足侦查研判中和重点人员进行比对的要求,建立重点实体库、发现犯罪实体之间的关系,找出涉黄、涉爆、涉毒的重点物品等。本发明通过配置统一的中间库能够临时存储已抽取的数据能够根据时间键和主键去除重复数据,防止任务失败时抽取大量重复的数据。同时本发明依托时间节点的方式能够在多源异构数据汇聚任务完成后判断对账数据是否一致,并及时通知运维人员,防止由于程序bug和人为因素造成的数据丢失。
本发明基于大数据、微服务等新技术,充分利用微服务架构体系的优势,通过插件开发、独立部署的模式,构建基于统一访问方式的多源异构数据汇聚融合方式,通过对不同类型数据源数据的汇聚,为政府部门,执法部门、企事业单位提供快速构建数据仓库的应用场景。
附图说明
图1为本发明实施例提供的多源异构数据融合汇聚方法的流程图。
具体实施方式
下面将结合附图和具体实施例对本发明进行进一步详细说明。
参见图1所示,本实施例提供的多源异构数据融合汇聚方法,包括以下具体步骤:
S1、分类归纳数据源类型,其中包括关系性数据源,非关系性数据源,文件类数据源,关系性数据源;
S2、对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口,访问接口大致分为关系型数据接口、非关系型数据接口、文件型数据接口三大类接口插件;
此步骤中,访问接口插件类型包括关系型数据接口、非关系型数据接口、文件型数据接口、实时队列数据获取插件,实时队列数据获取插件能够获取kafka、redis、activemq等队列的数据,数据源类型包括,oracle、mysql、postgre、sybase、mogodb、hbase、elasticsearch、本地文件、hdfs、ftp;
S3、根据不同类型接口对外提供相关配置信息,包括数据源类型、数据源的地址、数据源账密、数据格式、数据处理方式、任务名;
此步骤S3中数据格式包括表类型和文件类型,表类型描述包括表中文名、表英文名、字段中文名、字段英文名;文件类型描述包括文件列分割符、行分隔符、列含义。数据处理方式包括数据清洗、数据质量效验、核心数据提取、数据比对、数据对标、文本实体识别、图像重点物品分类。配置数汇聚融合任务时,数据处理方式的顺序为数据质量效验、数据清洗、数据对标、核心数据提取、数据比对、文本实体识别、图像重点物品分类。数据质量效验为对源头数据的质量合规性做检查,用户选定源头数据的格式,系统会根据预定义的格式采用正则表达式的方式确定源头数据是否符合要求,不符合要求的数据直接丢弃,系统记录丢弃数据日志,同时记录丢弃原因。数据清洗是在数据质量效验数据符合要求,对数据进一步处理,用户指定数据清洗规则,清洗规则包括截取、合并、拆分。数据清洗是在数据质量效验数据符合要求,对数据进一步处理,用户指定数据清洗规则,清洗规则包括截取、合并、拆分。用户指定需要对标的字段,系统根据数据清洗后的字段与系统标识库中的字典进行比对,替换原始数据为标准字典数据。用户指定需要数据提取的字段,指定需要提取的数据内容,包括身份证件、手机号码、车牌号码、邮箱、虚拟身份、IMEI、车架号,系统根据指定数据提取内容使用正则表达式效验数据中是否包含指定格式数据,检测到指定格式数据,进行内容提取。用户指定需要数据比对的字段,指定比对的类型,包括身份证类型、手机号类型、车牌号类型,系统使用http协议将待比对的数据和比对类型发送到指定的url,效验数据是否命中,系统记录比对命中的数据。对非格式化的文本数据,用户指定待提取实体的字段,系统在指定文本数据中提取实体信息包括姓名、地点、时间、组织实体,并记录实体之间的关系。对非格式化的文本数据,用户指定待提取实体的字段,系统在指定文本数据中提取实体信息包括姓名、地点、时间、组织实体,并记录实体之间的关系。对图像类的图像数据,用户指定待分类的字段,指定分类提取目标,目标包括涉黄、涉毒、涉爆、涉敏感,系统基于tensorflow框架使用ssd模型预训练相关物品识别分类模型,根据输入的图片信息使用预训练模型进行预测,系统记录涉重点分类图片。
S4、定义数据抽取的时间规则,规则包括时间规则和抽取规则,时间规则包括年,月,周,日,时,分,秒;抽取规则包括增量抽取和全量抽取;
在此步骤中,抽取规则包括增量抽取、全量抽取和实时抽取,指定抽取规则为实时抽取,自动失效定时任务,需要用户手动停止实时抽取任务;
S5、根据配置文件和数据抽取规则生成数据抽取任务;
S6、数据抽取任务在所有部署数据源接口插件的主机的列表内,选择资源利用率最低主机来执行数据抽取任务;
S7、数据抽取任务抽取的数据需要先抽取到中间库
S8、数据抽取到中间库的过程中,数据抽取任务根据数据主键确定数据是否唯一存在;
S9、数据抽取任务发现本条数据不唯一,对上一条重复数据的版本号修改为数据插入时间和主键组合的唯一值;
此步骤中,数据汇聚融合使用批量插入的方式向中间库中插入数据,遇到唯一性错误,系统修改数据插入方式为单条插入,再次遇到插入错误,更新重复数据版本号后,再次插入数据。
S10、数据抽取任务发现本条数据不重复,则直接插入本条数据,将数据的版本号标记为01,同时记录数据插入时间;
S11、将中间库中不同来源的数据抽取到目标库中,并将版本不为01的数据抽取到目标库对应的历史数据表中;
S12、根据数据抽取任务的开始时间和截止时间统计来源数据的数据总量和目标数据的数据总量,根据数据总量确定数据抽取任务是否执行成功。
以上实施例仅为充分公开而非限制本发明,凡基于本发明的创作主旨、无需经过创造性劳动即可等到的等效技术特征的替换,应当视为本申请揭露的范围。

Claims (10)

1.一种多源异构数据融合汇聚方法,其特征在于,包括以下具体步骤:
S1、分类归纳数据源类型,其中包括关系性数据源,非关系性数据源,文件类数据源,关系性数据源;
S2、对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口,访问接口分为关系型数据接口、非关系型数据接口、文件型数据接口、实时队列数据接口四大类接口插件;
S3、根据不同类型接口访问方式,对外提供相关配置信息,包括数据源的地址、数据源账密、数据格式、数据处理方式、任务名;
S4、定义数据抽取的时间规则,规则包括时间规则和抽取规则,时间规则包括年,月,周,日,时,分,秒;抽取规则包括增量抽取、全量抽取、实时抽取;
S5、根据配置文件和数据抽取规则生成数据抽取任务;
S6、数据抽取任务在所有部署数据源接口插件的主机的列表内,选择资源利用率最低的主机来执行数据抽取任务;
S7、数据抽取任务抽取的数据需要先抽取到中间库
S8、数据抽取到中间库的过程中,数据抽取任务根据数据主键确定数据是否唯一存在;
S9、数据抽取任务发现本条数据不唯一,对上一条重复数据的版本号修改为数据插入时间和主键组合的唯一值;
S10、数据抽取任务发现本条数据不重复,则直接插入本条数据,将数据的版本号标记为01,同时记录数据插入时间;
S11、将中间库中不同来源的数据抽取到目标库中,并将版本不为01的数据抽取到目标库对应的历史数据表中;
S12、根据数据抽取任务的开始时间和截止时间统计来源数据的数据总量和目标数据的数据总量,根据数据总量确定数据抽取任务是否执行成功。
2.根据权利要求1所述的多源异构数据融合汇聚方法,其特征在于,所述步骤S2中,所述实时队列数据获取插件能够获取kafka、redis、activemq队列的数据。
3.根据权利要求1所述的多源异构数据融合汇聚方法,其特征在于,所述步骤S2中,所述关系型数据接口插件内包含oracle数据源、mysql数据源、postgre数据源、sybase数据源;非关系型数据接口插件内包含mongodb数据源、hbase数据源、elasticsearch数据源;文件型数据接口插件内包含本地文件数据源、ftp文件数据源、hdfs文件数据源;采用java开发技术使用策略模式和模板设计方法对几大类数据接口插件进行封装,插件可以根据配置信息,根据配置的策略模式调用具体的数据源访问方法,采用策略模式是为了减少相同类型插件相同工作的重复开发。
4.根据权利要求1所述的多源异构数据融合汇聚方法,其特征在于,所述步骤S3中,数据格式包括表类型和文件类型,表类型描述包括表中文名、表英文名、字段中文名、字段英文名;文件类型描述包括文件列分割符、行分隔符、列含义。
5.根据权利要求1所述的多源异构数据融合汇聚方法,其特征在于,所述步骤S3中,数据处理方式包括数据清洗、数据质量效验、核心数据提取、数据比对、数据对标、文本实体识别、图像重点物品分类。
6.根据权利要求1所述的多源异构数据融合汇聚方法,其特征在于,所述步骤S4中,抽取规则包括增量抽取、全量抽取和实时抽取,指定抽取规则为实时抽取,自动失效定时任务,需要用户手动停止实时抽取任务。
7.根据权利要求1所述多源异构数据融合汇聚方法,其特征在于,所述步骤S4中,采用quarz定时器框架,根据年、月、周、日、时、分、秒配置数据融合汇聚任务的时间执行周期,在应用启动时采用反射技术基于S2步骤的配置信息实例化对应的数据接口访问插件,定时器启动时根据任务名,调用实例化的数据接口访问插件。
8.根据权利要求1所述多源异构数据融合汇聚方法,其特征在于,所述步骤S6,在多台物理主机上部署数据接口访问插件的执行器,数据汇聚融合任务启动前,每台物理主机上的执行器定时向主控程序汇报主机资源利用率,主控程序选择资源利用率最小的主机执行本次数据汇聚融合任务。
9.根据权利要求1所述多源异构数据融合汇聚方法,其特征在于,所述步骤S9,数据汇聚融合任务首先使用批量插入的方式向中间数据库中插入数据,遇到主键唯一性(原始主键和版本号作为中间库中的联合主键)冲突后,拦截相关错误,并改为单条插入的方式插入数据,当再次发现主键唯一性冲突后,将与本条数据主键冲突的上一版本的数据的版本号修改时间和主键的联合值。
10.根据权利要求1所述多源异构数据融合汇聚方法,其特征在于,所述步骤S11中,数据汇聚融合任务将数据汇总到临时中间库后,其它第二阶段汇总任务,将数据汇总到目标库中,汇总到目标库的数据只有版本号为01的最新数据,其它版本号不为01的数据汇总到历史库中。能保证数据的唯一性,同时也能保证数据的可追溯性。
CN202010761729.6A 2020-07-31 2020-07-31 多源异构数据融合汇聚方法 Active CN111897863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010761729.6A CN111897863B (zh) 2020-07-31 2020-07-31 多源异构数据融合汇聚方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010761729.6A CN111897863B (zh) 2020-07-31 2020-07-31 多源异构数据融合汇聚方法

Publications (2)

Publication Number Publication Date
CN111897863A true CN111897863A (zh) 2020-11-06
CN111897863B CN111897863B (zh) 2022-11-08

Family

ID=73182964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010761729.6A Active CN111897863B (zh) 2020-07-31 2020-07-31 多源异构数据融合汇聚方法

Country Status (1)

Country Link
CN (1) CN111897863B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269902A (zh) * 2020-11-10 2021-01-26 珠海市新德汇信息技术有限公司 一种大数据的数据采集方法
CN112433998A (zh) * 2020-11-20 2021-03-02 广东电网有限责任公司佛山供电局 一种基于电力系统的多源异构数据采集汇聚系统及方法
CN112596851A (zh) * 2020-12-02 2021-04-02 中国人民解放军63921部队 仿真平台的多源异构数据批量抽取方法和分析方法
CN112650745A (zh) * 2020-12-30 2021-04-13 中科环森智慧科技(苏州)有限公司 一种基于统一数据资源池的数据治理系统
CN113222223A (zh) * 2021-04-24 2021-08-06 上海钢银科技发展有限公司 实时数仓的风控联动预警方法、系统、设备及存储介质
CN113468187A (zh) * 2021-09-02 2021-10-01 太平金融科技服务(上海)有限公司深圳分公司 多方数据整合方法、装置、计算机设备和存储介质
CN113535844A (zh) * 2021-09-15 2021-10-22 山东耕元数据科技有限公司 一种数据汇聚方法及系统
CN113591147A (zh) * 2021-07-30 2021-11-02 平安普惠企业管理有限公司 一种数据抽取的方法、装置、计算机设备及存储介质
CN114070787A (zh) * 2021-11-15 2022-02-18 南京航空航天大学 面向警务大数据的数据汇聚方法、装置、存储介质和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187937A (zh) * 2007-10-30 2008-05-28 北京航空航天大学 网格环境下模式复用的异构数据库访问和集成方法
CN102902782A (zh) * 2012-09-27 2013-01-30 浙江大学 一种海量多源异构空间信息数据无缝集成管理方法
EP2891994A1 (en) * 2013-11-04 2015-07-08 Guangdong Electronics Industry Institute Ltd. Method for achieving automatic synchronization of multisource heterogeneous data resources
CN107273524A (zh) * 2017-06-23 2017-10-20 国网上海市电力公司 一种智能配电大数据应用系统
CN107491515A (zh) * 2017-08-11 2017-12-19 国电南瑞科技股份有限公司 基于大数据平台的智能配用电数据转换方法
CN107590749A (zh) * 2017-09-07 2018-01-16 北京国电通网络技术有限公司 一种配用电数据的处理方法及系统
US20180032605A1 (en) * 2015-02-18 2018-02-01 Persistent Systems Limited Integrated intermediary computing device for data analytic enhancement
CN108197261A (zh) * 2017-12-30 2018-06-22 北京通途永久科技有限公司 一种智慧交通操作系统
CN109740037A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 多源、异构流态大数据分布式在线实时处理方法及系统
CN110750588A (zh) * 2019-10-29 2020-02-04 珠海格力电器股份有限公司 面向多源异构的数据融合方法、系统、装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187937A (zh) * 2007-10-30 2008-05-28 北京航空航天大学 网格环境下模式复用的异构数据库访问和集成方法
CN102902782A (zh) * 2012-09-27 2013-01-30 浙江大学 一种海量多源异构空间信息数据无缝集成管理方法
EP2891994A1 (en) * 2013-11-04 2015-07-08 Guangdong Electronics Industry Institute Ltd. Method for achieving automatic synchronization of multisource heterogeneous data resources
US20180032605A1 (en) * 2015-02-18 2018-02-01 Persistent Systems Limited Integrated intermediary computing device for data analytic enhancement
CN107273524A (zh) * 2017-06-23 2017-10-20 国网上海市电力公司 一种智能配电大数据应用系统
CN107491515A (zh) * 2017-08-11 2017-12-19 国电南瑞科技股份有限公司 基于大数据平台的智能配用电数据转换方法
CN107590749A (zh) * 2017-09-07 2018-01-16 北京国电通网络技术有限公司 一种配用电数据的处理方法及系统
CN108197261A (zh) * 2017-12-30 2018-06-22 北京通途永久科技有限公司 一种智慧交通操作系统
CN109740037A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 多源、异构流态大数据分布式在线实时处理方法及系统
CN110750588A (zh) * 2019-10-29 2020-02-04 珠海格力电器股份有限公司 面向多源异构的数据融合方法、系统、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张健生等: "东莞公安车辆信息库的建设和应用", 《警察技术》 *
王东伟等: "支撑大数据应用的多元异构数据融合平台的实现", 《智能建筑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269902A (zh) * 2020-11-10 2021-01-26 珠海市新德汇信息技术有限公司 一种大数据的数据采集方法
CN112433998B (zh) * 2020-11-20 2022-01-21 广东电网有限责任公司佛山供电局 一种基于电力系统的多源异构数据采集汇聚系统及方法
CN112433998A (zh) * 2020-11-20 2021-03-02 广东电网有限责任公司佛山供电局 一种基于电力系统的多源异构数据采集汇聚系统及方法
CN112596851A (zh) * 2020-12-02 2021-04-02 中国人民解放军63921部队 仿真平台的多源异构数据批量抽取方法和分析方法
CN112650745A (zh) * 2020-12-30 2021-04-13 中科环森智慧科技(苏州)有限公司 一种基于统一数据资源池的数据治理系统
CN113222223A (zh) * 2021-04-24 2021-08-06 上海钢银科技发展有限公司 实时数仓的风控联动预警方法、系统、设备及存储介质
CN113222223B (zh) * 2021-04-24 2023-02-21 上海钢银科技发展有限公司 实时数仓的风控联动预警方法、系统、设备及存储介质
CN113591147A (zh) * 2021-07-30 2021-11-02 平安普惠企业管理有限公司 一种数据抽取的方法、装置、计算机设备及存储介质
CN113468187A (zh) * 2021-09-02 2021-10-01 太平金融科技服务(上海)有限公司深圳分公司 多方数据整合方法、装置、计算机设备和存储介质
CN113468187B (zh) * 2021-09-02 2021-11-23 太平金融科技服务(上海)有限公司深圳分公司 多方数据整合方法、装置、计算机设备和存储介质
CN113535844A (zh) * 2021-09-15 2021-10-22 山东耕元数据科技有限公司 一种数据汇聚方法及系统
CN113535844B (zh) * 2021-09-15 2021-12-07 山东耕元数据科技有限公司 一种数据汇聚方法及系统
CN114070787A (zh) * 2021-11-15 2022-02-18 南京航空航天大学 面向警务大数据的数据汇聚方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN111897863B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN111897863B (zh) 多源异构数据融合汇聚方法
CN109034993B (zh) 对账方法、设备、系统及计算机可读存储介质
US20110161132A1 (en) Method and system for extracting process sequences
CN101453358B (zh) 一种oracle数据库绑定变量的sql语句审计方法及系统
CN106164865A (zh) 用于数据复制的依赖性感知的事务批处理
CN109558411A (zh) 一种基于区块链数据的下链同步方法及装置
CN108959337A (zh) 大数据获取方法、装置、设备及存储介质
CN104717085A (zh) 一种日志解析方法及装置
CN110188103A (zh) 数据对账方法、装置、设备和存储介质
WO2023273051A1 (zh) 信息处理方法、系统、装置、计算机设备和存储介质
CN101561806B (zh) Db2数据库操作的信息提取和审计方法及其装置、系统
CN109063066A (zh) 数据查询方法及装置、数据管理系统
US8839449B1 (en) Assessing risk of information leakage
CN114500099A (zh) 一种针对云服务的大数据攻击处理方法及服务器
CN106033438A (zh) 舆情数据存储方法和服务器
EP2620901A1 (en) Associative memory-based project management system
CN105719072B (zh) 关联多段组件交易的系统及方法
CN110119422A (zh) 小微信贷租户数据仓库数据处理系统及设备
CN112910953B (zh) 业务数据的推送方法、装置和服务器
CN113836237A (zh) 对数据库的数据操作进行审计的方法及装置
CN107871055A (zh) 一种数据分析方法和装置
CN110399485B (zh) 基于词向量和机器学习的数据溯源方法和系统
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN105721586A (zh) 信息智能分配装置、方法及系统
CN115344633A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant