CN111897875A - 城市多源异构数据的融合处理方法、装置和计算机设备 - Google Patents
城市多源异构数据的融合处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111897875A CN111897875A CN202010761135.5A CN202010761135A CN111897875A CN 111897875 A CN111897875 A CN 111897875A CN 202010761135 A CN202010761135 A CN 202010761135A CN 111897875 A CN111897875 A CN 111897875A
- Authority
- CN
- China
- Prior art keywords
- data
- source
- fusion
- source heterogeneous
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于大数据的城市多源异构数据的融合处理方法、装置和计算机设备。该方法包括:获取采集的城市多源异构数据;将多源异构数据进行预处理,得到预处理后的多源异构数据;将预处理后的多源异构数据存储在Hbase分布式数据库;获取符合当前业务应用的数据处理规则以及相关数据源;查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库。由于融合时是以业务应用为需求,仅需根据业务应用的数据处理规则提取所需的数据,无需对全局数据进行融合,能够提高数据融合效率。
Description
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种城市多源异构数据的融合处理方法、装置、计算机设备和存储介质。
背景技术
随着信息化技术的发展,城市相关数据的信息存在多种形态,能够实现城市信息资源的布、按需订阅和互动交流。由于数据源不同,因此需要融合多个数据源的数据,为跨系统、跨领域的信息交互提供动态、可扩展的信息格式和内容转换能力。
为实现数据融合,传统的方法是通过支持向量机分类器对多源信息进行初步融合,再结合遗传算法进一步对初步融合结果进行优化,得到最终的融合结果。而该方法适用于多源信息为包括企业基础信息、事业单位基础信息、社会团体信息、法人纳税信息、法人劳保信息等静态信息的融合。而城市大数据项目涉及更多的动态的多源异构数据,如气象、人车流量,视频等,这些多源动态数据结构不同,不同应用所需的数据源不同,采用传统的融合方法融合效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高融合效率的城市多源异构数据的融合处理方法、装置、计算机设备和存储介质。
一种城市多源异构数据的融合处理方法,所述方法包括:
获取采集的城市多源异构数据;
将所述多源异构数据进行预处理,得到预处理后的多源异构数据;
将所述预处理后的多源异构数据存储在Hbase分布式数据库;
获取符合当前业务应用的数据处理规则以及相关数据源;
查询所述数据源的Hbase分布式数据库的索引,根据所述数据处理规则提取相关数据并进行数据融合,建立所述业务应用的融合数据库。
在其中一个实施例中,查询所述数据源的Hbase分布式数据库的索引,根据所述数据处理规则提取相关数据并进行数据融合,建立所述业务应用的融合数据库,包括:
查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;
根据所述数据处理规则,从所述数据表提取所需的数据,并存储到元模型数据库的不同数据表中;
识别所述元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到所述业务应用的融合数据库。
在其中一个实施例中,所述识别所述元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库,包括:
识别元模型数据库的不同数据表的相同或相似属性的字段并合并;
去除合并后的数据表的冗余字段;
根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
在其中一个实施例中,将所述多源异构数据进行预处理,得到预处理后的多源异构数据,包括:
确定所述多源异构数据中的待转换数据源;
将所述待转换数据源转换为通用格式;
对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据。
在其中一个实施例中,将所述待转换数据源转换为通用格式,包括:
根据数据源的格式调用相应转换工具将待转换数据源转换为通用格式。
在其中一个实施例中,对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据,包括:
对转换后的多源异构数据进行数据特征属性辨别;
去除数据特征属性相近的重复数据,得到预处理后的多源异构数据。
一种城市多源异构数据的融合处理装置,所述装置包括:
采集模块,用于采集城市多源异构数据;
预处理模块,用于将所述多源异构数据进行预处理,得到预处理后的多源异构数据;
存储模块,用于将所述预处理后的多源异构数据存储在Hbase分布式数据库;
应用规则获取模块,用于获取设置的对业务应用的数据处理规则以及相关数据源;
融合模块,用于查询所述数据源的Hbase分布式数据库的索引,根据所述数据处理规则提取相关数据并进行数据融合,建立所述业务应用的融合数据库。
在其中一个实施例中,所述融合装置包括:
查询模块,用于查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;
提取模块,用于根据设置的不同业务应用的数据处理规则,从所述数据表提取所需的数据,并存储到元模型数据库的不同数据表中;
关联模块,用于识别所述元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各实施例任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各实施例任一项所述的方法的步骤。
上述城市多源异构数据的融合处理方法、装置、计算机设备和存储介质,能够实现多个数据源处理的融合,且可根据实际业务应用需要,查询数据源的索引,获取相应数据源的数据表,提取得到业务应用的融合数据库,能够满足不同业务应用的数据融合需求。由于融合时是以业务应用为需求,仅需根据业务应用的数据处理规则提取所需的数据,无需对全局数据进行融合,能够提高数据融合效率。
附图说明
图1为一个实施例中城市多源异构数据的融合处理方法的应用环境图;
图2为一个实施例中城市多源异构数据的融合处理方法的流程示意图;
图3为一个实施例中城市多源异构数据的融合处理装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的城市多源异构数据的融合处理方法,可以应用于如图1所示的应用环境中。其中,数据采集终端102通过网络与服务器104通过网络进行通信。数据采集终端可以包括但不限于用户终端、气象采集终端和视频监控终端。其中,用户终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器获取采集的城市多源异构数据,将多源异构数据进行预处理,得到预处理后的多源异构数据;将预处理后的多源异构数据存储在Hbase分布式数据库;获取设置的对业务应用的数据处理规则以及相关数据源;根据设置的数据处理规则,查询数据源的Hbase分布式数据库的索引,提取相关数据并进行数据融合,建立业务应用的融合数据库。
在一个实施例中,如图2所示,提供了一种城市多源异构数据的融合处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取采集的城市多源异构数据。
具体地,终端采集城市多源异构数据,终端包括但不限于用户终端、车辆终端、气象采集终端和视频监控终端等。终端将采集的城市多源异构数据发送至服务器。
城市多源异构数据是指多种渠道获取的城市相关数据,包括传感器采集的数据以及从各信息平台获取的互联网数据。例如图像传感器采集的图像数据,GPS等获取的遥感影像全局时空数据,无人机、自动驾驶采集具体位置处的具体时空数据。城市相关数据中,存在多种不种的数据源,各数据源的数据结构不同,故而称之为城市多源异构数据。
步骤204,将多源异构数据进行预处理,得到预处理后的多源异构数据。
预处理是指融合之前对数据进行的一些处理,发现、纠正和转换多源异构数据中不符合融合处理要求的数据。
具体地,由于数据源的采集设备种类繁多,多源异构数据的格式多样,部分数据如视频和空间数据是非结构的,不便于数据处理。为此,本实施例中,通过将多源异构数据转换为通用格式,以使其结构化。因此,预处理包括多源异构数据的格式转换。
步骤206,将预处理后的多源异构数据存储在Hbase分布式数据库。
HBase分布式存储,HBase是一个面向列、稀疏的、分布式的多维排序映射表,每个列族中的数据都存放在一起,在读写时有效降低I/O开销,并且类似的数据放在一起,经过压缩后极大节省了存储空间。
其中,HBase分布式存储数据库是采用KeyValue的列存储,KeyValue是列的列名和列值组成的键值对,多个KeyValue组成一个Column-family列族。Column-family列族能尽量不丢失原始资料信息量,从而可以真实的组织和描述数据。
步骤208,获取符合当前业务应用的数据处理规则以及相关数据源。
业务应用是指实际的业务的应用领域和范围。每一个业务的业务应用不同,所需的多源异构数据也不相同。数据提取规则是在业务应用中查找场景数据的判定规则。数据提取规则根据业务应用的业务需求设置,根据数据提取规则所提取的数据,为业务应用提供业务数据支持。可以理解的是,预先对于每个业务应用设置对应的数据处理规则,以及数据源。针对每个业务应用的数据融合需求,获取符合当前业务应用的数据处理规则和相关数据源。其中,可预先设置业务应用的名称与数据处理规则的映射关系,业务应用的名称与数据源的映射关系,通过读取当前业务应用的名称,查询获取到符合当前业务应用的数据处理规则以及相关数据源。
以业务应用为车辆路径跟踪为例,一个数据源摄像头监控数据,一个数据源为车辆控制器的车辆数据。数据提取规则是以获取车辆路径跟踪所需数据为目标,设置的从数据源提取相关数据的规则。对于摄像头监控数据而言,所提取的数据包括车牌号码、所处位置、经过摄像头所处位置的时间,以及图像数据。对于车辆数据,所提取的数据包括车辆的GPS数据,车辆标识数据、车辆信息。
步骤210,查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库。
具体地,预先根据业务应用设置数据提取规则和相关的数据源,建立三者之间的对应关系。当需要融合该业务场景的城市多源异构数据时,根据数据处理规则对相关数据源进行处理。通过查询数据源的Hbase分布式数据库的索引,提取数据处理规则所需的字段内容,并将多个数据源的数据进行数据融合,建立业务应用的融合数据库。
其中,融合是指将多个数据源中的数据融合综合到一起,以得到符合当前业务应用所需的数据。为将不同数据源的数据进行融合,需要建立各数据源之间的关联关系。具体地,通过将各数据源具有身份识别意义的字段建立映射关系,建立各数据源数据之间的关联关系,使多个数据源的数据融合。通过融合从不同数据源提取的相关数据表,即可得到业务应用的融合数据库。
以业务应用为车辆路径跟踪为例,数据源1摄像头监控数据,数据源2为车辆控制器的车辆数据。根据数据提取规则,从数据源1提取的数据包括车牌号码、所处位置、经过摄像头所处位置的时间,以及图像数据。从数据源2提取的数据包括车辆的GPS数据(路线和时间),车辆标识数据、车辆信息。通过利用车辆管理系统即数据源3中所登记的车牌号码和车辆标识数据之间的关联关系,融合数据源1和数据源2的数据,将车辆摄像头监控数据与车辆运行数据融合,得到车辆路径跟踪业务应用所需的融合数据库。
上述的城市多源异构数据的融合处理方法,能够实现多个数据源处理的融合,且可根据实际业务应用需要,查询数据源的索引,获取相应数据源的数据表,提取得到业务应用的融合数据库,能够满足不同业务应用的数据融合需求。由于融合时是以业务应用为需求,仅需根据业务应用的数据处理规则提取所需的数据,无需对全局数据进行融合,能够提高数据融合效率。
在另一个实施例中,查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库,包括:查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;根据数据处理规则,从数据表提取所需的数据,并存储到元模型数据库的不同数据表中;识别元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
具体地,根据数据源的Hbase分布式数据库的索引,获取当前业务应用所需数据所在数据库的数据表,根据业务应用的数据处理规则,提取所需的数据后,将所需的数据存储到元模型数据库中。此处需要对数据表进行实体识别,识别两个数据表的不同字段指的是相同属性,并对两个数据表的相同属性的字段,对具有相同属性的记录进行关联,在数据融合时保护其中一个以去除冗余数据。
具体地,识别元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库,包括:识别元模型数据库的不同数据表的相同或相似属性的字段并合并;去除合并后的数据表的冗余字段;根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
其中,不同数据表的相同或相似属性的字段可能是两个数据源中重复的字段,例如,在一个数据源中,表示用户名称的字段用“用户名”关系,在另一个数据源中,表示用户名称的字段用“Name”表示,而实际上二者指代的都是用户名称。在数据融合时,首先匹配两个数据源中的各字段的字段名,若二者存在联系,如相同,相似,互为中英文等,则进一步获取表示的字段值,同字段值也存在相同,则可认为二者为不同数据表的相同或相似属性的字段可能是两个数据源中重复的字段,在数据融合时合并。合并后去除另一个以去除冗余数据。根据相同字段、相似字段,其中,将相同字段或相似字段作为具有识别作用字段将数据表关联,得到业务应用的融合数据。
采用该方法,在融合当前业务应用的多源异构数据时,识别元模型数据库的不同数据表的相同或相似属性的字段并合并,去除合并后的数据表的冗余字段。从而能够进一步消除冗余的融合数据。
在另一个实施例中,将多源异构数据进行预处理,得到预处理后的多源异构数据,包括:确定多源异构数据中的待转换数据源;将待转换数据源转换为通用格式;对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据。
具体地,对多源异构数据的预处理包括格式转换和数据清洗。
预先根据多源异构数据的数据格式设定了需要进行格式转换数据格式。例如,图像传感器采用的图像数据的格式为JPG格式,视频数据的格式为MPEG或H.263。预先设定了需要进行格式转换的数据格式,当数据源的数据格式为需要进行转换的设定格式时,将该数据源确定为待转换数据源。通常需要进行格式转换的数据源包括:图像、视频、音频、空间数据等异构数据。
对于待转换数据源的异构数据,设定了数据格式所需的转换工具,通过调用转换工具进行转换。其中转换工具可以为应用程序,也可以为处理模型。
具体地,根据数据源的格式调用相应转换工具将待转换数据源转换为通用格式。例如,对于空间数据,采用ETL(Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)工具将多源异构数据提取转换为通用格式。例如,对于MapGIS数据为例,通过MapGIS转换工具将MapGIS数据转换为通用格式并存储至HBase分布式数据库中。
例如,对于视频数据,识别视频数据内容,得到视频内容的特征向量描述。具体地,视频内容描述以每一视频帧为对象,识别视频帧内的实体,转其转换为文字描述。考虑到视频帧的连续性以及连续帧中视频内容的重复性,可每隔预定间隔识别视频帧的内容,获取视频内容描述。考虑到视频内容的时序性,视频内容描述可采用神经网络模型进行结构化描述。
例如,对于音频数据,利用语音识别模型,得到音频数据的文字内容。
通过数据清洗可去除多源异构数据中的重复数据。
具体地,对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据,包括:对转换后的多源异构数据进行数据特征属性辨别;去除数据特征属性相近的重复数据,得到预处理后的多源异构数据。
其中,数据特征属性辨别是指通过解析数据特征,比对两个数据之间的特征属性,以分辨二者的相似性。通常而言,越相似的数据之间具有更多相同的数据特征属性,通过识别数据之间的数据特征属性,能够判断数据之间的相似性。其中,数据特征属性辨别可根据不同数据类型采用不同的识别方法进行识别。例如,文字和音频文件,可将音频文件转换为文字后,通过语义分析二者的语义特征,以进行数据特征属性辨别。又例如,对于多源异构数据分别为两个图片,通过利用神经网络结构提取两个图片的特征,比较二者的相似度,以实现二者的数据特征属性辨别。通过去除数据特征属性相近的重复数据,得到预处理后的多源异构数据,即能够在数据融合前去重相似数据。
本申请的城市多源异构数据的融合处理方法,多源时空数据的融合包括了动态异构多源异构数据,融合过程中的冗余去除以数据表为对象,考虑了字段属性的相似性,准确率更高。通过获取符合当前业务应用的数据处理规则,从相关数据源中提取数据进行融合,使得融合数据个性化考虑了不同业务应用的实际需求。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种城市多源异构数据的融合处理装置,包括:采集模块302、预处理模块304、存储模块306、应用规则获取模块308和融合模块310,其中:
采集模块302,用于采集城市多源异构数据。
预处理模块304,用于将多源异构数据进行预处理,得到预处理后的多源异构数据。
存储模块306,用于将预处理后的多源异构数据存储在Hbase分布式数据库。
应用规则获取模块308,用于获取设置的对业务应用的数据处理规则以及相关数据源。
融合模块310,用于查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库。
上述的城市多源异构数据的融合处理装置,能够实现多个数据源处理的融合,且可根据实际业务应用需要,查询数据源的索引,获取相应数据源的数据表,提取得到业务应用的融合数据库,能够满足不同业务应用的数据融合需求。由于融合时是以业务应用为需求,仅需根据业务应用的数据处理规则提取所需的数据,无需对全局数据进行融合,能够提高数据融合效率。
在另一个实施例中,融合装置包括:
查询模块,用于查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;
提取模块,用于根据数据处理规则,从数据表提取所需的数据,并存储到元模型数据库的不同数据表中;
关联模块,用于识别元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
在另一个实施例中,关联模块,用于识别元模型数据库的不同数据表的相同或相似属性的字段并合并;去除合并后的数据表的冗余字段;根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
在另一个实施例中,预处理模块,包括:
转换数据获取模块,用于确定多源异构数据中的待转换数据源。
转换模块,用于将待转换数据源转换为通用格式。
清洗数据,用于对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据。
在另一个实施例中,转换模块,用于根据数据源的格式调用相应转换工具将待转换数据源转换为通用格式。
在另一个实施例中,清洗模块,用于对转换后的多源异构数据进行数据特征属性辨别;去除数据特征属性相近的重复数据,得到预处理后的多源异构数据。
关于城市多源异构数据的融合处理装置的具体限定可以参见上文中对于城市多源异构数据的融合处理方法的限定,在此不再赘述。上述城市多源异构数据的融合处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多源异构数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种城市多源异构数据的融合处理方法。
本领域技术人员可以理解,图Y中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取采集的城市多源异构数据;
将多源异构数据进行预处理,得到预处理后的多源异构数据;
将预处理后的多源异构数据存储在Hbase分布式数据库;
获取符合当前业务应用的数据处理规则以及相关数据源;
查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库。
在其中一个实施例中,查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库,包括:
查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;
根据数据处理规则,从数据表提取所需的数据,并存储到元模型数据库的不同数据表中;
识别元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
在其中一个实施例中,识别元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库,包括:
识别元模型数据库的不同数据表的相同或相似属性的字段并合并;
去除合并后的数据表的冗余字段;
根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
在其中一个实施例中,将多源异构数据进行预处理,得到预处理后的多源异构数据,包括:
确定多源异构数据中的待转换数据源;
将待转换数据源转换为通用格式;
对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据。
在其中一个实施例中,将待转换数据源转换为通用格式,包括:
根据数据源的格式调用相应转换工具将待转换数据源转换为通用格式。
在其中一个实施例中,对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据,包括:
对转换后的多源异构数据进行数据特征属性辨别;
去除数据特征属性相近的重复数据,得到预处理后的多源异构数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取采集的城市多源异构数据;
将多源异构数据进行预处理,得到预处理后的多源异构数据;
将预处理后的多源异构数据存储在Hbase分布式数据库;
获取符合当前业务应用的数据处理规则以及相关数据源;
查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库。
在其中一个实施例中,查询数据源的Hbase分布式数据库的索引,根据数据处理规则提取相关数据并进行数据融合,建立业务应用的融合数据库,包括:
查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;
根据数据处理规则,从数据表提取所需的数据,并存储到元模型数据库的不同数据表中;
识别元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
在其中一个实施例中,识别元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库,包括:
识别元模型数据库的不同数据表的相同或相似属性的字段并合并;
去除合并后的数据表的冗余字段;
根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
在其中一个实施例中,将多源异构数据进行预处理,得到预处理后的多源异构数据,包括:
确定多源异构数据中的待转换数据源;
将待转换数据源转换为通用格式;
对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据。
在其中一个实施例中,将待转换数据源转换为通用格式,包括:
根据数据源的格式调用相应转换工具将待转换数据源转换为通用格式。
在其中一个实施例中,对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据,包括:
对转换后的多源异构数据进行数据特征属性辨别;
去除数据特征属性相近的重复数据,得到预处理后的多源异构数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种城市多源异构数据的融合处理方法,所述方法包括:
获取采集的城市多源异构数据;
将所述多源异构数据进行预处理,得到预处理后的多源异构数据;
将所述预处理后的多源异构数据存储在Hbase分布式数据库;
获取符合当前业务应用的数据处理规则以及相关数据源;
查询所述数据源的Hbase分布式数据库的索引,根据所述数据处理规则提取相关数据并进行数据融合,建立所述业务应用的融合数据库。
2.根据权利要求1所述的方法,其特征在于,查询所述数据源的Hbase分布式数据库的索引,根据所述数据处理规则提取相关数据并进行数据融合,建立所述业务应用的融合数据库,包括:
查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;
根据所述数据处理规则,从所述数据表提取所需的数据,并存储到元模型数据库的不同数据表中;
识别所述元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到所述业务应用的融合数据库。
3.根据权利要求2所述的方法,其特征在于,所述识别所述元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库,包括:
识别元模型数据库的不同数据表的相同或相似属性的字段并合并;
去除合并后的数据表的冗余字段;
根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
4.根据权利要求1所述的方法,其特征在于,将所述多源异构数据进行预处理,得到预处理后的多源异构数据,包括:
确定所述多源异构数据中的待转换数据源;
将所述待转换数据源转换为通用格式;
对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据。
5.根据权利要求4所述的方法,其特征在于,将所述待转换数据源转换为通用格式,包括:
根据数据源的格式调用相应转换工具将待转换数据源转换为通用格式。
6.根据权利要求4所述的方法,其特征在于,对转换后的多源异构数据进行数据清洗,去除重复数据,得到预处理后的多源异构数据,包括:
对转换后的多源异构数据进行数据特征属性辨别;
去除数据特征属性相近的重复数据,得到预处理后的多源异构数据。
7.一种城市多源异构数据的融合处理装置,其特征在于,所述装置包括:
采集模块,用于采集城市多源异构数据;
预处理模块,用于将所述多源异构数据进行预处理,得到预处理后的多源异构数据;
存储模块,用于将所述预处理后的多源异构数据存储在Hbase分布式数据库;
应用规则获取模块,用于获取设置的对业务应用的数据处理规则以及相关数据源;
融合模块,用于查询所述数据源的Hbase分布式数据库的索引,根据所述数据处理规则提取相关数据并进行数据融合,建立所述业务应用的融合数据库。
8.根据权利要求7所述的装置,其特征在于,所述融合装置包括:
查询模块,用于查询数据源的Hbase分布式数据库的索引,获取相应数据库的数据表;
提取模块,用于所述数据处理规则,从所述数据表提取所需的数据,并存储到元模型数据库的不同数据表中;
关联模块,用于识别所述元模型数据库中不同数据表的各字段,根据具有识别作用字段将各数据表关联,得到业务应用的融合数据库。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010761135.5A CN111897875A (zh) | 2020-07-31 | 2020-07-31 | 城市多源异构数据的融合处理方法、装置和计算机设备 |
PCT/CN2020/111955 WO2021135323A1 (zh) | 2020-07-31 | 2020-08-28 | 城市多源异构数据的融合处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010761135.5A CN111897875A (zh) | 2020-07-31 | 2020-07-31 | 城市多源异构数据的融合处理方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111897875A true CN111897875A (zh) | 2020-11-06 |
Family
ID=73184106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010761135.5A Pending CN111897875A (zh) | 2020-07-31 | 2020-07-31 | 城市多源异构数据的融合处理方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111897875A (zh) |
WO (1) | WO2021135323A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112540975A (zh) * | 2020-12-29 | 2021-03-23 | 中科院计算技术研究所大数据研究院 | 一种基于petri网的多源异构数据质量检测方法 |
CN112612840A (zh) * | 2020-12-29 | 2021-04-06 | 清华大学 | 异构数据的处理方法、装置、设备及存储介质 |
CN112905856A (zh) * | 2021-05-08 | 2021-06-04 | 浙江高速信息工程技术有限公司 | 一种具有时空依赖的高速交通数据集的构建方法 |
CN112990254A (zh) * | 2020-12-17 | 2021-06-18 | 北京以萨技术股份有限公司 | 基于多源异构数据的融合分析方法、系统、设备及介质 |
CN113407723A (zh) * | 2021-07-16 | 2021-09-17 | 湖南五凌电力科技有限公司 | 多源异构电力负荷数据融合方法、装置、设备和存储介质 |
CN113591958A (zh) * | 2021-07-21 | 2021-11-02 | 杭州海康威视数字技术股份有限公司 | 融合物联网数据和信息网数据的方法、装置及设备 |
CN113590626A (zh) * | 2021-08-03 | 2021-11-02 | 中铁工程装备集团有限公司 | 隧道掘进装备多源异构数据采集系统及方法 |
CN113746855A (zh) * | 2021-09-09 | 2021-12-03 | 国网电子商务有限公司 | 一种能源工业云网的数据接入方法及相关设备 |
CN113806332A (zh) * | 2021-08-23 | 2021-12-17 | 北京金蝶云基科技有限公司 | 一种异构系统集成数据处理方法、装置和计算机设备 |
CN113849549A (zh) * | 2021-09-22 | 2021-12-28 | 广东电网有限责任公司 | 一种数据加载方法、装置、设备和介质 |
CN114379608A (zh) * | 2021-12-13 | 2022-04-22 | 中铁南方投资集团有限公司 | 一种城市轨道交通工程的多源异构数据集成处理方法 |
CN114780553A (zh) * | 2022-06-21 | 2022-07-22 | 昆仑智汇数据科技(北京)有限公司 | 一种基于工业数据模型的异构数据存储方法、装置及设备 |
CN114896952A (zh) * | 2022-04-28 | 2022-08-12 | 北京清创美科环境科技有限公司 | 一种大气污染源排放清单编制方法及装置 |
CN115034290A (zh) * | 2022-05-17 | 2022-09-09 | 医声医事(北京)科技有限公司 | 一种多源数据的动态融合系统、方法、设备及介质 |
CN115374094A (zh) * | 2022-08-05 | 2022-11-22 | 广州中长康达信息技术有限公司 | 多源数据融合方法、智能终端以及存储介质 |
CN116910824A (zh) * | 2023-08-28 | 2023-10-20 | 广东中山网传媒信息科技有限公司 | 一种基于分布式多源测度的安全大数据分析方法及系统 |
CN117591025A (zh) * | 2023-11-27 | 2024-02-23 | 海南榕树家信息科技有限公司 | 多源异构数据处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545046A (zh) * | 2017-08-17 | 2018-01-05 | 北京奇安信科技有限公司 | 一种多源异构数据的融合方法及装置 |
CN109033387A (zh) * | 2018-07-26 | 2018-12-18 | 广州大学 | 一种融合多源数据的物联网搜索系统、方法及存储介质 |
CN110837585A (zh) * | 2019-11-07 | 2020-02-25 | 中盈优创资讯科技有限公司 | 多源异构的数据关联查询方法及系统 |
US20200117737A1 (en) * | 2018-10-16 | 2020-04-16 | LeapAnalysis Inc. | Fast heterogeneous multi-data source search and analytics |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9594816B2 (en) * | 2012-11-01 | 2017-03-14 | Tata Consultancy Services Limited | System and method to provide analytical processing of data in a distributed data storage systems |
CN110147357A (zh) * | 2019-05-07 | 2019-08-20 | 浙江科技学院 | 一种基于大数据环境下的多源数据聚合抽样方法及系统 |
-
2020
- 2020-07-31 CN CN202010761135.5A patent/CN111897875A/zh active Pending
- 2020-08-28 WO PCT/CN2020/111955 patent/WO2021135323A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545046A (zh) * | 2017-08-17 | 2018-01-05 | 北京奇安信科技有限公司 | 一种多源异构数据的融合方法及装置 |
CN109033387A (zh) * | 2018-07-26 | 2018-12-18 | 广州大学 | 一种融合多源数据的物联网搜索系统、方法及存储介质 |
US20200117737A1 (en) * | 2018-10-16 | 2020-04-16 | LeapAnalysis Inc. | Fast heterogeneous multi-data source search and analytics |
CN110837585A (zh) * | 2019-11-07 | 2020-02-25 | 中盈优创资讯科技有限公司 | 多源异构的数据关联查询方法及系统 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990254A (zh) * | 2020-12-17 | 2021-06-18 | 北京以萨技术股份有限公司 | 基于多源异构数据的融合分析方法、系统、设备及介质 |
CN112540975A (zh) * | 2020-12-29 | 2021-03-23 | 中科院计算技术研究所大数据研究院 | 一种基于petri网的多源异构数据质量检测方法 |
CN112540975B (zh) * | 2020-12-29 | 2021-08-31 | 中科大数据研究院 | 一种基于petri网的多源异构数据质量检测方法及系统 |
CN112612840A (zh) * | 2020-12-29 | 2021-04-06 | 清华大学 | 异构数据的处理方法、装置、设备及存储介质 |
CN112905856A (zh) * | 2021-05-08 | 2021-06-04 | 浙江高速信息工程技术有限公司 | 一种具有时空依赖的高速交通数据集的构建方法 |
CN113407723A (zh) * | 2021-07-16 | 2021-09-17 | 湖南五凌电力科技有限公司 | 多源异构电力负荷数据融合方法、装置、设备和存储介质 |
CN113591958A (zh) * | 2021-07-21 | 2021-11-02 | 杭州海康威视数字技术股份有限公司 | 融合物联网数据和信息网数据的方法、装置及设备 |
CN113591958B (zh) * | 2021-07-21 | 2024-03-19 | 杭州海康威视数字技术股份有限公司 | 融合物联网数据和信息网数据的方法、装置及设备 |
CN113590626A (zh) * | 2021-08-03 | 2021-11-02 | 中铁工程装备集团有限公司 | 隧道掘进装备多源异构数据采集系统及方法 |
CN113806332A (zh) * | 2021-08-23 | 2021-12-17 | 北京金蝶云基科技有限公司 | 一种异构系统集成数据处理方法、装置和计算机设备 |
CN113806332B (zh) * | 2021-08-23 | 2024-03-19 | 北京金蝶云基科技有限公司 | 一种异构系统集成数据处理方法、装置和计算机设备 |
CN113746855A (zh) * | 2021-09-09 | 2021-12-03 | 国网电子商务有限公司 | 一种能源工业云网的数据接入方法及相关设备 |
CN113849549A (zh) * | 2021-09-22 | 2021-12-28 | 广东电网有限责任公司 | 一种数据加载方法、装置、设备和介质 |
CN114379608A (zh) * | 2021-12-13 | 2022-04-22 | 中铁南方投资集团有限公司 | 一种城市轨道交通工程的多源异构数据集成处理方法 |
CN114896952A (zh) * | 2022-04-28 | 2022-08-12 | 北京清创美科环境科技有限公司 | 一种大气污染源排放清单编制方法及装置 |
CN114896952B (zh) * | 2022-04-28 | 2024-04-23 | 北京清创美科环境科技有限公司 | 一种大气污染源排放清单编制方法及装置 |
CN115034290A (zh) * | 2022-05-17 | 2022-09-09 | 医声医事(北京)科技有限公司 | 一种多源数据的动态融合系统、方法、设备及介质 |
CN115034290B (zh) * | 2022-05-17 | 2023-02-03 | 医声医事(北京)科技有限公司 | 一种多源数据的动态融合系统、方法、设备及介质 |
CN114780553A (zh) * | 2022-06-21 | 2022-07-22 | 昆仑智汇数据科技(北京)有限公司 | 一种基于工业数据模型的异构数据存储方法、装置及设备 |
CN115374094A (zh) * | 2022-08-05 | 2022-11-22 | 广州中长康达信息技术有限公司 | 多源数据融合方法、智能终端以及存储介质 |
CN116910824B (zh) * | 2023-08-28 | 2024-02-06 | 广东中山网传媒信息科技有限公司 | 一种基于分布式多源测度的安全大数据分析方法及系统 |
CN116910824A (zh) * | 2023-08-28 | 2023-10-20 | 广东中山网传媒信息科技有限公司 | 一种基于分布式多源测度的安全大数据分析方法及系统 |
CN117591025A (zh) * | 2023-11-27 | 2024-02-23 | 海南榕树家信息科技有限公司 | 多源异构数据处理系统 |
CN117591025B (zh) * | 2023-11-27 | 2024-05-10 | 海南榕树家信息科技有限公司 | 多源异构数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021135323A1 (zh) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897875A (zh) | 城市多源异构数据的融合处理方法、装置和计算机设备 | |
CN109614517B (zh) | 视频的分类方法、装置、设备及存储介质 | |
CN106534344B (zh) | 一种云平台视频处理系统及其应用方法 | |
US9355330B2 (en) | In-video product annotation with web information mining | |
CN109871464B (zh) | 一种基于ucl语义标引的视频推荐方法与装置 | |
US20120155778A1 (en) | Spatial Image Index and Associated Updating Functionality | |
US20130166276A1 (en) | System and method for context translation of natural language | |
CN109635148B (zh) | 人脸图片存储方法及装置 | |
CN111209431A (zh) | 一种视频搜索方法、装置、设备及介质 | |
JP5633647B2 (ja) | 映像処理システム、映像処理方法、映像処理用データベースの作成方法とそのデータベース、映像処理装置およびその制御方法と制御プログラム | |
CN114625918A (zh) | 视频推荐方法、装置、设备、存储介质及程序产品 | |
Zhao et al. | Metadata extraction and correction for large-scale traffic surveillance videos | |
Jung et al. | Real-time car tracking system based on surveillance videos | |
US20130191368A1 (en) | System and method for using multimedia content as search queries | |
US20200226152A1 (en) | System and method for using multimedia content as search queries | |
CN114708578A (zh) | 唇部动作检测方法、装置、可读存储介质和电子设备 | |
Jeysudha et al. | Real Time Video Copy Detection using Hadoop | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 | |
Alam et al. | Intellibvr-intelligent large-scale video retrieval for objects and events utilizing distributed deep-learning and semantic approaches | |
CN116521729A (zh) | 一种基于Elasticsearch的信息分类搜索方法及装置 | |
KR20100070952A (ko) | 멀티미디어 콘텐츠 관리 시스템 | |
CN110019874B (zh) | 索引文件的生成方法、装置及系统 | |
US8156133B2 (en) | Modifying an electronic graphics file to be searchable according to annotation information | |
CN112925939A (zh) | 图片搜索方法、描述信息生成方法、设备及存储介质 | |
CN116521938A (zh) | 视频数据检索方法、装置、计算机设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |