CN112783962A - 基于etl技术的时空大数据人工智能分析方法及系统 - Google Patents
基于etl技术的时空大数据人工智能分析方法及系统 Download PDFInfo
- Publication number
- CN112783962A CN112783962A CN202110146131.0A CN202110146131A CN112783962A CN 112783962 A CN112783962 A CN 112783962A CN 202110146131 A CN202110146131 A CN 202110146131A CN 112783962 A CN112783962 A CN 112783962A
- Authority
- CN
- China
- Prior art keywords
- data
- analysis model
- storage database
- target
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 74
- 238000005516 engineering process Methods 0.000 title claims abstract description 39
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 26
- 238000007405 data analysis Methods 0.000 claims abstract description 100
- 238000003860 storage Methods 0.000 claims abstract description 85
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000009286 beneficial effect Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 5
- 238000011068 loading method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Abstract
本发明公开了基于ETL技术的时空大数据人工智能分析方法及系统,其中方法包括:采集数据;将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;将所述分析结果输出;将所述分析结果记录在所述数据分析模型的存储数据库中;所述数据分析模型的构建方式如下:确定数据分析模型的需求参数;根据所述需求参数,从若干个源数据库中获得源数据;对所述源数据采用ETL技术处理,获得目标数据;将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。本申请提供的方法能够建立统一的、完整的、高质量的数据库及数据分析模型。
Description
技术领域
本发明涉及大数据分析的技术领域,具体涉及基于ETL技术的时空大数据人工智能分析方法及系统。
背景技术
时空大数据兼具大数据与时空数据的特性,通常来说,大数据具有:Volume数据量大(计量单位是PB、EB、甚至ZB级)、Variety种类来源多样化、Value数据价值密度相对较低、Velocity数据处理时效性要求高、Veracity数据质量要求高五大特点,即5V特性。
时空大数据包括时空基准(时间和空间基准)数据、GNSS和位置轨迹数据、空间大地测量和物理大地测量数据、海洋测绘数据、地图(集)数据、遥感影像数据、与位置相关联的空间媒体数据、地名数据及时空数据与大数据融合产生的数据等等。
时空数据挖掘具有额外的特殊性和复杂性,因此,寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析具有重要意义。
发明内容
本发明提供基于ETL技术的时空大数据人工智能分析方法,用以解决寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析的技术问题。
本发明提供基于ETL技术的时空大数据人工智能分析方法,该方法包括:
采集数据;
将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;
将所述分析结果输出;
将所述分析结果记录在所述数据分析模型的存储数据库中;
所述数据分析模型的构建方式如下:
确定数据分析模型的需求参数;
根据所述需求参数,从若干个源数据库中获得源数据;
对所述源数据采用ETL技术处理,获得目标数据;
将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。
可选的,所述确定数据分析模型的需求参数之后,执行以下步骤:
根据所述需求参数进行需求分类;
相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:
在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;
相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:
对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;
相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:
将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。
可选的,所述为每个类别设定对应的标记之后,执行以下步骤:
为所述标记设置索引;
将所述标记及索引按照类别记录在所述存储数据库中;
根据所述标记及索引以及存储数据库中的数据构建数据分析模型。
可选的,所述采集数据之后,执行以下步骤:
对所述数据进行预处理,获得所述数据的类别特征;
相应的,所述将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果,包括:
根据所述类别特征确定索引目标;
通过所述数据分析模型对数据进行分析,获得分析结果;
根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;
在相应的位置的存储数据库中存储所述数据及数据分析结果。
可选的,所述对所述数据进行预处理,获得所述数据的类别特征,包括:
步骤A1:提取所述数据的若干个特征;
步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;
步骤A3:确定若干个类似特征的概率均值:
N=nA+nB+…nT
其中,nA为类似特征A在存储数据库中被提及的次数;nB为类似特征B在存储数据库中被提及的次数;nT为类似特征T在存储数据库中被提及的次数;α、β、γ分别为特征A、特征B、特征T的概率;N为所有类似特征被提及的次数;i=1,2,…nA;j=1,2,…nB;k=1,2,…nT;X为类似特征的概率均值;
步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:
其中,KB为玻尔兹曼常数;S为类似特征概率系统的熵;
当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;
步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。
本发明还提供基于ETL技术的时空大数据人工智能分析系统,包括:
采集模块,用于采集数据;
分析模块,用于将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;
输出模块,用于将所述分析结果输出;
记录模块,用于将所述分析结果记录在所述数据分析模型的存储数据库中;
所述数据分析模型的构建方式如下:
确定数据分析模型的需求参数;
根据所述需求参数,从若干个源数据库中获得源数据;
对所述源数据采用ETL技术处理,获得目标数据;
将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。
可选的,所述确定数据分析模型的需求参数之后,还包括:
根据所述需求参数进行需求分类;
相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:
在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;
相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:
对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;
相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:
将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。
可选的,所述为每个类别设定对应的标记之后,还包括:
为所述标记设置索引;
将所述标记及索引按照类别记录在所述存储数据库中;
根据所述标记及索引以及存储数据库中的数据构建数据分析模型。
可选的,还包括:
类别特征获取模块,用于所述采集数据之后,对所述数据进行预处理,获得所述数据的类别特征;
相应的,所述分析模块包括:
索引目标确定子模块,用于根据所述类别特征获取模块获得的所述类别特征确定索引目标;
结果子模块,用于通过所述数据分析模型对数据进行分析,获得分析结果;
位置确定子模块,用于根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;
存储子模块,用于在相应的位置的存储数据库中存储所述数据及数据分析结果。
可选的,所述对所述数据进行预处理,获得所述数据的类别特征,包括:
步骤A1:提取所述数据的若干个特征;
步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;
步骤A3:确定若干个类似特征的概率均值:
N=nA+nB+…nT
其中,nA为类似特征A在存储数据库中被提及的次数;nB为类似特征B在存储数据库中被提及的次数;nT为类似特征T在存储数据库中被提及的次数;α、β、γ分别为特征A、特征B、特征T的概率;N为所有类似特征被提及的次数;i=1,2,…nA;j=1,2,…nB;k=1,2,…nT;X为类似特征的概率均值;
步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:
其中,KB为玻尔兹曼常数;S为类似特征概率系统的熵;
当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;
步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。
本发明提供的基于ETL技术的时空大数据人工智能分析方法,不同数据库中的数据由于没有统一的标准,给数据库的建立带来了麻烦。ETL工具作为数据提取,转换和加载的工具,能够为数据仓库的建立提供高质量的可靠数据,是数据仓库的重要组成部分,本实施例提供的方法能够建立统一的、完整的、高质量的数据库及人工智能分析模型。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于ETL技术的时空大数据人工智能分析方法的流程图;
图2为本发明实施例中数据分析模型的构建方法的流程图;
图3为本发明实施例中基于ETL技术的时空大数据人工智能分析系统的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供了基于ETL技术的时空大数据人工智能分析方法,图1为本发明实施例中基于ETL技术的时空大数据人工智能分析方法的流程图,请参照图1,该方法包括:
S101,采集数据;
S102,将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;
S103,将所述分析结果输出;
S104,将所述分析结果记录在所述数据分析模型的存储数据库中。
图2为本发明实施例中数据分析模型的构建方法的流程图,请参照图2,所述数据分析模型的构建方式如下:
S201,确定数据分析模型的需求参数;
S202,根据所述需求参数,从若干个源数据库中获得源数据;
S203,对所述源数据采用ETL技术处理,获得目标数据;
S204,将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。
上述技术方案的工作原理为:本实施例采用的方法是基于ETL技术对时空大数据的人工智能分析,其中,ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
一般常见的作法包含ETL或是ELT(Extract-Load-Transform),并且可混合使用。通常大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。
所述时空大数据除了包括大数据的一般特征外,还包括:时间特征,位置特征,属性特征,分辨率特征,多源异构特征以及多维动态可视化特征。
上述时空大数据特征,有助于时空大数据的分析,揭示大数据的时间变化趋势和空间分布规律。但同时也证明了时空大数据在组织、存储、管理和分析计算等方面对数据引擎有着极高的要求。
上述技术方案的有益效果为:不同数据库中的数据由于没有统一的标准,给数据库的建立带来了麻烦。ETL工具作为数据提取,转换和加载的工具,能够为数据仓库的建立提供高质量的可靠数据,是数据仓库的重要组成部分,本实施例提供的方法能够建立统一的、完整的、高质量的数据库及数据分析模型。
实施例2:
在实施例1的基础上,所述确定数据分析模型的需求参数之后,执行以下步骤:
根据所述需求参数进行需求分类;
相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:
在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;
相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:
对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;
相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:
将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。
上述技术方案的有益效果为:通过根据需求参数进行需求分类,相应的,在存储数据库中记录的是分类过的数据,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。
实施例3:
在实施例2的基础上,所述为每个类别设定对应的标记之后,执行以下步骤:
为所述标记设置索引;
将所述标记及索引按照类别记录在所述存储数据库中;
根据所述标记及索引以及存储数据库中的数据构建数据分析模型。
上述技术方案的有益效果为:通过设置索引,为数据查找及分析提供更快速的通道,方便数据的搜索及分析应用,提高数据处理的效率及准确性。
实施例4:
在实施例3的基础上,所述采集数据之后,执行以下步骤:
对所述数据进行预处理,获得所述数据的类别特征;
相应的,所述将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果,包括:
根据所述类别特征确定索引目标;
通过所述数据分析模型对数据进行分析,获得分析结果;
根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;
在相应的位置的存储数据库中存储所述数据及数据分析结果。
上述技术方案的有益效果为:通过对所述数据进行预处理,确定所述数据的类别特征,根据该类别特征进行相应索引,并根据索引结果确定出数据的分析结果,在根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置,并将该位置记录于存储数据库中。通过本实施例可以方便数据的搜索及分析应用,提高数据处理的效率及准确性。
实施例5:
在实施例4的基础上,所述对所述数据进行预处理,获得所述数据的类别特征,包括:
步骤A1:提取所述数据的若干个特征;
步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;
步骤A3:确定若干个类似特征的概率均值:
N=nA+nB+…nT
其中,nA为类似特征A在存储数据库中被提及的次数;nB为类似特征B在存储数据库中被提及的次数;nT为类似特征T在存储数据库中被提及的次数;α、β、γ分别为特征A、特征B、特征T的概率;N为所有类似特征被提及的次数;i=1,2,…nA;j=1,2,…nB;k=1,2,…nT;X为类似特征的概率均值;
步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:
其中,KB为玻尔兹曼常数;S为类似特征概率系统的熵;
当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;
步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。
上述技术方案的有益效果为:本实施例通过提取若干个特征,并根据每个特征查找相类似的特征,将所有类似特征进行概率的均值计算,通过计算获得概率均值,再根据概率均值与哪个相类似的特征的概率值接近,则判定为该数据的特征分属于该类似特征。通过采用概率均值进行判定,参考历史数据中某一数据分属某个类别特征时的概率,概率接近的认定为同类的特征。通过概率计算的方式可保证类别特征划分的可靠性,进而,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。
实施例6:
本实施例提供基于ETL技术的时空大数据人工智能分析系统,图3为本发明实施例中基于ETL技术的时空大数据人工智能分析系统的结构示意图,请参照图3,该系统包括:
采集模块301,用于采集数据;
分析模块302,用于将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;
输出模块303,用于将所述分析结果输出;
记录模块304,用于将所述分析结果记录在所述数据分析模型的存储数据库中;
所述数据分析模型的构建方式如下:
确定数据分析模型的需求参数;
根据所述需求参数,从若干个源数据库中获得源数据;
对所述源数据采用ETL技术处理,获得目标数据;
将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。
上述技术方案的有益效果为:不同数据库中的数据由于没有统一的标准,给数据库的建立带来了麻烦。ETL工具作为数据提取,转换和加载的工具,能够为数据仓库的建立提供高质量的可靠数据,是数据仓库的重要组成部分,本实施例提供的方法能够建立统一的、完整的、高质量的数据库及数据分析模型。
实施例7:
在实施例6的基础上,所述确定数据分析模型的需求参数之后,还包括:
根据所述需求参数进行需求分类;
相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:
在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;
相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:
对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;
相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:
将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。
上述技术方案的有益效果为:通过根据需求参数进行需求分类,相应的,在存储数据库中记录的是分类过的数据,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。
实施例8:
在实施例7的基础上,所述为每个类别设定对应的标记之后,还包括:
为所述标记设置索引;
将所述标记及索引按照类别记录在所述存储数据库中;
根据所述标记及索引以及存储数据库中的数据构建数据分析模型。
上述技术方案的有益效果为:通过设置索引,为数据查找及分析提供更快速的通道,方便数据的搜索及分析应用,提高数据处理的效率及准确性。
实施例9:
在实施例8的基础上,还包括:
类别特征获取模块,用于所述采集数据之后,对所述数据进行预处理,获得所述数据的类别特征;
相应的,所述分析模块包括:
索引目标确定子模块,用于根据所述类别特征获取模块获得的所述类别特征确定索引目标;
结果子模块,用于通过所述数据分析模型对数据进行分析,获得分析结果;
位置确定子模块,用于根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;
存储子模块,用于在相应的位置的存储数据库中存储所述数据及数据分析结果。
上述技术方案的有益效果为:通过对所述数据进行预处理,确定所述数据的类别特征,根据该类别特征进行相应索引,并根据索引结果确定出数据的分析结果,在根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置,并将该位置记录于存储数据库中。通过本实施例可以方便数据的搜索及分析应用,提高数据处理的效率及准确性。
实施例10:
在实施例9的基础上,所述对所述数据进行预处理,获得所述数据的类别特征,包括:
步骤A1:提取所述数据的若干个特征;
步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;
步骤A3:确定若干个类似特征的概率均值:
N=nA+nB+…nT
其中,nA为类似特征A在存储数据库中被提及的次数;nB为类似特征B在存储数据库中被提及的次数;nT为类似特征T在存储数据库中被提及的次数;α、β、γ分别为特征A、特征B、特征T的概率;N为所有类似特征被提及的次数;i=1,2,…nA;j=1,2,…nB;k=1,2,…nT;X为类似特征的概率均值;
步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:
其中,KB为玻尔兹曼常数;S为类似特征概率系统的熵;
当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;
步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。
上述技术方案的有益效果为:本实施例通过提取若干个特征,并根据每个特征查找相类似的特征,将所有类似特征进行概率的均值计算,通过计算获得概率均值,再根据概率均值与哪个相类似的特征的概率值接近,则判定为该数据的特征分属于该类似特征。通过采用概率均值进行判定,参考历史数据中某一数据分属某个类别特征时的概率,概率接近的认定为同类的特征。通过概率计算的方式可保证类别特征划分的可靠性,进而,通过分类将不同类型的需求进行分块划分,提高数据搜索及数据查询分析的效率和准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.基于ETL技术的时空大数据人工智能分析方法,其特征在于,包括:
采集数据;
将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;
将所述分析结果输出;
将所述分析结果记录在所述数据分析模型的存储数据库中;
所述数据分析模型的构建方式如下:
确定数据分析模型的需求参数;
根据所述需求参数,从若干个源数据库中获得源数据;
对所述源数据采用ETL技术处理,获得目标数据;
将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。
2.根据权利要求1所述的基于ETL技术的时空大数据人工智能分析方法,其特征在于,所述确定数据分析模型的需求参数之后,执行以下步骤:
根据所述需求参数进行需求分类;
相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:
在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;
相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:
对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;
相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:
将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。
3.根据权利要求2所述的基于ETL技术的时空大数据人工智能分析方法,其特征在于,所述为每个类别设定对应的标记之后,执行以下步骤:
为所述标记设置索引;
将所述标记及索引按照类别记录在所述存储数据库中;
根据所述标记及索引以及存储数据库中的数据构建数据分析模型。
4.根据权利要求3所述的基于ETL技术的时空大数据人工智能分析方法,其特征在于,所述采集数据之后,执行以下步骤:
对所述数据进行预处理,获得所述数据的类别特征;
相应的,所述将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果,包括:
根据所述类别特征确定索引目标;
通过所述数据分析模型对数据进行分析,获得分析结果;
根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;
在相应的位置的存储数据库中存储所述数据及数据分析结果。
5.根据权利要求4所述的基于ETL技术的时空大数据人工智能分析方法,其特征在于,所述对所述数据进行预处理,获得所述数据的类别特征,包括:
步骤A1:提取所述数据的若干个特征;
步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;
步骤A3:确定若干个类似特征的概率均值:
N=nA+nB+…nT
其中,nA为类似特征A在存储数据库中被提及的次数;nB为类似特征B在存储数据库中被提及的次数;nT为类似特征T在存储数据库中被提及的次数;α、β、γ分别为特征A、特征B、特征T的概率;N为所有类似特征被提及的次数;i=1,2,...nA;j=1,2,...nB;k=1,2,...nT;X为类似特征的概率均值;
步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:
其中,KB为玻尔兹曼常数;S为类似特征概率系统的熵;
当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;
步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。
6.基于ETL技术的时空大数据人工智能分析系统,其特征在于,包括:
采集模块,用于采集数据;
分析模块,用于将采集到的数据传输至数据分析模型,通过所述数据分析模型对数据进行分析,获得分析结果;
输出模块,用于将所述分析结果输出;
记录模块,用于将所述分析结果记录在所述数据分析模型的存储数据库中;
所述数据分析模型的构建方式如下:
确定数据分析模型的需求参数;
根据所述需求参数,从若干个源数据库中获得源数据;
对所述源数据采用ETL技术处理,获得目标数据;
将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型。
7.根据权利要求6所述的基于ETL技术的时空大数据人工智能分析系统,其特征在于,所述确定数据分析模型的需求参数之后,还包括:
根据所述需求参数进行需求分类;
相应的,所述根据所述需求参数,从若干个源数据库中获得源数据,包括:
在所述需求参数分属的类中,对应有相应的源数据库,从相应的若干个源数据库中获得源数据;
相应的,所述对所述源数据采用ETL技术处理,获得目标数据,包括:
对所述源数据采用ETL技术处理,获得目标数据,根据需求参数分属的类,对应将获得的目标数据分属相应的类中;
相应的,所述将所述目标数据按照预设方式记录在存储数据库中,根据所述存储数据库中的数据构建数据分析模型,包括:
将所述分属为相应的类的目标数据按照类别记录在存储数据库中,且为每个类别设定对应的标记,根据包含有类别标记的存储数据库中的数据构建具有类别属性的数据分析模型。
8.根据权利要求7所述的基于ETL技术的时空大数据人工智能分析系统,其特征在于,所述为每个类别设定对应的标记之后,还包括:
为所述标记设置索引;
将所述标记及索引按照类别记录在所述存储数据库中;
根据所述标记及索引以及存储数据库中的数据构建数据分析模型。
9.根据权利要求8所述的基于ETL技术的时空大数据人工智能分析系统,其特征在于,还包括:
类别特征获取模块,用于采集数据之后,对所述数据进行预处理,获得所述数据的类别特征;
相应的,所述分析模块包括:
索引目标确定子模块,用于根据所述类别特征获取模块获得的所述类别特征确定索引目标;
结果子模块,用于通过所述数据分析模型对数据进行分析,获得分析结果;
位置确定子模块,用于根据所述索引目标对应的标记,确定所述数据在所述数据分析模型中的存储数据库中位置;
存储子模块,用于在相应的位置的存储数据库中存储所述数据及数据分析结果。
10.根据权利要求9所述的基于ETL技术的时空大数据人工智能分析系统,其特征在于,所述对所述数据进行预处理,获得所述数据的类别特征,包括:
步骤A1:提取所述数据的若干个特征;
步骤A2:为所述若干个特征在存储数据库中匹配相应的类似特征;
步骤A3:确定若干个类似特征的概率均值:
N=nA+nB+…nT
其中,nA为类似特征A在存储数据库中被提及的次数;nB为类似特征B在存储数据库中被提及的次数;nT为类似特征T在存储数据库中被提及的次数;α、β、γ分别为特征A、特征B、特征T的概率;N为所有类似特征被提及的次数;i=1,2,...nA;j=1,2,...nB;k=1,2,...nT;X为类似特征的概率均值;
步骤A4:利用下述玻尔兹曼公式,判断匹配的类似特征是否具有平衡性:
其中,KB为玻尔兹曼常数;S为类似特征概率系统的熵;
当S小于预设阈值时,判定匹配的类似特征不具平衡性,重新匹配类似特征,即执行步骤A2至步骤A4;当S超过预设阈值则执行步骤A5;
步骤A5:判断所述概率均值与每个相似特征的概率值最接近,将最接近的类似特征设定为所述数据的类别特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110146131.0A CN112783962B (zh) | 2021-02-01 | 2021-02-01 | 基于etl技术的时空大数据人工智能分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110146131.0A CN112783962B (zh) | 2021-02-01 | 2021-02-01 | 基于etl技术的时空大数据人工智能分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112783962A true CN112783962A (zh) | 2021-05-11 |
CN112783962B CN112783962B (zh) | 2021-12-28 |
Family
ID=75760635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110146131.0A Active CN112783962B (zh) | 2021-02-01 | 2021-02-01 | 基于etl技术的时空大数据人工智能分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112783962B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505163A (zh) * | 2021-09-10 | 2021-10-15 | 成都明途科技有限公司 | 基于大数据挖掘的组织目标分析方法、系统、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894006A (zh) * | 2014-12-02 | 2016-08-24 | 北京师范大学 | 时空概率模型水稻遥感识别方法 |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
US20180285439A1 (en) * | 2017-03-28 | 2018-10-04 | Shanghai Kyligence Information Technology Co., Ltd | Olap pre-calculation model, automatic modeling method, and automatic modeling system |
CN110109987A (zh) * | 2018-04-03 | 2019-08-09 | 中建材信息技术股份有限公司 | 一种敏捷数据仓库架构及其构建方法和应用 |
-
2021
- 2021-02-01 CN CN202110146131.0A patent/CN112783962B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894006A (zh) * | 2014-12-02 | 2016-08-24 | 北京师范大学 | 时空概率模型水稻遥感识别方法 |
CN105956015A (zh) * | 2016-04-22 | 2016-09-21 | 四川中软科技有限公司 | 一种基于大数据的服务平台整合方法 |
US20180285439A1 (en) * | 2017-03-28 | 2018-10-04 | Shanghai Kyligence Information Technology Co., Ltd | Olap pre-calculation model, automatic modeling method, and automatic modeling system |
CN110109987A (zh) * | 2018-04-03 | 2019-08-09 | 中建材信息技术股份有限公司 | 一种敏捷数据仓库架构及其构建方法和应用 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505163A (zh) * | 2021-09-10 | 2021-10-15 | 成都明途科技有限公司 | 基于大数据挖掘的组织目标分析方法、系统、存储介质 |
CN113505163B (zh) * | 2021-09-10 | 2021-12-14 | 成都明途科技有限公司 | 基于大数据挖掘的组织目标分析方法、系统、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112783962B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599709B2 (en) | Object recognition device, object recognition method, and program for recognizing an object in an image based on tag information | |
US8799772B2 (en) | System and method for gathering, indexing, and supplying publicly available data charts | |
CN101315631B (zh) | 一种新闻视频故事单元关联方法 | |
KR20090065130A (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
CN102693299A (zh) | 一种并行视频拷贝检测系统和方法 | |
CN109408578A (zh) | 一种针对异构环境监测数据融合方法 | |
CN114625820A (zh) | 一种面向人工智能遥感影像解译的样本库系统及组织方法 | |
CN103970842A (zh) | 一种面向防洪减灾领域的水利大数据存取系统及方法 | |
CN111125086A (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN112783962B (zh) | 基于etl技术的时空大数据人工智能分析方法及系统 | |
CN102508901A (zh) | 基于内容的海量图像检索方法和系统 | |
CN116049454A (zh) | 一种基于多源异构数据的智能搜索方法及系统 | |
CN111581482B (zh) | 一种基于seo数据多维度关联的数据共享和分析方法及系统 | |
CN109710814B (zh) | 一种多源遥感数据归档处理方法及装置 | |
CN115374300B (zh) | 一种用于海上风电设备的多源异构数据存储方法及系统 | |
CN112182276A (zh) | 基于图像内容和元数据的天文海量观测数据混合检索方法 | |
CN116340390A (zh) | 一种针对多维快速射电暴数据的知识库系统、装置及存储介质 | |
CN106528644A (zh) | 一种遥感数据的检索方法及装置 | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN110502660B (zh) | 一种弱监督下的多距离度量图像检索方法 | |
CN113032504A (zh) | 村镇社区公共服务时空数据汇聚方法及装置 | |
CN113190663A (zh) | 应用于水利场景的智能交互方法、装置、存储介质及计算机设备 | |
CN111815108A (zh) | 一种电网工程设计变更与现场签证审批单的评价方法 | |
CN116069976B (zh) | 一种区域视频分析方法及系统 | |
CN116150422A (zh) | 海量图形图像智能识别检索系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231113 Address after: Room 1801, Service Building, 1188 Century Avenue, Yancheng City, Jiangsu Province, 224006 (D) Patentee after: Yancheng Enwei Intelligent Technology Co.,Ltd. Address before: 224000 Room 301, building 1, Jinhang Fortune Building, 988 Luming Road, Yandu District, Yancheng City, Jiangsu Province (E) Patentee before: Yancheng Zhilian Space Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |