CN113392104A

CN113392104A - 一种基于cim的海量数据分析方法及系统

Info

Publication number: CN113392104A
Application number: CN202110545709.XA
Authority: CN
Inventors: 季顺海
Original assignee: Jiangsu Xingyue Surveying And Mapping Technology Co ltd
Current assignee: Jiangsu Xingyue Surveying And Mapping Technology Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-09-14
Anticipated expiration: 2041-05-19
Also published as: CN113392104B

Abstract

本发明提供一种基于CIM的海量数据分析方法及系统，其中方法包括：构建对应CIM的数据筛选库，基于数据筛选库对海量数据进行筛选，获取待处理数据；对待处理数据进行归类分组，获得多个分组数据；将各个分组数据输入至对应的预设的识别分析模型中进行识别分析，确定CIM中的参数。本发明的基于CIM的海量数据分析方法，以实现从海量数据中提取CIM所需的数据，并基于该数据确定CIM中的参数，实现CIM的实时更新。

Description

一种基于CIM的海量数据分析方法及系统

技术领域

本发明涉及数据分析技术领域，特别涉及一种基于CIM的海量数据分析方法及系统。

背景技术

目前，CIM(城市信息模型)是以建筑信息模型(BIM)、地理信息系统(GIS)、物联网(IoT)等技术为基础，整合城市地上地下、室内室外、历史现状未来多维多尺度信息模型数据和城市感知数据，构建起三维数字空间的城市信息有机综合体。每时每刻城市中产生的数据都是海量的，如何对海量数据进行分析获得CIM所需要的数据是亟需解决的技术问题。

发明内容

本发明目的之一在于提供了一种基于CIM的海量数据分析方法，以实现从海量数据中提取CIM所需的数据，并基于该数据确定CIM中的参数，实现CIM的实时更新。

本发明实施例提供的一种基于CIM的海量数据分析方法，包括：

构建对应CIM的数据筛选库，基于数据筛选库对海量数据进行筛选，获取待处理数据；

对待处理数据进行归类分组，获得多个分组数据；

将各个分组数据输入至对应的预设的识别分析模型中进行识别分析，确定CIM中的参数。

优选的，构建对应CIM的数据筛选库，包括：

获取CIM的历史的输入数据；

对输入数据进行归类，获取多个数据筛选组；

对数据筛选组中的输入数据进行特征提取，获得多个特征值；

基于提取的特征值确定数据筛选组的筛选关键特征。

优选的，基于提取的特征值确定数据筛选组的筛选关键特征，包括：

提取数据筛选组中输入数据的特征值的值都相同的特征值，作为筛选关键特征中的第一类筛选项，并赋予第一权重；

提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值，作为筛选关键特征中的第二类筛选项，并赋予第二权重；

提取数据筛选组中输入数据的特征值的值不相同且差值超出预设的阈值范围内的特征值，作为筛选关键特征中的第三类筛选项，并赋予第三权重；

其中，第一权重大于第二权重和第三权重；第二权重大于第三权重。

优选的，基于数据筛选库对海量数据进行筛选，获取待处理数据；包括：

对海量数据中的待筛选数据进行特征，获取特征矩阵；

基于特征矩阵分别与筛选关键特征中的第一类筛选项、第二类筛选项和第三类筛选项进行匹配，确定多个第一匹配度、多个第二匹配度、多个第三匹配度；

基于第一匹配数目、第二匹配数目、第三匹配数目、第一权重、第二权重和第三权重，确定匹配值，计算公式如下：

其中，P为匹配值；M_1i为特征矩阵与第一类筛选项中第i个筛选数据的第一匹配度；M_2j为特征矩阵与第二类筛选项中第j个筛选数据的第二匹配度；M_3k为特征矩阵与第三类筛选项中第k个筛选数据的第三匹配度；α₁、α₂、α₃分别为第一权重、第二权重、第三权重；n为第一类筛选项中的数据总数；m为第二类筛选项中的数据总数；N为第三类筛选项中的数据总数；

当匹配值大于预设的匹配阈值时，将待筛选数据作为待处理数据。

优选的，对待处理数据进行归类分组，获得多个分组数据；包括：

获取预设的分组关键词表，

基于分组关键词表对待处理数据进行归类分组；

基于CIM的海量数据分析方法，还包括：

将经过归类分组未能确定其归属的待处理数据存储至待归类数据库；

当待归类数据库中的数据量大于预设的数据阈值时，计算待归类数据库中两两待处理数据的相似度，相似度计算公式如下：

其中，D_x,y为待归类数据库中第x个待处理数据和第y个待处理数据之间的相似度；x_l为第x个待处理数据经过特征提取后的第l个特征值；y_l为第y个待处理数据经过特征提取后的第l个特征值；L为待处理数据经过特征提取后提取的特征值的总数；p为预设常数；

基于相似度对待归类数据库中的待处理数据进行分组，各个分组中的待处理数据之间的相似度大于预设的分组阈值；

确定各个分组中的待处理数据的数量，当各个分组中的待处理数据的数量大于验证阈值时，将该分组的待处理数据进行打包为验证包，并将验证包发送至多个验证终端；

接收验证终端的反馈信息；

解析反馈信息，确定验证包的处理方案；

当处理方案为进行分组时，确定验证包对应的分组类别及分组关键词；

并将该分组类别及分组关键词添加进分组关键词表；

当处理方案为剔除时，基于验证包构建剔除数据库，在应用数据筛选库对海量数据进行筛选后，采用剔除数据库对待处理数据进行剔除。

优选的，解析反馈信息，确定验证包的处理方案，包括：

解析反馈信息，确定处理方案的个数；

当处理方案的个数不为一时，确定各个处理方案的可信度，可信度计算公式如下：

其中，KS为可信度；δ_d为预设的支持处理方案的验证终端的置信值；ε_d为预设的支持处理方案的验证终端的预设权重；D为支持处理方案的验证终端的总数；

将可信度最大的处理方案作为验证包的处理方案。

本发明还提供一种基于CIM的海量数据分析系统，包括：

筛选模块，用于构建对应CIM的数据筛选库，基于数据筛选库对海量数据进行筛选，获取待处理数据；

分组模块，用于对待处理数据进行归类分组，获得多个分组数据；

确定模块，用于将各个分组数据输入至对应的预设的识别分析模型中进行识别分析，确定CIM中的参数。

优选的，筛选模块执行如下操作：

获取CIM的历史的输入数据；

对输入数据进行归类，获取多个数据筛选组；

基于提取的特征值确定数据筛选组的筛选关键特征。

优选的，筛选模块还执行如下操作：

对海量数据中的待筛选数据进行特征，获取特征矩阵；

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于CIM的海量数据分析方法的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于CIM的海量数据分析方法，如图1所示，包括：

步骤S1：构建对应CIM的数据筛选库，基于数据筛选库对海量数据进行筛选，获取待处理数据；

步骤S2：对待处理数据进行归类分组，获得多个分组数据；

步骤S3：将各个分组数据输入至对应的预设的识别分析模型中进行识别分析，确定CIM中的参数。

上述技术方案的工作原理及有益效果为：

事先根据CIM更新的所需数据的特征构建数据筛选库，其中，特征包括：数据构成、类型、结构、数据长度等，将海量数据中的不符合所需数据进行筛选剔除；将筛选的数据进行归类分组，主要根据CIM更新数据的数据项进行分组，分组后通过预设的识别分析模型进行数据分析识别，确定对应的参数的值；基于确定的参数的值，实现CIM中数据的更新。识别分析模型为事先设置，例如温度传感器的数据采用温度传感器对应的数据识别分析模型，压力传感器的数据采用压力传感器对应的数据识别分析模型；归类分组最总的目的是确定数据该使用哪个数据识别分析模型进行识别，防止数据识别分析的错误的发生。数据筛选库的构建可以采用人工构建的方式，即通过可视化界面设置数据各个方面的参数范围。

本发明的基于CIM的海量数据分析方法，以实现从海量数据中提取CIM所需的数据，并基于该数据确定CIM中的参数，实现CIM的实时更新。

在一个实施例中，构建对应CIM的数据筛选库，包括：

获取CIM的历史的输入数据；

对输入数据进行归类，获取多个数据筛选组；

基于提取的特征值确定数据筛选组的筛选关键特征。

上述技术方案的工作原理及有益效果为：

构建数据筛选库，也可以从用户输入CIM的历史的输入数据出发，进行分析，确定筛选组和筛选关键特征；当接收到的海量数据中存在筛选关键特征相关的数据时，提取该数据，以此来对海量数据进行筛选。

在一个实施例中，基于提取的特征值确定数据筛选组的筛选关键特征，包括：

上述技术方案的工作原理及有益效果为：

通过将筛选关键特征进行分类分级进行权重赋予，确定各个类别的筛选项具有不同的效用，以保证在筛选时筛选的准确性。第二类筛选项中的筛选标准值为数据筛选组对应的特征值的均值；提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值，其中，差值为最大值与最小值之差。第三类筛选项中的筛选标准值为数据筛选组各个数据的对应的特征值的均值。此外，一个数据筛选组就代表着一个筛选规则。

在一个实施例中，基于数据筛选库对海量数据进行筛选，获取待处理数据；包括：

对海量数据中的待筛选数据进行特征，获取特征矩阵；

其中，P为匹配值；M_1i为特征矩阵与第一类筛选项中第i个筛选数据的第一匹配度；M_2i为特征矩阵与第二类筛选项中第j个筛选数据的第二匹配度；M_3k为特征矩阵与第三类筛选项中第k个筛选数据的第三匹配度；α₁、α₂、α₃分别为第一权重、第二权重、第三权重；n为第一类筛选项中的数据总数；m为第二类筛选项中的数据总数；N为第三类筛选项中的数据总数；

上述技术方案的工作原理及有益效果为：

通过待筛选数据提取后的特征值与筛选规则进行匹配，通过将筛选规则对应的筛选关键特征进行分类分级进行权重赋予，各个类别的筛选项具有不同的效用，以保证在筛选时筛选的准确性。只要待筛选数据与任意一个筛选规则的匹配值大于匹配阈值，就可以将该待筛选数据作为待处理数据。

在一个实施例中，对待处理数据进行归类分组，获得多个分组数据；包括：

获取预设的分组关键词表，

基于分组关键词表对待处理数据进行归类分组；

基于CIM的海量数据分析方法，还包括：

接收验证终端的反馈信息；

解析反馈信息，确定验证包的处理方案；

并将该分组类别及分组关键词添加进分组关键词表；

上述技术方案的工作原理及有益效果为：

基于预设的分组关键词表对数据进行分组；通过对数据进行关键词提取，然后查询分组关键词表，实现对数据的分组；能快速高效地是实现数据的分组分类；此外，当存在数据通过上述方法未能实现分组分类时，将数据暂存；当数据量满足一定条件时，打包分发给与系统连接的多个验证终端进行验证，可以采用人工验证或人工智能验证的方式实现；通过验证终端发来的处理方案，对暂存的数据进行处理；并适应性地改变筛选步骤及分组关键词表；以实现再次遇到类似数据时，系统能够自行处理；提高了系统的适应性及智能化。

在一个实施例中，解析反馈信息，确定验证包的处理方案，包括：

解析反馈信息，确定处理方案的个数；

将可信度最大的处理方案作为验证包的处理方案。

上述技术方案的工作原理及有益效果为：

当处理方案为多个且不同时，通过验证终端的置信值及预设权重，实现合理挑选处理方案，以获取数据处理的最优方案。

本发明还提供一种基于CIM的海量数据分析系统，包括：

上述技术方案的工作原理及有益效果为：

本发明的基于CIM的海量数据分析系统，以实现从海量数据中提取CIM所需的数据，并基于该数据确定CIM中的参数，实现CIM的实时更新。

在一个实施例中，筛选模块执行如下操作：

获取CIM的历史的输入数据；

对输入数据进行归类，获取多个数据筛选组；

基于提取的特征值确定数据筛选组的筛选关键特征。

上述技术方案的工作原理及有益效果为：

在一个实施例中，筛选模块还执行如下操作：

对海量数据中的待筛选数据进行特征，获取特征矩阵；

上述技术方案的工作原理及有益效果为：

在一个实施例中，分组模块执行如下操作：

获取预设的分组关键词表，

基于分组关键词表对待处理数据进行归类分组；

基于CIM的海量数据分析系统，还包括：应急处理模块，

应急处理模块执行如下操作：

接收验证终端的反馈信息；

解析反馈信息，确定验证包的处理方案；

并将该分组类别及分组关键词添加进分组关键词表；

上述技术方案的工作原理及有益效果为：

解析反馈信息，确定处理方案的个数；

将可信度最大的处理方案作为验证包的处理方案。

上述技术方案的工作原理及有益效果为：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于CIM的海量数据分析方法，其特征在于，包括：

构建对应CIM的数据筛选库，基于所述数据筛选库对海量数据进行筛选，获取待处理数据；

对所述待处理数据进行归类分组，获得多个分组数据；

2.如权利要求1所述的基于CIM的海量数据分析方法，其特征在于，所述构建对应CIM的数据筛选库，包括：

获取CIM的历史的输入数据；

对所述输入数据进行归类，获取多个数据筛选组；

对所述数据筛选组中的所述输入数据进行特征提取，获得多个特征值；

基于提取的所述特征值确定所述数据筛选组的筛选关键特征。

3.如权利要求2所述的基于CIM的海量数据分析方法，其特征在于，所述基于提取的所述特征值确定所述数据筛选组的筛选关键特征，包括：

提取所述数据筛选组中所述输入数据的所述特征值的值都相同的所述特征值，作为所述筛选关键特征中的第一类筛选项，并赋予第一权重；

提取所述数据筛选组中所述输入数据的所述特征值的值不相同但是差值在预设的阈值范围内的所述特征值，作为所述筛选关键特征中的第二类筛选项，并赋予第二权重；

提取所述数据筛选组中所述输入数据的所述特征值的值不相同且差值超出预设的阈值范围内的所述特征值，作为所述筛选关键特征中的第三类筛选项，并赋予第三权重；

其中，所述第一权重大于所述第二权重和所述第三权重；所述第二权重大于所述第三权重。

4.如权利要求3所述的基于CIM的海量数据分析方法，其特征在于，所述基于所述数据筛选库对海量数据进行筛选，获取待处理数据；包括：

对所述海量数据中的待筛选数据进行特征，获取特征矩阵；

基于所述特征矩阵分别与所述筛选关键特征中的第一类筛选项、所述第二类筛选项和所述第三类筛选项进行匹配，确定多个第一匹配度、多个第二匹配度、多个第三匹配度；

基于第一匹配数目、第二匹配数目、第三匹配数目、所述第一权重、所述第二权重和所述第三权重，确定匹配值，计算公式如下：

其中，P为所述匹配值；M_1i为所述特征矩阵与所述第一类筛选项中第i个筛选数据的所述第一匹配度；M_2j为所述特征矩阵与所述第二类筛选项中第j个筛选数据的所述第二匹配度；M_3k为所述特征矩阵与所述第三类筛选项中第k个筛选数据的所述第三匹配度；α₁、α₂、α₃分别为所述第一权重、所述第二权重、所述第三权重；n为所述第一类筛选项中的数据总数；m为所述第二类筛选项中的数据总数；N为所述第三类筛选项中的数据总数；

当所述匹配值大于预设的匹配阈值时，将所述待筛选数据作为所述待处理数据。

5.如权利要求1所述的基于CIM的海量数据分析方法，其特征在于，所述对所述待处理数据进行归类分组，获得多个分组数据；包括：

获取预设的分组关键词表，

基于所述分组关键词表对所述待处理数据进行归类分组；

所述基于CIM的海量数据分析方法，还包括：

将经过归类分组未能确定其归属的所述待处理数据存储至待归类数据库；

当所述待归类数据库中的数据量大于预设的数据阈值时，计算所述待归类数据库中两两所述待处理数据的相似度，相似度计算公式如下：

其中，D_x,y为所述待归类数据库中第x个所述待处理数据和第y个所述待处理数据之间的相似度；x_l为所述第x个所述待处理数据经过特征提取后的第l个特征值；y_l为所述第y个所述待处理数据经过特征提取后的第l个特征值；L为所述待处理数据经过特征提取后提取的特征值的总数；p为预设常数；

基于所述相似度对所述待归类数据库中的所述待处理数据进行分组，各个分组中的所述待处理数据之间的相似度大于预设的分组阈值；

确定各个分组中的待处理数据的数量，当各个分组中的待处理数据的数量大于验证阈值时，将该分组的待处理数据进行打包为验证包，并将所述验证包发送至多个验证终端；

接收所述验证终端的反馈信息；

解析所述反馈信息，确定验证包的处理方案；

当所述处理方案为进行分组时，确定所述验证包对应的分组类别及分组关键词；

并将该分组类别及分组关键词添加进所述分组关键词表；

当所述处理方案为剔除时，基于所述验证包构建剔除数据库，在应用所述数据筛选库对海量数据进行筛选后，采用剔除数据库对所述待处理数据进行剔除。

6.如权利要求5所述的基于CIM的海量数据分析方法，其特征在于，所述解析所述反馈信息，确定验证包的处理方案，包括：

解析所述反馈信息，确定处理方案的个数；

当所述处理方案的个数不为一时，确定各个处理方案的可信度，所述可信度计算公式如下：

其中，KS为所述可信度；δ_d为预设的支持所述处理方案的验证终端的置信值；ε_d为预设的支持所述处理方案的验证终端的预设权重；D为支持所述处理方案的所述验证终端的总数；

将所述可信度最大的所述处理方案作为所述验证包的处理方案。

7.一种基于CIM的海量数据分析系统，其特征在于，包括：

筛选模块，用于构建对应CIM的数据筛选库，基于所述数据筛选库对海量数据进行筛选，获取待处理数据；

分组模块，用于对所述待处理数据进行归类分组，获得多个分组数据；

8.如权利要求7所述的基于CIM的海量数据分析系统，其特征在于，所述筛选模块执行如下操作：

获取CIM的历史的输入数据；

对所述输入数据进行归类，获取多个数据筛选组；

9.如权利要求8所述的基于CIM的海量数据分析系统，其特征在于，所述基于提取的所述特征值确定所述数据筛选组的筛选关键特征，包括：

10.如权利要求9所述的基于CIM的海量数据分析系统，其特征在于，所述筛选模块还执行如下操作：

对所述海量数据中的待筛选数据进行特征，获取特征矩阵；