CN113392104A - 一种基于cim的海量数据分析方法及系统 - Google Patents

一种基于cim的海量数据分析方法及系统 Download PDF

Info

Publication number
CN113392104A
CN113392104A CN202110545709.XA CN202110545709A CN113392104A CN 113392104 A CN113392104 A CN 113392104A CN 202110545709 A CN202110545709 A CN 202110545709A CN 113392104 A CN113392104 A CN 113392104A
Authority
CN
China
Prior art keywords
data
screening
weight
processed
cim
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110545709.XA
Other languages
English (en)
Other versions
CN113392104B (zh
Inventor
季顺海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Xingyue Surveying And Mapping Technology Co ltd
Original Assignee
Jiangsu Xingyue Surveying And Mapping Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Xingyue Surveying And Mapping Technology Co ltd filed Critical Jiangsu Xingyue Surveying And Mapping Technology Co ltd
Priority to CN202110545709.XA priority Critical patent/CN113392104B/zh
Publication of CN113392104A publication Critical patent/CN113392104A/zh
Application granted granted Critical
Publication of CN113392104B publication Critical patent/CN113392104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明提供一种基于CIM的海量数据分析方法及系统,其中方法包括:构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;对待处理数据进行归类分组,获得多个分组数据;将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。本发明的基于CIM的海量数据分析方法,以实现从海量数据中提取CIM所需的数据,并基于该数据确定CIM中的参数,实现CIM的实时更新。

Description

一种基于CIM的海量数据分析方法及系统
技术领域
本发明涉及数据分析技术领域,特别涉及一种基于CIM的海量数据分析方法及系统。
背景技术
目前,CIM(城市信息模型)是以建筑信息模型(BIM)、地理信息系统(GIS)、物联网(IoT)等技术为基础,整合城市地上地下、室内室外、历史现状未来多维多尺度信息模型数据和城市感知数据,构建起三维数字空间的城市信息有机综合体。每时每刻城市中产生的数据都是海量的,如何对海量数据进行分析获得CIM所需要的数据是亟需解决的技术问题。
发明内容
本发明目的之一在于提供了一种基于CIM的海量数据分析方法,以实现从海量数据中提取CIM所需的数据,并基于该数据确定CIM中的参数,实现CIM的实时更新。
本发明实施例提供的一种基于CIM的海量数据分析方法,包括:
构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;
对待处理数据进行归类分组,获得多个分组数据;
将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
优选的,构建对应CIM的数据筛选库,包括:
获取CIM的历史的输入数据;
对输入数据进行归类,获取多个数据筛选组;
对数据筛选组中的输入数据进行特征提取,获得多个特征值;
基于提取的特征值确定数据筛选组的筛选关键特征。
优选的,基于提取的特征值确定数据筛选组的筛选关键特征,包括:
提取数据筛选组中输入数据的特征值的值都相同的特征值,作为筛选关键特征中的第一类筛选项,并赋予第一权重;
提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,作为筛选关键特征中的第二类筛选项,并赋予第二权重;
提取数据筛选组中输入数据的特征值的值不相同且差值超出预设的阈值范围内的特征值,作为筛选关键特征中的第三类筛选项,并赋予第三权重;
其中,第一权重大于第二权重和第三权重;第二权重大于第三权重。
优选的,基于数据筛选库对海量数据进行筛选,获取待处理数据;包括:
对海量数据中的待筛选数据进行特征,获取特征矩阵;
基于特征矩阵分别与筛选关键特征中的第一类筛选项、第二类筛选项和第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;
基于第一匹配数目、第二匹配数目、第三匹配数目、第一权重、第二权重和第三权重,确定匹配值,计算公式如下:
Figure BDA0003073557240000021
其中,P为匹配值;M1i为特征矩阵与第一类筛选项中第i个筛选数据的第一匹配度;M2j为特征矩阵与第二类筛选项中第j个筛选数据的第二匹配度;M3k为特征矩阵与第三类筛选项中第k个筛选数据的第三匹配度;α1、α2、α3分别为第一权重、第二权重、第三权重;n为第一类筛选项中的数据总数;m为第二类筛选项中的数据总数;N为第三类筛选项中的数据总数;
当匹配值大于预设的匹配阈值时,将待筛选数据作为待处理数据。
优选的,对待处理数据进行归类分组,获得多个分组数据;包括:
获取预设的分组关键词表,
基于分组关键词表对待处理数据进行归类分组;
基于CIM的海量数据分析方法,还包括:
将经过归类分组未能确定其归属的待处理数据存储至待归类数据库;
当待归类数据库中的数据量大于预设的数据阈值时,计算待归类数据库中两两待处理数据的相似度,相似度计算公式如下:
Figure BDA0003073557240000031
其中,Dx,y为待归类数据库中第x个待处理数据和第y个待处理数据之间的相似度;xl为第x个待处理数据经过特征提取后的第l个特征值;yl为第y个待处理数据经过特征提取后的第l个特征值;L为待处理数据经过特征提取后提取的特征值的总数;p为预设常数;
基于相似度对待归类数据库中的待处理数据进行分组,各个分组中的待处理数据之间的相似度大于预设的分组阈值;
确定各个分组中的待处理数据的数量,当各个分组中的待处理数据的数量大于验证阈值时,将该分组的待处理数据进行打包为验证包,并将验证包发送至多个验证终端;
接收验证终端的反馈信息;
解析反馈信息,确定验证包的处理方案;
当处理方案为进行分组时,确定验证包对应的分组类别及分组关键词;
并将该分组类别及分组关键词添加进分组关键词表;
当处理方案为剔除时,基于验证包构建剔除数据库,在应用数据筛选库对海量数据进行筛选后,采用剔除数据库对待处理数据进行剔除。
优选的,解析反馈信息,确定验证包的处理方案,包括:
解析反馈信息,确定处理方案的个数;
当处理方案的个数不为一时,确定各个处理方案的可信度,可信度计算公式如下:
Figure BDA0003073557240000041
其中,KS为可信度;δd为预设的支持处理方案的验证终端的置信值;εd为预设的支持处理方案的验证终端的预设权重;D为支持处理方案的验证终端的总数;
将可信度最大的处理方案作为验证包的处理方案。
本发明还提供一种基于CIM的海量数据分析系统,包括:
筛选模块,用于构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;
分组模块,用于对待处理数据进行归类分组,获得多个分组数据;
确定模块,用于将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
优选的,筛选模块执行如下操作:
获取CIM的历史的输入数据;
对输入数据进行归类,获取多个数据筛选组;
对数据筛选组中的输入数据进行特征提取,获得多个特征值;
基于提取的特征值确定数据筛选组的筛选关键特征。
优选的,基于提取的特征值确定数据筛选组的筛选关键特征,包括:
提取数据筛选组中输入数据的特征值的值都相同的特征值,作为筛选关键特征中的第一类筛选项,并赋予第一权重;
提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,作为筛选关键特征中的第二类筛选项,并赋予第二权重;
提取数据筛选组中输入数据的特征值的值不相同且差值超出预设的阈值范围内的特征值,作为筛选关键特征中的第三类筛选项,并赋予第三权重;
其中,第一权重大于第二权重和第三权重;第二权重大于第三权重。
优选的,筛选模块还执行如下操作:
对海量数据中的待筛选数据进行特征,获取特征矩阵;
基于特征矩阵分别与筛选关键特征中的第一类筛选项、第二类筛选项和第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;
基于第一匹配数目、第二匹配数目、第三匹配数目、第一权重、第二权重和第三权重,确定匹配值,计算公式如下:
Figure BDA0003073557240000051
其中,P为匹配值;M1i为特征矩阵与第一类筛选项中第i个筛选数据的第一匹配度;M2j为特征矩阵与第二类筛选项中第j个筛选数据的第二匹配度;M3k为特征矩阵与第三类筛选项中第k个筛选数据的第三匹配度;α1、α2、α3分别为第一权重、第二权重、第三权重;n为第一类筛选项中的数据总数;m为第二类筛选项中的数据总数;N为第三类筛选项中的数据总数;
当匹配值大于预设的匹配阈值时,将待筛选数据作为待处理数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于CIM的海量数据分析方法的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于CIM的海量数据分析方法,如图1所示,包括:
步骤S1:构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;
步骤S2:对待处理数据进行归类分组,获得多个分组数据;
步骤S3:将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
上述技术方案的工作原理及有益效果为:
事先根据CIM更新的所需数据的特征构建数据筛选库,其中,特征包括:数据构成、类型、结构、数据长度等,将海量数据中的不符合所需数据进行筛选剔除;将筛选的数据进行归类分组,主要根据CIM更新数据的数据项进行分组,分组后通过预设的识别分析模型进行数据分析识别,确定对应的参数的值;基于确定的参数的值,实现CIM中数据的更新。识别分析模型为事先设置,例如温度传感器的数据采用温度传感器对应的数据识别分析模型,压力传感器的数据采用压力传感器对应的数据识别分析模型;归类分组最总的目的是确定数据该使用哪个数据识别分析模型进行识别,防止数据识别分析的错误的发生。数据筛选库的构建可以采用人工构建的方式,即通过可视化界面设置数据各个方面的参数范围。
本发明的基于CIM的海量数据分析方法,以实现从海量数据中提取CIM所需的数据,并基于该数据确定CIM中的参数,实现CIM的实时更新。
在一个实施例中,构建对应CIM的数据筛选库,包括:
获取CIM的历史的输入数据;
对输入数据进行归类,获取多个数据筛选组;
对数据筛选组中的输入数据进行特征提取,获得多个特征值;
基于提取的特征值确定数据筛选组的筛选关键特征。
上述技术方案的工作原理及有益效果为:
构建数据筛选库,也可以从用户输入CIM的历史的输入数据出发,进行分析,确定筛选组和筛选关键特征;当接收到的海量数据中存在筛选关键特征相关的数据时,提取该数据,以此来对海量数据进行筛选。
在一个实施例中,基于提取的特征值确定数据筛选组的筛选关键特征,包括:
提取数据筛选组中输入数据的特征值的值都相同的特征值,作为筛选关键特征中的第一类筛选项,并赋予第一权重;
提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,作为筛选关键特征中的第二类筛选项,并赋予第二权重;
提取数据筛选组中输入数据的特征值的值不相同且差值超出预设的阈值范围内的特征值,作为筛选关键特征中的第三类筛选项,并赋予第三权重;
其中,第一权重大于第二权重和第三权重;第二权重大于第三权重。
上述技术方案的工作原理及有益效果为:
通过将筛选关键特征进行分类分级进行权重赋予,确定各个类别的筛选项具有不同的效用,以保证在筛选时筛选的准确性。第二类筛选项中的筛选标准值为数据筛选组对应的特征值的均值;提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,其中,差值为最大值与最小值之差。第三类筛选项中的筛选标准值为数据筛选组各个数据的对应的特征值的均值。此外,一个数据筛选组就代表着一个筛选规则。
在一个实施例中,基于数据筛选库对海量数据进行筛选,获取待处理数据;包括:
对海量数据中的待筛选数据进行特征,获取特征矩阵;
基于特征矩阵分别与筛选关键特征中的第一类筛选项、第二类筛选项和第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;
基于第一匹配数目、第二匹配数目、第三匹配数目、第一权重、第二权重和第三权重,确定匹配值,计算公式如下:
Figure BDA0003073557240000082
其中,P为匹配值;M1i为特征矩阵与第一类筛选项中第i个筛选数据的第一匹配度;M2i为特征矩阵与第二类筛选项中第j个筛选数据的第二匹配度;M3k为特征矩阵与第三类筛选项中第k个筛选数据的第三匹配度;α1、α2、α3分别为第一权重、第二权重、第三权重;n为第一类筛选项中的数据总数;m为第二类筛选项中的数据总数;N为第三类筛选项中的数据总数;
当匹配值大于预设的匹配阈值时,将待筛选数据作为待处理数据。
上述技术方案的工作原理及有益效果为:
通过待筛选数据提取后的特征值与筛选规则进行匹配,通过将筛选规则对应的筛选关键特征进行分类分级进行权重赋予,各个类别的筛选项具有不同的效用,以保证在筛选时筛选的准确性。只要待筛选数据与任意一个筛选规则的匹配值大于匹配阈值,就可以将该待筛选数据作为待处理数据。
在一个实施例中,对待处理数据进行归类分组,获得多个分组数据;包括:
获取预设的分组关键词表,
基于分组关键词表对待处理数据进行归类分组;
基于CIM的海量数据分析方法,还包括:
将经过归类分组未能确定其归属的待处理数据存储至待归类数据库;
当待归类数据库中的数据量大于预设的数据阈值时,计算待归类数据库中两两待处理数据的相似度,相似度计算公式如下:
Figure BDA0003073557240000081
其中,Dx,y为待归类数据库中第x个待处理数据和第y个待处理数据之间的相似度;xl为第x个待处理数据经过特征提取后的第l个特征值;yl为第y个待处理数据经过特征提取后的第l个特征值;L为待处理数据经过特征提取后提取的特征值的总数;p为预设常数;
基于相似度对待归类数据库中的待处理数据进行分组,各个分组中的待处理数据之间的相似度大于预设的分组阈值;
确定各个分组中的待处理数据的数量,当各个分组中的待处理数据的数量大于验证阈值时,将该分组的待处理数据进行打包为验证包,并将验证包发送至多个验证终端;
接收验证终端的反馈信息;
解析反馈信息,确定验证包的处理方案;
当处理方案为进行分组时,确定验证包对应的分组类别及分组关键词;
并将该分组类别及分组关键词添加进分组关键词表;
当处理方案为剔除时,基于验证包构建剔除数据库,在应用数据筛选库对海量数据进行筛选后,采用剔除数据库对待处理数据进行剔除。
上述技术方案的工作原理及有益效果为:
基于预设的分组关键词表对数据进行分组;通过对数据进行关键词提取,然后查询分组关键词表,实现对数据的分组;能快速高效地是实现数据的分组分类;此外,当存在数据通过上述方法未能实现分组分类时,将数据暂存;当数据量满足一定条件时,打包分发给与系统连接的多个验证终端进行验证,可以采用人工验证或人工智能验证的方式实现;通过验证终端发来的处理方案,对暂存的数据进行处理;并适应性地改变筛选步骤及分组关键词表;以实现再次遇到类似数据时,系统能够自行处理;提高了系统的适应性及智能化。
在一个实施例中,解析反馈信息,确定验证包的处理方案,包括:
解析反馈信息,确定处理方案的个数;
当处理方案的个数不为一时,确定各个处理方案的可信度,可信度计算公式如下:
Figure BDA0003073557240000091
其中,KS为可信度;δd为预设的支持处理方案的验证终端的置信值;εd为预设的支持处理方案的验证终端的预设权重;D为支持处理方案的验证终端的总数;
将可信度最大的处理方案作为验证包的处理方案。
上述技术方案的工作原理及有益效果为:
当处理方案为多个且不同时,通过验证终端的置信值及预设权重,实现合理挑选处理方案,以获取数据处理的最优方案。
本发明还提供一种基于CIM的海量数据分析系统,包括:
筛选模块,用于构建对应CIM的数据筛选库,基于数据筛选库对海量数据进行筛选,获取待处理数据;
分组模块,用于对待处理数据进行归类分组,获得多个分组数据;
确定模块,用于将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
上述技术方案的工作原理及有益效果为:
事先根据CIM更新的所需数据的特征构建数据筛选库,其中,特征包括:数据构成、类型、结构、数据长度等,将海量数据中的不符合所需数据进行筛选剔除;将筛选的数据进行归类分组,主要根据CIM更新数据的数据项进行分组,分组后通过预设的识别分析模型进行数据分析识别,确定对应的参数的值;基于确定的参数的值,实现CIM中数据的更新。识别分析模型为事先设置,例如温度传感器的数据采用温度传感器对应的数据识别分析模型,压力传感器的数据采用压力传感器对应的数据识别分析模型;归类分组最总的目的是确定数据该使用哪个数据识别分析模型进行识别,防止数据识别分析的错误的发生。数据筛选库的构建可以采用人工构建的方式,即通过可视化界面设置数据各个方面的参数范围。
本发明的基于CIM的海量数据分析系统,以实现从海量数据中提取CIM所需的数据,并基于该数据确定CIM中的参数,实现CIM的实时更新。
在一个实施例中,筛选模块执行如下操作:
获取CIM的历史的输入数据;
对输入数据进行归类,获取多个数据筛选组;
对数据筛选组中的输入数据进行特征提取,获得多个特征值;
基于提取的特征值确定数据筛选组的筛选关键特征。
上述技术方案的工作原理及有益效果为:
构建数据筛选库,也可以从用户输入CIM的历史的输入数据出发,进行分析,确定筛选组和筛选关键特征;当接收到的海量数据中存在筛选关键特征相关的数据时,提取该数据,以此来对海量数据进行筛选。
在一个实施例中,基于提取的特征值确定数据筛选组的筛选关键特征,包括:
提取数据筛选组中输入数据的特征值的值都相同的特征值,作为筛选关键特征中的第一类筛选项,并赋予第一权重;
提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,作为筛选关键特征中的第二类筛选项,并赋予第二权重;
提取数据筛选组中输入数据的特征值的值不相同且差值超出预设的阈值范围内的特征值,作为筛选关键特征中的第三类筛选项,并赋予第三权重;
其中,第一权重大于第二权重和第三权重;第二权重大于第三权重。
上述技术方案的工作原理及有益效果为:
通过将筛选关键特征进行分类分级进行权重赋予,确定各个类别的筛选项具有不同的效用,以保证在筛选时筛选的准确性。第二类筛选项中的筛选标准值为数据筛选组对应的特征值的均值;提取数据筛选组中输入数据的特征值的值不相同但是差值在预设的阈值范围内的特征值,其中,差值为最大值与最小值之差。第三类筛选项中的筛选标准值为数据筛选组各个数据的对应的特征值的均值。此外,一个数据筛选组就代表着一个筛选规则。
在一个实施例中,筛选模块还执行如下操作:
对海量数据中的待筛选数据进行特征,获取特征矩阵;
基于特征矩阵分别与筛选关键特征中的第一类筛选项、第二类筛选项和第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;
基于第一匹配数目、第二匹配数目、第三匹配数目、第一权重、第二权重和第三权重,确定匹配值,计算公式如下:
Figure BDA0003073557240000121
其中,P为匹配值;M1i为特征矩阵与第一类筛选项中第i个筛选数据的第一匹配度;M2j为特征矩阵与第二类筛选项中第j个筛选数据的第二匹配度;M3k为特征矩阵与第三类筛选项中第k个筛选数据的第三匹配度;α1、α2、α3分别为第一权重、第二权重、第三权重;n为第一类筛选项中的数据总数;m为第二类筛选项中的数据总数;N为第三类筛选项中的数据总数;
当匹配值大于预设的匹配阈值时,将待筛选数据作为待处理数据。
上述技术方案的工作原理及有益效果为:
通过待筛选数据提取后的特征值与筛选规则进行匹配,通过将筛选规则对应的筛选关键特征进行分类分级进行权重赋予,各个类别的筛选项具有不同的效用,以保证在筛选时筛选的准确性。只要待筛选数据与任意一个筛选规则的匹配值大于匹配阈值,就可以将该待筛选数据作为待处理数据。
在一个实施例中,分组模块执行如下操作:
获取预设的分组关键词表,
基于分组关键词表对待处理数据进行归类分组;
基于CIM的海量数据分析系统,还包括:应急处理模块,
应急处理模块执行如下操作:
将经过归类分组未能确定其归属的待处理数据存储至待归类数据库;
当待归类数据库中的数据量大于预设的数据阈值时,计算待归类数据库中两两待处理数据的相似度,相似度计算公式如下:
Figure BDA0003073557240000122
其中,Dx,y为待归类数据库中第x个待处理数据和第y个待处理数据之间的相似度;xl为第x个待处理数据经过特征提取后的第l个特征值;yl为第y个待处理数据经过特征提取后的第l个特征值;L为待处理数据经过特征提取后提取的特征值的总数;p为预设常数;
基于相似度对待归类数据库中的待处理数据进行分组,各个分组中的待处理数据之间的相似度大于预设的分组阈值;
确定各个分组中的待处理数据的数量,当各个分组中的待处理数据的数量大于验证阈值时,将该分组的待处理数据进行打包为验证包,并将验证包发送至多个验证终端;
接收验证终端的反馈信息;
解析反馈信息,确定验证包的处理方案;
当处理方案为进行分组时,确定验证包对应的分组类别及分组关键词;
并将该分组类别及分组关键词添加进分组关键词表;
当处理方案为剔除时,基于验证包构建剔除数据库,在应用数据筛选库对海量数据进行筛选后,采用剔除数据库对待处理数据进行剔除。
上述技术方案的工作原理及有益效果为:
基于预设的分组关键词表对数据进行分组;通过对数据进行关键词提取,然后查询分组关键词表,实现对数据的分组;能快速高效地是实现数据的分组分类;此外,当存在数据通过上述方法未能实现分组分类时,将数据暂存;当数据量满足一定条件时,打包分发给与系统连接的多个验证终端进行验证,可以采用人工验证或人工智能验证的方式实现;通过验证终端发来的处理方案,对暂存的数据进行处理;并适应性地改变筛选步骤及分组关键词表;以实现再次遇到类似数据时,系统能够自行处理;提高了系统的适应性及智能化。
在一个实施例中,解析反馈信息,确定验证包的处理方案,包括:
解析反馈信息,确定处理方案的个数;
当处理方案的个数不为一时,确定各个处理方案的可信度,可信度计算公式如下:
Figure BDA0003073557240000131
其中,KS为可信度;δd为预设的支持处理方案的验证终端的置信值;εd为预设的支持处理方案的验证终端的预设权重;D为支持处理方案的验证终端的总数;
将可信度最大的处理方案作为验证包的处理方案。
上述技术方案的工作原理及有益效果为:
当处理方案为多个且不同时,通过验证终端的置信值及预设权重,实现合理挑选处理方案,以获取数据处理的最优方案。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于CIM的海量数据分析方法,其特征在于,包括:
构建对应CIM的数据筛选库,基于所述数据筛选库对海量数据进行筛选,获取待处理数据;
对所述待处理数据进行归类分组,获得多个分组数据;
将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
2.如权利要求1所述的基于CIM的海量数据分析方法,其特征在于,所述构建对应CIM的数据筛选库,包括:
获取CIM的历史的输入数据;
对所述输入数据进行归类,获取多个数据筛选组;
对所述数据筛选组中的所述输入数据进行特征提取,获得多个特征值;
基于提取的所述特征值确定所述数据筛选组的筛选关键特征。
3.如权利要求2所述的基于CIM的海量数据分析方法,其特征在于,所述基于提取的所述特征值确定所述数据筛选组的筛选关键特征,包括:
提取所述数据筛选组中所述输入数据的所述特征值的值都相同的所述特征值,作为所述筛选关键特征中的第一类筛选项,并赋予第一权重;
提取所述数据筛选组中所述输入数据的所述特征值的值不相同但是差值在预设的阈值范围内的所述特征值,作为所述筛选关键特征中的第二类筛选项,并赋予第二权重;
提取所述数据筛选组中所述输入数据的所述特征值的值不相同且差值超出预设的阈值范围内的所述特征值,作为所述筛选关键特征中的第三类筛选项,并赋予第三权重;
其中,所述第一权重大于所述第二权重和所述第三权重;所述第二权重大于所述第三权重。
4.如权利要求3所述的基于CIM的海量数据分析方法,其特征在于,所述基于所述数据筛选库对海量数据进行筛选,获取待处理数据;包括:
对所述海量数据中的待筛选数据进行特征,获取特征矩阵;
基于所述特征矩阵分别与所述筛选关键特征中的第一类筛选项、所述第二类筛选项和所述第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;
基于第一匹配数目、第二匹配数目、第三匹配数目、所述第一权重、所述第二权重和所述第三权重,确定匹配值,计算公式如下:
Figure FDA0003073557230000021
其中,P为所述匹配值;M1i为所述特征矩阵与所述第一类筛选项中第i个筛选数据的所述第一匹配度;M2j为所述特征矩阵与所述第二类筛选项中第j个筛选数据的所述第二匹配度;M3k为所述特征矩阵与所述第三类筛选项中第k个筛选数据的所述第三匹配度;α1、α2、α3分别为所述第一权重、所述第二权重、所述第三权重;n为所述第一类筛选项中的数据总数;m为所述第二类筛选项中的数据总数;N为所述第三类筛选项中的数据总数;
当所述匹配值大于预设的匹配阈值时,将所述待筛选数据作为所述待处理数据。
5.如权利要求1所述的基于CIM的海量数据分析方法,其特征在于,所述对所述待处理数据进行归类分组,获得多个分组数据;包括:
获取预设的分组关键词表,
基于所述分组关键词表对所述待处理数据进行归类分组;
所述基于CIM的海量数据分析方法,还包括:
将经过归类分组未能确定其归属的所述待处理数据存储至待归类数据库;
当所述待归类数据库中的数据量大于预设的数据阈值时,计算所述待归类数据库中两两所述待处理数据的相似度,相似度计算公式如下:
Figure FDA0003073557230000022
其中,Dx,y为所述待归类数据库中第x个所述待处理数据和第y个所述待处理数据之间的相似度;xl为所述第x个所述待处理数据经过特征提取后的第l个特征值;yl为所述第y个所述待处理数据经过特征提取后的第l个特征值;L为所述待处理数据经过特征提取后提取的特征值的总数;p为预设常数;
基于所述相似度对所述待归类数据库中的所述待处理数据进行分组,各个分组中的所述待处理数据之间的相似度大于预设的分组阈值;
确定各个分组中的待处理数据的数量,当各个分组中的待处理数据的数量大于验证阈值时,将该分组的待处理数据进行打包为验证包,并将所述验证包发送至多个验证终端;
接收所述验证终端的反馈信息;
解析所述反馈信息,确定验证包的处理方案;
当所述处理方案为进行分组时,确定所述验证包对应的分组类别及分组关键词;
并将该分组类别及分组关键词添加进所述分组关键词表;
当所述处理方案为剔除时,基于所述验证包构建剔除数据库,在应用所述数据筛选库对海量数据进行筛选后,采用剔除数据库对所述待处理数据进行剔除。
6.如权利要求5所述的基于CIM的海量数据分析方法,其特征在于,所述解析所述反馈信息,确定验证包的处理方案,包括:
解析所述反馈信息,确定处理方案的个数;
当所述处理方案的个数不为一时,确定各个处理方案的可信度,所述可信度计算公式如下:
Figure FDA0003073557230000031
其中,KS为所述可信度;δd为预设的支持所述处理方案的验证终端的置信值;εd为预设的支持所述处理方案的验证终端的预设权重;D为支持所述处理方案的所述验证终端的总数;
将所述可信度最大的所述处理方案作为所述验证包的处理方案。
7.一种基于CIM的海量数据分析系统,其特征在于,包括:
筛选模块,用于构建对应CIM的数据筛选库,基于所述数据筛选库对海量数据进行筛选,获取待处理数据;
分组模块,用于对所述待处理数据进行归类分组,获得多个分组数据;
确定模块,用于将各个分组数据输入至对应的预设的识别分析模型中进行识别分析,确定CIM中的参数。
8.如权利要求7所述的基于CIM的海量数据分析系统,其特征在于,所述筛选模块执行如下操作:
获取CIM的历史的输入数据;
对所述输入数据进行归类,获取多个数据筛选组;
对所述数据筛选组中的所述输入数据进行特征提取,获得多个特征值;
基于提取的所述特征值确定所述数据筛选组的筛选关键特征。
9.如权利要求8所述的基于CIM的海量数据分析系统,其特征在于,所述基于提取的所述特征值确定所述数据筛选组的筛选关键特征,包括:
提取所述数据筛选组中所述输入数据的所述特征值的值都相同的所述特征值,作为所述筛选关键特征中的第一类筛选项,并赋予第一权重;
提取所述数据筛选组中所述输入数据的所述特征值的值不相同但是差值在预设的阈值范围内的所述特征值,作为所述筛选关键特征中的第二类筛选项,并赋予第二权重;
提取所述数据筛选组中所述输入数据的所述特征值的值不相同且差值超出预设的阈值范围内的所述特征值,作为所述筛选关键特征中的第三类筛选项,并赋予第三权重;
其中,所述第一权重大于所述第二权重和所述第三权重;所述第二权重大于所述第三权重。
10.如权利要求9所述的基于CIM的海量数据分析系统,其特征在于,所述筛选模块还执行如下操作:
对所述海量数据中的待筛选数据进行特征,获取特征矩阵;
基于所述特征矩阵分别与所述筛选关键特征中的第一类筛选项、所述第二类筛选项和所述第三类筛选项进行匹配,确定多个第一匹配度、多个第二匹配度、多个第三匹配度;
基于第一匹配数目、第二匹配数目、第三匹配数目、所述第一权重、所述第二权重和所述第三权重,确定匹配值,计算公式如下:
Figure FDA0003073557230000051
其中,P为所述匹配值;M1i为所述特征矩阵与所述第一类筛选项中第i个筛选数据的所述第一匹配度;M2j为所述特征矩阵与所述第二类筛选项中第j个筛选数据的所述第二匹配度;M3k为所述特征矩阵与所述第三类筛选项中第k个筛选数据的所述第三匹配度;α1、α2、α3分别为所述第一权重、所述第二权重、所述第三权重;n为所述第一类筛选项中的数据总数;m为所述第二类筛选项中的数据总数;N为所述第三类筛选项中的数据总数;
当所述匹配值大于预设的匹配阈值时,将所述待筛选数据作为所述待处理数据。
CN202110545709.XA 2021-05-19 2021-05-19 一种基于cim的海量数据分析方法及系统 Active CN113392104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110545709.XA CN113392104B (zh) 2021-05-19 2021-05-19 一种基于cim的海量数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110545709.XA CN113392104B (zh) 2021-05-19 2021-05-19 一种基于cim的海量数据分析方法及系统

Publications (2)

Publication Number Publication Date
CN113392104A true CN113392104A (zh) 2021-09-14
CN113392104B CN113392104B (zh) 2021-12-28

Family

ID=77618076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110545709.XA Active CN113392104B (zh) 2021-05-19 2021-05-19 一种基于cim的海量数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN113392104B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466929B1 (en) * 1998-11-13 2002-10-15 University Of Delaware System for discovering implicit relationships in data and a method of using the same
CN107357900A (zh) * 2017-07-14 2017-11-17 国电南瑞科技股份有限公司 一种电力系统模型数据版本的控制方法及装置
CN108023895A (zh) * 2017-12-26 2018-05-11 北京中船信息科技有限公司 海量数据定向分类传输方法及系统
US20190265971A1 (en) * 2015-01-23 2019-08-29 C3 Iot, Inc. Systems and Methods for IoT Data Processing and Enterprise Applications
CN110991474A (zh) * 2019-10-12 2020-04-10 未鲲(上海)科技服务有限公司 一种机器学习建模平台
CN111460783A (zh) * 2020-03-30 2020-07-28 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111597416A (zh) * 2020-05-18 2020-08-28 南京中科麒智科技有限公司 一种基于大数据处理的匹配推送系统
CN112016542A (zh) * 2020-05-08 2020-12-01 珠海欧比特宇航科技股份有限公司 城市积涝智能检测方法及系统
CN112163625A (zh) * 2020-10-06 2021-01-01 翁海坤 基于人工智能和云计算的大数据挖掘方法及云端服务中心
CN112199376A (zh) * 2020-11-05 2021-01-08 北京三维天地科技股份有限公司 一种基于聚类分析的标准知识库管理方法及系统
CN112446549A (zh) * 2020-12-04 2021-03-05 西南石油大学 基于大数据的城市垃圾智慧监管平台
CN112766083A (zh) * 2020-12-30 2021-05-07 中南民族大学 基于多尺度特征融合的遥感场景分类方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466929B1 (en) * 1998-11-13 2002-10-15 University Of Delaware System for discovering implicit relationships in data and a method of using the same
US20190265971A1 (en) * 2015-01-23 2019-08-29 C3 Iot, Inc. Systems and Methods for IoT Data Processing and Enterprise Applications
CN107357900A (zh) * 2017-07-14 2017-11-17 国电南瑞科技股份有限公司 一种电力系统模型数据版本的控制方法及装置
CN108023895A (zh) * 2017-12-26 2018-05-11 北京中船信息科技有限公司 海量数据定向分类传输方法及系统
CN110991474A (zh) * 2019-10-12 2020-04-10 未鲲(上海)科技服务有限公司 一种机器学习建模平台
CN111460783A (zh) * 2020-03-30 2020-07-28 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN112016542A (zh) * 2020-05-08 2020-12-01 珠海欧比特宇航科技股份有限公司 城市积涝智能检测方法及系统
CN111597416A (zh) * 2020-05-18 2020-08-28 南京中科麒智科技有限公司 一种基于大数据处理的匹配推送系统
CN112163625A (zh) * 2020-10-06 2021-01-01 翁海坤 基于人工智能和云计算的大数据挖掘方法及云端服务中心
CN112199376A (zh) * 2020-11-05 2021-01-08 北京三维天地科技股份有限公司 一种基于聚类分析的标准知识库管理方法及系统
CN112446549A (zh) * 2020-12-04 2021-03-05 西南石油大学 基于大数据的城市垃圾智慧监管平台
CN112766083A (zh) * 2020-12-30 2021-05-07 中南民族大学 基于多尺度特征融合的遥感场景分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOULILA W 等: "A novel decision support system for the interpretation of remote sensing big data", 《EARTH SCIENCE INFORMATICS》 *
薛磊 等: "智能监控系统在现代变电站中的应用", 《微型电脑应用》 *
邵臻: "基于特征分析和数据降维的复杂数据预测与分类方法研究", 《中国优秀博硕士学位论文全文数据库(博士)经济与管理科学辑》 *

Also Published As

Publication number Publication date
CN113392104B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
Nasraoui et al. Tecno-streams: Tracking evolving clusters in noisy data streams with a scalable immune system learning model
EP3752930B1 (en) Random draw forest index structure for searching large scale unstructured data
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
US11704332B2 (en) Systems and methods for configuring system memory for extraction of latent information from big data
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN111143838B (zh) 数据库用户异常行为检测方法
CN109190698B (zh) 一种网络数字虚拟资产的分类识别系统及方法
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN112437053B (zh) 入侵检测方法及装置
CN113918753A (zh) 基于人工智能的图像检索方法及相关设备
CN112052451A (zh) 一种webshell检测方法和装置
CN111326236A (zh) 一种医疗图像自动处理系统
CN111343171B (zh) 一种基于支持向量机的混合特征选择的入侵检测方法
CN105243327B (zh) 一种文件安全处理方法
CN113254687B (zh) 图像检索、图像量化模型训练方法、装置和存储介质
CN113392104B (zh) 一种基于cim的海量数据分析方法及系统
CN113010705A (zh) 标签预测方法、装置、设备及存储介质
CN115438340A (zh) 一种基于词素特征的挖矿行为识别方法及系统
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN113191707A (zh) 快递编码生成方法、装置、设备及存储介质
CN114884896B (zh) 一种基于特征扩展和自动机器学习的移动应用流量感知方法
CN114911685A (zh) 敏感信息标记方法、装置、设备及计算机可读存储介质
CN112487406A (zh) 一种基于机器学习的网络行为分析方法
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
CN111460268A (zh) 数据库查询请求的确定方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 224000 room 209, building 1, R & D building Park, No. 69, Donghuan South Road, Yancheng Economic and Technological Development Zone, Jiangsu Province

Patentee after: JIANGSU XINGYUE SURVEYING AND MAPPING TECHNOLOGY CO.,LTD.

Address before: 224000 floors 9-10, building 23, Hai * building, No. 68, hope Avenue Middle Road, Tinghu District, Yancheng City, Jiangsu Province

Patentee before: JIANGSU XINGYUE SURVEYING AND MAPPING TECHNOLOGY CO.,LTD.

CP02 Change in the address of a patent holder