CN116384949B - 一种基于数字化管理的智慧政务信息数据管理系统 - Google Patents
一种基于数字化管理的智慧政务信息数据管理系统 Download PDFInfo
- Publication number
- CN116384949B CN116384949B CN202310650775.2A CN202310650775A CN116384949B CN 116384949 B CN116384949 B CN 116384949B CN 202310650775 A CN202310650775 A CN 202310650775A CN 116384949 B CN116384949 B CN 116384949B
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- dimension
- row
- original data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 16
- 238000013523 data management Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 287
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 9
- 230000002159 abnormal effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010606 normalization Methods 0.000 description 5
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,提出了一种基于数字化管理的智慧政务信息数据管理系统,包括:采集多个维度的政务数据;获取每个维度的原始数据矩阵,获取每一行相邻矩阵元素的合并概率,获取每个维度的原始数据矩阵中每一行的若干数据组合;获取原始数据矩阵中每一行任意两个数据组合的特征关联性,并得到每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合获取每一行的综合相关性,得到原始数据矩阵中任意两行之间的优化相似度,进而获取每个维度的最优K值;根据最优K值进行聚类并构建检测模型进行异常检测,完成政务数据管理。本发明旨在解决聚类算法中K值选取不恰当导致政务数据异常分析结果不准确的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于数字化管理的智慧政务信息数据管理系统。
背景技术
智慧政务信息数据管理系统是一种基于数字化管理的全面解决方案,旨在实现政务数据采集、存储、处理和分析的高效率运作;该系统可以帮助政府部门提高决策效率,保障数据安全,并为政务服务和数据共享提供有力支持;该系统拥有的主要功能为从各个数据来源收集与政务有关的数据,将政务数据进行安全存储并分析,进而为政府决策提供数据支持;然而在对政务信息进行数据处理过程中,由于采集的政务数据会存在较多的异常数据,并且还会伴随一些潜在的攻击行为,因此在对政务数据进行后续的分析处理之前,需要先对政务数据进行异常检测。
现有技术中基于K-Means的检测方法通过构建检测模型可以较为准确的获取异常的数据,能够自动识别出异常数据,并及时发现潜在的危险,进而对攻击行为进行预警与防御;然而K-Means检测模型的构建过程中,由于K值的选取会影响正常数据及异常数据的判断,若K值较小,则可能将不同类型的异常数据聚合到同一个簇中;若K值过大,则可能将具有相似性特征的异常数据划分到不同的簇中,这两种情况都大大地影响数据异常检测的准确率;因此需要根据采集的政务数据的分布特征进行分析,通过优化政务数据之间的相似度判断的方式,根据不同的政务数据进行数据差异化处理,进而通过手肘法可以获取最佳的K值大小,由此达到精准聚类并提高异常检测的准确率的目的。
发明内容
本发明提供一种基于数字化管理的智慧政务信息数据管理系统,以解决现有的聚类算法中K值选取不恰当导致政务数据异常分析结果不准确的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于数字化管理的智慧政务信息数据管理系统,该系统包括:
政务数据采集模块,采集多个维度的政务数据;每个维度的政务数据包括若干条数据;
数据处理分析模块:将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,得到每个维度的原始数据矩阵,根据原始数据矩阵中每个矩阵元素,获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合;
根据原始数据矩阵中数据组合的分布,获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合,获取每个维度的原始数据矩阵中每一行的综合相关性,根据原始数据矩阵及综合相关性,获取原始数据矩阵中任意两行之间的优化相似度,根据优化相似度通过手肘法获取每个维度的最优K值;
数据检测管理模块,根据每个维度的最优K值进行聚类并构建检测模型,通过检测模型对政务数据进行异常检测,完成政务数据管理。
可选的,所述将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,包括的具体方法为:
以任意一个维度为目标维度,目标维度的政务数据中任意一条数据为目标数据,将目标数据中的每个数值作为矩阵中的一个元素,将目标数据中每个文本词语进行向量转换,通过将每个文本词语中每个字符转换成数字形式,则将每个文本词语都转换成了一个多维向量,将转换后的向量中每个元素作为矩阵中的一个元素填入;将目标数据中的所有文本词语及数值都用数字表示并按照顺序作为矩阵元素填入,得到目标数据对应的一行矩阵元素;
对每个维度的政务数据中每条数据都得到对应的一行矩阵元素。
可选的,所述获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第行第/>列的矩阵元素与第/>行第/>列的矩阵元素的合并概率/>的计算方法为:
其中,表示第/>行第/>列的矩阵元素在目标维度的原始数据矩阵中的出现频率,表示第/>行第/>列的矩阵元素在目标维度的原始数据矩阵中的出现频率,/>表示第行第/>列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均值,/>表示第/>行第/>列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均值,/>表示目标维度的原始数据矩阵中包含第/>行第/>列的矩阵元素的行数,/>表示目标维度的原始数据矩阵中包含第/>行第/>列的矩阵元素的行数,/>表示目标维度的原始数据矩阵中第/>行第/>列的矩阵元素与第/>行第/>列的矩阵元素相邻出现的行数,/>与/>表示参考权重,/>表示求绝对值,/>表示以自然常数为底的指数函数。
可选的,所述根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中任意一个非填充0的矩阵元素为目标矩阵元素,获取目标矩阵元素分别与左侧相邻矩阵元素和右侧相邻矩阵元素的合并概率,将合并概率大于预设第一阈值的两个矩阵元素进行合并,合并后的矩阵元素记为一个数据组合;
对目标维度的原始数据矩阵每个非填充0的矩阵元素与相邻矩阵元素进行合并判断,得到每一行的若干数据组合;获取每个维度的原始数据矩阵中每一行的若干数据组合。
可选的,所述获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第行第/>个数据组合与第/>行第/>个数据组合的特征关联性/>的计算方法为:
其中,表示目标维度的原始数据矩阵中包含第/>行第/>个数据组合的行数,表示目标维度的原始数据矩阵中包含第/>行第/>个数据组合除第/>行的其他行的行数,/>表示第/>行与第/>个包含第/>行第/>个数据组合的其他行的DTW距离,/>表示第/>行第/>个数据组合左侧相邻数据与第/>行第/>个数据组合在第/>个其他行出现位置的左侧相邻数据的一致性,其中两个左侧相邻数据相同则一致性记为1,不同则一致性记为0;表示第/>行第/>个数据组合右侧相邻数据与第/>行第/>个数据组合在第/>个其他行出现位置的右侧相邻数据的一致性,其中两个右侧相邻数据相同则一致性记为1,不同则一致性记为0;/>表示以自然常数为底的指数函数。
可选的,所述根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,包括的具体方法为:
以任意一个维度为目标维度,获取目标维度的原始数据矩阵中第行第/>个数据组合与第/>行其他每个数据组合的特征关联性,将特征关联性最大的数据组合作为第/>行第/>个数据组合的关联组合;
获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合。
可选的,所述获取每个维度的原始数据矩阵中每一行的综合相关性,包括的具体方法为:
以任意一个维度为目标维度,对目标维度的原始数据矩阵中第行的第一个数据组合根据第一个数据组合的关联组合进行替换,将替换后的第/>行的所有非0填充矩阵元素组成的多维向量,记为第/>行的第一重构数据,将原始数据矩阵中第/>行的所有非0填充矩阵元素组成的多维向量,记为第/>行的原始数据,对原始数据与第一重构数据计算DTW距离;
对于第行第一个数据组合进行替换得到的第一重构数据,其重构相关性/>的计算方法为:
其中,表示目标维度的原始数据矩阵中的行数,/>表示目标维度的原始数据矩阵中第/>行的第一重构数据的出现次数,/>表示第/>行的原始数据与第一重构数据的DTW距离,/>为避免分母为0的极小值;
对目标维度的第行的第二个数据组合根据第二个数据组合的关联组合进行替换,获取替换第/>行第二个数据组合的重构相关性;获取替换第/>行每个数据组合的重构相关性,将所有重构相关性的均值记为目标维度的原始数据矩阵中第/>行的综合相关程度;
获取目标维度的原始数据矩阵中每一行的综合相关程度,对所有综合相关程度进行归一化,得到的结果记为每一行的综合相关性;
获取每个维度的原始数据矩阵中每一行的综合相关性。
可选的,所述获取原始数据矩阵中任意两行之间的优化相似度,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第行与第/>行的优化相似度/>的计算方法为:
其中,表示目标维度的原始数据矩阵中第/>行与第/>行的余弦相似度,/>表示目标维度的原始数据矩阵中第/>行的综合相关性, />表示目标维度的原始数据矩阵中第/>行的综合相关性。
可选的,所述根据优化相似度通过手肘法获取每个维度的最优K值,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中每一行对应目标维度的政务数据中的一条数据,则任意两条数据之间存在优化相似度,将优化相似度作为聚类距离,对目标维度的政务数据中若干条数据进行K-means聚类,通过手肘法对应的肘点即为目标维度的最优K值;
获取每个维度的最优K值。
本发明的有益效果是:本发明通过基于K-Means聚类的方法构建检测模型,为了获取准确的K值大小,通过对数据的不同分布特征并采用手肘法获取最优K值;其中通过将采集的政务数据进行数据转换,为了减少计算量提高准确率,将具有较强的分布规律性的数据进行合并,并通过获取合并每个数据中具有强关联性的数据,与原数据进行替换,比较替换后的数据在整体数据的分布以及替换后的重构相关性,进而获取综合相关性并得到优化相似度,通过优化相似度确定最优K值;避免了传统的手肘法获取过程中,由于部分数据具有较强的相关性(例如一些同义词),会使得同等情况下的相似性过大,造成手肘法获取过程中没有很明显的肘点,进而无法获取准确的K值的缺点;使得计算获取的聚类结果更加准确,进而检测模型更加精确,使得政务信息管理过程中可以及时发现潜在的异常行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基于数字化管理的智慧政务信息数据管理系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种基于数字化管理的智慧政务信息数据管理系统结构框图,该系统包括:
政务数据采集模块S101,采集多个维度的政务数据。
本实施例的目的是对政务信息数据进行智慧管理,因此首先需要对政务数据进行采集,政务数据涉及政府各部门工作的各类信息以及数据资源,包括若干类型的政务数据,例如人口统计数据、经济数据、社会服务数据(包括教育、医疗、社会保障、住房等数据)、基础设施数据、环境数据、公共安全数据以及预算支出数据等;将每个类型的政务数据分别记为一个维度的政务数据,每个维度的政务数据中包含若干条数据,各个维度的政务数据包括文本数据及数字数据。
至此,获取到了多个维度的政务数据,每个维度的政务数据包含若干条数据。
数据处理分析模块S102:
需要说明的是,通过手肘法获取最优K值,但是在聚类过程中往往是根据数据之间的相似性来进行聚类,而数据之间的相似性是根据数据之间的余弦相似度进行计算的,但是由于部分数据具有较强的相关性(例如一些同义词),会使得数据之间的相似性过大,造成手肘法获取过程中没有很明显的肘点,进而无法获取准确的K值,因此需要对不同维度的数据进行数据预处理,通过将数据转换为数据矩阵,进而根据数据矩阵进行分布特征分析,通过对原本数据的相似性进行校正得到优化相似度,根据优化相似度使得手肘法来获取最优K值;其中在校正相似性的过程中,通过获取每条数据中具有强关联性的数据组合与关联组合,通过关联组合对原数据的数据组合进行替换,比较替换后的数据在数据矩阵的分布以及替换后的相似性,来获取每条数据的综合相关性,进而根据综合相关性完成对相似性的校正,得到优化相似度。
(1)对每个维度的政务数据中每条数据进行向量转换,获取每个维度的原始数据矩阵,根据原始数据矩阵获取每一行相邻矩阵元素的合并概率,根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合。
需要说明的是,由于文本数据之间相似性计算量较大,本实施例通过对字符转换为数字形式,每条数据作为矩阵的一行,同一维度的若干条数据组成该维度的原始数据矩阵,通过原始数据矩阵对每一行矩阵元素即每条数据进行相似性分析。
具体的,以任意一个维度的若干条数据为例,将每条数据转换为矩阵中的一行元素,对于数字形式的数据,将每条数据中的每个数值作为矩阵中的一个元素,例如2023即是作为矩阵中的一个元素;对于文本形式的数据,将每条数据中每个文本词语进行向量转换,通过将每个文本词语中每个字符(可能是字母或汉字)转换成数字形式,则将每个文本词语都转换成了一个多维向量,例如“公共租赁住房”,将“公”采用1转换,“共”采用2转换,将转换后的向量中每个元素作为矩阵中的一个元素填入;则对于任意一条数据,将该条数据中的所有文本词语及数值都用数字表示并按照顺序作为矩阵元素填入,得到了该条数据对应的一行矩阵元素;将该维度的每条数据都填入到矩阵的每一行中,由于每条数据对应的矩阵元素数量存在差异,则以所有数据中最大的矩阵元素数量作为矩阵的列数,其他数据所在行通过填入0进行矩阵元素填充,最终得到的数据矩阵记为该维度的原始数据矩阵;按照上述方法获取每个维度的原始数据矩阵。
进一步需要说明的是,由于政务数据之间会存在一定的联系分布特征,则对应的即为每条数据均存在一定的分布概率,但是也仍存在多条数据之间存在一些分布概率的规律性;因此首先统计每条数据转换的数据矩阵中的每行每个矩阵元素在数据矩阵中的分布概率,为了减少计算量并提高准确性,对每条数据中某些具有较强的分布关联特征的矩阵元素进行合并。
具体的,以任意一个维度的原始数据矩阵中第行第/>列的矩阵元素与第/>行第/>列的矩阵元素为例,两个矩阵元素的合并概率/>的计算方法为:
其中,表示第/>行第/>列的矩阵元素在该维度的原始数据矩阵中的出现频率,需要说明的是,出现频率计算过程中不包括通过0进行填充的矩阵元素,则出现频率即为第/>行第/>列的矩阵元素的在原始数据矩阵中的出现次数与原始数据矩阵中非填充0的矩阵元素总数的比值;/>表示第/>行第/>列的矩阵元素在该维度的原始数据矩阵中的出现频率,/>表示第/>行第/>列的矩阵元素在该维度的原始数据矩阵中所有出现位置对应列数的均值,/>表示第/>行第/>列的矩阵元素在该维度的原始数据矩阵中所有出现位置对应列数的均值,/>表示该维度的原始数据矩阵中包含第/>行第/>列的矩阵元素的行数,/>表示该维度的原始数据矩阵中包含第/>行第/>列的矩阵元素的行数,/>表示该维度的原始数据矩阵中第/>行第/>列的矩阵元素与第/>行第/>列的矩阵元素相邻出现的行数,即将两个矩阵元素视为一个组合,统计包含该组合的行数;/>与/>表示参考权重,本实施例认为出现频率与数值均值对合并概率的影响同样重要,因此本实施例中采用/>进行计算,/>表示求绝对值,/>表示以自然常数为底的指数函数,/>表示第/>行第/>列的矩阵元素与第/>行第/>列的矩阵元素的分布关联性;两个矩阵元素作为组合出现的行数与单个矩阵元素出现的行数的比值越大,两个矩阵元素的分布关联性越大,两个矩阵元素的分布存在关联关系,合并概率越大;两个矩阵元素的出现频率的比值与1的差异越小,两个矩阵元素的出现频率越接近,对于分布关联性的置信度就越大;同时两个矩阵元素所有出现位置的列数均值之间的差异越小,两个矩阵元素在原始数据矩阵中多次出现的位置较为接近,对于分布关联性的置信度就越大,本实施例通过/>函数来呈现反比例关系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数;按照上述方法获取每个维度的原始数据矩阵中任意相邻两个矩阵元素的合并概率,需要说明的是,通过0进行填充的矩阵元素不参与合并概率的计算。
进一步的,给出预设第一阈值用于对矩阵元素进行合并,本实施例预设第一阈值采用0.75进行计算,以任意一个维度的原始数据矩阵为例,对于任意一个非填充0的矩阵元素,获取该矩阵元素分别与左侧相邻矩阵元素和右侧相邻矩阵元素的合并概率,将合并概率大于预设第一阈值的两个矩阵元素进行合并,合并后的矩阵元素记为一个数据组合;按照上述方法对该维度的原始数据矩阵每个非填充0的矩阵元素与相邻矩阵元素进行合并判断,得到每一行的若干数据组合;需要说明的是,若一个矩阵元素与左右相邻的两个矩阵元素的合并概率均大于预设第一阈值,则将三个矩阵元素进行合并,同时右侧的矩阵元素与右侧下一个矩阵元素的合并概率仍大于预设第一阈值,则仍可以将四个矩阵元素进行合并,即相邻矩阵元素的合并概率大于预设第一阈值即可进行合并,数据组合中的矩阵元素数量没有限制;按照上述方法获取每个维度的原始数据矩阵中每一行的若干数据组合。
至此,通过合并概率的计算,对每个维度的原始数据矩阵中的矩阵元素进行了合并,得到了若干数据组合。
(2)根据原始数据矩阵中数据组合的分布获取每一行任意两个数据组合的特征关联性,并得到每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合获取每一行的综合相关性,根据原始数据矩阵及综合相关性,获取原始数据矩阵中任意两行之间的优化相似度,根据优化相似度通过手肘法获取每个维度的最优K值。
需要说明的是,获取到数据组合后,通过量化同一行中数据组合之间的关联性,获取每个数据组合的关联组合,关联组合类似于同义词,可以对数据组合进行替换;而通过替换获得每条数据的重构数据,重构数据的出现次数越大,则表明该条数据经过同义词替换得到重构数据后与其他条数据的相似性较大,同义词影响了数据之间相似性量化,因此需要进行校正得到优化相似度,使得优化相似度可以避免同义词对于数据之间相似性的量化,进而可以保证通过手肘法能够获取最优K值。
具体的,以任意一个维度的原始数据矩阵为例,第行第/>个数据组合与第/>行第/>个数据组合(/>)的特征关联性/>的计算方法为:
其中,表示该维度的原始数据矩阵中包含第/>行第/>个数据组合的行数,/>表示该维度的原始数据矩阵中包含第/>行第/>个数据组合除第/>行的其他行的行数,表示第/>行与第/>个包含第/>行第/>个数据组合的其他行的DTW距离,DTW距离计算即是对矩阵中两行非0填充的矩阵元素分别构成两个多维向量,并计算两个多维向量的DTW距离;/>表示第/>行第/>个数据组合左侧相邻数据与第/>行第/>个数据组合在第/>个其他行出现位置的左侧相邻数据的一致性,其中两个左侧相邻数据相同则一致性记为1,不同则一致性记为0;/>表示第/>行第/>个数据组合右侧相邻数据与第/>行第/>个数据组合在第/>个其他行出现位置的右侧相邻数据的一致性,其中两个右侧相邻数据相同则一致性记为1,不同则一致性记为0;/>表示以自然常数为底的指数函数;通过将第/>行第/>个数据组合用第/>行第/>个数据组合来代替,通过量化包含第/>行第/>个数据组合的其他行与第/>行第/>个数据组合在左右侧相邻数据之间的一致性来表示特征关联性,一致性越大,则特征关联性越大;同时通过其他行与第/>行的相似性即DTW距离来进行限制,若两行完全一致则参考意义较小,若相似性较小而相邻数据一致性较大,则两个数据组合之间的特征关联性越大;本实施例通过/>函数来呈现反比例关系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数;按照上述方法获取该维度的原始数据矩阵中第/>行第/>个数据组合与第/>行其他每个数据组合的特征关联性,将特征关联性最大的数据组合作为第/>行第个数据组合的关联组合;按照上述方法获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合。
进一步的,以任意一个维度的原始数据矩阵中第行为例,对第/>行的第一个数据组合通过其关联组合进行替换,即是将该数据组合对应的矩阵元素按顺序替换为关联组合的矩阵元素,需要说明的是,若数据组合与关联组合的矩阵元素数量不相等,同样按顺序替换,无需进行补0,不会影响后续计算;将替换后的第/>行的所有非0填充矩阵元素组成的多维向量,记为第/>行的第一重构数据,将原始数据矩阵中第/>行的所有非0填充矩阵元素组成的多维向量,记为第/>行的原始数据,对原始数据与第一重构数据计算DTW距离;需要说明的是,此时DTW距离仅表现了第/>行原始数据本身的变化之间的相似性,还需要考虑第一重构数据在原始数据矩阵中的分布影响;则对于第/>行第一个数据组合进行替换得到的第一重构数据,其重构相关性/>的计算方法为:
其中,表示该维度的原始数据矩阵中的行数,/>表示该维度的原始数据矩阵中第/>行的第一重构数据的出现次数,需要说明的是,若原始数据矩阵中某一行的所有非0填充矩阵元素组成的多维向量与第/>行的第一重构数据相同,则记为一次出现;/>表示第/>行的原始数据与第一重构数据的DTW距离,/>为避免分母为0的极小值,本实施例采用/>进行计算;第一重构数据的出现次数越多,其重构后与原始数据矩阵中其他行之间相关性越大,则重构相关性越大;同时DTW距离越小,第一重构数据与原始数据的相似性越大,则重构相关性越大。
进一步的,对该维度的第行的第二个数据组合根据关联组合进行替换,并按照上述方法获取替换第/>行第二个数据组合的重构相关性;按照上述方法获取替换第/>行每个数据组合的重构相关性,将所有重构相关性的均值记为该维度的原始数据矩阵中第/>行的综合相关程度;按照上述方法获取该维度的原始数据矩阵中每一行的综合相关程度,对所有综合相关程度进行线性归一化,得到的结果记为每一行的综合相关性;综合相关性越小,该行进行数据组合替换后的变化越明显,包含同义词的可能性越小,同义词对不同行的相似度量化影响越小;则对于第/>行与第/>行的优化相似度(/>)/>的计算方法为:
其中,表示该维度的原始数据矩阵中第/>行与第/>行的余弦相似度,需要说明的是,余弦相似度计算包括填充0的矩阵元素,则两行矩阵元素数量相等,可以计算余弦相似度;/>表示该维度的原始数据矩阵中第/>行的综合相关性, />表示该维度的原始数据矩阵中第/>行的综合相关性;按照上述方法获取每个维度的每个原始数据矩阵中任意两行之间的优化相似度。
进一步的,以任意一个维度为例,该维度的原始数据矩阵中每一行对应该维度的政务数据中的一条数据,则任意两条数据之间存在优化相似度,将优化相似度作为聚类距离,对该维度的政务数据中若干条数据进行K-means聚类,通过手肘法对应的肘点即为该维度的最优K值;按照上述方法获取每个维度的最优K值。
至此,通过获取数据组合之间的特征关联性并得到关联组合,根据关联组合进行替换得到重构相关性进而得到综合相关性,通过综合相关性校正得到优化相似度,使得根据优化相似度得到的最优K值更加准确,可以较好地实现后续检测模型的构建。
数据检测管理模块S103,根据最优K值进行聚类并构建检测模型,通过检测模型对政务数据进行异常检测,完成政务数据管理。
获取到每个维度的最优K值后,以任意一个维度的政务数据为例,该维度的原始数据矩阵中每一行分别对应政务数据中的一条数据,则任意两行之间的优化相似度即为该维度的政务数据中任意两条数据之间的优化相似度,将优化相似度作为聚类距离,根据该维度的最优K值对该维度的政务数据进行K-means聚类,得到该维度的若干聚簇,每个聚簇中包含该维度的若干条数据,并记录每个聚簇的聚类中心;根据专家确定该维度的政务数据中的正确数据,给出预设第二比例,本实施例预设第二比例采用40%进行叙述;若任意一个聚簇中正确数据的数量对于正确数据总量的占比大于预设第二比例,将该聚簇标记为正常聚簇,将聚簇中正确数据的数量对于正确数据总量的占比小于等于预设第二比例的聚簇,标记为异常聚簇,对该维度的每个聚簇进行标记,则根据每个聚簇的聚类中心以及标记,完成了对于该维度的检测模型的构建;按照上述方法对每个维度的政务数据构建检测模型。
进一步的,对于当前采集的任意一个维度的政务数据,将该政务数据根据该维度的原始数据矩阵进行向量转换,同时获取该维度每个聚簇的聚类中心在原始数据矩阵中分别对应的一行矩阵元素,根据该政务数据转换后的向量以及每个聚类中心对应的一行矩阵元素,获取该政务数据与每个聚类中心的相似度,并将该政务数据划分到相似度最小的聚类中心所在聚簇中,根据划分到的聚簇的标记,判断该政务数据处于正常聚簇还是异常聚簇,则通过检测模型对当前采集的政务数据进行了潜在的异常行为判断,完成了对于政务数据的管理。
至此,通过对每个维度的政务数据构建检测模型,在采集到政务数据后,可以通过检测模型对政务数据进行潜在异常行为分析,进而实现政务数据的安全存储,完成对于政务信息数据的智慧管理。
需要说明的是,本实施例中需要对文本数据进行向量转换,其中对于文本数据的识别本实施例采用字符串匹配技术进行相同文本字符的识别,字符串匹配为现有技术,本实施例不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,该系统包括:
政务数据采集模块,采集多个维度的政务数据;每个维度的政务数据包括若干条数据;
数据处理分析模块:将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,得到每个维度的原始数据矩阵,根据原始数据矩阵中每个矩阵元素,获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合;
根据原始数据矩阵中数据组合的分布,获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合,获取每个维度的原始数据矩阵中每一行的综合相关性,根据原始数据矩阵及综合相关性,获取原始数据矩阵中任意两行之间的优化相似度,根据优化相似度通过手肘法获取每个维度的最优K值;
数据检测管理模块,根据每个维度的最优K值进行聚类并构建检测模型,通过检测模型对政务数据进行异常检测,完成政务数据管理;
所述将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,包括的具体方法为:
以任意一个维度为目标维度,目标维度的政务数据中任意一条数据为目标数据,将目标数据中的每个数值作为矩阵中的一个元素,将目标数据中每个文本词语进行向量转换,通过将每个文本词语中每个字符转换成数字形式,则将每个文本词语都转换成了一个多维向量,将转换后的向量中每个元素作为矩阵中的一个元素填入;将目标数据中的所有文本词语及数值都用数字表示并按照顺序作为矩阵元素填入,得到目标数据对应的一行矩阵元素;
对每个维度的政务数据中每条数据都得到对应的一行矩阵元素;
所述获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第行第/>列的矩阵元素与第/>行第/>列的矩阵元素的合并概率/>的计算方法为:
其中,表示第/>行第/>列的矩阵元素在目标维度的原始数据矩阵中的出现频率, />表示第/>行第/>列的矩阵元素在目标维度的原始数据矩阵中的出现频率,/>表示第/>行第/>列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均值,/>表示第/>行第/>列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均值,表示目标维度的原始数据矩阵中包含第/>行第/>列的矩阵元素的行数,/>表示目标维度的原始数据矩阵中包含第/>行第/>列的矩阵元素的行数,/>表示目标维度的原始数据矩阵中第/>行第/>列的矩阵元素与第/>行第/>列的矩阵元素相邻出现的行数,/>与表示参考权重,/>表示求绝对值,/>表示以自然常数为底的指数函数;
所述根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中任意一个非填充0的矩阵元素为目标矩阵元素,获取目标矩阵元素分别与左侧相邻矩阵元素和右侧相邻矩阵元素的合并概率,将合并概率大于预设第一阈值的两个矩阵元素进行合并,合并后的矩阵元素记为一个数据组合;
对目标维度的原始数据矩阵每个非填充0的矩阵元素与相邻矩阵元素进行合并判断,得到每一行的若干数据组合;获取每个维度的原始数据矩阵中每一行的若干数据组合;
所述获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第行第/>个数据组合与第/>行第/>个数据组合的特征关联性/>的计算方法为:
其中,表示目标维度的原始数据矩阵中包含第/>行第/>个数据组合的行数,/>表示目标维度的原始数据矩阵中包含第/>行第/>个数据组合除第/>行的其他行的行数,表示第/>行与第/>个包含第/>行第/>个数据组合的其他行的DTW距离,/>表示第/>行第/>个数据组合左侧相邻数据与第/>行第/>个数据组合在第/>个其他行出现位置的左侧相邻数据的一致性,其中两个左侧相邻数据相同则一致性记为1,不同则一致性记为0;表示第/>行第/>个数据组合右侧相邻数据与第/>行第/>个数据组合在第/>个其他行出现位置的右侧相邻数据的一致性,其中两个右侧相邻数据相同则一致性记为1,不同则一致性记为0;/>表示以自然常数为底的指数函数;
所述根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,包括的具体方法为:
以任意一个维度为目标维度,获取目标维度的原始数据矩阵中第行第/>个数据组合与第/>行其他每个数据组合的特征关联性,将特征关联性最大的数据组合作为第/>行第/>个数据组合的关联组合;
获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合;
所述获取每个维度的原始数据矩阵中每一行的综合相关性,包括的具体方法为:
以任意一个维度为目标维度,对目标维度的原始数据矩阵中第行的第一个数据组合根据第一个数据组合的关联组合进行替换,将替换后的第/>行的所有非0填充矩阵元素组成的多维向量,记为第/>行的第一重构数据,将原始数据矩阵中第/>行的所有非0填充矩阵元素组成的多维向量,记为第/>行的原始数据,对原始数据与第一重构数据计算DTW距离;
对于第行第一个数据组合进行替换得到的第一重构数据,其重构相关性/>的计算方法为:
其中,表示目标维度的原始数据矩阵中的行数,/>表示目标维度的原始数据矩阵中第行的第一重构数据的出现次数,/>表示第/>行的原始数据与第一重构数据的DTW距离,/>为避免分母为0的极小值;
对目标维度的第行的第二个数据组合根据第二个数据组合的关联组合进行替换,获取替换第/>行第二个数据组合的重构相关性;获取替换第/>行每个数据组合的重构相关性,将所有重构相关性的均值记为目标维度的原始数据矩阵中第/>行的综合相关程度;
获取目标维度的原始数据矩阵中每一行的综合相关程度,对所有综合相关程度进行归一化,得到的结果记为每一行的综合相关性;
获取每个维度的原始数据矩阵中每一行的综合相关性;
所述获取原始数据矩阵中任意两行之间的优化相似度,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第行与第/>行的优化相似度的计算方法为:
其中,表示目标维度的原始数据矩阵中第/>行与第/>行的余弦相似度,/>表示目标维度的原始数据矩阵中第/>行的综合相关性, />表示目标维度的原始数据矩阵中第/>行的综合相关性;
所述根据优化相似度通过手肘法获取每个维度的最优K值,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中每一行对应目标维度的政务数据中的一条数据,则任意两条数据之间存在优化相似度,将优化相似度作为聚类距离,对目标维度的政务数据中若干条数据进行K-means聚类,通过手肘法对应的肘点即为目标维度的最优K值;
获取每个维度的最优K值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650775.2A CN116384949B (zh) | 2023-06-05 | 2023-06-05 | 一种基于数字化管理的智慧政务信息数据管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650775.2A CN116384949B (zh) | 2023-06-05 | 2023-06-05 | 一种基于数字化管理的智慧政务信息数据管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116384949A CN116384949A (zh) | 2023-07-04 |
CN116384949B true CN116384949B (zh) | 2023-08-11 |
Family
ID=86979163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310650775.2A Active CN116384949B (zh) | 2023-06-05 | 2023-06-05 | 一种基于数字化管理的智慧政务信息数据管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384949B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370623B (zh) * | 2023-10-26 | 2024-04-26 | 浙江建达科技股份有限公司 | 一种基于大数据的智慧监督管理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079025A (zh) * | 2019-11-18 | 2020-04-28 | 广州赛宝联睿信息科技有限公司 | 基于大数据分析的政务推荐方法及包含该方法的系统 |
CN115169436A (zh) * | 2022-06-14 | 2022-10-11 | 西北工业大学 | 一种基于模糊局部判别分析的数据降维方法 |
CN115512772A (zh) * | 2022-09-22 | 2022-12-23 | 山东大学 | 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150347927A1 (en) * | 2014-06-03 | 2015-12-03 | Nec Laboratories America, Inc. | Canonical co-clustering analysis |
-
2023
- 2023-06-05 CN CN202310650775.2A patent/CN116384949B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079025A (zh) * | 2019-11-18 | 2020-04-28 | 广州赛宝联睿信息科技有限公司 | 基于大数据分析的政务推荐方法及包含该方法的系统 |
CN115169436A (zh) * | 2022-06-14 | 2022-10-11 | 西北工业大学 | 一种基于模糊局部判别分析的数据降维方法 |
CN115512772A (zh) * | 2022-09-22 | 2022-12-23 | 山东大学 | 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116384949A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086805B (zh) | 一种基于深度神经网络和成对约束的聚类方法 | |
CN112951443B (zh) | 症候群监测预警方法、装置、计算机设备及存储介质 | |
CN111339297B (zh) | 网络资产异常检测方法、系统、介质和设备 | |
CN116384949B (zh) | 一种基于数字化管理的智慧政务信息数据管理系统 | |
CN112199957B (zh) | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 | |
CN115660291B (zh) | 一种植物病害发生与潜在发生的识别评估方法及系统 | |
CN117670066B (zh) | 基于智能决策的司库管理方法、系统、设备及存储介质 | |
CN104123375A (zh) | 数据搜索方法及系统 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN116109195A (zh) | 一种基于图卷积神经网络的绩效评估方法及系统 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN116774986A (zh) | 软件开发工作量自动评估方法、装置、存储介质及处理器 | |
CN114023407A (zh) | 一种健康档案缺失值补全方法、系统以及存储介质 | |
CN116503025B (zh) | 一种基于工作流引擎的业务工单流程处理方法 | |
CN117540317A (zh) | 基于余弦相似度与孤立森林的配网异常线变关系辨识方法 | |
CN117435937A (zh) | 一种智能电表异常数据识别方法、装置、设备及存储介质 | |
CN112632469A (zh) | 业务交易数据的异常检测方法、装置及计算机设备 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN107358334B (zh) | 数据准确性判定方法、装置、终端及计算机可读存储介质 | |
CN113705920B (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
CN112329430B (zh) | 一种模型训练方法、文本相似度确定方法及装置 | |
CN115796665A (zh) | 一种绿色能源发电项目多指标碳效分级评估方法及装置 | |
CN112862179A (zh) | 一种用能行为的预测方法、装置及计算机设备 | |
CN115080921B (zh) | 一种基于审计敏感的改进的Top-k Dominating方法 | |
CN117539920B (zh) | 基于房产交易多维度数据的数据查询方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |