CN116384949A - 一种基于数字化管理的智慧政务信息数据管理系统 - Google Patents

一种基于数字化管理的智慧政务信息数据管理系统 Download PDF

Info

Publication number
CN116384949A
CN116384949A CN202310650775.2A CN202310650775A CN116384949A CN 116384949 A CN116384949 A CN 116384949A CN 202310650775 A CN202310650775 A CN 202310650775A CN 116384949 A CN116384949 A CN 116384949A
Authority
CN
China
Prior art keywords
data
matrix
dimension
row
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310650775.2A
Other languages
English (en)
Other versions
CN116384949B (zh
Inventor
高云兴
胡小平
陈娟
陈雪娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Donglian Century Technology Co ltd
Original Assignee
Beijing Donglian Century Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Donglian Century Technology Co ltd filed Critical Beijing Donglian Century Technology Co ltd
Priority to CN202310650775.2A priority Critical patent/CN116384949B/zh
Publication of CN116384949A publication Critical patent/CN116384949A/zh
Application granted granted Critical
Publication of CN116384949B publication Critical patent/CN116384949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,提出了一种基于数字化管理的智慧政务信息数据管理系统,包括:采集多个维度的政务数据;获取每个维度的原始数据矩阵,获取每一行相邻矩阵元素的合并概率,获取每个维度的原始数据矩阵中每一行的若干数据组合;获取原始数据矩阵中每一行任意两个数据组合的特征关联性,并得到每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合获取每一行的综合相关性,得到原始数据矩阵中任意两行之间的优化相似度,进而获取每个维度的最优K值;根据最优K值进行聚类并构建检测模型进行异常检测,完成政务数据管理。本发明旨在解决聚类算法中K值选取不恰当导致政务数据异常分析结果不准确的问题。

Description

一种基于数字化管理的智慧政务信息数据管理系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于数字化管理的智慧政务信息数据管理系统。
背景技术
智慧政务信息数据管理系统是一种基于数字化管理的全面解决方案,旨在实现政务数据采集、存储、处理和分析的高效率运作;该系统可以帮助政府部门提高决策效率,保障数据安全,并为政务服务和数据共享提供有力支持;该系统拥有的主要功能为从各个数据来源收集与政务有关的数据,将政务数据进行安全存储并分析,进而为政府决策提供数据支持;然而在对政务信息进行数据处理过程中,由于采集的政务数据会存在较多的异常数据,并且还会伴随一些潜在的攻击行为,因此在对政务数据进行后续的分析处理之前,需要先对政务数据进行异常检测。
现有技术中基于K-Means的检测方法通过构建检测模型可以较为准确的获取异常的数据,能够自动识别出异常数据,并及时发现潜在的危险,进而对攻击行为进行预警与防御;然而K-Means检测模型的构建过程中,由于K值的选取会影响正常数据及异常数据的判断,若K值较小,则可能将不同类型的异常数据聚合到同一个簇中;若K值过大,则可能将具有相似性特征的异常数据划分到不同的簇中,这两种情况都大大地影响数据异常检测的准确率;因此需要根据采集的政务数据的分布特征进行分析,通过优化政务数据之间的相似度判断的方式,根据不同的政务数据进行数据差异化处理,进而通过手肘法可以获取最佳的K值大小,由此达到精准聚类并提高异常检测的准确率的目的。
发明内容
本发明提供一种基于数字化管理的智慧政务信息数据管理系统,以解决现有的聚类算法中K值选取不恰当导致政务数据异常分析结果不准确的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于数字化管理的智慧政务信息数据管理系统,该系统包括:
政务数据采集模块,采集多个维度的政务数据;每个维度的政务数据包括若干条数据;
数据处理分析模块:将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,得到每个维度的原始数据矩阵,根据原始数据矩阵中每个矩阵元素,获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合;
根据原始数据矩阵中数据组合的分布,获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合,获取每个维度的原始数据矩阵中每一行的综合相关性,根据原始数据矩阵及综合相关性,获取原始数据矩阵中任意两行之间的优化相似度,根据优化相似度通过手肘法获取每个维度的最优K值;
数据检测管理模块,根据每个维度的最优K值进行聚类并构建检测模型,通过检测模型对政务数据进行异常检测,完成政务数据管理。
可选的,所述将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,包括的具体方法为:
以任意一个维度为目标维度,目标维度的政务数据中任意一条数据为目标数据,将目标数据中的每个数值作为矩阵中的一个元素,将目标数据中每个文本词语进行向量转换,通过将每个文本词语中每个字符转换成数字形式,则将每个文本词语都转换成了一个多维向量,将转换后的向量中每个元素作为矩阵中的一个元素填入;将目标数据中的所有文本词语及数值都用数字表示并按照顺序作为矩阵元素填入,得到目标数据对应的一行矩阵元素;
对每个维度的政务数据中每条数据都得到对应的一行矩阵元素。
可选的,所述获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第
Figure SMS_1
行第
Figure SMS_2
列的矩阵元素 与第
Figure SMS_3
行第
Figure SMS_4
列的矩阵元素的合并概率
Figure SMS_5
的计算方法为:
Figure SMS_6
其中,
Figure SMS_23
表示第
Figure SMS_26
行第
Figure SMS_29
列的矩阵元素在目标维度的原始数据矩阵中的出现频率,
Figure SMS_8
表示第
Figure SMS_11
行第
Figure SMS_15
列的矩阵元素在目标维度的原始数据矩阵中的出现频率,
Figure SMS_20
表示第
Figure SMS_9
行第
Figure SMS_14
列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均值,
Figure SMS_18
表 示第
Figure SMS_22
行第
Figure SMS_10
列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均 值,
Figure SMS_12
表示目标维度的原始数据矩阵中包含第
Figure SMS_16
行第
Figure SMS_19
列的矩阵元素的行数,
Figure SMS_25
表示目标 维度的原始数据矩阵中包含第
Figure SMS_28
行第
Figure SMS_31
列的矩阵元素的行数,
Figure SMS_33
表示目标维度的 原始数据矩阵中第
Figure SMS_7
行第
Figure SMS_13
列的矩阵元素与第
Figure SMS_17
行第
Figure SMS_21
列的矩阵元素相邻出现的行数,
Figure SMS_24
Figure SMS_27
表示参考权重,
Figure SMS_30
表示求绝对值,
Figure SMS_32
表示以自然常数为底的指数函数。
可选的,所述根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中任意一个非填充0的矩阵元素为目标矩阵元素,获取目标矩阵元素分别与左侧相邻矩阵元素和右侧相邻矩阵元素的合并概率,将合并概率大于预设第一阈值的两个矩阵元素进行合并,合并后的矩阵元素记为一个数据组合;
对目标维度的原始数据矩阵每个非填充0的矩阵元素与相邻矩阵元素进行合并判断,得到每一行的若干数据组合;获取每个维度的原始数据矩阵中每一行的若干数据组合。
可选的,所述获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第
Figure SMS_34
行第
Figure SMS_35
个数据组合与 第
Figure SMS_36
行第
Figure SMS_37
个数据组合的特征关联性
Figure SMS_38
的计算方法为:
Figure SMS_39
其中,
Figure SMS_43
表示目标维度的原始数据矩阵中包含第
Figure SMS_45
行第
Figure SMS_49
个数据组合的行数,
Figure SMS_42
表示目标维度的原始数据矩阵中包含第
Figure SMS_46
行第
Figure SMS_50
个数据组合除第
Figure SMS_53
行的其他行的行 数,
Figure SMS_41
表示第
Figure SMS_47
行与第
Figure SMS_51
个包含第
Figure SMS_56
行第
Figure SMS_57
个数据组合的其他行的DTW距离,
Figure SMS_60
表示第
Figure SMS_62
行第
Figure SMS_64
个数据组合左侧相邻数据与第
Figure SMS_55
行第
Figure SMS_59
个数据组合在第
Figure SMS_61
个其他行出现位置的 左侧相邻数据的一致性,其中两个左侧相邻数据相同则一致性记为1,不同则一致性记为0;
Figure SMS_63
表示第
Figure SMS_40
行第
Figure SMS_44
个数据组合右侧相邻数据与第
Figure SMS_48
行第
Figure SMS_52
个数据组合在第
Figure SMS_54
个其他行 出现位置的右侧相邻数据的一致性,其中两个右侧相邻数据相同则一致性记为1,不同则一 致性记为0;
Figure SMS_58
表示以自然常数为底的指数函数。
可选的,所述根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,包括的具体方法为:
以任意一个维度为目标维度,获取目标维度的原始数据矩阵中第
Figure SMS_65
行第
Figure SMS_66
个数据组 合与第
Figure SMS_67
行其他每个数据组合的特征关联性,将特征关联性最大的数据组合作为第
Figure SMS_68
行第
Figure SMS_69
个数据组合的关联组合;
获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合。
可选的,所述获取每个维度的原始数据矩阵中每一行的综合相关性,包括的具体方法为:
以任意一个维度为目标维度,对目标维度的原始数据矩阵中第
Figure SMS_70
行的第一个数据 组合根据第一个数据组合的关联组合进行替换,将替换后的第
Figure SMS_71
行的所有非0填充矩阵元素 组成的多维向量,记为第
Figure SMS_72
行的第一重构数据,将原始数据矩阵中第
Figure SMS_73
行的所有非0填充矩阵 元素组成的多维向量,记为第
Figure SMS_74
行的原始数据,对原始数据与第一重构数据计算DTW距离;
对于第
Figure SMS_75
行第一个数据组合进行替换得到的第一重构数据,其重构相关性
Figure SMS_76
的计 算方法为:
Figure SMS_77
其中,
Figure SMS_78
表示目标维度的原始数据矩阵中的行数,
Figure SMS_79
表示目标维度的原始数据矩 阵中第
Figure SMS_80
行的第一重构数据的出现次数,
Figure SMS_81
表示第
Figure SMS_82
行的原始数据与第一重构数据的DTW距 离,
Figure SMS_83
为避免分母为0的极小值;
对目标维度的第
Figure SMS_84
行的第二个数据组合根据第二个数据组合的关联组合进行替 换,获取替换第
Figure SMS_85
行第二个数据组合的重构相关性;获取替换第
Figure SMS_86
行每个数据组合的重构相 关性,将所有重构相关性的均值记为目标维度的原始数据矩阵中第
Figure SMS_87
行的综合相关程度;
获取目标维度的原始数据矩阵中每一行的综合相关程度,对所有综合相关程度进行归一化,得到的结果记为每一行的综合相关性;
获取每个维度的原始数据矩阵中每一行的综合相关性。
可选的,所述获取原始数据矩阵中任意两行之间的优化相似度,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第
Figure SMS_88
行与第
Figure SMS_89
行的优化相 似度
Figure SMS_90
的计算方法为:
Figure SMS_91
其中,
Figure SMS_92
表示目标维度的原始数据矩阵中第
Figure SMS_93
行与第
Figure SMS_94
行的余弦相似度,
Figure SMS_95
表示 目标维度的原始数据矩阵中第
Figure SMS_96
行的综合相关性,
Figure SMS_97
表示目标维度的原始数据矩阵中第
Figure SMS_98
行 的综合相关性。
可选的,所述根据优化相似度通过手肘法获取每个维度的最优K值,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中每一行对应木啊比哦维度的政务数据中的一条数据,则任意两条数据之间存在优化相似度,将优化相似度作为聚类距离,对目标维度的政务数据中若干条数据进行K-means聚类,通过手肘法对应的肘点即为目标维度的最优K值;
获取每个维度的最优K值。
本发明的有益效果是:本发明通过基于K-Means聚类的方法构建检测模型,为了获取准确的K值大小,通过对数据的不同分布特征并采用手肘法获取最优K值;其中通过将采集的政务数据进行数据转换,为了减少计算量提高准确率,将具有较强的分布规律性的数据进行合并,并通过获取合并每个数据中具有强关联性的数据,与原数据进行替换,比较替换后的数据在整体数据的分布以及替换后的重构相关性,进而获取综合相关性并得到优化相似度,通过优化相似度确定最优K值;避免了传统的手肘法获取过程中,由于部分数据具有较强的相关性(例如一些同义词),会使得同等情况下的相似性过大,造成手肘法获取过程中没有很明显的肘点,进而无法获取准确的K值的缺点;使得计算获取的聚类结果更加准确,进而检测模型更加精确,使得政务信息管理过程中可以及时发现潜在的异常行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基于数字化管理的智慧政务信息数据管理系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种基于数字化管理的智慧政务信息数据管理系统结构框图,该系统包括:
政务数据采集模块S101,采集多个维度的政务数据。
本实施例的目的是对政务信息数据进行智慧管理,因此首先需要对政务数据进行采集,政务数据涉及政府各部门工作的各类信息以及数据资源,包括若干类型的政务数据,例如人口统计数据、经济数据、社会服务数据(包括教育、医疗、社会保障、住房等数据)、基础设施数据、环境数据、公共安全数据以及预算支出数据等;将每个类型的政务数据分别记为一个维度的政务数据,每个维度的政务数据中包含若干条数据,各个维度的政务数据包括文本数据及数字数据。
至此,获取到了多个维度的政务数据,每个维度的政务数据包含若干条数据。
数据处理分析模块S102:
需要说明的是,通过手肘法获取最优K值,但是在聚类过程中往往是根据数据之间的相似性来进行聚类,而数据之间的相似性是根据数据之间的余弦相似度进行计算的,但是由于部分数据具有较强的相关性(例如一些同义词),会使得数据之间的相似性过大,造成手肘法获取过程中没有很明显的肘点,进而无法获取准确的K值,因此需要对不同维度的数据进行数据预处理,通过将数据转换为数据矩阵,进而根据数据矩阵进行分布特征分析,通过对原本数据的相似性进行校正得到优化相似度,根据优化相似度使得手肘法来获取最优K值;其中在校正相似性的过程中,通过获取每条数据中具有强关联性的数据组合与关联组合,通过关联组合对原数据的数据组合进行替换,比较替换后的数据在数据矩阵的分布以及替换后的相似性,来获取每条数据的综合相关性,进而根据综合相关性完成对相似性的校正,得到优化相似度。
(1)对每个维度的政务数据中每条数据进行向量转换,获取每个维度的原始数据矩阵,根据原始数据矩阵获取每一行相邻矩阵元素的合并概率,根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合。
需要说明的是,由于文本数据之间相似性计算量较大,本实施例通过对字符转换为数字形式,每条数据作为矩阵的一行,同一维度的若干条数据组成该维度的原始数据矩阵,通过原始数据矩阵对每一行矩阵元素即每条数据进行相似性分析。
具体的,以任意一个维度的若干条数据为例,将每条数据转换为矩阵中的一行元素,对于数字形式的数据,将每条数据中的每个数值作为矩阵中的一个元素,例如2023即是作为矩阵中的一个元素;对于文本形式的数据,将每条数据中每个文本词语进行向量转换,通过将每个文本词语中每个字符(可能是字母或汉字)转换成数字形式,则将每个文本词语都转换成了一个多维向量,例如“公共租赁住房”,将“公”采用1转换,“共”采用2转换,将转换后的向量中每个元素作为矩阵中的一个元素填入;则对于任意一条数据,将该条数据中的所有文本词语及数值都用数字表示并按照顺序作为矩阵元素填入,得到了该条数据对应的一行矩阵元素;将该维度的每条数据都填入到矩阵的每一行中,由于每条数据对应的矩阵元素数量存在差异,则以所有数据中最大的矩阵元素数量作为矩阵的列数,其他数据所在行通过填入0进行矩阵元素填充,最终得到的数据矩阵记为该维度的原始数据矩阵;按照上述方法获取每个维度的原始数据矩阵。
进一步需要说明的是,由于政务数据之间会存在一定的联系分布特征,则对应的即为每条数据均存在一定的分布概率,但是也仍存在多条数据之间存在一些分布概率的规律性;因此首先统计每条数据转换的数据矩阵中的每行每个矩阵元素在数据矩阵中的分布概率,为了减少计算量并提高准确性,对每条数据中某些具有较强的分布关联特征的矩阵元素进行合并。
具体的,以任意一个维度的原始数据矩阵中第
Figure SMS_99
行第
Figure SMS_100
列的矩阵元素与第
Figure SMS_101
行第
Figure SMS_102
列的矩阵元素为例,两个矩阵元素的合并概率
Figure SMS_103
的计算方法为:
Figure SMS_104
其中,
Figure SMS_124
表示第
Figure SMS_128
行第
Figure SMS_132
列的矩阵元素在该维度的原始数据矩阵中的出现频率,需 要说明的是,出现频率计算过程中不包括通过0进行填充的矩阵元素,则出现频率即为第
Figure SMS_107
行第
Figure SMS_112
列的矩阵元素的在原始数据矩阵中的出现次数与原始数据矩阵中非填充0的矩阵元 素总数的比值;
Figure SMS_116
表示第
Figure SMS_120
行第
Figure SMS_125
列的矩阵元素在该维度的原始数据矩阵中的出现频 率,
Figure SMS_129
表示第
Figure SMS_133
行第
Figure SMS_136
列的矩阵元素在该维度的原始数据矩阵中所有出现位置对应列数的均 值,
Figure SMS_135
表示第
Figure SMS_138
行第
Figure SMS_139
列的矩阵元素在该维度的原始数据矩阵中所有出现位置对应列 数的均值,
Figure SMS_140
表示该维度的原始数据矩阵中包含第
Figure SMS_123
行第
Figure SMS_127
列的矩阵元素的行数,
Figure SMS_131
表示 该维度的原始数据矩阵中包含第
Figure SMS_137
行第
Figure SMS_105
列的矩阵元素的行数,
Figure SMS_110
表示该维度的 原始数据矩阵中第
Figure SMS_114
行第
Figure SMS_119
列的矩阵元素与第
Figure SMS_109
行第
Figure SMS_113
列的矩阵元素相邻出现的行数,即 将两个矩阵元素视为一个组合,统计包含该组合的行数;
Figure SMS_117
Figure SMS_121
表示参考权重,本实施例 认为出现频率与数值均值对合并概率的影响同样重要,因此本实施例中采用
Figure SMS_122
进行计算,
Figure SMS_126
表示求绝对值,
Figure SMS_130
表示以自然常数为底的指数函数,
Figure SMS_134
表示第
Figure SMS_106
行第
Figure SMS_111
列的矩阵元素与第
Figure SMS_115
行第
Figure SMS_118
列的矩阵元素的分布关联性;两个矩阵元素作为组合出现的 行数与单个矩阵元素出现的行数的比值越大,两个矩阵元素的分布关联性越大,两个矩阵 元素的分布存在关联关系,合并概率越大;两个矩阵元素的出现频率的比值与1的差异越 小,两个矩阵元素的出现频率越接近,对于分布关联性的置信度就越大;同时两个矩阵元素 所有出现位置的列数均值之间的差异越小,两个矩阵元素在原始数据矩阵中多次出现的位 置较为接近,对于分布关联性的置信度就越大,本实施例通过
Figure SMS_108
函数来呈现反比例关 系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数;按照上述方法获 取每个维度的原始数据矩阵中任意相邻两个矩阵元素的合并概率,需要说明的是,通过0进 行填充的矩阵元素不参与合并概率的计算。
进一步的,给出预设第一阈值用于对矩阵元素进行合并,本实施例预设第一阈值采用0.75进行计算,以任意一个维度的原始数据矩阵为例,对于任意一个非填充0的矩阵元素,获取该矩阵元素分别与左侧相邻矩阵元素和右侧相邻矩阵元素的合并概率,将合并概率大于预设第一阈值的两个矩阵元素进行合并,合并后的矩阵元素记为一个数据组合;按照上述方法对该维度的原始数据矩阵每个非填充0的矩阵元素与相邻矩阵元素进行合并判断,得到每一行的若干数据组合;需要说明的是,若一个矩阵元素与左右相邻的两个矩阵元素的合并概率均大于预设第一阈值,则将三个矩阵元素进行合并,同时右侧的矩阵元素与右侧下一个矩阵元素的合并概率仍大于预设第一阈值,则仍可以将四个矩阵元素进行合并,即相邻矩阵元素的合并概率大于预设第一阈值即可进行合并,数据组合中的矩阵元素数量没有限制;按照上述方法获取每个维度的原始数据矩阵中每一行的若干数据组合。
至此,通过合并概率的计算,对每个维度的原始数据矩阵中的矩阵元素进行了合并,得到了若干数据组合。
(2)根据原始数据矩阵中数据组合的分布获取每一行任意两个数据组合的特征关联性,并得到每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合获取每一行的综合相关性,根据原始数据矩阵及综合相关性,获取原始数据矩阵中任意两行之间的优化相似度,根据优化相似度通过手肘法获取每个维度的最优K值。
需要说明的是,获取到数据组合后,通过量化同一行中数据组合之间的关联性,获取每个数据组合的关联组合,关联组合类似于同义词,可以对数据组合进行替换;而通过替换获得每条数据的重构数据,重构数据的出现次数越大,则表明该条数据经过同义词替换得到重构数据后与其他条数据的相似性较大,同义词影响了数据之间相似性量化,因此需要进行校正得到优化相似度,使得优化相似度可以避免同义词对于数据之间相似性的量化,进而可以保证通过手肘法能够获取最优K值。
具体的,以任意一个维度的原始数据矩阵为例,第
Figure SMS_141
行第
Figure SMS_142
个数据组合与第
Figure SMS_143
行第
Figure SMS_144
个数据组合(
Figure SMS_145
)的特征关联性
Figure SMS_146
的计算方法为:
Figure SMS_147
其中,
Figure SMS_164
表示该维度的原始数据矩阵中包含第
Figure SMS_168
行第
Figure SMS_171
个数据组合的行数,
Figure SMS_150
表示该维度的原始数据矩阵中包含第
Figure SMS_152
行第
Figure SMS_156
个数据组合除第
Figure SMS_160
行的其他行的行数,
Figure SMS_155
表示第
Figure SMS_159
行与第
Figure SMS_163
个包含第
Figure SMS_167
行第
Figure SMS_170
个数据组合的其他行的DTW距离,DTW距离计算即 是对矩阵中两行非0填充的矩阵元素分别构成两个多维向量,并计算两个多维向量的DTW距 离;
Figure SMS_174
表示第
Figure SMS_179
行第
Figure SMS_182
个数据组合左侧相邻数据与第
Figure SMS_166
行第
Figure SMS_172
个数据组合在第
Figure SMS_176
个其他 行出现位置的左侧相邻数据的一致性,其中两个左侧相邻数据相同则一致性记为1,不同则 一致性记为0;
Figure SMS_180
表示第
Figure SMS_149
行第
Figure SMS_153
个数据组合右侧相邻数据与第
Figure SMS_157
行第
Figure SMS_161
个数据组合在 第
Figure SMS_175
个其他行出现位置的右侧相邻数据的一致性,其中两个右侧相邻数据相同则一致性记 为1,不同则一致性记为0;
Figure SMS_178
表示以自然常数为底的指数函数;通过将第
Figure SMS_183
行第
Figure SMS_185
个数据 组合用第
Figure SMS_181
行第
Figure SMS_184
个数据组合来代替,通过量化包含第
Figure SMS_186
行第
Figure SMS_187
个数据组合的其他行与第
Figure SMS_151
行 第
Figure SMS_154
个数据组合在左右侧相邻数据之间的一致性来表示特征关联性,一致性越大,则特征关 联性越大;同时通过其他行与第
Figure SMS_158
行的相似性即DTW距离来进行限制,若两行完全一致则参 考意义较小,若相似性较小而相邻数据一致性较大,则两个数据组合之间的特征关联性越 大;本实施例通过
Figure SMS_162
函数来呈现反比例关系及归一化处理,实施者可根据实际情况选 择反比例函数及归一化函数;按照上述方法获取该维度的原始数据矩阵中第
Figure SMS_165
行第
Figure SMS_169
个数据 组合与第
Figure SMS_173
行其他每个数据组合的特征关联性,将特征关联性最大的数据组合作为第
Figure SMS_177
行第
Figure SMS_148
个数据组合的关联组合;按照上述方法获取每个维度的原始数据矩阵中每一行每个数据 组合的关联组合。
进一步的,以任意一个维度的原始数据矩阵中第
Figure SMS_188
行为例,对第
Figure SMS_193
行的第一个数据组 合通过其关联组合进行替换,即是将该数据组合对应的矩阵元素按顺序替换为关联组合的 矩阵元素,需要说明的是,若数据组合与关联组合的矩阵元素数量不相等,同样按顺序替 换,无需进行补0,不会影响后续计算;将替换后的第
Figure SMS_194
行的所有非0填充矩阵元素组成的多 维向量,记为第
Figure SMS_189
行的第一重构数据,将原始数据矩阵中第
Figure SMS_191
行的所有非0填充矩阵元素组成 的多维向量,记为第
Figure SMS_195
行的原始数据,对原始数据与第一重构数据计算DTW距离;需要说明的 是,此时DTW距离仅表现了第
Figure SMS_196
行原始数据本身的变化之间的相似性,还需要考虑第一重构 数据在原始数据矩阵中的分布影响;则对于第
Figure SMS_190
行第一个数据组合进行替换得到的第一重 构数据,其重构相关性
Figure SMS_192
的计算方法为:
Figure SMS_197
其中,
Figure SMS_199
表示该维度的原始数据矩阵中的行数,
Figure SMS_202
表示该维度的原始数据矩阵中 第
Figure SMS_204
行的第一重构数据的出现次数,需要说明的是,若原始数据矩阵中某一行的所有非0填 充矩阵元素组成的多维向量与第
Figure SMS_200
行的第一重构数据相同,则记为一次出现;
Figure SMS_201
表示第
Figure SMS_203
行 的原始数据与第一重构数据的DTW距离,
Figure SMS_205
为避免分母为0的极小值,本实施例采用
Figure SMS_198
进行计算;第一重构数据的出现次数越多,其重构后与原始数据矩阵中其他行之间相关性 越大,则重构相关性越大;同时DTW距离越小,第一重构数据与原始数据的相似性越大,则重 构相关性越大。
进一步的,对该维度的第
Figure SMS_208
行的第二个数据组合根据关联组合进行替换,并按照上 述方法获取替换第
Figure SMS_210
行第二个数据组合的重构相关性;按照上述方法获取替换第
Figure SMS_212
行每个数 据组合的重构相关性,将所有重构相关性的均值记为该维度的原始数据矩阵中第
Figure SMS_207
行的综 合相关程度;按照上述方法获取该维度的原始数据矩阵中每一行的综合相关程度,对所有 综合相关程度进行线性归一化,得到的结果记为每一行的综合相关性;综合相关性越小,该 行进行数据组合替换后的变化越明显,包含同义词的可能性越小,同义词对不同行的相似 度量化影响越小;则对于第
Figure SMS_209
行与第
Figure SMS_211
行的优化相似度(
Figure SMS_213
Figure SMS_206
的计算方法为:
Figure SMS_214
其中,
Figure SMS_215
表示该维度的原始数据矩阵中第
Figure SMS_216
行与第
Figure SMS_217
行的余弦相似度,需要说明 的是,余弦相似度计算包括填充0的矩阵元素,则两行矩阵元素数量相等,可以计算余弦相 似度;
Figure SMS_218
表示该维度的原始数据矩阵中第
Figure SMS_219
行的综合相关性,
Figure SMS_220
表示该维度的原始数据矩阵 中第
Figure SMS_221
行的综合相关性;按照上述方法获取每个维度的每个原始数据矩阵中任意两行之间 的优化相似度。
进一步的,以任意一个维度为例,该维度的原始数据矩阵中每一行对应该维度的政务数据中的一条数据,则任意两条数据之间存在优化相似度,将优化相似度作为聚类距离,对该维度的政务数据中若干条数据进行K-means聚类,通过手肘法对应的肘点即为该维度的最优K值;按照上述方法获取每个维度的最优K值。
至此,通过获取数据组合之间的特征关联性并得到关联组合,根据关联组合进行替换得到重构相关性进而得到综合相关性,通过综合相关性校正得到优化相似度,使得根据优化相似度得到的最优K值更加准确,可以较好地实现后续检测模型的构建。
数据检测管理模块S103,根据最优K值进行聚类并构建检测模型,通过检测模型对政务数据进行异常检测,完成政务数据管理。
获取到每个维度的最优K值后,以任意一个维度的政务数据为例,该维度的原始数据矩阵中每一行分别对应政务数据中的一条数据,则任意两行之间的优化相似度即为该维度的政务数据中任意两条数据之间的优化相似度,将优化相似度作为聚类距离,根据该维度的最优K值对该维度的政务数据进行K-means聚类,得到该维度的若干聚簇,每个聚簇中包含该维度的若干条数据,并记录每个聚簇的聚类中心;根据专家确定该维度的政务数据中的正确数据,给出预设第二比例,本实施例预设第二比例采用40%进行叙述;若任意一个聚簇中正确数据的数量对于正确数据总量的占比大于预设第二比例,将该聚簇标记为正常聚簇,将聚簇中正确数据的数量对于正确数据总量的占比小于等于预设第二比例的聚簇,标记为异常聚簇,对该维度的每个聚簇进行标记,则根据每个聚簇的聚类中心以及标记,完成了对于该维度的检测模型的构建;按照上述方法对每个维度的政务数据构建检测模型。
进一步的,对于当前采集的任意一个维度的政务数据,将该政务数据根据该维度的原始数据矩阵进行向量转换,同时获取该维度每个聚簇的聚类中心在原始数据矩阵中分别对应的一行矩阵元素,根据该政务数据转换后的向量以及每个聚类中心对应的一行矩阵元素,获取该政务数据与每个聚类中心的相似度,并将该政务数据划分到相似度最小的聚类中心所在聚簇中,根据划分到的聚簇的标记,判断该政务数据处于正常聚簇还是异常聚簇,则通过检测模型对当前采集的政务数据进行了潜在的异常行为判断,完成了对于政务数据的管理。
至此,通过对每个维度的政务数据构建检测模型,在采集到政务数据后,可以通过检测模型对政务数据进行潜在异常行为分析,进而实现政务数据的安全存储,完成对于政务信息数据的智慧管理。
需要说明的是,本实施例中需要对文本数据进行向量转换,其中对于文本数据的识别本实施例采用字符串匹配技术进行相同文本字符的识别,字符串匹配为现有技术,本实施例不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,该系统包括:
政务数据采集模块,采集多个维度的政务数据;每个维度的政务数据包括若干条数据;
数据处理分析模块:将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,得到每个维度的原始数据矩阵,根据原始数据矩阵中每个矩阵元素,获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合;
根据原始数据矩阵中数据组合的分布,获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,根据原始数据矩阵及关联组合,获取每个维度的原始数据矩阵中每一行的综合相关性,根据原始数据矩阵及综合相关性,获取原始数据矩阵中任意两行之间的优化相似度,根据优化相似度通过手肘法获取每个维度的最优K值;
数据检测管理模块,根据每个维度的最优K值进行聚类并构建检测模型,通过检测模型对政务数据进行异常检测,完成政务数据管理。
2.根据权利要求1所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述将每个维度的政务数据中每条数据通过向量转换作为每个矩阵中的一行矩阵元素,包括的具体方法为:
以任意一个维度为目标维度,目标维度的政务数据中任意一条数据为目标数据,将目标数据中的每个数值作为矩阵中的一个元素,将目标数据中每个文本词语进行向量转换,通过将每个文本词语中每个字符转换成数字形式,则将每个文本词语都转换成了一个多维向量,将转换后的向量中每个元素作为矩阵中的一个元素填入;将目标数据中的所有文本词语及数值都用数字表示并按照顺序作为矩阵元素填入,得到目标数据对应的一行矩阵元素;
对每个维度的政务数据中每条数据都得到对应的一行矩阵元素。
3.根据权利要求1所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述获取每个维度的原始数据矩阵中每一行任意相邻两个矩阵元素的合并概率,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第
Figure QLYQS_1
行第/>
Figure QLYQS_2
列的矩阵元素与第/>
Figure QLYQS_3
行第/>
Figure QLYQS_4
列的矩阵元素的合并概率/>
Figure QLYQS_5
的计算方法为:
Figure QLYQS_6
其中,
Figure QLYQS_10
表示第/>
Figure QLYQS_14
行第/>
Figure QLYQS_19
列的矩阵元素在目标维度的原始数据矩阵中的出现频率, />
Figure QLYQS_8
表示第/>
Figure QLYQS_13
行第/>
Figure QLYQS_17
列的矩阵元素在目标维度的原始数据矩阵中的出现频率,/>
Figure QLYQS_21
表示第/>
Figure QLYQS_9
行第/>
Figure QLYQS_12
列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均值,/>
Figure QLYQS_16
表示第/>
Figure QLYQS_20
行第/>
Figure QLYQS_23
列的矩阵元素在目标维度的原始数据矩阵中所有出现位置对应列数的均值,
Figure QLYQS_26
表示目标维度的原始数据矩阵中包含第/>
Figure QLYQS_29
行第/>
Figure QLYQS_33
列的矩阵元素的行数,/>
Figure QLYQS_22
表示目标维度的原始数据矩阵中包含第/>
Figure QLYQS_25
行第/>
Figure QLYQS_28
列的矩阵元素的行数,/>
Figure QLYQS_31
表示目标维度的原始数据矩阵中第/>
Figure QLYQS_7
行第/>
Figure QLYQS_11
列的矩阵元素与第/>
Figure QLYQS_15
行第/>
Figure QLYQS_18
列的矩阵元素相邻出现的行数,/>
Figure QLYQS_24
Figure QLYQS_27
表示参考权重,/>
Figure QLYQS_30
表示求绝对值,/>
Figure QLYQS_32
表示以自然常数为底的指数函数。
4.根据权利要求1所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述根据合并概率获取每个维度的原始数据矩阵中每一行的若干数据组合,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中任意一个非填充0的矩阵元素为目标矩阵元素,获取目标矩阵元素分别与左侧相邻矩阵元素和右侧相邻矩阵元素的合并概率,将合并概率大于预设第一阈值的两个矩阵元素进行合并,合并后的矩阵元素记为一个数据组合;
对目标维度的原始数据矩阵每个非填充0的矩阵元素与相邻矩阵元素进行合并判断,得到每一行的若干数据组合;获取每个维度的原始数据矩阵中每一行的若干数据组合。
5.根据权利要求1所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述获取每个维度的原始数据矩阵中每一行任意两个数据组合的特征关联性,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第
Figure QLYQS_34
行第/>
Figure QLYQS_35
个数据组合与第/>
Figure QLYQS_36
行第/>
Figure QLYQS_37
个数据组合的特征关联性/>
Figure QLYQS_38
的计算方法为:
Figure QLYQS_39
其中,
Figure QLYQS_43
表示目标维度的原始数据矩阵中包含第/>
Figure QLYQS_47
行第/>
Figure QLYQS_51
个数据组合的行数,/>
Figure QLYQS_41
表示目标维度的原始数据矩阵中包含第/>
Figure QLYQS_45
行第/>
Figure QLYQS_49
个数据组合除第/>
Figure QLYQS_53
行的其他行的行数,
Figure QLYQS_42
表示第/>
Figure QLYQS_46
行与第/>
Figure QLYQS_50
个包含第/>
Figure QLYQS_54
行第/>
Figure QLYQS_57
个数据组合的其他行的DTW距离,/>
Figure QLYQS_60
表示第/>
Figure QLYQS_62
行第/>
Figure QLYQS_64
个数据组合左侧相邻数据与第/>
Figure QLYQS_56
行第/>
Figure QLYQS_59
个数据组合在第/>
Figure QLYQS_61
个其他行出现位置的左侧相邻数据的一致性,其中两个左侧相邻数据相同则一致性记为1,不同则一致性记为0;
Figure QLYQS_63
表示第/>
Figure QLYQS_40
行第/>
Figure QLYQS_44
个数据组合右侧相邻数据与第/>
Figure QLYQS_48
行第/>
Figure QLYQS_52
个数据组合在第/>
Figure QLYQS_55
个其他行出现位置的右侧相邻数据的一致性,其中两个右侧相邻数据相同则一致性记为1,不同则一致性记为0;/>
Figure QLYQS_58
表示以自然常数为底的指数函数。
6.根据权利要求5所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述根据特征关联性获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合,包括的具体方法为:
以任意一个维度为目标维度,获取目标维度的原始数据矩阵中第
Figure QLYQS_65
行第/>
Figure QLYQS_66
个数据组合与第/>
Figure QLYQS_67
行其他每个数据组合的特征关联性,将特征关联性最大的数据组合作为第/>
Figure QLYQS_68
行第/>
Figure QLYQS_69
个数据组合的关联组合;
获取每个维度的原始数据矩阵中每一行每个数据组合的关联组合。
7.根据权利要求1所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述获取每个维度的原始数据矩阵中每一行的综合相关性,包括的具体方法为:
以任意一个维度为目标维度,对目标维度的原始数据矩阵中第
Figure QLYQS_70
行的第一个数据组合根据第一个数据组合的关联组合进行替换,将替换后的第/>
Figure QLYQS_71
行的所有非0填充矩阵元素组成的多维向量,记为第/>
Figure QLYQS_72
行的第一重构数据,将原始数据矩阵中第/>
Figure QLYQS_73
行的所有非0填充矩阵元素组成的多维向量,记为第/>
Figure QLYQS_74
行的原始数据,对原始数据与第一重构数据计算DTW距离;
对于第
Figure QLYQS_75
行第一个数据组合进行替换得到的第一重构数据,其重构相关性/>
Figure QLYQS_76
的计算方法为:
Figure QLYQS_77
其中,
Figure QLYQS_78
表示目标维度的原始数据矩阵中的行数,/>
Figure QLYQS_79
表示目标维度的原始数据矩阵中第
Figure QLYQS_80
行的第一重构数据的出现次数,/>
Figure QLYQS_81
表示第/>
Figure QLYQS_82
行的原始数据与第一重构数据的DTW距离,/>
Figure QLYQS_83
为避免分母为0的极小值;
对目标维度的第
Figure QLYQS_84
行的第二个数据组合根据第二个数据组合的关联组合进行替换,获取替换第/>
Figure QLYQS_85
行第二个数据组合的重构相关性;获取替换第/>
Figure QLYQS_86
行每个数据组合的重构相关性,将所有重构相关性的均值记为目标维度的原始数据矩阵中第/>
Figure QLYQS_87
行的综合相关程度;
获取目标维度的原始数据矩阵中每一行的综合相关程度,对所有综合相关程度进行归一化,得到的结果记为每一行的综合相关性;
获取每个维度的原始数据矩阵中每一行的综合相关性。
8.根据权利要求1所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述获取原始数据矩阵中任意两行之间的优化相似度,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中第
Figure QLYQS_88
行与第/>
Figure QLYQS_89
行的优化相似度
Figure QLYQS_90
的计算方法为:
Figure QLYQS_91
其中,
Figure QLYQS_92
表示目标维度的原始数据矩阵中第/>
Figure QLYQS_93
行与第/>
Figure QLYQS_94
行的余弦相似度,/>
Figure QLYQS_95
表示目标维度的原始数据矩阵中第/>
Figure QLYQS_96
行的综合相关性, />
Figure QLYQS_97
表示目标维度的原始数据矩阵中第/>
Figure QLYQS_98
行的综合相关性。
9.根据权利要求1所述的一种基于数字化管理的智慧政务信息数据管理系统,其特征在于,所述根据优化相似度通过手肘法获取每个维度的最优K值,包括的具体方法为:
以任意一个维度为目标维度,目标维度的原始数据矩阵中每一行对应木啊比哦维度的政务数据中的一条数据,则任意两条数据之间存在优化相似度,将优化相似度作为聚类距离,对目标维度的政务数据中若干条数据进行K-means聚类,通过手肘法对应的肘点即为目标维度的最优K值;
获取每个维度的最优K值。
CN202310650775.2A 2023-06-05 2023-06-05 一种基于数字化管理的智慧政务信息数据管理系统 Active CN116384949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310650775.2A CN116384949B (zh) 2023-06-05 2023-06-05 一种基于数字化管理的智慧政务信息数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310650775.2A CN116384949B (zh) 2023-06-05 2023-06-05 一种基于数字化管理的智慧政务信息数据管理系统

Publications (2)

Publication Number Publication Date
CN116384949A true CN116384949A (zh) 2023-07-04
CN116384949B CN116384949B (zh) 2023-08-11

Family

ID=86979163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310650775.2A Active CN116384949B (zh) 2023-06-05 2023-06-05 一种基于数字化管理的智慧政务信息数据管理系统

Country Status (1)

Country Link
CN (1) CN116384949B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370623A (zh) * 2023-10-26 2024-01-09 浙江建达科技股份有限公司 一种基于大数据的智慧监督管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347927A1 (en) * 2014-06-03 2015-12-03 Nec Laboratories America, Inc. Canonical co-clustering analysis
CN111079025A (zh) * 2019-11-18 2020-04-28 广州赛宝联睿信息科技有限公司 基于大数据分析的政务推荐方法及包含该方法的系统
CN115169436A (zh) * 2022-06-14 2022-10-11 西北工业大学 一种基于模糊局部判别分析的数据降维方法
CN115512772A (zh) * 2022-09-22 2022-12-23 山东大学 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347927A1 (en) * 2014-06-03 2015-12-03 Nec Laboratories America, Inc. Canonical co-clustering analysis
CN111079025A (zh) * 2019-11-18 2020-04-28 广州赛宝联睿信息科技有限公司 基于大数据分析的政务推荐方法及包含该方法的系统
CN115169436A (zh) * 2022-06-14 2022-10-11 西北工业大学 一种基于模糊局部判别分析的数据降维方法
CN115512772A (zh) * 2022-09-22 2022-12-23 山东大学 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370623A (zh) * 2023-10-26 2024-01-09 浙江建达科技股份有限公司 一种基于大数据的智慧监督管理方法及系统
CN117370623B (zh) * 2023-10-26 2024-04-26 浙江建达科技股份有限公司 一种基于大数据的智慧监督管理方法及系统

Also Published As

Publication number Publication date
CN116384949B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111339297B (zh) 网络资产异常检测方法、系统、介质和设备
CN112951443B (zh) 症候群监测预警方法、装置、计算机设备及存储介质
CN116384949B (zh) 一种基于数字化管理的智慧政务信息数据管理系统
US20110158538A1 (en) Image feature extraction device
CN115660291B (zh) 一种植物病害发生与潜在发生的识别评估方法及系统
CN104123375A (zh) 数据搜索方法及系统
CN116109195B (zh) 一种基于图卷积神经网络的绩效评估方法及系统
CN112036997B (zh) 预测纳税人中的非正常户的方法及装置
CN117290364B (zh) 一种市场调查数据智能存储方法
CN116503025B (zh) 一种基于工作流引擎的业务工单流程处理方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN107358334B (zh) 数据准确性判定方法、装置、终端及计算机可读存储介质
CN110781959A (zh) 基于birch算法和随机森林算法的电力客户分群方法
CN112329430B (zh) 一种模型训练方法、文本相似度确定方法及装置
CN112862179A (zh) 一种用能行为的预测方法、装置及计算机设备
CN114023407A (zh) 一种健康档案缺失值补全方法、系统以及存储介质
CN114462834A (zh) 一种基于多渠道数据融合的区域画像构建方法及系统
CN113591485A (zh) 一种基于数据科学的智能化数据质量稽核系统及方法
CN112632469A (zh) 业务交易数据的异常检测方法、装置及计算机设备
CN115169499B (zh) 资产数据降维方法、装置、电子设备和计算机存储介质
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法
CN113656267B (zh) 设备能效的计算方法、装置、电子设备及存储介质
CN117370623B (zh) 一种基于大数据的智慧监督管理方法及系统
CN116955648B (zh) 一种基于非隐私数据关联的知识图谱分析方法
CN113723835B (zh) 火电厂用水评估方法和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant