CN110196911A - 一种民生数据自动分类管理系统 - Google Patents
一种民生数据自动分类管理系统 Download PDFInfo
- Publication number
- CN110196911A CN110196911A CN201910491039.0A CN201910491039A CN110196911A CN 110196911 A CN110196911 A CN 110196911A CN 201910491039 A CN201910491039 A CN 201910491039A CN 110196911 A CN110196911 A CN 110196911A
- Authority
- CN
- China
- Prior art keywords
- data
- livelihood
- processing
- fusion
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 97
- 230000004927 fusion Effects 0.000 claims abstract description 74
- 238000013523 data management Methods 0.000 claims abstract description 57
- 238000007726 management method Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 37
- 230000002860 competitive effect Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000005457 optimization Methods 0.000 claims abstract description 3
- 210000002569 neuron Anatomy 0.000 claims description 33
- 230000001537 neural effect Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000007499 fusion processing Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- 230000000035 biogenic effect Effects 0.000 claims 4
- 230000010354 integration Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012351 Integrated analysis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种民生数据自动分类管理系统,该民生数据自动分类管理系统是通过对民生数据与其对应的身份证信息进行数据融合处理,再对数据融合处理的结果进行关于预设定义模型的分类处理,同时基于向量学习及平面竞争神经网络的混合方法构建民生数据管理模型,最后通过经训练优化后的该民生数据管理模型,对该分类处理后得到的数据结果进行管理,从而实现对民生数据的自动分类管理操作。
Description
技术领域
本发明涉及数据分类与管理的技术领域,特别涉及一种民生数据自动分类管理系统。
背景技术
民生数据的是用于表征国民经济状态的一个重要参数,并且民生数据关系到居民生活和工作的方方面面,因此统计和分析民生数据是国家经济工作的一个重要组成部分。民生数据属于统计学的一个统计数据,其需要在获得足够多的民生样本数据后才能计算形成具有代表性和意义的民生数据,可见获得相应的民生样本数据是计算和分析民生数据的基础。我国幅员辽阔以及人口众多,若想要获得相应的民生样本数据需要花费大量的人力和物力进行逐一的采样,这一过程耗时较长,若直接进行民生样本数据的采集会导致无法及时的统计和分析出所需要的民生数据结果。
针对现有民生样本数据采集耗时长、难度大和覆盖范围狭隘的缺点,可采用已获取的数据作为该民生样本数据的基础。但是这些民生样本数据各自分布在不同部分中并且其数据量庞大,为了从中统计和分析出具有重要参考意义的民生数据,需要对这些民生样本数据进行整合管理。现有技术对于数据的统计整合虽然会借助计算机进行相应的计算处理,但是在该统计整合过程中依然需要人工的介入,这就导致该统计整合的结果会出现偏差,使得该统计整合的结果并不能正确地反应民生数据的实际意义。可见,现有技术并不能对民生数据进行高效的和全面的整合分析处理。
发明内容
针对现有技术存在的缺陷,本发明提供一种民生数据自动分类管理系统,该民生数据自动分类管理系统是通过对民生数据与其对应的身份证信息进行数据融合处理,再对数据融合处理的结果进行关于预设定义模型的分类处理,同时基于向量学习及平面竞争神经网络的混合方法构建民生数据管理模型,最后通过经训练优化后的该民生数据管理模型,对该分类处理后得到的数据结果进行管理,从而实现对民生数据的自动分类管理操作。可见,该民生数据自动分类管理系统是通过人工智能的方式构建合适的数据管理模型来自动对民生数据进行分类管理的,该分类管理的过程并不需要任何人工操作的介入,其通过视同向量学习及平面竞争神经网络的混合方法只是涉及数据向量的迭代运算,其能够适用于大规模的民生数据分类管理,该自动分类管理系统具有良好的计算管理性能和较低的操作复杂度,并且该民生数据自动分类管理系统还可以根据实际需要构建多个不同类型的数据管理模型,从而节约后续对民生数据进行持续管理的运作成本。
本发明提供一种民生数据自动分类管理系统,其特征在于:
所述民生数据自动分类管理系统包括民生数据融合模块、民生数据分类模块、民生数据管理模型生成模块、民生数据管理操作模块;其中,
所述民生数据融合模块用于将采集到的民生数据与身份证信息进行数据融合处理,以此形成民生融合数据;
所述民生数据分类模块用于对所述民生融合数据进行预设定义模式的分类处理,以此得到民生分类数据;
所述民生数据管理模型生成模块用于根据基于向量学习及平面竞争神经网络的混合方法,生成一民生数据管理模型;
所述民生数据管理操作模块用于根据训练优化后的所述民生数据管理模型,对新的民生数据进行适应性的管理操作;
进一步,所述民生数据融合模块包括民生数据标识信息提取子模块、特征信息确定子模块和特征信息匹配处理子模块;其中,
所述民生数据标识信息提取子模块用于提取关于所述民生数据的个人标识信息;
所述特征信息确定子模块用于根据所述个人标识信息生成关于对应民生数据的特征信息,其具体包括,
所述特征信息确定子模块判断所述个人标识信息是否符合预设标识信息模式,若是,则将所述个人标识信息确定为所述特征信息,若否,则将所述个人标识信息确定为无效信息;
所述特征信息匹配处理子模块用于将所述特征信息与所述身份证信息进行匹配处理,以此使所述民生数据融合模块根据所述匹配处理的结果适应性地执行所述融合处理;
进一步,所述民生数据融合模块还包括民生数据筛选子模块和民生数据时间有效性判断子模块;其中,
所述民生数据筛选子模块用于对所述数据融合处理得到的融合结果数据进行关于重复性与歧义性的筛选处理,以筛选并剔除所述融合结果数据中存在重复或者歧义状态的数据;
所述民生数据时间有效性判断子模块用于所述数据融合处理得到的融合结果数据进行预设时间范围条件的判断处理,以剔除所述融合结果数据中不符合所述预设时间范围条件的数据;
进一步,所述民生数据筛选子模块进行关于重复性与歧义性的筛选处理具体包括,
所述民生数据筛选子模块将所述融合结果数据进行字段文本化的处理,将所述融合结果数据中每一条数据对应的字段文本化的处理结果进行文本对比处理和文本释义处理,并分别得到关于不同字段文本之间的相似度值和语义准确值,再根据所述相似度值和所述语义准确值来执行所述筛选处理;其中,
若所述相似度值或者所述语义准确值不符合预设范围条件,则剔除所述相似度值或者所述语义准确值中融合结果数据的对应部分数据;
进一步,所述民生数据分类模块包括分类词提取子模块、分类词匹配子模块和民生融合数据排序子模块;其中,
所述分类词提取子模块用于根据不同数据调用部门的需求,从对应的分类词库中提取若干不同的特征关键词作为分类词;
所述分类词匹配子模块用于根据提取得到的分类词,对所述民生融合数据进行匹配处理;
所述民生融合数据排序子模块用于对经所述匹配处理得到的民生融合匹配数据进行预设条件的排序处理,从而得到所述民生分类数据;
进一步,所述分类词提取子模块提取若干不同的特征关键词作为分类词具体包括,
所述分类词提取子模块根据不同数据调用部门的需求生成提取标识符,再基于所述提取标识符,对所述分类词库的所有特征关键词进行遍历查询处理,以此确定所述若干不同的特征关键词作为分类词;
或者,所述分类词匹配子模块对所述民生融合数据进行匹配处理具体包括,
所述分类词匹配子模块将提取得到的所述分类词与所述民生融合数据中的每一条数据进行匹配处理,若所述分类词存在于所述民生融合数据对应的其中一条数据中,则保留所述对应的其中一条数据作为所述匹配处理的结果;
或者,所述民生融合数据排序子模块进行所述排序具体包括,
所述民生融合数据排序子模块对所述民生融合匹配数据进行关于数据值的升序处理或者降序处理;
进一步,所述民生数据管理模型生成模块根据基于向量学习及平面竞争神经网络的混合方法,生成所述民生数据管理模型具体包括,
S1、基于向量学习的模式对所述民生分类数据进行线性竞争神经元的第一神经权重迭代处理;
S2、基于平面竞争神经网络对所述第一神经权重迭代处理的结果,进行第二神经权重迭代处理;
S3、对所述第二神经权重迭代处理的结果进行收敛迭代处理,以此得到所述民生数据管理模型;
进一步,所述民生数据管理模型生成模块基于向量学习的模式对所述民生分类数据进行线性竞争神经元的第一神经权重迭代处理具体包括,
S11、确定所述民生数据的特征维度为d、并以此从所述民生数据中提取形成相应的特征向量xt,其中xt=(xt1,xt2,...,xtd)T,xti为第i特征维度对应的特征向量分量,i=1、2、...、d;
S12、获取所述民生分类数据包含的民生数据分类数k,以所述分类数k 为类中心,对所述民生分类数据进行神经元形式的初始向量化处理,以此得到相应的向量wk=(wk1,wk2,...,wkd),d为特征维度;
S13、根据下面公式(1),计算所述特征向量xt到k个类中心的距离dik
在上述公式(1)中,xt1,xt2,...,xtd对应与S11中所述特征向量xt的若干特征向量分量;
S14、确定根据上述公式(1)计算得到的所有距离dik中具有最小距离值对应的目标类中心,并根据下面公式(2),对所述目标类中心进行权重更新处理,对于其他非目标类中心的类中心,则根据下面公式(3)进行处理
wkj(n+1)=wkj(n)+η(xkj-wij(n)) (2)
wkj(n+1)=wkj(n) (3)
在上述公式(2)和(3)中,k为类中心的类编号,n为循环迭代的次数;
进一步,所述民生数据管理模型生成模块基于平面竞争神经网络对所述第一神经权重迭代处理的结果,进行第二神经权重迭代处理具体包括,
S21、将所述第一神经权重迭代处理的结果转换为m个竞争神经元权重,并将所述m个竞争神经元权重分布到二维拓扑平面上,则某一竞争神经元nij的位置坐标为(i,j),其中
S22、通过下面公式(4)对应的高斯型的距离衰减函数,对每一个竞争神经元权重进行更新处理
在上述公式(4)中,距离衰减函数hij,st为二维空间上的位置坐标(s,t) 与位置坐标(i,j)对应的距离衰减函数,dijst为位置坐标(s,t)与位置坐标 (i,j)的欧式距离,σ为迭代次数对应的函数,
其中,该欧式距离dijst通过下面公式(5)计算得到
在上述公式(5)中,nij为某一竞争神经元,mst为所述某一竞争神经元nij相邻的另一竞争神经元,nij,u为竞争神经元nij第u个维度对应的分量,mst,u为竞争神经元mst第u个维度对应的分量,u=1、2、...、d,
该迭代次数对应的函数σ的表达式如下面公式(6)所示
在上述公式(6)中,σ0为初始迭代宽度,n为正整数,γ为一常数;
S23、根据下面公式(7)确定,学习率η的表达式η(n)
在上述公式(7)中,η0为初始学习率值,n为迭代次数且其为正整数,ω为一常数;
进一步,所述民生数据管理模型生成模块对所述第二神经权重迭代处理的结果进行收敛迭代处理,以此得到所述民生数据管理模型具体包括,
选择所述迭代次数n的具体值,使得函数σ的计算结果为固定值,并确定此时所述第二神经权重迭代处理的结果是否达到最佳收敛效果,若是,则确定所述民生数据管理模型,若否,则继续选择所述迭代次数n的具体值。
相比于现有技术,该民生数据自动分类管理系统是通过对民生数据与其对应的身份证信息进行数据融合处理,再对数据融合处理的结果进行关于预设定义模型的分类处理,同时基于向量学习及平面竞争神经网络的混合方法构建民生数据管理模型,最后通过经训练优化后的该民生数据管理模型,对该分类处理后得到的数据结果进行管理,从而实现对民生数据的自动分类管理操作。可见,该民生数据自动分类管理系统是通过人工智能的方式构建合适的数据管理模型来自动对民生数据进行分类管理的,该分类管理的过程并不需要任何人工操作的介入,其通过视同向量学习及平面竞争神经网络的混合方法只是涉及数据向量的迭代运算,其能够适用于大规模的民生数据分类管理,该自动分类管理系统具有良好的计算管理性能和较低的操作复杂度,并且该民生数据自动分类管理系统还可以根据实际需要构建多个不同类型的数据管理模型,从而节约后续对民生数据进行持续管理的运作成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种民生数据自动分类管理系统的结构示意图。
图2为本发明提供的一种民生数据自动分类管理系统民生数据管理模型生成模块的工作过程的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种民生数据自动分类管理系统的结构示意图。该民生数据自动分类管理系统可包括但不限于民生数据融合模块、民生数据分类模块、民生数据管理模型生成模块、民生数据管理操作模块。
优选地,该民生数据融合模块用于将采集到的民生数据与身份证信息进行数据融合处理,以此形成民生融合数据;
优选地,该民生数据分类模块用于对该民生融合数据进行预设定义模式的分类处理,以此得到民生分类数据;
优选地,该民生数据管理模型生成模块用于根据基于向量学习及平面竞争神经网络的混合方法,生成一民生数据管理模型;
优选地,该民生数据管理操作模块用于根据训练优化后的该民生数据管理模型,对新的民生数据进行适应性的管理操作。
优选地,该民生数据融合模块可包括但不限于民生数据标识信息提取子模块、特征信息确定子模块和特征信息匹配处理子模块;
优选地,该民生数据标识信息提取子模块用于提取关于该民生数据的个人标识信息;
优选地,该特征信息确定子模块用于根据该个人标识信息生成关于对应民生数据的特征信息,其具体包括,
该特征信息确定子模块判断该个人标识信息是否符合预设标识信息模式,若是,则将该个人标识信息确定为该特征信息,若否,则将该个人标识信息确定为无效信息;
该特征信息匹配处理子模块用于将该特征信息与该身份证信息进行匹配处理,以此使该民生数据融合模块根据该匹配处理的结果适应性地执行该融合处理;
优选地,该民生数据融合模块还可包括但不限于民生数据筛选子模块和民生数据时间有效性判断子模块;
优选地,该民生数据筛选子模块用于对该数据融合处理得到的融合结果数据进行关于重复性与歧义性的筛选处理,以筛选并剔除该融合结果数据中存在重复或者歧义状态的数据;
优选地,该民生数据时间有效性判断子模块用于该数据融合处理得到的融合结果数据进行预设时间范围条件的判断处理,以剔除该融合结果数据中不符合该预设时间范围条件的数据;
优选地,该民生数据筛选子模块进行关于重复性与歧义性的筛选处理可具体包括,
该民生数据筛选子模块将该融合结果数据进行字段文本化的处理,将该融合结果数据中每一条数据对应的字段文本化的处理结果进行文本对比处理和文本释义处理,并分别得到关于不同字段文本之间的相似度值和语义准确值,再根据该相似度值和该语义准确值来执行该筛选处理;其中,
若该相似度值或者该语义准确值不符合预设范围条件,则剔除该相似度值或者该语义准确值中融合结果数据的对应部分数据;
优选地,该民生数据分类模块可包括但不限于分类词提取子模块、分类词匹配子模块和民生融合数据排序子模块;
优选地,该分类词提取子模块用于根据不同数据调用部门的需求,从对应的分类词库中提取若干不同的特征关键词作为分类词;
优选地,该分类词匹配子模块用于根据提取得到的分类词,对该民生融合数据进行匹配处理;
优选地,该民生融合数据排序子模块用于对经该匹配处理得到的民生融合匹配数据进行预设条件的排序处理,从而得到该民生分类数据;
优选地,该分类词提取子模块提取若干不同的特征关键词作为分类词具体包括,
该分类词提取子模块根据不同数据调用部门的需求生成提取标识符,再基于该提取标识符,对该分类词库的所有特征关键词进行遍历查询处理,以此确定该若干不同的特征关键词作为分类词;
优选地,该分类词匹配子模块对该民生融合数据进行匹配处理具体包括,
该分类词匹配子模块将提取得到的该分类词与该民生融合数据中的每一条数据进行匹配处理,若该分类词存在于该民生融合数据对应的其中一条数据中,则保留该对应的其中一条数据作为该匹配处理的结果;
优选地,该民生融合数据排序子模块进行该排序具体包括,
该民生融合数据排序子模块对该民生融合匹配数据进行关于数据值的升序处理或者降序处理;
优选地,该民生数据管理模型生成模块根据基于向量学习及平面竞争神经网络的混合方法,生成该民生数据管理模型具体包括,
S1、基于向量学习的模式对该民生分类数据进行线性竞争神经元的第一神经权重迭代处理;
S2、基于平面竞争神经网络对该第一神经权重迭代处理的结果,进行第二神经权重迭代处理;
S3、对该第二神经权重迭代处理的结果进行收敛迭代处理,以此得到该民生数据管理模型;
优选地,该民生数据管理模型生成模块基于向量学习的模式对该民生分类数据进行线性竞争神经元的第一神经权重迭代处理具体包括,
S11、确定该民生数据的特征维度为d、并以此从该民生数据中提取形成相应的特征向量xt,其中xt=(xt1,xt2,...,xtd)T,xti为第i特征维度对应的特征向量分量,i=1、2、...、d;
S12、获取该民生分类数据包含的民生数据分类数k,以该分类数k为类中心,对该民生分类数据进行神经元形式的初始向量化处理,以此得到相应的向量wk=(wk1,wk2,...,wkd),d为特征维度;
S13、根据下面公式(1),计算该特征向量xt到k个类中心的距离dik
在上述公式(1)中,xt1,xt2,...,xtd对应与S11中该特征向量xt的若干特征向量分量;
S14、确定根据上述公式(1)计算得到的所有距离dik中具有最小距离值对应的目标类中心,并根据下面公式(2),对该目标类中心进行权重更新处理,对于其他非目标类中心的类中心,则根据下面公式(3)进行处理
wkj(n+1)=wkj(n)+η(xkj-wij(n)) (2)
wkj(n+1)=wkj(n) (3)
在上述公式(2)和(3)中,k为类中心的类编号,n为循环迭代的次数;
优选地,该民生数据管理模型生成模块基于平面竞争神经网络对该第一神经权重迭代处理的结果,进行第二神经权重迭代处理具体包括,
S21、将该第一神经权重迭代处理的结果转换为m个竞争神经元权重,并将该m个竞争神经元权重分布到二维拓扑平面上,则某一竞争神经元nij的位置坐标为(i,j),其中
S22、通过下面公式(4)对应的高斯型的距离衰减函数,对每一个竞争神经元权重进行更新处理
在上述公式(4)中,距离衰减函数hij,st为二维空间上的位置坐标(s,t) 与位置坐标(i,j)对应的距离衰减函数,dijst为位置坐标(s,t)与位置坐标 (i,j)的欧式距离,σ为迭代次数对应的函数,
其中,该欧式距离dijst通过下面公式(5)计算得到
在上述公式(5)中,nij为某一竞争神经元,mst为该某一竞争神经元nij相邻的另一竞争神经元,nij,u为竞争神经元nij第u个维度对应的分量,mst,u为竞争神经元mst第u个维度对应的分量,u=1、2、...、d,
该迭代次数对应的函数σ的表达式如下面公式(6)所示
在上述公式(6)中,σ0为初始迭代宽度,n为正整数,γ为一常数;
S23、根据下面公式(7)确定,学习率η的表达式η(n)
在上述公式(7)中,η0为初始学习率值,n为迭代次数且其为正整数,ω为一常数;
优选地,民生数据管理模型生成模块对该第二神经权重迭代处理的结果进行收敛迭代处理,以此得到该民生数据管理模型具体包括,
选择该迭代次数n的具体值,使得函数σ的计算结果为固定值,并确定此时该第二神经权重迭代处理的结果是否达到最佳收敛效果,若是,则确定该民生数据管理模型,若否,则继续选择该迭代次数n的具体值。
从上述实施例可以看出,该民生数据自动分类管理系统是通过对民生数据与其对应的身份证信息进行数据融合处理,再对数据融合处理的结果进行关于预设定义模型的分类处理,同时基于向量学习及平面竞争神经网络的混合方法构建民生数据管理模型,最后通过经训练优化后的该民生数据管理模型,对该分类处理后得到的数据结果进行管理,从而实现对民生数据的自动分类管理操作。可见,该民生数据自动分类管理系统是通过人工智能的方式构建合适的数据管理模型来自动对民生数据进行分类管理的,该分类管理的过程并不需要任何人工操作的介入,其通过视同向量学习及平面竞争神经网络的混合方法只是涉及数据向量的迭代运算,其能够适用于大规模的民生数据分类管理,该自动分类管理系统具有良好的计算管理性能和较低的操作复杂度,并且该民生数据自动分类管理系统还可以根据实际需要构建多个不同类型的数据管理模型,从而节约后续对民生数据进行持续管理的运作成本。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种民生数据自动分类管理系统,其特征在于:
所述民生数据自动分类管理系统包括民生数据融合模块、民生数据分类模块、民生数据管理模型生成模块、民生数据管理操作模块;其中,
所述民生数据融合模块用于将采集到的民生数据与身份证信息进行数据融合处理,以此形成民生融合数据;
所述民生数据分类模块用于对所述民生融合数据进行预设定义模式的分类处理,以此得到民生分类数据;
所述民生数据管理模型生成模块用于根据基于向量学习及平面竞争神经网络的混合方法,生成一民生数据管理模型;
所述民生数据管理操作模块用于根据训练优化后的所述民生数据管理模型,对新的民生数据进行适应性的管理操作。
2.如权利要求1所述的民生数据自动分类管理系统,其特征在于:
所述民生数据融合模块包括民生数据标识信息提取子模块、特征信息确定子模块和特征信息匹配处理子模块;其中,
所述民生数据标识信息提取子模块用于提取关于所述民生数据的个人标识信息;
所述特征信息确定子模块用于根据所述个人标识信息生成关于对应民生数据的特征信息,其具体包括,
所述特征信息确定子模块判断所述个人标识信息是否符合预设标识信息模式,若是,则将所述个人标识信息确定为所述特征信息,若否,则将所述个人标识信息确定为无效信息;
所述特征信息匹配处理子模块用于将所述特征信息与所述身份证信息进行匹配处理,以此使所述民生数据融合模块根据所述匹配处理的结果适应性地执行所述融合处理。
3.如权利要求2所述的民生数据自动分类管理系统,其特征在于:
所述民生数据融合模块还包括民生数据筛选子模块和民生数据时间有效性判断子模块;其中,
所述民生数据筛选子模块用于对所述数据融合处理得到的融合结果数据进行关于重复性与歧义性的筛选处理,以筛选并剔除所述融合结果数据中存在重复或者歧义状态的数据;
所述民生数据时间有效性判断子模块用于所述数据融合处理得到的融合结果数据进行预设时间范围条件的判断处理,以剔除所述融合结果数据中不符合所述预设时间范围条件的数据。
4.如权利要求3所述的民生数据自动分类管理系统,其特征在于:
所述民生数据筛选子模块进行关于重复性与歧义性的筛选处理具体包括,
所述民生数据筛选子模块将所述融合结果数据进行字段文本化的处理,将所述融合结果数据中每一条数据对应的字段文本化的处理结果进行文本对比处理和文本释义处理,并分别得到关于不同字段文本之间的相似度值和语义准确值,再根据所述相似度值和所述语义准确值来执行所述筛选处理;其中,
若所述相似度值或者所述语义准确值不符合预设范围条件,则剔除所述相似度值或者所述语义准确值中融合结果数据的对应部分数据。
5.如权利要求1所述的民生数据自动分类管理系统,其特征在于:
所述民生数据分类模块包括分类词提取子模块、分类词匹配子模块和民生融合数据排序子模块;其中,
所述分类词提取子模块用于根据不同数据调用部门的需求,从对应的分类词库中提取若干不同的特征关键词作为分类词;
所述分类词匹配子模块用于根据提取得到的分类词,对所述民生融合数据进行匹配处理;
所述民生融合数据排序子模块用于对经所述匹配处理得到的民生融合匹配数据进行预设条件的排序处理,从而得到所述民生分类数据。
6.如权利要求5所述的民生数据自动分类管理系统,其特征在于:
所述分类词提取子模块提取若干不同的特征关键词作为分类词具体包括,
所述分类词提取子模块根据不同数据调用部门的需求生成提取标识符,再基于所述提取标识符,对所述分类词库的所有特征关键词进行遍历查询处理,以此确定所述若干不同的特征关键词作为分类词;
或者,所述分类词匹配子模块对所述民生融合数据进行匹配处理具体包括,
所述分类词匹配子模块将提取得到的所述分类词与所述民生融合数据中的每一条数据进行匹配处理,若所述分类词存在于所述民生融合数据对应的其中一条数据中,则保留所述对应的其中一条数据作为所述匹配处理的结果;
或者,所述民生融合数据排序子模块进行所述排序具体包括,所述民生融合数据排序子模块对所述民生融合匹配数据进行关于数据值的升序处理或者降序处理。
7.如权利要求1所述的民生数据自动分类管理系统,其特征在于:
所述民生数据管理模型生成模块根据基于向量学习及平面竞争神经网络的混合方法,生成所述民生数据管理模型具体包括,
S1、基于向量学习的模式对所述民生分类数据进行线性竞争神经元的第一神经权重迭代处理;
S2、基于平面竞争神经网络对所述第一神经权重迭代处理的结果,进行第二神经权重迭代处理;
S3、对所述第二神经权重迭代处理的结果进行收敛迭代处理,以此得到所述民生数据管理模型。
8.如权利要求7所述的民生数据自动分类管理系统,其特征在于:
所述民生数据管理模型生成模块基于向量学习的模式对所述民生分类数据进行线性竞争神经元的第一神经权重迭代处理具体包括,
S11、确定所述民生数据的特征维度为d、并以此从所述民生数据中提取形成相应的特征向量xt,其中xt=(xt1,xt2,…,xtd)T,xti为第i特征维度对应的特征向量分量,i=1、2、…、d;
S12、获取所述民生分类数据包含的民生数据分类数k,以所述分类数k为类中心,对所述民生分类数据进行神经元形式的初始向量化处理,以此得到相应的向量wk=(wk1,wk2,…,wkd),d为特征维度;
S13、根据下面公式(1),计算所述特征向量xt到k个类中心的距离dik
在上述公式(1)中,xt1,xt2,…,xtd对应与S11中所述特征向量xt的若干特征向量分量;
S14、确定根据上述公式(1)计算得到的所有距离dik中具有最小距离值对应的目标类中心,并根据下面公式(2),对所述目标类中心进行权重更新处理,对于其他非目标类中心的类中心,则根据下面公式(3)进行处理
wkj(n+1)=wkj(n)+η(xkj-wij(n)) (2)
wkj(n+1)=wkj(n) (3)
在上述公式(2)和(3)中,k为类中心的类编号,n为循环迭代的次数。
9.如权利要求7所述的民生数据自动分类管理系统,其特征在于:
所述民生数据管理模型生成模块基于平面竞争神经网络对所述第一神经权重迭代处理的结果,进行第二神经权重迭代处理具体包括,
S21、将所述第一神经权重迭代处理的结果转换为m个竞争神经元权重,并将所述m个竞争神经元权重分布到二维拓扑平面上,则某一竞争神经元nij的位置坐标为(i,j),其中
S22、通过下面公式(4)对应的高斯型的距离衰减函数,对每一个竞争神经元权重进行更新处理
在上述公式(4)中,距离衰减函数hij,st为二维空间上的位置坐标(s,t)与位置坐标(i,j)对应的距离衰减函数,dijst为位置坐标(s,t)与位置坐标(i,j)的欧式距离,σ为迭代次数对应的函数,
其中,该欧式距离dijst通过下面公式(5)计算得到
在上述公式(5)中,nij为某一竞争神经元,mst为所述某一竞争神经元nij相邻的另一竞争神经元,nij,u为竞争神经元nij第u个维度对应的分量,mst,u为竞争神经元mst第u个维度对应的分量,u=1、2、…、d,该迭代次数对应的函数σ的表达式如下面公式(6)所示
在上述公式(6)中,σ0为初始迭代宽度,n为正整数,γ为一常数;
S23、根据下面公式(7)确定,学习率η的表达式η(n)
在上述公式(7)中,η0为初始学习率值,n为迭代次数且其为正整数,ω为一常数。
10.如权利要求9所述的民生数据自动分类管理系统,其特征在于:
所述民生数据管理模型生成模块对所述第二神经权重迭代处理的结果进行收敛迭代处理,以此得到所述民生数据管理模型具体包括,
选择所述迭代次数n的具体值,使得函数σ的计算结果为固定值,并确定此时所述第二神经权重迭代处理的结果是否达到最佳收敛效果,若是,则确定所述民生数据管理模型,若否,则继续选择所述迭代次数n的具体值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910491039.0A CN110196911B (zh) | 2019-06-06 | 2019-06-06 | 一种民生数据自动分类管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910491039.0A CN110196911B (zh) | 2019-06-06 | 2019-06-06 | 一种民生数据自动分类管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110196911A true CN110196911A (zh) | 2019-09-03 |
CN110196911B CN110196911B (zh) | 2022-04-22 |
Family
ID=67754051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910491039.0A Active CN110196911B (zh) | 2019-06-06 | 2019-06-06 | 一种民生数据自动分类管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196911B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287186A (zh) * | 2020-12-24 | 2021-01-29 | 北京数字政通科技股份有限公司 | 一种用于城市管理的智能分类方法及其系统 |
CN112418792A (zh) * | 2020-11-19 | 2021-02-26 | 魏垠 | 一种城市精细化信息处理方法、装置及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001014293A (ja) * | 1999-06-30 | 2001-01-19 | Glory Ltd | 競合型ニューラルネットワークを用いた紙葉類の識別/学習方法 |
CN103488662A (zh) * | 2013-04-01 | 2014-01-01 | 哈尔滨工业大学深圳研究生院 | 基于图形处理单元的自组织映射神经网络聚类方法及系统 |
CN107103441A (zh) * | 2017-04-21 | 2017-08-29 | 美林数据技术股份有限公司 | 基于自组织特征映射网络的电力物资分类方法 |
US20180108101A1 (en) * | 2016-10-17 | 2018-04-19 | Confirm, Inc. | System and method for classification and authentication of identification documents using a machine learning based convolutional neural network |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN109446332A (zh) * | 2018-12-25 | 2019-03-08 | 银江股份有限公司 | 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法 |
CN109726287A (zh) * | 2018-12-25 | 2019-05-07 | 银江股份有限公司 | 一种基于迁移学习和深度学习的人民调解案例分类系统及方法 |
-
2019
- 2019-06-06 CN CN201910491039.0A patent/CN110196911B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001014293A (ja) * | 1999-06-30 | 2001-01-19 | Glory Ltd | 競合型ニューラルネットワークを用いた紙葉類の識別/学習方法 |
CN103488662A (zh) * | 2013-04-01 | 2014-01-01 | 哈尔滨工业大学深圳研究生院 | 基于图形处理单元的自组织映射神经网络聚类方法及系统 |
US20180108101A1 (en) * | 2016-10-17 | 2018-04-19 | Confirm, Inc. | System and method for classification and authentication of identification documents using a machine learning based convolutional neural network |
CN107103441A (zh) * | 2017-04-21 | 2017-08-29 | 美林数据技术股份有限公司 | 基于自组织特征映射网络的电力物资分类方法 |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN109446332A (zh) * | 2018-12-25 | 2019-03-08 | 银江股份有限公司 | 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法 |
CN109726287A (zh) * | 2018-12-25 | 2019-05-07 | 银江股份有限公司 | 一种基于迁移学习和深度学习的人民调解案例分类系统及方法 |
Non-Patent Citations (1)
Title |
---|
王晓燕: ""K-均值算法与自组织神经网络算法的改进研究及应用"", 《中国博士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418792A (zh) * | 2020-11-19 | 2021-02-26 | 魏垠 | 一种城市精细化信息处理方法、装置及系统 |
CN112418792B (zh) * | 2020-11-19 | 2022-12-20 | 魏垠 | 一种城市精细化信息处理方法、装置及系统 |
CN112287186A (zh) * | 2020-12-24 | 2021-01-29 | 北京数字政通科技股份有限公司 | 一种用于城市管理的智能分类方法及其系统 |
CN112287186B (zh) * | 2020-12-24 | 2021-03-26 | 北京数字政通科技股份有限公司 | 一种用于城市管理的智能分类方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110196911B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102324038B (zh) | 一种基于数字图像的植物种类识别方法 | |
CN104346379B (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN109739844A (zh) | 基于衰减权重的数据分类方法 | |
CN109241199B (zh) | 一种面向金融知识图谱发现的方法 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN113157800A (zh) | 实时发现空中动态目标识别方法 | |
CN107368526A (zh) | 一种数据处理方法及装置 | |
CN106778851A (zh) | 基于手机取证数据的社交关系预测系统及其方法 | |
CN110196911B (zh) | 一种民生数据自动分类管理系统 | |
CN108762503A (zh) | 一种基于多模态数据采集的人机交互系统 | |
CN107465691A (zh) | 基于路由器日志分析的网络攻击检测系统及检测方法 | |
CN106446124A (zh) | 一种基于网络关系图的网站分类方法 | |
CN110288028A (zh) | 心电检测方法、系统、设备及计算机可读存储介质 | |
CN112508743A (zh) | 技术转移办公室通用信息交互方法、终端及介质 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN109344248B (zh) | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 | |
Dong | Application of Big Data Mining Technology in Blockchain Computing | |
CN109377436A (zh) | 一种环境精准监管方法与装置、终端设备及存储介质 | |
CN111832475A (zh) | 一种基于语义特征的人脸误检筛除方法 | |
CN106775694A (zh) | 一种软件配置代码制品的层次分类方法 | |
CN110377706A (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN116186513A (zh) | 一种基于一维卷积神经网络的振动信号识别方法 | |
CN109828995A (zh) | 一种基于视觉特征的图数据检测方法、系统 | |
CN111209375B (zh) | 一种通用的条款与文档匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231009 Address after: 3-4, No. 9-3 Tianlan Avenue, Jiangbei District, Chongqing, 400000 Patentee after: Chongqing Ziyi Business Information Consulting Co.,Ltd. Address before: 400000 No. 78-2 Cangbai Road, Yuzhong District, Chongqing Patentee before: Shen Linsen |
|
TR01 | Transfer of patent right |