CN111274301B - 一种基于数据资产智能治理方法及系统 - Google Patents

一种基于数据资产智能治理方法及系统 Download PDF

Info

Publication number
CN111274301B
CN111274301B CN202010066955.2A CN202010066955A CN111274301B CN 111274301 B CN111274301 B CN 111274301B CN 202010066955 A CN202010066955 A CN 202010066955A CN 111274301 B CN111274301 B CN 111274301B
Authority
CN
China
Prior art keywords
feature
data
coefficient
matching
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010066955.2A
Other languages
English (en)
Other versions
CN111274301A (zh
Inventor
程俊
孙金树
余力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoyun Digital Technology Chongqing Co ltd
Original Assignee
Guoyun Digital Technology Chongqing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoyun Digital Technology Chongqing Co ltd filed Critical Guoyun Digital Technology Chongqing Co ltd
Priority to CN202010066955.2A priority Critical patent/CN111274301B/zh
Publication of CN111274301A publication Critical patent/CN111274301A/zh
Application granted granted Critical
Publication of CN111274301B publication Critical patent/CN111274301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据资产智能治理方法及系统,其中,方法具体包括以下步骤:接收上传的不同格式、内容源数据并做基础分类;将分类后不同类别的源数据与对应类别预设的特征库进行特征匹配,并得到匹配成功系数;将所述成功系数与第一预设系数进行比较;若所述成功系数大于或等于预设成功系数,标记为成功匹配,并将所述源数据与对应特征库中的数据关联形成价值链库;反之,标记为不成功匹配,并人工更新所述源数据对应的特征库。通过上述方法,能将不同格式、内容的各系统数据在一个系统上实现数据资产的收集、智能分析和治理,系统可复制性高,可有效降低开发成本及系统负载。

Description

一种基于数据资产智能治理方法及系统
技术领域
本发明属于计算机应用技术领域,具体涉及一种基于数据资产智能治理方法及系统。
背景技术
当前,世界已全面进入以大数据共享,信息爆炸为特点的互联网信息时代。富有智能化和人性化的计算机网络技术服务,即人工智能,成为各行各业青睐和关注的焦点。随着时间的推移,人工智能的应用将在公共部门产生巨大变化,它能将数据规范化形成政务性数据资产,产生数据价值,以此完成数据的快速分析指导员工工作的方向。
但目前,由于各政府系统数据内容及存储格式各不相同,在现有技术中,若要对其进行深入分析,均客制化建立相应数据库收集数据并逐项分析,即一对一建立数据库,客制化开发系统,具体方案可参考图1。在此过程中,各单一系统会大量耗费政府与数据运营平台的人力资源,加重系统负载,同时对政府系统数据的保密也存在一定风险,各组群用户需要先与数据运营企业协商数据上传格式及内容,数据运营企业再对其进行数据库建立,存储,进一步开发可视化界面进行分析展示。当存在N个用户组群时,需定义N个数据格式及内容,同时需要N个团队进行开发测试,并针对不同的用户组群开发不同的功能。
发明内容
有鉴于此,本发明的目的之一在于提供一种基于数据资产智能治理方法,能将不同格式、内容的各政府系统数据在一个系统上实现数据资产的收集、智能分析和治理。
为实现上述目的,本发明的技术方案为:
一种基于数据资产智能治理方法,包括以下步骤:
接收上传的不同格式、内容源数据并做基础分类;
将分类后不同类别的源数据与对应类别预设的特征库(特征库)进行特征匹配,并得到匹配成功系数;
将所述成功系数与第一预设系数进行比较;
若所述成功系数大于或等于预设成功系数,标记为成功匹配,并将所述源数据与对应特征库中的数据关联形成价值链库;
反之,标记为不成功匹配,并人工更新所述源数据对应的特征库。
进一步地,所述特征库由同一类别的大量数据汇入拟合得到,其中,存在同类别的不同数据的逻辑算法。
进一步地,基础分类的步骤包括将所述源数据按照属性、性质分类并存储在不同地址中。
进一步地,所述人工更新所述源数据对应的特征库的步骤还包括:
将源数据与更新的特征库进行特征匹配,得到新的成功系数;
将新的成功系数与第一预设系数进行比较。
进一步地,所述成功系数的计算方式如下:
其中,X表示关键字段;O为成功系数;Xi代表关键字段维度占比;n表示标准关键特征库维度系数;XN表示标准关键特征库标准系数;j表示自动检测特征库维度系数;Yj代表自动特征维数;m表示自动检测特征库维度;YM为自动检测特征库标准系数;i代表特征关键匹配的维度系数;μ为标准关键特征库的偏差值;μ1为自动检测特征库的偏差值。
进一步地,所述方法还包括步骤:
计算预设时间内的所述不成功匹配数量占所有匹配数量的比率;
将所述比率与第二预设系数对比;
若所述比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法。
进一步地,该治理方法还包括步骤:直接使用所述价值链库中的数据,和/或对所述价值链库中的数据进行综合评估,当综合评估达到对应业务的预设标准后使用。
进一步地,所述综合评估的方式如下:
P=O*Z;
其中,Z表示比例评估系数;O为对应目标数据在特征匹配模块得到的成功系数数据,P为综合评估结果的数据化体现。
有鉴于此,本发明的目的之二在于提供一种基于数据资产智能治理系统,在该系统上,可以实现不同格式、内容的系统数据的收集、分析和治理,最终形成数据资产。
为实现上述目的,本发明的技术方案为:
一种基于数据资产智能治理系统,其特征在于,包括:
源数据模块,用于接收上传的不同格式、内容的源数据;
自动分类模块,与源数据模块相连,用于将所述源数据进行基础分类;
特征匹配模块,与所述源数据模块相连并与所述自动分类模块相连;用于将分类后不同类别的源数据与对应类别预设的特征库(特征库)进行特征匹配,并得到匹配成功系数;然后将所述成功系数与第一预设系数进行比较;若所述成功系数大于或等于预设成功系数,标记为成功匹配,并将所述源数据与对应特征库中的数据关联形成价值链库;反之,标记为不成功匹配,并人工更新所述源数据对应的特征库;
自定义模块,与所述特征匹配模块相连,用于当特征匹配模块标记不成功匹配时,人工维护对应的特征库,新建特征逻辑算法;
进一步地,所述特征库由同一类别的大量数据汇入拟合得到,其中,存在同类别的不同数据的逻辑算法。
进一步地,基础分类的步骤包括将所述源数据按照属性、性质分类并存储在不同地址中。
进一步地,还包括循环模块,与所述特征匹配模块相连,并与所述自定义模块相连,用于当自定义模块新建特征逻辑算法后,重新启动特征匹配模块,将更新过后的特征库与对应源数据进行特征匹配,如若匹配不上,标记为不成功继续启动自定义模块,重复上述步骤,直到特征匹配成功。
进一步地,所述成功系数的计算方式如下:
其中,O为成功系数;Xi代表关键字段维度占比;n表示标准关键特征库维度系数;XN表示标准关键特征库标准系数;j表示自动检测特征库维度系数;Yj代表自动特征维数;m表示自动检测特征库维度;YM为自动检测特征库标准系数;i代表特征关键匹配的维度系数;μ为标准关键特征库的偏差值;μ1为自动检测特征库的偏差值。
进一步地,所述系统还包括:
维护模块,与所述特征匹配模块相连,并与所述自定义模块相连,用于计算预设时间内的所述不成功匹配数量占所有匹配数量的比率;将所述比率与第二预设系数对比;若所述比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法。
进一步地,所述系统还包括:
综合评估模块,与所述源数据模块相连,并与所述自定义模块相连,用于对所述价值链库中的数据进行综合评估,当综合评估达到对应业务的预设标准后使用所述价值链库中的数据。
进一步地,所述综合评估的方式如下:
P=O*Z;
其中,Z表示比例评估系数;O为对应目标数据在特征匹配模块得到的成功系数数据,P为综合评估结果的数据化体现。
本发明有益效果
本申请中公开的一种基于数据资产智能治理方法及系统,提出一种方法,能将不同格式、内容的数据在一个系统上实现数据资产的收集、智能分析和进行特征匹配治理,无需针对不同格式、不同内容的数据独立开发系统,系统可复制性高,可有效降低开发成本及系统负载,也无需各系统提前定义数据格式,减少人工、系统成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明中的一种基于数据资产智能治理方法一实施例的现有技术方案示意图;
图2是本发明中的一种基于数据资产智能治理系统的一实施例的功能模块示意图;
图3是本发明中的一种基于数据资产智能治理方法的一实施例的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
需要注意的是,实施例中列出的Java、Angular 5、CSS、html5、MYBATIS、Javascript等均为常用的编程软件、方式。
实施例1
参考图2为本发明一种基于数据资产智能治理系统的一实施例的功能模块示意图。具体地,一种基于数据资产智能治理系统,包括:
源数据模块1,用于接收上传的不同格式、内容的源数据;
在本实施例中,上传的数据无格式及内容要求,数据的格式可以是关系型、非关系型数据库,txt,json,csv,xml等,同时可接受固定业务模式加密文件等具备安全管理措施的数据格式;
自动分类模块2,与源数据模块相连,用于将所述源数据进行基础分类;
基础分类的步骤包括将所述源数据按照属性、性质分类;比如按:人口,企业,经济,消费,行为,行政等分类,然后存储在不同地址中;
特征匹配模块3,与源数据模块1相连,并与自动分类模块2相连;用于将分类后不同类别的源数据与对应类别预设的特征库进行特征匹配,并得到匹配成功系数;将成功系数与第一预设系数进行比较;若成功系数大于或等于预设成功系数,标记为成功匹配,并将源数据与对应特征库中的数据关联形成价值链库;反之,标记为不成功匹配,并人工更新源数据对应的特征库;
本实施例中,特征库由同一类别的大量数据汇入拟合得到,其中,存在同类别的不同数据的逻辑算法;
在一具体实施例中,源数据经过自动分类模块2的基础分类后,特征匹配模块3接收源数据中的目标数据,并与特征匹配模块3中相同类别的一数据库进行特征匹配,并得到匹配成功系数;若成功系数大于或等于预设成功系数标记为成功匹配,并将该目标数据与对应特征库中的数据关联形成价值链库;反之,标记为不成功匹配,并人工更新源数据对应的特征库;其中,预设成功系数可以根据表表数据对应的公司需求来设定,比如在一具体实施例中,将预设成功系数设为80%;
在本实施例中,特征匹配模块3接收到目标数据后,对目标数据进行自然语言处理,识别出现频率最高的字段,并给出初步数据来源判,假设某一类数据特征为金融相关数据。同样的,自动分类模块,也可以根据系统开发者最先预设的关键字进行匹配,通过关键字段与预设字段的相似度,判断是否属于预设类别,本实施例中,关键字段包括:观察数据,目标数据,模拟数据,噪音数据,特征数据,向量数据等。
在本实施例中,加入特定向量数据,维度数据等来调整特征库,针对数据资源固有数据,用Y表征,成功系数的计算公式为:
其中,X表示关键字段;O为成功系数;Xi代表关键字段维度占比;n表示标准关键特征库维度系数;XN表示标准关键特征库标准系数;j表示自动检测特征库维度系数;Yj代表自动特征维数;m表示自动检测特征库维度;YM为自动检测特征库标准系数;i代表特征关键匹配的维度系数;μ为标准关键特征库的偏差值;μ1为自动检测特征库的偏差值;偏差值指可接受偏差修正数。
自定义模块4,与所述特征匹配模块相连,用于当特征匹配模块标记不成功匹配时,人工维护对应的特征库,新建特征逻辑算法;
本实施例中,当特征匹配模块3标记了不成功匹配后,自定义模块4实时的从数据库中读取对应目标数据,同时根据目标数据样本,可提供开发人员维护特征匹配的建议方案及发送上传用户标注调整某些维度可适用特征匹配的信息或告知提交用户与开发人员联系,得到新建或更新特征库的提示,数据系统会针对性的自适应的已有数据模板,将源数据与系统内已存在的其他特征库进行对比,避免数据无特征值处理、无数据反馈以及流失和丢失数据的问题,同时,本系统也会衍生出数据分析看板,为数据上传部门优化数据源,提供数据分析依据。
循环模块5,与特征匹配模块3相连,并与自定义模块4相连,用于当自定义模块4新建特征逻辑算法后,重新启动特征匹配模块3,将更新过后的特征库与对应源数据进行特征匹配,如若匹配不上,标记为不成功继续启动自定义模块,重复上述步骤,直到特征匹配成功。
本实施例中,在自定义模块4更新特征库后,被标记为不成功匹配对应的目标数据会经过特征匹配模块3,重新与更新后的特征库进行特征匹配,如此循环,直到特征匹配模块3中的特征库能满足源数据模块1中目标数据的特征匹配才停止;
维护模块6,与特征匹配模块3相连,并与自定义模块4相连,用于计算预设时间内的不成功匹配数量占所有匹配数量的比率;将比率与第二预设系数对比;若比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法;
本实施例中,搭建BS架构平台(前端使用Angular 5、CSS、html5等技术,后端使用Java),其中,后端利用MYBATIS技术(映射成数据库中的数据)将特征匹配模块3标记的数据实时的从数据库中读取出来;然后,在前端利用Angular5技术引用Echarts(纯Javascript的图表库)进行图形可视化;
可视化显示源数据是否按照标准进行交流,即标记的不匹配数据与匹配数据,计算预设时间内的不成功匹配数量占所有匹配数量的比率,若比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法,当然第二预设系数可根据公司具体的需求设定,比如在一具体实施例中,第二预设系数设定为5%;
具体地,当比率大于第二预设系数,调用mail(邮件)服务的API(应用程序接口)接口自动发送邮件预警(即首先连接邮件服务连接协议,端口号,设置是否使用ssl(安全套接层)安全连接,设置是否显示Debug(调试)信息会在控制台显示相关信息,得到回话对象,获取邮件对象,设置发件人邮箱地址,设置收件人邮箱地址,设置邮件标题,设置邮件内容,得到邮差对象,连接自己的邮箱账户,密码,发送邮件),并弹窗显示数据匹配问题;然后工作人员收到通知后,调用自定义模块4,更新对应的特征库;
综合评估模块7,与源数据模块1相连,并与自定义模块4相连,用于对价值链库中的数据进行综合评估,当综合评估达到对应业务的预设标准后,使用价值链库中的数据;
在一具体实施例中,当一个目标数据匹配上对应的特征库中的相关数据并形成价值链库后,这个价值链库中的数据即可使用,但在另一实施例中,也可调用综合评估模块7,对价值链库中的数据进行综合评估,更精确的控制优选的数据使用方法;综合评估的计算方式如下:
P=O*Z;
其中,Z表示比例评估系数,它是根据业务源质量,数据源价值,数据成本,数据可复用率,数据时效性等维度定义评估标准,综合得出针对业务场景、应用场景的数据评估系数,O为对应目标数据在特征匹配模块得到的成功系数数据,P为综合评估结果的数据化体现。
实施例2
参考图3,为本发明一种基于数据资产智能治理方法的一实施例的流程示意图,具体地,基于实施例1中的智能治理系统,一种基于数据资产智能治理方法,包括以下步骤:
S10:接收上传的源数据并做基础分类;然后执行步骤S20;
在本实施例中,源数据可以是政府数据,比如:人口数据、国土资源数据、通信数据等等,政府数据资源基数大、类型多且需要保证数据的安全,对政府数据的治理有利于正确开发利用政府数据,实现政府数据价值的最大挖掘利用,从而对社会的建设方向起指导作用;在一具体实施例中,上传的源数据无格式及内容要求,数据的格式可以是关系型、非关系型数据库,txt,json,csv,xml等,同时可接受固定业务模式加密文件等具备安全管理措施的数据格式;
基础分类的步骤包括将源数据按照属性、性质分类;比如按:人口,企业,经济,消费,行为,行政等分类,然后存储在不同地址中,数据存储的格式包括KB,MB,GB,TB,PB,EB,ZB等;
具体地,先对源数据进行自然语言处理,识别出现频率最高的字段,并给出初步数据来源判,假设自然资源数据与文化旅游数据特征为地理相关数据;当然在另一实施例中,也可以根据系统开发者最先预设的关键字进行匹配,通过关键字段与预设字段的相似度,判断是否属于预设类别,本实施例中,关键字段包括:观察数据,目标数据,模拟数据,噪音数据,特征数据,向量数据等。
在一具体实施例中,智能治理系统接收来自政府的自然资源数据与文化旅游数据,他们的格式分别为txt与csv,系统需确认这两类源数据数据格式可识别,如可识别则进入下一步,若不可识别,则针对txt与csv格式进行自然资源数据与文化旅游数据转化,以通用版本格式化半结构化数据,例如符号,特殊文字,数字等逻辑,将数据标准化后的数据存储标准关系型库中备用,接下来可对标准关系型库中标准化后的数据进行分析。
S20:将分类后不同类别的源数据与对应类别的特征库进行特征匹配得到成功系数;然后执行步骤S30;
本实施例中,特征库由同一类别的大量数据汇入拟合得到,其中,存在同类别的不同数据的逻辑算法;
在一具体实施例中,在源数据经过步骤S10的基础分类后,将目标源数据与同类别的一数据库进行特征匹配,并得到匹配成功系数;
在本实施例中,加入特定向量数据,维度数据等来调整特征库,针对一个源数据自适应对应的标准关键特征库和自动检测特征库,成功系数的计算公式为:
其中,X表示关键字段;O为成功系数;Xi代表关键字段维度占比;n表示标准关键特征库维度系数;XN表示标准关键特征库标准系数;j表示自动检测特征库维度系数;Yj代表自动特征维数;m表示自动检测特征库维度;YM为自动检测特征库标准系数;i代表特征关键匹配的维度系数;μ为标准关键特征库的偏差值;μ1为自动检测特征库的偏差值;偏差值指可接受偏差修正数。
本实施例中的标准关键特征库代表源数据中关键字段维度对应类别的特征库,例如步骤S10中的数据格式等构成标准关键特征库;自动检测特征库代表经过特征提取获得有效价值维度的特征库信息,例如步骤S10中按照属性、性质分类的数据可构成该自动检测特征库。这两种特征库内外关联,同一个源数据对应的不同特征库可组合形成业务。
具体地,自然资源数据与文化旅游数据为地理相关数据,数据源模式大小、类型、目标等为基础特征信息(表示特征关键字段X);根据自然资源数据与文化旅游数据中不同的数据格式定义数据特征关键字段维度占比Xi,例如自然资源数据获取关系型数据库的数据格式的权重X1为90%,但Json数据格式的权重X1为70%,根据不同的业务需求,使用两种不同数据格式对应的X1;N代表标准关键特征库数的总特征数;XN指一个源数据自适应生成的标准关键特征库中所有关键字段维度占比的平均数,在实际应用中使用XN时,会根据不同的业务需求,在此基础上增添可修正管理系数;本实施例中的特征库中内容为地理相关逻辑算法,针对维度如地理信息,文本名字等获取到标准关键特征库数据维度列,以统计学方案首次判断每一个维度列中相同单元文本出现的频率A,此过程中淘汰10%分布率低的数据列,在另一实施例中,也需要低分布数据用来与已预设的自动匹配相关字段来判断他的逻辑映射关系;
接着获取数据维度列的TOP序列(名次,数目,数量上的排序);例如,自然资源数据与文化旅游数据中一次获取到的数据维度为地理坐标,生态资源,它的相同单元文本出现的频率为A,然后汇总出每一列维度不同文本出现的总数B,取A/B>20%的信息作为该文档的数据维度C(即自动检测特征库中的维度,),针对源数据数字信息匹配文字类信息做源数据对相应维度信息的数据回归,判断得到文本类信息对数据类信息的回归后的规则率,最终根据文本和数字类信息以聚类分析判断其落在核心簇中的,针对获取到的维度簇数据C来判断与系统中预存的特征库中的数据的匹配度,即得到成功系数;如果本次匹配若成功,证明预留数据库中已存在匹配地理坐标,生态资源等相关维度,确定本次数据为自然资源数据,且系统中预存的特征库中已存在分析此类数据需要的数据指标(即特征库中的逻辑算法);
具体地,将数据簇C中的所有维度根据文本、数字等类别信息与特征库中逻辑算法比例拟合,根据数据簇C的内容信息可以获取土地资源、气候指标、水资源、生物资源、能源资源、矿产资源、海洋资源、旅游资源等相关资源信息,在土地资源中主要可包含:山地面积、平原面积、丘陵面积、耕地面积、园林面积、林地面积、牧草地面积、居民点及工矿用地面积、交通用地面积、耕地增加面积、减少面积、水域面积,未利用土地面积、按权属划分的土地面积,土地资源等信息维度,根据这些维度对应的逻辑算法可以得到自动检测特征库,如,将土地资源认为自动检测特征库中的Y1,气候指标认为Y2,以此类比建立一个源数据对应的自动检测特征库,YM指一个源数据自适应生成的自动检测特征库中所有自动特征维数的平均数,在实际应用中使用YM时,会根据不同的业务需求,在此基础上增添可修正管理系数,最后计算得到成功系数;
当然,本实施例中的自动检测特征库经过同意类别源数据的多次计算学习,会形成该类别固定的自动检测特征库,方便同一类别源数据直接使用,比如多个自然资源数据与文化旅游数据在经过重复计算成功系数的过程中,它们地理坐标、生态资源维度得到的自动检测特征库经过学习形成该维度固定的自动检测特征库,在下一个自然资源数据与文化旅游数据的地理坐标、生态资源维度计算时,不需要在预设的特征库中自适应新的自动检测特征库,而是使用形成的固定自动检测特征库,节约时间。
S30;比较成功系数与第一预设系数的大小;
本实施例中,预设成功系数可以根据表表数据对应的公司需求来设定,比如在一具体实施例中,将预设成功系数设为80%;
若是成功系数小于第一预设系数,则执行步骤S40;
反之,则执行步骤S50;
S40:人工自定义更新对应的特征库;然后执行步骤S41;
本实施例中,当步骤S30中比较出成功系数小于第一预设系数后,标记为不成功匹配,实时的从数据库中读取对应目标数据,同时根据目标数据样本,可提供开发人员维护特征匹配的建议方案及发送上传用户标注调整某些维度可适用特征匹配的信息或告知提交用户与开发人员联系,得到新建或更新特征库的提示,数据系统会针对性的自适应的已有数据模板,将源数据与系统内已存在的其他特征库进行对比,避免数据无特征值处理、无数据反馈以及流失和丢失数据的问题,同时,本系统也会衍生出数据分析看板,为数据上传部门优化数据源,提供数据分析依据。
S41:将源数据与更新的特征库进行特征匹配,得到新的成功系数。
在一具体实施例中,将经过步骤S40更新的到的特征库重新与对应目标数据进行特征匹配,参考步骤S20得到新的成功系数,然后按顺序进行步骤S30,直到步骤S40中更新的特征库能与对应目标数据特征匹配成功,进入步骤S50为止;
S50:将源数据与在对应特征库中匹配的数据关联形成价值链库;然后执行步骤S51;
本实施例中,当步骤S30中比较出成功系数大于或等于第一预设系数后,标记为成功匹配,并将该目标数据与对应特征库中的数据关联形成价值链库,在本实施例中步骤S20中举例的自然资源数据与文化旅游数据与自适应得到的自动检测特征库(数据簇C)和标准关键特征库关联形成价值链库;
S51:从价值链库中取出数据直接应用。
在一具体实施例中,当一个目标数据匹配上对应的特征库中的相关数据并形成价值链库后,这个价值链库中的数据即可使用,但在另一实施例中,也可对价值链库中的数据进行综合评估,更精确的控制优选的数据使用方法;综合评估的计算方式如下:
P=O*Z;
其中;Z表示比例评估系数,它是根据业务源质量,数据源价值,数据成本,数据可复用率,数据时效性等维度定义评估标准,综合得出针对业务场景、应用场景的数据评估系数,O为对应目标数据在特征匹配模块得到的成功系数数据,P为综合评估结果的数据化体现。
在实际过程中,因为数据的多样性,因此可能某一类别的特征库中的逻辑算法已不足以满足某源数据的特征拟合,因此在一些实施例中,计算预设时间内步骤S40和S50中的不成功匹配数量占所有匹配数量的比率;将比率与第二预设系数对比;若比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法;
本实施例中,搭建BS架构平台(前端使用Angular 5、CSS、html5等技术,后端使用Java),其中,后端利用MYBATIS技术(映射成数据库中的数据)将标记的数据实时的从数据库中读取出来;然后,在前端利用Angular5技术引用Echarts进行图形可视化,通过可视化得到比率的数值;
可视化的显示源数据是否按照标准进行交流,即标记的不匹配数据与匹配数据,计算预设时间内的不成功匹配数量占所有匹配数量的比率,若比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法,当然第二预设系数可根据公司具体的需求设定,比如在一具体实施例中,第二预设系数设定为5%;
具体地,当比率大于第二预设系数,调用mail服务的API接口自动发送邮件预警(即首先连接邮件服务连接协议,端口号,设置是否使用ssl安全连接,设置是否显示Debug信息会在控制台显示相关信息,得到回话对象,获取邮件对象,设置发件人邮箱地址,设置收件人邮箱地址,设置邮件标题,设置邮件内容,得到邮差对象,连接自己的邮箱账户,密码,发送邮件),并弹窗显示数据匹配问题;然后工作人员收到通知后,执行步骤S40,更新对应的特征库。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种基于数据资产智能治理方法,其特征在于,包括以下步骤:
接收上传的不同格式、内容源数据并做基础分类;
将分类后不同类别的源数据与对应类别预设的特征库进行特征匹配,并得到匹配成功系数;所述成功系数的计算方式为:
其中;O为成功系数;Xi代表关键字段维度占比;n表示标准关键特征库维度系数;XN表示标准关键特征库标准系数;j表示自动检测特征库维度系数;Yj代表自动特征维数;m表示自动检测特征库维度;YM为自动检测特征库标准系数;i代表特征关键匹配的维度系数;μ为标准关键特征库的偏差值;μ1为自动检测特征库的偏差值;
将所述成功系数与第一预设系数进行比较;
若所述成功系数大于或等于预设成功系数,标记为成功匹配,并将所述源数据与对应特征库中的数据关联形成价值链库;
反之,标记为不成功匹配,并人工更新所述源数据对应的特征库。
2.根据权利要求1所述的方法,其特征在于,所述人工更新所述源数据对应的特征库的步骤还包括:
将源数据与更新的特征库进行特征匹配,得到新的成功系数;
将新的成功系数与第一预设系数进行比较。
3.根据权利要求1-2中任一项所述的方法,其特征在于,还包括步骤:
计算预设时间内的所述不成功匹配数量占所有匹配数量的比率;
将所述比率与第二预设系数对比;
若所述比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法。
4.根据权利要求1所述的治理方法,其特征在于,还包括步骤:
直接使用所述价值链库中的数据;和/或,对所述价值链库中的数据进行综合评估,当综合评估达到对应业务的预设标准后使用。
5.一种基于数据资产智能治理系统,其特征在于,包括:
源数据模块,用于接收上传的不同格式、内容的源数据;
自动分类模块,与源数据模块相连,用于将所述源数据进行基础分类;
特征匹配模块,与所述源数据模块相连并与所述自动分类模块相连;用于将分类后不同类别的源数据与对应类别预设的特征库(特征库)进行特征匹配,并得到匹配成功系数;然后将所述成功系数与第一预设系数进行比较;若所述成功系数大于或等于预设成功系数,标记为成功匹配,并将所述源数据与对应特征库中的数据关联形成价值链库;反之,标记为不成功匹配,并人工更新所述源数据对应的特征库;所述成功系数的计算方式为:
其中;O为成功系数;Xi代表关键字段维度占比;n表示标准关键特征库维度系数;XN表示标准关键特征库标准系数;j表示自动检测特征库维度系数;Yj代表自动特征维数;m表示自动检测特征库维度;YM为自动检测特征库标准系数;i代表特征关键匹配的维度系数;μ为标准关键特征库的偏差值;μ1为自动检测特征库的偏差值;
自定义模块,与所述特征匹配模块相连,用于当特征匹配模块标记不成功匹配时,人工维护对应的特征库,新建特征逻辑算法;
6.根据权利要求5所述的系统,其特征在于,基础分类的步骤包括将所述源数据按照属性、性质分类并存储在不同地址中。
7.根据权利要求6所述的系统,其特征在于,还包括循环模块,与所述特征匹配模块相连,并与所述自定义模块相连,用于当自定义模块新建特征逻辑算法后,重新启动特征匹配模块,将更新过后的特征库与对应源数据进行特征匹配,如若匹配不上,标记为不成功继续启动自定义模块,重复上述步骤,直到特征匹配成功。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
维护模块,与所述特征匹配模块相连,并与所述自定义模块相连,用于计算预设时间内的所述不成功匹配数量占所有匹配数量的比率;将所述比率与第二预设系数对比;若所述比率大于第二预设系数,则人工维护对应的特征库,新建特征逻辑算法。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括:综合评估模块,与所述源数据模块相连,并与所述自定义模块相连,用于对所述价值链库中的数据进行综合评估,当综合评估达到对应业务的预设标准后使用所述价值链库中的数据。
CN202010066955.2A 2020-01-20 2020-01-20 一种基于数据资产智能治理方法及系统 Active CN111274301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010066955.2A CN111274301B (zh) 2020-01-20 2020-01-20 一种基于数据资产智能治理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010066955.2A CN111274301B (zh) 2020-01-20 2020-01-20 一种基于数据资产智能治理方法及系统

Publications (2)

Publication Number Publication Date
CN111274301A CN111274301A (zh) 2020-06-12
CN111274301B true CN111274301B (zh) 2023-08-29

Family

ID=71001858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010066955.2A Active CN111274301B (zh) 2020-01-20 2020-01-20 一种基于数据资产智能治理方法及系统

Country Status (1)

Country Link
CN (1) CN111274301B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966604B (zh) * 2021-03-05 2022-08-26 上海深硅信息科技有限公司 一种多维度行为识别方法
CN114778986A (zh) * 2022-05-10 2022-07-22 国网天津市电力公司 一种继电保护及安全自动装置智能调测方法
CN116541449B (zh) * 2023-05-12 2023-10-13 河南铭视科技股份有限公司 一种烟草多源异构数据的集成分析方法及系统
CN117828539B (zh) * 2024-03-06 2024-05-24 昆明智合力兴信息系统集成有限公司 数据智能融合分析系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995023482A1 (en) * 1994-02-28 1995-08-31 British Telecommunications Public Limited Company Feature provisioning and monitoring in communications networks
CN104462216A (zh) * 2014-11-06 2015-03-25 上海南洋万邦软件技术有限公司 居委标准代码转换系统及方法
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法
CN108769255A (zh) * 2018-06-26 2018-11-06 铭阳数通科技(西安)有限公司 企业数据的采集和治理方法
CN109145031A (zh) * 2018-08-20 2019-01-04 国网安徽省电力有限公司合肥供电公司 一种面向业务市场接入需求的多源数据多维重构方法
CN109711685A (zh) * 2018-12-14 2019-05-03 杨冰之 一种政务大数据处理平台
CN110097278A (zh) * 2019-04-28 2019-08-06 广东省科技基础条件平台中心 一种科技资源智能共享融合训练系统和应用系统
CN110287359A (zh) * 2019-06-25 2019-09-27 启迪数华科技有限公司 一种基于大数据的城市人机感知交互系统及方法
CN110570127A (zh) * 2019-09-12 2019-12-13 启迪数华科技有限公司 一种智能公交系统、车辆运行调度方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818126B1 (en) * 2016-04-20 2017-11-14 Deep Labs Inc. Systems and methods for sensor data analysis through machine learning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995023482A1 (en) * 1994-02-28 1995-08-31 British Telecommunications Public Limited Company Feature provisioning and monitoring in communications networks
CN104462216A (zh) * 2014-11-06 2015-03-25 上海南洋万邦软件技术有限公司 居委标准代码转换系统及方法
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法
CN108769255A (zh) * 2018-06-26 2018-11-06 铭阳数通科技(西安)有限公司 企业数据的采集和治理方法
CN109145031A (zh) * 2018-08-20 2019-01-04 国网安徽省电力有限公司合肥供电公司 一种面向业务市场接入需求的多源数据多维重构方法
CN109711685A (zh) * 2018-12-14 2019-05-03 杨冰之 一种政务大数据处理平台
CN110097278A (zh) * 2019-04-28 2019-08-06 广东省科技基础条件平台中心 一种科技资源智能共享融合训练系统和应用系统
CN110287359A (zh) * 2019-06-25 2019-09-27 启迪数华科技有限公司 一种基于大数据的城市人机感知交互系统及方法
CN110570127A (zh) * 2019-09-12 2019-12-13 启迪数华科技有限公司 一种智能公交系统、车辆运行调度方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
fx ren等."general traffic sign recognition by feature matching".《IEEE》.2009,全文. *

Also Published As

Publication number Publication date
CN111274301A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274301B (zh) 一种基于数据资产智能治理方法及系统
CN111831636B (zh) 一种数据处理方法、装置、计算机系统及可读存储介质
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
CN108470022B (zh) 一种基于运维管理的智能工单质检方法
CN106067094A (zh) 一种动态评估方法及系统
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN115794803B (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN112506860A (zh) 基于区块链的协同审计方法、装置及系统
CN111581222A (zh) 业务数据的关联分析方法、装置、计算机设备及计算机存储介质
CN113032496A (zh) 一种基于产业知识图谱的产业大脑数据分析系统
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
Visalli et al. ESG Data Collection with Adaptive AI.
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN114186974A (zh) 一种多模型融合的开发任务关联方法、装置、设备及介质
CN113656545A (zh) 智能面试方法、装置、计算机设备及存储介质
Santos et al. Towards a seco for carbon credit control
CN111258953A (zh) 一种财务数据转换成评估数据规范化的方法
CN115082174B (zh) 债券质控相似识别方法、装置、计算机设备及存储介质
Zhang et al. Identification research of Trichagalma glabrosa insect gall pests based on YOLOv5s
CN115062107B (zh) 社会场景自动识别及其检查计划动态生成方法
CN118035507B (zh) 基于数据挖掘技术的数据查询系统及方法
CN118332407A (zh) 自动化进行数据识别分类分级的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230731

Address after: 401329 Building 1, No. 21, Fengsheng Road, Jinfeng Town, high tech Zone, Jiulongpo District, Chongqing

Applicant after: Guoyun Digital Technology (Chongqing) Co.,Ltd.

Address before: Room 401, Building 5, Qidi Science and Technology Park, No. 69 Torch Avenue, Jiulongpo District, Chongqing, 400039

Applicant before: Enlightenment Shuhua Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant