CN113934868A - 政务大数据治理方法及系统 - Google Patents

政务大数据治理方法及系统 Download PDF

Info

Publication number
CN113934868A
CN113934868A CN202111198971.8A CN202111198971A CN113934868A CN 113934868 A CN113934868 A CN 113934868A CN 202111198971 A CN202111198971 A CN 202111198971A CN 113934868 A CN113934868 A CN 113934868A
Authority
CN
China
Prior art keywords
data
matching
standard
standardized
data element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111198971.8A
Other languages
English (en)
Inventor
李晓
吴士伟
曹建
杜鹏飞
孙露
李扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Ecloud Information Technology Co ltd
Original Assignee
Shandong Ecloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Ecloud Information Technology Co ltd filed Critical Shandong Ecloud Information Technology Co ltd
Priority to CN202111198971.8A priority Critical patent/CN113934868A/zh
Publication of CN113934868A publication Critical patent/CN113934868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了政务大数据治理方法及系统,包括:构建标准化数据元池;将原始数据项与标准化数据元进行映射,进行数据的匹配并获得匹配结果;根据匹配结果启动数据转换任务,对不满足标准要求的数据重新进行数据质量处理。本发明构建标准化数据元池实现政务主数据管理,统一不同部门不同系统来源的同类数据标准,降低组织内部数据使用和整合的成本及复杂性。本发明基于数据的映射实现数据表相关信息项的元数据与对应的标准数据元的映射,极大减少了数据标准化的人工工作量。

Description

政务大数据治理方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及政务大数据治理方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
PDCA为一个数据治理任务管理方式。
政务数据治理是一项长期繁杂需要持续运营的工作,从技术的视角来看,传统的政务数据治理方法从数据目录梳理入手,继而构建基础库、主题库,针对基础库、主题库对应的数据,通过数据质量分析发现数据质量问题,提出改进意见,上述方案在实际操作中存在三个问题:
一是,基础数据缺乏统一标准,基础库数据来源于多个部门,针对不同部门不同系统间同类数据标准不统一,治理困难。
二是,数据质量规范性检查工作量庞大,政务数据涉及到不同行业的数据,标准梳理与数据规范性检查涉及的数据表数据量极为庞大,需要人工逐个制定检查规则。
三是,现有技术仅仅针对数据进行了简单的预处理工作,并没有与具体的数据要求进行结合,在数据展示上无法获得所需的数据,且整个数据处理并没有进行高效的并准确的处理,导致治理依然存在数据之间的关联性不强或者数据流断层以及调用数据时无法实现快速获取所需数据等技术问题。
发明内容
为克服上述现有技术的不足,本发明提供了政务大数据治理方法,能够加强多元数据的统筹治理能力。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了政务大数据治理方法,包括:
构建标准化数据元池;
将原始数据项与标准化数据元进行映射,进行数据的匹配并获得匹配结果;
根据匹配结果启动数据转换任务,对不满足标准要求的数据重新进行数据质量处理。
进一步的技术方案,构建标准化数据元池之前还包括:基于业务系统、数据库、文件存储信息,制定数据资源目录,建立全域政务数据资源清单。
进一步的技术方案,建立全域政务数据资源清单的过程为:
目录梳理:以信息系统普查为切入点,根据数据库表结构梳理各部门业务系统产生数据的信息资源目录,包括目录编号、目录名称、来源部门、来源系统、目录包含的信息项、目录对应的数据量、目录共享属性信息;
数据归集:以部门为单位,按照部门目录清单,通过库表对接方式采集目录对应的信息资源,进入统一的数据存储中心;
构建自然人和法人基础库,根据自然人与法人基础库目录清单,归集相应的数据,形成人口和法人基础信息资源库。
进一步的技术方案,构建标准化数据元池时,统一字段的命名、格式、长度,基于标准数据元池进行信息资源信息项的编目,控制新增字段,使得共性数据元具有统一标准。
进一步的技术方案,构建标准化数据元池具体步骤为:
确定基础数据元:从数据资源目录清单里,识别出基础、关键、各部门间通用的数据元;
制定基础数据元的数据标准:按照“一数一源一标准”的原则,参考行业标准、国家标准、地方标准以及部门自建标准,确定基础数据元的数据标准以及来源;
构建标准化数据元池:统一不同部门不同系统来源的同类数据标准。
进一步的技术方案,数据的匹配后按照标准数据元的类型、长度、值域对相应的数据项进行符合度检测。
进一步的技术方案,将原始数据项与标准化数据元进行映射,具体为:
选择需要治理的数据表,通过读取表的元数据信息,与标准数据元池的数据元进行比对,通过智能匹配算法,实现数据表相关信息项的元数据与对应的标准数据元的映射。
进一步的技术方案,智能匹配算法,匹配流程如下:
严格匹配:数据项与数据元池里的数据元中文名称、数据元类型一致;
名称匹配:数据项与数据元池里的数据元中文名称一致;
后缀匹配:通过自定义数据元词典,采用基于词典的逆向最大匹配法,将数据项进行分词,根据分词结果匹配相应的数据元;
相似度匹配:数据项与数据元池里的数据元中文名称相似度超过85%;
通过距离编辑算法,计算数据项与数据元在结构上的相似程度;
查找数据项与数据元包含相同语素的个数;
为数据项与数据元的每个语素按照重心后移的原则分配权重,分别计算两个词语权重总和;
查找数据项与数据元的最长公共子序列,按照为语素分类的权重值,分别计算它们的最长公共子序列中包含语素的权重和。
进一步的技术方案,根据映射结果,自动生成数据表的信息项元数据是否与标准化数据元一致的检测规则,生成质量检测报告,不符合标准要求的数据及时进行修正,包括针对性的清洗和比对。
第二方面,公开了基于融合应用牵引与PDCA驱动的政务大数据治理系统,包括:
标准化数据元池构建模块,被配置为:构建标准化数据元池;
匹配模块,被配置为:将原始数据项与标准化数据元进行映射,进行数据的匹配并获得匹配结果;
根据匹配结果启动数据转换任务,对不满足标准要求的数据重新进行数据质量处理。
以上一个或多个技术方案存在以下有益效果:
本发明构建标准化数据元池实现政务主数据管理,统一不同部门不同系统来源的同类数据标准,降低组织内部数据使用和整合的成本及复杂性。
本发明基于数据的映射实现数据表相关信息项的元数据与对应的标准数据元的映射,极大减少了数据标准化的人工工作量。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例流程图;
图2为本发明实施例具体例子界面图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了基于融合应用牵引与PDCA驱动的政务大数据治理方法,通过融合应用牵引与PDCA驱动循环推进的模式保证数据治理工作落地。采用自下而上与自上而下相结合的方式,一方面以资产盘点+平台驱动的方式,自下而上梳理数据资源目录,构建标准化数据元池,搭建数据治理平台,按照标准要求进行数据质量检测,通过数据治理平台实现问题数据的清洗、转换,统一数据标准。另一方面,以场景化的数据应用为牵引,梳理业务与数据需求,通过数据探查、数据分析等工作,识别出数据问题,建立PDCA数据治理任务,不断优化提升数据质量。具体流程图如附图1。
附图1中,原始库之前先不做治理,汇聚之后在做治理,选数据通过数据治理平台实现,可以算去要做质量检查的数据,API:治理之后的数据发布成对外提供服务的接口,使用者可以直接调用API获取数据。
本发明融合应用的是指以数据应用/场景应用,尤其是需要数据整合、融合之后的应用场景为切入点,开展数据治理。
资产盘点+平台驱动的方式结合的方式是指:平台(系统)对资产盘点工作提供支撑,通过平台更加智能化、便捷、高效的推进资产盘点工作。
需要说明的是,治理数据需要提前梳理、编制数据标准,此标准,指代的就是提前制定好的数据标准。
政务大数据治理方法,具体包括以下步骤:
步骤一:资产盘点,理清数据关系,形成数据资源目录;
步骤二:评估数据治理成熟度,确定数据治理目标;
步骤三:建立核心数据元标准,形成标准化数据元池;
步骤四:进行智能化数据元标准匹配,生成数据质量分析报告;
步骤五:分析质量问题,制定清洗任务,提升数据质量;
步骤六:拆解数据治理总体目标,制定数据治理阶段性目标计划,根据阶段性目标计划,选定具体应用,开启数据治理PDCA任务;
步骤七:制定季度计分卡评分标准,督查考核数据治理成果;
步骤一具体包括以下内容:通过全面的政务信息资源清单梳理调研,梳理已有的业务系统、数据库、文件存储等信息,制定数据资源目录,建立全域政务数据资源清单。
具体包括:
目录梳理:以信息系统普查为切入点,根据数据库表结构梳理各部门业务系统产生数据的信息资源目录,包括目录编号、目录名称、来源部门、来源系统、目录包含的信息项、目录对应的数据量、目录共享属性等信息。
数据归集:以部门为单位,按照部门目录清单,通过库表对接方式采集目录对应的信息资源,进入统一的数据存储中心。其中,数据存储中心包含人口库、法人库。
构建自然人和法人基础库:根据自然人与法人基础库目录清单,归集相应的数据,形成人口和法人基础信息资源库。
步骤二具体包括以下内容:执行数据治理成熟度评估,了解各维度数据治理现状,制定可操作性的数据治理总体目标。
步骤三具体包括以下内容:通过对数据元标准梳理、评估,筛选出共性、关键的数据元,建立涉及核心数据的标准化数据元池,对字段的命名、格式、长度等进行规范,依托标准数据元池进行信息资源信息项的编目,严格控制新增字段,实现共性数据元的统一标准规范,推动数据规范的落地执行。
新增字段时,设置统一的管理中心,新增与删除需要管理中心的审批,实现共性关键的数据元共享。
具体包括:
确定基础数据元:结合基础库指自然人和法人基础库建设,从数据资源目录清单里,识别出基础、关键、各部门间通用的数据元,作为政务数据的“主数据”纳入标准化资源池进行统一管理。比如人口基本信息目录里面姓名、性别、身份证号、出生日期、民族等信息项;法人基本信息目录里面企业名称、统一社会信用代码、注册日期、注册资本等信息项,均可作为标准化数据元进行管理。
制定基础数据元的数据标准:按照“一数一源一标准”的原则,具体为:一个数据元(字段)有一个唯一的权威来源(数据产生源头)一个唯一的标准,参考行业标准、国家标准、地方标准以及部门自建标准,确定基础数据元的数据标准以及权威来源。比如自然人姓名、性别、身份证号可以采用GA行业标准定义,并以公安部门的数据为权威来源。
构建标准化数据元池:标准化的数据元池实现政务主数据管理,统一不同部门不同系统来源的同类数据标准,降低组织内部数据使用和整合的成本及复杂性,数据元标准视图如附图2。
统一不同部门不同系统来源的同类数据标准时,涉及到数据标准落地的措施,采用数据中心映射的方式,就是转化,不同部门来源的数据,汇聚到数据存储中心的时候,与中心的数据标准进行映射/转化。
步骤四具体包括以下内容:智能化数据元标准匹配,生成数据质量分析报告;待治理的数据集的数据项与标准数据元池的数据元进行映射匹配,按照标准数据元的类型、长度、值域对相应的数据项进行符合度检测,不符合的会被检测出来,标记为问题数据。
具体包括:
A自动映射:选择需要治理的数据表,通过读取表的元数据信息,与标准数据元池的数据元进行比对,二者通过智能匹配算法,实现数据表相关信息项的元数据与对应的标准数据元的映射,极大减少了数据标准化的人工工作量。
具体匹配流程如下:
严格匹配:数据项与数据元池里的数据元中文名称、数据元类型一致;
名称匹配:数据项与数据元池里的数据元中文名称一致;
后缀匹配:通过自定义数据元词典,采用基于词典的逆向最大匹配法,将数据项进行分词,根据分词结果匹配相应的数据元。
相似度匹配:数据项与数据元池里的数据元中文名称相似度超过85%;
实际操作时,若严格匹配不成立,执行名称匹配,名称匹配不成立,执行后缀匹配,直到执行到相似度匹配,还不匹配,智能匹配失败,后期需要人工调整。
其中,相似度匹配算法的执行步骤:
通过距离编辑算法,计算数据项与数据元在结构上的相似程度;
查找数据项与数据元包含相同语素的个数;
为数据项与数据元的每个语素按照重心后移的原则分配权重,分别计算两个词语权重总和;
查找数据项与数据元的最长公共子序列,按照为语素分类的权重值,分别计算它们的最长公共子序列中包含语素的权重和。
B自动生成质量检测规则,根据映射结果,自动生成数据表的信息项元数据如数据类型、长度等是否与标准化数据元一致的检测规则,生成质量检测报告,发现不符合标准要求的数据及时进行修正。
步骤五,具体包括以下内容:基于数据质量分析的结果,对不满足标准要求的数据进行针对性的清洗和比对,提升数据质量,同时制定政务数据资源的更新、审核与维护机制。
步骤六具体包括以下内容:分主题、分应用的推动数据治理,选取业务场景,评估当前支撑场景化应用的数据现状,分解数据治理总体目标,确定阶段性数据治理目标,制定数据治理PDCA任务,通过设置业务逻辑规则实现对数据的合法性、合理性进行检查和分析,对数据质量进行事前、事中、事后的全过程监控,并实施数据治理闭环管理。
对数据质量进行事前、事中、事后的全过程监控,具体为:治理前:进行数据质量评估,治理中:展示数据治理成果及当前质量提升情况(问题数据整改情况),治理后:再次进行数据质量评估。
以政务数据支撑教育资源规划场景应用为例。
根据应用需求确认所需数据,如户籍人口信息、出生证明信息、不动产登记信息、企业法人信息等。
对数据质量情况进行初步检测,出具质量检测报告;
启动PDCA专项治理任务
P:根据数据需求制定数据治理专项计划,指定责任人,落实时间要求;
D:制定数据质量检测规则,比如需根据户籍信息中的出生日期筛选出5年内适龄儿童,要求出生日期不能为空。
D-1制定数据业务处理规则:根据业务要求需生成适龄儿童基本信息表,信息表中身份证信息加密、姓名信息脱敏、住址信息脱敏。
D-2根据数据质量检测规则与业务处理规则,通过清洗工具实现数据清洗,提升数据质量。
C:根据数据质量检测规则与业务处理规则,对数据质量进行检查,发现问题。
A:对发现的数据质量问题,进行处理。
步骤七具体包括以下内容:围绕数据战略、数据治理、数据架构、数据应用、数据标准、数据安全、数据质量、数据生存周期等8个能力域,制定季度数据治理计分卡,每季度针对计分卡进行打分考核,推进数据治理总体目标实现。
本发明通过数据治理能力成熟度评估,分析当前现状,制定远期治理目标,从业务场景创新应用的角度对数据治理总体任务进行拆解,以融合好人应用为牵引,以数据治理阶段性螺旋上升的PDCA任务为基础,建设闭环的数据治理方法,解决数据治理创新不足、落地不足的问题,通过闭环的数据治理和闭环的数据应用反馈机制,保证了数据生态的持续优化、完善。
本发明基于“主数据管理”的理念,构建基础数据、关键数据、各部门通用数据的标准化数据元池,实现关键数据元的统一管理,通过智能匹配算法,自动实现原始数据项与标准化数据元的映射关系,从而自动生成质量检查规则,减少人工工作量,根据检测结果启动数据转换任务,统一数据标准。
本发明根据数据治理成熟度评估结果,制定数据治理总体目标与季度评分卡,从业务场景创新的角度,制定若干个PDCA闭环数据治理任务,季度通过计分卡对治理成果进行考核评分,逐步推进数据治理工作落地见效。
最终为政务数据共享应用提供完整、及时以及高质量的数据资源。
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
实施例四
本实施例的目的是提供基于融合应用牵引与PDCA驱动的政务大数据治理系统,包括:
标准化数据元池构建模块,被配置为:构建标准化数据元池;
匹配模块,被配置为:将原始数据项与标准化数据元进行映射,进行数据的匹配并获得匹配结果;
根据匹配结果启动数据转换任务,对不满足标准要求的数据重新进行数据质量处理。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.政务大数据治理方法,其特征是,包括:
构建标准化数据元池;
将原始数据项与标准化数据元进行映射,进行数据的匹配并获得匹配结果;
根据匹配结果启动数据转换任务,对不满足标准要求的数据重新进行数据质量处理。
2.如权利要求1所述的政务大数据治理方法,其特征是,构建标准化数据元池之前还包括:基于业务系统、数据库、文件存储信息,制定数据资源目录,建立全域政务数据资源清单。
3.如权利要求2所述的政务大数据治理方法,其特征是,建立全域政务数据资源清单的过程为:
目录梳理:以信息系统普查为切入点,根据数据库表结构梳理各部门业务系统产生数据的信息资源目录,包括目录编号、目录名称、来源部门、来源系统、目录包含的信息项、目录对应的数据量、目录共享属性信息;
数据归集:以部门为单位,按照部门目录清单,通过库表对接方式采集目录对应的信息资源,进入统一的数据存储中心;
构建自然人和法人基础库,根据自然人与法人基础库目录清单,归集相应的数据,形成人口和法人基础信息资源库。
4.如权利要求1所述的政务大数据治理方法,其特征是,构建标准化数据元池时,统一字段的命名、格式、长度,基于标准数据元池进行信息资源信息项的编目,控制新增字段,使得共性数据元具有统一标准。
5.如权利要求1所述的政务大数据治理方法,其特征是,构建标准化数据元池具体步骤为:
确定基础数据元:从数据资源目录清单里,识别出基础、关键、各部门间通用的数据元;
制定基础数据元的数据标准:按照“一数一源一标准”的原则,参考行业标准、国家标准、地方标准以及部门自建标准,确定基础数据元的数据标准以及来源;
构建标准化数据元池:统一不同部门不同系统来源的同类数据标准。
6.如权利要求1所述的政务大数据治理方法,其特征是,数据的匹配后按照标准数据元的类型、长度、值域对相应的数据项进行符合度检测;
优选的,将原始数据项与标准化数据元进行映射,具体为:
选择需要治理的数据表,通过读取表的元数据信息,与标准数据元池的数据元进行比对,通过智能匹配算法,实现数据表相关信息项的元数据与对应的标准数据元的映射。
7.如权利要求6所述的政务大数据治理方法,其特征是,智能匹配算法,匹配流程如下:
严格匹配:数据项与数据元池里的数据元中文名称、数据元类型一致;
名称匹配:数据项与数据元池里的数据元中文名称一致;
后缀匹配:通过自定义数据元词典,采用基于词典的逆向最大匹配法,将数据项进行分词,根据分词结果匹配相应的数据元;
相似度匹配:数据项与数据元池里的数据元中文名称相似度超过85%;
通过距离编辑算法,计算数据项与数据元在结构上的相似程度;
查找数据项与数据元包含相同语素的个数;
为数据项与数据元的每个语素按照重心后移的原则分配权重,分别计算两个词语权重总和;
查找数据项与数据元的最长公共子序列,按照为语素分类的权重值,分别计算它们的最长公共子序列中包含语素的权重和;
优选的,根据映射结果,自动生成数据表的信息项元数据是否与标准化数据元一致的检测规则,生成质量检测报告,不符合标准要求的数据及时进行修正,包括针对性的清洗和比对。
8.政务大数据治理系统,其特征是,包括:
标准化数据元池构建模块,被配置为:构建标准化数据元池;
匹配模块,被配置为:将原始数据项与标准化数据元进行映射,进行数据的匹配并获得匹配结果;
根据匹配结果启动数据转换任务,对不满足标准要求的数据重新进行数据质量处理。
9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。
CN202111198971.8A 2021-10-14 2021-10-14 政务大数据治理方法及系统 Pending CN113934868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111198971.8A CN113934868A (zh) 2021-10-14 2021-10-14 政务大数据治理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111198971.8A CN113934868A (zh) 2021-10-14 2021-10-14 政务大数据治理方法及系统

Publications (1)

Publication Number Publication Date
CN113934868A true CN113934868A (zh) 2022-01-14

Family

ID=79279383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111198971.8A Pending CN113934868A (zh) 2021-10-14 2021-10-14 政务大数据治理方法及系统

Country Status (1)

Country Link
CN (1) CN113934868A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416714A (zh) * 2022-01-18 2022-04-29 军事科学院系统工程研究院后勤科学与技术研究所 数据治理系统
CN115310869A (zh) * 2022-09-29 2022-11-08 安徽商信政通信息技术股份有限公司 一种督查事项的联合督查方法、系统、设备以及存储介质
CN116186640A (zh) * 2023-02-23 2023-05-30 山东中翰软件有限公司 企业数据治理的迭代优化方法及系统
CN116226786A (zh) * 2023-03-22 2023-06-06 中国人民解放军军事科学院系统工程研究院 一种用于信息系统数据融合的数据处理方法及装置
CN116523466A (zh) * 2023-05-06 2023-08-01 福建凯邦锦纶科技有限公司 一种基于大数据的生产资料溯源系统和方法
CN116777288A (zh) * 2023-06-28 2023-09-19 广东裕太科技有限公司 一种政务系统信息整合系统及其应用方法
CN117235077A (zh) * 2023-11-15 2023-12-15 青岛民航凯亚系统集成有限公司 一种基于数据编织的机场智能化数据治理方法及系统
CN117648388A (zh) * 2024-01-29 2024-03-05 成都七柱智慧科技有限公司 一种可视化的安全实时的数据仓库实现方法及其系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416714A (zh) * 2022-01-18 2022-04-29 军事科学院系统工程研究院后勤科学与技术研究所 数据治理系统
CN115310869A (zh) * 2022-09-29 2022-11-08 安徽商信政通信息技术股份有限公司 一种督查事项的联合督查方法、系统、设备以及存储介质
CN116186640A (zh) * 2023-02-23 2023-05-30 山东中翰软件有限公司 企业数据治理的迭代优化方法及系统
CN116186640B (zh) * 2023-02-23 2023-10-27 山东中翰软件有限公司 企业数据治理的迭代优化方法及系统
CN116226786A (zh) * 2023-03-22 2023-06-06 中国人民解放军军事科学院系统工程研究院 一种用于信息系统数据融合的数据处理方法及装置
CN116226786B (zh) * 2023-03-22 2023-08-22 中国人民解放军军事科学院系统工程研究院 一种用于信息系统数据融合的数据处理方法及装置
CN116523466B (zh) * 2023-05-06 2023-11-03 福建凯邦锦纶科技有限公司 一种基于大数据的生产资料溯源系统和方法
CN116523466A (zh) * 2023-05-06 2023-08-01 福建凯邦锦纶科技有限公司 一种基于大数据的生产资料溯源系统和方法
CN116777288A (zh) * 2023-06-28 2023-09-19 广东裕太科技有限公司 一种政务系统信息整合系统及其应用方法
CN116777288B (zh) * 2023-06-28 2024-03-12 广东裕太科技有限公司 一种政务系统信息整合系统及其应用方法
CN117235077A (zh) * 2023-11-15 2023-12-15 青岛民航凯亚系统集成有限公司 一种基于数据编织的机场智能化数据治理方法及系统
CN117235077B (zh) * 2023-11-15 2024-03-08 青岛民航凯亚系统集成有限公司 一种基于数据编织的机场智能化数据治理方法及系统
CN117648388A (zh) * 2024-01-29 2024-03-05 成都七柱智慧科技有限公司 一种可视化的安全实时的数据仓库实现方法及其系统
CN117648388B (zh) * 2024-01-29 2024-04-12 成都七柱智慧科技有限公司 一种可视化的安全实时的数据仓库实现方法及其系统

Similar Documents

Publication Publication Date Title
CN113934868A (zh) 政务大数据治理方法及系统
CN112184525B (zh) 通过自然语义分析实现智能匹配推荐的系统及方法
CN110569369A (zh) 银行金融系统知识图谱的生成方法及装置、应用方法及装置
KR102318103B1 (ko) 구직자-구인자 매칭의 합격 여부 판단을 위한 기계 학습 방법 및 이를 이용한 추천 장치
CN107436875A (zh) 文本分类方法及装置
EP3671526A1 (en) Dependency graph based natural language processing
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
US10579651B1 (en) Method, system, and program for evaluating intellectual property right
CN110727852A (zh) 一种推送招聘推荐服务的方法、装置及终端
CN111737485A (zh) 基于知识图谱、深度学习的人岗匹配方法、人岗匹配系统
US20160217427A1 (en) Systems, methods, and devices for implementing a referral processing engine
CN111553137A (zh) 报告生成方法、装置、存储介质及计算机设备
Clements et al. The business goals viewpoint
CN115329207B (zh) 智能销售信息推荐方法及系统
US20190303424A1 (en) Novel and innovative computer system and method for accurately and consistently automating the coding of timekeeping activities and expenses, and automatically assessing the reasonableness of amounts of time billed for those activities and expenses, through the use of supervised and unsupervised machine learning, as well as lexical, statistical, and multivariate modelling of billing entries
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
Wang et al. Analysing CV corpus for finding suitable candidates using knowledge graph and BERT
CN105511869A (zh) 一种基于用户反馈的需求跟踪系统及方法
CN114817573A (zh) 知识图谱的知识管理平台
Nedumov et al. Automation of data normalization for implementing master data management systems
US20160217216A1 (en) Systems, methods, and devices for implementing a referral search
US20230072607A1 (en) Data augmentation and enrichment
US20160217425A1 (en) Systems, methods, and devices for implementing a referral processor
CN116756373A (zh) 基于知识图谱更新的项目评审专家筛选方法、系统及介质
KR101658890B1 (ko) 온라인 특허 평가 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: Floor 12, Building 3, Shuntai Plaza, No. 2000 Shunhua Road, High tech Industrial Development Zone, Jinan City, Shandong Province, 250101

Applicant after: SHANDONG ECLOUD INFORMATION TECHNOLOGY CO.,LTD.

Address before: 250014 3rd floor, block B, Yinhe building, 2008 Xinluo street, high tech Zone, Jinan City, Shandong Province

Applicant before: SHANDONG ECLOUD INFORMATION TECHNOLOGY CO.,LTD.

Country or region before: China