CN115098671A - 基于人工智能的政务数据处理方法、电子设备及存储介质 - Google Patents

基于人工智能的政务数据处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115098671A
CN115098671A CN202211022698.8A CN202211022698A CN115098671A CN 115098671 A CN115098671 A CN 115098671A CN 202211022698 A CN202211022698 A CN 202211022698A CN 115098671 A CN115098671 A CN 115098671A
Authority
CN
China
Prior art keywords
data
index
label
data table
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211022698.8A
Other languages
English (en)
Other versions
CN115098671B (zh
Inventor
张晓春
袁飞
许华杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Urban Transport Planning Center Co Ltd
Original Assignee
Shenzhen Urban Transport Planning Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Urban Transport Planning Center Co Ltd filed Critical Shenzhen Urban Transport Planning Center Co Ltd
Priority to CN202211022698.8A priority Critical patent/CN115098671B/zh
Publication of CN115098671A publication Critical patent/CN115098671A/zh
Application granted granted Critical
Publication of CN115098671B publication Critical patent/CN115098671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出基于人工智能的政务数据处理方法、电子设备及存储介质,属于数据处理技术领域。包括以下步骤:S1.对主题数据定义,从数据库中筛选与主题数据相关的数据表;S2.对主题数据质量进行质量评估;S3.多类别属性设计;S4.多纬度标签设计;S5.多层次指标设计;S6.数据服务标准规范,基于构建的多层次指标内容,规范和统一对外主题数据服务标准,包括业务含义、指标含义、度量方法和获取频率。本发明解决现有技术中存在的数据处理质量低的技术问题。本发明能够实现快速、多维的数据查询统计和快速对问题追溯和定位,提高数据的可用性。

Description

基于人工智能的政务数据处理方法、电子设备及存储介质
技术领域
本申请涉及数据处理方法,尤其涉及基于人工智能的政务数据处理方法、电子设备及存储介质,属于数据处理技术领域。
背景技术
随着大数据时代的到来,各业务部门拥有的政务大数据体量越来越大、规模不断增加,跨部门的业务数据需求也越来越明显。在获得数据“红利”的同时,也将面临海量数据爆炸所带来的数据治理和数据应用等技术难题,如数据质量不高(所述的数据质量指标包括完整性、准确性、时效性等)、多源同名数据选取、数据处理效率低和数据驱动力不足等问题,如何有效应对这些问题,提高政务数据应用效率,将是大数据时代数据治理所面临的新挑战。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在的数据质量不高、多源同名数据选取、数据处理效率低和数据驱动力不足的技术问题,本发明提供基于人工智能的政务数据处理方法、电子设备及存储介质。
方案一、基于人工智能的政务数据处理方法,包括以下步骤:
S1.对主题数据定义,从数据库中筛选与主题数据相关的数据表;
S2.对主题数据质量进行质量评估;
S3.多类别属性设计,根据主题数据的基础特性和业务应用领域,构建多类别属性框架,结合主题数据表字段内容和质量评估结果,对同一类别属性进行共性内容提取,根据职责范围确定属性字段唯一来源;
S4.多纬度标签设计,依据属性字段对主题数据进行标记,对标准化的主题数据字段、管理和服务对象进行自动打标签,其中,由单个属性字段构成的标签定义为原子标签;由多个属性字段构成的标签定义为复合标签;
S5.多层次指标设计,按照时间、空间、类型和程度不同层次,围绕主题数据属性和标签内容进行业务指标设计,并确定每项业务指标的统计口径和统计方法;
S6.数据服务标准规范,基于构建的多层次指标内容,规范和统一对外主题数据服务标准,包括业务含义、指标含义、度量方法和获取频率。
优选的,S2具体包括以下步骤:
S21.根据S1所述数据表,形成待评估的主题数据表集;
S22.判断失效数据表,筛选每张数据表中是否存在“是否有效”或“删除标志”字段,并选择数据表为有效或未删除状态数据表;
S23.判断数据表调用频次,根据每张数据表调用次数和订阅天数,判断每张数据表的日调用量;
S24.筛选日调用量大于1的数据值;
S25.判断数据表完整性,判断数据表中应被赋值的字段是否为空值,每发现一个空值记为1项数据缺失;
Figure 163052DEST_PATH_IMAGE002
,其中,
Figure 80192DEST_PATH_IMAGE003
=数据表中缺失的数据项数,
Figure 735296DEST_PATH_IMAGE004
=数据表中应赋值的数据项总数;
S26.判断数据表及时性,获取每张数据表的更新频率,根据当前时间与更新频率判断是否更新及时;
Figure 130505DEST_PATH_IMAGE006
,其中,
Figure 318778DEST_PATH_IMAGE007
=数据表更新延迟时间,
Figure 141241DEST_PATH_IMAGE008
=数据表最长可接受延迟期限;
S27.数据质量量化评价指标计算,按加权平均计算被评价数据表的总分
Figure 283640DEST_PATH_IMAGE010
,其中,Y为被评价数据表总分,
Figure 482541DEST_PATH_IMAGE011
为各指标权重,
Figure 528250DEST_PATH_IMAGE012
为各指标得分,n对应各指标的指标编码;预置指标满分100分,表示被评价数据表未发现指标对应的质量问题,各指标得分区间为0-100分;
S28.数据集筛选,筛选每张被评价数据表总分大于60的数据表,组成主题数据集,用于对主题数据属性内容的提取判断。
优选的,S4具体包括以下步骤:
S41.标签主题分类,新建一个或多个标签主题分类;
S42.根据S28所述主题数据集,构建有效的标签主题数据集;
S43.根据数据字典,将数据字典的码值编码转换为中文或英文;
S44.码值筛选,统计字典码值中文或英文数量,对数量大于等于1小于等于10的数据进行筛选,作为关联数据,大于10的不筛选;
S45.业务字段标记,根据数据字典,对主题数据集的每张数据表业务字段进行标记,对存在数据字典或码值的业务字段进行标记,否则不标记;
S46.建立数据关联,将已标记的数据表业务字段与已筛选的数据字典对应码值建立对应关系;
S47.标签项设置,将已标记的数据表业务字段作为标签项,并设置标签编码,作为标签分类;
S48.预设标签值,对已设置的标签项进行赋值,取对应数据字段码值作为标签项的标签值;
S49.对预设标签值添加触发器,填写触发器处理表达式;
S410.根据预设规则和处理表达式自动对每张数据表进行打标签,形成主题标签集;
S411.预算标签校验,根据系统自动形成的主题标签集,由人工标注进行筛选,对校验通过进行标注,未校验通过的不标注;
S412.标签入库,筛选已标记校验通过的标签,将标签自动进行数据入库,形成标签库供业务应用。
优选的,应被赋值的字段包括:
S251.根据业务规则要求或依据数据字典规定为必填的字段;
S252.作为唯一主键或与相关数据表起到关联作用的字段。
优选的,根据当前时间与更新频率判断是否更新及时的方法是:
S261.对于日常更新的信息资源表,按天计更新情况,评价截止日期-最新记录日期≥1天,认为数据表数据更新不及时,接受延迟期限为30天;
S262.对于1个月更新的信息资源表,按月计更新情况,评价截止日期月份-最新记录日期月份>1个月,认为数据表数据更新不及时,接受延迟期限为6个月;
S263.对于3个月更新的信息资源表,按月计更新情况,评价截止日期月份-最新记录日期月份>3个月,认为数据表数据更新不及时,接受延迟期限为6个月;
S264.对于年更新的信息资源表,按年计更新情况,评价截止日期月份-最新记录日期月份>3个月,认为数据表数据更新不及时,接受延迟期限为12个月。
优选的,S5具体包括以下步骤:
S51.构建主题业务模型,基于业务应用场景,对主题对象全生命周期过程中的各阶段业务进行分析、分类,提取常用/共性的业务信息,并按照各项业务在生命周期顺序进行排列,作为主题业务模型;
S52.搭建指标内容,根据主题业务模型,确定各业务模块业务指标;
S521.确定一级指标,一级指标反映主题在各个业务方面的总体情况,从主题数据属性和预设标签值中取值统计;
S522.确定二级指标,对一级指标按照不同类别进行拆解得到对应的二级指标;
S53.确定指标维度,对统计指标统计维度进行确认,按照区域、时间维度进行指标数量统计;
S54.确定指标取数逻辑,根据指标来源数据表/字段、预设标签及统计维度确定取数逻辑;
S541.根据数据表/字段确定取数逻辑,从数据表中筛选统计指标所对应的字段,按照不同统计维度统计该字段的数量作为指标的统计值;
S542.根据预设标签确定取数逻辑,通过统计指标关键字自动从标签库内筛选指标对应的预设标签,按照不同统计维度统计对应预设标签的数量。
优选的,S6具体包括以下步骤:
S61.构建多维分析表,基于业务单位提出的接口需求,提炼接口共性指标,按照时间维、空间维、标签维,从构建的指标内容中提取统一维度指标作为多维统计分析表;
S62.确定维层次,设定多维统计分析表的维层次之积小于百万级,确保每个事实表中的事实具有相同的粒度或同级的详细程度;
S63.确定获取频率,设定多维统计分析表中更新频次最高的指标作为多维统计分析表对外获取频率;
S64.确定业务含义,描述多维统计分析表的业务使用场景、统计维度、使用范围、获取频率,对外提供使用说明;
S65.开发统一接口,将多维分析表进行统一封装,对外提供调用服务。
方案二、一种电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的人工智能高效政务数据处理方法的步骤。
方案三、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的人工智能高效政务数据处理方法。
本发明的有益效果如下:
1.能够实现快速、多维的数据查询统计;
2.能够实现快速对问题追溯和定位;
3.能够提高数据的可用性;
4.减少人工打标签,提高数据有效利用率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为基于人工智能的政务数据处理方法的流程示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1说明本实施方式,基于人工智能的政务数据处理方法,包括以下步骤:
S1.对主题数据定义,从数据库中筛选与主题数据相关的数据表;
S2.对主题数据质量进行质量评估,包括以下步骤:
S21.根据S1所述数据表,形成待评估的主题数据表集;
S22.判断失效数据表,筛选每张数据表中是否存在“是否有效”或“删除标志”字段,并选择数据表为有效或未删除状态数据表;
S23.判断数据表调用频次,根据每张数据表调用次数和订阅天数,判断每张数据表的日调用量;
S24.筛选日调用量大于1的数据值;
S25.判断数据表完整性,判断数据表中应被赋值的字段是否为空值,每发现一个空值记为1项数据缺失;
Figure 521614DEST_PATH_IMAGE014
,其中,
Figure DEST_PATH_IMAGE015
=数据表中缺失的数据项数,
Figure 151310DEST_PATH_IMAGE004
=数据表中应赋值的数据项总数;
具体的,应被赋值的字段包括:
S251.根据业务规则要求或依据数据字典规定为必填的字段;
S252.作为唯一主键或与相关数据表起到关联作用的字段。
S26.判断数据表及时性,获取每张数据表的更新频率,根据当前时间与更新频率判断是否更新及时;
Figure DEST_PATH_IMAGE017
,其中,
Figure 262223DEST_PATH_IMAGE007
=数据表更新延迟时间,
Figure 660974DEST_PATH_IMAGE008
=数据表最长可接受延迟期限;
具体的,获取每张数据表的更新频率,根据当前时间与更新频率判断是否更新及时的方法是:
S261.对于日常更新的信息资源表,按天计更新情况,评价截止日期-最新记录日期≥1天,认为数据表数据更新不及时,接受延迟期限为30天;
S262.对于1个月更新的信息资源表,按月计更新情况,评价截止日期月份-最新记录日期月份>1个月,认为数据表数据更新不及时,接受延迟期限为6个月;
S263.对于3个月更新的信息资源表,按月计更新情况,评价截止日期月份-最新记录日期月份>3个月,认为数据表数据更新不及时,接受延迟期限为6个月;
S264.对于年更新的信息资源表,按年计更新情况,评价截止日期月份-最新记录日期月份>3个月,认为数据表数据更新不及时,接受延迟期限为12个月。
S27.数据质量量化评价指标计算,按加权平均计算被评价数据表的总分
Figure DEST_PATH_IMAGE019
,其中,Y为被评价数据表总分,
Figure 467650DEST_PATH_IMAGE020
为各指标得分,n对应各指标的指标编码;预置指标满分100分,表示被评价数据表未发现指标对应的质量问题,各指标得分区间为0-100分;
S28.数据集筛选,筛选每张被评价数据表总分大于60的数据表,组成主题数据集,用于对主题数据属性内容的提取判断。
S3.多类别属性设计,根据主题数据的基础特性和业务应用领域,构建多类别属性框架,结合主题数据表字段内容和质量评估结果,对同一类别的属性进行共性内容提取,根据职责范围确定属性字段唯一来源;
S4.多纬度标签设计,依据属性字段对主题数据进行标记,对标准化的主题数据字段、管理和服务对象进行自动打标签,其中,由单个属性字段构成的标签定义为原子标签;由多个属性字段构成的标签定义为复合标签;
具体的,自动打标签的方法是:包括以下步骤:
S41.标签主题分类,新建一个或多个标签主题分类;
S42.根据S28所述主题数据集,构建有效的标签主题数据集;
S43.根据数据字典,将数据字典的码值编码转换为中文或英文;
S44.码值筛选,统计字典码值中文或英文数量,对数量大于等于1小于等于10的数据进行筛选,作为关联数据,大于10的不筛选;
S45.业务字段标记,根据数据字典,对主题数据集的每张数据表业务字段进行标记,对存在数据字典或码值的业务字段进行标记,否则不标记;
S46.建立数据关联,将已标记的数据表业务字段与已筛选的数据字典对应码值建立对应关系;
S47.标签项设置,将已标记的数据表业务字段作为标签项,并设置标签编码,作为标签分类;
S48.预设标签值,对已设置的标签项进行赋值,取对应数据字段码值作为标签项的标签值;
S49.对预设标签值添加触发器,填写触发器处理表达式;
S410.根据预设规则和处理表达式自动对每张数据表进行打标签,形成主题标签集;
S411.预算标签校验,根据系统自动形成的主题标签集,由人工标注进行筛选,对校验通过进行标注,未校验通过的不标注;
S412.标签入库,筛选已标记校验通过的标签,将标签自动进行数据入库,形成标签库供业务应用。
S5.多层次指标设计,按照时间、空间、类型和程度不同层次,围绕主题数据属性和标签内容进行业务指标设计,并确定每项业务指标的统计口径和统计方法;
具体的,多层次指标设计步骤:
S51.构建主题业务模型,基于业务应用场景,对主题对象全生命周期过程中的各阶段业务进行分析、分类,提取常用/共性的业务信息,并按照各项业务在生命周期顺序进行排列,作为主题业务模型;
S52.搭建指标内容,根据主题业务模型,确定各业务模块业务指标;
S521.确定一级指标,一级指标反映主题在各个业务方面的总体情况,从主题数据属性和预设标签值中取值统计,例如,实有人口数量、高层次人才数量;
S522.确定二级指标,根据一级指标衍生得来,对一级指标按照不同类别进行拆解得到对应的二级指标,例如海外高层次人才数量、市高层次人才数量、区高层次人才数量、基础人才数量、储备人才数量等;
S53.确定指标维度,对统计指标统计维度进行确认,按照区域(市、区、街道、社区、网格)、时间维度(日、周、月、年)及其他维度(例如,人口类型)进行指标数量统计;
S54.确定指标取数逻辑,根据指标来源数据表/字段、预设标签及统计维度确定取数逻辑;
S541.根据数据表/字段确定取数逻辑,从数据表中筛选统计指标所对应的字段,按照不同统计维度来统计该字段的数量作为指标的统计值;
S542.根据预设标签确定取数逻辑,通过统计指标关键字自动从标签库内筛选指标对应的预设标签,按照不同统计维度来统计该标签的数量;
S6.数据服务标准规范,基于构建的多层次指标内容,规范和统一对外主题数据服务标准,包括业务含义、指标含义、度量方法和获取频率。
开发统一规范接口,为各业务单位提供服务,具体的数据服务标准规范及度量方法步骤:
S61.构建多维分析表,基于业务单位提出的接口需求,提炼接口共性指标,按照时间维、空间维、标签维,从构建的指标内容中提取统一维度指标作为多维统计分析表;
S62.确定维层次,设定多维统计分析表的维层次之积小于百万级,确保每个事实表中的事实具有相同的粒度或同级的详细程度;
S63.确定获取频率,设定多维统计分析表中更新频次最高的指标作为多维统计分析表对外获取频率;
S64.确定业务含义,描述多维统计分析表的业务使用场景、统计维度、使用范围、获取频率,对外提供使用说明;
S65.开发统一接口,将多维分析表进行统一封装,对外提供调用服务。
实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例3、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (9)

1.基于人工智能的政务数据处理方法,其特征在于,包括以下步骤:
S1.对主题数据定义,从数据库中筛选与主题数据相关的数据表;
S2.对主题数据质量进行质量评估;
S3.多类别属性设计,根据主题数据的基础特性和业务应用领域,构建多类别属性框架,结合主题数据表字段内容和质量评估结果,对同一类别的属性进行共性内容提取,根据职责范围确定属性字段唯一来源;
S4.多纬度标签设计,依据属性字段对主题数据进行标记,对标准化的主题数据字段、管理和服务对象进行自动打标签,其中,由单个属性字段构成的标签定义为原子标签;由多个属性字段构成的标签定义为复合标签;
S5.多层次指标设计,按照时间、空间、类型和程度不同层次,围绕主题数据属性和标签内容进行业务指标设计,并确定每项业务指标的统计口径和统计方法;
S6.基于构建的多层次指标内容,规范和统一对外主题数据服务标准。
2.根据权利要求1所述的基于人工智能的政务数据处理方法,其特征在于,S2具体包括以下步骤:
S21.根据S1所述数据表,形成待评估的主题数据表集;
S22.判断失效数据表,筛选每张数据表中是否存在“是否有效”或“删除标志”字段,并选择数据表为有效或未删除状态数据表;
S23.判断数据表调用频次,根据每张数据表调用次数和订阅天数,判断每张数据表的日调用量;
S24.筛选日调用量大于1的数据值;
S25.判断数据表完整性,判断数据表中应被赋值的字段是否为空值,每发现一个空值记为1项数据缺失;
Figure 997743DEST_PATH_IMAGE001
,其中,
Figure 148232DEST_PATH_IMAGE002
=数据表中缺失的数据项数,
Figure 791703DEST_PATH_IMAGE003
=数据表中应赋值的数据项总数;
S26.判断数据表及时性,获取每张数据表的更新频率,根据当前时间与更新频率判断是否更新及时;
Figure 126870DEST_PATH_IMAGE004
,其中,
Figure 256060DEST_PATH_IMAGE005
=数据表更新延迟时间,
Figure 334874DEST_PATH_IMAGE006
=数据表最长接受延迟期限;
S27.数据质量量化评价指标计算,按加权平均计算被评价数据表的总分
Figure 708218DEST_PATH_IMAGE007
,其中,Y为被评价数据表总分,
Figure 479865DEST_PATH_IMAGE008
为各指标权重,
Figure 804405DEST_PATH_IMAGE009
为各指标得分,n对应各指标的指标编码;预置指标满分100分,表示被评价数据表未发现指标对应的质量问题,各指标得分区间为0-100分;
S28.数据集筛选,筛选每张被评价数据表总分大于60的数据表,组成主题数据集,用于对主题数据属性内容的提取判断。
3.根据权利要求2所述的基于人工智能的政务数据处理方法,其特征在于,S4具体包括以下步骤:
S41.标签主题分类,新建一个或多个标签主题分类;
S42.根据S28所述主题数据集,构建有效的标签主题数据集;
S43.根据数据字典,将数据字典的码值编码转换为中文或英文;
S44.码值筛选,统计字典码值中文或英文数量,对数量大于等于1小于等于10的数据进行筛选,作为关联数据,大于10的不筛选;
S45.业务字段标记,根据数据字典,对主题数据集的每张数据表业务字段进行标记,对存在数据字典或码值的业务字段进行标记,否则不标记;
S46.建立数据关联,将已标记的数据表业务字段与已筛选的数据字典对应码值建立对应关系;
S47.标签项设置,将已标记的数据表业务字段作为标签项,并设置标签编码,作为标签分类;
S48.预设标签值,对已设置的标签项进行赋值,取对应数据字段码值作为标签项的标签值;
S49.对预设标签值添加触发器,填写触发器处理表达式;
S410.根据预设规则和处理表达式自动对每张数据表进行打标签,形成主题标签集;
S411.预算标签校验,根据系统自动形成的主题标签集,由人工标注进行筛选,对校验通过进行标注,未校验通过的不标注;
S412.标签入库,筛选已标记校验通过的标签,将标签自动进行数据入库,形成标签库供业务应用。
4.根据权利要求3所述的基于人工智能的政务数据处理方法,其特征在于,应被赋值的字段包括:
S251.根据业务规则要求或依据数据字典规定为必填的字段;
S252.作为唯一主键或与相关数据表起到关联作用的字段。
5.根据权利要求4所述的基于人工智能的政务数据处理方法,其特征在于,根据当前时间与更新频率判断是否更新及时方法是:
S261.对于日常更新的信息资源表,按天计更新情况,评价截止日期-最新记录日期≥1天,认为数据表数据更新不及时,接受延迟期限为30天;
S262.对于1个月更新的信息资源表,按月计更新情况,评价截止日期月份-最新记录日期月份>1个月,认为数据表数据更新不及时,接受延迟期限为6个月;
S263.对于3个月更新的信息资源表,按月计更新情况,评价截止日期月份-最新记录日期月份>3个月,认为数据表数据更新不及时,接受延迟期限为6个月;
S264.对于年更新的信息资源表,按年计更新情况,评价截止日期月份-最新记录日期月份>3个月,认为数据表数据更新不及时,接受延迟期限为12个月。
6.根据权利要求5所述的基于人工智能的政务数据处理方法,其特征在于,S5具体包括以下步骤:
S51.构建主题业务模型,基于业务应用场景,对主题对象全生命周期过程中的各阶段业务进行分析、分类,提取常用/共性的业务信息,并按照各项业务在生命周期顺序进行排列,作为主题业务模型;
S52.搭建指标内容,根据主题业务模型,确定各业务模块业务指标;
S521.确定一级指标,一级指标反映主题在各个业务方面的总体情况,从主题数据属性和预设标签值中取值统计;
S522.确定二级指标,对一级指标按照不同类别进行拆解得到对应的二级指标;
S53.确定指标维度,对统计指标统计维度进行确认,按照区域、时间维度进行指标数量统计;
S54.确定指标取数逻辑,根据指标来源数据表/字段、预设标签及统计维度确定取数逻辑;
S541.根据数据表/字段确定取数逻辑,从数据表中筛选统计指标所对应的字段,按照不同统计维度统计该字段的数量作为指标的统计值;
S542.根据预设标签确定取数逻辑,通过统计指标关键字自动从标签库内筛选指标对应的预设标签,按照不同统计维度统计对应预设标签的数量。
7.根据权利要求6所述的基于人工智能的政务数据处理方法,其特征在于,S6具体包括以下步骤:
S61.构建多维分析表,基于业务单位提出的接口需求,提炼接口共性指标,按照时间维、空间维、标签维,从构建的指标内容中提取统一维度指标作为多维统计分析表;
S62.确定维层次,设定多维统计分析表的维层次之积小于百万级,确保每个事实表中的事实具有相同的粒度或同级的详细程度;
S63.确定获取频率,设定多维统计分析表中更新频次最高的指标作为多维统计分析表对外获取频率;
S64.确定业务含义,描述多维统计分析表的业务使用场景、统计维度、使用范围、获取频率,对外提供使用说明;
S65.开发统一接口,将多维分析表进行统一封装,对外提供调用服务。
8.一种电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于人工智能的政务数据处理方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于人工智能的政务数据处理方法。
CN202211022698.8A 2022-08-25 2022-08-25 基于人工智能的政务数据处理方法、电子设备及存储介质 Active CN115098671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211022698.8A CN115098671B (zh) 2022-08-25 2022-08-25 基于人工智能的政务数据处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211022698.8A CN115098671B (zh) 2022-08-25 2022-08-25 基于人工智能的政务数据处理方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115098671A true CN115098671A (zh) 2022-09-23
CN115098671B CN115098671B (zh) 2023-02-03

Family

ID=83299830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211022698.8A Active CN115098671B (zh) 2022-08-25 2022-08-25 基于人工智能的政务数据处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115098671B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629805A (zh) * 2023-06-07 2023-08-22 浪潮智慧科技有限公司 一种分布式流批一体化的水利指标服务方法、设备及介质
CN116703228A (zh) * 2023-06-14 2023-09-05 红有软件股份有限公司 一种大数据质量评价方法及系统
CN117194907A (zh) * 2023-11-08 2023-12-08 国能(北京)商务网络有限公司 数据中台的低价值数据主题识别方法
CN117216147A (zh) * 2023-11-08 2023-12-12 中国电子科技集团公司第十五研究所 一种根据数据属性进行数据分层控制存储的方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185531B1 (en) * 1997-01-09 2001-02-06 Gte Internetworking Incorporated Topic indexing method
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和系统
US20160042055A1 (en) * 2013-08-02 2016-02-11 Xiaomi Inc. Method and device for establishing label library and searching for user
CN107590229A (zh) * 2017-09-06 2018-01-16 安徽教育网络出版有限公司 一种构建学习资源多标签标注模型的方法
CN109492683A (zh) * 2018-10-30 2019-03-19 国网湖南省电力有限公司 一种针对广域量测电力大数据数据质量的快速在线评估方法
CN111508292A (zh) * 2020-03-20 2020-08-07 威比网络科技(上海)有限公司 在线教育广告信息生成方法、系统、设备及存储介质
CN112579655A (zh) * 2020-12-15 2021-03-30 中国建设银行股份有限公司 一种整合客户画像指标的方法、装置及设备
KR20210051854A (ko) * 2019-10-31 2021-05-10 삼성에스디에스 주식회사 개인 맞춤형 토픽 추천 모델 생성 장치 및 방법
CN112989034A (zh) * 2020-12-16 2021-06-18 中国人民解放军国防科技大学 基于开源信息的社会服务工作定量跟踪评估方法
CN113393117A (zh) * 2021-06-11 2021-09-14 天闻数媒科技(湖南)有限公司 业务评价模型的构建方法、装置、设备及存储介质
CN113722289A (zh) * 2021-08-09 2021-11-30 杭萧钢构股份有限公司 构建数据服务的方法、装置、电子设备及介质
CN114510468A (zh) * 2022-01-26 2022-05-17 高德软件有限公司 数据处理方法及计算机程序产品

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185531B1 (en) * 1997-01-09 2001-02-06 Gte Internetworking Incorporated Topic indexing method
US20160042055A1 (en) * 2013-08-02 2016-02-11 Xiaomi Inc. Method and device for establishing label library and searching for user
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和系统
CN107590229A (zh) * 2017-09-06 2018-01-16 安徽教育网络出版有限公司 一种构建学习资源多标签标注模型的方法
CN109492683A (zh) * 2018-10-30 2019-03-19 国网湖南省电力有限公司 一种针对广域量测电力大数据数据质量的快速在线评估方法
KR20210051854A (ko) * 2019-10-31 2021-05-10 삼성에스디에스 주식회사 개인 맞춤형 토픽 추천 모델 생성 장치 및 방법
CN111508292A (zh) * 2020-03-20 2020-08-07 威比网络科技(上海)有限公司 在线教育广告信息生成方法、系统、设备及存储介质
CN112579655A (zh) * 2020-12-15 2021-03-30 中国建设银行股份有限公司 一种整合客户画像指标的方法、装置及设备
CN112989034A (zh) * 2020-12-16 2021-06-18 中国人民解放军国防科技大学 基于开源信息的社会服务工作定量跟踪评估方法
CN113393117A (zh) * 2021-06-11 2021-09-14 天闻数媒科技(湖南)有限公司 业务评价模型的构建方法、装置、设备及存储介质
CN113722289A (zh) * 2021-08-09 2021-11-30 杭萧钢构股份有限公司 构建数据服务的方法、装置、电子设备及介质
CN114510468A (zh) * 2022-01-26 2022-05-17 高德软件有限公司 数据处理方法及计算机程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. SAMARAWICKRAMA 等: "Finding High-Level Topics and Tweet Labeling Using Topic Models", 《2015 IEEE 21ST INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS》 *
李阿勇 等: "数据标签研究与应用", 《电力大数据》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629805A (zh) * 2023-06-07 2023-08-22 浪潮智慧科技有限公司 一种分布式流批一体化的水利指标服务方法、设备及介质
CN116629805B (zh) * 2023-06-07 2023-12-01 浪潮智慧科技有限公司 一种分布式流批一体化的水利指标服务方法、设备及介质
CN116703228A (zh) * 2023-06-14 2023-09-05 红有软件股份有限公司 一种大数据质量评价方法及系统
CN116703228B (zh) * 2023-06-14 2024-01-16 红有软件股份有限公司 一种大数据质量评价方法及系统
CN117194907A (zh) * 2023-11-08 2023-12-08 国能(北京)商务网络有限公司 数据中台的低价值数据主题识别方法
CN117216147A (zh) * 2023-11-08 2023-12-12 中国电子科技集团公司第十五研究所 一种根据数据属性进行数据分层控制存储的方法及装置
CN117216147B (zh) * 2023-11-08 2024-01-19 中国电子科技集团公司第十五研究所 一种根据数据属性进行数据分层控制存储的方法及装置
CN117194907B (zh) * 2023-11-08 2024-02-06 国能(北京)商务网络有限公司 数据中台的低价值数据主题识别方法

Also Published As

Publication number Publication date
CN115098671B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN115098671B (zh) 基于人工智能的政务数据处理方法、电子设备及存储介质
US11861462B2 (en) Preparing structured data sets for machine learning
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
US10002122B2 (en) Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document
JP2020123164A (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
CN113535817B (zh) 特征宽表生成及业务处理模型的训练方法和装置
CN110782349A (zh) 一种模型训练方法和系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN116401379A (zh) 金融产品数据推送方法、装置、设备及存储介质
CN112016967A (zh) 一种交易数据处理方法与装置
Ha et al. Job forecasting based on the patent information: a word embedding-based approach
CN116244421A (zh) 项目名称匹配的方法、装置、设备及可读存储介质
CN115587828A (zh) 一种基于Shap值的电信欺诈场景的可解释方法
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN115309705A (zh) 一种自动识别城市信息模型平台基础数据元素的数据集成分类系统及其分类方法
CN112528100A (zh) 一种标签策略推荐和打标方法、终端设备及存储介质
CN112380321A (zh) 基于票据知识图谱的主次数据库分配方法及相关设备
CN112182184A (zh) 一种基于审计数据库的精准匹配搜索方法
CN112559674A (zh) 裁判文书中法条内容的查询方法及相关装置
CN111242195A (zh) 模型、保险风控模型训练方法、装置及电子设备
CN110727850A (zh) 网络信息的过滤方法,计算机可读存储介质和移动终端
CN113407727B (zh) 基于法律知识图谱的定性量纪推荐方法及相关设备
CN111339081B (zh) 一种异构数据库库表目录的自动采集方法及系统
CN112614024B (zh) 基于案情事实的法条智能推荐方法及系统及装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant