CN112991131A - 一种适用于电子政务平台的政务数据处理方法 - Google Patents

一种适用于电子政务平台的政务数据处理方法 Download PDF

Info

Publication number
CN112991131A
CN112991131A CN202110436311.2A CN202110436311A CN112991131A CN 112991131 A CN112991131 A CN 112991131A CN 202110436311 A CN202110436311 A CN 202110436311A CN 112991131 A CN112991131 A CN 112991131A
Authority
CN
China
Prior art keywords
data
government affair
government
user
privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110436311.2A
Other languages
English (en)
Inventor
陈丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Jijie Big Data Technology Co ltd
Original Assignee
Hefei Jijie Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Jijie Big Data Technology Co ltd filed Critical Hefei Jijie Big Data Technology Co ltd
Priority to CN202110436311.2A priority Critical patent/CN112991131A/zh
Publication of CN112991131A publication Critical patent/CN112991131A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computer Security & Cryptography (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理方法,具体涉及一种适用于电子政务平台的政务数据处理方法,采集政务数据,并对政务数据进行分类,建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,并根据训练结果不断调整数据隐私化模型,利用训练好的数据隐私化模型对分类后的政务数据进行隐私化处理,基于用户的使用习惯,采集用户对于各类政务数据的数据期望,根据数据期望向用户推送相应类别的政务数据;本发明提供的技术方案能够有效克服现有技术所存在的不能较好地对政务数据进行有效分类、无法对包含的隐私数据进行有效识别并进行隐私化处理、政务数据的利用价值相对较低的缺陷。

Description

一种适用于电子政务平台的政务数据处理方法
技术领域
本发明涉及数据处理方法,具体涉及一种适用于电子政务平台的政务数据处理方法。
背景技术
政务指与政府相关的事务性工作,当某项政务商议完成,需要对该政务进行发布,使人民群众和政府办事人员获知。随着互联网技术的发展,政务的发布已由最初的纸质文件发布扩展到了网络发布。政府部门经过长期发展,记录了大量相关部门的政务数据,这些都是政府部门进行管理的重要依据。政务数据涉及的数据量大、数据类型多、来源广泛、数据格式复杂,随着大数据和互联网的发展,政府、社会对挖掘各部门领域的政务数据价值的需求越来越大。
近年来,随着技术的进步和政策方面的导向,数字政府的改革提出打破政府“数据孤岛”,优化营商环境需要各政府单位进行数据对接,日益严峻的安全问题要求各单位的数据能够有效共享,便民服务的优化升级需要各政府部门协作,这些都促使各级政府积极推动跨部门政务数据共享。而跨部门政务数据共享是一个及其复杂的工程,受到众多影响因素的制约,需要通过对影响因素进行深入、全面地分析,进而得到其中的核心影响因素。
现有的政务数据系统不能很好地对来自各部门的政务数据进行有效数据分类,使得政务数据的利用价值还处在较低的水平,并且政务数据中还包含许多隐私数据,如何在充分挖掘政务数据的利用价值前,对其中包含的隐私数据进行有效识别并进行隐私化处理,也是一个亟待解决的问题。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种适用于电子政务平台的政务数据处理方法,能够有效克服现有技术所存在的不能较好地对政务数据进行有效分类、无法对包含的隐私数据进行有效识别并进行隐私化处理、政务数据的利用价值相对较低的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种适用于电子政务平台的政务数据处理方法,包括以下步骤:
S1、采集政务数据,并对政务数据进行分类;
S2、建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,并根据训练结果不断调整数据隐私化模型;
S3、利用训练好的数据隐私化模型对分类后的政务数据进行隐私化处理;
S4、基于用户的使用习惯,采集用户对于各类政务数据的数据期望,根据数据期望向用户推送相应类别的政务数据。
优选地,S1中采集政务数据,包括:
根据用户设定的采集规则,利用爬虫获取网站数据,并对网站数据进行在线解析;
基于用户设置的过滤条件,对解析数据进行过滤处理。
优选地,S1中采集政务数据之后,包括:
对过滤后的解析数据中的重复数据、错误数据进行二次过滤,并记录用户对于重复数据、过滤数据的操作内容,在之后完成二次过滤时,优先向用户推送之前采用的操作内容。
优选地,S1中对政务数据进行分类,包括:
对二次过滤后的解析数据进行数据溯源,并按照数据源以及数据源之间的关联性,对解析数据进行初分类;
基于数据格式的相似性,对初分类后的解析数据进行二次分类;
根据用户设定的分类规则,对二次分类后的解析数据进行细化分类。
优选地,S1中对政务数据进行分类,包括:
判断二次过滤后的解析数据的数据类型,根据数据类型采用合适的关键字提取模板从解析数据中提取数据关键字,并基于数据关键字构建数据标签;
计算数据标签之间的相似度,根据相似度计算结果对解析数据进行分类。
优选地,所述计算数据标签之间的相似度,根据相似度计算结果对解析数据进行分类,包括:
基于统计词频的余弦相似度算法计算数据标签之间的相似度,将相似度计算结果大于相似度阈值的解析数据进行归为一类。
优选地,S2中建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,包括:
采集各类解析数据,并由人工对解析数据进行隐私化处理,形成模型训练集;
将一部分解析数据以及人工隐私化处理结果作为训练数据,另一部分解析数据以及人工隐私化处理结果作为校验数据,利用训练数据对数据隐私化模型进行训练。
优选地,S2中根据训练结果不断调整数据隐私化模型,包括:
将校验数据中的解析数据输入训练后的数据隐私化模型,并对经过数据隐私化模型处理后的解析数据与人工隐私化处理结果进行对比;
当经过数据隐私化模型处理后的解析数据与人工隐私化处理结果之间的匹配度大于匹配度阈值时,表明该数据隐私化模型训练完毕,否则需要对该数据隐私化模型中的参数进行调整。
优选地,S4中基于用户的使用习惯,采集用户对于各类政务数据的数据期望,包括:
统计用户对于各类解析数据的订阅、调用情况,并对统计数据进行归一化处理,将归一化数据作为该用户对于各类解析数据的数据期望,同时构建该用户关于各类解析数据的数据期望表。
优选地,S4中根据数据期望向用户推送相应类别的政务数据,包括:
将用户的数据期望表转换为向该用户推送各类解析数据的推送频率,并按照各类解析数据对应的推送频率向用户推送相应类别的政务数据。
(三)有益效果
与现有技术相比,本发明所提供的一种适用于电子政务平台的政务数据处理方法,一方面能够对政务数据进行有效分类,另一方面能够计算出用户对于各类政务数据的数据期望,并根据数据期望向用户推送相应类别的政务数据,从而能够大大提升政务数据的利用价值;通过建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,利用训练好的数据隐私化模型对分类后的政务数据进行隐私化处理,能够对政务数据中的隐私数据进行有效识别并进行隐私化处理,防止出现隐私数据泄露的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种适用于电子政务平台的政务数据处理方法,如图1所示,包括以下步骤:
S1、采集政务数据,并对政务数据进行分类;
S2、建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,并根据训练结果不断调整数据隐私化模型;
S3、利用训练好的数据隐私化模型对分类后的政务数据进行隐私化处理;
S4、基于用户的使用习惯,采集用户对于各类政务数据的数据期望,根据数据期望向用户推送相应类别的政务数据。
本申请技术方案中,通过爬虫对政务数据进行有效采集:根据用户设定的采集规则,利用爬虫获取网站数据,并对网站数据进行在线解析;
基于用户设置的过滤条件,对解析数据进行过滤处理。
在采集到政务数据后,对过滤后的解析数据中的重复数据、错误数据进行二次过滤,并记录用户对于重复数据、过滤数据的操作内容,在之后完成二次过滤时,优先向用户推送之前采用的操作内容。
本申请技术方案中,包含两种对政务数据进行分类的方法,其中一种方法为:
对二次过滤后的解析数据进行数据溯源,并按照数据源以及数据源之间的关联性,对解析数据进行初分类;
基于数据格式的相似性,对初分类后的解析数据进行二次分类;
根据用户设定的分类规则,对二次分类后的解析数据进行细化分类。
另一种对政务数据进行分类的方法为:
判断二次过滤后的解析数据的数据类型,根据数据类型采用合适的关键字提取模板从解析数据中提取数据关键字,并基于数据关键字构建数据标签;
计算数据标签之间的相似度,根据相似度计算结果对解析数据进行分类。
其中,计算数据标签之间的相似度,根据相似度计算结果对解析数据进行分类,包括:
基于统计词频的余弦相似度算法计算数据标签之间的相似度,将相似度计算结果大于相似度阈值的解析数据进行归为一类。
本申请技术方案中,既可以根据政务数据来源以及政务数据本身的数据格式对政务数据进行分类,同时也可以基于政务数据对应数据关键字构建的数据标签的相似度对政务数据进行分类,确保政务数据的利用价值。
建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,包括:
采集各类解析数据,并由人工对解析数据进行隐私化处理,形成模型训练集;
将一部分解析数据以及人工隐私化处理结果作为训练数据,另一部分解析数据以及人工隐私化处理结果作为校验数据,利用训练数据对数据隐私化模型进行训练。
根据训练结果不断调整数据隐私化模型,包括:
将校验数据中的解析数据输入训练后的数据隐私化模型,并对经过数据隐私化模型处理后的解析数据与人工隐私化处理结果进行对比;
当经过数据隐私化模型处理后的解析数据与人工隐私化处理结果之间的匹配度大于匹配度阈值时,表明该数据隐私化模型训练完毕,否则需要对该数据隐私化模型中的参数进行调整。
本申请技术方案中,通过建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,利用训练好的数据隐私化模型对分类后的政务数据进行隐私化处理,能够对政务数据中的隐私数据进行有效识别并进行隐私化处理,防止出现隐私数据泄露的情况。
基于用户的使用习惯,采集用户对于各类政务数据的数据期望,包括:
统计用户对于各类解析数据的订阅、调用情况,并对统计数据进行归一化处理,将归一化数据作为该用户对于各类解析数据的数据期望,同时构建该用户关于各类解析数据的数据期望表。
根据数据期望向用户推送相应类别的政务数据,包括:
将用户的数据期望表转换为向该用户推送各类解析数据的推送频率,并按照各类解析数据对应的推送频率向用户推送相应类别的政务数据。
本申请技术方案中,通过统计用户对于各类解析数据的订阅、调用情况,将采集到的数据转换为数据期望,并构建该用户关于各类解析数据的数据期望表,再将数据期望表转换为向该用户推送各类解析数据的推送频率,基于推送频率向用户推送相应类别的政务数据,不仅能够保证用户及时更新需要的政务数据,有效提升政务数据的利用价值,同时还能够针对用户的需求情况选择合适的推送频率,防止用户对政务数据的推送产生反感。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种适用于电子政务平台的政务数据处理方法,其特征在于:包括以下步骤:
S1、采集政务数据,并对政务数据进行分类;
S2、建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,并根据训练结果不断调整数据隐私化模型;
S3、利用训练好的数据隐私化模型对分类后的政务数据进行隐私化处理;
S4、基于用户的使用习惯,采集用户对于各类政务数据的数据期望,根据数据期望向用户推送相应类别的政务数据。
2.根据权利要求1所述的适用于电子政务平台的政务数据处理方法,其特征在于:S1中采集政务数据,包括:
根据用户设定的采集规则,利用爬虫获取网站数据,并对网站数据进行在线解析;
基于用户设置的过滤条件,对解析数据进行过滤处理。
3.根据权利要求2所述的适用于电子政务平台的政务数据处理方法,其特征在于:S1中采集政务数据之后,包括:
对过滤后的解析数据中的重复数据、错误数据进行二次过滤,并记录用户对于重复数据、过滤数据的操作内容,在之后完成二次过滤时,优先向用户推送之前采用的操作内容。
4.根据权利要求3所述的适用于电子政务平台的政务数据处理方法,其特征在于:S1中对政务数据进行分类,包括:
对二次过滤后的解析数据进行数据溯源,并按照数据源以及数据源之间的关联性,对解析数据进行初分类;
基于数据格式的相似性,对初分类后的解析数据进行二次分类;
根据用户设定的分类规则,对二次分类后的解析数据进行细化分类。
5.根据权利要求3所述的适用于电子政务平台的政务数据处理方法,其特征在于:S1中对政务数据进行分类,包括:
判断二次过滤后的解析数据的数据类型,根据数据类型采用合适的关键字提取模板从解析数据中提取数据关键字,并基于数据关键字构建数据标签;
计算数据标签之间的相似度,根据相似度计算结果对解析数据进行分类。
6.根据权利要求5所述的适用于电子政务平台的政务数据处理方法,其特征在于:所述计算数据标签之间的相似度,根据相似度计算结果对解析数据进行分类,包括:
基于统计词频的余弦相似度算法计算数据标签之间的相似度,将相似度计算结果大于相似度阈值的解析数据进行归为一类。
7.根据权利要求4或5所述的适用于电子政务平台的政务数据处理方法,其特征在于:S2中建立数据隐私化模型,构建模型训练集,利用模型训练集对数据隐私化模型进行训练,包括:
采集各类解析数据,并由人工对解析数据进行隐私化处理,形成模型训练集;
将一部分解析数据以及人工隐私化处理结果作为训练数据,另一部分解析数据以及人工隐私化处理结果作为校验数据,利用训练数据对数据隐私化模型进行训练。
8.根据权利要求7所述的适用于电子政务平台的政务数据处理方法,其特征在于:S2中根据训练结果不断调整数据隐私化模型,包括:
将校验数据中的解析数据输入训练后的数据隐私化模型,并对经过数据隐私化模型处理后的解析数据与人工隐私化处理结果进行对比;
当经过数据隐私化模型处理后的解析数据与人工隐私化处理结果之间的匹配度大于匹配度阈值时,表明该数据隐私化模型训练完毕,否则需要对该数据隐私化模型中的参数进行调整。
9.根据权利要求8所述的适用于电子政务平台的政务数据处理方法,其特征在于:S4中基于用户的使用习惯,采集用户对于各类政务数据的数据期望,包括:
统计用户对于各类解析数据的订阅、调用情况,并对统计数据进行归一化处理,将归一化数据作为该用户对于各类解析数据的数据期望,同时构建该用户关于各类解析数据的数据期望表。
10.根据权利要求9所述的适用于电子政务平台的政务数据处理方法,其特征在于:S4中根据数据期望向用户推送相应类别的政务数据,包括:
将用户的数据期望表转换为向该用户推送各类解析数据的推送频率,并按照各类解析数据对应的推送频率向用户推送相应类别的政务数据。
CN202110436311.2A 2021-04-22 2021-04-22 一种适用于电子政务平台的政务数据处理方法 Withdrawn CN112991131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436311.2A CN112991131A (zh) 2021-04-22 2021-04-22 一种适用于电子政务平台的政务数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436311.2A CN112991131A (zh) 2021-04-22 2021-04-22 一种适用于电子政务平台的政务数据处理方法

Publications (1)

Publication Number Publication Date
CN112991131A true CN112991131A (zh) 2021-06-18

Family

ID=76341658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436311.2A Withdrawn CN112991131A (zh) 2021-04-22 2021-04-22 一种适用于电子政务平台的政务数据处理方法

Country Status (1)

Country Link
CN (1) CN112991131A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117194751A (zh) * 2023-11-08 2023-12-08 杭州易康信科技有限公司 一种政务电子数据筛选方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117194751A (zh) * 2023-11-08 2023-12-08 杭州易康信科技有限公司 一种政务电子数据筛选方法及系统
CN117194751B (zh) * 2023-11-08 2024-04-19 杭州易康信科技有限公司 一种政务电子数据筛选方法及系统

Similar Documents

Publication Publication Date Title
CN109783639B (zh) 一种基于特征提取的调解案件智能分派方法及系统
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN110866110A (zh) 基于人工智能的会议纪要生成方法、装置、设备及介质
CN109710766B (zh) 一种工单数据的投诉倾向分析预警方法及装置
CN108009137B (zh) 一种基于配置文件的规范文书处理方法、装置及系统
CN113051362B (zh) 数据的查询方法、装置和服务器
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN105512300B (zh) 信息过滤方法及系统
CN112148852A (zh) 一种智能客服方法、装置、存储介质及计算机设备
CN113240396A (zh) 分析员工工作状态的方法、装置、设备及存储介质
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN114298845A (zh) 一种理赔票据处理方法和装置
CN112991131A (zh) 一种适用于电子政务平台的政务数据处理方法
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN112131292A (zh) 一种变更数据的结构化处理方法和装置
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN114860667B (zh) 文件分类方法、装置、电子设备及计算机可读存储介质
CN106446696A (zh) 一种信息处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210618

WW01 Invention patent application withdrawn after publication