CN117194751B - 一种政务电子数据筛选方法及系统 - Google Patents
一种政务电子数据筛选方法及系统 Download PDFInfo
- Publication number
- CN117194751B CN117194751B CN202311473489.XA CN202311473489A CN117194751B CN 117194751 B CN117194751 B CN 117194751B CN 202311473489 A CN202311473489 A CN 202311473489A CN 117194751 B CN117194751 B CN 117194751B
- Authority
- CN
- China
- Prior art keywords
- probability
- electronic data
- data set
- government electronic
- government
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012216 screening Methods 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 82
- 238000004140 cleaning Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000013480 data collection Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明适用于数据筛选技术领域,尤其涉及一种政务电子数据筛选方法及系统,所述方法包括:采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合;获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率;若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时。本发明通过利用目标分类模型,对政务电子数据进行分类,并利用与筛选框的配合,缩小了政务电子数据的筛选范围,实现了对政务电子数据的快速筛选。
Description
技术领域
本发明涉及数据筛选技术领域,尤其涉及一种政务电子数据筛选方法及系统。
背景技术
政务数据涉及的数据量大、数据类型多、来源广泛、数据格式复杂,随着大数据和互联网的发展,政府、社会对挖掘各部门领域的政务数据价值的需求越来越大,在政务活动中,需要从海量的数据库中筛选出所需的数据。
政务电子数据的筛选效率较低,同时对于时间较为久远的政务电子数据,则无法通过人工进行筛选,这样的筛选方式极大地限制了电子政务的发展;因此,在上述条件相同的情况下,通过缩小待筛选的数据库,可更为快速地筛选出需要的政务电子数据;所以如何缩小政务电子数据的筛选范围是本发明所要解决的技术问题。
发明内容
本发明的目的在于提供一种政务电子数据筛选方法及系统,以解决上述背景技术中提出的如何缩小政务电子数据的筛选范围的问题。
为实现上述目的,本发明提供如下技术方案:
采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合;
获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率;
若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;
若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;
若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类;
创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在常用数据集合和非常用数据集合中进行筛选,显示筛选出的政务电子数据。
进一步的,所述采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合的步骤包括:
主动采集用户数据,根据所述用户数据确定目标用户的习惯参数,基于所述习惯参数确定政务数据的使用频率;
基于所述使用频率,创建常用数据集合和非常用数据集合;
分别向常用数据集合和非常用数据集合插入频率标签。
进一步的,所述获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率的步骤包括:
获取政务电子数据,构建初始分类模型,在初始分类模型中引入训练层,并通过在政务电子数据中随机选择样本,对训练层进行训练和更新,得到目标分类模型;
将获取到的政务电子数据输入到目标分类模型中,输出政务电子数据属于常用数据集合的第一概率和非常用数据集合的第二概率。
进一步的,所述若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类的步骤包括:
若所述目标分类模型输出的第一概率或第二概率大于常用数据集合或非常用数据集合的频率标签,则将所述政务电子数据归入到对应的数据集合中;
若所述第一概率和第二概率同时小于常用数据集合和非常用数据集合的频率标签,则回溯输入的政务电子数据;
基于已确定的清洗策略对回溯到的政务电子数据进行清洗,得到清洗结果;
将所述清洗结果输入到目标分类模型中,再次输出分类结果。
进一步的,所述创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在常用数据集合和非常用数据集合中进行筛选,显示筛选出的政务电子数据的步骤包括:
创建筛选框,并在所述筛选框中开放数据集合选择端口和关键词输入端口;
接收用户输入的筛选框信息,基于所述筛选框信息在常用数据集合和非常用数据集合中筛选;
根据筛选后政务电子数据与筛选框的匹配程度进行排序,获得筛选后的数据列表,并显示所述数据列表。
进一步的,所述方法还包括:
将所述政务电子数据输入到预设的目标分类模型中;
输出得到政务电子数据中敏感数据组成的加密集合;
对加密集合的权限进行定义和配置;生成与所述定义和配置的权限相关联的权限数据;
将权限数据推送给管理人员。
进一步的,所述方法还包括:
记录政务电子数据的存储时间,并在所述筛选框中加入存储时间项;
利用存储时间项对数据列表进行校正,剔除无效数据后,获得最终列表;显示所述最终列表。
进一步的,所述系统包括:
集合创建模块,用于采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合;
数据分类模块,用于获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率,若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类;
筛选显示模块,能够创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在常用数据集合和非常用数据集合中进行筛选,显示筛选出的政务电子数据。
进一步的,所述集合创建模块包括:
信息采集单元,能够主动采集用户数据,根据所述用户数据确定目标用户的习惯参数,根据所述习惯参数确定政务数据的使用频率;
创建单元,能够基于所述使用频率,创建常用数据集合和非常用数据集合;
标签插入单元,分别向常用数据集合和非常用数据集合插入频率标签。
进一步的,所述数据分类模块包括:
模型创建单元,能够获取政务电子数据,构建初始分类模型,在初始分类模型中引入训练层,并通过在政务电子数据中随机选择样本,对训练层进行训练和更新,得到目标分类模型;
预处理单元,用于将获取到的政务电子数据输入到目标分类模型中,输出政务电子数据属于常用数据集合的第一概率和非常用数据集合的第二概率;
归入单元,用于若所述目标分类模型输出的第一概率或第二概率大于常用数据集合或非常用数据集合的频率标签,则将所述政务电子数据归入到对应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率同时小于常用数据集合和非常用数据集合的频率标签,则回溯输入的政务电子数据;
清洗单元,能够基于已确定的清洗策略对回溯到的政务电子数据进行清洗,得到清洗结果;
显示单元,能够将所述清洗结果输入到目标分类模型中,输出分类结果。
与现有技术相比,本发明的有益效果是:
1、通过对政务电子数据进行分类,可缩小政务电子数据的筛选范围,减少筛选的工作量,同时通过对政务电子数据的分类,可减少无用数据造成的干扰,保证筛选的准确性,此外通过快速锁定常用数据集合和非常用数据集合,结合筛选框,可快速筛选出所需的政务电子数据,筛选效率高,同时还可对筛选内容进行排序展示,使得筛选结果的查看更为方便。
2、通过对政务电子数据中敏感数据进行加密,可保证数据的安全性,降低数据外泄风险。
附图说明
图1为本发明实施例提供的政务电子数据筛选方法的流程框图;
图2为本发明实施例提供的政务电子数据筛选方法的第一子流程框图;
图3为本发明实施例提供的政务电子数据筛选方法的第二子流程框图;
图4为本发明实施例提供的政务电子数据筛选方法的第三子流程框图;
图5为本发明实施例提供的政务电子数据筛选系统的组成框图;
图6为本发明实施例提供的政务电子数据筛选系统中集合创建模块的组成框图;
图7为本发明实施例提供的政务电子数据筛选系统中数据分类模块的组成框图;
图8为本发明实施例提供的政务电子数据筛选系统中筛选显示模块的组成框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在实施例1中,图1示出了本发明实施例提供的政务电子数据筛选方法实现流程,以下对本发明实施例1提供的政务电子数据筛选方法进行详述,如下:
S100:采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合。
通过预设的软件或监测系统采集用户数据,此处的用户即为政务电子数据的处理端,通过采集用户数据,既可对政务部门工作人员的数据使用情况进行监管,也可以为数据的筛选提供帮助;采集到用户数据后,将此类数据通过预先设定好的策略,转换为习惯参数,习惯参数即为使用频率、存储时间等;收集到习惯参数后,创建常用数据集合和非常用数据集合,将使用频率低于某一数值的政务电子数据转移到非常用数据集合中,如低于每周5次、每日1次等,当需要使用此类政务电子数据时,从非常用数据集合中进行筛选即可。
S200:获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率;若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类。
当获取到政务电子数据后,将政务电子数据输入到预先训练完成的目标分类模型中,可计算出其属于常用数据集合和非常用数据集合的概率,同时规定当概率大于一定数值时,则将该政务电子数据归入对应的数据集合;例如计算出某政务电子数据属于常用数据集合和非常用数据集合的概率分别为60%和30%时,同时规定概率大于50%即可归入,此时则应将该政务电子数据归入到常用数据集合中,如果计算出的某政务电子数据属于常用数据集合和非常用数据集合的概率均低于规定的概率要求时,则需要对该政务电子数据进行清洗,清洗后,再通过目标分类模型进行分类。
S300:创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在常用数据集合和非常用数据集合中进行筛选,显示筛选出的政务电子数据。
当需要对政务电子数据进行筛选时,在推送的筛选框中勾选所要检索的数据集合、输入关键词等,利用筛选框中的信息在对应的数据集合中进行筛选,并对筛选结果进行显示。
在实施例2中,图2示出了本发明实施例提供的政务电子数据筛选方法实现流程,以下对所述采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合的步骤进行详述,如下:
S101:主动采集用户数据,根据所述用户数据确定目标用户的习惯参数,根据所述习惯参数确定政务数据的使用频率。
采集政务电子数据处理端的使用数据,并生成习惯参数,在使用政务电子数据时,利用预设的策略,对习惯参数进行修正。
S102:基于所述使用频率,创建常用数据集合和非常用数据集合。
创建常用数据集合和非常用数据集合,并将储存的政务电子数据归入到对应的数据集合中,从而实现对政务电子数据的分类存储。
S103:分别向常用数据集合和非常用数据集合插入频率标签。
在创建完常用数据集合和非常用数据集合后,分别向二者插入频率标签,当某一政务电子数据的使用频率满足频率标签的要求时,则将该政务电子数据归入到对应的数据集合中;如常用数据集合和非常用数据集合的频率标签均为50%时,则当某政务电子数据通过目标分类模型计算出其属于常用数据集合的概率为70%,属于非常用数据集合的概率为30%时,由于70%大于常用数据集合的频率标签,所以将该政务电子数据归入到常用数据集合中,又如通过目标分类模型计算出其属于常用数据集合的概率为40%,属于非常用数据集合的概率为30%时,由于40%和30%均小于频率标签50%,此时该政务电子数据既不属于常用数据集合,又不属于非常用数据集合;其中预设的策略为对政务电子数据的访问次数、访问时间、访问时长等进行记录,当访问时长大于预设数值,如1分钟、2分钟等,则算作一次有效访问,此时对习惯参数校正。
在实施例3中,图3示出了本发明实施例提供的政务电子数据筛选方法实现流程,以下对所述获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率的步骤进行详述,如下:
S201:获取政务电子数据,构建初始分类模型,在初始分类模型中引入训练层,并通过在政务电子数据中随机选择样本,对训练层进行训练和更新,得到目标分类模型。
构建初始分类模型,同时利用政务电子数据对初始分类模型进行训练,其中初始分类模型应包含训练层、预测层等,当初始分类模型构建完成后,获取政务电子数据,并选取预设数量的样本,对训练层进行训练和更新,最终获得训练好的目标分类模型。
S202:将获取到的政务电子数据输入到目标分类模型中,输出政务电子数据属于常用数据集合的第一概率和非常用数据集合的第二概率。
完成目标分类模型的训练后,将政务电子数据输入到目标分类模型中,输出得到政务电子数据属于常用数据集合和非常用数据集合的概率;当获得的两组概率中的某一个数值,大于两个数据集合的频率标签时,则将该政务电子数据归入到对应的数据集合中。
在实施例4中,图3示出了本发明实施例提供的政务电子数据筛选方法实现流程,以下对所述若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类的步骤进行详述,如下:
S203:若所述目标分类模型输出的第一概率或第二概率大于常用数据集合或非常用数据集合的频率标签,则将所述政务电子数据归入到对应的数据集合中;若所述第一概率和第二概率同时小于常用数据集合和非常用数据集合的频率标签,则回溯输入的政务电子数据;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中。
如果在将政务数据输入到目标分类模型后,输出的第一概率和第二概率均小于常用数据集合和非常用数据集合的频率标签时,则回溯得到输入的政务电子数据;如果目标分类模型输出的第一概率和第二概率中的某一个数值,大于常用数据集合或非常用数据集合的频率标签,则将政务电子数据归入到对应的数据集合中,在今后的查找过程中,在对应的数据集合中进行筛选即可;还有另外一种情况,即第一概率和第二概率均大于频率标签,选择第一概率和第二概率两者间的最大值,并将政务电子数据归入到最大值所对应的数据集合中。
S204:基于已确定的清洗策略对回溯到的政务电子数据进行清洗,得到清洗结果,将所述清洗结果输入到目标分类模型中,输出分类结果。
对回溯的政务电子数据进行清洗,清洗后,得到清洗结果,将清洗后的政务电子数据输入到目标分类模型中,再次进行分类,输出分类后的结果,此结果即为原政务电子数据的分类结果,也就是说应根据清洗后的分类结果,将原政务电子数据归入到常用数据集合或非常用数据集合。
在实施例5中,图4示出了本发明实施例提供的政务电子数据筛选方法实现流程,以下对所述创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在数据集合中进行筛选,显示筛选出的政务电子数据的步骤进行详述,如下:
S301:创建筛选框,并在所述筛选框中开放数据集合选择端口和关键词输入端口。
创建筛选框,并向用户推送,用户可在筛选框中选择待筛选的数据集合,并在筛选框中输入所需要文件的关键词,通过对数据集合的选择,可大幅降低筛选的工作量,从而快速筛选出所需要的政务电子数据。
S302:基于所述筛选框信息在常用数据集合和非常用数据集合中筛选;根据筛选后政务电子数据与筛选框的匹配程度进行排序,获得筛选后的数据列表,并显示所述数据列表。
利用筛选框信息在常用数据集合和非常用数据集合中筛选,并对筛选出的结果进行排序,排序的因素为筛选结果与筛选框信息的匹配程度,匹配度越高,筛选结果的排序越靠前,将筛选结果汇总成一个数据列表,并对此数据列表进行显示。
在实施例6中,与实施例1不同的是,所述方法还包括:
将所述政务电子数据输入到预设的目标分类模型中;
输出得到政务电子数据中敏感数据组成的加密集合;
对加密集合的权限进行定义和配置;生成与所述定义和配置的权限相关联的权限数据;
将权限数据推送给管理人员。
将政务电子数据输入到预设的目标分类模型中,当该政务电子数据含有敏感数据时,则将此政务电子数据归入到加密集合中,通过对加密集合进行定义和配置,并对加密集合配置权限,再将相关的权限数据推送给管理人员,其中权限数据可以为密码,也可以为软件等,通过对部分政务电子数据进行加密,可降低重要数据泄露的可能性。
在实施例7中,与实施例1不同的是,所述方法还包括:
记录政务电子数据的存储时间,并在所述筛选框中加入存储时间项;
利用存储时间项对数据列表进行校正,剔除无效数据后,获得最终列表;显示所述最终列表。
在存储政务电子数据时,对存储的时间进行记录,用户在筛选框中填入时间段(有可能用户会遗忘存储的具体时间),通过此时间段,对数据列表中内的数据进行校正,剔除无效数据,进一步提高筛选结果的准确性。
在本发明技术方案的一个实例中,首先采集用户数据,确定用户数据属于常用数据集合概率和属于非常用数据集合的概率, 同时创建第一数据集合和第二数据集合,如果数据大于第一数据集合或是第二数据集合的阈值,就把数据归入到对应的集合中,如果小于就对数据进行清洗,当数据归入后,需要进行筛选数据时,直接在第一数据集合或者是第二数据集合中筛选,从而提高筛选效率。
图5示出了本发明实施例提供的政务电子数据筛选系统的组成结构框图,所述政务电子数据筛选系统1包括:
集合创建模块11,用于采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合;
数据分类模块12,用于获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率,若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类;
筛选显示模块13,能够创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在数据集合中进行筛选,显示筛选出的政务电子数据。
图6示出了本发明实施例提供的政务电子数据筛选系统的组成结构框图,所述集合创建模块11包括:
信息采集单元111,能够主动采集用户数据,根据所述用户数据确定目标用户的习惯参数,根据所述习惯参数确定政务电子数据的使用频率;
创建单元112,能够基于所述使用频率,创建常用数据集合和非常用数据集合;
标签插入单元113,分别向常用数据集合和非常用数据集合插入频率标签。
图7示出了本发明实施例提供的政务电子数据筛选系统的组成结构框图,所述数据分类模块12包括:
模型创建单元121,能够获取政务电子数据,构建初始分类模型,在初始分类模型中引入训练层,并通过在政务电子数据中随机选择样本,对训练层进行训练和更新,得到目标分类模型;
预处理单元122,用于将获取到的政务电子数据输入到目标分类模型中,输出政务电子数据属于常用数据集合的第一概率和非常用数据集合的第二概率;
归入单元123,用于若所述目标分类模型输出的第一概率或第二概率大于常用数据集合或非常用数据集合的频率标签,则将所述政务电子数据归入到对应的数据集合中,若所述第一概率和第二概率同时小于常用数据集合和非常用数据集合的频率标签,则回溯输入的政务电子数据;
清洗单元124,能够基于已确定的清洗策略对回溯到的政务电子数据进行清洗,得到清洗结果;
显示单元125,能够将所述清洗结果输入到目标分类模型中,输出分类结果
图8示出了本发明实施例提供的政务电子数据筛选系统的组成结构框图,所述筛选显示模块13包括:
筛选单元131,创建筛选框,并在所述筛选框中开放数据集合选择端口和关键词输入端口;
输出单元132,基于所述筛选框信息在常用数据集合和非常用数据集合中筛选,根据筛选后政务电子数据与筛选框的匹配程度进行排序,获得筛选后的数据列表,并显示所述数据列表。
上述步骤S100由集合创建模块11完成,对用户数据进行收集,并完成常用数据集合和非常用数据集合的创建;上述步骤S200由数据分类模块12完成,对政务电子数据进行分类;上述步骤S300由筛选显示模块13完成。
其中步骤S101由信息采集单元111完成,完成对政务电子数据的使用频率的确定;步骤S102由创建单元112完成,进行对常用数据集合和非常用数据集合的创建;步骤S103由标签插入单元113完成,对常用数据集合和非常用数据集合插入频率标签。
其中步骤S201由模型创建单元121完成,从而进行对目标分类模型的创建、训练等;步骤S202由预处理单元122完成,获得政务电子数据属于常用数据集合和非常用数据集合的概率;步骤S203和步骤S204由归入单元123完成,步骤S205由清洗单元124和显示单元125完成,完成对政务电子数据的归入。
其中步骤S301由筛选单元131完成,步骤S302由显示单元132完成。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种政务电子数据筛选方法,其特征在于,所述方法包括:
采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合;
获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率;
若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;
若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;
若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类;
创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在常用数据集合和非常用数据集合中进行筛选,显示筛选出的政务电子数据;
所述获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率的步骤包括:
获取政务电子数据,构建初始分类模型,在初始分类模型中引入训练层,并通过在政务电子数据中随机选择样本,对训练层进行训练和更新,得到目标分类模型;
将获取到的政务电子数据输入到目标分类模型中,输出政务电子数据属于常用数据集合的第一概率和非常用数据集合的第二概率;
所述若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类的步骤包括:
若所述目标分类模型输出的第一概率或第二概率大于常用数据集合或非常用数据集合的频率标签,则将所述政务电子数据归入到对应的数据集合中;
若所述第一概率和第二概率同时小于常用数据集合和非常用数据集合的频率标签,则回溯输入的政务电子数据;
基于已确定的清洗策略对回溯到的政务电子数据进行清洗,得到清洗结果;
将所述清洗结果输入到目标分类模型中,再次输出分类结果。
2.根据权利要求1所述的方法,其特征在于,所述采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合的步骤包括:
主动采集用户数据,根据所述用户数据确定目标用户的习惯参数,基于所述习惯参数确定政务数据的使用频率;
基于所述使用频率,创建常用数据集合和非常用数据集合;
分别向常用数据集合和非常用数据集合插入频率标签。
3.根据权利要求1所述的方法,其特征在于,所述创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在常用数据集合和非常用数据集合中进行筛选,显示筛选出的政务电子数据的步骤包括:
创建筛选框,并在所述筛选框中开放数据集合选择端口和关键词输入端口;
接收用户输入的筛选框信息,基于所述筛选框信息在常用数据集合和非常用数据集合中筛选;
根据筛选后政务电子数据与筛选框的匹配程度进行排序,获得筛选后的数据列表,并显示所述数据列表。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述政务电子数据输入到预设的目标分类模型中;
输出得到政务电子数据中敏感数据组成的加密集合;
对加密集合的权限进行定义和配置;生成与所述定义和配置的权限相关联的权限数据;
将权限数据推送给管理人员。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录政务电子数据的存储时间,并在所述筛选框中加入存储时间项;
利用存储时间项对数据列表进行校正,剔除无效数据后,获得最终列表;显示所述最终列表。
6.一种政务电子数据筛选系统,其特征在于,所述系统包括:
集合创建模块,用于采集用户数据作为用户日常使用习惯参数;并根据所述习惯参数,创建常用数据集合和非常用数据集合;
数据分类模块,用于获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率,若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类;
筛选显示模块,能够创建筛选框,其中筛选框包括数据集合选择、关键词输入;接收用户输入的筛选框信息,并在常用数据集合和非常用数据集合中进行筛选,显示筛选出的政务电子数据;
所述获取政务电子数据,将所述政务电子数据输入到预设的目标分类模型中,输出所述政务电子数据属于常用数据集合的第一概率和属于非常用数据集合的第二概率的步骤包括:
获取政务电子数据,构建初始分类模型,在初始分类模型中引入训练层,并通过在政务电子数据中随机选择样本,对训练层进行训练和更新,得到目标分类模型;
将获取到的政务电子数据输入到目标分类模型中,输出政务电子数据属于常用数据集合的第一概率和非常用数据集合的第二概率;
所述若所述第一概率或第二概率大于预设的阈值时,则将所述政务电子数据归入到相应的数据集合中;若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率均小于预设的阈值,则对政务电子数据进行回溯,并对回溯到的政务电子数据进行清洗,再将清洗后的政务电子数据输入到预设的目标分类模型中,重新进行分类的步骤包括:
若所述目标分类模型输出的第一概率或第二概率大于常用数据集合或非常用数据集合的频率标签,则将所述政务电子数据归入到对应的数据集合中;
若所述第一概率和第二概率同时小于常用数据集合和非常用数据集合的频率标签,则回溯输入的政务电子数据;
基于已确定的清洗策略对回溯到的政务电子数据进行清洗,得到清洗结果;
将所述清洗结果输入到目标分类模型中,再次输出分类结果;
所述数据分类模块包括:
模型创建单元,能够获取政务电子数据,构建初始分类模型,在初始分类模型中引入训练层,并通过在政务电子数据中随机选择样本,对训练层进行训练和更新,得到目标分类模型;
预处理单元,用于将获取到的政务电子数据输入到目标分类模型中,输出政务电子数据属于常用数据集合的第一概率和非常用数据集合的第二概率;
归入单元,用于若所述目标分类模型输出的第一概率或第二概率大于常用数据集合或非常用数据集合的频率标签,则将所述政务电子数据归入到对应的数据集合中,若所述第一概率和第二概率均大于预设的阈值时,确定第一概率和第二概率中的较大值,并将所述政务电子数据归入到所述较大值所对应的数据集合中;若所述第一概率和第二概率同时小于常用数据集合和非常用数据集合的频率标签,则回溯输入的政务电子数据;
清洗单元,能够基于已确定的清洗策略对回溯到的政务电子数据进行清洗,得到清洗结果;
显示单元,能够将所述清洗结果输入到目标分类模型中,输出分类结果。
7.根据权利要求6所述的政务电子数据筛选系统,所述集合创建模块包括:
信息采集单元,能够主动采集用户数据,根据所述用户数据确定目标用户的习惯参数,根据所述习惯参数确定政务数据的使用频率;
创建单元,能够基于所述使用频率,创建常用数据集合和非常用数据集合;
标签插入单元,分别向常用数据集合和非常用数据集合插入频率标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473489.XA CN117194751B (zh) | 2023-11-08 | 2023-11-08 | 一种政务电子数据筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473489.XA CN117194751B (zh) | 2023-11-08 | 2023-11-08 | 一种政务电子数据筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117194751A CN117194751A (zh) | 2023-12-08 |
CN117194751B true CN117194751B (zh) | 2024-04-19 |
Family
ID=88998300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311473489.XA Active CN117194751B (zh) | 2023-11-08 | 2023-11-08 | 一种政务电子数据筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194751B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN110020553A (zh) * | 2019-04-12 | 2019-07-16 | 山东浪潮云信息技术有限公司 | 一种保护敏感数据的方法及系统 |
CN112991131A (zh) * | 2021-04-22 | 2021-06-18 | 合肥市骥捷大数据科技有限公司 | 一种适用于电子政务平台的政务数据处理方法 |
CN115098776A (zh) * | 2022-06-28 | 2022-09-23 | 云上(南昌)大数据运营有限公司 | 一种政务服务数据优化管理方法 |
CN115809263A (zh) * | 2021-09-15 | 2023-03-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN115878592A (zh) * | 2022-12-16 | 2023-03-31 | 北京易华录信息技术股份有限公司 | 一种政务数据治理方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710755B2 (en) * | 2014-09-26 | 2017-07-18 | Wal-Mart Stores, Inc. | System and method for calculating search term probability |
-
2023
- 2023-11-08 CN CN202311473489.XA patent/CN117194751B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN110020553A (zh) * | 2019-04-12 | 2019-07-16 | 山东浪潮云信息技术有限公司 | 一种保护敏感数据的方法及系统 |
CN112991131A (zh) * | 2021-04-22 | 2021-06-18 | 合肥市骥捷大数据科技有限公司 | 一种适用于电子政务平台的政务数据处理方法 |
CN115809263A (zh) * | 2021-09-15 | 2023-03-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN115098776A (zh) * | 2022-06-28 | 2022-09-23 | 云上(南昌)大数据运营有限公司 | 一种政务服务数据优化管理方法 |
CN115878592A (zh) * | 2022-12-16 | 2023-03-31 | 北京易华录信息技术股份有限公司 | 一种政务数据治理方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Research on Classification Model of Government Big Data Based on Deep Learning;Qiong Yuan et al.;Machine Learning for Cyber Security. Third International Conference, ML4CS 2020. Proceedings. Lecture Notes in Computer Science (LNCS 12488);20201111;第227-236页 * |
基于RSA的电子政务访问控制系统模型;何斌, 李林森;信息安全与通信保密;20051010(10);第83-84页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117194751A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102446311B (zh) | 过程驱动的业务智能 | |
Lenhard et al. | A literature study on privacy patterns research | |
US20080263029A1 (en) | Adaptive archive data management | |
US8973013B2 (en) | Composing analytic solutions | |
EP3270303A1 (en) | An automated monitoring and archiving system and method | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
US10679230B2 (en) | Associative memory-based project management system | |
CN111737477A (zh) | 一种基于知识产权大数据的情报调查方法、系统和存储介质 | |
CA2793400C (en) | Associative memory-based project management system | |
Adam et al. | Intelligence in digital forensics process | |
CN117009509A (zh) | 数据安全分级方法、装置、设备、存储介质和程序产品 | |
Widad et al. | Quality Anomaly Detection Using Predictive Techniques: An Extensive Big Data Quality Framework for Reliable Data Analysis | |
CN113761580A (zh) | 一种基于区块链系统的数据分析方法 | |
Elouataoui et al. | Metadata Quality Dimensions for Big Data Use Cases | |
CN117194751B (zh) | 一种政务电子数据筛选方法及系统 | |
CN109886318B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN116260866A (zh) | 基于机器学习的政务信息推送方法、装置和计算机设备 | |
CN116340845A (zh) | 标签生成方法、装置、存储介质及电子设备 | |
Alshumrani et al. | A Unified Forensics Analysis Approach to Digital Investigation | |
Raj | Clustering and Classification of Digital Forensic Data Using Machine Learning and Data Mining Approaches | |
Stumpf et al. | Data, information and knowledge quality in retail security decision making | |
George et al. | Applying data mining principles in the extraction of digital evidence | |
CN117473074B (zh) | 一种基于人工智能的司法案例智能信息匹配系统及方法 | |
Wael et al. | A Systematic Review to Identify Patterns Types and Analysis Objectives for the Discovery of Business Rules from Event Logs Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |