CN116109114B

CN116109114B - 一种常态化政务服务数据处理方法及系统

Info

Publication number: CN116109114B
Application number: CN202310388647.5A
Authority: CN
Inventors: 韩咏; 姜新寅; 齐思贤; 曹霞; 苗晓刚; 韩中元; 孔蕾蕾; 齐浩亮
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-09-15
Anticipated expiration: 2043-04-13
Also published as: CN116109114A

Abstract

本发明属于政务数据处理技术领域，提供了一种常态化政务服务数据处理方法及系统，通过将指标信息的集合作为指标信息库；从网页或数据接口获取录入多个数据项，将数据项记为事项；通过人工智能模型以指标信息库中各指标信息确定对应指标信息的问题标签；所述问题标签的数据类型至少包括布尔型；将各个事项与事项所对应的问题标签组成的列表作为数据集合；以过滤模型对数据集合进行数据筛选获得的列表作为数据清单。通过自动化技术以提高了政务数据处理的精确度、时效性，提高数据清单的检索的速度和精度，实现了节省人力成本与时间成本的有益效果。

Description

一种常态化政务服务数据处理方法及系统

技术领域

本发明属于政务数据处理技术领域，具体涉及一种常态化政务服务数据处理方法及系统。

背景技术

在常态化监督政务的信息系统中，面对海量的来源不同、甚至是存在冲突的数据，通过自动化手段特别是人工智能技术改进繁杂的核查流程，高效、高质量地发现问题数据项进而解决问题数据项成为发展的必然，在目前的政务信息技术领域，自动化技术几乎贯穿于政务工作的整个过程，无论是对事项数据的收集和还是问题清单的生成等都需要依赖于对数据信息的收集以及对指标检查点的梳理，因此人工智能自动化技术起到了至关重要的作用；具体的人工智能技术的应用主要是在对事项办事指南文本纠错与主题集成服务一件事事项重复材料发现上，例如通过文本纠错技术、字符串相似度计算技术，这些技术常见的方法有Cosine similarity、、Edit distance和/>等技术，这些方法各有优缺点，但是都只是简单的根据所需数据选择并实现基本的重复性检查功能，并不能通过自动化手段特别是人工智能技术改进繁杂的核查流程、提升巡检效率。

并且，随着持续不断的录入各种指标的形成的日益庞大的结构化数据或非结构化数据形态的指标信息库，信息库中各种指标对应的监管项接收的对应数据清单数据也越来越复杂和庞大，数据清单的检索的复杂度上升，检索速度变慢。因此，如何加快数据抽取的周期和精度，随着政务数据的数据量变庞大以后，通过预设指标信息筛选可能会出现数据量变庞大影响的核查流程运行速度减慢等问题，上述这些技术问题亟待解决。

发明内容

本发明的目的在于提出一种常态化政务服务数据处理方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

为了实现上述目的，根据本发明的一方面，提供一种常态化政务服务数据处理方法，所述一种常态化政务服务数据处理方法包括如下各步骤：

S100，录入指标信息，将指标信息的集合作为指标信息库；

S200，从网页或数据接口获取录入多个数据项，将数据项记为事项；

S300，通过人工智能模型对指标信息库中各指标信息确定对应指标信息的问题标签；所述问题标签的数据类型至少包括布尔型；所述人工智能模型至少包括决策树模型；

S400，将各个事项与事项所对应的问题标签组成的列表作为数据集合；

S500，通过过滤模型对数据集合进行数据筛选获得的列表作为数据清单，将数据清单发送至客户端；其中，过滤模型也可以在客户端进行。

进一步地，所述方法还包括以下步骤： S600，客户端对数据清单中的各个事项与事项所对应的问题标签逐一进行修订或赋值形成复查数据清单，所述复查数据清单中对数据清单中的各个问题标签的布尔值进行赋值，统计布尔值为逻辑True的值的占比作为完成率，判断完成率是否满足预设的阈值，若是，则转到步骤S700；若否，则重复步骤S200-S500；

S700，输出复查数据清单中各个事项对应问题标签的赋值和对应的完成率的统计报表。

进一步地，在S200中，所述网页或数据接口为政务服务系统或政务服务一网通办系统的网页或数据接口。

进一步地，在S500中，还包括：根据事项对应的数据判断是否将事项加入到所述过滤模型。优选地，过滤模型既可以人工方式进行，也可以自动化方式进行。

优选地,如果以自动化方式进行，在S500中，数据清单的存储结构为二维矩阵，所述二维矩阵中每一个行列坐标的数据都有其对应的行索引和列索引，所述二维矩阵中每一个行列坐标的数据表示其对应的行索引和列索引之间的数值关系，所述数据清单的行索引和列索引皆为文本数据，所述数据清单中每一个行列坐标的数据表示其对应的行索引和列索引之间的逻辑是非的二元关系，一个所述行索引称为一个事项，所述列索引为指标信息中的各个检查点信息，把所述数据清单中的一个行列坐标的数据称之为一个问题标签，一个问题标签表示一个事项与一个指标信息之间的逻辑是非的二元关系，所述数据清单能够被生成并能够被增删改查和重复利用。

进一步地，在S500中，所述过滤模型用于监测所述数据清单中各事项的数值是否存在异常，若一个事项的数值被标记为逻辑非则该事项存在异常，所述过滤模型中存储了若干个不同的事项，若一个事项被存储于所述过滤模型中，则该事项对应的行索引和列索引之间的逻辑是非的二元关系即使被标记为逻辑非也不认为该事项存在异常，所述过滤模型表示所述数据清单中的部分的豁免许可或者逻辑关系。

进一步地，在S500中，所述过滤模型从第2次被使用开始，每次进行实时地进行动态自适应调配，具体为：

记数据清单生成的时间作为初始时间，以数据清单中的所有事项被赋值的时间为赋值时间；则以初始时间到赋值时间之间的时间段为数据清单的锁定等待时段；以在锁定等待时段内每个时刻的数据清单中数据接口、客户端终端或第三方客户端任意一种对数据清单中的任意事项进行赋值的次数为赋值尝试量（可能再同一时刻有多次赋值）；

设置一个序列为高频赋值序列GL，再设置一个序列为低频赋值序列DL；记锁定等待时段内各个非零的赋值尝试量对应时刻为赋值时刻；以计算锁定等待时段内各个赋值时刻之间的时间间隔的平均值为AVGTIME；记等待时段内赋值时刻AT1的下一个赋值时刻为赋值时刻的一次时刻AT2，以一次时刻的下一个赋值时刻为赋值时刻的二次时刻AT3；

依次判断锁定等待时段内各个赋值时刻AT1的二次时刻AT3是否是在从AT1时刻到AT1+2×AVGTIME之间；如果是，则将AT1对应的赋值尝试量Ass1、AT2对应的赋值尝试量Ass2和AT3对应的赋值尝试量Ass3依次加入序列GL中，如果否，则将Ass1、Ass2和Ass2依次加入序列DL中（序列GL中为锁定等待时段内高频的异常赋值尝试量，序列DL中为锁定等待时段内普通的异常赋值尝试量的平均值）；

以GL(i)表示GL第i个元素，i是序列GL的元素的序号；

在i的范围内遍历序列GL，如果GL中的GL(i)满足条件：DLAVG≥GL(i)≥DLSma，或者GL(i)≥DLSma+ Alloc×DLBig，如果所述GL(i)对应的赋值时刻被赋值的次数最多的事项没有在过滤模型中，则将所述事项加入过滤模型中；

在i的范围内遍历序列GL，如果GL中的GL(i)满足条件：DLAVG＜GL(i)＜DLSma，或者GL(i)＜DLSma+ Alloc×DLBig，如果所述GL(i)对应的赋值时刻被赋值的次数最少的事项已经在过滤模型中，则将所述事项从过滤模型中移除；

其中，Alloc=exp(GLSma÷GLAVG)/exp(GLAVG÷GLBig)；

其中，Alloc为赋频调配值比；DLAVG为序列DL中元素的均值；DLSma表示序列DL中元素的最小值； DLBig表示序列DL中元素的最大值；GLAVG为序列GL中元素的均值；GLSma表示序列GL中元素的最小值；GLBig表示序列GL中元素的最大值，exp是取指数运算。

通过以上方法筛选出的异常赋值尝试量的指数占比最高的事项加入过滤模型，减少筛选出的事项的数值存在异常的概率，以提高后续步骤中将正常的事项加入过滤模型的精度，其中的赋频调配值比示出了异常赋值尝试量即将达到极值趋势的比例。

优选地，步骤S103还包括：过滤模型实时进行动态自适应调配，还包括以下步骤：

记集合DL中的各个大于GLBig的赋值尝试量的数量为Sum1，集合DL中的各个小于GLSma的赋值尝试量的数量为Sum2，当Sum1小于或者等于Sum2时，计算集合DL中的各个大于GLBig的各个赋值尝试量之和作为调配稳定指数；计算集合DL中的各个小于GLSma的各个赋值尝试量之和作为调配移除指数；当调配稳定指数小于调配移除指数时,清空过滤模型。

有益效果为：对过滤模型实时进行动态自适应调配能够优选出即将呈现出高频率趋势赋值可能性的事项加入过滤模型，并且优先将即将呈现出低频率趋势赋值可能性的事项从过滤模型移除掉，能够提高数据清单的检索速度，并且提升核查检索的精度，而当调配稳定指数小于调配移除指数时，可能会极大的影响政务服务器的稳定性，这时候紧急清空过滤模型，以保障政务服务器的稳定性和时效性。

本发明还提供了一种常态化政务服务数据处理系统，所述一种常态化政务服务数据处理系统用于实现所述一种常态化政务服务数据处理方法，所述一种常态化政务服务数据处理系统运行于桌上型计算机、笔记本电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述一种常态化政务服务数据处理系统包括如下各单元：

指标录入单元，用于录入指标信息，将指标信息的集合作为指标信息库；

事项录入单元，用于从网页或数据接口获取录入多个数据项，将数据项记为事项；

问题标签单元，用于通过人工智能模型以指标信息库中各指标信息确定对应指标信息的问题标签；所述问题标签的数据类型至少包括布尔型；所述人工智能模型至少包括决策树模型；

数据集合单元，用于将各个事项与事项所对应的问题标签组成的列表作为数据集合；

清单构建单元，用于通过过滤模型对数据集合进行数据筛选获得的列表作为数据清单，将数据清单发送至客户端；其中，过滤模型也可以在客户端进行。

本发明的有益效果为：本发明提供了一种常态化政务服务数据处理方法及系统，首先，通过自动化以提高了政务数据处理的精确度、时效性。同时该系统输入简单，增加了运营协调工作的便捷性，实现了节省人力成本与时间成本的有益效果。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种常态化政务服务数据处理方法的流程图；

图2所示为一种常态化政务服务数据处理系统结构图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为一种常态化政务服务数据处理方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种常态化政务服务数据处理方法，所述方法包括以下步骤：

S100，录入指标信息，将指标信息的集合作为指标信息库；

S500，通过过滤模型对数据集合进行数据筛选获得的列表作为数据清单，将数据清单发送至客户端。

进一步地，在S500中，还包括：根据事项对应的数据判断是否将事项加入到所述过滤模型。

进一步地，在S500中，数据清单的存储结构为二维矩阵，所述二维矩阵中每一个行列坐标的数据都有其对应的行索引和列索引，所述二维矩阵中每一个行列坐标的数据表示其对应的行索引和列索引之间的数值关系，所述数据清单的行索引和列索引皆为文本数据，所述数据清单中每一个行列坐标的数据表示其对应的行索引和列索引之间的逻辑是非的二元关系，一个所述行索引称为一个事项，所述列索引为指标信息中的各个检查点信息，把所述数据清单中的一个行列坐标的数据称之为一个问题标签，一个问题标签表示一个事项与一个指标信息之间的逻辑是非的二元关系，所述数据清单能够被生成并能够被增删改查和重复利用。

优选地，所述过滤模型为白名单。

记数据清单生成的时间作为初始时间，以数据清单中的所有事项被赋值的时间为赋值时间；则以初始时间到赋值时间之间的时间段为数据清单的锁定等待时段；以在锁定等待时段内每个时刻的数据清单中数据接口、客户端终端或第三方客户端任意一种对数据清单中的任意事项进行赋值的次数为赋值尝试量（可能再同一时刻有多次赋值，所以赋值尝试量为大于或等于0的整数）；

设置一个序列为高频赋值序列GL，再设置一个序列为低频赋值序列DL；记锁定等时段内各个非零的赋值尝试量对应时刻为赋值时刻；以计算锁定等待时段内各个赋值时刻之间的时间间隔的平均值为AVGTIME；记等待时段内赋值时刻AT1的下一个赋值时刻为赋值时刻的一次时刻AT2，以一次时刻的下一个赋值时刻为赋值时刻的二次时刻AT3；

以GL(i)表示GL第i个元素，i是序列GL的元素的序号；

其中，Alloc=exp(GLSma÷GLAVG)/exp(GLAVG÷GLBig)；

本发明的实施例提供的一种常态化政务服务数据处理系统，如图2所示为本发明的一种常态化政务服务数据处理系统结构图，该实施例的一种常态化政务服务数据处理系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种常态化政务服务数据处理系统实施例中的步骤。

所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

所述一种常态化政务服务数据处理系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端服务器等计算设备中。所述一种常态化政务服务数据处理系统，可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种常态化政务服务数据处理系统的示例，并不构成对一种常态化政务服务数据处理系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种常态化政务服务数据处理系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种常态化政务服务数据处理系统运行系统的控制中心，利用各种接口和线路连接整个一种常态化政务服务数据处理系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种常态化政务服务数据处理系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种常态化政务服务数据处理方法，其特征在于，所述方法包括以下步骤：

S100，录入指标信息，将指标信息的集合作为指标信息库；

S300，通过人工智能模型对指标信息库中各指标信息确定对应指标信息的问题标签；所述问题标签的数据类型至少包括布尔型；

S500，通过过滤模型对数据集合进行数据筛选获得的列表作为数据清单，将数据清单发送至客户端；

S600，客户端对数据清单中的各个事项与事项所对应的问题标签逐一进行修订或赋值形成复查数据清单，所述复查数据清单中对数据清单中的各个问题标签的布尔值进行赋值，统计布尔值为逻辑True的值的占比作为完成率，判断完成率是否满足预设的阈值，若是，则进行步骤S700；若否，则重复步骤S200-S500；

S700，输出复查数据清单中各个事项对应问题标签的赋值和对应的完成率的统计报表；

其中，在S500中，所述过滤模型从第2次被使用开始，每次进行实时地进行动态自适应调配：

记数据清单首次生成的时间作为初始时间，以数据清单中的所有事项被赋值的时间为赋值时间；则以初始时间到赋值时间之间的时间段为数据清单的锁定等待时段；以在锁定等待时段内每个时刻的数据清单中数据接口、客户端终端或第三方客户端任意一种对数据清单中的任意事项进行赋值的次数为赋值尝试量；

设置一个序列为高频赋值序列GL，再设置一个序列为低频赋值序列DL；记锁定等待时段内各个非零的赋值尝试量对应时刻为赋值时刻；以计算锁定等待时段内各个赋值时刻之间的时间间隔的平均值为AVGTIME；记等待时段内赋值时刻AT1的下一个赋值时刻为赋值时刻的一次时刻AT2，以一次时刻的下一个赋值时刻为赋值时刻的二次时刻AT3；其中，序列GL中为锁定等待时段内高频的异常赋值尝试量，序列DL中为锁定等待时段内普通的异常赋值尝试量的平均值；

依次判断锁定等待时段内各个赋值时刻AT1的二次时刻AT3是否是在从AT1时刻到AT1+2×AVGTIME之间；如果是，则将AT1对应的赋值尝试量Ass1、AT2对应的赋值尝试量Ass2和AT3对应的赋值尝试量Ass3依次加入序列GL中，如果否，则将Ass1、Ass2和Ass2依次加入序列DL中；以GL(i)表示GL第i个元素，i是序列GL的元素的序号；

在i的范围内遍历序列GL，如果GL中的GL(i)满足条件：DLAVG≥GL(i)≥DLSma，并且如果所述GL(i)对应的赋值时刻被赋值的次数最多的事项没有在过滤模型中，则将所述事项加入过滤模型中；

在i的范围内遍历序列GL，如果GL中的GL(i)满足条件：GL(i)＜DLSma+ Alloc×DLBig，并且所述GL(i)对应的赋值时刻被赋值的次数最少的事项已经在过滤模型中，则将所述事项从过滤模型中移除；其中，Alloc=exp(GLSma÷GLAVG)/exp(GLAVG÷GLBig)；

2.根据权利要求1所述的一种常态化政务服务数据处理方法，其特征在于，在S200中，所述网页或数据接口为政务服务系统或政务服务一网通办系统的网页或数据接口。

3.根据权利要求1所述的一种常态化政务服务数据处理方法，其特征在于，在S500中，还包括：根据事项对应的数据判断是否将事项加入到所述过滤模型。

4.根据权利要求1所述的一种常态化政务服务数据处理方法，其特征在于，在S500中，数据清单的存储结构为二维矩阵，所述二维矩阵中每一个行列坐标的数据都有其对应的行索引和列索引，所述数据清单的行索引和列索引皆为文本数据，所述数据清单中每一个行列坐标的数据表示其对应的行索引和列索引之间的逻辑是非的二元关系，一个所述行索引称为一个事项，所述列索引为指标信息中的各个检查点信息，把所述数据清单中的一个行列坐标的数据称之为一个问题标签，一个问题标签表示一个事项与一个指标信息之间的逻辑是非的二元关系，所述数据清单能够被生成并能够被增删改查和重复利用。

5.根据权利要求4所述的一种常态化政务服务数据处理方法，其特征在于，在S500中，所述过滤模型用于监测所述数据清单中各事项的数值是否存在异常，若一个事项的数值被标记为逻辑非则该事项存在异常，所述过滤模型中存储了若干个不同的事项，若一个事项被存储于所述过滤模型中，则该事项对应的行索引和列索引之间的逻辑是非的二元关系即使被标记为逻辑非也不认为该事项存在异常，所述过滤模型表示所述数据清单中的部分的豁免许可或者逻辑关系。

6.根据权利要求1所述的一种常态化政务服务数据处理方法，其特征在于，在S500中，还包括以下步骤：以GLSma表示序列GL中元素的最小值；GLBig表示序列GL中元素的最大值；记集合DL中的各个大于GLBig的赋值尝试量的数量为Sum1，集合DL中的各个小于GLSma的赋值尝试量的数量为Sum2，当Sum1小于或者等于Sum2时，计算集合DL中的各个大于GLBig的各个赋值尝试量之和作为调配稳定指数；计算集合DL中的各个小于GLSma的各个赋值尝试量之和作为调配移除指数；当调配稳定指数小于调配移除指数时,清空过滤模型。

7.一种常态化政务服务数据处理系统，其特征在于，所述一种常态化政务服务数据处理系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6中的任一项所述的一种常态化政务服务数据处理方法中的步骤。