CN117829127A

CN117829127A - 一种基于双公示文书序列智能分类的瞒报检测方法及系统

Info

Publication number: CN117829127A
Application number: CN202311862867.3A
Authority: CN
Inventors: 张伟平; 潘膺璋; 郭劲军; 郭望; 林起柄; 林梓煌; 沈雪蕊; 黄雅丽
Original assignee: Beijing Changxiang Yixin Technology Co ltd; Xiamen Sunsharing Information Technology Co ltd
Current assignee: Beijing Changxiang Yixin Technology Co ltd; Xiamen Sunsharing Information Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-05

Abstract

本发明涉及双公示文书检测技术领域，涉及一种基于双公示文书序列智能分类的瞒报检测方法及系统，其包括对报送数据中的文书号文本进行特征提取，得到文书号简单特征；根据文书号简单特征对文书号进行分类，推举有效文书号模板；根据有效文书号模板的位图信息计算递增规律；结合递增规律与有效文书号模板的位图信息，生成瞒报的文书号。借此，通过提取简单特征对文书号进行分类，同时利用位图结合递增规律进行计算去重，避免了繁杂的排序操作，方便快捷。

Description

一种基于双公示文书序列智能分类的瞒报检测方法及系统

技术领域

本发明涉及公式文书检测技术领域，特别涉及一种基于双公示文书序列智能分类的瞒报检测方法及系统。

背景技术

日常监测数据是否存在瞒报行为，通常采用以下几种方式方法查询相关公示系统、访问官方网站等方法仔细查看公示信息，或者通过其他渠道获取有关企业或个人信用的信息，如商业信息查询服务、媒体报道、行业协会等。

而监测是否存在瞒报的本质是找到文书号不连号的号码，因此文书的排序十分重要，然而在实际应用场景中往往因为数据本身没有严格的规范，在系统生成或人工录入的标准不一，文书号格式杂乱无序，导致系统或程序无法对文书进行有效的排序，文书号格式不一也会导致系统无法准确的对文书进行分类，产生误报。

现有技术CN116561349A公开了一种种行政类文书号数据智能查漏的方法、系统及装置，其公开的技术方案虽然能达到检测瞒报的技术效果，但需要经过繁杂的去重过程和排序过程，十分不便，且在过程中可能会出现遗漏的问题，影响检测效率和检测效果。

需要说明的是，公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

为解决上述背景技术中的难题，本发明提出一种基于双公示文书序列智能分类的瞒报检测方法，其包括：

对报送数据中的文书号文本进行特征提取，得到文书号简单特征；

根据文书号简单特征对文书号进行分类，推举有效文书号模板；

根据有效文书号模板的位图信息计算递增规律；

结合递增规律与有效文书号模板的位图信息，生成瞒报的文书号。

进一步地，所述文书号简单特征包含：

文书号模板，用于文书号分类；

数字集合，用于文书号分类；

位图信息,用于计算递增规律和生成瞒报文书号；

模板启用时间和模板停用时间，作为有效文书号的推举线索；

递增序列最小长度和递增序列最大长度，用于生成瞒报的文书号；

来源部门、分类编号和目录，对文书号的分类归纳起辅助性作用。

进一步地，所述推举有效文书号模板包含以下步骤：

根据文书号模板和数字集合，结合来源部门、分类编号和目录对报送数据中的文书号进行分类；

在同类文书号模板中根据模板启用时间、模板停用时间和位图信息，推举出有效文书号模板和问题文书号模板。

进一步地，所述有效文书号模板包含标准文书号模板和正确文书号模板。

进一步地，所述问题文书号模板不生成瞒报文书号。

进一步地，所述计算递增规律为等差规律公式，表达为：

a_n＝a₁+(n-1)*d

其中，a_n表示第位图信息，a₁表示第一项位图，n表示第几项位图，d表示公差。

进一步地，所述计算递增规律为等比规律公式，表达为：

a_n＝a₁*q^n--

其中，a_n表示第位图信息，a_-表示第一项位图，n表示第几项位图，q表示公比。

进一步地，所述计算递增规律还包括斐波纳契数列和平方数列。

进一步地，所述生成瞒报的文书号包含以下步骤：

将同类有效文书号中的位图信息进行并集处理，得出并集结果；

根据并集结果结合递增规律进行补集，得出补集结果；

补集结果结合标准文书号模板生成瞒报的文书号。

本发明还提供一种瞒报检测系统，用于实施上述任意一项所述的基于双公示文书序列智能分类的瞒报检测方法，包括：

文书号特征库，用于存储文书号简单特征；

文书号图库，用于存储位图；

瞒报库，用于存储瞒报的文书号；

问题库，用于存储问题文书号。

基于上述，本发明提供的一种基于双公示文书序列智能分类的瞒报检测方法及系统，相对于现有技术，通过对报送数据中的文书号进行简单特征提取，根据文书号的简单特征对文书号进行分类，并计算出文书号的位图递增规律，结合递增规律和文书号的位图信息对文书号进行分析，得出瞒报数据，生成报告，无需人工繁琐的查询和分析，降低了人力资源的消耗，提高了效率。

本发明的其它特征和有益效果将在随后的说明书中阐述，并且，部分地特征和有益效果可以通过实施本发明而了解。本发明的目的和其他有益效果可通过在说明书等内容中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；在下面描述中附图所述位置关系，若无特别指明，皆是以图示中类件绘示的方向为基准。

图1是本发明一实施例提供的基于双公示文书序列智能分类的瞒报检测方法的流程示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，本发明所使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员通常所理解的含义相同的含义，不能理解为对本发明的限制；应进一步理解，本发明所使用的术语应被理解为具有与这些术语在本说明书的上下文和相关领域中的含义一致的含义，并且不应以理想化或过于正式的意义来理解，除本发明中明确如此定义之外。

为了便于理解，首先对出现的一些名词进行解释：

位图：位图是一种存储结构，作用为有序的将一定规则的数据转为0或1表示，来缩小数据的存储大小。例如：厦建罚决﹝2017﹞4号可以用下标4，值为1来表示。

文书号模板：文书号模板是经过正则拆解后的格式，正则去除数字部分剩下的字符+占位符({0})模板，例如：厦建罚决﹝{0}﹞{1}号。

同类模板：文书号模板类别，例如以下分两类，因为他们缺少一个字：厦建罚决﹝{0}﹞{1}号、厦建罚决﹝{0}﹞{1}。

递增序列最小/最大长度：用于系统判别是否需要通过补0来补齐长度，例如：厦建罚决﹝2017﹞4号、厦建罚决﹝2017﹞114号，可以看到这两个模板的递增序列最小长度是1，最大长度是3，后续生成瞒报文书号的时递增序列前不需要补0。

又例如：厦建罚决﹝2017﹞004号、厦建罚决﹝2017﹞114号，二者的增序列最小和最大长度都是3，后续生成瞒报文书号的时为了生成格式一致的瞒报号码，需要在递增序列前进行补0。

实施例一

为了解决上述提到的效率低下、人力资源消耗高的技术问题，本发明提供一种基于公示文书智能分类的瞒报检测方法及系统，其包含以下步骤：

根据有效文书号模板的位图信息计算递增规律；

优选地，文书号简单特征包含：

文书号模板，用于文书号分类；

数字集合，用于文书号分类；

位图信息,用于计算递增规律和生成瞒报文书号；

在一些实施例中，推举有效文书号模板包含以下步骤：

因为数据本身没有严格的规范，在录入时，可能因为人工失误或系统生成标准不同，导致出现文书号排序错误和同类文书号格式杂乱的问题。例如：

厦建罚决﹝2017﹞11号

厦建罚决﹝2017﹞2号

厦建罚决字﹝2017﹞3号

上述示例中，简单的字符排序会导致11号文书排序在2号文书之前，且因为3号文书号格式问题，多了个文字，导致排序错误。

又例如：(闽)JZ安许安字﹝2018﹞XM0274

(闽)JZ安许安字﹝2018﹞XM0275号

(闽)JZ安许证字﹝20196XM0126

(闽)JZ安许证字﹝2020﹞XM0099

(闽)JZ安许证字﹝2018﹞XM0279号

(闽)JZ安许证字﹝2015﹞xm0042

(闽)Z安许证字﹝2016﹞XM0147

上述实际上是同类的文书号，只是因为人工录入等问题，导致格式杂乱，进而出现监测错误的问题。

而监测瞒报文书号的本质是找到文书号不连号的号码，因此如何解决排序问题或避免排序问题是最为关键的。

因此，在具体实施时，首先对报送数据中的所有文书号进行特征提取，得到文书号简单特征，包含文书号模板、数字集合、位图信息、模板启用时间和模板停用时间、递增序列最小长度和递增序列最大长度、来源部门、分组编号和目录等，为后续文书号分类、生成和计算提供基础。

需要说明的是，文书号必定存在数字，且是有序有规律，符合某种连号规则的，因此不含有数字的文书号文本不参与特征提取。针对不含数字或其他复杂类型的文书号格式，可以采用矩阵拆分数据或大型AI模型化(如chatGPT)通过算法进行分析规律数列，在此不做赘述。

其次，根据所提取的简单特征对所有文书号进行分类，推举有效文书号模板，用于后续生成瞒报的文书号。

文书号模板是通过来源部门为颗粒度进行划分，而同含义的文书号可能由同一部门之下的父部门和其子部门产生，在分类时可能会出现被归位不同含义的文书号模板。因此，在分类过程中，同时满足以下要求的文书号模板将被归为同类模板,要求如下：

1、同目录下出现的不同文书号模板。

2、模板不是纯数字的。

3、非含特定身份标识型文书号。

4、模板格式必须一致，数字格式一致。

5、模板对应的位图不存在有交集的情况。

例如：

序号1和序号2的文书号模板相似度极高，都处于目录2中，同时模板不是纯数字，也非含特殊身份标识的文书号，且没有存在交集的位图数据，满足合并的要求，因此，序号1的文书号模板和序号2的文书号模板的分组编号将被设为一致，属于同类模板，在后续生成瞒报数据时，取一致的分组编号的位图并集来计算瞒报号码。

再者，在同类文书号模板中，根据模板启用时间、模板停用时间和位图信息，推举出有效文书号模板和问题文书号模板

优选地，有效文书号模板包含标准文书号模板和正确文书号模板，标准文书号模板为正确的并且当前正在使用的文书号模板，正确文书号模板为已经停用的正确的文书号模板。

当同类文书号中存在多种不同不同的模板时，可以通过以下特征来推举出标准文书号模板：

1、基于NLP文本相似模型，找出各组模板同目录相关系的并且相似度较高的文书号模板。

2、文书号模板的使用起始和结束时间识别，也就是说最早发现这个文书号模板的时间和最后发现这个文书号模板的时间。

3、在相同分组的文书号模板中，对应的位图数量，数量最多的，它的标准优先级越高。

另外，问题文书号模板主要用于标记出哪些文书号模板是错误的，此类的错误模板不生成瞒报号码，可以介入人工进行确认。且问题文书号模板并不是绝对的，问题文书号模板的具体判断规则为：

1、位图数据过少，随着提取的特征数据量的增大，可解除问题标记；

2、位图数据少，漏号严重，查看占比(位图个数/(最大数-0)＝占比)。例如一文书号模板的位图为45,46，那它的占比就是2/(46-0)＝0.043，说明文书号个数极少，还是中间号数，因此，该文书号模板为问题文书号模板。

3、比对同目录拥有的其它文书号模板，其它文书号模板是否有有效状态的模板，若没有则暂定为问题文书号。

最后，根据有效文书号模板的位图信息计算递增规律，结合递增规律与有效文书号模板的位图信息，生成瞒报的文书号。

具体实施时，计算递增规律包含等差规律公式和等比规律公式，等差规律公式表达为：

a_n＝a₁+(n-1)*d

其中，a_n表示位图信息，a₁表示第一项位图，n表示第几项位图，d表示公差。例如：一有效文书号模板的位图信息为1,3,5,7，代入公式为：

1＝1+(1-1)*2

3＝1+(2-1)*2

5＝1+(3-1)*2

7＝1+(4-1)*2

将位图信息代入公式中，公式均成立，则该文书号模板的位图信息满足等差递增规律。

等比规律公式表达为：

a_n＝a₁*q^n-1

其中，a_n表示位图信息，a₁表示第一项位图，n表示第几项位图，q表示公比。例如一有效文书号模板的位图信息为2,4,8,16，代入公式为：

2＝2*2^1-1

4＝2*2^2-1

8＝2*2^3-1

16＝2*2^4-1

将位图信息代入公式中，公式均成立，则该文书号模板的位图信息满足等比递增规律。

在一些实施例中，计算递增规律还包括斐波纳契数列和平方数列，斐波纳契数列表达为：

F[n]＝F[n-1]+F[n-2](n>＝2,F[0]＝1,F[1]＝1)

其中，F[n]表示位图信息，F[n-1]表示位图第n-1项的值，F[n-2]表示位图第n-2项的值。

平方数列表达为：

a_n＝a{n-1}²

其中，a_n表示位图信息，n表示第几项位图，a{n-1}表示第n-1项位图。

得出递增规律后，将同类的文书号模板中的标准文书号模板位图信息与正确文书号模板的位图信息进行并集处理，得出并集结果。根据并集结果结合递增规律进行补集，得出补集结果。将补集结果结合标准文书号模板，生成瞒报的文书号。避免了繁杂的排序操作，直接通过位图信息进行计算去重，方便快捷。

在一些优选实施例中，本发明还提供一种瞒报检测系统，用于实施上述的检测方法，通过对报送数据中的文书号进行简单特征提取，根据文书号的简单特征对文书号进行分类，并计算出文书号的位图递增规律，结合递增规律和文书号的位图信息对文书号进行分析，得出瞒报的文书号，生成报告。

实施例二

为展示本方法的有效性，本发明提供一组同部门所报送文书号进行检测，如下表所示

序号	文书号	部门	目录
				1	(闽)JZ安许证字﹝20196XM0010	1	3
2	(闽)JZ安许安字﹝2019﹞XM0016	1	1
				3	(闽)JZ安许安字﹝2019﹞XM0015	1	1
4	(闽)JZ安许安字﹝2019﹞XM0014	1	1
				5	(闽)JZ安许安字﹝2019﹞XM0013	1	1
6	(闽)JZ安许安字﹝2019﹞XM0012	1	2
				7	(闽)JZ安许安字﹝2019﹞XM0011	1	2
8	(闽)JZ安许安字﹝2019﹞XM0008	1	2
				9	(闽)JZ安许安字﹝2019﹞XM0006号	1	1
10	(闽)JZ安许安字﹝2019﹞XM0005号	1	2
				11	(闽)JZ安许安字﹝2019﹞XM0004号	1	2
12	(闽)JZ安许安字﹝2019﹞XM0003号	1	1
				13	(闽)JZ安许安字﹝2019﹞XM0001号	1	1

首先，对所报送的文书号文本进行特征提取，得到文书号简单特征，并根据文书号简单特征对文书号进行分类，如下表所示

由表可知，上述所有文书号模板分类为三个文书号模板，其中序号1的文书号模板和序号2的文书号模板符合合并要求，分组编号设为一致。序号1的文书号模板的位图数量最多，且模板停用时间最接近当前，因此序号1的文书号模板为标准文书号模板，序号2的文书号模板为正确文书号模板。序号3的文书号仅有一个，且最大位图为10，占比为(1/10)，认定为问题文书号模板，介入人工确认，若解除问题标记则正常返回分类。

根据序号1和序号2的文书号模板的位图信息计算递增规律，得出文书号模板递增规律为等差数列。

将序号1和序号2的文书号模板进行并集，得出并集结果的位图信息为【1,3,4,5,6,8,11,12,13,14,15,16】，根据并集结果结合递增规律进行补集，补集结果为【2,7,9,10】，将补集结果结合标准文书号模板，生成瞒报的文书号，即(闽)JZ安许安字﹝2019﹞XM0002、(闽)JZ安许安字﹝2019﹞XM0007、(闽)JZ安许安字﹝2019﹞XM0009、(闽)JZ安许安字﹝2019﹞XM0010。

综上所述，本发明提供的一种基于双公示文书序列智能分类的瞒报检测方法及系统，相对于现有技术，通过对报送数据中的文书号进行简单特征提取，根据文书号的简单特征对文书号进行分类，并计算出文书号的位图递增规律，结合递增规律和文书号的位图信息对文书号进行分析，得出瞒报数据，生成报告。避免了繁杂的排序操作，直接通过位图信息进行计算去重，方便快捷。

另外，本领域技术人员应当理解，尽管现有技术中存在许多问题，但是，本发明的每个实施例或技术方案可以仅在一个或几个方面进行改进，而不必同时解决现有技术中或者背景技术中列出的全部技术问题。本领域技术人员应当理解，对于一个权利要求中没有提到的内容不应当作为对于该权利要求的限制。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于双公示文书序列智能分类的瞒报检测方法，其特征在于：包括：

根据有效文书号模板的位图信息计算递增规律；

2.根据权利要求1所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述文书号简单特征包含：

文书号模板，用于文书号分类；

数字集合，用于文书号分类；

位图信息,用于计算递增规律和生成瞒报文书号；

3.根据权利要求2所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述推举有效文书号模板包含以下步骤：

4.根据权利要求3所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述有效文书号模板包含标准文书号模板和正确文书号模板。

5.根据权利要求3所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述问题文书号模板不生成瞒报文书号。

6.根据权利要求1所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述计算递增规律为等差规律公式，表达为：

a_n＝a₁+(n-1)*d

7.根据权利要求1所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述计算递增规律为等比规律公式，表达为：

a_n＝a₁*q^n-1

其中，a_n表示第位图信息，a₁表示第一项位图，n表示第几项位图，q表示公比。

8.根据权利要求6或7所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述计算递增规律还包括斐波纳契数列和平方数列。

9.根据权利要求4所述的基于双公示文书序列智能分类的瞒报检测方法，其特征在于：所述生成瞒报的文书号包含以下步骤：

将同类标准文书号模板和正确文书号模板中的位图信息进行并集处理，得出并集结果；

根据并集结果结合递增规律进行补集，得出补集结果；

补集结果结合标准文书号模板生成瞒报的文书号。

10.一种瞒报检测系统，其特征在于：用于实施如权利要求1-9任意一项所述的基于双公示文书序列智能分类的瞒报检测方法，包括：

文书号特征库，用于存储文书号简单特征；

文书号图库，用于存储位图；

瞒报库，用于存储瞒报的文书号；

问题库，用于存储问题文书号。