CN116363667B

CN116363667B - 一种聚合文件主题识别与归类系统

Info

Publication number: CN116363667B
Application number: CN202310463683.3A
Authority: CN
Inventors: 王全修; 倪培峰; 张炜琛; 赵洲洋; 于伟; 靳雯; 石江枫; 殷海涛; 吴凡
Original assignee: Beijing Rich Information Technology Co ltd; Information And Communication Center Of Ministry Of Public Security
Current assignee: Beijing Rich Information Technology Co ltd; Information And Communication Center Of Ministry Of Public Security
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-10-13
Anticipated expiration: 2043-04-26
Also published as: CN116363667A

Abstract

本发明提供了一种聚合文件主题识别与归类系统，所述系统包括：目录树、处理器和存储有计算机程序的存储器，所述目录树的子目录是与子目录对应的子目录主题，当所述处理器执行计算机程序时，实现如下步骤：获取聚类文件并对所述聚类文件进行拆分，获取单页文件列表；对单页文件进行页主题检测，获取单页文件的页主题；基于单页文件的页主题和所有的子目录主题，将单页文件映射到目录树对应的子目录，实现了聚合文件按照单页文件的主题自动归类到相应的子目录，提高了聚合文件的归类效率。

Description

一种聚合文件主题识别与归类系统

技术领域

本发明涉及分布式文件系统领域，特别是涉及一种聚合文件主题识别与归类系统。

背景技术

文件系统中，聚合文件是将多个小文件聚合到一个对象中。然而，聚合文件也仅仅只是将多个小文件（多个小文件的格式可以不同，例如word格式、图片格式、PDF格式等等）简单的保存或聚合在一起，其保存方式和/或聚合方式通常不能满足人们对其归类的需求。现有技术中，人们通常采用人工的方式来对聚合的文件先拆分，然后结合阅读的内容手动调整小文件的位置，显然这种通过人工的方式来归类聚合文件消耗了较多的时间资源，因此，如何快速对聚合文件进行归类，是本领域技术人员急需要解决的技术问题。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种聚合文件主题识别与归类系统，所述系统包括：目录树、处理器和存储有计算机程序的存储器，其中，所述目录树的子目录是与子目录对应的子目录主题，当所述处理器执行计算机程序时，实现如下步骤：

S100，获取聚类文件，且对所述聚类文件进行拆分，获取单页文件列表A={A₁，A₂，…，A_i，…，A_m}，A_i是第i个单页文件，i的取值范围是1到m，m是单页文件的数量。

S200，对A_i进行页主题检测，获取A_i的页主题。

S300，基于A_i的页主题和所有的子目录主题，将A_i映射到目录树对应的子目录。

本发明至少具有以下有益效果：发明提供了一种聚合文件主题识别与归类系统，用于将聚合文件进行拆分，获取单页文件的页主题，并基于单页文件的页主题，将单页文件映射到目录树对应的子目录上，实现了聚合文件按照单页文件的页主题自动归类到相应目录树上，相较于现有技术中只能对图片进行检测，本发明还可以对pdf等格式的文件进行快速拆分归类，使用范围更广、更便捷。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种聚合文件主题识别与归类系统执行计算机程序时的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种聚合文件主题识别与归类系统，所述系统包括：目录树、处理器和存储有计算机程序的存储器，其中，所述目录树的子目录是与子目录对应的子目录主题，当所述处理器执行计算机程序时，实现如下步骤：

具体的，本发明中的聚合文件是包含了一个或多个主题的文件，例如，本发明中，聚合文件可以为案件卷宗，所述案件卷宗包括了多个关系表的数据，例如受案登记表、立案决定书、拘留证、拘留通知书、传唤证等。

S200，对A_i进行页主题检测，获取A_i的页主题。

具体的，本领域技术人员知晓，现有技术中任何一种将单页文件映射到目录树的子目录的方法均属于本发明保护范围，此处不再赘述。

基于上述，本发明提供了一种聚合文件主题识别与归类系统，用于将聚合文件进行拆分，获取单页文件的页主题，并基于单页文件的页主题，将单页文件映射到目录树对应的子目录上，实现了聚合文件按照单页文件的页主题自动归类到相应目录树上，相较于现有技术中只能对图片进行检测，本发明还可以对pdf等格式的文件进行快速拆分归类，使用范围更广、更便捷。

具体的，S200具体使用目标主题检测方法获取A_i的页主题：

S210，基于预设主题检测模型获取A_i对应的主题检测框列表B_i={B_i1，B_i2，…，B_ij，…，B_in}，其中，所述预设主题检测模型用于以框的形式获取A_i对应的主题，所述主题检测框是单页文件A_i的标题对应的文本框，B_ij是A_i的第j个主题检测框，j的取值范围是1到n，n是A_i的主题检测框的数量。

具体的，预设主题检测模型是YOLOv5模型。

进一步的，在使用YOLOv5获取A_i对应的主题检测框之前，还包括，对YOLOv5进行训练，本领域技术人员知晓，使用训练用单页文件输入YOLOv5模型，输出训练用主题检测框，通过减小训练主题检测框和训练用目标主题主题框的损失函数到第一预设损失阈值，从而达到训练YOLOv5模型的目的。

S220，获取A_i对应的通用文本框列表C_i={C_i1，C_i2，…，C_ir，…，C_is}，A_i对应的第r个通用文本框C_ir是包含有A_i的第r行内所有文本的文本框，r的取值范围是1到s，s是A_i对应的通用文本框的数量。

具体的，使用OCR文本检测模型对A_i进行检测，获取A_i对应的通用文本框列表。

进一步的，在使用OCR文本检测模型对A_i进行通用文本框检测前，还包括：对OCR文本检测模型进行训练，本领域技术人员知晓，使用训练用单页文件输入OCR文本检测模型，输出训练用通用文本框，通过减小训练通用文本框和训练用目标通用文本框的损失函数到第二预设损失阈值，从而达到训练OCR文本检测模型的目的。

其中，所述第一预设损失阈值和第二预设损失阈值可根据实际需求确定。

S230，获取B_ij和C_ir的重合部分的面积E_ijr，且获取重合面积比值V=E_ijr/（E_ij+F_ir-E_ijr），其中，E_ij是B_ij的面积，F_ir是C_ir的面积。

S240，当V>V₀时，认定B_ij是A_i的目标主题检测框，且对B_ij进行文字识别，从而获取A_i的页主题，其中，V₀是预设重合度阈值。

具体的，本发明可以使用OCR文本检测模型对B_ij进行文字识别，将识别B_ij出来的文字作为A_i的主题。

本发明进一步的，预设重合度阈值V₀通过如下步骤获取：

S241，初始化V₀=V_d，V_d是初始重合度阈值。

S242，获取验证单页文件集中待验证主题与真实主题相同的单页文件在所述验证单元文件集中的占比R，其中，验证单页文件集中每个单页文件的待验证主题通过所述目标主题检测方法获取。

S243，当R>R₀，将V_d记为V₀，其中，R₀是预设准确率阈值。

S244，当R≤R₀，V₀=V₀+V_t，执行S242，其中，V_t为预设增长因子。

综上，本发明获取单页文件的主题检测框和通用文本框，获取主题检测框和通用文本框的重合面积，并计算重合面积占总面积的重合面积比值，当重合面积比值大于预设重合度阈值，将对应的主题检测框作为该单页文件的目标主题检测框，对目标主题检测框进行文字识别，将识别出来的文字作为该单页文件的页主题，相较于现有技术中直接对单页文件的标题划取文本框，本发明采用主题检测框和通用文本框的重合面积进行识别，文本框内除主题外的内容造成的干扰更小，识别的主题更准确。

此外，本发明还采用预设重合度阈值的动态获取，使用验证单页文件集，当占比到达预设准确率阈值时，将此时的重合度阈值作为预设重合度阈值，从而找到最合适的预设重合度阈值，使得对于目标主题检测框的获取更精准。

进一步的，S300还包括：

S310，当A_i的页主题≠目录树的子目录主题时，获取目录树的子目录主题列表H={H₁，H₂，…，H_x，…，H_q}，H_x是第x个子目录主题，x的取值范围是1到q，q是目录树中子目录主题的数量。

具体的，本领域技术人员知晓，现有技术中任何一种判断两个文本词是否相等的方法均属于本发明保护范围，此处不再赘述。

S320，获取A_i的页主题和H_x的相似度S_ix，从而获取相似度列表S_i={S_i1，S_i2，…，S_ix，…，S_iq}。

具体地，本领域技术人员知晓，现有技术中任何一种计算两个文本字符串相似度的方法均属于本发明保护范围，例如，获取A_i的词向量和H_x的词向量，计算A_i的词向量和H_x的词向量的余弦距离作为A_i和H_x的相似度S_ix。

S330，S_i0=max{S_i1，S_i2，…，S_ix，…，S_iq}，将A_i映射到S_i0对应的子目录。

基于S310-S330，当A_i的主题≠目录树的子目录，例如目标主题检测框的范围过大导致识别出来的主题有多余的字，或者目标主题检测框的范围过小导致识别出来的主题缺少字，或者将“副本”识别为了目标主题等情况，则获取目录树的子目录列表，获取A_i的页主题和目录树的子目录的相似度，把A_i映射到相似度最高对应的子目录上，从而实现对于出现识别多字或少字等异常情况的后处理，保证A_i更准确的映射到目录树对应的子目录。

进一步的，S240中还包括：

S1，当A_i的目标主题检测框不止一个时，获取每个目标主题检测框的位置。

具体的，通过YOLOv5模型和OCR文本检测模型可以输出主题检测框和文本检测框的位置，从而确定目标主题检测框的位置。

S2，当任意相邻两个目标主题检测框在纵向的距离小于第一预设纵向距离时，对所有目标主题检测框进行文字识别，获取所有目标主题检测框的文字。

具体的，所述第一预设纵向距离可根据实际情况确定。

S3，将所有目标主题检测框的文字按照相应的目标主题检测框的位置从上到下进行拼接，从而获取A_i对应的页主题。

具体的，本领域现有技术人员知晓，将文字按照目标主题检测框的位置从上到下进行拼接的方法，均属于本发明保护范围，此处不再赘述。

更进一步的，S240中还包括：

S4，当A_i有两个目标主题检测框，且两个目标主题检测框在纵向的距离大于第二预设纵向距离时，将第一目标主题检测框进行文字识别，从而获取A_i的页主题，其中，所述第一目标主题检测框是两个目标主题检测框中位置处于A_i第一预设位置的目标主题检测框。

具体的，所述第二预设纵向距离可根据实际情况确定；所述第一预设位置可根据实际需求确定，例如单页文件的上方。可以理解为，当单页文件的目标主题检测框不止一个时，获取目标主题检测框的位置，当相邻两个目标主题检测框在纵向的距离小于第一预设纵向距离时，进行文字识别，获取所有目标主题检测框的文字，进行拼接，从而获取单页文件对应的主题，从而解决了多行标题的情况。

更进一步的，当A_i没有目标主题检测框时，执行如下步骤：

S010，当A_i-1单页文件的第二预设位置检测到目标主题检测框时，将该目标主题检测框文字识别后的文字字符串作为A_i的页主题，其中，A_i-1是聚合文件中A_i的前一页，第二预设位置和第一预设位置不同。

具体的，所述第二预设位置可根据实际情况确定，例如第二射位置为单页文件的下方。

S020，当A_i-1的第二预设位置没有检测到目标主题检测框时，将A_i映射到A_i的关联单页文件对应的子目录，其中，所述A_i的关联单页文件是为位于A_i前、距离A_i最近且具有页主题的单页文件。

综上，当A_i没有目标主题检测框时，检测A_i-1的第二预设位置是否有目标主体检测框，当有时，将该目标主题检测框文字识别后的文字字符串作为A_i的页主题，否则，将A_i映射到A_i的关联单页文件对应的子目录，从而解决了聚合文件中没有分页符、主题出现在下一页的情况，还解决了多页单页文件一个主题的情况。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种聚合文件主题识别与归类系统，其特征在于，所述系统包括：目录树、处理器和存储有计算机程序的存储器，其中，所述目录树的子目录是与子目录对应的子目录主题，当所述处理器执行计算机程序时，实现如下步骤：

S100，获取聚类文件，且对所述聚类文件进行拆分，获取单页文件列表A={A₁，A₂，…，A_i，…，A_m}，A_i是第i个单页文件，i的取值范围是1到m，m是单页文件的数量；

S200，对A_i进行页主题检测，获取A_i的页主题；

S300，基于A_i的页主题和所有的子目录主题，将A_i映射到目录树对应的子目录；

S200具体使用目标主题检测方法获取A_i的页主题：

S210，基于预设主题检测模型获取A_i对应的主题检测框列表B_i={B_i1，B_i2，…，B_ij，…，B_in}，其中，所述预设主题检测模型用于以框的形式获取A_i对应的主题，所述主题检测框是单页文件A_i的标题对应的文本框，B_ij是A_i的第j个主题检测框，j的取值范围是1到n，n是A_i的主题检测框的数量；

S220，获取A_i对应的通用文本框列表C_i={C_i1，C_i2，…，C_ir，…，C_is}，A_i对应的第r个通用文本框C_ir是包含有A_i的第r行内所有文本的文本框，r的取值范围是1到s，s是A_i对应的通用文本框的数量；

S230，获取B_ij和C_ir的重合部分的面积E_ijr，且获取重合面积比值V=E_ijr/（E_ij+F_ir-E_ijr），其中，E_ij是B_ij的面积，F_ir是C_ir的面积；

S240，当V>V₀时，认定B_ij是A_i的目标主题检测框，且对B_ij进行文字识别，从而获取A_i对应的页主题，其中，V₀是预设重合度阈值；

S300还包括：

S310，当A_i的页主题≠目录树的子目录主题时，获取目录树的子目录主题列表H={H₁，H₂，…，H_x，…，H_q}，H_x是第x个子目录主题，x的取值范围是1到q，q是目录树中子目录主题的数量；

S320，获取A_i的页主题和H_x的相似度S_ix，从而获取相似度列表S_i={S_i1，S_i2，…，S_ix，…，S_iq}；

2.根据权利要求1所述的聚合文件主题识别与归类系统，其特征在于，预设重合度阈值V₀通过如下步骤获取：

S241，初始化V₀=V_d，V_d是初始重合度阈值；

S242，获取验证单页文件集中待验证主题与真实主题相同的单页文件在所述验证单页文件集中的占比R，其中，验证单页文件集中每个单页文件的待验证主题通过所述目标主题检测方法获取；

S243，当R>R₀，将V_d记为V₀，其中，R₀是预设准确率阈值；

3.根据权利要求1所述的聚合文件主题识别与归类系统，其特征在于，预设主题检测模型是YOLOv5模型。

4.根据权利要求1所述的聚合文件主题识别与归类系统，其特征在于，使用OCR文本检测模型对A_i进行检测，获取A_i对应的通用文本框列表。

5.根据权利要求1所述的聚合文件主题识别与归类系统，其特征在于，S240中还包括：

S1，当A_i的目标主题检测框不止一个时，获取每个目标主题检测框的位置；

S2，当任意相邻两个目标检测框在纵向的距离小于第一预设纵向距离时，对所有目标主题检测框进行文字识别，获取所有目标主题检测框的文字；

6.根据权利要求5所述的聚合文件主题识别与归类系统，其特征在于，S240中还包括：

7.根据权利要求6所述的聚合文件主题识别与归类系统，其特征在于，当A_i没有目标主题检测框时，执行如下步骤：

S010，当A_i-1单页文件的第二预设位置检测到目标主题检测框时，将该目标主题检测框文字识别后的文字字符串作为A_i的页主题，其中，A_i-1是聚合文件中A_i的前一页，第二预设位置和第一预设位置不同；