CN115690821A

CN115690821A - 一种电子卷宗智能编目方法和计算机设备

Info

Publication number: CN115690821A
Application number: CN202211091185.2A
Authority: CN
Inventors: 王荣刚
Original assignee: Beijing Hanwang Yingyan Technology Co ltd
Current assignee: Beijing Hanwang Yingyan Technology Co ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-02-03

Abstract

本申请公开了一种电子卷宗智能编目方法和计算机设备，方法包括获取待编目电子卷宗，并判断待编目电子卷宗的文件类型；对存储的图像中的单页图像进行OCR识别，对文字坐标点和文字样式进行版式解析得到标题分析结果；通过OCR识别结果和坐标样式标题进行版式解析编目；通过预定义规则编目进行针对不同业务场景的定制编目；通过自然语言处理算法进行命名实体提取，将命名实体提取的提取结果通过预先设定的拼接方式进行定义编目名与实体的拼接；不断循环上述过程，直到对存储的图像中的所有单页图像完成编目；通过本申请提供的智能编目方法，可将多样性材料编目的准确率提升至90％以上，同时不需要大量人工校验，能够减少维护优化成本，使分类效率提升。

Description

一种电子卷宗智能编目方法和计算机设备

技术领域

本申请涉及电子卷宗技术领域，特别是涉及一种电子卷宗智能编目方法和计算机设备。

背景技术

电子卷宗记录了整个事件中产生的各类文件，对于事件的回顾，查询和公示具有非常重要作用，例如：法院案件卷宗，医院就诊病例，社保缴纳报销记录，律所案件材料等，随着无纸化到来电子卷宗具有检索快，存储方便突出优点。

电子卷宗编目是指按照一定的标准和规则，对电子卷宗内的卷宗信息资源每种实体(Item)的外部特征和内容特征进行分析、选择、描述，并予以记录成为款目，继而将款目按一定顺序组织成为目录(Catalogue)或书目(Bibliography)的过程。电子卷宗编目可快速、准确、详尽地标注电子卷宗目录和材料名称，方便快速定位检索、可视化利用电子卷宗内容，为电子卷宗的深度应用奠定了坚实基础。

当前对电子卷宗材料的分类编目主要用于档案归档，材料类型多样，编目标准也不相同，使得编目准确率低，分类效率低，耗时耗力。另外，当前电子卷宗自动编目工具系统，大部分都是通过正则表达式匹配OCR识别结果来编目名，对于多样性材料类型无法通过现存匹配进行准确地编目，从而导致编目准确率低，需要大量人工校验，系统维护与优化，难以为继。

发明内容

基于此，针对上述技术问题，提供一种电子卷宗智能编目方法和计算机设备，已解决现有技术存在的电子卷宗编目准确率低的问题。

第一方面，一种电子卷宗智能编目方法，其特征在于，包括：

步骤S1，获取待编目电子卷宗，并判断所述待编目电子卷宗的文件类型；若所述待编目电子卷宗为图像文件，则直接将所述待编目电子卷宗进行存储，若所述待编目电子卷宗为版式文件，则将所述待编目电子卷宗逐页拆分为独立图像文件并进行存储；

步骤S2，对存储的图像中的单页图像进行OCR识别，并获取OCR识别结果；对文字坐标点和文字样式进行版式解析得到标题分析结果，所述标题分析结果包含当前单页图像的标题信息；

步骤S3，当对当前单页图像进行版式分析编目时，获取标题分析结果，并根据是否能获取到插图元素得到插图分析结果，然后按照步骤S31-S33进行编目：

步骤S31，判断当前单页图像中是否包含插图；

步骤S32，若判定当前单页图像中包含插图，判断插图与文字的占比是否达到预设占比阈值；若判定插图与文字的占比达到预设占比阈值，则对插图进行目标检测，在目标检测成功后将检测结果中置信度超过预设置信度阈值的检测结果所对应的编目名称，作为当前单页图像的定义编目名；

步骤S33，若判定当前单页图像中不包含插图，判断当前单页图像的标题是否满足标题规则；若判定标题满足标题规则，则将标题进行特殊符号过滤，并将过滤结果作为当前单页图像的定义编目名；若判定标题不满足标题规则，则查看上一单页图像的编目名是否存在结果，若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名，若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名；

步骤S4，当对当前单页图像进行预定义规则匹配编目时，按照步骤S41-S43进行编目：

步骤S41，获取预定义规则，将所述OCR识别结果和所述标题分析结果与所述预定义规则进行匹配；

步骤S42，若所述OCR识别结果和所述标题分析结果满足其中一条预定义规则的匹配条件，则将满足匹配条件的预定义规则的相应编目名结果作为当前单页图像的定义编目名；

步骤S43，若所述OCR识别结果和所述标题分析结果不满足任何一条预定义规则的匹配条件，则查看上一单页图像的编目名是否存在结果，若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名，若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名；

步骤S5，获取所述定义编目名和实体提取规则，并判断是否需要进行命名实体提取；若判定需要进行命名实体提取，使用自然语言处理算法进行命名实体提取，在命名实体提取完成后获取预先设定的拼接方式，将命名实体提取的提取结果通过所述预先设定的拼接方式进行定义编目名与实体的拼接，将拼接后的结果作为当前单页图像的最终编目名；若判定不需要进行命名实体提取，则直接将定义编目名作为当前单页图像的最终编目名；

步骤S6，不断循环执行步骤S2-S5，直到对存储的图像中的所有单页图像完成编目。

可选地，所述图像文件具体为JPEG文件或PNG文件，所述版式文件具体为PDF文件或OFD文件。

可选地，所述对文字坐标点和文字样式进行版式解析得到标题分析结果包括：

根据所述OCR识别结果，判断文字样式中是否存在字号比周围文字更大或者字体加粗的坐标点；

当判定存在字号比周围文字更大或者字体加粗的坐标点，获取该坐标点的文字及该坐标点左右延伸文字，并判断获取到的所有文字位置是否居中或最上方居中；若判定获取到的所有文字位置居中或最上方居中，则将获取到的所有文字解析为标题；

当判定不存在字号比周围文字更大或者字体加粗的坐标点，获取最上方的居中坐标点的文字及该坐标点左右延伸文字，并判断所述最上方的居中坐标点的下方文字的左右边距是否被占满；若判定所述最上方的居中坐标点的下方文字的左右边距被占满，则将获取到的所有文字解析为标题。

可选地，使用目标检测神经网络进行目标检测。

进一步可选地，所述目标检测神经网络具体为YOLO v3、RefineDet、M2Det或Spiking-YOLO。

可选地，所述预设置信度阈值为0.9。

可选地，所述步骤S32还包括：

若判定插图与文字的占比未达到预设占比阈值，则判断当前单页图像的标题是否满足标题规则；若判定标题满足标题规则，则将标题进行特殊符号过滤，并将过滤结果作为当前单页图像的定义编目名；若判定标题不满足标题规则，则查看上一单页图像的编目名是否存在结果，若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名，若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名；

若目标检测不成功，则判断当前单页图像的标题是否满足标题规则；若判定标题满足标题规则，则将标题进行特殊符号过滤，并将过滤结果作为当前单页图像的定义编目名；若判定标题不满足标题规则，则查看上一单页图像的编目名是否存在结果，若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名，若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名。

可选地，所述自然语言处理算法为隐马可夫模型算法、Viterbi算法或Aho-Corasick算法。

可选地，所述实体包括判决书的案号、身份证明的姓名和机构名。

第二方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面任一项所述的方法的步骤。

本申请至少具有以下有益效果：

本申请实施例提供了一种电子卷宗智能编目的详细方法，包括通过版式解析提取材料标题，通过OCR识别结果和坐标样式标题进行版式解析编目，通过预定义规则编目进行针对不同业务场景的定制编目，通过NLP命名实体提取将图像中重要信息提取，不断循环上述过程，直到对存储的图像中的所有单页图像完成编目；通过本申请提供的智能编目方法，可将多样性材料编目的准确率提升至90％以上，同时不需要大量人工校验，能够减少维护优化成本，使分类效率提升。

另外，在进行版式解析编目时，使用目标检测神经网络进行自动目标检测，能够进一步减少人工成本，提高分类效率。

附图说明

图1为本申请一个实施例提供的一种电子卷宗智能编目方法的流程示意图；

图2为本申请一个实施例中版式分析编目的流程示意图；

图3为本申请一个实施例中预定义规则匹配编目的流程示意图；

图4为本申请一个实施例中命名实体提取的流程示意图；

图5为本申请一个实施例提供的一种电子卷宗智能编目方法的完整流程示意图；

图6为本申请一个实施例提供的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种电子卷宗智能编目方法，包括以下步骤：

步骤S1，在上传待编目电子卷宗文件后，获取待编目电子卷宗，并判断待编目电子卷宗的文件类型；若待编目电子卷宗为图像文件，则直接将待编目电子卷宗进行存储，若待编目电子卷宗为版式文件，则将待编目电子卷宗逐页拆分为独立图像文件并进行存储。

其中，图像文件具体为JPEG文件(JPG文件)或PNG文件，版式文件具体为PDF文件或OFD文件。也就是PDF或OFD文件则将文件进行单页拆分，拆分为多个单页图像进行存储；若是图像文件则直接进行存储；之后获取存储后的图像列表。

步骤S2，对存储的图像中的单页图像进行OCR识别，并获取OCR识别结果；对文字坐标点和文字样式进行版式解析得到标题分析结果，标题分析结果包含当前单页图像的标题信息。也就是取出单个图像进行OCR识别，获取识别结果，然后对结果进行版式解析。

其中，对文字坐标点和文字样式进行版式解析得到标题分析结果包括：

(1)根据OCR识别结果，判断文字样式中是否存在字号比周围文字更大或者字体加粗的坐标点；

(2)当判定存在字号比周围文字更大(也就是更大号的文字)或者字体加粗的坐标点，获取该坐标点的文字及该坐标点左右延伸文字，并判断获取到的所有文字位置是否居中或最上方居中；其中，左右延伸是指将获取到的坐标点所在的整行进行延伸；若判定获取到的所有文字位置居中或最上方居中，则将获取到的所有文字解析为标题；

(3)当判定不存在字号比周围文字更大或者字体加粗的坐标点，获取最上方的居中坐标点的文字及该坐标点左右延伸文字，并判断最上方的居中坐标点的下方文字的左右边距是否被占满；若判定最上方的居中坐标点的下方文字的左右边距被占满，则将获取到的所有文字解析为标题。

后续调用通过版式分析编目或通过预定义规则匹配编目。在实际应用中，具体是通过版式分析编目还是预定义规则匹配编目，可以根据需要来预先设定。大部分情况下的材料都可以使用版式分析编目方法来完成编码，小部分文件或应用场景涉及到材料别名问题的时候，如材料标题就是《裁决书》、而需要将它命名为《***法院裁决书》，这种情况下就可以使用预定义规则匹配编目。

步骤S3，当对当前单页图像进行版式分析编目时，如图2所示，获取标题分析结果，并根据是否能获取到插图元素得到插图分析结果，然后按照下述步骤S31-S33进行编目：

步骤S31，判断当前单页图像中是否包含插图；

步骤S32，若判定当前单页图像中包含插图，判断插图与文字的占比是否达到预设占比阈值；若判定插图与文字的占比达到预设占比阈值，则对插图进行目标检测，在目标检测成功后将检测结果中置信度超过预设置信度阈值的检测结果所对应的编目名称，作为当前单页图像的定义编目名；其中，预设占比阈值可以根据实际情况而定，预设置信度阈值可以设置为0.9；

步骤S33，若判定当前单页图像中不包含插图，判断当前单页图像的标题是否满足标题规则；若判定标题满足标题规则，则将标题进行特殊符号过滤，并将过滤结果作为当前单页图像的定义编目名；若判定标题不满足标题规则，则查看上一单页图像的编目名是否存在结果，若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名，若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名。

进一步地，步骤S32还包括：

进一步地，进行目标检测具体是通过目标检测神经网络来实现的，可以使用的目标检测神经网络可以但不限于是YOLO v3、RefineDet、M2Det或Spiking-YOLO网络模型。

步骤S4，当对当前单页图像进行预定义规则匹配编目时，如图3所示，按照下述步骤S41-S43进行编目：

步骤S41，获取预定义规则，将OCR识别结果和标题分析结果与预定义规则进行匹配；

其中，预定义规则定义为“内容包含xx和/或标题包含xx，则编目名结果为xx”，其中“标题包含xx”中的标题也是通过版式解析得出的，同一个编目名结果可录入多条规则并定义它们的与或关系；

步骤S42，若OCR识别结果和标题分析结果满足其中一条预定义规则的匹配条件，则将满足匹配条件的预定义规则的相应编目名结果作为当前单页图像的定义编目名；

步骤S43，若OCR识别结果和标题分析结果不满足任何一条预定义规则的匹配条件，则查看上一单页图像的编目名是否存在结果，若存在结果则将上一单页图像的编目名作为当前单页图像的定义编目名，若不存在结果则将当前单页图像命名为其他作为当前单页图像的定义编目名；换句话说，也就是若未匹配到规则则查看上页文档编目名是否存在结果，若存在跟随上页文档编目名，不存在则命名为其他，作为定义编目名。

步骤S5，如图4所示，获取定义编目名和实体提取规则，并判断是否需要进行命名实体提取；若判定需要进行命名实体提取，使用自然语言处理算法进行命名实体提取，在命名实体提取完成后获取预先设定的拼接方式，将命名实体提取的提取结果通过预先设定的拼接方式进行定义编目名与实体的拼接，将拼接后的结果作为当前单页图像的最终编目名；若判定不需要进行命名实体提取，则直接将定义编目名作为当前单页图像的最终编目名。

也就是说，对于部分单页图像，可提取出内容中的关键实体信息，如判决书的案号、身份证明的姓名、机构名等。经过S3或S4编目后，获取到定义编目名，匹配是否需要提取，若需要提取则进行命名实体提取。提取完成后获取预定义的拼接方式，将提取结果通过预定义的拼接方式进行编目名与实体拼接，拼接后的结果行成新的编目名，作为最终编目名。

命名实体提取可使用自然语言处理算法实现，具体可以使用隐马可夫模型算法、Viterbi算法或Aho-Corasick算法实现，具体来说：

(1)隐马可夫模型是一种在自然语言处理领域中被广泛应用的统计模型，一般地，可以用λ＝(A,B,π)三元组来简洁地表示一个隐马尔可夫模型；隐马尔可夫模型实际上是标准马尔可夫模型的扩展，添加了可观测状态集合和这些状态与隐含状态之间的概率关系；

(2)Viterbi算法算法属于一种动态规划算法，目标在于寻找最优路径；计算了每个token的归一化概率矩阵和转移概率矩阵之后，最后根据维特比算法得到整个文本句子的最优概率输出；

(3)Aho-Corasick算法简称AC算法，通过将模式串预处理为确定有限状态自动机，扫描一遍文本就能结束；其复杂度为O(n)，即与模式串的数量和长度无关；

自动机按照文本字符顺序，接受字符，并发生状态转移；这些状态缓存了“按照字符转移成功(但不是模式串的结尾)”、“按照字符转移成功(是模式串的结尾)”、“按照字符转移失败”三种情况下的跳转与输出情况，因而降低了复杂度。

步骤S6，不断循环执行步骤S2-S5，直到对存储的图像中的所有单页图像完成编目。若存在未编目的单页图像，循环步骤S2-S5的过程直到单页图像全部编目完成。

该方法的一个完整流程示意图如图5所示。

本申请实施例提供了一种电子卷宗智能编目的详细方法，包括通过版式解析提取材料标题，通过OCR识别结果和坐标样式标题进行版式解析编目，通过目标检测图像分类将图像进行分类编目，通过预定义规则编目进行针对不同业务场景的定制编目，通过NLP命名实体提取可将图像中重要信息提取，不断循环上述过程，直到对存储的图像中的所有单页图像完成编目；本申请提出了两种编目思路，即版式分析编目和预定义规则匹配编目，适用于多样性材料，通过本申请提供的智能编目方法，可将多样性材料编目的准确率提升至90％以上，同时不需要大量人工校验，能够减少维护优化成本，使分类效率提升。

应该理解的是，虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种电子卷宗智能编目方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static RandomAccess Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种电子卷宗智能编目方法，其特征在于，包括：

步骤S31，判断当前单页图像中是否包含插图；

2.根据权利要求1所述的电子卷宗智能编目方法，其特征在于，所述图像文件具体为JPEG文件或PNG文件，所述版式文件具体为PDF文件或OFD文件。

3.根据权利要求1所述的电子卷宗智能编目方法，其特征在于，所述对文字坐标点和文字样式进行版式解析得到标题分析结果包括：

4.根据权利要求1所述的电子卷宗智能编目方法，其特征在于，使用目标检测神经网络进行目标检测。

5.根据权利要求4所述的电子卷宗智能编目方法，其特征在于，所述目标检测神经网络具体为YOLO v3、RefineDet、M2Det或Spiking-YOLO。

6.根据权利要求1所述的电子卷宗智能编目方法，其特征在于，所述预设置信度阈值为0.9。

7.根据权利要求1所述的电子卷宗智能编目方法，其特征在于，所述步骤S32还包括：

8.根据权利要求1所述的电子卷宗智能编目方法，其特征在于，所述自然语言处理算法为隐马可夫模型算法、Viterbi算法或Aho-Corasick算法。

9.根据权利要求1所述的电子卷宗智能编目方法，其特征在于，所述实体包括判决书的案号、身份证明的姓名和机构名。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。