CN115995087A

CN115995087A - 基于融合视觉信息的文档目录智能生成方法及系统

Info

Publication number: CN115995087A
Application number: CN202310291320.6A
Authority: CN
Inventors: 马富欣
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-04-21
Anticipated expiration: 2043-03-23
Also published as: CN115995087B

Abstract

本发明涉及基于融合视觉信息的文档目录智能生成方法及系统，包括对上传的文件进行文本视觉识别，得到视觉信息；视觉信息包括文本行信息及坐标；将视觉信息输入第一文本分类模型，输出目标换行标签；根据目标换行标签对文本行信息进行段落版式复原，得到文档段落信息；基于文档段落信息进行文档目录识别并判断是否存在目录；若是，则将文档段落信息中的目录删除得到目标文档；若否，则将文档段落信息作为目标文档；基于目标文档进行目录标题识别，得到初定目录标题信息；将初定标题信息输入第二文本分类模型，以验证初定目录标题信息中的各目录标题是否均为标题标签；若是，则将初定目录标题信息进行目录结构化输出。本发明的目录生成准确度高。

Description

基于融合视觉信息的文档目录智能生成方法及系统

技术领域

本发明属于数据处理技术领域，具体涉及基于融合视觉信息的文档目录智能生成方法及系统。

背景技术

随着信息技术的迅速发展，每天都会产生大量的不同格式的文档，例如：Word文档、PDF文档、图片格式的文档，甚至是纸质文档。在阅读这些文档时，常常会使用目录来筛选或快速定位所需要的信息。但是实际中大多数的文档没有目录信息，此时如果依靠人工来手动生成，会耗费一定的时间成本，尤其是某一级标题下存在很多子标题的情况下，时间成本会线性增长。因此，亟需一种能快速准确的生成文档目录的方法，在保证准确性的前提下提高目录生成的效率。

近年来，随着计算机视觉和自然语言处理算法的突飞猛进，利用自然语言处理技术和计算机视觉相结合的算法来进行文档识别和理解成为趋势。基于此，提出了利用人工智能算法来对文档中目录智能识别并结构化的方法。目前，现有的目录自动生成技术主要有以下两种方式：

第一种方式只利用自然语言处理技术对文档的文本信息进行目录的识别，例如申请号分别为CN202210724595.X、CN201810717480.1、CN201910973998.6、CN202111420845.2公开的目录识别技术。该方式包含两种识别方案，一种方案首先确认文件目录的存在，通过对存在的多个目录页文本内容进行识别，得到目录的版式信息；然后对目录的版式信息进行去噪、分栏、去重等一系列操作得到目录结构。如果目录不存在，通过一些文件协议对字体的样式、粗细等特征进行组装、匹配、识别得到目录结果。另一种方案则是通过识别文本段落是否是文档标题，首先确定文档中的至少一个段落，接着获取各个段落的向量信息，然后将得到的段落向量输入到分类模型，得到是否是标题的结果。

第二种方式通过利用多模态模型来生成目录，即利用自然语言处理与计算机视觉技术来识别并生成目录。例如申请号为CN202010919654.X的专利文献公开的文档目录生成方法，其首先通过OCR识别得到文本框信息，然后将文本框信息输入到结构类别识别模型来得到每个文本框的结构类别，基于文本框的结构类别得到标题，最后将标题输入到标题等级识别模型得到标题等级信息以组装成目录。

上述现有的目录自动生成技术，存在以下缺点和不足：

第一种方式只利用自然语言处理技术进行目录的识别，对一些图片格式的无法识别，对各种类型的文档支持度较低。另一方面，用户可能在正文中对标题和标号进行修改后，并没有及时的更新目录，导致目录版式中的目录标题和目录标号和正文不对应的问题，如果只识别目录并展示给用户，会有一定的误差。另外，自动生成的目录并不会包含所有的标题标号，存在缺少的问题，并且自动生成目录的前提是需要以一定格式来进行区分，比如Word中标题一、标题二等，每次的标题都需要进行固定的格式化，若标题不按照规定的格式、字体、字号来组织，都可能会导致目录抽取失败。

第二种多模态的方式将自然语言处理和计算机视觉结合起来，训练多个多模态模型来处理不同的任务，最后输出最终的结果。多模态的方式首先通过第一个多模态模型来预测文本框，然后在利用第二个多模态模型在文本框的基础上进行结构识别，来确定文本框是属于标题、正文或者表格中的哪一个属性，最后在结构识别的基础上再通过一个标题等级识别模型来输出标题在文中的等级，如一级标题、二级标题等。文本框的结构识别十分依赖文档的版式结构，若版式有较大变化，如字体字号、格式以及标题前面是否有序号及缩进的变化，会增加识别的错误率，并且该方式在训练的前期需要对大量文档的各种文本框进行人工标注，非常浪费人力成本，并且在训练及推理过程中相比于普通的模型推理时间和资源占用都高。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个，换言之，本发明的目的之一是提供满足前述需求之一或多个的基于融合视觉信息的文档目录智能生成方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于融合视觉信息的文档目录智能生成方法，包括以下步骤：

S1、对上传的文件进行文本视觉识别，得到视觉信息；其中，视觉信息包括文本行信息及文本坐标；

S2、将视觉信息输入第一文本分类模型，以输出目标换行标签；根据目标换行标签对文本行信息进行段落版式复原，得到文档段落信息；

S3、基于文档段落信息进行文档目录识别并判断是否存在目录；若是，则将文档段落信息中的目录删除得到目标文档；若否，则将文档段落信息作为目标文档；

S4、基于目标文档进行目录标题识别，得到初定目录标题信息；将初定标题信息输入第二文本分类模型，以验证初定目录标题信息中的各目录标题是否均为标题标签；若是，则转至步骤S5；

S5、将初定目录标题信息进行目录结构化输出。

作为优选方案，所述步骤S1中，利用OCR文本识别对上传的文件进行文本视觉识别。

作为优选方案，所述第一文本分类模型为BERT模型；

其中，第一文本分类模型的换行标签有四个：

第一换行标签代表在文本行的开始位置添加换行符，作为段落的开始行；

第二换行标签代表在文本行的末尾位置添加换行符，作为段落的结束行；

第三换行标签代表在文本行的开始位置和末尾位置均添加换行符，作为单独的段落；

第四换行标签代表文本行无需添加换行符，作为段落的正文行。

作为优选方案，所述步骤S3中，文档目录识别的过程包括：

将文档段落信息与目录标题规则库进行匹配，识别连续M行的目录标题；若每个目录标题在文档段落信息全文中出现的次数都大于1次，则将第一次出现的目录标题及其在全文中第二次出现的位置中间的内容识别为目录，其他部分的内容为正文；

其中，M为大于5的整数。

作为优选方案，若目录标题在文档段落信息全文中仅出现1次，则利用编辑距离算法对目录标题与文档段落信息全文中的目标标题信息进行编辑距离计算并判断编辑距离是否小于预设距离阈值；若是，则目标标题与目录标题等同。

作为优选方案，所述步骤S4中，目录标题识别的过程包括：

将目标文档的每一段文本与标题标号库的标号进行匹配；若匹配成功，则相应的段文本为标题段；若匹配失败，则相应的段文本为正文段落。

作为优选方案，所述第二文本分类模型为BERT模型。

作为优选方案，所述步骤S5中，初定目录标题信息以树状结构输出。

本发明还提供基于融合视觉信息的文档目录智能生成系统，应用如上任一项方案所述的文档目录智能生成方法，所述文档目录智能生成系统包括：

文本视觉识别模块，用于对上传的文件进行文本视觉识别，得到视觉信息；其中，视觉信息包括文本行信息及文本坐标；

第一文本分类模型，用于以视觉信息为输入，以输出目标换行标签；

复原模块，用于根据目标换行标签对文本行信息进行段落版式复原，得到文档段落信息；

文档目录识别模块，用于基于文档段落信息进行文档目录识别；

判断模块，用于根据文档目录识别的结果判断是否存在目录；

删除模块，用于当文档段落信息存在目录时删除目录，得到目标文档；

目录标题识别模块，用于基于目标文档进行目录标题识别，得到初定目录标题信息；

第二文本分类模型，用于以初定目录标题信息为输入，以验证初定目录标题信息中的各目录标题是否均为标题标签；

输出模块，用于当初定目录标题信息中的各目录标题均为标题标签时，将初定目录标题信息进行目录结构化输出。

本发明与现有技术相比，有益效果是：

（1）本发明基于融合视觉信息的文本分类模型对识别的文本行信息进行段落复原，提高目录识别和标题识别的准确率，相较于多模态的方式，推理速度提高且消除文档版式对结果的影响；相较于传统的方式，识别准确性更高；

（2）本发明先对文档的目录进行识别，然后将识别后的目录从原始文档中删除，减少目录对后续结构化输出的干扰；

（3）本发明首先进行初次的目录标题识别，然后对初次识别的结果通过文本分类模型对目录标题进行二次校验，进一步提高目录标题的识别准确率。

附图说明

图1是本发明实施例1的基于融合视觉信息的文档目录智能生成方法的流程图；

图2是本发明实施例1的上传的文件的文本的内容图；

图3是本发明实施例1的视觉信息的内容图；

图4是本发明实施例1的目录结构化输出的树状结构图；

图5是本发明实施例1的基于融合视觉信息的文档目录智能生成系统的模块构架图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

本实施例的基于融合视觉信息的文档目录智能生成方法，首先利用OCR文本识别技术对上传的文件进行识别，得到识别后的OCR文本行信息及位置坐标，为后续的步骤提供所需要的文本信息；接着采用融合视觉信息和自然语言处理技术相结合的方案，利用OCR识别后的行信息，实现对文档中的段落进行复原，减少目录标号的识别错误率，和多模态的方式相比，一方面利用文本及OCR的坐标信息，减少文档版式对结果的影响，另一方面有效减少模型的训练时间成本和资源占用；然后，通过基于融合规则及编辑距离的目录识别技术，实现对文档中存在的目录识别，识别完成后，将去除目录后的文档内容作为后续要进行识别文件正文目录的数据；然后采用基于复原后的段落信息利用标题识别引擎，实现对目录标题的识别。为了更进一步的提高识别的准确率，利用基于自然语言处理的标题校验模型，完成标题识别引擎识别结果的二次校验；最后将识别后的目录标题以树形结构存储，并进行展示。

以下对具体的文档目录智能生成方法进行详细说明：

如图1所示，本实施例的文档目录智能生成方法包括以下步骤：

S1、对上传的文件进行文本视觉识别，得到视觉信息；其中，视觉信息包括文本行信息及文本坐标；视觉信息以字典的形式保存。

具体地，利用OCR文本识别对上传的文件进行文本视觉识别。

如图2所示，上传的文件的文本内容包括“第一章项目概况”、“一、项目名称”、“XXX项目建设施工”、“二、项目建设单位”、“（一）建设单位及负责人”、“建设单位：建设公司”、“负责人：小明”、“第二章项目背景”、“在这里编写该项目的背景资料”，进行视觉识别之后得到的视觉信息如图3所示，本实施例“第一章项目概况”对应的字典结构为：{"x2":164.0,"y2":85.0,"txt":"第一章项目概况","x1":90.0,"y1":74.0}，其中，“x2”表示该行最右边字的X轴坐标，“y2”表示最右边字的Y轴坐标，“x1”表示该行最左边字的X轴坐标，“y1”表示最左边字的Y轴坐标，“txt”表示该行的行文本信息，即“第一章项目概况”；“一、项目名称”对应的字典结构为：{"x2":154.0,"y2":101.0,"txt":"一、项目名称","x1":90.0,"y1":90.0}；“XXX项目建设施工”对应的字典结构为：{"x2":173.0,"y2":116.0,"txt":" XXX项目建设施工","x1":90.0,"y1":105.0}；其余内容对应的字典结构以此类推，在此不赘述。

上述得到的文本行信息及文本坐标为后续的段落版式复原提供训练数据的基础。

S2、将视觉信息输入第一文本分类模型，以输出目标换行标签；根据目标换行标签对文本行信息进行段落版式复原，得到文档段落信息。

本实施例的第一文本分类模型为BERT模型。其中，第一文本分类模型的换行标签有四个：

具体地，以OCR文本识别后的文本行信息及文本坐标作为输入，利用自然语言处理技术并融合视觉信息建模为第一文本分类模型，标签为四个类别，分别为“仅左边加”，“仅右边加”，“左右都不加”，“左右都加”，即需要在该行的哪个位置（左边或右边）是否需要添加换行符，左边代表文本行的开始位置，右边代表文本行的末尾位置；第一文本分类模型训练完成后（具体训练过程可参考现有技术，在此不赘述），通过对OCR文本识别后得到的文本行信息及文本坐标，得到该行文本所对应的标签类别信息，通过标签类别信息来进行拼接行，完成段落版式的复原。相较于多模态的方式，可以减少模型训练及部署成本，提高运行速度；另一方面可以提高后面目录识别和标题识别的准确率。

作为示例说明，将视觉信息的文本行信息及文本坐标输入到基于BERT模型的第一文本分类模型中，得到一个1*4的概率值，然后选择最大的概率值所对应的索引作为标签；当标签为0时，代表需要在该行的开始位置添加换行符，表示该行是一个段落的开始行；当标签为1时，代表需要在该行的末尾位置添加换行符，表示该行是一个段落的结束行；当标签为2时，代表需要在该行的开始和末尾位置都需要添加换行符，表示该行就是一个段落，即段落只有一行；当标签为3时，代表不需要添加换行符，表示该行是段落中的正文行，位于段落中间位置；最后综合上述信息，得到段落复原后的文档内容，即文档段落信息。

基于上述文件中的文本内容，得到的每一行的段落标签依次为0，0，1，0，0，1，1，0，1；根据以上得到的标签信息得到段落复原后的文档内容。

S3、基于文档段落信息进行文档目录识别并判断是否存在目录；若是，则将文档段落信息中的目录删除得到目标文档；若否，则将文档段落信息作为目标文档。

文档中的目录会存在更新不及时导致目录标题和正文内容不一致的情况和有些标题没有按照办公软件格式来编写导致标题被识别正文而不在目录中的情况，这两种情况下的目录是不准确的，针对此类问题，识别文档中的目录，如果在该文档中存在目录，则删除，从而保证后续结构化的准确性，然后保留删除目录后的正文信息；如果该文档不存在目录，则不执行删除操作，保留原始文档的文本信息。

其中，目录的存在与否对后续的标题识别有非常重要的影响，且已经存在目录的层级可能会比正文中少的问题，所以在标题识别之前需要对文档中存在的目录进行删除，去除目录对标题识别的干扰。具体通过利用基于规则及编辑距离的技术实现对目录的识别，然后将识别后的目录文本从原始文档中删除。

具体地，文档目录识别的过程包括：

将文档段落信息与目录标题规则库进行匹配，识别连续M行的目录标题；若每个目录标题在文档段落信息全文中出现的次数都大于1次，则将第一次出现的目录标题及其在全文中第二次出现的位置中间的内容识别为目录，其他部分的内容为正文；其中，M为大于5的整数。

本实施例的目录标题规则库，目录标题规则库包括现有常用的目录标题，例如“第一章”，“（一）”、“1.”，“1.2”，“1.3.1”等。通过目录标题规则库对文档段落信息进行匹配；如果匹配成功，并且在一定连续范围内的段落都是目录标题，则认为该范围内的段落都是目录，然后进行删除，得到删除目录后的目标文档。

S4、基于目标文档进行目录标题识别，得到初定目录标题信息；将初定标题信息输入第二文本分类模型，以验证初定目录标题信息中的各目录标题是否均为标题标签；若是，则转至步骤S5。

具体地，本实施例的目录标题识别的过程包括：

将目标文档的每一段文本与标题标号库的标号进行匹配；若匹配成功，则相应的段文本为标题段；若匹配失败，则相应的段文本为正文段落；最终得到初定目录标题信息。

本实施例的第二文本分类模型采用BERT模型，用于输出是否为标题标签的分类结果，即利用第二文本分类模型进行二次校验，删除实际不是标题但初定认为是标题的数据，提高目录标题识别的精准度。其中，第二文本分类模型的具体训练过程参考现有技术，在此不赘述。

S5、将初定目录标题信息进行目录结构化输出，以树状结构保存，树的层级表示标题的等级，叶子节点表示某一章的最小标题，最终上述文件的目录的树状结构如图4所示。

基于上述文档目录智能生成方法，如图5所示，本实施例还提供基于融合视觉信息的文档目录智能生成系统，包括文本视觉识别模块、第一文本分类模型、复原模块、文档目录识别模块、判断模块、删除模块、目录标题识别模块、第二文本分类模型和输出模块。

本实施例的文本视觉识别模块用于对上传的文件进行文本视觉识别，得到视觉信息；其中，视觉信息包括文本行信息及文本坐标。

利用OCR文本识别对上传的文件进行文本视觉识别。

本实施例的第一文本分类模型用于以视觉信息为输入，以输出目标换行标签。

本实施例的复原模块用于根据目标换行标签对文本行信息进行段落版式复原，得到文档段落信息。

本实施例的文档目录识别模块用于基于文档段落信息进行文档目录识别。目录的存在与否对后续的标题识别有非常重要的影响，且已经存在目录的层级可能会比正文中少的问题，所以在标题识别之前需要对文档中存在的目录进行删除，去除目录对标题识别的干扰。具体通过利用基于规则及编辑距离的技术实现对目录的识别，然后将识别后的目录文本从原始文档中删除。

由于文档中的目录会存在更新不及时导致目录标题和正文内容不一致的情况和有些标题没有按照办公软件格式来编写导致标题被识别正文而不在目录中的情况，这两种情况下的目录是不准确的，针对此类问题，识别文档中的目录，如果在该文档中存在目录，则删除，从而保证后续结构化的准确性，然后保留删除目录后的正文信息；如果该文档不存在目录，则不执行删除操作，保留原始文档的文本信息。

具体地，文档目录识别的过程包括：

本实施例的判断模块用于根据文档目录识别的结果判断是否存在目录。

本实施例的删除模块用于当文档段落信息存在目录时删除目录，得到目标文档。

本实施例的目录标题识别模块用于基于目标文档进行目录标题识别，得到初定目录标题信息。具体地，本实施例的目录标题识别的过程包括：

本实施例的第二文本分类模型用于以初定目录标题信息为输入，以验证初定目录标题信息中的各目录标题是否均为标题标签。其中，第二文本分类模型采用BERT模型，用于输出是否为标题标签的分类结果，即利用第二文本分类模型进行二次校验，删除实际不是标题但初定认为是标题的数据，提高目录标题识别的精准度。其中，第二文本分类模型的具体训练过程参考现有技术，在此不赘述。

本实施例的输出模块用于当初定目录标题信息中的各目录标题均为标题标签时，将初定目录标题信息进行目录结构化输出，具体以树状结构保存，树的层级表示标题的等级，叶子节点表示某一章的最小标题。最终上述文件的目录的树状结构如图4所示。

实施例2：

本实施例的基于融合视觉信息的文档目录智能生成方法与实施例1的不同之处在于：

若目录标题在文档段落信息全文中仅出现1次，则利用编辑距离算法对目录标题与文档段落信息全文中的目标标题信息进行编辑距离计算并判断编辑距离是否小于预设距离阈值；若是，则目标标题与目录标题等同；

本实施例为了防止正文中的标题修改后没有及时更新目录导致目录中的标题在正文中精准查找失败的问题，融入编辑距离算法进行模糊查找，即两个标题间的差异字数在一定的范围内则认为这两个标题是相同的，以此解决精准查找失败带来的目录识别错误问题。

其他步骤可参考实施例1。

相应地，本实施例的文档目录智能生成系统与实施例1的不同之处在于：

还包括计算模块，用于利用编辑距离算法对目录标题与文档段落信息全文中的目标标题信息进行编辑距离计算，并通过判断模块判断编辑距离是否小于预设距离阈值；如是，则目标标题与目录标题等同。

其他构成可参考实施例1。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于融合视觉信息的文档目录智能生成方法，其特征在于，包括以下步骤：

S5、将初定目录标题信息进行目录结构化输出。

2.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述步骤S1中，利用OCR文本识别对上传的文件进行文本视觉识别。

3.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述第一文本分类模型为BERT模型；

其中，第一文本分类模型的换行标签有四个：

4.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述步骤S3中，文档目录识别的过程包括：

其中，M为大于5的整数。

5.根据权利要求4所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，若目录标题在文档段落信息全文中仅出现1次，则利用编辑距离算法对目录标题与文档段落信息全文中的目标标题信息进行编辑距离计算并判断编辑距离是否小于预设距离阈值；若是，则目标标题与目录标题等同。

6.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述步骤S4中，目录标题识别的过程包括：

7.根据权利要求6所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述第二文本分类模型为BERT模型。

8.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述步骤S5中，初定目录标题信息以树状结构输出。

9.基于融合视觉信息的文档目录智能生成系统，应用如权利要求1-8任一项所述的文档目录智能生成方法，其特征在于，所述文档目录智能生成系统包括：