CN113221735A

CN113221735A - 基于多模态的扫描件段落结构还原方法、装置及相关设备

Info

Publication number: CN113221735A
Application number: CN202110510150.7A
Authority: CN
Inventors: 黄勇其; 王伟; 于翠翠; 张黔
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Software System Shenzhen Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-06

Abstract

本发明实施例公开了基于多模态的扫描件段落结构还原方法、装置及相关设备，通过预训练的OCR模型对文本扫描数据进行识别；将不含文本内容的文本框剔除，并按文本框所在的坐标位置依次排列，对每一文本框进行标注；根据每一坐标位置取出对应的文本框所在的图片区域；通过序列分类模型对文本内容和图像数据进行编码融合处理，并预测得到每个文本框的分类结果；根据分类结果进行段落重组；通过将OCR识别的文本框组合成文本框序列，并对文本框序列进行标注，同时融入对应文本框取出的图像数据，采用序列标注任务的方式，通过注意力融合和循环神经网络预测得到序列中每一文本框对应的标注概率，随后解码并进行重组，可以得到具有正确含义的段落结构。

Description

基于多模态的扫描件段落结构还原方法、装置及相关设备

技术领域

本发明涉及机器学习技术领域，尤其涉及基于多模态的扫描件段落结构还原方法、装置及相关设备。

背景技术

OCR(Optical CharacterRecognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

现今很多文本信息抽取任务都是基于OCR的识别结果，比如从扫描件法律文书中提取原告被告以及诉讼请求等信息。从扫描件中抽取信息，往往先通过OCR引擎进行文本定位及识别，再对识别出来的文本进行自然语言分析及处理。因此法律文书相关信息抽取的准确与否一定程度上依赖于OCR的识别结果。

OCR识别是通过自上而下，对图片进行文本检测并将文本区域进行切分，然后进行识别。OCR对扫描件的识别存在如下问题，通过OCR识别的出来的句子是独立的句子，丢失了句子之间的联系以及段落之间的结构关系，不完整的段落信息会对后续的文本分析及处理造成较大的影响，比如，某法律文书开头“原告：xxx有限公司，住所地xxx路xx号xx层xx室”，在扫描件中“xx号xx层xx室”处于“原告：xxx有限公司，住所地xxx路”的下一行，如果OCR识别的结果认为这两句是不同的两个段落，则会丢失部分地址信息，抽取地址时只剩下“xxx路”，导致信息不全、含义不正确。

发明内容

本发明的目的是提供基于多模态的扫描件段落结构还原方法、装置及相关设备，旨在解决现有技术中OCR扫描文本提取技术导致信息不全、含义不正确的问题。

第一方面，本发明实施例提供了一种基于多模态的扫描件段落结构还原方法，包括：

通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置；

将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注；

根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据；

通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果；

根据所述分类结果进行段落重组。

第二方面，本发明实施例提供了一种基于多模态的扫描件段落结构还原装置，包括：

OCR识别单元，用于通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置；

优化标注单元，用于将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注；

图像获取单元，用于根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据；

预测分类单元，用于通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果；

重组单元，用于根据所述分类结果进行段落重组。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于多模态的扫描件段落结构还原方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于多模态的扫描件段落结构还原方法。

本发明实施例公开了基于多模态的扫描件段落结构还原方法，通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置；将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注；根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据；通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果；根据所述分类结果进行段落重组。

通过将OCR识别的文本框组合成文本框序列，并对文本框序列进行标注，同时融入对应所述文本框取出的图像数据，采用序列标注任务的方式，通过注意力融合和循环神经网络预测得到序列中每一文本框对应的标注概率，随后解码并进行重组，可以得到具有正确含义的段落结构，可以大幅提高OCR识别的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于多模态的扫描件段落结构还原方法的示意性框图；

图2为本发明实施例提供的基于多模态的扫描件段落结构还原方法的流程示意图；

图3为本发明实施例提供的基于多模态的扫描件段落结构还原方法中步骤S104的子流程示意图；

图4为本发明实施例提供的基于多模态的扫描件段落结构还原方法中步骤S201的子流程示意图；

图5为本发明实施例提供的基于多模态的扫描件段落结构还原装置的示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1-2，一种基于多模态的扫描件段落结构还原方法，包括以下步骤S101-S105。

S101：通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置；

S102：将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注；

S103：根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据；

S104：通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果；

S105：根据所述分类结果进行段落重组。

在本实施例中，通过将OCR识别的文本框组合成文本框序列，并对文本框序列进行标注，同时融入对应所述文本框取出的图像数据，采用序列标注任务的方式，通过注意力融合和循环神经网络预测得到序列中每一文本框对应的标注概率，随后解码并进行重组，可以得到具有正确含义的段落结构。

通过序列化各个文本框，使得各个文本框之间具有前后关系，当前文本框会依赖于上一个文本框的内容，当前文本框也会影响下一个文本框的分类结果，使得分类后的文本框之间具有正确的含义，能组成正确的段落结构。

步骤S101中，通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置。

在本步骤中，通过事先训练好的OCR光学字符识别模型对文本扫描数据进行识别处理，可以得到若干文本框，OCR模型在处理不同的文本扫描数据时，截取的文本框大小和位置也会不一样，具体以训练时的文本扫描数据为准，故，可能存在文本框截取位置不当等问题，如果只是通过简单的分类模型进行处理，并对每个文本框进行重新组合，以此还原段落结果，由于该分类模型方法所处理的文本框之间相互独立，进行分类时忽略了文本框的内容存在上下文之间的依赖关系，将会导致段落结构和文本含义出现偏差；所以，本申请在后续对文本框等数据进行序列化处理，来解决这一技术问题。

步骤S102中，将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注。

在本步骤中，将不含文本内容的文本框剔除，去除冗余部分，方便后续的处理；通过以坐标位置为对照基准对文本框进行排序，使得能准确定位文本框的位置关系，在后续处理中也能利用在序列中前后各个文本框之间的依赖关系。

其中，以各个文本框的左上角坐标为各个文本框的坐标位置。

在得到文本框序列后，对每一文本框进行标注，标注时采用BIO标注模式，B代表段落的开始，I代表段落的中间，O代表独立成段。

步骤S103中，根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据。

在本步骤中，图片区域通过文本框的左上角坐标以及文本框的长和宽进行定义。

步骤S104中，通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果。

在本步骤中，采用序列标注任务的方式，通过注意力融合和循环神经网络预测得到序列中每一文本框对应的标注概率，并进行解码。

步骤S105中，根据所述分类结果进行段落重组。

在本步骤中，根据步骤S104中解码得出的文本框类型对文本框进行重组，得到具有正确含义的段落结构。

具体的，通过一段裁判文书对OCR模型截取文本框时进行说明：

再审申请人(一审原告、二审被上诉人)：蔡**，男，19**年*月*日出生，汉族，住湖南省怀化市**区。

被申请人(一审被告、二审上诉人)：怀化***有限公司，住所地湖南省怀化市**区人民南路***号。

法定代表人：陈**，该公司总经理。

诉讼代表人：聂**，怀化**有限公司管理人负责人。

再审申请人蔡**因与怀化**有限公司(以下简称**公司)物权确认纠纷一案，不服湖南省高级人民法院(2020)湘民终**号民事判决，向本院申请再审。本院依法组成合议庭进行了审查，现已审查终结。

在通过OCR模型截取后，可能得到至少以下两种情形：

第一种情形为理想情况下得到具有正确含义的段落结构的文本框：

第一文本框：再审申请人(一审原告、二审被上诉人)：蔡**，男，19**年*月*日出生，汉族，住湖南省怀化市**区。

第二文本框：被申请人(一审被告、二审上诉人)：怀化***有限公司，住所地湖南省怀化市**区人民南路***号。

第三文本框：法定代表人：陈**，该公司总经理。

第四文本框：诉讼代表人：聂**，怀化**有限公司管理人负责人。

第五文本框：再审申请人蔡**因与怀化**有限公司(以下简称**公司)物权确认纠纷一案，不服湖南省高级人民法院(2020)湘民终**号民事判决，向本院申请再审。本院依法组成合议庭进行了审查，现已审查终结。

第二种情形为可能出现的不具有正确含义的段落结构的文本框：

法定代表人：陈**，该公司总经理。

第三文本框：诉讼代表人：聂**，怀化**有限公司管理人负责人。

再审申请人蔡**因与怀化**有限公司(以下简称**公司)物权确认纠纷一；

第四文本框：案，不服湖南省高级人民法院(2020)湘民终**号民事判决，向本院申请再审。本院依法组成合议庭进行了审查，现已审查终结。

在以上文本框中，第三文本框和第四文本框均为不具有正确含义的段落结构的文本框。

请参阅图3，在一实施例中，步骤S104中，包括：

S201：将每一所述文本框的文本内容和所述图像数据进行编码融合，得到对应所述文本框融合后的句子编码数据；

S202：将每一所述句子编码数据依顺序组合得到句子编码序列；

S203：通过循环神经网络对所述句子编码序列进行编码处理，并将编码处理后的所述句子编码序列进行归一化映射；

S204：通过条件随机场对归一化后的所述句子编码序列进行概率预测，随后通过束搜索进行解码，并对每一所述文本框进行分类，得到分类结果。

在本实施例，通过将文本框逐一进行编码融合处理，可以得到融合了图像数据的句子编码数据，句子编码数据融合进了文本框之间的依赖关系。

随后将句子编码数据进行依序排列组合，进一步加强依赖关系。

通过循环神经网络，即，双向LSTM模型，也可用GRU模型，对该依赖关系进行处理，通过让当前文本框融入其他文本框的信息，根据上下文信息进行训练，使得到的文本框信息更加丰富准确。

条件随机场在本技术领域中简称为CRF，速搜索在本技术领域中简称为beamsearch。

其中，分类结果采用BIO标记模式。

具体的，以上述的裁判文书进行OCR模型处理后的第二种情形为例，对分类结果和重组进行说明：

第一文本框(标记为O)：再审申请人(一审原告、二审被上诉人)：蔡**，男，19**年*月*日出生，汉族，住湖南省怀化市**区。

第二文本框(标记为O)：被申请人(一审被告、二审上诉人)：怀化***有限公司，住所地湖南省怀化市**区人民南路***号。

法定代表人：陈**，该公司总经理。

第三文本框(标记为B)：诉讼代表人：聂**，怀化**有限公司管理人负责人。

第四文本框(标记为I)：案，不服湖南省高级人民法院(2020)湘民终**号民事判决，向本院申请再审。本院依法组成合议庭进行了审查，现已审查终结。

根据文本框的位置关系重组时，由于第一文本框和第二文本框被标注为O，故其内容可以单独拿出来，不会有歧义；其中第三文本框和第四文本框分别标注为B和I，而且第三文本框和第四文本框为前后关系，故需要将第三文本框和第四文本框的内容组合起来才是正确的段落结构。

请参阅图4，在一实施例中，步骤S201中，包括：

S301：将每一所述文本框的所述文本内容按字的先后顺序进行排列得到文本序列；

S302：通过Bert模型对所述文本序列中的每个字进行编码，得到每个字的向量编码；

S303：通过池化层对所述文本序列中所有字的向量编码进行压缩和防过拟合处理，得到每一所述文本序列的句子编码数据；

S304：通过图像特征抽取器对所述图像数据进行特征提取，得到每一所述图像数据的图像特征向量；

S305：将每一所述文本序列的句子编码数据分别和所有的所述图像特征向量进行注意力计算，并融合所述图像特征向量，得到第一融合特征向量；

S306：将每一所述句子编码数据和由所述句子编码数据融合得到的第一融合特征向量进行融合，得到第二融合特征向量。

在本实施例中，通过将文本框中的文本内容依序排列后，对字通过Bert模型进行处理，得到字的向量编码；通过池化层对向量编码进行融合前的压缩和防过拟合处理，方便后续的数据处理；通过图像特征抽取器对图像数据进行特征提取后，将每一所述文本序列的句子编码数据分别和所有的所述图像特征向量进行注意力计算，并融合所述图像特征向量，得到初步融合处理后的第一融合特征向量；将每一所述句子编码数据和由所述句子编码数据融合得到的第一融合特征向量进行融合，得到进一步融合后的第二融合特征向量。

通过在文本特征向量(句子编码数据)中融合图像的特征，能够利用文本在扫描件中的图像位置特征，更加精确刻画在特定场景中文本的特征，有助于提高段落结构还原的准确性。

其中，步骤S302中，Bert模型是一个基于双向Transformer(一种特征抽取器)的预训练语言模型，它通过大规模的训练语料进行训练，文本经Bert模型编码后得到的向量具有丰富的表征能力，语义相近的词在向量空间往往也比较靠近，因此使用预训练好的Bert模型进行文本框内文本序列的编码，能有效提高文本表征的准确性。

在一实施例中，步骤S303中，包括：

按如下公式计算所述句子编码数据：

其中，Bert(w_j)表示每一所述文本序列中第j个字经Bert模型编码后得到的向量编码。

在一实施例中，步骤S305中，包括：

按如下公式计算每一所述文本序列的句子编码数据分别和所有的图像特征向量之间的注意力值：

其中e_ij的计算公式为：

e_ij＝bv_i ^TW_av_j；

按如下公式计算所述图像特征向量融合了注意力值之后得到的所述第一融合特征向量：

其中，W_a表示可训练参数矩阵，v_j表示第j个图像数据的图像特征向量，bv_i表示第i个所述文本序列的句子编码数据。

在一实施例中，步骤S306中，包括：

按如下公式计算所述句子编码数据融合了所述第一融合特征向量后得到的所述第二融合特征向量：

s_i＝tanh(W_b[bv_i；pv_i]+b_b)；

其中，bv_i表示第i个文本序列的句子编码数据，W_b表示可训练参数矩阵，b_b为偏置项，[bv_i；pv_i]为向量拼接操作。

在一实施例中，步骤S204中，包括：

按如下公式计算每一所述文本框的分类概率：

其中s(x,y)的计算公式为：

其中，

表示可训练的状态转移矩阵，是CRF结构中的，代表从状态y_i转移到状态y_i+1的概率；

表示发射矩阵，为步骤S203中归一化映射后的结果。

具体的，在一实施例中，步骤S203中，包括：

按如下公式计算归一化映射结果：

z_i＝softmax(c_i·W₁+b₁)；

其中c_i的计算公式为：

其中，W₁为可训练参数矩阵，b₁为偏置项；

表示前向LSTM编码后的输出，

表示后向LSTM编码后的输出，c_i为两个向量拼接后的结果；z_i为映射后的结果，表示第i个文本框属于B、I、O的概率值。

具体的，图1中的p₁～p_n分别为n个文本框的图像数据，v₁～v_n分别为对应图像数据的图像特征向量，w₁～w_n分别为一个文本框中的n个字符，s₁～s_n分别为融合后的句子编码数据(即第二融合特征向量)，循环神经网络中的计算过程为本领域的公知常识，故不再赘述。

请参阅图5，一种基于多模态的扫描件段落结构还原装置400，包括：

OCR识别单元401，用于通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置；

优化标注单元402，用于将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注；

图像获取单元403，用于根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据；

预测分类单元404，用于通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果；

重组单元405，用于根据所述分类结果进行段落重组。

在一实施例中，预测分类单元404包括：

句子编码数据融合单元，用于将每一所述文本框的文本内容和所述图像数据进行编码融合，得到对应所述文本框融合后的句子编码数据；

句子编码排序单元，用于将每一所述句子编码数据依顺序组合得到句子编码序列；

循环神经处理单元，用于通过循环神经网络对所述句子编码序列进行编码处理，并将编码处理后的所述句子编码序列进行归一化映射；

分类单元，用于通过条件随机场对归一化后的所述句子编码序列进行概率预测，随后通过束搜索进行解码，并对每一所述文本框进行分类，得到分类结果。

在一实施例中，句子编码数据融合单元包括：

文本排序单元，用于将每一所述文本框的所述文本内容按字的先后顺序进行排列得到文本序列；

Bert向量编码单元，用于通过Bert模型对所述文本序列中的每个字进行编码，得到每个字的向量编码；

句子编码单元，用于通过池化层对所述文本序列中所有字的向量编码进行压缩和防过拟合处理，得到每一所述文本序列的句子编码数据；

图像特征提取单元，用于通过图像特征抽取器对所述图像数据进行特征提取，得到每一所述图像数据的图像特征向量；

第一融合单元，用于将每一所述文本序列的句子编码数据分别和所有的所述图像特征向量进行注意力计算，并融合所述图像特征向量，得到第一融合特征向量；

第二融合单元，用于将每一所述句子编码数据和由所述句子编码数据融合得到的第一融合特征向量进行融合，得到第二融合特征向量。

在一实施例中，第一融合单元包括：

注意力计算单元，用于按如下公式计算每一所述文本序列的句子编码数据分别和所有的图像特征向量之间的注意力值：

其中e_ij的计算公式为：

e_ij＝bv_i ^TW_av_j；

注意力图像融合单元，用于按如下公式计算所述图像特征向量融合了注意力值之后得到的所述第一融合特征向量：

在一实施例中，第二融合单元包括：

句子编码融合单元，用于按如下公式计算所述句子编码数据融合了所述第一融合特征向量后得到的所述第二融合特征向量：

s_i＝tanh(W_b[bv_i；pv_i]+b_b)；

在一实施例中，句子编码单元包括：

句子编码计算单元，用于按如下公式计算所述句子编码数据：

在一实施例中，分类单元包括：

概率计算单元，用于按如下公式计算每一所述文本框的分类概率：

其中s(x,y)的计算公式为：

其中，

表示状态转移矩阵，

表示发射矩阵。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于多模态的扫描件段落结构还原装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述基于多模态的扫描件段落结构还原装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将基于多模态的扫描件段落结构还原装置按照需要划分为不同的单元，也可将基于多模态的扫描件段落结构还原装置中各单元采取不同的连接顺序和方式，以完成上述基于多模态的扫描件段落结构还原装置的全部或部分功能。

上述基于多模态的扫描件段落结构还原装置可以实现为一种计算机程序的形式，该计算机程序可以在如图所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图6，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行上述基于多模态的扫描件段落结构还原方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行上述基于多模态的扫描件段落结构还原方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图6中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备500可以仅包括存储器及处理器502，在这样的实施例中，存储器及处理器502的结构及功能与图6所示实施例一致，在此不再赘述。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置；将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注；根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据；通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果；根据所述分类结果进行段落重组。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序5032来完成，该计算机程序5032可存储于一计算机可读存储介质。该计算机程序5032被该计算机系统中的至少一个处理器502执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：通过预训练的OCR模型对文本扫描数据进行识别，获得若干文本框、每一所述文本框的文本内容和每一所述文本框对应于所述文本扫描数据中的坐标位置；将不含文本内容的所述文本框剔除，并按所述文本框所在的所述坐标位置依次排列，得到文本框序列，对每一所述文本框进行标注；根据每一所述坐标位置取出对应的所述文本框所在的图片区域，获得每一所述文本框对应的图像数据；通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果；根据所述分类结果进行段落重组。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多模态的扫描件段落结构还原方法，其特征在于，包括：

根据所述分类结果进行段落重组。

2.根据权利要求1所述的基于多模态的扫描件段落结构还原方法，其特征在于，所述通过序列分类模型对所述文本内容和所述图像数据进行编码融合处理，并预测得到每个所述文本框的分类结果，包括：

将每一所述文本框的文本内容和所述图像数据进行编码融合，得到对应所述文本框融合后的句子编码数据；

将每一所述句子编码数据依顺序组合得到句子编码序列；

通过循环神经网络对所述句子编码序列进行编码处理，并将编码处理后的所述句子编码序列进行归一化映射；

通过条件随机场对归一化后的所述句子编码序列进行概率预测，随后通过束搜索进行解码，并对每一所述文本框进行分类，得到分类结果。

3.根据权利要求2所述的基于多模态的扫描件段落结构还原方法，其特征在于，所述将每一所述文本框的文本内容和所述图像数据进行编码融合，得到对应所述文本框融合后的句子编码数据，包括：

将每一所述文本框的所述文本内容按字的先后顺序进行排列得到文本序列；

通过Bert模型对所述文本序列中的每个字进行编码，得到每个字的向量编码；

通过池化层对所述文本序列中所有字的向量编码进行压缩和防过拟合处理，得到每一所述文本序列的句子编码数据；

通过图像特征抽取器对所述图像数据进行特征提取，得到每一所述图像数据的图像特征向量；

将每一所述文本序列的句子编码数据分别和所有的所述图像特征向量进行注意力计算，并融合所述图像特征向量，得到第一融合特征向量；

将每一所述句子编码数据和由所述句子编码数据融合得到的第一融合特征向量进行融合，得到第二融合特征向量。

4.根据权利要求3所述的基于多模态的扫描件段落结构还原方法，其特征在于，所述将每一所述文本序列的句子编码数据分别和所有的图像特征向量进行注意力计算，并融合所述图像特征向量，得到第一融合特征向量，包括：

其中e_ij的计算公式为：

e_ij＝bv_i ^TW_av_j；

5.根据权利要求3所述的基于多模态的扫描件段落结构还原方法，其特征在于，所述将每一所述句子编码数据和由所述句子编码数据融合得到的第一融合特征向量进行融合，得到第二融合特征向量，包括：

s_i＝tanh(W_b[bv_i；pv_i]+b_b)；

6.根据权利要求3所述的基于多模态的扫描件段落结构还原方法，其特征在于，所述通过池化层对所述文本序列中所有字的向量编码进行压缩和防过拟合处理，得到每一所述文本序列的句子编码数据，包括：

按如下公式计算所述句子编码数据：

7.根据权利要求3所述的基于多模态的扫描件段落结构还原方法，其特征在于，所述通过条件随机场对归一化后的所述句子编码序列进行处理，随后通过束搜索进行解码，并对每一所述文本框进行分类，得到分类结果，包括：

按如下公式计算每一所述文本框的分类概率：

其中s(x,y)的计算公式为：

其中，

表示状态转移矩阵，

表示发射矩阵。

8.一种基于多模态的扫描件段落结构还原装置，其特征在于，包括：

重组单元，用于根据所述分类结果进行段落重组。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于多模态的扫描件段落结构还原方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于多模态的扫描件段落结构还原方法。