CN115497113B

CN115497113B - 信息生成方法、装置、电子设备以及存储介质

Info

Publication number: CN115497113B
Application number: CN202211219460.4A
Authority: CN
Inventors: 于海鹏; 李煜林; 钦夏孟; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-11-14
Anticipated expiration: 2042-09-30
Also published as: CN115497113A

Abstract

本公开提供了一种信息生成方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及图像处理、计算机视觉和深度学习技术领域，可应用于OCR等场景。具体实现方案为：对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息；对局部特征信息进行列分类，得到各文本区域的列分类信息；根据局部特征信息，确定各文本区域之间的相似度；根据相似度，确定各文本区域的行分类信息；根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息。

Description

信息生成方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及图像处理、计算机视觉和深度学习技术领域，可应用于OCR(Optical Character Recognition，光学字符识别)等场景。具体地，涉及一种信息生成方法、装置、电子设备以及存储介质。

背景技术

随着计算机技术的发展，人工智能技术也得以发展。人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习、深度学习、大数据处理技术和知识图谱技术等。

人工智能技术在各种领域得到了广泛应用。例如，可以利用人工智能技术获取文本表格图像的结构化信息。

发明内容

本公开提供了一种用于信息生成的方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种信息生成方法，包括：对文本表格图像进行处理，得到上述文本表格图像中各文本区域的局部特征信息和文本识别信息；对上述局部特征信息进行列分类，得到各上述文本区域的列分类信息；根据上述局部特征信息，确定各上述文本区域之间的相似度；根据上述相似度，确定各上述文本区域的行分类信息；以及，根据上述行分类信息、上述列分类信息和上述文本识别信息，生成上述文本表格图像的结构化信息。

根据本公开的另一方面，提供了一种信息生成装置，包括：处理模块，用于对文本表格图像进行处理，得到所述文本表格图像中各文本区域的局部特征信息和文本识别信息；分类模块，用于对所述局部特征信息进行列分类，得到各所述文本区域的列分类信息；第一确定模块，用于根据所述局部特征信息，确定所述文本区域之间的相似度；第二确定模块，用于根据所述相似度，确定各所述文本区域的行分类信息；以及，生成模块，用于根据所述行分类信息、所述列分类信息和所述文本识别信息，生成所述文本表格图像的结构化信息。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如本公开所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如本公开所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如本公开所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用信息生成方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的信息生成方法的流程图；

图3示意性示出了根据本公开实施例的对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息的流程图；

图4示意性示出了根据本公开实施例的对局部特征信息进行列分类，得到各文本区域的列分类信息的流程图；

图5A示意性示出了根据本公开实施例的根据局部特征信息，确定各文本区域彼此之间的相似度的流程图；

图5B示意性示出了根据本公开另一实施例的根据局部特征信息，确定各文本区域之间的相似度的流程图；

图6示意性示出了根据本公开实施例的根据相似度，确定各文本区域的行分类信息的流程图；

图7示意性示出了根据本公开实施例的根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息的流程图；

图8示意性示出了根据本公开实施例的信息生成过程的示例示意图；

图9示意性示出了根据本公开另一实施例的信息生成过程的示例示意图；

图10示意性示出了根据本公开实施例的信息生成装置的框图；以及

图11示意性示出了根据本公开实施例的适于实现信息生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

表格可以指按照所需的内容项目划分多个方格，并在不同方格中分别填写文字或者数字的书面材料。由于表格能够较为有效地进行数据或信息的组织与展示，因而得到了广泛的应用。文本表格图像可以是具有文本表格信息的图像。

为此，本公开实施例提出了一种信息生成方案。例如，对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息。对局部特征信息进行列分类，得到各文本区域的列分类信息。根据局部特征信息，确定各文本区域之间的相似度。根据相似度，确定各文本区域的行分类信息。根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息。

根据本公开的实施例，通过利用根据局部特征信息确定的各文本区域之间的相似度来确定各文本区域的行分类信息，实现了基于相似度来确定文本区域的行分类信息，而无需依赖语义行模型来实现，由此有效解决了利用语义行模型进行行分类存在的边界定位不够准确且较容易出现信息丢失，以及较容易将不属于同一行的信息划分为同一行所导致的行分类不准确的问题，提高了行分类的准确性。在此基础上，根据行分类信息、文本识别信息和对局部特征信息进行列分类得到的列分类信息，生成文本表格图像的结构化信息，并实现了无需依赖语义行模型来实现结构化信息的生成，提高了结构化信息的准确性。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用信息生成方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用信息生成方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的信息生成方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如，有线和无线通信链路等中的至少之一。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用。例如，知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和社交平台软件等中的至少之一。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备。例如，可以包括智能手机、平板电脑、膝上型便携计算机和台式计算机等中的至少之一。

服务器105可以是提供各种服务的各种类型的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(Virtual Private Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的信息生成方法一般可以由服务器105执行。相应地，本公开实施例所提供的信息生成装置一般可以设置于服务器105中。本公开实施例所提供的信息生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的信息生成装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

备选地，本公开实施例所提供的信息生成方法一般也可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的信息生成装置也可以设置于终端设备101、102、或103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的信息生成方法的流程图。

如图2所示，该方法200包括操作S210～S250。

在操作S210，对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息。

在操作S220，对局部特征信息进行列分类，得到各文本区域的列分类信息。

在操作S230，根据局部特征信息，确定各文本区域之间的相似度。

在操作S240，根据相似度，确定各文本区域的行分类信息。

在操作S250，根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息。

根据本公开的实施例，文本表格图像可以是具有文本表格信息的图像。文本表格图像中的文本表格信息属于非结构化信息，可以根据本公开实施例提供的信息生成方法将文本表格图像中的非结构化的文本表格信息提取出来，以生成文本表格图像的结构化信息。

根据本公开的实施例，文本表格图像的文件格式可以包括以下至少之一：JPG(Joint Photographic Experts Group，联合图像专家组)、TIFF(Tag Image File Format，标签图像文件格式)、PNG(Portable Network Graphics，便携式网络图形)、PDF(PortableDocument Format，可携带文档格式)和GIF(Graphics Interchange Format，图形交换格式)等。本公开实施例对文本表格图像的文件格式不作限定。

根据本公开的实施例，文本表格图像可以是通过实时采集获取的，例如，文本表格图像可以通过对实体文本进行拍摄或者扫描等方式来获取。备选地，文本表格图像也可以是预先存储于数据库中的，例如，对于包括文本表格信息的电子文档，通过对文档进行截图的方式来获取文本表格图像。备选地，文本表格图像可以是接收自其它终端设备发送的。本公开实施例对文本表格图像的获取方式不作限定。

根据本公开的实施例，可以利用样本文本表格图像训练第一预定模型得到的模型，对文本表格图像进行处理，确定至少一个文本区域。至少一个文本区域中的每个文本区域均包括文本表格图像中与文本表格信息对应的字段。利用第一预定模型可以实现对文本表格图像中包括字段的文本区域的定位。第一预定模型可以包括以下至少之一：卷积神经网络(Convolutional Neural Networks，CNN)、BP(Back Propagation)神经网络、残差神经网络(即ResNet)模型和多头注意力机制(Transformer)模型等。本公开实施例对第一预定模型的具体结构不作限定，只要能够实现对文本表格图像进行处理即可。

根据本公开的实施例，在确定文本表格图像中的至少一个文本区域之后，可以使用第一预定模型对至少一个文本区域中的每个文本区域分别进行特征提取，以得到至少一个文本区域各自的局部特征信息和文本识别信息。文本识别信息可以用于表征该文本区域中由连续的文字组成的字段所对应的文字内容。

根据本公开的实施例，局部特征信息可以用于表征该文本区域中所包含字段的特征信息，局部特征信息可以包括图像特征信息和文字特征信息。图像特征信息可以用于表征该文本区域中字段的图像视觉信息。图像特征信息可以包括以下至少之一：文本区域的底色、文本区域的阴影和文本的字体特征。文本的字体特征可以包括以下至少之一：字体类型、字体大小、字体颜色和字体格式等。文字特征信息可以用于表征该文本区域中字段所对应的文字的含义，例如，文字特征信息可以包括该文本区域中字段的语义特征等。

根据本公开的实施例，在获得文本表格图像的至少一个文本区域各自的局部特征信息之后，可以利用样本列分类信息训练第二预定模型得到的模型，对至少一个文本区域各自的局部特征信息进行列分类，以得到至少一个文本区域各自的列分类信息。列分类信息可以用于表征该文本区域所对应的字段在表格的列方向上的位置。利用第二预定模型可以实现对文本区域所包括的字段特征的列分类。第二预定模型可以包括以下至少之一：支持向量机(Support Vector Machine，SVM)模型、决策树(Decision Tree，DT)模型、随机森林(Random Forests，RF)模型和梯度提升(GradientBoosting，GB)模型等。本公开实施例对第二预定模型的具体结构不作限定，只要能够实现对局部特征信息进行列分类即可。

根据本公开的实施例，在获得文本表格图像的至少一个文本区域各自的局部特征信息之后，还可以确定至少一个文本区域彼此之间的相似度。相似度可以用于表征至少一个文本区域中的每个文本区域所包含字段彼此之间的特征相关性。

根据本公开的实施例，针对至少一个文本区域中的每两个文本区域，可以通过计算与每两个文本区域对应的两个局部特征信息之间的点积来计算相似度。备选地，也可以通过与每两个文本区域对应的两个局部特征信息和文本位置特征信息来确定差异特征信息，并根据差异特征信息来计算相似度。

根据本公开的实施例，在确定至少一个文本区域彼此之间的相似度之后，可以根据至少一个文本区域彼此之间的相似度，确定至少一个文本区域各自的行分类信息。例如，可以通过将相似度与预定阈值进行比较的方式，确定至少一个文本区域各自的行分类信息。行分类信息可以用于表征该文本区域所对应的字段在表格的行方向上的位置。

根据本公开的实施例，在确定至少一个文本区域各自的行分类信息之后，可以根据至少一个文本区域各自的行分类信息和列分类信息，得到组合信息，并可以根据组合信息和文本识别信息，生成文本表格图像的结构化信息。

根据本公开的实施例，操作S210～S250可以由电子设备执行。电子设备可以包括服务器或终端设备。服务器可以是图1中的服务器105。终端设备可以是图1中的终端设备101、终端设备102或终端设备103。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他信息生成方法，只要能够生成文本表格图像的结构化信息即可。

下面参考图3～图8，对根据本公开实施例所述的信息生成方法做进一步说明。

图3示意性示出了根据本公开实施例的对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息的流程图。

如图3所示，该方法300是对图2中的操作S210的进一步限定，该方法300可以包括操作S311～S313。

在操作S311，对文本表格图像进行特征提取，得到全局特征信息。

在操作S312，根据全局特征信息，获取文本检测信息。

在操作S313，根据全局特征信息和文本检测信息，获取局部特征信息和文本识别信息。

根据本公开的实施例，文本检测信息可以包括文本表格图像中各子区域的文本位置信息和文本置信度。文本置信度可以表征子区域是文本区域的概率。

根据本公开的实施例，全局特征信息可以是通过对文本表格图像进行全局特征提取得到的。例如，可以利用样本文本表格图像训练预定模型得到的模型，对文本表格图像进行特征提取，得到全局特征信息。全局特征信息可以为特征图的形式，全局特征信息可以包括经尺度缩放后的文本表格图像的映射。

根据本公开的实施例，文本位置信息可以用于表征子区域在文本表格图像中的位置信息。文本位置信息可以包括文本坐标信息。子区域可以用候选框来表征。候选框可以包括矩形框。例如，可以以文本表格图像中的预定位置为原点，以预定数值为单位建立坐标系，可以将至少一个子区域中的子区域与坐标轴的距离确定每个子区域的顶点的坐标值，以得到子区域的文本位置信息。

根据本公开的实施例，可以利用基于回归的文本检测方法处理全局特征信息，得到文本检测信息。备选地，可以利用基于分割的文本检测方法处理全局特征信息，得到文本检测信息。

根据本公开的实施例，针对至少一个子区域中的子区域，可以在根据该子区域的文本置信度信息确定该子区域是文本区域的情况下，根据全局特征信息和该区域的文本位置信息，得到该文本区域的局部特征信息。可以根据该文本区域的局部特征信息，得到该文本区域的文本识别信息。

根据本公开的实施例，操作S313可以包括如下操作。

在根据文本置信度确定子区域是文本区域的情况下，基于文本位置信息和全局特征信息，获取局部特征信息。根据局部特征信息，获取文本识别信息。

根据本公开的实施例，针对至少一个子区域中的子区域，可以将该子区域的文本置信度与预定文本置信度进行比较。根据比较结果，确定该子区域是否是文本区域。例如，在确定该子区域的文本置信度大于或等于预定文本置信度的情况下，可以确定该子区域为文本区域。在确定该子区域的文本置信度小于预定文本置信度的情况下，可以确定该子区域是非文本区域。预定文本置信度的数值可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，可以在与全局特征信息的对应的特征图中对应于文本区域的文本位置信息的部分进行抠图操作。通过抠图操作截取下来的部分特征图确定为文本区域的局部特征信息。备选地，还可以对截取下来的部分特征图进行池化操作，并将池化操作的结果确定为文本区域的局部特征信息。池化操作可以包括以下之一：ROI(RegionOfInterest，感兴趣区域)池化、最大值池化或平均池化。池化操作所利用的池化核的大小可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，可以对文本区域的局部特征信息进行文本识别，得到文本区域的文本识别信息。

根据本公开的实施例，操作S312可以包括如下操作。

根据全局特征信息，确定候选框信息。根据候选框信息和全局特征信息，获取候选特征信息。根据候选特征信息，获取文本检测信息。

根据本公开的实施例，可以对全局特征信息进行，得到至少一个候选框信息。针对至少一个候选框信息中的候选框信息，可以将与候选框信息对应的全局特征信息确定为候选特征信息。可以对候选特征信息进行文本检测，得到文本检测信息。

根据本公开的实施例，在获得至少一个候选特征信息之后，可以根据至少一个候选特征信息，确定包括至少一个子区域各自的文本位置信息和文本置信度的文本检测信息。

根据本公开的实施例，操作S311～S313可以由电子设备执行。电子设备可以包括服务器或终端设备。服务器可以是图1中的服务器105。终端设备可以是图1中的终端设备101、终端设备102或终端设备103。

根据本公开的实施例，由于全局特征信息是通过对文本表格图像进行特征提取得到的，而文本检测信息是根据全局特征信息得到的，因而可以根据全局特征信息和包括至少一个子区域各自的文本位置信息和文本置信度的文本检测信息，自动得到文本表格图像的至少一个文本区域各自的局部特征信息和文本识别信息，提高了结构化信息生成的效率。

图4示意性示出了根据本公开实施例的对局部特征信息进行列分类，得到各文本区域的列分类信息的流程图。

如图4所示，该方法400是对图2中的操作S220的进一步限定，该方法400可以包括操作S421。

在操作S421，对局部特征信息进行全连接处理，得到列分类信息。

根据本公开的实施例，可以将至少一个文本区域各自的局部特征信息输入至第二预定模型，以便于第二预定模型对至少一个文本区域各自的局部特征信息分别进行处理，得到列分类信息。列分类信息可以用于表征该文本区域所对应的字段在表格的列方向上的位置。第二预定模型可以包括全连接层和Softmax，全连接层和Softmax可以用于对局部特征信息进行列属性分类。

根据本公开的实施例，在文本表格图像中的文本表格信息包括表头的情况下，可以将表头与字段进行连接以确定至少一个文本区域各自的列分类信息。

根据本公开的实施例，操作S421可以由电子设备执行。电子设备可以包括服务器或终端设备。服务器可以是图1中的服务器105。终端设备可以是图1中的终端设备101、终端设备102或终端设备103。

图5A示意性示出了根据本公开实施例的根据局部特征信息，确定各文本区域彼此之间的相似度的流程图。

如图5A所示，该方法500A是对图2中的操作S230的进一步限定，该方法500A包括操作S531～S532。

在操作S531，根据两个文本区域各自的局部特征信息，确定两个文本区域的差异特征信息。

在操作S532，根据两个文本区域的差异特征信息，确定两个文本区域之间的相似度。

根据本公开的实施例，针对至少一个文本区域中的两个文本区域，可以确定两个局部特征信息之间的差值。将两个局部特征信息之间的差值确定为与两个文本区域对应的差异特征信息。可以基于差异特征信息与相似度之间的映射关系，根据差异特征信息，得到两个文本区域之间的相似度。

根据本公开的实施例，差异特征信息与相似度之间的关系可以包括以下之一：线性关系和非线性关系。例如，线性关系可以包括一元线性关系。

根据本公开的实施例，操作S531可以包括如下操作。

对两个文本区域各自的文本位置信息进行特征提取，得到两个文本区域各自的文本位置特征信息。对局部特征信息和文本位置特征信息进行融合，得到两个文本区域各自的融合特征信息。根据融合特征信息，获取差异特征信息。

根据本公开的实施例，可以通过引入与文本区域中的字段对应的文本位置特征信息来确定两个文本区域之间的相似度。例如，可以基于位置编码方法，对两个文本区域各自的文本位置信息进行特征提取，得到两个文本区域各自的文本位置特征信息。位置编码方法可以包括以下至少之一：正余弦位置编码方法和学习位置向量方法。

根据本公开的实施例，在获得文本区域的文本位置特征信息之后，可以将文本区域的文本位置特征信息和局部特征信息进行融合，得到文本区域的融合特征信息。例如，可以将文本区域的文本位置特征信息和局部特征信息进行拼接，得到文本区域的融合特征信息。备选地，可以将文本区域的文本位置特征信息和局部特征信息进行点乘，得到文本区域的融合特征信息。

根据本公开的实施例，可以确定两个融合特征信息的差值。将两个融合特征信息之间的差值确定为与两个文本区域对应的差异特征信息。可以基于差异特征信息与相似度之间的映射关系，根据差异特征信息，得到两个文本区域之间的相似度。

根据本公开的实施例，由于两个文本区域之间的相似度是根据两个文本区域的差异特征信息确定的，差异特征信息是根据两个文本区域各自的融合特征信息得到的，文本区域的融合特征信息是对文本区域的文本位置特征信息和局部特征信息进行融合得到的，因此，相似度的确定结合了局部特征信息和文本位置特征信息，由此，提高了相似度确定的准确性，进而提高了行分类的准确性。

根据本公开的实施例，操作S531还可以包括如下操作。

确定两个文本区域各自的局部特征信息之间的差值。将差值确定为两个文本区域的差异特征信息。

根据本公开的实施例，在获得融合特征信息之后，可以确定任意两个文本区域的融合特征信息之间的相似度。备选地，还可以确定任意两个文本区域的融合特征信息之间差异特征信息，再根据差异特征信息，确定两个文本区域之间的相似度。

根据本公开的实施例，操作S531～S532可以由电子设备执行。电子设备可以包括服务器或终端设备。服务器可以是图1中的服务器105。终端设备可以是图1中的终端设备101、终端设备102或终端设备103。

图5B示意性示出了根据本公开另一实施例的根据局部特征信息，确定各文本区域之间的相似度的流程图。

如图5B所示，该方法500B是对图2中的操作S230的进一步限定，该方法500B包括操作S533～S534。

在操作S533，确定两个文本区域的两个局部特征信息之间的点积。

在操作S534，根据点积，确定两个文本区域之间的相似度。

根据本公开的实施例，针对至少一个文本区域中的两个文本区域，可以通过确定任意两个文本区域的两个局部特征信息之间的点积，来确定任意两个文本区域之间的相似度。例如，文本区域A的局部特征信息为a，文本区域B的局部特征信息为b，在此情况下，可以确定局部特征信息a和局部特征信息b之间的点积M，并可以根据点积M确定文本区域A和文本区域B之间的相似度。

根据本公开的实施例，操作S533～S534可以由电子设备执行。电子设备可以包括服务器或终端设备。服务器可以是图1中的服务器105。终端设备可以是图1中的终端设备101、终端设备102或终端设备103。

图6示意性示出了根据本公开实施例的根据相似度，确定各文本区域的行分类信息的流程图。

如图6所示，该方法600是对图2中的操作S240的进一步限定，方法600包括操作S641。

在操作S641，在确定两个文本区域之间的相似度大于或等于预定相似度阈值的情况下，确定两个文本区域各自的行分类信息是表征两个文本区域属于同一行的行分类信息。

根据本公开的实施例，针对至少一个文本区域中的两个文本区域，可以将两个文本区域之间的相似度与预定相似度阈值进行比较。在两个文本区域之间的相似度大于预定相似度阈值的情况下，可以确定两个文本区域各自的行分类信息是表征两个文本区域属于同一行的行分类信息。在两个文本区域之间的相似度小于或等于预定相似度阈值的情况下，可以确定两个文本区域各自的行分类信息是表征两个文本区域不属于同一行的行分类信息。预定相似度阈值的数值可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，在确定两个文本区域各自的行分类信息是表征两个文本区域属于同一行的行分类信息的情况下，可以将对应的两个文本区域组合为一行，以完成对文本表格图像的行分类信息的解析。

根据本公开的实施例，操作S641可以由电子设备执行。电子设备可以包括服务器或终端设备。服务器可以是图1中的服务器105。终端设备可以是图1中的终端设备101、终端设备102或终端设备103。

图7示意性示出了根据本公开实施例的根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息的流程图。

如图7所示，该方法700是对图2中的操作S250的进一步限定，方法700包括操作S751～S752。

在操作S751，根据各文本区域的行分类信息和列分类信息，对各文本区域进行组合，得到组合信息。

在操作S752，根据组合信息和各文本区域的文本识别信息，生成文本表格图像的结构化信息。

根据本公开的实施例，在确定至少一个文本区域各自的列分类信息和行分类信息之后，可以根据文本区域的列分类信息和行分类信息，对至少一个文本区域进行组合，得到组合信息。组合信息可以包括用于描述不同文本区域的列位置和行位置的信息。

根据本公开的实施例，文本识别信息可以用于表征该文本区域中由连续的文字组成的字段所对应的文字内容。在得到组合信息之后，可以根据该组合信息和至少一个文本区域各自的文本识别信息，来生成文本表格图像的结构化信息。

根据本公开的实施例，操作S751～S752可以由电子设备执行。电子设备可以包括服务器或终端设备。服务器可以是图1中的服务器105。终端设备可以是图1中的终端设备101、终端设备102或终端设备103。

根据本公开的实施例，由于组合信息是根据至少一个文本区域各自的行分类信息和列分类信息，对至少一个文本区域进行组合得到的，因此，可以根据组合信息和至少一个文本区域各自的文本识别信息，自动生成文本表格图像的结构化信息，提高了结构化信息生成的效率。

图8示意性示出了根据本公开实施例的信息生成过程的示例示意图。

如图8所示，可以对文本表格图像801进行特征提取，得到全局特征信息802。在获得全局特征信息802之后，可以根据全局特征信息802，确定文本表格图像801的至少一个文本区域各自的局部特征信息803和至少一个文本区域各自的文本识别信息804。

在获得至少一个文本区域各自的局部特征信息803和文本识别信息804之后，可以对至少一个文本区域各自的局部特征信息803进行列分类，得到至少一个文本区域各自的列分类信息805。

可以根据至少一个文本区域各自的局部特征信息803，确定至少一个文本区域彼此之间的相似度806。可以根据至少一个文本区域彼此之间的相似度807，确定至少一个文本区域各自的行分类信息807。

在确定至少一个文本区域各自的行分类信息807和列分类信息805之后，可以根据至少一个文本区域各自的行分类信息807、列分类信息805和文本识别信息804，生成文本表格图像的结构化信息808。

图9示意性示出了根据本公开另一实施例的信息生成过程的示例示意图。

如图9所示，可以对文本表格图像901进行特征提取，得到全局特征信息902。在获得全局特征信息902之后，可以根据全局特征信息902，确定至少一个候选框信息903。可以根据至少一个候选框信息903和全局特征信息902，确定至少一个候选特征信息904。可以根据至少一个候选特征信息904，得到文本检测信息905。文本检测信息905可以包括至少一个子区域各自的文本位置信息9051和文本置信度9052。

在获得全局特征信息902和文本检测信息905之后，可以根据全局特征信息902和文本检测信息905，得到文本表格图像901的至少一个文本区域各自的文本识别信息906和局部特征信息907。

在获得至少一个文本区域各自的局部特征信息907之后，可以对至少一个文本区域各自的局部特征信息907进行全连接处理，得到至少一个文本区域各自的列分类信息908。

可以根据至少一个文本区域各自的局部特征信息907，确定至少一个文本区域彼此之间的相似度909。可以根据至少一个文本区域彼此之间的相似度909，确定至少一个文本区域各自的行分类信息910。

在确定至少一个文本区域各自的行分类信息910和列分类信息908之后，可以根据至少一个文本区域各自的行分类信息910和列分类信息908，对至少一个文本区域进行组合，得到组合信息911。可以根据组合信息911和至少一个文本区域各自的文本识别信息906，生成文本表格图像的结构化信息912。

图10示意性示出了根据本公开实施例的信息生成装置的框图。

如图10所示，信息生成装置1000可以包括处理模块1010、分类模块1020、第一确定模块1030、第二确定模块1040和生成模块1050。

处理模块1010，用于对文本表格图像进行处理，得到文本表格图像中各文本区域的局部特征信息和文本识别信息。

分类模块1020，用于对局部特征信息进行列分类，得到各文本区域的列分类信息。

第一确定模块1030，用于根据局部特征信息，确定文本区域之间的相似度。

第二确定模块1040，用于根据相似度，确定各文本区域的行分类信息。

生成模块1050，用于根据行分类信息、列分类信息和文本识别信息，生成文本表格图像的结构化信息。

根据本公开的实施例，处理模块1010可以包括特征提取子模块、第一获得子模块和第二获得子模块。

特征提取子模块，用于对文本表格图像进行特征提取，得到全局特征信息。

第一获取子模块，用于根据全局特征信息，获取文本检测信息。文本检测信息包括至少一个区域各自的文本位置信息和文本置信度。文本置信度表征区域是文本区域的概率。

第二获取子模块，用于根据全局特征信息和文本检测信息，获取局部特征信息和文本识别信息。

根据本公开的实施例，第二获得子模块可以包括第一获得单元和第二获得单元。

第一获取单元，用于在根据文本置信度确定子区域是文本区域的情况下，基于文本位置信息和全局特征信息，获取局部特征信息。

第二获取单元，用于根据局部特征信息，获取文本识别信息。

根据本公开的实施例，第一获得单元可以包括第一获得子单元、第二获得子单元和第三获得子单元。

确定子单元，用于根据全局特征信息，确定候选框信息。

第一获取子单元，用于根据候选框信息和全局特征信息，获取候选特征信息。

第二获取子单元，用于根据候选特征信息，获取文本检测信息。

根据本公开的实施例，分类模块1020可以包括处理子模块。

处理子模块，用于对局部特征信息进行全连接处理，得到列分类信息。

根据本公开的实施例第一确定模块1030可以包括第一确定子模块和第二确定子模块。

第一确定子模块，用于根据两个文本区域各自的局部特征信息，确定两个文本区域的差异特征信息。

第二确定子模块，用于根据差异特征信息，确定两个文本区域之间的相似度。

根据本公开的实施例，第一确定子模块可以包括特征提取单元、融合单元和第三获得单元。

特征提取单元，用于对对两个文本区域各自的文本位置信息进行特征提取，得到两个文本区域各自的文本位置特征信息。

融合单元，用于对局部特征信息和文本位置特征信息进行融合，得到两个文本区域各自的融合特征信息。

第三获得单元，用于根据融合特征信息，获取差异特征信息。

根据本公开的实施例，第一确定子模块可以包括第一确定单元和第二确定单元。

第一确定单元，用于确定两个文本区域各自的局部特征信息之间的差值。

第二确定单元，用于将差值确定为两个文本区域的差异特征信息。

根据本公开的实施例，第一确定模块1030可以包括第三确定子模块和第四确定子模块。

第三确定子模块，用于确定两个文本区域的两个局部特征信息之间的点积。

第四确定子模块，用于根据点积，确定两个文本区域之间的相似度。

根据本公开的实施例，第二确定模块1040可以包括第五确定子模块。

第五确定子模块，用于在确定两个文本区域之间的相似度大于或等于预定相似度阈值的情况下，确定两个文本区域各自的行分类信息是表征两个文本区域属于同一行的行分类信息。

根据本公开的实施例，生成模块1050可以包括组合子模块和生成子模块。

组合子模块，用于根据各文本区域的行分类信息和列分类信息，对各文本区域进行组合，得到组合信息。

生成子模块，用于根据组合信息和各文本区域的文本识别信息，生成文本表格图像的结构化信息。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图11示意性示出了根据本公开实施例的适于实现信息生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如信息生成方法。例如，在一些实施例中，信息生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的信息生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息生成方法，包括：

对文本表格图像进行处理，得到所述文本表格图像中各文本区域的局部特征信息和文本识别信息；

对所述局部特征信息进行列分类，得到各所述文本区域的列分类信息；

根据所述局部特征信息，确定各所述文本区域之间的相似度；

根据所述相似度，确定各所述文本区域的行分类信息；以及

根据所述行分类信息、所述列分类信息和所述文本识别信息，生成所述文本表格图像的结构化信息；

其中，所述对文本表格图像进行处理，得到所述文本表格图像中各文本区域的局部特征信息和文本识别信息，包括：

对所述文本表格图像进行特征提取，得到全局特征信息；

根据所述全局特征信息，获取文本检测信息，其中，所述文本检测信息包括所述文本表格图像中各子区域的文本位置信息和文本置信度，所述文本置信度表征所述子区域是所述文本区域的概率；以及

根据所述全局特征信息和所述文本检测信息，获取所述局部特征信息和所述文本识别信息。

2. 根据权利要求1所述的方法，其中，所述根据所述全局特征信息和所述文本检测信息，获取所述局部特征信息和所述文本识别信息，包括：

在根据所述文本置信度确定所述子区域是所述文本区域的情况下，基于所述文本位置信息和所述全局特征信息，获取所述局部特征信息；以及

根据所述局部特征信息，获取所述文本识别信息。

3.根据权利要求2所述的方法，其中，所述根据所述全局特征信息，获取文本检测信息，包括：

根据所述全局特征信息，确定候选框信息；

根据所述候选框信息和所述全局特征信息，获取候选特征信息；以及

根据所述候选特征信息，获取所述文本检测信息。

4.根据权利要求1或2所述的方法，其中，所述对所述局部特征信息进行列分类，得到各所述文本区域的列分类信息，包括：

对所述局部特征信息进行全连接处理，得到所述列分类信息。

5. 根据权利要求2所述的方法，其中，所述根据所述局部特征信息，确定各所述文本区域彼此之间的相似度，包括：

根据两个所述文本区域各自的局部特征信息，确定两个所述文本区域的差异特征信息；以及

根据所述差异特征信息，确定两个所述文本区域之间的相似度。

6.根据权利要求5所述的方法，其中，所述根据两个所述文本区域各自的局部特征信息，确定两个所述文本区域的差异特征信息，包括：

对两个所述文本区域各自的文本位置信息进行特征提取，得到两个所述文本区域各自的文本位置特征信息；

对所述局部特征信息和所述文本位置特征信息进行融合，得到两个所述文本区域各自的融合特征信息；以及

根据所述融合特征信息，获取所述差异特征信息。

7. 根据权利要求5所述的方法，其中，所述根据两个所述文本区域各自的局部特征信息，确定两个所述文本区域的差异特征信息，包括：

确定两个所述文本区域各自的局部特征信息之间的差值；以及

将所述差值确定为两个所述文本区域的差异特征信息。

8. 根据权利要求1或2所述的方法，其中，所述根据所述局部特征信息，确定各所述文本区域之间的相似度，包括：

确定两个所述文本区域的两个局部特征信息之间的点积；以及

根据所述点积，确定两个所述文本区域之间的相似度。

9.根据权利要求1或2所述的方法，其中，所述根据所述相似度，确定各所述文本区域的行分类信息，包括：

在确定两个所述文本区域之间的相似度大于或等于预定相似度阈值的情况下，确定两个所述文本区域各自的行分类信息是表征所述两个文本区域属于同一行的行分类信息。

10. 根据权利要求1或2所述的方法，其中，所述根据所述行分类信息、所述列分类信息和所述文本识别信息，生成所述文本表格图像的结构化信息，包括：

根据各所述文本区域的行分类信息和列分类信息，对各所述文本区域进行组合，得到组合信息；以及

根据所述组合信息和各所述文本区域的文本识别信息，生成所述文本表格图像的结构化信息。

11.一种信息生成装置，包括：

处理模块，用于对文本表格图像进行处理，得到所述文本表格图像中各文本区域的局部特征信息和文本识别信息；

分类模块，用于对所述局部特征信息进行列分类，得到各所述文本区域的列分类信息；

第一确定模块，用于根据所述局部特征信息，确定所述文本区域之间的相似度；

第二确定模块，用于根据所述相似度，确定各所述文本区域的行分类信息；以及

生成模块，用于根据所述行分类信息、所述列分类信息和所述文本识别信息，生成所述文本表格图像的结构化信息；

其中，所述处理模块，包括：

特征提取子模块，用于对所述文本表格图像进行特征提取，得到全局特征信息；

第一获取子模块，用于根据所述全局特征信息，获取文本检测信息，其中，所述文本检测信息包括所述文本表格图像中各子区域的文本位置信息和文本置信度，所述文本置信度表征所述子区域是所述文本区域的概率；以及

第二获取子模块，用于根据所述全局特征信息和所述文本检测信息，获取所述局部特征信息和所述文本识别信息。

12. 根据权利要求11所述的装置，其中，所述第二获取子模块，包括：

第一获取单元，用于在根据所述文本置信度确定所述子区域是所述文本区域的情况下，基于所述文本位置信息和所述全局特征信息，获取所述局部特征信息；以及

第二获取单元，用于根据所述局部特征信息，获取所述文本识别信息。

13.根据权利要求11或12所述的装置，其中，所述第一获取单元，包括：

确定子单元，用于根据所述全局特征信息，确定候选框信息；

第一获取子单元，用于根据所述候选框信息和所述全局特征信息，获取候选特征信息；以及

第二获取子单元，用于根据所述候选特征信息，获取所述文本检测信息。

14.根据权利要求11或12所述的装置，其中，所述分类模块，包括：

处理子模块，用于对所述局部特征信息进行全连接处理，得到所述列分类信息。

15. 根据权利要求11或12中任一项所述的装置，其中，所述第一确定模块，包括：

第一确定子模块，用于根据两个所述文本区域各自的局部特征信息，确定两个所述文本区域的差异特征信息；以及

第二确定子模块，用于根据所述差异特征信息，确定两个所述文本区域之间的相似度。

16.根据权利要求15所述的装置，其中，所述第一确定子模块，包括：

特征提取单元，用于对两个所述文本区域各自的文本位置信息进行特征提取，得到两个所述文本区域各自的文本位置特征信息；

融合单元，用于对所述局部特征信息和所述文本位置特征信息进行融合，得到两个所述文本区域各自的融合特征信息；以及

第三获取单元，用于根据所述融合特征信息，获取所述差异特征信息。

17. 根据权利要求15所述的装置，其中，所述第一确定子模块，包括：

第一确定单元，用于确定两个所述文本区域各自的局部特征信息之间的差值；以及

第二确定单元，用于将所述差值确定为两个所述文本区域的差异特征信息。

18. 根据权利要求11或12所述的装置，其中，所述第一确定模块，包括：

第三确定子模块，用于确定两个所述文本区域的两个局部特征信息之间的点积；以及

第四确定子模块，用于根据所述点积，确定两个所述文本区域之间的相似度。

19.根据权利要求11或12所述的装置，其中，所述第二确定模块，包括：

第五确定子模块，用于在确定两个所述文本区域之间的相似度大于或等于预定相似度阈值的情况下，确定两个所述文本区域各自的行分类信息是表征所述两个文本区域属于同一行的行分类信息。

20. 根据权利要求11或12所述的装置，其中，所述生成模块，包括：

组合子模块，用于根据各所述文本区域的行分类信息和列分类信息，对各所述文本区域进行组合，得到组合信息；以及

生成子模块，用于根据所述组合信息和各所述文本区域的文本识别信息，生成所述文本表格图像的结构化信息。

21. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1~10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1~10中任一项所述的方法。