CN114332889A

CN114332889A - 文本图像的文本框排序方法和文本图像的文本框排序装置

Info

Publication number: CN114332889A
Application number: CN202110987254.7A
Authority: CN
Inventors: 赵志远; 王洪振; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2022-04-12

Abstract

本申请涉及一种文本图像的文本框排序方法、装置、计算机设备和存储介质，可应用于对视频中的文本框进行排序。方法包括：基于目标文本图像中包含的文本框，确定用于表征各文本框之间的位置关系的空间位置特征；针对每一文本框，提取文本框对应的视觉特征和文本特征，并进行特征融合处理，得到每一文本框在图结构中所映射节点的节点特征；基于图结构中各节点的节点特征，对基于空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征；基于更新节点连边特征所确定的各节点间的节点连接关系，对图结构中每一节点各自表征的文本框进行排序。采用上述方法能够对目标文本图像中的文本框进行准确的排序。

Description

文本图像的文本框排序方法和文本图像的文本框排序装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本图像的文本框排序方法、装置、计算机设备和存储介质。

背景技术

随着科技的发展，信息呈现出爆炸式的增长，在面对海量的OCR(OpticalCharacter Recognition，光学字符识别)文本时，通过使用人力获取其中的内容信息作用十分的有限，而且成本较高。

现有技术中，在进行OCR文本识别时，通常是通过对图像上的文本进行检测和定位，然后对检测到的文本上的文字进行识别，得到识别的文本内容。然后基于空间位置从上到小从左到右的顺序依次进行对识别的文本内容进行显示。

然而，基于空间位置特征进行排序显示的处理方式，得到的文本排序结果准确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本排序准确度的文本图像的文本框排序方法、装置、计算机设备和存储介质。

一种文本图像的文本框排序方法，所述方法包括：

基于目标文本图像中包含的文本框，确定所述目标文本图像对应的空间位置特征，所述空间位置特征用于表征所述目标文本图像中各文本框之间的位置关系；

针对每一文本框，提取所述文本框对应的视觉特征和文本特征，对同一文本框所对应的视觉特征和文本特征进行特征融合处理，得到每一文本框在图结构中所映射节点的节点特征；

基于所述图结构中各节点的节点特征，对基于所述空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征；

基于所述更新节点连边特征所确定的节点连接关系，对所述图结构中每一节点各自表征的文本框进行排序。

一种文本图像的文本框排序装置，所述装置包括：

第一特征提取模块，用于基于目标文本图像中包含的文本框，确定所述目标文本图像对应的空间位置特征，所述空间位置特征用于表征所述目标文本图像中各文本框之间的位置关系；

第二特征提取模块，用于针对每一文本框，提取所述文本框对应的视觉特征和文本特征，对同一文本框所对应的视觉特征和文本特征进行特征融合处理，得到每一文本框在图结构中所映射节点的节点特征；

特征更新模块，用于基于所述图结构中各节点的节点特征，对基于所述空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征；

文本框排序模块，用于基于所述更新节点连边特征所确定的节点连接关系，对所述图结构中每一节点各自表征的文本框进行排序。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述文本图像的文本框排序方法、装置、计算机设备和存储介质，通过基于目标文本图像中包含的文本框，分别获取到文本框之间的位置关系对应的空间位置特征以及每一文本框对应的视觉特征和文本特征，实现多模态的特征提取，以每一文本框为节点，通过将视觉特征与文本特征进行特征融合来得到每一文本框在图结构中所映射节点的节点特征，从节点维度上实现了多模态的特征融合，基于图结构中各节点的节点特征，对基于空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征，实现了多模态的特征融合，使得基于更新节点连边特征能够准确确定的节点连接关系，从而实现对每一节点所表征的文本框进行准确的排序。

附图说明

图1为一个实施例中文本图像的文本框排序方法的应用环境图；

图2为一个实施例中文本图像的文本框排序方法的流程示意图；

图3为另一个实施例中文本图像的文本框排序方法的流程示意图；

图4为又一个实施例中文本图像的文本框排序方法的流程示意图；

图5(a)为一个实施例中对初始节点特征矩阵分别进行不同维度的矩阵扩张的示意图；

图5(b)为一个实施例中得到拼接三维矩阵并进行归一化处理的示意图；

图6为一个实施例中对拼接节点连边特征矩阵进行MLP处理的示意图；

图7(a)和图7(b)为一个实施例中对初始节点特征矩阵进行更新的示意图；

图8为另一个实施例中文本图像的文本框排序方法的流程示意图；

图9为一个实施例中确定图结构中各节点之间的节点连接关系的示意图；

图10为一个实施例中文本图像的文本框排序方法的流程示意图；

图11为一个实施例中文本框排序模型的训练处理过程示意图；

图12为一个实施例中文本框排序模型的训练数据的流程示意图；

图13为一个实施例中文本图像的文本框排序装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括OCR等技术。

在本申请中，尤其涉及到OCR中版面分析中的文本框排序，文本框排序是指识别文本图像中的文本框对应的排列顺序，不仅需要使用计算机视觉技术来获取文本图像中的文本框所在的位置区域，还需要借助机器学习来判断文本图像中的文本框对应的排列顺序。

本申请提供的文本图像的文本框排序方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102文本图像发送至服务器104，服务器104基于目标文本图像中包含的文本框，确定目标文本图像对应的空间位置特征，空间位置特征用于表征目标文本图像中各文本框之间的位置关系，针对每一文本框，提取文本框对应的视觉特征和文本特征，对同一文本框所对应的视觉特征和文本特征进行特征融合处理，得到每一文本框在图结构中所映射节点的节点特征，基于图结构中各节点的节点特征，对基于空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征，基于更新节点连边特征的二分类结果所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序，服务器104将排序后得到的文本发送至终端102进行显示。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备和车载终端，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文本图像的文本框排序方法，具体的，本申请所提供的文本图像的文本框排序方法可以通过已经训练好的文本框排序模型来实现，文本框排序模型的训练过程可以参见下述实施例中的描述。文本图像的文本框排序方法中的执行主体可以是能够调用该文本框排序模型的终端设备，也可以是能够调用该文本框排序模型的服务器。其中，终端设备中可以安装客户端，终端设备可以通过该客户端来实现对文本框排序模型的调用。下述过程中以服务器作为执行主体为例进行本申请所提供的文本图像的文本框排序方法的具体说明，具体包括以下步骤：

步骤202，基于目标文本图像中包含的文本框，确定目标文本图像对应的空间位置特征，空间位置特征用于表征目标文本图像中各文本框之间的位置关系。

其中，目标文本图像是指需要进行文本识别和排序的处理对象。目标文本图像的数量可以是一个也可以是多个，例如可以是视频中的多帧图像，多个目标文本图像的处理过程相同，彼此互不干扰，为便于描述以下各实施例以单个目标文本图像为例进行说明。目标文本图像具体可以是通用文字图像、卡证文字图像、票据文字图像等。其中，通用文字图像包括办公文档图像、网络图像、数字图像、表格文字图像等，卡证文字图像包括身份证图像、银行卡图像、营业执照图像、名片图像等，票据文字图像包括财务票据图像、医疗票据图像等。目标文本图像可以是由终端提供的包含文本的图像。服务器接收终端上传的需要进行文本框识别和排序的目标文本图像。

文本框是指目标文本图像中具有一定样式且包含至少一个文字的区域，其中，文本框的样式可以通过配置数据预先定义，如定义文本框的样式为矩形。在目标图像文本中，文本框的数量可以是两个或两个以上，用以进行文本框的排序。具体地，服务器可以通过文字识别模型对目标文本图像中的文字进行识别，并将连续的文字所在的区域划分为一个文本框。其中，文字识别模型可以是本领域已经训练好的任意一个文字识别模型，例如，上述文字识别模型可以是已有的OCR模型。具体地，OCR模型对目标图像文本进行扫描，通过检测暗亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字，并将连续的文字所在的区域划分为一个文本框。

空间位置特征用于表征目标文本图像中各文本框之间的位置关系。目标文本图像对应的空间位置特征具体包括目标文本图像中的任意一个文本框与其他各个文本框之间的位置关系。位置关系具体可以是文本框之间的水平距离、垂直距离以及尺寸差异等，在获取到目标文本图像中一个文本框的详细信息以及该文本框与另一文本框的位置关系时，可以基于位置关系得到该另一文本框对应的详情信息。在对图像中文字阅读的过程中，空间位置起到十分重要的作用。例如，人眼会对同一区域内的文字优先阅读，正常图像中文字的阅读顺序一般遵从着从左到右，从上到下的规律，所以空间位置特征对文本阅读顺序的判断是非常重要的一部分。具体地，服务器通过获提取目标文本图像中每一文本框的位置信息，将全部文本框进行两两组合，通过对两两组合后的文本框的进行位置关系关联分析，从而得到组合对应的文本框之间的位置关系，通过归集分析得到的位置关系，得到目标文本图像对应的空间位置特征。

具体地，服务器识别目标文本图像中包含的文本框，基于文本框，确定目标文本图像对应的空间位置特征。更进一步的，服务器在获取到目标文本图像之后，将目标文本图像输入预先训练得到的文字识别模型，并将识别出的连续文字所在的区域划分为一个文本框，以确定目标文本图像中所包含的文本框，通过将文本框与其他文本框进行组合，分别确定每一个文本框与其他文本框之间的位置关系，通过位置关系汇总，得到目标文本图像对应的空间位置特征。

步骤204，针对每一文本框，提取文本框对应的视觉特征和文本特征，对同一文本框所对应的视觉特征和文本特征进行特征融合处理，得到每一文本框在图结构中所映射节点的节点特征。

其中，视觉特征是指文本框所在区域的图像特征，图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征，其中，颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质；纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质；形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。空间关系特征是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系。具体地，服务器可以通过视觉特征提取网络对文本框进行视觉特征的提取，视觉特征提取网络具体可以是CNN(Convolutional Neural Network，卷积神经网络)，CNN网络对文本框进行视觉特征的提取，得到文本框所在区域相对应的多个特征图，该特征图可以以矩阵的形式所存在。通过CNN网络提取得到的文本框所在区域的图像特征为分散的特征，该分散的特征指多种类型的特征，具体地特征数量可以基于CNN网络的具体结构来确定，其中CNN网络中滤波器通道个数、卷积核大小和卷积步幅均可以根据实际应用场景决定，对此不作限制。

在一个具体的应用中，可以将CNN网络所得到的文本框的多个特征图称之为多个像素属性特征矩阵，一个特征图对应于一个像素属性特征矩阵，每个像素属性特征矩阵都是通过对整个文本框所在区域进行特征提取所得到的。一个像素属性特征矩阵包含了文本框所在区域中的一类图像特征，因此，多个像素属性特征矩阵就包含了文本框所在区域的多类图像特征，该多类图像特征之间没有关联，因此，是分散的图像特征。其中，像素属性特征矩阵主要包含了文本框所在区域的角点、边缘、曲线以及直线等图像特征，该图像特征是通过文本框所在区域的各个像素点的像素值所得到的。因此，其中一个像素属性特征矩阵可以包含文本框所在区域的角点特征，其中一个像素属性特征矩阵可以包含文本框所在区域的边缘特征，其中一个像素属性特征矩阵可以包含文本框所在区域的曲线特征，其中一个像素属性特征矩阵还可以包括文本框所在区域的直线特征。像素属性特征矩阵中的特征元素包含了目标对象的每个像素点的属性信息，该属性信息可以指上述角点、边缘、曲线以及直线等图像信息。

在另一个具体的应用中，对于CNN的选取包括但不限于U-net(一种分割网络)，以FCN(Fully Convolutional Networks，全卷积网络)的U-net为例进行视觉特征提取。一般的，CNN网络会在网络的最后加入一些全连接层，经过softmax处理后获得类别概率信息，而FCN把后面几个全连接都换成卷积，能够获得二维的特征图，后接softmax获得每个像素点的分类信息，从而解决了图像分割问题。而U-net网络与FCN网络相比较，采用了不同的特征融合方式，与FCN逐点相加不同，U-Net采用将特征在channel维度拼接在一起，形成更丰富的特征，通过U-net网络进行视觉特征提取，能够快速有效得到更为丰富的特征。

文本特征用于表示文本的基本单位，文本特征能够表征文本内容，具有将目标文本与其他文本相区分的能力。在中文文本中可以采用字、词或短语作为表示文本的特征项进行文本特征提取。文本特征的提取具体是从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本，使计算机能够通过对这种模型的计算和操作来实现对文本的识别。具体的，文本特征的提取具体可以采用基于统计的特征提取方法、基于语义的特征提取方法等方式来实现。

在一个具体的应用中，服务器通过文本特征提取网络进行文本特征的提取。文本特征提取网络具体可以是RNN(Recurrent Neural Networks，循环神经网络)网络，RNN网络是用于处理序列数据的神经网络。序列数据反映了某一事物、现象等随时间的变化状态或程度，后面的数据跟前面的数据有关系，相比一般的神经网络来说，通过RNN网络能够处理序列变化的数据，例如，序列数据具体可以是文本序列，某个单词的意思会因为上文提到的内容不同而有不同的含义。通过将文本框中的文本序列输入到RNN网络，能够基于RNN网络提取出文本框中的文本所对应的文本特征。对于RNN的选取，包括但不限于LSTM(Longshort-term memory,长短期记忆)，LSTM网络是一种特殊的RNN网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN网络，通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息，因此，LSTM网络能够在更长的序列中有更好的表现。

视觉特征和文本特征的特征融合是指将视觉特征和文本特征通过特征融合网络将不同的特征矢量进行优化组合的过程。具体地，提取的视觉特征和文本特征可以在提取过程中控制其对应的特征维度相同，例如，均为256维、均为128维等。通过将视觉特征和文本特征输入特征融合网络进行特征融合，能够合并成一个比输入特征更具有判别能力的特征。特征融合网络具体可以采用concat、add等方法实现，具体可以根据实际场景需要进行选择。

节点是指图结构中的连接点，在计算机科学中，图结构是由两个部件组成的一种数据结构：节点(vertices)和节点连边(edges)。一个图结构G可以用它包含的节点V和节点连边E的集合来描述。以目标文本图像中文本框为节点映射到图结构中，能够通过图结构中的节点准确表达每一个文本框。文本框所对应的视觉特征和文本特征的特征融合结果即为映射在图结构中的节点所对应的节点特征。

具体地，服务器针对每一文本框，提取文本框对应的视觉特征和文本特征，对同一文本框所对应的视觉特征和文本特征进行特征融合处理，得到每一文本框对应的特征融合结果，服务器将目标文本图像中的每一文本框映射至图结构中相应的节点，将每一文本框对应的特征融合结果作为相应节点的节点特征。

步骤206，基于图结构中各节点的节点特征，对基于空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征。

其中，节点特征用于表征每一个节点的相应特征，在对节点特征进行更新之前，节点的节点特征只与节点本身的特性相关。服务器通过将视觉特征与文本特征进行特征融合，来表示文本框所映射的节点相对应的节点特征，能够实现多维度的特征表达。

初始节点连边特征用于表征节点与节点之间的联系，基于空间位置特征，可以得到任意两个文本框之间的位置关系，由于文本框在图结构中映射为节点，故基于空间位置特征，可以得到图结构中各节点间的初始节点连边特征。

初始节点连边特征的特征更新是指基于影响特征，按照指定的处理流程对初始节点连边特征进行相应的特征处理，得到新的节点连边特征的处理过程。其中，影响特征可以是图结构中各节点的节点特征，也可以是图结构中各节点的节点特征与其他特征的组合，具体可以根据实际场景需要进行选择或设定。指定的处理流程具体可以是限定特征处理顺序和处理方式，处理方式例如特征融合，特征线性化、特征归一化，处理顺序例如哪一项处理在前、哪一项处理在后等。更新节点连边特征是对初始节点连边特征进行特征更新后的结果。

在一个具体应用中，特征更新可以通过图神经网络来实现，图神经网络将卷积运算从传统数据推广到图数据，其核心思想是学习一个函数映射，通过该映射图中的节点可以聚合它自己的特征与它的邻居特征来生成节点的新表示。具体地，服务器将视觉特征与文本特征进行融合后，将融合后的特征作为图神经网络结构中节点的节点特征，能够利用节点间的连接关系的判断来实现文本框的排序。

步骤208，基于更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序。

其中，节点连接关系包括节点与节点连接、和节点与节点不连接。基于更新节点连边特征，能够实现视觉特征、文本特征以及空间位置特征的融合，得到很准确的特征表达。

具体地，服务器基于更新节点连边特征，确定每两个节点间的关系是连接还是不连接，基于存在连接关系的节点，依次确定每一节点的连接对象，从而实现对节点的串联，基于节点串联结果，对文本框进行排序。对文本框进行排序得到的结果具体可以包括文本框对应的序号，服务器将文本框进行排序后，还可以基于文本框的序号进行版面分析等后续处理。此外，服务器还可以将包括序号的文本框信息反馈至终端，终端基于文本框序号对文本框中的内容进行拼接显示。

上述文本图像的文本框排序方法，通过基于目标文本图像中包含的文本框，分别获取到文本框之间的位置关系对应的空间位置特征以及每一文本框对应的视觉特征和文本特征，实现多模态的特征提取，以每一文本框为节点，通过将视觉特征与文本特征进行特征融合来得到每一文本框在图结构中所映射节点的节点特征，从节点维度上实现了多模态的特征融合，基于图结构中各节点的节点特征，对基于空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征，实现了多模态的特征融合，使得基于更新节点连边特征能够准确确定的节点连接关系，从而实现对每一节点所表征的文本框进行准确的排序。

在一个实施例中，如图3所示，基于图结构中各节点的节点特征，对基于空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征，包括步骤302至步骤304。

步骤302，对空间位置特征进行特征嵌入和归一化处理，得到初始节点连边特征矩阵。

其中，特征嵌入(embedding)是指将数据转换为固定大小的特征表示的处理过程，以便于处理和计算。embedding的主要目的是对稀疏特征进行降维，它降维的方式可以类比为一个全连接层(没有激活函数)，通过embedding层的权重矩阵计算来降低维度。通过对空间位置特征进行特征嵌入，能够使得处理后的空间位置特征的特征维度达到设定的维度，便于进行后续的特征拼接等处理。

归一化处理(Normal)是数据的规范化，通过改变原始数据的分布，使得各个特征维度对目标函数的影响权重归于一致。归一化处理的算法包括线性转换、对数函数转换、反余切函数转换等，可以根据实际场景需要进行选择。具体地，通过归一化处理，可以将特征数据的取值限定在[0，1]之内。

空间位置特征与整个目标文本图像对应的，包含全部文本框之间的位置关系，基于对空间位置特征进行特征嵌入和归一化处理，得到初始节点连边特征矩阵也能表征图结构中全部节点之间的联系。

在一个具体的应用中，服务器将视觉特征提取网络的输出和文本特征提取网络的输出都输入到特征融合网络中进行特征融合处理，得到图结构中每个节点(node)的特征n_i∈R^1×256，图结构中所有node对应为R^n×256的矩阵，r_ij为空间位置特征。

e′_ij＝Normal(Er_ij)

其中，E为embedding操作，对r_ij进行嵌入操作，然后对嵌入后的r_ij再进行Normal归一化操作，得到e′_ij∈R^1×256，即为初始节点特征矩阵。

步骤304，基于图结构中各节点对应的节点特征所构成的初始节点特征矩阵，对初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵。

其中，初始节点矩阵是由图结构中各个节点对应的节点特征构成的矩阵。具体来说，通过对视觉特征和文本特征进行特征融合处理的过程中，可以限定特征的维度，例如使得节点特征的维度为256维，如文本框即图结构中的节点数量为n，则基于图结构中各节点对应的节点特征所构成的初始节点特征矩阵为n*256的矩阵。

基于初始节点特征矩阵对初始节点连边特征矩阵进行更新，具体可以是将初始节点特征矩阵与初始节点连边特征矩阵进行融合，或是将初始节点特征矩阵与初始节点连边特征矩阵进行融合，并在融合之后进行其他的处理，例如MLP(Multi-layer Perceptron，多层感知器)等。

具体地，服务器对空间位置特征依次进行特征嵌入和归一化处理，得到初始节点连边特征矩阵，并基于图结构中各节点对应的节点特征，得到初始节点特征矩阵，服务器基于初始节点特征矩阵对初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵。

步骤306，基于更新节点连边特征矩阵中每一个更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序。

在本实施例中，通过对空间位置特征进行特征嵌入和归一化处理，能够得到便于与初始节点特征矩阵进行后续处理的初始节点连边特征矩阵，便于实现针对初始节点连边特征矩阵的有效快速更新。

在一个实施例中，基于图结构中各节点对应的节点特征所构成的初始节点特征矩阵，对初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵，包括：将初始节点特征矩阵与初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵；对拼接节点连边特征矩阵进行多层感知处理，得到更新节点连边特征。

其中，矩阵拼接处理是指将两个或两个以上的矩阵按照一定的规则进行拼接的处理过程。初始节点连边特征矩阵与初始节点特征矩阵可以是具有相同行列数的矩阵。通过将初始节点连边特征矩阵与初始节点特征矩阵进行拼接，能够实现节点与节点连接关系的组合。

多层感知处理是基于多层感知器实现的，多层感知器是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元，相对于单层感知器，MLP多层感知器输出端从一个变到了多个；输入端和输出端之间有输出层和隐藏层。通过多层感知处理，能够实现多维度数据的有效融合。

具体地，服务器基于特征融合网络将初始节点特征矩阵与初始节点连边特征矩阵输入至图神经网络，图神经网络对初始节点特征矩阵与初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵；服务器基于图神经网络对拼接节点连边特征矩阵进行多层感知处理，得到更新节点连边特征并输出。

在本实施例中，通过进行矩阵拼接和多层感知处理，利用矩阵的拼接扩大和多层感知缩小过程中的特征变化，实现特征数据的充分融合，得到更为准确的更新节点连边特征矩阵。

在一个实施例中，如图4所示，初始节点特征矩阵为二维矩阵，基于图结构中各节点的节点特征，对基于空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征包括：

步骤402，对空间位置特征进行特征嵌入和归一化处理，得到初始节点连边特征矩阵。

步骤404，将初始节点特征矩阵分别进行不同维度的矩阵扩张，得到第一三维矩阵和第二三维矩阵。

步骤406，对第一三维矩阵和第二三维矩阵所构成的拼接三维矩阵进行归一化处理，得到拼接节点特征矩阵。

步骤408，将拼接节点特征矩阵和初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵。

步骤410，对拼接节点连边特征矩阵进行多层感知处理，得到更新节点连边特征。

其中，不同维度的矩阵扩张可以基于不同的矩阵扩张参数得到，如图5(a)和图5(b)所示，初始节点特征矩阵为(n，256)的二维矩阵，首先将(n，256)的二维矩阵变换为(n，1，256)的三维矩阵以及(1，n，256)的三维矩阵，基于矩阵扩张参数expand(-1,n,-1)，将(n，1，256)的三维矩阵扩张为(n，n，256)的三维矩阵，基于矩阵扩张参数expand(n,-1,-1)，将(1，n，256)的三维矩阵扩张为(n，n，256)的三维矩阵，从而从不同维度进行矩阵扩张得到两个(n，n，256)，然后将两个(n，n，256)的三维矩阵进行拼接，得到(n，n，256*2)的三维矩阵，通过对(n，n，256*2)的三维矩阵进行归一化，得到(n²，256*2)的二维矩阵，即拼接节点特征矩阵。

如图6所示，将拼接节点特征矩阵(n²，256*2)与初始节点连边特征矩阵(n²，256)进行拼接处理，得到(n²，256*3)的拼接节点连边特征矩阵，通过对(n²，256*3)的矩阵进行MLP处理，得到(n²，256)的更新节点连边特征矩阵。

在一个具体的应用中，具体的处理过程如下：

e′_ij＝Normal(Er_iJ)

e_ij＝n_i||n_j||e′_ij

e_ij＝M(e_ij)

其中，r_ij为空间位置特征，E为embedding操作，对r_ij进行嵌入操作，然后对嵌入后的r_ij再进行Normal归一化操作，得到e′_ij∈R^1×256，即为初始节点连边特征矩阵。将n_i，n_j，e′_ij三者进行串联，得到图神经网络中各节点的节点连边特征e_ij∈R^1×(256*3)。M表示MLP，经过MLP网络处理后e_ij转化为e_ij∈R^1×256，即更新节点连边特征矩阵。

在本实施例中，通过对初始节点特征矩阵分别进行不同维度的矩阵扩张拼接以及归一化处理后得到的(n²，256*2)矩阵，(n²，256*2)矩阵中的n*n行能够分别表征每两个节点的组合，从而从节点特征这个角度实现了特征数据的两两组合，然后将其基于空间位置特征得到的初始节点连边特征矩阵进行拼接，使得拼接得到的(n²，256*3)的更新节点连边特征矩阵中的n*n行能够分别表征每两个节点的组合的节点特征以及空间位置特征，以此为依据进行MLP处理后的更新节点连边特征矩阵能够准确地表达每两个节点构成的组合所对应的特征信息。

在一个实施例中，基于图结构中各节点对应的节点特征所构成的初始节点特征矩阵，对初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵，包括：将各节点对应的节点特征所构成的初始节点特征矩阵和初始节点连边特征矩阵输入图神经网络；在图神经网络中，基于初始节点特征矩阵对初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵并输出。

其中，图神经网络(GNN)是一种直接在图结构上运行的神经网络。GNN会对所有输入的节点(node)和节点连边(edge)进行一次更新处理，得到更新的node和edge。图神经网络的输入数据为各节点对应的节点特征所构成的初始节点特征矩阵，如(n，256)，以及初始节点连边特征矩阵，如(n²，256)，针对初始节点连边特征矩阵，如(n²，256)的更新过程具体可参见上述实施例，在此不再赘述。

在本实施例中，服务器将各节点对应的节点特征所构成的初始节点特征矩阵和初始节点连边特征矩阵输入图神经网络，图神经网络基于初始节点特征矩阵对初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵并输出，基于图神经网络，可以将节点连边特征矩阵的更新逻辑内置于图神经网络，通过对图神经网络的训练即可快速得到各个处理阶段的准确参数，有效提高数据处理效率，并且能够实现数据的批量处理。

在一个实施例中，图神经网络为至少两个图神经网络依次连接构成图神经网络群组，图神经网络群组中上一图神经网络的输出数据为下一图神经网络的输入数据；文本图像的文本框排序方法还包括：在图神经网络中，基于更新节点连边特征，对初始节点特征矩阵进行更新，得到更新节点特征矩阵并输出。

其中，图神经网络群组由至少两个图神经网络依次连接构成，图神经网络群组中上一图神经网络的输出数据为下一图神经网络的输入数据。以图神经网络群组包括依次连接的第一GNN层和第二GNN层为例，第一GNN层的输入数据为初始节点特征矩阵以及初始节点连边特征矩阵，第一GNN层的输出数据即为第二GNN层的输入数据，即更新节点特征矩阵以及更新节点连边特征矩阵，其中，初始节点连边特征矩阵的更新过程具体可参见上述实施例，在此不再赘述。针对初始节点特征矩阵的更新过程如下：

其中，

表示在第l时间步(即第l个GNN层)时第i个node，σ表示relu激活函数，W^l表示全连接层。

表示归一化后的边权重。

基于第一GNN层对初始节点特征矩阵进行更新后，使得第二GNN层输入的节点特征矩阵为更新的节点特征矩阵，进而使得在第二GNN层基于更新节点特征矩阵对更新节点连边特征矩阵进行二次更新。可以理解，GNN层数越多，所进行的迭代更新次数也就越多，图神经网络群组中的GNN层的数量可以根据具体的迭代更新效果或是实际应用场景来进行确定。

在本实施例中，通过至少两个图神经网络依次连接构成图神经网络群组，能够实现对节点特征矩阵以及节点连边特征矩阵的多次迭代更新，提高更新节点连边特征矩阵的准确性。

在一个实施例中，文本图像的文本框排序方法还包括：基于更新节点连边特征，对节点特征进行更新，得到更新的节点特征；将更新的节点特征与更新节点连边特征进行特征拼接处理，对得到的拼接特征进行多层感知处理，得到二次更新节点连边特征。

其中，基于更新节点连边特征对节点特征进行更新，具体过程可以参见图7(a)和图7(b)，在得到更新节点连边特征e_ij∈R^1×256之后，如图7(a)所示，基于参数linear(256,1)对更新节点连边特征矩阵(n²，256)进行线性回归，得到矩阵(n²，1)，然后对矩阵(n²，1)按照参数view(n，n，1)进行归一化处理，得到矩阵(n，n，1)，然后将矩阵(n，n，1)与自定义矩阵进行元素值累加，其中自定义矩阵为(n，n，1)矩阵，自定义矩阵中的对角线元素为取值为无限大，以使得元素值累加后的矩阵中表示节点自身关系的元素所对应的元素值无限大，以减小对后续节点连接关系的判断的影响。其中元素值累加后的矩阵即为归一化后的边权重

进一步地，如图7(b)所示，通过对更新节点连边特征(n²，256)按照参数view(n，n，1)进行归一化，得到矩阵(n，n，256)，然后与元素值累加后的矩阵

进行全连接处理，得到全连接处理结果对应的矩阵(n，256)，最后通过relu激活函数进行线性回归，得到更新节点特征(n，256)。

进一步地，基于更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序，包括：基于二次更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序。

在本实施例中，通过对初始节点特征进行迭代更新，便于使用更新节点特征，对更新节点连边特征进行二次更新，从而能够提高更新的节点连边特征的准确性，基于二次更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序，得到更为准确的文本框排序结果。

在一个实施例中，如图8所示，基于更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序，包括：

步骤802，对更新节点连边特征矩阵中的每一个节点连边特征分别进行二分类处理，筛选出每一节点各自对应的目标节点连边特征，目标节点连边特征对应的分类概率符合概率条件。

步骤804，基于目标节点连边特征所确定的节点连接关系，确定每一节点对应的连接对象。

步骤806，每一节点对应的连接对象，对目标文本图像中的文本框进行排序。

其中，更新节点连边特征矩阵的每一行均可以表示每两个节点之间的节点连边特征，针对矩阵中每一行所对应的节点连边特征进行二分类处理，确定该节点连边特征所对应的两个节点之间存在连接关系的概率，确定该节点连边特征所对应的两个节点之间是存在连接关系，还是不存在连接关系。其中，存在连接关系表示两个文本框之间在阅读顺序中是相邻的关系，不存在连接关系表示两个文本框之间在阅读顺序上处于不相邻的关系。概率条件可以基于二分类模型的训练过程来确定，概率条件具体可以是大于设定的概率值。

针对每一个节点，其与其他各个节点之间都存在联系，但每一个节点的连接对象的数量应当只有两个。具体来说，当存在n个节点时，每一个目标节点都与剩余的n-1个节点之间存在联系，但剩余的n-1个节点中只有两个，一个是在目标节点之前一个在目标节点之后。

在本实施例中，基于二分类处理，能够实现对节点对应的连接对象的准确判断，从而实现对目标文本图像中的文本框进行准确的排序。

在一个实施例中，基于每一节点对应的连接对象，对目标文本图像中的文本框进行排序，包括：基于目标文本图像中各文本框的坐标，确定目标文本图像中的初始文本框；基于初始文本框对应的节点以及每一节点对应的连接对象，对目标文本图像中的文本框进行排序。

为了寻找node与node之间的顺序，也就是通过edge来确定node与node之间的关系，因此将注意力集中在对edge的分类上，通过将所有的

分为两类，

表示node与node之间的关系。在阅读环境下，两个文本框之间的关系有两种情况，一种是两个文本框之间在阅读顺序中是相邻的关系，一种是两个文本框之间在阅读顺序上处于不相邻的关系。一个节点也就是文本框(非初始节点和尾节点)，在阅读顺序中它有一个上节点和一个下节点，可以计算该节点与其他节点是否直接相连的概率，对于中间节点计算出概率最大的两个点。这样只要寻找一个始节点后，就可以将所有节点按照顺序链接起来，这个结果就是正确的阅读顺序。始节点与中间节点不同的是，对于中间节点我们寻找的是与其相邻的最大的两个节点，而对于始节点，只需要寻找与其相邻的最大的一个节点。经过观察大量数据，发现按照人眼的阅读顺序，始节点往往是在目标文本图像中的最上和最左方，因此，如图9所示，基于目标文本图像中各文本框的坐标，确定坐标数据对应最上和最左方的文本框为目标文本图像中的初始文本框start，然后将所有节点按照顺序链接起来，基于文本框与节点的对应关系，实现对文本框的排序。

在本实施例中，通过确定初始文本框，能够快速地定位起始的节点，然后按顺序进行连接，以提高节点链接速度，从而快速实现对文本框的排序。

在一个实施例中，视觉特征为视觉特征向量，文本特征为文本特征向量；针对每一文本框，提取文本框对应的视觉特征和文本特征，对同一文本框所对应的视觉特征和文本特征进行特征融合处理，得到每一文本框在图结构中所映射节点的节点特征，包括：基于所针对的目标文本框的坐标信息，提取坐标信息对应区域内的视觉信息，对视觉信息进行均值池化处理，得到目标文本框对应的视觉特征向量；识别所针对的目标文本框中的文字，基于每一文字所对应的映射序号，确定目标文本框对应的映射序号序列，对映射序号序列进行特征嵌入处理，得到目标文本框对应的文本特征向量。

具体地，视觉特征是由基于FCNs(全连接卷积神经网络)的U-net网络来对图像进行处理后得到的结果。首先是使用U-net对整幅目标文本图像进行处理识别文本框，得到文本框对应的标注信息，标注信息包括阅读顺序，文本框坐标序列和文本框内文本内容三部分构成。一个目标文本图像中有多个文本框，每个文本框都有一个标注信息。根据文本框的坐标序列所构成的区域，将文本框所在区域内的特征数据提取出来，然后再对所提取的特征数据进行均值池化(mean pooling)操作，分别将每个文本框内的视觉特征转化为相同长度的视觉特征向量。其中，视觉特征向量的长度可以是256维。

文本特征由基于RNN的LSTM网络来进行提取。首先将文本框中的文本内容通过汉字字典(如常用3500字汉字字典)来进行映射转换，将文本框中原本的字符映射为字典中对应字符所对应的序号。基于目标文本图像中所有的文本框中的文字映射序号可以构成了一个二维矩阵，再将二维矩阵中的每一行数据载入LSTM网络进行embedding，最终得到每个文本框对应的文本特征。其中，文本特征向量的长度可以是256维。

在上述实施例中，通过对视觉特征和文本特征进行提取和相应处理，能够确保得到的视觉特征向量和文本特征向量具有相同的长度，便于进行特征的融合。

在一个实施例中，基于每一文字所对应的映射序号，确定目标文本框对应的映射序号序列包括：基于每一文字所对应的映射序号，确定目标文本框对应的初始映射序号序列；当初始映射序号序列的序列长度小于目标序列长度时，基于预设序号对初始映射序号序列进行填充，得到目标文本框对应的映射序号序列；其中，目标序列长度与包含文字最多的文本框中的文字数量相对应。

在一个具体应用中，目标文本图像中包含20个文本框，其中文本内容最长的文本框中的文字数量为20，则可以确定每一个文本框所对应的映射序号序列的长度为20，若其中一个文本框中的文字数量为5，通过序号映射，得到的初始映射序号序列的长度为5，则对剩余的15位序号进行补零填充，如将(2,15,42,31,5)，填充为(2,15,42,31,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,)。

在本实施例中，通过对序列长度小于目标序列长度的初始映射序号序列进行填充处理，能够确保每一个映射序号序列的长度是一致的，从而在后续对映射序号序列进行特征嵌入处理时，避免由于映射序号序列长度不一致的情况，影响得到目标文本框对应的文本特征向量的准确性。

在一个实施例中，文本框的形状为矩阵。空间位置特征包括每一文本框组合各自对应的位置特征，文本框组合由目标文本图像中的文本框两两组合得到；文本图像的文本框排序方法还包括：针对每一文本框组合，基于所针对的文本框组合中每一文本框的参考点坐标，确定所针对的文本框组合对应的第一位置特征，并基于文本框组合中每一文本框的宽高数据，确定所针对的文本框组合对应的第二位置特征；将第一位置特征和第二位置特征进行特征拼接处理，得到所针对的文本框组合对应的位置特征。

其中，参考点坐标是针对每一个文本框参考点的坐标，参考点是文本框中的一个相对位置，例如参考点具体可以是文本框的左上角的位置或是右下角位置等，具体可以根据实际需要进行设定。宽高数据具体包括文本框的高度和文本框的宽度，由于文本框的形状为矩阵，在确定参考点坐标以及宽高数据时，即可确定文本框在目标文本图像中所对应的区域。

通过将目标文本图像中的文本框两两组合，可以得到文本框组合，针对每一个文本框组合都进行参考点坐标的分析以及宽高数据分析，从而得到不同维度的第一位置特征和第二位置特征，进而得到每一文本框组合对应的位置特征，通过将每一文本框组合对应的位置特征进行归集，即可得到目标文本图像对应的空间位置特征。

在本实施例中，通过从参考点坐标以及宽高数据两个维度进行位置关系分析，既能够表征文本框组合中两个文本框之间的位置关系，又能够提高位置关系的准确性。

在其中一个实施例中，基于所针对的文本框组合中每一文本框的参考点坐标，确定所针对的文本框组合对应的第一位置特征，包括：基于所针对的文本框组合中每一文本框的参考点坐标，确定参考点之间的水平距离和垂直距离；将水平距离和垂直距离进行归一化处理和数据拼接，得到第一位置特征。

其中，水平距离是指文本框组合中第一文本框的参考点横坐标与第二文本框的参考点横坐标的差值，垂直距离是指文本框组合中第文本框的参考点纵坐标与第二文本框的参考点纵坐标的差值。对水平距离和垂直距离进行归一化处理是指同时乘以/除以一个归一化系数的处理过程。数据拼接是指将归一化处理后的水平距离与归一化处理后的垂直距离进行数据串联的过程。

在一个具体应用中，以文本框组合中文本框t_i与t_j之间的位置关系的确定过程为例，x_i,y_i,x_j,y_j分别为t_i与t_j的左上点位置坐标即参考点坐标，第一位置特征的处理过程如下：

Δx_ij＝x_j-x_i

Δy_ij＝y_j-y_i

Δx_ij为t_i与t_j的水平距离，Δy_ij为t_i与t_j的垂直距离，d为归一化系数，||为concatenation(串联)操作。

在本实施例中，通过对水平距离和垂直距离分别进行归一化处理然后对归一化处理结果进行数据拼接处理，既能够表征参考点之间的位置关系，又能够确保同类数据不受干扰，从而提高位置关系的准确性。

在其中一个实施例中，基于文本框组合中每一文本框的宽高数据，确定所针对的文本框组合对应的第二位置特征，包括：从文本框组合中各文本框的宽高数据选中目标数据，分别计算未选中的宽高数据与目标数据的比值结果；将比值结果进行数据拼接，得到第二位置特征。

其中，文本框组合包括两个文本框，每一个文本框中包含高度数据和宽度数据，因此文本框组合中各文本框的宽高数据的数量一共是4个，从4个宽高数据中选择出一个数据作为目标数据，分别计算其余三个数据与目标数据的比值，得到三个比值结果。第二位置特征为三个比值结果的拼接结果。

在一个具体应用中，以文本框组合中文本框t_i与t_j之间的位置关系的确定过程为例，x_i，y_i，x_j，y_j分别为t_i与t_j的左上点位置坐标即参考点坐标，h_i，w_i，h_j，w_j分别为t_i与t_j的高和宽，第二位置特征的处理过程如下：

其中，||为concatenation操作。

第一位置特征与第二位置特征拼接得到的位置特征为：

每两个文本框之间的位置特征由r_ij∈R^1×5，这个长度为5的向量构成。

在本实施例中，基于宽高数据进行位置关系分析，能够准确表征每两个文本框之间的大小关系，从而提高位置关系的准确性。

本申请还提供一种应用场景，该应用场景具体可以是办公场景文档识别，对于办公场景的文档进行结构化识别，文档内容按照标题、图、文、表等信息分类整理输出，支持将文档中的文本内容和版面格式分离并按顺序输出。

该应用场景应用上述的文本图像的文本框排序方法。具体地，该文本图像的文本框排序方法在该应用场景的应用如下：

基于多模态的文本图像的文本框排序方法基于文本框排序模型来实现，文本框排序模型包括CNN、RNN和GNN三种网络。如图10所示，图像文本区域的视觉特征由CNN网络进行特征提取，图像中的文本特征则由RNN网络进行提取，同时计算出各个文本区域之间的空间位置关系特征，首先将视觉特征与文本特征进行融合后，然后将融合后的特征构成GNN中的node，将空间位置关系特征构成GNN中的edge。通过两层GNN网络来对整个图像中node和edge进行更新，然后对GNN输出的edge进行二分类，两个节点直接相邻的edge为一类，两个节点不相邻的edge为一类，最终确定所有点之间的关系。

对于CNN，以FCN的U-net为例进行视觉特征提取，对于RNN，以LSTM为例进行文本特征提取。可以理解，对于CNN的选取包括但不限于U-net，对于RNN的选取也是包括但不限于LSTM。

文本框排序模型中各个网络的训练数据和测试数据由样本文本图像和标注信息构成，每副样本文本图像对应着自身的标注信息，基于样本文本图像得到用于进行文本框排序的文本框排序模型。

其中，标注信息的格式为：

其中，filename为该图像的名称，height和width为该图像的高度和宽度，annotations为该图像中的标注信息，annotations由reading_order(阅读顺序)，box(文本框坐标序列，包括左上角坐标、右上角坐标、左下角坐标以及右下角坐标)和text(文本框内文本内容)三部分构成。一个图像中有多个文本框，每个文本框都有一个标注信息。

在文本框排序模型的训练过程中，需要将标注信息进行转换为合适的groundtruth(真值)格式，如图11中示例所示。通过将标注信息中的排序信息进行处理，得到ground truth

定义损失函数：

如图12所示，

经过全连接层处理后得到

CE表示交叉熵函数，对ground truth与预测值进行loss的计算，然后再使用优化器对网络进行优化，从而得到能够进行文本框排序的文本框排序模型。

文本框排序模型的处理过程主要包括视觉特征提取、文字特征提取、空间位置特征提取以及GNN数据更新与边分类。

其中，在视觉特征提取过程中，视觉特征是由基于FCN网络的U-net网络来对目标文本图像进行处理后得到的结果。首先使用U-net对整幅目标文本图像进行处理，识别目标文本图像中各个文本框，确定文本框的坐标，然后将文本框内的视觉特征数据提取出来，然后再针对提取的视觉特征数据进行mean pooling操作，将每个文本框内的视觉特征转化为相同长度的视觉特征向量。

在文本特征提取的过程中，文本特征由基于RNN的LSTM网络来进行提取。首先将文本框内文本内容包含的文字通过常用3500字汉字字典来进行转换，将文本内容中原本的字符映射到字典中对应字符对应的序号。将目标文本图像中所有的文本框中的文字映射序号，然后构成了一个二维矩阵，再将二维矩阵中的每一行数据载入LSTM网络进行embedding，最终得到每个文本框对应的文本特征。

在空间位置特征提取过程中，空间位置特征表示文本框之间的空间位置关系。首先确定文本框t_i与t_j之间的关系，x_i，y_i，x_j，y_j分别为t_i与t_j的左上点位置坐标，h_i，w_i，h_j，w_j分别为t_i与t_j的高和宽。

Δx_ij＝x_j-x_i

Δy_ij＝y_j-y_i

Δx_ij为t_i与t_j的水平距离，Δy_ij为t_i与t_j的垂直距离，d为归一化系数，||为concatenation操作。每两个文本框之间的空间位置特征由r_ij∈R^1×5，这个长度为5的向量构成。对目标文本图像所有的文本框计算出其与其他文本框之间的空间位置关系后得到一个

的矩阵，n为目标文本图像中所有文本框的数量。

在GNN数据更新与边分类的过程中，GNN网络的特性是，每个网络层都会对所有node和edge进行一次更新处理。将视觉特征提取网络的输出和文本特征提取网络的输出都输入到特征融合网络中进行处理，得到GNN中每个node的特征n_i∈R^1×256，GNN中所有node对应为R^n×256的矩阵，r_ij∈R^1×5为空间位置特征。

e′_ij＝Normal(Er_ij)

E为embedding操作，对r_ij进行嵌入操作。然后对嵌入后的r_ij再进行Normal归一化操作，得到e′_ij∈R^1×256。将e′_ij∈R^1×256，n_i∈R^1×256输入第一层GNN网络，将n_i，e′_ij，n_j三者串联得到GNN网络中的边e_ij∈R^{1×(256+256+256)}。

e_ij＝n_i||e′_ij||n_j

e_ij＝M(e_ij)

M表示MLP，经过MLP网络处理后e_ij转化为e_ij∈R^1×256。

第一层GNN网络中节点迭代的过程为：

表示在第1时间步时第i个node，σ表示relu激活函数，W¹表示第一层GNN网络的全连接层。

表示第一层GNN网络中归一化后的边权重。

第l层GNN中节点迭代的过程为：

经过多层GNN迭代后的输出为

将所有的

分为两类，

表示node与node之间的关系，在阅读环境下，两个文本框之间的关系有两种情况，一种是两个文本框之间在阅读顺序中是相邻的关系，一种是两个文本框之间在阅读顺序上处于不相邻的关系。一个节点也就是文本框(非初始节点和尾节点)，在阅读顺序中它有一个上节点和一个下节点，我们可以计算该节点与其他节点是否直接相连的概率，对于中间节点计算出概率最大的两个点。这样只要我们寻找一个始节点后，就可以将所有节点按照顺序链接起来，这个结果就是正确的阅读顺序。始节点与中间节点不同的是，对于中间节点我们寻找的是与其相邻的最大的两个节点，而对于始节点我们只需要寻找与其相邻的最大的一个节点。经过观察大量数据，发现按照人眼的阅读顺序，始节点往往是在一幅图像中的最上和最左方，因此，基于目标文本图像中各文本框的坐标，确定坐标数据对应最上和最左方的文本框为目标文本图像中的初始文本框，然后将所有节点按照顺序链接起来，基于文本框与节点的对应关系，实现对文本框的排序。

通过上述处理过程，能够为OCR中版面分析提供有效的辅助作用，能够提高OCR识别服务的精准度，能够应用于OCR版面分析算法、OCR图像内容识别算法，将图像中离散文本信息按照人类阅读顺序排序后进行更高效的再处理。

应该理解的是，虽然上述各实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的流程图中至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图13所示，提供了一种文本图像的文本框排序装置1300，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：第一特征提取模块1302、第二特征提取模块1304、特征更新模块1306和文本框排序模块1308，其中：

第一特征提取模块1302，用于基于目标文本图像中包含的文本框，确定所述目标文本图像对应的空间位置特征，所述空间位置特征用于表征所述目标文本图像中各文本框之间的位置关系；

第二特征提取模块1304，用于针对每一文本框，提取所述文本框对应的视觉特征和文本特征，对同一文本框所对应的视觉特征和文本特征进行特征融合处理，得到每一文本框在图结构中所映射节点的节点特征；

特征更新模块1306，用于基于所述图结构中各节点的节点特征，对基于所述空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征；

文本框排序模块1308，用于基于所述更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序。

在一个实施例中，所述特征更新模块包括初始节点连边特征矩阵确定模块和第一更新模块，其中：

所述初始节点连边特征矩阵确定模块，用于对所述空间位置特征进行特征嵌入和归一化处理，得到初始节点连边特征矩阵；

所述第一更新模块，用于基于所述图结构中各节点对应的节点特征所构成的初始节点特征矩阵，对所述初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵。

在一个实施例中，所述第一更新模块包括矩阵拼接模块和多层感知模块，其中：

所述矩阵拼接模块，用于将所述初始节点特征矩阵与所述初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵；

所述多层感知模块，用于对所述拼接节点连边特征矩阵进行多层感知处理，得到更新节点连边特征。

在一个实施例中，所述初始节点特征矩阵为二维矩阵；所述矩阵拼接模块包括矩阵扩张单元、归一化单元以及拼接单元，其中：

所述矩阵扩张单元，用于将所述初始节点特征矩阵分别进行不同维度的矩阵扩张，得到第一三维矩阵和第二三维矩阵；

所述归一化单元，用于对所述第一三维矩阵和所述第二三维矩阵所构成的拼接三维矩阵进行归一化处理，得到拼接节点特征矩阵；

所述拼接单元，用于将所述拼接节点特征矩阵和所述初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵。

在一个实施例中，所述第一更新模块包括输入模块和处理与输出模块，其中：

所述输入模块，用于将所述各节点对应的节点特征所构成的初始节点特征矩阵和所述初始节点连边特征矩阵输入图神经网络；

所述处理与输出模块，用于在所述图神经网络中，基于所述初始节点特征矩阵对所述初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵并输出。

在一个实施例中，所述图神经网络为至少两个图神经网络依次连接构成图神经网络群组，所述图神经网络群组中上一图神经网络的输出数据为下一图神经网络的输入数据；文本图像的文本框排序装置还包括第二更新模块；

所述第二更新模块，用于在所述图神经网络中，基于所述更新节点连边特征，对所述初始节点特征矩阵进行更新，得到更新节点特征矩阵并输出。

在一个实施例中，所述文本图像的文本框排序装置还包括节点特征更新模块和二次更新模块，其中：

所述节点特征更新模块，用于基于所述更新节点连边特征，对所述节点特征进行更新，得到更新的节点特征；

所述二次更新模块，用于将所述更新的节点特征与所述更新节点连边特征进行特征拼接处理，对得到的拼接特征进行多层感知处理，得到二次更新节点连边特征；

所述文本框排序模块还用于基于所述二次更新节点连边特征所确定的节点连接关系，对图结构中每一节点各自表征的文本框进行排序。

在一个实施例中，所述文本框排序模块包括筛选单元、连接对象确定单元以及排序单元，其中：

所述筛选单元，用于对所述更新节点连边特征矩阵中的每一个节点连边特征分别进行二分类处理，筛选出每一节点各自对应的目标节点连边特征，所述目标节点连边特征对应的分类概率符合概率条件；

所述连接对象确定单元，用于基于所述目标节点连边特征所确定的节点连接关系，确定每一节点对应的连接对象；

所述排序单元，用于基于每一节点对应的连接对象，对所述目标文本图像中的文本框进行排序。

在一个实施例中，所述排序单元还用于基于所述目标文本图像中各文本框的坐标，确定所述目标文本图像中的初始文本框；基于所述初始文本框对应的节点以及每一节点对应的连接对象，对所述目标文本图像中的文本框进行排序。

在一个实施例中，所述视觉特征为视觉特征向量，所述文本特征为文本特征向量；

所述第二特征提取模块包括视觉特征向量提取模块和文本特征向量提取模块，其中：

所述视觉特征向量提取模块，用于基于所针对的目标文本框的坐标信息，提取所述坐标信息对应区域内的视觉信息，对所述视觉信息进行均值池化处理，得到所述目标文本框对应的视觉特征向量；

所述文本特征向量提取模块，用于识别所针对的目标文本框中的文字，基于每一文字所对应的映射序号，确定所述目标文本框对应的映射序号序列，对所述映射序号序列进行特征嵌入处理，得到所述目标文本框对应的文本特征向量。

在一个实施例中，所述文本特征向量提取模块还用于基于每一文字所对应的映射序号，确定目标文本框对应的初始映射序号序列；当所述初始映射序号序列的序列长度小于目标序列长度时，基于预设序号对所述初始映射序号序列进行填充，得到目标文本框对应的映射序号序列；其中，所述目标序列长度与包含文字最多的文本框中的文字数量相对应。

在一个实施例中，所述空间位置特征包括每一文本框组合各自对应的位置特征，所述文本框组合由所述目标文本图像中的文本框两两组合得到；

所述文本图像的文本框排序装置还包括位置特征确定模块和位置特征拼接模块，其中：

所述位置特征确定模块，用于针对每一文本框组合，基于所针对的文本框组合中每一文本框的参考点坐标，确定所针对的文本框组合对应的第一位置特征，并基于所述文本框组合中每一文本框的宽高数据，确定所针对的文本框组合对应的第二位置特征；

所述位置特征拼接模块，用于将所述第一位置特征和所述第二位置特征进行特征拼接处理，得到所针对的文本框组合对应的位置特征。

在一个实施例中，所述位置特征确定模块还用于基于所针对的文本框组合中每一文本框的参考点坐标，确定参考点之间的水平距离和垂直距离；将所述水平距离和所述垂直距离进行归一化处理和数据拼接，得到第一位置特征。

在一个实施例中，所述位置特征确定模块还用于从所述文本框组合中各文本框的宽高数据选中目标数据，分别计算未选中的宽高数据与所述目标数据的比值结果；将所述比值结果进行数据拼接，得到第二位置特征。

关于文本图像的文本框排序装置的具体实施例可以参见上文中对于文本图像的文本框排序方法的实施例，在此不再赘述。上述文本图像的文本框排序装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本图像的文本框排序数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像的文本框排序方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本图像的文本框排序方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述图结构中各节点的节点特征，对基于所述空间位置特征所确定的各节点间的初始节点连边特征进行特征更新，得到更新节点连边特征，包括：

对所述空间位置特征进行特征嵌入和归一化处理，得到初始节点连边特征矩阵；

基于所述图结构中各节点对应的节点特征所构成的初始节点特征矩阵，对所述初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵。

3.根据权利要求2所述的方法，其特征在于，所述基于所述图结构中各节点对应的节点特征所构成的初始节点特征矩阵，对所述初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵，包括：

将所述初始节点特征矩阵与所述初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵；

对所述拼接节点连边特征矩阵进行多层感知处理，得到更新节点连边特征。

4.根据权利要求3所述的方法，其特征在于，所述初始节点特征矩阵为二维矩阵；

所述将所述初始节点特征矩阵与所述初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵，包括：

将所述初始节点特征矩阵分别进行不同维度的矩阵扩张，得到第一三维矩阵和第二三维矩阵；

对所述第一三维矩阵和所述第二三维矩阵所构成的拼接三维矩阵进行归一化处理，得到拼接节点特征矩阵；

将所述拼接节点特征矩阵和所述初始节点连边特征矩阵进行矩阵拼接处理，得到拼接节点连边特征矩阵。

5.根据权利要求2所述的方法，其特征在于，所述基于所述图结构中各节点对应的节点特征所构成的初始节点特征矩阵，对所述初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵，包括：

将所述各节点对应的节点特征所构成的初始节点特征矩阵和所述初始节点连边特征矩阵输入图神经网络；

在所述图神经网络中，基于所述初始节点特征矩阵对所述初始节点连边特征矩阵进行更新，得到更新节点连边特征矩阵并输出。

6.根据权利要求5所述的方法，其特征在于，所述图神经网络为至少两个图神经网络依次连接构成图神经网络群组，所述图神经网络群组中上一图神经网络的输出数据为下一图神经网络的输入数据；

所述方法还包括：

在所述图神经网络中，基于所述更新节点连边特征，对所述初始节点特征矩阵进行更新，得到更新节点特征矩阵并输出。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述更新节点连边特征，对所述节点特征进行更新，得到更新的节点特征；

将所述更新的节点特征与所述更新节点连边特征进行特征拼接处理，对得到的拼接特征进行多层感知处理，得到二次更新节点连边特征；

所述基于所述更新节点连边特征所确定的节点连接关系，对所述图结构中每一节点各自表征的文本框进行排序，包括：

基于所述二次更新节点连边特征所确定的节点连接关系，对所述图结构中每一节点各自表征的文本框进行排序。

8.根据权利要求1所述的方法，其特征在于，所述基于所述更新节点连边特征所确定的节点连接关系，对所述图结构中每一节点各自表征的文本框进行排序，包括：

对所述更新节点连边特征矩阵中的每一个节点连边特征分别进行二分类处理，筛选出每一节点各自对应的目标节点连边特征，所述目标节点连边特征对应的分类概率符合概率条件；

基于所述目标节点连边特征所确定的节点连接关系，确定每一节点对应的连接对象；

基于每一节点对应的连接对象，对所述目标文本图像中的文本框进行排序。

9.根据权利要求8所述的方法，其特征在于，所述基于每一节点对应的连接对象，对所述目标文本图像中的文本框进行排序，包括

基于所述目标文本图像中各文本框的坐标，确定所述目标文本图像中的初始文本框；

基于所述初始文本框对应的节点以及每一节点对应的连接对象，对所述目标文本图像中的文本框进行排序。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述视觉特征为视觉特征向量，所述文本特征为文本特征向量；

所述针对每一文本框，提取所述文本框对应的视觉特征和文本特征，包括：

基于所针对的目标文本框的坐标信息，提取所述坐标信息对应区域内的视觉信息，对所述视觉信息进行均值池化处理，得到所述目标文本框对应的视觉特征向量；

识别所针对的目标文本框中的文字，基于每一文字所对应的映射序号，确定所述目标文本框对应的映射序号序列，对所述映射序号序列进行特征嵌入处理，得到所述目标文本框对应的文本特征向量。

11.根据权利要求10所述的方法，其特征在于，所述基于每一文字所对应的映射序号，确定所述目标文本框对应的映射序号序列包括：

基于每一文字所对应的映射序号，确定目标文本框对应的初始映射序号序列；

当所述初始映射序号序列的序列长度小于目标序列长度时，基于预设序号对所述初始映射序号序列进行填充，得到目标文本框对应的映射序号序列；

其中，所述目标序列长度与包含文字最多的文本框中的文字数量相对应。

12.根据权利要求1至9中任一项所述的方法，其特征在于，所述空间位置特征包括每一文本框组合各自对应的位置特征，所述文本框组合由所述目标文本图像中的文本框两两组合得到；

所述方法还包括：

针对每一文本框组合，基于所针对的文本框组合中每一文本框的参考点坐标，确定所针对的文本框组合对应的第一位置特征，并基于所述文本框组合中每一文本框的宽高数据，确定所针对的文本框组合对应的第二位置特征；

将所述第一位置特征和所述第二位置特征进行特征拼接处理，得到所针对的文本框组合对应的位置特征。

13.根据权利要求12所述的方法，其特征在于，所述基于所针对的文本框组合中每一文本框的参考点坐标，确定所针对的文本框组合对应的第一位置特征，包括：

基于所针对的文本框组合中每一文本框的参考点坐标，确定参考点之间的水平距离和垂直距离；

将所述水平距离和所述垂直距离进行归一化处理和数据拼接，得到第一位置特征。

14.根据权利要求12所述的方法，其特征在于，所述基于所述文本框组合中每一文本框的宽高数据，确定所针对的文本框组合对应的第二位置特征，包括：

从所述文本框组合中各文本框的宽高数据选中目标数据，分别计算未选中的宽高数据与所述目标数据的比值结果；

将所述比值结果进行数据拼接，得到第二位置特征。

15.一种文本图像的文本框排序装置，其特征在于，所述装置包括：