CN116665228A - 图像处理方法及装置 - Google Patents
图像处理方法及装置 Download PDFInfo
- Publication number
- CN116665228A CN116665228A CN202310950391.2A CN202310950391A CN116665228A CN 116665228 A CN116665228 A CN 116665228A CN 202310950391 A CN202310950391 A CN 202310950391A CN 116665228 A CN116665228 A CN 116665228A
- Authority
- CN
- China
- Prior art keywords
- semantic entity
- information
- semantic
- connection
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 147
- 238000002156 mixing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 29
- 238000012217 deletion Methods 0.000 claims description 18
- 230000037430 deletion Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000012015 optical character recognition Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 102100036822 Ankyrin repeat and KH domain-containing protein 1 Human genes 0.000 description 1
- 102100034609 Ankyrin repeat domain-containing protein 17 Human genes 0.000 description 1
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 description 1
- 101000924481 Homo sapiens Ankyrin repeat domain-containing protein 17 Proteins 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Abstract
本申请提供图像处理方法及装置,其中所述图像处理方法包括:获取待处理图像,并根据待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;根据待处理图像、语义实体空间信息和语义实体分类信息,生成版面特征信息;根据版面特征信息、语义实体文本信息和语义实体空间信息,生成目标混合图像特征信息;将目标混合图像特征信息输入至图像处理模型,获取图像处理模型输出的图像处理结果。通过将待处理图像、根据待处理图像获得的版面特征信息以及待处理图像中的语义实体的文本和空间信息混合输入至模型中,增加了模型获取到的图像中各语义实体信息的丰富程度,从而提高了进行图像处理时的准确度。
Description
技术领域
本申请涉及计算机技术领域技术领域,特别涉及图像处理方法。本申请同时涉及图像处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着各行各业的数字化转型,涵盖表单、票据、邮件、合同、报告、论文等的电子文档数量持续增长。电子文档包含大量与行业相关的图像和文本信息,人工处理这些大量的信息耗时长、成本大。电子文档的自动识别、理解和分析技术对提高个人或企业的生产力十分重要,因此文档智能技术应运而生。文档智能利用计算机自动识别、理解及分析电子文档,大大提升了个人和企业处理电子文档的生产力,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。
但是在处理具有多层级关系文档的情况下,键(key)与值(value)两类语义实体,会叠加不同层级的属性,进而模型在判断时,需要遍历键实体和键实体组成的语义实体对(key – key)、键实体和值实体组成的语义实体对(key – value)、值实体和值实体组成的语义实体对(value -value)之间的关系,相比单层级场景,多层级场景所需要判断的关系正负样本比例相差很大,进而会导致使用图像处理模型处理具有多层关系的图像信息时的准确度下降。所以,本领域技术人员需要一种在处理具有多层关系电子文档的情况下准确度更高的图像处理方法。
发明内容
有鉴于此,本申请实施例提供了图像处理方法。本申请同时涉及图像处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的上述问题。
根据本申请实施例的第一方面,提供了一种图像处理方法,包括:
获取待处理图像,并根据所述待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;
根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;
根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息;
将所述目标混合图像特征信息输入至图像处理模型,获取所述图像处理模型输出的图像处理结果。
根据本申请实施例的第二方面,提供了一种图像处理装置,包括:
获取模块,被配置为获取待处理图像,并根据所述待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;
版面特征生成模块,被配置为根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;
特征混合模块,被配置为根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息;
图像处理模块,被配置为将所述目标混合图像特征信息输入至图像处理模型,获取所述图像处理模型输出的图像处理结果。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述图像处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述图像处理方法的步骤。
本申请提供的图像处理方法,获取待处理图像,并根据所述待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息;将所述目标混合图像特征信息输入至图像处理模型,获取所述图像处理模型输出的图像处理结果。
本申请一实施例实现了通过将待处理图像、根据待处理图像获得的版面特征信息以及待处理图像中的语义实体的文本和空间信息混合输入至模型中,增加了模型获取到的图像中各语义实体信息的丰富程度,从而提高了进行图像处理时的准确度。
附图说明
图1是本申请一实施例提供的一种图像处理方法的流程图;
图2是本申请一实施例提供的一种初始语义实体连接信息的示例图;
图3是本申请一实施例提供的一种由初始语义实体连接筛选目标语义实体连接过程的示例图;
图4是本申请一实施例提供的一种将待处理图像与目标语义实体连接结合过程的示例图;
图5是本申请一实施例提供的一种图像处理方法的示意图;
图6是本申请一实施例提供的一种应用于纸质表单信息抽取的图像处理方法的处理流程图;
图7是本申请一实施例提供的一种图像处理装置的结构示意图;
图8是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
光学字符识别技术(Optical Character Recognition,OCR):用于将从纸质文档、照片或屏幕捕获的文本转换为可编辑和可搜索的数据。
BERT(Bidirectional Encoder Representations from Transformers):是一种预训练的深度学习模型,用于自然语言处理(NLP)任务。
ResNeXt(Residual Networks with Next):是一种卷积神经网络(ConvolutionalNeural Network,CNN)模型,主要用于处理图像识别和相关的计算机视觉任务。
角度嵌入向量:角度嵌入向量是一种将角度信息转换为连续型向量的方法。例如,在处理图像或地理位置数据时,可能需要将角度信息(如物体的方向、两点之间的方位角等)转换为嵌入向量。这种嵌入向量可以捕捉到角度信息的连续性和周期性。
距离嵌入向量:距离嵌入向量是一种将距离信息转换为连续型向量的方法。例如,在处理图像或地理位置数据时,可能需要将距离信息(如物体的大小、两点之间的距离等)转换为嵌入向量。这种嵌入向量可以捕捉到距离信息的连续性和相对性。
投影嵌入向量:投影嵌入向量通常用于处理高维数据。它是一种将高维数据投影到低维空间的方法,以便于处理和分析。例如,在处理文本数据时,可能需要将高维的词向量投影到低维的嵌入向量。这种嵌入向量可以捕捉到词语之间的语义和语法关系。
在本申请中,提供了图像处理方法,本申请同时涉及图像处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种图像处理方法的流程图,具体包括以下步骤:
步骤102:获取待处理图像,并根据所述待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息。
实际应用中,可以通过服务端也可以通过客户端接收用户发送的图像处理任务。
具体的,待处理图像用于提取与语义实体相关的信息,语义实体空间信息用于确认各语义实和各连接在图像中的位置,语义实体文本信息用于提取语义实体的文本特征信息。
进一步的,从待处理图像中获取语义实体分类信息、语义实体空间信息和语义实体文本信息的方式为光学字符识别技术(Optical Character Recognition,OCR),可以理解为从图像中获取实体的技术。
需要说明的是,待处理图像可以理解为包含至少一个语义实体任意彩色图像或灰度的图像,例如纸质表单的扫描图、电子表单的截图等。语义实体分类信息用于确认各语义实体的所属类别,例如,语义实体“张三”所属类别为“姓名”、语义实体“5789”所述类别为“数字”等。语义实体空间信息可以理解为各语义实体在图像中所处的位置,例如存在一个语义实体“张三”在图像中所处的位置为左上角其在图像中的坐标为(23,565),则语义实体空间信息中包含语义实体“张三”的在图像中的坐标值。语义实体文本信息可以理解为包含各语义实体的文本信息,例如,语义实体“张三”的文本信息为“张三”、语义实体“5789” 的文本信息为“5789”等。
本申请中提供的一个实施方式中,获取到的待处理图像为纸质表单的扫描图像,使用OCR获取语义实体分类信息、语义实体空间信息和语义实体文本信息。
步骤104:根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息。
实际应用中,根据获取到的图像,以及从该图像中的语义实体空间信息和其对应的分类信息,生成该图像的版面特征信息。
具体的,版面特征信息是由待处理图像和图像中的语义实体空间信息和语义实体的分类信息获得的。
进一步的,版面特征信息可以理解为包含待处理图像特征和待处理图像中语义实体特征之间关系的信息,版面特征信息被用来与语义实体的文本信息和空间信息结合输入至图像处理模型中获得图像处理结果,版面特征信息将语义实体的特征信息与图像特征关联而得到更丰富的信息,从而使输入图像处理模型的信息更加丰富,进而可以使图像处理模型更精准,更进一步的可以使图像处理方法的精确度提高。
具体的,根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息,包括:
根据所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息;
根据所述待处理图像、所述目标语义实体连接信息和所述语义实体分类信息,生成版面特征信息。
实际应用中,目标语义实体连接信息是基于语义实体分类信息和语义实体空间信息获得的。根据目标语义实体连接信息和待处理图像以及语义实体分类信息,生成版面特征信息。
需要说明的是,目标语义实体连接信息可以理解为,待处理图像中各语义实体之间的关系,例如语义实体“张三”与语义实体“姓名”存在关联关系,语义实体“男”与语义实体“性别”也存在关联关系,语义实体“张三”与语义实体“男”也存在关联关系等,包含上述关系的数据结构被称为目标语义实体连接信息。
进一步的,目标语义实体连接信息体现在语义实体在图像中的位置关系,例如在列表中同一行或同一列的语义实体通常是认为是有关联的,在包含多个语义实体的图像中,语义实体距离越相近的语义实体也通常认为是有关联的等。
具体的,根据所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息,包括:
根据所述语义实体分类信息和所述语义实体空间信息,生成初始语义实体连接信息;
根据所述初始语义实体连接信息、所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息。
在实际应用中,初始语义实体连接信息由语义实体空间信息生成,基于初始语义实体连接信息、语义实体分类信息和语义实体空间信息生成目标语义实体连接信息。
进一步的,目标语义实体连接信息是基于初始语义实体连接信息生成的。
具体的,初始语义实体连接信息可以理解为进行初步连接的语义实体连接信息,与目标语义实体连接信息相比,由于目标语义实体连接信息对初始语义实体连接信息进行了更近一步的筛选,所以初始语义实体连接信息可以理解为对待处理图像中的语义实体进行初步的连接,初步提高了建立连接中正确连接的数量。
本申请中提供的一个实施方式中,基于语义实体空间信息所获得的初始语义实体连接包括“姓名-张三”“姓名-李四”“性别-男”“性别-女”“姓名-性别”“张三-李四”“男-女”“性别-姓名”“张三-男”“李四-女”上述连接,经过更一步的筛选后获得的目标语义实体连接包括“姓名-张三”“姓名-李四”“性别-男”“性别-女”“姓名-性别”“张三-男”“李四-女”。
通过对初始语义实体连接信息的进一步筛选,获得准确度更高的目标语义实体连接信息,进而使得输入图像处理模型的数据准确度更高,从而使得图像处理方法的准确度更高。
具体的,根据所述语义实体分类信息和所述语义实体空间信息,生成初始语义实体连接信息,包括:
根据所述语义实体空间信息,生成语义实体距离信息;
根据所述语义实体距离信息,生成初始语义实体连接信息。
在实际应用中,语义实体距离信息是基于语义实体空间信息生成的,语义实体距离用于生成初始语义实体连接信息。
具体的,语义实体距离信息是各语义实体在图像上的距离信息。
更近一步的,语义实体距离信息并不特指语义实体之间的物理距离,可以理解为语义实体之间逻辑上的距离,表明了两个语义实体之间的关联关系,例如在列表中同一行或同一列的语义实体通常是认为是有关联的,所以上述两个语义实体之间的距离信息为0;在包含多个语义实体的图像中,语义实体在物理上的距离越相近的语义实体也通常认为是有关联,所以上述的语义实体之间的距离信息就为两者之间的物理距离,等类似于上述示例的确定语义实体之间距离的方式,本申请对此不作限制。
进一步的,根据所述语义实体空间信息,生成语义实体距离信息,包括:
基于所述语义实体空间信息,获取各语义实体之间的目标位置信息;
根据各语义实体之间的目标位置信息和所述语义实体空间信息,生成各语义实体之间的语义实体距离信息。
在实际应用中,目标位置信息是基于语义实体空间信息获得的。
具体的,目标位置信息可以理解为语义实体在图像中的位置关系,例如在图像中处于同一列的语义实体位置关系为同一列,在图像中未处于同一列也未处于同一行的语义实体位置关系为非同一行或同一列。
进一步的,根据目标位置信息生成的语义实体距离信息,突出了处在同一行或同一列的语义实体,并根据位置情况设置语义实体距离信息,有效的避免了在图像上的距离过远的单元格无法建立连接进而导致的连接准确性下降的情况。
具体的,基于所述语义实体空间信息,获取各语义实体之间的目标位置信息,包括:
在各语义实体中确定第一语义实体和第二语义实体,基于所述语义实体空间信息,获取所述第一语义实体和所述第二语义实体之间的初始位置信息;
在所述初始位置信息小于等于初始位置阈值的情况下,将所述第一语义实体和第二语义实体的之间的目标位置信息设置为同一行或同一列;
在所述初始位置信息大于初始位置阈值的情况下,将所述第一语义实体和第二语义实体的之间的目标位置信息设置为非同一行或同一列。
在实际应用中,初始位置信息由第一语义实体和第二语义实体的语义实体空间信息获得的,初始位置信息用于确认第一语义实体和第二语义实体是否为同一行。
具体的,第一语义实体和第二语义实体是指两个不同的语义实体,并不特指某一类型的语义实体。
进一步的,基于两个不同的语义实体的空间信息得到的初始位置信息可以理解为,根据两个语义各自的空间信息,计算两者空间信息的差值,根据差值与预设阈值的比较两个语义实体之间的位置关系,具体如公式1所示:
……公式1
其中,abs为绝对值计算方式,和/>分别时第i个语义实体与第j个语义实体的中心点坐标。/>为判断两个语义实体是否在同一行(或者同一列)的阈值。
本申请中提供的一个实施方式中,图像中两个语义实体中心点的纵坐标差值小于等于预设0.3,则位置关系为同一列,本申请中提供的另一个实施方式中,图像中两个语义实体中心点的纵坐标差值和横坐标差值皆大于0.5,则位置关系为非同一行或同一列。
具体的,根据各语义实体之间的目标位置信息和所述语义实体空间信息,生成各语义实体之间的语义实体距离信息,包括:
在所述目标位置信息为同一行或同一列的情况下,将所述第一语义实体和所述第二语义实体之间的语义实体距离信息设置为0;
在所述目标位置信息为非同一行或同一列的情况下,基于所述语义实体空间信息获取所述语义实体之间的实际距离,将所述第一语义实体和所述第二语义实体之间的语义实体距离信息设置为所述实际距离。
在实际应用中,语义实体之间的实际距离是由两个不同的语义实体各自的空间信息获得的。
具体的,实际距离可以理解为两个不同的语义实体在图片中的中心坐标距离,通常可以使用欧式距离算法计算,也可以使用曼哈顿算法、切比雪夫算法等,本说明书在此不做限定。
进一步的,考虑到在列表中同一行或同一列的语义实体通常是认为是有关联的,另外在包含多个语义实体的图像中,还有语义实体距离越相近的语义实体也通常认为是有关联的;进而将同一行或同一列的语义实体之间的距离设置为0,将非同一行或同一列的语义实体之间的距离设置为其实际距离,有效的避免了在图像上的距离过远的单元格无法建立连接进而导致的连接准确性下降的情况。
本申请中提供的一个实施方式中,使用欧氏距离算法计算非同一行或同一列的语义实体之间的实际距离,具体如公式2所示:
……公式2
其中,为语义实体之间的距离计算方式,/>为第i个语义实体和第j个语义实体,/>为欧式距离计算方式。
进一步的,根据所述语义实体距离信息,生成初始语义实体连接信息,包括:
在各语义实体中确定第三语义实体和所述第三语义实体对应的至少一个第四语义实体;
在所述第三语义实体和各第四语义实体之间的各语义实体距离信息存在0的情况下,根据预设数量确定与所述第三语义实体之间的语义实体距离信息为0的各第四语义实体为待连接语义实体,将所述第三语义实体与各待连接语义实体连接生成第一语义实体连接信息;
在所述第三语义实体和各第四语义实体之间的各语义实体距离信息不存在0的情况下,将各第四语义实体与所述第三语义实体之间的语义实体距离信息排序获取排序信息,根据预设数量与所述排序信息确定小于初始连接阈值的各第四语义实体确定为待连接语义实体,将所述第三语义实体与各待连接语义实体连接生成第二语义实体连接信息;
根据各第一语义实体连接信息和各第二语义实体连接信息,生成初始语义实体连接信息。
在实际应用中,第一语义实体连接信息和第二语义实体连接信息都由语义实体和其中一个语义实体与其他语义实体之间的语义实体距离确定。
具体的,第一语义实体连接信息和第二语义实体连接信息可以统称为单个语义实体连接信息,是由单个作为连接信息发送方的语义实体与其他多个作为连接信息接收方的语义实体之间的距离信息生成的。第三语义实体可以理解为作为连接信息发送方的语义实体,第四语义实体可以理解为作为连接信息接收方的语义实体。
进一步的,由于语义实体距离信息为0则代表着第三语义实体和第四语义实体处在同一行或同一列,若第三语义实体存在有语义实体距离信息为0的第四语义实体,可以理解为处在同一行或同一列的语义实体相较于其他语义实体的关联性更强,则只连接预设数量个实体距离信息为0的第四语义实体,会使建立的真实连接个数更多。同样,若第三语义实体不存在处在同一行或同一列的第四语义实体,则可以理解为距离最近的语义实体相较于其他语义实体的关联性更强,则只连接预设数量个实体距离信息最小的第四语义实体,会保证建立的真实连接个数。后将由上述两个方法的大的单个语义实体连接信息结合为初始语义实体连接信息。
如图2所示,图2是本申请一实施例提供的一种初始语义实体连接信息的示例图,图中N31为首个发送连接信息的语义实体也就是第三语义实体,N32为第二个发送连接信息的语义实体也就是第三语义实体,N41为首个发送连接信息的语义实体所发送连接信息的接收方也就是第四语义实体,N42为首个发送连接信息的语义实体所发送连接信息的接收方也就是第四语义实体,D0和D1分别为首个发送连接信息的语义实体所发送的连接,D0-D1中存在有多个由N31至N41的连接,同理,由N32至N42的连接也有多个图中并没有标注,D2为使用原始建立连接的方式会建立的连接,但使用本申请中的方法并不会建立D2所指的连接。
如图2所示,图中由N31至N41的连接为第一语义实体连接信息,由N32至N42的连接为第二语义实体连接信息,包含上述由N31至N41的连接以及由N32至N42的连接为初始语义实体连接信息。
通过将同一行或同一列的语义实体之间的距离设置为0,将非同一行或同一列的语义实体之间的距离设置为其实际距离,根据距离建立语义实体之间的连接,有效的避免了在图像上的距离过远的单元格无法建立连接,以及通过在有距离为0连接的情况下仅保留距离为0的连接,在没有距离为0连接的情况下保留距离最短的连接,避免了关联不大的语义实体之间建立连接,进而导致的连接准确性下降的情况。
进一步的,根据所述初始语义实体连接信息、所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息,包括:
获取连接判断配置参数,其中,所述连接判断配置参数用于筛选同一行或同一列的语义实体之间连接;
根据所述初始语义实体连接信息、各第四语义实体和所述语义实体空间信息确认初始待删除语义实体连接;
在所述连接判断配置参数为筛选同一行或同一列的语义实体之间连接的情况下,将初始连接删除条件设置为距离长度为0或距离长度超过目标连接阈值,将满足所述初始连接删除条件的各初始待删除语义实体连接确认为目标待删除语义实体连接;
在所述连接判断配置参数为不筛选同一行或同一列的语义实体之间连接的情况下,将初始连接删除配置为距离长度超过目标连接阈值,将满足所述初始连接删除条件的各初始待删除语义实体连接确认为目标待删除语义实体连接;
将各目标待删除语义实体连接删除,获得目标语义实体连接信息。
在实际应用中,连接判断配置参数是由技术人员预设的参数,功能为决定初始连接删除条件的值;初始连接删除条件是用于筛选的作用为是否筛选同一行或同一列的语义实体之间连接的条件;初始待删除语义实体连接是根据初始语义实体连接信息中各语义实体连接的端点空间信息以及其他语义实体的空间信息确定的,是初始语义实体连接信息中经过另一个语义实体的连接;距离长度是语义实体之间连接的长度;目标待删除语义实体连接是根据初始待删除语义实体连接和距离长度以及连接判断配置参数决定的。
具体的,连接判断配置参数用于决定初始连接删除条件的值可以理解为一个决定是否判断同一行或同一列的语义实体之间连接参数,具有判断同一行或同一列或不判断同一行或同一列两种配置情况;初始待删除语义实体连接可以理解为经过初始判断确定的连接,该连接需要进行进一步判断来确认是否删除;距离长度可以理解为语义实体之间连接的长度,代表了语义实体之间的位置关系;目标待删除语义实体连接可以理解为已经确认要删除的语义实体之间的连接。
进一步的,在初始连接删除条件为筛选同一行或同一列的语义实体之间连接的情况下,检查语义实体在同一行或同一列的初始待删除语义实体连接,则当待删除语义实体连接的距离长度为0或距离长度超过阈值的情况下将其设置为目标待删除连接,并随后将目标待删除连接删除;在初始连接删除条件为不筛选同一行或同一列的语义实体之间连接的情况下,检查语义实体在同一行或同一列的初始待删除语义实体连接,则当待删除语义实体连接的距离长度超过阈值的情况下将其设置为目标待删除连接,并随后将目标待删除连接删除。
如图3所示,图3是本申请一实施例提供的一种由初始语义实体连接筛选目标语义实体连接过程的示例图,其中N3为第三语义实体,N4为第四语义实体,N5为第五语义实体,D1为第三语义实体到第四语义实体的语义实体连接,由于D1经过了第五语义实体N5所以其为初始删除语义实体连接,由于N3和N4并不是同一行或同一列的语义实体,所以判断D1的距离长度是否超过阈值,随后经由判断D1的长度大于预设的距离长度阈值,将连接D1设置为目标删除语义实体连接,随后将D1连接删除。
通过将经过其他语义实体且长度超过阈值的连接删除,考虑到经过其他语义实体且长度超过阈值的连接代表着连接的关联性不大,所以将其删除避免了关联不大的语义实体之间建立连接,进而导致的连接准确性下降的情况。
具体的,根据所述初始语义实体连接信息、各第四语义实体和所述语义实体空间信息确认初始待删除语义实体连接,包括:
将与各第四语义实体的语义实体分类信息不同的语义实体确认为第五语义实体;
根据所述初始语义实体连接信息、各第五语义实体和所述语义实体空间信息确认初始待删除语义实体连接。
在实际应用中,初始待删除语义实体连接是由第三语义实体发出,第四语义实体接受并经过第五语义实体的语义实体连接。第五语义实体是与第四语义实体类别不同的语义实体。
具体的,初始待删除连接可以理解为经过与断点类型不同的语义实体的连接,由于经过其他语义实体的且距离超过阈值连接代表着连接的关联性不大,所以设置初始待删除连接为初步判断关联性不大的语义实体连接。
如图3所示,由于语义实体N5的类别为“标题”与语义实体N4的类别“电话号码”不同,所以将由N3发出N4接受且经过N5的语义实体连接D1设置为待删除连接。
进一步的,根据所述初始语义实体连接信息、各第五语义实体和所述语义实体空间信息确认初始待删除语义实体连接,包括:
基于所述语义实体空间信息和所述初始语义实体连接信息,获取语义实体之间连接并获取各语义实体之间连接的端点信息;
根据各端点信息和各第五语义实体的语义实体空间信息判断各语义实体之间连接是否经过至少一个第五语义实体;
若是,则将经过至少一个第五语义实体的语义实体之间连接设置为初始待删除语义实体连接。
在实际应用中,语义实体之间连接的端点信息是由语义实体空间信息和初始语义实体连接信息获得的。
具体的,根据获得的语义实体连接端点信息以及第五语义实体的空间信息判断该连接是否经过第五语义实体可以理解为,将关联关系小的连接视为初始待删除连接以便于后续判断是否删除。
进一步的,根据获得的语义实体连接端点信息以及第五语义实体的空间信息判断该连接是否经过第五语义实体的方法与判断线段是否经过一个矩形的方法相同,例如判断线段与矩形边界的交点、线段与矩形的包围盒和线段与矩形的距离等。
本申请中提供的一个实施方式中,获取语义实体连接端点的空间信息,也就是第三语义实体和第四语义实体的中心点的坐标信息,并获取第五语义实体的空间信息,也就是第五语义实体识别框的左上点以及右下点的坐标信息,使用线段与矩形的包围盒的判断方法判断该连接是否经过第五语义实体,首先计算连接的包围盒,连接的包围盒是一个矩形,其左上角坐标是线段两个端点的横坐标和纵坐标的最小值,也就是第三语义实体与第四语义实体中心点横坐标和纵坐标的最小值,右下角坐标是线段两个端点的横坐标和纵坐标的最大值,也就是第三语义实体与第四语义实体中心点横坐标和纵坐标的最大值,随后检查连接的包围盒是否与矩形也就是第五语义实体有重叠,如果连接的包围盒的左上角坐标小于或等于第五语义实体的右下角坐标,且连接的包围盒的右下角坐标大于或等于第五语义实体的左上角坐标,那么连接的包围盒与第五语义实体有重叠,如果连接的包围盒与第五语义实体有重叠,那么可以获得连接经过第五语义实体。
具体的,根据所述待处理图像、所述目标语义实体连接信息和所述语义实体分类信息,生成版面特征信息,包括:
根据所述待处理图像和所述语义实体分类信息,生成图像特征信息;
根据所述图像特征信息和目标语义实体连接信息,生成版面特征信息。
在实际应用中,图像特征信息是基于待处理图像和语义实体分类信息获得的,版面特征信息是通过图像特征信息和目标语义实体连接信息获得的。
具体的,图像特征信息可以理解为待处理图像的特征信息,包含了整个待处理图像的特征,通常的表现形式为一个矩阵。
通过将基于样本图像获得的图像特征信息和目标语义实体分类信息结合生成版面特征信息,这些信息被综合在一起,形成了一个全面、深度的图像特征描述,将混合的信息输入至图像处理模型,进而可以提高图像处理模型处理图像时的准确度。
进一步的,根据所述待处理图像和所述语义实体分类信息,生成图像特征信息,包括:
根据各语义实体分类信息,生成各语义实体分类信息对应的掩码像素;
根据所述掩码像素和所述待处理图像,生成掩码图像;
将所述掩码图像输入至图像特征信息提取模型,获得所述图像特征信息提取模型输出的图像特征信息。
如图4所示,图4是本申请一实施例提供的一种将待处理图像与目标语义实体连接结合过程的示例图,将根据语义实体分类生成的掩码像素遮盖到原始图像402上生成掩码图像404,再将掩码图像404输入至特征提取模型生成图像特征,再将图像特征与目标语义实体连接信息中的语义实体连接生成版面特征信息406。
具体的,掩码像素是与各语义实体分类对应的遮罩图像,根据语义实体分类对应的不同的掩码像素,例如语义实体分类为“姓名”则对应的掩码像素为“MASK1”,语义实体分类为“电话号码”则对应的掩码像素为“MASK2”等。掩码图像是将图像上的各语义实体使用其对应的掩码像素进行遮盖处理之后的图像。
进一步的,将带有遮盖的掩码图像输入至图像特征提取模型,使模型从不完整的信息中进行预测,这进而可以了提高模型的泛化能力,使特征提取模型在提取特征时表现得更好。
具体的,根据所述图像特征信息和目标语义实体连接信息,生成版面特征信息,包括:
根据所述目标语义实体连接信息,获取具有连接信息的目标语义实体;
根据所述图像特征信息和各目标语义实体,生成版面特征信息。
在实际应用中,具有连接信息的目标语义实体是根据目标语义实体连接信息获取的。
具体的,具有连接信息的目标语义实体是目标语义实体连接信息中包含的语义实体,可以理解为具有连接信息的语义实体,例如待处理图片中经过上述步骤得到的目标语义实体连接信息中,语义实体“李四”没有连接信息,语义实体“张三”与语义实体“男”连接,则获取到的具有连接信息的目标语义实体为“张三”和“男”。
如图4所示,将图像特征信息与具有连接信息的目标语义实体连接生成版面特征信息406,可以理解为将图片的图像特征与语义实体所携带的连接信息相结合,使版面特征信息形成了一个全面、深度的图像特征描述。将这个深度特征描述输入到图像处理模型中,模型可以根据这些特征进行深度学习,最终输出图像处理结果。通过这样的处理方式,可以使图像处理模型更准确地理解图像的内容和结构,从而提高图像处理的精度和效率。
步骤106:根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息。
在实际应用中,目标混合图像特征信息是根据版面特征信息、语义实体文本信息和语义实体空间信息生成的。
具体的,目标混合图像特征信息可以理解为包含了各连接中:两个实体各自具有的图像特征信息、两个实体各自文本的特征信息、两个实体各自在图像中的位置特征信息、两个实体之间的关联特征信息、两个实体之间的位置关系特征信息,如本申请中提供的一个实施方式中语义实体之间连接为“姓名-张三”“姓名-李四”“性别-男”“性别-女”“姓名-性别”“张三-男”“李四-女”,处理之后的目标混合图像特征信息包括“姓名-张三”所拥有的两个“姓名”和“张三”各自具有的图像特征信息、“姓名”和“张三”各自文本的特征信息、“姓名”和“张三”各自在图像中的位置特征信息、“姓名”和“张三”之间的关联特征信息、“姓名”和“张三”之间的位置关系特征信息,“姓名-李四”所拥有的上述特征信息,“性别-男”所拥有的上述特征信息,“性别-女”所拥有的上述特征信息,“姓名-性别”所拥有的上述特征信息,“张三-男”所拥有的上述特征信息,“李四-女”所拥有的上述特征信息。
进一步的,根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息,包括:
根据所述语义实体文本信息,生成语义实体文本特征信息;
根据所述语义实体空间信息,生成语义实体空间特征信息;
根据所述版面特征信息、所述语义实体空间信息、所述语义实体文本特征信息和所述语义实体空间特征信息,生成目标混合图像特征信息。
在实际应用中,语义实体文本特征信息是由语义实体文本信息经过文本特征提取得到的,语义实体空间特征信息是由语义实体空间信息经过归一化处理之后得到的,将版面特征信息、语义实体文本特征信息和语义实体空间特征信息混合并结合语义实体空间信息生成目标混合图像特征信息。
如图5所示,图5是本申请一实施例提供的一种图像处理方法的示意图,根据输入的原始图像502生成掩码图像504,再将掩码图像504输入至图像特征信息提取模型506中获得图像特征508,之后根据原始图像502获得语义实体510,语义实体510中包含语义实体空间信息和语义实体文本信息,随后根语义实体空间信息和语义实体分类信息获取初始语义实体信息512,再根据初始语义实体信息512获取初始语义实体连接信息514,之后根据初始语义实体连接信息514获取目标语义实体连接信息516,再根据目标语义实体连接信息516和图像特征508生成版面特征信息518;另外将语义实体文本信息输入至文本特征信息提取模型520获得文本特征信息522,将语义实体空间信息输入至归一化模块524中处理之后获取空间特征信息526,随后将特征信息518、文本特征信息522和空间特征信息526输入至特征融合算子528中获取初始混合图像特征信息530。
具体的,语义实体文本特征信息可以理解为各语义实体在文本方向上的特征信息,文本提取模型可以是深度学习、机器学习等模型,本申请对此不做限制,语义实体空间特征信息可以理解为各语义实体在空间上的特征信息,对原始语义实体空间进行归一化处理的方式可以使用最小-最大归一化、标准化等方法,本申请对此不做限制。
本申请中提供的一个实施方式中,将语义实体的文本信息输入至BERT模型中获取语义实体文本特征信息,将语义实体空间信息进行标准化处理后获得语义实体空间特征信息,将版面特征信息、语义实体文本特征信息和语义实体空间特征信息混合并结合语义实体空间信息生成目标混合图像特征信息。
具体的,根据所述版面特征信息、所述语义实体空间信息、所述语义实体文本特征信息和所述语义实体空间特征信息,生成目标混合图像特征信息,包括:
将所述版面特征信息、所述语义实体文本特征信息和所述语义实体空间特征信息输入至特征融合算子,获取所述特征融合算子输出的初始混合图像特征信息;
根据所述初始混合图像特征信息和所述语义实体空间信息,生成语义实体空间关系特征信息,其中,所述语义实体空间关系特征信息包括角度嵌入向量、距离嵌入向量和投影嵌入向量中的至少一个;
根据所述初始混合图像特征信息和所述语义实体空间关系特征信息,生成所述目标混合图像特征信息。
在实际应用中,初始混合图像特征信息是由特征信息、语义实体文本特征信息和语义实体空间特征信息混合得到的,用于和语义实体空间信息结合生成目标混合图像特征信息。语义实体空间关系特征信息。特征融合算子是用来将特征信息、语义实体文本特征信息和语义实体空间特征信息进行融合的算子。语义实体空间关系特征信息是根据语义实体空间信息获得的某两个语义实体之间的空间关系特征。
具体的,初始混合图像特征信息可以理解为含了各连接中:两个实体各自具有的图像特征信息、两个实体各自文本的特征信息、两个实体各自在图像中的位置特征信息、两个实体之间的关联特征信息,如本申请中提供的一个实施方式中语义实体之间连接为“姓名-张三”“姓名-李四”“性别-男”“性别-女”“姓名-性别”“张三-男”“李四-女”,处理之后的初始混合图像特征信息包括 “姓名-张三”所拥有的两个“姓名”和“张三”各自具有的图像特征信息、“姓名”和“张三”各自文本的特征信息、“姓名”和“张三”各自在图像中的位置特征信息、“姓名”和“张三”之间的关联特征信息,“姓名-李四”所拥有的上述特征信息,“性别-男”所拥有的上述特征信息,“性别-女”所拥有的上述特征信息,“姓名-性别”所拥有的上述特征信息,“张三-男”所拥有的上述特征信息,“李四-女”所拥有的上述特征信息。
特征融合算子可以理解为,将获得到的语义实体各方向上的特征进行融合的算子,具体的融合方式可以使用统计方法、模型融合、特征嵌入和特征选择等方法进行融合,本申请对此不做限制。
语义实体空间关系特征信息可以理解为,两个不同语义实体之间的空间位置关系特征,例如两语义实体之间的角度嵌入向量、距离嵌入向量和投影嵌入向量等。
如图5所示,根据初始混合图像特征信息530和语义实体空间信息获得与初始混合特征信息530相应的角度嵌入向量532、距离嵌入向量534和投影嵌入向量536,随后将初始混合特征信息530和与初始混合特征信息530相应的角度嵌入向量532、距离嵌入向量534和投影嵌入向量536输入至图像处理模型538中获取图像处理结果540。
本申请中提供的一个实施方式中,将语义实体文本特征信息、语义实体空间特征信息和版面特征信息进行加法操作获得初始混合图像特征信息,根据初始混合图像特征信息中的语义实体连接获得各连接相对的角度嵌入向量、距离嵌入向量和投影嵌入向量,将各语义实体连接对应的初始混合图像特征信息与相对应的角度嵌入向量、距离嵌入向量和投影嵌入向量相加获得目标混合图像特征信息。
步骤108:将所述目标混合图像特征信息输入至图像处理模型,获取所述图像处理模型输出的图像处理结果。
在实际应用中,图像处理结果是将目标混合图像特征信息输入至图像处理模型获取到的,图像处理模型为将目标混合图像特征信息处理为图像处理结果的深度学习模型。
具体的,图像处理结果可以理解为基于待处理图片获得的含有关联性的可操作数据,可以根据技术人员的需求以相应的形式呈现,例如当技术人员需要以表格的形式浏览数据,将图像处理结果以电子表格的方式呈现,电子表格中包含各语义实体之间的关联关系;当技术人员需要以统计的形式浏览数据,将图像处理结果以统计图的方式呈现,统计图中包含各语义实体的关联关系统计情况等。
图像处理模型可以理解为处理待处理图像的深度学习模型,可以是任何具有处理图像以及输出图像处理结果能力的模型,例如,将目标混合图像特征输入4层Transformer核心中将最后一层输出的特征信息经过MLP和一个逻辑回归层输出预测图像处理结果。
进一步的,目标混合图像特征信息包含了丰富的图像信息,包括但不限于版面特征信息、语义实体文本特征信息和语义实体空间特征信息。这些信息被综合在一起,形成了一个全面、深度的图像特征描述。将这个深度特征描述输入到图像处理模型中,模型可以根据这些特征进行深度学习,最终输出图像处理结果。通过这样的处理方式,可以使图像处理模型更准确地理解图像的内容和结构,从而提高图像处理的精度和效率。
考虑到提高图像处理方法的准确性,需要提高图像处理模型的准确性,所以,上述图像处理模型通过下述步骤训练获得:
步骤S1082:获取样本图像和所述样本图像对应的样本图像处理结果,并根据所述样本图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息。
具体的,本申请提供的图像处理模型的训练方法使用的是有监督训练,其包括有训练样本图像和样本图像对应的样本图像处理结果,具体的,针对纸质表单扫描图像以及电子表单图像的多个训练样本图像即为训练样本,基于样本图像产生的含有关联性的可操作数据结果即为样本图像处理结果。
在本说明书提供的方法中,根据样本图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息与上述图像处理方法的获取方式相同。关于获取语义实体分类信息、语义实体空间信息和语义实体文本信息的获取方式,参见上获取方式,在此不在赘述。
步骤S1804:根据所述样本图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合样本图像特征信息;将所述目标混合样本图像特征信息输入至图像处理模型,获取所述图像处理模型输出的预测图像处理结果。
在获得了训练样本图像以及其对应的语义实体空间信息和语义实体分类信息之后,基于训练样本图像以及其对应的语义实体空间信息和语义实体分类信息获得目标混合样本图像特征,将目标混合样本图像特征输入至图像处理模型,此时的图像处理模型是还未训练好的图像处理模型,在图像处理模型中,根据各混合样本图像特征生成待处理图像对应的预测图像处理结果。
在本说明书提供的方法中,关于基于训练样本图像以及其对应的语义实体空间信息和语义实体分类信息获得目标混合图像特征信息的过程相同,关于如何根据训练样本图像以及其对应的语义实体空间信息和语义实体分类信息获取目标混合样本图像特征的数据处理过程,参见上述待处理图像在图像处理方法中的获取过程,在此不再赘述。
需要说明的是,在本申请提供的图像处理模型的训练方法中基于训练样本图像以及其对应的语义实体空间信息和语义实体分类信息获得的目标混合图像特征信息相较于普通的仅构建相近语义实体的连接,由于对连接进行了筛选,所以在模型训练时正确的连接数量更多,进而使得模型的训练效果更好,另外在本申请提供的图像处理模型的训练方法中还将样本图像本身的图像特征与得到的语义实体特征进行混合输入至图像处理模型中,形成了一个全面、深度的图像特征描述,使得该图像处理模型更准确地理解图像的内容和结构,从而更进一步的提高了模型的训练效果,进而使得图像处理方法在处理具有多层级关系的文档时有着更高的准确度。
步骤S1086:根据所述预测图像处理结果和所述样本图像处理结果计算模型损失值。
在获得了预测图像处理结果后,即可根据预测图像处理结果和样本处理结果计算模型损失值,在本说明书提供的方法中,计算模型损失值的方法有很多,例如交叉熵损失函数、最大损失函数、平均值损失函数等,在本申请中,对损失函数的具体方式不做限定,以实际应用为准。
步骤S1088:根据所述模型损失值调整所述图像处理模型的模型参数,并继续训练所述图像处理模型,直至达到模型训练停止条件。
在获得模型损失值后,即可根据模型损失值对图像处理模型的模型参数进行调整,具体的,可以是将所述模型损失值反向传播依次更新所述图像处理模型的模型参数。
在调整完模型参数后,即可继续重复上述的步骤,继续对图像处理模型进行训练,直至达到训练停止条件,在实际应用中,图像处理模型的所述训练停止条件,包括:
模型损失值小于预设阈值;和/或
训练轮次达到预设的训练轮次。
具体的,在对图像处理模型进行训练的过程中,可以将模型的训练停止条件设置为模型损失值小于预设阈值,也可以将训练停止条件设置为训练轮次为预设的训练轮次,例如训练10轮,在本申请中,对损失值的预设阈值和/或预设的训练轮次不做具体限定,以实际应用为准。
应用上述实施例的方案,通过判断语义实体在空间维度是否为同一行或同一列,再根据判断结果优先连接在同一行或同一列的语义实体建立初始语义实体连接信息,由于同一行或同一列的语义实体大多数是由关联关系的,所以相对于原始建立连接的方式来说优先连接了处在同一行或同一列的语义实体对提高了,在根据图像建立的连接信息中语义实体之间正确连接的数量。
随后在初始语义实体连接信息的基础上,删除了经过与被连接语义实体类别不同并且距离长度超过预设阈值或距离等于0的连接,生成目标语义实体连接信息,由于若两个实体之间存在有不同类别的实体,大多数情况下表示该语义实体对无关联关系,所以在初始语义实体连接信息的基础上进一步的提高了,在根据图像建立的连接信息中语义实体之间正确连接的数量。
最后将待处理图像进行特征提取后的特征信息与上述目标语义实体连接信息中的语义实体建立连接,获取待处理图像的版面特征信息,在目标语义连接信息的基础上连接了图像的特征信息,随后将版面特征信息,语义实体的文本特征信息和语义实体的空间特征信息进行混合,生成混合特征信息,丰富了各语义实体连接所包含的信息,再根据混合特征信息生成各连接中语义实体对的空间位置信息,随后将空间位置信息和混合特征信息共同输入至图像处理模型中,提高了输入至图像处理模型数据中包含的信息量,进而在上述实施例中在保证了输入至图像处理模型数据准确性的同时提升了该数据中所包含的信息量,进而实现了在进行图像处理任务时的准确度。
下述结合附图6,以本申请提供的图像处理方法在纸质表单抽取的应用为例,对所述图像处理方法进行进一步说明。其中,图6示出了本申请一实施例提供的一种应用于纸质表单抽取的图像处理方法的处理流程图,具体包括以下步骤:
步骤602:获取纸质表单的扫描图像,对获取到的图像进行OCR处理扫描到的图像,获得图像中各语义实体的坐标信息和各语义实体的分类信息。
步骤604:根据各语义实体坐标的中心点坐标获取其横坐标距离和纵坐标距离。
步骤606:判断横坐标距离和纵坐标距离是否超过设定阈值。
步骤608:将未超过设定阈值的语义实体对之间的距离设置为0。
步骤610:将超过设定阈值的语义实体对之间的距离设置为其中心点坐标之间的距离。
步骤612:判断当前语义实体与其他语义实体距离为0是否存在。
步骤614:若当前语义实体不存在与其他语义实体距离为0的情况下,将该语义实体与其他语义实体的距离从小到大排序,将排序结果前80个的语义实体连接组成第二语义实体连接信息。
步骤616:若当前语义实体存在与其他语义实体距离为0的情况下,将该语义实体与80个距离为0的语义实体连接组成第一语义实体连接信息。
步骤618:遍历所有的实体,将各第一语义实体连接信息和各第二语义实体连接信息拼接生成初始语义实体连接信息。
步骤620:将连接发出点设置为第一语义实体,将连接接收点视为第二语义实体,将与第二语义实体类别不同的语义实体视为第三语义实体。
步骤622:遍历所有连接,将经过至少一个第三语义实体的连接视为待删除连接。
步骤624:遍历所待删除有连接,将长度超过0.2或长度等于0的待删除连接删除。
步骤626:将待处理图像中不同语义类别的语义实体用不同的掩码像素覆盖得到掩码图像,将掩码图像输入至图像特征提取模型ResNeXt中获得图像特征信息。
步骤628:将图像特征信息与目标语义实体连接信息中的语义实体连接获得版面特征信息。
步骤630:根据待处理图像中的语义实体文本信息和语义实体空间信息,获得语义实体文本特征信息和语义实体空间特征信息。
步骤632:将版面特征信息、语义实体文本特征信息和语义实体空间特征信息输入至图算子中,经过特征融合之后获得初始混合图像特征信息。
步骤634:根据初始混合图像特征信息中的各语义实体对和语义实体的空间信息获得各语义实体对的角度嵌入向量、距离嵌入向量和投影嵌入向量。
步骤636:将各语义实体对的角度嵌入向量、距离嵌入向量、投影嵌入向量和图算子得出的初始混合图像特征信息相加获得目标混合图像信息。
步骤638:将目标混合图像信息输入至具有5层Transformer层的编码层,再将编码层输出特征信息输入至MLP和逻辑层中获得图像处理结果。
应用上述实施例的方案,通过判断语义实体在空间维度是否为同一行或同一列,再根据判断结果优先连接在同一行或同一列的语义实体建立初始语义实体连接信息,由于同一行或同一列的语义实体大多数是由关联关系的,所以相对于原始建立连接的方式来说优先连接了处在同一行或同一列的语义实体对提高了,在根据图像建立的连接信息中语义实体之间正确连接的数量。
随后在初始语义实体连接信息的基础上,删除了经过与被连接语义实体类别不同并且距离长度超过预设阈值或距离等于0的连接,生成目标语义实体连接信息,由于若两个实体之间存在有不同类别的实体,大多数情况下表示该语义实体对无关联关系,所以在初始语义实体连接信息的基础上进一步的提高了,在根据图像建立的连接信息中语义实体之间正确连接的数量。
最后将待处理图像进行特征提取后的特征信息与上述目标语义实体连接信息中的语义实体建立连接,获取待处理图像的版面特征信息,在目标语义连接信息的基础上连接了图像的特征信息,随后将版面特征信息,语义实体的文本特征信息和语义实体的空间特征信息进行混合,生成混合特征信息,丰富了各语义实体连接所包含的信息,再根据混合特征信息生成各连接中语义实体对的空间位置信息,随后将空间位置信息和混合特征信息共同输入至图像处理模型中,提高了输入至图像处理模型数据中包含的信息量,进而在上述实施例中在保证了输入至图像处理模型数据准确性的同时提升了该数据中所包含的信息量,进而实现了在进行图像处理任务时的准确度。
与上述方法实施例相对应,本申请还提供了图像处理装置实施例,图7示出了本申请一实施例提供的一种图像处理装置的结构示意图。如图7所示,该装置包括:
获取模块702,被配置为获取待处理图像,并根据所述待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;
版面特征生成模块704,被配置为根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;
特征混合模块706,被配置为根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息;
图像处理模块708,被配置为将所述目标混合图像特征信息输入至图像处理模型,获取所述图像处理模型输出的图像处理结果。
所述版面特征生成模块704,进一步被配置为:
根据所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息;
根据所述待处理图像、所述目标语义实体连接信息和所述语义实体分类信息,生成版面特征信息。
所述版面特征生成模块704,进一步被配置为:
根据所述语义实体分类信息和所述语义实体空间信息,生成初始语义实体连接信息;
根据所述初始语义实体连接信息、所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息。
所述版面特征生成模块704,进一步被配置为:
根据所述语义实体空间信息,生成语义实体距离信息;
根据所述语义实体距离信息,生成初始语义实体连接信息。
所述版面特征生成模块704,进一步被配置为:
基于所述语义实体空间信息,获取各语义实体之间的目标位置信息;
根据各语义实体之间的目标位置信息和所述语义实体空间信息,生成各语义实体之间的语义实体距离信息。
所述版面特征生成模块704,进一步被配置为:
在各语义实体中确定第一语义实体和第二语义实体,基于所述语义实体空间信息,获取所述第一语义实体和所述第二语义实体之间的初始位置信息;
在所述初始位置信息小于等于初始位置阈值的情况下,将所述第一语义实体和第二语义实体的之间的目标位置信息设置为同一行或同一列;
在所述初始位置信息大于初始位置阈值的情况下,将所述第一语义实体和第二语义实体的之间的目标位置信息设置为非同一行或同一列。
所述版面特征生成模块704,进一步被配置为:
在所述目标位置信息为同一行或同一列的情况下,将所述第一语义实体和所述第二语义实体之间的语义实体距离信息设置为0;
在所述目标位置信息为非同一行或同一列的情况下,基于所述语义实体空间信息获取所述语义实体之间的实际距离,将所述第一语义实体和所述第二语义实体之间的语义实体距离信息设置为所述实际距离。
所述版面特征生成模块704,进一步被配置为:
在各语义实体中确定第三语义实体和所述第三语义实体对应的至少一个第四语义实体;
在所述第三语义实体和各第四语义实体之间的各语义实体距离信息存在0的情况下,根据预设数量确定与所述第三语义实体之间的语义实体距离信息为0的各第四语义实体为待连接语义实体,将所述第三语义实体与各待连接语义实体连接生成第一语义实体连接信息;
在所述第三语义实体和各第四语义实体之间的各语义实体距离信息不存在0的情况下,将各第四语义实体与所述第三语义实体之间的语义实体距离信息排序获取排序信息,根据预设数量与所述排序信息确定小于初始连接阈值的各第四语义实体确定为待连接语义实体,将所述第三语义实体与各待连接语义实体连接生成第二语义实体连接信息;
根据各第一语义实体连接信息和各第二语义实体连接信息,生成初始语义实体连接信息。
所述版面特征生成模块704,进一步被配置为:
获取连接判断配置参数,其中,所述连接判断配置参数用于筛选同一行或同一列的语义实体之间连接;
根据所述初始语义实体连接信息、各第四语义实体和所述语义实体空间信息确认初始待删除语义实体连接;
在所述连接判断配置参数为筛选同一行或同一列的语义实体之间连接的情况下,将初始连接删除条件设置为距离长度为0或距离长度超过目标连接阈值,将满足所述初始连接删除条件的各初始待删除语义实体连接确认为目标待删除语义实体连接;
在所述连接判断配置参数为不筛选同一行或同一列的语义实体之间连接的情况下,将初始连接删除配置为距离长度超过目标连接阈值,将满足所述初始连接删除条件的各初始待删除语义实体连接确认为目标待删除语义实体连接;
将各目标待删除语义实体连接删除,获得目标语义实体连接信息。
所述版面特征生成模块704,进一步被配置为:
将与各第四语义实体的语义实体分类信息不同的语义实体确认为第五语义实体;
根据所述初始语义实体连接信息、各第五语义实体和所述语义实体空间信息确认初始待删除语义实体连接。
所述版面特征生成模块704,进一步被配置为:
基于所述语义实体空间信息和所述初始语义实体连接信息,获取语义实体之间连接并获取各语义实体之间连接的端点信息;
根据各端点信息和各第五语义实体的语义实体空间信息判断各语义实体之间连接是否经过至少一个第五语义实体;
若是,则将经过至少一个第五语义实体的语义实体之间连接设置为初始待删除语义实体连接。
所述版面特征生成模块704,进一步被配置为:
根据所述待处理图像和所述语义实体分类信息,生成图像特征信息;
根据所述图像特征信息和目标语义实体连接信息,生成版面特征信息。
所述版面特征生成模块704,进一步被配置为:
根据各语义实体分类信息,生成各语义实体分类信息对应的掩码像素;
根据所述掩码像素和所述待处理图像,生成掩码图像;
将所述掩码图像输入至图像特征信息提取模型,获得所述图像特征信息提取模型输出的图像特征信息。
所述版面特征生成模块704,进一步被配置为:
根据所述目标语义实体连接信息,获取具有连接信息的目标语义实体;
根据所述图像特征信息和各目标语义实体,生成版面特征信息。
所述特征混合模块706,进一步被配置为:
根据所述语义实体文本信息,生成语义实体文本特征信息;
根据所述语义实体空间信息,生成语义实体空间特征信息;
根据所述版面特征信息、所述语义实体空间信息、所述语义实体文本特征信息和所述语义实体空间特征信息,生成目标混合图像特征信息。
所述特征混合模块706,进一步被配置为:
将所述版面特征信息、所述语义实体文本特征信息和所述语义实体空间特征信息输入至特征融合算子,获取所述特征融合算子输出的初始混合图像特征信息;
根据所述初始混合图像特征信息和所述语义实体空间信息,生成语义实体空间关系特征信息,其中,所述语义实体空间关系特征信息包括角度嵌入向量、距离嵌入向量和投影嵌入向量中的至少一个;
根据所述初始混合图像特征信息和所述语义实体空间关系特征信息,生成所述目标混合图像特征信息。
可选的,所述图像处理方法还包括:
模型训练模块,被配置为:
获取样本图像和所述样本图像对应的样本图像处理结果,并根据所述样本图像获取语义实体分类信息,语义实体空间信息和语义实体文本信息;
根据所述样本图像,所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;
根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成混合样本图像特征信息;
将所述混合样本图像特征信息输入至图像处理模型,获取所述图像处理模型输出的预测图像处理结果;
根据所述预测图像处理结果和所述样本图像处理结果计算模型损失值;
根据所述模型损失值调整所述图像处理模型的模型参数,并继续训练所述图像处理模型,直至达到模型训练停止条件。
上述为本实施例的一种图像处理装置的示意性方案。需要说明的是,该图像处理装置的技术方案与上述的图像处理方法的技术方案属于同一构思,图像处理装置的技术方案未详细描述的细节内容,均可以参见上述图像处理方法的技术方案的描述。
图8示出了根据本申请一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)接口,等等。
在本申请的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820执行所述计算机指令时实现所述的图像处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述图像处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地域,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (20)
1.一种图像处理方法,其特征在于,包括:
获取待处理图像,并根据所述待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;
根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;
根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息;
将所述目标混合图像特征信息输入至图像处理模型,获取所述图像处理模型输出的图像处理结果。
2.如权利要求1所述的方法,其特征在于,根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息,包括:
根据所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息;
根据所述待处理图像、所述目标语义实体连接信息和所述语义实体分类信息,生成版面特征信息。
3.如权利要求2所述的方法,其特征在于,根据所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息,包括:
根据所述语义实体分类信息和所述语义实体空间信息,生成初始语义实体连接信息;
根据所述初始语义实体连接信息、所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息。
4.如权利要求3所述的方法,其特征在于,根据所述语义实体分类信息和所述语义实体空间信息,生成初始语义实体连接信息,包括:
根据所述语义实体空间信息,生成语义实体距离信息;
根据所述语义实体距离信息,生成初始语义实体连接信息。
5.如权利要求4所述的方法,其特征在于,根据所述语义实体空间信息,生成语义实体距离信息,包括:
基于所述语义实体空间信息,获取各语义实体之间的目标位置信息;
根据各语义实体之间的目标位置信息和所述语义实体空间信息,生成各语义实体之间的语义实体距离信息。
6.如权利要求5所述的方法,其特征在于,基于所述语义实体空间信息,获取各语义实体之间的目标位置信息,包括:
在各语义实体中确定第一语义实体和第二语义实体,基于所述语义实体空间信息,获取所述第一语义实体和所述第二语义实体之间的初始位置信息;
在所述初始位置信息小于等于初始位置阈值的情况下,将所述第一语义实体和第二语义实体的之间的目标位置信息设置为同一行或同一列;
在所述初始位置信息大于初始位置阈值的情况下,将所述第一语义实体和第二语义实体的之间的目标位置信息设置为非同一行或同一列。
7.如权利要求6所述的方法,其特征在于,根据各语义实体之间的目标位置信息和所述语义实体空间信息,生成各语义实体之间的语义实体距离信息,包括:
在所述目标位置信息为同一行或同一列的情况下,将所述第一语义实体和所述第二语义实体之间的语义实体距离信息设置为0;
在所述目标位置信息为非同一行或同一列的情况下,基于所述语义实体空间信息获取所述语义实体之间的实际距离,将所述第一语义实体和所述第二语义实体之间的语义实体距离信息设置为所述实际距离。
8.如权利要求4所述的方法,其特征在于,根据所述语义实体距离信息,生成初始语义实体连接信息,包括:
在各语义实体中确定第三语义实体和所述第三语义实体对应的至少一个第四语义实体;
在所述第三语义实体和各第四语义实体之间的各语义实体距离信息存在0的情况下,根据预设数量确定与所述第三语义实体之间的语义实体距离信息为0的各第四语义实体为待连接语义实体,将所述第三语义实体与各待连接语义实体连接生成第一语义实体连接信息;
在所述第三语义实体和各第四语义实体之间的各语义实体距离信息不存在0的情况下,将各第四语义实体与所述第三语义实体之间的语义实体距离信息排序获取排序信息,根据预设数量与所述排序信息确定小于初始连接阈值的各第四语义实体确定为待连接语义实体,将所述第三语义实体与各待连接语义实体连接生成第二语义实体连接信息;
根据各第一语义实体连接信息和各第二语义实体连接信息,生成初始语义实体连接信息。
9.如权利要求8所述的方法,其特征在于,根据所述初始语义实体连接信息、所述语义实体分类信息和所述语义实体空间信息,生成目标语义实体连接信息,包括:
获取连接判断配置参数,其中,所述连接判断配置参数用于筛选同一行或同一列的语义实体之间连接;
根据所述初始语义实体连接信息、各第四语义实体和所述语义实体空间信息确认初始待删除语义实体连接;
在所述连接判断配置参数为筛选同一行或同一列的语义实体之间连接的情况下,将初始连接删除条件设置为距离长度为0或距离长度超过目标连接阈值,将满足所述初始连接删除条件的各初始待删除语义实体连接确认为目标待删除语义实体连接;
在所述连接判断配置参数为不筛选同一行或同一列的语义实体之间连接的情况下,将初始连接删除配置为距离长度超过目标连接阈值,将满足所述初始连接删除条件的各初始待删除语义实体连接确认为目标待删除语义实体连接;
将各目标待删除语义实体连接删除,获得目标语义实体连接信息。
10.如权利要求9所述的方法,其特征在于,根据所述初始语义实体连接信息、各第四语义实体和所述语义实体空间信息确认初始待删除语义实体连接,包括:
将与各第四语义实体的语义实体分类信息不同的语义实体确认为第五语义实体;
根据所述初始语义实体连接信息、各第五语义实体和所述语义实体空间信息确认初始待删除语义实体连接。
11.如权利要求10所述的方法,其特征在于,根据所述初始语义实体连接信息、各第五语义实体和所述语义实体空间信息确认初始待删除语义实体连接,包括:
基于所述语义实体空间信息和所述初始语义实体连接信息,获取语义实体之间连接并获取各语义实体之间连接的端点信息;
根据各端点信息和各第五语义实体的语义实体空间信息判断各语义实体之间连接是否经过至少一个第五语义实体;
若是,则将经过至少一个第五语义实体的语义实体之间连接设置为初始待删除语义实体连接。
12.如权利要求2所述的方法,其特征在于,根据所述待处理图像、所述目标语义实体连接信息和所述语义实体分类信息,生成版面特征信息,包括:
根据所述待处理图像和所述语义实体分类信息,生成图像特征信息;
根据所述图像特征信息和目标语义实体连接信息,生成版面特征信息。
13.如权利要求12所述的方法,其特征在于,根据所述待处理图像和所述语义实体分类信息,生成图像特征信息,包括:
根据各语义实体分类信息,生成各语义实体分类信息对应的掩码像素;
根据所述掩码像素和所述待处理图像,生成掩码图像;
将所述掩码图像输入至图像特征信息提取模型,获得所述图像特征信息提取模型输出的图像特征信息。
14.如权利要求13所述的方法,其特征在于,根据所述图像特征信息和目标语义实体连接信息,生成版面特征信息,包括:
根据所述目标语义实体连接信息,获取具有连接信息的目标语义实体;
根据所述图像特征信息和各目标语义实体,生成版面特征信息。
15.如权利要求1所述的方法,其特征在于,根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息,包括:
根据所述语义实体文本信息,生成语义实体文本特征信息;
根据所述语义实体空间信息,生成语义实体空间特征信息;
根据所述版面特征信息、所述语义实体空间信息、所述语义实体文本特征信息和所述语义实体空间特征信息,生成目标混合图像特征信息。
16.如权利要求15所述的方法,其特征在于,根据所述版面特征信息、所述语义实体空间信息、所述语义实体文本特征信息和所述语义实体空间特征信息,生成目标混合图像特征信息,包括:
将所述版面特征信息、所述语义实体文本特征信息和所述语义实体空间特征信息输入至特征融合算子,获取所述特征融合算子输出的初始混合图像特征信息;
根据所述初始混合图像特征信息和所述语义实体空间信息,生成语义实体空间关系特征信息,其中,所述语义实体空间关系特征信息包括角度嵌入向量、距离嵌入向量和投影嵌入向量中的至少一个;
根据所述初始混合图像特征信息和所述语义实体空间关系特征信息,生成所述目标混合图像特征信息。
17.如权利要求1所述的方法,其特征在于,所述图像处理模型通过下述步骤训练获得:
获取样本图像和所述样本图像对应的样本图像处理结果,并根据所述样本图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;
根据所述样本图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;
根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成混合样本图像特征信息;
将所述混合样本图像特征信息输入至图像处理模型,获取所述图像处理模型输出的预测图像处理结果;
根据所述预测图像处理结果和所述样本图像处理结果计算模型损失值;
根据所述模型损失值调整所述图像处理模型的模型参数,并继续训练所述图像处理模型,直至达到模型训练停止条件。
18.一种图像处理装置,其特征在于,包括:
获取模块,被配置为获取待处理图像,并根据所述待处理图像获取语义实体分类信息、语义实体空间信息和语义实体文本信息;
版面特征生成模块,被配置为根据所述待处理图像、所述语义实体空间信息和所述语义实体分类信息,生成版面特征信息;
特征混合模块,被配置为根据所述版面特征信息、所述语义实体文本信息和所述语义实体空间信息,生成目标混合图像特征信息;
图像处理模块,被配置为将所述目标混合图像特征信息输入至图像处理模型,获取所述图像处理模型输出的图像处理结果。
19.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-17任意一项所述方法的步骤。
20.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-17任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310950391.2A CN116665228B (zh) | 2023-07-31 | 2023-07-31 | 图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310950391.2A CN116665228B (zh) | 2023-07-31 | 2023-07-31 | 图像处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665228A true CN116665228A (zh) | 2023-08-29 |
CN116665228B CN116665228B (zh) | 2023-10-13 |
Family
ID=87717534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310950391.2A Active CN116665228B (zh) | 2023-07-31 | 2023-07-31 | 图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665228B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
Citations (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035992A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 利用图像处理技术及语义向量空间的文本语义处理方法和系统 |
US20150154232A1 (en) * | 2012-01-17 | 2015-06-04 | Google Inc. | System and method for associating images with semantic entities |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN111213155A (zh) * | 2019-02-15 | 2020-05-29 | 深圳市大疆创新科技有限公司 | 图像处理方法、设备、可移动平台、无人机及存储介质 |
CN111539412A (zh) * | 2020-04-21 | 2020-08-14 | 上海云从企业发展有限公司 | 一种基于ocr的图像分析方法、系统、设备及介质 |
CN111914654A (zh) * | 2020-07-03 | 2020-11-10 | 苏州开心盒子软件有限公司 | 一种文本版面分析方法、装置、设备和介质 |
CN112232149A (zh) * | 2020-09-28 | 2021-01-15 | 北京易道博识科技有限公司 | 一种文档多模信息和关系提取方法及系统 |
CN112329471A (zh) * | 2021-01-06 | 2021-02-05 | 科大讯飞(苏州)科技有限公司 | 基于配图的命名实体识别方法、装置以及设备 |
CN113361247A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN113378580A (zh) * | 2021-06-23 | 2021-09-10 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN113722490A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
US20210391080A1 (en) * | 2018-12-29 | 2021-12-16 | New H3C Big Data Technologies Co., Ltd. | Entity Semantic Relation Classification |
US20220027611A1 (en) * | 2021-03-03 | 2022-01-27 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image classification method, electronic device and storage medium |
CN114005123A (zh) * | 2021-10-11 | 2022-02-01 | 北京大学 | 一种印刷体文本版面数字化重建系统及方法 |
CN114022891A (zh) * | 2021-09-10 | 2022-02-08 | 润联软件系统(深圳)有限公司 | 扫描文本的关键信息提取方法、装置、设备及存储介质 |
CN114429566A (zh) * | 2022-01-20 | 2022-05-03 | 北京沃东天骏信息技术有限公司 | 一种图像语义理解方法、装置、设备及存储介质 |
CN114637846A (zh) * | 2022-03-11 | 2022-06-17 | 游密科技(深圳)有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN114694158A (zh) * | 2022-03-30 | 2022-07-01 | 上海弘玑信息技术有限公司 | 票据的结构化信息的提取方法及电子设备 |
CN114818710A (zh) * | 2022-04-25 | 2022-07-29 | 中国平安人寿保险股份有限公司 | 表格信息提取方法、装置、设备及介质 |
WO2022198854A1 (zh) * | 2021-03-24 | 2022-09-29 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
CN115131801A (zh) * | 2022-04-13 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 基于多模态的文档识别方法、装置、设备和存储介质 |
CN115221888A (zh) * | 2021-04-15 | 2022-10-21 | 北京三快在线科技有限公司 | 实体提及的识别方法、装置、设备及存储介质 |
US20220406034A1 (en) * | 2021-08-30 | 2022-12-22 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for extracting information, electronic device and storage medium |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
CN116092100A (zh) * | 2023-01-17 | 2023-05-09 | 恒生电子股份有限公司 | 文本内容提取方法及装置 |
CN116108858A (zh) * | 2023-02-20 | 2023-05-12 | 支付宝实验室(新加坡)有限公司 | 文本处理方法以及装置 |
-
2023
- 2023-07-31 CN CN202310950391.2A patent/CN116665228B/zh active Active
Patent Citations (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154232A1 (en) * | 2012-01-17 | 2015-06-04 | Google Inc. | System and method for associating images with semantic entities |
CN104035992A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 利用图像处理技术及语义向量空间的文本语义处理方法和系统 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
US20210391080A1 (en) * | 2018-12-29 | 2021-12-16 | New H3C Big Data Technologies Co., Ltd. | Entity Semantic Relation Classification |
CN111213155A (zh) * | 2019-02-15 | 2020-05-29 | 深圳市大疆创新科技有限公司 | 图像处理方法、设备、可移动平台、无人机及存储介质 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN111539412A (zh) * | 2020-04-21 | 2020-08-14 | 上海云从企业发展有限公司 | 一种基于ocr的图像分析方法、系统、设备及介质 |
CN111914654A (zh) * | 2020-07-03 | 2020-11-10 | 苏州开心盒子软件有限公司 | 一种文本版面分析方法、装置、设备和介质 |
CN112232149A (zh) * | 2020-09-28 | 2021-01-15 | 北京易道博识科技有限公司 | 一种文档多模信息和关系提取方法及系统 |
CN112329471A (zh) * | 2021-01-06 | 2021-02-05 | 科大讯飞(苏州)科技有限公司 | 基于配图的命名实体识别方法、装置以及设备 |
US20220027611A1 (en) * | 2021-03-03 | 2022-01-27 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image classification method, electronic device and storage medium |
WO2022198854A1 (zh) * | 2021-03-24 | 2022-09-29 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
CN115221888A (zh) * | 2021-04-15 | 2022-10-21 | 北京三快在线科技有限公司 | 实体提及的识别方法、装置、设备及存储介质 |
CN113378580A (zh) * | 2021-06-23 | 2021-09-10 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
CN113361247A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 文档版面分析方法、模型训练方法、装置和设备 |
US20220406034A1 (en) * | 2021-08-30 | 2022-12-22 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for extracting information, electronic device and storage medium |
CN113722490A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN114022891A (zh) * | 2021-09-10 | 2022-02-08 | 润联软件系统(深圳)有限公司 | 扫描文本的关键信息提取方法、装置、设备及存储介质 |
CN114005123A (zh) * | 2021-10-11 | 2022-02-01 | 北京大学 | 一种印刷体文本版面数字化重建系统及方法 |
CN114429566A (zh) * | 2022-01-20 | 2022-05-03 | 北京沃东天骏信息技术有限公司 | 一种图像语义理解方法、装置、设备及存储介质 |
CN114637846A (zh) * | 2022-03-11 | 2022-06-17 | 游密科技(深圳)有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN114694158A (zh) * | 2022-03-30 | 2022-07-01 | 上海弘玑信息技术有限公司 | 票据的结构化信息的提取方法及电子设备 |
CN115131801A (zh) * | 2022-04-13 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 基于多模态的文档识别方法、装置、设备和存储介质 |
CN114818710A (zh) * | 2022-04-25 | 2022-07-29 | 中国平安人寿保险股份有限公司 | 表格信息提取方法、装置、设备及介质 |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
CN116092100A (zh) * | 2023-01-17 | 2023-05-09 | 恒生电子股份有限公司 | 文本内容提取方法及装置 |
CN116108858A (zh) * | 2023-02-20 | 2023-05-12 | 支付宝实验室(新加坡)有限公司 | 文本处理方法以及装置 |
Non-Patent Citations (3)
Title |
---|
DEYU ZHOU等: "Image generation from text with entity information fusion", 《KNOWLEDGE-BASED SYSTEMS》, pages 1 - 10 * |
孙皓月: "基于深度学习的文档版面分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2023, no. 2, pages 138 - 1737 * |
高蕾: "基于中文短文本的命名实体识别和实体链接方法研究", 《万方》, pages 1 - 63 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
CN117496542B (zh) * | 2023-12-29 | 2024-03-15 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116665228B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6994588B2 (ja) | 顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 | |
US20200250464A1 (en) | System, device, and method for image anomaly detection | |
US20230401828A1 (en) | Method for training image recognition model, electronic device and storage medium | |
CN110569341B (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
CN102365645A (zh) | 通过关联面部来组织数字图像 | |
CN116665228B (zh) | 图像处理方法及装置 | |
CN112396055B (zh) | 文本提取方法、装置、电子设备及存储介质 | |
CN113742483A (zh) | 文档分类的方法、装置、电子设备和存储介质 | |
CN112801132B (zh) | 一种图像处理方法和装置 | |
CN111222433B (zh) | 自动人脸稽核方法、系统、设备及可读存储介质 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN114329034A (zh) | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 | |
CN114091472B (zh) | 多标签分类模型的训练方法 | |
CN114724156A (zh) | 表单识别方法、装置及电子设备 | |
CN114283416A (zh) | 车险理赔图片的处理方法和装置 | |
CN108052918A (zh) | 一种笔迹比对系统及方法 | |
CN111898544B (zh) | 文字图像匹配方法、装置和设备及计算机存储介质 | |
CN116246287B (zh) | 目标对象识别方法、训练方法、装置以及存储介质 | |
CN115880506B (zh) | 图像生成方法、模型的训练方法、装置及电子设备 | |
CN111507850A (zh) | 核保方法及相关装置、设备 | |
CN115909357A (zh) | 基于人工智能的目标识别方法、模型训练方法和装置 | |
CN114399497A (zh) | 文本图像质量检测方法、装置、计算机设备及存储介质 | |
CN112906798A (zh) | 图像匹配方法、装置及计算机存储介质 | |
CN111798376A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111291259A (zh) | 一种数据筛选方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |