CN115205877A - 一种不规则排版发票单据布局预测方法、装置及存储介质 - Google Patents
一种不规则排版发票单据布局预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115205877A CN115205877A CN202210669299.4A CN202210669299A CN115205877A CN 115205877 A CN115205877 A CN 115205877A CN 202210669299 A CN202210669299 A CN 202210669299A CN 115205877 A CN115205877 A CN 115205877A
- Authority
- CN
- China
- Prior art keywords
- irregular
- layout
- document
- typesetting
- invoice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001788 irregular Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000000007 visual effect Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 9
- 230000010354 integration Effects 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 description 4
- 238000005034 decoration Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种不规则排版发票单据版面布局预测方法、预测装置及存储介质,不规则排版发票单据版面布局预测方法包括:利用扫描仪或相机采集不规则排版单据信息;将采集到的不规则排版单据信息进行标注并将已标注数据划分为训练集与测试集;使用训练集训练得到版面布局预测模型;使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,直至获得理想的模型通过预测模型预测不规则排版发票单据版面布局。本发明优点在于结合不规则排版发票单据的高维视觉特征、低维视觉随机变化和语义特征对其进行版面布局预测,弥补了传统版面分析语义信息少、视觉语义融合简单的问题,提高了对布局不规则发票版面分析的精度。
Description
技术领域
本发明属于机器学习技术领域,尤其涉及一种用于不规则排版发票单据布局分析预测方法。
背景技术
单据是财务报表、科学文献、采购清单等许多真实文档中信息丰富的数据格式之一。除了文本内容外,表格结构对于人们进行关键信息提取至关重要。不仅如此,文档布局分析是自动理解文档的关键步骤,支持许多重要应用,如文档检索、数字化和编辑。它的目标是识别非结构化文档中感兴趣的区域,并识别每个区域的作用。因此,单据结构识别成为当前文档理解系统中的重要技术之一。然而发票单据文档布局的多样性和复杂性,使得对不规则排版发票单据布局分析这项任务具有挑战性。
最近的研究者们只单单地从视觉特征,或语义特征方面考虑,忽视结合来自这两种模式的信息可以帮助更好地识别文件布局尤其是对于不规则排版的发票单据。因为某些结构化的区域,如图形、表格等可以通过宏观的视觉特征轻松识别,而对于某些视觉上相似的区域,如摘要和段落等语义特征又显得至关重要。因此,最近的一些研究试图将这两种模式结合起来。
基于自然语言处理(NLP)的方法将布局分析建模为序列标记任务,并应用自底向上策略。他们首先将文本序列化为一维标记序列。然后使用每个标记的语义和视觉特征(如坐标和图像嵌入),它们通过序列标记模型顺序确定标记标签。然而,基于NLP的方法在布局建模方面表现出不足。
基于计算机视觉(CV)的方法将布局分析建模为对象检测或分割任务,并应用自上而下的策略。他们首先通过卷积神经网络提取视觉特征,并通过文本嵌入映射引入句子级或字符级语义特征,这些映射直接连接起来作为文档的表示。然后,使用检测或分割模型生成布局组件的坐标和语义标签。与基于NLP的方法相比,基于CV的方法可以更好地捕获空间信息,
发明内容
本发明提供了一种提高对于不规则排版发票单据布局分析的预测精度获得精确坐标和语义标签的不规则排版发票单据布局预测方法、装置及存储介质。
为达到上述技术目的,本发明采用以下技术方案:
一种不规则排版发票单据版面布局分析方法,其特征在于,包括:
步骤1:采集不规则排版单据信息;
步骤2:对采集到的不规则排版单据信息进行标注,并将标注的数据分为训练集和测试集;其中,标注的每组数据包括文字标注信息、文字框选信息及图像信息;
步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉特征;语意模块提取多尺度文档语义特征;通过关系特征聚合模块,将视觉特征和语义特征结合起来学习一个多模态特征图,得到语义标签和坐标;
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整版面布局预测模型的超参数,重复步骤3,直至获得满足测试效果的版面布局预测模型;
步骤5:通过版面布局预测模型预测不规则排版发票单据语义标签从而得到对应的版面布局。
优选的,所述所述步骤2中不规则单据信息标注包括文档RGB图像、文本定位与标注包括字符级和句子级。
优选的,所述步骤3内容如下:
步骤3-1:训练集中文档图像作为视觉模块输入,输入图像使用其中不同尺度的卷积神经网络(CNN)提取多维度视觉特征,不同维度特征表示为其中H表示输入图像x高度,W表示输入图像x宽度,表示特征图Si的通道维度;
步骤3-2:语义模块将文本嵌入映射作为输入引入文档语义,T0与文档图像x具有相同的空间大小,表示初始通道尺寸。文档页面的字符表示为句子表示为其中n和m分别是字符和句子的总数,ck和是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标,同理可得sk和得到多维度文档语义特征W1,W2,W3,...;
步骤3-3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MFi。使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件,使用图形神经网络(GNN)来建模组件关系,以及使用它来优化预测结果;
步骤3-4:计算两部分损失L(Θ)=Lcls+λLgen,语义标签的交叉熵损失作为分类损失Lcls,平滑L1损失作为坐标回归损失Lgen;
步骤3-5:反向传播,使用随机梯度下降法(SGD)对模型参数Θ进行优化;
步骤3-6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3-1,直至将训练集中的数据读取完;
步骤3-7:重复执行步骤3-1至3-6并持续对模型参数Θ进行优化,直至使L(Θ)下降到合理的数量级。
进一步优选的,所述步骤3-1包括:
S0=x#(1)
进一步优选的,所述步骤3-2包括:
Ec(·)是一个单词嵌入层,Es(·)采用预训练语言模型Bert,然后通过对Char和Sent之和应用LayerNormal(·)来得到文本嵌入映射W0,计算公式如(5)所示:
W0=LayerNormal(Char+Sent)#(5)
进一步优选的,所述步骤3-3包括:
不同维度视觉特征和语义特征Si和Wi作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MFi,计算公式如(6)(7)所示:
Atti=MultiAtt([Si,Wi])#(6)
MFi=Atti⊙Si+(1-Atti)⊙Wi#(7)
其中[·,·]表示级联操作,MultiAtt(·)表示一个多头注意力模块,⊙表示元素对乘法(element-wise product),通过聚合视觉和语义特征生成一组融合的多模态特征MFi,然后使用图形神经网络(GNN)来建模组件关系。
文档表示为图的形式G=(O,E),其中O={o1,o2,...,on}表示点集,E表示边集,每个节点表示之前由对象检测模型生成的候选组件,每条边表示两个候选组件之间的关系,文档中不同的区域可能具有密切的依赖关系,因此所有区域都构成了邻居关系即文档图是一个完全连通的图,
每个节点表示为oj=(lj,fj),包括位置坐标lj和深度特征fj=RoIAlign(MF,lj),构造整合两种信息的新的节点特征表示zj,计算公式如(8)所示:
进一步优选的,所述步骤3-4中损失函数由两部分损失Lcls和Lgen组成,计算公式如(11)所示:
L(Θ)=Lcls+λLgen#(11)
语义标签的交叉熵损失作为分类损失Lcls,平滑L1损失作为坐标回归损失Lgen,λ为超参数。
本发明还提一种不规则排版发票单据版面布局预测装置,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现所述的规则排版发票单据版面布局预测方法。
本发明还提供一种计算机可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现所述的规则排版发票单据版面布局预测方法。
有益效果
本发明是通过文档图像引入高低维度视觉,通过文本嵌入映射引入语义。利用关系特征聚合模块融合视觉和语义特征并基于图神经网络的对组件关系模块,最终本模型实现对不规则排版发票单据布局分析预测。
(1)本发明提取了不规则排版发票单据布中的视觉、语义两种不同模态的特征,并引入视觉上不同粒度特征所体现的宏观与微观视觉特征。
(2)本发明在关系特征聚合模块采用自注意力机制融合多模态特征,基于图神经网络对不规则排版发票单据组件关系进行建模生成精确坐标和语义标签。
(3)本发明在损失函数中结合分类与生成误差,提高对不规则排版发票单据布局分析预测的准确性。
附图说明
图1是本发明的预测模型的网络框架图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本实施例提供一种不规则排版发票单据布局预测方法,基于图1所示的预测模型进行预测,预测方法的步骤包括:
步骤1:利用扫描仪或相机采集不规则排版单据信息;其中单据信息数据格式可以为pdf、jpg等,能够得到清晰的单据文字、空间信息;
步骤2:将采集到的不规则排版单据信息利用PPOCR进行标注,并将数据分为训练集和测试集;其中,一组数据包括文字标注信息、文字框选信息、图像信息;
步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络(CNN)主干提取高低维度视觉特征;语意模块采用Bert预训练语言模型利用文本嵌入映射(text embeddingmap)提取多尺度文档语义;通过关系特征聚合模块聚合不同形态特征即视觉和语义特征结合起来学习一个多模态特征图,最终得到语义标签和坐标;
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,重复步骤3,直至获得理想的模型;
步骤5:通过预测模型预测不规则排版发票单据语义标签从而得到其版面布局。
为了便于公众理解,下面通过一个优选实施例并结合附图来对本发明的技术方案进行详细说明。
步骤1中,利用扫描仪或相机采集不规则排版单据信息;其中单据信息数据格式可以为pdf、jpg等,能够得到清晰的单据文字、空间信息。
步骤2中,将采集到的不规则排版单据信息利用PPOCR(详情请见:https://github.com/PaddlePaddle/PaddleOCR)进行标注,并将数据分为训练集和测试集;其中,一组数据包括文字标注信息、文字框选信息、图像信息。
首先,将采集到的不规则排版单信息利用PPOCR获得COCO数据集格式的文本定位框及其相对应的字符级和句子级文本标注。
其次,统计条目数,按照8∶2的比例将数据集划分训练集与测试集。
最后,得到单据整体图像RGB信息后续便于训练转为灰度值。
步骤3:使用训练集数据训练优化预测模型。
将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络(CNN)主干提取高低维度视觉特征;语意模块采用Bert预训练语言模型利用文本嵌入映射(text embedding map)提取多尺度文档语义;通过关系特征聚合模块聚合不同形态特征即视觉和语义特征结合起来学习一个多模态特征图;最终得到语义标签和坐标。模型的具体训练步骤如下:
步骤3-1:视觉模块使用不同尺度的卷积神经网络(CNN)提取训练集中文档图像的多维度视觉特征。
处理:卷积核对图像进行处理;
S0=x (1)
其中,fi,j(·)表示Residual block(·)模块;i=1,2,...,l;c,l为超参数。
步骤3-2:语义模块处理文本嵌入映射获得多维度文档语义特征;
处理:利用一个单词嵌入层和预训练语言模型Bert,结合LayerNormal(·);
输出:文本语义特征Wi;
语义模块将文本嵌入映射作为输入引入文档语义,与文档图像x具有相同的空间大小。文档页面的字符表示为句子表示为其中n和m分别是字符和句子的总数;ck和是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标;sk和是第k个句子及其关联框,得到多维度文档语义特征W1,W2,W3,...;
其中,Ec(·)是一个单词嵌入层,Es(·)采用预训练语言模型Bert,然后通过对Char和Sent之和应用LayerNormal(·)来得到文本语义特征W0,计算公式如(5)所示:
W0=LayerNormal(Char+Sent) (5)
步骤3-3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...,利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MFi。使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件,使用图形神经网络(GNN)来建模组件关系,以及使用它来优化预测结果:
不同维度视觉特征和语义特征Si和Wi作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MFi,计算公式如(6)(7)所示:
Atti=MultiAtt([Si,Wi]) (6)
MFi=Atti⊙Si+(1-Atti)⊙Wi (7)
其中,[·,·]表示级联操作,MultiAtt(·)表示一个多头注意力模块,⊙表示元素对乘法(element-wise product),通过聚合视觉和语义特征生成一组融合的多模态特征MFi,然后使用图形神经网络(GNN)来建模组件关系。
文档表示为图的形式G=(O,E),其中O={o1,o2,...,on}表示点集,E表示边集,每个节点表示之前由对象检测模型生成的候选组件,每条边表示两个候选组件之间的关系,文档中不同的区域可能具有密切的依赖关系,因此所有区域都构成了邻居关系即文档图是一个完全连通的图,
每个节点表示为oj=(lj,fj),包括位置坐标lj和深度特征fj=RoIAlign(MF,lj),构造整合两种信息的新的节点特征表示zj,计算公式如(8)所示:
步骤3-4:计算损失函数由两部分损失Lcls和Lgen组成,计算公式如(11)所示:
L(Θ)=Lcls+λLgen (11)
语义标签的交叉熵损失作为分类损失Lcls;平滑L1损失作为坐标回归损失Lgen,λ为超参数;
步骤3-5:反向传播,使用随机梯度下降法(SGD)对模型参数Θ进行优化,计算公式如(12)所示:
步骤3-6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3-1,直至将训练集中的数据读取完;
步骤3-7:重复执行步骤3-1至3-6并持续对模型参数Θ进行优化,直至使L(Θ)下降到合理的数量级。
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,重复步骤3,直至获得理想的模型;
将测试集部署在版面布局测试模型上进行测试,检测模型的效果,并根据模型的效果调整超参数信息,如:学习率learning rate,字符和句子的总数n与m,步骤3-1中的c,l,步骤3-4中调节误差的λ等等。然后跳转到步骤3重新训练,直到模型能在测试集上取得满意的效果,通过本步骤可以得到最终的版面布局预测模型
步骤5:通过预测模型预测不规则排版发票单据语义标签从而得到其版面布局。
得到该预测结果后,即可对此不规则排版发票单据进行进一步深入分析。
本实施例提供一种不规则排版发票单据版面布局预测装置,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现实施例中规则排版发票单据版面布局预测方法。
本实施例提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行实施例中规则排版发票单据版面布局预测方法。
本发明提供的不规则排版发票单据布局预测方法、装置及存储介质,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (8)
1.一种不规则排版发票单据版面布局预测方法,其特征在于,包括:
步骤1:采集不规则排版单据信息;
步骤2:对采集到的不规则排版单据信息进行标注,并将标注的数据分为训练集和测试集;其中,标注的每组数据包括文字标注信息、文字框选信息及图像信息;
步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉特征;语意模块提取多尺度文档语义特征;通过关系特征聚合模块,将视觉特征和语义特征结合起来学习一个多模态特征图,得到语义标签和坐标;
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整版面布局预测模型的超参数,重复步骤3,直至获得满足测试效果的版面布局预测模型;
步骤5:通过版面布局预测模型预测不规则排版发票单据语义标签从而得到对应的版面布局。
2.根据权利要求1所述的不规则排版发票单据布局预测方法,其特征在于,所述步骤2中不规则单据信息标注包括文档RGB图像、文本定位与标注包括字符级和句子级。
3.根据权利要求1所述的不规则排版发票单据布局预测方法,其特征在于,所述步骤3,包括:
文档页面的字符表示为句子表示为其中n和m分别是字符和句子的总数;ck和是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标;sk和是第k个句子及其关联框,由卷积神经网络中的ConvNet得到多维度文档语义特征W1,W2,W3,...Wi...;
步骤3-3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...,利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MFi;使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件;使用图形神经网络来建模组件关系以及优化预测结果;
步骤3-4:计算两部分损失L(Θ)=Lcls+λLgen,语义标签的交叉熵损失作为分类损失Lcls,平滑L1损失作为坐标回归损失Lgen;
步骤3-5:反向传播,使用随机梯度下降法对模型参数Θ进行优化;
步骤3-6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3-1,直至将训练集中的数据读取完;
步骤3-7:重复执行步骤3-1至3-6并持续对模型参数Θ进行优化,直至使L(Θ)下降到设定的数量级。
6.根据权利要求3所述的不规则排版发票单据布局预测方法,其特征在于,所述步骤3-3,包括:
不同维度视觉特征Si和语义特征和Wi作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MFi,计算公式如(6)(7)所示:
Atti=MultiAtt([Si,Wi]) (6)
MFi=Atti⊙Si+(1-Atti)⊙Wi (7)
其中,[·,·]表示级联操作,MultiAtt(·)表示一个多头注意力模块,⊙表示元素对乘法;
通过聚合视觉和语义特征生成一组融合的多模态特征MFi;然后使用图形神经网络来建模组件关系;
每个节点表示为oj=(lj,fj),包括位置坐标lj和深度特征fj=RoIAlign(MF,lj),构造整合两种信息的新的节点特征表示zj,计算公式如(8)所示:
7.一种不规则排版发票单据版面布局预测装置,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现如权利要求1至6任一所述的规则排版发票单据版面布局预测方法。
8.一种计算机可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的规则排版发票单据版面布局预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210669299.4A CN115205877A (zh) | 2022-06-14 | 2022-06-14 | 一种不规则排版发票单据布局预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210669299.4A CN115205877A (zh) | 2022-06-14 | 2022-06-14 | 一种不规则排版发票单据布局预测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205877A true CN115205877A (zh) | 2022-10-18 |
Family
ID=83576963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210669299.4A Pending CN115205877A (zh) | 2022-06-14 | 2022-06-14 | 一种不规则排版发票单据布局预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205877A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669493A (zh) * | 2023-12-08 | 2024-03-08 | 安徽省医学情报研究所 | 基于显著性检测的智能图文排版方法及系统 |
-
2022
- 2022-06-14 CN CN202210669299.4A patent/CN115205877A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669493A (zh) * | 2023-12-08 | 2024-03-08 | 安徽省医学情报研究所 | 基于显著性检测的智能图文排版方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN109086756B (zh) | 一种基于深度神经网络的文本检测分析方法、装置及设备 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
Siddiqui et al. | Rethinking semantic segmentation for table structure recognition in documents | |
RU2695489C1 (ru) | Идентификация полей на изображении с использованием искусственного интеллекта | |
CN110135427A (zh) | 用于识别图像中的字符的方法、装置、设备和介质 | |
CN105718952A (zh) | 使用深度学习网络对断层医学影像进行病灶分类的方法 | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN109583483A (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
Aditya et al. | Batik classification using neural network with gray level co-occurence matrix and statistical color feature extraction | |
CN113936195B (zh) | 敏感图像识别模型的训练方法、训练装置和电子设备 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
CN113642602A (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
CN109034213A (zh) | 基于相关熵原则的高光谱图像分类方法和系统 | |
Zhang et al. | All-content text recognition method for financial ticket images | |
CN115205877A (zh) | 一种不规则排版发票单据布局预测方法、装置及存储介质 | |
CN114170460A (zh) | 一种基于多模态融合的艺术品分类方法及系统 | |
Khan et al. | Analysis of Cursive Text Recognition Systems: A Systematic Literature Review | |
Si | Analysis of calligraphy Chinese character recognition technology based on deep learning and computer-aided technology | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm | |
Bakhtiarnia et al. | PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks | |
CN109241990A (zh) | 一种基于多标签传播的三维模型标注方法 | |
Sengottuvelan et al. | Object classification using substance based neural network | |
Park et al. | Optical character recognition system using BP algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |