CN112825129A - 用于文档处理的位置嵌入 - Google Patents
用于文档处理的位置嵌入 Download PDFInfo
- Publication number
- CN112825129A CN112825129A CN202010965171.3A CN202010965171A CN112825129A CN 112825129 A CN112825129 A CN 112825129A CN 202010965171 A CN202010965171 A CN 202010965171A CN 112825129 A CN112825129 A CN 112825129A
- Authority
- CN
- China
- Prior art keywords
- neural network
- document
- location
- tags
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 93
- 238000013528 artificial neural network Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000003780 insertion Methods 0.000 claims description 16
- 230000037431 insertion Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 abstract description 10
- 238000004590 computer program Methods 0.000 abstract description 4
- 238000012015 optical character recognition Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011143 downstream manufacturing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本文公开了使用位置嵌入来生成文档标签的系统、方法和计算机程序产品实施例。在实施例中,标签系统可以识别文档图像的标记,诸如词语。该标签系统可以将位置向量神经网络应用于该文档图像,以分析像素并确定对应于词语的位置嵌入向量。该标签系统然后可以将该位置嵌入向量与相应的词向量组合,以用作训练为生成文档标签的神经网络的输入。这种组合可以以串行化的方式将该位置信息嵌入相应的词语信息,以供文档标签神经网络处理。使用这种格式化,该标签系统可以以轻量且快速的方式生成文档标签,同时仍然保留词语之间的空间关系。
Description
技术领域
本公开的实施例涉及用于文档处理的系统、方法以及非暂时性计算机可读设备。
背景技术
光学字符识别(optical character recognition,OCR)已经用于识别文档中的字符。此外,已经开发了机器学习算法,以基于应用的OCR技术来识别文档图像中的字符和词语。例如,可以从文档图像中提取字符、词语或符号。然而,这些技术可能不会保留与符号相关的位置信息。例如,这些技术可以不考虑文档符号的布局。这种位置信息的缺少可能给分析文档的内容带来困难。如果在文档处理期间不考虑该位置信息,即使包括文本和位置信息的文档数据文件也可能产生不准确和/或不正确的结果。
发明内容
本公开的至少一实施例提供一种计算机实现的方法。该方法可以包括:接收文档图像;识别所述文档图像的一个或多个标记(token);将第一神经网络应用于文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;将第二神经网络应用于所述一个或多个标记与位置嵌入序列的相应位置嵌入的一个或多个组合;以及响应于应用第二神经网络,生成一个或多个文档标签。
本公开的至少一实施例还提供一种系统。该系统可以包括存储器和至少一个处理器。所述至少一个处理器耦合到存储器并且可以被配置为:接收文档图像;识别文档图像的一个或多个标记;将第一神经网络应用于文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;将第二神经网络应用于所述一个或多个标记与位置嵌入序列的相应位置嵌入的一个或多个组合;以及响应于应用第二神经网络,生成一个或多个文档标签。
本公开的至少一实施例还提供一种非暂时性计算机可读设备。该非暂时性计算机可读设备具有存储在其上的指令,该指令当由至少一个计算设备执行时可以使得所述至少一个计算设备执行操作,该操作可以包括:接收文档图像;识别文档图像的一个或多个标记;将第一神经网络应用于文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;将第二神经网络应用于所述一个或多个标记与位置嵌入序列的相应位置嵌入的一个或多个组合;以及响应于应用第二神经网络,生成一个或多个文档标签。
附图说明
附图结合于此并构成说明书的部分。
图1A描绘了根据一些实施例的文档处理环境的框图。
图1B描绘了根据一些实施例的文档处理流程的框图。
图2描绘了根据一些实施例的示例网络方程。
图3描绘了示出根据一些实施例的用于生成文档标签的方法的流程图。
图4描绘了根据一些实施例的示例串行化技术。
图5描绘了有助于实现各种实施例的示例计算机系统。
在附图中,相同的附图标记通常指示相同或相似的元件。此外,通常附图标记的(多个)最左边的位标识其中该附图标记首次出现的附图。
具体实施方式
本文提供的是用于使用位置嵌入生成文档标签的系统、装置、设备、方法和/或计算机程序产品实施例、和/或它们的组合和子组合。本文公开的实施例可以分析文档图像以识别文档图像的符号或标记(token)的位置参数序列。这些位置参数可以用于在标签生成期间保留文档图像中标记的布局信息,并且可以提供增加的准确度。例如,如果标签生成过程使用串行化的机器学习或人工智能格式,则位置参数可以与符号一起嵌入,以保留位置信息。使用这些嵌入,可以使用位置信息来生成标签,以在加速的学习过程的情况下实现更高的准确度。
在实施例中,标签系统可以接收文档和/或文档图像,并使用位置嵌入来生成标签。标签可以从在处理文档时使用的文档和/或文档图像中识别特定的值和/或符号。例如,文档可以是发票,并且可以通过基于文档处理识别代表该发票总额的符号或标记来生成标签。标签还可以识别键值对、命名实体、和/或来自文档的其他语义信息。标签系统可以使用位置信息生成这些标签和/或识别特定的符号或标记,以提供增加的准确度。
位置嵌入信息可以帮助文档分析。例如,一些信息可以产生基于词语定位的模式。为了示出示例实施例,文档可以是具有“First name”字段的发票。该字段的输入可以是“John”,但是可以以各种方式排列。例如,输入可以排列在字段标签下方、字段标签右侧或字段标签上方。这三种配置如下所示:
(1)
First name
John
(2)
First name:John
(3)
John
First name
分析几个文档以及这些输入值的空间位置可以帮助更准确地识别正确的值并对该正确的值加标签(labeling)。通过使用位置嵌入,诸如水平和/或垂直位置,机器学习模型可以更好地识别值以及分析文档。
然而,一些机器学习模型的问题可以是串行化的标记的使用。例如,一些自然语言处理技术可以分析一维字符或词语序列的文档。这种类型的处理可能导致文档中词语或标记之间的二维信息和/或关系的丢失。
以这种方式,本文描述的标签系统可以执行位置嵌入来保留位置信息。该位置嵌入可以保留与文档的词语或标记的位置相对应的二维坐标。在一些实施例中,该标签系统可以接收文档和/或文档图像作为数据文件。该标签系统可以将字符、词语和/或其他字符的分组识别为文档的标记。例如,该标签系统可以执行光学字符识别(OCR)过程来识别字符和/或词语。在一些实施例中,文档可以是包含格式化的文本的数据文件,诸如HTML、Word文本、纯文本、格式化的文本和/或其他文本数据文件。在这种情况下,该标签系统可以跳过OCR过程,并且直接从文档数据文件中识别文本和/或位置信息。例如,该标签系统可以使用文件阅读器或转换器。
该标签系统还可以使用第一神经网络来识别对应于字符和/或词语的位置嵌入。第一神经网络可以识别位置嵌入序列。该序列可以与输入词向量的序列组合,并且应用于第二神经网络。第二神经网络可以基于词向量与位置嵌入向量的组合来生成标签。如下文将进一步解释的,第一神经网络和第二神经网络可以是组合的神经网络的子网络。类似地,第一神经网络和第二神经网络可以被联合训练或顺序训练。
通过将位置嵌入与词语的向量值组合,该标签系统可以在生成标签时保留位置信息。当生成标签时,该标签系统可以利用第二神经网络中的位置信息来生成更准确的结果。即使当第二神经网络使用一维和/或顺序格式化时,这种配置也可以进一步保留位置信息以供使用。例如,这种配置可以从表中提取数据并保留表组织。以这种方式,文档的二维信息甚至可以在一维语言模型或神经网络中被保留和利用。这种配置也可以是更少计算机资源密集型的,并且可以在训练机器学习模型时更高效。这个过程可以加速机器学习过程,并且产生更高的准确度。此外,该神经网络配置可以使用更少的层,以允许更少的资源密集型处理。以这种方式,当分类文档的字符和/或词语时,该配置可以是轻量且快速的,同时仍然捕获每个字符或单词的位置嵌入。
现在将参照相应的附图讨论这些特征的各种实施例。
图1A描绘了根据一些实施例的文档处理环境100A的框图。文档处理环境100A可以包括标签系统110、下游处理系统130和文档120。文档120可以包括手写和/或打字文本。文档120可以是文档的图像和/或具有可以被识别的字符的其他类型的数据文件。文档120可以包括字符和/或字符分组。在一些实施例中,文档120可以包括代表不同字母的不同语言和/或符号。
标签系统110可以接收文档120并生成位置嵌入和/或标签以识别文档120的值。标签系统110可以包括用于处理文档120的位置向量网络112、标签处理器114和/或标签网络116。标签处理器114可以管理位置矢量网络112和/或标签网络116。标签处理器114可以包括被配置为实现神经网络或机器学习算法的一个或多个处理器和/或存储器。位置向量网络112可以是被配置为识别文档120的字符、词语、符号和/或标记的位置嵌入的神经网络和/或其他机器学习模型。标签网络116可以使用这些位置嵌入和/或词向量值来生成标签。标签处理器114可以控制这个过程。
在实施例中,标签系统110可以从外部源接收文档120(诸如从外部计算机的传送),和/或可以从可访问的存储器中检索文档120。标签处理器114可以分析文档120以识别字符和/或字符分组(诸如词语)。标签处理器114可以执行光学字符识别(OCR)过程来识别该字符。基于对标签处理器114的编程,标签处理器114可以将字符分组识别为用于加标签的符号或标记。例如,标签处理器114可以将词语识别为标记。如将参考图2进一步解释的,标签处理器114可以进一步将“wi”识别为输入词向量的序列。例如,每个词向量可以代表文档120的词语。
除了识别文档120的标记之外,标签系统110可以使用位置向量网络112来识别对应于该标记的位置嵌入向量。如将参考图2进一步解释的,位置向量网络112可以将“xi”识别为位置嵌入向量的序列。在实施例中,位置向量网络112可以使用基于二维图像或基于字符网格的卷积神经网络来确定位置嵌入。例如,卷积神经网络的层(诸如最后层)可以被串行化为一维的、向量的序列,以确定二维位置嵌入。为了识别这些位置嵌入,位置向量网络112可以分析文档120的像素。位置向量网络112可以作为二维位置嵌入的编码器来操作,以识别可以根据文档120的文本布局而改变的复杂的二维位置嵌入。
在实施例中,位置向量网络112可以通过使用空间填充曲线(诸如莫顿(Morton)或希尔伯特-勒贝格(Hilbert-Lebesgue)曲线)映射像素和/或位置嵌入来执行串行化。图4描绘了根据一些实施例的串行化技术。例如,莫顿曲线410和/或希尔伯特-勒贝格曲线420可以用于生成二维嵌入的序列的串行化。在一些实施例中,希尔伯特-勒贝格曲线420可以提供更好的空间位置性。虽然附图可以描绘一个特征映射通道,但是每个元素可以对应于向量。该向量可以是位置嵌入。如下文将进一步解释的,串行化或空间填充曲线可以被用作位置向量网络112的最后编码层,以识别位置嵌入。
在训练或操作期间,位置向量网络112可以操作以识别文档120的字符、词语和/或标记的位置嵌入。在这种情况下,位置向量网络112的最后特征层可以利用填充掩码(mask)以获得足够数量的像素来映射标记的序列。在该序列比可用位置嵌入的数量短的情况下,位置向量网络112可以使用填充掩码来执行深度学习和/或自然语言处理。
在识别位置嵌入之后,标签处理器114可以将该位置嵌入与输入词向量组合作为标签网络116的输入。例如,可以为每个输入词向量“wi”识别位置嵌入向量“xi”。这些位置嵌入向量可以将二维文档的特定标记的关于位置的信息映射到更高维度空间中。该维度可以与输入词向量的维度相同或不同。标签处理器114可以将位置嵌入向量与输入词向量组合和/或附加到该输入词向量,并且将该组合作为输入提供给标签网络116。以这种方式,该组合可以在标签生成过程内保留二维布局信息。
标签网络116可以是可以产生标签的序列作为输出的变换器神经网络(transformer neural network)。在一些实施例中,标签网络116可以是不保留或不依赖标记的空间位置性和/或空间排序的神经网络。如前所述,标签网络116可以利用与每个词向量组合的二维嵌入向量的序列来生成标签。标签网络116可以已经被预先训练,以基于词向量值以及位置嵌入来识别标签。在标签网络116是基于转换器的序列标记机器学习模型的情况下,序列的每个元素(诸如词语或字符)可以与标签网络116的每层中的每个其他元素进行比较。以这种方式,这种比较可以识别输入序列的任意元素之间的乱序关系。通过在使用这些基于转换器的系统时包括位置嵌入信息,可以保留元素之间的空间关系。例如,可以保留词语之间的空间关系。这种信息可以进一步帮助识别和生成准确的标签。
虽然位置向量网络112和标签网络116在一些实施例中被描绘为独立的神经网络,但是它们可以使用单个神经网络来实现。类似地,位置向量网络112和标签网络116可以被联合训练或顺序训练。为了单独训练网络,标签系统110可以在训练标签网络116时冻结位置向量网络112。在一些实施例中,位置向量网络112可以通过预测文档120中包括的词语序列来被预训练。以这种方式,标签系统110可以训练不同的子网络或训练联合神经网络,以识别位置嵌入和/或标签。类似地,当分析文档时,标签系统110可以使用任一配置。
现在参考图2,图2描绘了根据一些实施例的网络方程210、220和230。这些网络方程210-230进一步示出了标签系统110、位置向量网络112和标签网络116的操作。
位置向量网络112可以使用位置向量方程220来确定位置嵌入向量“xi”的序列。该值可以是文档120的第i个词语的位置嵌入向量。函数“g”可以代表基于二维图像或基于字符网格的二维卷积编码器网络。如前所述,该网络的层可以被串行化为一维的向量序列。例如,位置向量网络112的最后的层可以被串行化以生成位置嵌入。在位置向量方程220中,函数的操作数可以是可以代表文档120的像素的“Ikl”。该操作数可以代表文档中的第k和第l个像素。该像素可以是文档图像和/或字符网格的字符和/或词语像素。通过将该函数应用于像素的每个分组,位置向量网络112可以确定文档120的每个字符、词语或标记的位置嵌入向量。
标签预测方程210和230可以用于生成标签“li”的序列。标签网络116可以是使用标签预测方程210和标签预测方程230的变换器网络(transformer network)。标签预测方程210和230可以使用函数“f”来代表变换器网络。变换器网络的操作数可以是标记向量和位置嵌入向量的组合。在一些实施例中,标记向量可以是词向量“wi”,而位置嵌入向量可以是如由位置向量网络112确定的“wi”。可以通过将位置嵌入向量附加到代表文档120的每个词语的每个词向量来生成该组合。以这种方式,标签网络116可以如标签预测方程210和标签预测方程230所示使用从位置向量网络112输出的位置嵌入和词向量来生成标签。
如前所述,位置向量网络112和标签网络116可以是由标签处理器114管理的单独的神经网络。标签预测方程210和230可以示出位置向量网络112和标签网络116之间的相互作用。例如,如标签预测方程230所示,标签网络116可以合并来自位置向量网络112的输出。在一些实施例中,位置向量网络112和标签网络116可以使用相同的神经网络来实现。在这种情况下,公共的神经网络可以实现标签预测方程230,并执行像素分析以识别位置嵌入。该位置嵌入然后可以用于生成标签。
回到图1A,在标签系统110已经生成标签之后,标签系统110可以存储这些标签和/或在下游文档处理任务中利用这些标签。例如,文档120的加标签后的版本可以存储在数据库中以用于索引和/或存档。可以在下游处理中提取和/或进一步操纵这些标记值。在一些实施例中,标签系统110可以将标签和/或文档120传送到下游处理系统130以用于进一步处理。下游处理系统130可以是标签系统110外部的系统,并且可以经由有线或无线连接来连接。
为了示出标签生成的示例实施例,现在将讨论图1B。图1B描绘了根据一些实施例的文档处理流程100B的框图。文档120可以是文档图像的数据文件。该文档图像可以描绘具有文本字符“Invoice”和“Total:$100”的发票。在实施例中,标签系统110可以应用光学字符识别(OCR)过程来识别文档120的字符。在一些实施例中,例如,文档120可以是包含格式化文本的数据文件,诸如HTML、Word文本、纯文本、格式化文本和/或其他文本数据文件。在这种情况下,标签系统110可以跳过OCR过程,并且直接从文档120中识别文本和/或位置信息。例如,标签系统110可以使用文件阅读器或转换器。
标签系统110还可以通过识别字符分组从文档120来识别标记(诸如词语)。例如,标签系统110可以基于根据像素分析对字符组之间空格的识别来对字符进行分组。这些分组可以是对应于标签生成过程期间使用的词向量的词语。例如,词语“Invoice”可以表示为词向量“w1”,而“Total:”和“$100”可以分别表示为词向量“w2”和“w3”。对于这些词向量,标签系统110可以识别位置嵌入向量。
为了识别位置嵌入向量,标签系统110可以应用OCR过程来获得词语标记的序列。这可以生成标记化文档140。该标记化文档140可以具有C个通道、高度H和权重(weight)W。标签处理器114可以生成标记化文档140,并且将标记化文档140传递到位置向量网络112。位置向量网络112可以是二维编码器网络,诸如,例如深度卷积神经网络。该神经网络可以生成向量150。向量150然后可以被串行化以用于与词向量组合。如参考图4所描绘和描述的,可以使用莫顿曲线410或希尔伯特-勒贝格曲线420来串行化网络的编码器特征图。可以对每个词语执行此分析以识别相应的位置嵌入向量并产生二维嵌入的序列。串行化曲线可以以保留元素的位置性的方式“展开(unroll)”向量150和/或展平(flattening)特征图。这种位置性可以帮助保留词语的相对距离、以及词语距离其他词语是近还是远。
标签处理器114然后可以将串行化的位置嵌入向量“xi”与词向量“wi”组合。在一些实施例中,位置嵌入向量可以被附加到词向量。可以为文档120的每个标记或词语生成这些组合160。例如,对于标记“$100”,相应的组合可以是“w3+x3”。该组合160然后可以被应用于标签网络116。如前所述,标签网络116可以是被配置为识别标签的变换器网络。
标签网络116可以被训练,以识别一个或多个标签。例如,标签网络116可以先前已经被训练,以基于使用位置嵌入的训练数据来识别发票的总额(total amount)。以这种方式,标签网络116可以输出指示特定类别描述作为标签的标签序列170。如果总额是被识别为“w3”的第三个词语,则标签可以将该第三个词语识别为期望的总额类别。标签系统110然后可以使用标签提取该值以用于附加的文档处理。在一些实施例中,加标签可以帮助提取值和/或对文档120进行分类。根据标签网络116的配置,可以在标签序列170中给其他词语赋予空(null)值或零值,其中空值或零值可以指示其他词语不属于期望的总额类别。在一些实施例中,根据每个词语的分类,可以给予每个词语标签。
标签系统110还可以执行流程100B,以执行将词语翻译成不同的语言。例如,标签系统110可以应用于其中语言具有不同长度的字符或词语的翻译。标签系统110可以不需要一对一的翻译,而是可以适应不同语言之间的不同序列长度。生成的标签和/或提取的信息可以用于翻译文档120。类似地,标签生成可以帮助概括二维文档。对标签的识别可以通过识别关键值来提供快速概括。
图3描绘了示出根据一些实施例的用于生成文档标签的方法300的流程图。将参考图1A描述方法300;然而,方法300不限于该示例实施例。
在实施例中,标签系统110可以使用一个或多个神经网络来分析文档120,以识别文档标签。虽然参考标签系统110描述了方法300,但是方法300可以在任何计算设备(诸如,例如参考图5描述的计算机系统和/或可以包括硬件(例如,电路、专用逻辑、可编程逻辑、微码等)、软件(例如,在处理设备上执行的指令)、或它们的组合的处理逻辑)上执行。
应当理解,执行本文提供的公开并非需要所有步骤。此外,如本领域普通技术人员将理解的,一些步骤可以同时执行,或者以不同于图3所示的顺序执行。
在305,标签系统110可以接收文档图像。该文档图像可以是文档120。标签系统110可以从计算机存储器中的存储位置访问该文档图像和/或可以从外部计算机系统接收该文档图像。该文档图像可以是文本、文档和/或图像数据文件。该文档图像可以包括手写和/或打字文本。
在310,标签系统110可以识别文档图像的一个或多个标记。为了识别所述一个或多个标记,标签系统110可以应用光学字符识别(OCR)服务。该OCR服务可以为在文档图像中检测到的字符提供到数字索引值的映射。该OCR服务可以执行像素分析来确定这些字符值。在一些实施例中,该OCR服务可以将标记识别为字符分组。例如,标记可以是词语、短语、句子、段落或其他字符组织。标签系统110可以识别来自一种或多种语言的标记。在一些语言中,字符可能被指定为标记,诸如,例如中文。标签系统110可以识别这些标记以生成一个或多个词向量“wi”。
在一些实施例中,文档图像可以是包含格式化文本的数据文件,诸如,例如HTML、Word文本、纯文本、格式化文本和/或其他文本数据文件。在这种情况下,标签系统110可以跳过OCR过程,并直接从文档数据文件中识别文本和/或位置信息。例如,标签系统110可以使用文件阅读器或转换器。标签系统110可以直接从文档数据文件中识别一个或多个标记。
在315,标签系统110可以将第一神经网络应用于文档图像,以识别对应于标记的位置嵌入序列。第一神经网络可以是位置向量网络112。如上先前所述,第一神经网络可以识别文档图像的词语的位置嵌入。该位置嵌入可以基于由二维编码器网络或深度卷积神经网络执行的像素识别来生成。由编码器生成的特征图可以被串行化以产生对应于文档图像的标记的二维位置嵌入序列。可以通过使用莫顿曲线、希尔伯特-勒贝格曲线和/或其他串行化方法来执行该串行化,以保留空间位置性。这种展平可以产生该位置嵌入序列。
在320,标签系统110可以将第二神经网络应用于所述一个或多个标记与位置嵌入序列的相应位置嵌入的一个或多个组合。第二神经网络可以是标签网络116。所述一个或多个标记与相应位置嵌入的组合可以包括将位置嵌入向量附加到从文档图像识别的其相应标记。这种配置可以将所述一个或多个组合排列成一维序列,以供标签网络116分析。标签网络116然后可以根据标签网络116的配置和先前的训练来处理组合序列以识别标签。
在325,标签系统110可以生成一个或多个文档标签。这些文档标签可以由标签网络116基于一个或多个标记与相应的位置嵌入的组合来生成。该文档标签可以识别用于从文档图像中进行数据提取、用于文档分类和/或用于其他文档处理的特定值。在一些实施例中,文档标签可以识别期望值。在一些实施例中,可以为文档图像的多个标记提供文档标签,以提供附加的文档标签。标签系统110可以将这些标签与文档图像一起使用和/或存储,以用于进一步的文档处理。在一些实施例中,标签系统110可以将所述一个或多个文档标签传送到下游处理系统130。该下游处理系统130可以是使用所述一个或多个文档标签对文档图像执行附加处理的外部系统。
可以例如使用众所周知的一个或多个计算机系统(诸如,图5所示的计算机系统500)实现各种实施例。例如,可以使用一个或多个计算机系统500来实现本文讨论的任何实施例以及它们的组合和子组合。
计算机系统500可以包括一个或多个处理器(也称为中央处理单元或CPU),诸如处理器504。处理器504可以连接到通信基础设施或总线506。
计算机系统500还可以包括可以通过(多个)用户输入/输出接口502与通信基础设施506通信的(多个)用户输入/输出设备503(诸如监视器、键盘、定点设备等)。
处理器504中的一个或多个可以是图形处理单元(graphics processing unit,GPU)。在实施例中,GPU可以是作为被设计成处理算术密集型应用的专用电子电路的处理器。该GPU可以具有并行结构,该并行结构对于大数据块(诸如常见于计算机图形应用、图像、视频等的算术密集型数据)的并行处理是高效的。
计算机系统500还可以包括主存储器或主要存储器508,诸如随机存取存储器(random access memory,RAM)。主存储器508可以包括一级或多级高速缓存。主存储器508可以已经在其中存储控制逻辑(即,计算机软件)和/或数据。
计算机系统500还可以包括一个或多个辅助存储设备或辅助存储器510。辅助存储器510可以包括例如硬盘驱动器512和/或可移动存储设备或驱动器514。可移动存储驱动器514可以是软盘驱动器、磁带驱动器、光盘驱动器、光存储设备、磁带备份设备和/或任何其他存储设备/驱动器。
可移动存储驱动器514可以与可移动存储单元518相互作用。可移动存储单元518可以包括其上已经存储了计算机软件(控制逻辑)和/或数据的计算机可用或可读存储设备。可移动存储单元518可以是软盘、磁带、光盘、DVD、光存储盘和/或任何其他计算机数据存储设备。可移动存储驱动器514可以从可移动存储单元518读取和/或向可移动存储单元518写入。
辅助存储器510可以包括允许计算机系统500访问计算机程序和/或其他指令和/或数据的其他装置、设备、组件、手段或其他方法。这种装置、设备、组件、手段或其他方法可以包括例如可移动存储单元522和接口520。可移动存储单元522和接口520的示例可以包括程序盒(program cartridge)和盒接口(诸如在视频游戏设备中发现的)、可移动存储器芯片(诸如EPROM或PROM)和相关联的插口、记忆棒和USB端口、存储卡和相关联的存储卡插槽、和/或任何其他可移动存储单元和相关联的接口。
计算机系统500可以进一步包括通信或网络接口524。通信接口524可以使计算机系统500能够与外部设备、外部网络、外部实体等的任何组合(单独和共同地由附图标记528引用)进行通信和交互。例如,通信接口524可以允许计算机系统500通过通信路径526与外部或远程设备528通信,该通信路径526可以是有线和/或无线的(或其组合)并且可以包括LAN、WAN、互联网等的任意组合。控制逻辑和/或数据可以经由通信路径526传送到计算机系统500和从计算机系统500传送。
计算机系统500也可以是个人数字助理(personal digital assistant,PDA)、台式工作站、膝上型或笔记本计算机、上网本、平板电脑、智能电话、智能手表或其他可佩戴的设备、物联网的部分、和/或嵌入式系统中的任何一种(举几个非限制性的示例)、或它们的任意组合。
计算机系统500可以是通过任何递送范例访问或托管任何应用和/或数据的客户端或服务器,其中递送范例包括但不限于:远程或分布式云计算解决方案;本地或内部(on-premise)软件(“内部”基于云的解决方案);“即服务”模型(例如,内容即服务(content asa service,CaaS)、数字内容即服务(digital content as a service,DCaaS)、软件即服务(software as a service,SaaS)、托管软件即服务(managed software as a service,MSaaS)、平台即服务(platform as a service,PaaS)、桌面即服务(desktop as aservice,DaaS)、框架即服务(framework as a service,FaaS)、后端即服务(backend as aservice,BaaS)、移动后端即服务(mobile backend as a service,MBaaS)、基础设施即服务(infrastructure as a service,IaaS)等);和/或包括前述示例或其他服务或递送范例的任何组合的混合模型。
计算机系统500中的任何可应用的数据结构、文件格式和模式可以从标准中导出,其中这些标准包括但不限于JavaScript对象符号(JavaScript Object Notation,JSON)、可扩展标记语言(Extensible Markup Language,XML)、又一种标记语言(Yet AnotherMarkup Language,YAML)、可扩展超文本标记语言(Extensible Hypertext MarkupLanguage,XHTML)、无线标记语言(Wireless Markup Language,WML)、MessagePack、XML用户界面语言(XML User Interface Language,XUL)、或者单独或组合的任何其他功能类似的表示。可替换地,专有数据结构、格式或模式可以单独使用、或者与已知或开放标准结合使用。
在一些实施例中,包括其上已经存储控制逻辑(软件)的有形的、非暂时性的计算机可用或可读介质的有形的、非暂时性的装置或制品在本文中也可以被称为计算机程序产品或程序存储设备。这包括但不限于计算机系统500、主存储器508、辅助存储器510和可移动存储单元518和522、以及体现上述任意组合的有形制品。当由一个或多个数据处理设备(诸如计算机系统500)执行时,这种控制逻辑可以使这种数据处理设备如本文所述进行操作。
基于包含在本公开中包含的教导,对于相关领域的技术人员而言,如何使用除了图5所示那些之外的数据处理设备、计算机系统和/或计算机架构来实现和使用本公开的实施例将是明显的。特别地,实施例可以与除了本文描述的那些之外的软件、硬件和/或操作系统实现来进行操作。
应该理解的是,具体实施方式部分而不是任何其他部分旨在用于解释权利要求。其他部分可以阐述一个或多个但不是(多个)发明人所设想的所有示例实施例,因此,并不旨在以任何方式限制本公开或所附权利要求。
虽然本公开描述了示例领域和应用的示例实施例,但是应当理解的是,本公开不限于此。其他实施例和对其的修改是可能的,并且在本公开的范围和精神内。例如,在不限制本段的一般性的情况下,实施例不限于在附图中示出和/或本文描述的软件、硬件、固件和/或实体。此外,实施例(无论是否在本文明确描述)对在本文描述的示例之外的领域和应用具有显著的效用。
本文已经借助于示出特定功能及其关系的实现的功能构建块描述了实施例。为了描述的方便,这些功能构建块的边界在本文被任意地定义。只要适当地执行指定的功能和关系(或其等价物),就可以定义替代边界。此外,替代实施例可以使用不同于本文描述的顺序执行功能块、步骤、操作、方法等。
本文对“一个实施例”、“实施例”、“示例实施例”或类似短语的引用指示所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例不一定包括特定的特征、结构或特性。此外,这样的短语不一定指同一实施例。此外,当结合实施例描述特定的特征、结构或特性时,无论是否在本文明确提及或描述,将这样的特征、结构或特性结合到其他实施例中都在(多个)相关领域的技术人员的知识范围内。另外,一些实施例可以使用表达“耦合”和“连接”以及它们的派生词来进行描述。这些术语不一定是彼此的同义词。例如,可以使用术语“连接”和/或“耦合”来描述一些实施例,以指示两个或更多个元件彼此直接物理或电接触。然而,术语“耦合”也可以代表两个或更多个元件彼此不直接接触,但是仍然相互合作或相互作用。
本公开的广度和范围不应受任何上述示例实施例的限制,而应仅根据所附权利要求及其等同物来定义。
Claims (20)
1.一种计算机实现的方法,包括:
接收文档图像;
识别所述文档图像的一个或多个标记;
将第一神经网络应用于所述文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;
将第二神经网络应用于所述一个或多个标记与所述位置嵌入序列的相应位置嵌入的一个或多个组合;以及
响应于应用所述第二神经网络,生成一个或多个文档标签。
2.根据权利要求1所述的计算机实现的方法,其中所述一个或多个标记是所述文档图像的词语。
3.根据权利要求1所述的计算机实现的方法,其中所述位置嵌入序列是对应于所述一个或多个标记的向量。
4.根据权利要求1所述的计算机实现的方法,其中应用所述第一神经网络还包括:
应用空间填充曲线来串行化位置向量,以识别所述位置嵌入序列。
5.根据权利要求1所述的计算机实现的方法,其中所述一个或多个组合是通过将位置嵌入附加到所述一个或多个标记中的相应标记来生成的。
6.根据权利要求1所述的计算机实现的方法,其中所述一个或多个组合以一维序列排列,以用于由所述第二神经网络进行分析。
7.根据权利要求1所述的计算机实现的方法,其中所述第一神经网络和所述第二神经网络是单个神经网络的子网络。
8.一种系统,包括:
存储器;和
至少一个处理器,耦合到所述存储器并被配置为:
接收文档图像;
识别所述文档图像的一个或多个标记;
将第一神经网络应用于所述文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;
将第二神经网络应用于所述一个或多个标记与所述位置嵌入序列的相应位置嵌入的一个或多个组合;以及
响应于应用所述第二神经网络,生成一个或多个文档标签。
9.根据权利要求8所述的系统,其中所述一个或多个标记是所述文档图像的词语。
10.根据权利要求8所述的系统,其中所述位置嵌入序列是对应于所述一个或多个标记的向量。
11.根据权利要求8所述的系统,其中为了应用所述第一神经网络,所述至少一个处理器还被配置为:
应用空间填充曲线来串行化位置向量,以识别所述位置嵌入序列。
12.根据权利要求8所述的系统,其中所述一个或多个组合是通过将位置嵌入附加到所述一个或多个标记中的相应标记来生成的。
13.根据权利要求8所述的系统,其中所述一个或多个组合以一维序列排列,以用于由所述第二神经网络进行分析。
14.根据权利要求8所述的系统,其中所述第一神经网络和所述第二神经网络是单个神经网络的子网络。
15.一种非暂时性计算机可读设备,具有存储在其上的指令,所述指令当由至少一个计算设备执行时使得所述至少一个计算设备执行操作,所述操作包括:
接收文档图像;
识别所述文档图像的一个或多个标记;
将第一神经网络应用于所述文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;
将第二神经网络应用于所述一个或多个标记与所述位置嵌入序列的相应位置嵌入的一个或多个组合;以及
响应于应用所述第二神经网络,生成一个或多个文档标签。
16.根据权利要求15所述的非暂时性计算机可读设备,其中所述一个或多个标记是所述文档图像的词语。
17.根据权利要求15所述的非暂时性计算机可读设备,其中所述位置嵌入序列是对应于所述一个或多个标记的向量。
18.根据权利要求15所述的非暂时性计算机可读设备,其中应用所述第一神经网络还包括:
应用空间填充曲线来串行化位置向量,以识别所述位置嵌入序列。
19.根据权利要求15所述的非暂时性计算机可读设备,其中所述一个或多个组合是通过将位置嵌入附加到所述一个或多个标记中的相应标记来生成的。
20.根据权利要求15所述的非暂时性计算机可读设备,其中所述一个或多个组合以一维序列排列,以用于由所述第二神经网络进行分析。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/689,498 | 2019-11-20 | ||
US16/689,498 US11275934B2 (en) | 2019-11-20 | 2019-11-20 | Positional embeddings for document processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112825129A true CN112825129A (zh) | 2021-05-21 |
Family
ID=73172485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010965171.3A Pending CN112825129A (zh) | 2019-11-20 | 2020-09-15 | 用于文档处理的位置嵌入 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11275934B2 (zh) |
EP (1) | EP3825920A1 (zh) |
JP (1) | JP7239533B2 (zh) |
CN (1) | CN112825129A (zh) |
AU (1) | AU2020239769A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807222A (zh) * | 2021-09-07 | 2021-12-17 | 中山大学 | 基于稀疏采样进行端到端训练的视频问答方法与系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435217B (zh) * | 2021-06-25 | 2023-12-19 | 青岛海尔科技有限公司 | 语言测试处理方法、装置及电子设备 |
US20230123711A1 (en) * | 2021-10-18 | 2023-04-20 | Intuit Inc. | Extracting key value pairs using positional coordinates |
US12062214B2 (en) * | 2021-12-27 | 2024-08-13 | Advanced Micro Devices, Inc. | Systems and method for generating Morton code |
US11687575B1 (en) * | 2022-01-10 | 2023-06-27 | Sap Se | Efficient search for combinations of matching entities given constraints |
US20240303881A1 (en) * | 2023-03-06 | 2024-09-12 | Adobe Inc. | Machine learning-based layout generation |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105940395A (zh) * | 2014-01-31 | 2016-09-14 | 谷歌公司 | 生成文档的矢量表示 |
CN106845440A (zh) * | 2017-02-13 | 2017-06-13 | 山东万腾电子科技有限公司 | 一种增强现实图像处理方法及系统 |
CN106991639A (zh) * | 2015-12-12 | 2017-07-28 | 达索系统公司 | 多分辨率图像系统 |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN109871909A (zh) * | 2019-04-16 | 2019-06-11 | 京东方科技集团股份有限公司 | 图像识别方法及装置 |
CN109885842A (zh) * | 2018-02-22 | 2019-06-14 | 谷歌有限责任公司 | 处理文本神经网络 |
CN109992752A (zh) * | 2019-03-07 | 2019-07-09 | 平安科技(深圳)有限公司 | 合同文件的标签标记方法、装置、计算机装置及存储介质 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
US10387531B1 (en) * | 2015-08-18 | 2019-08-20 | Google Llc | Processing structured documents using convolutional neural networks |
CN110321560A (zh) * | 2019-06-25 | 2019-10-11 | 北京邮电大学 | 一种从文本信息中确定位置信息的方法、装置及电子设备 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9396540B1 (en) * | 2012-03-28 | 2016-07-19 | Emc Corporation | Method and system for identifying anchors for fields using optical character recognition data |
JP6000992B2 (ja) * | 2014-01-24 | 2016-10-05 | 京セラドキュメントソリューションズ株式会社 | 文書ファイル生成装置及び文書ファイル生成方法 |
EP3507722A4 (en) * | 2016-09-02 | 2020-03-18 | FutureVault Inc. | METHOD AND SYSTEM FOR AUTOMATED DOCUMENT FILING AND PROCESSING |
US10970768B2 (en) * | 2016-11-11 | 2021-04-06 | Ebay Inc. | Method, medium, and system for image text localization and comparison |
US10963784B1 (en) * | 2017-06-02 | 2021-03-30 | Relativity Oda Llc | Identifying portions of electronic communication documents using machine vision |
US10515295B2 (en) * | 2017-10-27 | 2019-12-24 | Adobe Inc. | Font recognition using triplet loss neural network training |
US10936863B2 (en) * | 2017-11-13 | 2021-03-02 | Way2Vat Ltd. | Systems and methods for neuronal visual-linguistic data retrieval from an imaged document |
CN110276342B (zh) * | 2018-03-14 | 2023-04-18 | 台达电子工业股份有限公司 | 车牌辨识方法以及其系统 |
RU2701995C2 (ru) * | 2018-03-23 | 2019-10-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Автоматическое определение набора категорий для классификации документа |
JP6791191B2 (ja) * | 2018-04-02 | 2020-11-25 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP6874729B2 (ja) * | 2018-04-02 | 2021-05-19 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP6784273B2 (ja) * | 2018-04-02 | 2020-11-11 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
US11055557B2 (en) * | 2018-04-05 | 2021-07-06 | Walmart Apollo, Llc | Automated extraction of product attributes from images |
US10540579B2 (en) * | 2018-05-18 | 2020-01-21 | Sap Se | Two-dimensional document processing |
RU2699687C1 (ru) * | 2018-06-18 | 2019-09-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Обнаружение текстовых полей с использованием нейронных сетей |
US11062164B2 (en) * | 2018-07-19 | 2021-07-13 | Leverton Holding Llc | Text line normalization systems and methods |
US10915788B2 (en) * | 2018-09-06 | 2021-02-09 | Sap Se | Optical character recognition using end-to-end deep learning |
JP7116309B2 (ja) * | 2018-10-10 | 2022-08-10 | 富士通株式会社 | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム |
CN111144399B (zh) * | 2018-11-06 | 2024-03-05 | 富士通株式会社 | 处理图像的装置和方法 |
US11837002B2 (en) * | 2019-02-01 | 2023-12-05 | Intuit Inc. | System and method for spatial encoding and feature generators for enhancing information extraction |
US10402641B1 (en) * | 2019-03-19 | 2019-09-03 | Capital One Services, Llc | Platform for document classification |
US10846553B2 (en) * | 2019-03-20 | 2020-11-24 | Sap Se | Recognizing typewritten and handwritten characters using end-to-end deep learning |
CN109977956B (zh) * | 2019-04-29 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
CN110956739A (zh) * | 2019-05-09 | 2020-04-03 | 杭州睿琪软件有限公司 | 一种票据识别方法及装置 |
US11222286B2 (en) * | 2019-06-14 | 2022-01-11 | The Toronto-Dominion Bank | Target document template generation |
US11062133B2 (en) * | 2019-06-24 | 2021-07-13 | International Business Machines Corporation | Data structure generation for tabular information in scanned images |
RU2721189C1 (ru) * | 2019-08-29 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа |
RU2723293C1 (ru) * | 2019-08-29 | 2020-06-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа |
US11048867B2 (en) * | 2019-09-06 | 2021-06-29 | Wipro Limited | System and method for extracting tabular data from a document |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
US11507593B2 (en) * | 2019-10-22 | 2022-11-22 | International Institute Of Information Technology, Hyderabad | System and method for generating queryeable structured document from an unstructured document using machine learning |
US11481605B2 (en) * | 2019-10-25 | 2022-10-25 | Servicenow Canada Inc. | 2D document extractor |
US11195008B2 (en) * | 2019-10-30 | 2021-12-07 | Bill.Com, Llc | Electronic document data extraction |
US11138424B2 (en) * | 2019-11-20 | 2021-10-05 | Sap Se | Contextual vector grids for document processing |
RU2737720C1 (ru) * | 2019-11-20 | 2020-12-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение полей с помощью нейронных сетей без использования шаблонов |
-
2019
- 2019-11-20 US US16/689,498 patent/US11275934B2/en active Active
-
2020
- 2020-09-15 CN CN202010965171.3A patent/CN112825129A/zh active Pending
- 2020-09-25 AU AU2020239769A patent/AU2020239769A1/en active Pending
- 2020-10-07 JP JP2020169800A patent/JP7239533B2/ja active Active
- 2020-11-06 EP EP20206100.8A patent/EP3825920A1/en not_active Ceased
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105940395A (zh) * | 2014-01-31 | 2016-09-14 | 谷歌公司 | 生成文档的矢量表示 |
US10387531B1 (en) * | 2015-08-18 | 2019-08-20 | Google Llc | Processing structured documents using convolutional neural networks |
CN106991639A (zh) * | 2015-12-12 | 2017-07-28 | 达索系统公司 | 多分辨率图像系统 |
CN106845440A (zh) * | 2017-02-13 | 2017-06-13 | 山东万腾电子科技有限公司 | 一种增强现实图像处理方法及系统 |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN109885842A (zh) * | 2018-02-22 | 2019-06-14 | 谷歌有限责任公司 | 处理文本神经网络 |
CN109992752A (zh) * | 2019-03-07 | 2019-07-09 | 平安科技(深圳)有限公司 | 合同文件的标签标记方法、装置、计算机装置及存储介质 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN109871909A (zh) * | 2019-04-16 | 2019-06-11 | 京东方科技集团股份有限公司 | 图像识别方法及装置 |
CN110321560A (zh) * | 2019-06-25 | 2019-10-11 | 北京邮电大学 | 一种从文本信息中确定位置信息的方法、装置及电子设备 |
Non-Patent Citations (5)
Title |
---|
"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", PROCEEDINGS OF NAACL-HLT 2019, 7 June 2019 (2019-06-07), pages 4171 * |
"BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding", ARXIV, 14 October 2019 (2019-10-14) * |
刘树春,贺盼,马建奇等: "深度实践OCR 基于深度学习的文字识别", 31 May 2020, 机械工业出版社, pages: 306 - 310 * |
杨露菁,吉文阳,郝卓楠,李翀伦,吴俊锋: "智能图像处理及应用", 31 March 2019, 中国铁道出版社, pages: 155 - 157 * |
高扬: "人工智能与机器人先进技术丛书 智能摘要与深度学习", 30 April 2019, pages: 45 - 55 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807222A (zh) * | 2021-09-07 | 2021-12-17 | 中山大学 | 基于稀疏采样进行端到端训练的视频问答方法与系统 |
CN113807222B (zh) * | 2021-09-07 | 2023-06-27 | 中山大学 | 基于稀疏采样进行端到端训练的视频问答方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
JP7239533B2 (ja) | 2023-03-14 |
EP3825920A1 (en) | 2021-05-26 |
JP2021082266A (ja) | 2021-05-27 |
US20210150201A1 (en) | 2021-05-20 |
US11275934B2 (en) | 2022-03-15 |
AU2020239769A1 (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11275934B2 (en) | Positional embeddings for document processing | |
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN106570456B (zh) | 基于全卷积递归网络的手写汉字文本识别方法 | |
WO2022001623A1 (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN110569846A (zh) | 图像文字识别方法、装置、设备及存储介质 | |
US20200082218A1 (en) | Optical character recognition using end-to-end deep learning | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN114022900A (zh) | 检测模型的训练方法、检测方法、装置、设备和介质 | |
CN114254071B (zh) | 从非结构化文档中查询语义数据 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
US20220171967A1 (en) | Model-independent confidence values for extracted document information using a convolutional neural network | |
CN110134965A (zh) | 用于信息处理的方法、装置、设备和计算机可读存储介质 | |
US20230206522A1 (en) | Training method for handwritten text image generation mode, electronic device and storage medium | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN112328655A (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
US11687712B2 (en) | Lexical analysis training of convolutional neural network by windows of different lengths with matrix of semantic vectors | |
US11507744B2 (en) | Information processing apparatus, information processing method, and computer-readable recording medium | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN114612921A (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
JP2023062150A (ja) | 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 | |
CN112801099A (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN118193668A (zh) | 一种文本实体关系抽取的方法和装置 | |
US11138424B2 (en) | Contextual vector grids for document processing | |
CN115982363A (zh) | 基于提示学习的小样本关系分类方法、系统、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |