CN113033380A - 一种文本标注方法 - Google Patents

一种文本标注方法 Download PDF

Info

Publication number
CN113033380A
CN113033380A CN202110306681.4A CN202110306681A CN113033380A CN 113033380 A CN113033380 A CN 113033380A CN 202110306681 A CN202110306681 A CN 202110306681A CN 113033380 A CN113033380 A CN 113033380A
Authority
CN
China
Prior art keywords
text
text box
image
automatic detection
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110306681.4A
Other languages
English (en)
Other versions
CN113033380B (zh
Inventor
张书源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ccb Lanzhi Technology Beijing Co ltd
Original Assignee
Ccb Lanzhi Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ccb Lanzhi Technology Beijing Co ltd filed Critical Ccb Lanzhi Technology Beijing Co ltd
Priority to CN202110306681.4A priority Critical patent/CN113033380B/zh
Publication of CN113033380A publication Critical patent/CN113033380A/zh
Application granted granted Critical
Publication of CN113033380B publication Critical patent/CN113033380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种文本标注方法,包括以下步骤:S1:通过对图像进行人工标注与OCR系统自动识别分别得到实体文字框以及自动检测文字框;S2:计算实体文字框与自动检测文字框的重叠度,根据重叠度链接两个文字框,得到自动检测文字框的文字信息;S3:根据实体文字框从图像中将实体文字影像切出,得到文字条影像;S4:将得到的文字条影像送入OCR系统进行识别;S5:将步骤S4中识别出来的文本与步骤S2中自动检测文字框中识别到的文本进行匹配,生成文本标注数据。本发明中的文本标注方法,通过在图像上标注实体,能够做到标注和OCR系统解耦,使OCR系统的迭代升级不会对标注结果造成影响。

Description

一种文本标注方法
技术领域
本发明涉及文本信息抽取领域,具体而言,涉及一种文本标注方法。
背景技术
在智能文档领域中,信息抽取任务是一个很常见的任务,它的主要目标是从文档中抽取一些实体信息比如,公司名,日期。这些实体信息散落在图片中的各个位置。
现有实现文档信息抽取的常见方法包括:
1、将图片送入到光学字符识别(Optical Character Recognition,简称OCR)系统中,OCR系统输出文字区域坐标和该区域的文字(输出会有一定的错误);
2、在OCR系统输出的文本上标注实体信息;
3、将标注好的文本,送入到神经网络中的训练模型,对实体信息进行抽取。
在经济贸易活动中,很多关键要素信息(比如:公司名,日期,金额)是存储在票据的影像中。目前,已经存在各种各样的OCR技术,将这些票据的影像字符转换为计算机能理解的文本编码。但是如何抽取这些票据中的要素信息,还需要借助自然语言处理(NaturalLanguage Processing,简称NLP)技术来实现关键要素的抽取,所以,如何对这些OCR系统输出的自然语言文本进行标注,标注格式是怎样的,就十分重要。
在现有文档信息抽取过程中,因为标注是在OCR系统的结果上进行的,而OCR系统则是不断更新迭代升级的,所以当OCR系统模型改变之后,OCR系统输出的文本错误分布和上一个模型的文本错误分布会有一些差别,导致之前标注数据训练出的模型在新的OCR系统上抽取效果下降,标注和OCR系统严重耦合。
发明内容
针对现有技术存在的问题,本发明提供了一种文本标注方法,能够消减因OCR系统不断更新,对后续训练模型实体信息抽取效果的影响。
第一方面,本发明提供的一种文本标注方法,包括以下步骤:
S1:通过对图像进行人工标注与OCR系统自动识别分别得到实体文字框以及自动检测文字框;
S2:计算实体文字框与自动检测文字框的重叠度,根据重叠度链接两个文字框,得到自动检测文字框的文本;
S3:根据实体文字框从图像中将实体文字影像切出,得到文字条影像;
S4:将得到的文字条影像送入OCR系统进行识别;
S5:将步骤S4中识别出来的文本与步骤S2中自动检测文字框中识别到的文本进行匹配,生成文本标注数据。
进一步,步骤S1中,还包括得到实体文字框的坐标信息,以及通过pixelink算法得到自动检测文字框的坐标信息。
进一步,步骤S1及步骤S2之间还包括对自动检测文字框的坐标信息进行还原,以使OCR系统自动识别后的文字框坐标还原为原始图像的坐标。
进一步,以图像的左上角为坐标原点,坐标还原包括:
当图像缩放m倍后:
x=1/m*x0
y=1/m*y0
当图像平移(a,b)距离后:
x=x0-a
y=y0-b;
当图像逆时针旋转θ后:
x=(x0*sinθ-y0*cosθ)/(sin2θ-cos2θ)
y=(y0*sinθ-x0*cosθ)/(sin2θ-cos2θ);
其中:x0,y0为自动检测文字框的坐标,x,y为还原为原始图像的坐标。
进一步,步骤S2中,通过实体文字框的坐标信息与自动检测文字框经过还原后的坐标信息计算重叠度。
进一步,步骤S2中,计算实体文字框与自动检测文字框的重叠度包括:
Figure BDA0002987982970000031
其中:IOU为重叠度,I(X)为两个文字框的交集,U(X)为两个文字框的并集。
进一步,步骤S2中,如果实体文字框与自动检测文字框的重叠度大于0.7,对实体文字框与自动检测文字框进行链接。
进一步,步骤S5中,通过正则表达式,以及最长公共子序列算法对文本进行匹配。
第二方面,本发明公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述方法的步骤。
第三方面,本发明公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述方法的步骤。
本发明中的文本标注方法,通过在图像上标注实体,能够做到标注和OCR系统解耦,使OCR系统的迭代升级不会对标注结果造成影响。
同时也避免了因OCR系统升级前后文本错误分布之间的差别对训练模型抽取效果的影响,有效提高了实体信息抽取的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例示出的文本标注方法的流程示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,本发明提供的文本标注方法,包括如下步骤:
S1:通过对图像进行人工标注与OCR系统自动识别分别得到实体文字框以及自动检测文字框;
S2:计算实体文字框与自动检测文字框的重叠度,根据重叠度链接两个文字框,得到自动检测文字框的文本;
S3:根据实体文字框从图像中将实体文字影像切出,得到文字条影像;
S4:将得到的文字条影像送入OCR系统进行识别;
S5:将步骤S4中识别出来的文本与步骤S2中自动检测文字框中识别到的文本进行匹配,生成文本标注数据。
现有的OCR系统都是不断更新迭代升级的,每隔一段时间更新一次,当OCR系统出现变化后,OCR系统输出得到文本都会产生一定的差别,例如:
以前会hello识别成hell0,还完之后会把hello识别成hollo。
因此在OCR系统输出结果中,标注数据对于系统的依赖非常大,OCR系统升级后会导致之前的标注数据不可用。
根据第一版OCR系统输出结果得到的标注数据送入神经网络训练出来的模型,严重影响了在新版OCR系统上的抽取效果。
通过在图像上进行人工标注,当OCR系统更新升级后,能够自动生成最新的标注集,并将标注集送入神经网络重新训练数据,能够有效保证抽取结果的准确性。
在图像中尤其是在票据中,文字的内容信息和位置信息同样重要,所以在标注的过程中,不仅需要标注文字内容,同时还要保留文字的位置信息。
通过在图像上人工标注得到实体文字框的坐标信息,并通过pixelink算法得到OCR系统自动检测文字框的坐标信息。在得到上述两种文字框的坐标信息后,计算两种文字框的重叠度。
需要指出,得到人工标注实体文字框的坐标信息,与通过pixelink算法得到自动检测文字框的坐标信息两个步骤可以并行,也可以串行,在此进行说明。
在计算两种文字框的重叠度之前,由于原始图像在经过OCR系统识别时,会进行缩放、旋转、平移等操作,所以,OCR系统得到的自动检测文字框的坐标信息和原始的影像中的坐标信息会有偏差,因此需要对自动检测文字框的坐标信息进行还原处理,以使OCR系统自动识别后的文字框坐标还原为原始图像的坐标。
在进行坐标还原的过程中,首先以图像的左上角为坐标原点,坐标还原的具体过程包括以下几种形式:
当图像缩放m倍后:
x=1/m*x0
y=1/m*y0
当图像平移(a,b)距离后:
x=x0-a
y=y0-b;
当图像逆时针旋转θ后:
x=(x0*sinθ-y0*cosθ)/(sin2θ-cos2θ)
y=(y0*sinθ-x0*cosθ)/(sin2θ-cos2θ);
其中:x0,y0为自动检测文字框的坐标,x,y为还原为原始图像的坐标。
通过坐标还原,能够更加真实地反应自动检测文字框在原始图像上的坐标,并通过与人工标注实体文字框进行重叠度分析,保证了标注过程的准确度。
在计算重叠度时,通过实体文字框的坐标信息与自动检测文字框经过还原后的坐标信息进行计算。每个文字框的坐标信息包括左上,左下,右上以及右下四个点,通过四个点构成的矩形区域来对实体文字框以及自动检测文字框的重叠度进行分析。
计算实体文字框与自动检测文字框的重叠度包括:
Figure BDA0002987982970000061
其中:IOU为重叠度,I(X)为两个文字框的交集,U(X)为两个文字框的并集。
通过重叠度判断两个文字框是否能够链接,当重叠度超过阈值,则认为自动检测文字框能够对应图片上的标签。本发明中的阈值为0.7,如果两个文字框的重叠度超过0.7,则可进行后续实体文字框与自动检测文字框的链接匹配。
例如:人工标注中的实体文字框标注了China的文字框,OCR系统识别的自动检测文字框标注了hello China的文字框,China的文字框,包含于hello China的文字框,重叠度100%,即可进行两个文字框的链接。
在链接过程中,得到自动检测文字框中的文字信息。
然后根据实体文字框从图像中将该实体文字框的实体文字影像切出,得到文字条影像,并将该文字条影像送入OCR系统进行识别得到实体文字框中的文字信息。
最后将实体文字框中的文字信息与在链接过程中得到的自动检测文字框中的文字信息进行匹配,最终生成文本标注数据。
在上文所述的基础上继续通过实例形式进行说明,因为两个文字框的重叠度为100%,将两个文字框进行链接后能够得到hello China的文字串,该文字串为两个文字框链接合并后得到的文字串。
然后将包含有China的实体文字框在图像中所对应的实体文字影像切出得到文字条影像,将该文字条影像送入OCR系统进行识别得到China的文字串。最后将China与helloChina进行匹配,最终把hello China中的China标注上国家实体的标签。
在匹配过程中,通过正则表达式,以及最长公共子序列(Longest CommonSubsequence,LCS)算法对文本进行匹配。
通过本发明中的文本标注方法,能够做到标注和OCR系统解耦,使实体信息抽取训练模型能够对最新版本OCR系统生成的标注集进行抽取训练,而使其抽取效果不受OCR系统不可避免的迭代更新的影响,提高了对实体信息抽取的准确性。
本申请实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的一种文本标注方法,存储介质是任何的各种类型的存储器设备或存储设备,存储介质包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等;存储介质可以还包括其它类型的存储器或其组合;另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统;第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现文本标注方法的步骤。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上实施例所述的文本标注方法,还可以执行本申请任意实施例所提供的文本标注方法中的相关操作。
最后应说明的是:虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (8)

1.一种文本标注方法,其特征在于,包括如下步骤:
S1:通过对图像进行人工标注与OCR系统自动识别分别得到实体文字框以及自动检测文字框;
S2:计算实体文字框与自动检测文字框的重叠度,根据重叠度链接两个文字框,得到自动检测文字框的文本;
S3:根据实体文字框从图像中将实体文字影像切出,得到文字条影像;
S4:将得到的文字条影像送入OCR系统进行识别;
S5:将步骤S4中识别出来的文本与步骤S2中自动检测文字框中识别到的文本进行匹配,生成文本标注数据。
2.根据权利要求1所述的文本标注方法,其特征在于,步骤S1中,还包括得到实体文字框的坐标信息,以及通过pixelink算法得到自动检测文字框的坐标信息。
3.根据权利要求2所述的文本标注方法,其特征在于,步骤S1及步骤S2之间还包括对自动检测文字框的坐标信息进行还原,以使OCR系统自动识别后的文字框坐标还原为原始图像的坐标。
4.根据权利要求3所述的文本标注方法,其特征在于,以图像的左上角为坐标原点,坐标还原包括:
当图像缩放m倍后:
x=1/m*x0
y=1/m*y0
当图像平移(a,b)距离后:
x=x0-a
y=y0-b;
当图像逆时针旋转θ后:
x=(x0*sinθ-y0*cosθ)/(sin2θ-cos2θ)
y=(y0*sinθ-x0*cosθ)/(sin2θ-cos2θ);
其中:x0,y0为自动检测文字框的坐标,x,y为还原为原始图像的坐标。
5.根据权利要求2所述的文本标注方法,其特征在于,步骤S2中,通过实体文字框的坐标信息与自动检测文字框经过还原后的坐标信息计算重叠度。
6.根据权利要求5所述的文本标注方法,其特征在于,步骤S2中,计算实体文字框与自动检测文字框的重叠度包括:
Figure FDA0002987982960000021
其中:IOU为重叠度,I(X)为两个文字框的交集,U(X)为两个文字框的并集。
7.根据权利要求6所述的文本标注方法,其特征在于,步骤S2中,如果实体文字框与自动检测文字框的重叠度大于0.7,对实体文字框与自动检测文字框进行链接。
8.根据权利要求1所述的文本标注方法,其特征在于,步骤S5中,通过正则表达式,以及最长公共子序列算法对文本进行匹配。
CN202110306681.4A 2021-03-23 2021-03-23 一种文本标注方法 Active CN113033380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110306681.4A CN113033380B (zh) 2021-03-23 2021-03-23 一种文本标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110306681.4A CN113033380B (zh) 2021-03-23 2021-03-23 一种文本标注方法

Publications (2)

Publication Number Publication Date
CN113033380A true CN113033380A (zh) 2021-06-25
CN113033380B CN113033380B (zh) 2024-03-26

Family

ID=76472982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110306681.4A Active CN113033380B (zh) 2021-03-23 2021-03-23 一种文本标注方法

Country Status (1)

Country Link
CN (1) CN113033380B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743416A (zh) * 2021-08-24 2021-12-03 的卢技术有限公司 一种ocr领域针对无真实样本情形的数据增强方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130300900A1 (en) * 2012-05-08 2013-11-14 Tomas Pfister Automated Recognition Algorithm For Detecting Facial Expressions
CN109657629A (zh) * 2018-12-24 2019-04-19 科大讯飞股份有限公司 一种文本行提取方法及装置
CN109800750A (zh) * 2019-01-25 2019-05-24 济南浪潮高新科技投资发展有限公司 一种基于图像形态学用于规则排版的文本的文字区域标注方法
CN110516554A (zh) * 2019-07-31 2019-11-29 杭州电子科技大学 一种多场景多字体中文文字检测识别方法
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
US20200104586A1 (en) * 2018-09-28 2020-04-02 Konica Minolta Laboratory U.S.A., Inc. Method and system for manual editing of character recognition results
CN111797827A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种文字方向混排的自动化ocr识别方法
CN112418216A (zh) * 2020-11-18 2021-02-26 湖南师范大学 一种复杂自然场景图像中的文字检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130300900A1 (en) * 2012-05-08 2013-11-14 Tomas Pfister Automated Recognition Algorithm For Detecting Facial Expressions
US20200104586A1 (en) * 2018-09-28 2020-04-02 Konica Minolta Laboratory U.S.A., Inc. Method and system for manual editing of character recognition results
CN109657629A (zh) * 2018-12-24 2019-04-19 科大讯飞股份有限公司 一种文本行提取方法及装置
CN109800750A (zh) * 2019-01-25 2019-05-24 济南浪潮高新科技投资发展有限公司 一种基于图像形态学用于规则排版的文本的文字区域标注方法
CN110516554A (zh) * 2019-07-31 2019-11-29 杭州电子科技大学 一种多场景多字体中文文字检测识别方法
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
CN111797827A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种文字方向混排的自动化ocr识别方法
CN112418216A (zh) * 2020-11-18 2021-02-26 湖南师范大学 一种复杂自然场景图像中的文字检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743416A (zh) * 2021-08-24 2021-12-03 的卢技术有限公司 一种ocr领域针对无真实样本情形的数据增强方法
CN113743416B (zh) * 2021-08-24 2024-03-05 的卢技术有限公司 一种ocr领域针对无真实样本情形的数据增强方法

Also Published As

Publication number Publication date
CN113033380B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
KR101122854B1 (ko) 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
US9268999B2 (en) Table recognizing method and table recognizing system
US7697757B2 (en) Computer assisted document modification
US11393233B2 (en) System for information extraction from form-like documents
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
CN114694165A (zh) 一种pid图纸智能识别与重绘方法
CN113033380A (zh) 一种文本标注方法
Choudhury et al. Automatic metadata extraction incorporating visual features from scanned electronic theses and dissertations
Toyozumi et al. A study of symbol segmentation method for handwritten mathematical formula recognition using mathematical structure information
EP4323976A2 (en) Inferring structure information from table images
CN117083605A (zh) 用于文本-图像-布局变换器模型的迭代训练
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
EP4167106A1 (en) Method and apparatus for data structuring of text
CN110688842A (zh) 一种文档标题层级的分析方法、装置及服务器
CN112818824B (zh) 一种基于机器学习的非固定格式单据信息的抽取方法
Aldavert et al. Automatic static/variable content separation in administrative document images
CN114090901A (zh) 一种基于多模融合特征的暗网相似商品判定方法、存储介质及计算装置
CN112287763A (zh) 图像处理方法、装置、设备及介质
CN112818823B (zh) 一种基于票据内容和位置信息的文本抽取方法
Yue Automated receipt image identification cropping and parsing
JP2020166658A (ja) 情報処理装置、情報処理方法及びプログラム
CN115995087B (zh) 基于融合视觉信息的文档目录智能生成方法及系统
Kurhekar et al. Automated text and tabular data extraction from scanned document images
Kinney et al. Using Image Processing for Architecture Extraction from Non-Standard Sources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100037 409c, 4th floor, 31 Fuchengmenwai street, Xicheng District, Beijing

Applicant after: Jinke Lanzhi Technology (Beijing) Co.,Ltd.

Address before: 100037 409c, 4th floor, 31 Fuchengmenwai street, Xicheng District, Beijing

Applicant before: CCB Lanzhi Technology (Beijing) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant