CN111507354A - 信息抽取方法、装置、设备以及存储介质 - Google Patents
信息抽取方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN111507354A CN111507354A CN202010306625.6A CN202010306625A CN111507354A CN 111507354 A CN111507354 A CN 111507354A CN 202010306625 A CN202010306625 A CN 202010306625A CN 111507354 A CN111507354 A CN 111507354A
- Authority
- CN
- China
- Prior art keywords
- document image
- information
- target document
- key point
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 230000009466 transformation Effects 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007639 printing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241001422033 Thestylus Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G06V30/1902—Shifting or otherwise transforming the patterns to accommodate for positional errors
- G06V30/19067—Matching configurations of points or features, e.g. constellation matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了信息抽取方法、装置、设备以及存储介质,涉及图像处理技术领域。该方法的一具体实施方式包括:获取与目标文档影像的类别对应的位置模板;确定目标文档影像上的关键点位置;基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵;基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置;对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。该实施方式通过构建特定类别的文档影像的位置模板,来确定该类别的文档影像对应的信息位置,从文档影像对应的信息位置处抽取信息,实现了简单、快速地信息抽取。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及图像处理技术领域。
背景技术
随着AI(Artificial Intelligence,人工智能)技术的不断进步,使用AI来进行文档影像的智能分析越来越多。AI可以对文档影像进行方向和歪斜矫正、布局分析、内容识别等等,这些能力可以极大地方便各类涉及对文档影像进行录入、审核等的工作人员,极大地提升各类业务流程的智能化。
针对文档影像上的信息进行抽取,特别是对各种表单进行信息抽取的应用场景十分广泛。目前,对文档影像进行信息抽取的主要方式是首先对整个文档影像进行光学字符识别(optical character recognition,OCR),然后对获取的结果进行结构化,抽取对应信息。针对含有表格的文档影像,首先是进行表格范围重建,获取到每个单元格的位置,然后对每个单元格分别进行光学字符识别,最后根据表头等情况进行结构化,抽取对应信息。
发明内容
本申请实施例提出了信息抽取方法、装置、设备以及存储介质。
第一方面,本申请实施例提出了一种信息抽取方法,包括:获取与目标文档影像的类别对应的位置模板;确定目标文档影像上的关键点位置;基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵;基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置;对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。
第二方面,本申请实施例提出了一种信息抽取装置,包括:位置模板获取模块,被配置成获取与目标文档影像的类别对应的位置模板;关键点位置确定模块,被配置成确定目标文档影像上的关键点位置;变换矩阵生成模块,被配置成基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵;关键点位置确定模块,被配置成基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置;信息抽取模块,被配置成对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。
第三方面,本申请实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
本申请实施例提供的信息抽取方法、装置、设备以及存储介质,首先获取与目标文档影像的类别对应的位置模板;之后确定目标文档影像上的关键点位置;而后基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵;然后基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置;最后对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。通过构建特定类别的文档影像的位置模板,来确定该类别的文档影像对应的信息位置,从文档影像对应的信息位置处抽取信息,实现了简单、快速地信息抽取。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请可以应用于其中的示例性系统架构;
图2是根据本申请的信息抽取方法的一个实施例的流程图;
图3是根据本申请的信息抽取方法的又一个实施例的流程图;
图4A示出了文档影像的一个示意图;
图4B示出了变换文档影像的一个示意图;
图5是根据本申请的信息抽取装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的信息抽取方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息抽取方法或信息抽取装置的实施例的示例性系统架构100。
如图1所示,系统架构100中可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种客户端应用,例如文档智能处理应用、图像处理应用等等。
终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103可以提供各种服务。例如,服务器103可以对从终端设备101获取到的目标文档影像等数据进行分析等处理,并生成处理结果(例如目标文档影像中的信息)。
需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的信息抽取方法一般由服务器103执行,相应地,信息抽取装置一般设置于服务器103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在服务器103中存储有目标文档影像的情况下,系统架构100可以不设置终端设备101和网络102。
继续参考图2,其示出了根据本申请的信息抽取方法的一个实施例的流程200。该信息抽取方法包括以下步骤:
步骤201,获取与目标文档影像的类别对应的位置模板。
在本实施例中,信息抽取方法的执行主体(例如图1所示的服务器103)可以首先确定目标文档影像的类别;然后基于目标文档影像的类别获取对应的位置模板。其中,目标文档影像是需要进行信息抽取的文档影像。在一些实施例中,若上述执行主体本地存储有目标文档影像,上述执行主体可以从本地直接获取目标文档影像。在一些实施例中,若终端设备(例如图1所示的终端设备101)存储有目标文档影像,用户可以利用终端设备将目标文档影像发送至上述执行主体。
通常,同一类别的文档影像对应同一位置模板。同一类别的文档影像可以具有相同的布局,而同一类别的不同文档影像可以具有不同的信息内容。此外,而同一类别的不同文档影像还可以具有不同的朝向、倾斜等等。例如,同一银行的一个版本的存款利息清单的影像属于同一类别。不同银行的存款利息清单或同一银行的不同版本的存款利息清单的影像属于不同类别。文档影像上会存在多种类别的信息,例如,一家银行的一个版本的存款利息清单上可以存在姓名、账户/卡号、实付本息、本金、利息、税率、应税利息、代扣税金、税后利息等多种类别的信息。
其中,一种类别的文档影像对应的位置模板上可以设置有该类别的标准文档影像上的关键点的位置,以及其上的各种类别的信息的位置。同一类别的文档影像对应一个标准文档影像。标准文档影像是固定尺寸、固定朝向、固定倾斜度(通常无倾斜)等的文档影像。
文档影像上的关键点可以是包含该文档影像上的所有信息的边框上的点的。通常,文档影像上的关键点必须包括边框上的四个顶点,此外,文档影像上的关键点还可以包括边框上的其他点。因此,文档影像包括至少四个关键点。例如,对于有边框类别的文档影像,其关键点可以包括边框的四个顶点。对针打类别的文档影像,其关键点可以包括针打打印时的四个标志点。
文档影像上的信息位置可以是包含该信息的边框上的对角点,例如包含该信息的边框上的左上顶点和右下顶点。
以含有表格的文档影像为例,表格的四个顶点可以是该文档影像上的关键点位置,单元格的左上顶点和右下顶点可以是该文档影像上的信息位置。
这里,各种类别的文档影像对应的位置模板可以预先生成。以目标文档影像对应的位置模板为例,其生成步骤如下:
首先,获取与目标文档影像的类别相同的标准文档影像,以及标准文档影像上的关键点位置和信息位置。
然后,基于标准文档影像上的关键点位置和信息位置对标准文档影像进行标注,生成位置模板。
步骤202,确定目标文档影像上的关键点位置。
在本实施例中,上述执行主体可以确定目标文档影像上的关键点位置。其中,关键点位置可以是关键点的坐标。
通常,上述执行主体可以基于传统或深度学习的关键点检测技术,来确定目标文档影像上的关键点位置。其中,基于传统的关键点检测技术可以用于对有边框类别的文档影像进行关键点检测。具体地,上述执行主体可以首先检测文档影像中的边框的轮廓点,然后基于一定的策略从轮廓点中确定关键点。例如,为轮廓点添加外接圆,处于外接圆上的轮廓点就是关键点。基于深度学习的关键点检测技术可以应用于任意类别的文档影像进行关键点检测。例如,利用多层卷积神经网络检测文档影像上的关键点。多层卷积神经网络中可以包括全连接层,也可以不包括全连接层。在包括全连接层的情况下,其输出可以是关键点的坐标。在不包括全连接层的情况下,其输出可以是热力图。热力图上的各个点的热力值可以表征各个点是关键点的概率,热力值越大,对应的点是关键点的概率就越大。
步骤203,基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵。
在本实施例中,上述执行主体可以基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵。
通常,变换矩阵可以是能够实现目标文档影像和位置模板之间映射的矩阵,存储目标文档影像上的点和位置模板上的点之间的映射关系。其中,变换矩阵可以是第一变换矩阵或第二变化矩阵。第一变换矩阵可以是从目标文档影像映射到位置模板的矩阵,存储目标文档影像上的点到位置模板上的点的映射关系。而基于目标文档影像上的关键点位置和位置模板上的关键点位置,能够确定从目标文档影像到位置模板的映射关系,从而生第一变换矩阵。第二变换矩阵可以是从位置模板映射到目标文档影像的矩阵,存储位置模板上的点到目标文档影像上的点的映射关系。而基于位置模板上的关键点位置和目标文档影像上的关键点位置,能够确定从位置模板到目标文档影像的映射关系,从而生第二变换矩阵。
步骤204,基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置。
在本实施例中,上述执行主体可以基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置。
在一些实施例中,若变换矩阵是第一变换矩阵,上述执行主体可以首先基于第一变换矩阵对目标文档影像进行变换,得到变换文档影像;然后将位置模板上的信息位置作为变换后文档影像上的信息位置。由于第一变换矩阵是从目标文档影像映射到位置模板的矩阵,因此基于第一变换矩阵对目标文档影像进行变换,能够将目标文档影像标准化为变换文档影像。由于变换文档影像的尺寸、朝向、倾斜等被标准化为与位置模板一致,因此变换文档影像上的信息位置与位置模板上的信息位置一致。
在一些实施例中,若变换矩阵是第二变换矩阵,上述执行主体可以基于第二变换矩阵对位置模板上的信息位置进行变换,得到目标文档影像上的信息位置。由于第二变换矩阵是从位置模板映射到目标文档影像的矩阵,因此基于第二变换矩阵对位置模板上的信息位置进行变换,能够将位置模板上的信息位置变换为目标文档影像上的信息位置。
步骤205,对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。
在本实施例中,上述执行主体可以对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。例如,对目标文档影像对应的信息位置处进行光学字符识别,其识别结果即为目标文档影像中的信息。
本申请实施例提供的信息抽取方法,首先获取与目标文档影像的类别对应的位置模板;之后确定目标文档影像上的关键点位置;而后基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵;然后基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置;最后对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。通过构建特定类别的文档影像的位置模板,来确定该类别的文档影像对应的信息位置,从文档影像对应的信息位置处抽取信息,实现了简单、快速地信息抽取。解决了现有技术中结构化效果差的技术问题,能够适用于现有技术结构化效果差尤其明显的含有手写字号大、针打内容偏移等场景。
进一步地,本申请实施例提供的信息抽取方法可以集成到各种文档智能处理平台中,作为平台功能的扩展,帮助平台在抽取相关文档影像的信息等任务中获取更好的效果。
进一步参考图3,其示出了根据本申请的信息抽取方法的又一个实施例的流程300。该信息抽取方法包括以下步骤:
步骤301,获取与目标文档影像的类别对应的位置模板。
在本实施例中,步骤301具体操作已在图2所示的实施例中步骤201进行了详细的介绍,在此不再赘述。
步骤302,获取与目标文档影像的类别对应的关键点检测模型。
在本实施例中,信息抽取方法的执行主体(例如图1所示的服务器103)可以获取与目标文档影像的类别对应的关键点检测模型。
通常,同一类别的文档影像对应同一关键点检测模型。关键点检测模型可以用于检测对应类别的文档影像上的关键点位置。关键点检测模型是基于深度学习的关键点检测技术,可以通过深度学习训练得到。
以与目标文档影像的类别对应的关键点检测模型为例,其训练步骤如下:
首先,获取与目标文档影像的类别相同的文档影像集,以及文档影像集中的文档影像上的关键点位置。
其中,文档影像集中可以包括大量与目标文档影像的类别相同的文档影像。
然后,基于文档影像集中的文档影像上的关键点位置对对应的文档影像进行标注,生成样本文档影像集。
最后,利用样本文档影像集训练得到关键点检测模型。
通常,将样本文档影像集中的样本文档影像作为输入,将输入的样本文档影像标注的关键点位置作为输出,对多层卷积神经网络进行训练,能够得到关键点检测模型。
步骤303,将目标文档影像输入至关键点检测模型,得到目标文档影像上的关键点位置。
在本实施例中,上述执行主体可以将目标文档影像输入至关键点检测模型,得到目标文档影像上的关键点位置。
通常,关键点检测模型可以应用于任意类别的文档影像进行关键点检测。关键点检测模型中可以包括全连接层,也可以不包括全连接层。在包括全连接层的情况下,其输出可以是关键点的坐标。在不包括全连接层的情况下,其输出可以是热力图。热力图上的各个点的热力值可以表征各个点是关键点的概率,热力值越大,对应的点是关键点的概率就越大。
步骤304,生成目标文档影像上的关键点位置到位置模板上的关键点位置的第一变换矩阵。
在本实施例中,上述执行主体可以生成目标文档影像上的关键点位置到位置模板上的关键点位置的第一变换矩阵。
通常,第一变换矩阵可以是从目标文档影像映射到位置模板的矩阵,存储目标文档影像上的点到位置模板上的点的映射关系。而基于目标文档影像上的关键点位置和位置模板上的关键点位置,能够确定从目标文档影像到位置模板的映射关系,从而生第一变换矩阵。
步骤305,基于第一变换矩阵对目标文档影像进行变换,得到变换文档影像。
在本实施例中,上述执行主体可以基于第一变换矩阵对目标文档影像进行变换,得到变换文档影像。由于第一变换矩阵是从目标文档影像映射到位置模板的矩阵,因此基于第一变换矩阵对目标文档影像进行变换,能够将目标文档影像标准化为变换文档影像。其中,变换文档影像的尺寸、朝向、倾斜等被标准化为与标准文档影像一致。
步骤306,将位置模板上的信息位置作为变换后文档影像上的信息位置。
在本实施例中,上述执行主体可以将位置模板上的信息位置作为变换后文档影像上的信息位置。由于变换文档影像的尺寸、朝向、倾斜等被标准化为与位置模板一致,因此变换文档影像上的信息位置与位置模板上的信息位置一致。
步骤307,对变换后文档影像上的信息位置处的信息进行抽取,得到目标文档影像中的信息。
在本实施例中,上述执行主体可以对变换后文档影像上的信息位置处的信息进行抽取,得到目标文档影像中的信息。例如,对变换后文档影像上的信息位置处进行光学字符识别,其识别结果即为目标文档影像中的信息。
从图3中可以看出,与图2对应的实施例相比,本实施例中的信息抽取方法的流程300突出了关键点位置确定步骤和位置信息变换步骤。由此,在本实施例描述的方案中,利用关键点检测模型检测对应类别的文档影像上的关键点位置,可以应用于任意类别的文档影像进行关键点检测,提升了信息抽取的鲁棒性。通过构建特定类别的文档影像的关键点检测模型和位置模板,对文档影像通过位置对齐标准化,实现了简单、快速地信息抽取,具有鲁棒、高效、准确等特点。
为了便于理解,下面提供可以实现本申请实施例的信息抽取方法的场景。如图4A所示,其示出了中国XX银行的一个版本的存款利息清单的文档影像。文档影像上包括姓名、账户/卡号、实付本息、本金、利息、税率、应税利息、代扣税金、税后利息等几种类别的信息。由于针打打印时,信息内容整体向上偏移。此外,文档影像上的存款利息清单整体向右倾斜。若需要对图4A中的文档影像上的实付本息进行抽取,首先获取图4A中的影像对应的位置模板和关键点检测模型。之后,将图4A中的影像输入至关键点检测模型,输出针打打印图4A中的文档影像时的四个标志点A、B、C、D的坐标。而后,基于图4A中的文档影像上的标志点的坐标和位置模板上的标志点的坐标,生成能够从图4A中的文档影像映射到位置模板的第一变换矩阵。随后,基于第一变换矩阵对图4A中的文档影像进行变换,得到变换文档影像,具体如图4B所示。最后,在图4B中的变换文档影像上标注出位置模板上的实付本息的左上点E和右下点F,以及对左上点E和右下点F限定出的单元格进行抽取,得到实付本息为RMB20,988.65。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息抽取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的信息抽取装置500可以包括:位置模板获取模块501、关键点位置确定模块502、变换矩阵生成模块503、信息位置确定模块504和信息抽取模块505。其中,位置模板获取模块501,被配置成获取与目标文档影像的类别对应的位置模板;关键点位置确定模块502,被配置成确定目标文档影像上的关键点位置;变换矩阵生成模块503,被配置成基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵;信息位置确定模块504,被配置成基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置;信息抽取模块505,被配置成对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。
在本实施例中,信息抽取装置500中:位置模板获取模块501、关键点位置确定模块502、变换矩阵生成模块503、信息位置确定模块504和信息抽取模块505的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-205的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,关键点位置确定模块502进一步被配置成:获取与目标文档影像的类别对应的关键点检测模型;将目标文档影像输入至关键点检测模型,得到目标文档影像上的关键点位置。
在本实施例的一些可选的实现方式中,变换矩阵生成模块503进一步被配置成:生成目标文档影像上的关键点位置到位置模板上的关键点位置的第一变换矩阵;以及信息位置确定模块504进一步被配置成:基于第一变换矩阵对目标文档影像进行变换,得到变换文档影像;将位置模板上的信息位置作为变换后文档影像上的信息位置。
在本实施例的一些可选的实现方式中,变换矩阵生成模块503进一步被配置成:生成位置模板上的关键点位置到目标文档影像上的关键点位置的第二变换矩阵;以及信息位置确定模块504进一步被配置成:基于第二变换矩阵对位置模板上的信息位置进行变换,得到目标文档影像上的信息位置。
在本实施例的一些可选的实现方式中,信息抽取装置500还包括模型训练模块(图中未示出),模型训练模块进一步被配置成:获取与目标文档影像的类别相同的文档影像集,以及文档影像集中的文档影像上的关键点位置;基于文档影像集中的文档影像上的关键点位置对对应的文档影像进行标注,生成样本文档影像集;利用样本文档影像集训练得到关键点检测模型。
在本实施例的一些可选的实现方式中,信息抽取装置500还包括模板生成模块(图中未示出),模板生成模块进一步被配置成:获取与目标文档影像的类别相同的标准文档影像,以及标准文档影像上的关键点位置和信息位置;基于标准文档影像上的关键点位置和信息位置对标准文档影像进行标注,生成位置模板。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例信息抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的信息抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的信息抽取方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息抽取方法对应的程序指令/模块(例如,附图5所示的位置模板获取模块501、关键点位置确定模块502、变换矩阵生成模块503、信息位置确定模块504和信息抽取模块505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息抽取方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据信息抽取方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至信息抽取方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
信息抽取方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与信息抽取方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请的技术方案,首先获取与目标文档影像的类别对应的位置模板;之后确定目标文档影像上的关键点位置;而后基于目标文档影像上的关键点位置和位置模板上的关键点位置,生成变换矩阵;然后基于位置模板上的信息位置和变换矩阵,确定目标文档影像对应的信息位置;最后对目标文档影像对应的信息位置处的信息进行抽取,得到目标文档影像中的信息。通过构建特定类别的文档影像的位置模板,来确定该类别的文档影像对应的信息位置,从文档影像对应的信息位置处抽取信息,实现了简单、快速地信息抽取。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种信息抽取方法,包括:
获取与目标文档影像的类别对应的位置模板;
确定所述目标文档影像上的关键点位置;
基于所述目标文档影像上的关键点位置和所述位置模板上的关键点位置,生成变换矩阵;
基于所述位置模板上的信息位置和所述变换矩阵,确定所述目标文档影像对应的信息位置;
对所述目标文档影像对应的信息位置处的信息进行抽取,得到所述目标文档影像中的信息。
2.根据权利要求1所述的方法,其中,所述确定所述目标文档影像上的关键点位置,包括:
获取与所述目标文档影像的类别对应的关键点检测模型;
将所述目标文档影像输入至所述关键点检测模型,得到所述目标文档影像上的关键点位置。
3.根据权利要求1所述的方法,其中,所述基于所述目标文档影像上的关键点位置和所述位置模板上的关键点位置,生成变换矩阵,包括:
生成所述目标文档影像上的关键点位置到所述位置模板上的关键点位置的第一变换矩阵;以及
所述基于所述位置模板上的信息位置和所述变换矩阵,确定所述目标文档影像对应的信息位置,包括:
基于所述第一变换矩阵对所述目标文档影像进行变换,得到变换文档影像;
将所述位置模板上的信息位置作为所述变换后文档影像上的信息位置。
4.根据权利要求1所述的方法,其中,所述基于所述目标文档影像上的关键点位置和所述位置模板上的关键点位置,生成变换矩阵,包括:
生成所述位置模板上的关键点位置到所述目标文档影像上的关键点位置的第二变换矩阵;以及
所述基于所述位置模板上的信息位置和所述变换矩阵,确定所述目标文档影像对应的信息位置,包括:
基于所述第二变换矩阵对所述位置模板上的信息位置进行变换,得到所述目标文档影像上的信息位置。
5.根据权利要求2所述的方法,其中,所述关键点检测模型通过如下步骤训练:
获取与所述目标文档影像的类别相同的文档影像集,以及所述文档影像集中的文档影像上的关键点位置;
基于所述文档影像集中的文档影像上的关键点位置对对应的文档影像进行标注,生成样本文档影像集;
利用所述样本文档影像集训练得到所述关键点检测模型。
6.根据权利要求1-5之一所述的方法,其中,所述位置模板通过如下步骤生成:
获取与所述目标文档影像的类别相同的标准文档影像,以及所述标准文档影像上的关键点位置和信息位置;
基于所述标准文档影像上的关键点位置和信息位置对所述标准文档影像进行标注,生成所述位置模板。
7.一种信息抽取装置,包括:
位置模板获取模块,被配置成获取与目标文档影像的类别对应的位置模板;
关键点位置确定模块,被配置成确定所述目标文档影像上的关键点位置;
变换矩阵生成模块,被配置成基于所述目标文档影像上的关键点位置和所述位置模板上的关键点位置,生成变换矩阵;
信息位置确定模块,被配置成基于所述位置模板上的信息位置和所述变换矩阵,确定所述目标文档影像对应的信息位置;
信息抽取模块,被配置成对所述目标文档影像对应的信息位置处的信息进行抽取,得到所述目标文档影像中的信息。
8.根据权利要求7所述的装置,其中,所述关键点位置确定模块进一步被配置成:
获取与所述目标文档影像的类别对应的关键点检测模型;
将所述目标文档影像输入至所述关键点检测模型,得到所述目标文档影像上的关键点位置。
9.根据权利要求7所述的装置,其中,所述变换矩阵生成模块进一步被配置成:
生成所述目标文档影像上的关键点位置到所述位置模板上的关键点位置的第一变换矩阵;以及
所述信息位置确定模块进一步被配置成:
基于所述第一变换矩阵对所述目标文档影像进行变换,得到变换文档影像;
将所述位置模板上的信息位置作为所述变换后文档影像上的信息位置。
10.根据权利要求7所述的装置,其中,所述变换矩阵生成模块进一步被配置成:
生成所述位置模板上的关键点位置到所述目标文档影像上的关键点位置的第二变换矩阵;以及
所述信息位置确定模块进一步被配置成:
基于所述第二变换矩阵对所述位置模板上的信息位置进行变换,得到所述目标文档影像上的信息位置。
11.根据权利要求8所述的装置,其中,所述装置还包括模型训练模块,所述模型训练模块进一步被配置成:
获取与所述目标文档影像的类别相同的文档影像集,以及所述文档影像集中的文档影像上的关键点位置;
基于所述文档影像集中的文档影像上的关键点位置对对应的文档影像进行标注,生成样本文档影像集;
利用所述样本文档影像集训练得到所述关键点检测模型。
12.根据权利要求7-11之一所述的装置,其中,所述装置还包括模板生成模块,所述模板生成模块进一步被配置成:
获取与所述目标文档影像的类别相同的标准文档影像,以及所述标准文档影像上的关键点位置和信息位置;
基于所述标准文档影像上的关键点位置和信息位置对所述标准文档影像进行标注,生成所述位置模板。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306625.6A CN111507354B (zh) | 2020-04-17 | 2020-04-17 | 信息抽取方法、装置、设备以及存储介质 |
US17/085,178 US11468655B2 (en) | 2020-04-17 | 2020-10-30 | Method and apparatus for extracting information, device and storage medium |
KR1020210033307A KR102634484B1 (ko) | 2020-04-17 | 2021-03-15 | 정보 추출 방법, 장치, 기기 및 저장 매체 |
EP21163153.6A EP3816855A3 (en) | 2020-04-17 | 2021-03-17 | Method and apparatus for extracting information, device, storage medium and computer program product |
JP2021052750A JP7273087B2 (ja) | 2020-04-17 | 2021-03-26 | 情報抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306625.6A CN111507354B (zh) | 2020-04-17 | 2020-04-17 | 信息抽取方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507354A true CN111507354A (zh) | 2020-08-07 |
CN111507354B CN111507354B (zh) | 2023-12-12 |
Family
ID=71869460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010306625.6A Active CN111507354B (zh) | 2020-04-17 | 2020-04-17 | 信息抽取方法、装置、设备以及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11468655B2 (zh) |
EP (1) | EP3816855A3 (zh) |
JP (1) | JP7273087B2 (zh) |
KR (1) | KR102634484B1 (zh) |
CN (1) | CN111507354B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658159A (zh) * | 2021-08-24 | 2021-11-16 | 中山仰视科技有限公司 | 一种基于肺部关键点的肺部整体抽取方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507354B (zh) * | 2020-04-17 | 2023-12-12 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、设备以及存储介质 |
KR102629150B1 (ko) * | 2023-08-17 | 2024-01-25 | (주)유알피 | Ocr 수행 시 문서 구조화 태그를 활용한 표가 포함된복잡한 구조의 문서 인식으로 데이터셋을 구축하는 방법 |
KR102629133B1 (ko) * | 2023-08-17 | 2024-01-25 | (주)유알피 | 인공지능 학습 데이터셋 구축을 위한 광학 문자 인식및 문서 구조화 태그를 활용한 문서 인식 장치 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070009159A1 (en) * | 2005-06-24 | 2007-01-11 | Nokia Corporation | Image recognition system and method using holistic Harr-like feature matching |
JP2008228211A (ja) * | 2007-03-15 | 2008-09-25 | Sharp Corp | 画像出力方法、画像処理装置、画像形成装置、画像読取装置、コンピュータプログラム及び記録媒体 |
US20090324119A1 (en) * | 2008-06-30 | 2009-12-31 | Guy Rosman | Method of Correcting Digital Image Distortion Caused by a Sheet-Fed Scanner |
US20110243477A1 (en) * | 2010-04-05 | 2011-10-06 | Atalasoft, Inc. | Method for document to template alignment |
CN102236789A (zh) * | 2010-04-26 | 2011-11-09 | 富士通株式会社 | 对表格图像进行校正的方法以及装置 |
CN106803269A (zh) * | 2015-11-25 | 2017-06-06 | 富士通株式会社 | 对文档图像进行透视校正的方法和设备 |
CN107679490A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于检测图像质量的方法和装置 |
US20180089533A1 (en) * | 2016-09-27 | 2018-03-29 | Abbyy Development Llc | Automated methods and systems for locating document subimages in images to facilitate extraction of information from the located document subimages |
CN109558844A (zh) * | 2018-11-30 | 2019-04-02 | 厦门商集网络科技有限责任公司 | 基于图像归一化提升自定义模板识别率的方法及设备 |
CN109685026A (zh) * | 2018-12-28 | 2019-04-26 | 南通大学 | 一种驾驶员手持手机通话的实时监测方法 |
CN110070090A (zh) * | 2019-04-25 | 2019-07-30 | 上海大学 | 一种基于手写文字识别的物流标签信息检测方法及系统 |
CN110070491A (zh) * | 2019-03-16 | 2019-07-30 | 平安城市建设科技(深圳)有限公司 | 银行卡图片矫正方法、装置、设备及存储介质 |
JP6554193B1 (ja) * | 2018-01-30 | 2019-07-31 | 三菱電機インフォメーションシステムズ株式会社 | 記入領域抽出装置および記入領域抽出プログラム |
CN110147776A (zh) * | 2019-05-24 | 2019-08-20 | 北京百度网讯科技有限公司 | 确定人脸关键点位置的方法和装置 |
CN110619316A (zh) * | 2019-09-26 | 2019-12-27 | 联想(北京)有限公司 | 人体关键点检测方法、装置和电子设备 |
CN110766014A (zh) * | 2018-09-06 | 2020-02-07 | 邬国锐 | 票据信息定位方法、系统及计算机可读存储介质 |
US20200097711A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Converting an image into a structured table |
CN110991319A (zh) * | 2019-11-29 | 2020-04-10 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3640488B2 (ja) | 1997-01-17 | 2005-04-20 | 株式会社リコー | 画像処理方法 |
US6346124B1 (en) * | 1998-08-25 | 2002-02-12 | University Of Florida | Autonomous boundary detection system for echocardiographic images |
US6678416B1 (en) * | 2000-02-08 | 2004-01-13 | University Of Washington | Detecting and segmenting local deformation in a tracked video object |
KR100415266B1 (ko) * | 2000-05-11 | 2004-01-16 | 가부시끼가이샤 도시바 | 물체영역정보 기술방법과 물체영역정보 생성장치 및 기록매체 |
US8805007B2 (en) * | 2011-10-13 | 2014-08-12 | Disney Enterprises, Inc. | Integrated background and foreground tracking |
US9436875B2 (en) * | 2012-12-06 | 2016-09-06 | Nokia Technologies Oy | Method and apparatus for semantic extraction and video remix creation |
US10588577B2 (en) * | 2015-01-29 | 2020-03-17 | Siemens Healthcare Gmbh | Patient signal analysis based on affine template matching |
US9922452B2 (en) | 2015-09-17 | 2018-03-20 | Samsung Electronics Co., Ltd. | Apparatus and method for adjusting brightness of image |
AU2018236433B2 (en) | 2017-03-17 | 2022-03-03 | Magic Leap, Inc. | Room layout estimation methods and techniques |
JP2019165836A (ja) | 2018-03-22 | 2019-10-03 | キヤノン株式会社 | 被検体情報取得装置およびその制御方法 |
US10311556B1 (en) | 2018-07-02 | 2019-06-04 | Capital One Services, Llc | Systems and methods for image data processing to remove deformations contained in documents |
US11881043B2 (en) | 2018-07-06 | 2024-01-23 | Rakuten Group, Inc. | Image processing system, image processing method, and program |
CN110021021A (zh) | 2018-07-09 | 2019-07-16 | 乐人株式会社 | 头部图像分析装置及图像分析方法 |
US10964015B2 (en) * | 2019-01-15 | 2021-03-30 | International Business Machines Corporation | Product defect detection |
JP6574928B1 (ja) | 2019-02-25 | 2019-09-11 | ミツエ 福永 | 人の行為若しくは人の能力又は企業若しくは物事に関する評価システム |
US20200327356A1 (en) * | 2019-04-10 | 2020-10-15 | Camden Town Technologies Private Limited | Generation of digital document from analog document |
EP3767527A1 (en) * | 2019-07-16 | 2021-01-20 | Tata Consultancy Services Limited | Method and system for region proposal based object recognition for estimating planogram compliance |
CN111507354B (zh) * | 2020-04-17 | 2023-12-12 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、设备以及存储介质 |
-
2020
- 2020-04-17 CN CN202010306625.6A patent/CN111507354B/zh active Active
- 2020-10-30 US US17/085,178 patent/US11468655B2/en active Active
-
2021
- 2021-03-15 KR KR1020210033307A patent/KR102634484B1/ko active IP Right Grant
- 2021-03-17 EP EP21163153.6A patent/EP3816855A3/en not_active Ceased
- 2021-03-26 JP JP2021052750A patent/JP7273087B2/ja active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070009159A1 (en) * | 2005-06-24 | 2007-01-11 | Nokia Corporation | Image recognition system and method using holistic Harr-like feature matching |
JP2008228211A (ja) * | 2007-03-15 | 2008-09-25 | Sharp Corp | 画像出力方法、画像処理装置、画像形成装置、画像読取装置、コンピュータプログラム及び記録媒体 |
US20090324119A1 (en) * | 2008-06-30 | 2009-12-31 | Guy Rosman | Method of Correcting Digital Image Distortion Caused by a Sheet-Fed Scanner |
US20110243477A1 (en) * | 2010-04-05 | 2011-10-06 | Atalasoft, Inc. | Method for document to template alignment |
CN102236789A (zh) * | 2010-04-26 | 2011-11-09 | 富士通株式会社 | 对表格图像进行校正的方法以及装置 |
CN106803269A (zh) * | 2015-11-25 | 2017-06-06 | 富士通株式会社 | 对文档图像进行透视校正的方法和设备 |
US20180089533A1 (en) * | 2016-09-27 | 2018-03-29 | Abbyy Development Llc | Automated methods and systems for locating document subimages in images to facilitate extraction of information from the located document subimages |
CN107679490A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于检测图像质量的方法和装置 |
JP6554193B1 (ja) * | 2018-01-30 | 2019-07-31 | 三菱電機インフォメーションシステムズ株式会社 | 記入領域抽出装置および記入領域抽出プログラム |
CN110766014A (zh) * | 2018-09-06 | 2020-02-07 | 邬国锐 | 票据信息定位方法、系统及计算机可读存储介质 |
US20200097711A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Converting an image into a structured table |
CN109558844A (zh) * | 2018-11-30 | 2019-04-02 | 厦门商集网络科技有限责任公司 | 基于图像归一化提升自定义模板识别率的方法及设备 |
CN109685026A (zh) * | 2018-12-28 | 2019-04-26 | 南通大学 | 一种驾驶员手持手机通话的实时监测方法 |
CN110070491A (zh) * | 2019-03-16 | 2019-07-30 | 平安城市建设科技(深圳)有限公司 | 银行卡图片矫正方法、装置、设备及存储介质 |
CN110070090A (zh) * | 2019-04-25 | 2019-07-30 | 上海大学 | 一种基于手写文字识别的物流标签信息检测方法及系统 |
CN110147776A (zh) * | 2019-05-24 | 2019-08-20 | 北京百度网讯科技有限公司 | 确定人脸关键点位置的方法和装置 |
CN110619316A (zh) * | 2019-09-26 | 2019-12-27 | 联想(北京)有限公司 | 人体关键点检测方法、装置和电子设备 |
CN110991319A (zh) * | 2019-11-29 | 2020-04-10 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
Non-Patent Citations (6)
Title |
---|
L. JAGANNATHAN等: "Perspective correction methods for camera based document analysis", 《PROC.FIRST INT.WORKSHOP ON CAMERA》 * |
L. JAGANNATHAN等: "Perspective correction methods for camera based document analysis", 《PROC.FIRST INT.WORKSHOP ON CAMERA》, 31 December 2005 (2005-12-31), pages 148 - 154 * |
XIYAN LIU等: "Scene text detection and recognition with advances in deep learning: a survey", 《INTERNATIONAL JOURNAL ON DOCUMENT ANALYSIS AND RECOGNITION (IJDAR)》 * |
XIYAN LIU等: "Scene text detection and recognition with advances in deep learning: a survey", 《INTERNATIONAL JOURNAL ON DOCUMENT ANALYSIS AND RECOGNITION (IJDAR)》, 27 March 2019 (2019-03-27), pages 1 - 20 * |
田文利: "基于霍夫直线检测与二维透视变换的图像校正恢复算法", 《电子测量技术》 * |
田文利: "基于霍夫直线检测与二维透视变换的图像校正恢复算法", 《电子测量技术》, vol. 40, no. 9, 30 September 2017 (2017-09-30), pages 128 - 131 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658159A (zh) * | 2021-08-24 | 2021-11-16 | 中山仰视科技有限公司 | 一种基于肺部关键点的肺部整体抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20210326628A1 (en) | 2021-10-21 |
EP3816855A3 (en) | 2021-09-29 |
US11468655B2 (en) | 2022-10-11 |
KR102634484B1 (ko) | 2024-02-07 |
JP2021103578A (ja) | 2021-07-15 |
EP3816855A2 (en) | 2021-05-05 |
CN111507354B (zh) | 2023-12-12 |
JP7273087B2 (ja) | 2023-05-12 |
KR20210128907A (ko) | 2021-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3437019B1 (en) | Optical character recognition in structured documents | |
CN111753727B (zh) | 用于提取结构化信息的方法、装置、设备及可读存储介质 | |
CN111507354B (zh) | 信息抽取方法、装置、设备以及存储介质 | |
US20220253631A1 (en) | Image processing method, electronic device and storage medium | |
EP3855353A2 (en) | Image table extraction method and apparatus, electronic device, and storage medium | |
CN111753717B (zh) | 用于提取文本的结构化信息的方法、装置、设备及介质 | |
CN111753744B (zh) | 用于票据图像分类的方法、装置、设备及可读存储介质 | |
CN112749606A (zh) | 一种文本定位方法和装置 | |
US20220092353A1 (en) | Method and device for training image recognition model, equipment and medium | |
CN111209909B (zh) | 资质识别模板构建方法、装置、设备和存储介质 | |
CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
JP7389824B2 (ja) | オブジェクト識別方法と装置、電子機器及び記憶媒体 | |
CN110532415A (zh) | 图像搜索处理方法、装置、设备及存储介质 | |
CN110674671A (zh) | 捕获笔划墨迹的系统、方法和计算机可读介质 | |
CN112560855A (zh) | 图像信息提取方法、装置、电子设备及存储介质 | |
CN111552829A (zh) | 用于分析图像素材的方法和装置 | |
US20220392243A1 (en) | Method for training text classification model, electronic device and storage medium | |
WO2022156088A1 (zh) | 指纹签名生成方法、装置、电子设备及计算机存储介质 | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
US11574456B2 (en) | Processing irregularly arranged characters | |
CN111507265A (zh) | 表格关键点检测模型训练方法、装置、设备以及存储介质 | |
US11676358B2 (en) | Method and apparatus for digitizing paper data, electronic device and storage medium | |
CN112101368B (zh) | 一种字符图像处理方法、装置、设备和介质 | |
CN113390413B (zh) | 一种定位方法、装置、设备及存储介质 | |
US11995905B2 (en) | Object recognition method and apparatus, and electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |