CN111709339B - 一种票据图像识别方法、装置、设备及存储介质 - Google Patents

一种票据图像识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111709339B
CN111709339B CN202010517447.1A CN202010517447A CN111709339B CN 111709339 B CN111709339 B CN 111709339B CN 202010517447 A CN202010517447 A CN 202010517447A CN 111709339 B CN111709339 B CN 111709339B
Authority
CN
China
Prior art keywords
text box
text
relation
type
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010517447.1A
Other languages
English (en)
Other versions
CN111709339A (zh
Inventor
李煜林
黄聚
钦夏孟
韩钧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010517447.1A priority Critical patent/CN111709339B/zh
Publication of CN111709339A publication Critical patent/CN111709339A/zh
Priority to JP2021032799A priority patent/JP7230081B2/ja
Priority to KR1020210032197A priority patent/KR102612295B1/ko
Priority to US17/201,733 priority patent/US11854246B2/en
Priority to EP21162692.4A priority patent/EP3836016A1/en
Application granted granted Critical
Publication of CN111709339B publication Critical patent/CN111709339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/1607Correcting image deformation, e.g. trapezoidal deformation caused by perspective

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种票据图像识别方法、装置、设备及存储介质,涉及人工智能深度学习和图像处理领域。具体实现方案为:对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。本申请实施例的方案能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。

Description

一种票据图像识别方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,具体涉及人工智能深度学习和图像处理领域。
背景技术
票据是一种重要的结构化信息的文本载体,被广泛应用于各种商业场景,相关部门在对票据进行审核时,通常需要人工审核其中记载的信息,成本高,效率低,随着人工智能技术的发展,自动识别票据图像,提取票据信息的技术逐渐兴起。目前,现有技术通常是基于模板匹配的方式,在票据的固定位置处提取票据信息。但是由于票据的版式不统一,且结构各异,很难实现对每种版式票据都维护一个模板,扩展性和通用性较差,从而影响票据信息提取的准确性。
发明内容
提供了一种票据图像识别方法、装置、设备及存储介质。
根据第一方面,提供了一种票据图像识别方法,该方法包括:
对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;
根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;
根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。
根据第二方面,提供了一种票据图像识别装置,该装置包括:
文本检测模块,用于对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;
信息推理模块,用于根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;
票据数据提取模块,用于根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。
根据第三方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的票据图像识别方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质。所述计算机指令用于使所述计算机执行本申请任一实施例所述的票据图像识别方法。
根据本申请实施例的技术解决了现有技术基于固定模板进行票据图像识别,扩展性和通用性较差,识别准确性较低的问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1A是根据本申请实施例提供的一种票据图像识别方法的流程图;
图1B-1C是根据本申请实施例提供的票据识别的可视化效果示意图;
图2是根据本申请实施例提供的另一种票据图像识别方法的流程图;
图3A是根据本申请实施例提供的另一种票据图像识别方法的流程图;
图3B是根据本申请实施例提供的一种特征识别网络的工作原理示意图;
图4A是根据本申请实施例提供的另一种票据图像识别方法的流程图;
图4B是根据本申请实施例提供的一种子预测网络的工作原理示意图;
图5是根据本申请实施例提供的另一种票据图像识别方法的流程图;
图6是根据本申请实施例提供的另一种票据图像识别方法的流程图;
图7是根据本申请实施例提供给一种票据图像识别装置的结构示意图;
图8是用来实现本申请实施例的票据图像识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1A是根据本申请实施例提供的一种票据图像识别方法的流程图;图1B-1C是根据本申请实施例提供的票据识别的可视化效果示意图;本实施例适用于对票据图像进行识别的情况,尤其适用于对多种版式不固定的票据图像进行识别的情况。该实施例可以由电子设备中配置的票据图像识别装置来执行,该装置可以采用软件和/或硬件来实现。如图1A-1C所示,该方法包括:
S101,对票据图像进行文本检测,确定票据图像中的至少两个文本框的属性信息集和关系信息集。
其中,本申请实施例中的票据可以是按照一定版式写明支付金额的凭证,其可以是发票、存单、汇票、支票等。文本框可以是对票据图像进行文本检测,在票据图像中标注文本字符串的方框。例如,图1B示出了对票据图像进行文本检测,标注出的文本框的可视化效果示意图,其中用于框选文本字符串的每个方框都属于票据图像中的文本框。需要说明的是,本申请实施例优选用于票据图像中有多个文本框时,如何推理多个文本框之间的结构关系,进而提取结构化的票数数据的情况。
可选的,文本框的属性信息集可以是用于表征票据图像中每个文本框内的文本字符串自身属性的相关信息,可以包括但不限于:文本框的位置坐标、图像区域和文本内容。其中,文本框的位置坐标可以是文本框的四个角点的位置坐标。图像区域可以是各文本框在票据图像上对应的区域。文本内容可以是文本框所框选的文本字符串的内容。文本框的关系信息集可以是用于表征票据图像中,不同文本框之间的相互关系的信息。可以包括但不限于:每个文本框与其他文本框之间的位置坐标差值、中心点角度差值和中心点欧式距离。
可选的,本申请实施例可以是采用文本检测技术,如光学字符识别(OpticalCharacter Recognition,OCR)技术检测,先确定票据图像中的各文本框的属性信息集,然后再根据各文本框的属性信息集,确定各文本框与其他文本框之间的关系信息集。
具体的,在采用文本检测技术确定票据图像中的各文本框的属性信息集时,可以是按照预设算法来实现。例如,可以是先通过文本区域检测算法标注出票据图像中各文本字符串的位置,得到至少两个文本框,然后将各文本框的四个角点的坐标作为该文本框的位置坐标,在票据图像中截取文本框区域对应的图像作为该文本框的图像区域,通过文字内容检测算法,识别文本框中的文本内容。还可以是基于预先训练好的神经网络模型来实现,例如,可以是将票据图像输入到预先训练好的目标文字检测模型(如EAST模型)中,该目标文字检测模型会基于深度学习算法,通过文本框标注出票据图像中的各文本字符串的位置,输出文本框的四角点坐标,并以顺时针方向排序,获取所有文本框集合P={pi;i∈N*}。其中,第i个文本框pi={xn,yn;n∈(1,4)}。然后基于每个文本框的位置坐标,在票据图像中切取文本框所在区域的图像切片作为图像区域Ii。最后将每个图像区域输入到预先训练好的文本内容识别模型(如卷积神经网络CRNN模型),该文本内容识别模型会基于深度学习算法预测图像区域中的文字内容ci,即每个文本框的属性信息集为(pi,Ii,ci)。
可选的,本申请实施例可以是按照如下公式(1)-(3)来根据各文本框的属性信息集,确定各文本框与其他各文本框之间的关系信息集(dij,rij,uij):
dij=pi-pj (1)
rij=rot(pi,pj) (2)
uij=Euclidean(pi,pj) (3)
其中,pi为第i个文本框的位置坐标;pj为第j个文本框的位置坐标;dij为第i个文本框与第j个文本框的四角点位置坐标差值;rij为第i个文本框与第j个文本框之间的中心点角度差值,且rij∈[-π,π];rot()为角度差计算函数;uij为第i个文本框与第j个文本框之间的中心点欧式距;Euclidean()为欧式距离计算函数。
S102,根据文本框的属性信息集和关系信息集,确定文本框的类型,以及与该文本框存在结构关系的关联文本框。
其中,本申请实施例可以预先定义票据结构,即定义文本框的类型为文本框中的文本字符串的类型,其可以包括字段属性类型K、字段值类型V、表格表头类型H或表格单元类型C。所述字段属性类型K和所述字段值类型V的文本框存在字段结构关系R;所述表格表头类型H和表格单元类型C的文本框存在表格结构关系M。基于该定义,本申请实施例可以为票据图像定义一张无向图,G=(Y,E),其中,每个文本框代表无向图中的一个顶点Y,该文本框的类型属于K、V、H、V或C中的一种,如果无向图中的两个顶点(Yi和Yj)存在结构关系,如,Yi和Yj的类型为K和V,或者为H和C,则两者的对应边E属于字段结构关系R或表格结构关系M。基于无向图定义(Yi,Yj)=(Yj,Yi),可以对无向图的两两不同顶点Yi和Yj(即两两不同文本框)计算关联概率Aij,其中,Aij∈{0,1},当Aij=1,表示两顶点Yi和Yj存在结构关系,当Aij=0,表示两顶点Yi和Yj不存在结构关系。由于G为无向图,所以基于一张票据图像中的各个文本框来说,两两不同文本框之间的关系概率可以通过二维概率矩阵来表示,且该二维概率矩阵为对称矩阵,即:
可选的,本申请实施例基于上述定义的票据结构,来根据票据图像中每个文本框的属性信息集和该文本框与其他文本框的关系信息集,确定该文本框属于上述定义的K、V、H、C中的哪种类型,以及与该文本框存在表格结构关系或字段结构关系的关联文本框。
具体的实现过程可以是基于预设的推理算法对每个文本框的属性信息集和该文本框与其他文本框的关系信息集进行分析,推理该文本框的类型,以及推理票据图像中与该文本框存在表格结构关系或字段结构关系的关联文本框。还可以是将票据图像中各文本框的属性信息集和各文本框与其他文本框的关系信息集输入到预先训练好的推理模型中,推理模型就会基于深度学习算法,对属性信息集和关系信息集进行分析,输出各文本框的类型以及与各文本框存在结构关系的关联文本框。
示例性的,图1C示出了对票据图像中的文本框类型和结构关系推理后标注的可视化效果图。图中,直角实线方框对应的文本框类型为字段属性类型K;直角虚线方框对应的文本框类型为字段值类型V;圆角实线方框对应的文本框类型为表格表头类型H;圆角虚线方框对应的文本框类型为表格单元类型C。其中,对于各文本框而言,其与关联文本框之间通过直线连接,例如,存在字段结构关系的字段属性类型的“姓名”文本框和字段值类型的“张三”文本框连接;表格表头类型的“收费项目”文本框和表格单元类型的“西药费”文本框连接。
需要说明的是,对于字段结构关系,一个字段属性类型的文本框对应一个字段值类型的文本框;对于表格结构关系,一个表格表头属性类型的文本框,可以对应至少一个表格单元类型的文本框,但一个表格单元类型的文本框只对应一个表格表头类型的文本框。本申请实施例的方案,通过推理的方式来确定各文本框的类型以及文本框之间的结构关系,相比于现有技术基于模板在固定位置出提取票据数据的方案,在票据数据打印错位的情况下,也可以准确确定出文本框之间的结构关系,例如,如图1C所示,“收款人”与“92974”在票据数据打印错位的情况下,也可以准确标注出两者之间存在字段结构关系。
S103,根据文本框的类型,以及与该文本框存在结构关系的关联文本框,提取票据图像的结构化票据数据。
可选的,经过上述S102的操作,可以得到票据图像中,每个文本框的类型,以及与每个文本框存在结构关系的关联文本框。此时,可以是将每组存在结构关系的两文本框中的文本内容,作为提取到一组结构化票据数据。示例性的,如图1C所示,其中每个实线直角方框与其连接的虚线直角方框中的内容作为一组字段结构票据数据,如“业务流水号”和“2540000”即为一组字段结构票据数据,且“业务流水号”为字段属性类型,“2540000”为字段值类型;将每个实线圆角方框与其连接的虚线圆角方框中的内容作为一组表格结构票据数据,如“收费项目”和“西药费”即为一组表格结构票据数据,且“收费项目”为表格表头类型,“西药费”为表格单元类型。
本申请实施例的技术方案,通过在票据图像中检测出各文本框的属性信息集和关系信息集,来推理各文本框的类型以及与各文本框存在关联关系的关联文本框,进而从票据图像中提取出结构化票据数据。本申请的方案无需通过模板位置匹配的方式,即可精准推理出票据图像中存在字段结构关系和表格结构关系的结构化票据数据。不受票据版式的限制,能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。
图2是根据本申请实施例提供的另一种票据图像识别方法的流程图,本实施例在上述实施例的基础上,进行了进一步的优化,给出了根据文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框的具体情况介绍。如图2所示,该方法包括:
S201,对票据图像进行文本检测,确定票据图像中的至少两个文本框的属性信息集和关系信息集。
S202,根据文本框的属性信息集和关系信息集,确定文本框的属性特征集和关系特征集。
其中,在本申请实施例中,文本框的属性特征集可以是从文本框的属性信息中提取到的用于表征文本框属性信息的相关特征。同理,文本框的关系特征可以是从文本框的关系信息集中提取到的用于表征文本框关系信息的相关特征。
可选的,在本申请实施例中,根据文本框的属性信息集和关系信息集,确定文本框的属性特征集和关系特征集时,可以是基于预设的特征提取算法对票据图像中的所有文本框的属性信息集和关系信息集进行分析,从中提取出可以表征各文本框属性的属性特征集,以及标注文本框关系的关系特征集。还可以是将S201确定的文本框的属性信息集和关系信息集输入预先训练好的推理模型的特征提取网络中,该特征提取网络会基于深度学习算法对文本框的属性信息集和关系信息集进行分析,输出各文本框的属性特征集和关系特征集。
S203,根据文本框的属性特征集和关系特征集,确定文本框的类型概率,以及不同文本框之间的关系概率。
其中,在本申请实施例中,文本框的类型概率可以是文本框属于预先定义的字段属性类型、字段值类型、表格表头类型和表格单元类型的概率。不同文本框之间的关系概率可以是两两不同文本之间存在结构关系的概率,该结构关系可以是字段结构关系,也可以是表格结构关系。可选的,本申请实施例中,确定的不同文本框之间的关系概率,可以是预测不同文本框之间是否存在关系,而不具体预测存在哪种结构关系。
可选的,在本申请实施例中,根据文本框的属性特征集和关系特征集,确定文本框的类型概率时,可以是基于预先设置的类型概率预测算法,对各文本框的属性特征集和关系特征集进行分析,预测出各文本框分别属于定义的四种类型(即字段属性类型、字段值类型、表格表头类型和表格单元类型)的概率。基于预先设置的结构关系预测算法,对各文本框的属性特征集和关系特征集进行分析,预测出票据图像中的两两不同文本框存在结构关系的概率值。还可以是将S202确定出的文本框的属性特征集和关系特征集输入预先训练好的推理模型的概率预测网络中,该概率预测网络会基于深度学习算法对文本框的属性特征集和关系特征集进行分析,输出票据图像中各文本框分别属于定义的四种类型的概率,以及其中两两不同文本框存在结构关系的概率值。本申请实施例通过海量样本数据训练的概率预测网络来执行本步骤的操作,可以提高的文本框的类型概率,以及不同文本框之间的关系概率确定的准确性。
S204,根据文本框的类型概率,以及不同文本框之间的关系概率,确定文本框的类型,以及与该文本框存在结构关系的关联文本框。
可选的,本申请实施例可以是根据文本框的类型概率,确定文本框的类型。具体的,S203已经预测出了票据图像中各文本框属于定义的四种类型的概率,此时,针对每个文本框,可以将其属于四种类型的概率中,最高概率对应的类型作为该文本框的类型。例如,若某一文本框属于字段属性类型、字段值类型、表格表头类型和表格单元类型的概率分别为0.1、0.05、0.08和0.77,则可以确定该文本框的类型为表格单元类型。
可选的,本申请实施例在确定与各文本框存在结构关系的关联文本框时,可以是根据不同文本框之间的关系概率和概率阈值,确定存在结构关系的候选文本框对;根据所述候选文本框对和所述文本框的类型,确定与所述文本框存在结构关系的关联文本框。具体的,不同文本框之间的关系概率代表了不同文本框存在结构关系的概率,概率值越高,则说明两者存在结构关系的可能性越大,且每个关系概率都对应两个不同文本框,所以本申请实施例可以预先设置一个衡量文本框是否存在结构关系的关系概率阈值,如80%,然后从S203预测出的所有不同文本框之间的关系概率中,筛选出大于概率阈值的各关系概率,并将筛选出的大于概率阈值的各关系概率对应两两文本框作为一组候选文本框对,然后基于已经确定出的各文本框的类型,判断各候选文本框对中的两两文本框的类型是否属于表格结构类型或字段结构类型,若是,则将这两个文本框相互作为对方的关联文本框。例如,如图1B所示,假设“姓名”文本框与“张三”文本框之间的关系概率为92%,“姓名”文本框与“西药费”文本框之间的关系概率为85%,由于92%和85%都大于概率阈值80%,此时可以将“姓名”文本框与“张三”文本框作为一组候选文本框,将“姓名”文本框与“西药费”文本框也作为一组候选文本框;因为“姓名”文本框的类型为字段属性类型,“张三”文本框的类型为字段值类型,“西药费”文本框的类型为表格单元类型,由于字段属性类型和字段值类型对应字段结构关系,所以可以确定“姓名”文本框的关联文本框为“张三”文本框,“张三”文本框的关联文本框为“姓名”文本框。
S205,根据文本框的类型,以及与该文本框存在结构关系的关联文本框,提取票据图像的结构化票据数据。
本申请实施例的技术方案,通过在票据图像中检测出各文本框的属性信息集和关系信息集,先提取各文本框的属性特征集和关系特征集,通过提取的各文本框的属性特征集和关系特征集来预测各文本框的类型概率和不同文本框存在结构关系的关系概率,进而基于类型概率和关系概率来推理各文本框的类型以及与各文本框存在关联关系的关联文本框,实现从票据图像中提取出结构化票据数据。本申请的方案在推理各文本框类型及其关联文本框时,通过提取特征和概率预测的方式,推理文本框类型和关联文本框,提高了文本框类型和关联文本框确定的准确性。保证了本申请无需借助模板,也可以精准识别票据,完成票据数据的提取。
图3A是根据本申请实施例提供的另一种票据图像识别方法的流程图;图3B是根据本申请实施例提供的一种特征识别网络的工作原理示意图。本实施例在上述实施例的基础上,进行了进一步的优化,给出了根据所述文本框的属性信息集和关系信息集,确定所述文本框的属性特征集和关系特征集的具体情况介绍。如图3A-3B所示,该方法包括:
S301,对票据图像进行文本检测,确定票据图像中的至少两个文本框的属性信息集和关系信息集。
S302,根据文本框的属性信息集中的图像区域,确定文本框的视觉特征。
可选的,由于文本框的视觉特征是从文本框在票据图像中对应图像区域提取的特征。所以本步骤可以是从S301确定的各文本框的属性信息集中提取出文本框的图像区域,对图像区域进行分析,来确定文本框的视觉特征。
可选的,若本申请实施例是基于特征提取算法来确定文本框的相关特征(即属性特征集和关系特征集),则此时可以是基于预设的图像特征提取算法,对各文本框的图像区域进行特征提取,得到各图像区域对应的视觉特征。若本申请实施例是基于特征提取网络来确定文本框的相关特征,则此时本步骤可以是基于特征提取网络中的视觉特征提取层来确定文本框的视觉特征。具体的,可以是将各文本框的属性信息集中的图像区域输入该视觉特征提取层,得到各文本框的视觉特征。可选的,该视觉特征提取层至少包括卷积神经网络层。示例性的,如图3B所示,针对第i个文本框,可以将其属性信息集中的图像区域Ii,输入到特征提取网络的卷积神经网络层CNN,得到第i个文本框的视觉特征(Fi)v
S303,根据文本框的属性信息集中的文本内容,确定文本框的语义特征。
可选的,由于文本框的语义特征是从文本框中的文本内容中提取的特征。所以本步骤可以是从S301确定的各文本框的属性信息集中提取文本框的文本内容,然后将文本内容编码成文本向量序列进行分析,从而确定文本框的语义特征。具体的,本申请实施例将文本内容编码成文本向量序列的方式有很多,例如,可以是通过查找字典将文本内容编码成文本向量序列。
可选的,若本申请实施例是基于特征提取算法来确定文本框的相关特征(即属性特征集和关系特征集),则此时可以是先将各文本框的文本内容编码为文本向量序列后,是基于预设的文本特征提取算法,对各文本框的文本向量序列进行特征提取,得到各文本框的语义特征。若本申请实施例是基于特征提取网络来确定文本框的相关特征,则此时本步骤可以是基于特征提取网络中的语义特征提取层来确定文本框的语义特征,具体的,可以是将各文本框的属性信息集中的文本内容输入该语义特征提取层,得到各文本段的语义特征。可选的,该语义特征提取层至少包括词向量编码层、词嵌入网络层和长短期记忆网络层。示例性的,如图3B所示,针对第i个文本框,可以将其属性信息集中的文本内容ci作为词向量编码层的输入,得到文本词向量序列输入至词嵌入网络层Word Embedding,得到输出结果再输入至长短期记忆网络层LSTM,得到第i个文本框的语义特征(Fi)s
S304,将视觉特征、语义特征和属性信息集中的位置坐标,作为文本框的属性特征集。
可选的,本申请实施例可以是将上述S302-S303提取出的各文本框的视觉特征和语义特征,以及各文本框的属性信息集中的位置坐标进行合并,得到各文本框的属性特征集。
可选的,若本申请实施例是基于特征提取网络来确定文本框的相关特征,则此时本步骤可以是基于特征提取网络中的第一数据合并层将各文本框的视觉特征、语义特征和位置坐标进行合并,得到文本框的属性特征集。示例性的,如图3B所示,可以是将第i个文本框的视觉特征(Fi)v、语义特征(Fi)s,以及第i个文本框的位置坐标pi输入数据合并层1,由数据合并层1将输入的数据进行合并,得到第i个文本框的属性特征集Fi,即Fi=(pi,(Fi)v,(Fi)s)。
S305,根据属性特征集和关系信息集,确定文本框的关系特征集。
可选的,本申请实施例的文本框的关系特征集是根据属性特征集和关系信息集确定的,具体的,可以是在各关系信息集中,添加其对应的文本框的属性特征集,即可得到文本框的关系特征集。例如,假设第i个文本框的属性特征集为Fi,第j个文本框的属性特征集为Fj,第i个文本框和第j个文本框之间的关系信息集为(dij,rij,uij),则第i个文本框和第j个文本框之间的关系特征集为(Fi,Fj,dij,rij,uij)。
可选的,若本申请实施例是基于特征提取网络来确定文本框的相关特征,则此时本步骤可以是基于特征提取网络中的第二数据合并层,将两两不同文本框的属性特征集和这两个不同文本框之间的关系信息集进行合并,得到这两个不同文本框的关系特征集。示例性的,如图3B所示,可以是将第i个文本框的属性特征集Fi、第j个文本框的属性特征集Fj以及第i个文本框和第j个文本框之间的关系信息集(dij,rij,uij)输入数据合并层2,由数据合并层2将输入的数据进行合并,得到第i个文本框和第j个文本框之间的关系特征集为Eij
S306,根据文本框的属性特征集和关系特征集,确定文本框的类型概率,以及不同文本框之间的关系概率。
S307,根据文本框的类型概率,以及不同文本框之间的关系概率,确定文本框的类型,以及与该文本框存在结构关系的关联文本框。
S308,根据文本框的类型,以及与该文本框存在结构关系的关联文本框,提取票据图像的结构化票据数据。
本申请实施例的技术方案,基于票据图像中检测的各文本框的图像区域和文本内容,分别确定各文本框的视觉特征和语义特征,然后将各文本框的视觉特征、语义特征和位置坐标作为各文本框的属性特征集,将属性特征集添加到对应的关系信息集中,得到各文本框的关系特征集;通过提取的各文本框的属性特征集和关系特征集来预测各文本框的类型概率和不同文本框存在结构关系的关系概率,进而推理各文本框的类型以及与各文本框存在关联关系的关联文本框,实现从票据图像中提取出结构化票据数据。本申请的方案在提取文本框的属性特征集和关系特征集时,从视觉特征、语义特征和位置关系等多维度进行考虑,提取的属性特征集和关系特征集更为准确,进而提高了文本框类型和关联文本框确定的准确性。保证了本申请无需借助模板,也可以精准识别票据,完成票据数据的提取。
图4A是根据本申请实施例提供的另一种票据图像识别方法的流程图;图4B是根据本申请实施例提供的一种子预测网络的工作原理示意图。本实施例在上述实施例的基础上,进行了进一步的优化,给出了将文本框的属性特征集和关系特征集输入概率预测网络中,得到文本框的类型概率,以及不同文本框之间的关系概率的具体情况介绍。
需要说明的是,本申请的概率预测网络是预先通过大量的样本数据进行训练得到的,该概率预测网络可以是由至少一个首位连接的子预测网络构成。图4B示出了一个子预测网络的工作原理示意图;若本申请中的预测网络由多个子预测网络构成时,则各子预测网络的第一感知MLP的输出结果作为至其下一子预测网络的第一感知MLP的输入;各子预测网络的长短期记忆网络层LSTM的输出结果作为至其下一子预测网络的长短期记忆网络层LSTM和第一隐藏层的输入。
具体的,如图4A-4B所示,该方法包括:
S401,对票据图像进行文本检测,确定票据图像中的至少两个文本框的属性信息集和关系信息集。
S402,根据文本框的属性信息集和关系信息集,确定文本框的属性特征集和关系特征集。
S403,将文本框的关系特征集输入当前子预测网络的第一感知机,得到当前感知概率。
其中,本申请实施例中的当前子预测网络可以是概率预测网络中当前进行工作的子预测网络,其可以是概率预测网络中的任意一个子预测网络。
可选的,如图4B所示,本申请实施例可以是将当前子预测网络l的上一子预测网络l-1的第二感知机MLP输出的文本框的关系特征集E[l-1]输入到当前子预测网络l的第一感知机MLP,第一感知机MLP会对文本框的关系特征集E[l-1]进行多层感知,得到当前感知概率,可选的,该当前感知概率为当前子预测网络感知到的不同文本框之间的关系概率。
可选的,若当前子预测网络为概率预测网络的首个子预测网络,则此时输入当前子预测网络的第一感知机的文本框的关系特征集可以是S402确定的票据图像的各文本框的关系特征集。
S404,将当前感知概率和文本框的属性特征集输入当前子预测网络的第一隐藏层,得到第一隐藏文本特征。
可选的,本申请实施例可以是将当前子预测网络l的上一子预测网络l-1的长短期记忆网络层LSTM输出的文本框的属性特征集F[l-1]、当前子预测网络l的第一感知机MLP输出的当前感知概率输入到当前子预测网络l的第一隐藏层,该第一隐藏层会对输入的属性特征集F[l-1]和当前感知概率进行计算,如进行乘法运算,得到第一隐藏文本特征H1[l]。
可选的,若当前子预测网络为概率预测网络的首个子预测网络,则此时输入当前子预测网络的第一隐藏层的文本框的属性特征集可以是S402确定的票据图像的各文本框的属性特征集。
S405,判断当前子预测网络是否为最后一个子预测网络,若否,则执行S406,若否,则执行S409。
可选的,在本申请实施例中,若当前子预测网络不是最后一个子预测网络,则说明当前预测子网络无需给出最终的文本框的类型概率以及不同文本框的关系概率,此时当前子预测网络可以执行S406-S408的操作,基于自身内部的各网络层,得到本子预测网络解析后的属性特征集和关系特征集输入下一子预测网络。若当前子预测网络是最后一个子预测网络,则当前预测子网络需要执行S409的操作,预测出文本框的类型概率以及不同文本框的关系概率。
S406,将第一隐藏文本特征和属性特征集输入当前子预测网络的长短期记忆网络层,得到文本框更新后的属性特征集,并述更新后的属性特征集输入下一子预测网络。
可选的,若当前子预测网络l不是最后一个子预测网络,则将当前子预测网络l的第一隐藏层输出的第一隐藏文本特征H1[l]、以及当前子预测网络l的上一子预测网络l-1的长短期记忆网络层LSTM输出的文本框的属性特征集F[l-1],输入当前子预测网络l的长期记忆网络层LSTM,该长期记忆网络层LSTM会基于深度学习算法,对输入的文本框的属性特征集F[l-1]进行更新,得到文本框的属性特征集F[l]输入至当前子预测网络l的下一子预测网络l+1。即分别输入下一子预测网络l+1的第一隐藏层和长短期记忆网络层LSTM。
可选的,若当前子预测网络为概率预测网络的首个子预测网络,则此时输入当前子预测网络的长短期记忆网络层的文本框的属性特征集可以是S402确定的票据图像的各文本框的属性特征集。
S407,将第一隐藏文本特征和关系特征集输入当前子预测网络的第二隐藏层,得到第二隐藏文本特征。
可选的,若当前子预测网络l不是最后一个子预测网络,还需要将当前子预测网络l的上一子预测网络l-1的第二感知机MLP输出的文本框的关系特征集E[l-1]、当前子预测网络l的第一隐藏层输出的第一隐藏文本特征H1[l],以及第一隐藏文本特征的转置H1[l]T输入至当前子预测网络l的第二隐藏层,该第二隐藏层会对输入的关系特征集E[l-1]、第一隐藏文本特征H1[l]及其转置H1[l]T进行计算,如进行三项矩阵乘法运算,得到第二隐藏文本特征H2[l]。
可选的,若当前子预测网络为概率预测网络的首个子预测网络,则此时输入当前子预测网络的第二隐藏层的文本框的关系特征集可以是S402确定的票据图像的各文本框的关系特征集。
S408,将第二隐藏文本特征输入当前子预测网络的第二感知机,得到文本框更新后的关系特征集,并将更新后的关系特征集输入下一子预测网络。
可选的,本申请实施例可以将当前子预测网络l的第二隐藏层得到的第二隐藏文本特征H2[l]输入当前子预测网络l的第二感知机MLP,第二感知机会对第二隐藏文本特征H2[l]进行多层感知,得到当前子预测网络l更新的关系特征集E[l],并将该关系特征集E[l]输入至当前子预测网络l的下一子预测网络l+1。即输入下一子预测网络l+1的第一感知机MLP。
需要说明的是,当前子预测网络l的下一子预测网络l+1,同样会按照本申请实施例S403-S409所述的方法进行操作,直到最后一个子预测网络预测出各文本框的类型概率以及不同文本框之间的关系概率为止。
S409,将第一隐藏文本特征和属性特征集输入当前子预测网络的长短期记忆网络层,得到文本框的类型概率,并将当前感知概率作为不同文本框之间的关系概率。
可选的,若当前子预测网络l为最后一个子预测网络,则当前子预测网络l就需要预测各文本框的类型概率,以及不同文本框之间的关系概率。此时可以是将当前子预测网络l的第一隐藏层输出的第一隐藏文本特征H1[l]和当前子预测网络l的上一子预测网络l-1的长短期记忆网络层LSTM输出的文本框的属性特征集F[l-1],输入当前子预测网络l的长期记忆网络层LSTM。长期记忆网络层LSTM会基于深度学习算法对输入的数据进行分析,得到各文本框属于四种定义类型(字段属性类型、字段值类型、表格表头类型和表格单元类型)的概率。对于不同文本框之间的关系概率,本实施例可以是将最后一个子预测网络的第一感知机MLP输出的当前感知概率作为最终预测的不同文本框之间的关系概率。
需要说明的是,最后一个子预测网络和其他子预测网络的网络结构是一样的,只是经过训练后,最后一个子预测网络与其他子预测网络的长短期记忆网络层的功能不同,最后一个子预测网络的长短期记忆网络层的功能是用于预测各文本框的类型概率,而其他子预测网络的长短期记忆网络层的功能是对文本框的属性特征集进行更新。
S410,根据文本框的类型概率,以及不同文本框之间的关系概率,确定文本框的类型,以及与该文本框存在结构关系的关联文本框。
S411,根据文本框的类型,以及与该文本框存在结构关系的关联文本框,提取票据图像的结构化票据数据。
本申请实施例的技术方案,基于票据图像检测出各文本框的属性信息集和关系信息集,提取各文本框的属性特征集和关系特征集后,基于至少一个首尾连接的子预测网络构成概率预测网络来提取预测各文本框的类型概率和不同文本框存在结构关系的关系概率,进而推理各文本框的类型以及与各文本框存在关联关系的关联文本框,实现从票据图像中提取出结构化票据数据。本申请的方案在预测文本框的类型概率以及文本框之间的关系概率时,基于多层首尾连接的子预测网络来预测,极大的提高了预测结果的准确性,为精准确定文本框类型和关联文本框奠定了基础。保证了票据图像识别,票据数据提取的准确性。
图5是根据本申请实施例提供的另一种票据图像识别方法的流程图,本实施例在上述实施例的基础上,进行了进一步的优化,给出了根据文本框的类型概率,以及不同文本框之间的关系概率,确定文本框的类型,以及与该文本框存在结构关系的关联文本框的具体情况介绍。如图5所示,该方法包括:
S501,对票据图像进行文本检测,确定票据图像中的至少两个文本框的属性信息集和关系信息集。
S502,根据文本框的属性信息集和关系信息集,确定文本框的属性特征集和关系特征集。
S503,根据文本框的属性特征集和关系特征集,确定文本框的类型概率,以及不同文本框之间的关系概率。
S504,根据文本框的类型概率,确定文本框的类型。
可选的,S503已经确定出票据图像中各文本框的类型概率,此时可以针对每个文本框,将其属于四种类型的概率中,最高概率对应的类型作为该文本框的类型。示例性的,根据图1B中各文本框的类型概率,确定出各文本框的类型,然后将属于字段属性类型K的文本框标注为直角实线方框;将属于字段值类型V的文本框标注为直角虚线方框;将属于表格表头类型H的文本框标注为圆角实线方框;将属于表格单元类型C的文本框标注为圆角虚线方框,可视化效果如图1C所示。
S505,根据不同文本框之间的关系概率和概率阈值,确定存在结构关系的候选文本框对。
S506,根据候选文本框对和文本框的类型,确定与该文本框存在结构关系的关联文本框。
S507,判断与该文本框存在结构关系的关联文本框是否为一个,若否,则执行S508,若是,则执行S510。
可选的,S506为各文本框确定的关联文本框中,可能存在一个文本框有多个关联文本框的情况,为了防止多个关联文本框中存在误判的情况,本申请可以是依次针对每个文本框,判断S506确定出的与其存在结构关系的关联文本框的数量是否为一个,若是,则执行S510,提取票据图像的结构化票据数据的操作。若否,则执行S508,进一步判断多个关联文本框中是否存在误判的情况。
S508,判断该文本框是否为预设类型,若是,则执行S509,若否,则执行S510。
可选的,在本申请实施例中,对于不同文本框存在的结构关系而言,字段属性类型、字段值类型或者表格单元类型的文本框,其关联文本框应该是唯一的,而对于表格表头类型的文本框,其关联文本框可以有多个。所以本申请实施例中的预设类型可以是字段属性类型、字段值类型和表格单元类型。若S507判断与一个文本框存在结构关系的关联文本框为至少两个,则判断该文本框是否为字段属性类型、字段值类型和表格单元类型中的一个,若是,则说明该文本框的多个关联文本框中只有一个是正确的,此时需要执行S509确定出最终与该文本框存在结构关系的关联文本框。若否,则说明该文本框属于表格表头类型,其存在多个关联文本框是正常现象,例如,图1C中与“收费项目”的文本框存在结构关系的关联文本框就有两个,即“西药费”文本框和“治疗费”文本框。此时可以将该文本框关联的多个关联文本框都保留,直接执行S510提取票据图像的结构化票据数据的操作。
S509,将至少两个关联文本框中,与该文本框之间的关系概率最高的关联文本框,作为最终与该文本框存在结构关系的关联文本框。
可选的,如果一个文本框的关联文本框有多个,且该文本框属于预设类型,此时本步骤需要从多个关联文本框中,选择一个作为与该文本框存在结构关系的最终关联文本框。具体的操作过程可以是:从S503确定的不同文本框之间的关系概率中,依次查找该文本框与每个关联文本框之间的关系概率,将关系概率最高的关联文本框作为最终与该文本框存在结构关系的关联文本框。示例性的,如图1B所示,假设S506确定出“业务流水号”文本框的关联文本框有两个,即“254000”文本框和“2020年1月1日”文本框,由于“业务流水号”文本框的类型为字段属性类型属于预设类型,所以本步骤可以查找“业务流水号”文本框和“254000”文本框之间的第一关系概率,以及“业务流水号”文本框和“2020年1月1日”文本框之间的第二关系概率,如果第一关系概率为98%,第二关系概率为88%,则可以选项关系概率较高的“254000”文本框作为最终与“业务流水号”文本框存在结构关系的关联文本框。
S510,根据文本框的类型,以及与该文本框存在结构关系的关联文本框,提取票据图像的结构化票据数据。
本申请实施例的技术方案,根据票据图像检测出各文本框的属性信息集和关系信息集,提取各文本框的属性特征集和关系特征集,来预测各文本框的类型概率和不同文本框存在结构关系的关系概率,推理各文本框的类型以及与各文本框存在关联关系的关联文本框,若一个文本框的关联文本框为多个,且该文本框属于预设类型,则基于该文本框与各关联文本框之间的关系概率,为该文本框确定唯一的关联文本框,实现从票据图像中提取出结构化票据数据。本申请的方案在确定出每个文本框的关联文本框后,对于表格表头类型的文本框,保留其所有关联文本框,对于其他类型的文本框,则从中选择关联概率最高的关联文本框,极大的降低了关联文本框出现误判的情况,提高了关联文本框确定的准确性。保证了本申请识别票据,以及提取票据数据的准确性。
图6是根据本申请实施例提供的另一种票据图像识别方法的流程图。本实施例在上述实施例的基础上,进行了进一步的优化,给出了对票据图像进行文本检测,确定票据图像中的至少两个文本框的属性信息集的具体情况介绍。如图6所示,该方法包括:
S601,对票据图像进行文本检测,得到票据图像中的至少两个文本框的位置坐标。
S602,对至少两个文本框的位置坐标进行畸变校正。
可选的,对于票据图像而言,其拍摄角度不同、票据放置方式以及票据平整度不同,拍摄的票据图像可能会存在一定的畸变。而基于文本检测技术对票据图像的文本内容进行检测时,通常是将属于同一行的文本字符串标注一个文本框,所以当拍摄的票据图像存在畸变时,可能会导致文本内容检测出现错误。针对该问题,本申请实施例可以是在对票据图像进行文本检测,得到票据图像中的各文本框的位置坐标后,对该位置坐标进行畸变矫正,具体的执行过程可以是对S601确定出的各文本框的位置坐标通过仿射变换进行畸变矫正,校正后的位置坐标成正矩形排布。还可以是通过神经网络模型来对位子坐标进行校正,对此本实施例不进行限定。
S603,根据校正后的至少两个文本框的位置坐标,确定至少两个文本框的图像区域和文本内容。
S604,根据文本框的属性信息集,确定文本框的关系信息集。
S605,根据文本框的属性信息集和关系信息集,确定文本框的类型,以及与该文本框存在结构关系的关联文本框。
S606,根据文本框的类型,以及与该文本框存在结构关系的关联文本框,提取票据图像的结构化票据数据。
本申请实施例的技术方案,在确定票据图像中的各文本框的属性信息时,对检测到的各文本框的位置坐标进行畸变校正后,再确定图像区域和文本内容,保证了文本框属性信息集的精准性,为后续基于该属性信息集确定关系信息集,精准推理各文本框的类型以及与各文本框的关联文本框奠定了基础,保证了从票据图像中提取的结构化票据数据的准确性。
图7是根据本申请实施例提供给一种票据图像识别装置的结构示意图;本实施例适用于对票据图像进行识别的情况,尤其适用于对多种版式不固定的票据图像进行识别的情况。该装置可实现本申请任意实施例所述的票据图像识别方法。该装置700具体包括如下:
文本检测模块701,用于对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;
信息推理模块702,用于根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;
票据数据提取模块703,用于根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。
本申请实施例的技术方案,通过在票据图像中检测出各文本框的属性信息集和关系信息集,来推理各文本框的类型以及与各文本框存在关联关系的关联文本框,进而从票据图像中提取出结构化票据数据。本申请的方案无需通过模板位置匹配的方式,即可精准推理出票据图像中存在字段结构关系和表格结构关系的结构化票据数据。不受票据版式的限制,能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。
进一步的,所述文本框的类型包括字段属性类型、字段值类型、表格表头类型或表格单元类型;所述字段属性类型和所述字段值类型的文本框存在字段结构关系;所述表格表头类型和表格单元类型的文本框存在表格结构关系。
进一步的,所述信息推理模块702包括:
特征确定单元,用于根据所述文本框的属性信息集和关系信息集,确定所述文本框的属性特征集和关系特征集;
概率确定单元,用于根据所述文本框的属性特征集和关系特征集,确定所述文本框的类型概率,以及不同文本框之间的关系概率;
类型关系确定单元,用于根据所述文本框的类型概率,以及不同文本框之间的关系概率,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框。
进一步的,所述特征确定单元具体用于:
根据所述文本框的属性信息集中的图像区域,确定所述文本框的视觉特征;
根据所述文本框的属性信息集中的文本内容,确定所述文本框的语义特征;
将所述视觉特征、所述语义特征和所述属性信息集中的位置坐标,作为所述文本框的属性特征集;
根据所述属性特征集和所述关系信息集,确定所述文本框的关系特征集。
进一步的,所述概率确定单元用于:
将所述文本框的属性特征集和关系特征集输入概率预测网络中,得到所述文本框的类型概率,以及不同文本框之间的关系概率。
进一步的,所述概率预测网络包括至少一个首尾连接的子预测网络;相应的,所述概率确定单元具体用于:
将所述文本框的关系特征集输入当前子预测网络的第一感知机,得到当前感知概率;
将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征;
若所述当前子预测网络为最后一个子预测网络,则将所述第一隐藏文本特征和所述属性特征集输入所述当前子预测网络的长短期记忆网络层,得到所述文本框的类型概率,并将所述当前感知概率作为不同文本框之间的关系概率。
进一步的,所述概率确定单元在将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征之后,还用于:
若所述当前子预测网络不是最后一个子预测网络,则将所述第一隐藏文本特征和所述属性特征集输入所述当前子预测网络的长短期记忆网络层,得到所述文本框更新后的属性特征集,并将所述更新后的属性特征集输入下一子预测网络;将所述第一隐藏文本特征和所述关系特征集输入所述当前子预测网络的第二隐藏层,得到第二隐藏文本特征;将所述第二隐藏文本特征输入所述当前子预测网络的第二感知机,得到所述文本框更新后的关系特征集,并将所述更新后的关系特征集输入下一子预测网络。
进一步的,所述类型关系确定单元包括:
文本框类型确定子单元,用于根据所述文本框的类型概率,确定所述文本框的类型;
文本框对确定子单元,用于根据不同文本框之间的关系概率和概率阈值,确定存在结构关系的候选文本框对;
关联文本框确定子单元,用于根据所述候选文本框对和所述文本框的类型,确定与所述文本框存在结构关系的关联文本框。
进一步的,所述类型关系确定单元,还包括:
文本框类型判断子单元,用于若与所述文本框存在结构关系的关联文本框为至少两个,则判断所述文本框是否为预设类型;
关联文本框筛选子单元,用于若所述文本框为预设类型,则将所述至少两个关联文本框中,与所述文本框之间的关系概率最高的关联文本框,作为最终与所述文本框存在结构关系的关联文本框。
进一步的,所述文本框的属性信息集包括所述文本框的位置坐标、图像区域和文本内容;所述文本框的关系信息集包括所述文本框与其他文本框之间的位置坐标差值、中心点角度差值和中心点欧式距离。
进一步的,所述文本检测模块701包括:
位置确定子单元,用于对票据图像进行文本检测,得到所述票据图像中的至少两个文本框的位置坐标;
位置校正子单元,用于对所述至少两个文本框的位置坐标进行畸变校正;
图文确定子单元,用于根据校正后的至少两个文本框的位置坐标,确定所述至少两个文本框的图像区域和文本内容。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的票据图像识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的票据图像识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的票据图像识别方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的票据图像识别方法对应的程序指令/模块(例如,附图7所示的文本检测模块701、信息推理模块702和票据数据提取模块703)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的票据图像识别方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据票据图像识别方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至票据图像识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
票据图像识别方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与票据图像识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过在票据图像中检测出各文本框的属性信息集和关系信息集,来推理各文本框的类型以及与各文本框存在关联关系的关联文本框,进而从票据图像中提取出结构化票据数据。本申请的方案无需通过模板位置匹配的方式,即可精准推理出票据图像中存在字段结构关系和表格结构关系的结构化票据数据。不受票据版式的限制,能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种票据图像识别方法,其特征在于,包括:
对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;其中,所述文本框为在所述票据图像中标注文本字符串的方框;所述属性信息集表征每个所述文本框内的文本字符串自身属性的相关信息;所述关系信息集表征不同文本框之间的相互关系的信息;
根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;其中,所述文本框的类型包括字段属性类型、字段值类型、表格表头类型或表格单元类型;所述字段属性类型和所述字段值类型的文本框存在字段结构关系;所述表格表头类型和表格单元类型的文本框存在表格结构关系;所述文本框的属性信息集包括所述文本框的位置坐标、图像区域和文本内容;所述文本框的关系信息集包括所述文本框与其他文本框之间的位置坐标差值、中心点角度差值和中心点欧式距离;
根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据;
其中,根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,包括:
根据所述文本框的属性信息集和关系信息集,确定所述文本框的属性特征集和关系特征集;
根据所述文本框的属性特征集和关系特征集,确定所述文本框的类型概率,以及不同文本框之间的关系概率;
根据所述文本框的类型概率,以及不同文本框之间的关系概率,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框。
2.根据权利要求1所述的方法,其特征在于,根据所述文本框的属性信息集和关系信息集,确定所述文本框的属性特征集和关系特征集,包括:
根据所述文本框的属性信息集中的图像区域,确定所述文本框的视觉特征;
根据所述文本框的属性信息集中的文本内容,确定所述文本框的语义特征;
将所述视觉特征、所述语义特征和所述属性信息集中的位置坐标,作为所述文本框的属性特征集;
根据所述属性特征集和所述关系信息集,确定所述文本框的关系特征集。
3.根据权利要求1所述的方法,其特征在于,根据所述文本框的属性特征集和关系特征集,确定所述文本框的类型概率,以及不同文本框之间的关系概率,包括:
将所述文本框的属性特征集和关系特征集输入概率预测网络中,得到所述文本框的类型概率,以及不同文本框之间的关系概率。
4.根据权利要求3所述的方法,其特征在于,所述概率预测网络包括至少两个首尾连接的子预测网络;
将所述文本框的属性特征集和关系特征集输入概率预测网络中,得到所述文本框的类型概率,以及不同文本框之间的关系概率,包括:
将所述文本框的关系特征集输入当前子预测网络的第一感知机,得到当前感知概率;
将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征;
若所述当前子预测网络为最后一个子预测网络,则将所述第一隐藏文本特征和所述属性特征集输入所述当前子预测网络的长短期记忆网络层,得到所述文本框的类型概率,并将所述当前感知概率作为不同文本框之间的关系概率;
其中,所述将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征,包括:
将所述当前子预测网络的上一子预测网络的长短期记忆网络层输出的所述文本框的属性特征集、所述当前子预测网络的第一感知机输出的当前感知概率输入到所述当前子预测网络的第一隐藏层,得到所述第一隐藏文本特征。
5.根据权利要求4所述的方法,其特征在于,在将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征之后,还包括:
若所述当前子预测网络不是最后一个子预测网络,则将所述第一隐藏文本特征和所述属性特征集输入所述当前子预测网络的长短期记忆网络层,得到所述文本框更新后的属性特征集,并将所述更新后的属性特征集输入下一子预测网络;
将所述第一隐藏文本特征和所述关系特征集输入所述当前子预测网络的第二隐藏层,得到第二隐藏文本特征;
将所述第二隐藏文本特征输入所述当前子预测网络的第二感知机,得到所述文本框更新后的关系特征集,并将所述更新后的关系特征集输入下一子预测网络。
6.根据权利要求1所述的方法,其特征在于,根据所述文本框的类型概率,以及不同文本框之间的关系概率,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,包括:
根据所述文本框的类型概率,确定所述文本框的类型;
根据不同文本框之间的关系概率和概率阈值,确定存在结构关系的候选文本框对;
根据所述候选文本框对和所述文本框的类型,确定与所述文本框存在结构关系的关联文本框。
7.根据权利要求6所述的方法,其特征在于,根据所述候选文本框对和所述文本框的类型,确定与所述文本框存在结构关系的关联文本框之后,还包括:
若与所述文本框存在结构关系的关联文本框为至少两个,则判断所述文本框是否为预设类型;其中,所述预设类型为字段属性类型、字段值类型和表格单元类型;
若是,则将所述至少两个关联文本框中,与所述文本框之间的关系概率最高的关联文本框,作为最终与所述文本框存在结构关系的关联文本框。
8.根据权利要求1所述的方法,其特征在于,对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集,包括:
对票据图像进行文本检测,得到所述票据图像中的至少两个文本框的位置坐标;
对所述至少两个文本框的位置坐标进行畸变校正;
根据校正后的至少两个文本框的位置坐标,确定所述至少两个文本框的图像区域和文本内容。
9.一种票据图像识别装置,其特征在于,包括:
文本检测模块,用于对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;其中,所述文本框为在所述票据图像中标注文本字符串的方框;所述属性信息集表征每个所述文本框内的文本字符串自身属性的相关信息;所述关系信息集表征不同文本框之间的相互关系的信息;
信息推理模块,用于根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;其中,所述文本框的类型包括字段属性类型、字段值类型、表格表头类型或表格单元类型;所述字段属性类型和所述字段值类型的文本框存在字段结构关系;所述表格表头类型和表格单元类型的文本框存在表格结构关系;所述文本框的属性信息集包括所述文本框的位置坐标、图像区域和文本内容;所述文本框的关系信息集包括所述文本框与其他文本框之间的位置坐标差值、中心点角度差值和中心点欧式距离;
票据数据提取模块,用于根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据;
其中,所述信息推理模块包括:
特征确定单元,用于根据所述文本框的属性信息集和关系信息集,确定所述文本框的属性特征集和关系特征集;
概率确定单元,用于根据所述文本框的属性特征集和关系特征集,确定所述文本框的类型概率,以及不同文本框之间的关系概率;
类型关系确定单元,用于根据所述文本框的类型概率,以及不同文本框之间的关系概率,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框。
10.根据权利要求9所述的装置,其特征在于,所述特征确定单元具体用于:
根据所述文本框的属性信息集中的图像区域,确定所述文本框的视觉特征;
根据所述文本框的属性信息集中的文本内容,确定所述文本框的语义特征;
将所述视觉特征、所述语义特征和所述属性信息集中的位置坐标,作为所述文本框的属性特征集;
根据所述属性特征集和所述关系信息集,确定所述文本框的关系特征集。
11.根据权利要求9所述的装置,其特征在于,所述概率确定单元用于:
将所述文本框的属性特征集和关系特征集输入概率预测网络中,得到所述文本框的类型概率,以及不同文本框之间的关系概率。
12.根据权利要求11所述的装置,其特征在于,所述概率预测网络包括至少两个首尾连接的子预测网络;所述概率确定单元具体用于:
将所述文本框的关系特征集输入当前子预测网络的第一感知机,得到当前感知概率;
将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征;
若所述当前子预测网络为最后一个子预测网络,则将所述第一隐藏文本特征和所述属性特征集输入所述当前子预测网络的长短期记忆网络层,得到所述文本框的类型概率,并将所述当前感知概率作为不同文本框之间的关系概率;
其中,所述将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征,包括:
将所述当前子预测网络的上一子预测网络的长短期记忆网络层输出的所述文本框的属性特征集、所述当前子预测网络的第一感知机输出的当前感知概率输入到所述当前子预测网络的第一隐藏层,得到所述第一隐藏文本特征。
13.根据权利要求12所述的装置,其特征在于,所述概率确定单元在将所述当前感知概率和所述文本框的属性特征集输入所述当前子预测网络的第一隐藏层,得到第一隐藏文本特征之后,还用于:
若所述当前子预测网络不是最后一个子预测网络,则将所述第一隐藏文本特征和所述属性特征集输入所述当前子预测网络的长短期记忆网络层,得到所述文本框更新后的属性特征集,并将所述更新后的属性特征集输入下一子预测网络;将所述第一隐藏文本特征和所述关系特征集输入所述当前子预测网络的第二隐藏层,得到第二隐藏文本特征;将所述第二隐藏文本特征输入所述当前子预测网络的第二感知机,得到所述文本框更新后的关系特征集,并将所述更新后的关系特征集输入下一子预测网络。
14.根据权利要求9所述的装置,其特征在于,所述类型关系确定单元包括:
文本框类型确定子单元,用于根据所述文本框的类型概率,确定所述文本框的类型;
文本框对确定子单元,用于根据不同文本框之间的关系概率和概率阈值,确定存在结构关系的候选文本框对;
关联文本框确定子单元,用于根据所述候选文本框对和所述文本框的类型,确定与所述文本框存在结构关系的关联文本框。
15.根据权利要求14所述的装置,其特征在于,所述类型关系确定单元,还包括:
文本框类型判断子单元,用于若与所述文本框存在结构关系的关联文本框为至少两个,则判断所述文本框是否为预设类型;其中,所述预设类型为字段属性类型、字段值类型和表格单元类型;
关联文本框筛选子单元,用于若所述文本框为预设类型,则将所述至少两个关联文本框中,与所述文本框之间的关系概率最高的关联文本框,作为最终与所述文本框存在结构关系的关联文本框。
16.根据权利要求9所述的装置,其特征在于,所述文本检测模块包括:
位置确定子单元,用于对票据图像进行文本检测,得到所述票据图像中的至少两个文本框的位置坐标;
位置校正子单元,用于对所述至少两个文本框的位置坐标进行畸变校正;
图文确定子单元,用于根据校正后的至少两个文本框的位置坐标,确定所述至少两个文本框的图像区域和文本内容。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的票据图像识别方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的票据图像识别方法。
CN202010517447.1A 2020-06-09 2020-06-09 一种票据图像识别方法、装置、设备及存储介质 Active CN111709339B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010517447.1A CN111709339B (zh) 2020-06-09 2020-06-09 一种票据图像识别方法、装置、设备及存储介质
JP2021032799A JP7230081B2 (ja) 2020-06-09 2021-03-02 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
KR1020210032197A KR102612295B1 (ko) 2020-06-09 2021-03-11 어음 이미지 인식 방법, 장치, 기기 및 저장 매체
US17/201,733 US11854246B2 (en) 2020-06-09 2021-03-15 Method, apparatus, device and storage medium for recognizing bill image
EP21162692.4A EP3836016A1 (en) 2020-06-09 2021-03-15 Recognizing invoice images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010517447.1A CN111709339B (zh) 2020-06-09 2020-06-09 一种票据图像识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111709339A CN111709339A (zh) 2020-09-25
CN111709339B true CN111709339B (zh) 2023-09-19

Family

ID=72539524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010517447.1A Active CN111709339B (zh) 2020-06-09 2020-06-09 一种票据图像识别方法、装置、设备及存储介质

Country Status (5)

Country Link
US (1) US11854246B2 (zh)
EP (1) EP3836016A1 (zh)
JP (1) JP7230081B2 (zh)
KR (1) KR102612295B1 (zh)
CN (1) CN111709339B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN112052835B (zh) 2020-09-29 2022-10-11 北京百度网讯科技有限公司 信息处理方法、信息处理装置、电子设备和存储介质
CN112364857B (zh) * 2020-10-23 2024-04-26 中国平安人寿保险股份有限公司 基于数值抽取的图像识别方法、装置及存储介质
WO2022087688A1 (en) * 2020-11-02 2022-05-05 The University Of Melbourne System and method for text mining
CN112699234A (zh) * 2020-12-08 2021-04-23 上海深杳智能科技有限公司 一种通用文档识别方法、系统、终端及存储介质
CN112597773B (zh) * 2020-12-08 2022-12-13 上海深杳智能科技有限公司 文档结构化方法、系统、终端及介质
CN114611499A (zh) * 2020-12-09 2022-06-10 阿里巴巴集团控股有限公司 信息抽取模型训练方法、信息抽取方法、装置和电子设备
CN112613367A (zh) * 2020-12-14 2021-04-06 盈科票据服务(深圳)有限公司 票据信息文本框获取方法、系统、设备及存储介质
CN112837466B (zh) * 2020-12-18 2023-04-07 北京百度网讯科技有限公司 票据识别方法、装置、设备以及存储介质
CN112949415B (zh) * 2021-02-04 2023-03-24 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN112949450B (zh) * 2021-02-25 2024-01-23 北京百度网讯科技有限公司 票据处理方法、装置、电子设备和存储介质
CN113065536B (zh) * 2021-06-03 2021-09-14 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN113657377B (zh) * 2021-07-22 2023-11-14 西南财经大学 一种机打票据图像结构化识别方法
CN113627350B (zh) * 2021-08-12 2022-08-02 北京百度网讯科技有限公司 一种表格检测方法、装置、设备以及存储介质
CN113780098B (zh) * 2021-08-17 2024-02-06 北京百度网讯科技有限公司 文字识别方法、装置、电子设备以及存储介质
CN113762100B (zh) * 2021-08-19 2024-02-09 杭州米数科技有限公司 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
JPWO2023188362A1 (zh) * 2022-03-31 2023-10-05
CN115497114B (zh) * 2022-11-18 2024-03-12 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法
CN115640401B (zh) * 2022-12-07 2023-04-07 恒生电子股份有限公司 文本内容提取方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126943A (ja) * 2004-10-26 2006-05-18 Canon Inc ワークフロー管理装置、ネットワークシステム、制御方法、及びプログラム
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
CN109816118A (zh) * 2019-01-25 2019-05-28 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
US10572725B1 (en) * 2018-03-30 2020-02-25 Intuit Inc. Form image field extraction
CN110991456A (zh) * 2019-12-05 2020-04-10 北京百度网讯科技有限公司 票据识别方法及装置
EP3660733A1 (en) * 2018-11-30 2020-06-03 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517112B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种表格识别方法与系统
US10185946B2 (en) * 2014-12-31 2019-01-22 Fiserv, Inc. Facilitating presentation of content relating to a financial transaction
JP2018005462A (ja) * 2016-06-30 2018-01-11 株式会社日立ソリューションズ 認識装置及び認識方法
US10810420B2 (en) * 2018-09-28 2020-10-20 American Express Travel Related Services Company, Inc. Data extraction and duplicate detection
JP7396568B2 (ja) * 2018-10-05 2023-12-12 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
US11055560B2 (en) * 2018-11-21 2021-07-06 Microsoft Technology Licensing, Llc Unsupervised domain adaptation from generic forms for new OCR forms
EP3891656A4 (en) * 2018-12-04 2022-08-24 Leverton Holding LLC METHODS AND SYSTEMS FOR AUTOMATIC TABLE RECOGNITION IN DOCUMENTS

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126943A (ja) * 2004-10-26 2006-05-18 Canon Inc ワークフロー管理装置、ネットワークシステム、制御方法、及びプログラム
US10572725B1 (en) * 2018-03-30 2020-02-25 Intuit Inc. Form image field extraction
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
EP3660733A1 (en) * 2018-11-30 2020-06-03 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN109816118A (zh) * 2019-01-25 2019-05-28 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
CN110991456A (zh) * 2019-12-05 2020-04-10 北京百度网讯科技有限公司 票据识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘欢. 基于深度学习的发票图像文本检测与识别.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第3期),I138-1181. *
汤雷雷.基于深度学习的税务票据自动识别系统的研究及实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第2期),I138-1063. *

Also Published As

Publication number Publication date
KR20210152931A (ko) 2021-12-16
JP7230081B2 (ja) 2023-02-28
US11854246B2 (en) 2023-12-26
KR102612295B1 (ko) 2023-12-12
JP2021197154A (ja) 2021-12-27
US20210383107A1 (en) 2021-12-09
EP3836016A1 (en) 2021-06-16
CN111709339A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111709339B (zh) 一种票据图像识别方法、装置、设备及存储介质
KR102610518B1 (ko) 문자 구조화 추출 방법, 장치, 기기 및 저장 매체
US11816165B2 (en) Identification of fields in documents with neural networks without templates
CN108304835B (zh) 文字检测方法和装置
US11170248B2 (en) Video capture in data capture scenario
US10007867B2 (en) Systems and methods for identifying entities directly from imagery
US8965112B1 (en) Sequence transcription with deep neural networks
US10395108B1 (en) Automatically identifying and interacting with hierarchically arranged elements
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
KR20220013298A (ko) 문자 인식 방법 및 장치
US20210342621A1 (en) Method and apparatus for character recognition and processing
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN115578735A (zh) 文本检测方法和文本检测模型的训练方法、装置
WO2023020176A1 (zh) 图像识别方法和装置
EP3037985A1 (en) Search method and system, search engine and client
CN116152833A (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN115359308A (zh) 模型训练、难例识别方法、装置、设备、存储介质及程序
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN115861809A (zh) 杆状物检测及其模型的训练方法、装置、电子设备、介质
CN110826448B (zh) 一种自主更新的室内定位方法
CN112801960A (zh) 图像处理方法及装置、存储介质、电子设备
Pillai et al. Document layout analysis using detection transformers
CN115497112B (zh) 表单识别方法、装置、设备以及存储介质
CN116824609B (zh) 文档版式检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant