CN110766014B - 票据信息定位方法、系统及计算机可读存储介质 - Google Patents

票据信息定位方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN110766014B
CN110766014B CN201910934096.1A CN201910934096A CN110766014B CN 110766014 B CN110766014 B CN 110766014B CN 201910934096 A CN201910934096 A CN 201910934096A CN 110766014 B CN110766014 B CN 110766014B
Authority
CN
China
Prior art keywords
bill
positioning
text
target text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910934096.1A
Other languages
English (en)
Other versions
CN110766014A (zh
Inventor
邬国锐
王庆庆
朱亚卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing aikaka Information Technology Co.,Ltd.
Original Assignee
邬国锐
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 邬国锐 filed Critical 邬国锐
Priority to CN201910934096.1A priority Critical patent/CN110766014B/zh
Publication of CN110766014A publication Critical patent/CN110766014A/zh
Application granted granted Critical
Publication of CN110766014B publication Critical patent/CN110766014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种票据信息定位方法、系统及计算机可读存储介质,该方法包括:对特定类型票据上待提取的目标文本区域进行坐标标注,形成模板图;对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,形成待提取的目标文本区域对应的样本图像概率图;计算训练特定类型票据样本生成的样本图像概率图和坐标标注的模板图之间的图像损失,基于图像损失调整模板图,当样本图像概率图和模板图之间的误差保持稳定时,以调整后的模板图作为该特定类型待处理票据上待提取的多个目标文本区域的定位模型;根据定位模型对待处理票据上目标文本区域进行定位。

Description

票据信息定位方法、系统及计算机可读存储介质
本申请是申请人于2018年9月6日提出的申请号为201811032403.9的发明专利申请的分案申请。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种票据信息定位方法、系统及计算机可读存储介质。
背景技术
在日常工作或生活中,会用到各种票据,票据的核对统计工作不仅业务量大,而且需要专业人员完成,随着计算机技术在各个领域的快速应用,对票据信息处理工作由机器来完成也成为一种趋势。
目前机器对印在纸上的信息的提取主要采用光学字符识别(Optical CharacterRecognition,以下简称:OCR)技术,其利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR的处理步骤主要包括:图像预处理、版面分析、文本定位(或叫图像切割)、字符切割和识别等。在OCR处理步骤中,文本定位主要是采用投影方式找到高度和宽度范围的坐标,从而确定文本的坐标区域。这种文本定位方法可以较好地处理书籍、报刊等复杂度低的版面信息,但在处理复杂度高的票据版面信息时,若票据信息打印出现倾斜或错位,文本压线,就会出现定位不准,从而导致定位出的文本属性与实际的文本属性不一致的问题,因此,票据信息识别提取的错误率较高,从而无法有效地进行机器处理。
发明内容
本发明提供一种票据信息定位方法、系统及计算机可读存储介质,用以克服上述现有技术中存在的技术问题,以提高票据信息的定位的准确率,从而提升机器处理票据信息的有效性。
本发明提供的一种票据信息定位方法,包括:
对特定类型票据上待提取的目标文本区域进行坐标标注,形成模板图;
对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,形成待提取的目标文本区域对应的样本图像概率图;
计算训练特定类型票据样本生成的样本图像概率图和坐标标注的模板图之间的图像损失,基于图像损失调整模板图,当样本图像概率图和模板图之间的误差保持稳定时,以调整后的模板图作为该特定类型待处理票据上待提取的多个目标文本区域的定位模型;
根据定位模型对待处理票据进行图像特征提取;
预测识别图像的文本像素和非文本像素;以每个像素为中心像素对周围像素进行预测识别,确定周围像素与中心像素是否为同一文本区域;
将属于同一文本区域的像素进行融合,获取一个目标文本区域;
获取每个目标文本区域对应的定位坐标。
本发明还提供一种票据信息定位系统,包括:
训练模块,用于对特定类型票据上待提取的目标文本区域进行坐标标注,形成模板图;对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,形成待提取的目标文本区域对应的样本图像概率图;以及计算训练特定类型票据样本生成的样本图像概率图和坐标标注的模板图之间的图像损失,基于图像损失调整模板图,当样本图像概率图和模板图之间的误差保持稳定时,以调整后的模板图作为该特定类型待处理票据上待提取的多个目标文本区域的定位模型;
定位模块,用于根据定位模型对待处理票据进行图像特征提取;预测识别图像的文本像素和非文本像素;以每个像素为中心像素对周围像素进行预测识别,确定周围像素与中心像素是否为同一文本区域;将属于同一文本区域的像素进行融合,获取一个目标文本区域;以及获取每个目标文本区域对应的定位坐标。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被执行上述的票据信息定位方法。
本发明通过对特定类型票据采用深度神经网络模型进行训练,可以获取该类票据上多个特定目标文本区域的定位模型,同时剔除了不必要的无效文本干扰,使得通过训练获取的定位模型对待处理票据进行信息定位时,可以获得较准确的定位信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种票据信息处理方法流程图;
图2为本发明实施例中票据目标文本区域定位的具体流程图;
图3为本发明实施例二提供的一种票据信息处理方法流程图;
图4为本发明实施例三提供的一种票据信息处理方法流程图;
图5为本发明实施例中特定类型票据样本训练提取定位模型的流程图;
图6为本发明实施例四提供的一种票据信息处理方法流程图;
图7为本发明实施例五提供的一种票据信息处理系统的结构示意图;
图8为本发明实施例六提供的一种票据信息处理系统的结构示意图;
图9为本发明实施例七提供的一种票据信息处理系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的技术方案更加清楚,以下结合附图对本发明的实施例进行详细说明。
图1为本发明实施例一提供的一种票据信息处理方法流程图,如图1所示,本实施例中的票据信息处理方法,包括:
步骤10、对特定类型票据采用深度神经网络模型进行训练,获取该特定类型票据上多个目标文本区域的定位模型。
每种类型票据都有特定的版式版面信息,但票据版面上的信息针对不同的用途,需要提取的不同的信息,如:当只需要提取购买方或销售方的信息时,版面上的包括表格、图章、金额等其他信息对待提取的信息来说就是无关信息,而这些无关信息在票据信息处理中会形成大量的干扰,因此,通过对每一种规范的票据的版面信息进行训练,只提取需要的信息,即目标文本,就能实现定位之前就直接过滤掉大量的干扰信息,使得后续票据上信息待提取的目标文本区域较准确的定位以及文本区域文字代表的属性的分类,从而提取到需要的该种类型票据的票据信息。
该步骤是通过样本训练获取机器学习中票据样本上多个目标文本区域的定位信息,由于一种类型的票据上特定位置的信息类型属性一般是固定不变的,一旦通过训练得到文本区域的定位信息,根据位置与属性类别的映射关系,也就得到该定位区域的文本属性类别。因此,通过深度神经网络模型训练后能够提取文本区域待获取信息所在文本区域的定位信息和对应的属性信息。在实际应用中为便于模型训练,可以在训练过程中只提取定位信息,而属性信息可以通过机器学习单独形成属性分类模型。
步骤20、根据定位模型对待处理票据上目标文本区域进行定位。
本步骤中,以样本训练中获取的定位模型对输入的票据图像进行特征提取,之后对提取的图像像素进行预测识别,区分为文本像素和非文本像素,同时对每个像素的周围像素进行预测识别以确定每个像素与其周围像素所属的文本区域,最终获得各个文本区域,对各个文本区域矩形化后得到每个目标文本区域的定位坐标。
图2为本发明实施例中票据目标文本区域定位的具体流程图,如图2所示,文本区域定位过程具体如下:
步骤201、根据定位模型对待处理票据进行图像特征提取;
步骤202、预测识别图像的文本像素和非文本像素;以每个像素为中心像素对周围像素进行预测识别,确定周围像素与中心像素是否为同一文本区域;
步骤203、将属于同一文本区域的像素进行融合,获取一个目标文本区域;
步骤204、获取每个目标文本区域对应的矩形框的定位坐标。
在文本区域定位过程中,通过像素级的二值分类预测来识别文本和非文本像素,然后通过在每个像素上做四个(上,下,左,右)或八个方向(左上,上,右上,左,右,左下,下,右下)的二值分类预测来预测周围像素和中心像素是否为同一文本区域,以解决重合文本的类内竞争问题,最后通过设定阈值把所有同一文本区域的像素融合,有重合的部分则通过共享重合区来实现该区域的完整提取,通过这种方法可以将票据上每个目标文本区域都提取出。
票据上每个文本区域都可以用矩形框模拟表示,因此,用矩形框的四个顶点坐标可以表示文本区域的定位信息,通过这种方法解决了目标文本的定位问题。当然,每个文本区域也不限于采用矩形框的顶点坐标定位,也可以采用便于本类票据信息提取的其他多边形顶点坐标表示,或者能表示该文本区域的定位表示方式,如一个顶点加上距离长度表示等。
步骤30、利用机器学习形成属性分类模型并对待处理票据上已定位的目标文本区域进行分类,确定至少一个目标文本区域的属性。
在上述步骤完成文本区域准确定位后,可以利用机器学习对待处理票据上一些属性明确的区域优先进行属性确定。
由于是待处理票据,票据上打印的信息可能出现倾斜或错位等问题,这时通过机器学习依然可以准确定位待处理票据上多个目标文本区域的相对位置关系,基于特定目标文本区域的固定特点或者几个特定目标文本区域之间具有固定关系的特点,可以优先将这些特定目标文本区域的定位信息及分类属性确定下来,如票据中的增值税普通发票,其左上角有个矩形框为正方形的二维码区域,还有发票总金额、税和税前金额的位置呈一个稳定的三角形关系,利用机器学习可以首先确定这些区域的定位,从而根据位置和属性的映射关系,可以明确这些区域的分类属性。
票据上局部范围的目标文本区域数量是有限的,根据这有限的环境状态可以快速找到特定的文本区域,如增值税普通发票中,二维码所在的文本区域在票据的左上角,而且二维码所在的文本区域为正方形,因此,通过机器学习可以找出左上角的正方形文本区域,找到该区域,也就确定该区域的属性了,从而为下面步骤中的局部环境搜索提供了搜索源点基础。
步骤40、根据已确定目标文本区域的属性、已定位目标文本区域之间的相对位置关系及属性分类模型,获取待处理票据上属性未确定的目标文本区域的属性,和/或对待处理票据上已确定目标文本区域的属性进行第一核验纠偏。
当待处理票据上至少一个属性确定后,可以根据预先训练好的定位模型中各个文本区域之间的相对位置关系,以及属性分类模型,通过局部环境搜索算法对未确定属性的区域进行属性分类明确;当然,通过这种方式还可以对已经确定属性的区域的属性进行核验。
根据前面的分析可知,目标文本区域的位置与其对应的属性之间具有映射关系,特定票据上的各个目标文本区域之间相对位置关系是确定的,因此,以步骤30已确定的属性的文本区域为源点,同样,在其源点周边局部环境,其目标文本区域也是有限的,搜索也容易进行,对应的属性也是确定的,根据目标文本区域之间的定位关系,在其周围进行搜索以找到相应的目标文本区域,也就确定了该目标文本区域的属性,通过这种局部环境搜索方法不仅实现整个票据上所有目标文本区域的属性确定,而且还实现了相互之间属性核验纠偏,因此,本实施例解决了票据信息提取中的票据打印过程中出现的倾斜、错位或者压线等而导致的定位不准,属性判断出错的问题。
本实施例通过对特定类型票据采用深度神经网络模型进行训练,可以获取该类票据上多个特定目标文本区域的定位模型,同时剔除了不必要的无效文本干扰,使得通过训练获取的定位模型对待处理票据进行信息定位时,可以获得较准确的定位信息;通过机器学习可完成已定位的区域的属性分类,对待处理票据上至少一个目标文本区域的属性确定,即实现待处理票据上至少一个文本区域的定位与属性的映射;再通过各个目标文本之间的相对位置关系及对应的属性分类模型,进行局部环境搜索,即根据已确定属性的区域获取周围未确定属性区域的属性完成对所有目标文本区域的属性确定,从而使得后续的票据信息结构化数据提取及准确识别成为可能;同时,在局部环境搜索属性确定过程中,利用各个目标文本之间的相对位置关系及对应的属性分类模型还可以对已确定属性的目标文本区域进行核验以进一步提高属性分类的准确性。
在上述的定位搜索中,对于后续不需要文本内容识别的目标文本区域,可以在属性确定之后将其从定位信息和属性类别中剔除以降低后续OCR识别提取量。
图3为本发明实施例二提供的一种票据信息处理方法流程图,如图3所示,本实施例的方法在上述实施例一的基础上,进一步包括:
步骤50、采用光学字符识别对待处理票据上已定位和属性分类的目标文本区域进行文本内容识别,获取目标文本区域的文本内容。
完成待处理票据上目标文本区域的定位和属性识别后,也就完成了文本区域的分割,对分割后的每个目标文本区域采用OCR进行字符内容识别,获取每个文本区域的具体文本内容。
步骤70、根据目标文本区域的属性及相应的文本内容,获取待处理票据上票据信息的结构化数据。
目标文本区域的定位、属性及内容都确定后,就完成了票据信息的识别,基于三者之间的映射关系就可以直接以结构化数据输出,从而可实现票据信息的机器处理。
本实施例在上述实施例一达到的技术效果基础上,进一步通过光学字符识别对分割出的文本区域进行内容识别,通过文本区域的属性和识别的文本内容就可以对票据信息进行结构化数据输出,从而实现机器处理票据信息的数据提取过程。
在上述实施例二的基础上,为使目标文本区域的属性分类更加准确,本发明实施例三对目标文本区域的属性进行进一步核验纠偏。
图4为本发明实施例三提供的一种票据信息处理方法流程图,如图4所示,本实施例三的方法在上述实施例二的基础上,增加利用OCR之后的文本内容进一步核验对应区域的属性的操作,即本实施例的方法进一步包括:
步骤60、根据待处理票据上至少一个目标文本区域的文本内容核验相应目标文本区域的属性,并根据目标文本区域之间的相对位置关系对其他目标文本区域的属性进行第二核验纠偏;
相应地,获取结构化数据的步骤具体为:
步骤71、根据第二核验纠偏后的目标文本区域属性及相应的文本内容,获取待处理票据上票据信息的结构化数据。
具体应用中,当OCR之后,已经能够根据一些特定目标文本区域的特点确定该区域的属性,如增值税普通发票中,当OCR识别出的文本内容是大写金额,表明该区域为发票的总金额大写,如识别出文本内容有XX年XX月XX日,则可以确定该区域是开票时间,或者如识别出文本内容仅含有阿拉伯数字或者阿拉伯数字和英文字母,则可以确定该区域是纳税人识别号,再结合其他位置信息可以确定是购买方的还是销售方的,等等,通过这些明确的可供标的的区域属性,可以进一步核验其上下左右的文本的属性,即可以对前述步骤40中已获取的全部属性进一步一一相互核验。
根据上述本实施例中的二次核验纠偏后提取的结构化数据进一步提升了机器处理票据信息的有效性。
在上述任一实施例中,特定票据的定位模型可以通过如下的具体操作过程得到。
图5为本发明实施例中特定类型票据样本训练提取定位模型的流程图,如图5所示,提取定位模型包括:
步骤101、对特定类型票据上的目标文本区域对应的矩形框进行坐标标注;
本步骤是在采用大量样本训练之前,先对特定类型票据上的待获取票据文本的区域进行矩形框坐标标注,坐标标注的多个矩形框对应于票据上的各个票据信息文本区域。
步骤102、对该特定类型票据训练进行图像特征提取;
步骤103、根据计算训练票据生成的目标文本区域图和坐标标注的矩形框图之间的图像损失,确定该特定类型票据上多个目标文本区域的定位模型。
由于特定类型票据上待提取信息部分的位置及属性相对固定,所以可以先对这种类型票据上的文本区域进行矩形框化,并标注矩形框的顶点坐标,即形成票据图像的模板(mask)图,然后通过票据样本训练提取样本图像概率图,并与模板图进行比对计算,通过大量的样本训练不断调整模板图,使得二者之间的图像定位损失最小,即概率图与模型图之间的误差保持稳定时,从而提取出已训练的目标文本区域模板图作为目标文本区域的定位模型。
根据前述可以了解,对票据文本区域矩形框化并非唯一选择,本发明实施例为便于解释说明,以矩形框为例进行说明。
在样本训练中,首先要进行文本区域检测,即文本识别定位,本发明采用深度神经网络模型,通过卷积神经网络来提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,由此形成各个文本区域的概率图。
上述票据样本训练提取定位信息方式并不唯一,在具体实施中也可以现有的版面分析方式进行训练提取。
版面分析主要是用来区分图像中的区域,如哪里是文本、哪里是表格、哪里是图片等,同时分析阅读的顺序,如单栏文本,双栏文本,区分段落等等,版面分析方便文本定位的处理,找到独立的文本区域,对该区域的文本定位将会减少其他区域带来的干扰。版面分析有不同的技术方案,大体上可以分为两大类:层次式方式和非层次式方式。层次式方式指的是划分分析层级的方式,可以分为自底向顶(由像素到整体)或自顶向底(由整体到像素)两种方式,两者路径相反。处理思路都是通过分析不同层级上的元素特征,来区分文本区域、图像区域、表格区域等。非层次式方式主要通过连通域分析来实现,即通过分析相邻的像素点是否连通,再根据联通区域的特点来区别判断文字、图像、表格等区域。
通过版面分析区分出各个目标文本区域后再进行文本定位,文本定位也可以采用现有的方法找到字符所在的精确的区域,即通过水平投影和垂直投影实现的,由于文本行与文本行之间存在投影空隙,字符串与非字符串之间也存在差异,利用这些空隙和差异就可以算出临界值,进而得知目标文本区域所在的具体位置及其之间的位置关系。根据特定票据上文本区域位置与属性的内容映射关系就可以得出各个目标文本区域的属性分类。
在上述任一实施例中,针对在票据上的某些区域由于信息比较密集或者有其他信息叠加或者拍摄角度不同而导致目标文本区域的边界在采集的图像上不容易界定区分或者模糊的问题,本发明实施例的定位模型训练中可以引入在线难样本挖掘(online hardexample mining,简称OHEM)算法以进行进一步优化改进。
另外,在本发明上述任一实施例中,每次机器学习获取的待处理票据的目标文本区域定位信息和属性分类可以作为下次机器学习的训练样本,因此,本发明实施例通过不断地大量的票据机器学习训练,会不断地提升票据信息识别提取准确率。
在上述本发明的任一实施例中,对样本票据或者待处理票据采用深度神经网络模型进行图像特征提取之前,还可以包括:对采集的票据图像进行清晰度增强的图像预处理。通过对采集的票据图像进行预处理可以去除对提取票据信息可能造成干扰的噪点等,因此也可以提升后续票据信息提取的准确性。
在上述实施例中,目标文本区域的定位模型通过深度神经网络模型训练得到的,而属性分类模型是通过机器学习得到的,下面的实施例是将两个模型合二为一,即在样本训练中直接得到包含有定位信息和属性信息的定位分类模型。
图6为本发明实施例四提供的一种票据信息处理方法流程图,如图6所示,本实施例中的票据信息处理方法,包括:
步骤11、对特定类型票据采用深度神经网络模型进行训练,获取该特定类型票据上多个目标文本区域的定位分类模型,所述定位分类模型包含各目标文本区域的定位信息及对应的属性信息。
本步骤与前述实施例的区别在于在样本训练时,对特定类型票据上待获取文本信息的区域不仅进行矩形框坐标标注,还进行属性分类标注,从而在深度神经网络模型训练过程中直接形成定位分类模型。
步骤21、根据定位分类模型中的定位信息对待处理票据上目标文本区域进行定位。
步骤31、根据定位分类模型中的属性信息对待处理票据上已定位的目标文本区域进行属性分类,确定至少一个目标文本区域的属性。
本步骤中,根据定位分类模型中的各文本区域标注的属性信息及已定位目标区域之间的相对位置关系可以确定一些特定目标文本区域的属性,从而后续再利用局部环境搜索确定临近目标文本区域的属性,直至确定票据版面上全部的目标文本区域的属性。
步骤41、根据已确定目标文本区域的属性、已定位的目标文本区域之间的相对位置关系及定位分类模型,获取待处理票据上属性未确定的目标文本区域的属性,和/或对待处理票据上已确定目标文本区域的属性进行第一核验纠偏。
本实施例通过对票据进行训练获取定位分类模型,不仅可以对待处理票据直接进行准确定位,还能够对定位后的文本区域直接进行属性确定,而不需要通过机器学习进行属性分类,同样能达到较好的定位和属性分类效果,通过目标文本区域之间的相对位置关系实现对临近目标文本区域的分类和核验,因此,进一步提高了属性分类的准确性。
图6所示实施例中与上述图1-图5中任一实施例中类似的处理过程可以采用类似的操作步骤,如根据定位分类模型进行目标文本定位的操作可以采用如图2所示的方法,由于属性分类对定位没有影响,定位分类模型训练中也可以采用如图5所示的方法,区别在于在步骤101中增加属性标注,再进行定位和分类分别训练或者结合训练得到属性分类模型。同样,在步骤41之后也可以增加如图3中的步骤50和步骤70,或者增加步骤如图4中的步骤50、步骤60和步骤71,其工作原理及所能达到的技术效果也不再赘述。
图7为本发明实施例五提供的一种票据信息处理系统的结构示意图,如图7所示,本实施例中的票据信息处理系统,包括:训练模块100、定位模块200和分类模块300,其中,训练模块100,用于对特定类型票据采用深度神经网络模型进行训练,获取该特定类型票据上多个目标文本区域的定位模型;定位模块200,用于根据定位模型对待处理票据上目标文本区域进行定位;分类模块300,用于利用机器学习形成属性分类模型并对待处理票据上已定位的目标文本区域进行分类,确定至少一个目标文本区域的属性;以及根据已确定目标文本区域的属性、已定位目标文本区域之间的相对位置关系及属性分类模型,获取待处理票据上属性未确定的目标文本区域的属性,和/或对待处理票据上已确定目标文本区域的属性进行第一核验纠偏。
上述各个功能模块分别用于完成本发明方法实施例一对应的操作功能,也达到类似的功能效果,详细内容不再赘述。
图8为本发明实施例六提供的一种票据信息处理系统的结构示意图,本实施例是在图7所示实施例的基础上进一步增加了对文本区域内容进行识别的识别模块400和对票据信息进行数据提取的提取模块500,识别模块400,用于采用光学字符识别对待处理票据上已定位和属性分类的目标文本区域进行文本内容识别,获取目标文本区域的文本内容;提取模块500,用于根据目标文本区域的属性及相应的文本内容,获取待处理票据上票据信息的结构化数据。
本实施例在上述图7所示实施例四的基础上,识别模块400通过对定位模块200定位后的文本区域的文本内容进行字符级识别,提取模块500在分类模块300属性分类的基础上结合识别模块400准确提取出文本区域数据信息,从而最终实现票据信息的结构化的有效提取。
图9为本发明实施例七提供的一种票据信息处理系统的结构示意图,本实施例是在图8所示实施例的基础上进一步增加了纠偏模块600,用于根据待处理票据上至少一个目标文本区域的文本内容核验相应目标文本区域的属性,并根据目标文本区域之间的相对位置关系对其他目标文本区域的属性进行第二核验纠偏。
本发明实施例通过纠偏模块600在识别模块400对文本内容识别后进一步对文本区域的属性进行二次核验纠偏,从而可以进一步提升票据信息提取中属性分类的准确性。在此基础上,提取模块500,具体用于根据第二核验纠偏后的目标文本区域属性及相应的文本内容,获取待处理票据上票据信息的结构化数据。
本实施例达到的技术效果与方法实施例三类似,也不再赘述。
本发明实施例还提供一种计算机可读存储介质,该可读存储介质如:ROM/RAM、磁碟、光盘等,计算机可读存储介质存储有计算机程序,所述计算机程序可被终端设备、计算机或服务器等硬件设备执行上述的票据信息处理方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种票据信息定位方法,其特征在于,包括:
对特定类型票据上待提取的目标文本区域进行坐标标注,形成模板图;
对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,形成待提取的目标文本区域对应的样本图像概率图;
计算训练特定类型票据样本生成的样本图像概率图和坐标标注的模板图之间的图像损失,基于图像损失调整模板图,当样本图像概率图和模板图之间的误差保持稳定时,以调整后的模板图作为该特定类型待处理票据上待提取的多个目标文本区域的定位模型;
根据定位模型对待处理票据进行图像特征提取;
预测识别图像的文本像素和非文本像素;以每个像素为中心像素对周围像素进行预测识别,确定周围像素与中心像素是否为同一文本区域;
将属于同一文本区域的像素进行融合,获取一个目标文本区域;
获取每个目标文本区域对应的定位坐标。
2.根据权利要求1所述的方法,其特征在于,对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征中,还包括:
采用在线难样本挖掘算法进行优化处理。
3.根据权利要求1~2中任一项权利要求所述的方法,其特征在于,对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征之前,还包括:
对采集的票据图像进行清晰度增强的图像预处理。
4.一种票据信息定位系统,其特征在于,包括:
训练模块,用于对特定类型票据上待提取的目标文本区域进行坐标标注,形成模板图;对该特定类型票据样本采用深度神经网络模型进行训练提取图像特征,计算每个像素为文本和非文本的概率,以及计算每个像素与其临近像素是否为相同类别的概率,形成待提取的目标文本区域对应的样本图像概率图;以及计算训练特定类型票据样本生成的样本图像概率图和坐标标注的模板图之间的图像损失,基于图像损失调整模板图,当样本图像概率图和模板图之间的误差保持稳定时,以调整后的模板图作为该特定类型待处理票据上待提取的多个目标文本区域的定位模型;
定位模块,用于根据定位模型对待处理票据进行图像特征提取;预测识别图像的文本像素和非文本像素;以每个像素为中心像素对周围像素进行预测识别,确定周围像素与中心像素是否为同一文本区域;将属于同一文本区域的像素进行融合,获取一个目标文本区域;以及获取每个目标文本区域对应的定位坐标。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被执行如权利要求1~3中任一项权利要求所述的方法。
CN201910934096.1A 2018-09-06 2018-09-06 票据信息定位方法、系统及计算机可读存储介质 Active CN110766014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910934096.1A CN110766014B (zh) 2018-09-06 2018-09-06 票据信息定位方法、系统及计算机可读存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910934096.1A CN110766014B (zh) 2018-09-06 2018-09-06 票据信息定位方法、系统及计算机可读存储介质
CN201811032403.9A CN109308476B (zh) 2018-09-06 2018-09-06 票据信息处理方法、系统及计算机可读存储介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201811032403.9A Division CN109308476B (zh) 2018-09-06 2018-09-06 票据信息处理方法、系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110766014A CN110766014A (zh) 2020-02-07
CN110766014B true CN110766014B (zh) 2020-05-29

Family

ID=65224476

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201811032403.9A Active CN109308476B (zh) 2018-09-06 2018-09-06 票据信息处理方法、系统及计算机可读存储介质
CN201910934096.1A Active CN110766014B (zh) 2018-09-06 2018-09-06 票据信息定位方法、系统及计算机可读存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201811032403.9A Active CN109308476B (zh) 2018-09-06 2018-09-06 票据信息处理方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (2) CN109308476B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070081A (zh) * 2019-03-13 2019-07-30 深圳壹账通智能科技有限公司 自动信息录入方法、装置、存储介质及电子设备
CN109948521B (zh) * 2019-03-18 2021-05-11 北京华宇信息技术有限公司 图像纠偏方法和装置、设备及存储介质
CN109977949B (zh) * 2019-03-20 2024-01-26 深圳华付技术股份有限公司 边框微调的文本定位方法、装置、计算机设备及存储介质
CN110032969B (zh) * 2019-04-11 2021-11-05 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110059647A (zh) * 2019-04-23 2019-07-26 杭州智趣智能信息技术有限公司 一种文本分类方法、系统及相关组件
CN110032990A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种发票文本识别方法、系统及相关组件
CN110070665B (zh) * 2019-04-24 2021-05-28 武汉华创欣网科技有限公司 一种基于深度学习的保险票据分类方法
CN110334596B (zh) * 2019-05-30 2024-02-02 平安科技(深圳)有限公司 发票图片汇总方法、电子装置及可读存储介质
CN110414497A (zh) * 2019-06-14 2019-11-05 拉扎斯网络科技(上海)有限公司 对象电子化的方法、装置、服务器及存储介质
CN110516541B (zh) * 2019-07-19 2022-06-10 金蝶软件(中国)有限公司 文本定位方法、装置、计算机可读存储介质和计算机设备
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
CN111191715A (zh) * 2019-12-27 2020-05-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN113128496B (zh) * 2019-12-31 2023-12-12 华为云计算技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN111241974B (zh) * 2020-01-07 2023-10-27 深圳追一科技有限公司 票据信息获取方法、装置、计算机设备和存储介质
CN110874618B (zh) * 2020-01-19 2020-11-27 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN111291794A (zh) * 2020-01-21 2020-06-16 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN111368840A (zh) * 2020-02-20 2020-07-03 中国建设银行股份有限公司 证件图片处理的方法和装置
CN111353458B (zh) * 2020-03-10 2023-08-18 腾讯科技(深圳)有限公司 文本框标注方法、装置和存储介质
CN111444795A (zh) * 2020-03-13 2020-07-24 安诚迈科(北京)信息技术有限公司 票据数据识别方法、电子设备、存储介质及装置
CN111507354B (zh) * 2020-04-17 2023-12-12 北京百度网讯科技有限公司 信息抽取方法、装置、设备以及存储介质
CN111582085B (zh) * 2020-04-26 2023-10-10 中国工商银行股份有限公司 单据拍摄图像识别方法及装置
CN113642352B (zh) * 2020-04-27 2023-12-19 菜鸟智能物流控股有限公司 快递面单的文本信息的获取方法、装置和终端设备
JP7478345B2 (ja) 2020-05-12 2024-05-07 京セラドキュメントソリューションズ株式会社 帳票データ取得システムおよび帳票データ取得プログラム
CN111652232B (zh) * 2020-05-29 2023-08-22 泰康保险集团股份有限公司 票据识别方法及装置、电子设备和计算机可读存储介质
CN111814833B (zh) * 2020-06-11 2024-06-07 浙江大华技术股份有限公司 票据处理模型的训练方法及图像处理方法、图像处理设备
CN112132016B (zh) * 2020-09-22 2023-09-15 平安科技(深圳)有限公司 票据信息提取方法、装置及电子设备
CN112287763A (zh) * 2020-09-27 2021-01-29 北京旷视科技有限公司 图像处理方法、装置、设备及介质
CN112101356A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种图片中特定文本的定位方法、装置及存储介质
CN112613367A (zh) * 2020-12-14 2021-04-06 盈科票据服务(深圳)有限公司 票据信息文本框获取方法、系统、设备及存储介质
CN112861865B (zh) * 2021-01-29 2024-03-29 国网内蒙古东部电力有限公司 一种基于ocr技术的辅助审计方法
CN113610098B (zh) * 2021-08-19 2022-08-09 创优数字科技(广东)有限公司 纳税号识别方法、装置、存储介质及计算机设备
CN113569863B (zh) * 2021-09-26 2022-01-25 广东电网有限责任公司中山供电局 一种单据稽查的方法、系统、电子设备及存储介质
CN114677691B (zh) * 2022-04-06 2023-10-03 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN116563573B (zh) * 2023-01-12 2023-10-13 北京爱咔咔信息技术有限公司 一种商品与价签的匹配方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593277A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种复杂彩色图像中文本区域自动定位方法及装置
CN102855478B (zh) * 2011-06-30 2015-11-25 富士通株式会社 图像中文本区域定位方法和装置
CN103577818B (zh) * 2012-08-07 2018-09-04 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
US9317764B2 (en) * 2012-12-13 2016-04-19 Qualcomm Incorporated Text image quality based feedback for improving OCR
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
CN103824373B (zh) * 2014-01-27 2016-06-08 深圳辰通智能股份有限公司 一种票据图像金额分类方法及系统
US20150347860A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Systems And Methods For Character Sequence Recognition With No Explicit Segmentation
CN104134071B (zh) * 2014-06-20 2017-12-29 北京工业大学 一种基于颜色描述的可变形部件模型物体检测方法
JP6050843B2 (ja) * 2015-01-30 2016-12-21 株式会社Pfu 情報処理装置、方法およびプログラム
CN104616009B (zh) * 2015-02-13 2018-05-18 广州广电运通金融电子股份有限公司 一种字符切割识别方法
CN106156711B (zh) * 2015-04-21 2020-06-30 华中科技大学 文本行的定位方法及装置
CN105469047B (zh) * 2015-11-23 2019-02-22 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统
CN106096592B (zh) * 2016-07-22 2019-05-24 浙江大学 一种数字图书的版面分析方法
CN106778732A (zh) * 2017-01-16 2017-05-31 哈尔滨理工大学 基于Gabor滤波器的文字信息特征提取与识别方法
CN106845550B (zh) * 2017-01-22 2020-03-17 阿依瓦(北京)技术有限公司 一种基于多模板的图像识别方法
CN108090443B (zh) * 2017-12-15 2020-09-22 华南理工大学 基于深度强化学习的场景文本检测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统

Also Published As

Publication number Publication date
CN109308476B (zh) 2019-08-27
CN110766014A (zh) 2020-02-07
CN109308476A (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
US10943105B2 (en) Document field detection and parsing
CN109948510B (zh) 一种文档图像实例分割方法及装置
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
CN103034848B (zh) 一种表单类型的识别方法
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
JP2018136926A (ja) コンテナコード認識のための方法及びシステム
CN114299528A (zh) 一种针对扫描文档的信息提取和结构化方法
CN112395996A (zh) 财务票据ocr识别及影像处理方法、系统及可读存储介质
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
CN112395995A (zh) 一种根据移动财务票据自动填单及审核的方法及系统
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN110135407B (zh) 样本标注方法及计算机存储介质
CN115063802A (zh) 一种基于PSENet的圆形印章识别方法、设备及介质
CN111738979B (zh) 证件图像质量自动检查方法及系统
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
Malik et al. An efficient skewed line segmentation technique for cursive script OCR
CN113191348A (zh) 一种基于模板的文本结构化提取方法及工具
CN114694161A (zh) 一种特定版式证件的文本识别方法、设备及存储介质
CN114495141A (zh) 文档段落位置提取方法、电子设备及存储介质
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
CN114627457A (zh) 一种票面信息识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210926

Address after: Room 216, floor 2, building 26, anningzhuang Road, Haidian District, Beijing 100085

Patentee after: Beijing aikaka Information Technology Co.,Ltd.

Address before: Room 209, 28th floor, Beida weixiuyuan, Haidian District, Beijing 100080

Patentee before: Wu Guorui