CN112085885A - 票证识别装置以及票证信息管理系统 - Google Patents

票证识别装置以及票证信息管理系统 Download PDF

Info

Publication number
CN112085885A
CN112085885A CN202011015215.2A CN202011015215A CN112085885A CN 112085885 A CN112085885 A CN 112085885A CN 202011015215 A CN202011015215 A CN 202011015215A CN 112085885 A CN112085885 A CN 112085885A
Authority
CN
China
Prior art keywords
template
ticket
current
keyword
polygon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011015215.2A
Other languages
English (en)
Inventor
顾炯
曹永刚
戴正军
唐中良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Imaging Technology Shanghai Co Ltd
Original Assignee
Ricoh Imaging Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Imaging Technology Shanghai Co Ltd filed Critical Ricoh Imaging Technology Shanghai Co Ltd
Priority to CN202011015215.2A priority Critical patent/CN112085885A/zh
Publication of CN112085885A publication Critical patent/CN112085885A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/202Testing patterns thereon using pattern matching
    • G07D7/206Matching template patterns

Abstract

本发明提供一种能够快速、准确地进行票证识别,并且占用的计算资源更低的票证识别装置以及票证信息管理系统,其特征在于,包括:模板存储部,存储有与每一种票证的票证模板相对应的票证模板数据,该票证模板数据至少包含多个用于票证识别的模板关键词以及每一个模板关键词在相应票证中的模板关键词位置信息,候选模板判定确定部,依次判定当前关键词中是否含有预定数量比例以上的模板关键词,并将判定为是的票证模板确定为候选模板;当前模板确定部,根据预定的相似多边形判定规则从候选模板中筛选出与待识别票证相对应的候选模板并将该候选模板确定为当前模板;以及票证识别部,根据当前模板识别出待识别票证的票证内容。

Description

票证识别装置以及票证信息管理系统
技术领域
本发明涉及一种票证识别装置以及含有该票证识别装置的票证信息管理系统。
背景技术
企业机构中,存在很多对发票、证明、名片等票证中的信息进行统计管理的工作,例如,针对员工的日常报销,财务人员要先录入各种发票中的金额至计算机中,才能方便后续进行报销统计。而在传统的票证录入方式中,往往需要录入人员手工核查票证中的内容并输入至计算机,这种录入方式非常容易出错,并且缺乏效率。
为了便于票证信息的录入,现有一些软件采用了光学字符识别(OpticalCharacter Recognition,OCR)技术,能够将票证的图像中全部的文字识别为文本格式,使得用户可以方便地在计算机中编辑文本并完成票证内容的整理。同时,还有一些软件还支持票证的区域分割,当用户同时将多张票证通过扫描或拍摄形成一张图像时,这些软件可以识别出票证图像中各张票证所对应的区域并进行分割,从而识别出各张票证的票证内容。
然而,区域分割技术在票证识别中也存在如下问题:由于大多数票证的主要颜色为白色,而扫描图像所生成的背景通常也是相同的白色,因此票证之间的边缘不明显,容易导致区域分割错误而识别失败,例如将两张票证识别为一张票证。为了保证区域分割的准确性,就有些技术通过在前期以大量的样本训练出专门的识别模型来进行分割,但是样本的准备非常耗费人力物力,而且在实际应用中,识别模型在进行图像识别时也较为占用计算资源、处理速度低下。
发明内容
为解决上述问题,提供一种能够快速、准确地进行票证识别,并且占用的计算资源更低的票证识别装置以及票证信息管理系统,本发明采用了如下技术方案:
<结构一>
本发明提供了一种票证识别装置,用于对预定的不同票证上所记载的内容进行识别,其特征在于,包括:模板存储部,存储有与每一种票证的票证模板相对应的票证模板数据,该票证模板数据至少包含票证识别名称、多个用于票证识别的模板关键词以及每一个模板关键词在相应票证中的模板关键词位置信息,票证图像获取部,获取包含至少一张待识别票证的待识别票证图像;OCR识别部,对待识别票证图像进行初步识别从而识别出该待识别票证图像中的所有当前关键词以及每个当前关键词的当前关键词位置信息;候选模板判定确定部,基于初步识别得到的当前关键词以及相对于模板存储部中的每一个票证模板的模板关键词,依次判定当前关键词中是否含有预定数量比例以上的模板关键词,并将判定为是的票证模板确定为候选模板;当前模板确定部,基于与各个候选模板的模板关键词和模板关键词位置信息以及与模板关键词相同的当前关键词和对应的当前关键词位置信息,根据预定的相似多边形判定规则从候选模板中筛选出与待识别票证相对应的候选模板并将该候选模板确定为当前模板;以及票证识别部,根据与当前模板相对应的票证模板数据对待识别票证图像进行票证识别从而识别出待识别票证的票证内容。
<结构二>
本发明提供了一种票证信息管理系统,其特征在于,包括:票证识别装置,用于对预定的多种票证上所记载的内容进行识别;以及票证信息管理装置,与票证识别装置相通信连接,其中,票证识别装置为结构一中的票证识别装置,票证信息管理装置至少对来自于票证识别装置的票证识别名称以及相对应的票证内容进行管理。
发明作用与效果
根据本发明的票证识别装置以及票证信息管理系统,由于预先存储有对应各种类票证的票证模板数据,该票证模板数据中含有模板关键词以及模板关键词位置信息,并且在获取到待识别票证图像后,通过OCR识别部识别出待识别票证图像中的所有当前关键词以及当前关键词位置信息,因此,候选模板判定确定部可以根据当前关键词是否含有预定比例以上的模板关键词初步确定出可能相符的候选模板,进一步通过当前模板确定部根据候选模板的模板关键词、当前关键词以及两者的位置信息判定两者连成的封闭多边形是否为相似多边形,并将判定为是的候选模板作为当前模板。通过这样的方式,只需要让计算机执行关键词的坐标计算,即可根据待识别票证图像中的各个关键词及其位置信息确定出相应的当前模板,相比于传统通过图像识别确定待识别票证图像中的票证信息,坐标计算所消耗的计算资源更少、且模板匹配的速度也更快。同时,根据本发明中通过相似多边形确定当前模板的方式,即使待识别票证图像中的票证都相对歪斜,也能够确定当前关键词的相对位置与候选模板中模板关键词的相对位置是否相一致,从而准确地确定出相应的当前模板,进一步根据当前模板识别出相应的票证内容。
附图说明
图1是本发明实施例中票证信息管理系统的结构框图;
图2是本发明实施例中待识别票证图像的示意图之一;
图3是本发明实施例中模板存储部所存储的票证模板数据的示意图;
图4是本发明实施例中当前模板确定部的结构框图;
图5是本发明实施例中关键词顺序判断过程的流程图;
图6是本发明实施例中第一多边形的示意图;
图7是本发明实施例中待识别票证图像的示意图之二;
图8是本发明实施例中待识别票证图像的示意图之三;以及
图9是本发明实施例中票证识别过程的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的票证识别装置以及票证信息管理系统作具体阐述。
作为第一种实施形态,本发明提供了一种票证识别装置,用于对预定的不同票证上所记载的内容进行识别,其特征在于,包括:模板存储部,存储有与每一种票证的票证模板相对应的票证模板数据,该票证模板数据至少包含票证识别名称、多个用于票证识别的模板关键词以及每一个模板关键词在相应票证中的模板关键词位置信息,票证图像获取部,获取包含至少一张待识别票证的待识别票证图像;OCR识别部,对待识别票证图像进行初步识别从而识别出该待识别票证图像中的所有当前关键词以及每个当前关键词的当前关键词位置信息;候选模板判定确定部,基于初步识别得到的当前关键词以及相对于模板存储部中的每一个票证模板的模板关键词,依次判定当前关键词中是否含有预定数量比例以上的模板关键词,并将判定为是的票证模板确定为候选模板;当前模板确定部,基于与各个候选模板的模板关键词和模板关键词位置信息以及与模板关键词相同的当前关键词和对应的当前关键词位置信息,根据预定的相似多边形判定规则从候选模板中筛选出与待识别票证相对应的候选模板并将该候选模板确定为当前模板;以及票证识别部,根据与当前模板相对应的票证模板数据对待识别票证图像进行票证识别从而识别出待识别票证的票证内容。
在第一种实施形态中,还可以具有这样的技术特征,其中,相似多边形判定规则为:按一定顺序将模板关键词连接形成封闭多边形作为第一多边形,并按相同顺序将与模板关键词相同的当前关键词连接形成封闭多边形作为第二多边形,当第一多边形与第二多边形为相似多边形时,判断候选模板与待识别票证相对应。
在第一种实施形态中,还可以具有这样的技术特征,还包括:其中,当前模板确定部具有:中心点获取单元,针对每个候选模板,根据模板关键词位置信息计算获取所有模板关键词的关键词中心点作为模板中心点,并根据当前关键词位置信息计算获取所有与模板关键词相同的当前关键词的关键词中心点作为当前中心点;封闭多边形连接单元,依次判断每个模板关键词与其他模板关键词之间绕模板中心点在顺时针或逆时针方向上的顺序并按该顺序连接形成第一多边形,同时依次判断每个当前关键词与其他当前关键词之间绕当前中心点在相同方向上的顺序并将当前关键词按该顺序连接从而形成第二多边形;相似多边形判断单元,分别判断每个候选模板相对应的第一多边形以及第二多边形是否为相似多边形;以及当前模板确定单元,在相似多边形判断单元判断为是时将对应的候选模板确定为当前模板。
在第一种实施形态中,还可以具有这样的技术特征,其中,模板关键词位置信息至少包括模板关键词的关键词高度作为模板关键词高度,字符位置信息至少包括当前关键词的关键词高度作为当前关键词高度,当前模板确定部还具有多边形信息暂存单元,多边形信息暂存单元暂存有封闭多边形连接单元连接形成的第一多边形以及第二多边形的各个内角的角度以及各边的边长,相似多边形判断单元的判断过程包括如下步骤:根据暂存的角度判断第一多边形以及第二多边形的各个内角的角度误差是否在预定的角度误差阈值内,若否则判断第一多边形以及第二多边形不是相似多边形;根据暂存的边长判断第一多边形以及第二多边形各边边长比值的边长比值误差是否在预定的边长误差阈值内,若否则判断第一多边形以及第二多边形不是相似多边形;判断边长比值与模板关键词高度和当前关键词高度之间的高度比值的边高比误差是否在预定的高度比例误差阈值内,若是则判断第一多边形以及第二多边形为相似多边形。
在第一种实施形态中,还可以具有这样的技术特征,其中,第一多边形的顶点为模板关键词的外接矩形的预定侧边线的中点,第二多边形的顶点为当前关键词的外接矩形的预定侧边线的中点,预定侧边线为外接矩形的左边线或是右边线。
在第一种实施形态中,还可以具有这样的技术特征,还包括:关键词分组部,其中,待识别票证为多个,待识别票证图像中包含多个按不同角度倾斜的待识别票证,OCR识别部在对待识别票证图像进行初步识别从而识别出该待识别票证图像中的所有当前关键词以及每个当前关键词的当前关键词位置信息时,还识别出每个当前关键词的倾斜角度,关键词分组部将初步识别得到的当前关键词根据倾斜角度进行分组形成至少一个当前关键词组,候选模板判定确定部针对每个当前关键词组分别获取候选模板。
在第一种实施形态中,还可以具有这样的技术特征,还包括:票证区域设定部以及模板确定控制部,其中,票证模板数据还包括与票证的票证范围区域相对应的范围区域位置信息,一旦当前模板确定部确定出当前模板,模板确定控制部就控制票证区域设定部就基于当前模板相对应的范围区域位置信息对待识别票证图像中相对应的范围区域进行标记并设定为票证识别区域,票证识别部在根据识别出的当前票证模板数据对待识别票证图像中的字符进行票证识别时,根据当前票证模板数据对相应的票证识别区域进行识别并从而识别出相应待识别票证的票证内容。
在第一种实施形态中,还可以具有这样的技术特征,还包括:关键词筛选部,其中,待识别票证为多个,待识别票证图像中包含多个待识别票证图像一旦票证区域设定部设定票证识别区域,模板确定控制部就控制关键词筛选部根据当前关键词位置信息筛去位于票证识别区域内的当前关键词作为新的当前关键词,并控制候选模板确定部基于新的当前关键词从模板存储部中筛选出存在预定比例个与当前关键词相同的模板关键词的票证模板作为新的候选模板,进一步控制当前模板确定部根据与每一种候选模板相对应的模板关键词和模板关键词位置信息以及与模板关键词相同的当前关键词和当前关键词位置信息基于相似多边形匹配规则匹配出与下一张待识别票证相对应的当前票证模板数据。
作为第二种实施形态,本发明还提供了一种票证信息管理系统,其特征在于,包括:票证识别装置,用于对预定的多种票证上所记载的内容进行识别;以及票证信息管理装置,与票证识别装置相通信连接,其中,票证识别装置为第一种实施形态中的票证识别装置,票证信息管理装置至少对来自于票证识别装置的票证识别名称以及相对应的票证内容进行管理。
<实施例>
图1是本发明实施例中票证信息管理系统的结构框图。
如图1所示,票证信息管理系统100包括票证识别装置101、票证信息管理装置102以及通信网络103。
票证识别装置101用于对用户输入的待识别票证图像进行识别,并根据该待识别票证图像识别出票证上所记载的票证内容。
票证信息管理装置102通过通信网络103与票证识别装置101进行数据交换,用于获取票证识别装置101识别出的票证内容并对这些票证内容进行管理。
本实施例中,票证为收据、发票、身份证、银行卡、保险证等各种具有固定格式的票证。待识别票证图像为用户同时将多张待识别的票证(以下称待识别票证)放入扫描仪中,并进行扫描得到的票证扫描图像。
图2是本发明实施例中待识别票证图像的示意图。
如图2所示,本实施例的待识别票证图像包含三张待识别票证,分别为票证A、票证B以及票证C(为了便于描述,图中省略了票证中所记载的部分内容,并用虚线框框选出了票证A、B及C)。票证A的票证B均为正放,票证C的放置角度相对于另外两张有所倾斜,因此其中关键词的角度也是倾斜的。
票证识别装置101中预先存储有多个对应各种票证的票证模板,能够匹配出待识别票证图像中每张待识别票证所对应的票证模板,并根据这些票证模板相应地识别出各张待识别票证的票证内容。
如图1所示,票证识别装置101包括模板存储部11、票证图像获取部12、OCR识别部13、关键词分组部14、模板确定控制部15、候选模板判定确定部16、当前模板确定部17、票证区域设定部18、关键词筛选部19、票证识别部20、输出部21以及用于控制上述各部的识别侧控制部22。
模板存储部11存储有与每一种票证的票证模板相对应的票证模板数据。该票证模板数据包含票证识别名称、多个用于票证识别的模板关键词以及每一个模板关键词在相应票证中的模板关键词位置信息,同时,票证模板数据中还包含与票证的票证范围区域相对应的范围区域位置信息。
图3是本发明实施例中模板存储部所存储的票证模板数据的示意图。
如图3所示,模板存储部11中存储有与每一种票证的相对应的票证模板数据。每个票证模板数据具有唯一的票证识别名称111。
在每个票证模板数据中,都含有至少四个模板关键词112和与每个模板关键词112唯一对应的模板关键词位置信息113。该模板关键词112以及模板关键词位置信息113用于在对票证进行识别时实现票证模板的匹配。
本实施例中,模板关键词112为票证中固定出现的关键词,可以是票证中的条目名称、标题、条款等任意一个在一种票证中不会变动的字词。每个模板关键词112的具体坐标为模板关键词112的外接矩形的坐标,如图2所示,将外接矩形左上角的坐标以及右下角的坐标(即外接矩形对角两点的对角点坐标)作为模板关键词位置信息113。另外,为了保证每个票证模板的匹配效果,每个票证模板数据中所包含的模板关键词112不少于四个。
同时,在每个票证模板数据中,还含有与票证的票证范围区域相对应的范围区域位置信息114。
本实施例中,票证范围区域为一个能够正好将整张票证框选出来的矩形区域,范围区域位置信息114为该矩形区域左上角的坐标以及右下角的坐标(即矩形区域对角两点的对角点坐标)。
上述票证模板及对应的票证模板数据是预先针对各个种类的票证一一构建得到的,在预先构建票证模板时,被选定的模板关键词需要尽量分散在票证的角落,从而便于后续将这些模板关键词连成凸多边形。
票证图像获取部12用于获取待识别票证图像。
本实施例中,票证识别装置101为一台与扫描仪相连接的计算机,当用户通过扫描仪对票证进行扫描得到对应图像时,票证图像获取部12就获取该图像作为待识别票证图像。
OCR识别部13用于对待识别票证图像进行初步识别从而识别出该待识别票证图像中的所有当前关键词以及每个当前关键词的当前关键词位置信息和倾斜角度。
本实施例中,OCR识别部13具有OCR识别单元131以及当前关键词确定单元132。
OCR识别单元131为一个常规的OCR识别器,用于对图像中的文字进行字符识别。一旦票证图像获取部12获取到待识别票证图像,OCR识别单元131就对整个待识别票证图像进行识别,从而识别出整个待识别票证图像中的所有字符以及每个字符的字符位置信息和倾斜角度。
本实施例中,字符位置信息以及倾斜角度的识别为常规OCR识别器的固有功能,在识别出字符时,同时可以识别出该字符的外接矩形的坐标(携带倾斜角度信息)。另外,字符位置信息为外接矩形左上角的坐标以及右下角的坐标(即外接矩形对角两点的对角点坐标)的坐标;倾斜角度为外接矩形相对于整个待识别票证的倾斜角度值。
当前关键词确定单元132用于根据OCR识别单元131识别出的字符确定出这些字符中含有的当前关键词。
本实施例中,当前关键词确定单元132根据模板存储部11中所有票证模板的模板关键词,分别与由字符拼接形成的字符串进行匹配,并从中确定出与模板关键词一致的字符组作为当前关键词。例如,字符串为“开票日期2010年01月……”,某一个模板关键词为“开票日期”,则当前关键词确定单元132就能够从字符串中确定出“开票日期”并将其作为当前关键词。
在确定出当前关键词后,当前关键词确定单元132还会根据当前关键词中各个字符所对应的字符位置信息拼接得到相应的当前关键词位置信息,并保留原有的倾斜角度作为当前关键词所对应的倾斜角度。另外,若当前关键词中字符的倾斜角度不一致,例如角度误差在5°以上时,则两个字符应为不同票证上的字符,所以剔除该当前关键词。
通过OCR识别单元131以及当前关键词确定单元132,即可完成待识别票证图像的初步识别,得到其中的所有当前关键词以及每个当前关键词的当前关键词位置信息和倾斜角度。
另外,本实施例中,在预先构建模板时,模板关键词112的外接矩形也由OCR识别部13确定得到。
关键词分组部14用于将初步识别得到的当前关键词根据倾斜角度进行分组并分组为多个当前关键词组。
倾斜角度不同的当前关键词原则上是属于不同票证的关键词,因此关键词分组部14根据倾斜角度将当前关键词进行分组,从而使得候选模板判定确定部16以及当前模板确定部针对每个当前关键词组分别进行当前模板的确定。本实施例中,关键词分组部14将倾斜角度的差异大于5°的当前关键词分组至不同的关键词组中。以图2示出的待识别票证图像为例,关键词分组部14划分有两个关键词组,第一个关键词组包括有票证A与票证B中的关键词,第二个关键词组含有票证C中的关键词。
模板确定控制部15用于对候选模板判定确定部16、当前模板确定部17、票证区域设定部18以及关键词筛选部19涉及模板匹配的工作进行控制。
本实施例中,在关键词分组部14分组出当前关键词组后,模板确定控制部15就控制选模板判定确定部16、当前模板确定部17、票证区域设定部18以及关键词筛选部19,依次针对每一个当前关键词组确定出与待识别票证相对应的当前票证模板。
候选模板判定确定部16基于初步识别得到的当前关键词以及相对于模板存储部11中的每一个票证模板的模板关键词,从票证模板中确定出可能对应于待识别票证的候选模板。
本实施例中,候选模板判定确定部16针对每一个当前关键词组分别确定出至少一个候选模板。具体地,候选模板判定确定部16在确定候选模板时,首先获取当前关键词组中的所有当前关键词,接下来依次针对每个票证模板,判定当前关键词中是否含有预定数量比例以上的模板关键词,并将判定为是的票证模板确定为候选模板
本实施例中,预定数量比例为票证模板中模板关键词的总数少一个,即,若某一票证模板对应有5个模板关键词,则只要当前关键词中含有4个(5-1个)与该票证模板中的模板关键词相一致的关键词,就将该票证模板确定为候选模板。
当前模板确定部17基于与各个候选模板的模板关键词和模板关键词位置信息以及与模板关键词相同的当前关键词和对应的当前关键词位置信息,根据预定的相似多边形判定规则从候选模板中筛选出与待识别票证相对应的候选模板并将该候选模板确定为当前模板。
本实施例中,当前模板确定部17在确定每个候选模板是否为当前模板时,通过相似多边形判定规则,按一定顺序将该候选模板的模板关键词连接形成封闭多边形作为第一多边形,并按相同顺序将与模板关键词相同的当前关键词连接形成封闭多边形作为第二多边形,当第一多边形与第二多边形为相似多边形时,判断候选模板与待识别票证相对应。
图4是本发明实施例中当前模板确定部的结构框图。
基于上述相似多边形判定规则,如图4所示,当前模板确定部17具有中心点获取单元171、封闭多边形连接单元172、多边形信息暂存单元173、相似多边形判断单元174以及当前票证确定单元175。
中心点获取单元171针对每个候选模板,根据模板关键词位置信息计算获取所有模板关键词的关键词中心点作为模板中心点,并根据当前关键词位置信息计算获取所有与模板关键词相同的当前关键词的关键词中心点作为当前中心点。
本实施例中,关键词中心点(C.x,C.y)通过下式计算得到:
Figure BDA0002698833880000101
式中,n为所有模板关键词(当前关键词)的个数,xk为第k个模板关键词(当前关键词)的外接矩形左边线的中点的横坐标,yk为第k个模板关键词(当前关键词)的外接矩形左边线的中点的纵坐标。该横坐标xk以及纵坐标yk可以通过模板关键词位置信息以及当前关键词位置信息通过坐标换算得到。
封闭多边形连接单元172依次判断每个模板关键词与其他模板关键词之间绕模板中心点在顺时针方向上的顺序并按该顺序连接形成封闭多边形作为第一多边形,同时依次判断每个当前关键词与其他当前关键词之间绕当前中心点在同一方向上的顺序并将当前关键词按该顺序连接从而形成封闭多边形作为第二多边形。
图5本发明实施例中关键词顺序判断过程的流程图。
本实施例中,封闭多边形连接单元172在判断模板关键词与其他模板关键词的顺序时,根据模板中心点O并基于关键词顺序判断过程,依次判断出各个模板关键词两两之间的先后顺序,如图5所示,该关键词顺序判断过程包括如下步骤S1-1至步骤S1-2。
步骤S1-1,获取待判断的模板关键词P和模板关键词Q以及对应的模板关键词位置信息P(P.x,P.y)以及Q(Q.x,Q.y),然后进入步骤S1-2;
步骤S1-2,判断是否模板关键词P在模板中心点的右侧且模板关键词Q在模板中心点O的左侧,即(P.x≥C.x)∧(Q.x<C.x),若否则进入步骤S1-3,若是则进入步骤S1-13;
步骤S1-3,判断是否模板关键词P在模板中心点的左侧且模板关键词Q在模板中心点O的右侧,即(P.x<C.x)∧(Q.x≥C.x),若否则进入步骤S1-4,若是则进入步骤S1-14;
步骤S1-4,判断是否模板关键词P的横坐标以及模板关键词Q的横坐标均与模板中心点O的横坐标相一致,即(P.x=C.x)∧(Q.x=C.x),若是则进入步骤S1-5,若否则进入步骤S1-8;
步骤S1-5,判断是否模板关键词P或模板关键词Q在模板中心点O的上侧,即(P.y≥C.y)∨(Q.y≥C.y),若是则进入步骤S1-6,若否则进入步骤S1-7,
步骤S1-6,判断模板关键词P是否在模板关键词Q的上侧,即P.y>Q.y,若是则进入步骤S1-13,若否则进入步骤S1-14;
步骤S1-7,判断模板关键词P是否在模板关键词Q的下侧,即P.y<Q.y,若是则进入步骤S1-13,若否则进入步骤S1-14;
步骤S1-8,计算模板关键词P与模板关键词Q的less值,即less=(P.x-C.x)(Q.y-C.y)-(Q.x-C.x)(P.y-C.y),然后进入步骤S1-9;
步骤S1-9,判断less值是否等于零,若是则进入步骤S1-11,若否则进入步骤S1-10;
步骤S1-10,判断less值是否小于零,若是则进入步骤S1-13,若否则进入步骤S1-14;
步骤S1-11,分别计算模板关键词P与模板中心点O之间的距离dPC以及模板关键词Q与模板中心点O之间的距离dQC,即:
dPC=(P.x-C.x)2+(P.y-C.y)2
dQC=(Q.x-C.x)2+(Q.y-C.y)2
,然后进入步骤S1-12;
步骤S1-12,判断距离dPC是否大于距离dQC,即dPC>dQC,若是则进入步骤S1-13,若否则进入步骤S1-14;
步骤S1-13,判断在绕模板中心点O的顺时针顺序上,模板关键词Q的顺序先于模板关键词P的顺序,然后进入结束状态;
步骤S1-14,判断在绕模板中心点O的顺时针顺序上,模板关键词P的顺序先于模板关键词Q的顺序,然后进入结束状态。
通过上述过程,即可判定出模板关键词P与模板关键词Q之间的先后顺序,封闭多边形连接单元172判定出每个模板关键词与其他所有模板关键词的先后顺序后,即可得到一个模板关键词的模板关键词序列。根据模板关键词位置信息将各个模板关键词按照模板关键词序列进行连接,即可得到第一多边形。
图6是本发明实施例中第一多边形的示意图。
如图6所示,该图6中示出了一个在构建票证模板时对应的票证图像1721,该票证图像中被框选出四个关键词作为模板关键词。该四个模板关键词通过上述关键词顺序判断过程判断后,对应的模板关键词序列为“开票日期”→“开票人”→“收款人”→“名称”。封闭多边形连接单元172将这四个关键词按顺时针顺序(即按图中的方向1721a连接形成一个四边形,该四边形即为“XX增值税专用发票”的票证模板所对应的第一多边形。同时,从图6中可以看出,第一多边形的各个顶点为模板关键词的外接矩形1721b的左边线的中点。
基于第一多边形的各个顶点坐标,封闭多边形连接单元172还计算得到多边形的内角,并将该内角与顶点坐标以及模板关键词序列作为第一多边形信息在多边形信息暂存单元173中进行暂存。
本实施例中,第一多边形信息中的内角以及定点坐标与模板关键词序列中的模板关键词一一对应,如图6所示,模板关键词序列为“开票日期”→“开票人”→“收款人”→“名称”,此时,按照与模板关键词序列相同的顺序,根据模板关键词位置信息得到多边形顶点相对坐标序列,即(x1,y1)→(x2,y2)→(x3,y3)→(x4,y4),同时多边形的内角也可以根据顶点所对应的内角组成相应的内角序列,即63°→114°→87°→96°。
针对第二多边形,封闭多边形连接单元172先从当前关键词中获取到与模板关键词相同的当前关键词,以图6为例,当前关键词同样为“开票日期”、“开票人”、“收款人”以及“名称”,封闭多边形连接单元172根据这四个当前关键词所对应的当前关键词位置信息,依次判断出各个当前关键词两两之间的先后顺序,并进一步根据顺序得到一个当前关键词的当前关键词序列,最后基于当前关键词位置信息将各个当前关键词按照当前关键词序列进行连接,即可得到第二多边形以及相应的第二多边形信息。其中,该当前关键词的先后顺序判断以及连接形成的第二多边形的过程与上述模板关键词的先后顺序判断以及连接形成的第一多边形的过程相同,在此不再赘述。
多边形信息暂存单元173用于对第一多边形信息以及第二多边形信息进行暂存。
由于当前关键词中可能存在多个与模板关键词相同的关键词,例如模板关键词“开票日期”,而当前关键词中存在两个“开票日期”,此时封闭多边形连接单元172就会分别针对两个开票日期与其他的当前关键词进行排序以及连接,最终形成两个第二多边形及相应的第二多边形信息。因此,本实施例中,每个候选模板都对应有一个第一多边形信息以及对应的至少一个第二多边形信息,并在多边形信息暂存单元173中对应暂存。
相似多边形判断单元174用于分别判断每个候选模板的第一多边形以及对应的第二多边形是否为相似多边形。
本实施例中,相似多边形判断单元174基于相似多边形法则,通过第一多边形与第二多边形的边长之比以及内角度数是否一致来判断是否为相似多边形。具体地:
首先,相似多边形判断单元174判断模板关键词序列与当前关键词的序列是否一致,若序列不一致则直接判断第一多边形与第二多边形不是相似多边形。例如,以及模板关键词序列“开票日期”→“开票人”→“收款人”→“名称”为例,若当前关键词序列为“开票日期”→“名称”→“收款人”→“开票人”,则两者的顺序不一致,对应的候选模板不可能是与待识别票证对应的当前模板。
其次,相似多边形判断单元174根据多边形信息暂存单元173中暂存的内角序列,判断第一多边形以及第二多边形的所有内角的角度误差是否在预定的角度误差阈值内,若否则判断第一多边形与第二多边形不是相似多边形。本实施例中,角度误差为所有内角的误差的平均值,角度误差阈值设定为±10°,角度误差通过如下公式计算得到:
Figure BDA0002698833880000141
式中,ai 为第二多边形的第i个内角,与第一多边形的内角ai一一对应,n为内角的总数。
再次,相似多边形判断单元174根据多边形信息暂存单元173中暂存的多边形顶点相对坐标序列,判断第一多边形以及第二多边形各边边长比值的边长比值误差是否在预定的边长误差阈值内,若否则判断第一多边形以及第二多边形不是相似多边形。本实施例中,根据多边形顶点相对坐标序列,可以分别计算出第一多边形以及第二多边形的各边边长,进一步将根据多边形顶点相对坐标序列,将对应的边长相除即可得到边长比值。另外,边长比值误差为各边的边长比值的变异系数,边长误差阈值为0.1,边长比值的变异系数通过下式计算得到:
Figure BDA0002698833880000142
式中,ri为第i条边的边长比值,
Figure BDA0002698833880000143
为所有边长比值的平均值,n为边长的总数。本实施例中,边长的总数和内角的总数均与模板关键词序列中模板关键词的数量相同,即都为n,同时当前关键词序列中当前关键词的数量也为n。
最后,相似多边形判断单元174计算模板关键词与对应当前关键词的高度比值,并判断边长比值与高度比值的边高比误差是否在高度比例误差阈值内,若是则判断第一多边形以及第二多边形是相似多边形。本实施例中,边高比误差为各边边长的边长比值的边长比平均值与各个关键词的高度比值的高度比平均值之间的误差,高度比例误差阈值为20%。
另外,本实施例中,模板关键词以及当前关键词的字符高度均可以通过各自的位置信息换算得到。
本实施例中,相似多边形判断单元174仅在上述四个判断过程的判断结果均为是时,才会判断第一多边形与第二多边形是相似多边形。
图7是本发明实施例中待识别票证图像的示意图之二。
如图7所示,在图2示出的待识别票证图像中由于具有两个均为“收款人”的当前关键词,因此封闭多边形连接单元172连接形成有两个第二多边形172a(图中实线箭头示出)以及172b(图中虚线箭头示出),通过将这两个第二多边形分别与图6示出的第一多边形进行相似多边形的判断,即可确定出第二多边形172a所对应的当前模板为图6所示的票证模板。
当前模板确定单元175用于在相似多边形判断单元174判断与候选模板相对应的第一多边形与第二多边形为相似多边形时,将该候选模板确定为当前模板。
另外,由于票证模板对应的模板关键词数量不少于四个,因此在当前关键词中只含有三个与候选模板中的模板关键词相一致的关键词时,也能够通过相似多边形判断规则确定出对应的当前模板。
票证区域设定部18用于在当前模板确定部17确定出当前票证模板数据时,基于当前模板所对应的范围区域位置信息对待识别票证图像中相对应的待识别范围区域进行标记,并设定为票证识别区域。
具体地,票证区域设定部18将相似多边形判断单元174计算的第一多边形与第二多边形之间的边长比平均值作为边框尺寸变换比例,并根据边框尺寸变换比例对范围区域位置信息进行变换后,以第一多边形与第二多边形能够匹配的方式,从而计算出该票证范围区域在待识别票证图像中所对应的票证识别区域。本实施例中,票证识别区域为矩形框,以对角点坐标的形式暂存在计算机中。
关键词筛选部19用于根据当前关键词位置信息筛去位于票证识别区域内的当前关键词作为新的当前关键词。
每当当前模板确定部17确定出当前模板时,模板确定控制部15就控制票证区域设定部18根据当前票证模板设定票证识别区域,并控制关键词筛选部19从当前关键词组中筛去位于票证识别区域内的所有当前关键词。
图8是本发明实施例中待识别票证图像的示意图之三。
如图8所示,当票证A被成功匹配到当前模板,并由票证区域设定部18设定好票证识别区域181时,此时,关键词筛选部19就会筛选掉位于票证识别区域181内的当前关键词,即“开票日期”、“开票人”、“收款人”以及“名称”,最终在当前关键词组中保留票证B中的各个当前关键词。
接下来,针对当前关键词组中剩下的当前关键词,模板确定控制部15控制候选模板判定确定部16、当前模板确定部17、票证区域设定部18以及关键词筛选部19重复上述过程,即基于剩余的当前关键词确定新的候选模板、确定对应的当前模板、设定票证识别区域并筛去位于票证区域内的当前关键词,直到当前关键词组中不存在当前关键词。
同理,针对本实施例中第二个当前关键词组,也是通过上述方式确定出当前模板,最终,本实施例会确定出分别对应票证A、B以及C三张票证的三个当前模板。
票证识别部20根据与当前模板相对应的票证模板数据对待识别票证图像进行票证识别从而识别出待识别票证的票证内容。
本实施例中,票证识别部20采用常规的票证识别技术对票证内容进行识别,并识别出票证上记载的具体内容,如金额、姓名等信息。
输出部21用于在票证识别部20识别出票证内容时,将该票证内容与当前模板所对应的票证识别名称作为票证识别内容进行输出。
本实施例中,输出部19会根据当前模板获取到对应的票证模板数据,并将其中的票证识别名称与识别出的票证内容输出给票证信息管理装置102,从而让该票证信息管理装置102对票证识别信息进行管理。
另外,本实施例中,若候选模板判定确定部16没有匹配出候选模板、或是当前模板确定部17确定候选模板中没有当前模板时,则输出部21还会输出一个匹配失败提醒给用户,例如显示屏显示匹配失败信息从而提醒用户票证识别失败。
票证信息管理装置102与票证识别装置101相通信连接。本实施例中,票证信息管理装置包括票证识别内容存储部23、管理侧通信部24以及用于控制上述各部的管理侧控制部25。
票证识别内容存储部23用于对管理侧通信部24从票证识别装置101接收的票证识别内容进行存储。
本实施例中,票证识别内容存储部23为一个数据库,存储有待识别票证被识别出的票证识别名称、以及特定内容和对应的条目名称。根据票证模板的不同,每张待识别票证会对应有一个或多个特定内容,但每个特定内容都会对应有一个条目名称。
在用户需要管理票证中的内容时,可以通过筛选条目名称以及票证识别名称,从而筛选出所需的票证并对特定内容进行查看或统计。例如,当用户为会计员、票证为各类收据时,会计员可以通过条目名称“金额”来对所有收据中对应“金额”的特定内容进行统计,从而得到相应的金额总数。
图9是本发明实施例中票证识别过程的流程图。
如图9所示,当用户启动票证识别装置101并输入待识别票证图像后,票证识别装置101就开始如下的票证识别过程:
步骤S2-1,票证图像获取部12获取用户输入的待识别票证图像,然后进入步骤S2-2;
步骤S2-2,OCR识别部13对步骤S2-1中获取的待识别票证图像进行初步识别,从而识别出该待识别票证图像中的所有当前关键词以及每个当前关键词的当前关键词位置信息和倾斜角度,然后进入步骤S2-3;
步骤S2-3,关键词分组部14根据倾斜角度将步骤S2-2中识别出的当前关键词分组为至少一个当前关键词组,然后进入步骤S2-4;
步骤S2-4,模板确定控制部15控制候选模板判定确定部16针对一个当前关键词组,依次判定该当前关键词组的当前关键词中是否含有预定数量比例以上的模板关键词,并将判定为是的票证模板确定为候选模板,然后进入步骤S2-5;
步骤S2-5,模板确定控制部15控制当前模板确定部17基于步骤S2-4中确定出的至少一个候选模板,根据预定的相似多边形判定规则从候选模板中筛选出与待识别票证相对应的候选模板,并将该候选模板确定为当前模板,然后进入步骤S2-6;
步骤S2-6,模板确定控制部15控制票证区域设定部18根据当前模板在待识别票证图像中设定相应的票证识别区域,然后进入步骤S2-7;
步骤S2-7,模板确定控制部15控制关键词筛选部19从当前关键词组中,筛选掉当前关键词位置信息在步骤S2-6设定的票证识别区域内的当前关键词,然后进入步骤S2-8;
步骤S2-8,模板确定控制部15判断当前关键词组是否还有剩余的当前关键词,若判断有则进入步骤S2-4,若判断没有则进入步骤S2-9;
步骤S2-9,模板确定控制部15判断是否还有未处理的当前关键词组,若判断有则进入步骤S2-4,若判断没有则进入步骤S2-10;
步骤S2-10,票证识别部20根据步骤S2-5确定出的所有当前模板,对待识别票证图像进行识别并识别出对应的票证内容,然后进入步骤S2-11;
步骤S2-11,输出部21将步骤S2-10中识别出的票证内容与相应当前模板所对应的票证识别名称进行输出,然后进入结束状态。
实施例作用与效果
根据本实施例提供的票证识别装置以及票证信息管理系统,由于预先存储有对应各种类票证的票证模板数据,该票证模板数据中含有模板关键词以及模板关键词位置信息,并且在获取到待识别票证图像后,通过OCR识别部识别出待识别票证图像中的所有当前关键词以及当前关键词位置信息,因此,候选模板判定确定部可以根据当前关键词是否含有预定比例以上的模板关键词初步确定出可能相符的候选模板,进一步通过当前模板确定部根据候选模板的模板关键词、当前关键词以及两者的位置信息判定两者连成的封闭多边形是否为相似多边形,并将判定为是的候选模板作为当前模板。通过这样的方式,只需要让计算机执行关键词的坐标计算,即可根据待识别票证图像中的各个关键词及其位置信息确定出相应的当前模板,相比于传统通过图像识别确定待识别票证图像中的票证信息,坐标计算所消耗的计算资源更少、且模板匹配的速度也更快。同时,根据本实施例的通过相似多边形确定当前模板的方式,即使待识别票证图像中的票证都相对歪斜,也能够确定当前关键词的相对位置与候选模板中模板关键词的相对位置是否相一致,从而准确地确定出相应的当前模板,进一步根据当前模板识别出相应的票证内容。
另外,实施例中,由于在确定多边形时,首先判断模板关键词之间绕模板中心点在顺时针方向上的顺序,其次连接形成相应的封闭多边形作为第一多边形,并通过同样的顺序连接当前关键词形成第二多边形。因此,通过这样的方式,可以通过关键词序列、多边形的内角和边长比以及多边形边长比和关键词高度比三方面进行当前关键词与模板关键词的匹配,保证模板匹配的精确性。
另外,实施例中,由于第一、第二多边形的顶点均为关键词外接矩形的左边线的中点,因此,可以减小或抵消关键词的外接矩形的高度变化所带来的误差。
另外,实施例中,由于关键词分组部根据倾斜角度进行分组,因此可以初步完成票证区域的划分,从而进一步减少在进行关键词匹配时耗费的计算资源,并且使得匹配速度更快。
另外,实施例中,每当匹配出一个当前模板时,票证区域设定部就会设定相应的票证识别区域,并由关键词筛选部从当前关键词中筛去位于票证识别区域内的当前关键词,进一步让候选模板判定确定部以及当前模板确定部基于剩下的当前关键词确定相应的当前模板。通过这样的方式,可以避免对已经确定的票证中的当前关键词进行反复计算,使得当前模板的匹配速度更快。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
例如,在上述实施例中,由于通过匹配与待识别票证对应的当前模板的方式,完成对待识别票证图像的识别。因此,为了识别更准确以及便于设定专门需要识别的内容,还可以在票证模板中预先设定对应特定区域的特定区域位置信息,从而在进行票证识别时,可以针对特定区域中的内容进行识别并作为票证内容进行输出。
例如,在上述实施例中,至少设有四个模板关键词,为了模板构建时更加方便,也可以至少设有三个模板关键词,但与此同时,对于仅有三个模板关键词的票证模板,在确定该票证模板是否为候选模板时,需要判断当前关键词中是否含有三个的模板关键词,即此时的预定数量比例为100%,从而避免在进行相似多边形判断时因为模板关键词的仅有两个,只能连接为直线,无法采用相似多边形判断规则。
例如,在上述实施例中,在连接当前关键词或是模板关键词时,以绕中心点顺时针方向的顺序进行连接。作为替代方案,以逆时针方向的顺序连接也能够实现本发明等同的效果。
例如,在上述实施例中,第一、第二多边形的顶点选用关键词外接矩形的左边线的中点。作为替代方案,还可以统一选用外接矩形的右边线的中点作为多边形顶点,这样也能够保证减小误差的效果。
例如,在上述实施例中,待识别票证图像为用户通过扫描仪扫描得到。作为替代方案,用户也可以通过其他手段输入待识别票证图像,例如通过照相机或是摄像头拍摄得到待识别票证图像并输入。
例如,在上述实施例中,待识别票证图像中含有三张票证,在本发明的其他方案中,待识别票证图像中可以包含有一张或任意多张的票证。

Claims (9)

1.一种票证识别装置,用于对预定的不同票证上所记载的内容进行识别,其特征在于,包括:
模板存储部,存储有与每一种所述票证的票证模板相对应的票证模板数据,该票证模板数据至少包含票证识别名称、多个用于票证识别的模板关键词以及每一个模板关键词在相应票证中的模板关键词位置信息,
票证图像获取部,获取包含至少一张待识别票证的待识别票证图像;
OCR识别部,对所述待识别票证图像进行初步识别从而识别出该待识别票证图像中的所有当前关键词以及每个所述当前关键词的当前关键词位置信息;
候选模板判定确定部,基于所述初步识别得到的所述当前关键词以及相对于所述模板存储部中的每一个所述票证模板的所述模板关键词,依次判定所述当前关键词中是否含有预定数量比例以上的所述模板关键词,并将判定为是的所述票证模板确定为候选模板;
当前模板确定部,基于与各个所述候选模板的所述模板关键词和所述模板关键词位置信息以及与所述模板关键词相同的所述当前关键词和对应的所述当前关键词位置信息,根据预定的相似多边形判定规则从所述候选模板中筛选出与所述待识别票证相对应的所述候选模板并将该候选模板确定为当前模板;以及
票证识别部,根据与所述当前模板相对应的所述票证模板数据对所述待识别票证图像进行票证识别从而识别出所述待识别票证的票证内容。
2.根据权利要求1所述的票证识别装置,其特征在于:
其中,所述相似多边形判定规则为:按一定顺序将所述模板关键词连接形成封闭多边形作为第一多边形,并按相同顺序将与所述模板关键词相同的所述当前关键词连接形成封闭多边形作为第二多边形,当所述第一多边形与所述第二多边形为相似多边形时,判断所述候选模板与所述待识别票证相对应。
3.根据权利要求2所述的票证识别装置,其特征在于,还包括:
其中,所述当前模板确定部具有:
中心点获取单元,针对每个所述候选模板,根据所述模板关键词位置信息计算获取所有所述模板关键词的关键词中心点作为模板中心点,并根据所述当前关键词位置信息计算获取所有与所述模板关键词相同的所述当前关键词的关键词中心点作为当前中心点;
封闭多边形连接单元,依次判断每个所述模板关键词与其他模板关键词之间绕所述模板中心点在顺时针或逆时针方向上的顺序并按该顺序连接形成所述第一多边形,同时依次判断每个所述当前关键词与其他当前关键词之间绕所述当前中心点在相同方向上的顺序并将所述当前关键词按该顺序连接从而形成所述第二多边形;
相似多边形判断单元,分别判断每个所述候选模板相对应的所述第一多边形以及所述第二多边形是否为相似多边形;以及
当前模板确定单元,在所述相似多边形判断单元判断为是时将对应的所述候选模板确定为所述当前模板。
4.根据权利要求3所述的票证识别装置,其特征在于:
其中,所述模板关键词位置信息至少包括所述模板关键词的关键词高度作为模板关键词高度,
所述字符位置信息至少包括所述当前关键词的关键词高度作为当前关键词高度,
所述当前模板确定部还具有多边形信息暂存单元,
所述多边形信息暂存单元暂存有所述封闭多边形连接单元连接形成的所述第一多边形以及所述第二多边形的各个内角的角度以及各边的边长,
所述相似多边形判断单元的判断过程包括如下步骤:
根据暂存的所述角度判断所述第一多边形以及所述第二多边形的各个内角的角度误差是否在预定的角度误差阈值内,若否则判断所述第一多边形以及所述第二多边形不是相似多边形;
根据暂存的所述边长判断所述第一多边形以及所述第二多边形各边边长比值的边长比值误差是否在预定的边长误差阈值内,若否则判断所述第一多边形以及所述第二多边形不是相似多边形;
判断所述边长比值与所述模板关键词高度和所述当前关键词高度之间的高度比值的边高比误差是否在预定的高度比例误差阈值内,若是则判断所述第一多边形以及所述第二多边形为相似多边形。
5.根据权利要求3所述的票证识别装置,其特征在于:
其中,所述第一多边形的顶点为所述模板关键词的外接矩形的预定侧边线的中点,
所述第二多边形的顶点为所述当前关键词的外接矩形的预定侧边线的中点,
所述预定侧边线为所述外接矩形的左边线或是右边线。
6.根据权利要求1所述的票证识别装置,其特征在于,还包括:
关键词分组部,
其中,所述待识别票证为多个,
所述待识别票证图像中包含多个按不同角度倾斜的所述待识别票证,
所述OCR识别部在对所述待识别票证图像进行初步识别从而识别出该待识别票证图像中的所有当前关键词以及每个当前关键词的当前关键词位置信息时,还识别出每个所述当前关键词的倾斜角度,
所述关键词分组部将所述初步识别得到的所述当前关键词根据所述倾斜角度进行分组形成至少一个当前关键词组,
所述候选模板判定确定部针对每个所述当前关键词组分别获取所述候选模板。
7.根据权利要求1所述的票证识别装置,其特征在于,还包括:
票证区域设定部以及模板匹配控制部,
其中,所述票证模板数据还包括与所述票证的票证范围区域相对应的范围区域位置信息,
一旦所述当前模板确定部确定出所述当前模板,模板匹配控制部就控制所述票证区域设定部就基于所述当前模板相对应的所述范围区域位置信息对所述待识别票证图像中相对应的范围区域进行标记并设定为票证识别区域,
所述票证识别部在根据识别出的所述当前票证模板数据对所述待识别票证图像中的字符进行票证识别时,根据所述当前票证模板数据对相应的所述票证识别区域进行识别并从而识别出相应所述待识别票证的所述票证内容。
8.根据权利要求7所述的票证识别装置,其特征在于,还包括:
关键词筛选部,
其中,所述待识别票证为多个,
所述待识别票证图像中包含多个所述待识别票证图像,
一旦所述票证区域设定部设定所述票证识别区域,所述模板匹配控制部就控制所述关键词筛选部根据所述当前关键词位置信息筛去位于所述票证识别区域内的所述当前关键词作为新的当前关键词,并控制所述候选模板确定部基于所述新的当前关键词从所述模板存储部中筛选出存在预定比例个与所述当前关键词相同的模板关键词的票证模板作为新的候选模板,进一步控制所述当前模板确定部根据与每一种所述候选模板相对应的所述模板关键词和所述模板关键词位置信息以及与所述模板关键词相同的所述当前关键词和所述当前关键词位置信息基于所述相似多边形匹配规则匹配出与下一张所述待识别票证相对应的当前票证模板数据。
9.一种票证信息管理系统,其特征在于,包括:
票证识别装置,用于对预定的多种票证上所记载的内容进行识别;以及
票证信息管理装置,与所述票证识别装置相通信连接,
其中,所述票证识别装置为权利要求1至8中任意一项所述的票证识别装置,
所述票证信息管理装置至少对来自于所述票证识别装置的所述票证识别名称以及相对应的所述票证内容进行管理。
CN202011015215.2A 2020-09-24 2020-09-24 票证识别装置以及票证信息管理系统 Pending CN112085885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011015215.2A CN112085885A (zh) 2020-09-24 2020-09-24 票证识别装置以及票证信息管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011015215.2A CN112085885A (zh) 2020-09-24 2020-09-24 票证识别装置以及票证信息管理系统

Publications (1)

Publication Number Publication Date
CN112085885A true CN112085885A (zh) 2020-12-15

Family

ID=73738842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011015215.2A Pending CN112085885A (zh) 2020-09-24 2020-09-24 票证识别装置以及票证信息管理系统

Country Status (1)

Country Link
CN (1) CN112085885A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793233A (zh) * 2021-11-15 2021-12-14 广东卓维网络有限公司 电力交易合同的生成处理方法、系统、存储介质及处理器
US20220309277A1 (en) * 2021-03-23 2022-09-29 Sap Se Document template detection with optical character recognition

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509115A (zh) * 2011-11-22 2012-06-20 北京京北方信息技术有限公司 一种分层带回溯查找机制的票据类型识别方法
CN107346580A (zh) * 2016-05-05 2017-11-14 腾讯科技(深圳)有限公司 票据信息识别方法及装置
US20180005478A1 (en) * 2015-01-22 2018-01-04 Grg Banking Equipment Co., Ltd. Banknote classification and identification method and device based on lab color space
JP2018007022A (ja) * 2016-07-01 2018-01-11 富士ゼロックス株式会社 処理装置、システム
CN107977665A (zh) * 2017-12-15 2018-05-01 北京科摩仕捷科技有限公司 一种发票中关键信息的识别方法及计算设备
CN109344838A (zh) * 2018-11-02 2019-02-15 长江大学 发票信息自动快速识别方法、系统以及装置
CN109409349A (zh) * 2018-02-02 2019-03-01 深圳壹账通智能科技有限公司 信贷证件鉴别方法、装置、终端及计算机可读存储介质
CN110263239A (zh) * 2019-05-31 2019-09-20 平安科技(深圳)有限公司 一种发票识别的方法、装置、存储介质及计算机设备
CN111126382A (zh) * 2019-12-04 2020-05-08 山东浪潮人工智能研究院有限公司 一种用于ocr识别的基于关键点定位的票据矫正方法
CN111476109A (zh) * 2020-03-18 2020-07-31 深圳中兴网信科技有限公司 票据处理方法、票据处理装置和计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509115A (zh) * 2011-11-22 2012-06-20 北京京北方信息技术有限公司 一种分层带回溯查找机制的票据类型识别方法
US20180005478A1 (en) * 2015-01-22 2018-01-04 Grg Banking Equipment Co., Ltd. Banknote classification and identification method and device based on lab color space
CN107346580A (zh) * 2016-05-05 2017-11-14 腾讯科技(深圳)有限公司 票据信息识别方法及装置
JP2018007022A (ja) * 2016-07-01 2018-01-11 富士ゼロックス株式会社 処理装置、システム
CN107977665A (zh) * 2017-12-15 2018-05-01 北京科摩仕捷科技有限公司 一种发票中关键信息的识别方法及计算设备
CN109409349A (zh) * 2018-02-02 2019-03-01 深圳壹账通智能科技有限公司 信贷证件鉴别方法、装置、终端及计算机可读存储介质
CN109344838A (zh) * 2018-11-02 2019-02-15 长江大学 发票信息自动快速识别方法、系统以及装置
CN110263239A (zh) * 2019-05-31 2019-09-20 平安科技(深圳)有限公司 一种发票识别的方法、装置、存储介质及计算机设备
CN111126382A (zh) * 2019-12-04 2020-05-08 山东浪潮人工智能研究院有限公司 一种用于ocr识别的基于关键点定位的票据矫正方法
CN111476109A (zh) * 2020-03-18 2020-07-31 深圳中兴网信科技有限公司 票据处理方法、票据处理装置和计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220309277A1 (en) * 2021-03-23 2022-09-29 Sap Se Document template detection with optical character recognition
US11527088B2 (en) * 2021-03-23 2022-12-13 Sap Se Document template detection with optical character recognition
CN113793233A (zh) * 2021-11-15 2021-12-14 广东卓维网络有限公司 电力交易合同的生成处理方法、系统、存储介质及处理器

Similar Documents

Publication Publication Date Title
CN108960223B (zh) 基于票据智能识别自动生成凭证的方法
US8233751B2 (en) Method and system for simplified recordkeeping including transcription and voting based verification
US6885769B2 (en) Business form handling method and system for carrying out the same
JP3088019B2 (ja) 媒体処理装置及び媒体処理方法
US5251273A (en) Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
US6424728B1 (en) Method and apparatus for verification of signatures
CN107067044A (zh) 一种财务报销全票据智能审核系统
EP0567834A2 (en) Advanced data capture architecture data processing system and method for scanned images of document forms
US7724958B2 (en) Systems and methods for biometric identification using handwriting recognition
CN107194400A (zh) 一种财务报销全票据图片识别处理方法
JP6357621B1 (ja) 会計処理装置、会計処理システム、会計処理方法及びプログラム
CN110276236B (zh) 计算机及模板管理方法
KR102211516B1 (ko) 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
CN112085885A (zh) 票证识别装置以及票证信息管理系统
CN112818785B (zh) 一种气象纸质表格文档的快速数字化方法及系统
CN110427853B (zh) 一种智能票据信息提取处理的方法
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
JP2023522360A (ja) Ocrベース文書分析システム及び方法
CN114693420A (zh) 一种智慧报账系统
CN111860450A (zh) 票证识别装置以及票证信息管理系统
CN109388935A (zh) 单证验证方法及装置、电子设备及可读存储介质
US20200193525A1 (en) System and method for automatic verification of expense note
TWI772199B (zh) 識別帳務憑證影像以自動獲取帳務關聯資訊之帳務管理系統
CA2036274A1 (en) Document processor including method and apparatus for identifying and correcting errors
TWM640893U (zh) 識別隨機多合一帳務憑證影像以自動獲取多組帳務關聯資訊之帳務管理系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201215