CN105095842A - 一种单据的信息识别的方法和装置 - Google Patents

一种单据的信息识别的方法和装置 Download PDF

Info

Publication number
CN105095842A
CN105095842A CN201410219239.8A CN201410219239A CN105095842A CN 105095842 A CN105095842 A CN 105095842A CN 201410219239 A CN201410219239 A CN 201410219239A CN 105095842 A CN105095842 A CN 105095842A
Authority
CN
China
Prior art keywords
template
document
image
described image
document template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410219239.8A
Other languages
English (en)
Other versions
CN105095842B (zh
Inventor
冯照临
刘中胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410219239.8A priority Critical patent/CN105095842B/zh
Publication of CN105095842A publication Critical patent/CN105095842A/zh
Priority to HK16101350.4A priority patent/HK1213345A1/zh
Application granted granted Critical
Publication of CN105095842B publication Critical patent/CN105095842B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种单据的信息识别的方法和装置。该方法包括:接收客户端发送的单据的图像;根据图像的属性,在预先存储的各单据模板中,确定图像对应的单据模板;根据图像对应的单据模板中的基本信息在图像对应的单据模板中所处的位置,识别图像中的基本信息;根据识别出的基本信息进行后续操作。根据本申请,仅需要第三方系统对图像中某些特定位置的信息进行识别,减少了识别时间,提高了识别效率,并且,由于即使特定位置以外的图像的采集效果不理想,也不会影响对位于该特定位置的基本信息的识别,因此降低了对采集单据的图像的要求,进而提高了识别结果的准确性。此外,避免了因识别结果不理想而导致用户重复操作,从而提高了用户的操作效率。

Description

一种单据的信息识别的方法和装置
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种单据的信息识别的方法和装置。
背景技术
随着人们生活水平的提高,人们在各种日常消费的过程中会产生相应的单据,例如,电信机构发出的电话费账单、超市购物的小票等。在现有技术中,一般通过采集账单或小票等单据的图像,并利用字符识别技术识别该图像中的信息,以便用户进行下一步处理。
其中,光学字符识别(OpticalCharacterRecognition,OCR)技术是一种字符识别技术。在实际的应用场景中,可通过图像采集设备(例如扫描仪或数码相机)采集单据的图像,再通过OCR技术对图像进行分析处理,以识别出图像中的文字及版面信息。
现有的OCR技术对识别条件要求较高,比如在拍摄识别对象时周围光线的明暗、扫描或拍摄识别对象的角度等因素都会对最终的识别结果造成比较大的影响。而且,在现有技术中,通过OCR技术识别采集到的单据的图像中的信息时,需要对图像中的全部信息进行识别,因此,现有的OCR识别计算量比较大,导致用户等待识别结果的时间较长。
然而,实际上,当应用OCR技术对单据中的信息进行识别时,并不一定需要对其中的全部信息进行识别。在有些现实场景中,用户往往只关注某些关键信息,比如对纸质的缴费账单或者购物小票的图像中的信息进行识别时,用户往往关注的信息仅仅是缴费的对象、总金额等基本信息,以便用户进行下一步处理。如果按照现有的OCR技术进行识别,由于现场拍摄环境复杂,影响识别结果的因素很多,另外识别内容比较多,导致最后识别结果往往并不理想。同时,对全部内容的识别会导致过长的等待识别结果时间,这也是用户难以忍受的。最后,如果识别结果不理想往往还会使用户重复操作,导致用户操作繁琐。
因此,在本领域中,需要一种新的对单据的信息识别的方案,能够解决识别时间较长、对采集单据的图像的要求较高、用户操作繁琐等问题。
发明内容
本申请的主要目的在于提供一种单据的信息识别的技术,以解决现有技术中由于全面识别单据的图像导致的识别时间长、对采集单据的图像的要求较高、用户操作繁琐等问题。
根据本申请的第一方面,提供了一种单据的信息识别的方法,包括:接收客户端发送的单据的图像;根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;根据识别出的基本信息进行后续操作。
根据本申请的第二方面,提供了一种单据的信息识别的装置,包括:接收模块,用于接收客户端发送的单据的图像;单据模板确定模块,用于根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;识别模块,用于根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;操作模块,用于根据识别出的基本信息进行后续操作。
根据本申请的第三方面,提供了一种单据的信息识别的方法,包括:采集单据的图像;根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;根据识别出的基本信息进行后续操作。
根据本申请的第四方面,提供了一种单据的信息识别的装置,包括:采集模块,用于采集单据的图像;单据模板确定模块,用于根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;识别模块,用于根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;操作模块,用于根据识别出的基本信息进行后续操作。
与现有技术相比,根据本申请的技术方案,通过在预先存储的各单据模板中,确定单据的图像对应的单据模板,然后根据该图像对应的单据模板中的基本信息在该图像对应的单据模板中所处的位置,识别所述图像中的基本信息。由于客户端无须对单据的图像进行全面采集并识别,仅需要第三方系统对图像中某些特定位置的信息进行识别,因此减少了识别时间,提高了识别效率,并且,由于仅需采集基本信息所在的特定位置的图像,即使特定位置以外的图像的采集效果不理想,也不会影响对位于该特定位置的基本信息的识别,因此降低了对采集单据的图像的要求,进而提高了识别结果的准确性。此外,由于提高了识别结果的准确性,避免了因识别结果不理想而导致用户重复操作,从而提高了用户的操作效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一个实施例的单据的信息识别的方法的流程图;
图2A是根据本申请一个实施例的基准模板的示意图;
图2B是根据本申请一个实施例的单据的图像的示意图;
图3是根据本申请一个实施例的确定图像对应的单据模板的方法的流程图;
图4是根据本申请一个实施例的识别图像中的基本信息的方法的流程图;
图5是根据本申请一个实施例的生成订单的方法的流程图;
图6是根据本申请一个实施例的单据的信息识别的方法的流程图;
图7是根据本申请一个实施例的单据的信息识别的装置的框图;以及
图8是根据本申请另一个实施例的单据的信息识别的装置的框图。
具体实施方式
本申请的主要思想在于,通过在预先存储的各单据模板中,确定单据的图像对应的单据模板,然后根据该图像对应的单据模板中的基本信息在该图像对应的单据模板中所处的位置,识别所述图像中的基本信息。由于客户端无须对单据的图像进行全面扫描并识别,仅需要第三方系统对图像中某些特定位置的信息进行识别,因此减少了识别时间,提高了识别效率,并且,由于仅需采集基本信息所在的特定位置的图像,即使特定位置以外的图像的采集效果不理想,也不会影响对位于该特定位置的基本信息的识别,因此降低了对采集单据的图像的要求,进而提高了识别结果的准确性。此外,由于提高了识别结果的准确性,避免了因识别结果不理想而导致用户重复操作,从而提高了用户的操作效率。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是根据本申请一个实施例的单据的信息识别的方法的流程图。
步骤101,接收客户端发送的单据的图像。
具体而言,客户端可以通过自身的图像采集设备(如:摄像头)或者外部的图像采集设备(如:扫描仪)采集单据的图像。客户端采集到单据的图像后,可以通过有线或无线的方式将所采集的图像发送给第三方系统。客户端可以包括但不限于:移动设备、个人计算机(PersonalComputer,PC)等。
例如,用户张林欲根据北京市东城区供水机构发出的2014年4月的水费单据缴费,可以通过手机的摄像头拍摄该单据的图像,然后将所拍摄的图像通过手机发送至支付系统(所述的支付系统即为第三方系统)。
步骤102,根据图像的属性,在预先存储的各单据模板中,确定图像对应的单据模板。
通过步骤101,第三方系统接收到客户端发送的单据的图像后,为了对单据的图像中的信息进行识别,首先要确定该图像对应的单据模板,以便确定需要在图像中进行识别的位置。
在实际应用场景中,不同机构所使用的单据的格式不同,因此每个机构的单据都可以对应一个单据模板,各机构对应的单据模板可以预先存储在第三方系统中。第三方系统在确定一个单据的图像对应的单据模板时,可以根据该单据的图像的属性和预先存储的各单据模板的属性,确定各单据模板与该图像的相似度,然后选择相似度最大的单据模板作为该图像对应的单据模板。同时,由于不同机构所使用的单据的格式不同,当确定出单据对应的单据模板后,也同时确定出该单据对应的机构,以便于用户做下一步处理,比如,在缴费账单中识别出该单据对应的机构为北京东城区供水机构,那接下来就可以直接确定用户缴费的对象。
其中,本申请实施例中所述的图像的属性包括但不限于:尺寸、颜色、灰度等。
例如,第三方系统可根据图像的长宽比和预先存储的各单据模板的长宽比,得到各单据模板与图像的尺寸相似度,根据得到的尺寸相似度,可以选择尺寸相似度最大的单据模板,作为图像对应的单据模板。又如,针对预设的每个颜色,第三方系统可以确定图像中每一个颜色的像素点的数量与图像中所有像素点的数量的比值,将针对预设的每个颜色确定的比值作为图像的色彩特征。根据图像的色彩特征与预先存储的各单据模板的色彩特征,可以得到的图像与各单据模板的色彩相似度。可以选择色彩相似度最大的单据模板,作为图像对应的单据模板。
下面,先以图像的尺寸为例,对确定图像对应的单据模板的具体方法进行描述。
当根据图像的尺寸确定图像对应的单据模板时,可以根据图像的长宽比和预先存储的各单据模板的长宽比,确定各单据模板与图像的尺寸相似度,然后选择尺寸相似度最大的单据模板作为图像对应的单据模板。
具体而言,在根据图像的长宽比和预先存储的各单据模板的长宽比,确定各单据模板与图像的尺寸相似度的过程中,需要确定图像的长宽比。而在确定图像的长宽比的过程中,由于在通过拍摄或扫描的方式采集单据时,可能会拍摄或扫描到单据以外的区域,这样,在采集的图像中,会出现单据以外的区域,即背景。为了去除无用的背景,仅得到单据区域,可以先通过去背技术去除背景,仅保留图像的前景,并且将该前景作为图像有效区域。例如,利用贝叶斯抠图的技术提取图像的前景。
此外,由于在通过拍摄或扫描的方式采集单据时,还可能因为拍摄或扫描的角度偏移,导致采集的图像的角度与图像的正投影方向之间存在倾斜。为了解决所采集的图像存在倾斜角度的问题,可以在提取图像的前景作为有效区域之前或之后,对图像进行倾斜校正,即,将所采集的图像的角度校正为图像的正投影方向,以便在后续的识别操作中,更准确地识别图像中的基本信息。
在提取图像的前景作为有效区域并且对图像进行倾斜校正后,可以确定图像的有效区域的长宽比,然后根据确定的长宽比,以及预先存储的各单据模板的长宽比,确定有效区域与各单据模板的尺寸相似度,将尺寸相似度大于第一阈值的单据模板作为待选模板,并从确定的各待选模板中确定该图像对应的单据模板。根据本申请的一个实施例,可以通过计算有效区域的长宽比与各单据模板长宽比之差的绝对值,对该绝对值取倒数,作为有效区域与各单据模板的尺寸相似度。
例如,假设图像的有效区域的长宽比为4/1,预先存储的单据模板A的长宽比为2/1,单据模板B的长宽比为3/2,则通过计算有效区域与单据模板A的长宽比之差的绝对值,并对该绝对值取倒数后,得到有效区域与单据模板A的尺寸相似度为0.5;通过计算有效区域与单据模板B的长宽比之差的绝对值,并对该绝对值取倒数后,得到有效区域与单据模板B的尺寸相似度为0.4。假设第一阈值为0.45,则将尺寸相似度大于第一阈值的单据模板A确定为待选模版,由于确定的待选模板只有一个,因此,可直接将该待选模板(即,单据模板A)确定为该图像对应的单据模板。
以上描述了根据图像中有效区域的尺寸确定图像对应的单据模板的方法。鉴于通过该方法得到的尺寸相似度大于第一阈值的待选模板的数量可能是一个,也可能是两个以上。当得到的尺寸相似度大于第一阈值的待选模板的数量仅为一个时,表明已经精确确定了图像对应的单据模板,可直接将尺寸相似度大于第一阈值的待选模板作为图像对应的单据模板。当得到的尺寸相似度大于第一阈值的待选模板的数量为两个以上时,可以将所有得到的尺寸相似度大于第一阈值的待选模板全部提供给用户,由用户进行选择,根据用户选择的待选模板,确定图像对应的单据模板,或者,也可以通过图像的其他属性,如颜色,对得到的尺寸相似度大于第一阈值的各待选模板进一步筛选,以确定图像对应的单据模板。
此外,当得到的尺寸相似度大于第一阈值的待选模板的数量为零时,可以在各单据模板中选取与有效区域的尺寸相似度最大的单据模板,作为图像对应的单据模板。也可选取与有效区域的尺寸相似度较大的若干个单据模板,作为待选模板,并从各待选模板中进一步筛选该图像对应的单据模板。
鉴于图像的属性包括但不限于:尺寸、颜色、灰度,因此,除了可以根据图像中有效区域的尺寸确定图像对应的单据模板以外,还可以根据图像中有效区域的颜色确定图像对应的单据模板。
下面,以图像的颜色为例,对确定图像对应的单据模板的具体方法进行描述。
首先,与根据图像的尺寸确定图像对应的单据模板的过程类似,可以对单据的图像提取图像的有效区域。对提取有效区域的描述与上述根据图像的尺寸确定图像对应的单据模板的过程中的相应描述类似,此处不再赘述。当根据图像的颜色确定图像对应的单据模板时,可以针对预设的每个颜色,确定图像的有效区域中每一个颜色的像素点的数量与该有效区域中所有像素点的数量的比值,将针对预设的每个颜色确定的比值作为有效区域的色彩特征。根据预先存储的各单据模板的色彩特征与有效区域的色彩特征,可以得到的有效区域与各单据模板的色彩相似度。可以选择色彩相似度最大的单据模板,作为图像对应的单据模板。
具体而言,由于每一个像素点都可以用红色分量(也称,R分量)、绿色分量(也称,G分量)、蓝色分量(也称,B分量)这三种颜色分量来合成,通过获取各像素的RGB分量值可以确定有效区域中各像素点的颜色。因此,可以首先根据各单据模板中所涉及的颜色,预设颜色,然后针对预设的每一个颜色,确定有效区域中每一个预设颜色的像素点的数量与图像的有效区域中所有像素点的数量的比值,并且将确定的比值作为有效区域的色彩特征。然后,根据确定的有效区域的色彩特征,以及预先存储的各单据模板的色彩特征,确定有效区域与各单据模板的色彩相似度,将色彩相似度大于第二阈值的单据模板作为待选模板,并从各待选模板中确定图像对应的单据模板。其中,针对每个预先存储的单据模板,可以预先存储各单据模板对应的色彩特征。
根据本申请的一个实施例,可以根据确定的有效区域的色彩特征,以及预先存储的各单据模板的色彩特征,计算有效区域的色彩特征与各单据模板的色彩特征之间的欧式距离,并对计算得到的欧式距离取倒数,作为有效区域与各单据模板的色彩相似度。
例如,假设第三方系统共保存了两个单据模板,分别为单据模板A和单据模板B,单据模板A涉及的颜色为黑色和红色,单据模板B涉及的颜色为红色和蓝色,由此,将黑色、蓝色、红色作为预设颜色,针对每一个预设颜色,单据的图像的有效区域C、单据模板A、单据模板B的色彩特征如表1所示:
表1
表1
则,单据模板A与有效区域C之间的色彩相似度为1/sqrt((80%-75%)2+(15%-15%)2+(5%-10%)2)=14.29,
单据模板B与有效区域C之间的色彩相似度为1/sqrt((80%-85%)2+(15%-8%)2+(5%-7%)2)=11.37。
假设预设的第二阈值为12,则确定大于第二阈值的单据模板A为待选模板,由于确定的待选模板只有一个,因此,可直接将该待选模板(即,单据模板A)确定为该图像对应的单据模板。
以上描述了根据图像的有效区域的颜色确定图像对应的单据模板的方法。鉴于通过该方法得到的色彩相似度大于第二阈值的待选模板的数量可能是一个,也可能是两个以上。当得到的尺寸相似度大于第二阈值的待选模板的数量仅为一个时,表明已经精确确定了图像对应的单据模板,则将色彩相似度大于第二阈值的待选模板作为图像对应的单据模板。当得到的色彩相似度大于第二阈值的待选模板的数量为两个以上时,可以将所有得到的色彩相似度大于第二阈值的各待选模板全部提供给用户,由用户进行选择,根据用户选择的待选模板,确定图像对应的单据模板,或者,也可以通过图像的其他属性,如尺寸,对得到的色彩相似度大于第二阈值的各待选模板进一步筛选,以确定图像对应的单据模板。
此外,当得到的色彩相似度大于第二阈值的待选模板的数量为零时,可以选择色彩相似度最大的单据模板,作为图像对应的单据模板,也可以选取与该有效区域的色彩相似度较大的若干个单据模板,作为待选模板,再从各各待选模板中确定该图像对应的单据模板。
以上对根据图像中有效区域的尺寸、颜色等属性确定图像对应的单据模板的方法进行了描述,类似地,也可以根据图像的灰度确定图像对应的单据模板,具体方法不再赘述。
需要说明的是,尽管上面描述了根据有效区域的尺寸或颜色从各单据模板中确定图像对应的单据模板的方法,但是,在本申请中,这两种方法可以择一使用,即,可以仅根据尺寸从各单据模板中确定图像对应的单据模板或仅根据颜色从各单据模板中确定图像对应的单据模板,或者,这两种方法也可以结合使用。当结合使用这两种方法时,没有顺序限制,即,可以先根据图像中有效区域的颜色从各单据模板中确定色彩相似度大于第二阈值的待选模板,再从色彩相似度大于第二阈值的各待选模板中确定尺寸相似度大于第一阈值的待选模板,并从色彩相似度大于第二阈值且尺寸相似度大于第一阈值的待选模板中确定该图像对应的单据模板。也可以先根据图像中有效区域的尺寸从各单据模板中确定尺寸相似度大于第一阈值的待选模板,再从尺寸相似度大于第一阈值的各待选模板中确定色彩相似度大于第二阈值的待选模板,并从尺寸相似度大于第一阈值且色彩相似度大于第二阈值的待选模板中确定该图像对应的单据模板。
鉴于在预先保存的单据模板的数量不变的情况下,根据有效区域的尺寸确定图像对应的单据模板所需的计算量远小于根据有效区域的颜色确定图像对应的单据模板所需的计算量,因此,较佳的,第三方系统可先根据有效区域的尺寸确定尺寸相似度大于第一阈值的待选模板,如存在两个以上的待选模板,再确定其中色彩相似度大于第二阈值的待选模板,最终在尺寸相似度大于第一阈值且色彩相似度大于第二阈值的待选模板中确定图像对应的单据模板。该方案可以高效地对预先存储的各单据模板进行筛选,从而高效地确定图像对应的单据模板。
进一步地,在实际的应用场景中,当存在较多预先存储的单据模板时,可能存在多个尺寸相似度大于第一阈值且/或色彩相似度大于第二阈值的待选模板,针对上述情况,可以通过考虑其他因素,在尺寸相似度大于第一阈值且/或色彩相似度大于第二阈值的各待选模板中,进一步确定图像对应的模板。
由于不同的机构所负责服务的区域不同,通常情况下,根据机构所负责服务的区域,可以将机构分为两类,一类是地区性机构,这类机构只向其自身所在地区这一小范围内的用户提供相关服务。例如,杭州电力公司,其只向杭州市内的用户提供电力服务。另一类是非地区性机构,这类机构除了向自身所在地区内的用户提供相关服务以外,也向其他许多地区的用户提供相关服务,其提供服务的地区范围很大。例如,中国工商银行的信用卡中心,其可以负责中国各省市的工商银行信用卡服务。因此,在第三方系统保存的各单据模板中,可以对地区性机构的单据模板预设相应的地理位置信息,对非地区性机构不预设地理位置信息。
根据本申请的一个实施例,从确定的各待选模板中,确定所述图像对应的单据模板,进一步包括:判断各待选模板中是否存在预设了地理位置信息的待选模板;若存在,则从与所述客户端的地理位置信息匹配的各待选模板中,确定所述图像对应的单据模板;若不存在,则在各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。
具体而言,从与所述客户端的地理位置信息匹配的各待选模板中,确定所述图像对应的单据模板,可以进一步包括:获取所述客户端的地理位置信息;当与所述客户端的地理位置信息匹配的待选模板的数量为一个时,确定与所述客户端的地理位置信息匹配的待选模板为所述图像对应的单据模板;当与所述客户端的地理位置信息匹配的待选模板的数量为至少两个时,从与所述客户端的地理位置信息匹配的各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。其中,在获取客户端的地理位置信息时,可以根据客户端的全球定位系统(GlobalPositioningSystem,GPS)的定位信息或客户端的互联网协议(InternetProtocol,IP)地址获取客户端的地理位置信息。例如,当客户端为手机时,可以根据手机的GPS定位功能获取该手机所处的地理位置信息;当客户端为PC时,可以根据PC的IP地址获取该PC所处的地理位置信息。
需要说明的是,在本申请中,可以在仅通过尺寸确定尺寸相似度大于第一阈值的待选模板后,再根据地理位置信息进行进一步确定图像对应的单据模板。具体地,当通过图像的尺寸确定与有效区域的尺寸相似度大于第一阈值的待选模板后,当确定的待选模板的数量为至少两个时,判断各待选模板中是否存在预设了地理位置信息的待选模板。若各待选模板中存在预设了地理位置信息的待选模板,则获取的客户端的地理位置信息,当与客户端的地理位置信息匹配的待选模板的数量为一个时,确定与客户端的地理位置信息匹配的待选模板为图像对应的单据模板,当与客户端的地理位置信息匹配的待选模板的数量为至少两个时,则从与客户端的地理位置信息匹配的各待选模板中,确定与有效区域的尺寸相似度最大的待选模板为图像对应的单据模板。若各待选模板中不存在预设了地理位置信息的待选模板,则直接在各待选模板中,确定与有效区域的尺寸相似度最大的待选模板为图像对应的单据模板。
此外,也可以在仅通过颜色确定色彩相似度大于第二阈值的待选模板后,再根据地理位置信息进行进一步确定图像对应的单据模板。具体地,当通过图像的颜色确定与有效区域的色彩相似度大于第二阈值的待选模板后,当确定的待选模板的数量为至少两个时,判断各待选模板中是否存在预设了地理位置信息的待选模板。若各待选模板中存在预设了地理位置信息的待选模板,则获取的客户端的地理位置信息,当与客户端的地理位置信息匹配的待选模板的数量为一个时,确定与客户端的地理位置信息匹配的待选模板为图像对应的单据模板,当与客户端的地理位置信息匹配的待选模板的数量为至少两个时,从与客户端的地理位置信息匹配的各待选模板中,确定与有效区域的色彩相似度最大的待选模板为图像对应的单据模板。若各待选模板中不存在预设了地理位置信息的待选模板,则直接在各待选模板中,确定与有效区域的色彩相似度最大的待选模板为图像对应的单据模板。
当然,还可以在通过尺寸和颜色确定待选模板后,再根据地理位置信息进行进一步确定图像对应的单据模板。首先,当先通过尺寸再通过颜色确定待选模板后,再结合地理位置信息确定图像对应的单据模板的具体过程如下:确定与有效区域的尺寸相似度大于第一阈值的待选模板,作为第一待选模板,从第一待选模板中,确定与有效区域的色彩相似度大于第二阈值的第一待选模板,作为第二待选模板。当确定的第二待选模板的数量为至少两个时,判断各第二待选模板中是否存在预设了地理位置信息的第二待选模板;若各第二待选模板中存在预设了地理位置信息的第二待选模板,则获取的客户端的地理位置信息,当与客户端的地理位置信息匹配的第二待选模板的数量为一个时,确定与客户端的地理位置信息匹配的第二待选模板为图像对应的单据模板,当与客户端的地理位置信息匹配的第二待选模板的数量为至少两个时,从与客户端的地理位置信息匹配的各第二待选模板中,确定与有效区域的色彩相似度最大的第二待选模板为图像对应的单据模板;若各第二待选模板中不存在预设了地理位置信息的第二待选模板,则直接在各第二待选模板中,确定与有效区域的色彩相似度最大的第二待选模板为图像对应的单据模板。其次,当先通过颜色再通过尺寸确定待选模板后,再结合地理位置信息确定图像对应的单据模板的具体过程如下:确定与有效区域的色彩相似度大于第二阈值的待选模板,作为第二待选模板,从第二待选模板中,确定与有效区域的尺寸相似度大于第一阈值的第二待选模板,作为第一待选模板。当确定的第一待选模板的数量为至少两个时,判断各第一待选模板中是否存在预设了地理位置信息的第一待选模板;若各第一待选模板中存在预设了地理位置信息的第一待选模板,则获取的客户端的地理位置信息,当与客户端的地理位置信息匹配的第一待选模板的数量为一个时,确定与客户端的地理位置信息匹配的第一待选模板为图像对应的单据模板,当与客户端的地理位置信息匹配的第一待选模板的数量为至少两个时,则从与客户端的地理位置信息匹配的各第一待选模板中,确定与有效区域的尺寸相似度最大的第一待选模板为图像对应的单据模板;若各第一待选模板中不存在预设了地理位置信息的第一待选模板,则直接在各第一待选模板中,确定与有效区域的尺寸相似度最大的第一待选模板为图像对应的单据模板。
考虑到实际的应用场景,比如当用户根据纸质单据通过客户端进行缴费时,可能与单据对应的机构位于同一地理位置,也可能不位于同一地理位置。因此,在根据客户端的地理位置信息进一步确定图像对应的单据模板之前,可以提示用户选择是否根据客户端的地理位置信息进行单据模板的匹配的功能。根据用户的选择的功能,进行相应的操作,即,若用户选择根据客户端的地理位置信息进一步确定图像对应的单据模板,则可采用上述根据地理位置信息匹配的方法进一步确定该图像对应的单据模板。相反,若用户选择不根据客户端的地理位置信息进一步确定单据模板,则可以直接从各待选模板中,确定与有效区域的色彩相似度最大的待选模板,作为图像对应的单据模板,或者,也可以将各待选模板全部提供给用户,由用户进行选择,根据用户选择的单据模板,确定图像对应的单据模板。
以上描述了根据尺寸和/或颜色结合客户端的地理位置信息确定图像对应的单据的方法。为了清楚的体现上述方案的具体步骤,下面提供一具体的例子,如图3所示,图3是根据本申请一个实施例的确定图像对应的单据模板的方法的流程图。
步骤301,提取图像的前景作为有效区域。
步骤302,确定有效区域的长宽比。
步骤303,根据确定的长宽比,以及预先存储的各单据模板的长宽比,确定有效区域与各单据模板的尺寸相似度。
步骤304,将尺寸相似度大于第一阈值的单据模板作为第一待选模板。
步骤305,判断第一待选模板的数量是否为一个。若是,执行步骤306,否则,执行步骤307。
步骤306,确定第一待选模板为图像对应的单据模板。
步骤307,确定图像的有效区域的色彩特征。
步骤308,根据确定的色彩特征,以及各第一待选模板的色彩特征,确定有效区域与各第一待选模板的色彩相似度。
步骤309,将色彩相似度大于第二阈值的第一待选模板作为第二待选模板。
步骤310,判断第二待选模板的数量是否为一个。若是,则执行步骤311,否则,执行步骤312。
步骤311,确定第二待选模板为图像对应的单据模板。
步骤312,判断各第二待选模板中是否存在预设了地理位置信息的第二待选模板。若存在,则执行步骤314,若不存在,则执行步骤313。
步骤313,确定与有效区域的色彩相似度最大的第二待选模板为图像对应的单据模板。
步骤314,获取客户端的地理位置信息。
步骤315,判断与客户端的地理位置信息匹配的第二待选模板的数量是否为一个。若是,则执行步骤316,否则,执行步骤317。
步骤316,确定与客户端的地理位置信息匹配的第二待选模板为图像对应的单据模板。
步骤317,从与客户端的地理位置信息匹配的各第二待选模板中,确定与有效区域的色彩相似度最大的第二待选模板为图像对应的单据模板。
下面,继续对图1中的步骤进行说明。
步骤103,根据图像对应的单据模板中的基本信息在图像对应的单据模板中所处的位置,识别图像中的基本信息。
在本申请实施例中,为了更准确地对单据的图像进行字符识别,首先,可以将图像的有效区域的尺寸,放缩至图像对应的单据模板的尺寸,以便图像对应的模板中特定位置与有效区域中的相应位置大致相似。然后,可根据基本信息在图像对应的单据模板中所处的位置,确定放缩后的有效区域中的相应位置,根据确定的基本信息在有效区域中的相应位置,识别有效区域中处在该相应位置处的字符,作为从图像中识别出的基本信息。
由于在机构发出的单据中,特定的信息通常位于特定的位置,而用户关注的基本信息就位于图像中的某些特定位置。因此,如果想要从图像中获取这些基本信息,可以对该图像中的特定位置的字符进行识别,从而得到基本信息。具体地,在通过步骤102确定了图像对应的单据模板后,即可确定基本信息在该单据模板中的位置,从而也便确定了基本信息在图像中的位置。假设将步骤102确定的图像对应的单据模板称为基准模板,则可根据基准模板中的基本信息在该基准模板中所处的位置,识别图像中的基本信息。其中,基本信息可以包括:户号、户名、总金额。
进一步地,为了准确、快速地识别出图像中特定位置的基本信息,可以预先对单据模板中特定位置的基本信息预设相应的字符属性。例如,由于户号通常为若干数字字符组成的字符串,户名通常为若干汉字字符所组成的字符串,总金额通常为若干数字字符组成的字符串,因此可以将单据模板中户号所在位置处的基本信息的字符属性设置为数字字符,将户名所在位置处的基本信息的字符属性设置为汉字字符,将总金额所在位置处的基本信息的字符属性设置为数字字符。这样,当根据基准模板(即,该图像对应的单据模板)中基本信息所在的位置,对该图像中相应位置处的字符进行识别时,则可以先确定基本信息在图像对应的单据模板中的位置,然后根据确定的基本信息在图像对应的单据模板中的位置,确定预设的所述基本信息的字符属性,采用确定的字符属性对应的字符库,识别有效区域中相应位置的字符,从而准确、快速地识别出图像中特定位置处的基本信息。
根据本申请的一个实施例,可以通过OCR技术对单据的图像进行识别。
下面,通过图2A和图2B详细描述根据图像对应的单据模板(基准模板)识别图像中的基本信息的方法。
图2A为根据本申请一个实施例的基准模板的示意图,图2B为根据本申请一个实施例的单据的图像的示意图。假设欲识别的基本信息为户名、户号、总金额,如图2A所示,户号在基准模板中的位置是以a1、a2、a3、a4这四个点为顶点围成的矩形区域,户名在基准模板中的位置是以b1、b2、b3、b4这四个点为顶点围成的矩形区域,总金额在基准模板中的位置是以c1、c2、c3、c4这四个点为顶点围成的矩形区域,则根据上述户号、户名、总金额等基本信息在基准模板中的位置,可以确定该基本信息在图2B的图像中的相应位置。如图2B所示,根据户号在基准模板中的位置,即,点a1、a2、a3、a4所围成的矩形区域,可以确定户号在图像中的相应位置,即,由a1’、a2’、a3’、a4’所围成的矩形区域,其中,a1’=a1、a2’=a2、a3’=a3、a4’=a4。相应地,也可以确定户名在图像中的位置,即,点b1’、b2’、b3’、b4’所围成的矩形区域,以及总金额在图像中的位置,即,点c1’、c2’、c3’、c4’所围成的矩形区域。然后,可以通过光学字符识别的方式,对图像中户号、户名、总金额所在的相应位置的字符进行识别。
在识别有效区域中相应位置处的字符时,假设预先将基准模板中户号(即,点a1、a2、a3、a4所围成的矩形区域内)的字符属性设置为数字字符,将户名(即,点b1、b2、b3、b4所围成的矩形区域内)的字符属性设置为汉字字符,将总金额(即,点c1、c2、c3、c4所围成的矩形区域内)的字符属性设置为数字字符,则当在对图像中户号所在的相应位置的基本信息进行识别时,可以确定户号对应的字符库为数字字符库,并以该数字字符库中的字符为准,对该图像中的户号进行识别,从而准确、快速地识别出图像中的户号。同理,当在对图像中户名和总金额进行识别时,可以确定户名对应的字符库为汉字字符库,总金额对应的字符库为数字字符库,从而准确、快速地识别出图像中的户名、总金额。识别出该图像中户号为“123”、户名为“张林”、总金额为“20”。
由上例可知,由于预先对单据模板中基本信息所在位置处的基本信息的字符属性进行了设置,因此当根据基准模板中基本信息所在的位置,对该图像中相应位置处的基本信息进行识别时,就不会根据所有字符库(数字字符库、字母字符库、汉字字符库等)中的字符进行识别,从而可准确、快速的识别图像中的基本信息。如:上例中,总金额的第二个字符为数字字符“0”,当根据所有字符库中的字符进行识别时,有可能将数字字符“0”识别为数字字符“0”,也有可能将数字字符“0”识别为字母字符“O”,从而有可能导致识别结果错误。因此,通过预先对单据模板中基本信息的字符属性进行设置,可以避免在识别基本信息时,因选择的字符库与该基本信息的字符属性不对应而导致识别错误的问题。
鉴于在字符识别过程中存在字符识别的置信度不高的情况,导致识别出的基本信息不准确,因此可以根据历史单据中的基本信息,对识别出的基本信息进行校正。其中,图像中的基本信息可以包括用户信息(例如户号、户名)和关键信息(例如总金额)。由于对于一个用户来说,在该用户过去每次缴费所产生历史单据中,关键信息(例如总金额)可能不同,但是用户信息是(例如户号、户名)相同的,因此,可以根据第三方系统中保存的所有历史单据,对识别出的基本信息中的用户信息进一步确定。
具体而言,当根据历史单据,对识别出的基本信息中的用户信息进行校正时,可以通过诸如光学字符识别的方式,从有效区域中识别出用户信息所包含的每个字符并确定识别每个字符的置信度,然后根据置信度大于第三阈值的字符的数量,确定该数量与从图像中识别出的用户信息中所有字符的总数的比值。若该比值不大于第四阈值,则根据确定的置信度大于第三阈值的字符,从历史单据的用户信息中,选择满足指定条件的用户信息,作为从图像中识别出的用户信息。其中,该指定条件可以包括:针对任一历史单据的用户信息,如果该历史单据的用户信息所包含字符的数量与从图像中识别出的用户信息中包含的字符的数量相同,并且,置信度大于第三阈值的字符在从图像中识别出的用户信息中所处的位置与在该历史单据的用户信息中所处的位置相同。这样,可以对从图像中识别出的用户信息进行一定程度上的校正。其中,一个字符在用户信息中所处的位置是指:将用户信息所包含的所有字符按从左到右或从右到左的顺序排序后,该字符的排序序号。
例如,假设用户张林欲根据北京市东城区供水机构发出的2014年4月的水费账单进行缴费,通过客户端采集该账单的图像并将该图像发送至第三方系统,第三方系统根据该图像的属性,确定该图像对应的单据模板后,根据确定的单据模板,从图像中识别出户名包含的字符及其置信度为“张,置信度100%”、“木,置信度50%”,识别出户号包含的字符及其置信度为“1,置信度100%”、“2,置信度100%”、“3,置信度100%”。假设第三阈值为90%,则置信度大于90%的字符数量为4个,该数量与从图像中识别出的户名和户号中所有字符的总数的比值为4/5=0.8。假设第四阈值为0.9,则比值0.8小于第四阈值0.9。这时,可以根据置信度大于90%的字符(置信度100%的字符“张”、置信度100%的字符“1”、置信度100%的字符“2”、置信度100%的字符“3”),在所有历史单据的用户信息中,选择满足指定条件的用户信息。即为,根据置信度大于90%字符,在历史单据的用户信息中,选择满足指定条件的用户信息,以校正置信度小于90%字符。
其中指定条件包括:
1)历史单据中的户名包含的字符的数量为2、户号包含的字符的数量为3;
2)置信度100%的字符“张”在从图像中识别出的户名中所处的位置与在该历史单据的户名中所处的位置相同,即,假设将户名中所有字符按从左到右排序,字符“张”在从图像中识别出的户名中的排序序号为1(即,第1个字符),该字符“张”在历史单据的户名中的排序序号也是1;并且,从图像中识别出的户号包含的字符“1”、“2”、“3”在户号中所处的位置与在历史单据的户号中包含的字符“1”、“2”、“3”所处的位置也相同,即,字符“1”在从图像中识别出的户号中所处的位置为户号所包含的所有字符中从左至右第一个字符,该字符“1”在历史单据的户号中所处的位置也为户号所包含的所有字符中从左至右第一个字符,字符“2”在从图像中识别出的户号中所处的位置为户号所包含的所有字符中从左至右第二个字符,该字符“2”在历史单据的户号中所处的位置也为户号所包含的所有字符中从左至右第二个字符,字符“3”在从图像中识别出的户号中所处的位置为户号所包含的所有字符中从左至右第三个字符,该字符“3”在历史单据的户号中所处的位置也为户号所包含的所有字符中从左至右第三个字符。
假设在所有历史单据的用户信息中查询到的符合上述指定条件的用户信息为户名“张林”、户号“123”,则将户名“张林”、户号“123”作为从图像识别出的用户信息,而不是以户名“张木”、户号“123”作为从图像识别出的用户信息。
也即,当从图像的有效区域中识别出的某个或某几个字符的置信度不高时,可根据保存的历史单据中的用户信息对识别出的置信度不高的字符进行校正。
需要说明的是,当根据确定的置信度大于第三阈值的字符,从历史单据的用户信息中,查询到的满足指定条件的用户信息存在两种以上时,可以将所有可能的用户信息全部提供给用户,提示用户进行选择。根据用户选择的用户信息,作为用户信息。
若在从图像中识别出的用户信息中,置信度大于第三阈值的字符的数量与所有字符的总数的比值大于第四阈值,表明已经在较高程度上精确识别出了用户信息,这时,可以根据历史单据进一步确定从图像中识别出用户信息是否准确。具体地,用户信息可以包括第一用户信息和第二用户信息,其中第一用户信息与第二用户信息存在对应关系。当置信度大于第三阈值的字符的数量与所有字符的总数的比值大于第四阈值时,可根据从图像中识别出的第一用户信息,在历史单据的用户信息中,查找所述第一用户信息对应的第二用户信息;当在历史单据的用户信息中查找到的第二用户信息与从图像中识别出的第二用户信息不同时,采用查找到的第二用户信息替换识别出的第二用信息。
假设第一用户信息为户号,第二用户信息为户名。鉴于户号的字符属性为数字字符,户名的字符属性为汉字字符,而本申请实施例在识别有效区域中的户号时,是以数字字符对应的字符库为准进行识别的,显然,数字字符对应的字符库中的字符数量远小于汉字字符对应的字符库,因此,在对户号和户名进行字符识别时,相比于户名而言,对户号的字符识别的置信度远高于户名。从而,在从图像的有效区域中识别出户号和户名后,如果置信度大于第三阈值的字符的数量与所有字符的总数的比值大于第四阈值,则可以根据识别的置信度较高的户号,在历史单据中查找识别出的该户号对应的户名,以确定从图像识别出的户名是否正确。当根据从图像中识别出的户号,在历史单据的用户信息中查找到的户名与从图像中识别出的户名不同时,可以采用查找到的户名替换识别出的户名。
例如,从图像中识别出户名包含的字符及其置信度为“张,置信度100%”、“木,置信度20%”,识别出户号包含的字符及其置信度为“1,置信度100%”、“2,置信度100%”、“3,置信度100%”。假设第三阈值为90%,则置信度大于90%的字符数量为4个,该数量与从图像中识别出的户名和户号中所有字符的总数的比值为4/5=0.8,假设第四阈值为0.7,则比值0.8大于第四阈值0.7,这表明已经在较高程度上精确识别出了用户信息,这时,可以根据从图像中识别出的户号“123”,在历史单据中查找户号“123”对应的户名。若查找到的户名为“张木”,则不执行任何操作;若查找到的户名不为“张木”,例如查找到的户名为“张林”,则将识别出的户名“张木”替换为“张林”。
下面,根据上面描述的识别图像中的基本信息的过程,如图4所示,提供一具体的识别图像中的基本信息的例子。
步骤401,将有效区域的尺寸放缩至图像对应的单据模板的尺寸。
步骤402,根据图像对应的单据模板中的基本信息在图像对应的单据模板中所处的位置,识别有效区域中处在相应位置的字符,作为从图像中识别出的基本信息。
步骤403,确定从图像中识别出的用户信息中每个字符的置信度。
步骤404,确定置信度大于第三阈值的字符的数量。
步骤405,确定该数量与从图像中识别出的用户信息中所有字符的总数的比值。
步骤406,判断该比值是否大于第四阈值。若是,则执行步骤408,否则,执行步骤407。
步骤407,根据置信度大于第三阈值的字符,从历史单据的用户信息中,选择满足指定条件的用户信息,作为从图像中识别出的用户信息。
步骤408,根据从图像中识别出的第一用户信息,在历史单据的用户信息中,查找第一用户信息对应的第二用户信息。
步骤409,当在历史单据的用户信息中查找到的第二用户信息与从图像中识别出的第二用户信息不同时,采用查找到的第二用户信息替换识别出的第二用信息。
下面,继续对图1中的步骤进行说明。
步骤104,根据识别出的基本信息进行后续操作。
具体而言,在步骤103识别出基本信息后,可以根据识别出的基本信息,生成相应的订单,如电子账单,以供用户进行下一步操作。其中,该订单至少包含识别出的基本信息。此外,也可以根据需要,根据识别出的基本信息,进行其他后续操作,例如,仅将识别出的基本信息进行保存。
例如,用户张林欲根据北京市东城区供水机构发出的2014年4月的水费的纸质账单进行缴费,通过步骤101至步骤103,识别出该纸质账单的图像中的基本信息后,假设识别出的该图像中的户号为“123”、户名为“张林”、总金额为“20”,则可以步骤S104中可生成相应的电子账单,该电子账单至少包含“123”、“张林”、“20”。张林可以根据生成的电子账单进行缴费。
由上例可知,当用户张林欲根据北京市东城区供水机构发出的2014年4月的水费的纸质账单通过手机进行缴费时,仅需用手机采集该账单对应的图像,并将该图像发送至第三方系统,第三方系统根据预先存储的单据模板中,确定该账单对应的单据模板后,对该图像中的基本信息所在的特定位置进行识别,即可获取生成电子账单所需的基本信息“123”、“张林”、“20”。用户张林即可根据生成的电子账单可以进行支付。与现有技术相比,客户端无须对纸质账单的图像进行全面扫描以识别户号“张林”、户名“张林”、账单所属的机构名称“北京市东城区供水机构”等信息,而仅需要第三方系统对图像中户名、户号、总金额所在的特定位置的图像进行扫描并识别,从而减少了识别时间,提高了识别效率,并且,由于仅需采集基本信息所在的特定位置的图像,即使特定位置以外的图像的采集效果不理想,也不会影响对位于该特定位置的基本信息的识别,因此降低了对采集单据的图像的要求,进而提高了识别结果的准确性。此外,由于提高了识别结果的准确性,避免了因识别结果不理想而导致用户重复操作,从而提高了用户的操作效率。
下面以后续操作为生成订单为例,详细地描述本申请一个实施例的生成订单的方法,基于图3、图4,提供图5所示的根据本申请一个实施例的生成订单的方法的流程图。
步骤501,接收客户端发送的单据的图像。
步骤502,提取图像的前景作为有效区域。
步骤503,根据有效区域与预先存储的各单据模板的尺寸相似度,将尺寸相似度大于第一阈值的单据模板作为第一待选模板。
步骤504,判断第一待选模板的数量是否是一个。若是,执行步骤505,否则,执行步骤506。
步骤505,确定第一待选模板为图像对应的单据模板,执行步骤515。
步骤506,根据有效区域与各第一待选模板的色彩相似度,将色彩相似度大于第二阈值的第一待选模板作为第二待选模板。
步骤507,判断第二待选模板的数量是否是一个。若是,执行步骤508,否则,执行步骤509。
步骤508,确定第二待选模板为图像对应的单据模板,执行步骤515。
步骤509,判断各第二待选模板中是否存在预设了地理位置信息的第二待选模板。若是,则执行步骤511,否则,执行步骤510。
步骤510,确定与有效区域的色彩相似度最大的第二待选模板为图像对应的单据模板,执行步骤515。
步骤511,获取客户端的地理位置信息。
步骤512,判断与客户端的地理位置信息匹配的第二待选模板的数量是否为一个。若是,执行步骤513,否则,执行步骤514。
步骤513,确定与客户端的地理位置信息匹配的第二待选模板为图像对应的单据模板,执行步骤515。
步骤514,从与客户端的地理位置信息匹配的各第二待选模板中,确定与有效区域的色彩相似度最大的第二待选模板为图像对应的单据模板,执行步骤515。
步骤515,将有效区域的尺寸放缩至单据模板的尺寸。
步骤516,根据图像对应的单据模板中的基本信息在图像对应的单据模板中所处的位置,识别有效区域中处在相应位置的字符,作为从图像中识别出的基本信息。
步骤517,判断识别出的用户信息中置信度大于第三阈值的字符数量与该用户信息中所有字符的总数的比值是否大于第四阈值。若是,则执行步骤519,否则,执行步骤518。
步骤518,根据置信度大于第三阈值的字符,从历史单据的用户信息中,选择满足指定条件的用户信息,作为从图像中识别出的用户信息,执行步骤521。
步骤519,根据从图像中识别出的第一用户信息,在历史单据的用户信息中,查找第一用户信息对应的第二用户信息。
步骤520,当在历史单据中查找到的第二用户信息与从有效区域中识别出的第二用户信息不同时,用查找到的第二用户信息替换识别出的第二用信息,执行步骤521。
步骤521,根据识别出的基本信息生成订单。
考虑到在实际的应用场景中,当用户根据账单等单据进行缴费时,用户缴费的类型可以分为两种,一种是必须一次性缴清的费用,例如缴纳水费或电费;另一种是不必一次性缴清的费用,例如缴纳信用卡的欠费。针对上述两种缴费类型,可以相应地将发出账单的机构分为两种类型,一种类型是必须一次性缴清费用的机构,另一种是不必一次性缴清费用的机构。因此,当根据识别出的基本信息生成单据时,可以根据单据模板对应的机构类型,生成相应的单据。其中,对于必须一次性缴清费用的机构,可以将单据中的关键信息(例如总金额)设置为不可修改,对于不必一次性缴清费用的机构,可以将单据中的关键信息(例如总金额)设置为可修改。例如,当用户在缴纳水费时,可以将单据中的总金额设置为不可修改;当用户在进行信用卡还款时,可以将单据中的总金额设置为可修改。
进一步地,当将生成的单据中的关键信息设置为不可修改,且用户认为该关键信息存在错误,不接受单据中的关键信息时,可以提示用户通过人工方式输入基本信息,即,提示用户手工输入户号、户名、单据所属的机构名称等用户信息,客户端则将用户输入的户号、户名、机构名称发送给第三方系统,使第三方系统通过相应机构的查询系统查询相应的关键信息,以使用户缴费。
此外,当将生成的单据中的关键信息设置为可修改时,若用户认为该关键信息存在错误,可手动修正单据中的关键信息;若用户认为该关键信息无误,但希望缴纳不同于该关键信息中金额的其他金额的费用时,也可以手动将单据中的关键信息中的金额修改为其他金额。
当然,当用户认为生成的单据中的用户信息存在错误,不接受该单据中的用户信息时,也可以提示用户通过人工方式输入基本信息。
另外,在本申请实施例中,用户根据生成的单据进行缴费后,第三方系统可以保存该单据,作为历史单据。
以上的实施例具体的识别步骤都在服务器即第三方系统中完成,同样,如果客户端具备足够的存储空间及运算能力,也可以完成相应的具体识别的步骤,具体步骤请见下述具体描述。
客户端可以通过自身的图像采集设备(如:摄像头)或者外部的图像采集设备(如:扫描仪)采集单据的图像。客户端可以包括但不限于:移动设备、个人计算机(PersonalComputer,PC)等。
客户端采集到单据的图像后,可以根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板,并且根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息,然后根据识别出的基本信息进行后续操作。下面,提供一个根据本申请的实施例的客户端的单据的信息识别的方法的流程图,如图6所示。
步骤601,采集单据的图像。
步骤602,根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板。
对步骤602的描述与图1中对步骤102的描述类似,这里不再赘述。
步骤603,根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息。
对步骤603的描述与图1中对步骤103的描述类似,这里不再赘述。
步骤604,根据识别出的基本信息进行后续操作。
根据本申请的一个实施例,根据识别出的基本信息进行后续操作,进一步包括:根据识别出的基本信息生成订单或将该基本信息发送至第三方系统。其中,当客户端将该基本信息发送至第三方系统时,第三方系统可以根据接收的基本信息进行后续操作。例如,第三方系统可以根据接收的基本信息生成订单。
以上为本申请实施例提供的单据的信息识别的方法,基于同样的思路,本申请实施例还提供两种单据信息识别的装置,如图7、图8所示。
图7是根据本申请一个实施例的单据的信息识别的装置的框图。
如图7所示,一种单据的信息识别的装置,包括:接收模块701,用于接收客户端发送的单据的图像;单据模板确定模块702,用于根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;识别模块703,用于根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;操作模块704,用于根据识别出的基本信息进行后续操作。
根据本申请的一个实施例,所述操作模块704进一步用于:根据识别出的基本信息生成订单。
根据本申请的一个实施例,所述单据模板确定模块702进一步用于:提取所述图像的前景作为有效区域,确定所述有效区域的长宽比,根据确定的长宽比,以及预先存储的各单据模板的长宽比,确定所述有效区域与各单据模板的尺寸相似度,将尺寸相似度大于第一阈值的单据模板作为待选模板,从确定的各待选模板中,确定所述图像对应的单据模板。
根据本申请的一个实施例,所述单据模板确定模块702进一步用于:提取所述图像的前景作为有效区域,确定所述有效区域的色彩特征,根据确定的所述色彩特征,以及预先存储的各单据模板的色彩特征,确定所述有效区域与各单据模板的色彩相似度,将色彩相似度大于第二阈值的单据模板作为待选模板,从确定的各待选模板中,确定所述图像对应的单据模板。
根据本申请的一个实施例,所述单据模板确定模块702进一步用于:针对预设的每个颜色,确定所述有效区域中该颜色的像素点的数量与所述有效区域中所有像素点的数量的比值,将针对预设的每个颜色确定的比值作为所述有效区域的色彩特征。
根据本申请的一个实施例,所述单据模板确定模块702进一步用于:判断各待选模板中是否存在预设了地理位置信息的待选模板,若存在,则从与所述客户端的地理位置信息匹配的各待选模板中,确定所述图像对应的单据模板,若不存在,则在各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。
根据本申请的一个实施例,所述单据模板确定模块702进一步用于:获取所述客户端的地理位置信息,当与所述客户端的地理位置信息匹配的待选模板的数量为一个时,确定与所述客户端的地理位置信息匹配的待选模板为所述图像对应的单据模板,当与所述客户端的地理位置信息匹配的待选模板的数量为至少两个时,从与所述客户端的地理位置信息匹配的各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。
根据本申请的一个实施例,所述识别模块703进一步用于:提取所述图像的前景作为有效区域,将所述有效区域的尺寸放缩至所述图像对应的单据模板的尺寸,根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述有效区域中相应位置处的字符,作为从所述图像中识别出的基本信息。
根据本申请的一个实施例,所述识别模块703进一步用于:确定基本信息在所述图像对应的单据模板中的位置,根据确定的基本信息在所述图像对应的单据模板中的位置,确定预设的所述基本信息的字符属性,采用确定的字符属性对应的字符库,识别用户信息在所述有效区域中相应位置的字符。
根据本申请的一个实施例,所述识别模块703还用于:根据历史单据中的基本信息对识别出的图像中的基本信息进行校正。
根据本申请的一个实施例,所述图像中的基本信息包括用户信息和关键信息;所述识别模块703进一步用于:确定从所述图像中识别出的用户信息中每个字符的置信度,确定置信度大于第三阈值的字符的数量,确定所述数量与从所述图像中识别出的用户信息中所有字符的总数的比值,当所述比值不大于第四阈值时,根据置信度大于所述第三阈值的字符,从历史单据的用户信息中,选择满足指定条件的用户信息,作为从所述图像中识别出的用户信息,其中,针对任一历史单据的用户信息,如果该历史单据的用户信息所包含字符的数量与从所述图像中识别出的用户信息中包含的字符的数量相同,并且,置信度大于所述第三阈值的字符在从所述图像中识别出的用户信息中所处的位置与在该历史单据的用户信息中所处的位置相同,则该历史单据的用户信息为满足指定条件的用户信息。
根据本申请的一个实施例,所述用户信息包括第一用户信息和第二用户信息,其中第一用户信息与第二用户信息存在对应关系;所述识别模块703还用于:当所述比值大于第四阈值时,根据从所述图像中识别出的第一用户信息,在历史单据的用户信息中,查找所述第一用户信息对应的第二用户信息,当在历史单据的用户信息中查找到的第二用户信息与从所述图像中识别出的第二用户信息不同时,采用查找到的第二用户信息替换识别出的第二用信息。
如图7所示的单据的信息识别的装置可以位于第三方系统中。
图8是根据本申请另一个实施例的单据的信息识别的装置的框图。
如图8所示,一种单据的信息识别的装置,其特征在于,包括:采集模块801,用于采集单据的图像;单据模板确定模块802,用于根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;识别模块803,用于根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;操作模块804,用于根据识别出的基本信息进行后续操作。
根据本申请的一个实施例,所述操作模块804进一步用于:根据识别出的基本信息生成订单。
如图8所示的单据的信息识别的装置可以位于客户端中。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (28)

1.一种单据的信息识别的方法,其特征在于,包括:
接收客户端发送的单据的图像;
根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;
根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;
根据识别出的基本信息进行后续操作。
2.根据权利要求1所述的方法,其特征在于,根据识别出的基本信息进行后续操作,进一步包括:根据识别出的基本信息生成订单。
3.根据权利要求1所述的方法,其特征在于,根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板,进一步包括:
提取所述图像的前景作为有效区域;
确定所述有效区域的长宽比;
根据确定的长宽比,以及预先存储的各单据模板的长宽比,确定所述有效区域与各单据模板的尺寸相似度;
将尺寸相似度大于第一阈值的单据模板作为待选模板;
从确定的各待选模板中,确定所述图像对应的单据模板。
4.根据权利要求1所述的方法,其特征在于,根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板,进一步包括:
提取所述图像的前景作为有效区域;
确定所述有效区域的色彩特征;
根据确定的所述色彩特征,以及预先存储的各单据模板的色彩特征,确定所述有效区域与各单据模板的色彩相似度;
将色彩相似度大于第二阈值的单据模板作为待选模板;
从确定的各待选模板中,确定所述图像对应的单据模板。
5.根据权利要求4所述的方法,其特征在于,确定所述有效区域的色彩特征,进一步包括:
针对预设的每个颜色,确定所述有效区域中该颜色的像素点的数量与所述有效区域中所有像素点的数量的比值;
将针对预设的每个颜色确定的比值作为所述有效区域的色彩特征。
6.根据权利要求3或4所述的方法,其特征在于,从确定的各待选模板中,确定所述图像对应的单据模板,进一步包括:
判断各待选模板中是否存在预设了地理位置信息的待选模板;
若存在,则从与所述客户端的地理位置信息匹配的各待选模板中,确定所述图像对应的单据模板;
若不存在,则在各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。
7.根据权利要求6所述的方法,其特征在于,从与所述客户端的地理位置信息匹配的各待选模板中,确定所述图像对应的单据模板,进一步包括:
获取所述客户端的地理位置信息;
当与所述客户端的地理位置信息匹配的待选模板的数量为一个时,确定与所述客户端的地理位置信息匹配的待选模板为所述图像对应的单据模板;
当与所述客户端的地理位置信息匹配的待选模板的数量为至少两个时,从与所述客户端的地理位置信息匹配的各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。
8.根据权利要求1所述的方法,其特征在于,根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息,进一步包括:
提取所述图像的前景作为有效区域;
将所述有效区域的尺寸放缩至所述图像对应的单据模板的尺寸;
根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述有效区域中相应位置处的字符,作为从所述图像中识别出的基本信息。
9.根据权利要求8所述的方法,其特征在于,根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述有效区域中相应位置处的字符,进一步包括:
确定基本信息在所述图像对应的单据模板中的位置;
根据确定的基本信息在所述图像对应的单据模板中的位置,确定预设的所述基本信息的字符属性;
采用确定的字符属性对应的字符库,识别所述有效区域中相应位置的字符。
10.根据权利要求1所述的方法,其特征在于,还包括:根据历史单据中的基本信息对识别出的图像中的基本信息进行校正。
11.根据权利要求10所述的方法,其特征在于,所述图像中的基本信息包括用户信息和关键信息;
根据历史单据中的基本信息对识别出的图像中的基本信息进行校正,进一步包括:
确定从所述图像中识别出的用户信息中每个字符的置信度;
确定置信度大于第三阈值的字符的数量;
确定所述数量与从所述图像中识别出的用户信息中所有字符的总数的比值;
当所述比值不大于第四阈值时,根据置信度大于所述第三阈值的字符,从历史单据的用户信息中,选择满足指定条件的用户信息,作为从所述图像中识别出的用户信息;
其中,针对任一历史单据的用户信息,如果该历史单据的用户信息所包含字符的数量与从所述图像中识别出的用户信息中包含的字符的数量相同,并且,置信度大于所述第三阈值的字符在从所述图像中识别出的用户信息中所处的位置与在该历史单据的用户信息中所处的位置相同,则该历史单据的用户信息为满足指定条件的用户信息。
12.根据权利要求11所述的方法,其特征在于,所述用户信息包括第一用户信息和第二用户信息,其中第一用户信息与第二用户信息存在对应关系;
所述方法还包括:
当所述比值大于第四阈值时,根据从所述图像中识别出的第一用户信息,在历史单据的用户信息中,查找所述第一用户信息对应的第二用户信息;
当在历史单据的用户信息中查找到的第二用户信息与从所述图像中识别出的第二用户信息不同时,采用查找到的第二用户信息替换识别出的第二用信息。
13.一种单据的信息识别的方法,其特征在于,包括:
采集单据的图像;
根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;
根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;
根据识别出的基本信息进行后续操作。
14.根据权利要求13所述的方法,其特征在于,根据识别出的基本信息进行后续操作,进一步包括:
根据识别出的基本信息生成订单或将所述基本信息发送至第三方系统。
15.一种单据的信息识别的装置,其特征在于,包括:
接收模块,用于接收客户端发送的单据的图像;
单据模板确定模块,用于根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;
识别模块,用于根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;
操作模块,用于根据识别出的基本信息进行后续操作。
16.根据权利要求15所述的装置,其特征在于,所述操作模块进一步用于:根据识别出的基本信息生成订单。
17.根据权利要求15所述的装置,其特征在于,所述单据模板确定模块进一步用于:提取所述图像的前景作为有效区域,确定所述有效区域的长宽比,根据确定的长宽比,以及预先存储的各单据模板的长宽比,确定所述有效区域与各单据模板的尺寸相似度,将尺寸相似度大于第一阈值的单据模板作为待选模板,从确定的各待选模板中,确定所述图像对应的单据模板。
18.根据权利要求15所述的装置,其特征在于,所述单据模板确定模块进一步用于:提取所述图像的前景作为有效区域,确定所述有效区域的色彩特征,根据确定的所述色彩特征,以及预先存储的各单据模板的色彩特征,确定所述有效区域与各单据模板的色彩相似度,将色彩相似度大于第二阈值的单据模板作为待选模板,从确定的各待选模板中,确定所述图像对应的单据模板。
19.根据权利要求16所述的装置,其特征在于,所述单据模板确定模块进一步用于:针对预设的每个颜色,确定所述有效区域中该颜色的像素点的数量与所述有效区域中所有像素点的数量的比值,将针对预设的每个颜色确定的比值作为所述有效区域的色彩特征。
20.根据权利要求17或18所述的装置,其特征在于,所述单据模板确定模块进一步用于:判断各待选模板中是否存在预设了地理位置信息的待选模板,若存在,则从与所述客户端的地理位置信息匹配的各待选模板中,确定所述图像对应的单据模板,若不存在,则在各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。
21.根据权利要求20所述的装置,其特征在于,所述单据模板确定模块进一步用于:获取所述客户端的地理位置信息,当与所述客户端的地理位置信息匹配的待选模板的数量为一个时,确定与所述客户端的地理位置信息匹配的待选模板为所述图像对应的单据模板,当与所述客户端的地理位置信息匹配的待选模板的数量为至少两个时,从与所述客户端的地理位置信息匹配的各待选模板中,确定与所述有效区域的尺寸相似度或色彩相似度最大的待选模板为所述图像对应的单据模板。
22.根据权利要求15所述的装置,其特征在于,所述识别模块进一步用于:提取所述图像的前景作为有效区域,将所述有效区域的尺寸放缩至所述图像对应的单据模板的尺寸,根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述有效区域中相应位置处的字符,作为从所述图像中识别出的基本信息。
23.根据权利要求22所述的装置,其特征在于,所述识别模块进一步用于:确定基本信息在所述图像对应的单据模板中的位置,根据确定的基本信息在所述图像对应的单据模板中的位置,确定预设的所述基本信息的字符属性,采用确定的字符属性对应的字符库,识别所述有效区域中相应位置的字符。
24.根据权利要求15所述的装置,其特征在于,所述识别模块还用于:根据历史单据中的基本信息对识别出的图像中的基本信息进行校正。
25.根据权利要求22所述的装置,其特征在于,所述图像中的基本信息包括用户信息和关键信息;所述识别模块进一步用于:确定从所述图像中识别出的用户信息中每个字符的置信度,确定置信度大于第三阈值的字符的数量,确定所述数量与从所述图像中识别出的用户信息中所有字符的总数的比值,当所述比值不大于第四阈值时,根据置信度大于所述第三阈值的字符,从历史单据的用户信息中,选择满足指定条件的用户信息,作为从所述图像中识别出的用户信息,其中,针对任一历史单据的用户信息,如果该历史单据的用户信息所包含字符的数量与从所述图像中识别出的用户信息中包含的字符的数量相同,并且,置信度大于所述第三阈值的字符在从所述图像中识别出的用户信息中所处的位置与在该历史单据的用户信息中所处的位置相同,则该历史单据的用户信息为满足指定条件的用户信息。
26.根据权利要求25所述的装置,其特征在于,所述用户信息包括第一用户信息和第二用户信息,其中第一用户信息与第二用户信息存在对应关系;
所述识别模块还用于:当所述比值大于第四阈值时,根据从所述图像中识别出的第一用户信息,在历史单据的用户信息中,查找所述第一用户信息对应的第二用户信息,当在历史单据的用户信息中查找到的第二用户信息与从所述图像中识别出的第二用户信息不同时,采用查找到的第二用户信息替换识别出的第二用信息。
27.一种单据的信息识别的装置,其特征在于,包括:
采集模块,用于采集单据的图像;
单据模板确定模块,用于根据所述图像的属性,在预先存储的各单据模板中,确定所述图像对应的单据模板;
识别模块,用于根据所述图像对应的单据模板中的基本信息在所述图像对应的单据模板中所处的位置,识别所述图像中的基本信息;
操作模块,用于根据识别出的基本信息进行后续操作。
28.根据权利要求27所述的装置,其特征在于,所述操作模块进一步用于:
根据识别出的基本信息生成订单或将所述基本信息发送至第三方系统。
CN201410219239.8A 2014-05-22 2014-05-22 一种单据的信息识别的方法和装置 Expired - Fee Related CN105095842B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410219239.8A CN105095842B (zh) 2014-05-22 2014-05-22 一种单据的信息识别的方法和装置
HK16101350.4A HK1213345A1 (zh) 2014-05-22 2016-02-04 種單據的信息識別的方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410219239.8A CN105095842B (zh) 2014-05-22 2014-05-22 一种单据的信息识别的方法和装置

Publications (2)

Publication Number Publication Date
CN105095842A true CN105095842A (zh) 2015-11-25
CN105095842B CN105095842B (zh) 2018-12-11

Family

ID=54576236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410219239.8A Expired - Fee Related CN105095842B (zh) 2014-05-22 2014-05-22 一种单据的信息识别的方法和装置

Country Status (2)

Country Link
CN (1) CN105095842B (zh)
HK (1) HK1213345A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913248A (zh) * 2016-04-08 2016-08-31 四川省亚丁胡杨人力资源集团有限公司 一种基于移动互联网服务应用的在线支付系统
CN106354516A (zh) * 2016-09-27 2017-01-25 浙江宇视科技有限公司 追踪设备的方法及装置
CN106530528A (zh) * 2016-10-11 2017-03-22 上海慧银信息科技有限公司 收银票据信息识别方法及装置
CN106557747A (zh) * 2016-11-15 2017-04-05 平安科技(深圳)有限公司 识别保险单号码的方法及装置
CN106682698A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 基于模板匹配的ocr识别方法
CN107295357A (zh) * 2016-04-01 2017-10-24 深圳平安综合金融服务有限公司 影像文件资料录入方法、云服务器及终端
CN107423731A (zh) * 2017-04-06 2017-12-01 云南小鹰科技有限公司 航空单据的数据处理方法及系统
CN107463868A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 一种电子表单核验方法及装置
CN107679442A (zh) * 2017-06-23 2018-02-09 平安科技(深圳)有限公司 单证信息录入的方法、装置、计算机设备及存储介质
CN107688772A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 保单信息录入的方法、装置、计算机设备及存储介质
CN107818301A (zh) * 2017-10-16 2018-03-20 阿里巴巴集团控股有限公司 更新生物特征模板的方法、装置和电子设备
CN108132923A (zh) * 2017-12-06 2018-06-08 口碑(上海)信息技术有限公司 业务单据的生成方法及系统
CN108280626A (zh) * 2018-01-30 2018-07-13 深圳壹账通智能科技有限公司 合同数据处理方法、装置、计算机设备和存储介质
CN108304843A (zh) * 2017-12-25 2018-07-20 山东浪潮云服务信息科技有限公司 一种图像审批方法及审批装置
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
WO2018166236A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 理赔账单识别方法、装置、设备及计算机可读存储介质
CN108960223A (zh) * 2018-05-18 2018-12-07 北京大账房网络科技股份有限公司 基于票据智能识别自动生成凭证的方法
CN109255881A (zh) * 2018-09-29 2019-01-22 北京单多啦科技有限公司 一种票据自动归档系统及归档方法
WO2019019446A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 根据影像文件在录单模板中定位的方法、装置及相关设备
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置
CN110503100A (zh) * 2019-08-16 2019-11-26 湖南星汉数智科技有限公司 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN110619252A (zh) * 2018-06-19 2019-12-27 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN111241955A (zh) * 2020-01-03 2020-06-05 北京一览群智数据科技有限责任公司 一种票据信息提取方法及系统
CN112330266A (zh) * 2020-09-30 2021-02-05 山东浪潮通软信息科技有限公司 一种单据生成方法、设备及介质
CN114494729A (zh) * 2022-04-02 2022-05-13 广州市开富信息科技有限责任公司 基于ai识别技术的汽车配件识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1308296A (zh) * 1999-12-22 2001-08-15 株式会社日立制作所 票据处理系统
JP2003141447A (ja) * 2001-11-06 2003-05-16 Canon Inc 帳票検索システム
CN1452119A (zh) * 2002-04-12 2003-10-29 株式会社日立制作所 单据读出系统、单据读出方法及单据读出程序
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达系统工程股份有限公司 票据图象处理装置
CN101464951A (zh) * 2007-12-21 2009-06-24 北大方正集团有限公司 图像识别方法及系统
CN101976114A (zh) * 2010-09-29 2011-02-16 长安大学 一种基于摄像头的计算机与纸笔信息交互系统及方法
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103297697A (zh) * 2013-05-30 2013-09-11 北京小米科技有限责任公司 在拍照过程中显示模板照片的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1308296A (zh) * 1999-12-22 2001-08-15 株式会社日立制作所 票据处理系统
JP2003141447A (ja) * 2001-11-06 2003-05-16 Canon Inc 帳票検索システム
CN1452119A (zh) * 2002-04-12 2003-10-29 株式会社日立制作所 单据读出系统、单据读出方法及单据读出程序
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达系统工程股份有限公司 票据图象处理装置
CN101464951A (zh) * 2007-12-21 2009-06-24 北大方正集团有限公司 图像识别方法及系统
CN101976114A (zh) * 2010-09-29 2011-02-16 长安大学 一种基于摄像头的计算机与纸笔信息交互系统及方法
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103297697A (zh) * 2013-05-30 2013-09-11 北京小米科技有限责任公司 在拍照过程中显示模板照片的方法及装置

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107295357B (zh) * 2016-04-01 2021-03-16 深圳平安综合金融服务有限公司 影像文件资料录入方法、云服务器及终端
CN107295357A (zh) * 2016-04-01 2017-10-24 深圳平安综合金融服务有限公司 影像文件资料录入方法、云服务器及终端
CN105913248A (zh) * 2016-04-08 2016-08-31 四川省亚丁胡杨人力资源集团有限公司 一种基于移动互联网服务应用的在线支付系统
CN107463868B (zh) * 2016-06-02 2021-02-23 阿里巴巴集团控股有限公司 一种电子表单核验方法及装置
CN107463868A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 一种电子表单核验方法及装置
CN106354516A (zh) * 2016-09-27 2017-01-25 浙江宇视科技有限公司 追踪设备的方法及装置
CN106354516B (zh) * 2016-09-27 2019-10-18 浙江宇视科技有限公司 追踪设备的方法及装置
CN106530528A (zh) * 2016-10-11 2017-03-22 上海慧银信息科技有限公司 收银票据信息识别方法及装置
CN106557747A (zh) * 2016-11-15 2017-04-05 平安科技(深圳)有限公司 识别保险单号码的方法及装置
CN106557747B (zh) * 2016-11-15 2018-06-22 平安科技(深圳)有限公司 识别保险单号码的方法及装置
CN106682698A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 基于模板匹配的ocr识别方法
WO2018166236A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 理赔账单识别方法、装置、设备及计算机可读存储介质
CN107423731A (zh) * 2017-04-06 2017-12-01 云南小鹰科技有限公司 航空单据的数据处理方法及系统
WO2018233055A1 (zh) * 2017-06-23 2018-12-27 平安科技(深圳)有限公司 保单信息录入的方法、装置、计算机设备及存储介质
CN107679442A (zh) * 2017-06-23 2018-02-09 平安科技(深圳)有限公司 单证信息录入的方法、装置、计算机设备及存储介质
CN107688772A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 保单信息录入的方法、装置、计算机设备及存储介质
WO2019019446A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 根据影像文件在录单模板中定位的方法、装置及相关设备
CN107818301B (zh) * 2017-10-16 2021-04-02 创新先进技术有限公司 更新生物特征模板的方法、装置和电子设备
CN107818301A (zh) * 2017-10-16 2018-03-20 阿里巴巴集团控股有限公司 更新生物特征模板的方法、装置和电子设备
CN108132923A (zh) * 2017-12-06 2018-06-08 口碑(上海)信息技术有限公司 业务单据的生成方法及系统
CN108304843A (zh) * 2017-12-25 2018-07-20 山东浪潮云服务信息科技有限公司 一种图像审批方法及审批装置
CN108280626A (zh) * 2018-01-30 2018-07-13 深圳壹账通智能科技有限公司 合同数据处理方法、装置、计算机设备和存储介质
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108960223B (zh) * 2018-05-18 2020-10-30 北京大账房网络科技股份有限公司 基于票据智能识别自动生成凭证的方法
CN108960223A (zh) * 2018-05-18 2018-12-07 北京大账房网络科技股份有限公司 基于票据智能识别自动生成凭证的方法
CN110619252A (zh) * 2018-06-19 2019-12-27 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN110619252B (zh) * 2018-06-19 2022-11-04 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN109255881A (zh) * 2018-09-29 2019-01-22 北京单多啦科技有限公司 一种票据自动归档系统及归档方法
CN109658584B (zh) * 2018-12-14 2021-01-12 泰康保险集团股份有限公司 一种票据信息识别方法及装置
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置
CN110503100A (zh) * 2019-08-16 2019-11-26 湖南星汉数智科技有限公司 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN110503100B (zh) * 2019-08-16 2022-05-03 湖南星汉数智科技有限公司 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN111241955A (zh) * 2020-01-03 2020-06-05 北京一览群智数据科技有限责任公司 一种票据信息提取方法及系统
CN111241955B (zh) * 2020-01-03 2023-05-16 北京一览群智数据科技有限责任公司 一种票据信息提取方法及系统
CN112330266A (zh) * 2020-09-30 2021-02-05 山东浪潮通软信息科技有限公司 一种单据生成方法、设备及介质
CN114494729A (zh) * 2022-04-02 2022-05-13 广州市开富信息科技有限责任公司 基于ai识别技术的汽车配件识别方法及装置
CN114494729B (zh) * 2022-04-02 2022-07-12 广州市开富信息科技有限责任公司 基于ai识别技术的汽车配件识别方法及装置

Also Published As

Publication number Publication date
CN105095842B (zh) 2018-12-11
HK1213345A1 (zh) 2016-06-30

Similar Documents

Publication Publication Date Title
CN105095842A (zh) 一种单据的信息识别的方法和装置
US9235759B2 (en) Detecting text using stroke width based text detection
US7447362B2 (en) System and method of enabling a cellular/wireless device with imaging capabilities to decode printed alphanumeric characters
US10867171B1 (en) Systems and methods for machine learning based content extraction from document images
CN110136198B (zh) 图像处理方法及其装置、设备和存储介质
CN104199906B (zh) 一种拍摄区域的推荐方法及装置
US20090017765A1 (en) System and Method of Enabling a Cellular/Wireless Device with Imaging Capabilities to Decode Printed Alphanumeric Characters
JPWO2007004519A1 (ja) 検索システム及び検索方法
CN105516296A (zh) 群组标识图像的配置方法及装置
US9208551B2 (en) Method and system for providing efficient feedback regarding captured optical image quality
CN103984774A (zh) 用于变电站图纸查看的方法和系统
US20100119121A1 (en) Method, system and computer-readable recording medium for providing service using electronic map
CN111464716A (zh) 一种证件扫描方法、装置、设备及存储介质
CN105392178A (zh) 一种用于获取无线接入点的接入信息的方法与设备
CN107590490A (zh) 发票的全票面信息获取方法、装置及计算机可读存储介质
CN105094975A (zh) 一种调用应用程序的方法及装置
JP2013210974A (ja) 検索画像登録装置、検索画像表示システム、検索画像登録方法およびプログラム
CN101676848A (zh) 识别和处理图像信息的装置和方法
KR20160118198A (ko) 실시간 자동번역 시스템 및 방법, 실시간 자동번역이 가능한 단말기
EP4184348A1 (en) Information retrieval method and apparatus and electronic device
CN110135412B (zh) 名片识别方法和装置
CN105451175A (zh) 一种记录照片定位信息的方法及装置
CN106470258B (zh) 自动拨号或发送短信的方法和装置
CN109408718B (zh) 信息推送方法及相关产品
US20150030241A1 (en) Method and system for data identification and extraction using pictorial representations in a source document

Legal Events

Date Code Title Description
C06 Publication
C41 Transfer of patent application or patent right or utility model
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20151105

Address after: Cayman Islands Grand Cayman capital building a four storey No. 847 mailbox

Applicant after: ALIBABA GROUP HOLDING LIMITED

Address before: Cayman Islands Grand Cayman capital building a four storey No. 847 mailbox

Applicant before: Alibaba Group Holding Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1213345

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181211

Termination date: 20210522

CF01 Termination of patent right due to non-payment of annual fee