CN111259882A - 票据识别的方法、装置及计算机设备 - Google Patents
票据识别的方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN111259882A CN111259882A CN202010038191.6A CN202010038191A CN111259882A CN 111259882 A CN111259882 A CN 111259882A CN 202010038191 A CN202010038191 A CN 202010038191A CN 111259882 A CN111259882 A CN 111259882A
- Authority
- CN
- China
- Prior art keywords
- bill
- target
- ocr technology
- fragments
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005516 engineering process Methods 0.000 claims abstract description 147
- 239000012634 fragment Substances 0.000 claims abstract description 126
- 238000012216 screening Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 24
- 230000010354 integration Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012015 optical character recognition Methods 0.000 abstract 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Multimedia (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种票据识别的方法、装置及计算机设备,涉及信息识别领域,可以解决在进行OCR票据影像识别时,单一OCR技术供应商无法同时满足不同客户以及不同票据类型的高质量识别要求的问题。其中方法包括:获取待识别的票据信息;对所述票据信息中的目标票据图片进行预处理,并将所述目标票据图片切割成多个携带有不同属性标识的票据碎片;根据所述票据碎片的属性标识筛选目标OCR技术供应商;利用所述目标OCR技术供应商识别对应的所述票据碎片;整合输出各个所述目标OCR技术供应商的识别结果。本申请适用于对不同类型票据的统一方式识别。
Description
技术领域
本申请涉及信息识别领域,尤其涉及到一种票据识别的方法、装置及计算机设备。
背景技术
保险行业竞争激烈,如何采取有效的手段提高工作效率、提升客户满意度、进而提高核心竞争力,成为各大保险公司关注的焦点,但是现阶段存在大量的医疗票据需要人工录入来完成理赔案件的备案以及审核,这样效率很低,因此出现OCR技术将纸质的医疗票据通过拍照或者扫描后通过OCR引擎自动转换成结构数据,节约了大量的人力成本并提升了效率。
目前在进行OCR票据影像识别时,大多都是将完整的票据交给供应商去进行自动化识别。正常供应商的OCR引擎平均识别能力大致在70%左右,自动识别率不高,然而不同类型的OCR票据的自动识别率均要求达到95%以上,故单个供应商显然无法同时满足不同客户以及不同票据类型的高质量识别要求。
发明内容
有鉴于此,本申请提供了一种票据识别的方法、装置及计算机设备,能够解决在进行OCR票据影像识别时,单一OCR技术供应商无法同时满足不同客户以及不同票据类型的高质量识别要求的问题。
根据本申请的一个方面,提供了一种票据识别的方法,该方法包括:
获取待识别的票据信息;
对所述票据信息中的目标票据图片进行预处理,并将所述目标票据图片切割成多个携带有不同属性标识的票据碎片;
根据所述票据碎片的属性标识筛选目标OCR技术供应商;
利用所述目标OCR技术供应商识别对应的所述票据碎片;
整合输出各个所述目标OCR技术供应商的识别结果。
根据本申请的另一个方面,提供了一种票据识别的装置,该装置包括:
获取模块,用于获取待识别的票据信息;
切割模块,用于对所述票据信息中的目标票据图片进行预处理,并将所述目标票据图片切割成多个携带有不同属性标识的票据碎片;
筛选模块,用于根据所述票据碎片的属性标识筛选目标OCR技术供应商;
识别模块,用于利用所述目标OCR技术供应商识别对应的所述票据碎片;
整合输出模块,用于整合输出各个所述目标OCR技术供应商的识别结果。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述票据识别的方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,处理器执行程序时实现上述票据识别的方法。
借由上述技术方案,本申请提供的一种票据识别的方法、装置及计算机设备,与目前对票据影像识别的方式相比,本申请可在接收到待识别的票据影像后,通过OCR前置引擎将票据影像切割成碎片,分析各个票据碎片对应的标签属性信息,根据标签属性信息选取与票据碎片存在高度匹配的OCR技术供应商,利用匹配的OCR技术供应商识别对应的票据碎片,之后根据索引拼接各个自动识别得到的结构化数据,然后通过接口返还给社商平台,再由社商平台返回给各个客户平台。可通过对票据碎片的分块识别,提高OCR引擎对票据影像的识别精度,进而满足所有客户的高质量识别要求。另外,通过不同的OCR技术供应商的自动识别能力进行优势互补,提升自动识别的能力的同时,还能提升客户满意度,降低识别录入成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种票据识别的方法的流程示意图;
图2示出了本申请实施例提供的另一种票据识别的方法的流程示意图;
图3示出了本申请实施例提供的一种票据识别的整体工作流程图;
图4示出了本申请实施例提供的一种票据识别的系统架构图;
图5示出了本申请实施例提供的一种票据识别的装置的结构示意图;
图6示出了本申请实施例提供的另一种票据识别的装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在进行OCR票据影像识别时,单一OCR技术供应商无法同时满足不同客户以及不同票据类型的高质量识别要求的问题,本申请实施例提供了一种票据识别的方法,如图1所示,该方法包括:
101、获取待识别的票据信息。
其中,票据信息可包括目标票据图片以及对应的数据请求来源,如具体的客户平台等。
对于本实施例的执行主体可为用于进行票据识别检测的OCR检测平台,可利用OCR检测平台接收各个客户平台上传的票据信息,并对票据信息进行处理、切割;筛选与各个票据碎片属性标识对应的OCR技术供应商;将各个票据碎片上传到所对应的目标技术供应中进行信息识别;在对所有票据碎片对应的识别信息进行整合后,将整合后的信息反馈发送到对应的客户平台。在本实施例中,可在OCR检测平台中单独创建用于对接各个客户平台的社商平台,将社商平台作为OCR平台对接各家客户平台的统一通道,接收各个客户平台的票据信息,并上传给OCR平台,社商平台负责对各家客户平台的票据影像进行统一管理,并签署数据安全协议。
102、对票据信息中的目标票据图片进行预处理,并将目标票据图片切割成多个携带有不同属性标识的票据碎片。
对于本实施例,在具体的应用场景中,为了排除干扰,使目标票据图片能够符合图像识别要求,故在对目标票据图片进行识别前,需要对目标票据图片进行预处理。其中,属性标识为各个票据碎片对应的模块区域属性,即票据中的各个属性分栏,如医疗门诊收费票据中可对应各个票据碎片的属性标识为:医院名称,医疗票据编号,金额,日期,合计大写,药品大项,药品小项等。
103、根据票据碎片的属性标识筛选目标OCR技术供应商。
其中,OCR检测平台需要同时对接多家达成合作协议的OCR技术供应商,包含每一家供应商擅长的自动识别能力,可基于票据碎片的属性标识,筛选出对应该属性标识下的票据碎片识别能力较强的目标OCR技术供应商。
104、利用目标OCR技术供应商识别对应的票据碎片。
例如,票据碎片a对应的属性标识为“日期”,则可筛选出对应技术标签“日期”识别精度较高的目标OCR技术供应商A,进而可利用目标OCR技术供应商A对票据碎片a进行内容识别检测。
105、整合输出各个目标OCR技术供应商的识别结果。
对于本实施例,在具体的应用场景中,当实现对目标票据图片对应票据图片的碎片化检测后,需要对识别出的各个识别信息进行汇总,以便综合输出整体的识别结果。
通过本实施例中票据识别的方法,可在接收到待识别的票据影像后,通过OCR前置引擎将票据影像切割成碎片,分析各个票据碎片对应的标签属性信息,根据标签属性信息选取与票据碎片存在高度匹配的OCR技术供应商,利用匹配的OCR技术供应商识别对应的票据碎片,之后根据索引拼接各个自动识别得到的结构化数据,然后通过接口返还给社商平台,再由社商平台返回给各个客户平台。可通过对票据碎片的分块识别,提高OCR引擎对票据影像的识别精度,进而满足所有客户的高质量识别要求。另外,通过不同的OCR技术供应商的自动识别能力进行优势互补,提升自动识别的能力的同时,还能提升客户满意度,降低识别录入成本。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种票据识别的方法,如图2所示,该方法包括:
201、获取待识别的票据信息。
对于本实施例,在具体的应用场景中,可接收票据识别请求,该票据识别请求中包含待识别的目标票据图片以及发送该识别请求的客户平台标识。
202、利用拍照加强工具处理目标票据图片,以使目标票据图片的参数信息符合预设标准。
其中,拍照加强工具用于保证票据信息的有效性,可对获取到的目标票据图片进行扫描,判定图片的识别率、分辨率、清晰度、亮度等是否达到预设标准,当不符合预设标准时,会自动对图片的配置信息进行适应性调整,以使其符合预设标准,进而不影响识别的准确性。
203、识别目标票据图片对应的目标票据类型。
对于本实施例,在具体的应用场景中,实施例步骤203具体可以包括:获取预先创建的各个票据类型对应的票据样本图片;将目标票据图片与各个票据样本图片进行版面相似度匹配;将相似度最高的票据样本图片对应的票据类型确定为目标票据类型。
其中,票据类型可针对不同领域的票据,以医保领域为例,可包括保险票据、医疗票据等,保险票据、医疗票据又可分为医疗门诊收费票据、医疗保险报销票据等多个细小分支。
例如,将目标票据图片与各个票据类型对应的票据样本图片进行相似度匹配,若确定与医疗保险报销票据的版面相似度最高,则可将医疗保险报销票据确定为该目标票据图片对应的目标票据类型。
204、获取与目标票据类型匹配的图片切割规则,并依据图片切割规则将目标票据图片切割成多个票据碎片。
对于本实施例,在具体的应用场景中,由于同种票据类型对应的票据排版差异不大,故为了实现对票据图片的精准切割,还可为同种票据类型制定统一的图片切割规则,并创建票据类型与图片切割模板的映射关系。故在确定出目标票据类型后,还可基于映射关系获取与目标票据类型对应的图片切割模板,按照图片切割模板中包含的图片切割规则切割票据图片,获取得到各个票据碎片。其中,图片切割规则可包括图片切割位置、切割比例以及切割顺序等。
205、按照碎片命名规则分别为各个票据碎片配置唯一对应的属性标识。
其中,碎片命名规则可根据具体的票据类型进行个性化定义或配置统一默认的命名格式,如“目标票据类型+票据碎片属性标识”、“目标票据类型~票据碎片属性标识”“目标票据类型(票据碎片属性标识)”等。
例如,设定的碎片命名格式为:“目标票据类型+票据碎片属性标识”,若获取到的目标票据类型为医疗门诊收费票据,则可按照碎片命名规则为医疗门诊收费票据对应包含的各个票据碎片配置属性标识,可为:医疗门诊收费票据+医院名称、医疗门诊收费票据+医疗票据编号、医疗门诊收费票据+金额、医疗门诊收费票据+日期、医疗门诊收费票据+合计大写、医疗门诊收费票据+药品大项、医疗门诊收费票据+药品小项等。
206、获取各个OCR技术供应商对应的预设标识,预设标识对应OCR技术供应商最擅长识别的票据属性模块。
对于本实施例,在具体的应用场景中,每个OCR技术供应商均设有预设标识,预设标识用于标记该OCR技术供应商对应的最强识别票据类型以及识别精度。如对应预设标识为金额,则可说明该OCR技术供应商在识别金额上具有较高的精度,故可将金额作为预设标识标记在该OCR技术供应商上,方便筛选抉择。
207、从所述预设标识中筛选出与票据碎片对应属性标识相同的目标预设标识。
对于本实施例,在具体的应用场景中,在通过预设标识匹配筛选各个票据碎片对应的OCR技术供应商时,可预先从票据碎片中筛选出有关票据属性标识的关键词,将关键词与各个OCR技术供应商的预设标识进行相似度匹配,从而筛选出用于识别票据碎片的目标OCR技术供应商。具体筛选过程可为:获取得到票据碎片分别对应的属性标识;获取各个属性标识对应的预设关键词;其中,每个属性标识均预先配置有对应的关键词,如属性标识为姓名,则可获取到相应的关键为“姓名”、“名字”、“称呼”等;基于语义分析,筛选出与预设关键词语义相似度大于预设阈值的目标预设标识。
208、将目标预设标识对应的OCR技术供应商确定为备选OCR技术供应商。
在具体的应用场景中,当确定目标预设标识后,可将该目标预设标识对应的OCR技术供应商作为备选项,进一步提取出来,以便筛选出同种属性标识下识别效果最优且与客户倾向吻合的OCR技术供应商。
209、从备选OCR技术供应商中筛选出各个票据碎片对应的目标OCR技术供应商。
对于本实施例,在具体的应用场景中,实施例步骤209具体可以包括:获取各个备选OCR技术供应商对应匹配的目标票据碎片以及识别精度;按照识别精度大小为目标票据碎片对应的备选OCR技术供应商配置选用优先级;根据选用优先级的顺序创建各个票据碎片对应备选OCR技术供应商的选用列表;接收对选用列表中备选OCR技术供应商的选取指令,并将选取出的备选OCR技术供应商确定为目标OCR技术供应商;若在预设时长内未接收到对备选OCR技术供应商的选取指令,则将选用列表中首个备选OCR技术供应商确定为目标OCR技术供应商。
其中,选用列表是按照识别精度进行排列的,可为同种属性标识中对应识别精度最高的OCR技术供应商配置最高的选用优先级,并且按照识别精度的递减排列顺序,为其他携带有同种属性标识的OCR技术供应商配置对应的优先级,其中,对应该属性标识下的票据识别精度越高,对应OCR技术供应商的选用优先级也越高。同种属性标识对应的识别精度越高,OCR技术供应商则会位于选用列表的最上端,作为优先推荐。优选的,当OCR检测平台中的OCR技术供应商发生变动时,需要重新对各个OCR技术供应商的选用优先级以及选用列表进行适当的调整与更新,能够在OCR检测平台中根据票据属性标识查找出最擅长识别的目标OCR技术供应商,进而提供最精确的识别服务。
210、将各个票据碎片分别上传到对应筛选出的目标OCR技术供应商中,获取得到第一识别信息。
其中,第一识别信息对应各个目标OCR技术供应商对票据碎片的识别结果。
对于本实施例,在具体的应用场景中,当筛选出各个票据碎片对应的目标OCR技术供应商后,可利用目标OCR技术供应商实现对票据碎片的精确识别,并输出第一识别信息。
例如,若将票据图片切割成8个票据碎片,则可分别匹配出最优识别各个票据碎片的目标OCR技术供应商,8个票据碎片对应的8个目标OCR技术供应商可相同也可不同,对应各自票据碎片类型的识别精度均为最高,当各个票据碎片的识别精度均达到90%以上时,即相当于把整体票据图片的识别精度提高到了90%以上。
211、获取与目标票据类型匹配的预设数据拼接规则。
其中,预设数据拼接规则对应将各个票据碎片识别出的第一识别信息整合的数据排版方式,例如,可预先为各个票据碎片配置编号,按照各个票据碎片的编号进行第一识别信息的罗列组合;可通过创建索引的方式来实现数据拼接;还可按照各个票据碎片对应第一识别信息的输出完成速度确定数据拼接顺序等。具体拼接方式可根据展示需求预先进行设定。
212、依据预设数据展示要求对各个第一识别信息进行有效性检测。
对于本实施例,在具体的应用场景中,为了保证识别出的票据信息准确有效,故在利用票据碎片获取得到各个第一识别信息后,需要进行数据的有效性检测,判定识别出的数据是否符合预设数据展示要求,其中,预设数据展示要求可包括数据展示位置、数据展示排版、数据展示格式,以及字段是否完整,是否存在乱码等多个检测项,在进行有效性检测时,可针对预设数据展示要求中的各项标准,依次对第一识别信息进行检测,当确定第一识别信息均符合预设数据展示要求中的各项标准时,则可判定其通过有效性检测;当确定第一识别信息存在不符合预设数据展示要求中的某项标准时,则可判定其未通过有效性检测,进而可输出未通过检测对应的提示信息,起到识别过程异常提醒的作用。
213、若基于检测结果,判定各个票据碎片均识别完成,则按照预设数据拼接规则将各个第一识别信息进行数据整合,获取得到第二识别信息。
其中,第二识别信息对应目标票据图片的最终识别结果。
对于本实施例,若检测第一识别信息为完整的数据文本,数据排版与设定预期相符,且不存在数据乱码情况,则可判定当前第一识别信息的数据完整,在判定由各个票据碎片识别出的第一识别信息均符合标准后,则按照预设数据拼接规则将各个第一识别信息进行数据整合,获取得到整张票据对应的结构化数据,即对应第二识别信息。
214、输出第二识别信息。
对于本实施例,在具体的应用场景中,在对所有票据碎片对应的识别信息进行整合后,将整合后的第二识别信息反馈发送到对应的请求端。
通过上述票据识别的方法,在获取得到待识别的票据信息后,需要预先对目标票据图片进行拍照加强处理,使其参数信息符合图像识别要求;通过将目标票据图片与各个票据样本图片进行版面相似度匹配,可进一步确定出对应的目标票据类型,基于目标票据类型对应的图片切割规则以及碎片命名规则将目标票据图片切割成多个不同模块的票据碎片并进行属性标识的配置;利用配置的属性标识选取出对应该票据碎片模块识别精度最高的目标OCR技术供应商,利用目标OCR技术供应商对该票据碎片进行识别,其中,不同票据碎片对应筛选出的目标OCR技术供应商可相同也可不同,均对应该票据碎片模块最高的识别能力。通过不同的OCR技术供应商的自动识别能力进行优势互补,提升自动识别的能力的同时,还能提升客户满意度,降低识别录入成本。另外,在本申请中,为了满足用户的个性化选取,在选取各个目标OCR技术供应商前,可接收用户的选取指令,通过预先基于各个OCR技术供应商对应的预设标识筛选出与各个票据碎片属性标识对应的备选OCR技术供应商,并按照识别精度备选OCR技术供应商配置选用优先级,根据选用优先级的顺序创建各个票据碎片对应备选OCR技术供应商的选用列表,进而可执行用户在该选用列表中的选取操作,当确定在预设时长内未接收到对备选OCR技术供应商的选取指令时,系统可自动将选用列表中首个备选OCR技术供应商确定为目标OCR技术供应商,进而能够保证筛选出的各个票据碎片对应的OCR技术供应商识别效果最优。此外,通过OCR前置引擎将票据影像切割成碎片的方式,任何OCR厂商理论上都无法拿到完整的个人隐私票据信息,故还能够有效保证票据碎片的安全性。
在具体的应用场景中,票据识别的整体工作流程图如图3所示,以商保领域为例,OCR检测平台可利用商保平台获取各家社商平台的票据信息,通过云端部署OCR前置引擎对票据信息进行处理。其中,云端部署OCR前置引擎服务主要包含模板训练识别和图像切割两个核心功能;OCR前置引擎用于对票据信息进行影像识别、文字识别、图像切割等数据处理,将各个目标票据图片切割成多个票据碎片。OCR检测平台会将票据碎片分配到对应的OCR技术供应商进行识别,获取识别结果,整合完成后通过社商平台反馈给目标票据图片对应的客户平台,进而完成票据识别工作。
相应的,OCR检测平台建设功能如图4所示,可包含票据存储管理、医疗票据管理,供应商管理,服务商管理,统计管理,费用结算管理,智能录入管理、社商管理对接等功能。OCR平台在集成各个OCR技术供应商时,可通过OCR平台一端的接口对接所有的OCR厂商,接口遵循restful规范。OCR平台的paas层除了包括服务注册系统、UGP、配置中心系统、第一用户UM、ULP模型调用、报表平台等公用功能组件外,还包括分布式job、OCR前置引擎、拍照加强工具等特定功能组件。分布式job用于依据创建的定时任务,实现对票据信息识别请求的有序管理。
进一步的,作为图1和图2所示方法的具体体现,本申请实施例提供了一种票据识别的装置,如图5所示,该装置包括:获取模块31、切割模块32、筛选模块33、识别模块34、整合输出模块35。
获取模块31,用于获取待识别的票据信息;
切割模块32,用于对票据信息中的目标票据图片进行预处理,并将目标票据图片切割成多个携带有不同属性标识的票据碎片;
筛选模块33,用于根据票据碎片的属性标识筛选目标OCR技术供应商;
识别模块34,用于利用目标OCR技术供应商识别对应的票据碎片;
整合输出模块35,用于整合输出各个目标OCR技术供应商的识别结果。
在具体的应用场景中,为了将目标票据图片切割成多个携带有不同属性标识的票据碎片,如图6所示,切割模块32,具体包括:处理单元321、识别单元322、切割单元323、配置单元324。
处理单元321,用于利用拍照加强工具处理目标票据图片,以使目标票据图片的参数信息符合预设标准;
识别单元322,用于识别目标票据图片对应的目标票据类型;
切割单元323,用于获取与目标票据类型匹配的图片切割规则,并依据图片切割规则将目标票据图片切割成多个票据碎片;
配置单元324,用于按照碎片命名规则分别为各个票据碎片配置唯一对应的属性标识。
相应的,为了识别出目标票据图片对应的目标票据类型,识别单元322,具体用于获取预先创建的各个票据类型对应的票据样本图片;将目标票据图片与各个票据样本图片进行版面相似度匹配;将相似度最高的票据样本图片对应的票据类型确定为目标票据类型。
在具体的应用场景中,为了根据票据碎片的属性标识筛选出目标OCR技术供应商,如图6所示,筛选模块33,具体包括:获取单元331、筛选单元332、确定单元333。
获取单元331,用于获取各个OCR技术供应商对应的预设标识,预设标识对应OCR技术供应商最擅长识别的票据属性模块;
筛选单元332,用于从预设标识中筛选出与票据碎片对应属性标识相同的目标预设标识;
确定单元333,用于将目标预设标识对应的OCR技术供应商确定为备选OCR技术供应商;
筛选单元332,还用于从备选OCR技术供应商中筛选出各个票据碎片对应的目标OCR技术供应商。
相应的,为了从备选OCR技术供应商中筛选出各个票据碎片对应的目标OCR技术供应商,筛选单元332,具体用于获取各个备选OCR技术供应商对应匹配的目标票据碎片以及识别精度;按照识别精度大小为目标票据碎片对应的备选OCR技术供应商配置选用优先级;根据选用优先级的顺序创建各个票据碎片对应备选OCR技术供应商的选用列表;接收对选用列表中备选OCR技术供应商的选取指令,并将选取出的备选OCR技术供应商确定为目标OCR技术供应商;若在预设时长内未接收到对备选OCR技术供应商的选取指令,则将选用列表中首个备选OCR技术供应商确定为目标OCR技术供应商。
在具体的应用场景中,为了利用目标OCR技术供应商识别对应的票据碎片,识别模块34,具体用于将各个票据碎片分别上传到对应筛选出的目标OCR技术供应商中,获取得到第一识别信息,第一识别信息对应各个目标OCR技术供应商对票据碎片的识别结果。
相应的,为了实现对目标票据图片结果的整合输出,如图6所示,整合输出模块35,具体包括:获取单元351、检测单元352、整合单元353、输出单元354。
获取单元351,用于获取与目标票据类型匹配的预设数据拼接规则;
检测单元352,用于依据预设数据展示要求对各个第一识别信息进行有效性检测;
整合单元353,用于若基于检测结果,判定各个票据碎片均识别完成,则按照预设数据拼接规则将各个第一识别信息进行数据整合,获取得到第二识别信息,第二识别信息对应目标票据图片的最终识别结果;
输出单元354,用于输出第二识别信息。
需要说明的是,本实施例提供的一种票据识别的装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的票据识别的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图5、图6所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的票据识别的方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是用于票据识别的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可在获取得到待识别的票据信息后,对目标票据图片进行拍照加强处理,使其参数信息符合图像识别要求;通过将目标票据图片与各个票据样本图片进行版面相似度匹配,进一步确定出对应的目标票据类型,基于目标票据类型对应的图片切割规则以及碎片命名规则将目标票据图片切割成多个不同模块的票据碎片并进行属性标识的配置;利用配置的属性标识选取出对应该票据碎片模块识别精度最高的目标OCR技术供应商,利用目标OCR技术供应商对该票据碎片进行识别,其中,不同票据碎片对应筛选出的目标OCR技术供应商可相同也可不同,均对应该票据碎片模块最高的识别能力。通过不同的OCR技术供应商的自动识别能力进行优势互补,提升自动识别的能力的同时,还能提升客户满意度,降低识别录入成本。另外,在本申请中,为了满足用户的个性化选取,在选取各个目标OCR技术供应商前,可接收用户的选取指令,通过预先基于各个OCR技术供应商对应的预设标识筛选出与各个票据碎片属性标识对应的备选OCR技术供应商,并按照识别精度备选OCR技术供应商配置选用优先级,根据选用优先级的顺序创建各个票据碎片对应备选OCR技术供应商的选用列表,进而可执行用户在该选用列表中的选取操作,当确定在预设时长内未接收到对备选OCR技术供应商的选取指令时,系统可自动将选用列表中首个备选OCR技术供应商确定为目标OCR技术供应商,进而能够保证筛选出的各个票据碎片对应的OCR技术供应商识别效果最优。此外,通过OCR前置引擎将票据影像切割成碎片的方式,任何OCR厂商理论上都无法拿到完整的个人隐私票据信息,故还能够有效保证票据碎片的安全性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种票据识别的方法,其特征在于,包括:
获取待识别的票据信息;
对所述票据信息中的目标票据图片进行预处理,并将所述目标票据图片切割成多个携带有不同属性标识的票据碎片;
根据所述票据碎片的属性标识筛选目标OCR技术供应商;
利用所述目标OCR技术供应商识别对应的所述票据碎片;
整合输出各个所述目标OCR技术供应商的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述票据信息中的目标票据图片进行预处理,并将所述目标票据图片切割成多个携带有不同属性标识的票据碎片,具体包括:
利用拍照加强工具处理目标票据图片,以使所述目标票据图片的参数信息符合预设标准;
识别所述目标票据图片对应的目标票据类型;
获取与所述目标票据类型匹配的图片切割规则,并依据所述图片切割规则将所述目标票据图片切割成多个票据碎片;
按照碎片命名规则分别为各个所述票据碎片配置唯一对应的属性标识。
3.根据权利要求2所述的方法,其特征在于,所述识别所述目标票据图片对应的目标票据类型,具体包括:
获取预先创建的各个票据类型对应的票据样本图片;
将目标票据图片与各个所述票据样本图片进行版面相似度匹配;
将相似度最高的票据样本图片对应的票据类型确定为所述目标票据类型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述票据碎片的属性标识筛选目标OCR技术供应商,具体包括:
获取各个OCR技术供应商对应的预设标识,所述预设标识对应OCR技术供应商最擅长识别的票据属性模块;
从所述预设标识中筛选出与票据碎片对应属性标识相同的目标预设标识;
将所述目标预设标识对应的OCR技术供应商确定为备选OCR技术供应商;
从所述备选OCR技术供应商中筛选出各个所述票据碎片对应的目标OCR技术供应商。
5.根据权利要求4所述的方法,其特征在于,所述从所述备选OCR技术供应商中筛选出各个所述票据碎片对应的目标OCR技术供应商,具体包括:
获取各个所述备选OCR技术供应商对应匹配的目标票据碎片以及识别精度;
按照所述识别精度大小为所述目标票据碎片对应的所述备选OCR技术供应商配置选用优先级;
根据所述选用优先级的顺序创建各个票据碎片对应备选OCR技术供应商的选用列表;
接收对所述选用列表中所述备选OCR技术供应商的选取指令,并将选取出的所述备选OCR技术供应商确定为所述目标OCR技术供应商;
若在预设时长内未接收到对所述备选OCR技术供应商的选取指令,则将所述选用列表中首个备选OCR技术供应商确定为所述目标OCR技术供应商。
6.根据权利要求5所述的方法,其特征在于,所述利用所述目标OCR技术供应商识别对应的所述票据碎片,具体包括:
将各个所述票据碎片分别上传到对应筛选出的所述目标OCR技术供应商中,获取得到第一识别信息,所述第一识别信息对应各个所述目标OCR技术供应商对所述票据碎片的识别结果。
7.根据权利要求6所述的方法,其特征在于,所述整合输出各个所述目标OCR技术供应商的识别结果,具体包括:
获取与所述目标票据类型匹配的预设数据拼接规则;
依据预设数据展示要求对各个所述第一识别信息进行有效性检测;
若基于检测结果,判定各个所述票据碎片均识别完成,则按照所述预设数据拼接规则将各个所述第一识别信息进行数据整合,获取得到第二识别信息,所述第二识别信息对应所述目标票据图片的最终识别结果;
输出所述第二识别信息。
8.一种票据识别的装置,其特征在于,包括:
获取模块,用于获取待识别的票据信息;
切割模块,用于对所述票据信息中的目标票据图片进行预处理,并将所述目标票据图片切割成多个携带有不同属性标识的票据碎片;
筛选模块,用于根据所述票据碎片的属性标识筛选目标OCR技术供应商;
识别模块,用于利用所述目标OCR技术供应商识别对应的所述票据碎片;
整合输出模块,用于整合输出各个所述目标OCR技术供应商的识别结果。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现权利要求1至7中任一项的票据识别的方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现权利要求1至7中任一项的票据识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038191.6A CN111259882B (zh) | 2020-01-14 | 2020-01-14 | 票据识别的方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038191.6A CN111259882B (zh) | 2020-01-14 | 2020-01-14 | 票据识别的方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259882A true CN111259882A (zh) | 2020-06-09 |
CN111259882B CN111259882B (zh) | 2023-12-26 |
Family
ID=70946893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010038191.6A Active CN111259882B (zh) | 2020-01-14 | 2020-01-14 | 票据识别的方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259882B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215159A (zh) * | 2020-10-13 | 2021-01-12 | 苏州工业园区报关有限公司 | 一种基于ocr和人工智能技术的国际贸易单证拆分系统 |
CN112348022A (zh) * | 2020-10-28 | 2021-02-09 | 富邦华一银行有限公司 | 一种基于深度学习的自由格式文档识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249936A1 (en) * | 2007-04-04 | 2008-10-09 | Devin Miller | Bill paying systems and associated methods |
CN107437085A (zh) * | 2017-08-09 | 2017-12-05 | 厦门商集企业咨询有限责任公司 | 一种提升ocr识别率的方法、装置及可读存储介质 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108960058A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 发票校验方法、装置、计算机设备及存储介质 |
CN109977723A (zh) * | 2017-12-22 | 2019-07-05 | 苏宁云商集团股份有限公司 | 大票据图片文字识别方法 |
-
2020
- 2020-01-14 CN CN202010038191.6A patent/CN111259882B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249936A1 (en) * | 2007-04-04 | 2008-10-09 | Devin Miller | Bill paying systems and associated methods |
CN107437085A (zh) * | 2017-08-09 | 2017-12-05 | 厦门商集企业咨询有限责任公司 | 一种提升ocr识别率的方法、装置及可读存储介质 |
CN109977723A (zh) * | 2017-12-22 | 2019-07-05 | 苏宁云商集团股份有限公司 | 大票据图片文字识别方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108960058A (zh) * | 2018-05-31 | 2018-12-07 | 平安科技(深圳)有限公司 | 发票校验方法、装置、计算机设备及存储介质 |
WO2019227576A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 发票校验方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
袁庄山;: "票据影像交换中支票号码自动识别系统的设计与实现", 中国金融电脑, no. 06 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215159A (zh) * | 2020-10-13 | 2021-01-12 | 苏州工业园区报关有限公司 | 一种基于ocr和人工智能技术的国际贸易单证拆分系统 |
CN112348022A (zh) * | 2020-10-28 | 2021-02-09 | 富邦华一银行有限公司 | 一种基于深度学习的自由格式文档识别方法 |
CN112348022B (zh) * | 2020-10-28 | 2024-05-07 | 富邦华一银行有限公司 | 一种基于深度学习的自由格式文档识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111259882B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11600090B2 (en) | Image processing apparatus, control method therefor, and storage medium | |
CN109858453B (zh) | 一种通用的多引擎票据识别系统及方法 | |
US10977845B2 (en) | Image processing apparatus and control method | |
EP2639713B1 (en) | Document management systems and methods | |
CN110956269B (zh) | 数据模型的生成方法、装置、设备以及计算机存储介质 | |
CN109388319B (zh) | 一种截图方法、截图装置、存储介质及终端设备 | |
CN107291949B (zh) | 信息搜索方法及装置 | |
CN102622592A (zh) | 一种基于云技术的名片识别方法 | |
US10142499B2 (en) | Document distribution system, document distribution apparatus, information processing method, and storage medium | |
EP3232335B1 (en) | Method and device for providing authentication information on web page | |
CN111259882A (zh) | 票据识别的方法、装置及计算机设备 | |
US8922828B2 (en) | Determining scan priority of documents | |
CN110019916A (zh) | 基于用户画像的事件处理方法、装置、设备和存储介质 | |
US9742953B2 (en) | Document management system, document management method, an image forming apparatus, an analysis server and storage medium | |
CN109214362A (zh) | 单据处理方法及相关设备 | |
US20070143660A1 (en) | System and method for indexing image-based information | |
JP2014175978A (ja) | 情報処理装置、その制御方法及びプログラム | |
US8918406B2 (en) | Intelligent analysis queue construction | |
US20190155873A1 (en) | Document processing apparatus and non-transitory computer readable medium storing program | |
CN114040012B (zh) | 一种信息查询推送方法、装置及计算机设备 | |
US20180293289A1 (en) | Biometric data brokerage system and method for transfer of biometric records between biometric collection devices and biometric processing services | |
JP2020149113A (ja) | 学習情報製造装置、情報処理装置、学習情報の製造方法、情報処理方法、およびプログラム | |
CN115019325A (zh) | 一种基于图像识别的业务处理方法及装置、存储介质 | |
CN114626950A (zh) | 保险理赔信息的录入方法、装置、计算机设备及存储介质 | |
CN110119743B (zh) | 一种图片识别方法、服务器及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |