CN111275037B - 票据识别方法及装置 - Google Patents

票据识别方法及装置 Download PDF

Info

Publication number
CN111275037B
CN111275037B CN202010024222.2A CN202010024222A CN111275037B CN 111275037 B CN111275037 B CN 111275037B CN 202010024222 A CN202010024222 A CN 202010024222A CN 111275037 B CN111275037 B CN 111275037B
Authority
CN
China
Prior art keywords
bill
template
information
text content
extraction rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010024222.2A
Other languages
English (en)
Other versions
CN111275037A (zh
Inventor
孙运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhida Education Technology Co ltd
Original Assignee
Shanghai Zhida Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhida Education Technology Co ltd filed Critical Shanghai Zhida Education Technology Co ltd
Priority to CN202010024222.2A priority Critical patent/CN111275037B/zh
Publication of CN111275037A publication Critical patent/CN111275037A/zh
Application granted granted Critical
Publication of CN111275037B publication Critical patent/CN111275037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Abstract

本申请公开了一种票据识别方法及装置、电子设备及可读存储介质。该方法包括:识别票据图片中的文本内容;根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则;根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果。本申请解决了相关技术中的票据识别方法由于无法从多种类型的票据中提取出同一种结构化数据导致票据识别效率不高的技术问题。通过本申请,达到了从多种类型的票据中提取出同一种结构化数据的目的,从而获得了提高票据识别效率以及便于后期票据数据统计分析的技术效果。

Description

票据识别方法及装置
技术领域
本申请涉及图像识别技术领域,具体而言,涉及一种票据识别方法及装置、电子设备及可读存储介质。
背景技术
纸质票据和电子票据是目前票据的两种主要形式,为了对票据进行有效管理,现有的电子科学技术中提供了票据自动识别技术,可以将票据的内容从图片识别成文字并且将文本信息结构化。这些票据识别方法中多数是在票据本身的图片位置上进行描点,将相应描点位置的数据提取出来,再做相应的数据结构化处理。这种识别方法要求图片必须是规整的扫描件,才能够正确的识别描点位置,当票据的部分内容随机出现或不出现的情况则无法进行处理。同时,对于多种不同类型的票据,若要提取出同一种结构化的数据在目前的识别方法中也是很难做到的。
发明人发现,现有技术中的票据识别方法至少存在如下问题:对图片描点位置和规整度的依赖度较高,缺少单独将文本信息处理成结构化票据的能力,并且无法从不同样式的票据类型中提取出同一种结构化数据。
针对相关技术中的票据识别方法由于无法从多种类型的票据中提取出同一种结构化数据导致票据识别效率不高的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种票据识别方法及装置、电子设备及可读存储介质,以解决相关技术中的票据识别方法由于无法从多种类型的票据中提取出同一种结构化数据导致票据识别效率不高的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种票据识别方法。
根据本申请的票据识别方法包括:识别票据图片中的文本内容;根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则;根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果。
进一步地,所述识别票据图片中的文本内容包括:如果票据为纸质票据,则对所述纸质票据进行拍照或扫描,以得到所述票据图片。
进一步地,所述识别票据图片中的文本内容之后包括:提取所述文本内容中的关键信息,其中所述关键信息是指用于表征票据类型的信息;将所述文本内容中的关键信息与所述票据模板数据库中的票据模板进行匹配,以得到票据匹配模板;根据所述票据匹配模板及所述票据匹配模板对应的提取规则对所述文本内容中的票据信息进行提取。
进一步地,所述根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则之前包括:根据票据类型配置所述票据模板,其中所述票据模板包括票据模板的标识信息;根据所述票据模板配置所述提取规则,其中所述提取规则包括票据头信息提取规则、票据明细提取规则以及票据折扣提取规则中的任意一种或者多种。
进一步地,所述根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果包括:根据所述提取规则提取所述文本识别结果中的票据头部信息、票据明细以及票据折扣信息中的任意一种或多种;根据提取出的所述票据头部信息、所述票据明细以及所述票据折扣信息生成结构化的所述票据识别结果并进行存储。
为了实现上述目的,根据本申请的第二方面,提供了一种票据识别装置。
根据本申请的票据识别装置包括:识别模块,用于识别票据图片中的文本内容;第一匹配模块,用于根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则;第一提取模块,用于根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果。
进一步地,所述装置还包括:第二提取模块,用于提取所述文本内容中的关键信息,其中所述关键信息是指用于表征票据类型的信息;第二匹配模块,用于将所述文本内容中的关键信息与所述票据模板数据库中的票据模板进行匹配,以得到票据匹配模板;第三提取模块,用于根据所述票据匹配模板及所述票据匹配模板对应的提取规则对所述文本内容中的票据信息进行提取。
进一步地,所述装置还包括:第一配置模块,用于根据票据类型配置所述票据模板,其中所述票据模板包括票据模板的标识信息;第二配置模块,用于根据所述票据模板配置所述提取规则,其中所述提取规则包括票据头信息提取规则、票据明细提取规则以及票据折扣提取规则中的任意一种或者多种。
为了实现上述目的,根据本申请的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
为了实现上述目的,根据本申请的第四方面,提供了一种非暂态可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如前任一项所述方法的步骤。
在本申请实施例中,采用识别票据图片中的文本内容;根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则的方式,通过根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果,达到了从多种类型的票据中提取出同一种结构化数据的目的,从而提高了票据识别效率的技术效果,进而解决了相关技术中的票据识别方法由于无法从多种类型的票据中提取出同一种结构化数据导致票据识别效率不高的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的票据识别方法的流程示意图;
图2是根据本申请第二实施例的票据识别方法的流程示意图;
图3是根据本申请第三实施例的票据识别方法的流程示意图;
图4是根据本申请第四实施例的票据识别方法的流程示意图;
图5是根据本申请实施例的票据识别装置的组成结构示意图;以及
图6是根据本申请实施例的电子设备的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种票据识别方法,如图1所示,该方法包括如下的步骤S101至步骤S103:
步骤S101,识别票据图片中的文本内容。
具体实施时,首先需要获取票据图片信息,票据按照载体的不同可以包括纸质票据和电子票据,对于纸质票据可以通过拍摄或者扫描的方式获取票据图片,之后利用OCR(光学字符识别,Optical Character Recognition)光学识别技术对票据图片中的文本信息进行识别,OCR是指对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程,OCR技术为本领域技术人员的公知技术,在此不做赘述。
步骤S102,根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则。
具体实施时,可以事先构建票据模板数据库,用于存储不同类型的票据模板。日常工作生活中较为常见的票据种类就是发票以及交易小票,发票具体包括增值税发票和普通发票,具体的应用场景不同导致发票的内容也不尽相同,因此需要针对不同类型的票据构建不同的票据模板,同时由于不同票据的具体内容不同,导致相应内容的提取规则也不同,因此同样需要针对不同的票据模板配置相应的文本提取规则,将配置好的票据模板及相应的提取规则存储在上述票据模板数据库中,以供后续票据模板和提取规则的调用。
将上述通过OCR技术识别到的票据文本内容在上述构建好的票据模板数据库中进行检索匹配,获得该票据文本内容与票据模版的相似度,定位到相似度最高的票据模版,进而得到与该文本内容相匹配的票据模板和对应的文本提取规则。
步骤S103,根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果。
具体实施时,在确定了票据模板和相应的文本提取规则后,按照该票据模板的格式和提取规则对文本内容中的票据信息进行提取,由于票据模板的事先配置,可以保证按照该模板和相应的提取规则提取出的票据信息符合统一的结构化要求,进而得到一致的结构化票据识别结果,便于后期数据统计分析。通过上述过程,能够按照事先配置的票据模板和提取规则对各种类型的票据中的信息进行快速、统一的提取,提高了票据的识别效率同时也方便后续对票据数据的统计和管理。
作为本申请实施例的一种优选实施方式,所述识别票据图片中的文本内容包括如下的步骤:
如果票据为纸质票据,则对所述纸质票据进行拍照或扫描,以得到所述票据图片。
具体实施时,票据可以包括纸质票据,当票据为纸质票据时,可以通过拍照或者扫描的方式将纸质票据转化为票据图片。
作为本申请实施例的一种优选实施方式,如图2所示,所述识别票据图片中的文本内容之后包括如下的步骤S201至步骤S203:
步骤S201,提取所述文本内容中的关键信息,其中所述关键信息是指用于表征票据类型的信息。
具体实施时,在通过OCR识别技术得到票据中的文本内容后,需要将文本内容中表征了票据类型的信息作为关键信息提取出来,所述关键信息可以包括票据的标题信息,例如对于发票类的票据,其票据内容可以包括票头、字轨号码、联次及用途、客户名称、银行开户账号、商(产)品名称或经营项目、计量单位、数量、单价、金额,以及大小写金额、经手人、单位印章、开票日期等。实行增值税的单位所使用的增值税专用发票还应有税种、税率、税额等内容。发票的票据标题通常为“XX市增值税普通发票”或“XX市增值税专用发票”,因此可以通过票据标题初步识别出该票据的类型。对于购物等交易小票类票据,其票据内容具体可以包括品牌信息、地址信息、电话信息、店铺信息、特殊文字信息等内容。
步骤S202,将所述文本内容中的关键信息与所述票据模板数据库中的票据模板进行匹配,以得到票据匹配模板。
具体实施时,在提取出文本内容中的关键信息后,需要根据该标识信息在上述模板数据库中进行检索匹配,进而根据该标识确定应该调用的票据模板和对应的文本提取规则。
步骤S203,根据所述票据匹配模板及所述票据匹配模板对应的提取规则对所述文本内容中的票据信息进行提取。
具体实施时,在得到了与当前的文本内容相匹配的票据模板和提取规则之后,根据该票据模板的数据格式和数据提取规则对文本内容中的票据信息进行提取。
作为本申请实施例的一种优选实施方式,如图3所示,所述根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则之前包括如下的步骤S301至步骤S302:
步骤S301,根据票据类型配置所述票据模板,其中所述票据模板包括票据模板的标识信息。
具体实施时,由于不同类型的票据的具体内容不同,因此需要针对不同类型的票据配置不同的票据模板,票据模板中包括票据的标识信息,例如,对于购物小票类票据,所述标识信息具体可以包括品牌标识、地址标识、电话标识、店铺标识、特殊文字信息等,因此可以将这些信息作为该类票据模板的标识信息。
步骤S302,根据所述票据模板配置所述提取规则,其中所述提取规则包括票据头信息提取规则、票据明细提取规则以及票据折扣提取规则中的任意一种或者多种。
具体实施时,针对不同类型的票据,需要提取和统计的票据内容也不同,因此在按照不同票据类型配置相应的票据模板后,需要根据该配置模板确定模板中票据信息的提取规则,在具体的应用场景下,所述提取规则可以包括票据头信息的提取规则、票据明细的提取规则以及票据折扣的提取。所述票据头信息包括票据的创建时间、流水号和总金额等信息。所述票据明细的提取规用于在文本信息中定位该票据所具备的明细起止信息,包括明细信息所含字段以及字段类型。所述票据折扣信息可以包含整单折扣信息和明细折扣信息等。
作为本申请实施例的一种优选实施方式,如图4所示,所述根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果包括如下的步骤S401至步骤S402:
步骤S401,根据所述提取规则提取所述文本识别结果中的票据头部信息、票据明细以及票据折扣信息中的任意一种或多种。
具体实施时,在具体的应用场景下,上述文本识别结果中可以包括票据头部信息、票据明细以及票据折扣信息,如前所述,所述票据头信息包括票据的创建时间、流水号和总金额等信息。所述票据明细的提取规用于在文本信息中定位该票据所具备的明细起止信息,包括明细信息所含字段以及字段类型。所述票据折扣信息可以包含整单折扣信息和明细折扣信息等。由于不同信息的字段格式和类型不尽相同,因此需要配置不同的提取规则分别进行上述内容的提取。
步骤S402,根据提取出的所述票据头部信息、所述票据明细以及所述票据折扣信息生成结构化的所述票据识别结果并进行存储。
具体实施时,将按照票据模板提取出的票据头部信息、所述票据明细以及所述票据折扣信息进行整合后生成最终的结构化的票据识别结果,并将该识别结果存储到数据库中进行后续统计分析处理。
从以上的描述中,可以看出,本发明实现了如下技术效果:采用识别票据图片中的文本内容;根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则的方式,通过根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果,达到了从多种类型的票据中提取出同一种结构化数据的目的,从而提高了票据识别效率的技术效果,进而解决了相关技术中的票据识别方法由于无法从多种类型的票据中提取出同一种结构化数据导致票据识别效率不高的技术问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述票据识别方法的装置,如图5所示,该装置包括:识别模块1、第一匹配模块2和第一提取模块3。本申请实施例的识别模块1,用于识别票据图片中的文本内容;本申请实施例的第一匹配模块2,用于根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则;本申请实施例的第一提取模块3,用于根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果。
作为本申请实施例的一种优选实施方式,所述装置还包括:第二提取模块,用于提取所述文本内容中的关键信息,其中所述关键信息是指用于表征票据类型的信息;第二匹配模块,用于将所述文本内容中的关键信息与所述票据模板数据库中的票据模板进行匹配,以得到票据匹配模板;第三提取模块,用于根据所述票据匹配模板及所述票据匹配模板对应的提取规则对所述文本内容中的票据信息进行提取。
作为本申请实施例的一种优选实施方式,所述装置还包括:第一配置模块,用于根据票据类型配置所述票据模板,其中所述票据模板包括票据模板的标识信息;第二配置模块,用于根据所述票据模板配置所述提取规则,其中所述提取规则包括票据头信息提取规则、票据明细提取规则以及票据折扣提取规则中的任意一种或者多种。
作为本申请实施例的一种优选实施方式,所述第一提取模块包括:提取单元,用于根据所述提取规则提取所述文本识别结果中的票据头部信息、票据明细以及票据折扣信息中的任意一种或多种;生成单元,用于根据提取出的所述票据头部信息、所述票据明细以及所述票据折扣信息生成结构化的所述票据识别结果并进行存储。
根据本发明实施例,还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
根据本发明实施例,还提供了一种非暂态可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如前任一项所述方法的步骤。
上述各模块及各单元之间的具体连接关系及所发挥的功能请参照方法部分的具体描述,在此不做赘述。
根据本发明实施例,还提供了一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的方法。
根据本发明实施例,还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如前所述方法的步骤。
如图6所示,该电子设备包括一个或多个处理器31以及存储器32,图6中以一个处理器31为例。
控制单元还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的票据识别方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
一个或者多个模块存储在存储器32中,当被一个或者多个处理器31执行时,执行如前所述的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机指令用于使所述计算机执行上述票据识别方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后,本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种票据识别方法,其特征在于,包括:
识别票据图片中的文本内容;提取所述文本内容中的关键信息,将所述文本内容中的关键信息与票据模板数据库中的票据模板进行匹配,以得到票据匹配模板;
根据票据匹配模板及所述票据匹配模板对应的提取规则对所述文本内容中的票据信息进行提取;
根据票据类型配置所述票据模板,其中所述票据模板包括票据模板的标识信息;
根据所述票据模板配置所述提取规则,其中所述提取规则包括票据头信息提取规则、票据明细提取规则以及票据折扣提取规则中的任意一种或者多种;
根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则;
根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果。
2.根据权利要求1所述的票据识别方法,其特征在于,所述识别票据图片中的文本内容包括:
如果票据为纸质票据,则对所述纸质票据进行拍照或扫描,以得到所述票据图片。
3.根据权利要求1所述的票据识别方法,其特征在于,所述根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果包括:
根据所述提取规则提取所述文本识别结果中的票据头部信息、票据明细以及票据折扣信息中的任意一种或多种;
根据提取出的所述票据头部信息、所述票据明细以及所述票据折扣信息生成结构化的所述票据识别结果并进行存储。
4.一种票据识别装置,其特征在于,包括:
识别模块,用于识别票据图片中的文本内容;提取所述文本内容中的关键信息,将所述文本内容中的关键信息与票据模板数据库中的票据模板进行匹配,以得到票据匹配模板;
第一匹配模块,用于根据所述文本内容在票据模板数据库中匹配票据模板,并根据所述票据模板确定提取规则;
第一提取模块,用于根据所述票据模板和所述提取规则对所述文本内容中的票据信息进行提取,以得到结构化的票据识别结果;
第二提取模块,用于提取所述文本内容中的关键信息,其中所述关键信息是指用于表征票据类型的信息;
第二匹配模块,用于将所述文本内容中的关键信息与所述票据模板数据库中的票据模板进行匹配,以得到票据匹配模板;
第三提取模块,用于根据所述票据匹配模板及所述票据匹配模板对应的提取规则对所述文本内容中的票据信息进行提取;
第一配置模块,用于根据票据类型配置所述票据模板,其中所述票据模板包括票据模板的标识信息;
第二配置模块,用于根据所述票据模板配置所述提取规则,其中所述提取规则包括票据头信息提取规则、票据明细提取规则以及票据折扣提取规则中的任意一种或者多种。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至3中任一项所述的方法。
6.一种非暂态可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如权利要求1至3中任一项所述方法的步骤。
CN202010024222.2A 2020-01-09 2020-01-09 票据识别方法及装置 Active CN111275037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010024222.2A CN111275037B (zh) 2020-01-09 2020-01-09 票据识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010024222.2A CN111275037B (zh) 2020-01-09 2020-01-09 票据识别方法及装置

Publications (2)

Publication Number Publication Date
CN111275037A CN111275037A (zh) 2020-06-12
CN111275037B true CN111275037B (zh) 2021-06-08

Family

ID=71001598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010024222.2A Active CN111275037B (zh) 2020-01-09 2020-01-09 票据识别方法及装置

Country Status (1)

Country Link
CN (1) CN111275037B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307750A (zh) * 2020-10-28 2021-02-02 汇承金融科技服务(南京)有限公司 电子汇票瑕疵识别方法、系统、设备及存储介质
CN112800848A (zh) * 2020-12-31 2021-05-14 中电金信软件有限公司 票据识别后信息结构化提取方法、装置和设备
CN112784829A (zh) * 2021-01-21 2021-05-11 北京百度网讯科技有限公司 一种票据信息的提取方法、装置、电子设备及存储介质
CN113233069B (zh) * 2021-05-27 2023-02-10 海尔卡奥斯物联科技有限公司 智能仓储出库控制方法、装置、电子设备、及存储介质
CN113343663A (zh) * 2021-06-29 2021-09-03 广州智选网络科技有限公司 一种票据结构化方法及装置
CN113762100B (zh) * 2021-08-19 2024-02-09 杭州米数科技有限公司 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1956518A1 (en) * 2007-02-07 2008-08-13 WinBooks s.a. Computer assisted method for processing accounting operations and software product for implementing such method
CN204576535U (zh) * 2014-12-22 2015-08-19 深圳中兴网信科技有限公司 一种票据识别装置
CN107516370A (zh) * 2017-08-25 2017-12-26 四川长虹电器股份有限公司 一种票据识别的自动化测试及评价方法
CN108806059A (zh) * 2018-05-08 2018-11-13 中山大学 基于特征点的票据对齐和八邻域连通体偏移修正的文本区域定位方法
CN108960223A (zh) * 2018-05-18 2018-12-07 北京大账房网络科技股份有限公司 基于票据智能识别自动生成凭证的方法
CN109636557A (zh) * 2018-12-11 2019-04-16 厦门商集网络科技有限责任公司 一种基于票据识别的智能分类记账方法及设备
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置
CN110032990A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种发票文本识别方法、系统及相关组件
CN110163734A (zh) * 2019-03-20 2019-08-23 金明 票据扫描直接生成凭证的系统与方法
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457973A (zh) * 2018-05-07 2019-11-15 北京中海汇银财税服务有限公司 一种票据识别的方法及系统
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN109887153B (zh) * 2019-02-03 2021-08-24 国信电子票据平台信息服务有限公司 一种财税处理方法和处理系统
CN109872444B (zh) * 2019-02-27 2021-03-09 杭州睿琪软件有限公司 一种票据识别方法及装置
CN110427853B (zh) * 2019-07-24 2022-11-01 北京一诺前景财税科技有限公司 一种智能票据信息提取处理的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1956518A1 (en) * 2007-02-07 2008-08-13 WinBooks s.a. Computer assisted method for processing accounting operations and software product for implementing such method
CN204576535U (zh) * 2014-12-22 2015-08-19 深圳中兴网信科技有限公司 一种票据识别装置
CN107516370A (zh) * 2017-08-25 2017-12-26 四川长虹电器股份有限公司 一种票据识别的自动化测试及评价方法
CN108806059A (zh) * 2018-05-08 2018-11-13 中山大学 基于特征点的票据对齐和八邻域连通体偏移修正的文本区域定位方法
CN108960223A (zh) * 2018-05-18 2018-12-07 北京大账房网络科技股份有限公司 基于票据智能识别自动生成凭证的方法
CN109636557A (zh) * 2018-12-11 2019-04-16 厦门商集网络科技有限责任公司 一种基于票据识别的智能分类记账方法及设备
CN109658584A (zh) * 2018-12-14 2019-04-19 泰康保险集团股份有限公司 一种票据票据识别方法及装置
CN110163734A (zh) * 2019-03-20 2019-08-23 金明 票据扫描直接生成凭证的系统与方法
CN110032990A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种发票文本识别方法、系统及相关组件
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Also Published As

Publication number Publication date
CN111275037A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275037B (zh) 票据识别方法及装置
US10013643B2 (en) Performing optical character recognition using spatial information of regions within a structured document
US20210049711A1 (en) Method of automatically transmitting data information and device of automatically transmitting data information
CN109118288A (zh) 基于大数据分析的目标用户获取方法及装置
CN110175233B (zh) 目标主体画像分析的方法、装置、计算机装置及存储介质
CN114971572A (zh) 数据处理方法、装置、设备及系统
CN115171143A (zh) 一种电子发票全票面信息提取方法及系统
CN113987054A (zh) 大数据的数据治理全流程可视化方法、装置及存储介质
CN111932413B (zh) 案件要素提取方法、装置、设备及介质
US20220309534A1 (en) Information pushing method and electronic device utilizing method
CN111062262B (zh) 发票识别方法以及发票识别装置
CN109120509B (zh) 一种信息收集的方法及装置
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN111242684A (zh) 一种广告投放方法
CN110597765A (zh) 一种大零售呼叫中心异构数据源数据处理方法及装置
US11232161B1 (en) Methods and apparatuses for electronically stamping document
CN105718846A (zh) 票据信息的录入方法及装置
CN113343663A (zh) 一种票据结构化方法及装置
CN113988020A (zh) 工程技术标标书编制方法、装置、设备及存储介质
CN111754238A (zh) 可疑交易识别方法及装置
CN113726839B (zh) 一种虚拟资源发送方法、装置、设备及存储介质
CN114780584B (zh) 多场景流式数据处理方法、系统、网络设备和存储介质
CN111339125B (zh) 数据查询方法及装置
CN110009173B (zh) 业务规则处理方法及装置
CN114240525A (zh) 报文生成方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant