CN115294586A - 一种识别发票的方法、装置、存储介质及电子设备 - Google Patents
一种识别发票的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115294586A CN115294586A CN202210963033.0A CN202210963033A CN115294586A CN 115294586 A CN115294586 A CN 115294586A CN 202210963033 A CN202210963033 A CN 202210963033A CN 115294586 A CN115294586 A CN 115294586A
- Authority
- CN
- China
- Prior art keywords
- invoice
- keyword
- target
- text
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本申请的一些实施例应用于文件处理技术领域,提供了一种识别发票的方法、装置、存储介质及电子设备,应用于发票本地处理端,该方法包括:按行读取待识别发票中目标区域的文本信息,所述待识别发票被划分为多个区域,所述目标区域为所述多个区域中的一个;对所述文本信息进行标准化处理,得到目标文本;获取所述目标文本的多个关键词中各关键词特征值;对所述各关键词特征值进行校验得到发票识别结果。本申请的一些实施例可以提升发票识别速率和准确率。
Description
技术领域
本申请涉及文件处理技术领域,具体而言,涉及一种识别发票的方法、装置、存储介质及电子设备。
背景技术
随着电子发票的普及和推广,PDF文件作为发票信息载体被广泛应用于日常生活中,但是在日常生活中一般需要提取PDF发票中的内容存储至相应的系统中。
目前,电子发票的识别一般是本公司的用户将含有发票的PDF文件发送至可以解析PDF文件的远程第三方,然后远程第三方识别完成后在将识别结果返回给本公司。但是,现有技术需要在联网的情况下才能实现,效率受网络影响较大,效率较低。而且发票中含有客户的敏感信息,通过发送给远程第三方的方式不能够确保敏感信息安全。
因此,如何提供一种既高效又安全的识别发票的方法的技术方案成为亟需解决的技术问题。
发明内容
本申请的一些实施例的目的在于提供一种识别发票的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案在不需要联网的状态下在本公司的系统端可以实现对发票的识别,并发量较大,提升了识别发票的效率、准确率和安全性。
第一方面,本申请的一些实施例提供了一种识别发票的方法,应用于发票本地处理端,包括:按行读取待识别发票中目标区域的文本信息,所述待识别发票被划分为多个区域,所述目标区域为所述多个区域中的一个;对所述文本信息进行标准化处理,得到目标文本;获取所述目标文本的多个关键词中各关键词特征值;对所述各关键词特征值进行校验得到发票识别结果。
本申请的一些实施例通过在发票本地处理端对发票进行区域划分,然后对目标区域进行文本信息读取和标准化处理得到的目标文件进行关键词特征值校验,得到最终的识别结果。该实施例可以在不需要联网的状态下在本公司的发票本地处理端可以实现对发票的识别,不需要将发票传输到第三方,节约了时间成本,而且发票处理的并发量较大,提升了识别发票的效率、准确率和安全性。
在一些实施例,所述对所述文本信息进行标准化处理,得到目标文本,包括:将所述文本信息中的中文符号替换为英文符号;将所述文本信息中的文字间的空格统一替换为英文空格或删除所述文字间的空格。
本申请的一些实施例通过对文本信息进行统一的标准化处理,可以确保后续对发票识别的准确率。
在一些实施例,所述获取所述目标文本的多个关键词中各关键词特征值,包括:对所述目标文本进行按行分组,获取多组文本;提取所述多组文本中各组文本关键词,其中,所述各组文本关键词中包括至少一个关键词,所述各组文本关键词构成所述多个关键词;对所述各组文本关键词中的各关键词进行定位,获取各关键词特征值。
本申请的一些实施例通过将目标文本按行进行分组后得到各关键词特征值,便于后续对特征值进行校验得到准确度较高的识别结果。
在一些实施例,所述对所述各关键词特征值进行校验得到发票识别结果,包括:获取所述多个关键词中各关键词的关键特征;利用所述各关键词的关键特征对所述各关键词特征值进行校验,获取校验结果,其中,所述关键特征包括:关键词固定长度、关键词字符类型、关键词固定字符和关键数字浮点数;若所述各关键词特征值均满足所述各关键词的关键特征,则确认所述校验结果为通过,并获取所述发票识别结果;若各关键词特征值中存在至少一个关键词特征值不满足所述关键特征,则确认所述校验结果为不通过;在所述校验结果为不通过后,执行如下操作直至所述校验结果为通过,获取所述发票识别结果:调整所述待识别发票中所述目标区域对应的区域坐标,获取更新区域坐标范围;利用所述更新区域坐标范围对对应的区域进行重新读取,获取所述对应区域中至少一个关键文本的各关键信息;利用所述关键特征对所述各关键信息进行校验,获取所述校验结果。
本申请的一些实施例通过固定的关键特征对各关键特征值进行校验,在校验结果不通过的情况下还会对目标区域的区域坐标进行调整,再次进行信息读取和校验,直到校验结果通过,有效保障了识别发票的准确率。
在一些实施例,在所述按行读取待识别发票中目标区域的文本信息之前,所述方法还包括:获取待读取文件,其中,所述待读取文件的页数至少为一页;读取所述待读取文件中的各页关键信息,或者按设定区域块读取所述待读取文件中的各页关键信息;将所述各页关键信息中含有目标关键词的文件页,作为待识别发票页,其中,待识别发票页为一页或多页,所述待识别发票为所述待识别发票页中的任一发票,所述目标关键词包括:发票号码、发票代码、收款人、开票人和销售方。
本申请的一些实施例通过对含有多张发票的待读取文件进行处理得到待识别发票,实现对待识别发票的批量处理,效率较高。
在一些实施例,所述方法还包括:对所述多个区域中的各区域同时进行识别处理,得到所述识别结果。
本申请的一些实施例通过将待识别发票中的多个区域同时进行识别处理,提升了识别发票的效率。
在一些实施例,在所述按行读取待识别发票中目标区域的文本信息之前,所述方法还包括:将所述待识别发票放入目标坐标系中;对所述待识别发票进行文本识别,获取多个目标字段;基于所述多个目标字段中的各目标字段所在的位置坐标,获取所述多个区域。
本申请的一些实施例通过在目标坐标系下对待识别发票进行目标字段提取后再根据目标字段的位置坐标,将待识别发票划分为多个区域,可以提升待识别发票的区域划分的准确度,提升了识别效率和准确率。
第二方面,本申请的一些实施例提供了一种识别发票的装置,应用于发票本地处理端,包括:读取模块,被配置为按行读取待识别发票中目标区域的文本信息,所述待识别发票被划分为多个区域,所述目标区域为所述多个区域中的一个;处理模块,被配置为对所述文本信息进行标准化处理,得到目标文本;获取模块,被配置为获取所述目标文本的多个关键词中各关键词特征值;校验模块,被配置为对所述各关键词特征值进行校验得到发票识别结果。
第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。
第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。
第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。
附图说明
为了更清楚地说明本申请的一些实施例的技术方案,下面将对本申请的一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请的一些实施例提供的识别发票的系统图;
图2为本申请的一些实施例提供的识别发票的方法流程图之一;
图3为本申请的一些实施例提供的待识别发票的划分区域示意图;
图4为本申请的一些实施例提供的识别发票的方法流程图之二;
图5为本申请的一些实施例提供的识别发票的装置组成框图;
图6为本申请的一些实施例提供的电子设备示意图。
具体实施方式
下面将结合本申请的一些实施例中的附图,对本申请的一些实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术中,在对电子发票的PDF文件进行识别时,用户需要将PDF文件上传至识别服务端(也称为远程第三方),然后识别服务端将PDF转换为图片再利用OCR识别图片得到识别结果,并将识别结果返回给用户。一方面该方法需要花费一定的时间向识别服务端发送PDF文件,当电子发票识别的量较大时,传输效率较差导致识别效率低,用户体验也较差。而且识别服务端处理电子发票的能力有限,吞吐量较小,无法满足用户需求。一方面由于电子发票上含有文字、数字和字母等等,采用OCR识别图片的技术准确率无法保证。另一方面,电子发票属于财务信息,对于保密性要求较高的企事业单位,将电子发票交由远程第三方处理存在信息泄漏的风险且受互联网影响较大。
鉴于此,本申请的一些实施例提供了一种识别发票的方法,该方法通过在发票本地处理端对待识别发票进行按区域按行识别和校验,可以得到准确度较高的识别结果。本申请的一些可以在不联网的情况下在本地端进行识别发票的操作,不受网络的影响,可以提升发票处理的吞吐量。而且本申请的一些实施例不需要向远程第三方发送,节约了时间成本,也避免了信息泄漏,识别效率和安全性较高。
如图1所示,本申请的一些实施例提供了一种识别发票的系统图,该系统包括用户100和终端设备200,其中,用户100可以在终端设备200上打开需要识别的含有发票的PDF文件,终端设备200中部署的发票处理系统(也就是发票本地处理端)会对PDF文件中的待识别发票进行识别得到识别结果。
图1的终端设备200上存储有发票处理系统的系统文件,正是通过这个发票处理系统的系统文件使得终端设备200可以对用户输入的PDF文件中的待识别发票进行识别。需要说明的是,与相关技术的PDF文件识别系统不同的是,图1的终端设备200并不需要专门向远程第三方发送PDF文件而是通过下载的配置文件即可实现发票识别,这与相关技术必须向远程第三方发送PDF文件进行识别的方法相比,节省了识别发票的时间成本,提升了识别效率,且防止了发票中信息的泄漏安全性较高。
另外,需要说明的是在本申请另一些实施例终端设备200可以是非便携的PC终端,也可以是便携终端。在此对终端设备200的类型不作限定。
下面结合附图2示例性阐述本申请一些实施例提供的由终端设备200执行的识别发票的方法的实现过程。
请参见附图2,图2为本申请的一些实施例提供的识别发票的方法流程图,该方法包括:S210,按行读取待识别发票中目标区域的文本信息,所述待识别发票被划分为多个区域,所述目标区域为所述多个区域中的一个。S220,对所述文本信息进行标准化处理,得到目标文本。S230,获取所述目标文本的多个关键词中各关键词特征值。S240,对所述各关键词特征值进行校验得到发票识别结果。
例如,在本申请的一些实施例中,可以将待识别发票分为多个区域再进行识别。将多个区域中的一个作为目标区域进行识别,首先提取目标区域中的文本信息,然后将文本信息中的所有字符统一成相同的格式得到目标文本。之后再对目标文本中的关键词提取对应的关键特征值,最后对关键特征值进行校验得到识别结果。本申请的一些实施例不需要联网也不需要第三方服务(也就是远程第三方)即可使得对发票的批量处理,效率高,吞吐量较大且安全性较高,具有很高的实用性。
下面示例性阐述上述过程。
在本申请的一些实施例中,在S210之前,识别发票的方法还包括:获取待读取文件,其中,所述待读取文件的页数至少为一页;读取所述待读取文件中的各页关键信息,或者按设定区域块读取所述待读取文件中的各页关键信息;将所述各页关键信息中含有目标关键词的文件页,作为待识别发票页,其中,待识别发票页为一页或多页,所述待识别发票为所述待识别发票页中的任一发票,所述目标关键词包括:发票号码、发票代码、收款人、开票人和销售方。
例如,在本申请的一些实施例中,用户100可以将含有多张电子发票的PDF文件(作为待读取文件的一个具体示例)上传至发票处理系统。发票处理系统首先解析PDF文件的页数,然后读取每一页的各页关键信息,例如,通过判定各页关键信息中包含目标关键词中的“发票号码”、“发票代码”、“收款人”、“开票人”和“销售方”等等,确认待识别发票页。
在本申请的另一些实施例中,可以设定区域块,只对区域块中的信息进行读取,例如,只读取图3中的标号为1的设定区域块,若该块含有目标关键词“发票号码”、“发票代码”和“校验码”即可确认待识别发票页。不难理解的是,目标关键词是通过统计不同类型的发票中包含的文本信息进行设定的。本申请并不局限于上述实施例。
为了提升识别发票的效率,在本申请的一些实施例中,对所述多个区域中的各区域在同一时间进行识别处理得到识别结果。也就是各个区域均按照图2中的实施例执行相应的操作。其中,目标区域可以作为各区域中的一个。
例如,在本申请的一些实施例中,可以将待识别发票进行分区域处理得到如图3所示的分区示意图。由图3可知,将待识别发票分为了6个区域。在对发票进行识别时可以对6个区域依次进行识别,也可以对6个区域同时识别。应理解,每个区域识别的方法与图2中对目标区域的识别方法一致。目标区域可以是6个区域中的任一个区域。
在本申请的另一些实施例中,在S210之前,识别发票的方法还包括:将所述待识别发票放入目标坐标系中;对所述待识别发票进行文本识别,获取多个目标字段;基于所述多个目标字段中的各目标字段所在的位置坐标,获取所述多个区域。
例如,在本申请的另一些实施例中,还可以将待识别的发票放入标准坐标系(作为目标坐标系的一个具体示例)中,然后对待识别发票中的文本进行识别。例如,识别到“发票代码”的位置坐标为(a,b),此时可以对“发票代码”的位置坐标按照之前对不同发票类型的统计区域进行延伸,得到如图3所示的第一区域1的区域坐标,区域坐标可以是第一区域1中四个顶角的坐标,分别为(a,b)、(a,c)、(a,d)和(c,d)。另外,其他区域(也就是第二区域2、第三区域3、第四区域4、第五区域5、第六区域6)的获取方法与第一区域1的方式原理相同,为了描述简洁,在此不作赘述。
在本申请的一些实施例中,每个区域的目标字段可以是:第一区域1为读取发票代码、发票号码、开票日期和校验码。第二区域2为读取购买方的名称、纳税人识别号、地址电话和开户行及账号。第三区域3为读取服务名称、单位和数量。第四区域4为读取价税合计、金额和税额。第五区域5为读取销售方的名称、纳税人识别号、地址电话和开户行及账号。第六区域6读取备注。
在本申请的一些实施例中,S220可以包括:将所述文本信息中的中文符号替换为英文符号;将所述文本信息中的文字间的空格统一替换为英文空格或删除所述文字间的空格。
例如,在本申请的一些实施例中,发票中的“发票号码:”有一个冒号,这个冒号有可能是中文的也有可能是英文的。如果要将“发票号码:”作为一个文本信息,则需要将所有的中文冒号(作为中文符合的一个具体示例)替换成英文冒号(作为英文符合的一个具体示例),进而得到目标文本。在读取购买方的名称或者销售方的名称的时候将“名称:”作为文本信息。但是有些发票中“名”和“称”两个字中间会存在一个或者多个空格,这种空格有三种形式:中文空格、英文空格和不间断空格。由于这些空格会影响后续关键词的定位,因此需要被全部替换为英文空格,或者删除,进而得到目标文本。需要说明的是,有的发票中还会含有括号或者其他中文符号,此时也需要英文符号进行对应替换得到目标文本,以确保后续对关键词的精准定位。
在本申请的一些实施例中,S230可以包括:对所述目标文本进行按行分组,获取多组文本;提取所述多组文本中各组文本关键词,其中,所述各组文本关键词中包括至少一个关键词,所述各组文本关键词构成所述多个关键词;对所述各组文本关键词中的各关键词进行定位,获取各关键词特征值。
例如,在本申请的一些实施例中,将第一区域1作为目标区域。第一区域1识别到发票代码、发票号码、开票日期和校验码这4个目标文本,其中一个目标文本为一组,各组文本关键词可以分别是提取到的“发票代码、发票号码、开票日期、校验码”。然后将每个关键词进行定位得到关键特征值。关键特征值就是待识别发票中每个关键词后面的字符串。例如,关键词为开票日期,关键特征值为20220801。
为了提升识别的准确度,在本申请的一些实施例中,S240可以包括获取所述多个关键词中各关键词的关键特征;利用所述各关键词的关键特征对所述各关键词特征值进行校验,获取校验结果,其中,所述关键特征包括:关键词固定长度、关键词字符类型、关键词固定字符和关键数字浮点数;若所述各关键词特征值均满足所述各关键词的关键特征,则确认所述校验结果为通过,并获取所述发票识别结果;若各关键词特征值中存在至少一个关键词特征值不满足所述关键特征,则确认所述校验结果为不通过。
由于各区域对应的坐标范围不精准,可能会读取到相邻区域的信息。因此在本申请的一些实施例中需要对关键特征值进行校验。例如,关键特征可以是多种类型的发票中的共有特征。例如,发票代码是12位数字、发票号码是8位数字、校验码的长度是5位或者20位、纳税人识别号是15位、17位、18位或者20位的字母和数字的组合。价税合计或者税额是保留两位小数的浮点数等等。通过将各关键特征值与对应的各关键特征进行对比,可以快速得到校验结果。在一个实施例中,发票代码的关键特征值为10位数字,显然不符合12位的要求,因此对发票代码的识别校验不通过。
在本申请的一些实施例中,S240还可以包括在所述校验结果为不通过后,执行如下操作直至所述校验结果为通过,获取所述发票识别结果:调整所述待识别发票中所述目标区域对应的区域坐标,获取更新区域坐标范围;利用所述更新区域坐标范围对对应的区域进行重新读取,获取所述对应区域中至少一个关键文本的各关键信息;利用所述关键特征对所述各关键信息进行校验,获取所述校验结果。
例如,在本申请的一些实施例中,在校验结果不通过时,可能存在区域划分精准度不够的问题。此时,可以调整第一区域1对应的区域坐标,然后重新读取发票代码对应的关键特征值,直到该关键特征值通过校验即可。可以理解的是,其他区域也可以按照上述原理进行调整区域坐标(例如,可以调整区域的四个顶点的坐标)和校验。
下面结合附图4示例性阐述本申请一些实施例提供的识别发票的方法的实现过程。
请参见附图4,图4为本申请的一些实施例提供的识别发票的方法流程图。需要说明的是,在执行下述方法流程之前,发票系统已完成了对电子发票的PDF文件的解析,得到了待识别发票页数。下述实施例以待识别发票页数中的任一发票作为待识别发票为例进行阐述。
S410,对待识别发票进行划分,得到多个区域。
作为本申请的一个具体示例,根据发票系统中设定的区域坐标范围,将待识别发票划分为如图3所示的6个区域。
应理解,本申请下述是以6个区域中的一个区域作为目标区域为例进行阐述的。在本申请的另一个具体示例中,也可以对6个区域同时按照下述方法进行识别得到各区域的识别结果。
S420,按行读取待识别发票中目标区域的文本信息,其中,所述目标区域为所述多个区域中的一个。
作为本申请的一个具体示例,将第二区域2作为目标区域。按照行读取第二区域2中的购买方信息,读取到的文本信息包括:“名称:、纳税人识别号:、地址电话:、开户行及账号:”。
S430,对所述文本信息进行标准化处理,得到目标文本。
作为本申请的一个具体示例,由上述读取到的文本信息可以看出含有空格和中文冒号,对上述文本信息进行英文符号替换和空格删除,得到的目标文本:“名称:、纳税人识别号:、地址电话:、开户行及账号:”。
S440,获取所述目标文本的多个关键词中各关键词特征值。
作为本申请的一个具体示例,将上述目标文本作为多个关键词,并读取每个关键词的关键特征值。例如:名称:的关键特征值为***公司、纳税人识别号:的关键特征值为**************、地址电话:的关键特征值为北京市海淀区**路***号、开户行及账号:的关键特征值为北京市海淀区**银行。
S450,对所述各关键词特征值进行校验。
作为本申请的一个具体示例,获取纳税人识别号是关键特征,例如,纳税人识别号的关键特征是15位。上述识别到的纳税人识别号的关键特征值为14位。
S460,校验结果是否通过?若是,则执行S480,否则执行S470。
作为本申请的一个具体示例,识别到的纳税人识别号的关键特征值为14位,不满足关键特征设定的15位,因此校验结果为不通过。
S470,调整所述目标区域对应的区域坐标,获取更新区域坐标范围,并利用所述更新区域坐标范围对对应的区域进行重新读取和校验。
作为本申请的一个具体示例,调整第二区域2的坐标范围,然后重新读取调整后的第二区域2中的纳税人识别号,得到读取结果***************,显然本次读取结果也是15位,满足关键特征的要求,校验结果为通过。
需要说明的是,如果第二次调整后读取的纳税人识别号仍没有通过校验还可以重复执行S470,直至校验结果为通过。
S480,获取待识别发票的识别结果。
请参考图5,图5示出了本申请的一些实施例提供的识别发票的装置的组成框图。应理解,该识别发票的装置与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该识别发票的装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图5的识别发票的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在识别发票的装置中的软件功能模块,该识别发票的装置包括:读取模块510,被配置为按行读取待识别发票中目标区域的文本信息,所述待识别发票被划分为多个区域,所述目标区域为所述多个区域中的一个;处理模块520,被配置为对所述文本信息进行标准化处理,得到目标文本;获取模块530,被配置为获取所述目标文本的多个关键词中各关键词特征值;校验模块540,被配置为对所述各关键词特征值进行校验得到发票识别结果。
在本申请的一些实施例中,处理模块520,被配置为将所述文本信息中的中文符号替换为英文符号;将所述文本信息中的文字间的空格统一替换为英文空格或删除所述文字间的空格或删除所述文字间的空格。
在本申请的一些实施例中,获取模块530,被配置为对所述目标文本进行按行分组,获取多组文本;提取所述多组文本中各组文本关键词,其中,所述各组文本关键词中包括至少一个关键词,所述各组文本关键词构成所述多个关键词;对所述各组文本关键词中的各关键词进行定位,获取各关键词特征值。
在本申请的一些实施例中,校验模块540,被配置为获取所述多个关键词中各关键词的关键特征;利用所述各关键词的关键特征对所述各关键词特征值进行校验,获取校验结果,其中,所述关键特征包括:关键词固定长度、关键词字符类型、关键词固定字符和关键数字浮点数;若所述各关键词特征值均满足所述各关键词的关键特征,则确认所述校验结果为通过,并获取所述发票识别结果;若各关键词特征值中存在至少一个关键词特征值不满足所述关键特征,则确认所述校验结果为不通过;在所述校验模块540之后,还包括循环模块(图中未示出),被配置为,执行如下操作直至所述校验结果为通过,获取所述发票识别结果:调整所述待识别发票中所述目标区域对应的区域坐标,获取更新区域坐标范围;利用所述更新区域坐标范围对对应的区域进行重新读取,获取所述对应区域中至少一个关键文本的各关键信息;利用所述关键特征对所述各关键信息进行校验,获取所述校验结果。
在本申请的一些实施例中,读取模块510,被配置为对所述多个区域中的各区域同时进行识别处理,得到所述识别结果。
在本申请的一些实施例中,在读取模块510之前,识别发票的装置还包括解析模块(图中未示出),被配置为将所述待识别发票放入目标坐标系中;对所述待识别发票进行文本识别,获取多个目标字段;基于所述多个目标字段中的各目标字段所在的位置坐标,获取所述多个区域。
本申请的一些实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
本申请的一些实施例还提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
如图6所示,本申请的一些实施例提供一种电子设备600,该电子设备600包括:存储器610、处理器620以及存储在存储器610上并可在处理器620上运行的计算机程序,其中,处理器620通过总线630从存储器610读取程序并执行所述程序时可实现如上述任意实施例的方法。
处理器620可以处理数字信号,可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中,处理器620可以是微处理器。
存储器610可以用于存储由处理器620执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码,用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器620可以用于执行存储器610中的指令以实现上述所示的方法。存储器610包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种识别发票的方法,其特征在于,应用于发票本地处理端,包括:
按行读取待识别发票中目标区域的文本信息,所述待识别发票被划分为多个区域,所述目标区域为所述多个区域中的一个;
对所述文本信息进行标准化处理,得到目标文本;
获取所述目标文本的多个关键词中各关键词特征值;
对所述各关键词特征值进行校验得到发票识别结果。
2.如权利要求1所述的方法,其特征在于,所述对所述文本信息进行标准化处理,得到目标文本,包括:
将所述文本信息中的中文符号替换为英文符号;
将所述文本信息中的文字间的空格统一替换为英文空格或删除所述文字间的空格或删除所述文字间的空格。
3.如权利要求1或2所述的方法,其特征在于,所述获取所述目标文本的多个关键词中各关键词特征值,包括:
对所述目标文本进行按行分组,获取多组文本;
提取所述多组文本中各组文本关键词,其中,所述各组文本关键词中包括至少一个关键词,所述各组文本关键词构成所述多个关键词;
对所述各组文本关键词中的各关键词进行定位,获取各关键词特征值。
4.如权利要求1或2所述的方法,其特征在于,所述对所述各关键词特征值进行校验得到发票识别结果,包括:
获取所述多个关键词中各关键词的关键特征;
利用所述各关键词的关键特征对所述各关键词特征值进行校验,获取校验结果,其中,所述关键特征包括:关键词固定长度、关键词字符类型、关键词固定字符和关键数字浮点数;
若所述各关键词特征值均满足所述各关键词的关键特征,则确认所述校验结果为通过,并获取所述发票识别结果;
若各关键词特征值中存在至少一个关键词特征值不满足所述关键特征,则确认所述校验结果为不通过;
在所述校验结果为不通过后,执行如下操作直至所述校验结果为通过,获取所述发票识别结果:
调整所述待识别发票中所述目标区域对应的区域坐标,获取更新区域坐标范围;
利用所述更新区域坐标范围对对应的区域进行重新读取,获取所述对应区域中至少一个关键文本的各关键信息;
利用所述关键特征对所述各关键信息进行校验,获取所述校验结果。
5.如权利要求1或2所述的方法,其特征在于,在所述按行读取待识别发票中目标区域的文本信息之前,所述方法还包括:
获取待读取文件,其中,所述待读取文件的页数至少为一页;
读取所述待读取文件中的各页关键信息,或者按设定区域块读取所述待读取文件中的各页关键信息;
将所述各页关键信息中含有目标关键词的文件页,作为待识别发票页,其中,待识别发票页为一页或多页,所述待识别发票为所述待识别发票页中的任一发票,所述目标关键词包括:发票号码、发票代码、收款人、开票人和销售方。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述多个区域中的各区域同时进行识别处理,得到所述识别结果。
7.如权利要求1或2所述的方法,其特征在于,在所述按行读取待识别发票中目标区域的文本信息之前,所述方法还包括:
将所述待识别发票放入目标坐标系中;
对所述待识别发票进行文本识别,获取多个目标字段;
基于所述多个目标字段中的各目标字段所在的位置坐标,获取所述多个区域。
8.一种识别发票的装置,其特征在于,应用于发票本地处理端,包括:
读取模块,被配置为按行读取待识别发票中目标区域的文本信息,所述待识别发票被划分为多个区域,所述目标区域为所述多个区域中的一个;
处理模块,被配置为对所述文本信息进行标准化处理,得到目标文本;
获取模块,被配置为获取所述目标文本的多个关键词中各关键词特征值;
校验模块,被配置为对所述各关键词特征值进行校验得到发票识别结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。
10.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963033.0A CN115294586A (zh) | 2022-08-11 | 2022-08-11 | 一种识别发票的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210963033.0A CN115294586A (zh) | 2022-08-11 | 2022-08-11 | 一种识别发票的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294586A true CN115294586A (zh) | 2022-11-04 |
Family
ID=83828879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210963033.0A Pending CN115294586A (zh) | 2022-08-11 | 2022-08-11 | 一种识别发票的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294586A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824604A (zh) * | 2023-08-30 | 2023-09-29 | 江苏苏宁银行股份有限公司 | 基于图像处理的金融数据管理方法及系统 |
-
2022
- 2022-08-11 CN CN202210963033.0A patent/CN115294586A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824604A (zh) * | 2023-08-30 | 2023-09-29 | 江苏苏宁银行股份有限公司 | 基于图像处理的金融数据管理方法及系统 |
CN116824604B (zh) * | 2023-08-30 | 2023-11-21 | 江苏苏宁银行股份有限公司 | 基于图像处理的金融数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10366123B1 (en) | Template-free extraction of data from documents | |
CN110457302B (zh) | 一种结构化数据智能清洗方法 | |
KR101462289B1 (ko) | 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색 | |
US11182544B2 (en) | User interface for contextual document recognition | |
CN111352907A (zh) | 流水文件解析方法、装置、计算机设备和存储介质 | |
US20230205755A1 (en) | Methods and systems for improved search for data loss prevention | |
CN113420057A (zh) | 对账数据处理方法及相关装置 | |
CN115294586A (zh) | 一种识别发票的方法、装置、存储介质及电子设备 | |
CN111027832A (zh) | 一种税务风险确定方法、装置及存储介质 | |
CN109740130B (zh) | 用于生成文件的方法和装置 | |
CN111291547B (zh) | 模板生成方法、装置、设备及介质 | |
CN110334333B (zh) | 一种信息修改方法及相关装置 | |
CN112287936A (zh) | 光学字符识别测试方法、装置、可读存储介质及终端设备 | |
US11875374B2 (en) | Automated auditing and recommendation systems and methods | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
US11482027B2 (en) | Automated extraction of performance segments and metadata values associated with the performance segments from contract documents | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN113472686A (zh) | 信息识别方法、装置、设备及存储介质 | |
CN113807901A (zh) | 一种电子发票检测方法、终端设备及存储介质 | |
US11170164B2 (en) | System and method for cell comparison between spreadsheets | |
CN112199466A (zh) | 识别函件的关联法规的方法及装置 | |
US11875109B1 (en) | Machine learning (ML)-based system and method for facilitating correction of data in documents | |
CN111191473B (zh) | 一种翻译文本文件获取方法及装置 | |
CN113988176B (zh) | 样本标注方法和装置 | |
CN116719839A (zh) | 会计档案的数据查询方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |