CN112560861B - 票据处理方法、装置、设备及存储介质 - Google Patents

票据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112560861B
CN112560861B CN202011458669.7A CN202011458669A CN112560861B CN 112560861 B CN112560861 B CN 112560861B CN 202011458669 A CN202011458669 A CN 202011458669A CN 112560861 B CN112560861 B CN 112560861B
Authority
CN
China
Prior art keywords
text
image
character recognition
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011458669.7A
Other languages
English (en)
Other versions
CN112560861A (zh
Inventor
陈小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yibao Health Management Co ltd
Original Assignee
Shanghai Yibao Health Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yibao Health Management Co ltd filed Critical Shanghai Yibao Health Management Co ltd
Priority to CN202011458669.7A priority Critical patent/CN112560861B/zh
Publication of CN112560861A publication Critical patent/CN112560861A/zh
Application granted granted Critical
Publication of CN112560861B publication Critical patent/CN112560861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种票据处理方法、装置、设备及存储介质,所述票据处理方法包括:获取待处理的票据图像;利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理,得到矫正图像;将所述矫正图像输入文字识别网络,得到文字识别结果;利用抽取算法提取所述文字识别结果中的关键信息;将所述关键信息存入预设数据库。本申请实现了提高票据处理效率及准确率。

Description

票据处理方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种票据处理方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,互联网保险业务发展也越来越快。目前,许多保险公司提供了在线理赔的业务,用户可以使用智能终端对单据进行拍摄,然后上传照片。保险公司业务人员收到照片后可以人工识别图片中的信息,然后填写到相应的理赔业务单的表项中,完成后续在线理赔业务的处理。但是,人工处理发票单据的方式效率低下,人均日处理量很有限,并且容易出错。
在现有技术中,为了提高票据处理效率,一般会通过OCR(Optical CharacterRecognition,光学字符识别)技术对票据进行文字识别,但是,传统的OCR技术主要面向高清扫描的图像,要求被识别的图像拥有干净的背景,使用规范的印刷体并具有较高的分辨率。由于票据本身打印精度的限制和实际拍摄条件的影响,OCR技术对大多数票据的识别效果并不理想。
发明内容
本申请实施例的目的在于提供一种票据处理方法、装置、设备及存储介质,用以实现提高票据处理效率及准确率。
本申请实施例第一方面提供了一种票据处理方法,包括:获取待处理的票据图像;利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理,得到矫正图像;将所述矫正图像输入文字识别网络,得到文字识别结果;利用抽取算法提取所述文字识别结果中的关键信息;将所述关键信息存入预设数据库。
于一实施例中,所述利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理,得到矫正图像,包括:确定所述不规则文本区域的第一基准点;计算所述第一基准点与预设基准点的转换参数;基于所述转换参数,在所述不规则文本区域生成像素采样网格;基于所述像素采样网格,进行双线性插值计算,得到所述矫正图像。
于一实施例中,还包括:获取样本图像集,所述样本图像集包括多张具有基准点信息和文字信息的样本图像;利用所述样本图像集训练所述矫正网络和所述文字识别网络,直到满足预设终止条件。
于一实施例中,所述利用抽取算法提取所述文字识别结果中的关键信息,包括:提取所述文字识别结果的多个特征并进行融合;将融合后的特征输入预先训练的BiLSTM-CRF模型,得到字符预测概率;基于所述字符预测概率,确定所述关键信息。
于一实施例中,所述提取所述文字识别结果的多个特征并进行融合,包括:基于所述文字识别结果,确定锚点坐标和文本框的位置信息;计算所述文本框相对于所述锚点坐标的位置特征;提取所述文本框的图像特征和文本特征;对所述文本特征进行编码得到文本编码;对所述图像特征进行编码得到图像编码;将所述位置特征、所述文本编码和所述图像编码进行特征融合,得到第一融合特征。
于一实施例中,所述提取所述文字识别结果的多个特征并进行融合,还包括:计算所述文本框的邻接矩阵;利用多层感知网络提取每个所述文本框的第一特征;对所述第一特征进行图卷积运算,得到第二融合特征。
本申请实施例第二方面提供了一种票据处理装置,包括:获取模块,用于获取待处理的票据图像;矫正模块,用于利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理,得到矫正图像;识别模块,用于将所述矫正图像输入文字识别网络,得到文字识别结果;提取模块,用于利用抽取算法提取所述文字识别结果中的关键信息;存储模块,用于将所述关键信息存入预设数据库。
于一实施例中,还包括:训练模块,用于获取样本图像集,所述样本图像集包括多张具有基准点信息和文字信息的样本图像,利用所述样本图像集训练所述矫正网络和所述文字识别网络,直到满足预设终止条件。
于一实施例中,所述矫正模块用于:确定所述不规则文本区域的第一基准点;计算所述第一基准点与预设基准点的转换参数;基于所述转换参数,在所述不规则文本区域生成像素采样网格;基于所述像素采样网格,进行双线性插值计算,得到所述矫正图像。
于一实施例中,所述提取模块用于:提取所述文字识别结果的多个特征并进行融合;将融合后的特征输入预先训练的BiLSTM-CRF模型,得到字符预测概率;基于所述字符预测概率,确定所述关键信息。
于一实施例中,所述提取模块具体用于:基于所述文字识别结果,确定锚点坐标和文本框的位置信息;计算所述文本框相对于所述锚点坐标的位置特征;提取所述文本框的图像特征和文本特征;对所述文本特征进行编码得到文本编码;对所述图像特征进行编码得到图像编码;将所述位置特征、所述文本编码和所述图像编码进行特征融合,得到第一融合特征。
于一实施例中,所述提取模块具体还用于:计算所述文本框的邻接矩阵;利用多层感知网络提取每个所述文本框的第一特征;对所述第一特征进行图卷积运算,得到第二融合特征。
本申请实施例第三方面提供了一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行本申请实施例第一方面及其任一实施例的方法。
本申请实施例第四方面提供了一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例的电子设备的结构示意图;
图2为本申请一实施例的票据处理方法的流程示意图;
图3为本申请另一实施例的票据处理方法的流程示意图;
图4为本申请又一实施例的票据处理方法的流程示意图;
图5为本申请一实施例的票据处理装置的结构示意图。
附图标记:
100-电子设备,110-总线,120-处理器,130-存储器,500-票据处理装置,510-获取模块,520-矫正模块,530-识别模块,540-提取模块,550-存储模块,560-训练模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,并不表示排列序号,也不能理解为指示或暗示相对重要性。
在本申请的描述中,术语“包括”、“包含”等表示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、步骤、操作、元素、组件和/或其集合的存在或添加。
在本申请的描述中,除非另有明确的规定和限定,术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如,可以是固定连接,也可以是可拆卸连接,或整体式构造;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
请参看图1,其为本申请一实施例的电子设备100的结构示意图,包括至少一个处理器120和存储器130,图1中以一个处理器为例。处理器120和存储器130通过总线110连接,存储器130存储有可被至少一个处理器120执行的指令,指令被至少一个处理器120执行,以使至少一个处理器120执行如下述实施例中的票据处理方法。
于一实施例中,处理器120可以是图形处理器(Graphics Processing Unit,GPU),该图像处理器的显存大于2G。
于一实施例中,处理器120还可以是通用处理器,包括但不限于中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等,还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器120是电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分。处理器120可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。
于一实施例中,存储器130可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,包括但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),静态随机存取存储器(Static Random Access Memory,简称SRAM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory,EEPROM)等。
图1所示的电子设备100的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
如图2所示,其为本申请一实施例的票据处理方法的流程示意图,该方法可由图1所示的电子设备100来执行,以实现对票据进行自动文字识别,提高票据处理效率及准确率。该方法包括如下步骤:
步骤210:获取待处理的票据图像。
在上述步骤中,待处理的票据图像可以但不限于是发票、快递单、汇款单等单据,可以通过照相机、摄像头、扫描仪等图像采集设备获取票据图像。
步骤220:利用矫正网络对票据图像中的不规则文本区域进行矫正处理,得到矫正图像。
在上述步骤中,票据图像中的不规则文本区域是指存在弯曲、倾斜、透视等情况的文本所覆盖的区域,矫正网络可以是基于TPS(Thin Plate Spines,薄板样条插值)的STN(Spatial Transformer Network,空间变换网络)。STN包括:局部网络(localizationnetwork)、采样网格生成器(Grid Generator)以及采样器(Sampler)。
步骤230:将矫正图像输入文字识别网络,得到文字识别结果。
在上述步骤中,文字识别网络可以基于CTC算法(Connectionist TemporalClassification,时序分类算法)构建。
在CTC算法中,对于给定输入特征x,F表示路径映射为结果的函数,l表示中间结果对应的路径,y表示最终输出字符,则y对x的后验概率可以表示为:
Figure BDA0002830376270000071
l对x的后验概率可以表示为:
Figure BDA0002830376270000072
lt表示路径l在t时间步时对应的输出字符,而
Figure BDA0002830376270000073
表示在t时间步时选取的字符为lt的概率。因此,综合上述两式可得:
Figure BDA0002830376270000074
运用动态规划算法,求得前向和后向概率为:
Figure BDA0002830376270000075
α1(-)=z1
Figure BDA0002830376270000081
α1(y1)=0,t>1
Figure BDA0002830376270000082
Figure BDA0002830376270000083
Figure BDA0002830376270000084
Figure BDA0002830376270000085
βT(y|y|-t)=0,t>0
Figure BDA0002830376270000086
其中,αt(y′k)表示时间步为t时经过字符y′k的所有路径在1-t时刻的概率和,βt(y′k)表示时间步为t时经过字符y′k的所有路径在t-T时刻的概率和。
后验概率可以简化为:
Figure BDA0002830376270000087
Figure BDA0002830376270000088
取对数等于路径极大似然,得到损失函数:
Loss=L1_ln(p(y|x))
最后通过反向传播求导即可训练网络,识别的时候直接取概率最大
Figure BDA0002830376270000089
的路径字符1t,得到路径L,通过解码函数F得到真实字符串y,F(L)=y。
F(l1)=F(--taas-t--e-)=taste
步骤240:利用抽取算法提取文字识别结果中的关键信息。
步骤250:将关键信息存入预设数据库。
在上述步骤中,将关键信息按照预设格式存入预设数据库。
如图3所示,其为本申请一实施例的票据处理方法的流程示意图,该方法可由图1所示的电子设备100来执行,以实现对票据进行自动文字识别,提高票据处理效率及准确率。该方法包括如下步骤:
步骤310:获取待处理的票据图像。详细内容参见上述实施例中对步骤210的描述。
步骤320:确定不规则文本区域的第一基准点。
在上述步骤中,通过一个有卷积层、池化层和全连接层构成的卷积网络,回归预测出不规则文本区域的第一基准点,每个第一基准点由x和y两个数据组成,因此若人为预设的第一基准点数量若为K个,则该卷积网络有2K个输出,第一基准点可以表示为C=[c1,c2,...,cK]∈R2×K
步骤330:计算第一基准点与预设基准点的转换参数。
在上述步骤中,预设基准点沿矫正后的水平文本区域的上下边缘均匀分布,表示为C'=[c'1,c'2,...,c'K]∈R2×K。则第一基准点与预设基准点进行TPS变换的转换参数可以用矩阵表示:
Figure BDA0002830376270000091
Figure BDA0002830376270000092
其中,T表示转换参数,1K×1是一个K×1的值全是1的行向量,11×K同理。R是一个由ri,j组成的K×K的矩阵,
Figure BDA0002830376270000093
表示c'i和c'j之间的欧氏距离。
步骤340:基于转换参数,在不规则文本区域生成像素采样网格。
在上述步骤中,根据转换参数,可以找到矫正后的文本区域的每个像素,在不规则文本区域的对应位置,生成像素采样网格,像素采样网格P={pi}(i=1,2,3,...,N)可以采用以下公式计算:
Figure BDA0002830376270000101
Figure BDA0002830376270000102
Figure BDA0002830376270000103
其中,di,k表示p'i和c'k之间的欧氏距离,N为矫正后的文本区域的像素总个数,pi表示不规则文本区域的像素点坐标,p'i表示矫正后的文本区域的像素点坐标。
步骤350:基于像素采样网格,进行双线性插值计算,得到矫正图像。
在上述步骤中,采样器会将不规则文本区域在pi附近的像素进行双线性插值,插值后的结果就是矫正后的文本区域的像素值。采样器对所有的像素双线性插值计算,最终得到矫正图像。
步骤360:将矫正图像输入文字识别网络,得到文字识别结果。详细内容参见上述实施例中对步骤230的描述。
步骤370:利用抽取算法提取文字识别结果中的关键信息。详细内容参见上述实施例中对步骤240的描述。
步骤380:将关键信息存入预设数据库。详细内容参见上述实施例中对步骤250的描述。
于一实施例中的票据处理方法,还包括:获取样本图像集,样本图像集包括多张具有基准点信息和文字信息的样本图像;利用样本图像集训练矫正网络和文字识别网络,直到满足预设终止条件。
在上述步骤中,样本图像上预先标注有基准点和文字内容,将样本图像依次输入矫正网络和文字识别网络,计算矫正网络确定的基准点和预先标注的基准点之间的第一误差,以及文字识别网络识别的文字内容和预先标注的文字内容之间的第二误差,根据第一误差和第二误差,对矫正网络和文字识别网络进行迭代训练,知道满足预设终止条件。预设终止条件可以是,迭代次数达到预设次数,也可以是第一误差和第二误差均小于各自的预设阈值,第一误差的预设阈值和第二误差的预设阈值可以相同,也可以不同。
如图4所示,其为本申请一实施例的票据处理方法的流程示意图,该方法可由图1所示的电子设备100来执行,以实现对票据进行自动文字识别,提高票据处理效率及准确率。该方法包括如下步骤:
步骤410:获取待处理的票据图像。详细内容参见上述实施例中对步骤210的描述。
步骤420:利用矫正网络对票据图像中的不规则文本区域进行矫正处理,得到矫正图像。详细内容参见上述实施例中对步骤220的描述。
步骤430:将矫正图像输入文字识别网络,得到文字识别结果。详细内容参见上述实施例中对步骤230的描述。
步骤440:提取文字识别结果的多个特征并进行融合。
于一实施例中,步骤440:提取文字识别结果的多个特征并进行融合可以包括:基于文字识别结果,确定锚点坐标和文本框的位置信息;计算文本框相对于锚点坐标的位置特征;提取文本框的图像特征和文本特征;对文本特征进行编码得到文本编码;对图像特征进行编码得到图像编码;将位置特征、文本编码和图像编码进行特征融合,得到第一融合特征。
在上述步骤中,锚点是指票据图像上的固定字段,即在票据图像上只出现一次且识别结果与预设模板完全匹配的字段,例如医疗发票上有“超封顶金额”“自付二”“自费”等固定字段,可以作为锚点,锚点可以是一个或多个,锚点坐标为该固定字段所覆盖区域的中心坐标。
根据锚点坐标和文本框的位置信息,计算文本框相对于锚点坐标的位置特征,文本框的位置信息为文本框的中心坐标,位置特征包括相对位置特征、距离特征和夹角特征,相对位置特征是指文本框的中心坐标和锚点坐标在x轴和y轴的坐标值之差,距离特征是指文本框的中心坐标和锚点坐标的直线距离,夹角特征是指文本框的中心坐标和锚点坐标的连线与预设基准线的夹角,预设基准线可以是x坐标轴或y坐标轴。假设锚点坐标为(1,0),文本框的位置信息为(2,0),预设基准线为y坐标轴,则位置特征可以表示为
Figure BDA0002830376270000121
可以采用CNN(Convolutional Neural Networks,卷积神经网络)提取图像特征,采用Transformer提取文本特征,并分别对图像特征和文本特征进行编码融合。
于一实施例中,步骤440:提取文字识别结果的多个特征并进行融合可以包括:计算文本框的邻接矩阵;利用多层感知网络提取每个文本框的第一特征;对第一特征进行图卷积运算,得到第二融合特征。
步骤450:将融合后的特征输入预先训练的BiLSTM-CRF模型,得到字符预测概率。
在上述步骤中,将第一融合特征和利用图学习网络学习到的第二融合特征输入BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆循环神经网络),BiLSTM的输出可以作为CRF(conditional random field,条件随机场)的输入。
步骤460:基于字符预测概率,确定关键信息。
在上述步骤中,根据字符预测概率,将最大值对应的结果输出,得到关键信息。
步骤470:将关键信息存入预设数据库。详细内容参见上述实施例中对步骤250的描述。
如图5所示,其为本申请一实施例的票据处理装置500的结构示意图,该装置可应用于图1所示的电子设备100,包括:获取模块510、矫正模块520、识别模块530、提取模块540和存储模块550。各个模块的原理关系如下:
获取模块510,用于获取待处理的票据图像;
矫正模块520,用于利用矫正网络对票据图像中的不规则文本区域进行矫正处理,得到矫正图像;
识别模块530,用于将矫正图像输入文字识别网络,得到文字识别结果;
提取模块540,用于利用抽取算法提取文字识别结果中的关键信息;
存储模块550,用于将关键信息存入预设数据库。
于一实施例中,票据处理装置500还包括:训练模块560,用于获取样本图像集,样本图像集包括多张具有基准点信息和文字信息的样本图像,利用样本图像集训练矫正网络和文字识别网络,直到满足预设终止条件。
于一实施例中,矫正模块520用于:确定不规则文本区域的第一基准点;计算第一基准点与预设基准点的转换参数;基于转换参数,在不规则文本区域生成像素采样网格;基于像素采样网格,进行双线性插值计算,得到矫正图像。
于一实施例中,提取模块540用于:提取文字识别结果的多个特征并进行融合;将融合后的特征输入预先训练的BiLSTM-CRF模型,得到字符预测概率;基于字符预测概率,确定关键信息。
于一实施例中,提取模块540具体用于:基于文字识别结果,确定锚点坐标和文本框的位置信息;计算文本框相对于锚点坐标的位置特征;提取文本框的图像特征和文本特征;对文本特征进行编码得到文本编码;对图像特征进行编码得到图像编码;将位置特征、文本编码和图像编码进行特征融合,得到第一融合特征。
于一实施例中,提取模块540具体还用于:计算文本框的邻接矩阵;利用多层感知网络提取每个文本框的第一特征;对第一特征进行图卷积运算,得到第二融合特征。
上述票据处理装置500的详细描述,请参见上述实施例中相关方法步骤的描述。
本发明实施例还提供了一种电子设备可读存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行上述实施例中方法的全部或部分流程。其中,存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等。存储介质还可以包括上述种类的存储器的组合。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上仅为本申请的优选实施例而已,仅用于说明本申请的技术方案,并不用于限制本申请。对于本技术领域的普通技术人员而言,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种票据处理方法,其特征在于,包括:
获取待处理的票据图像;
利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理,得到矫正图像;
将所述矫正图像输入文字识别网络,得到文字识别结果;其中,所述文字识别网络基于CTC算法构建;
基于所述文字识别结果,确定锚点坐标和文本框的位置信息;
计算所述文本框相对于所述锚点坐标的位置特征;
提取所述文本框的图像特征和文本特征;
对所述文本特征进行编码得到文本编码;
对所述图像特征进行编码得到图像编码;
将所述位置特征、所述文本编码和所述图像编码进行特征融合,得到第一融合特征;
将融合后的特征输入预先训练的BiLSTM-CRF模型,得到字符预测概率;
基于所述字符预测概率,确定关键信息;将所述关键信息存入预设数据库。
2.根据权利要求1所述的方法,其特征在于,所述利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理,得到矫正图像,包括:
确定所述不规则文本区域的第一基准点;
计算所述第一基准点与预设基准点的转换参数;
基于所述转换参数,在所述不规则文本区域生成像素采样网格;
基于所述像素采样网格,进行双线性插值计算,得到所述矫正图像。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取样本图像集,所述样本图像集包括多张具有基准点信息和文字信息的样本图像;
利用所述样本图像集训练所述矫正网络和所述文字识别网络,直到满足预设终止条件。
4.根据权利要求1所述的方法,其特征在于,所述提取所述文字识别结果的多个特征并进行融合,还包括:
计算所述文本框的邻接矩阵;
利用多层感知网络提取每个所述文本框的第一特征;
对所述第一特征进行图卷积运算,得到第二融合特征。
5.一种票据处理装置,其特征在于,包括:
获取模块,用于获取待处理的票据图像;
矫正模块,用于利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理,得到矫正图像;
识别模块,用于将所述矫正图像输入文字识别网络,得到文字识别结果;其中,所述文字识别网络基于CTC算法构建;
提取模块,用于基于所述文字识别结果,确定锚点坐标和文本框的位置信息;计算所述文本框相对于所述锚点坐标的位置特征;提取所述文本框的图像特征和文本特征;对所述文本特征进行编码得到文本编码;对所述图像特征进行编码得到图像编码;将所述位置特征、所述文本编码和所述图像编码进行特征融合,得到第一融合特征;将融合后的特征输入预先训练的BiLSTM-CRF模型,得到字符预测概率;基于所述字符预测概率,确定关键信息;存储模块,用于将所述关键信息存入预设数据库。
6.根据权利要求5所述的装置,其特征在于,还包括:
训练模块,用于获取样本图像集,所述样本图像集包括多张具有基准点信息和文字信息的样本图像,利用所述样本图像集训练所述矫正网络和所述文字识别网络,直到满足预设终止条件。
7.一种电子设备,其特征在于,包括:
存储器,用以存储计算机程序;
处理器,用以执行如权利要求1至4中任一项所述的方法。
8.一种非暂态电子设备可读存储介质,其特征在于,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行权利要求1至4中任一项所述的方法。
CN202011458669.7A 2020-12-10 2020-12-10 票据处理方法、装置、设备及存储介质 Active CN112560861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011458669.7A CN112560861B (zh) 2020-12-10 2020-12-10 票据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011458669.7A CN112560861B (zh) 2020-12-10 2020-12-10 票据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112560861A CN112560861A (zh) 2021-03-26
CN112560861B true CN112560861B (zh) 2022-11-18

Family

ID=75061930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011458669.7A Active CN112560861B (zh) 2020-12-10 2020-12-10 票据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112560861B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158895B (zh) * 2021-04-20 2023-11-14 北京中科江南信息技术股份有限公司 票据识别方法、装置、电子设备及存储介质
CN113269126A (zh) * 2021-06-10 2021-08-17 上海云扩信息科技有限公司 一种基于坐标转换的关键信息提取方法
CN113469067B (zh) * 2021-07-05 2024-04-16 北京市商汤科技开发有限公司 一种文档解析方法、装置、计算机设备和存储介质
CN113505773B (zh) * 2021-07-06 2024-03-05 树蛙信息科技(南京)有限公司 二维码的识别方法及装置
CN113569998A (zh) * 2021-08-31 2021-10-29 平安医疗健康管理股份有限公司 票据自动识别方法、装置、计算机设备及存储介质
CN114120322B (zh) * 2022-01-26 2022-05-10 深圳爱莫科技有限公司 订单商品数量识别结果校正方法及处理设备
CN114821603B (zh) * 2022-03-03 2023-09-01 北京百度网讯科技有限公司 票据识别方法、装置、电子设备以及存储介质
CN114596577A (zh) * 2022-03-17 2022-06-07 北京百度网讯科技有限公司 图像处理方法、装置、电子设备及存储介质
CN116863456B (zh) * 2023-05-30 2024-03-22 中国科学院自动化研究所 视频文本识别方法、装置及存储介质
CN117671796A (zh) * 2023-12-07 2024-03-08 中国人民解放军陆军第九五八医院 一种膝关节功能退变步态图特征识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110210468A (zh) * 2019-05-29 2019-09-06 电子科技大学 一种基于卷积神经网络特征融合迁移的文字识别方法
CN111476067A (zh) * 2019-01-23 2020-07-31 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN111476067A (zh) * 2019-01-23 2020-07-31 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
CN110210468A (zh) * 2019-05-29 2019-09-06 电子科技大学 一种基于卷积神经网络特征融合迁移的文字识别方法

Also Published As

Publication number Publication date
CN112560861A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112560861B (zh) 票据处理方法、装置、设备及存储介质
CN109657665B (zh) 一种基于深度学习的发票批量自动识别系统
WO2019174130A1 (zh) 票据识别方法、服务器及计算机可读存储介质
US20150161765A1 (en) Scaling mobile check photos to physical dimensions
CN112651289B (zh) 一种增值税普通发票智能识别与校验系统及其方法
CN109635714B (zh) 文档扫描图像的矫正方法及装置
US11710210B1 (en) Machine-learning for enhanced machine reading of non-ideal capture conditions
KR20090084968A (ko) 모바일 장치 시스템을 이용한 디지탈 이미지 아카이빙 및 검색
CN110188762B (zh) 中英文混合商户门店名称识别方法、系统、设备及介质
CN108564102A (zh) 图像聚类结果评价方法和装置
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN106709474A (zh) 一种手写电话号码识别、校验及信息发送系统
US11023720B1 (en) Document parsing using multistage machine learning
WO2002082799A2 (en) A method for selective image acquisition and transmission
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN116434252A (zh) 图像识别模型的训练及图像识别方法、装置、介质、设备
CN111881943A (zh) 图像分类的方法、装置、设备和计算机可读介质
CN112241737B (zh) 文字图像校正方法和装置
WO2021174869A1 (zh) 用户图片数据的处理方法、装置、计算机设备及存储介质
CN114187598B (zh) 手写数字识别方法、设备及计算机可读存储介质
CN113393385A (zh) 基于多尺度融合的无监督去雨方法、系统、装置及介质
CN108182398A (zh) 基于扫描设备调整扫描图像的方向的方法及装置
US9679179B2 (en) Method for processing information from a hand-held scanning device
CN113780294B (zh) 文本字符分割的方法和装置
CN115170414A (zh) 一种基于知识蒸馏的单幅图像去雨方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant