CN110175610B - 一种支持隐私保护的票据图像文本识别方法 - Google Patents
一种支持隐私保护的票据图像文本识别方法 Download PDFInfo
- Publication number
- CN110175610B CN110175610B CN201910436497.4A CN201910436497A CN110175610B CN 110175610 B CN110175610 B CN 110175610B CN 201910436497 A CN201910436497 A CN 201910436497A CN 110175610 B CN110175610 B CN 110175610B
- Authority
- CN
- China
- Prior art keywords
- bill
- text
- chars
- bounding box
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013135 deep learning Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种支持隐私保护的票据图像文本识别方法,涉及图像文本识别领域,所述方法包括以下步骤:首先通过用户票据请求端输入票据图像;然后通过所述用户票据请求端调用云端识别服务器接口,采用基于深度学习的端到端票据文本识别网络模型对所述票据图像的文本进行分析与识别;接着采用票据信息隐私保护方法对所述票据图像的识别全程实施加密保护;最后通过所述用户票据请求端得到文本行识别结果。本发明通过建立一种基于深度学习的端到端票据文本识别网络模型,利用明文票据数据集进行训练,捕获票据上的关键文本信息,提升票据录入效率,同时结合同态加密,提供一种票据信息隐私保护方案,保障用户的信息安全。
Description
技术领域
本发明涉及图像文本识别领域,尤其涉及一种支持隐私保护的票据图像文本识别方法。
背景技术
卷积神经网络是一类包含卷积计算且具有深度结构的深度神经网络,是深度学习的代表算法之一,其整体相当于一个从输入到输出的映射函数,大多由如下的一些操作组合而成:加法、减法、乘法、除法以及激活函数,其中减法和除法即为加法和乘法的逆运算,而闭区间上连续函数可用多项式级数一致性逼近,在神经网络中的很多激活函数都是在闭区间上连续的,比如Sigmoid、Tanh,所以大多数卷积神经网络可以用多项式级数一致性逼近。因此,当有一个在明文上训练好的神经网络模型后,其可以被直接应用于同态加密的密文中,得到加密后的结果,对其解密得到的结果与直接对明文进行计算结果一致。同态加密是一种特殊的加密形式,它对密文进行特定的代数运算(加法、乘法)后得到仍然是加密的结果,即是一种不需要访问数据本身就可以加工数据的方法。
近些年来,伴随着人工智能的发展,深度学习取得了巨大的进步,被广泛地应用于多个领域中。基于深度学习的票据图像文本识别可通过捕获票据上的关键文本信息,同步生成对应的文本。目前,票据文本识别服务通常会部署在云端,该服务可能由第三方服务提供商提供,这种方式依赖于用户上传票据图片到云端,然后再进行识别,而票据上金额等信息涉及用户的隐私,存在安全与隐私泄露的问题。
因此,本领域的技术人员致力于开发一种支持隐私保护的票据图像文本识别方法,通过建立一种基于深度学习的端到端票据文本识别网络模型,利用明文票据数据集进行训练,捕获票据上的关键文本信息,极大地提升了票据录入效率,同时结合同态加密,提供一种票据信息隐私保护方案,在票据图片识别的整个过程中保障用户的信息安全。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是克服通过上传票据至云端再进行文本识别的过程中导致用户安全与隐私泄露的问题。
为实现上述目的,本发明提供了一种支持隐私保护的票据图像文本识别方法,其特征在于,所述方法包括以下步骤:
步骤1、通过用户票据请求端输入票据图像;
步骤2、通过所述用户票据请求端调用云端识别服务器接口,采用基于深度学习的端到端票据文本识别网络模型对所述票据图像的文本进行分析与识别;
步骤3、采用票据信息隐私保护方法对所述票据图像的识别全程实施加密保护;
步骤4、通过所述用户票据请求端得到文本行识别结果。
进一步地,所述步骤2中的所述基于深度学习的端到端票据文本识别网络模型包括特征提取网络、检测网络和单字识别网络,所述网络模型为基于卷积神经网络,主要包含以下步骤:
步骤2.1、通过所述特征提取网络,经过卷积操作和激活函数计算,提取所述票据图像的低层特征Fl、中层特征Fm、高层特征Fh,对所述低层特征Fl进行下采样Down(Fl),对所述高层特征Fh进行上采样Up(Fh),并通过concat函数连接Fl、Fm、Fh得到融合特征Ffused,即:
Ffused=concat(Up(Fh),Fm,Down(Fl))
步骤2.2、通过所述检测网络,所述高层特征Fh对票据文本行进行检测并得到文本行包围框Blines,所述中层特征Fm对票据文本行中的单字进行检测并得到单字包围框Bchars;
步骤2.3、通过所述单字识别网络,从所述融合特征Ffused中提取所述单字包围框Bchars对应的单字融合特征Ffused_chars,并将所述单字融合特征Ffused_chars导入所述单字识别网络进行分类识别;
步骤2.4、根据票据文本的书写规律,从左至右将所述票据文本行中的单字的识别结果组合起来,得到最终的识别结果,即所述文本行包围框Blines及对应的文本Textlines。
进一步地,所述步骤2.2中的所述检测网络还包括对所述票据文本行进行检测的高层特征Fh特征图和对所述票据文本行中的单字进行检测的中层特征Fm特征图;所述高层特征Fh特征图中每个像素点有五个预测值(Sl,dl1,dl2,dl3,dl4),其中Sl表示所述像素点是否在所述票据文本行内,dl1,dl2,dl3,dl4分别表征所述像素点距离文本行包围框四条边的距离;所述中层特征Fm特征图中每个像素点有五个预测值(Sc,dc1,dc2,dc3,dc4),其中Sc表示所述像素点是否在某个单字区域内,dc1,dc2,dc3,dc4分别表征所述像素点距离多单字包围框四条边的距离。
进一步地,所述特征图设置为预测一个包围框及其置信度;对于所述高层特征Fh特征图,忽略置信度小于0.7的包围框,剩余的包围框通过阈值为0.3的非极大值抑制算法(NMS)过滤掉重叠的框,得到所述文本行包围框Blines;对于所述中层特征Fm特征图,忽略置信度小于0.6的包围框,剩余的包围框通过阈值为0.7的NMS算法过滤掉重叠的框,得到所述单字包围框Bchars。
进一步地,所述步骤2.3中的所述单字识别网络由一个全局平均池化(GlobalAverage Pooling,GPA)和两层1x1的卷积组成,即:
Textchars=Conv2(Conv1(GPA(Ffused_chars)))
其中,Conv1的卷积数量为1024,Conv2的卷积数量为单字类别数。
进一步地,所述步骤3中的所述票据信息隐私保护方法具体为:
步骤3.1、通过所述用户票据请求端提取所述票据图像的所述低层特征Fl,采用私有密钥k对低层特征Fl进行同态加密Ek,得到同态加密低层特征Ek(Fl);
步骤3.2、通过所述用户票据请求端调用云端识别服务的特征提取网络接口和检测网络接口,所述基于深度学习的端到端票据文本识别网络模型可直接对所述同态加密低层特征Ek(Fl)进行处理,得到同态加密的融合特征Ek(Ffused)、单字包围框坐标Ek(Bchars)、文本行包围框坐标Ek(Blines);
步骤3.3、采用密钥k解密Ek(Bchars)、Ek(Blines),得到单字包围框坐标Bchars、文本行包围框坐标Blines,并从Ek(Ffused)中提取得到Bchars对应的同态加密单字融合特征Ek(Ffused_chars),再打乱次序,得到Shuffled(Ek′(Ffused_chars));
步骤3.4、通过所述用户票据请求端调用云端识别服务的单字识别网络接口,对Shuffled(Ek′(Ffused_chars))进行识别,得到同态加密并打乱次序的单字识别结果Ek(Textchars);
步骤3.5、用户解密Ek(Textchars)得到单字识别结果Textchars,对所述单字识别结果Textchars重新排序,并由文本行、单字包围框坐标对其从左至右进行组合,得到最终的所述文本行识别结果Textlines。
进一步地,所述步骤3.1中的所述低层特征Fl的高、宽、通道数分别为H、W、C,即所述低层特征Fl是一个C×H×W的矩阵。
进一步地,所述票据信息隐私保护方法将所述特征提取网络拆分为两部分,低层特征提取部分部署在所述用户票据请求端,其余部分部署在所述云端服务器。
进一步地,所述单字识别网络可对任意顺序的所述票据文本行中的单字进行识别。
进一步地,若所述单字包围框的80%在某所述文本行包围框中,则认为所述单字属于所述文本行。
与现有技术相比,通过本发明的实施,至少具有以下有益的技术效果:
(1)本发明提供的一种支持隐私保护的票据图像文本识别方法,是基于深度学习的端到端的网络,其输入是票据图像,利用了图像的多层级特征,可直接输出票据文本行的包围框及其对应的文本,且整个网络是端到端的;
(2)利用本发明提供的票据信息隐私保护方法,用户票据请求端上传到云端服务器的票据信息都是经过同态加密的,使用系统的用户无需担心任何隐私信息的泄露;
(3)在用户票据请求端与云端服务器的交互传输过程中,传输内容也都是经过加密的,避免了网络传输中不安全因素所造成的用户隐私泄露风险。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例提供的一种支持隐私保护的票据图像文本识别方法示意图;
图2是本发明的一个较佳实施例提供的基于深度学习的端到端票据文本识别网络模型示意图;
图3是本发明的一个较佳实施例提供的票据信息隐私保护方法示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1所示,为本发明的一个较佳实施例提供的一种支持隐私保护的票据图像文本识别方法示意图,所述方法包括以下步骤:
步骤1、通过用户票据请求端输入票据图像;
步骤2、通过所述用户票据请求端调用云端识别服务器接口,采用基于深度学习的端到端票据文本识别网络模型对所述票据图像的文本进行分析与识别,包括特征提取网络、检测网络和单字识别网络;如图2所示,整个网络模型是一个全卷积神经网络,由一系列卷积以及激活函数组成,在闭区间上连续,可以采用多项式级数一致性逼近,可在明文票据数据集上进行训练,主要包含以下步骤:
步骤2.1、通过所述特征提取网络,经过卷积操作和激活函数计算,提取所述票据图像的低层特征Fl、中层特征Fm、高层特征Fh,由于三层特征图的尺度不一致,需对所述低层特征Fl进行下采样Down(Fl),对所述高层特征Fh进行上采样Up(Fh),并通过concat函数连接Fl、Fm、Fh得到融合特征Ffused,即:
Ffused=concat(Up(Fh),Fm,Down(Fl))
其中,高层特征Fh感受野大,具有高级语义信息;低层特征Fl感受野小,关注图像中的细节信息;中层特征Fm介于两者之间。对于文本来说,具有高级语义信息的高层特征有着非常重要作用,同时一些精细的细节信息对于区分形近字也有着至关重要的作用,因此需对Fl、Fm、Fh进行融合得到融合特征Ffused;
步骤2.2、通过所述检测网络,所述高层特征Fh对票据文本行进行检测并得到文本行包围框Blines,所述中层特征Fm对票据文本行中的单字进行检测并得到单字包围框Bchars;
检测网络中包含了两个级别的对象,票据文本行以及票据文本行中的单字。由于票据文本行通常具有较长的宽度,故采用具有大感受野的高层特征Fh来进行检测,同时票据文本行通常趋于水平,故采用水平的矩形框Bline来包围文本行。高层特征Fh特征图中每个像素点预测五个值(Sl,dl1,dl2,dl3,dl4),其中Sl用来表示该点是否在文本行区域内,dl1,dl2,dl3,dl4分别表征该像素点距离包围框Bline四条边的距离。如此,高层特征Fh特征图中每个像素点都会预测一个文本行包围框及其置信度,忽略置信度小于0.7的包围框,剩余的包围框通过阈值为0.3的非极大值抑制算法(NMS)过滤掉大量重叠的框,得到最终检测得到的文本行包围框Blines;
而票据文本行中的单字通常较小且较为紧密,故采用具有中级感受野的中层特征Fm来检测单字。同样地,采用水平的矩形框来包围单字,称该框为Bchars。在中层特征Fm特征图中每个像素点预测五个值(Sc,dc1,dc2,dc3,dc4),其中Sc表示该点是否属于某个单字区域内,dc1,dc2,dc3,dc4分别表征该像素点距离框Bchar四条边的距离。如此,中层特征Fm特征图中的每个像素点都会产生一个单字包围框及其置信度,忽略置信度小于0.6的包围框,剩余的包围框通过阈值为0.7的NMS过滤掉大量重叠的框,得到最终检测得到的单字包围框Bchars;
步骤2.3、通过所述单字识别网络,从所述融合特征Ffused中提取所述单字包围框Bchars对应的单字融合特征Ffused_chars,并将所述单字融合特征Ffused_chars导入所述单字识别网络进行分类识别;
单字识别网络由一个全局平均池化(Global Average Pooling,GPA)和两层1x1的卷积组成,可对任意顺序的所述票据文本行中的单字进行识别,)即:
Textchars=Conv2(Conv1(GPA(Ffused_chars)))
其中,Conv1的卷积数量为1024,Conv2的卷积数量为单字类别数;
步骤2.4、根据票据文本的书写规律,从左至右将所述票据文本行中的单字的识别结果组合起来,得到最终的识别结果,即所述文本行包围框Blines及对应的文本Textlines;
每个票据文本行均由若干单字组成,若一个单字包围框的80%在某票据文本行包围框中,则认为该单字属于该文本行;整个基于深度学习的端到端票据图像文本识别网络模型是端到端的,因此整个网络模型是连续的,输入票据图像,直接输出票据图像上的文本行包围框坐标及其识别结果;与普通卷积神经网络一致,其可在非加密票据图像上进行训练,得到训练好的票据文本识别网络模型M;
步骤3、采用票据信息隐私保护方法对所述票据图像的识别全程实施加密保护;
当模型M训练好后,通常会部署在具有计算能力的云端服务器上,当用户要进行票据识别时,需要上传票据图像至云端服务器,调用模型M对其进行识别,由于上传票据图像会暴露用户隐私,存在安全隐患,本发明采用同态加密提供一种针对票据信息的隐私保护方法。在本实施例中,特征提取网络通常具有5个阶段,阶段1,2输出的特征过于浅层,可将阶段3输出的特征视为低层特征,阶段4输出的特征视为中层特征,阶段5输出的特征视为高层特征。为了减小同态加密需要计算的深度,在部署时,将特征提取阶段1、2、3部署在用户票据请求端,其余部分接口部署在远程具有一定计算能力的机器上,该远程调用接口可以基于HTTP服务或RPC服务等;
如图3所示,本发明的一个较佳实施例中采用票据信息隐私保护方法具体为:
步骤3.1、通过所述用户票据请求端提取所述票据图像的所述低层特征Fl,低层特征Fl的高、宽、通道数分别为H、W、C,即低层特征Fl是一个C×H×W的矩阵;采用私有密钥k对低层特征Fl进行同态加密Ek,得到同态加密低层特征Ek(Fl);
步骤3.2、通过所述用户票据请求端调用云端识别服务的特征提取网络接口和检测网络接口,所述基于深度学习的端到端票据文本识别网络模型可直接对所述同态加密低层特征Ek(Fl)进行处理,得到同态加密的融合特征Ek(Ffused)、单字包围框坐标Ek(Bchars)、文本行包围框坐标Ek(Blines);
步骤3.3、采用密钥k解密Ek(Bchars)、Ek(Blines),得到单字包围框坐标Bchars、文本行包围框坐标Blines,并从Ek(Ffused)中提取得到Bchars对应的同态加密单字融合特征Ek(Ffused_chars),再打乱次序,得到Shuffled(Ek′(Ffused_chars));
步骤3.4、通过所述用户票据请求端调用云端识别服务的单字识别网络接口,对Shuffled(Ek′(Ffused_chars))进行识别,得到同态加密并打乱次序的单字识别结果Ek(Textchars);
步骤3.5、用户解密Ek(Textchars)得到单字识别结果Textchars,对所述单字识别结果Textchars重新排序,并由文本行、单字包围框坐标对其从左至右进行组合,得到最终的所述文本行识别结果Textlines;
步骤4、通过所述用户票据请求端得到文本行识别结果。
至此,用户完成票据信息的识别过程,由于基于深度学习的端到端票据文本识别网络模型是连续的,可以用多项式级数一致性逼近。因此,该模型可被直接应用于同态加密过的密文中,得到的结果与网络直接对明文进行处理一致。对于用户票据图像而言,上传到云端服务器的任何信息都是经过同态加密的,整个系统既保护了用户隐私,也实现了票据文本识别功能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (8)
1.一种支持隐私保护的票据图像文本识别方法,其特征在于,所述方法包括以下步骤:
步骤1、通过用户票据请求端输入票据图像;
步骤2、通过所述用户票据请求端调用云端识别服务器接口,采用基于深度学习的端到端票据文本识别网络模型对所述票据图像的文本进行分析与识别;
步骤3、采用票据信息隐私保护方法对所述票据图像的识别全程实施加密保护;
步骤4、通过所述用户票据请求端得到文本行识别结果;
其中,
所述步骤3中的所述票据信息隐私保护方法具体为:
步骤3.1、通过所述用户票据请求端提取所述票据图像的低层特征Fl,采用私有密钥k对所述低层特征Fl进行同态加密Ek,得到同态加密低层特征Ek(Fl);
步骤3.2、通过所述用户票据请求端调用云端识别服务的特征提取网络接口和检测网络接口,所述基于深度学习的端到端票据文本识别网络模型可直接对所述同态加密低层特征Ek(Fl)进行处理,得到同态加密的融合特征Ek(Ffused)、单字包围框坐标Ek(Bchars)、文本行包围框坐标Ek(Blines);
步骤3.3、采用所述私有密钥k解密Ek(Bchars)、Ek(Blines),得到单字包围框坐标Bchars、文本行包围框坐标Blines,并从Ek(Ffused)中提取得到Bchars对应的同态加密单字融合特征Ek(Ffused_chars),再打乱次序,得到Shuffled(Ek′(Ffused_chars));
步骤3.4、通过所述用户票据请求端调用云端识别服务的单字识别网络接口,对Shuffled(Ek′(Ffused_chars))进行识别,得到同态加密并打乱次序的单字识别结果Ek(Textchars);
步骤3.5、用户解密Ek(Textchars)得到单字识别结果Textchars,对所述单字识别结果Textchars重新排序,并由文本行、单字包围框坐标对其从左至右进行组合,得到最终的所述文本行识别结果Textlines;
所述步骤2中的所述基于深度学习的端到端票据文本识别网络模型包括特征提取网络、检测网络和单字识别网络,所述网络模型为基于卷积神经网络,主要包含以下步骤:
步骤2.1、通过所述特征提取网络,经过卷积操作和激活函数计算,提取所述票据图像的低层特征Fl、中层特征Fm、高层特征Fh,对所述低层特征Fl进行下采样Down(Fl),对所述高层特征Fh进行上采样Up(Fh),并通过concat函数连接Fl、Fm、Fh得到融合特征Ffused,即:
Ffused=concat(Up(Fh),Fm,Down(Fl))
步骤2.2、通过所述检测网络,所述高层特征Fh对票据文本行进行检测并得到文本行包围框Blines,所述中层特征Fm对票据文本行中的单字进行检测并得到单字包围框Bchars;
步骤2.3、通过所述单字识别网络,从所述融合特征Ffused中提取所述单字包围框Bchars对应的单字融合特征Ffused_chars,并将所述单字融合特征Ffused_chars导入所述单字识别网络进行分类识别;
步骤2.4、根据票据文本的书写规律,从左至右将所述票据文本行中的单字的识别结果组合起来,得到最终的识别结果,即所述文本行包围框Blines及对应的文本Textlines。
2.如权利要求1所述的支持隐私保护的票据图像文本识别方法,其特征在于,所述步骤2.2中的所述检测网络还包括对所述票据文本行进行检测的高层特征Fh特征图和对所述票据文本行中的单字进行检测的中层特征Fm特征图;所述高层特征Fh特征图中每个像素点有五个预测值(Sl,dl1,dl2,dl3,dl4),其中Sl表示所述像素点是否在所述票据文本行内,dl1,dl2,dl3,dl4分别表征所述像素点距离文本行包围框四条边的距离;所述中层特征Fm特征图中每个像素点有五个预测值(Sc,dc1,dc2,dc3,dc4),其中Sc表示所述像素点是否在某个单字区域内,dc1,dc2,dc3,dc4分别表征所述像素点距离单字包围框四条边的距离。
3.如权利要求2所述的支持隐私保护的票据图像文本识别方法,其特征在于,所述特征图设置为预测一个包围框及其置信度;对于所述高层特征Fh特征图,忽略置信度小于0.7的包围框,剩余的包围框通过阈值为0.3的非极大值抑制算法(NMS)过滤掉重叠的框,得到所述文本行包围框Blines;对于所述中层特征Fm特征图,忽略置信度小于0.6的包围框,剩余的包围框通过阈值为0.7的NMS算法过滤掉重叠的框,得到所述单字包围框Bchars。
4.如权利要求1所述的支持隐私保护的票据图像文本识别方法,其特征在于,所述步骤2.3中的所述单字识别网络由一个全局平均池化(Global Average Pooling,GPA)和两层1x1的卷积组成,即:
Textchars=Conv2(Conv1(GPA(Ffused_chars)))
其中,Conv1的卷积数量为1024,Conv2的卷积数量为单字类别数。
5.如权利要求1所述的支持隐私保护的票据图像文本识别方法,其特征在于,所述步骤3.1中的所述低层特征Fl的高、宽、通道数分别为H、W、C,即所述低层特征Fl是一个C×H×W的矩阵。
6.如权利要求1所述的支持隐私保护的票据图像文本识别方法,其特征在于,所述票据信息隐私保护方法将所述特征提取网络拆分为两部分,低层特征提取部分部署在所述用户票据请求端,其余部分部署在所述云端服务器。
7.如权利要求1所述的支持隐私保护的票据图像文本识别方法,其特征在于,所述单字识别网络可对任意顺序的所述票据文本行中的单字进行识别。
8.如权利要求1所述的支持隐私保护的票据图像文本识别方法,其特征在于,若所述单字包围框的80%在某所述文本行包围框中,则认为所述单字属于所述文本行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436497.4A CN110175610B (zh) | 2019-05-23 | 2019-05-23 | 一种支持隐私保护的票据图像文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436497.4A CN110175610B (zh) | 2019-05-23 | 2019-05-23 | 一种支持隐私保护的票据图像文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175610A CN110175610A (zh) | 2019-08-27 |
CN110175610B true CN110175610B (zh) | 2023-09-05 |
Family
ID=67692051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910436497.4A Active CN110175610B (zh) | 2019-05-23 | 2019-05-23 | 一种支持隐私保护的票据图像文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175610B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027443B (zh) * | 2019-12-04 | 2023-04-07 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
CN113139534B (zh) * | 2021-05-06 | 2022-07-15 | 上海交通大学 | 两阶段安全多方计算的图片文本定位识别方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015103849A1 (zh) * | 2014-01-08 | 2015-07-16 | 中兴通讯股份有限公司 | 网页中文本信息保护方法、装置和系统、计算机存储介质 |
US9288039B1 (en) * | 2014-12-01 | 2016-03-15 | Xerox Corporation | Privacy-preserving text language identification using homomorphic encryption |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN106096437A (zh) * | 2016-06-02 | 2016-11-09 | 努比亚技术有限公司 | 一种证件卡片管理装置和方法 |
WO2016197381A1 (en) * | 2015-06-12 | 2016-12-15 | Sensetime Group Limited | Methods and apparatus for recognizing text in an image |
WO2017202232A1 (zh) * | 2016-05-24 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 名片内容识别方法、电子设备和存储介质 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108830284A (zh) * | 2018-06-27 | 2018-11-16 | 电子科技大学 | 基于密文图像灰度直方图向量的图像识别方法 |
CN109145829A (zh) * | 2018-08-24 | 2019-01-04 | 中共中央办公厅电子科技学院 | 一种基于深度学习和同态加密的安全高效的人脸识别方法 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN109522966A (zh) * | 2018-11-28 | 2019-03-26 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9847974B2 (en) * | 2016-04-28 | 2017-12-19 | Xerox Corporation | Image document processing in a client-server system including privacy-preserving text recognition |
-
2019
- 2019-05-23 CN CN201910436497.4A patent/CN110175610B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015103849A1 (zh) * | 2014-01-08 | 2015-07-16 | 中兴通讯股份有限公司 | 网页中文本信息保护方法、装置和系统、计算机存储介质 |
US9288039B1 (en) * | 2014-12-01 | 2016-03-15 | Xerox Corporation | Privacy-preserving text language identification using homomorphic encryption |
WO2016197381A1 (en) * | 2015-06-12 | 2016-12-15 | Sensetime Group Limited | Methods and apparatus for recognizing text in an image |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
WO2017202232A1 (zh) * | 2016-05-24 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 名片内容识别方法、电子设备和存储介质 |
CN106096437A (zh) * | 2016-06-02 | 2016-11-09 | 努比亚技术有限公司 | 一种证件卡片管理装置和方法 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108830284A (zh) * | 2018-06-27 | 2018-11-16 | 电子科技大学 | 基于密文图像灰度直方图向量的图像识别方法 |
CN109145829A (zh) * | 2018-08-24 | 2019-01-04 | 中共中央办公厅电子科技学院 | 一种基于深度学习和同态加密的安全高效的人脸识别方法 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN109522966A (zh) * | 2018-11-28 | 2019-03-26 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
Non-Patent Citations (1)
Title |
---|
A Novel Text Structure Feature Extractor for Chinese Scene Text Detection and Recognition;XIAOHANG REN等;《IEEE Access》;20170303;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110175610A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084734B (zh) | 一种基于物体局部生成对抗网络的大数据权属保护方法 | |
CN107545248B (zh) | 生物特征活体检测方法、装置、设备及存储介质 | |
Meikap et al. | Directional PVO for reversible data hiding scheme with image interpolation | |
CN110175610B (zh) | 一种支持隐私保护的票据图像文本识别方法 | |
CN111783756A (zh) | 文本识别方法及装置、电子设备和存储介质 | |
Amerini et al. | Deep learning for multimedia forensics | |
Singh et al. | SiteForge: Detecting and localizing forged images on microblogging platforms using deep convolutional neural network | |
Naik et al. | Video classification using 3D convolutional neural network | |
CN115546076A (zh) | 一种基于卷积网络的遥感图像薄云去除方法 | |
Pentyala et al. | Privacy-preserving video classification with convolutional neural networks | |
Sarmah et al. | Optimization models in steganography using metaheuristics | |
das Neves et al. | A fast fully octave convolutional neural network for document image segmentation | |
Shah et al. | Deep Learning model-based Multimedia forgery detection | |
CN110992367A (zh) | 对带有遮挡区域的图像进行语义分割的方法 | |
CN111284157B (zh) | 一种基于分数阶隐写技术的商品包装防伪印刷及验证方法 | |
CN109561236B (zh) | 图像加密、识别方法装置、设备及介质 | |
CN109034059B (zh) | 静默式人脸活体检测方法、装置、存储介质及处理器 | |
Geradts et al. | Interpol review of forensic video analysis, 2019–2022 | |
Hebbar et al. | Image forgery localization using U-Net based architecture and error level analysis | |
Pichardo-Méndez et al. | LSB pseudorandom algorithm for image steganography using skew tent map | |
Lin et al. | On constructing A better correlation predictor for PRNU-based image forgery localization | |
CN112529760A (zh) | 基于对抗噪声和云端分离的图像隐私保护滤镜生成方法 | |
Li et al. | A multi-scale content-insensitive fusion cnn for source social network identification | |
Qian et al. | Web Photo Source Identification based on Neural Enhanced Camera Fingerprint | |
Mall et al. | Detection of structural tampering in a digital image using canny edge detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |