CN110175610B

CN110175610B - 一种支持隐私保护的票据图像文本识别方法

Info

Publication number: CN110175610B
Application number: CN201910436497.4A
Authority: CN
Inventors: 高雨婷; 黄征; 郭捷; 邱卫东
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2023-09-05
Anticipated expiration: 2039-05-23
Also published as: CN110175610A

Abstract

本发明公开了一种支持隐私保护的票据图像文本识别方法，涉及图像文本识别领域，所述方法包括以下步骤：首先通过用户票据请求端输入票据图像；然后通过所述用户票据请求端调用云端识别服务器接口，采用基于深度学习的端到端票据文本识别网络模型对所述票据图像的文本进行分析与识别；接着采用票据信息隐私保护方法对所述票据图像的识别全程实施加密保护；最后通过所述用户票据请求端得到文本行识别结果。本发明通过建立一种基于深度学习的端到端票据文本识别网络模型，利用明文票据数据集进行训练，捕获票据上的关键文本信息，提升票据录入效率，同时结合同态加密，提供一种票据信息隐私保护方案，保障用户的信息安全。

Description

一种支持隐私保护的票据图像文本识别方法

技术领域

本发明涉及图像文本识别领域，尤其涉及一种支持隐私保护的票据图像文本识别方法。

背景技术

卷积神经网络是一类包含卷积计算且具有深度结构的深度神经网络，是深度学习的代表算法之一，其整体相当于一个从输入到输出的映射函数，大多由如下的一些操作组合而成：加法、减法、乘法、除法以及激活函数，其中减法和除法即为加法和乘法的逆运算，而闭区间上连续函数可用多项式级数一致性逼近，在神经网络中的很多激活函数都是在闭区间上连续的，比如Sigmoid、Tanh，所以大多数卷积神经网络可以用多项式级数一致性逼近。因此，当有一个在明文上训练好的神经网络模型后，其可以被直接应用于同态加密的密文中，得到加密后的结果，对其解密得到的结果与直接对明文进行计算结果一致。同态加密是一种特殊的加密形式，它对密文进行特定的代数运算(加法、乘法)后得到仍然是加密的结果，即是一种不需要访问数据本身就可以加工数据的方法。

近些年来，伴随着人工智能的发展，深度学习取得了巨大的进步，被广泛地应用于多个领域中。基于深度学习的票据图像文本识别可通过捕获票据上的关键文本信息，同步生成对应的文本。目前，票据文本识别服务通常会部署在云端，该服务可能由第三方服务提供商提供，这种方式依赖于用户上传票据图片到云端，然后再进行识别，而票据上金额等信息涉及用户的隐私，存在安全与隐私泄露的问题。

因此，本领域的技术人员致力于开发一种支持隐私保护的票据图像文本识别方法，通过建立一种基于深度学习的端到端票据文本识别网络模型，利用明文票据数据集进行训练，捕获票据上的关键文本信息，极大地提升了票据录入效率，同时结合同态加密，提供一种票据信息隐私保护方案，在票据图片识别的整个过程中保障用户的信息安全。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是克服通过上传票据至云端再进行文本识别的过程中导致用户安全与隐私泄露的问题。

为实现上述目的，本发明提供了一种支持隐私保护的票据图像文本识别方法，其特征在于，所述方法包括以下步骤：

步骤1、通过用户票据请求端输入票据图像；

步骤2、通过所述用户票据请求端调用云端识别服务器接口，采用基于深度学习的端到端票据文本识别网络模型对所述票据图像的文本进行分析与识别；

步骤3、采用票据信息隐私保护方法对所述票据图像的识别全程实施加密保护；

步骤4、通过所述用户票据请求端得到文本行识别结果。

进一步地，所述步骤2中的所述基于深度学习的端到端票据文本识别网络模型包括特征提取网络、检测网络和单字识别网络，所述网络模型为基于卷积神经网络，主要包含以下步骤：

步骤2.1、通过所述特征提取网络，经过卷积操作和激活函数计算，提取所述票据图像的低层特征F_l、中层特征F_m、高层特征F_h，对所述低层特征F_l进行下采样Down(F_l)，对所述高层特征F_h进行上采样Up(F_h)，并通过concat函数连接F_l、F_m、F_h得到融合特征F_fused，即：

F_fused＝concat(Up(F_h)，F_m，Down(Fl))

步骤2.2、通过所述检测网络，所述高层特征F_h对票据文本行进行检测并得到文本行包围框B_lines，所述中层特征F_m对票据文本行中的单字进行检测并得到单字包围框B_chars；

步骤2.3、通过所述单字识别网络，从所述融合特征F_fused中提取所述单字包围框B_chars对应的单字融合特征F_{fused_chars}，并将所述单字融合特征F_{fused_chars}导入所述单字识别网络进行分类识别；

步骤2.4、根据票据文本的书写规律，从左至右将所述票据文本行中的单字的识别结果组合起来，得到最终的识别结果，即所述文本行包围框B_lines及对应的文本Text_lines。

进一步地，所述步骤2.2中的所述检测网络还包括对所述票据文本行进行检测的高层特征Fh特征图和对所述票据文本行中的单字进行检测的中层特征F_m特征图；所述高层特征F_h特征图中每个像素点有五个预测值(S_l，d_l1，d_l2，d_l3，d_l4)，其中S_l表示所述像素点是否在所述票据文本行内，d_l1，d_l2，d_l3，d_l4分别表征所述像素点距离文本行包围框四条边的距离；所述中层特征F_m特征图中每个像素点有五个预测值(S_c，d_c1，d_c2，d_c3，d_c4)，其中S_c表示所述像素点是否在某个单字区域内，d_c1，d_c2，d_c3，d_c4分别表征所述像素点距离多单字包围框四条边的距离。

进一步地，所述特征图设置为预测一个包围框及其置信度；对于所述高层特征F_h特征图，忽略置信度小于0.7的包围框，剩余的包围框通过阈值为0.3的非极大值抑制算法(NMS)过滤掉重叠的框，得到所述文本行包围框B_lines；对于所述中层特征F_m特征图，忽略置信度小于0.6的包围框，剩余的包围框通过阈值为0.7的NMS算法过滤掉重叠的框，得到所述单字包围框B_chars。

进一步地，所述步骤2.3中的所述单字识别网络由一个全局平均池化(GlobalAverage Pooling，GPA)和两层1x1的卷积组成，即：

Text_chars＝Conv₂(Conv₁(GPA(F_{fused_chars})))

其中，Conv₁的卷积数量为1024，Conv₂的卷积数量为单字类别数。

进一步地，所述步骤3中的所述票据信息隐私保护方法具体为：

步骤3.1、通过所述用户票据请求端提取所述票据图像的所述低层特征F_l，采用私有密钥k对低层特征F_l进行同态加密E_k，得到同态加密低层特征E_k(F_l)；

步骤3.2、通过所述用户票据请求端调用云端识别服务的特征提取网络接口和检测网络接口，所述基于深度学习的端到端票据文本识别网络模型可直接对所述同态加密低层特征E_k(F_l)进行处理，得到同态加密的融合特征E_k(F_fused)、单字包围框坐标E_k(B_chars)、文本行包围框坐标E_k(B_lines)；

步骤3.3、采用密钥k解密E_k(B_chars)、E_k(B_lines)，得到单字包围框坐标B_chars、文本行包围框坐标B_lines，并从E_k(F_fused)中提取得到B_chars对应的同态加密单字融合特征E_k(F_{fused_chars})，再打乱次序，得到Shuffled(E_k′(F_{fused_chars}))；

步骤3.4、通过所述用户票据请求端调用云端识别服务的单字识别网络接口，对Shuffled(E_k′(F_{fused_chars}))进行识别，得到同态加密并打乱次序的单字识别结果E_k(Text_chars)；

步骤3.5、用户解密E_k(Text_chars)得到单字识别结果Text_chars，对所述单字识别结果Text_chars重新排序，并由文本行、单字包围框坐标对其从左至右进行组合，得到最终的所述文本行识别结果Text_lines。

进一步地，所述步骤3.1中的所述低层特征F_l的高、宽、通道数分别为H、W、C，即所述低层特征F_l是一个C×H×W的矩阵。

进一步地，所述票据信息隐私保护方法将所述特征提取网络拆分为两部分，低层特征提取部分部署在所述用户票据请求端，其余部分部署在所述云端服务器。

进一步地，所述单字识别网络可对任意顺序的所述票据文本行中的单字进行识别。

进一步地，若所述单字包围框的80％在某所述文本行包围框中，则认为所述单字属于所述文本行。

与现有技术相比，通过本发明的实施，至少具有以下有益的技术效果：

(1)本发明提供的一种支持隐私保护的票据图像文本识别方法，是基于深度学习的端到端的网络，其输入是票据图像，利用了图像的多层级特征，可直接输出票据文本行的包围框及其对应的文本，且整个网络是端到端的；

(2)利用本发明提供的票据信息隐私保护方法，用户票据请求端上传到云端服务器的票据信息都是经过同态加密的，使用系统的用户无需担心任何隐私信息的泄露；

(3)在用户票据请求端与云端服务器的交互传输过程中，传输内容也都是经过加密的，避免了网络传输中不安全因素所造成的用户隐私泄露风险。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例提供的一种支持隐私保护的票据图像文本识别方法示意图；

图2是本发明的一个较佳实施例提供的基于深度学习的端到端票据文本识别网络模型示意图；

图3是本发明的一个较佳实施例提供的票据信息隐私保护方法示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，为本发明的一个较佳实施例提供的一种支持隐私保护的票据图像文本识别方法示意图，所述方法包括以下步骤：

步骤1、通过用户票据请求端输入票据图像；

步骤2、通过所述用户票据请求端调用云端识别服务器接口，采用基于深度学习的端到端票据文本识别网络模型对所述票据图像的文本进行分析与识别，包括特征提取网络、检测网络和单字识别网络；如图2所示，整个网络模型是一个全卷积神经网络，由一系列卷积以及激活函数组成，在闭区间上连续，可以采用多项式级数一致性逼近，可在明文票据数据集上进行训练，主要包含以下步骤：

步骤2.1、通过所述特征提取网络，经过卷积操作和激活函数计算，提取所述票据图像的低层特征F_l、中层特征F_m、高层特征F_h，由于三层特征图的尺度不一致，需对所述低层特征F_l进行下采样Down(F_l)，对所述高层特征F_h进行上采样Up(F_h)，并通过concat函数连接F_l、F_m、F_h得到融合特征F_fused，即：

F_fused＝concat(Up(F_h)，F_m，Down(F_l))

其中，高层特征F_h感受野大，具有高级语义信息；低层特征F_l感受野小，关注图像中的细节信息；中层特征F_m介于两者之间。对于文本来说，具有高级语义信息的高层特征有着非常重要作用，同时一些精细的细节信息对于区分形近字也有着至关重要的作用，因此需对F_l、F_m、F_h进行融合得到融合特征F_fused；

检测网络中包含了两个级别的对象，票据文本行以及票据文本行中的单字。由于票据文本行通常具有较长的宽度，故采用具有大感受野的高层特征F_h来进行检测，同时票据文本行通常趋于水平，故采用水平的矩形框B_line来包围文本行。高层特征F_h特征图中每个像素点预测五个值(S_l，d_l1，d_l2，d_l3，d_l4)，其中S_l用来表示该点是否在文本行区域内，d_l1，d_l2，d_l3，d_l4分别表征该像素点距离包围框B_line四条边的距离。如此，高层特征F_h特征图中每个像素点都会预测一个文本行包围框及其置信度，忽略置信度小于0.7的包围框，剩余的包围框通过阈值为0.3的非极大值抑制算法(NMS)过滤掉大量重叠的框，得到最终检测得到的文本行包围框B_lines；

而票据文本行中的单字通常较小且较为紧密，故采用具有中级感受野的中层特征F_m来检测单字。同样地，采用水平的矩形框来包围单字，称该框为B_chars。在中层特征F_m特征图中每个像素点预测五个值(S_c，d_c1，d_c2，d_c3，d_c4)，其中S_c表示该点是否属于某个单字区域内，d_c1，d_c2，d_c3，d_c4分别表征该像素点距离框B_char四条边的距离。如此，中层特征F_m特征图中的每个像素点都会产生一个单字包围框及其置信度，忽略置信度小于0.6的包围框，剩余的包围框通过阈值为0.7的NMS过滤掉大量重叠的框，得到最终检测得到的单字包围框B_chars；

单字识别网络由一个全局平均池化(Global Average Pooling，GPA)和两层1x1的卷积组成，可对任意顺序的所述票据文本行中的单字进行识别，)即：

Text_chars＝Conv₂(Conv₁(GPA(F_{fused_chars})))

其中，Conv₁的卷积数量为1024，Conv₂的卷积数量为单字类别数；

步骤2.4、根据票据文本的书写规律，从左至右将所述票据文本行中的单字的识别结果组合起来，得到最终的识别结果，即所述文本行包围框B_lines及对应的文本Text_lines；

每个票据文本行均由若干单字组成，若一个单字包围框的80％在某票据文本行包围框中，则认为该单字属于该文本行；整个基于深度学习的端到端票据图像文本识别网络模型是端到端的，因此整个网络模型是连续的，输入票据图像，直接输出票据图像上的文本行包围框坐标及其识别结果；与普通卷积神经网络一致，其可在非加密票据图像上进行训练，得到训练好的票据文本识别网络模型M；

当模型M训练好后，通常会部署在具有计算能力的云端服务器上，当用户要进行票据识别时，需要上传票据图像至云端服务器，调用模型M对其进行识别，由于上传票据图像会暴露用户隐私，存在安全隐患，本发明采用同态加密提供一种针对票据信息的隐私保护方法。在本实施例中，特征提取网络通常具有5个阶段，阶段1，2输出的特征过于浅层，可将阶段3输出的特征视为低层特征，阶段4输出的特征视为中层特征，阶段5输出的特征视为高层特征。为了减小同态加密需要计算的深度，在部署时，将特征提取阶段1、2、3部署在用户票据请求端，其余部分接口部署在远程具有一定计算能力的机器上，该远程调用接口可以基于HTTP服务或RPC服务等；

如图3所示，本发明的一个较佳实施例中采用票据信息隐私保护方法具体为：

步骤3.1、通过所述用户票据请求端提取所述票据图像的所述低层特征F_l，低层特征F_l的高、宽、通道数分别为H、W、C，即低层特征F_l是一个C×H×W的矩阵；采用私有密钥k对低层特征F_l进行同态加密E_k，得到同态加密低层特征E_k(F_l)；

步骤3.5、用户解密E_k(Text_chars)得到单字识别结果Text_chars，对所述单字识别结果Text_chars重新排序，并由文本行、单字包围框坐标对其从左至右进行组合，得到最终的所述文本行识别结果Text_lines；

步骤4、通过所述用户票据请求端得到文本行识别结果。

至此，用户完成票据信息的识别过程，由于基于深度学习的端到端票据文本识别网络模型是连续的，可以用多项式级数一致性逼近。因此，该模型可被直接应用于同态加密过的密文中，得到的结果与网络直接对明文进行处理一致。对于用户票据图像而言，上传到云端服务器的任何信息都是经过同态加密的，整个系统既保护了用户隐私，也实现了票据文本识别功能。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种支持隐私保护的票据图像文本识别方法，其特征在于，所述方法包括以下步骤：

步骤1、通过用户票据请求端输入票据图像；

步骤4、通过所述用户票据请求端得到文本行识别结果；

其中，

所述步骤3中的所述票据信息隐私保护方法具体为：

步骤3.1、通过所述用户票据请求端提取所述票据图像的低层特征F_l，采用私有密钥k对所述低层特征F_l进行同态加密E_k，得到同态加密低层特征E_k(F_l)；

步骤3.3、采用所述私有密钥k解密E_k(B_chars)、E_k(B_lines)，得到单字包围框坐标B_chars、文本行包围框坐标B_lines，并从E_k(F_fused)中提取得到B_chars对应的同态加密单字融合特征E_k(F_{fused_chars})，再打乱次序，得到Shuffled(E_k′(F_{fused_chars}))；

所述步骤2中的所述基于深度学习的端到端票据文本识别网络模型包括特征提取网络、检测网络和单字识别网络，所述网络模型为基于卷积神经网络，主要包含以下步骤：

F_fused＝concat(Up(F_h)，F_m，Down(F_l))

2.如权利要求1所述的支持隐私保护的票据图像文本识别方法，其特征在于，所述步骤2.2中的所述检测网络还包括对所述票据文本行进行检测的高层特征F_h特征图和对所述票据文本行中的单字进行检测的中层特征F_m特征图；所述高层特征F_h特征图中每个像素点有五个预测值(S_l，d_l1，d_l2，d_l3，d_l4)，其中S_l表示所述像素点是否在所述票据文本行内，d_l1，d_l2，d_l3，d_l4分别表征所述像素点距离文本行包围框四条边的距离；所述中层特征F_m特征图中每个像素点有五个预测值(S_c，d_c1，d_c2，d_c3，d_c4)，其中S_c表示所述像素点是否在某个单字区域内，d_c1，d_c2，d_c3，d_c4分别表征所述像素点距离单字包围框四条边的距离。

3.如权利要求2所述的支持隐私保护的票据图像文本识别方法，其特征在于，所述特征图设置为预测一个包围框及其置信度；对于所述高层特征F_h特征图，忽略置信度小于0.7的包围框，剩余的包围框通过阈值为0.3的非极大值抑制算法(NMS)过滤掉重叠的框，得到所述文本行包围框B_lines；对于所述中层特征F_m特征图，忽略置信度小于0.6的包围框，剩余的包围框通过阈值为0.7的NMS算法过滤掉重叠的框，得到所述单字包围框B_chars。

4.如权利要求1所述的支持隐私保护的票据图像文本识别方法，其特征在于，所述步骤2.3中的所述单字识别网络由一个全局平均池化(Global Average Pooling，GPA)和两层1x1的卷积组成，即：

Text_chars＝Conv₂(Conv₁(GPA(F_{fused_chars})))

5.如权利要求1所述的支持隐私保护的票据图像文本识别方法，其特征在于，所述步骤3.1中的所述低层特征F_l的高、宽、通道数分别为H、W、C，即所述低层特征F_l是一个C×H×W的矩阵。

6.如权利要求1所述的支持隐私保护的票据图像文本识别方法，其特征在于，所述票据信息隐私保护方法将所述特征提取网络拆分为两部分，低层特征提取部分部署在所述用户票据请求端，其余部分部署在所述云端服务器。

7.如权利要求1所述的支持隐私保护的票据图像文本识别方法，其特征在于，所述单字识别网络可对任意顺序的所述票据文本行中的单字进行识别。

8.如权利要求1所述的支持隐私保护的票据图像文本识别方法，其特征在于，若所述单字包围框的80％在某所述文本行包围框中，则认为所述单字属于所述文本行。