CN116363660A

CN116363660A - 一种基于去模糊的ocr识别方法及服务器

Info

Publication number: CN116363660A
Application number: CN202310369692.6A
Authority: CN
Inventors: 周玉林; 杨成林; 汪晓东; 易悠; 李志�; 岳志远; 丁丁
Original assignee: Hunan Sanxiang Bank Co Ltd
Current assignee: Hunan Sanxiang Bank Co Ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-06-30
Anticipated expiration: 2043-04-10
Also published as: CN116363660B

Abstract

本发明提供了一种基于去模糊的OCR识别方法以及服务器，应用于区块链连接的多类型金融服务平台，通过对金融图像失真类型判断从而在选择页面展示修复模型，使有权限的工作人员可以选择适宜的修复模型组合。之后根据选择的修复模型所属的数据库去直接调用或者间接调用修复模型，再进行多角度插值修复，提高金融图像的修复质量。再修复完成之后，利用使用OCR技术提取修复后的图像中的文本边界点，再扩充文本的所属区域，之后进行切割、识别得到文本信息。本发明相交于现有技术可以满足不同金融服务程序对图像的质量需求，无需用户反复去调整拍摄角度。此外通过跨域调用可以降低各个金融服务平台构建修复模型的负荷，提高金融服务平台服务效率。

Description

一种基于去模糊的OCR识别方法及服务器

技术领域

本发明属于金融图像、文本识别技术领域，具体涉及一种基于去模糊的OCR识别方法及服务器。

背景技术

图像去模糊（image deblurring）技术是低层次计算机领域的一项经典任务，其目的是从模糊的输入图像中恢复清晰的图像，图像模糊的因素有多种，如失焦、相机抖动或目标快速运动等。基于去模糊的OCR技术，在进行OCR识别之前对图像进行去模糊，可以提升OCR识别率，提升识别效率。

在金融行业中，常常借助OCR识别技术协助客户完成线上相关业务的办理，例如注册、录入营业执照、录入个人身份信息或个人银行卡信息，而在录入时常常因为抖动、失焦、光线阴暗等各种原因引起的图像模糊，使得金融系统在识别这些图像获取信息的过程变得极为艰难。且由于各个金融机构系统的差异性，在进行OCR识别时对于图像的质量要求不一，客户常常需要变换各种角度或者变换各种背景以满足系统对图像的质量需求，造成客户时间以及精力的浪费，从而可能丢失客户。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于去模糊的OCR识别方法及服务器。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供了一种基于去模糊的OCR识别方法，应用于多类型的金融服务平台，所述金融服务平台运行有至少一种金融服务程序，所述多类型的金融服务平台通过统一的API网关实现对接，所述的一种基于去模糊的OCR识别方法包括：

S1，每个类型的金融服务平台，用于接收用户通过采集设备上传的金融图像，所述金融图像包括用户头像、身份信息、银行账户信息中的一种或者几种；

S2，对所述金融图像的失真类型进行判断，并根据所述金融图像的失真类型导入选择界面；

S3，在所述选择界面接收由权限人员按照规则选择的修复操作，并按照所述修复操作启动API调用接口，从自身的数据库调用对应的修复模型或以跨域加密方式从其他金融服务平台获取并调用对应的修复模型；

S4，利用调用来的修复模型对所述金融图像进行像素点多角度插值修复，获得修复后的图像；

S5，使用OCR技术提取所述修复后的图像中的文本边界点；

S6，将在所述文本边界点邻域内的像素点作为文本的相关点；

S7，在所述相关点形成的闭合形状按照像素块进行切割，并对切割得到的像素块进行OCR识别，得到识别的文本信息；

S8，将所述文本信息、修复后的图像以及对应的修复模型存储至自身的数据库。

第二方面，本发明提供了一种基于去模糊的OCR识别服务器，应用于多类型的金融服务平台，所述金融服务平台运行有至少一种金融服务程序，所述多类型的金融服务平台通过统一的API网关实现对接，所述的一种基于去模糊的OCR识别服务器具体用于：

按照金融服务平台分配的子任务执行下述过程：

接收用户通过采集设备上传的金融图像，所述金融图像包括用户头像、身份信息、银行账户信息中的一种或者几种；

对所述金融图像的失真类型进行判断，并根据所述金融图像的失真类型导入选择界面；

在所述选择界面接收由权限人员按照规则选择的修复操作，并按照所述修复操作启动API调用接口，从金融服务平台的数据库调用对应的修复模型或以跨域加密方式从其他金融服务平台获取并调用对应的修复模型；

利用调用来的修复模型对所述金融图像进行像素点多角度插值修复，获得修复后的图像；

使用OCR技术提取所述修复后的图像中的文本边界点；

将在所述文本边界点邻域内的像素点作为文本的相关点；

在所述相关点形成的闭合形状按照像素块进行切割，并对切割得到的像素块进行OCR识别，得到识别的文本信息；

将所述文本信息、修复后的图像以及对应的修复模型存储至金融服务平台的数据库。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明提供的金融服务平台的示意图；

图2是本发明提供的一种基于去模糊的OCR识别方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

本发明提供了一种基于去模糊的OCR识别方法，应用于多类型的金融服务平台。如图1所示，所述金融服务平台运行有至少一种金融服务程序，多类型的金融服务平台通过统一的API网关实现对接。每种金融服务程序运行在集群服务器上，每种金融服务程序所运行的集群服务器与其他金融服务程序所运行的集群服务器构成区块链，每个金融服务程序的区块链上存储有公钥、修复模型所在数据库标识以及协议认证方式。

值得说明的是：多类型的金融服务平台可以为国家银行、政府金融监管等服务平台，类型是指业务不同的金融服务平台。

如图2所示，本发明提供了一种基于去模糊的OCR识别方法包括：

值得说明的是：本申请中的金融图像可以是用户的身份证图像，用户通过摄像设备拍摄的脸部视频或图像，也可以是银行卡的卡号或账号，当然几种图像可以组合。在金融行业中，提供资料的目的在于确认用户是否是本人或者符合国家法律规定的委托代理人。因此在办理金融业务的过程中为实现上述目的提供的相关证件图像或资料图像都可以应用在本发明中，本发明对此不做任何限制。

值得说明的是：由于金融图像可能因为角度、遮挡、光线、焦点等原因造成失真，如果失真之后图像在导入系统时会不能识别或者识别错误的情况。对失真类型判断可以为后续修复金融图像提供合适的修复模型，如此提高修复的效率。

值得说明的是：金融服务程序可以以APP的形式运行在电子设备或服务器上，方便工作人员展示和操作。在金融服务程序上可以设备选择界面，这个选择界面可以展示修复模型，而有些修复模型在其他金融服务平台上，在调用过程中为保证客户以及平台的安全性，并不能直接调用。而需要通过一些加密方式传输，这样对于自身的金融服务平台来讲只知道修复模型的应用，而并不知道修复模型的相关参数或者模型的结构，如此可以保证修复模型的安全性。

值得说明的是：对于图像来讲，图像是由像素点构成，在整张图像上有些地方只有背景，或者有些地方清晰度并不足够。为了对金融图像进行修复，除了选择合适的修复模型之外，还需要根据金融图像中像素特点进行修复，而进行多角度的插值修复可以解决像素点部分清晰度不够的情况。插值修复可以利用周围的像素点特征，如此结合修复模型进行修复可以提高金融图像修复的清晰度，为后续识别奠定基础。

S5，使用OCR技术提取所述修复后的图像中的文本边界点；

值得说明的是：文本边界点可以使用图像的轮廓点或者角点，为了防止过度提取这些特征点，进而造成图像中的文本缺失。本发明可以在提取的这些文本边界点外围规划一个邻域，如此将邻域的像素点作为相关点，扩大提取到的文本边界点范围，有利于文本的完整性识别。

值得说明的是：文本常常会在图像上呈现块状，周围的一些空白区域并不具体文本信息。相关点在图像中呈现块状聚集，将相关点所形成的闭合形状按照像素块切分，如此就可以将单个文本划分开，后续可以并行去识别这些像素块，也可以避免像素块之间的干扰，提高识别的准确性。

本发明提供了一种基于去模糊的OCR识别方法以及服务器，应用于区块链连接的多类型金融服务平台，通过对金融图像失真类型判断从而在选择页面展示修复模型，使有权限的工作人员可以选择适宜的修复模型组合。之后根据选择的修复模型所属的数据库去直接调用或者间接调用修复模型，再进行多角度插值修复，提高金融图像的修复质量。再修复完成之后，利用使用OCR技术提取修复后的图像中的文本边界点，再扩充文本的所属区域，之后进行切割、识别得到文本信息。本发明相交于现有技术可以满足不同金融服务程序对图像的质量需求，无需用户反复去调整拍摄角度可以提供用户体验。此外通过跨域调用可以降低各个金融服务平台构建修复模型的负荷，提高金融服务平台服务效率。

实施例二

在一种具体的实施例中，S2包括：

S211，确定所述金融图像中的多个角点以及角点的像素值，如果多个角点的像素值之间的差异大于像素阈值，则确定金融图像发生抖动引起的角度变化；

值得说明的是：引抖动造成的图像模糊往往呈现在像素点的差异上，抖动会引起整体图像的模糊，如果像素值差异值未大于像素阈值，则可以确定图像发生了抖动引起的角度变化。

S221，对多个角点之间连线形成交叠的线段，其中相邻的角点之间不连接；

S231，以交叠的线段最多的点为坐标中心，以水平线为横轴建立二维坐标系；

S241，在所述二维坐标系下确定所述金融图像的因抖动引起的变化角度；

值得说明的是：金融图像的角点通常位于像素值突变的地方，而发生抖动的角度在三维空间上容易确定，但是在二维空间上较难确定。所以需要建立一个二维坐标系，而二维坐标系的坐标中心位置决定了后续金融图像的变化角度的确定。本发明将不相邻的角点连接形成直线，多个不相邻的角点在图像上会呈现相交，将相交最多的点作为坐标中心，这是因为相交最多的点对应的角点可以反应最小的角度变化，往往抖动越大其呈现在图像角点上的角点之间约相似，这是因为抖动越大图像约模糊，如此可以确定出坐标中心。坐标中心确定出后，可以根据角点聚集的族群中心去确定图像的变化角度。

S251，根据所述变化角度，确定所述金融图像的失真类型为角度失真类型；

S261，根据所述金融图像的所述角度失真类型，导入选择界面；

其中，所述选择界面包括角度失真类型对应的多个角度修复模型，所述多个角度修复模型以下拉方式或界面显示呈现在所述选择界面。

值得说明的是：如果变化角度越大则金融图像的失真类型越偏向于角度失真类型，而其他失真类型对图像角度的影响不会呈现太大的角度变化。或者有一种可能现场采集设备出现了较大角度的旋转，但是这种情况在角点呈现上不会出现角点聚集的情况，因此不会被欧安短到角度失真类型。在确定失真类型之后，金融服务程序会呈现一个选择界面，这个选择界面会展示多个角度修复模型，每个修复模型都可以去修复金融图像，但是组合修复可以呈现更好的修复效果。

实施例三

在一种具体的实施例中，S2包括：

S212，提取所述金融图像的边缘点，如果边缘点的个数小于边缘点阈值，则确认所述金融图像出现焦点模糊；

S222，对所述金融图像在横向和纵向上分别进行差分计算，如果横向和纵向的差分计算结果的差异值小于差异值阈值，则确定所述金融图像的失真类型为失焦失真类型；

S232，根据所述金融图像的失焦失真类型，导入选择界面；

其中，所述选择界面包括失焦失真类型对应的不同失焦修复模型以及对应的组合顺序，每个组合顺序对应一张示例图像。

值得说明的是：边缘点一般位于背景跟图像内容对比较为明显的边缘位置，如果边缘点个数较少，则图像整体上呈现与背景没有较大区别。因此可以根据边缘点的个数去确定金融图像的焦点出现模糊。是否其失真类型是否为失焦失真类型还需要进一步判断，本发明可以通过在横向和纵向上进行差分计算，如果横纵向的差分计算结果的差异值小于差异值阈值，则可以确定金融图像无论在图像背景还是图像的目标上都出现了大范围的模糊，此时就可以确定金融图像的失真类型为失焦失真类型。同样的可以导入选择界面，在这个选择界面可以呈现多个修复模型，修复模型可以组合修复，当然也可以展示一张示例图像用于展示每种修复模型组合的修复效果，方便工作人员参考作出最佳选择。

实施例四

在一种具体的实施例中，S3包括：

S31，每个类型的金融服务平台在自身的选择界面接收由验证信息，以验证在操作界面操作的账号是否为金融服务平台的工作账号；

S32，如果为工作账号，则根据金融服务平台上虚拟角色所对应的权限为该工作账号分配对应的权限；

其中，虚拟角色自上而下形成角色树，距离角色树中上级节点所包含的权限大于下级节点的权限；

值得说明的是：每个工作账号都有其对应的权限，同一级工作账号的权限相同。而在金融服务平台为每个工作账号注册时按照虚拟角色的方式为其分配权限。对于一个金融业务点，可以汇集所有工作人员的账号信息，在进行注册时按照金融服务平台上的角色树，按照上下级顺序只需给工作账号对应虚拟角色，这样工作账户就具备这个虚拟角色对应的权限。在这个权限内持该工作账户的员工为称为权限人员，在其对应的权限范围内可以执行相关操作。

S33，在所述选择界面展示所述工作账号所分配的权限选项，以使操作所述工作账号的权限人员根据权限选项选择修复操作；

S34，接收修复操作，并确定所述修复操作所需的修复模型以及修复模型所属的数据库标识；

S35，根据数据库标识，判断所需的修复模型位于自身的数据库还是其他域的数据库；

S36，如果所需的修复模型位于自身的数据库，则启动API调用接口从自身数据库调用所需的修复模型；

值得说明的是：有些工作人员并不知道其可以执行的权限，可能会因为不清楚自身的权限去自己的上级询问或申请权限，在选择界面上呈现工作账户的权限可以让工作人员对自己所能执行的操作有清楚的认知。当然工作人员可以根据自身是否具备这个权限去选择修复操作，如果修复操作所需要的修复模型以及所属的数据库标识是自身服务平台中的，则可以直接去数据库调用，如果不是自身数据库的修复模型，则需要进一步对确认是否可以去其他金融服务平台调用。

S37，如果所需的修复模型位于其他域的数据库，则进一步判断其他域的数据库是否对所述工作账号开放，如果否，则根据不同域的认证协议执行域间认证，并在认证之后启动API调用接口从其他域的数据库调用所需的修复模型；

S38，如果其他域的数据库对所述工作账号开放，则启动API调用接口从其他域的数据库调用所需的修复模型。

实施例五

在一种具体的实施例中，S37包括：

S371，如果所需的修复模型位于其他域的数据库，则进一步判断所需的修复模型所在的域与工作账号所在的域之间是否存在公钥以及所述工作账号是否有权限访问该公钥；

S372，如果不存在公钥或工作账号没有权限访问公钥，则上报所述工作账号在角色树的上级节点，由上级节点以更改虚拟角色的方式向所述工作账号授予访问权限，以使所述工作账号临时获得上级节点的权限；

其中，工作账号临时获得的权限包括修复模型解密所需的私钥；

S373，向所需的修复模型的区块链发送公钥申请，并按照其他域在区块链所记载的协议认证方式与其他域进行协议认证，从而获取公钥；

S374，启动API调用接口从其他域的数据库调用所需的修复模型的加密信息，并利用私钥解密从而获得修复模型。

值得说明的是：如果所需的修复模型位于其他域的数据库，而操作工作账号的工作人员需要确认工作账号是否有权限访问这个访问其他金融服务平台。而金融服务平台位于不同的区块链，在区块链上需要查看是否存在公钥，存在即可说明所需的修复模型所在的金融服务平台与自身的金融服务平阳建立通信，同时需要确定工作账号是否有权限访问这个公钥，一般公钥是否查询即可得到，但是可能存在工作账号的权限不够，无法查询的情况。无论出现哪种情况，都要要上报给自己的上级，自己的上级可以在金融服务平台上进行操作，对工作账号授权，同时给予这个工作账号这个修复模型解密的私钥。在工作账号得到这个私钥后，可以解密获得修复模型的修复结果。当然在调用过程中还需要认证，其他金融服务平台所在的区块链跟自身的区块链之间存在跨域认证协议，因此只需按照跨域认证协议即可完成认证过程，这样就可以得到公钥。在调用过程获取通过公钥加密的修复模型，并通过私钥解密，这样就可以得到修复模型，完成修复过程。

实施例六

在一种具体的实施例中，S4包括：

S41，在所述金融图像中确定像素点所在区域，并沿着区域边沿裁剪出像素点所在区域，获得区域图像；

S42，在区域图像中确定整像素点以及子像素点；

其中，所述子像素点包括二分之一、四分之一、八分之一、十六分之子像素点；

S43，针对任一整像素点，将整象素点所在行作为横轴，所在列作为纵轴建立插值坐标系；

S44，在插值坐标系下确定其他子像素点与该整像素点的水平插值角度以及垂直插值角度；

S45，将所述水平插值角度作为修复模型在水平插值时的目标，将所述垂直插值角度作为修复模型在垂直插值时的目标；

S46，利用修复模型对金融图像进行水平插值以及垂直插值，直至达到目标，获得修复后的图像。

值得说明的是：如果是身份证、银行卡在金融图像上呈现出局部像素点较为集中，像银行卡的卡号数字和卡的背景在图像上呈现数字较为清晰，而背景相交于卡号数字不是很清晰。这是因为在图像呈现上像素点约小，则呈现的效果较佳。但是有些模糊的地方可能需要利用运动估计，使用整像素点和周围的像素点进行插值，而插值的角度并不一定是直角或水平。因此需要去确定插值角度，这个角度映射到水平和垂直上可以使得插值达到最佳水平。插值所需的水平插值角度可以根据整像素点和其他子像素点连线，从而确定该角度，当然垂直插值角度也可以以此确定。插值连线所指的其他子像素点指沿着逆时针未有整像素点所在的行和列所交的子像素点。

实施例七

在一种具体的实施例中，S6包括：

S61，以每个文本边界点作为扩展圆心，以行所在子像素点个数为半径向外扩展，得到每个文本边界点的邻域；

S62，将在所述文本边界点邻域内的像素点作为文本的相关点。

本步骤目的在于确定文本边界点的邻域，前面说过子像素点个数可以决定图像的清晰程度，这样以行所在子像素点个数为半径向得到邻域，外扩展可以防止裁掉较为重要的像素点。

实施例八

在一种具体的实施例中，在S8之后，所述的一种基于去模糊的OCR识别方法还包括：

针对每个金融图像，确定该金融图像是否只存在对应的无需修复的目标图像；

如果存在目标图像，则对修复后的金融图像采用全面参考度量进行评估，以评价金融图像的修复质量；

如果不存在目标图像，则对修复后的图像采用无参考度量进行评估，以评价金融图像的修复质量；

将金融图像、修复后的图像、修复的评估结果作为参考参数，并通过智能合约上传至自身域的区块链中。

值得说明的是：根据客观评价分数中的全参考或无参考图像质量评估方法进行评估的。其中，全参考通过比较恢复后的图像和真实图像来评估图像质量；无参考虽然需要一个真实图像进行评估，但没有参考指标只使用去模糊图像来衡量质量。在评估之后本发明将评估结果存储至区块链中，方便技术人员定期去更新修复模型。修复模型可以是现有的神经网络模型、马尔科夫模型或者其他的模型经过训练集训练得到，训练集为历史金融图像，当然历史金融图像是存储在各个金融平台上只能在域内使用，对外不公开以保护用户隐私的同事，做到修复模型的定期更新。

本发明提供了一种基于去模糊的OCR识别服务器，应用于多类型的金融服务平台，所述金融服务平台运行有至少一种金融服务程序，所述多类型的金融服务平台通过统一的API网关实现对接，所述的一种基于去模糊的OCR识别服务器具体用于：

按照金融服务平台分配的子任务执行下述过程：

使用OCR技术提取所述修复后的图像中的文本边界点；

将在所述文本边界点邻域内的像素点作为文本的相关点；

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于去模糊的OCR识别方法，应用于多类型的金融服务平台，所述金融服务平台运行有至少一种金融服务程序，其特征在于，所述多类型的金融服务平台通过统一的API网关实现对接，所述的一种基于去模糊的OCR识别方法包括：

S5，使用OCR技术提取所述修复后的图像中的文本边界点；

2.根据权利要求1所述的一种基于去模糊的OCR识别方法，其特征在于，S2包括：

3.根据权利要求1所述的一种基于去模糊的OCR识别方法，其特征在于，S2包括：

S232，根据所述金融图像的失焦失真类型，导入选择界面；

4.根据权利要求2或3所述的一种基于去模糊的OCR识别方法，其特征在于，S3包括：

5.根据权利要求4所述的一种基于去模糊的OCR识别方法，其特征在于，每种金融服务程序运行在集群服务器上，每种金融服务程序所运行的集群服务器与其他金融服务程序所运行的集群服务器构成区块链，每个金融服务程序的区块链上存储有公钥、修复模型所在数据库标识以及协议认证方式。

6.根据权利要求5所述的一种基于去模糊的OCR识别方法，其特征在于，S37包括：

7.根据权利要求1所述的一种基于去模糊的OCR识别方法，其特征在于，S4包括：

S42，在区域图像中确定整像素点以及子像素点；

8.根据权利要求1所述的一种基于去模糊的OCR识别方法，其特征在于，S6包括：

9.根据权利要求1所述的一种基于去模糊的OCR识别方法，其特征在于，在S8之后，所述一种基于去模糊的OCR识别方法还包括：

10.一种基于去模糊的OCR识别服务器，应用于多类型的金融服务平台，所述金融服务平台运行有至少一种金融服务程序，其特征在于，所述多类型的金融服务平台通过统一的API网关实现对接，所述的一种基于去模糊的OCR识别服务器具体用于：

按照金融服务平台分配的子任务执行下述过程：

使用OCR技术提取所述修复后的图像中的文本边界点；

将在所述文本边界点邻域内的像素点作为文本的相关点；