CN116703307A

CN116703307A - 一种小作坊证照资质自动审核方法

Info

Publication number: CN116703307A
Application number: CN202210322904.0A
Authority: CN
Inventors: 余英伟; 王则杰
Original assignee: Beijing Yunshan Information Technology Co ltd
Current assignee: Beijing Yunshan Information Technology Co ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-09-05

Abstract

本申请提供了一种小作坊证照资质自动审核方法，所述方法包括：步骤S1、基于由卷积神经网络模型经训练后获得的分类检测器筛选小作坊图片；步骤S2、进行数据预处理，包括图像二值化处理、图像倾斜检测校正以及图像去噪声处理；步骤S3、进行文字识别，获得识别后的文字及其坐标；步骤S4、由对审批公文和相应的证照建立的词频词典及由常见形近字构建的错别字词典构建纠错模块，通过所述纠错模块进行文字纠错；步骤S5、对纠错后的文字进行自动审核，包括提取出其中的关键信息，用于与用户输入的信息进行比对，计算两个信息的相似度，当所有相似度的乘积大于预设值时通过自动审核。本申请实现了小作坊证照资质的自动审核，提高审核效率及准确性。

Description

一种小作坊证照资质自动审核方法

技术领域

本申请属于数据处理技术领域，特别涉及一种小作坊证照资质自动审核方法。

背景技术

生鲜电商企业为了审核用户的资质,需要商户注册时需要用户上传自己的证照作为资质证明。其中涉及到一些小作坊证照的审核。小作坊证照由于发证区域和食品品种范围等的不同,使得每张证照都有较大的不同。受限于用户的拍照上传，用户在拍摄证照时会因为当时的光照、证照的摆放位置和手机自身的拍照质量等因素，导致很多低质量的数据。因此，这些证照的真实需要审核人员在线审核，随着业务量增加，就会需要更多的人力资源来审核证照。

现有的审核方式主要为人工审核和OCR识别审核，人工审核的缺点是检测速度慢，而OCR识别审核是通过OCR技术识别出图像区域和文字，缺点是识别精度受图像质量影响大，审核准确率低。

发明内容

为了解决上述技术问题至少之一，本申请提供了一种小作坊证照资质自动审核方法，主要包括：

步骤S1、基于由卷积神经网络模型经训练后获得的分类检测器筛选小作坊图片；

步骤S2、对筛选的小作坊图片进行数据预处理，所述数据预处理包括图像二值化处理、图像倾斜检测校正以及图像去噪声处理；

步骤S3、对预处理后的图片进行文字识别，获得识别后的文字及其坐标；

步骤S4、由对审批公文和相应的证照建立的词频词典及由常见形近字构建的错别字词典构建纠错模块，通过所述纠错模块进行文字纠错；

步骤S5、对纠错后的文字进行自动审核，包括提取出其中的关键信息，用于与用户输入的信息进行比对，计算两个信息的相似度，当所有相似度的乘积大于预设值时通过自动审核。

优选的是，步骤S1中，对卷积神经网络模型进行训练包括：

收集小作坊图片及非小作坊图片作为原始数据进行特征标注；

将进行特征标注的原始数据划分为训练集、测试集以及验证集；

对所述照片进行灰度化处理；

利用训练集的数据对初始构建的神经网络模型进行训练，并通过所述测试集数据进行测试，以及通过所述验证集来调整模型的结构和超参数，直至模型收敛，获得所述分类检测器。

优选的是，步骤S2中，所述图像二值化处理包括：

对图像进行拆分，形成多个256*256的子图像；

将拆分后的子图像组成列表，对数据列表中的子图像均进行数据放缩处理；

使用U-Net卷积神经网络对放缩后的子图像进行数据处理，包括通过U-Net卷积神经网络的编码部分对图像各个层次的特征进行提取，以及通过U-Net卷积神经网络的解码部分对各个层次的图像特征进行整合处理，输出256*256向量；

经过阈值判断组装成新的图像，对照原始图像的尺寸，进行裁剪。

优选的是，步骤S2中，所述图像倾斜检测校正包括：

随机截取3个文字区域；

对截取的文字区域进行合法性判断，排除由空白区域或者全黑的背景区域形成的无效区域；

对合法的文字区域依次进行倾斜检测，使用霍夫变换得到文字图像的倾斜角度；

对得到的文字区域的倾斜角度计算平均值，按照平均值对应的倾斜角度对图像进行倾斜校正。

优选的是，所述随机截取的每个文字区域的尺寸设置为图像宽度的八分之一及图像高度的十分之一。

优选的是，所述对截取的文字区域进行合法性判断包括：

使用水平投影得到这些截取的文字区域的投影区域；

对所述投影区域计算其水平直方图，计算出直方图中波峰与波峰之间的宽度均值和波峰个数，并与阈值进行比较，如果在阈值范围内，则将对应区间定义为文字区域区间，如果所述投影区域中没有文字区域区间或者文字区域区间大于图像高度的三分之二，则判定其为无效区域。

优选的是，步骤S3中，所述文字识别包括：通过训练后的DBNet算法检测出图像里文字所在的区域；以及通过CRNN算法来进行文字识别。

优选的是，步骤S4中，进行文字纠错包括：

对于出错词语，根据词频词典及错别字词典获得多个替换词语；

分别计算替换词语在词频词典中的第一先验概率以及替换词语中单个字在错别字词典中的第二先验概率；

计算由所述第一先验概率及所述第二先验概率加权计算的词语识别评分；

将所述词语识别评分最大值对应的替换词语替换出错词语。

优选的是，步骤S4进一步包括触发人工后续校验，记录相应的图片和文字，用于后续人工更新形近字词典。

优选的是，步骤S5中，所述计算两个信息的相似度包括通过以下公式计算：

Similar＝e^{(Word_length-d)/z}/e^{word_length/z}

其中，d为对纠错后的文字所提取的关键信息与用户输入的信息之间的编辑距离，z为放缩值，word_length是纠错后的文字长度。

本申请通过总结小作坊证照的特征，根据图像的特征进行分类，建立专有的数据集。并使用图像二值化以及去除图像噪声等方式对数据进行预处理，之后使用卷积神经网络对图像文字进行检测和识别。在对识别后的文字进行纠错处理后，比对识别后的文字和用户信息进行阈值判断，超过阈值则自动审核成功，反之需要人工审核。

附图说明

图1是本申请小作坊证照资质自动审核方法的一优选实施例的流程图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

本申请提供了一种小作坊证照资质自动审核方法，如图1所示，主要包括：步骤S1、基于由卷积神经网络模型经训练后获得的分类检测器筛选小作坊图片；步骤S2、对筛选的小作坊图片进行数据预处理，所述数据预处理包括图像二值化处理、图像倾斜检测校正以及图像去噪声处理；步骤S3、对预处理后的图片进行文字识别，获得识别后的文字及其坐标；步骤S4、由对审批公文和相应的证照建立的词频词典及由常见形近字构建的错别字词典构建纠错模块，通过所述纠错模块进行文字纠错；步骤S5、对纠错后的文字进行自动审核，包括提取出其中的关键信息，用于与用户输入的信息进行比对，计算两个信息的相似度，当所有相似度的乘积大于预设值时通过自动审核。

本申请步骤S2主要用来对证照数据进行数据预处理。数据预处理模块主要包含三中处理方式，分别是图像二值化处理、图像倾斜检测校正以及图像去噪声。图像二值化主要用来处理用户上传图片中的拍摄光照不均匀和因人为的污迹等，这些严重影响了后续算法的处理效果。用户上传的图像很可能存在文档旋转和位移的情况，而经过以上所述的U形卷积神经网络处理过的二值化图像不能消除图像的倾斜影响。因此需要对图像进行倾斜检测和校正。图像倾斜检测主要是检测出图像上的文字是否倾斜，并校正图像的倾斜角。对图像识别来说，噪声是图像干扰的重要原因，图像去噪声方法的好坏影响到之后的图像处理情况。

在一些可选实施方式中，步骤S1中，对卷积神经网络模型进行训练包括：收集小作坊图片及非小作坊图片作为原始数据进行特征标注；将进行特征标注的原始数据划分为训练集、测试集以及验证集；对所述照片进行灰度化处理；利用训练集的数据对初始构建的神经网络模型进行训练，并通过所述测试集数据进行测试，以及通过所述验证集来调整模型的结构和超参数，直至模型收敛，获得所述分类检测器。

本实施例中，将标注好的数据按照7:2:1的比例分为训练集、测试集和验证集。备选实施方式中，也可以将标注好的数据按照8:1:1的比例分为训练集、测试集和验证集。

需要说明的是，本申请使用得到的数据集来构建一个卷积神经网络模型用来过滤非小作坊证照数据。由于只是一个二分类任务，所需要的数据量级不大。在使用训练集进行模型训练时，可以依据验证集的效果来调整模型的结构和超参数，测试集来评估模型的泛化能力。经过多次训练之后，得到针对小作坊图片的分类检测器。

在一些可选实施方式中，步骤S2中，所述图像二值化处理包括：对图像进行拆分，形成多个256*256的子图像；将拆分后的子图像组成列表，对数据列表中的子图像均进行数据放缩处理；使用U-Net卷积神经网络对放缩后的子图像进行数据处理，包括通过U-Net卷积神经网络的编码部分对图像各个层次的特征进行提取，以及通过U-Net卷积神经网络的解码部分对各个层次的图像特征进行整合处理，输出256*256向量；经过阈值判断组装成新的图像，对照原始图像的尺寸，进行裁剪。

在该实施例中，图像二值化的方法采用卷积神经网络进行处理。对于卷积神经网络来说输入的图像尺寸是固定的，而用户上传的图像尺寸是不同的。因此我们首先对图像进行拆分，子图像的区域大小设置为256*256的尺寸；拆分顺序按照从左到右、从上到下的顺序进行；如果图像不能够完美拆分，即子图像不够256个像素大小，使用像素值为[255,255,255]的空白像素进行补偿。将拆分后的图像组成列表，对数据列表中的子图像都进行数据放缩处理。使用改进的U-Net卷积神经网络对放缩后的子图像数据处理，图像输入大小256*256，图像的通道数为3。其中U-Net的结构主要分为两部分:编码模块和解码模块。编码模块负责对图像各个层次的特征进行提取，解码模块对各个层次的图像特征进行整合处理，为了保证在卷积处理过程中不丢失信息，解码模块同样会整合该层次的编码信息。在编码模块中，基本单元是3*3的卷积核和2*2的最大池化组成，使用ReLU函数作为激活函数，在不断地编码中得到图像在低分辨下的高维度特征图。在解码模块中，同样使用3*3的卷积核和2*2的上采样层作为基本的单元进行卷积运算，上采样单元对卷积结果进行上采样从而将特征图放大，这个方法没有引入可训练的参数，就是一个简单的插值。同时，在解码模块的层级中，会连接编码模块中的信息进行处理。最后一层使用1*1的卷积核进行运算，结果输出使用sigmoid函数作为激活函数。最后的输出为256*256的向量，最终的向量处理后的子图像再经过阈值判断组装成新的图像，对照原始图像的尺寸，进行裁剪。

在一些可选实施方式中，步骤S2中，所述图像倾斜检测校正包括：随机截取3个文字区域；对截取的文字区域进行合法性判断，排除由空白区域或者全黑的背景区域形成的无效区域；对合法的文字区域依次进行倾斜检测，使用霍夫变换得到文字图像的倾斜角度；对得到的文字区域的倾斜角度计算平均值，按照平均值对应的倾斜角度对图像进行倾斜校正。

在一些可选实施方式中，所述随机截取的每个文字区域的尺寸设置为图像宽度的八分之一及图像高度的十分之一。

上述实施例用于对经过以上所述的U形卷积神经网络处理过的二值化图像，消除图像的倾斜影响。随机截取3个文字区域，文字区域的大小通常取图像宽度的八分之一及图像高度的十分之一，通常取中心点附近的值进行随机截取。对截取的文字区域进行合法性判断，有的文字区域可能是空白区域或者全黑的背景区域，需要排除这些无效图像。

在一些可选实施方式中，所述对截取的文字区域进行合法性判断包括：使用水平投影得到这些截取的文字区域的投影区域；对所述投影区域计算其水平直方图，计算出直方图中波峰与波峰之间的宽度均值和波峰个数，并与阈值进行比较，如果在阈值范围内，则将对应区间定义为文字区域区间，如果所述投影区域中没有文字区域区间或者文字区域区间大于图像高度的三分之二，则判定其为无效区域。

在一些可选实施方式中，步骤S2中，使用Fast NL-means算法对校正后的图像去噪声获得最后的待识别图像。

在一些可选实施方式中，步骤S3中，所述文字识别包括：通过训练后的DBNet算法检测出图像里文字所在的区域；以及通过CRNN算法来进行文字识别。

该实施例中，文字识别处理包括两个阶段：文字检测阶段和文字识别阶段。对于文字检测阶段，使用DBNet算法进行训练，DBnet会检测出图像里文字所在的区域；对于文字识别阶段，优选CRNN算法来进行文字识别。先试用开源的OCR数据集进行预训练，之后再使用收集到的数据进行模型微调，得到最终的文字识别模型，使用文字识别模型对上述的待处理图片进行识别，识别之后的文字记录其原始坐标和最终文字。

在一些可选实施方式中，步骤S4中，进行文字纠错包括：对于出错词语，根据词频词典及错别字词典获得多个替换词语；分别计算替换词语在词频词典中的第一先验概率以及替换词语中单个字在错别字词典中的第二先验概率；计算由所述第一先验概率及所述第二先验概率加权计算的词语识别评分；将所述词语识别评分最大值对应的替换词语替换出错词语。

可以理解的是，对于OCR识别来说，文字错误的地方主要在于词语级别的错误，主要表现为形近字错误。对此，纠错模块建立两个词典，一个是对审批公文和相应的证照建立的词频词典，一个是常见形近字的错别字词典。

对于词频词典，采用N-gram算法对词语进行分词，分别使用1-gram、2-gram对词频进行统计。统计好次词频后，根据贝叶斯原理，计算该字词在词频下的频率即为先验概率。

对于形近字错别字词典，依据偏旁部首先建立常见的形近字错误，形成一个词族，使用数据表实时存储，同时查询词频词典得到该字出现的先验概率。

纠错时，使用2-gram对识别的单词进行查询，如果不在词频词典里，即判断其为识别出错。对于出错的词语，分别对两个字的词族内的进行组合进行评分，评分公式如下：

score＝P(w)+Πp(c)

其中p(w)是词语在词频字典的先验概率，p(c)是单个字的先验概率，我们假设每个字出现的概率是服从词频字典的分布，且是相互独立的。对于所有词的组合取分数最大值为纠错结果。

如“韭菜”识别成“非菜”，在2-gram查询的时候就会识别出“非菜”不在词频词典里，进行组合后会组合出“韭菜”，“绯菜”等。其中“韭菜”在词频词典里，而“绯菜”不在词典里，默认其概率为0，所以更正“非菜”为“韭菜”。

发生识别错误时，除了自动更正，还会触发人工后续校验。系统会记录下相应的图片和文字，待后续人工更新形近字词典。

在一些可选实施方式中，步骤S5中，所述计算两个信息的相似度包括通过以下公式计算：

Similar＝e^{(Word_length-d)/z}/e^{wore_length/z}

该实施例中，z的作用在于防止识别短词错误造成的大的误差。例如，一个短词“同意”识别错误为“用音”，纠错系统没有纠错成功，如果按e⁰/e²＝0.135,而e^0/30/e^2/30＝0.935。这就避免了短词识别错误对后续评分造成大的影响。

自动审核分数等于所有信息相似度的乘积。如果自动审核的得分大于75％则自动审核通过，反之则需要人工审核。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种小作坊证照资质自动审核方法，其特征在于，包括：

2.如权利要求1所述的小作坊证照资质自动审核方法，其特征在于，步骤S1中，对卷积神经网络模型进行训练包括：

对所述照片进行灰度化处理；

3.如权利要求1所述的小作坊证照资质自动审核方法，其特征在于，步骤S2中，所述图像二值化处理包括：

对图像进行拆分，形成多个256*256的子图像；

4.如权利要求1所述的小作坊证照资质自动审核方法，其特征在于，步骤S2中，所述图像倾斜检测校正包括：

随机截取3个文字区域；

5.如权利要求4所述的小作坊证照资质自动审核方法，其特征在于，所述随机截取的每个文字区域的尺寸设置为图像宽度的八分之一及图像高度的十分之一。

6.如权利要求4所述的小作坊证照资质自动审核方法，其特征在于，所述对截取的文字区域进行合法性判断包括：

使用水平投影得到这些截取的文字区域的投影区域；

7.如权利要求1所述的小作坊证照资质自动审核方法，其特征在于，步骤S3中，所述文字识别包括：通过训练后的DBNet算法检测出图像里文字所在的区域；以及通过CRNN算法来进行文字识别。

8.如权利要求1所述的小作坊证照资质自动审核方法，其特征在于，步骤S4中，进行文字纠错包括：

将所述词语识别评分最大值对应的替换词语替换出错词语。

9.如权利要求8所述的小作坊证照资质自动审核方法，其特征在于，步骤S4进一步包括触发人工后续校验，记录相应的图片和文字，用于后续人工更新形近字词典。

10.如权利要求1所述的小作坊证照资质自动审核方法，其特征在于，步骤S5中，所述计算两个信息的相似度包括通过以下公式计算：

Similar＝e^{(Word_length-d)/z}/e^{word_length/z}