CN113177961A

CN113177961A - 一种用于印章图文比对的多模态深度模型训练方法

Info

Publication number: CN113177961A
Application number: CN202110629993.9A
Authority: CN
Inventors: 吴乐琴; 覃勋辉; 刘科; 申发海
Original assignee: Aoxiong Online Chongqing Technology Co ltd
Current assignee: Chongqing Sign Digital Technology Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-07-27
Anticipated expiration: 2041-06-07
Also published as: CN113177961B

Abstract

本发明提供一种基于多模态深度学习的印章图文比对方法，包括训练数据生成、印章图像预处理、图片特征提取、文本特征表达、文本与图像融合、训练模型以及测试过程，该方法同时输入公司名及图像，在图像方面通过骨干网络提取并重映射与重采样图像特征、输入BERT模型，文本直接用文本向量输入BERT模型，并且通过图像特征和文本向量特征经过BERT编码后生成了分类向量、分类向量经过全连接网络生成二维输出向量，然后在训练阶段，通过输出向量接分类损失函数、损失下降完成整个网络学习，直到收敛，最终在测试阶段输出向量通过softmax函数生成通过和不通过的概率、通过预设阈值达到最终识别印章的目的，该方法印章图文比对的准确率高、误差小，效率高。

Description

一种用于印章图文比对的多模态深度模型训练方法

技术领域

本发明涉及图文处理技术领域，具体涉及一种用于印章图文比对的多模态深度模型训练方法。

背景技术

印章是印和章的合称。它代表的是信物。在古代帝王所用的印章称为“玺”，官吏使用的称为“印”，而私人使用的印章则称为“私印”。现代社会里，各级国家机关、社会团体、企事业单位用的印章都称为“印”。涉外单位和“三资”企业也一样。所以从某种意义上来说，印章是权力的象征和职能的标志。随着社会的发展，印章使用越来越频繁，如何识别印章上的文字和图像也变得越来越重要。

现有技术中，针对于印章防伪以及电子印章印模和实物比对的解决方法，通常采用人工比对与机器比对两种方案，但是人工比对效率低下，质量和校验核对受人为主观因素的影响较大，比对精度与准确度差异性大；机器比对的方法通常是先采用印章识别算法识别出字符、再识别出公司名和系统中公司名以及字符进行匹配，如果匹配成功则验证通过、匹配失败则不通过，这种方案的弊端在于：当前通过光学字符识别(OCR)技术对印章的关键字段进行扫描、识别，但现有的光学字符识别(OCR)技术识别结果准确率并不高、容易出现相近字符的识别误差(如：“在线”中“线”字易被识别为“钱”字)，导致后续文本匹配不通过，从而导致识别错误；同时，印章防伪过程中，假印章与真印章之间的相近字符会被光学字符识别(OCR)技术认为是图文比对一致，从而将假印章认为是真印章而输入通过，导致防伪失败；并且，现有的光学字符识别(OCR)技术还存在识别速度慢、识别效率低的问题。

发明内容

针对以上现有技术存在的问题，本发明的目的在于提供一种用于印章图文比对的多模态深度模型训练方法，该方法解决了现有技术中印章图文比对识别速度慢、识别效率低以及识别信息不准、误差大、识别率差的问题，有效提高印章图文识别比对的准确率。

本发明的目的通过以下技术方案实现：

一种用于印章图文比对的多模态深度模型训练方法，其特征在于：

包括：

S001、训练数据生成：在数据准备过程中生成印章图像，得到训练正、负样本数据；其中，所述正样本数据为印章图像与文本完全匹配的数据，所述负样本数据为印章图像与文本不完全一致的数据；

S002、印章图像预处理：对印章图像进行第一次预处理，获得清晰、准确的印章图像；然后对印章图像进行第二次预处理，使其满足骨干网络的输入格式；

S003、图片特征提取：采用骨干网络对预处理后的印章图像进行图片特征的提取，然后通过全连接层对提取的图片特征维度进行重映射，再对重映射后的向量个数进行随机重采样；

S004、文本特征表达：采用文本预训练字向量进行表达；

S005、文本与图像融合：采用BERT模型作为融合模型，文本特征表达与图片特征作为匹配对输入到BERT模型中；

S006、训练模型：将负样本数据的印章图像与文本分别作为图片特征(即骨干网络)与文本特征表达融合到BERT模型中，设定分类函数loss，loss值误差反向传播，更新权重参数，不断迭代训练分类网络，直至误差收敛、loss值不再下降，完成学习；

S007、测试过程(判断匹配程度)：采用函数softmax替代分类函数loss，设定预设阈值，判断是否匹配。

采用本方法进行识别训练，融合了多模态信息，有效地提升印章图文比对精度和效率，可将训练优化后的模型部署在服务器端作为增值服务提供给客户，根据客户关系管理系统(CRM)特征画像提供的潜在目标客户，根据CRM的特征标签针对性对客户建议此项增值服务，通过对计算量的预估进行针对性报价，使得计算资源得到升级的同时，合理的将成本通过销售消化。同时，因为训练可通过策略安排在闲时进行，忙时进行其他资源的服务与计算，从而充分利用计算资源与电力资源，合理分摊成本。使得计算资源提高的同时成本的增加被针对性消化。

作进一步优化，所述步骤S001中数据准备过程中生成印章图像具体为：

采用OpenCV首先生成圆形外框并预置印章的字符、代码以及五角星区域；然后生成字符和代码，并根据字符数量、字体大小、字体间距、内外环边距四个参数，以极坐标的模式进行调整字符和代码位置。

作进一步优化，所述以极坐标的模式进行调整字符和代码位置的具体步骤为：首先根据极坐标内外环边距确定内圆周长、从而确定字符所占的长度，然后根据字符数量和字体大小计算确定内环字体间距；最后在极坐标中，按照字符顺序依次排列，字符在内环的间距采用上述计算得到。

作进一步优化，所述第一次预处理为采用目标检测、裁剪、图像分割的方式，将图片边界定位到印章图像的边界，同时进行去噪处理；所述裁剪采用局部二值化处理的方法。

作进一步优化，所述第二次预处理采用缩放、填充的操作；所述缩放具体为将所有图像等长宽比例调整(resize)到同样的尺寸，多余的面积采用黑色进行填充。

作进一步优化，所述骨干网络采用ResNet或VGG网络模型中的任一种。

作进一步优化，所述分类函数loss主要采用二分类交叉熵损失函数，其具体步骤为：所述BERT模型输出端输出2*1的向量，分别代表匹配与不匹配的置信度；采用softmax层将置信度归一化到0～1的范围内、并让置信度总和为1，输出归一化后匹配与不匹配的置信度；最后将置信度采用二分类交叉熵损失函数来表示模型的损失。

作进一步优化，所述预设阈值为0.5，若大于0.5，则证明匹配概率高；若小于0.5，则证明不匹配概率高。

本发明具有如下技术效果：

本发明提供了一种用于印章图文比对的多模态深度模型训练方法，该方法同时输入公司名及图像，在图像方面通过骨干网络提取并重映射与重采样图像特征、从而输入BERT模型，在文本方面直接用文本向量输入BERT模型，并且通过图像特征和文本向量特征经过BERT编码后生成了分类向量、分类向量经过全连接网络生成二维输出向量，然后在训练阶段，通过输出向量接分类损失函数、损失下降完成整个网络学习，直到收敛，最终在测试阶段输出向量通过softmax函数生成通过和不通过的概率、通过预设阈值达到最终识别印章的目的。本方法印章图文比对的准确率更高、误差小，效率快、识别率高。

附图说明

图1为本发明实施例中多模态深度模型训练方法的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1所示，一种用于印章图文比对的多模态深度模型训练方法，其特征在于：

包括：

S001、训练数据生成：

采用OpenCV首先生成圆形外框并预置印章的字符、代码以及五角星区域；然后生成字符和代码，并根据字符数量、字体大小、字体间距、内外环边距四个参数，以极坐标的模式进行仿射调整字符和代码位置。

以极坐标的模式进行调整字符和代码位置的具体步骤为：首先根据极坐标内外环边距确定内圆周长、从而确定字符所占的长度，然后根据字符数量和字体大小计算确定内环字体间距；最后在极坐标中，按照字符顺序依次排列，字符在内环的间距采用上述计算得到。

得到训练正、负样本数据；其中，正样本数据为印章图像与文本完全匹配的数据，负样本数据为印章图像与文本不完全一致的数据；

S002、印章图像预处理：对印章图像进行目标检测、裁剪、图像分割的第一次预处理，获得清晰、准确的印章图像，即将图片边界定位到印章图像的边界，同时进行去噪处理；然后对印章图像进行缩放、填充的第二次预处理，使其满足骨干网络的输入格式；即图像预处理后输出向量大小为N*N；

裁剪采用局部二值化处理的方法；缩放具体为将所有图像等长宽比例调整(resize)到同样的尺寸，多余的面积采用黑色进行填充；

S003、图片特征提取：采用骨干网络对预处理后的印章图像进行图片特征的提取，图像预处理后输出向量大小为N*N、则骨干网络输出的feature map的向量大小为m*n；然后通过全连接层对提取的图片特征维度进行重映射、将n维的特征向量转换为m*n_dim，再对重映射后的向量个数m进行随机重采样、得到m_sample*n_dim向量输入融合模型；

骨干网络采用ResNet或VGG网络模型中的任一种、例如VGG16；

S004、文本特征表达：采用文本预训练字向量进行表达、即预训练的中文字向量模型表达企业文本特征；假设文本长度m_text，则用字向量表达文本特征、词向量的特征维度为n_dim，最后输出的文本特征大小为m_text*n_dim。

S005、文本与图像融合：采用BERT模型作为融合模型，文本特征表达与图片特征作为匹配对输入到BERT模型中；输入形式为sep，m_text*n_dim，sep，m_sample*n_dim。

分类函数loss主要采用二分类交叉熵损失函数，其具体步骤为：BERT模型输出端(即图1中Fc)输出2*1的向量，分别代表匹配与不匹配的置信度；采用softmax层将置信度归一化到0～1的范围内、并让置信度总和为1，输出归一化后匹配与不匹配的置信度；最后将置信度采用二分类交叉熵损失函数来表示模型的损失。

二分类交叉熵损失函数表示为：

式中，y_i表示真实的分类结果；a_i表示softmax层的第i个输出值。

S007、测试过程(判断匹配程度)：采用函数softmax替代分类函数loss：去掉步骤S006中分类函数loss中最后的一步(即去掉“将置信度采用二分类交叉熵损失函数来表示模型的损失”的步骤)、输出归一化匹配与不匹配的置信度；

设定预设阈值，判断是否匹配；预设阈值为0.5，若大于0.5，则证明匹配概率高；若小于0.5，则证明不匹配概率高。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

为了示例和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和组合。

Claims

1.一种用于印章图文比对的多模态深度模型训练方法，其特征在于：

包括：

S004、文本特征表达：采用文本预训练字向量进行表达；

S006、训练模型：将负样本数据的印章图像与文本分别作为图片特征（即骨干网络）与文本特征表达融合到BERT模型中，设定分类函数loss，loss值误差反向传播，更新权重参数，不断迭代训练分类网络，直至误差收敛、loss值不再下降，完成学习；

S007、测试过程：采用函数softmax替代分类函数loss，设定预设阈值，判断是否匹配。

2.根据权利要求1所述的一种用于印章图文比对的多模态深度模型训练方法，其特征在于：所述步骤S001中数据准备过程中生成印章图像具体为：

3.根据权利要求1或2中任一项所述的一种用于印章图文比对的多模态深度模型训练方法，其特征在于：所述以极坐标的模式进行调整字符和代码位置的具体步骤为：首先根据极坐标内外环边距确定内圆周长、从而确定字符所占的长度，然后根据字符数量和字体大小计算确定内环字体间距；最后在极坐标中，按照字符顺序依次排列，字符在内环的间距采用上述计算得到。

4.根据权利要求1或2中任一项所述的一种用于印章图文比对的多模态深度模型训练方法，其特征在于：所述第一次预处理为采用目标检测、裁剪、图像分割的方式，将图片边界定位到印章图像的边界，同时进行去噪处理；所述裁剪采用局部二值化处理的方法。

5.根据权利要求1、2或4中任一项所述的一种用于印章图文比对的多模态深度模型训练方法，其特征在于：所述第二次预处理采用缩放、填充的操作；所述缩放具体为将所有图像等长宽比例调整（resize）到同样的尺寸，多余的面积采用黑色进行填充。

6.根据权利要求1所述的一种用于印章图文比对的多模态深度模型训练方法，其特征在于：所述分类函数loss主要采用二分类交叉熵损失函数，其具体步骤为：所述BERT模型输出端输出2*1的向量，分别代表匹配与不匹配的置信度；采用softmax层将置信度归一化到0～1的范围内、并让置信度总和为1，输出归一化后匹配与不匹配的置信度；最后将置信度采用二分类交叉熵损失函数来表示模型的损失。