CN115048511A

CN115048511A - 一种基于Bert的护照版面分析方法

Info

Publication number: CN115048511A
Application number: CN202210409869.6A
Authority: CN
Inventors: 李春霞; 董文君; 郭涛远; 王康; 朱和军
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-09-13

Abstract

本发明公开了一种基于Bert的护照版面分析方法，采用“预训练+精调”的自然语言处理新范式，基于大规模无标注语料库训练出一个Bert预训练语言模型，其中的NSP预训练任务可以学到通用的文本语义表示，将Bert预训练语言模型作为可训练的特征抽取器，应用到有监督的下游任务中，并参与下游任务的训练，之后根据具体的护照文本分类任务，使用护照文本数据进行精调，训练得到一个基于Bert的文本分类模型。本发明输出结构化后的文本内容，使用文本的语义表示进行文本分类，可以不用受限于版面类型和应用场景，实现任意版面及通用场景下的护照版面分析，并可以将此方法应用于其它类型的证件。

Description

一种基于Bert的护照版面分析方法

技术领域

本发明涉及光学字符识别领域、自然语言处理技术领域，具体为一种基于Bert的护照版面分析方法。

背景技术

当今社会由于信息化、数字化的发展，对护照等证件进行自动化信息提取的需求与日俱增。护照识别技术，即基于ocr(光学字符识别)技术实现对护照图片中信息的自动化识别。随着深度学习的发展， ocr技术日趋成熟，不仅在实验中获得良好效果，在实际应用中也已获得广泛认可。依托ocr技术，目前市面上已经出现很多应用级的商业化护照识别软件。这些护照识别软件在多个行业中得到了应用，特别是边防检查站、海关、机场、出入境管理、旅行社等行业中，更是发挥了巨大的作用。

一个实用且完备的ocr系统应该包含两个重要组件，即内容识别和结构识别。内容识别的核心是对文档图像中所包含的文字内容进行高效、高精度的识别。结构识别的核心是将识别出的非结构化文字内容进行结构化，从而实现对文档图像的版面重构和复原，这个过程也叫做版面分析。

护照等证件类版面，属于具有固定模板的结构化版面，这种版面具有较强的规则性且前背景可分性强。现有针对护照进行版面分析的方法可以分为两种：一种是基于大量先验规则的方法；一种是基于计算机视觉的方法。基于大量先验规则的方法，是在识别出护照图像中的关键文本字段之后，通过文本的内容特点和位置关系提取关键信息，核心在于设计提取关键信息的规则。目前已有的基于计算机视觉的方法主要有两种：第一种是基于模版匹配的方法，通过对护照图像进行文本检测，提取出目标区域的特征，将目标区域的特征与模版图像中提取的标签特征进行匹配，以获取目标区域的类别标签，核心在于模版选取、特征提取以及特征匹配算法的设计；第二种是基于目标检测的方法，即在定位目标的同时进行分类。

但是上述方法在实际运用时，常出现如下问题：

1、基于大量先验规则的版面分析方法，规则编写逻辑复杂，并且关键字段粘连或过切分会影响最终规则的匹配。另外先验规则只适用于特定的场景下，比如测试样本的版面是先验规则不符合的或者样本中有部分关键字段被遮挡，都会导致先验规则无法适用；

2、基于模版匹配的版面分析方法，只适用于版面样式单一的证件，如果版面样式过多，则逻辑会变得十分复杂，并且鲁棒性较差；

3、基于目标检测的版面分析方法，只能在特定场景下获得较好的效果，需要各个关键字段的文字内容和外观样式变化较小并且字段与字段之间的相对位置关系不变，另外，还需要在目标检测之前对图像进行旋转角度矫正。

因此我们对此做出改进，提出一种基于Bert的护照版面分析方法。

发明内容

为了解决上述技术问题，以更好地契合护照ocr系统对于版面多样性以及文本结构化输出的市场需求，本发明提出了一种基于Bert (Bidirectional EncoderRepresentation from Transformers)的护照版面分析方法，具体由以下技术手段所达成：

本发明一种基于Bert的护照版面分析方法，包括基于大规模无标注语料库训练出Bert预训练语言模型，Bert预训练过程包括两个基本的预训练任务：整词掩码语言模型WWM和下一个句子预测 NSP，其特征在于：

所述词掩码语言模型WWM的建模方法包括如下步骤：

步骤1、对输入文本序列进行掩码处理，采用15％的掩码比例，即输入文本序列中15％的token会被掩码；

步骤2、tokenization处理，对经过掩码处理后的文本序列添加特殊标记、进行补齐、截断操作后得到输入文本序列，如果输入文本序列T的长度n小于Bert的最大序列长度N，N＝128，则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N；反之，如果输入文本序列T的长度大于N，则需要将T截断至长度为N；

步骤3、获取Bert的输入表示E，对于给定的文本序列T，Bert 的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加而成；

步骤4、对输入表示E进行多层双向Transformer编码块，并借助自注意力机制充分学习文本序列中每个token之间的语义关联；

步骤5、根据WWM预训练任务的输出层以及损失函数，预测掩码位置；

所述下一个句子预测NSP的建模方法包括如下步骤：

步骤6、NSP预训练任务的输出层以及损失函数；

步骤7、进行单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模，且单句护照文本分类任务tokenization处理、 Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致，与 NSP任务不同的是，单句护照文本分类任务的输入文本序列是由单个句子组成；

步骤8、单句护照文本分类任务的输出层及损失函数，使用[CLS] 位的隐含层表示进行文本类别的预测；

步骤9、单句护照文本分类任务的数据增强，对训练集中的每一个样本，都执行如下四种数据增强操作：

(1)随机字删除：随机删除文本序列中15％～30％的字；

(2)随机交换邻近字：随机选择文本序列中两个邻近的字并交换其位置；

(3)随机同义词替换：随机选取文本序列中15％～30％的词，随机选取其同义词并替换；

(4)随机插入：随机选取文本序列中不属于停用词集的词，求出其随机同义词并插入文本序列中的随机位置。

作为本发明的一种优选技术方案，所述步骤1中对输入文本序列的掩码操作有以下三种：

(1)以80％的概率替换为[MASK]标记；

(2)以10％的概率替换为词表中的任意一个随机token；

(3)以10％的概率保持不变；

具体地，假设原始输入文本序列为T＝Tok₁Tok₂...Tok_N，其中Tok_i表示输入文本序列中的第i个token，随机选取其中15％的token，对选取的token以及其所在整词的其它token都进行掩码，得到掩码后的输入文本序列为Tok′₁Tok′₂...Tok′_N，其中Tok′_i表示经过掩码处理后的第i个token。

作为本发明的一种优选技术方案，所述步骤3中输入表示E的计算公式为：

E＝E^te+E^se+E^pe

上式中E^te表示词向量序列，E^se表示段向量序列，E^pe表示位置向量序列，大小均为N×e，e表示词向量的维度，取值为768；假设W^te∈R^|V|×e表示可训练的词向量矩阵，输入文本序列T对应的独热向量序列为e^te∈R^N×|V|，则T对应的词向量序列可通过E^te＝e^teW^te计算得到，式中|V|表示词表大小；假设W^se∈R^|S|×e表示可训练的块向量矩阵，输入文本序列T对应的段编码表示为e^se∈R^N×|S|，|S|表示块数量，则T对应的段向量序列可通过E^se＝e^seW^se；假设W^pe∈R^N×e表示可训练的位置向量矩阵，输入文本序列T对应的位置独热编码表示为e^pe∈R^N×N，则T对应的位置向量序列可通过E^pe＝e^peW^pe计算得到。

作为本发明的一种优选技术方案，所述步骤5具体为：假设集合 M＝{m₁,m₂,···m_k}表示所有掩码位置的下标，其中k表示总掩码数量，以集合M中的元素为下标，从Bert编码器最后一层的输出h^[L]中抽取出对应的表示，并将这些表示拼接得到掩码表示h^m＝R^K×e，利用词向量矩阵W^te将掩码表示h^m映射到词表空间，对于掩码表示的第i个分量h_i ^m，计算得到该掩码位置对应的词表上的概率分布

将P_i与标签y_i计算交叉熵损失来学习模型参数，其中y_i为原Tok_i对应的独热向量表示。

作为本发明的一种优选技术方案，所述步骤6与WWM预训练任务不同的是，NSP只需要判断输入文本序列中的句子B是否是句子A的下一个句子，是一个二分类任务，输入文本序列中的第一个标记[CLS]处的最后一层隐含层表示即

可以作为输入序列的文本表示，因此NSP任务的输出层只需要将

输入至分类器，便可得到预测的分类概率P∈R²，如下所示：

上式中，W^p和b分别是全连接层的权重和偏置，将预测分类概率与真实分类标签计算交叉熵损失，优化模型参数。

作为本发明的一种优选技术方案，所述步骤8具体为：将

通过一层全连接层以预测输入文本序列对应的类别，获得文本序列的分类概率分布P，如下所示：

上式中W^SC∈R^d×K表示全连接层的权重，b^SC∈R^K表示全连接层的偏置，K表示类别数，将P与真实分类标签y计算交叉熵损失，对输出层参数进行学习，同时也对Bert自身参数进行更新，以使得Bert 预训练语言模型与单句护照文本分类的任务更加适配。

本发明的有益效果是：

本发明采用“预训练+精调”的自然语言处理新范式，基于大规模无标注语料库训练出一个Bert预训练语言模型，其中的NSP(Next Sentence Prediction)预训练任务可以学到通用的文本语义表示，将 Bert预训练语言模型作为可训练的特征抽取器，应用到有监督的下游任务(单句护照文本分类任务)中，并参与下游任务的训练，之后根据具体的护照文本分类任务，使用护照文本数据进行精调，训练得到一个基于Bert的文本分类模型。用户输入一张包含护照个人资料所有页的图片，在使用文本检测和文本识别算法提取出关键字段的文本内容之后，将文本内容输入给本发明训练好的文本分类模型，本发明输出结构化后的文本内容，使用文本的语义表示进行文本分类，可以不用受限于版面类型和应用场景，实现任意版面及通用场景下的护照版面分析，并可以将此方法应用于其它类型的证件。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明基于Bert的护照文本分类训练框架示意图；

图2是本发明Bert编码器结构示意图；

图3是实施例2中的测试图片示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

一种基于Bert的护照版面分析方法，包括以下步骤：

如图1所示，是基于Bert的护照文本分类训练框架，采用“预训练+精调”的自然语言处理新范式，基于大规模无标注语料库训练出一个Bert预训练语言模型，其中的NSP预训练任务可以学到通用的文本语义表示。将Bert预训练语言模型作为可训练的特征抽取器，应用到有监督的下游任务(单句护照文本分类任务)中，并参与下游任务的训练。之后根据具体的护照文本分类任务，使用护照文本数据进行精调。

Bert预训练。本发明的护照文本分类模型使用Bert作为主干网络。Bert预训练过程包括两个基本的预训练任务：整词掩码语言模型 (WWM)和下一个句子预测(NSP)。两个任务的建模方法很相似，主要在输出层有所区别。下面针对两个任务分别进行说明。

WWM(Whole Word Masking)预训练任务，直接将输入文本序列中的部分token所在的整词掩码并通过深层Transformer模型将掩码还原，避免了双向语言模型带来的信息泄漏问题以及WordPiece子词信息泄漏的问题，迫使模型使用被掩码字周围的上下文信息还原掩码位置的字。以下从掩码处理、输入层、编码层、输出层四个方面介绍WWM的建模方法。

步骤1：首先对输入文本序列进行掩码处理。本发明采用15％的掩码比例，即输入文本序列中15％的token会被掩码，对输入文本序列的掩码操作有以下三种：

(1)以80％的概率替换为[MASK]标记；

(2)以10％的概率替换为词表中的任意一个随机token；

(3)以10％的概率保持不变；

具体地，假设原始输入文本序列为T＝Tok₁Tok₂...Tok_N，其中Tok_i表示输入文本序列中的第i个token，随机选取其中15％的token，对选取的token以及其所在整词的其它token都进行掩码，得到掩码后的输入文本序列为Tok′₁Tok′₂...Tok′_N，其中Tok′_i表示经过掩码处理后的第i个token。举例说明如下：

步骤2：tokenization处理。经过掩码处理后的输入文本序列为：

T＝Tok′₁Tok′₂···Tok′_N

对其添加特殊标记、进行补齐、截断操作后得到输入文本序列表示为：

T＝[CLS]Tok′₁Tok′₂···Tok′_N[SEP]

上式中[CLS]表示文本序列开始的特殊标记，[SEP]表示文本序列之间的分隔标记。

如果输入文本序列T的长度n小于Bert的最大序列长度N(本发明中，N＝128)，则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N；反之，如果输入文本序列T的长度大于N，则需要将T截断(开始标记和分隔标记需要保留)至长度为 N。

步骤3：获取Bert的输入表示。对于给定的文本序列T(经过步骤4和步骤5处理后)，Bert的输入表示由其对应的词向量序列(Token Embeddings)、段向量序列(SegmentEmbeddings)和位置向量序列 (Position Embeddings)相加而成：

E＝E^te+E^se+E^pe

步骤4：Bert编码器结构如图2所示。输入表示E经过多层双向 Transformer编码块，借助自注意力机制充分学习文本序列中每个token之间的语义关联，隐含层输出如下：

h^[l]＝Trm(h^[l-1]),l∈{1,2,···,L}

式中h^[l]∈R^N×e表示第l层Transformer的输出，表示Bert的隐含层维度。

步骤5：WWM预训练任务的输出层以及损失函数。由于WWM 只对输入文本序列中的部分token进行了掩码，因此只需要预测掩码位置。假设集合M＝{m₁,m₂,···m_k}表示所有掩码位置的下标，其中k 表示总掩码数量，以集合M中的元素为下标，从Bert编码器最后一层的输出h^[L]中抽取出对应的表示，并将这些表示拼接得到掩码表示 h^m＝R^K×e，利用词向量矩阵W^te将掩码表示h^m映射到词表空间，对于掩码表示的第i个分量h_i ^m，计算得到该掩码位置对应的词表上的概率分布

NSP预训练任务的输入文本序列由两个句子拼接而成。正样本即构成“下一个句子”关系，由来自自然文本中相邻的两个句子“句子 A”和“句子B”组成；负样本即构成“非下一个句子”关系，将 “句子B”替换为语料库中任意一个其他句子即可。正负样本比例控制在1:1。在NSP预训练任务中，输入文本序列 T＝Tok₁Tok₂···Tok_nTok₁Tok₂···Tok_m，同样经过步骤2～4得到Bert编码器最后一层的输出h^[L]。

步骤6：NSP预训练任务的输出层以及损失函数。与WWM预训练任务不同的是，NSP只需要判断输入文本序列中的句子B是否是句子A的下一个句子，是一个二分类任务，输入文本序列中的第一个标记[CLS]处的最后一层隐含层表示即

输入至分类器，便可得到预测的分类概率P∈R²，如下所示：

单句护照文本分类任务。经过大规模数据的预训练后，将训练好的Bert作为文本分类模型的特征抽取器，在护照文本分类数据上进行精调。训练数据是有标注数据，每个训练样本包括由单个句子构成的输入文本序列T＝Tok₁Tok₂···Tok_n与其对应的分类标签y。因为本身获取的护照数据有限，为了防止过拟合，对护照文本数据做了数据增强。

步骤7：单句护照文本分类任务tokenization处理、Bert输入表示、 Bert编码器建模与NSP预训练任务的原理一致，以下只介绍单句护照文本分类任务的输出层及损失函数。另外，与NSP任务不同的是，单句护照文本分类任务的输入文本序列是由单个句子组成。假设输入的原始护照文本序列在经过步骤2、3、4所述操作之后，得到Bert 编码器最后一层的输出h^[l]。

步骤8：单句护照文本分类任务的输出层及损失函数。借鉴NSP 预训练任务使用了[CLS]位的隐含层表示进行预测，并且Bert编码器可分层将词的特征加权汇聚得到文本的语义表示，因此文本分类模型可以使用[CLS]位的隐含层表示进行文本类别的预测。将

通过一层全连接层以预测输入文本序列对应的类别。

通过上式获得文本序列的分类概率分布P，W^SC∈R^d×K表示全连接层的权重，b^SC∈R^K表示全连接层的偏置，K表示类别数，将P与真实分类标签y计算交叉熵损失，对输出层参数进行学习，同时也对 Bert自身参数进行更新，以使得Bert预训练语言模型与单句护照文本分类的任务更加适配。

步骤9：单句护照文本分类任务的数据增强。对训练集中的每一个样本，都执行如下四种数据增强操作：

(1)随机字删除：随机删除文本序列中(15％～30％)的字；

(3)随机同义词替换：随机选取文本序列中(15％～30％)的词，随机选取其同义词并替换；

实施例2

本发明可以将包含护照的样本图片转化为结构化字符串输出，具体效果如下：

输入测试图片如图1所示，测试样本经过文本检测、文本识别之后，得到识别字段的内容，将识别字段的文本内容输入本发明中可得

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Bert的护照版面分析方法，包括基于大规模无标注语料库训练出Bert预训练语言模型，Bert预训练过程包括两个基本的预训练任务：整词掩码语言模型WWM和下一个句子预测NSP，其特征在于：

所述词掩码语言模型WWM的建模方法包括如下步骤：

步骤3、获取Bert的输入表示E，对于给定的文本序列T，Bert的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加而成；

所述下一个句子预测NSP的建模方法包括如下步骤：

步骤6、NSP预训练任务的输出层以及损失函数；

步骤7、进行单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模，且单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致，与NSP任务不同的是，单句护照文本分类任务的输入文本序列是由单个句子组成；

步骤8、单句护照文本分类任务的输出层及损失函数，使用[CLS]位的隐含层表示进行文本类别的预测；

(1)随机字删除：随机删除文本序列中15％～30％的字；

2.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤1中对输入文本序列的掩码操作有以下三种：

(1)以80％的概率替换为[MASK]标记；

(2)以10％的概率替换为词表中的任意一个随机token；

(3)以10％的概率保持不变；

3.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤3中输入表示E的计算公式为：

E＝E^te+E^se+E^pe

4.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤5具体为：假设集合M＝{m₁,m₂,…m_k}表示所有掩码位置的下标，其中k表示总掩码数量，以集合M中的元素为下标，从Bert编码器最后一层的输出h^[L]中抽取出对应的表示，并将这些表示拼接得到掩码表示h^m＝R^K×e，利用词向量矩阵W^te将掩码表示h^m映射到词表空间，对于掩码表示的第i个分量h_i ^m，计算得到该掩码位置对应的词表上的概率分布

5.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤6与WWM预训练任务不同的是，NSP只需要判断输入文本序列中的句子B是否是句子A的下一个句子，是一个二分类任务，输入文本序列中的第一个标记[CLS]处的最后一层隐含层表示即

输入至分类器，便可得到预测的分类概率P∈R²，如下所示：

6.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤8具体为：将

上式中W^SC∈R^d×K表示全连接层的权重，b^SC∈R^K表示全连接层的偏置，K表示类别数，将P与真实分类标签y计算交叉熵损失，对输出层参数进行学习，同时也对Bert自身参数进行更新，以使得Bert预训练语言模型与单句护照文本分类的任务更加适配。