CN115048511A - 一种基于Bert的护照版面分析方法 - Google Patents

一种基于Bert的护照版面分析方法 Download PDF

Info

Publication number
CN115048511A
CN115048511A CN202210409869.6A CN202210409869A CN115048511A CN 115048511 A CN115048511 A CN 115048511A CN 202210409869 A CN202210409869 A CN 202210409869A CN 115048511 A CN115048511 A CN 115048511A
Authority
CN
China
Prior art keywords
bert
sequence
passport
text
text sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210409869.6A
Other languages
English (en)
Inventor
李春霞
董文君
郭涛远
王康
朱和军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Telecommunication Technologies Co ltd
Original Assignee
Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fiberhome Telecommunication Technologies Co ltd filed Critical Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority to CN202210409869.6A priority Critical patent/CN115048511A/zh
Publication of CN115048511A publication Critical patent/CN115048511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Bert的护照版面分析方法,采用“预训练+精调”的自然语言处理新范式,基于大规模无标注语料库训练出一个Bert预训练语言模型,其中的NSP预训练任务可以学到通用的文本语义表示,将Bert预训练语言模型作为可训练的特征抽取器,应用到有监督的下游任务中,并参与下游任务的训练,之后根据具体的护照文本分类任务,使用护照文本数据进行精调,训练得到一个基于Bert的文本分类模型。本发明输出结构化后的文本内容,使用文本的语义表示进行文本分类,可以不用受限于版面类型和应用场景,实现任意版面及通用场景下的护照版面分析,并可以将此方法应用于其它类型的证件。

Description

一种基于Bert的护照版面分析方法
技术领域
本发明涉及光学字符识别领域、自然语言处理技术领域,具体为 一种基于Bert的护照版面分析方法。
背景技术
当今社会由于信息化、数字化的发展,对护照等证件进行自动化 信息提取的需求与日俱增。护照识别技术,即基于ocr(光学字符识 别)技术实现对护照图片中信息的自动化识别。随着深度学习的发展, ocr技术日趋成熟,不仅在实验中获得良好效果,在实际应用中也已 获得广泛认可。依托ocr技术,目前市面上已经出现很多应用级的商 业化护照识别软件。这些护照识别软件在多个行业中得到了应用,特 别是边防检查站、海关、机场、出入境管理、旅行社等行业中,更是 发挥了巨大的作用。
一个实用且完备的ocr系统应该包含两个重要组件,即内容识别 和结构识别。内容识别的核心是对文档图像中所包含的文字内容进行 高效、高精度的识别。结构识别的核心是将识别出的非结构化文字内 容进行结构化,从而实现对文档图像的版面重构和复原,这个过程也 叫做版面分析。
护照等证件类版面,属于具有固定模板的结构化版面,这种版面 具有较强的规则性且前背景可分性强。现有针对护照进行版面分析的 方法可以分为两种:一种是基于大量先验规则的方法;一种是基于计 算机视觉的方法。基于大量先验规则的方法,是在识别出护照图像中 的关键文本字段之后,通过文本的内容特点和位置关系提取关键信 息,核心在于设计提取关键信息的规则。目前已有的基于计算机视觉 的方法主要有两种:第一种是基于模版匹配的方法,通过对护照图像 进行文本检测,提取出目标区域的特征,将目标区域的特征与模版图 像中提取的标签特征进行匹配,以获取目标区域的类别标签,核心在于模版选取、特征提取以及特征匹配算法的设计;第二种是基于目标 检测的方法,即在定位目标的同时进行分类。
但是上述方法在实际运用时,常出现如下问题:
1、基于大量先验规则的版面分析方法,规则编写逻辑复杂,并 且关键字段粘连或过切分会影响最终规则的匹配。另外先验规则只适 用于特定的场景下,比如测试样本的版面是先验规则不符合的或者样 本中有部分关键字段被遮挡,都会导致先验规则无法适用;
2、基于模版匹配的版面分析方法,只适用于版面样式单一的证 件,如果版面样式过多,则逻辑会变得十分复杂,并且鲁棒性较差;
3、基于目标检测的版面分析方法,只能在特定场景下获得较好 的效果,需要各个关键字段的文字内容和外观样式变化较小并且字段 与字段之间的相对位置关系不变,另外,还需要在目标检测之前对图 像进行旋转角度矫正。
因此我们对此做出改进,提出一种基于Bert的护照版面分析方 法。
发明内容
为了解决上述技术问题,以更好地契合护照ocr系统对于版面多 样性以及文本结构化输出的市场需求,本发明提出了一种基于Bert (Bidirectional EncoderRepresentation from Transformers)的护照版面 分析方法,具体由以下技术手段所达成:
本发明一种基于Bert的护照版面分析方法,包括基于大规模无 标注语料库训练出Bert预训练语言模型,Bert预训练过程包括两个 基本的预训练任务:整词掩码语言模型WWM和下一个句子预测 NSP,其特征在于:
所述词掩码语言模型WWM的建模方法包括如下步骤:
步骤1、对输入文本序列进行掩码处理,采用15%的掩码比例, 即输入文本序列中15%的token会被掩码;
步骤2、tokenization处理,对经过掩码处理后的文本序列添加特 殊标记、进行补齐、截断操作后得到输入文本序列,如果输入文本序 列T的长度n小于Bert的最大序列长度N,N=128,则需要将补齐标 记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N;反之, 如果输入文本序列T的长度大于N,则需要将T截断至长度为N;
步骤3、获取Bert的输入表示E,对于给定的文本序列T,Bert 的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加 而成;
步骤4、对输入表示E进行多层双向Transformer编码块,并借 助自注意力机制充分学习文本序列中每个token之间的语义关联;
步骤5、根据WWM预训练任务的输出层以及损失函数,预测掩 码位置;
所述下一个句子预测NSP的建模方法包括如下步骤:
步骤6、NSP预训练任务的输出层以及损失函数;
步骤7、进行单句护照文本分类任务tokenization处理、Bert输入 表示和Bert编码器建模,且单句护照文本分类任务tokenization处理、 Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致,与 NSP任务不同的是,单句护照文本分类任务的输入文本序列是由单个 句子组成;
步骤8、单句护照文本分类任务的输出层及损失函数,使用[CLS] 位的隐含层表示进行文本类别的预测;
步骤9、单句护照文本分类任务的数据增强,对训练集中的每一 个样本,都执行如下四种数据增强操作:
(1)随机字删除:随机删除文本序列中15%~30%的字;
(2)随机交换邻近字:随机选择文本序列中两个邻近的字并交 换其位置;
(3)随机同义词替换:随机选取文本序列中15%~30%的词, 随机选取其同义词并替换;
(4)随机插入:随机选取文本序列中不属于停用词集的词,求 出其随机同义词并插入文本序列中的随机位置。
作为本发明的一种优选技术方案,所述步骤1中对输入文本序列 的掩码操作有以下三种:
(1)以80%的概率替换为[MASK]标记;
(2)以10%的概率替换为词表中的任意一个随机token;
(3)以10%的概率保持不变;
具体地,假设原始输入文本序列为T=Tok1Tok2...TokN,其中Toki表示输入文本序列中的第i个token,随机选取其中15%的token,对 选取的token以及其所在整词的其它token都进行掩码,得到掩码后 的输入文本序列为Tok′1Tok′2...Tok′N,其中Tok′i表示经过掩码处理后的 第i个token。
作为本发明的一种优选技术方案,所述步骤3中输入表示E的计 算公式为:
E=Ete+Ese+Epe
上式中Ete表示词向量序列,Ese表示段向量序列,Epe表示位 置向量序列,大小均为N×e,e表示词向量的维度,取值为768;假 设Wte∈R|V|×e表示可训练的词向量矩阵,输入文本序列T对应的独热 向量序列为ete∈RN×|V|,则T对应的词向量序列可通过Ete=eteWte计 算得到,式中|V|表示词表大小;假设Wse∈R|S|×e表示可训练的块向 量矩阵,输入文本序列T对应的段编码表示为ese∈RN×|S|,|S|表示块 数量,则T对应的段向量序列可通过Ese=eseWse;假设Wpe∈RN×e表示可训练的位置向量矩阵,输入文本序列T对应的位置独热编码表 示为epe∈RN×N,则T对应的位置向量序列可通过Epe=epeWpe计算 得到。
作为本发明的一种优选技术方案,所述步骤5具体为:假设集合 M={m1,m2,···mk}表示所有掩码位置的下标,其中k表示总掩码数 量,以集合M中的元素为下标,从Bert编码器最后一层的输出h[L]中 抽取出对应的表示,并将这些表示拼接得到掩码表示hm=RK×e,利 用词向量矩阵Wte将掩码表示hm映射到词表空间,对于掩码表示的 第i个分量hi m,计算得到该掩码位置对应的词表上的概率分布
Figure BDA0003603273600000061
将Pi与标签yi计算交叉熵损失来学习模型参数, 其中yi为原Toki对应的独热向量表示。
作为本发明的一种优选技术方案,所述步骤6与WWM预训练 任务不同的是,NSP只需要判断输入文本序列中的句子B是否是句 子A的下一个句子,是一个二分类任务,输入文本序列中的第一个 标记[CLS]处的最后一层隐含层表示即
Figure BDA0003603273600000062
可以作为输入序列的文本表示,因此NSP任务的输出层只需要将
Figure BDA0003603273600000063
输入至分类器,便可得到 预测的分类概率P∈R2,如下所示:
Figure BDA0003603273600000064
上式中,Wp和b分别是全连接层的权重和偏置,将预测分类概 率与真实分类标签计算交叉熵损失,优化模型参数。
作为本发明的一种优选技术方案,所述步骤8具体为:将
Figure BDA0003603273600000065
通 过一层全连接层以预测输入文本序列对应的类别,获得文本序列的分 类概率分布P,如下所示:
Figure BDA0003603273600000066
上式中WSC∈Rd×K表示全连接层的权重,bSC∈RK表示全连接层 的偏置,K表示类别数,将P与真实分类标签y计算交叉熵损失,对 输出层参数进行学习,同时也对Bert自身参数进行更新,以使得Bert 预训练语言模型与单句护照文本分类的任务更加适配。
本发明的有益效果是:
本发明采用“预训练+精调”的自然语言处理新范式,基于大规 模无标注语料库训练出一个Bert预训练语言模型,其中的NSP(Next Sentence Prediction)预训练任务可以学到通用的文本语义表示,将 Bert预训练语言模型作为可训练的特征抽取器,应用到有监督的下游 任务(单句护照文本分类任务)中,并参与下游任务的训练,之后根 据具体的护照文本分类任务,使用护照文本数据进行精调,训练得到 一个基于Bert的文本分类模型。用户输入一张包含护照个人资料所 有页的图片,在使用文本检测和文本识别算法提取出关键字段的文本 内容之后,将文本内容输入给本发明训练好的文本分类模型,本发明 输出结构化后的文本内容,使用文本的语义表示进行文本分类,可以 不用受限于版面类型和应用场景,实现任意版面及通用场景下的护照 版面分析,并可以将此方法应用于其它类型的证件。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部 分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限 制。在附图中:
图1是本发明基于Bert的护照文本分类训练框架示意图;
图2是本发明Bert编码器结构示意图;
图3是实施例2中的测试图片示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处 所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发 明。
实施例1
一种基于Bert的护照版面分析方法,包括以下步骤:
如图1所示,是基于Bert的护照文本分类训练框架,采用“预 训练+精调”的自然语言处理新范式,基于大规模无标注语料库训练 出一个Bert预训练语言模型,其中的NSP预训练任务可以学到通用 的文本语义表示。将Bert预训练语言模型作为可训练的特征抽取器, 应用到有监督的下游任务(单句护照文本分类任务)中,并参与下游 任务的训练。之后根据具体的护照文本分类任务,使用护照文本数据 进行精调。
Bert预训练。本发明的护照文本分类模型使用Bert作为主干网 络。Bert预训练过程包括两个基本的预训练任务:整词掩码语言模型 (WWM)和下一个句子预测(NSP)。两个任务的建模方法很相似, 主要在输出层有所区别。下面针对两个任务分别进行说明。
WWM(Whole Word Masking)预训练任务,直接将输入文本序 列中的部分token所在的整词掩码并通过深层Transformer模型将掩 码还原,避免了双向语言模型带来的信息泄漏问题以及WordPiece子 词信息泄漏的问题,迫使模型使用被掩码字周围的上下文信息还原掩 码位置的字。以下从掩码处理、输入层、编码层、输出层四个方面介 绍WWM的建模方法。
步骤1:首先对输入文本序列进行掩码处理。本发明采用15%的 掩码比例,即输入文本序列中15%的token会被掩码,对输入文本序 列的掩码操作有以下三种:
(1)以80%的概率替换为[MASK]标记;
(2)以10%的概率替换为词表中的任意一个随机token;
(3)以10%的概率保持不变;
具体地,假设原始输入文本序列为T=Tok1Tok2...TokN,其中Toki表示输入文本序列中的第i个token,随机选取其中15%的token,对 选取的token以及其所在整词的其它token都进行掩码,得到掩码后 的输入文本序列为Tok′1Tok′2...Tok′N,其中Tok′i表示经过掩码处理后的 第i个token。举例说明如下:
Figure BDA0003603273600000091
步骤2:tokenization处理。经过掩码处理后的输入文本序列为:
T=Tok′1Tok′2···Tok′N
对其添加特殊标记、进行补齐、截断操作后得到输入文本序列表 示为:
T=[CLS]Tok′1Tok′2···Tok′N[SEP]
上式中[CLS]表示文本序列开始的特殊标记,[SEP]表示文本序列 之间的分隔标记。
如果输入文本序列T的长度n小于Bert的最大序列长度N(本 发明中,N=128),则需要将补齐标记[PAD]拼接在输入文本序列后 以达到Bert的最大序列长度N;反之,如果输入文本序列T的长度 大于N,则需要将T截断(开始标记和分隔标记需要保留)至长度为 N。
步骤3:获取Bert的输入表示。对于给定的文本序列T(经过步 骤4和步骤5处理后),Bert的输入表示由其对应的词向量序列(Token Embeddings)、段向量序列(SegmentEmbeddings)和位置向量序列 (Position Embeddings)相加而成:
E=Ete+Ese+Epe
上式中Ete表示词向量序列,Ese表示段向量序列,Epe表示位 置向量序列,大小均为N×e,e表示词向量的维度,取值为768;假 设Wte∈R|V|×e表示可训练的词向量矩阵,输入文本序列T对应的独热 向量序列为ete∈RN×|V|,则T对应的词向量序列可通过Ete=eteWte计 算得到,式中|V|表示词表大小;假设Wse∈R|S|×e表示可训练的块向 量矩阵,输入文本序列T对应的段编码表示为ese∈RN×|S|,|S|表示块 数量,则T对应的段向量序列可通过Ese=eseWse;假设Wpe∈RN×e表示可训练的位置向量矩阵,输入文本序列T对应的位置独热编码表 示为epe∈RN×N,则T对应的位置向量序列可通过Epe=epeWpe计算 得到。
步骤4:Bert编码器结构如图2所示。输入表示E经过多层双向 Transformer编码块,借助自注意力机制充分学习文本序列中每个token之间的语义关联,隐含层输出如下:
h[l]=Trm(h[l-1]),l∈{1,2,···,L}
式中h[l]∈RN×e表示第l层Transformer的输出,表示Bert的隐含 层维度。
步骤5:WWM预训练任务的输出层以及损失函数。由于WWM 只对输入文本序列中的部分token进行了掩码,因此只需要预测掩码 位置。假设集合M={m1,m2,···mk}表示所有掩码位置的下标,其中k 表示总掩码数量,以集合M中的元素为下标,从Bert编码器最后一 层的输出h[L]中抽取出对应的表示,并将这些表示拼接得到掩码表示 hm=RK×e,利用词向量矩阵Wte将掩码表示hm映射到词表空间,对 于掩码表示的第i个分量hi m,计算得到该掩码位置对应的词表上的 概率分布
Figure BDA0003603273600000111
将Pi与标签yi计算交叉熵损失来学习 模型参数,其中yi为原Toki对应的独热向量表示。
NSP预训练任务的输入文本序列由两个句子拼接而成。正样本即 构成“下一个句子”关系,由来自自然文本中相邻的两个句子“句子 A”和“句子B”组成;负样本即构成“非下一个句子”关系,将 “句子B”替换为语料库中任意一个其他句子即可。正负样本比例控 制在1:1。在NSP预训练任务中,输入文本序列 T=Tok1Tok2···ToknTok1Tok2···Tokm,同样经过步骤2~4得到Bert编 码器最后一层的输出h[L]
步骤6:NSP预训练任务的输出层以及损失函数。与WWM预训 练任务不同的是,NSP只需要判断输入文本序列中的句子B是否是 句子A的下一个句子,是一个二分类任务,输入文本序列中的第一 个标记[CLS]处的最后一层隐含层表示即
Figure BDA0003603273600000121
可以作为输入序列的文本表示,因此NSP任务的输出层只需要将
Figure BDA0003603273600000122
输入至分类器,便可得 到预测的分类概率P∈R2,如下所示:
Figure BDA0003603273600000123
上式中,Wp和b分别是全连接层的权重和偏置,将预测分类概 率与真实分类标签计算交叉熵损失,优化模型参数。
单句护照文本分类任务。经过大规模数据的预训练后,将训练好 的Bert作为文本分类模型的特征抽取器,在护照文本分类数据上进 行精调。训练数据是有标注数据,每个训练样本包括由单个句子构成 的输入文本序列T=Tok1Tok2···Tokn与其对应的分类标签y。因为本身 获取的护照数据有限,为了防止过拟合,对护照文本数据做了数据增 强。
步骤7:单句护照文本分类任务tokenization处理、Bert输入表示、 Bert编码器建模与NSP预训练任务的原理一致,以下只介绍单句护 照文本分类任务的输出层及损失函数。另外,与NSP任务不同的是, 单句护照文本分类任务的输入文本序列是由单个句子组成。假设输入 的原始护照文本序列在经过步骤2、3、4所述操作之后,得到Bert 编码器最后一层的输出h[l]
步骤8:单句护照文本分类任务的输出层及损失函数。借鉴NSP 预训练任务使用了[CLS]位的隐含层表示进行预测,并且Bert编码器 可分层将词的特征加权汇聚得到文本的语义表示,因此文本分类模型 可以使用[CLS]位的隐含层表示进行文本类别的预测。将
Figure BDA0003603273600000131
通过一层 全连接层以预测输入文本序列对应的类别。
Figure BDA0003603273600000132
通过上式获得文本序列的分类概率分布P,WSC∈Rd×K表示全连 接层的权重,bSC∈RK表示全连接层的偏置,K表示类别数,将P与 真实分类标签y计算交叉熵损失,对输出层参数进行学习,同时也对 Bert自身参数进行更新,以使得Bert预训练语言模型与单句护照文本分类的任务更加适配。
步骤9:单句护照文本分类任务的数据增强。对训练集中的每一 个样本,都执行如下四种数据增强操作:
(1)随机字删除:随机删除文本序列中(15%~30%)的字;
(2)随机交换邻近字:随机选择文本序列中两个邻近的字并交 换其位置;
(3)随机同义词替换:随机选取文本序列中(15%~30%)的词, 随机选取其同义词并替换;
(4)随机插入:随机选取文本序列中不属于停用词集的词,求 出其随机同义词并插入文本序列中的随机位置。
实施例2
本发明可以将包含护照的样本图片转化为结构化字符串输出,具 体效果如下:
输入测试图片如图1所示,测试样本经过文本检测、文本识别之 后,得到识别字段的内容,将识别字段的文本内容输入本发明中可得
Figure RE-GDA0003770223750000132
Figure RE-GDA0003770223750000141
以上所述仅为本发明的优选实施例而已,并不用于限制本发明, 尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术 人员来说,其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之 内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护 范围之内。

Claims (6)

1.一种基于Bert的护照版面分析方法,包括基于大规模无标注语料库训练出Bert预训练语言模型,Bert预训练过程包括两个基本的预训练任务:整词掩码语言模型WWM和下一个句子预测NSP,其特征在于:
所述词掩码语言模型WWM的建模方法包括如下步骤:
步骤1、对输入文本序列进行掩码处理,采用15%的掩码比例,即输入文本序列中15%的token会被掩码;
步骤2、tokenization处理,对经过掩码处理后的文本序列添加特殊标记、进行补齐、截断操作后得到输入文本序列,如果输入文本序列T的长度n小于Bert的最大序列长度N,N=128,则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N;反之,如果输入文本序列T的长度大于N,则需要将T截断至长度为N;
步骤3、获取Bert的输入表示E,对于给定的文本序列T,Bert的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加而成;
步骤4、对输入表示E进行多层双向Transformer编码块,并借助自注意力机制充分学习文本序列中每个token之间的语义关联;
步骤5、根据WWM预训练任务的输出层以及损失函数,预测掩码位置;
所述下一个句子预测NSP的建模方法包括如下步骤:
步骤6、NSP预训练任务的输出层以及损失函数;
步骤7、进行单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模,且单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致,与NSP任务不同的是,单句护照文本分类任务的输入文本序列是由单个句子组成;
步骤8、单句护照文本分类任务的输出层及损失函数,使用[CLS]位的隐含层表示进行文本类别的预测;
步骤9、单句护照文本分类任务的数据增强,对训练集中的每一个样本,都执行如下四种数据增强操作:
(1)随机字删除:随机删除文本序列中15%~30%的字;
(2)随机交换邻近字:随机选择文本序列中两个邻近的字并交换其位置;
(3)随机同义词替换:随机选取文本序列中15%~30%的词,随机选取其同义词并替换;
(4)随机插入:随机选取文本序列中不属于停用词集的词,求出其随机同义词并插入文本序列中的随机位置。
2.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤1中对输入文本序列的掩码操作有以下三种:
(1)以80%的概率替换为[MASK]标记;
(2)以10%的概率替换为词表中的任意一个随机token;
(3)以10%的概率保持不变;
具体地,假设原始输入文本序列为T=Tok1Tok2...TokN,其中Toki表示输入文本序列中的第i个token,随机选取其中15%的token,对选取的token以及其所在整词的其它token都进行掩码,得到掩码后的输入文本序列为Tok′1Tok′2...Tok′N,其中Tok′i表示经过掩码处理后的第i个token。
3.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤3中输入表示E的计算公式为:
E=Ete+Ese+Epe
上式中Ete表示词向量序列,Ese表示段向量序列,Epe表示位置向量序列,大小均为N×e,e表示词向量的维度,取值为768;假设Wte∈R|V|×e表示可训练的词向量矩阵,输入文本序列T对应的独热向量序列为ete∈RN×|V|,则T对应的词向量序列可通过Ete=eteWte计算得到,式中|V|表示词表大小;假设Wse∈R|S|×e表示可训练的块向量矩阵,输入文本序列T对应的段编码表示为ese∈RN×|S|,|S|表示块数量,则T对应的段向量序列可通过Ese=eseWse;假设Wpe∈RN×e表示可训练的位置向量矩阵,输入文本序列T对应的位置独热编码表示为epe∈RN×N,则T对应的位置向量序列可通过Epe=epeWpe计算得到。
4.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤5具体为:假设集合M={m1,m2,…mk}表示所有掩码位置的下标,其中k表示总掩码数量,以集合M中的元素为下标,从Bert编码器最后一层的输出h[L]中抽取出对应的表示,并将这些表示拼接得到掩码表示hm=RK×e,利用词向量矩阵Wte将掩码表示hm映射到词表空间,对于掩码表示的第i个分量hi m,计算得到该掩码位置对应的词表上的概率分布
Figure FDA0003603273590000041
将Pi与标签yi计算交叉熵损失来学习模型参数,其中yi为原Toki对应的独热向量表示。
5.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤6与WWM预训练任务不同的是,NSP只需要判断输入文本序列中的句子B是否是句子A的下一个句子,是一个二分类任务,输入文本序列中的第一个标记[CLS]处的最后一层隐含层表示即
Figure FDA0003603273590000042
可以作为输入序列的文本表示,因此NSP任务的输出层只需要将
Figure FDA0003603273590000043
输入至分类器,便可得到预测的分类概率P∈R2,如下所示:
Figure FDA0003603273590000044
上式中,Wp和b分别是全连接层的权重和偏置,将预测分类概率与真实分类标签计算交叉熵损失,优化模型参数。
6.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤8具体为:将
Figure FDA0003603273590000045
通过一层全连接层以预测输入文本序列对应的类别,获得文本序列的分类概率分布P,如下所示:
Figure FDA0003603273590000046
上式中WSC∈Rd×K表示全连接层的权重,bSC∈RK表示全连接层的偏置,K表示类别数,将P与真实分类标签y计算交叉熵损失,对输出层参数进行学习,同时也对Bert自身参数进行更新,以使得Bert预训练语言模型与单句护照文本分类的任务更加适配。
CN202210409869.6A 2022-04-19 2022-04-19 一种基于Bert的护照版面分析方法 Pending CN115048511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210409869.6A CN115048511A (zh) 2022-04-19 2022-04-19 一种基于Bert的护照版面分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210409869.6A CN115048511A (zh) 2022-04-19 2022-04-19 一种基于Bert的护照版面分析方法

Publications (1)

Publication Number Publication Date
CN115048511A true CN115048511A (zh) 2022-09-13

Family

ID=83157256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210409869.6A Pending CN115048511A (zh) 2022-04-19 2022-04-19 一种基于Bert的护照版面分析方法

Country Status (1)

Country Link
CN (1) CN115048511A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374252A (zh) * 2022-10-21 2022-11-22 北京语言大学 一种基于原生Bert架构的文本分级方法及装置
CN115936014A (zh) * 2022-11-08 2023-04-07 上海栈略数据技术有限公司 一种医学实体对码方法、系统、计算机设备、存储介质
CN116187163A (zh) * 2022-12-20 2023-05-30 北京知呱呱科技服务有限公司 一种用于专利文件处理的预训练模型的构建方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374252A (zh) * 2022-10-21 2022-11-22 北京语言大学 一种基于原生Bert架构的文本分级方法及装置
CN115374252B (zh) * 2022-10-21 2022-12-23 北京语言大学 一种基于原生Bert架构的文本分级方法及装置
CN115936014A (zh) * 2022-11-08 2023-04-07 上海栈略数据技术有限公司 一种医学实体对码方法、系统、计算机设备、存储介质
CN116187163A (zh) * 2022-12-20 2023-05-30 北京知呱呱科技服务有限公司 一种用于专利文件处理的预训练模型的构建方法及系统
CN116187163B (zh) * 2022-12-20 2024-02-20 北京知呱呱科技有限公司 一种用于专利文件处理的预训练模型的构建方法及系统

Similar Documents

Publication Publication Date Title
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN114139497A (zh) 一种基于bertsum模型的文本摘要提取方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN115114427A (zh) 基于预训练和多任务学习的文本摘要和关键词抽取方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
Yao et al. Resuformer: Semantic structure understanding for resumes via multi-modal pre-training
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination