CN115048511A - 一种基于Bert的护照版面分析方法 - Google Patents
一种基于Bert的护照版面分析方法 Download PDFInfo
- Publication number
- CN115048511A CN115048511A CN202210409869.6A CN202210409869A CN115048511A CN 115048511 A CN115048511 A CN 115048511A CN 202210409869 A CN202210409869 A CN 202210409869A CN 115048511 A CN115048511 A CN 115048511A
- Authority
- CN
- China
- Prior art keywords
- bert
- sequence
- passport
- text
- text sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于Bert的护照版面分析方法,采用“预训练+精调”的自然语言处理新范式,基于大规模无标注语料库训练出一个Bert预训练语言模型,其中的NSP预训练任务可以学到通用的文本语义表示,将Bert预训练语言模型作为可训练的特征抽取器,应用到有监督的下游任务中,并参与下游任务的训练,之后根据具体的护照文本分类任务,使用护照文本数据进行精调,训练得到一个基于Bert的文本分类模型。本发明输出结构化后的文本内容,使用文本的语义表示进行文本分类,可以不用受限于版面类型和应用场景,实现任意版面及通用场景下的护照版面分析,并可以将此方法应用于其它类型的证件。
Description
技术领域
本发明涉及光学字符识别领域、自然语言处理技术领域,具体为 一种基于Bert的护照版面分析方法。
背景技术
当今社会由于信息化、数字化的发展,对护照等证件进行自动化 信息提取的需求与日俱增。护照识别技术,即基于ocr(光学字符识 别)技术实现对护照图片中信息的自动化识别。随着深度学习的发展, ocr技术日趋成熟,不仅在实验中获得良好效果,在实际应用中也已 获得广泛认可。依托ocr技术,目前市面上已经出现很多应用级的商 业化护照识别软件。这些护照识别软件在多个行业中得到了应用,特 别是边防检查站、海关、机场、出入境管理、旅行社等行业中,更是 发挥了巨大的作用。
一个实用且完备的ocr系统应该包含两个重要组件,即内容识别 和结构识别。内容识别的核心是对文档图像中所包含的文字内容进行 高效、高精度的识别。结构识别的核心是将识别出的非结构化文字内 容进行结构化,从而实现对文档图像的版面重构和复原,这个过程也 叫做版面分析。
护照等证件类版面,属于具有固定模板的结构化版面,这种版面 具有较强的规则性且前背景可分性强。现有针对护照进行版面分析的 方法可以分为两种:一种是基于大量先验规则的方法;一种是基于计 算机视觉的方法。基于大量先验规则的方法,是在识别出护照图像中 的关键文本字段之后,通过文本的内容特点和位置关系提取关键信 息,核心在于设计提取关键信息的规则。目前已有的基于计算机视觉 的方法主要有两种:第一种是基于模版匹配的方法,通过对护照图像 进行文本检测,提取出目标区域的特征,将目标区域的特征与模版图 像中提取的标签特征进行匹配,以获取目标区域的类别标签,核心在于模版选取、特征提取以及特征匹配算法的设计;第二种是基于目标 检测的方法,即在定位目标的同时进行分类。
但是上述方法在实际运用时,常出现如下问题:
1、基于大量先验规则的版面分析方法,规则编写逻辑复杂,并 且关键字段粘连或过切分会影响最终规则的匹配。另外先验规则只适 用于特定的场景下,比如测试样本的版面是先验规则不符合的或者样 本中有部分关键字段被遮挡,都会导致先验规则无法适用;
2、基于模版匹配的版面分析方法,只适用于版面样式单一的证 件,如果版面样式过多,则逻辑会变得十分复杂,并且鲁棒性较差;
3、基于目标检测的版面分析方法,只能在特定场景下获得较好 的效果,需要各个关键字段的文字内容和外观样式变化较小并且字段 与字段之间的相对位置关系不变,另外,还需要在目标检测之前对图 像进行旋转角度矫正。
因此我们对此做出改进,提出一种基于Bert的护照版面分析方 法。
发明内容
为了解决上述技术问题,以更好地契合护照ocr系统对于版面多 样性以及文本结构化输出的市场需求,本发明提出了一种基于Bert (Bidirectional EncoderRepresentation from Transformers)的护照版面 分析方法,具体由以下技术手段所达成:
本发明一种基于Bert的护照版面分析方法,包括基于大规模无 标注语料库训练出Bert预训练语言模型,Bert预训练过程包括两个 基本的预训练任务:整词掩码语言模型WWM和下一个句子预测 NSP,其特征在于:
所述词掩码语言模型WWM的建模方法包括如下步骤:
步骤1、对输入文本序列进行掩码处理,采用15%的掩码比例, 即输入文本序列中15%的token会被掩码;
步骤2、tokenization处理,对经过掩码处理后的文本序列添加特 殊标记、进行补齐、截断操作后得到输入文本序列,如果输入文本序 列T的长度n小于Bert的最大序列长度N,N=128,则需要将补齐标 记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N;反之, 如果输入文本序列T的长度大于N,则需要将T截断至长度为N;
步骤3、获取Bert的输入表示E,对于给定的文本序列T,Bert 的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加 而成;
步骤4、对输入表示E进行多层双向Transformer编码块,并借 助自注意力机制充分学习文本序列中每个token之间的语义关联;
步骤5、根据WWM预训练任务的输出层以及损失函数,预测掩 码位置;
所述下一个句子预测NSP的建模方法包括如下步骤:
步骤6、NSP预训练任务的输出层以及损失函数;
步骤7、进行单句护照文本分类任务tokenization处理、Bert输入 表示和Bert编码器建模,且单句护照文本分类任务tokenization处理、 Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致,与 NSP任务不同的是,单句护照文本分类任务的输入文本序列是由单个 句子组成;
步骤8、单句护照文本分类任务的输出层及损失函数,使用[CLS] 位的隐含层表示进行文本类别的预测;
步骤9、单句护照文本分类任务的数据增强,对训练集中的每一 个样本,都执行如下四种数据增强操作:
(1)随机字删除:随机删除文本序列中15%~30%的字;
(2)随机交换邻近字:随机选择文本序列中两个邻近的字并交 换其位置;
(3)随机同义词替换:随机选取文本序列中15%~30%的词, 随机选取其同义词并替换;
(4)随机插入:随机选取文本序列中不属于停用词集的词,求 出其随机同义词并插入文本序列中的随机位置。
作为本发明的一种优选技术方案,所述步骤1中对输入文本序列 的掩码操作有以下三种:
(1)以80%的概率替换为[MASK]标记;
(2)以10%的概率替换为词表中的任意一个随机token;
(3)以10%的概率保持不变;
具体地,假设原始输入文本序列为T=Tok1Tok2...TokN,其中Toki表示输入文本序列中的第i个token,随机选取其中15%的token,对 选取的token以及其所在整词的其它token都进行掩码,得到掩码后 的输入文本序列为Tok′1Tok′2...Tok′N,其中Tok′i表示经过掩码处理后的 第i个token。
作为本发明的一种优选技术方案,所述步骤3中输入表示E的计 算公式为:
E=Ete+Ese+Epe
上式中Ete表示词向量序列,Ese表示段向量序列,Epe表示位 置向量序列,大小均为N×e,e表示词向量的维度,取值为768;假 设Wte∈R|V|×e表示可训练的词向量矩阵,输入文本序列T对应的独热 向量序列为ete∈RN×|V|,则T对应的词向量序列可通过Ete=eteWte计 算得到,式中|V|表示词表大小;假设Wse∈R|S|×e表示可训练的块向 量矩阵,输入文本序列T对应的段编码表示为ese∈RN×|S|,|S|表示块 数量,则T对应的段向量序列可通过Ese=eseWse;假设Wpe∈RN×e表示可训练的位置向量矩阵,输入文本序列T对应的位置独热编码表 示为epe∈RN×N,则T对应的位置向量序列可通过Epe=epeWpe计算 得到。
作为本发明的一种优选技术方案,所述步骤5具体为:假设集合 M={m1,m2,···mk}表示所有掩码位置的下标,其中k表示总掩码数 量,以集合M中的元素为下标,从Bert编码器最后一层的输出h[L]中 抽取出对应的表示,并将这些表示拼接得到掩码表示hm=RK×e,利 用词向量矩阵Wte将掩码表示hm映射到词表空间,对于掩码表示的 第i个分量hi m,计算得到该掩码位置对应的词表上的概率分布将Pi与标签yi计算交叉熵损失来学习模型参数, 其中yi为原Toki对应的独热向量表示。
作为本发明的一种优选技术方案,所述步骤6与WWM预训练 任务不同的是,NSP只需要判断输入文本序列中的句子B是否是句 子A的下一个句子,是一个二分类任务,输入文本序列中的第一个 标记[CLS]处的最后一层隐含层表示即可以作为输入序列的文本表示,因此NSP任务的输出层只需要将输入至分类器,便可得到 预测的分类概率P∈R2,如下所示:
上式中,Wp和b分别是全连接层的权重和偏置,将预测分类概 率与真实分类标签计算交叉熵损失,优化模型参数。
上式中WSC∈Rd×K表示全连接层的权重,bSC∈RK表示全连接层 的偏置,K表示类别数,将P与真实分类标签y计算交叉熵损失,对 输出层参数进行学习,同时也对Bert自身参数进行更新,以使得Bert 预训练语言模型与单句护照文本分类的任务更加适配。
本发明的有益效果是:
本发明采用“预训练+精调”的自然语言处理新范式,基于大规 模无标注语料库训练出一个Bert预训练语言模型,其中的NSP(Next Sentence Prediction)预训练任务可以学到通用的文本语义表示,将 Bert预训练语言模型作为可训练的特征抽取器,应用到有监督的下游 任务(单句护照文本分类任务)中,并参与下游任务的训练,之后根 据具体的护照文本分类任务,使用护照文本数据进行精调,训练得到 一个基于Bert的文本分类模型。用户输入一张包含护照个人资料所 有页的图片,在使用文本检测和文本识别算法提取出关键字段的文本 内容之后,将文本内容输入给本发明训练好的文本分类模型,本发明 输出结构化后的文本内容,使用文本的语义表示进行文本分类,可以 不用受限于版面类型和应用场景,实现任意版面及通用场景下的护照 版面分析,并可以将此方法应用于其它类型的证件。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部 分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限 制。在附图中:
图1是本发明基于Bert的护照文本分类训练框架示意图;
图2是本发明Bert编码器结构示意图;
图3是实施例2中的测试图片示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处 所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发 明。
实施例1
一种基于Bert的护照版面分析方法,包括以下步骤:
如图1所示,是基于Bert的护照文本分类训练框架,采用“预 训练+精调”的自然语言处理新范式,基于大规模无标注语料库训练 出一个Bert预训练语言模型,其中的NSP预训练任务可以学到通用 的文本语义表示。将Bert预训练语言模型作为可训练的特征抽取器, 应用到有监督的下游任务(单句护照文本分类任务)中,并参与下游 任务的训练。之后根据具体的护照文本分类任务,使用护照文本数据 进行精调。
Bert预训练。本发明的护照文本分类模型使用Bert作为主干网 络。Bert预训练过程包括两个基本的预训练任务:整词掩码语言模型 (WWM)和下一个句子预测(NSP)。两个任务的建模方法很相似, 主要在输出层有所区别。下面针对两个任务分别进行说明。
WWM(Whole Word Masking)预训练任务,直接将输入文本序 列中的部分token所在的整词掩码并通过深层Transformer模型将掩 码还原,避免了双向语言模型带来的信息泄漏问题以及WordPiece子 词信息泄漏的问题,迫使模型使用被掩码字周围的上下文信息还原掩 码位置的字。以下从掩码处理、输入层、编码层、输出层四个方面介 绍WWM的建模方法。
步骤1:首先对输入文本序列进行掩码处理。本发明采用15%的 掩码比例,即输入文本序列中15%的token会被掩码,对输入文本序 列的掩码操作有以下三种:
(1)以80%的概率替换为[MASK]标记;
(2)以10%的概率替换为词表中的任意一个随机token;
(3)以10%的概率保持不变;
具体地,假设原始输入文本序列为T=Tok1Tok2...TokN,其中Toki表示输入文本序列中的第i个token,随机选取其中15%的token,对 选取的token以及其所在整词的其它token都进行掩码,得到掩码后 的输入文本序列为Tok′1Tok′2...Tok′N,其中Tok′i表示经过掩码处理后的 第i个token。举例说明如下:
步骤2:tokenization处理。经过掩码处理后的输入文本序列为:
T=Tok′1Tok′2···Tok′N
对其添加特殊标记、进行补齐、截断操作后得到输入文本序列表 示为:
T=[CLS]Tok′1Tok′2···Tok′N[SEP]
上式中[CLS]表示文本序列开始的特殊标记,[SEP]表示文本序列 之间的分隔标记。
如果输入文本序列T的长度n小于Bert的最大序列长度N(本 发明中,N=128),则需要将补齐标记[PAD]拼接在输入文本序列后 以达到Bert的最大序列长度N;反之,如果输入文本序列T的长度 大于N,则需要将T截断(开始标记和分隔标记需要保留)至长度为 N。
步骤3:获取Bert的输入表示。对于给定的文本序列T(经过步 骤4和步骤5处理后),Bert的输入表示由其对应的词向量序列(Token Embeddings)、段向量序列(SegmentEmbeddings)和位置向量序列 (Position Embeddings)相加而成:
E=Ete+Ese+Epe
上式中Ete表示词向量序列,Ese表示段向量序列,Epe表示位 置向量序列,大小均为N×e,e表示词向量的维度,取值为768;假 设Wte∈R|V|×e表示可训练的词向量矩阵,输入文本序列T对应的独热 向量序列为ete∈RN×|V|,则T对应的词向量序列可通过Ete=eteWte计 算得到,式中|V|表示词表大小;假设Wse∈R|S|×e表示可训练的块向 量矩阵,输入文本序列T对应的段编码表示为ese∈RN×|S|,|S|表示块 数量,则T对应的段向量序列可通过Ese=eseWse;假设Wpe∈RN×e表示可训练的位置向量矩阵,输入文本序列T对应的位置独热编码表 示为epe∈RN×N,则T对应的位置向量序列可通过Epe=epeWpe计算 得到。
步骤4:Bert编码器结构如图2所示。输入表示E经过多层双向 Transformer编码块,借助自注意力机制充分学习文本序列中每个token之间的语义关联,隐含层输出如下:
h[l]=Trm(h[l-1]),l∈{1,2,···,L}
式中h[l]∈RN×e表示第l层Transformer的输出,表示Bert的隐含 层维度。
步骤5:WWM预训练任务的输出层以及损失函数。由于WWM 只对输入文本序列中的部分token进行了掩码,因此只需要预测掩码 位置。假设集合M={m1,m2,···mk}表示所有掩码位置的下标,其中k 表示总掩码数量,以集合M中的元素为下标,从Bert编码器最后一 层的输出h[L]中抽取出对应的表示,并将这些表示拼接得到掩码表示 hm=RK×e,利用词向量矩阵Wte将掩码表示hm映射到词表空间,对 于掩码表示的第i个分量hi m,计算得到该掩码位置对应的词表上的 概率分布将Pi与标签yi计算交叉熵损失来学习 模型参数,其中yi为原Toki对应的独热向量表示。
NSP预训练任务的输入文本序列由两个句子拼接而成。正样本即 构成“下一个句子”关系,由来自自然文本中相邻的两个句子“句子 A”和“句子B”组成;负样本即构成“非下一个句子”关系,将 “句子B”替换为语料库中任意一个其他句子即可。正负样本比例控 制在1:1。在NSP预训练任务中,输入文本序列 T=Tok1Tok2···ToknTok1Tok2···Tokm,同样经过步骤2~4得到Bert编 码器最后一层的输出h[L]。
步骤6:NSP预训练任务的输出层以及损失函数。与WWM预训 练任务不同的是,NSP只需要判断输入文本序列中的句子B是否是 句子A的下一个句子,是一个二分类任务,输入文本序列中的第一 个标记[CLS]处的最后一层隐含层表示即可以作为输入序列的文本表示,因此NSP任务的输出层只需要将输入至分类器,便可得 到预测的分类概率P∈R2,如下所示:
上式中,Wp和b分别是全连接层的权重和偏置,将预测分类概 率与真实分类标签计算交叉熵损失,优化模型参数。
单句护照文本分类任务。经过大规模数据的预训练后,将训练好 的Bert作为文本分类模型的特征抽取器,在护照文本分类数据上进 行精调。训练数据是有标注数据,每个训练样本包括由单个句子构成 的输入文本序列T=Tok1Tok2···Tokn与其对应的分类标签y。因为本身 获取的护照数据有限,为了防止过拟合,对护照文本数据做了数据增 强。
步骤7:单句护照文本分类任务tokenization处理、Bert输入表示、 Bert编码器建模与NSP预训练任务的原理一致,以下只介绍单句护 照文本分类任务的输出层及损失函数。另外,与NSP任务不同的是, 单句护照文本分类任务的输入文本序列是由单个句子组成。假设输入 的原始护照文本序列在经过步骤2、3、4所述操作之后,得到Bert 编码器最后一层的输出h[l]。
步骤8:单句护照文本分类任务的输出层及损失函数。借鉴NSP 预训练任务使用了[CLS]位的隐含层表示进行预测,并且Bert编码器 可分层将词的特征加权汇聚得到文本的语义表示,因此文本分类模型 可以使用[CLS]位的隐含层表示进行文本类别的预测。将通过一层 全连接层以预测输入文本序列对应的类别。
通过上式获得文本序列的分类概率分布P,WSC∈Rd×K表示全连 接层的权重,bSC∈RK表示全连接层的偏置,K表示类别数,将P与 真实分类标签y计算交叉熵损失,对输出层参数进行学习,同时也对 Bert自身参数进行更新,以使得Bert预训练语言模型与单句护照文本分类的任务更加适配。
步骤9:单句护照文本分类任务的数据增强。对训练集中的每一 个样本,都执行如下四种数据增强操作:
(1)随机字删除:随机删除文本序列中(15%~30%)的字;
(2)随机交换邻近字:随机选择文本序列中两个邻近的字并交 换其位置;
(3)随机同义词替换:随机选取文本序列中(15%~30%)的词, 随机选取其同义词并替换;
(4)随机插入:随机选取文本序列中不属于停用词集的词,求 出其随机同义词并插入文本序列中的随机位置。
实施例2
本发明可以将包含护照的样本图片转化为结构化字符串输出,具 体效果如下:
输入测试图片如图1所示,测试样本经过文本检测、文本识别之 后,得到识别字段的内容,将识别字段的文本内容输入本发明中可得
以上所述仅为本发明的优选实施例而已,并不用于限制本发明, 尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术 人员来说,其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之 内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护 范围之内。
Claims (6)
1.一种基于Bert的护照版面分析方法,包括基于大规模无标注语料库训练出Bert预训练语言模型,Bert预训练过程包括两个基本的预训练任务:整词掩码语言模型WWM和下一个句子预测NSP,其特征在于:
所述词掩码语言模型WWM的建模方法包括如下步骤:
步骤1、对输入文本序列进行掩码处理,采用15%的掩码比例,即输入文本序列中15%的token会被掩码;
步骤2、tokenization处理,对经过掩码处理后的文本序列添加特殊标记、进行补齐、截断操作后得到输入文本序列,如果输入文本序列T的长度n小于Bert的最大序列长度N,N=128,则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N;反之,如果输入文本序列T的长度大于N,则需要将T截断至长度为N;
步骤3、获取Bert的输入表示E,对于给定的文本序列T,Bert的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加而成;
步骤4、对输入表示E进行多层双向Transformer编码块,并借助自注意力机制充分学习文本序列中每个token之间的语义关联;
步骤5、根据WWM预训练任务的输出层以及损失函数,预测掩码位置;
所述下一个句子预测NSP的建模方法包括如下步骤:
步骤6、NSP预训练任务的输出层以及损失函数;
步骤7、进行单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模,且单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致,与NSP任务不同的是,单句护照文本分类任务的输入文本序列是由单个句子组成;
步骤8、单句护照文本分类任务的输出层及损失函数,使用[CLS]位的隐含层表示进行文本类别的预测;
步骤9、单句护照文本分类任务的数据增强,对训练集中的每一个样本,都执行如下四种数据增强操作:
(1)随机字删除:随机删除文本序列中15%~30%的字;
(2)随机交换邻近字:随机选择文本序列中两个邻近的字并交换其位置;
(3)随机同义词替换:随机选取文本序列中15%~30%的词,随机选取其同义词并替换;
(4)随机插入:随机选取文本序列中不属于停用词集的词,求出其随机同义词并插入文本序列中的随机位置。
2.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤1中对输入文本序列的掩码操作有以下三种:
(1)以80%的概率替换为[MASK]标记;
(2)以10%的概率替换为词表中的任意一个随机token;
(3)以10%的概率保持不变;
具体地,假设原始输入文本序列为T=Tok1Tok2...TokN,其中Toki表示输入文本序列中的第i个token,随机选取其中15%的token,对选取的token以及其所在整词的其它token都进行掩码,得到掩码后的输入文本序列为Tok′1Tok′2...Tok′N,其中Tok′i表示经过掩码处理后的第i个token。
3.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤3中输入表示E的计算公式为:
E=Ete+Ese+Epe
上式中Ete表示词向量序列,Ese表示段向量序列,Epe表示位置向量序列,大小均为N×e,e表示词向量的维度,取值为768;假设Wte∈R|V|×e表示可训练的词向量矩阵,输入文本序列T对应的独热向量序列为ete∈RN×|V|,则T对应的词向量序列可通过Ete=eteWte计算得到,式中|V|表示词表大小;假设Wse∈R|S|×e表示可训练的块向量矩阵,输入文本序列T对应的段编码表示为ese∈RN×|S|,|S|表示块数量,则T对应的段向量序列可通过Ese=eseWse;假设Wpe∈RN×e表示可训练的位置向量矩阵,输入文本序列T对应的位置独热编码表示为epe∈RN×N,则T对应的位置向量序列可通过Epe=epeWpe计算得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210409869.6A CN115048511A (zh) | 2022-04-19 | 2022-04-19 | 一种基于Bert的护照版面分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210409869.6A CN115048511A (zh) | 2022-04-19 | 2022-04-19 | 一种基于Bert的护照版面分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115048511A true CN115048511A (zh) | 2022-09-13 |
Family
ID=83157256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210409869.6A Pending CN115048511A (zh) | 2022-04-19 | 2022-04-19 | 一种基于Bert的护照版面分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048511A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374252A (zh) * | 2022-10-21 | 2022-11-22 | 北京语言大学 | 一种基于原生Bert架构的文本分级方法及装置 |
CN115936014A (zh) * | 2022-11-08 | 2023-04-07 | 上海栈略数据技术有限公司 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
-
2022
- 2022-04-19 CN CN202210409869.6A patent/CN115048511A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374252A (zh) * | 2022-10-21 | 2022-11-22 | 北京语言大学 | 一种基于原生Bert架构的文本分级方法及装置 |
CN115374252B (zh) * | 2022-10-21 | 2022-12-23 | 北京语言大学 | 一种基于原生Bert架构的文本分级方法及装置 |
CN115936014A (zh) * | 2022-11-08 | 2023-04-07 | 上海栈略数据技术有限公司 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
CN116187163B (zh) * | 2022-12-20 | 2024-02-20 | 北京知呱呱科技有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN112395417A (zh) | 基于深度学习的网络舆情演化仿真方法及系统 | |
CN114139497A (zh) | 一种基于bertsum模型的文本摘要提取方法 | |
CN115422939B (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN115114427A (zh) | 基于预训练和多任务学习的文本摘要和关键词抽取方法 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN114912453A (zh) | 基于增强序列特征的中文法律文书命名实体识别方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
Yao et al. | Resuformer: Semantic structure understanding for resumes via multi-modal pre-training | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN115952794A (zh) | 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法 | |
CN114881038A (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |