CN116090463A

CN116090463A - 一种名片信息抽取系统训练方法及装置、存储介质

Info

Publication number: CN116090463A
Application number: CN202111296307.7A
Authority: CN
Inventors: 王奥迪; 杨希
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2023-05-09
Also published as: WO2023078264A1

Abstract

本发明实施例公开了一种名片信息抽取系统训练方法及装置、存储介质，该方法包括通过对名片图像进行识别，得到文本信息，之后通过预设BERT模型、预设卷积神经网络进行训练对文本信息进行处理，得到特征向量，再对特征向量进行组合编码，以得到对应的文本片段特征信息，最后利用分类器对文本片段特征信息进行判别，得到文本片段特征信息对应的预测分类标签，通过预设目标函数，使得文本片段特征信息对应的预测分类标签与预设分类标签的损失值达到要求，从而完成对名片信息抽取系统的训练，而通过筛选预测分类标签将得到结构化信息。本发明实施例能够提高系统对名片进行信息抽取时的效果，从而减少在对名片进行信息抽取时抽取到的结构化信息的误差。

Description

一种名片信息抽取系统训练方法及装置、存储介质

技术领域

本发明涉及图像信息处理技术领域，尤其涉及一种名片信息抽取系统训练方法及装置、存储介质。

背景技术

名片信息抽取的主要目标是，输入一张名片的图像，抽取出名片中的结构化信息，其中，结构化信息包括姓名、职位、公司、地址、电话、邮箱等关键字段。

现有技术中对于名片信息的抽取，主要包括两个流程：首先，使用OCR技术从名片图像中识别出名片中的文本；其次，对OCR识别的文本进行结构化，作为最终的系统输出结果，之后采用人工设计规则或命名实体识别技术对OCR 识别的文本进行结构化，从而提取名片中的关键字段。

但是，由于现有的OCR技术在实际使用中需要通过识别“触发词”，从而从图像中识别文本，而名片的布局形式多样，且冗余信息较多，有的名片信息中包含“触发词”，有的名片信息不包括“触发词”，有的名片信息中“触发词”是图标；因此，现有技术中对名片进行信息抽取时，存在抽取到的结构化信息具有误差。使得如何得到一种能够提高名片信息抽取精度的系统成为目前亟待解决的技术问题。

发明内容

本发明实施例期望提供一种名片信息抽取系统训练方法及装置、存储介质，能够提高系统对名片进行信息抽取时的效果，从而减少在对名片进行信息抽取时，抽取到的结构化信息的误差。

本发明的技术方案是这样实现的：

本发明实施例提供一种名片信息抽取系统训练方法，包括：

对名片图像进行识别，得到文本信息；其中，所述名片图像为以下至少一种：真实名片图像或模拟名片图像；

基于预设BERT模型、预设卷积神经网络，以及所述文本信息，得到特征向量；其中，所述特征向量表征所述文本信息中词汇的语义信息；

基于预设循环神经网络，对所述特征向量进行组合编码，得到对应的文本片段特征信息；其中，所述文本片段特征信息表征不同组合的文本内容；

利用分类器对所述文本片段特征信息进行判别，从而得到所述文本片段特征信息对应的预测分类标签；其中，所述预测分类标签表征所述文本片段特征信息的文本类型，所述预测分类标签为得到结构化信息的依据；

基于预设目标函数，以及所述文本片段特征信息对应的所述预测分类标签和预设分类标签，得到损失值，并根据所述损失值确定目标参数；其中，所述目标参数为所述预设BERT模型、所述预设卷积神经网络、所述预设循环神经网络以及所述分类器中的变量，所述目标参数表征用于抽取名片信息的系统。

上述方案中，所述基于预设目标函数，以及所述文本片段特征信息对应的所述预测分类标签和预设分类标签，得到损失值，并根据所述损失值确定目标参数，包括：

根据第一子目标函数和第一预设权重，以及所述预设分类标签和所述预测分类标签，得到第一子损失值；

根据第二子目标函数、第二预设权重，以及所述第一预设权重、所述预设分类标签和所述预测分类标签，得到第二子损失值；其中，所述第一子目标函数和所述第二子目标函数均为所述预设目标函数；

基于所述第一子损失值和第二子损失值，得到所述损失值，并根据所述损失值确定所述目标参数。

上述方案中，所述根据所述损失值确定目标参数，包括：

当所述损失值保持不减少的状态时，确定当前所述预设BERT模型、所述预设卷积神经网络、所述预设循环神经网络以及所述分类器中的变量为所述目标参数。

上述方案中，所述基于预设BERT模型、预设卷积神经网络，以及所述文本信息，得到特征向量，包括：

基于所述预设BERT模型，对文本内容信息进行转化，得到词向量序列；其中，所述文本信息包括文本内容信息和文本位置信息；

根据所述文本行位置信息，将所述词向量序列填充至预设二维网格中，从而得到目标二维网格；

根据所述目标二维网格，以及所述预设卷积神经网络，从而得到所述特征向量。

上述方案中，所述根据所述目标二维网格，以及所述预设卷积神经网络，从而得到所述特征向量，包括：

根据所述目标二维网格，以及所述预设卷积神经网络中的三维卷积核，从而得到所述特征向量。

上述方案中，所述根据所述目标二维网格，以及所述预设卷积神经网络中的三维卷积核，从而得到所述特征向量，包括：

根据所述预设卷积神经网络中的所述三维卷积核，抽取所述目标二维网格中的特征，从而得到所述特征向量。

上述方案中，当所述名片图像为所述模拟名片图像时，所述对名片图像进行识别，得到文本信息之前，所述方法包括：

采集文本样本信息；

根据所述文本样本信息，以及预设生成式对抗网络、预设排版规则，得到所述名片图像。

本发明实施例提供一种名片信息抽取系统训练装置，包括得到单元和确定单元；其中，

所述得到单元，用于对名片图像进行识别，得到文本信息；基于预设BERT 模型、预设卷积神经网络，以及所述文本信息，得到特征向量；其中，所述特征向量表征所述文本信息中词汇的语义信息；基于预设循环神经网络，对所述特征向量进行编码，得到对应的文本片段特征信息；其中，所述文本片段特征信息表征不同组合的文本内容；利用分类器对所述文本片段特征信息进行判别，从而得到所述文本片段特征信息对应的预测分类标签；其中，所述预测分类标签表征所述文本片段特征信息的文本类型，所述预测分类标签为得到结构化信息的依据；基于预设目标函数，以及所述文本片段特征信息对应的所述预测分类标签和预设分类标签，得到损失值，并根据所述损失值确定目标参数；

所述确定单元，用于根据所述损失值确定目标参数；其中，所述目标参数为所述预设BERT模型、所述预设卷积神经网络、所述预设循环神经网络以及所述分类器中的变量，所述目标参数表征用于抽取名片信息的系统。

上述方案中，所述得到单元，还用于根据第一子目标函数和第一预设权重，以及所述预设分类标签和所述预测分类标签，得到第一子损失值；根据第二子目标函数、第二预设权重，以及所述第一预设权重、所述预设分类标签和所述预测分类标签，得到第二子损失值；其中，所述第一子目标函数和所述第二子目标函数均为所述预设目标函数；基于所述第一子损失值和第二子损失值，得到所述损失值，并根据所述损失值确定所述目标参数。

上述方案中，所述确定单元，还用于当所述损失值保持不减少的状态时，确定当前所述预设BERT模型、所述预设卷积神经网络、所述预设循环神经网络以及所述分类器中的变量为所述目标参数。

上述方案中，所述得到单元，还用于基于所述预设BERT模型，对文本内容信息进行转化，得到词向量序列；其中，所述文本信息包括文本内容信息和文本位置信息；根据所述文本行位置信息，将所述词向量序列填充至预设二维网格中，从而得到目标二维网格；根据所述目标二维网格，以及所述预设卷积神经网络，从而得到所述特征向量。

上述方案中，所述得到单元，还用于根据所述目标二维网格，以及所述预设卷积神经网络中的三维卷积核，从而得到所述特征向量。

上述方案中，所述得到单元，还用于根据所述预设卷积神经网络中的所述三维卷积核，抽取所述目标二维网格中的特征，从而得到所述特征向量。

上述方案中，所述装置还包括采集单元，所述采集单元用于当所述名片图像为所述模拟名片图像时，采集文本样本信息；

所述得到单元，还用于根据所述文本样本信息，以及预设生成式对抗网络、预设排版规则，得到所述名片图像。

本发明实施例提供一种名片信息抽取系统训练装置，包括：

存储器，用于存储可执行数据指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例所述的名片信息抽取系统训练方法。

本发明实施例提供一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现本发明实施例所述的名片信息抽取系统训练方法。

本发明实施例提供了一种名片信息抽取系统训练方法及装置、存储介质，该方法包括通过对名片图像进行识别，得到文本信息，之后通过预设BERT模型、预设卷积神经网络进行训练对文本信息进行处理，得到特征向量，再对特征向量进行组合编码，以得到对应的文本片段特征信息，最后利用分类器对文本片段特征信息进行判别，得到文本片段特征信息对应的预测分类标签，通过预设目标函数，得到文本片段特征信息对应的预测分类标签与预设分类标签的损失值，当损失值达到要求后，将完成对名片信息抽取系统的训练。

本发明实施例能够提高系统对名片进行信息抽取时的效果，从而减少在对名片进行信息抽取时，抽取到的结构化信息的误差。

附图说明

图1为本发明实施例提供的一种名片信息抽取系统的架构图一；

图2为本发明实施例提供的一种名片信息抽取系统的架构图二；

图3为本发明实施例提供的一种名片信息抽取系统训练方法的流程图一；

图4为本发明实施例提供的一种名片信息抽取系统训练方法的流程图二；

图5为本发明实施例提供的一种名片信息抽取系统训练方法的流程图三；

图6为本发明实施例提供的一种名片信息抽取方法的流程图；

图7为本发明实施例提供的一种名片图像的示意图；

图8为本发明实施例提供的一种名片信息抽取系统训练装置的架构图一；

图9为本发明实施例提供的一种名片信息抽取系统训练装置的架构图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在对本发明实施例的方案进行介绍之前，先对本发明实施例中可能会使用到的技术术语进行简单说明：

GAN(Generative Adversarial Networks，生成对抗网络)是一种深度学习模型，模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。

NLP(Natural Language Processing，自然语言处理)是人工智能和语言学领域的分支学科，主要研究用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。

NER(Name Entity Recognition，命名实体识别)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的目的是识别文本中指定类别的实体。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过计算机技术将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术

图1是本发明实施例提供的一种名片信息抽取系统的架构图一，如图1所示，本发明实施例提供一种名片信息抽取系统，包括输入模块1、OCR模块2、 NER模块3和输出模块4。其中，输入模块1用于输入待识别的名片图像；OCR 模块2用于将输入的名片图像中的文字提取出来，以文本格式输出；NER模块 3负责对OCR输出的文本(文本信息)进行实体识别；输出模块4用于对NER 模块3输出的识别结果进行后处理，输出最终的目标结构化信息。

在本发明的一些实施例中，图2是本发明实施例提供的一种名片信息抽取系统的架构图二，如图2所示，NER模块3通过设于NER模块3内的NER模型完成OCR输出的文本的实体识别。NER模型包括Word Embedding层、 Bidirectional层、Hidden层、SpanRepresentations层、Fully-connected Layer层和Span Classifier层。

在本发明的一些实施例中，Word Embedding层，用于基于预设BERT模型、预设卷积神经网络，对OCR输出的文本进行处理，得到特征向量。Bidirectional 层，用于基于预设循环神经网络，对特征向量进行编码，得到对应的文本片段特征信息。Hidden层，用于通过Hidden模型将文本片段特征信息中不易被捕捉到的隐含文本片段特征信息转换为可读文本，即将隐含文本片段特征信息转换成可读文本信息，示例性的，若Bidirectional层对特征向量进行编码，得到的文本片段特征信息中包含一段隐含文本片段特征信息“B-LOC|I-LOC |I-LOC”，通过Hidden层的Hidden模型，可以通过上述隐含文本片段特征信息转换成可读文本信息“自贸区”。Span Representations层，用于将上述文本片段特征信息按照预设规则进行拼接。Fully-connected Layer层，用于对文本片段特征信息进行特征融合或者特征加权；Span Classifier层，用于对文本片段特征信息进行判别，得到文本片段特征信息对应的预测分类标签，筛选预测分类标签，将得到目标文本片段特征信息，根据目标文本片段特征信息和目标文本片段特征信息对应的预测分类标签可以确定结构化信息。

图3是本发明实施例提供的一种名片信息抽取系统训练方法的流程图一，如图3所示，本发明实施例提供的名片信息抽取系统训练方法，包括：

S101、对名片图像进行识别，得到文本信息。其中，名片图像为以下至少一种：真实名片图像或模拟名片图像。

本发明实施例中，适用于对名片图像进行识别，获取符合预设要求的文本信息的场景。

本发明实施例中，通过OCR模块对名片图像进行识别，得到需要的文本信息。

本发明实施例中，名片图像为真实名片图像和/或模拟名片图像。其中，真实名片图像表征现实生活中印制出的名片，在实际使用中，可以对上述现实生活中印制出的名片扫描或拍照，以得到真实名片图像。模拟名片图像基于现实生活中印制出的名片构造，且模拟名片图像对应的名片为在现实中未被印制出或与印制出的名片具有差异。在实际使用中，可以通过预设生成对抗网络，按照预设的内容(文本样本信息)和排版(预设排版规则)输出对应的模拟名片图像。

本发明实施例中，名片图像的输入通过输入模块完成；其中，名片图像在输入之前需要进行数据预处理操作，示例性的，数据预处理操作可以是二值化、方向矫正、扭曲矫正、去噪等。

本发明实施例中，OCR模块主要负责将输入的名片图像中的文字提取出来，并以文本格式输出，从而得到文本信息。其中，文本信息以文本行为粒度，每个文本行包括文本内容和文本位置信息。

可以理解的是，通过OCR模块对名片图像进行识别，从而获得文本格式的文本信息，更便于后续进行处理。

S102、基于预设BERT模型、预设卷积神经网络，以及文本信息，得到特征向量；其中，特征向量表征文本信息中词汇的语义信息。

本发明实施例中，适用于对S101中得到的文本信息进行处理，得到文本信息中词汇的语义信息的场景。

本发明实施例中，通过预设BERT模型、预设卷积神经网络，从文本信息中得到表征文本信息中词汇的语义信息的特征向量。

本发明实施例中，BERT模型(Bidirectional Encoder Representations fromTransformers模型)是一个自编码语言模型，可以提取词汇在句子中的关系特征，并且能在多个不同层次提取关系特征，进而更全面反映句子语义，且在提取过程中可以根据句子上下文获取词义，从而避免歧义出现。

本发明实施例中，文本信息将以token形式输入预设BERT模型中，其中， token形式指文本中各个字/词的原始词向量；在实际使用中，文本信息的token 形式可以是记为“文本token序列T”，文本token序列T＝(t1,t2,...,tN)。将文本token序列T输入至预设BERT模型中，通过预设BERT模型对文本token 序列T进行转化，将会得到词向量序列W，词向量序列W＝(w1,w2,...,wN)。

本发明实施例中，示例性的，文本信息为“公司地址：上海市静安区万荣路1268号”，将上述文本信息转换token形式输入至预设BERT模型中，即将将“公”转换为文本token序列T中的t1，“司”转换为文本token序列T中的 t2等，并输入至预设BERT模型，以得到对应的词向量序列。

本发明实施例中，当文本信息通过预设BERT模型转化为词向量序列后，需要将根据文本信息中的文本位置信息，将词向量序列W填充到预设的二维网格中；其中，二维网格中每个位置(网格)的值均对应文本token序列T中的一个词向量，在实际使用中，若预设的二维网格中有空缺，则以<PAD>的词向量填充。最后通过预设卷积神经网络对上述二维网格进行局部特征捕获，从而得到特征向量。

可以理解的是，本发明实施例基于文本信息进行片段分类的命名实体识别方法，可以降低在命名实体是被过程中由实体触发词误差带来的影响，从而提升实体抽取的效果。

图4是本发明实施例提供的一种名片信息抽取系统训练方法的流程图二，如图4所示，S102还可以包括S1021-S1023，如下：

S1021、基于预设BERT模型，对文本内容信息进行转化，得到词向量序列；其中，文本信息包括文本内容信息和文本位置信息。

在本发明的一些实施例中，适用对文本信息中的文本内容信息进行处理的场景。

在本发明的一些实施例中，将文本信息中的文本内容信息按照预设BERT 模型需要的格式，输入至预设BERT模型，从而得到词向量序列。

在本发明的一些实施例中，文本信息包括文本内容信息和文本位置信息，其中，文本内容信息指名片图像上的文字，文本位置信息指文字在名片图像上的坐标，坐标可以根据预设坐标系确定。

可以理解的是，本发明实施例中通过预设BERT模型获取词向量序列，可以提升获取到的词向量序列的精确度。

S1022、根据文本行位置信息，将词向量序列填充至预设二维网格中，从而得到目标二维网格。

在本发明的一些实施例中，适用于得到目标二维网络，为后续通过预设卷积神经网络进行进一步处理提供数据支持的场景。

在本发明的一些实施例中，根据S101中得到的文本信息中的文本行位置信息，如图2中的NER模型的Word Embedding层所示，将词向量序列中的每个词向量填充至预设二维网格中，从而得到目标二维网格。其中，预设二维网格的规格为r*c，r为文本行的个数，c为文本行的最大长度。

可以理解的是，这样即可完成局部特征的捕获，对名片图像上的文本的布局信息进行建模。

S1023、根据目标二维网格，以及预设卷积神经网络，从而得到特征向量。

在本发明的一些实施例中，适用于得到目标二维网格后，对上述数据进行后续处理，得到特征向量的场景。

在本发明的一些实施例中，将目标二维网格输入至预设卷积神经网络中，从而得到特征向量。

在本发明的一些实施例中，S1023包括：根据目标二维网格，以及预设卷积神经网络中的三维卷积核，从而得到特征向量。

在本发明的实施例中，三维卷积核中，第一维表征卷积核的宽，且第一维与词向量的长度相同；第二维表征卷积核的高；第三维表征卷积核的大小，且第三维的大小与词向量的长度相同。

在本发明的一些实施例中，S1023中根据预设卷积神经网络中的三维卷积核，抽取目标二维网格中的特征，从而得到特征向量。

在本发明的一些实施例中，利用预设卷积神经网络中的三维卷积核，对目标二维网格中的特征进行抽取，其中，每个词向量对应至少一个特征，而每个特征对应多个词向量。

可以理解的是，通过三维卷积核对特征进行抽取，提高抽取到的特征的准确率。

S103、基于预设循环神经网络，对特征向量进行组合编码，得到对应的文本片段特征信息；其中，文本片段特征信息表征不同组合的文本内容。

本发明实施例中，适用于对特征向量进行组合编码，从而得到文本片段特征信息的场景。

本发明实施例中，通过S102得到特征向量后，将特征向量输入预设循环神经网络中，通过预设循环神经网络对特征向量的组合编码，从而得到文本片段特征信息，文本片段特征信息表征特征向量的组合编码后形成的不同组合的文本内容。

本发明实施例中，预设循环神经网络即LSTM模型，通过预设循环神经网络对特征向量的组合编码表征通过预设循环神经网络对文本信息对应的文本 token序列中的元素进行不同形式的组合表示，如：正序循环表示或倒序循环表示。从而获取上述文本token序列中的元素经过不同组合后形成句子的语义。其中，如S102中所述，文本token序列表征文本信息，文本token序列中的每个元素均表征文本信息中的一个字。

本发明实施例中，由于文本信息在处理过程中，可能会有部分信息不易被识别或捕捉到，因此，将导致上述文本片段特征信息中将包含部分隐含文本片段特征信息；此时，可以通过如图2所示的Hidden层将上述隐含文本片段特征信息转换成可读文本信息(文本片段特征信息)，保证文本片段特征信息的完整性。

可以理解的是，预设循环神经网络可以提高识别出文本片段特征信息对应的文本内容的语义的正确率。

S104、利用分类器对文本片段特征信息进行判别，从而得到文本片段特征信息对应的预测分类标签；其中，预测分类标签表征文本片段特征信息的文本类型，预测分类标签为得到结构化信息的依据。

本发明实施例中，适用于获取结构化信息的场景。

本发明实施例中，利用分类器对文本片段特征信息进行判别，得到每个文本片段特征信息对应的预测分类标签，在实际使用中，可以根据预设分类标签对预测分类标签进行筛选，与预设分类标签相同的预测分类标签对应的文本片段特征信息即为目标文本片段特征信息，根据目标文本片段特征信息以及对应的预测分类标签即可得到结构化信息，结构化信息为对S101中输入的名片图像中信息的抽取结果。

本发明实施例中，分类器用于根据预测分类标签对文本片段特征信息筛选指选择出与预设分类标签相同的预测分类标签。示例性的，若预设分类标签为“地址”，则分类器从预测分类标签中筛选预测分类标签为“地址”的文本片段特征信息作为目标文本片段特征信息；若目标文本片段特征信息表征的文本内容为：“XX市XX区XX路XXXX号”，则结构化信息为“地址：XX市XX 区XX路XXXX号”。

可以理解的是，本发明实施例通过分类器对文本片段特征信息进行判别得到文本片段特征信息对应的预测分类标签，用筛选预测分类标签得到目标文本片段特征信息，以抽取结构化信息的方式，取代现有技术中通过识别“触发词”抽取结构化信息的方式；达到去除在结构化信息的抽取过程中识别“触发词”带来的误差的目的，从而减少抽取到的结构化信息的误差。

S105、基于预设目标函数，以及文本片段特征信息对应的预测分类标签和预设分类标签，得到损失值，并根据损失值确定目标参数。其中，目标参数为预设BERT模型、预设卷积神经网络、预设循环神经网络以及分类器中的变量，目标参数表征用于抽取名片信息的系统。

本发明实施例中，适用于判断识别出的文本片段特征信息的预测分类标签的准确度的场景。

本发明实施例中，通过预设目标函数，对文本片段特征信息的预设分类标签和预测分类标签进行计算，得到预设分类标签和预测分类标签之间的损失值，并根据损失值确定目标参数。其中，损失值表征文本片段特征信息的预设分类标签和预测分类标签之间的误差。

本发明实施例中，文本片段特征信息的预设分类标签为名片图像上印制的与文本片段特征信息对应的实际分类标签，在实际使用中，通过文本片段特征信息的预设分类标签和预测分类标签的损失值，可以提高名片信息抽取系统抽取到的结构化信息的准确率。其中，当损失值保持不减少的状态时，则可以确定名片信息抽取系统抽取到的结构化信息的准确率达到最大值，名片信息抽取系统完成训练，此时名片信息抽取系统中变量的当前数值为目标参数。

本发明实施例中，若文本token序列包括n个token形式的文本，则上述文本token序列对应的文本信息将包含有n(n+1)个文本片段特征信息，每个文本片段特征信息均表征一个文本片段，但是上述n(n+1)个文本片段特征信息中存在预测分类标签没有意义的文本片段特征信息，即存在负样本。示例性的，若 S101中获取到的文本信息为“公司地址：上海市静安区万荣路1268号”，将上述文本信息转换token形式。其中，上述文本信息中的每个字都相当于文本token 序列中的一个元素，例如：“公”相当于文本token序列T中的t1，“司”相当于文本token序列T中的t2等。表1为基于上述文本信息得到的n(n+1)个文本片段，表1如下：

表1

如表1所示，表1中的每一列均对应一个文本片段，且表1中仅有一个文本片段有意义：“XX市XX区XX路1XX8号”，其预设分类标签类型为“地址”，而其他文本片段均没有实际意义的标签，即为负样本。

本发明实施例中，预设目标函数包括第一预设函数和第二预设函数；其中，第一预设函数可以是SoftMax Loss，SoftMax Loss如式1-1所示，如下：

其中，

i为S103得到的文本片段特征信息索引， m为文本片段特征信息索引中的文本片段特征信息总个数，x_i是指S103得到的文本片段特征信息中第i个文本片段的特征信息(特征向量)，y_i是指第i个文本片段特征信息对应的预设分类标签，j为预设分类标签索引，c+1为预设分类标签索引中的预设分类标签总个数，1表征预设分类标签索引中无意义的预设分类标签，W为分类器中预设的权重参数，γ为第一预设权重，其中，0≤γ≤1，T用于转置，T与S102中的文本token序列无关。

本发明实施例中，第一预设权重来降低负样本对目标函数的贡献，当γ＝0 时，相当于负样本完全不参与训练。

本发明实施例中，第二预设函数可以是Center Loss，Center Loss如式1-2 所示，如下：

其中，λ为第二预设权重，i为S103得到的文本片段特征信息索引，m为文本片段特征信息索引中的文本片段特征信息总个数，x_i是指S103得到的文本片段特征信息中第i个文本片段的特征信息(特征向量)，y_i是指第i个文本片段特征信息对应的预设分类标签，j为预设分类标签索引，c+1为预设分类标签索引中的预设分类标签总个数，1表征预设分类标签索引中无意义的预设分类标签，W为分类器中预设的权重参数，γ为第一预设权重，其中，0≤γ≤1。

本发明实施例中，预设函数为L，预设函数L如式1-3所示，如下：

其中，L_S为第一预设函数，L_C为第二预设函数。

可以理解的是，本发明实施例中引入了基于度量学习的方法，在SoftMax Loss的基础上，加上人脸识别领域的Center Loss，即加上了样本在特征空间上与类中心的距离约束，监督分类器学习，使得类内更加聚合，类间更加分离，从而提升算法的泛化能力，提高名片信息抽取的效果。其中，Softmax Loss用于约束能够区分不同类型的实体文本(文本内容)，即使得文本片段特征信息具有判别性。Center Loss用于约束文本片段特征信息类内更加聚合，从而提高模型泛化能力。

图5是本发明实施例提供的一种名片信息抽取系统训练方法的流程图三，如图5所示，S105还可以包括S1051-S1053，如下：

S1051、根据第一子目标函数和第一预设权重，以及预设分类标签和预测分类标签，得到第一子损失值。

在本发明的一些实施例中，适用于获取第一子损失值的场景。

在本发明的一些实施例中，通过式1-1，对文本片段特性信息的预设分类标签和预测分类标签的第一子损失值进行计算，第一子损失值表示文本片段特征信息的判别度。

可以理解的是，通过第一损失值可以判断文本片段特征信息对应的预设分类标签和预测分类标签之间的误差。

S1052、根据第二子目标函数、第二预设权重，以及第一预设权重、预设分类标签和预测分类标签，得到第二子损失值；其中，第一子目标函数和第二子目标函数均为预设目标函数。

在本发明的一些实施例中，适用于获取第二子损失值的场景。

在本发明的一些实施例中，通过式1-2，对文本片段特征信息的预设分类标签和预测分类标签的第二子损失值进行计算，第二子损失值表示文本片段特征信息中类内的聚合度。

在本发明的一些实施例中，第二预设权重用于控制第二子损失值在损失值中的占比，第一预设权重用于控制负样本在第二子目标函数中的影响。

可以理解的是，通过第二损失值可以判断文本片段特征信息与类中心的距离。

S1053、基于第一子损失值和第二子损失值，得到损失值，并根据损失值确定目标参数。

本发明实施例中，适用于根据损失值，结束训练的场景。

本发明实施例中，基于第一子损失值和第二子损失值，得到损失值，并根据损失值确定名片信息抽取系统中的变量，即目标参数。

本发明实施例中，当损失值保持不再减小的状态时，表示名片信息抽取系统完成训练，当前的名片信息抽取系统可以保证抽取到的结构化信息的准确率，即提高抽取效果。

可以理解的是，本发明实施例，在预设目标函数中加入权重参数，并在损失值的计算中引入Center Loss，不仅可以减少正负样本不均衡对损失值的影响，且提升了识别效果。

在本发明的一些实施例中，根据损失值确定目标参数指当损失值保持不减少的状态时，确定当前预设BERT模型、预设卷积神经网络、预设循环神经网络以及分类器中的变量为目标参数。

在本发明的一些实施例中，预设BERT模型、预设卷积神经网络、预设循环神经网络以及分类器会根据损失值，调整变量的数值，并对名片图像中获取的文本信息重复处理，以确定损失值最小时的变量数值作为目标参数。

可以理解的是，通过本发明实施例提供的名片信息抽取系统训练方法，训练得到的名片信息抽取系统将提升识别效果。

在本发明的一些实施例中，当名片图像为模拟名片图像时，S101之前，本发明实施例提供的名片信息抽取系统训练方法还包括：

S106、采集文本样本信息。

在本发明的一些实施例中，适用于对名片信息进行抽取之前的样本采集场景。

在本发明的一些实施例中，在各平台爬取数据，从而采集文本样本信息。

在本发明的一些实施例中，针对名片的各个目标字段进行数据搜集，数据来源可以是平台，数据可以包含姓名、公司、地址、邮箱、网址、手机、电话、传真等公开的信息。对于个别目标字段，可以总结命名规范，根于预设规则，在已搜集到的数据的基础上进行构造，示例性的，可以通过“姓名拼音+邮箱域名”规则构造一些邮箱字段数据。对于英文字段，包括英文姓名、职位、公司、地址，可以使用翻译功能翻译得到。

可以理解的是，这样可以保证文本样本信息的数量，为训练提供数据支持。

S107、根据文本样本信息，以及预设生成式对抗网络、预设排版规则，得到模拟名片图像。

在本发明的一些实施例中，适用于构建模拟名片图像的场景。

在本发明的一些实施例中，根据S106得到的文本样本信息，通过预设生成式对抗网络，按照预设排版规则得到模拟名片图像。

在本发明的一些实施例中，预设排版规则通过基于现有名片的排版，对名片中的文本内容替换和文本位置顺序的调换得到。

在本发明的一些实施例中，预设生成式对抗网络包括生成器和判别器。生成器用于生成模拟名片图像，判别器用于识别由生成器生成的模拟名片图像。其中，生成器为encoder-decoder结构；而判别器由图像判别器和文本匹配器构成，图像判别器用于判别生成器输出的模拟名片图像的样式、背景等视觉特征的真实度。文本匹配器的用于是判定模拟名片图像上的文本与输入至生成器中的文本的相似度。在实际使用中，在判别器中输入一段S106中采集到的文本样本信息，得到上述文本样本信息对应的文本特征向量样本；在生成器中输入真实名片图像和文本特征向量样本，真实名片图像在隐层编码后融合文本特征向量样本以及随机噪声后，将得到模拟名片图像。可以理解的是，在实际使用中，通过生成器与判别器的配合，可以保证生成器生成的模拟名片图像的仿真度，而通过预设生成式对抗网络，以及真名片图像、文本样本信息，生成模拟名片图像，用于名片信息抽取系统的训练，达到了扩充数据集的目的，增加了数据的多样性。

图6是本发明实施例提供的一种名片信息抽取方法的流程图，如图6所示，适用于本发明实施例提供的名片信息抽取系统训练方法训练得到的名片信息抽取系统，包括：

S201、输入名片图像至OCR文字识别模块(OCR模块)。

在本发明的一些实施例中，在输入之前需要对名片图像进行预处理。图7 是本发明实施例提供的一种名片图像的示意图，如图7所示，为S201输入至 OCR文字识别模块的名片图像。

可以理解的是，这样可以保证后续抽取到的信息的准确度。

S202、OCR文字识别模块将输入的名片图像中的文字提取出来，以文本格式输出得到文本信息。

在本发明的一些实施例中，基于图6，OCR文字识别模块对上述名片图像进行识别，得到的文本信息将如下所示：

Word：-阿X云|9X8 pos:284,46,440,84

Word：奥XXXXXX云服务商pos:290,80,435,103

Word：罗某某pos:29,137,162,170

Word：131XXXX 1111pos:360,174,440,192

Word：XXX@XXXXXXX-inc.com pos:295,186,441,209

Word：XX集团-XXXXX事业群pos:27,178,176,202

Word：中国，XX市XX区XX路1XX号pos:276,201,442,226

Word：XXXXX(苏州)有限公司pos:27,195,176,221

Word：XXXX中心X座X层pos:339,222,443,244

Word：XXXXXX专家pos:25,212,119,233

Word：www.xxxxxx.com pos:356,242,444,260

可以理解的是，OCR文字识别模块不仅可以识别得到文本内容，还可以得到文本内容对应的文本位置信息。

S203、NER命名实体识别模块(NER模块)对OCR文字识别模块输出的文本信息进行实体识别，得到对应的文本片段特征信息及对应的预测分类标签，并通过筛选预测分类标签，从而得到目标文本片段特征信息以及目标文本片段特征信息对应的预测分类标签。

在本发明的一些实施例中，如图2所示，NER命名实体识别模块对OCR 文字识别模块输出的文本信息进行实体识别时，需要先根据S102对文本信息进行处理，示例性的，如图2中Word Embedding层所示，图中的网格为二维网格，二维网格中填充的信息即是根据S202的文本进行处理后得到的词向量，当三维卷积核对二维网格中的每个网格中的词向量加权平均后，即对上述二维网格进行局部特征捕获后，将得到特征向量，Bidirectional层中的x₁、x₂、x₃、x₄、x₅为输入至Bidirectional层中进行编码的特征向量，如：x₁表征二维网格中“阿”的词向量。Bidirectional层对上述特征向量进行组合编码后，将会得到文本片段特征信息，之后再通过Hidden层对上述文本片段特征信息中的隐含文本片段特征信息进行转换后，将得到全部文本片段特征信息，即

其中，

与

分别对应正序表示的x₁和倒序表示的x₁。将上述文本片段特征信息输入至Span Representations层进行拼接后，将得到由文本片段特征信息组成的句子

最后通过 Fully-connected Layer层和SpanClassifier层对文本片段特征信息进行分类，得到文本片段特征信息对应的预测分类标签。示例性的，基于S202得到的文本，文本片段特征信息以及文本片段特征信息对应的预测分类标签可以如下所示：

<department>XX集团-XXXXX事业群</department>

<company>XXXXX(苏州)有限公司</company>

<position>XXXXXX专家</position>

-阿X云|9X8

奥XXXXXX云服务商

<mail>XXX@XXXXXXX-inc.com</mail>

<addr>中国，XX市XX区XX路1XX号

XXXX中心X座X层</addr>

<url>www.xxxxxx.com</url>

其中，“罗某某”为文本片段特征信息，“<name></name>”为“罗某某”的预测分类标签，而“-阿X云|9X8”、“奥XXXXXX云服务商”为负样本。

在本发明的一些实施例中，根据预设分类标签对预测分类标签进行筛选，其中，可以根据需要设定进行实体识别的关键字段，即预设分类标签。示例性的，若预设分类标签为：姓名、部门、公司、职位、手机、邮箱、地址和网址。则对上述预测分类标签进行筛选后，得到的目标文本片段特征信息以及目标文本片段特征信息对应的预测分类标签将如下所示：

<department>XX集团-XXXXX事业群</department>

<company>XXXXX(苏州)有限公司</company>

<position>XXXXXX专家</position>

<mail>XXX@XXXXXXX-inc.com</mail>

<addr>中国，XX市XX区XX路1XX号

XXXX中心X座X层</addr>

<url>www.xxxxxx.com</url>

可以理解的是，通过NER命名实体识别模块可以获取到目标文本片段特征信息。

S204、输出模块对目标文本片段特征信息以及目标文本片段特征信息对应的预测分类标签进行后续处理，输出最终的结构化信息。

在本发明实施例中，输出模块用于在目标文本片段特征信息中将目标字段提取出来，并结合目标文本片段特征信息对应的预测分类标签，得到最终的目标结构化信息。其中，后续处理包括：剔除空白符、无效字符等。示例性的，基于S203得到的目标文本片段特征信息以及目标文本片段特征信息对应的预测分类标签，输出的结构化信息将如下：

姓名：罗某某

部门：XX集团-XXXXX事业群

公司：XXXXX(苏州)有限公司

职位：XXXXXX专家

手机：131XXXX 1111

邮箱：XXX@XXXXXXX-inc.com

地址：中国，XX市XX区XX路1XX号XXXX中心X座X层

网址：www.xxxxxx.com

其中，“姓名”对应于S203中的“<name></name>”为预测分类标签，即文本类别；“罗某某”为目标文本片段特征信息，即文本内容。

可以理解的是，输出模块将完成目标文本片段特征信息以及目标文本片段特征信息对应的预测分类标签的整理，得到结构化信息。

图8是本发明实施例提供的一种名片信息抽取系统训练装置的架构图一，如图8所示，本发明实施例提供一种名片信息抽取系统训练装置3，适用于本发明实施例提供的名片信息抽取系统训练方法，包括得到单元31和确定单元 32；其中，

所述得到单元31，用于对名片图像进行识别，得到文本信息；基于预设BERT模型、预设卷积神经网络，以及所述文本信息，得到特征向量；其中，所述特征向量表征所述文本信息中词汇的语义信息；基于预设循环神经网络，对所述特征向量进行编码，得到对应的文本片段特征信息；其中，所述文本片段特征信息表征不同组合的文本内容；利用分类器对所述文本片段特征信息进行判别，从而得到所述文本片段特征信息对应的预测分类标签；其中，所述预测分类标签表征所述文本片段特征信息的文本类型，所述预测分类标签为得到结构化信息的依据；基于预设目标函数，以及所述文本片段特征信息对应的所述预测分类标签和预设分类标签，得到损失值，并根据所述损失值确定目标参数。

所述确定单元32，用于根据所述损失值确定目标参数；其中，所述目标参数为所述预设BERT模型、所述预设卷积神经网络、所述预设循环神经网络以及所述分类器中的变量，所述目标参数表征用于抽取名片信息的系统。

在本发明的一些实施例中，所述得到单元31，还用于根据第一子目标函数和第一预设权重，以及所述实际分类标签和所述预测分类标签，得到第一子损失值；及根据第二子目标函数、第二预设权重，以及所述第一预设权重、所述预设分类标签和所述预测分类标签，得到第二子损失值；其中，所述第一子目标函数和所述第二子目标函数均为所述预设目标函数；以及基于所述第一子损失值和第二子损失值，得到所述损失值，并根据所述损失值确定所述目标参数。

在本发明的一些实施例中，所述确定单元32，还用于当所述损失值保持不减少的状态时，确定当前所述预设BERT模型、所述预设卷积神经网络、所述预设循环神经网络以及所述分类器中的变量为所述目标参数。

在本发明的一些实施例中，所述得到单元31，还用于基于所述预设BERT 模型，对文本内容信息进行转化，得到词向量序列；其中，所述文本信息包括文本内容信息和文本位置信息；及根据所述文本行位置信息，将所述词向量序列填充至预设二维网格中，从而得到目标二维网格；以及根据所述目标二维网格，以及所述预设卷积神经网络，从而得到所述特征向量。

在本发明的一些实施例中，所述得到单元31，还用于根据所述目标二维网格，以及所述预设卷积神经网络中的三维卷积核，从而得到所述特征向量。

在本发明的一些实施例中，所述得到单元，还用于根据所述预设卷积神经网络中的所述三维卷积核，抽取所述目标二维网格中的特征，从而得到所述特征向量。

在本发明的一些实施例中，所述装置还包括采集单元33，所述采集单元33 用于当所述名片图像为所述模拟名片图像时，采集文本样本信息；

所述得到单元31，还用于根据所述文本样本信息，以及预设生成式对抗网络、预设排版规则，得到所述名片图像。

图9是本发明实施例提供的一种名片信息抽取系统训练装置的架构图二，如图9所示，本发明实施例提供一种名片信息抽取系统训练装置，并对应一种应用于名片信息抽取系统训练装置的名片信息抽取系统训练，名片信息抽取系统训练装置4包括处理器401、存储器402以及通信总线404，存储器402通过通信总线404与处理器401进行通信，存储器402存储所述处理器401可执行的一个或者多个程序，当所述一个或者多个程序被执行时，所述处理器401执行如本发明实施例的名片信息抽取系统训练方法，具体的，名片信息抽取系统训练装置4还包括用于进行数据传输的通信组件403，其中，处理器401至少设有一个。

本发明实施例中，名片信息抽取系统训练装置4中的各个组件通过总线404 耦合在一起

实施例所述的应用于名片信息抽取训练装置的名片信息抽取系统训练方法。。

本领域内的技术人员应明白，本发明的。可理解，通过总线404用于实现这些组件之间的连接通信。通过总线404除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为通过总线404。

本发明实施例提供一种存储介质，所述存储介质存储有可执行指令，当所述可执行指令被执行时，用于引起处理器401执行如本发明实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种名片信息抽取系统训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设目标函数，以及所述文本片段特征信息对应的所述预测分类标签和预设分类标签，得到损失值，并根据所述损失值确定目标参数，包括：

3.根据权利要求1或2中任一项所述的方法，其特征在于，所述根据所述损失值确定目标参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于预设BERT模型、预设卷积神经网络，以及所述文本信息，得到特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标二维网格，以及所述预设卷积神经网络，从而得到所述特征向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标二维网格，以及所述预设卷积神经网络中的三维卷积核，从而得到所述特征向量，包括：

7.根据权利要求1所述的方法，其特征在于，当所述名片图像为所述模拟名片图像时，所述对名片图像进行识别，得到文本信息之前，所述方法还包括：

采集文本样本信息；

根据所述文本样本信息，以及预设生成式对抗网络、预设排版规则，得到所述模拟名片图像。

8.一种名片信息抽取系统训练装置，其特征在于，包括得到单元和确定单元；其中，

所述得到单元，用于对名片图像进行识别，得到文本信息；基于预设BERT模型、预设卷积神经网络，以及所述文本信息，得到特征向量；其中，所述特征向量表征所述文本信息中词汇的语义信息；基于预设循环神经网络，对所述特征向量进行编码，得到对应的文本片段特征信息；其中，所述文本片段特征信息表征不同组合的文本内容；利用分类器对所述文本片段特征信息进行判别，从而得到所述文本片段特征信息对应的预测分类标签；其中，所述预测分类标签表征所述文本片段特征信息的文本类型，所述预测分类标签为得到结构化信息的依据；基于预设目标函数，以及所述文本片段特征信息对应的所述预测分类标签和预设分类标签，得到损失值，并根据所述损失值确定目标参数；

9.一种名片信息抽取系统训练装置，其特征在于，包括：

存储器，用于存储可执行数据指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7任一项所述的名片信息抽取系统训练方法。

10.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至7任一项所述的名片信息抽取系统训练方法。