CN115019327B - 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 - Google Patents
基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 Download PDFInfo
- Publication number
- CN115019327B CN115019327B CN202210739476.1A CN202210739476A CN115019327B CN 115019327 B CN115019327 B CN 115019327B CN 202210739476 A CN202210739476 A CN 202210739476A CN 115019327 B CN115019327 B CN 115019327B
- Authority
- CN
- China
- Prior art keywords
- bill
- fragment
- vocabulary
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 206
- 230000011218 segmentation Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 99
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 230000008859 change Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 19
- 238000012795 verification Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于碎片票据分词和Transformer网络的碎片票据识别方法及系统,属于文本识别技术领域。本发明以Transformer网络构造碎片票据识别模型,简化了网络结构复杂度,并利用了通用的预训练模型,大大减少了人工数据标注压力,提高了模型的训练效率。另外,在训练碎片票据识别模型采用的损失函数中,增加了对所构造的碎片票据词表中词汇的权重计算,使得模型训练侧重碎片票据内容识别场景下词频高的词汇,进一步提升了模型识别碎片票据内容的能力。
Description
技术领域
本发明涉及文本识别技术领域,具体涉及一种基于碎片票据分词和Transformer网络的碎片票据识别方法及系统。
背景技术
文本识别方法分为两个过程:提取文本图像特征,然后将视觉信号转换为自然语言符号。现有方法大多采用基于CNN网络的编码器进行图像理解,辅以注意力机制提高图像特征编码能力,然后基于RNN网络和CTC损失组合的解码器进行文本解析,这种混合模型虽然取得了巨大的成功,但存在以下缺陷:
1、该混合模型的参数是在合成或人工标注的数据上从零开始训练的,没有探索对预训练模型的应用,训练时间较长,效率较低。
2、图像特征提取以CNN神经网络作为主干网络,模型结构复杂,不易于实现和维护。
为了克服上述两个缺陷,微软亚洲研究院的研究员们提出了首个基于Transformer的端到端的文本识别模型,采用Transformer网络替代CNN网络,配合预训练的自监督模型进行文本识别,由于Transformer网络结构复杂性低于CNN网络,并可以通过预训练自监督模型一定程度上减轻了人工标注数据的压力。但该模型使用通用文本进行训练,对于碎片票据的内容识别难以获得较好地识别效果。
发明内容
本发明以提升对碎片票据内容识别准确度的同时,确保碎片票据识别模型的训练速度,降低模型结构复杂度为目的,提供了一种基于碎片票据分词和Transformer网络的碎片票据识别方法及系统。
为达此目的,本发明采用以下技术方案:
提供一种基于碎片票据分词和Transformer网络的碎片票据识别方法,步骤包括:
S1,构造训练碎片票据识别模型的数据集,包括从内容完整的票据中获取的固定词汇数据集、变化词汇数据集,以及从真实碎片票据中获取的碎片票据数据集,并构造碎片票据词表;
S2,以所构造的所述数据集为训练所述碎片票据识别模型的样本,利用Transformer网络迭代训练形成所述碎片票据识别模型;
S3,将待识别的碎片票据图像输入到完成训练的所述碎片票据识别模型中,模型输出碎片票据内容识别结果。
作为优选,所述固定词汇数据集中的数据包括从内容完整的各所述票据上的指定栏中截取的固定词汇图像数据;
所述变化词汇数据集中的数据包括从内容完整的各所述票据上的指定栏中截取的变化词汇图像数据;
所述碎片票据数据集中的数据包括从各碎片票据上的指定栏中截取的固定词汇图像数据和/或变化词汇图像数据;
从内容完整的各所述票据以及内容不完整的各所述碎片票据上的指定栏中截取的所述固定词汇图像数据包括中文固定词汇图像数据和/或英文固定词汇图像数据,所述中文固定词汇图像数据包括从模板化印制在所述票据或所述碎片票据上的指定栏中截取的收款人、收款人账号、收款人全称、收款人开户银行、出票人账号、出票日期、委托人签章、金额人民币、亿千百十万千百十元角分中的任意一种或多种图像;所述英文固定词汇图像数据包括从模板化印制在所述票据或所述碎片票据上的指定栏中截取的Payee FullName、Payee Account No、Payee Account Bank、Amount in Words、Principal Signatureand/or Stamp、SETTLEMENT APPLICATION FORM、APPLICATION FOR MONEY TRANSFER中的任意一种或多种图像;
从内容完整的各所述票据以及从内容不完整的各所述碎片票据上的指定栏中截取的所述变化词汇图像数据包括关联指定收款人的收款人账号、收款账户名称、收款金额以及关联出票人的出票人账号、出票人账户名称、出票金额、出票日期中的任意一种或多种图像。
作为优选,对从内容完整的各所述票据以及从内容不完整的各所述碎片票据中截取的各图像进行数据预处理后再加入到所述数据集中,数据预处理方法包括对截取的各所述图像加入背景色底纹、进行图像缩放处理、锐化处理、模糊处理中的任意一种或多种。
作为优选,所述碎片票据词表通过以下方法经分词构造而得:
S11,使用jieba分词工具对所述碎片票据数据集中的词汇进行分词后构造通用字典,构造方法为:分得的每个词在所述通用字典中单独占一行,每行中包括分得的词及其词频;
S12,利用所构造的所述通用字典,使用jieba分词的搜索引擎模式对输入的碎片票据语料进行分词并统计分得的词的词频,得到关联每个输入的所述碎片票据语料的碎片票据词典;
S13,利用构造的所述碎片票据词典的所有词汇以及占位符<s>/<pad>/</s>和<unk>词汇作键,索引为值的格式写入json文件,以获得Transformer模型训练所需的碎片票据词表。
作为优选,训练所述碎片票据识别模型时采用的损失函数中,增加了对所述碎片票据词表中的词汇的权重计算,使得模型训练侧重碎片票据内容识别场景下词频高的词汇,进而提升模型识别碎片票据内容的能力,所述损失函数通过以下公式(1)表达:
公式(1)中,L(x,y)表示所述损失函数;
表示利用所述Transformer网络对输入碎片票据进行词汇识别的第n个样本的
损失值;
表示输入碎片票据进行词汇识别的第n个样本在碎片票据词表中对应的真实
标签的权重;
表示输入所述碎片票据识别模型的样本数量。
作为优选,损失值的计算方式通过以下公式(2)表达:
公式(2)中,表示所述Transformer网络对输入的第n个
样本解码输出的类别标签索引为的输出值作归一化后获得的概率分布取对数;
表示所述碎片票据识别模型对第n个样本识别后可能出现的预测值;
表示所述碎片票据词表中词汇的类索引;
表示所述碎片票据词表中的词汇的类别数。
作为优选,的计算方法通过以下公式(3)表达:
公式(3)中,“1”表示所述碎片票据词表中的每个词汇的权重初始值,将每个词汇的权重初始值设置为“1”以避免模型训练过程中忽略词频低的词汇;
表示第n个样本对应的真实标签在所述碎片票据词表中的词频。
作为优选,的计算方法通过以下公式(4)表达:
。
本发明还提供了一种基于碎片票据分词和Transformer网络的碎片票据识别系统,可实现所述的碎片票据识别方法,所述碎片票据识别系统包括:
训练数据集构造模块,用于构造训练碎片票据识别模型的数据集,包括从碎片票据中获取的固定词汇数据集、变化词汇数据集,以及从真实碎片票据中获取的碎片票据数据集;
模型训练模块,连接所述训练数据集构造模块,用于以所述数据集为训练所述碎片票据识别模型的样本,并采用增加了对所构造的碎片票据词表中的词汇的权重计算的损失函数,利用Transformer网络迭代训练形成所述碎片票据识别模型;
碎片票据内容识别模块,连接所述模型训练模块,用于以将待识别的碎片票据图像输入到完成训练的所述碎片票据识别模型中,模型输出碎片票据内容识别结果。
本发明具有以下有益效果:
1、以Transformer网络构造碎片票据识别模型,简化了网络结构复杂度,并利用了通用的预训练模型,大大减少了人工数据标注压力,提高了模型的训练效率;
2、使用jieba分词对从真实的碎片票据中提取的各词汇进行分词后构造通用词典,然后利用所构造的通用词典,对碎片票据语料进行分词并统计分得的词的词频以获取碎片票据词典,最后利用所构造的碎片票据词典构造碎片票据词表作为训练碎片票据识别模型的词表,强化了模型针对碎片票据内容识别场景的训练,有利于提升模型对碎片票据内容的识别准确度。
3、在训练碎片票据识别模型采用的损失函数中,增加了对碎片票据词表中的每个词汇的权重计算,使得模型训练侧重碎片票据内容识别场景下词频高的词汇,进一步提升了模型识别碎片票据内容的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的基于碎片票据分词和Transformer网络的碎片票据识别方法的实现步骤图;
图2是训练碎片票据识别模型的样本图像的示例图;
图3是构造的模型训练数据集的存储形式示意图;
图4是训练碎片票据识别模型采用的Transformer网络的结构图;
图5是构造碎片票据词表的过程示意图;
图6是在损失函数中增加对碎片票据词表中的每个中文词汇的权重计算后对训练集和验证集的识别损失变化曲线对比图;
图7是利用本实施例训练完成的碎片票据识别模型识别训练集和验证集中的字的准确率的曲线对比图;
图8是利用本实施例训练完成的碎片票据识别模型识别训练集和验证集中的词的准确率的曲线对比图;
图9是利用本实施例训练完成的碎片票据识别模型识别训练集和验证集中的句的准确率的曲线对比图;
图10是利用本实施例训练完成的碎片票据识别模型对输入的待识别的碎片票据图像进行内容识别的原理框图;
图11是本发明一实施例提供的基于碎片票据分词和Transformer网络的碎片票据识别系统的结构图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明对碎片票据的精准识别和返回碎片票据内容,包含模型训练和碎片票据内容识别两大模块。模型训练模块通过构造碎片票据词表,并将碎片票据词表中的词汇作为模型训练的词表,同时在训练碎片票据识别模型时采用的损失函数中增加了对碎片票据词表中的每个词汇的权重计算,使得模型训练侧重碎片票据内容识别场景下词频高的词汇,进而提升了模型识别碎片票据内容的能力。碎片票据内容识别模块则通过调用完成训练的碎片票据识别模型对输入的碎片票据图像进行内容识别,得到识别结果并返回。
在介绍本实施例提供的基于碎片票据分词和Transformer网络的碎片票据识别方法之前,首先对将涉及的专业名词的含义进行解释:
Self attention(即自注意力机制),其核心为来自于同个输入的Q(Query)、K
(Key)、V(Value)三个矩阵,首先计算Q和K之间的点乘,然后为了防止其结果过大,会除以一
个尺度标度,为一个Query和Key向量的维度,再利用Softmax操作将其结果归一化
为概率分布,然后再乘以矩阵V就得到权重求和的表示。
Transformer网络,主要用于解决sequence to sequence(序列到序列)问题,该网络使用全Attention的结构代替了LSTM,抛弃了之前传统的encoder-decoder模型必须结合CNN网络或RNN网络的固有模式,在减少计算量和提高并行计算效率的同时取得了更好地结果。
编码-解码模型,编码,即将输入序列转换成一个固定长度的向量。解码,即将编码器生成的固定向量再转化成输出序列。
损失函数,用来评估模型的预测值与真实值之间的不一致程度,它是一个非负实值函数,损失值越小,模型的鲁棒性就越好。
分词,是自然语言处理的基本操作之一,分词的直译是词形化,顾名思义,就是把连续的文本分割成一个个独立的次元。
以下对本实施例提供的基于碎片票据分词和Transformer网络的碎片票据识别方法的具体实现进行阐述:
如图1所示,本实施例提供的碎片票据识别方法,包括步骤:
S1,构造训练碎片票据识别模型的数据集,包括从碎片票据中获取的固定词汇数据集、变化词汇数据集、以及从真实碎片票据中获取的碎片票据数据集,并构造碎片票据词表;
固定词汇数据集中的数据包括从内容完整的各票据上的指定栏中截取的固定词汇图像数据;
变化词汇数据集中的数据包括从内容完整的各票据上的指定栏中截取的变化词汇图像数据;
碎片票据数据集中的数据则包括从各碎片票据上的指定栏中截取的固定词汇图像数据和/或变化词汇图像数据。
进一步地,从内容完整的各票据以及内容不完整的各碎片票据上的指定栏中截取的固定词汇图像数据包括中文固定词汇图像数据和/或英文固定词汇图像数据,中文固定词汇图像数据包括从模板化印制在票据或碎片票据上的指定栏中截取的收款人、收款人账号、收款人全称、收款人开户银行、出票人账号、出票日期、委托人签章、金额人民币、亿千百十万千百十元角分中的任意一种或多种图像;
英文固定词汇图像数据包括从模板化印制在票据或碎片票据上的指定栏中截取的Payee Full Name、Payee Account No、Payee Account Bank、Amount in Words、Principal Signature and/or Stamp、SETTLEMENT APPLICATION FORM、APPLICATION FORMONEY TRANSFER中的任意一种或多种图像;
记载在内容完整的票据以及内容不完整的碎片票据中的固定词汇如下表1统计:
记载在各碎片票据上的指定栏中的变化词汇包括但不限于关联指定收款人的通常以数字编码的收款人账号、收款金额、关联出票人的出票人账号、出票金额、出票日期以及以中文或英文表示的收款账户名称(如用收款人姓名为其收款账户名称)、出票人账户名称(如出票银行的银行网点名称)等。
在构造固定词汇数据集时,直接从内容完整的各票据中截取出指定栏中的固定词汇图像加入到固定词汇数据集中。而在构造变化词汇数据集时,针对收款金额、出票金额、收款人账号、出票人账号等数字字符串类的变化词汇,可利用Random随机数发生器生成每个数字字符串类变化词汇对应的随机数加入到变化词汇数据集中,以提高数据使用的安全性;而针对收款账户名称、出票人账户名称等中文类字符串的变化词汇,可直接使用出票机构的全国分行或支行名称等语料数据加入到变化词汇数据集中,比如票据上记载的出票人账户名称为“中国银行杭州分行”,则可以直接从中国银行的全国分行名称语料库中提取出记载有“中国银行杭州分行”的指定栏图像加入到变化词汇数据集中。
将从碎片票据中获取的固定词汇图像数据和变化词汇图像数据加入到碎片票据数据集的方法与从内容完整的票据中获取的固定词汇图像数据、变化词汇图像数据分别加入到固定词汇数据集、变化词汇数据集的方式相同,在此不再赘述。
票据,例如银行回单,属于隐私性数据,很难大量获取,因此,为了获取足够的模型训练样本数据,本实施例对从内容完整的各票据以及从内容不完整的各碎片票据中截取的各图像(截取的图像示例请参照图2)进行数据预处理后再加入到训练数据集中,数据预处理方法包括对截取的各图像加入背景色底纹、进行图像缩放处理(以改变图像中字体尺寸)、锐化处理、模糊处理等,以扩充样本数据量,增加模型的泛化能力。完成数据预处理后,将各图像放入到如图3所示的同个图像文件夹下,并将图像文件夹和对应的标签文档文件夹放入到同个文件夹中作为模型训练数据集。
完成对模型训练数据集的构造后,本实施例提供的碎片票据识别方法转入步骤:
S2,以所构造的数据集为训练碎片票据识别模型的样本,利用Transformer网络迭代训练形成碎片票据识别模型;
训练碎片票据识别模型时,本实施例采用标准的Transformer网络结构构造编码器和解码器,并使用自注意力机制代替RNN等时序网络学习词与词、词与句、句与句之间的内部关系,不需要依赖时间关系,且可以同时学习源句内部、目标句内部以及源句和目标句之间的关系。
如图4所示,本实施例采用Transformer构造的编码器encoder包括12个具有输入、输出连接关系的子块,每个子块内包括multi-head attention层(即图4中的多头注意力层)和feed forward层(即图4中的前馈神经网络层),multi-head attention层由自注意力机制构成,学习源句内部的字词关系,feed forward层包括ReLU激活函数和线性激活函数,对每个词的输出分别单独计算,12个子块中的feed forward层可实现并行计算,提高编码效率。如图4所示,不同于编码器encoder,解码器decoder中增加了Mask multi-headattention层(即图4中的掩盖的多头注意力层),学习目标句内部的字词关系,解码器decoder中的multi-head attention层的输入包括上一层的输出和对应位置的编码器encoder的输出,学习源句和目标句之间的关系。此外,编码器encoder和解码器decoder中的每一层的输出之后都加入了Add&Normalize层(即图4中的残差连接和归一化层),用于将输入向量和输出向量相加,避免梯度消失,归一化后传递到下一层。
本发明主要针对碎片票据内容识别场景,因此,为了提高模型识别碎片票据内容的准确率,本发明重点采取了以下2个技术手段:
1、在通用分词表中增加对碎片票据内容的分词,并将分词结果加入到碎片票据词表中作为模型训练的先验知识,强化了模型针对碎片票据内容识别场景的训练,有利于提升模型对碎片票据内容的识别准确度。
2、在训练碎片票据识别模型采用的损失函数中,增加了对碎片票据词表中的每个词汇的权重计算,使得模型训练侧重碎片票据内容识别场景下词频高的词汇,进一步提升了模型识别碎片票据内容的能力。
上述采用的第一个技术手段即构造分词结果数据集的具体实现方式包括步骤:
S11,使用jieba分词工具对碎片票据数据集中的词汇进行分词后构造通用词表,构造方法为:分得的每个词在通用词表中单独占一行,每行中包括分得的词及其词频(还可以包括分得的词的词性),分得的词、词频、词性用空格隔开,顺序统一;
S12,利用所构造的通用词表,使用jieba分词的搜索引擎模式对输入的碎片票据语料(碎片票据数据集中的数据)进行分词并统计分得的词的词频,得到关联每个输入的碎片票据语料的碎片票据词典。
S13,利用所构造的碎片票据词典的所有词汇和固定的占位符词汇“<s>”、“<pad>”、“</s>”、“<unk>”、“<mask>”等词汇为键,词汇的顺序为值的形式写入json文件,获取碎片票据词表。分词构造过程的原理图请参照图5。
上述采用的第二个技术手段的具体实现方法如下:
根据所构造的碎片票据词表,修改了交叉熵损失,增加了词表中词汇的权重计算。交叉熵刻画模型实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。本发明采用的交叉熵损失函数为CrossEntropyLoss,将softmax-log-NLLLoss函数合并到一块,并构造合适的类别权重计算结果。
假设,有包含n个样本的批次batch数据,记为D(x,y),x表示Transformer网络中的
解码器的输出值,y是输入的样本对应的类别标签;设为利用Transformer网络对数据集
中的第n个样本进行词汇识别的损失值,为利用Transformer网络对输入的第n个样本解
码输出的类别标签索引,,表示碎片票据词表的词汇的类别数,具体损
失计算过程如下:
第一步,使用Softmax函数将解码器的输出值归一化到0-1之间,获得概率
分布,记为,然后对取对数,计算方法如以下公式(1)
表达:
公式(1)中,表示所述碎片票据识别模型对第n个样本识别后可能出现的预
测值;
表示所述碎片票据词表中词汇的类索引;
表示所述碎片票据词表中的词汇的类别数。
第二步,根据碎片票据词表的大小(词表中的词汇的类别数C)和每个词汇的词频,构造每个词汇的权重W。每个中文词汇的权重W为基础权重“1”加上该词汇的词频的对数取整值后的和值。这里需要说明的是,将碎片票据词表中的每个词汇的初始权重值设定为“1”,以避免模型训练过程中忽略词频较低的词汇。同时,对词频取对数,以避免权重设置的过大,导致模型训练过程中对词频高的词汇过拟合,并极大减少了模型识别碎片票据内容的计算量。每个中文词汇的权重W的计算方法通过以下公式(2)表达:
公式(2)中,表示输入碎片票据进行词汇识别的第n个样本在碎片票据词表
中对应的真实标签的权重;
“1”表示碎片票据词表中的每个词汇的权重初始值,将每个词汇的权重初始值设置为“1”以避免模型训练过程中忽略词频低的词汇;
表示第n个样本对应的真实标签在所述碎片票据词表中的词频。
第三步,采用负对数似然损失函数NLLLoss对第一步输出的和第二步输出的每个词汇对应的权重进行合并,得到的
计算公式。的计算公式如下式(3)表达:
公式(3)中,表示所述碎片票据识别模型对第n个样本识别后可能出现的预
测值;
表示所述碎片票据词表中词汇的类索引;
表示所述碎片票据词表中的词汇的类别数。
则最终,一个批次batch的n个样本的整体损失函数L(x,y)通过以下公式(4)表达:
在模型训练中,根据所构造的碎片票据词表,在损失函数中增加了词典中每个词汇的权重计算,使得模型训练侧重碎片票据内容识别场景下词频高的词汇,能够有效准确地识别出碎片票据内容。本申请在模型训练过程中通过对训练集和验证集的损失变化以及对字、词、句识别准确率的比对,来评估模型性能。如图6所示,在损失函数中不断增加碎片票据词表中的每个词汇的权重计算后,训练集和验证集中的损失呈现不断下降趋势(图6中的6(a)为训练集损失下降趋势曲线图,图6中的6(b)为验证集损失下降趋势曲线图);训练集和验证集对碎片票据内容中的字的识别准确率不断上升,并趋于稳定(图7中的7(a)图7中的7(a)为以训练集为样本验证模型识别碎片票据中的字的准确率趋势曲线图,图7中的7(b)图7中的7(b)为以训练集为样本验证模型识别碎片票据中的字的准确率趋势曲线图);训练集和验证集对碎片票据内容中的词的识别准确率也不断上升,并趋于稳定(图8中的8(a)为以训练集为样本验证模型识别碎片票据中的词的准确率趋势曲线图,图7中的7(b)为以训练集为样本验证模型识别碎片票据中的词的准确率趋势曲线图);训练集和验证集对碎片票据内容中的句的识别准确率同样不断上升,并趋于稳定(图9中的9(a)为以训练集为样本验证模型识别碎片票据中的句的准确率趋势曲线图,图7中的7(b)图7中的7(b)为以训练集为样本验证模型识别碎片票据中的句的准确率趋势曲线图)。当图6中的损失曲线、图7中识别“字”的准确率曲线、图8中识别“词”的准确率曲线以及图9中识别“句”的准确率曲线趋于稳定时,保存训练的碎片票据识别模型,并在真实数据中测试。由于真实碎片票据内容比较简单,训练数据则增加了背景色底纹等较多干扰,以训练的模型基本能够准确识别出碎片票据内容。
通过上述两个技术手段,并利用Transformer网络完成对碎片票据识别模型的迭代更新训练后,如图1所示,本实施例提供的碎片票据识别方法转入步骤:
S3,将待识别的碎片票据图像输入到完成训练的碎片票据识别模型中,模型输出碎片票据内容识别结果。
票据识别由后端应用程序和前端展示页面两部分构成,如图10所示,用于在前端展示页面上传待识别的碎片票据图像,后端应用程序接收后,调用完成训练的碎片票据识别模型对上传的碎片票据图像进行内容识别,并将识别结果返回到前端展示页面。
本发明还提供了一种基于碎片票据分词和Transformer网络的碎片票据识别系统,可实现上述的碎片票据识别方法,如图11所示,该碎片票据识别系统包括:
训练数据集构造模块,用于构造训练碎片票据识别模型的数据集,包括从内容完整的票据中获取的固定词汇数据集、变化词汇数据集,以及从碎片票据中获取的碎片票据数据集,以及对碎片票据语料的分词结果数据集;
模型训练模块,连接训练数据集构造模块,用于以数据集为训练碎片票据识别模型的样本,并采用增加了对所构造的碎片票据词表中的词汇的权重计算的损失函数,利用Transformer网络迭代训练形成碎片票据识别模型;
碎片票据内容识别模块,连接模型训练模块,用于以将待识别的碎片票据图像输入到完成训练的碎片票据识别模型中,模型输出碎片票据内容识别结果。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (4)
1.一种基于碎片票据分词和Transformer网络的碎片票据识别方法,其特征在于,步骤包括:
S1,构造训练碎片票据识别模型的数据集,包括从碎片票据中获取的固定词汇数据集、变化词汇数据集,以及从真实碎片票据中获取的碎片票据数据集,并构造碎片票据词表;
S2,以所构造的所述数据集为训练所述碎片票据识别模型的样本,利用Transformer网络迭代训练形成所述碎片票据识别模型;
S3,将待识别的碎片票据图像输入到完成训练的所述碎片票据识别模型中,模型输出碎片票据内容识别结果;
所述碎片票据词表通过以下方法经分词构造而得:
S11,使用jieba分词工具对所述碎片票据数据集中的词汇进行分词后构造通用词典,构造方法为:分得的每个词在所述通用词典中单独占一行,每行中包括分得的词及其词频;
S12,利用所构造的所述通用词典,使用jieba分词的搜索引擎模式对输入的碎片票据语料进行分词并统计分得的词的词频,得到关联每个输入的所述碎片票据语料的碎片票据词典;
S13,利用构造的所述碎片票据词典的所有词汇以及占位符<s>/<pad>/</s>和<unk>词汇作键,索引为值的格式写入json文件,以获得Transformer模型训练所需的碎片票据词表;
训练所述碎片票据识别模型时采用的损失函数中,增加了对所述碎片票据词表中的每个词汇的权重计算,使得模型训练侧重碎片票据内容识别场景下词频高的词汇,进而提升模型识别碎片票据内容的能力,所述损失函数通过以下公式(1)表达:
公式(1)中,L(x,y)表示所述损失函数;
ln表示利用所述Transformer网络对输入碎片票据进行词汇识别的第n个样本的损失值;
表示输入碎片票据进行词汇识别的第n个样本在碎片票据词表中对应的真实标签的权重;
N表示输入所述碎片票据识别模型的样本数量;
损失值ln的计算方式通过以下公式(2)表达:
公式(2)中,表示所述Transformer网络对输入的第n个样本解码输出的类别标签索引为yn的输出值/>作归一化后获得的概率分布取对数;
xn,j表示所述碎片票据识别模型对第n个样本识别后出现的预测值;
j表示所述碎片票据词表中词汇的类索引;
C表示所述碎片票据词表中的词汇的类别数;
的计算方法通过以下公式(3)表达:
公式(3)中,“1”表示所述碎片票据词表中的每个词汇的权重初始值,将每个词汇的权重初始值设置为“1”以避免模型训练过程中忽略词频低的词汇;
表示第n个样本对应的真实标签在所述碎片票据词表中的词频。
2.根据权利要求1所述的基于碎片票据分词和Transformer网络的碎片票据识别方法,其特征在于,所述固定词汇数据集中的数据包括从内容完整的各所述票据上的指定栏中截取的固定词汇图像数据;
所述变化词汇数据集中的数据包括从内容完整的各所述票据上的指定栏中截取的变化词汇图像数据;
所述碎片票据数据集中的数据包括从各碎片票据上的指定栏中截取的的固定词汇图像数据和/或变化词汇图像数据;
从各所述碎片票据上的指定栏中截取的所述固定词汇图像数据包括中文固定词汇图像数据和/或英文固定词汇图像数据,所述中文固定词汇图像数据包括从模板化印制在所述票据或所述碎片票据上的指定栏中截取的收款人、收款人账号、收款人全称、收款人开户银行、出票人账号、出票日期、委托人签章、金额人民币、亿千百十万千百十元角分中的任意一种或多种图像;所述英文固定词汇图像数据包括从模板化印制在所述票据或所述碎片票据上的指定栏中截取的Payee Full Name、Payee Account No、Payee Account Bank、Amount in Words、Principal Signature and/or Stamp、SETTLEMENT APPLICATION FORM、APPLICATION FOR MONEY TRANSFER中的任意一种或多种图像;
从内容完整的各所述票据以及从内容不完整的各所述碎片票据上的指定栏中截取的所述变化词汇图像数据包括关联指定收款人的收款人账号、收款账户名称、收款金额以及关联出票人的出票人账号、出票人账户名称、出票金额、出票日期中的任意一种或多种图像。
3.根据权利要求2所述的基于碎片票据分词和Transformer网络的碎片票据识别方法,其特征在于,对从内容完整的各所述票据以及从内容不完整的各所述碎片票据中截取的各图像进行数据预处理后再加入到所述数据集中,数据预处理方法包括对截取的各所述图像加入背景色底纹、进行图像缩放处理、锐化处理、模糊处理中的任意一种或多种。
4.一种基于碎片票据分词和Transformer网络的碎片票据识别系统,实现如权利要求1-3任意一项所述的碎片票据识别方法,其特征在于,所述碎片票据识别系统包括:
训练数据集构造模块,用于构造训练碎片票据识别模型的数据集,包括从碎片票据中获取的固定词汇数据集、变化词汇数据集,以及从真实碎片票据中获取的碎片票据数据集;
模型训练模块,连接所述训练数据集构造模块,用于以所述数据集为训练所述碎片票据识别模型的样本,并采用增加了对所构造的碎片票据词表中的词汇的权重计算的损失函数,利用Transformer网络迭代训练形成所述碎片票据识别模型;
碎片票据内容识别模块,连接所述模型训练模块,用于以将待识别的碎片票据图像输入到完成训练的所述碎片票据识别模型中,模型输出碎片票据内容识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210739476.1A CN115019327B (zh) | 2022-06-28 | 2022-06-28 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210739476.1A CN115019327B (zh) | 2022-06-28 | 2022-06-28 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019327A CN115019327A (zh) | 2022-09-06 |
CN115019327B true CN115019327B (zh) | 2024-03-08 |
Family
ID=83077178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210739476.1A Active CN115019327B (zh) | 2022-06-28 | 2022-06-28 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019327B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334640A (zh) * | 2019-06-28 | 2019-10-15 | 苏宁云计算有限公司 | 一种票据审核方法及系统 |
CN111881880A (zh) * | 2020-08-10 | 2020-11-03 | 晶璞(上海)人工智能科技有限公司 | 一种基于新型网络的票据文本识别方法 |
CN112016319A (zh) * | 2020-09-08 | 2020-12-01 | 平安科技(深圳)有限公司 | 预训练模型获取、疾病实体标注方法、装置及存储介质 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
CN112966068A (zh) * | 2020-11-09 | 2021-06-15 | 袭明科技(广东)有限公司 | 基于网页信息的简历识别方法和装置 |
CN113553405A (zh) * | 2021-06-11 | 2021-10-26 | 中国农业银行股份有限公司浙江省分行 | 基于中文bert模型智能机器人的实现方法和系统 |
CN113569998A (zh) * | 2021-08-31 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 票据自动识别方法、装置、计算机设备及存储介质 |
WO2021218027A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 智能面试中专业术语的提取方法、装置、设备及介质 |
CN114065749A (zh) * | 2021-11-11 | 2022-02-18 | 中国科学院计算技术研究所 | 一种面向文本的粤语识别模型及系统的训练、识别方法 |
CN114580444A (zh) * | 2022-03-08 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 文本翻译模型的训练方法、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11790171B2 (en) * | 2019-04-16 | 2023-10-17 | Covera Health | Computer-implemented natural language understanding of medical reports |
-
2022
- 2022-06-28 CN CN202210739476.1A patent/CN115019327B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334640A (zh) * | 2019-06-28 | 2019-10-15 | 苏宁云计算有限公司 | 一种票据审核方法及系统 |
WO2021218027A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 智能面试中专业术语的提取方法、装置、设备及介质 |
CN111881880A (zh) * | 2020-08-10 | 2020-11-03 | 晶璞(上海)人工智能科技有限公司 | 一种基于新型网络的票据文本识别方法 |
CN112016319A (zh) * | 2020-09-08 | 2020-12-01 | 平安科技(深圳)有限公司 | 预训练模型获取、疾病实体标注方法、装置及存储介质 |
CN112966068A (zh) * | 2020-11-09 | 2021-06-15 | 袭明科技(广东)有限公司 | 基于网页信息的简历识别方法和装置 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
CN113553405A (zh) * | 2021-06-11 | 2021-10-26 | 中国农业银行股份有限公司浙江省分行 | 基于中文bert模型智能机器人的实现方法和系统 |
CN113569998A (zh) * | 2021-08-31 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 票据自动识别方法、装置、计算机设备及存储介质 |
CN114065749A (zh) * | 2021-11-11 | 2022-02-18 | 中国科学院计算技术研究所 | 一种面向文本的粤语识别模型及系统的训练、识别方法 |
CN114580444A (zh) * | 2022-03-08 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 文本翻译模型的训练方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
MingHao Li.TrOCR Transformer-based Optical Character Recognition with Pre-trained Models.《arXiv》.2021,1-10. * |
泰语人名、地名、机构名实体识别研究;王红斌;郜洪奎;沈强;线岩团;;系统仿真学报(第05期);196-204 * |
Also Published As
Publication number | Publication date |
---|---|
CN115019327A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230129874A1 (en) | Pre-trained contextual embedding models for named entity recognition and confidence prediction | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN112801010B (zh) | 一种针对实际ocr场景下的视觉富文档信息抽取方法 | |
CN112084796B (zh) | 一种基于Transformer深度学习模型的多语种地名词根汉译方法 | |
Toiganbayeva et al. | Kohtd: Kazakh offline handwritten text dataset | |
CN112036184A (zh) | 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质 | |
CN110222338B (zh) | 一种机构名实体识别方法 | |
Boillet et al. | Robust text line detection in historical documents: learning and evaluation methods | |
Kišš et al. | AT-ST: self-training adaptation strategy for OCR in domains with limited transcriptions | |
CN115545033A (zh) | 融合词汇类别表征的中文领域文本命名实体识别方法 | |
Romero et al. | Handwritten text recognition for historical documents | |
CN115019327B (zh) | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 | |
CN116821357A (zh) | 一种政务领域知识自动发现方法及系统 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN113836941B (zh) | 一种合同导航方法及装置 | |
CN115757680A (zh) | 关键词提取方法、装置、电子设备及存储介质 | |
CN114881038A (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
Gupta et al. | Marwari (heritage script) ocr using attention based encoder-decoder architecture | |
CN112287072A (zh) | 一种多维互联网文本风险数据识别方法 | |
Singh et al. | EnvisionText: Enhancing Text Recognition Accuracy through OCR Extraction and NLP-based Correction | |
Ríos-Vila et al. | Sheet Music Transformer++: End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music | |
CN116227468B (zh) | 基于拼音转写翻译的语音识别模型纠错训练方法及装置 | |
CN115034208B (zh) | 一种基于bert的中文asr输出文本修复方法及系统 | |
Mao et al. | Toward Fact-aware Abstractive Summarization Method Using Joint Learning | |
Tasdemir et al. | Automatic transcription of Ottoman documents using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |