CN111651960A

CN111651960A - 一种从合同简体迁移到繁体的光学字符联合训练及识别方法

Info

Publication number: CN111651960A
Application number: CN202010485822.9A
Authority: CN
Inventors: 谢泽星; 吴青昀; 徐俊杰
Original assignee: Hangzhou Bestsign Network Technology Co ltd
Current assignee: Hangzhou Bestsign Network Technology Co ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-09-11
Anticipated expiration: 2040-06-01
Also published as: CN111651960B

Abstract

本发明公开了一种从合同简体迁移到繁体的光学字符联合训练及识别方法，包括：建立多任务字符识别模型；将多任务字符识别模型进行训练，得到训练后的多任务字符识别模型；向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片，得到各子任务的识别结果以及直接解码的识别结果，然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正，得到识别结果。本发明通过多个拟人策略多任务模块联合训练方式加强模型对文字形态特征挖掘，通用简单特征的理解，能够增加模型的鲁棒性，减少训练数据量，加快模型的构件速度。

Description

一种从合同简体迁移到繁体的光学字符联合训练及识别方法

技术领域

本发明涉及深度学习与光学文字识别的技术领域，具体涉及一种从合同简体迁移到繁体的光学字符联合训练及识别方法。

背景技术

在信息云上化的趋势下，线下合同线上管理的需求日益显著。当前技术对于合同中常见简体文字的ocr识别(ocr为Optical Character Recognition，光学字符识别)，已经较为成熟。传统的识别模型可分为编码端和解码端。

其中解码端任务本质上是针对每行文本小区域的分类任务，然后寻优找出整个待识别区域的最大概率文字序列。一般而言，在有充足的高质量训练数据条件下，模型才能训练出较好的结果。

而由于港澳和台湾用户使用的合同更多是以繁体文字书写。不同于简体的识别，繁体文字与简体文字相比笔画更多字形结构更复杂，更考验模型对字形结构细节的特征的挖掘能力。一般而言，训练繁体识别需要先采集大量繁体合同扫描件作为训练数据。但由于合同是企业业务强相关的法律高保密性文件，内地中小型企业很难采集到一定量的繁体合同数据，甚至简体合同量也相对不足。尽管本司已经积累了大量高质量简体合同扫描件ocr数据，但繁体合同的数据也是较为稀缺的。因此采用常规思路训练模型识别包括繁体字的那个内容，也必然因为训练数据不均衡，导致识别系统精度较低。实际上，通过拟人识字的思路，一个认识简体字的人能很快认识繁体字。原因在于繁体文字与简体文字相比形态更复杂，但结构特征和简体互通甚至更为明显。因此在已有的对简体字识别较好的模型，结合结构特征能更低成本的迁移到繁体合同的识别场景下，具有降本增效的价值。

发明内容

本发明提供了一种从合同简体迁移到繁体的光学字符联合训练及识别方法，通过多个拟人策略multi-task(多任务模块)联合训练方式加强模型对文字形态特征挖掘，通用简单特征的理解，能够增加模型的鲁棒性，减少训练数据量，加快模型的构件速度。

一种从合同简体迁移到繁体的光学字符联合训练及识别方法，包括：

1)建立多任务字符识别模型；

2)将多任务字符识别模型进行训练，得到训练后的多任务字符识别模型；

3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片，得到各子任务的识别结果以及直接解码的识别结果，子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度，直接解码的识别结果包括解码文字序列、解码文字序列长度，然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离(即各子任务的识别结果转成为直接解码的识别结果的最少编辑操作次数)联合修正，得到识别结果。

步骤1)中，建立多任务字符识别模型，具体包括：

1.1在字符识别模型基础上增加多任务模块，所述的多任务模块包括：文字拆解预测子模块、字数统计预测子模块、笔画区间预测子模块、异常文字检查子模块、文字结构分类子模块；

1.2将解码模块和多任务模块合并，形成多任务字符识别模型；

步骤2)中，将多任务字符识别模型进行训练，具体包括：

2.1构造特征训练字典；

2.2将训练样本转化为异常文字检查结果和字数统计预测结果，利用特征训练字典将训练样本转化为文字拆解预测结果、笔画区间预测结果和文字结构分类结果；

2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中，采用总误差函数进行训练，得到训练后的多任务字符识别模型；

步骤2.1中，所述的特征训练字典具体包括：

2.1.1笔画区间字典，根据简体字与繁体字的笔画数划分为笔画数1-8的第一列表、笔画数9-15的第二列表、笔画数16-25的第三列表、笔画数大于25的第四列表；

2.1.2原子字字典，对简体字与繁体字进行逐字筛选，选出同时满足以下特征的字：1.无法被拆解为另外一个笔画区间在[a,b]的字；2.该文字被数量多于阙值r的字包含。然后按笔画大小递减排列，值得说明原子字是常见的并且不存在互相包含关系。其中a,b,r是按照具体问题调整的超参数。值得说明在字典中会增加一个特殊字符表示存在一个字在满足当前条件下无法找到该字原子组成成分。

2.1.3文字结构字典，包括包含及半包含关系的第一类文字、左右结构的第二类文字、上下结构的第三类文字、三字结构的第四类文字、其他的第五类文字。

步骤2.3中，所述的总误差函数为，

其中，J(θ) 表示总误差函数，θ表示整个网络的参数集合，L_taski表示第i个任务的误差，α_i为对应第i个任务的超参数，用于体现不同误差之间的权重。λ为学习速率参数。L_init表示解码模块的初始误差。

L_taski的第1个任务的误差为笔画区间误差

L_taski的第2个任务的误差为文字结构分类误差为

L_taski的第3个任务的误差为多分类包含文字误差

L_taski的第4个任务的误差为图片文字统计数量误差

L_taski的第5个任务的误差为异常文字二分类误差

其中，D表示训练样本的规模，i为训练样本的序号，Ti表示第i个训练样本中的字序列；

是针对第i个训练样本第t个字序列所在的笔画区间标准值；

是针对第i个训练样本第t个字序列所在的结构分类槽位；

是针对第i个训练样本第t个字序列相关字多分类误差的标准槽位；m⁽ⁱ⁾是针对第i个训练样本中出现的待识别文字量的计数；

是针对第i个训练样本中第t个字序列出现的异常文字的标记槽位；

分别是神经网络分支解码的结果，L为回归问题损失函数，L′为分类问题损失函数

步骤3)中，所述的子任务解码序列包括文字拆解序列、笔画区间序列和文字结构序列；

所述的子任务解码序列长度为文字拆解序列、笔画区间序列和文字结构序列的解码序列长度。

通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正，具体包括：

3.1对于待识的包含简体字和繁体字的合同图片，判断子任务解码序列长度是否相同；

3.2如果子任务解码序列长度不同，采用语言模型直接修正，得到识别结果；

如果子任务解码序列长度相同，则判断解码文字序列长度是否大于子任务检测文字的数量；

3.3如果解码文字序列长度是大于子任务检测文字的数量，则分别计算解码文字序列到3个子任务序列进行删除，产生三个序列最小编辑代价数记为a1,a2,a3，判断a1,a2,a3是否低于阈值；

3.4如果a1,a2,a3不低于阈值，则采用语言模型修正，得到识别结果；

如果a1,a2,a3低于阈值，则按照最小编辑代价操作对识别的原始序列进行删除替换操作，之后筛选替换字符集，然后采用语言模型修正，得到识别结果；

3.5如果解码文字序列长度等于子任务检测文字的数量，则标记解码序列中异常高于阈值的文字，采用语言模型修正，得到识别结果；

3.6如果解码文字序列长度小于子任务检测文字的数量，则分别计算解码文字序列到3个子任务序列进行插入，产生三个序列最小编辑代价数记为 a1,a2,a3，判断a1,a2,a3是否低于阈值；

3.7如果a1,a2,a3不低于阈值，则采用语言模型修正，得到识别结果；

如果a1,a2,a3低于阈值，则按照最小编辑代价操作对识别的原始序列进行插入替换操作，之后筛选字符集，然后采用语言模型修正，得到识别结果。

为实现上述目的，根据本发明的一个方面，提供了一种繁体文字识别模型训练方法。

本发明实施例的文字识别模型训练方法包括：获取大量简体文字及一定量繁体文字的原始合同图片数据，根据ctpn文字定位方法将合同转化为以行为单位的待识别文字区域；

在原始模型的基础上，增加多个神经网络分支执行拟人策略的 multi-tasks，并加入梯度反向层训练。

这些任务分别包括：

1.图片文字笔画区间数序列；

2.文字结构(上下结构，左右结构，三字结构，其他结构)分类序列；

3.包含原子文字预测，其中原子文字是通过人工总结了简体与繁体特点，筛选了能作为其他字重要识别特征的字，类似与人对部首特征理解的泛化表示；

4.图片文字统计数，即一张图片包含多少需要识别的文字统计；

5.不清晰或不存在字典中文字预测。

增加的神经网络分支误差可以包括：笔画区间误差和文字识别结构误差，包含原子文字多分类误差，图片文字统计数误差，是否不清晰或不存在字典中二分类误差。

联合训练步骤可以包括：通过将总误差函数反向传播，逐层求导，得到梯度方向；基于梯度方向，利用梯度下降法，按照学习速率参数对multi-tasks 模型和原始模型中涉及的参数进行修正。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种文字识别的方法。包括：行文字检测及特征提取单元，用以获取待识别文字行单位切片图片特征；文字形态特征提取单元，用于提取行文本包含的单字结构特征。所述特征包含该行需识别文字数量，每个文字的笔画区间统计，文字的结构分类，每个文字包含的特选单位字以及是否存在异常识别的文字。

利用上述特征对该字进行结构特征的置信判断，文字纠正。以及利用合同语料训练的语言模型再次解码。

与现有技术相比，本发明的有益效果在于：

本发明方法识别尤其是繁体字，具有强结构信息特征的任务中，训练中采用了拟人策略的multi-tasks。具体化的抽离出文字结构信息，使fine-tune 中少量数据的作用被放大，强化模型结构力度的识别。之后利用结构信息，及语言模型强化了原始模型在繁体文字上识别的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是示出了根据本发明实施例的多任务识别模型的训练方法的示意性流程图。

图2是示出了根据本发明实施例的多任务识别模型训练流程示意图。

图3是示出了根据本发明实施例通过训练得到的支持简体与繁体文字识别模型对待识文本识别的流程示意图。

图4是示出了根据本发明实施例信息融合模块对对原模型识别结果进行修正处理的流程图。

图5是示出了根据本发明实施例对识别结果利用语言模型进行修正的处理流程图。

具体实施方式

如图1～图5所示，一种从合同简体迁移到繁体的光学字符联合训练及识别方法，包括：

1)建立多任务字符识别模型；

步骤1)中，建立多任务字符识别模型，具体包括：

步骤2)中，将多任务字符识别模型进行训练，具体包括：

2.1构造特征训练字典；

步骤2.1中，所述的特征训练字典具体包括：

步骤2.3中，所述的总误差函数为，

L_taski的第1个任务的误差为笔画区间误差

L_taski的第2个任务的误差为文字结构分类误差为

L_taski的第3个任务的误差为多分类包含文字误差

L_taski的第4个任务的误差为图片文字统计数量误差

L_taski的第5个任务的误差为异常文字二分类误差

是针对第i个训练样本第t个字序列所在的笔画区间标准值；

是针对第i个训练样本第t个字序列所在的结构分类槽位；

步骤3)中，子任务解码序列包括文字拆解序列、笔画区间序列和文字结构序列；子任务解码序列长度为文字拆解序列、笔画区间序列和文字结构序列的解码序列长度。

具体地，结合最优实施例进行说明，合同的扫描件图片通过文字检测模块可以定位出多行的文字框。然后将定位框图片输入到模型中得到识别结果。其中识别模型按照内在层次可划分为图片特征编码模块和特征解码模块。图片特征编码模块本质是对图像与识别任务相关有效信息的抽象及降维处理；特征解码模块是对编码后特征的信息解析。

解码模块的任务是一个针对字级别的全字典分类问题，通常满足日常字体识别的字典范围需要包含1万字左右。在简体字和繁体数量比不是一个量级的情况下训练，较为容易的把繁体字识别为一个相近的简体字。而且繁体文字字形结构复杂，更考验模型对字形结构细节的特征挖掘。

目前在训练识别模型时，会按照实际识别结果反向传递训练两个模块。实际上对于繁体扫描数量稀缺场景下，通过文字识别的任务，难以学习模型对繁体的字形理解。同样没有充分挖掘已有数据的特征信息。

有鉴于此，本发明提出，在训练识别模型时，可以将编码模块之后，通过增加multi-tasks任务的神经网络与原有的文字识别解码模块进行联合建模，构建同时包含原始字形分类的误差和采用multi-tasks误差的总误差函数，基于总误差函数，可以将直接文字识别的解码模型和文字识别间接相关的结构挖掘模型进行联合训练。由此，可以更充分挖掘少量样本的文字结构特征。

下面首先结合图1就本发明的识别模型的训练过程进行说明。

为了充分利用到少量训练图片的特征信息在训练前，首先需要构造有关结构信息的特征字典。包括：

A.笔画区间字典，根据简体字与繁体字的统计的信息将所有的中字划分为[[1-8],[8-15],[15-25],[>25]]四个类别。其中繁体字主要出现在后两个区间，简体大部分集中在前面两个区间。

B.原子字字典，人工的对简繁体文字进行逐字筛选，选出满足以下特征的字：1.笔画区间在[a,b]间；2.无法被拆解为另外一个原子字；3.不少于阙值r的数量的文字包含该原子字。然后按笔画大小递减排列，值得说明原子字是常见的并且不存在互相包含关系。其中a,b,r是按照具体问题调整的超参数。值得说明在B字典中会增加一个特殊字符表示存在一个字在满足当前条件下无法找到该字原子组成成分

C.文字结构字典，记录文字结构是属于[[包含及半包含关系]，[左右结构],[上下结构],[三字结构]，[其他]]的一类。

利用上诉字典能提取文字的高级结构特征，举例说明：

形如‘開’笔画数为13属于笔画区间第二类；在a设置为5时包含的原子文字为‘門’如果a设置为4包含原子字为‘門’和‘开’，文字结构属于第一类。形如‘國’属于第三类，包含的关键原子文字解析为‘或’，属于第一类结构。其中为了讲述方便，后文默认的选取原子字特征策略是只包含笔画数最多的文字，或原子字字典中排序靠前的字。利用构造的特征字典可将少量样本的标签进行扩充，丰富了样本的有效信息。

如图2原模型包括多层卷积网络的编码模块，以及对编码特征解码为识别信息的模块。本发明在不改动原始模型基础上增加部分结构。在卷积网络的编码模块后增加了一个分支网络，接受通过卷积提取的序列特征，之后连接多个分支的子任务的以序列结构输出的Seq2Seq解码模块，用以执行拟人策略的multi-tasks，并加入梯度反向层训练。

这些任务分别包括：

1.图片文字笔画区间数序列预测；

2.文字结构(上下结构，左右结构，三字结构，其他结构)分类序列预测；

3.包含原子文字预测；

5.不清晰或不存在字典中文字预测。即增添一些不在可识别字典中的字单独分支训练训练一个异常文字判别。即对于正常字分类为1，异常表示不在字典中，或人为看不清的分类为0。

联合训练步骤可以包括：通过将总误差函数反向传播，逐层求导，得到梯度方向；基于梯度方向，利用梯度下降法，按照学习速率参数对multi-tasks 模型和原始模型中涉及的参数进行修正。通过执行拟人策略的multi-tasks，并加入梯度反向层训练的网络分支误差可以包括：笔画区间误差和文字识别结构误差，包含原子文字多分类误差，图片文字统计数误差，是否不清晰或不存在字典中二分类误差。原始模型识别误差记为L_init，笔画区间误差

文字结构分类误差为

多分类包含文字误差

图片文字统计数量误差

异常文字二分类误差

其中，D表示训练样本的规模，i为训练样本的序号，Ti表示第i个训练样本中的字序列。

是针对第i个训练样本第t个字序列所在的笔画区间标准值，

是针对第i个训练样本第t个字序列所在的结构分类槽位，

是针对第i个训练样本第t个字序列相关字多分类误差的标准槽位，m⁽ⁱ⁾是针对第i个训练样本中出现的待识别文字量的计数，

是针对第i个训练样本中第t个字序列出现的异常文字的标记槽位。而

分别是神经网络分支解码的结果。

对于笔画区间预测，待识别文字量计数这类回归问题的损失函数使用 log-cosh：L(y^p,y)＝log(cosh(y^p-y))。

而文字结构分类，包含子文字误差，异常文字二分类的损失使用交叉熵 (即分类问题损失函数)：

K表示具体任务的需要分类的数量。

总误差函数为，

其中θ表示整个网络的参数集合，L_taski表示第i个任务的误差，α_i为对应第i个任务的超参数，用于体现不同误差之间的权重。λ为学习速率参数。

具体地，可按照批次来划分训练数据集以执行分批训练，计算分批次的总误差函数值，将新的总误差函数值反向传播，逐层求导，得到梯度方向。然后基于梯度方向，利用梯度下降按照学习速率参数λ对原始模型和 multi-task任务模型参数调整，直至满足了预设的模型训练终止条件，例如，最终得到的总误差函数值小于预设值或达到了预设的训练迭代次数等

图3示出了利用本发明训练得到的支持简体与繁体文字识别模型对待识文本识别的流程示意。

根据图3所示，预测阶段待识别文字框经过原模型特征提取后，在原解码操作中并行增加分支进行上文所述的multitasks任务。

图4示出了根据完成的multitasks任务解码结果，通过信息融合模块对对原模型识别结果进行修正处理的流程图。

为叙述方便，对于待识图片，原模型解码结果记为a1a2…an，子任务4文字数量预测结果记为N₄，子任务2的文字结构分类结果记为s1,s2,…sN₂，子任务3文字包含单元字分类结果记为l1,l2,…lN₃，子任务1文字笔画数量区间记为m1,m2,…mN₁，子任务5包含拒识文字置信概率记为p1,p2,…pN₅。其中小标分别对应子任务编号。

步骤a判断子任务1，2，5解码序列长度是否与子任务4解码结果相等，即同时满足N₁＝N₂＝N₅＝N₄，如果不相同进入步骤g语言模型修正，否则进入步骤b。

步骤b判断解码文字数量是否大于N₄；若是进入步骤c进行子任务的推理修正，否则进入步骤f。

步骤c根据解码的文字序列分别表示为包括子任务1，2，3三种序列表示，记为X1，X2，X3。通过删除X1，X2，X3中部分字符，替换部分字符，一定能到达对应子任务解码的序列串。其中对应操作数目定义为编辑代价。将分别产生三个序列最小编辑代价数记为a1,a2,a3；对应删除，替换操作分别记为op1,op2,op3。进入步骤g语言模型再修正。

步骤d判断a1,a2,a3中最小编辑代价是否低于阙值，若是对原始解码文字序列进行对应的删除替换操作。其中替换用特殊字符标记。同时判断 op1,op2,op3是否相同，若相同将需要替换的可选字从全字集减少为满足三者条件的文字集合。若这样的字仅一个,直接替换该位置的占位字。进入步骤g 语言模型推理修正。

步骤e判断解码文字数量是否小于N₄。若不是表示对应解码文字序列与子任务解析的序列长度相同。子任务5序列中是否存在异常判断高于阙值的文字进行标记。利用子任务1,2,3筛选减少可选文字集合数量。否则进入步骤f。

步骤f根据解码的文字序列分别表示为包括子任务1,2,3三种序列表示，记为X1,X2,X3。通过增加部分字符，替换部分字符，一定能到达对应子任务解码的序列串。其中对应操作数目定义为编辑代价。将分别产生三个序列最小编辑代价数记为a1,a2,a3；对应增加,替换操作分别记为op1,op2,op3。进入步骤g语言模型再修正。

步骤g利用语言模型对未知字符进行预测。

通过上诉处理后的结果。不确信的字符用特殊的字符代替，并且通过子任务很大程度减少了候选的分类字符集合。图5所示是利用语言模型预测出未知字符的最大概率字的纠正识别的流程。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，包括以下步骤：

1)建立多任务字符识别模型；

3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片，得到各子任务的识别结果以及直接解码的识别结果，子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度，直接解码的识别结果包括解码文字序列、解码文字序列长度，然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正，得到识别结果。

2.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤1)中，建立多任务字符识别模型，具体包括：

1.2将解码模块和多任务模块合并，形成多任务字符识别模型。

3.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤2)中，将多任务字符识别模型进行训练，具体包括：

2.1构造特征训练字典；

2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中，采用总误差函数进行训练，得到训练后的多任务字符识别模型。

4.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤2.1中，所述的特征训练字典具体包括：

2.1.2原子字字典，对简体字与繁体字进行逐字筛选，选出同时满足以下特征的字：1.无法被拆解为另外一个笔画区间在[a,b]的字；2.该文字被数量多于阙值r的字包含，其中a,b,r是按照具体问题调整的超参数；

5.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤2.3中，所述的总误差函数为，

其中，J(θ)表示总误差函数，θ表示整个网络的参数集合，L_taski表示第i个任务的误差，α_i为对应第i个任务的超参数，λ为学习速率参数，L_init表示解码模块的初始误差；

L_taski的第1个任务的误差为笔画区间误差

L_taski的第2个任务的误差为文字结构分类误差为

L_taski的第3个任务的误差为多分类包含文字误差

L_taski的第4个任务的误差为图片文字统计数量误差

L_taski的第5个任务的误差为异常文字二分类误差

是针对第i个训练样本第t个字序列所在的笔画区间标准值；

是针对第i个训练样本第t个字序列所在的结构分类槽位；

分别是神经网络分支解码的结果；L为回归问题损失函数，L′为分类问题损失函数。

6.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤3)中，所述的子任务解码序列包括文字拆解序列、笔画区间序列和文字结构序列；

7.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤3)中，通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正，具体包括：

3.6如果解码文字序列长度小于子任务检测文字的数量，则分别计算解码文字序列到3个子任务序列进行插入，产生三个序列最小编辑代价数记为a1,a2,a3，判断a1,a2,a3是否低于阈值；