CN111651960A - 一种从合同简体迁移到繁体的光学字符联合训练及识别方法 - Google Patents

一种从合同简体迁移到繁体的光学字符联合训练及识别方法 Download PDF

Info

Publication number
CN111651960A
CN111651960A CN202010485822.9A CN202010485822A CN111651960A CN 111651960 A CN111651960 A CN 111651960A CN 202010485822 A CN202010485822 A CN 202010485822A CN 111651960 A CN111651960 A CN 111651960A
Authority
CN
China
Prior art keywords
character
characters
sequence
decoding
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010485822.9A
Other languages
English (en)
Other versions
CN111651960B (zh
Inventor
谢泽星
吴青昀
徐俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bestsign Network Technology Co ltd
Original Assignee
Hangzhou Bestsign Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bestsign Network Technology Co ltd filed Critical Hangzhou Bestsign Network Technology Co ltd
Priority to CN202010485822.9A priority Critical patent/CN111651960B/zh
Publication of CN111651960A publication Critical patent/CN111651960A/zh
Application granted granted Critical
Publication of CN111651960B publication Critical patent/CN111651960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种从合同简体迁移到繁体的光学字符联合训练及识别方法,包括:建立多任务字符识别模型;将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,得到识别结果。本发明通过多个拟人策略多任务模块联合训练方式加强模型对文字形态特征挖掘,通用简单特征的理解,能够增加模型的鲁棒性,减少训练数据量,加快模型的构件速度。

Description

一种从合同简体迁移到繁体的光学字符联合训练及识别方法
技术领域
本发明涉及深度学习与光学文字识别的技术领域,具体涉及一种从合同简体迁移到繁体的光学字符联合训练及识别方法。
背景技术
在信息云上化的趋势下,线下合同线上管理的需求日益显著。当前技术对于合同中常见简体文字的ocr识别(ocr为Optical Character Recognition,光学字符识别),已经较为成熟。传统的识别模型可分为编码端和解码端。
其中解码端任务本质上是针对每行文本小区域的分类任务,然后寻优找出整个待识别区域的最大概率文字序列。一般而言,在有充足的高质量训练数据条件下,模型才能训练出较好的结果。
而由于港澳和台湾用户使用的合同更多是以繁体文字书写。不同于简体的识别,繁体文字与简体文字相比笔画更多字形结构更复杂,更考验模型对字形结构细节的特征的挖掘能力。一般而言,训练繁体识别需要先采集大量繁体合同扫描件作为训练数据。但由于合同是企业业务强相关的法律高保密性文件,内地中小型企业很难采集到一定量的繁体合同数据,甚至简体合同量也相对不足。尽管本司已经积累了大量高质量简体合同扫描件ocr数据,但繁体合同的数据也是较为稀缺的。因此采用常规思路训练模型识别包括繁体字的那个内容,也必然因为训练数据不均衡,导致识别系统精度较低。实际上,通过拟人识字的思路,一个认识简体字的人能很快认识繁体字。原因在于繁体文字与简体文字相比形态更复杂,但结构特征和简体互通甚至更为明显。因此在已有的对简体字识别较好的模型,结合结构特征能更低成本的迁移到繁体合同的识别场景下,具有降本增效的价值。
发明内容
本发明提供了一种从合同简体迁移到繁体的光学字符联合训练及识别方法,通过多个拟人策略multi-task(多任务模块)联合训练方式加强模型对文字形态特征挖掘,通用简单特征的理解,能够增加模型的鲁棒性,减少训练数据量,加快模型的构件速度。
一种从合同简体迁移到繁体的光学字符联合训练及识别方法,包括:
1)建立多任务字符识别模型;
2)将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;
3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度,直接解码的识别结果包括解码文字序列、解码文字序列长度,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离(即各子任务的识别结果转成为直接解码的识别结果的最少编辑操作次数)联合修正,得到识别结果。
步骤1)中,建立多任务字符识别模型,具体包括:
1.1在字符识别模型基础上增加多任务模块,所述的多任务模块包括:文字拆解预测子模块、字数统计预测子模块、笔画区间预测子模块、异常文字检查子模块、文字结构分类子模块;
1.2将解码模块和多任务模块合并,形成多任务字符识别模型;
步骤2)中,将多任务字符识别模型进行训练,具体包括:
2.1构造特征训练字典;
2.2将训练样本转化为异常文字检查结果和字数统计预测结果,利用特征训练字典将训练样本转化为文字拆解预测结果、笔画区间预测结果和文字结构分类结果;
2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中,采用总误差函数进行训练,得到训练后的多任务字符识别模型;
步骤2.1中,所述的特征训练字典具体包括:
2.1.1笔画区间字典,根据简体字与繁体字的笔画数划分为笔画数1-8的第一列表、笔画数9-15的第二列表、笔画数16-25的第三列表、笔画数大于25的第四列表;
2.1.2原子字字典,对简体字与繁体字进行逐字筛选,选出同时满足以下特征的字:1.无法被拆解为另外一个笔画区间在[a,b]的字;2.该文字被数量多于阙值r的字包含。然后按笔画大小递减排列,值得说明原子字是常见的并且不存在互相包含关系。其中a,b,r是按照具体问题调整的超参数。值得说明在字典中会增加一个特殊字符表示存在一个字在满足当前条件下无法找到该字原子组成成分。
2.1.3文字结构字典,包括包含及半包含关系的第一类文字、左右结构的第二类文字、上下结构的第三类文字、三字结构的第四类文字、其他的第五类文字。
步骤2.3中,所述的总误差函数为,
Figure BDA0002519020200000031
其中,J(θ) 表示总误差函数,θ表示整个网络的参数集合,Ltaski表示第i个任务的误差,αi为对应第i个任务的超参数,用于体现不同误差之间的权重。λ为学习速率参数。Linit表示解码模块的初始误差。
Ltaski的第1个任务的误差为笔画区间误差
Figure BDA0002519020200000032
Ltaski的第2个任务的误差为文字结构分类误差为
Figure BDA0002519020200000033
Ltaski的第3个任务的误差为多分类包含文字误差
Figure BDA0002519020200000034
Ltaski的第4个任务的误差为图片文字统计数量误差
Figure BDA0002519020200000035
Ltaski的第5个任务的误差为异常文字二分类误差
Figure BDA0002519020200000036
其中,D表示训练样本的规模,i为训练样本的序号,Ti表示第i个训练样本中的字序列;
Figure BDA0002519020200000037
是针对第i个训练样本第t个字序列所在的笔画区间标准值;
Figure BDA0002519020200000038
是针对第i个训练样本第t个字序列所在的结构分类槽位;
Figure BDA0002519020200000039
是针对第i个训练样本第t个字序列相关字多分类误差的标准槽位;m(i)是针对第i个训练样本中出现的待识别文字量的计数;
Figure BDA00025190202000000310
是针对第i个训练样本中第t个字序列出现的异常文字的标记槽位;
Figure BDA00025190202000000311
分别是神经网络分支解码的结果,L为回归问题损失函数,L′为分类问题损失函数
步骤3)中,所述的子任务解码序列包括文字拆解序列、笔画区间序列和文字结构序列;
所述的子任务解码序列长度为文字拆解序列、笔画区间序列和文字结构序列的解码序列长度。
通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,具体包括:
3.1对于待识的包含简体字和繁体字的合同图片,判断子任务解码序列长度是否相同;
3.2如果子任务解码序列长度不同,采用语言模型直接修正,得到识别结果;
如果子任务解码序列长度相同,则判断解码文字序列长度是否大于子任务检测文字的数量;
3.3如果解码文字序列长度是大于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行删除,产生三个序列最小编辑代价数记为a1,a2,a3,判断a1,a2,a3是否低于阈值;
3.4如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;
如果a1,a2,a3低于阈值,则按照最小编辑代价操作对识别的原始序列进行删除替换操作,之后筛选替换字符集,然后采用语言模型修正,得到识别结果;
3.5如果解码文字序列长度等于子任务检测文字的数量,则标记解码序列中异常高于阈值的文字,采用语言模型修正,得到识别结果;
3.6如果解码文字序列长度小于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行插入,产生三个序列最小编辑代价数记为 a1,a2,a3,判断a1,a2,a3是否低于阈值;
3.7如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;
如果a1,a2,a3低于阈值,则按照最小编辑代价操作对识别的原始序列进行插入替换操作,之后筛选字符集,然后采用语言模型修正,得到识别结果。
为实现上述目的,根据本发明的一个方面,提供了一种繁体文字识别模型训练方法。
本发明实施例的文字识别模型训练方法包括:获取大量简体文字及一定量繁体文字的原始合同图片数据,根据ctpn文字定位方法将合同转化为以行为单位的待识别文字区域;
在原始模型的基础上,增加多个神经网络分支执行拟人策略的 multi-tasks,并加入梯度反向层训练。
这些任务分别包括:
1.图片文字笔画区间数序列;
2.文字结构(上下结构,左右结构,三字结构,其他结构)分类序列;
3.包含原子文字预测,其中原子文字是通过人工总结了简体与繁体特点,筛选了能作为其他字重要识别特征的字,类似与人对部首特征理解的泛化表示;
4.图片文字统计数,即一张图片包含多少需要识别的文字统计;
5.不清晰或不存在字典中文字预测。
增加的神经网络分支误差可以包括:笔画区间误差和文字识别结构误差,包含原子文字多分类误差,图片文字统计数误差,是否不清晰或不存在字典中二分类误差。
联合训练步骤可以包括:通过将总误差函数反向传播,逐层求导,得到梯度方向;基于梯度方向,利用梯度下降法,按照学习速率参数对multi-tasks 模型和原始模型中涉及的参数进行修正。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种文字识别的方法。包括:行文字检测及特征提取单元,用以获取待识别文字行单位切片图片特征;文字形态特征提取单元,用于提取行文本包含的单字结构特征。所述特征包含该行需识别文字数量,每个文字的笔画区间统计,文字的结构分类,每个文字包含的特选单位字以及是否存在异常识别的文字。
利用上述特征对该字进行结构特征的置信判断,文字纠正。以及利用合同语料训练的语言模型再次解码。
与现有技术相比,本发明的有益效果在于:
本发明方法识别尤其是繁体字,具有强结构信息特征的任务中,训练中采用了拟人策略的multi-tasks。具体化的抽离出文字结构信息,使fine-tune 中少量数据的作用被放大,强化模型结构力度的识别。之后利用结构信息,及语言模型强化了原始模型在繁体文字上识别的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出了根据本发明实施例的多任务识别模型的训练方法的示意性流程图。
图2是示出了根据本发明实施例的多任务识别模型训练流程示意图。
图3是示出了根据本发明实施例通过训练得到的支持简体与繁体文字识别模型对待识文本识别的流程示意图。
图4是示出了根据本发明实施例信息融合模块对对原模型识别结果进行修正处理的流程图。
图5是示出了根据本发明实施例对识别结果利用语言模型进行修正的处理流程图。
具体实施方式
如图1~图5所示,一种从合同简体迁移到繁体的光学字符联合训练及识别方法,包括:
1)建立多任务字符识别模型;
2)将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;
3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度,直接解码的识别结果包括解码文字序列、解码文字序列长度,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离(即各子任务的识别结果转成为直接解码的识别结果的最少编辑操作次数)联合修正,得到识别结果。
步骤1)中,建立多任务字符识别模型,具体包括:
1.1在字符识别模型基础上增加多任务模块,所述的多任务模块包括:文字拆解预测子模块、字数统计预测子模块、笔画区间预测子模块、异常文字检查子模块、文字结构分类子模块;
1.2将解码模块和多任务模块合并,形成多任务字符识别模型;
步骤2)中,将多任务字符识别模型进行训练,具体包括:
2.1构造特征训练字典;
2.2将训练样本转化为异常文字检查结果和字数统计预测结果,利用特征训练字典将训练样本转化为文字拆解预测结果、笔画区间预测结果和文字结构分类结果;
2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中,采用总误差函数进行训练,得到训练后的多任务字符识别模型;
步骤2.1中,所述的特征训练字典具体包括:
2.1.1笔画区间字典,根据简体字与繁体字的笔画数划分为笔画数1-8的第一列表、笔画数9-15的第二列表、笔画数16-25的第三列表、笔画数大于25的第四列表;
2.1.2原子字字典,对简体字与繁体字进行逐字筛选,选出同时满足以下特征的字:1.无法被拆解为另外一个笔画区间在[a,b]的字;2.该文字被数量多于阙值r的字包含。然后按笔画大小递减排列,值得说明原子字是常见的并且不存在互相包含关系。其中a,b,r是按照具体问题调整的超参数。值得说明在字典中会增加一个特殊字符表示存在一个字在满足当前条件下无法找到该字原子组成成分。
2.1.3文字结构字典,包括包含及半包含关系的第一类文字、左右结构的第二类文字、上下结构的第三类文字、三字结构的第四类文字、其他的第五类文字。
步骤2.3中,所述的总误差函数为,
Figure BDA0002519020200000071
其中,J(θ) 表示总误差函数,θ表示整个网络的参数集合,Ltaski表示第i个任务的误差,αi为对应第i个任务的超参数,用于体现不同误差之间的权重。λ为学习速率参数。Linit表示解码模块的初始误差。
Ltaski的第1个任务的误差为笔画区间误差
Figure BDA0002519020200000072
Ltaski的第2个任务的误差为文字结构分类误差为
Figure BDA0002519020200000073
Ltaski的第3个任务的误差为多分类包含文字误差
Figure BDA0002519020200000074
Ltaski的第4个任务的误差为图片文字统计数量误差
Figure BDA0002519020200000081
Ltaski的第5个任务的误差为异常文字二分类误差
Figure BDA0002519020200000082
其中,D表示训练样本的规模,i为训练样本的序号,Ti表示第i个训练样本中的字序列;
Figure BDA0002519020200000083
是针对第i个训练样本第t个字序列所在的笔画区间标准值;
Figure BDA0002519020200000084
是针对第i个训练样本第t个字序列所在的结构分类槽位;
Figure BDA0002519020200000085
是针对第i个训练样本第t个字序列相关字多分类误差的标准槽位;m(i)是针对第i个训练样本中出现的待识别文字量的计数;
Figure BDA0002519020200000086
是针对第i个训练样本中第t个字序列出现的异常文字的标记槽位;
Figure BDA0002519020200000087
分别是神经网络分支解码的结果,L为回归问题损失函数,L′为分类问题损失函数
步骤3)中,子任务解码序列包括文字拆解序列、笔画区间序列和文字结构序列;子任务解码序列长度为文字拆解序列、笔画区间序列和文字结构序列的解码序列长度。
通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,具体包括:
3.1对于待识的包含简体字和繁体字的合同图片,判断子任务解码序列长度是否相同;
3.2如果子任务解码序列长度不同,采用语言模型直接修正,得到识别结果;
如果子任务解码序列长度相同,则判断解码文字序列长度是否大于子任务检测文字的数量;
3.3如果解码文字序列长度是大于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行删除,产生三个序列最小编辑代价数记为a1,a2,a3,判断a1,a2,a3是否低于阈值;
3.4如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;
如果a1,a2,a3低于阈值,则按照最小编辑代价操作对识别的原始序列进行删除替换操作,之后筛选替换字符集,然后采用语言模型修正,得到识别结果;
3.5如果解码文字序列长度等于子任务检测文字的数量,则标记解码序列中异常高于阈值的文字,采用语言模型修正,得到识别结果;
3.6如果解码文字序列长度小于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行插入,产生三个序列最小编辑代价数记为 a1,a2,a3,判断a1,a2,a3是否低于阈值;
3.7如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;
如果a1,a2,a3低于阈值,则按照最小编辑代价操作对识别的原始序列进行插入替换操作,之后筛选字符集,然后采用语言模型修正,得到识别结果。
具体地,结合最优实施例进行说明,合同的扫描件图片通过文字检测模块可以定位出多行的文字框。然后将定位框图片输入到模型中得到识别结果。其中识别模型按照内在层次可划分为图片特征编码模块和特征解码模块。图片特征编码模块本质是对图像与识别任务相关有效信息的抽象及降维处理;特征解码模块是对编码后特征的信息解析。
解码模块的任务是一个针对字级别的全字典分类问题,通常满足日常字体识别的字典范围需要包含1万字左右。在简体字和繁体数量比不是一个量级的情况下训练,较为容易的把繁体字识别为一个相近的简体字。而且繁体文字字形结构复杂,更考验模型对字形结构细节的特征挖掘。
目前在训练识别模型时,会按照实际识别结果反向传递训练两个模块。实际上对于繁体扫描数量稀缺场景下,通过文字识别的任务,难以学习模型对繁体的字形理解。同样没有充分挖掘已有数据的特征信息。
有鉴于此,本发明提出,在训练识别模型时,可以将编码模块之后,通过增加multi-tasks任务的神经网络与原有的文字识别解码模块进行联合建模,构建同时包含原始字形分类的误差和采用multi-tasks误差的总误差函数,基于总误差函数,可以将直接文字识别的解码模型和文字识别间接相关的结构挖掘模型进行联合训练。由此,可以更充分挖掘少量样本的文字结构特征。
下面首先结合图1就本发明的识别模型的训练过程进行说明。
为了充分利用到少量训练图片的特征信息在训练前,首先需要构造有关结构信息的特征字典。包括:
A.笔画区间字典,根据简体字与繁体字的统计的信息将所有的中字划分为[[1-8],[8-15],[15-25],[>25]]四个类别。其中繁体字主要出现在后两个区间,简体大部分集中在前面两个区间。
B.原子字字典,人工的对简繁体文字进行逐字筛选,选出满足以下特征的字:1.笔画区间在[a,b]间;2.无法被拆解为另外一个原子字;3.不少于阙值r的数量的文字包含该原子字。然后按笔画大小递减排列,值得说明原子字是常见的并且不存在互相包含关系。其中a,b,r是按照具体问题调整的超参数。值得说明在B字典中会增加一个特殊字符表示存在一个字在满足当前条件下无法找到该字原子组成成分
C.文字结构字典,记录文字结构是属于[[包含及半包含关系],[左右结构],[上下结构],[三字结构],[其他]]的一类。
利用上诉字典能提取文字的高级结构特征,举例说明:
形如‘開’笔画数为13属于笔画区间第二类;在a设置为5时包含的原子文字为‘門’如果a设置为4包含原子字为‘門’和‘开’,文字结构属于第一类。形如‘國’属于第三类,包含的关键原子文字解析为‘或’,属于第一类结构。其中为了讲述方便,后文默认的选取原子字特征策略是只包含笔画数最多的文字,或原子字字典中排序靠前的字。利用构造的特征字典可将少量样本的标签进行扩充,丰富了样本的有效信息。
如图2原模型包括多层卷积网络的编码模块,以及对编码特征解码为识别信息的模块。本发明在不改动原始模型基础上增加部分结构。在卷积网络的编码模块后增加了一个分支网络,接受通过卷积提取的序列特征,之后连接多个分支的子任务的以序列结构输出的Seq2Seq解码模块,用以执行拟人策略的multi-tasks,并加入梯度反向层训练。
这些任务分别包括:
1.图片文字笔画区间数序列预测;
2.文字结构(上下结构,左右结构,三字结构,其他结构)分类序列预测;
3.包含原子文字预测;
4.图片文字统计数,即一张图片包含多少需要识别的文字统计;
5.不清晰或不存在字典中文字预测。即增添一些不在可识别字典中的字单独分支训练训练一个异常文字判别。即对于正常字分类为1,异常表示不在字典中,或人为看不清的分类为0。
联合训练步骤可以包括:通过将总误差函数反向传播,逐层求导,得到梯度方向;基于梯度方向,利用梯度下降法,按照学习速率参数对multi-tasks 模型和原始模型中涉及的参数进行修正。通过执行拟人策略的multi-tasks,并加入梯度反向层训练的网络分支误差可以包括:笔画区间误差和文字识别结构误差,包含原子文字多分类误差,图片文字统计数误差,是否不清晰或不存在字典中二分类误差。原始模型识别误差记为Linit,笔画区间误差
Figure BDA0002519020200000111
文字结构分类误差为
Figure BDA0002519020200000112
多分类包含文字误差
Figure BDA0002519020200000113
图片文字统计数量误差
Figure BDA0002519020200000114
异常文字二分类误差
Figure BDA0002519020200000115
其中,D表示训练样本的规模,i为训练样本的序号,Ti表示第i个训练样本中的字序列。
Figure BDA0002519020200000116
是针对第i个训练样本第t个字序列所在的笔画区间标准值,
Figure BDA0002519020200000117
是针对第i个训练样本第t个字序列所在的结构分类槽位,
Figure BDA0002519020200000118
是针对第i个训练样本第t个字序列相关字多分类误差的标准槽位,m(i)是针对第i个训练样本中出现的待识别文字量的计数,
Figure BDA0002519020200000119
是针对第i个训练样本中第t个字序列出现的异常文字的标记槽位。而
Figure BDA00025190202000001110
分别是神经网络分支解码的结果。
对于笔画区间预测,待识别文字量计数这类回归问题的损失函数使用 log-cosh:L(yp,y)=log(cosh(yp-y))。
而文字结构分类,包含子文字误差,异常文字二分类的损失使用交叉熵 (即分类问题损失函数):
Figure BDA00025190202000001111
K表示具体任务的需要分类的数量。
总误差函数为,
Figure BDA00025190202000001112
其中θ表示整个网络的参数集合,Ltaski表示第i个任务的误差,αi为对应第i个任务的超参数,用于体现不同误差之间的权重。λ为学习速率参数。
具体地,可按照批次来划分训练数据集以执行分批训练,计算分批次的总误差函数值,将新的总误差函数值反向传播,逐层求导,得到梯度方向。然后基于梯度方向,利用梯度下降按照学习速率参数λ对原始模型和 multi-task任务模型参数调整,直至满足了预设的模型训练终止条件,例如,最终得到的总误差函数值小于预设值或达到了预设的训练迭代次数等
图3示出了利用本发明训练得到的支持简体与繁体文字识别模型对待识文本识别的流程示意。
根据图3所示,预测阶段待识别文字框经过原模型特征提取后,在原解码操作中并行增加分支进行上文所述的multitasks任务。
图4示出了根据完成的multitasks任务解码结果,通过信息融合模块对对原模型识别结果进行修正处理的流程图。
为叙述方便,对于待识图片,原模型解码结果记为a1a2…an,子任务4文字数量预测结果记为N4,子任务2的文字结构分类结果记为s1,s2,…sN2,子任务3文字包含单元字分类结果记为l1,l2,…lN3,子任务1文字笔画数量区间记为m1,m2,…mN1,子任务5包含拒识文字置信概率记为p1,p2,…pN5。其中小标分别对应子任务编号。
步骤a判断子任务1,2,5解码序列长度是否与子任务4解码结果相等,即同时满足N1=N2=N5=N4,如果不相同进入步骤g语言模型修正,否则进入步骤b。
步骤b判断解码文字数量是否大于N4;若是进入步骤c进行子任务的推理修正,否则进入步骤f。
步骤c根据解码的文字序列分别表示为包括子任务1,2,3三种序列表示,记为X1,X2,X3。通过删除X1,X2,X3中部分字符,替换部分字符,一定能到达对应子任务解码的序列串。其中对应操作数目定义为编辑代价。将分别产生三个序列最小编辑代价数记为a1,a2,a3;对应删除,替换操作分别记为op1,op2,op3。进入步骤g语言模型再修正。
步骤d判断a1,a2,a3中最小编辑代价是否低于阙值,若是对原始解码文字序列进行对应的删除替换操作。其中替换用特殊字符标记。同时判断 op1,op2,op3是否相同,若相同将需要替换的可选字从全字集减少为满足三者条件的文字集合。若这样的字仅一个,直接替换该位置的占位字。进入步骤g 语言模型推理修正。
步骤e判断解码文字数量是否小于N4。若不是表示对应解码文字序列与子任务解析的序列长度相同。子任务5序列中是否存在异常判断高于阙值的文字进行标记。利用子任务1,2,3筛选减少可选文字集合数量。否则进入步骤f。
步骤f根据解码的文字序列分别表示为包括子任务1,2,3三种序列表示,记为X1,X2,X3。通过增加部分字符,替换部分字符,一定能到达对应子任务解码的序列串。其中对应操作数目定义为编辑代价。将分别产生三个序列最小编辑代价数记为a1,a2,a3;对应增加,替换操作分别记为op1,op2,op3。进入步骤g语言模型再修正。
步骤g利用语言模型对未知字符进行预测。
通过上诉处理后的结果。不确信的字符用特殊的字符代替,并且通过子任务很大程度减少了候选的分类字符集合。图5所示是利用语言模型预测出未知字符的最大概率字的纠正识别的流程。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (7)

1.一种从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,包括以下步骤:
1)建立多任务字符识别模型;
2)将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;
3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度,直接解码的识别结果包括解码文字序列、解码文字序列长度,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,得到识别结果。
2.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤1)中,建立多任务字符识别模型,具体包括:
1.1在字符识别模型基础上增加多任务模块,所述的多任务模块包括:文字拆解预测子模块、字数统计预测子模块、笔画区间预测子模块、异常文字检查子模块、文字结构分类子模块;
1.2将解码模块和多任务模块合并,形成多任务字符识别模型。
3.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤2)中,将多任务字符识别模型进行训练,具体包括:
2.1构造特征训练字典;
2.2将训练样本转化为异常文字检查结果和字数统计预测结果,利用特征训练字典将训练样本转化为文字拆解预测结果、笔画区间预测结果和文字结构分类结果;
2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中,采用总误差函数进行训练,得到训练后的多任务字符识别模型。
4.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤2.1中,所述的特征训练字典具体包括:
2.1.1笔画区间字典,根据简体字与繁体字的笔画数划分为笔画数1-8的第一列表、笔画数9-15的第二列表、笔画数16-25的第三列表、笔画数大于25的第四列表;
2.1.2原子字字典,对简体字与繁体字进行逐字筛选,选出同时满足以下特征的字:1.无法被拆解为另外一个笔画区间在[a,b]的字;2.该文字被数量多于阙值r的字包含,其中a,b,r是按照具体问题调整的超参数;
2.1.3文字结构字典,包括包含及半包含关系的第一类文字、左右结构的第二类文字、上下结构的第三类文字、三字结构的第四类文字、其他的第五类文字。
5.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤2.3中,所述的总误差函数为,
Figure FDA0002519020190000021
其中,J(θ)表示总误差函数,θ表示整个网络的参数集合,Ltaski表示第i个任务的误差,αi为对应第i个任务的超参数,λ为学习速率参数,Linit表示解码模块的初始误差;
Ltaski的第1个任务的误差为笔画区间误差
Figure FDA0002519020190000022
Ltaski的第2个任务的误差为文字结构分类误差为
Figure FDA0002519020190000023
Ltaski的第3个任务的误差为多分类包含文字误差
Figure FDA0002519020190000024
Ltaski的第4个任务的误差为图片文字统计数量误差
Figure FDA0002519020190000025
Ltaski的第5个任务的误差为异常文字二分类误差
Figure FDA0002519020190000026
其中,D表示训练样本的规模,i为训练样本的序号,Ti表示第i个训练样本中的字序列;
Figure FDA0002519020190000027
是针对第i个训练样本第t个字序列所在的笔画区间标准值;
Figure FDA0002519020190000028
是针对第i个训练样本第t个字序列所在的结构分类槽位;
Figure FDA0002519020190000029
是针对第i个训练样本第t个字序列相关字多分类误差的标准槽位;m(i)是针对第i个训练样本中出现的待识别文字量的计数;
Figure FDA0002519020190000031
是针对第i个训练样本中第t个字序列出现的异常文字的标记槽位;
Figure FDA0002519020190000032
分别是神经网络分支解码的结果;L为回归问题损失函数,L′为分类问题损失函数。
6.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤3)中,所述的子任务解码序列包括文字拆解序列、笔画区间序列和文字结构序列;
所述的子任务解码序列长度为文字拆解序列、笔画区间序列和文字结构序列的解码序列长度。
7.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤3)中,通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,具体包括:
3.1对于待识的包含简体字和繁体字的合同图片,判断子任务解码序列长度是否相同;
3.2如果子任务解码序列长度不同,采用语言模型直接修正,得到识别结果;
如果子任务解码序列长度相同,则判断解码文字序列长度是否大于子任务检测文字的数量;
3.3如果解码文字序列长度是大于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行删除,产生三个序列最小编辑代价数记为a1,a2,a3,判断a1,a2,a3是否低于阈值;
3.4如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;
如果a1,a2,a3低于阈值,则按照最小编辑代价操作对识别的原始序列进行删除替换操作,之后筛选替换字符集,然后采用语言模型修正,得到识别结果;
3.5如果解码文字序列长度等于子任务检测文字的数量,则标记解码序列中异常高于阈值的文字,采用语言模型修正,得到识别结果;
3.6如果解码文字序列长度小于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行插入,产生三个序列最小编辑代价数记为a1,a2,a3,判断a1,a2,a3是否低于阈值;
3.7如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;
如果a1,a2,a3低于阈值,则按照最小编辑代价操作对识别的原始序列进行插入替换操作,之后筛选字符集,然后采用语言模型修正,得到识别结果。
CN202010485822.9A 2020-06-01 2020-06-01 一种从合同简体迁移到繁体的光学字符联合训练及识别方法 Active CN111651960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010485822.9A CN111651960B (zh) 2020-06-01 2020-06-01 一种从合同简体迁移到繁体的光学字符联合训练及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010485822.9A CN111651960B (zh) 2020-06-01 2020-06-01 一种从合同简体迁移到繁体的光学字符联合训练及识别方法

Publications (2)

Publication Number Publication Date
CN111651960A true CN111651960A (zh) 2020-09-11
CN111651960B CN111651960B (zh) 2023-05-30

Family

ID=72352707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010485822.9A Active CN111651960B (zh) 2020-06-01 2020-06-01 一种从合同简体迁移到繁体的光学字符联合训练及识别方法

Country Status (1)

Country Link
CN (1) CN111651960B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384382A (zh) * 2023-01-04 2023-07-04 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
CN108847241A (zh) * 2018-06-07 2018-11-20 平安科技(深圳)有限公司 将会议语音识别为文本的方法、电子设备及存储介质
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта
CN110635908A (zh) * 2019-09-29 2019-12-31 杭州尚尚签网络科技有限公司 一种用于电子合同的支持亿万级密钥的管理方法
CN110705233A (zh) * 2019-09-03 2020-01-17 平安科技(深圳)有限公司 基于文字识别技术的笔记生成方法、装置和计算机设备
CN111091131A (zh) * 2019-12-18 2020-05-01 创新奇智(南京)科技有限公司 基于多任务学习的自适应车牌字符识别系统及识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта
CN108847241A (zh) * 2018-06-07 2018-11-20 平安科技(深圳)有限公司 将会议语音识别为文本的方法、电子设备及存储介质
CN110705233A (zh) * 2019-09-03 2020-01-17 平安科技(深圳)有限公司 基于文字识别技术的笔记生成方法、装置和计算机设备
CN110635908A (zh) * 2019-09-29 2019-12-31 杭州尚尚签网络科技有限公司 一种用于电子合同的支持亿万级密钥的管理方法
CN111091131A (zh) * 2019-12-18 2020-05-01 创新奇智(南京)科技有限公司 基于多任务学习的自适应车牌字符识别系统及识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵冬香;曹贤平;: "基于BP神经网络的清水江文书识别系统研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384382A (zh) * 2023-01-04 2023-07-04 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置
CN116384382B (zh) * 2023-01-04 2024-03-22 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置

Also Published As

Publication number Publication date
CN111651960B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN111738105B (zh) 公式识别方法、装置、电子设备和存储介质
Li et al. Publication date estimation for printed historical documents using convolutional neural networks
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111680669A (zh) 一种试题分割方法、系统及可读存储介质
CN111651960A (zh) 一种从合同简体迁移到繁体的光学字符联合训练及识别方法
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN111242114B (zh) 文字识别方法及装置
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
Wijerathna et al. Recognition and translation of Ancient Brahmi Letters using deep learning and NLP
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
Castillo et al. Object detection in digital documents based on machine learning algorithms
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN114912460A (zh) 基于文本挖掘的精细化拟合识别变压器故障方法及设备
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质
CN113837167A (zh) 一种文本图像识别方法、装置、设备及存储介质
CN116563869B (zh) 页面图像文字处理方法、装置、终端设备和可读存储介质
CN113961674B (zh) 一种关键信息与上市公司公告文本语义匹配方法及装置
CN116842128B (zh) 一种文本关系抽取方法、装置、计算机设备及存储介质
CN117113988B (zh) 一种基于nlp的敏感词汇屏蔽方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant