CN113947773A - 文字识别模型的训练方法及装置 - Google Patents

文字识别模型的训练方法及装置 Download PDF

Info

Publication number
CN113947773A
CN113947773A CN202111215914.6A CN202111215914A CN113947773A CN 113947773 A CN113947773 A CN 113947773A CN 202111215914 A CN202111215914 A CN 202111215914A CN 113947773 A CN113947773 A CN 113947773A
Authority
CN
China
Prior art keywords
character
sample data
character recognition
recognition model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111215914.6A
Other languages
English (en)
Inventor
宋振旗
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Publication of CN113947773A publication Critical patent/CN113947773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供文字识别模型的训练方法及装置,其中所述文字识别模型的训练方法包括:获取样本数据,并确定所述样本数据中的形近字;在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。

Description

文字识别模型的训练方法及装置
技术领域
本申请涉及机器学习技术领域,特别涉及文字识别模型的训练方法及装置。
背景技术
随着互联网技术的发展,文字识别技术在越来越多的场景中得以应用,通过文字识别技术不仅可以减少人工识别成本,还能够提高识别效率,因此文字识别技术的识别精准度是衡量识别效果好坏的重要因素。而目前的OCR识别技术,大多使用检测和识别两个阶段组成的方式进行识别任务的处理。其中文字识别阶段大多使用CRNN+LSTM+CTC的模型结构,其中CRNN是用于从包含待识别文字的图像中进行特征提取,LSTM是用于对特征解码得到文本输出,CTC作为损失函数可以对齐OCR的识别结果,从而保证对图像中的文字进行识别。然而,由于不同语种的文字中可能包含大量的形近字,如汉语、韩语等,很大程度会提高文字识别难度,尤其是在一些证件识别、签名识别场景中,如果将文字识别错误,会严重影响业务正常进行,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种文字识别模型的训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文字识别模型的训练装置,一种文字识别方法,一种文字识别装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文字识别模型的训练方法,包括:
获取样本数据,并确定所述样本数据中的形近字;
在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
可选地,所述确定所述样本数据中的形近字,包括:
提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元;
将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。
可选地,所述将各个字单元分别与预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字,包括:
获取各个字单元分别对应的字符特征;
基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;
将所述目标字符特征对应的字单元作为所述形近字。
可选地,所述在预设的字典中提取所述形近字对应的替换形近字,包括:
在所述预设的字典中确定所述形近字对应的字单元集合;
将所述字单元集合中包含的各个字单元作为所述替换形近字。
可选地,所述基于所述替换形近字对所述样本数据进行更新,获得负样本数据,包括:
提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;
基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;
基于所述目标文本信息生成所述负样本数据。
可选地,所述预设的字典通过如下方式创建:
获取初始形近字,并提取所述初始形近字对应的形近字特征;
基于所述形近字特征对所述初始形近字进行聚类处理,根据聚类处理结果获得至少一个字单元集合;
基于所述至少一个字单元集合创建所述预设的字典。
可选地,所述基于所述负样本数据和所述样本数据对初始文字识别模型进行训练,包括:
基于所述样本数据和所述负样本数据构建样本特征;
将所述样本特征输入至所述初始文字识别模型,通过所述初始文字识别模型中的卷积模块确定所述样本特征对应的卷积特征;
将所述卷积特征输入至所述初始文字识别模型中的解码模块进行处理,获得解码特征;
将所述解码特征输入至所述初始文字识别模型中的输出模块进行处理,获得所述初始文字识别模型输出的文字识别结果。
可选地,所述通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型,包括:
基于所述第一损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第一损失值,以及
基于所述第二损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第二损失值;
根据所述第一损失值和所述第二损失值对所述初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
根据本申请实施例的第二方面,提供了一种文字识别模型的训练装置,包括:
获取样本模块,被配置为获取样本数据,并确定所述样本数据中的形近字;
更新样本模块,被配置为在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
训练模型模块,被配置为基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
优化模型模块,被配置为通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
根据本申请实施例的第三方面,提供了一种文字识别方法,包括:
获取文字图片;
对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征;
将所述图片特征输入至如上方法所述的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
根据本申请实施例的第四方面,提供了一种文字识别装置,包括:
获取图片模块,被配置为获取文字图片;
处理图片模块,被配置为对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征;
模型处理模块,被配置为将所述图片特征输入至如上方法所述的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
根据本申请实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文字识别模型的训练方法或所述文字识别方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文字识别模型的训练方法或所述文字识别方法的步骤。
本申请提供的文字识别模型的训练方法,在获取到样本数据之后,将确定所述样本数据中的形近字,之后在预设的字典中提取形近字对应的替换形近字,并根据替换形近字对样本数据进行更新,获得负样本数据,以实现后续可以结合负样本和正样本同时对模型进行训练,从而降低过拟合造成的模型识别不精准的问题发生。之后基于所述负样本数据和所述样本数据对初始文字识别模型进行训练的过程中,考虑到能够准确的对各种类型的文字都能够精准的进行识别,将采用两种不同的损失函数结合对初始文字识别模型进行优化,从而提高模型的识别能力,以获得满足识别需求的目标文字识别模型,实现提高对形近字识别的能力。
附图说明
图1是本申请一实施例提供的一种文字识别模型的训练方法的流程图;
图2是本申请一实施例提供的一种文字识别模型的训练方法中样本数据的示意图;
图3是本申请一实施例提供的一种文字识别模型的训练方法中负样本数据的示意图;
图4是本申请一实施例提供的一种文字识别模型的训练方法中识别文字的示意图;
图5是本申请一实施例提供的一种文字识别模型的训练装置的结构示意图;
图6是本申请一实施例提供的一种文字识别方法的流程图;
图7是本申请一实施例提供的一种文字识别装置的结构示意图;
图8是本申请一实施例提供的一种应用于签字场景中的文字识别方法的处理流程图;
图9是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
OCR(optical character recognition):文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
CRNN(Convolutional Recurrent Neural Network):是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题。主要用于端到端地对不定长的文本序列进行识别,不需要对文本序列中的单个文字进行切割处理;其本质在于将对文本序列进行识别的处理过程,转化为时序依赖的序列学习问题,即基于图像的序列识别。
Centerloss:一种损失函数,可以扩大类间间距,减少类内间距,从而使不同类别之间更好的区分。
CTC(Connectionist Temporal Classification):采用CTC作为损失函数,可以训练得到一种完全端到端的文字识别模型,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注,并且CTC直接输出序列预测的概率,不需要外部的后处理。
LSTM(Long Short-Term Memory):长短期记忆网络,是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。
RNN(Recurrent Neural Network):循环神经网络,是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。
形近字:字形结构相近的字,例如己、已、巳三个字属于形近字。
鲁棒性:为Robust的音译,表示一个系统或组织有抵御或克服不利条件的能力,在计算机领域“鲁棒性”所表达的内涵是相似的,即该系统或算法能够适应应用环境,如数据中的噪声、不同的应用领域等等。
在本申请中,提供了一种文字识别模型的训练方法。本申请同时涉及一种文字识别模型的训练装置、一种文字识别方法,一种文字识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种文字识别模型的训练方法的流程图,具体包括以下步骤:
步骤S102,获取样本数据,并确定所述样本数据中的形近字。
具体的,所述样本数据具体是指用于训练能够对形近字进行识别的文字识别模型的正样本数据;需要说明的是,所述样本数据可以是图片形式、图像形式或文字形式,本实施例在此不作任何限定。在所述样本数据为图片形式时,该图片中将包含文字,且该文字撰写正确。相应的,所述形近字具体是指所述样本数据中包含的字形存在相近的文字,如千和干,未和末,由和田等,这些文字都可能在识别时识别错误。
实际应用中,不同的语种中都可能存在形近字,如汉语中的千和干,英语中的O和Q,韩语中的
Figure BDA0003310623600000061
Figure BDA0003310623600000062
等可能在被识别时识别错误,从而影响当前场景下的业务正常进行,为了能够提高文字识别能力,本申请提供文字识别模型的训练方法,通过结合两种不同的损失函数的方式提高模型对文字及形近字的识别能力,从而提高模型对形近字识别的鲁棒性,以保证能够精准的对任意文字都进行精准的识别,保证业务正常进行。
基于此,在获取到所述样本数据之后,考虑到后续能够训练出满足识别需求的文字识别模型,需要确定样本数据中的形近字,之后从形近字出发扩展样本数据,提高样本数据量的同时,保证训练后得到的文字识别模型不会过拟合,因此,为了能够精准的对所述样本数据中的形近字进行确定,可以按照预设的字典进行确定,本实施例中,具体实现方式如步骤S1022至步骤S1024:
步骤S1022,提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元。
具体的,所述文本信息具体是指所述样本数据中包含的字单元组成的文本段落或语句,相应的,所述字单元即为组成所述文本信息的文字,该文字可以是汉语中的文字、英语中的字母、韩语中的韩字、科学符号、数学符号等。
基于此,在获取到所述样本数据之后,此时可以从所述样本数据中提取其包含的文本信息,之后对所述文本信息进行预处理获得所述多个字单元,其中,预处理是指在获得所述文本信息之后,对所述文本信息先进行符号删除,获得初始文本信息,之后对所述初始文本信息分词处理,获得多个词单元,最后依次对每个词单元进行字单元的拆分,从而根据拆分结果获得所述多个单元。
步骤S1024,将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。
具体的,在得到所述多个字单元的基础上,进一步的,即可根据所述字单元查询预设的字典,从而根据查询结果从所述多个字单元中确定所述形近字;其中,所述预设的字典具体是指存储大量文字的集合,并且在该字典中,文字中的形近字将分为同一组,不具有形近字的字单元也将单独分为一组。也就是说,在该字典中,具有形近字的字单元均会与其对应的形近字分为一组,如果某一个字单元不具有形近字,则该字单元将单独会分为一组,即预设的字典将由多个组组合而成。在此基础上,如果多个字单元中的某个字单元所属的组里边包含两个或两个以上的文字,则说明该字单元属于形近字;如果某个字单元所属的组里边仅包含一个文字,则说明该字单元不是形近字,则临时舍弃即可。
需要说明的是,字典中由形近字组成的分组可以根据实际应用场景设定,如按照字单元数量分组,实现该分组由相似程度较高的且设定数量的字单元组成;例如字单元包括甲,田,申,由,曱,电…,若每个分组限制包含4个字单元,则可以选择字单元中相似程度较高的甲,田,申,由组成一个分组,剩余的字单元再结合其他相似的字单元组成另一个分组,其中,每个分组中的字单元可以设置为重叠或不重叠。
或者,按照笔画重叠数量分组,实现该分组由笔画重叠数量满足阈值的字单元组成;例如,字单元包括人,八,入,从,个,亼…,笔画重叠阈值为80%,通过计算笔画重叠度,确定人,八,入满足阈值,则将这三个字组成一个形近字分组即可,剩余的字单元再通过计算笔画重叠数量的方式重新分组。
实际应用中,在构建由形近字分组组成的字典时,该字典中形近字分组的建立可以根据实际应用场景选择合适的方式完成,除上述提供的可实现方案外,还可以采用其他方式实现,本实施例在此不作任何限定。
此外,在将字单元与字典中包含的字单元进行匹配时,若某一个字单元对应到字典中多个形近字分组时,为了提高后续处理效率,可以在多个形近字分组中选择一个目标形近字分组用于后续处理,选择方式可以按照该分组中每个字单元与文本中的字单元相似度的平均值完成;或者将多个形近字分组进行整合,将整合后的形近字分组作为文本中字单元对应的目标形近字分组,以用于后续处理;具体实施时,可以根据实际应用场景设定,本实施例在此不作任何限定。
进一步的,在确定所述形近字的过程中,考虑到字典中包含的文字数量较多,如果采用遍历字典的方式将会消耗较多的时间,因此为了能够提高确定形近字的效率,可以从字符特征出发实现,本实施例中,具体实现方式如下所述:
获取各个字单元分别对应的字符特征;
基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;
将所述目标字符特征对应的字单元作为所述形近字。
具体的,所述字符特征具体是指相近的文字所具有的共同特征,如汉字的偏旁部首,或者笔画数量等;相应的,所述字单元集合具体是指包含两个或两个以上的字单元组成的集合,且集合中包含的字单元均为形近字;相应的,所述目标字符特征具体是指所述字单元集合对应的字符特征,通过该字符特征能够确定包含形近字的集合。
基于此,在获得多个字单元之后,可以提取每个字单元分别对应的字符特征,之后从字符特征出发查询所述预设的字典,以根据查询结果确定存在字单元集合的目标字符特征,即将各个字符特征与字典中包含的字典字符特征进行比对,从而确定各个字符特征映射的字典字符特征,之后再从映射的字典字符特征中选择对应字单元集合的字符特征筛选出来,将这部分字符特征作为所述目标字符特征,也就是说,这部分字符特征对应的字单元集合是包含样本数据中的字单元对应的形近字集合,从这个集合中可以确定样本数据中的形近字,最后将目标字符特征对应的字单元集合中与样本数据中存在的字单元相同的文字作为所述形近字,以用于后续进行文本识别模型的训练。
举例说明,参见图2所示的样本数据的示意图,提取样本数据中包含的文本信息{我爱祖国;成功非偶然};对文本信息进行分词-分字处理,获得多个字单元{我、爱、祖、国}和{成、功、非、偶、然},之后提取各个字单元对应的字符特征,确定“我”对应的字符特征为“戈”;“爱”对应的字符特征为“爫”;“祖”对应的字符特征为“礻”;“国”对应的字符特征为“囗”;“成”对应的字符特征为“戈”;“功”对应的字符特征为“力”;“非”对应的字符特征为“非”;“偶”对应的字符特征为“亻”;“然”对应的字符特征为“灬”;
进一步的,根据各个字单元对应的字符特征查询预设的字典,根据查询结果确定字符特征“爫”对应的字单元集合中包含2个字单元{爱、受},确定字符特征“非”对应的字单元集合中包含3个字单元{非、韭、匪},而剩余的字符特征所对应的字单元集合仅包含1个字符特征,则此时说明字单元“爱”和“非”是形近字,则将“爱”和“非”作为形近字用关于后续的数据准备处理,以方便训练出满足需求的模型。
综上,通过查询字符特征的方式节省逐字分析的时间,从而提高确定形近字的效率,有效的节省了后续创建样本的时间,从而实现在较短的时间内完成对模型的训练。
此外,由于不同的语言涉及到的字的数量可能过于庞大,并且不同的语言涉及到的字的表达形式不同,因此在数据准备阶段,可以针对不同的语言按照不同的表达形式创建不同的字典,从而方便后续进行模型的训练处理,本实施例中,所述预设的字典通过如下方式创建:
获取初始形近字,并提取所述初始形近字对应的形近字特征;
基于所述形近字特征对所述初始形近字进行聚类处理,根据聚类处理结果获得至少一个字单元集合;
基于所述至少一个字单元集合创建所述预设的字典。
具体的,所述初始形近字具体是指常用的文字,所述初始形近字的数量可以根据实际需求进行设定,本实施例在此不作任何限定。相应的,所述形近字特征具体是指各个初始形近字所对应的字符特征,如汉字的偏旁部首;对所述初始形近字进行聚类处理具体是指将具有相同形近字特征的字单元聚合在一起,从而生成字单元集合,用于构建所述预设的字典。
基于此,为了能够保证在数据准备阶段可以准备充足能够对模型进行训练的样本,可以预先构建字典,以保证后续训练模型时可以结合正负样本完成,避免模型过拟合的问题。进一步的,在获得大量的初始形近字之后,可以提取所述初始形近字对应的形近字特征,之后利用所述形近字特征对大量的所述初始形近字进行聚类处理,从而根据聚类处理结果获得至少一个字单元集合,之后再基于所述至少一个字单元集合即可构建出所述预设的字典。
举例说明,获取初始形近字{你、妳、尔……全、金、仝},此时提取各个初始形近字分别对应的形近字特征,确定“你”对应的形近字特征为“尔”;“妳”对应的形近字特征为“尔”;“尔”对应的形近字特征为“尔”……“全”对应的形近字特征为“人”;“金”对应的形近字特征为“人”;“仝”对应的形近字特征为“人”;此时按照形近字特征“尔”……“人”对全部初始形近字进行聚类处理,根据处理结果获得字单元集合{你、妳、尔}……{全、金、仝},之后将字单元集合进行整合,并将各个字单元集合对应的形近字特征作为集合对应的字符特征,即可创建出预设的字典,以用于后续模型训练时使用。
需要说明的时,为了能够保证后续对模型进行优化和更新,所述预设的字典可以根据需求进行扩增或更新,以吸纳更多的形近字,或者吸纳更多语言所对应的形近字,从而提高字典的丰富程度,方便针对不同语言所对应的文字识别模型进行训练,从而提高覆盖度。
步骤S104,在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据。
具体的,在上述确定样本数据中的形近字的基础上,进一步的,为了能够训练出性能更好的文字识别模型,以及避免模型过拟合导致识别不准确的问题,可以在预设的字典中提取所述形近字对应的替换形近字,之后基于替换形近字对样本数据进行更新,以获得所述负样本数据。其中,所述替换形近字具体是指与所述形近字相近的文字,如形近字为“干”,则替换形近字可以是“千”;或者形近字为“O”,则替换形近字可以是“Q”;再或者形近字为
Figure BDA0003310623600000091
则替换形近字可以是
Figure BDA0003310623600000092
相应的,所述负样本数据具体是指利用替换形近字对样本数据中的形近字进行替换后所构建出的样本数据,用于训练模型时可以提高模型对形近字的识别能力,即模型识别形近字时,可以使得利用正负样本训练的模型偏离错误识别结果,接近正确识别结果,从而保证模型的识别能力。
基于此,在从预设的字典中提取形近字对应的替换形近字的过程中,由于字典中包含大量的字单元,因此可以通过确定字单元集合的方式从所述字典中提取所述替换形近字,本实施例中,具体实现方式如下所述:
在所述预设的字典中确定所述形近字对应的字单元集合;
将所述字单元集合中包含的各个字单元作为所述替换形近字。
具体的,在确定所述形近字之后,可以在预设的字典中确定所述形近字对应的字单元集合,即确定包含形近字的字单元集合,之后选择字单元集合中除所述形近字外的其他字单元作为所述替换形近字,用于后续进行负样本数据的构建。
沿用上例,当确定样本数据对应的形近字“爱”和“非”之后,通过查询字典确定“爱”对应的字单元集合为{爱、受},“非”对应的字单元集合为{非、韭、匪},则此时可以选择“受”作为形近字“爱”对应的替换形近字,选择“韭”和“匪”作为形近字“非”对应的替换形近字,以用于后续进行负样本数据的构建,以完成对模型的训练。
此外,由于形近字对应的字单元集合中可能包含大量的字单元,即与形近字相近的字单元过多,如果全部都最为替换形近字的话,可能会导致负样本数据爆炸增长的问题,不利于模型的训练,因此可以根据需求选择设定数量的字单元作为所述形近字对应的所述替换形近字,以用于后续构建所述负样本数据,选择数量可以根据需求设定,如2个、3个或者5个等,本实施例在此不作任何限定。相应的,选择方式可以按照计算相似度的方式选择排序靠前的设定数量的字单元作为所述形近字。
综上,通过选择字典中与形近字对应的字单元集合中的其他字单元作为所述替换形近字,能够保证后续构建出的负样本数据的真实性,以及与样本数据的贴合程度,从而提高文字识别模型对形近字的识别能力。
更进一步的,在获得所述替换形近字之后,即可通过所述替换形近字完成对样本数据的更新,以获得所述负样本数据,而在此过程中,考虑到负样本数据的构建需要通过所述替换形近字变更所述形近字,因此可以先确定替换位置之后再进行负样本数据的构建,本实施例中,具体实现方式如下所述:
提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;
基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;
基于所述目标文本信息生成所述负样本数据。
具体的,所述替换位置具体是指所述形近字在所述文本信息中所处的位置,该位置可以是形近字在所述文本信息中的排列字单元顺序,也可以是形近字距离文本信息中的首位置字单元的距离;相应的,所述目标文本信息具体是指将所述文本信息中的形近字更换为所述替换形近字之后得到的文本信息。
基于此,首先提取所述样本数据中包含的文本信息,之后确定所述形近字在所述文本信息中的所述替换位置,其次利用所述替换形近字对所述替换位置的所述形近字进行替换,根据替换结果即可获得所述包含替换形近字的目标文本信息,最后基于所述目标文本信息即可生成所述负样本数据。
实际应用中,在基于所述目标文本信息生成所述负样本数据的过程中,由于样本数据可能是图片或文字形式,为了避免生成的负样本数据与所述样本数据的表达形式不一致,可以在构建所述负样本数据的过程中,保留所述样本数据的属性信息,即仅对所述样本数据中的所述形近字进行更改,而样本数据的其他内容并不会发生改变,如样本数据的大小,像素值或灰度等,从而降低构建的负样本数据对模型训练过程造成的影响,提高训练后的模型的预测精准度。
沿用上例,确定形近字“爱”在文本信息{我爱祖国}中的替换位置是第二个字符位置,确定“非”在文本信息{成功非偶然}中的替换位置是第三个字符位置,此时选择替换形近字“受”对文本信息{我爱祖国}中的第二个字符位置的“爱”进行替换,获得目标文本信息{我受祖国};同时选择替换形近字“韭”和“匪”对文本信息{成功非偶然}中的第三个字符位置的“非”进行替换,获得目标文本信息{成功韭偶然}和{成功匪偶然},最后再根据{我受祖国}、{成功韭偶然}和{成功匪偶然}即可构建出负样本数据,负样本数据如图3所示,以用于后续进行模型训练。
综上,通过对样本数据中的形近字替换为所述替换形近字,可以保证构建出的负样本数据与所述样本数据更加贴合,避免后续训练的文字识别模型过拟合的问题,从而提高模型的识别能力。
步骤S106,基于所述负样本数据和所述样本数据对初始文字识别模型进行训练。
具体的,在上述基于替换形近字构建出所述负样本数据的基础上,进一步的,确定在数据准备阶段完成了对正样本数据(样本数据)和负样本数据的准备,此时即可结合所述样本数据和所述负样本数据对所述初始文字识别模型进行训练,以训练出满足需求的文字识别模型。
其中,所述初始文字识别模型具体是指未被训练的且能够对图片中的文字进行识别的模型,本申请提供的文字识别模型的架构可以是CRNN(CNN+RNN(LSTM))+(CTCLoss+CenterLoss)。其中,CRNN表示卷积循环神经网络,CNN表示卷积层,RNN表示循环层,LSTM表示长短期记忆网络,CTCLoss+CenterLoss表示强化特征之间差异的损失函数,用于提高文字识别模型的预测能力。基于此,在该架构的识别模型中,CRNN(CNN+RNN(LSTM))表示CRNN卷积循环神经网络可以使用CNN卷积层加上RNN循环层组合而成,或者使用CNN卷积层加上LSTM长短期记忆网络组合而成,实际应用中,可以根据需求进行选择;相应的,(CTCLoss+CenterLoss)表示文字识别模型的损失函数将结合CTCLoss损失函数和CenterLoss损失函数组成,也就是说,在模型训练过程中,不仅需要结合损失函数CTCLoss进行模型的优化,还需要结合损失函数CenterLoss联合实现模型的优化,从而保证文字识别模型可以具有更好的识别效果。
基于此,CRNN(CNN+RNN(LSTM))+(CTCLoss+CenterLoss),即表明文字识别模型是采用CNN+RNN或CNN+LSTM组成的CRNN卷积循环神经网络组成,且采用CTCLoss+CenterLoss的损失函数完成优化,有效的提高了文字识别模型的预测精准度。
进一步的,在基于所述样本数据和所述负样本数据对所述初始文字识别模型进行训练的过程中,为了能够提高对形近字的识别能力,可以结合卷积模块和解码模块实现对特征进行处理,本实施例中,具体实现方式如下所述:
基于所述样本数据和所述负样本数据构建样本特征;
将所述样本特征输入至所述初始文字识别模型,通过所述初始文字识别模型中的卷积模块确定所述样本特征对应的卷积特征;
将所述卷积特征输入至所述初始文字识别模型中的解码模块进行处理,获得解码特征;
将所述解码特征输入至所述初始文字识别模型中的输出模块进行处理,获得所述初始文字识别模型输出的文字识别结果。
具体的,所述样本特征具体是指样本数据和所述负样本数据经过预处理后得到的向量表达,所述卷积特征具体是指经过所述初始文字识别模型中的卷积模块对样本特征进行卷积处理后得到的表达,所述解码特征即为所述初始文字识别模型中的解码模块对所述卷积特征进行处理后得到的表达。
基于此,在得到所述样本数据和所述负样本数据之后,为了能够保证后续可以结合正负样本数据对所述初始文字识别模型进行训练,此时可以对所述样本数据和所述负样本数据进行图像大小的调整,以获得(Height,Width,Channel)形式的表达,即样本特征为(H,W,C),之后将样本特征输入至所述初始文字识别模型,通过所述初始文字识别模型中的卷积模块对样本特征进行处理即可得到所述卷积特征,即使用MobileNetv3作为Backbone(主干网络)进行图像特征提取,通过MobileNetv3作为所述初始文字识别模型的卷积模块,用于提取图像特征的卷积层特征图,根据处理结果将大小为(H,W,C)的图像转换为(H1,W1,C1)大小的卷积特征,即卷积特征矩阵,用于表征特征图。
进一步的,在得到所述卷积特征之后,即可将其输入至所述初始文字识别模型中的解码模块对其进行处理,即将所述卷积特征(H1,W1,C1)输入至所述初始文字识别模型中的LSTM进行解码处理,根据处理结果即可得到所述解码特征,最后将解码特征通过所述初始文字识别模型中的所述输出模块进行处理,即可获得所述初始文字识别模型输出的文字识别结果,即所述初始文字识别模型对样本数据和付样本数据中的字单元进行识别的结果。
综上所述,通过结合样本数据和负样本数据的方式对所述初始文字识别模型进行训练,可以有效的保证训练后得到的模型的识别能力,同时通过结合卷积模块和所述解码模块可以有效的提高对形近字的识别能力。
步骤S108,通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
具体的,在上述通过所述样本数据和所述负样本数据对所述初始文字识别模型进行训练的基础上,进一步的,由于模型的训练过程需要不断的对模型进行调参,才能够提高模型的识别能力,因此在对所述初始文字识别模型进行优化的过程中,为了能够提高模型对形近字的识别能力,本申请将结合两种不同的损失函数对训练后的所述初始文字识别模型进行优化,以获得满足需求的目标文字识别模型。即在通过两种不同的损失函数对训练后的初始文字识别模型进行训练的过程中,实则是通过两种不同的损失函数对模型从不同的维度进行约束,以提高模型在不同维度的能力,从而通过相互制衡的方式提高模型的识别能力,以及对形近字进行识别的能力。
基于此,所述第一损失函数可以采用CTCloss,所述第二损失函数可以采用CenterLoss,以通过CTCLoss+CenterLoss结合的方式提高模型对形近字的识别能力。
其中,CTCloss的训练过程,实则是联合初始文字识别模型中的CNN和RMM进行端到端的联合训练,以达到提高文字识别精准度的目的。具体的,在训练初始文字识别模型的过程中,可以根据概率分布向量和相应的文本标签得到损失函数,从而训练文本识别模型;参见图4所示的示意图,当需要对a和b进行识别,在该识别场景中,有两个时间分别为t0和t1,以及三个可能的字符,分别为a,b和-,通过计算每个字符分别对应的两个概率分布情况,采取最大概率路径解码的方法,计算得到“-”的概率最大,即真实字符为空的概率是0.6*0.6=0.36;但是为字符“a”的情况将有多种多起组合,如aa,a-,-a都可以代表a,所以输出a的概率应该是三种情况的之和,即0.4*0.4+0.4*0.6+0.6*0.4=0.64,所以a的概率要比-的概率高,如果标签文本为a,则通过计算图像中a的所有可能的对齐组合的分数之和来计算损失函数。
因此,对于文本识别模型中的RNN给定输入概率分布矩阵为y={y1,y2,…,yT},T是序列长度,最后映射为标签文本g的总概率为:
Figure BDA0003310623600000141
Figure BDA0003310623600000142
其中B(π)代表从序列到序列的映射函数B变换后是文本g的所有路径集合,而π则是其中的一条路径。每条路径的概率为各个时间步中对应字符的分数的乘积。基于此,以此训练模型使得这个概率值最大化,类似于普通的分类,CTC的损失函数的定义为概率的负最大似然函数,为了方便计算,对似然函数取对数,通过对损失函数的计算,就可以对之前的模型进行反向传播,模型的参数可以根据所使用的优化器进行更新,从而找到最可能的像素区域对应的字符。以达到通过映射变换和所有可能路径概率之和的方式使得CTC不需要对原始输入符序列进行准确的切分,即可完成对各个字符的识别。
进一步的,CenterLoss实则是能够将同类之间的表征更加接近,不同类之间的表征更加偏离。如有1,2,3,4,5五张图片,其中1,2,3是一类,4,5是一类,通过CenterLoss可以使得1,2,3靠近mean(1,2,3),4,5靠近mean(4,5),这样就使得类内距离尽可能的接近,从而弥补CTCloss的缺失。即CenterLoss的实现是通过先随机产生所有类别的向量,然后将这些随机的向量与该类别真正的向量求欧式距离,求得的欧氏距离便作为Centerloss,通过反向传播自动调整这些初始为随机的向量。
基于此,在通过CenterLoss对文字识别模型进行优化的过程中,可以采用如下公式(1)实现:
Figure BDA0003310623600000143
其中,Lc为损失值,xi为特征向量,cyi为每个类别的类别中心,m表示输入的大小,其目的是减小类内差距,即使属于相同的类距离越靠近该类的类别中心,该差距越小越好。从而将形近字的特征进行区别;也就是说,通过CenterLoss对文字识别模型进行优化,可以使得模型的输入中每个样本特征,距离该样本特征的中心距离越近,即特征之间的类内距离,从而提高文字识别模型的预测能力。其中,c的初始化为0,每次反向传播时可以通过如下公式(2)更新:
Figure BDA0003310623600000144
其中,yi表示输入特征的类别,cj表示预先记录的类别;j表示类别数量;因为cyi的更新公式中,当yi和cj的类别j不一样的情况下,说明cj是不需要更新的,只有当yi和j一样才需要更新。因此通过连接CenterLoss+CTCloss的方式,可以对汉字识别的同时,对形近字进行区分,以提高汉字识别场景下的识别精准度,从而避免识别失误带来的误差问题。
基于此,当通过联合两种损失的方式对文字识别模型进行训练后,当训练次数达到设定的次数,或者损失值满足预设损失值阈值的情况下,即可完成对文字识别模型的训练,以获得目标文字识别模型,用于后续的文字识别处理。
更进一步的,通过结合第一损失函数和第二损失函数对初始文字识别模型进行训练的过程中,为了能够联合两个维度的调参方式同时对模型进行优化,可以同时通过两种损失函数计算损失值,之后结合两个损失值同时对模型进行优化,以避免分别调参无法保证模型精准的问题,本实施例中,具体实现方式如下所述:
基于所述第一损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第一损失值,以及
基于所述第二损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第二损失值;
根据所述第一损失值和所述第二损失值对所述初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
具体的,所述第一损失值具体是指通过第一损失函数计算获得的损失值,所述第二损失函数具体是指通过第二损失函数计算获得的损失值,所述目标文字识别模型具体是指满足训练停止条件获得的文字识别模型,所述训练停止条件具体是指停止对初始文字识别模型进行训练的条件,所述训练停止条件包括但不限于训练次数,损失值的比对等。
基于此,当通过所述样本数据和所述负样本数据完成对所述初始文字识别模型的训练之后,此时可以通过所述第一损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第一损失值,同时考虑到两种损失函数对模型进行优化过程中的影响,还将通过所述第二损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第二损失值,最后通过结合第一损失值和所述第二损失值的方式对所述初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型即可。
综上,通过联合两种不同的损失函数对所述文字识别模型进行优化,可以有效的提高模型在不同维度的性能,以提高模型对形近字进行识别的能力,从而降低识别失误率。
本申请提供的文字识别模型的训练方法,在获取到样本数据之后,将确定所述样本数据中的形近字,之后在预设的字典中提取形近字对应的替换形近字,并根据替换形近字对样本数据进行更新,获得负样本数据,以实现后续可以结合负样本和正样本同时对模型进行训练,从而降低过拟合造成的模型识别不精准的问题发生。之后基于所述负样本数据和所述样本数据对初始文字识别模型进行训练的过程中,考虑到能够准确的对各种类型的文字都能够精准的进行识别,将采用两种不同的损失函数结合对初始文字识别模型进行优化,从而提高模型的识别能力,以获得满足识别需求的目标文字识别模型,实现提高对形近字识别的能力。
与上述方法实施例相对应,本申请还提供了文字识别模型的训练装置实施例,图5示出了本申请一实施例提供的一种文字识别模型的训练装置的结构示意图。如图5所示,该装置包括:
获取样本模块502,被配置为获取样本数据,并确定所述样本数据中的形近字;
更新样本模块504,被配置为在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
训练模型模块506,被配置为基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
优化模型模块508,被配置为通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
一个可选的实施例中,所述获取样本模块502进一步被配置为:
提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元;将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。
一个可选的实施例中,所述获取样本模块502进一步被配置为:
获取各个字单元分别对应的字符特征;基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;将所述目标字符特征对应的字单元作为所述形近字。
一个可选的实施例中,所述更新样本模块504进一步被配置为:
在所述预设的字典中确定所述形近字对应的字单元集合;将所述字单元集合中包含的各个字单元作为所述替换形近字。
一个可选的实施例中,所述更新样本模块504进一步被配置为:
提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;基于所述目标文本信息生成所述负样本数据。
一个可选的实施例中,所述预设的字典通过如下方式创建:
获取初始形近字,并提取所述初始形近字对应的形近字特征;基于所述形近字特征对所述初始形近字进行聚类处理,根据聚类处理结果获得至少一个字单元集合;基于所述至少一个字单元集合创建所述预设的字典。
一个可选的实施例中,所述训练模型模块506进一步被配置为:
基于所述样本数据和所述负样本数据构建样本特征;将所述样本特征输入至所述初始文字识别模型,通过所述初始文字识别模型中的卷积模块确定所述样本特征对应的卷积特征;将所述卷积特征输入至所述初始文字识别模型中的解码模块进行处理,获得解码特征;将所述解码特征输入至所述初始文字识别模型中的输出模块进行处理,获得所述初始文字识别模型输出的文字识别结果。
一个可选的实施例中,所述优化模型模块508进一步被配置为:
基于所述第一损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第一损失值,以及基于所述第二损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第二损失值;根据所述第一损失值和所述第二损失值对所述初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
本实施例提供的文字识别模型的训练装置,在获取到样本数据之后,将确定所述样本数据中的形近字,之后在预设的字典中提取形近字对应的替换形近字,并根据替换形近字对样本数据进行更新,获得负样本数据,以实现后续可以结合负样本和正样本同时对模型进行训练,从而降低过拟合造成的模型识别不精准的问题发生。之后基于所述负样本数据和所述样本数据对初始文字识别模型进行训练的过程中,考虑到能够准确的对各种类型的文字都能够精准的进行识别,将采用两种不同的损失函数结合对初始文字识别模型进行优化,从而提高模型的识别能力,以获得满足识别需求的目标文字识别模型,实现提高对形近字识别的能力。
上述为本实施例的一种文字识别模型的训练装置的示意性方案。需要说明的是,该文字识别模型的训练装置的技术方案与上述的文字识别模型的训练方法的技术方案属于同一构思,文字识别模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述文字识别模型的训练方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图6示出了根据本申请一实施例提供的一种文字识别方法的流程图,具体包括以下步骤:
步骤S602,获取文字图片。
步骤S604,对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征。
步骤S606,将所述图片特征输入至如上文字识别模型的训练方法中的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
需要说明的是,本实施例提供的文字识别方法所采用的目标文字识别模型是通过上述文字识别模型的训练方法训练后获得的模型,具体训练过程可参见上述实施例相应的描述内容,本实施例在此不作过多赘述。
具体实施时,再通过所述目标文字识别模型进行文字识别的过程中,实则是基于所述文字图片构建图片特征,之后将其输入至所述目标文字识别模型中的卷积模块进行处理,根据处理结果获得所述卷积特征,之后再利用所述目标文字识别模型中的解码模块对所述卷积特征进行处理,即可获得所述解码特征,最后通过所述目标文字识别模型的输出模块对所述解码特征进行转换,即可获得所述目标文字。
具体的,当获取到所述文字图片之后,此时可以对所述图像的大小进行调整,以获得(Height,Width,Channel)形式的表达,即样本数据的图像大小为(32,100,3),之后使用MobileNetv3作为Backbone进行图像特征提取,即通过MobileNetv3作为文字识别模型的卷积层,用于提取图像的卷积层特征图,根据处理结果将大小为(32,100,3)的图像转换为(1,25,512)大小的卷积特征矩阵,用于表征特征图。进一步的,再得到卷积特征矩阵后,即可将其输入至文字识别模型中的LSTM进行解码处理,以得到文字图片中包含的目标文字。
综上,通过采用上述文字识别模型的训练方法训练获得的文字识别模型,对所述文字图片中的文字进行识别,可以有效的提高形近字识别场景下的文字识别能力,从而提高识别精准度,避免因为识别不精准的问题带来的损失。
与上述文字识别方法实施例相对应,本申请还提供了文字识别装置实施例,图7示出了本申请一实施例提供的一种文字识别装置的结构示意图。如图7所示,该装置包括:
获取图片模块702,被配置为获取文字图片;
处理图片模块704,被配置为对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征;
模型处理模块706,被配置为将所述图片特征输入至如上文字识别模型的训练方法中的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
上述为本实施例的一种文字识别装置的示意性方案。需要说明的是,该文字识别装置的技术方案与上述的文字识别方法的技术方案属于同一构思,文字识别装置的技术方案未详细描述的细节内容,均可以参见上述文字识别方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
下述结合附图8,以本申请提供的文字识别方法在签字场景中的应用为例,对所述文字识别方法进行进一步说明。其中,图8示出了本申请一实施例提供的一种应用于签字场景中的文字识别方法的处理流程图,具体包括以下步骤:
步骤S802,获取包含形近字的样本数据。
实际应用中,由于汉字相比于其他类型的文字复杂,且汉字中存在大量的形近字,致使针对汉字进行识别的错误率大大增加,很大程度上会影响上游业务的正常进行。如在签字识别场景中,当用户通过手写在账单上签下自己的名字后,如果用户的名字中存在形近字,就会出现在后续进行账单存根时,将用户的名字识别错误,如用户签字的内容为“张未”,在进行识别时,可能会将用户的名字识别为“张末”或“张来”,很大程度上会影响存根的账单的准确性。
有鉴于此,为了能够提高对汉字中的形近字识别的精准度,本实施例提供一种联合CTCLoss和CenterLoss进行模型训练的方法,以通过CenterLoss提高同一类的类内距离,加大不同类的类间距离,同时在数据准备阶段通过制造负样本的方式提高训练的模型的精准度,实现对形近字进行精准的识别。
基于此,获取包含形近字的样本数据如下所述“我有一千元钱”和“申奥成功”。
步骤S804,遍历样本数据,确定样本数据中的形近字。
具体的,在得到如上所述的样本数据后,可以对样本数据中的形近字进行识别,根据识别结果确定“我有一千元钱”中“千”为形近字,“申奥成功”中“申”为形近字。
步骤S806,确定与样本数据中的形近字对应的形近字分组,并从形近字分组中提取替换形近字。
具体的,在识别出样本数据中的形近字“千”和“申”之后,可以确定形近字“千”对应的第一形近字分组,以及“申”对应的第二形近字分组;其中,第一形近字分组中包括{千,干,于},第二形近字分组中包括{由,甲,申}。
进一步的,为了能够提高训练出的文字识别模型的精准度,此时可以基于形近字选择替换形近字,用于创建负样本,避免模型过拟合的问题时,提高模型识别精准度;基于此,从第一形近字分组中确定“千”对应的替换形近字为“干”和“于”,从第二形近字分组中确定“申”对应的替换形近字为“由”和“甲”。
步骤S808,基于替换形近字对样本数据进行更新,获得负样本数据。
具体的,在得到“千”对应的替换形近字“干”和“于”,以及“申”对应的替换形近字“由”和“甲”后,此时可以基于替换形近字“干”和“于”对样本数据“我有一千元钱”进行更新,获得负样本数据{我有一干元钱;我有一于元钱};同时基于替换形近字“由”和“甲”对样本数据“申奥成功”进行更新,获得负样本数据{由奥成功;甲奥成功},以用于后续进行模型的训练。
步骤S810,基于样本数据和负样本数据对文字识别模型进行训练,直至获得满足训练停止条件的目标文字识别模型。
具体的,在得到样本数据后,此时对样本数据的图像大小进行调整,获得(Height,Width,Channel)形式的表达,即样本数据的图像大小为(32,100,3),之后使用MobileNetv3作为Backbone进行图像特征提取,即通过MobileNetv3作为文字识别模型的卷积层,用于提取图像的卷积层特征图,根据处理结果将大小为(32,100,3)的图像转换为(1,25,512)大小的卷积特征矩阵,用于表征特征图。进一步的,再得到卷积特征矩阵后,即可将其输入至文字识别模型中的LSTM进行解码处理,以得到在当前训练阶段文字识别模型的预测结果。
更进一步的,在得到预测结果后,可以基于预测结果和样本数据对应的标签对模型进行调参,以获得满足训练停止条件的目标文字识别模型。而在调参的过程中,考虑到形近字相近程度比较高,而为了能够训练出对形近字识别精准度较高的文字识别模型,本实施例采用CTCLoss+CenterLoss结合的方式对模型进行更新训练,以达到训练出能够对形近字进行精准识别的目标文字识别模型。
基于此,当通过联合两种损失的方式对文字识别模型进行训练后,当训练次数达到设定的次数,或者损失值满足预设损失值阈值的情况下,即可完成对文字识别模型的训练,以获得目标文字识别模型,用于后续的文字识别处理。
步骤S812,接收用户上传的签字图片,并对签字图片进行标准化处理,获得图片特征。
具体的,在接收到用户上传的签字“张未”的情况下,为了能够使用目标文字识别模型进行处理,此时可以对包含签字的图片进行标准化处理,以得到满足模型输入的图片特征,其中标准化处理可以是对签字图片进行缩放,剪切等处理。
步骤S814,将图片特征输入至目标文字识别模型进行处理,获得目标识别模型输出的汉字。
具体的,在获得包含签字图片的图片特征后,将其输入至已经训练好的文字识别模型进行文字识别,根据模型识别结果获得汉字“张未”,以方便后续对包含“张未”的账单进行存根,同时通过采用上述方式训练好的文字识别模型,可以有效的降低识别形近字失误的概率。
综上所述,在对模型训练的过程中,通过有针对性的增加形近字负样本,可以有效的提升模型的泛化性,尤其是对易错场景下的汉字识别,能够更加精准;同时通过使用两种损失联合训练模型,有效的提升了形近字识别的精准度,从而保证对任意汉字识别的准确性。
图9示出了根据本申请一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行文字识别模型的训练方法或文字识别方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文字识别模型的训练方法或文字识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文字识别模型的训练方法或文字识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于文字识别模型的训练方法或文字识别方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文字识别模型的训练方法或文字识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文字识别模型的训练方法或文字识别方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种文字识别模型的训练方法,其特征在于,包括:
获取样本数据,并确定所述样本数据中的形近字;
在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
2.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述确定所述样本数据中的形近字,包括:
提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元;
将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。
3.根据权利要求2所述的文字识别模型的训练方法,其特征在于,所述将各个字单元分别与预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字,包括:
获取各个字单元分别对应的字符特征;
基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;
将所述目标字符特征对应的字单元作为所述形近字。
4.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述在预设的字典中提取所述形近字对应的替换形近字,包括:
在所述预设的字典中确定所述形近字对应的字单元集合;
将所述字单元集合中包含的各个字单元作为所述替换形近字。
5.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述基于所述替换形近字对所述样本数据进行更新,获得负样本数据,包括:
提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;
基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;
基于所述目标文本信息生成所述负样本数据。
6.根据权利要求1至5任意一项所述的文字识别模型的训练方法,其特征在于,所述预设的字典通过如下方式创建:
获取初始形近字,并提取所述初始形近字对应的形近字特征;
基于所述形近字特征对所述初始形近字进行聚类处理,根据聚类处理结果获得至少一个字单元集合;
基于所述至少一个字单元集合创建所述预设的字典。
7.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述基于所述负样本数据和所述样本数据对初始文字识别模型进行训练,包括:
基于所述样本数据和所述负样本数据构建样本特征;
将所述样本特征输入至所述初始文字识别模型,通过所述初始文字识别模型中的卷积模块确定所述样本特征对应的卷积特征;
将所述卷积特征输入至所述初始文字识别模型中的解码模块进行处理,获得解码特征;
将所述解码特征输入至所述初始文字识别模型中的输出模块进行处理,获得所述初始文字识别模型输出的文字识别结果。
8.根据权利要求7所述的文字识别模型的训练方法,其特征在于,所述通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型,包括:
基于所述第一损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第一损失值,以及
基于所述第二损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第二损失值;
根据所述第一损失值和所述第二损失值对所述初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
9.一种文字识别模型的训练装置,其特征在于,包括:
获取样本模块,被配置为获取样本数据,并确定所述样本数据中的形近字;
更新样本模块,被配置为在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
训练模型模块,被配置为基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
优化模型模块,被配置为通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
10.一种文字识别方法,其特征在于,包括:
获取文字图片;
对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征;
将所述图片特征输入至权利要求1至8任意一项所述的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
11.一种文字识别装置,其特征在于,包括:
获取图片模块,被配置为获取文字图片;
处理图片模块,被配置为对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征;
模型处理模块,被配置为将所述图片特征输入至权利要求1至8任意一项所述的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
12.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至8或10任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至8或10任意一项所述方法的步骤。
CN202111215914.6A 2021-07-13 2021-10-19 文字识别模型的训练方法及装置 Pending CN113947773A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110789840 2021-07-13
CN2021107898400 2021-07-13

Publications (1)

Publication Number Publication Date
CN113947773A true CN113947773A (zh) 2022-01-18

Family

ID=79331685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111215914.6A Pending CN113947773A (zh) 2021-07-13 2021-10-19 文字识别模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN113947773A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863434A (zh) * 2022-04-21 2022-08-05 北京百度网讯科技有限公司 文字分割模型的获取方法、文字分割方法及其装置
CN116597453A (zh) * 2023-05-16 2023-08-15 暗物智能科技(广州)有限公司 一种形近字单字识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863434A (zh) * 2022-04-21 2022-08-05 北京百度网讯科技有限公司 文字分割模型的获取方法、文字分割方法及其装置
CN116597453A (zh) * 2023-05-16 2023-08-15 暗物智能科技(广州)有限公司 一种形近字单字识别方法

Similar Documents

Publication Publication Date Title
Zhang et al. Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition
CN111275038A (zh) 图像文本识别方法、装置、计算机设备及计算机存储介质
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN110363194A (zh) 基于nlp的智能阅卷方法、装置、设备及存储介质
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN112016553B (zh) 光学字符识别(ocr)系统、自动ocr更正系统、方法
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN113313022A (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN113947773A (zh) 文字识别模型的训练方法及装置
CN112883980B (zh) 一种数据处理方法及系统
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN115620312A (zh) 跨模态字符笔迹验证方法、系统、设备及存储介质
CN114818718A (zh) 合同文本识别方法及装置
Nikitha et al. Handwritten text recognition using deep learning
CN114120342A (zh) 简历文档识别方法、装置、计算设备及存储介质
Antony et al. Haar features based handwritten character recognition system for Tulu script
Zhou et al. A robust approach to text line grouping in online handwritten Japanese documents
CN115640401B (zh) 文本内容提取方法及装置
Al Ghamdi A novel approach to printed Arabic optical character recognition
CN116311276A (zh) 文档图像矫正方法、装置、电子设备及可读介质
CN115512340A (zh) 基于图片的意图检测方法及装置
CN113221718A (zh) 公式识别方法、装置、存储介质和电子设备
CN112287723A (zh) 基于深度学习的活体检测方法、装置及存储介质
Shah et al. SnapSolve—A novel mathematics equation solver using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination