CN110555441A

CN110555441A - 一种文字识别方法及装置

Info

Publication number: CN110555441A
Application number: CN201910854971.5A
Authority: CN
Inventors: 沈惠芬
Original assignee: Hangzhou Orange Eagle Data Technology Co Ltd
Current assignee: Hangzhou Orange Eagle Data Technology Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-12-10

Abstract

本说明书提供一种文字识别方法及装置，其中所述方法包括：获取待识别图像中的至少一个目标字符图像，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果；判断所述第一中文字符是否属于形似字或者所述第一中文字符对应的权重分值是否小于预设的得分阈值；在所述第一中文字符属于形似字或者所述第一中文字符对应的权重分值小于预设的得分阈值的情况下，将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果；根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果。

Description

一种文字识别方法及装置

技术领域

本说明书涉及计算机技术领域，特别涉及一种文字识别方法、装置、计算设备及计算机可读存储介质。

背景技术

光学字符识别(OCR)在图像文字识别领域有广泛的应用，例如名片识别，菜单识别、快递单识别、身份证识别、营业证识别、银行卡识别、车牌识别、路标识别、商品包装袋识别、会议白板识别、试卷识别以及单据识别等等。现有的光学字符识别方案一般通过深度学习技术实现，通过在大量数据上训练得到神经网络模型，但由于中文字符数量大且存在很多形似字，使得训练样本不均衡，导致中文识别的准确率和可靠性无法满足要求，同时，现有的光学字符识别方案对单个中文字符、生僻字以及具有形似字的中文字符的识别效果差。

发明内容

有鉴于此，本说明书实施例提供了一种文字识别方法、装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文字识别方法，包括：

获取待识别图像中的至少一个目标字符图像，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果，所述第一识别结果包括所述目标字符图像对应的第一中文字符以及所述第一中文字符对应的权重分值；

判断所述第一中文字符是否属于形似字或者所述第一中文字符对应的权重分值是否小于预设的得分阈值；

在所述第一中文字符属于形似字或者所述第一中文字符对应的权重分值小于预设的得分阈值的情况下，将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果；

根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果。

可选的，所述判断所述第一中文字符是否属于形似字包括：

调用预设的形似字列表，将所述第一中文字符与所述形似字列表中的形似字进行对比，确定所述第一中文字符是否属于形似字。

可选的，将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果包括：

对所述目标字符图像进行文字检测，判断所述目标字符图像是否包括偏旁区域和部首区域；

在所述目标字符图像包括偏旁区域和部首区域的情况下，通过二次文字识别模型分别对所述偏旁区域和部首区域进行文字识别，得到所述偏旁区域和部首区域对应的偏旁识别结果和部首识别结果；

根据所述偏旁识别结果和部首识别结果得到所述目标字符图像的第二识别结果；

在所述目标字符图像未包括偏旁区域和部首区域的情况下，通过二次文字识别模型对所述目标字符图像进行识别，得到所述目标字符图像对应的第二识别结果；

其中，所述第二识别结果包括所述目标字符图像对应的第二中文字符以及所述第二中文字符的权重分值。

可选的，根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果包括：

判断所述第二中文字符的权重分值是否大于等于所述第一中文字符的权重分值；

若是，则将所述第二中文字符作为所述目标字符图像对应的文字识别结果；

若否，则将所述第一中文字符作为所述目标字符图像对应的文字识别结果。

可选的，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果包括：

通过中文识别模型对所述目标字符图像进行文字检测，确定所述目标字符图像中的中文字符的所在位置；

通过中文识别模型对所述目标字符图像进行文字识别，得到所述目标字符图像中的中文字符的字符信息；

根据所述目标字符图像中的中文字符的字符信息形成所述目标字符图像的第一识别结果。

可选的，获取待识别图像中的至少一个目标字符图像包括：

获取待识别图像并对所述待识别图像进行图像预处理；

确定所述待识别图像中包含有中文字符的至少一个目标字符区域；

对每个所述目标字符区域进行切割得到含有中文字符的至少一个目标字符图像。

根据本说明书实施例的第二方面，提供了一种二次文字识别模型训练方法，包括：

获取训练样本集合，其中，所述训练样本集合包括多个样本对，每个所述样本对包括样本字符图像以及对应的训练标签，所述训练标签包括所述样本字符图像对应的基本中文字符；

通过所述训练样本集合对二次文字识别模型进行训练，得到所述二次文字识别模型，所述二次文字识别模型使得所述样本字符图像与所述训练标签相关联。

可选的，通过所述训练样本集合对二次文字识别模型进行训练包括：

在所述样本字符图像包括样本偏旁区域和样本部首区域的情况下，对所述样本字符图像进行切割，得到所述样本字符图像对应的样本偏旁区域和样本部首区域；

根据所述样本偏旁区域和样本部首区域确定所述样本字符图像对应的基本中文字符。

根据本说明书实施例的第三方面，提供了一种文字识别装置，包括：

第一识别模块，被配置为获取待识别图像中的至少一个目标字符图像，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果，所述第一识别结果包括所述目标字符图像对应的第一中文字符以及所述第一中文字符对应的权重分值；

判断模块，被配置为判断所述第一中文字符是否属于形似字或者所述第一中文字符对应的权重分值是否小于预设的得分阈值；

第二识别模块，被配置为在所述第一中文字符属于形似字或者所述第一中文字符对应的权重分值小于预设的得分阈值的情况下，将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果；

识别输出模块，被配置为根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果。

根据本说明书实施例的第四方面，提供了一种二次文字识别模型训练装置，包括：

样本获取模块，被配置为获取训练样本集合，其中，所述训练样本集合包括多个样本对，每个所述样本对包括样本字符图像以及对应的训练标签，所述训练标签包括所述样本字符图像对应的基本中文字符；

模型训练模块，被配置为通过所述训练样本集合对二次文字识别模型进行训练，得到所述二次文字识别模型，所述二次文字识别模型使得所述样本字符图像与所述训练标签相关联。

根据本说明书实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述文字识别方法或二次文字识别模型训练方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述文字识别方法或二次文字识别模型训练方法的步骤。

本说明书实施例中，通过预设的二次文字识别模型，对第一次识别结果为形似字或权重分值小于得分阈值的生僻字对应的目标字符图像进行二次文字识别，并根据两次识别的结果选择置信度较高的中文字符作为文字识别结果，增强了形似字和生僻字的过滤效果，提高了文字识别的准确性和可靠性，同时，通过将含有单体中文字符的目标字符图像作为二次文字识别模型的输入，可以规避单体中文字符在字符序列中的序列前后关系，对于字符序列中的头尾字符以及不存在上下文关系的单体字符具有优越的识别效果。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的文字识别方法的流程图；

图3是本申请另一实施例提供的文字识别方法的示意图；

图4是本申请另一实施例提供的文字识别方法的示意图；

图5是本申请另一实施例提供的文字识别方法的示意图；

图6是本申请另一实施例提供的文字识别方法的示意图；

图7是本申请实施例提供的二次文字识别模型训练方法的示意图；

图8是本申请实施例提供的文字识别装置的结构示意图；

图9是本申请实施例提供的二次文字识别模型训练装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

光学字符识别：OCR(Optical Character Recognition)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

自然语言处理：NLP(Natural Language Processing)是计算机科学，人工智能和语言学的交叉领域，目标是让计算机处理或“理解”自然语言，以执行语言翻译和问题回答等任务。

卷积神经网络：CNN(ConvolutionalNeural Network)是一类包含卷积计算且具有深度结构的前馈神经网络，用于从输入图像中提取序列特征表示。

循环神经网络：RNN(RecurrentNeuralNetwork)是一种人工神经网络，它通过节点之间的连接构成了一个有向图，用于展示序列数据的动态行为。

双向长短期记忆网络：BiLSTM(Bi-directional Long Short-Term Memory)是由前向LSTM与后向LSTM组合而成的时间递归神经网络，它是RNN的一种，由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。

卷积循环神经网络：CRNN(Convolutional RecurrentNeuralNetwork)用于解决基于图像的序列识别问题，特别是场景文字识别问题。

基于神经网络的时序类分类：CTC(Connectionist temporal classification)是序列标注问题中的一种损失函数，主要用于处理序列标注问题中的输入与输出标签的对齐问题。

在本申请中，提供了一种文字识别方法、装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的文字识别方法的示意性流程图，包括步骤201至步骤205。

步骤201：获取待识别图像中的至少一个目标字符图像，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果，所述第一识别结果包括所述目标字符图像对应的第一中文字符以及所述第一中文字符对应的权重分值。

在本申请实施例中，系统接收通过手机、摄像机等设备采集到的含有中文字符的待识别图像作为输入，经过图像预处理和文字切分获取所述待识别图像中的至少一个含有单个中文字符的目标字符图像，然后将含有单个中文字符的所述目标字符图像输入至预先训练好的中文识别模型中进行文本处理，得到所述目标字符图像中的字符信息，即所述第一识别结果，所述第一识别结果包括所述目标字符图像经所述中文识别模型识别出的第一中文字符以及所述第一中文字符的“得分”即所述第一中文字符对应的权重分值。

步骤202：判断所述第一中文字符是否属于形似字或者所述第一中文字符对应的权重分值是否小于预设的得分阈值。若是，则执行步骤203，若否则执行步骤205。

在本申请实施例中，系统通过预设的规则判断所述第一中文字符是否属于形似字或者所述第一中文字符对应的权重分值是否小于预设的得分阈值，例如，在所述目标字符图像中包含的真实中文字符“版”，所述目标字符图像经所述中文识别模型识别出的第一中文字符“板”，则系统通过预设的规则判断所述第一中文字符“板”是否属于形近字或其权重分值是否小于得分阈值，所述得分阈值用于衡量所述第一识别结果的准确度，可以根据实际应用领域进行调整，例如所述得分阈值可以是0.8、0.7或0.6。

步骤203：将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果。

在本申请实施例中，系统中存储有经过预先训练生成的二次文字识别模型，在系统通过预设的规则判断所述第一中文字符是属于形似字或者所述第一中文字符对应的“得分”小于预设的得分阈值的情况下，系统将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果。

步骤204：根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果。

在本申请实施例中，系统对合第一识别结果和第二识别结果进行选择，最终确定所述目标字符图像的文字识别结果。

步骤205：根据所述第一识别结果确定所述目标字符图像对应的文字识别结果。

在本申请实施例中，在系统通过预设的规则判断所述第一中文字符不属于形似字或者所述第一中文字符对应的“得分”大于等于预设的得分阈值的情况下，则系统认为所述目标字符图像经所述中文识别模型识别出的第一识别结果是准确且可靠的，从而系统直接根据所述第一识别结果确定所述目标字符图像对应的文字识别结果，即将所述第一中文字符确定为所述目标字符图像的文字识别结果。

系统重复上述步骤，直至获取到每一个所述目标字符图像对应的文字识别结果，然后根据至少一个所述目标字符图像的顺序将每个所述目标字符图像对应的文字识别结果进行排序，得到从所述待识别图像中识别出的中文字符序列作为最终的文字识别结果。

在本申请的一个实施例中，所述判断所述第一中文字符是否属于形似字包括：

本申请通过预设的二次文字识别模型，对第一次识别结果为形似字或权重分值小于得分阈值的生僻字对应的目标字符图像进行二次文字识别，并根据两次识别的结果选择置信度较高的中文字符作为文字识别结果，增强了形似字和生僻字的过滤效果，提高了文字识别的准确性和可靠性，同时，通过将含有单体中文字符的目标字符图像作为二次文字识别模型的输入，可以规避单体中文字符在字符序列中的序列前后关系，对于所述字符序列中的头尾字符以及不存在上下文关系的单体字符具有优越的识别效果。

中文字符对应的目标字符图像进行二次的文字识别。

在本申请的另一个实施例中，如图3所示，将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果包括步骤301至步骤304：

步骤301：对所述目标字符图像进行文字检测，判断所述目标字符图像是否包括偏旁区域和部首区域。若是，则执行步骤302；若否，则执行步骤304。

在本申请实施例中，所述二次文字识别模型对所述目标字符图像进行文字检测，判断所述目标字符图像是否可以拆分为偏旁区域和部首区域，例如，如果在所述目标字符图像中包含的真实中文字符“版”，且所述真实中文字符“版”可以拆分为作为偏旁的中文字符“片”和作为部首的中文字符“反”，则所述二次文字识别模型可以将包含有真实中文字符“版”的目标字符图像拆分为包含有中文字符“片”的偏旁区域以及包含有中文字符“反”的部首区域；同时，如果在所述目标字符图像中包含的真实中文字符“千”和“方”等，则真实中文字符“千”和“方”等只能作为单独的中文字符字符存在。

步骤302：通过二次文字识别模型分别对所述偏旁区域和部首区域进行文字识别，得到所述偏旁区域和部首区域对应的偏旁识别结果和部首识别结果。

在本申请实施例中，所述二次文字识别模型分别对所述偏旁区域和部首区域进行文字识别，得到所述偏旁区域和部首区域对应的偏旁识别结果和部首识别结果，例如，如果在所述目标字符图像中包含的真实中文字符“版”，则所述二次文字识别模型可以其拆分为包含有中文字符“片”的偏旁区域以及包含有中文字符“反”的部首区域分别进行识别，得到所述偏旁区域的结果识别结果即中文字符“片”和所述部首区域的部首识别结果即中文字符“反”。

步骤303：根据所述偏旁识别结果和部首识别结果得到所述目标字符图像的第二识别结果，所述第二识别结果包括所述目标字符图像对应的第二中文字符以及所述第二中文字符的权重分值。

在本申请实施例中，所述二次文字识别模型根据所述偏旁识别结果和部首识别结果得到所述目标字符图像的第二识别结果，例如，所述二次文字识别模将所述偏旁识别结果即中文字符“片”与所述部首区域的部首识别结果即中文字符“反”进行组合，得到所述目标字符图像的第二识别结果，第二识别结果包括所述即中文字符“版”以及所述中文字符“版”对应的权重分值。

步骤304：通过二次文字识别模型对所述目标字符图像进行识别，得到所述目标字符图像对应的第二识别结果，所述第二识别结果包括所述目标字符图像对应的第二中文字符以及所述第二中文字符的权重分值。

在本申请实施例中，在所述目标字符图像中包含的真实中文字符不可拆分的独立中文字符的情况下，例如真实中文字符可以是“山”、“王”和“木”等等，则所述二次文字识别模型将所述目标字符图像中包含的真实中文字符作为独立的字符进行字符识别，得到所述目标字符图像对应的第二识别结果，所述第二识别结果包括所述目标字符图像对应的第二中文字符以及所述第二中文字符的权重分值。

本申请通过在对所述目标字符图像进行二次识别的过程中，判断包含有形似字或生僻字的所述目标字符图像是否包括偏旁区域和部首区域，将包含有复合中文字符的目标字符图像拆分为偏旁区域和部首区域分别作为单体字符进行二次识别，从而提高了模型对于形似字的识别准确性，同时，通过对包含有生僻字的所述目标字符图像进行单独的二次识别，实现了对形似字和生僻字的针对性处理。

在本申请的另一个实施例中，如图4所示，根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果包括步骤401至步骤403：

步骤401：判断所述第二中文字符的权重分值是否大于等于所述第一中文字符的权重分值。若是，则执行步骤402；若否，则执行步骤403。

在本申请实施例中，系统判断所述第二中文字符的权重分值与所述第一中文字符的权重分值的大小，例如，在所述目标字符图像中包含的真实中文字符“版”，所述目标字符图像经过所述中文识别模型得到第一识别结果的第一中文字符“板”，且所述第一中文字符“板”的权重分值为0.5；同时，所述目标字符图像经过所述二次文字识别模型得到第二识别结果的第二中文字符“版”，且所述第二中文字符“版”的权重分值为0.8，或者，所述目标字符图像经过所述二次文字识别模型得到第二识别结果的第二中文字符“扳”，且所述第二中文字符“扳”的权重分值为0.4。

步骤402：将所述第二中文字符作为所述目标字符图像对应的文字识别结果。

在本申请实施例中，在所述第二中文字符的权重分值大于等于所述第一中文字符的权重分值的情况下，系统将所述第二中文字符作为所述目标字符图像对应的文字识别结果，例如，在所述目标字符图像中包含的真实中文字符“版”，所述目标字符图像经过所述中文识别模型得到第一识别结果的第一中文字符“板”，且所述第一中文字符“板”的权重分值为0.5；所述目标字符图像经过所述二次文字识别模型得到第二识别结果的第二中文字符“版”，且所述第二中文字符“版”的权重分值为0.8，则系统会将所述第二中文字符“版”作为所述目标字符图像对应的文字识别结果。

步骤403：将所述第一中文字符作为所述目标字符图像对应的文字识别结果。

在本申请实施例中，在所述第二中文字符的权重分值小于所述第一中文字符的权重分值的情况下，系统将所述第一中文字符作为所述目标字符图像对应的文字识别结果，例如，在所述目标字符图像中包含的真实中文字符“版”，所述目标字符图像经过所述中文识别模型得到第一识别结果的第一中文字符“板”，且所述第一中文字符“板”的权重分值为0.5；所述目标字符图像经过所述二次文字识别模型得到第二识别结果的第二中文字符“扳”，且所述第二中文字符“扳”的权重分值为0.4，则系统会将所述第一中文字符“板”作为所述目标字符图像对应的文字识别结果。

本申请根据两次识别结果对应的权重分值对识别结果进行选择，得到所述目标字符图像对应的文字识别结果，增加了本申请的文字识别方法的科学性和可靠性。

在本申请的另一个实施例中，如图5所示，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果包括步骤501至步骤503：

步骤501：通过中文识别模型对所述目标字符图像进行文字检测，确定所述目标字符图像中的中文字符的所在位置。

在本申请实施例中，所述中文识别模型通过文字检测算法，对所述目标字符图像中包含的中文字符进行准确定位，其中，所述文字检测算法可以是CTPN(ConnectionistText Proposal Network)算法和EAST(Efficient andAccurate Scene Text Detector)算法，所述CTPN算法结合CNN与LSTM深度网络能够有效的检测出复杂场景的横向分布的文字，所述EAST算法采用全卷积神经网络结构能够高效准确的进行场景文本检测。

步骤502：通过中文识别模型对所述目标字符图像进行文字识别，得到所述目标字符图像中的中文字符的字符信息。

在本申请实施例中，所述中文识别模型通过CRNN+CTC框架对所述目标字符图像进行文字识别，得到所述目标字符图像中的中文字符的字符信息，所述字符信息包括预测出的中文字符以及该中文字符对应的置信度概率。

步骤503：根据所述目标字符图像中的中文字符的字符信息形成所述目标字符图像的第一识别结果。

本申请通过CTPN算法和CRNN框架对所述目标字符图像进行文字检测和文字识别，通过CTC算法实现字符对齐，实现了对所述目标字符图像中的中文字符的精准定位和识别。

在本申请的另一个实施例中，如图6所示，获取待识别图像中的至少一个目标字符图像包括步骤601至步骤603：

步骤601：获取待识别图像并对所述待识别图像进行图像预处理。

在本申请实施例中，系统通过对所述待识别图像进行灰度化、二值化以及降噪等处理，将待识别图像中的颜色、背景和噪声等影响文字识别的因素进行处理。

步骤602：确定所述待识别图像中包含有中文字符的至少一个目标字符区域。

在本申请实施例中，系统通过倾斜矫正算法将待识别图像进行膨胀处理，将断续的中文文字连成直线，然后通过行列切分算法得到中文字符序列的直方图，通过直方图中的峰值确定所述中文字符序列的所在区域即至少一个目标字符区域。

步骤603：对每个所述目标字符区域进行切割得到含有中文字符的至少一个目标字符图像。

其中，处理器120可以执行图7所示方法中的步骤。图7是示出了根据本申请一实施例的二次文字识别模型训练方法的示意性流程图，包括步骤701至步骤702。

步骤701：获取训练样本集合，其中，所述训练样本集合包括多个样本对，每个所述样本对包括样本字符图像以及对应的训练标签，所述训练标签包括所述样本字符图像对应的基本中文字符。

在本申请实施例中，每个所述训练标签包括在所述形似字列表中存在的形似字对应的基本中文字符，包括可拆分的形似字例如“版”、“板”和“扳”对应的基本中文字符“片”、“木”、“扌”以及“反”等等，以及不可才分的形似字对应的基本中文字符例如“干”、“千”和“于”等。

步骤702：通过所述训练样本集合对二次文字识别模型进行训练，得到所述二次文字识别模型，所述二次文字识别模型使得所述样本字符图像与所述训练标签相关联。

在本申请的另一个实施例中，通过所述训练样本集合对二次文字识别模型进行训练包括：

S7021：在所述样本字符图像包括样本偏旁区域和样本部首区域的情况下，对所述样本字符图像进行切割，得到所述样本字符图像对应的样本偏旁区域和样本部首区域。

S7022：根据所述样本偏旁区域和样本部首区域确定所述样本字符图像对应的基本中文字符。

本申请通过将包含有形似字和生僻字的样本字符图像作为样本，以形似字的基本中文字符和生僻字对应的中文字符作为标签，有监督训练出针对形似字和生僻字进行识别的二次文字识别模型，增强了形似字和生僻字的过滤效果和识别准确率。此外，通过将合适的样本字符图拆分为样本偏旁区域和样本部首区域进行独立识别，对于缺少上下文关系的单体文字具有较好的识别效果。

与上述方法实施例相对应，本说明书还提供了一种文字识别装置实施例，图8示出了本说明书一个实施例的文字识别装置的结构示意图。如图8所示，该装置包括：

第一识别模块801，被配置为获取待识别图像中的至少一个目标字符图像，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果，所述第一识别结果包括所述目标字符图像对应的第一中文字符以及所述第一中文字符对应的权重分值；

判断模块802，被配置为判断所述第一中文字符是否属于形似字或者所述第一中文字符对应的权重分值是否小于预设的得分阈值；

第二识别模块803，被配置为在所述第一中文字符属于形似字或者所述第一中文字符对应的权重分值小于预设的得分阈值的情况下，将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果；

识别输出模块804，被配置为根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果。

可选的，所述第二识别模块803包括：

形似字列表对比单元，被配置为调用预设的形似字列表，将所述第一中文字符与所述形似字列表中的形似字进行对比，确定所述第一中文字符属于形似字。

可选的，所述第二识别模块803包括：

字符拆分模块，被配置为对所述目标字符图像进行文字检测，判断所述目标字符图像是否包括偏旁区域和部首区域；若是，则执行偏旁识别模块；若否，则执行第二识别结果单元。

偏旁识别模块，被配置为通过二次文字识别模型分别对所述偏旁区域和部首区域进行文字识别，得到所述偏旁区域和部首区域对应的偏旁识别结果和部首识别结果；

第一识别结果单元，被配置为根据所述偏旁识别结果和部首识别结果得到所述目标字符图像的第二识别结果，所述第二识别结果包括所述目标字符图像对应的中文字符以及所述中文字符的权重分值；

第二识别结果单元，被配置为通过二次文字识别模型对所述目标字符图像进行识别，得到所述目标字符图像对应的第二识别结果，所述第二识别结果包括所述目标字符图像对应的第二中文字符以及所述第二中文字符的权重分值。

可选的，识别输出模块804包括：

分值判断单元，被配置为判断所述第二中文字符的权重分值是否大于等于所述第一中文字符的权重分值；若是，则执行第一结果执行单元；若否，则执行第二结果执行单元。

第一结果执行单元，被配置为将所述第二中文字符作为所述目标字符图像对应的文字识别结果；

第二结果执行单元，被配置为将所述第一中文字符作为所述目标字符图像对应的文字识别结果。

可选的，所述第一识别模块801包括：

文字检测单元，被配置为通过中文识别模型对所述目标字符图像进行文字检测，确定所述目标字符图像中的中文字符的所在位置；

文字识别单元，被配置为通过中文识别模型对所述目标字符图像进行文字识别，得到所述目标字符图像中的中文字符的字符信息；

识别结果输出单元，被配置为根据所述目标字符图像中的中文字符的字符信息形成所述目标字符图像的第一识别结果。

可选的，所述第一识别模块801包括：

图像预处理单元，被配置为获取待识别图像并对所述待识别图像进行图像预处理；

第一切割单元，被配置为确定所述待识别图像中包含有中文字符的至少一个目标字符区域；

第二切割单元，被配置为对每个所述目标字符区域进行切割得到含有中文字符的至少一个目标字符图像。

本申请通过预设的二次文字识别模型，对第一次识别结果为形似字或权重分值小于得分阈值的生僻字对应的目标字符图像进行二次文字识别，并根据两次识别的结果选择置信度较高的中文字符作为文字识别结果，增强了形似字和生僻字的过滤效果，提高了文字识别的准确性和可靠性，同时，通过将含有单体中文字符的目标字符图像作为二次文字识别模型的输入，可以规避单体中文字符在字符序列中的序列前后关系，对于字符序列中的头尾字符以及不存在上下文关系的单体字符具有优越的识别效果。

与上述方法实施例相对应，本说明书还提供了一种二次文字识别模型训练装置实施例，图9示出了本说明书一个实施例的文字识别装置的结构示意图。

如图9所示，该装置包括：

样本获取模块901，被配置为获取训练样本集合，其中，所述训练样本集合包括多个样本对，每个所述样本对包括样本字符图像以及对应的训练标签，所述训练标签包括所述样本字符图像对应的基本中文字符；

模型训练模块902，被配置为通过所述训练样本集合对二次文字识别模型进行训练，得到所述二次文字识别模型，所述二次文字识别模型使得所述样本字符图像与所述训练标签相关联。

可选的，模型训练模块902包括：

样本拆分单元，被配置为在所述样本字符图像包括样本偏旁区域和样本部首区域的情况下，对所述样本字符图像进行切割，得到所述样本字符图像对应的样本偏旁区域和样本部首区域；

标签确定单元，被配置为根据所述样本偏旁区域和样本部首区域确定所述样本字符图像对应的基本中文字符。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述文字识别方法或二次文字识别模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该计算机可读存储介质的技术方案与上述的文字识别方法的技术方案属于同一构思，计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述文字识别方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文字识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述判断所述第一中文字符是否属于形似字包括：

3.根据权利要求1所述的方法，其特征在于，将所述目标字符图像输入至二次文字识别模型中进行二次识别，得到所述目标字符图像的第二识别结果包括：

4.根据权利要求3所述的方法，其特征在于，根据所述第一识别结果和第二识别结果确定所述目标字符图像对应的文字识别结果包括：

5.根据权利要求1所述的方法，其特征在于，将所述目标字符图像输入至中文识别模型中进行一次识别，得到所述目标字符图像的第一识别结果包括：

6.根据权利要求1所述的方法，其特征在于，获取待识别图像中的至少一个目标字符图像包括：

获取待识别图像并对所述待识别图像进行图像预处理；

7.一种二次文字识别模型训练方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，通过所述训练样本集合对二次文字识别模型进行训练包括：

9.一种文字识别装置，其特征在于，包括：

10.一种二次文字识别模型训练装置，其特征在于，包括：

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6或者7-8任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6或者7-8任意一项所述方法的步骤。