CN114495108A

CN114495108A - 字符检测方法、装置、电子设备及可读介质

Info

Publication number: CN114495108A
Application number: CN202111645474.8A
Authority: CN
Inventors: 赵松; 杨怀宇
Original assignee: Nanjing Thunder Software Technology Co ltd
Current assignee: Nanjing Thunder Software Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-13

Abstract

本发明实施例提供了一种字符检测方法、装置、电子设备及可读介质，方法包括：获取包含待检测的字符的图像，将图像输入特征提取模型，得到图像的图像特征，将图像的图像特征输入字符定位模型，得到字符的定位框和定位框的图像特征，对定位框的图像特征进行重建处理，得到重建的定位框的图像特征，获取重建的定位框的图像特征与定位框的图像特征的重建误差值，所述重建误差值用于确定将字符是否为异常字符。应用本发明实施例，可以确定出垂直、水平、倾斜和弧形等文本中的单个字符的定位框，然后再检测定位框中的单个字符是否为异常字符，从而实现对垂直、水平、倾斜和弧形等文本中的字符进行检测，适用各种文本检测的复杂场景。

Description

字符检测方法、装置、电子设备及可读介质

技术领域

本发明涉及字符检测技术领域，特别是涉及一种字符检测方法、一种字符检测装置、一种电子设备以及一种计算机可读介质。

背景技术

对于印刷字符，往往存在字符印刷异常或错误的情况发生，因此需要对印刷的字符进行检测，识别出各种印刷异常或错误的字符，以提高印刷品的印刷质量。

目前，通常会采用各种模型对印刷字符进行检测，如深度学习模型、神经网络模型等等；但是这些模型是对整行或整段文本进行检测，仅适用于特定场景下印刷字符的检测，例如检测垂直或水平文本中的字符，然而对于弧形文本或倾斜等文本中字符的检测的效果并不好，导致无法准确地检测出印刷异常或错误的字符。

发明内容

本发明实施例是提供一种字符检测方法、装置、电子设备以及计算机可读存储介质，以解决对于不是特定场景下的印刷字符，无法准确检测的问题。

本发明实施例公开了一种字符检测方法，包括：

获取包含待检测的字符的图像；

将所述图像输入特征提取模型，得到所述图像的图像特征；其中，所述特征提取模块依据标准的图像数据集和包含无印刷异常的字符的正样本图像数据集训练得到；

将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征；其中，所述字符定位模型依据定位框标注的正样本图像数据集和所述正样本图像数据集训练得到；

对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征；

获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，所述重建误差值用于确定所述字符是否为异常字符。

可选地，所述特征提取模型包括MobileNet网络和特征金字塔网络，所述将所述图像输入特征提取模型，得到所述图像的图像特征，包括：

将所述图像输入所述MobileNet网络，得到所述图像的多层图像特征；

通过所述特征金字塔网络对所述多层图像特征进行特征融合，得到所述图像的图像特征。

可选地，所述字符定位模型包括区域生成网络、分类网络和回归预测网络，所述将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征，包括：

将所述图像的图像特征输入所述区域生成网络，得到候选框；

通过所述分类网络确定出包含字符的所述候选框；

通过所述回归预测网络对所述包含字符的所述候选框进行边框回归处理，得到所述字符的定位框，并提取所述定位框的图像特征。

可选地，所述通过所述回归预测网络对所述包含字符的所述候选框进行边框回归处理，得到所述字符的定位框，包括：

通过所述回归预测网络预测所述候选框中像素点的概率值；其中，所述概率值表征所述像素点为所述字符的概率；

基于所述候选框中像素点的概率值，确定出所述字符的定位框。

可选地，所述对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征，包括：

对所述定位框的图像特征进行全局池化处理，得到所述定位框的特征向量；

对所述定位框的特征向量进行归一化处理，得到归一化的特征向量；

通过自编码器对所述归一化的特征向量进行重建，得到重建的特征向量；

所述获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，所述重建误差值用于确定所述字符是否为异常字符，包括：

计算所述重建的特征向量与所述归一化的特征向量的重建误差值，所述重建误差值用于，在大于第一预设阈值时，确定所述字符为异常字符。

可选地，所述标准的图像数据集为ImageNet图像数据集，在所述将所述图像输入特征提取模型之前，还包括：

获取在所述ImageNet图像数据集上预先训练好的特征提取模型；

基于所述正样本图像数据集，调整所述预先训练好的特征提取模型，得到训练完成的特征提取模型。

可选地，在所述将所述图像的图像特征输入字符定位模型之前，还包括：

将所述定位框标注的正样本图像数据集中的第一定位框标注图像输入所述特征提取模型，得到所述第一定位框标注图像的图像特征；

采用所述第一定位框标注图像的图像特征，对待训练的字符定位模型进行训练；

当所述待训练的字符定位模型的全局函数损失值小于第二预设阈值时，得到初步训练的字符定位模型，将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；

将所述正样本图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的定位框；

基于所述字符的定位框对所述正样本图像进行定位框标注，得到第二定位框标注图像；

将所述第二定位框标注图像输入所述特征提取模型，得到所述第二定位框标注图像的图像特征；

采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，以使所述初步训练的字符定位模型的全局函数损失值小于第三预设阈值，得到训练完成的字符定位模型；其中，所述第三预设阈值小于所述第二预设阈值。

可选地，所述采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，包括：

将所述第二定位框标注图像的图像特征输入所述待训练的字符定位模型，得到所述字符的预测数量；

获取所述字符的实际数量和所述初步训练的字符定位模型的初始全局函数损失值；

根据所述字符的预测数量和实际数量，确定置信概率；所述置信概率用于衡量所述特征提取模型预测的准确性；

将所述初始全局函数损失值与所述置信概率相乘，得到所述初步训练的字符定位模型的全局函数损失值。

可选地，在所述通过自编码器对所述归一化的特征向量进行重建之前，还包括：

将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；

将所述正样本图像的图像特征输入所述字符定位模型，得到定位框的图像特征；

对定位框的图像特征进行全局池化处理，得到定位框的特征向量；

对特征向量进行归一化处理，得到归一化的特征向量；

采用归一化的特征向量，训练待训练的自编码器，得到训练完成的自编码器。

本发明实施例公开了一种字符检测装置，所述装置包括：

图像获取模块，用于获取包含待检测的字符的图像；

第一特征获取模块，用于将所述图像输入特征提取模型，得到所述图像的图像特征；其中，所述特征提取模块依据标准的图像数据集和包含无印刷异常的字符的正样本图像数据集训练得到；

第二特征提取模块，用于将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征；其中，所述字符定位模型依据定位框标注的正样本图像数据集和所述正样本图像数据集训练得到；

特征重建模块，用于对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征；

异常字符确定模块，用于获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，所述重建误差值用于确定所述字符是否为异常字符。

可选地，所述特征提取模型包括MobileNet网络和特征金字塔网络，所述第一特征获取模块，包括：

第一特征获取子模块，用于将所述图像输入所述MobileNet网络，得到所述图像的多层图像特征；

特征融合单元，用于通过所述特征金字塔网络对所述多层图像特征进行特征融合，得到所述图像的图像特征。

可选地，所述字符定位模型包括区域生成网络、分类网络和回归预测网络，所述第二特征获取模块，包括：

候选框获取子模块，用于将所述图像的图像特征输入所述区域生成网络，得到候选框；

候选框确定子模块，用于通过所述分类网络确定出包含字符的所述候选框；

定位框获取子模块，用于通过所述回归预测网络对所述包含字符的所述候选框进行边框回归处理，得到所述字符的定位框，并提取所述定位框的图像特征。

可选地，所述定位框获取子模块，包括：

概率预测单元，用于通过所述回归预测网络预测所述候选框中像素点的概率值；其中，所述概率值表征所述像素点为所述字符的概率；

定位框确定单元，用于基于所述候选框中像素点的概率值，确定出所述字符的定位框。

可选地，所述特征重建模块，包括：

特征池化处理子模块，用于对所述定位框的图像特征进行全局池化处理，得到所述定位框的特征向量；

特征归一化处理子模块，用于对所述定位框的特征向量进行归一化处理，得到归一化的特征向量；

特征重建子模块，用于通过自编码器对所述归一化的特征向量进行重建，得到重建的特征向量；

所述异常字符确定模块，包括：

异常字符确定子模块，用于计算所述重建的特征向量与所述归一化的特征向量的重建误差值，所述重建误差值用于，在大于第一预设阈值时，确定所述字符为异常字符。

可选地，所述标准的图像数据集为ImageNet图像数据集，所述装置还包括：

提取模型获取模块，用于获取在所述ImageNet图像数据集上预先训练好的所述特征提取模型；

提取模型调整模块，用于基于所述正样本图像数据集，调整所述预先训练好的特征提取模型，得到训练完成的特征提取模型。

可选地，所述装置还包括：

第二特征获取模块，用于将所述定位框标注的正样本图像数据集中的第一定位框标注图像输入所述特征提取模型，得到所述第一定位框标注图像的图像特征；

定位模型训练模块，用于采用所述第一定位框标注图像的图像特征，对待训练的字符定位模型进行训练；

第三特征获取模块，用于当所述待训练的字符定位模型的全局函数损失值小于第二预设阈值时，得到初步训练的字符定位模型，将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；

定位框获取模块，还用于将所述正样本图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的定位框；

图像标注模块，用于基于所述字符的定位框对所述正样本图像进行定位框标注，得到第二定位框标注图像；

第二特征获取模块，还用于将所述第二定位框标注图像输入所述特征提取模型，得到所述第二定位框标注图像的图像特征；

定位模型训练模块，还用于采用所述定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，以使所述初步训练的字符定位模型的全局函数损失值小于第三预设阈值，得到训练完成的字符定位模型；其中，所述第三预设阈值小于所述第二预设阈值。

可选地，所述定位模型训练子模块，包括：

字符预测数量获取单元，用于将所述第二定位框标注图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的预测数量；

字符实际数量获取单元，用于获取所述字符的实际数量和所述初步训练的字符定位模型的初始全局函数损失值；

置信概率确定单元，用于根据所述字符的预测数量和实际数量，确定置信概率；所述置信概率用于衡量所述特征提取模型预测的准确性；

全局函数损失值获取单元，用于将所述初始全局函数损失值与所述置信概率相乘，得到所述初步训练的字符定位模型的全局函数损失值。

可选地，所述装置还包括：

第二特征获取子模块，还用于将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；

第四特征获取子模块，用于将所述正样本图像的图像特征输入所述特征提取模型，得到定位框的图像特征；

特征池化处理子模块，还用于对定位框的图像特征进行全局池化处理，得到定位框的特征向量；

特征归一化处理子模块，还用于对特征向量进行归一化处理，得到归一化的特征向量；

自编码器训练子模块，用于采用归一化的特征向量，训练待训练的自编码器，得到训练完成的自编码器。

本发明实施例还公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如本发明实施例所述的方法。

本发明实施例还公开了一个或多个计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的方法。

本发明实施例包括以下优点：应用本发明实施例，先确定出单个字符的定位框，既可以确定出垂直、水平、倾斜和弧形的文本中的单个字符的定位框，然后再检测定位框中的单个字符是否为异常字符，从而实现对垂直、水平、倾斜和弧形等文本中的字符进行检测，适用各种文本检测的复杂场景。避免在弧形文本或倾斜文等本的场景下，无法准确检测出印刷异常或错误的字符的问题发生。

附图说明

图1是本发明实施例中提供的一种字符检测方法的步骤流程图；

图2是本发明实施例中提供的一种图像特征提取方法的步骤流程图；

图3是本发明实施例中提供的一种图像特征融合的结构示意图；

图4是本发明实施例中提供的一种定位框确定方法的步骤流程图；

图5是本发明实施例中提供的一种异常字符确定方法的步骤流程图；

图6是本发明实施例中提供的一种字符检测方法的模型框架示意图；

图7是本发明实施例中提供的一种字符检测装置的结构框图；

图8是本发明实施例中提供的一种电子设备的框图；

图9是本发明实施例中提供的一种计算机可读介质的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

对于印刷文本中字符的检测，存在以下需求：

1)能检测各种排列方式的字符位置：一般文字检测时，文字的版式并不固定，有垂直排列的文本有，有文本行倾斜的场景，有弧形文本，甚至有时候用的是倾斜字体。

2)各种场景下的文字印刷错误都能检测：文字印刷的样式各种各样，不同文字大小、字体样式、排版方式、背景下出现的印刷缺陷各不相同，模型能够检测各种场景的印刷错误。

3)减少文字位置检测的样本标注的需求：大部分的位置检测任务的需要大量的标记数据做训练，成本上耗费巨大。印刷品的外观会经常发生变化，如果每次印刷品外观发生变化就重新标注数据，一般公司很难承担如此大的投入。

因此，对于印刷文本质量的检测存在以下问题：1)文字的样式变化大，排版、字体、文字大小和背景经常变化。2)数据标注工作量大，每个字符都需要标注位置框，工作量很大。3)字符印刷缺陷样式太多，很难收集样本图片。4)中文检测且环境变化时，很难获得字符的模板。

基于此，本发明实施例公开了一种字符检测方法、装置、电子设备及可读介质，以解决上述存在的问题。

参照图1，示出了本发明实施例中提供的一种字符检测方法的步骤流程图，具体可以包括如下步骤：

步骤101：获取包含待检测的字符的图像。

其中，图像为包括印刷字符的图像；字符指文本中的单个汉字、数字、字母、符号等等。

具体地，获取包含待检测的字符的图像。

步骤102：将所述图像输入特征提取模型，得到所述图像的图像特征；其中，所述特征提取模块依据标准的图像数据集和包含无印刷异常的字符的正样本图像数据集训练得到。

其中，特征提取模型为通过标准的图像数据集和包含无印刷异常的字符的正样本图像数据集训练得到的模型；标准的图像数据集包含各种随机背景的图像，通过各种随机背景的图像对特征提取模型进行训练，可以让特征训练模型充分学习到不同背景图像的特征，以此准确提取出不同图像的图像特征。

具体地，在获取到待检测的图像之后，将待检测的图像输入已经训练完成的特征提取模型中，特征提取模型会提取图像的图像特征，并进行输出。

步骤103：将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征；其中，所述字符定位模型依据定位框标注的正样本图像数据集和所述正样本图像数据集训练得到。

其中，定位框为字符的最小外接矩形，通过字符定位模型预测得到。

具体地，在通过特征提取模型会提取图像的图像特征后，将图像的图像特征输入字符定位模型，字符定位模型可以确定出图像中字符的定位框，得到定位框的中心点的x、y坐标、宽度、长度和角度，从而可以定位到字符的准确位置，进而能够实现对垂直、水平、倾斜和弧度等文本中的字符进行检测。在确定字符的定位框之后，截取定位框中的图像特征，并进行输出。

另外，字符定位模型依据定位框标注的正样本图像数据集和正样本图像数据集训练得到，比如，可以先通过定位框标注的正样本图像数据集对字符定位模型进行训练，在字符定位模型具备一定能力后，通过字符定位模型对正样本图像数据集中的正样本图像进行字符框标注，然后通过字符框标注的正样本图像再对字符定位模型进行训练，可以降低字符框标注的成本。

步骤104：对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征。

具体地，在字符定位模型输出定位框的图像特征后，对定位框的图像特征进行重建处理，得到重建的定位框的图像特征。

步骤105：获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，所述重建误差值用于确定所述字符是否为异常字符。

其中，异常字符为印刷错误、存在印刷缺陷等字符。

具体地，在得到重建的定位框的图像特征后，获取重建的定位框的图像特征与定位框的图像特征的差值，作为重建误差值，然后，根据该重建误差值来确定该字符是否为异常字符。

本发明实施例中，先确定出单个字符的定位框，既可以确定出垂直、水平、倾斜和弧形的文本中的单个字符的定位框，然后再检测定位框中的单个字符是否为异常字符，从而实现对垂直、水平、倾斜和弧形等文本中的字符进行检测，适用各种文本检测的复杂场景。避免在弧形文本或倾斜文等本的场景下，无法准确检测出印刷异常或错误的字符的问题发生。

参照图2，示出了本发明实施例中提供的一种图像特征提取方法的步骤流程图，本发明实施例在图1所示的实施例的基础上主要描述了一种通过特征提取模型提取图像特征的实现方式，以及特征提取模型的训练方式。特征提取模型包括的MobileNet网络和特征金字塔网络，如图2所示，本实施例的方法可以包括：

步骤201：将所述图像输入所述MobileNet网络，得到所述图像的多层图像特征。

其中，特征提取模型以轻量的MobileNet作为主干网络(Backbone)，同时融入特征金字塔网络(FPN，feature pyramid networks)。

具体地，将图像输入MobileNet网络，MobileNet网络会从图像中提取不同深度的图像特征。

步骤202：通过所述特征金字塔网络对所述多层图像特征进行特征融合，得到所述图像的图像特征。

具体地，在MobileNet网络会从图像中提取不同深度的图像特征后，特征金字塔网络将提取的不同深度的图像特征按照一定的方式融合。参照图3，示出了本发明实施例中提供的一种图像特征融合的结构示意图，图中，左边的称为“自底向上”，右边的称为“自上而下”。自底向上的过程就是神经网络普通的正向传播过程，图像特征经过卷积核计算，通常会越变越小。自上而下的过程是把更抽象、语义更强的高层图像特征进行上采样，然后把该图像特征横向连接至前一层图像特征，因此，高层图像特征得到了增强，预测所用的图像特征都融合了不同分辨率、不同语义强度的图像特征，可以同时对大目标和小目标进行检测。

本发明实施例中，使用轻量的Mobilenet作为主干网络，降低了特征提取模型的内存占用，提升了模型的推理时间，使得模型能部署到只有CPU的设备上。能降低设备成本，同时保证推理精度和速度。

借助MobileNet网络提取图像的不同深度的图像特征，并且把浅层图像特征和深层图像特征融合，使得后续检测步骤能够对不同大小的字符进行检测，检测效果良好。

在本发明一实施例中，所述方法还包括训练特征提取模型，具体包括：获取在所述ImageNet图像数据集上预先训练好的所述特征提取模型；基于所述正样本图像数据集，调整所述预先训练好的特征提取模型，得到训练完成的特征提取模型。

其中，标准的图像数据集为ImageNet图像数据集。

具体地，获取在ImageNet图像数据集上预先训练好的MobileNet网络，然后再通过少量正样本图像数据集中的正样本图像对预先训练好的MobileNet网络进行调整(finetune)，然后得到训练完成的特征提取模型。

本发明实施例中，ImageNet图像数据集包含各种补图背景的图像，可以让MobileNet网络充分学习到不同背景图像的特征，以此准确提取出不同图片的图像特征。MobileNet网络使用深度可分类卷积和逐点卷积可降低计算量。

参照图4，示出了本发明实施例中提供的一种定位框确定方法的步骤流程图，本发明实施例在图1和/或图2所示的实施例的基础上主要描述了一种通过字符定位模型确定字符的定位框的实现方式，以及字符定位模型的训练方式。所述字符定位模型包括区域生成网络、分类网络和回归预测网络，如图4所示，本实施例的方法可以包括：

步骤401：将所述图像的图像特征输入所述区域生成网络，得到候选框。

其中，字符定位模型包括区域生成网络(RPN，Region Proposal Network)、分类网络(RPN class)和回归预测网络(RPN bbox)。

具体地，将图像的图像特征输入区域生成网络之后，区域生成网络会在图像特征上通过滑动窗口截取，得到若干候选框。

步骤402：通过所述分类网络确定出包含字符的所述候选框。

具体地，通过区域生成网络在图像特征上通过滑动窗口截取，得到若干候选框后，存在部分候选框包含字符(目标)，另一部分候选框仅包含背景不包含字符，因此，需要通过分类网络对候选框进行分类，确定出包含字符的候选框，以及不包含字符的候选框。

步骤403：通过所述回归预测网络对所述包含字符的所述候选框进行边框回归处理，得到所述字符的定位框，并提取所述定位框的图像特征。

在本发明一实施例中，所述步骤403，包括：通过所述回归预测网络预测所述候选框中像素点的概率值；其中，所述概率值表征所述像素点为所述字符的概率；基于所述候选框中像素点的概率值，确定出所述字符的定位框。

具体地，在通过分类网络确定出包含字符的候选框之后，对包含字符的候选框进行边框回归处理，通过回归预测网络预测候选框中像素点的概率值，基于候选框中像素点的概率值，可以从包含字符的候选框中预测出字符所在的定位框，从而准确的定位出字符的位置；在预测出字符所在的定位框之后，获取该定位框对应的图像特征。

另外，基于候选框中像素点的概率值，还可以预测出图像中字符的预测数量。

本发明实施例中，在通过区域生成网络在图像特征上通过滑动窗口截取，得到候选框后，对每个字符的候选框进行边框回归得到更精准的定位框，并确定定位框的中心点的x、y坐标、宽度、长度和角度，即可以确定出垂直、水平、倾斜和弧形等文本中的单个字符的定位框，然后再检测定位框中的单个字符是否为异常字符，从而实现对垂直、水平、倾斜和弧形等文本中的字符进行检测，适用各种文本检测的复杂场景。避免在弧形文本或倾斜文等本的场景下，无法准确检测出印刷异常或错误的字符的问题发生。

在本发明一实施例中，在所述将所述图像的图像特征输入字符定位模型之前，还包括：将所述定位框标注的正样本图像数据集中的第一定位框标注图像输入特征提取模型，得到所述第一定位框标注图像的图像特征；采用所述第一定位框标注图像的图像特征，对待训练的字符定位模型进行训练；当所述待训练的字符定位模型的全局函数损失值小于第二预设阈值时，得到初步训练的字符定位模型，将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；将所述正样本图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的定位框；基于所述字符的定位框对所述正样本图像进行定位框标注，得到第二定位框标注图像；将所述第二定位框标注图像输入特征提取模型，得到所述第二定位框标注图像的图像特征；采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，以使所述初步训练的字符定位模型的全局函数损失值小于第三预设阈值，得到训练完成的字符定位模型；其中，所述第三预设阈值小于所述第二预设阈值。

其中，第三预设阈值小于所述第二预设阈值。

第一定位框标注图像为采用人工或其他方式对字符进行定位框标注的图像，工作量很大，成本高；第二定位框标注图像为通过初步训练的字符定位模型对字符进行定位框标注的图像。

对每个正样本图像中的字符都需要标注位置框，工作量很大，因此导致字符框标注成本过高，不适合采用大量字符框标注的图像对字符定位模型进行训练。基于此，本发明实施例提供了一种弱监督的方式，以解决字符框标注成工作量大、成本高的问题。

具体地，先采用定位框标注的正样本图像数据集中的第一定位框标注图像对待训练的字符定位模型进行训练，具体将定位框标注的正样本图像数据集中的第一定位框标注图像输入特征提取模型，得到第一定位框标注图像的图像特征，采用第一定位框标注图像的图像特征，对待训练的字符定位模型进行训练。

当待训练的字符定位模型的全局函数损失值小于第二预设阈值时，表明待训练的字符定位模型存在一定的预测能力，得到初步训练的字符定位模型，因此可以通过初步训练的字符定位模型对正样本图像进行字符框标注，具体将正样本图像数据集中的正样本图像输入特征提取模型，得到正样本图像的图像特征，将正样本图像的图像特征输入初步训练的字符定位模型，得到字符的定位框，基于字符的定位框对正样本图像进行定位框标注，从而得到第二定位框标注图像。

在得到第二定位框标注图像之后，再通过这些第二定位框标注图像训练初步训练的字符定位模型；具体将第二定位框标注图像输入特征提取模型，得到第二定位框标注图像的图像特征，采用第二定位框标注图像的图像特征，对初步训练的字符定位模型进行训练，直至初步训练的字符定位模型全局函数损失值小于第三预设阈值，表明该字符定位模型训练完成。

对字符定位模型进行训练，字符定位模型的初始全局函数损失包括分类损失和回归损失；通过分类网络判断框内是否有字符(目标)，使用softmax计算分类损失，通过回归预测网络粗略回归候选框得到定位框，使用smooth L1计算回归损失，初始全局函数损失计算具体如下：

其中，L({pi},{ti})为初始全局函数损失值；

pi*为0或1，0为候选框中不存在字符，1为选框中不存在字符；pi为0或1，0为分类网络判断的候选框中不存在字符，1为分类网络判断的选框中存在字符；Lcls(pi,pi*)为分类损失，Ncls为候选框的数量；

ti*为标注定位框的位置；ti为回归预测网络确定的定位框的位置；Lreg(ti,ti*)为回归损失，Ncls为定位框的数量。

本发明一实施例中，所述采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，包括：将所述第二定位框标注图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的预测数量；获取所述字符的实际数量和所述初步训练的字符定位模型的初始全局函数损失值；根据所述所述字符的预测数量和实际数量，确定置信概率；所述置信概率用于衡量所述特征提取模型预测的准确性；将所述初始全局函数损失值与所述置信概率相乘，得到所述初步训练的字符定位模型的全局函数损失值。

具体地，此时初步训练的字符定位模型预测的定位框的准确性并没有保证，在计入初始全局函数损失值时，我们需要为对应的初始全局函数损失值乘以一个置信概率。通过特征提取模型的回归网络可以预测得到字符的定位框，也可以得到字符的预测数量，然后获取第二定位框标注图像中字符的实际数量，我们可以利用预测和实际的字符数量的差来衡量预测的准确性，置信概率＝1-字符数差/字符实际数量，字符数差为字符预测数量减去实际数量的绝对值，将初始全局函数损失值与置信概率相乘，得到初步训练的字符定位模型的全局函数损失值。

需要说明的是，在通过第一定位框标注图像对待训练的字符定位模型进行训练时，因为是初步训练，不需要太过精确，因此可以直接将初始全局函数损失值作为待训练的字符定位模型的全局函数损失值，当然也可将初始全局函数损失值与置信概率相乘，得到待训练的字符定位模型的全局函数损失值，本发明实施例中对此不加以局限。

本发明实施例中，先采用定位框标注的正样本图像数据集中的第一定位框标注图像对待训练的字符定位模型进行训练，当待训练的字符定位模型具备一定预测能力后，即得到初步训练的字符定位模型，通过初步训练的字符定位模型对正样本图像进行定位框标注，得到第二定位框标注图像，在将第二定位框标注图像返回去训练初步训练的字符定位模型，从而无须采用工作量大，成本高的人工标注等方式对所有的正样本图像的字符进行定位框标注，可以极大地节省定位框标注的成本。

参照图5，示出了本发明实施例中提供的一种异常字符确定方法的步骤流程图，本发明实施例在图1所示的实施例的基础上主要描述了一种通过自编码器对图像特征进行重建，并确定出异常字符的实现方式，以及自编码器的训练方式。如图5所示，本实施例的方法可以包括：

步骤501：对所述定位框的图像特征进行全局池化处理，得到所述定位框的特征向量。

具体地，将定位框的图像特征输入全局池化层，将图像特征进行均值池化，形成特征点，将这些特征点组成长度为2496特征向量。

步骤502：对所述定位框的特征向量进行归一化处理，得到归一化的特征向量。

具体地，对特征向量进行归一化处理的目的是将特征向量处于同一数量级，以后需进行综合对比评价。

步骤503：通过自编码器对所述归一化的特征向量进行重建，得到重建的特征向量。

其中，自编码器(Auto encoder)，是一种无监督式学习模型。本质上它使用了一个神经网络来产生一个高维输入的低维表示。自编码器与主成分分析PCA(PrincipalComponent Analysis)类似，但是Auto encoder在使用非线性激活函数时克服了PCA线性的限制。自编码器包含两个主要的部分，编码器(encoder)和解码器(decoder)。编码器的作用是用来发现给定数据的压缩表示，解码器是用来重建原始输入。在训练时，解码器强迫自编码器选择最有信息量的特征，最终保存在压缩表示中。最终压缩后的表示就在中间的coder层当中。

具体地，具体地，通过自编码器对所述归一化的特征向量进行重建，具体通过编码器对归一化的特征向量进行压缩，然后再通过解码器对压缩的归一化的特征向量进行重建，得到重建的特征向量。

步骤504：计算所述重建的特征向量与所述归一化的特征向量的重建误差值，所述重建误差值用于，在大于第一预设阈值时，将所述字符确定为异常字符。

具体地，计算重建的特征向量与归一化的特征向量的差值，作为重建误差值，可以根据重建误差值对字符进行评价，当重建误差值大于第一预设阈值时，则说明字符存在缺陷，将该字符确定为异常字符。

本发明实施例中，通过自编码器对每个字符的特征向量单独进行编码和解码，然后计算每个字符的原始特征向量和编解码后特征向量的L₁距离，来判断字符是否为异常字符。

本发明一实施例中，在所述通过自编码器对所述归一化的特征向量进行重建之前，还包括：将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；将所述正样本图像的图像特征输入所述特征提取模型，得到定位框的图像特征；对定位框的图像特征进行全局池化处理，得到定位框的特征向量；对特征向量进行归一化处理，得到归一化的特征向量；采用归一化的特征向量，训练待训练的自编码器，得到训练完成的自编码器。

具体地，将正样本图像数据集中的正样本图像输入特征提取模型，得到正样本图像的图像特征，将正样本图像的图像特征输入特征提取模型，得到定位框的图像特征，对定位框的图像特征进行全局池化处理，得到定位框的特征向量，对特征向量进行归一化处理，得到归一化的特征向量，采用归一化的特征向量，训练自编码器，自编码器的函数损失(重建误差值)为L₁，具体计算方式如下：

其中，y⁽ⁱ⁾为输入自编码器的目标值，也即归一化的特征向量；

为自编码器输出的估计值，也即重建的特征向量。

本发明实施例中，使用自编码器对检测到的单个字符的特征向量进行重建，训练时都使用正样本，使重建误差值L₁为0。检测时计算重建误差，如果接近0，就是正常字符，如果超过第一预设阈值，就为异常字符。所以整个训练流程无需采用包含各种异常字符的负样本。

参照图6，示出了本发明实施例中提供的一种字符检测方法的模型框架示意图，图中，通过MobileNet网络提取待检测图像的多层图像特征(Block1、...、Block5)，将多层图像特征输入特征金字塔网络进行特征融合(Fusion)，得到图像的图像特征，并输入RPN中，滑动窗口截取候选框，候选框输入class(分类网络)中，确定出包含字符的候选框并输入至bbox(回归预测网络)中，对选框进行边框回归处理，得到字符的定位框以及定位框的图像特征，将定位框的图像特征输入至Auto encoder中，通过Auto encoder判断该定位框的字符是否为异常字符。

本发明实施例中，提出一种使用轻量的MobileNet网络作为Backbone，同时使用自己设计的特征金字塔网络融合特征。最终提取的特征融合了浅层特征和深层特殊，适合检测字符这类小目标，同时推理速度极快。

提出一种字符定位模型，对每个字符的最小旋转矩形进行回归，得到字符的定位框，确定定位框的中心点的x、y坐标、宽度、长度和角度，能检测垂直、水平、倾斜和弧度的文本中的字符，适用各种文本检测的复杂场景。

提出一种使用自编码器，对每个字符的特征向量单独进行编码和解码，然后计算每个字符的原始特征和编解码后特征的L₁距离，距离超过第一预设阈值的字符就是异常字符。

提出一种弱监督的学习方法，通过字符定位模型对正样本图像进行定位框标注，得到定位框标注图像，在将定位框标注图像返回去训练字符定位模型，可以极大地节省定位框标注的成本。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明实施例中提供的一种字符检测装置的结构框图，具体可以包括如下模块：

图像获取模块701，用于获取包含待检测的字符的图像；

第一特征获取模块702，用于将所述图像输入特征提取模型，得到所述图像的图像特征；其中，所述特征提取模块依据标准的图像数据集和包含无印刷异常的字符的正样本图像数据集训练得到；

第二特征提取模块703，用于将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征；所述字符定位模型依据定位框标注的正样本图像数据集和所述正样本图像数据集训练得到；

特征重建模块704，用于对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征；

异常字符确定模块705，用于获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，所述重建误差值用于确定所述字符是否为异常字符。

可选地，所述特征提取模型包括MobileNet网络和特征金字塔网络，所述第一特征获取模块702，包括：

可选地，所述字符定位模型包括区域生成网络、分类网络和回归预测网络，所述第二特征获取模块703，包括：

可选地，所述定位框获取子模块，包括：

可选地，所述特征重建模块704，包括：

所述异常字符确定模块705，包括：

提取模型获取子模块，用于获取在所述ImageNet图像数据集上预先训练好的所述特征提取模型；

提取模型调整子模块，用于基于所述正样本图像数据集，调整所述预先训练好的特征提取模型，得到训练完成的特征提取模型。

可选地，所述装置还包括：

图像标注模块，用于基于所述字符的定位框对所述正样本图像进行定位框标注，得到所述第二定位框标注图像；

第二特征获取模块，还用于将所述第二定位框标注图像输入特征提取模型，得到所述第二定位框标注图像的图像特征；

定位模型训练模块，还用于采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，以使所述初步训练的字符定位模型的全局函数损失值小于第三预设阈值，得到训练完成的字符定位模型；其中，所述第三预设阈值小于所述第二预设阈值。

可选地，所述定位模型训练子模块，包括：

字符预测数量获取单元，用于将所述第二定位框标注图像的图像特征输入所述特征提取模型，得到所述字符的预测数量；

可选地，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述实施例中所述的字符检测方法。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图9所示，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质901，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的字符检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的字符检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种字符检测方法，其特征在于，包括：

获取包含待检测的字符的图像；

2.根据权利要求1所述的方法，其特征在于，所述特征提取模型包括MobileNet网络和特征金字塔网络，所述将所述图像输入特征提取模型，得到所述图像的图像特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述字符定位模型包括区域生成网络、分类网络和回归预测网络，所述将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征，包括：

通过所述分类网络确定出包含字符的所述候选框；

4.根据权利要求3所述的方法，其特征在于，所述通过所述回归预测网络对所述包含字符的所述候选框进行边框回归处理，得到所述字符的定位框，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述标准的图像数据集为ImageNet图像数据集，在所述将所述图像输入特征提取模型之前，还包括：

7.根据权利要求1所述的方法，其特征在于，在所述将所述图像的图像特征输入字符定位模型之前，还包括：

8.根据权利要求7所述的方法，其特征在于，所述采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，包括：

将所述第二定位框标注图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的预测数量；

9.根据权利要求5所述的方法，其特征在于，在所述通过自编码器对所述归一化的特征向量进行重建之前，还包括：

对特征向量进行归一化处理，得到归一化的特征向量；

10.一种字符检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取包含待检测的字符的图像；

异常字符确定模块，用于获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，基于所述重建误差值确定所述字符是否为异常字符。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如权利要求1-9任一项所述的方法。

12.一个或多个计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-9任一项所述的方法。