CN111444907B

CN111444907B - 文字识别的方法、装置、设备及存储介质

Info

Publication number: CN111444907B
Application number: CN202010214824.4A
Authority: CN
Inventors: 衡鹤瑞; 李培吉; 李斯
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-05-16
Anticipated expiration: 2040-03-24
Also published as: CN111444907A

Abstract

本发明涉及图像处理领域，公开了一种文字识别的方法、装置、设备及存储介质，用于解决在自然场景下识别字符时，文字识别的效率以及准确率低下的问题。文字识别的方法包括：获取基础样本图片，并对基础样本图片进行预处理，得到目标处理图片；采用预置检测算法切分目标处理图片，得到多个标记子图；利用深度学习算法排除多个标记子图中的目标类字符图案，得到多个目标子图；基于相似度算法计算多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；通过聚类算法对多个相关度矩阵进行分类，得到多组分类矩阵，并根据多组分类矩阵对多个目标子图进行分类；对分类后的多个目标子图进行字符识别，得到字符识别结果。

Description

文字识别的方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种文字识别的方法、装置、设备及存储介质。

背景技术

随着计算机的不断更迭，各行各业中均利用计算机技术完成各项目标任务，其中智能识别领域中的文字识别就是通过计算机技术完成的。一般的文字识别系统常常用于识别使用光学设备扫描生成的文档，比如数字化古籍，识别名片、发票、表单等。通常这类扫描文档有着比较高的分辨率和对比度，而且打印字体一般都比较单一规整，多用于识别的单个文字。

在现有的技术中，识别自然场景下的文字仍然存在干扰问题，当字符与类字符图案同时存在同一个背景中时，利用传统的文字识别技术识别到的字符易产生乱序，难以区分字符与近似字符图案，文字识别的效率以及准确率低下。

发明内容

本发明的主要目的在于解决在自然场景下识别字符时，文字识别的效率以及准确率低下的问题。

本发明第一方面提供了一种文字识别的方法，包括：获取基础样本图片，并对所述基础样本图片进行预处理，得到目标处理图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；采用预置检测算法切分所述目标处理图片，得到多个标记子图，所述多个标记子图包括目标字符以及目标类字符图案；利用深度学习算法排除所述多个标记子图中的所述目标类字符图案，得到多个目标子图，所述多个目标子图中只包括所述目标字符；基于相似度算法计算所述多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；通过聚类算法对所述多个相关度矩阵进行分类，得到多组分类矩阵，并根据所述多组分类矩阵对所述多个目标子图进行分类；对分类后的多个目标子图进行字符识别，得到字符识别结果。

可选的，在本发明第一方面的第一种实现方式中，所述获取基础样本图片，并对所述基础样本图片进行预处理，得到目标处理图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案包括：获取基础样本图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；利用预置腐蚀公式处理所述基础样本图片，得到第一处理图片，所述预置腐蚀公式为：

E₁为第一处理图片的结构元素，F为基础样本图片原图，S为基础样本图片中的结构元素，X为基础样本图片中的连通域，(x,y)为S原点的移动坐标；利用预置膨胀公式处理所述第一处理图片，得到目标处理图片，所述预置膨胀公式为：

E₂为目标处理图片的结构元素，F'为第一处理图片原图，S'为第一处理图片中的结构元素。

可选的，在本发明第一方面的第二种实现方式中，所述采用预置检测算法切分所述目标处理图片，得到多个标记子图，所述多个标记子图包括目标字符以及目标类字符图案包括：采用预置检测算法对所述目标处理图片进行灰度化处理，得到灰度图；遍历所述灰度图，并对所述灰度图进行二值化，得到第二处理图片；在所述第二处理图片中获取基础字符的轮廓以及基础类字符图案的轮廓，并在所述基础字符的轮廓外以及所述基础类字符图案外设置边框矩形；截取所述第二处理图片中的所述边框矩形，得到多个标记子图，所述标记子图包括目标字符以及目标类字符图案。

可选的，在本发明第一方面的第三种实现方式中，所述利用深度学习算法排除所述多个标记子图中的所述目标类字符图案，得到多个目标子图，所述多个目标子图中只包括所述目标字符包括：针对所述多个标记子图中的每一个标记子图，在每一个标记子图中提取特征点，并计算所有特征点的卷积，得到目标特征图；在所述目标特征图中预测候选区域，所述候选区域内包括所述目标类字符图案或所述目标字符；池化所述候选区域，并对每个候选区域内的特征点进行二分类，得到多个携带有目标类字符图案的标记子图以及多个携带有目标字符的目标子图；剔除所述多个携带有目标类字符图案的基础标记子图，得到多个目标子图，所述多个目标子图中只包括所述目标字符。

可选的，在本发明第一方面的第四种实现方式中，所述基于相似度算法计算所述多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵包括：获取每个所述目标子图的特征向量；根据相似度算法计算所述任意两个特征向量之间的相关度，得到多个目标相关度，并整合所述目标相关度，得到多个相关度矩阵。

可选的，在本发明第一方面的第五种实现方式中，所述通过聚类算法对所述多个相关度矩阵进行分类，得到多组分类矩阵，并根据所述多组分类矩阵对所述多个目标子图进行分类还包括：在所述多个相关度矩阵中选择n个相关度矩阵作为初始簇均值，n∈{2,3…k-1}，其中，k为相关度矩阵的个数；分别计算剩余相关度矩阵与多个所述初始簇均值之间的欧式距离，并将所述剩余相关度矩阵分配到与所述初始簇均值之间欧式距离最小的簇中，得到n个基础簇；针对所述n个基础簇中的每一个基础簇，根据所述每一个基础簇中的多个相关度矩阵计算更新均值，得到更新簇均值；将所述更新簇均值作为新的簇均值，重新分配所述剩余相关度矩阵，直到分配稳定，得到多组分类矩阵；根据所述多组分类矩阵，分类所述多组分类矩阵对应的目标子图。

可选的，在本发明第一方面的第六种实现方式中，所述对分类后的多个目标子图进行字符识别，得到字符识别结果包括：在分类后的多个目标子图中，检测目标字符的位置区域，得到多个字符文本框；提取所述多个字符文本框中的字符特征，并计算所述字符特征与预置字符特征之间的相似度，所述预置字符特征为设置在特征库中的字符特征集；当所述相似度大于标准阈值时，确定所述字符特征为对应预置字符特征，得到字符识别结果。

本发明第二方面提供了一种文字识别的装置，包括：预处理模块，用于获取基础样本图片，并对所述基础样本图片进行预处理，得到目标处理图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；切分模块，用于采用预置检测算法切分所述目标处理图片，得到多个标记子图，所述多个标记子图包括目标字符以及目标类字符图案；排除模块，用于利用深度学习算法排除所述多个标记子图中的所述目标类字符图案，得到多个目标子图，所述多个目标子图中只包括所述目标字符；计算模块，用于基于相似度算法计算所述多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；分类模块，用于通过聚类算法对所述多个相关度矩阵进行分类，得到多组分类矩阵，并根据所述多组分类矩阵对所述多个目标子图进行分类；识别模块，用于对分类后的多个目标子图进行字符识别，得到字符识别结果。

可选的，在本发明第二方面的第一种实现方式中，所述预处理模块具体用于：获取基础样本图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；利用预置腐蚀公式处理所述基础样本图片，得到第一处理图片，所述预置腐蚀公式为：

可选的，在本发明第二方面的第二种实现方式中，所述切分模块具体用于：采用预置检测算法对所述目标处理图片进行灰度化处理，得到灰度图；遍历所述灰度图，并对所述灰度图进行二值化，得到第二处理图片；在所述第二处理图片中获取基础字符的轮廓以及基础类字符图案的轮廓，并在所述基础字符的轮廓外以及所述基础类字符图案外设置边框矩形；截取所述第二处理图片中的所述边框矩形，得到多个标记子图，所述标记子图包括目标字符以及目标类字符图案。

可选的，在本发明第二方面的第三种实现方式中，所述排除模块具体用于：针对所述多个标记子图中的每一个标记子图，在每一个标记子图中提取特征点，并计算所有特征点的卷积，得到目标特征图；在所述目标特征图中预测候选区域，所述候选区域内包括所述目标类字符图案或所述目标字符；池化所述候选区域，并对每个候选区域内的特征点进行二分类，得到多个携带有目标类字符图案的标记子图以及多个携带有目标字符的目标子图；剔除所述多个携带有目标类字符图案的基础标记子图，得到多个目标子图，所述多个目标子图中只包括所述目标字符。

可选的，在本发明第二方面的第四种实现方式中，所述计算模块具体用于：获取每个所述目标子图的特征向量；根据相似度算法计算所述任意两个特征向量之间的相关度，得到多个目标相关度，并整合所述目标相关度，得到多个相关度矩阵。

可选的，在本发明第二方面的第五种实现方式中，所述分类模块具体用于：在所述多个相关度矩阵中选择n个相关度矩阵作为初始簇均值，n∈{2,3…k-1}，其中，k为相关度矩阵的个数；分别计算剩余相关度矩阵与多个所述初始簇均值之间的欧式距离，并将所述剩余相关度矩阵分配到与所述初始簇均值之间欧式距离最小的簇中，得到n个基础簇；针对所述n个基础簇中的每一个基础簇，根据所述每一个基础簇中的多个相关度矩阵计算更新均值，得到更新簇均值；将所述更新簇均值作为新的簇均值，重新分配所述剩余相关度矩阵，直到分配稳定，得到多组分类矩阵；根据所述多组分类矩阵，分类所述多组分类矩阵对应的目标子图。

可选的，在本发明第二方面的第六种实现方式中，所述识别模块具体用于：在分类后的多个目标子图中，检测目标字符的位置区域，得到多个字符文本框；提取所述多个字符文本框中的字符特征，并计算所述字符特征与预置字符特征之间的相似度，所述预置字符特征为设置在特征库中的字符特征集；当所述相似度大于标准阈值时，确定所述字符特征为对应预置字符特征，得到字符识别结果。

本发明第三方面提供了一种文字识别的设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述文字识别的设备执行上述的文字识别的方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文字识别的方法。

本发明提供的技术方案中，获取基础样本图片，并对所述基础样本图片进行预处理，得到目标处理图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；采用预置检测算法切分所述目标处理图片，得到多个标记子图，所述多个标记子图包括目标字符以及目标类字符图案；利用深度学习算法排除所述多个标记子图中的所述目标类字符图案，得到多个目标子图，所述多个目标子图中只包括所述目标字符；基于相似度算法计算所述多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；通过聚类算法对所述多个相关度矩阵进行分类，得到多组分类矩阵，并根据所述多组分类矩阵对所述多个目标子图进行分类；对分类后的多个目标子图进行字符识别，得到字符识别结果。本发明实施例中，通过预置检测算法以及深度学习算法排除基础样本图片中的基础类字符图案，提高了文字识别的准确率，利用相似度算法和聚类算法分类处理目标子图，提高了文字识别的识别效率。

附图说明

图1为本发明实施例中文字识别的方法的一个实施例示意图；

图2为本发明实施例中文字识别的方法的另一个实施例示意图；

图3为本发明实施例中文字识别的装置的一个实施例示意图；

图4为本发明实施例中文字识别的装置的另一个实施例示意图；

图5为本发明实施例中文字识别的设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种文字识别的方法、装置、设备及存储介质，通过预置检测算法以及深度学习算法排除基础样本图片中的基础类字符图案，提高了文字识别的准确率，利用相似度算法和聚类算法分类处理目标子图，提高了文字识别的识别效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中文字识别的方法的一个实施例包括：

101、获取基础样本图片，并对基础样本图片进行预处理，得到目标处理图片，基础样本图片用于显示基础字符以及基础类字符图案，基础类字符图案用于指示与基础字符形状相似的图案；

可以理解的是，本发明的执行主体可以为文字识别的装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器获取用于显示基础字符以及基础类字符图案的基础样本图片，并对基础样本图片进行预处理，得到目标处理图片，这里的基础类字符图案用于指示与基础字符形状相似的图案。

需要说明的是，服务器在获取到带有基础字符与基础类字符图案的基础样本图片后，需要对该基础样本图片进行预处理，通过预处理后服务器才能更好的对基础样本图片进行分析。这里的基础样本图片为所需要识别文字的图片，以邮寄快递包裹为例，基础样本图片可以为快递单或派送快递包裹任务表等等，本申请中并不对该基础样本图片的样式或类型进行限定。此外，这里的预处理操作包括对基础样本图片进行膨胀操作以及腐蚀操作，通过这两种操作可以消除基础样本图片中的噪声，也可以分割出基础样本图片中独立的图像元素，并在基础样本图片中连接相邻的元素，亦可以寻找基础样本图片中明显的极大值区域或者极小值区域，还可以求出基础样本图片的梯度，通过预处理得到可以进行后续操作的目标处理图片。

进一步说明的是，基础字符包括文字、字母、数字、运算符号、标点符号和其他符号，以及一些功能性符号，而基础类字符图案用于显示与基础字符形状相似的图案，如：与字母O相似的基础类字符图案为，四边均为向外凸出的梯形，这里并不对类基础字符形状相似的图案进行限定。

102、采用预置检测算法切分目标处理图片，得到多个标记子图，多个标记子图包括目标字符以及目标类字符图案；

服务器采用预置检测算法切分目标处理图片，得到携带有目标字符以及目标类字符图案多个标记子图。

这里服务器利用预置检测算法切分目标处理图片，预置检测算法即为服务器将携带有基础字符以及基础类字符图案的部分切分出来，然后再对带有两者的图片进行分类，识别出仅带有基础字符的标记子图，对仅带有基础字符的目标处理图片进行识别，这样的处理操作更具有针对性，同时也更加便于提取带有基础字符的目标处理图片，提高字符识别的准确性。

103、利用深度学习算法排除多个标记子图中的类字符图案，得到多个目标子图，多个目标子图中只包括目标字符；

服务器利用深度学习算法排除多个标记子图中的类字符图案，得到携带有目标字符的多个目标子图。

服务器在获取到携带有目标字符以及目标类字符图案的多个目标子图后，需要将仅带有目标类字符图案的基础标记子图排除，得到仅带有目标字符的目标子图，然后服务器再单独针对仅带有目标字符的目标子图，识别该目标子图中的目标字符，这样的操作提高了字符识别的效率。此外，这里采用到的深度学习算法中的区域候选网络(rotationregion proposal network，RRPN)，其基本原理为利用卷积神经网络VGG16作为特征提取主干网络对目标子图进行卷积计算，得到特征图，然后采用RRPN在特征图中生成候选区域，并对该候选区域进行池化以及二分类，得到最终的筛选结果。

104、基于相似度算法计算多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；

服务器基于相似度算法计算多个目标子图中任意两个目标子图之间的相关度，进而得到多个相关度矩阵。

服务器待获取到多个目标子图之后，需要计算目标子图之间的相似度，这里利用到的是余弦相似度算法，余弦相似度的原理是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，当余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，利用到了两个向量之间的余弦相似性。在本申请中是利用目标子图中的像素向量来计算余弦相似度，通过余弦相似度公式计算得到两个目标子图之间的相似度。

105、通过聚类算法对多个相关度矩阵进行分类，得到多组分类矩阵，并根据多组分类矩阵对多个目标子图进行分类；

服务器通过聚类算法对多个相关度矩阵进行分类，进而得到多组分类矩阵，并根据多组分类矩阵分类多个目标子图。

这里利用到聚类算法对多个相关度矩阵进行分类，聚类就是视图将数据集中的样本划分为若干个互不相交的子集，每个子集称为一个簇。通过这样的划分，每个簇可能对应于一些不同的类别，在聚类算法中k均值算法是最常用的聚类算法，k均值是以距离作为相似性的评价指标，其基本思想是按照距离将样本聚成不同的簇，两个点的距离越近，其相似度就越大，以得到紧凑且独立的簇作为聚类目标。其工作原理如下：首先在数据点集D中随机的选择k个对象，每个对象代表一个簇的初始均值或中心；其次对剩下的每个对象，根据其与各个簇中心的欧氏距离，将它分配到最相似的簇；然后利用k-均值算法迭代改善内变差，对于每个簇，使用上次迭代分配到该簇的对象，计算新的均值；之后使用更新的均值作为新的簇中心，重新分配所有对象；最后继续迭代，直到分配稳定。

106、对分类后的多个目标子图进行字符识别，得到字符识别结果。

服务器对分类后的多个目标子图进行字符识别，得到最终的字符识别结果。

服务器得到分类后的多个目标子图后，分别对目标子图中的字符进行字符识别，这里字符识别利用到的是文字识别算法，文字识别算法是从目标对象中提取统计特征或结构特征的过程，所提取后的特征具有稳定性以及有效性，待提取特征后，对特征进行匹配，特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程，也就是说，当服务器提取到特征之后，不管是统计特征还是结构特征，均需要与一个特征库中的预置文字特征进行比对，特征库中应包含欲识别字符集中所有文字的特征。在本申请中即利用特征识别与特征匹配的方法对多个目标子图中的目标字符进行字符识别，进而得到最终的字符识别结果。

本发明实施例中，通过预置检测算法以及深度学习算法排除基础样本图片中的基础类字符图案，提高了文字识别的准确率，利用相似度算法和聚类算法分类处理目标子图，提高了文字识别的识别效率。

请参阅图2，本发明实施例中文字识别的方法的另一个实施例包括：

201、获取基础样本图片，并对基础样本图片进行预处理，得到目标处理图片，基础样本图片用于显示基础字符以及基础类字符图案，基础类字符图案用于指示与基础字符形状相似的图案；

服务器获取用于显示基础字符以及基础类字符图案的基础样本图片，并对基础样本图片进行预处理，得到目标处理图片，这里的基础类字符图案用于指示与基础字符形状相似的图案。具体的：

首先服务器获取基础样本图片，基础样本图片用于显示基础字符以及基础类字符图案，基础类字符图案用于指示与基础字符形状相似的图案；然后服务器利用预置腐蚀公式处理基础样本图片，得到第一处理图片，这里的预置腐蚀公式为：

E₁为第一处理图片的结构元素，F为基础样本图片原图，S为基础样本图片中的结构元素，X为基础样本图片中的连通域，(x,y)为S原点的移动坐标；最后服务器利用预置膨胀公式处理第一处理图片，得到目标处理图片，这里的预置膨胀公式为：

需要说明的是，这里的基础样本图片为所需要识别文字的图片，以邮寄快递包裹为例，基础样本图片可以为快递单或派送快递包裹任务表等等，本申请中并不对该基础样本图片的样式或类型进行限定。此外，基础字符包括文字、字母、数字、运算符号、标点符号和其他符号，以及一些功能性符号，而基础类字符图案用于显示与基础字符形状相似的图案，如：与字母O相似的基础类字符图案为，四边均为向外凸出的梯形，这里并不对类基础字符形状相似的图案进行限定。

这里服务器对基础样本图片进行腐蚀和膨胀操作均是对基础样本图片中的白色部分(高亮部分)进行处理，腐蚀的原因是基础样本图片的高亮部分被腐蚀，类似于领域被蚕食，被腐蚀操作处理过后的效果图拥有比原图更小的高亮区域；膨胀操作是对基础样本图片中的高亮部分进行膨胀，类似于领域扩张，被膨胀操作处理过后的效果图拥有比原图更大的高亮区域。

举例说明：设基础样本图片中存在结构元素S，并将其设置为原点，服务器根据预置腐蚀公式处理基础样本图片，得到第一处理图片，预置腐蚀公式为：

其中，E₁为第一处理图片的结构元素，F为基础样本图片原图，S为基础样本图片中的结构元素，X为基础样本图片中的连通域，(x,y)为S原点的移动坐标，也就是说明假设F中目标像素为255(白色)，非目标为0(黑色)，当结构元素S原点移动到点(x,y)时，如果S中所有点均包含在X中(X中对应在S中所有点的位置均为255)，则在腐蚀后的二值图像中，对应于S原点的位置为255(白色)，否则为0(黑色)；然后服务器再根据预置膨胀公式对第一处理图片进行膨胀操作，得到目标处理图片，预置膨胀公式为：

E₂为目标处理图片的结构元素，F'为第一处理图片原图，S'为第一处理图片中的结构元素，也就是说用目标处理图片的结构元素E₂作为模板在第一处理图片中平滑一遍，扫描第一处理图片中的每一个像素，用E₂中的每一个元素与其覆盖的二值图像做“或”操作(假设结构元素都为1)，如果结果为1，则第一处理图片中对应结构元素原点位置的像素值为1，否则为0。

202、采用预置检测算法切分目标处理图片，得到多个标记子图，多个标记子图包括目标字符以及目标类字符图案；

服务器采用预置检测算法切分目标处理图片，得到携带有目标字符以及目标类字符图案多个标记子图。具体的：

服务器首先采用预置检测算法对目标处理图片进行灰度化处理，得到灰度图；其次服务器遍历灰度图，并对灰度图进行二值化，得到第二处理图片；然后服务器在第二处理图片中获取基础字符的轮廓以及基础类字符图案的轮廓，并在基础字符的轮廓外以及基础类字符图案外设置边框矩形；最后服务器截取第二处理图片中的边框矩形，得到多个标记子图，标记子图包括目标字符以及目标类字符图案。

可以理解的是，服务器在利用预置检测算法对目标处理图片进行处理时，为了避免目标处理图片条带失真，首先需要对目标处理图片进行灰度化处理，得到灰度图，灰度图中的每个像素只需一个字节存放灰度值(又称强度值、亮度值)，灰度范围为0-255，灰度图通常用每个采样像素8位的非线性尺度来保存，这样灰度图中可以有256级灰度，而这种精度刚刚能够避免可见的条带失真。服务器得到灰度图后，遍历灰度图，并对灰度图进行二值化处理，得到第二处理图片，二值化处理就是将灰度图上的像素点的灰度值设置为0或255，也就是将整个灰度图呈现出明显的黑白效果的过程，可以使灰度图中的数据量大为减少，从而能凸显出目标的轮廓，因而在第二处理图片中获取基础字符的轮廓与基础类字符图案的轮廓。

服务器获取基础字符的轮廓与基础类字符图案的轮廓时，采用的是轮廓检测算法findContours方法，轮廓检测指在包含目标和背景的数字图像中，忽略背景和目标内部的纹理以及噪声干扰的影响，采用一定的技术和方法来实现目标轮廓提取的过程，因此在本申请中采用此方法在第二处理图片中获取基础字符的轮廓与基础类字符图案的轮廓，这里的轮廓为在基础字符外设置的边框矩形以及在基础类字符图案外设置的边框矩形，最后服务器通过截取边框矩形，就能够获得携带有目标字符以及目标类字符图案的标记子图。

203、利用深度学习算法排除多个标记子图中的类字符图案，得到多个目标子图，多个目标子图中只包括目标字符；

服务器利用深度学习算法排除多个标记子图中的类字符图案，得到携带有目标字符的多个目标子图。具体的：

服务器首先针对多个标记子图中的每一个标记子图，在每一个标记子图中提取特征点，并计算所有特征点的卷积，得到目标特征图；其次服务器在目标特征图中预测候选区域，候选区域内包括目标类字符图案或目标字符；然后服务器池化候选区域，并对每个候选区域内的特征点进行二分类，得到多个携带有目标类字符图案的标记子图以及多个携带有目标字符的目标子图；最后服务器剔除多个携带有目标类字符图案的基础标记子图，得到多个目标子图，多个目标子图中只包括目标字符。

服务器在获取到携带有目标字符以及目标类字符图案的多个目标子图后，需要将仅带有目标类字符图案的基础标记子图排除，得到仅带有目标字符的目标子图，然后服务器再单独针对仅带有目标字符的目标子图，识别该目标子图中的目标字符，这样的操作提高了字符识别的效率。此外，这里采用到的深度学习算法中的区域候选网络RRPN，其基本原理为利用卷积神经网络VGG16作为特征提取主干网络对目标子图进行卷积计算，得到特征图，然后采用RRPN在特征图中生成候选区域，并对该候选区域进行池化以及二分类，得到最终的筛选结果。

需要说明的是，这里的候选区域是包括目标类字符图案或目标字符的区域，该区域可以利用一个5元组(x,y,h,w,θ)表示，其中(x,y)表示候选区域的几何中心坐标，h表示候选区域短边的长度，w表示候选区域长边的长度，θ表示x正轴到边界框长边的角度，这样的标识方法可以更好的进行角度回归，进而识别候选区域内的字符。

204、获取每个目标子图的特征向量；

服务器获取每个目标子图的特征向量。

服务器待获取到多个目标子图之后，需要计算目标子图之间的相似度，这里利用到的是余弦相似度算法，余弦相似度的原理是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，当余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，利用到了两个向量之间的余弦相似性。在本申请中是利用目标子图中的特征向量来计算余弦相似度，通过余弦相似度公式计算得到两个目标子图之间的相似度。

205、根据相似度算法计算任意两个特征向量之间的相关度，得到多个目标相关度，并整合目标相关度，得到多个相关度矩阵；

服务器根据相似度算法计算任意两个特征向量之间的相关度，得到多个目标相关度，并整合目标相关度，得到多个相关度矩阵。

服务器利用相似度算法计算两个不同目标子图之间的相关度，余弦相似度算法是通过计算两个目标对象的向量之间夹角余弦得到相关度，因此首先服务器获取多个目标子图的特征向量，然后服务器在根据余弦相似度公式进行计算，得到两个目标子图之间的相关度，其中余弦相似度公式如下：

在式中，cos(θ)表示x_i与x_i+1之间的相关度，θ表示x_i与x_i+1之间的夹角，n表示特征向量中的特征频次，i表示第i个特征频次，x_i表示第i个目标子图中的特征向量，x_i+1表示第i+1个目标子图中的特征向量。

举例说明：已知一个目标子图的特征向量为(1，1，2，1，1，1，0)，另一个目标子图的特征向量为(1，1，1，0，1，1，1)，计算两个目标子图的之间的相似度过程如下：将两个目标子图的特征向量带入余弦相似度公式，得到：

得到的0.8165即为两个不同目标子图之间的相关度，将得到的同一个目标子图与多个不同目标子图之间的相关度结合到一起，得到相关度矩阵，每个目标子图对应一个相关度矩阵。

206、通过聚类算法对多个相关度矩阵进行分类，得到多组分类矩阵，并根据多组分类矩阵对多个目标子图进行分类；

服务器通过聚类算法对多个相关度矩阵进行分类，得到多组分类矩阵，并根据多组分类矩阵对多个目标子图进行分类。具体的：

服务器首先在多个相关度矩阵中选择n个相关度矩阵作为初始簇均值，n∈{2,3…k-1}，其中，k为相关度矩阵的个数；其次服务器分别计算剩余相关度矩阵与多个初始簇均值之间的欧式距离，并将剩余相关度矩阵分配到与初始簇均值之间欧式距离最小的簇中，得到n个基础簇；然后服务器针对n个基础簇中的每一个基础簇，根据每一个基础簇中的多个相关度矩阵计算更新均值，得到更新簇均值；服务器将更新簇均值作为新的簇均值，重新分配剩余相关度矩阵，直到分配稳定，得到多组分类矩阵；最后服务器根据多组分类矩阵，分类多组分类矩阵对应的目标子图。

举例说明，以某种水果的密度以及含糖量对该水果进行分类为例：由此所采集的数据为：1号某水果：密度为0.679，含糖量为0.460；2号某水果：密度为0.744，含糖量为0.376；3号某水果：密度为0.403，含糖量为0.237；4号某水果：密度为0.608，含糖量为0.318；5号某水果：密度为0.343，含糖量为0.099；6号某水果：密度为0.403，含糖量为0.237；7号某水果：密度为0.532，含糖量为0.472；8号某水果：密度为0.437，含糖量为0.211；9号某水果：密度为0.245，含糖量为0.057；10号某水果：密度为0.343，含糖量为0.099；设定需要的聚类簇数k＝3，则进行聚类分析的过程如下：

(1)首先服务器随机选取三个样本x₃,x₅,x₇(某水果编号为3、5、7的对应数据)作为初始均值向量，即μ₁＝(0.403,0.237)，μ₂＝(0.343,0.099)，μ₃＝(0.532,0.472)；

(2)服务器分别计算第一个样本x₁＝(0.697,0.460)与当前的均值向量μ₁，μ₂，μ₃之间的欧式距离得到的距离结果分别为：0.369，0.506，0.166；

(3)在三个欧式距离中选取数值最小的一个，也就是0.166，因此将x₁划分到簇C₃(以x₇为均值中心的簇)中；

(4)分别计算剩余样本与三个样本之间的欧氏距离，可以得到当前的簇划分：

C₁＝{x₆,x₈}；C₂＝{x₉,x₁₀}；C₃＝{x₁,x₂,x₄}

(5)重新计算C₁,C₂,C₃的均值向量，得到μ₁'＝(0.414,0.228)，μ₂'＝(0.310,0.085)，μ₃'＝(0.641,0.407)

(6)重新进入步骤(2)、(3)、(4)、(5)，不断重复，直到当前均值量保持不变，进而完成分类。

207、对分类后的多个目标子图进行字符识别，得到字符识别结果。

服务器对分类后的多个目标子图进行字符识别，得到最终的字符识别结果。具体的：

服务器首先在分类后的多个目标子图中，检测目标字符的位置区域，得到多个字符文本框；然后服务器提取多个字符文本框中的字符特征，并计算字符特征与预置字符特征之间的相似度，预置字符特征为设置在特征库中的字符特征集；最后当相似度大于标准阈值时，服务器确定字符特征为对应预置字符特征，得到字符识别结果。

服务器得到分类后的多个目标子图后，分别对目标子图中的字符进行字符识别，这里字符识别利用到的是文字识别算法，文字识别算法是从目标对象中提取统计特征或结构特征的过程，所提取后的特征具有稳定性以及有效性，待提取特征后，对特征进行匹配，特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程，也就是说，当服务器提取到特征之后，不管是统计特征还是结构特征，均需要与一个特征库中的预置文字特征进行比对，特征库中应包含欲识别字符集中所有文字的特征，也就是预置字符特征。在本申请中即利用特征识别与特征匹配的方法对多个目标子图中的目标字符进行字符识别，进而得到最终的字符识别结果。

需要说明的是，这里的标准阈值是判定目标子图中的目标字符与特征库中预置字符特征之间是否相似的临界值，当标准阈值大于目标字符与预置字符特征之间的相似度时，说明目标字符与预置字符特征相似。此外，标准阈值是经过大量计算出来的一个数值，对于不同的字符特征会有不同的标准阈值，因此在本申请中，并不对标准阈值的数值进行限定。

以识别快递单上的字符为例进行说明：已知快递单上的字符分别为：快递运营商标识(快递运营商对应的固定图案)和目的地这两项标识，首先服务器在快递单中检测到字符位置区域，并在字符外设置矩形框，得到多个字符文本框，然后服务器提取多个字符文本框中每个字符的字符特征，分别计算该字符特征与特征库中设置的多个预置字符特征之间的相似度，如：计算快递运营商标识与预置第一快递运营商标识的相似度为0.985、计算快递运营商标识与预置第二快递运营商标识的相似度为0.496、计算目的地这三个字符与预置字符特征日的地的相似度为0.869、计算目的地这三个字符与预置字符特征目的地之间的相似度为0.989；最后服务器比较计算出来的相似度与标准阈值之间的大小关系，当相似度的数值大于标准阈值时，确定字符特征为对应预置字符特征，如：当标准阈值为0.9时，确定该快递运营商标识为预置第一快递运营商标识，目的地这三个字符的字符特征为预置字符特征目的地，进而得到多个字符识别结果。

上面对本发明实施例中文字识别的方法进行了描述，下面对本发明实施例中文字识别的装置进行描述，请参阅图3，本发明实施例中文字识别的装置一个实施例包括：

预处理模块301，用于获取基础样本图片，并对基础样本图片进行预处理，得到目标处理图片，基础样本图片用于显示基础字符以及基础类字符图案，基础类字符图案用于指示与基础字符形状相似的图案；

切分模块302，用于采用预置检测算法切分目标处理图片，得到多个标记子图，多个标记子图包括目标字符以及目标类字符图案；

排除模块303，用于利用深度学习算法排除多个标记子图中的目标类字符图案，得到多个目标子图，多个目标子图中只包括目标字符；

计算模块304，用于基于相似度算法计算多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；

分类模块305，用于通过聚类算法对多个相关度矩阵进行分类，得到多组分类矩阵，并根据多组分类矩阵对多个目标子图进行分类；

识别模块306，用于对分类后的多个目标子图进行字符识别，得到字符识别结果。

请参阅图4，本发明实施例中文字识别的装置的另一个实施例包括：

可选的，预处理模块301还可以具体用于：

获取基础样本图片，基础样本图片用于显示基础字符以及基础类字符图案，基础类字符图案用于指示与基础字符形状相似的图案；

利用预置腐蚀公式处理基础样本图片，得到第一处理图片，预置腐蚀公式为：

E₁为第一处理图片的结构元素，F为基础样本图片原图，S为基础样本图片中的结构元素，X为基础样本图片中的连通域，(x,y)为S原点的移动坐标；

利用预置膨胀公式处理第一处理图片，得到目标处理图片，预置膨胀公式为：

可选的，切分模块302还可以具体用于：

采用预置检测算法对目标处理图片进行灰度化处理，得到灰度图；

遍历灰度图，并对灰度图进行二值化，得到第二处理图片；

在第二处理图片中获取基础字符的轮廓以及基础类字符图案的轮廓，并在基础字符的轮廓外以及基础类字符图案外设置边框矩形；

截取第二处理图片中的边框矩形，得到多个标记子图，标记子图包括目标字符以及目标类字符图案。

可选的，排除模块303还可以具体用于：

针对多个标记子图中的每一个标记子图，在每一个标记子图中提取特征点，并计算所有特征点的卷积，得到目标特征图；

在目标特征图中预测候选区域，候选区域内包括目标类字符图案或目标字符；

池化候选区域，并对每个候选区域内的特征点进行二分类，得到多个携带有目标类字符图案的标记子图以及多个携带有目标字符的目标子图；

剔除多个携带有目标类字符图案的基础标记子图，得到多个目标子图，多个目标子图中只包括目标字符。

可选的，计算模块304还可以具体用于：

获取每个目标子图的特征向量；

根据相似度算法计算任意两个特征向量之间的相关度，得到多个目标相关度，并整合目标相关度，得到多个相关度矩阵。

可选的，分类模块305还可以具体用于：

在多个相关度矩阵中选择n个相关度矩阵作为初始簇均值，n∈{2,3…k-1}，其中，k为相关度矩阵的个数；

分别计算剩余相关度矩阵与多个初始簇均值之间的欧式距离，并将剩余相关度矩阵分配到与初始簇均值之间欧式距离最小的簇中，得到n个基础簇；

针对n个基础簇中的每一个基础簇，根据每一个基础簇中的多个相关度矩阵计算更新均值，得到更新簇均值；

将更新簇均值作为新的簇均值，重新分配剩余相关度矩阵，直到分配稳定，得到多组分类矩阵；

根据多组分类矩阵，分类多组分类矩阵对应的目标子图。

可选的，识别模块306还可以具体用于：

在分类后的多个目标子图中，检测目标字符的位置区域，得到多个字符文本框；

提取多个字符文本框中的字符特征，并计算字符特征与预置字符特征之间的相似度，预置字符特征为设置在特征库中的字符特征集；

当相似度大于标准阈值时，确定字符特征为对应预置字符特征，得到字符识别结果。

上面图3和图4从模块化功能实体的角度对本发明实施例中的文字识别的装置进行详细描述，下面从硬件处理的角度对本发明实施例中文字识别的设备进行详细描述。

图5是本发明实施例提供的一种文字识别的设备的结构示意图，该文字识别的设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对文字识别的设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在文字识别的设备500上执行存储介质530中的一系列指令操作。

文字识别的设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的文字识别的设备结构并不构成对文字识别的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述文字识别的方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文字识别的方法，其特征在于，所述文字识别的方法包括：

获取基础样本图片，并对所述基础样本图片进行预处理，得到目标处理图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；

采用预置检测算法切分所述目标处理图片，得到多个标记子图，所述多个标记子图包括目标字符以及目标类字符图案；

利用深度学习算法排除所述多个标记子图中的所述目标类字符图案，得到多个目标子图，所述多个目标子图中只包含所述目标字符；

基于相似度算法计算所述多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；

通过聚类算法对所述多个相关度矩阵进行分类，得到多组分类矩阵，并根据所述多组分类矩阵对所述多个目标子图进行分类；

对分类后的多个目标子图进行字符识别，得到字符识别结果。

2.根据权利要求1所述的文字识别的方法，其特征在于，所述获取基础样本图片，并对所述基础样本图片进行预处理，得到目标处理图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案包括：

获取基础样本图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；

利用预置腐蚀公式处理所述基础样本图片，得到第一处理图片，所述预置腐蚀公式为：

利用预置膨胀公式处理所述第一处理图片，得到目标处理图片，所述预置膨胀公式为：

3.根据权利要求1所述的文字识别的方法，其特征在于，所述采用预置检测算法切分所述目标处理图片，得到多个标记子图，所述多个标记子图包括目标字符以及目标类字符图案包括：

采用预置检测算法对所述目标处理图片进行灰度化处理，得到灰度图；

遍历所述灰度图，并对所述灰度图进行二值化，得到第二处理图片；

在所述第二处理图片中获取基础字符的轮廓以及基础类字符图案的轮廓，并在所述基础字符的轮廓外以及所述基础类字符图案外设置边框矩形；

截取所述第二处理图片中的所述边框矩形，得到多个标记子图，所述标记子图包括目标字符以及目标类字符图案。

4.根据权利要求1所述的文字识别的方法，其特征在于，所述利用深度学习算法排除所述多个标记子图中的所述目标类字符图案，得到多个目标子图，所述多个目标子图中只包括所述目标字符包括：

针对所述多个标记子图中的每一个标记子图，在每一个标记子图中提取特征点，并计算所有特征点的卷积，得到目标特征图；

在所述目标特征图中预测候选区域，所述候选区域内包括所述目标类字符图案或所述目标字符；

池化所述候选区域，并对每个候选区域内的特征点进行二分类，得到多个携带有目标类字符图案的标记子图以及多个携带有目标字符的目标子图；

剔除所述多个携带有目标类字符图案的基础标记子图，得到多个目标子图，所述多个目标子图中只包括所述目标字符。

5.根据权利要求1所述的文字识别的方法，其特征在于，所述基于相似度算法计算所述多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵包括：

获取每个所述目标子图的特征向量；

根据相似度算法计算所述任意两个特征向量之间的相关度，得到多个目标相关度，并整合所述目标相关度，得到多个相关度矩阵。

6.根据权利要求1所述的文字识别的方法，其特征在于，所述通过聚类算法对所述多个相关度矩阵进行分类，得到多组分类矩阵，并根据所述多组分类矩阵对所述多个目标子图进行分类包括：

在所述多个相关度矩阵中选择n个相关度矩阵作为初始簇均值，n∈{2,3…k-1}，其中，k为相关度矩阵的个数；

分别计算剩余相关度矩阵与多个所述初始簇均值之间的欧式距离，并将所述剩余相关度矩阵分配到与所述初始簇均值之间欧式距离最小的簇中，得到n个基础簇；

针对所述n个基础簇中的每一个基础簇，根据所述每一个基础簇中的多个相关度矩阵计算更新均值，得到更新簇均值；

将所述更新簇均值作为新的簇均值，重新分配所述剩余相关度矩阵，直到分配稳定，得到多组分类矩阵；

根据所述多组分类矩阵，分类所述多组分类矩阵对应的目标子图。

7.根据权利要求1所述的文字识别的方法，其特征在于，所述对分类后的多个目标子图进行字符识别，得到字符识别结果包括：

提取所述多个字符文本框中的字符特征，并计算所述字符特征与预置字符特征之间的相似度，所述预置字符特征为设置在特征库中的字符特征集；

当所述相似度大于标准阈值时，确定所述字符特征为对应预置字符特征，得到字符识别结果。

8.一种文字识别的装置，其特征在于，所述文字识别的装置包括：

预处理模块，用于获取基础样本图片，并对所述基础样本图片进行预处理，得到目标处理图片，所述基础样本图片用于显示基础字符以及基础类字符图案，所述基础类字符图案用于指示与所述基础字符形状相似的图案；

切分模块，用于采用预置检测算法切分所述目标处理图片，得到多个标记子图，所述多个标记子图包括目标字符以及目标类字符图案；

排除模块，用于利用深度学习算法排除所述多个标记子图中的所述目标类字符图案，得到多个目标子图，所述多个目标子图中只包括所述目标字符；

计算模块，用于基于相似度算法计算所述多个目标子图中任意两个目标子图之间的相关度，得到多个相关度矩阵；

分类模块，用于通过聚类算法对所述多个相关度矩阵进行分类，得到多组分类矩阵，并根据所述多组分类矩阵对所述多个目标子图进行分类；

识别模块，用于对分类后的多个目标子图进行字符识别，得到字符识别结果。

9.一种文字识别的设备，其特征在于，所述文字识别的设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述文字识别的设备执行如权利要求1-7中任意一项所述的文字识别的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述文字识别的方法。