CN112241739A

CN112241739A - 识别文本错误的方法、装置、设备和计算机可读介质

Info

Publication number: CN112241739A
Application number: CN202011493542.9A
Authority: CN
Inventors: 陈越; 郑志凯; 左佳伟; 王林芳; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-01-19

Abstract

本发明公开了识别文本错误的方法、装置、设备和计算机可读介质，涉及计算机技术领域。该方法的一具体实施方式包括：基于预设文本模板图像，得到待识别文本图像；通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的坐标；按照所述文字区域的坐标定位文字区域，并在所述文字区域中结合所述预设文本模板图像，识别出文本错误。该实施方式能够普查产品上的所有文本，以实现文本的高精度检查。

Description

识别文本错误的方法、装置、设备和计算机可读介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别文本错误的方法、装置、设备和计算机可读介质。

背景技术

文本错误的识别是工业质检中的流程之一。通常需要判断产品上的文本是否存在漏印、错印，并且判断文本印刷的位置和大小是否正确。

然而，现有技术中至少存在如下问题：难以普查产品上的所有文本，以实现文本的高精度检。

发明内容

有鉴于此，本发明实施例提供一种识别文本错误的方法、装置、设备和计算机可读介质，能够普查产品上的所有文本，以实现文本的高精度检查。

为实现上述目的，根据本发明实施例的一个方面，提供了一种识别文本错误的方法，包括：

基于预设文本模板图像，得到待识别文本图像；

通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的坐标；

按照所述文字区域的坐标定位文字区域，并在所述文字区域中结合所述预设文本模板图像，识别出文本错误。

所述通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的坐标，包括：

通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的原始坐标；

外扩所述文字区域，并对外扩后的文字区域做二值化操作，以确定坐标修正值；

采用所述坐标修正值更新所述文字区域的原始坐标，得到所述待识别文本图像中每个文字区域的坐标。

所述外扩所述文字区域，并对外扩后的文字区域做二值化操作，以确定坐标修正值，包括：

按照预设比例外扩所述文字区域；

根据外扩后的文字区域每行像素中像素值和预设像素阈值确定列向量元素，所述列向量中元素按照所述每行像素的行顺序排列；

分别从所述列向量的起始元素和所述列向量的末端元素开始，确定第一个大于预设显示数量阈值的元素的位置；

将从所述列向量的起始元素确定的位置作为第一纵坐标修正值，将从所述列向量的末端元素确定的位置作为第二纵坐标修正值。

所述采用所述坐标修正值更新所述文字区域的原始坐标，得到所述待识别文本图像中每个文字区域的坐标，包括：

所述文字区域的原始坐标包括所述文字区域的左上角坐标和所述文字区域的右下角坐标，

采用所述第一纵坐标修正值、所述预设比例、所述文字区域的左上角纵坐标和所述文字区域的右下角纵坐标，更新所述文字区域的左上角纵坐标；

采用所述第二纵坐标修正值、所述预设比例、所述文字区域的左上角纵坐标和所述文字区域的右下角纵坐标，更新所述文字区域的右下角纵坐标。

所述在所述文字区域中结合所述预设文本模板图像，识别出文本错误，包括：

确定所述文字区域中大于预设像素阈值的像素值的数量与对应区域中大于预设像素阈值的像素值的数量的差值，若大于预设内容错误阈值，则识别出文本内容错误；所述对应区域是所述预设文本模板图像中与所述文字区域对应的区域。

所述文字区域与所述预设文本模板图像中文字区域的最大交并比，小于预设位置错误阈值，则识别出所述文字区域中文本位置错误，

所述最大交并比等于文字区域交集与文字区域并集的最大比值，所述文字区域交集是所述文字区域与所述预设文本模板图像中每个文字区域的交集，所述文字区域并集是所述文字区域与所述预设文本模板图像中每个文字区域的并集。

根据所述文字区域的坐标，获知所述文字区域的高度值；

按照所述文字区域的高度值和所述预设文本模板图像的高度转换比例，得到所述文字区域的实际高度值；

基于所述文字区域的实际高度值和文字高度阈值，识别出所述文字区域中文本高度错误。

在所述文字区域中结合所述预设文本模板图像，识别出所述文字区域中文本高度错误，则识别出所述文字区域中文本位置错误；

或，

在所述文字区域中结合所述预设文本模板图像，识别出所述文字区域中文本高度正确，且所述文字区域与所述预设文本模板图像的交并比，小于预设位置错误阈值，则识别出所述文字区域中文本位置错误，

所述交并比等于文字区域交集与文字区域并集的比值，所述文字区域交集是所述文字区域与所述预设文本模板图像中对应文字区域的交集，所述文字区域并集是所述文字区域与所述预设文本模板图像中对应文字区域的并集。

根据本发明实施例的第二方面，提供了一种识别文本错误的装置包括：

配准模块，用于基于预设文本模板图像，配准对齐文本得到图像，得到待识别文本图像；

检测模块，用于通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的坐标；

识别模块，用于按照所述文字区域的坐标定位文字区域，并在所述文字区域中结合所述预设文本模板图像，识别出文本错误。

根据本发明实施例的第三方面，提供了一种识别文本错误的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。

上述发明中的一个实施例具有如下优点或有益效果：基于预设文本模板图像，得到待识别文本图像；通过预设文字检测模型以单个字符为单位，检测待识别文本图像中的文字，得到待识别文本图像中每个文字区域的坐标；按照文字区域的坐标定位文字区域，并在文字区域中结合预设文本模板图像，识别出文本错误。采用预设文本模板图像识别文本错误，识别过程可以自动实行，因而能够普查产品上的所有文本，以实现文本的高精度检查。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的识别文本错误的方法的主要流程的示意图；

图2是根据本发明实施例的配准对齐文本采集图像的流程示意图；

图3是根据本发明实施例的配准对齐文本采集图像的示意图；

图4是根据本发明实施例的更新文字区域的原始坐标的流程示意图；

图5是根据本发明实施例的确定坐标修正值的流程示意图；

图6是根据本发明实施例中外扩后的文字区域的示意图；

图7是根据本发明实施例得到待识别文本图像中每个文字区域的坐标的流程示意图；

图8是根据本发明实施例的文本位置错误的示意图；

图9是根据本发明实施例的识别出高度错误的流程示意图；

图10是根据本发明实施例的识别文本错误的装置的主要结构的示意图；

图11是本发明实施例可以应用于其中的示例性系统架构图；

图12是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，识别文本错误常用以下两种方法。第一种是传统的由质检员对抽检之后样品上的文字进行检查，判断文字是否错误。第二种是采集待检测产品的图像，之后通过光学字符识别（Optical Character Recognition，OCR）技术识别产品上的文字，判断是否存在错误。

传统由质检员对抽检之后样品上的文字进行检查的方法，效率低，速度慢，无法做到对所有产品的普查，判断存在文本错误后只能报废整个批次的产品，产生大量浪费。

基于OCR的方法受限于技术本身的瓶颈，不能做到高精度检查，对形近字识别效果较差。由于OCR本身往往需要上下文关系辅助识别，对于单个字的识别效果较差。另外，OCR技术中的文字检测以行为单位进行，无法定位文本每一个字的位置，难以判断文字高度是否异常。

综上，存在难以普查产品上的所有文本，以实现文本的高精度检查。

为了解决难以普查产品上的所有文本，以实现文本的高精度检查，可以采用以下本发明实施例中的技术方案。

参见图1，图1是根据本发明实施例的识别文本错误的方法主要流程的示意图，采用预设文本模板图像和预设文字检测模型，确定文字区域的坐标，进而结合预设文本模板图像识别出文本错误。如图1所示，具体包括以下步骤：

S101、基于预设文本模板图像，得到待识别文本图像。

在本发明实施例中，采用预设文本模板图像识别文本错误。预设文本模板图像中包括一个或多个文字，每个文字对应一个文字区域。具体地，首先对产品样本采集图像，在产品样本上标识有文本，文本中包括多个文字。作为一个示例，产品可以是图书。

在实际生产过程中，通过图像采集设备，全量或抽样采集生产出的产品图像即产品样本采集图像，以供后续步骤使用。产品样本采集图像，经人工检查无误后作为批量生产过程中的文本模板图像。

图像采集方式视产品材质的差异，可以使用摄像头拍摄或者通过扫描仪扫描。若使用摄像头拍摄，需要尽可能的保持拍摄环境光照条件固定，避免产品表面出现反光。

在本发明实施例中，在识别文本错误的过程中，首先需要采集文本图像，作为一个示例，可以通过摄像头采集文本图像。将采集到的文本图像称为文本采集图像。可以理解的是，文本采集图像是产品表面文字的图像。

由于预设文本模板和文本采集图像，难免存在大小和/或角度的差异。为了消除上述差异，需要对文本采集图像按照预设文本模板进行配置对齐，以缩放大小和/或旋转角度。

参见图2，图2是根据本发明实施例的配准对齐文本采集图像的流程示意图，具体包括以下步骤：

S201、基于预设文本模板图像的特征点和文本采集图像的特征点，进行两两匹配。

分别在预设文本模板图像和文本采集图像中，查找关键点。作为一个示例，可以采用FAST算法查找关键点。

然后，对于预设文本模板图像的特征点和文本采集图像的特征点，进行两两匹配。

S202、按照预设文本模板图像与文本采集图像匹配成功的特征点，确定变换矩阵。

预设文本模板图像与文本采集图像匹配成功的特征点，则意味两个特征点是对应关系。进而，基于上述匹配成功的特征点，能够确定从文本采集图像到预设文本模板的变换矩阵。

S203、依据变换矩阵对文本采集图像进行旋转和裁切，得到待识别文本图像。

可以依据变换矩阵对文本采集图像进行旋转和裁切，得到待识别文本图像。

参见图3，图3是根据本发明实施例的配准对齐文本采集图像的示意图。图3中文本采集图像按照文本模板图像，进行旋转和放大，进而得到待识别文本图像。

在图2的实施例中，通过预设文本模板图像，能够配准对齐文本采集图像。在本发明的一个实施例中，还可以采用尺度不变特征变换（Scale-Invariant FeatureTransform，SIFT）或加速稳健特征（Speeded Up Robust Features，SURF）实现文本采集图像的配准对齐，得到待识别文本图像。

S102、通过预设文字检测模型以单个字符为单位，检测待识别文本图像中的文字，得到待识别文本图像中每个文字区域的坐标。

在待识别文本图像中包括一个或多个文字，需要识别出每个文字所在的文字区域。可以理解的是，文字区域是一个文字所在区域。

在本发明实施例中，可以通过预设文字检测模型以单个字符为单位，检测待识别文本图像中的文字，得到待识别文本图像中每个文字区域的坐标。

作为一个示例，预设文字检测模型可以是Faster-RCNN 深度神经网络模型、Yolo算法确定的模型或CenterNet算法确定的模型。其中，Yolo是一种基于深度神经网络的对象识别和定位算法。

在预设文字检测模型是Faster-RCNN 深度神经网络模型的情况下，检测单位为单个字符。训练数据由人工标注的150张带有密集文字的图片组成，图片中共包含不同方向的1.4万个字符，每个字符的位置表示为一个矩形区域。在构建该训练数据时，尽可能的使每一个矩形位置刚好包含整个字符。

将待识别文本图像输入预设文字检测模型，以单个字符为单位，检测待识别文本图像中的文字。预设文字检测模型输出待识别文本图像中每个文字区域的坐标。

作为一个示例，待识别文本图像中每个文字区域的坐标包括：文字区域的左上角坐标和文字区域的右下角坐标。每一个文字区域坐标为：

]，其中，（

））表示文字区域的左上角坐标，（

）表示文字区域的右下角坐标。

在本发明的一个实施例中，由于预设文字检测模型存在误差，即预设文字检测模型输出的文字区域的坐标需要微调，从而提高识别文本错误的准确性。

参见图4，图4是根据本发明实施例的更新文字区域的原始坐标的流程示意图，具体包括：

S401、通过预设文字检测模型以单个字符为单位，检测待识别文本图像中的文字，得到待识别文本图像中每个文字区域的原始坐标。

与上文中的方案类似，通过预设文字检测模型以单个字符为单位，检测待识别文本图像中的文字，得到待识别文本图像中每个文字区域的原始坐标。

S402、外扩文字区域，并对外扩后的文字区域做二值化操作，以确定坐标修正值。

在实践本发明实施例的过程中，发现通过预设文字检测模型得到的文字区域与实际文字区域相比较偏小，进而导致预设文字检测模型存在误差。

那么，以原有文字区域为中心，向外扩展文字区域。并在外扩后的文字区域做二值化操作，以确定坐标修正值。

参见图5，图5是根据本发明实施例的确定坐标修正值的流程示意图，具体包括以下步骤：

S501、按照预设比例外扩文字区域。

以原有文字区域为中心，按照预设比例向外扩展文字区域。作为一个示例，预设比例为α向外扩展文字区域。可以截取文字区域外扩2α，即文字区域的左右上下各α。如：α为0.05。

S502、根据外扩后的文字区域每行像素中像素值和预设像阈值确定列向量元素，列向量中元素按照每行像素的行顺序排列。

文字区域外扩后，需要对外扩后的文字区域做二值化操作。其目的在于，确定坐标修正值。

首先，需要判断外扩后的文字区域是白底黑字，还是黑底白字。统计像素值大于127的像素数量，以及小于或等于127的像素数量。

大于127的像素数量，多于小于或等于127的像素数量，则外扩后的文字区域是白底黑字；反之，大于127的像素数量，少于或等于小于或等于127的像素数量，则外扩后的文字区域是黑底白字。

在确定外扩后文字区域文字颜色后，可以确定列向量。在下述实施例中，以外扩后的文字区域是黑底白字为例进行说明。

考虑到在实际识别文本错误的过程中，尤其关注文字高度，则在本发明实施例中，可以仅确定纵坐标修正值。当然，也可以采用同样的方式确定横坐标修正值。

纵向坐标修正值由外扩后的文字区域中每行像素确定。作为一个示例，在黑底白字的情况下，可以将上述每行像素中大于预设像素阈值的像素数量，作为列向量元素，作为一个示例，预设像素阈值为127。

作为另一个示例，在白底黑字的情况下，可以将上述每行像素中小于或等于预设像素阈值的像素数量，作为列向量元素，作为一个示例，预设像素阈值为127。

那么，包括多个列向量元素，列向量元素按照每行像素的行顺序排列。作为一个示例，在黑底白字的情况下，列向量的起始元素即：起始行像素中大于预设像素阈值的像素数量；列向量的末端像素即：末端行像素中大于预设像素阈值的像素数量。

S503、分别从列向量的起始元素和列向量的末端元素开始，确定第一个大于预设显示数量阈值的元素的位置。

若起始元素中没有大于预设显示数量阈值的元素，则说明起始行并不包括文字；若末端行元素中没有大于预设显示数量阈值的元素，则说明末端行像素中不包括文字。

分别从列向量的起始元素和列向量的末端元素开始，确定第一个大于预设显示数量阈值的元素的位置。

作为一个示例，从列向量的起始元素开始，确定第一个大于预设显示数量阈值的元素的位置是第三行元素；从列向量的末端元素开始，确定第一个大于预设显示数量阈值的元素的位置是倒数第五行元素。

S504、将从列向量的起始元素确定的位置作为第一纵坐标修正值，将从列向量的末端元素确定的位置作为第二纵坐标修正值。

从列向量的起始元素确定的位置，即文字所在最高位置；从列向量的末端元素确定的位置，即文字所在最低位置。

继而，将从列向量的起始元素确定的位置作为第一纵坐标修正值，将从列向量的末端元素确定的位置作为第二纵坐标修正值。

参见图6，图6是根据本发明实施例中外扩后的文字区域的示意图。图6中是一张文字区域的图像。其中，从左至右是横向坐标轴，从上到下是纵向坐标轴。以文字区域的左上角坐标（

），以及文字区域的右下角坐标（

）标识文字区域。

文字区域的虚线方框，即外扩后的文字区域。在外扩后的文字区域中，由列向量的起始元素确定的位置作为第一纵坐标修正值，由从列向量的末端元素确定的位置作为第二纵坐标修正值。

沿用S503中示例，确定第一个大于预设图像阈值的元素的位置是第三行，以及确定第一个大于预设图像阈值的元素的位置是倒数第五行。

则将第三行的位置，作为第一纵坐标修正值；将倒数第五行的位置，作为第二纵坐标修正值。

在图5的实施例中，通过外扩后的文字区域，确定纵坐标的两个修正值，进而提高文字区域纵坐标的准确性。

S403、采用坐标修正值更新文字区域的原始坐标，得到待识别文本图像中每个文字区域的坐标。

为了提高坐标的准确性，采用坐标修正值更新文字区域的原始坐标，得到待识别文本图像中每个文字区域的坐标。

参见图7，图7是根据本发明实施例的得到待识别文本图像中每个文字区域的坐标的流程示意图，具体包括：

S701、采用第一纵坐标修正值、预设比例、文字区域的左上角纵坐标和文字区域的右下角纵坐标，更新文字区域的左上角纵坐标。

在实际应用中，通常以文字区域的左上角坐标（

）和文字区域的右下角坐标（

），标识文字区域。即，文字区域的原始坐标包括文字区域的左上角坐标和文字区域的右下角坐标。

那么，可以采用第一纵坐标修正值、预设比例、文字区域的左上角纵坐标和文字区域的右下角纵坐标，更新文字区域的左上角纵坐标。

可以按照公式1，计算得到文字区域的左上角纵坐标

。其中， α是预设比例，

是第一纵坐标修正值，其中下角标1代表第一纵坐标。

公式1

S702、采用第二纵坐标修正值、预设比例、文字区域的左上角纵坐标和文字区域的右下角纵坐标，更新文字区域的右下角纵坐标。

那么，可以采用第二纵坐标修正值、预设比例、文字区域的左上角纵坐标和文字区域的右下角纵坐标，更新文字区域的右下角纵坐标。

可以按照公式2，计算得到文字区域的右下角纵坐标

。其中，α是预设比例，

是第二纵坐标修正值，其中，下角标2代表第二纵坐标

公式2

沿用S503中示例，即：

是第三行的位置，

是倒数第五行的位置。

在图7的实施例中，以坐标修正值更新文字区域的原始坐标，进而提高文字区域的准确性。

S103、按照文字区域的坐标定位文字区域，并在文字区域中结合预设文本模板图像，识别出文本错误。

可以按照文字区域的坐标定位文字区域，进而能够在文字区域中结合预设文本模板图像，识别出文字错误。

下面基于文本错误的种类，分为以下四种情况进行说明

情况一：

文本错误的种类是文本内容错误。文本内容错误是指该处的文字和预设文本模板图像上的文字不同。如：预设文本模板图像上的“日”被印刷成文字区域的“曰”。

可以采用以下方式识别出文本内容错误。确定文字区域之后，同时在文字区域和预设文本模板图像中对应文字区域，做二值化操作。然后，进行比对。若不同的像素数量大于预设内容错误阈值，则视为文字内容错误。作为一个示例，实际比对中，预设内容错误阈值为10%。

也就是说，确定文字区域中大于预设像素阈值的像素值的数量与对应区域中大于预设像素阈值的像素值的数量的差值，若大于预设内容错误阈值，则识别出文本内容错误；对应区域是预设文本模板图像中与文字区域对应的区域。

情况二：

文本错误的种类是文本位置错误。文字位置错误是指该处的文字位置出现偏差。

参见图8，图8是根据本发明实施例的文本位置错误的示意图。

可以采用以下方式识别出文本位置错误。在判断文字区域1是否存在文本位置错误的情况下，可以计算文字区域1与预设文本模板图像中每个文字区域的交并比。其中，最大交并比的文字区域，即文字区域1在预设文本模板图像中对应的区域。

也就是说，分别计算文字区域1与预设文本模板图像中每个文字区域的交并比。预设文本模板图像中有多少个文字区域，就得到多少个交并比。

在图8中，通过计算交并比获知，待识别文本图像中第二行第五列中文字区域对应的区域是：文本模板图像中第二行第五列中文字区域。图8中待识别文本图像中第二行第五列中文字区域，明显大于文本模板图像中第二行第五列对应的文字区域。

具体来说，计算文字区域1与预设文本模板图像中文字区域的最大交并比，即文字区域1与预设文本模板图像中对应文字区域的交并比。

最大交并比小于预设位置错误阈值，则识别出文字区域1中文本位置错误。作为一个示例，预设位置错误阈值等于90%。

也就是说，文字区域与预设文本模板图像中文字区域的最大交并比，小于预设位置错误阈值，则识别出文字区域中文本位置错误。

最大交并比等于文字区域交集与文字区域并集的最大比值，文字区域交集是文字区域与预设文本模板图像中每个文字区域的交集，文字区域并集是文字区域与预设文本模板图像中每个文字区域的并集。

情况三：

文本错误的种类是文本高度错误。文字高度错误是指该处的文字高度出现偏差。作为一个示例，文字高度不符合生产规范，如：规定包装上的“净含量”字高应该大于3毫米。

参见图9，图9是根据本发明实施例的识别出高度错误的流程示意图，具体包括：

S901、根据文字区域的坐标，获知文字区域的高度值。

根据文字区域的最大纵坐标和文字区域的最小纵坐标，就可以获知文字区域的高度值。

S902、按照文字区域的高度值和预设文本模板图像的高度转换比例，得到文字区域的实际高度值。

一般来说，文字区域的高度值并非实际高度，需要基于预设文本模板图像的高度转换比例，计算得到文字区域的实际高度值。其中，高度转换比例可以预先设置。

参见公式3，其中h是文字区域的实际高度值，

是预设文本模板图像的高度转换比例。

公式3

S903、基于文字区域的实际高度值和文字高度阈值，识别出文字区域中文本高度错误。

作为一个示例，在文字区域的实际高度值未满足文字高度阈值时，则识别出文字区域中文本高度错误。

如：，文字需要小于文字高度阈值，在文字区域的实际高度值大于或等于文字高度阈值，则识别出文字区域中文本高度错误。

在图9的实施例中，能够识别出文字区域中文本高度错误。

情况四：

在确认文本高度错误的情况下，可以直接识别出文本位置错误。在文本高度未发生错误的情况下，则需要再识别是否文本位置错误。

这样，在文本高度错误的情况下，无需再通过交并比识别文本位置是否错误。

具体地，在文字区域中结合预设文本模板图像，识别出文字区域中文本高度错误，则识别出文字区域中文本位置错误；

或，

在文字区域中结合预设文本模板图像，识别出文字区域中文本高度正确，且文字区域与预设文本模板图像的交并比，小于预设位置错误阈值，则识别出文字区域中文本位置错误。

在上述实施例中，基于预设文本模板图像，得到待识别文本图像；通过预设文字检测模型以单个字符为单位，检测待识别文本图像中的文字，得到待识别文本图像中每个文字区域的坐标；按照文字区域的坐标定位文字区域，并在文字区域中结合预设文本模板图像，识别出文本错误。采用预设文本模板图像识别文本错误，识别过程可以自动实行，因而能够普查产品上的所有文本，以实现文本的高精度检查。

采用本发明实施例中的技术方案，能够自动定位产品上的文字区域，并采用与文本模板图像比对的方式，识别出文本错误。而并不需要判别文本区域文字的具体含义，避免OCR误识别带来的干扰。同时也不需要人工的参与，效率高，能够对所有产品进行普查。

参见图10，图10是根据本发明实施例的识别文本错误的装置的主要结构的示意图，识别文本错误的装置可以实现识别文本错误的方法，如图10所示，识别文本错误的装置1000具体包括：

配准模块1001，用于基于预设文本模板图像，得到待识别文本图像；

检测模块1002，用于通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的坐标；

识别模块1003，用于按照所述文字区域的坐标定位文字区域，并在所述文字区域中结合所述预设文本模板图像，识别出文本错误。

在本发明的一个实施例中，检测模块1002，具体用于通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的原始坐标；

在本发明的一个实施例中，检测模块1002，具体用于按照预设比例外扩所述文字区域；

将外扩后的文字区域每行像素中像素值大于预设像素阈值的像素数量，作为列向量元素，所述列向量中元素按照所述每行像素的行顺序排列；

在本发明的一个实施例中，检测模块1002，具体用于所述文字区域的原始坐标包括所述文字区域的左上角坐标和所述文字区域的右下角坐标，

在本发明的一个实施例中，识别模块1003，具体用于确定所述文字区域中大于预设像素阈值的像素值的数量与对应区域中大于预设像素阈值的像素值的数量的差值，若大于预设内容错误阈值，则识别出文本内容错误；所述对应区域是所述预设文本模板图像中与所述文字区域对应的区域。

在本发明的一个实施例中，识别模块1003，具体用于所述文字区域与所述预设文本模板图像的交并比，小于预设位置错误阈值，则识别出所述文字区域中文本位置错误，

在本发明的一个实施例中，识别模块1003，具体用于根据所述文字区域的坐标，获知所述文字区域的高度值；

在本发明的一个实施例中，识别模块1003，具体用于在所述文字区域中结合所述预设文本模板图像，识别出所述文字区域中文本高度错误，则识别出所述文字区域中文本位置错误；

或，

图11示出了可以应用本发明实施例的识别文本错误的方法或识别文本错误的装置的示例性系统架构 1100。

如图11所示，系统架构1100可以包括终端设备1101、1102、1103，网络1104和服务器1105。网络1104用以在终端设备1101、1102、1103和服务器1105之间提供通信链路的介质。网络1104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1101、1102、1103通过网络1104与服务器1105交互，以接收或发送消息等。终端设备1101、1102、1103上可以安装有各种通讯客户端应用，例如识别文本错误应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等（仅为示例）。

终端设备1101、1102、1103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1105可以是提供各种服务的服务器，例如对用户利用终端设备1101、1102、1103所浏览的购物类网站提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果（例如目标推送信息、产品信息--仅为示例）反馈给终端设备。

需要说明的是，本发明实施例所提供的识别文本错误的方法一般由服务器1105执行，相应地，识别文本错误的装置一般设置于服务器1105中。

应该理解，图11中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图12，其示出了适于用来实现本发明实施例的终端设备的计算机系统1200的结构示意图。图12示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元（CPU）1201，其可以根据存储在只读存储器（ROM）1202中的程序或者从存储部分1208加载到随机访问存储器（RAM）1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出（I/O）接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元（CPU）1201执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括配准模块、检测模块和识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，配准模块还可以被描述为“基于预设文本模板图像，配准对齐文本得到图像，得到待识别文本图像”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

基于预设文本模板图像，得到待识别文本图像；

根据本发明实施例的技术方案，基于预设文本模板图像，得到待识别文本图像；通过预设文字检测模型以单个字符为单位，检测待识别文本图像中的文字，得到待识别文本图像中每个文字区域的坐标；按照文字区域的坐标定位文字区域，并在文字区域中结合预设文本模板图像，识别出文本错误。采用预设文本模板图像识别文本错误，识别过程可以自动实行，因而能够普查产品上的所有文本，以实现文本的高精度检查。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种识别文本错误的方法，其特征在于，包括：

基于预设文本模板图像，得到待识别文本图像；

2.根据权利要求1所述识别文本错误的方法，其特征在于，所述通过预设文字检测模型以单个字符为单位，检测所述待识别文本图像中的文字，得到所述待识别文本图像中每个文字区域的坐标，包括：

3.根据权利要求2所述识别文本错误的方法，其特征在于，所述外扩所述文字区域，并对外扩后的文字区域做二值化操作，以确定坐标修正值，包括：

按照预设比例外扩所述文字区域；

根据外扩后的文字区域每行像素中像素值与预设像素阈值，确定列向量元素，所述列向量中元素按照所述每行像素的行顺序排列；

4.根据权利要求3所述识别文本错误的方法，其特征在于，所述采用所述坐标修正值更新所述文字区域的原始坐标，得到所述待识别文本图像中每个文字区域的坐标，包括：

5.根据权利要求1或2所述识别文本错误的方法，其特征在于，所述在所述文字区域中结合所述预设文本模板图像，识别出文本错误，包括：

6.根据权利要求1或2所述识别文本错误的方法，其特征在于，所述在所述文字区域中结合所述预设文本模板图像，识别出文本错误，包括：

7.根据权利要求1或2所述识别文本错误的方法，其特征在于，所述在所述文字区域中结合所述预设文本模板图像，识别出文本错误，包括：

根据所述文字区域的坐标，获知所述文字区域的高度值；

8.根据权利要求1或2所述识别文本错误的方法，其特征在于，所述在所述文字区域中结合所述预设文本模板图像，识别出文本错误，包括：

或，

9.一种识别文本错误的装置，其特征在于，包括：

配准模块，用于基于预设文本模板图像，得到待识别文本图像；

10.一种识别文本错误的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。