CN114283403B

CN114283403B - 一种图像检测方法、装置、存储介质及设备

Info

Publication number: CN114283403B
Application number: CN202111604840.5A
Authority: CN
Inventors: 范湉湉; 黄灿; 王长虎
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2024-01-16
Anticipated expiration: 2041-12-24
Also published as: CN114283403A

Abstract

本申请公开了一种图像检测方法、装置、存储介质及设备，该方法包括：首先对获取到的目标图像进行检测，得到包含单字符位置的二值图，然后对该二值图进行转换处理，得到目标图像对应的_β骨架图；接着，将该_β骨架图输入预先构建的图神经网络预测模型，预测得到_β骨架图中各个图节点之间的边的分类结果，进而可以利用分类结果对_β骨架图进行更新，并根据更新结果对目标图像进行检测，得到对应的文本检测结果。可见，由于本申请是先利用_β骨架图表征目标图像中各个单字符的关联关系，然后通过预先构建的图神经网络预测模型确定出_β骨架图中各个边的分类结果，进而实现了基于单字符检测的文本行或单词粒度的检测结果，从而提高了检测准确度，也提高了用户体验。

Description

一种图像检测方法、装置、存储介质及设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像检测方法、装置、存储介质及设备。

背景技术

随着智能手机、平板电脑等智能终端设备的普及，图像的文字检测在人们日常生活和工作中的运用越来越广泛。如人们可以提取出图像上的关键文字信息，用于记录、翻译或者沟通等场景。

目前在进行图像检测时，通常采用的是基于深度学习的两种检测方法：一种是基于目标检测的深度学习检测方法，该方法直接对文本行或单词粒度的文本框做回归预测，但无法解决弯曲文本、复杂排版等图像场景检测效果较差的问题。而另一常用的检测方法则是基于语义分割的深度学习检测方法，该方法虽然可以预测单像素或单词切片级别、以及连接或断裂级别的信息，并整合得到文本行或单词粒度的检测结果。但对于字符间隔较大的单词或文本行、有重叠的文本区域、行距较近的文本等图像场景，仍然无法取得较好的检测效果，从而无法满足大部分用户的要求。

发明内容

本申请实施例的主要目的在于提供一种图像检测方法、装置、存储介质及设备，能够对字符间隔较大的单词或文本行、有重叠的文本区域、行距较近的文本等图像场景进行有效检测，提高检测准确度，进而满足用户的需求。

本申请实施例提供了一种图像检测方法，包括：

获取待检测的目标图像，并对所述目标图像进行检测，得到包含单字符位置的二值图；

对所述包含单字符位置的二值图进行转换处理，得到所述目标图像对应的β骨架图；所述β骨架图中每个图节点表示所述目标图像中对应位置的单字符；

将所述目标图像对应的β骨架图输入预先构建的图神经网络预测模型，预测得到所述β骨架图中各个图节点之间的边的分类结果；

利用所述分类结果对所述β骨架图进行更新，并根据更新结果对所述目标图像进行检测，得到所述目标图像对应的文本检测结果。

一种可能的实现方式中，所述对所述包含单字符位置的二值图进行转换处理，得到所述目标图像对应的β骨架图，包括：

确定所述包含单字符位置的二值图中每个单字符所在位置的中心点，作为初始β骨架图的图节点；

选择任意两个所述图节点，分别作为第一图节点和第二图节点，并构建以二者之间的连线作为直径的圆；

当所述圆中未包含其他图节点时，将第一图节点和第二图节点之间的连线作为二者之间的边；或者，当所述圆中包含其他图节点时，将第一图节点和第二图节点之间的连线不作为二者之间的边；依次类推，直至确定出所有图节点之间的边；

利用所述初始β骨架图中的所有图节点以及确定出的所有图节点之间的边，构成β骨架图。

一种可能的实现方式中，所述方法还包括：

从所述目标图像中，提取表征所述目标图像的字符信息的图像特征；

从所述包含单字符位置的二值图中，提取所述单字符对应的字符位置特征；

从所述β骨架图中，提取表征所述单字符的相对位置信息的相对位置特征；

所述将所述目标图像对应的β骨架图输入预先构建的图神经网络预测模型，预测得到所述β骨架图中各个图节点之间的边的分类结果，包括：

将所述目标图像对应的β骨架图、所述图像特征、所述字符位置特征、所述相对位置特征共同输入预先构建的图神经网络预测模型，预测得到所述β骨架图中各个图节点之间的边的分类结果。

一种可能的实现方式中，所述预先构建的图神经网络预测模型包括嵌入层、全连接层和输出层；所述将所述目标图像对应的β骨架图、所述图像特征、所述字符位置特征、所述相对位置特征共同输入预先构建的图神经网络预测模型，预测得到所述β骨架图中各个图节点之间的边的分类结果，包括：

将所述目标图像对应的β骨架图、所述图像特征、所述字符位置特征、所述相对位置特征共同输入预先构建的图神经网络预测模型，利用所述嵌入层对所述图像特征、所述字符位置特征、所述相对位置特征进行融合处理，得到所述β骨架图对应的融合后的节点特征和边特征；

将所述β骨架图对应的融合后的节点特征和边特征进行拼接，并将拼接结果输入所述全连接层后，利用所述全连接层对所述β骨架图中各个图节点之间的边进行分类处理，得到各个边对应的分类结果，并通过所述输出层进行输出。

一种可能的实现方式中，所述利用所述分类结果对所述β骨架图进行更新，并根据更新结果对所述目标图像进行检测，得到所述目标图像对应的文本检测结果，包括：

当分类结果表明其对应的边为相同词语中的边时，则在所述β骨架图中保留所述边；或者，当分类结果表明其对应的边不是相同词语中的边时，则在所述β骨架图中隐藏所述边，实现对所述β骨架图的更新；

根据所述包含单字符位置的二值图中单字符所在的位置框和更新后的所述β骨架图，确定词语粒度的文本检测结果，并作为所述目标图像对应的文本检测结果。

一种可能的实现方式中，所述对所述目标图像进行检测，得到包含单字符位置的二值图，包括：

通过深度学习图像检测模型，对所述目标图像进行检测，输出包含单字符位置的二值图。

一种可能的实现方式中，所述图神经网络预测模型的构建方式如下：

获取样本图像；

根据所述样本图像以及所述样本图像对应的训练β骨架图中各个图节点之间的边的分类标签对初始图神经网络预测模型进行训练，生成所述图神经网络预测模型。

一种可能的实现方式中，所述方法还包括：

获取验证图像；并对所述验证图像进行检测，得到包含单字符位置的验证二值图；

对所述包含单字符位置的验证二值图进行转换处理，得到所述验证图像对应的验证β骨架图；

将所述验证β骨架图输入所述图神经网络预测模型，获得所述验证β骨架图中各个图节点之间的边的分类预测结果；

当所述验证β骨架图中各个图节点之间的边的分类预测结果与所述验证β骨架图中各个图节点之间的边对应的分类标记结果不一致时，将所述验证图像重新作为所述样本图像，对所述图神经网络预测模型进行更新。

本申请实施例还提供了一种图像检测装置，所述装置包括：

第一获取单元，用于获取待检测的目标图像，并对所述目标图像进行检测，得到包含单字符位置的二值图；

第一转换单元，用于对所述包含单字符位置的二值图进行转换处理，得到所述目标图像对应的β骨架图；所述β骨架图中每个图节点表示所述单字符位置的中心点；

预测单元，用于将所述目标图像对应的β骨架图输入预先构建的图神经网络预测模型，预测得到所述β骨架图中各个图节点之间的边的分类结果；

检测单元，用于利用所述分类结果对所述β骨架图进行更新，并根据更新结果对所述目标图像进行检测，得到所述目标图像对应的文本检测结果。

一种可能的实现方式中，所述第一转换单元包括：

第一确定子单元，用于确定所述包含单字符位置的二值图中每个单字符所在位置的中心点，作为初始β骨架图的图节点；

构建子单元，用于选择任意两个所述图节点，分别作为第一图节点和第二图节点，并构建以二者之间的连线作为直径的圆；

第二确定子单元，用于当所述圆中未包含其他图节点时，将第一图节点和第二图节点之间的连线作为二者之间的边；或者，当所述圆中包含其他图节点时，将第一图节点和第二图节点之间的连线不作为二者之间的边；依次类推，直至确定出所有图节点之间的边；

构成子单元，用于利用所述初始β骨架图中的所有图节点以及确定出的所有图节点之间的边，构成β骨架图。

一种可能的实现方式中，所述装置还包括：

第一提取单元，用于从所述目标图像中，提取表征所述目标图像的字符信息的图像特征；

第二提取单元，用于从所述包含单字符位置的二值图中，提取所述单字符对应的字符位置特征；

第三提取单元，用于从所述β骨架图中，提取表征所述单字符的相对位置信息的相对位置特征；

所述预测单元具体用于：

一种可能的实现方式中，所述预先构建的图神经网络预测模型包括嵌入层、全连接层和输出层；所述预测单元包括：

输入子单元，用于将所述目标图像对应的β骨架图、所述图像特征、所述字符位置特征、所述相对位置特征共同输入预先构建的图神经网络预测模型，利用所述嵌入层对所述图像特征、所述字符位置特征、所述相对位置特征进行融合处理，得到所述β骨架图对应的融合后的节点特征和边特征；

拼接子单元，用于将所述β骨架图对应的融合后的节点特征和边特征进行拼接，并将拼接结果输入所述全连接层后，利用所述全连接层对所述β骨架图中各个图节点之间的边进行分类处理，得到各个边对应的分类结果，并通过所述输出层进行输出。

一种可能的实现方式中，所述检测单元包括：

更新子单元，用于当分类结果表明其对应的边为相同词语中的边时，则在所述β骨架图中保留所述边；或者，当分类结果表明其对应的边不是相同词语中的边时，则在所述β骨架图中隐藏所述边，实现对所述β骨架图的更新；

第三确定子单元，用于根据所述包含单字符位置的二值图中单字符所在的位置框和更新后的所述β骨架图，确定词语粒度的文本检测结果，并作为所述目标图像对应的文本检测结果。

一种可能的实现方式中，所述第一获取单元具体用于：

一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取样本图像；

训练单元，用于根据所述样本图像以及所述样本图像对应的训练β骨架图中各个图节点之间的边的分类标签对初始图神经网络预测模型进行训练，生成所述图神经网络预测模型。

一种可能的实现方式中，所述装置还包括：

第三获取单元，用于获取验证图像；并对所述验证图像进行检测，得到包含单字符位置的验证二值图；

第二转换单元，用于对所述包含单字符位置的验证二值图进行转换处理，得到所述验证图像对应的验证β骨架图；

获得单元，用于将所述验证β骨架图输入所述图神经网络预测模型，获得所述验证β骨架图中各个图节点之间的边的分类预测结果；

更新单元，用于当所述验证β骨架图中各个图节点之间的边的分类预测结果与所述验证β骨架图中各个图节点之间的边对应的分类标记结果不一致时，将所述验证图像重新作为所述样本图像，对所述图神经网络预测模型进行更新。

本申请实施例还提供了一种图像检测设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述图像检测方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述图像检测方法中的任意一种实现方式。

本申请实施例提供的一种图像检测方法、装置、存储介质及设备，首先获取待检测的目标图像，并对目标图像进行检测，得到包含单字符位置的二值图，然后对包含单字符位置的二值图进行转换处理，得到目标图像对应的β骨架图；其中，β骨架图中每个图节点表示目标图像中对应位置的单字符，接着，将目标图像对应的β骨架图输入预先构建的图神经网络预测模型，预测得到β骨架图中各个图节点之间的边的分类结果，进而可以利用分类结果对β骨架图进行更新，并根据更新结果对目标图像进行检测，得到目标图像对应的文本检测结果。可见，由于本申请实施例是先利用β骨架图表征目标图像中各个单字符的关联关系，然后通过预先构建的图神经网络预测模型确定出β骨架图中各个边的分类结果，进而实现了基于单字符检测的文本行或单词粒度的检测结果，从而提高了检测结果的准确性，也提高了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像检测方法的流程示意图；

图2为本申请实施例提供的目标图像的示例图；

图3为本申请实施例提供的包含单字符位置的二值图的示例图；

图4为本申请实施例提供的目标图像对应的β骨架图的示例图；

图5为本申请实施例提供的更新后的β骨架图的示例图；

图6为本申请实施例提供的目标图像对应的文本检测结果的示例图；

图7为本申请实施例提供的一种图像检测装置的组成示意图。

具体实施方式

随着各种智能终端设备的日益普及，光学字符识别(Optical CharacterRecognition，简称OCR)识别技术的应用场景越来越多，如人们可以利用OCR识别技术提取出图像上的关键文字信息，用于记录、翻译或者沟通等场景。

目前的图形检测技术主要是采用两种基于深度学习的检测方法：一种是基于目标检测的深度学习检测方法。另一种是基于语义分割的深度学习检测方法。但这两种检测方法对于字符间隔较大的单词或文本行、有重叠的文本区域、行距较近的文本等图像场景，均无法取得较好的检测效果，从而无法满足大部分用户的要求。因此，如何提高图像检测结果的准确度，以满足用户需求是目前亟待解决的技术问题。

为解决上述缺陷，本申请提供了一种图像检测方法，首先获取待检测的目标图像，并对目标图像进行检测，得到包含单字符位置的二值图，然后对包含单字符位置的二值图进行转换处理，得到目标图像对应的β骨架图；其中，β骨架图中每个图节点表示目标图像中对应位置的单字符，接着，将目标图像对应的β骨架图输入预先构建的图神经网络预测模型，预测得到β骨架图中各个图节点之间的边的分类结果，进而可以利用分类结果对β骨架图进行更新，并根据更新结果对目标图像进行检测，得到目标图像对应的文本检测结果。可见，由于本申请实施例是先利用β骨架图表征目标图像中各个单字符的关联关系，然后通过预先构建的图神经网络预测模型确定出β骨架图中各个边的分类结果，进而实现了基于单字符检测的文本行或单词粒度的检测结果，从而提高了检测结果的准确性，也提高了用户体验。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种图像检测方法的流程示意图，该方法包括以下步骤：

S101：获取待检测的目标图像，并对目标图像进行检测，得到包含单字符位置的二值图。

在本实施例中，将采用本实施例进行文本检测的任一图像定义为目标图像。并且，需要说明的是，本实施例不限制目标图像的类型，比如，目标图像可以是由红(R)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等。

并且，本实施例对目标图像的获取方式也不做限定，目标图像可以根据实际需要，通过截屏、拍摄等方式获得，例如，可以将聊天类APP中朋友发送的图像保存为目标图像，或者将利用相机拍摄到的包含文字的图像作为目标图像等。例如，如图2所示，其示出了本申请实施例提供的目标图像的示例图。

进一步的，在获取到目标图像后，可以利用现有或未来出现的图像检测技术对其进行检测，以得到包含单字符(如中文单字或英文字母等)位置的二值图，再通过执行后续步骤S102-S104，实现对该目标图像的精准检测。

具体来讲，一种可选的实现方式是，可以通过深度学习图像检测模型，对目标图像进行检测，输出包含单字符位置的二值图。比如，可以利用DBNet模型对目标图像进行单字符检测，以得到包含单字符位置的二值图。

其中，二值图指的是在图像中灰度等级只有两种的图像，即图像中的任何像素点的灰度值均为0或者255，分别代表黑色和白色。

在本实施例中，在利用DBNet模型对目标图像进行单字符检测，得到的包含单字符位置的二值图中，“白色”表示该二值图像中单字符所在位置，“黑色”表示图像的其他位置，例如，如图3所示的包含单字符位置的二值图的示例图，其中的白色区域表示的是图2所示的目标图像中单字符所在位置，黑色区域表示的是图2所示的目标图像中除字符外的其他位置。

S102：对包含单字符位置的二值图进行转换处理，得到目标图像对应的β骨架图；其中，β骨架图中每个图节点表示目标图像中对应位置的单字符。

在本实施例中，通过步骤S101获取到待检测的目标图像对应的得到包含单字符位置的二值图后，为了准确检测出目标图像对应的文本信息，进一步可以对利用圆可见性，对该包含单字符位置的二值图进行转换处理，得到目标图像对应的β骨架图，用以执行后续步骤S103。其中，β骨架图中每个图节点分别表示的是目标图像中对应位置的各个单字符。

具体来讲，一种可选的实现方式是，本步骤S102的具体实现过程可以包括：在得到包含单字符位置的二值图后，首先确定出该包含单字符位置的二值图中每个单字符所在位置的中心点，作为初始β骨架图的图节点，如图4所示，其中图节点0至20分别表示了图4中对应位置的21个单字符。然后，选择任意两个图节点，如从前述初始β骨架图中的21个图节点中任意选择两个图节点，分别作为第一图节点和第二图节点，并构建以二者之间的连线(即连接第一图节点和第二图节点之间最短线段)作为直径的圆。接着，当构建的圆中未包含出第一图节点和第二图节点外的其他图节点时，则将第一图节点和第二图节点之间的连线作为二者之间的边；或者，当构建的圆中包含其他图节点时，则将第一图节点和第二图节点之间的连线不作为二者之间的边，即不作为后续β骨架图包含的边；依次类推，直至遍历完成所有的图节点，并确定出所有图节点之间的边。进而可以利用确定出的所有图节点以及确定出的所有图节点之间的边，构成β骨架图。

举例说明：假设目标图像为图2所示，其对应的包含单字符位置的二值图如图3所示，则进一步的，在通过步骤S102对如图3所示的包含单字符位置的二值图进行转换处理后，可以得到如图4所示的β骨架图。其中，图4所示的β骨架图中每个图节点表征的是图2和图3中对应位置的单字符。

S103：将目标图像对应的β骨架图输入预先构建的图神经网络预测模型，预测得到β骨架图中各个图节点之间的边的分类结果。

在本实施例中，通过步骤S102得到目标图像对应的β骨架图后，为了能够更准确的检测出目标图像对应的文本信息，进一步的，还需将目标图像对应的β骨架图输入预先构建的图神经网络预测模型，以便利用该预先构建的图神经网络预测模型，对骨架图进行预测，得到β骨架图中各个图节点之间的边的分类结果，用以执行后续步骤S104，实现对目标图像的准确检测。

具体来讲，在本申请实施例的一种可能的实现方式中，为了提高检测结果的准确，在执行本步骤S103之前，本申请还需要执行下述步骤A1-A3：

步骤A1：从目标图像中，提取表征目标图像的字符信息的图像特征。

在本实现方式中，为了丰富检测依据，提高检测准确率，可以利用现有或未来出现的图像特征提取方法对其进行处理，比如，可以利用方向梯度直方图(ConvolutionalNeural Networks，简称HOG)特征提取、尺度不变特征变换(Scale-invariant featuretransform，简称SIFT)特征提取方法、或卷积神经网络(Convolutional NeuralNetworks,，简称CNN)等，从目标图像中提取出能够表征其图像信息的整体图像特征，再利用ROI Pooling层从中提取出表征单字符的字符信息的图像特征。或者，也可以先提取出字符区域的传统图像特征，再进一步提取出表征单字符的字符信息的图像特征，具体提取过程可根据实际情况进行设定，本申请对此不进行限定。

步骤A2：从包含单字符位置的二值图中，提取所述单字符对应的字符位置特征。

在本实现方式中，为了丰富检测依据，提高检测准确率，在得到包含单字符位置的二值图后，进一步可以利用现有或未来出现的特征提取方法对其进行处理，以从中提取出单字符对应的字符位置特征，比如，可以将该二值图中单字符所在方框的中心点位置或方框的四个顶点的位置作为单字符对应的字符位置特征等，具体提取过程可根据实际情况进行设定，本申请对此不进行限定。

步骤A3：从β骨架图中，提取表征单字符的相对位置信息的相对位置特征。

在本实现方式中，为了丰富检测依据，提高检测准确率，在得到包含单字符位置的二值图对应的β骨架图后，进一步可以利用现有或未来出现的特征提取方法对其进行处理，以从中提取出表征单字符的相对位置信息的相对位置特征，比如，可以将该β骨架图中单字符之间的边的长度作为表征两个单字符的相对位置信息的相对位置特征。

或者，也可以将得到的包含单字符位置的二值图中各个单字符所在方框的相对位置距离作为表征单字符的相对位置信息的相对位置特征，比如，可以将两个单字符所在方框的中心点位置在x轴或y轴上的距离，作为这两个单字符对应的相对位置特征等，具体提取过程可根据实际情况进行设定，本申请对此不进行限定。

在此基础上，上述步骤S103的实现过程具体可以包括：将获取到的目标图像对应的β骨架图、图像特征、字符位置特征、相对位置特征共同输入预先构建的图神经网络预测模型，预测得到β骨架图中各个图节点之间的边的分类结果。

其中，一种可选的实现方式是，预先构建的图神经网络预测模型可以为GAT或GCN等网络模型，且该预测模型包括嵌入层(embedding Layers)、全连接层和输出层。在此基础上，上述步骤S103的实现过程具体可以包括下述步骤B1-B2：、

步骤B1：将目标图像对应的β骨架图、图像特征、字符位置特征、相对位置特征共同输入预先构建的图神经网络预测模型，利用嵌入层对所述图像特征、字符位置特征、相对位置特征进行融合处理，得到β骨架图对应的融合后的节点特征和边特征。

在本实现方式中，将获取到的目标图像对应的β骨架图、图像特征、字符位置特征、相对位置特征共同输入预先构建的图神经网络预测模型后，首先可以利用嵌入层embedding将每一个图节点的图像特征和字符位置特征信息经过变换后发送给邻居图节点，以便每个接收特征信息的图节点将邻居节点发送的特征信息聚集起来，实现对图节点的局部结构信息进行融合，进一步的可以把之前的信息聚集之后做非线性变换，以增加模型的表达能力，得到β骨架图对应的融合后的节点特征和边特征，用以执行后续步骤B2。

步骤B2：将β骨架图对应的融合后的节点特征和边特征进行拼接，并将拼接结果输入全连接层后，利用全连接层对β骨架图中各个图节点之间的边进行分类处理，得到各个边对应的分类结果，并通过输出层进行输出。

在本实现方式中，通过步骤B1得到经过embedding层处理的β骨架图对应的融合后的节点特征和边特征后，进一步可以将β骨架图对应的融合后的节点特征和边特征进行拼接(具体拼接方式不做限定)，比如可以将这两个特征直接进行拼接得到一个拼接后的特征作为拼接结果，或者根据预设权重对二者进行加权拼接等，并在得到对应的拼接结果后，将其输入全连接层，以利用全连接层对β骨架图中各个图节点之间的边进行分类处理，得到各个边对应的分类结果，即，得到β骨架图中各个图节点之间的边为相同词语(如汉字或单词等)内的边的概率，且该概率取值范围为0至1，取值越接近1，表明对应的边为相同词语(如汉字或单词等)内的边的概率越高，反之，取值越接近0，表明对应的边为相同词语(如汉字或单词等)内的边的概率越低，进一步可以将该概率取值通过输出层进行输出。

举例说明：基于上述举例，假设目标图像为图2所示，其对应的包含单字符位置的二值图如图3所示，以及对应的β骨架图如图4所示，则进一步的，在利用预先构建的图神经网络预测模型，通过执行上述步骤B1-B2，对如图4所示的β骨架图进行处理后，可以得到其中各个图节点之间的边为相同词语(如汉字或单词等)内的边的概率。

接下来，本实施例将对图神经网络预测模型的构建过程进行介绍，具体可以包括以下步骤(1)-(2)：

步骤(1)：获取样本图像。

在本实施例中，为了构建图神经网络预测模型，需要预先进行大量的准备工作，首先，需要收集大量包含文字的图像，比如，可以通过手机相机拍摄课本或杂志中的文章段落的图像，进而可以将收集到的各幅图像数据分别作为样本图像，同时，预先通过人工标注出这些样本图像对应的β骨架图中各个图节点之间的边的分类标签结果，用以图神经网络预测模型。

步骤(2)：根据样本图像以及样本图像对应的训练β骨架图中各个图节点之间的边的分类标签对初始图神经网络预测模型进行训练，生成图神经网络预测模型。

在本实施例中，通过步骤(1)获取到样本图像后，在进行本轮训练时，可以将上述实施例中目标图像替换为本轮获取的样本图像，通过当前的初始图神经网络预测模型(如GAT或GCN等)，按照上述步骤S101-S103的执行过程，便可以输出该样本图像对应的训练β骨架图中各个图节点之间的边的分类结果。

具体地，按照上述步骤S101-S103，便可通过初始图神经网络预测模型确定出样本图像对应的训练β骨架图中各个图节点之间的边的分类结果。然后，可以将该分类结果与样本图像对应的人工标注的β骨架图中各个图节点之间的边的分类标签结果进行比较，并根据二者的差异对模型参数进行更新，直至满足预设的条件，比如达到预设训练次数，则停止模型参数的更新，完成图神经网络预测模型的训练，生成一个训练好的图神经网络预测模型。

通过上述实施例，可以根据样本图像训练生成图神经网络预测模型，进一步的，还可以利用验证图像对生成的图神经网络预测模型进行验证。具体验证过程可以包括下述步骤①-④：

步骤①：获取验证图像，并对验证图像进行检测，得到包含单字符位置的验证二值图。

在本实施例中，为了实现对图神经网络预测模型进行验证，首先需要获取验证图像，其中，验证图像指的是可以用来进行图神经网络预测模型验证的图像信息，在获取到这些验证图像并得到其对应的包含单字符位置的验证二值图后，可继续执行后续步骤②。

步骤②：对包含单字符位置的验证二值图进行转换处理，得到验证图像对应的验证β骨架图。

在获取到包含单字符位置的验证二值图后，可按照上述步骤S102的实现过程，将包含单字符位置的二值图替换为包含单字符位置的验证二值图，实现对包含单字符位置的验证二值图进行转换处理，得到验证图像对应的验证β骨架图，用以执行后续步骤③。具体实现过程在此不再赘述。

步骤③：将验证β骨架图输入图神经网络预测模型，获得验证β骨架图中各个图节点之间的边的分类预测结果。

通过步骤②得到验证图像对应的验证β骨架图后，进一步的，可以将验证图像输入图神经网络预测模型，以获得验证β骨架图中各个图节点之间的边的分类预测结果，用以执行后续步骤④。

步骤④：当验证β骨架图中各个图节点之间的边的分类预测结果与验证β骨架图中各个图节点之间的边对应的分类标记结果不一致时，将验证图像重新作为样本图像，对图神经网络预测模型进行更新。

通过步骤③获得验证图像对应的验证β骨架图中各个图节点之间的边的分类预测结果后，若该分类预测结果与验证β骨架图中各个图节点之间的边对应的分类标记结果不一致，则可以将验证图像重新作为样本图像，对图神经网络预测模型进行参数更新。

通过上述实施例，可以利用验证图像对图神经网络预测模型进行有效验证，并在预测结果与标记结果不一致时，及时调整更新图神经网络预测模型，进而有助于提高预测模型的预测精度和准确性。

S104：利用分类结果对β骨架图进行更新，并根据更新结果对目标图像进行检测，得到目标图像对应的文本检测结果。

在本实施例中，通过步骤S104预测得到β骨架图中各个图节点之间的边的分类结果后，进一步可以利用该分类结果对β骨架图进行更新，并根据更新结果对目标图像进行检测，以确定出目标图像包含的单词和文本行，即确定出目标对象对应的文本检测结果。

具体来讲，一种可选的实现方式是，本步骤S104的实现过程具体可以包括下述步骤C1-C2：

步骤C1：当分类结果表明其对应的边为相同词语中的边时，则在β骨架图中保留所述边；或者，当分类结果表明其对应的边不是相同词语中的边时，则在β骨架图中隐藏所述边，实现对β骨架图的更新。

在本实现方式中，当预测得到β骨架图中某两个图节点之间的边的分类结果表明对应的边为相同词语中的边，即，表明这两个图节点对应的单字符属于同一词语中，此时，即可在β骨架图中保留这个边。或者，当预测得到β骨架图中某两个图节点之间的边的分类结果表明对应的边并不是相同词语中的边，即，表明这两个图节点对应的单字符不属于同一词语，此时，即可在β骨架图中隐藏这个边(或将对其进行其他标记)，以此类推，在遍历了所有边的分类结果后，可以实现对β骨架图的更新。

步骤C2：根据包含单字符位置的二值图中单字符所在的位置框和更新后的β骨架图，确定词语粒度的文本检测结果，并作为目标图像对应的文本检测结果。

通过步骤C1对β骨架图的更新，将其中相同词语中的边进行保留，并将不同词语总的边进行隐藏或其他标记处理后，进一步可以将更新后的β骨架图与之前检测出的包含单字符位置的二值图中单字符所在的位置框进行合并处理，以准确确定出目标图像包含的各个词语(或单词)和文本行，即，确定出词语粒度的文本检测结果，并将其作为目标图像对应的文本检测结果。

举例说明：基于上述举例，假设目标图像为图2所示，其对应的包含单字符位置的二值图如图3所示，以及对应的β骨架图如图4所示，在利用预先构建的图神经网络预测模型，对如图4所示的β骨架图进行处理后，得到其中各个图节点之间的边为相同词语(如汉字或单词等)内的边的概率后，进一步可以根据得到的各个概率，对如图4所示的β骨架图进行更新后，得到如图5所示的更新后的β骨架图，其中，图节点0、1、3之间的黑色线段为保留的边，表明这三个图节点对应的单字符处于相同词语中；同理，图节点3、4、5、6之间的黑色线段为保留的边，表明这四个图节点对应的单字符处于相同词语中；以及图节点7至20之间的黑色线段也为保留的边，表明这14个图节点对应的单字符处于相同词语中。进一步的，再将其与图2所示的包含单字符位置的二值图中单字符所在的位置框进行合并考虑，可以得到如图6所示的目标图像对应的文本检测结果，其中各个标记出的方框内的文字即为检测出的词语或文本行。

这样，通过执行上述步骤S101-S104，可以对如图2所示的包含行距很近的文本或者其他字符间隔较大的单词或文本行、有重叠的文本区域等图像进行词语或文本行粒度的准确检测，并得到较好的检测效果，满足了用户需求。

综上，本实施例提供的一种图像检测方法，首先获取待检测的目标图像，并对目标图像进行检测，得到包含单字符位置的二值图，然后对包含单字符位置的二值图进行转换处理，得到目标图像对应的β骨架图；其中，β骨架图中每个图节点表示目标图像中对应位置的单字符，接着，将目标图像对应的骨架图输入预先构建的图神经网络预测模型，预测得到β骨架图中各个图节点之间的边的分类结果，进而可以利用分类结果对β骨架图进行更新，并根据更新结果对目标图像进行检测，得到目标图像对应的文本检测结果。可见，由于本申请实施例是先利用β骨架图表征目标图像中各个单字符的关联关系，然后通过预先构建的图神经网络预测模型确定出β骨架图中各个边的分类结果，进而实现了基于单字符检测的文本行或单词粒度的检测结果，从而提高了检测结果的准确性，也提高了用户体验。

第二实施例

本实施例将对一种图像检测装置进行介绍，相关内容请参见上述方法实施例。

参见图7，为本实施例提供的一种图像检测装置的组成示意图，该装置700包括：

第一获取单元701，用于获取待检测的目标图像，并对所述目标图像进行检测，得到包含单字符位置的二值图；

第一转换单元702，用于对所述包含单字符位置的二值图进行转换处理，得到所述目标图像对应的β骨架图；所述β骨架图中每个图节点表示所述单字符位置的中心点；

预测单元703，用于将所述目标图像对应的β骨架图输入预先构建的图神经网络预测模型，预测得到所述β骨架图中各个图节点之间的边的分类结果；

检测单元704，用于利用所述分类结果对所述β骨架图进行更新，并根据更新结果对所述目标图像进行检测，得到所述目标图像对应的文本检测结果。

在本实施例的一种实现方式中，所述第一转换单元702包括：

在本实施例的一种实现方式中，所述装置还包括：

所述预测单元703具体用于：

在本实施例的一种实现方式中，所述预先构建的图神经网络预测模型包括嵌入层、全连接层和输出层；所述预测单元703包括：

在本实施例的一种实现方式中，所述检测单元704包括：

在本实施例的一种实现方式中，所述第一获取单元701具体用于：

在本实施例的一种实现方式中，所述装置还包括：

第二获取单元，用于获取样本图像；

在本实施例的一种实现方式中，所述装置还包括：

进一步地，本申请实施例还提供了一种图像检测设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述图像检测方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述图像检测方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像检测方法，其特征在于，所述方法包括：

对所述包含单字符位置的二值图进行转换处理，得到所述目标图像对应的β骨架图；所述β骨架图中每个图节点表示所述目标图像中对应位置的单字符；所述β骨架图中的边满足以下条件：构建以所述β骨架图中任意一条边作为直径的圆，所述圆中未包含其他图节点；

2.根据权利要求1所述的方法，其特征在于，所述对所述包含单字符位置的二值图进行转换处理，得到所述目标图像对应的β骨架图，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述预先构建的图神经网络预测模型包括嵌入层、全连接层和输出层；所述将所述目标图像对应的β骨架图、所述图像特征、所述字符位置特征、所述相对位置特征共同输入预先构建的图神经网络预测模型，预测得到所述β骨架图中各个图节点之间的边的分类结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所述分类结果对所述β骨架图进行更新，并根据更新结果对所述目标图像进行检测，得到所述目标图像对应的文本检测结果，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述目标图像进行检测，得到包含单字符位置的二值图，包括：

7.根据权利要求1所述的方法，其特征在于，所述图神经网络预测模型的构建方式如下：

获取样本图像；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种图像检测装置，其特征在于，所述装置包括：

第一转换单元，用于对所述包含单字符位置的二值图进行转换处理，得到所述目标图像对应的β骨架图；所述β骨架图中每个图节点表示所述单字符位置的中心点；所述β骨架图中的边满足以下条件：构建以所述β骨架图中任意一条边作为直径的圆，所述圆中未包含其他图节点；

10.一种图像检测设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。