CN117274971B

CN117274971B - 一种应用于水表数据提取的图像处理方法以及电子设备

Info

Publication number: CN117274971B
Application number: CN202311540978.2A
Authority: CN
Inventors: 邓立群; 詹益鸿; 周耀全; 方波
Original assignee: Shenzhen Tuoan Trust Internet Of Things Co ltd
Current assignee: Shenzhen Tuoan Trust Internet Of Things Co ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-04-12
Anticipated expiration: 2043-11-20
Also published as: CN117274971A

Abstract

本申请适用于图像处理技术领域，提供了一种应用于水表数据提取的图像处理方法及电子设备，方法包括：接收待识别的目标图像；通过预设的图像分割模型，对所述目标图像进行图像分割，得到包含所述水表数据的目标区域图像；通过预设的姿态校正模型，对所述目标区域图像进行姿态校正，得到一次校正图像；通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据。采用上述方法能够减少因照明不足、影子遮挡、反光、拍摄视角阻碍等情况导致对内容识别的影响，最后再通过图像识别算法对调整后的一次校正图像进行内容识别，从而能够无需用户手动抄取水表数据的同时，能够确保通过图像识别得到的水表数据的准确性。

Description

一种应用于水表数据提取的图像处理方法以及电子设备

技术领域

本申请属于设备管理技术领域，尤其涉及一种应用于水表数据提取的图像处理方法以及电子设备。

背景技术

随着电子技术的不断发展，电子化服务已经推广至各个领域。在自来水行业，以往通过手动抄录读数的方式记录水表数据，现今为了提高数据采集的效率，可以通过获取水表的图像的方式，并通过光学字符识别（Optical Character Recognition，OCR）算法对上述图像进行识别，从而得到水表数据，以提高获取水表数据的效率。然而，通过上述方式获取水表数据时，当获取水表的图像时，遇到照明不足、影子遮挡、反光、拍摄视角阻碍等情况，则会大大降低了OCR识别的准确性。由此可见，现有的水表数据的管理技术，无法同时兼顾提高水表获取效率以及保证水表数据的准确性两个方面。

发明内容

本申请实施例提供了一种应用于水表数据提取的图像处理方法、装置、电子设备及存储介质，可以解决水表数据的管理技术，无法同时兼顾提高水表获取效率以及保证水表数据的准确性两个方面的问题。

第一方面，本申请实施例提供了一种应用于水表数据提取的图像处理方法，方法包括：

接收待识别的目标图像；所述目标图像为拍摄有水表数据的图像；

通过预设的图像分割模型，对所述目标图像进行图像分割，得到包含所述水表数据的目标区域图像；

通过预设的姿态校正模型，对所述目标区域图像进行姿态校正，得到一次校正图像；

通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据。

在第一方面的一种可能的实现方式中，在所述接收待识别的目标图像之前，还包括：

接收多个样本图像；每个样本图像包含在多个维度的标签信息；所述多个维度包括图像姿态维度、分割维度以及字符内容维度；

基于所述分割维度的第一标签信息，对所述样本图像进行划分，得到多个第一区域图像；

基于所述第一区域图像对预设的第一特征金字塔模型进行训练，得到所述图像分割模型；

基于所述样本图像中包含水表样本数据的第二区域图像的分辨率，将所述第二区域图像划分为多个像素组；每个所述像素组中的所述第二区域图像的像素总数在同一像素范围内；

基于各个所述像素组中的第二区域图像以及所述第二区域图像在所述姿态维度的第二标签信息，对预设的第二特征金字塔模型进行训练，得到所述姿态校正模型；

根据所述字符内容维度的第三标签信息以及所述第二区域图像，对预设的注意力模型进行训练，得到所述图像识别算法。

在第一方面的一种可能的实现方式中，所述基于各个所述像素组中的第二区域图像以及所述第二区域图像在所述姿态维度的第二标签信息，对预设的第二特征金字塔模型进行训练，得到所述姿态校正模型，包括：

通过所述第二特征金字塔模型中的深度卷积核对所述第二区域图像进行深度卷积处理，得到第一特征图；

通过所述第二特征金字塔模型中的点卷积核对所述第一特征图进行点卷积处理，得到第二特征图；

根据所述第二特征金字塔模型中的激活函数以及所述第二特征图得到的平均池化向量，调整所述第二特征金字塔模型中的各个权重，以使所述第二特征金字塔模型的损失值小于预设的损失阈值；所述损失值是基于所述第二特征金字塔模型的输出标签与所述第二标签信息之间的偏差确定的；其中，所述第二标签信息包括：正例标签以及负例标签；所述损失值是基于真正例比例、假正例比例、真负例比例以及假负例比例确定的；

基于调整权重后的所述第二特征金字塔模型，生成所述姿态校正模型。

在第一方面的一种可能的实现方式中，所述根据所述字符内容维度的第三标签信息以及所述第二区域图像，对预设的注意力模型进行训练，得到所述图像识别算法，包括：

根据所述第三标签信息对所述第二区域图像进行区域划分，得到每个字符对应的字符区域图像；

分别生成各个字符区域图像对应的字符特征向量，并根据各个字符区域图像对应的字符在所述第二区域图像之间的字符顺序，生成向量序列；

依次向所述注意力模型导入所述向量序列中的各个字符特征向量，以计算每个字符特征向量对应的注意力分数；所述注意力分数包括所述字符特征向量与相邻其他字符特征向量之间的相关程度；

基于所有字符特征向量对应的注意力分数，确定所述第二区域图像对应的字符识别结果；

基于所述第三标签信息以及所述字符识别结果对所述注意力模型内的学习参数进行调整，生成所述图像识别算法。

在第一方面的一种可能的实现方式中，所述通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据，包括：

根据所述目标图像关联的用户标识，获取所述用户标识关联的历史用水记录；

基于所述历史用水记录确定多个历史水表数据，并基于多个所述历史水表数据确定期望用水范围；

根据与当前时间距离最近的历史水表数据以及所述期望用水范围，确定至少一个固定位值；

将所述一次校正图像划分为包含所述至少一个固定位值的第一区域图像以及除所述第一区域图像外的第二图像区域；

将所述第一区域图像导入所述图像识别算法中的上下文注意力网络，对所述上下文注意力网络进行训练，得到校准识别网络；

通过所述校准识别网络对第二图像区域进行图像识别，得到字符数据；

基于所述至少一个固定位值以及所述字符数据，得到所述水表数据。

在第一方面的一种可能的实现方式中，所述通过预设的图像分割模型，对所述目标图像进行图像分割，得到包含所述水表数据的目标区域图像，包括：

根据所述目标图像的所述水表数据关联的位置信息，确定所述位置信息所属的水表厂商；

基于所述水表厂商的产品信息，获取至少一个在用水表的候选表盘分布图；

分别计算所述目标图像与各个所述候选表盘分布图之间的图像相似度；

基于所述图像相似度从所有所述候选表盘分布图中确定目标表盘分布图；

基于所述目标表盘分布图对所述图像分割模型进行校准，得到校正分割模型；

基于所述校正分割模型对所述目标图像进行图像分割，得到所述目标区域图像。

在第一方面的一种可能的实现方式中，所述接收待识别的目标图像，包括：

响应于关于所述目标图像的拍摄指令，获取包含所述水表数据的原始图像以及响应所述拍摄指令时所持终端的姿态数据；

基于所述姿态数据导入预设的通用姿态模型，得到初始姿态校准模型；

通过所述初始姿态校准模型对所述原始图像进行角度校正，得到所述目标图像。

第二方面，本申请实施例提供了一种应用于水表数据提取的图像处理装置，包括：

目标图像接收单元，用于接收待识别的目标图像；所述目标图像为拍摄有水表数据的图像；

图像分割单元，用于通过预设的图像分割模型，对所述目标图像进行图像分割，得到包含所述水表数据的目标区域图像；

姿态校正单元，用于通过预设的姿态校正模型，对所述目标区域图像进行姿态校正，得到一次校正图像；

图像识别单元，用于通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是：在获取得到包含水表数据的目标图像时，可以先通过图像分割算法提取得到水表数据所在的目标区域图像，继而通过姿态校正算法对目标区域图像进行姿态校正，避免因拍摄角度问题而导致内容偏移以及翻转而影响后续的字符识别，最后通过图像识别算法对一次校正图像进行图像识别，确定该一次校正图像内包含的水表数据，实现了自动识别图像内水表数据的目的。与现有的水表数据的管理技术相比，本申请实施例并非直接采用OCR算法进行字符识别，而是先通过图像分割以及姿态校正两个模型对目标图像进行预处理，从而能够减少因照明不足、影子遮挡、反光、拍摄视角阻碍等情况导致对内容识别的影响，最后再通过图像识别算法对调整后的一次校正图像进行内容识别，从而能够无需用户手动抄取水表数据的同时，能够确保通过图像识别得到的水表数据的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的水表数据的管理系统结构示意图；

图2是本申请实施例提供的一种应用于水表数据提取的图像处理方法的实现示意图；

图3是本申请一实施例提供的目标图像的示意图；

图4是本申请提供的同一字符在不同姿态下识别结果的示意图；

图5是本申请第二实施例提供的一种应用于水表数据提取的图像处理方法在S201之前的具体实现流程图；

图6是本申请一实施例提供的图像分割模型的结构示意图；

图7是本申请一实施例提供的S505的具体实现流程图；

图8是本申请一实施例提供的姿态校正模型的结构示意图；

图9是本申请一实施例提供的S506的具体实现流程图；

图10是本申请一实施例提供的注意力模型的示意图；

图11是本申请一实施例提供的训练本申请提供的图像处理算法的结构示意图；

图12是本申请第三实施例提供的一种应用于水表数据提取的图像处理方法在S204的具体实现流程图；

图13是本申请第四实施例提供的一种应用于水表数据提取的图像处理方法在S202的具体实现流程图；

图14是本申请第五实施例提供的一种应用于水表数据提取的图像处理方法在S201的具体实现流程图；

图15是本申请实施例提供的应用于水表数据提取的图像处理装置的结构示意图；

图16是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的应用于水表数据提取的图像处理可以应用于服务器、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、台式计算机、智能手机等能够实现对包含水表数据的目标图像进行处理的电子设备上。本申请实施例对电子设备的具体类型不作任何限制。

示例性地，图1示出了本申请一实施例提供的水表数据的管理系统结构示意图。参见图1所示，该水表数据的管理系统包括至少一个终端设备11以及服务器12。其中，该终端设备可以为工作人员手持的用户终端，如智能手机或智能摄像机等。在部分的实现方式中，该终端设备可以为部署于水表安装位置的分布式终端，可以通过该分布式终端获取水表所在区域的环境图像，该环境图像中可以拍摄得到水表表盘上的信息，即上述环境图像中包含水表数据。

上述终端设备11在获取得到水表数据的目标图像后，可以通过终端设备内配置的客户端程序，将目标图像发送给服务器12。该服务器12可以接收各个终端设备11反馈的目标图像，并对目标图像进行图像处理，以得到对应的水表数据。其中，本申请实施例提供的图像处理方法，可以应用于上述的终端设备11上，也可以应用于服务器12上，在此不做限定。

请参阅图2，图2示出了本申请实施例提供的一种应用于水表数据提取的图像处理方法的实现示意图，该方法包括如下步骤：

在S201中，接收待识别的目标图像；所述目标图像为拍摄有水表数据的图像。

在本实施例中，电子设备可以获取需要进行水表数据识别的目标图像。其中，获取上述目标图像的方式，可以根据电子设备的设备类型的不同，采用对应的获取方式，具体可以包括以下两种方式：

1.电子设备可以工作人员使用的用户终端，在该情况下，该用户终端上可以配置有摄像模块，通过点击摄像模块的拍摄控件，摄像模块会获取拍摄有水表数据的图像，并通过与用户终端的处理器之间的数据传输接口，将目标图像传输给处理器，以通过用户终端内的处理器对目标图像进行处理，从而识别该目标图像对应的水表数据。其中，该用户终端可以安装有对应的图像处理程序，该图像处理程序具体用于运行本申请实施例提供的图像处理方法。

2.电子设备可以为一服务器，在该情况下，用户终端上可以安装有客户端程序，在完成水表拍摄得到目标图像后，可以通过客户端程序将需要进行识别的目标图像发送给服务器，服务器在接收到客户端程序反馈的目标图像后，可以执行本申请提供的图像处理方法，以提取目标图像上的水表数据。

在本实施例中，目标图像具体为拍摄有水表数据的图像，即可以通过对该目标图像进行图像处理以及图像分析，确定对应水表数据。上述水表数据具体为拍摄水表上的具体读数。

在一种可能的实现方式中，电子设备在接收到目标图像后，可以对目标图像进行预处理，从而能够提高后续图像处理后得到水表数据的准确性。上述预处理包括：根据环境光强确定是否需要进行二值化或灰度化处理，根据拍摄角度确定是否需要进行图像畸变校正等，从而能够使得目标图像具有较高的可解析性，继而提高后续识别的准确性。

在S202中，通过预设的图像分割模型，对所述目标图像进行图像分割，得到包含所述水表数据的目标区域图像。

在本实施例中，电子设备在获取得目标图像后，会先对目标图像进行图像分割，从目标图像中提取水表数据所在的区域部分的图像，即上述的目标区域图像。示例性地，图3示出了本申请一实施例提供的目标图像的示意图。参见图3所示，该目标图像为拍摄有水表的图像，该水表上包含有多个不同的区域，分别为用于标识每个水表的二维码区域31，水表读数区域32，以及相关的齿轮组件区域33。电子设备可以根据预设的图像分割模型，对该目标图像进行图像分割处理，根据每个区域对应的区域特征，从目标图像中确定每个区域对应的区域图像，其中，将水表读数区域32对应的区域图像识别为上述的目标区域图像，以从该目标区域图像中提取得到水表数据。

在一种可能的实现方式中，上述图像分割模型具体为一基于特征金字塔网络（Feature Pyramid Networks，FPN）和空洞卷积池（Atrous Spatial Pyramid Pooling，ASPP）构建的神经网络，通过不同像素尺寸的训练样本图像对该神经网络进行训练，得到上述的图像分割模型。

在S203中，通过预设的姿态校正模型，对所述目标区域图像进行姿态校正，得到一次校正图像。

在本实施例中，由于拍摄角度的不同，目标图像中各个字符的姿态会存在一定程度的差异，而在对字符进行识别时，字符的姿态对于后续的识别影响较大。示例性地，图4示出了同一字符在不同姿态下识别结果的示意图。参见图4中的（a）所示，若字符“3”处于正置状态，对应的识别结果为“3”，而字符“3”处于倒置状态，对应的识别结果为“ε”，由此可见，图像中字符的姿态不同，会影响后续的识别结果，因此，在提取目标区域图像内的水表数据之前，需要对图像进行姿态校正。

在本实施例中，电子设备可以将目标区域图像导入到预设的姿态校正模型，根据目标区域图像中水表数据的姿态，对目标区域图像进行角度畸变校正、旋转等操作，以使用于确定水表数据的字符处于正置状态，得到对应的一次校正图像。

在一种可能的实现方式中，该姿态校正模型具体为一基于深度可分离卷积构建的神经网络，该神经网络包括深度卷积和点卷积，通过建立正样本实例（即字符处于正置状态）与负样本实例（即字符处于非正置状态，如倒置状态或以预设角度旋转的状态等）对上述神经网络进行训练，从而得到上述姿态校正模型。

在S204中，通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据。

在本实施例中，电子设备在通过图像分割以及姿态校正两个步骤后，可以得到字符姿态符合规定的一次校正图像，此时，可以通过预设的图像识别算法识别一次校正图像内包含的字符内容，从而得到该一次校正图像中携带的水表数据，并生成对应的识别结果。

在一种可能的实现方式中，若该电子设备为一服务器，则可以将该识别结果反馈给用户终端，并在用户终端上显示对应的水表数据。又或者，该服务器为水表管理服务器，则可以根据该目标图像中的二维码区域图像，识别该水表数据所属的用户标识，并将该水表数据关联至该用户标识对应的用水记录中，实现了自动录入水表数据的目的，提高了水表数据管理的效率。

以上可以看出，本申请实施例提供的一种应用于水表数据提取的图像处理方法在获取得到包含水表数据的目标图像时，可以先通过图像分割算法提取得到水表数据所在的目标区域图像，继而通过姿态校正算法对目标区域图像进行姿态校正，避免因拍摄角度问题而导致内容偏移以及翻转而影响后续的字符识别，最后通过图像识别算法对一次校正图像进行图像识别，确定该一次校正图像内包含的水表数据，实现了自动识别图像内水表数据的目的。与现有的水表数据的管理技术相比，本申请实施例并非直接采用OCR算法进行字符识别，而是先通过图像分割以及姿态校正两个模型对目标图像进行预处理，从而能够减少因照明不足、影子遮挡、反光、拍摄视角阻碍等情况导致对内容识别的影响，最后再通过图像识别算法对调整后的一次校正图像进行内容识别，从而能够无需用户手动抄取水表数据的同时，能够确保通过图像识别得到的水表数据的准确性。

图5示出了本申请第二实施例提供的一种应用于水表数据提取的图像处理方法在S201之前的具体实现流程图。参见图5，相对于图2所述实施例，本实施例提供的一种应用于水表数据提取的图像处理方法中在S201之前还包括：S501~S506，具体包括对于上述三个模型的训练过程，具体详述如下：

上述三个模型的训练过程可以划分为：图像分割模型的训练阶段（即阶段1）、姿态校正模型的训练阶段（即阶段2）以及图像识别算法的训练阶段（即阶段3），具体训练过程如下：

阶段1：图像分割模型的训练阶段，该阶段具体包括S501~S503两个步骤。

在S501中，接收多个样本图像；每个样本图像包含在多个维度的标签信息；所述多个维度包括图像姿态维度、分割维度以及字符内容维度。

在S502中，基于所述分割维度的第一标签信息，对所述样本图像进行划分，得到多个第一区域图像。

在S503中，基于所述第一区域图像对预设的第一特征金字塔模型进行训练，得到所述图像分割模型。

在本实施例中，电子设备会分别将每个样本图像中的每个像素通过模型编码器阶段的一系列卷积层、激活函数和池化层进行处理，以获取样本图像中每个像素与周围像素的相关特征图。电子设备可以利用FPN和ASPP模块来对不同尺度和深度的相关特征图进行分析，得到对应的解析数据。然后，电子设备再通过第一特征金字塔模型中的解码器对解析数据进行处理，即进行上采样和卷积运算将解析数据转换为原始分辨率的像素级别预测。在上采样和卷积运算后，第一特征金字塔模型可以生成一个与样本图像具有相同分辨率的特征图。这些特征图通过一个最终的卷积层进行处理，通常使用1x1的卷积核，并有C个输出通道，其中C是类别的数量。该第一特征金字塔模型的最后一层卷积的输出通道数等于类别数，每个像素都会有一个C维的向量，代表各个类别的预测概率，该第一特征金字塔模型使用Softmax激活函数可以将这些概率归一化，确保它们的总和为1。其中，上述每个类别的预测概率可以表示为：

其中，p_ic是样本图像中像素i属于类别c的概率，类别具体为可以划分的图像区域类别，z_ic是最终卷积层的输出，C是类别总数。这样每个像素被分配一个类别概率。使用交叉熵损失来比较每个像素的预测与其真实所属类别（即第一标签信息）的差距。

在本实施例中，电子设备可以根据预测得到的图像区域类别与第一标签信息中像素所属的区域类别进行对比，从而计算得到第一特征金字塔模型对应的预测损失率，并基于预测损失率对第一特征金字塔模型进行训练，以使预测损失率小于预设的损失阈值。其中，用于计算预测损失率的损失函数可以表示为：

其中N为像素总数，C为类别数，y _ic为像素i的第一标签信息中确定所述的区域类别，p _ic为预测概率，通过梯度下降等优化方法来最小化损失，并更新模型参数，不断学习模型的权重，使得模型预测概率更加准确。通过不断的优化，使得在一定的epoch内交叉熵达到最小，从而完成分割模型的训练过程。

示例性地，图6示出了本申请一实施例提供的图像分割模型的结构示意图。参见图6所示，该图像分割模型包括有编码器以及解码器。编码器中的第一层级为一空洞卷积层，该层级包括多个卷积核以及图像池化层，继而输入到对应的1*1的卷积层进行特征融合，空洞卷积的输入会同步发送给解码器的第一个卷积层，并将编码器的整体输出导入到解码器的上采样层进行数据处理，继而通过连接层进行特征融合，最后识别得到图像中各个区域。

阶段2：姿态校正模型的训练阶段，该阶段具体包括S504~S505两个步骤。

在S504中，基于所述样本图像中包含水表样本数据的第二区域图像的分辨率，将所述第二区域图像划分为多个像素组；每个所述像素组中的所述第二区域图像的像素总数在同一像素范围内。

在本实施例中，为了适应不同格式以及不同拍摄效果的图像处理场景，电子设备可以通过像素值不同的多个样本图像对第二特征金字塔模型进行训练，以满足后续目标图像的像素值不确定的情况。其中，样本图像的分辨率可以分为：720P、1080P以及4K等不同规格的分辨率。因此，样本图像的分辨率不同，其对应的第二区域图像中包含的像素总数也会存在差异，电子设备可以根据第二区域图像中包含的像素总数的不同，将多个第二区域图像划分为多个像素组。属于同一像素组的多个第二区域图像中包含的像素总数在同一像素范围内。

在本实施例中，计算第二区域图像中包含的像素总数的方式具体可以为：根据第二区域图像的分辨率与第二区域图像的图像尺寸之间的乘积，计算得到该第二区域图像的像素总数。

在S505中，基于各个所述像素组中的第二区域图像以及所述第二区域图像在所述姿态维度的第二标签信息，对预设的第二特征金字塔模型进行训练，得到所述姿态校正模型。

在本实施例中，每个第二区域图像可以关联有一个与字符数据的姿态相关的第二标签信息，电子设备可以将第二区域图像导入到第二特征金字塔模型，确定得到对应的字符姿态，并将该字符姿态与第二区域图像对应的第二标签信息中的字符姿态进行比对，可以确定第二特征金字塔模型的识别准确性，继而根据该识别准确性对第二特征金字塔模型中的学习参数进行训练，以满足对应的准确率要求。

进一步地，作为本申请的另一实施例，图7示出了本申请一实施例提供的S505的具体实现流程图。参见图7所示，上述S505具体包括S5051~S5054，具体描述如下：

在S5051中，通过所述第二特征金字塔模型中的深度卷积核对所述第二区域图像进行深度卷积处理，得到第一特征图。

在S5052中，通过所述第二特征金字塔模型中的点卷积核对所述第一特征图进行点卷积处理，得到第二特征图。

在S5053中，根据所述第二特征金字塔模型中的激活函数以及所述第二特征图得到的平均池化向量，调整所述第二特征金字塔模型中的各个权重，以使所述第二特征金字塔模型的损失值小于预设的损失阈值；所述损失值是基于所述第二特征金字塔模型的输出标签与所述第二标签信息之间的偏差确定的；其中，所述第二标签信息包括：真正例标签、假正例标签、真负例标签以及假负例标签。

在S5054中，基于调整权重后的所述第二特征金字塔模型，生成所述姿态校正模型。

在本实施例中，第二区域图像中根据字符数据的姿态可以分为正置姿态的区域图像和倒置姿态（即翻转180度后）的区域图像，为这两类图片分别做不同的标签处理（正置姿态标注为TRUE，倒置姿态标注为FLASE），然后输入至第二特征金字塔模型进行训练，让第二特征金字塔模型学习不同类别的图像像素特征值，具体步骤如下：

在本实施例中，第二特征金字塔模型包含深度可分离卷积，其具体包括：深度卷积和点卷积。在深度可分离卷积的深度卷积中，每个输入通道与一个卷积核进行卷积。假设输入特征图（即第二区域图像）的大小为H×W×C，其中H和W分别是第二区域图像的图像高度和图像宽度，C是第二区域图像的通道数，那么深度卷积可以表示为：

其中Y_c,h,w是第二区域图像中的一个元素，即上述的第一特征图，X_c,h+i,w+j是输入特征图中的元素，K_c,i,j是第c通道的卷积核中的元素。点卷积是一个普通的1x1卷积，但作用于所有通道。它的数学表示为：

其中，Y_c’,h,w是点卷积基于上述第一特征图进行处理后的一个元素输出，即第二特征图，K _c′,c是卷积核的权重。

在本实施例中，第二特征金字塔模型可以使用硬缩放超线性激活（h-swish）作为非线性激活函数。其数学表示为：

其中ReLU6是一个限制在[0, 6]范围的激活函数，其中，上述输入的x可以为点卷积的输出，即上述第二特征图Y_c’,h,w。

在本实施例中，第二特征金字塔模型包含有全局平均池化层，该全局平均池化层可以对所有特征图（即第二区域图像）执行平均池化，生成一个特征向量，即上述的平均池化向量。

即为上述的平均池化向量。

在本实施例中，第二特征金字塔模型通过学习通道之间的关系来重新调整通道权重。它包括全局平均池化、全连接层和Sigmoid激活函数。其输出用于调整通道权重：

其中是通过全局平均池化得到的通道平均值，即为上述的平均池化向量，W1和W2是全连接层的权重，ReLU为上述的激活函数。通过上述的处理，第二特征金字塔模型有效地从第二区域图像中提取了有代表性（即姿态特性）的特征，同时保持了较低的计算复杂性和内存占用。其中，对上述第二特征金字塔模型进行训练时，可以使用准确率、召回率和F1分数三种不同的指标对模型进行优化训练，使得第二特征金字塔模型的识别准确率达到最佳。

在本实施例中，由于样本图像的第二标签信息中包含有正例标签以及负例标签，通过与第二特征金字塔模型的输出结果与上述的第二标签信息进行比对，电子设备会分别统计第二特征金字塔模型的四个基本分类计数，分别为：真正例（True Positives，TP）比例：模型正确地将正例识别为正例；假正例（False Positives，FP）比例：模型错误地将负例识别为正例；真负例（True Negatives，TN）比例：模型正确地将负例识别为负例；假负例（False Negatives，FN）比例：模型错误地将正例识别为负例。

准确率是所有正确分类的观测值占总观测值的比例。其计算公式为：

召回率，也称为真正例率，是正例被正确识别的比例。其计算公式为：

精确率是正确识别的正例占所有被识别为正例的样本的比例。其计算公式为：

F1分数是精确率和召回率的调和平均值，通常用于平衡这两个指标。其计算公式为：

采用二元交叉熵损失函数（Binary Cross-Entropy Loss）作为损失函数用于衡量第二特征金字塔模型的预测与真实标签之间的差异，使用预设的优化器，自适应地调整学习率，从而使得第二特征金字塔模型快速收敛。设验证集（即所有第二区域图像构成的集合）上的准确率达到预设的准确率阈值，如98%，作为停止的条件，满足需求时，停止对第二特征金字塔模型的训练，得到上述的姿态校正模型。

示例性地，图8示出了本申请一实施例提供的姿态校正模型的结构示意图。姿态校正模型可以使用1*1和3*3的卷积核代替5*5的卷积核，使得整个姿态校正模型的参数量减少，继而降低了计算量，缩短推理时间，同时引入残差块和轻量级的注意力机制，轻量级注意力模块并激发成瓶颈结构，更好的提取特征，提高识别速度。

在本申请实施例中，通过计算第二特征金字塔模型的多种基础指标，对第二特征金字塔模型进行训练，从而能够提高训练后得到的姿态校正模型的准确性，继而提高后续水表数据识别的准确性。

阶段3：图像识别算法的训练阶段，该阶段具体包括S506一个步骤。

在S506中，根据所述字符内容维度的第三标签信息以及所述第二区域图像，对预设的注意力模型进行训练，得到所述图像识别算法。

在本实施例中，每个样本图像的标签信息中包含有与字符内容相关的第三标签信息，记录该样本图像中的水表数据，电子设备可以将对样本图像进行图像分割以及姿态校正后的第二区域图像导入到注意力模型，通过注意力模型识别校正姿态后的第二区域图像中的水表样本数据，并将水表样本数据与第三标签信息中记录的字符进行比对，从而计算得到注意力模型的识别准确率，并基于识别准确率对上述的注意力模型进行训练学习，将训练学习后的注意力模型作为图像识别算法。

进一步地，作为本申请的另一实施例，图9示出了本申请一实施例提供的S506的具体实现流程图。参见图9所示，上述S506具体包括S5061~S5065，具体描述如下：

在S5061中，根据所述第三标签信息对所述第二区域图像进行区域划分，得到每个字符对应的字符区域图像。

在本实施例中，由于字符之间具有一定的上下文关系，且根据上一字符的形状畸变，可以对后一字符的形状畸变进行预测以及校准，因此，在进行图像识别提取文本数据时，可以采用注意力模型进行训练，以得到后续的图像识别算法。其中，该注意力模型利用自注意力机制（Self-Attention）来捕获第二图区域图像中的文本特征之间的长距离依赖关系。同时自注意力机制的计算可以被分解成独立的子任务，这些子任务可以并行执行，这使得自注意力机制在计算资源充足的情况下能够高效地处理大规模输入序列，即提高对第二区域图像中字符识别的效率。示例性地，图10示出了本申请一实施例提供的注意力模型的示意图。参见图10所示，该注意力模型可以根据第三标签信息确定该第二区域图像中包含的字符个数，并基于字符个数以及每个字符在图像中的间隔，将第二区域图像进行划分，得到对应每个字符的字符区域图像。

在S5062中，分别生成各个字符区域图像对应的字符特征向量，并根据各个字符区域图像对应的字符在所述第二区域图像之间的字符顺序，生成向量序列。

在本实施例中，电子设备会将字符区域图像转换为对应的字符向量，该字符向量用于确定该区域图像对应字符的形状、纹理、颜色等特征，并输出一个特征图，每个特征图都是一个由高维向量组成的网格，每个向量都对应原始表盘读数图片中的一个局部区域，即上述的字符特征向量。然后，电子设备会将字符特征向量重新排列成一个序列，即上述的向量序列。

在S5063中，依次向所述注意力模型导入所述向量序列中的各个字符特征向量，以计算每个字符特征向量对应的注意力分数；所述注意力分数包括所述字符特征向量与相邻其他字符特征向量之间的相关程度。

在本实施例中，电子设备会将向量序列输入到一个基于自注意力机制的序列编码器（即注意力模型的编码器）中。这个编码器会对向量序列中每一个字符特征向量进行处理，使得它包含了全局的上下文信息。例如图3中第三个数字“1”前面有“0”后面有“4”，经过编码器处理后原来表示数字“1”的特征向量可能会包含一些数字“0”和数字“4”的信息。

在S5064中，基于所有字符特征向量对应的注意力分数，确定所述第二区域图像对应的字符识别结果。

在S5065中，基于所述第三标签信息以及所述字符识别结果对所述注意力模型内的学习参数进行调整，生成所述图像识别算法。

在本实施例中，字符特征向量通过注意力模型中的自注意力机制算法运算后，会计算了一个注意力分数，这个分数决定了每个字符在考虑上下文信息时，对相邻字符的特征向量的关注程度。自注意力的计算是基于特征向量的内积，而不是原始的像素值。编码后的特征序列然后会被输入到一个解码器中。解码器会逐步生成识别结果的每一个字符。它在每一步都会根据当前的内部状态和编码器的输出，来计算一个注意力分数，这个分数决定了解码器在生成当前字符时，对编码器输出的每个特征向量的关注程度。然后，解码器会根据这个注意力分数，计算出一个概率分布，并根据这个分布来确定该字符区域图像对应的字符。上述过程会一直进行，直到生成一个特殊的结束符，表示识别结果的结束，即得到字符识别结果。示例性地，如图3所示，注意力模型会先识别0最后到1结束，训练注意力模型的目标是最小化预测的识别结果和标注真实读数之间的差距，这个差距离通常使用损失或交叉熵损失（Connectionist Temporal Classification，CTC）来计算，训练过程是通过反向传播算法和随机梯度下降法来进行的，它们会逐步调整模型的参数，使得损失值不断降低，在进行字符识别时，调用训练好的模型，输入未标注的图片，即可识别出图片上对应的水表数据。

示例性地，图11示出了本申请一实施例提供的训练本申请提供的图像处理算法的结构示意图，参见图11所示，该图像处理算法包括至少三个部分，分别为图像分割模块、姿态校正模块以及图像识别算法，其中，可以通过样本图像以及对应的标签信息进行数据转换，得到每个部分对应的训练数据，从而利用脚本对各个模块进行训练，以便进行后续的图像处理使用。

图12示出了本申请第三实施例提供的一种应用于水表数据提取的图像处理方法在S204的具体实现流程图。参见图12，相对于图2所述实施例，本实施例提供的一种应用于水表数据提取的图像处理方法中在S204具体包括：S2041~S2047，具体详述如下：

在S2041中，根据所述目标图像关联的用户标识，获取所述用户标识关联的历史用水记录。

在本实施例中，电子设备在进行水表数据提取之前，可以根据用户的历史用水记录，确定该用户本月或其他统计周期内对应的期望用水量，以确定水表内固定不变的读数位，以根据固定不变的读数位辅助后续的水表数据的识别。基于此，电子设备可以根据目标图像中携带的用户标识，如对应的水表二维码等，确定该目标图像关联的用户标识，并从用户标识对应的用户数据库内，获取该用户对应的历史用水记录。

在一种可能的实现方式中，该历史用水记录具体为与当前时刻距离最近的至少一个历史用水记录，例如，上月的用水记录或半年内的用水记录等。

在S2042中，基于所述历史用水记录确定多个历史水表数据，并基于多个所述历史水表数据确定期望用水范围。

在本实施例中，电子设备可以从历史用水记录中获取多个历史水表数据，根据历史水表数据的采集时刻的先后次序，分别计算每个采集周期之间的历史用水量，基于多个采集周期之间的历史用水量，确定本次采集周期对应的期望用水范围。其中，该期望用水范围的上限值可以是基于历史用水量的最大值确定的，该期望用水范围的下限值可以是基于历史用水量的最小值确定的。

在S2043中，根据与当前时间距离最近的历史水表数据以及所述期望用水范围，确定至少一个固定位值。

在本实施例中，电子设备可以从历史用水记录中选取与当前时间距离最近的历史水表数据作为基础，并在该历史用水数据的基础上叠加上述的期望用水范围，能够确定该水表的期望读数范围，根据期望读书范围确定固定不变的位数，例如，某一用户的期望用水范围为20m³~100m³之间，而上一采集周期得到的水表数据为“001100”，则该水表的期望读数范围为“001120”~“001200”之间，即固定不变的位值为十万位、万位以及千位，即“001XXX”中的“001”。

在S2044中，将所述一次校正图像划分为包含所述至少一个固定位值的第一区域图像以及除所述第一区域图像外的第二图像区域。

在本实施例中，电子设备可以从一次校正图像中划分固定位值所在的区域图像，即第一区域图像，以及包含字符数值不确定的第二图像区域。由于固定位值区域的字符可以根据历史用水记录确定，即无需进行字符内容识别，只需对字符不确定的区域图像进行字符识别即可，从而大大提高了识别效率，减少识别所需的运算量。

在S2045中，将所述第一区域图像导入所述图像识别算法中的上下文注意力网络，对所述上下文注意力网络进行训练，得到校准识别网络。

在本实施例中，电子设备可以将第一区域图像导入图像识别算法中的上下文注意力网络，由于第一区域图像中的字符内容是已经确定，与固定位值上的字符一致，因此可以根据上述第一区域图像对上下文注意力网络进行训练，以使该上下文注意力网络对第一区域图像进行图像识别后的输出，为固定位值上的各个字符，从而得到校准识别网络。

在S2046中，通过所述校准识别网络对第二图像区域进行图像识别，得到字符数据；

在S2047中，基于所述至少一个固定位值以及所述字符数据，得到所述水表数据。

在本实施例中，电子设备可以将待确定字符内容的第二区域图像导入上述的校准识别网络，从而能够确定第二图像区域中不确定字符内容的字符数据，继而将固定位值对应的字符与第二图像区域的字符数据进行合并，从而可以确定目标图像中携带的字符数据。

在本申请实施例中，通过用户的历史用水记录，确定目标图像中可以预测的位值，继而根据可以预测的固定位值对图像识别算法中的上下文注意力网络进行校准，从而能够提高识别的准确性。

图13示出了本申请第四实施例提供的一种应用于水表数据提取的图像处理方法在S202的具体实现流程图。参见图13，相对于图2所述实施例，本实施例提供的一种应用于水表数据提取的图像处理方法中在S202具体包括：S2021~S2026，具体详述如下：

在S2021中，根据所述目标图像的所述水表数据关联的位置信息，确定所述位置信息所属的水表厂商。

在S2022中，基于所述水表厂商的产品信息，获取至少一个在用水表的候选表盘分布图。

在本实施例中，每个地区的水表所使用的型号一般是固定的，均从对应的水表厂商处购置，因此，电子设备在进行目标图像的图像划分时，可以参考水表厂商的水表表盘的规格，确定区域划分的数量、区域分布以及区域占比等。电子设备可以根据水表厂商的厂商标识，获取该厂商出厂的所有水表的产品信息，该产品信息可以记录有水表的表盘分布图，一个水表厂商可以出厂多种不同类型的水表，不同水表可以对应一个表盘分布图，即可以作为后续的候选表盘分布图，以确定目标图像所属的水表表盘分布。

在S2023中，分别计算所述目标图像与各个所述候选表盘分布图之间的图像相似度。

在S2024中，基于所述图像相似度从所有所述候选表盘分布图中确定目标表盘分布图。

在本实施例中，电子设备可以对目标图像进行轮廓分析，提取目标图像中的第一轮廓信息，并计算第一轮廓信息与各个候选标签分布图对应的第二轮廓信息之间的相似度。电子设备可以选取相似度最高的一个候选表盘分布图作为目标图像中水表使用的水表表盘，即该目标图像中水表使用的水表表盘即为目标表盘分布图。

在S2025中，基于所述目标表盘分布图对所述图像分割模型进行校准，得到校正分割模型。

在S2026中，基于所述校正分割模型对所述目标图像进行图像分割，得到所述目标区域图像。

在本实施例中，电子设备可以根据目标表盘分布图确定每个区域之间的相对位置关系，以及每个区域之间的面积占比等区域位置信息，基于区域位置信息对图像分割模型进行校准，以使后续图像分割模型可以基于上述的目标表盘分布图对目标图像进行区域分割，继而再将目标图像导入校正后的图像分割算法（即校正分割模型），从而得到包含水表数据的目标区域图像。

在本申请实施例中，通过目标图像所属的位置，确定该地理区域使用的水表的厂商，继而获取该厂商发布的水表的候选水表表盘分布图，继而选择目标图像所使用的目标表盘分布图，继而对图像分割模型进行校准，得到校准分割模型，从而能够提高后续图像分割的准确性。

图14示出了本申请第五实施例提供的一种应用于水表数据提取的图像处理方法在S201的具体实现流程图。参见图14，相对于图2所述实施例，本实施例提供的一种应用于水表数据提取的图像处理方法中在S201具体包括：S2011~S2013，具体详述如下：

在S2011中，响应于关于所述目标图像的拍摄指令，获取包含所述水表数据的原始图像以及响应所述拍摄指令时所持终端的姿态数据。

在S2012中，基于所述姿态数据导入预设的通用姿态模型，得到初始姿态校准模型。

在S2013中，通过所述初始姿态校准模型对所述原始图像进行角度校正，得到所述目标图像。

在本实施例中，电子设备具体为拍摄目标图像的用户终端，在该情况下，电子设备可以通过本地配置的运动传感器，确定拍摄目标图像时对应的姿态数据，例如终端设备所属的姿态角，并根据该姿态角对原始图像进行角度校正，从而能够避免因拍摄时导致的形状畸变，影响后续的字符识别的准确性，继而将角度校正后的原始图像作为目标图像，进行后续的水表数据处理，以以进一步提高识别的准确性。

在本实施例中，图15示出了本申请一实施例提供的一种应用于水表数据提取的图像处理装置的结构框图，该应用于水表数据提取的图像处理装置包括的各单元用于执行图2对应的实施例中生成装置实现的各步骤。具体请参阅图2与图2所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图15，所述一种应用于水表数据提取的图像处理装置，包括：

目标图像接收单元151，用于接收待识别的目标图像；所述目标图像为拍摄有水表数据的图像；

图像分割单元152，用于通过预设的图像分割模型，对所述目标图像进行图像分割，得到包含所述水表数据的目标区域图像；

姿态校正单元153，用于通过预设的姿态校正模型，对所述目标区域图像进行姿态校正，得到一次校正图像；

图像识别单元154，用于通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据；

预训练单元155，用于接收多个样本图像；每个样本图像包含在多个维度的标签信息；所述多个维度包括图像姿态维度、分割维度以及字符内容维度；

应当理解的是，图15示出的应用于水表数据提取的图像处理装置的结构框图中，各模块用于执行图2至图14对应的实施例中的各步骤，而对于图2至图14对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图2至图15以及图2至图15所对应的实施例中的相关描述，此处不再赘述。

图16是本申请另一实施例提供的一种电子设备的结构框图。如图16所示，该实施例的电子设备1600包括：处理器1610、存储器1620以及存储在存储器1620中并可在处理器1610运行的计算机程序1630，例如应用于水表数据提取的图像处理方法的程序。处理器1610执行计算机程序1630时实现上述各个应用于水表数据提取的图像处理方法各实施例中的步骤，例如图2所示的S201至S204以及图4各步骤的内容。或者，处理器1610执行计算机程序1630时实现上述图16对应的实施例中各模块的功能，例如，图15所示的单元151至155的功能，具体请参阅图15对应的实施例中的相关描述。

示例性的，计算机程序1630可以被分割成一个或多个模块，一个或者多个模块被存储在存储器1620中，并由处理器1610执行，以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序1630在电子设备1600中的执行过程。例如，计算机程序1630可以被分割成各个单元模块，各模块具体功能如上。

电子设备1600可包括，但不仅限于，处理器1610、存储器1620。本领域技术人员可以理解，图16仅仅是电子设备1600的示例，并不构成对电子设备1600的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器1610可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器1620可以是电子设备1600的内部存储单元，例如电子设备1600的硬盘或内存。存储器1620也可以是电子设备1600的外部存储设备，例如电子设备1600上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器1620还可以既包括电子设备1600的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种应用于水表数据提取的图像处理方法，其特征在于，包括：

通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据；

在所述接收待识别的目标图像之前，还包括：

根据所述字符内容维度的第三标签信息以及所述第二区域图像，对预设的注意力模型进行训练，得到所述图像识别算法；

所述通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据，包括：

将所述第一区域图像导入所述图像识别算法中的上下文注意力网络，对所述上下文注意力网络进行训练，得到校准识别网络，包括：根据第一区域图像对上下文注意力网络进行训练，以使上下文注意力网络对第一区域图像进行图像识别后的输出，为固定位值上的各个字符；

基于所述至少一个固定位值以及所述字符数据，得到所述水表数据；

所述通过预设的图像分割模型，对所述目标图像进行图像分割，得到包含所述水表数据的目标区域图像，包括：

2.根据权利要求1所述的图像处理方法，其特征在于，所述基于各个所述像素组中的第二区域图像以及所述第二区域图像在所述姿态维度的第二标签信息，对预设的第二特征金字塔模型进行训练，得到所述姿态校正模型，包括：

3.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述字符内容维度的第三标签信息以及所述第二区域图像，对预设的注意力模型进行训练，得到所述图像识别算法，包括：

4.根据权利要求1所述的图像处理方法，其特征在于，所述图像分割模型具体为基于特征金字塔网络和空洞卷积池构建的神经网络。

5.根据权利要求1-4任一项所述的图像处理方法，其特征在于，所述接收待识别的目标图像，包括：

6.一种应用于水表数据提取的图像处理装置，其特征在于，包括：

图像识别单元，用于通过预设的图像识别算法对所述一次校正图像进行图像识别，得到所述水表数据；

预训练单元，用于接收多个样本图像；每个样本图像包含在多个维度的标签信息；所述多个维度包括图像姿态维度、分割维度以及字符内容维度；

所述图像识别单元具体用于

所述图像分割单元具体用于：

7.一种电子设备，其特征在于，所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时如权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。