CN111027456B

CN111027456B - 基于图像识别的机械水表读数识别方法

Info

Publication number: CN111027456B
Application number: CN201911239434.6A
Authority: CN
Inventors: 蒲实; 黄春梅; 杨思马; 吕翔; 郭洪均; 余航; 王文; 赵宇洪; 胡连华; 曾宇龙; 唐凯敏; 周美玲
Original assignee: Sichuan Jiesen Electromechanical Co ltd
Current assignee: Sichuan Jiesen Electromechanical Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-06-20
Anticipated expiration: 2039-12-06
Also published as: CN111027456A

Abstract

本发明公开了一种基于图像识别的机械水表读数识别方法，属于机械仪表读数识别技术领域，包括以下步骤：建立能识别机械水表读数的模型，输入水表读数图片，对图片进行预处理；将处理后图片作为检测网络的输入，生成读数框包围盒预测结果，并对其进行处理和裁剪，将裁剪得到的图片作为识别网络的输入，通过加载神经网络训练出的识别机械水表读数的模型，进行分析识别，生成预测结果；将生成预测结果写在水表图片上，监测结果生成json格式文件并保存。该识别方法实现过程简单，识别精度高，识别准确率高，当水表图片中表盘存在任意角度的旋转、倾斜和曝光时，仍可以准确识别机械水表的读数，更加智能，提高了识别效率。

Description

基于图像识别的机械水表读数识别方法

技术领域

本发明涉及机械仪表读数识别技术领域，更为具体地，涉及一种基于图像识别的机械水表读数识别方法。

背景技术

在信息化发展，建设“智慧城市”的大背景下，发展“智慧水务”，能够带动水务信息化技术的全面提升，发挥信息化建设效益。现有很多老式住宅里面，居民家里大多数都是机械字轮式水表，当前很大一部分入户水表的水量数据依靠普通人工抄读获取，读数不易看清楚，容易出错，间隔时间长，难以满足发展“智慧水务”的要求。现采用图像识别技术识别机械字轮式水表读数，即输入为带有读数的水表图片，按照格式要求返回该水表的读数。目前采用图像识别技术识别机械字轮式水表读数的难点在于图片中的环境复杂，水表图片中表盘存在任意角度的旋转、倾斜和曝光，这对定位水表中读数框的位置及识别读数造成了困难。识别水表读数属于图像文字识别问题，常见的处理方法为端到端的网络方法，端到端的网络方法目前还不够成熟，无法处理当前水表的旋转和倾斜问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于图像识别的机械水表读数识别方法，解决当水表图片中表盘存在任意角度的旋转、倾斜和曝光时，仍可以准确识别机械水表的读数，该识别方法，更加智能，提高了识别效率和准确率。

本发明的目的是通过以下技术方案来实现的：

一种基于图像识别的机械水表读数识别方法，包括以下步骤：

建立模型：通过神经网络训练出能识别机械水表读数的模型；

水表读数图像识别入口：输入水表读数图片；

图片预处理：将图片保持纵横比进行大小调整，以满足检测网络的输入要求；

检测水表读数框：将处理后图片作为检测网络的输入，生成读数框包围盒预测结果；

处理图片：根据读数框包围盒预测结果进行处理和裁剪，将裁剪得到的图片作为识别网络的输入；

生成预测结果：通过加载神经网络训练出的识别机械水表读数的模型，进行分析识别，生成预测结果；

生成json格式文件并保存：将生成预测结果写在水表图片上，监测结果生成json格式文件并保存。

进一步的，通过神经网络训练出能识别机械水表读数的模型，其中，所述神经网络训练包括训练时使用的数据迭代器、网络结构、以及训练参数调整。

进一步的，所述数据迭代器用于在训练时对图片数据进行预处理以满足网络要求，所述预处理包括调整图片大小和匹配标注信息，用于计算损失以优化网络。

进一步的，所述神经网络训练还包括在数据迭代器中使用的数据增强，用于对原始图片进行随机的旋转和明亮度变化，从而增强训练效果。

进一步的，所述网络结构采用基于深度卷积神经网络来构建检测和识别的网络结构。

进一步的，所述基于深度卷积神经网络来构建检测和识别的网络结构，包括：

使用卷积的方式来提取特征；

对提取的特征进行变形、扩充、融合等操作；

根据处理过的特征来生成预测结果。

进一步的，对提取的特征进行变形、扩充、融合等操作，包括：在检测网络中，对提取到的特征进行了多次上采样和下采样操作，来扩大感受野，对特征进行融合，以检测图片中读数框的位置，其中，感受野定义为卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小，欧式距离损失函数定义为预测读数框位置与标注读数框位置的偏移值，用于连续值训练样本的拟合，欧式距离损失函数如下式所示：

其中，

表示神经网络的实际输出，/>

表示样本标签。

进一步的，根据处理过的特征来生成预测结果，包括：在识别网络中，将提取到的特征处理为图片序列，使用LSTM结构来生成序列的识别结果，最后对生成序列的识别结果进行处理，得到最终的预测结果，其中，损失函数为CTC损失函数，LSTM结构为RNN结构CTC的一个变种特例，用于识别长序列的数据。

进一步的，所述处理图片，包括：

根据检测网络的预测结果对图片进行旋转，使读数部分趋近正向；

对读数框包围盒进行优化处理；

裁剪读数框包围盒部分图片。

本发明的有益效果是：

本发明通过神经网络训练出能识别机械水表读数的模型，输入水表读数图片，对图片进行预处理；将处理后图片作为检测网络的输入，生成读数框包围盒预测结果；根据读数框包围盒预测结果进行处理和裁剪，将裁剪得到的图片作为识别网络的输入；通过加载神经网络训练出的识别机械水表读数的模型，进行分析识别，生成预测结果；将生成预测结果写在水表图片上，监测结果生成json格式文件并保存。该识别方法实现过程简单，识别精度高，识别准确率高，当水表图片中表盘存在任意角度的旋转、倾斜和曝光时，仍可以准确识别机械水表的读数，更加智能，提高了识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于图像识别的机械水表读数识别方法的流程图；

图2为本发明提供的一种基于图像识别的机械水表读数识别方法中的LSTM结构图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对实施例进行描述之前，需要对一些必要的术语进行解释。例如：

若本申请中出现使用“第一”、“第二”等术语来描述各种元件，但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此，下文所讨论的“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。应当理解的是，若提及一元件“连接”或者“联接”到另一元件时，其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地，当提及一元件“直接地连接”或“直接地联接”到另一元件时，则不存在中间元件。

在本申请中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定，除非上下文另外清楚地指出，否则单数形式意图也包括复数形式。

当在本说明书中使用术语“包括”和/或“包括有”时，这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在，但是也不排除一个以上其他特征、整体、步骤、操作、元件、部件和/或其群组的存在和/或附加。

如图1所示，一种基于图像识别的机械水表读数识别方法，包括以下步骤：

水表读数图像识别入口：输入水表读数图片；

处理图片：根据读数框包围盒预测结果进行处理和裁剪，将裁剪得到的图片作为识别网络的输入，其中，所述处理图片，包括：

对读数框包围盒进行优化处理；

裁剪读数框包围盒部分图片。

生成预测结果：通过加载神经网络训练出的识别机械水表读数的模型，进行分析识别，并得出结果；

进一步的，通过神经网络训练出能识别机械水表读数的模型，其中，所述神经网络训练包括训练时使用的数据迭代器、网络结构、以及训练参数调整。所述数据迭代器用于在训练时对图片数据进行预处理以满足网络要求，所述预处理包括调整图片大小和匹配标注信息，用于计算损失以优化网络。所述神经网络训练还包括在数据迭代器中使用的数据增强，用于对原始图片进行随机的旋转和明亮度变化，从而增强训练效果。

作为较佳的实施方式，所述网络结构采用基于深度卷积神经网络来构建检测和识别的网络结构。所述基于深度卷积神经网络来构建检测和识别的网络结构，包括：

使用卷积的方式来提取特征；

对提取的特征进行变形、扩充、融合等操作，包括：在检测网络中，对提取到的特征进行了多次上采样和下采样操作，来扩大感受野，对特征进行融合，以检测图片中读数框的位置，其中，感受野定义为卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小，欧式距离损失函数定义为预测读数框位置与标注读数框位置的偏移值，用于连续值训练样本的拟合，欧式距离损失函数如下式所示：

其中，

表示神经网络的实际输出，/>

表示样本标签。

如图2所示，根据处理过的特征来生成预测结果，包括：在识别网络中，将提取到的特征处理为图片序列，使用LSTM结构来生成序列的识别结果，最后对生成序列的识别结果进行处理，得到最终的预测结果，其中，损失函数为CTC损失函数，LSTM结构为RNN结构CTC的一个变种特例，用于识别长序列的数据。这样，不管水表的读数框有多长都能识别出来。

相比于现有技术，本发明实施例提供的基于图像识别的机械水表读数识别方法，能够实现采集仪表图像、进行图像处理、图像分析和读数判断等功能，从而有效地替代了普通人工抄读获取，并能准确识别机械字轮式水表读数，以满足发展“智慧水务”的要求；该识别方法更加智能，且实现过程简单，具有识别精度高、识别准确率高的特点。当水表图片中表盘存在任意角度的旋转、倾斜和曝光时，仍可以准确识别机械水表的读数。

在本实施例中的其余技术特征，本领域技术人员均可以根据实际情况进行灵活选用以满足不同的具体实际需求。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的组成，结构或部件，均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。

在本发明的描述中，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”均是广义含义，本领域技术人员应作广义理解。例如，可以是固定连接，也可以是活动连接，或整体地连接，或局部地连接，可以是机械连接，也可以是电性连接，可以是直接相连，也可以是通过中间媒介间接连接，还可以是两个元件内部的连通等，对于本领域的技术人员来说，可以根据具体情况理解上述术语在本发明中的具体含义，即，文字语言的表达与实际技术的实施可以灵活对应，本发明的说明书的文字语言(包括附图)的表达不构成对权利要求的任何单一的限制性解释。

本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。在以上描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的技术，例如具体的施工细节，作业条件和其他的技术条件等。

Claims

1.一种基于图像识别的机械水表读数识别方法，其特征在于，包括以下步骤：

水表读数图像识别入口：输入水表读数图片；

处理图片：根据读数框包围盒预测结果进行处理和裁剪，将裁剪得到的图片作为识别网络的输入，包括：根据检测网络的预测结果对图片进行旋转，使读数部分趋近正向，对读数框包围盒进行优化处理，裁剪读数框包围盒部分图片；

生成json格式文件并保存：将生成预测结果写在水表图片上，监测结果生成json格式文件并保存；

其中，所述神经网络训练包括训练时使用的数据迭代器、网络结构、以及训练参数调整，所述数据迭代器用于在训练时对图片数据进行预处理以满足网络要求，所述预处理包括调整图片大小和匹配标注信息，用于计算损失以优化网络；

所述神经网络训练还包括在数据迭代器中使用的数据增强，用于对原始图片进行随机的旋转和明亮度变化，从而增强训练效果；

所述网络结构采用基于深度卷积神经网络来构建检测和识别的网络结构，包括：

使用卷积的方式来提取特征；

对提取的特征进行变形、扩充、融合操作，包括：在检测网络中，对提取到的特征进行了多次上采样和下采样操作，来扩大感受野，对特征进行融合，以检测图片中读数框的位置，其中，感受野定义为卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小，欧式距离损失函数定义为预测读数框位置与标注读数框位置的偏移值，用于连续值训练样本的拟合，欧式距离损失函数如下式所示：

；

其中，

表示神经网络的实际输出，/>

表示样本标签；

根据处理过的特征来生成预测结果，包括：在识别网络中，将提取到的特征处理为图片序列，使用LSTM结构来生成序列的识别结果，最后对生成序列的识别结果进行处理，得到最终的预测结果，其中，损失函数为CTC损失函数，LSTM结构为RNN结构CTC的一个变种特例，用于识别长序列的数据。