CN113743605A

CN113743605A - 基于进化方法搜索烟、火检测网络架构的方法

Info

Publication number: CN113743605A
Application number: CN202111016458.2A
Authority: CN
Inventors: 杜佳宁; 余奇凯
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-06-16
Filing date: 2021-08-31
Publication date: 2021-12-03

Abstract

本发明公开了一种基于进化方法搜索烟、火检测网络架构的方法，包括actor和critic两部分。actor根据奖惩信息调节不同状态下采取各种动作的概率。首先用计算图表达网络结构，并进一步将层、层的连接及层内的操作用编码表示。然后将颜色、纹理和轮廓子网络做为初始种群，开始按选择、繁殖、变异、更新、优化步骤迭代进化。使用critic评估网络来做准确率预测器，输入为网络结构的变长字符串描述，输出预测的验证精度。这个方法探索烟、火检测的网络结构，同时采用进化算法限制探索空间，提高优化效率。

Description

基于进化方法搜索烟、火检测网络架构的方法

技术领域

本发明涉及烟雾识别技术领域，具体涉及一种搜索火灾烟雾检测深度网络架构的方法。

背景技术

火灾预警一直是消防安全领域的重要课题。火灾发生前期通常会产生大量烟雾。如果能够及时地检测到烟雾，就可以提供更早的火灾预警，减少人员伤亡和财产损失。传统的烟雾检测方法通常基于颜色、纹理、形状、运动等特征，取得了一定的成果，但在实际应用中仍然存在问题，往往在某些场合有效，而换了应用场景效果欠佳。这主要在于烟雾的静态特征如颜色、纹理等受天气、光照、时间等影响变化范围太大，而动态特征如背景建模或者帧间差分通常基于阈值，阈值对检测结果影响较大。

近些年来，深度神经网络在人脸识别、图像分类等方面取得了突破性进展。深度神经网络以原始图像作为输入，通过组合浅层特征形成更加抽象的高层特征，可以发现数据深层次的分布式特征，避免人工提取特征工作的繁复冗杂。但是网络架构设计中，需要消耗大量的人力和时间，而且由于人在探索时缺乏明确的理论指导，以及人的健忘、易疲倦和情绪化等因素，因此尝试将网络架构搜索的任务转移给机器来自动完成。

发明内容

为解决上述问题，本发明提供了针对烟、火检测的卷积网络，采用强化学习探索优化结构，同时采用进化算法限制探索空间，提高优化效率。

本发明通过以下技术方案予以实现：

建立一个智能代理，可以往初始架构中添加层、连接和修改参数，生成新的网络架构状态，并评价网络架构。这其实是个强化学习过程，包括actor和critic两部分。actor根据奖惩信息调节不同状态下采取各种动作的概率，如下式

π_θ(s,a)＝P(a|s,θ)≈π(a|s) (1)

式中π是策略，s是网络状态，θ是策略网络的参数。critic是以损失函数为基础的评估网络，包括状态s价值和动作a价值，如下式

其中w为目标网络的参数。

首先actor根据策略选择动作a_i与环境进行交互，当前状态s_t执行动作a_i后反馈一个奖励值r_t并移动到下个状态s_t+1。actor将环境的状态转换存储到经验回放池，然后小批量采样。critic会根据动作值函数进行评估，将评估结果反馈给当前评价网络，并计算评价网络梯度更新。另一方面，critic将评估结果传到actor中用于更新策略网络参数。最后更新actor和critic生成的目标网络。

目标网络的进化步骤主要包括网络编码、搜索策略和性能评估。搜索策略由actor网络负责，性能评估由critic网络负责。

(1)网络编码

采用计算图表达网络结构，并进一步将层、层的连接及层内的操作用编码表示。暂定网络最多35层；每层可能是卷积、批正则化、激活、池化、dropout、连接等操作中的一种；由于每层的类型不同，其操作、选项和连接不同。因此把每层表达为3个属性，连接和操作，因此105位的编码可以表示网络。操作用6个选项的编码表示，操作选项用9个选项的编码表示，连接用34个选项的编码表示。

(2)搜索策略

将颜色、纹理和轮廓子网络做为初始种群，开始按以下步骤迭代进化。

选择：从种群中随机选择k个个体，然后按性能对k个个体进行排序，并以概率p选择最佳个体，而次优个体的概率为p×(1-p)。

繁殖：每两个个体繁殖出一个新的后代。父母网络可以通过一个点或多点交叉进行组合。

变异：预定义一组突变运算符，包括更改操作、选项和连接。突变可能探索更多新颖的结构并确保种群的多样性。

更新：在种群中随机选择两个个体，将较差的个体从种群中剔除。

优化：建立目标函数的概率模型，然后使用该模型选择最优的超参数，最后对真实的目标函数评估所选的超参数。

(3)性能评估

使用critic评估网络来做准确率预测器，输入为网络结构的变长字符串描述，输出预测的验证精度。也正是有个这个利器，使得它里边提出方法即使用看起来并不复杂的启发式搜索，也能达到很好的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的处理流程示意图；

图2网络进化流程。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

建立一个智能代理，可以往初始架构中添加层、连接和修改参数，生成新的网络架构状态，并评价网络架构。这包括actor和critic两部分。actor根据奖惩信息调节不同状态下采取各种动作的概率，如下式

π_θ(s,a)＝P(a|s,θ)≈π(a|s) (1)

其中w为目标网络的参数。

搜索策略如图1所示。首先actor根据策略选择动作a_i与环境进行交互，当前状态s_t执行动作a_i后反馈一个奖励值r_t并移动到下个状态s_t+1。actor将环境的状态转换存储到经验回放池，然后小批量采样。critic会根据动作值函数进行评估，将评估结果反馈给当前评价网络，并计算评价网络梯度更新。另一方面，critic将评估结果传到actor中用于更新策略网络参数。最后更新actor和critic生成的目标网络。

目标网络的进化步骤如图2所示，主要包括网络编码、搜索策略和性能评估。搜索策略由actor网络负责，性能评估由critic网络负责。

(1)网络编码

(2)搜索策略

(3)性能评估

Claims

1.一种基于进化方法搜索烟、火检测网络架构的方法，包括actor和critic两部分。actor根据奖惩信息调节不同状态下采取各种动作的概率。首先用计算图表达网络结构，并进一步将层、层的连接及层内的操作用编码表示。然后将颜色、纹理和轮廓子网络做为初始种群，开始按选择、繁殖、变异、更新、优化步骤迭代进化。使用critic评估网络来做准确率预测器，输入为网络结构的变长字符串描述，输出预测的验证精度。这个方法探索烟、火检测的网络结构，同时采用进化算法限制探索空间，提高优化效率。

2.根据权利要求1，其所提到的采用计算图表达网络结构，并进一步将层、层的连接及层内的操作用编码表示；每层可能是卷积、批正则化、激活、池化、dropout、连接等操作中的一种；由于每层的类型不同，其操作、选项和连接不同，因此把每层表达为3个属性，连接和操作，因此105位的编码可以表示网络；操作用6个选项的编码表示，操作选项用9个选项的编码表示，连接用34个选项的编码表示。

3.根据权利要求1，将颜色、纹理和轮廓子网络做为初始种群，开始按以下步骤迭代进化。

4.根据权利要求1，使用critic评估网络来做准确率预测器，输入为网络结构的变长字符串描述，输出预测的验证精度。也正是有个这个利器，使得它里边提出方法即使用看起来并不复杂的启发式搜索，也能达到很好的效果。