CN107066967A

CN107066967A - 一种利用局部观测信息的主动人脸寻的方法及装置

Info

Publication number: CN107066967A
Application number: CN201710236212.3A
Authority: CN
Inventors: 刘华平; 刘昌祥; 吴雨培; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2017-08-18
Anticipated expiration: 2037-04-12
Also published as: CN107066967B

Abstract

本发明提出一种利用局部观测信息的主动人脸寻的方法及装置，属于图像处理领域。装置包括：摄像头，执行装置，支架，连接线和计算单元。本方法在训练阶段，采集同一环境不同设定场景的图像组成训练场景集，随机选取训练场景集中一个训练场景，使用神经网络生成应执行的动作，模拟摄像头实际执行获得一条动作执行的轨迹，对轨迹进行评价和优化，得到优化后的神经网络参数，对参数进行判定，得到最终神经网络参数；在实际执行阶段，摄像头实时捕获画面并检测当前画面是否存在人脸，若存在，则主动寻的结束；若不存在，则通过神经网络计算应执行动作，动作执行完毕重新判定。本发明有效提升了数据的利用效率，且具备更好的适应能力与泛化能力。

Description

一种利用局部观测信息的主动人脸寻的方法及装置

技术领域

本发明属于图像处理领域，尤其涉及一种利用局部观测信息的主动人脸寻的方法及装置。

背景技术

主动人脸寻的，指计算单元通过当前摄像头观测得到的信息计算行动指令，将其发送给执行装置使摄像头在可移动范围内移动并对人脸进行主动寻找的过程。其作为服务机器人以及视频对讲机器人的一个技术难点，对改善机器人与人自然交互质量有着至关重要的作用。尤其对于聊天机器人来说，其主要受众为老年人群。在老年人使用视频对讲功能时，由于其不方便行动，有时候无法让摄像头刚好对准人脸，造成一定的交流障碍，所以需要一种有效的人脸寻的方案使机器自动对摄像头姿态进行调整。

相关公开专利如102411368B——机器人的主动视觉人脸跟踪方法和跟踪系统。利用机器人在空间中进行漫游，并通过一个实时监测模块监测当前画面是否存在人脸，实现人脸的寻的过程。该已有技术是通过一个固定的搜索策略对环境进行扫描，其不会根据当前捕捉到画面的不同而采取不同的自适应性的策略，在搜索效率上还没有做到最优。

另一方面，为了保证通话质量，执行装置不可以通过改变焦距来增大捕获画面的区域，强行让画面中存在人脸。在一般的视频通话情景下，为了看清对方表情，视频中人脸不可以小于一定比例。这导致了在摄像头未对准人脸时，通常也只能观测到人体的某一部分(比如手、胸)，本发明中称其为环境的局部观测信息，计算单元需要通过局部观测信息进行计算得到接近目标的最佳动作。

为了得到具备自适应性的有效策略，计算单元需要能够在针对于不同捕获画面指定不同的移动策略，这需要计算单元需要能够对获取的图像目标进行有效表达并在有效表达的基础上进行动作决策。深度学习技术为图像等高维数据的表达提供了一个有效的途径。有别于主成分分析(PCA)、词袋模型(BOW)等方法，基于深度学习的图像表达技术具有更强的编码能力与更强的泛化能力，能够有效表达人脸周围的不同信息，帮助计算单元做出正确决策。

目前自适应策略的主流训练方法为强化学习，而其优化方法分为基于值的优化方法和基于策略搜索的优化方法两种。基于值的优化方法需要对场景进行大量学习并获得不同场景下的状态-动作对所对应的价值来决定不同动作。而基于策略搜索的方法通过行动样本在策略空间进行参数优化，从而得到最优策略。传统策略搜索方法使用随机梯度对策略进行优化，存在策略输出方差大，优化时间长的问题。造成了一定的应用障碍。

发明内容

本发明目的是为了克服已有技术的不足之处，提出一种利用局部观测信息的主动人脸寻的方法及装置。本发明可有效提升数据的利用效率，且具备更好的适应能力与泛化能力。

本发明提出的一种利用局部观测信息的主动人脸寻的方法，其特征在于，分为训练阶段和实际执行阶段两个阶段，包括以下步骤：

1)训练阶段；具体包括以下步骤；

1-1)采集同一环境不同设定场景的图像组成训练场景集，每个训练场景中都存在人脸；具体步骤如下：

1-1-1)采集人员保持坐姿在摄像头前，在摄像头可捕获的范围内采集图像，摄像头采集的图像覆盖当前场景的全部范围；

1-1-2)将采集到的图像进行拼接，用以获得当前场景的静态全景图像作为一个训练场景；

1-1-3)重复步骤1-1-1)至1-1-2)，直到收集到足够的不同场景的静态全景图像组成训练场景集；

1-2)随机选取训练场景集中一个训练场景，使用神经网络生成应执行的动作，神经网络记为π_θ，神经网络参数记为θ，神经网络输入为每个训练场景的静态全景图像，输出为应该执行动作分布的期望μ，最终生成轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}；

具体步骤如下：

1-2-1)初始化总执行步数计数为0，记为steps_counter＝0，并设定最大执行步数；

1-2-2)随机选取训练场景集中一个训练场景，在该训练场景的静态全景图像上随机初始化一个位置，作为此次轨迹设定的初始观测位置，以此位置为中心截取实际摄像头获取的图像区域，经过双线性插值变为200×200像素大小，得到t时刻的观测图像s_t；

1-2-3)将步骤1-2-2)得到的观测图像s_t输入到神经网络π_θ中，神经网络输出为t时刻应执行动作的分布的期望μ_t，将应执行动作的分布的期望进行重新采样获得应该执行动作a_t；

1-2-4)在要求执行动作为a，用户和摄像头距离为d时，摄像头实际捕获范围移动距离为d*tan(a)，则训练阶段执行动作的移动距离为d*tan(a)/ω，其中ω为比例系数，将输出的执行动作的移动距离转换为对应的像素距离并在静态全景图像上将观测位置移动到新的位置，并在新的位置得到新观测图像s_t+1；

1-2-5)计算位置收益r_t；

1-2-6)记步骤1-2-2)～步骤1-2-5)产生的t时刻状态-动作对集合为{s_t，a_t，a_t+1，r_t}，简记为SASR_t；依次记录所有时刻的状态-动作对集合，生成集合{SASR₀，SASR₁，...，SASR_t，...，SASR_N}，N为实际执行的步数，形成一条动作执行的轨迹；

1-2-7)总执行步数计数加一，steps_counter＝steps_counter+1；

1-2-8)检测新观测图像s_t+1中是否存在人脸并进行判定：

1-2-8-1)若存在人脸，则记录生成的轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}，进入步骤1-2-9)；

1-2-8-2)若不存在人脸，则检查当前实际执行步数是否为最大执行步数：若当前实际执行步数为最大执行步数，则记录生成的轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}，进入步骤1-2-9)；若当前实际执行步数不为最大执行步数，则返回步骤1-2)生成一条新的轨迹；

1-2-9)若N小于等于2，放弃已生成的轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}，重新返回步骤1-2)生成一条新的轨迹；否则保留生成的轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}，进入步骤1-3)；

1-3)获得轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}后，对该轨迹进行评价和优化，得到优化后的神经网络参数θ_new；

1-3-1).对于{SASR₀，SASR₁，...，SASR_t，...，SASR_N}中的每个元素，提取其对应的回报组{r₀，r₁，...，r_N}，将回报组进行低通滤波：

其中，gamma为折损因子，Z为经过Z变换后的滤波表达，{r₀，r₁，...，r_N}经过滤波得到状态收益组{A₀，A₁，...，A_N}；

1-3-2)通过动作评价的函数计算动作评价关于参数θ的梯度，动作评价的函数表达式如式(6)所示：

得到动作评价函数L(π)关于神经网络的参数θ的梯度，将该梯度记为

1-3-3)计算梯度g并使用梯度g更新神经网络参数θ，得到更新后的参数θ_new＝θ+g，此更新后的参数θ_new所决定的神经网络记为新神经网络π_θnew，新神经网络π_θnew输出动作新的动作分布的期望为μ_new并计算在新的神经网络中的随机扰动Δ_new；

1-3-4)计算神经网络π_θ和新神经网络π_θnew之间的KL距离：

1-3-5)由KL距离相对于参数θ的二阶导得到费舍尔信息矩阵G；

G＝2Δθ^TD_KLΔθ (8)

1-3-6)计算自然梯度，自然梯度为费舍尔信息矩阵的逆乘以动作评价关于参数θ的梯度所得，表达式如式(10)所示：

x＝G^-1g (9)

1-3-7)计算步长；

D_max为限制的最大KL距离；

1-3-8)将步骤1-3-3)得到新神经网络π_θnew，记为当前神经网络π_θ，新的神经网络中的随机扰动Δ_new记为当前神经网络的随机扰动Δ，将新神经网络输出动作新的动作分布的期望μ_new记为当前神经网络应执行动作分布的期望μ；按照公式：

θ_new＝θ+stepmax*x (11)

对神经网络继续进行更新，得到更新后的神经网络参数θ_new及神经网络π_θnew，并更新相应的动作的期望和随机扰动；

1-3-9)按照步骤1-3-8)更新后的神经网络π_θnew，计算步骤1-2-9)生成的轨迹在所对应的s_t时应输出的动作a_{t_new}；

1-3-10)计算似然度，表达式如式(12)所示：

1-3-11)更新评价函数并进行判定；

1-3-11-1)若更新后的评价函数的值大于步骤1-3-2)所得的值，则增大限制的最大KL距离D_max＝D_max*1.1；

1-3-11-2)若更新后的评价函数的值小于或等于步骤1-3-2)所得的值，则减小限制的最大KL距离D_max＝D_max*0.9；

1-4)判断步骤1-3-8)得到的神经网络参数θ_new是否满足优化指标：

1-4-1)若步骤1-3-11)得到的更新后的评价函数的值与步骤1-3-2)所得的值之差的绝对值小于0.0001，则说明步骤1-3-8)得到的神经网络π_θnew收敛，将所得神经网络参数θ_new记作最终神经网络参数并保存及其所对应的神经网络，优化完毕，进入步骤2)；

1-4-2)若步骤1-3-11)得到的更新后的评价函数的值与步骤1-3-2)所得的值之差的绝对值大于等于0.0001，则神经网络π_θnew不符合收敛要求，重新返回步骤1-2)，开始新一轮的优化；

2)实际执行阶段；具体包括以下步骤：

2-1)载入训练阶段步骤1-4-1)所获得的最终神经网络参数到所对应的神经网络中；

2-2)摄像头实时捕获到画面；

2-3)检测当前画面是否存在人脸并进行判定：

2-3-1)若存在人脸，主动寻的结束，退出实际执行阶段；

2-3-2)若不存在人脸，则将摄像头获取的画面双线性插值为200X200灰度图像输入神经网络，重复步骤1-2-3)，计算应执行动作a；

2-4)执行动作a；

2-5)动作执行完毕获得新的图像，重新返回步骤2-3)。

本发明的特点及有益效果为：

1本发明提出的主动式人脸寻的先采集数据再离线训练的模式方案，相较于扫描式的人脸寻的方案具有较大的效率提升。

2本发明使用神经网络作为计算单元的主要组成部分，可以仅通过部分观测信息做出动作决策，而不需要掌握当前情景的全部信息。

3本发明利用深度学习技术作为图像表达，具备更好的适应能力与泛化能力。

4本发明利用策略搜索方法对神经网络进行优化，能更好地保证其获得全局最优方案。

5本发明使用采集数据离线训练的模式，每一个场景的数据都可以生成多条训练轨迹，有效提升了数据的利用程度。

6本发明通过网络实现了当前的局部观测信息到应该执行动作的直接计算输出，完成了一种端到端的控制。相较于基于级联系统的控制方法具有更强的鲁棒性。

附图说明

图1为本发明训练阶段流程图

图2为本发明实施例中的神经网络结构图。

图3为本发明执行阶段流程图

图4为本发明方法执行效果图。

图5为本发明装置的实施例结构示意图

具体实施方式

本发明提出的一种利用局部观测信息的主动人脸寻的方法及装置，结合附图及实施例详细说明如下：

本发明提出的一种利用局部观测信息的主动人脸寻的方法，所述局部观测信息指观测信息中不包含或包含部分人脸，该方法分为训练阶段和实际执行阶段两个阶段：训练阶段将离线采集的训练数据训练得到神经网络及其参数并保存，实际执行阶段载入训练阶段所得到神经网络的参数并依据神经网络执行动作。包括以下步骤：

1)训练阶段：训练阶段为在采集得到训练数据的基础上进行离线训练，得到最佳的自适应性策略；流程如图1所示，具体包括以下步骤；

1-1)采集同一环境不同设定场景的图像组成训练场景集，每个训练场景中都必须存在人脸；本实施例中同一环境采用家居环境，即普通居民(用户)的居住空间，场景指不同装修风格下所构成的具体的不同空间环境。具体采集步骤为：

1-1-1)采集人员保持坐姿在摄像头前，在摄像头可捕获的范围内采集图像。摄像头采集的图像应覆盖当前场景的全部范围，所采集图像的数量越密集越好。

1-1-3)重复步骤1-1-1)至1-1-2)，直到收集到足够的不同场景的静态全景图像组成训练场景集，需要场景数量和环境复杂程度有关，本实施例设置环境为一般家居环境，设置需要采集场景数量为1000个场景。

1-2)随机选取训练场景集中一个训练场景，使用神经网络生成应执行的动作，模拟摄像头实际执行获得一条动作执行的轨迹；神经网络记为π_θ，神经网络参数记为θ，神经网络输入为每个训练场景的静态全景图像，神经网络输出为应该执行动作分布的期望μ，并生成轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}。本发明实施例所采用的神经网络具体结构如图2所示，输入图像经过两层核为4X4大小的卷积层，拉直后输入到结点数分别为1024,512,64的三个全连接层中，经过全连接层的运算输出为应该执行的动作分布的期望。生成轨迹的具体步骤为：

1-2-1)初始化总执行步数计数为0，记为steps_counter＝0，并设定最大执行步数；最大执行步数为系统进行主动寻的的执行次数，与场景设定有关，数值越大尝试主动寻的的时间越长，在本实施例中设置最大执行步数为200，记steps_counter_max＝200

1-2-2)随机选取训练场景集中一个训练场景，在该训练场景的静态全景图像上随机初始化一个位置，作为此次轨迹设定的初始观测位置，以此位置为中心截取实际摄像头获取的图像区域，经过双线性插值变为200×200像素大小，得到t时刻的观测图像s_t(本实施例中，由于最大执行步数为200，则t的取值从0到200).

1-2-3)将步骤1-2-2)得到的观测图像s_t输入到神经网络π_θ中，神经网络输出为t时刻应执行动作的分布的期望μ_t，将应执行动作的分布的期望进行重新采样获得应该执行动作a_t，具体步骤为：

1-2-3-1)将观测图像s_t输入神经网络π_θ，得到t时刻应执行动作的分布的期望μ_t，设执行装置具有按X轴转动与Y轴转动的能力，故应执行动作的分布的期望为一个二维向量，分别代表绕X轴与Y轴的转动量；

1-2-3-2)在μ_t上附加随机扰动，计算随机扰动Δ(随机扰动将根据输出动作维度的不同动态调整)。设本发明动作维度为2，随机扰动基准数值将在1和2之间随机挑选，则依据动作维度产生的随机数值δ表达式如式(1)所示：

δ＝0.01*randn[1，action_dim] (1)

式中，δ为依据动作维度产生的随机数值，randn为随机取整函数，action_dim为输出动作的维数，式(1)为在1到action_dim之间随机选择一个整数，由于本发明允许摄像头在X轴向与Y轴向运动，故在本发明动作维数设置为2。得到随机扰动表达式如式(2)所示：。

1-2-3-3)在二维标准正态分布中生成随机数I为单位矩阵，表示各分量自相关系数为1，互相关系数为0。

1-2-3-4)利用公式μ_t为t时刻神经网络输出得到的动作的期望，得到t时刻最终执行动作记为a_t，a_t为一个二维向量，每个维度分别代表摄像头在X轴向和Y轴向的转动角度。

1-2-4)(由于用户和自动寻的装置之间距离较近，故)使用平面模型表示摄像头可以捕获的范围。在要求执行动作为a，用户和摄像头距离为d时，摄像头实际捕获范围移动了d*tan(a)，(由于训练阶段使用静态全景图像模拟实际捕获范围，故)训练阶段执行动作的移动距离为d*tan(a)/w，其中w为比例系数，在本发明中为0.008；(由于执行动作为在静态全景图像上的模拟运动，故)将输出的执行动作的移动距离转换为对应的像素距离并在静态全景图像上将观测位置移动到新的位置，并在新的位置得到新观测图像s_t+1。

1-2-5)计算位置收益r_t，具体步骤为：

1-2-5-1)对t时刻中的观测图像s_t在静态全景图像中的位置以及执行动作后的新观测图像s_t+1在静态全景图像中的位置变化进行评价，记两次观测图像在静态全景图像中的定位位置变化为Δd_t，Δd_t表示观测图像s_t的中心与目标图像(目标图像指当前静态全景图像中人脸所在的位置)中心的欧式距离d_t与新观测图像s_t+1的中心与目标图像中心的欧式距离d_t+1之差，即Δd_t＝d_t-d_t+1。收益r_t和Δd_t关系可以表示为一个收益函数映射关系，表达式如式(3)所示：

其中，β为一个非负的固定收益值，本发明中取值为1。

为了加速训练，在原有r_t的映射关系上，加入两个条件，以凸显寻找目标的重要性。

第一个条件为跳出条件：即当d_t小于50像素的时候，认为摄像头可以在视频内捕获全部人脸信息，此时获得一个与β取值不同的非负的固定收益值α，本发明中设定值为100.；

第二个条件是碰撞条件：在实际执行过程中，由于电机角度限制，观测只能在一定空间范围内进行，所以设置当电机角度运转到无法执行的动作状态时候，电机将保持当前角度并反馈给执行装置，获得一个负的状态收益-c，取值为一个非正的固定值，在本发明中设置为-10。

综上，得到最终的收益函数映射关系表达式如下：

式中，targetDistance代表跳出条件，collision表示碰撞；

1-2-7)总执行步数计数加一，steps_counter＝steps_counter+1；

1-2-8)检测当前区域，即新观测图像s_t+1中是否存在人脸并进行判定：

1-2-9)若实际执行步数N小于等于2，由于无法计算回报组，放弃已生成的轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}，重新返回步骤1-2)生成一条新的轨迹；否则保留生成的轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}，进入步骤1-3)；

1-3)获得轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}后，对该轨迹进行评价和优化，得到优化后的神经网络参数；具体步骤如下：

其中，gamma为折损因子，可根据对于长远收益权重不同而调整，Z为经过Z变换后的滤波表达，{r₀，r₁，...，r_N}经过滤波得到状态收益组{A₀，A₁，...，A_N}。

由于动作评价函数是一个和轨迹以及神经网络参数有关的函数，将神经网络π_θ中的所有参数看做参数空间，则可在该空间中通过符号推演得到动作评价函数L(π)关于神经网络的参数θ的梯度，将该梯度记为

1-3-3)计算梯度g并使用梯度g更新神经网络参数θ，得到更新后的参数θ_new＝θ+g，此更新后的参数θ_new所决定的神经网络记为新神经网络π_θnew，新神经网络π_θnew输出动作新的动作分布的期望为μ_new并计算在新的神经网络中的随机扰动Δ_new。

1-3-4)计算神经网络π_θ和新神经网络π_θnew之间的KL距离：

1-3-5)由KL距离相对于参数θ的二阶导得到费舍尔信息矩阵G；

G＝2Δθ^TD_KLΔθ (8)

故费舍尔信息矩阵可以直接由KL距离对于参数θ的二次微分得到。

x＝G^-1g (9)

由于对于费舍尔信息矩阵求逆操作复杂，本发明将对x的求解转换为对方程组：Gx＝g的求解。此方程组可以使用共轭梯度法进行迭代求解，具体流程为：

1-3-6-1).取任意数值初始化解向量，记为x₀

1-3-6-2)计算误差r₀＝g-Gx₀，初始化辅助向量p₀＝r₀

1-3-6-3)计算

1-3-6-4)更新x_k+1＝x_k+a_kp_k；

1-3-6-5)更新r_k+1＝r_k-a_kG_pk；

1-3-6-6)计算

1-3-6-7)更新p_k+1＝r_k+1+βkp_k；

1-3-6-8)重复1-3-6-2)～1-3-6-7)，直到x_k+1与x_k的误差小于固定值0.001；

1-3-7)计算步长；

本发明中设定D_max＝0.01,为限制的最大KL距离。

θ_new＝θ+stepmax*x (11)

对神经网络继续进行更新，得到更新后的神经网络参数θ_new及神经网络π_θnew，并更新相应的动作的期望和随机扰动。

1-3-10)计算似然度，表达式如式(12)所示：

1-3-11)更新评价函数并进行判定；

1-4-1)若步骤1-3-11)得到的更新后的评价函数的值与步骤1-3-2)所得的值之差的绝对值小于0.0001，则说明步骤1-3-8)得到的神经网络π_θnew收敛，将所得神经网络参数θ_new记作最终神经网络参数并保存及其所对应的神经网络，优化完毕，进入步骤2)；1-4-2)若步骤1-3-11)得到的更新后的评价函数的值与步骤1-3-2)所得的值之差的绝对值大于等于0.0001，则神经网络π_θnew不符合收敛要求，重新返回步骤1-2)，开始新一轮的优化；

2)实际执行阶段；流程如图3所示，具体包括以下步骤：

2-2)摄像头实时捕获到画面；

2-3)检测当前画面是否存在人脸并进行判定：

2-3-1)若存在人脸，主动寻的结束，退出实际执行阶段；

2-4)执行动作a；

2-5)动作执行完毕获得新的图像，重新返回步骤2-3)。

本发明方法实际执行效果如图4所示，在摄像头获取窗口(图中小矩形区域所示)未对准人脸时，计算单元将计算正确动作使摄像头逐步对准人脸。

本发明提出的一种利用局部观测信息的主动人脸寻的装置，结构如图5所示，包括：摄像头1，执行装置2，支架3，连接线4和计算单元5。所述摄像头1放置在执行装置2上，执行装置2放置在支架3上；摄像头1、执行装置2和计算单元5之间通过连接线4相互连接进行数据传输。

所述摄像头1，用于捕捉画面，本发明选用USB摄像头；所述执行装置2，在本发明中为具有X轴转动与Y轴转动两个自由度的电机；所述支架3，用于支撑摄像头和执行装置；所述连接线4，连接摄像头、执行装置和计算单元之间的数据传输；

所述计算单元5，本发明中为事先存储有本发明的利用局部观测信息的主动人脸寻的方法的迷你PC。

Claims

1.一种利用局部观测信息的主动人脸寻的方法，其特征在于，分为训练阶段和实际执行阶段两个阶段，包括以下步骤：

1)训练阶段；具体包括以下步骤；

1-2)随机选取训练场景集中一个训练场景，使用神经网络生成应执行的动作，神经网络记为π_θ，神经网络参数记为θ，神经网络输入为每个训练场景的静态全景图像，输出为应该执行动作分布的期望μ，最终生成轨迹{SASR₀，SASR₁，...，SASR_t，...，SASR_N}；具体步骤如下：

1-2-4)在要求执行动作为a，用户和摄像头距离为d时，摄像头实际捕获范围移动距离为d*tan(a)，则训练阶段执行动作的移动距离为d*tan(a)/w，其中w为比例系数，将输出的执行动作的移动距离转换为对应的像素距离并在静态全景图像上将观测位置移动到新的位置，并在新的位置得到新观测图像s_t+1；

1-2-5)计算位置收益r_t；

1-2-7)总执行步数计数加一，steps_counter＝steps_counter+1；

1-2-8)检测新观测图像s_t+1中是否存在人脸并进行判定：

1-3-1)对于{SASR₀，SASR₁，...，SASR_t，...，SASR_N}中的每个元素，提取其对应的回报组{r₀，r₁，...，r_N}，将回报组进行低通滤波：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>&pi;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>A</mi> <mi>k</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

1-3-4)计算神经网络π_θ和新神经网络π_θnew之间的KL距离：

<mrow> <msub> <mi>D</mi> <mrow> <mi>K</mi> <mi>L</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&pi;</mi> <mi>&theta;</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>&pi;</mi> <mrow> <mi>&theta;</mi> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>&mu;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>&theta;</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msubsup> <mi>&Delta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <msup> <mi>&Delta;</mi> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msubsup> <mi>&Delta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>+</mo> <mi>ln</mi> <mrow> <mo>(</mo> <mfrac> <mi>&Delta;</mi> <msub> <mi>&Delta;</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

1-3-5)由KL距离相对于参数θ的二阶导得到费舍尔信息矩阵G；

G＝2Δθ^T D_KLΔθ (8)

x＝G^-1g (9)

1-3-7)计算步长；

D_max为限制的最大KL距离；

θ_new＝θ+stepmax*x (11)

1-3-10)计算似然度，表达式如式(12)所示：

<mrow> <mi>l</mi> <mi>i</mi> <mi>k</mi> <mi>e</mi> <mi>h</mi> <mi>o</mi> <mi>o</mi> <mi>d</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>&pi;</mi> <mrow> <mfrac> <mrow> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>dim</mi> </mrow> <mn>2</mn> </mfrac> <mi>&Delta;</mi> </mrow> </msup> </mrow> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mo>_</mo> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>-</mo> <mi>&mu;</mi> </mrow> <mrow> <mn>2</mn> <mi>&Delta;</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

1-3-11)更新评价函数并进行判定；

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>&pi;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </msubsup> <mi>l</mi> <mi>i</mi> <mi>k</mi> <mi>e</mi> <mi>h</mi> <mi>o</mi> <mi>o</mi> <mi>d</mi> <mo>*</mo> <msub> <mi>A</mi> <mi>k</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow> 2

2)实际执行阶段；具体包括以下步骤：

2-2)摄像头实时捕获到画面；

2-3)检测当前画面是否存在人脸并进行判定：

2-3-1)若存在人脸，主动寻的结束，退出实际执行阶段；

2-4)执行动作a；

2-5)动作执行完毕获得新的图像，重新返回步骤2-3)。

2.如权利要求1所述的方法，其特征在于，所述步骤1-2-3)，具体步骤如下：

1-2-3-2)在μ_t上附加随机扰动，计算随机扰动Δ，设本发明动作维度为2，随机扰动基准数值在1和2之间随机挑选，则依据动作维度产生的随机数值δ表达式如式(1)所示：

δ＝0.01*randn[1，action_dim] (1)

式中，δ为依据动作维度产生的随机数值，randn为随机取整函数，action_dim为输出动作的维数，式(1)为在1到action_dim之间随机选择一个整数，得到随机扰动表达式如式(2)所示：

<mrow> <mi>&Delta;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>&delta;</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

1-2-3-3)在二维标准正态分布中生成随机数I为单位矩阵，表示各分量自相关系数为1，互相关系数为0；

1-2-3-4)利用公式得到t时刻最终执行动作记为a_t，a_t为一个二维向量，每个维度分别代表摄像头在X轴向和Y轴向的转动角度。

3.如权利要求1所述的方法，其特征在于，所述步骤1-2-5)，具体步骤如下：

1-2-5-1)对t时刻中的观测图像s_t在静态全景图像中的位置以及执行动作后的新观测图像s_t+1在静态全景图像中的位置变化进行评价，记两次观测图像在静态全景图像中的定位位置变化为Δd_t，Δd_t表示观测图像s_t的中心与目标图像，中心的欧式距离d_t与新观测图像s_t+1的中心与目标图像中心的欧式距离d_t+1之差，即Δd_t＝d_t-d_t+1，目标图像为当前静态全景图像中人脸所在的位置；收益r_t和Δd_t关系表示为一个收益函数映射关系，表达式如式(3)所示：

<mrow> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&beta;</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&Delta;d</mi> <mi>t</mi> </msub> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>&beta;</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&Delta;d</mi> <mi>t</mi> </msub> <mo>></mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中，β为一个非负的固定收益值；

在原有r_t的映射关系上，加入两个条件：

第一个条件为跳出条件：即当d_t小于50像素的时候，摄像头在视频内捕获全部人脸信息，获得一个与β取值不同的非负的固定收益值α；

第二个条件是碰撞条件：在实际执行过程中，由于电机角度限制，观测只能在一定空间范围内进行，所以设置当电机角度运转到无法执行的动作状态时候，电机将保持当前角度并反馈给执行装置，获得一个负的状态收益-c，取值为一个非正的固定值；

综上，得到最终的收益函数映射关系表达式如下：

<mrow> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&alpha;</mi> <mo>,</mo> <msub> <mi>d</mi> <mi>t</mi> </msub> <mo><</mo> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>&beta;</mi> <mo>,</mo> <msub> <mi>&Delta;d</mi> <mi>t</mi> </msub> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>&beta;</mi> <mo>,</mo> <msub> <mi>&Delta;d</mi> <mi>t</mi> </msub> <mo>></mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>c</mi> <mo>,</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mi>l</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

式中，targetDistance代表跳出条件，collision表示碰撞。

4.一种利用局部观测信息的主动人脸寻的装置，其特征在于，包括：摄像头，执行装置，支架，连接线和计算单元；所述摄像头放置在执行装置上；执行装置放置在支架上，摄像头、执行装置和计算单元之间通过连接线相互连接进行数据传输。