CN112101461B

CN112101461B - 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法

Info

Publication number: CN112101461B
Application number: CN202010974728.XA
Authority: CN
Inventors: 王松; 胡燕祝; 王子威
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-02-25
Anticipated expiration: 2040-09-16
Also published as: CN112101461A

Abstract

本发明涉及基于HRTF‑PSO‑FCM的无人机侦察视觉信息可听化方法，是一种对无人机侦察方向的分布式视觉信息实现可听化的算法实现，属于目标追踪与机器学习领域，其特征在于采用如下步骤：(1)计算更新隶属度；(2)计算更新适应度；(3)更新每个粒子的速度；(4)更新每个粒子的位置；(5)进行灰度变换；(6)确定图像与声音的映射关系。本设计采用PSO‑FCM算法很好的将背景与信息主体相分离，极大加快主要信息的图像向声音的转换的过程，提高系统效率，促进实时性转换。采用声音的频率、响度和音长特征进行编码，有利于将图像信息的多维空间信息进行表示，提高图像信息转化为声音信息的辨识能力。

Description

一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法

技术领域

本发明涉及目标追踪与机器学习领域，主要是一种对无人机侦察方向的分布式视觉信息实现可听化的算法实现。

背景技术

目标追踪就是利用机器拍摄到的视觉信息，进行图像处理，从而获取目标的关键信息进行标记。除此之外，将追踪到的目标图像转换为声音信息，可以很好的解决图像立体感知的问题。传统的图像可听化方法大多基于像素方法，这种方法保留重要的视觉特征，但是由于图像处理的数据比较大，降维的过程中不可避免的丢失了大量重要的视觉特征，识别效果受到一定影响，同时随着计算量的增大，系统消耗时间延长，空间复杂度繁杂。所以，传统的视觉信息向声音信息的转换，在实时性方面有一定的困难，并且由于大量重要的视觉特征的丢失，一些重要的信息丢失的现象常常存在。

对于以上的问题，拟提出一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法。使用基于粒子群的模糊C均值聚类算法的图像分割算法，一方面，算法收敛速度快，设置参数量较少，提高算法的实时性效果。另一方面，算法避免了易局部最优的缺陷。算法使用HRTF与声音参数变化相结合方法进行视觉信息的可听化，利用声音的频率、响度和音长特征进行编码，有利于将图像信息的多维空间信息进行表示，提高图像信息转化为声音信息的辨识能力。为了提高目标追踪领域以及相关领域中视觉信息可听化的效果，准确实时的完成可听化尤为关键，本设计提出的基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法，大大提高了图像转化为听觉信息的准确性和可辨识度，提高人对图像转化成声音的识别效率，具有一定的实用价值。

发明内容

针对上述现有技术中存在的问题，本发明要解决的技术问题是提供一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法，其具体流程如图1所示。

技术方案实施步骤如下：

(1)计算更新隶属度u_ik：

首先，初始化各项参数，包括惯性权重w，群体规模N，学习因子c₁和c₂，个体极值P_best,i，全局极值G_best，模糊指数m，聚类数目c，最小迭代误差ε，最大迭代次数T_max，令当前迭代次数t＝0。

式中，i为第i个粒子，k为第k类，d_ik为样本点x_i距离聚类中心的欧氏距离。

(2)计算更新适应度f(x_i)：

式中，k为常数，J_m(U,V)为聚类的目标函数，U表示原矩阵，V表示聚类中心。其中，当J_m(U,V)达到最小值时，个体适应度具有最大值。

若计算得到的适应度大于P_best,i，则更新P_best,i。若大于G_best的适应度，则更新G_best。

(3)更新每个粒子的速度V_i(t+1)：

V_i(t+1)＝wV_i(t)+c₁r₁(P_best,i(t)-X_i(t))+c₂r₂(G_best(t)-X_i(t))

式中，i为第i个粒子，t表示迭代次数，w为惯性权重，r₁、r₂表示[0,1]之间的随机数，X_i(t)表示第i个的位置向量。

(4)更新每个粒子的位置X_i(t+1)：

X_i(t+1)＝X_i(t)+V_i(t+1)

式中，X_i(t)表示第i个的位置向量。当

ε为最小迭代误差，或者t＞T_max时，T_max为最大迭代次数，迭代终止，根据最大隶属度完成对图像的目标分割。否则返回步骤二，使得t＝t+1。

(5)进行灰度变换：

对经过目标分割的图像进行灰度变换，增强目标，消除背景：

(6)确定图像与声音的映射关系：

首先，将处理过的图像进行下采样，得到24×32像素结果。将方向角均匀划分为b份，仰角

设定l个角度，得到l×b尺寸大小的声源矩阵。深度图像灰度值映射为声源响度，划分为d个等级，则图像-声音的映射方案如下所示，表达式为：

σ(t)＝2^dsin(2πf(i)s)，s＝1，2，…，n×β

式中，f(i)是行坐标i映射的音符频率，s为该声源样点数，决定声源的播放时间，β为基本样点数，n为该声源所映射到的像素点个数。

本发明比现有技术具有的优点：

(1)本设计采用PSO-FCM算法很好的将背景与信息主体相分离，极大的加快主要信息的图像向声音的转换的过程，提高系统效率，促进实时性的转换。

(2)本设计用声音的频率、响度和音长特征进行编码，有利于将图像信息的多维空间信息进行表示，提高图像信息转化为声音信息的辨识能力。

附图说明

为了更好的理解本发明，下面结合附图作进一步的说明。

图1是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的步骤流程图；

图2是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的算法流程图；

图3是利用本发明对四组无人机侦察视觉信息可听化方法的结果；

具体实施方案

下面通过实施案例对本发明作进一步详细说明。

本实施案例选用的数据集一共有400组样本，其中，在两个噪声级下录制的视频各有100组，从网上随机选取的视频有200组。随机从录制的两种噪声视频中各选取25组作为测试集，网上搜索的视频随机抽取50组作为测试集，样本中剩下的视频作为训练集。最终，用作训练集的样本总数为300组，100组样本用来做测试集。

(1)计算更新隶属度u_ik：

首先，初始化各项参数，包括惯性权重w，本设计中为0.6，群体规模N，学习因子c₁和c₂，个体极值P_best,i，全局极值G_best，模糊指数m，聚类数目c，最小迭代误差0.04，最大迭代次数100，令当前迭代次数t＝0。

(2)计算更新适应度f(x_i)：

(3)更新每个粒子的速度V_i(t+1)：

V_i(t+1)＝0.6V_i(t)+0.4c₁(P_best,i(t)-X_i(t))+0.7c₂(G_best(t)-X_i(t))

式中，，i为第i个粒子，t表示迭代次数，w为惯性权重，大小为0.6，r₁、r₂表示[0,1]之间的随机数，r₁大小为0.4，r₂大小为0.6，X_i(t)表示第i个的位置向量。

(4)更新每个粒子的位置X_i(t+1)：

X_i(t+1)＝X_i(t)+V_i(t+1)

式中，X_i(t)表示第i个的位置向量。当

最小迭代误差为0.04或者t＞100时，最大迭代次数为100，迭代终止，根据最大隶属度完成对图像的目标分割。否则返回步骤二，使得t＝t+1。

(5)进行灰度变换：

(6)确定图像与声音的映射关系：

首先，将处理过的图像进行下采样，得到24×32像素结果。将方向角均匀划分为11份，仰角

设定3个角度，得到3×11尺寸大小的声源矩阵。深度图像灰度值映射为声源响度，划分为3个等级，则图像-声音的映射方案如下所示，表达式为：：

σ(t)＝2^dsin(2πf(i)s),s＝1,2,…,n×β

为了验证本发明对无人机侦察视觉信息可听化结果的准确性，对本发明进行了四组无人机侦察视觉信息可听化实验，本发明所建立的基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法准确率均保持在96％以上，保证稳定性的基础上达到较高准确率，可听化效果良好。这表明本发明建立的HRTF-PSO-FCM的方法是有效的，为无人机侦察视觉信息可听化提供更好的方法，具有一定实用性。