CN112101461A - 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 - Google Patents

一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 Download PDF

Info

Publication number
CN112101461A
CN112101461A CN202010974728.XA CN202010974728A CN112101461A CN 112101461 A CN112101461 A CN 112101461A CN 202010974728 A CN202010974728 A CN 202010974728A CN 112101461 A CN112101461 A CN 112101461A
Authority
CN
China
Prior art keywords
image
updating
sound
information
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010974728.XA
Other languages
English (en)
Other versions
CN112101461B (zh
Inventor
王松
胡燕祝
王子威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010974728.XA priority Critical patent/CN112101461B/zh
Publication of CN112101461A publication Critical patent/CN112101461A/zh
Application granted granted Critical
Publication of CN112101461B publication Critical patent/CN112101461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于HRTF‑PSO‑FCM的无人机侦察视觉信息可听化方法,是一种对无人机侦察方向的分布式视觉信息实现可听化的算法实现,属于目标追踪与机器学习领域,其特征在于采用如下步骤:(1)计算更新隶属度;(2)计算更新适应度;(3)更新每个粒子的速度;(4)更新每个粒子的位置;(5)进行灰度变换;(6)确定图像与声音的映射关系。本设计采用PSO‑FCM算法很好的将背景与信息主体相分离,极大加快主要信息的图像向声音的转换的过程,提高系统效率,促进实时性转换。采用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表示,提高图像信息转化为声音信息的辨识能力。

Description

一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法
技术领域
本发明涉及目标追踪与机器学习领域,主要是一种对无人机侦察方向的分布式视觉信息实现可听化的 算法实现。
背景技术
目标追踪就是利用机器拍摄到的视觉信息,进行图像处理,从而获取目标的关键信息进行标记。除此 之外,将追踪到的目标图像转换为声音信息,可以很好的解决图像立体感知的问题。传统的图像可听化方 法大多基于像素方法,这种方法保留重要的视觉特征,但是由于图像处理的数据比较大,降维的过程中不 可避免的丢失了大量重要的视觉特征,识别效果受到一定影响,同时随着计算量的增大,系统消耗时间延 长,空间复杂度繁杂。所以,传统的视觉信息向声音信息的转换,在实时性方面有一定的困难,并且由于 大量重要的视觉特征的丢失,一些重要的信息丢失的现象常常存在。
对于以上的问题,拟提出一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法。使用基于粒 子群的模糊C均值聚类算法的图像分割算法,一方面,算法收敛速度快,设置参数量较少,提高算法的实 时性效果。另一方面,算法避免了易局部最优的缺陷。算法使用HRTF与声音参数变化相结合方法进行视 觉信息的可听化,利用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表 示,提高图像信息转化为声音信息的辨识能力。为了提高目标追踪领域以及相关领域中视觉信息可听化的 效果,准确实时的完成可听化尤为关键,本设计提出的基于HRTF-PSO-FCM的无人机侦察视觉信息可听 化方法,大大提高了图像转化为听觉信息的准确性和可辨识度,提高人对图像转化成声音的识别效率,具 有一定的实用价值。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于HRTF-PSO-FCM的无人 机侦察视觉信息可听化方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)计算更新隶属度uik
首先,初始化各项参数,包括惯性权重w,群体规模N,学习因子c1和c2,个体极值Pbest,i,全局极 值Gbest,模糊指数m,聚类数目c,最小迭代误差ε,最大迭代次数Tmax,令当前迭代次数t=0。
Figure BDA0002685366960000021
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离。
(2)计算更新适应度f(xi):
Figure BDA0002685366960000022
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心。其中,当Jm(U,V) 达到最小值时,个体适应度具有最大值。
若计算得到的适应度大于Pbest,i,则更新Pbest,i。若大于Gbest的适应度,则更新Gbest
(3)更新每个粒子的速度Vi(t+1):
Vi(t+1)=wVi(t)+c1r1(Pbest,i(t)-Xi(t))+c2r2(Gbest(t)-Xi(t))
式中,i为第i个粒子,t表示迭代次数,w为惯性权重,r1、r2表示[0,1]之间的随机数,Xi(t)表示 第i个的位置向量。
(4)更新每个粒子的位置Xi(t+1):
Xi(t+1)=Xi(t)+Vi(t+1)
式中,Xi(t)表示第i个的位置向量。当
Figure BDA0002685366960000023
ε为最小迭代误差,或者t>Tmax时, Tmax为最大迭代次数,迭代终止,根据最大隶属度完成对图像的目标分割。否则返回步骤二,使得t=t+1。
(5)进行灰度变换:
对经过目标分割的图像进行灰度变换,增强目标,消除背景:
Figure BDA0002685366960000024
(6)确定图像与声音的映射关系:
首先,将处理过的图像进行下采样,得到24×32像素结果。将方向角均匀划分为b份,仰角
Figure BDA0002685366960000025
设定l 个角度,得到l×b尺寸大小的声源矩阵。深度图像灰度值映射为声源响度,划分为d个等级,则图像-声音 的映射方案如下所示,表达式为:
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数, n为该声源所映射到的像素点个数。
本发明比现有技术具有的优点:
(1)本设计采用PSO-FCM算法很好的将背景与信息主体相分离,极大的加快主要信息的图像向声音 的转换的过程,提高系统效率,促进实时性的转换。
(2)本设计用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表示, 提高图像信息转化为声音信息的辨识能力。
附图说明
为了更好的理解本发明,下面结合附图作进一步的说明。
图1是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的步骤流程图;
图2是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的算法流程图;
图3是利用本发明对四组无人机侦察视觉信息可听化方法的结果;
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
本实施案例选用的数据集一共有400组样本,其中,在两个噪声级下录制的视频各有100组,从网上 随机选取的视频有200组。随机从录制的两种噪声视频中各选取25组作为测试集,网上搜索的视频随机 抽取50组作为测试集,样本中剩下的视频作为训练集。最终,用作训练集的样本总数为300组,100组样 本用来做测试集。
(1)计算更新隶属度uik
首先,初始化各项参数,包括惯性权重w,本设计中为0.6,群体规模N,学习因子c1和c2,个体极 值Pbest,i,全局极值Gbest,模糊指数m,聚类数目c,最小迭代误差0.04,最大迭代次数100,令当前迭代 次数t=0。
Figure BDA0002685366960000031
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离。
(2)计算更新适应度f(xi):
Figure BDA0002685366960000041
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心。其中,当Jm(U,V) 达到最小值时,个体适应度具有最大值。
若计算得到的适应度大于Pbest,i,则更新Pbest,i。若大于Gbest的适应度,则更新Gbest
(3)更新每个粒子的速度Vi(t+1):
Vi(t+1)=0.6Vi(t)+0.4c1(Pbest,i(t)-Xi(t))+0.7c2(Gbest(t)-Xi(t))
式中,,i为第i个粒子,t表示迭代次数,w为惯性权重,大小为0.6,r1、r2表示[0,1]之间的随机数, r1大小为0.4,r2大小为0.6,Xi(t)表示第i个的位置向量。
(4)更新每个粒子的位置Xi(t+1):
Xi(t+1)=Xi(t)+Vi(t+1)
式中,Xi(t)表示第i个的位置向量。当
Figure BDA0002685366960000042
最小迭代误差为0.04或者t>100 时,最大迭代次数为100,迭代终止,根据最大隶属度完成对图像的目标分割。否则返回步骤二,使得 t=t+1。
(5)进行灰度变换:
对经过目标分割的图像进行灰度变换,增强目标,消除背景:
Figure BDA0002685366960000043
(6)确定图像与声音的映射关系:
首先,将处理过的图像进行下采样,得到24×32像素结果。将方向角均匀划分为11份,仰角
Figure BDA0002685366960000044
设定 3个角度,得到3×11尺寸大小的声源矩阵。深度图像灰度值映射为声源响度,划分为3个等级,则图像- 声音的映射方案如下所示,表达式为::
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数, n为该声源所映射到的像素点个数。
为了验证本发明对无人机侦察视觉信息可听化结果的准确性,对本发明进行了四组无人机侦察视觉信 息可听化实验,本发明所建立的基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法准确率均保持在 96%以上,保证稳定性的基础上达到较高准确率,可听化效果良好。这表明本发明建立的HRTF-PSO-FCM 的方法是有效的,为无人机侦察视觉信息可听化提供更好的方法,具有一定实用性。

Claims (1)

1.本发明涉及一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法,其特征在于:计算更新隶属度,计算更新适应度,更新每个粒子的速度,更新每个粒子的位置,进行灰度变换,确定图像与声音的映射关系,具体包括以下六个步骤:
步骤一:计算更新隶属度uik
首先,初始化各项参数,包括惯性权重w,群体规模N,学习因子c1和c2,个体极值Pbest,i,全局极值Gbest,模糊指数m,聚类数目c,最小迭代误差ε,最大迭代次数Tmax,令当前迭代次数t=0;
Figure FDA0002685366950000011
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离;
步骤二:计算更新适应度f(xi);
Figure FDA0002685366950000012
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心,其中,当Jm(U,V)达到最小值时,个体适应度具有最大值;
若计算得到的适应度大于Pbest,i,则更新Pbest,i,若大于Gbest的适应度,则更新Gbest
步骤三:更新每个粒子的速度Vi(t+1);
Vi(t+1)=wVi(t)+c1r1(Pbest,i(t)-Xi(t))+c2r2(Gbest(t)-Xi(t));
式中,i为第i个粒子,t表示迭代次数,w为惯性权重,r1、r2表示[0,1]之间的随机数,Xi(t)表示第i个的位置向量;
步骤四:更新每个粒子的位置Xi(t+1);
Xi(t+1)=Xi(t)+Vi(t+1);
式中,Xi(t)表示第i个的位置向量,当
Figure FDA0002685366950000013
ε为最小迭代误差,或者t>Tmax时,Tmax为最大迭代次数,迭代终止,根据最大隶属度完成对图像的目标分割,否则返回步骤二,使得t=t+1;
步骤五:进行灰度变换;
对经过目标分割的图像进行灰度变换,增强目标,消除背景;
Figure FDA0002685366950000021
步骤六:确定图像与声音的映射关系;
首先,将处理过的图像进行下采样,得到24×32像素结果,将方向角均匀划分为b份,仰角
Figure FDA0002685366950000022
设定l个角度,得到l×b尺寸大小的声源矩阵,深度图像灰度值映射为声源响度,划分为d个等级,则图像-声音的映射方案如下所示,表达式为;
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β;
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数,n为该声源所映射到的像素点个数。
CN202010974728.XA 2020-09-16 2020-09-16 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 Active CN112101461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010974728.XA CN112101461B (zh) 2020-09-16 2020-09-16 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010974728.XA CN112101461B (zh) 2020-09-16 2020-09-16 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法

Publications (2)

Publication Number Publication Date
CN112101461A true CN112101461A (zh) 2020-12-18
CN112101461B CN112101461B (zh) 2022-02-25

Family

ID=73759267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010974728.XA Active CN112101461B (zh) 2020-09-16 2020-09-16 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法

Country Status (1)

Country Link
CN (1) CN112101461B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113300986A (zh) * 2021-04-17 2021-08-24 湖南红船科技有限公司 无人机图传信号与热点信号识别方法、介质、计算机设备
CN114377294A (zh) * 2022-01-21 2022-04-22 天津市第一中心医院 一种人工耳蜗的动态范围参数自适应调节方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385677A (zh) * 2008-10-16 2009-03-18 上海交通大学 基于运动物体跟踪的导盲方法及装置
CN101521843A (zh) * 2008-02-27 2009-09-02 索尼株式会社 头相关传输函数卷积方法和设备
CN101923714A (zh) * 2010-09-02 2010-12-22 西安电子科技大学 基于空间加权隶属度模糊c-均值的纹理图像分割方法
CN101923715A (zh) * 2010-09-02 2010-12-22 西安电子科技大学 基于粒子群优化空间纹理信息约束聚类的图像分割方法
US20140023211A1 (en) * 2012-07-19 2014-01-23 Denso Corporation Apparatus and method for localizing sound image for vehicle's driver
CN103956161A (zh) * 2014-04-17 2014-07-30 天津工业大学 一种改进的ifft图声转换方法
CN107211198A (zh) * 2015-01-20 2017-09-26 三星电子株式会社 用于编辑内容的装置和方法
CN107967476A (zh) * 2017-12-05 2018-04-27 北京工业大学 一种图像转声音的方法
CN109831631A (zh) * 2019-01-04 2019-05-31 华南理工大学 一种基于视觉注意特性的视-听觉转换导盲方法
CN110942467A (zh) * 2019-10-08 2020-03-31 杭州电子科技大学 基于pso-fcm的改进分水岭图像分割方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521843A (zh) * 2008-02-27 2009-09-02 索尼株式会社 头相关传输函数卷积方法和设备
CN101385677A (zh) * 2008-10-16 2009-03-18 上海交通大学 基于运动物体跟踪的导盲方法及装置
CN101923714A (zh) * 2010-09-02 2010-12-22 西安电子科技大学 基于空间加权隶属度模糊c-均值的纹理图像分割方法
CN101923715A (zh) * 2010-09-02 2010-12-22 西安电子科技大学 基于粒子群优化空间纹理信息约束聚类的图像分割方法
US20140023211A1 (en) * 2012-07-19 2014-01-23 Denso Corporation Apparatus and method for localizing sound image for vehicle's driver
CN103956161A (zh) * 2014-04-17 2014-07-30 天津工业大学 一种改进的ifft图声转换方法
CN107211198A (zh) * 2015-01-20 2017-09-26 三星电子株式会社 用于编辑内容的装置和方法
CN107967476A (zh) * 2017-12-05 2018-04-27 北京工业大学 一种图像转声音的方法
CN109831631A (zh) * 2019-01-04 2019-05-31 华南理工大学 一种基于视觉注意特性的视-听觉转换导盲方法
CN110942467A (zh) * 2019-10-08 2020-03-31 杭州电子科技大学 基于pso-fcm的改进分水岭图像分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田亚男: "视频输入听觉显示的导盲系统关键技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113300986A (zh) * 2021-04-17 2021-08-24 湖南红船科技有限公司 无人机图传信号与热点信号识别方法、介质、计算机设备
CN114377294A (zh) * 2022-01-21 2022-04-22 天津市第一中心医院 一种人工耳蜗的动态范围参数自适应调节方法

Also Published As

Publication number Publication date
CN112101461B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
CN111354017A (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN106600639B (zh) 遗传算法结合自适应阈值约束的icp位姿定位技术
CN108734151A (zh) 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
CN107122712B (zh) 基于cnn和双向vlad的掌纹图像识别方法
CN110427938A (zh) 一种基于深度学习的不规则文字识别装置和方法
CN112101461B (zh) 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
CN113570627B (zh) 深度学习分割网络的训练方法及医学图像分割方法
CN105139420A (zh) 一种基于粒子滤波和感知哈希的视频目标跟踪方法
CN113988203A (zh) 一种基于深度学习的轨迹序列聚类方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN112580502B (zh) 基于sicnn的低质量视频人脸识别方法
CN114663685B (zh) 一种行人重识别模型训练的方法、装置和设备
CN105631899A (zh) 一种基于灰度纹理特征的超声图像运动目标跟踪方法
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN112258557B (zh) 一种基于空间注意力特征聚合的视觉跟踪方法
CN116386853A (zh) 面向智慧医疗的深度可分离卷积双重聚合联邦学习方法
CN112801945A (zh) 基于双重注意力机制特征提取的深度高斯混合模型颅骨配准方法
CN108520205B (zh) 一种基于Citation-KNN的人体动作识别方法
CN106022293A (zh) 一种基于自适应共享小生境进化算法的行人再识别方法
CN117765258A (zh) 基于密度自适应和注意力机制的大规模点云语义分割方法
CN113327269A (zh) 一种无标记颈椎运动检测方法
CN110751082B (zh) 一种智能家庭娱乐系统手势指令识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant