CN112101461A - 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 - Google Patents
一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 Download PDFInfo
- Publication number
- CN112101461A CN112101461A CN202010974728.XA CN202010974728A CN112101461A CN 112101461 A CN112101461 A CN 112101461A CN 202010974728 A CN202010974728 A CN 202010974728A CN 112101461 A CN112101461 A CN 112101461A
- Authority
- CN
- China
- Prior art keywords
- image
- updating
- sound
- information
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000002245 particle Substances 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于HRTF‑PSO‑FCM的无人机侦察视觉信息可听化方法,是一种对无人机侦察方向的分布式视觉信息实现可听化的算法实现,属于目标追踪与机器学习领域,其特征在于采用如下步骤:(1)计算更新隶属度;(2)计算更新适应度;(3)更新每个粒子的速度;(4)更新每个粒子的位置;(5)进行灰度变换;(6)确定图像与声音的映射关系。本设计采用PSO‑FCM算法很好的将背景与信息主体相分离,极大加快主要信息的图像向声音的转换的过程,提高系统效率,促进实时性转换。采用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表示,提高图像信息转化为声音信息的辨识能力。
Description
技术领域
本发明涉及目标追踪与机器学习领域,主要是一种对无人机侦察方向的分布式视觉信息实现可听化的 算法实现。
背景技术
目标追踪就是利用机器拍摄到的视觉信息,进行图像处理,从而获取目标的关键信息进行标记。除此 之外,将追踪到的目标图像转换为声音信息,可以很好的解决图像立体感知的问题。传统的图像可听化方 法大多基于像素方法,这种方法保留重要的视觉特征,但是由于图像处理的数据比较大,降维的过程中不 可避免的丢失了大量重要的视觉特征,识别效果受到一定影响,同时随着计算量的增大,系统消耗时间延 长,空间复杂度繁杂。所以,传统的视觉信息向声音信息的转换,在实时性方面有一定的困难,并且由于 大量重要的视觉特征的丢失,一些重要的信息丢失的现象常常存在。
对于以上的问题,拟提出一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法。使用基于粒 子群的模糊C均值聚类算法的图像分割算法,一方面,算法收敛速度快,设置参数量较少,提高算法的实 时性效果。另一方面,算法避免了易局部最优的缺陷。算法使用HRTF与声音参数变化相结合方法进行视 觉信息的可听化,利用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表 示,提高图像信息转化为声音信息的辨识能力。为了提高目标追踪领域以及相关领域中视觉信息可听化的 效果,准确实时的完成可听化尤为关键,本设计提出的基于HRTF-PSO-FCM的无人机侦察视觉信息可听 化方法,大大提高了图像转化为听觉信息的准确性和可辨识度,提高人对图像转化成声音的识别效率,具 有一定的实用价值。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于HRTF-PSO-FCM的无人 机侦察视觉信息可听化方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)计算更新隶属度uik:
首先,初始化各项参数,包括惯性权重w,群体规模N,学习因子c1和c2,个体极值Pbest,i,全局极 值Gbest,模糊指数m,聚类数目c,最小迭代误差ε,最大迭代次数Tmax,令当前迭代次数t=0。
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离。
(2)计算更新适应度f(xi):
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心。其中,当Jm(U,V) 达到最小值时,个体适应度具有最大值。
若计算得到的适应度大于Pbest,i,则更新Pbest,i。若大于Gbest的适应度,则更新Gbest。
(3)更新每个粒子的速度Vi(t+1):
Vi(t+1)=wVi(t)+c1r1(Pbest,i(t)-Xi(t))+c2r2(Gbest(t)-Xi(t))
式中,i为第i个粒子,t表示迭代次数,w为惯性权重,r1、r2表示[0,1]之间的随机数,Xi(t)表示 第i个的位置向量。
(4)更新每个粒子的位置Xi(t+1):
Xi(t+1)=Xi(t)+Vi(t+1)
(5)进行灰度变换:
对经过目标分割的图像进行灰度变换,增强目标,消除背景:
(6)确定图像与声音的映射关系:
首先,将处理过的图像进行下采样,得到24×32像素结果。将方向角均匀划分为b份,仰角设定l 个角度,得到l×b尺寸大小的声源矩阵。深度图像灰度值映射为声源响度,划分为d个等级,则图像-声音 的映射方案如下所示,表达式为:
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数, n为该声源所映射到的像素点个数。
本发明比现有技术具有的优点:
(1)本设计采用PSO-FCM算法很好的将背景与信息主体相分离,极大的加快主要信息的图像向声音 的转换的过程,提高系统效率,促进实时性的转换。
(2)本设计用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表示, 提高图像信息转化为声音信息的辨识能力。
附图说明
为了更好的理解本发明,下面结合附图作进一步的说明。
图1是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的步骤流程图;
图2是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的算法流程图;
图3是利用本发明对四组无人机侦察视觉信息可听化方法的结果;
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
本实施案例选用的数据集一共有400组样本,其中,在两个噪声级下录制的视频各有100组,从网上 随机选取的视频有200组。随机从录制的两种噪声视频中各选取25组作为测试集,网上搜索的视频随机 抽取50组作为测试集,样本中剩下的视频作为训练集。最终,用作训练集的样本总数为300组,100组样 本用来做测试集。
(1)计算更新隶属度uik:
首先,初始化各项参数,包括惯性权重w,本设计中为0.6,群体规模N,学习因子c1和c2,个体极 值Pbest,i,全局极值Gbest,模糊指数m,聚类数目c,最小迭代误差0.04,最大迭代次数100,令当前迭代 次数t=0。
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离。
(2)计算更新适应度f(xi):
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心。其中,当Jm(U,V) 达到最小值时,个体适应度具有最大值。
若计算得到的适应度大于Pbest,i,则更新Pbest,i。若大于Gbest的适应度,则更新Gbest。
(3)更新每个粒子的速度Vi(t+1):
Vi(t+1)=0.6Vi(t)+0.4c1(Pbest,i(t)-Xi(t))+0.7c2(Gbest(t)-Xi(t))
式中,,i为第i个粒子,t表示迭代次数,w为惯性权重,大小为0.6,r1、r2表示[0,1]之间的随机数, r1大小为0.4,r2大小为0.6,Xi(t)表示第i个的位置向量。
(4)更新每个粒子的位置Xi(t+1):
Xi(t+1)=Xi(t)+Vi(t+1)
(5)进行灰度变换:
对经过目标分割的图像进行灰度变换,增强目标,消除背景:
(6)确定图像与声音的映射关系:
首先,将处理过的图像进行下采样,得到24×32像素结果。将方向角均匀划分为11份,仰角设定 3个角度,得到3×11尺寸大小的声源矩阵。深度图像灰度值映射为声源响度,划分为3个等级,则图像- 声音的映射方案如下所示,表达式为::
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数, n为该声源所映射到的像素点个数。
为了验证本发明对无人机侦察视觉信息可听化结果的准确性,对本发明进行了四组无人机侦察视觉信 息可听化实验,本发明所建立的基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法准确率均保持在 96%以上,保证稳定性的基础上达到较高准确率,可听化效果良好。这表明本发明建立的HRTF-PSO-FCM 的方法是有效的,为无人机侦察视觉信息可听化提供更好的方法,具有一定实用性。
Claims (1)
1.本发明涉及一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法,其特征在于:计算更新隶属度,计算更新适应度,更新每个粒子的速度,更新每个粒子的位置,进行灰度变换,确定图像与声音的映射关系,具体包括以下六个步骤:
步骤一:计算更新隶属度uik;
首先,初始化各项参数,包括惯性权重w,群体规模N,学习因子c1和c2,个体极值Pbest,i,全局极值Gbest,模糊指数m,聚类数目c,最小迭代误差ε,最大迭代次数Tmax,令当前迭代次数t=0;
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离;
步骤二:计算更新适应度f(xi);
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心,其中,当Jm(U,V)达到最小值时,个体适应度具有最大值;
若计算得到的适应度大于Pbest,i,则更新Pbest,i,若大于Gbest的适应度,则更新Gbest;
步骤三:更新每个粒子的速度Vi(t+1);
Vi(t+1)=wVi(t)+c1r1(Pbest,i(t)-Xi(t))+c2r2(Gbest(t)-Xi(t));
式中,i为第i个粒子,t表示迭代次数,w为惯性权重,r1、r2表示[0,1]之间的随机数,Xi(t)表示第i个的位置向量;
步骤四:更新每个粒子的位置Xi(t+1);
Xi(t+1)=Xi(t)+Vi(t+1);
步骤五:进行灰度变换;
对经过目标分割的图像进行灰度变换,增强目标,消除背景;
步骤六:确定图像与声音的映射关系;
首先,将处理过的图像进行下采样,得到24×32像素结果,将方向角均匀划分为b份,仰角设定l个角度,得到l×b尺寸大小的声源矩阵,深度图像灰度值映射为声源响度,划分为d个等级,则图像-声音的映射方案如下所示,表达式为;
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β;
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数,n为该声源所映射到的像素点个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974728.XA CN112101461B (zh) | 2020-09-16 | 2020-09-16 | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974728.XA CN112101461B (zh) | 2020-09-16 | 2020-09-16 | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101461A true CN112101461A (zh) | 2020-12-18 |
CN112101461B CN112101461B (zh) | 2022-02-25 |
Family
ID=73759267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010974728.XA Active CN112101461B (zh) | 2020-09-16 | 2020-09-16 | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101461B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113300986A (zh) * | 2021-04-17 | 2021-08-24 | 湖南红船科技有限公司 | 无人机图传信号与热点信号识别方法、介质、计算机设备 |
CN114377294A (zh) * | 2022-01-21 | 2022-04-22 | 天津市第一中心医院 | 一种人工耳蜗的动态范围参数自适应调节方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385677A (zh) * | 2008-10-16 | 2009-03-18 | 上海交通大学 | 基于运动物体跟踪的导盲方法及装置 |
CN101521843A (zh) * | 2008-02-27 | 2009-09-02 | 索尼株式会社 | 头相关传输函数卷积方法和设备 |
CN101923714A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于空间加权隶属度模糊c-均值的纹理图像分割方法 |
CN101923715A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于粒子群优化空间纹理信息约束聚类的图像分割方法 |
US20140023211A1 (en) * | 2012-07-19 | 2014-01-23 | Denso Corporation | Apparatus and method for localizing sound image for vehicle's driver |
CN103956161A (zh) * | 2014-04-17 | 2014-07-30 | 天津工业大学 | 一种改进的ifft图声转换方法 |
CN107211198A (zh) * | 2015-01-20 | 2017-09-26 | 三星电子株式会社 | 用于编辑内容的装置和方法 |
CN107967476A (zh) * | 2017-12-05 | 2018-04-27 | 北京工业大学 | 一种图像转声音的方法 |
CN109831631A (zh) * | 2019-01-04 | 2019-05-31 | 华南理工大学 | 一种基于视觉注意特性的视-听觉转换导盲方法 |
CN110942467A (zh) * | 2019-10-08 | 2020-03-31 | 杭州电子科技大学 | 基于pso-fcm的改进分水岭图像分割方法 |
-
2020
- 2020-09-16 CN CN202010974728.XA patent/CN112101461B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101521843A (zh) * | 2008-02-27 | 2009-09-02 | 索尼株式会社 | 头相关传输函数卷积方法和设备 |
CN101385677A (zh) * | 2008-10-16 | 2009-03-18 | 上海交通大学 | 基于运动物体跟踪的导盲方法及装置 |
CN101923714A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于空间加权隶属度模糊c-均值的纹理图像分割方法 |
CN101923715A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于粒子群优化空间纹理信息约束聚类的图像分割方法 |
US20140023211A1 (en) * | 2012-07-19 | 2014-01-23 | Denso Corporation | Apparatus and method for localizing sound image for vehicle's driver |
CN103956161A (zh) * | 2014-04-17 | 2014-07-30 | 天津工业大学 | 一种改进的ifft图声转换方法 |
CN107211198A (zh) * | 2015-01-20 | 2017-09-26 | 三星电子株式会社 | 用于编辑内容的装置和方法 |
CN107967476A (zh) * | 2017-12-05 | 2018-04-27 | 北京工业大学 | 一种图像转声音的方法 |
CN109831631A (zh) * | 2019-01-04 | 2019-05-31 | 华南理工大学 | 一种基于视觉注意特性的视-听觉转换导盲方法 |
CN110942467A (zh) * | 2019-10-08 | 2020-03-31 | 杭州电子科技大学 | 基于pso-fcm的改进分水岭图像分割方法 |
Non-Patent Citations (1)
Title |
---|
田亚男: "视频输入听觉显示的导盲系统关键技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113300986A (zh) * | 2021-04-17 | 2021-08-24 | 湖南红船科技有限公司 | 无人机图传信号与热点信号识别方法、介质、计算机设备 |
CN114377294A (zh) * | 2022-01-21 | 2022-04-22 | 天津市第一中心医院 | 一种人工耳蜗的动态范围参数自适应调节方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112101461B (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN110348330B (zh) | 基于vae-acgan的人脸姿态虚拟视图生成方法 | |
CN108038420B (zh) | 一种基于深度视频的人体行为识别方法 | |
CN111354017A (zh) | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 | |
CN106600639B (zh) | 遗传算法结合自适应阈值约束的icp位姿定位技术 | |
CN108734151A (zh) | 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法 | |
CN107122712B (zh) | 基于cnn和双向vlad的掌纹图像识别方法 | |
CN110427938A (zh) | 一种基于深度学习的不规则文字识别装置和方法 | |
CN112101461B (zh) | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 | |
CN113570627B (zh) | 深度学习分割网络的训练方法及医学图像分割方法 | |
CN105139420A (zh) | 一种基于粒子滤波和感知哈希的视频目标跟踪方法 | |
CN113988203A (zh) | 一种基于深度学习的轨迹序列聚类方法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN112580502B (zh) | 基于sicnn的低质量视频人脸识别方法 | |
CN114663685B (zh) | 一种行人重识别模型训练的方法、装置和设备 | |
CN105631899A (zh) | 一种基于灰度纹理特征的超声图像运动目标跟踪方法 | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN112258557B (zh) | 一种基于空间注意力特征聚合的视觉跟踪方法 | |
CN116386853A (zh) | 面向智慧医疗的深度可分离卷积双重聚合联邦学习方法 | |
CN112801945A (zh) | 基于双重注意力机制特征提取的深度高斯混合模型颅骨配准方法 | |
CN108520205B (zh) | 一种基于Citation-KNN的人体动作识别方法 | |
CN106022293A (zh) | 一种基于自适应共享小生境进化算法的行人再识别方法 | |
CN117765258A (zh) | 基于密度自适应和注意力机制的大规模点云语义分割方法 | |
CN113327269A (zh) | 一种无标记颈椎运动检测方法 | |
CN110751082B (zh) | 一种智能家庭娱乐系统手势指令识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |