CN112101461B - 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 - Google Patents
一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 Download PDFInfo
- Publication number
- CN112101461B CN112101461B CN202010974728.XA CN202010974728A CN112101461B CN 112101461 B CN112101461 B CN 112101461B CN 202010974728 A CN202010974728 A CN 202010974728A CN 112101461 B CN112101461 B CN 112101461B
- Authority
- CN
- China
- Prior art keywords
- image
- updating
- sound
- information
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Abstract
本发明涉及基于HRTF‑PSO‑FCM的无人机侦察视觉信息可听化方法,是一种对无人机侦察方向的分布式视觉信息实现可听化的算法实现,属于目标追踪与机器学习领域,其特征在于采用如下步骤:(1)计算更新隶属度;(2)计算更新适应度;(3)更新每个粒子的速度;(4)更新每个粒子的位置;(5)进行灰度变换;(6)确定图像与声音的映射关系。本设计采用PSO‑FCM算法很好的将背景与信息主体相分离,极大加快主要信息的图像向声音的转换的过程,提高系统效率,促进实时性转换。采用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表示,提高图像信息转化为声音信息的辨识能力。
Description
技术领域
本发明涉及目标追踪与机器学习领域,主要是一种对无人机侦察方向的分布式视觉信息实现可听化的算法实现。
背景技术
目标追踪就是利用机器拍摄到的视觉信息,进行图像处理,从而获取目标的关键信息进行标记。除此之外,将追踪到的目标图像转换为声音信息,可以很好的解决图像立体感知的问题。传统的图像可听化方法大多基于像素方法,这种方法保留重要的视觉特征,但是由于图像处理的数据比较大,降维的过程中不可避免的丢失了大量重要的视觉特征,识别效果受到一定影响,同时随着计算量的增大,系统消耗时间延长,空间复杂度繁杂。所以,传统的视觉信息向声音信息的转换,在实时性方面有一定的困难,并且由于大量重要的视觉特征的丢失,一些重要的信息丢失的现象常常存在。
对于以上的问题,拟提出一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法。使用基于粒子群的模糊C均值聚类算法的图像分割算法,一方面,算法收敛速度快,设置参数量较少,提高算法的实时性效果。另一方面,算法避免了易局部最优的缺陷。算法使用HRTF与声音参数变化相结合方法进行视觉信息的可听化,利用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表示,提高图像信息转化为声音信息的辨识能力。为了提高目标追踪领域以及相关领域中视觉信息可听化的效果,准确实时的完成可听化尤为关键,本设计提出的基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法,大大提高了图像转化为听觉信息的准确性和可辨识度,提高人对图像转化成声音的识别效率,具有一定的实用价值。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)计算更新隶属度uik:
首先,初始化各项参数,包括惯性权重w,群体规模N,学习因子c1和c2,个体极值Pbest,i,全局极值Gbest,模糊指数m,聚类数目c,最小迭代误差ε,最大迭代次数Tmax,令当前迭代次数t=0。
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离。
(2)计算更新适应度f(xi):
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心。其中,当Jm(U,V)达到最小值时,个体适应度具有最大值。
若计算得到的适应度大于Pbest,i,则更新Pbest,i。若大于Gbest的适应度,则更新Gbest。
(3)更新每个粒子的速度Vi(t+1):
Vi(t+1)=wVi(t)+c1r1(Pbest,i(t)-Xi(t))+c2r2(Gbest(t)-Xi(t))
式中,i为第i个粒子,t表示迭代次数,w为惯性权重,r1、r2表示[0,1]之间的随机数,Xi(t)表示第i个的位置向量。
(4)更新每个粒子的位置Xi(t+1):
Xi(t+1)=Xi(t)+Vi(t+1)
(5)进行灰度变换:
对经过目标分割的图像进行灰度变换,增强目标,消除背景:
(6)确定图像与声音的映射关系:
首先,将处理过的图像进行下采样,得到24×32像素结果。将方向角均匀划分为b份,仰角设定l个角度,得到l×b尺寸大小的声源矩阵。深度图像灰度值映射为声源响度,划分为d个等级,则图像-声音的映射方案如下所示,表达式为:
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数,n为该声源所映射到的像素点个数。
本发明比现有技术具有的优点:
(1)本设计采用PSO-FCM算法很好的将背景与信息主体相分离,极大的加快主要信息的图像向声音的转换的过程,提高系统效率,促进实时性的转换。
(2)本设计用声音的频率、响度和音长特征进行编码,有利于将图像信息的多维空间信息进行表示,提高图像信息转化为声音信息的辨识能力。
附图说明
为了更好的理解本发明,下面结合附图作进一步的说明。
图1是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的步骤流程图;
图2是建立基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法的算法流程图;
图3是利用本发明对四组无人机侦察视觉信息可听化方法的结果;
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
本实施案例选用的数据集一共有400组样本,其中,在两个噪声级下录制的视频各有100组,从网上随机选取的视频有200组。随机从录制的两种噪声视频中各选取25组作为测试集,网上搜索的视频随机抽取50组作为测试集,样本中剩下的视频作为训练集。最终,用作训练集的样本总数为300组,100组样本用来做测试集。
(1)计算更新隶属度uik:
首先,初始化各项参数,包括惯性权重w,本设计中为0.6,群体规模N,学习因子c1和c2,个体极值Pbest,i,全局极值Gbest,模糊指数m,聚类数目c,最小迭代误差0.04,最大迭代次数100,令当前迭代次数t=0。
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离。
(2)计算更新适应度f(xi):
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心。其中,当Jm(U,V)达到最小值时,个体适应度具有最大值。
若计算得到的适应度大于Pbest,i,则更新Pbest,i。若大于Gbest的适应度,则更新Gbest。
(3)更新每个粒子的速度Vi(t+1):
Vi(t+1)=0.6Vi(t)+0.4c1(Pbest,i(t)-Xi(t))+0.7c2(Gbest(t)-Xi(t))
式中,,i为第i个粒子,t表示迭代次数,w为惯性权重,大小为0.6,r1、r2表示[0,1]之间的随机数,r1大小为0.4,r2大小为0.6,Xi(t)表示第i个的位置向量。
(4)更新每个粒子的位置Xi(t+1):
Xi(t+1)=Xi(t)+Vi(t+1)
(5)进行灰度变换:
对经过目标分割的图像进行灰度变换,增强目标,消除背景:
(6)确定图像与声音的映射关系:
首先,将处理过的图像进行下采样,得到24×32像素结果。将方向角均匀划分为11份,仰角设定3个角度,得到3×11尺寸大小的声源矩阵。深度图像灰度值映射为声源响度,划分为3个等级,则图像-声音的映射方案如下所示,表达式为::
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β
式中,f(i)是行坐标i映射的音符频率,s为该声源样点数,决定声源的播放时间,β为基本样点数,n为该声源所映射到的像素点个数。
为了验证本发明对无人机侦察视觉信息可听化结果的准确性,对本发明进行了四组无人机侦察视觉信息可听化实验,本发明所建立的基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法准确率均保持在96%以上,保证稳定性的基础上达到较高准确率,可听化效果良好。这表明本发明建立的HRTF-PSO-FCM的方法是有效的,为无人机侦察视觉信息可听化提供更好的方法,具有一定实用性。
Claims (1)
1.一种基于HRTF-PSO-FCM的无人机侦察视觉信息可听化方法,特征在于:(1)计算更新隶属度;(2)计算更新适应度;(3)更新每个粒子的速度;(4)更新每个粒子的位置;(5)进行灰度变换;(6)确定图像与声音的映射关系;具体包括以下六个步骤:
步骤一:计算更新隶属度uik:
首先,初始化各项参数,包括惯性权重w,群体规模N,学习因子c1和c2,个体极值Pbest,i,全局极值Gbest,模糊指数m,聚类数目c,最小迭代误差ε,最大迭代次数Tmax,令当前迭代次数t=0;
式中,i为第i个粒子,k为第k类,dik为样本点xi距离聚类中心的欧氏距离;
步骤二:计算更新适应度f(xi):
式中,k为常数,Jm(U,V)为聚类的目标函数,U表示原矩阵,V表示聚类中心,其中,当Jm(U,V)达到最小值时,个体适应度具有最大值;
若计算得到的适应度大于Pbest,i,则更新Pbest,i;若大于Gbest的适应度,则更新Gbest;
步骤三:更新每个粒子的速度Vi(t+1):
Vi(t+1)=wVi(t)+c1r1(Pbest,i(t)-Xi(t))+c2r2(Gbest(t)-Xi(t));
式中,i为第i个粒子,t表示迭代次数,w为惯性权重,r1、r2表示[0,1]之间的随机数,Xi(t)表示第i个的位置向量;
步骤四:更新每个粒子的位置Xi(t+1):
Xi(t+1)=Xi(t)+Vi(t+1);
步骤五:进行灰度变换:
对经过目标分割的图像进行灰度变换,增强目标,消除背景:
步骤六:确定图像与声音的映射关系:
首先,将处理过的图像进行下采样,得到24×32像素结果,将方向角均匀划分为b份,仰角设定l个角度,得到l×b尺寸大小的声源矩阵,深度图像灰度值映射为声源响度,划分为d个等级,则图像-声音的映射方案如下所示,表达式为:
σ(t)=2dsin(2πf(i)s),s=1,2,…,n×β;
式中,f(i)是行坐标i映射的音符频率,s为无人机侦察视觉信息可听化处理的声源样点数,决定声源的播放时间,β为基本样点数,n为无人机侦察视觉信息可听化处理的声源所映射到的像素点个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974728.XA CN112101461B (zh) | 2020-09-16 | 2020-09-16 | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974728.XA CN112101461B (zh) | 2020-09-16 | 2020-09-16 | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101461A CN112101461A (zh) | 2020-12-18 |
CN112101461B true CN112101461B (zh) | 2022-02-25 |
Family
ID=73759267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010974728.XA Active CN112101461B (zh) | 2020-09-16 | 2020-09-16 | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101461B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113300986B (zh) * | 2021-04-17 | 2022-06-24 | 湖南红船科技有限公司 | 无人机图传信号与热点信号识别方法、介质、计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385677A (zh) * | 2008-10-16 | 2009-03-18 | 上海交通大学 | 基于运动物体跟踪的导盲方法及装置 |
CN101521843A (zh) * | 2008-02-27 | 2009-09-02 | 索尼株式会社 | 头相关传输函数卷积方法和设备 |
CN101923715A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于粒子群优化空间纹理信息约束聚类的图像分割方法 |
CN101923714A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于空间加权隶属度模糊c-均值的纹理图像分割方法 |
CN103956161A (zh) * | 2014-04-17 | 2014-07-30 | 天津工业大学 | 一种改进的ifft图声转换方法 |
CN107211198A (zh) * | 2015-01-20 | 2017-09-26 | 三星电子株式会社 | 用于编辑内容的装置和方法 |
CN107967476A (zh) * | 2017-12-05 | 2018-04-27 | 北京工业大学 | 一种图像转声音的方法 |
CN109831631A (zh) * | 2019-01-04 | 2019-05-31 | 华南理工大学 | 一种基于视觉注意特性的视-听觉转换导盲方法 |
CN110942467A (zh) * | 2019-10-08 | 2020-03-31 | 杭州电子科技大学 | 基于pso-fcm的改进分水岭图像分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5664603B2 (ja) * | 2012-07-19 | 2015-02-04 | 株式会社デンソー | 車載音響装置及びプログラム |
-
2020
- 2020-09-16 CN CN202010974728.XA patent/CN112101461B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101521843A (zh) * | 2008-02-27 | 2009-09-02 | 索尼株式会社 | 头相关传输函数卷积方法和设备 |
CN101385677A (zh) * | 2008-10-16 | 2009-03-18 | 上海交通大学 | 基于运动物体跟踪的导盲方法及装置 |
CN101923715A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于粒子群优化空间纹理信息约束聚类的图像分割方法 |
CN101923714A (zh) * | 2010-09-02 | 2010-12-22 | 西安电子科技大学 | 基于空间加权隶属度模糊c-均值的纹理图像分割方法 |
CN103956161A (zh) * | 2014-04-17 | 2014-07-30 | 天津工业大学 | 一种改进的ifft图声转换方法 |
CN107211198A (zh) * | 2015-01-20 | 2017-09-26 | 三星电子株式会社 | 用于编辑内容的装置和方法 |
CN107967476A (zh) * | 2017-12-05 | 2018-04-27 | 北京工业大学 | 一种图像转声音的方法 |
CN109831631A (zh) * | 2019-01-04 | 2019-05-31 | 华南理工大学 | 一种基于视觉注意特性的视-听觉转换导盲方法 |
CN110942467A (zh) * | 2019-10-08 | 2020-03-31 | 杭州电子科技大学 | 基于pso-fcm的改进分水岭图像分割方法 |
Non-Patent Citations (1)
Title |
---|
视频输入听觉显示的导盲系统关键技术研究;田亚男;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20160315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112101461A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796168A (zh) | 一种基于改进YOLOv3的车辆检测方法 | |
CN112308158A (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN111080513B (zh) | 一种基于注意力机制的人脸图像超分辨率方法 | |
CN110427938A (zh) | 一种基于深度学习的不规则文字识别装置和方法 | |
CN113570627B (zh) | 深度学习分割网络的训练方法及医学图像分割方法 | |
CN113988203A (zh) | 一种基于深度学习的轨迹序列聚类方法 | |
CN105631899A (zh) | 一种基于灰度纹理特征的超声图像运动目标跟踪方法 | |
CN107729926A (zh) | 一种基于高维空间变换的数据扩增方法、机器识别系统 | |
CN114663685B (zh) | 一种行人重识别模型训练的方法、装置和设备 | |
CN111415379A (zh) | 一种基于布谷鸟优化的三维点云数据配准方法 | |
CN112101461B (zh) | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 | |
CN112364881B (zh) | 一种进阶采样一致性图像匹配方法 | |
CN116386853A (zh) | 面向智慧医疗的深度可分离卷积双重聚合联邦学习方法 | |
CN109948662B (zh) | 一种基于K-means和MMD的人脸图像深度聚类方法 | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN108846845B (zh) | 基于缩略图与分层模糊聚类的sar图像分割方法 | |
CN113327269A (zh) | 一种无标记颈椎运动检测方法 | |
CN116523877A (zh) | 一种基于卷积神经网络的脑mri图像肿瘤块分割方法 | |
CN117034060A (zh) | 基于ae-rcnn的洪水分级智能预报方法 | |
CN116668068A (zh) | 基于联合联邦学习的工控异常流量检测方法 | |
CN115063630A (zh) | 基于解耦迁移的联邦学习方法在计算机视觉上的应用 | |
CN111144233B (zh) | 基于toim损失函数的行人重识别方法 | |
CN110751082B (zh) | 一种智能家庭娱乐系统手势指令识别方法 | |
CN114418013A (zh) | 基于数据分布的分层加权抗噪深度度量学习方法 | |
CN110459266B (zh) | Snp致病因素与疾病关联关系模型建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |