CN116860198A - 一种大型互动多面屏的微音响矩阵控制方法、介质及系统 - Google Patents
一种大型互动多面屏的微音响矩阵控制方法、介质及系统 Download PDFInfo
- Publication number
- CN116860198A CN116860198A CN202310836314.4A CN202310836314A CN116860198A CN 116860198 A CN116860198 A CN 116860198A CN 202310836314 A CN202310836314 A CN 202310836314A CN 116860198 A CN116860198 A CN 116860198A
- Authority
- CN
- China
- Prior art keywords
- sound
- image
- sound source
- screen
- micro
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000003708 edge detection Methods 0.000 claims description 7
- 230000001934 delay Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种大型互动多面屏的微音响矩阵控制方法、介质及系统,属于大型屏幕播放技术领域,该大型互动多面屏的微音响矩阵控制方法、介质及系统用于控制与大型互动多面屏关联的微音响矩阵,所述微音响矩阵包括多个小型音响设备,所述多面屏的每个屏幕的背面均设置有多个所述小型音响设备,且每个平面的上设置的小型音响设备呈均匀分布,该方法包含以下步骤:获取互动多面屏上各个屏幕展示的图像及对应的音频;根据所获取的图像对应的音频,计算每个图像的发音特征,所述发音特征包括声源所在屏幕、声源的位置以及音量;根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出。能够解决大型互动多面屏的声音图像一致性的技术问题。
Description
技术领域
本发明属于大型屏幕播放技术领域,具体而言,涉及一种大型互动多面屏的微音响矩阵控制方法、介质及系统。
背景技术
随着科技的发展,互动多面屏已经成为现代多媒体展示的重要手段,广泛应用于各种展览、商业演示等场合。互动多面屏可以同时播放多个图像,并根据观众的需求进行交互式操作,为观众提供丰富的视觉体验。然而,目前互动多面屏所采用的音响系统往往独立于显示系统,并不能根据图像的变化自动调整音响效果,导致观众在观看过程中音响效果与图像内容的关联性较差,无法获得完美的观看体验。
目前,多面显示屏上的音响控制方法主要有两种:一种是通过将多个音响设备连接到一个中央控制器上,然后通过中央控制器统一控制音响设备的输出;另一种是将每个音响设备独立控制,分别输出不同的音频。但是由于互动多面屏一般面积很大,很多时候能够占据一个展厅的区域,由于互动多面屏的每个平面展示的图像不一样,观众在互动多面屏覆盖的区域内进行观看时,需要声音的声源与屏幕上的图像相互一致,也就是说,只有当屏幕上的发音声源与音响的声源位置一致时,观众才能得到声音图像一致性的观赏效果。当前的现有技术,一般只是根据不同屏幕的发音来确定声源,不能根据屏幕上的图像内容发音的情况来判断声源,也就不能很好的做到声音图像的一致性,无法让观众体验到声音图像一致性的观赏效果。
发明内容
有鉴于此,本发明提供一种大型互动多面屏的微音响矩阵控制方法、介质及系统,能够解决现有技术只是根据不同屏幕的发音来确定声源,不能根据屏幕上的图像内容发音的情况来判断声源,也就不能很好的做到声音图像的一致性,无法让观众体验到声音图像一致性的观赏效果的技术问题。
本发明是这样实现的:
本发明的第一方面提供一种大型互动多面屏的微音响矩阵控制方法,用于控制与大型互动多面屏关联的微音响矩阵,所述微音响矩阵包括多个小型音响设备,所述多面屏的每个屏幕的背面均设置有多个所述小型音响设备,且每个平面的上设置的小型音响设备呈均匀分布,其中,包含以下步骤:
S10、获取互动多面屏上各个屏幕展示的图像及对应的音频;
S20、根据所获取的图像对应的音频,计算每个图像的发音特征,所述发音特征包括声源所在屏幕、声源的位置以及音量;
S30、根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出。
在上述技术方案的基础上,本发明的一种大型互动多面屏的微音响矩阵控制方法还可以做如下改进:
其中,所述根据所获取的图像对应的音频,计算每个图像的发音特征,所述发音特征包括声源所在屏幕、声源的位置以及音量的步骤,具体包括:
S21、对所获取的图像进行预处理得到预处理图像;
S22、对所述预处理图像进行分割,得到分割图像组;
S23、将每个分割图像进行特征提取,得到图像特征;
S24、对所述图像对应的音频与所述图像特征进行标记,所述图像特征标记的区域为音频的声源区域;
S25、根据得到的声源区域计算声源所在屏幕以及声源的位置,同时,根据音频得到音量。
进一步的,所述对所获取的图像进行预处理得到预处理图像的步骤,具体包括:
将所获取的彩色图像转换为灰度图像;
对灰度图像进行去噪处理;
对去噪后的图像进行增强处理,得到预处理图像。
进一步的,所述对所述预处理图像进行分割的方法,采用阈值分割、边缘检测、区域生长、分水岭变换中的任一种。
进一步的,所述将每个分割图像进行特征提取,得到图像特征的步骤,具体包括:
对分割图像组进行灰度共生矩阵特征提取,得到纹理特征;
对分割图像组进行颜色直方图特征提取,得到颜色特征;
对分割图像组进行局部二值模式特征提取,得到局部纹理特征;
对分割图像组进行尺度不变特征变换特征提取,得到关键点特征;
对分割图像组进行速度鲁棒特征提取,得到鲁棒关键点特征;
将以上提取的特征进行融合,得到图像特征。
进一步的,所述对所述图像对应的音频与所述图像特征进行标记的方法为训练一个神经网络实现对所述图像对应的音频与所述图像特征进行标记。
进一步的,所述根据得到的声源区域计算声源所在屏幕以及声源的位置的步骤,具体包括:
根据得到的声源区域计算声源区域的中心点坐标;
根据声源区域的中心点坐标判断声源所在屏幕;
计算声源在屏幕中的位置。
其中,所述根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出的步骤,具体包括:
确定声源所在的微音响设备,根据声源所在屏幕和位置信息,计算声源与各个音响设备的距离,从而确定最接近声源的音响设备;
计算音响设备的输出功率,根据音量信息和音响设备的最大输出功率,计算各个音响设备的输出功率;
计算音响设备的输出延迟,根据声速和声源与音响设备的距离,计算各个音响设备的输出延迟;
控制微音响矩阵进行音频输出,将音频信号分配给各个音响设备,对音响设备进行输出功率和延迟设置,启动音响设备进行音频输出。
本发明的第二方面提供一种计算机可读存储介质,所述计算机可读存储介质中包含有程序指令,所述程序指令运行时用于上述的大型互动多面屏的微音响矩阵控制方法。
本发明的第三方面提供一种大型互动多面屏的微音响矩阵控制系统,包含上述的计算机可读存储介质。
与现有技术相比较,本发明提供的一种大型互动多面屏的微音响矩阵控制方法、介质及系统的有益效果是:
1.提高音响定位精度
本发明的微音响矩阵控制方法通过获取互动多面屏上各个屏幕展示的图像及对应的音频,计算每个图像的发音特征,包括声源所在屏幕、声源的位置以及音量。通过对图像进行预处理、分割、特征提取及标记,实现对声源区域的精确计算,从而提高音响定位精度。此外,本发明的方法还能根据音频得到音量信息,进一步提高音响效果。同时,能根据屏幕上的图像内容发音的情况来判断声源位置,根据声源位置控制音响进行播放,提高声音图像的一致性。
2.提高音响系统的智能化程度
本发明的微音响矩阵控制方法采用图像处理技术和音频处理技术相结合的方式,实现对互动多面屏上各个屏幕展示的图像及对应的音频的自动获取和处理。通过计算得到的发音特征,实现对相应的微音响矩阵进行音频输出的智能化控制,提高音响系统的智能化程度。
3.实现音响设备的紧凑布局
本发明的微音响矩阵控制方法将多个小型音响设备设置在多面屏的每个屏幕的背面,且每个平面的上设置的小型音响设备呈均匀分布。这种紧凑布局方式有效地节省了空间,同时实现了音响设备与多面屏的紧密结合,使得整个音响系统更加美观、协调。
4.提高音响设备的使用寿命
由于本发明的微音响矩阵控制方法将小型音响设备设置在多面屏的背面,使得音响设备免受外界环境的影响,从而有效地保护了音响设备,提高了音响设备的使用寿命。
5.提高音响系统的互动性
本发明的微音响矩阵控制方法基于互动多面屏,使得观众在观看图像的同时,能够感受到与图像内容相匹配的音频效果。这种互动性能够增强观众的观看体验,提高音响系统的实用价值。
6.简化音响控制过程
本发明的微音响矩阵控制方法通过对图像和音频的自动处理,实现对音响设备的智能化控制。相比传统的音响控制方法,本发明的方法简化了音响控制过程,降低了操作难度,提高了音响系统的易用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种大型互动多面屏的微音响矩阵控制方法的流程图;
图2为步骤S20的具体步骤的流程图。
具体实施方式
如图1所示,是本发明第一方面提供一种大型互动多面屏的微音响矩阵控制方法的流程图,本方法用于控制与大型互动多面屏关联的微音响矩阵,微音响矩阵包括多个小型音响设备,多面屏的每个屏幕的背面均设置有多个小型音响设备,且每个平面的上设置的小型音响设备呈均匀分布,其中,包含以下步骤:
S10、获取互动多面屏上各个屏幕展示的图像及对应的音频;
S20、根据所获取的图像对应的音频,计算每个图像的发音特征,发音特征包括声源所在屏幕、声源的位置以及音量;
S30、根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出。
其中,在上述技术方案中,根据所获取的图像对应的音频,计算每个图像的发音特征,发音特征包括声源所在屏幕、声源的位置以及音量的步骤,具体包括:
S21、对所获取的图像进行预处理得到预处理图像;
S22、对预处理图像进行分割,得到分割图像组;
S23、将每个分割图像进行特征提取,得到图像特征;
S24、对图像对应的音频与图像特征进行标记,图像特征标记的区域为音频的声源区域;
S25、根据得到的声源区域计算声源所在屏幕以及声源的位置,同时,根据音频得到音量。
进一步的,在上述技术方案中,对所获取的图像进行预处理得到预处理图像的步骤,具体包括:
将所获取的彩色图像转换为灰度图像;
对灰度图像进行去噪处理;
对去噪后的图像进行增强处理,得到预处理图像。
在步骤S21中,对所获取的图像进行预处理得到预处理图像。预处理的目的是为了消除图像中的噪声,增强图像的特征,以便后续步骤更好地进行图像分割和特征提取。具体实施方式如下:
彩色图像转灰度图像
首先,将所获取的彩色图像转换为灰度图像。灰度图像可以减少计算量,同时保留图像的主要信息。将彩色图像转换为灰度图像的公式如下:
Gray=0.299*R+0.587*G+0.114*B;
其中,Gray表示灰度值,R、G和B分别表示彩色图像的红、绿、蓝三个通道的像素值。
图像去噪
在图像获取过程中,往往会受到各种因素的影响,导致图像中出现噪声。图像去噪的目的是消除或减小图像中的噪声。常用的图像去噪方法有中值滤波、高斯滤波等。
中值滤波是一种非线性滤波方法,主要原理是用邻域内像素值的中值替换当前像素值,从而消除噪声。中值滤波的公式如下:
g(x,y)=medianf(x+i,y+j);
其中,g(x,y)表示去噪后的图像,f(x+i,y+j)表示原始图像,i和j表示邻域内的像素点坐标。
高斯滤波是一种线性滤波方法,主要原理是用高斯函数对图像进行卷积,从而消除噪声。高斯滤波的公式如下:
其中,g(x,y)表示去噪后的图像,f(x+i,y+j)表示原始图像,σ表示高斯函数的标准差,i和j表示邻域内的像素点坐标,k表示滤波器的大小。
图像增强
图像增强的目的是提高图像的视觉效果,增强图像中的特征。常用的图像增强方法有直方图均衡化、对比度拉伸等。
直方图均衡化是一种灰度变换方法,目的是使图像的灰度值分布更均匀,从而提高图像的视觉效果。直方图均衡化的公式如下:
g(x,y)=T(f(x,y));
其中,g(x,y)表示增强后的图像,f(x,y)表示原始图像,T表示灰度变换函数,可由原始图像的直方图计算得到。
对比度拉伸是一种线性变换方法,目的是扩大图像的对比度,从而提高图像的视觉效果。对比度拉伸的公式如下:
g(x,y)=α*(f(x,y)-min)+L;
其中,g(x,y)表示增强后的图像,f(x,y)表示原始图像,α表示拉伸系数,min表示图像的最小灰度值,L表示拉伸后的最小灰度值。
综上,步骤S21的具体实施方式包括:
(1)将所获取的彩色图像转换为灰度图像;
(2)对灰度图像进行去噪处理;
(3)对去噪后的图像进行增强处理。
进一步的,在上述技术方案中,对预处理图像进行分割的方法,采用阈值分割、边缘检测、区域生长、分水岭变换中的任一种。
在步骤S22中,我们需要对预处理图像进行分割,以得到分割图像组。图像分割的目的是将图像划分为具有相似特征的区域,以便后续步骤更好地进行特征提取和标记。常用的图像分割方法有阈值分割、边缘检测、区域生长、分水岭变换等。以下分别介绍这些方法的具体实施方式。
阈值分割阈值分割是一种基于灰度值的分割方法,通过设置一个阈值,将图像中的像素分为目标和背景两类。阈值的选择对分割效果有很大影响,可以根据图像的直方图、熵等特征进行自适应选择。
边缘检测边缘检测是一种基于图像梯度的分割方法,通过检测图像中的边缘信息,将目标与背景分离。常用的边缘检测算子有Sobel、Prewitt、Canny等。以下以Canny算子为例介绍边缘检测的具体实施方式。
区域生长区域生长是一种基于像素邻域的分割方法,通过递归地合并具有相似特征的像素,形成目标区域。区域生长的具体实施方式如下:(1)选择一个种子点,作为生长的起点;(2)判断种子点的邻域内像素是否满足生长条件,如灰度值、颜色、纹理等特征相似度;(3)如果满足生长条件,则将邻域内像素合并到当前区域,并将其作为新的种子点;(4)重复步骤(2)和(3),直到所有像素都被处理完毕。
分水岭变换分水岭变换是一种基于图像拓扑的分割方法,通过模拟地理学中的分水岭过程,将图像划分为不同的区域。分水岭变换的具体实施方式如下:(1)对预处理图像进行梯度变换,得到梯度图像;(2)对梯度图像进行阈值处理,得到二值图像;(3)对二值图像进行距离变换,得到距离图像;(4)对距离图像进行标记,得到标记图像;(5)根据标记图像计算分水岭,得到分割图像。
进一步的,在上述技术方案中,将每个分割图像进行特征提取,得到图像特征的步骤,具体包括:
对分割图像组进行灰度共生矩阵特征提取,得到纹理特征;
对分割图像组进行颜色直方图特征提取,得到颜色特征;
对分割图像组进行局部二值模式特征提取,得到局部纹理特征;
对分割图像组进行尺度不变特征变换特征提取,得到关键点特征;
对分割图像组进行速度鲁棒特征提取,得到鲁棒关键点特征;
将以上提取的特征进行融合,得到图像特征。
在步骤S23中,我们需要对分割图像组进行特征提取,以得到图像特征。特征提取的目的是将图像中的信息转化为一组可度量的数值,以便后续步骤进行图像特征标记和声源区域计算。常用的图像特征提取方法有灰度共生矩阵(GLCM)、颜色直方图、局部二值模式(LBP)、尺度不变特征变换(SIFT)、速度鲁棒特征(SURF)等。以下分别介绍这些方法的具体实施方式。
灰度共生矩阵(GLCM)
灰度共生矩阵是一种基于灰度值的特征提取方法,通过计算图像中像素对的统计特性,描述图像的纹理信息。
灰度共生矩阵可以计算多种纹理特征,如能量、对比度、相关性、同质性等。
颜色直方图
颜色直方图是一种基于颜色值的特征提取方法,通过统计图像中各种颜色的频率分布,描述图像的颜色信息。
颜色直方图可以用于度量图像中各种颜色的相对比例,从而提取图像的颜色特征。
局部二值模式(LBP)
局部二值模式是一种基于像素邻域的特征提取方法,通过比较像素与其邻域内像素的灰度值,生成二值模式。
局部二值模式可以用于描述图像的局部纹理信息,同时具有旋转不变性和灰度不变性。
尺度不变特征变换(SIFT)
尺度不变特征变换是一种基于图像梯度的特征提取方法,通过构建尺度空间和检测极值点,提取图像的关键点。SIFT特征具有尺度不变性、旋转不变性、亮度不变性等优点。
SIFT算法的具体实施方式如下:
(1)构建尺度空间:对分割图像进行高斯滤波和降采样,得到多尺度的高斯金字塔;
(2)计算差分金字塔:对高斯金字塔的相邻层进行差分,得到差分金字塔;
(3)检测极值点:在差分金字塔中找到局部极值点,作为关键点的候选;
(4)关键点定位:对候选关键点进行精确定位和剔除不稳定点,得到最终的关键点;
(5)计算关键点的方向:根据关键点的邻域梯度信息,计算关键点的主方向;
(6)提取关键点的描述子:根据关键点的位置、尺度和方向,提取关键点的梯度描述子。
速度鲁棒特征(SURF)
速度鲁棒特征是一种改进的SIFT特征提取方法,通过使用积分图像和哈尔小波,提高了特征提取的速度和鲁棒性。
SURF算法的具体实施方式如下:
(1)构建尺度空间:对分割图像进行高斯滤波和降采样,得到多尺度的高斯金字塔;
(2)计算哈尔小波响应:使用积分图像和哈尔小波,计算分割图像在不同尺度的响应;
(3)检测极值点:在哈尔小波响应中找到局部极值点,作为关键点的候选;
(4)关键点定位:对候选关键点进行精确定位和剔除不稳定点,得到最终的关键点;
(5)计算关键点的方向:根据关键点的邻域梯度信息,计算关键点的主方向;
(6)提取关键点的描述子:根据关键点的位置、尺度和方向,提取关键点的梯度描述子。
进一步的,在上述技术方案中,对图像对应的音频与图像特征进行标记的方法为训练一个神经网络实现对图像对应的音频与图像特征进行标记。
在步骤S24中,我们需要训练一个神经网络实现对图像对应的音频与图像特征进行标记。具体实施方式如下:
数据准备首先,我们需要收集大量的带有声源信息的图像和音频数据,作为神经网络的训练数据。训练数据可以包括各种类型的场景,例如室内、室外、人群、交通等。对于每个场景,我们需要记录声源的位置以及音量等信息,作为训练数据的标签。
数据预处理在训练神经网络之前,我们需要对数据进行预处理,以便更好地进行特征提取和标记。数据预处理的步骤包括:
(1)对图像数据进行预处理,如步骤S21,包括灰度化、去噪、增强等操作。
(2)对音频数据进行预处理,包括采样、量化、编码等操作。采样是将连续的音频信号转换为离散的数字信号,采样率决定了音频信号的质量。量化是将音频信号的幅度值离散化,量化位数决定了音频信号的精度。编码是将量化后的音频信号转换为二进制数据,以便进行计算和存储。
(3)对训练数据进行归一化处理,使其分布在一个相同的范围内。归一化的方法有最大最小归一化、均值归一化、标准差归一化等。以下以最大最小归一化为例介绍归一化的公式:
其中,Xnorm表示归一化后的数据,X表示原始数据,Xmin和Xmax分别表示数据的最小值和最大值。
特征提取根据步骤S23,对预处理后的图像数据进行特征提取,得到图像特征。图像特征可以包括灰度共生矩阵、颜色直方图、局部二值模式等。同时,对预处理后的音频数据进行特征提取,得到音频特征。音频特征可以包括频谱特征、时域特征、倒谱特征等。
神经网络构建构建一个神经网络进行图像特征和音频特征的联合训练。神经网络可以包括多个隐藏层,每个隐藏层可以包括多个神经元。神经网络的输入层接收图像特征和音频特征,输出层输出声源的位置和音量等信息。常用的神经网络结构有多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)等。以下以多层感知器为例介绍神经网络的构建:
(1)输入层:接收图像特征和音频特征,神经元的数量等于特征的维数。设输入特征为x,输入层的权重矩阵为W1,偏置向量为b1,则输入层的输出为:
z1=W1x+b1;
(2)隐藏层:对输入层的输出进行非线性变换,得到隐藏层的输出。设隐藏层的激活函数为f,权重矩阵为W2,偏置向量为b2,则隐藏层的输出为:
z2=f(W2z1+b2);
(3)输出层:对隐藏层的输出进行线性变换,得到声源的位置和音量等信息。设输出层的权重矩阵为W3,偏置向量为b3,则输出层的输出为:
y=W3z2+b3;
神经网络训练使用梯度下降算法对神经网络进行训练,以最小化损失函数。损失函数可以选用均方误差(MSE)、交叉熵(CE)等。以下以均方误差为例介绍损失函数的公式:
其中,yi表示实际的声源信息,表示神经网络的输出,N表示训练数据的数量。
图像特征标记在神经网络训练完成后,对图像对应的音频与图像特征进行标记,得到声源区域。具体方法为:
将图像特征输入神经网络,得到声源的位置和音量等信息。
根据声源信息对图像特征进行标记,得到声源区域。
进一步的,在上述技术方案中,根据得到的声源区域计算声源所在屏幕以及声源的位置的步骤,具体包括:
根据得到的声源区域计算声源区域的中心点坐标;
根据声源区域的中心点坐标判断声源所在屏幕;
计算声源在屏幕中的位置。
在步骤S25中,我们需要根据得到的声源区域计算声源所在屏幕以及声源的位置,同时,根据音频得到音量。具体实施方式如下:
计算声源所在屏幕
首先,我们需要确定声源所在的屏幕。由于多面屏是一个大型的互动显示器,每个屏幕都有自己的坐标系。我们可以通过声源区域在整个多面屏中的位置来判断声源所在的屏幕。具体方法如下:
(1)计算声源区域的中心点坐标。设声源区域的左上角坐标为(x1,y1),右下角坐标为(x2,y2),则声源区域的中心点坐标为:
(2)判断声源所在屏幕。我们可以通过声源区域中心点的坐标与每个屏幕的坐标范围进行比较,从而确定声源所在的屏幕。设第i个屏幕的左上角坐标为(xi1,yi1),右下角坐标为(xi2,yi2),则可以通过以下条件判断声源所在屏幕:
xi1≤xc≤xi2and yi1≤yc≤yi2;
满足条件的屏幕即为声源所在屏幕。
计算声源位置
在确定了声源所在屏幕之后,我们需要计算声源在该屏幕中的位置。由于我们已经得到了声源区域的中心点坐标,可以直接将其转换为相对于所在屏幕的坐标。设声源所在屏幕的左上角坐标为(xs1,ys1),则声源在屏幕中的位置坐标为:
(xp,yp)=(xc-xs1,yc-ys1);
计算音量
在确定了声源所在屏幕和位置之后,我们需要根据音频计算音量。音量可以通过分析音频信号的幅度来计算,常用的音量计算方法有瞬时幅度、均方根(RMS)、对数幅度等。
在计算了音量之后,我们可以将声源所在屏幕、声源位置和音量信息传递给微音响矩阵进行音频输出,从而实现基于互动多面屏的微音响矩阵控制。
其中,在上述技术方案中,根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出的步骤,具体包括:
确定声源所在的微音响设备,根据声源所在屏幕和位置信息,计算声源与各个音响设备的距离,从而确定最接近声源的音响设备;
计算音响设备的输出功率,根据音量信息和音响设备的最大输出功率,计算各个音响设备的输出功率;
计算音响设备的输出延迟,根据声速和声源与音响设备的距离,计算各个音响设备的输出延迟;
控制微音响矩阵进行音频输出,将音频信号分配给各个音响设备,对音响设备进行输出功率和延迟设置,启动音响设备进行音频输出。
在步骤S30中,我们需要根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出。具体实施方式如下:
确定声源所在的微音响设备
首先,我们需要根据声源所在屏幕和位置信息,确定对应的微音响设备。由于每个屏幕的背面均设置有多个小型音响设备,且呈均匀分布,我们可以通过计算声源位置与各个音响设备的距离,从而确定最接近声源的音响设备。设第i个音响设备的坐标为(xi,yi),声源位置的坐标为(xp,yp),则声源与音响设备的欧氏距离为:
我们可以遍历所有音响设备,找到距离声源最近的音响设备作为声源所在的微音响设备。
计算音响设备的输出功率
在确定了声源所在的微音响设备之后,我们需要根据音量信息计算各个音响设备的输出功率。设声源的音量为V,音响设备的最大输出功率为Pmax,则音响设备的输出功率为:
其中,Vmax表示音量的最大值。
计算音响设备的输出延迟
由于声源与各个音响设备之间的距离不同,导致音频信号在空气中传播的时间也不同。为了保证音频输出的同步性,需要对各个音响设备的输出进行延迟处理。设声速为c,声源与音响设备的距离为di,则音响设备的输出延迟为:
控制微音响矩阵进行音频输出
在计算了音响设备的输出功率和延迟之后,我们可以将这些信息传递给微音响矩阵,控制各个音响设备进行音频输出。具体实施方式如下:
(1)将音频信号分配给各个音响设备。根据声源所在的微音响设备,将音频信号分配给相应的音响设备。可以根据声源与各个音响设备之间的距离,对音频信号进行加权处理,以实现空间音频效果。
(2)对音响设备进行输出功率和延迟设置。根据计算得到的输出功率和延迟信息,设置各个音响设备的输出参数。具体方法可以通过编程控制音响设备的硬件接口,如I2C、SPI等。
(3)控制音响设备进行音频输出。在完成输出参数设置后,启动各个音响设备进行音频输出。音响设备可以通过数字信号处理(DSP)技术,实现音频信号的放大、滤波、解码等功能。
本发明的第二方面提供一种计算机可读存储介质,所述计算机可读存储介质中包含有程序指令,所述程序指令运行时用于上述的大型互动多面屏的微音响矩阵控制方法。
本发明的第三方面提供一种大型互动多面屏的微音响矩阵控制系统,包含上述的计算机可读存储介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种大型互动多面屏的微音响矩阵控制方法,用于控制与大型互动多面屏关联的微音响矩阵,所述微音响矩阵包括多个小型音响设备,所述多面屏的每个屏幕的背面均设置有多个所述小型音响设备,且每个平面的上设置的小型音响设备呈均匀分布,其特征在于,包含以下步骤:
S10、获取互动多面屏上各个屏幕展示的图像及对应的音频;
S20、根据所获取的图像对应的音频,计算每个图像的发音特征,所述发音特征包括声源所在屏幕、声源的位置以及音量;
S30、根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出。
2.根据权利要求1所述的一种大型互动多面屏的微音响矩阵控制方法,其特征在于,所述根据所获取的图像对应的音频,计算每个图像的发音特征,所述发音特征包括声源所在屏幕、声源的位置以及音量的步骤,具体包括:
S21、对所获取的图像进行预处理得到预处理图像;
S22、对所述预处理图像进行分割,得到分割图像组;
S23、将每个分割图像进行特征提取,得到图像特征;
S24、对所述图像对应的音频与所述图像特征进行标记,所述图像特征标记的区域为音频的声源区域;
S25、根据得到的声源区域计算声源所在屏幕以及声源的位置,同时,根据音频得到音量。
3.根据权利要求2所述的一种大型互动多面屏的微音响矩阵控制方法,其特征在于,所述对所获取的图像进行预处理得到预处理图像的步骤,具体包括:
将所获取的彩色图像转换为灰度图像;
对灰度图像进行去噪处理;
对去噪后的图像进行增强处理,得到预处理图像。
4.根据权利要求2所述的一种大型互动多面屏的微音响矩阵控制方法,其特征在于,所述对所述预处理图像进行分割的方法,采用阈值分割、边缘检测、区域生长、分水岭变换中的任一种。
5.根据权利要求2所述的一种大型互动多面屏的微音响矩阵控制方法,其特征在于,所述将每个分割图像进行特征提取,得到图像特征的步骤,具体包括:
对分割图像组进行灰度共生矩阵特征提取,得到纹理特征;
对分割图像组进行颜色直方图特征提取,得到颜色特征;
对分割图像组进行局部二值模式特征提取,得到局部纹理特征;
对分割图像组进行尺度不变特征变换特征提取,得到关键点特征;
对分割图像组进行速度鲁棒特征提取,得到鲁棒关键点特征;
将以上提取的特征进行融合,得到图像特征。
6.根据权利要求2所述的一种大型互动多面屏的微音响矩阵控制方法,其特征在于,所述对所述图像对应的音频与所述图像特征进行标记的方法为训练一个神经网络实现对所述图像对应的音频与所述图像特征进行标记。
7.根据权利要求2所述的一种大型互动多面屏的微音响矩阵控制方法,其特征在于,所述根据得到的声源区域计算声源所在屏幕以及声源的位置的步骤,具体包括:
根据得到的声源区域计算声源区域的中心点坐标;
根据声源区域的中心点坐标判断声源所在屏幕;
计算声源在屏幕中的位置。
8.根据权利要求1所述的一种大型互动多面屏的微音响矩阵控制方法,其特征在于,所述根据计算得到的发音特征,控制相应的微音响矩阵进行音频输出的步骤,具体包括:
确定声源所在的微音响设备,根据声源所在屏幕和位置信息,计算声源与各个音响设备的距离,从而确定最接近声源的音响设备;
计算音响设备的输出功率,根据音量信息和音响设备的最大输出功率,计算各个音响设备的输出功率;
计算音响设备的输出延迟,根据声速和声源与音响设备的距离,计算各个音响设备的输出延迟;
控制微音响矩阵进行音频输出,将音频信号分配给各个音响设备,对音响设备进行输出功率和延迟设置,启动音响设备进行音频输出。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含有程序指令,所述程序指令运行时用于执行权利要求1-8任一项所述的大型互动多面屏的微音响矩阵控制方法。
10.一种大型互动多面屏的微音响矩阵控制系统,其特征在于,包含权利要求9所述的计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836314.4A CN116860198A (zh) | 2023-07-10 | 2023-07-10 | 一种大型互动多面屏的微音响矩阵控制方法、介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836314.4A CN116860198A (zh) | 2023-07-10 | 2023-07-10 | 一种大型互动多面屏的微音响矩阵控制方法、介质及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116860198A true CN116860198A (zh) | 2023-10-10 |
Family
ID=88222952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310836314.4A Pending CN116860198A (zh) | 2023-07-10 | 2023-07-10 | 一种大型互动多面屏的微音响矩阵控制方法、介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860198A (zh) |
-
2023
- 2023-07-10 CN CN202310836314.4A patent/CN116860198A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105354865B (zh) | 多光谱遥感卫星影像自动云检测方法及系统 | |
US20230289979A1 (en) | A method for video moving object detection based on relative statistical characteristics of image pixels | |
CN109657612B (zh) | 一种基于人脸图像特征的质量排序系统及其使用方法 | |
CN109005409A (zh) | 一种基于目标检测与跟踪的智能视频编码方法 | |
CN105869178B (zh) | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 | |
Liu et al. | A unified variational model for single image dehazing | |
CN110084782B (zh) | 基于图像显著性检测的全参考图像质量评价方法 | |
CN111062314B (zh) | 图像选取方法、装置、计算机可读存储介质及电子设备 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
Sathya et al. | Classification and segmentation in satellite imagery using back propagation algorithm of ann and k-means algorithm | |
CN112906550B (zh) | 一种基于分水岭变换的静态手势识别方法 | |
CN109712247B (zh) | 基于混合现实技术的实景训练系统 | |
CN109472770B (zh) | 一种印刷电路板检测中的图像特征点快速匹配方法 | |
CN110443800A (zh) | 视频图像质量的评价方法 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN101587590A (zh) | 基于脉冲余弦变换的选择性视觉注意计算模型 | |
CN111047618B (zh) | 基于多尺度的无参考屏幕内容图像质量评估方法 | |
Du et al. | Double-channel guided generative adversarial network for image colorization | |
Li et al. | AEMS: an attention enhancement network of modules stacking for lowlight image enhancement | |
CN111080754B (zh) | 一种头部肢体特征点连线的人物动画制作方法及装置 | |
CN109241932A (zh) | 一种基于运动方差图相位特征的热红外人体动作识别方法 | |
CN116860198A (zh) | 一种大型互动多面屏的微音响矩阵控制方法、介质及系统 | |
CN110910497A (zh) | 实现增强现实地图的方法和系统 | |
Zhang et al. | Research on the algorithm of license plate recognition based on MPGAN Haze Weather | |
CN112070048B (zh) | 基于RDSNet的车辆属性识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |