CN117093179A - 一种播放音频的方法、装置、存储介质及电子设备 - Google Patents
一种播放音频的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117093179A CN117093179A CN202311061468.7A CN202311061468A CN117093179A CN 117093179 A CN117093179 A CN 117093179A CN 202311061468 A CN202311061468 A CN 202311061468A CN 117093179 A CN117093179 A CN 117093179A
- Authority
- CN
- China
- Prior art keywords
- audio
- sound source
- virtual
- distribution
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000009826 distribution Methods 0.000 claims abstract description 87
- 230000007613 environmental effect Effects 0.000 claims abstract description 22
- 230000004044 response Effects 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 claims description 25
- 230000005236 sound signal Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 9
- 239000011521 glass Substances 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 8
- 238000001816 cooling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010438 heat treatment Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本申请的一些实施例提供了一种播放音频的方法、装置、存储介质及电子设备,该方法应用于AR设备,包括:响应于用户的操作指令,在室内空间创建虚拟声源和多个虚拟音响;根据所述室内空间的空间要素,获取音频声源分配参数,其中,所述空间要素包括:人物、环境特征和室内色调中的至少一种;基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上。本申请的一些实施例的AR设备可以实现对音频的灵活控制播放,适应业务场景需求。
Description
技术领域
本申请涉及增强现实技术领域,具体而言,涉及一种播放音频的方法、装置、存储介质及电子设备。
背景技术
增强现实(Augmented Reality,AR)技术是一种将虚拟信息与真实世界巧妙融合的技术,广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中。
目前,在某个封闭空间(例如,室内、会议室或影院)内播放音视频时,一般通过在封闭空间安装对应的实体音响设备来播放声音。然而,对应不同的场地和参与的人员的不同,音响设备的安装位置需要提前设计,因此,传统的播放音视频的方案成本较高,且体验较差。
因此,如何提供一种成本较低的播放音频的方法的技术方案成为亟需解决的技术问题。
发明内容
本申请的一些实施例的目的在于提供一种播放音频的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案通过AR设备可以无需安装额外的音响设备即可以实现音频的播放,成本较低,且提升了用户体验。
第一方面,本申请的一些实施例提供了一种播放音频的方法,应用于AR设备,包括:响应于用户的操作指令,在室内空间创建虚拟声源和多个虚拟音响;根据所述室内空间的空间要素,获取音频声源分配参数,其中,所述空间要素包括:人物、环境特征和室内色调中的至少一种;基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上。
本申请的一些实施例通过AR设备用户可以在室内空间内创建虚拟声源和虚拟音响,然后根据室内空间的空间要素,可以获取音频声源分配参数,最后通过音频声源分配参数可以将目标音频分配至虚拟音响上。本申请的一些实施例通过AR设备可以创建虚拟音响,无需部署额外的复杂的音响设备,降低了成本,而且,用户通过佩戴AR设备还可以获得沉浸式的音频体验。
在一些实施例,所述根据所述室内空间的空间要素,获取音频声源分配参数,包括:基于识别到的所述人物的位置信息和姿态信息,确定第一分配参数;基于所述环境特征对应的所述室内空间的结构特性,确定第二分配参数;基于所述室内色调对应的色调特征,确定第三分配参数;对所述第一分配参数、所述第二分配参数和所述第三分配参数进行计算,得到所述音频声源分配参数。
本申请的一些实施例通过对室内空间内的人物、环境特征和室内色调进行分析,确定对应的分配参数,进而通过分配参数可以得到音频声源分配参数,该方法可以实现对音频播放的精准分配,提升音频播放的空间感和立体感,提升用户体验。
在一些实施例,所述基于识别到的所述人物的位置信息和姿态信息,确定第一分配参数,包括:获取所述人物相对于所述多个虚拟音响的所述位置信息;通过所述姿态信息中的身体倾斜角度和头部转向角度,确定朝向信息;确定与所述位置信息和所述朝向信息对应的所述第一分配参数,其中,所述第一分配参数表征所述目标音频被分配至所述多个虚拟音响的前侧、后侧、左侧或右侧。
本申请的一些实施例通过人物相对于虚拟音响的位置信息和姿态信息可以确定第一分配参数,使得音频分配符合人物的状态,提升体验效果。
在一些实施例,所述基于所述环境特征对应的所述室内空间的结构特性,确定第二分配参数,包括:利用图像处理算法分析所述环境特征,得到所述结构特性,其中,所述结构特性表征室内家具的分布情况;确定与所述室内家具相对于所述多个虚拟音响的位置关系的所述第二分配参数。
本申请的一些实施例通过图像处理算法对环境特征进行分析,确定室内的家具分布情况,进而确定第二分配参数,可以提供更真实的音场感受。
在一些实施例,所述基于所述室内色调对应的色调特征,确定第三分配参数,包括:利用图像处理算法,对所述室内空间的图像进行分析,得到所述色调特征,其中,所述色调特征包括:鲜艳程度等级、冷暖程度等级和柔和程度等级;确定与所述色调特征相匹配的所述第三分配参数,其中,所述第三分配参数包括:音色参数、音效参数和音量参数。
本申请的一些实施例通过图像处理算法可以对室内空间的图像进行分析,得到色调特征,进而可以确定与色调匹配的第三分配参数,可以得到较优质的音频效果,提升用户体验。
在一些实施例,所述对所述第一分配参数、所述第二分配参数和所述第三分配参数进行计算,得到所述音频声源分配参数,包括:利用预先训练好的机器学习模型分别对所述第一分配参数、所述第二分配参数和所述第三分配参数设定对应的权重值;对所述第一分配参数、所述第二分配参数和所述第三分配参数和所述权重值进行计算,确定所述音频声源分配参数。
本申请的一些实施例通过预先训练好的机器学习模型可以得到对应的权重值,进而结合第一分配参数、第二分配参数和第三分配参数,可以最终确定音频声源分配参数,以使得音频播放效果适应室内环境,提升用户体验。
在一些实施例,在所述基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上之后,所述方法还包括:采集当前所述多个虚拟音响播放的所述目标音频的音频信号;基于所述音频信号的声源位置和声源方向,生成重建音频信号;基于所述重建音频信号调整每个虚拟音响的音量和相位。
本申请的一些实施例通过对正在播放的音频信号进行采集和重建可以调整虚拟音响的音量和相位,可以实现对音频效果的随时调整。
第二方面,本申请的一些实施例提供了一种播放音频的装置,应用于AR设备,包括:创建模块,用于响应于用户的操作指令,在室内空间创建虚拟声源和多个虚拟音响;获取模块,用于根据所述室内空间的空间要素,获取音频声源分配参数,其中,所述空间要素包括:人物、环境特征和室内色调中的至少一种;分配模块,用于基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上。
第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。
第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。
第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。
附图说明
为了更清楚地说明本申请的一些实施例的技术方案,下面将对本申请的一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请的一些实施例提供的一种播放音频的系统图;
图2为本申请的一些实施例提供的一种播放音频的方法流程图;
图3为本申请的一些实施例提供的一种播放音频的装置组成框图;
图4为本申请的一些实施例提供的一种电子设备示意图。
具体实施方式
下面将结合本申请的一些实施例中的附图,对本申请的一些实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术中,在影院、室内或会议室观看音视频时,通常需要安装一定数量的音响设备,以使得参与者可以有很强的参与感,提升参与体验。但是,在不同的场所中安装一定数量的音响,不仅需要安装成本,还需要后期进行定期维护,以保证音效质量,因此还需要大量的人力成本。而且随着时间的增长,音响的播放质量会下降,影响用户体验。
由上述相关技术可知,现有技术中播放音频时的成本较高,且用户体验无法得到保证。
鉴于此,本申请的一些实施例提供了一种播放音频的方法,该方法应用于AR设备,用户在佩戴AR设备后,可以在室内空间内创建虚拟声源和多个虚拟音响,然后AR设备通过对室内空间内的空间要素进行分析,可以得到音频声源分配参数。最后通过音频声源分配参数可以将目标音频分配到多个虚拟音响上。本申请的一些实施例不需要安装额外的音响实体设备,就可以实现音频的播放,降低了安装成本,且音频播放效果较好,提升了用户体验。
下面结合附图1示例性阐述本申请的一些实施例提供的一种播放音频的系统的整体组成结构。
如图1所示,本申请的一些实施例提供了一种播放音频的系统,该播放音频的系统包括AR眼镜100(作为AR设备的一个具体示例),以及用户在室内空间内创建的虚拟电视110(作为虚拟声源的一个具体示例)和虚拟音响120。其中,虚拟音响120的数量为多个(图1只是为了描述该系统的应用的场景,所以只以一个为示例进行了展示),其具体数量可以根据实际情况进行设定,本申请实施例在此不作具体限定。
在本申请的一些实施例中,用户在头部佩戴AR眼镜100后,可以通过按下AR眼镜100上的开关按钮或通过语音指令启动AR系统。之后,用户可以在AR眼镜100的菜单页面上选择创建的设备类型,如选择创建虚拟电视和多个虚拟音响,多个虚拟音响的具体位置由用户拖动选择。在创建完成后,AR眼镜100可以对室内空间的人物、环境特征和室内色调进行分析,确定音频声源分配参数。最后AR眼镜100可以基于音频声源分配参数,将虚拟电视110发出的目标音频分配至多个虚拟音响上进行播放,以便于室内空间中的所有人都可以获得沉浸式音频体验。
下面结合附图2示例性阐述本申请的一些实施例提供的由AR眼镜100执行的播放音频的实现过程。
请参见附图2,图2为本申请的一些实施例提供的一种播放音频的方法流程图,该播放音频的方法包括:
S210,响应于用户的操作指令,在室内空间创建虚拟声源和多个虚拟音响。
例如,在本申请的一些实施例中,用户在启动AR眼镜100后,可以通过AR眼镜100扫描家中环境(作为室内空间的一个具体示例)进行3D空间建模。之后用户可以使用手势或者AR眼镜100上的控制器,在家中的客厅墙壁上选择一个合适的位置创建虚拟电视110。用户通过手势或者控制器在客厅内选择适当的位置摆放虚拟音响。用户可以自定义虚拟音响的位置,还可以在AR眼镜100的虚拟界面上调整音频分配比例等,以满足不同用户的听觉需求和音频偏好。
在本申请的另一些实施例中,用户也可选择家中现有的电视,AR眼镜100通过蓝牙、WIFI与电视连接,来接收电视的视频、音频数据用于分析重建,以便于通过虚拟音响实现对音视频的播放。
S220,根据所述室内空间的空间要素,获取音频声源分配参数,其中,所述空间要素包括:人物、环境特征和室内色调中的至少一种。
例如,在本申请的一些实施例中,由于家中的人和物均会对声音的播放产生影响,因此,AR眼镜100通过对家中的人、环境特征和室内色调进行分析,可以确定音频声源的分配参数,以实现将音频分配至不同的虚拟音响上,提升播放效果。例如,通过AR眼镜100中的摄像头和麦克风采集家中环境中的视觉和音频信号。通过视频画面的人物、背景、环境、色调等等因素的抽离分析,作为参数动态调整音频风格。
在本申请的一些实施例中,S220可以包括:
S221,基于识别到的所述人物的位置信息和姿态信息,确定第一分配参数;
例如,在本申请的一些实施例中,AR眼镜100可以利用计算机视觉算法,对家中的人物进行检测和识别。通过识别人物的位置(信息)和姿态(信息),可以根据不同的人物位置和姿态的角度,得到第一分配参数,以调整音频声源分配和音场效果,使得音响效果更符合人的听觉习惯。
在本申请的一些实施例中,S221可以包括:获取所述人物相对于所述多个虚拟音响的所述位置信息;通过所述姿态信息中的身体倾斜角度和头部转向角度,确定朝向信息;确定与所述位置信息和所述朝向信息对应的所述第一分配参数,其中,所述第一分配参数表征所述目标音频被分配至所述多个虚拟音响的前侧、后侧、左侧或右侧。
例如,在本申请的一些实施例中,通过识别人物的位置和姿态,可以确定人物的相对位置和朝向信息。
具体的,相对位置的分析过程可以包括:AR眼镜100的系统假设用户自己位于画面的中心点,虚拟音响放置的位置基于用户的相对位置设置在画面里,系统将画面里识别的人物的位置信息相对于中心点的偏移角度数据后,可以确定人物相对于虚拟音响的位置。根据人物与虚拟音响的距离近远来调整声源的位置,使得人物所产生的声音似乎来自于其真实位置的左侧或右侧、前侧或后侧。
姿态信息的分析过程可以包括:根据人物的姿态信息,如身体的倾斜度、头部的转向(作为头部转向角度的一个具体示例)等,系统可以确定人物的朝向信息。通过调整音频声源的方向,使得人物的声音似乎来自于其真实朝向的前方或后方。
角度信息的分析过程可以包括:根据人物的角度信息,如身体的角度或者头部的转向角度等,系统可以根据人物的角度确定音频声源的具体位置。例如,当人物的角度偏向某一参照物的左侧时,系统可以将声源分配到虚拟音响系统的左侧,使得声音似乎来自于左侧的方向。同样地,当人物的角度偏向某一参照物的右侧时,声源可以被分配到虚拟音响系统的右侧。
通过对上述相对位置、姿态信息和角度信息分析完毕后,可以确定与人物对应的第一分配参数,使得用户和所有人可以近乎真实的感受到声音的来源。
S222,基于所述环境特征对应的所述室内空间的结构特性,确定第二分配参数;
在本申请的一些实施例中,S222可以包括:利用图像处理算法分析所述环境特征,得到所述结构特性,其中,所述结构特性表征室内家具的分布情况;确定与所述室内家具相对于所述多个虚拟音响的位置关系的所述第二分配参数。
例如,在本申请的一些实施例中,系统可以利用图像分割或背景建模算法(作为图像处理算法的一个具体示例),将场景中的背景和环境与前景进行分离。通过分析背景和环境的特征(作为环境特征的一个具体示例),如墙壁、家具、窗户(作为家具的具体示例)等,系统可以确定室内空间的结构特性。基于室内空间的结构特性,系统可以调整音频声源位置和方向的分配,以提供更真实的音场感受,如让音频似乎来自墙壁或家具的特定位置(作为第二分配参数的一个具体示例)。例如,当家中存在一堵墙壁时,系统可以将声源分配到虚拟音响系统与该墙壁相对的位置,产生与真实墙壁相对应的声音效果(作为第二分配参数的一个具体示例)。再例如,在一个房间中,系统可以根据墙壁的位置和家具的布局,调整音频声源的方向,使得声音似乎来自于某个特定的方向,如窗户旁边或沙发的一侧(作为第二分配参数的一个具体示例)。
S223,基于所述室内色调对应的色调特征,确定第三分配参数;
在本申请的一些实施例中,S223可以包括:利用图像处理算法,对所述室内空间的图像进行分析,得到所述色调特征,其中,所述色调特征包括:鲜艳程度等级、冷暖程度等级和柔和程度等级;确定与所述色调特征相匹配的所述第三分配参数,其中,所述第三分配参数包括:音色参数、音效参数和音量参数。
例如,在本申请的一些实施例中,AR眼镜100可以利用图像处理算法,抽离家中的图像的色调信息,得到色调特征。色调特征可以反映场景的氛围和情感。通过分析色调的特点,如鲜艳、柔和、冷暖等,AR眼镜100可以根据不同的色调特征,调整音频的音色、音量和音效,以匹配场景的氛围和情感。
具体的,AR眼镜100可以通过图像的色彩分析、色彩空间转换、颜色直方图等来实现色调特征。例如,根据色调分析结果中的鲜艳程度和柔和程度,系统可以调整音频的音色。例如,当色调分析结果表明图像的鲜艳程度较高时,系统可以增加音频的高频分量和音色明亮的特征,从而让音频更加鲜艳。相反,当色调分析结果表明图像的柔和程度较高时,系统可以减少音频的高频分量和音色明亮的特征,使音频更加柔和。另外,根据色调分析结果中的冷暖程度,系统可以调整音频的音色和音效。例如,当色调分析结果表明图像的色调偏冷时,系统可以增加音频的低频分量和音效的明亮特征,使音频更加富有冷感。相反,当色调分析结果表明图像的色调偏暖时,系统可以增加音频的低频分量和音效的柔和特征,从而让音频更加温暖。可以理解的是,色调的鲜艳、柔和、冷暖可以按照对应的预设色调级别表进行确定,以此可以精准确认室内空间的鲜艳、柔和、冷暖程度。
S224,对所述第一分配参数、所述第二分配参数和所述第三分配参数进行计算,得到所述音频声源分配参数。
在本申请的一些实施例中,利用预先训练好的机器学习模型分别对所述第一分配参数、所述第二分配参数和所述第三分配参数设定对应的权重值;对所述第一分配参数、所述第二分配参数和所述第三分配参数和所述权重值进行计算,确定所述音频声源分配参数。
例如,在本申请的一些实施例中,基于上述人物、环境和色调的分析结果,系统可以根据不同的参数(也就是第一分配参数、第二分配参数和第三分配参数)和权重值,动态调整音频风格,实现与场景相符合的音响效果。通过这种方式,用户可以在虚拟电视110和虚拟音响120所创造的环境中,获得更加沉浸式和个性化的音频体验。
在本申请的一些实施例中,参数和权重值可以是通过训练好的机器学习模型自动设定的。
具体的,训练好的机器学习模型的获取方法如下:
S1、数据收集和预处理:收集大量的不同场景下的影音数据,包括音频和视频。将这些数据进行预处理,如去除噪声、分割音频和视频,以及提取有关色调和环境相关的特征。
S2、特征提取和训练:使用机器学习算法,对预处理后的数据进行特征提取。对于色调特征,可以使用色彩空间转换算法(如RGB转HSV)提取颜色特征。对于环境特征,可以使用图像分割算法(如分水岭算法)进行分析。同时可以使用语音信号处理算法提取音频特征。
S3、模型训练和优化:基于S2中提取的特征,训练一个多层感知机(MLP)或深度学习网络,用于预测在给定场景下的音频参数和权重值。训练过程中,可以采用交叉验证和优化算法(如梯度下降算法)来优化模型的准确性和泛化能力。
通过上述步骤得到训练好的机器学习模型。
在实际应用中,根据实时采集到的人物、环境和色调的分析结果,将这些结果输入到训练好的模型中,预测合适的参数和权重值。也就是说,第一分配参数、第二分配参数和第三分配参数的确定方式可以是基于训练好的机器学习模型确定的。最终根据预测结果,对音频进行相应的调整,以达到与场景相符合的音响效果。
对于权重的设定,可以通过在训练过程中调整损失函数的权重来实现。根据应用场景的需求,可以根据不同特征的重要性,设定适当的权重值。例如,当人物分析的准确性对音响效果的影响较大时,可以提高人物位置和姿态信息的权重值;而当背景和环境分析的准确性对音响效果的影响较大时,可以提高背景和环境特征的权重值。权重的设定通常需要通过实验和调试来确定,以满足用户对音响效果的个性化和沉浸式的需求。具体的,可以根据实际情况进行灵活调整,本申请实施例并不局限于此。
S230,基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上。
例如,在本申请的一些实施例中,通过音频声源分配参数将音频信号分配至各个方位的虚拟音响上进行播放。例如,通过AR眼镜100内部的耳机输出给用户,使用户可以感受到与实际声音源位置相符合的沉浸式音频效果。也就是说,用户佩戴AR眼镜100,其上部署的耳机可以将音频信号输入用户的耳朵,使用户可以听到与实际声音源位置相符合的沉浸式音频效果。
另外,在本申请的一些实施例中,用户可以通过AR眼镜100的控制器对系统进行控制,例如调节音量、切换音频模式等。具体的,AR眼镜100的系统配备一个控制器,用户可以通过手势或按钮控制控制器上的按钮进行音频系统的操作。用户还可以调节音量、切换音频模式(如立体声、环绕声、3D声等)等操作来满足个性化需求。其中,AR眼镜100的交互包含但不限于:手势识别、语音控制、头部追踪等技术,以此可以更方便、自然地控制音频系统的功能和设置。
在本申请的一些实施例中,执行S230之后,播放音频的方法还包括:采集当前所述多个虚拟音响播放的所述目标音频的音频信号;基于所述音频信号的声源位置和声源方向,生成重建音频信号;基于所述重建音频信号调整每个虚拟音响的音量和相位。
例如,在本申请的一些实施例中,在播放的过程中还可以对音频信号进行分析重建,调整分配。此处的音频分析是基于前面对目标音频调整之后的音频信号进行的。首先,通过信号处理算法对采集到的音频信号进行处理,如滤波、去噪或降噪等,以得到清晰的音频信号。然后,可以使用声源定位算法来确定音频信号源的位置和方向(作为声源位置和声源方向的一个具体示例),以帮助音频分配。此外,还可以使用语音分析算法来提取音频信号的特征,如声音的频率、强度和谱特性。基于这些音频特征和前面步骤中对音频的调整,可以进行后续的音频重建和分配操作,将声源自动分配到前后左右对应的虚拟音响上,实现更符合人的听觉习惯的音响效果。系统通过AR眼镜100内部的耳机输出经过音频重建和定位处理后的音频信号。
通过上述本申请的一些实施例提供的音频播放方法,实现了沉浸式音频体验,通过AR眼镜与声源定位技术相结合,使用户可以在家庭影院观影过程中体验到更加逼真的音频效果。与传统的专业影院系统相比,本发明的系统成本更低且安装简单,可以普及到普通家庭中。同时用户只需佩戴AR眼镜即可获得沉浸式音频体验,无需额外安装复杂的音响设备,灵活易于操作。
请参考图3,图3示出了本申请的一些实施例提供的播放音频的装置的组成框图。应理解,该播放音频的装置与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该播放音频的装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图3的播放音频的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在播放音频的装置中的软件功能模块,该播放音频的装置包括:创建模块310,用于响应于用户的操作指令,在室内空间创建虚拟声源和多个虚拟音响;获取模块320,用于根据所述室内空间的空间要素,获取音频声源分配参数,其中,所述空间要素包括:人物、环境特征和室内色调中的至少一种;分配模块330,用于基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请的一些实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
本申请的一些实施例还提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
如图4所示,本申请的一些实施例提供一种电子设备400,该电子设备400包括:存储器410、处理器420以及存储在存储器410上并可在处理器420上运行的计算机程序,其中,处理器420通过总线430从存储器410读取程序并执行所述程序时可实现如上述任意实施例的方法。
处理器420可以处理数字信号,可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中,处理器420可以是微处理器。
存储器410可以用于存储由处理器420执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码,用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器420可以用于执行存储器410中的指令以实现上述所示的方法。存储器410包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种播放音频的方法,其特征在于,应用于AR设备,包括:
响应于用户的操作指令,在室内空间创建虚拟声源和多个虚拟音响;
根据所述室内空间的空间要素,获取音频声源分配参数,其中,所述空间要素包括:人物、环境特征和室内色调中的至少一种;
基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上。
2.如权利要求1所述的方法,其特征在于,所述根据所述室内空间的空间要素,获取音频声源分配参数,包括:
基于识别到的所述人物的位置信息和姿态信息,确定第一分配参数;
基于所述环境特征对应的所述室内空间的结构特性,确定第二分配参数;
基于所述室内色调对应的色调特征,确定第三分配参数;
对所述第一分配参数、所述第二分配参数和所述第三分配参数进行计算,得到所述音频声源分配参数。
3.如权利要求2所述的方法,其特征在于,所述基于识别到的所述人物的位置信息和姿态信息,确定第一分配参数,包括:
获取所述人物相对于所述多个虚拟音响的所述位置信息;
通过所述姿态信息中的身体倾斜角度和头部转向角度,确定朝向信息;
确定与所述位置信息和所述朝向信息对应的所述第一分配参数,其中,所述第一分配参数表征所述目标音频被分配至所述多个虚拟音响的前侧、后侧、左侧或右侧。
4.如权利要求2所述的方法,其特征在于,所述基于所述环境特征对应的所述室内空间的结构特性,确定第二分配参数,包括:
利用图像处理算法分析所述环境特征,得到所述结构特性,其中,所述结构特性表征室内家具的分布情况;
确定与所述室内家具相对于所述多个虚拟音响的位置关系的所述第二分配参数。
5.如权利要求2所述的方法,其特征在于,所述基于所述室内色调对应的色调特征,确定第三分配参数,包括:
利用图像处理算法,对所述室内空间的图像进行分析,得到所述色调特征,其中,所述色调特征包括:鲜艳程度等级、冷暖程度等级和柔和程度等级;
确定与所述色调特征相匹配的所述第三分配参数,其中,所述第三分配参数包括:音色参数、音效参数和音量参数。
6.如权利要求2-5中任一项所述的方法,其特征在于,所述对所述第一分配参数、所述第二分配参数和所述第三分配参数进行计算,得到所述音频声源分配参数,包括:
利用预先训练好的机器学习模型分别对所述第一分配参数、所述第二分配参数和所述第三分配参数设定对应的权重值;
对所述第一分配参数、所述第二分配参数和所述第三分配参数和所述权重值进行计算,确定所述音频声源分配参数。
7.如权利要求1-5中任一项所述的方法,其特征在于,在所述基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上之后,所述方法还包括:
采集当前所述多个虚拟音响播放的所述目标音频的音频信号;
基于所述音频信号的声源位置和声源方向,生成重建音频信号;
基于所述重建音频信号调整每个虚拟音响的音量和相位。
8.一种播放音频的装置,其特征在于,应用于AR设备,包括:
创建模块,用于响应于用户的操作指令,在室内空间创建虚拟声源和多个虚拟音响;
获取模块,用于根据所述室内空间的空间要素,获取音频声源分配参数,其中,所述空间要素包括:人物、环境特征和室内色调中的至少一种;
分配模块,用于基于所述音频声源分配参数,将所述虚拟声源播放的目标音频分配至所述多个虚拟音响上。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。
10.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061468.7A CN117093179A (zh) | 2023-08-22 | 2023-08-22 | 一种播放音频的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061468.7A CN117093179A (zh) | 2023-08-22 | 2023-08-22 | 一种播放音频的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117093179A true CN117093179A (zh) | 2023-11-21 |
Family
ID=88774788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311061468.7A Pending CN117093179A (zh) | 2023-08-22 | 2023-08-22 | 一种播放音频的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093179A (zh) |
-
2023
- 2023-08-22 CN CN202311061468.7A patent/CN117093179A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10074012B2 (en) | Sound and video object tracking | |
CN110337318A (zh) | 混合现实装置中的虚拟和真实对象记录 | |
US10798518B2 (en) | Apparatus and associated methods | |
CN106445156A (zh) | 一种基于虚拟现实的智能家居控制的方法、装置以及终端 | |
CN109564760A (zh) | 通过3d音频定位来生成虚拟或增强现实呈现的方法和装置 | |
JP5536092B2 (ja) | 実体験のように感じる効果を提供する方法及びシステム | |
JP7479352B2 (ja) | オーディオ装置及びオーディオ処理の方法 | |
CN106416278A (zh) | 信息处理装置、信息处理方法及程序 | |
US10146501B1 (en) | Sound control by various hand gestures | |
US20210150774A1 (en) | Method, device, and system for delivering recommendations | |
US20220101623A1 (en) | Room Acoustics Simulation Using Deep Learning Image Analysis | |
CN111406406A (zh) | 虚拟现实场景中的动态范围扩展的设备和方法 | |
CN108629821A (zh) | 动画生成方法和装置 | |
US20230188921A1 (en) | Audio system with dynamic target listening spot and ambient object interference cancelation | |
CN106683601A (zh) | 显示控制装置及其控制方法 | |
CN111273775A (zh) | 增强现实眼镜、基于增强现实眼镜的ktv实现方法与介质 | |
US11510300B2 (en) | Determinning light effects based on video and audio information in dependence on video and audio weights | |
CN112328085A (zh) | 虚拟角色的控制方法、装置、存储介质与电子设备 | |
CN117093179A (zh) | 一种播放音频的方法、装置、存储介质及电子设备 | |
WO2020234939A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2022009607A1 (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
CN112449249A (zh) | 视频流处理方法及装置、电子设备及存储介质 | |
US20230199422A1 (en) | Audio system with dynamic target listening spot and ambient object interference cancelation | |
US20230067584A1 (en) | Adaptive Quantization Matrix for Extended Reality Video Encoding | |
US20230188922A1 (en) | Audio system with dynamic target listening spot and ambient object interference cancelation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |