CN115314653A - 图像和音频装置及方法 - Google Patents
图像和音频装置及方法 Download PDFInfo
- Publication number
- CN115314653A CN115314653A CN202210475354.6A CN202210475354A CN115314653A CN 115314653 A CN115314653 A CN 115314653A CN 202210475354 A CN202210475354 A CN 202210475354A CN 115314653 A CN115314653 A CN 115314653A
- Authority
- CN
- China
- Prior art keywords
- audiovisual
- spatial
- manipulated
- audio processing
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 86
- 230000004044 response Effects 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/036—Insert-editing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Stereophonic System (AREA)
Abstract
本公开的实施例涉及图像和音频装置及方法。提供了一种装置,包括用于以下的部件:使得对图像和声音装置的空间视听表示进行音频处理,该空间视听表示是实况的或从记录再现的;以及响应于关于在该空间视听表示的经视听操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于该经视听操纵的空间段的音频处理。
Description
背景技术
本发明涉及一种图像和音频装置以及对应的方法。
视频捕获是智能手机的关键用途之一。高质量的视频捕获特征 (例如,4k分辨率,高帧速率,图像稳定性)和空间音频捕获使得能够进行引人注目的内容创建。5G和各种内容共享服务使得甚至可以从某位置实况地共享这样的体验。
空间音频在智能手机上也变得越来越普遍。可以用各种麦克风配置来捕获空间音频。对于非常高质量的空间音频,通常需要至少三个麦克风用于平面捕获(例如,围绕用户的方向,而在高度上没有差异),并且需要至少四个麦克风用于全3D音频。
视频捕获可能包括不想要的和/或分散注意力的人或存在的其他对象,并且用户移除它们或用一些其他对象替换它们。例如,优美环境中的假日视频可能被背景中的另一个人破坏。由于这个原因,通过移除不期望的对象来编辑内容(照片、视频)的技术变得更加普遍。
通常,可以指示对象或区域,并且图像的该区域被基于周围内容和图像中别处的可用内容而计算生成的内容代替。这可以称为内容感知填充(CAF)。
然而,音频抑制在实际环境中很少是完美的。虽然定向音频将被尽可能好地移除,但是一些残余可能保留在那里。这些残余信号通常是微弱的,并且它们未必限于上述方向(例如,它们可以包括来自其它方向的反射等),但是一旦用户开始从原始设置进一步操纵音频环境,它们就成为问题。例如,用户可能希望进一步处理音频表示。
发明内容
为了提供对本发明的一些方面的基本理解,下面给出本发明的简化概述。该概述不是本发明的广泛综述。它不旨在标识本发明的关键 /重要要素或描绘本发明的范围。其唯一目的是以简化的形式呈现本发明的一些概念,作为稍后呈现的更详细描述的序言。
根据本发明的一个方面,提供了权利要求1和13的装置。
根据本发明的一个方面,提供了权利要求14至15的方法。
在附图和以下描述中更详细地阐述了实施方式的一个或多个示例。根据说明书和附图以及权利要求书,其它特征将是显而易见的。在本说明书中描述的不落入独立权利要求的范围内的实施例和/或示例以及特征(如果有的话)将被解释为对理解本发明的各种实施例有用的示例。
附图说明
下面将参照附图仅以示例的方式描述本发明的示例性实施例,在附图中:
图1示出了图像和声音装置的示例性实施例;
图2示出了实况视频捕获的示例;
图3示出了应用于实况视频捕获的CAF操作的示例;
图4示出了应用于已经通过CAF操作进行视听操纵的视频的音频缩放的示例;
图5示出了将修改后的音频缩放应用于包括先前音频操纵的视频的示例;
图6示出了在其中可以将音频缩放应用于具有至少一个与CAF 操作的替换空间段中的视听对象相似的视听对象的空间段的示例;以及
图7示出了处理空间视听表示的方法的流程图的示例。
具体实施方式
以下实施例是示例性的。尽管说明书可以在文本的几个位置中提及“一”、“一个”或“一些”实施例,但是这不一定意味着每个参考都指向相同的实施例,或者特定特征仅适用于单个实施例。不同实施例的单个特征也可组合以提供其它实施例。
如在本申请中所使用的,术语“电路”是指以下所有项:(a) 仅硬件电路实施方式,例如仅在模拟和/或数字电路中的实施方式,以及(b)电路和软件(和/或固件)的组合,例如(如适用):(i)处理器的组合或(ii)处理器/软件的部分,包括数字信号处理器,软件和存储器,它们一起工作以使装置执行各种功能,以及(c)电路,诸如微处理器或微处理器的一部分,它们需要软件或固件来操作,即使软件或固件不是物理存在的。“电路”的这个定义适用于本申请中这个术语的所有使用。作为另一示例,如本申请所使用,术语“电路”还将涵盖仅一个处理器(或多个处理器)或处理器的一部分及其(或它们)伴随软件和/或固件的实施方式。例如并且如果适用于的话,术语“电路”还将涵盖特定元件、用于移动电话的基带集成电路或应用处理器集成电路或服务器、蜂窝式网络设备或另一网络设备中的相似集成电路。电路的上述实施例也可以被认为是提供用于执行本文档中描述的方法或过程的实施例的部件的实施例。
图1示出了应用本文所述实施例的图像和声音装置10的示例性实施例。图像和声音装置10的示例性实施例是订户单元、用户设备、用户装备(UE)、用户终端、图像和声音装置、移动站、移动设备、具有或不具有无线数据通信部件的数码相机等。
图像和声音装置10还可以被称为移动或静态设备(例如,便携式或非便携式计算设备),其可以包括与或不与通用订户识别模块 (USIM)一起操作的无线移动通信设备,包括但不限于以下类型的设备:移动电话、智能电话、个人数字助理(PDA)、手机,使用无线调制解调器的设备(报警或测量设备等)、膝上型和/或触摸屏计算机、平板电脑、游戏控制台、笔记本和多媒体设备。应当理解,图像和声音装置10也可以是几乎唯一的仅上行链路设备,其示例是向网络加载图像或视频剪辑的照相机或摄像机。图像和声音装置10还可以是具有在物联网(IoT,Internet of Things)网络中操作的能力的设备,所述物联网网络是一种场景,其中对象被提供有在网络上传送数据的能力,而不需要人对人或人对计算机的交互,其例如在智能电网和连接的车辆中使用。图像和声音装置10还可以利用云。在一些应用中,设备可以包括具有无线电部件的用户便携式设备(诸如手表、耳机或眼镜),并且在云中执行计算。
应当理解,这里将图像和声音装备10描述为说明一些实施例的示例。对于本领域技术人员显而易见的是,图像和声音装置10还可以包括其他功能和/或结构,并且不需要所有描述的功能和结构。尽管已经将图像和声音装置10描述为一个实体,但是可以在一个或多个物理或逻辑实体中实现不同的模块和存储器。
图像和声音装置10包括数据处理和控制电路(PROS)100,其被配置为处理视听数据并且控制对图像和声音装置10的操作的至少一部分。
图像和声音装置10可以包括用于存储数据的存储器(MEM)102。此外,存储器可以存储可由控制电路100执行的软件(PROG)104。存储器可以集成在控制电路中。
图像和声音装置10可以包括一个或多个接口电路106、108。接口电路可操作地连接到控制电路100。接口电路(RF)106可以是一组收发器,其被配置为与RAN节点,例如无线通信网络的(e/g)节点B通信,或者利用侧行链路通信与图像和声音装置通信。接口电路可以连接到天线布置(未示出)。图像和声音装置10还可以包括到发射器而不是收发器的连接。用户接口(UI)108可以包括以下中的一者或多者:键盘、鼠标、触摸屏等。
在一个实施例中,图像和声音装置10可以包括一个或多个图像形成光学组件110和图像传感器112。所述一个或多个光学组件110 可以包括例如用于在图像传感器112上形成实像的一个或多个成像透镜,图像传感器112将其上的实像转换成电信号并且将该电信号馈送到数据处理和控制电路100。一个或多个成像光学组件110可以包括至少一个具有正光焦度的透镜,即,其可以使用以屈光度测量的正值来表示。可以使用对应的反射镜来代替这种透镜。
用户接口108可以与以下中的至少一者连接:一个或多个扬声器 (SP)114、用于耳机的连接器116和/或用于呈现音频表示的至少一个扬声器。用户接口108还可以与用于从环境接收音频信号的空间麦克风(MIC)118连接。
例如,双耳音频表示可以通过使一对麦克风以与人的耳朵之间的距离相似的距离彼此隔开来形成。双耳空间音频表示也可根据其它已知方法来捕获或记录。
利用至少四个心形麦克风和/或全向麦克风等,可以形成双耳或基于对象的形式的空间音频表示,尽管也可以具有利用三个麦克风的空间音频表示。所述至少四个麦克风指向不同的方向,从而覆盖例如4π个立体角的半球或全球。双耳形式可以被转换成基于对象的音频表示,反之亦然。因此,任何空间音频表示都是可能的。捕获、记录和 /或生成空间音频表示本身存在多种已知的可能性,因此在本文中不需要详细讨论这种解决方案。
因为音频表示是空间的,所以它也可以以双耳或基于对象的形式呈现。对于耳机,可以以双耳形式记录和/或重放音频表示。对于扬声器,可以以基于对象的形式记录和/或重放音频表示。
音频缩放是相对于其它方向放大来自一个方向的声音的音频处理。它可以使用许多不同的已知方法来实现,例如波束形成或空间滤波。通常,三个麦克风使得使用由麦克风限定的平面中的缩放成为可能,而不在单个平面中的四个麦克风使得在所有方向上的缩放成为可能。
可以使用已知的方法来创建经空间缩放的声音,例如通过波束形成到期望的方向并且使用从麦克风信号分析得到的元数据来空间化经波束形成的信号。元数据可以包括方向和直接到环境的比率。
用户接口108可以包括触摸屏和/或屏幕以及键盘,用于呈现和控制也可以是空间的视觉表示的呈现。
在一个实施例中,用户接口108不必包括诸如一个或多个光学组件110和图像传感器112以及空间麦克风118的记录工具。
在一个实施例中,软件104可以包括计算机程序,该计算机程序包括适于利用图像和声音装置10的组件使图像和声音装置10的控制电路100实现在本文中描述的至少一些实施例的计算机程序代码部件。
图像和声音装置10可以实现为电子数字计算机,处理系统或可以包括工作存储器(随机存取存储器,RAM)、中央处理单元(CPU) 和系统时钟的电路。CPU可以包括一组寄存器、算术逻辑单元和控制器。处理系统、控制器或电路通过从RAM传送到CPU的程序指令序列控制。控制器可以包含用于基本操作的多个微指令。微指令的实施方式可以根据CPU设计而变化。计算机程序指令可以通过编程语言编码,编程语言可以是高级编程语言,例如C、Java等,或低级编程语言,例如机器语言或汇编语言。电子数字计算机还可以具有操作系统,该操作系统可以向写有程序指令的计算机程序提供系统服务。
图像和声音装置10被配置为使得对图像和声音装置的空间视听表示进行音频处理。空间视听表示可以是实况的,或者空间视听表示可以从记录再现。空间视听表示可以早先被记录在图像和声音装置10 的存储器中,或者例如图像和声音装置10可以从数据库下载所述记录。
音频处理可涉及例如像移动音频环境的部分或在某些方向上执行音频缩放以研究场景的特征。音频处理还可以指频率滤波或变化和 /或频率摆动,例如以振荡方式对音频进行音调移位。随后的音频处理可能导致经预先处理的扇区的音频信号的相对放大、扩大和/或失真,这可能在没有修改的情况下产生令人讨厌的音频特征。
图像和声音装置10因此被配置成响应于关于基于在空间视听表示的经操纵的空间段中进行数据处理的先前视听操纵的信息来修改被应用于所述空间视听表示的所述经视听操纵的空间段的所述音频处理。
接下来,使用音频缩放作为示例来解释音频处理的修改。然而,显然当使用其它类型的音频处理时也可以应用相同的原理。
图像和声音装置10使音频缩放被应用于图像和声音装置10的空间视听表示。视听表示是指具有音频分量和视觉分量两者的电子媒体。这里,术语“缩放”又指相比空间音频表示的另一扇区或除该扇区之外的其他扇区更偏好某一扇区的操作。音频缩放可以意味着被观察的扇区从原始音频表示变窄。音频缩放导致经缩窄的被观察的扇区的音频信号的相对放大或扩大。音频缩放类似于视觉表示(即静止图像或视频图像)的光学缩放或数字缩放。
类似于任何其它音频处理,音频缩放的应用可以在用户控制下执行。这里,用户可以是通过如图2到6所示的用户接口108或通过有线或无线连接使用图像和声音装置10的人。作为备选,用户可以是例如被包括在图像和声音装置10内或通过有线或无线连接与图像和声音装置10通信的诸如人工智能(AI)的机器。
然后,图像和声音装置10响应于关于在空间视听表示的经视听操纵的空间段204中进行数据处理的先前视听操纵的信息,修改应用于空间视听表示的所述经视听操纵的空间段204的音频缩放。
现在检查图2至图6的示例性情形如何利用到经视听操纵的空间段的音频处理的修改。
在图2的示例中,用户200正在使用图像和声音装置10捕获具有空间音频的实况视频。用户可能在公园中,并且用户的朋友,其作为空间段202中的空间表示的期望的视听对象202',例如正在使用对半切开的橙子来覆盖他的眼睛来搞怪(其讲话的内容用WHASSUUP!标记)。用户认为这是用于他广受欢迎的YouTube频道的一些高质量内容!然而,背景中的商人正在他的移动电话上大声讲话(讲话内容用I NEED THAT ASAP标记)。因此,他是要被操纵的、视频中不想要的视听对象204',以便减少对期望的视听对象202'的干扰。这是因为这种扰乱是非常不期望的(并且还可能涉及隐私问题)。从用户的观点来看,该空间表示中的商人可以被认为是该空间表示的不想要的视听对象204'。还可能有一些鸟在灌木丛后面鸣叫,但这不一定是一种麻烦。
例如,用户通过用户接口108指示干扰的和/或不想要的视听对象 204'是不想要的并且应当被修改,其中质量恶化的视听对象确实是干扰的和/或是不必要的特征由用户200决定。例如,用户200可以选择不想要的视听对象204',由此使得空间视听表示的不想要的视听对象 204'的空间段准备好被操纵。该选择可以通过利用用户接口108来执行,使得例如用手指在触摸屏上描绘不想要的视听对象204'。然后,图像和声音装置10的图像和音频处理可以操纵不想要的视听对象 204',使得不想要的视听对象204'被全部或部分地移除,或者被其它东西替换。在类似于该示例的实施例中,很清楚的是,图像和声音装置10可以从用户接口108接收关于所述经操纵的空间段204中的先前视听操纵的信息。
对不想要的视听对象204'的空间段的操纵可以通过诸如CAF(内容感知填充)功能之类的计算机程序来执行,CAF功能可以利用来自所捕获的帧的适当内容来填充视频中的不想要的视听对象204'的段或者移除该空间段。因此,具有不想要的视听对象的空间段204'变成经视听操纵的空间段204。这里,经视听操纵的空间段204可以指包括不想要的视听对象204'的球面坐标系的扇区,或者经操纵的空间段204可以指不想要的视听对象204'本身。有时实际上可能操纵至少比仅不想要的视听对象204'稍大的区域。例如,不想要的视听对象204' 的边界可能需要一些调整操纵。因此,视听表示可以是或可以被包括在视频的媒体内容中,其中,被视听操纵的对象204'是或者被包括在经操纵的空间段204中。
图像和声音装置10的CAF命令可以从也具有音频内容的诸如照片和视频的视听表示中移除不想要的和/或干扰的对象。通常,通过环绕区域来选择不想要的对象,并且视听过程将操纵对象和/或包括不想要的对象的所选空间段以使得不想要的对象被消除掉。对不想要的对象的选择用作关于在所述经操纵的空间段204中进行数据处理的先前视听操纵的信息,因为它明确地定义了操纵的位置。
在图3中示出了其示例的实施例中,用户200可能希望移除不想要的视听对象204',在该示例中不想要的视听对象是背景中干扰的商人。然后,CAF功能可以分析周围区域,并且例如用“空”区域填充经操纵的空间段204。在这种情况下,CAF可以从帧的左手侧找到良好匹配的替换段206。该示例中的替换段206包括灌木丛。
用于使得对空间视听表示进行音频缩放的部件还可以在与视觉操纵相同的方向上或在对应的扇区中操纵大声商人的不想要的音频,使得不会出现来自不想要的视听对象204'的音频。结果可能是用户听到他的朋友以及鸟鸣。然而,大声商人的一些音频残余仍然存在。在图3中用MUMBLE MUMBLE ASAP标记的不想要的音频残余通常由于其它音频声音和话音而几乎听不见,并且如果用户不进行进一步的处理,例如在视听表示上的音频缩放,则残余的级别很低。然而,如果用户现在对视频进行诸如音频缩放等的进一步处理,则存在问题,因为该进一步处理可能放大残余并且它们变得可听见,这可能是令人烦恼和/或不舒适的。
图4示出了一个示例性实施例,其中,现有技术的音频缩放针对视听表示中用标记箭头示出的三个不同段。用标记为数字1的箭头标记的第一段位于期望的视听对象202'的左侧。音频信号包括鸟鸣的声音(用音符标记)和期望的视听对象音频:WHASSUUP!,当音频缩放针对用具有数字2的箭头标记的段并且期望的视听对象202'在该段时,更大的WHASSUUP!可听见。最后,当音频缩放针对用具有数字3的箭头标记的经视听操纵的空间段204时,WHASSUUP!和大声商人的语音的残余(MUMBLE MUMBLE ASAP)两者可以被听到,从而对视听表示的用户体验造成负面影响。由于CAF操作,MUMBLE MUMBLE ASAP实际上可能或多或少地失真。
图5示出了其中利用若干应用方式中的至少一种将经修改的音频缩放应用于视听表示的示例性实施例。
在实施例中,响应于关于在所述经操纵的空间段204中进行的先前视听操纵的信息,音频处理可以以第一应用方式被应用于空间视听表示的经操纵的空间段204。然后可以以第二应用方式将音频处理应用于与该视听操纵无关的空间段,第二应用方式不同于第一应用方式。例如,第一应用方式和第二应用方式在放大方面可以彼此不同。当音频处理被应用于经视听操纵的空间段204时,音频信号的放大可以低于未经视听操纵的视听段的放大。在实施例中,经视听操纵的空间段204的放大范围小于未经视听操纵的视听段的放大范围。
在实施例中,可以以第一应用方式将音频处理应用于空间视听表示的经操纵的空间段204,并且以第二应用方式将音频处理应用于所述经操纵的空间段204的周围。
这些应用方式意味着在音频处理中经操纵的空间段204不同于空间视听表示的未经操纵的段被处理,这可以允许减少由先前的视听操纵引起的可听残余。
在实施例中,限制将音频缩放应用到所述经操纵的空间段204。根据该应用方式,响应于关于先前视听操纵的信息,例如经操纵的空间段204中的CAF修改,可以防止在经操纵的空间段204中应用音频缩放。然而,允许将音频缩放操作应用于空间视听表示的、与关于所述一个或多个空间段中的先前视听操纵的信息不关联的一个或多个空间段。
在实施例中,响应于关于所述经操纵的空间段204中的先前视听操纵的信息,可以将音频缩放应用于未经视听操纵的空间段,而不是所述经操纵的空间段204。也就是说,可以在CAF替换方向上应用音频缩放,即音频缩放针对替换经操纵的空间段204的替换段206,并且在视觉表示中也用来代替经操纵的空间段204。因此,没有先前视听操纵的空间段是具有用于替换经视听操纵的段204的音频源的音频源的空间段。
在第三应用方式中,当将音频缩放应用于所述经操纵的空间段 204时,可以将音频缩放应用于具有期望的视听对象202'但没有不期望的视听对象204'的段。即,音频缩放被应用于CAF源中的音频方向,即,以不想要的视听对象204'为代价,音频缩放被定向为朝向期望的视听对象202',并且从该音频缩放方向播放该音频缩放。
在第四应用方式中,其示例在图6中示出并且可以被认为是第二应用方式的子特征,音频缩放可以被应用于具有至少一个与替换段 206中的视听对象相似的视听对象的空间段208。
在实施例中,用户200可以利用移动设备进行视频捕获,或者例如可以使用360度视频捕获设备。因此,视频的视觉空间表示的范围可以不同于音频空间表示,并且例如CAF源区域在一些情况下可以在用户的当前观察点之外。音频通常是空间的,因此至少需要理解音频接收相对于视频捕获的视场的方向。也就是说,音频和视频的坐标系应当具有已知的关系,或者它们应当使用具有共同原点的相同坐标系。
例如,用户200可以摇摄,使得用户200首先在第一方向上指向图像和声音装置10,然后转向第二方向上的感兴趣的期望视听对象 202'。因此,为了移除不想要的对象,系统可以基于在不同方向上过去拍摄的先前帧找到比当前捕获帧中更合适的CAF源段,即更合适的替换空间段208。类似地,如果动作被后处理,则这可以在将来的帧中找到。这是为什么向用户提供关于CAF来源方向的信息可以是有用的另一个示例。注意,在一些捕获中,例如像某些移动捕获,该区域可能在当前视野之外。
在实施例中,音频处理和图像处理被联合地应用于视听表示。这意味着当视觉表示的某一扇区被缩放(或以其他方式被处理音频)时,也即在缩放中视场被变窄/加宽时,从其接收音频信号的扇区的音频听场被类似地和同步地变窄/加宽(或以其他方式被处理)。
这三种备选应用方式具有不同的优点。当图像和声音装置不在移除内容的方向上应用音频缩放或其它音频处理时,用户听不到音频的改变。这减轻或消除了残余的问题。
当图像和声音装置在CAF源内容的方向上应用音频缩放或其他音频处理时,在所呈现的示例中,用户更好地听到灌木丛中的鸟,因为这个第二方向对应于CAF源内容的方向。残余的问题再次被解决并且用户听到对音频缩放请求的清楚响应。该响应也是有意义的,因为它向用户提供关于内容的更多信息。例如,灌木丛涉及鸟鸣。以这种方式,还可以避免音频源的重复。
当图像和声音装置在CAF源的方向上对内容应用音频缩放或其它音频处理并且从音频缩放的方向播放它时,在这种情况下用户将更好地听到鸟鸣,并且这些声音将好像来自音频缩放的方向。因此,在这种情况下也避免了残余的问题,并且响应是良好且自然的。
图7是测量方法的流程图。在步骤700中,使得对空间视听表示进行音频处理。在步骤702中,响应于关于在空间视听表示的经操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于所述经操纵的空间段的音频处理。
在本文件和附图中描述的步骤和相关功能不是绝对的时间顺序,并且一些步骤可以同时执行或以不同于给定步骤的顺序执行。也可以在步骤之间或在步骤内执行其它功能。一些步骤也可以省略或用相应的步骤替换。
实施例提供了一种包含在分发介质上的计算机程序,该计算机程序包括程序指令,这些程序指令在被加载到电子装置中时被配置成控制该装置至少执行以下各项:使得对图像和声音装置的空间视听表示进行音频处理,以及响应于关于在所述空间视听表示的经操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于所述经视听操纵的空间段的音频处理。
实施例提供了一种非瞬态计算机可读介质,该非瞬态计算机可读介质包括用于使一个装置执行至少以下各项的程序指令:使得对图像和声音装置的空间视听表示进行音频处理,以及响应于关于在空间视听表示的经操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于所述经视听操纵的空间段的音频处理。
实施例提供了一种计算机可读介质,该计算机可读介质包括用于使一个装置执行至少以下各项的程序指令:所述对图像和声音装置的空间视听表示的音频处理,以及响应于关于在所述空间视听表示的经操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于所述经视听操纵的空间段的音频处理。
计算机程序可以是源代码形式,目标代码形式或某种中间形式,并且它可以存储在某种载体中,该载体可以是能够承载程序的任何实体或设备。这种载体例如包括记录介质,计算机存储器,只读存储器和软件分发包。根据所需的处理能力,计算机程序可以在单个电子数字计算机中执行,或者可以分布在几个计算机中。
该装置还可以实现为一个或多个集成电路,例如专用集成电路 ASIC。其它硬件实施例也是可行的,例如由分离的逻辑组件构成的电路。这些不同实施方式的混合也是可行的。当选择实施方式的方法时,本领域技术人员将考虑例如为装置的尺寸和功耗、必要的处理能力、生产成本和生产量设置的要求。
对于本领域技术人员显而易见的是,随着技术的进步,本文件中提出的概念可以以各种方式实现。本发明及其实施例不限于上述示例性实施例,而是可以在权利要求的范围内变化。
Claims (15)
1.一种用于音频处理的装置,包括用于以下的部件:
使得对图像和声音装置的空间视听表示进行音频处理,所述空间视听表示是实况的或从记录再现的;以及
响应于关于在所述空间视听表示的经视听操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于所述经视听操纵的空间段的所述音频处理。
2.根据权利要求1所述的装置,其中用于修改所述音频处理的所述部件被配置为:
响应于关于所述经操纵的空间段中的所述先前视听操纵的所述信息,使所述音频处理以第一应用方式被应用于所述空间视听表示的所述经操纵的空间段,并且使所述音频处理以第二应用方式被应用于所述空间视听表示的与在所述音频处理之前被执行的所述视听操纵不关联的空间段,所述第一应用方式和所述第二应用方式彼此不同。
3.根据权利要求2所述的装置,其中用于修改所述音频处理的所述部件被配置为:
使所述音频处理以所述第一应用方式被应用于所述空间视听表示的所述经视听操纵的空间段,并且使所述音频处理以所述第二应用方式被应用于所述经操纵的空间段的周围。
4.根据权利要求1或2所述的装置,其中用于修改所述音频处理的所述部件被配置为:
限制所述音频处理到所述经视听操纵的空间段的所述应用。
5.根据权利要求4所述的装置,其中限制所述音频处理被应用于所述经操纵的空间段包括:
响应于关于所述经操纵的空间段中的所述先前视听操纵的所述信息,防止所述音频处理被应用于所述空间视听表示的所述经视听操纵的空间段,以及
允许所述音频处理被应用于所述空间视听表示的一个或多个空间段,所述一个或多个空间段与关于所述一个或多个经操纵的空间段中的所述先前视听操纵的所述信息不关联。
6.根据权利要求1或2所述的装置,其中用于修改所述音频处理的所述部件被配置为:
使所述音频处理被应用于所述空间视听表示的、替换所述经视听操纵的空间段的空间段。
7.根据权利要求1或2所述的装置,其中当将所述音频处理引导到所述经视听操纵的空间段时,用于修改所述音频处理的所述部件被配置为:
使所述音频处理被应用于未进行所述先前视听操纵的空间段,而非所述经视听操纵的空间段。
8.根据权利要求7所述的装置,其中没有所述先前视听操纵的所述空间段是具有用于替换所述经视听操纵的段的音频源的音频源的空间段。
9.根据权利要求7所述的装置,其中用于修改所述音频处理的所述部件被配置为:
使所述音频处理和图像处理被联合地应用于所述空间视听表示。
10.根据权利要求1或2所述的装置,其中用于修改所述音频处理的所述部件被配置为:
从所述装置的用户接口接收关于所述经视听操纵的空间段中的所述先前视听操纵的所述信息。
11.根据权利要求1或2所述的装置,其中所述音频处理包括音频缩放。
12.根据权利要求1或2所述的装置,其中所述视听表示是视频的媒体内容或者被包括在所述视频的媒体内容中,其中经视听操纵的对象是所述经视听操纵的空间段或者被包括在所述经视听操纵的空间段中。
13.根据权利要求1或2所述的装置,所述装置包括一个或多个处理器;以及
包括计算机程序代码的一个或多个存储器;
所述一个或多个存储器和所述计算机程序代码被配置为与所述一个或多个处理器一起使得所述装置至少使得对所述图像和声音装置的所述空间视听表示进行音频处理;以及
响应于关于在所述空间视听表示的经视听操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于所述空间视听表示的所述经视听操纵的空间段的所述音频处理。
14.一种用于音频处理的方法,包括:
使得对空间视听表示进行音频处理,所述空间视听表示是实况的或从记录再现的;以及
响应于关于在所述空间视听表示的经视听操纵的空间段中进行数据处理的先前视听操纵的信息,修改被应用于所述空间视听表示的所述经视听操纵的空间段的所述音频处理。
15.根据权利要求14所述的方法,其中使得对所述空间视听表示进行音频处理包括以下一项或多项:
限制所述音频处理针对所述经视听操纵的空间段的所述应用,
使所述音频处理被应用于替换所述经视听操纵的空间段的空间段,以及
使所述音频处理被应用于未进行所述先前视听操纵的空间段,而非所述经视听操纵的空间段。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21172181.6 | 2021-05-05 | ||
EP21172181.6A EP4087263A1 (en) | 2021-05-05 | 2021-05-05 | Image and audio apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115314653A true CN115314653A (zh) | 2022-11-08 |
Family
ID=75825471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210475354.6A Pending CN115314653A (zh) | 2021-05-05 | 2022-04-29 | 图像和音频装置及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220360925A1 (zh) |
EP (1) | EP4087263A1 (zh) |
CN (1) | CN115314653A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150373474A1 (en) * | 2014-04-08 | 2015-12-24 | Doppler Labs, Inc. | Augmented reality sound system |
US20180341455A1 (en) * | 2017-05-25 | 2018-11-29 | Motorola Mobility Llc | Method and Device for Processing Audio in a Captured Scene Including an Image and Spatially Localizable Audio |
CN111344785A (zh) * | 2018-10-02 | 2020-06-26 | 韩国电子通信研究院 | 在虚拟现实使用音频放大效果的音频信号控制方法及装置 |
EP3683794A1 (en) * | 2019-01-15 | 2020-07-22 | Nokia Technologies Oy | Audio processing |
WO2020193851A1 (en) * | 2019-03-25 | 2020-10-01 | Nokia Technologies Oy | Associated spatial audio playback |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102447993A (zh) * | 2010-09-30 | 2012-05-09 | Nxp股份有限公司 | 声音场景操纵 |
KR20160005695A (ko) * | 2013-04-30 | 2016-01-15 | 인텔렉추얼디스커버리 주식회사 | 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법 |
EP3930350A1 (en) * | 2020-06-25 | 2021-12-29 | Sonova AG | Method for adjusting a hearing aid device and system for carrying out the method |
-
2021
- 2021-05-05 EP EP21172181.6A patent/EP4087263A1/en active Pending
-
2022
- 2022-04-28 US US17/731,526 patent/US20220360925A1/en active Pending
- 2022-04-29 CN CN202210475354.6A patent/CN115314653A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150373474A1 (en) * | 2014-04-08 | 2015-12-24 | Doppler Labs, Inc. | Augmented reality sound system |
US20180341455A1 (en) * | 2017-05-25 | 2018-11-29 | Motorola Mobility Llc | Method and Device for Processing Audio in a Captured Scene Including an Image and Spatially Localizable Audio |
CN111344785A (zh) * | 2018-10-02 | 2020-06-26 | 韩国电子通信研究院 | 在虚拟现实使用音频放大效果的音频信号控制方法及装置 |
EP3683794A1 (en) * | 2019-01-15 | 2020-07-22 | Nokia Technologies Oy | Audio processing |
WO2020193851A1 (en) * | 2019-03-25 | 2020-10-01 | Nokia Technologies Oy | Associated spatial audio playback |
Also Published As
Publication number | Publication date |
---|---|
EP4087263A1 (en) | 2022-11-09 |
US20220360925A1 (en) | 2022-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102175602B1 (ko) | 다수의 마이크로폰들을 통한 오디오 포커싱 | |
US9927948B2 (en) | Image display apparatus and image display method | |
CN111724823B (zh) | 一种信息处理方法及装置 | |
CN108377342B (zh) | 双摄像头拍照方法、装置、存储介质及终端 | |
CN112686824A (zh) | 图像校正方法、装置、电子设备和计算机可读介质 | |
US10993067B2 (en) | Apparatus and associated methods | |
CN110120229B (zh) | 虚拟现实vr音频信号的处理方法及相应设备 | |
US20170188140A1 (en) | Controlling audio beam forming with video stream data | |
JP7439131B2 (ja) | 空間オーディオをキャプチャする装置および関連する方法 | |
CN111311588B (zh) | 重定位方法及装置、电子设备和存储介质 | |
CN116301530A (zh) | 虚拟场景处理方法、装置、电子设备及存储介质 | |
CN114630057A (zh) | 确定特效视频的方法、装置、电子设备及存储介质 | |
US11109151B2 (en) | Recording and rendering sound spaces | |
US20220256068A1 (en) | Dual exposure control in a camera system | |
EP4087263A1 (en) | Image and audio apparatus and method | |
US20140267870A1 (en) | Mixed media from multimodal sensors | |
CN115514895B (zh) | 图像防抖方法、装置、电子设备和计算机可读存储介质 | |
US20220232164A1 (en) | Photographing device, control method thereof, and movable platform | |
JP2023513318A (ja) | マルチメディアコンテンツ | |
WO2023005450A1 (zh) | 图像处理方法、装置、终端及存储介质 | |
JP2024533078A (ja) | ユーザ電気信号に基づくオーディオ調整 | |
EP3734966A1 (en) | An apparatus and associated methods for presentation of audio | |
CN118413803A (zh) | 获得用于捕获空间音频的校准数据 | |
CN117880731A (zh) | 一种音视频录制方法、装置及储存介质 | |
CN114449341A (zh) | 音频处理方法、装置、可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |