CN104935913A - 处理多个装置采集的音频或视频信号 - Google Patents

处理多个装置采集的音频或视频信号 Download PDF

Info

Publication number
CN104935913A
CN104935913A CN201410108005.6A CN201410108005A CN104935913A CN 104935913 A CN104935913 A CN 104935913A CN 201410108005 A CN201410108005 A CN 201410108005A CN 104935913 A CN104935913 A CN 104935913A
Authority
CN
China
Prior art keywords
mancarried device
signal
video
array
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410108005.6A
Other languages
English (en)
Other versions
CN104935913B (zh
Inventor
孙学京
吕陶然
尹鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201410108005.6A priority Critical patent/CN104935913B/zh
Priority to US14/658,565 priority patent/US20150271619A1/en
Publication of CN104935913A publication Critical patent/CN104935913A/zh
Application granted granted Critical
Publication of CN104935913B publication Critical patent/CN104935913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明内容的实施方式涉及对由多个装置采集的音频或视频信号的处理。一种用于处理视频和音频信号的设备包括估计单元和处理单元。估计单元可以至少基于分别由布置成阵列的便携式装置的至少之一采集的至少一个视频或音频信号来估计阵列的至少一个方面。处理单元可以将至少基于视频的方面应用于通过所述阵列生成环绕声信号的过程,或将至少基于音频的方面应用于通过所述阵列生成组合视频信号的过程。通过交叉参照可视或声学线索,能够实现在生成音频或视频信号方面的改进。

Description

处理多个装置采集的音频或视频信号
技术领域
本申请涉及音频与视频信号处理。更具体地,本发明的实施方式涉及对多个装置所采集的音频或视频信号进行处理。
背景技术
人们已经熟知麦克风和摄像机是用于采集音频和视频信号的装置。已经提出了各种技术来改善对所采集的音频或视频信号的呈现。在这些技术中的一些技术中,设置多个装置来记录同一事件,并且对装置所采集的音频或视频信号进行处理以改善对该事件的呈现。这样的技术的示例包括环绕声、三维(3D)视频和多视点视频。
在环绕声的示例中,在阵列中设置多个麦克风来记录事件。通过麦克风采集音频信号并且将音频信号处理成与从多个重合麦克风获取的输出等效的信号。重合麦克风是指具有相同或不同方向特征但位于相同位置的两个或更多个麦克风。
在3D视频的示例中,布置有两个摄像机来记录事件,以针对每个帧生成分别呈现给观看者的左眼和右眼的两个偏移图像。
在多视点视频的示例中,在场景周围布置若干个摄像机来采集使得能够从任何角度对该场景进行高品质呈现所需的视图。一般地,所采集的视图通过多视点视频压缩(MVC)进行压缩以便传输。从而,观看者的观看装置可以访问相关视图以内插出新的视图。
发明内容
根据本公开内容的一个实施方式,用于处理视频和音频信号的设备包括估计单元和处理单元。估计单元可以至少基于分别由布置成阵列的便携式装置的至少之一采集的至少一个视频或音频信号来估计所述阵列的至少一个方面。处理单元可以将所述至少基于视频的方面应用于通过所述阵列生成环绕声信号的过程,或将所述至少基于音频的方面应用与通过所述阵列生成组合视频信号的过程。
根据本公开内容的一个实施方式,用于生成环绕声信号的系统包括不止一个便携式装置和处理装置。便携式装置被布置成阵列。便携式装置之一包括估计单元。估计单元可以从由便携式装置采集的视频信号中识别与所述不止一个便携式装置中的至少一个其它便携式装置对应的至少一个可视对象。此外,估计单元可以基于所识别的可视对象来确定所述便携式装置与所述不止一个便携式装置中的所述至少一个其它便携式装置之间的至少一个距离。处理装置可以基于所确定的距离来确定用于配置根据所述阵列采集的音频信号生成环绕声信号的过程进行配置的至少一个参数。
根据本公开内容的一个实施方式,便携式装置包括摄像机、测量单元和输出单元。测量单元可以从通过摄像机采集的视频信号中识别与至少一个其它便携式装置对应的至少一个可视对象。此外,测量单元可以基于所识别的可视对象来确定便携式装置之间的至少一个距离。所述距离可以通过输出单元来输出。
根据本公开内容的一个实施方式,用于生成3D视频信号的系统包括第一便携式装置和第二便携式装置。第一便携式装置可以采集第一视频信号。第二便携式装置可以采集第二视频信号。第一便携式装置可以包括测量单元和呈现单元。测量单元可以通过声学测距来测量第一便携式装置与第二便携式装置之间的距离。呈现单元可以呈现所述距离。
根据本公开内容的一个实施方式,用于生成高动态范围(HDR)视频或图像信号的系统包括不止一个便携式装置和处理装置。便携式装置可以采集视频或图像信号。处理装置可以根据视频或图像信号来生成HDR视频或图像信号。对于至少一对便携式装置中的每一对便携式装置,该对便携式装置之一可以包括测量单元,其能够通过声学测距来测量该对便携式装置之间的距离。处理装置可以基于所述距离来校正由该对便携式装置之间的位置差引起的几何失真。
根据本公开内容的一个实施方式,提供了一种处理视频和音频信号的方法。根据该方法,获取分别由在阵列中设置的便携式装置的至少之一采集的至少一个视频或音频信号。至少基于所述视频或音频信号来估计所述阵列的至少一个方面。然后,至少基于视频的方面被应用于通过所述阵列生成环绕声信号的过程,或至少基于音频的方面被应用于通过所述阵列生成组合视频信号的过程。
根据本公开内容的一个实施方式,提供了一种用于生成3D视频信号的方法。根据该方法,通过声学测距来测量第一便携式装置与第二便携式装置之间的距离。然后,呈现所述距离。
以下,参考附图来描述本发明的进一步的特征和优点,以及本发明的各种实施方式的结构与操作。需要注意的是本发明不限于本文中所描述的具体实施方式。本文中所提出的这些实施方式仅用于示例性目的。基于这里所包含的教示,另外的实施方式对相关领域的普通技术人员也是明显的。
附图说明
在附图的各图中,以示例性和非限制性的方式对本发明进行阐释,在附图中,类似的附图标记指代类似的元件,其中:
图1是用于说明根据本公开内容的一个实施方式的处理视频和音频信号的方法的流程图;
图2是用于说明根据本公开内容的一个实施方式的用于生成环绕声信号的示例阵列布置的示意图;
图3是用于说明根据本公开内容的一个实施方式的用于生成3D视频信号的示例阵列布置的示意图;
图4是说明根据本公开内容的一个实施方式的用于处理视频和音频信号的设备的结构的框图;
图5是说明根据该设备的进一步的实施方式的用于生成环绕声信号的设备的结构的框图;
图6是用于说明如图2所示的阵列的覆盖的示意图;
图7是用于说明根据本公开内容的一个实施方式的生成环绕声信号的方法的流程图;
图8是用于说明根据本公开内容的一个实施方式的生成环绕声信号的方法的流程图;
图9是用于说明根据本公开内容的一个实施方式的生成环绕声信号的方法的流程图;
图10是用于说明根据本公开内容的一个实施方式的用于生成环绕声信号的系统的结构的框图;
图11是用于说明根据本公开内容的一个实施方式的用于生成环绕声信号的方法的流程图;
图12是用于说明可视标记和视频信号的示例呈现的示意图;
图13是根据本公开内容的一个实施方式的用于生成环绕声信号的方法的流程图;
图14是用于说明根据本公开内容的一个实施方式的用于生成HDR视频或图像信号的系统的框图;以及
图15是说明用于实施本发明的各个方面的示例性系统的框图。
具体实施方式
下面参考附图描述本发明实施方式。应注意,为清楚起见,在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。
本领域的技术人员可以理解,本发明的各方面可以被实施为系统、方法或计算机程序产品。因此,本发明的各方面可以采取以下形式:完全硬件实施方式、完全软件实施方式(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施方式,本文可以一般地称之为“电路”、“模块”或“系统”。此外,本发明的各方面可以采取体现为一个或更多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上体现有计算机可读程序代码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。
计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施方式的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上,导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。
为了改善所记录的事件的呈现,设置多个装置来记录事件。一般地,在阵列中设置这些装置,并且基于该阵列的一个或更多个方面来处理所采集的音频或视频信号以生成预期结果。这些方面可以包括但不限于:(1)阵列中装置之间的相对位置关系,如装置之间的距离;(2)被记录对象与该阵列之间的相对位置关系,如被记录对象与该阵列之间的距离,以及该被记录对象相对于该阵列的位置;和(3)装置的参数,如装置的方向性以及所采集的信号的品质。
随着技术的发展,用于采集音频或视频信号的装置被合并至便携式装置如移动电话、平板电脑、媒体播放器和游戏控制器等中。一些便携式装置还配备了音频和/或视频处理能力。发明人认识到这样的便携式装置能够用作在阵列中布置的采集装置。但是发明人还认识到,由于大多数便携式装置通常不被设计成在阵列中安装,而是起初为手持用途而设计的,所以如果便携装置被布置成阵列,则会难以确定或控制阵列的相关方面。
图1是用于说明根据本公开内容的一个实施方式的处理视频和音频信号的方法100的流程图,其中为了应对这种困难,在视频或音频信号处理中交叉参照声学或可视线索。
如图1所示,方法100从步骤101开始。在步骤103处,获取至少一个视频或音频信号。通过在阵列中设置的便携式装置的至少之一来分别采集该信号。在步骤S105,至少基于该视频或音频信号来估计阵列的至少一个方面。在步骤S107,将至少基于视频的方面应用于通过阵列生成环绕声信号的过程,或将至少基于音频的方面应用于通过阵列生成组合视频信号的过程。然后,方法100在步骤109处结束。
取决于具体应用的需求,阵列可以包含各自用于采集音频信号、视频信号或音频信号和视频信号的任意多个便携式装置。对于每个应用,需求取决于如何生成用于呈现的音频或视频信号,并且决定形成用于记录事件的阵列的便携式装置的数量。影响生成过程的方面中的一些方面可以通过假设这些方面是可得到的和稳定的来预先设置或确定,而影响生成过程的方面中的其他方面可以基于包含在由便携式装置采集的音频或视频信号中的声学或可视线索来估计。为估计而获取的音频或视频信号的数量取决于要利用多少音频或视频线索来确定阵列的一个或更多个方面,或期望估计出的方面有多可靠。
图2是用于说明根据本公开内容的一个实施方式的用于生成环绕声信号的示例阵列布置的示意图。如图2所示,便携式装置201、202和203按照阵列布置来记录从被记录对象241发出的声音。作为记录的结果,分别位于便携式装置201、202和203中的摄像机211、212和213采集视频信号。这些视频信号被处理以作为一个方面来估计被记录对象241与阵列之间的相对位置关系。作为记录的另一个结果,分别位于便携式装置201、202和203中的麦克风221、222和223采集音频信号。可以对音频信号进行处理以在水平面上生成环绕声信号,例如,B格式的立体混响声(Ambisonics)信号。在生成过程中,估计的相对位置关系用于确定环绕声信号的标定前方。在这个示例中,立体混响声技术需要至少三个麦克风221、222和223,因而需要三个便携式装置201、202和203。可以基于便携式装置201、202和203的预期布置来预先设置或预先确定诸如麦克风221、222和223之间的相对位置关系的方面。相比以较高的可靠性基于由便携装置201、202和203采集的所有视频信号来估计被记录对象与阵列之间的相对位置关系,可以对由便携式装置201、202和203中的一部分采集的视频信号执行估计过程。尽管具有较低的可靠性,但是这仍然可以提供估计确切相对位置关系的机会。在该情况下,不需要在其他便携装置中包含用于估计的摄像机功能。
图3是用于说明根据本公开内容的一个实施方式的用于生成3D视频信号的示例布置的示意图。如图3所示,便携式装置301和302被按照阵列来布置以记录被记录对象341。便携式装置302包含发射用于声学测距的声音的扬声器332。便携式装置301包含采集用于声学测距的声音的麦克风321。可以测量分别位于便携式装置301和302的摄像机311与312之间的距离以作为声学距离。各种声学测距技术可用于此目的。一种示例技术可以在美国专利申请No.7,729,204中找到。可替代地,可以考虑便携式装置301与便携式装置302之间、摄像机311与麦克风321之间以及摄像机312与扬声器332之间的相对位置关系来补偿声学距离与摄像机311与摄像机312之间的实际距离之间的偏差。考虑到便携式装置301和302不是固定的,所以可以持续地或定期地对该距离进行测量。视频信号分别被摄像机311和摄像机312采集。在生成3D视频信时,基于距离对这些视频信号进行处理以随时保持3D视频的视差或深度一致性。在该示例中,3D视频技术需要两个摄像机311和摄像机312,因而需要两个便携式装置301和302。在该示例中,使用便携式装置301作为接收器来进行声学测距。此外,可以使用便携式装置301作为接收器进行另一次声学测距以改善测量的可靠性。
取决于具体的应用,获取由不同的便携式装置采集的音频或视频信号执行估计功能与应用功能。在该情况下,可以完全地或部分地将估计功能和应用功能之一或两者分配给便携式装置之一,或除了便携式装置以外的设备,例如服务器。
可以通过同步协议将来自不同的便携式装置的采集信号直接或间接地与公共时钟同步。例如,可以使用与公共时钟或与公共时钟有确定的偏差的本地时钟同步的时间戳来标记采集的信号。
图4是说明根据本公开内容的一个实施方式的用于处理视频和音频信号的设备400的结构的框图,其中估计功能与应用功能被分配给该设备。如图4所示,设备400包括估计单元401和处理单元402。估计单元401被配置成至少基于由不止一个便携式装置中的一些或全部采集的视频或音频信号来估计包含这些便携式装置的阵列的至少一个方面。处理单元402被配置成将至少基于视频的方面应用于通过该阵列生成环绕声信号的过程,或将至少基于音频的方面应用于通过该阵列生成组合视频信号的过程。
设备400可以被实施为阵列中的便携式装置之一(也称为主装置)。在该情况下,估计所需的视频或音频信号中的一些或全部可以由主装置采集,或可以由其他便携式装置采集并且传输至主装置。此外,生成所需并且由其他便携式装置采集的视频或音频信号可以直接或间接地传输至主装置。
设备400也可以被实施为除了阵列中的便携式装置以外的装置。在该情况下,估计所需的视频或音频信号可以直接或间接地被传输或传递至设备400,或设备400能够访问的任何位置。此外,生成所需并且由便携式装置采集的视频或音频信号可以直接或间接地被传输至设备400。
下面将分别结合环绕声、3D视频、高动态范围(HDR)视频或图像和多视点视频的应用来描述进一步的实施方式。
环绕声—管理标定前方(nominal front)
环绕声是一种利用来自环绕收听者的扬声器的额外的音频声道来丰富音频源的声音再现品质的技术。该技术增强对声音空间化的感知,从而能够通过利用收听者在方向和距离上识别所检测的声音的位置或来源的能力来提供沉浸式收听体验。在本公开内容的实施方式中,环绕声音信号可以通过以下方法来生成:(1)使用心理声学声音定位方法来处理音频以通过耳机来模拟二维(2D)声场;或(2)基于惠更斯原理来在收听空间内重构所记录的声场波前。也基于惠更斯原理的立体混响声是一种提供优异的声场和源定位可恢复性的有效的空间音频记录技术。将结合立体混响声技术来说明与环绕声信号的生成有关的具体实施方式。本领域的技术人员能够理解,还有其他环绕声技术可应用于本公开内容的实施方式。
在这些环绕声技术中,在生成环绕声信号时假设标定前方。在基于立体混响声的示例中,可以假设在以阵列的几何中心为原点的极坐标系统中标定前方为相对于该阵列的零方位角。在环绕声播放期间,来自标定前方的声音可以被收听者感知成来自他/她的前方。期望把目标声音源,例如舞台上的一个或更多个表演者感知为来自前方,因为这是最自然的收听状况。但是,由于便携式装置的阵列的自组织性质,布置便携式装置以建立或维持标定前方与目标声音源一致的状态会相当麻烦。例如,在如图2所示的阵列中,如果标定前方被假定为摄像机213的朝向,则来自被记录对象241的声音在环绕声播放期间不会被收听者感知成来自他/她的前方。
基于可视线索的实施方式
图5是说明根据设备400的进一步实施方式的用于生成环绕声信号的设备500的结构的框图。如图5所示,设备500包括估计单元501和处理单元502。
估计单元501被配置成根据由阵列通过记录事件来采集的至少一个视频信号来识别声音源,并且确定阵列相对于声音源的位置关系。在记录事件期间,阵列中的便携式装置中的一个或更多个可以采集至少一个视频信号。存在一个视频信号包含与目标声音源对应的一个或更多个可视对象的可能性。取决于阵列的布置和便携式装置中的能够工作以采集视频信号的摄像机的配置,如果阵列周围更多的场景被摄像机覆盖,则一个视频信号包含与目标声音源对应的一个或更多个可视对象的可能性较高。图6是用于示出如图2所示的阵列的覆盖的示意图。在图6中,方框651、652和653分别表示由位于便携式装置201、202和203中的成像装置采集的视频信号。在如图6所示的情形中,视频信号651包含与被摄对象241对应的可视对象661。可以利用通过视频信号提供的可能性来识别声音源。可以使用各种方法来根据视频信号识别声音源。
在一个进一步的实施方式中,估计单元501可以估计视频信号中的可视对象与由同一便携式装置采集的音频信号中的至少一个音频对象匹配的可能性,并且通过将视频信号中覆盖具有较高可能性的可视对象的区域看作与声音源对应来识别声音源。识别匹配的具体方法能够评估该可能性。例如,可以计算匹配的可靠性。
在一个示例中,估计单元501可以通过模式识别方法来识别与有可能作为声音源的被记录对象集合中的一个被记录对象匹配,即与音频信号中的一个或更多个音频对象匹配的可视对象(例如,可视对象661)。例如,该集合可以包含人类或乐器。音频对象也可以被分类成由各种类型的被记录对象如人类或乐器产生声音。与被记录对象集合中的一个被记录对象匹配的可视对象也称作特定可视对象。
在另一个示例中,基于有关可视对象或其中的运动可能指示声音源的能够引起发声活动的动作的观察,可以利用音频信号中的音频对象与视频信号中的可视对象之间的相关性来识别声音源。在该示例中,可以通过应用联合音频视频多模态对象分析来识别匹配。作为联合音频视频多模态对象分析的示例,可以使用在And H.Izadinia,I.Saleemi和M.Shah,"Multimodal Analysis for Identification and Segmentation ofMoving-Sounding Objects",IEEE Transactions on Multimedia中描述的方法。
可以从一个或多于一个的视频信号中识别匹配。在识别声音源时,可以只考虑具有较高(即,高于阈值)的可能性的匹配。如果存在不止一个具有较高可能性的匹配,则可以考虑具有最高可能性的匹配。
阵列的相对于声音源的位置关系可以表示声音源相对于阵列处于何处。在已知覆盖可视对象的区域相对于视频信号的图像区域的位置、摄像机的成像传感器的尺寸、摄像机的透镜系统的投影关系和阵列的布置的情况下,能够导出声音源的相对于阵列的位置(例如,方位角)。可替代地,视频信号中覆盖可视对象的区域可以被识别为总是覆盖视频信号的整个图像区域。在该情况下,声音源可以被识别为由采集视频信号的摄像机的朝向所指向,或被识别为被该摄像机所面向。
再参考图5,在生成与事件对应的环绕声信号的过程中,处理单元502还被配置成基于位置关系来将环绕声信号的标定前方设置到声音源的位置。如在上面所描述的,可以使用各种环绕声技术。生成具有指定的标定前方的环绕声信号的具体方法取决于所使用的环绕声技术。
根据立体混响声技术,环绕声信号是被称为B格式的、具有W-X-Y-Z声道的4声道信号。W声道包括全方向声压信息,而剩余的三个声道X、Y和Z表示在3D笛卡尔坐标系的三个相应轴上测量的速度信息。具体地,在给定位于方位角和仰角θ的声音源S的情况下,环绕声场的理想的B格式表示为:
W = 2 2 S
Z=sinθ·S
仅仅为了简单,在下面的讨论中,仅考虑水平的W、X和Y声道而将忽略高度轴Z。应当注意,在下面描述的构思也适用于高度轴Z不被忽略的情形。可以使用映射矩阵W来将由阵列中的便携式装置(例如,便携式装置201、202和203)采集的音频信号M1、M2和M3映射至W、X和Y声道,如下所示:
W X Y = W × M 1 M 2 M 3
映射矩阵W可以被预设,或可以与涉及阵列中麦克风之间的距离和阵列中麦克风之间的空间关系的麦克风拓扑结构相关联。拓扑结构可以通过包含麦克风之间的距离的距离矩阵来表示。可以通过多维度标度分析(MDS)或类似的过程来对距离矩阵进行降维。可以准备一组预定的拓扑结构,每个拓扑结构与预调节的映射矩阵相关联。如果已知麦克风的拓扑结构,则进行该拓扑结构与预定义的拓扑结构之间比较。例如,计算该拓扑结构与预定义的拓扑结构之间的距离。可以确定与该拓扑结构最佳地匹配的预定义的拓扑结构,并且可以使用与所确定的拓扑结构相关联的映射矩阵。
在一个进一步的实施方式中,每个映射矩阵可以与具体的频带相关联。在该情况下,可以基于拓扑结构和音频信号的频率来选择映射矩阵。
图7是用于说明根据本公开内容的一个实施方式的生成环绕声信号的方法700的流程图。
如图7所示,方法700从步骤701开始。在步骤703处,获取由阵列通过记录事件来采集的至少一个视频信号。在步骤705处,从所获取的视频信号中识别出声音源。在步骤707处,确定阵列的相对于声音源的位置关系。在步骤709处,基于该位置关系将根据阵列所采集的音频信号生成的环绕声信号的标定前方设置到声音源的位置。然后,方法700在步骤711处终止。
在方法700的一个进一步的实施方式中,可以通过以下处理来进行步骤705的识别:估计视频信号中的可视对象与由同一便携式装置采集的音频信号中的至少一个音频对象匹配的可能性,以及通过将视频信号中覆盖具有较高可能性的可视对象的区域看作与声音源对应来识别声音源。
可以通过模式识别方法来识别声音源。也可以利用音频信号中的音频对象与视频信号中的可视对象之间的相关性来识别声音源。例如,可以使用联合音频视频多模态对象分析。
如果没有摄像机覆盖目标声音源,或者如果未能基于可视线索足够准确地识别声音源,则需要额外的线索来定位目标声音源。
基于声学线索和可视线索的实施方式
在设备500的一个进一步的实施方式中,除了结合设备500描述的功能以外,估计单元501进一步被配置成基于用于生成环绕声信号的音频信号来估计声音源的到达方向(DOA),并且估计DOA的、声音源位于该DOA上的可能性(也称作基于音频的可能性)。可以使用像广义互相关-相位变换(GCC-PHAT)、转向响应功率-相位变换(SRP-PHAT)、多信号分类(MUSIC)的DOA算法,或任何其他适合的DOA估计算法。
存在不止一个较高的基于视频的可能性意味着不能确定主要的声音源。识别错误的声音源的可能性在该情形下会增大。不存在任何较高的基于视频的可能性意味着未能基于可视线索识别出声音源。在这两种情况下,可以使用声学线索来识别声音源。DOA是能够启示声音源的位置的声学线索。一般地,声音源可能位于由DOA指示的方向上,或位于该方向附近。
除了结合设备500所描述的功能之外,处理单元502还确定是否有不止一个较高的基于视频的可能性,或是否没有较高的基于视频的可能性。如果有不至一个的较高的基于视频的可能性或者没有较高的基于视频的可能性,则在基于音频的可能性较高的情况下,处理单元502基于当前标定前方和DOA来确定旋转角θ,并且旋转环绕声信号的声场,使得标定前方被旋转了该旋转角度。
在一个示例中,可以确定旋转角度θ,该旋转角度θ使得在旋转后环绕声信号的标定前方与由DOA表示的声音源一致。
在另一个示例中,可以基于来自随时间估计的DOA所指示的方向的能量来确定旋转角度θ,该旋转角度θ使得在旋转之后环绕声信号的标定前方与最主要的声音源一致。例如,可以通过最大化以下目标函数来求解旋转角度θ:
θ = arg max θ Σ n = 1 N E n cos ( θ n - θ )
其中θn和En分别表示所生成的环绕声信号的帧n的短期估计DOA和能量,并且在整个持续时间期间帧的总数量为N。
旋转方法取决于所使用的具体的环绕声技术。在立体混响声B格式的示例中,可以通过使用如下的标准旋转矩阵来实现声场旋转:
W ′ X ′ Y ′ = 1 0 0 0 cos ( θ ) - sin ( θ ) 0 sin ( θ ) cos ( θ ) W X Y
图8是用于说明根据本公开内容一个实施方式的生成声场信号的方法800的流程图。
如图8所示,方法800从步骤801开始。步骤803、805、807和809分别与步骤703、705、707和709具有相同的功能,并且将在这里不会对其进行详细的描述。在步骤811处,基于用于生成环绕声信号的音频信号来估计声音源的到达方向(DOA),并且估计对DOA的、声音源位于DOA上的可能性。在步骤813处,确定是否存在不止一个较高的基于视频的可能性,或是否没有较高的基于视频的可能性(即,较高的基于视频的可能性的数量是否不为1)。如果存在不止一个较高的基于视频的可能性,或没有较高的基于视频的可能性,由在步骤815确定基于音频的可能性是否较高。如果较高,则在步骤817处,基于当前标定前方和DOA来确定旋转角θ,并且旋绕环绕声信号的声场,使得标定前方被旋转了该旋转角度。如果不是较高,则方法800在步骤819处结束。在步骤813处,如果结果为否,则方法800在步骤819处结束。
在设备500的一个进一步的实施方式中,除了结合设备500描述的功能以外,估计单元501进一步被配置成确定是否存在不止一个较高的基于视频的可能性,或是否没有较高的基于视频的可能性。如果是这样,则估计单元501基于用于生成环绕声信号的音频信号来估计声音源的到达方向(DOA),并且估计DOA的声音源位于该DOA上的可能性。
除了结合设备500描述的功能以外,处理单元502还确定基于音频的可能性是否较高。如果是这样,则处理单元502基于当前标定前方和DOA来确定旋转角度θ,并且旋转环绕声信号的声场,使得标定前方被旋转了该旋转角度。
图9是用于说明根据本公开内容的一个实施方式的生成环绕声信号的方法900的流程图。
如图9所示,方法900从步骤901开始。步骤903、905、907和909分别与步骤703、705、707和709具有相同的功能,并且将在这里不会对其进行详细的描述。在步骤911处,确定是否有多于一个的较高的基于视频的可能性,或是否没有较高的基于视频的可能性(是否较高的基于视频的可能性的数量不为1)。如果是这样,则在步骤913处,基于用于生成环绕声信号的音频信号来估计声音源的达到方向(DOA),并且估计DOA的、声音源位于该DOA上的可能性。在步骤915处,确定基于音频的可能性是否较高。如果较高,在步骤917处,基于当前标定前方和DOA来确定旋转角度θ,并且旋转环绕声信号的声场,使得标定前方被旋转了该旋转角度。如果不是较高,则方法900在步骤919处结束。在步骤911处,如果结果为否,则方法900在步骤919处结束。
环绕声—管理拓扑结构
也可以利用基于视频的线索来测量阵列中的便携式装置之间的距离,以确定阵列的拓扑结构。
图10是用于说明根据本公开内容的一个实施方式的用于生成环绕声信号的系统1000的结构的框图。
如图10所示,系统1000包括阵列1001和处理装置1002。便携式装置201、202和203分别包括麦克风221、222和223,并且被布置成阵列1001。便携式装置203包括估计单元233。估计单元233被配置成根据从便携式装置203采集的视频信号中识别与便携式装置201和202对应的可视对象。应当注意,视频信号包括由摄像机采集的图片。于是,估计单元233基于所识别的可视对象来确定便携式装置201、202和203之间的至少一个距离。在给定摄像机的物理参数(例如焦距、成像触感器尺寸和孔径)、和在图片中出现的其他便携式装置的真实尺寸的情况下,可以以非常简单的数学计算来计算距离。可以预先确定这些参数,或可以从例如摄像机规格和图片的EXIF标签中获取这些参数。
便携式装置202可以包含被配置成向处理装置1002输出所估计的距离的输出单元。可以通过同步协议将所估计的距离直接或间接地与公共时钟同步,以反映拓扑结构的变化。
阵列的布置不限于阵列1001的布置。也可以使用其他布置,只要一个便携式装置能够对其他便携式装置成像。
处理装置1002被配置成基于所确定的距离来确定至少一个参数,这至少一个参数用于配置根据阵列所采集的音频信号来生成环绕声信号的过程。此距离能够确定麦克风阵列的拓扑结构。此拓扑结构能够确定从阵列所采集的音频信号到环绕声信号的映射的一个或更多个参数。要确定的参数取决于所使用的具体的环绕声技术。在立体混响声B格式的示例中,这些参数形成映射矩阵。此外,处理装置1002可以包括在“环绕声—管理标定前方”的部分中描述的设备的功能。
图11是用于说明根据本公开内容的一个实施方式的生成环绕声信号的方法1100的流程图。
如图11所示,方法1100从步骤1101开始。在步骤1103处,采集视频信号。在步骤1105处,从视频信号中识别与阵列中的至少一个便携式装置对应的至少一个可视对象。在步骤1107处,基于所识别的可视对象来确定采集视频信号的便携式装置与对应于所识别的可视对象的便携式装置之间的至少一个距离。在步骤1109处,基于所确定的距离来确定至少一个参数,这至少一个参数用于配置生成环绕声信号的过程。然后,方法1100在步骤1111处结束。
在系统1000的一个进一步的实施方式中,估计单元233还可以被配置成确定周围声学噪声是否较高。如果是这样,则估计单元233识别一个或更多个可视对象并且确定便携式装置之间的距离。阵列中的便携式装置设置有进行便携式装置之间的声学测距所需的单元。如果周围声学噪声较低,则可以通过声学测距来确定距离。
在一个进一步的实施方式中,被配置成确定距离的便携式装置可以包括呈现单元,其用于呈现表示该距离与预定范围的偏离的可感知信号。可感知信号可以是能够表示偏差的程度的声音。可替代地,呈现单元可以被配置成在显示器上显示各自指示便携式装置的预期位置的至少一个可视标记,和用于识别的视频信号。图12是结合阵列1001来说明可视标记和视频信号的示例呈现的示意图。标记1202、1203和视频信号1201被呈现在便携式装置203的显示器上。标记1202和1203分别指示便携式装置202和201的预期位置。
图13是用于说明根据本公开内容的一个实施方式的生成环绕声信号的方法1300的流程图。
如图13所示,方法1300从步骤1301开始。步骤1303、1305、1307、1309和1313分别与步骤1103、1105、1107、1109和1111具有相同的功能,并且在这里不会对其进行详细描述。
在步骤1302处,确定周围声学噪声是否高。如果高,则方法1300前进至步骤1303。如果低,则在步骤1311处,通过声学测距来确定至少一个便携式装置之间的至少一个距离,然后方法1300前进至步骤1309。
在方法1300的一个进一步的实施方式中,该方法还包括呈现表示至少一个距离之一与预定范围的偏差的可感知信号。可感知信号可以是能够表示该偏差的程度的声音。可以通过在显示器上显示各自指示便携式装置的预期位置的至少一个可视标记和用于识别的视频信号来呈现可感知信号。
3D视频
再参考图3,其中示出了用于生成3D视频信号的系统。便携式装置301和302被布置成采集3D视频信号的不同视点的视频信号。尽管未在图3中示出,然而便携式装置302包含被配置成通过声学测距来测量便携式装置301与便携式装置302之间的距离的测量单元,和被配置成呈现该距离的呈现单元。通过测量和呈现该距离,有助于使用户意识到摄像机之间的距离以保持距离为期望恒定值,或近似期望恒定值。
此外,呈现单元可以呈现表示该距离与预定范围的偏差的可感知信号。
高动态范围(HDR)视频或图像
图14是用于说明根据本公开内容的一个实施方式的用于生成HDR视频或图像信号的系统的框图。
如图14所示,该系统包括被配置成通过记录被记录对象1441来采集视频或图像信号的便携式装置1401、1402、1403和1404。可以有任意多个便携式装置,只要它们被配置成为HDR的目的而使用不同的曝光量来采集视频或图像信号。系统还包括处理装置1411。处理装置1411被配置成根据视频或图像信号来生成HDR视频或图像信号。便携式装置的摄像机之间的距离可以用于计算翘曲/投影参数以校正由不同的摄像机位置引起的几何失真,以生成如同位于相同位置的便携式装置采集的视频或图像信号那样的视频或图像信号。以此方式,使用所生成的视频或图像信号来生成HDR视频或图像信号。
可以通过基于如上面描述的声学测距的配置来测量便携式装置之间的距离。
多视点视频
在设备400的一个进一步的实施方式中,组合视频信号是压缩格式的多视点视频信号。估计单元401还被配置成基于音频信号来估计声音源与阵列之间的位置关系,并且确定阵列的便携式装置中具有较佳地覆盖声音源的视角的一个便携式装置。处理单元402还被配置成选择由所确定的便携式装置采集的视图作为基本视图。
在设备400的一个进一步的实施方式中,组合视频信号是压缩格式的多视点视频信号。估计单元401还被配置成估计阵列中的便携式装置的音频信号品质。处理单元402还被配置成选择由具有最佳音频信号品质的便携式装置采集的视图作为基本视图。
此外,多视点视频信号可以是在连接上的传输版本。在该情形下,处理单元401还被配置成为基本视图分配较佳的比特率或错误保护。
图15是示出了用于实现本发明实施方式的示例性系统的框图。
在图15中,中央处理单元(CPU)1501根据只读存储器(ROM)1502中存储的程序或从存储部分1508加载到随机访问存储器(RAM)1503的程序执行各种处理。在RAM1503中,也根据需要存储当CPU1501执行各种处理等等时所需的数据。
CPU1501、ROM1502和RAM1503经由总线1504彼此连接。输入/输出接口1505也连接到总线1504。
下列部件连接到输入/输出接口1505:包括键盘、鼠标等等的输入部分1506;包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分1507;包括硬盘等等的存储部分1508;和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分1509。通信部分1509经由例如因特网的网络执行通信处理。
根据需要,驱动器1510也连接到输入/输出接口1505。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质1511根据需要被安装在驱动器1510上,使得从中读出的计算机程序根据需要被安装到存储部分1508。
在通过软件实现上述步骤和处理的情况下,从例如因特网的网络或例如可移除介质1511的存储介质安装构成软件的程序。
本文中所用的术语仅仅是为了描述特定实施方式的目的,而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式,除非上下文中明确地另行指出。还应理解,“包括”一词当在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的,而非用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施方式的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
描述了以下示例性实施方式(其中每一个成为“EE”)。EE1.一种用于处理视频和音频信号的设备,包括:
估计单元,其被配置成:至少基于分别由布置成阵列的便携式装置的至少之一采集的至少一个视频或音频信号来估计所述阵列的至少一个方面;以及
处理单元,其被配置成:将至少基于视频的所述方面应用于通过所述阵列生成环绕声信号的过程,或将至少基于音频的所述方面应用于通过所述阵列生成组合视频信号的过程。
EE2.根据EE1所述的设备,其中
所述视频信号是通过记录事件来采集的,
所述估计单元还被配置成:从所述视频信号中识别声音源并且确定所述阵列相对于所述声音源的位置关系;以及
所述处理单元还被配置成:基于所述位置关系将与所述事件对应的所述环绕声信号的标定前方设置到所述声音源的位置。
EE3.根据EE2所述的设备,其中,其中所述估计单元还被配置成:
针对所述至少一个视频信号中的每一个视频信号,估计所述视频信号中的至少一个可视对象与音频信号中的至少一个音频对象匹配的第一可能性,其中,在记录所述事件期间通过同一便携式装置来采集所述视频信号和所述音频信号;以及
通过将所述视频信号中覆盖具有所述较高可能性的所述可视对象的区域看作与所述声音源对应,来识别所述声音源。
EE4.根据EE3所述的设备,其中,所述估计单元还被配置成:
基于用于生成所述环绕声信号的音频信号来估计声音源的到达方向(DOA);以及
估计所述DOA的、所述声音源位于所述DOA上的第二可能性,并且
其中所述处理单元还被配置成:
如果存在不止一个较高的第一可能性,或不存在较高的第一可能性,则在所述第二可能性较高的情况下,基于当前标定前方和所述DOA来确定旋转角度,并且旋转所述环绕声信号的声场,使得所述标定前方被旋转所述旋转角度。
EE5.根据EE3所述的设备,其中所述估计单元还被配置成:
如果存在不止一个较高第一可能性,或如果没有较高的第一可能性,则基于用于生成所述环绕声信号的音频信号估计声音源的到达方向(DOA),并且
其中所述处理单元还被配置成:
如果所述DOA具有所述声音源位于所述DOA上的较高可能性,则基于当前标定前方和所述DOA来确定旋转角度,并且旋转所述环绕声信号的声场,使得所述标定前方被旋转所述旋转角度。
EE6.根据EE3所述的设备,其中通过应用联合音频视频多模态对象分析来识别所述匹配。
EE7.根据EE3所述的设备,其中通过将采集具有所述较高可能性的所述视频信号的所述便携式装置的摄像机的朝向看作指向所述声音源来识别所述声音源。
EE8.根据EE3所述的设备,其中通过将特定可视对象识别为声音源来识别所述匹配。
EE9.根据EE1所述的设备,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计单元还被配置成:基于所述音频信号来估计声音源与所述阵列之间的位置关系,并且确定所述阵列中具有较佳地覆盖所述声音源的视角的一个便携式装置,并且
所述处理单元还被配置成:选择由所确定的便携式装置采集的视图作为基本视图。
EE10.根据EE1所述的设备,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计单元还被配置成:估计所述阵列中的所述便携式装置的音频信号品质,并且
所述处理单元还被配置成:选择具有最佳音频信号品质的所述便携式装置所采集的视图作为基本视图。
EE11.根据EE10或11所述的设备,其中
所述多视点视频信号是在连接上的传输版本,并且
所述处理单元还被配置成:将较佳的比特率或错误保护分配给所述基本视图。
EE12.一种用于生成环绕声信号的系统,包括:
布置成阵列的不止一个便携式装置,其中所述便携式装置之一包括:
估计单元,其被配置成:
从由所述便携式装置采集的视频信号中识别与所述不止一个便携式装置中的至少一个其它便携式装置对应的至少一个可视对象;以及
基于所识别的可视对象来确定所述便携式装置与所述不止一个便携式装置中的所述至少一个其它便携式装置之间的至少一个距离;和
处理单元,其被配置成:
基于所确定的距离来确定至少一个参数,所述至少一个参数用于配置根据由所述阵列采集的音频信号来生成环绕声信号的过程。
EE13.根据EE12所述的系统,其中
所述估计单元还被配置成:
如果周围声学噪声高,则识别所述至少一个可视对象并且确定所述至少一个距离,
其中至少一对所述便携式装置中的每对便携式装置被配置成:
如果所述周围声学噪声低,则通过声学测距来确定该对便携式装置之间的距离。
EE14.根据EE12或13所述的系统,其中对于至少一个确定的距离,呈现指示所述距离与预定范围的偏差的可感知信号。
EE15.根据EE14所述的系统,其中所述可感知信号包括能够指示所述偏差的程度的声音。
EE16.根据EE14所述的系统,其中对所述可感知信号的呈现包括:在显示器上显示各自指示便携式装置的预期位置的至少一个可视标记,和用于所述识别的所述视频信号。
EE17.一种便携式装置,包括:
摄像机;
测量单元,其被配置成:从通过所述摄像机采集的视频信号中识别与至少一个其它便携式装置对应的至少一个可视对象,并且基于所识别的可视对象来确定所述便携式装置之间的至少一个距离;
输出单元,其被配置成输出所述距离。
EE18.根据EE17所述的便携式装置,还包括:
麦克风,以及
其中所述测量单元还被配置成:
如果周围声学噪声高,则识别所述至少一个可视对象并且确定所述至少一个距离;以及
如果所述周围声学噪声低,则通过声学测距来确定所述便携式装置之间的至少一个距离。
EE19.根据EE17或18所述的便携式装置,还包括
呈现单元,其被配置成呈现指示所述至少一个距离之一与预定范围的偏差的可感知信号。
EE20.根据EE19所述的便携式装置,其中,可感知信号包括能够表示所述偏差的程度的声音。
EE21.根据EE19所述的便携式装置,其中对所述可感知信号的呈现包括:在显示器上显示各自指示便携式装置的预期位置的至少一个可视标记和用于所述识别的所述视频信号。
EE22.一种用于生成3D视频信号的系统,包括:
第一便携式装置,其被配置成采集第一视频信号;以及
第二便携式装置,其被配置成采集第二视频信号,
其中所述便携式装置包括:
测量单元,其被配置成通过声学测距来测量所述第一便携式装置与所述第二便携式装置之间的距离,以及
呈现单元,其被配置成呈现所述距离。
EE23.根据E22所述的系统,其中所述呈现单元还被配置成呈现指示所述距离与预定范围的偏差的可感知信号。
EE24.一种用于生成HDR视频或图像信号的系统,包括:
不止一个便携式装置,其被配置成采集视频或图像信号;以及
处理装置,其被配置成根据所述视频或图像信号来生成所述HDR视频或图像信号,
其中,对于至少一对所述便携式装置中的每一对,该对便携式装置之一包括被配置成通过声学测距测量该对便携式装置之间的距离,并且
所述处理单元还被配置成:基于所述距离校正由该对便携式装置之间的位置差引起的几何失真。
EE25.根据EE24所述的系统,其中
所述测量单元还被配置成:如果周围声学噪声低,则测量所述距离。EE26.根据EE25所述的系统,其中
该对便携式装置之一包括估计单元,所述估计单元被配置成:如果所述周围声学噪声高,则从由所述便携式装置采集的所述视频信号中识别与该对便携式装置中的另一个便携式装置对应的可视对象,并且基于所识别的可视对象来测量该对便携式装置之间的所述距离。
EE27.根据EE24至26中任一项所述的系统,其中
针对至少一个所确定的距离,呈现指示所述距离与预定范围的偏差的可感知信号。
EE28.一种处理视频和音频信号的方法,包括:
获取由布置成阵列的便携式装置的至少之一分别采集的至少一个视频或音频信号;
至少基于所述视频或音频信号来估计所述阵列的至少一个方面;以及
将至少基于视频的所述方面应用于通过所述阵列生成环绕声信号的过程,或将至少基于音频的所述方面应用于通过所述阵列生成组合视频信号的过程。
EE29.根据EE28所述的方法,其中
所述视频信号是通过记录事件来采集的,
所述估计包括:从所述视频信号中识别声音源并且确定所述阵列相对于所述声音源的位置关系,以及
所述应用包括:基于所述位置关系将与所述事件对应的所述环绕声信号的标定前方设置到所述声音源的位置。
EE30.根据EE29所述的方法,其中
对所述声音源的识别包括:
针对所述至少一个视频信号中的每一个,估计所述视频信号中的至少一个可视对象与音频信号中的至少一个音频对象匹配的第一可能性,其中在记录所述事件期间,所述视频信号和所述音频系统由同一便携式装置采集;以及
通过将所述视频信号中覆盖具有较高可能性的所述可视对象的区域看作与所述声音源对应,来识别所述声音源。
EE31.根据EE30所述的方法,其中对所述方面的估计包括:
基于用于生成所述环绕声信号的音频信号的估计声音源的到达方向(DOA);以及
估计所述DOA的、所述声音源位于所述DOA上的第二可能性,并且
其中所述应用包括:
如果存在不止一个较高的第一可能性或没有较高的第一可能性,则在所述第二可能性较高的情况下,基于当前标定前方和所述DOA来确定旋转角度,并且旋转所述环绕声信号的声场,使得所述标定前方被旋转所述旋转角度。
EE32.根据EE30所述的方法,其中对所述方面的估计包括:
如果存在不止一个较高第一可能性或没有较高的第一可能性,则基于用于生成所述环绕声信号的音频信号来估计声音源的到达方向(DOA),并且
其中所述应用包括:
如果所述DOA具有所述声音源位于所述DOA上的较高可能性,基于当前标定前方和所述DOA来确定旋转角度,并且旋转所述环绕声信号的声场,使得所述标定前方被旋转所述旋转角度。
EE33.根据EE30所述的方法,其中通过应用联合音频视频多模态对象分析来识别所述匹配。
EE34.根据EE30所述的方法,其中通过将采集具有所述较高可能性的所述视频信号的所述便携式装置的摄像机的朝向看作指向所述声音源,来识别所述声音源。
EE35.根据EE30所述的方法,其中通过将特定可视对象识别为声音源来识别所述匹配。
EE36.根据EE28所述的方法,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计包括基于所述音频信号估计声音源与所述阵列之间的位置关系,并且确定所述阵列的所述便携式装置中具有较佳地覆盖所述声音源的视角的一个便携式装置,并且
所述应用包括选择由所述确定的便携式装置采集的视图作为基本视图。
EE37.根据EE28所述的方法,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计单元包括估计所述阵列中的所述便携式装置的音频信号品质,并且
所述应用包括选择具有最佳的音频信号品质的所述便携式装置所采集的视图作为基本视图。
EE38.根据EE36或37所述的方法,其中
所述多视点视频信号是在连接上的传输版本,以及
所述应用包括将较佳的比特率或错误保护分配给所述基本视图。
EE39.根据EE28所述的方法,其中
所述估计包括:从所述至少一个视频信号之一中识别与所述阵列的至少一个便携式装置对应的至少一个可视对象,并且基于所确定的可视对象来确定采集所述视频信号的便携式装置和与所识别的可视对象对应的便携式装置之间的至少一个距离,并且
所述应用包括:基于所确定的距离来确定用于配置所述过程的至少一个参数。
EE40.根据EE39所述的方法,其中所述估计还包括:
如果周围声学噪声高,则识别所述至少一个可视对象并且确定所述至少一个距离;以及
如果所述周围声学噪声低,则通过声学测距来确定所述至少一个便携式装置之间的至少一个距离。
EE41.根据EE39或EE40所述的方法,还包括:呈现指示所述至少一个距离与预定范围的偏差的可感知信号。
EE42.根据EE41所述的方法,其中所述可感知信号包括能够表示所述偏差的程度的声音。
EE43.根据EE41所述的方法,其中对所述可感知信号的呈现包括:在显示器上显示各自指示便携式装置的预期位置的至少一个可视标记,和用于所述识别的所述视频信号。
EE44.根据EE28所述的方法,其中
所述组合视频信号包括HDR视频信号或图像信号,
所述估计包括:对于至少一对所述便携式装置中的每一对,通过声学测距来测量该对便携式装置之间的距离;并且
所述应用包括:基于所述距离来校正由该对便携式装置之间的位置差引起的几何失真。
EE45.根据EE44所述的方法,其中
所述估计还包括:如果周围声学噪声低,则测量所述距离。
EE46.根据EE45所述的方法,其中
所述估计还包括:如果所述周围声学噪声高,则
从由该对便携式装置之一采集的所述视频信号中识别与该对中另一便携式装置对应的可视对象;以及
基于所识别的可视对象来测量所述距离,并且
所述应用包括:基于所述距离来校正由所述阵列中的便携式装置之间的位置差引起的所述几何失真进行校正。
EE47.根据EE44至46中任一项所述的方法,还包括:
呈现表示所述距离之一与预定范围的偏差的可感知信号。
EE48.一种用于生成3D视频信号的方法,包括:
通过声学测距来测量第一便携式装置与第二便携式装置之间的距离;以及
呈现所述距离。
EE49.根据EE48所述的方法,其中所述呈现还包括呈现表示所述距离与预定范围的偏差的可感知信号。

Claims (21)

1.一种用于处理视频和音频信号的设备,包括:
估计单元,其被配置成:至少基于分别由布置成阵列的便携式装置的至少之一采集的至少一个视频或音频信号来估计所述阵列的至少一个方面;以及
处理单元,其被配置成:将至少基于视频的所述方面应用于通过所述阵列生成环绕声信号的过程,或将至少基于音频的所述方面应用于通过所述阵列生成组合视频信号的过程。
2.根据权利要求1所述的设备,其中
所述视频信号是通过记录事件来采集的,
所述估计单元还被配置成:从所述视频信号中识别声音源并且确定所述阵列相对于所述声音源的位置关系;以及
所述处理单元还被配置成:基于所述位置关系将与所述事件对应的所述环绕声信号的标定前方设置到所述声音源的位置。
3.根据权利要求2所述的设备,其中,其中所述估计单元还被配置成:
针对所述至少一个视频信号中的每一个视频信号,估计所述视频信号中的至少一个可视对象与音频信号中的至少一个音频对象匹配的第一可能性,其中,在记录所述事件期间通过同一便携式装置来采集所述视频信号和所述音频信号;以及
通过将所述视频信号中覆盖具有所述较高可能性的所述可视对象的区域看作与所述声音源对应,来识别所述声音源。
4.根据权利要求3所述的设备,其中,所述估计单元还被配置成:
基于用于生成所述环绕声信号的音频信号来估计声音源的到达方向(DOA);以及
估计所述DOA的、所述声音源位于所述DOA上的第二可能性,并且
其中所述处理单元还被配置成:
如果存在不止一个较高的第一可能性,或不存在较高的第一可能性,则在所述第二可能性较高的情况下,基于当前标定前方和所述DOA来确定旋转角度,并且旋转所述环绕声信号的声场,使得所述标定前方被旋转所述旋转角度。
5.根据权利要求3所述的设备,其中所述估计单元还被配置成:
如果存在不止一个较高第一可能性,或如果没有较高的第一可能性,则基于用于生成所述环绕声信号的音频信号估计声音源的到达方向(DOA),并且
其中所述处理单元还被配置成:
如果所述DOA具有所述声音源位于所述DOA上的较高可能性,则基于当前标定前方和所述DOA来确定旋转角度,并且旋转所述环绕声信号的声场,使得所述标定前方被旋转所述旋转角度。
6.根据权利要求1所述的设备,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计单元还被配置成:基于所述音频信号来估计声音源与所述阵列之间的位置关系,并且确定所述阵列中具有较佳地覆盖所述声音源的视角的一个便携式装置,并且
所述处理单元还被配置成:选择由所确定的便携式装置采集的视图作为基本视图。
7.根据权利要求1所述的设备,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计单元还被配置成:估计所述阵列中的所述便携式装置的音频信号品质,并且
所述处理单元还被配置成:选择具有最佳音频信号品质的所述便携式装置所采集的视图作为基本视图。
8.一种用于生成环绕声信号的系统,包括:
布置成阵列的不止一个便携式装置,其中所述便携式装置之一包括:估计单元,其被配置成:
从由所述便携式装置采集的视频信号中识别与所述不止一个便携式装置中的至少一个其它便携式装置对应的至少一个可视对象;以及
基于所识别的可视对象来确定所述便携式装置与所述不止一个便携式装置中的所述至少一个其它便携式装置之间的至少一个距离;和
处理单元,其被配置成:
基于所确定的距离来确定至少一个参数,所述至少一个参数用于配置根据由所述阵列采集的音频信号来生成环绕声信号的过程。
9.根据权利要求8所述的系统,其中
所述估计单元还被配置成:
如果周围声学噪声高,则识别所述至少一个可视对象并且确定所述至少一个距离,
其中至少一对所述便携式装置中的每对便携式装置被配置成:
如果所述周围声学噪声低,则通过声学测距来确定该对便携式装置之间的距离。
10.一种便携式装置,包括:
摄像机;
测量单元,其被配置成:从通过所述摄像机采集的视频信号中识别与至少一个其它便携式装置对应的至少一个可视对象,并且基于所识别的可视对象来确定所述便携式装置之间的至少一个距离;
输出单元,其被配置成输出所述距离。
11.根据权利要求10所述的便携式装置,还包括:
麦克风,以及
其中所述测量单元还被配置成:
如果周围声学噪声高,则识别所述至少一个可视对象并且确定所述至少一个距离;以及
如果所述周围声学噪声低,则通过声学测距来确定所述便携式装置之间的至少一个距离。
12.一种用于生成3D视频信号的系统,包括:
第一便携式装置,其被配置成采集第一视频信号;以及
第二便携式装置,其被配置成采集第二视频信号,
其中所述便携式装置包括:
测量单元,其被配置成通过声学测距来测量所述第一便携式装置与所述第二便携式装置之间的距离,以及
呈现单元,其被配置成呈现所述距离。
13.一种用于生成HDR视频或图像信号的系统,包括:
不止一个便携式装置,其被配置成采集视频或图像信号;以及
处理装置,其被配置成根据所述视频或图像信号来生成所述HDR视频或图像信号,
其中,对于至少一对所述便携式装置中的每一对,该对便携式装置之一包括被配置成通过声学测距测量该对便携式装置之间的距离,并且
所述处理单元还被配置成:基于所述距离校正由该对便携式装置之间的位置差引起的几何失真。
14.根据权利要求13所述的系统,其中
所述测量单元还被配置成:如果周围声学噪声低,则测量所述距离。
15.一种处理视频和音频信号的方法,包括:
获取由布置成阵列的便携式装置的至少之一分别采集的至少一个视频或音频信号;
至少基于所述视频或音频信号来估计所述阵列的至少一个方面;以及
将至少基于视频的所述方面应用于通过所述阵列生成环绕声信号的过程,或将至少基于音频的所述方面应用于通过所述阵列生成组合视频信号的过程。
16.根据权利要求15所述的方法,其中
所述视频信号是通过记录事件来采集的,
所述估计包括:从所述视频信号中识别声音源并且确定所述阵列相对于所述声音源的位置关系,以及
所述应用包括:基于所述位置关系将与所述事件对应的所述环绕声信号的标定前方设置到所述声音源的位置。
17.根据权利要求15所述的方法,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计包括基于所述音频信号估计声音源与所述阵列之间的位置关系,并且确定所述阵列的所述便携式装置中具有较佳地覆盖所述声音源的视角的一个便携式装置,并且
所述应用包括选择由所述确定的便携式装置采集的视图作为基本视图。
18.根据权利要求15所述的方法,其中
所述组合视频信号包括压缩格式的多视点视频信号,
所述估计单元包括估计所述阵列中的所述便携式装置的音频信号品质,并且
所述应用包括选择具有最佳的音频信号品质的所述便携式装置所采集的视图作为基本视图。
19.根据权利要求15所述的方法,其中
所述估计包括:从所述至少一个视频信号之一中识别与所述阵列的至少一个便携式装置对应的至少一个可视对象,并且基于所确定的可视对象来确定采集所述视频信号的便携式装置和与所识别的可视对象对应的便携式装置之间的至少一个距离,并且
所述应用包括:基于所确定的距离来确定用于配置所述过程的至少一个参数。
20.根据权利要求15所述的方法,其中
所述组合视频信号包括HDR视频信号或图像信号,
所述估计包括:对于至少一对所述便携式装置中的每一对,通过声学测距来测量该对便携式装置之间的距离;并且
所述应用包括:基于所述距离来校正由该对便携式装置之间的位置差引起的几何失真。
21.一种用于生成3D视频信号的方法,包括:
通过声学测距来测量第一便携式装置与第二便携式装置之间的距离;以及
呈现所述距离。
CN201410108005.6A 2014-03-21 2014-03-21 处理多个装置采集的音频或视频信号 Active CN104935913B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410108005.6A CN104935913B (zh) 2014-03-21 2014-03-21 处理多个装置采集的音频或视频信号
US14/658,565 US20150271619A1 (en) 2014-03-21 2015-03-16 Processing Audio or Video Signals Captured by Multiple Devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410108005.6A CN104935913B (zh) 2014-03-21 2014-03-21 处理多个装置采集的音频或视频信号

Publications (2)

Publication Number Publication Date
CN104935913A true CN104935913A (zh) 2015-09-23
CN104935913B CN104935913B (zh) 2018-12-04

Family

ID=54122845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410108005.6A Active CN104935913B (zh) 2014-03-21 2014-03-21 处理多个装置采集的音频或视频信号

Country Status (2)

Country Link
US (1) US20150271619A1 (zh)
CN (1) CN104935913B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979442A (zh) * 2016-07-22 2016-09-28 北京地平线机器人技术研发有限公司 噪声抑制方法、装置和可移动设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3340648B1 (en) * 2016-12-23 2019-11-27 Nxp B.V. Processing audio signals
CN110650367A (zh) * 2019-08-30 2020-01-03 维沃移动通信有限公司 视频处理方法、电子设备及介质
US11722763B2 (en) 2021-08-06 2023-08-08 Motorola Solutions, Inc. System and method for audio tagging of an object of interest

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1195454A (zh) * 1995-09-02 1998-10-07 新型转换器有限公司 音响设备
CN1655645A (zh) * 1995-09-02 2005-08-17 新型转换器有限公司 扬声器以及使用扬声器的设备
US20090002477A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Capture device movement compensation for speaker indexing
CN101401424A (zh) * 2006-03-08 2009-04-01 金山电子(香港)有限公司 具有远程重放和控制功能的无线音频/视频系统
US20100328419A1 (en) * 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved matching of auditory space to visual space in video viewing applications
EP2475116A1 (en) * 2009-09-01 2012-07-11 Panasonic Corporation Digital broadcasting transmission device, digital broadcasting reception device, digital broadcasting reception system
US20120307068A1 (en) * 2011-06-01 2012-12-06 Roy Feinson Surround video recording

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2839565B1 (fr) * 2002-05-07 2004-11-19 Remy Henri Denis Bruno Procede et systeme de representation d'un champ acoustique
US7576766B2 (en) * 2005-06-30 2009-08-18 Microsoft Corporation Normalized images for cameras
US7729204B2 (en) * 2007-06-08 2010-06-01 Microsoft Corporation Acoustic ranging

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1195454A (zh) * 1995-09-02 1998-10-07 新型转换器有限公司 音响设备
CN1655645A (zh) * 1995-09-02 2005-08-17 新型转换器有限公司 扬声器以及使用扬声器的设备
CN101401424A (zh) * 2006-03-08 2009-04-01 金山电子(香港)有限公司 具有远程重放和控制功能的无线音频/视频系统
US20090002477A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Capture device movement compensation for speaker indexing
US20100328419A1 (en) * 2009-06-30 2010-12-30 Walter Etter Method and apparatus for improved matching of auditory space to visual space in video viewing applications
EP2475116A1 (en) * 2009-09-01 2012-07-11 Panasonic Corporation Digital broadcasting transmission device, digital broadcasting reception device, digital broadcasting reception system
US20120307068A1 (en) * 2011-06-01 2012-12-06 Roy Feinson Surround video recording

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979442A (zh) * 2016-07-22 2016-09-28 北京地平线机器人技术研发有限公司 噪声抑制方法、装置和可移动设备

Also Published As

Publication number Publication date
CN104935913B (zh) 2018-12-04
US20150271619A1 (en) 2015-09-24

Similar Documents

Publication Publication Date Title
US10939225B2 (en) Calibrating listening devices
CN105340299B (zh) 用于生成环绕立体声声场的方法及其装置
US20210211829A1 (en) Calibrating listening devices
US11997472B2 (en) Signal processing device, signal processing method, and program
US9706292B2 (en) Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
US9641951B2 (en) System and method for fast binaural rendering of complex acoustic scenes
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
CN104935913A (zh) 处理多个装置采集的音频或视频信号
US9232337B2 (en) Method for visualizing the directional sound activity of a multichannel audio signal
US12010490B1 (en) Audio renderer based on audiovisual information
KR20180051411A (ko) 오디오 신호 처리 방법 및 오디오 시스템
US20240205634A1 (en) Audio signal playing method and apparatus, and electronic device
CN109964272A (zh) 声场表示的代码化
CN105979469B (zh) 一种录音处理方法及终端
US20230156419A1 (en) Sound field microphones
Zandi et al. Individualizing head-related transfer functions for binaural acoustic applications
CN112073891B (zh) 用于生成头部相关传递函数的系统和方法
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
Guthrie Stage acoustics for musicians: A multidimensional approach using 3D ambisonic technology
US20240349001A1 (en) Method and system for determining individualized head related transfer functions
CN113596673B (zh) Ar眼镜扬声器的定向发声方法、装置和发声设备
CN114220454A (zh) 一种音频降噪方法、介质和电子设备
Mathews Development and evaluation of spherical microphone array-enabled systems for immersive multi-user environments
US20240267695A1 (en) Neural radiance field systems and methods for synthesis of audio-visual scenes
US20240073571A1 (en) Generating microphone arrays from user devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant