CN111903143B - 信号处理设备和方法以及计算机可读存储介质 - Google Patents
信号处理设备和方法以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111903143B CN111903143B CN201980021290.9A CN201980021290A CN111903143B CN 111903143 B CN111903143 B CN 111903143B CN 201980021290 A CN201980021290 A CN 201980021290A CN 111903143 B CN111903143 B CN 111903143B
- Authority
- CN
- China
- Prior art keywords
- sound
- recording
- unit
- moving body
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
- H04R29/006—Microphone matching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
Abstract
本技术涉及能够高存在感地在任意定义收听位置处再现声音的信号处理设备和方法以及程序。该信号处理设备设置有渲染单元,该渲染单元基于安装至对象空间中的多个移动体的麦克风的记录信号,生成对象空间中的任意定义收听位置处的声音的再现数据。本技术适用于再现设备。
Description
技术领域
本技术涉及信号处理设备和方法以及程序,并且更具体地,涉及能够以高真实感再现任选收听位置处的声音的信号处理设备和方法以及程序。
背景技术
例如,在与诸如英式足球或音乐会的空间相关的内容再现中,如果能够在该空间中的任选收听位置处再现听到的声音(即,声场),则能够以高真实感实现内容再现。
与用于一般宽阔场地(空间)的声音记录相关的技术的实例包括:麦克风布置在音乐厅等中的多个固定位置处以执行记录的环绕立体声收集、从远方进行的枪式麦克风声音收集以及对由麦克风阵列记录的声音应用波束成形。
另外,提出一种系统,在该系统中,当空间中存在多个扬声器时,通过针对每个扬声器的麦克风来收集声音,并且针对每个扬声器记录的声音被记录为与扬声器的位置信息相关联,以实现对应于空间中的收听位置的声音图像定位(例如,参见专利文献1)。
另外,在诸如全方位图、鸟瞰图或遍历图(walk-through view)的自由视点的声场再现中,已知的是,通过以宽间隔安装的多个环绕麦克风进行声音收集、使用其中多个麦克风布置为球形的球形麦克风阵列进行全方位声音收集等。例如,全方位声音收集涉及分解和重构为高逼真度立体混响(Ambisonics)。最简单的一种是使用设置在摄像机等中的三个麦克风来收集声音并获得5.1声道环绕立体声。
引用列表
专利文献
专利文献1:WO 2015/162947
发明内容
技术问题
然而,上述技术难以在空间中的任选收听位置处高真实感地再现声音。
例如,在与用于一般宽阔场地的声音记录相关的技术中,从声源到声音收集位置的距离可能较大。在这种情况下,由于麦克风本身的信噪比(SN比)性能的限制,声音质量降低,从而降低了真实感。另外,如果从声源到声音收集位置的距离大,有时由于回响的影响而导致的声音清晰度的下降是不容忽视的。虽然用于消除记录声音中的回响分量的回响消除技术也是已知的,但是这种回响消除技术在消除回响分量方面有限制性。
此外,当录音工程师相对于声源的移动手动改变麦克风的方位时,在通过人力执行麦克风的精确旋转操作来改变声音收集方向时,也存在限制。这使得难以高真实感地实现声音再现。
进一步,在将波束成形应用于由麦克风阵列获得的记录声音的情况下,当声源移动时,相对于声源的移动的跟踪能力也有限。这使得难以高真实感地实现声音再现。
此外,在这种情况下,出于加强目的而通过波束成形使预定方向上的声源具有相等相位,需要使得麦克风的开口部分在低频范围中尽可能大,并且因此该设备被极度放大。此外,在执行波束成形的情况下,随着麦克风的数量增加,校准变得更加复杂,并且实际上,仅可以执行固定方向上的声源的加强。
另外,在专利文献1所描述的技术中,未假设扬声器移动。在声源移动的情况下,不能以足够高真实感进行声音再现。
此外,与用于一般宽阔场地的声音记录相关的技术的上述情况类似,在自由视点的声场再现中,由于麦克风的SN比性能的限制,同样难以记录位于远方的声源的声音。因此,任选收听位置处的声音几乎不会高真实感地再现。
鉴于这些情况,已做出本技术,并且允许高真实感地再现空间中的任选收听位置处的声音。
问题的解决方案
根据本技术的一方面的信号处理设备包括渲染单元,该渲染单元基于附接至对象空间中的多个移动体的麦克风的记录信号,来生成对象空间中的任选收听位置处的声音的再现数据。
根据本技术的一方面的信号处理方法或程序包括:基于附接至对象空间中的多个移动体的麦克风的记录信号来生成对象空间中的任选收听位置处的声音的再现数据的步骤。
在本技术的一方面中,基于附接至对象空间中的多个移动体的麦克风的记录信号来生成对象空间中的任选收听位置处的声音的声音再现数据。
发明的有利效果
根据本技术的一方面,可高真实感地再现空间中的任选收听位置处的声音。
应注意,本文中描述的效果不一定是限制性的,并且可提供在本公开中描述的任何效果。
附图说明
图1是示出声场再现系统的配置实例的示图。
图2是示出记录设备的配置实例的示图。
图3是示出记录设备的配置实例的示图。
图4是示出信号处理单元的配置实例的示图。
图5是示出再现设备的配置实例的示图。
图6是示出信号处理单元的配置实例的示图。
图7是示出再现设备的配置实例的示图。
图8是用于描述记录处理的流程图。
图9是用于描述再现处理的流程图。
图10是用于描述记录处理的流程图。
图11是用于描述再现处理的流程图。
图12是示出声场再现系统的配置实例的示图。
图13是示出记录设备的配置实例的示图。
图14是示出计算机的配置实例的示图。
具体实施方式
在下文中,将参考附图描述应用本技术的实施方式。
<第一实施方式>
<声场再现系统的配置实例>
在本技术中,在对象空间中多个移动体设置有麦克风和测距装置,获取关于每个移动体的声音、位置、方向和移动(运动)的信息,并且在再现侧上组合所获取的多条信息,从而在空间中用作收听位置的任选位置处以伪方式(in a pseudo manner)再现声音。具体地,本技术允许以伪方式再现声音(声场),当任选收听位置处的虚拟收听者面向任选方向时,将被虚拟收听者听到该声音(声场)。
例如,本技术可应用于诸如虚拟现实(VR)自由视点服务的声场再现系统,该系统记录空间中的每个位置处的声音(声场),并且基于所记录的声音以伪方式在空间中的任选收听位置处再现声音。
具体地,在应用本技术的声场再现系统中,包括多个麦克风的一个麦克风阵列或多个麦克风阵列用于记录空间中的多个位置处的声音,麦克风阵列分散布置在用于声场记录的空间中。
这里,用于声音收集的麦克风或麦克风阵列中的至少一些附接至在空间中移动的移动体。
注意,在以下描述中,为了简化描述,假设空间中的一个位置处的声音收集由麦克风阵列执行,并且麦克风阵列附接至移动体。此外,在下文中,作为由附接至移动体的麦克风阵列收集的声音的信号的记录信号(记录声音),并且更具体地,作为记录声音的信号的记录信号也将被称为对象。
在每个移动体中,不仅用于声音收集的麦克风阵列附接至该移动体,而且诸如全球定位系统(GPS)或9轴传感器的测距装置也附接至该移动体,并且还获取关于移动体的移动体位置信息、移动体方位信息和声音收集位置移动信息。
这里,移动体位置信息是指示移动体在空间中的位置的信息,并且移动体方位信息是指示移动体在空间中所面向的方向(更具体地,附接至移动体的麦克风阵列所面向的方向)的信息。例如,移动体方位信息是指示当空间中的预定方向被设为基准时,移动体所面向的方向的方位角。
另外,声音收集位置移动信息是关于移动体的运动(移动)的信息,诸如,移动体的移动速度或移动时的加速度。下文中,包括移动体位置信息、移动体方位信息以及声音收集位置移动信息的信息将被称为移动体相关信息。
当针对每个移动体获取对象和移动体相关信息时,产生包括对象和移动体相关信息的对象传输数据并将其传输至再现侧。在再现侧上,基于接收到的对象传输数据,根据需要执行信号处理或渲染,并且生成再现数据。
在渲染时,生成由用户(收听者)指定的预定格式(诸如,声道数量)的音频数据作为再现数据。再现数据是用于再现将由虚拟收听者听到的声音的音频数据,该虚拟收听者在空间中的任选收听位置并且在该收听位置处面向任选收听方向。
例如,固定麦克风(包括附接至固定物体的麦克风)的记录信号的渲染和再现是众所周知的。此外,众所周知,对为每种声源类型准备的对象进行渲染,作为再现侧的处理。
本技术与这些固定麦克风的记录信号的渲染和再现或者针对每种声源类型的渲染的不同之处在于,具体地,麦克风阵列附接至移动体以收集(记录)对象的声音并且获取移动体相关信息。
以此方式,能够通过结合对象和在各个移动体中获得的多条移动体相关信息来合成声场。
另外,在渲染时,针对由多个移动体获得的对象中的每一个,计算与情形对应的优先级,并且可使用具有较高优先级的对象来生成再现数据。能够更高真实感地再现任选收听位置处的声音。
注意,虽然稍后将描述基于优先级的再现数据的生成,但是例如,可设想的是,选择接近收听位置的移动体的对象来生成再现数据,或者选择具有少量移动的移动体的对象来生成再现数据。例如,在移动体具有少量移动的情况下,可获得具有由移动体的振动等引起的少量噪声的对象,即,具有高信噪比(SN比)的对象,使得能够获得高质量再现数据。
进一步,作为麦克风阵列或测距装置所附接至的移动体的实例,可设想例如英式足球等运动的运动员。另外,作为声音收集(记录)的特定对象,即伴有声音的内容,例如,可设想以下对象(1)-(4)。
对象(1)
团体运动的记录
对象(2)
针对进行诸如音乐、歌剧和剧场表演的表演的空间的记录
对象(3)
针对生活场所或主题公园中的任选空间的记录
对象(4)
针对诸如管弦乐队和游行乐队的乐队的记录
例如,在上述对象(1)中,运动员可被假设为移动体,并且麦克风阵列或测距装置可附接至运动员。类似地,在对象(2)至(4)中,演员或观众可被假设为移动体,并且麦克风阵列或测距装置可附接至演员或观众。另外,例如,在对象(3)中,可在多个位置处执行记录。
在下文中,将描述本技术的更具体的实施方式。
图1是示出本技术所应用的声场再现系统的实施方式的配置实例的示图。
图1所示的声场再现系统记录对象空间中的每个位置处的声音,将空间中的任选位置设为收听位置,并且再现由虚拟收听者在收听位置处面向任选方向听到的声音(声场)。
注意,在下文中,要记录声音的空间也被称为记录对象空间,并且虚拟收听者在收听位置处所面向的方向也被称为收听方向。
图1的声场再现系统包括记录设备11-1至记录设备11-5和再现设备12。
记录设备11-1至记录设备11-5均包括麦克风阵列或测距装置,并且均附接至记录对象空间中的移动体。由此,记录设备11-1至记录设备11-5分散地布置在记录对象空间中。
记录设备11-1至记录设备11-5均针对记录设备自身所附接的移动体,记录对象并获取移动体相关信息,并且生成包括对象和移动体相关信息的对象传输数据。
记录设备11-1至记录设备11-5均通过无线通信将所生成的对象传输数据传输至再现设备12。
注意,在下文中,如果记录设备11-1至记录设备11-5无需彼此区分,那么记录设备11-1至记录设备11-5将被简称为记录设备11。另外,这里将说明由记录对象空间中的5个记录设备11进行各移动体的位置处的对象的记录(声音的记录)的示例,但是记录设备11的数量可以是任意数量。
再现设备12接收从每个记录设备11传输的对象传输数据,并且基于针对每个移动体获取的对象和移动体相关信息,生成指定收听位置和指定收听方向的再现数据。另外,再现设备12基于所生成的再现数据,再现收听位置处的收听方向的声音。由此,再现记录对象空间中具有作为任选位置和任选方向的收听位置和收听方向的内容。
例如,在声音记录目标是体育运动的情况下,要进行体育运动的场地等被设为记录对象空间,每个运动员被设为移动体,并且记录设备11附接至每个运动员。
具体地,记录设备11附接至宽阔场地中进行的团体运动(诸如英式足球、美式足球、橄榄球或曲棍球)中或宽阔环境中进行的竞技性运动(诸如马拉松)中的每个运动员。
记录设备11包括小型麦克风阵列、测距装置和无线传输功能。另外,在记录设备11包括存储装置的情况下,可在运动或比赛结束后,从存储装置中读取对象传输数据,并将其提供至再现设备12。
例如,在从远离记录对象空间的位置进行记录时,例如从宽阔场地的外部使用枪式麦克风录音时,由于麦克风的SN比限制,难以在运动员附近收集声音,并且不能高真实感地再现声场。
另一方面,在本技术所应用的声场再现系统中,每个运动员被设为移动体,并且对象被记录。具体地,记录设备11附接至每个运动员,并且因此运动员发出的声音、走路声音、踢球声音等可在离运动员不远的距离内以高SN比记录。
因此,通过基于再现数据的声音再现,在存在运动员的区域中,在任选视点(收听位置)处面向任选方向(收听方向)的收听者听到的声场可能会被疑似地再现。这允许将高真实感的声场体验提供给收听者,就好像收听者是运动员之一并且与运动员在同一场地等。
作为针对一个移动体(即,一个运动员)获取的记录声音,对象是混合有运动员的声音和动作声音以及附近运动员的声音和喝彩声的声音。
另外,由于运动员在记录对象空间内随着时间推移而移动,所以运动员的位置、运动员间的相对距离以及运动员所面向的方向不断波动。
为此,在记录设备11中,移动体位置信息、移动体方位信息以及声音收集位置移动信息的时间序列数据被获得作为关于运动员(移动体)的移动体相关信息。必要时可在时间方向上平滑(smooth)这些时间序列数据。
再现设备12基于由此获得的每个移动体的移动体相关信息等,计算每个对象的优先级,并且通过例如根据所获得的优先级对多个对象进行加权和求和(weighting andadding)来生成再现数据。
以此方式获得的再现数据是用于以伪方式再现在任选收听位置处面向任选收听方向的收听者将听到的声场的音频数据。
注意,当记录设备11(更具体地,记录设备11的麦克风阵列)附接至用作移动体的运动员时,如果麦克风附接至运动员的两只耳朵的位置,则执行双耳声音收集。然而,即使在麦克风附接至运动员的双耳之外的部分时,也能以与运动员所收听的每个声源的音量平衡或定位感(sense of localization)基本相同的音量平衡或定位感,由记录设备11记录声场。
另外,在声场再现系统中,宽阔空间被设为记录对象空间,并且在多个位置中的每个位置处记录声场。就是说,利用位于记录对象空间中的各个位置处的多个记录设备11来进行声场记录。
通常,在记录对象空间中使用集成单个麦克风阵列等执行的声场记录中,如果在麦克风阵列与另一对象之间存在接触等,则由于该接触而产生的信号的噪声混入通过构成麦克风阵列的所有麦克风中的每一个的记录而获得的记录信号中。
类似地,在声场再现系统中,例如,如果运动员之间存在接触,则由于接触的振动而引起的噪声很有可能混入由附接至这些运动员的记录设备11所获得的对象。
然而,在声场再现系统中,由于通过多个记录设备11进行声场记录,所以即使在运动员之间存在接触时,由于运动员之间的接触的振动而引起的噪声也很有可能不会混入由附接至其他非接触运动员的记录设备11所获得的对象。由此,在附接至无接触的运动员的记录设备11中,可获得没有噪声污染的高质量对象。
在如上所述的声场再现系统中,在将要记录重要目标声音的情况下,将记录设备11附接至多个移动体导致噪声污染分布的风险。在由多个记录设备11获得的对象中,选择并使用具有最佳状态的对象(即,包括最佳质量的目标声音的对象)允许再现具有高质量和高真实感的声音。
此外,在声场再现系统中,基于由分散布置在记录对象空间中的记录设备11获得的对象,生成任选收听位置和收听方向的再现数据。再现数据不再现完全物理正确的声场。然而,在声场再现系统中,考虑到优先级、收听位置、收听方向、移动体的位置和方向等,能够根据各种情况适当地再现任选收听位置和收听方向的声场。换言之,在声场再现系统中,由于根据由分散布置的记录设备11获得的对象生成再现数据,所以能够以相对高的自由度再现具有高真实感的声场。
<记录设备的配置实例>
接下来,将描述图1所示的记录设备11和再现设备12的具体配置实例。首先,将描述记录设备11的配置实例。
例如,记录设备11配置为如图2所示。
在图2所示的实例中,记录设备11包括麦克风阵列41、记录单元42、测距装置43、编码单元44和输出单元45。
麦克风阵列41收集记录设备11所附接至的移动体周围的环境声音(声场),并且将得到的记录信号作为对象提供至记录单元42。
记录单元42对从麦克风阵列41提供的对象执行模数(AD)转换或放大处理,并且将获得的对象提供至编码单元44。
测距装置43包括例如诸如GPS的位置测量传感器、用于测量移动体的移动速度和加速度以及移动体所面向的方向(方位)的9轴传感器等。
针对记录设备11所附接的移动体,测距装置43测量表示移动体的位置的移动体位置信息、表示移动体所面向的方向(即,移动体的方位)的移动体方位信息以及表示移动体的移动速度和移动时的加速度的声音收集位置移动信息,并将测量结果提供至编码单元44。
注意,测距装置43可包括照相机、加速度传感器等。例如,在测距装置43包括照相机的情况下,还可从由该照相机捕获的视频(图像)中获得移动体位置信息、移动体方位信息和声音收集位置移动信息。
编码单元44对从记录单元42提供的对象和从测距装置43提供的包括移动体位置信息、移动体方位信息和声音收集位置移动信息的移动体相关信息进行编码,并且生成对象传输数据。
换句话说,编码单元44将对象和移动体相关信息打包,并生成对象传输数据。
注意,当生成对象传输数据时,对象和移动体相关信息可被压缩编码或者可原样存储在对象传输数据等的数据包中。
编码单元44将通过编码生成的对象传输数据提供至输出单元45。
输出单元45输出从编码单元44提供的对象传输数据。
例如,在输出单元45具有无线传输功能的情况下,输出单元45将对象传输数据无线地传输至再现设备12。
另外,例如,在记录设备11包括诸如非易失性存储器的存储装置(即,存储单元)的情况下,输出单元45将对象传输数据输出至存储单元,并且将对象传输数据记录在存储单元中。在这种情况下,在任选时刻,由再现设备12直接或间接读取在存储单元中记录的对象传输数据。
<记录设备的另一配置实例>
另外,在记录设备11中,对象可经历增强预定期望声源的声音(即,目标声音等)的波束成形,或经历降噪(NR)处理等。
在这种情况下,例如,记录设备11配置为图3所示。注意,图3中与图2中对应的部分将由相同的参考标号表示,并且将适当地省略其描述。
图3所示的记录设备11包括麦克风阵列41、记录单元42、信号处理单元71、测距装置43、编码单元44和输出单元45。
图3所示的记录设备11的配置是在图2所示的记录设备11的记录单元42与编码单元44之间新设置信号处理单元71的配置。
信号处理单元71根据需要通过使用从测距装置43提供的移动体相关信息,对从记录单元42提供的对象执行波束成形或NR处理,并且将得到的对象提供至编码单元44。
另外,信号处理单元71例如配置为图4所示。即,图4所示的信号处理单元71包括间隔检测单元101、波束成形单元102和NR单元103。
间隔检测单元101根据需要通过使用从测距装置43提供的移动体相关信息,对从记录单元42提供的对象执行间隔检测,并且将检测结果提供至波束成形单元102和NR单元103。
例如,间隔检测单元101包括用于预定目标声音的检测器和用于预定非目标声音的检测器,并且通过基于检测器的算术运算来检测对象中的目标声音或非目标声音的间隔。
间隔检测单元101然后输出指示其中对象中的用作时间信号的每个目标声音或非目标声音被检测的间隔的信息(即,指示目标声音的间隔或非目标声音的间隔的信息)作为间隔检测的结果。以此方式,在间隔检测时,检测对象的每一时间间隔中的目标声音或非目标声音的存在与否。
这里,预定目标声音是例如,诸如足球的踢球的球声音、作为移动体的运动员的话语、运动员的脚步声(步行声音)或诸如手势的动作声音。
与以上相反,非目标声音是令人不快的作为内容声音等的声音。具体地,例如,非目标声音包括风声(风噪声)、运动员衣服的摩擦声、一些振动声音、运动员与另一运动员或物品之间的接触声音、环境声音(诸如欢呼声)、与竞赛策略或机密(privacy)有关的话语声、预定的令人不快的不文雅话(no good words)的话语声(诸如嘲笑声)以及其他噪声。
另外,当检测到间隔时,必要时使用移动体相关信息。
例如,如果参照移动体相关信息中包含的声音收集位置移动信息,则能够确定移动体是移动的还是静止的。对此,例如,当移动体移动时,间隔检测单元101检测特定噪声或确定特定噪声的间隔。相反,当移动体不移动时,间隔检测单元101不执行特定噪声的检测或确定其不是特定噪声的间隔。
此外,例如,在移动体的移动量等被包括作为用于检测目标声音和非目标声音的检测器的参数的情况下,间隔检测单元101从时间序列移动体位置信息、时间序列声音收集位置移动信息等获得移动体的移动量等,并且通过使用移动量等执行基于检测器的算术运算。
必要时,波束成形单元102通过使用从间隔检测单元101提供的间隔检测的结果和从测距装置43提供的移动体相关信息,对从记录单元42提供的对象执行波束成形。
也就是说,例如,波束成形单元102基于用作移动体相关信息的移动体方位信息等,通过多麦克风波束成形来抑制(减小)预定方向噪声或增强来自特定方向的声音。
另外,在多麦克风波束成形中,例如,包含在对象中的诸如运动员的大声说话等过大的目标声音或诸如环境声音的不必要的非目标声音可通过基于间隔检测的结果反转这些声音的分量的相位来抑制。此外,在多麦克风波束成形中,例如,可基于间隔检测的结果,通过使包括在对象中的必要目标声音(诸如,踢球声)的相位相等来使包括在对象中的必要目标声音(诸如,踢球声)增强。
波束成形单元102将通过波束成形增强或抑制预定声源分量而获得的对象提供至NR单元103。
NR单元103基于从间隔检测单元101提供的间隔检测的结果,对从波束成形单元102提供的对象执行NR处理,并且将所得对象提供至编码单元44。
例如,在NR处理中,在对象所包括的分量中,诸如风声、衣服的摩擦声、相对稳定且不必要的环境声音以及预定噪声等的非目标声音的分量被抑制。
<再现设备的配置实例>
随后,将描述图1所示的再现设备12的配置实例。
例如,再现设备12配置为图5所示。
再现设备12是基于获取的对象传输数据生成再现数据的信号处理设备。图5所示的再现设备12包括获取单元131、解码单元132、信号处理单元133、再现单元134和扬声器135。
获取单元131获取从记录设备11输出的对象传输数据,并且将对象传输数据提供至解码单元132。获取单元131从记录对象空间中的所有记录设备11获取对象传输数据。
例如,当从记录设备11无线传输对象传输数据时,获取单元131接收从记录设备11传输的对象传输数据,从而获取对象传输数据。
另外,例如,当对象传输数据被记录在记录设备11的存储装置中时,获取单元131通过从记录设备11读取对象传输数据来获取对象传输数据。注意,在对象传输数据从记录设备11输出至外部设备等并保持在外部设备中的情况下,可通过从该设备读取对象传输数据等来获取对象传输数据。
解码单元132对从获取单元131提供的对象传输数据进行解码,并且将所得对象和移动体相关信息提供至信号处理单元133。换句话说,解码单元132通过执行对象传输数据的解包来提取对象和移动体相关信息,并将提取的对象和移动体相关信息提供至信号处理单元133。
信号处理单元133基于从解码单元132提供的移动体相关信息和对象执行波束成形或NR处理,以预定格式生成再现数据,并且将再现数据提供至再现单元134。
再现单元134对从信号处理单元133提供的再现数据执行数模(DA)转换或放大处理,并且将产生的再现数据提供至扬声器135。扬声器135基于从再现单元134提供的再现数据,在记录对象空间中的收听位置和收听方向上再现伪声音(模拟声音)。
注意,扬声器135可以是单个扬声器单元或者可以是包括多个扬声器单元的扬声器阵列。
另外,虽然本文将描述在单个设备中设置获取单元131至扬声器135的情况,但是例如,在另一设备中可设置构成再现设备12的框的一部分,诸如获取单元131至信号处理单元133。
例如,获取单元131至信号处理单元133可设置在网络上的服务器中,并且再现数据可以从服务器提供至包括再现单元134和扬声器135的再现设备。替代地,扬声器135可设置在再现设备12的外部。
此外,获取单元131至信号处理单元133可设置在个人计算机、游戏机、便携式装置等中,或者可通过网络上的云来实现。
另外,例如,信号处理单元133配置为图6所示。
图6所示的信号处理单元133包括同步计算单元161、间隔检测单元162、波束成形单元163、NR单元164和渲染单元165。
同步计算单元161对从解码单元132提供的多个对象执行同步检测,基于检测结果同步所有移动体的对象,并且将各个移动体的同步对象提供至间隔检测单元162和波束成形单元163。
例如,在同步检测中,检测麦克风阵列41之间的偏移以及时钟漂移,该偏移是对象(即,对象传输数据)的传输侧与接收侧之间的时钟周期的差异。同步计算单元161基于偏移和时钟漂移的检测结果来同步所有对象。
例如,在记录设备11中,构成麦克风阵列41的麦克风彼此同步,并且因此同步对象的各个声道的信号的处理是不必要的。另一方面,再现设备12处理由多个记录设备11获得的对象,并且因此需要同步对象。
间隔检测单元162基于从解码单元132提供的移动体相关信息对从同步计算单元161提供的每个对象执行间隔检测,并且将检测结果提供至波束成形单元163、NR单元164和渲染单元165。
间隔检测单元162包括用于预定目标声音或非目标声音的检测器,并且执行与记录设备11的间隔检测单元101的情况类似的间隔检测。具体地,间隔检测单元162中声源的声音是目标声音还是非目标声音与间隔检测单元101中声源的声音是目标声音还是非目标声音相同。
必要时,波束成形单元163通过使用从间隔检测单元162提供的间隔检测的结果和从解码单元132提供的移动体相关信息,对从同步计算单元161提供的每个对象执行波束成形。
即,波束成形单元163对应于记录设备11的波束成形单元102,并且执行与波束成形单元102的情况类似的处理,以便通过波束成形抑制或增强预定声源的声音等。
注意,在波束成形单元163中,主要抑制或增强与波束成形单元102的情况类似的声源分量。然而,在波束成形单元163中,在用于预定移动体的对象的波束成形中,还可使用另一移动体的移动体相关信息。
具体地,例如,当在待处理移动体附近存在另一移动体时,可抑制包括在待处理移动体的对象中的另一移动体的声音分量。在这种情况下,例如,当从每个移动体的移动体位置信息获得的从待处理移动体到另一移动体的距离等于或小于预定阈值时,可通过抑制来自从待处理移动体看到另一移动体的方向的声音,来抑制另一移动体的声音分量。
波束成形单元163将通过波束成形增强或抑制预定声源分量而获得的对象提供至NR单元164。
NR单元164基于从间隔检测单元162提供的间隔检测的结果对从波束成形单元163提供的对象执行NR处理,并且将所得对象提供至渲染单元165。
例如,NR单元164对应于记录设备11的NR单元103,并且执行与NR单元103的情况类似的NR处理,以抑制包括在对象中的非目标声音等的分量。
渲染单元165基于从间隔检测单元162提供的间隔检测的结果、从解码单元132提供的移动体相关信息、从更高级别控制单元提供的收听相关信息和从NR单元164提供的对象,生成再现数据,并且将再现数据提供至渲染单元134。
这里,收听相关信息包括例如收听位置信息、收听方位信息、收听位置移动信息和期望声源信息,并且是由例如用户输入的操作指定的信息。
收听位置信息是表示记录对象空间中的收听位置的信息,并且收听方位信息是表示收听方向的信息。此外,收听位置移动信息是与虚拟收听者在记录对象空间中的运动(移动)相关的信息(诸如,记录对象空间中的收听位置),即,虚拟收听者在收听位置的移动速度和移动时的加速度。
此外,期望声源信息是表示要被包括在由再现数据再现的声音中的分量的声源的信息。例如,作为移动体的运动员等被指定为期望声源信息所表示的声源(以下,也称为指定声源)。注意,期望声源信息可以是表示在记录对象空间中指定声源的位置的信息。
渲染单元165包括优先级计算单元181。优先级计算单元181计算每个对象的优先级。
例如,对象的优先级表示具有越高优先级值的对象越重要,并且在生成再现数据时具有越高优先级。
在计算优先级时,例如,考虑间隔检测的结果、移动体相关信息、收听相关信息、NR单元164中的NR处理的类型、对象的声压等。即,优先级计算单元181基于从NR单元164提供的对象的声压、间隔检测的结果、移动体相关信息、收听相关信息或由NR单元164执行的NR处理的类型中的至少一项,来计算每个对象的优先级。
例如,作为具体实例,优先级计算单元181基于收听位置信息和移动体位置信息,增加接近收听位置的移动体的对象的优先级,或者基于移动体位置信息等,增加接近由用户指定的预定位置(诸如,球的位置或指定声源的位置)的移动体的对象的优先级。
另外,例如,优先级计算单元181基于间隔检测的结果和期望声源信息,增加包括由期望声源信息指示的指定声源的分量的对象间隔的优先级。
此外,例如,优先级计算单元181基于移动体方位信息和收听方位信息,增加这样的移动体的对象的优先级,即,由移动体方位信息指示的方向(即,移动体面向的方向)与由收听方位信息指示的收听方向彼此面对。
另外,优先级计算单元181基于时间序列的移动体位置信息、声音收集位置移动信息、收听位置信息、收听位置移动信息等,增加接近收听位置的移动体的对象的优先级。
另外,例如,优先级计算单元181基于声音收集位置移动信息,使得移动量小的移动体的对象或移动速度低的移动体的对象的优先级高,并且使得加速度小的移动体的对象(即,振动小的移动体的对象)的优先级高。这是因为运动量(诸如移动量、移动速度和振动)小的移动体具有包括在记录对象中的较低噪声,并且具有较高SN比的目标声音的分量。此外,由于在混合(合成)时,运动量小的移动体的对象具有诸如多普勒效应的小的副作用,所以最终获得的再现数据的声音质量得到改善。
此外,例如,优先级计算单元181基于间隔检测的结果,增加包括目标声音的对象间隔的优先级,并且增加不包括非目标声音(诸如,类似不文雅话的话语声或噪声)的对象间隔的优先级。换句话说,优先级计算单元181降低包括诸如令人不快的话语声或噪声的非目标声音的对象间隔的优先级。注意,当对象的声压等于或高于预定声压时,可增加包括目标声音的对象间隔的优先级。另外,考虑到距离衰减,可基于对象、移动体位置信息和收听位置信息,增加其声音被估计为在收听位置处观测到预定声压以上的对象的优先级。此时,可降低被估计为在收听位置处仅能够观测到比预定声压小的声音的对象的优先级。
另外,例如,优先级计算单元181基于间隔检测的结果或NR处理的类型,降低包括难以抑制(降低)的预定类型的噪声的对象间隔的优先级。换句话说,具有越少噪声的对象具有越高优先级。这是因为包括难以抑制的噪声类型的对象间隔相比于其他间隔会是具有低的声音质量的间隔,因为其包括即使在NR处理之后也未被去除的噪声或者由于噪声抑制的影响而造成的质量劣化。
当针对移动体的每个对象计算优先级时,渲染单元165基于每个对象的优先级来选择要用于渲染的对象,即,要用于生成再现数据的对象。
具体地,例如,按照优先级降序的预定数量的对象可被选择为要用于渲染的对象。另外,例如,具有等于或高于预定值的优先级的对象可被选择为要用于渲染的对象。
以此方式基于优先级选择要用于渲染的对象允许选择具有小运动量的移动体并且包括高SN比的目标声音的高质量对象。换句话说,可选择具有较少噪声和高真实感的对象。
渲染单元165基于根据优先级选择的一个或多个对象执行再现,并产生预定数量声道的再现数据。注意,基于优先级选择并用于渲染的对象在下文中也被称为选择对象。
在渲染中,例如,对于每个选择对象,生成再现数据的每个声道的信号(在下文中,也被称为对象声道信号)。
例如,可基于收听相关信息、移动体相关信息以及指示构成用作扬声器135的扬声器阵列的扬声器单元的布置位置的扬声器布置信息,可通过基于矢量的幅度平移(VBAP)等生成对象声道信号。
如果对象声道信号由VBAP等产生,则声音图像可位于记录对象空间中的任选位置处。由此,例如,即使在收听位置是没有运动员作为移动体的位置时,也能够在收听位置处以伪方式再现收听方向的声场。特别地,通过仅使用具有高优先级的对象,可再现高质量、稳定性和高真实感的声场。
例如,在一般自由视点的声场再现中,难以同时获得在任选位置处实际听到的声音的再现及其方向感。另一方面,如果在渲染时通过VBAP等生成对象声道信号,则可获得从每个声源到收听位置的距离感或方向感。
另外,当针对每个选择对象获得对象声道信号时,渲染单元165执行混合处理以合成各个选择对象的对象声道信号,由此产生再现数据。
换句话说,在混合处理中,通过要获得作为再现数据的相应声道的信号的各个选择对象的权重,对各个选择对象的相同声道的对象声道信号进行加权和求和。同样通过这样的混合处理,能够得到从各声源到收听位置的距离感或方向感。
这里,基于例如选择对象的优先级、从NR单元164提供的对象的声压、间隔检测的结果、移动体相关信息、收听相关信息或由NR单元164执行的NR处理的类型中的至少一项,渲染单元165针对每个间隔动态地确定在混合处理中使用的每个选择对象的权重(在下文中,也称为合成权重)。注意,可针对选择对象的每个间隔中的每个声道,确定合成权重。
具体地,例如,基于移动体位置信息和收听位置信息,更接近收听位置的移动体的选择对象具有更大的合成权重。在这种情况下,考虑从移动体的位置到收听位置的距离衰减来确定合成权重。
此外,例如,基于移动体方位信息和收听方位信息,针对由移动体方位信息指示的移动体所面向的方向与由收听方位信息指示的收听方向彼此面向的移动体的选择对象,合成权重更大。
此外,例如,基于间隔检测的结果和期望声源信息,包括由期望声源信息指示的指定声源的分量的选择对象的合成权重增加。此时,对于声压越大且到收听位置的距离越短的移动体的选择对象,合成权重会越大。另外,例如,基于间隔检测的结果或NR处理的类型,包括难以抑制(降低)的类型的噪声的选择对象的合成权重降低。
作为另一实例,在期望获得包括指定声源的声音的再现数据的情况下,由位于最接近指定声源的位置处的记录设备11获得的对象被假定为选择对象。在这种情况下,能够增加选择对象中的指定声源的声音被包括作为目标声音的间隔中的合成权重,或者将合成权重设为零以使得指定声源的声音不被包括作为目标声音的间隔中的声音静音。
注意,在这种情况下,可仅将位于最接近指定声源的位置处的记录设备11获得的对象设为选择对象,或者可选择其他对象作为选择对象。
上述对象声道信号的生成和混合处理被执行作为渲染处理,并且生成再现数据。渲染单元165将获得的再现数据提供至再现单元134。
<再现设备的另一配置实例>
注意,即使当记录设备11配置为图2或图3所示时,再现设备12也可配置为图5所示,但是当记录设备11配置为图3所示时,再现设备12不需要执行波束成形或NR处理。
因此,例如,在记录设备11配置为图3所示的情况下,再现设备12也可配置为图7所示。注意,图7中与图5或图6对应的部分将由相同的参考标号表示,并且将适当省略其描述。
在图7所示的实例中,再现设备12包括获取单元131、解码单元132、渲染单元165、再现单元134和扬声器135。
图7所示的再现设备12的配置是包括渲染单元165来代替图5所示的再现设备12的配置中的信号处理单元133的配置。
另外,在图7所示的再现设备12中,渲染单元165包括优先级计算单元181。
渲染单元165的优先级计算单元181基于从解码单元132提供的移动体相关信息、每个对象的声压和从更高级别控制单元提供的收听相关信息,计算每个对象的优先级。
另外,渲染单元165基于每个对象的优先级来选择选择对象,并且还根据需要通过使用优先级、对象的声压、移动体相关信息和收听相关信息来从选择对象中生成再现数据,以将再现数据提供至再现单元134。
注意,在该实例中,从记录设备11输出的对象传输数据不仅可包括对象和移动体相关信息,而且包括表示间隔检测单元101中的间隔检测的结果、NR单元103中执行的NR处理的类型等的信息。
在这种情况下,优先级计算单元181或渲染单元165可使用从解码单元132提供的指示间隔检测的结果或NR处理的类型的信息,来计算优先级并生成再现数据。
<记录处理的描述>
随后,将描述在声场再现系统中执行的处理。
首先,将参见图8的流程图说明由布置在记录对象空间中的各记录设备11执行的记录处理。注意,这里,假设记录设备11具有图2所示的配置。
在步骤S11中,麦克风阵列41记录声场。
即,麦克风阵列41收集环境声音,并且将作为声音收集的结果所获得的记录信号的对象提供至记录单元42。记录单元42对从麦克风阵列41提供的对象执行AD转换、放大处理等,并且将获得的对象提供至编码单元44。
另外,当麦克风阵列41开始记录时,测距装置43开始测量移动体等的位置,并且将包括作为测量结果而获得的移动体位置信息、移动体方位信息和声音收集位置移动信息的移动体相关信息依次提供至编码单元44。换言之,测距装置43获取移动体相关信息。
在步骤S12中,编码单元44对从记录单元42提供的对象和从测距装置43提供的移动体相关信息进行编码以生成对象传输数据,并且将对象传输数据提供至输出单元45。
在步骤S13中,输出单元45输出从编码单元44提供的对象传输数据,并且记录处理终止。
例如,输出单元45通过将对象传输数据无线传输至再现设备12或者通过将对象传输数据提供至存储装置以用于记录,来输出对象传输数据。
如上所述,记录设备11记录其自身周围的声场(声音),并且还获取移动体相关信息,以输出对象传输数据。特别地,在声场再现系统中,在分散布置于记录对象空间中的每个记录设备11中执行记录,并且输出对象传输数据。由此,再现设备12可通过使用由每个记录设备11获得的对象,来高真实感地再现任选收听位置和收听方向的声音。
<再现处理的描述>
另外,当每个记录设备11执行参考图8描述的记录处理时,再现设备12响应于记录处理而执行图9所示的再现处理。
下面将参考图9的流程图描述再现设备12的再现处理。注意,在这种情况下,再现设备12配置为图5所示。
在步骤S41中,获取单元131获取对象传输数据,并且将对象传输数据提供至解码单元132。
例如,当从记录设备11无线传输对象传输数据时,获取单元131通过接收对象传输数据来获取对象传输数据。可选地,例如,当对象传输数据被记录在记录设备11的存储装置中或另一设备(诸如,服务器)的存储装置中时,获取单元131通过从存储装置读取对象传输数据或从另一设备(诸如服务器)接收对象传输数据来获取对象传输数据。
解码单元132对从获取单元131提供的对象传输数据进行解码,并且将所得的对象和移动体相关信息提供至信号处理单元133。由此,将由记录对象空间中的所有记录设备11获得的对象和多条移动体相关信息提供至信号处理单元133。
在步骤S42中,信号处理单元133的同步计算单元161执行从解码单元132提供的每个对象的同步处理,并且将每个同步对象提供至间隔检测单元162和波束成形单元163。
在同步处理中,检测麦克风阵列41之间的偏移或时钟漂移,并且调整对象的输出时间,以便基于检测结果同步对象。
在步骤S43中,间隔检测单元162基于从解码单元132提供的移动体相关信息和预先保存的目标声音或非目标声音的检测器,对从同步计算单元161提供的每个对象执行间隔检测,并且将检测结果提供至波束成形单元163、NR单元164和渲染单元165。
在步骤S44中,波束成形单元163基于从间隔检测单元162提供的间隔检测的结果和从解码单元132提供的移动体相关信息,对从同步计算单元161提供的每个对象执行波束成形。由此,增强或抑制对象中的特定声源的分量。
波束成形单元163将通过波束成形获得的对象提供至NR单元164。
在步骤S45中,NR单元164基于从间隔检测单元162提供的间隔检测的结果,对从波束成形单元163提供的对象执行NR处理,并且将所得对象提供至渲染单元165。
在步骤S46中,渲染单元165的优先级计算单元181基于从NR单元164提供的对象的声压、从间隔检测单元162提供的间隔检测的结果、从解码单元132提供的移动体相关信息、从更高级别控制单元提供的收听相关信息以及由NR单元164执行的NR处理的类型,来计算每个对象的优先级。
在步骤S47中,渲染单元165对从NR单元164提供的对象执行渲染。
即,渲染单元165基于由优先级计算单元181计算的优先级,从NR单元164提供的对象中选择一些作为选择对象。另外,根据需要,渲染单元165针对每个选择对象参考收听相关信息和移动体相关信息,并生成对象声道信号。
此外,渲染单元165基于优先级、选择对象的声压、间隔检测的结果、移动体相关信息、收听相关信息、由NR单元164执行的NR处理的类型等,确定(计算)针对选择对象的每个间隔的合成权重。然后,渲染单元165基于获得的合成权重来加权并求和选择对象的对象声道信号的混合处理,以生成再现数据,并且将再现数据提供至再现单元134。
再现单元134对从渲染单元165提供的再现数据执行DA转换和放大处理,并且将得到的再现数据提供至扬声器135。
在步骤S48中,扬声器135基于从再现单元134提供的再现数据,再现记录对象空间中的收听位置和收听方向的伪声音,并且再现处理终止。
如上所述,再现设备12计算通过每个记录设备11的记录而获得的对象的优先级,并且选择要用于生成再现数据的对象。另外,再现设备12基于选择对象生成再现数据,并且再现记录对象空间中的收听位置和收听方向上的声音。
具体地,在再现设备12中,考虑间隔检测的结果、移动体相关信息、收听相关信息、由NR单元164执行的NR处理的类型等,来执行优先级计算和渲染。由此,这允许高真实感地再现任选收听位置和收听方向上的声音。
<记录处理的描述>
注意,在图8中,描述了在记录设备11中不执行波束成形和NR处理的情况下的记录处理。
然而,在记录设备11配置为图3所示的情况下,在记录设备11中执行波束成形和NR处理。即,进行图10所示的记录处理。
在下文中,将参考图10的流程图描述由图3所示的记录设备11进行的记录处理。
注意,步骤S71的处理与图8的步骤S11的处理类似,并且因此将省略其描述。当执行步骤S71中的处理以获得对象时,通过记录单元42,将对象从麦克风阵列41提供至信号处理单元71的间隔检测单元101和波束成形单元102。
在步骤S72中,间隔检测单元101基于从测距装置43提供的移动体相关信息和预先保存的目标声音或非目标声音的检测器,对从记录单元42提供的对象执行间隔检测,并且将检测结果提供至波束成形单元102和NR单元103。
在步骤S73中,波束成形单元102基于从间隔检测单元101提供的间隔检测的结果和从测距装置43提供的移动体相关信息,对从记录单元42提供的对象执行波束成形。由此,增强或抑制对象中的特定声源的分量。
波束成形单元102将通过波束成形获得的对象提供至NR单元103。
在步骤S74中,NR单元103基于从间隔检测单元101提供的间隔检测的结果,对从波束成形单元102提供的对象执行NR处理,并且将所得对象提供至编码单元44。
注意,在这种情况下,不仅经历NR处理的对象,而且指示由间隔检测单元101获得的间隔检测的结果或由NR单元103执行的NR处理的类型的信息都可从NR单元103提供至编码单元44。
在以这种方式执行NR处理之后,执行步骤S75和S76中的处理,并且记录处理终止。步骤S75和S76中的这些处理与图8中的步骤S12和S13中的处理类似,并且因此将省略其描述。
然而,在步骤S75中,在NR单元103向编码单元44提供指示间隔检测的结果或由NR单元103执行的NR处理的类型的信息的情况下,编码单元44生成不仅包括对象和移动体相关信息而且包括指示间隔检测的结果或由NR单元103执行的NR处理的类型的信息的对象传输数据。
以这种方式,记录设备11对通过记录获得的对象执行波束成形和NR处理以生成对象传输数据。
如果每个记录设备11执行如上所述的波束成形和NR处理,则再现设备12不需要对所有对象都执行波束成形和NR处理。这可减少再现设备12的处理负荷。
<再现处理的描述>
另外,当每个记录设备11执行参考图10所述的记录处理时,再现设备12响应于记录处理而执行例如图11所示的再现处理。
下面将参考图11的流程图描述再现设备12的再现处理。在这种情况下,再现设备12配置为图7所示。
当再现处理开始时,执行步骤S101的处理以获取对象传输数据。由于步骤S101的处理与图9的步骤S41的处理类似,因此将省略其描述。
然而,在步骤S101中,当对象传输数据由获取单元131获取并且由解码单元132解码时,通过解码获得的对象和移动体相关信息从解码单元132提供至渲染单元165。另外,在对象传输数据包括指示间隔检测的结果或由NR单元103执行的NR处理的类型的信息的情况下,指示间隔检测的结果或NR处理的类型的信息也从解码单元132提供至渲染单元165。
在步骤S102中,渲染单元165的优先级计算单元181基于从解码单元132提供的移动体相关信息、每个对象的声压和从更高级别控制单元提供的收听相关信息,计算每个对象的优先级。
注意,当从解码单元132提供指示间隔检测的结果或NR处理的类型的信息时,优先级计算单元181通过使用指示间隔检测的结果的信息或指示NR处理的类型的信息来计算优先级。
在步骤S103中,渲染单元165对从解码单元132提供的对象执行渲染。
即,在步骤S103中,执行与图9的步骤S47类似的处理,并且生成再现数据。当从解码单元132提供指示间隔检测的结果或NR处理的类型的信息时,指示间隔检测的结果或NR处理的类型的信息用于根据需要确定合成权重。
当通过渲染生成再现数据时,渲染单元165将获得的再现数据提供至再现单元134。再现单元134对从渲染单元165提供的再现数据执行DA转换或放大处理,并且将得到的再现数据提供至扬声器135。
在再现数据被提供至扬声器135之后,执行步骤S104的处理,并且再现处理终止。步骤S104的处理与图9的步骤S48的处理类似,并且因此将省略其描述。
如上所述,再现设备12基于通过每个记录设备11的记录而获得的对象生成再现数据,并且再现记录对象空间中的收听位置和收听方向上的声音。在这种情况下,再现设备12不需要特别地执行间隔检测、波束成形和NR处理,并且因此能够以较小的处理量而高真实感地再现任选收听位置和收听方向的声音。
注意,当在记录设备11中进行参考图10描述的记录处理时,同样可在图5所示的再现设备12中进行参考图9描述的再现处理。
<第二实施方式>
<声场再现系统的配置实例>
虽然已作为实例描述了每个记录设备11向再现设备12单独传输对象传输数据的情况,但可收集几条对象传输数据并将其一起传输至再现设备12。
在这种情况下,例如,声场再现系统配置为图12所示。另外,图12中的与图1对应的部分将标注为相同参考标号,并且将适当省略其描述。
图12所示的声场再现系统包括记录设备11-1至记录设备11-5、记录设备211-1、记录设备211-2和再现设备12。
另外,为了具体说明的目的,假设图12所示的声场再现系统实现正在进行足球比赛的场地的声场的记录和再现。
在这种情况下,例如,将各记录设备11附接至足球运动员。另外,记录设备211-1和记录设备211-2附接至足球运动员、裁判员等。类似于记录设备11,记录设备211-1和记录设备211-2还具有用于记录声场的功能。
注意,如果在下文中不必将记录设备211-1与记录设备211-2彼此区分,则它们也被简称为记录设备211。尽管本文将描述在记录对象空间中布置两个记录设备211的实例,但是可使用任何数量的记录设备211。
在作为记录对象空间的足球场上,附接至运动员、裁判员等的记录设备11和记录设备211分散布置。
另外,记录设备211中的每一个从其附近的记录设备11获取对象传输数据。
在该实例中,记录设备11-1至记录设备11-3将对象传输数据传输至记录设备211-1,并且记录设备11-4和记录设备11-5将对象传输数据传输至记录设备211-2。
注意,每个记录设备211从哪个记录设备11接收对象传输数据可预先确定或者可动态确定。例如,如果动态确定从哪个记录设备11接收对象传输数据,则最靠近记录设备11的记录设备211可从该记录设备11接收对象传输数据。
记录设备211记录声场以生成对象传输数据,选择生成的对象传输数据以及从记录设备11接收的一些对象传输数据,并且仅将所选择的对象传输数据传输至再现设备12。
注意,在记录设备211中,在自身生成的对象传输数据和从一个或多个记录设备11接收的对象传输数据中,所有对象传输数据可被传输至再现设备12,或者仅一条或多条对象传输数据可被传输至再现设备12。
在选择要传输至再现设备12的对象传输数据时,例如,可基于包括在每条对象传输数据中的移动体相关信息来执行选择。
具体地,例如,参考移动体相关信息的声音收集位置移动信息,可选择运动量小的移动体的对象传输数据。在这种情况下,可选择具有较少噪声的高质量对象的对象传输数据。
另外,例如,可基于移动体相关信息的移动体位置信息,来选择位于彼此分离的位置处的移动体的对象传输数据。换言之,如果存在多个非常靠近的移动体,则可仅选择那些移动体之一的对象传输数据。这可防止类似对象被传输至再现设备12,并且可减少传输量。
此外,例如,可基于移动体相关信息的移动体方位信息,来选择面向不同方向的移动体的对象传输数据。换言之,如果存在多个面向相同方向的移动体,则可仅选择那些移动体之一的对象传输数据。这可防止类似对象被传输至再现设备12,并且可减少传输量。
再现设备12接收从记录设备211传输的对象传输数据,基于接收的对象传输数据生成再现数据,并且在预定收听位置和收听方向上再现声音。
以此方式,记录设备211收集由记录设备11获得的对象传输数据,并且从多条对象传输数据中选择要被提供至再现设备12的对象传输数据。这可减少传输至再现设备12的对象传输数据的传输量。另外,由于还减少了要传输至再现设备12的对象传输数据的条数以及再现设备12的通信次数,所以还可减少再现设备12中的处理量。声场再现系统的这种配置在记录设备11的数量大的情况下是特别有用的。
<记录设备的配置实例>
注意,记录设备211可具有与记录设备11类似的记录功能,或者可不具有记录功能,并且仅从收集自记录设备11收集的对象传输数据中选择要传输至再现设备12的对象传输数据。
例如,在记录设备211具有记录功能的情况下,记录设备211配置为图13所示。
图13所示的记录设备211包括麦克风阵列251、记录单元252、测距装置253、编码单元254、获取单元255、选择单元256和输出单元257。
注意,麦克风阵列251至编码单元254对应于记录设备11的麦克风阵列41至编码单元44,并执行与麦克风阵列41至编码单元44类似的操作,并且因此将省略其描述。
获取单元255接收从记录设备11的输出单元45无线传输的对象传输数据,以便从记录设备11获取(收集)对象传输数据,并且将获取的对象传输数据提供至选择单元256。
选择单元256从获取单元255提供的一条或多条对象传输数据和从编码单元254提供的对象传输数据中,选择要传输至再现设备12的一条或多条对象传输数据,并将所选择的对象传输数据提供至输出单元257。
输出单元257输出从选择单元256提供的对象传输数据。
例如,在输出单元257具有无线传输功能的情况下,输出单元257将对象传输数据无线传输至再现设备12。
另外,例如,在记录设备211包括存储装置的情况下,输出单元257将对象传输数据输出至存储装置并且将对象传输数据记录在存储装置中。在这种情况下,在任选时间,由再现设备12直接或间接读取记录在存储装置中记录的对象传输数据。
通过提供如上所述的收集记录设备11的对象传输数据并选择要传输至再现设备12的对象传输数据的记录设备211,可减少对象传输数据的传输量和再现设备12中的处理量。
<计算机的配置实例>
顺便提及,上述一系列处理可由硬件或软件执行。在通过软件执行一系列处理的情况下,构成软件的程序被安装在计算机上。这里,计算机的实例包括结合至专用硬件的计算机以及诸如能够通过安装在其上的各种程序执行各种功能的通用个人计算机等的计算机。
图14是使用程序执行上述一系列处理的计算机的硬件的配置实例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504彼此连接。
输入/输出接口505进一步连接至总线504。输入部506、输出部507、记录部508、通信部509和驱动器510连接至输入/输出接口505。
输入部506包括例如键盘、鼠标、麦克风和成像装置。输出部507包括例如,显示器和扬声器。记录部508例如,包括硬盘和非易失性存储器。通信部509包括例如,网络接口。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质511。
在具有上述配置的计算机中,例如,通过CPU 501将存储在记录部508中的程序加载至RAM 503并经由输入/输出接口505和总线504执行该程序,来执行上述一系列处理。
例如,由计算机(CPU 501)执行的程序可通过记录在用作例如封装介质的可移除记录介质511中来提供。另外,可经由有线或无线传输介质(例如,局域网、互联网或数字卫星广播)来提供程序。
在计算机中,可通过将可移除记录介质511安装在驱动器510上,经由输入/输出接口505将程序安装在记录部508上。另外,程序可经由有线或无线传输介质由通信单部509接收以便被安装在记录部508上。此外,程序可预先安装在ROM 502或记录部508上。
注意,由计算机执行的程序可以是其中按照本文描述的顺序按时间顺序执行处理的程序,或者可以是其中并行执行处理或者在诸如调用时的必要时刻执行处理的程序。
此外,本技术的实施方式不限于上述实施方式,并且在不背离本技术的主旨的情况下,可对其进行各种修改。
例如,本技术还可具有云计算的配置,其中,多个设备共享单个功能的任务,并且经由网络协同工作以执行单个功能。
此外,除了由单个设备执行之外,使用上述流程图描述的步骤可由要执行的多个设备共享。
此外,除了由单个设备执行之外,当单个步骤包括多个处理时,包括在单个步骤中的多个处理可由要执行的多个设备共享。
此外,本技术可具有以下配置。
(1)一种信号处理设备,包括:
渲染单元,该渲染单元基于附接至对象空间中的多个移动体的麦克风的记录信号,生成对象空间中的任选收听位置处的声音的再现数据。
(2)根据(1)所述的信号处理设备,其中,
渲染单元在针对各个移动体获得的记录信号中选择一个或多个记录信号,并且基于所选择的一个或多个记录信号生成再现数据。
(3)根据(2)所述的信号处理设备,其中,
渲染单元基于记录信号的优先级,选择要用于生成再现数据的记录信号。
(4)根据(3)所述的信号处理设备,进一步包括:
优先级计算单元,该优先级计算单元基于记录信号的声压、相对于记录信号的目标声音或非目标声音的间隔检测的结果、对记录信号执行的降噪处理的类型、移动体在对象空间中的位置、移动体所面向的方向、与移动体的运动相关的信息、收听位置、虚拟收听者在收听位置处所面向的收听方向、与收听者的运动相关的信息或指示指定声源的信息中的至少一项,来计算优先级。
(5)根据(4)所述的信号处理设备,其中,
优先级计算单元计算优先级,使得更接近收听位置的移动体的记录信号具有更高优先级。
(6)根据(4)或(5)所述的信号处理设备,其中,
优先级计算单元计算优先级,使得具有更小移动量的移动体的记录信号具有更高优先级。
(7)根据(4)至(6)中任一项所述的信号处理设备,其中,
优先级计算单元基于间隔检测的结果或降噪处理的类型来计算优先级,使得具有更少噪声的记录信号具有更高优先级。
(8)根据(4)至(7)中任一项所述的信号处理设备,其中,
优先级计算单元基于间隔检测的结果来计算优先级,使得不包括非目标声音的记录信号具有更高优先级。
(9)根据(8)所述的信号处理设备,其中,
非目标声音是预定不文雅用语的话语声、衣服的摩擦声、振动声音、接触声音、风噪声或噪声。
(10)根据(4)至(9)中任一项所述的信号处理设备,其中,
渲染单元通过基于优先级、记录信号的声压、间隔检测的结果、降噪处理的类型、移动体在对象空间中的位置、移动体所面向的方向、与移动体的运动相关的信息、收听位置、收听方向、与收听者的运动相关的信息或指示指定声源的信息中的至少一项,对所选择的一个或多个记录信号进行加权和求和,来生成再现数据。
(11)根据(10)所述的信号处理设备,其中,
渲染单元生成收听位置处的收听方向上的再现数据。
(12)一种信号处理设备,包括:
由信号处理设备基于附接至对象空间中的多个移动体的麦克风的记录信号,生成对象空间中的任选收听位置处的声音的再现数据。
(13)一种程序,使计算机执行包括以下步骤的处理:
基于附接至对象空间中的多个移动体的麦克风的记录信号,生成对象空间中的任选收听位置处的声音的再现数据。
参考符号列表
11-1至11-5、11 记录设备
12 再现设备
133 信号处理单元
134 再现单元
162 间隔检测单元
163 波束成形单元
164 NR单元
165 渲染单元
181 优先级计算单元
Claims (10)
1.一种信号处理设备,包括:
优先级计算单元,基于以下中的至少一项来计算多个记录信号中的每个记录信号的优先级:每个记录信号的声压、相对于每个记录信号的目标声音或非目标声音的间隔检测的结果、对每个记录信号执行的降噪处理的类型、多个移动体中的相应移动体在对象空间中的位置、相应移动体所面向的方向、与相应移动体的运动相关的信息、任选收听位置、虚拟收听者在所述任选收听位置处所面向的收听方向、与所述虚拟收听者的运动相关的信息以及指示指定声源的信息;其中,所述多个记录信号对应于分别附接至所述对象空间中的所述多个移动体的多个麦克风,
渲染单元,在针对各个所述移动体获得的所述多个记录信号中选择具有等于或高于预定值的优先级的至少一个记录信号,并且基于所选择的所述至少一个记录信号,生成所述对象空间中的所述任选收听位置处的声音的再现数据。
2.根据权利要求1所述的信号处理设备,其中,
所述优先级计算单元计算所述优先级,使得越接近所述收听位置的所述移动体的所述记录信号具有越高的优先级。
3.根据权利要求1所述的信号处理设备,其中,
所述优先级计算单元计算所述优先级,使得具有越小移动量的所述移动体的所述记录信号具有越高的优先级。
4.根据权利要求1所述的信号处理设备,其中,
所述优先级计算单元基于所述间隔检测的结果或所述降噪处理的类型来计算所述优先级,使得具有越少噪声的所述记录信号具有越高优先级。
5.根据权利要求1所述的信号处理设备,其中,
所述优先级计算单元基于所述间隔检测的结果来计算所述优先级,使得不包括所述非目标声音的所述记录信号具有更高优先级。
6.根据权利要求5所述的信号处理设备,其中,
所述非目标声音是预定不当的话语声、衣服的摩擦声、振动声音、接触声音、风声或噪声。
7.根据权利要求1所述的信号处理设备,其中,
所述渲染单元通过基于以下中的至少一项,对所选择的一个或多个所述记录信号进行加权和求和,来生成所述再现数据:所述优先级、所述记录信号的所述声压、所述间隔检测的结果、所述降噪处理的类型、所述移动体在所述对象空间中的位置、所述移动体所面向的方向、与所述移动体的运动相关的信息、所述收听位置、所述收听方向、与所述收听者的运动相关的信息以及指示所述指定声源的信息。
8.根据权利要求7所述的信号处理设备,其中,
所述渲染单元在所述收听位置处生成所述收听方向的所述再现数据。
9.一种信号处理方法,包括:
基于以下中的至少一项来计算多个记录信号中的每个记录信号的优先级:每个记录信号的声压、相对于每个记录信号的目标声音或非目标声音的间隔检测的结果、对每个记录信号执行的降噪处理的类型、多个移动体中的相应移动体在对象空间中的位置、相应移动体所面向的方向、与相应移动体的运动相关的信息、任选收听位置、虚拟收听者在所述任选收听位置处所面向的收听方向、与所述虚拟收听者的运动相关的信息以及指示指定声源的信息;其中,所述多个记录信号对应于分别附接至所述对象空间中的所述多个移动体的多个麦克风,
在针对各个所述移动体获得的所述多个记录信号中选择具有等于或高于预定值的优先级的至少一个记录信号,并且基于所选择的所述至少一个记录信号,生成所述对象空间中的所述任选收听位置处的声音的再现数据。
10.一种计算机可读存储介质,存储有程序,所述程序使计算机执行根据权利要求9所述的信号处理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018068490 | 2018-03-30 | ||
JP2018-068490 | 2018-03-30 | ||
PCT/JP2019/010763 WO2019188394A1 (ja) | 2018-03-30 | 2019-03-15 | 信号処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111903143A CN111903143A (zh) | 2020-11-06 |
CN111903143B true CN111903143B (zh) | 2022-03-18 |
Family
ID=68058316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980021290.9A Active CN111903143B (zh) | 2018-03-30 | 2019-03-15 | 信号处理设备和方法以及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11159905B2 (zh) |
CN (1) | CN111903143B (zh) |
WO (1) | WO2019188394A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11310619B2 (en) | 2017-12-12 | 2022-04-19 | Sony Corporation | Signal processing device and method, and program |
US20220360930A1 (en) * | 2019-11-13 | 2022-11-10 | Sony Group Corporation | Signal processing device, method, and program |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09182044A (ja) * | 1995-12-25 | 1997-07-11 | Matsushita Electric Ind Co Ltd | テレビ会議装置 |
US6934461B1 (en) * | 1999-01-05 | 2005-08-23 | Interval Research Corporation | Low attention recording, with particular application to social recording |
KR20050047085A (ko) * | 2002-07-31 | 2005-05-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 처리 시스템 |
US20050135633A1 (en) * | 2003-12-19 | 2005-06-23 | Denmark George T.Jr. | Audio system |
JP2007318373A (ja) * | 2006-05-25 | 2007-12-06 | Kobe Steel Ltd | 音声入力装置、音源分離装置 |
US8411880B2 (en) | 2008-01-29 | 2013-04-02 | Qualcomm Incorporated | Sound quality by intelligently selecting between signals from a plurality of microphones |
EP2537350A4 (en) * | 2010-02-17 | 2016-07-13 | Nokia Technologies Oy | PROCESSING AN AUDIO RECORDING OF MULTIPLE DEVICES |
JP6248930B2 (ja) * | 2012-07-13 | 2017-12-20 | ソニー株式会社 | 情報処理システムおよびプログラム |
BR112016022042B1 (pt) * | 2014-03-24 | 2022-09-27 | Samsung Electronics Co., Ltd | Método para renderizar um sinal de áudio, aparelho para renderizar um sinal de áudio, e meio de gravação legível por computador |
CN106165402A (zh) | 2014-04-22 | 2016-11-23 | 索尼公司 | 信息再现装置、信息再现方法、信息记录装置和信息记录方法 |
CN106162500B (zh) * | 2015-04-08 | 2020-06-16 | 杜比实验室特许公司 | 音频内容的呈现 |
US10242713B2 (en) * | 2015-10-13 | 2019-03-26 | Richard A. ROTHSCHILD | System and method for using, processing, and displaying biometric data |
-
2019
- 2019-03-15 WO PCT/JP2019/010763 patent/WO2019188394A1/ja active Application Filing
- 2019-03-15 US US17/040,321 patent/US11159905B2/en active Active
- 2019-03-15 CN CN201980021290.9A patent/CN111903143B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20210029485A1 (en) | 2021-01-28 |
CN111903143A (zh) | 2020-11-06 |
WO2019188394A1 (ja) | 2019-10-03 |
US11159905B2 (en) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5334037B2 (ja) | 音源の位置検出方法及びシステム | |
CN109313907B (zh) | 合并音频信号与空间元数据 | |
CN108369811B (zh) | 分布式音频捕获和混合 | |
CN108370471A (zh) | 分布式音频捕获和混合 | |
JP6834971B2 (ja) | 信号処理装置、信号処理方法、並びにプログラム | |
KR20120053006A (ko) | 개선된 오디오/비디오 방법들 및 시스템들 | |
WO2013186593A1 (en) | Audio capture apparatus | |
CN111903143B (zh) | 信号处理设备和方法以及计算机可读存储介质 | |
KR20220023348A (ko) | 신호 처리 장치 및 방법, 그리고 프로그램 | |
US10998870B2 (en) | Information processing apparatus, information processing method, and program | |
US11388512B2 (en) | Positioning sound sources | |
US11122381B2 (en) | Spatial audio signal processing | |
WO2014053875A1 (en) | An apparatus and method for reproducing recorded audio with correct spatial directionality | |
US20160277836A1 (en) | Acquisition of spatialized sound data | |
US11212637B2 (en) | Complementary virtual audio generation | |
JP7457525B2 (ja) | 受信装置、コンテンツ伝送システム、及びプログラム | |
CN110677781B (zh) | 利用编码光线引导扬声器阵列和麦克风阵列的系统和方法 | |
WO2014091281A1 (en) | An apparatus aligning audio signals in a shared audio scene | |
CN110890100B (zh) | 语音增强、多媒体数据采集、播放方法、装置及监控系统 | |
EP2666309A1 (en) | An audio scene selection apparatus | |
WO2012171584A1 (en) | An audio scene mapping apparatus | |
US20220360930A1 (en) | Signal processing device, method, and program | |
WO2010131105A1 (en) | Synchronization of audio or video streams | |
JP7321736B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2021054152A1 (ja) | 信号処理装置および方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |