CN116438579A - 用于在环境中传送声景的方法和设备 - Google Patents

用于在环境中传送声景的方法和设备 Download PDF

Info

Publication number
CN116438579A
CN116438579A CN202180074114.9A CN202180074114A CN116438579A CN 116438579 A CN116438579 A CN 116438579A CN 202180074114 A CN202180074114 A CN 202180074114A CN 116438579 A CN116438579 A CN 116438579A
Authority
CN
China
Prior art keywords
environment
virtual object
soundscape
void region
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180074114.9A
Other languages
English (en)
Inventor
塞缪尔·麦克德莫特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inter Ikea Systems BV
Original Assignee
Inter Ikea Systems BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inter Ikea Systems BV filed Critical Inter Ikea Systems BV
Publication of CN116438579A publication Critical patent/CN116438579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/04Architectural design, interior design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)

Abstract

提供了用于在真实世界室内场景形式的环境中渲染声景的方法。方法包括以下步骤:记录环境中的当前声景,识别环境中的空区域,选择要放置在空区域处的虚拟对象,使用当前声景和所选择的虚拟对象的吸声特性在环境中渲染更新的声景,播放渲染的更新的声景,以及显示放置在空区域处的所选择的虚拟对象。

Description

用于在环境中传送声景的方法和设备
技术领域
本公开内容属于用于在环境中传送声景的方法和设备。
背景技术
用于使用例如智能电话的相机在环境中放置虚拟对象的应用对于商业或私人使用是常见的。当今的智能电话在确定环境例如家里的房间的空间特性方面越来越准确。不仅处理器的计算能力使得能够在计算上要求对象或图像分割算法以进入智能电话分段,而且利用例如基于激光的技术的3D相机已经开始补充普通智能电话相机模块。因此,在这样的应用中渲染3D空间的增加的准确度可以使得用户能够通过在房间中包括真实渲染的虚拟对象来布置家里。因此,用户在实际购买和在房间中物理地安装虚拟对象之前,可以看到和评估包括这样的对象的更新的环境。
然而,用于放置虚拟对象的应用没有考虑基于虚拟对象的声学特性的环境的声景的改变。因此,需要用于在环境中传送声景以在环境中包括虚拟对象时补充视觉渲染的方法。
发明内容
因此,本发明的目的是提供用于在环境中传送声景的方法。
根据本发明的第一方面,提供了一种用于在真实世界室内场景形式的环境中渲染声景的方法,所述方法包括以下步骤:
-记录环境中的当前声景,
-识别环境中的空区域,
-选择要放置在空区域处的虚拟对象,
-使用当前声景和所选择的虚拟对象的吸声特性在环境中渲染更新的声景,
-播放所渲染的更新的声景,以及
-显示放置在空区域处的所选择的虚拟对象。
本文中所指的声景是人类所感知的真实声学环境或人工声学环境。
记录环境中的当前声景旨在模拟实际空间的声景。这样的实际空间可以是家里的房间等。虚拟对象可以是要放置在家里的真实对象例如一件家具的照片的真实感渲染。虚拟对象也可以是主要旨在用作吸声对象例如放置在墙壁等上的吸声板的对象。虚拟对象可以是具有吸声特性的一件家具,例如窗帘、地毯等。
方法允许用户不仅在视觉上体验包括叠加的虚拟对象的环境,而且还在声学上体验包括这样的叠加的虚拟对象的环境。然后,用户可以在环境中包括虚拟对象之前和之后比较声景,并且评估虚拟对象的吸声特性。这样的虚拟比较可以是选择和尝试安装在家里的吸声对象、节省时间和成本、以及通过避免不必要的运输来减少环境污染的经济和环境友好的选项。
方法还可以包括:
-确定空区域的尺寸,其中,选择虚拟对象是基于空区域的尺寸。
这可以为用户节省时间,并且可以减少用户相关错误等。用户可以手动选择环境中的空区域,其中,可以确定这样的空区域的尺寸。
方法还可以包括:
-对空区域的类型进行分类,其中,空区域的类型包括地板、墙壁、天花板、窗户和门中的一个或更多个,
-基于空区域的类型来确定候选虚拟对象的列表,
-其中,选择要放置在空区域处的虚拟对象的动作是通过选择列表中的候选虚拟对象之一作为要放置在空区域处的虚拟对象来执行的。
可以使用图像搜索算法来执行空区域的分类。在本公开内容内,图像搜索算法可以被理解为这样的算法,其用于在数据库中搜索与图像的对象相似的对象的图像,并且使用结果对对象进行分类,即,在数据库中从一组相似图像中搜索相似对象的标签或分类。在提交本公开内容时,已知的商业图像搜索算法的示例包括Google图像、Google Lens、TinEye和阿里巴巴拍立淘(Alibabas Pailitao)。
这允许在具有吸声特性并适合于空区域的类型的虚拟对象的列表中进行选择例如针对窗户在窗帘或卷帘中进行选择的快速且方便的方式。用户可以在虚拟对象之间手动选择,从而实现关于用户的声景偏好的灵活性。如果用户经历图像搜索算法的不准确分类,则用户可以提供主观反馈以改进图像搜索算法。
更新的声景可以被实时地渲染。更新的声景可以通过记录和存储当前声景并且此后通过基于所选择的虚拟对象的吸声特性调整所存储的当前声景来渲染更新的声景来渲染。
实时地渲染更新的声景允许用户评估更新的声景,就好像虚拟对象实际被放置在环境中一样。这提供了对更新的声景的高效评估。通过使得能够调整所存储的当前声景,增强了方法的灵活性。例如,这可以使得能够根据用户的声景偏好来调谐声景,从而导致例如虚拟对象的尺寸的更新。
吸声特性可以包括虚拟对象的每单位面积的吸声水平与虚拟对象的面积的乘积。
这允许例如在改变虚拟对象的尺寸时虚拟对象的吸声特性的准确且计算高效的建模。
当前声景的记录可以包括:
-使用麦克风阵列记录环境中的声音,以及
-对所记录的声音应用3D声音定位算法。
通过使用麦克风阵列,使得能够定位环境中的声源。优选地,使用至少两个麦克风来捕获所记录的声音。至少两个麦克风优选地位于或接近用户的耳道。所记录的声音由此可以准确地捕获用户的头部、用户的耳朵的形状等对声音的影响。所记录的声音因此可以模拟由用户观察到的声音,以进一步增强真实地渲染的当前声景。
3D声音定位算法使得能够确定三维空间中的声源。3D声音定位算法可以是双耳听觉模型,使得能够通过麦克风之间到达声音的时间延迟来确定到达声音的角度。其他3D声音定位算法同样是合理的。
识别环境中的空区域可以包括对环境的图像应用对象分割算法。因此,可以使用合适的2D图像分析算法从环境的图像中高效地确定环境中的空区域。这进一步降低了捕获环境的设备的所需复杂度。
方法可以包括生成环境的3D模型,其中,识别环境中的空区域包括对环境的3D模型应用对象分割算法。
可以使用360度相机通过缝合或部分合并从用户的位置在多个方向上捕获的一系列图像来生成环境的3D模型。替选地,可以由3D扫描仪所捕获的点云生成环境的3D模型。3D扫描仪可以基于任何3D扫描技术,例如利用飞行时间激光器、光检测和测距(LIDAR)激光器、基于锥光全息的方法、基于相移的方法、基于三角测量的方法等。对象分割算法可以应用于任何类型的3D模型,与上述类似。使用环境的3D模型来识别空区域可以提高确定空区域的尺寸和类型的准确度。例如,当前的智能电话技术利用由相机捕获的组合图像和相机的移动来确定距离、区域等。这样的测量的不足可以通过使用例如3D扫描仪生成环境的3D模型来克服。环境和对象的更复杂的几何形状例如测量弯曲对象或空间的距离还可以由这样的3D模型处理。可以使用任何类型的真实捕获设备来生成环境的3D模型。
根据本发明的第二方面,提供了一种非暂态计算机可读存储介质,其上存储有程序代码部分,该程序代码部分用于当在具有处理能力的设备上执行时实现根据第一方面的方法。
方法的以上提及的特征在适用时也应用于该第二方面。为了避免不适当的重复,请参考以上内容。
根据本发明的第三方面,提供了一种电子设备,该电子设备包括:
-麦克风阵列,其被配置成记录呈真实世界室内场景形式的环境的当前声景,
-设备,其被配置成捕获环境的物理结构的数字表示,
-电路系统,其被配置成执行:
-声景记录功能,其被配置成通过分析由麦克风阵列记录的声音来记录环境的当前声景,
-空区域识别功能,其被配置成从环境的物理结构的数字表示中识别环境中的空区域,
-虚拟对象选择功能,其被配置成选择要放置在环境中的空区域处的虚拟对象,
-其中,声景记录功能还被配置成使用当前声景和所选择的虚拟对象的吸声特性在环境中渲染更新的声景,
-电子设备还包括:
-扬声器,其被配置成播放更新的声景,
-显示器,其被配置成显示放置在空区域处的所选择的虚拟对象。
方法的以上提及的特征在适用时也应用于该第三方面。为了避免不适当的重复,请参考以上内容。
电路系统还可以被配置成执行:
-尺寸确定功能,其被配置成确定空区域的尺寸,其中,虚拟对象选择功能被配置成基于空区域的尺寸来选择虚拟对象。
电路系统还可以被配置成执行:
-类型分类功能,其被配置成对空区域的类型进行分类,其中,空区域的类型包括地板、墙壁、天花板、窗户和门中的一个或更多个,
-候选虚拟对象确定功能,其被配置成基于空区域的类型来确定候选虚拟对象的列表,
-其中,虚拟对象选择功能被配置成选择列表中的候选虚拟对象之一作为要放置在空区域处的虚拟对象。
空区域识别功能可以被配置成通过对环境的物理结构的数字表示应用对象分割算法来识别环境中的空区域。
电路系统还可以被配置成执行被配置成生成环境的3D模型的3D建模功能,其中,空区域识别功能被配置成通过对环境的3D模型应用对象分割算法来识别环境中的空区域。
电子设备可以在增强现实AR设备或虚拟现实VR设备中实现。
通常,除非本文中另有明确定义,否则权利要求中所使用的所有术语根据其在技术领域中的通常含义来解释。除非另有明确说明,否则对“一/一种/该[元件、设备、部件、器件、步骤等]”的所有提及将被开放地解释为是指所述元件、设备、部件、器件、步骤等的至少一个实例。除非明确说明,否则本文中所公开的任何方法的步骤不必按照所公开的确切顺序执行。
附图说明
参照附图,通过以下对优选实施方式的说明性和非限制性详细描述,将更好地理解本发明的上述以及附加目的、特征和优点,在附图中,相同的附图标记将用于类似的元件,在附图中:
图1示意性地示出了所公开的方法的示例的流程图。
图2示意性地示出了声波针对虚拟对象的反射。
图3示意性地示出了可以在其上实现方法的电子设备。
图4示意性地示出了其中可以应用包括所实现的方法的电子设备的环境。
具体实施方式
下面将参照附图更充分地描述本发明,在附图中示出了本发明的当前优选实施方式。然而,本发明可以以多种不同的形式实施,并且不应当被解释为限于本文中所阐述的实施方式;而是,提供这些实施方式是为了彻底性和完整性,并且将本发明的范围充分地传达给技术人员。
图1示意性地示出了用于在环境中渲染声景的方法100的流程图。尽管结合图1以特定顺序公开了方法的步骤/动作,但是应当理解,可以以任何合适的顺序执行方法的步骤/动作。
方法100包括记录10环境1000中的当前声景。环境1000为室内场景,特别是真实世界室内场景,例如包括墙壁500、天花板510和地板520的房间;参见图4,其示出了其中可以应用包括所实现的方法100的电子设备200的示例环境1000。环境1000可以是家里的房间。环境1000可以被布置。所记录的声音可以源自来自环境内部的声源600和来自环境外部的声源中的任一个或二者。在环境是室内场景的情况下,来自环境内部的声源600的示例可以是来自通风系统、热泵、洗衣机等的声音。在这样的情况下,来自环境外部的声源的示例可以是阵风、道路交通等。因此,至少部分声音可以被认为是噪声。
可以使用一种类型的传感器结构来记录环境1000中的当前声景。可以使用麦克风阵列210来记录环境1000中的当前声景。麦克风阵列210可以包括多个麦克风。多个麦克风可以位于或接近用户的耳道。包括麦克风阵列210的合适的设备的示例是一组耳机700。一组耳机700的示例可以是耳塞式耳机、耳机和耳罩耳机。麦克风可以内置于一对耳机中,其中各个耳机包括至少一个麦克风210。各个耳机可以包括多个麦克风210。用户可以在记录和/或播放环境1000的声音的同时佩戴麦克风210。
替选地,双耳听觉机器人头部可以用于采用以上提及的麦克风阵列210的这样的记录。这样的双耳听觉机器人头部可以具有与人的头部类似的声学特性,并且由此能够真实地捕获环境中的声音。
本声景的记录10可以包括对所记录的声音应用3D声音定位算法。
3D声音定位算法可以是以下中的任何一种:双耳听觉模型,转向波束形成器方法,并置麦克风方法,用于双耳听觉的学习方法,头部相关传递函数,互功率谱相位分析,2D传感器线阵列和分层模糊人工神经网络方法。可以使用任何类型的空间音频算法或空间音频记录设备。
3D声音定位算法可以有利地是双耳听觉模型。双耳听觉模型通过麦克风之间到达声音的时间延迟来确定到达声音的角度。麦克风210可以如上所述布置,即例如布置在一对耳机中。
方法100还包括识别环境1000中的空区域400。空区域400的识别20可以包括对环境1000的物理结构的数字表示应用对象分割算法。环境1000的物理结构的数字表示可以是显示环境1000的图像。图像可以是二维2D图像。这样的2D图像可以单独用作应用对象分割算法的基础。图像可以是光栅图形类型或矢量图形类型。对象分割算法可以通过使用图像作为输入来识别环境1000中的对象,并且基于所识别的对象的列表来提供输出。可以使用任何对象分割算法从图像中分割对象。每个对象可以与对象的可能分类的列表以及每个可能分类的准确度相关联。对象分割算法可以识别环境1000中的空区域400,其中,空区域400可以是地板520、墙壁500、天花板510、窗户540、门550等中的一个或更多个。空区域400可以是环境中的任何类型的空区域,其中声波可以针对基本平坦的表面(如在墙壁/地板/天花板的情况下)反射或进入环境(如在窗户的情况下)并且朝向环境1000的声景的收听者1传播,而基本上不被环境中的对象例如家具、地毯530、窗帘等衰减或减弱。措辞“用户”和“收听者”在下面可以互换使用。
在一个实施方式中,环境1000是包括可以具有或可以不具有窗户和门的墙壁500、天花板510和地板520的房间,并且空区域400是墙壁500、天花板510或地板520的区域,其中声波可以如在墙壁/地板/天花板的情况下针对基本平坦的表面反射,或者如在窗户540或打开的门550的情况下进入环境1000,并且朝向环境1000的声景的收听者1传播,而基本上不被环境的对象例如家具、地毯530、窗帘等衰减或减弱。
可以使用图像搜索算法来执行空区域400的分类。图像搜索算法可以是这样的算法,其用于在数据库中搜索与图像的对象相似的对象的图像,并且使用结果以对对象进行分类。即,图像搜索算法可以从数据库中的一组相似图像中搜索相似对象的标签或类别。在提交本公开内容时,已知的商业图像搜索算法的示例包括Google图像、Google Lens、TinEye和阿里巴巴拍立淘(Alibabas Pailitao)。
环境1000中的空区域400的识别20可以包括生成环境1000的3D模型以及将对象分割算法应用于环境1000的3D模型。可以使用360度相机来生成3D模型,该360度相机用于缝合从用户1的位置在多个方向上捕获的一系列图像。替选地,可以从由3D扫描仪捕获的点云生成3D模型。3D扫描仪可以基于任何已知的3D扫描技术,例如利用飞行时间激光器、光检测和测距(LIDAR)激光器、基于锥光全息的方法、基于相移的方法、基于三角测量的方法等。对象分割算法可以应用于任何类型的3D模型,与上述类似。
空区域400的识别20可以包括确定空区域400的尺寸。可以通过利用对象分割算法、分类算法和点云的相关点的坐标,根据环境1000的点云模型直接计算空区域400的尺寸。如果环境1000和空区域400由普通数字相机捕获,则可以通过在捕获环境1000和空区域400的图像的同时使用内置的加速度计检测相机的运动来计算距离,从而计算空区域400的尺寸。具有普通数字相机和内置的加速度计两者的设备的示例是智能电话800、平板电脑、AR或VR设备等。在这样的情形下,对象分割算法和分类算法可以被相应地应用。由普通数字相机捕获的图像可以是光栅图形类型和矢量图形类型中的任一种或两种。如果图像是光栅图形类型的,则可以通过内置的转换器将图像转换为矢量图形类型。类似地,也可以应用相反的转换。由普通数字相机捕获的图像,即典型地,光栅图形2D图像,可以替选地由三维3D图像补充,其中3D图像可以是点云。确定空区域400的尺寸的其他方式包括通过对图像应用算法,根据图像定义环境1000的3D坐标空间。需要注意的是,存在可以适用于计算3D坐标空间的许多算法。作为示例,可以通过对图像应用平面检测算法、或RANSAC算法或霍夫算法等来计算3D坐标空间。根据3D坐标空间,可以确定环境1000中的限定的对象的位置和尺寸,并且可以从中计算出空区域400的尺寸。
方法100包括选择30要放置在空区域400处的虚拟对象300。虚拟对象300的选择30可以基于空区域400的尺寸。可以选择虚拟对象300的尺寸,使得虚拟对象300适合空区域400的尺寸。空区域400的体积可以等于或大于要放置在空区域400中的选择的虚拟对象300的体积。选择的虚拟对象300可以具有吸声特性。优选地,选择的虚拟对象300具有噪声阻尼特性。选择的虚拟对象300可以具有任何声音改变特性,例如改变环境1000中的混响或其他声学的特性。选择的虚拟对象300也可以具有主动噪声消除特性,例如主动噪声控制设备。如技术人员所理解的,噪声控制是通常为了个人舒适、环境考虑或法律遵循而减少声音发出的主动或被动手段。主动噪声控制可以允许使用能量源的声级降低。这样的声级降低通常利用对某些类型的声音的破坏性干扰,例如周期性或准周期性的噪声。被动噪声控制是通过噪声隔离材料例如绝缘材料、家具、布或其他纺织品、吸声砖或消声器而不是能量源进行的声音降低。
虚拟对象300的选择30可以包括对空区域400的类型的分类,其中空区域400的类型包括地板520、墙壁500、天花板510、窗户540和门550中的一个或更多个。选择30还可以包括基于空区域400的类型来确定候选虚拟对象的列表。可以通过选择列表中的候选虚拟对象之一作为要放置在空区域400处的虚拟对象300来执行选择30要放置在空区域400处的虚拟对象300的动作。
如上所述,空区域400的分类可以形成确定候选虚拟对象的列表的基础。例如,如果空区域400被分类为地板520,则候选虚拟对象之一可以是地毯530等。在下面给出其他示例。
选择的虚拟对象300可以是吸声板300;参见图2。吸声板300包括第一侧310和第二侧320。第一侧310和第二侧320可以横跨基本平行的两个几何平面。第一侧310和第二侧320优选地具有类似的区域几何。吸声板300的总外面积可以由第一侧310和第二侧320的面积的总和主导。当吸声板300放置在空区域400处时,第一侧310和第二侧320中之一面向环境1000,并且其余侧面向墙壁500、天花板510、门550等。在图2中,空区域400是吸声板300与墙壁500之间的交接区域400。吸声板300可以具有任何合适的几何形状。例如,吸声板的第一侧和第二侧的几何形状可以具有矩形几何形状(如图2所示)、四角形几何形状、三角形几何形状、圆形几何形状和椭圆形几何形状中的任一种。吸声板300具有基部面积即第一侧310的区域或第二侧320的区域,以及高度330。高度330是第一侧与第二侧之间的最短距离,即沿基部所横跨的几何平面的法向量的距离。吸声板300的高度330优选地显著小于基部面积的平方根。因此,高度330是吸声板300的厚度。
吸声板300可以放置在墙壁500、天花板510、门550等上。吸声板300也可以放置在书架的一侧或任何其他合适的表面上。
如果空区域400是窗户540,则选择的虚拟对象300可以是窗帘、卷帘等。替选地,选择的虚拟对象300可以是一件家具,例如沙发或扶手椅。选择的虚拟对象的其他示例是枕头、桌布或毯子。
方法100包括使用当前声景和选择的虚拟对象300的吸声特性在环境1000中渲染40更新的声景。更新的声景可以被实时地渲染。替选地,更新的声景可以通过记录和存储当前声景来渲染,并且此后在随后的时间渲染。在这样的存储之后,更新的声景可以通过基于选择的虚拟对象300的吸声特性调整存储的当前声景来渲染。
吸声特性可以包括虚拟对象300的每单位面积的吸声水平与虚拟对象300的面积的乘积。虚拟对象300的每单位面积的吸声水平可以根据经验确定,或者使用任何适当的模型进行理论建模。渲染的更新的声景还取决于传入声音610的入射角A1和虚拟对象300上的反射的声音620的反射角A2。这样的反射高度示意性地示出在图2和图4中。渲染的更新的声景还取决于在记录当前声景的同时使用的麦克风阵列210的各个麦克风的位置。如果虚拟对象300是吸声板300,则虚拟对象300的面积至少在足够的准确度上是面向环境1000的第一侧310或第二侧320中之一的面积,因为吸声板300的厚度330可能相对较小。
如以上所讨论的,当前声景的记录10可以使用例如3D声音定位算法来识别存在于环境1000中的声音的传入角A1,允许计算声音的各个部分的原点。声音的各个部分的起源既可以指实际的声源600,也可以指环境中的位置,在该位置处声音反射/混响以最终被记录和/或被用户1感知。
利用对声景的这种了解,可以通过例如在当前声景中减弱源自虚拟对象300的位置的声音来更新声景,其中,减弱可以使用虚拟对象300的吸声特性来确定。具有高度吸声特性的虚拟对象300意味着与具有较少吸声特性的虚拟对象300相比更多的声音减弱。虚拟对象300的吸声特性可以取决于虚拟对象300的材料、虚拟对象300的尺寸等。与较小尺寸的虚拟对象300相比,相对大尺寸的虚拟对象300可以减弱来自相对大范围的声音传入角610的传入声音610。例如,在吸声板300的情况下,吸声板300的单位面积吸声和吸声板300的面积确定声景的应当被减弱的部分和程度。
减弱可以通过对房间声景的限定部分(例如,具有到达麦克风的相关角度)进行任何合适的过滤来实现。一般地,环境中的声音包括三个组成部分,即直达声、早期反射和混响声。在一个实施方式中,取决于虚拟对象300的吸声特性,以及从虚拟对象300的角度A2到达收听者1(麦克风)的声音620的类型(例如上述组成部分),可以应用不同的滤波器来实现如果虚拟对象300是真实对象则将出现的减弱效果的模拟。在其他实施方式中,可以将低通滤波器、高通滤波器、带通滤波器、带阻滤波器、梳状滤波器、峰值滤波器或搁置滤波器的列表中的一种或更多种应用于环境1000中的来自识别的角度(虚拟对象300放置的位置)的传入声音620。
例如,环境静音与波束成形算法组合以仅从特定角度范围(基于添加的虚拟对象300)使环境1000的声景中的环境声音静音可以用于实现期望功能。
仍然参照图1,方法100包括向用户播放50渲染的更新的声景。然后,用户可以评估包括虚拟对象300的环境1000的声景。可以用被配置成播放更新的声景的扬声器240向用户播放声景。任何种类的这样的扬声器240都是可能的。例如,扬声器240可以被包括在一组耳机700中。这样的一组耳机700可以例如是耳塞式耳机、耳机或耳罩耳机。因此,耳机700可以包括用于记录环境中的声音的麦克风阵列210和用于播放渲染的更新的声景的扬声器240两者。
方法100包括向用户显示60放置在空区域400处的选择的虚拟对象300。用户随后可以关于空区域400的分类、要放置在空区域中的虚拟对象300的尺寸等对方法进行评估。对于显示60,可以使用任何种类的显示器250。这样的显示器250可以包括智能电话800屏幕、平板电脑屏幕、智能眼镜、立体视觉眼镜、计算机等中的任一种。显示60可以包括显示包含虚拟对象300的环境1000。可以向用户1显示包括虚拟对象300的环境1000的一部分,例如房间中的墙壁500。用户1可以例如在显示的增强现实AR中手动地将虚拟对象300移动至环境1000中的任何合适的位置。考虑到虚拟对象300的手动移动,可以顺序地向用户1播放进一步更新的声景。如果方法100呈现了空区域400的不正确分类,则用户1可以提供反馈以防止在将来的类似分类中的这样的不正确分类。例如,如果方法100将空区域400分类为地板520的一部分,则方法可以选择地毯530作为虚拟对象300。然而,如果在这样的情形下实际空区域是墙壁500,则方法100可能将地毯530不正确地放置在墙壁500上。因此,用户1可以提供适当的反馈以用于随后防止方法100执行这样的不准确的分类。
可以由用户1实时地体验播放的环境1000的更新的声景和显示的环境1000两者。替选地,可以由用户1顺序地体验播放的环境1000的更新的声景和显示的环境1000。例如,更新的声景可以在一段时间期间向用户1播放,并且然后关闭。在关闭之后,可以向用户1示出显示的环境1000。另一选项是播放的更新的声景和显示的环境1000之间的任何时间延迟。
可以在连续改变相机220的位置和/或方向的同时在显示器250上连续地显示环境1000。在相机220的这样的移动期间,可以向用户播放更新的声景。替选地,可以记录来自这样的移动的视频,并且可以存储更新的声景。在这样的情形下,在任何可能的后处理之后,视频和存储的更新的声景可以叠加以随后由用户体验。
结合图3,在其上实现所公开的方法100的电子设备200。
电子设备200包括被配置成记录环境1000的当前声景的麦克风阵列210。麦克风阵列210可以是独立式的,使得被配置成例如通过蓝牙、Wi-Fi等与电子设备的电路系统230无线通信212。下面将进一步描述电子设备200的电路系统230。麦克风阵列210还可以通过导线与电路系统230通信212。例如,麦克风阵列210可以内置于一组无线或有线耳机中以用于记录当前声景。该组无线或有线耳机可以是耳机、耳塞式耳机、耳罩耳机等。如果麦克风阵列210内置于一组耳机中,则每个耳机可以包括多个麦克风。麦克风阵列210可以物理地内置于电子设备200中。
电子设备200包括被配置成捕获环境1000的物理结构的数字表示的设备220。环境1000的物理结构可以指可以由用户1视觉感知的信息。因此,环境1000的物理结构可以指可以由相机、3D扫描仪等捕获的信息。被配置成捕获环境1000的物理结构的数字表示的设备220可以是相机或3D扫描仪。在设备220是相机的情况下,相机可以被配置成捕获环境1000的一个或更多个图像。设备220可以是独立式的,使得被配置成通过例如蓝牙、Wi-Fi等与电路系统230无线通信222。设备220可以替选地与电路系统230有线通信222。设备220可以是智能电话800、平板电脑、计算机等的内置相机。设备220可以是普通数字相机。设备220可以是360度相机。设备220可以是基于3D扫描技术的3D扫描仪。这样的3D扫描仪可以内置于智能电话800中。这样的3D扫描仪技术的示例是飞行时间激光器、光检测和测距(LIDAR)激光器、基于锥光全息的方法、基于相移的方法、基于三角测量的方法等。设备220可以是普通数字相机、360度相机和3D扫描仪的任何组合。例如,智能电话800的数字相机可以由3D扫描仪补充。
电子设备200包括电路系统230。
电路系统230被配置成执行电子设备200的功能和操作的总体控制。电路系统230可以包括处理器例如中央处理单元(CPU)、微控制器或微处理器。处理器被配置成执行存储在电路系统230中的程序代码以执行电子设备200的功能和操作。
下面进一步描述的可执行功能可以存储在存储器上。存储器可以是以下中的一个或更多个:缓冲器、闪存、硬盘驱动器、可移除介质、易失性存储器、非易失性存储器、随机存取存储器(RAM)或其他合适的设备。在典型的布置中,存储器可以包括用于长期数据存储的非易失性存储器和用作电路系统230的系统存储器的易失性存储器。存储器可以通过数据总线与电路系统230交换数据。可以在存储器与电路系统230之间存在伴随的控制线和地址总线。
电路系统230的功能和操作可以以可执行逻辑例程(例如,计算机代码部分、软件程序等)的形式来实现,所述可执行逻辑例程存储在电子设备200的非暂态计算机可读介质例如存储器上,并且由电路系统230通过例如使用处理器来执行。电子设备200的功能和操作可以是独立的软件应用或形成执行与电子设备200有关的附加任务的软件应用的一部分。所描述的功能和操作可以考虑对应的设备被配置成执行的方法。此外,虽然所描述的功能和操作可以在软件中实现,但是这样的功能也可以经由专用硬件或固件或者硬件、固件和/或软件的某种组合来执行。
电路系统230被配置成执行声景记录功能231。声景记录功能231被配置成通过分析由麦克风阵列210记录的声音来记录环境1000的当前声景。声景记录功能231还被配置成使用当前声景和选择的虚拟对象300的吸声特性在环境1000中渲染更新的声景。
下面是要由电路系统230执行的一组功能的简短描述。各个功能的附加细节可以结合上面的图1公开。
电路系统230被配置成执行空区域识别功能232。空区域识别功能232被配置成从环境1000的一个或更多个图像中识别环境1000中的空区域400。空区域识别功能232可以被配置成通过对环境1000的图像应用对象分割算法来识别环境1000中的空区域400。
电路系统230被配置成执行虚拟对象选择功能233。虚拟对象选择功能233被配置成选择要放置在环境中的空区域400处的虚拟对象300。
电路系统230可以被配置成执行尺寸确定功能234。尺寸确定功能234被配置成确定空区域400的尺寸,其中,虚拟对象选择功能233被配置成基于空区域400的尺寸来选择虚拟对象300。尺寸确定功能234可以被配置成通过在捕获包括空区域400的环境1000的图像的同时检测到的相机的移动来确定空区域400的尺寸。这样的检测到的移动可以例如由加速度计登记。尺寸确定功能234可以被配置成通过接收到的坐标来确定空区域400的尺寸,其中,坐标可以由3D扫描仪捕获。确定空区域400的尺寸的其他方式包括通过对图像应用算法,根据图像定义环境1000的3D坐标空间。作为示例,可以通过对图像应用平面检测算法、或RANSAC算法或霍夫算法等来计算3D坐标空间。根据3D坐标空间,可以确定环境1000中的限定的对象的位置和尺寸,并且可以从中计算出空区域400的尺寸。
电路系统230可以被配置成执行类型分类功能235。类型分类功能235被配置成对空区域400的类型进行分类。空区域400的类型可以包括墙壁500、天花板510、地板520、窗户540和门550中的一个或更多个。
电路系统230可以被配置成执行候选虚拟对象确定功能236。候选虚拟对象确定功能236被配置成基于空区域400的类型来确定候选虚拟对象的列表。候选虚拟对象确定功能236被配置成选择列表中的候选虚拟对象之一作为要放置在空区域400处的虚拟对象300。
电路系统230可以被配置成执行3D建模功能237。3D建模功能237被配置成生成环境1000的3D模型,其中,空区域识别功能232被配置成通过对环境1000的3D模型应用对象分割算法来识别环境1000中的空区域400。
尺寸确定功能234、类型分类功能235、候选虚拟对象确定功能236和3D建模功能237是可选的,并且由图3中的虚线框来可视化。
电路系统230可以内置于智能电话800、平板电脑、计算机等中。
电子设备200包括被配置成播放更新的声景的扬声器240。扬声器240可以内置于电子设备200中。例如,扬声器240可以是智能电话800、平板电脑、计算机等的内置扬声器。扬声器240可以是一组耳机700的扬声器。耳机700的示例是耳机、耳塞式耳机、耳罩耳机等。因此,至少对于耳机或耳塞式耳机,每个耳机/耳塞式耳机存在至少一个内置扬声器。扬声器-电路系统通信242可以类似于以上提及的麦克风阵列-电路系统通信212,即有线或无线。
电子设备200包括被配置成显示放置在空区域400处的选择的虚拟对象300的显示器250。显示器250可以内置于电子设备200中。例如,显示器250可以是智能电话800、平板电脑、计算机等的内置显示器。显示器-电路系统通信252可以类似于相机/3D扫描仪与电路系统230之间的以上提及的通信222。
电子设备200可以在增强现实AR或虚拟现实VR设备中实现。AR是可以通过计算机生成的感知信息来增强存在于真实世界中的对象的真实世界环境的交互体验。AR可以被定义为满足以下特征的系统:真实世界和虚拟世界的组合、实时交互、以及虚拟对象和真实对象的准确3D配准。VR是类似于或完全不同于真实世界的模拟体验。VR的应用可以包括娱乐例如视频游戏和教育目的。
AR或VR设备可以包括以上提及的设备,即麦克风阵列210、相机/3D扫描仪220、扬声器240、显示器250和用于执行上述功能231至237的电路系统230。AR或VR设备还可以包括弯曲屏幕以改善包括虚拟对象300的环境1000的真实性。用于实现所公开的方法的电子设备200的其他示例可以是混合现实MR设备、电影现实CR设备或交叉现实XR设备。
图4示意性地示出了可以在其上应用包括实现的方法100的电子设备200的环境1000。这里显示的环境1000是家里的起居室。然而,可以在其他类型的环境中实现方法100。示意性地示出了要被虚拟对象300减弱的声源600。虚拟对象300被放置在空区域400上,该空区域400根据以上提及的描述来确定。这里,为了说明的目的示出了单独的空区域400。本领域技术人员认识到,在图4的环境1000中存在用于将虚拟对象放置到其上的许多其他空区域。如图4中所显示的,虚拟对象300被排除在环境1000的物理结构之外。可以在包括实现的方法100的电子设备200上的显示器250上向用户1显示虚拟对象300。显示器250可以是智能电话800等的显示器。可以通过扬声器240向用户1播放包括虚拟对象300的环境1000的声景。扬声器240可以是一组耳机800的扬声器。因此,用户1可以体验包括虚拟对象300的环境1000中的声景。图4的其他细节结合在以上提及的文本中。
本领域技术人员认识到,本发明绝不限于上述优选实施方式。相反,在所附权利要求的范围内,许多修改和变型是可能的。
另外,根据对附图、公开内容和所附权利要求的研究,技术人员在实践要求保护的发明时可以理解并实现所公开的实施方式的变型。

Claims (15)

1.一种用于在真实世界室内场景形式的环境(1000)中渲染声景的方法,所述方法(100)包括以下步骤:
-记录(10)所述环境(1000)中的当前声景,
-识别(20)所述环境(1000)中的空区域(400),
-选择(30)要放置在所述空区域(400)处的虚拟对象(300),
-使用所述当前声景和所选择的虚拟对象(400)的吸声特性在所述环境(1000)中渲染(40)更新的声景,
-播放(50)所渲染的更新的声景,以及
-显示(60)放置在所述空区域(400)处的所选择的虚拟对象(300)。
2.根据权利要求1所述的方法,还包括:
-确定所述空区域(400)的尺寸,其中,基于所述空区域(400)的尺寸来选择所述虚拟对象(300)。
3.根据权利要求1或2所述的方法,还包括:
-对所述空区域(400)的类型进行分类,其中,所述空区域(400)的类型包括地板(520)、墙壁(500)、天花板(510)、窗户(540)和门(550)中的一个或更多个,
-基于所述空区域(400)的类型来确定候选虚拟对象的列表,
-其中,选择要放置在所述空区域(400)处的虚拟对象(300)的动作是通过选择所述列表中的所述候选虚拟对象之一作为要放置在所述空区域(400)处的所述虚拟对象(300)来执行的。
4.根据权利要求1至3中任一项所述的方法,其中,所述更新的声景被实时地渲染,或者其中,所述更新的声景是通过下述方式来渲染的:记录和存储所述当前声景并且此后通过基于所选择的虚拟对象(300)的吸声特性调整所存储的当前声景来渲染所述更新的声景。
5.根据权利要求1至4中任一项所述的方法,其中,所述吸声特性包括所述虚拟对象(300)的每单位面积的吸声水平与所述虚拟对象(300)的面积的乘积。
6.根据权利要求1至5中任一项所述的方法,其中,所述当前声景的记录包括:
-使用麦克风阵列(210)记录所述环境(1000)中的声音,以及
-对所记录的声音应用3D声音定位算法。
7.根据权利要求1至6中任一项所述的方法,其中,识别所述环境(1000)中的所述空区域(400)包括对所述环境(1000)的图像应用对象分割算法。
8.根据权利要求1至7中任一项所述的方法,还包括生成所述环境(1000)的3D模型,其中,识别所述环境(1000)中的所述空区域(400)包括对所述环境(1000)的3D模型应用对象分割算法。
9.一种非暂态计算机可读存储介质,其上存储有程序代码部分,所述程序代码部分用于当在具有处理能力的设备上执行时实现根据权利要求1至8中任一项所述的方法(100)。
10.一种电子设备(200),包括:
-麦克风阵列(210),其被配置成记录真实世界室内场景形式的环境(1000)的当前声景,
-设备(220),其被配置成捕获所述环境(1000)的物理结构的数字表示,
-电路系统(230),其被配置成执行:
-声景记录功能(231),其被配置成通过分析由所述麦克风阵列(210)记录的声音来记录所述环境(1000)的当前声景,
-空区域识别功能(232),其被配置成从所述环境(1000)的物理结构的数字表示中识别所述环境(1000)中的空区域(400),
-虚拟对象选择功能(233),其被配置成选择要放置在所述环境(1000)中的所述空区域(400)处的虚拟对象(300),
-其中,所述声景记录功能(231)还被配置成使用所述当前声景和所选择的虚拟对象(300)的吸声特性在所述环境(1000)中渲染更新的声景,
-所述电子设备(200)还包括:
-扬声器(240),其被配置成播放所述更新的声景,
-显示器(250),其被配置成显示放置在所述空区域(400)处的所选择的虚拟对象(300)。
11.根据权利要求10所述的电子设备(200),其中,所述电路系统(230)还被配置成执行:
-尺寸确定功能(234),其被配置成确定所述空区域的尺寸,其中,所述虚拟对象选择功能(233)被配置成基于所述空区域(400)的尺寸来选择所述虚拟对象(300)。
12.根据权利要求10或11所述的电子设备(200),其中,所述电路系统(230)还被配置成执行:
-类型分类功能(235),其被配置成对所述空区域(400)的类型进行分类,其中,所述空区域(400)的类型包括地板(520)、墙壁(500)、天花板(510)、窗户(540)和门(550)中的一个或更多个,
-候选虚拟对象确定功能(236),其被配置成基于所述空区域(400)的类型来确定候选虚拟对象的列表,
-其中,所述虚拟对象选择功能(233)被配置成选择所述列表中的所述候选虚拟对象之一作为要放置在所述空区域(400)处的所述虚拟对象(300)。
13.根据权利要求10至12中任一项所述的电子设备(200),其中,所述空区域识别功能(232)被配置成通过对所述环境(1000)的物理结构的数字表示应用对象分割算法来识别所述环境(1000)中的空区域(400)。
14.根据权利要求9至13中任一项所述的电子设备(200),其中,所述电路系统(230)还被配置成执行被配置成生成所述环境(1000)的3D模型的3D建模功能(237),其中,所述空区域识别功能(232)被配置成通过对所述环境(1000)的3D模型应用对象分割算法来识别所述环境(1000)中的所述空区域(400)。
15.根据权利要求10至14中任一项所述的电子设备(200),其在增强现实AR设备或虚拟现实VR设备中实现。
CN202180074114.9A 2020-11-02 2021-11-01 用于在环境中传送声景的方法和设备 Pending CN116438579A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20205126.4A EP3993449A1 (en) 2020-11-02 2020-11-02 Method and device for communicating a soundscape in an environment
EP20205126.4 2020-11-02
PCT/EP2021/080259 WO2022090536A1 (en) 2020-11-02 2021-11-01 Method and device for communicating a soundscape in an environment

Publications (1)

Publication Number Publication Date
CN116438579A true CN116438579A (zh) 2023-07-14

Family

ID=73059414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180074114.9A Pending CN116438579A (zh) 2020-11-02 2021-11-01 用于在环境中传送声景的方法和设备

Country Status (4)

Country Link
US (1) US12002166B2 (zh)
EP (1) EP3993449A1 (zh)
CN (1) CN116438579A (zh)
WO (1) WO2022090536A1 (zh)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007045834B4 (de) * 2007-09-25 2012-01-26 Metaio Gmbh Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
US8767968B2 (en) * 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
CN103472909B (zh) * 2012-04-10 2017-04-12 微软技术许可有限责任公司 用于头戴式、增强现实显示器的逼真遮挡
KR102434406B1 (ko) * 2016-01-05 2022-08-22 한국전자통신연구원 공간 구조 인식을 통한 증강 현실 장치 및 그 방법
US10395435B2 (en) * 2016-04-04 2019-08-27 Occipital, Inc. System for multimedia spatial annotation, visualization, and recommendation
WO2019004524A1 (ko) * 2017-06-27 2019-01-03 엘지전자 주식회사 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
KR102397481B1 (ko) * 2018-01-24 2022-05-12 애플 인크. 3d 모델들에 대한 시스템 전체 거동을 위한 디바이스들, 방법들, 및 그래픽 사용자 인터페이스들
US10565797B2 (en) * 2018-02-17 2020-02-18 Varjo Technologies Oy System and method of enhancing user's immersion in mixed reality mode of display apparatus
US10484811B1 (en) * 2018-09-10 2019-11-19 Verizon Patent And Licensing Inc. Methods and systems for providing a composite audio stream for an extended reality world
US20210125702A1 (en) * 2019-10-24 2021-04-29 Shaftesbury Inc. Stress management in clinical settings
EP3816943A1 (en) * 2019-11-01 2021-05-05 Inter IKEA Systems B.V. Method, device and computer program for generating a virtual scene of objects

Also Published As

Publication number Publication date
US20220139048A1 (en) 2022-05-05
EP3993449A1 (en) 2022-05-04
WO2022090536A1 (en) 2022-05-05
US12002166B2 (en) 2024-06-04

Similar Documents

Publication Publication Date Title
US11617050B2 (en) Systems and methods for sound source virtualization
US20230388736A1 (en) Spatial audio for interactive audio environments
JP7449856B2 (ja) 複合現実空間オーディオ
KR102609668B1 (ko) 가상, 증강, 및 혼합 현실
US11032662B2 (en) Adjusting audio characteristics for augmented reality
US20190313201A1 (en) Systems and methods for sound externalization over headphones
US10262230B1 (en) Object detection and identification
US8767968B2 (en) System and method for high-precision 3-dimensional audio for augmented reality
US9401144B1 (en) Voice gestures
US9485556B1 (en) Speaker array for sound imaging
CN107613428B (zh) 声音处理方法、装置和电子设备
US20190327556A1 (en) Compact sound location microphone
KR20210131422A (ko) 오디오 프로세싱
CN110072177B (zh) 空间划分信息获取方法、装置及存储介质
US12008982B2 (en) Reverberation gain normalization
WO2021067183A1 (en) Systems and methods for sound source virtualization
US12002166B2 (en) Method and device for communicating a soundscape in an environment
US11375275B2 (en) Method and system for using lip sequences to control operations of a device
WO2022220182A1 (ja) 情報処理方法、プログラム、及び情報処理システム
TW202425561A (zh) 音訊設備及其演現方法
CN116132905A (zh) 音频播放方法和头戴式显示设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination