CN105073073A

CN105073073A - 用于声音可视化及声源定位的设备与方法

Info

Publication number: CN105073073A
Application number: CN201480004961.8A
Authority: CN
Inventors: 胡海
Original assignee: 胡海
Current assignee: Sensory intelligence company
Priority date: 2013-01-25
Filing date: 2014-01-24
Publication date: 2015-11-18
Anticipated expiration: 2034-01-24
Also published as: CA2898750A1; US10111013B2; CN105073073B; US20160142830A1; CA2898750C; WO2014113891A1

Abstract

本申请提出了用于处理声音信号，定位对应于一个或多个声源的声音信号，及在可穿戴显示设备上呈现对应于定位声源的声学可视化的方法和设备。可穿戴可视化设备可以包括两个或两个以上用于检测从一个或多个声源发出的声音的麦克风，和用于可选为以立体方式显示声学可视化的显示设备。通过处理被麦克风记录的声音信号以定位对应于给定声源的声音信号，和处理定位声音信号以识别声源位置，可以定位声源。声学可视化可以使频域可视化，且可以包括从频率到颜色的映射。本申请提出的声学可视化设备和方法可以帮助训练人脑将声音可视化信号理解为声音信号本身。

Description

用于声音可视化及声源定位的设备与方法

相关专利申请的交叉引用

本申请要求享有于2013年1月25日提交的美国临时专利申请号61/756535，标题为“3D彩色实时定位声源的可视化”的优先权，其全部内容在此引作参考。

背景技术

本申请一般涉及助听设备和增强现实技术设备。

加拿大有80,000人，美国有超过1,000,000人，全世界有超过20,000,000的人是完全失聪的。对这些人来说，常规的助听设备并没有帮助。人工电子耳蜗对一些人是有效的，但它们是插入体内的，且操作成本非常高。

百分之五的世界人口遭受着听力缺损的困扰。现有的助听设备在喧闹环境中能提供的性能较差，尤其是当用户希望听到相对于近距离声源而言的远距离声源时性能较差。

发明内容

本申请提出了一种用于处理声音信号、定位对应于一个或多个声源的声音信号、以及在可穿戴显示设备上呈现对应于定位后声源的声学可视化的方法和设备。可穿戴可视化设备可包括两个或两个以上用于检测来自一个或多个声源的声音的麦克风，和可选为以立体方式显示声学可视化的显示设备。通过处理由麦克风记录的声音信号以定位对应于给定声源的声音信号，并处理该定位声音信号以识别声源位置，可以定位声源。声学可视化可以是频域可视化，也可以包括频率到颜色的映射。

因此，一方面，本申请提出了一种在声学可视化设备上呈现声学可视化的方法，其中声学可视化设备包括可穿戴显示设备和两个或两个以上的麦克风，该方法包括：

通过麦克风记录来自一个或多个声源的声音信号；

处理声音信号，以提取出与至少一个声源相关的定位声音信号；

在声学可视化设备上呈现定位声音信号的可视化表示的声学图像。

另一方面，本申请提出了一种声学可视化设备，包括：

用于显示对其穿戴者的至少一只眼睛可见的图像的可穿戴显示设备；

两个或两个以上的与可穿戴显示设备关联的麦克风；和

连接至显示设备和麦克风的计算硬件，其中该计算硬件配置为：

通过麦克风记录来自一个或多个声源的声音信号；

在声学可视化设备上呈现定位声音信号的可视化表示的声学图像。参考以下详细描述和附图可以对本申请的功能和有利的方面得到进一步的了解。

附图说明

接下来的实施例将仅以示例的方式参照附图进行描述，其中：

图1示出了包括半透光3D立体投影眼镜的示例性声学可视化设备。

图2是集成了听筒和麦克风的耳机的示例。

图3示出了用于处理音频和视频信号的处理单元的示例图。

图4示出了示例性处理单元的框图。

图5示出了示例性软件系统的四大模块，以及它们相互之间的关系和与用户之间的关系。

图6是声源定位模块的示例性执行的流程图。

图7A示出了具有三个用于声源定位的麦克风的示例性声学可视化设备。

图7B示出了三个麦克风和声学声源之间的空间关系。

图7C是用于声音定位的示例性方法的流程图。

图8是声学聚焦/过滤模块的示例性执行的流程图。

图9示出了声学聚焦/过滤模块的示例图解和算法，包括通过声源位置决定的频率分组，和基于用户选择出的声源的聚焦/过滤。

图10是声学可视化模块的示例性执行的流程图。

图11示出了声学可视化模块的示例性输出的图示。

图12是说明3D立体显示及用户界面模块的示例性执行的流程图。

图13示出了通过3D立体显示及用户界面模块所执行的立体呈现的示例性实现方式。

具体实施方式

本申请的各种实施例和各个方面将参考以下讨论的细节来描述。以下描述和附图对本申请作说明作用，不应解释为对本申请的限制。下面描述多种具体细节以提出对本申请的各种实施例的透彻理解。然而，在某些情况下，为了简化本申请的实施例的讨论，对于公知的和常见的细节并没有描述。

本申请所用的术语“包括”被解释为包含在内的和可扩充的，且不排外的。特别地，当使用在说明书和权利要求中时，术语“包括”以及它们的变形意味着包括特定的特征、步骤或部件。这些术语不能被解释为排除其他特征、步骤或部件的存在。

本申请所使用的术语“示例性”意思为“用作例子、示例或例证”，不应理解为相对于本申请公开的其他配置是优选或有利的。

本申请所使用的术语“约”和“近似”用来覆盖在数值范围的上限值和下限值之间存在的变量，例如性能变量、参数变量和容积变量。在一个非限制性实施例中，术语“约”和“近似”表示增减10％或更少。

本申请所使用的术语“基本”指的是动作、特征、性能、状态、结构、条目或结果的完全或几乎完全的范围或程度。例如，“基本”封闭的对象指的是该对象是完全封闭的或几乎完全封闭的。在一些情况下，偏离绝对完整性的确切的容差程度取决于特定环境。然而，一般而言，完成的接近度是为了得到与绝对的和全部的完成时获得的结果相同的整体结果。“基本”的使用在表示动作、特征、性能、状态、结构、条目或结果的完全或几乎完全缺乏的否定意义时同样适用。

本申请的实施例提出了可穿戴显示设备，配置为检测和处理音频信号，并随后呈现和显示音频信号的可视化。在一些实施例中，处理音频信号以识别一个或多个音源的位置，该音源的位置在显示器上被展示给设备穿戴者。显示设备可以是用于以3D形式显示可视化和定位音频表示(声学可视化)的虚拟现实(或增强现实)可穿戴立体显示设备。通过检测到的音频信号的可视化，本申请的实施例提出了能有效模拟人类耳蜗功能的用于将声学模拟信号传送至大脑的方法和设备。

本申请中公开的方法和设备可以应用以训练人的大脑将可视化声学信号理解为声音本身，由此恢复或有助于恢复失聪或听力受损人士的至少一部分听力。正如下文进一步的描述，本申请的方面也可以基于可视化声音有助于训练那些失聪或听力受损的人的说话能力，例如用于说话准确性的提高。通过与声音刺激听觉系统的方式类似的刺激人类视觉系统的方式显示声学信号，人脑可以更容易地像接受听觉刺激一样接受视觉刺激。

现在参照图1，示出了示例性的声学可视化设备10。示例性设备10包括框架110、部分透明的显示元件120、微型HDMI端口130、集成麦克风140和142的耳机150，以及附加麦克风145。显示元件120可以是折射透镜，或基本上无折射(平面)的光学元件。

在图1所示的示例性实施例中，设备10配置为光学透视显示设备，用于将图像投影在用户眼睛上，同时允许用户透过显示元件120观看(例如显示设备是至少部分透明的)。例如，该图像可以通过光学引擎(载于框架中或框架上)形成，该光学引擎将显示光耦合至形成在显示元件120中的波导中，其中，波导将被引导的显示光指向佩戴者的眼睛，在佩戴者的眼睛上形成了图像。在图13所示的示例性实施例中，左右显示元件120一起提供了声源的3D立体可视化(可视化表示)。

如下文详述，音频信号的处理可以包括一个或多个音频信号的定位，该音频信号被设在耳机150上或耳机150中的麦克风140、142以及可选的附加麦克风145(下文中会进一步详述)检测到，这些麦克风通过线170连接至框架110。

从麦克风收集的音频信号可以通过线(如音频电缆)或通过无线通信设备或协议(如蓝牙)传输至处理单元(下文进一步描述)。

供电电源可以被集成至框架110中以向显示单元10供电。可以使用可充电电池来供电。

现在参照图2，耳机150可以配置为包括外置麦克风140和耳塞160的入耳式设备。通过将耳机放置在人耳中，麦克风140可以设置成以和常规倾听相同的方式收集声音。在一些实施例中，可以设置多个麦克风，例如采用人体的反射(如耳廓、面颊)以区分从上方和/或从下方传来的声音。应当理解的是图2被用来示出使用人耳作为自然声学收集方式的示例性设备，并且可以采用将麦克风置于耳道中或接近耳道的位置以达到相同或相似结果的替代变形。

继续参照图1，尽管示出的示例设备10为一副适于提供3D(立体)显示的眼镜，但应当理解的是，本申请的范围并不用以被限定在该示例性实施例中，其可以使用各种各样的虚拟现实可穿戴音频/视频设备或头盔以以适合定位的方式记录音频信号，并将音频信号或一部分音频信号向设备穿戴者进行适合的可视化显示。在一些实施例中，如图1所示的这样的实施例，声学可视化设备的形状类似于3D游戏眼镜，该3D游戏眼镜提供了听力残疾人士尤其学校中的失聪儿童可以接受的隐藏设计。

在一些实施例中，虚拟现实设备可以是任何适合于将音频信号进行记录和空间定位，且向设备穿戴者显示音频信号的空间定位可视化表示的可穿戴显示设备。例如，在其他非限定性替代实施例中，可以采用其他虚拟现实头戴显示设备，如护目镜、头盔和其他虚拟现实帽子或耳机或头戴式显示器。例如，该设备可以是具有近眼式显示单元的抬头显示系统，其中近眼式显示单元包括显示屏。其他非限制性示例实施例包括显示器，该显示器包括液晶显示(LCD)、发光二极管(LEDs)、模制聚合物显示(moldedpolymerdisplay)或自由空间反射显示(freespacereflectiondisplay)或另外的图像生成方式。另一个示例实施例是包括双目显示或单目显示的头戴式显示器的可穿戴计算机。

在另一个示例实施例中，声学可视化设备可以包括至少一个全息显示设备，该全息显示设备在一只眼睛上提供全息显示。全息摄影以实时、动态和半透明的方式显示3D立体图像和/或视频，提供了声学信号的可视化和定位。

在声源不需要用3D定位(例如不需要深度信息)的实施例中，声学可视化设备可以配置为以单眼显示可视化音频信号。例如，在该实施例中，声学可视化设备可以只包括用于在一只眼睛上显示可视化音源的单个显示设备或投影设备。

尽管在图1中示出了示例设备10具有三个麦克风连接在其上，其中两个麦克风140设置在插入式耳机上，但应当理解的是麦克风可以根据广泛的配置来配置，例如麦克风被以至少两个维度适当地布置在耳塞上。在一些实施例中，提出了两个以立体声配置的麦克风，比如设在设备穿戴者的两侧。尽管在插入式耳机上提供两个麦克风是有利的，但因为麦克风使用了人耳的自然的声收集能力，可以将麦克风设置在其他位置，比如但不限于，可穿戴显示设备的眼镜或护目镜的框架上，头带或帽子上，或服饰(如腰带)上。

在一些实施例中，可穿戴设备包括一个或多个附加麦克风，这样麦克风的总数就超过了两个。在图1所示的实施例中，设置了支持声学定位的附加麦克风145。该附加麦克风允许在3D上声学定位，其在涉及3D声音定位的选中的应用中是令人满意的，或允许为选定的听障人士提供帮助。

在一些实施例中，一个或多个附加麦克风也可以将参照声音信号提供给处理单元(下文描述)执行目标选择过滤算法。一个或多个附加麦克风可以位于任何适当的提供使能全3D声学定位的声学信息的位置。

在其他实施例中，一个或多个附加麦克风可以设置在其他位置。例如，在一种示例实施方式中，两个附加麦克风可以设置在框架110的前面。在一些实施例中，可以以伪装成设备10的装饰特征的方式设置多个麦克风。

在一些实施例中，记录的音频的处理和音频信号可视化表示的呈现由与设备10接合的处理单元执行。现在参照图3，示出了处理单元200的示例实施例。示例处理单元200包括壳体202、电池或电池组204、通/断开关206和微型HDMI连接器208。诸如片上系统(SoC)设备/电路的计算机或处理硬件设置于壳体202中，且接合于连接器208。

如上所述，处理单元200可以是通过直接连接(如通过光缆或电缆)或无线连接与声学可视化设备10接合的独立计算设备。在一些实施例中，处理单元200是配置为与声学可视化设备10接合的专用的设备。在其他示例实施例中，处理单元可以是诸如智能手机、平板电脑或笔记本电脑的移动计算设备。在另一示例实施例中，处理单元200可以是通用计算机。在又一实施例中，处理单元200或其中的一部分可以连接至显示设备10、形成于显示设备10内或被显示设备10支持。

图4示出了与处理单元200连接的计算硬件的示例实施例。如图所示，示例处理单元200包括一个或多个通过总线424与大容量存储器430连接的处理器(CPUs)422。处理单元200还包括供电电源426、音频接口452、视频接口454、可选的小键盘456或其他输入设备、可选的显示器459以及可选的附加输入/输出接口460。

供电电源426向处理单元200提供电力。可充电或不可再充电的电池可以被用来提供电力。也可以通过诸如AC适配器或增补电池和/或对电池充电的充电底座的外部电源提供电力。

如上所述，音频接口452可连接至用于生成和接收音频信号的声学可视化设备10。

视频接口454布置为接合于声学可视化设备10并在声学可视化设备10上显示生成的视频图像。例如，如上所述，视频接口454可以包括一个或多个具有HDMI接口(如微型HDMI连接器)和支持无线显示方法(如WiDi和Miracast)。视频接口454还可以可选地与用于录制视频的数码摄像机等的耦合，以使视频上可以叠加有声学可视化图像和/或其他虚拟现实信息或影像。

大容量存储器430包括RAM432、ROM434和其他存储装置。大容量存储器430示出了另一个用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的计算机存储介质的示例。大容量存储器430存储有用于控制处理单元200的低级操作的基本输入/输出系统(“BIOS”)440。大容量存储器还容纳有用于控制处理单元200操作的操作系统441。应当意识到的是该部件可以包括通用操作系统如UNIX的版本，或LINUX，或专用的客户端通信操作系统如IOS、Android，或Windows手机操作系统。操作系统可以包括，或接口连接于能通过Java应用程序控制硬件组件和/或操作系统操作的Java虚拟机模块。

存储器430还包括一个或多个数据存储器444，数据存储器444能够被处理单元200用于存储软件模块和/或其他数据。例如，还可以使用数据存储器444来存储描述处理单元200各种功能的信息。

软件模块442可以包括计算机可执行指令，该计算机可执行指令由处理单元200执行时，执行如下但不限于以下的动作：处理接收来自声学可视化设备10的音频信号以识别和/或定位音源，过滤接收到的音频信号，生成接收到的音频信号的视觉效果图以通过音频可视化设备10显示给用户。软件模块442将在图5中进行更详细的描述。

可选的小键盘456可以包括任何布置为接收来自用户输入的输入设备。例如，小键盘456可以包括按钮数字拨号盘或键盘。小键盘456还可以包括与选择和发送图像相关联的多个命令按钮。小键盘456可以虚拟地由触控式显示屏呈现出来。

可选的显示器459可以是液晶显示器(LCD)、气体等离子体、发光二极管(LED)或与计算设备一起使用的任何其他类型的显示器。显示器459还可以包括布置为从诸如触笔或人的手指的对象接收输入的触摸感应屏。

处理单元200还可以包括用于与未在图4中示出的外部设备或其他输入或输出设备通信的输入/输出接口460。输入/输出接口460能够使用一种或多种通信技术，如USB、红外线、蓝牙、Wi-Fi、Zigbee等等。

可选的GPS收发器464能够确定处理单元200的物理坐标，其通常以纬度值和经度值输出。GPS收发器464还能够使用其他的地理定位机制，包括但不限于三角测量、辅助GPS(AGPS)、E-OTD、CI、SAI、ETA、BSS等，以进一步确定处理单元200在地球表面上的物理位置。应当理解的是在不同条件下，GPS收发器464能在毫米范围内为处理单元200确定地理位置；且在其他情况下，所确定的物理位置可能不太精确，如米级的误差范围或明显更大的误差。然而，在一个实施例中，计算设备可以通过其他部件提供其他可以用来确定设备物理位置的信息，例如包括MAC地址、IP地址等。

可选地，处理单元200可以与基站(未示出)通信，或直接与另一个计算设备通信。网络接口462包括用于将处理单元200耦合至一个或多个网络的环路，且构造成与一个或多个通信协议和技术一起使用，通信协议和技术包括但不限于全球移动通信系统(GSM)、码分多址(CDMA)、时分多址(TDMA)、用户数据报协议(UDP)、传输控制协议/互联网协议(TCP/IP)、SMS、通用分组无线服务技术(GPRS)、WAP、超宽带(UWB)、IEEE802.16的全球微波互联接入(WiMax)、SIP/RTP、蓝牙、红外线、Wi-Fi、Zigbee或多种其他无线通信协议中的任一种。网络接口450有时已知为收发器、收发设备或网络接口卡(NIC)。

在又一实施例中，处理单元200可以起到通过网络与另外的本地或远程计算设备交互的客户端设备的作用。例如，在一实施例中，处理单元200可以包括配置为支持通过因特网与远程计算设备通讯的网络接口，以远程执行音频信号处理和/或声学可视化表示的至少一部分。远程处理后的声学信号和/或声学可视化信号或数据因此可以被传输至声学可视化设备以用于显示和/或进一步处理。

本申请的多个实施例可以通过(一个或多个)微处理器和/或存储器实现。例如，可以部分地通过微处理器中的硬件逻辑的执行和部分地使用存储在存储器中指令实现上文所描述的功能。一些实施例是使用微处理器而没有用到存储在存储器的额外指令来实现的。一些实施例是使用存储在存储器中用于通过(一个或多个)通用微处理器执行的指令来实现的。因此，本申请并不限于硬件和/或软件的特定结构。

一些实施例可以在功能齐全的电脑和电脑系统中实现的同时，许多实施例是能被分布为以各种形式存在的计算产品，且不论特定类型的机器或计算机可读介质是否实际影响该分布，这些实施例均能得到应用。

本申请的至少一些方面可至少部分地体现在软件中。即该技术可以在计算机系统或响应于其处理器的其他数据处理系统中执行，如执行内存中指令序列的微处理器，如只读存储器(ROM)、易失性随机存储器(RAM)、非易失性存储器、缓存或远程存储设备。

计算机可读存储介质可用于存储软件和数据，当该软件和数据被数据处理系统执行时，致使系统执行各种方法。该可执行的软件和数据可以存储在各种位置，包括例如只读存储器、易失性随机存储器、非易失存储器和/或缓存。该软件和/或数据的各部分可以被存储在这些存储设备的任一个中。这里使用的短语“计算机可读材料”和“计算机可读存储介质”指的是除了瞬时的传播信号本身以外所有的计算机可读介质。

图5示出了根据处理流程可以被处理单元200执行的几个软件模块，和各模块之间的关系的说明框图。如图所示，该软件模块包括但不限于声源定位模块480、声学可视化模块482(例如用于执行声色转换算法)、3D立体显示模块484和可选的声学聚焦/过滤模块486。在一实施例中，模块486可以作为预处理模块与助听设备(例如，用于在喧闹环境中帮助非失聪人士将听力集中至目标的设备)一起使用来实现。各个模块和与之相关的示例方法将在下文描述。

现在参照图6，所提出的流程图示出了进行声源定位的示例方法，该方法可以通过图5的声源定位模块480执行。在步骤500中，来自三个麦克风的声音信号是被分别记录的，且进行通过在给定点的基于时间数据的移动窗口的时间的快速傅里叶变换(FFT)操作实现的短时傅里叶变换(STFT)以获得每个信号的实时频谱。该频谱可以显示为不同频率下的声音强度(分贝)。

在步骤505中，来自一个或多个麦克风的频谱被处理为与不同频率下的声音强度进行比较以发现一个或多个具有最高声音强度的频率(“最吵频率”)。这里使用的“频率”适用于频段，该频段具有与之相关的有限带宽。

在一些实施例中，给定频段的声音强度越强(例如越吵)，该频率周围的带宽越宽。这是为了模仿人类听力的听觉掩蔽效应。

应当理解的是两个或以上的最吵频率可能与相同的声源或不同的声源相关。计算后的位置(如下文所述)可以用来确定声音是否由一个声源或不只一个声源产生。

在步骤510中，步骤505识别的最强频段的信号由每个麦克风获得且被处理以确定声源的位置(参照图7A-7C下文描述了示例方法)。如步骤515所示，重复前面的步骤以发现步骤505识别的附加频段的位置。在一实施例中，步骤505识别的频段的数量可以是一个，以识别单个声源。在其他的实施例中，步骤505识别的频段的数量可以是两个或两个以上，如2-10个频段。在其他实施例中，步骤505识别的频段的数量可以是10个或10个以上。

图7A-7C描述了用于定位声音的方法的示例性执行。所示方法可以被使用以进行图6的步骤510和515。

图7A示出了音频可视化设备10(如图1所示)的示例性执行，其中使用了三个麦克风来进行回声定位。在任一时刻T₀，距声源距离为r的声学功率W由以下公式给出：

W = \frac{a}{r^{2}},

或

W &Proportional; \frac{1}{r^{2}}

其中a是常数。因此，距离r与测量的强度的关系式为相关，且声源到三个麦克风中的每一个麦克风的距离由以下公式给出：

r_{i} = b \sqrt{W_{i}},

或

r_{1} : r_{2} : r_{3} = \sqrt{W_{i}} : \sqrt{W_{i}} : \sqrt{W_{i}} - - - (1)

其中i＝{1,2,3}表示三个麦克风中的各个麦克风，b是常数，且W_i是通过给定麦克风测量出的声学功率(声学强度)。如图7B所示，由于框架110上麦克风140、142和145处于不同位置，声音从声源180到麦克风的传播持续时间对每个麦克风可能是不同的。因此，对于给定的一副麦克风i和j，麦克风和声源之间的距离由到达时刻之间的时间延迟给出，如下所示：

r_j-r_i＝v_s(t_j-t_j)

其中v_s是声音在空气中的速度。

现在参照图7C提出了定位声源位置的示例方法。

如上所述，且如图7C中的步骤525所示，三个麦克风检测到的声音强度被用来计算距离r₁，r₂和r₃的比值。

于是麦克风1和麦克风2之间的时移在步骤530中被确定，如下文所述：

由于在每个时间点进行了实时的快速傅里叶变换(FFT)，每个频率的声学强度都是可得到的。

对每个麦克风，在一个频率上计算从T₀到下一个声学强度的最大域值(即W_max-i)的时间；

该时间对麦克风1记为T₁，对麦克风2记为T₂。

因此|T₁-T₂|是两个麦克风之间的时移。

然后在步骤535中计算1到3(r_1,r₂和r₃)的距离，如下所述：

距离差由r₂-r₁＝v_s|T₁-T₂|——(2)获得

由公式(1)和(2)可得到距离r₁和r₂；

再次参考公式(1)，可通过与r₁的比值得到距离r₃；

因此声源的位置通过距离r₁,r₂和r₃确定。

最后，在步骤540中计算声源的位置(图7B上180)，如下所述：

基于前述方法，得到距离r₁,r₂和r₃。

麦克风(1到3)的位置(坐标)已知(参见图7B)，其中麦克风的位置显示在眼镜10上。例如：麦克风1到3的坐标可以是(0,-y₁,0),(0,y₁,0)和(x₁,0,0)；

声源180的坐标于是可以从该信息中计算出，该信息提出了含有3个未知数的3个方程式：

1)向量(x,y,z)-向量(0,-y₁,0)＝r₁；

2)向量(x,y,z)-向量(0,y₁,0)＝r₂；

3)向量(x,y,z)-向量(x₁,0,0)＝r₃；

可通过解出这些方程得到声源180(x,y,z)的坐标。

现在参照图8，所提出的流程图示出了被测量的音频信号进行聚焦和/或过滤的示例方法。在步骤600中，为具有最高声学强度的频率(最吵频率)提出了声源的(一个或多个)位置。

如步骤605所示，与不同声源位置有关的频率根据它们相对于彼此的远近被分组，以使相关于公共声源位置的多个频率作为单一声源合并在一起。例如，如果估计每两个声源之间的平均距离接近1米，则所有在0.5米内的频率/声源被分为一组。也就是说，基于具有小于预选的阈值的空间间隔的声源可以被分为一组。由此可以计算出合并声源的新位置。例如，在一实施例中，声源位置可以确定为具有最高强度的声学信号的频率的位置。在另一实施例中，声源位置可以通过取一组中的不同频率有关的位置的平均值得到。

该分组如图9所示，其中给定声源可以有多个相关的频率。如图所示，可以通过确定哪些频率具有公共的声源位置识别给定声源。如图所示的示例中，三个声源产生了导致八个频率被识别的声音且这些频率处的声学信号与基于声源位置的特定声源相关。为了进行对给定声源的进一步处理，例如，为了产生用于视觉表示的时变数据，来自与给定声源相关的每个频率的频域信号可以叠加，且与给定声源相关的时变的声学信号可以通过进行逆傅里叶变换(如逆FFT)获得，由此获得定位信号的时域表示。应当注意的是频率的分组也如图5所示。

随后可以使用声源的这些位置用于处理和呈现声音的可视化表示，如下文进一步所述。例如，可以提出声源的位置至声学可视化模块482。

在一些实施例中，特定声源可以被用户(例如声学可视化设备的穿戴者)被识别出来。例如，再次参照图8，在步骤610中，位置/声源可以被用户选择以专注于此，来自其他声源/位置/频段的信号可以被过滤。

如图8和9所示，时变的声学信号可以通过与选定声源相关的频率分量的叠加及为获得时域表示对叠加的频率分量进行逆傅里叶变换(如逆FFT)从原始(net)声学信号中被过滤出来。该时变的信号表示了基于用户选择声源专注的声音信号的过滤版本。该过滤版本可以通过一个或多个位于耳机150中(如图1所示)的扬声器回放给用户。

该过滤方法可用于各种各样的应用中，其中特定声源通过视觉上基于各种声源的可视化表示的用户被选择，且随后过滤原始(总的；合并的)声音信号以生成包含与选定声源相关的声音的过滤声音信号。例如，可以使用这样的实施例及其变形用作助听设备，以允许设备穿戴者聚焦特定声源并对检测到的声音的过滤版本进行回放收听。应当理解的是用户或设备穿戴者可以选择一个或多个过滤的附加声源，以使用户获得基于多种声源(如谈话中的多个讲话者)的声音信号的过滤版本。

现在参照图10，所提出的流程图示出了处理与给定声源相关的声学信号的示例方法，以能够作为声学可视化显示。在步骤700中，对于(根据前述定位方法被定位的)声源，可以获得时变的频率数据(频谱)。该数据通过上述音频聚焦/过滤方法获得，且与给定位置相关的多种频段的频谱成分被简单地组合。

在步骤705中，时变的数据被处理以生成适于绘制为声谱图的时变表示(例如2D坐标系统)。可以通过在给定的时间点上(使用合适的时间窗口)对与给定声源相关的时变声学信号进行快速傅里叶变换，和对于给定的时间点计算一组频域数据点，来准备该数据，其中每个频域数据点都包括频率对数和声源的声学信号的强度。也就是说，该数据存储在适用于绘制作为时变的声谱图的格式中，其中声谱图的Y轴是声音频率的对数(可选为映射到颜色的，即与颜色相关的，如步骤710所示)且X轴是时间，并且其中给定频率和时间点的声音的声学强度通过显示像素(pixel)的亮度显示。

声谱图可以根据例如以下示例实施方式进行绘制。在给定时间点，像素的第一竖列被绘制，其中像素值与声音频率(由快速傅里叶变换获得)的对数相关。如上所述，声音频率可以映射至颜色，且每一个频率和时间点上的声学强度可以通过显示像素的亮度被表示出来。在下一个时间点，像素的另一个竖列被绘制在与第一竖列相邻的位置。该处理过程可实时重复或近实时重复，且当频率数据的新纵列随着时间被加入时声谱图可通过水平移动纵列来绘制。

在一示例实施方式中，声音频率(如从0Hz到接近44100Hz)被映射至颜色(如从红色到紫色)，每一个频率都用专用的颜色表示，如步骤710所示。可以在此处公开的方法的各个方面及其变形中采用频率到颜色的一对一的映射关系。

在一实施例中，可以使用色度-饱和度-亮度HSV色彩模型将频率映射到颜色中去。根据一个示例方法，可以固定饱和值(例如到50％)；色度值可以随频率变化，例如从红色(1Hz声音频率)到紫色(44100Hz声音频率)；亮度可以随特定声音频率的声音强度变化——如此一来声音强度越高，颜色越亮。

如步骤720所示，对于一个或多个通过前述回声定位方法定位的附加声源，该处理过程可重复。与每个声源相关的声谱图数据可以输出为对每个声源位置的实时视频。

图11是示出了声学可视化方法是怎样实现以生成音频信号的可视化表示的图示。该图片绘制了短语“去学校”的声谱图，该短语从左到右重复了3次。从图中可以看出，对应于该短语的图案是独特且可辨认的，甚至尽管在短语被说出的三次发音之中存在的差异很小。在每个声谱图中，Y轴是声音频率的对数(频率到颜色是一对一映射的)，且X轴是时间。信号越强，像素上的显示越明亮。

现在参照图12，所提出的流程图示出了来自麦克风的音频信号的计算机可视化表示进行3D立体显示的示例方法。在步骤750中，获得了一个或多个声源的位置，该声源位置之前已通过图6和图7A-C所示的前述声音定位方法(如使用图5所示的声源定位模块480)被确定。在步骤755中，获得了对于每一个声源(使用图8所述的方法)的时变的声谱图数据(适合作为声学可视化呈现)。

对每一个声源的时变的声谱图数据于是在步骤766中显示在声学可视化设备上。例如，可以将该数据显示为2D实时视频，以使设备的穿戴者既能够看到现场的图像(例如视频信号或通过透明光学元件传输的实际图像)也能够看到与一个或多个声源相关的时变的频谱的可视化表示。如上所述，使用如3D立体投影眼镜(如苹果的iGlass和谷歌眼镜)的虚拟现实或增强现实设备可以实现声音可视化表示的显示。

在一些实施例中，可以进行来自声源的声音可视化表示以使可视化表示呈现在或投影在与声源位置相对应的视野的位置，该声源位置通过声源定位被确定。

如图12的步骤765和770所示，可以基于来自用户(如设备的穿戴者)的输入改善呈现出的可视化，其中用户从一组被识别出的声源中选择特定的声源。可以通过各种各样的输入方法中的一种做出用户的选择，例如但不限于眼球追踪、指尖重组或简单如鼠标/触摸板。在接收来自设别声源的用户的输入时，可以修改来自选定声源和/或其他非选定声源的声音可视化表示。例如，与选定声源相关的声谱图的显示可以放大。在另一实施例中，与非选定声源相关的声谱图的显示可以缩小。还可以将选定声源提供至用于后续处理的声学聚焦/过滤模块486。

图13是示出了怎样实现3D立体显示方法以呈现音频信号计算后的可视化表示的图示。立体呈现的示例实施方式因此如下。在步骤750和755中，分别获得对于每一个声源的声源位置和时变的声谱图数据。

在步骤760中，对于每一个声源(或识别的声源组)声学图像显示在声学可视化设备显示屏上，其中，每一个声学图像都被显示在与声源计算后的位置相对应的视野位置。每一个声学图像都提供了声音的可视化显示，如图11所示的声谱图。对单眼或双眼(如立体地)，通过识别显示的合适像素将声学图像呈现在显示设备(如3D显示眼镜)上，该显示对应于与声学图像相关的声源的位置。

下面的示例实施方式提出了用于在使用声学可视化设备的穿戴者的两只眼睛上呈现声学图像的可视化的方法，参照图13所示。对于给定声源，虚拟屏幕800被限定在声源810的位置。该虚拟屏幕对应于设备的穿戴者感知到的声学图像的大小和位置。对虚拟屏幕800的每一个像素，在该像素和(穿戴者的)右眼中心之间进行了连线。线与右边显示元件相交的点是声学图像的像素，该像素应该与虚拟屏幕800上的像素显示一样的内容。在对应于左眼的显示元件上重复这个同样的过程以在对应于左眼和右眼的显示元件上呈现声学图像。

然后可以在对应于其他声源的虚拟屏幕上重复前述方法。声学图像的最终显示可以限定在左右两边的显示元件上。如果有声学图像的任何重叠，可以优先考虑只显示一个声学图像。例如，可以根据以下示例优先方案选择待显示的声学图像：1.显示用户选定的声源；2.显示具有“较吵”频率的声源。

因此前述方法在声学可视化设备的左右两个显示屏中提出了空间配准(registered)和呈现的声学可视化，该方法将通过左眼显示和右眼显示之间的差异在穿戴者的大脑中产生3D立体图像。应当理解的是，也可以不用立体投影，在一只眼睛上选择性地执行前述方法。

在一些实施例中，可以使用前述声学可视化和定位设备用于改善失聪或听力受损人士的发音。通过利用上述半透明显示系统同时观察可视化的声音、嘴唇运动和面部表情，失聪或听力受损人士可以通过尝试将他们的声音的可视化显示和正确说出的声音(如来自参考数据库的声音或来自另一个听力正常的人的声音)的可视化显示进行匹配，来改善他们的言语能力。这样的应用可以提高失聪或听力受损人士与听力正常人士交流的能力。

本申请的一些方面还提出了针对部分受损人士(和听力健全人士)在喧闹环境中对目标声源的定位和聚焦的助听设备。当与常规的助听设备比较时，本实施方式可以帮助定位和专注于感兴趣的声源。

在一些实施例中，声学可视化设备可以被具有听力缺损的人穿戴，且可以显示声学可视化以用视觉替代或弥补听觉。一个人可能被临床诊断为失聪，则可以显示声学可视化以用视觉替代听觉。在一些实施例中，可以使用声学可视化设备来训练听力受损人士将声音可视化。还可以使用声学可视化设备来训练这些人以基于语音的可视化提高他们的言语能力，该语音的可视化表现为相对于诸如没有听力损害的人发出的正确发声，或数字合成的正确口语词汇的参考声音的可视化。

例如，在一实施例中，(通过任何现有的眼球追踪系统)检测到的穿戴者的视线方向，或他/她对显示在本发明的系统(参见图13)中的(一个或多个)声源的选择可以用来选择性地过滤其他声源或放大用户选定的声源。例如，可以进行以下眼球追踪和过滤方法。声学可视化设备(如眼镜)在每个(组)声源上显示彩色声谱图。当检测到视线方向与其中一个声源位置相匹配时，来自那个声源的声音信息(以声谱图的形式)将被选定。选定的声谱图将(利用逆傅里叶变换)转换回声音。输出该声音(选定声源的原始声音)至声学可视化设备的耳机(如图1中的耳机150)中的扬声器内，然而不输出其他声音，因此过滤掉了与视线方向不相关的位置的声音。

在一些实施例中，可视化的声学信号的声学频谱带宽处于人类发音范围之内。例如，声学频谱带宽可以在大约300Hz到3400Hz的范围或其范围的一部分内。在一些实施例中，可视化的声学信号的声学频谱带宽在人类听力的范围内。例如，声学频谱带宽可以在大约20Hz到20kHz的范围或其范围的一部分内。在其他的实施例中，声学频谱带宽可以包括或限于超过那些与人类说话或听力相关的频率。例如，在一些实施例中，声学频谱带宽可以包括超声和次声(频率在大约20Hz以下的声音)。这样的实施例可以在军事和工业环境中得到应用。例如，这样的声学频谱带宽范围可以允许声学可视化设备的穿戴者在非常喧闹的环境中看到超声学、次声学和/或听到选定的可听见的声音。

应当理解的是本申请中提出的声学可视化设备和方法可以帮助训练人脑将声音可视化信号理解为声音本身，借助于失聪人士的视觉能力，重建他们的听觉和说话能力。

现在描述本申请的示例性的潜在军事应用。在战场上，通常存在大量的噪音，且这样的噪音会损害士兵们的听力。可以使用本申请中所述的方法和设备来堵住他们的耳朵以保护他们的听力；而同一时间，在他们的眼镜(或头盔)上显示声音并通过他们的眼睛帮助他们理解声音(他们上战场前需要特定的培训)。在另一实施例中，用一些附加的硬件(能生成/接收超声或次声的特定的扬声器和特定的麦克风)可以提供出现在战场上的超声学和/或次声学的可视化表示和音频过滤(根据用户对声源的选择)。

当上述公开的实施例涉及包括声音可视化的示例实现方式时，其他实施例可以使用与一个或多个其他非可视化的感知相关的输入，来利用感知可视化设备对来自一个或多个感知(其他感知)的输入可视化(可选为除音频输入的可视化)。例如，如人工鼻的与气味相关的传感器，可以设置于或接合于感知可视化设备。替代地或附加地，与味觉相关的传感器可以设置于或接合于感觉可视化设备。在一些实施例中，提供了足够数量的与给定感知相关的传感器以使声源能够至少在两个维度上被识别出来。

因此，在一些实施例中，本申请的方面可以被认为是或起到非插入脑内的“端口”或导管的作用(不只对声音)。利用该申请的原理，穿戴者能够通过眼睛将任何信号输入系统(如传感器)连接至大脑，并训练他们的大脑接收作为人类感知的新类型的输入。

上述特定实施例已经通过示例的方式示出，且应当理解的是这些实施例可以容许有各种修改和替代形式。应当进一步理解的是，权利要求并不意欲限制公开的特定形式，相反，旨在涵盖落在本申请精神和范围内的所有修改，等同和替代方案。

Claims

1.一种在声学可视化设备上呈现声学可视化的方法，所述声学可视化设备包括可穿戴显示设备和两个或两个以上的麦克风，所述方法包括：

通过麦克风记录来自一个或多个声源的声音信号；

处理所述声音信号，以提取出与至少一个声源相关的定位声音信号；

在所述声学可视化设备上呈现能提供所述定位声音信号的可视化表示的声学图像。

2.根据权利要求1所述的方法，还包括：

处理所述定位声音信号以获得与定位声源相关的位置；

其中，呈现所述声学图像包括在所述声学可视化设备的穿戴者的视野内的对应于所述定位声源的位置呈现所述声学图像。

3.根据权利要求1或2所述的方法，其中，所述声学图像是对应于定位声源的所述定位声音信号的频域表示。

4.根据权利要求3所述的方法，其中，所述声学图像使用对数尺度绘制所述定位声音信号的频率。

5.根据权利要求3所述方法，其中，所述频域表示将颜色关联至所述定位声音信号的不同频率分量。

6.根据权利要求1-5中任一项所述的方法，其中，所述声学图像被立体呈现在对应于所述声学可视化设备的穿戴者的两只眼睛的显示元件上。

7.根据权利要求1-6中任一项所述的方法，其中，声学可视化设备包括三个麦克风，且定位声源位于三个维度内。

8.根据权利要求1-6中任一项所述的方法，其中，所述声学可视化设备包括两个麦克风，且定位声源位于两个维度内。

9.根据权利要求1-8中任一项所述的方法，其中，处理所述声学信号以识别一个或多个声源的位置包括：

对所述声音信号进行傅里叶变换；

基于具有多个频带的信号的强度识别一个或多个频带；和

对每一个被识别的频带：

进行逆傅里叶变换以获得对应于所述被识别的频带的声学信号的时域表示；

根据所述声学信号到达麦克风的相对时延和由所述麦克风检测到的所述声学信号的相对强度，处理所述声学信号的时域表示以确定声源位置。

10.根据权利要求1-9中任一项所述的方法，其中，两个或两个以上的声源被识别，所述方法还包括当两个或两个以上的声源的位置具有小于预选阈值的空间间隔时将所述两个或两个以上的声源合并为一组作为单一声源。

11.根据权利要求1-10中任一项所述的方法，还包括：

接收来自用户的输入，从多个被识别的声源中识别选定声源；

生成过滤音频信号，所述过滤音频信号包括来自所述选定声源的声音信号，从而不是所述选定声源的声源被过滤；和

提供包括所述过滤音频信号的音频输出。

12.根据权利要求11所述的方法，其中，根据所述声学可视化设备的穿戴者的视线方向识别所述选定声源。

13.根据权利要求1-12中任一项所述的方法，其中，所述声学可视化设备由具有听觉障碍的人群穿戴，且所述声学可视化呈现为用视觉替代或弥补听觉。

14.根据权利要求13所述的方法，其中，所述人群被临床诊断为失聪，且所述声学可视化呈现为用视觉替代听觉。

15.根据权利要求13或14所述的方法，其中，使用所述声学可视化设备以训练所述人群将声音可视化。

16.根据权利要求13或14所述的方法，其中，通过将所述人群自己讲话的声学可视化与标准发音的声学可视化进行比较来提供声学反馈，所述声学可视化设备被用来训练所述人群提高他们的言语能力。

17.一种声学可视化设备，包括：

两个或两个以上与所述可穿戴显示设备关联的麦克风；

连接至所述显示设备和所述麦克风的计算硬件，其中所述计算硬件配置为：

通过所述麦克风记录来自一个或多个声源的声音信号；

处理所述声音信号以提取出与至少一个声源相关的定位声音信号；

在所述显示设备上呈现提供了所述定位声音信号的可视化表示的声学图像。

18.根据权利要求17所述的声学可视化设备，其中，至少两个所述麦克风被设置以使它们能位于所述设备的穿戴者的两个耳朵内。

19.根据权利要求17或18所述的声学可视化设备，其中，包括至少三个麦克风，所述计算硬件配置为在三个维度内定位声源。

20.根据权利要求17所述的声学可视化设备，其中，所述可穿戴显示设备至少部分透明，从而允许穿戴者透过所述可穿戴显示设备的一个或多个显示元件观看。

21.根据权利要求17所述的声学可视化设备，其中，所述计算硬件进一步配置为：

处理所述定位声音信号以获得与定位声源相关的位置；和

在所述声学可视化设备的穿戴者的视野内的对应于所述定位声源的位置呈现所述声学图像。

22.根据权利要求17-21中任一项所述的声学可视化设备，其中，所述计算硬件进一步配置为将所述声学图像作为所述定位声音信号的频域表示呈现出来。

23.根据权利要求22所述的声学可视化设备，其中，所述计算硬件被进一步配置以使所述频域表示将颜色关联至所述定位声音信号的不同频率分量。

24.根据权利要求17-23中任一项所述的声学可视化设备，其中，所述可穿戴显示设备包括用于所述穿戴者的双眼的显示元件，所述计算硬件被进一步配置以使所述声学图像对应于所述声学可视化设备的穿戴者的双眼被立体呈现在显示元件上。