CN111492668A

CN111492668A - 用于在限定的空间内定位音频信号的发源点的方法和系统

Info

Publication number: CN111492668A
Application number: CN201880079809.4A
Authority: CN
Inventors: V·格海
Original assignee: Barco Corp
Current assignee: Barco Corp
Priority date: 2017-12-14
Filing date: 2018-12-12
Publication date: 2020-08-04
Anticipated expiration: 2038-12-12
Also published as: CN111492668B; EP3725091A1; US11350212B2; US20210168501A1; WO2019115612A1

Abstract

一种用于标识最靠近音频信号的发源点的传感器节点的方法和系统。可存在连接至计算节点的至少三个传感器节点，并且每个传感器节点包括音频指向性传感器和用于提供参考方向的装置。传感器节点可接收音频信号，并且每个音频指向性传感器可提供音频信号关于参考方向的传播的角度。所测得的来自所有传感器节点的传播的角度的角均值被计算，并且提供最接近所述角均值的角度的传感器节点被定义为最接近音频信号的发源点的传感器节点。

Description

用于在限定的空间内定位音频信号的发源点的方法和系统

本发明涉及用于在包括多个参与者的会议期间标识音频信号的发源点的系统和方法。

背景

区分和标识在会议中说话的用户可能是有利的。许多常规方法都是基于生物识别输入，诸如举例而言，话音或面部识别。例如，用户可能需要声明他的存在和身份，例如通过说：“嗨，我是用户X”。一些解决方案是基于用户必须将便携式装备连接至参考设备，该参考设备跟踪会议室中的便携式装备位置。

发明内容

本发明提供了用于区分和标识可与会议中的用户相关联的设备的装置。本发明可在一旦用户开始讲话的情况下用来标识他/她。

在本发明的一个实施例中，提供了一种用于标识最靠近系统内的音频源的传感器节点的基于计算机的方法，所述系统包括连接至计算节点的至少三个传感器节点，每个传感器节点进一步包括音频指向性传感器，以用于测量由音频源发出的音频信号的方向。所述方法包括以下步骤：

测量每个传感器节点中的参考方向，

从传感器节点的每个音频指向性传感器获取音频信号相对于参考方向的方向，测量每个传感器节点的节点角度，该节点角度是参考方向与从音频源传播的音频信号的方向之间的角度，计算所有节点角度的角均值，

将最靠近音频源的传感器节点标识为具有最接近所有节点角度的角均值的节点角度的传感器节点。

这具有的优点在于，当接近传感器节点的人员开始讲话时，系统可标识最接近该人员话音的发源点的传感器节点。

附加地，该方法可包括将计算节点和/或传感器节点连接至存储器设备的步骤，所述存储器设备包括本地、远程或分布式数据库并存储用户和/或设备标识，并且进一步包括接收用户和/或设备标识的步骤。

这具有的优点在于，一旦说话人员开始讲话便可获得该人员的身份，举例而言，他/她不必例如明确说出他/她的姓名以开始标识过程。

附加地，该方法可包括：提供当相同音频信号被不同音频指向性传感器接收到时的时间戳；以及将最靠近音频信号的传感器节点定义为具有最接近所有节点角度的角均值的节点角度、并且具有第一时间戳的传感器节点。

附加地，该方法可包括记录音频信号，标识最靠近音频信号的传感器节点，以及利用用于执行音频信号的自动转录的装置来执行音频信号的自动转录，以及将所标识的传感器节点与该转录登记到一起。

以这种方式，本发明可使获得自动会议记录生成，而无需说话的人员首先必须标识出他们自己成为可能。附加地，该方法可包括将自动转录与接收到的用户标识登记到一起。

这具有的优点在于，提供了自动生成会议转录以及谁正在说什么的指示的能力，而无需说话人员首先必须标识出他们自己。

附加地或替代地，该方法可包括生成会议室的图形延时(time-lapse)表示并指示哪个节点在哪个时间点处最接近音频信号。

这具有的优点在于，增强了会议的记录，以使得可提供谁正在说话的图形表示，例如指示该人员在会议桌上所处的位置。

附加地或替代地，该方法可包括：对于与所选择的传感器节点相对应的每个音频信号，添加与所述所选择的传感器节点在房间中的位置相对应的音频定向特性。

这具有的优点在于，提供了创建增强的音频体验的能力，其中可以使所捕捉的音频信号的发源点与对应视频捕获中所述音频信号的源的位置相匹配。

附加地或替代地，该方法可包括在未被标识为所选择的传感器节点的传感器节点中使用噪声消除。

这具有提供在所选择的传感器节点处的经改善的声音质量的优点。

附加地，该方法可包括参考方向是磁北。附加地或替代地，该方法可包括：所有传感器节点和音频源都位于受限空间中，并且固定参考是位于该受限空间内的已知位置处的信标。

附加地，用于提供参考方向的装置可以是磁体或卫星全球定位系统。

在本发明的另一实施例中，提供了一种用于标识最靠近音频源的传感器节点的系统，所述系统包括连接至计算节点的至少三个传感器节点。每个传感器节点可包括音频指向性传感器，该音频指向性传感器被配置成接收由音频源发出的音频信号并测量该音频信号的方向，并且每个传感器节点可被配置成与用于提供参考方向的装置协作，以使得当音频信号被系统的每个传感器节点接收到时，在所述参考方向和所述测得的方向之间的角度是传感器节点的节点角度。该系统可被配置成将所选择的传感器节点标识为具有其值最接近所有节点角度的角均值的节点角度的传感器节点。

这具有的优点在于，当与传感器节点相关联的人员开始讲话时，系统可标识他/她的话音源自于哪个传感器节点。

附加地，该系统可包括计算节点在传感器节点中被实现。

这允许计算在诸传感器节点之一中进行。

附加地，该系统可包括：至少三个传感器节点中的每一者在与用户登记在一起的电子设备中被实现。

这具有的优点在于，指向性传感器可以在通常被带至会议且将保持接近用户的设备中被实现。例如，这可以是移动电话、平板、膝上型设备等。

附加地或替代地，该系统可包括：至少两个传感器节点中的每一者在被登记至用户的电子设备中被实现，并且一个传感器节点在未被登记至任何用户的电子设备中被实现。例如，这可以是膝上型设备相机或房间相机。

这允许传感器节点与房间的资源登记在一起，其中该资源可不与用户相关联。

附加地或替代地，该系统可包括：至少两个传感器节点中的每一者在被登记至用户的电子设备中被实现，并且一个传感器节点在未被登记至任何用户且利用电源和用于与计算节点通信的装置来仅支持传感器节点的电子设备中被实现。

这具有的优点在于：通过提供第三(哑(dummy))传感器节点而使本发明仅具有被登记至用户的两个传感器节点。

附加地或替代地，该系统可包括话音音调识别。

这具有的优点在于，平均角度方法可最初与话音音调识别一起使用，直到系统已被充分地训练。

附加地或替代地，该系统可包括在存储器设备上被实现并存储用户和/或设备标识的本地、远程或分布式数据库，并且其中计算节点进一步具有用于连接至所述存储器设备、计算节点、和/或传感器节点的装置，计算节点被进一步配置成连接至存储器设备并接收用户和/或设备标识。

附加地或替代地，该系统可包括：音频指向性传感器包括用于针对相同音频信号被不同音频指向性传感器接收到的时间来提供时间戳的装置。

这可针对定义哪个节点最接近音频信号来提供安全性增强。

附加地或替代地，该系统可包括用于记录音频信号的装置和用于执行音频信号的自动转录的装置。

以这种方式，可获得自动转录生成，而无需说话的人员首先必须标识出他们自己。

附加地或替代地，该系统可包括用于生成会议室以及传感器节点在其中的位置的图形延时表示的装置。

附加地或替代地，该系统可包括用于向音频信号提供定向特性的装置。

附加地或替代地，该系统可包括：用于提供参考方向的装置是磁体或卫星全球定位系统。

附加地或替代地，该系统可包括用于执行本发明的方法的计算节点。

附图简述

现在将参考附图来更详细地描述本发明的各实施例的这些以及其他技术方面和优点，其中：

图1A)示出了会议桌周围的会议参与者，并且图1B)示出了本发明的包括音频指向性传感器的实施例。

图2示出了本发明的包括音频指向性传感器和磁北的实施例。

图3解说了角几何。

图4示出了本发明的包括传感器节点的实施例的框图。

图5示出了本发明的包括计算节点的实施例。

图6示出了本发明的包括计算平均角度及选择传感器节点的实施例的流程图。

图7示出了本发明的包括自动转录生成的实施例的流程图。

图8示出了本发明的包括相机的自适应转向的实施例的流程图。

详细描述

将就特定实施例并且参考某些附图来描述本发明，但是本发明不限于此，而仅由权利要求书来限定。所描述的附图仅是示意性且非限制性的。在附图中，出于说明性目的，可将要素中的一些的尺寸放大且不按比例绘制。当在本说明书和权利要求书中使用术语“包括”的情况下，其不排除其他要素或步骤。此外，说明书和权利要求书中的术语第一、第二、第三等被用于在类似要素之间进行区分，而不一定用于描述顺序或时间次序。应当理解，如此使用的术语在适当的情况下是可互换的并且本文中所描述的本发明实施例与本文中所描述或图示的相比能够以其他顺序操作。

“传感器节点”可包括传感器的参考点；如果有多个传感器，则对于每个传感器(例如，音频传感器、磁传感器、红外传感器)可存在一个传感器节点。传感器节点可在电子设备中被实现，该电子设备可附加地具有用于连接到其他电子装备(诸如网络设备、显示器、移动电话、平板、膝上型设备等)的装置。本发明可确定最少三个传感器节点中的哪个传感器节点最接近音频源。传感器节点可以是电子设备，并且传感器节点可进一步关联至人员。传感器节点还可关联至对象，诸如举例而言，会议室。

“计算节点”可包括用于资源的参考点，该资源包括计算能力(例如，用于执行计算或其他处理)。计算节点还可具有用于连接到局域网或外部网络的联网能力。局域网可例如驻留在会议室或设施内，而外部网络可包括至任何位置处的云服务器的链路。计算节点可与同样容置传感器节点的电子装备相一致，但是其也可被放置在不包括传感器节点的其他电子装备中，或者其可以是两者的组合。

音频源可以是说话的人员，也可以是传送音频信号的设备，例如扬声器。

“音频指向性传感器”(ADS)是可获取音频信号的传播方向的音频传感器。其可包括多个音频子传感器(诸如话筒)，它们分布在基板上的不同位置中，以使得每个音频传感器可在不同子传感器的全体或子集中接收到相同音频信号。子传感器可例如沿着圆的边缘被放置在同一平面中，并且当音频信号被接收到时，音频指向性传感器将返回哪个(哪些)子传感器被激活/在何处被激活的指示。该激活可进一步包括例如时间区分或信号强度，以便还给出所接收到的音频信号的传播方向。附加地，可存在提供有经返回方向的可见信号，以指示哪个子传感器(或子传感器群)被激活。在本发明的各实施例中，音频指向性传感器可在包括传感器节点的电子设备中被实现。传感器节点也可以是音频指向性传感器中的固定点。

ADS的示例是由Matrix

开发的Matrix

其包括以下组件：分布在环上的8个MEMS话筒阵列(DIY Amazon Echo)、FPGA(Xilinx Spartan6)、微控制器(ARMCortex M3)、温度传感器、紫外线传感器、压力传感器、3D加速度计、3D陀螺仪、3D磁力计、湿度传感器，如以下网页所描述和示出的：https://creator.matrix.one/#！/index。.其是针对带有FPGA、微控制器、传感器(如IMU)、温度、湿度、光传感器、IR、8个话筒阵列和35个LED阵列的树莓派(Raspberry Pi)设计的开发板。其还已集成了Z-Wave和ZigBee通信，所有这些都允许新手和专业软件开发者等来轻松地构建硬件应用。然而，对于本发明，不是所有这些组件都是必需的。增加ADS中音频子传感器的数目提高了针对音频源方向的测量的分辨率。原则上，所需子传感器的最小数目是三个。

“用于提供参考方向的装置”可例如是磁力计、磁罗盘或提供磁北的MEMS磁场传感器。替代地，其可以是卫星GPS系统。用于提供参考方向的装置可位于传感器节点中的任何位置。

“节点向量”是具有传感器节点作为发源点的向量，其可例如是关联至所述传感器节点的音频指向性传感器上的中心(或任何固定点)，并且指向所激活的子传感器的中心。

“节点角度”被定义为在参考方向和源自传感器节点的特定方向(两者均源自传感器节点中的相同固定点)之间的角度。参考方向可例如是朝向磁北的方向。

“角平均角度”是角度图中至少两个角度的均值(参见下面的平均角度计算之章节)。

“所选择的传感器节点”被定义为其节点角度最接近所有至少三个传感器节点的角平均角度的传感器节点、或最接近音频源的传感器节点。

“电子设备”可以是适合于容纳音频指向性传感器(ADS)且适合在会议期间在会议室中使用的任何电子设备。这可例如是膝上型设备、移动电话、掌上板设备、平板、固定计算机、自立显示器、ClickShare^TM设备。

“数据库服务器”可以是本地服务器或“云中”服务器，其具有存储一个或多个数据库(诸如用户数据库或设备标识数据库)的计算机存储器。

图1示出了置于桌子10处的会议参与者11、12和13。每个参与者11、12和13可以在他/她附近分别具有电子设备(或传感器节点)21、22和23。电子设备可例如是移动电话、平板、膝上型设备或会议促进器(facilitator)，诸如ClickShare^TM按钮。在该实施例中，每个电子设备或传感器节点可关联或登记至参与者。

图1B)示出了本发明的包括电子设备21、22和23(或传感器节点)的放大图解的实施例。每个电子设备21、22或23可分别配备有音频指向性传感器“ADS”24、25和26。每个ADS可具有多个子传感器，例如，ADS 24具有8个子传感器27-34。图1B)中的ADS的音频传感器可沿着圆的边缘分布，并且接收到的音频信号的方向可关于固定点(诸如举例而言，圆的中心)被给出。一般而言，接收到的音频信号的方向可相对于ADS上的任何固定点被给出，只要该点是已知的。每个电子设备21、22或23也可访问例如被嵌入在设备电子器件中的计算节点或经由至外部设备的连接来访问计算节点。

如果用户13说话并提供人声信号37，则其可以由ADS 21、22和23的一个或多个子传感器来检测，例如，音频信号37可以由子传感器31、35和36来检测。

ADS可执行对多个子传感器响应的操作，以在ADS上提供响应信号的单个位置。这样的操作可包括例如求平均或排序。可以在ADS上的固定点和响应信号的位置之间定义向量。该向量可具有朝向参考方向(例如，磁北)的方向。如果ADS被放置在本发明的传感器节点中，则该向量可被称为节点向量且角度可被称为节点角度。

对音频指向性传感器而言存在若干种方式来区分音频信号的角方向(例如，诸如子传感器31和28的角方向)以及确立音频信号的传播方向。这不是本发明的先决条件，然而其可例如在决定哪个向量节点最接近音频源时被用来改善统计资料。如果被激活的子传感器35和38的信号与被激活的子传感器28和31一起示出，则所指示/激活的子传感器的分布可指示音频信号正从子传感器31朝向子传感器28传播。如果音频信号本该在相反方向上传播，则传感器节点22的其他子传感器本该被激活。

附加地或替代地，可存在基于时间测量以使得信号37将在其达到子传感器28之前达到子传感器31的实现。另一区分可基于信号强度，其中信号37在子传感器28中将比在子传感器31中更弱。以这种方式，每个子传感器的响应变得无歧义。

在本发明的优选实施例中，来自至少三个被激活的子传感器31、35、36的信号(各自来自不同的传感器节点21、22、23)可被用来确定它们各自朝向参考方向(例如，磁北)的相应方向，例如它们各自相应的节点角度43、44、45，其可由它们各自相应的节点向量40、41、42来解说。可存在不止一个对节点向量有贡献的子传感器。如果同一ADS中的若干个子传感器被激活，则ADS可首先执行计算以将响应凝聚成一个信号。这可例如通过计算角平均角度来完成(“Statistics of directional data(定向数据的统计学)”，Mardia著，学术出版社(Academic Press)1972年，第20页)。

最接近音频源的传感器节点(或即“第一”传感器节点)的节点向量的分量也将作为其他两个节点向量中的分量来呈现。因此，所有节点角度的角均值将朝“第一”传感器节点或最接近音频源的传感器节点的节点向量方向来被加权。因而，至少三个传感器节点的节点角度的角均值可被用来标识“第一”传感器节点。

如果仅两个传感器节点被使用，则角均值将位于恰好在这两个节点角度之间的中点，并且将不提供关于音频源的发源点的任何区分。因而，第三传感器节点对角均值计算而言是必需的，因为第三传感器节点可给出远离中点的值。然而，仍可用两个传感器节点来标识最接近音频源的传感器节点，因为每个传感器节点都将提供至音频源的方向，但这将无法通过计算这两个节点角度的角均值来起作用。

因此，ADS可提供接收到的音频信号关于ADS上的固定点(例如，其中心)的方向。

图2示出了本发明的包括三个传感器节点21、22和23的实施例，这三个传感器节点21、22和23分别包括子传感器31、35和36，它们在已接收到信号37(图1B所示)之后已被激活。传感器节点31、35和36可在电子设备中被实现，并且可将所接收到的信号传送至计算节点(参见图7)。分别从ADS的中心到检测(或被激活的)子传感器31、35和36的中心绘制了节点向量40、41和42。对于大多数情形，包括ADS(或传感器节点)的电子设备将被定位在同一平面内，因而二维向量便足够了，然而，本发明不限于此且等式可扩展至三维。现在可分别建立节点向量40、41和42与参考方向(此处是磁北N)之间的角度43、44和45。所有三个ADS(或传感器节点)可检测到相同的传入音频信号37，因此最接近音频信号37的发源点的ADS(或传感器节点)的传感器可提供传入信号的最佳估计位置。由于其他ADS(或传感器节点)也可在该方向上接收到信号的分量，因此所有三个ADS(或传感器节点)所作的所有测得的方向的角均值将最接近传入信号的最佳估计位置。因此，通过将诸ADS(传感器节点)(朝向磁北)所作的所有测得的方向的均值与来自每个ADS的信号进行比较，可将具有最接近所有节点角度的角均值的节点角度的ADS定义为最接近信号发源点的ADS。以这种方式，可标识最靠近音频信号的发源点(例如，正说话的人)的传感器节点。

本发明的优点在于，该方法本身独立于音频源(或音频信号的接收器，例如相机)与其相关的传感器节点或具有其传感器节点的用户和其他传感器节点之间的距离，因为角均值将不受此距离的影响，只要该传感器节点和/或用户沿着其他两个传感器节点的等分线移动。例如，考虑图2：如果传感器节点23(或音频源13及其相关联的传感器节点23)沿着传感器节点21和22的等分线(例如，在向量42的方向上)远离传感器节点21和22移动，则传感器节点21和22上的节点角度43、44将改变。因此，所得的节点向量40和41也将改变。然而，角均值将保持不变。

在实际的实现中，音频指向性传感器需要具有足够的范围，该范围可以是1、2或甚至10m。还可能需要确保不同传感器保持最接近其相关联的用户(或设备)。

存在若干种方式来标识正在说话的人员。在根据本发明的一个实施例中，每个ADS可被嵌入在设备和/或用户数据库中列出的电子设备中。该数据库可被存储在服务器上的计算机存储器上。传感器节点可访问(诸)数据库，并因此获得恰适的用户设备信息。在本发明的另一实施例中，可以在话音音调识别方法的学习过程期间使用基于计算节点角度的角均值的方法。

平均角度计算

定向数据的分析可以在直角极坐标系中进行。图3示出了具有长度为一个单位的半径51的圆50。圆上的点52可以由半径51和圆50之间的角度53来定义。然后可在笛卡尔坐标系中表示极坐标(参见“定向数据的统计学”，Mardia著，学术出版社1972年，第20页)，以最终得到

现在可使用式(1)和表1中的表达式来计算图3中四个不同象限中的平均角度。

表1：用于平均角度的公式

图4示出了本发明的包括传感器节点160的实施例的框图。传感器节点160可具有CPU 60，其可连接至计算机存储器61(例如，RAM)、音频传感器阵列62、用于提供方向的装置63(例如，磁体或GPS)、用于USB连接的USB模块64、用于无线通信的WiFi模块65、数据库节点66、用于流传输的装置67、和磁传感器。音频传感器阵列62可包括例如话筒传感器。数据库节点66可以是本地、远程或分布式数据库的一部分。

存储器61可包括缓冲器162，该缓冲器162可存储与传感器节点相关的各种参数，诸如相关用户ID、节点角度和刷新周期。

图5示出了本发明的包括计算节点161的实施例的框图。计算节点161可具有传感器节点的所有特征60至67。还可在计算节点161中存在附加处理引擎，例如文本到语音引擎68、语音到文本引擎69、人工智能引擎70和通信节点71。存储器61可包括用于接收来自传感器节点K的信号的K个缓冲器163。该信号可包括例如音频信号、用户ID、节点角度和刷新率。用户ID、节点角度和刷新率可在一个刷新周期期间被提供，同时并行地，音频信号可随时间变化来被连续地流传输。当另一传感器节点被激活时(即，当不同人员开始说话时)，所接收到的信号可被导向K个缓冲器163中的另一缓冲器。

计算节点从所有传感器节点接收信息，并且可计算平均角度并找到所选择的传感器节点。在附加缓冲器中，其可在每个刷新周期期间将来自当前所选择的传感器节点的音频信号与对应用户ID和节点角度相匹配。此外，其可在缓冲器中添加附加特征或引擎的输出，诸如语音到文本和人工智能分析(例如，使用机器学习对文本内容做出似人类的解读)。所有流传输可利用用于流传输的装置67来执行。

图7示出了本发明的包括连接至计算节点80的五个传感器节点181至185的实施例的概览。每个传感器节点181至185分别紧邻用户281至285。因而，每个传感器节点与一用户相关联。该情况可例如包括位于会议室中的桌子周围的五个会议参与者。如果参与者284正在说话，则音频指向性传感器81至85的局部节点向量91至95将分别被定位成朝向参与者284。传感器节点181至185中的每一者可将信号传递至计算节点，该信号可包括例如所接收到的音频信号、传感器节点ID、局部节点向量、用户ID、采样率、和附加/任选信息。计算节点80可使用所接收到的参数来计算节点角度的角均值。

该规程在图6的流程图中解说。在步骤70中，所有传感器节点从音频源接收音频信号，并且随后在步骤71中，对于每个传感器节点，音频指向性传感器可提供音频源关于音频指向性传感器的固定点的传感器方向。在步骤71中，用于提供参考方向的装置可在所述固定点中提供参考方向。在步骤73中，传感器节点可将上面提到的方向提供给计算节点，在步骤74中，该计算节点可将节点角度定义为在传感器方向和参考方向之间的角度。并且在步骤75中，当所有节点角度都已被接收到时，计算节点可使用上面描述的方法来计算所有节点角度的角均值。在步骤76中，计算节点可标识传感器节点181至185中的哪个传感器节点最靠近音频信号的发源点。这是通过选择节点角度最接近所有节点角度的角均值的那个传感器节点来完成的。

用例

自动转录生成

本发明的另一实施例包括自动转录生成。该系统可标识哪个人员或参与者正在上下文位置(例如，会议室)内说话。图7可解说具有五个传感器节点181至185和分别位于其专用传感器节点旁边的五个参与者281至285的该场景。传感器节点181至185中的每一者与一个参与者的用户相关联，并分别包括ADS 81至85。传感器节点181至185中的每一者可例如在膝上型设备、智能电话或平板或可提供电子支持的任何其他设备中被实现。传感器节点181至185可访问计算节点80。在图7的示例中，计算节点80是外部的，但是一个或多个传感器节点可附加地或替代地具有嵌入的计算节点。在图7中，ADS 81至85通过连接86至90连接至计算节点80，这些连接可以是无线的或者有缆。

在本示例中，参与者284正在说话，因此对于每个传感器，分别指示了指向说话用户284的局部节点向量91至95。

当会议参与者开始说话时，至少一个传感器节点中的ADS的子传感器中的至少一者可被激活，如图2和相关文本中所描述的。因而，上面描述的方法可接着被用来计算每个传感器节点181至185相对于关于ADS 81的固定点(例如，其中心)的局部节点角度。每个传感器节点还包括用于提供参考方向的装置63。这可例如利用磁传感器或利用基于卫星的GPS系统来实现。嵌入的或外部计算节点可接着从上下文位置内的所有传感器节点接收局部节点角度，并计算所有节点角度的角均值。该角均值的值可随后与每个传感器节点的节点角度进行比较，并且其节点角度最接近该角均值的传感器节点将被选择为最接近说话的参与者。这将被称为“所选择的”传感器节点。

每个所选择的传感器节点从参与者284接收模拟音频信号，并基于预先配置的刷新率(例如1秒或优选地0.5秒(此时间段基于人员说出相关内容所需的时间量))作为格式化的话音样本将该音频信号传送至计算节点80。所有传感器节点还向计算节点80传送附加数据，诸如用户ID、节点角度和刷新周期。对于每个刷新周期，计算节点80执行必要的计算以便确定所选择的传感器节点。计算节点80可随后在每个指定的时间段内且以指定的刷新率来对所选择的传感器节点的音频信号进行采样，并将所有信号附加到一个流中。

话音或音频信号采样可被收集并被连续地附加到计算节点中的缓冲器K中达M个刷新周期，直到计算节点检测到另一传感器节点是所选择的传感器节点。该改变可通过检测与局部节点角度改变相同的角平均角度中的改变来确定。如果所有局部节点角度保持基本相同，则平均角度中的可能变化可因用户稍微更改他/她的位置而导致。

所收集的缓冲器和话音样本可被馈送至语音到文本引擎69中，该语音到文本引擎69可获取音频信号(其可以是二进制数据)并将其变换成文本数据。最终，终端系统可交付打印出的文本，例如“名1姓1”：您好，名1，您好吗？今天我们将讨论……”。“名2姓2”：您好，名2，谢谢。是的，让我们开始……”。

相机

附加地或替代地，ADS可被放置在与人员不相关或无关联的设备(例如，房间相机)中。图8解说了其中房间相机100已被添加的图7的系统(略微简化)。房间相机100经由无线或缆线连接101连接至计算单元80。

相机100由紧邻其设置的另一传感器节点支承。例如，传感器节点180、计算节点80和相机100可被放置在相同物理设备中，或者它们可以在分开的设备中。由于传感器节点180将充当相机的传感器节点，因此存在所有必需的参数以便确定相机关于其他传感器节点的期望定向。

视频捕捉质量可通过面部识别来进一步增强，以使得相机可获得对说话的参与者的良好聚焦。视频和音频之间的这种同步可改善会议中的用户体验。

本发明的另一实施例包括具有至少三个传感器节点和房间相机的会议室。房间相机不与音频指向性传感器相关联，但是其连接至可提供参考方向(例如，磁北)以及相机与每个传感器节点之间的距离的电子器件。在具有所选择的节点的节点角度、基准参考方向、以及相机和所选择的节点之间的距离的情况下，可计算房间相机的定向，以使得其指向例如所选择的节点。

本发明的另一实施例包括增强的会议记录过程，其中会议室和参与者的视觉延时表示(例如，图解或摄影)可被创建以指示谁正在说什么、他/她位于何处、以及在什么时间。

本发明的另一实施例包括使用所选择的节点来提供与所述所选择的节点的位置相对应的音频定向特性。这可增强参加录制的会议事件时的用户体验。

噪声消除

本发明的另一实施例包括在除所选择的传感器节点之外的诸传感器中的噪声消除的实现。以这种方式，声音质量可进一步被增强。仅说话人员的音频信号或话音被记录，并且来自其他参与者的音频信号(包括噪声)可被滤出，以使得其被抑制或移除。缓冲器可在传感器节点181至185处被本地地创建，并接着通过用于流传输的装置67来被流传输至计算节点80。刷新率可以在几毫秒的量级上。例如，如果某人在主演示者正在演示的情况下在会议室中低声说话，则这可能会在所选择的传感器节点的音频信号中创建噪声。从所选择的传感器节点以外的传感器节点捕捉到的音频信号可为了最终输出而被丢弃。附加地，那些音频信号可被用来创建用于主动噪声消除的反向声波。

本发明的另一实施例包括使用直接ADS响应来提供哪个电子设备当前最靠近音频源的附加指示。例如，如果音频指向性传感器可检测其子传感器何时接收到音频信号的时间差，则此响应可提供音频信号的传播，其可被用来验证通过平均角度计算而选择的ADS。这可进一步确保正确的传感器节点被选择。

本发明的另一实施例包括使用放置在具有支持ADS(例如，提供电力和用于连接至计算机网络的装置)的电子器件的哑设备中的ADS。以这种方式，基于平均角度计算的方法可用在仅具有两个会议参与者的会议中。这两个参与者可各自具有带有ADS的常规电子设备，并且第三ADS被放置在任意位置中，例如在会议室桌子上。该概念可扩展至三维。如果ADS在其子传感器中不支持时间差，则至少三个传感器节点是必需的，以便得出正确的角平均角度。在两个传感器节点的情况下，音频信号将源自它们中的一者，并且节点向量将在平面中对齐，并且它们的角平均值也将位于该平面中(与图2和相关讨论相比较)。仅第三传感器节点(优选地在平面外)将提供平面外的、指向音频信号的发源点处的传感器节点的节点向量。该平面外分量将使平均值朝着音频源的发源点处的传感器节点移位。

尽管以上已参考特定实施例描述了本发明，但是这样做是为了阐明而不是限制本发明。所属技术人员将领会，所公开的特征的各种修改和不同组合是可能的，而不会脱离本发明的范围。

Claims

1.一种用于标识最靠近系统内的音频源的传感器节点的基于计算机的方法，所述系统包括连接至计算节点的至少三个传感器节点，每个传感器节点进一步包括音频指向性传感器，以用于测量由所述音频源发出的音频信号的方向，

所述方法包括以下步骤：

-测量每个传感器节点中的参考方向，

-获取来自所述传感器节点的每个音频指向性传感器的所述音频信号相对于所述参考方向的方向，

-测量每个传感器节点的节点角度，所述节点角度是所述参考方向与从所述音频源传播的所述音频信号的方向之间的角度，

-计算所有节点角度的角均值，

-将最靠近所述音频源的传感器节点标识为具有最接近所有节点角度的所述角均值的节点角度的传感器节点。

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括将所述计算节点连接至存储器设备的步骤，所述存储器设备包括本地、远程或分布式数据库并存储用户和/或设备标识，并且进一步包括接收用户和/或设备标识的步骤。

3.根据权利要求1或2所述的方法，其特征在于，所述方法进一步包括将所述传感器节点连接至存储器设备的步骤，所述存储器设备包括本地、远程或分布式数据库并存储用户和/或设备标识，并且进一步包括接收用户和/或设备标识的步骤。

4.根据权利要求1至3中任一项所述的方法，其特征在于，进一步包括以下步骤：

-提供当相同音频信号被不同音频指向性传感器接收到时的时间戳，

-将最靠近所述音频信号的传感器节点定义为具有最接近所有节点角度的所述角均值的节点角度、并且具有第一时间戳的传感器节点。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法进一步包括以下步骤：

-记录所述音频信号，

-标识最靠近所述音频信号的传感器节点，

-利用用于执行音频信号的自动转录的装置来执行所述音频信号的自动转录，以及

-将所标识的传感器节点与所述转录登记在一起。

6.根据权利要求1至5中任一项所述的方法，其特征在于，进一步包括以下步骤：将所述自动转录与接收到的用户标识登记在一起。

7.根据权利要求5至6中任一项所述的方法，其特征在于，进一步包括以下步骤：生成会议室的图形延时表示，所述图形延时表示指示哪个节点在哪个时间点最接近所述音频信号。

8.根据权利要求7所述的方法，其特征在于，进一步包括以下步骤：对于与所选择的传感器节点相对应的每个音频信号，添加与所述所选择的传感器节点在房间中的位置相对应的音频指向特性。

9.根据权利要求1至8中任一项所述的方法，其特征在于，进一步包括以下步骤：在未被标识为所选择的传感器节点的传感器节点中使用噪声消除。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述参考方向是磁北。

11.根据权利要求1至9中任一项所述的方法，其特征在于，所有所述传感器节点和音频源都位于受限空间中，并且固定参考是位于所述受限空间内的已知位置处的信标。

12.根据权利要求1至9中任一项所述的方法，其特征在于，所述用于提供参考方向的装置是磁体或卫星全球定位系统。

13.一种用于标识最靠近音频源的传感器节点的系统，

所述系统包括连接至计算节点的至少三个传感器节点，

每个传感器节点进一步包括音频指向性传感器，所述音频指向性传感器被配置成接收由所述音频源发出的音频信号并测量所述音频信号的方向，

每个传感器节点被进一步配置成与用于提供参考方向的装置协作，以使得当音频信号被所述系统的每个传感器节点接收到时，在所述参考方向与所述测得的方向之间的角度是该传感器节点的节点角度，

所述系统被进一步配置成将所选择的传感器节点标识为具有其值最接近所有节点角度的角均值的节点角度的传感器节点。

14.根据权利要求13所述的系统，其特征在于，所述计算节点在传感器节点中被实现。

15.根据权利要求13至14中任一项所述的系统，其特征在于，至少三个传感器节点中的每一者在与用户登记在一起的电子设备中被实现。

16.根据权利要求13至15中任一项所述的系统，其特征在于，至少两个传感器节点中的每一者在被登记至用户的电子设备中被实现，并且一个传感器节点在未被登记至任何用户的电子设备中被实现。

17.根据权利要求16所述的系统，其特征在于，所述未被登记至任何用户的电子设备是膝上型相机或房间相机。

18.根据权利要求16或17所述的系统，其特征在于，至少两个传感器节点中的每一者在被登记至用户的电子设备中被实现，并且一个传感器节点在未被登记至任何用户且利用电源和用于与其他传感器节点通信的装置来仅支持该传感器节点的电子设备中被实现。

19.根据权利要求13至18中任一项所述的系统，其特征在于，包括话音音调识别。

20.根据权利要求13至19中任一项所述的系统，其特征在于，进一步包括在存储器设备上被实现并存储用户和/或设备标识的本地、远程或分布式数据库，并且其中所述计算节点进一步具有用于连接至所述存储器设备的装置，所述计算节点被进一步配置成连接至所述存储器设备并接收用户和/或设备标识。

21.根据权利要求13至20中任一项所述的系统，其特征在于，传感器节点进一步包括用于连接至在存储用户和/或设备标识的存储器设备上实现的本地、远程或分布式数据库的装置。

22.根据权利要求13至21中任一项所述的系统，其特征在于，所述音频指向性传感器包括用于针对相同音频信号被不同音频指向性传感器接收到的时间来提供时间戳的装置。

23.根据权利要求13至22中任一项所述的系统，其特征在于，进一步包括用于记录音频信号的装置和用于执行所述音频信号的自动转录的装置。

24.根据权利要求13至23中任一项所述的系统，其特征在于，进一步包括用于生成会议室以及所述传感器节点在其中的位置的图形延时表示的装置。

25.根据权利要求24所述的系统，其特征在于，包括用于向音频信号提供定向特性的装置。

26.根据权利要求13至25中任一项所述的系统，其特征在于，所述用于提供参考方向的装置是磁体或卫星全球定位系统。

27.一种用于执行权利要求1至12中任一项所述的方法的计算节点。