CN102016878B

CN102016878B - 定位声音信号源的位置

Info

Publication number: CN102016878B
Application number: CN200980116201.5A
Authority: CN
Inventors: A·A·M·L·布鲁克斯; B·E·萨鲁科; T·A·M·凯沃纳尔
Original assignee: Nuance Communications Inc
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2008-05-08
Filing date: 2009-05-05
Publication date: 2015-03-18
Anticipated expiration: 2029-05-05
Also published as: US8831954B2; WO2009136356A1; CN102016878A; US20110054909A1; EP2304647B1; EP2304647A1

Abstract

本发明涉及通过使用说话人佩戴的物品(20)上的图案(21)的图片来定位该人的位置。该物品(20)带有复杂图案(21)，该复杂图案(21)被优化用以确定该物品(20)的方向、从该物品到麦克风设备(4)和/或照相机(11)的距离。此外，该图案(21)可以被安排用于识别携带该物品(20)的人。对携带该物品(20)的人的位置的确定可以用于增强语音识别(SR)和/或用于提供对例如医院或工业环境中的设备(DC)的免提语音控制。

Description

定位声音信号源的位置

技术领域

本发明涉及一种用于定位声音信号源的位置的系统和方法。本发明还涉及一种被安排用于遮挡人的面部的至少一部分的防护罩，该防护罩用于在本发明的系统或方法中使用。最后，本发明涉及一种使处理器能够执行本发明方法的计算机程序。

背景技术

由于卫生、安全和方便的原因，设备的免提声音控制在许多场合(例如像工业环境或在医院手术室中)都是有用的。为了达到设备声音控制或语音控制的充分性能，并入了语音识别系统。对于这种语音识别系统而言，重要的是捕获的声音或语音具有非常好的质量。其它声音或噪声源具有很大的影响，并且可能使得语音识别系统失效。为了改善语音信号的质量，可以使用各种信号处理技术，例如滤波、噪声抑制以及波束形成。在波束形成技术的情况下，可以使用捕获的音频信号来控制波束，或者在更先进的系统中通过使用附加的视频信号来控制波束。只有在控制用户相对于系统的位置或方位已知时，这种控制才是可能的。音频定位技术提供了声源的位置。可以利用计算机视觉技术识别人。可以将这两种技术组合起来用以定义控制用户或期望用户。有时将来自语音识别器的反馈用于定义谁应该例如通过说出激活命令来控制系统。

在US 2006/0104454A1中，一种用于选择性拾取语音信号的系统使用图像分析算法、基于识别特征来识别希望给该系统声音命令的至少一个人的位置，来关注一组说话者中希望向该系统传递某些信息的说话者。所检测到的位置用于调整定向麦克风以适应该至少一个人。该图像分析算法将转向(即面向)视频分析系统的人识别为给该系统命令的人。当进行转向的人佩戴嘴部保护物时，如在手术室里的情况，将诸如印在嘴部保护物上的水平线之类的光学特征包括进来，用以识别嘴部保护物的边缘。

在医院环境中，声音控制用户可以是医生、心脏病专家或外科医生。通常，他们在诊断或介入治疗过程中使用声音控制。环境通常是无菌的。医生一般佩戴口罩。在工业环境中，技术人员通常佩戴完整的面罩。在这样的环境中找到说话的人可能是一件难以执行的任务。由于吵杂的环境和很多说话的人，音频定位技术不足以跟踪或定位声源。在面部或其一部分被遮挡的情况下，计算机视觉也可能失效。

因此，一种用于对通过声音控制设备的人的位置进行定位的改进系统和方法会是有优势的。特别地，在面部或其一部分被遮挡的情况下，一种用于对通过声音控制设备的人的位置进行定位的更可靠的系统和方法会是有优势的。

发明内容

优选地，本发明力图提供一种用于定位通过声音控制设备的人的位置的改进系统和方法。具体地，可以将提供一种如下的可靠系统和方法视为本发明的目的：其解决上文提到的、现有技术关于定位他/她的面部的一部分被遮挡的人的问题。

在本发明的第一方面中，通过提供用于定位声音信号源的位置的系统来获得这一目的和一些其它目的，所述系统包括：被安排为由具有发音器官的人佩戴的物品，所述发音器官被安排用于作为声音信号源，所述物品包括视觉上可检测的图案，所述图案被放置在离开声音信号源的一距离处；照相机设备，被安排用于记录所述图案或其一部分的至少一幅图片；定位模块，用于基于所述至少一幅图片确定所述图案的位置；至少一个麦克风，被安排用于基于所述图案的位置以及所述图案与声音信号源之间的距离来适应所述声音信号源的位置；其中，所述定位模块被配置为基于图像处理来确定所述声音信号源的位置，其中图像处理是在所述图案或其一部分的所述至少一幅图片上单独执行的。当在所述图案或其一部分的一幅或多幅图片上执行图像处理时，确定所述图案的位置可能比采用面部定位方法或面部检测算法更可靠和/或更简单，这是因为这种面部定位或检测方法具有相对较高的错误接受率。与面部识别或面部检测算法相比，使用图案-位置确定顾及了更好且更可靠的检测率。所述图案应当包括足够的信息以确定所述照相机设备与携带所述图案的所述物品之间的距离。

应当注意的是，任何合适的图像处理或图像分析技术均可用来处理所述图案或其一部分的所述至少一幅图片。此外，应当注意的是，术语“至少一幅图片”可以表示单个的图片、静止的图像以及图片序列或视频序列。此外，应当强调的是，距离可以是大于或等于零的任何合适的距离，使得所述物品的所述图案可以被安排在人的嘴部(例如嘴前)，或者被安排在离开人的嘴部的一距离处。

所述物品可以是被安排用于由人所佩戴的任何物品。它可以是防护罩，例如口罩或面罩，或者完整的面罩。可替换地，它可以是被放置在人的衣服上的物品，例如徽章或标签。它也可以是由人佩戴的任何其它合适的一件衣物或设备，例如徽章、眼镜、耳机、领带、工作服、医生的白大褂、防护服等等。

根据另一个方面，所述系统还包括：补偿模块，被安排为对所述物品的所述图案与佩戴所述物品的所述人的发音器官之间的位置差进行补偿。如果所述物品被安排为放置在离开人的嘴部的一距离处，例如如果所述物品是放置在夹克上的徽章或者如果所述物品是人所佩戴的眼镜的一部分，则这点是特别有优势的。补偿模块可以是定位模块的一部分。

根据另一个方面，视觉上可检测的图案是复杂的图案。当视觉上可检测的图案是复杂图案时，它可以用来可靠地确定所述物品相对于照相机设备的位置和/或方向。术语“复杂图案”旨在表示比单条直线更复杂的任何图案。因此，复杂图案可以是曲线、具有多个部分(例如多个点)的图案、大量的线条或其任意组合。复杂图案可以是适合于指示垂直、水平和/或旋转方向和/或离所述图案的距离的任何图案和/或适合于嵌入关于例如人、日期、时间等的信息的任何图案。

此外，使用所述物品上的复杂图案使得在所述图案中嵌入关于例如用户身份、设备使用授权、设备优选设置、物品与照相机设备间距离等的信息成为可能。复杂图案可以是冗余的，使得如果所述至少一幅图片只包含所述图案的一部分，对所述图案进行识别也是可能的。

根据另一个方面，所述图案包括条形码和/或不同的颜色。它可以附加地或可替换地包括可选择特定大小的标识、字母、数字或任何其它类型的复杂形状。因此，所述图案携带有对检测包含所述图案的物品的位置有用的信息。

根据另一个方面，所述物品包括：显示器，被安排用于显示所述视觉上可检测的图案。因此，所述物品上的图案可以及时变化。这种显示器的例子有液晶显示器(LCD)、柔性显示器或Lumalive显示板。

根据另一个方面，所述图案是旋转对称的，使得所述物品是旋转不变的。因此，所述物品的方向是无关的，由此所述物品不会被错误地定向。可替换地，所述图案包括足以确定所述物品的方向的信息。例如，如果针对所述物品的不同部位所述图案是不同的，则可以容易地确定所述物品的方向。因此，例如，可以确定佩戴所述物品的人部分地从照相机设备转离。

在另一个实施例中，所述物品是被安排用于遮挡人的面部的至少一部分的防护面具。这种面具可以是适合于医务人员(例如医生、护士等)使用的口罩或面罩，或者可以是适合于在工业领域内使用的完整面具。

根据另一个方面，本发明涉及一种用于定位声音信号源的位置的方法，所述方法包括如下步骤：使具有发音器官的人佩戴一物品，所述发音器官被安排用于作为声音信号源，其中所述物品包括视觉上可检测的图案，并且其中，所述图案被安排用于放置在离开所述声音信号源的一距离处；通过照相机设备记录所述图案或其一部分的至少一幅图片；通过定位模块基于所述至少一幅图片来确定所述图案的位置；以及基于所述图案的位置及所述图案与所述声音信号源之间的距离，调整至少一个麦克风以适应所述声音信号源的位置；其中，所述定位模块对所述声音信号源的位置的所述确定是基于图像处理的，其中所述图像处理是在所述图案或其一部分的所述至少一幅图片上单独执行的。

根据另一方面，本发明涉及一种被安排用于遮挡人的面部的至少一部分的防护罩，所述防护罩包括：被安排为有助于定位所述防护罩的图案，其中所述定位包括对所述图案或其一部分的由照相机设备拍摄的图片进行图像分析。应当理解，定位所述罩的图案需要定位佩戴所述罩的人。例如，防护罩可以是面罩、口罩、完整面具、工作服、医生的白大褂、防护服等。

最后，本发明涉及一种使处理器能够执行本发明方法的计算机程序。因此，本发明涉及一种计算机程序产品，用于使包括至少一个计算机的计算机系统能够控制根据本发明的系统，所述至少一个计算机具有与其相关联的数据存储模块。本发明的这个方面是特别但不是唯一地有优势，这是因为本发明可以由计算机程序产品来实现，所述计算机程序产品使计算机系统能够执行本方明方法的操作。因此，应当预料到，可以通过在控制某种已知系统的计算机系统上安装计算机程序产品，将该已知系统修改为根据本发明进行操作。可以在任何形式的计算机可读介质(例如基于磁性或光学的介质)上或者通过基于计算机的网络(例如互联网)来提供这种计算机程序产品。

本发明的不同方面可以各自与任意其它方面进行组合。根据并参考下文描述的实施例，本方明的这些方面和其它方面将会很明显。

附图说明

现在将参照附图仅通过举例的方式解释本方明，其中

图1是根据本发明的系统的结构方框图，以及

图2是根据本发明的方法的流程图。

具体实施方式

图1是根据本发明的系统10的结构方框图。系统10包括：物品20，被安排为由具有发音器官的人佩戴，该发音器官被安排为作为声音信号源。在下面的内容中，将人的嘴的位置视为来自该人的声音信号的源的位置。物品20可以是防护罩，例如被安排为在人的嘴前携带的口罩或面罩，或者被安排为遮挡面部的完整面具。可替换地，该物品可以被安排为放置在人的衣服上，即它可以是徽章或标签。它还可以是由人佩戴的任何其它适合的一件衣物或设备，例如眼镜、耳机、领带、工作服、医生的白大褂、防护服等。物品20带有视觉上可检测的图案21。

该系统还包括：照相机设备11，被安排为记录物品20的图案21的图片。照相机设备11还被安排为将所记录的图片输出至定位模块12，定位模块12被安排为基于图案21的图片来确定图案21的位置或方位。将定位模块12配置为基于对图案21的图象处理来确定图案21的位置。优选地，图案21可以在本身中包括足够的信息以顾及这种定位，使得可以单独根据该图案的图片来确定离照相机的距离以及该物品相对于照相机设备11的方向。可替换地，在定位图案21的位置之前，可以给定位模块12提供图案21上的信息。

系统10还包括：麦克风设备14，其包含一个或多个麦克风，该一个或多个麦克风被安排为记录来自一个或多个人的声音信号，并被安排用于基于该物品的图案的位置以及该图案与声音信号源之间的距离来适应这种声音信号源的位置。麦克风设备14可以是包括两个或更多个麦克风的麦克风阵列，或者其可以仅包括单个麦克风。

系统10还包括：控制模块，被安排用于基于来自定位模块12的、与该物品的图案的位置相关的信号，来调整麦克风设备14中的一个或多个麦克风的指向。可以将这种控制模块实现为定位模块12的一部分、麦克风设备14的一部分，或者实现为独立的单元(未示出)。系统10被安排用于输出来自麦克风设备14的信号。来自麦克风设备14的信号可以用在设备SR中，用于采用一种或多种适当的信号处理技术(例如滤波、噪声抑制和波束形成)，以执行语音增强和/或语音识别，从而识别语音命令。这种语音命令可以用于任何合适的设备DV(例如医院的手术室、工业环境中的设备等)的免提控制。

系统10的部件可以并入到设备DV中，该设备DV被安排用于在其中进行声音控制或免提控制，或者如图1中所示，这些部件可以与设备DV分开。

图2是根据本发明的方法100的流程图。方法100在110处通过下述操作而开始：使人佩戴具有视觉上可检测的图案的物品，其中该图案被安排用于放置在离开该人的嘴部的一定距离处。如果该图案在该人的嘴前所佩戴的口罩上，则该距离可以为零，或者，如果该物品佩戴在例如该人的衣服上，例如作为该人衬衫上的徽章，则该距离可以大于零。

在随后的步骤(步骤120)中，照相机记录所述图案或其一部分的至少一幅图片。照相机可以被安排用于记录具有该图案的物品的图片的视频序列。

在随后的步骤130中，定位模块基于所述至少一幅图片确定所述图案的位置。由所述定位模块确定该图案的位置并从而确定声音信号源的位置是基于图像处理的，其中在所述图案或其一部分的所述至少一幅图片上单独执行图像处理。如果该物品被安排为被佩戴使得该图案在离该人的嘴有较大的距离处，则确定声音信号源的位置的步骤优选地包括对所述物品的所述图案与佩戴所述物品的所述人的嘴之间的位置差进行补偿。

在随后的步骤140中，基于所述图案的位置以及所述图案与佩戴该物品的人的嘴之间的距离而确定的声音信号的位置用于调整麦克风设备，以适应声音信号源的位置。麦克风设备的这种调整可以包括下述操作中的一个或多个：执行信号处理技术，例如波束形成；调整麦克风设备中的一个或多个麦克风的指向，以最佳的可能方式记录来自佩戴该物品的人的声音信号。该方法在步骤150中结束。

在步骤140和步骤150之间，该方法可以包括如下步骤(图2中未示出)：将来自麦克风设备的记录的声音信号输出至用于进行后续信号处理技术(例如滤波、噪声抑制、波束形成)的设备，以执行语音增强和/或语音识别，从而识别语音命令。该方法还可以附加地包括如下步骤(图2中未示出)：将语音命令用于任何合适设备(例如医院手术室、工业环境中的设备等)的免提控制。

简而言之，本发明涉及通过使用说话人佩戴的物品上的图案的图片来定位该人的位置。该物品带有复杂图案，该复杂图案被优化用以确定该物品的方向、从该物品到麦克风设备和/或到照相机的距离。此外，该图案可以被安排用于识别携带该物品的人。对携带该物品的人的位置的确定可以用于增强语音识别和/或用于提供对例如医院或工业环境中的设备的免提语音控制。

可以用包括硬件、软件、固件或者这些的任意组合的任何适当形式来实现本发明。可以将本发明或本发明的一些特征实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以以任何合适的方式物理地、功能性地和逻辑地实现本发明实施例的元素和组件。实际上，功能可以实现在单个单元中、多个单元中或者作为其它功能单元的一部分。同样地，本发明可以实现在单个单元中，或者可以物理地和功能性地分布在不同的单元和处理器之间。

虽然已经结合具体实施例描述了本发明，但是本发明并不旨在受限于本文所给出的具体形式。相反，本发明的范围仅由所附的权利要求来限定。在权利要求中，术语“包括”不排除其它元素或步骤的存在。此外，虽然可以在不同的权利要求中包含单独的特征，但是这些特征有可能有优势地组合起来，并且包含在不同的权利要求中并不意味着特征的组合是不可行的和/或没有优势的。此外，单数形式的提及并不排除复数形式。因此，提及“一”、“一个”、“第一”、“第二”等并不排除复数。此外，权利要求中的参考标记不应该被解释为限制该范围。

Claims

1.一种用于定位声音信号源的位置的系统(10)，包括：

物品(20)，被安排为由具有发音器官的人佩戴，所述发音器官被安排用于作为声音信号源，所述物品(20)包括视觉上可检测的图案(21)，所述图案(21)被放置在离开所述声音信号源的一距离处，并且所述图案用于确定包括所述图案的所述物品相对于照相机设备的位置和方向；

所述照相机设备(11)，被安排用于记录所述图案(21)或其一部分的至少一幅图片；

定位模块，用于基于所述至少一幅图片确定所述图案(21)的位置；以及

麦克风设备(14)，被安排用于基于所述图案(21)的位置以及所述图案(21)与所述声音信号源之间的距离来适应所述声音信号源的位置；

其中，所述定位模块被配置为基于图像处理来确定所述声音信号源的位置，其中对所述图案(21)或其一部分的所述至少一幅图片单独执行所述图像处理。

2.如权利要求1所述的系统，其中，所述系统(10)还包括：

补偿模块，被安排为对所述物品(20)的所述图案(21)与佩戴所述物品(20)的所述人的所述发音器官之间的位置差进行补偿。

3.如权利要求1或2所述的系统(10)，其中，所述图案(21)是复杂图案。

4.如权利要求1或2所述的系统，其中，所述图案(21)包括条形码和/或不同的颜色。

5.如权利要求1或2所述的系统，其中，所述物品(20)包括显式器，其被安排用于显示所述视觉上可检测的图案。

6.如权利要求1或2所述的系统，其中，所述图案(21)是旋转对称的。

7.如权利要求1或2所述的系统，其中，所述图案(21)包括足以确定所述照相机设备(11)与所述物品(20)之间的距离的信息。

8.如权利要求1或2所述的系统，其中，所述物品是防护罩，其被安排用于遮挡人的面部的至少一部分。

9.一种用于定位声音信号源的位置的方法(100)，包括：

使(110)具有发音器官的人佩戴一物品，所述发音器官被安排用于作为声音信号源，其中，所述物品包括视觉上可检测的图案(21)，并且其中，所述图案被安排用于放置在离开所述声音信号源的一距离处，并且其中，所述图案用于确定包括所述图案的所述物品相对于照相机设备的位置和方向；

通过所述照相机设备记录(120)所述图案或其一部分的至少一幅图片；

通过定位模块基于所述至少一幅图片来确定(130)所述图案的位置；以及

基于所述图案的位置以及所述图案与所述声音信号源之间的距离，来调整(140)麦克风设备以适应所述声音信号源的位置；

其中，所述定位模块对所述声音信号源的位置的所述确定(130)是基于图像处理的，其中对所述图案或其一部分的所述至少一幅图片单独执行所述图像处理。

10.一种防护罩，被安排用于遮挡具有发音器官的人的面部的至少一部分，所述发音器官被安排用于作为声音信号源，所述防护罩包括：一图案，被安排为有助于定位所述防护罩，并且其中，所述图案用于确定包括所述图案的所述防护罩相对于照相机的位置和方向，其中所述定位包括对所述图案或其一部分的由所述照相机设备拍摄的图片进行图像处理，

其中，所述防护罩用在用于定位声音信号源的位置的系统中，所述防护罩被安排为由所述人佩戴，其中，所述系统还包括：

所述照相机设备，被安排用于记录所述图案或其一部分的至少一幅图片；

定位模块，用于基于所述至少一幅图片确定所述图案的位置；以及

麦克风设备，被安排用于基于所述图案的位置以及所述图案与所述声音信号源之间的距离来适应所述声音信号源的位置；

其中，所述定位模块被配置为基于图像处理来确定所述声音信号源的位置，其中，对所述图案或其一部分的所述至少一幅图片单独执行所述图像处理。

11.一种用于定位声音信号源的位置的装置，包括：

用于使具有发音器官的人佩戴一物品的模块，所述发音器官被安排用于作为声音信号源，其中，所述物品包括视觉上可检测的图案(21)，并且其中，所述图案被安排用于放置在离开所述声音信号源的一距离处，并且其中，所述图案用于确定包括所述图案的所述物品相对于照相机设备的位置和方向；

用于通过所述照相机设备记录所述图案或其一部分的至少一幅图片的模块；

用于通过定位模块基于所述至少一幅图片来确定所述图案的位置的模块；以及

用于基于所述图案的位置以及所述图案与所述声音信号源之间的距离，来调整麦克风设备以适应所述声音信号源的位置的模块；

其中，所述用于确定的模块对所述声音信号源的位置的所述确定是基于图像处理的，其中对所述图案或其一部分的所述至少一幅图片单独执行所述图像处理。