CN102016878B - 定位声音信号源的位置 - Google Patents

定位声音信号源的位置 Download PDF

Info

Publication number
CN102016878B
CN102016878B CN200980116201.5A CN200980116201A CN102016878B CN 102016878 B CN102016878 B CN 102016878B CN 200980116201 A CN200980116201 A CN 200980116201A CN 102016878 B CN102016878 B CN 102016878B
Authority
CN
China
Prior art keywords
pattern
sound signal
signal source
article
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980116201.5A
Other languages
English (en)
Other versions
CN102016878A (zh
Inventor
A·A·M·L·布鲁克斯
B·E·萨鲁科
T·A·M·凯沃纳尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN102016878A publication Critical patent/CN102016878A/zh
Application granted granted Critical
Publication of CN102016878B publication Critical patent/CN102016878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及通过使用说话人佩戴的物品(20)上的图案(21)的图片来定位该人的位置。该物品(20)带有复杂图案(21),该复杂图案(21)被优化用以确定该物品(20)的方向、从该物品到麦克风设备(4)和/或照相机(11)的距离。此外,该图案(21)可以被安排用于识别携带该物品(20)的人。对携带该物品(20)的人的位置的确定可以用于增强语音识别(SR)和/或用于提供对例如医院或工业环境中的设备(DC)的免提语音控制。

Description

定位声音信号源的位置
技术领域
本发明涉及一种用于定位声音信号源的位置的系统和方法。本发明还涉及一种被安排用于遮挡人的面部的至少一部分的防护罩,该防护罩用于在本发明的系统或方法中使用。最后,本发明涉及一种使处理器能够执行本发明方法的计算机程序。
背景技术
由于卫生、安全和方便的原因,设备的免提声音控制在许多场合(例如像工业环境或在医院手术室中)都是有用的。为了达到设备声音控制或语音控制的充分性能,并入了语音识别系统。对于这种语音识别系统而言,重要的是捕获的声音或语音具有非常好的质量。其它声音或噪声源具有很大的影响,并且可能使得语音识别系统失效。为了改善语音信号的质量,可以使用各种信号处理技术,例如滤波、噪声抑制以及波束形成。在波束形成技术的情况下,可以使用捕获的音频信号来控制波束,或者在更先进的系统中通过使用附加的视频信号来控制波束。只有在控制用户相对于系统的位置或方位已知时,这种控制才是可能的。音频定位技术提供了声源的位置。可以利用计算机视觉技术识别人。可以将这两种技术组合起来用以定义控制用户或期望用户。有时将来自语音识别器的反馈用于定义谁应该例如通过说出激活命令来控制系统。
在US 2006/0104454A1中,一种用于选择性拾取语音信号的系统使用图像分析算法、基于识别特征来识别希望给该系统声音命令的至少一个人的位置,来关注一组说话者中希望向该系统传递某些信息的说话者。所检测到的位置用于调整定向麦克风以适应该至少一个人。该图像分析算法将转向(即面向)视频分析系统的人识别为给该系统命令的人。当进行转向的人佩戴嘴部保护物时,如在手术室里的情况,将诸如印在嘴部保护物上的水平线之类的光学特征包括进来,用以识别嘴部保护物的边缘。
在医院环境中,声音控制用户可以是医生、心脏病专家或外科医生。通常,他们在诊断或介入治疗过程中使用声音控制。环境通常是无菌的。医生一般佩戴口罩。在工业环境中,技术人员通常佩戴完整的面罩。在这样的环境中找到说话的人可能是一件难以执行的任务。由于吵杂的环境和很多说话的人,音频定位技术不足以跟踪或定位声源。在面部或其一部分被遮挡的情况下,计算机视觉也可能失效。
因此,一种用于对通过声音控制设备的人的位置进行定位的改进系统和方法会是有优势的。特别地,在面部或其一部分被遮挡的情况下,一种用于对通过声音控制设备的人的位置进行定位的更可靠的系统和方法会是有优势的。
发明内容
优选地,本发明力图提供一种用于定位通过声音控制设备的人的位置的改进系统和方法。具体地,可以将提供一种如下的可靠系统和方法视为本发明的目的:其解决上文提到的、现有技术关于定位他/她的面部的一部分被遮挡的人的问题。
在本发明的第一方面中,通过提供用于定位声音信号源的位置的系统来获得这一目的和一些其它目的,所述系统包括:被安排为由具有发音器官的人佩戴的物品,所述发音器官被安排用于作为声音信号源,所述物品包括视觉上可检测的图案,所述图案被放置在离开声音信号源的一距离处;照相机设备,被安排用于记录所述图案或其一部分的至少一幅图片;定位模块,用于基于所述至少一幅图片确定所述图案的位置;至少一个麦克风,被安排用于基于所述图案的位置以及所述图案与声音信号源之间的距离来适应所述声音信号源的位置;其中,所述定位模块被配置为基于图像处理来确定所述声音信号源的位置,其中图像处理是在所述图案或其一部分的所述至少一幅图片上单独执行的。当在所述图案或其一部分的一幅或多幅图片上执行图像处理时,确定所述图案的位置可能比采用面部定位方法或面部检测算法更可靠和/或更简单,这是因为这种面部定位或检测方法具有相对较高的错误接受率。与面部识别或面部检测算法相比,使用图案-位置确定顾及了更好且更可靠的检测率。所述图案应当包括足够的信息以确定所述照相机设备与携带所述图案的所述物品之间的距离。
应当注意的是,任何合适的图像处理或图像分析技术均可用来处理所述图案或其一部分的所述至少一幅图片。此外,应当注意的是,术语“至少一幅图片”可以表示单个的图片、静止的图像以及图片序列或视频序列。此外,应当强调的是,距离可以是大于或等于零的任何合适的距离,使得所述物品的所述图案可以被安排在人的嘴部(例如嘴前),或者被安排在离开人的嘴部的一距离处。
所述物品可以是被安排用于由人所佩戴的任何物品。它可以是防护罩,例如口罩或面罩,或者完整的面罩。可替换地,它可以是被放置在人的衣服上的物品,例如徽章或标签。它也可以是由人佩戴的任何其它合适的一件衣物或设备,例如徽章、眼镜、耳机、领带、工作服、医生的白大褂、防护服等等。
根据另一个方面,所述系统还包括:补偿模块,被安排为对所述物品的所述图案与佩戴所述物品的所述人的发音器官之间的位置差进行补偿。如果所述物品被安排为放置在离开人的嘴部的一距离处,例如如果所述物品是放置在夹克上的徽章或者如果所述物品是人所佩戴的眼镜的一部分,则这点是特别有优势的。补偿模块可以是定位模块的一部分。
根据另一个方面,视觉上可检测的图案是复杂的图案。当视觉上可检测的图案是复杂图案时,它可以用来可靠地确定所述物品相对于照相机设备的位置和/或方向。术语“复杂图案”旨在表示比单条直线更复杂的任何图案。因此,复杂图案可以是曲线、具有多个部分(例如多个点)的图案、大量的线条或其任意组合。复杂图案可以是适合于指示垂直、水平和/或旋转方向和/或离所述图案的距离的任何图案和/或适合于嵌入关于例如人、日期、时间等的信息的任何图案。
此外,使用所述物品上的复杂图案使得在所述图案中嵌入关于例如用户身份、设备使用授权、设备优选设置、物品与照相机设备间距离等的信息成为可能。复杂图案可以是冗余的,使得如果所述至少一幅图片只包含所述图案的一部分,对所述图案进行识别也是可能的。
根据另一个方面,所述图案包括条形码和/或不同的颜色。它可以附加地或可替换地包括可选择特定大小的标识、字母、数字或任何其它类型的复杂形状。因此,所述图案携带有对检测包含所述图案的物品的位置有用的信息。
根据另一个方面,所述物品包括:显示器,被安排用于显示所述视觉上可检测的图案。因此,所述物品上的图案可以及时变化。这种显示器的例子有液晶显示器(LCD)、柔性显示器或Lumalive显示板。
根据另一个方面,所述图案是旋转对称的,使得所述物品是旋转不变的。因此,所述物品的方向是无关的,由此所述物品不会被错误地定向。可替换地,所述图案包括足以确定所述物品的方向的信息。例如,如果针对所述物品的不同部位所述图案是不同的,则可以容易地确定所述物品的方向。因此,例如,可以确定佩戴所述物品的人部分地从照相机设备转离。
在另一个实施例中,所述物品是被安排用于遮挡人的面部的至少一部分的防护面具。这种面具可以是适合于医务人员(例如医生、护士等)使用的口罩或面罩,或者可以是适合于在工业领域内使用的完整面具。
根据另一个方面,本发明涉及一种用于定位声音信号源的位置的方法,所述方法包括如下步骤:使具有发音器官的人佩戴一物品,所述发音器官被安排用于作为声音信号源,其中所述物品包括视觉上可检测的图案,并且其中,所述图案被安排用于放置在离开所述声音信号源的一距离处;通过照相机设备记录所述图案或其一部分的至少一幅图片;通过定位模块基于所述至少一幅图片来确定所述图案的位置;以及基于所述图案的位置及所述图案与所述声音信号源之间的距离,调整至少一个麦克风以适应所述声音信号源的位置;其中,所述定位模块对所述声音信号源的位置的所述确定是基于图像处理的,其中所述图像处理是在所述图案或其一部分的所述至少一幅图片上单独执行的。
根据另一方面,本发明涉及一种被安排用于遮挡人的面部的至少一部分的防护罩,所述防护罩包括:被安排为有助于定位所述防护罩的图案,其中所述定位包括对所述图案或其一部分的由照相机设备拍摄的图片进行图像分析。应当理解,定位所述罩的图案需要定位佩戴所述罩的人。例如,防护罩可以是面罩、口罩、完整面具、工作服、医生的白大褂、防护服等。
最后,本发明涉及一种使处理器能够执行本发明方法的计算机程序。因此,本发明涉及一种计算机程序产品,用于使包括至少一个计算机的计算机系统能够控制根据本发明的系统,所述至少一个计算机具有与其相关联的数据存储模块。本发明的这个方面是特别但不是唯一地有优势,这是因为本发明可以由计算机程序产品来实现,所述计算机程序产品使计算机系统能够执行本方明方法的操作。因此,应当预料到,可以通过在控制某种已知系统的计算机系统上安装计算机程序产品,将该已知系统修改为根据本发明进行操作。可以在任何形式的计算机可读介质(例如基于磁性或光学的介质)上或者通过基于计算机的网络(例如互联网)来提供这种计算机程序产品。
本发明的不同方面可以各自与任意其它方面进行组合。根据并参考下文描述的实施例,本方明的这些方面和其它方面将会很明显。
附图说明
现在将参照附图仅通过举例的方式解释本方明,其中
图1是根据本发明的系统的结构方框图,以及
图2是根据本发明的方法的流程图。
具体实施方式
图1是根据本发明的系统10的结构方框图。系统10包括:物品20,被安排为由具有发音器官的人佩戴,该发音器官被安排为作为声音信号源。在下面的内容中,将人的嘴的位置视为来自该人的声音信号的源的位置。物品20可以是防护罩,例如被安排为在人的嘴前携带的口罩或面罩,或者被安排为遮挡面部的完整面具。可替换地,该物品可以被安排为放置在人的衣服上,即它可以是徽章或标签。它还可以是由人佩戴的任何其它适合的一件衣物或设备,例如眼镜、耳机、领带、工作服、医生的白大褂、防护服等。物品20带有视觉上可检测的图案21。
该系统还包括:照相机设备11,被安排为记录物品20的图案21的图片。照相机设备11还被安排为将所记录的图片输出至定位模块12,定位模块12被安排为基于图案21的图片来确定图案21的位置或方位。将定位模块12配置为基于对图案21的图象处理来确定图案21的位置。优选地,图案21可以在本身中包括足够的信息以顾及这种定位,使得可以单独根据该图案的图片来确定离照相机的距离以及该物品相对于照相机设备11的方向。可替换地,在定位图案21的位置之前,可以给定位模块12提供图案21上的信息。
系统10还包括:麦克风设备14,其包含一个或多个麦克风,该一个或多个麦克风被安排为记录来自一个或多个人的声音信号,并被安排用于基于该物品的图案的位置以及该图案与声音信号源之间的距离来适应这种声音信号源的位置。麦克风设备14可以是包括两个或更多个麦克风的麦克风阵列,或者其可以仅包括单个麦克风。
系统10还包括:控制模块,被安排用于基于来自定位模块12的、与该物品的图案的位置相关的信号,来调整麦克风设备14中的一个或多个麦克风的指向。可以将这种控制模块实现为定位模块12的一部分、麦克风设备14的一部分,或者实现为独立的单元(未示出)。系统10被安排用于输出来自麦克风设备14的信号。来自麦克风设备14的信号可以用在设备SR中,用于采用一种或多种适当的信号处理技术(例如滤波、噪声抑制和波束形成),以执行语音增强和/或语音识别,从而识别语音命令。这种语音命令可以用于任何合适的设备DV(例如医院的手术室、工业环境中的设备等)的免提控制。
系统10的部件可以并入到设备DV中,该设备DV被安排用于在其中进行声音控制或免提控制,或者如图1中所示,这些部件可以与设备DV分开。
图2是根据本发明的方法100的流程图。方法100在110处通过下述操作而开始:使人佩戴具有视觉上可检测的图案的物品,其中该图案被安排用于放置在离开该人的嘴部的一定距离处。如果该图案在该人的嘴前所佩戴的口罩上,则该距离可以为零,或者,如果该物品佩戴在例如该人的衣服上,例如作为该人衬衫上的徽章,则该距离可以大于零。
在随后的步骤(步骤120)中,照相机记录所述图案或其一部分的至少一幅图片。照相机可以被安排用于记录具有该图案的物品的图片的视频序列。
在随后的步骤130中,定位模块基于所述至少一幅图片确定所述图案的位置。由所述定位模块确定该图案的位置并从而确定声音信号源的位置是基于图像处理的,其中在所述图案或其一部分的所述至少一幅图片上单独执行图像处理。如果该物品被安排为被佩戴使得该图案在离该人的嘴有较大的距离处,则确定声音信号源的位置的步骤优选地包括对所述物品的所述图案与佩戴所述物品的所述人的嘴之间的位置差进行补偿。
在随后的步骤140中,基于所述图案的位置以及所述图案与佩戴该物品的人的嘴之间的距离而确定的声音信号的位置用于调整麦克风设备,以适应声音信号源的位置。麦克风设备的这种调整可以包括下述操作中的一个或多个:执行信号处理技术,例如波束形成;调整麦克风设备中的一个或多个麦克风的指向,以最佳的可能方式记录来自佩戴该物品的人的声音信号。该方法在步骤150中结束。
在步骤140和步骤150之间,该方法可以包括如下步骤(图2中未示出):将来自麦克风设备的记录的声音信号输出至用于进行后续信号处理技术(例如滤波、噪声抑制、波束形成)的设备,以执行语音增强和/或语音识别,从而识别语音命令。该方法还可以附加地包括如下步骤(图2中未示出):将语音命令用于任何合适设备(例如医院手术室、工业环境中的设备等)的免提控制。
简而言之,本发明涉及通过使用说话人佩戴的物品上的图案的图片来定位该人的位置。该物品带有复杂图案,该复杂图案被优化用以确定该物品的方向、从该物品到麦克风设备和/或到照相机的距离。此外,该图案可以被安排用于识别携带该物品的人。对携带该物品的人的位置的确定可以用于增强语音识别和/或用于提供对例如医院或工业环境中的设备的免提语音控制。
可以用包括硬件、软件、固件或者这些的任意组合的任何适当形式来实现本发明。可以将本发明或本发明的一些特征实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以以任何合适的方式物理地、功能性地和逻辑地实现本发明实施例的元素和组件。实际上,功能可以实现在单个单元中、多个单元中或者作为其它功能单元的一部分。同样地,本发明可以实现在单个单元中,或者可以物理地和功能性地分布在不同的单元和处理器之间。
虽然已经结合具体实施例描述了本发明,但是本发明并不旨在受限于本文所给出的具体形式。相反,本发明的范围仅由所附的权利要求来限定。在权利要求中,术语“包括”不排除其它元素或步骤的存在。此外,虽然可以在不同的权利要求中包含单独的特征,但是这些特征有可能有优势地组合起来,并且包含在不同的权利要求中并不意味着特征的组合是不可行的和/或没有优势的。此外,单数形式的提及并不排除复数形式。因此,提及“一”、“一个”、“第一”、“第二”等并不排除复数。此外,权利要求中的参考标记不应该被解释为限制该范围。

Claims (11)

1.一种用于定位声音信号源的位置的系统(10),包括:
物品(20),被安排为由具有发音器官的人佩戴,所述发音器官被安排用于作为声音信号源,所述物品(20)包括视觉上可检测的图案(21),所述图案(21)被放置在离开所述声音信号源的一距离处,并且所述图案用于确定包括所述图案的所述物品相对于照相机设备的位置和方向;
所述照相机设备(11),被安排用于记录所述图案(21)或其一部分的至少一幅图片;
定位模块,用于基于所述至少一幅图片确定所述图案(21)的位置;以及
麦克风设备(14),被安排用于基于所述图案(21)的位置以及所述图案(21)与所述声音信号源之间的距离来适应所述声音信号源的位置;
其中,所述定位模块被配置为基于图像处理来确定所述声音信号源的位置,其中对所述图案(21)或其一部分的所述至少一幅图片单独执行所述图像处理。
2.如权利要求1所述的系统,其中,所述系统(10)还包括:
补偿模块,被安排为对所述物品(20)的所述图案(21)与佩戴所述物品(20)的所述人的所述发音器官之间的位置差进行补偿。
3.如权利要求1或2所述的系统(10),其中,所述图案(21)是复杂图案。
4.如权利要求1或2所述的系统,其中,所述图案(21)包括条形码和/或不同的颜色。
5.如权利要求1或2所述的系统,其中,所述物品(20)包括显式器,其被安排用于显示所述视觉上可检测的图案。
6.如权利要求1或2所述的系统,其中,所述图案(21)是旋转对称的。
7.如权利要求1或2所述的系统,其中,所述图案(21)包括足以确定所述照相机设备(11)与所述物品(20)之间的距离的信息。
8.如权利要求1或2所述的系统,其中,所述物品是防护罩,其被安排用于遮挡人的面部的至少一部分。
9.一种用于定位声音信号源的位置的方法(100),包括:
使(110)具有发音器官的人佩戴一物品,所述发音器官被安排用于作为声音信号源,其中,所述物品包括视觉上可检测的图案(21),并且其中,所述图案被安排用于放置在离开所述声音信号源的一距离处,并且其中,所述图案用于确定包括所述图案的所述物品相对于照相机设备的位置和方向;
通过所述照相机设备记录(120)所述图案或其一部分的至少一幅图片;
通过定位模块基于所述至少一幅图片来确定(130)所述图案的位置;以及
基于所述图案的位置以及所述图案与所述声音信号源之间的距离,来调整(140)麦克风设备以适应所述声音信号源的位置;
其中,所述定位模块对所述声音信号源的位置的所述确定(130)是基于图像处理的,其中对所述图案或其一部分的所述至少一幅图片单独执行所述图像处理。
10.一种防护罩,被安排用于遮挡具有发音器官的人的面部的至少一部分,所述发音器官被安排用于作为声音信号源,所述防护罩包括:一图案,被安排为有助于定位所述防护罩,并且其中,所述图案用于确定包括所述图案的所述防护罩相对于照相机的位置和方向,其中所述定位包括对所述图案或其一部分的由所述照相机设备拍摄的图片进行图像处理,
其中,所述防护罩用在用于定位声音信号源的位置的系统中,所述防护罩被安排为由所述人佩戴,其中,所述系统还包括:
所述照相机设备,被安排用于记录所述图案或其一部分的至少一幅图片;
定位模块,用于基于所述至少一幅图片确定所述图案的位置;以及
麦克风设备,被安排用于基于所述图案的位置以及所述图案与所述声音信号源之间的距离来适应所述声音信号源的位置;
其中,所述定位模块被配置为基于图像处理来确定所述声音信号源的位置,其中,对所述图案或其一部分的所述至少一幅图片单独执行所述图像处理。
11.一种用于定位声音信号源的位置的装置,包括:
用于使具有发音器官的人佩戴一物品的模块,所述发音器官被安排用于作为声音信号源,其中,所述物品包括视觉上可检测的图案(21),并且其中,所述图案被安排用于放置在离开所述声音信号源的一距离处,并且其中,所述图案用于确定包括所述图案的所述物品相对于照相机设备的位置和方向;
用于通过所述照相机设备记录所述图案或其一部分的至少一幅图片的模块;
用于通过定位模块基于所述至少一幅图片来确定所述图案的位置的模块;以及
用于基于所述图案的位置以及所述图案与所述声音信号源之间的距离,来调整麦克风设备以适应所述声音信号源的位置的模块;
其中,所述用于确定的模块对所述声音信号源的位置的所述确定是基于图像处理的,其中对所述图案或其一部分的所述至少一幅图片单独执行所述图像处理。
CN200980116201.5A 2008-05-08 2009-05-05 定位声音信号源的位置 Active CN102016878B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08155872 2008-05-08
EP08155872.8 2008-05-08
PCT/IB2009/051829 WO2009136356A1 (en) 2008-05-08 2009-05-05 Localizing the position of a source of a voice signal

Publications (2)

Publication Number Publication Date
CN102016878A CN102016878A (zh) 2011-04-13
CN102016878B true CN102016878B (zh) 2015-03-18

Family

ID=40756722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980116201.5A Active CN102016878B (zh) 2008-05-08 2009-05-05 定位声音信号源的位置

Country Status (4)

Country Link
US (1) US8831954B2 (zh)
EP (1) EP2304647B1 (zh)
CN (1) CN102016878B (zh)
WO (1) WO2009136356A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI470995B (zh) * 2011-05-02 2015-01-21 Mstar Semiconductor Inc 應用於三維顯示器的方法與相關裝置
JP5910846B2 (ja) * 2011-07-26 2016-04-27 ソニー株式会社 制御装置、制御方法、及び、プログラム
US9401058B2 (en) 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
US20150117652A1 (en) * 2012-05-31 2015-04-30 Toyota Jidosha Kabushiki Kaisha Sound source detection device, noise model generation device, noise reduction device, sound source direction estimation device, approaching vehicle detection device and noise reduction method
US20140019247A1 (en) * 2012-07-10 2014-01-16 Cirrus Logic, Inc. Systems and methods for determining location of a mobile device based on an audio signal
CN103310786B (zh) * 2013-06-17 2015-10-21 西北工业大学 智能食堂打卡机的三维语音识别方法
CN103473864B (zh) * 2013-06-17 2016-02-03 西北工业大学 智能食堂打卡机的语音识别及指纹结算方法
CN104376847B (zh) * 2013-08-12 2019-01-15 联想(北京)有限公司 一种语音信号处理方法和装置
CN103529726B (zh) * 2013-09-16 2016-06-01 四川虹微技术有限公司 一种具有语音识别功能的智能开关
US9042563B1 (en) * 2014-04-11 2015-05-26 John Beaty System and method to localize sound and provide real-time world coordinates with communication
JP7056020B2 (ja) 2017-07-04 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN109506568B (zh) * 2018-12-29 2021-06-18 思必驰科技股份有限公司 一种基于图像识别和语音识别的声源定位方法及装置
CN113380243A (zh) * 2021-05-27 2021-09-10 广州广电运通智能科技有限公司 一种辅助语音交互的方法及系统、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093541A (zh) * 2001-12-03 2007-12-26 微软公司 使用多种线索对多个人进行自动探测和追踪的方法和系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2003A (en) * 1841-03-12 Improvement in horizontal windivhlls
JPH01195499A (ja) * 1988-01-30 1989-08-07 Toshiba Corp 音声入力装置
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US20050037844A1 (en) * 2002-10-30 2005-02-17 Nike, Inc. Sigils for use with apparel
US7130705B2 (en) * 2001-01-08 2006-10-31 International Business Machines Corporation System and method for microphone gain adjust based on speaker orientation
US6975991B2 (en) * 2001-01-31 2005-12-13 International Business Machines Corporation Wearable display system with indicators of speakers
JP4624577B2 (ja) * 2001-02-23 2011-02-02 富士通株式会社 複数のセンサによるヒューマンインタフェースシステム
US7313246B2 (en) 2001-10-06 2007-12-25 Stryker Corporation Information system using eyewear for communication
AU2003219506B2 (en) * 2002-04-15 2009-02-05 Qualcomm Incorporated Method and system for obtaining positioning data
JP2004094773A (ja) * 2002-09-03 2004-03-25 Nec Corp 頭部装着物画像合成方法、化粧画像合成方法、頭部装着物画像合成装置、化粧画像合成装置及びプログラム
GB2395779A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
US8237770B2 (en) * 2004-10-15 2012-08-07 Lifesize Communications, Inc. Audio based on speaker position and/or conference location
DE102004000043A1 (de) * 2004-11-17 2006-05-24 Siemens Ag Verfahren zur selektiven Aufnahme eines Schallsignals
ATE400474T1 (de) * 2005-02-23 2008-07-15 Harman Becker Automotive Sys Spracherkennungssytem in einem kraftfahrzeug
US20060212996A1 (en) * 2005-03-25 2006-09-28 Mcgrath Mark M Face mask having an interior pouch
US20060289009A1 (en) 2005-06-24 2006-12-28 Joe Palomo Coordinated medical face mask system
US20070098303A1 (en) * 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection
US20070247422A1 (en) * 2006-03-30 2007-10-25 Xuuk, Inc. Interaction techniques for flexible displays
GB2440397A (en) 2006-07-26 2008-01-30 Mary Murphy Aromatic mask

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093541A (zh) * 2001-12-03 2007-12-26 微软公司 使用多种线索对多个人进行自动探测和追踪的方法和系统

Also Published As

Publication number Publication date
US8831954B2 (en) 2014-09-09
WO2009136356A1 (en) 2009-11-12
CN102016878A (zh) 2011-04-13
US20110054909A1 (en) 2011-03-03
EP2304647B1 (en) 2018-04-11
EP2304647A1 (en) 2011-04-06

Similar Documents

Publication Publication Date Title
CN102016878B (zh) 定位声音信号源的位置
US20060104454A1 (en) Method for selectively picking up a sound signal
US9084038B2 (en) Method of controlling audio recording and electronic device
JP4633043B2 (ja) 画像処理装置
CN104067633B (zh) 信息处理设备和信息处理方法
JP6560989B2 (ja) 生体認証装置およびその制御方法
JP2017059062A5 (zh)
US10104464B2 (en) Wireless earpiece and smart glasses system and method
KR101758754B1 (ko) 홍채 인식 장치 및 그 동작 방법
CN105975930A (zh) 一种机器人语音定位过程的摄像头角度校准方法
US8311675B2 (en) Method of controlling an autonomous device
CN106056774B (zh) 基于过程保护的证卡领取自助服务设备及证卡领取方法
KR20220042183A (ko) 개인화된 음향 전달 함수에 기초한 착용자 식별
WO2020054760A1 (ja) 画像表示制御装置および画像表示制御用プログラム
CN105704451A (zh) 一种物联网智能设备的摄像方法
US20210121089A1 (en) Electrogram Annotation System
JP2018525696A (ja) グループのメンバによってデバイスを操作する方法及び装置
US20100062754A1 (en) Cue-aware privacy filter for participants in persistent communications
CN105957300A (zh) 一种智慧金睛识别可疑张贴遮蔽报警方法和装置
CN109196517A (zh) 对照装置和对照方法
JP2008225801A (ja) 不審者検知システム及び方法
ATE323900T1 (de) Verknüpfte information über die okulare weiterverfolgung innerhalb eines systems von verstärkter realität
US20230046710A1 (en) Extracting information about people from sensor signals
JP2006209442A (ja) 眼位置検出装置
JP2010123010A (ja) 自動取引装置及びシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATIONS, INC.

Free format text: FORMER OWNER: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Effective date: 20130216

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130216

Address after: Massachusetts, USA

Applicant after: Nuance Communications, Inc.

Address before: Holland Ian Deho Finn

Applicant before: Koninklijke Philips Electronics N.V.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231031

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Massachusetts

Patentee before: Nuance Communications, Inc.