CN103098491A

CN103098491A - 用于执行麦克风波束成型的方法和设备

Info

Publication number: CN103098491A
Application number: CN2011800439884A
Authority: CN
Inventors: 赵晟宰; 金炫树
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2010-09-13
Filing date: 2011-09-09
Publication date: 2013-05-08
Anticipated expiration: 2031-09-09
Also published as: WO2012036424A2; EP2428951A3; US9330673B2; KR101750338B1; WO2012036424A3; EP2428951A2; CN103098491B; EP2428951B1; KR20120027718A; US20120065973A1

Abstract

用于执行麦克风波束成型的方法和设备。该方法包括识别说话者的语音、搜索预先存储的与该说话者相关联的图像、基于该图像通过照相机搜索该说话者、识别该说话者的位置以及根据该说话者的位置执行麦克风波束成型。

Description

用于执行麦克风波束成型的方法和设备

技术领域

本发明涉及用于执行麦克风波束成型的方法和设备，并且尤其涉及用于执行根据说话者的位置适应性地改变波束成型的方向的麦克风波束成型的方法和设备。

背景技术

在信息和通信技术中，语音识别的发展引人关注。为了准确识别说话者的语音，需要用于区分说话者的语音与环境噪声并且去除该噪声的技术。

然而，由于说话者连续移动，所以难以准确区分说话者的语音与噪声。

发明内容

为了解决现有技术的上述缺陷，首要目的是提供一种用于适应性地执行麦克风波束成型的方法和设备。

附图说明

为了更完整地理解本公开及其优点，现在参考结合附图给出的以下说明，其中，在附图中相同的附图标记表示相同的部分：

图1是示出根据本发明一实施例的执行麦克风波束成型的方法的流程图；

图2是示出图1的方法中通过识别说话者的语音识别说话者的操作的流程图；

图3是示出根据本发明另一实施例的执行麦克风波束成型的方法的流程图；

图4a和图4b是用于解释根据本发明一实施例的、根据说话者的位置控制波束成型的方向的方法的视图；

图5a和图5b是用于解释根据本发明另一实施例的、根据说话者的位置控制波束成型的方向的方法的视图；以及

图6是示出根据本发明一实施例的用于执行麦克风波束成型的设备的框图。

具体实施方式

根据本发明的一方面，提供一种执行麦克风波束成型的方法。该方法包括识别说话者的语音，并且搜索预先存储的与该说话者相关联的图像。该方法还包括基于该图像通过照相机搜索该说话者，并且识别该说话者的位置。该方法还包括根据该说话者的位置执行麦克风波束成型。

识别该说话者的语音可以包括接收来自该说话者的语音信号，从该语音信号中提取包括预定语音信号的部分，并且基于该部分识别说话者。

识别该说话者可以包括通过比较所述预定语音信号与预先从一个或多个说话者获取并且存储的语音信号来识别该说话者。

搜索该说话者可以包括通过比较通过照相机获取的图像数据与预先存储的与一个或多个说话者相关联的图像数据，从通过照相机获取的图像数据中提取与说话者相对应的对象。

识别所述位置可以包括基于与该对象有关的信息确定该说话者的位置是否改变到改变后的位置，其中执行麦克风波束成型包括，如果该说话者的位置改变到改变后的位置，则根据改变后的位置适应性地执行麦克风波束成型。

执行麦克风波束成型可以包括放大多个区域当中该说话者所处的区域中产生的语音，并且降低其他区域中产生的语音。

根据本发明的另一方面，提供一种用于执行麦克风波束成型的设备。该设备包括被配置为识别说话者的语音的语音识别单元。该设备还包括被配置为搜索预先存储的与该说话者相关联的图像的图像搜索单元。该设备进一步包括被配置为基于该图像通过照相机搜索该说话者的说话者搜索单元。该设备进一步包括被配置为识别该说话者的位置的位置识别单元。该设备还包括被配置为根据该说话者的位置执行麦克风波束成型的波束成型执行单元。

在下面对本发明进行详细描述之前，给出在本专利文件中使用的单词和短语的定义可能是有利的：术语“包括”及其变体表示非限制性的包括；术语“或者”是包含性的，意思是和/或；短语“与…相关联”和“与其相关联”及其变体可以表示包括、被包括在…中、与…互联、包含、包含在…内、连接到…或者与…相连、可与…通信、与…合作、交错、并行、近似于…、绑定到…或者与…绑定、具有、具有…的属性等；术语“控制器”表示控制至少一个操作的任何装置、系统或者其部件，这种装置可以用硬件、固件或软件或者至少其中两者的某种组合来实现。应当指出的是，与任何具体控制器相关联的功能可以集中或分散在本地或远处。本专利文件中提供了某些单词和短语的定义，本领域的技术人员应当理解，在许多情况下，即使不是大多数情况下，这种定义适用于所定义的单词和短语的以前和将来的使用。

下面讨论的图1至图6以及用于描述本专利文件中公开的原则的各种实施例仅是示例性的，并且绝不意味着限制本公开的范围。本领域的技术人员将会理解，本公开的原则可以用任何适当配置的装置来实现。

图1是示出根据本发明一实施例的执行麦克风波束成型的方法的流程图。

在操作S110中，通过识别说话者的语音来识别说话者。

与一个或多个说话者的语音有关的特定信息可以存储在数据库中。例如，可以存储与一个或多个说话者的每个语音有关的平均频率、音调、平均带宽等。在一个实施例中，由一个或多个说话者预先定义的单词（例如，改变到语音识别模式的命令）可以被存储作为语音信号或者与语音信号有关的信息。在操作S110中，通过从说话者输入的语音信号中提取预定部分（例如，包括预定命令的部分）并且比较该部分的语音信号与存储在数据库中的每个说话者的语音信号来识别说话者。

将参照图2详细解释操作S110。

在操作S120中，搜索与其语音被识别出的说话者相关联的图像。

与一个或多个说话者相关联的图像数据可以存储在数据库中。在操作S120中，基于与在操作S110中识别的说话者相关联的信息，搜索其中存储每个说话者的图像数据的数据库。每个说话者的图像数据可以存储在客户端的内部数据库中或者存储在预定服务器中。在后一情况下，可以通过使用搜索引擎来搜索存储在服务器中的数据库。

在操作S130中，基于被搜索出的图像，通过照相机搜索说话者。可以通过比较通过照相机获取的图像数据与在操作S120中搜索出的图像数据，在通过照相机获取的图像数据中搜索与说话者相对应的对象。

在操作S140中，识别说话者的位置。

用于通过照相机识别说话者的位置的方法可以有多种。尽管下面将解释用于识别说话者的位置的三种方法，但是本实施例不局限于此。

在第一方法中，通过比较通过照相机获取的图像数据和与在操作S120中搜索到的说话者相关联的图像数据，在通过照相机获取的图像数据中确认说话者的位置。使用一个图像数据难以准确检测说话者的位置。然而，即使当只使用一个图像数据时，由于可以计算在水平或垂直方向上说话者与基准轴（例如，穿过麦克风阵列中心的轴）的偏离角度，所以可以获取该角度作为位置信息。

在第二方法中，通过比较与在操作S120中搜索到的说话者相关联的图像数据和使用一个或多个照相机在不同角度拍摄的多个图像数据，在多个图像数据中确认说话者的位置。当在不同角度同时拍摄到同一对象时，可以计算该对象和照相机之间的距离。因此，在第二方法中，可以获取在水平或垂直方向上说话者与基准点（例如，多个麦克风当中位于中间的麦克风）的偏离角度和与该基准点的距离作为位置信息。

在第三方法中，从通过麦克风阵列接收到的说话者的语音信号获取与说话者的位置相关联的第一信息，并且通过比较与在操作S120中搜索到的说话者相关联的图像数据和使用一个或多个照相机在不同角度拍摄的多个图像数据，获取与说话者的位置相关联的第二信息。通过结合第一信息和第二信息确定说话者的位置。

如果使用麦克风阵列，则麦克风可以不同地识别从同一个源产生的一个语音信号。这是因为i）语音信号的增益随该语音信号入射到每个麦克风的角度而变化，并且ii）该语音信号被输入的时间点随语音信号和每个麦克风之间的距离而变化。因此，可以通过比较在每个麦克风接收到的语音信号的增益和接收该语音信号的时间点来获取与说话者的位置有关的第一信息。

在操作S150中，根据说话者的位置执行麦克风波束成型。波束成型技术涉及选择使用多个麦克风接收语音信号的方向、只接收在所选择的方向上接收到的语音信号并且排除在其他方向上接收到的语音信号。当将该波束成型技术应用于本发明时，通过将语音可识别的区域分割为多个区域、并且放大说话者所处的区域中产生的语音并且降低其他区域中产生的语音，可以只选择性地接收期望的语音。

图2是示出图1的方法的操作S110的流程图。

在操作S112中，从说话者接收语音信号。

在操作S114中，确定该语音信号中是否包括预定语音信号，并且提取该预定语音信号。该预定语音信号是由说话者预先定义的预定语音信号，其可以包括开始命令，以在设备中启动用于执行麦克风波束成型的语音识别。例如，如果预先确定如果说话者说出“小狗”，则该设备改变到语音识别模式（在该模式中执行麦克风波束成型，然后识别说话者的语音），那么从自该说话者接收到的语音信号当中提取包括通过发音“小狗”产生的语音信号的部分。如果该语音信号中不包括该预定语音信号，则可以不执行以下步骤，并且可以结束操作S110。

根据实施例，可以通过按下装配到该设备的按钮或者按下遥控器的按钮，将该设备的模式改变到语音识别模式。在此情况下，即使在该语音信号中不包括该预定语音信号，操作S110也前进到操作S116。

在操作S116中，通过分析在操作S114中提取的预定语音信号来识别说话者。从一个或多个说话者获取的预定语音信号可以存储在数据库中。在操作S116中，通过比较在操作S114中提取的预定语音信号与存储在数据库中的预定语音信号来识别说话者。

尽管从自说话者接收到的语音信号中提取特定信号，并且该特定信号用于在操作S116中识别说话者，但是根据实施例，也可以从说话者接收到的语音信号中提取任意信号，并且该任意信号可用于识别说话者。

图3是示出根据本发明另一实施例的执行麦克风波束成型的方法的流程图。

在操作S310中，从说话者接收语音信号。

在操作S320中，基于该语音信号识别说话者。

在操作S330中，使用照相机获取包括该说话者的图像数据。

在操作S340中，通过分析在操作S330中获取的图像数据检测与该说话者相对应的对象。

在操作S350中，基于与该对象有关的信息分析该说话者的位置。

在操作S360中，根据该说话者的位置调节麦克风波束成型的方向。

在操作S370中，识别语音。

图4a和图4b是用于解释根据本发明一实施例的根据说话者的位置控制波束成型的方向的方法的视图。

麦克风阵列400接收来自说话者401的语音信号。麦克风阵列400通过使用该语音信号识别说话者401，并且从通过照相机获取的图像数据中检测与该说话者相对应的对象。通过使用该对象可以识别说话者401的位置。

参考图4b，说话者401位于从中心向右偏离大约十五（15）度。因此，麦克风阵列400在从该中心向右偏离大约十五（15）度的方向上执行波束成型。

在该波束成型进行的同时，照相机周期性地获取包括该说话者的图像数据，并且麦克风阵列400在周期性获取的图像数据中检测与该说话者相对应的对象，以确定该说话者的位置是否改变。

如图4b中所示，如果说话者402移动到麦克风阵列400的中心，则麦克风阵列400根据该说话者的位置改变波束成型的方向。也就是说，麦克风阵列400在从该中心偏转零（0）度的方向上执行波束成型。

图5a和图5b是用于解释根据本发明另一实施例的根据说话者的位置控制波束成型方向的方法的视图。

麦克风阵列500接收来自说话者501的语音信号。麦克风阵列500通过使用该语音信号识别说话者501，并且在通过照相机获取的图像数据中检测与说话者501相对应的对象。基于与该对象有关的信息识别说话者501的位置。

参考图5a，说话者501位于从麦克风阵列500的中心的底部向上偏离大约十五（15）度。因此，麦克风阵列500在从该底部向上偏离大约十五（15）度的方向上执行波束成型。

在该波束成型执行的同时，照相机周期性地获取包括该说话者的图像数据，并且麦克风阵列500在周期性获取的图像数据中检测与该说话者相对应的对象，以确定该说话者的位置是否改变。

如图5b中所示，如果说话者502站起并且从该底部向上移动，则麦克风阵列500根据该说话者的位置改变波束成型的方向。也就是说，麦克风阵列500在从该底部向上偏离大约三十（30）度的方向上执行波束成型。

为了如图5a和图5b中所示从该底部垂直地改变波束成型的方向，麦克风阵列500包括在水平方向上排列的一个或多个麦克风以及在垂直方向上排列的一个或多个麦克风。

图6是根据本发明一实施例的用于执行麦克风波束成型的设备600的框图。

设备600包括语音识别单元610、图像搜索单元620、说话者搜索单元630、位置识别单元640和波束成型执行单元650。

语音识别单元610识别说话者的语音。语音识别单元610通过搜索如上所述的其中存储有与一个或多个说话者相关联的语音信号的数据库来识别输入的语音信号所属的说话者。语音识别单元610可以包括语音信号接收单元（未示出）、语音提取单元（未示出）和识别单元（未示出）。

该语音信号接收单元接收来自用户的语音信号。该语音信号接收单元可以是包括一个或多个麦克风的麦克风阵列。

该语音提取单元从该语音信号中提取包括预定语音信号的部分。该预定语音信号可以是通过说出启动波束成型执行单元650的操作的命令而产生的语音信号。

该识别单元基于该部分识别说话者。该识别单元通过比较该部分中的语音信号与存储在数据库（未示出）中的每个说话者的语音信号来识别与从该语音信号接收单元接收到的语音信号相对应的说话者。

图像搜索单元620搜索与被识别的说话者有关的图像。如果设备600包括其中存储有与一个或多个说话者相关联的图像数据的数据库，则图像搜索单元620在该数据库中搜索与其语音被识别出的说话者相关联的图像数据。如果设备600不包括该数据库，则可以通过使用网络上的搜索引擎搜索其语音被识别出的说话者相关联的图像数据。

说话者搜索单元630基于被搜索出的图像数据通过照相机搜索该说话者。说话者搜索单元630通过比较通过该照相机获取的图像数据与被搜索出的图像数据，检测通过该照相机获取的图像数据中与该说话者相对应的对象。

位置识别单元640通过使用与该对象有关的信息（例如，位置信息或尺寸信息）识别该说话者的位置。

波束成型执行单元650根据该说话者的位置执行麦克风波束成型。如果位置识别单元640识别出该说话者的位置改变到不同位置，则波束成型执行单元650将波束成型方向改变到该改变后的位置。然而，如果位置识别单元640识别出该说话者的位置没有改变，则波束成型执行单元650不改变波束成型方向。

本发明的上述实施例可以作为可执行程序来实现，并且可以由通过使用计算机可读记录介质运行该程序的通用数字计算机或者其他数据处理系统来执行。

计算机可读介质的例子包括存储介质，如磁存储介质（例如，只读存储器（ROM）、软盘或硬盘）、光可读取介质（例如，压缩盘只读存储器（CD-ROM）或者数字多用途盘（DVD））等。

尽管已经利用示例性实施例描述了本发明，但是可以向本领域的技术人员建议各种变化和修改。本公开意图包含落入所附权利要求范围内的这种变化和修改。

Claims

1.一种执行麦克风波束成型的方法，该方法包括：

识别说话者的语音；

搜索预先存储的与所述说话者相关联的图像；

基于所述图像通过照相机搜索所述说话者；

识别所述说话者的位置；以及

根据所述说话者的位置执行麦克风波束成型。

2.根据权利要求1所述的方法，其中，识别所述说话者的语音包括：

接收来自所述说话者的语音信号；

从所述语音信号中提取包括预定语音信号的部分；以及

基于所述部分识别所述说话者。

3.根据权利要求2所述的方法，其中，识别所述说话者包括：通过比较所述预定语音信号与预先从一个或多个说话者获取并存储的语音信号来识别所述说话者。

4.根据权利要求1所述的方法，其中，搜索所述说话者包括：通过比较通过所述照相机获取的图像数据和预先存储的与一个或多个说话者相关联的图像数据，从通过所述照相机获取的图像数据中提取与所述说话者相对应的对象。

5.根据权利要求4所述的方法，其中，识别所述位置包括：基于与所述对象有关的信息确定所述说话者的位置是否改变到改变后的位置，

其中，执行所述麦克风波束成型包括：如果所述说话者的位置改变到改变后的位置，则根据改变后的位置适应性地执行所述麦克风波束成型。

6.根据权利要求1所述的方法，其中，执行所述麦克风波束成型包括：放大多个区域当中所述说话者所处的区域中产生的语音并且降低在其他区域中产生的语音。

7.一种用于执行麦克风波束成型的设备，该设备包括：

语音识别单元，其被配置为识别说话者的语音；

图像搜索单元，其被配置为搜索预先存储的与所述说话者相关联的图像；

说话者搜索单元，其被配置为基于所述图像通过照相机搜索所述说话者；

位置识别单元，其被配置为识别所述说话者的位置；以及

波束成型执行单元，其被配置为根据所述说话者的位置执行麦克风波束成型。

8.根据权利要求7所述的设备，其中，所述语音识别单元包括：

语音信号接收单元，其被配置为接收来自所述说话者的语音信号；

语音提取单元，其被配置为从所述语音信号中提取包括预定语音信号的部分；以及

识别单元，其被配置为基于所述部分识别所述说话者。

9.根据权利要求8所述的设备，其中，所述识别单元通过比较所述预定语音信号与预先从一个或多个说话者获取并存储的语音信号来识别所述说话者。

10.根据权利要求7所述的设备，其中，所述说话者搜索单元通过比较通过所述照相机获取的图像数据与预先存储的与一个或多个说话者相关联的图像数据，从通过所述照相机获取的图像数据中提取与所述说话者相对应的对象。

11.根据权利要求9所述的设备，其中，所述位置识别单元基于通过所述照相机获取的图像确定所述说话者的位置是否改变到改变后的位置，

其中，所述波束成型执行单元根据所述改变后的位置适应性地执行麦克风波束成型。

12.根据权利要求7所述的设备，其中，所述波束成型执行单元放大多个区域当中所述说话者所处的区域中产生的语音并且降低其他区域中的语音。

13.根据权利要求7所述的设备，其中，所述图像搜索单元在所述设备中的数据库中搜索所述预先存储的图像。

14.根据权利要求7所述的设备，其中，所述图像搜索单元使用网络上的搜索引擎搜索所述预先存储的图像。

15.一种编码有计算机可执行指令的计算机可读记录介质，所述计算机可执行指令在被执行时使数据处理系统执行以下步骤：

识别说话者的语音；

搜索预先存储的与所述说话者相关联的图像；

基于所述图像通过照相机搜索所述说话者；

识别所述说话者的位置；以及

根据所述说话者的位置执行麦克风波束成型。