CN102483918B

CN102483918B - 声音识别装置

Info

Publication number: CN102483918B
Application number: CN200980161199.3A
Authority: CN
Inventors: 大内一成; 古贺敏之; 山本大介; 土井美和子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-11-06
Filing date: 2009-11-06
Publication date: 2014-08-20
Anticipated expiration: 2029-11-06
Also published as: US8762145B2; CN102483918A; US20120245932A1; JP5622744B2; WO2011055410A1; JPWO2011055410A1

Abstract

本发明提供一种声音识别装置。判定部(13)判定在输入到包括多个麦克风的声音输入部(50)的音中，由于说话者的动作而产生的信号音是否包含规定的强度以上。在判定部(13)的判定是真的情况下，音源方向推测部(14)推测包含所述信号音的音的音源方向。声音识别部(16)判定从所推测出的所述音源方向到来的音是否与预先登记的声音模型一致。

Description

声音识别装置

技术领域

本发明涉及声音识别装置。

背景技术

有探测说话者发出的声音，并将麦克风阵列的指向方向设定为发出该声音的方向的声音识别装置(参照专利文献1)。

该声音识别装置通过判定输入声音的声压和时间是否超过规定的阈值，推测声音的音源方向，设定麦克风阵列的指向方向。并且，对来自指向方向的声音进行强调，并进行声音识别。

专利文献1：日本特开2002-366191号公报

发明内容

但是，专利文献1的声音识别装置有时识别到说话者发出的声音以外的音(例如，关门声等噪音)。其结果，有时将麦克风阵列的指向方向设定为这样的音的音源方向，而无法高精度地进行声音识别。

本发明是鉴于上述课题而完成的，其目的在于提供一种能够高精度地进行声音识别的声音识别装置。

本发明的一方面的声音识别装置，其特征在于，具备：判定部，判定在输入到包括多个麦克风的声音输入部的音中，是否包含规定的强度以上的1000Hz以上的频率；音源方向推测部，在所述判定部的判定是真的情况下，推测包含1000Hz以上的频率的所述音的音源方向；以及声音识别部，判定从所推测出的所述音源方向到来的音是否与预先登记的声音模型一致。

根据本发明，能够提供能够高精度地进行声音识别的声音识别装置。

附图说明

图1是本发明的第1实施方式的声音识别装置的框图。

图2是示出声音识别装置中的麦克风阵列的配置例的示意图。

图3是示出声音识别装置的处理流程的一个例子的流程图。

图4是示出所输入的噪音、人的声音、拍响手的音的频率分布的一个例子的示意图。

图5是示出拍响手掌的音的时间变化的图。

图6是示出操作命令的数据库的一个例子的图。

图7是示出操作命令的数据库的另一例子的图。

图8是本发明的第1实施方式的声音识别装置的变形例1的框图。

图9是本发明的第2实施方式的声音识别装置的框图。

图10是示出声音识别装置的处理流程的一个例子的流程图。

图11是示出将手掌拍响两次的音的时间变化的一个例子的图。

(符号说明)

10、100：声音识别装置；11：麦克风阵列；12：存储部；13、113：判定部；14：音源方向推测部；15：指向性控制部；16：声音识别部；17：设备控制部；18：显示部；20：电视接收机；21、22：麦克风；29：框体；50：声音输入部；150：提取部

具体实施方式

以下，参照附图，详细说明本发明的实施方式。

在本说明书中，对同样的要素附加同一符号而适宜地省略详细的说明。

(第1实施方式)

第1实施方式的声音识别装置10通过探测由于说话者的动作而产生的音(以下称为“信号音”)，将声音输入部中包含的麦克风阵列的指向方向设定为信号音的音源方向，识别来自说话者的声音，控制电视接收机等电子设备。在信号音中，例如，包括拍响手掌等多个身体的部位的音、弹手指的音、用手指或手等身体的部位敲打物体的音等。在本实施方式中，将拍响手掌的音用作信号音。

图1是第1实施方式的声音识别装置的框图。本实施方式的声音识别装置10具备声音输入部50、存储部12、判定部13、音源方向推测部14、指向性控制部15、声音识别部16、设备控制部17以及显示部18。

声音输入部50包括1个或者多组的麦克风阵列。

在本实施方式中，声音输入部50包括1个麦克风阵列11。

声音输入部50输入声音识别装置的外部的音、人的声音(voice)，作为音数据保存到存储部12。

存储部12除了音数据以外，还储存为了后述的声音识别部16识别声音而所需的声音模型。

判定部13判定在存储部12中保存的音数据中是否包含有满足后述的规定的条件的音数据。

音源方向推测部14根据由判定部13判定的判定结果，推测该音数据的音源方向(发出信号音的方向)。

指向性控制部15将麦克风阵列11的指向方向设定为音源方向推测部14推测出的音源方向。

在麦克风阵列11的指向方向的设定完成之后，指向性控制部15向声音识别部16输出识别开始命令。

声音识别部16接收来自指向性控制部15的识别开始命令。

声音识别部16根据使用由指向性控制部15设定了指向方向的麦克风阵列11而得到的音数据，识别说话者的声音，决定向电子设备的操作命令。

设备控制部17将与声音识别部16识别出的声音对应的命令提供给成为操作对象的电子设备(未图示)。

显示部18对说话者通知声音识别部16处于正在接收声音的状态。

声音识别装置10例如内置于成为操作对象的电子设备、或者连接到电子设备的外部。在本实施方式中，将成为操作对象的电子设备设为电视接收机20，但不限于此。例如，也可以应用于个人计算机、录像机、空调、车载设备等在使用中通过接收来自说话者的操作而发挥性能的电子设备。

判定部13、音源方向推测部14、指向性控制部15、声音识别部16以及设备控制部17能够通过中央运算处理装置(CPU)执行计算机可读取的存储器中储存的程序来实现。

存储部12既可以设置于声音识别装置10的内部，也可以设置于声音识别装置10的外部。

以下，详述本实施方式的声音识别装置10。

图2是示出声音识别装置10中的麦克风阵列11的配置例的示意图。

在本实施方式中，麦克风阵列11包括2个麦克风21、22，但也可以包括3个以上。

例如，在电视接收机20的框体29的上部，与框体29的上边平行地设置有麦克风阵列11。

麦克风21、22能够将所输入的音变换为电信号。

麦克风21、22能够将指向方向设定到说话者通常视听电视接收机20的位置。

图4是示出输入到麦克风21、22的噪音、人的声音、拍响手的音的频率分布的一个例子的示意图。

图4中的横轴表示频率(0Hz至8000Hz)，纵轴表示音的强度。在图4中，噪音的强度在0Hz至8000Hz的频率中呈现大致一样的分布。人的声音的强度在0Hz至1000Hz的频率中呈现比噪音大的值，但在2000Hz以上的频率中呈现与噪音同样的分布。

拍响手的音的强度相比于噪音和人的声音，在1000Hz至8000Hz的频率中呈现大的值。

图5是示出拍响手掌的音的频率为4000Hz的分量的时间变化的一个例子的图。横轴以秒数单位表示时间，纵轴表示音的强度。

在本实施方式中，声音识别装置10将这样的说话者拍响手掌的音检测为信号音，设定麦克风阵列11的指向方向。

图3是示出声音识别装置10的处理流程的一个例子的流程图。

处理流程从麦克风阵列11的指向方向的设定被解除的状态开始。

声音识别装置10使用麦克风21、22，接收来自说话者的音、声音(S101)。

将由麦克风21、22变换为电信号的音作为针对每个频率整理后的音数据，分别在存储部12中保存固定时间(S102)。

保存音数据的时间既可以预先设定，也可以说话者任意地设定。

在存储部12中，保存图5中的时间0(s)至T(s)的音。在图5中，在时间0(s)至T(s)的期间存在强度超过规定的阈值的峰值。

判定部13判定是否设定了麦克风阵列11的指向方向(S103)。

在步骤S103中的判定部13的判定是“否”的情况下，判定部13从存储部12中保存的音数据中检索规定的频率的音数据，判定音数据的强度是否为规定的阈值(以下，规定强度阈值)以上。由此，判定是否探测到信号音(S104)。

规定强度阈值既可以根据信号音预先设定，也可以说话者任意地设定。

例如，如图5所示，判定部13能够判定在0(s)至T(s)这样的固定时间的期间内频率4000Hz的音数据是否有一次成为规定强度阈值以上。

由图4可知，例如，通过将规定强度阈值设为比噪音、人的声音的强度大、且比拍响手的音的强度小的值，判定部13能够区分信号音、例如噪音和拍响手的音、或者人的声音和拍响手掌的音。

判定部13用于判定是否为信号音的频率既可以是1个，也可以是多个。

例如，判定部13既可以使用4000Hz的频率来判定，也可以使用3000Hz和5000Hz等多个频率来判定。在使用多个频率的情况下，对判定中使用的全部频率的强度是否为规定强度阈值以上进行判定。

在步骤S104中的判定部13的判定是“否”的情况下，判定部13对存储部12输出新的音数据的保存开始信号。

返回步骤S101，存储部12重新临时保存音数据。

在步骤S104中的判定部13的判定为“是”的情况下，音源方向推测部14根据存储部12中保存的音数据，推测超过了规定强度阈值的音的音源方向(S105)。

在音源方向的推测中，能够使用计算输入到麦克风阵列11(麦克风21、22)的音的到来时间差的方法、波束成形法等公知的手法。

指向性控制部15对麦克风阵列11输出控制信号，将麦克风阵列11的指向方向为设定音源方向推测部14推测出的音源方向(信号音的方向)(S106)。

通过设定指向方向，麦克风阵列11对来自所设定的方向的音进行强调并接收。

在麦克风阵列11的指向性的设定中，能够使用以延迟和阵列为代表的固定型、以Griffith-Jim型阵列为代表的自适应型等方法。

在麦克风阵列11的指向方向的设定完成之后，指向性控制部15对显示部18输出通知开始信号。

显示部18接收来自指向性控制部15的通知开始信号，对说话者通知声音识别部16是接收声音的状态的情况。例如，也可以将显示部18设为LED，并通过LED的点亮来对说话者进行通知。或者，也可以显示于显示器来对说话者进行通知。

在将麦克风阵列11的指向方向设定为信号音的方向的设定完成之后，指向性控制部15对存储部12输出新的音数据的保存开始信号。

返回步骤S101，存储部12接收来自指向性控制部15的保存开始信号，再次开始保存输入到麦克风阵列11的音。

在S103中的判定部13的判定为“是”的情况下，判定部13与步骤S104同样地，进一步判定是否探测到信号音(S107)。

在S107中的判定部13的判定为“是”的情况下，转移到步骤S105。

在S107中的判定部13的判定是“否”的情况下，声音识别部16使用存储部12中保存的音数据，进行声音识别(S108)。

声音识别部16提取存储部12中保存的与音数据一致的声音模型，决定与声音模型对应的操作命令(S109)。

图6是存储部12储存的操作命令的数据库的一个例子的图。图7是存储部12储存的操作命令的数据库的另一例子的图。数据库包括输入声音的声音模型、和与其对应的操作命令。声音模型不仅是日语，而且也可以是英语等日语以外的语言。

例如，在输入了“えぬえいちけ一”这样的声音的情况下，声音识别部16从存储部12检索与“えぬえいちけ一”这样的声音一致的声音模型，决定与声音模型对应的“使频道成为1”这样的向电子设备本体的操作命令(图6)。例如，在输入了“weather report”这样的声音的情况下，声音识别部16从存储部12检索与“weather report”这样的声音一致的声音模型，决定提示与声音模型对应的“显示今天的天气预报”这样的信息的操作命令(图7)。

图6、图7所示的声音模型并非发音符号，而是用单词来表示的。

在存储部12储存的操作命令的数据库中，也可以使多个声音模型与一个操作命令对应。例如，也可以如图6所示，使“いつちやん(channel one)”和“えぬえいちけ一(nhk)”与“使频道成为1”这样的操作命令对应。

在电子设备是电视接收机20的情况下，通过在电视接收机20中设置在声音识别部16接收声音的期间使来自电视接收机20的扬声器的输出声音成为OFF的功能、回波抵消功能，能够进一步提高声音识别部16的识别精度。

声音识别部16判定是否决定了操作命令(S110)。

在S110中的声音识别部16的判定为“是”的情况下，声音识别部16将操作信号输出到设备控制部17。

设备控制部17接收来自声音识别部16的操作信号，将声音识别部16所决定的操作命令提供给电子设备，进行电子设备的控制(S111)。

指向性控制部15对麦克风阵列11输出控制信号，解除麦克风阵列11的指向方向的设定(S112)。

在S110中的声音识别部16的判定是“否”的情况下，声音识别部16对存储部12输出新的音数据的保存开始信号。

返回步骤S101，存储部12再次开始保存输入到麦克风阵列11的音。

通过以上的处理，能够提供能够高精度地进行声音识别的声音识别装置。

在本实施方式中，在音源方向的推测和声音的识别中，使用了相同的麦克风阵列11，但不限于此。例如，也可以在音源方向的推测中使用与麦克风阵列11独立的2个以上的麦克风，并在声音的识别中使用麦克风阵列11。

在本实施方式中，叙述了在判定部13判定了信号音之后设定麦克风阵列11的指向方向、并识别来自说话者的声音的声音识别装置，但本发明不限于此。

(变形例1)

例如，还有在说话者发出信号音之后，在固定时间内输入声音的例子。

指向性控制部15被置换为提取部150。提取部150从存储部12中强调并提取来自音源方向推测部14所推测出的音源方向的音数据。

这样的处理流程(未图示)如下所述。

将信号音的音数据和说话者为了操作电子设备而发出的声音(以下，操作声音)的音数据临时保存于存储部12。判定部13判定信号音。音源方向推测部14推测信号音的音源方向。提取部150从存储部12中保存的音数据中提取来自音源方向推测部14推测出的信号音的音源方向的音数据并进行强调。例如，提取部150也可以对存储部12中保存的麦克风21、22的音数据校正根据信号音的音源方向计算的时间量，并进行同相化，从而对来自信号音的音源方向的音数据进行强调。声音识别部16识别声音。声音识别部16决定操作命令。设备控制部17将操作命令提供给电子设备，并控制电子设备。

由此，即使没有设定麦克风阵列11的指向方向，也能够对声音识别部16提供实质上与设定了指向方向的情况大致等同的音数据，所以声音识别部16能够高精度地识别来自说话者的声音。因此，在该情况下，麦克风21、22优选为无指向性的麦克风。

(变形例2)

变形例1的声音识别装置10还能够设为以下的方式。

例如，还有首先接收来自说话者的操作声音，之后，在固定时间内接收来自说话者的信号音的例子。在该情况下，在存储部12中一起保存操作声音的音数据和信号音的音数据。判定部13判定信号音。音源方向推测部14推测信号音的音源方向。提取部150从存储部12中保存的音数据中检索在信号音的音数据之前存储的音数据，对来自音源方向推测部14推测出的音源方向的音数据进行强调并提取。声音识别部16识别声音。声音识别部16决定操作命令。设备控制部17将操作命令提供给电子设备，并控制电子设备。

由此，不仅是说话者在发出了信号音之后发出了操作声音的情况，而且即使在发出了操作声音之后发出了信号音的情况下，声音识别装置也能够识别声音，能够提高操作性。

(第2实施方式)

图9是本发明的第2实施方式的声音识别装置的框图。

如图9所示，本实施方式的声音识别装置100代替第1实施方式的声音识别装置10中的判定部13而具备判定部113的点与第1实施方式不同。对于判定部113的说明，后述。

声音识别装置100是将人类希望引起他人的关注时进行的、“将手掌拍响两次”这样的习惯的音用作信号音(以下，信号音1)，从而推测说话者存在的方向、对来自该方向的声音进行强调并识别的声音识别装置。声音识别装置100例如把将手掌拍响三次的音用作信号音2，从而解除一次设定的麦克风阵列11的指向方向的设定，并重新开始接收音。

在声音识别装置100中，判定部113的判定内容与声音识别装置10不同。

图10是示出声音识别装置100的处理流程的一个例子的流程图。

在以下说明的处理流程中，省略了关于与声音装置10的处理流程同样的步骤的说明。

如图10所示，在声音识别装置100的处理流程中，在步骤S107与步骤S108之间有步骤S800的情况、以及步骤S104、步骤S107的处理内容与声音识别装置10的处理流程不同。

在图11中，在时间0(s)至T(s)的期间，存在2个强度超过规定的阈值的峰值。

判定部113从存储部12中保存的音数据中检索1000Hz以上的频率的音数据，判定音数据的强度在固定时间内是否有两次成为规定强度阈值以上(S104)。

例如，如图11所示，判定部113判定在0(s)至T(s)这样的固定时间的期间，频率4000Hz的音数据是否有两次成为规定强度阈值以上。

通过判定部113判定1000Hz以上的频率的音数据的强度是否在固定时间内有两次超过规定强度阈值，判定部113能够判定为有信号音1。

步骤S107中的处理也是同样的

根据以上的处理，通过将人类在希望引起他人的关注时进行的、“将手掌拍响两次”这样的习惯的音用作信号音，能够高精度地进行声音识别。能够更高精度地与关门的音等突发地产生的噪音区别。

在步骤S107中的判定部113的判定是“否”的情况下，判定部113从存储部12中保存的音数据中检索1000Hz以上的频率的音数据，判定音数据的强度是否有三次成为规定强度阈值以上(S800)。

通过判定部113判定1000Hz以上的频率的音数据的强度在固定时间内是否有三次超过规定强度阈值，判定部113能够判定为有信号音2。

在步骤S800中的判定部113的判定为“是”的情况下，转移到步骤S112，指向性控制部15对麦克风阵列11输出控制信号，解除麦克风阵列11的指向方向的设定。

判定部113对存储部12输出新的音数据的保存开始信号。

返回步骤S101，存储部12重新临时保存音数据。

在步骤S800中的判定部113的判定是“否”的情况下，转移到步骤S108。

在以上的处理中，通过说话者改变拍响手的次数，声音识别装置100能够设定麦克风阵列的指向方向、或解除设定。

对于设为信号音2的拍响手掌的音，只要是两次以外，则也可以并非三次。

Claims

1.一种声音识别装置，其特征在于，具备：

判定部，判定在输入到包括多个麦克风的声音输入部的音中，是否包含强度为规定阈值以上且频率为1000Hz以上的信号音；

音源方向推测部，在所述判定部的判定是真的情况下，推测包含强度为规定阈值以上的频率的所述音的音源方向；以及

声音识别部，判定从所推测出的所述音源方向到来的音是否与预先登记的声音模型一致，

输入到包括所述多个麦克风的声音输入部的音含有由于说话者的动作而产生的信号音。

2.一种声音识别装置，其特征在于，具备：

音源方向推测部，在所述判定部的判定是真的情况下，推测包含强度为规定阈值以上的频率的所述音的音源方向；

指向性控制部，将所述麦克风的指向方向设定为所推测出的所述音源方向；以及

声音识别部，识别从所设定的所述指向方向到来的声音，

3.根据权利要求1或2所述的声音识别装置，其特征在于，

所述判定部还判定在规定的时间内是否两次检测到包含强度为规定阈值以上的频率的所述音。