CN102905210A

CN102905210A - 输入设备、信号处理方法、程序以及记录介质

Info

Publication number: CN102905210A
Application number: CN2012102514867A
Authority: CN
Inventors: 光藤祐基
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-07-26
Filing date: 2012-07-19
Publication date: 2013-01-30
Anticipated expiration: 2032-07-19
Also published as: US20130028439A1; CN102905210B; US9654872B2; JP2013025757A

Abstract

提供了一种输入设备，其包括：至少两个麦克风，其置于壳体上的不同位置以面向空间轴之一上的不同方向；低频带宽提取部分，其用于在从麦克风输入的信号中提取低频带宽信号；相位差计算部分，其用于使用由低频带宽提取部分提取的低频带宽信号来计算相位差；以及控制信号生成部分，其用于基于由相位差计算部分计算的相位差来生成控制信号。

Description

输入设备、信号处理方法、程序以及记录介质

技术领域

本公开涉及一种输入设备、信号处理方法、程序以及记录介质，并且具体地涉及一种可以容易地操作期望的装置的输入设备、信号处理方法、程序以及记录介质。

背景技术

近些年来已经提出不使用包括按钮的控制器而是使用麦克风的用于对装置进行操作的方法（参见日本专利申请公开案第2010-213099号）。

然而，日本专利申请公开案第2010-213099号中所描述的技术使用非立体声信号的波形作为用于区分用户输入的声音与环境无意地输入的声音的方法。因此，由于例如轻拍(tap)头戴式耳机的方式、对装置进行操作的个人习惯、环境的改变、麦克风之间的个体差异以及麦克风的时间变化，难以对装置进行操作。

发明内容

鉴于以上，本公开可以容易地对装置进行操作。

根据本公开的实施例，提供了一种输入设备，其包括：至少两个麦克风，其置于壳体(chassis,机壳,机架)上的不同位置以面向空间轴之一上的不同方向；低频带宽提取部分，其用于在从麦克风输入的信号中提取低频带宽信号；相位差计算部分，其用于使用由低频带宽提取部分提取的低频带宽信号来计算相位差；以及控制信号生成部分，其用于基于由相位差计算部分计算的相位差来生成控制信号。

当在低频带存在相反的相位时，控制信号生成部分可以基于由相位差计算部分计算的相位差来生成控制信号。

考虑到麦克风之间的距离，确定低频带宽提取部分所使用的低通滤波器。

考虑到语音的频率，确定低频带宽提取部分所使用的低通滤波器。

输入设备还包括差分信号生成部分，其用于使用由低频带宽提取部分提取的低频带宽信号来生成差分信号，并且控制信号生成部分可以基于由差分信号生成部分生成的差分信号来生成控制信号。

控制信号生成部分可以基于差分信号生成部分生成的差分信号，确定从哪个麦克风进行了输入，并且生成控制信号。

麦克风置于面向在冲击施加于壳体的轴上的不同方向。

壳体附于身体。

根据本公开的另一实施例，提供了一种信号处理方法，其包括：对于包括置于壳体上的不同位置以面向空间轴之一上的不同方向的至少两个麦克风的输入设备，在从麦克风输入的信号中提取低频带宽信号；使用所提取的低频带宽信号来计算相位差；以及，基于所计算的相位差来生成控制信号。

根据本公开的另一实施例，提供了一种程序，其使包括置于壳体上的不同位置以面向空间轴之一上的不同方向的至少两个麦克风的输入设备作为以下部件工作：低频带宽提取部分，用于在从麦克风输入的信号中提取低频带宽信号；相位差计算部分，用于使用由低频带宽提取部分提取的低频带宽信号来计算相位差；以及，控制信号生成部分，用于基于由相位差计算部分计算的相位差来生成控制信号。

根据本公开的又一实施例，提供了一种程序，其记录在记录介质上，并且使包括置于壳体上的不同位置以面向空间轴之一上的不同方向的至少两个麦克风的输入设备作为以下部分工作：低频带宽提取部分，用于在从麦克风输入的信号中提取低频带宽信号；相位差计算部分，用于使用由低频带宽提取部分提取的低频带宽信号来计算相位差；以及，控制信号生成部分，用于基于由相位差计算部分计算的相位差来生成控制信号。

根据本公开的另一实施例，在从至少两个麦克风输入的信号中提取低频带宽信号，其中该至少两个麦克风置于壳体上的不同位置以面向空间轴之一上的不同方向。然后，使用所提取的低频带宽信号来计算相位差，并且基于所计算的相位差来生成控制信号。

根据本公开的另一实施例，特别是可以通过简单的操作来操作期望的装置。

附图说明

图1是根据本公开技术的声音命令设备（voice commander device）的外观的示例性配置的图；

图2是声音命令设备内部的示例性配置的框图；

图3是描述了两个麦克风之间的距离以及空气传播的声音行进到一个麦克风的距离与空气传播的声音行进到另一个麦克风的距离之间的差的图；

图4A是麦克风之间的互相关值的示例的图；

图4B是麦克风之间的互相关值的示例的图；

图5是低通滤波器的示例的图；

图6是互相关计算的概念图；

图7是描述声音命令设备中的处理的流程图；

图8是描述信号处理的流程图；

图9是声音命令设备的外观的另一示例性配置的图；

图10是声音命令设备的外观的另一示例性配置的图；

图11是声音命令设备的外观的另一示例性配置的图；以及

图12是计算机的示例性配置的框图。

具体实施方式

在下文中，将参考附图详细描述本公开的优选实施例。注意，在本说明书和附图中，具有基本上相同功能和结构的结构性元件以相同的附图标记标示，并且省略对这些结构性元件的重复说明。

在下文中，将描述本公开的实施例。

[声音命令设备的外观的示例性配置]

图1是根据本公开技术的作为输入设备的声音命令设备的外观的示例性配置的图。

声音命令设备11包括麦克风21-L和21-R。例如，声音命令设备11的壳体(chassis,机壳,机架)由用户佩戴的眼镜的框架构成，并且在图1中示出。换言之，例如，声音命令设备11嵌入于或附于眼镜的框架。

在图1示出的示例中设定了空间轴。相对于壳体的正面，X轴示出宽度方向，Y轴示出深度方向，以及Z轴示出长度方向。注意，相对于X轴，右侧是正方向。相对于Y轴，背面是正方向。相对于Z轴，下面是正方向。

麦克风21-L置于壳体的左端以面向X轴的正方向。具体地，麦克风21-L置于眼镜的左透镜框架的下面以面向X轴的正方向和Z轴的正方向。麦克风21-R置于壳体的右端以面向X轴的负方向。具体地，麦克风21-R置于眼镜的右透镜框架的下面以面向X轴的负方向和Z轴的正方向。

换言之，麦克风21-L和21-R置于眼镜的不同位置以面向X轴上的相反方向（面向图1所示的眼镜的内侧）。注意，在图1示出的示例中，尽管麦克风21-L和21-R没有在Y轴上的角度，并且面向Z轴的正方向，但是麦克风21-L和21-R相对于Y轴和Z轴的方向不受限制。

用户从声音命令设备11的壳体的左侧（在X轴的正方向上），或者从壳体的右侧（在X轴的负方向上）对壳体施加冲击以使麦克风21-L和21-R输入信号（固体传播的声音）到声音命令设备11。换言之，X方向上的冲击作为信号输入到声音命令设备11。

声音命令设备11对输入信号执行信号处理，识别命令，以及使用命令信号控制要操作的装置（没有示出）。换言之，用户可以通过对声音命令设备11的壳体施加冲击来控制要操作的装置。

可以从壳体的一侧施加冲击。尽管无需施加直接的冲击到麦克风21-L和21-R，但是也可以施加直接的冲击。注意，在这种情况下，冲击可以具有通过柔和的触摸或者柔和的轻拍施加的强度，即，能够给予壳体震动的最低强度。不采取对壳体造成损害的强度。

在下文中，输入到麦克风21-L和21-R的声音（信号）被称为固体传播的声音，并且与通过空气振动输入的声音（空气传播的声音）区别。

注意，尽管在图1示出的示例中一侧一个地在壳体的左侧和右侧设置了麦克风21-L和21-R，但是在左侧和右侧的每一侧设置的麦克风数量可以是至少一侧一个，并且不限于一侧一个。可以在左侧和右侧设置相同数量的麦克风并且也可以设置数量不同的麦克风。此外，麦克风21-L和21-R的位置不限于图1中示出的位置。换言之，至少两个麦克风可以置于不同位置。

此外，尽管在图1示出的示例中已经描述了来自外部的冲击的方向和麦克风21-L和21-R的位置在X轴上，但是方向和位置不限于在X轴上的方向和位置，并且可以是在Y轴或Z轴上。换言之，至少两个麦克风可以置于面向空间轴之一上的不同方向（相反的方向）。然后，放置麦克风以在轴方向上施加冲击（由用户操作）。

注意，在上述描述中麦克风的方向假定与内部组件的方向相同。例如，即使麦克风朝向相同的方向，它们的组件也可以朝向相反的方向。

在下文中，当不需要区分麦克风21-L和21-R时，两者将被共同的称为麦克风21。

[声音命令设备内部的示例性配置]

图2是声音命令设备的内部的示例性配置的框图。

在图2示出的示例中，声音命令设备11大致包括命令生成块31和装置控制块32。

例如在附于用户身体的壳体中设置了命令生成块31。命令生成块31处理从麦克风21输入的信号以生成用于操作要操作的装置的命令信号，并且将所生成的命令信号传送到装置控制块32。

例如在要操作的装置附近或者要操作的装置内部设置装置控制块32。装置控制块32接收来自命令生成块31的命令信号，并且将控制信息提供给要操作的装置。

命令生成块31包括输入端41，低频带宽提取部分42，用于提取麦克风间特征量的部分43，命令识别部分44，命令传送部分45以及天线46。

输入端41将从麦克风21输入的信号x(n,ch)作为输入声音源提供给低频带宽提取部分42。

低频带宽提取部分42用低通滤波器，在从输入端41输入的信号中提取低频带宽，即低通信号，并且将所提取的低通信号提供给用于提取麦克风间特征量的部分43。

用于提取麦克风间特征量的部分43在从低频带宽提取部分42提供的低通信号中提取特征量，并且将所提取的特征量提供给命令识别部分44。具体地，用于提取麦克风间特征量的部分43包括相关计算部分51，相位差计算部分52，以及差分信号生成部分53。

相关计算部分51将来自低频带宽提取部分42的低通信号分为时间帧（time frames），并且计算两个麦克风21之间分为时间帧的信号的互相关值。相关计算部分51将算出的互相关值提供给相位差计算部分52。

相位差计算部分52根据来自相关计算部分51的互相关值来计算相位差。换言之，相位差计算部分52获得互相关值的绝对值当中具有最大值的索引(index)作为相位差信息。相位差计算单元52将所获得的相位差和最大值作为低通信号之间的特征量提供给命令识别部分44。

差分信号生成部分53使用来自低频带宽提取部分42的低通信号生成差分信号。差分信号生成部分53将获得的差分信号作为低通信号之间的特征量提供给命令识别部分44。

命令识别部分44作为低通信号之间的特征量输入来自相位差计算部分52的相位差和最大值和来自差分信号生成部分53的差分信号，并且执行两种类型的阈值判定以获得命令识别结果。命令识别部分44将表示获得的命令识别结果的命令器信息提供给命令传送部分45。

命令传送部分45使用例如无线通信，通过天线46将由命令识别部分44识别的命令器信息作为命令信号传送给装置控制块32。

装置控制块32包括天线61、命令接收部分62以及装置控制部分63。

命令接收部分62通过天线61接收从命令传送部分45传送的命令信号，并且将接收到的命令信号提供给装置控制部分63。

装置控制部分63根据来自命令接收部分62的命令信号生成用于控制要操作的装置的控制信息，并且将所生成的控制信息传送到要操作的装置。

注意，尽管在图2示出的示例中声音命令设备11分为命令生成块31和装置控制块32两块，但是声音命令设备11也可以由一块组成。在那种情况下，可以省略命令传送部分45、天线46、天线61以及命令接收部分62。

[低频带宽提取部分中的处理]

接下来，将会详细描述声音命令设备11中的每个部分。首先，将描述低频带宽提取部分42中的处理。

低频带宽提取部分42用低通滤波器从输入信号中提取低频带宽。低频带宽提取部分42通过将低通滤波器作用于输入信号x(n,ch)，获得在下述表达式（1）中示出的低通信号l(n,ch)。

| (n, ch) = Σ_{m = 1}^{M_{A}} a (m) * | (n - m, ch) + Σ_{m = 0}^{M_{B}} b (m) * \times (n - m, ch) - - - (1)

在这种情况下，n表示信号的时间索引。ch表示麦克风标识符并且在图1示出的示例中ch被赋值为2。a表示分母的滤波系数。b表示分子的滤波系数。M_A表示分母的滤波阶数。M_B表示分子的滤波阶数。

考虑到下述两个因素来确定滤波系数a和b。一是麦克风21之间的距离。声音命令设备11使用固体传播的声音具有彼此相反的相位的特征。换言之，低频带宽提取部分42提取固体传播的声音。因此，产生相位差的麦克风21之间的距离是用于确定声音命令设备的性能的重要因素。

图3是描述了麦克风21之间的距离以及空气传播的声音行进到麦克风21-L的距离与空气传播的声音行进到麦克风21-R的距离之间的差值的图。

根据Pythagorean定理，距离A和差值B典型地满足距离A≥距离差值B。距离A表示麦克风21之间的距离。差值B表示空气传播的声音行进到麦克风21-L的距离与空气传播的声音行进到麦克风21-R的距离之间的差。当气体传播的声音在差值B部分具有彼此相反的相位时，在计算固体传播的声音的相关值时相反的相位变成噪声。这降低了命令识别部分44命令识别的性能。

鉴于前述，低频带宽提取部分42使用高频去除滤波器（低通滤波器）在差值B部分减少短波长分量以不包括气体传播的声音的半波长。

即使麦克风21附于壳体（图1的示例中的眼镜）的彼此最远离的两端，并且壳体的宽度被估计为超大尺寸，麦克风21之间的距离最高也只达到30厘米。于是，差值B必然地在30厘米之内。假定声速为340米/秒，需要0.88毫秒行进30厘米。等于或者高于567赫兹的频率在0.88毫秒时包括半波长。阻止等于或者高于567赫兹的频率可以减少意外地提取从外部声音生成的相反的相位作为特征。

用于确定滤波系数a和b的另一个因素是语音。因为在图1所示的示例中麦克风21-L和21-R设置在眼镜上，所以从麦克风21到用户嘴部的距离很短。于是，具有大振幅的信号很可能是固体传播的声音或者是戴着声音命令设备11的用户的语音。

语音一般具有大的振幅，因为它的基频包括在50至1000赫兹之间，并且它的共振峰包括在1至4千赫之间。另一方面，固体传播的声音的峰值在0至50赫兹附近，并且其振幅随着频率升高而降低。

于是，提取等于或者低于50赫兹的信号可以消除语音的影响。

图4A和4B是麦克风21之间的互相关值的图。图4A是当未使用低通滤波器时麦克风21之间的互相关值的曲线图。图4B是当在低频带宽提取部分42中使用低通滤波器时麦克风21之间的互相关值的曲线图。

纵轴代表互相关值。横轴代表通过逐一地滑动（sliding）采样数量而得到的内积值（lugs）。

两图都示出了当在X轴零点处Y轴的互相关值为正时存在相同的相位，并且示出当Y轴的互相关值为负时存在相反的相位。命令识别部分44通过提取相反的相位来识别命令。

然而，在图4A中由于语音信号，难以辨认存在相反的相位。另一方面，在图4B中因为用低通滤波器消除了语音的影响，所以容易辨认固体传播的声音具有相反的相位。

如上描述，鉴于上述提到的两个因素在低频带宽提取部分42中使用低通滤波器。这可以同时消除输入等于或高于567赫兹、在麦克风21之间有相反的相位的外部声音的影响，以及输入等于或者高于50赫兹、在麦克风21之间有相同的相位的语音的影响。

注意，因为壳体为眼镜，在图1示出的示例中优选地考虑语音的影响。然而，当语音不影响壳体时，优选地简单地考虑这些因素中的至少一个（麦克风之间的距离）。

例如，在低频带宽提取部分42中使用如图5示出的被配置成阻止等于或者高于50赫兹的信号的低通滤波器，以提取低通信号l(n,ch)。低频带宽提取部分42将所提取的低通信号l(n,ch)提供给相关计算部分51和差分信号生成部分53。

[相关计算部分中的处理]

接下来，将描述相关计算部分51中的处理。

相关计算部分51将从低频带宽提取部分42提供的低通信号(n，ch)分为时间帧，以计算麦克风21之间分为时间帧的信号的相关值。例如，相关计算部分51使用互相关得到在下述表达式（2）中示出的互相关值R(fr，i)。

R (fr, i) = \{\begin{matrix} Σ_{s=0}^{Fsize - | i | - 1} |_{fr} (s, ch) \cdot |_{fr} (s + i, ch + 1) & i &GreaterEqual; 0 \\ Σ_{s = 0}^{Fsize - | i | - 1} |_{fr} (s - i, ch) \cdot |_{fr} (s, ch + 1) & i < 0 \end{matrix} - - - (2)

在表达式中，R表示互相关值。s表示每帧的时间索引。fr取值为0到FR-1。FR表示帧的总数。i取值为-(F_size-1)到F_size-1。F_size表示一帧中包括的采样总数。

注意，尽管在本实施例中不考虑采样频率，F_size表示在大约20毫秒期间的采样数量，并且通过的帧的数量对应于大约10毫秒期间的采样数量，但是可以使用不同于这些值的值。

图6是在相关计算部分51中互相关计算的概念图。注意，图6中示出的低通信号l(n,ch)和l(n,ch+1)概念性地示出了信号。因此，尽管高频显然包括在信号中，但是因为用低通滤波器对低通信号l(n,ch)和l(n,ch+1)滤波，实际上高频没有包括在信号中。

帧fr从通道ch的低通信号l(n,ch)中分出，并且帧fr从通道ch+1的低通信号l(n,ch+1)中分出以执行互相关计算。接下来，帧fr+1从通道ch的低通信号l(n,ch)中分出，并且帧fr+1从通道ch+1的低通信号l(n,ch+1)中分出以执行互相关计算。

帧fr+2从通道ch的低通信号l(n,ch)中分出，并且帧fr+2从通道ch+1的低通信号l(n,ch+1)中分出以执行互相关计算。接下来，帧fr+3从通道ch的低通信号l(n,ch)中分出，并且帧fr+3从通道ch+1的低通信号l(n,ch+1)中分出以执行互相关计算。

将如上所述计算的互相关值R(fr，i)提供给相位差计算部分52。

[相位差计算部分中的处理]

接下来，将描述相位差计算部分52中的处理。

相位差计算部分52根据从相关计算部分51提供的互相关值R(fr，i)计算相位差。具体地，相位差计算部分52如下述表达式（3）示出地计算互相关值R(fr，i)的绝对值，并且获得算出的绝对值当中具有最大值的索引i_max(fr)作为相位差信息。

i_{\max} (fr) = \underset{i}{\arg \max} | R (fr, i) | - - - (3)

注意，尽管表达式（3）中以标量值得到相位差i_max(fr)，但是可以使用FFT等，从以每个频率分出的信号中以矢量值获得相位差i_max(fr，f)。f表示频率索引。

相位差计算部分将获得的相位差i_max(fr)及其最大值R(fr，i_max(fr))提供给命令识别部分44。

[差分信号生成部分中的处理]

接下来，将描述差分信号生成部分53中的处理。

如在下述表达式（4）中所示，差分信号生成部分53使用来自低频带宽提取部分42的低通信号l(n,ch)，生成差分信号l_sub(n)：

i_sub(n)＝I(n，ch)-I(n+d，ch+1) ···(4)

例如，当麦克风之间的距离是30厘米并且壳体为眼镜时，满足d=0。换言之，d表示到左麦克风的传输速度和到右麦克风的传输速度之间的差值。d是依赖于麦克风之间的距离和壳体的材料的值，并且可以根据之前的试验中的统计信息预先确定。尽管当距离是30厘米且材料为眼镜时满足d=0，但当距离例如是100米时满足|d|＞0，因为声音行进花费更多的时间。

差分信号生成部分53将所生成的差分信号l_sub(n)提供给命令识别部分44。

[命令识别部分中的处理]

接下来，将描述命令识别部分中的处理。

命令识别部分44包括识别器。命令识别部分44将来自相位差计算部分52的相位差i_max(fr)及其最大值R(fr，i_max(fr))和来自差分信号生成部分53的差分信号l_sub(n)，作为特征量输入到识别器，以获得命令识别结果。

具体地，命令识别部分44执行阈值判定以获得命令器信息D。命令器信息D包括三种类型：0：没有命令；1：从麦克风21-L侧输入的命令；以及2：从麦克风21-R侧输入的命令。

阈值判定包括两个阶段。命令识别部分44首先输出用于判定命令是正还是负的信息D1(fr)（=0或1），其次输出用于判定麦克风21是左侧还是右侧的信息D2(fr)（=1或2）。然后，命令识别部分44根据用于判定命令是正还是负的信息D1(fr)和用于判定麦克风21是左侧还是右侧的信息D2(fr)，获得命令器信息D(fr)。

阈值判定的第一阶段以下述表达式（5）和（6）示出。

D 1_f (fr) = \{\begin{matrix} 0 & (((i_{\max} (fr) < u) \cup (v < i_{\max} (fr))) \cup (R (fr, i_{\max} (fr)) > - thre 1)) \\ 1 & ((u \leq i_{\max} (fr) \leq v) \cap (R (fr, i_{\max} (fr)) \leq - thre 1)) \end{matrix} - - - (5)

D 1 (fr) = (\frac{1}{2 P} Σ_{i = - P}^{P - 1} D 1_f (fr + i)) &GreaterEqual; thre 2 - - - (6)

注意，thre1是等于或大于0的值。在本实施例中，当假定信号在(-1,1)半开区间振动，在20毫秒时计算互相关时，设定thre1=0。P表示之前和之后的帧的数量。之前的帧对应于50毫秒，并且之后的帧对应于50毫秒。

在本实施例中，通过一帧花费10毫秒，所以设定P=5。此外，在本实施例中设定u=v=0。换言之，不接受非零的相位差。然而，依赖于壳体的材料或者输入的方式可以接受非零相位差。

如上所述，在第一阈值判定中判定相位差的值是否是零和是否是等于或小于thre1的值。换言之，当在低频带存在强烈相反的相位时，判定存在命令。这是基于如下假设的处理：固体传播的声音具有彼此完全相反的相位，并且甚至一个采样的延迟也不被接受。

理论上，当输入到麦克风21-L的固体传播的声音行进到麦克风21-R没有花费等于或大于1/采样频率的时间时，不存在延迟并且存在彼此完全相反的相位。实际上，以不同的方式轻拍麦克风以输入固体传播的声音，并且统计上采样之间没有延迟。相位差为0，并且为其最小值。

换言之，图4是示出没有延迟的示例。当麦克风21的信号之间有时间延迟时，在X轴上要观察的位置以一些采样（例如，以负一个采样或一个采样）滑离零位置。

接下来，命令识别部分44反映在每帧获得的用于判定命令是正还是负的信息D1_f(fr)在之前和之后帧中的结果，并且将结果所反映的信息识别为最终的用于判定命令是正还是负的信息D1(fr)。从开始到100毫秒，固体传播的声音包括明显的振动分量。因此，仅当在直到100毫秒的时间段（例如，对应于2*P=10帧的时间段）内存在给定量的分为帧的信息D1_f(fr)时，命令识别部分44将用于判定命令是正还是负的信息D1(fr)识别为命令。当在直到100毫秒的时间段内不存在给定量的信息D1(fr)时，命令识别部分44将信息D1(fr)作为噪声进行消除。注意，例如thre2设为0.5。

阈值判定的第二阶段以下述表达式（7）和（8）示出，其中阈值判定的第二阶段用来确定用于判定麦克风21是左侧还是右侧的信息D2(fr)。

V_f(fr)＝maxl_sub(fr*f_size+s)(0≦s＜f_size)

V_f (fr) = \{\begin{matrix} V_f (fr), & D 1 (fr) = 1 \\ 0, & D 1 (fr) = 0 \end{matrix}

V(f_r)＝maxV_f(fr+p)(-P≤p≤P)

···(7)

D 2 (fr) = \begin{matrix} \{\begin{matrix} 1 & (V &GreaterEqual; 0) \\ 2 & (V < 0) \end{matrix}, - - - (8) \end{matrix}

作为第二阈值判定，命令识别部分44使用所获得的用于判定命令是正还是负的信息D1(fr)和来自差分信号生成部分53的差分信号l_sub(n)，计算用于判定麦克风21是左侧还是右侧的信息D2(fr)。

当在之前和之后的P帧中的差分信号的峰值是正（确定了用于判定命令是正还是负的信息D1(fr)为正）时，命令识别部分44确定从麦克风21-L进行了输入。当在之前和之后的P帧中的差分信号的峰值是负时，命令识别部分44确定从麦克风21-R进行了输入。

命令识别部分44使用如上所述获得的用于判定命令是正还是负的信息D1(fr)和用于判定麦克风21是左侧还是右侧的信息D2(fr)，如下述表达式（9）所示地计算命令器信息D(fr)。将命令器信息D(fr)提供给命令传送部分45。

D(fr)＝D1(fr)*D2(fr) ···(9)

[声音命令设备中的处理]

接下来，将参考图7中示出的流程图描述声音命令设备11中的装置控制处理。

用户戴着作为图1中示出的声音命令设备11的眼镜，并且从眼镜左侧在X轴正方向上轻拍眼镜，例如，以便降低电视设备的音量。

在步骤11中，麦克风21-L和麦克风21-R各自响应于在X轴的正方向上施加的冲击而输入信号。从麦克风21-L和麦克风21-R输入的信号中的每个信号通过输入端41输入到低频带宽提取部分42。

在步骤S12中，低频带宽提取部分42、用于提取麦克风间特征量的部分43以及命令识别部分44对从输入端41输入的信号执行信号处理。将在下面参考图8详细描述该信号处理。

通过在步骤S12中对输入的信号进行信号处理，获得命令器信息以识别命令，并且将其提供给命令传送部分45。

在步骤S13中，命令传送部分45和命令接收部分62传送/接收命令信号。

换言之，命令传送部分45例如使用无线通信，通过天线46将由命令识别部分44识别的命令器信息作为命令信号传送到命令接收部分62。命令接收部分62通过天线61，接收命令传送部分45传送的命令信号，然后将接收到的命令信号提供给装置控制部分63。

在步骤S14中，装置控制部分63根据来自命令接收部分62的命令信号，生成用于控制要操作的装置的控制信息，并且将所生成的信息传送到要操作的装置。

例如，装置控制部分63包括根据命令信号的控制信息数据库。装置控制部分63参考数据库，以根据来自命令接收部分62的命令信号生成用于控制要操作的装置的控制信息（例如，用于降低音量的控制信息），并且将控制信息传送到电视设备，即要操作的装置。

电视设备响应于控制信息而降低音量。

如上所述，用户可以通过简单地轻拍眼镜即壳体的侧面预定次数来操作期望的装置。

换言之，在日本专利申请公开案第2010-213099号中描述的现有技术使用非立体声信号的波形作为用于区分用户输入的声音与环境无意输入的声音的方法。因此，由于例如轻拍头戴式耳机的方式、对装置进行操作的个人习惯、环境的改变、麦克风之间的个体差异以及麦克风的时间变化，难以对装置进行操作。

另一方面，声音命令设备11使用麦克风之间的相位差并且不依赖于波形。因此，轻拍位置、轻拍方式、时间变化或者有或没有手套都不影响操作。简单地轻拍眼镜即壳体的侧面，可以操作期望的装置。

具体地，用户不必轻拍壳体的特定位置，并且用户可以通过简单地在轴上（例如图1中的X轴）以与附于壳体的麦克风21相对的方向轻拍壳体，操作期望的装置。

为了实施日本专利申请公开案第2010-213099号中描述的现有技术，用户优选地在麦克风附近轻拍。这样，麦克风优选地置于易于轻拍的最优位置。相应地，难以将麦克风置于对于声音最优的位置。

另一方面，用户不必直接轻拍声音命令设备11中的麦克风，从而可以相对自由地放置麦克风。此外，因为不直接轻拍麦克风，不会损坏麦克风。时间变化或者频率特性的变化不影响精度。

另外，在包括很多立体声麦克风的装置中，麦克风彼此相对放置以呈现立体声结构。可以使用这样的装置。

[声音命令设备中的信号处理]

接下来，将参考图8中示出的流程图描述图7示出的步骤S12中的信号处理。

从麦克风21-L和麦克风21-R输入的信号中的每个信号在图7示出的步骤S11中通过输入端41输入到低频带宽提取部分42。

在步骤S21中，低频带宽提取部分42例如用前面参考图5描述的低通滤波器，在从输入端41输入的信号中提取低频带宽即低通信号。低频带宽提取部分42将所提取的低通信号提供给用于提取麦克风间特征量的部分43。

如以上参考图3和图4所述，这可以同时消除输入等于或高于567赫兹、在麦克风21之间具有相反的相位的外部声音的影响，以及输入等于或者高于50赫兹、在麦克风21之间具有相同的相位的语音的影响。

结果，在消除之后，这可以提高处理的精度。具体地，可以提高命令识别部分44的命令识别性能。

在步骤S22中，相关计算部分51将来自低频带宽提取部分42的低通信号分为时间帧，并且计算两个麦克风21之间分为时间帧的信号的互相关值。相关计算部分51将算出的互相关值提供给相位差计算部分52。

在步骤23中，相位差计算部分52根据来自相关计算部分51的互相关值来计算相位差。换言之，相位差计算部分52获得具有互相关值的最大绝对值的索引，作为相位差信息。相位差计算部分52将获得的相位差及其最大值提供给命令识别部分44。

命令识别部分44通过使用相位差及其最大值求解上述表达式（5）和（6），识别信号中是否存在命令。

在步骤S24中，差分信号生成部分53使用来自低频带宽提取部分42的低通信号生成差分信号。差分信号生成部分53将获得的差分信号提供给命令识别部分44。

当在信号中存在命令时，命令识别部分44通过使用差分信号求解上述表达式（7）和（8），识别输入是来自麦克风21-L还是来自麦克风21-R。

在步骤S25中，命令识别部分44使用来自相位差计算部分52的相位差及其最大值和来自差分信号生成部分53的差分信号作为特征量，识别命令，并且因而获得命令识别结果。命令识别部分44将表示获得的命令识别结果的命令器信息提供给命令传送部分45。命令识别部分44将作为获得的命令识别结果的命令器信息提供给命令传送部分45。

具体地，作为第一阈值判定，命令识别部分44通过使用来自相位差计算部分52的相位差及其最大值求解上述表达式（5）和（6），识别信号中是否存在命令。用于判定命令是正还是负的信息D1(fr)通过此判定而算出。

换言之，基于固体传播的声音的特征在于存在相反的相位的假设，可以使用此特征来识别命令。

当在信号中存在命令时，作为第二阈值判定，命令识别部分44通过使用差分信号求解上述表达式（7）和（8），识别输入是来自麦克风21-L还是来自麦克风21-R。

因此，可以确定输入来自于哪里，左侧还是右侧。这可以增加要操作的对象的操作的数量。

然后，命令识别部分44使用用于判定命令是正还是负的信息D1(fr)和用于判定麦克风21是左侧还是右侧的信息D2(fr)求解上述表达式（9）来计算命令器信息D(fr)。命令识别部分44将获得的命令器信息D(fr)提供给命令传送部分45。

在步骤S25之后，处理返回到图7中的步骤S12。

如上所述，可以精确地识别命令，从而用户可以通过简单地在轴上（例如图1中的X轴）以与附于壳体的麦克风21相对的方向轻拍壳体，操作期望的装置。

注意，尽管作为可以由用户佩戴的声音命令设备11的示例在图1中示出了眼镜，但是声音命令设备11的壳体不限于眼镜。例如，头戴式显示器也可以用作声音命令设备11的壳体。替选地，声音命令设备11的外观的其他示例性配置将在下面描述。

[声音命令设备外观的另一示例性配置]

图9是使用本技术的声音命令设备的外观的另一示例性配置的图。

图9中示出的声音命令设备71例如嵌入于或者附于平板式个人计算机。换言之，声音命令设备71的壳体是由例如平板式个人计算机构成。尽管作为图9中所示的示例，壳体的尺寸大于用户的手掌，但是如果壳体可以携带，尺寸不受限制。例如，它可以是手掌大小的壳体。

声音命令设备71包括麦克风81-L和麦克风81-R以及LCD 82。注意在图9中示出的示例中，X轴示出了宽度方向并且右侧为正方向。

麦克风81-L置于壳体左端以面向X轴的负方向。具体地，麦克风81-L置于设置在壳体前面的LCD82的左侧框架的中心。麦克风81-R置于壳体右端以面向X轴的正方向。具体地，麦克风81-R置于设置在壳体前面的LCD 82的右侧框架的中心。

换言之，麦克风81-L和麦克风81-R在X轴彼此相对放置（在图9中面向外面）。

用户从声音命令设备71的壳体的左侧（在X轴的正方向上）或者从壳体的右侧（在X轴的负方向上）施加冲击。这样从麦克风81-L和81-R输入信号到声音命令设备71。换言之，X轴方向上的冲击作为信号输入到声音命令设备71。

声音命令设备71对输入信号执行信号处理以识别命令，并且使用命令信号控制要操作的装置（没有示出）。换言之，用户可以通过施加冲击到声音命令设备71的壳体来控制要操作的装置。

注意，在图9中示出的声音命令设备71具有与图1示出的声音命令设备11基本相同的配置。换言之，图9示出的声音命令控制设备71具有如上参考图2所述的配置以及如上参考图7和图8所述的操作。相应地，省略了对声音命令设备71的配置和操作的描述，因为已经在上面对其进行了描述。

[声音命令设备的外观的另一示例性配置]

图10是使用本技术的声音命令设备的外观的另一示例性配置的图。

图10中示出的声音命令设备101例如嵌入于或者附于IC记录器。换言之，声音命令设备101的壳体由例如IC记录器构成。

声音命令设备101包括麦克风111-L和111-R以及LCD 112。注意，在图10示出的示例中，X轴示出宽度方向并且右侧为其正方向。

在壳体的前端上方设置了用于控制的LCD112。麦克风111-L置于壳体的左上端以面向X轴的负方向。麦克风81-R置于壳体的右上端以面向X轴的正方向。

换言之，麦克风111-L和麦克风111-R在X轴彼此相对放置（在图10中面向外面）。

用户从声音命令设备101的壳体的左侧（在X轴的正方向上）或者从壳体的右侧（在X轴的负方向上）施加冲击。这样从麦克风111-L和111-R输入信号到声音命令设备101。换言之，X轴方向上的冲击作为信号输入到声音命令设备101。

声音命令设备101对输入信号执行信号处理以识别命令，并且使用命令信号控制要操作的装置（没有示出）。换言之，用户可以通过施加冲击到声音命令设备101的壳体来控制要操作的装置。

注意，图10中示出的声音命令设备101具有与图1示出的声音命令设备11基本相同的配置。换言之，图10示出的声音命令控制设备101具有如上参考图2所述的配置和如上参考图7和图8所述的操作。相应地，省略了对声音命令设备101的配置和操作的描述，因为已经在上面对其进行了描述。

[声音命令设备的外观的另一示例性配置]图11是使用本技术的声音命令设备的外观的另一示例性配置的图。

图11中示出的声音命令设备151例如嵌入于或者附于便携式照相机。换言之，声音命令设备151的壳体由例如照相机构成。

声音命令设备151包括麦克风161-L和161-R、包括镜头等的成像部分162以及LCD 163。注意，图11中示出的方向为X轴并且右侧为其正方向。

成像部分162设置在壳体的前端上方。LCD 163设置在壳体的右侧。麦克风161-L置于壳体的左下侧以面向X轴的负方向。麦克风161-R置于壳体的右下侧以向X轴的正方向。

换言之，麦克风161-L和麦克风161-R在X轴彼此相对放置（在图11中面向外面）。

用户从声音命令设备151的壳体的左侧（在X轴的正方向上）或者从壳体的右侧（在X轴的负方向上）施加冲击。这样从麦克风161-L和161-R输入信号到声音命令设备151。换言之，X轴方向上的冲击作为信号输入到声音命令设备151。

声音命令设备151对输入信号执行信号处理以识别命令，并且使用命令信号控制要操作的装置（没有示出）。换言之，用户可以通过施加冲击到声音命令设备151的壳体，控制要操作的装置。

注意，图11中示出的声音命令设备151具有与图1示出的声音命令设备11基本相同的配置。换言之，图11示出的声音命令控制设备151具有如上参考图2所述的配置和如上参考图7和图8所述的操作。相应地，省略了对声音命令设备151的配置和操作的描述，因为已经在上面对其进行了描述。

尽管如上所述声音命令设备的壳体优选地是能够由用户附带、能够由用户佩戴或者由用户携带的材料，但是如果材料的尺寸不是太大，不同于上述的材料也可用作壳体。

换言之，如果至少两个所设置的麦克风之间的距离A可以阻止如上参考图3所述的差值B包括通过所使用的低通滤波器的低频带的半波长，则可以使用任何设备。

上述的处理序列可以通过硬件也可以通过软件实施。当软件实施这些处理时，通过程序记录介质将构成该软件的程序安装于嵌入在专用硬件中的计算机或者诸如通用个人计算机等能够通过安装各种程序来实施各种功能的计算机上。

[计算机的示例性配置]

图12是由程序通过上述处理序列实施的计算机的硬件的示例性配置的框图。

中央处理器（CPU）201根据存储在只读存储器（ROM）202和存储部分208中的软件执行各种处理。随机存取存储器（RAM）203适当地存储由CPU 201执行的程序、数据等。CPU 201、ROM 202和RAM203通过总线204彼此互相连接。

CPU 201也通过总线204连接到输入/输出接口205。输入/输出接口205连接到输入部分206和输出部分207。输入部分206包括键盘、鼠标、麦克风等。输出部分207包括显示器、扬声器等。CPU 201根据从输入部分206输入的指令来执行各种处理。然后，CPU 201将处理结果输出到输出部分207。

连接到输入/输出接口205的存储部分208包括例如硬盘，并且存储由CPU 201执行的程序和各种数据。通信部分209通过网络如因特网或局域网与外部设备通信。

替选地，可以通过通信部分209获得程序并且可以将其存储在存储部分208中。

当可移除介质211挂载到计算机上时，连接到输入/输出接口205的驱动器210驱动可移除介质211如磁盘、光盘、磁光盘或半导体存储器，以获得记录在可移除介质211上的程序、数据等。获得的程序或数据传送到存储部分208，并且必要时存储在其中。

安装在计算机上并且要由计算机执行的程序记录在（存储于）记录介质(如图12所示，其包括可移除介质211)、硬盘等上。可移除介质211是封装介质，其包括例如磁盘（包括软盘）、光盘（包括致密盘-只读存储器（CD-ROM）或者数字多功能盘（DVD））、磁光盘（包括迷你盘（MD））或者半导体存储器。硬盘包括临时或者永久存储程序的ROM 202和存储部分208。必要时，记录介质使用有线或无线网络传输媒介如局域网、因特网和数字卫星广播，通过通信部分209记录程序。通信部分209是路由器、调制解调器等的接口。

注意，上述的处理序列的描述在此不仅包括以所述时间顺序而顺序地执行的处理，还包括并行或独立地而不必顺序地执行的处理。

本公开的实施例不限于上述的实施例，并且可以在本公开的主旨范围内进行各种修改。

本领域的技术人员应当理解，依赖于设计需要和其他因素，可以进行各种修改、组合、子组合以及变更，在这样的情况下它们仍处于所附权利要求或其等同方案的范围内。

本技术也可以按如下配置。

(1)一种输入设备，包括：

至少两个麦克风，其置于壳体上的不同位置以面向空间轴之一上的不同方向；

低频带宽提取部分，其用于在从麦克风输入的信号中提取低频带宽信号；

相位差计算部分，其用于使用由低频带宽提取部分提取的低频带宽信号来计算相位差；以及

控制信号生成部分，其用于基于由相位差计算部分计算的相位差来生成控制信号。

(2)根据（1）所述的输入设备，

其中，当在低频段存在相反的相位时，控制信号生成部分基于由相位差计算部分计算的相位差来生成控制信号。

(3)根据（1）或（2）所述的输入设备，

其中考虑到麦克风之间的距离来确定低频带宽提取部分所使用的低通滤波器。

(4)根据（1）或（2）所述的输入设备，

其中考虑到语音的频率来确定低频带宽提取部分所使用的低通滤波器。

(5)根据（1）到（4）中的任一项所述的输入设备，还包括：

差分信号生成部分，其用于使用由低频带宽提取部分提取的低频带宽信号来生成差分信号,

其中控制信号生成部分基于由差分信号生成部分生成的差分信号来生成控制信号。

(6)根据（5）所述的输入设备，

其中控制信号生成部分基于由差分信号生成部分生成的差分信号，确定从哪个麦克风进行了输入，并且生成控制信号。

(7)根据（1）到（6）中的任一项所述的输入设备，

其中麦克风置于面向在冲击施加于壳体的轴上的不同方向。

(8)根据（1）到（7）中的任一项所述的输入设备，

其中壳体附于身体。

(9)一种信号处理方法，对于包括置于壳体上的不同位置以面向空间轴之一上的不同方向的至少两个麦克风的输入设备，其包括：

在从麦克风输入的信号中提取低频带宽信号，

使用所提取的低频带宽信号来计算相位差，以及

基于算出的相位差来生成控制信号。

(10)一种程序，其使包括置于壳体上的不同位置以面向空间轴之一上的不同方向的至少两个麦克风的输入设备作为以下部分工作：

低频带宽提取部分，用于在从麦克风输入的信号中提取低频带宽信号，

相位差计算部分，用于使用由低频带宽信号提取部分提取的低频带宽信号来计算相位差，以及

控制信号生成部分，用于基于由相位差计算部分计算的相位差来生成控制信号。

(11)一种记录介质，其上记录有根据（10）所述的程序。

本公开包含与2011年7月26日提交至日本专利局的日本优先专利申请JP2011-163153中公开的主题内容相关的主题内容，这里通过引用将其全文合并于此。

Claims

1.一种输入设备，其包括：

低频带宽提取部分，其用于在从所述麦克风输入的信号中提取低频带宽信号；

相位差计算部分，其用于使用由所述低频带宽提取部分提取的所述低频带宽信号来计算相位差；以及

控制信号生成部分，其用于基于由所述相位差计算部分计算的所述相位差来生成控制信号。

2.如权利要求1所述的输入设备，其中，当在低频带存在相反的相位时，所述控制信号生成部分基于由所述相位差计算部分计算的所述相位差来生成控制信号。

3.如权利要求1所述的输入设备，其中考虑到所述麦克风之间的距离来确定所述低频带宽提取部分所使用的低通滤波器。

4.如权利要求1所述的输入设备，其中考虑到语音的频率来确定所述低频带宽提取部分所使用的低通滤波器。

5.如权利要求1所述的输入设备，还包括：

差分信号生成部分，其用于使用由所述低频带宽提取部分提取的所述低频带宽信号来生成差分信号，

其中所述控制信号生成部分基于由所述差分信号生成部分生成的差分信号来生成所述控制信号。

6.如权利要求5所述的输入设备，其中所述控制信号生成部分基于由所述差分信号生成部分生成的所述差分信号，确定从哪个麦克风进行了输入，并且生成所述控制信号。

7.如权利要求1所述的输入设备，其中所述麦克风置于面向在冲击施加于壳体的轴上的不同方向。

8.根据权利要求1所述的输入设备,其中所述壳体附于身体。

9.一种信号处理方法，对于包括置于壳体上的不同位置以面向空间轴之一上的不同方向的至少两个麦克风的输入设备，其包括：

在从所述麦克风输入的信号中提取低频带宽信号，

使用所提取的低频带宽信号来计算相位差，以及

基于所述计算的相位差来生成控制信号。

10.一种程序，其使包括置于壳体上的不同位置以面向空间轴之一上的不同方向的至少两个麦克风的输入设备作为以下部分工作：

低频带宽提取部分，用于在从所述麦克风的输入信号中提取低频带宽信号，

相位差计算部分，用于使用由所述低频带宽信号部分提取的所述低频带宽信号来计算相位差，以及

控制信号生成部分，用于基于由所述相位差计算部分计算的所述相位差来生成控制信号。

11.一种记录介质，其上记录有如权利要求10所述的程序。