CN111194464A

CN111194464A - 语音输入装置和方法以及程序

Info

Publication number: CN111194464A
Application number: CN201880065077.3A
Authority: CN
Inventors: 立石和也; 高桥秀介; 高桥晃; 落合和树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-10-11
Filing date: 2018-09-27
Publication date: 2020-05-22
Also published as: JPWO2019073803A1; EP3696811A4; WO2019073803A1; EP3696811A1; US11310593B2; US20200329308A1

Abstract

本技术涉及一种语音输入装置和方法以及一种能够促进语音方向估计的程序。该语音输入装置包括：固定部分，其设置在规定位置；移动部分，其相对于固定部分移动；麦克风阵列，其附接到所述固定部分；语音方向估计单元，用于基于通过麦克风阵列输入的说话者的语音来估计语音方向；以及驱动单元，用于驱动根据所估计的语音方向调用的移动部分。所述语音输入装置可以用作例如智能扬声器、语音代理或机器人的一部分。

Description

语音输入装置和方法以及程序

技术领域

本技术涉及一种语音输入装置和方法以及一种程序，具体涉及一种语音输入装置和方法以及一种便于估计话语方向的程序。

背景技术

近年来，随着机器人技术和人工智能(AI)的发展，能够与人交谈或移动自己身体的装置越来越多。为了识别人的语音，需要假设各种使用环境并且能够尽可能多地抑制噪声。因此，众所周知，通过利用设置有多个麦克风的麦克风阵列的语音收集和使用空间信息的信号处理来抑制噪声。

例如，在使用人形机器人的情况下，可以在头部设置多个麦克风。利用这种设置，用户的嘴和麦克风的位置彼此靠近的可能性很高，并且可以容易地识别语音。此外，期望麦克风和诸如马达等驱动声源之间的距离变得更长，噪声降低，并且目标语音的信噪比(SNR)提高。

众所周知，可以通过使用相关矩阵来估计说话者的方向来执行精确的语音识别，通过对麦克风阵列收集的信号执行操作并在估计的方向上强调语音而获得所述相关矩阵(例如，专利文献1)。

引文目录

专利文献

专利文献1：日本专利申请公开号2001-337694

发明内容

本发明要解决的问题

然而，如果估计话语方向，然后装置转向话语方向，则破坏到目前为止已经学习的关于空间中的噪声方向的信息与装置移动后的麦克风阵列之间的位置关系。因此，不能使用已经依次学习的噪声学习信息，并且需要在运动之后再次在空间上学习噪声信息。

然而，在装置转向话语方向之后，可以立即执行下一个用户的话语。在这种情况下，有可能无法保证足够的学习时间，结果，噪声抑制性能可能恶化，语音识别可能失败。

鉴于这种情况而提出本技术，并且使得可以促进估计话语方向。

问题的解决方案

本技术的一个方面是一种语音输入装置，包括：固定部分，其设置在预定位置；能移动部分，其能相对于固定部分移动；麦克风阵列，其附接到固定部分；话语方向估计单元，被配置为基于来自说话者的语音来估计话语方向，从麦克风阵列输入所述语音；以及驱动单元，被配置为根据估计的话语方向驱动所述能移动部分。

还可以提供控制单元，被配置为识别来自说话者的语音，从麦克风阵列输入所述语音，并且基于识别的结果来控制前驱动单元。

控制单元可以包括内部或外部语音识别引擎，其识别来自说话者的语音。

在麦克风阵列中，多个麦克风可以设置在一个平面中。

能移动部分可以相对于旋转中心对称。

话语方向估计单元可以包括：第一估计单元，被配置为根据来自说话者的语音信号来估计第一水平角，该第一水平角是话语方向上的水平角；以及第二估计单元，被配置为在第一水平角附近的预定范围内相对于第一水平角估计第二水平角和仰角，所述第二水平角是话语方向上的水平角。

本技术的一个方面是一种语音输入装置的语音输入方法，包括：固定部分，其设置在预定位置；能移动部分，其能相对于固定部分移动；以及麦克风阵列，其附接到固定部分；所述语音输入方法包括：基于来自说话者的语音来估计话语方向的步骤，从附接到固定部分的麦克风阵列输入所述语音；以及根据估计的话语方向驱动所述能移动部分的步骤。

本技术的一个方面是一种用于使计算机执行语音输入装置的语音输入处理的程序，包括：固定部分，其设置在预定位置；能移动部分，其能相对于固定部分移动；以及麦克风阵列，其附接到固定部分；所述语音输入处理包括：基于来自说话者的语音来估计话语方向的步骤，从附接到固定部分的麦克风阵列输入所述语音；以及根据估计的话语方向驱动所述能移动部分的步骤。

根据本技术的一个方面，固定部分设置在预定位置，能移动部分能相对于固定部分移动，麦克风阵列附接到固定部分，话语方向估计单元基于来自说话者的语音来估计话语方向，从麦克风阵列输入所述语音，并且驱动单元根据估计的话语方向驱动所述能移动部分。

本发明的效果

如上所述，本技术的一个方面使得可以促进估计话语方向。注意，此处描述的有利效果不一定是限制性的，并且可以应用本说明书中描述的任何效果。

附图说明

图1是示出语音输入装置的一个实施方式的物理配置的透视图；

图2是示出麦克风阵列的配置的示图；

图3是示出语音输入装置的一个实施方式的物理配置的透视图；

图4是示出语音输入装置的电气配置的框图；

图5是示出话语方向估计单元的配置的框图；

图6是示出语音输入处理的流程图；

图7是示出话语方向估计处理的流程图；

图8是示出第一音乐处理的流程图；

图9是示出水平角估计处理的流程图；

图10是示出第二音乐处理的流程图；

图11是示出估计范围的示图；

图12是示出空间谱的特征的示图；

图13是示出空间谱的特征的示图；

图14是示出空间谱的特征的示图；

图15是示出个人计算机的配置示例的框图。

具体实施方式

下面将描述用于执行本技术的实施方式。注意，将按照以下顺序进行描述。

1.语音输入装置的物理配置(图1至3)

2.语音输入装置的电气配置(图4和5)

3.语音输入装置的操作(图6至11)

4.空间谱的特征(图12至14)

5.计算机(图15)

6.其他

<语音输入装置的物理配置>

(图1至3)

首先，将参考图1至3描述语音输入装置的物理配置。图1是示出语音输入装置的一个实施方式的物理配置的透视图。图2是示出麦克风阵列的配置的示图。

如图1所示，该实施方式的语音输入装置1包括大致圆柱形的外壳11，并且麦克风阵列12设置在其外周侧表面下方。如图2所示，麦克风阵列12包括多个(在图2的示例中为八个)麦克风13，麦克风13以基本水平的环形形状设置，并且沿着半径从中心指向外周。注意，麦克风阵列12的多个麦克风13可以线性或三维设置。

在外壳11上方，形成能相对于外壳11移动的能移动部分14。能移动部分14由用作驱动单元的内置伺服电机53驱动(如稍后参考图4所述)，并且可在水平面内移动(在该示例中可旋转)。即，设置在预定位置以便与桌子或地板接触的外壳11不旋转，而是形成所谓的固定部分。即使能移动部分14旋转，设置在外壳11中的麦克风阵列12也不旋转。

注意，通过使用地磁传感器、陀螺仪传感器等的传感器信息，即使能移动部分14移动，包括麦克风阵列12的外壳11也可以保持在原始位置。

能移动部分14也形成为大致圆柱形，并且显示单元15设置在能移动部分14的前表面上。在该示例中，在显示单元15上显示面部的图片，这指示该表面是前表面。旋转能移动部分14，使得例如显示单元15指向话语方向。在能移动部分14中，扬声器16容纳在显示单元15的后侧。扬声器16向用户输出声音，例如，消息。

语音输入装置1设置在空间21中，例如，在房间中。

图3是示出语音输入装置的一个实施方式的物理配置的透视图。语音输入装置1也可以如图3所示配置。在图3的语音输入装置1中，大致圆柱形外壳11的下端11B和上端11T具有大直径并向外突出。其间的部分具有小直径并且向内凹陷。然后，能移动部分14可旋转地设置在凹陷部分中。在该示例中，麦克风阵列12设置在外壳11的上端11T中。因此，即使能移动部分14旋转，麦克风阵列12也不旋转。显示单元15形成在能移动部分14上，并且扬声器16设置在后侧。

语音输入装置1安装在例如智能扬声器、语音代理、机器人等中，并且具有在从周围声源(例如，人)发出语音的情况下估计发出语音的话语方向的功能。估计的方向用于在话语方向上引导装置的前表面。

<语音输入装置的电气配置>

(图4和5)

接下来，参考图4，将描述语音输入装置的电气配置。图4是示出语音输入装置的电气配置的框图。

图4的语音输入装置1包括麦克风阵列12、信号处理单元51、主控制单元52、伺服电机53、能移动部分14和扬声器16。

处理来自麦克风阵列12的信号的信号处理单元51包括话语方向估计单元71、信号强调单元72、噪声抑制单元73和回声消除单元74。话语方向估计单元71基于来自麦克风阵列12的信号来估计话语方向。信号强调单元72强调目标声音信号。噪声抑制单元73抑制包括在目标声音信号中的噪声分量。回声消除单元74执行消除从麦克风阵列12输入的信号中包括的回声分量的处理。

主控制单元52包括语音识别引擎81和操作确定单元82。语音识别引擎81从输入信号中识别语音。操作确定单元82基于所识别的语音中包括的内容来确定要执行的操作。

注意，在主控制单元52经由互联网等连接到云61并且存在语音识别引擎的情况下，代替内部语音识别引擎81，可以使用外部语音识别引擎来执行语音识别处理。

在操作确定单元82指示伺服电机53驱动能移动部分14的情况下，伺服电机53响应于该指令驱动能移动部分14。例如，在图1或3所示的示例中，能移动部分14旋转到预定位置。

接下来，将参考图5描述话语方向估计单元71的配置。图5是示出话语方向估计单元的配置的框图。

图5的话语方向估计单元71包括频率转换单元101、第一音乐处理单元102、水平角估计单元103、第二音乐处理单元104和第二峰值检测单元105。

频率转换单元101对从麦克风阵列12输入的声学信号执行频率转换。用作第一估计单元的第一音乐处理单元102基于从频率转换单元101输入的频域信号来确定各个频率的信号的相关矩阵的特征值和特征向量。此外，第一音乐处理单元102在相对于从麦克风阵列12观看的话语方向的仰角固定为预定的常数值的状态下，在整个水平角上对空间谱执行操作。

水平角估计单元103根据第一音乐处理单元102对其执行操作的空间谱来计算阈值。此外，水平角估计单元103检测具有超过阈值的峰值的空间谱，并且估计和检测对应于空间谱的方向，作为话语方向(第一水平角θ^)。

由第一音乐处理单元102获得的各个频率的信号的相关矩阵的特征向量提供给用作第二估计单元的第二音乐处理单元104。关于由水平角估计单元103估计的第一水平角θ^，第二音乐处理单元104基于特征向量计算在第一水平角θ^附近的有限预定范围内的水平角和整个仰角处的空间谱。

第二峰值检测单元105检测由第二音乐处理单元104计算的预定范围内的水平角和仰角的空间谱的峰值，并且估计对应于峰值的方向，作为最终话语方向(θ^out、

)。

第一音乐处理单元102包括第一相关矩阵计算单元411、特征值分解单元412、频率权重计算单元413、传递函数存储单元414和第一空间谱计算单元415。此外，第一音乐处理单元102包括频率信息集成单元416和第二相关矩阵计算单元417。然而，这种配置用于使用GEVD-MUSIC的情况。在使用SEVD-MUSIC的情况下，省略第二相关矩阵计算单元417。GEVD表示广义特征值分解，SEVD表示标准特征值分解。

第一相关矩阵计算单元411为每个时间帧计算各个频率的目标信号的相关矩阵。第二相关矩阵计算单元417为每个时间帧计算各个频率的噪声信号的相关矩阵。特征值分解单元412对相关矩阵的特征值和特征向量执行操作。频率权重计算单元413计算表示每个频率的空间谱的贡献度的频率权重。在语音从某个方向到达的情况下，特征值的分布会产生不平衡，只有声源数量的特征值变大。

传递函数存储单元414预先存储传递函数向量。第一空间谱计算单元415使用平角θ相关的特征向量和传递函数向量来计算空间谱，指示从水平角θ的方向的声音到达程度。频率信息集成单元416基于频率权重整合第一空间谱。

水平角估计单元103包括阈值更新单元451和第一峰值检测单元452。阈值更新单元451计算用于确定是否采用空间谱的峰值作为检测结果的阈值。第一峰值检测单元452检测峰值超过阈值的空间谱的方向。

第二音乐处理单元104包括传递函数存储单元481、第二空间谱计算单元482和频率信息集成单元483。传递函数存储单元481预先存储传递函数向量。第二空间谱计算单元482计算空间谱，指示从预定水平角和仰角的方向的声音到达程度。频率信息集成单元483计算每个频率的空间谱的加权平均值。

<语音输入装置的操作>

(图6至11)

接下来，将参考图6描述语音输入装置1的操作。图6是示出语音输入处理的流程图。在步骤S1，麦克风阵列12输入语音。即，输入说话者发出的语音。在步骤S2，话语方向估计单元71执行话语方向估计处理。稍后将参考图7至11描述其细节。通过该操作，估计说话者发出语音的方向(水平角和仰角)。

在步骤S3，信号强调单元72强调信号。即，强调了被估计为话语方向的方向上的语音分量。在步骤S4，噪声抑制单元73抑制噪声分量并提高SN。

在步骤S5中，语音识别引擎81(或云61中存在的外部语音识别引擎)执行从信号处理单元51提供的语音信号中识别语音的处理。识别结果根据需要转换成文本。在步骤S6，操作确定单元82确定操作。即，确定对应于所识别的语音的内容的操作。然后，在步骤S7中，操作确定单元82控制伺服电机53来驱动能移动部分14。此外，在步骤S8中，操作确定单元82向扬声器16提供信号并输出语音。

通过该操作，例如，在识别出来自说话者的问候“你好”的情况下，能移动部分14在说话者的方向上旋转，并且从扬声器16向说话者发出问候“你好，你好吗？”。

在步骤S9，回声消除单元74消除回声。即，从扬声器16输出的语音可以延迟预定时间，并由麦克风阵列12收集，作为与其他声音混合的回声。回声消除单元74使用从扬声器16输出的语音信号作为参考信号，以从麦克风阵列12收集的信号中消除回声分量。

在语音输入装置1中，即使能移动部分14旋转，使得前表面指向说话者，麦克风阵列12也不旋转。因此，麦克风阵列12的传递函数在能移动部分14旋转之前和之后不会改变。因此，无需再次学习传递函数，就可以快速且正确地估计话语方向。

接下来，将参考图7描述话语方向估计处理。图7是示出话语方向估计处理的流程图。

在步骤S101中，频率转换单元101对从麦克风阵列12输入的声学信号执行频率转换。即，声学信号从时基域的信号转换成频域的信号。例如，对每一帧进行执行离散傅立叶变换(DFT)或短时傅立叶变换(STFT)的处理。例如，帧长度可以是32ms，帧偏移可以是10ms。

在步骤S102中，第一音乐处理单元102执行第一音乐处理。将参考图8描述第一音乐处理的细节。图8是示出第一音乐处理的流程图。

在图8的步骤S131中，第一相关矩阵计算单元411计算第一相关矩阵。第一相关矩阵是每个时间帧的各个频率的目标声音信号的相关矩阵，并且其每个元素表示每个麦克风13的相关性。基于以下等式(1)对第一相关矩阵执行操作。在等式(1)中，T_R表示用于计算相关矩阵的帧长度，并且向量z_ω,τ表示时间帧τ中频率ω的信号。H表示埃尔米特换位。

[等式1]

在步骤S132中，第二相关矩阵计算单元417计算第二相关矩阵。第二相关矩阵是每个时间帧的各个频率的噪声信号的相关矩阵，并且基于以下等式(2)来计算。

[等式2]

在等式(2)中，T_K表示用于计算相关矩阵的帧长度，并且使用Δt，使得不使用等式(1)的R_ω,t和等式(2)的K_ω,t所共有的时间帧的信号。α_ω,τ是一个权重，通常可以是1，但在需要根据声源类型改变权重的情况下，可以防止所有权重变为零，如等式(3)所示。

[等式3]

根据等式(3)，第二相关矩阵计算单元417基于已经应用了过去权重的第二空间相关矩阵，依次更新已经应用了权重的第二空间相关矩阵，该第二空间相关矩阵在后续阶段通过特征值分解单元412进行广义特征值分解。这种更新等式使得可以长时间使用静态噪声分量。此外，在权重是从0到1的连续值的情况下，随着在更久以前计算第二空间相关矩阵，权重集成的次数增加并且权重变得更小，因此随着稍后产生静态噪声分量，而应用更大的权重。因此，随着在最近的时间将较大的权重应用于静态噪声分量，该静态噪声分量被认为接近目标声音后面的静态噪声分量，第二空间相关矩阵的计算变得可能。

在步骤S133中，特征值分解单元412执行特征值分解。即，特征值分解单元412基于从第二相关矩阵计算单元417提供的加权的第二空间相关矩阵和从第一相关矩阵计算单元411提供的第一空间相关矩阵来执行广义特征值分解。例如，由下面的等式(4)计算特征值和特征向量。

[等式4]

R_ω，te_ω，t，i＝λ_ω，t，iK_ω，te_ω，t，i…(4)

(i＝1，…，M)

在等式(4)中，λ_i表示由广义特征值分解确定的第i个最大特征值向量，e_i表示对应于λ_i的特征向量，并且M表示麦克风13的数量。

在使用SEVD的情况下，K_ω,t如等式(5)所示设置。

[等式5]

K_ω，t＝I…(5)

在使用GEVD的情况下，通过使用满足以下等式(6)的矩阵Φ_ω,t，转换等式(4)，如等式(7)和(8)所示。这将导致SEVD问题，由等式(7)和(8)确定特征值和特征向量。

[等式6]

f_ω，t，i＝Φ_ω，te_ω，t，i…(8)

等式(7)中的Φ^-H _ω,t是白化矩阵。通过用静态噪声分量白化R_ω,t，即通过去除静态噪声分量，获得等式(7)左侧括号中的部分。

在步骤S134中，第一空间谱计算单元415基于以下等式(9)和(10)计算第一空间谱Pⁿ _ω,θ,t。即，第一空间谱计算单元415通过使用对应于来自最小一个的M-N个特征值的特征向量e_i和转向向量a_θ来计算表示来自方向θ的声音到达程度的空间谱Pⁿ _ω,θ,t。从特征值分解单元412提供特征向量e_i。转向矢量a_θ是关于方向θ的传递函数，是假设在方向θ上存在声源而预先获得的传递函数，并且预先存储在传递函数存储单元414中。

[等式7]

N表示声源数量，θ表示仰角固定时计算空间谱的水平方向。

在步骤S135中，频率权重计算单元413计算表示每个频率的空间谱的贡献度的频率权重。在声音从某个方向到达的情况下，特征值的分布会产生不平衡，只有声源数量的特征值变大。例如，由以下等式(11)计算频率权重w_ω,t。λ_i是通过广义特征值分解获得的第i个最大特征值，等式(11)中分子的特征值表示最大特征值。

[等式8]

在步骤S136中，频率信息集成单元416通过以下等式(12)和(13)计算每个频率的第一空间谱的加权平均P^-n _θ,t。从第一空间谱计算单元415提供第一空间谱Pⁿ _ω,θ,t，从频率权重计算单元413提供频率权重w_ω,t。

[等式9]

注意，当θ'在水平方向θ的整个范围内变化时，等式(13)中的第二项是最小化等式(13)中的logP^-n _θ',t，在该水平方向，在仰角固定的情况下计算空间谱。

虽然在等式(12)的运算中确定调和平均值，但是也可以确定算术平均值或几何平均值。通过等式(13)的运算，最小值被归一化为0。该运算中的日志基数是任意的，例如，可以使用Napier常数。等式(13)的运算产生了在后续阶段在第一峰值检测单元452中将与声源无关的峰值抑制到阈值或更小的效果。

如上所述，第一空间谱的加权平均P^ⁿ _θ,t由第一音乐处理单元102的第一音乐处理来计算。

回到图7，在步骤S102中的第一音乐处理(图8的处理)之后，水平角估计单元103在步骤S103中执行水平角估计处理。将参考图9描述水平角估计处理。图9是示出水平角估计处理的流程图。

在步骤S161中，阈值更新单元451计算阈值。即，从第一音乐处理单元102的频率信息集成单元416输出的第一空间谱的加权平均P^ⁿ _θ,t中，通过例如以下等式(14)和(15)来计算用于确定是否执行峰值检测的阈值P^th _θ,t。α^th、β^th和γ^th均为常数，θ表示扫描方向的数量。

[等式10]

该阈值P^th _θ,t产生的效果是去除不在该方向但具有小峰值的声源，或者去除从某个方向继续响铃的声音。目标语音通常是用于操纵装置的简短命令或话语，并且被认为不会持续很长时间。

接下来，在步骤S162中，第一峰值检测单元452检测第一峰值。即，在从频率信息集成单元416输出的第一空间谱的加权平均P^ⁿ _θ,t中，检测到峰值超过从阈值更新单元451输出的阈值P^th _θ,t的那些阈值。然后，当仰角固定时，输出对应于具有检测到的峰值的第一空间谱的加权平均P^ⁿ _θ,t的水平角θ^，作为话语方向(第一水平角)。

如上所述，在图7的步骤S103中，通过水平角估计单元103的水平角估计处理来估计第一水平角θ^，该第一水平角是当仰角固定时的话语方向(图9的处理)。

接下来，在图7的步骤S103中的水平角估计处理之后，第二音乐处理单元104在步骤S104中执行第二音乐处理。将参考图10描述第二音乐处理的细节。图10是示出第二音乐处理的流程图。

在步骤S181中，第二空间谱计算单元482计算第二空间谱。即，通过使用对应于由特征值分解单元412获得的特征向量e_i中较小的一个的M-N特征值λ_i的特征向量e_i和作为方向(θ～,

)的传递函数的转向向量

来计算第二空间谱。例如，通过以下等式(16)执行第二空间谱

的计算。

[等式11]

相对于仰角固定时声源的估计方向θ^，θ～是在估计的方向θ^附近的有限范围(θ^±s)。即，θ^-s<θ～<θ^+s。即，估计仰角的范围不是360°的整个水平角的范围，而是最初估计的第一水平角θ^附近的有限范围。φ表示用于计算空间谱的仰角方向。

图11是示出估计范围的示图。如图11所示，估计仰角的范围不是360°的整个水平角的范围，而是最初估计的第一水平角θ^(θ^±s)附近的有限范围。因此，可以减少操作量。结果，甚至操作资源不高(操作能力不高)的装置也可以实时执行操作。本技术甚至可以应用于用户可能存在的方向完全未知的情况(在没有信息指示用户在相机等的视角内或者像可佩戴装置一样预先“用户在这个方向”的情况下)。

第二空间谱是表示从方向(θ～,

)的声音到达程度的空间谱。方向(θ～,

)的转向矢量

预先存储在传递函数存储单元481中。从第一音乐处理单元102的特征值分解单元412提供特征向量e_i。

在步骤S182中，频率信息集成单元483通过以下等式(17)和(18)为每个频率计算第二空间谱的加权平均

从第二空间谱计算单元482提供第二空间谱

从第一音乐处理单元102的频率权重计算单元413提供频率权重w_ω,t。

[等式12]

通过第二音乐处理单元104的上述第二音乐处理，计算每个频率的第二空间谱的加权平均

回到图7，当步骤S104的第二音乐处理(图10的处理)结束时，第二峰值检测单元105在步骤S105中检测峰值。即，在第二音乐处理单元104输出的加权平均空间谱中，检测到具有最大值的空间谱，并且输出对应于该空间谱的水平角(第二水平角θ^out)和仰角

作为话语方向(θ^out,

)。

如上所述，通过旋转能移动部分14并在估计的话语方向上转动显示单元15，可以指示接收到来自该方向的语音。

在该示例中，由于执行了通过音乐方法的操作，所以可以准确地确定话语方向。此外，估计水平角和仰角的范围不是360°的整个水平角的范围，而是最初估计的第一水平角θ^(θ^±s)附近的有限范围。因此，可以减少操作量。结果，即使操作资源不高(操作能力不高)的装置也可以实时执行操作。

<空间谱的特征>

(图12至14)

接下来，将参考图12至14描述空间谱的特征。图12至图14是示出空间谱的特征的示图。

如图12所示，第二空间谱的加权平均

在话语方向θs上具有峰值。在具有一个声源的环境中，该空间谱在话语方向的水平角θi处具有尖峰。然而，在不断产生噪声的环境中，例如，如图13所示，不仅在话语方向θs上，而且在噪声方向θn上，可能出现两个或更多个峰值。此外，出现谱失真，这使得阻止清楚地确定峰值。

因此，在语音输入装置1中，如参考等式(7)所述，通过广义特征值分解来白化噪声。因为这使得可以白化空间有色噪声，所以当使用所获得的新特征向量来执行通过音乐方法的处理时，如图14所示，可以从空间谱中比在话语方向θs中更多地抑制噪声方向θn中的峰值。

在话语方向估计单元71如图5所示配置的情况下，不需要在外壳11中设置麦克风阵列12，作为固定部分，因为具有低操作资源的装置可以实时执行操作。然而，如果麦克风阵列12作为固定部分设置在外壳11中，则可以使用具有较低操作能力的装置来估计说话者的方向。

然后，可以预先学习上述等式(2)的噪声信号的相关矩阵K_ω,t，或者可以在依次更新时根据具有特定时间宽度的噪声部分信息来计算和保存。即使能移动部分14旋转，如果麦克风阵列12的设置、话语方向和空间中的位置关系在旋转前后没有改变，则在此之前学习的空间信息可以原样使用，性能不会由于操作而劣化，并且不会发生不必要的混淆。然后，可以稳定地使用诸如呼叫和语音识别等应用。

三维设置麦克风阵列12有利于准确估计话语方向，尽管操作量将会增加。然而，通过将麦克风阵列12附接到固定部分，如图1至图3所示，即使采用麦克风阵列12设置在平面中并且操作量较小的方法，也可以精确地估计话语方向。这样的结果是成本降低。

相关矩阵K_ω,t的顺序学习是估计使用环境中的噪声特征。例如，当诸如电视广播或无线电广播等声音持续流动时，在该方向上的噪声信息累积在相关矩阵K_ω,t中。结果，当检测到人的话语时，不太可能错误地检测到电视或无线电的方向。需要一些时间在这个相关矩阵K_ω,t中积累足够的信息。

如果麦克风阵列12不是固定的而是旋转的，则在旋转之后立即重置麦克风阵列12和空间之间的位置关系。当执行用于检测紧接在旋转之后的用户(或者在另一方向上的新用户)的话语的方向估计时，如果使用迄今为止已经学习的相关矩阵K_ω,t，则在相关矩阵K_ω,t中还没有学习到关于来自电视或无线电广播的噪声的方向和强度的信息。因此，紧接在麦克风阵列12旋转之后，难以精确地估计话语方向。

然而，如果麦克风阵列12是固定的，则不会出现这样的问题，因为没有重置麦克风阵列12和空间之间的位置关系。具体地，如果能移动部分14相对于旋转中心对称地形成为圆柱形，即使考虑到能移动部分14的反射，麦克风阵列12和空间之间的位置关系在旋转前后也不会改变。

此外，可以考虑这样的配置，其中，麦克风阵列12旋转，并且根据驱动麦克风阵列12的伺服电机的旋转轴的旋转步数来计算旋转角度，并且通过旋转角度来校正估计的方向。然而，如果麦克风阵列12是固定的，则这种校正处理变得不必要。

<计算机>

(图15)

上述一系列类型的处理可以由硬件执行，或者可以由软件执行。在这种情况下，例如，每个装置包括如图15所示的个人计算机。图15是示出个人计算机的配置示例的框图。

在图15中，中央处理单元(CPU)921根据存储在只读存储器(ROM)922中的程序或者从存储单元928加载到随机存取存储器(RAM)923的程序来执行各种类型的处理。RAM 923还存储CPU 921根据需要执行各种类型的处理等所需的数据。

CPU 921、ROM 922和RAM 923经由总线924相互连接。输入输出接口925也连接到总线924。

包括键盘、鼠标等的输入单元926、包括诸如CRT或LCD、扬声器等显示器的输出单元927、包括硬盘等的存储单元928、以及包括调制解调器、终端适配器等的通信单元929连接到输入输出接口925。通信单元929经由网络(例如，互联网)执行通信处理。

必要时，驱动器930也连接到输入输出接口925。适当地安装诸如磁盘、光盘、磁光盘或半导体存储器等可移除介质931。根据需要，从其中读取的计算机程序安装在存储单元48中。

注意，在本说明书中，描述要记录在记录介质上的程序的步骤不仅包括根据列出的顺序在时间序列基础上执行的处理，还包括不一定在时间序列基础上执行而是并行或单独执行的处理。

此外，本技术的实施方式不限于上述实施方式，并且在不脱离本技术的精神的情况下，可以进行各种修改。

<其他>

本技术还可以具有以下配置。

(1)一种语音输入装置，包括：

固定部分，其设置在预定位置；

能移动部分，其能相对于固定部分移动；

麦克风阵列，其附接到固定部分；

话语方向估计单元，被配置为基于来自说话者的语音来估计话语方向，从麦克风阵列输入所述语音；以及

驱动单元，被配置为根据估计的话语方向驱动所述能移动部分。

(2)根据上述(1)所述的语音输入装置，还包括

控制单元，被配置为识别来自说话者的语音，从麦克风阵列输入所述语音，并且基于识别的结果来控制前驱动单元。

(3)根据上述(1)或(2)所述的语音输入装置，其中，

所述控制单元包括内部或外部语音识别引擎，其识别来自说话者的语音。

(4)根据上述(1)至(3)中任一项所述的语音输入装置，其中，

在麦克风阵列中，多个麦克风设置在一个平面中。

(5)根据上述(1)至(4)中任一项所述的语音输入装置，其中，

所述能移动部分相对于旋转中心对称。

(6)根据上述(1)至(5)中任一项所述的语音输入装置，其中，

所述话语方向估计单元包括：

第一估计单元，被配置为根据来自说话者的语音信号来估计第一水平角，该第一水平角是话语方向上的水平角；以及

第二估计单元，被配置为在第一水平角附近的预定范围内相对于第一水平角估计第二水平角和仰角，所述第二水平角是话语方向上的水平角。

(7)一种语音输入装置的语音输入方法，包括：

固定部分，其设置在预定位置；

能移动部分，其能相对于固定部分移动；以及

麦克风阵列，其附接到固定部分；

所述语音输入方法包括：

基于来自说话者的语音来估计话语方向的步骤，从附接到固定部分的麦克风阵列输入所述语音；以及

根据估计的话语方向驱动所述能移动部分的步骤。

(8)一种用于使计算机执行语音输入装置的语音输入处理的程序，包括：

固定部分，其设置在预定位置；

能移动部分，其能相对于固定部分移动；以及

麦克风阵列，其附接到固定部分；

所述语音输入处理包括：

根据估计的话语方向驱动所述能移动部分的步骤。

附图标记列表

1 语音输入装置

11 外壳

12 麦克风阵列

13 麦克风

14 能移动部分

15 显示单元

16 扬声器

51 信号处理单元

52 主控制单元

71 话语方向估计单元

72 信号强调单元

73 噪声抑制单元

74 回声消除单元

81 语音识别引擎

82 操作确定单元

Claims

1.一种语音输入装置，包括：

固定部分，设置在预定位置；

能移动部分，能相对于所述固定部分移动；

麦克风阵列，附接到所述固定部分；

话语方向估计单元，被配置为基于来自说话者的语音来估计话语方向，所述语音是从所述麦克风阵列输入的；以及

2.根据权利要求1所述的语音输入装置，还包括

控制单元，被配置为识别来自说话者的所述语音，所述语音是从所述麦克风阵列输入的；并且被配置为基于识别的结果来控制前驱动单元。

3.根据权利要求2所述的语音输入装置，其中，

所述控制单元包括识别来自所述说话者的所述语音的内部或外部语音识别引擎。

4.根据权利要求3所述的语音输入装置，其中，

在所述麦克风阵列中，多个麦克风设置在一个平面中。

5.根据权利要求4所述的语音输入装置，其中，

所述能移动部分相对于旋转中心对称。

6.根据权利要求1所述的语音输入装置，其中，

所述话语方向估计单元包括：

第一估计单元，被配置为根据来自所述说话者的所述语音的信号来估计第一水平角，所述第一水平角是话语方向上的水平角；以及

第二估计单元，被配置为在所述第一水平角附近的预定范围内相对于所述第一水平角估计第二水平角和仰角，所述第二水平角是话语方向上的水平角。

7.一种语音输入装置的语音输入方法，所述语音输入装置包括：

固定部分，设置在预定位置；

能移动部分，能相对于所述固定部分移动；以及

麦克风阵列，附接到所述固定部分；

所述语音输入方法包括：

基于来自说话者的语音来估计话语方向的步骤，所述语音是从附接到所述固定部分的所述麦克风阵列输入的；以及

根据估计的话语方向驱动所述能移动部分的步骤。

8.一种用于使计算机执行语音输入装置的语音输入处理的程序，所述语音输入装置包括：

固定部分，设置在预定位置；

能移动部分，能相对于所述固定部分移动；以及

麦克风阵列，附接到所述固定部分；

所述语音输入处理包括：

根据估计的话语方向驱动所述能移动部分的步骤。