CN112509571A

CN112509571A - 信息处理装置和记录介质

Info

Publication number: CN112509571A
Application number: CN202010734400.0A
Authority: CN
Inventors: 内田翔
Original assignee: Fujitsu Client Computing Ltd
Current assignee: Fujitsu Client Computing Ltd
Priority date: 2019-08-27
Filing date: 2020-07-24
Publication date: 2021-03-16
Also published as: JP6886118B2; US20210067872A1; JP2021033140A

Abstract

本发明提供信息处理装置和记录介质，提高语音识别的精度。麦克风2a和2b将语音转换成语音信号4a和4b。传感器3检测一个以上的人体的所在。传感器输出表示人体存在的一个以上的方向的传感器数据5。信息处理装置10基于从传感器3取得的传感器数据5所示的一个以上的方向来决定强化方向。然后，信息处理装置10基于从麦克风2a和2b获取的语音信号4a和4b，生成强调了来自强化方向的语音的合成语音信号。

Description

信息处理装置和记录介质

技术领域

本发明涉及信息处理装置和记录介质。

背景技术

配备有麦克风的PC(个人计算机)已被广泛普及。作为通过麦克风来减小噪声地收集用户的声音的技术，有波束成型。在波束成型中，将使用多个无指向性麦克风收集到的多个语音信号合成，并强调来自特定方向的语音。例如，在电视电话中，为了使位于PC的屏幕前的用户的声音清楚，有时进行强调来自屏幕的正面方向的语音的设定。

作为与波束成型相关的技术，例如提出了实时地估计从移动的声源发出的语音的到来方向，并且对该语音实时地进行波束成型的语音到来方向估计·波束成型系统。

现有技术文献

专利文献

[专利文献1]特开2008-175733号公报

发明内容

[发明要解决的问题]

近年来，响应于用户说出的话语来操作PC的语音辅助被组装入PC中。用户即使不在屏幕的正面，也可以通过对语音辅助说话来操作PC。

但是，在基于PC的波束成型中，有时设想用户位于屏幕前，进行强调来自屏幕的正面方向的语音的设定。在这种情况下，对位于屏幕的正面以外的用户的语音的语音识别的精度降低。

另外，如上述的语音到来方向估计·波束成型系统那样，可以实时地估计从移动的声源发出的语音的到来方向。但是，在该技术中，从移动的声源发出语音是到来方向估计的前提，所以难以估计说话前的用户的方向、用户安静地大幅移动后的用户的方向。在不能估计用户的方向的情况下，基于波束成型的语音识别的精度也不够。

本发明的一个方面的目的是提高语音识别的精度。

[用于解决问题的手段]

在一个方案中，提供了具有如下所述的多个麦克风、传感器和处理部的信息处理装置。

多个麦克风将语音转换为语音信号。传感器检测一个以上的人体的所在。传感器输出表示人体存在的一个以上方向的传感器数据。处理部基于从传感器取得的传感器数据所示的一个以上的方向来决定强化方向。并且，处理部根据从多个麦克风取得的多个语音信号，生成强调了来自强化方向的语音的合成语音信号。

[发明效果]

根据一个方式，能够提高语音识别的精度。

附图说明

图1是表示第1实施方式的信息处理装置的一例的图。

图2是用于说明第2实施方式的概要的图。

图3是表示用户终端的硬件的一例的图。

图4是表示监视器的结构的一例的图。

图5是表示用户终端的功能例的框图。

图6是表示语音的传送方法的一例的图。

图7是通过传感器输出人体的位置坐标的方法的一例。

图8是强化方向的决定方法的一例。

图9是表示设置位置信息的一例的图。

图10是表示第1强化方向控制的过程的一例的流程图。

图11是表示第1合成语音信号生成的过程的一例的流程图。

图12是用于说明第3实施方式的概要的图。

图13是表示用户终端的其他功能例的框图。

图14是表示计算声源的方向的方法的一例的图。

图15是表示第2强化方向控制的过程的一例的流程图。

图16是用于说明第4实施方式的概要的图。

图17是表示第3强化方向控制的过程的一例的流程图。

图18是表示第2合成语音信号生成的过程的一例的流程图。

图19是表示其他实施方式的系统结构例的图。

具体实施方式

以下，参照附图对本实施方式进行说明。另外，各实施方式可以在不矛盾的范围内组合多个实施方式来实施。

(第1实施方式)

首先，对第1实施方式进行说明。

图1是示出根据第1实施方式的信息处理设备的一例的图。在图1的例子中，信息处理装置10在取得语音时设定为使来自用户1的方向的语音具有指向性。信息处理装置10可以通过执行描述有指向性设定方法的处理过程的程序来执行指向性设定处理。

麦克风2a和2b以及传感器3连接到信息处理装置10。麦克风2a和2b例如是无指向性的麦克风。麦克风2a将语音转换为语音信号4a。麦克风2b将语音转换为语音信号4b。

传感器3是检测一个以上的人体的所在的传感器。传感器3输出表示人体存在的一个以上的方向的传感器数据。在以下示例中，传感器3输出表示一个人体存在的方向(用户1存在的方向)的传感器数据5。传感器数据5包含有表示用户1相对于传感器3的相对位置的第1相对位置。

信息处理装置10具有存储部11和处理部12。存储部11例如是信息处理装置10具有的存储器或存储装置。处理部12例如是信息处理装置10具有的处理器或运算电路。

存储部11存储设置位置11a、11b、11c。设置位置11a表示设置麦克风2a的位置。设置位置11b表示设置麦克风2b的位置。设置位置11c表示设置传感器3的位置。

处理部12基于用户1所在的方向来决定强化方向。例如，处理部12将用户1所在的方向决定为强化方向。这里，处理部12计算用户1的从规定的基准点起的方向，作为用户1所处的方向。

例如处理部12计算表示用户1相对于基于设置位置11a、11b的基准点6的相对位置的第2相对位置。基准点6例如是麦克风2a和2b的中点。处理部12计算设置位置11a、11b的中点作为基准点6的位置。处理部12基于基准点6的位置和设置位置11c，计算传感器3相对于基准点6的相对位置。然后，处理部12通过将传感器3相对于基准点6的相对位置与传感器数据5中包含的用户1相对于传感器3的相对位置相加，来计算用户1相对于基准点6的相对位置(第2相对位置)。

然后，处理部12计算从基准点6到第2相对位置的方向作为用户1所位于的方向。这里，所计算的用户1的方向利用下述两条直线在水平面上所形成的角度θ来表示：第1条直线是垂直于连接麦克风2a和麦克风2b的直线并通过基准点6的直线，第2条直线是连接基准点6和第2相对位置的直线。处理部12将强化方向设定为θ。

处理部12根据从麦克风2a、2b取得的语音信号4a、4b，生成强调了来自强化方向θ的语音的合成语音信号。例如，处理部12将从麦克风2a和2b中靠近用户1的麦克风2a获取的语音信号4a延迟d·sinθ/c。这里，d表示麦克风2a和麦克风2b之间的距离，c表示音速。然后，处理部12生成将延迟后的语音信号4a和语音信号4b合成而得到的合成语音信号。利用这样生成的合成语音信号来强调来自强化方向θ的语音的理由如下所示。

表示来自强化方向θ的语音的平面波相比于麦克风2b，更早地传播到麦克风2a，且早d·sinθ/c。因此，延迟了d·sinθ/c的语音信号4a中包含的来自强化方向θ的语音与语音信号4b中包含的来自强化方向θ的语音的相位一致。另一方面，延迟了d·sinθ/c的语音信号4a中包含的来自强化方向θ以外的方向(例如θ')的语音与语音信号4b中包含的来自方向θ'的语音的相位不一致。因此，通过将延迟后的语音信号4a和语音信号4b合成，生成与来自θ以外的方向的语音相比强调了来自强化方向θ的语音的合成语音信号。

根据这样的信息处理装置10，生成强调了来自用户1所在的方向的语音的合成语音信号。即，在所生成的合成语音信号中，由于强调了用户1的语音，所以提高了语音识别的精度。此外，由于根据用户1所在的方向来设定强化方向，所以即使在用户1不在屏幕的正面的情况下，也能够提高语音识别的精度。此外，作为用户1所在的方向，计算用户1的从基准点6起的方向。由此，强化方向的设定精度提高。此外，因为从传感器3获取用户1所在的方向，所以信息处理装置10能够在用户1说话之前设定强化方向。

传感器数据5可以表示人体存在的多个方向。例如，传感器数据5可以包含有表示多个人体相对于传感器3的相对位置的多个第1相对位置。另外，作为人体存在的多个方向，可以计算从基准点6到多个第2相对位置的方向。此时，处理部12基于设置位置11a、11b、11c和多个第1相对位置，计算表示多个人体相对于基准点6的相对位置的多个第2相对位置。然后，处理部12计算从基准点6到多个第2相对位置的方向作为人体存在的多个方向。处理部12根据人体存在的多个方向决定强化方向。

例如处理部12将人体存在的多个方向中的一个方向决定为强化方向。此时，处理部12可以获取发出规定的词语的方向，将传感器数据5所表示的人体存在的多个方向中的与发出规定的话语的方向最接近的一个方向决定为强化方向。这里，规定的话语例如是为了启动语音辅助而发出的话语(唤醒词)。因此，在由传感器3检测出的多个人体中的使用语音辅助的用户所在的方向被决定为强化方向。结果，提高了语音辅助的语音识别的精度。

另外，例如处理部12也可以将传感器数据5表示的人体存在的多个方向分别决定为强化方向，生成强调了来自强化方向的语音的多个合成语音信号。这里，设想由传感器3检测出的多个用户中的一个用户在进行语音输入。在这种情况下，多个合成语音信号中包含以进行语音输入的用户所在的方向作为强化方向而生成的合成语音信号。因此，通过对所生成的多个合成语音信号中的每一个进行语音识别处理，在对任意一个合成语音信号的语音识别中精度提高。

此外，传感器数据5可以包含有表示一个以上的人体中的各个人体与传感器3的距离的距离信息。在这种情况下，当一个以上的人体中的各个人体与传感器3的距离中的任意一个距离在阈值以上时，处理部12可以增大麦克风2a和2b的麦克风灵敏度。因此，麦克风2a和2b可以容易地将来自远处用户的语音转换为语音信号。

此外，信息处理装置10还可以具有显示部，麦克风2a和2b被设置在与显示部的显示面平行的平面上。因此，即使麦克风2a和2b的设置位置被限制在与显示面平行的平面上，也可以提高语音识别的精度。

(第2实施方式)

接着，对第2实施方式进行说明。第2实施方式根据用户的位置来设定通过波束成型而具有指向性的方向。

图2是用于说明第2实施方式的概要的图。用户终端100例如是能够通过语音辅助等软件进行语音操作的终端。用户终端100的语音辅助等软件在取得语音信号后，进行与所取得的语音信号所表示的话语对应的处理。基于所获取的语音信号来估计语音信号所表示的话语有时被称为语音识别。

用户21是对用户终端100进行语音操作的用户。用户终端100通过传感器检测用户21，进行波束成型的设定，使得在用户21所在的方向(即，人体存在的方向)上具有指向性。

例如，在用户21位于用户终端100的正面的情况下，用户终端100进行波束成型的设定，使得对于来自正面的语音具有指向性。由此，对来自正面的语音的语音识别率变高，而对来自正面以外的方向的语音的语音识别率变低。

另外，例如，在用户21移动到用户终端100的正面以外的方向的情况下，用户终端100进行波束成型的设定，使得对于来自用户21所在的方向的语音具有指向性。由此，对来自用户21所在的方向的语音的语音识别率变高，对来自其他方向的语音的语音识别率变低。

图3是表示用户终端的硬件的一例的图。用户终端100由处理器101控制装置整体。存储器102和多个外围设备通过总线111连接到处理器101。处理器101也可以是多处理器。处理器101例如是CPU(Central Processing Unit，中央处理单元)、MPU(Micro ProcessingUnit，微处理单元)或DSP(Digital Signal Processor，数字信号处理器)。也可以通过ASIC(Application Specific Integrated Circuit，专用集成电路)、PLD(Programmable LogicDevice，可编程逻辑器件)等电子电路来实现通过处理器101执行程序而实现的功能的至少一部分。

存储器102用作用户终端100的主存储装置。存储器102中暂时存储使处理器101执行的OS(Operating System，操作系统)的程序或应用程序的至少一部分。存储器102中还存储在处理器101的处理中使用的各种数据。作为存储器102，例如使用RAM(Random AccessMemory，随机存取存储器)等易失性的半导体存储装置。

连接到总线111的外围设备包括存储(storage)装置103、图形处理装置104、设备连接接口105、输入接口106、光学驱动装置107、设备连接接口108、语音输入部109和网络接口110。

存储装置103对内置的记录介质以电或磁的方式进行数据的写入和读出。存储装置103用作计算机的辅助存储装置。存储装置103中存储OS程序、应用程序和各种数据。例如，HDD(硬盘驱动器)或SSD(固态驱动器)可以用作存储装置103。

监视器31连接到图形处理装置104。图形处理装置104根据来自处理器101的命令，将图像显示在监视器31的屏幕上。作为监视器31，存在使用有机EL(ElectroLuminescence，电致发光)的显示装置或液晶显示装置等。

在设备连接接口105上连接有传感器32。传感器32例如是TOF(Time Of Flight，飞行时间)传感器。传感器32具备投光部和受光部。传感器32基于从投光部向多个点照射光开始到受光部接收到来自各点的反射光为止的时间，测定各点与传感器32的距离。此外，传感器32基于运动来检测人体的位置。传感器32将基于与检测到的人体对应的点和传感器32的距离计算出的、检测到的人体相对于传感器32的相对位置作为传感器数据发送给处理器101。

键盘33和鼠标34连接到输入接口106。输入接口106将从键盘33或鼠标34发送来的信号发送到处理器101。此外，鼠标34是指示(pointing)设备的一例，也可以使用其他指示设备。作为其他的指示设备，有触摸屏、写字板、触摸屏、跟踪球等。

光学驱动装置107利用激光等读取记录在光盘35中的数据。光盘35是以能够通过光的反射来读取的方式记录数据的可移动型的记录介质。在光盘35中，有DVD(DigitalVersatile Disc，数字通用盘)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory，紧凑型盘只读存储器)、CD-R(Recordable，可读)/RW(ReWritable，可重写)等。

设备连接接口108是用于将外围设备连接到用户终端100的通信接口。例如，存储器装置36和存储器读写器37可以连接到设备连接接口108。存储器装置36是搭载了与设备连接接口108的通信功能的记录介质。存储器读写器37是将数据写入存储卡37a或从存储卡37a读取数据的装置。存储卡37a是卡型的记录介质。

麦克风38和39连接到语音输入部109。语音输入部109将从麦克风38、39输入的语音信号变换为数字信号，发送到处理器101。

网络接口110连接到网络20。网络接口110经由网络20与其他计算机或通信设备之间进行数据的收发。

用户终端100可以通过上述硬件结构来实现第2实施方式的处理功能。第1实施方式所示的信息处理装置10也能够通过与图3所示的用户终端100同样的硬件来实现。处理器101是第1实施方式所示的处理部12的一例。存储器102或存储装置103是第1实施方式所示的存储部11的一例。另外，监视器31是第1实施方式所示的显示部的一例。

用户终端100例如通过执行记录在计算机可读取的记录介质中的程序，来实现第2实施方式的处理功能。描述由用户终端100执行的处理内容的程序可以被记录在各种记录介质中。例如，可以将使用户终端100执行的程序存储在存储装置103中。处理器101将存储装置103内的程序的至少一部分加载到存储器102，并执行程序。另外，也可以将使用户终端100执行的程序记录在光盘35、存储装置36、存储卡37a等可移动型记录介质中。存储在可移动型记录介质中的程序例如通过来自处理器101的控制，在被安装到存储装置103中之后可以执行。另外，处理器101也可以从可移动型记录介质直接读出程序来执行。

接着，说明与用户终端100连接的设备的配置。

图4是表示监视器的结构的一例的图。监视器31具有面板31a、传感器32和麦克风38、39。面板31a是有机EL面板或液晶面板等监视器31的显示面。面板31a设置在监视器31的中央。

传感器32设置在监视器31的上部。传感器32以投光部及受光部朝向面板31a的正面的方式设置。麦克风38、39设置在监视器31的上部。麦克风38、39配置在与面板31a(显示面)平行的平面上。

接下来，将详细描述用户终端100的功能。

图5是表示用户终端的功能例的框图。用户终端100具有存储部120、传感器数据取得部130、位置计算部140、强化方向决定部150、麦克风灵敏度设定部160、语音信号取得部170以及合成语音信号生成部180。

存储部120存储设置位置信息121。设置位置信息121是关于传感器32和麦克风38、39的设置位置的信息。传感器数据取得部130从传感器32获取传感器数据。传感器数据是用户21相对于传感器32的相对位置的坐标。用户21相对于传感器32的相对位置是第1实施方式中所示的第1相对位置的一例。

位置计算部140基于由传感器数据取得部130获取的、用户21相对于传感器32的相对位置的坐标，计算用户21相对于麦克风38和39的中点(基准点)的相对位置的坐标。用户21相对于基准点的相对位置是第1实施方式中所示的第2相对位置的一例。位置计算部140参照设置位置信息121，计算传感器32相对于基准点的相对位置的坐标。然后，位置计算部140将用户21相对于传感器32的相对位置的坐标与传感器32相对于基准点的相对位置的坐标相加，从而计算用户21相对于基准点的相对位置的坐标。

强化方向决定部150将用户21的从基准点起的方向决定为在波束成型中具有指向性的方向(强化方向)。强化方向决定部150基于位置计算部140计算出的、用户21相对于基准点的相对位置的坐标，计算用户21的从基准点起的方向。强化方向决定部150将计算出的方向决定为强化方向。

麦克风灵敏度设定部160根据用户21的距离来设定麦克风38、39的麦克风灵敏度。麦克风灵敏度设定部160根据位置计算部140计算出的、用户21相对于基准点的相对位置的坐标，计算用户21与基准点的距离。然后，麦克风灵敏度设定部160在计算出的距离为阈值以上的情况下，增大麦克风灵敏度。麦克风灵敏度例如以“dB”为单位表示相对于施加到麦克风38、39的声压的大小的输出电压的大小。

例如，麦克风灵敏度设定部160在用户21与基准点的距离小于80[cm]的情况下，将麦克风灵敏度设定为+24[dB]。另一方面，麦克风灵敏度设定部160在用户21与基准点的距离为80[cm]以上的情况下，将麦克风灵敏度设定为+36[dB]。

语音信号取得部170从麦克风38、39获取语音信号。合成语音信号生成部180基于语音信号取得部170获取的语音信号，生成强调了来自强化方向的语音的合成语音信号。合成语音信号生成部180计算来自强化方向的语音传递到麦克风38、39的时间差(延迟时间)。合成语音信号生成部180使从麦克风38、39中的一个麦克风取得的语音信号延迟延迟时间，与从另一个麦克风取得的语音信号合成。

另外，图5所示的连接各要素间的线表示通信路径的一部分，也可以设定图示的通信路径以外的通信路径。此外，图5所示的各要素的功能例如可以通过使计算机执行与该要素对应的程序模块来实现。

接着，对光束成型进行说明。

图6是表示语音的传送方法的一例的图。麦克风38和39隔着距离d设置。这里，考虑作为语音的平面波的声波41从方向(θ方向)到来的情况，该方向(θ方向)相对于与连结麦克风38、39的直线垂直且通过麦克风38、39的中点的直线，向麦克风39侧倾斜了角度θ。

在这种情况下，声波41到麦克风39的路径比到麦克风38的路径短d·sinθ。因此，由下式计算由麦克风38变换声波41后的语音信号相对于由麦克风39变换声波41后的语音信号的延迟时间δ。另外，“c”是音速。

δ＝d·sinθ/c (1)

这里，在以θ方向为强化方向的波束成型中，合成语音信号生成部180将使从麦克风39取得的语音信号延迟δ后的语音信号和从麦克风38取得的语音信号合成，生成合成语音信号。于是，使从麦克风39取得的语音信号延迟δ后的语音信号和从麦克风38取得的语音信号中包含的来自θ方向的语音的相位一致。在由此生成的合成语音信号中，强调来自θ方向的语音。另一方面，使从麦克风39取得的语音信号延迟δ后的语音信号和从麦克风38取得的语音信号中包含的来自θ方向以外的方向的语音的相位不一致。因此，在所生成的合成语音信号中，来自θ方向以外的方向的语音不被强调。通过这样的波束成型，用户终端100在θ方向上具有指向性。

接着，说明传感器32确定用户21相对于传感器32的相对位置的坐标的方法。

图7是通过传感器输出人体的位置坐标的方法的一例。传感器32将移动的物体(移动体)检测为人体，根据到检测到的人体的距离，输出检测到的人体相对于传感器32的相对位置的坐标。

传感器32从投光部向多个方向照射光(例如近红外光)。于是，照射的光被反射点42a、42b、42c、...反射。反射点42a、42b、42c、...表示被照射的光射到的物体(例如人体、置物、壁等)的部位。传感器32通过受光部检测由反射点42a、42b、42c、...反射的反射光。传感器32根据从照射光开始到检测到来自各点的反射光的时间(飞行时间)，利用(与点的距离)＝(光速)×(飞行时间)/2的式子计算出与反射点42a、42b、42c、...各点的距离。

传感器32也可以根据与反射点42a、42b、42c、...各点的距离，生成距离图像43。距离图像43的各像素与照射光的多个方向对应。距离图像43的各像素的值表示到位于对应的方向上的反射点42a、42b、42c、...的距离。另外，在图7中，距离图像43的各像素的值的大小用点的浓淡表示。在距离图像43中，点浓的部位表示像素的值小(距离近)，点淡的部位表示像素的值大(距离远)。

传感器32例如基于距离图像43的各像素的值的变化来检测移动的物体(移动体)。传感器32在距离图像43中确定表示检测到的移动体的重心的像素。传感器32根据所确定的像素的值所表示的距离和与所确定的像素对应的方向，计算移动体的重心相对于传感器32的相对位置的坐标。传感器32输出移动体的重心相对于传感器32的相对位置的坐标，作为人体相对于传感器32的相对位置的坐标。另外，传感器32也可以代替检测人体的移动并确定表示移动体的重心的像素，而例如检测人体的呼吸引起的微小的运动，确定表示有运动的区域的重心的像素。

接着，对强化方向的决定方法进行说明。

图8是强化方向的决定方法的一例。基于传感器32和麦克风38、39的设置位置以及从传感器32获得的用户21相对于传感器32的相对位置来决定强化方向。用于表示传感器32和麦克风38、39的设置位置的坐标系的一例定义如下。

x轴是与连结麦克风38、39的直线平行的轴。y轴是与水平面垂直的轴。z轴是与x、y平面垂直的轴。即，x、z平面是水平面。作为麦克风38和麦克风39的中点的基准点44的位置坐标表示为(0，0，0)。

麦克风38的位置坐标是(X₁，0，0)。麦克风39的位置坐标是(X₂，0，0)。传感器32的位置坐标为(X₃，Y₃，Z₃)。传感器32输出用户21相对于传感器32的相对位置的坐标。这里，假设传感器32输出的用户21相对于传感器32的相对位置的坐标是(A，B，C)。在这种情况下，通过将用户21相对于传感器32的相对位置的坐标与传感器32的位置坐标相加，算出(X₃+A，Y₃+B，Z₃+C)作为用户21的位置坐标。

利用在水平面(x、z平面)中，相对于与连结麦克风38、39的直线垂直的直线，连结基准点44和用户21的直线向麦克风39侧倾斜的角度θ来表示强化方向。角度θ由下式计算。

tanθ＝(X₃+A)/(Z₃+C)

θ＝tan^-1((X₃+A)/(Z₃+C)) (2)

式(2)的上侧的公式基于用户21的位置坐标来表示tanθ。通过将tan的反函数(tan^-1)作用于式(2)的上侧的公式的两边而得到的式(2)的下侧的公式，计算角度θ。

此外，麦克风38和麦克风39之间的距离d由下式计算。

d＝|X₁－X₂| (3)

此外，基准点44与用户21的距离D通过下式算出。另外，距离D是第1实施方式所示的距离信息的一例。

D＝((X₃+A)²+(Y₃+B)²+(Z₃+C)²)^1/2 (4)

接下来，将详细说明存储在存储部120中的数据。

图9是表示设置位置信息的一例的图。在设置位置信息121中设置有设备以及坐标的栏。在设备的栏中设定设备。在坐标的栏中设定对应的设备的位置坐标。

在设置位置信息121中登录有关于麦克风38、39及传感器32的信息。麦克风38和39以及传感器32各自的位置坐标例如由图8所示的坐标系中的位置坐标表示。

以下，详细说明用户终端100的波束成型的过程。

图10是表示第1强化方向控制的过程的一例的流程图。以下，按照步骤编号说明图10所示的处理。

[步骤S101]强化方向决定部150设定成使波束成型有效。

[步骤S102]强化方向决定部150将强化方向设定为0[°]。另外，麦克风灵敏度设定部160将麦克风38、39的麦克风灵敏度设定为+24[dB]。

[步骤S103]传感器数据取得部130从传感器32获取用户21相对于传感器32的相对位置。

[步骤S104]位置计算部140基于在步骤S103中获取的用户21相对于传感器32的相对位置来计算用户21相对于基准点44的相对位置。例如，位置计算部140参照设置位置信息121，取得传感器32相对于基准点44的相对位置。然后，位置计算部140通过将用户21相对于传感器32的相对位置与传感器32相对于基准点44的相对位置相加来计算用户21相对于基准点44的相对位置。

[步骤S105]强化方向决定部150基于用户21相对于基准点44的相对位置，算出用户21的从基准点44起的方向。例如，强化方向决定部150使用式(2)来计算表示用户21的从基准点44起的方向的角度θ。

[步骤S106]强化方向决定部150判定用户21是否在麦克风可使用区域的范围内。麦克风可使用区域是由麦克风38和39的规格、设置有麦克风38和39的监视器31的形状所决定的区域，是麦克风38和39能够收集语音的区域。麦克风可使用区域的范围例如通过从基准点44起的角度或相对于基准点44的相对位置的坐标来预先设定。强化方向决定部150在判定为用户21处于麦克风可使用区域的范围内的情况下，使处理进入步骤S107。另外，强化方向决定部150在判定为用户21在麦克风可使用区域的范围之外时，使处理进到步骤S103。

[步骤S107]强化方向决定部150判定表示用户21的从基准点44起的方向的角度θ是否在±15[°]以内。强化方向决定部150在判定为θ在±15[°]以内的情况下，使处理进入步骤S109。另外，强化方向决定部150在判定为θ不在±15[°]以内的情况下，使处理进入步骤S108。

[步骤S108]强化方向决定部150将由角度θ表示的、用户21的从基准点44起的方向决定为强化方向。

[步骤S109]麦克风灵敏度设定部160判定用户21与基准点44的距离是否在80[cm]以上。例如，麦克风灵敏度设定部160使用式(4)来计算用户21与基准点44之间的距离。然后，麦克风灵敏度设定部160判定计算出的距离是否为80[cm]以上。在麦克风灵敏度设定部160判定为用户21与基准点44的距离在80[cm]以上的情况下，使处理进入步骤S110。另外，麦克风灵敏度设定部160在判定为用户21与基准点44的距离小于80[cm]的情况下，结束处理。

[步骤S110]麦克风灵敏度设定部160将麦克风38、39的麦克风灵敏度设定为+36[dB]。

这样，根据用户21相对于传感器32的相对位置，计算用户21的从基准点44起的角度θ，将角度θ所示的方向决定为强化方向。这里，来自某个声源的语音传到麦克风38和39的时间差(延迟时间)通过声源的从麦克风38和39的中点(基准点44)起的角度来决定。由于用户21的从基准点44起的角度θ被计算为用户21的方向，因此即使传感器32和麦克风38、39被远离地设置，也可以高精度地计算延迟时间。其结果，通过波束成型，容易强调用户21的语音。

另外，作为检测用户21的方向的其他方法，有计算用户21的语音到来的方向的方法。但是，在该方法中，在用户21说出话之前不决定强化方向。与此相对，用户终端100能够在用户21说出话之前就决定强化方向。

另外，在用户21距基准点44的距离为阈值(例如80[cm])以上的情况下，麦克风灵敏度被设定得较大(例如从+24[dB]变更为+36[dB])。因此，即使当用户21位于远处时，用户21的语音也易于被收集。有时，当以高麦克风灵敏度收集附近的语音时，可能发生语音破裂。因此，麦克风灵敏度设定部160在用户21距基准点44的距离为阈值以上的情况下，增大麦克风灵敏度。

图11是表示第1合成语音信号生成的过程的一例的流程图。以下，按照步骤编号说明图11所示的处理。

[步骤S121]语音信号取得部170从麦克风38、39获取语音信号。

[步骤S122]合成语音信号生成部180针对强化方向的语音，计算从麦克风38取得的语音信号相对于从麦克风39取得的语音信号的延迟时间。例如，合成语音信号生成部180使用式(1)来计算延迟时间δ。

[步骤S123]合成语音信号生成部180使从一个麦克风获取的语音信号延迟。例如，合成语音信号生成部180将从麦克风39获取的语音信号延迟在步骤S122中计算出的延迟时间δ。

步骤S124：合成语音信号生成部180生成合成语音信号。例如，合成语音信号生成部180对在步骤S123中延迟了延迟时间δ后的、从麦克风39获取的语音信号和从麦克风38获取的语音信号进行合成，生成合成语音信号。

这样，生成强调了来自强化方向θ的语音的合成语音信号。由此，在合成语音信号中强调用户21的语音。结果，用户终端100的语音辅助等通过软件使用合成语音信号，从而提高语音识别的精度。这里，强化方向θ不限于正面(0°)。因此，即使用户21不在屏幕的正面，也能够提高语音识别的精度。

(第3实施方式)

接着，对第3实施方式进行说明。第3实施方式将通过波束成型而具有指向性的方向设定为多个用户中的任意用户的方向。

图12是用于说明第3实施方式的概要的图。用户终端100a例如是能够通过语音辅助等软件进行语音操作的终端。当用户终端100a获取语音信号时，用户终端100a根据由所获取的语音信号表示的话语来执行处理。

用户22、23是位于用户终端100a的周围的用户。用户终端100a通过传感器检测用户22、23，进行波束成型的设定，使得在用户22、23所在的方向(人体存在的多个方向)中的、发出了规定的话语(唤醒词)的用户所在的方向上具有指向性。唤醒词是用于启动语音辅助的词。

例如，用户终端100a在周围检测到多个用户(用户22、23)的情况下，用户终端100a设定为不进行波束成型。由此，语音识别率不依赖于角度(对于全部角度的语音识别率为中等程度)。

这里，设用户23发出了唤醒词。于是，用户终端100a进行波束成型的设定，使得对于来自用户23所在的方向的语音具有指向性。由此，对于来自用户23所在的方向的语音的语音识别率变高，对于来自其他方向的语音的语音识别率变低。

用户终端100a与第2实施方式的用户终端100同样，通过图3的硬件结构来实现。以下，作为用户终端100a的硬件，使用与用户终端100的硬件相同的标号。

接着，详细说明用户终端100a的功能。图13是表示用户终端的其他功能例的框图。用户终端100a具有强化方向决定部150a来代替用户终端100的强化方向决定部150。用户终端100a除了用户终端100的功能以外，还具有声源方向计算部190。

强化方向决定部150a基于用户22、23各自相对于基准点的相对位置的坐标，计算出用户22、23各自的从基准点起的方向。强化方向决定部150a将从用户22、23各自的从基准点起的方向中的、与声源方向计算部190计算出的发出唤醒词的方向接近的方向决定为强化方向。声源方向计算部190根据语音信号取得部170获取的语音信号，计算发出唤醒词的方向。

接着，说明声源方向计算部190进行的发出唤醒词的方向的计算方法。

图14是表示计算声源的方向的方法的一例的图。声源方向计算部190根据来自声源45的语音传到麦克风38、39的时间差，计算声源45的方向。

麦克风38和39隔着距离d安装。在此，考虑语音的平面波从声源45到来的情况，该声源45位于相对于与连结麦克风38、39的直线垂直且通过麦克风38、39的中点的直线，向麦克风39侧倾斜角度φ的方向(φ方向)上。麦克风38将来自声源45的语音转换成语音信号46。此外，麦克风39将来自声源45的语音转换成语音信号47。

此时，语音信号46相对于语音信号47的延迟时间Δ通过将Δ代入式(1)的δ、将φ代入θ来计算。因此，角度φ由下式计算。

φ＝sin^-1(c·Δ/d) (5)

声源方向计算部190确定发出了唤醒词时的语音信号46和语音信号47的延迟时间Δ。然后，声源方向计算部190利用式(5)计算表示声源45的方向的角度φ。由此，声源方向计算部190能够计算发出唤醒词时的声源45的方向(即，发出唤醒词的用户所在的方向)。

以下，详细说明用户终端100a的波束成型的过程。另外，用户终端100a进行的合成语音信号的生成是与第2实施方式的用户终端100进行的合成语音信号的生成相同的处理。

图15是表示第2强化方向控制的过程的一例的流程图。下面，按照步骤编号说明图15所示的处理。

[步骤S131]麦克风灵敏度设定部160将麦克风38、39的麦克风灵敏度设定为+24[dB]。

[步骤S132]传感器数据取得部130从传感器32获取用户22和23各自相对于传感器32的相对位置。

[步骤S133]位置计算部140基于在步骤S132取得的用户22、23各自相对于传感器32的相对位置，计算用户22、23各自相对于基准点44的相对位置。例如，位置计算部140参照设置位置信息121，取得传感器32相对于基准点44的相对位置。然后，位置计算部140通过将用户22、23各自相对于传感器32的相对位置和传感器32相对于基准点44的相对位置相加，来计算用户22、23各自相对于基准点44的相对位置。

[步骤S134]强化方向决定部150a基于用户22、23各自相对于基准点44的相对位置，计算用户22、23各自的从基准点44起的方向。例如强化方向决定部150a使用式(2)计算出表示用户22、23各自的从基准点44起的方向的角度θ₁、θ₂。

[步骤S135]强化方向决定部150a判定是否已经利用唤醒词启动了语音辅助。在强化方向决定部150a判定为已经利用唤醒词启动了语音辅助的情况下，处理进入步骤S136。另一方面，在强化方向决定部150a判定为未利用唤醒词启动语音辅助的情况下，处理进入步骤S132。

[步骤S136]强化方向决定部150a将波束成型设定为有效。

[步骤S137]声源方向计算部190计算发出唤醒词的方向。例如，声源方向计算部190从语音信号取得部170取得表示唤醒词的、麦克风38、39各自的语音信号，确定延迟时间Δ。然后，声源方向计算部190使用式(5)计算表示发出唤醒词的方向的角度φ。

[步骤S138]强化方向决定部150a选择用户22、23中最接近于发出唤醒词的方向的用户。例如，强化方向决定部150a选择角度θ₁、θ₂中与角度φ之差小的一方所对应的用户(例如，角度θ₂所对应的用户23)。

[步骤S139]强化方向决定部150a将步骤S138中选择的用户的从基准点44起的方向决定为强化方向。例如，强化方向决定部150a将由角度θ₂表示的、用户23的从基准点44起的方向决定为强化方向。

[步骤S140]麦克风灵敏度设定部160判定用户23与基准点44的距离是否在80[cm]以上。例如，麦克风灵敏度设定部160使用式(4)来计算用户23与基准点44之间的距离。然后，麦克风灵敏度设定部160判定计算出的距离是否为80[cm]以上。麦克风灵敏度设定部160在判定为用户23与基准点44的距离为80[cm]以上的情况下，使处理进入步骤S141。另外，麦克风灵敏度设定部160在判定为用户23与基准点44的距离小于80[cm]的情况下，结束处理。

[步骤S141]麦克风灵敏度设定部160将麦克风38、39的麦克风灵敏度设定为+36[dB]。这样，多个用户中发出了唤醒词的用户的方向被决定为强化方向。即，使用用户终端100a的语音辅助的用户所在的方向被决定为强化方向。结果，即使有多个用户，也可以提高用户终端100a的语音辅助的语音识别精度。

在此，也可以考虑将声源方向计算部190计算出的角度φ作为发出了唤醒词的用户的方向而决定为强化方向的方法。然而，当麦克风的数量和设置位置受到限制时，有时角度φ的精度会降低。因此，从基于从传感器32获得的多个用户的位置坐标而计算的多个角度中选择接近角度φ的角度。由此，与将基于语音信号而计算出的声源的方向设定为强化方向相比，强化方向的设定精度提高。

(第4实施方式)

第4实施方式根据多个用户的位置来设定通过波束成型而具有指向性的方向。

图16是用于说明第4实施方式的概要的图。用户终端100b例如是能够通过语音辅助等软件进行语音操作的终端。当用户终端100b取得了语音信号时，进行与所取得的语音信号所表示的话语对应的处理。

用户24、25是对用户终端100b进行语音操作的用户。用户终端100b通过传感器检测用户24、25。并且，用户终端100b生成基于在用户24、25所在的方向(人体存在的多个方向)上分别具有指向性那样的设定的波束成型的合成语音信号。在用户终端100b进行波束成型的设定、使得对于来自用户24所在的方向的语音具有指向性的情况下，对于来自用户24所在的方向的语音的语音识别率变高，对于来自其他方向的语音的语音识别率变低。此外，在用户终端100b进行波束成形的设定、使得对于来自用户25所在的方向的语音具有指向性的情况下，对于来自用户25所在的方向的语音的语音识别率变高，对于来自其他方向的语音的语音识别率变低。

用户终端100b与第2实施方式的用户终端100同样地通过图3的硬件结构来实现。另外，用户终端100b与用户终端100同样地具有图5所示的功能。以下，作为用户终端100b的硬件，使用与用户终端100的硬件相同的标号，作为用户终端100b的功能，使用与用户终端100的功能相同的标号。

图17是表示第3强化方向控制的过程的一例的流程图。下面，按照步骤编号说明图17所示的处理。

[步骤S151]强化方向决定部150设定成使波束成型有效。

[步骤S152]强化方向决定部150将强化方向设置为0°。另外，麦克风灵敏度设定部160将麦克风38、39的麦克风灵敏度设定为+24[dB]。

[步骤S153]传感器数据取得部130从传感器32取得用户24、25各自相对于传感器32的相对位置。

[步骤S154]位置计算部140基于在步骤S153中获取的用户24、25各自相对于传感器32的相对位置，计算用户24、25各自相对于基准点44的相对位置。例如，位置计算部140参照设置位置信息121，取得传感器32相对于基准点44的相对位置。然后，位置计算部140通过将用户24、25各自相对于传感器32的相对位置和传感器32相对于基准点44的相对位置相加，来计算用户24、25各自相对于基准点44的相对位置。

[步骤S155]强化方向决定部150基于用户24、25各自相对于基准点44的相对位置，计算用户24、25各自的从基准点44起的方向。例如，强化方向决定部150使用式(2)来计算表示用户24、25各自的从基准点44起的方向的角度θ_a、θ_b。

[步骤S156]强化方向决定部150将由角度θ_a、θ_b表示的、用户24、25各自的从基准点44起的方向决定为强化方向。

[步骤S157]麦克风灵敏度设定部160判定在用户24、25中是否存在与基准点44相距80[cm]以上的用户。例如，麦克风灵敏度设定部160使用式(4)来计算用户24、25各自与基准点44之间的距离。然后，麦克风灵敏度设定部160判定计算出的距离是否为80[cm]以上。在麦克风灵敏度设定部160判定为在用户24、25中存在与基准点44相距80[cm]以上的用户的情况下，使处理进入步骤S158。另外，麦克风灵敏度设定部160在判定为用户24、25中不存在与基准点44相距80[cm]以上的用户的情况下，结束处理。

[步骤S158]麦克风灵敏度设定部160将麦克风38、39的麦克风灵敏度设定为+36[dB]。这样，多个用户各自所在的方向被决定为强化方向。另外，在多个用户中的任意一个用户距基准点44的距离为阈值以上的情况下，将麦克风灵敏度设定得较大。由此，位于远处的用户的语音容易被收音。

图18是表示第2合成语音信号生成过程的一个例子的流程图。下面，按照步骤编号说明图18所示的处理。

[步骤S161]语音信号取得部170从麦克风38、39获取语音信号。

[步骤S162]合成语音信号生成部180判定是否选择了所有强化方向。合成语音信号生成部180在判定为选择了全部的强化方向的情况下，结束处理。另外，合成语音信号生成部180在判定为剩余有未选择的强化方向的情况下，使处理进入步骤S163。

[步骤S163]合成语音信号生成部180选择一个未选择的强化方向。

[步骤S164]合成语音信号生成部180针对在步骤S163中选择的强化方向的语音，计算从麦克风38取得的语音信号相对于从麦克风39取得的语音信号的延迟时间。例如，合成语音信号生成部180使用式(1)来计算延迟时间δ。

[步骤S165]合成语音信号生成部180使从一个麦克风获取的语音信号延迟。例如，合成语音信号生成部180将从麦克风39获取的语音信号延迟在步骤S164中计算出的延迟时间δ。

[步骤S166]合成语音信号生成部180生成合成语音信号。例如，合成语音信号生成部180将在步骤S165中延迟了延迟时间δ后的从麦克风39获取的语音信号和从麦克风38获取的语音信号进行合成，生成合成语音信号。然后，合成语音信号生成部180将处理进行到步骤S162。

以这种方式，生成强化了来自多个强化方向中的各个强化方向的语音的多个合成语音信号。因此，利用合成语音信号中的任何一个来强调正在输入语音的用户的语音。其结果，用户终端100b的语音辅助等软件对所生成的多个合成语音信号分别进行语音识别处理，从而在对任意一个合成语音信号的语音识别中精度提高。

(其他实施方式)

在第2实施方式中，用户终端100的语音辅助等软件根据合成语音信号来执行处理，但也可以由服务器根据合成语音信号来执行处理。

图19是示出其他实施方式的系统结构例的图。用户终端100c通过传感器检测用户26，进行波束成型的设定，使得在用户26所在的方向上具有指向性。用户终端100c经由网络20与服务器200连接。用户终端100c将通过波束成型生成的合成语音信号发送到服务器200。

服务器200执行基于从用户终端100c取得的合成语音信号的处理。例如，服务器200分析合成语音信号，并且将由合成语音信号表示的话语送到用户终端100c。

以上例示了实施方式，但实施方式所示的各部分的结构可以置换为具有同样功能的其他结构。此外，也可以附加其它任意的构造物、工序。并且，本发明也可以是将上述的实施方式中的任意2个以上的结构(特征)进行组合而成的。

标号说明

1用户；2a、2b麦克风；3传感器；4a、4b语音信号；5传感器数据；6基准点；10信息处理装置；11存储部；11a、11b、11c设置位置；12处理部。

Claims

1.一种信息处理装置，其具有：

多个麦克风，其将语音转换成语音信号；

传感器，其检测一个以上的人体的所在，输出表示人体所存在的一个以上的方向的传感器数据；以及

处理部，其根据从所述传感器取得的所述传感器数据所表示的所述一个以上的方向来决定强化方向，根据从所述多个麦克风取得的多个语音信号，生成强调了来自所述强化方向的语音的合成语音信号。

2.根据权利要求1所述的信息处理装置，其中，

所述传感器数据中包含表示所述一个以上的人体相对于所述传感器的相对位置的一个以上的第1相对位置，

所述处理部根据所述多个麦克风各自的设置位置、所述传感器的设置位置和所述一个以上的第1相对位置，计算一个以上的第2相对位置，所述一个以上的第2相对位置表示所述一个以上的人体相对于基于所述多个麦克风各自的设置位置的规定基准点的相对位置，并且所述处理部计算从所述规定基准点到所述一个以上的第2相对位置的方向作为所述一个以上的方向。

3.根据权利要求1或2所述的信息处理装置，其中，

所述处理部将所述一个以上的方向中的一个方向决定为所述强化方向。

4.根据权利要求3所述的信息处理装置，其中，

所述处理部取得发出规定的话语的方向，将所述传感器数据所表示的人体所存在的多个方向中最接近发出所述规定的话语的方向的所述一个方向决定为所述强化方向。

5.根据权利要求1或2所述的信息处理装置，其中，

所述处理部将所述传感器数据所表示的人体所存在的多个方向分别决定为所述强化方向，生成强调了来自所述强化方向的语音的多个合成语音信号。

6.根据权利要求1所述的信息处理装置，其中，

所述传感器数据中包含表示所述一个以上的人体各自与所述传感器的距离的距离信息，

当所述一个以上的人体各自与所述传感器的距离中的任意一个距离在阈值以上时，所述处理部增大所述多个麦克风的麦克风灵敏度。

7.根据权利要求1所述的信息处理装置，其中，

所述信息处理装置还具有显示部，

所述多个麦克风被设置在与所述显示部的显示面平行的平面上。

8.一种记录介质，其存储有使计算机执行如下处理的程序：

根据由检测一个以上的人体的所在的传感器输出的、表示人体所存在的一个以上的方向的传感器数据，决定强化方向；以及

根据从多个麦克风取得的多个语音信号，生成强调了来自所述强化方向的语音的合成语音信号。