CN111556826A

CN111556826A - 声音识别装置、声音识别系统及声音识别方法

Info

Publication number: CN111556826A
Application number: CN201780097838.9A
Authority: CN
Inventors: 马场直哉; 武井匠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2020-08-18
Also published as: DE112017008305T5; WO2019130399A1; JPWO2019130399A1; US20200411012A1

Abstract

本发明的声音识别装置(100)包括：声音识别部(14)，该声音识别部(14)针对就座于车辆(1)的声音识别对象座位的多位乘客中的发话者的操作输入用的发话声音执行声音识别；发话者确定部(15)，该发话者确定部(15)执行对发话者个人进行确定的个人确定处理或对发话者就座的座位进行确定的座位确定处理中的至少一个；以及响应方式设定部(17)，该响应方式设定部(17)执行根据发话者确定部(15)的确定结果来设定针对发话者的响应方式的响应方式设定处理，响应方式设定处理为将响应方式设定成多位乘客各自可识别响应是否是针对自己本身的响应的方式的处理。

Description

声音识别装置、声音识别系统及声音识别方法

技术领域

本发明涉及声音识别装置、声音识别系统及声音识别方法。

背景技术

以往，开发了针对车辆内的信息设备的操作输入用的声音识别装置。下面，将成为车辆的声音识别对象的座位称为“声音识别对象座位”。另外，将就座于声音识别对象座位的乘客中的发出操作输入用的声音的乘客称为“发话者”。另外，将由发话者发出的操作输入用的声音称为“发话声音”。

专利文献1中，公开了对声音识别对象座位即驾驶座及副驾驶座中的发话者就座的座位进行确定的技术。由此，实现了在多位乘客就座于声音识别对象座位的情况下的适当的操作输入。

现有技术文献

专利文献

专利文献1：

日本专利特开平11-65587号公报

发明内容

发明所要解决的技术问题

近年来，开发了与所谓的“对话型”UI(User Interface：用户界面)对应的声音识别装置。即，开发了一种UI，该UI除了通过执行针对发话声音的声音识别来接受操作输入以外，还使扬声器输出针对该发话声音的响应用的声音(下面称为“响应用声音”)，或使显示器显示针对该发话声音的响应用的图像(下面称为“响应用图像”)。下面，有时将对话型UI中的响应用声音及响应用图像等简单统称为“响应”。

与对话型UI对应的声音识别装置中，在多位乘客就座于声音识别对象座位的情况下，输出针对该多位乘客中的发话者的响应。此时，存在该多位乘客各自难以识别响应是否是针对自己本身的响应的问题。尤其是，存在当大致同时输出了针对多位发话者的响应的情况下识别更加困难的问题。

本发明是为了解决上述那样的问题而完成的，其目的在于对就座于声音识别对象座位的多位乘客分别通知对话型UI中的响应是否是针对自己本身的响应。

解决技术问题所采用的技术方案

本发明的声音识别装置的特征在于，包括：声音识别部，该声音识别部针对就座于车辆的声音识别对象座位的多位乘客中的发话者的操作输入用的发话声音执行声音识别；发话者确定部，该发话者确定部执行对发话者个人进行确定的个人确定处理或对发话者就座的座位进行确定的座位确定处理中的至少一个；以及响应方式设定部，该响应方式设定部执行根据发话者确定部的确定结果来设定针对发话者的响应方式的响应方式设定处理，响应方式设定处理为将响应方式设定成多位乘客各自可识别响应是否是针对自己本身的响应的方式的处理。

发明效果

根据本发明，由于采用如上所述的构成，因此，能对就座于声音识别对象座位的多位乘客分别通知对话型UI中的响应是否是针对自己本身的响应。

附图说明

图1是示出本发明实施方式1所涉及的声音识别装置设置于车辆内的信息设备的状态的框图。

图2是示出显示装置显示了响应用图像的状态的说明图。

图3是示出显示装置显示了其他响应用图像的状态的说明图。

图4A是示出设置了本发明实施方式1所涉及的声音识别装置的信息设备的硬件结构的框图。图4B是示出设置了本发明实施方式1所涉及的声音识别装置的信息设备的其他硬件结构的框图。

图5是示出设置了本发明实施方式1所涉及的声音识别装置的信息设备的动作的流程图。

图6是示出本发明实施方式1所涉及的声音识别装置中的声音识别部的详细动作的流程图。

图7是示出本发明实施方式1所涉及的声音识别系统的主要部分的框图。

图8是示出本发明实施方式2所涉及的声音识别装置设置于车辆内的信息设备的状态的框图。

图9是示出本发明实施方式2所涉及的声音识别装置中的乘客确定部的动作的流程图。

图10是示出本发明实施方式2所涉及的声音识别装置中的乘客确定部的详细动作的流程图。

图11是示出设置了本发明实施方式2所涉及的声音识别装置的信息设备中除乘客确定部以外的部分的动作的流程图。

图12是示出本发明实施方式2所涉及的声音识别装置中的声音识别部的详细动作的流程图。

图13是示出本发明实施方式2所涉及的其它声音识别装置设置于车辆内的信息设备的状态的框图。

图14是示出本发明实施方式2所涉及的其它声音识别装置设置于车辆内的信息设备的状态的框图。

图15是示出本发明实施方式2所涉及的声音识别系统的主要部分的框图。

具体实施方式

下面，为了对本发明进行更加详细的说明，根据附图对用于实施本发明的方式进行说明。

实施方式1.

图1是示出本发明实施方式1所涉及的声音识别装置设置于车辆内的信息设备的状态的框图。参照图1，以将实施方式1的声音识别装置100设置于车辆1内的信息设备2的示例为中心来进行说明。

图中，3为集音装置。集音装置3例如由设置于车辆1的车厢内前方部的N个麦克风3₁～3_N构成(N为2以上的整数)。更具体而言，例如，麦克风3₁～3_N分别由无指向性麦克风构成，并由以固定间隔排列的麦克风3₁～3_N构成阵列麦克风。集音装置3输出与由麦克风3₁～3_N集音后得到的声音对应的信号(下面称为“声音信号”)S₁～S_N。即，声音信号S₁～S_N与麦克风3₁～3_N一一对应。

声音信号获取部11获取由集音装置3所输出的声音信号S₁～S_N。声音信号获取部11例如通过PCM(Pulse Code Modulation：脉冲编码调制)来执行针对声音信号S₁～S_N的模数转换(下面称为“A/D转换”)。声音信号获取部11将A/D转换后的声音信号S₁'～S_N'输出给声音信号处理部12。

声音信号处理部12推测针对集音装置3的发话声音的输入方向(下面称为“发话方向”)。具体而言，例如，集音装置3配置于车辆1的车厢内前方部中相对于车辆1的左右方向的中心部。下面，将通过集音装置3的配置位置且与车辆1的前后方向平行的轴称为“中心轴”。声音信号处理部12基于声音信号S₁'～S_N'间的功率差分值或声音信号S₁'～S_N'间的相位差等，推定由相对于以集音装置3的配置位置为基准的中心轴的左右方向的角度θ所表示的发话方向。

另外，声音信号处理部12通过去除声音信号S₁'～S_N'中与从该推测出的发话方向不同的方向输入到集音装置3的声音所对应的分量，从而去除与发话声音不同的声音所对应的分量(下面称为“噪声分量”)。声音信号处理部12将去除了噪声分量的声音信号S₁”～S_M”输出给声音识别处理部13。另外，M为N以下的整数，例如为与声音识别对象座位的座位数对应的值。

噪声分量例如包含因车辆1的行驶而产生出的噪声所对应的分量、及由车辆1的乘客中与发话者不同的乘客发出的声音所对应的分量(即通过乘客间的会话等而产生出的与非操作输入用的声音对应的分量)等。对于声音信号处理部12中的噪声分量的去除，能使用射束成形法、二进制掩蔽法(abinary maskingmethod)或谱减法等公知的各种方法。因此，关于声音信号处理部12中的噪声分量的去除，省略其详细说明。

声音识别处理部13检测声音信号S₁”～S_M”中与发话声音对应的声音区间(下面称为“发话区间”)。声音识别处理部13从发话区间内的声音信号S₁”～S_M”中提取声音识别处理用的特征量(下面称为“第1特征量”)。声音识别处理部13使用第1特征量来执行声音识别处理。

对于声音识别处理部13中的声音识别处理，能使用HMM(Hidden Markov Model：隐式马尔克夫模型)法等公知的各种方法。因此，关于声音识别处理部13中的声音识别处理，省略其详细说明。

另外，声音识别处理部13从发话区间内的声音信号S₁”～S_M”中提取对发话者个人进行确定的处理(下面称为“个人确定处理”)用的特征量(下面称为“第2特征量”)。

由声音信号获取部11、声音信号处理部12及声音识别处理部13构成声音识别部14。即，声音识别部14执行针对发话声音的声音识别。

另外，在发话者为1位的情况下，声音识别部14执行针对该1位发话者的发话声音的声音识别。另一方面，在发话者为多位的情况下，声音识别部14执行针对该多位发话者各自的发话声音的声音识别。

发话者确定部15使用由声音识别处理部13提取出的第2特征量来执行个人确定处理。

具体而言，例如，发话者确定部15预先存储有包含与第2特征量对应的多位的特征量在内的数据库。发话者确定部15通过将由声音识别处理部13提取出的第2特征量与该多位的特征量分别进行比较，从而确定发话者个人。

或者，发话者确定部15基于由声音信号处理部12推测出的发话方向，执行对声音识别对象座位中的发话者就座的座位进行确定的处理(下面称为“座位确定处理”)。

具体而言，例如，预先测量有示出相对于以集音装置3的配置位置为基准的中心轴的各声音识别对象座位的位置的角度(下面称为“实际角度”)φ，并将各声音识别对象座位的实际角度φ预先存储于发话者确定部15。发话者确定部15通过将由声音信号处理部12推测出的发话方向示出的角度θ与各声音识别对象座位所对应的实际角度φ进行比较，来确定发话者就座的座位。

作为一个示例，设车辆1的驾驶座及副驾驶座为声音识别对象座位，将与驾驶座对应的实际角度φ即+20°及与副驾驶座对应的实际角度φ即-20°预先存储于发话者确定部15。该情况下，当由声音信号处理部12推定出的发话方向示出的角度θ为+18°时，发话者确定部15确定发话者就座的座位为驾驶座。

或者，发话者确定部15执行个人确定处理及座位确定处理这两者。

另外，发话者为1位的情况下，个人确定处理成为对该1位发话者个人进行确定的处理，座位确定处理成为对该1位发话者就座的座位进行确定的处理。另一方面，发话者为多位的情况下，个人确定处理成为对该多位发话者的每个人进行确定的处理，座位确定处理成为对该多位发话者各自就座的座位进行确定的处理。

另外，在发话者确定部15仅执行个人确定处理的情况下，不需要图1所示的声音信号处理部12与发话者确定部15之间的连接线。另外，在发话者确定部15仅执行座位确定处理的情况下，不需要利用声音识别处理部13提取第2特征点，并且，不需要图1所示的声音识别处理部13与发话者确定部15的连接线。

响应内容设定部16执行设定针对发话声音的响应的内容(下面称为“响应内容”)的处理(下面称为“响应内容设定处理”)。响应方式设定部17执行设定针对发话声音的响应的方式(下面称为“响应方式”)的处理(下面称为“响应方式设定处理”)。响应输出控制部18基于由响应内容设定部16所设定的响应内容及由响应方式设定部17所设定的响应方式，执行输出针对发话声音的响应的控制(下面称为“响应输出控制”)。

具体而言，例如，响应方式设定部17设定响应用声音的输出方式。响应输出控制部18通过所谓的“声音合成”，基于由响应方式设定部17所设定的输出方式来生成响应用声音。响应输出控制部18执行使声音输出装置4输出该生成得到的响应用声音的控制。声音输出装置4例如由多个扬声器构成。

对于响应输出控制部18中的声音合成，能使用公知的各种方法。因此，关于响应输出控制部18中的声音合成，省略其详细说明。

另外，例如，响应方式设定部17设定响应用图像的显示方式。响应输出控制部18基于由响应方式设定部17所设定的显示方式来生成响应用图像。响应输出控制部18执行使显示装置5显示该生成得到的响应用图像的控制。显示装置5例如由液晶显示器或有机EL(Electro Luminescence:电致发光)显示器等显示器构成。

另外，在发话者为1位的情况下，响应内容设定处理成为设定针对该1位发话者的响应的内容的处理，响应内容方式设定处理成为设定针对该1位发话者的响应的方式的处理，响应输出控制成为输出针对该1位发话者的响应的控制。另一方面，在发话者为多位的情况下，响应内容设定处理成为设定针对该多位发话者各自的响应的内容的处理，响应内容方式设定处理成为设定针对该多位发话者各自的响应的方式的处理，响应输出控制成为输出针对该多位发话者各自的响应的控制。

下面，对响应内容设定处理、响应方式设定处理及响应输出控制的具体例进行说明。

＜响应内容设定处理的具体例＞

响应内容设定部16获取声音识别处理部13所进行的声音识别处理的结果。响应内容设定部16选择预先存储的多个响应文中与声音识别处理结果对应的响应文。此时，可以基于声音识别处理的结果与预先存储的多个响应文之间的对应关系所相关的规定规则来选择，也可以基于使用了大量的对话文例的机械学习的结果的统计模型来选择。

另外，响应内容设定部16可以从所谓的“云”获取天气信息或调度信息等，生成包含这些信息在内的响应文。

＜响应方式设定处理及响应输出控制的第1具体例＞

响应方式设定部17获取发话者确定部15所进行的个人确定处理的结果。另外，响应方式设定部17获取由响应内容设定部16所选择得到或生成得到的响应文(下面称为“输出用响应文”)。响应方式设定部17基于个人确定处理的结果示出的发话者的姓名等，将针对发话者的称呼附加给输出用响应文。响应输出控制部18生成与包含该称呼在内的输出用响应文对应的响应用声音或响应用图像。

例如，针对就座于驾驶座的发话者的“检索迂回路径。”的发话声音，设为个人确定处理的结果示出该发话者的姓名“A”，响应内容设定部16选择了“检索出迂回路径。进行导航。”这样的输出用响应文。该情况下，响应方式设定部17通过将称呼附加给由响应内容设定部16所选择出的输出用响应文的头部，从而生成“A先生，检索出迂回路径。进行导航。”这样的输出用响应文。响应输出控制部18生成与由响应方式设定部17生成得到的输出用响应文对应的响应用声音或响应用图像。图2示出该情况下的响应用图像I的一个示例。

或者，例如，针对就座于驾驶座的发话者的“告知今天的行程。”这样的发话声音，设为个人确定处理的结果示出该发话者的姓名“A”，响应内容设定部16使用调度信息生成了“今天从14点有牙医的预约。”这样的输出用响应文。另外，针对就座于副驾驶座的发话者的“也告知我的行程。”这样的发话声音，设为个人确定处理的结果示出该发话者的姓名“B”，响应内容设定部16使用调度信息生成了“今天从17点与朋友有聚会。”这样的输出用响应文。

该情况下，响应方式设定部17通过将称呼附加给由响应内容设定部16生成得到的各输出用响应文的头部，从而生成“A先生，今天从14点有牙医的预约。”这样的输出用响应文和“B先生，今天从17点与朋友有聚会。”这样的输出用响应文。响应输出控制部18生成与这些输出用响应文分别对应的响应用声音或响应用图像。

或者，响应方式设定部17获取发话者确定部15所进行的座位确定处理的结果。另外，响应方式设定部17获取由响应内容设定部16所选择得到或生成得到的输出用响应文。响应方式设定部17基于座位确定处理的结果示出的座位名称等，将针对发话者的称呼附加给输出用响应文。响应输出控制部18生成与包含该称呼在内的输出用响应文对应的响应用声音或响应用图像。

例如，针对就座于驾驶座的发话者的“告知附近的停车场。”这样的发话声音，设为座位确定处理的结果示出“驾驶座”，响应内容设定部16生成了“发现了3处附近的停车场。”这样的输出用响应文。另外，针对就座于副驾驶座的发话者的“想听音乐。”这样的发话声音，座位确定处理的结果示出“副驾驶座”，响应内容设定部16选择了“搜索哪种类型的音乐？”这样的输出用响应文。

该情况下，响应方式设定部17通过将称呼附加给由响应内容设定部16生成得到或选择得到的各输出用响应文的头部，从而生成“驾驶员，发现了3处附近的停车场。”这样的输出用响应文和“副驾驶员，搜索哪种类型的音乐？”这样的输出用响应文。响应输出控制部18生成与这些输出用响应文分别对应的响应用声音或响应用图像。

＜响应方式设定处理及响应输出控制的第2具体例＞

响应方式设定部17获取发话者确定部15所进行的个人确定处理的结果。响应输出控制部18中的声音合成从多位叙述者(narrator)中自由选择响应用声音的叙述者。响应方式设定部17根据个人确定处理的结果示出的发话者，将响应用声音的叙述者设定成不同的叙述者。

或者，响应方式设定部17获取发话者确定部15所进行的座位确定处理的结果。响应输出控制部18中的声音合成从多位叙述者中自由选择响应用声音的叙述者。响应方式设定部17根据座位确定处理的结果示出的座位，将响应用声音的叙述者设定成不同的叙述者。

＜响应方式设定处理及响应输出控制的第3具体例＞

响应方式设定部17获取发话者确定部15所进行的座位确定处理的结果。响应方式设定部17根据座位确定处理的结果示出的座位的位置，设定包含于声音输出装置4的多个扬声器中用于响应用声音的输出的扬声器。响应输出控制部18控制成从由响应方式设定部17所设定的扬声器输出响应用声音。

例如，设声音输出装置4由左右一对的前侧扬声器构成，座位确定处理的结果示出了“驾驶座”。该情况下，响应方式设定部17将前侧扬声器中的驾驶座侧的扬声器设定为用于响应用声音的输出的扬声器。响应输出控制部18控制成从前侧扬声器中的驾驶座侧的扬声器输出响应用声音。

同样地，设声音输出装置4由左右一对的前侧扬声器构成，座位确定处理的结果示出了“副驾驶座”。该情况下，响应方式设定部17将前侧扬声器中的副驾驶座侧的扬声器设定为用于响应用声音的输出的扬声器。响应输出控制部18控制成从前侧扬声器中的副驾驶座侧的扬声器输出响应用声音。

＜响应方式设定处理及响应输出控制的第4具体例＞

响应方式设定部17获取发话者确定部15所进行的座位确定处理的结果。响应输出控制部18具有在输出响应用声音时控制车辆1的车厢内的声场的功能。响应方式设定部17根据座位确定处理的结果示出的座位的位置，设定输出响应用声音时的声场。响应输出控制部18使声音输出装置4输出响应用声音，以在车辆1的车厢内形成由响应方式设定部17所设定的声场。

例如，设为座位确定处理的结果示出了“驾驶座”。该情况下，响应方式设定部17以驾驶座的响应用声音的音量比其它座位的响应用声音的音量要大的方式设定声场。响应输出控制部18使声音输出装置4输出响应用声音，以在车辆1的车厢内形成所施加的声场。

同样地，设为座位确定处理的结果示出了“副驾驶座”。该情况下，响应方式设定部17以副驾驶座的响应用声音的音量比其它座位的响应用声音的音量要大的方式设定声场。响应输出控制部18使声音输出装置4输出响应用声音，以在车辆1的车厢内形成所施加的声场。

＜响应方式设定处理及响应输出控制的第5具体例＞

响应方式设定部17获取发话者确定部15所进行的座位确定处理的结果。响应方式设定部17根据座位确定处理的结果示出的座位的位置，设定显示装置5的显示区域中显示响应用图像的部分。响应输出控制部18使响应用图像显示于由响应方式设定部17所设定的部分。

例如，针对就座于驾驶座的发话者的“告知今天的行程。”这样的发话声音，设响应内容设定部16使用行程信息生成了“今天从14点有牙医的预约。”这样的输出用响应文。另外，针对就座于副驾驶座的发话者的“也告知我的行程。”这样的发话声音，设响应内容设定部16使用行程信息生成了“今天从17点与朋友有聚会。”这样的输出用响应文。

该情况下，响应方式设定部17将针对就座于驾驶座的发话者的与输出用响应文对应的响应用图像设定成在显示装置5的显示区域中驾驶座侧的一半部分显示。另外，响应方式设定部17将针对就座于副驾驶座的发话者的与输出用响应文对应的响应用图像设定成在显示装置5的显示区域中驾驶座侧的一半部分显示。图3示出该情况下的响应用图像I₁、I₂的一个示例。

响应方式设定部17执行第1具体例～第5具体例中的至少一个所进行的响应方式设定处理。由此，就座于声音识别对象座位的多位乘客分别能较容易地识别响应是否是针对自己本身的响应。尤其是，当大致同时输出了针对多位发话者的响应时，该多位发话者分别能较容易地识别这些响应是否是针对自己本身的响应。

另外，在响应方式设定部17执行第1具体例所进行的响应方式设定处理的情况下，将包含称呼在内的输出用响应文从响应方式设定部17输出给响应输出控制部18。另一方面，在响应方式设定部17不执行第1具体例所进行的响应方式设定处理的情况下，将由响应内容设定部16所选择得到或生成得到的输出用响应文从响应内容设定部16输出给响应输出控制部18。另外，第2具体例～第5具体例对响应方式设定处理均未使用输出用响应文。

因此，在响应方式设定部17执行第1具体例所进行的响应方式设定处理的情况下，不需要图1所示的响应内容设定部16和响应输出控制部18之间的连接线。另一方面，在响应方式设定部17不执行第1具体例所进行的响应方式设定处理的情况(即响应方式设定部17仅执行第2具体例～第5具体例中的至少一例所进行的响应方式设定处理的情况)下，不需要图1所示的响应内容设定部16与响应方式设定部17之间的连接线。

由声音识别部14、发话者确定部15及响应方式设定部17构成声音识别装置100的主要部分。由声音识别装置100、响应内容设定部16及响应输出控制部18构成信息设备2的主要部分。

信息设备2例如由搭载于车辆1的车载导航装置、汽车音响装置或显示器音响装置等车载信息设备构成。或者，例如信息设备2由携带至车辆1的智能手机、平板PC(personalcomputer：个人电脑)或PND(Portable Navigation Device：便携式导航设备)等移动信息终端构成。

接着，参照图4，对信息设备2的主要部分的硬件结构进行说明。

如图4A所示，信息设备2由计算机构成，具有处理器21及存储器22。存储器22存储有用于使该计算机起到声音识别部14、发话者确定部15、响应内容设定部16、响应方式设定部17及响应输出控制部18的作用的程序。通过由处理器21读取存储于存储器22的程序并执行，从而实现声音识别部14、发话者确定部15、响应内容设定部16、响应方式设定部17及响应输出控制部18的功能。

处理器21例如使用CPU(Central Processing Unit：中央处理单元)、GPU(Graphics Processing Unit：图形处理器)、微处理器、微控制器或DSP(Digital SignalProcessor：数字信号处理器)等。存储器22例如使用RAM(Random Access Memory：随机存取存储器)、ROM(Read Only Memory：只读存储器)、闪存、EPROM(Erasable ProgrammableRead Only Memory：可擦除可编程只读存储器)或EEPROM(Electrically ErasableProgrammable Read-Only Memory：电可擦除可编程只读存储器)等半导体存储器、磁盘、光盘或光磁盘等。

或者，如图4B所示，声音识别部14、发话者确定部15、响应内容设定部16、响应方式设定部17及响应输出控制部18的功能也可以由专用的处理电路23来实现。处理电路23例如使用ASIC(Application Specific Integrated Circuit：专用集成电路)、PLD(Programmabel Logic Device：可编程逻辑器件)、FPGA(Field-Programmable GateArray：现场可编程门阵列)、SoC(System-on-a-Chip：系统级芯片)或系统LSI(Large-ScaleIntegration：大规模集成化)等。

或者，声音识别部14、发话者确定部15、响应内容设定部16、响应方式设定部17及响应输出控制部18中的一部分功能可以由处理器21及存储器22来实现，并且剩余的功能可以由处理电路23来实现。

接着，参照图5及图6的流程图，对信息设备2的动作进行说明。另外，图6所示的步骤ST11～ST17示出了图5所示的步骤ST1内的详细的处理内容。

首先，在步骤ST1中，声音识别部14执行针对发话声音的声音识别。

即，在步骤ST11中，声音信号获取部11获取由集音装置3所输出的声音信号S₁～S_N。声音信号获取部11执行针对声音信号S₁～S_N的A/D转换。声音信号获取部11将A/D转换后的声音信号S₁'～S_N'输出给声音信号处理部12。

接着，在步骤ST12中，声音信号处理部12基于声音信号S₁'～S_N'间的功率差分值或声音信号S₁'～S_N'间的相位差等，来推测针对集音装置3的发话声音的输入方向即发话方向。

接着，在步骤ST13中，声音信号处理部12基于在步骤ST12中所推测出的发话方向，来去除声音信号S₁'～S_N'中与发话声音不同的声音所对应的分量、即噪声分量。声音信号处理部12将去除了噪声分量的声音信号S₁”～S_M”输出给声音识别处理部13。

接着，在步骤ST14，声音识别处理部13检测声音信号S₁”～S_M”中的与发话声音对应的声音区间、即发话区间。

接着，在步骤ST15，声音识别处理部13从发话区间内的声音信号S₁”～S_M”中提取声音识别处理用的第1特征量。接着，在步骤ST16，声音识别处理部13使用第1特征量来执行声音识别处理。

另外，在发话者确定部15执行个人确定处理的情况下，接着步骤ST14，在步骤ST17中，声音识别处理部13从发话区间内的声音信号S₁”～S_M”中提取个人确定处理用的第2特征量。另外，在发话者确定部15不执行个人确定处理的情况(即发话者确定部15仅执行座位确定处理的情况)下，不需要步骤ST17的处理。

接着步骤ST1，在步骤ST2中，发话者确定部15执行个人确定处理或座位确定处理中的至少一个。个人确定处理的具体例及座位确定处理的具体例已如上说明，因此省略再次的说明。

接着，在步骤ST3，响应内容设定部16执行响应内容设定处理。响应内容设定处理的具体例已如上说明，因此省略再次的说明。

接着，在步骤ST4中，响应方式设定部17执行响应方式设定处理。响应方式设定处理的具体例已如上说明，因此省略再次的说明。

接着，在步骤ST5，响应输出控制部18执行响应输出控制。响应输出控制的具体例已如上说明，因此省略再次的说明。

另外，集音装置3并不限定于由多个无指向性麦克风构成的阵列麦克风。例如，可以在针对各声音识别对象座位的前方部设置至少一个指向性麦克风，并由这些指向性麦克风构成集音装置3。该情况下，在声音信号处理部12中，不需要推测发话方向的处理及基于该推测出的发话方向来去除噪声分量的处理。另外，座位确定处理例如成为确定发话者就座于与指向性麦克风对应的座位的处理，该指向性麦克风输出包含与发话声音对应的分量在内的声音信号。

另外，响应方式设定处理可以以就座于声音识别对象座位的多位乘客各自能识别响应是否是针对自己本身的响应的方式来设定响应方式，并不限定于第1具体例～第5具体例。另外，响应方式设定处理并不限定于设定响应用声音的输出方式的处理或设定响应用图像的显示方式的处理。

例如，可以在针对各声音识别对象座位的前方部设置LED(Light EmittingDiode：发光二极管)等发光元件，响应方式设定部17基于座位确定处理的结果，将这些发光元件中设置于针对发话者就座的座位的前方部的发光元件设定为点亮对象。响应输出控制部18可以执行使由响应方式设定部17设定为点亮对象的发光元件点亮的控制。

另外，例如在发话者为多位的情况下，响应方式设定部17可以仅针对该多位发话者中的一部分发话者设定响应的方式。响应输出控制部18可以执行基于由响应方式设定部17所设定的响应方式来输出针对该多位发话者中的一部分发话者的响应的控制，另一方面，也可以执行基于初始设定的响应方式来输出针对该多位发话者中剩余的发话者的响应的控制。即，响应方式设定处理可以针对该多位发话者中的至少1位发话者来设定响应的方式。

另外，声音识别处理部13可以在检测发话区间时，检测各发话声音的起点。在检测出第1位发话者(下面称为“第1发话者”)的发话声音的起点时，仅在针对第1发话者的响应的输出开始之前检测出第2位发话者(下面称为“第2发话者”)的发话声音的起点的情况下，响应方式设定部17可以执行响应方式设定处理。其它情况下，响应方式设定部17可以不执行响应方式设定处理，响应输出控制部18可以执行基于初始设定的响应方式来输出响应的控制。

另外，上述情况中，在针对第1发话者的响应方式的设定赶不上针对第1发话者的响应的输出开始的情况(例如，在针对第1发话者的响应的输出开始之前检测出第2发话者的发话声音的起点的情况)下，响应方式设定部17可以不执行针对第1发话者的响应方式设定处理，而仅执行针对第2发话者的响应方式设定处理。该情况下，针对第1发话者的响应可以由初始设定的响应方式来输出。

或者，在检测出第1发话者的发话声音的起点之后，仅在规定时间(下面称为“基准时间”)经过之前检测出第2发话者的发话声音的起点的情况下，响应方式设定部17可以执行响应方式设定处理。其它情况下，响应方式设定部17可以不执行响应方式设定处理，响应输出控制部18可以执行基于初始设定的响应方式来输出响应的控制。基准时间例如为与各发话声音的发话时间的实测值的统计值(例如平均值)对应的值，并预先存储于响应方式设定部17。

即，在仅输入了1位发话者的发话声音的情况下，仅输出针对该1位发话者的响应。另外，在时间上不重复地输入了多位发话者的发话声音的情况下，在时间上也不重复地输出针对该1位发话者的响应。该情况下，即使不执行响应方式设定处理，响应是针对谁的响应是明确的。该情况下通过取消响应方式设定处理，能降低信息设备2的处理负荷。另外，该情况下，例如通过取消第1具体例的响应方式设定处理，从而能抑制响应用声音或响应用图像中所包含的称呼给发话者带来烦恼的情况。

另外，如图7所示，可以在车辆1的外部设置与信息设备2自由通信的服务器装置6，并可以在该服务器装置6设置声音识别处理部13。即，可以通过设置于信息设备2的声音信号获取部11、声音信号处理部12、发话者确定部15及响应方式设定部17与设置于服务器装置6的声音识别处理部13，来构成声音识别系统200的主要部分。由此，能提高声音识别处理部13中的声音识别处理的精度。

另外，声音识别系统200的系统构成并不限定于图7所示的示例。即，声音信号获取部11、声音信号处理部12、声音识别处理部13、发话者确定部15、响应内容设定部16、响应方式设定部17及响应输出控制部18可以分别设置于自由搭载于车辆1的车载信息设备、自由携带至车辆1的移动信息终端、或与该车载信息设备或该移动信息终端自由通信的服务器装置中的任意一个中。可以通过该车载信息设备、该移动信息终端或该服务器装置中的任意两个以上联动，来实现声音识别系统200。

如上所述，本实施方式1的声音识别装置100包括：声音识别部14，该声音识别部14针对就座于车辆1的声音识别对象座位的多位乘客中的发话者的操作输入用的发话声音来执行声音识别；发话者确定部15，该发话者确定部15执行对发话者个人进行确定的个人确定处理或对发话者就座的座位进行确定的座位确定处理中的至少一个；以及响应方式设定部17，该响应方式设定部17执行根据发话者确定部15的确定结果来设定针对发话者的响应的方式(响应方式)的响应方式设定处理，响应方式设定处理为将响应的方式(响应方式)设定成多位乘客分别可识别响应是否是针对自己本身的响应的方式的处理。由此，就座于声音识别对象座位的多位乘客各自能较容易地识别响应是否是针对自己本身的响应。尤其是，当大致同时输出了针对多位发话者的响应时，该多位发话者各自能较容易地识别这些响应是否是针对自己本身的响应。

另外，在检测出多位发话者中第1发话者的发话声音的起点之后，在基准时间经过之前检测出多位发话者中第2发话者的发话声音的起点的情况下，响应方式设定部17执行响应方式设定处理。由此，能降低处理负担，并且，能降低带给发话者的烦恼。

另外，在检测出多位发话者中第1发话者的发话声音的起点之后，在针对第1发话者的响应的输出开始之前检测出多位发话者中第2发话者的发话声音的起点的情况下，响应方式设定部17执行响应方式设定处理。由此，能降低处理负担，并且，能降低带给发话者的烦恼。

另外，发话者确定部15使用由声音识别部14提取出的特征量(第2特征量)来执行个人确定处理。由此，可以不需要个人确定处理用的专用的摄像头或传感器类。

另外，响应方式设定处理为将基于发话者确定部15的确定结果的称呼包含于响应中的处理。通过第1具体例，能实现多位发话者各自可较容易地识别响应是否是针对自己本身的响应的响应方式。

另外，响应方式设定处理为根据发话者确定部15的确定结果来变更响应用的声音(响应用声音)的叙述者的处理。通过第2具体例，能实现多位发话者各自可较容易地识别响应是否是针对自己本身的响应的响应方式。

另外，响应方式设定处理为根据座位确定处理的结果示出的座位的位置来变更输出响应用的声音(响应用声音)的扬声器的处理，或为根据座位确定处理的结果示出的座位的位置来变更输出响应用的声音(响应用声音)时的声场的处理。通过第3具体例或第4具体例，能实现多位发话者各自可较容易地识别响应是否是针对自己本身的响应的响应方式。

另外，实施方式1的声音识别系统200包括：声音识别部14，该声音识别部14针对就座于车辆1的声音识别对象座位的多位乘客中的发话者的操作输入用的发话声音来执行声音识别；发话者确定部15，该发话者确定部15执行对发话者个人进行确定的个人确定处理或对发话者就座的座位进行确定的座位确定处理中的至少一个；以及响应方式设定部17，该响应方式设定部17执行根据发话者确定部15的确定结果来设定针对发话者的响应的方式(响应方式)的响应方式设定处理，响应方式设定处理为将响应的方式(响应方式)设定成多位乘客各自可识别响应是否是针对自己本身的响应的方式的处理。由此，能获得与声音识别装置100的上述效果同样的效果。

另外，实施方式1的声音识别方法包括：声音识别部14针对就座于车辆1的声音识别对象座位的多位乘客中的发话者的操作输入用的发话声音来执行声音识别的步骤ST1；发话者确定部15执行对发话者个人进行确定的个人确定处理或对发话者就座的座位进行确定的座位确定处理中的至少一个的步骤ST2；及响应方式设定部17执行根据发话者确定部15的确定结果来设定针对发话者的响应的方式(响应方式)的响应方式设定处理的步骤ST4，响应方式设定处理为将响应的方式(响应方式)设定成多位乘客各自可识别响应是否是针对自己本身的响应的方式的处理。由此，能获得与声音识别装置100的上述效果同样的效果。

实施方式2.

图8是示出本发明实施方式2所涉及的声音识别装置设置于车辆内的信息设备的状态的框图。参照图8，以将实施方式2的声音识别装置100a设置于车辆1内的信息设备2的示例为中心来进行说明。另外，图8中，对与图1中所示的框相同的框标注相同标号并省略说明。

图中，7为车厢内拍摄用的摄像头。摄像头7例如由设置于车辆1的车厢内前方部的红外线摄像头或可见光摄像头构成。摄像头7至少具有可拍摄包含就座于声音识别对象座位(例如驾驶座及副驾驶座)的乘客的脸在内的范围的视角。

乘客确定部19在固定周期(例如30FPS(每秒传输帧数)的周期)内获取示出摄像头7的摄像图像的图像数据。乘客确定部19通过执行针对该获取到的图像数据的图像识别处理，从而判定在各声音识别对象座位上有无乘客，并执行对就座于声音识别对象座位的各乘客的个人进行确定的处理(以下称为“乘客确定处理”)。

具体而言，例如，乘客确定部19通过执行图像识别处理，来检测拍摄图像中的与就座于声音识别对象座位的乘客的脸对应的区域(以下称为“脸区域”)，并从各脸区域中提取出乘客确定处理用的特征量(以下称为“第3特征量”)。乘客确定部19基于拍摄图像中的各脸区域的尺寸及位置等，来判定在各声音识别对象座位上有无乘客。另外，乘客确定部19预先存储有包含与第3特征量对应的多位的特征量在内的数据库。乘客确定部19通过将从各脸区域中提取出的第3特征量与该多位的特征量分别比较，来确定就座于声音识别对象座位的各乘客的个人。

乘客确定部19将乘客确定处理的结果输出给发话者确定部15a。乘客确定处理的结果例如包含示出就座于声音识别对象座位的各乘客的姓名等的信息、及包含示出该各乘客就座的座位的名称及位置等的信息。另外，乘客未就座于声音识别对象座位中的一部分的座位的情况下，乘客确定处理的结果可以仅包含这些信息，或者，除了这些信息以外还可以包含示出该一部分的座位为空座的信息。

发话者确定部15a使用由声音信号处理部12推测出的发话方向及乘客确定部19所进行的乘客确定处理的结果，执行对发话者的个人进行确定的处理即个人确定处理。

具体而言，例如，发话者确定部15a预先存储有与实施方式1中的座位确定处理用的实际角度φ相同的实际角度φ。发话者确定部15a通过将由声音信号处理部12推测出的发话方向示出的角度θ与各声音识别对象座位所对应的实际角度φ进行比较，来确定发话者就座的座位。发话者确定部15a使用乘客确定部19所进行的乘客确定处理的结果，对就座于该所确定的座位的乘客即发话者的个人进行确定。

即，发话者确定部15a与实施方式1的声音识别装置100中的发话者确定部15不同，未对个人确定处理使用第2特征量。因此，在实施方式2的声音识别装置100a中，不需要声音识别处理部13所进行的第2特征量的提取。

响应方式设定部17将发话者确定部15a所进行的个人确定处理的结果用于响应方式设定处理。响应方式设定处理的具体例已如实施方式1所说明的那样，因此省略再次的说明。

由声音识别部14、发话者确定部15a、响应方式设定部17及乘客确定部19构成声音识别装置100a的主要部分。由声音识别装置100a、响应内容设定部16及响应输出控制部18构成信息设备2的主要部分。

信息设备2的主要部分的硬件结构与实施方式1中参照图4说明的结构相同，因此省略再次的说明。即，发话者确定部15a的功能可以由处理器21及存储器22来实现，或者也可以由处理电路23来实现。同样地，乘客确定部19的功能可以由处理器21及存储器22来实现，或者也可以由处理电路23来实现。

接着，参照图9及图10的流程图，对乘客确定部19的动作进行说明。另外，图10所示的步骤ST31～ST34示出了图9所示的步骤ST21内的详细的处理内容。

在车辆1的辅助电源启动的状态下，乘客确定部19在固定周期内获取示出摄像头7的拍摄图像的图像数据，使用该获取到的图像数据来执行乘客确定处理(步骤ST21)。

即，在步骤ST31中，乘客确定部19获取示出摄像头7的拍摄图像的图像数据。

接着，在步骤ST32中，乘客确定部19通过执行针对在步骤ST31中获取到的图像数据的图像识别处理，来检测拍摄图像中的脸区域，并从各脸区域中提取乘客确定处理用的第3特征量。

接着，在步骤ST33中，乘客确定部19基于在步骤ST32中检测出的各脸区域的尺寸及位置等，来判定在各声音识别对象座位上有无乘客。

接着，在步骤ST34中，乘客确定部19使用在步骤ST33提取出的第3特征量，来确定就座于声音识别对象座位的各乘客的个人。乘客确定部19将乘客确定处理的结果输出给发话者确定部15a。

接着，参照图11及图12的流程图，对信息设备2中的除乘客确定部19以外的部分的动作进行说明。另外，图12所示的步骤ST51～ST56示出了图11所示的步骤ST41内的详细的处理内容。

首先，在步骤ST41中，声音识别部14执行针对发话声音的声音识别。

即，在步骤ST51中，声音信号获取部11获取由集音装置3所输出的声音信号S₁～S_N。声音信号获取部11针对声音信号S₁～S_N执行A/D转换。声音信号获取部11将A/D转换后的声音信号S₁'～S_N'输出给声音信号处理部12。

接着，在步骤ST52中，声音信号处理部12基于声音信号S₁'～S_N'间的功率差分值或声音信号S₁'～S_N'间的相位差等，来推测针对集音装置3的发话声音的输入方向即发话方向。

接着，在步骤ST53中，声音信号处理部12基于在步骤ST52中所推测出的发话方向，来去除声音信号S₁'～S_N'中与发话声音不同的声音所对应的分量、即噪声分量。声音信号处理部12将去除了噪声分量的声音信号S₁”～S_M”输出给声音识别处理部13。

接着，在步骤ST54，声音识别处理部13检测声音信号S₁”～S_M”中与发话声音对应的声音区间、即发话区间。

接着，在步骤ST55，声音识别处理部13从发话区间内的声音信号S₁”～S_M”中提取声音识别处理用的第1特征量。接着，在步骤ST56中，声音识别处理部13使用第1特征量来执行声音识别处理。

接着步骤ST41，在步骤ST42中，发话者确定部15a执行个人确定处理。即，发话者确定部15a使用在步骤ST52中由声音信号处理部12推测出的发话方向与在步骤ST34中由乘客确定部19输出的乘客确定处理的结果，从上述具体例中确定发话者的个人。

接着，在步骤ST43中，响应内容设定部16执行响应内容设定处理。响应内容设定处理的具体例如实施方式1中说明的那样，因此省略再次的说明。

接着，在步骤ST44中，响应方式设定部17执行响应方式设定处理。响应方式设定处理的具体例如实施方式1中说明的那样，因此省略再次的说明。

接着，在步骤ST45中，响应输出控制部18执行响应输出控制。响应输出控制的具体例如实施方式1中说明的那样，因此省略再次的说明。

如上所述，通过设置乘客确定部19，从而在个人确定处理中可以不需要从声音信号S₁”～S_M”中提取出的第2特征量。其结果是，能提高个人确定处理的耐噪音性，因此能提高个人确定处理的精度。

另外，可以通过乘客确定部19中的图像识别处理，来检测就座于声音识别对象座位的各乘客头部的三维位置坐标，更优选检测该各乘客嘴部的三维位置坐标。声音信号处理部12可以使用由乘客确定部19检测出的三维位置坐标，来推测指向性更尖锐的发话方向(例如由相对于以集音装置3的配置位置为基准的中心轴的左右方向的角度θ及上下方向的角度ψ所表示的发话方向)。由此，能提高发话方向的推测精度，因此能提高噪声分量的去除精度。图8中省略了该情况下的乘客确定部19与声音信号处理12之间的连接线的图示。

另外，发话者确定部15a可以通过获取示出摄像头7的拍摄图像的图像数据，执行针对该获取到的图像数据的图像识别处理，从而检测就座于声音识别对象座位的乘客中使嘴部动作的乘客。发话者确定部15a可以使用乘客确定部19所进行的乘客确定处理的结果，对使嘴部动作的乘客即发话者的个人进行确定。该情况下，由于在个人确定处理中不需要由声音信号处理部12推测出的发话方向，因此不需要图8所示的声音信号处理部12与发话者确定部15a之间的连接线。另外，图8中省略了该情况下的摄像头7与发话者确定部15a之间的连接线的图示。

另外，如图13所示，在各声音识别对象座位的座位面部设置有就座传感器8，乘客确定部19可以使用这些就座传感器8的检测值来执行乘客确定处理。即，各就座传感器8例如由多个压力传感器构成。由该多个压力传感器检测出的压力分布根据就座于对应的座位的乘客的体重、就座姿势及臀部形状等而不同。乘客确定部19将所施加的压力分布用作特征量来执行乘客确定处理。关于将所施加的压力分布用作特征量来确定个人的方法，能使用公知的各种方法，省略详细说明。

另外，乘客确定部19可以执行使用了摄像头7的拍摄图像的乘客确定处理及使用了就座传感器8的检测值的乘客确定处理这两者。由此，能提高乘客确定处理的精度。图14中示出该情况下的框图。

另外，如图15所示，可以通过设置于信息设备2的声音信号获取部11、声音信号处理部12、发话者确定部15、响应方式设定部17及乘客确定部19与设置于服务器装置6的声音识别处理部13，来构成声音识别系统200a的主要部分。由此，能提高声音识别处理部13中的声音识别处理的精度。

另外，在声音识别系统200a中，发话者确定部15a可以使用就座传感器8的检测值以取代摄像头7的拍摄图像来执行乘客确定处理，或者除了摄像头7的拍摄图像以外还使用就座传感器8的检测值来执行乘客确定处理。该情况下的框图省略图示。

此外，声音识别装置100a能采用与实施方式1中说明的内容相同的各种变形例、即与图1所示的声音识别装置100相同的各种变形例。同样地，声音识别系统200a能采用与实施方式1中说明的内容相同的各种变形例、即与图7所示的声音识别装置200相同的各种变形例。

如上所述，实施方式2的声音识别装置100a包括乘客确定部19，该乘客确定部19使用车厢内拍摄用的摄像头7或就座传感器8中的至少一个，执行对多位乘客的每个人进行确定的乘客确定处理，发话者确定部15a使用乘客确定处理的结果来执行个人确定处理。由此，能提高个人确定处理的耐噪音性，因此能提高个人确定处理的精度。

另外，本发明申请在其发明的范围内可对各实施方式进行自由组合，或者对各实施方式的任意的结构要素进行变形，或在各实施方式中省略任意的结构要素。

工业上的实用性

本发明的声音识别装置例如能用于针对车辆内的信息设备的操作输入。

标号说明

1 车辆，

2 信息设备，

3 集音装置，

3₁～3_N 麦克风，

4 声音输出装置，

5 显示装置，

6 服务器装置，

7 摄像头，

8 就座传感器，

11 声音信号获取部，

12 声音信号处理部，

13 声音识别处理部，

14 声音识别部，

15、15a 发话者确定部，

16 响应内容设定部，

17 响应方式设定部，

18 响应输出控制部，

19 乘客确定部，

21 处理器，

22 存储器，

23 处理电路，

100、100a 声音识别装置，

200、200a 声音识别系统。

Claims

1.一种声音识别装置，其特征在于，包括：

声音识别部，该声音识别部针对就座于车辆的声音识别对象座位的多位乘客中的发话者的操作输入用的发话声音来执行声音识别；

发话者确定部，该发话者确定部执行对所述发话者的个人进行确定的个人确定处理或对所述发话者就座的座位进行确定的座位确定处理中的至少一个；及

响应方式设定部，该响应方式设定部执行根据所述发话者确定部的确定结果来设定针对所述发话者的响应的方式的响应方式设定处理，

所述响应方式设定处理为将所述响应的方式设定成所述多位乘客各自可识别所述响应是否是针对自己本身的响应的方式的处理。

2.如权利要求1所述的声音识别装置，其特征在于，

在检测出多位所述发话者中第1发话者的所述发话声音的起点之后，在基准时间经过之前检测出多位所述发话者中第2发话者的所述发话声音的起点的情况下，所述响应方式设定部执行所述响应方式设定处理。

3.如权利要求1所述的声音识别装置，其特征在于，

在检测出多位所述发话者中第1发话者的所述发话声音的起点之后，在针对所述第1发话者的所述响应的输出开始之前检测出多位所述发话者中第2发话者的所述发话声音的起点的情况下，所述响应方式设定部执行所述响应方式设定处理。

4.如权利要求1至3中的任一项所述的声音识别装置，其特征在于，

所述发话者确定部使用由所述声音识别部提取出的特征量来执行所述个人确定处理。

5.如权利要求1至3中的任一项所述的声音识别装置，其特征在于，

包括乘客确定部，该乘客确定部使用车厢内拍摄用的摄像头或就座传感器中的至少一个，来确定所述多位乘客的每个人，

所述发话者确定部使用所述乘客确定处理的结果来执行所述个人确定处理。

6.如权利要求1至3中的任一项所述的声音识别装置，其特征在于，

所述响应方式设定处理为将基于所述发话者确定部的确定结果的针对所述发话者的称呼包含于所述响应中的处理。

7.如权利要求6所述的声音识别装置，其特征在于，

所述响应方式设定处理为将所述称呼包含于所述响应用的声音中的处理。

8.如权利要求6所述的声音识别装置，其特征在于，

所述响应方式设定处理为将所述称呼包含于所述响应用的图像中的处理。

9.如权利要求1至3中的任一项所述的声音识别装置，其特征在于，

所述响应方式设定处理为根据所述发话者确定部的确定结果来变更所述响应用的声音的叙述者的处理。

10.如权利要求1至3中的任一项所述的声音识别装置，其特征在于，

所述响应方式设定处理为根据所述座位确定处理的结果示出的座位的位置来变更输出所述响应用的声音的扬声器的处理，或为根据所述座位确定处理的结果示出的座位的位置来变更输出所述响应用的声音时的声场的处理。

11.一种声音识别系统，其特征在于，包括：

12.一种声音识别方法，其特征在于，包括下述步骤：

声音识别部针对就座于车辆的声音识别对象座位的多位乘客中的发话者的操作输入用的发话声音来执行声音识别；

发话者确定部执行对所述发话者的个人进行确定的个人确定处理或对所述发话者就座的座位进行确定的座位确定处理中的至少一个；及

响应方式设定部执行根据所述发话者确定部的确定结果来设定针对所述发话者的响应的方式的响应方式设定处理，