CN111687831A

CN111687831A - 声音引导系统以及声音引导方法

Info

Publication number: CN111687831A
Application number: CN202010070053.6A
Authority: CN
Inventors: 大竹晋资; 大原辰德
Original assignee: Hitachi Ltd; Hitachi Building Systems Co Ltd
Current assignee: Hitachi Ltd; Hitachi Building Systems Co Ltd
Priority date: 2019-03-13
Filing date: 2020-01-21
Publication date: 2020-09-22
Anticipated expiration: 2040-01-21
Also published as: JP7026066B2; CN111687831B; JP2020149264A

Abstract

本发明的课题在于，能够通过声音引导系统适当地进行存在多个说话者的情况下的应答。扬声器输出基于输入到麦克风的提问等的声音的回答等的声音。这里，接受基于输入到麦克风的声音的提问，基于与该接受的提问对应的用户的声音的特征和照相机拍摄到的图像的特征，识别提问者、回答者等的用户。然后，从扬声器输出针对选择出的用户的引导用的声音。

Description

声音引导系统以及声音引导方法

技术领域

本发明涉及声音引导系统以及声音引导方法。

背景技术

近年来，作为声音引导系统，公知有针对基于用户的声音的输入，应用声音识别技术、会话技术，利用声音进行适当的回答。作为这样的声音引导系统的一个例子，存在会话机器人。例如在专利文献1中，公开了会话机器人自然地与多个说话者进行会话的技术。

专利文献1：日本特开2012－76162号公报

在以往开发的声音引导系统中，存在无法同时与多个引导对象者进行会话的问题。

例如，在与一人的引导对象者A进行会话的过程中，若被其他的引导对象者B提问，则会话机器人会保持与引导对象者A的会话状况来对引导对象者B进行回答，因此无法进行适当的回答。

另外，在对引导对象者与非引导对象者(引导执行者)的会话进行辅助的使用场景中，会话机器人也可以针对引导对象者的发声(提问)进行应答，但若针对引导执行者的发声(回答)进行应答，则导致会话不成立。

另外，在非引导对象者无法回答的情况下，取而代之，会话机器人进行回答，则较为便利，但现状为，会话机器人(声音引导系统)难以判断是否应该进行回答。

此外，作为会话机器人进行引导对象者与非引导对象者(引导执行者)的会话的辅助的状况，例如存在会话机器人对引导对象者与非引导对象者的会话进行翻译的情况，但在这样的翻译时，需要进行比是否应该进行回答更复杂的判断。

发明内容

本发明的目的在于，提供一种能够适当地进行存在多个说话者的情况下的应答的声音引导系统以及声音引导方法。

为了解决上述课题，例如采用权利要求书记载的结构。

本申请包含多个解决上述课题的手段，但如果列举其一个例子，则是一种声音引导系统，其具备照相机、麦克风、扬声器，扬声器输出基于输入到麦克风的声音的引导用的声音。

而且，具备：提问接受部，其接受基于输入到麦克风的声音的提问；声音识别部，其存储与提问接受部接受到的提问对应的用户的声音的特征，基于存储的声音的特征，识别上述用户；图像识别部，其在提问接受部检测到声音时，存储由照相机拍摄的用户的图像或者图像的特征，基于存储的图像或者图像的特征，识别用户；以及引导部，其使用声音识别部存储的用户的声音的特征和图像识别部存储的用户的图像或者图像的特征，选择进行引导的用户，从扬声器输出针对选择出的用户的引导用的声音。

根据本发明，即使是多个用户位于附近的状况下，也能够单独地识别各用户，从而能够向各个用户进行适当的回答。另外，也能够进行支持多个用户之间的会话的引导。

上述以外的课题、结构以及效果根据以下的实施方式的说明变得清楚。

附图说明

图1是表示本发明的第1实施方式例的声音引导系统整体的构成例的框图。

图2是表示本发明的第1实施方式例的机器人的构成例的框图。

图3是表示本发明的第1实施方式例的机器人控制装置的构成例的框图。

图4是表示本发明的第1实施方式例的机器人管理服务器的构成例的框图。

图5是表示本发明的第1实施方式例的机器人的外观例的图。

图6是表示本发明的第1实施方式例的使用例的图。

图7是表示本发明的第1实施方式例的使用语言的选择画面的图。

图8是表示本发明的第1实施方式例的服务整体的流程的流程图。

图9是表示本发明的第1实施方式例的翻译服务的处理例的流程图。

图10是基于本发明的第1实施方式例的会话失败的机器人回答处理的顺序图(前半部分)。

图11是基于本发明的第1实施方式例的会话失败的机器人回答处理的顺序图(后半部分：图10的后续)。

图12是基于本发明的第1实施方式例的回答计时届满的机器人回答时的顺序图。

图13是表示本发明的第2实施方式例的服务整体的流程的流程图。

图14是表示本发明的第2实施方式例的会话辅助服务的处理例的流程图。

图15是表示本发明的第3实施方式例的翻译服务的处理例的流程图。

图16是本发明的第3实施方式例的会话失败时的机器人回答时的顺序图(前半部分)。

图17是本发明的第3实施方式例的会话失败时的机器人回答时的顺序图(后半部分：图16的后续)。

具体实施方式

＜1.第1实施方式例＞

以下，参照图1～图12，对本发明的第1实施方式例进行说明。

本发明的第1实施方式例的声音引导系统对引导对象者(设施利用顾客)与引导执行者(设施工作人员)之间的会话进行翻译。这里，在引导执行者无法针对引导对象者的提问进行回答的情况下，第1实施方式例的声音引导系统能够通过代理进行回答。

[系统结构]

图1表示本发明的第1实施方式例的声音引导系统的整体结构。

声音引导系统1包括机器人100、机器人控制装置200、机器人管理服务器300。机器人100与机器人控制装置200设置于运用机器人100的站点2。站点2是购物中心等的设施。

机器人100执行基于会话的引导。

机器人控制装置200控制机器人100。

机器人管理服务器300监视机器人100的运用状况，例如由提供系统的企业来运用。机器人管理服务器300经由网络与设置于站点2的机器人控制装置200连接。

声音引导系统1的机器人100在商业设施等的站点2中，通过相互翻译引导执行者与讲和引导执行者不同的语言的引导对象者之间的会话，由此进行引导的辅助。另外，在引导执行者无法回答的情况下，代替引导执行者，机器人100向引导对象者进行回答。

图2表示机器人100的构成例。

机器人100包括控制基于声音的引导的处理动作的CPU(Central ProcessingUnit：中央处理单元)110、储存各软件、数据的存储装置120、输入输出装置130、与外部机器进行通信的通信接口140。

存储装置120包括输入输出部121、方案执行部122、画面处理部123。

输入输出部121保持从机器人控制装置200接受到的数据、指示，并向各处理部输送。

方案执行部122根据从机器人控制装置200接受到的方案指示，进行声音的输出、画面的显示指示。另外，方案执行部122进行来自输入输出装置130的数据取得等。

画面处理部123根据从方案执行部122接受到的画面的显示指示，向机器人控制装置200进行访问而进行画面显示。另外，画面处理部123接受来自输入输出装置130的触摸输入。

输入输出装置130包括由多个麦克风所构成的麦克风阵列131、照相机132、扬声器133、触摸面板134。

麦克风阵列131取得由多个麦克风取得到的声音数据来作为多频道数据。麦克风阵列131所具备的多个麦克风分别取得不同的到来方向的声音。照相机132取得影像、图像等的视觉数据。扬声器133输出声音。触摸面板134取得画面的输出以及触摸输入的数据。

机器人100通过通信接口140将由麦克风阵列131以及照相机132取得到的数据，始终以恒定间隔向机器人控制装置200发送，通过通信接口140，接受来自机器人控制装置200的方案执行指示。

图3是表示机器人控制装置200的构成例的图，机器人控制装置200包括进行各部的处理的CPU210、储存各软件、数据的存储装置220、进行与外部机器的通信的通信接口230。

主存储装置220包括输入输出部221、提问接受部222、声音识别部223、图像识别部224、引导部225、翻译部226。

输入输出部221对来自机器人100、机器人控制服务器300的输入数据以及输出数据进行处理，保持数据，向机器人控制装置200内的各部输送。

提问接受部222根据从机器人100接受到的多频道的声音数据，进行接受存储的用户的声音最大的麦克风(频道)的声音输入的提问接受处理。此时，提问接受部222基于其麦克风的设置方向，推断声音数据的到来方向。

声音识别部223进行声音识别处理。作为声音识别部223中的声音识别处理，计算提问接受部222接受到的声音的特征量，基于声音来识别用户。这里的声音的特征量的计算用于区别位于机器人100的周围的多人的声音。

另外，声音识别部223进行提问接受部222接受到的声音的文本化。

图像识别部224对从机器人100接受到的图像数据进行图像处理，计算用户的图像的特征量，基于图像，识别用户。当多个人物映现在图像中的情况下，单独地识别各个用户。

此外，在声音识别部223、图像识别部224识别用户的情况下，能够将预先登记的用户识别为特定的用户。即，预先将引导执行者4的声音的特征与图像的特征登记于声音识别部223以及图像识别部224。这样进行登记，由此能够将检测到预先登记的声音的特征以及/或者图像的特征的用户设为非引导对象者(引导执行者4)，将检测到未预先登记的声音的特征或者图像的特征的用户设为引导对象者3。

引导部225包括会话继续判定部225a、回答可否判定部225b、会话失败判定部225c、回答输出部225d，基于声音处理部223与图像识别部224中的用户识别结果，进行用户的选择，执行与选择出的用户的会话。

会话继续判定部225a判定引导对象者与引导执行者的会话是否继续。

回答可否判定部225b判定是否能够针对引导对象者的提问进行回答。

会话失败判定部225c判定引导对象者与引导执行者的会话是否失败。

回答输出部225d检索并输出针对引导对象者的提问的回答。

翻译部226针对被声音识别部223文本化的发声进行翻译。翻译源语言与翻译目标语言基于用户的站立位置、触摸面板134的输入而决定。

图4表示机器人管理服务器300的构成例。

机器人管理服务器300包括控制各部的处理的CPU310、存储各软件、数据的存储装置320、进行与外部机器的通信的通信接口330。

存储装置320具有机器人管理部321，机器人管理部321管理各机器人的状态，进行维护的计划、修理的通知等。

[机器人形状与利用方式的例子]

图5表示机器人100的外观的一个例子。本实施方式例的机器人100是标牌型机器人，包括：具备照相机132、扬声器133、触摸面板134的平板电脑101；具备麦克风阵列131的摇架102。摇架102保持平板电脑101，并与保持的平板电脑101连接。

麦克风阵列131在水平方向上配置多个麦克风，各个麦克风设置在对声音进行集音的方向不同的方向(水平角度)上。此外，图5所示的机器人100的外观为一个例子，也可以形成其他的外观形状。例如照相机132与扬声器133也可以具备摇架102。

照相机132配置于平板电脑101的前表面，拍摄位于平板电脑101的前方的用户。扬声器133也配置于平板电脑101的前表面。

触摸面板134具备文本显示部134a与头像显示部134b。在文本显示部134a显示翻译结果的文本或基于声音引导系统的回答的文本。在头像显示部134b显示根据在文本显示部134a显示的文本进行动作的头像的动画、引导所使用的图像。在图5中，作为头像表示显示机器人的例子，在文本显示部134a显示会话句子(这里为“您好”)，显示为机器人(头像)进行了会话。

图6表示基于声音引导系统的翻译的使用例。引导对象者3和引导执行者4在与机器人100相向的状态下，站立在机器人100前，机器人100基于声音引导系统1翻译的声音、文本，进行引导的辅助、翻译，并且在引导对象者3与引导执行者4之间相互进行会话。这里的引导对象者3是站点2的用户，引导执行者4是为了在站点2进行引导而等待的人(站点2的业务员等)。

图7表示选择引导对象者3与引导执行者4的使用语言的画面。

按钮134c表示引导对象者3的语言选择按钮。按钮134d表示引导执行者4的语言选择按钮。按钮134e表示引导对象者3与引导执行者4的站立位置的更换按钮。

通过站立位置更换按钮134e，进行引导对象者3与引导执行者4的更换，由此触摸面板134上的引导对象者语言选择按钮134c与引导执行者语言选择按钮134d的位置更换。

引导对象者3与引导执行者4选择各自的语言选择按钮134c与134d，由此各自决定声音识别、翻译所使用的语言。

[引导服务的执行例]

图8是表示基于声音引导系统1的引导服务的执行顺序的例子的流程图。这里，如图6所示，是引导对象者3与引导执行者4接近于机器人100前的状况。

首先，在机器人控制装置200中，进行用户判定(步骤S100)。在该用户判定中，基于图像、声音、触摸输入，站立在机器人100前的多个用户分别进行是引导对象者3还是引导执行者4的判定。

是该引导对象者3还是引导执行者4的判定例如通过以下的处理进行。

首先，通过图像识别部224中的图像识别处理，根据已经登记的引导执行者的面部图像，识别引导执行者是站在右侧，还是站在左侧。

接下来，通过声音识别部223中的声音到来方向检测，识别说话者是在左侧，还是在右侧，推断说话者是否为引导执行者(引导对象者)。

若返回图8的流程图的说明，则在机器人控制装置200中，进行语言判定(步骤S200)。这里，判定引导对象者3的发声语言(第1语言)以及引导执行者4的发声语言(第2语言)。

该语言判定例如通过基于声音识别部223所取得的声音的语言识别来执行。或者通过在图7所示的触摸输入中的设定而进行。

接着，在机器人控制装置200中，进行翻译服务(步骤S300)。这里，进行从第1语言向第2语言的翻译以及从第2语言向第1语言的翻译。这里，对第1语言为英语，第2语言为日语的例子进行说明。

这样设定语言，由此在引导执行者4无法进行适当的回答的情况下，机器人100使用第1语言(英语)，代理引导执行者4来进行回答。

图9是表示步骤S300的翻译服务的流程的流程图。

另外，图10以及图11(两图是连续的图)是机器人执行图9的流程图，基于会话失败进行回答的情况下的顺序图。图12是机器人执行图9的流程图，基于回答计时届满进行回答的情况下的顺序图。在这些顺序图中，对与图9的流程图的各步骤对应的位置标注相同的步骤编号。

以下，对图9所示的翻译服务S300的详细进行说明。

首先，机器人控制装置200的提问接受部222进行中断处理的检查(步骤S1)，对中断处理的有无进行判断(步骤S2)。作为这里的提问接受部222所判断的中断处理，存在基于声音的输入的中断与基于回答计时届满的中断。

当在步骤S2中不存在中断处理时(步骤S2的“无中断”)，提问接受部222返回步骤S1的检查。

另外，当在步骤S2中判断为存在中断处理时(步骤S2的“有中断”)，提问接受部222判断中断内容是基于声音的输入的中断与基于回答计时届满的中断的哪一个(步骤S3)。

在步骤S3中，在判断为基于声音的输入的中断时(步骤S3的“声音”)，提问接受部222根据多个频道的声音数据检测声音的到来方向，判定该说话者是引导对象者3，还是引导执行者4(步骤S4)。

然后，当在步骤S4中从声音方向判定出的说话者是引导对象者3的情况下(步骤S4的“顾客”)，通过翻译部226将在声音识别部223中用英语进行了声音识别的结果翻译成日语，从机器人100的扬声器133以声音形式输出(步骤S5)。此时，也可以与声音的输出同时，或者取而代之，输出触摸面板134中的翻译句子。

若引导对象者3的发声的翻译结束，则顾客会话失败检测部225c将提问次数设为增量(步骤S6)，会话继续判定部225a开始回答计时(步骤S7)。

另外，当在步骤S4中从声音方向判定出的说话者是引导执行者4的情况下(步骤S4的“站点管理者”)，通过翻译部226将在声音识别部223中用日语进行了声音识别的结果翻译成英语。然后，机器人100的扬声器133、触摸面板134输出翻译成的声音或者文章(步骤S9)。

若步骤S9中的引导执行者4的发声的翻译处理结束，则会话失败检测部225c从机器人100取得图像，通过图像识别部224进行面部识别而进行感情的判定，判定用户的反应是积极还是消极(步骤S10)。

这里，在用户的反应为积极的情况下(步骤S10的“积极”)，会话失败检测部225c消除顾客提问次数(步骤S11)，会话继续判定部225a消除回答计时(步骤S12)。

另外，通过步骤S10的判定，在用户的反应为消极的情况下(步骤S10的“消极”)，会话失败检测部225c判断顾客提问次数是否为阈值以上(步骤S13)。这里，若为阈值以下(步骤S13的“阈值以下”)，则移至步骤S12，会话判定部225a消除回答计时。

另外，在步骤S13中，若顾客提问次数为阈值以上(步骤S13的“阈值以上”)，则会话失败检测部225c视为会话失败，判定回答可否判定部225b是否能够回答(步骤S14)。

通过步骤S14的判定，在无法回答的情况下(步骤S14的“否”)，会话失败检测部225c消除顾客提问次数(步骤S11)，会话继续判定部225a消除回答计时(步骤S12)。

另外，通过步骤S14的判定，在能够回答的情况下(步骤S14的“可”)，回答输出部225d进行回答的检索(步骤S15)，通过机器人100的扬声器133以及/或者触摸面板134输出检索结果(步骤S16)。

在机器人回答后，会话失败检测部225c消除顾客提问次数(步骤S11)，会话继续判定部225a消除回答计时(步骤S12)。

另外，在中断检查(步骤S1、S2)中，在回答计时届满的情况下，会话继续判定部225a进行计时届满的中断，提问接受部222检测计时届满中断(步骤S3的“回答计时届满”)。在该情况下，回答可否判定部225b判定对于之前的引导对象者的提问是否能够回答(步骤S14)。

这里，在能够回答的情况下(步骤S14的“可”)，回答输出部225d进行回答的检索(步骤S15)，通过机器人100的扬声器133、触摸面板134输出检索结果(步骤S16)。

然后，在回答计时开始(步骤S7)后，以及在回答计时消除(步骤S12)后，会话继续判定部225a基于图像识别部224的面部识别，进行判定用户是否位于机器人100前的使用状态确认(步骤S8)。

这里，会话继续判定部225a在判定为存在用户的情况时(步骤S8的“使用中”)，再次返回步骤S1的中断检查。另外，在判定为不存在用户的情况时(步骤S8的“使用结束”)，结束翻译服务。

图10与图11(两图是连续的顺序图)是机器人基于会话失败进行回答的情况下的顺序图。

在该例中，首先，引导对象者3用英语发声，机器人100将输入到麦克风阵列131的声音向机器人控制装置200的提问接受部222发送。通过提问接受部222检测该声音的中断，通过声音识别部223检测声音方向，进行文本化，通过翻译部226从英语翻译成日语。此时，通过会话失败检测部225c将提问次数设为增量。

然后，翻译部226中的翻译结果被机器人100输出，并且在会话继续判定部225a中回答计时开始。至此是图10的上半部分所示的引导对象者3的发声的翻译处理。

接着，若存在基于引导执行者4的回答的发声，则机器人100将输入到麦克风阵列131的声音向机器人控制装置200的提问接受部222发送。通过提问接受部222检测该声音的中断，通过声音识别部223检测声音方向，进行文本化，通过翻译部226从日语翻译成英语。

然后，通过机器人100输出翻译部226中的翻译结果。至此是图10的下半部分所示的引导执行者4的发声的翻译处理。

在本实施方式例的情况下，机器人100进一步基于引导对象者3的面部的表情进行回答。

即，在图10所示的回答的声音输出后，如图11所示，根据机器人100的照相机132拍摄到的图像，进行面部识别与其识别到的面部的感情判定，会话失败检测部225c判断会话是否失败。在该判断中，在检测出会话失败时，回答可否判定部225b判断是否能够对引导对象者3的提问进行回答，在能够的情况下，回答输出部225d检索回答，从机器人100输出检索出的回答。

另外，通过会话失败检测部225c消除提问次数，并且通过会话继续判定部225a消除回答计时，在使用状态的确认后结束。或者，在会话继续时，返回图10的最初。

图12是基于回答计时届满的机器人回答时的顺序图。

在该例中，与图10的情况相同，首先，引导对象者3用英语发声，机器人100将输入到麦克风阵列131的声音向机器人控制装置200的提问接受部222发送。通过提问接受部222检测该声音的中断，通过声音识别部223检测声音方向，进行文本化，通过翻译部226从英语翻译成日语。此时，通过会话失败检测部225c将提问次数设为增量。

然后，通过机器人100输出翻译部226中的翻译结果，并且在会话继续判定部225a中回答计时开始。至此与图10的上半部分所示的引导对象者3的发声的翻译处理相同。

之后，在会话继续判定部225a中，成为回答计时届满，通过提问接受部222检测计时届满的中断。此时，通过回答可否判定部225b判断可否回答，在能够回答的情况下，通过回答输出部225d检索回答，通过机器人100以声音以及/或者图像形式输出回答。

另外，在回答输出部225d中的回答检索后，通过会话失败检测部225c消除提问次数，并且通过会话继续判定部225a也消除回答次数，在基于面部认证结果的使用状态的确认后，结束处理。

这里，以下表示本实施方式例中的基于引导对象者3、引导执行者4、机器人100的会话以及回答的具体的例子。

引导对象者3的发声：“Hello”

机器人100的翻译：“您好”

引导执行者4的发声：“有什么可以帮助您？”

机器人100的翻译：“Can you help you with something？”

引导对象者3的发声：“I’m looking for coinlocker”

机器人100的翻译：“我在找投币储物柜”

引导执行者4的发声：“嗯···”

机器人100的翻译：“Umm···”

引导对象者3的发声：“Don’t you know？”

引导执行者4的发声：“嗯···”

机器人100的翻译：“Umm···”(会话失败检测)

机器人100的回答：“I’m answer behalf of him.

There are coinlockers at～～～”

引导对象者3的发声：“Oh！Thank you！！”

机器人100的翻译：“哦！谢谢！”

引导对象者3的离去

机器人100的会话结束判断

如以上说明的那样，根据本实施方式例的声音引导系统1，能够进行翻译并且适当地进行引导对象者3的提问及其引导执行者4的回答。

特别是，通过声音识别与图像识别区别引导对象者3与引导执行者4，由此能够适当地执行提问的接受与针对该提问的回答的输出。

另外，在基于引导对象者3与引导执行者4的会话失败的情况下，换句话说在回答不适当的情况下，声音引导系统1能够通过代理进行回答，从而能够使基于会话的引导成立。

＜2.第2实施方式例＞

接下来，参照图13～图14，对本发明的第2实施方式例进行说明。

本发明的第2实施方式例的声音引导系统1的结构在第1实施方式例中与在图1～图7中说明的结构相同，省略重复说明。

在第2实施方式例中，声音引导系统1进行对引导对象者3与引导执行者4的会话进行辅助的会话辅助服务。

[会话辅助服务的执行例]

图13是表示基于声音引导系统1的会话辅助服务的流程的流程图。

首先，在机器人控制装置200中，进行发声语言的判定(步骤S400)。

接着，在机器人控制装置200中，基于在步骤S400中判定的发声语言，进行会话辅助服务(步骤S500)。

图14是表示步骤S500的会话辅助服务的详细的流程图。

首先，机器人控制装置200的提问接受部222执行中断的有无的检查(步骤S21)，判断中断的有无(步骤S22)。这里，在无中断的情况下(步骤S22的“无中断”)，提问接受部222返回步骤S21的中断的有无的检查。

在步骤S22的判断中，在存在声音的中断的情况下(步骤S22的“有中断”)，提问接受部222判断中断内容是基于声音的输入的中断与基于回答计时届满的中断的哪一个(步骤S23)。

在步骤S23中，在判断为基于声音的输入的中断时(步骤S23的“声音”)，回答可否判定部225b进行识别出的声音的回答可否的判定(步骤S24)。

这里，在能够回答的情况下(步骤S24的“可”)，回答可否判定部225b检索回答(步骤S25)，输出回答的图像(步骤S26)。这里，仅通过图像输出回答，不输出声音。

在步骤S26中的输出回答的图像后，会话失败判定部225c判定引导对象者3的反应(步骤S27)。这里，如果反应为积极(步骤S27的“积极”)，则会话失败判定部225c消除顾客提问次数(步骤S28)，消除会话计时(步骤S29)。

然后，如果在步骤S27中判定出的反应为消极(步骤S27的“消极”)，则会话失败判定部225c判断顾客提问次数是否为阈值以上(步骤S31)。这里，若为阈值以下(步骤S31的“阈值以下”)，则移至步骤S29，会话判定部225a消除回答计时。

另外，在步骤S31中若顾客提问次数为阈值以上(步骤S31的“阈值以上”)，则会话失败检测部225c视为会话失败，回答输出部225d以声音形式输出之前的回答(基于图像的回答)(步骤S32)。之后，移至步骤S28，会话失败判定部225c消除顾客提问次数。

在进行回答计时消除(步骤S29)后，会话继续判定部225a基于图像识别部224的面部识别，进行判定用户是否位于机器人100前的使用状态确认(步骤S30)。

这里，会话继续判定部225a在判定为存在用户的情况时(步骤S30的“使用中”)，再次返回步骤S21的中断检查。另外，在判定为不存在用户的情况时(步骤S30的“使用结束”)，结束翻译服务。

如以上说明的那样，在本实施方式例中，机器人100通过与多人的会话相关的图像显示对会话进行辅助，在该会话失败时，以声音形式进行回答，由此能够使会话继续。

＜3.第3实施方式例＞

接下来，参照图15～图17，对本发明的第3实施方式例进行说明。

本发明的第3实施方式例的声音引导系统1的结构与在第1实施方式例中在图1～图7中说明的结构相同，省略重复说明。

在第3实施方式例中，声音引导系统1针对来自引导对象者3的发声(提问)，通过机器人100进行回答，在该引导对象者3与机器人100的会话失败时，对引导执行者4的引导进行翻译并传送给引导对象者3。

服务的整体的流程如图8所示，按用户判定(步骤S100)、语言判定(步骤S200)、翻译服务(步骤S300)的顺序进行，在翻译服务时，按在图15的流程图中说明的顺序被执行。

[引导服务的执行例]

图15是表示本实施方式例中的翻译服务的流程的流程图。

另外，图16以及图17(两图是连续的图)是执行图15的流程图，引导执行者4基于会话失败进行回答的情况下的顺序图。在这些顺序图中，对与图15的流程图的各步骤对应的位置标注相同的步骤编号。在该图15的例子的情况下，引导对象者3也用英语进行会话，引导执行者4用日语进行会话。

以下，对图15所示的翻译服务的详细进行说明。

首先，机器人控制装置200的提问接受部222进行中断处理的检查(步骤S41)，判断中断处理的有无(步骤S42)。作为这里的提问接受部222判断的中断处理，存在基于声音的输入的中断与基于回答计时届满的中断。

当在步骤S42中不存在中断处理时(步骤S42的“无中断”)，提问接受部222返回步骤S41的检查。

另外，当在步骤S42中判断为存在中断处理时(步骤S42的“有中断”)，提问接受部222根据多个频道的声音数据检测声音的到来方向(步骤S43)。然后，声音识别部223识别输入的声音(步骤S44)，图像识别部224识别输入的图像(步骤S45)，进行面部识别处理(步骤S46)。

这里，提问接受部222判定说话者是引导对象者3，还是引导执行者4(步骤S47)。在步骤S47中，在判定出的说话者是引导对象者3的情况下(步骤S47的“顾客(英语说话者)”)，回答可否判定部225b判定是否能够回答(步骤S48)。

通过步骤S48的判定，在能够回答的情况下(步骤S48的“可”)，回答输出部225d检索相对于提问的回答(步骤S49)，以声音以及/或者图像形式从机器人100输出该检索出的回答(步骤S50)。

然后，会话失败检测部225c通过图像识别部224进行面部识别并进行感情的判定，判定用户的反应是积极还是消极(步骤S51)。

这里，在用户的反应为积极的情况下(步骤S51的“积极”)，会话继续判定部225a基于图像识别部224的面部识别，进行判定用户是否位于机器人100前的使用状态确认(步骤S52)。

这里，会话继续判定部225a在判定为存在用户的情况时(步骤S52的“使用中”)，再次返回步骤S41的中断检查。另外，在判定为不存在用户的情况时(步骤S41的“使用结束”)，结束翻译服务。

至此的流程是机器人100对来自引导对象者3的提问进行回答，引导对象者3对该会话进行了积极的反应的情况，只要这样的积极的反应继续，则引导对象者3与机器人100的会话继续。

然而，在通过步骤S51辨别出的用户的反应为消极的情况下，基于机器人100的会话失败。

即，在通过步骤S51判别出的用户的反应为消极的情况下(步骤S51的“消极”)，图像识别部224判断引导执行者4的有无(步骤S53)。此外，在通过步骤S48判断为无法回答的情况下，也移至该步骤S53，判断引导执行者4的有无。

然后，在判断为存在引导执行者4时(步骤S53的“有”)，翻译部226进行来自引导对象者3的提问(英语)的向日语的翻译(步骤S55)，翻译结果从机器人100以声音以及/或者图像形式输出(步骤S56)。另外，通过步骤S53的判断，在判断为没有引导执行者4时(步骤S53的“无”)，在进行唤出引导执行者4的处理后(步骤S54)，移至步骤S55。在输出翻译结果后，移至步骤S52的使用状态的判断。

另外，在步骤S47中，判定出的说话者是引导执行者4的情况下(步骤S47的“站点管理者(日语说话者)”)，翻译部226进行来自引导执行者4的回答(日语)的向英语的翻译(步骤S57)，翻译结果从机器人100以声音以及/或者图像形式输出(步骤S58)。在输出翻译结果后，移至步骤S52的使用状态的判断。

图16与图17(两图是连续的顺序图)是引导执行者4基于机器人中的会话失败进行回答的情况下的顺序图。

在该例中，首先，引导对象者3用英语发声，机器人100将输入麦克风阵列131的声音向机器人控制装置200的提问接受部222发送。通过提问接受部222检测该声音的中断。此时，通过声音识别部223检测声音方向，进一步基于通过机器人100的照相机132取得的图像，通过图像识别部224进行面部识别，通过提问接受部222识别为说话者是引导对象者3。

在识别为是引导对象者3时，回答可否判定部225b判定回答可否，在能够回答时，通过回答输出部225d检索回答的会话，将作为检索结果的回答从机器人100以英语的声音以及/或者英语句子的图像形式输出。

至此是进行基于图16的上半部分所示的机器人100的回答的处理。

然后，在该回答的输出时，图像识别部224根据由机器人100的照相机132拍摄到的图像，进行引导对象者3的面部识别，并且会话失败检测部225c根据引导对象者3的感情判定，进行会话的失败的检测。

这里，会话失败检测部225c检测会话的失败，在确认到存在引导执行者4时，进行将引导对象者3用英语发声的提问句子翻译成日语的处理，输出其翻译结果。

至此是基于图16的下半部分所示的机器人100的会话失败检测时的处理。

之后，在本实施方式例的情况下，进行翻译引导执行者4的回答的处理。

即，如图17所示，引导执行者4的回答(日语发声)从机器人100向机器人控制装置200的提问接受部222发送，通过提问接受部222检测声音的中断。此时，通过声音识别部223检测声音方向，并且进行声音识别，进一步进行图像识别部224中的图像识别，识别说话者(引导执行者4)。

若识别到引导执行者4，则将引导执行者4的回答翻译成英语，将作为翻译结果的回答从机器人100以英语的声音以及/或者英语句子的图像形式输出。

如以上说明的那样，在本实施方式例中，机器人100对引导对象者3的提问进行回答，在该引导对象者3与机器人100的会话失败时，进行翻译引导执行者4的回答的处理。因此，能够通过引导执行者4辅助会话，并且使引导对象者3与机器人100中的会话适当地继续。

＜4.变形例＞

本发明不限定于上述的各实施方式例，包含各种变形例。

例如，在上述的实施方式例中，作为机器人100应用显示头像的平板电脑终端，但也可以形成其他的形状的机器人。另外，在上述的实施方式例中，机器人100进行麦克风、照相机中的输入处理与扬声器中的输出处理，用户的识别、会话处理、以及翻译处理等的数据处理由机器人控制装置200进行。与此相对，也可以在机器人100内进行一部分的数据处理或者全部的数据处理。

另外，至此，在各实施方式例中，示出了引导对象者3与引导执行者4分别各为1人的例子，但引导对象者3、引导执行者4也可以是多人。例如，在引导对象者3为多人时，通过声音与图像识别各个引导对象者3，能够对各个引导对象者3的提问进行回答。

另外，上述的实施方式例为了使本发明易懂地被说明而详细地进行了说明，不必限定于具备说明的全部的结构。另外，在图1～图4等的构成图中，示出了控制线、信息线仅考虑为在说明上是必要的，在制品上不必限定为示出了全部的控制线、信息线。实际上也可以考虑为几乎全部的结构被相互连接。另外，在图8、图9、图13、图14、图15所示的流程图、图10、图11、图12、图16、图17的顺序图中，在不对实施方式例的处理结果产生影响的范围内，也可以更换一部分的处理步骤的执行顺序、同时地执行一部分的处理步骤。

另外，在上述的实施方式例中说明的结构也可以通过处理器解释、执行实现各个功能的程序而用软件实现。实现各功能的程序等的信息能够放置于存储器、硬盘、SSD(Solid State Drive)等的记录装置，或者IC卡、SD卡、光盘等的记录介质。

【附图标记的说明】

1…声音引导系统，2…站点，3…引导对象者，4…引导执行者，100…机器人，110…CPU，120…存储装置，121…输入输出部，122…方案执行部，123…画面处理部，130…输入输出装置，131…麦克风阵列，132…照相机，133…扬声器，134…触摸面板，134a…文本显示部，134b…头像显示部，134c…引导对象者语言选择按钮，134d…引导执行者语言选择按钮，134e…站立位置更换按钮，140…通信接口，200…机器人控制装置，210…CPU，220…存储装置，221…输入输出装置，222…提问接受部，223…声音识别部，224…图像识别部，225…引导部，225a…会话继续判定部，225b…回答可否判定部，225c…会话失败判定部，225d…回答输出部，226…翻译部，230…机器人控制装置200的通信接口，300…机器人管理服务器，310…CPU，320…存储装置，321…机器人管理部，330…通信接口。

Claims

1.一种声音引导系统，其具备照相机、麦克风、扬声器，从所述扬声器输出基于输入到所述麦克风的声音的引导用的声音，其特征在于，

所述声音引导系统具备：

提问接受部，其接受基于输入到所述麦克风的声音的提问；

声音识别部，其存储与所述提问接受部接受到的提问对应的用户的声音的特征，基于存储的声音的特征识别所述用户；

图像识别部，其在所述提问接受部检测到声音时，存储由所述照相机拍摄到的用户的图像或者图像的特征，并基于存储的图像或者图像的特征识别所述用户；以及

引导部，其使用所述声音识别部存储的用户的声音的特征和所述图像识别部存储的用户的图像或者图像的特征，选择进行引导的用户，从所述扬声器输出针对选择出的用户的引导用的声音。

2.根据权利要求1所述的声音引导系统，其特征在于，

所述引导部选择所述声音识别部识别出的用户与所述图像识别部识别出的用户一致的用户，并且使用所述麦克风以及所述扬声器与选择出的用户执行会话。

3.根据权利要求2所述的声音引导系统，其特征在于，

所述麦克风设置有多个，

所述提问接受部接受来自多个所述麦克风的声音输入，并且接受基于在接受到的声音输入中具有所述声音识别部存储的特征的用户的声音最大的麦克风的声音输入的提问。

4.根据权利要求1所述的声音引导系统，其特征在于，

所述引导部具备翻译部，该翻译部将输出声音设为翻译成规定的语言的声音，

所述引导部基于所述提问接受部中的输入到所述麦克风的声音的接受状况，而从所述扬声器输出所述翻译部将所述提问接受部接受到的声音翻译成规定的语言的声音来代替输出引导用的声音。

5.根据权利要求1所述的声音引导系统，其特征子在于，

所述提问接受部将检测到预先登记的声音的特征或者图像的特征的用户设为非引导对象者，将检测到没有预先登记的声音的特征或者图像的特征的用户设为引导对象者，

所述引导部仅对引导对象者的提问进行回答。

6.根据权利要求5所述的声音引导系统，其特征在于，

所述图像识别部进行检测所述照相机拍摄到的引导对象者的反应的处理，

所述声音引导系统还具备：

会话失败判定部，其通过非引导对象者的发声次数和所述引导对象者的反应，检测非引导对象者的发声不是引导对象者的期待的发声的情况；

回答可否判定部，其判定可否对基于所述提问接受部接受到的声音的提问进行回答，

在所述会话失败判定部判定会话失败，并且所述回答可否判定部判定为能够回答时，所述引导部输出对引导对象者的提问的回答。

7.一种声音引导方法，扬声器输出基于输入到麦克风的声音的引导用的声音，由此进行基于声音的引导，其特征在于，

所述声音引导方法包括：

提问接受部接受基于输入到所述麦克风的声音的提问的提问接受处理；

声音识别部存储与通过所述提问接受部的提问接受处理接受到的提问对应的用户的声音的特征，基于存储的声音的特征识别所述用户的声音识别处理；

在通过所述提问接受部的提问接受处理检测到声音时，图像识别部存储由照相机拍摄到的用户的图像或者图像的特征，并且基于存储的图像或者图像的特征识别所述用户的图像识别处理；

引导部使用通过所述图像识别部的声音识别处理存储的用户的声音和通过所述图像识别处理存储的用户的图像或者图像的特征，选择进行引导的用户，从所述扬声器输出针对选择出的用户的引导用的声音的引导处理。