CN111953857A

CN111953857A - 装置

Info

Publication number: CN111953857A
Application number: CN202010385459.3A
Authority: CN
Inventors: 西冈大起
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-05-16
Filing date: 2020-05-09
Publication date: 2020-11-17
Also published as: US20200366800A1; JP7284455B2; JP2020187663A

Abstract

提供对装置使用的经验值不同的任何用户都能够提供使用方便性好的语音操作的装置。一种以基于语音的对话形式接受来自用户的指示的装置，经验值判断部(33)根据过去的使用履历等判断关于进行语音操作的用户对该装置的使用的经验值，信息量变更部(34)与该用户的经验值相应地，对语音操作中的对话形式的交流中向用户提供的语音应答的信息量进行变更。经验值越高，则越简化语音指导，并省略对话形式中的交流的步骤。

Description

装置

技术领域

本发明涉及以基于语音的对话形式接受来自用户的指示操作的装置。

背景技术

以往，利用语音指导来提高装置的操作性。但是，播放语音指导比画面显示更花费时间，因此如果总是进行相同的语音指导，则对已习惯使用的用户而言反而便利性下降。

为了应对该问题，在下述专利文献1中公开了一种装置，对用户从操作画面进行输入操作所花费的时间进行测定，在输入操作时间不超过一定值的情况下，判断为已习惯使用的用户并进行控制以不播放语音引导。

另外，近年来，通过利用人工智能技术，语音识别的精度大为提高，具备以语音来输入来自用户的各种指示的语音操作功能的装置不断增加。在语音操作中，通常采用如下对话形式的用户界面：装置播放语音指导，听到该语音指导的用户以语音输入下一指示。

在先技术文献

专利文献

[专利文献1]日本特开2018－147321号公报

发明内容

发明所要解决的课题

在对话形式的语音操作中，与使用操作画面和操作按钮的方式的用户界面相比，输入所花费的时间变长。

根据是否是已习惯使用的用户来控制播放/不播放语音指导的专利文献1的技术，对于利用操作画面接受来自用户的输入操作，而将语音指导仅仅作为其辅助来使用的装置是有效的。但是，在以基于语音的对话形式的用户界面为主的装置中，如果进行控制以完全不播放语音指导，则即使是已习惯使用的用户，也会发生不清楚下一操作而无法继续进行语音操作等不佳情况。

本发明为了解决上述的问题，其目的在于，提供针对使用装置的经验值不同的任何用户都能够提供使用方便性好的语音操作的装置。

用于解决课题的手段

用于达成上述目的的本发明的主旨之处，存在于以下各项发明中。

[1]一种以基于语音的对话形式接受来自用户的指示的装置，其特征在于，具有：

经验值判断部，判断关于所述用户对该装置的使用的经验值；以及

信息量变更部，与所述经验值判断部所判断的所述用户的经验值相应地，对所述对话形式的交流中向所述用户以语音提供的信息量进行变更。

在上述发明中，与关于正进行语音操作的用户对该装置的使用的经验值相应地，对语音应答中的信息量进行变更。

[2]如[1]所述的装置，其特征在于，所述经验值判断部将从上次接受来自所述用户的指示起经过的经过时间、从所述用户接受指示的频度、过去从所述用户接受指示时的指示间隔、过去从所述用户接受的指示中进行了设定变更的频度、所述用户对帮助功能的使用频度、在语音指导的输出中所述用户进行了中断操作的频度之中的至少1个，作为判断要素来判断所述经验值。

[3]如[1]或者[2]所述的装置，其特征在于，所述信息量变更部与所述用户的经验值相应地，对向所述用户提供的语音的发言速度进行变更。

[4]如[1]至[3]中任一项所述的装置，其特征在于，所述信息量变更部与所述用户的经验值相应的，省略所述对话形式的交流的步骤。

[5]如[1]乃至[4]中任一项所述的装置，其特征在于，所述信息量变更部为：所述经验值越高，则越减少向所述用户以语音提供的信息量。

[6]如[5]所述的装置，其特征在于，所述经验值判断部在从上次以基于语音的对话形式接受来自所述用户的指示起经过的经过时间是一定以上的情况下，与其他判断要素无关地将所述经验值设定为规定的低等级。

在上述发明中，在长时间不使用的情况下，判断为经验值下降。

[7]如[5]或者[6]所述的装置，其特征在于，所述经验值判断部在所述用户以一定次数以上持续进行了语音指导输出中的中断操作的情况下，与其他判断要素无关地将所述经验值设定为规定的高等级。

在上述发明中，关于在语音指导的中途进行中断操作的用户，不需要语音指导则判断为使用经验丰富的用户。

[8]如[5]至[7]中任一项所述的装置，还具有：

操作面板，显示与语音操作对应的操作画面；以及

用户确认部，取得能够判定所述用户是否位于能够看到所述操作画面的场所的信息，

所述经验值判断部在所述用户不位于能够看到所述操作画面的场所的情况下，与其他判断要素无关地将所述经验值设定为规定的低等级。

在上述发明中，装置在接受语音操作时，显示所对应的操作画面，因此一边观看该操作画面一边进行语音操作的用户能够从操作画面得到关于操作的信息。但是，不位于能够看到操作画面的场所的用户无法从操作画面得到信息，因此将经验值设定为低等级，以相应地增加语音应答的信息量。

[9]如[1]至[8]中任一项所述的装置，所述经验值判断部按每种作业判断所述经验值。

在上述发明中，根据作业种类，设定方法等不同，因此按每种作业种类判断经验值。

[10]如[1]至[9]中任一项所述的装置，所述装置与在语音输出中不接受来自用户的语音输入的用户界面部连接而被使用。

在上述发明中，在对话侧的用户界面中，如果装置侧输出的语音与用户发出的语音重叠，则难以对用户的语音进行识别，因此，使用具有在语音输出中不接受来自用户的新的语音输入的功能的用户界面部，作为负责语音的输入输出的用户界面部。

发明效果

根据本发明所涉及的装置，对装置使用的经验值不同的任何用户都能够提供使用方便性好的语音操作。

附图说明

图1是表示本发明的实施方式所涉及的装置的构成例的图。

图2是表示在图1所示的构成例中连接了相机与用户确认服务器的情况下的装置构成的图。

图3是表示图2所示的装置中的装置主体的概略构成的框图。

图4是表示本发明所涉及的装置的其他构成例的图。

图5是表示图4所示的装置的概略构成的框图。

图6是表示语音识别服务器所进行的处理的流程图。

图7是用户确认服务器所进行的处理的流程图。

图8是表示关于语音操作由装置主体进行的处理的流程图。

图9是表示判断表的一例的图。

图10是表示经验值等级6的情况下的语音操作的一例的时序图。

图11是表示经验值等级1～4的情况下的语音操作中的交流例的图。

图12是表示经验值等级5的情况下的语音操作中的交流例的图。

图13是表示经验值等级6的情况下的语音操作中的交流例的图。

图14是表示经验值等级7的情况下的语音操作中的交流例的图。

附图标记说明：

5……装置

10……装置主体

11……CPU

12……ROM

13……RAM

14……非易失存储器

15……硬盘装置

16……扫描仪部

17……图像处理部

18……打印机部

19……网络通信部

20……操作面板

21……操作部

22……显示部

23……麦克风

24……扬声器

31……语音解析部

32……用户确定部

33……经验值判断部

34……信息量变更部

35……语音应答部

36……判断数据存储控制部

37……语音识别部

38……用户确认部

40……语音输入输出终端

42……语音识别服务器

50……相机(判定信息取得部)

52……用户确认服务器

60……判断表

具体实施方式

以下，基于附图说明本发明的实施方式。

图1表示本发明的实施方式所涉及的装置5的构成例。装置5通过将语音输入输出终端40、语音识别服务器42与装置主体10以能够通信的方式连接而构成。在此，语音输入输出终端40与语音识别服务器42经由网络被连接，并且语音识别服务器42与装置主体10经由网络被连接。语音输入输出终端40和语音识别服务器42成为负责语音输入输出的用户界面部。

装置主体10是何种装置皆可，在此，设为具备如下功能等的所谓多功能复合一体机(MFP)：以光学方式读取原稿并将其复制图像打印在记录纸上的复印功能、将读取的原稿的图像数据作为文件保存或经由网络向外部终端发送的扫描功能、将从PC(PersonalComputer：个人计算机)等经由网络接收的打印数据所涉及的图像打印在记录纸上并输出的打印功能、依照传真流程收发图像数据的传真功能。

语音输入输出终端40通过具备将用户发出的语音转换为电信号的麦克风(Microphone)、输出与语音数据对应的声音(物理振动)的扬声器(speaker)、语音输入输出电路、用于与语音识别服务器42进行通信的通信部等而构成。语音输入输出终端40具有将与麦克风所输出的语音信号对应的语音数据向语音识别服务器42发送的功能、从扬声器输出与从语音识别服务器42接收的语音数据对应的声音的功能。

语音识别服务器42具有对从语音输入输出终端40接收的语音数据进行解析并将语音转换为文本向装置主体10发送的功能、将从装置主体10接收的文本数据转换为语音数据向语音输入输出终端40转送的功能等。

装置主体10除了具有利用针对操作面板的硬件开关或在画面上显示的软件开关的操作来接受来自用户的各种设定操作的功能之外，还具有利用基于语音的对话形式的交流来接受各种问询、要求、指示、设定等的语音操作的功能。装置主体10在以语音操作接受投放作业等的指示的情况下，将与其对应的操作画面显示在操作面板上。用户能够利用操作画面，确认以语音操作设定的作业的设定内容等。

语音操作中的语音的输入输出使用语音输入输出终端40来进行。

装置主体10在接受语音操作时，判断关于正进行该语音操作的用户对该装置的使用的经验值，与该用户的经验值相应地，对在对话形式的交流中向用户以语音提供的信息量(语音指导的详细度、交流的步骤的精细度等)进行变更。即，用户的经验值越高，则越减少向用户以语音提供的信息量(简化语音指导，或省略交流的步骤)。另外，与用户的经验值相应地对发言速度进行变更。例如，在用户的经验值低于一定程度的情况下，使发言速度比通常慢。

图2表示在图1所示的构成例中，进一步具备将装置主体10及其周围的规定范围作为摄影范围摄影动态图像的相机50以及用户确认服务器52的装置5的构成例。相机50经由网络与用户确认服务器52连接，用户确认服务器52与装置主体10经由网络被连接。装置主体10在从用户接受语音操作时，向用户确认服务器52问询用户是否位于能够看到本装置的操作面板的位置处、该用户是否正在看操作面板。接受了该问询的用户确认服务器52对相机50的摄影图像进行解析，确认用户是否位于能够看到作为问询源的装置主体10的操作面板的位置处、该用户是否正在看操作面板的操作画面，并将其结果向装置主体10通知。

此外，取得用于判定用户是否位于能够看到作为问询源的装置主体10的操作面板的位置处、该用户是否正在看操作面板的操作画面的信息的装置(判定信息取得部)，不限定于摄影动态图像的相机50。例如，也可以利用由红外线人感传感器对用户是否位于装置主体10附近进行检测、或者基于用户所持的标签或便携终端的位置对用户位于的场所进行确定、或者对用户的视线进行检测来对用户是否正在看操作面板进行判定的装置等。

图3是表示图2所示的装置5中的装置主体10的概略构成的框图。装置主体10具有作为对装置主体10的动作进行总体控制的控制部的CPU(Central Processing Unit：中央处理单元)11。CPU11经由总线与ROM(Read Only Memory：只读存储器)12、RAM(RandomAccess Memory：随机访问存储器)13、非易失存储器14、硬盘装置15、扫描仪部16、图像处理部17、打印机部18、网络通信部19、操作面板20等连接。

CPU11基于OS(Operating System：操作系统)程序，在其上执行中间件、应用程序程序等。在ROM12中，存放着各种程序，CPU11依照这些程序执行各种处理，从而实现装置主体10的各功能。

RAM13作为在CPU11基于程序执行处理时暂时存放各种数据的工作存储器或存放图像数据的图像存储器等被使用。

非易失存储器14是即使关断电源其存储内容也不会丢失的存储器(闪存)，在默认设定值或管理者设定等的保存等中被使用。另外，在非易失存储器14中，存储着判断表60，该判断表60登记了用于判断关于该装置主体10的使用的用户的经验值的判断基准。

硬盘装置15是大容量非易失的存储装置，存储打印数据、设定画面的画面数据，还存储各种程序、数据。进而在硬盘装置15中，存储用于判断用户的经验值的判断数据。

扫描仪部16具有以光学方式读取原稿并取得图像数据的功能。扫描仪部16具有用于将原稿台上放置的多张原稿依次送出并读取的自动原稿输送装置(ADF)。另外，由该自动原稿输送装置将原稿的正反面翻转，从而能够读取原稿的正反面。

图像处理部17进行图像的扩大缩小、旋转等处理，还进行将打印数据转换为图像数据的光栅处理、图像数据的压缩、解压缩处理等。

打印机部18具有将与图像数据相应的图像在记录纸上进行图像形成的功能。在此，具有记录纸的输送装置、感光鼓、充电装置、激光单元、显影装置、转印分离装置、清洁装置和定影装置，作为通过电照相术处理进行图像形成的所谓激光打印机的引擎部而构成。图像形成也可以采用其他方式。

网络通信部19具有经由LAN等网络与各种外部装置、语音识别服务器42、用户确认服务器52等服务器进行通信的功能。

操作面板20具备操作部21、显示部22。在显示部22上显示各种操作画面、设定画面。显示部22由液晶显示器及其驱动器等构成。操作部21从用户接受各种操作(触摸操作、按下操作)。操作部21由开始按钮或数字键等各种硬件开关、以及显示部22的显示面上设置的触摸面板等构成。

CPU11对装置主体10的动作整体进行控制，另外作为与对话形式的语音操作相关的功能，具有语音解析部31、用户确定部32、经验值判断部33、信息量变更部34、语音应答部35、判断数据存储控制部36等功能。

语音解析部31对从语音识别服务器42接收的文本句子进行解析，并识别用户向语音输入输出终端40输入的语音的内容。

用户确定部32具有确定正进行语音操作的用户的功能。例如，通过从语音识别服务器42接收文本转换前的语音信号并进行声波纹解析，来确定正进行语音操作的用户。此外，利用声波纹确定用户的功能既可以由语音识别服务器42进行，也可以委托其他服务器进行。确定正进行语音操作的用户的方法不限定于声波纹认证，也可以是任意的认证方法。例如，也可以在语音输入输出终端40上设置相机，摄影用户并进行面部认证。

经验值判断部33判断关于正进行语音操作的用户对该装置的使用的经验值。

信息量变更部34与经验值判断部33所求出的经验值相应地，对在语音操作的交流中向用户以语音提供的信息量进行设定变更。

语音应答部35进行如下处理：依照信息量变更部34对信息量的设定，决定语音应答的内容(向用户输出的语音的内容)，将该数据向语音识别服务器42发送，使对应的语音从语音输入输出终端40输出。

判断数据存储控制部36进行控制，以将作为判断用户的经验值的材料的各种判断数据存储至硬盘装置15。判断数据按每个用户包含：从接受上次操作起经过的经过时间、接受指示操作的频度(使用频度)、过去接受指示操作时的指示间隔、在过去接受的指示操作中进行设定变更的频度、帮助功能的使用频度、在语音指导的输出中进行中断操作的频度等的信息。在判断数据中，每个用户的这些信息进一步按每个作业种类被分类并存储。另外，作为判断数据的对象的操作指示既可以限定为基于语音操作的指示，也可以包含来自操作面板的指示操作和基于语音操作的指示操作双方。

在从接受上次操作起经过的经过时间是一定以上的情况下，将经验值评价得低。接受指示操作的频度(使用频度)越高，则将经验值评价得高。过去接受指示操作时的指示间隔越长，则将经验值评价得低。在过去接受的指示操作中进行设定变更的频度越高，则将经验值评价得高。帮助功能的使用频度越高，则将经验值评价得低。在语音指导的输出中进行中断操作的频度越高，则将经验值评价得高。经验值的判断基于该用户的作业类别的判断数据，按每个作业种类进行。

此外，本发明所涉及的装置如图4、图5所示，也可以设为将语音输入输出终端40、语音识别服务器42、相机50、用户确认服务器52、装置主体10的功能汇集于1个装置而成的装置10B。在图4、图5所示的装置10B中，针对与图3所示的装置主体10具有相同功能的部分赋予相同的标记，并省略其说明。

操作面板20具有麦克风23、扬声器24，具备作为语音输入输出终端40的功能。CPU11与作为判定信息取得部的相机50连接。CPU11还具有相当于语音识别服务器42的语音识别部37、相当于用户确认服务器52的用户确认部38的功能。

图6是表示语音识别服务器42所进行的处理的流程图。语音识别服务器42在用户向语音输入输出终端40发言，并从语音输入输出终端40接收了与其对应的语音数据的情况下(步骤S101：是)，则对该语音数据进行解析，并转换为文本(步骤S102)。然后，将转换后的文本数据向装置主体10发送(步骤S103)，并向步骤107过渡。接收了该数据的装置主体10决定应应答的语音内容，将与其对应的文本数据向语音识别服务器42发送。此外，在由装置主体10进行声波纹认证的情况下，语音识别服务器42在步骤103中，将转换后的文本数据与转换前的语音数据都向装置主体10发送。

语音识别服务器42如果从装置主体10接收了发言对象的文本数据(步骤S101：否，S104：是)，则将该文本数据转换为语音数据并向语音输入输出终端40发送(步骤S105)，等待与该语音数据对应的语音发言在语音输入输出终端40上结束(步骤S106：否)。

由此，语音识别服务器42直到语音输入输出终端40上的语音发言结束为止，不接受来自用户的新的语音输入。在对话侧的用户界面中，如果语音输入输出终端40所发言的语音与用户的语音重叠，则难以识别用户的语音，因此进行控制，以使直到语音输入输出终端40上的语音发言结束为止，不接受来自用户的新的语音输入。因此，用户必须等待下次语音输入直到语音输入输出终端40的语音发言结束为止。

语音识别服务器42例如根据从向语音输入输出终端40发送语音数据起经过的时间(优选为与语音数据的长度对应地决定的时间)，判定语音输入输出终端40上的语音发言的结束，或者从语音输入输出终端40接收语音发言结束的通知，来判定语音输入输出终端40上的语音发言的结束。

语音识别服务器42在语音输入输出终端40上的语音发言结束的情况下(步骤S106：是)，向步骤107过渡。

在步骤107中，确认用户与装置主体10的对话是否结束。例如，如果接受了作业开始的语音指示，并向装置主体10发送了该指示，则判定为对话结束。如果对话没有结束(步骤S107：否)，则返回步骤101并继续处理。如果对话结束(步骤S107：是)，则结束本处理。

图7是表示用户确认服务器52所进行的处理的流程图。用户确认服务器52从相机50实时地接收并取得由相机50摄影的动态图像数据(步骤S201)，对该动态图像数据进行解析并检测用户的位置及面部的朝向(步骤S202)，判断该用户是否位于能够看到装置主体10的操作面板20的位置处、是否正在看操作面板20(步骤S203)，将该判断结果向装置主体10发送(步骤S204、步骤S205)。

在此，在判断为用户从能够看到装置主体10的操作面板20的位置正在看该操作面板20的操作画面的情况下(步骤S203：是)，将表示该含义的判断结果向装置主体10发送(步骤S204)，在用户不位于能够看到装置主体10的操作面板20的位置处的情况下，或者虽然位于能够看到装置主体10的操作面板20的位置处但不是正在看的情况下(步骤S203：否)，将表示用户不是正在看操作面板20的判断结果向装置主体10发送(步骤S205)。

图8是表示关于语音操作由装置主体10进行的处理的流程图。此外，装置主体10在接受语音操作时，将对应的操作画面显示在操作面板20上。

装置主体10对从语音识别服务器42接收的文本数据进行解析，识别用户所发出的语音指示的内容(步骤S301)。接下来，装置主体10利用声波纹认证等确定正进行语音操作的用户(步骤S302)。另外，装置主体10向用户确认服务器52问询正进行语音操作的用户是否正在看该装置主体10的操作面板20，从用户确认服务器52接收并取得该判断结果(步骤S303)。

装置主体10基于硬盘装置15中存储的关于在步骤S302中确定的用户的判断数据及步骤S303中的问询的结果，导出关于该用户对该装置的使用的经验值(步骤S304)。此外，在对话形式的交流中确定作为语音操作的对象的作业种类以前，不限定作业种类地导出关于该用户的经验值，进行与该经验值相应的语音应答，在对话形式的交流中确定了作为语音操作的对象的作业种类后，重新导出与该作业种类相关的经验值，进行与该经验值相应的语音应答。

装置主体10与步骤S304中导出的经验值相应地，对信息量进行变更并进行语音应答(步骤S306)。具体而言，经验值越高，则使语音指导的内容越简洁，经验值越高，则越省略交流的步骤。另外，在经验值为一定值以下的情况下使发言速度比通常更慢。在语音应答中，装置主体10决定表示语音应答的内容的文本数据，并将其向语音识别服务器42发送。

图9表示登记了步骤S304中导出经验值时的判断基准的判断表60的一例。经验值被分为最低的等级1至最高的等级7为止的7阶段来评价。

根据图9所示的判断表60，如果该用户的这次语音操作所涉及的作业种类的作业使用频度为一定值以上，而且，在该作业种类的作业的设定中过去的设定变更率为阈值以下，则判断为经验值等级7。即，针对习惯使用该作业、而且不进行设定值的变更而维持默认设定地执行该作业的情况较多的用户，判定为不需要提供详细的语音指导，将经验值等级设得高。

在不相当于经验值等级7的情况下，如果语音指导中的中断操作的频度为一定值以上，而且在过去的语音操作中的每个步骤的指示间隔的平均时间为阈值以下，则判断为经验值等级6。对于在语音指导的中途进行中断操作的用户，不需要语音指导则判断为使用经验丰富的用户。另外，对于指示间隔短的用户，能够估计为没有犹豫地进行语音操作。因此，关于这样的用户设为经验值等级6。

在不相当于经验值等级7及6的情况下，如果该用户的这次语音操作所涉及的作业种类的作业的使用频度为一定值以上，则判断为经验值等级5。

其中，即使在相当于经验值等级5～7中的某一个的情况下，在刚使用帮助功能后的规定次数以内的语音操作的情况下，也判断为经验值等级4。即，对于使用帮助功能后的数次的语音操作，可以想到正进行与其参照的帮助功能相关联的设定，因此降低经验值等级以播放详细地语音指导。

另外，即使在相当于经验值等级5～7中的某一个的情况下，在从上次操作经过了一定期间的情况下，判断为经验值等级3。在长时间不使用的情况下，判断为经验值下降。

即使在相当于经验值等级5～7中的某一个的情况下，在用户不位于能够看到操作面板20的场所，或者用户虽然位于能够看到操作画面的场所但不是正在看操作面板20的情况下，判断为经验值等级2。装置主体10在接受语音操作时，显示所对应的操作画面，因此一边观看该操作画面一边进行语音操作的用户能够从操作画面得到关于操作的信息。但是，不位于能够看到操作画面的场所的用户或不是正在看操作画面的用户，从操作画面无法得到信息，因此降低经验值等级，以相应地增加语音应答的信息量。

在其他情况下判断为经验值等级1。

根据图9所示的判断表60，在经验值等级是1～4的情况下，成为简化等级0，不简化应答内容，而详细地进行语音应答。即，播放最详细的语音指导，不省略对话形式的交流的步骤地进行。

在经验值等级是5的情况下，成为简化等级1，对应答内容以某种程度进行简化。即，播放稍微简化的语音指导，不省略对话形式的交流的步骤。在经验值等级是6的情况下，成为简化等级2，使应答内容比简化等级1的情况更简化。即，播放大幅简化的语音指导，不省略对话形式的交流的步骤。在经验值等级是7的情况下，成为简化等级3，使应答内容比简化等级2的情况更简化。在此，播放大幅简化的语音指导，而且，省略对话形式的交流的一部分步骤。

图10表示经验值等级6的情况下的语音操作的流程的一例。如果用户向语音输入输出终端40以语音输入了“复印”，则语音识别服务器42对该语音进行识别，将对其进行文本转换而得到的文本数据向装置主体10发送。例如，语音识别服务器42基于声波纹确定用户，将用户名向装置主体10通知。装置主体10对接收的文本数据进行解析并识别指示内容(是复印的指示)，暂定地生成基于默认设定的复印作业。另外，装置主体10向用户确认服务器52发送用户确认指示，以问询用户是否位于能够看到操作面板20的场所、用户是否正在看操作面板20。

用户确认服务器52从作为用户确认指示的发送源的装置主体10附近的相机50取得动态图像并进行解析，判断用户是否位于能够看到该装置主体10的操作面板20的场所、用户是否正在看操作面板20，将该判断结果向问询源的装置主体10送回。

装置主体10导出进行语音操作的用户的与复印作业相关的经验值。在此，判断为经验值等级6。装置主体10以与导出的经验值对应的信息量，制作用于语音应答的文本数据，并将其向语音识别服务器42发送并使对应的语音从语音输入输出终端40输出。在此，以“是复印吧”进行语音应答。

接下来，如果用户向语音输入输出终端40以语音输入了“双面打印”，则语音识别服务器42对该语音进行识别，并将对其进行文本转换而得到的文本数据向装置主体10发送。装置主体10对接收的文本数据进行解析并对指示内容进行识别，将刚才制作的复印作业的设定变更为“双面打印”。然后，以经验值等级6制作语音应答的文本数据，将其向语音识别服务器42发送并使对应的语音从语音输入输出终端40输出。在此，以“OK”进行语音应答。

接下来，如果用户向语音输入输出终端40以语音输入了“开始”，则语音识别服务器42对该语音进行识别，并将对其进行文本转换而得到的文本数据向装置主体10发送。装置主体10对接收的文本数据进行解析并对指示内容进行识别，开始刚才的复印作业。然后，以与“开始”的指示操作对应的经验值等级6制作语音应答的文本数据，将其向语音识别服务器42发送，使对应的语音从语音输入输出终端40输出。在此，以“开始作业”进行语音应答。

图11表示经验值等级1～4的情况下的语音操作中的交流例。在经验值等级1～4的情况下，各步骤中的语音指导通过详细的内容进行。另外，不省略步骤。

图12表示经验值等级5的情况下的语音操作中的交流例。在经验值等级5的情况下，与图11相比，各步骤中的语音指导的内容以某种程度被简化。

图13表示经验值等级6的情况下的语音操作中的交流例。在经验值等级6的情况下，与图12相比，各步骤中的语音指导的内容被进一步简化。

图14表示经验值等级7的情况下的语音操作中的交流例。在经验值等级7的情况下，与图13相比，对话的步骤被省略。

像这样，与用户的经验值相应地，将语音应答的内容、对话的步骤以多个阶段简化，以适于各个用户的详细度、周到程度进行对话形式的交流，能够对装置使用的经验值不同的任何用户都提供使用方便性好的语音操作。

以上，通过附图说明了本发明的实施方式，但具体的构成不限于实施方式所示，即使进行了不脱离本发明的主旨的范围内的变更、追加，也包含于本发明。

本发明所涉及的装置的构成不限定于图1～图5所示，例如，也可以设为不包含用户界面部(语音输入输出终端40、语音识别服务器42)而是与其连接的装置。只要是具有图3所示的装置主体10之中的语音解析部31、用户确定部32、经验值判断部33、信息量变更部34、语音应答部35、判断数据存储控制部36的功能的装置即可。另外，也可以是使不同于装置主体10的服务器具有这些功能、或者将这些功能加入语音识别服务器42或用户确认服务器52的构成。

在实施方式中，将用户是否正在看操作面板20加入判断要素来导出经验值等级，但也可以不将其作为判断要素。另外，在实施方式中，将是否是用户位于能够看到装置主体10的操作面板20的场所且该用户正在看操作面板20，作为经验值等级的判断要素，但实际上也可以与是否正在看操作面板20无关，将是否位于能够看到装置主体10的操作面板20的场所作为判断要素。

另外，在位于操作面板20附近的用户不看操作面板20地进行语音操作的情况下，能够估计为习惯使用到即使完全不看操作画面也能够毫无问题地进行语音操作，因此也可以与位于操作面板20附近的用户一边看操作面板20一边进行语音操作的情况相比，使经验值等级更高。

在实施方式中，在接受语音操作时，将对应的操作画面显示在操作面板20上，但也可以设为不显示操作画面地接受语音操作的构成。

本发明所涉及的装置不限定于实施方式所示的多功能复合一体机，只要是进行对话形式的语音操作的装置，则可以是任意的装置。

Claims

1.一种以基于语音的对话形式接受来自用户的指示的装置，其特征在于，具有：

2.如权利要求1所述的装置，其特征在于，

所述经验值判断部将从上次接受来自所述用户的指示起经过的经过时间、从所述用户接受指示的频度、过去从所述用户接受指示时的指示间隔、过去从所述用户接受的指示中进行了设定变更的频度、所述用户对帮助功能的使用频度、在语音指导的输出中所述用户进行了中断操作的频度之中的至少1项，作为判断要素来判断所述经验值。

3.如权利要求1或者2所述的装置，其特征在于，

所述信息量变更部与所述用户的经验值相应地，对向所述用户提供的语音的发言速度进行变更。

4.如权利要求1至3中的任一项所述的装置，其特征在于，

所述信息量变更部与所述用户的经验值相应地，省略所述对话形式的交流的步骤。

5.如权利要求1至4中的任一项所述的装置，其特征在于，

所述信息量变更部为：所述经验值越高，则越减少向所述用户以语音提供的信息量。

6.如权利要求5所述的装置，其特征在于，

所述经验值判断部在从上次以基于语音的对话形式接受来自所述用户的指示起经过的经过时间是一定以上的情况下，与其他判断要素无关，将所述经验值设定为规定的低等级。

7.如权利要求5或者6所述的装置，其特征在于，

所述经验值判断部在所述用户以一定次数以上持续进行了语音指导输出中的中断操作的情况下，与其他判断要素无关，将所述经验值设定为规定的高等级。

8.如权利要求5至7中的任一项所述的装置，其特征在于，还具有：

操作面板，显示与语音操作对应的操作画面；以及

所述经验值判断部在所述用户不位于能够看到所述操作画面的场所的情况下，与其他判断要素无关，将所述经验值设定为规定的低等级。

9.如权利要求1至8中的任一项所述的装置，其特征在于，

所述经验值判断部按每种作业判断所述经验值。

10.如权利要求1至9中的任一项所述的装置，其特征在于，

所述装置与在语音输出中不接受来自用户的语音输入的用户界面部连接而被使用。