CN111263021A

CN111263021A - 语音操作系统、语音操作方法、计算机装置以及存储介质

Info

Publication number: CN111263021A
Application number: CN201911202367.0A
Authority: CN
Inventors: 岩佐圭祐
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-11-30
Filing date: 2019-11-29
Publication date: 2020-06-09
Also published as: JP2020087347A; US11302321B2; US20200175984A1

Abstract

本发明提供能够提高图像形成装置的操作性的语音操作系统、语音操作方法以及计算机装置和存储介质。本发明的语音操作系统具备通过与用户的对话来接受语音操作的扬声器；接收该扬声器受理的所述语音操作的服务器装置；以及，执行该服务器装置发送的作业的图像形成装置，所述语音操作系统具有，输入部，用于接受语音操作信息，该语音操作信息表示所述扬声器受理的用户的语音操作；变换部，用于将所述输入部受理的所述语音操作信息变换成所述图像形成装置可以解释的作业；以及，指示部，用于指示所述图像形成装置执行经过所述变换部变换的所述作业。

Description

语音操作系统、语音操作方法、计算机装置以及存储介质

技术领域

本发明涉及语音操作系统、语音操作方法以及计算机装置和存储介质。

背景技术

目前，存在可以用对话方式的语音操作来检索信息、操作各种设备的智能扬声器。

另一方面，复合机(MFP:Multifunction Peripheral)等图像形成装置是由GUI(Graphical User Interface)手动操作的。

但是，图像形成装置无法通过智能扬声器接受操作。因而对于提高操作性尚有改善余地。

发明内容

本发明是鉴于上述问题提出技术方案，其目的在于提供能够提高图像形成装置的操作性能的语音操作系统、语音操作方法以及计算机装置和存储介质。

为了解决上述课题，达到上述目的，本发明提供一种语音操作系统，其中具备，通过与用户的对话来接受语音操作的扬声器；接收该扬声器受理的所述语音操作的服务器装置；以及，执行该服务器装置发送的作业的图像形成装置，所述语音操作系统具有，输入部，用于接受语音操作信息，该语音操作信息表示所述扬声器受理的用户的语音操作；变换部，用于将所述输入部受理的所述语音操作信息变换成所述图像形成装置可以解释的作业；以及，指示部，用于指示所述图像形成装置执行经过所述变换部变换的所述作业。

本发明的效果在于能够提高图像形成装置装置的操作性能。

附图说明

图1是本实施方式涉及的一例语音操作系统的示意图。

图2是MFP的一例硬件结构示意图。

图3是智能扬声器的一例硬件结构示意图。

图4是云服务装置的一例硬件结构示意图。

图5是MFP所具备的一例功能结构模块图。

图6是智能扬声器具备的一例功能结构示意图。

图7是云服务装置具备的一例功能结构示意图。

图8是语音操作整体动作的时序图。

图9是一例实体信息的示意图。

图10是根据语音短语登录的一例实体信息的示意图。

图11是对话方式语音操作的一例流程图。

图12是本实施方式涉及的语音操作系统执行的语音操作而实施的一例启动处理时序图。

图13是本实施方式涉及的语音操作系统执行的语音操作而实施的一例复印设定处理时序图。

图14是本实施方式涉及的语音操作系统执行的语音操作而实施的一例份数设定处理时序图。

图15是本实施方式涉及的语音操作系统执行的语音操作而实施的一例确认处理时序图。

图16是发生故障时的对话方式语音操作流程图。

图17是用本实施方式涉及的语音操作系统执行的语音操作进行的一例确认处理时序图。

图18是用本实施方式涉及的语音操作系统执行的语音操作进行的一例执行判断处理时序图。

图19是用本实施方式涉及的语音操作系统执行的语音操作进行的一例能否执行处理时序图。

图20是用本实施方式涉及的语音操作系统执行的语音操作进行的一例检索处理时序图。

图21是用本实施方式涉及的语音操作系统执行的语音操作进行的一例打印处理时序图。

图22是用本实施方式涉及的语音操作系统执行的语音操作进行的一例显示语言更改处理时序图。

图23是用变形例1涉及的声音操作系统执行的语音操作进行的一例显示语言更改处理时序图。

图24是用变形例2涉及的语音操作系统执行的语音操作进行的显示语言更改处理时序图。

具体实施方式

以下参考附图，详述语音操作系统、语音操作方法和语音操作程序的实施方式。以下说明的实施方式是语音操作系统、语音操作方法及语音操作程序的一种实施方式，其构成和规格等并不受此限制。

系统构成

图1显示本实施方式涉及的一例语音操作系统1。如图1所示，语音操作系统1具有一台以上的MFP(Multifunction Peripheral)10、一台以上的智能扬声器20、以及云服务装置30。MFP10、智能扬声器20和云服务装置30通过LAN(Local Area Network)等网络50连接。

智能扬声器20是通过与用户进行对话，进行各种信息输入输出的扬声器。本实施方式以智能扬声器20为例进行说明，但也可以是智能手机、平板终端、个人电脑等设备。智能扬声器20为了对MFP10进行语音操作，从用户接受语音输入。智能扬声器20可以向用户输出声音。智能扬声器20还可与云服务装置30之间进行数据通信(比如语音数据、文本数据、图像数据等的收发)。

云服务装置30由一台以上服务器装置构成。云服务装置30分析从智能扬声器20收到的语音数据，将其转换为文本数据。云服务装置30根据文本数据和预先登录的辞典信息，解释用户的意图，并将解释结果变换成MFP10可解释形式的作业执行指令，发送给MFP10。此外，云服务装置30具备操作语音变换程序31、语音助理程序32、管理程序33、管理DB(database)34、以及关联用DB35。关于这些细节将在后面叙述。

MFP10是具有打印功能和扫描功能等多种功能的复合机。换言之，MFP10是一种图像形成装置，执行从云服务装置30发送的作业执行指令。

MFP10的硬件构成

图2是MFP10的一例硬件构成。MFP10具有控制器101、通信部102、显示部103、扫描引擎104以及打印引擎105。

控制器101具有CPU111、ASIC(Application Specific Integrated Circuit)112、内存113、存储部114、以及定时器115。这些部件通过总线可通信地相互连接。

CPU111统括控制MFP10。ASIC112是一种大规模集成电路(LSI:Large-ScaleIntegration)。ASIC112对扫描引擎104及打印机引擎105所处理的图像进行各种图像处理。

内存113是一种可暂时保存程序和数据的挥发性半导体内存。存储部114为硬盘(Hard Disk Drive，硬盘驱动器)、SSD(Solid State Drive，固态驱动器)之类的存储装置。例如，存储部114存储控制程序11等。控制程序11是控制MFP10具备的特征性功能执行的程序。定时器115用于测定时间。

通信部102执行与各连接网络50的装置的通信。通信部102取得例如扫描指示或打印指示等作业执行指令。

显示部103为液晶显示部(LCD:Liquid Crystal Display)和触摸传感器一体形成的触摸面板。显示部103通过用户接触显示的操作按钮等接受操作。

扫描引擎104控制扫描单元，以光学方式读取稿件。打印引擎105控制图像写入单元，例如在转印纸等上打印图像。

智能扬声器20的硬件构成

图3是智能扬声器20的一例硬件构成。智能扬声器20具备CPU201、RAM(RandomAccess Memory)202、ROM(Read Only Memory)203、存储部204、接口(I/F)部205、通信部206、触摸面板207、扬声器部208及麦克风部209。这些各部件通过总线可通信地相互连接。

CPU201在整体上控制智能扬声器20。RAM202是可暂时保存程序和数据的挥发性半导体内存。ROM203是存储程序和数据的非挥发性半导体内存。

存储部204是例如闪存等的存储装置。存储部204保存操作语声处理程序21。

CPU201通过执行操作语声处理程序21，控制各种处理。例如，CPU201控制从麦克风部209获取语音信息。CPU201还控制将获取的语音信息送往云服务装置30。进而，CPU201还可以控制从云服务装置30获得的数据(语音数据、文本数据、图像数据等)在触摸面板207上的显示输出以及扬声器部208的语音输出。

接口部205上连接触摸面板207、扬声器部208、以及麦克风部209。触摸面板207以液晶显示部和触摸传感器一体形成。扬声器部208输出语音。麦克风部209收集(获取)语音。麦克风部209例如收集(获取)对MFP10的作业执行指令的输入语音。输入语音通过通信部206发送到云服务装置30。

通信部206执行与各连接网络50的装置的通信。

云服务装置30的硬件构成

图4是云服务装置30的一例硬件构成的示意图。云服务装置30具备CPU301、RAM302、ROM303、存储部304、接口(I/F)部305、通信部306、显示部307、以及操作部308。这些各部通过总线可通信地相互连接。

CPU301主要控制云服务装置30。CPU301执行存储在存储部304等中的程序。RAM302是可暂时保存程序和数据的挥发性半导体内存。ROM303是存储程序和数据的非挥发性半导体内存。

存储部304例如是硬盘和SSD等存储装置。存储部304保存操作语音变换程序31、语音助理程序32、以及管理程序33。

操作语音变换程序31将语音数据转换为文本数据，并判断是否与预先定义的辞典信息相符，如果符合，则将文本数据变换为表示用户意图的意图以及表示作业条件等变量的参数。语音助理程序32保存辞典信息。管理程序33把意图和参数变换成MFP10可以解读形式的作业实行指示后，送往已经登录的MFP10。

操作语音变换程序31、语音助理程序32、管理程序33可以由一台服务器执行，也可以用不同的服务器实现，还可以用多台服务器协作执行这些程序。

存储部304保存操作语音变换程序31、语音助理程序32、管理程序33使用的数据，例如管理DB34和关联用DB35。

管理DB34是存储文本数据、图像数据、语音数据等云服务装置30所提供的内容涉及的数据的数据库。关联用DB35保存与智能扬声器20相关联的MFP10。关联用DB35将例如识别智能扬声器20的设备ID和识别MFP10的ID相关联起来保存。管理DB34和关联用DB35的其中之一或者双方可以存储在云服务装置30通过网络50访问的其他服务器中。

接口部305连接显示部307及操作部308。显示部307例如是液晶显示部(LCD)。操作部308是键盘和鼠标等输入装置。

通信部306执行与各连接网络50的装置的通信。

MFP10的功能

图5是MFP10具备的一例功能结构示意图。MFP10的CPU111通过执行存储部114中存储的控制程序11，起到如图5所示的通信控制部121、作业执行部122、语言设定部123以及显示控制部124的功能。

通信控制部121控制通信部102，执行与连接网络50的各装置的通信。例如，通信控制部121接收MFP10执行的作业指令或指定MFP10显示的语言的语言种类等。

作业执行部122在收到作业指令的情况下，执行作业指令所表示的作业。例如，作业执行部122根据作业指令，执行打印机功能或扫描功能。

语言设定部123更改显示部103上显示的画面的语言设定。例如，语言设定部123在通信控制部121收到语言种类的情况下，将语言设定更改为收到的语言种类。

显示控制部124在设于MFP10的显示部103上，显示用智能扬声器20受理的语音操作的语言种类所表示的画面。例如，显示用根据扬声器可以解释的语言种类所设定的语言设定来识别的语言种类所表示的画面。

虽然本例通过软件实现通信控制部121、作业执行部122、语言设定部123、以及显示控制部124，但其中的一部分或全部，也可以用IC(Integrated Circuit，集成电路)等硬件实现。通信控制部121、作业执行部122、语言设定部123以及显示控制部124所实现的功能，可以由控制程序11单独实现，也可以让他程序执行处理的一部分，或者用其他程序间接执行处理。

智能扬声器20的功能

图6是智能扬声器20配备的一例功能结构示意图。智能扬声器20的CPU201通过执行存储部204中保存的操作语音处理程序21，具有图6所示的取得部211、通信控制部212及语音反馈部213的功能。

取得部211通过麦克风部209取得操作MFP10的用户的指示语音。取得部211不仅限于麦克风部209，也可以通过触摸面板207和物理开关等获取用户的操作。

通信控制部212控制智能扬声器20和云服务装置30之间的通信。通信控制部212将取得部211取得的信息送往云服务装置30，同时从云服务装置30中获取文本数据、图像数据、语音数据。通信控制部212在把取得部211取得的信息送往云服务装置30时，还可以发送特定智能扬声器20的设备ID。

语音反馈部213控制扬声器部208，向用户反馈语音，也就是输出语音，用以实现对话方式语音操作。语音反馈部213进行例如促使补充缺少的数据的语音输入的语音反馈，或者确认语音输入的语音反馈等。另外，语音反馈部213还可以控制触摸面板207，将文本或图像反馈给用户。

本例中用软件实现取得部211、通信控制部212、以及语音反馈部213，但是也可以用IC等硬件实现其中一部分或全部。另外，取得部211、通信控制部212、以及语音反馈部213实现的功能既可以通过操作语音变换程序31单独实现，也可以使其他程序执行一部分处理，或者使用其他程序间接执行处理。

云服务装置30的功能

图7是云服务装置30配备的功能构成的一个例子。云服务装置30的CPU301通过执行存储部304中保存的操作语音变换程序31，具有如图7所示的取得部311、文本变换部312、解释部313、输出部314、以及语言识别部315的功能。

取得部311接收智能扬声器20受理的用户的语音操作的语音数据等语音操作信息。即，取得部311取得从智能扬声器20发送的由用户输入的语音数据。取得部311不仅可以获得语音数据，还可以获得智能扬声器20的触摸面板207按钮和开关等用户操作。

文本变换部312将用户输入的语音数据转换为文本数据。

解释部313根据文本数据，解释来自用户的指示。具体而言，解释部313根据语音助理程序32提供的辞典信息，判断包含在文本数据中的单词等是否与辞典信息一致。解释部313在单词等与辞典信息一致的情况下，变换为表示用户意图的意图和表示作业条件等变量的参数。解释部313将意图及参数送往管理程序33，但此时与指定作为语音数据的获取源的智能扬声器20的装置ID一起发送。

输出部314控制通信部306执行通信。例如，输出部314执行对智能扬声器20的文本数据、语音数据、图像数据等数据的发送等。

语言识别部315识别智能扬声器20受理的语音操作的语言种类。然后，MFP10用智能扬声器20接受的语音操作的语言种类显示各种语句所表现的画面。也就是说，语言识别部315识别该语言识别部315要显示的画面的语言种类。

虽然本例用软件实现取得部311、文本变换部312、解释部313、输出部314、以及语言识别部315，但也可以用IC等硬件实现其中一部分或全部。取得部311、文本变换部312、解释部313、输出部314、以及语言识别部315的功能既可以通过操作语音变换程序31单独实现，也可以使其他程序执行一部分处理，还可以使用其他程序间接执行处理。

例如，可以让语音助理程序32执行操作语音变换程序31的解释部313的一部分或全部功能。在这种情况下，语音助理程序32可以判断包含在文本数据中的单词是否与词典信息相符。在符合的情况下语音助理程序32执行向表示用户意图的意图和作业条件等变量的参数的转换。而且，解释部313也可以从语音助理程序32中取得意图以及参数。

云服务装置30的CPU301通过执行存储部304中存储的语音助理程序32，如图7所示，作为提供部321发挥功能。

提供部321管理预先定义的文本数据和意图以及参数之间关系的辞典信息，并提供给操作语音变换程序31。提供部321还可以根据文本数据来解释来自用户的操作指示。具体而言，提供部321从操作语音变换程序31取得文本数据，判断包含在文本数据中的单词等是否与辞典信息相符，在符合的情况下，将文本数据变换为意图和参数。之后，提供部321向操作声声变换程序31提供意图及参数。

本例中用软件实现提供部321，此外，也可以用IC等硬件实现其中的一部分或全部。提供部321所实现的功能既可以通过语音助理程序32单独实现，也可以让其他程序执行一部分处理，还可以用其他程序间接执行处理。

云服务装置30的CPU301通过执行存储部304中存储的管理程序33，发挥如图7所示的解释结果变换部331、执行指示部332、设备信息取得部333、执行判断部334、通知部335、管理部336、以及检索部337的功能。

解释结果变换部331将在操作语音变换程序31中变换的意图及参数等的解释结果转换为MFP10能够解释的作业的执行指令。

执行指示部332将作业的执行指令发送到MFP10，并发出作业执行的指示。执行指示部332向通过关联用DB35识别的智能扬声器20所对应的MFP10发送作业执行命令。也就是说，执行指示部332把用来识别用户使用的智能扬声器20的设备ID与意图和参数一起取得。执行指示部332从关联用DB35检索与取得的设备ID相对应的MFP10。执行指示部332向检索到的MFP10发送作业执行指令。

设备信息取得部333从MFP10取得能够处理的最大像素数等处理能力。在取得包括MFP10在内的多个外部装置的处理能力的情况下，设备信息取得部333将用来识别外部装置的ID等信息与处理能力相关联地保存在存储部304中。设备信息取得部333取得设备状态。所谓设备状态包括表示是否确立了与MFP10的通信连接的连接状态、表示MFP10的电源的ON/OFF或休眠模式的电力状态、有无故障和故障种类、纸张或墨粉等消耗品的剩余状况、用户的登录状态、表示允许用户使用的功能的权限信息等。

执行判断部334通过比较MFP10的处理能力和用户指定的作业(即，在操作语音变换程序31中生成的意图及参数)，来判断用户指定的作业是否能够在MFP10中执行。在判断为可以执行用户指定的作业的情况下，执行判断部334向MFP10发送作业执行指令。而在判断为不可执行的情况下，执行判断部334通过操作语音变换程序31，将故障信息等作为应答信息反馈到智能扬声器20。

通知部335将文本数据、语音数据、图像数据等作为对用户作业执行指示的应答，送往操作音声变换程序31。在缺少表示作业执行的作业条件的参数的情况下，通知部335通过操作语音变换程序31向智能扬声器20反馈，促使用户输入参数。在此，通知部335既可以发送参数信息，作为确认缺少的参数所必要的信息，也可以发送文本数据、语音数据、或者图像数据，作为促使用户指定参数的必要信息。

管理部336根据输入到与MFP10、智能扬声器20或云服务装置30连接的客户设备的信息和指示，将智能扬声器20的设备ID和MFP10的ID关联起来登录到管理DB34中。关联用DB35保存把智能扬声器20的设备ID和MFP10的ID连接起来的信息，例如表格数据等。

检索部337检索由存储部304和管理DB34指定的文件等。检索部337不限于只检索存储部304，也可以在其他存储装置中检索文件等，还可以在经由网络50连接的服务器等中检索文件等。

虽然本例中用软件实现解释结果变换部331、执行指示部332、设备信息取得部333、执行判断部334、通知部335、管理部336、以及检索部337，但也可以用IC等硬件实现其中的一部分或全部功能。另外，解释结果变换部331、执行指示部332、设备信息取得部333、执行判断部334、通知部335、管理部336、以及检索部337实现的功能既可以通过管理程序33单独实现，也可以让其他程序执行一部分处理，还可以使用其他程序间接执行处理。

操作语音变换程序31、操作语音变换程序31、语音助理程序32、管理程序33可以用可安装形式或可执行形式的文件保存在CD-ROM、软盘(FD)等计算机装置可读取的记录介质中提供。还可以保存在CD-R、DVD(Digital Versatile Disk)、蓝光光盘(注册商标)、半导体存储器等计算机装置可读取的记录介质中提供。进而可以用通过互联网等网络安装的形式来提供，还可以预先组装到设备内的ROM等中提供。

语音操作的整体动作

图8是语音操作的整体动作的时序图。图8是一例通过智能扬声器20用语音操作MFP10的双面复印功能。

此时，用户启动智能扬声器20的操作语声处理程序21。例如，用户发出"双面复印"的语音(步骤S1)。在此，操作语音变换程序31既可以在启动智能扬声器20的同时启动，也可以通过对智能扬声器20作规定操作或规定的语音输入来启动。智能扬声器20的取得部211取得用麦克风部209收集的用户的语音。

智能扬声器20的通信控制部212将获取部211取得的"双面复印"的语音数据发送到服务器装置30的操作语音变换程序31(步骤S2)。此时，通信控制部212还可以将识别智能扬声器20的设备ID发送到云服务装置30。

操作语音变换程序31的文本变换部312将"双面复印"的语音数据转换为文本数据(步骤S3)。

操作语音变换程序31的解释部313向语音助理程序32提出辞典信息请求(步骤S4)。解释部313从语音助理程序32接受辞典信息(步骤S5)。操作语音变换程序31的解释部313基于语音助理程序32提供的辞典信息，解释文本数据(步骤S6)。

本例中解释部313解释为要求MFP10执行的动作为"复印(意图:Copy_Execcute)"，"打印面为双面(打印面＝双面)"。这样，解释部313根据文本数据，生成表示用户指定的作业种类(意图)和内容(参数)的解释结果。

解释部313将解释结果送往管理程序33(步骤S7)。此时，解释部313可以将识别语音数据的发送源的智能扬声器20的设备ID与解释结果对应起来送往云服务装置30。

管理程序33的解释结果变换部331将从操作语音变换程序31取得的解释结果转换为MFP10的作业指令(步骤S8)。以下的表1是解释结果和从解释结果转换的作业指令例子。解释结果变换部331为了将解释结果转换为作业指令，也可以将相当于表1的信息存储到云服务装置30的存储部304等中，作为可以参照的构成。

表1

表1中显示的"COPY_EXECUTE"、"SCAN_EXECUTE"、"PRINT_EXECUTE"以及"FAX_EXECUTE"是动作(Action)例。"打印面"及"份数"等是参数(Parameter)例。参数包含可指定为作业设定值的所有项目。

管理程序33的解释结果变换部331将"COPY_EXECUTE"的解释结果转换处理为"执行复印作业"的MFP1作业指令。同样，解释结果变换部331将"SCAN_EXECUTE"的解释结果转换处理为"执行扫描作业"的MFP1作业指令，将"PRINT_EXECUTE"的解释结果转换处理成"执行打印作业"的MFP1作业指令，将"FAX_EXECUTE"的解释结果转换处理成"执行传真作业"的MFP1作业指令。在以上显示了在MFP10中执行的基本作业，但用云服务装置30可以解释的作业并不限于上述作业。可以包括例如，要求通信对象收集设备信息并将其送往云服务装置30的作业、以及将存储在通信对象的存储部304中的指定信息显示在通信对象的显示部307上的作业等。

当解释结果中含有"打印面"的参数时，管理程序33的解释结果变换部331形成执行"改变打印面设定值"的MFP1的作业指令。同样，当解释结果中含有"份数"的参数时，解释结果变换部331形成执行"改变份数设定值"的MFP1的作业指令。

即，管理程序33的解释结果变换部331判断解释结果的"意图"中包含的信息为用户的意图，例如让MFP1执行的作业的种类，并判断"参数"中包含的值是作业的设定值，并将解释结果转换处理为作业指令。

管理程序33的通知部335将上述形成的作业指令送往MFP1的(步骤S9)。本例中将"执行复印作业(打印面＝双面)"的作业指令送往MFP1。据此在MFP1中执行双面打印。也就是说，管理程序33可以对用与识别语音数据发送源的智能扬声器20的设备ID相关联的ID所识别的MFP10，发出执行作业的指示。由此，MFP10将执行双面打印。

云服务装置30的解释动作

云服务装置30的存储部304中存储词典信息用于解释用户通过语音输入指示的作业。操作语音变换程序31基于该词典信息生成意图及参数。具体而言，操作语音变换程序31判断经过语音数据变换的文本数据中包含的单词等是否与辞典信息相符，在符合的情况下，生成包含被定义了的意图及参数的解释结果。辞典信息只要能生成意图及参数，可以是任意方式。

例如，字典信息包括实体信息、意图信息和关联信息。实体信息是将作业的参数和自然语言关联起来的信息。实体信息中可以对一个参数中注册多个同义词。意图信息是表示作业种类的信息。关联信息是分别将用户的发言短语(自然语言)和实体信息、以及用户的发言短语(自然语言)和意图信息关联起来的信息。根据关联信息，即使参数的表达顺序或细微差别多少有所改变，也能正确地解释。还可以通过关联信息，基于输入的内容生成应答的文本(解释结果)。

图9是一例实体信息的示意图。该图9是与打印色彩(Print Color)相对应的实体信息。在此图9中，"Print Color"的文字表示实体名称。图中的左列的"auto_color"、"monochrome"、"color"…等文字表示参数名，右列的"auto_color"、"monochrome、blackand white"、"color，full color"…等文字表示同义词。

从图9可知，将参数和同义词作为实体信息关联起来保存。通过把同义词与参数一起登录，在例如指示单色复印时，发出的语音无论是"Please copy by black and white"，还是"Please copy by monochrome"，均可以设定参数。

图10是根据发出的语音的语句登录的实体信息的示意图。图10中(a)表示用户的发出的语音的短语，(b)表示的是意图名称，(c)表示的是实体信息。如图10的(a)～(c)所示，在云服务装置30具备的显示部307所显示的画面上，通过操作操作部308，拖动用户发出的语音。或者，在通过网络访问云服务的装置的显示部所显示的画面上，通过操作该装置的操作部，来拖动用户发出的语音。

由此，便可以选择成为关联对象的实体信息。受到选择的实体信息设定了值(VALUE)后，在应答中加入的参数发生变化。例如，当发出的语音为"Please copy by blackand white"时，设值为"$printColor"，在这种情况下，送回的返送值为"print Color＝monochrome"。对此，当设值为"$printColor.original"时，送回的返送值为"print Color＝black and white"。在此，如果设值为"$printColor.original"，就可以把用户的语音内容直接作为应答的参数送回。

对话方式动作

实施方式的语音操作系统1实现语音操作系统对于来自用户的语音输入作出答复的对话系统。在实施方式的语音操作系统1中，除了应答对话所需的定型句之外，通过执行"输入缺少反馈"和"输入确认反馈"这两种MFP1操作特有的应答来实现对话方式MFP操作系统。

"输入缺少反馈"是当执行作业所需信息尚未齐全时输出的应答，在没有听到用户的输入结果，或缺少必要参数时输出。也就是说，对于必要参数以外的参数，即使没有指示也不需要进行输入缺少反馈。此外，除了参数以外，还可以包括确认复印功能或扫描功能等中所要使用的功能的处理。

例如，云服务装置30可以根据通信连接的外部装置的种类来改变向用户确认要利用的功能的功能以及参数。在这种情况下，设备信息取得部333在与外部装置的通信确立之后的规定时间点，取得表示外部装置种类和功能的信息，根据取得的信息向用户确认的功能以及参数可以由例如反馈部213来决定。

例如，在外部装置的种类为MFP1的情况下，可以向用户确认复印、打印、扫描、FAX等MPF1所具有的功能，并可以向用户确认使用复印、打印、扫描、FAX之中MFP1所具有的功能中的哪一种功能。也可以根据用户指定的设定条件改变必要参数。也就是说，当用户指定的打印条件是变倍打印时，设定需要打印的纸张尺寸成为必要参数，当户指定的打印条件是双面打印时，设定表示稿件是单面还是双面的设定成为必要参数，周刊杂志装订打印时，设定包含在装订尺寸及一页中包含的页数等的设定成为必要参数。

"输入确认反馈"是在执行作业所需的信息齐全的情况下输出的应答。也就是说，输入确认反馈是在获得所有必要参数的指示的情况下进行的。输入确认反馈是用于促使用户在用当前设定中执行作业或更改设定值之中作出选择。可以用语音输出用户指示的所有参数(不管是必要参数或必要参数以外的参数)，向用户确认是否用现在的设定值执行作业。

图11是对话方式语音操作的一例流程图。图11是操作MFP10双面复印2份单色图像的例子。本例中，份数(＝2份)是必要参数。必要参数不限定是份数，也可以是包括单色、彩色或纸张大小等多个参数。

参数之中哪一个参数是必要参数，可以预先保存在云服务装置30所具有的存储部中。例如，管理程序33的执行判断部334根据从操作语音变换程序31取得的意图及参数，判断必要参数是否齐全。也可以由用户通过操作部49或通过网络，访问AI助理服务器装置4，改变哪一个参数是必要参数。

图11的示例中用斜线表示的语音是用户语音，没有斜线的语音是系统语音，用网格表示的对话是便携式终端装置2的画面或者系统的语音。首先，系统进行"复印吗？扫描吗？"的语音输出后，用户发出"复印"语音，指示使用复印功能。系统方面为了提出输入用户指定的"复印"设定值的要求，进行"请输入设定值"的语音输出。

对此，用户发出"单色"语音。本例中如上所述，复印份数成为必要参数。因此，声音操作系统1发出"请指定份数"之类，要求输入复印份数。这就是"输入缺少反馈"的例子。对于这样的"输入缺少反馈"，用户指定"2份"等复印部份数。由此，为了解消缺少输入，声音操作系统1进行"单色、2份复印，对吗？"应答，促使复印开始。这是当执行作业所需的信息齐全时输出的"输入确认反馈"。

在对于"请输入设定值"的语音输出，当用户发出"单色、2份"的应答时，语音操作系统1备齐执行作业所需的信息。因此，语音操作系统1进行上述"单色、2份复印，对吗？"的"输入确认反馈"。

当复印方式从单面复印改为双面复印时，用户进行"改为双面"的声音输入。在这种情况下，执行作业所需的信息齐全，因此声音操作系统1进行"单色、2份、双面复印"的"输入确认反馈"。

对于"单色、2份复印，对吗？"或"单色、2份、双面复印，对吗？"的"输入确认反馈"，用户回答"对"。在这种情况下，语音操作系统1执行"执行作业"的应答，并执行由用户指示的作业。

对话方式动作流程

图12是本实施方式涉及的语音操作系统1执行的语音操作进行的一例启动处理。

启动智能扬声器20的操作声处理程序21后，用户通过例如语音输入指示语音助理程序32的启动(步骤S21)。例如，用户可以发出启动的启动词。

智能扬声器20的通信控制部212向云服务装置30发送启动词(语音数据)(步骤S22)。

操作语音变换程序31的文本变换部312将启动词(语音数据)转换为文本数据(步骤S23)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S24～步骤S26)。

解释部313将解释结果发送到管理程序33(步骤S27)。即，解释部313将意图、参数、以及设备ID送往管理程序33。

管理程序33的执行判断部334在发送应答信息之前，在关联用DB35中检索与取得的设备ID相对应的MFP10(步骤S28)。此时，如果设备ID和对应的MFP10没有被存储在关联用DB35中，则通知部335通知用户，智能扬声器20没有与通信对象绑定。例如，执行判断部334生成包含"该设备没有与装置绑定"的应答的应答信息。在此，执行判断部334还可以把与设备通信对象相关联的方法包含在应答之中。此外，也可以在取得装置ID以外的其他任意的时间点进行在关联用DB35中检索MFP10以及生成应答信息。

设备信息取得部333确认是否确立了与MFP10的通信连接的连接状态(步骤S29)。

执行判断部334在应答信息的发送之前，确认在通信对象中执行用户指定的功能的应用程序的状态(步骤S30)。执行判断部334通过设备信息取得部333获取设备信息，或者设备信息取得部333参考预先取得的设备信息，来判断是否安装了应用程序，以及应用程序是否处于可执行状态。

例如，在指示的功能是复印、关于复印的应用程序没有安装在与设备ID绑定的MFP10、或者应用程序正在启动等而无法使用的情况下，执行判断部334向用户发出通知。例如，执行判断部334形成包含"没有安装应用程序"或"应用程序现在无法使用"的应答的应答信息。在此，执行判断部334可以把对策方法包含在应答中。另外，应用程序状态的确认也可以在操作语音变换程序31取得意图及参数、装置ID以外的其他任意时间点进行。

在发送应答信息之前，执行判断部334通过设备信息取得部333取得设备信息，或者设备信息取得部333读取预先取得的设备信息，来获得设备信息(步骤S31)。获得的设备信息在判断例如用户指示的作业种类以及作业条件是否能在通信对象中执行时被利用。

执行判断部334根据意图及参数，判断执行作业所需的条件是否全部备齐(步骤S32)。例如，执行判断部334判断必要参数是否备齐，在必要参数不齐全的情况下，向操作语音变换程序31发送应答信息(步骤S33)。操作语音变换程序31相智能扬声器20发送应答信息(步骤S34)。

在此，应答信息可以包括文本数据、语音数据和图像数据。在此举一个例子，如发送"复印吗？扫描吗？"的文本数据。只要是促使用户输入作业的种类或者作业的设定条件的信息，内容并不局限于此。另外，在智能扬声器20无法将文本数据转换为语音数据的情况下，也可以发送语音数据。

智能扬声器20的声音反馈部213用语音进行"复印吗？扫描吗？"得反馈(步骤S35)。智能扬声器20不仅可以通过语音输出，而且也可以在触摸面板207上显示文本或图像来进行向用户得反馈。当指示语音助理程序32得启动时，如果指定了作业的种类和设定条件，则可以省略上述步骤。

图13是本实施方式涉及的声音操作系统1执行的通过语音操作复印设定处理的一例时序图。

用户发出"复印"语音(步骤S51)。或者，用户在发出语音助理程序32的启动指示时发出"复印"语音。此时，智能扬声器20的通信控制部212向云服务装置30发送"复印"的语音数据(步骤S52)。

操作语音变换程序31的文本变换部312将"复印"的语音数据转换为文本数据(步骤S53)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S54～步骤S56)。

在此，解释部313如图9和图10所示，根据文本数据表示的用户语音句子，解释意图和参数。在此，将作为"Copy_Execute"的意图作为解释结果生成，送往管理程序33。本例中，由于用户只发出"复印"语音，因此复印份数等不清楚(输入缺少)。解释部313将解释结果送往管理程序33(步骤S57)。

管理程序33的执行判断部334根据解释结果，判断为缺少必要参数(步骤S58)。这样，云服务装置30就可以向智能扬声器20查询缺少的参数。

管理程序33的通知部335通过操作语音变换程序31，将"请输入设定值值"的应答信息发送到智能扬声器20(步骤S59～步骤S60)。

在此，管理程序33的通知部335在向操作语音变换程序31发送应答信息时，还可以发送表示保持接通的状态信息。状态信息是表示时域状况的信息。例如，在尚未执行外部装置的作业执行指令的发送，用户依然在继续进行作业设定处理的情况下，通知部335发送表示时域持续进行的状态信息。而在结束了外部装置的作业执行指令的发送的情况下，通知部335发送表示时域结束的状态信息。

但是，状态信息不限于此，也可以包含更详细地显示时域状况的状态信息。操作语音变换程序31的解释部313可以根据状态信息，判断是否保持时域接通。也就是说，在时域保持持续的情况下，即使用户分多次发出语音，指定作业设定条件，操作语音变换程序31也判断属于一个作业。而在时域结束的情况下，操作语音变换程序31判断包含在用户发出的语音中的作业设定条件属于新的作业。

由此，即使在分多次发出作业的种类以及作业设定条件的指示的情况下，操作语音变换程序31也能够判断是属于同一作业，还是属于其他新的作业。如果持续规定时间以上没有从智能扬声器20接收信号，操作语音变换程序31可以判断时域结束。即使云服务装置30管理时域，作为通信对象的MFP10也可以与时域无关地执行作业。

在这种情况下，MFP10在取得作业执行命令后，用作业执行命令中所包含的作业条件改写MFP10所保存的作业条件，进行设定。此时，MFP10也可以将在MFP10中保存的作业条件全部删除或返回到默认条件后，设定作业执行指令中包含的作业条件。对于与MFP10所保持的作业条件不一致的作业条件，MFP10优先改写设定包含在作业执行指令中的作业条件，而对于没有矛盾的作业条件，也可以保持通信对象预先保存的作业条件。在执行了作业的情况下，MFP10可以删除作业执行指令中包含的作业条件，使MFP10称为预先登录了的默认状态。

智能扬声器20的语音反馈部213通过扬声器部208进行"请输入设定值"的声音输出，同时在触摸面板207上进行"请输入设定值"的文本显示(步骤S61)。也可以省略声音输出和触摸面板207的文本显示的其中之一。

接下来，因为有输入缺少反馈，所以用户例如发出"双面"语音(步骤S62)。智能扬声器20的通信控制部212向云服务装置30发送"双面"的语音数据(步骤S63)。

操作语音变换程序31的文本变换部312将"双面"的语音数据转换为文本数据(步骤S64)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S65～步骤S67)。在此，将作为"打印面＝双面"的参数作为解释结果生成。然后，解释部313结合包含在上次发出的语音中的意图和参数，将包含"Copy_Execute"的意图以及"打印面＝双面"的参数在内的解释结果送往管理程序33(步骤S68)。

执行判断部334判断从智能扬声器20取得的参数是否进行了所有必要参数的设定(步骤S69)。本例中，因为用户只发出"复印"和"双面"语音，所以复印份数等不清楚(缺少必要参数)。在此说明了操作语音变换程序31结合前一次发出语音的解释结果和本次发出的语音的解释结果，生成意图及参数，但并不限定于此。也就是说，管理程序33可以保存前一次发出的语音的解释结果，由管理程序33结合前一次发出的语音的解释结果和本次发出的语音的解释结果，生成意图及参数。这种情况下，解释部313可以通过本次发出的语音，把新取得的"打印面＝双面"的参数发送到管理程序33。

多个参数之中哪一个参数是必要参数，可以预先存储在云服务装置30的存储部304中。在这种情况下，执行判断部334根据存储部304存储的必要参数的信息，判断从智能扬声器20取得的参数是否进行了所有必要参数的设定。在没有对必要参数进行设定的情况下，为了进行必要参数的设定，执行判断部334通过智能扬声器20促使用户。

因此，管理程序33的通知部335通过操作语音变换程序31，将"打印几份？"的应答信息(Response)送往智能扬声器20(步骤S70～步骤S71)。

智能扬声器20的声音反馈部213通过扬声器部208进行"打印几份？"的声音输出，同时对触摸面板207进行"打印几份？"的文本显示(步骤S72)。

图14是本实施方式涉及的语音操作系统1执行的一例用语音操作进行份数设定处理的时序图。

由于再次有输入缺少反馈，因而用户发出例如"2份"语音(步骤S91)。智能扬声器20的通信控制部212向云服务装置30发送"2部"的语音数据(步骤S92)。

操作语音变换程序31的文本变换部312将与"2份"的语音数据转换为文本数据(步骤S93)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S94～步骤S96)。

在此，解释部313将"份数＝2份"的参数生成为解释结果。然后，解释部313结合包含在以前的语音中的意图和参数，把作为"Copy_Execute"的意图以及包含"打印面＝双面、部数＝2份"的参数的解释结果送往管理程序33(步骤S97)。

执行判断部334判断从智能扬声器20获取的参数是否进行了所有必要参数的设定(步骤S98)，本例中用户通过发送"2份"的语音数据，解消了复印作业缺少必要参数。

因此，管理程序33的通知部335通过操作语音变换程序31，向智能扬声器20发送通过"双面、2份复印"的应答信息(步骤S99～步骤S100)。

由于必要参数的缺少已经获得解消，因而复印开始已经准备完毕，智能扬声器20的声音反馈部213根据包含在应答信息中的应答，输出语音(步骤S101)。例如，语音反馈部分213用语音输出"双面、2份复印，对吗？"的输入确认反馈的文本。

在此，智能扬声器20可以从存储部204存储的文本数据中读取全部或一部分文本数据，并通过组合来生成文本数据，用以取代输出包含在应答信息中的文本数据和语音数据。对于该输入确认反馈，用户可以进行语音输入，以指示更改设定值或开始复印。

在此，步骤S102～步骤S112表示用语音指示改变设定值的动作流程。

用户发出改变设定值的语音(步骤S102)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S103)。

操作语音变换程序31的文本变换部312将改变设定值的语音数据变换为文本数据(步骤S104)。操作语音变换程序31的解释部313基于语音助理程序32提供的辞典信息，解释文本数据(步骤S105～步骤S107)。解释部313将解释结果发送给管理程序33(步骤S108)。

执行判断部334判断从智能扬声器20取得的参数是否进行了所有必要参数的设定(步骤S109)。然后，管理程序33的通知部335通过操作语音变换程序31，将对应判断结果的应答信息发送到智能扬声器20(步骤S110～步骤S111)。

智能扬声器20的语音反馈部213基于应答信息中包含的应答，用语音反馈例如"用某某设定复印，对吗？"(步骤S112)。

图15的时序图的步骤S131～步骤S143是指示开始复印时各部的动作流程。通过上述输入确认反馈，用户回答"对"(步骤S131)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S132)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S133)。

操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S134～步骤S136)。在此，解释部313在根据文本数据识别复印开始指示后，生成在"Copy_Execute"的意图上附加"打印面＝双面"以及"份数＝2份"的参数的解释结果。

解释部313将解释结果送往管理程序33(步骤S137)。如果管理程序33的执行判断部334判断解释结果已备齐了必要参数，则可以省略输入确认反馈。

管理程序33的执行判断部334判断解释结果是否已经备齐了必要参数(步骤S138)。在判断结果为必要参数齐全的情况下，解释结果变换部331将解释结果变换为MFP10的作业指令(步骤S139)。然后，执行指示部332将转换后的作业指令送往MFP10(步骤S140)。由此，MFP10通过语音操作来执行复印。

管理程序33的通知部335通过操作语音变换程序31，将按照作业指令开始执行作业的应答信息送往智能扬声器20(步骤S141～步骤S142)。

智能扬声器20的语音反馈部213基于包含在应答信息中的应答，例如用语音反馈"开始作业"(步骤S143)。

云服务装置30的反馈例子

图16是发生故障时的对话方式语音操作的流程图。以上说明了智能扬声器20的语音反馈部213输出包含在应答信息中的文本数据和语音数据。但是，语音反馈部213不受此限制，也可以根据包含在应答信息中的信息，从智能扬声器20的存储部204存储的文本数据中读取全部或以部分文本数据，并组合起来生成。以下表2显示一例从云服务装置30反馈到智能扬声器20的应答信息和反馈。

表2

如表2所示，例如用于促使输入作业设定值的"Copy_Paratemer_Setting"、促使确认作业设定值的"Copy_Confirm"等意图被包含在应答信息中，从云服务装置30反馈到智能扬声器20。

智能扬声器20的语音反馈部分213根据包含在应答信息中的意图、参数和应答来判断对用户的反馈。语音反馈部213为了决定反馈内容，可以将相当于表2的信息存储在智能扬声器20的存储部204中作为参照。表2中以复印为例进行了说明，但打印、扫描、FAX时，也可以与表2相同，使用促使输入作业设定值的"Parameter_Setting"、促使确认作业设定值的"Confirm"作为意图。应答信息中包含意图及参数、以及应答之中的至少一方即可。

云服务装置30把例如双面或单面等打印面的设定值或者复印份数等参数包含在应答信息中，反馈到智能扬声器20。当缺少必要参数时，云服务装置30将促使输入缺少的参数的消息包含在信号中，反馈到智能扬声器20。

作业的执行动作和故障发生时的对话

图17是对于例如"执行作业，对吗？"等上述输入确认反馈，用户回答"对"或者是发生故障时的一例对话。

首先，对于上述输入确认反馈，例如"执行作业，对吗"，用户作"对"等答复，从而MFP10执行作业。如果作业顺利完成，则通过智能扬声器20输出例如"作业已经完成了，请注意不要忘记取稿。"等完成信息(声音和文本)。

对此，如果发生例如纸张不够故障时，通过智能扬声器20，进行"没有纸张，请补充纸张后继续执行，或者取消作业"等作业的确认反馈。对于该确认反馈，当用户对MFP10补充纸张后，发出"继续"语音的对话作为应答时，MFP10受到继续作业指示，重新开始作业。而在用户针对确认反馈发出"取消"语音，指示取消作业的情况下，MFP10被通知作业取消，取消故障发生以后的作业。然后，通过智能扬声器20输出诸如"作业已经取消"等语音和文本的确认反馈。

作业的执行动作以及发生故障时的对话动作流程

图17是本实施方式涉及的语音操作系统1执行的语音操作的一例确认处理的时序图。

MFP10执行受到指示的作业后，将作业正常完成的执行结果，或者表示发生故障的执行结果送往云服务装置30的管理程序33(步骤S161)。管理程序33向操作语音变换程序31发送执行结果(步骤S162)。操作语音变换程序31向智能扬声器20发送执行结果(步骤S163)。

当收到正常完成作业的执行结果时，智能扬声器20的语音反馈部213输出例如"作业结束"等语音信息(步骤S164)。

而当收到故障执行结果时，智能扬声器20的声音反馈部213反馈例如"发生故障，继续还是取消作业？"等询问作业继续与否的语音信息(步骤S165)。

具体来说，MFP10在作业完成的情况下，向管理程序33发送完成通知。而在发生故障的情况下，向管理程序33发送错误内容等关于故障的错误信息。管理程序33根据从MFP10获取的信息，生成包括例如"作业完成"或者"发生故障，继续还是取消作业？"等消息的应答信息。然后，管理程序33将生成的应答信息通过操作语音变换程序31，发送到智能扬声器20。

图17的步骤S166～步骤S176是用户指定继续时各部的动作流程。即，针对于"发生故障，继续作业，还是取消？"的询问，用户解除故障发生原因，在此基础上，发出"继续"语音(步骤S166)。此时，智能扬声器20的通信控制部212向云服务装置30发送"继续"的语音数据(步骤S167)。

操作语音变换程序31的文本变换部312将"继续"的语音数据转换为文本数据(步骤S168)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据所表示的用户的语句的意图和参数(步骤S169～步骤S171)。

操作音声变换程序31的解释部313生成意图为"Copy_Job_Continue"的解释结果，发送到管理程序33(步骤S172)。管理程序33的执行指示部332指示MFP10继续作业(步骤S173)。

进而，管理程序33的通知部335将"继续作业"作为应答的应答信息，经由操作语音变换程序31送往智能扬声器20(步骤S174～步骤S175)。智能扬声器20的语音反馈部213进行"继续作业"的输入确认反馈(步骤S176)。

图17的步骤S177～步骤S187是用户指定取消作业时各部的动作流程。即，对于"发生故障，继续作业，还是取消？"的询问，用户发出"取消"语音(步骤S177)。在这种情况下，智能扬声器20的通信控制部212向云服务装置30发送"取消"的语音数据(步骤S178)。

操作语音变换程序31的文本转换部312将"取消"的语音数据转换为文本数据(步骤S179)。操作语音变换程序31的解释部313基于语音助理程序32提供的辞典信息，解释文本数据(步骤S180～步骤S182)。然后，操作音声变换程序31将意图为"Copy_Job_Cancel"的解释结果送往管理程序33(步骤S183)。

管理程序33的执行指示部332指示MFP10取消作业(步骤S184)。管理程序33的通知部335通过操作语音变换程序31，将应答"取消作业"的应答信息送往智能扬声器20(步骤S185～步骤S186)。

另外，智能扬声器20的声音反馈部213还进行"取消作业"的输入确认反馈(步骤S187)。

用对话调整MFP10设备能力对应参数的调整动作

其次，实施方式的语音操作系统1通过对话方式操作来实现MFP10设备能力所对应的作业的执行。图18是本实施方式涉及的语音操作系统1执行的一例基于语音操作执行的判断处理时序图。

管理程序33的设备信息取得部333向MFP10查询例如能够处理的分辨率(步骤S201)。即，设备信息取得部333取得Capability。

对于该查询，MFP10把能够处理的分辨率(如"200dpi～600dpi")答复管理程序33(步骤S202)。

管理程序33的通知部335通过操作语音变换程序31，将分辨率送往智能扬声器20(步骤S203～步骤S204)。这样，智能扬声器20便可以识别MFP10的可处理分辨率。

设备信息取得部333可以在云服务装置30和MFP10的通信确立后的任意时间点预先取得处理能力的信息。例如，设备信息取得部333可以在将MFP10登录到管理DB34时取得处理能力的信息，也可以定期取得处理能力的信息，进而可以在从智能扬声器20收到语音助理程序32的启动的时间点或从智能扬声器20收到作业指令的时间点取得。取得的处理能力信息可以存储在云服务装置30所具备的存储部304中，例如可以与MFP10关联起来保存在管理DB34中。另外，处理能力的取得也可以是，设备信息取得部333通过获取执行了该处理能力的其他程序所取得的信息，来间接获取MFP10所具有的信息。

设备信息取得部333从MFP10取得的处理能力不局限于分辨率的信息，也可以获取例如，MFP10中安装的应用程序的种类和版本、打印速度、可处理的文件格式、包括装订在内的可选设备的连接状态等、以及关于MFP10可执行的作业种类和作业设定条件的信息。

用户在启动智能扬声器20的操作语音变换程序31后，例如通过语音输入发出语音助理程序32启动的指示(步骤S205)。据此执行与图12所示的步骤S21至步骤S35的处理相同的处理。

智能扬声器20的声音反馈部213进行语音反馈，用例如"复印吗？扫描吗？"等促使作业指示(步骤S206)。对此，用户发出"扫描"语音(步骤S207)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S208)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S209)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S210～步骤S212)。然后，解释部313将意图为"Scan_Execute"的解释结果送往管理程序33(步骤S213)。

由于只有扫描的指示，因而缺少必要参数，管理程序33的通知部335把作为应答的"请输入设定值"的应答信息，通过操作语音变换程序31发送给智能扬声器20(步骤S214～步骤S215)。

据此，智能扬声器20的声音反馈部213发出"请输入设定值"的输入缺少反馈(步骤S216)。

接下来，对于上述输入缺少反馈，用户发出"1000dpi、寄送对象为田中"的语音(步骤S217)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S218)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S219)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S220～步骤S222)。然后，解释部313将意图为"Scan_Execute"，参数为"分辨率＝1000dpi、地址＝田中"的解释结果送往管理程序33(步骤S223)。

管理程序33的执行判断部334根据包含在解释结果中的参数，判断用户指定的作业在MFP10中是否能够执行(步骤S224)。执行判断部334通过设备信息取得部333获设备信息，或者参考设备信息取得部333预先取得的设备信息，来判断是否能够在通信对象中用用户指定的设定执行作业。

图19是用本实施方式涉及的声音操作系统1执行的语音操作所进行的一例执行可否处理时序图。

如果MFP10能够以1000dpi的分辨率进行图像处理，则管理程序33的通知部335通过操作语音变换程序31向智能扬声器20发送应答信息(步骤S241～步骤S242)。应答信息中包括"用1000dpi扫描，送往田中，对吗？"应答。

智能扬声器20的语音反馈部213进行输入确认反馈，"用1000dpi扫描，发送给田中，可以吗？"(步骤S243)。

对于该输入确认反馈，用户发出"对"语音(步骤S244)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S245)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S246)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S247～步骤S249)。然后，解释部313将意图为"Scan_Execute"、参数为"分辨率＝1000，地址＝田中"的解释结果发送到管理程序33(步骤S250)。

管理程序33的解释结果变换部331将解释结果转换为作业指令(步骤S251)。管理程序33的执行指示部332将作业指令送往MFP10(步骤S252)。

进而，管理程序33通过操作语音变换程序31，将应答为"执行作业"的应答信息发送到智能扬声器20(步骤S253～步骤S254)。

智能扬声器20的语音反馈部213还进行"执行作业"的输入确认反馈(步骤S255)。

对此，当600dpi是MFP10的处理能力的极限时，MFP10无法执行由用户指定的1000dpi的图像处理。在这种情况下，执行判断部334选择在MFP10的处理能力范围内，与用户指示的功能或处理能力值最接近的功能或值(步骤S256)。

例如，当MFP10的可执行分辨率为200-600dpi时，执行判断部334选择与用户指示的1000dpi最接近的600dpi。也就是说，执行判断部334根据设备信息或设备状态，判断无法用包含在解释结果中的意图和参数执行作业的情况下，参考MFP10的处理能力，选择可以在MFP10中执行的设定条件。然后，执行判断部334根据所选择的设定条件生成应答信息。

在此，管理程序33除了从操作语音变换程序31取得解释结果之外，还可以取得用来识别语音输入源的智能扬声器20的装置ID。因此，执行判断部334可以参考关联用DB35，确定与取得的设备ID相关联的MFP10，并参考确定了的MFP10的处理能力，判断可否执行作业。此外，如果用户指示执行MFP10原本并不具备的功能，执行判断部334则生成表示不能够执行作业的应答信息。

管理程序33的通知部335通过操作语音变换程序31，将生成的应答信息发送到智能扬声器20(步骤S257～步骤S258)。管理程序33还可以将关于所选择的设定条件的信息发送到操作语音变换程序31。

智能扬声器20进行确认反馈，"不允许指定1000dpi。用600dpi扫描，发送给田中，可以吗？"(步骤S259)。

对于上述确认反馈，用户发出"可以"语音(步骤S260)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S261)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S262)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S263～步骤S265)。解释部313将意图为"Scan_Execute"，参数为"分辨率＝600，地址＝田中"的解释结果发送给管理程序33(步骤S266)。

管理程序33的解释结果变换部331将解释结果转换为作业指令(步骤S267)。管理程序33的执行指示部332将作业指令发送到MFP10(步骤S268)。

管理程序33的通知部335通过操作语音变换程序31，将应答为"执行作业"的应答信息发送到智能扬声器20(步骤S269～步骤S270)。

智能扬声器20的语音反馈部213进行输入确认反馈，"执行作业"(步骤S271)。由此，便可以通过语音输入操作来操作MFP10，使作业能够在处理能力范围内执行。

在此，MFP10通过参考保存在MFP10内的存储部114中的地址簿，检索相当于"田中"的地址信息。地址信息是指邮件地址和FAX号码等信息。当地址簿中存在与"田中"相应的地址信息时，MFP10将其扫描的图像数据发送到该地址。另外，MFP10可以在显示部103上显示收件对象信息，促使用户确认收件地址是否有误。也可以在用户按动OK按钮等选择时向收件对象发送扫描了的图像数据。另外，当地址簿中存在多个与"田中"相应的地址时，MFP10可以将所有相应的收件对象信息显示在MFP10的显示部103上，让用户选择。

检索并打印打印对象的动作

接下来，说明打印需要打印的文件的动作。图20是本实施方式涉及的语音操作系统1执行的语音操作所做的一例检索处理时序图。

用户启动智能扬声器20的操作声处理程序21后，例如通过语音输入，指示语音助理程序32启动(步骤S291)。由此执行与图12所示的步骤S21到步骤S35的处理相同的处理。

智能扬声器20的声音反馈部213进行语音反馈，促使例如"复印吗？扫描吗？"等作业指示(步骤S292)。对此，用户发出"打印"语音(步骤S293)。

智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S294)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S295)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S296～步骤S298)。然后，解释部313将意图为"Print_Execute"的解释结果送往管理程序33(步骤S299)。

由于只有"打印"的指示，而缺少必要参数，因此，管理程序33的通知部335把作为应答的"请输入设定值"的应答信息，通过操作语音变换程序31，送往智能扬声器20(步骤S300～步骤S301)。据此，智能扬声器20的声音反馈部213进行输入缺少反馈，"请输入设定值"(步骤S302)。

然后，对于该输入缺少反馈，用户发出"打印文件A"语音(步骤S303)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S304)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S305)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S306～步骤S308)。然后，解释部313将意图为"Print_Exetute"，参数为"打印对象＝文件A"的解释结果送往管理程序33(步骤S309)。

管理程序33的检索部337根据包含在解释结果中的参数，在管理DB34中检索文件A(步骤S310)。检索的对象不局限于管理DB34，也可以是通过云服务装置30和网络50连接的服务器。另外，检索部337不仅检索包含参数中所含有的字符串的文件名，也可以检索在文件数据中包含了参数所含有的字符串的文件。另外，检索部337也可以根据文件的制作时间和文件制作者等文件的属性进行检索。

图21是通过本实施方式涉及的语音操作系统1执行的语音操作的一例印刷处理的时序图。

如果管理DB34只记录了一个文件A，则搜索部337将该文件A设定为打印数据(步骤S331)。通知部335通过操作语音变换程序31，将"开始打印文件，可以吗？"的应答信息送往智能扬声器20。

而当管理DB34中保存了2个以上文件A时，即检索部337检索到的结果为可以找到多个文件。此时，通知部335通过操作语音变换程序31，将"登录了多个文件A"的应答信息送往智能扬声器20(步骤S332～步骤S333)。此时，通知部335可以把作为用来识别各个文件的信息，将文件的创建日期和作者、缩略图图像等包含在应答信息中。

智能扬声器20的语音反馈部213进行输入缺少反馈，"有多个文件A登录，请选择需要打印的文件"(步骤S334)。此时，语音反馈部213可以将文件的制作时间和作者作为用来识别各个文件的信息，进行语音反馈，也可以在触摸面板207上显示文件一览。另外，语音反馈部213还可以将缩略图图像显示为文件一览，促使用户选择。

对此用户选择所需的文件A。即，既可以通过发出文件的创建日期和作者等的语音来选择文件，也可以通过触摸操作从显示在触摸面板207上的文件一览中选择所需文件。执行指示部332如以下将要描述的，将用户选择的文件A发送到MFP10，进行打印请求。

而在管理DB34中没有记录文件A的情况下，通知部335把作为应答的"文件A未登录"的应答信息，通过操作语音变换程序31发送到智能扬声器20(步骤S335～步骤S336)。智能扬声器20的声音反馈部213进行"未登录文件A"的反馈(步骤S337)。

在管理DB34中存在一个文件A时选择需要打印的文件A的情况下，或者在选择了其他文件的情况下，通知部335发送应答信息。也就是说，通知部335通过操作语音变换程序31，将"开始打印文件，可以吗？"的应答信息发送到智能扬声器20。智能扬声器20的语音反馈部213进行例如"开始打印文件，可以吗？"的确认反馈(步骤S338)。

对于该确认反馈，用户发出"可以"语音(步骤S339)。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S340)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S341)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S342～步骤S343)。然后，解释部313将意图为"Print_Execute"，参数为"打印对象＝文件，文件识别信息X"的解释结果送往管理程序33(步骤S345)。文件识别信息X是指在管理DB34中存在2个以上文件A的情况下，为了识别用户选择的文件A而附加的信息，例如文件的制作日期和作者等信息。

管理程序33的解释结果变换部331将解释结果转换为作业指令(步骤S346)。通知部335将作业指令与用户所选择的文件一起送往MFP10(步骤S347)。由此，MFP10打印用户需要的文件。

进而，管理程序33通过操作语音变换程序31将应答信息送往智能扬声器20(步骤S348～步骤S349)。智能扬声器20的语音反馈部213进行"执行作业"的输入确认反馈(步骤S350)。

在以上的示例中，云服务装置30检索打印对象，并将检索到的文件发送到MFP10，但本发明并不受此限制。例如，云服务装置30可以向MFP10发送"打印对象＝文件A"的作业指令，MFP10可以检索相当于文件A的文件。此时，MFP10从MFP10所具有的存储部114或MFP10通过网络50连接的服务器，检索与文件A相应的文件。当检索到的文件存在2个以上时，MFP10在触摸面板207上显示文件一览，促使用户选择。然后，MFP10将用户选择的文件作为作业执行的对象。

MFP的显示语言的更改

接下来说明改变MFP10的显示部103显示的画面上的语言种类。

图22是通过本实施方式涉及的声音操作系统1执行的语音操作的一例显示语言更该处理时序图。

用户用设置在智能扬声器20上的语言(步骤S371)发声(步骤S371)。也就是说，用户用智能扬声器20能够解释的语言发声。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S372)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S373)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S374～步骤S376)。

操作语音变换程序31的语言识别部315确定被设定为智能扬声器20能够解释的语言种类的语言设定的语言种类(步骤S377)。然后，解释部313将解释结果和经过确定的语言种类送往管理程序33(步骤S378)。

管理程序33的解释结果变换部331将解释结果转换为作业指令(步骤S379)。管理程序33的执行指示部332将作业指令和从操作音声变换程序31发送的语言种类送往MFP10(步骤S380)。

MFP10的语言设定部123将显示在显示部103上的各种画面的语言改为从管理程序33中收到的语言种类所表示的语言(步骤S381)。

显示控制部124显示用语言设定部123设定的语言种类所表示的画面(步骤S382)。在这种情况下，显示控制部124控制显示用从管理程序33收到的语言种类所示的语言来表现的画面。

作业执行部122执行从管理程序33收到的作业指令(步骤S383)。

如上所述，按照本实施方式涉及的语音操作系统1，智能扬声器20接受对于MFP10的语音操作。智能扬声器20将接受的语音操作对应的语音数据送往云服务装置30。云服务装置30解释音频数据，并生成让MFP10执行的作业。云服务装置30将生成的作业发送到MFP10。然后，MFP10执行收到的作业。因此，由于声音操作系统1不需要手动操作，因此可以提高操作性。

进而，MFP10用智能扬声器20所受理的声音操作对应的语言种类，显示显示部103上显示的画面。因此，声音操作系统1即使在智能扬声器20和MFP10的语言设定不同的情况下，也能显示出语音发出的语言种类。

变形例1

在上述本实施方式中，基于智能扬声器20中设定的设定语言，改变了在MFP10显示部103显示的画面上的语言种类。对此，在变形例1中，基于启动词等语句和语言种类之间的对应关系所表示的启动语言对应信息，提取与用户发出的启动词相关联的语言种类。然后，MFP10将显示在显示部103的画面上的语言种类改为从启动语言对应信息中提取的语言种类。

图23是通过变形例1涉及的语音操作系统1执行的语音操作进行的一例显示语言更改处理时序图。

用户使用任意语言发出启动智能扬声器20的启动词(步骤S401)。例如，日语的启动词是"ねぇ"，英语的启动词是"Hi"。在此，智能扬声器20的启动是指使智能扬声器20处于能够对话的状态。

智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S402)。即，通信控制部212发送用户用任意语言发出的启动词的语音数据。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S404)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S405～步骤S407)。

语言识别部315识别启动词的语言种类(步骤S408)。具体来说，例如存储部304中保存把启动词等语句和语言种类相关联起来的启动语言对应信息。然后，解释部313根据启动语言对应信息，提取与启动词相关联的语言种类。由此，语言识别部315识别启动词的语言种类。

解释部313将解释结果和识别了的语言种类送往管理程序33(步骤S409)。

管理程序33的解释结果变换部331将解释结果转换为作业指令(步骤S410)。管理程序33的执行指示部332将作业指令和从操作音声变换程序31发送的语言种类送往MFP10(步骤S411)。

MFP10的语言设定部123将显示部103显示的各种画面上的语言改为从管理程序33收到的语言种类所显示的语言(步骤S412)。

显示控制部124显示用语言设定部123设定的语言种类所表示的画面(步骤S413)。在这种情况下，显示控制部124显示用从管理程序33收到的语言种类显示的语言所表现的画面。

作业执行部122执行从管理程序33收到的作业指令(步骤S414)。

如上所述，变形例1涉及的声音操作系统1根据启动词，改变MFP10的语言设定。因此，即使智能扬声器20和MFP10的语言设定互不相同，声音操作系统1也能反映语音指定的语言种类。

变形例2

在上述本实施方式中基于设定智能扬声器20中设定的设定语言，改变MFP10显示部103显示的画面上的语言。对此，在变形例2中，根据将能够识别智能扬声器20的设备识别信息和语言种类关联起来保存的设备语言对应信息，提取用接受声音操作的智能扬声器20的设备识别信息识别的语言种类。然后，MFP10将显示部103显示的画面上的语言改为从起动语言对应信息中提取出来的语言。

图24是用变形例2涉及的声音操作系统1执行的语音操作进行的一例显示语言更改处理流程图。

用户发出启动词等语句的语音(步骤S431)。用户的语句不局限于启动词，可以发出任意语句。智能扬声器20的通信控制部212向云服务装置30发送语音数据(步骤S432)。

操作语音变换程序31的文本变换部312将语音数据转换为文本数据(步骤S434)。操作语音变换程序31的解释部313根据语音助理程序32提供的辞典信息，解释文本数据(步骤S435～步骤S437)。

语言识别部315基于把能够识别智能扬声器20的智能设备识别信息和语言种类相关联的设备语言对应信息，用收到的智能设备识别信息来识别语言种类(步骤S438)。具体而言，例如存储部304中保存了设备语言对应信息，该设备语言对应信息是将设备ID等能够识别智能扬声器20的智能设备识别信息和语言种类相关联的信息。然后，解释部313根据启动语言对应信息，提取与智能机器识别信息相关联的语言种类。由此，解释部313找到与智能扬声器20相关联的语言种类。

解释部313将解释结果和找到的语言种类送往管理程序33(步骤S439)。

管理程序33的解释结果变换部331将解释结果转换为作业指令(步骤S440)。管理程序33的执行指示部332将作业指令和操作音声变换程序31发送的语言种类发送给MFP10(步骤S441)。

MFP10的语言设定部123将显示部103显示的各种画面上的语言改为从管理程序33收到的语言种类所表示的语言(步骤S442)。

显示控制部124显示用语言设定部123设定的语言种类所表示的画面(步骤S443)。在这种情况下，显示控制部124显示用从管理程序33收到的语言种类表示的语言所表示的画面。

作业执行部122执行从管理程序33收到的作业指令(步骤S444)。

如上所述，变形例2涉及的声音操作系统1根据智能扬声器20，改变MFP10的语言设定。因此，即使智能扬声器20和MFP10之间语言设定互不相同，语音操作系统1也能反映出用语音指定的语言种类。

最后，上述实施方式是出示的一个例子，对本发明的范围不构成限制。该新的实施方式也可以由其他各种方式来实施，在不脱离发明主旨的范围内可以进行各种省略、置换、更改。

上述各种实施方式以及各实施方式的变形，不仅包含在发明的范围和宗旨之中，同时也包含在专利请求范围所记载的发明其均等范围内。

《符号》

1 语音操作系统

10 MFP

20 智能扬声器

30 服务器装置

50 网络

11 控制程序

21 操纵音声处理程序

31 操作语音变换程序

32 语音助理程序

33 管理程序

34 管理DB

35 关联用DB

121，212 通信控制部

213 语音反馈部

123 语言设定部

124 显示控制部

211，311 取得部

213 语音反馈部

312 文本变换部

313 解释部

314 输出部

315 语言识别部

321 文本变换部

331 解释结果变换部

332 执行指示部

333 设备信息取得部

334 执行判断部

335 通知部

336 管理部

337 检索部

Claims

1.一种语音操作系统，其中具备，

通过与用户的对话来接受语音操作的扬声器；

接收该扬声器受理的所述语音操作的服务器装置；以及，

执行该服务器装置发送的作业的图像形成装置，

所述语音操作系统具有，

输入部，用于接受语音操作信息，该语音操作信息表示所述扬声器受理的用户的语音操作；

变换部，用于将所述输入部受理的所述语音操作信息变换成所述图像形成装置可以解释的作业；以及，

指示部，用于指示所述图像形成装置执行经过所述变换部变换的所述作业。

2.根据权利要求1所述的语音操作系统，其中，进一步具备显示控制部，用于在设于所述图像形成装置中的显示部上，显示用所述语音操作的语言所表示的画面。

3.根据权利要求2所述的语音操作系统，其中，所述显示控制部显示用根据所述扬声器可以解释的所述语言所设定的语言设定来识别的所述语言所表示的所述画面。

4.根据权利要求2所述的语音操作系统，其中，所述显示控制部根据将语句和所述语言关联起来保存的存储部，显示用所述语音操作表示的所述语句识别的所述语言所表示的所述画面。

5.根据权利要求4所述的语音操作系统，其中，所述存储部将启动之前的所述语句与所述语言相关联起来保存，所述显示控制部显示用用来启动所述扬声器的所述语句识别的所述语言所表示的所述画面。

6.根据权利要求2所述的语音操作系统，其中，所述显示控制部根据将能够识别所述扬声器的设备识别信息与所述语言关联起来保存的存储部，显示用表示接受了所述语音操作的所述扬声器的所述设备识别信息识别的所述语言所表示的所述画面。

7.一种语音操作方法，其中包括以下步骤，

输入步骤，接受语音操作信息，该语音操作信息表示所述扬声器受理的用户的语音操作；

变换步骤，将在所述输入步骤中受理的所述语音操作信息变换成所述图像形成装置可以解释的作业；以及，

指示步骤，指示所述图像形成装置执行在所述变换步骤中经过变换的所述作业。

8.一种计算机可读存储介质，其中包含语音操作程序，该语音操作程序通过处理器执行，实现以下功能，

9.一种计算机装置，其中具有处理器和保存了语音操作程序的存储装置，该语音操作程序通过所述处理器执行，实现以下功能，