CN111385430A

CN111385430A - 图像形成系统和图像形成装置

Info

Publication number: CN111385430A
Application number: CN201911362593.5A
Authority: CN
Inventors: 高桥彻; 名屋佑治; 松村武士
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-12-27
Filing date: 2019-12-26
Publication date: 2020-07-07
Anticipated expiration: 2039-12-26
Also published as: JP2020107130A; CN111385430B; US11159684B2; US20210392236A1; US11792338B2; US20200213457A1

Abstract

本发明公开了图像形成系统和图像形成装置。图像形成系统被配置为接收自然语言语音的输入。不管自然语言语音是否包括第一词或第二词的组合，图像形成系统都可以将自然语言语音识别为选择显示在画面上的特定打印设置的指示。

Description

图像形成系统和图像形成装置

技术领域

本发明涉及能够显示信息并且通过语音输入进行操作的图像形成系统和图像形成装置。这种图像形成装置例如可以用作复印机、多功能外围设备(MFP)、个人计算机(PC)或移动终端。

背景技术

作为接受经由输入接口(诸如触摸面板)的用户的指示的输入的装置，已知诸如MFP的图像形成装置。在与图像形成装置有关的技术领域中，已研究了用语音输入替换这样的指示输入的一部分的技术。日本专利特开No.2007-114297公开了其中通过语音输入来指定在模式存储器中登记的打印设置的组合的技术。

目前已经确定的是在日本专利特开No.2007-114297中公开的技术在使用语音输入时的用户友好性方面仍然具有改进的空间。例如，日本专利特开No.2007-114297介绍了以下机制：当使用基于语音输入的用户的指示时，语音内容和口音与设置的组合相关联并预先在模式存储器中登记，使得检测与登记的内容匹配的语音。然而，利用这种检测技术，口音的细微差异或说出的不相关的词的检测可能导致确定在登记的内容中不存在匹配。在这种情况下，可以请求用户重复语音，直到在登记的内容中找到匹配为止。这在用户友好性方面不是理想的。接受基于语音输入的操作的系统可以更好地能够处理自然语言。

日本专利特开No.2007-114297中公开的技术仅提供响应于在按下语音输入键之后的语音输入而调用在模式存储器中登记的设置的组合的固定功能。即，这种技术不能够提供将以用户友好的方式响应用户对装置的操作以及显示的画面的当前状态的能力。

发明内容

本发明提供了能够根据以自然语言输入的语音接受对画面的操作指示的图像形成系统。特别地，本发明提供了能够根据画面上显示的信息响应以自然语言输入的语音的图像形成系统。

本发明提供了一种图像形成系统，所述图像形成系统包括：图像形成设备，被配置为在片材上形成图像；显示设备，被配置为显示信息；以及至少一个控制器，被配置为：使所述显示设备显示包括用于指定图像形成设置的多个选择对象的设置画面；基于通过麦克风获取的语音来获取包括第一词和第二词的文本信息、并且基于所述多个选择对象中的一个选择对象与关于包括所述第一词和第二词的多个词的组合的信息之间的关联来指定所述一个选择对象；基于通过所述麦克风获取的语音来获取包括第三词和第四词的文本信息、并且基于所述多个选择对象中的一个选择对象与关于不包括所述第一词和第二词但包括所述第三词和第四词的多个词的组合的信息之间的关联来指定所述一个选择对象；以及至少基于与在所述设置画面上指定的选择对象相关联的图像形成设置来使所述图像形成设备形成图像。

从以下参考附图的示例性实施例的描述，本发明的进一步特征将变得清楚。

附图说明

图1图示了图像形成系统的配置。

图2图示了操作面板的配置。

图3是图示音频控制装置的硬件配置的概念图。

图4是图示服务器的硬件配置的概念图。

图5是图示图像形成装置的硬件配置的概念图。

图6是图示音频控制装置的控制程序的功能配置的概念图。

图7A是图示服务器的控制程序的功能配置的概念图，并且图7B示出了由服务器的控制程序管理和使用的组ID列表的示例。

图8是图示图像形成装置的控制程序的功能配置的概念图。

图9A、图9B和图9C呈现了图示图像形成系统中包括的装置之间以及还有装置的控制程序之间的交互的序列图。

图10是图示图像形成装置的控制程序的处理流程的流程图。

图11A和11B示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图12A图示了由图像形成装置的控制程序显示的中文画面，图12D图示了由图像形成装置的控制程序显示的日文画面，并且图12B和12C分别图示了由图像形成装置的控制程序管理和使用的画面控制信息的示例和操作目标确定信息的示例。

图13A、图13B、图13C、和图13D图示了图像形成系统与用户之间的交互。

图14A和14B示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图15A、图15B、图15C和图15D示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图16A、图16B和图16C示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图17A和17B示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图18A和18B示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图19A、图19B和图19C示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图20A、图20B、图20C和图20D示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图21A、图21B、和图21C示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图22A和22B示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图23A和23B示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图24示出了由服务器的控制程序管理和使用的组ID列表的另一个示例。

图25A和25B示出了由服务器的控制程序管理和使用的组ID列表的其它示例。

图26A图示了由图像形成装置的控制程序显示的另一个中文画面，图26I图示了由图像形成装置的控制程序显示的另一个日文画面，图26B图示了由图像形成装置的控制程序管理和使用的画面控制信息的另一个示例，并且图26C、图26D、图26E、图26F、图26G和图26H图示了由图像形成装置的控制程序管理和使用的操作目标确定信息的其它示例。

图27A图示了由图像形成装置的控制程序显示的另一个中文画面，图27D图示了由图像形成装置的控制程序显示的另一个日文画面，并且图27B和27C分别图示了由图像形成装置的控制程序管理和使用的画面控制信息的另一个示例和操作目标确定信息的另一个示例。

图28A、图28B和图28C图示了可以通过语音输入来操作的项目的列表。

图29A、图29B和图29C图示了可以通过语音输入来操作的项目的列表。

图30A、图30B和图30C图示了可以通过语音输入来操作的项目的列表。

具体实施方式

现在将参考附图使用具体的配置来描述用于实施本发明的实施例。注意，用于实现本发明的配置不限于实施例中描述的那些。只要可得到类似的有利效果，实施例中描述的配置中的一些就可以省略或者用等同物替换。

实施例

(系统配置)

图1图示了根据本实施例的图像形成系统的配置。如图1中所示，图像形成系统包括音频控制装置100、图像形成装置101(图像处理装置)、服务器102(信息处理装置)、客户端终端103和网关105。

音频控制装置100、图像形成装置101和客户端终端103能够经由网关105和网络104(局域网或LAN)彼此通信。注意，多于一个的音频控制装置100、多于一个的图像形成装置101和多于一个的客户端终端103可以被配置为彼此连接。音频控制装置100、图像形成装置101和客户端终端103可以经由网关105和因特网与服务器102通信。

根据来自用户106的开始语音操作的指示(语音操作开始指示)，音频控制装置100获取用户106的语音并将编码的音频数据(音频信息)传送到服务器102。音频控制装置100例如是智能扬声器。在本实施例中，音频控制装置100和图像形成装置101被配置为彼此独立。替代地，音频控制装置100的硬件组件(或下面参考图3描述的硬件块)和软件功能(或下面参考图6描述的软件块)可以被包括在图像形成装置101中。即，配置不限于上述配置。

尽管这里描述的图像形成装置101例如是具有多个功能(诸如复印、扫描、打印和传真)的MFP，但是图像形成装置101可以是具有单个功能的打印机或扫描仪。图像形成装置101包括下面参考图2和图5描述的操作面板509。以下描述假设图像形成装置101是彩色激光束MFP。

服务器102对代表用户106的语音并由音频控制装置100获取的音频数据执行语音识别。从语音识别结果，服务器102确定与图像形成装置101的设置操作和作业执行有关的词(词信息)。此外，服务器102根据语音识别结果或确定的词来产生文本，并从文本合成用于音频控制装置100再生语音的音频数据。使用神经网络的机器学习(诸如深度学习)使得服务器102能够提供语音识别的准确结果。例如，服务器102执行学习以准确地识别远方用户的语音。而且，服务器102支持自然语言处理。例如，通过形态解析、语法解析、语义解析和上下文解析，服务器102可以从接收到的自然语言中获取相关信息(词、假名-日文汉字转换的结果)。注意，上述“作业”是代表由图像形成装置101使用打印引擎513或扫描仪515(参见图5)实现的一系列图像形成操作(例如，复印、扫描或打印)的单位。

客户端终端103例如是由用户106使用的PC。客户端终端103发出用于在图像形成装置101上打印电子文件的打印作业。电子文件被存储在例如客户端终端103、因特网上的任何服务器(未示出)或图像形成装置101的外部存储设备505(参见图5)中。客户端终端103接收由图像形成装置101扫描的图像数据。客户端终端103的操作将不被更详细地描述，因为它与本实施例的一系列描述不相关。

网络104使得音频控制装置100、图像形成装置101、客户端终端103和网关105能够彼此连接。网络104使得能够传送和接收各种类型的数据，诸如由音频控制装置100获取并传送到服务器102的音频数据、从服务器102传送的每个数据、以及打印作业和扫描作业。

网关105是例如符合IEEE 802.11标准系列的无线LAN路由器，或者可以能够根据不同的无线通信系统进行操作。网关105可以不必需要是无线LAN路由器，而可以是符合以太网标准(诸如10BASE-T、100BASE-T或1000BASE-T)的有线LAN路由器，或者可以能够根据不同的有线通信系统进行操作。注意，上述IEEE 802.11标准系列包括属于IEEE 802.11的一系列标准，诸如IEEE 802.11a和IEEE 802.11b。

(图像形成装置的操作面板)

图2图示了图像形成装置101的操作面板509的配置。操作面板509是包括发光二极管(LED)和液晶显示器(LCD)并且显示用户106的操作和装置的内部状态的显示设备。操作面板509还用作接受来自用户106的操作的接受设备(输入设备)。操作面板509不仅包括多个硬件键，而且还包括与LCD一体的触摸面板。显示单元200是其中进行主模式设置和状况显示操作的LCD触摸面板。

键201至210是硬件键，诸如触觉开关。

键201代表用于输入从0到9的数字值的数字小键盘(包括数字键)。键202是当通过用户/部门认证来管理装置时用于认证动作(诸如登录或注销动作)的身份证明(ID)键。

键203是用于重置设置的模式的重置键，并且键204是用于显示示出每个模式的描述的画面的指引键。键205是用于显示用户模式画面的用户模式键。键206是用于执行中断复印的中断键。

键207是用于开始复印的开始键，并且键208是用于停止进行中的复印作业的停止键。

键209是软电源开关。按下键209关断LCD触摸面板200的背光，并使装置进入低电力状态。键210是节能器键。按下键210使装置进入节能状态，并且再次按下键210使得能够从节能状态恢复。

键214是用于调整LCD触摸面板200的对比度的调整键。

键215是计数器检查键。通过按下键215，在LCD触摸面板200上显示示出到目前为止进行的复印总数的计数画面。

LED 216是表示作业在进行中或图像正被存储到图像存储器中的LED。LED 217是表示装置处于错误状态的错误LED。例如，LED 217表示已发生纸堵塞或门打开。LED 218是表示装置的主开关为ON的电源LED。

(音频控制装置的硬件配置)

图3是图示音频控制装置100的控制器单元300和包括在音频控制装置100中的设备的硬件配置的图。

如图3中所示，控制器单元300包括连接到系统总线301的中央处理单元(CPU)302、随机存取存储器(RAM)303、只读存储器(ROM)304、外部存储设备305、网络接口(I/F)306、麦克风I/F 307、音频控制器309和显示控制器311。音频控制装置100还包括伴随控制器单元300的设备。这些设备包括用作语音输入设备的麦克风308、用作音频输出设备的扬声器310和用作通知设备的LED 312。

CPU 302是控制控制器单元300的总体操作的中央处理单元。RAM 303是易失性存储器。ROM 304是非易失性存储器，并且存储用于CPU 302的引导程序。外部存储设备305(例如，安全数字存储卡或SD卡)是具有比RAM 303大的容量的存储设备。由控制器单元300执行以控制音频控制装置100的控制程序存储在外部存储设备305中。外部存储设备305可以是闪速ROM而不是SD卡，或者可以用具有与SD卡的功能等同的功能的不同类型的存储设备替换。

在启动时(例如，当接通电源时)，CPU 302执行存储在ROM 304中的引导程序。引导程序用于读取存储在外部存储设备305中的控制程序，并在RAM 303中展开读取的控制程序。在执行引导程序之后，CPU 302执行在RAM 303中展开的控制程序以实施控制。CPU 302将在控制程序的执行期间使用的数据存储在RAM 303中，并执行从RAM 303的读取和到RAM303的写入。控制程序的执行期间所需的各种设置也可以存储在外部存储设备305中，并由CPU 302读取和重写。CPU 302经由网络I/F 306与网络104上的其它设备通信。

网络I/F 306包括用于根据基于IEEE 802.11标准系列的无线通信系统执行通信的电路和天线。通信系统不必需要是无线通信系统，而可以是基于以太网标准的有线通信系统。

麦克风I/F 307连接到麦克风308，将由用户106说出并由麦克风308接收的语音转换成编码的音频数据，并且根据来自CPU 302的指示将数据存储在RAM 303中。

麦克风308是例如安装在智能电话上的小型微机电系统(MEMS)麦克风，但可以是能够获取用户106的语音的任何设备。可以将三个或更多个麦克风308布置在预定位置处以计算由用户106说出的传入语音的方向。然而，本实施例可以用一个麦克风308来实现。麦克风308的数量不必需要是三个或更多个。

音频控制器309连接到扬声器310，根据来自CPU 302的指示将音频数据转换成模拟音频信号，并且通过扬声器310输出得到的语音。

扬声器310再生表示音频控制装置100正在响应的音频响应，并且还再生由服务器102合成的语音。扬声器310是用于一般目的的声音再生设备。

显示控制器311连接到LED 312，并且根据来自CPU 302的指示控制LED 312的显示。在本实施例中，显示控制器311主要控制LED 312的照亮以表示音频控制装置100正在正确地接收来自用户106的语音输入。

LED 312例如是用户106可见的蓝色LED。LED 312是通用设备。LED 312可以被能够显示文字和图片的显示设备替换。

(服务器的硬件配置)

图4是图示服务器102的控制器单元的硬件配置的图。

如图4中所示，控制器单元包括连接到系统总线401的CPU 402、RAM 403、ROM 404、外部存储设备405和网络I/F 406。

CPU 402是控制控制器单元的总体操作的中央处理单元。RAM 403是易失性存储器。ROM 404是非易失性存储器，并且存储用于CPU 402的引导程序。外部存储设备405(例如，硬盘驱动器或HDD)是具有比RAM 403大的容量的存储设备。由控制器单元执行以控制服务器102的控制程序存储在外部存储设备405中。外部存储设备405可以是固态驱动器(SSD)，或者可以用具有与HDD的功能等同的功能的不同类型的存储设备替换。

在启动时(例如，当接通电源时)，CPU 402执行存储在ROM 404中的引导程序。引导程序用于读取存储在外部存储设备405中的控制程序，并在RAM 403中展开读取的控制程序。在执行引导程序之后，CPU 402执行在RAM 403中展开的控制程序以实施控制。CPU 402将在控制程序的执行期间使用的数据存储在RAM 403中，并执行从RAM 403的读取和到RAM403的写入。控制程序的执行期间所需的各种设置也可以存储在外部存储设备405中，并由CPU 402读取和重写。CPU 402经由网络I/F 406与网络104上的其它设备通信。

(图像形成装置的硬件配置)

图5是图示图像形成装置101的控制器单元500和包括在图像形成装置101中的设备的硬件配置的图。

如图5中所示，控制器单元500包括连接到系统总线501的CPU 502、RAM 503、ROM504、外部存储设备505、网络I/F 506、显示控制器507、操作I/F 508、打印控制器512和扫描控制器514。

CPU 502是控制控制器单元500的总体操作的中央处理单元。RAM 503是易失性存储器。ROM 504是非易失性存储器，并且存储用于CPU 502的引导程序。外部存储设备505(例如，HDD)是具有比RAM 503大的容量的存储设备。由CPU 502执行以控制图像形成装置101的控制程序存储在外部存储设备505中。外部存储设备505可以是SSD，或者可以用具有与HDD的功能等同的功能的不同类型的存储设备替换。

在启动时(例如，当接通电源时)，CPU 502执行存储在ROM 504中的引导程序。引导程序用于读取存储在外部存储设备505中的控制程序，并在RAM 503中展开读取的控制程序。在执行引导程序之后，CPU 502执行在RAM 503中展开的控制程序以实施控制。CPU 502将在控制程序的执行期间使用的数据存储在RAM 503中，并执行从RAM 503的读取和到RAM503的写入。控制程序的执行期间所需的各种设置和由扫描仪515读取的图像数据也可以存储在外部存储设备505中，并由CPU 502读取和重写。CPU 502经由网络I/F 506与网络104上的其它设备通信。

根据来自CPU 502的指示，显示控制器507控制连接到显示控制器507的操作面板509的LCD触摸面板200的画面显示。

操作I/F 508允许操作信号的输入和输出。操作I/F 508连接到操作面板509。当按压LCD触摸面板200时，CPU 502经由操作I/F 508获取与LCD触摸面板200的按压对应的坐标。操作I/F 508检测操作面板509上的硬件键201至210中的每一个的按下。

根据来自CPU 502的指示，打印控制器512向连接到打印控制器512的打印引擎513传送控制命令或图像数据。

打印引擎513是根据从打印控制器512接收到的控制命令在片材上打印接收到的图像数据(或执行打印)的打印设备。将不进一步描述打印引擎513，因为其细节超出了这里的范围。

根据来自CPU 502的指示，扫描控制器514向连接到扫描控制器514的扫描仪515传送控制命令，并将从扫描仪515接收到的图像数据写入RAM 503。

扫描仪515是读取设备，其根据从扫描控制器514接收到的控制命令使用光学单元读取图像形成装置101的台板玻璃(未示出)上的原稿(或执行其读取)。将不进一步描述扫描仪515，因为其细节超出了这里的范围。

将打印引擎513和扫描仪515组合使得能够影印读取的原稿的图像。

(音频控制装置的音频控制程序的功能配置)

图6是图示由CPU 302执行的音频控制装置100的音频控制程序601的功能配置的框图。

如上所述，音频控制装置100的音频控制程序601存储在外部存储设备305中。在启动时，CPU 302在RAM 303中展开音频控制程序601并执行它。

数据传送和接收单元602根据传送控制协议/因特网协议(TCP/IP)经由网络I/F306向网络104上的其它设备传送数据和从网络104上的其它设备接收数据。数据传送和接收单元602向服务器102传送由语音获取单元604(下面描述)获取的代表用户106的语音的音频数据。数据传送和接收单元602接收在服务器102上产生的合成语音数据作为对用户106的响应。

数据管理单元603在外部存储设备305的预定区域中存储各种类型的数据，并管理所存储的数据。各种类型的数据包括在音频控制程序601的执行期间产生的工作数据。具体地，例如，数据管理单元603存储并管理用于设置由音频再生单元605(下面描述)再生的语音的音量的音量设置数据、与网关105通信所需的认证信息、以及与图像形成装置101和服务器102通信所需的设备信息。

语音获取单元604将由麦克风308获取的音频控制装置100附近的用户106的模拟语音转换成音频数据，并暂时存储音频数据。用户106的语音被转换为预定格式，诸如MPEG-1音频层3(MP3)格式，并且作为要被传送到服务器102的编码的音频数据暂时存储在RAM303中。语音获取单元604中的处理的开始和结束定时由音频控制单元609(下面描述)管理。可以以通用的流式传输格式对音频数据进行编码，并且可以通过数据传送和接收单元602顺次地传送编码的音频数据。

音频再生单元605经由音频控制器309从扬声器310再生由数据传送和接收单元602接收的合成的语音数据(音频消息)。音频再生单元605中的音频再生的定时由音频控制单元609(下面描述)管理。

显示单元606经由显示控制器311使LED 312照亮。例如，当操作开始检测单元607(下面描述)已检测到语音操作的开始时，显示单元606使LED 312照亮。显示单元606要使LED 312照亮的定时由音频控制单元609(下面描述)管理。

操作开始检测单元607检测由用户106说出的唤醒词，或者音频控制装置100的操作开始键(未示出)的按下。操作开始检测单元607然后将操作开始通知传送到音频控制单元609。注意，唤醒词是要说出的预定词。操作开始检测单元607一直从由麦克风308获取的音频控制装置100附近的用户106的模拟话音中检测唤醒词。用户106可以通过讲出唤醒词并然后说出他或她想做什么来操作图像形成装置101。稍后将在下面描述在操作开始检测单元607检测到唤醒词之后执行的语音处理。

语音结束确定单元608确定语音获取单元604中的处理的结束定时。例如，当用户106的语音停止预定长度的时间(例如，三秒)时，语音结束确定单元608确定用户106的语音已结束。语音结束确定单元608然后将语音结束通知传送到音频控制单元609。可以基于用户106说出的预定词、而不基于没有语音发生的时间的长度(下文中称为“空白时段”)来进行语音是否已结束的确定。例如，如果接收到预定词(诸如“是”、“否”、“确认”、“取消”、“完成”、“开始”或“起始”)，那么语音结束确定单元608可以确定语音已结束，而无需等待预定长度的时间。可以由服务器102而不是音频控制装置100来进行语音结束的确定。可以从用户106做出的语音的含义和上下文来确定语音的结束。

音频控制单元609用作中央控制单元，该中央控制单元使得音频控制程序601中的其它模块能够以相互协调的方式进行操作。具体地，音频控制单元609控制语音获取单元604、音频再生单元605和显示单元606的处理的开始和结束。在语音获取单元604获取音频数据之后，音频控制单元609执行控制，使得数据传送和接收单元602将音频数据传送到服务器102。在数据传送和接收单元602从服务器102接收到合成的语音数据之后，音频控制单元609执行控制，使得音频再生单元605再生合成的语音数据。

现在将描述语音获取单元604、音频再生单元605和显示单元606中的处理的开始和结束定时。

在从操作开始检测单元607接收到操作开始通知时，音频控制单元609开始语音获取单元604中的处理。在从语音结束确定单元608接收到语音结束通知时，音频控制单元609结束语音获取单元604中的处理。例如，假设用户106说出唤醒词并然后讲出“我想要进行复印”。在这种情况下，操作开始检测单元607检测到唤醒词的声音，并将操作开始通知传送到音频控制单元609。在接收到操作开始通知时，音频控制单元609执行控制，使得语音获取单元604中的处理开始。语音获取单元604将随后的模拟语音“我想要进行复印”转换成音频数据，并暂时存储音频数据。如果语音结束确定单元608确定语音“我想要进行复印”之后是预定的空白时段，那么语音结束确定单元608将语音结束通知传送到音频控制单元609。在接收到语音结束通知时，音频控制单元609结束语音获取单元604中的处理。注意，语音获取单元604中的处理的开始和结束之间的状态将被称为语音处理模式。显示单元606使LED 312照亮以表示音频控制装置100处于语音处理模式。

在语音结束确定单元608确定用户106已结束语音之后，音频控制单元609执行控制，使得音频数据被从数据传送和接收单元602传送到服务器102，并然后等待来自服务器102的响应。该响应是例如由合成的语音数据和表示这是响应的报头组成的响应消息。当数据传送和接收单元602接收到响应消息时，音频控制单元609执行控制，使得音频再生单元605再生合成的语音数据。合成的语音数据例如是“复印画面将被显示”。注意，在语音结束确定与合成的语音数据的再生结束之间的状态将被称为响应处理模式。显示单元606使LED312闪烁以表示音频控制装置100处于响应处理模式。

在响应处理之后，只要与服务器102的交互式会话继续，用户106就可以说出他或她想要做什么而无需讲出任何唤醒词。由服务器102进行交互式会话是否已结束的确定。服务器102通过向音频控制装置100传送结束通知来通知音频控制装置100交互式会话已结束。注意，一个交互式会话的结束与另一个交互式会话的开始之间的状态将被称为待机模式。音频控制装置100一直处于待机模式，直到从操作开始检测单元607接收到操作开始通知。显示单元606在待机模式下不使LED 312照亮。

(服务器的音频-数据转换控制程序的功能配置)

图7A是图示由CPU 402执行的服务器102的音频-数据转换控制程序701的功能配置的框图。图7B示出了由组ID确定单元707使用以确定组ID的组ID列表的示例。在组ID列表中，关于用户对图像形成装置101的操作具有相同含义或意图的词被分组在相同的ID下。这里列出的词是用户106对音频控制装置100说出的词的语音识别结果。

如上所述，服务器102的音频-数据转换控制程序701存储在外部存储设备405中。在启动时，CPU 402在RAM 403中展开音频-数据转换控制程序701并执行它。

数据传送和接收单元702根据TCP/IP经由网络I/F 406向网络104上的其它设备传送数据和从网络104上的其它设备接收数据。数据传送和接收单元702从音频控制装置100接收代表用户106的语音的音频数据。数据传送和接收单元702传送由组ID确定单元707(下面描述)进行的组ID确定的结果。

数据管理单元703在外部存储设备405的预定区域中存储各种类型的数据，并管理所存储的数据。各种类型的数据包括在音频-数据转换控制程序701的执行期间产生的工作数据、以及音频数据转换器704执行语音识别处理所需的参数。具体地，例如，数据管理单元703在外部存储设备405的预定区域中存储声学和语言模型以供语音识别单元705将由数据传送和接收单元702接收的音频数据转换成文本，并管理所存储的模型。而且，例如，数据管理单元703在外部存储设备405的预定区域中存储词典以供形态解析单元706对文本执行形态解析，并管理所存储的词典。而且，例如，数据管理单元703在外部存储设备405的预定区域中存储组ID列表以供组ID确定单元707确定组ID，并管理所存储的组ID列表。而且，例如，数据管理单元703在外部存储设备405的预定区域中存储语音数据库以供语音合成单元708执行语音合成，并管理所存储的语音数据库。数据管理单元703还存储并管理与音频控制装置100和图像形成装置101通信所需的设备信息。

音频数据转换器704包括语音识别单元705、形态解析单元706、组ID确定单元707和语音合成单元708。现在将描述音频数据转换器704。

语音识别单元705执行语音识别处理以将由数据传送和接收单元702接收的代表用户106的语音的音频数据转换成文本。语音识别处理涉及使用声学模型将用户106的语音的音频数据转换成音素，并且进一步使用语言模型将音素转换成实际的文本数据。在本实施例中，文本数据由包含一个或多个片假名字符(一种类型的假名或日语注音符号)的“片假名”文本以及通过片假名文本的假名-日文汉字转换获得并且包含平假名字符(另一种类型的假名)、片假名字符和日文汉字字符(非注音字符)的混合的“假名/日文汉字”文本组成。假名/日文汉字文本还包含数字、字母和符号。可以使用不同的技术来执行将音频数据转换成文本数据的语音识别处理，并且技术不限于上述技术。将不进一步描述语音识别处理，因为其细节超出了这里的范围。

形态解析单元706对通过语音识别单元705的转换所获得的文本数据执行形态解析。形态解析涉及从具有关于语言的语法和词类的信息的词典中提取词素序列，并确定每个词素的词类。形态解析单元706可以由被设计用于形态解析的已知软件(诸如JUMAN、ChaSen或MeCab)来实现。形态解析单元706将通过语音识别单元705的转换所获得的文本数据解析成词素序列。例如，文本数据“Kopi-o-shi-tai(我想要复印)”被解析成词素序列“kopi”、“o”、“shi”和“tai”，并且文本数据“Esan-kara-eyon-e(从A3到A4)”被解析成词素序列“esan”、“kara”、“eyon”和“e”。

组ID确定单元707将形态解析单元706进行的形态解析的结果与图7B中所示的组ID列表进行比较以确定组ID，并产生组ID确定的结果(下文中称为“组ID确定结果”)。例如，组ID确定单元707确定词素序列“kopi”、“o”、“shi”和“tai”与“kopi(复印)”的组ID“FNC00001”匹配，并产生{ID：FNC00001}作为组ID确定结果。而且，组ID确定单元707确定词素序列“esan”、“kara”、“eyon”和“e”分别与“esan(A3)”和“eyon(A4)”的两个组ID“PAP00100”和“PAP00101”匹配，并产生{ID：PAP00100，ID：PAP00101}作为组ID确定结果。

当组ID确定结果包括多个ID时，它们以它们已经受语音识别和形态解析的次序产生。例如，当语音识别和形态解析的结果是词素序列“eyon(A4)”、“kara”、“esan(A3)”和“e”时，则产生{ID：PAP00101，ID：PAP00100}作为组ID确定结果。可以将相邻词素的组合与组ID列表比较来进行确定。在这种情况下，如果在任何组ID列表中针对一个词素找到匹配，并且在任何组ID列表中针对包括这一个词素的词素组合也找到匹配，那么使用后一个结果来产生组ID确定结果。例如，如果词素序列是“A”和“4”，那么产生与“A4”对应的{ID：PAP00101}作为组ID确定结果，而不是与“A”和“4”对应的{ID：CHR00000，ID：NUM00004}。而且，由语音识别和形态解析的结果中包括的一个或多个片假名字符组成的片假名文本和从片假名文本转换的假名/日文汉字文本可以被组合并与组ID列表进行比较。例如，组ID确定单元707首先将假名/日文汉字文本与组ID列表的标注为“假名/日文汉字”的列中的文本进行比较。然后，如果没有找到对应的组ID，那么组ID确定单元707将片假名文本与组ID列表的标注为“片假名”的列中的文本进行比较以检测对应的组ID。如果在组ID列表中在“片假名”中存在重叠并且找到多个对应的组ID，那么可以产生多个组ID确定结果作为候选。由此产生组ID确定结果，这容纳假名-日文汉字转换中的错误以及附到日文汉字字符的假名批注(或表示发音的读法辅助)的变化。

语音合成单元708基于从图像形成装置101接收的通知执行语音合成。在语音合成中，预先准备的要与预定通知配对的文本被转换为预定格式(诸如MP3)的音频数据。稍后将参考图9A至9C的序列图描述接收到的通知数据和要被合成为语音的文本的示例性组合。语音合成例如基于存储在数据管理单元703中的语音数据库来产生音频数据。语音数据库是例如具有固定内容的口语词的集合。尽管在本实施例中使用语音数据库执行语音合成，但是可以将不同的技术用于语音合成。语音合成技术不限于使用语音数据库的技术。将不进一步描述语音合成，因为其细节超出了这里的范围。

(图像形成装置的设备控制程序的功能配置)

图8是图示由CPU 502执行的图像形成装置101的设备控制程序801的功能配置的框图。

如上所述，图像形成装置101的设备控制程序801存储在外部存储设备505中。在启动时，CPU 502在RAM 503中展开设备控制程序801并执行它。

数据传送和接收单元802根据TCP/IP经由网络I/F 506向网络104上的其它设备传送数据和从网络104上的其它设备接收数据。数据传送和接收单元802接收由组ID确定单元707产生的组ID确定结果。数据传送和接收单元802将表示操作面板509的LCD触摸面板200的画面上显示的信息已被更新的画面更新通知以及表示作业的执行状态的作业状态通知从图像形成装置101传送到服务器102。稍后将在下面参考图9A、图9B和图9C的序列图描述通知的细节。

数据管理单元803在RAM 503和外部存储设备505的预定区域中存储各种类型的数据，并管理所存储的数据。各种类型的数据包括在设备控制程序801的执行期间产生的工作数据、以及控制每个设备所需的设置参数。具体地，例如，数据管理单元803管理包括由设备控制单元808(下面描述)执行的作业的设置项目和设置值的组合的作业数据，并且还管理定义片材属性信息的机器设置信息。而且，数据管理单元803存储并管理与网关105通信所需的认证信息以及与服务器102通信所需的设备信息。数据管理单元803还存储并管理由图像形成装置101使用以形成图像的图像数据。而且，数据管理单元803存储由显示单元806使用以进行画面显示控制的画面控制信息、以及由操作目标确定单元807使用以确定操作目标的操作目标确定信息。数据管理单元803管理由显示单元806显示的每个画面的画面控制信息和操作目标确定信息。

扫描单元804基于设备控制单元808(下面描述)的扫描作业参数设置经由扫描控制器514使扫描仪515执行扫描。扫描单元804将读取的图像数据存储在数据管理单元803中。

打印单元805基于设备控制单元808(下面描述)的打印作业参数设置经由打印控制器512使打印引擎513执行打印。

显示单元806经由显示控制器507控制操作面板509，并基于上述画面控制信息在LCD触摸面板200上显示用户可操作的用户界面(UI)组件(例如，按钮、下拉列表和复选框)。而且，显示单元806经由操作I/F508获取LCD触摸面板200(下文中称为“画面”)的触摸点的坐标，并且确定UI组件或图标(操作目标)以及在接受操作时要执行的处理。而且，显示单元806检测操作面板509上的硬件键201至210的按下。根据上述结果，显示单元806更新在画面上显示的信息，或者将通过用户的操作设置的作业参数和开始作业的指示传送到设备控制单元808。根据由操作目标确定单元807(下面描述)进行的操作目标确定的结果，显示单元806类似地更新在画面上显示的信息，或者将通过用户的操作设置的作业参数和开始作业的指示传送到设备控制单元808。

基于由数据传送和接收单元802接收的组ID确定结果，操作目标确定单元807确定显示在操作面板509上的画面的用户可操作的UI组件中的一个或操作面板509的硬件键201至210作为操作目标。稍后在下面将参考图11A和11B详细描述操作目标确定单元807。

设备控制单元808经由打印控制器512和扫描控制器514控制打印引擎513和扫描仪515并向打印引擎513和扫描仪515给出指示。例如，当显示单元806在显示复印功能画面期间检测到开始键207的按下时，设备控制单元808从显示单元806接收复印作业的参数和作业开始指示。然后，基于作业参数，设备控制单元808执行控制，使得由扫描仪515读取的图像数据通过打印引擎513被打印在片材上。将不进一步描述扫描和打印控制的机制，因为它超出了这里的范围。

(系统控制序列)

图9A至9C呈现了图示图1中所示的图像形成系统中包括的装置之间以及还有图6至8中所示的装置的控制程序之间的交互的序列图。图9A至9C特别地图示了以下序列：在音频控制装置100接收到基于用户106的话音的语音操作之后，图像形成装置101执行对应的处理，并将代表执行结果的音频响应返回到用户106。图9A至9C中所示的序列示例假设音频控制装置100、图像形成装置101和服务器102都准备好彼此通信。这个序列示例还假设在启动之后(例如，在接通电源之后)图像形成装置101显示主菜单画面，该主菜单画面允许用户106调用诸如复印、扫描或打印的功能。

首先，在步骤S905(下文中称为S905等)中，用户106指示音频控制装置100开始语音操作。当用户106讲出唤醒词或按下音频控制装置100的操作开始键时，发送开始语音操作的指示。开始语音操作的指示由操作开始检测单元607检测。

当检测到开始语音操作的指示时，在S906中，音频控制程序601的显示单元606使LED 312照亮，以表示音频控制装置100处于语音处理模式。同时，语音获取单元604开始执行处理。

在S907中，用户106指示音频控制装置100调用功能。当用户106在S905中讲出唤醒词之后说出例如“我想要进行复印”或“显示复印画面”时，发送这个功能调用指示。从由语音获取单元604获取的语音，产生音频数据。在经过了预定的空白时段之后，语音结束确定单元608确定语音已结束。

响应于语音结束确定，在S908中，音频控制程序601的显示单元606使LED 312闪烁，以表示音频控制装置100处于响应处理模式。同时，语音获取单元604结束其处理。

在产生代表在S907中接收到的功能调用指示的音频数据之后，在S909中，数据传送和接收单元602将产生的音频数据传送到服务器102。

在S910中，音频-数据转换控制程序701的语音识别单元705对由数据传送和接收单元702接收的音频数据执行语音识别。通过语音识别，例如，从用户106说出的语音“Kopi-shi-tai(我想要进行复印)”产生文本。

在S911中，音频-数据转换控制程序701的形态解析单元706对在S910中产生的文本执行形态解析。通过形态解析，例如，文本“Kopi-shi-tai”被解析成词素序列“kopi”、“shi”和“tai”。

在S912中，音频-数据转换控制程序701的组ID确定单元707对被解析成词素序列的文本执行组ID确定。通过组ID确定，例如，词素序列“kopi”、“shi”和“tai”与图7B中所示的组ID列表进行比较，并且产生{ID：FNC00001}作为组ID确定结果。

在S913中，音频-数据转换控制程序701的数据传送和接收单元702将在S912中获得的组ID确定结果传送到图像形成装置101。

在S914中，设备控制程序801的操作目标确定单元807对由数据传送和接收单元802接收的组ID确定结果执行操作目标确定。例如，从组ID确定结果{ID：FNC00001}，操作目标确定单元807确定主菜单画面中的“复制”按钮已被选择。

在S915中，根据在S914中进行的确定，显示单元806更新在画面上显示的信息。例如，基于上述处理，如果从用户106说出的语音“Kopi-shi-tai”确定操作的目标是画面上显示的“复印”按钮，那么显示单元806以与在LCD触摸面板200上触摸“复印”按钮时相同的方式显示复印功能画面。

在S916中，数据传送和接收单元802将表示画面上显示的信息已被更新的画面更新通知传送到服务器102。例如，当显示单元806将显示从主菜单画面切换到复印功能画面时，数据传送和接收单元802传送文本数据“复印功能画面被显示”作为画面更新通知。

在S917中，音频-数据转换控制程序701的语音合成单元708对由数据传送和接收单元702接收的画面更新通知执行语音合成。具体地，语音合成单元708从与画面更新通知对应的预定文本数据合成语音。例如，如果画面更新通知是“复印功能画面被显示”，那么语音合成单元708从对应的文本数据合成语音“复印画面已被显示”。

在S918中，由语音合成单元708在S917中通过语音合成产生的音频数据(合成的语音数据)由数据传送和接收单元702传送到音频控制装置100。合成的语音数据由音频控制程序601的数据传送和接收单元602接收。

在S919中，音频再生单元605再生在S918中接收的合成的语音数据。例如，通过扬声器310再生在S917中产生的合成的语音数据“复印画面已被显示”。

在S920中，在再生合成的语音数据之后，音频控制程序601的显示单元606再次使LED 312照亮，以表示音频控制装置100处于语音处理模式。同时，语音获取单元604再次开始处理。

在S921中，用户106指示音频控制装置100调用设置画面。当用户106说出例如“Yoshi-o-sentaku(选择纸)”时，发送调用设置画面的指示。从由语音获取单元604获取的语音，产生音频数据。当在用户106的语音之后经过了预定的空白时段时，语音结束确定单元608确定语音已结束。

在S922中，执行与S908中的操作相同的操作。

在S923中，执行与在S909至S918中执行的语音操作处理类似的语音操作处理。不同之处在于，在S923中，显示单元806根据调用设置画面的指示(在S921中发送)更新画面。例如，当在复印功能画面的显示期间获得组ID确定结果{ID：PAP00000，ID：OPR00040}时，显示单元806显示纸选择画面。

在S924中，音频再生单元605再生在S923中通过语音合成产生的合成的语音数据。例如，当在S923中纸选择画面被显示为设置画面时，音频再生单元605通过扬声器310再生合成的语音数据“纸选择画面已被显示。请选择纸”。

在S925中，执行与S920中的操作相同的操作。

在S926中，用户106指示音频控制装置100改变设置。当用户106说出例如“Eyon(A4)”时，发送设置改变指示。当在用户106的语音之后经过了预定的空白时段时，语音结束确定单元608确定语音已结束。

在S927中，执行与S908中的操作相同的操作。

在S928中，执行与在S909至S918中执行的语音操作处理类似的语音操作处理。不同之处在于，在S928中，显示单元806根据改变设置的指示(在S926中发送)改变显示在设置画面上的设置值(即，显示单元806执行接受改变设置值的指示的处理)。例如，当在纸选择画面的显示期间获得组ID确定结果{ID：PAP00101}时，显示单元806通过将指定纸类型的设置值改变为A4来更新显示的纸选择画面。

在S929中，音频再生单元605再生在S928中通过语音合成产生的合成的语音数据。例如，当在S928中指定纸类型的设置值被改变并显示时，音频再生单元605通过扬声器310再生合成的语音数据“A4纸已被选择”。

在S930中，执行与S920中的操作相同的操作。

在S931中，用户106指示音频控制装置100确定设置。

在S932中，执行与S908中的操作相同的操作。

在S933中，执行与在S909至S918中执行的语音操作处理类似的语音操作处理。

在S934中，音频再生单元605再生在S933中通过语音合成产生的合成的语音数据。

在S935中，执行与S920中的操作相同的操作。

在S936中，用户106指示音频控制装置100执行作业。当用户106说出例如“Kopi-sutato(开始复印)”时，发送作业执行指示。当在用户106的语音之后经过了预定的空白时段时，语音结束确定单元608确定语音已结束。

S937至S942中的处理与在S908至S913中执行的处理类似。

在S943中，设备控制程序801的操作目标确定单元807对由数据传送和接收单元802接收的组ID确定结果执行操作目标确定。如果组ID确定结果是{ID：FNC00001，ID：OPR00011}，那么操作目标确定单元807确定在画面上显示的“复印开始”按钮或作为硬件键的开始键207已被操作。

在S944中，显示单元806根据在S943中进行的确定显示作业执行画面。例如，如果操作目标确定单元807基于到目前为止执行的处理确定用户106说出的语音“Kopi-sutato(开始复印)”是对开始键207的操作，那么显示单元806显示复印作业开始画面。

在S945中，根据在图像形成装置101的画面上设置的作业参数执行作业。

在S946中，数据传送和接收单元802将作业状态通知传送到服务器102。具体地，数据传送和接收单元802传送表示作业执行已开始的信息(作业开始通知)。例如，当复印作业已开始时，文本数据“复印作业开始”被作为作业状态通知传送到服务器102。

在S947中，音频-数据转换控制程序701的数据传送和接收单元702接收作业状态通知，并且语音合成单元708从与接收到的作业状态通知(作业开始通知)对应的预定文本数据合成语音。例如，如果作业状态通知是“复印作业开始”，那么语音合成单元708从对应的文本数据合成语音“复印将开始”。

在S948中，执行与S918中的操作相同的操作。

在S949中，音频再生单元605再生在S948中接收的合成的语音数据。例如，通过扬声器310再生在S947中产生的合成的语音数据“复印将开始”。

在S950中，数据传送和接收单元802将作业状态通知传送到服务器102。具体地，数据传送和接收单元802传送表示作业执行已结束的信息(作业结束通知)。例如，当复印作业已结束时，文本数据“复印作业完成”被作为作业状态通知传送到服务器102。

在S951中，音频-数据转换控制程序701的数据传送和接收单元702接收作业状态通知，并且语音合成单元708从与接收到的作业状态通知(作业结束通知)对应的预定文本数据合成语音。例如，如果作业状态通知是“复印作业完成”，那么语音合成单元708从对应的文本数据合成语音“复印已完成”。

在S952中，响应于在S945中执行的作业的完成，显示单元806显示作业结束画面。例如，当复印作业的执行结束时，显示单元806显示复印作业结束画面。

在S953中，数据传送和接收单元602从服务器102接收在S951中产生的合成的语音数据。数据传送和接收单元602还从服务器102接收会话结束通知，该会话结束通知通知音频控制装置100与用户106的交互式会话将要完成。

在S954中，音频再生单元605再生在S953中接收的合成的语音数据。例如，通过扬声器310再生在S951中产生的合成的语音数据“复印已完成”。

在S955中，响应于在S953中接收到会话结束通知，音频控制程序601的显示单元606使LED 312关断，以表示音频控制装置100处于待机模式。

在S956中，响应于在S953中接收到会话结束通知，使音频控制装置100进入待机模式。

即使当序列图示出LED 312闪烁以表示音频控制装置100处于响应处理模式时，音频控制装置100也准备好接收唤醒词的输入。因此，在说出唤醒词之后，用户106可以讲出“取消”或“停止”以强制终止交互式会话。

(图像形成装置的设备控制程序的处理流程)

图10是图示图像形成装置101的设备控制程序801的总体处理的流程图。图10特别地图示了与图9A至9C的序列图中的S914、S915、S923、S928、S933以及S943至S952对应的设备控制程序801的处理流程。

现在将参考图11A和11B以及图12A至12C详细描述图10中所示的处理流程。图11A和11B示出了添加到图7B中所示的组ID列表的组ID列表的其它示例。图12A图示了由显示单元806显示的中文画面。图12D图示了由显示单元806显示的日文画面。图12D与图12A对应。图12B图示了与图12A中所示的画面对应的画面控制信息的示例。图12B中的画面控制信息包括画面中包括的用户可操作的UI组件(例如，按钮1101至1105以及1111至1113)的列表、以及当对UI组件执行用户操作时实施的动作(画面控制、内部处理)。图12C图示了与图12A中所示的画面对应的操作目标确定信息的示例。在操作目标确定信息中，用户可操作的UI组件中的每一个预先与至少一个组ID确定结果相关联。即，图12C示出了代表画面配置信息的表格。在图12C中所示的表格中，“操作期间的用户语音的示例”和“操作面板上的操作”被添加作为以下描述的参考，并且不必需要被包括在由数据管理单元803管理的操作目标确定信息中。图12C所示的例子是由观看以日文显示的画面(图12D)的用户执行的语音操作的合适的例子

在S1001中，数据传送和接收单元802接收由组ID确定单元707产生的组ID确定结果。

在S1002中，设备控制程序801获取与由显示单元806显示的画面对应的画面控制信息以及由操作目标确定单元807使用以确定操作目标的操作目标确定信息。例如，当显示单元806显示用于复印功能的颜色设置画面1100(参见图12A)时，设备控制程序801获取与颜色设置画面1100对应的画面控制信息(参见图12B)，并且还获取操作目标确定信息(参见图12C)。

在S1003中，操作目标确定单元807使用在S1001中接收的组ID确定结果和在S1002中获取的操作目标确定信息来执行操作目标确定。这个操作目标确定将包括在操作面板509上显示的画面中的用户可操作的UI组件或包括在操作面板509中的硬件键201至210中的一个确定为操作目标。例如，从用户106说出的语音“Jido(自动的或自动)”，传送由组ID确定单元707确定的组ID确定结果{DGR00008}。然后，与由数据传送和接收单元802在S1001中接收的组ID确定结果匹配的“自动(彩色/黑色)”按钮1101被确定为操作目标。当检测到语音“Jido，kara，shirokuro(自动、彩色、黑白)”时，“自动(彩色/黑色)”按钮1101也被确定为操作目标。因此，多个语音模式可以与每个项目相关联。

在S1004中，显示单元806基于在S1003中进行的操作目标确定的结果和在S1002中获取的画面控制信息来更新显示在画面上的信息。例如，如果在S1003中“自动(彩色/黑色)”按钮1101被确定为操作目标，那么显示单元806根据图12B中所示的画面控制信息来更新画面以强调“自动(彩色/黑色)”按钮1101。图12C示出触摸显示在操作面板509的LCD触摸面板200上的“自动(彩色/黑色)”按钮1101也可以强调这个按钮。

在S1005中，基于在S1003中进行的操作目标确定的结果和在S1002中获取的画面控制信息，设备控制程序801确定是否要执行作业。如果要执行作业，那么处理前进到S1007，否则前进到S1006。例如，如果在S1003中“自动(彩色/黑色)”按钮1101被确定为操作目标，那么由于图12B中未示出内部处理，因此确定作业将不被执行。例如，如果在S1003中开始键207被确定为操作目标，那么由于图12B示出“开始复印作业的执行”作为内部处理，因此确定作业将被执行。

在S1006中，数据传送和接收单元802将画面更新通知传送到服务器102，如上述S916中那样。

在S1007中，基于设置的作业参数执行作业。具体地，图像形成装置101执行一系列图像形成操作(例如，复印、扫描或打印)。例如，当在图12A中所示的画面上的“自动(彩色/黑色)”按钮1101正被强调的同时要开始复印作业时，通过使用“自动(彩色/黑色)”按钮1101的设置值作为作业参数来执行复印作业。

在S1008中，数据传送和接收单元802将作业状态通知传送到服务器102，如上述S946和S950中那样。

图13A、图13B、图13C和图13D呈现了用于具体描述图9A至9C的序列图中示出的用户106的语音操作与图像形成系统的响应之间的示例性交互的示意图。图13A、图13B、图13C和图13D示出了作为用户106的语音操作的语音示例、以及各自由图像形成系统呈现以表示音频控制装置100的音频处理模式的对应的LED状况。图13A、图13B、图13C和图13D还图示了在图像形成装置101的操作面板509上显示的画面与由音频控制装置100再生的音频响应之间的对应关系及其流程。

首先，图像形成系统在操作面板509上显示顶层画面(S1301)。LED312是关的并且这表示音频控制装置100处于待机模式。如果用户106此时说出唤醒词(S1302)，那么图像形成系统开始接受语音操作并使LED 312照亮以表示音频控制装置100处于语音处理模式(S1303)。注意，S1302和S1303分别作为图9A至9C的序列图中的S905和S906的示例呈现。当用户106在唤醒词之后讲出“我想要进行复印”(S1304)时，图像形成系统使LED 312闪烁以表示音频控制装置100处于响应处理模式(S1305)，并显示复印顶层画面(S1306)。然后，图像形成系统再生“复印画面已被显示”作为音频响应(S1307)，并再次使LED 312照亮以提示用户106说话(S1308)。注意，S1304、S1305、S1306、S1307和S1308分别作为图9A至9C的序列图中的S907、S908、S915、S919和S920的示例呈现。

当用户106说出“改变比率”(S1309)时，图像形成系统使LED 312闪烁(S1310)，并显示比率设置画面(S1311)。然后，图像形成系统再生“您可以改变复印比率”作为音频响应(S1312)，并使LED 312照亮(S1313)。注意，S1309、S1310、S1311、S1312和S1313分别作为图9A至9C的序列图中的S921、S922、S915、S924和S925的示例呈现。

当用户106说出“我想要将A4片材复印到B5片材上”(S1314)时，图像形成系统使LED 312闪烁(S1315)，并更新画面以反映设置的比率的改变(S1316)。然后，图像形成系统再生“复印比率已被设置为86％”作为音频响应(S1317)，并使LED 312照亮(S1318)。注意，S1314、S1315、S1316、S1317和S1318分别作为图9A至9C的序列图中的S926、S927、S915、S929和S925的示例呈现。

当用户106说出“比率设置已完成”(S1319)时，图像形成系统使LED 312闪烁(S1320)，并显示反映设置的比率的改变的复印顶层画面(S1321)。然后，图像形成系统再生音频响应“您可以开始复印”(S1322)，并使LED 312照亮(S1323)。注意，S1319、S1320、S1321、S1322和S1323分别作为图9A至9C的序列图中的S931、S932、S915、S934和S935的示例呈现。

当用户106说出“开始复印”(S1324)时，图像形成系统使LED 312闪烁(S1325)，并开始执行复印作业。在开始复印作业时，图像形成系统显示表示复印作业在进行中的画面(S1326)，并再生初始音频响应“复印将开始”(S1327)。在完成复印作业时，图像形成系统长达某一长度的时间显示表示复印作业已完成的画面，再生最终音频响应“复印已完成”(S1328)，并使LED 312关断，以表示音频控制装置100已停止接受语音(S1329)。注意，S1324、S1325、S1326、S1327、S1328和S1329分别作为图9A至9C的序列图中的S936、S937、S944、S949、S954和S955的示例呈现。

图14A、图14B、图15A、图15B、图15C、图15D、图16A、图16B、图16C、图17A、图17B、图18A、图18B、图19A、图19B、图19C、图20A、图20B、图20C、图20D、图21A、图21B、图21C、图22A、图22B、图23A、图23B、图24、图25A和图25B示出了图7B中所示的组ID列表的其它示例。这些组ID列表用于操作由图像形成装置101提供的任何画面。

图26A、图26B、图26C、图26D、图26E、图26F、图26G、图26H以及图27A、图27B和图27C呈现了图12A至12C中所示的画面、画面控制信息和操作目标确定信息的其它示例。在这些附图中呈现的信息用于可以对图像形成装置101操作并且与图12A中所示的画面不同的画面的操作。

图26A和图27A中所示的中文画面是与图12A中所示的画面不同的画面的示例。图26I和图27D中所示的日文画面是与图12D所示的画面不同的画面的示例。图26I对应于图26A。图27D对应于图27A。如图26A至26H中那样，还可以通过语音输入来选择具有较长标注的项目。图26A至26H呈现了由设备控制程序801显示的画面的示例以及由设备控制程序801管理和使用的画面控制信息和操作目标确定信息的示例。

图26A中所示的画面是用于设置复印功能中的复印比率的设置画面2400。设置画面2400具有布置在其上的项目2401至2406、项目2411至2414、项目2421至2424、项目2431至2435以及项目2441至2444。这些项目如图26B的表格中所示那样被标注，并且如图26C至26H的表格中所示那样被操作。图26C到图26H所示的示例是由观看以日文显示的画面(图26I)的用户执行的语音操作的合适的示例。项目2414被标注为“稍小一点(全页复印)”。用户对项目2414的语音是例如“稍小一点、使它小一点”或“全页复印、全页”，其包括与标注中的词匹配的词。另一方面，用户106可以使用标注中未包括的词讲出“不要使原稿的边缘消失”或“复印所有四边”。即，在这个示例中，即使当使用与标注中出现的词和表达不同的词和表达时，也可以操作画面上的项目。通过选择和操作项目2411或项目2421，可以增大或减小项目2444的值。

图27A至27C呈现了由设备控制程序801显示的画面的另一个示例以及由设备控制程序801管理和使用的画面控制信息和操作目标确定信息的示例。图27A中所示的画面是用于指定复印功能中的放大和缩小的长度的设置画面2500。设置画面2500包括项目2501和2502、项目2511至2514、项目2521以及项目2531和2532。这些项目如图27B的表格中所示那样被标注，并且如图27C的表格中所示那样被操作。图27C所示的示例是由观看以日文显示的画面(图27D)的用户执行的语音操作的合适的示例。设置画面2500不仅包括要被选择的项目(诸如项目2501和2502)，而且还包括允许输入值的输入字段(诸如项目2511和项目2513)。与项目2521对应的数字小键盘可以用于在项目2511和项目2513中输入值。数字小键盘可以从一开始显示，或者可以在需要输入值时显示。代替用于输入数字的数字小键盘，可以显示允许输入字母字符的软件键盘。如图27A至27C中所示，本实施例支持使用数字小键盘输入值。如上所述，本实施例支持用于输入值的操作以及用于选择项目的操作。

(备注)

如上所述，在本实施例中，可以通过用户106的语音来操作图像形成装置101的操作面板509。特别地，在本实施例中，即使当用户106使用UI组件的标注中未包含的词说话时，也可以操作在画面上显示的UI组件。

在本实施例中，响应于用户106的语音操作，在按钮上显示标识符。然而，为了使用语音操作画面，可以预先在所有按钮上或需要标识符(例如，当按钮还没有名称时、当按钮名称存在重叠时或者当按钮名称难以读出时)的按钮上显示标识符。

其它实施例

本发明的实施例还可以通过读出并执行记录在存储介质(其也可以被更完整地称为‘非暂时性计算机可读存储介质’)上的计算机可执行指令(例如，一个或多个程序)以执行上述实施例中的一个或多个的功能和/或包括用于执行上述实施例中的一个或多个的功能的一个或多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机、以及通过由系统或装置的计算机通过例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或多个的功能和/或控制一个或多个电路以执行上述实施例中的一个或多个的功能而执行的方法来实现。计算机可以包括一个或多个处理器(例如，中央处理单元(CPU)、微处理单元(MPU))，并且可以包括单独的计算机或单独的处理器的网络，以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储设备、光盘(诸如紧凑盘(CD)、数字多功能盘(DVD)或蓝光盘(BD)^TM)、闪速存储器设备、存储卡等中的一个或多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

本发明可以应用于或者包括多个设备的系统、或者应用于包括单个设备的装置。在上述实施例中，音频控制程序601、设备控制程序801和音频-数据转换控制程序701分别由音频控制装置100、图像形成装置101和服务器102执行。替代地，上述所有控制程序可以由包括麦克风的图像形成装置101执行。音频控制程序601和设备控制程序801可以由图像形成装置101执行，其中服务器102被单独地分离。

本发明不限于上述实施例。可以基于本发明的精神对本发明进行各种修改(包括实施例的有机组合)，并且这样的修改不应当被排除在本发明的范围之外。即，前面提到的实施例及其修改的所有组合包括在本发明中。

在上述实施例中，已呈现了由图像形成装置101提供的一些操作画面，并且已解释了在画面上执行的操作。基于自然语言的画面操作，特别是使用与出现在画面上的标注中的词不同的词的画面操作，也可以应用于其它操作画面。图28A至30C示出了各自包含可以通过语音输入来操作的项目的表格。图28A至30C中的表格中的每一个的最左列示出了功能类别。作为MFP的图像形成装置101的示例性功能包括打印、复印、发送和对于主单元的设置。

图28A至30C中的表格中的每一个中从左起第二列示出了在最左列中所示的功能类别下的项目组。项目组中的每一个在一个或多个画面上输出。图28A至30C中的表格中的每一个中从左起第三列示出了被一起放到第二列中的项目组中的项目。这些项目包括可以在对项目组中的每一个显示的画面上操作的操作项目和设置项目。在功能类别“公共”下的项目组“公共”中的项目是可以在大多数画面(某些画面除外)中使用的操作项目。通过操作可操作的操作项目，用户106可以指示例如改变设置、切换画面以及执行处理。即，如上述实施例中那样，图28A至30C中所示的项目可以通过语音输入以及通过触摸来操作。特别地，可以不仅通过使用标注中包含的词，而且还通过使用与标注有关的替代词来执行语音操作。

虽然已参考示例性实施例描述了本发明，但是要理解的是，本发明不限于所公开的示例性实施例。以下权利要求的范围要被赋予最广泛的解释，以便涵盖所有这样的修改以及等同的结构和功能。

Claims

1.一种图像形成系统，包括：

图像形成设备，被配置为在片材上形成图像；

显示设备，被配置为显示信息；

麦克风，被配置为获取声音；以及

至少一个控制器，被配置为：

使所述显示设备显示包括用于指定图像形成设置的多个选择对象的设置画面；

基于通过所述麦克风获取的语音来获取包括第一词和第二词的文本信息、并且基于所述多个选择对象中的一个选择对象与关于包括所述第一词和第二词的多个词的组合的信息之间的关联来指定所述一个选择对象；

基于通过所述麦克风获取的语音来获取包括第三词和第四词的文本信息、并且基于所述多个选择对象中的一个选择对象与关于不包括所述第一词和第二词但包括所述第三词和第四词的多个词的组合的信息之间的关联来指定所述一个选择对象；以及

至少基于与在所述设置画面上指定的选择对象相关联的图像形成设置来使所述图像形成设备形成图像。

2.根据权利要求1所述的图像形成系统，其中，所述显示设备是通过用户的触摸操作能够指定所述一个选择对象的触摸面板。

3.根据权利要求2所述的图像形成系统，其中，所述第一词是包含在所述一个选择对象的标注中的词，并且所述第三词和第四词是没有包含在所述一个选择对象的标注中的词。

4.根据权利要求1所述的图像形成系统，其中，所述第一词、第二词、第三词和第四词中的至少一个是通过假名-日文汉字转换而获得的词。

5.根据权利要求1所述的图像形成系统，其中，当图像形成的执行开始时，显示在所述显示设备上的画面转变到另一个画面。

6.根据权利要求1所述的图像形成系统，还包括被配置为输出声音的音频输出设备，

其中，当图像形成的执行开始时，所述控制器使所述音频输出设备输出音频消息。

7.根据权利要求1所述的图像形成系统，还包括被配置为传送图像的传送设备，

其中，所述至少一个控制器还被配置为：

使所述显示设备显示包括用于指定图像传送设置的多个选择对象的另一个设置画面；

基于通过所述麦克风获取的语音来获取包括第五词和第六词的文本信息、并且基于所述多个选择对象中的一个选择对象与关于包括所述第五词和第六词的多个词的组合的信息之间的关联来指定所述一个选择对象；

基于通过所述麦克风获取的语音来获取包括第七词和第八词的文本信息、并且基于所述多个选择对象中的一个选择对象与关于不包括所述第五词和第六词但包括所述第七词和第八词的多个词的组合的信息之间的关联来指定所述一个选择对象；以及

至少基于与在所述设置画面上指定的选择对象相关联的图像传送设置来使所述传送设备传送图像。

8.根据权利要求1所述的图像形成系统，还包括被配置为读取原稿的读取设备，

其中，所述至少一个控制器还被配置为：

使所述显示设备显示包括用于指定原稿读取设置的多个选择对象的另一个设置画面；

至少基于与在所述设置画面上指定的选择对象相关联的原稿读取设置来使所述读取设备读取原稿。

9.一种能够通过麦克风获取声音信息的图像形成装置，所述图像形成装置包括：

图像形成设备，被配置为在片材上形成图像；

显示设备，被配置为显示信息；以及

至少一个控制器，被配置为：

10.根据权利要求9所述的图像形成装置，其中，所述显示设备是通过用户的触摸操作能够指定所述一个选择对象的触摸面板。

11.根据权利要求10所述的图像形成装置，其中，所述第一词是包含在所述一个选择对象的标注中的词，并且所述第三词和第四词是没有包含在所述一个选择对象的标注中的词。

12.根据权利要求9所述的图像形成装置，其中，所述第一词、第二词、第三词和第四词中的至少一个是通过假名-日文汉字转换而获得的词。

13.根据权利要求9所述的图像形成装置，其中，当图像形成的执行开始时，显示在所述显示设备上的画面转变到另一个画面。

14.根据权利要求9所述的图像形成装置，还包括被配置为输出声音的音频输出设备，

15.根据权利要求9所述的图像形成装置，还包括被配置为传送图像的传送设备，

其中，所述至少一个控制器还被配置为：

16.根据权利要求9所述的图像形成装置，还包括被配置为读取原稿的读取设备，

其中，所述至少一个控制器还被配置为：

17.一种图像形成系统，包括：

图像形成设备，被配置为在片材上形成图像；

显示设备，被配置为显示信息；

麦克风，被配置为获取声音；以及

至少一个控制器，被配置为：

使所述显示设备显示包括用于指定一个图像形成设置的一个选择对象的设置画面；

基于通过所述麦克风获取的语音来获取包括第一词和第二词的文本信息、并且指定与关于包括所述第一词和第二词的多个词的组合的信息相关联的所述一个图像形成设置；

基于通过所述麦克风获取的语音来获取包括第三词和第四词的文本信息、并且指定与关于不包括所述第一词和第二词但包括所述第三词和第四词的多个词的组合的信息相关联的所述一个图像形成设置；以及

至少基于在所述设置画面上指定的图像形成设置来使所述图像形成设备形成图像。