CN115460328A - 信息处理系统以及信息处理方法 - Google Patents

信息处理系统以及信息处理方法 Download PDF

Info

Publication number
CN115460328A
CN115460328A CN202211078954.5A CN202211078954A CN115460328A CN 115460328 A CN115460328 A CN 115460328A CN 202211078954 A CN202211078954 A CN 202211078954A CN 115460328 A CN115460328 A CN 115460328A
Authority
CN
China
Prior art keywords
information
voice
screen
display
voice control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211078954.5A
Other languages
English (en)
Inventor
名屋佑治
高桥彻
松村武士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2019106916A external-priority patent/JP7353806B2/ja
Priority claimed from JP2019110689A external-priority patent/JP2020201911A/ja
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN115460328A publication Critical patent/CN115460328A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00403Voice input means, e.g. voice commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00392Other manual input means, e.g. digitisers or writing tablets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/00411Display of information to the user, e.g. menus the display also being used for user input, e.g. touch screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/00413Display of information to the user, e.g. menus using menus, i.e. presenting the user with a plurality of selectable options
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/0044Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00474Output means outputting a plurality of functional options, e.g. scan, copy or print
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00488Output means providing an audible output to the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/0049Output means providing a visual indication to the user, e.g. using a lamp
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Facsimiles In General (AREA)

Abstract

本发明提供信息处理系统以及信息处理方法。信息处理系统包括:显示器,其能够显示信息;麦克风,其能够获取声音;以及一个或更多个控制器,其被构造为用作:被构造为进行控制以在所述显示器上显示如下画面的单元:所述画面包括多个选择对象,所述多个选择对象中的一个选择对象被突出显示以表示所述多个选择对象中的这个选择对象是关注目标;被构造为基于经由所述麦克风获取的语音信息来获取第一标识信息和第二标识信息的单元,所述第一标识信息与所述关注目标对应,所述第二标识信息与所述关注目标的位置更新处理相关;以及被构造为至少基于关于当前关注目标的信息、所述第一标识信息以及所述第二标识信息来进行控制以在所述显示器上显示所述关注目标被更新的画面的单元。

Description

信息处理系统以及信息处理方法
本申请是申请日为2020年6月7日,申请号为202010509304.6,发明名称为“信息处理系统、信息处理装置以及信息处理方法”的发明专利申请的分案申请。
技术领域
本公开涉及能够根据语音进行操作的信息处理系统。信息处理系统包括诸如打印机、扫描器、传真设备、具有多个这些功能的多功能外围设备、个人计算机、移动终端等的信息处理装置。
背景技术
近年来,随着语音识别技术的发展,根据语音指令执行处理的装置已经变得普及。
日本特开2019-67258号公报公开了一种系统,该系统被构造为根据用户通过语音给出的打印指令来执行打印处理。日本特开2019-67258号公报例示了通过语音向打印装置给出诸如打印指令等的主要指令的方法,但是对通过语音给出诸如设置改变等的详细指令的方法没有进行考虑。另外,在这样的装置中,存在各种类型的设置项目,并且依据类型存在各种画面构造和指示方法。因此,为了向系统提供更好的可操作性,期望允许依据设置画面的构造来使用各种语音指示方法。
发明内容
鉴于以上内容,本公开提供一种能够根据语音指令来进行操作的信息处理系统,该语音指令可以依据设置画面的构造以各种不同的方式给出。具体地,本公开提供一种能够根据语音指令来进行操作的信息处理系统,该语音指令对包括滑块形操作对象的设置画面或包括多个选择对象的设置画面进行操作。
鉴于以上内容,本公开提供一种图像形成系统,所述图像形成系统包括:图像形成设备,其被构造为在片材上形成图像;显示器,其能够显示信息;麦克风,其能够获取声音;以及一个或更多个控制器,其被构造为用作:被构造为进行控制从而在显示器上显示包括操作对象的画面的单元,所述操作对象通过指点位置来表示与在形成图像中的设置相关的参数;被构造为基于代表经由所述麦克风获取的单短语语音表达的语音信息来获取与所述操作对象对应的第一标识信息以及与对指点位置的更新处理对应的第二标识信息的单元;以及被构造为至少基于关于由所述操作对象表示的当前指点位置的信息、所述第一标识信息以及所述第二标识信息来进行控制以在所述显示器上显示包括指点位置被更新的操作对象的画面的单元。
通过以下参照附图对示例性实施例的描述,本发明的进一步的特征将变得清楚。
附图说明
图1是例示系统构造的图。
图2是例示操作面板的构造的图。
图3是例示语音控制装置的硬件构造的概念图。
图4是例示服务器的硬件构造的概念图。
图5是例示图像形成装置的硬件构造的概念图。
图6是例示语音控制装置的控制程序的功能构造的概念图。
图7A是例示服务器的控制程序的功能构造的概念图。
图7B是例示由组ID确定单元用来确定组ID的组ID列表的示例的图。
图8是例示图像形成装置的控制程序的功能构造的概念图。
图9A至图9C是例示包括在系统中的装置、装置的控制程序以及用户之间进行的序列的序列图。
图10是例示图像形成装置的设备控制程序的处理流程的图。
图11A至图11H是例示由控制程序管理和使用的组ID列表的示例的图。
图12A是例示由图像形成装置的控制程序显示的画面的图,其中该画面是从图12D中所示的日语版本翻译的中文版本。
图12B是例示由图像形成装置的控制程序管理和使用的画面控制信息的示例的图。
图12C是例示语音控制操作确定信息的示例的图。
图12D是例示由图像形成装置的控制程序显示的画面的图,其中该画面是与图12A中所示的中文版本对应的日语版本。
图13是例示由图像形成装置的语音控制操作确定单元进行的处理流程的图。
图14A是例示在画面包括一个滑块的情况下在语音控制操作确定处理中使用的画面(中文版本)的示例的图。
图14B是示出画面的构造信息的图。
图14C和图14D是例示语音控制操作确定信息的示例的图。
图14E是例示在画面包括一个滑块的情况下在语音控制操作确定处理中使用的画面(与图14A中所示的中文版本对应的日语版本)的示例的图。
图15A和图15B是例示在图像形成装置的语音控制操作确定单元中存在多个滑块的情况下的处理流程的图。
图16A是例示在画面包括多个滑块的情况下在语音控制操作确定处理中使用的画面(中文版本)的示例的图。
图16B是示出画面的构造信息的图。
图16C和图16D是示出语音控制操作确定信息的示例的图。
图16E是例示在画面包括多个滑块的情况下在语音控制操作确定处理中使用的画面(与图16A中所示的中文版本对应的日语版本)的示例的图。
图17A至图17D是例示在配设一个滑块的情况下在系统与用户之间进行的序列的序列图。
图18A至图18F是例示在配设多个滑块的情况下在系统与用户之间进行的序列的序列图。
图19A至图19C是例示图像形成装置的设置项目的列表的图。
图20A至图20C是例示图像形成装置的设置项目的列表的图。
图21A至图21C是例示图像形成装置的设置项目的列表的图。
图22A至图22F是例示移动滑块的方式的示例的图。
图23A至图23D是例示移动滑块的方式的示例的图。
图24是例示滑块形操作对象的图。
图25A至图25I是例示由控制程序管理和使用的组ID列表的示例的图。
图26是例示图像形成装置的语音控制操作确定单元的处理流程的图。
图27A是示出用于说明语音控制操作确定处理的中文版本画面的示例的图。
图27B是例示用于说明语音控制操作确定处理的中文版本画面的另一示例的图。
图27C是例示画面构造信息的图。
图27D是例示语音控制操作确定信息的示例的图。
图27E是示出用于说明语音控制操作确定处理的日语版本画面的示例的图。
图28A至图28D是例示系统与用户之间的交互的示例的图。
图29A至图29C是例示显示焦点的方式的示例的图。
图30A是例示移动置于默认位置处的焦点的方式的图。
图30B是例示移动显示在用户指定的位置处的焦点的方式的图。
具体实施方式
下面结合附图参照实施例详细描述本公开。注意,在实施例中描述的部件仅仅是示例,并且不旨在限制本公开的范围。
第一实施例
下面描述的第一实施例针对作为图像处理系统中使用的图像处理装置的示例的图像形成装置的复印功能,公开了通过语音来控制设置画面的方法。特别是,描述了一种通过语音来控制用于使用诸如滑块的对象改变设置值的设置画面的方法。
系统构造
图1是例示根据本实施例的系统构造的示例的图。在本实施例中,如图1中所示,系统包括例如语音控制装置100、图像形成装置101、服务器102、客户终端103和网关105。
语音控制装置100、图像形成装置101和客户终端103能够经由网关 105和网络104彼此进行通信。注意,系统的构造不限于针对彼此连接的语音控制装置100、图像形成装置101和客户终端103中的各个,包括一个,而是系统可以被构造为针对语音控制装置100、图像形成装置101和客户终端103中的一些或各个,包括两个或更多个。注意,语音控制装置100、图像形成装置101和客户终端103能够经由网关105和互联网与服务器102进行通信。
语音控制装置100(语音输入设备)获取由用户106发出的语音,并且根据由用户106给出的语音控制操作开始指令将编码后的语音数据发送到服务器102。语音控制装置100例如是智能扬声器。在本示例的构造中,语音控制装置100和图像形成装置101是独立的分开的装置。然而,构造不限于该示例。例如,语音控制装置100的硬件单元(在图3中被描述为硬件块)和/或软件功能(在图6中被描述为软件块)中的一些可以包括在图像形成装置101中。
图像形成装置101(信息处理装置、图像处理装置)是具有诸如复印功能、扫描功能、打印功能、传真功能等的多种功能的多功能外围设备。图像形成装置101可以是诸如打印机或扫描器的具有单一功能的装置。稍后将参照图2和图5来描述操作面板509。在下面的描述中,通过示例的方式假设图像形成装置101是彩色激光束多功能外围设备。
服务器102(信息处理装置)对由语音控制装置100获取的用户106 的语音数据进行语音识别,并且根据语音识别的结果确定与图像形成装置101的设置操作和作业执行相关的单词。此外,图像形成装置101根据语音识别结果或单词确定结果生成文本,并且合成由语音控制装置100 在对代表文本的内容的语音进行再现中使用的语音数据。注意,作业是由图像形成装置101使用打印引擎513和扫描器515实现的一系列图像形成处理(例如,复印、扫描、打印等)的单位。
客户终端103例如是由用户106使用的个人计算机(PC)。客户终端 103发布用于由图像形成装置101打印电子文件的打印作业。电子文件可以存储在客户终端103中,或者可以存储在互联网上的某个服务器(未示出)上,或者可以存储在图像形成装置101的外部存储设备505中。客户终端103还能够接收由图像形成装置101经由扫描获得的图像数据。客户终端103的操作与本实施例的主题不直接相关,因此省略进一步的详细描述。
网络104将语音控制装置100、图像形成装置101、客户终端103和网关105彼此连接。网络104发送和接收各种数据,诸如由语音控制装置100获取并向服务器102发送的语音数据、从服务器102发送的各种数据、以及与打印作业和扫描作业等相关的各种数据。
网关105例如是符合IEEE 802.11标准系列的无线LAN路由器。网关105可以具有根据其他无线通信方案进行操作的能力。网关105可以是符合以10BASE-T、100BASE-T、1000BASE-T等为代表的以太网标准的有线LAN路由器,代替无线LAN路由器。网关105可以具有根据其他有线通信方法进行操作的能力。注意,IEEE 802.11标准系列包括一系列标准,诸如属于IEEE 802.11的IEEE 802.11a和IEEE 802.11b。
图像形成装置的操作面板
图2是例示图像形成装置101的操作面板509的构造的示例的图。
操作面板509包括LED(发光二极管,Light Emitting Diode)和LCD (液晶显示器,Liquid Crystal Display)显示器,并且用作显示由用户106 进行的操作的内容并且还显示装置的内部状态的显示单元。操作面板509 还用作接收由用户106进行的操作的接收单元。操作面板509不仅包括多个硬件键,还包括与LCD显示器一体化的触摸面板200。
LCD触摸面板200是允许触摸操作的显示器。在该LCD触摸面板 200上进行模式的设置和状态的显示。
硬件键201至210是用于输入信息的输入单元。例如,使用触动开关作为硬件键201至210。
数字键201是用于输入从0至9的数值的键。ID键202是在使用由用户/部门认证管理保护的装置的情况下进行认证操作(诸如登录/登出操作)时使用的键。
复位键203是用于使设置模式复位的键。指导键204是用于显示各个模式的说明画面的键。用户模式键205是用于进入用户模式画面的键。中断键206是用于进行中断复印的键。
开始键207是用于开始复印操作的键。停止键208是用于停止正在执行的复印作业的键。
电源开关209是软开关。当电源开关209被按下时,LCD触摸面板 200的背光关断,并且装置进入低电力状态。省电键210是键。当该键被按下时,装置进入省电状态。当该键被再次按下时,状态从省电状态返回。
调整键214是用于调整LCD触摸面板200的对比度的键。
当计数器确认键215被按下时,在LCD触摸面板200上显示计数画面并且表示至该时间为止已进行的总份数。
LED 216用于表示正在执行作业,并且图像正在被存储在图像存储器中。LED 217是用于表示装置处于诸如卡纸或门打开状态的错误状态的错误LED。LED 218是用于表示装置的主开关处于接通(ON)状态的电源LED。
语音控制装置的硬件构造
图3是例示语音控制装置100的控制器单元300和语音控制装置100 中包括的设备的硬件构造的示例的图。
如图3中所示,控制器单元300包括CPU 302、RAM 303、ROM 304、外部存储设备305、网络I/F 306、麦克风I/F 307、音频控制器309和显示控制器311。这些部件连接到系统总线301,使得它们能够彼此进行通信。语音控制装置100包括配设在控制器单元300上或附接到控制器单元300的设备,诸如麦克风308、扬声器310和LED 312。
CPU 302是控制整个控制器单元300的操作的中央处理单元。RAM 303是易失性存储器。ROM 304是非易失性存储器,并且存储用于启动 CPU 302的引导程序。外部存储设备305是具有比RAM 303更大的容量的存储设备(例如,SD卡)。外部存储设备305存储由控制器单元300 执行以控制语音控制装置100的控制程序。注意,外部存储设备305可以用SD卡以外的闪存ROM等替换,或者可以用具有与SD卡相同的功能的另一存储设备替换。
当电源接通等时,CPU 302执行存储在ROM 304中的引导程序。该引导程序用于读出存储在外部存储设备305中的控制程序并将其加载在 RAM 303中。在CPU 302执行引导程序之后,CPU 302随后执行加载在 RAM 303中的控制程序,从而进行控制。CPU 302在执行控制程序时,将数据存储在RAM 303中并且从RAM 303读取数据以及将数据写入到 RAM 303。可以将执行控制程序时所需的各种设置数据等存储在外部存储设备305中。各种设置数据由CPU 302读取和写入。CPU 302经由网络I/F 306与网络104上的其他装置进行通信。
网络I/F 306被构造为包括用于根据符合IEEE 802.11标准系列的无线通信方法进行通信的电路、天线等。然而,通信不限于无线通信。可以使用符合以太网标准的有线通信方法,代替无线通信方法。
麦克风I/F 307连接到麦克风308,并且将经由麦克风308输入的由用户106发出的语音转换成编码的语音数据(语音信息),该编码的语音数据根据来自CPU 302的指令被存储在RAM 303中。
麦克风308例如是小型MEMS麦克风,小型MEMS麦克风可以是安装在智能电话等上的类型。注意,可以使用其他类型的麦克风,只要能够获取由用户106发出的语音即可。优选的是,在预定的位置处设置三个或更多个麦克风308以使得能够确定由用户106发出的语音来自的方向。然而,即使使用一个麦克风308也能够实现本实施例,并且麦克风的数量不必需要是三个或更多个。
音频控制器309连接到扬声器310。在CPU 302的控制下,音频控制器309将语音数据转换成模拟语音信号,并且经由扬声器310输出与所得的模拟语音信号对应的语音/声音。
扬声器310再现(通知)表示语音控制装置100正在响应的装置响应声音,并且还再现由服务器102合成的语音。扬声器310是用于再现语音/声音的通用装置,并且其机制不是本实施例的主题,因此省略其进一步的描述。
显示控制器311连接到LED 312,并且根据由CPU 302给出的指令控制LED 312的显示。显示控制器311主要进行控制以开启LED 312从而表示语音控制装置100正在正确地输入由用户106发出的语音。
LED 312例如是对用户106可见的蓝色LED等。LED 312是通用装置并且不是本实施例的主题,因此省略其进一步的描述。注意,可以使用能够显示字符或图片的显示装置,代替LED 312。
服务器的硬件构造
图4是例示服务器102的控制器单元的硬件构造的示例的图。
如图4中所示,控制器单元包括连接到系统总线401的CPU 402、 RAM 403、ROM404、外部存储设备405和网络I/F 406。
CPU 402是控制整个控制器单元的操作的中央处理单元。RAM 403 是易失性存储器。ROM 404是非易失性存储器,并且用于启动CPU 402 的引导程序被存储在ROM 404中。外部存储设备405是具有比RAM 403 更大的容量的存储设备(例如,硬盘驱动器(HDD))。外部存储设备405 存储由控制器单元执行以控制服务器102的控制程序。注意,外部存储设备405可以用具有与硬盘驱动器相同的功能的另一存储设备替换。例如,可以使用固态驱动器(SSD)等。
当电源接通等时,CPU 402执行存储在ROM 404中的引导程序。该引导程序用于读出存储在外部存储设备405中的控制程序并将其加载在 RAM 403中。在CPU 402执行引导程序之后,CPU 402随后执行加载在 RAM 403中的控制程序,从而进行控制。CPU 402在执行控制程序时,将数据存储在RAM 403中并且从RAM 403读取数据以及将数据写入到 RAM 403。外部存储设备405能够进一步存储在执行控制程序时所需的各种设置。各种设置数据由CPU402读取和写入。CPU 402经由网络I/F 406与网络104上的其他装置进行通信。
图像形成装置的硬件构造
图5是例示图像形成装置101的控制器单元500和图像形成装置101 中包括的设备的硬件构造的示例的图。
如图5中所示,控制器单元500包括CPU 502、RAM 503、ROM 504、外部存储设备505、网络I/F 506、显示控制器507、操作I/F 508、打印控制器512和扫描控制器514。这些部件连接到系统总线501,使得它们能够彼此进行通信。
CPU 502是控制整个控制器单元500的操作的中央处理单元。RAM 503是易失性存储器。ROM 504是非易失性存储器,并且用于启动CPU 502的引导程序被存储在ROM 504中。外部存储设备505是具有比RAM 503更大的容量的存储设备(例如,硬盘驱动器(HDD))。外部存储设备505存储由CPU 502执行以控制图像形成装置101的控制程序。注意,外部存储设备505可以用具有与硬盘驱动器相同的功能的另一存储设备替换。例如,可以使用固态驱动器(SSD)等。
当电源接通等时,CPU 502执行存储在ROM 504中的引导程序。该引导程序用于读出存储在外部存储设备505中的控制程序并将其加载在 RAM 503中。在CPU 502执行引导程序之后,CPU 502随后执行加载在 RAM 503中的控制程序,从而进行控制。CPU 502在执行控制程序时,将数据存储在RAM 503中并且从RAM 503读取数据以及将数据写入到RAM 503。外部存储设备505可以进一步存储在执行控制程序时所需的各种设置数据和由扫描器515读取的图像数据。这些数据由CPU 502读取和写入。CPU 502经由网络I/F 506与网络104上的其他装置进行通信。
显示控制器507在CPU 502的控制下控制对所连接的操作面板509 的LCD触摸面板200的画面的显示。
操作I/F 508输入和输出操作信号。操作I/F 508连接到操作面板509。当LCD触摸面板200被按下时,CPU 502经由操作I/F 508获取按下位置在LCD触摸面板200上的坐标。操作I/F 508还检测对操作面板509上的硬件键201至210的按下。
打印控制器512响应于由CPU 502发布的指令向所连接的打印引擎 513发送控制命令和图像数据。
打印引擎513根据从打印控制器512接收的控制命令在片材上打印接收的图像数据。打印引擎513的详情不是本实施例的主题,因此省略其进一步的描述。
扫描控制器514根据由CPU 502发布的指令向所连接的扫描器515 发送控制命令,并且将从扫描器515接收的图像数据写入在RAM 503中。
扫描器515根据从扫描控制器514接收的控制命令,使用光学单元读取放置在图像形成装置101的稿台玻璃(未示出)上的原稿。扫描器515的详细描述不是本实施例的主题,因此省略描述。
语音控制装置的语音控制程序的功能构造
图6是示出由CPU 302执行的语音控制装置100的语音控制程序601 的功能构造的框图。
语音控制装置100的语音控制程序601被存储在如上所述的外部存储设备305中。当语音控制程序601启动时,语音控制程序601被CPU 302 加载到RAM 303中并执行。
数据发送和接收单元602经由网络I/F 306通过TCP/IP向网络104 上的其他装置发送数据以及从网络104上的其他装置接收数据。数据发送和接收单元602向服务器102发送由稍后描述的语音获取单元604获取的由用户106发出的语音的语音数据。此外,数据发送和接收单元602 接收由服务器102作为对用户106的响应而生成的合成语音数据(合成语音)。
数据管理单元603将各种数据(诸如在语音控制程序601的执行中生成的工作数据)存储在外部存储设备305的预定区域中,并且管理这些数据。存储和管理的这样的数据的示例包括与由稍后描述的语音再现单元605再现的语音相关的音量设置数据、与网关105进行通信所需的认证信息、与图像形成装置101和服务器102进行通信所需的设备信息。
语音获取单元604将语音控制装置100附近的用户106的由麦克风 308获取的模拟语音转换成语音数据并临时存储。用户106的语音被转换成诸如MP3的预定的格式,并且作为要发送到服务器102的编码语音数据被临时存储在RAM 303中。语音获取单元604的处理的开始定时和结束定时由语音控制单元609控制。语音数据可以被编码成编码语音数据按通用的流格式,并且编码语音数据可以由数据发送和接收单元602顺序地发送。
语音再现单元605经由音频控制器309通过扬声器310再现由数据发送和接收单元602接收的合成语音数据。语音再现单元605再现语音的定时由如稍后描述的语音控制单元609来控制。
显示单元606经由显示控制器311控制LED 312以开启/关断。例如,在语音控制操作开始检测单元607(稍后描述)检测到语音控制操作正在进行的情况下,LED 312被开启。显示单元606开启LED 312的定时由稍后描述的语音控制单元609来管理。
当语音控制操作开始检测单元607检测到由用户106发出的唤醒词或检测到语音控制装置100的操作开始键(未示出)的按下时,语音控制操作开始检测单元607向语音控制单元609发送操作开始通知。注意,唤醒词是预定的语音词。语音控制操作开始检测单元607始终进行从语音控制装置100附近的用户106的由麦克风308获取的模拟语音中检测唤醒词的操作。允许用户106能够通过发出唤醒词并且然后讲话以表示要进行何种操作来操作图像形成装置101。当由语音控制操作开始检测单元607检测到唤醒词时,进行如稍后将描述的语音处理。
发声结束确定单元608检测语音获取单元604的处理结束的时间。例如,当在特定时段(例如3秒)内用户106未发出语音时,确定用户 106的发声已结束,并且向语音控制单元609发送发声结束通知。注意,可以基于由用户106发出的预定的短语,而不是基于出现无发声的时段 (在下文中被称为空白时间),来进行发声结束的确定。例如,预定的短语可以是“是”、“否”、“确定(ok)”、“取消”、“结束”、“启动”、“开始”等。在发出这样的预定的短语的情况下,可以确定发声已结束,而无需等待预定的时段。可以由服务器102代替由语音控制装置100来进行发声结束的确定。可以基于用户106的发声的含义或语境来确定发声结束。
语音控制单元609在处理中起中心作用。语音控制单元609控制语音控制程序601中的模块以彼此协作地进行操作。更具体而言,语音控制单元609控制由语音获取单元604、语音再现单元605和显示单元606 进行的处理的开始和结束。另外,当由语音获取单元604获取语音数据时,语音控制单元609进行控制使得语音数据被数据发送和接收单元602 发送到服务器102。此外,当数据发送和接收单元602从服务器102接收到合成语音数据时,语音控制单元609进行控制使得合成语音数据被语音再现单元605再现。
接下来,下面给出关于由语音获取单元604、语音再现单元605和显示单元606进行的处理的开始和结束的定时的描述。
当语音控制单元609接收到来自语音控制操作开始检测单元607的操作开始通知时,语音控制单元609开始语音获取单元604的处理。在语音控制单元609接收到来自发声结束确定单元608的发声结束通知的情况下,语音控制单元609结束语音获取单元604的处理。例如,在用户106发出唤醒词并且然后说“我想要进行复印”的情况下,则进行如下处理。在这种情况下,当语音控制操作开始检测单元607检测到唤醒词的语音时,语音控制操作开始检测单元607向语音控制单元609发送操作开始通知。当语音控制单元609接收到操作开始通知时,语音控制单元609进行控制以开始语音获取单元604的处理。语音获取单元604 将随后的说“我想要进行复印”的模拟语音转换成语音数据,并且临时存储所得的语音数据。在发声结束确定单元608确定在“我想要进行复印”的发声之后出现了具有预定长度的无发声时段的情况下,发声结束确定单元608向语音控制单元609发送发声结束通知。当语音控制单元 609接收到发声结束通知时,语音控制单元609结束语音获取单元604的处理。注意,从语音获取单元604的处理开始至其结束的状态被称为发声处理状态。显示单元606开启LED 312以表示处理当前处于发声处理状态。
当确定发声已结束时,语音控制单元609进行控制使得数据发送和接收单元602向服务器102发送语音数据,并且等待要从服务器102接收的响应。来自服务器102的响应以例如响应消息的形式给出,该响应消息包括表示该响应是响应的头部和合成语音数据。当语音控制单元609 经由数据发送和接收单元602接收到响应消息时,语音控制单元609进行控制使得语音再现单元605再现合成语音数据。合成语音数据例如表示“将要显示复印画面。”。从发声结束至合成语音数据的再现结束的状态被称为响应处理状态。显示单元606使LED 312闪烁以表示处理当前处于响应处理状态。
在响应处理之后继续与服务器102的交互会话的时段中,允许用户 106讲出用户想要做什么而无需发出唤醒词。服务器102确定交互会话是否完成。当服务器102确定交互会话结束时,服务器102向语音控制装置100发送交互会话结束通知。注意,从交互会话结束至下一交互会话开始的状态被称为等待状态。假设在语音控制装置100接收到来自语音控制操作开始检测单元607的操作开始通知之前,处理状态始终处于等待状态。显示单元606进行控制使得LED 312在等待状态期间处于关断状态。
服务器的语音数据转换控制程序的功能构造
图7A是例示由服务器102中的CPU 402进行的语音数据转换控制程序701的构造的框图。图7B例示由组ID确定单元707在确定组ID中使用的组ID列表的示例。在组ID列表中,针对图像形成装置101的用户操作具有相同的含义或意图的单词被分组并且被分配相同的ID。注意,通对用户106向语音控制装置100给出的发声进行语音识别来获得该单词。
用于服务器102的语音数据转换控制程序701被存储在如上所述的外部存储设备405中,并且在程序启动时被加载到RAM 403中并由CPU 402执行。
数据发送和接收单元702经由网络I/F 406使用TCP/IP向网络104 上的其他装置发送数据以及从网络104上的其他装置接收数据。数据发送和接收单元702从语音控制装置100接收用户106的语音数据。此外,数据发送和接收单元702还发送由如稍后将描述的组ID确定单元707进行的组ID确定的结果。
数据管理单元703将各种数据(诸如在语音数据转换控制程序701 的执行中生成的工作数据以及语音数据转换器704进行语音识别处理所需的参数)存储在外部存储设备405的确定的存储区域中,并且数据管理单元703管理这些各种数据。这样的数据的一些示例如下所述。由语音识别单元705在将由数据发送和接收单元702接收的语音数据转换成文本数据(文本信息)中使用的声学模型和语言模型被存储在特定存储区域中并且被管理。由形态(morphological)分析单元706在进行对文本的形态分析中使用的字典被存储在外部存储设备405的预定区域中并且被管理。由组ID确定单元707用于确定组ID的组ID列表被存储在外部存储设备405的预定区域中并且被管理。由语音合成单元708在进行语音合成中使用的语音数据库被存储在外部存储设备405的预定区域中并且被管理。此外,在数据管理单元703中,存储和管理与语音控制装置 100和图像形成装置101进行通信所需的设备信息。
语音数据转换器704包括语音识别单元705、形态分析单元706、组ID确定单元707和语音合成单元708。下面进一步详细地描述语音数据转换器704。
语音识别单元705进行用于将用户106的由数据发送和接收单元702 接收的语音数据转换成文本的语音识别处理。在语音识别处理中,使用声学模型将用户106的语音数据转换成音素,并且通过使用语言模型的模式匹配来将音素进一步转换成实际的文本数据。声学模型可以是使用如DNN-HMM的使用神经网络的机器学习方法的模型,或者可以是使用如GMM-HMM的另一方法的模型。在使用神经网络的机器学习中,基于例如包括语音和文本的对的训练数据来进行学习模型的学习。语言模型可以是使用神经网络(诸如RNN)的机器学习方法的模型,或者是使用诸如N-gram方法的另一方法的模型。
在本实施例中,文本数据包括包含一个或更多个假名的文本以及通过进行“假名-汉字转换”(包括转换成数字、字母、符号等)而获得的文本。然而,用于将语音数据转换为文本数据的语音识别处理不限于上述的方法,并且可以使用其他方法。语音识别处理的详情不是本实施例的主题,因此省略进一步的描述。
形态分析单元706对由语音识别单元705转换的文本数据进行形态分析。在形态分析中,从具有与语言的语法、词性等有关的信息的字典导出词素(morpheme)序列,并且确定各个词素的词性。可以使用诸如 JUMAN、ChaSen、MeCab等的公知的形态分析软件来实现形态分析单元 706。例如,当作为语音识别单元705的转换的结果给出表示“我想要进行复印”的文本数据时,形态分析单元706将文本数据分析为“我”、“想”、“要”、“进行”、“复印”的词素序列。在给出表示“从A3至A4”的文本数据的情况下,形态分析单元706将文本数据分析为“从”、“A3”、“至”和“A4”的词素序列。
组ID确定单元707通过将形态分析单元706的形态分析的结果与图 7B中的组ID列表进行匹配来确定组ID,并且进一步生成组ID确定结果。例如,从“kopi(复印)”、“wo”、“shi”、“tai”的词素序列中,检测到“FNC00001”作为“kopi(复印)”的组ID,并且生成{ID:FNC00001} 作为组ID确定的结果。从“A3”、“kara”、“A4”、“he”的词素序列中,检测到两个组ID“PAP00100”和“PAP00101”作为“A3”和“A4”的组ID,并且生成{ID:PAP00100、ID:PAP00101}作为组ID确定的结果。
在生成多个ID作为组ID确定的结果的情况下,以语音识别和形态分析的顺序生成组ID确定结果。例如,在按该顺序获得“A4”、“kara”、“A3”和“he”作为语音识别和形态分析的结果的情况下,生成{ID: PAP00101、ID:PAP00100}作为组ID确定的结果。注意,可以将多个相邻的词素进行组合并与组ID列表进行匹配,并且可以根据匹配结果来进行确定。在这种情况下,如果发现与组ID列表中的组ID匹配的一个词素,并且此外发现包括第一个词素的多个词素与组ID列表中的组ID匹配,则在生成组ID确定结果中使用后者的结果。例如,在给出词素序列“A”、“4”的情况下,组ID确定结果不是生成为{ID:CHR00000、ID: NUM00004},而是生成为{ID:PAP00101}。注意,可以进行匹配,使得包括作为语音识别和形态分析的结果而获得的一个或更多个假名的文本与作为进行“假名-汉字转换”的结果而获得的文本进行组合,并且所得的组合与组ID列表进行匹配。例如,首先,组ID确定单元707在经由“假名-汉字转换”而获得的文本与组ID列表中的“假名-汉字”文本之间进行匹配。在没有发现匹配的组ID的情况下,在作为语音识别和形态分析的结果而获得的假名文本与组ID列表中的“假名”文本之间进行匹配,以针对匹配的假名文本来检测组ID。在相同的“假名”被分配组ID 列表中的多个不同的组ID确定ID,并且因此多个组ID匹配的情况下,可以生成多个组ID确定结果作为候选。这使得能够生成考虑到“假名- 汉字转换”中的错误和汉字的拼写差异的组ID确定结果。
语音合成单元708基于从图像形成装置101接收的通知进行语音合成处理。在语音合成处理中,将与该通知对应的文本转换为以诸如MP3 的预定格式的语音数据。稍后将参照图9A至图9C中的序列图来描述所接收的通知数据与要进行语音合成的文本的组合的示例。在语音合成处理中,例如,基于存储在数据管理单元703中的语音数据库来生成语音数据。语音数据库例如是包括针对固定单词或短语发出的语音的集合的数据库。在本实施例中,使用语音数据库进行语音合成处理。然而,在语音合成处理中使用的技术不限于该示例,并且可以使用另一技术。语音合成处理的详情不是本实施例的主题,因此省略其进一步的描述。图像形成装置的设备控制程序的功能构造
图8是例示由CPU 502执行的图像形成装置101的设备控制程序801 的功能构造的框图。
图像形成装置101的设备控制程序801被存储在如上所述的外部存储设备505中,并且在启动时被加载到RAM 503中并由CPU 502执行。
数据发送和接收单元802经由网络I/F 506通过TCP/IP向网络104 上的其他装置发送数据以及从网络104上的其他装置接收数据。更具体而言,例如,数据发送和接收单元802接收由组ID确定单元707生成的组ID确定结果。此外,数据发送和接收单元802从图像形成装置101向服务器102发送表示在操作面板509上的LCD触摸面板200上显示的画面显示内容已更新的画面更新通知以及表示作业的状态的作业执行状态通知。稍后将参照图9A至图9C中所示的序列图来描述通知的内容。
数据管理单元803在RAM 503和外部存储设备505的预定的区域中存储和管理各种数据,诸如在设备控制程序801的执行中生成的工作数据以及控制各种设备所需的设置参数。例如,存储和管理包括由稍后描述的设备控制单元808执行的作业的设置项目和对应的设置值的组合的作业数据以及设置纸张属性信息等的机器设置信息。此外,存储和管理与网关105进行通信所需的认证信息、与服务器102进行通信所需的设备信息等。此外,存储和管理由图像形成装置101处理的图像数据。此外,存储和管理由显示单元806在进行画面显示控制中使用的画面控制信息以及由语音控制操作确定单元807在对操作进行确定中使用的语音控制操作确定信息。针对由显示单元806显示的各个画面分开地管理画面控制信息和语音控制操作确定信息。
扫描单元804基于设备控制单元808的扫描作业参数设置经由扫描控制器514使用扫描器515进行扫描,并且将所得的扫描图像数据存储在数据管理单元803中。
打印单元805基于设备控制单元808的打印作业参数设置经由打印控制器512使用打印引擎513执行打印。
显示单元806经由显示控制器507控制操作面板509,并且基于画面显示控制信息在LCD触摸面板200上显示用户可操作UI部件(按钮、下拉列表、复选框等)。此外,显示单元806经由操作I/F 508获取LCD 触摸面板200(在下文中被称为画面等)上的触摸坐标,并且确定要操作的UI部件和在接收到对UI部件的操作时要进行的处理。此外,进行关于对操作面板509上的硬件键201至210的按下的检测。根据其结果,更新在画面上显示的内容,并且向设备控制单元发送通过用户操作设置的作业参数和开始作业的指令。类似地,根据稍后描述的语音控制操作确定单元807的语音控制操作确定的结果,更新在画面上显示的内容,并且向设备控制单元发送通过用户操作设置的作业参数和开始作业的指令。
语音控制操作确定单元807基于由数据发送和接收单元802接收的组ID确定结果,将在操作面板509上显示的画面上展示的用户可操作 UI部件中的一个或者在操作面板509上配设的硬件键201至210中的一个确定为操作目标。稍后将参照图11A至图11H描述语音控制操作确定单元807的详情。
设备控制单元808经由打印控制器512和扫描控制器514向打印引擎513和扫描器515发布控制指令。例如,在当显示复印功能画面时显示单元806检测到开始键207已被按下的情况下,设备控制单元808从显示单元806接收复印作业参数和作业开始指令。基于作业参数,进行控制,使得打印引擎513在片材上打印由扫描器515扫描的图像数据。注意,扫描和打印控制机构不是本实施例的主题,因此省略其进一步的描述。
系统控制序列
图9A至图9C是例示形成图1中所示的系统的装置之间以及图6至图8中所示的装置的控制程序之间进行的序列的序列图。更具体而言,图9A至图9C例示了语音控制装置100通过由用户106发出的语音来接收语音控制操作,并且图像形成装置101根据语音控制操作执行各种处理并向用户106返回表示执行结果的语音响应的序列。
在图9A至图9C中所示的序列的示例中,假设语音控制装置100、图像形成装置101和服务器102处于它们能够彼此进行通信的状态。还假设图像形成装置101正在显示主菜单画面,所述主菜单画面使得能够在电源接通之后调用诸如复印功能、扫描功能和打印功能的功能。
首先,在步骤905(在下文中被表示为S905)中,用户106指示语音控制装置100开始语音控制操作。由用户106通过发出唤醒词或按下语音控制装置100的操作开始键来发布开始语音控制操作的指令。由语音控制操作开始检测单元607检测语音控制操作开始指令。
当检测到语音控制操作开始指令时,然后,在S906中,语音控制程序601的显示单元606开启LED以表示发声处理正在进行中。同时,开始语音获取单元604的处理。
在S907中,用户106向语音控制装置100发布功能调用指令。由用户106通过继S905中的唤醒词之后发出例如“我想要进行复印”或“打开复印画面”来发布功能调用指令。基于由语音获取单元604获取的语音,生成语音数据。当出现预定时间或更长时间的空白时间时,发声结束确定单元608确定发声已结束。
在S908中,响应于发声结束确定,语音控制程序601的显示单元606 使LED闪烁以表示响应处理正在进行中。同时,语音获取单元604的处理结束。
当在S907中生成了功能调用指令的语音数据时,然后在S909中,数据发送和接收单元602向服务器102发送所生成的语音数据。
在S910中,语音识别单元705对由语音数据转换控制程序701的数据发送和接收单元702接收的语音数据进行语音识别处理。作为语音识别处理的结果,例如,将由用户106发出的语音“我想要进行复印”转换成文本。
之后,在S911中,语音数据转换控制程序701的形态分析单元706 对在S910中生成的文本进行形态分析处理。例如,将文本“kopishitai(我想要进行复印)”划分成形态序列“kopi(复印)”、“shi(进行)”和“tai (想)”,作为形态分析处理的结果。
在S912中,语音数据转换控制程序701的组ID确定单元707对形态序列文本进行组ID确定处理。在组ID确定处理中,在词素序列“kopi (复印)”、“shi(进行)”、“tai(想)”与图7B中所示的组ID列表之间进行匹配处理,并且生成{ID:FNC00001}作为组ID确定结果。
在S913中,语音数据转换控制程序701的数据发送和接收单元702 向图像形成装置101发送在S911中获得的组ID确定结果。
在S914中,语音控制操作确定单元807对由设备控制程序801的数据发送和接收单元802接收到的组ID确定结果进行语音控制操作确定处理。例如,从组ID确定结果{ID:FNC00001}中确定已选择主菜单画面中的“复印”按钮,作为语音控制操作确定处理的结果。
之后,在S915中,根据S914中的确定结果更新由显示单元806在画面上显示的内容。例如,在从由用户发出的语音“kopishitai(我想要进行复印)”中确定语音控制操作指定操作在画面上显示的“复印”按钮的情况下,与在触摸LCD触摸面板200上的“复印”按钮的情况下同样,显示复印功能画面。
在S916中,数据发送和接收单元802向服务器102发送画面更新通知,以通知画面上显示的内容已更新。例如,在显示单元806将显示内容从主菜单画面改变为复印功能画面的情况下,显示单元806发送文本数据“打开复印功能画面”作为画面更新通知。
在S917中,响应于由语音数据转换控制程序701的数据发送和接收单元702接收到的画面更新通知,语音合成单元708进行语音合成处理以生成与画面更新通知的内容对应的预定文本数据的合成语音。例如,在画面更新通知表示“打开复印功能画面”的情况下,语音合成单元708 合成与文本数据对应的语音“打开复印画面”。由语音合成单元708在语音合成处理中生成的语音数据(合成语音数据)被数据发送和接收单元 702发送到语音控制装置100。
在S918中,数据发送和接收单元602接收在S917中生成和发送的合成语音数据。
在S919中,语音再现单元605再现在S918中接收到的合成语音数据。例如,通过扬声器310再现在S917中生成的合成语音数据“打开复印画面”。
在S920中,在合成语音数据被再现之后,语音控制程序601的显示单元606再次开启LED以表示发声处理正在进行中。同时,再次开始语音获取单元604的处理。
在S921中,用户106向语音控制装置100发布设置画面调用指令。当用户106发出例如“选择纸张”时,发布设置画面调用指令。在响应中,由语音获取单元604获取与发出的语音对应的语音数据。当在用户 106的发声之后出现预定时间或更长时间的空白时间时,发声结束确定单元608确定发声已结束。
S922类似于上述的S908。
在S923中,以与上述的从S909至S918的处理类似的方式进行语音控制操作处理。然而,在S923中,画面被更新,使得显示单元806响应于S921中的设置画面调用指令而显示设置画面。例如,当显示复印功能画面时,如果组ID确定结果是{ID:PAP00000、ID:OPR00040},则显示纸张选择画面。
在S924中,语音再现单元605再现在S923中的语音合成处理中生成的合成语音数据。例如,如果在S923中显示了纸张选择画面作为设置画面,则经由扬声器310再现消息“显示纸张选择画面。进行纸张设置”。
S925类似于上述的S920。
在S926中,用户106向语音控制装置100发布设置改变指令。由用户106通过发出例如“A4”来发布设置改变指令。当在用户106的发声之后出现预定时间或更长时间的空白时间时,发声结束确定单元608确定发声已结束。
S927类似于上述的S908。
在S928中,以与上述的从S909至S918的处理类似的方式进行语音控制操作处理。然而,在S928中,根据S926中的设置改变指令改变在设置画面上显示的设置值。例如,当显示纸张选择画面时,如果组ID确定结果是{ID:PAP00101},则在纸张选择画面上将纸张选择改变为A4,并且显示结果。
在S929中,语音再现单元605再现在S928中的语音合成处理中生成的合成语音数据。例如,在S928中改变并显示纸张设置值的情况下,经由扬声器310再现合成语音数据“纸张已被设置为A4”。
S935类似于上述的S920。
在S936中,用户106向语音控制装置100发布作业执行指令。由用户106通过发出例如“复印开始”来发布作业执行指令。当在用户106 的发声之后出现预定时间或更长时间的空白时间时,发声结束确定单元 608确定发声已结束。
S937至S942类似于上述的S909至S913。
在S943中,语音控制操作确定单元807对由设备控制程序801的数据发送和接收单元802接收到的组ID确定结果进行语音控制操作确定处理。在组ID确定结果是{ID:FNC00001、ID:OPP00011}的情况下,确定画面上显示的“复印开始”按钮或硬开始键207已被操作。
在S944中,根据在S943中获得的确定结果显示作业执行画面。例如,在从由用户发出的语音“复印开始”中确定出指示要进行的操作是要操作开始键207的情况下,显示复印作业开始画面。
在S945中,根据在图像形成装置101的画面上设置的作业参数执行作业。
在S946中,数据发送和接收单元802向服务器102发送表示作业执行已经开始的信息(作业执行开始通知)作为作业执行状态通知的内容。例如,在复印作业开始的情况下,发送文本数据“开始复印作业”作为作业执行状态的内容。
在S947中,语音数据转换控制程序701的数据发送和接收单元702 接收作业执行状态通知,并且语音合成单元708对与作业执行状态通知 (作业执行开始通知)的内容对应的预定文本数据进行语音合成处理。例如,在作业执行状态通知的内容是“复印作业开始”的情况下,语音合成单元708根据文本数据合成语音“复印开始”。
S948类似于上述的S918。
在S949中,语音再现单元605再现在S948中接收到的合成语音数据。例如,经由扬声器310再现在S947中生成的合成语音数据“复印开始”。
在S950中,数据发送和接收单元802向服务器102发送表示作业执行结束的信息(作业执行结束通知)作为作业执行状态通知的内容。例如,当复印作业完成时,发送包括文本数据“复印作业完成”作为其内容的作业执行状态通知。
在S951中,语音数据转换控制程序701的数据发送和接收单元702 接收作业执行状态通知,并且语音合成单元708对与作业执行状态通知 (作业执行结束通知)的内容对应的预定文本数据进行语音合成处理。例如,在作业执行状态通知的内容是“复印作业完成”的情况下,语音合成单元708根据文本数据合成语音“复印完成”。
在S952中,响应于S945中的作业执行处理的结束,显示单元806 显示作业执行结束画面。例如,当复印作业的执行完成时,显示复印作业结束画面。
在S953中,数据发送和接收单元602从服务器102接收在S951中生成的合成语音数据。此外,从服务器102接收用于向语音控制装置100 通知与用户106的交互会话结束的交互会话结束通知。
在S954中,语音再现单元605再现在S953中接收到的合成语音数据。例如,经由扬声器310再现在S951中生成的合成语音数据“复印完成”。
在S955中,响应于S953中的对交互会话结束通知的接收,语音控制程序601的显示单元606关断LED以表示语音控制装置100进入等待状态。
在S956中,响应于S953中的对交互会话结束通知的接收,语音控制装置100切换到等待状态。
注意,即使当LED在序列图上处于LED正在闪烁以表示响应处理正在进行中的状态时,也允许随时输入唤醒词。用户106可以通过继唤醒词的发声之后发出“取消”或“停止”来强制结束交互会话。
图像形成装置101的设备控制程序801的处理流程
图10是例示图像形成装置101的设备控制程序801的处理流程的概要的流程图。更具体而言,图10示出了图9A至图9C中所示的序列图中的S914、S915、S923、S928、S933以及S943至S952中的、设备控制程序801的处理流程的示例。
图11A至图11H和图12A至图12D将用于示出图10中所示的处理流程的具体示例。图11A至图11H是添加到图7B中所示的组ID列表的组ID列表的另一示例。图12A例示了由显示单元806显示的画面,其中该画面是从图12D中所示的日语版本翻译的中文版本。图12B例示了与图12A中所示的画面对应的画面控制信息的示例。画面控制信息表示在画面上显示的用户可操作UI部件与响应于对用户可操作UI部件进行操作而采取的动作(画面控制的内容和要进行的内部处理)之间的对应关系。图12C示出了与图12A中所示的画面对应的语音控制操作确定信息的示例。图12D例示了由显示单元806显示的画面,该画面是与图12A 中所示的中文版本对应的日语版本。注意,语音控制操作确定信息表示用户可操作UI部件与一个或更多个组ID确定结果之间预先定义的对应关系。在图12C中所示的表中描述的多条信息当中,在下面给出的说明中使用“在操作中由用户发出的短语的示例”和“在操作面板上进行的操作”,但是它们不必需要被包括在由数据管理单元803管理的语音控制操作确定信息中。在图12A中所示的示例中,画面包括滑块形操作对象。图24是例示滑块形操作对象的详情的图。在本实施例中,将诸如滑块、滑动条、滚动条、轨迹条等的操作对象称为滑块形操作对象。通过旋钮 (滚轮、气泡框、缩略图、滚动框、旋钮、升降器、五度音(quint)、包(pack)、擦拭器、握柄等)的位置来表示设置值和设置状态。通过按下移动按钮(箭头按钮)或拖拽旋钮,能够移动旋钮的位置。上述移动方法中的二者或仅一者可以是可用的。可以在滑块形操作对象的主体部分上配设或不配设标尺刻度。图12C中所示的示例适用于通过用户观看图 12D中所示的日语版本画面而进行的语音控制操作。
在S1001中,数据发送和接收单元802接收由组ID确定单元707生成的组ID确定结果。
在步骤S1002中,获取与由显示单元806显示的画面对应的画面控制信息以及由语音控制操作确定单元807用来确定操作目标的语音控制操作确定信息。例如,在由显示单元806显示图12A中所示的画面的情况下,获取与图12A中所示的画面对应的在图12B中所示的画面控制信息以及在图12C中所示的语音控制操作确定信息。
在S1003中,语音控制操作确定单元807使用在S1001中接收到的组ID确定结果和在S1002中获取的语音控制操作确定信息,进行语音控制操作确定处理。在该语音控制操作确定处理中,将在操作面板509的画面上显示的用户可操作UI部件中的一个或配设在操作面板509上的硬件键201至210中的一个确定为操作目标。例如,在用户106发出例如“自动”的情况下,组ID确定单元707生成{ID:DRG00008}作为组ID 确定结果,并且组ID确定结果被发送。数据发送和接收单元802在S1001 中接收该组ID确定结果,并且语音控制操作确定单元807检测到“自动 (彩色/黑白)”按钮与接收到的组ID确定结果匹配,因此语音控制操作确定单元807确定“自动(彩色/黑白)”按钮是操作目标。
稍后将参照图14A至图14E和其他附图来描述语音控制操作确定处理的详细流程和确定处理的示例。
在S1004中,显示单元806基于S1003中的语音控制操作确定处理的结果和在S1002中获取的画面控制信息更新在画面上显示的内容。例如,如果在S1003中将“自动(彩色/黑白)”按钮确定为操作目标,则基于图12B中所示的画面控制信息更新画面,使得显示单元806突出显示被确定为操作目标的按钮。注意,在图12C中所示的示例中,语音控制操作确定信息表示:当在操作面板509的LCD触摸面板200上显示的“自动(彩色/黑白)”按钮被触摸时,该按钮也突出显示。
如果S1003中的语音控制操作确定处理的结果是指示转换到滑块画面的语音指令,则显示转换到对应的滑块画面。如果S1003中的语音控制操作确定处理的结果是如在稍后描述的S1309至S1315中使滑块移动的指令,则进行如下处理。即,修改显示的画面,使得滑块的指点标尺刻度(指点位置)基于图14B中所示的画面控制信息和图14C中所示的语音控制操作确定信息而改变。在该处理中,基于如在稍后描述的S1306 中读取滑块时的滑块的指点位置来改变滑块的指点位置。在通过滑块的设置完成之后,更新设备控制程序801的数据管理单元803的设置参数。
在S1005中,基于S1003中的语音控制操作确定处理的结果和在 S1002中获取的画面控制信息,来进行关于是否执行作业的确定。当要执行作业时,处理进行到S1007,否则处理进行到S1006。例如,在S1003 中将“自动(彩色/黑白)”按钮确定为操作目标的情况下,因为不存在图 12B中要进行的内部处理,所以确定不进行作业执行。在S1003中确定开始键207是操作目标的情况下,因为在这种情况下在图12B中限定的内部处理是“开始执行复印作业”,所以确定要进行作业执行。
在S1006中,如在上述的S916中所示,数据发送和接收单元802向服务器102发送画面更新通知。
在S1007中,基于作业参数的设置值进行作业执行处理。在作业执行处理中,图像形成装置101执行一系列图像形成处理(例如,复印、扫描、打印等)。例如,在如在图12A中所示的画面中当“自动(彩色/ 黑白)”按钮处于突出显示状态时开始复印作业的执行的情况下,使用该状态下的“自动(彩色/黑白)”的设置值来执行作业,作为使用这些值的作业。
在S1008中,如在上述的S946和S950中所示,数据发送和接收单元802向服务器102发送作业执行状态通知。
系统与用户之间的交互的示例
在图9A至图9C的序列中所示的处理以及图10和图13中所示的处理流程当中,图17A至图17D更具体地例示了用户106的语音控制操作以及由系统响应于语音控制操作而给出的交互的示例。即,图17A至图 17D例示了由用户106进行的作为语音控制操作的发声的示例以及由语音控制装置100控制的LED的表示语音处理状态的对应开/关状态。还示出了在图像形成装置的操作面板509上显示的画面以及由语音控制装置 100再现为响应的对应语音。
首先,在系统中,LED处于示出系统处于等待状态的关断状态,并且在操作面板509上显示顶部画面(S1701)。在这种状态下,如果用户 106发出唤醒词(S1702),则系统开始接受语音控制操作并且开启LED 以表示发声处理正在进行中(S1703)。注意,S1702是图9A中的S905 的具体示例,并且S1703是S906的具体示例。在唤醒词之后,如果用户 106发出“我想要进行复印”(S1704),则系统使LED闪烁以表示响应处理正在进行中(S1705),并且系统显示复印顶部画面(S1706)。然后,系统再现说“显示复印画面”的响应语音(S1707),并且再次开启LED 以提示用户106进行下一发声(S1708)。注意,S1704、S1705、S1706、 S1707和S1708分别是图9A中所示的S907、S908、S915、S919和S920 的具体示例。
接下来,如果用户106发出“原稿类型”(S1709),则系统使LED 闪烁(S1710)并且显示原稿类型设置画面(S1711)。然后,系统再现说“允许改变原稿的类型”的响应语音(S1712),并且开启LED(S1713)。注意,S1709、S1710、S1711、S1712和S1713分别是图9A或图9B中所示的S921、S922、S915、S924和S925的具体示例。
接下来,当用户106发出“级别调整”时(S1714),系统使LED闪烁(S1715)并且显示级别调整设置画面(S1716)。然后,系统再现说“允许改变级别调整”的响应语音(S1717),并且开启LED(S1718)。注意, S1714、S1715、S1716、S1717和S1718分别是图9A或图9B中所示的S921、S922、S915、S924和S925的具体示例。
接下来,当用户106发出“选择照片优先按钮三次”时(S1719),系统使LED闪烁(S1720)并且使级别调整(即,滑块)向右移动三个位置(S1721)。然后,系统再现说“级别调整已改变”的响应语音(S1722),并且开启LED(S1723)。稍后将参照图13描述滑块的操作的详情。注意, S1719、S1720、S1721、S1722和S1723分别是图9A或图9B中所示的 S926、S927、S915、S929和S925的具体示例。
接下来,当用户106发出“确定(OK)”时(S1724),系统使LED 闪烁(S1725),并且显示修改后的原稿类型设置画面以反映级别调整 (S1726)。然后,系统再现说“设置被确认”的响应语音(S1727),并且开启LED(S1728)。注意,S1724、S1725、S1726、S1727和S1728 分别是图9A或图9B中所示的S931、S932、S915、S934和S935的具体示例。
接下来,当用户106发出“复印开始”时(S1729),系统使LED闪烁(S1730)并且执行复印作业。当复印作业的执行开始时,系统显示表示复印作业正在被执行的画面(S1732),并且再现说“复印正在开始”的响应语音(S1731)。当复印作业的执行完成时,系统显示表示复印作业执行结束的画面并且再现说“复印完成”的最终响应语音(S1733)。此外,系统关断LED以表示语音接收被禁用(S1734)。注意,S1729、 S1730、S1732、S1731、S1733和S1734分别是图9C中所示的S936、S937、 S944、S949、S954和S955的具体示例。
滑块的语音控制
根据本实施例,允许通过作为示例的在上述S1719至S1721中的语音操作控制以多种方式来控制滑块。图22A至图22F是例示通过语音控制的滑块的操作的具体示例的图。
图22A例示了响应于发声“使滑块向右移动”将滑块的指点位置从中央向右移动一个位置的方式的示例。在允许对与图12A中所示的画面类似的画面进行操作的情况下,通过诸如“选择照片优先按钮一次”的包括按钮名称的语音来控制操作。在本实施例中,除了这样的通常的语音操作控制之外,还允许进行画面特有的语音操作控制(根据表示诸如“右”、“左”等的方向的语音使滑块移动)。
此外,在该画面上,相同的语音操作能够重复多次。图22B示出了滑块已从图22A中所示的位置进一步移动的状态。在该实施例中,因为存储了滑块的先前位置,所以“使滑块向右移动”的第二次发声使滑块移动到从中央位置向右远离两个位置的位置。
可以区分发声“使滑块向右移动”和发声“使滑块移动到右端”。通过发声“使滑块移动到右端”的语音操作控制如图22D中所示使滑块移动到右端(从中央远离四个位置)。此外,可以允许通过诸如“使滑块移动到中央”、“使滑块移动到左端”等的发声的语音操作控制。然而,由于不基于滑块的当前位置的滑块的操作不是本实施例的主题,因此省略其进一步的详细描述。
如在图22D中的情况下,在滑块的指点位置在滑动范围的右端处的情况下,滑块不能进一步向右移动。因此,当在图22D中所示的状态下进行语音操作控制以使滑块进一步向右移动时,确定滑块不能移动,并且指点位置不移动。在这种情况下,可以进行临时显示(例如,弹出显示)以表示不允许所请求的移动,和/或当在图9B中的S929中再现合成语音数据时,语音可以告诉不允许所请求的滑块移动。
图22C例示了响应于发声“使滑块向右移动两次”或“使滑块稍微向右移动”而将指点位置从中央位置向右移动两个位置的方式的示例。如上所述,通过使得滑块能够通过一次发声移动多次,能够提高可操作性。允许在语音操作控制中使用诸如“稍微”的含糊表达,使得能够提供直觉的操作环境。
图22E和图22F各自例示了响应于发声“使滑块向右移动大约1/4”来移动指点位置的方式。通过如上所述允许在语音操作控制中使用比率表达,变得能够提供更灵活的语音操作控制。当如上所述使用比率表达时,以标尺刻度为单位的移动量依据当前的指点位置而变化。在图22E 中所示的示例中,当前的指点位置在中央处,并且向右存在四个剩余的标尺刻度。因此,发声“使滑块向右移动大约1/4”会使滑块向右移动一个标尺刻度。在图22F中所示的示例中,当前的指点位置在左端处,并且向右存在八个剩余的标尺刻度。因此,发声“使滑块向右移动大约1/4”会使滑块向右移动两个标尺刻度。
语音控制操作确定单元的处理流程
图13是例示图像形成装置101的语音控制操作确定单元807的处理的概要的流程图。图13中所示的处理对应于图10中的S1003以及图9A 和图9C中的S914和S943中的处理。图14A至图14E例示了在图13中所示的语音控制操作确定处理中确定了通过语音指示的要进行的操作的画面的示例以及常规操作(通过按下操作面板上配设的按钮或硬件键) 和通过语音操作控制的操作的示例。下面参照图13以及图14A至图14E 来描述语音控制操作确定单元807的处理流程。
首先,参照图14A至图14E。图14A例示了在图像形成装置101的复印级别调整中对在扫描中分配给文本/照片的优先级进行设置中使用的画面(中文版本)的示例。图14E示出了翻译出图14A中所示的中文版本的日语版本画面的示例。
按钮1401和1402是用于调整分配给文本和照片的优先级程度的滑块按钮。当这些按钮被操作时,配设在画面的中央的滑块被移动。当前的滑块位置在滑块条的中央处,并且在右滑块按钮或左滑块按钮被按下时逐步向左或向右移动。按钮1403是用于取消设置的按钮,并且按钮1404 是用于反映设置的确定按钮。图14B示出了与图14A中所示的画面相关的画面控制信息的示例。图14C和图14D示出了与图14A中所示的画面相关的语音控制操作确定信息的示例。图14C和图14D中的行1405至 1416代表语音控制操作确定信息的行号。
下面参照图14A中所示的画面以及图14B至图14D中所示的画面控制信息和语音控制操作确定信息的示例来描述图13中所示的处理流程。
在S1301中,语音控制操作确定单元807在图10中的S1001中接收到的组ID确定结果与在S1002中获取的语音控制操作确定信息中包括的按钮的组ID信息之间进行匹配。例如,当显示图14A中所示的画面时,如果组ID确定结果是{ID:NUM00003、POS00016、FIN00011}(当用户 106发出“使滑块向左移动三次”时获得的),则在组ID确定结果与图14C和图14D中所示的语音控制操作确定信息的行1405至1414中的组 ID信息之间进行匹配。结果,行1406中的组ID“NUM00003+POS00016 +FIN00011”被命中,并且匹配成功。
注意,在图14C和图14D中所示的这些示例中,假设用户正在观看图14E中所示的日语版本画面,并且发出用于对图14E中所示的日语版本画面的语音操作控制的语音。
在S1302中,语音控制操作确定单元807确定S1301中的匹配是否成功。在匹配成功的情况下,处理进行到S1306,否则处理进行到S1303。
在S1303中,语音控制操作确定单元807在图10中的S1001中接收到的组ID确定结果与在S1002中获取的语音控制操作确定信息中包括的硬件键的组ID信息之间进行匹配。例如,在图14A中所示的画面上,如果服务器102中的组ID确定结果是{ID:OPR00011}(当用户106发出“开始”时获得的),则在ID确定结果与语音控制操作确定信息中描述的硬件键的组ID信息之间进行匹配。在这种情况下,在语音控制操作确定信息中命中组ID“OPR00011”,并且匹配成功。
在S1304中,语音控制操作确定单元807确定S1303中的匹配是否成功。如果匹配成功,则处理进行到S1305,否则语音控制操作确定处理结束。
在S1305中,语音控制操作确定单元807确定语音操作控制指示操作在S1303中的匹配处理中命中的硬件键,并且语音控制操作确定单元 807结束语音控制操作确定处理。例如,当具有组ID信息“OPR00011”的“开始”被命中时,确定指示了操作开始键207,并且语音控制操作确定处理结束。
在S1306中,语音控制操作确定单元807确定在S1301中的匹配结果中表示的操作目标是否是滑块按钮。例如,在发出“选择文本优先级”的情况下,在与图14C和图14D中的语音控制操作确定信息的行1405 至1412的匹配处理中,命中行1405。行1405中的“编号”列具有值1401,因此从图14B中的画面控制信息中确定滑块按钮是操作对象。
在确定操作目标是滑块按钮的情况下,读取要操作的滑块的指点位置。在图14A中所示的示例中,滑块的指点位置在“0”(右侧上的值为正并且左侧上的值为负)处。基于所读取的指点位置进行滑块在标尺上的移动。在匹配的操作目标是滑块按钮的情况下,处理进行到S1308,否则处理进行到S1307。
在S1307中,语音控制操作确定单元807确定S1301中的匹配的结果表示语音操作控制指示对操作画面上的一般按钮进行操作,并且结束语音控制操作确定处理。例如,在具有组ID“OPR00010”的“确定”匹配的情况下,在图14D中的语音控制操作确定信息的行1414中的“编号”列中描述了1404,因此确定语音操作控制指示操作作为一般按钮中的一个的“确定”按钮。
在步骤S1308中,语音控制操作确定单元807确定组ID确定结果是否包括指定操作目标要被操作的次数的组ID。例如,在图10中的S1001 中接收到的组ID确定结果包括意指“三次”的{ID:NUM00003}的情况下,确定组ID确定结果包括指定次数的组ID。表示数字的组ID对应于图7B中的NUM00001至NUM99999。然而,滑块的调整范围至多为八个。因此,用于指定次数的组ID被设置在上至滑块的最大调整宽度的范围内(在这种具体情况下为NUM00001至NUM00008)。如果包括指定次数的组ID,则处理进行到S1310,否则处理进行到S1309。
在S1309中,语音控制操作确定单元807确定S1301中的匹配的结果指定了对操作画面上的滑块按钮的单次语音操作,并且结束语音控制操作确定处理。例如,在图14C中的行1405和行1409被匹配为组ID信息的情况下,确定语音操作控制指示操作滑块按钮一次(即,滑块按钮 1401或1402要被操作一次)。
在S1310中,语音控制操作确定单元807确定在S1308中确定为指定次数的组ID是否表示次数的具体值。例如,如果在组ID确定结果中包括NUM00001至NUM00008中的一个,则确定指定了数字的具体值。如果是指定了具体值,则处理进行到S1311,否则处理进行到S1312。
在S1311中,语音控制操作确定单元807确定步骤S1301中的匹配的结果表示指示以指定的次数操作该操作画面上的滑块按钮的语音控制操作,并且结束语音控制操作确定处理。例如,在图14C中的行1406和行1410被匹配为组ID信息的情况下(例如,当用户106发出“选择文本优先级两次”时匹配行1406),确定语音操作控制指示操作滑块按钮指定的次数(即,操作滑块按钮1401或1402指定的次数)。
在S1312中,语音控制操作确定单元807确定在S1308中确定为包括指定次数的信息的组ID中是否将次数描述为使得使用特殊表达或需要计算。特殊数字表达例如是“少量”、“稍微”等,并且图11D中所示的组ID中的{DRG00018}是这样的表达的示例。特殊数字表达不限于这些示例,并且可以包括模糊地表示量或数字的表达(诸如“几乎”、“最多”、“一点”)。例如,在与图11H中的组ID的{FRA00103}一样使用诸如“1/3”等的分数表达的情况下,需要计算次数。
在S1313中,语音控制操作确定单元807确定步骤S1301中的匹配的结果表示指示以在特殊表达中指定的特定次数操作该操作画面上的滑块按钮的语音控制操作,并且结束语音控制操作确定处理。例如,在图 14C中的行1407和行1411被匹配为组ID信息的情况下,确定由组ID {DGR00018}中描述的语音控制操作指定的次数要被解释为滑块按钮要被操作两次(即,滑块按钮1401或1402被按下两次)。这里,与组ID {DGR00018}相关联的“稍微”被视为“两次”。然而,该值不限于“两次”,而是能够通过进行设置而被改变。
在S1314中,语音控制操作确定单元807计算次数。例如,在组ID 信息是{FRG00103、POS00012}(其中指定了“1/3”和“右”)的情况下,根据滑块的当前位置和至右剩余的标尺刻度数来计算移动次数。更具体而言,在如在图14A中所示的示例中当前位置在滑块条的中央处的情况下,至右剩余的标尺刻度数为4,因此4×1/3=1.333≈1,这意指移动次数要被确定为1。以这种方式,根据滑块的条的当前位置、在条要移动的方向上剩余的刻度数以及在组ID信息中描述的分数表达,来计算移动次数。
在S1315中,语音控制操作确定单元807确定步骤S1301中的匹配的结果表示语音控制操作指示操作该操作画面上的滑块按钮与在S1314 中计算出的次数一样多的次数,并且结束语音控制操作确定处理。例如,在图14C中的行1407和1411被匹配为组ID信息的情况下,确定组ID {DGR00018}指定“两次”作为操作要被进行的次数,因此确定语音控制操作指定了按下滑块按钮两次(即,滑块按钮1401或1402要被按下两次)。这里,与组ID{DGR00018}相关联的“稍微”被视为“两次”。然而,该值不限于“两次”,而是能够通过进行设置而被改变。
补充
如上所述,根据本实施例,能够提供一种信息处理系统,该信息处理系统允许用户依据装置的设置画面的构造来进行语音控制操作。特别是,能够对包括滑块形操作对象的设置画面进行语音控制操作。根据本实施例,能够在不依据按钮的名称的情况下进行对包括滑块形操作对象的设置画面的语音控制操作。在本实施例中,能够进行语音控制操作以考虑到当前设置状态来改变设置。在本实施例中,滑块的移动量能够通过数值(数值信息)来指定。在本实施例中,滑块的移动量能够通过比率(比率信息)来指定。如上所述,能够通过语音来灵活地控制操作,因此能够实现优异的可用性。
第二实施例
上面已经针对在配设在设置画面上一个滑块形操作对象的情况通过示例描述了第一实施例。在下面描述的第二实施例中,针对在设置画面上配设多个滑块形操作对象的情况描述该实施例。
系统和用户之间的交互的示例
在图9A至图9C中的序列所示的处理以及图10和图15A和图15B 中所示的处理流程当中,图17A至图17D更具体地例示了用户106的语音控制操作和系统响应于语音控制操作而给出的交互的示例。也就是说,图18A至图18D例示了用户106的用于语音控制操作的发声的示例,以及由系统控制的LED的用于表示语音控制装置100的相应语音处理状态的开启/关断状态。还示出了在图像形成装置的操作面板509上显示的画面和作为语音控制装置100的响应而再现的对应语音。
首先,在系统中,LED处于示出系统处于等待状态的关断状态,并且在操作面板509上显示顶部画面(S1801)。在此状态下,如果用户106 发出唤醒词(S1802),则系统开始接受语音控制操作并开启LED以表示发声处理正在进行中(S1803)。注意,S1802是S905的具体示例,并且 S1803是图9A中S906的具体示例。在唤醒词之后,如果用户106发出“我想要进行复印”(S1804),则系统使LED闪烁以表示响应处理正在进行中(S1805),并且系统显示复印顶部画面(S1806)。然后,系统再现说“显示复印画面”的响应语音(S1807),并再次开启LED以提示用户106进行下一发声(S1808)。注意,S1804、S1805、S1806、S1807和 S1808分别是图9A所示的S907、S908、S915、S919和S920的具体示例。
接下来,如果用户106发出“其它功能”(S1809),则系统使LED 闪烁(S1810)并显示其它功能画面(S1811)。然后,系统再现说“已显示其他功能1”的响应语音(S1812),并开启LED(S1813)。注意,S1809、 S1810、S1811、S1812和S1813分别是图9A或图9B中所示的S921、S922、 S915、S924和S925的具体示例。
接下来,当用户106发出“下一页”(S1814)时,系统使LED闪烁 (S1815)并显示第二个其它功能画面(S1816)。然后,系统再现说“已显示其他功能2”的响应语音(S1817),并开启LED(S1818)。注意, S1814、S1815、S1816、S1817和S1818分别是图9A或图9B所示的S921、S922、S915、S924和S925的具体示例。
接下来,当用户106发出“颜色调整”(S1919)时,系统使LED闪烁(S1820)并显示颜色调整设置画面(S1821)。然后,系统再现说“允许改变颜色调整”的响应语音(S1822),并开启LED(S1823)。注意, S1819是图9A中的S921的具体示例,S1820是图9A中的S922的具体示例,S1821是图9A中的S915的具体示例,S1822是图9B中的S924 的具体示例,并且S1823是图9B中的S925的具体示例。
接下来,当用户106发出“饱和度调整”(S1824)时,系统使LED 闪烁(S1825)并显示饱和度调整设置画面(S1826)。然后,系统再现说“允许改变饱和度调整”的响应语音(S1827),并开启LED(S1828)。注意,S1824是图9A中的S921的具体示例,S1825是图9A中的S922 的具体示例,S1826是图9A中的S915的具体示例,S1827是图9B中的 S924的具体示例,S1828是图9B中的S925的具体示例。
接下来,当用户106发出“黄色和青色增加两次”(S1829)时,系统使LED闪烁(S1830)并将饱和度调整器(即分别与黄色和青色相关联的滑块)向右移动两次(S1831)。然后,系统再现说“已改变饱和度调整”的响应声音(S1832),并开启LED(S1833)。稍后将参考图15A 和图15B描述滑块的操作的细节。注意,S1829是图9B中的S926的具体示例,S1830是图9B中的S927的具体示例,S1831是图9A中的S915 的具体示例,S1832是图9B中的S929的具体示例,并且S1833是图9B 中的S925的具体示例。
接下来,当用户106发出“青色和洋红减少三个”(S1834)时,系统使LED闪烁(S1835)并将饱和度调整器(即,分别用于青色和洋红的滑块)向右移动三个位置(S1721)。然后,系统再现说“已改变饱和度调整”的响应语音(S1837),并开启LED(S1838)。注意,S1834是图9B中的S926的具体示例,S1835是图9B中的S927的具体示例,S1836 是图9A中的S915的具体示例,S1837是图9B中的S929的具体示例, S1838是图9B中的S925的具体示例。
接下来,当用户106发出“确定”(S1839)时,系统使LED闪烁(S1840) 并显示修改后的饱和度调整设置画面以反映饱和度调整(S1841)。然后,系统再现说“设置已固定”的响应语音(S1842),并开启LED(S1843)。 S1839是图9B中的S931的具体示例,S1840是图9B中的S932的具体示例,S1841是图9A中的S915的具体示例,S1842是图9B中的S934 的具体示例,并且S1843是图9C中的S935的具体示例。
接下来,当用户106发出“复印开始”(S1844)时,系统使LED闪烁(S1845)并执行复印作业。当开始执行复印作业时,系统显示指示复印作业正在执行的画面(S1846),并且再现说“复印正在开始”的响应语音(S1847)。当复印作业执行完成时,系统显示表示复印作业执行结束的画面,并且再现说“复印完成”的最终响应语音(S1848)。此外,系统关断LED以表示语音接收被禁用(S1849)。注意,S1844、S1845、 S1846、S1847、S1848和S1849分别是图9C所示的S936、S937、S944、 S949、S954和S955的具体示例。
有多个滑块的情况下的操作示例
在本实施例中,S1829至S1831和S1834至S1836中例示的滑块的语音控制可以以各种方式进行。图23A至图23D是例示由语音控制的滑块的操作的具体示例的图。
图23A例示了响应于发声“增加黄色”而将黄色滑块的指点位置从中心向右移动一个位置的方式的示例。在本实施例中,在设置画面包括多个滑块的情况下,可以通过使用标识滑块的名称(本示例中的颜色) 来指定特定滑块,因此可以仅移动多个滑块的特定滑块。要指定黄色滑块,发声“黄色”和发声“黄色滑块”都是可以允许的。可以允许发出“向右”,而不允许发出“高”。
图23B例示了通过发出“增加所有颜色”而将画面上的所有滑块(黄色、绿色、青色、蓝色、洋红和红色的滑块)从其当前指点位置向右移动一个位置的移动滑块的方式。如上所述,本实施例在同时操作多个滑块时提供了极好的可操作性。
图23C例示了通过发出“黄色和青色增加两次”而将黄色和青色滑块从其当前指点位置向右移动两个位置的移动滑块的方式。如上所述,根据本实施例,可以一次操作多个滑块中的两个或更多个滑块。
图23D例示了通过发出“青色和洋红色减少三个”,青色和洋红色的滑块从其当前指点位置向左移动三个位置的移动滑块的方式。即,青色的滑块从当前位置移动,即从中心位置向右移动两个刻度,到与中心位置直接相邻的左侧刻度,而洋红的滑块从中心位置向左移动三个刻度。如上所述,根据本实施例,可以在考虑到多个滑块的当前位置的同时移动多个滑块当中的两个或更多个滑块。
在存在多个滑块时语音控制操作确定单元的处理流程
图15A和图15B是例示在图像形成装置101包括多个滑块的情况下图像形成装置101的语音控制操作确定单元807的处理概要的流程图。如图15A和图15B所示的处理对应于图10中的S1003、图9A中示出的 S915和图9C中示出的S943。图16A至图16E例示了在操作要通过语音控制操作来操作的多个滑块的情况的画面的示例,其中经由图15A至图 15B中所示的语音控制操作确定处理来确定对滑块的操作。
下面参照图15A和图15B以及图16A至图16E,针对画面上存在多个滑块的情况来描述语音控制操作确定单元807的处理流程。
首先,说明了图16A至图16E。图16A例示了用于调整图像形成装置101的饱和度的画面(中文版本)的示例,并且图16E例示了用于调整图像形成装置101的饱和度的画面(对应于图16A所示的中文版本的日语版本)的示例。按钮1601至1614是用于调整饱和度级别的滑块按钮,即,用于对应于位于画面中心的滑块进行操作的按钮。按钮1615是用于取消设置的按钮,并且按钮1616是用于反映设置的确定按钮。图16B 例示了图16A所示的画面上的画面控制信息的示例。图16C和图16D例示了与图16A所示的画面相关联的语音控制操作确定信息的示例。图16C 和图16D中的行1617到行1634表示语音控制操作确定信息的行。注意,在图16C和图16D中示出的这些示例中,假设用户正在观看图16E所示的日语版本画面,并且在图16E所示的日语版本画面上发出用于语音操作控制的语音。
下面参考图15A和图15B所示的处理流程、图16A所示的画面和图 16B至图16C所示的画面控制信息来描述处理。S1501至S1515类似于图13所示的S1301到S1315,因此,以下描述将侧重于S1516至S1518 中的不同处理。
在S1516中,基于在图10的S1002中获取的在图16B中的画面控制信息,进行关于是否存在两个或更多个滑块的确定。在确定出如图16B 一样存在两个或更多个滑块的情况下,处理进行到S1517。然而,当滑块的数目为一个或更少时,处理进行到S1501。
在S1517中,确定在图10的S1001中接收的组ID确定结果中是否包括两个或更多个滑块名称。滑块名称例如是图16A中的“黄色”、“绿色”、“青色”、“蓝色”、“洋红色”和“红色”。在组ID确定结果是{COL0004、 COL0006、NUM00002、DRG00013}(当用户发出“黄色和青色增加两个”时获得)的情况下,从组ID{COL0004、COL0006}确定出包括两个或更多个滑块名称“黄色”和“青色”。在确定出如图16A所示的情况一样存在两个或更多个滑块名称的情况下,处理进行到S1518,否则处理进行到S1501。
在S1518中,针对在S1517中确定的每个滑块名称再生组ID确定结果。例如,在组ID确定结果是{COL0004、COL0006、NUM00002、 DRG00013}(如S1517中的示例)的情况下,针对各滑块名称再生两个组ID确定结果,例如{COL0004、NUM00002、DRG00013}和{COL0006、NUM00002、DRG00013}。通过以上述方式再生组ID确定结果,用户可以通过进行一次发声来同时操作两个或更多个滑块。
下面针对组ID确定结果为{COL0004、COL0006、NUM00002、 DRG00013}(当用户发出“黄色和青色增加两个”时获得)的情况给出 S1501之后的处理流程的简要描述。
S1518中再生两个组ID测定结果{COL0004、NUM00002、DRG00013} 和{COL0006、NUM00002、DRG00013}。在S1501中,这些组ID确定结果各自与图16C中的语音控制操作确定信息的组ID信息匹配。
接下来,在步骤S1502中确定匹配成功,并且处理进一步进行到 S1506。更具体地,两个组ID确定结果分别与图16C中的行1620和行 1624匹配。
在S1506中,确定两个组ID确定结果各自表示滑块按钮(即,图16B 中的1604和1608),并且因此处理进行到S1508。
在步骤S1508中,确定各个组ID确定结果包括指定次数的组 ID{NUM0002},并且因此处理进入S1510。
在S1510中,确定次数由特定值(即,“2”)代表,从而处理进行到 S1511。
在S1511中,确定语音控制操作指定将画面上的与组ID信息对应的各个滑块按钮操作指定次数。更具体地,图16C中的行1620和行1624 匹配为组ID信息。因此,确定语音控制操作指定将黄色和青色的滑块中的各个操作两次(即,将各个按钮1604和1608的滑块按钮按下两次)。
通过进行如上所述的处理,当用户发出“黄色和青色增加两个”时,可以同时操作两个或更多个滑块。
如上所述,根据本实施例,可以在包括多个滑块形操作对象的设置画面上进行语音控制操作。在本实施例中,在具有多个滑块的设置画面上,可以进行语音控制操作,使得仅针对特定滑块改变指点刻度。在本实施例中,可以同时移动多个滑块。在本实施例中,可以通过使用值来指定多个滑块的移动量。在本实施例中,可以考虑到当前设置状态,进行语音控制操作以改变设置。如上所述,可通过语音来灵活地控制操作,因此可以实现极好的可用性。注意,在与上面参照图16C描述的控制多个滑块有关的语音控制操作确定信息的示例中,省略信息以特殊表达代表的示例,并且省略,与上文参照图13的S1309、S1313和S1315以及图14C中的组ID信息所述的情况一样的进行操作的次数的示例。然而,可以以类似的方式进行处理以控制多个滑块。
第三实施例
下面描述的第三实施例公开了一种通过语音控制操作改变设定值使得选择多个选择对象中的特定选择对象并且在该状态下改变设定值的方法。在上述第一实施例和第二实施例中,针对S1003中的语音控制操作确定处理的结果表示语音控制操作指定转换到滑块画面或移动滑块的情况,来说明语音控制操作。
即,在第三实施例中,基于图27B中的画面控制信息和图27C中的语音控制操作确定信息来改变焦点位置(关注位置),从而更新显示的画面。在此处理中,基于在稍后描述的S11306处读取的当前焦点位置来改变焦点位置。使用焦点的设置完成后,更新设备控制程序801的数据管理单元803的设置参数。在关注位置设置的按钮称为关注按钮(关注对象),用于突出显示关注对象的对象称为突出显示对象。
请注意,除了特征部分之外,第三实施例与第一实施例类似。因此,类似部分用类似的附图标记来标示,并且将省略对其进一步描述。
图28A至图28D是例示用户106进行的语音控制操作和系统响应于语音控制操作的交互的示例的示意图。注意,这里更具体地描述了在图 9A至图9C所示的序列中描述的示例以及图26所示的处理流程。即,图 28A至图28D例示了用户106给出的作为与由系统的语音控制装置100 进行的相应语音处理对应的语音控制操作的发声以及表示语音处理状态的LED的开启/关断状态的示例。还示出了在图像形成装置的操作面板 509上显示的画面和由语音控制装置100再现为响应的对应语音。
首先,在系统中,LED处于示出系统处于等待语音状态的关断状态,并且在操作面板509上显示顶部画面(S11501)。在此状态下,如果用户 106发出唤醒词(S11502),则系统开始接受语音控制操作并开启LED以表示发声处理正在进行中(S11503)。注意,S11502是图9A中的S905 的具体示例,S11503是图9A中S906的具体示例。在唤醒词之后,如果用户106发出“我想要进行复印”(S11504),则系统使LED闪烁以表示响应处理正在进行中(S11505),并且系统显示复印顶部画面(S11506)。然后,系统再现说“显示复印画面”的响应语音(S11507),并再次开启 LED以提示用户106下一发声(S11508)。注意,S11504是图9A中的S907的具体示例,S11505是图9A中的S908的具体示例,S11506是图 9A中的S915的具体示例,S11507是图9A中的S919的具体示例,S11508 是图9A中的S920的具体示例。
接下来,如果用户106发出“向右移动焦点”(S11509),则系统使 LED闪烁(S11510)并显示已被修改以使焦点向右移动的复印顶部画面 (设置画面)(S11511)。然后,系统再现说“已移动焦点”的响应语音 (S11512),并开启LED(S11513)。注意,S11509是图9B中的S926的具体示例,S11510是图9B中的S927,S11511是图9A中的S915,S11512 是图9B中的S929,S11513是图9B中S930的具体示例。
接下来,当用户106发出“焦点下移三个”(S11514)时,系统使 LED闪烁(S11515)并显示已被修改使得焦点下移三个的复印顶部画面 (设置画面)(S11516)。然后,系统再现说“已移动焦点”的响应语音 (S11517),并开启LED(S11518)。注意,S11514是图9B中的S926的具体示例,S11515是图9B中的S927的具体示例,S11516是图9A中的 S915的具体示例,S11517是图9B中的S929的具体示例,S11518是图 9B中S930的具体示例。
接下来,当用户106发出“选择焦点按钮”(S11519)时,系统使 LED闪烁(S11520)并显示已被修改使得选择焦点按钮的复印顶部画面。然后,系统再现说“已移动焦点”的响应语音(S11522),并开启LED (S11523)。稍后将参考图26描述聚焦操作的细节。注意,S11519是图 9B中的S931的具体示例,S11520是图9B中的S932的具体示例,S11521 是图9A中的S915的具体示例,S11522是图9B中的S934的具体示例,S11523是图9C中的S935的具体示例。
接下来,当用户106发出“复印开始”(S11524)时,系统使LED 闪烁(S11525)并执行复印作业。当开始执行复印作业时,系统显示表示正在执行复印作业的画面(S11527),并且再现说“复印正在开始”的响应语音(S11526)。当复印作业的执行完成时,系统显示表示复印作业执行结束的画面,并且再现说“复印完成”的最终响应语音(S11528)。此外,系统关断LED以表示语音接收被禁用(S11529)。注意,S11524、 S11525、S11527、S11526、S11528和S11529分别是图9C所示的S936、 S937、S944、S949、S954和S955的具体示例。
语音控制操作确定单元的处理流程
图26是例示图像形成装置101的语音控制操作确定单元807的处理概要的流程图。图26所示的处理对应于图10中的S1003、图9A中的S914 和图9C中的S943。图27A至图27E例示了在图26所示的语音控制操作确定处理中确定指示要由语音进行的操作的画面的示例,以及常规操作 (通过按下操作面板上配设的按钮或硬件键)和通过语音操作控制的操作的示例。
下面参照图26和图27A至图27E描述语音控制操作确定单元807 的处理流程。
首先,参照图27A至图27E。
图27A例示了用于调整图像形成装置101的饱和度的画面(中文版本)的示例,图27E例示了用于调整图像形成装置101的饱和度的画面 (对应于图27A所示的中文版本的日语版本)的示例。焦点11401是具有被显示为叠加在特定按钮上的框形的突出显示对象,从而表示按钮处于选中状态。按钮11402至11406是用于改变各种复印设置的按钮。在图27A中,焦点11401以叠加方式显示在100%按钮11402的框部上。在本实施例中,当根据语音控制操作进行画面转换时,焦点显示在转换的画面(复印顶部画面)上。请注意,无论画面转换是否由语音控制操作进行,都可始终显示焦点。或者,如图30A所示,响应于用户的发声“显示焦点”而在默认位置显示焦点,然后焦点可以移动到在右侧与默认位置相邻定位的或者定位在默认位置以下的两个按键的图标所代表的另一个按钮(例如文本/照片按钮)。图30A是例示在默认位置显示的焦点移动的方式的图。显示焦点的定时可以通过设置来改变。焦点的默认位置是画面上多个按钮(选择对象)中最左边的按钮。请注意,默认焦点位置可能是在左下角、右上角、右下角或靠近中心的任何一个按钮上。例如,可以通过设置来切换默认位置。或者,焦点可以放置在由用户通过按钮名称指定的按钮上,并且焦点操作可以从此状态开始。例如,如图 30B所示,首先焦点可以放置在浓度按钮11406上,然后焦点可以移动到其他按钮,例如由位于正下方的图标代表的按钮(文本/照片按钮)。图 30B是例示在用户指定的位置处显示的焦点被移动的方式的图。
在本实施例中,为了便于后面给出的描述,首先说明在焦点已经移动到100%按钮11402之后进行的操作。图27B例示了在将图27A中的焦点11401的位置移动到浓度按钮11406的位置之后获得的画面的示例。图27A和图27B中所示的画面除了包括按钮11402到11406之外,还包括用于改变针对复印的设置的按钮,但是为了简单起见,以下描述侧重于按钮11402到11406。图27C例示了图27A和图27B所示的画面上的画面控制信息的示例。图27D例示了图27A和图27B所示的画面上的语音控制操作确定信息的示例。图27D中的11407到11416表示语音控制操作确定信息的行。
参照图27A所示的画面以及图27B和图27C所示的画面控制信息和语音控制操作确定信息的示例来说明图26所示的处理。
在S11301中,在图10的S1001中接收到的组ID确定结果与在S1002 中获取的语音控制操作确定信息中包括的按钮的不包括硬件键(行11415 和行11416)的组ID信息之间进行匹配。例如,在显示图27A所示的画面的情况下,如果组ID确定结果是{ID:UIP00012、POS00016、FIN00011},然后,在图27D中的语音控制操作确定信息的行11407中的列“与显示画面有关的组ID信息”中的组ID信息与组ID确定结果之间进行匹配。在这种情况下,命中行11407中的组ID“UIP00012+POS00016+FIN00011”,并且匹配成功。注意,UIP00012是表示关注焦点的信息,POS00016是表示方向的信息,+FIN00011是表示移动的信息。注意,POS00016是表示方向的方向信息。
请注意,图27D中所示的示例适合于用户观看图27E中所示的日语版本画面所进行的语音控制操作。
在S11302中,确定S11301中的匹配是否成功。在匹配成功的情况下,处理前进到S11306,否则,处理前进到S11303。
在S11303中,在图10中的S1001中接收的组ID确定结果与在S1002 中获取的语音控制操作确定信息中所包括的针对硬件键的组ID信息之间进行匹配。例如,在图27A所示的画面上,如果服务器102给出的组ID 确定结果是{ID:OPR00011}(这是在用户106发出“开始”时获得的),则在该组ID确定结果与语音控制操作确定信息中的针对硬件键的该组 ID信息之间进行匹配。在这种情况下,在语音控制操作确定信息中命中组ID“OPR00011”,并且匹配成功。
在S11304中,判断S11303中的匹配是否成功。在匹配成功的情况下,处理进行到S11305,否则结束语音控制操作确定处理。
在S11305中,确定S11303中匹配的硬件键为语音控制操作的操作目标,结束语音控制操作确定处理。例如,当命中具有组ID信息“OPR00011”的“开始”时,确定语音控制操作指定操作开始键207,并且结束语音控制操作确定处理。
在S11306中,在S11301的匹配结果中,确定焦点11401是否被指定为操作目标。例如,在图27D中的语音控制操作确定信息的行11407 到行11409匹配的情况下(例如,当用户106发出“向左移动焦点”时,行11407匹配),在行11401中的的“数字”列中描述11401,因此,根据图27A或图27B中的画面控制信息确定由语音控制操作指定焦点 11401。注意,如果确定指定了焦点,则读取指定要操作的焦点的当前位置。在匹配的操作目标是焦点11401的情况下,处理前进到S11308,否则处理前进到S11307。
在S11307中,确定S11301中的匹配结果表示语音控制操作指定操作在操作画面上的按钮,并且结束语音控制操作确定处理。例如,在与组ID为“DGR0003”的“缩小”匹配的情况下,在图27D所示的语音控制操作确定信息的行11408的“数字”列中描述11404,由此,根据图 27D的画面控制信息确定语音控制操作指定操作“缩小”按钮。
在S11308中,确定关于组ID确定结果是否包括指定方向的组ID。例如,在表示“左”的{ID:POS00016}包括在图10的S1001中接收到的组ID确定结果中的情况下,确定指定方向的组ID包括在组ID确定结果中。指示方向的组ID对应于图25G中的POS00010至POS00017,但是,为了说明的简单性,不包括诸如右上、左下等的倾斜方向。在包括指定方向的组ID的情况下,处理前进到S11310,否则处理前进到S11309。
在S11309中,确定组ID确定结果是否包括指定次数的组ID。例如,在图10的S1001中接收到的组ID确定结果包括指示“2”的{ID: NUM00002}(数字信息)的情况下,确定组ID确定结果包括指定次数的组ID。根据图7B,指示数字的组ID对应于NUM00001到NUM99999。但是,由于焦点的移动最大为8,指定次数的组ID在焦点移动的最大可允许范围(NUM00001到NUM00008)内。如果包括指定次数的组ID,则处理进入S11311,否则处理进入S11310。
在S11310中,确定S11301中的匹配结果表示语音控制操作指定将焦点11401移动到操作画面上的下一按钮,并且结束语音控制操作确定处理。更具体地,在将图27D中的行11407匹配为组ID信息的情况下,确定语音控制操作指定将焦点11401移动到相邻按钮(即,焦点11401 移动到位于当前焦点位置的上方、下方、左侧或右侧的按钮之一)。例如,在显示图27A的画面时,组ID确定结果是{ID:UIP00012、POS00016、 FIN00011}的情况下,根据表示“左”的{POS00016}确定语音控制操作指定通过一个按钮将焦点11401向左移动。当基于上述确定结果在图10的步骤S1004中进行画面更新处理时,画面被更新使得焦点11401从100%按钮11402移动到浓度按钮11406,并且被显示为叠加在浓度按钮11406 上。以这种方式,允许用户106将焦点11401的显示位置移动到当前按钮的上方、下方、左侧和右侧的按钮位置之一。焦点11401移动的上方、下方、左侧和右侧的按钮被预先设置。即,在本示例中,预定的可允许移动目的地是减号按钮11403、缩小按钮11404、浓度按钮11406和手动进纸按钮11405位于100%按钮11401的当前焦点所在位置的上方、下方、左侧和右侧。
在S11311中,确定S11301中的匹配结果表示语音控制操作指定通过操作画面上的两个或更多个按钮来移动焦点11401,并且结束语音控制操作确定处理。例如,在显示图27A中的画面的情况下,如果组ID确定结果是{ID:UIP00012、NUM00002、POS00014}(例如,当用户106发出“将焦点向下移动两个”时获得),则{NUM0002}表示“2”,而{POS00014} 表示“向下”,因此,确定语音控制操作指定将焦点11401向下移动两个按钮。当根据上述确定结果在图10的步骤S1004中进行画面更新处理时,画面被更新使得焦点11401从100%按钮11402移动到自动变焦按钮,并且被显示为叠加在自动变焦按钮上。这样,允许用户106一次将焦点11401 的显示位置移动两个或更多个位置到位于当前焦点位置的上方、下方、左侧或右侧的按钮之一。
在S11312中,确定语音控制操作指定操作焦点11401所在的操作画面上的按钮,并且结束语音控制操作确定处理。更具体地,在图27D中的行11409被匹配为组ID信息的情况下,确定语音控制操作指定操作当前焦点11401所在的按钮。例如,当显示图27A的画面时,如果组ID确定结果是{ID:UIP00012、OPR00040},{OPR00040}表示“选择”,因此确定语音控制操作指定选择当前焦点11401所在的按钮。然后,在图10 中的S1004中,更新画面使得以与按下100%按钮11402时相同的方式显示画面。
如上所述,允许用户106通过语音操作焦点11401的位置。因此,即使存在未分配名称的按钮,也可以通过将焦点11401的位置移动到该按钮来选择该按钮(与用手指按下操作面板时的方式相同)。
显示焦点的方式的示例
可根据画面构造、可视性等以各种方式显示焦点位置。图29A例示了一个示例,其中焦点所在的按钮由深色框包围,从而明确地通知用户焦点位置。图29B例示了通过用箭头(指点图标)指点聚焦按钮而向用户106明确地表示焦点的示例。图29C例示了一个示例,其中整个聚焦按钮以深而显眼的颜色显示,文本以相反的颜色显示,从而明确地通知用户106按钮被聚焦。
如图29A到图29C所示,可以使用各种方法来表示焦点位置。然而,优选地,处于选择状态的按钮、处于非选择状态的按钮和处于聚焦状态的按钮被区分(可识别)。显示焦点的方法可以通过设置来切换。
补充
如上所述,根据本实施例,用户106可以通过语音操作图像形成装置101的操作面板509。具体地,根据本实施例,可以控制画面上的焦点位置,使得焦点根据用户做出的发声从当前焦点位置移动到上方、下方、左侧和右侧的位置之一。此外,可以通过借助语音操作控制选择焦点来操作焦点所在的按钮。因此,通过控制焦点,甚至可以指定名称未知的选择对象。根据本实施例,可以选择性地进行对选择对象进行选择的操作(改变选择对象的选择状态)和将焦点放在选择对象上的操作(改变聚焦状态)。根据本实施例,可以切换开始焦点显示的条件。根据本实施例,可以切换指示焦点的方法。
其他实施例
本公开不限于上述实施例,并且基于本公开的精神可以进行各种修改(包括实施例的有机组合)。注意,任何此类修改也属于本公开的范围。也就是说,任何实施例和包括实施例的组合的任何修改都属于本公开的范围。
本公开可应用于包括多个设备的系统,或应用于包括单个设备的装置。在上述实施例中,语音控制装置100、图像形成装置101和服务器102分别执行语音控制程序601、设备控制程序801和语音数据转换控制程序701。然而,所有程序可由具有麦克风的图像形成装置101执行。可以分离服务器102,并且可以由图像形成装置101执行语音控制程序601 和设备控制程序801。
在上述实施例中,对于由图像形成装置101提供的许多操作画面的一部分,已经在上面描述了操作画面上的操作。注意,通过自然语言控制特定画面的方法可以应用于其他画面。特别地,包括滑块形操作对象的画面上的语音控制操作或使用焦点的语音控制操作可应用于其它画面。
图19A至图19C、图20A至图20C以及图21A至图21C是示出图像形成装置中的设置项目的列表的图。在这些图所示的列表的表中,函数类在第一列(即最左边的列)中描述。在作为MFP的图像形成装置101 中提供的功能包括打印功能、复印功能和发送功能。在图像形成装置101 上,除了与这些功能相关的设置之外,还可以对装置操作所必需的主体部分进行设置。在图19A至图19C、图20A至图20C以及图21A至图 21C所示的列表的表中,项目组在第二列中描述为从最左边的列开始计数。项目组是一组项目,在使用函数操作的项目中按类似类分组在一起。项目组作为一个或多个画面输出。在图19A至图19C、图20A至图20C 以及图21A至图21C所示的列表的表中,项目在第三列中描述为从最左边的列开始计数。这些项目是允许在为每个项目组显示的画面上操作的操作项目或设置项目。功能列或项目组列中常见的项目是可以在几乎所有画面上使用的操作项目,但某些特殊画面除外。在本公开中,不仅可以在以上参照针对级别调整、饱和调整等的实施例描述的画面上改变设置,而且本公开还可以应用于改变图19A至图19C、图20A至图20C以及图21A至图21C中描述的任何设置项目。此外,除了上述设置以外,本公开还可以通过示例应用于通过诸如“向右移动两页”、“页面滚动约 1/2”等语音控制操作在页面上的显示区域中滑动。
还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如,一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如,专用集成电路(ASIC))的系统或装置的计算机,来实现本发明的实施例,并且,可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法,来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如,中央处理单元(CPU)、微处理单元(MPU)),并且可以包括分开的计算机或分开的处理器的网络,以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘 (DVD)或蓝光光盘(BD)TM)、闪存装置以及存储卡等中的一个或更多个。
本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU) 读出并执行程序的方法。
虽然参照示例性实施例对本发明进行了描述,但是应当理解,本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释,以便涵盖所有这些变型例以及等同的结构和功能。

Claims (16)

1.一种信息处理系统,其包括:
显示器,其能够显示信息;
麦克风,其能够获取声音;以及
一个或更多个控制器,其被构造为用作:
被构造为进行控制以在所述显示器上显示如下画面的单元:所述画面包括多个选择对象,所述多个选择对象中的一个选择对象被突出显示以表示所述多个选择对象中的这个选择对象是关注目标;
被构造为基于经由所述麦克风获取的语音信息来获取第一标识信息和第二标识信息的单元,所述第一标识信息与所述关注目标对应,所述第二标识信息与所述关注目标的位置更新处理相关;以及
被构造为至少基于关于当前关注目标的信息、所述第一标识信息以及所述第二标识信息来进行控制以在所述显示器上显示所述关注目标被更新的画面的单元。
2.根据权利要求1所述的信息处理系统,其中,
至少使用利用训练数据学习的学习模型,从语音信息获取单短语文本信息,所述训练数据包括文本信息和语音信息的对,以及
从单短语文本信息获取第一标识信息和第二标识信息。
3.根据权利要求1所述的信息处理系统,其中,从语音信息获取的标识信息包括用于更新关注目标的指点位置的数字信息。
4.根据权利要求1所述的信息处理系统,其中,从语音信息获取的标识信息包括用于更新关注目标的指点位置的方向信息。
5.根据权利要求1所述的信息处理系统,其中,所述画面是用于设置复印功能的画面。
6.根据权利要求1所述的信息处理系统,其中,所述画面是用于设置发送功能的画面。
7.根据权利要求1所述的信息处理系统,其中,所述画面是用于设置打印功能的画面。
8.根据权利要求1所述的信息处理系统,其中,所述画面是用于设置主体部分的画面。
9.根据权利要求1所述的信息处理系统,所述信息处理系统还包括:
扬声器,其被构造为输出声音;以及
被构造为响应于更新而经由所述扬声器提供通知的单元。
10.根据权利要求1所述的信息处理系统,所述信息处理系统还包括:
被构造为生成在所述通知中使用的合成语音的单元。
11.根据权利要求1所述的信息处理系统,所述信息处理系统还包括:
包括所述麦克风、所述显示器以及所述一个或更多个控制器的装置。
12.根据权利要求1所述的信息处理系统,所述信息处理系统还包括:
包括所述麦克风和所述显示器的装置;以及
包括所述一个或更多个控制器的装置。
13.根据权利要求1所述的信息处理系统,所述信息处理系统还包括:
包括所述麦克风的装置;以及
包括所述显示器和所述一个或更多个控制器的装置。
14.根据权利要求1所述的信息处理系统,所述信息处理系统还包括:
包括所述麦克风的装置;
包括所述显示器的装置;以及
包括获取单元的装置。
15.一种信息处理方法,其包括:
准备能够显示信息的显示器;
准备能够获取声音的麦克风;
进行控制以在所述显示器上显示如下画面:所述画面包括多个选择对象,所述多个选择对象中的一个选择对象被突出显示以表示所述多个选择对象中的这个选择对象是关注目标;
基于经由所述麦克风获取的语音信息来获取第一标识信息和第二标识信息,所述第一标识信息与所述关注目标对应,所述第二标识信息与所述关注目标的位置更新处理相关;以及
至少基于关于当前关注目标的信息、所述第一标识信息以及所述第二标识信息来进行控制,以在所述显示器上显示所述关注目标被更新的画面。
16.一种信息处理系统,其包括:
显示器,其能够显示信息;
麦克风,其能够获取声音;以及
一个或更多个控制器,其被构造为用作:
被构造为进行控制以在所述显示器上显示如下画面的单元:所述画面包括多个选择对象,所述多个选择对象中的一个选择对象被强调以表示所述多个选择对象中的这个选择对象是聚焦目标;
被构造为基于经由所述麦克风获取的语音信息来获取第一标识信息和第二标识信息的单元,所述第一标识信息与所述聚焦目标对应,所述第二标识信息与所述聚焦目标的位置更新处理相关;以及
被构造为至少基于关于当前聚焦目标的信息、所述第一标识信息以及所述第二标识信息来进行控制以在所述显示器上显示所述聚焦目标被更新的画面的单元。
CN202211078954.5A 2019-06-07 2020-06-07 信息处理系统以及信息处理方法 Pending CN115460328A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2019106916A JP7353806B2 (ja) 2019-06-07 2019-06-07 情報処理システム、情報処理装置、情報処理方法
JP2019-106916 2019-06-07
JP2019110689A JP2020201911A (ja) 2019-06-13 2019-06-13 情報処理システム、情報処理装置、情報処理方法
JP2019-110689 2019-06-13
CN202010509304.6A CN112055126B (zh) 2019-06-07 2020-06-07 信息处理系统、信息处理装置以及信息处理方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202010509304.6A Division CN112055126B (zh) 2019-06-07 2020-06-07 信息处理系统、信息处理装置以及信息处理方法

Publications (1)

Publication Number Publication Date
CN115460328A true CN115460328A (zh) 2022-12-09

Family

ID=73600982

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010509304.6A Active CN112055126B (zh) 2019-06-07 2020-06-07 信息处理系统、信息处理装置以及信息处理方法
CN202211078954.5A Pending CN115460328A (zh) 2019-06-07 2020-06-07 信息处理系统以及信息处理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010509304.6A Active CN112055126B (zh) 2019-06-07 2020-06-07 信息处理系统、信息处理装置以及信息处理方法

Country Status (3)

Country Link
US (1) US11838459B2 (zh)
KR (1) KR20200140740A (zh)
CN (2) CN112055126B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434099A (zh) * 2021-07-23 2021-09-24 深圳市佳汇印刷有限公司 数字印刷机智能控制系统
JP2024007023A (ja) * 2022-07-05 2024-01-18 キヤノン株式会社 画像処理システム、中継サーバ、およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136221A1 (en) * 2004-12-22 2006-06-22 Frances James Controlling user interfaces with contextual voice commands
CN102236534A (zh) * 2010-04-30 2011-11-09 佳能株式会社 信息处理装置及信息处理方法
KR20140049355A (ko) * 2012-10-17 2014-04-25 엘지전자 주식회사 이동단말기 및 그 제어방법
CN106257355A (zh) * 2015-06-18 2016-12-28 松下电器(美国)知识产权公司 设备控制方法和控制器
WO2017221492A1 (ja) * 2016-06-20 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20180329728A1 (en) * 2017-05-12 2018-11-15 Samsung Electronics Co., Ltd. Display apparatus and controlling method thereof

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1081588A (ja) 1996-09-05 1998-03-31 Matsushita Electric Ind Co Ltd 半導体ダイヤモンド及びその形成方法
US6266566B1 (en) * 1999-05-21 2001-07-24 Medtronic, Inc. Waveform normalization in a medical device
JP4320487B2 (ja) * 1999-09-03 2009-08-26 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
JP2002123288A (ja) 2000-10-12 2002-04-26 Canon Inc 携帯電話、ユーザインタフェース装置、コンテンツ表示方法、記憶媒体
US8949902B1 (en) * 2001-02-06 2015-02-03 Rovi Guides, Inc. Systems and methods for providing audio-based guidance
KR100549482B1 (ko) 2001-03-22 2006-02-08 캐논 가부시끼가이샤 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체
JP2004206179A (ja) 2002-12-24 2004-07-22 Ricoh Co Ltd 機器操作装置、プログラム、及び記録媒体
JP2005091888A (ja) 2003-09-18 2005-04-07 Canon Inc 通信装置、情報処理方法ならびにプログラム、記憶媒体
US7528990B2 (en) * 2004-06-16 2009-05-05 Ricoh Company, Ltd. Image-forming system with improved workability by displaying image finish and setting items in course of processing
JP5141687B2 (ja) 2007-07-31 2013-02-13 富士通株式会社 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
JP4826662B2 (ja) * 2009-08-06 2011-11-30 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および音声操作履歴情報共有方法
JP5463922B2 (ja) 2010-01-12 2014-04-09 株式会社デンソー 車載機
WO2013014709A1 (ja) 2011-07-27 2013-01-31 三菱電機株式会社 ユーザインタフェース装置、車載用情報装置、情報処理方法および情報処理プログラム
JP2013222229A (ja) 2012-04-12 2013-10-28 Konica Minolta Inc 入力操作装置、該装置を備えた画像形成装置、入力操作方法及び入力操作プログラム
KR102009423B1 (ko) 2012-10-08 2019-08-09 삼성전자주식회사 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치
KR102218906B1 (ko) 2014-01-17 2021-02-23 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
JP6063971B2 (ja) 2015-01-29 2017-01-18 京セラドキュメントソリューションズ株式会社 画像処理装置
JP7037304B2 (ja) 2017-09-08 2022-03-16 卓真 泉 取引支援システム、取引支援装置、取引支援方法及びプログラム
JP7146379B2 (ja) 2017-10-03 2022-10-04 キヤノン株式会社 印刷方法、音声制御システムおよびプログラム
JP2020047020A (ja) * 2018-09-20 2020-03-26 Dynabook株式会社 電子機器、音声認識方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136221A1 (en) * 2004-12-22 2006-06-22 Frances James Controlling user interfaces with contextual voice commands
CN102236534A (zh) * 2010-04-30 2011-11-09 佳能株式会社 信息处理装置及信息处理方法
KR20140049355A (ko) * 2012-10-17 2014-04-25 엘지전자 주식회사 이동단말기 및 그 제어방법
CN106257355A (zh) * 2015-06-18 2016-12-28 松下电器(美国)知识产权公司 设备控制方法和控制器
WO2017221492A1 (ja) * 2016-06-20 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20180329728A1 (en) * 2017-05-12 2018-11-15 Samsung Electronics Co., Ltd. Display apparatus and controlling method thereof

Also Published As

Publication number Publication date
US20200389565A1 (en) 2020-12-10
US11838459B2 (en) 2023-12-05
CN112055126B (zh) 2022-08-19
KR20200140740A (ko) 2020-12-16
CN112055126A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
JP4878471B2 (ja) 情報処理装置およびその制御方法
CN112055126B (zh) 信息处理系统、信息处理装置以及信息处理方法
KR20150025452A (ko) 데이터 처리 방법 및 그 전자 장치
JP2022048149A (ja) 画像処理装置、画像処理装置の制御方法、およびプログラム
KR101756836B1 (ko) 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치
JP5343652B2 (ja) 操作画面制御装置、画像形成装置、およびコンピュータプログラム
CN111385430B (zh) 图像形成系统和图像形成装置
JP7263869B2 (ja) 情報処理装置及びプログラム
JP2021085982A (ja) 情報処理装置、入出力デバイスの起動方法
JP2006259919A (ja) 文字列入力支援装置
US8780041B2 (en) Apparatus for displaying information corresponding to connection of controller and method thereof
US11838460B2 (en) Information processing system, information processing apparatus, and information processing method
TW201310331A (zh) 多功能事務機及其警示方法
JP7286321B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP7353806B2 (ja) 情報処理システム、情報処理装置、情報処理方法
JP2020201911A (ja) 情報処理システム、情報処理装置、情報処理方法
JP7327939B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
KR102164773B1 (ko) 마이크로폰으로 인공지능스피커와 연동되는 전자펜 시스템
JP7468360B2 (ja) 情報処理装置および情報処理方法
JP2021015441A (ja) 情報処理システム、情報処理装置、情報処理方法
KR20130051047A (ko) 시각 장애인 및 문맹자를 위한 문서편집기 음성안내 시스템
JP2023018516A (ja) 情報処理システム、情報処理システムの制御方法およびプログラム
JP7383885B2 (ja) 情報処理装置及びプログラム
CN114648991A (zh) 信息处理系统、其控制方法、存储其控制程序的存储介质、以及图像处理装置
JP2010214784A (ja) 画像形成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination