JP2020087381A - Information processing system, program, and information processing method - Google Patents

Information processing system, program, and information processing method Download PDF

Info

Publication number
JP2020087381A
JP2020087381A JP2018226140A JP2018226140A JP2020087381A JP 2020087381 A JP2020087381 A JP 2020087381A JP 2018226140 A JP2018226140 A JP 2018226140A JP 2018226140 A JP2018226140 A JP 2018226140A JP 2020087381 A JP2020087381 A JP 2020087381A
Authority
JP
Japan
Prior art keywords
unit
voice
information
information processing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018226140A
Other languages
Japanese (ja)
Inventor
井上 隆之
Takayuki Inoue
隆之 井上
駿 吉見
Shun Yoshimi
駿 吉見
中村 裕
Yutaka Nakamura
裕 中村
基至 勝又
Motoyoshi Katsumata
基至 勝又
かおり 大関
Kaori Ozeki
かおり 大関
沙弥香 安田
Sayaka Yasuda
沙弥香 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2018226140A priority Critical patent/JP2020087381A/en
Publication of JP2020087381A publication Critical patent/JP2020087381A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Accessory Devices And Overall Control Thereof (AREA)
  • Facsimiles In General (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

To provide an information processing system configured to facilitate difficult-to-understand setting instruction, a program, and an information processing method.SOLUTION: An information processing system including an information processing apparatus and an external device comprises: an acquisition unit which acquires voice information including setting instruction for operating the external device; a voice recognition unit which recognizes the voice information; a notification unit which displays operation information based on a result recognized by the voice recognition unit recognizing the voice information, on a screen of the information processing apparatus; an interpretation unit which interprets settings lacking in the operation information; and an output unit which outputs the operation information to the external device. The notification unit displays options on the settings lacking in the operation information on the screen of the information processing apparatus.SELECTED DRAWING: Figure 13

Description

本発明は、情報処理システム、プログラムおよび情報処理方法に関する。 The present invention relates to an information processing system, a program, and an information processing method.

従来、複合機(MFP:Multifunction Peripheral)などの画像形成装置に対する指示を音声にて行う操作方法が知られている。例えば、特許文献1には、音声にて操作可能な画像形成装置が開示されている。 2. Description of the Related Art Conventionally, there is known an operation method of giving an instruction to an image forming apparatus such as a multifunction peripheral (MFP) by voice. For example, Patent Document 1 discloses an image forming apparatus that can be operated by voice.

しかしながら、外部装置に対する指示を音声にて行う操作方法において対話型を採用する場合、「両面」「白黒」などの簡単な設定は良いが、「ステープルの位置設定」などの呼び方が難しい設定を口頭で指示するのは困難である、という課題がある。 However, when adopting the interactive type in the operation method for giving instructions to the external device by voice, simple settings such as “double-sided” and “black and white” are good, but settings that are difficult to call such as “staple position setting” The problem is that it is difficult to give verbal instructions.

本発明は、上記に鑑みてなされたものであって、呼び方が難しい設定指示を容易にすることができる情報処理システム、プログラムおよび情報処理方法を提供することを目的とする。 The present invention has been made in view of the above, and an object thereof is to provide an information processing system, a program, and an information processing method capable of facilitating a setting instruction that is difficult to call.

上述した課題を解決し、目的を達成するために、本発明は、情報処理装置及び外部装置を含む情報処理システムにおいて、前記外部装置を操作するための設定指示を含む音声情報を取得する取得部と、前記音声情報を認識する音声認識部と、前記音声認識部による前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知部と、前記操作情報において不足する設定を解釈する解釈部と、前記操作情報を前記外部装置に出力する出力部と、を備え、前記報知部は、前記操作情報において不足する設定にかかる選択肢を前記情報処理装置の画面にて報知する、ことを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the present invention is an information processing system including an information processing device and an external device, and an acquisition unit for acquiring voice information including a setting instruction for operating the external device. A voice recognition unit that recognizes the voice information, a notification unit that notifies operation information based on a recognition result of the voice information by the voice recognition unit on a screen of the information processing device, and a setting that is insufficient in the operation information. And an output unit that outputs the operation information to the external device, and the notification unit notifies the option related to the setting lacking in the operation information on the screen of the information processing device. , Is characterized.

本発明によれば、例えば「呼び方」が難しく、口頭での指示に不向きな設定についての選択肢を報知することにより、「ステープルの位置設定」などの呼び方が難しい設定指示を容易にすることができる、という効果を奏する。 According to the present invention, for example, it is easy to give a setting instruction such as "position setting of staples" which is difficult to call by notifying "choice" and a setting option which is not suitable for verbal instruction. There is an effect that can be.

図1は、第1の実施の形態の音声操作システムのシステム構成図である。FIG. 1 is a system configuration diagram of a voice operation system according to the first embodiment. 図2は、MFPのハードウェア構成図である。FIG. 2 is a hardware configuration diagram of the MFP. 図3は、携帯端末装置のハードウェア構成図である。FIG. 3 is a hardware configuration diagram of the mobile terminal device. 図4は、音声認識サーバ装置のハードウェア構成図である。FIG. 4 is a hardware configuration diagram of the voice recognition server device. 図5は、AIアシスタントサーバ装置のハードウェア構成図である。FIG. 5 is a hardware configuration diagram of the AI assistant server device. 図6は、携帯端末装置の機能ブロック図である。FIG. 6 is a functional block diagram of the mobile terminal device. 図7は、音声認識サーバ装置の機能ブロック図である。FIG. 7 is a functional block diagram of the voice recognition server device. 図8は、AIアシスタントサーバ装置の機能ブロック図である。FIG. 8 is a functional block diagram of the AI assistant server device. 図9は、音声操作システムにおける音声操作の全体的な動作の流れを示すシーケンス図である。FIG. 9 is a sequence diagram showing the flow of the overall operation of the voice operation in the voice operation system. 図10は、ユーザの入力音声の解釈に用いられるエンティティ情報の一例を示す図である。FIG. 10 is a diagram showing an example of entity information used for interpreting a voice input by the user. 図11は、発話フレーズに基づいて登録されるエンティティ情報を示す図である。FIG. 11 is a diagram showing entity information registered based on the utterance phrase. 図12は、対話式の入力操作の流れを示す図である。FIG. 12 is a diagram showing a flow of an interactive input operation. 図13は、図12に示す処理が実行された場合における画面表示の一例を示す図である。FIG. 13 is a diagram showing an example of a screen display when the processing shown in FIG. 12 is executed. 図14は、対話式の入力操作の前半の流れを示すシーケンス図である。FIG. 14 is a sequence diagram showing the first half flow of the interactive input operation. 図15は、対話式の入力操作の後半の流れを示すシーケンス図である。FIG. 15 is a sequence diagram showing the latter half flow of the interactive input operation. 図16は、第2の実施の形態の音声操作システムのシステム構成図である。FIG. 16 is a system configuration diagram of the voice operation system according to the second embodiment. 図17は、スマートスピーカーのハードウェア構成図である。FIG. 17 is a hardware configuration diagram of the smart speaker. 図18は、クラウドサービス装置のハードウェア構成図である。FIG. 18 is a hardware configuration diagram of the cloud service device. 図19は、クラウドの全体の機能を示す概要説明図である。FIG. 19 is a schematic explanatory diagram showing the overall functions of the cloud. 図20は、スマートスピーカーの機能ブロックの構成の一例を示す図である。FIG. 20 is a diagram showing an example of the configuration of functional blocks of a smart speaker. 図21は、クラウドサービスの各機能の構成の一例を示す図である。FIG. 21 is a diagram showing an example of the configuration of each function of the cloud service. 図22は、起動時の動作の流れを示すシーケンス図である。FIG. 22 is a sequence diagram showing the flow of operations at startup. 図23は、起動後の対話型動作の流れを示すシーケンス図である。FIG. 23 is a sequence diagram showing the flow of the interactive operation after the activation. 図24は、起動後の対話型動作の流れを示すシーケンス図である。FIG. 24 is a sequence diagram showing the flow of the interactive operation after the activation. 図25は、起動後の対話型動作の流れを示すシーケンス図である。FIG. 25 is a sequence diagram showing the flow of the interactive operation after the activation. 図26は、画面表示の一例を示す図である。FIG. 26 is a diagram showing an example of a screen display.

以下に添付図面を参照して、情報処理システム、プログラムおよび情報処理方法の実施の形態を詳細に説明する。 Embodiments of an information processing system, a program, and an information processing method will be described in detail below with reference to the accompanying drawings.

(第1の実施の形態)
(システム構成)
図1は、第1の実施の形態の音声操作システムのシステム構成図である。この図1に示すように、情報処理システムである第1の実施の形態の音声操作システムは、外部装置の一例である複合機(MFP:Multifunction Peripheral)1、スマートフォン又はタブレット端末等の携帯端末装置2(情報処理装置の一例)、音声認識サーバ装置3及びAI(Artificial Intelligence)アシスタントサーバ装置4を、例えばLAN(Local Area Network)等の所定のネットワーク5を介して相互に接続することで形成されている。ただし、外部装置は複合機には限定されず、電子黒板やプロジェクタなどのオフィス機器を含む、種々の電子機器であっても良い。
(First embodiment)
(System configuration)
FIG. 1 is a system configuration diagram of a voice operation system according to the first embodiment. As shown in FIG. 1, a voice operation system according to the first embodiment, which is an information processing system, includes a multifunction peripheral (MFP) 1 which is an example of an external device, a mobile terminal device such as a smartphone or a tablet terminal. 2 (an example of an information processing apparatus), a voice recognition server apparatus 3 and an AI (Artificial Intelligence) assistant server apparatus 4 are formed by connecting them to each other via a predetermined network 5 such as a LAN (Local Area Network). ing. However, the external device is not limited to the multifunction peripheral, and may be various electronic devices including office devices such as an electronic blackboard and a projector.

携帯端末装置2は、MFP1を音声操作するための、ユーザからの音声入力を受け付ける。また、受け付けた操作を、ユーザへ音声または画面表示でフィードバックする。また、携帯端末装置2は、音声認識サーバ装置3及びAIアシスタントサーバ装置4の間のデータ通信(後述するテキストデータの通信)を中継する。音声認識サーバ装置3は、携帯端末装置2から受信した音声データを分析し、テキストデータに変換する。なお、音声認識サーバ装置3は、第1サーバ装置に相当する。AIアシスタントサーバ装置4は、テキストデータを分析し、事前登録されているユーザの意図(MFP1のジョブ実行命令)に変換して携帯端末装置2に送信する。 The mobile terminal device 2 receives a voice input from the user for voice-operating the MFP 1. Further, the received operation is fed back to the user by voice or screen display. In addition, the mobile terminal device 2 relays data communication (communication of text data described later) between the voice recognition server device 3 and the AI assistant server device 4. The voice recognition server device 3 analyzes the voice data received from the mobile terminal device 2 and converts it into text data. The voice recognition server device 3 corresponds to the first server device. The AI assistant server device 4 analyzes the text data, converts the text data into a pre-registered user's intention (job execution command of the MFP 1), and transmits it to the mobile terminal device 2.

なお、AIアシスタントサーバ装置4は、第2サーバ装置に相当する。MFP1は、携帯端末装置2から送信されるジョブ実行命令を実行する。なお、携帯端末装置2とMFP1との通信は、無線通信であっても有線通信であっても良い。つまり、携帯端末装置2は、MFP1に固定的に接続される操作端末であっても良い。 The AI assistant server device 4 corresponds to the second server device. The MFP 1 executes the job execution instruction transmitted from the mobile terminal device 2. The communication between the mobile terminal device 2 and the MFP 1 may be wireless communication or wired communication. That is, the mobile terminal device 2 may be an operation terminal fixedly connected to the MFP 1.

また、この例では、音声認識サーバ装置3及びAIアシスタントサーバ装置4の、2つのサーバ装置が設けられていることとしたが、各サーバ装置3、4を物理的に一つのサーバ装置としてもよい。または、各サーバ装置3、4を、さらに複数のサーバ装置で実現してもよい。 Further, in this example, two server devices, the voice recognition server device 3 and the AI assistant server device 4, are provided, but each server device 3, 4 may be physically one server device. .. Alternatively, each server device 3, 4 may be realized by a plurality of server devices.

(MFPのハードウェア構成)
図2は、音声操作システムに設けられているMFP1のハードウェア構成図である。MFP1は、例えばプリンタ機能及びスキャナ機能等の複数の機能を備えている。すなわち、MFP1は、図2に示すように、コントローラ19、通信部15、操作部16、スキャナエンジン17及びプリンタエンジン18を有している。
(MFP hardware configuration)
FIG. 2 is a hardware configuration diagram of the MFP 1 provided in the voice operation system. The MFP 1 has a plurality of functions such as a printer function and a scanner function. That is, the MFP 1 has a controller 19, a communication unit 15, an operation unit 16, a scanner engine 17, and a printer engine 18, as shown in FIG.

コントローラ19は、CPU10、ASIC(Application Specific Integrated Circuit)11、メモリ12、HDD(Hard Disk Drive)13及びタイマ14を有する。CPU10〜タイマ14は、それぞれバスラインを介して通信可能なように相互に接続されている。 The controller 19 includes a CPU 10, an ASIC (Application Specific Integrated Circuit) 11, a memory 12, an HDD (Hard Disk Drive) 13, and a timer 14. The CPU 10 to the timer 14 are connected to each other via a bus line so that they can communicate with each other.

通信部15は、ネットワーク5に接続されており、後述するように、例えばスキャン指示又は印刷指示等の、携帯端末装置2を用いて音声入力されたジョブ実行命令を取得する。 The communication unit 15 is connected to the network 5, and acquires a job execution command, such as a scan instruction or a print instruction, which is input by voice using the mobile terminal device 2, as described later.

操作部16は、液晶表示部(LCD:Liquid Crystal Display)とタッチセンサとが一体的に形成された、いわゆるタッチパネルとなっている。操作者は、操作部16を用いて所望の動作の実行命令を行う場合、操作部16に表示された操作ボタン(ソフトウェアキー)を接触操作することで、所望の動作を指定する。 The operation unit 16 is a so-called touch panel in which a liquid crystal display (LCD) and a touch sensor are integrally formed. When the operator uses the operation unit 16 to give an instruction to execute a desired operation, the operator touches an operation button (software key) displayed on the operation unit 16 to specify the desired operation.

スキャナエンジン17は、スキャナユニットを制御して、光学的に原稿の読み取りを行う。プリンタエンジン18は、画像書き込みユニットを制御して、例えば転写紙等に画像を印刷する。CPU10は、画像形成装置を統括的に制御する。ASIC11は、いわゆる大規模集積回路(LSI:Large-Scale Integration)となっており、スキャナエンジン17及びプリンタエンジン18で処理する画像に必要な各種の画像処理等を行う。携帯端末装置2から取得したジョブ実行命令を実行する手段であるスキャナエンジン17及びプリンタエンジン18は、機能部に相当する。 The scanner engine 17 controls the scanner unit to optically read a document. The printer engine 18 controls the image writing unit to print an image on, for example, transfer paper. The CPU 10 centrally controls the image forming apparatus. The ASIC 11 is a so-called large-scale integrated circuit (LSI), and performs various kinds of image processing necessary for an image processed by the scanner engine 17 and the printer engine 18. The scanner engine 17 and the printer engine 18, which are means for executing the job execution command acquired from the mobile terminal device 2, correspond to functional units.

メモリ12は、CPU10が実行する各種アプリケーション及びアプリケーションを実行する際に用いられる種々のデータが記憶されている。HDD13は、画像データ、各種のプログラム、フォントデータ、及び、各種のファイル等を記憶する。なお、HDD13の代わり又はHDD13と共に、SSD(Solid State Drive)を設けてもよい。 The memory 12 stores various applications executed by the CPU 10 and various data used when executing the applications. The HDD 13 stores image data, various programs, font data, various files, and the like. An SSD (Solid State Drive) may be provided instead of or together with the HDD 13.

(携帯端末のハードウェア構成)
図3は、音声操作システムに設けられている携帯端末装置2のハードウェア構成図である。携帯端末装置2は、図3に示すようにCPU21、RAM22、不揮発性のROM23、インタフェース部(I/F部)24及び通信部25を、バスライン26を介して相互に接続して形成されている。RAM22には、電子メール、スキャンした画像等の宛先となるユーザの電子メールアドレス等が記憶されたアドレス帳が記憶されている。また、RAM22には、印刷を行う画像データであるファイル等が記憶されている。
(Hardware configuration of mobile terminal)
FIG. 3 is a hardware configuration diagram of the mobile terminal device 2 provided in the voice operation system. As shown in FIG. 3, the mobile terminal device 2 is formed by connecting a CPU 21, a RAM 22, a nonvolatile ROM 23, an interface unit (I/F unit) 24, and a communication unit 25 to each other via a bus line 26. There is. The RAM 22 stores an address book in which electronic mail addresses of users who are destinations of electronic mail and scanned images are stored. Further, the RAM 22 stores files such as image data to be printed.

ROM23には、操作音声処理プログラムが記憶されている。CPU21は、この操作音声処理プログラムを実行することで、MFP1の音声入力操作を可能とする。 An operation voice processing program is stored in the ROM 23. The CPU 21 enables the voice input operation of the MFP 1 by executing this operation voice processing program.

I/F部24には、タッチパネル27、スピーカ部28及びマイクロホン部29が接続されている。マイクロホン部29は、通話音声の他、MFP1に対するジョブの実行命令の入力音声を集音(取得)する。入力音声は、通信部25を介して音声認識サーバ装置3に送信され、テキストデータに変換される。 A touch panel 27, a speaker unit 28, and a microphone unit 29 are connected to the I/F unit 24. The microphone unit 29 collects (acquires) the input voice of the job execution command for the MFP 1 in addition to the call voice. The input voice is transmitted to the voice recognition server device 3 via the communication unit 25 and converted into text data.

(音声認識サーバ装置のハードウェア構成)
図4は、音声操作システムに設けられている音声認識サーバ装置3のハードウェア構成図である。音声認識サーバ装置3は、図4に示すように、CPU31、RAM32、ROM33、HDD(Hard Disk Drive)34、インタフェース部(I/F部)35及び通信部36を、バスライン37を介して相互に接続して形成されている。I/F部35には、表示部38及び操作部39が接続されている。HDD34には、音声データをテキストデータに変換するための操作音声変換プログラムが記憶されている。CPU31は、操作音声変換プログラムを実行することで、携帯端末装置2から送信された音声データをテキストデータに変換して、携帯端末装置2に返信する。
(Hardware configuration of the voice recognition server device)
FIG. 4 is a hardware configuration diagram of the voice recognition server device 3 provided in the voice operation system. As shown in FIG. 4, the voice recognition server device 3 includes a CPU 31, a RAM 32, a ROM 33, an HDD (Hard Disk Drive) 34, an interface unit (I/F unit) 35, and a communication unit 36 via a bus line 37. Is formed by connecting to. A display unit 38 and an operation unit 39 are connected to the I/F unit 35. The HDD 34 stores an operation voice conversion program for converting voice data into text data. The CPU 31 executes the operation voice conversion program to convert the voice data transmitted from the mobile terminal device 2 into text data, and returns the text data to the mobile terminal device 2.

(AIアシスタントサーバ装置のハードウェア構成)
図5は、音声操作システムに設けられているAIアシスタントサーバ装置4のハードウェア構成図である。AIアシスタントサーバ装置4は、図5に示すように、CPU41、RAM42、ROM43、HDD44、インタフェース部(I/F部)45及び通信部46を、バスライン47を介して相互に接続して形成されている。I/F部45には、表示部48及び操作部49が接続されている。HDD44には、ユーザから指示されたジョブを解釈するための操作解釈プログラムが記憶されている。CPU41は、この操作解釈プログラムを実行することで、音声認識サーバ装置3で生成(変換)されたテキストデータから、ユーザから指示されたジョブを解釈する。この解釈結果は、携帯端末装置2に送信される。携帯端末は、解釈結果をジョブ命令に変換してMFP1に供給する。これにより、携帯端末装置2を介して入力した音声により、MFP1を操作できる。
(Hardware configuration of AI assistant server device)
FIG. 5 is a hardware configuration diagram of the AI assistant server device 4 provided in the voice operation system. As shown in FIG. 5, the AI assistant server device 4 is formed by connecting a CPU 41, a RAM 42, a ROM 43, an HDD 44, an interface unit (I/F unit) 45, and a communication unit 46 to each other via a bus line 47. ing. A display unit 48 and an operation unit 49 are connected to the I/F unit 45. The HDD 44 stores an operation interpretation program for interpreting a job instructed by the user. The CPU 41 executes the operation interpretation program to interpret the job instructed by the user from the text data generated (converted) by the voice recognition server device 3. The interpretation result is transmitted to the mobile terminal device 2. The mobile terminal converts the interpretation result into a job command and supplies it to the MFP 1. As a result, the MFP 1 can be operated by the voice input via the mobile terminal device 2.

(携帯端末の機能)
図6は、音声操作システムに設けられている携帯端末装置2の機能ブロック図である。携帯端末装置2のCPU21は、ROM23に記憶されている操作音声処理プログラムを実行することで、図6に示すように取得部51、通信制御部52、フィードバック部55、処理能力取得部56、実行判定部57及び検索部58として機能する。
(Function of mobile terminal)
FIG. 6 is a functional block diagram of the mobile terminal device 2 provided in the voice operation system. The CPU 21 of the mobile terminal device 2 executes the operation voice processing program stored in the ROM 23 to thereby obtain the acquisition unit 51, the communication control unit 52, the feedback unit 55, the processing capacity acquisition unit 56, and the execution unit as illustrated in FIG. 6. It functions as the determination unit 57 and the search unit 58.

取得部51は、取得部の一例であり、マイクロホン部29を介して集音された、MFP1を音声操作するためのユーザの指示音声を取得する。通信制御部52は、出力部の一例であり、携帯端末装置2とMFP1との間、携帯端末装置2と音声認識サーバ装置3との間、及び、携帯端末装置2とAIアシスタントサーバ装置4との間の通信をそれぞれ制御する。解釈結果変換部53は、AIアシスタントサーバ装置4でユーザの指示音声のテキストデータの解釈結果を、MFP1に対するジョブの実行命令に変換する。実行指示部54は、ジョブの実行命令をMFP1に送信して、ジョブの実行を指示する。 The acquisition unit 51 is an example of an acquisition unit, and acquires the user's instruction voice for performing voice operation of the MFP 1 collected via the microphone unit 29. The communication control unit 52 is an example of an output unit, and is between the mobile terminal device 2 and the MFP 1, between the mobile terminal device 2 and the voice recognition server device 3, and between the mobile terminal device 2 and the AI assistant server device 4. Control the communication between each. The interpretation result conversion unit 53 converts the interpretation result of the text data of the user's instruction voice in the AI assistant server device 4 into a job execution command for the MFP 1. The execution instruction unit 54 sends a job execution instruction to the MFP 1 to instruct execution of the job.

フィードバック部55は、報知部の一例であり、対話型の音声入力操作を実現すべく、例えば不足するデータを補う入力を促す音声または画面表示をフィードバックし、又は、入力を確認する音声または画面表示のフィードバック等を行う。処理能力取得部56は、MFP1から、例えば処理可能な最大画素数等の処理能力を取得する。実行判定部57は、MFP1の能力と、ユーザから指定されたジョブとを比較することで、ユーザから指定されたジョブをMFP1で実行可能か否か判定する。検索部58は、ユーザから音声指示された宛先又はファイル等をRAM22等のメモリから検索する。 The feedback unit 55 is an example of a notifying unit, and for example, to realize an interactive voice input operation, for example, a voice or a screen display that prompts an input that supplements the insufficient data is fed back, or a voice or a screen display that confirms the input. Give feedback, etc. The processing capacity acquisition unit 56 acquires the processing capacity such as the maximum number of pixels that can be processed from the MFP 1. The execution determination unit 57 determines whether the job designated by the user can be executed by the MFP 1 by comparing the capability of the MFP 1 with the job designated by the user. The search unit 58 searches a memory such as the RAM 22 for a destination, a file, or the like, which is voice-instructed by the user.

なお、この例では、取得部51〜検索部58をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、IC(Integrated Circuit)等のハードウェアで実現してもよい。また、取得部51〜検索部58が実現する機能は、操作音声処理プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。例えば、MFP1の処理能力などの情報の取得は他のプログラムが実行し、処理能力取得部56は他のプログラムが取得した情報を取得することで、間接的にMFP1が有する情報を取得することができる。 In this example, the acquisition unit 51 to the search unit 58 are implemented by software, but some or all of these may be implemented by hardware such as an IC (Integrated Circuit). Further, the functions realized by the acquisition unit 51 to the search unit 58 may be realized by the operation voice processing program alone, or by causing another program to execute a part of the processing, or indirectly by using another program. The processing may be executed. For example, the acquisition of information such as the processing capacity of the MFP 1 is executed by another program, and the processing capacity acquisition unit 56 can acquire the information possessed by the MFP 1 indirectly by acquiring the information acquired by the other program. it can.

(音声認識サーバ装置の機能)
図7は、音声操作システムに設けられている音声認識サーバ装置3の機能ブロック図である。音声認識サーバ装置3のCPU31は、HDD34に記憶されている操作音声変換プログラムを実行することで、図7に示すように取得部61、テキスト変換部62及び通信制御部63として機能する。取得部61は、携帯端末装置2から送信される、ユーザにより入力された音声データを取得する。テキスト変換部62は、音声認識部の一例であり、ユーザにより入力された音声データをテキストデータに変換する。通信制御部63は、ユーザにより入力された音声データの受信、及び、携帯端末装置2に対するテキストデータの送信等を行うように、通信部36を通信制御する。
(Function of the voice recognition server device)
FIG. 7 is a functional block diagram of the voice recognition server device 3 provided in the voice operation system. By executing the operation voice conversion program stored in the HDD 34, the CPU 31 of the voice recognition server device 3 functions as the acquisition unit 61, the text conversion unit 62, and the communication control unit 63 as illustrated in FIG. 7. The acquisition unit 61 acquires the voice data input by the user, which is transmitted from the mobile terminal device 2. The text conversion unit 62 is an example of a voice recognition unit, and converts the voice data input by the user into text data. The communication control unit 63 controls communication of the communication unit 36 so as to receive voice data input by the user, send text data to the mobile terminal device 2, and the like.

なお、この例では、取得部61〜通信制御部63をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、IC(Integrated Circuit)等のハードウェアで実現してもよい。また、取得部61〜通信制御部63が実現する機能は、操作音声変換プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。 In this example, the acquisition unit 61 to the communication control unit 63 are realized by software, but some or all of them may be realized by hardware such as an IC (Integrated Circuit). Further, the functions realized by the acquisition unit 61 to the communication control unit 63 may be realized by a single operation voice conversion program, or may be executed by another program to execute a part of the processing or indirectly by using another program. May be made to perform processing.

(AIアシスタントサーバ装置の機能)
図8は、音声操作システムに設けられているAIアシスタントサーバ装置4の機能ブロック図である。AIアシスタントサーバ装置4のCPU41は、HDD44に記憶されている操作解釈プログラムを実行することで、図8に示すように取得部71、解釈部72及び通信制御部73として機能する。取得部71は、携帯端末装置2から送信される、ユーザにより入力された音声データのテキストデータを取得する。解釈部72は、解釈部の一例であり、テキストデータに基づいて、ユーザからの操作指示を解釈する。通信制御部73は、ユーザの携帯端末装置2に対する解釈結果の送信、及び、ユーザにより入力された音声データのテキストデータの受信等を行うように通信部46を通信制御する。
(Function of AI assistant server device)
FIG. 8 is a functional block diagram of the AI assistant server device 4 provided in the voice operation system. By executing the operation interpretation program stored in the HDD 44, the CPU 41 of the AI assistant server device 4 functions as the acquisition unit 71, the interpretation unit 72, and the communication control unit 73 as illustrated in FIG. 8. The acquisition unit 71 acquires text data of voice data input by the user, which is transmitted from the mobile terminal device 2. The interpretation unit 72 is an example of an interpretation unit, and interprets an operation instruction from the user based on the text data. The communication control unit 73 controls the communication of the communication unit 46 so as to transmit the interpretation result to the mobile terminal device 2 of the user, receive the text data of the voice data input by the user, and the like.

なお、この例では、取得部71〜通信制御部73をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、IC(Integrated Circuit)等のハードウェアで実現してもよい。また、取得部71〜通信制御部73が実現する機能は、操作解釈プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。 In this example, the acquisition unit 71 to the communication control unit 73 are realized by software, but some or all of them may be realized by hardware such as an IC (Integrated Circuit). Further, the functions realized by the acquisition unit 71 to the communication control unit 73 may be realized by a single operation interpretation program, or by causing another program to execute a part of the processing, or indirectly by using another program. The processing may be executed.

また、操作音声処理プログラム、操作音声変換プログラム及び操作解釈プログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、CD−R、DVD(Digital Versatile Disk)、ブルーレイディスク(登録商標)、半導体メモリなどのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、インターネット等のネットワーク経由でインストールするかたちで提供してもよいし、機器内のROM等に予め組み込んで提供してもよい。 Further, the operation voice processing program, the operation voice conversion program, and the operation interpretation program are recorded in a computer-readable recording medium such as a CD-ROM or a flexible disk (FD) as files in an installable format or an executable format. May be provided. Alternatively, the program may be provided by being recorded in a computer-readable recording medium such as a CD-R, a DVD (Digital Versatile Disk), a Blu-ray disc (registered trademark), or a semiconductor memory. Further, it may be provided by being installed via a network such as the Internet, or may be provided by being incorporated in a ROM or the like in the device in advance.

(音声入力操作の全体的な動作)
次に、実施の形態の音声操作システムにおける音声入力操作の全体的な動作を説明する。図9は、音声操作システムにおける音声操作の全体的な動作の流れを示すシーケンス図である。この図9の例は、MFP1の両面コピー機能を、携帯端末装置2を介して音声入力操作する例である。この場合、ユーザは、携帯端末装置2の操作音声処理プログラムを起動し、例えば「両面でコピー」と発声する。このユーザの音声は、携帯端末装置2のマイクロホン部29で集音され、取得部51により取得される(ステップS1)。携帯端末装置2の通信制御部52は、この「両面でコピー」との音声データを音声認識サーバ装置3に送信し、テキスト変換要求を行うように通信部25を制御する(ステップS2)。
(Overall operation of voice input operation)
Next, the overall operation of the voice input operation in the voice operation system of the embodiment will be described. FIG. 9 is a sequence diagram showing the flow of the overall operation of voice operation in the voice operation system. The example of FIG. 9 is an example of performing a voice input operation on the double-sided copy function of the MFP 1 via the mobile terminal device 2. In this case, the user activates the operation voice processing program of the mobile terminal device 2 and utters, for example, “copy on both sides”. The voice of the user is collected by the microphone unit 29 of the mobile terminal device 2 and acquired by the acquisition unit 51 (step S1). The communication control unit 52 of the mobile terminal device 2 transmits the voice data “copy on both sides” to the voice recognition server device 3 and controls the communication unit 25 to make a text conversion request (step S2).

音声認識サーバ装置3のテキスト変換部62は、「両面でコピー」との音声データをテキストデータに変換処理する。そして、通信制御部63は、変換処理されたテキストデータを、携帯端末装置2に送信するように通信部36を制御する(ステップS3)。携帯端末装置2の通信制御部52は、「両面でコピー」とのテキストデータを、AIアシスタントサーバ装置4に送信する(ステップS4)。 The text conversion unit 62 of the voice recognition server device 3 converts the voice data “copy on both sides” into text data. Then, the communication control unit 63 controls the communication unit 36 so as to transmit the converted text data to the mobile terminal device 2 (step S3). The communication control unit 52 of the mobile terminal device 2 transmits the text data "copy on both sides" to the AI assistant server device 4 (step S4).

この例の場合、AIアシスタントサーバ装置4の解釈部72は、MFP1に実行を要求する動作は「コピーである(Action:Copy_Execcute)」と解釈し、「印刷面は両面である(印刷面=両面)」と解釈する(ステップS5)。このように、解釈部72は、テキストデータに基づいて、ユーザから指定されたジョブの種別(アクション)及び内容(パラメータ)を示す解釈結果を生成する。この解釈結果は、AIアシスタントサーバ装置4の通信制御部63により、通信部46を介して携帯端末装置2に送信される(ステップS6)。 In the case of this example, the interpretation unit 72 of the AI assistant server device 4 interprets that the operation requested to be executed by the MFP 1 is “copy (Action:Copy_Execcute)”, and “print side is both sides (print side=double side). )” (step S5). In this way, the interpretation unit 72 generates an interpretation result indicating the type (action) and content (parameter) of the job designated by the user based on the text data. The interpretation result is transmitted to the mobile terminal device 2 via the communication unit 46 by the communication control unit 63 of the AI assistant server device 4 (step S6).

携帯端末装置2の解釈結果変換部53は、AIアシスタントサーバ装置4から受信した解釈結果を、MFP1のジョブ命令に変換処理する(ステップS7)。以下の表1に、解釈結果と、解釈結果から変換処理されたジョブ命令の一例を示す。なお、解釈結果変換部53は、解釈結果をジョブ命令に変換するために、表1に相当する情報を携帯端末装置2の記憶部(ROM23)に記憶し、参照できる構成としても良い。 The interpretation result conversion unit 53 of the mobile terminal device 2 converts the interpretation result received from the AI assistant server device 4 into a job command of the MFP 1 (step S7). Table 1 below shows an example of the interpretation result and a job command converted from the interpretation result. Note that the interpretation result conversion unit 53 may store the information corresponding to Table 1 in the storage unit (ROM 23) of the mobile terminal device 2 in order to convert the interpretation result into a job command so that it can be referred to.

Figure 2020087381
Figure 2020087381

この表1の例の場合、「COPY_EXECUTE」、「SCAN_EXECUTE」、「PRINT_EXECUTE」及び「FAX_EXECUTE」が、アクション(Action)の一例として示されている。また、「印刷面」及び「部数」等がパラメータ(Parameter)の一例として示されている。なお、パラメータとしては、ジョブの設定値として指定可能な全てのパラメータが含まれる。 In the case of the example in Table 1, "COPY_EXECUTE", "SCAN_EXECUTE", "PRINT_EXECUTE", and "FAX_EXECUTE" are shown as an example of an action. Further, “print surface”, “number of copies” and the like are shown as an example of parameters (Parameter). Note that the parameters include all parameters that can be designated as job setting values.

携帯端末装置2の解釈結果変換部53は、「COPY_EXECUTE」の解釈結果を、「コピージョブの実行」との、MFP1のジョブ命令に変換処理する。同様に、解釈結果変換部53は、「SCAN_EXECUTE」の解釈結果を、「スキャンジョブの実行」との、MFP1のジョブ命令に変換処理する。同様に、解釈結果変換部53は、「PRINT_EXECUTE」の解釈結果を、「印刷ジョブの実行」との、MFP1のジョブ命令に変換処理する。同様に、解釈結果変換部53は、「FAX_EXECUTE」の解釈結果を、「FAXジョブの実行」との、MFP1のジョブ命令に変換処理する。 The interpretation result conversion unit 53 of the mobile terminal device 2 converts the interpretation result of “COPY_EXECUTE” into a job command of the MFP 1 “execute copy job”. Similarly, the interpretation result conversion unit 53 converts the interpretation result of “SCAN_EXECUTE” into a job command of “execute scan job” of the MFP 1. Similarly, the interpretation result conversion unit 53 converts the interpretation result of “PRINT_EXECUTE” into a job command of the MFP 1 that “executes a print job”. Similarly, the interpretation result conversion unit 53 converts the interpretation result of “FAX_EXECUTE” into a job command of the MFP 1 “execute FAX job”.

また、携帯端末装置2の解釈結果変換部53は、解釈結果に「印刷面」のパラメータが含まれている場合、「印刷面の設定値の変更」を行うMFP1のジョブ命令を形成する。同様に、解釈結果変換部53は、解釈結果に「部数」のパラメータが含まれている場合、「部数の設定値の変更」を行うMFP1のジョブ命令を形成する。 In addition, the interpretation result conversion unit 53 of the mobile terminal device 2 forms a job command of the MFP 1 that “changes the setting value of the printing surface” when the interpretation result includes the parameter of “printing surface”. Similarly, the interpretation result conversion unit 53 forms a job command of the MFP 1 to “change the set value of the number of copies” when the interpretation result includes the parameter “number of copies”.

すなわち、携帯端末装置2の解釈結果変換部53は、解釈結果の「Action」に含まれる情報で、MFP1に実行させるジョブの種類を判断し、「Parameter」に含まれる値を、ジョブの設定値と判断して、解釈結果をジョブ命令に変換処理する。 That is, the interpretation result conversion unit 53 of the mobile terminal device 2 determines the type of the job to be executed by the MFP 1 based on the information included in the “Action” of the interpretation result, and the value included in “Parameter” is set to the job setting value. Then, the interpretation result is converted into a job command.

携帯端末装置2の通信制御部52は、このようにして形成されたジョブ命令を、MFP1に送信するように通信部25を制御する(ステップS8)。この例の場合、「コピージョブ実行(印刷面=両面)」のジョブ命令がMFP1に送信される。これにより、MFP1で両面印刷が実行される。 The communication control unit 52 of the mobile terminal device 2 controls the communication unit 25 to transmit the job command thus formed to the MFP 1 (step S8). In the case of this example, a job command of “execute copy job (printing side=duplex)” is transmitted to the MFP 1. This causes the MFP 1 to execute double-sided printing.

(AIアシスタントサーバ装置における解釈動作の詳細)
AIアシスタントサーバ装置4のHDD44のAI記憶部40には、ユーザが音声入力により指示しているジョブを解釈するためAIアシスタントサービス情報が記憶されている。このAIアシスタントサービス情報は、エンティティ(Entity)情報、アクション(Action)情報及びインテント(Intent)情報を含んで構成されている。エンティティ情報は、ジョブのパラメータと自然言語を関連付ける情報である。1つのパラメータに複数の類義語が登録可能となっている。アクション情報は、ジョブの種類を示す情報である。インテント情報は、ユーザの発話フレーズ(自然言語)とエンティティ情報、及び、ユーザの発話フレーズ(自然言語)とアクション情報を、それぞれ関連付ける情報である。インテント情報により、パラメータの発話順序又はニュアンスが多少変わっても、正しい解釈が可能となっている。また、インデント情報により、入力された内容に基づいてレスポンスのテキスト(解釈結果)を生成可能となっている。
(Details of Interpretation Operation in AI Assistant Server Device)
The AI storage unit 40 of the HDD 44 of the AI assistant server device 4 stores AI assistant service information for interpreting a job instructed by a user by voice input. The AI assistant service information is configured to include entity information, action information, and intent information. The entity information is information that associates a job parameter with a natural language. A plurality of synonyms can be registered in one parameter. The action information is information indicating the type of job. The intent information is information that associates a user's utterance phrase (natural language) with entity information, and a user's utterance phrase (natural language) with action information. The intent information allows correct interpretation even if the utterance order or nuance of the parameters changes slightly. Further, the indent information makes it possible to generate a response text (interpretation result) based on the input content.

図10は、ユーザの入力音声の解釈に用いられるエンティティ情報の一例を示す図である。この図10は、印刷色(Print Color)に対応するエンティティ情報である。この図10において、「Print Color」の文字は、エンティティ名を示している。また、図10において、左の列の「auto_color」、「monochrome」、「color」・・・等の文字は、パラメータ名を示している。また、図10において、右の列の「auto_color」、「monochrome,black and white」、「color,full color」・・・等の文字は、類義語を示している。 FIG. 10 is a diagram showing an example of entity information used for interpreting a voice input by the user. FIG. 10 is entity information corresponding to the print color (Print Color). In FIG. 10, the characters "Print Color" indicate entity names. Also, in FIG. 10, characters such as “auto_color”, “monochrome”, “color”... In the left column indicate parameter names. In FIG. 10, characters such as “auto_color”, “monochrome, black and white”, “color, full color”... In the right column indicate synonyms.

この図10からわかるように、エンティティ情報としては、パラメータ及び類義語が関連付けられて記憶されている。パラメータと共に、類義語を登録することで、例えばモノクロでのコピーを指示する場合に、「Please copy by black and white」と発話しても、「Please copy by monochrome」と発話しても、パラメータの設定を可能とすることができる。 As can be seen from FIG. 10, as entity information, parameters and synonyms are stored in association with each other. By registering synonyms together with parameters, for example, when instructing copy in monochrome, whether you say "Please copy by black and white" or "Please copy by monochrome", you can set the parameters. Can be possible.

図11は、発話フレーズに基づいて登録されるエンティティ情報を示す図である。図11(a)は、ユーザの発話フレーズの例、図11(b)は、アクション名、図11(c)は、エンティティ情報を示している。この図11(a)〜図11(c)に示すように、AIアシスタントサーバ装置4が備える表示部48に表示される画面上において、操作部49を操作することで、ユーザの発話をドラッグする。または、ネットワークを介してAIアシスタントサーバ装置4にアクセスした装置の表示部に表示される画面上において、この装置の操作部を操作することで、ユーザの発話をドラッグする。 FIG. 11 is a diagram showing entity information registered based on the utterance phrase. FIG. 11A shows an example of a user's utterance phrase, FIG. 11B shows an action name, and FIG. 11C shows entity information. As shown in FIGS. 11A to 11C, by operating the operation unit 49 on the screen displayed on the display unit 48 included in the AI assistant server device 4, the user's utterance is dragged. .. Alternatively, the user's utterance is dragged by operating the operation unit of this device on the screen displayed on the display unit of the device that has accessed the AI assistant server device 4 via the network.

これにより、関連付け対象となるエンティティ情報を選択できるようになっている。また、選択したエンティティ情報でバリュー(VALUE)を設定すると、応答で入るパラメータが変更される。例えば、「Please copy by black and white」と発話した場合、バリューを「$printColor」とすると、戻り値として「printColor=monochrome」が返る。これに対して、バリューを「$printColor.original」とすると、戻り値として「printColor=black and white」が返る。ここで、バリューを「$printColor.original」とすると、ユーザの発話内容がそのまま応答のパラメータとして返すことができる。 Thereby, the entity information to be associated can be selected. Further, when the value (VALUE) is set in the selected entity information, the parameter entered in the response is changed. For example, when uttering "Please copy by black and white" and the value is "$printColor", "printColor=monochrome" is returned as a return value. On the other hand, if the value is "$printColor.original", "printColor=black and white" is returned as the return value. Here, when the value is “$printColor.original”, the utterance content of the user can be directly returned as a response parameter.

(対話型動作)
次に、実施の形態の音声操作システムでは、ユーザからの入力内容に基づいて、システムが応答する対話型システムを実現している。実施の形態の音声操作システムでは、対話に必要な定型文を応答する以外に、MFP1の操作特有の応答として、「入力不足フィードバック」及び「入力確認フィードバック」の、2種類の応答を行うことで、対話型MFP操作システムを実現している。
(Interactive operation)
Next, the voice operation system according to the embodiment realizes an interactive system in which the system responds based on the input content from the user. In the voice operation system according to the embodiment, two types of responses, “input shortage feedback” and “input confirmation feedback”, are provided as the response peculiar to the operation of the MFP 1 in addition to the response of the fixed text necessary for the dialogue. , An interactive MFP operation system is realized.

「入力不足フィードバック」は、ジョブを実行するために必要な情報が揃っていない場合に出力される応答である。ユーザの入力結果を聞き取れなかった場合、又は、必須パラメータが不足している場合に出力される。つまり、必須パラメータ以外のパラメータについては、指示されていない場合であっても入力不足フィードバックを行う必要はない。また、パラメータ以外にも、コピー機能又はスキャン機能等のうち、利用する機能を確認する処理を含んでも良い。 “Input shortage feedback” is a response output when information necessary for executing a job is not available. This is output when the user's input result cannot be heard or when the required parameters are insufficient. That is, for parameters other than the essential parameters, it is not necessary to perform input shortage feedback even when not instructed. In addition to the parameters, a process of confirming a function to be used, such as a copy function or a scan function, may be included.

例えば、携帯端末装置2が通信接続中の外部装置の種類に応じて、ユーザに確認する機能、及びパラメータを変更しても良い。この場合、処理能力取得部56が外部装置との通信が確立した後の所定のタイミングで外部装置の種類や機能を示す情報を取得し、取得した情報に基づいてユーザに確認する機能及びパラメータを例えばフィードバック部55が決定してもよい。例えば、外部装置の種類がMFP1である場合には、コピー、プリント、スキャン、FAXなどのMPF1が有する機能をユーザに確認でき、更に、コピー、プリント、スキャン、FAXのうちMFP1が有している機能についてのみ、いずれの機能を使用するかをユーザに確認しても良い。 For example, the function and parameter to be confirmed by the user may be changed according to the type of the external device that the mobile terminal device 2 is connected to for communication. In this case, the processing capacity acquisition unit 56 acquires information indicating the type and function of the external device at a predetermined timing after the communication with the external device is established, and the function and parameter to be confirmed to the user based on the acquired information are set. For example, the feedback unit 55 may make the determination. For example, when the type of the external device is the MFP 1, the user can confirm the functions of the MPF 1 such as copy, print, scan, and FAX, and the MFP 1 of the copy, print, scan, and FAX has the function. For the function only, the user may be asked which function to use.

「入力確認フィードバック」は、ジョブを実行するために必要な情報が揃った場合に出力される応答である。つまり、入力確認フィードバックは、全ての必須パラメータについて指示された場合に行われる。また、入力確認フィードバックは、現在の設定値でジョブを実行するか、又は、設定値を変更するかの選択をユーザに促すために行う。なお、現在の設定値でジョブを実行するか否かを確認するために、ユーザにより指示された全てのパラメータ(必須パラメータか必須パラメータ以外のパラメータかに関わらず)を音声出力することで、ユーザに確認することができる。 The “input confirmation feedback” is a response output when the information necessary for executing the job is gathered. That is, the input confirmation feedback is performed when all the required parameters are instructed. The input confirmation feedback is provided to prompt the user to select whether to execute the job with the current setting value or change the setting value. In order to confirm whether to execute the job with the current set values, all parameters (regardless of whether they are mandatory parameters or non-essential parameters) instructed by the user are output by voice, Can be confirmed.

図12は、対話式の入力操作の流れを示す図である。このような各フィードバックを含めた、システムとユーザの対話型操作の例が図12である。この図12の例は、モノクロ画像を両面で2部のコピーを行い、上1ヶ所でステープルするようにMFP1を操作する例である。また、この例の場合、ステープル位置が必須パラメータとなっている。なお、必須パラメータはステープル位置に限定されず、モノクロ、カラー、又は、用紙サイズ等、複数のパラメータを含めても良い。 FIG. 12 is a diagram showing a flow of an interactive input operation. FIG. 12 shows an example of an interactive operation between the system and the user, including such feedbacks. The example of FIG. 12 is an example of operating the MFP 1 so that two copies of a monochrome image are copied on both sides and the upper one place is stapled. Also, in this example, the staple position is an essential parameter. Note that the essential parameter is not limited to the staple position, and may include a plurality of parameters such as monochrome, color, and paper size.

また、図13は図12に示す処理が実行された場合における画面表示の一例を示す図である。即ち、携帯端末装置2は、ユーザ発話した内容(認識結果)と、AIアシスタントサーバ装置4からフィードバックされた内容(操作情報)をタッチパネル27の画面上に表示する。なお、図13において携帯端末装置2のタッチパネル27の画面右側から吹き出し表示されるコメントは、ユーザが携帯端末装置2に対して発話した内容を示すコメントを示す。また、図13において携帯端末装置2のタッチパネル27の画面左側から吹き出し表示されるコメントは、AIアシスタントサーバ装置4からユーザに対してフィードバックされた内容を示すコメントである。つまり、携帯端末装置2は、AIアシスタントサーバ装置4からフィードバックを受けた場合、音声出力でユーザへフィードバックすると同時に、タッチパネル27の画面表示によってもフィードバックを行う。ただし、音声出力のフィードバックについては省略しても良い。 13 is a diagram showing an example of a screen display when the process shown in FIG. 12 is executed. That is, the mobile terminal device 2 displays the content uttered by the user (recognition result) and the content fed back from the AI assistant server device 4 (operation information) on the screen of the touch panel 27. Note that, in FIG. 13, the comment displayed in a balloon from the right side of the screen of the touch panel 27 of the mobile terminal device 2 indicates a comment indicating the content that the user uttered to the mobile terminal device 2. Further, in FIG. 13, the comment displayed in a balloon from the left side of the screen of the touch panel 27 of the mobile terminal device 2 is a comment indicating the content fed back from the AI assistant server device 4 to the user. That is, when the mobile terminal device 2 receives the feedback from the AI assistant server device 4, the mobile terminal device 2 provides the feedback to the user by voice output, and at the same time, performs the feedback by the screen display of the touch panel 27. However, the feedback of the audio output may be omitted.

なお、パラメータのうち、いずれのパラメータが必須パラメータであるかは、AIアシスタントサーバ装置4が有する記憶部に予め記憶しておくことがでる。また、ユーザが操作部49を操作によって、又はネットワークを介してAIアシスタントサーバ装置4に対してアクセスすることで、いずれのパラメータが必須パラメータであるかは適宜変更することができても良い。 Note that which of the parameters is an indispensable parameter can be stored in advance in the storage unit included in the AI assistant server device 4. Further, which parameter is an essential parameter may be appropriately changed by the user operating the operation unit 49 or accessing the AI assistant server device 4 via the network.

図12の例は、斜線で示す発話がユーザの発話であり、斜線の無い発話がシステムの発話、網掛けで示す会話が携帯端末装置2の画面またはシステムの発話(音声)である。まず、システムが、「コピーしますか?スキャンしますか?」との音声出力を行うと、ユーザは、「コピー」と発音してコピー機能の利用を指示する。システム側では、ユーザから指定された「コピー」の設定値の入力を求めるべく、「設定値を入力してください。」との音声出力を携帯端末装置2にて行う。 In the example of FIG. 12, the utterances indicated by the diagonal lines are the utterances of the user, the utterances without the hatched lines are the utterances of the system, and the conversations indicated by hatching are the utterances (voices) of the screen of the mobile terminal device 2 or the system. First, when the system outputs a voice message "Do you want to copy? Do you want to scan?", the user pronounces "copy" and gives an instruction to use the copy function. On the system side, in order to request the input of the setting value of "copy" designated by the user, the mobile terminal device 2 outputs a voice message "Please input the setting value."

これに対して、ユーザは、「両面、2部、ステープル」と発話したとする。この例の場合、上述のようにステープル位置が必須のパラメータとなっている。このため、システム側では、「ステープルの位置を指定してください」とのように、ステープル位置の入力を求める。これが「入力不足フィードバック」の例である。 On the other hand, it is assumed that the user utters "two-sided, two copies, staple". In the case of this example, the staple position is an essential parameter as described above. Therefore, the system side prompts the user to input the staple position, such as "Please specify the staple position". This is an example of "input shortage feedback".

図13に示すように、ステープル位置として設定可能な項目を示す1以上の画像(アイコン)を携帯端末装置2に表示させることで、ユーザに対して不足設定項目の入力を促すことができる。 As shown in FIG. 13, by displaying one or more images (icons) showing items that can be set as the staple position on the mobile terminal device 2, the user can be prompted to input the insufficient setting items.

なお、図13に示すように、コメントに加えて画像(アイコン)を表示しても良いし、コメントは省略して画像(アイコン)のみを表示しても良い。また、設定可能な全ての項目について画像(アイコン)を表示しても良いし、代表的な項目のみを画像(アイコン)で表示しても良い。 As shown in FIG. 13, an image (icon) may be displayed in addition to the comment, or the comment may be omitted and only the image (icon) may be displayed. Further, images (icons) may be displayed for all the settable items, or only representative items may be displayed as images (icons).

図13では、ステープル位置として設定可能な項目として、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」の4つの項目それぞれを示す画像(アイコン)を表示している。また、各画像には、それぞれの設定項目の呼称(「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」)がそれぞれテキスト表示されている。 In FIG. 13, as the items that can be set as the staple position, images (icons) indicating four items of “upper one place”, “oblique”, “two left places”, and “upper two places” are displayed. . In addition, the names of the setting items (“upper one place”, “diagonal”, “left two places”, “upper two places”) are displayed in text on each image.

なお、表示される呼称は、AIアシスタントサーバ装置4に予め登録されている辞書情報(図10に示すAIアシスタントサービス情報)に対応している。これにより、ユーザは画像(アイコン)と共に表示されているテキストを発話することによって、所望のステープル位置を指定することができる。 The displayed name corresponds to dictionary information (AI assistant service information shown in FIG. 10) registered in advance in the AI assistant server device 4. With this, the user can specify a desired staple position by speaking the text displayed together with the image (icon).

なお、以上では画像表示するジョブ条件としてステープル位置を例にして説明したが、これに限定されない。例えば、集約、製本、パンチ位置、ディザリング設定など、任意の印刷条件について画像表示することができる。また、コピーや印刷の条件に限らず、スキャン、FAXなど、他の機能に関する設定条件について画像表示することができる。 Although the staple position has been described as an example of the job condition for displaying an image in the above description, the present invention is not limited to this. For example, images can be displayed for arbitrary printing conditions such as aggregation, bookbinding, punch positions, dithering settings, and the like. Further, not only the conditions for copying and printing, but also the setting conditions for other functions such as scanning and FAX can be displayed as an image.

このような「入力不足フィードバック」に対して、ユーザは、「上1ヶ所で」等のように、ステープル位置を指定する。これにより、入力不足が解消するため、システム側は、「両面、2部でコピーします。上1ヶ所でステープルします。よろしいですか?」との応答を行い、コピー開始の指示を促す。これが、ジョブを実行するために必要な情報が揃った場合に出力される「入力確認フィードバック」である。 In response to such "input shortage feedback", the user specifies the staple position, such as "at the upper one place". This eliminates the input shortage, so the system side responds with "duplexing, copying in two copies. Staples in one place. Are you sure?", and prompts you to start copying. This is the "input confirmation feedback" that is output when the information necessary to execute the job is gathered.

そして、「両面、2部でコピーします。上1ヶ所でステープルします。よろしいですか?」との「入力確認フィードバック」に対して、ユーザが「はい」と応答すると、システム側は、「ジョブを実行します」との応答を行い、ユーザから指示されたジョブを実行する。 Then, when the user responds "Yes" to "Input confirmation feedback," "Copy on both sides, copy in two copies. Staple in one place. Are you sure?" Execute job" and execute the job instructed by the user.

(対話型動作の流れ)
図14及び図15は、このような対話型動作の流れを示すシーケンス図である。図14のシーケンス図は、対話型動作の前半の動作の流れを示しており、図15のシーケンス図は、対話型動作の後半の動作の流れを示している。
(Flow of interactive operation)
14 and 15 are sequence diagrams showing the flow of such an interactive operation. The sequence diagram of FIG. 14 shows the flow of the first half of the interactive operation, and the sequence diagram of FIG. 15 shows the flow of the second half of the interactive operation.

まず、ユーザにより携帯端末装置2の操作音声処理プログラムが起動操作されると(ステップS11)、フィードバック部55は、「コピーしますか?スキャンしますか?」との音声および画面表示でのフィードバックを行う(ステップS12)。 First, when the user activates the operation voice processing program of the mobile terminal device 2 (step S11), the feedback unit 55 provides feedback with a voice and a screen display such as "Do you want to copy or scan?" Is performed (step S12).

なお、携帯端末装置2は、「コピーしますか?スキャンしますか?」のコメントを、ステップS12の音声フィードバックと共にタッチパネル27の画面に表示する。つまり、携帯端末装置2は、携帯端末装置2のROM23などに予め記憶されたテキストデータを表示させる。 The mobile terminal device 2 displays the comment “Do you want to copy? Scan?” on the screen of the touch panel 27 together with the voice feedback in step S12. That is, the mobile terminal device 2 displays the text data stored in advance in the ROM 23 or the like of the mobile terminal device 2.

ユーザが、「コピー」と発音すると(ステップS13)、携帯端末装置2の通信制御部52は、音声認識サーバ装置3に対して、「コピー」との音声データを送信し、テキスト変換要求を行う(ステップS14)。音声認識サーバ装置3のテキスト変換部62は、「コピー」との音声データをテキストデータに変換処理し、携帯端末装置2に送信する(ステップS15)。 When the user pronounces "copy" (step S13), the communication control unit 52 of the mobile terminal device 2 transmits the voice data of "copy" to the voice recognition server device 3 to make a text conversion request. (Step S14). The text conversion unit 62 of the voice recognition server device 3 converts the voice data of "copy" into text data, and transmits the text data to the mobile terminal device 2 (step S15).

なお、携帯端末装置2は、「コピー」のコメントを、ステップS15で携帯端末装置2が音声認識サーバ装置3からテキストデータを受信したタイミングでタッチパネル27の画面に表示する。このとき、携帯端末装置2は、「コピー」を音声でフィードバックしても良いし、省略しても良い。 The mobile terminal device 2 displays the comment of “copy” on the screen of the touch panel 27 at the timing when the mobile terminal device 2 receives the text data from the voice recognition server device 3 in step S15. At this time, the mobile terminal device 2 may feed back "copy" by voice or may omit it.

携帯端末装置2の取得部51は、このテキストデータを取得する。また、携帯端末装置2の通信制御部52は、取得したテキストデータをAIアシスタントサーバ装置4に送信する(ステップS16)。AIアシスタントサーバ装置4の解釈部72は、図10及び図11を用いて説明したように、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する。この例の場合、ユーザは、「コピー」としか発音していないため、コピー部数等が不明となる(入力不足)。 The acquisition unit 51 of the mobile terminal device 2 acquires this text data. In addition, the communication control unit 52 of the mobile terminal device 2 transmits the acquired text data to the AI assistant server device 4 (step S16). As described with reference to FIGS. 10 and 11, the interpretation unit 72 of the AI assistant server device 4 interprets the action and the parameter based on the utterance phrase of the user indicated by the received text data. In the case of this example, since the user pronounces only "copy", the number of copies and the like becomes unknown (insufficient input).

このため、解釈部72は、「Copy_Parameter_Setting」としたアクションに、「設定値を入力してください」とのレスポンス(Response)を付加した解釈結果を形成する(ステップS17)。AIアシスタントサーバ装置4の通信制御部73、この解釈結果を携帯端末装置2に送信する(ステップS18)。携帯端末装置2のフィードバック部55は、スピーカ部28を介して「設定値を入力してください」との音声出力を行うと共に、タッチパネル27に対して「設定値を入力してください」とのテキスト表示を行う(ステップS19:入力不足フィードバック)。 Therefore, the interpretation unit 72 forms an interpretation result by adding a response (Response) of “please input the setting value” to the action of “Copy_Parameter_Setting” (step S17). The communication control unit 73 of the AI assistant server device 4 transmits the interpretation result to the mobile terminal device 2 (step S18). The feedback unit 55 of the mobile terminal device 2 outputs the voice "Please input the setting value" through the speaker unit 28 and the text "Please input the setting value" on the touch panel 27. Display is performed (step S19: input shortage feedback).

次に、入力不足フィードバックがあったため、ユーザは、例えば「両面、2部、ステープル」と発話する(ステップS20)。携帯端末装置2の通信制御部52は、音声認識サーバ装置3に対して、「両面、2部、ステープル」との音声データを送信し、テキスト変換要求を行う(ステップS21)。音声認識サーバ装置3のテキスト変換部62は、「両面、2部、ステープル」との音声データをテキストデータに変換処理し、携帯端末装置2に送信する(ステップS22)。 Next, since there is insufficient input feedback, the user speaks, for example, "double-sided, 2-copy, staple" (step S20). The communication control unit 52 of the mobile terminal device 2 transmits the voice data of “two-sided, two sets, staple” to the voice recognition server device 3 and makes a text conversion request (step S21). The text conversion unit 62 of the voice recognition server device 3 converts the voice data of “double-sided, double copy, staple” into text data and transmits the text data to the mobile terminal device 2 (step S22).

携帯端末装置2の取得部51は、このテキストデータを取得する。また、携帯端末装置2の通信制御部52は、取得したテキストデータをAIアシスタントサーバ装置4に送信する(ステップS23)。AIアシスタントサーバ装置4の解釈部72は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する。この例の場合、ユーザは、「コピー」及び「両面、2部、ステープル」としか発音していないため、ステープル位置等が不明となる(必須パラメータ不足)。 The acquisition unit 51 of the mobile terminal device 2 acquires this text data. Further, the communication control unit 52 of the mobile terminal device 2 transmits the acquired text data to the AI assistant server device 4 (step S23). The interpretation unit 72 of the AI assistant server device 4 interprets the action and the parameter based on the utterance phrase of the user indicated by the received text data. In the case of this example, since the user pronounces only “copy” and “double-sided, two copies, staple”, the staple position and the like are unknown (insufficient parameters are insufficient).

複数のパラメータのうち、いずれのパラメータが必須パラメータであるかは、AIアシストサーバ装置4の記憶部に予め記憶しておくことができる。この場合、解釈部72は、記憶部に記憶された必須パラメータの情報に基づいて、携帯端末装置2から取得したパラメータが全ての必須パラメータの設定を行っているか否かを判断し、必須パラメータについて設定が行われていない場合は、必須パラメータの設定を行うように、携帯端末装置2を介してユーザへ促すことができる。 Which of the plurality of parameters is an essential parameter can be stored in advance in the storage unit of the AI assist server device 4. In this case, the interpretation unit 72 determines whether or not the parameters acquired from the mobile terminal device 2 set all the essential parameters based on the information of the essential parameters stored in the storage unit. If the setting has not been made, the user can be prompted via the mobile terminal device 2 to set the essential parameters.

このため、AIアシスタントサーバ装置4の解釈部72は、「Copy_Parameter_Setting」としたアクションと、「印刷面=両面、部数=2部」」とのパラメータに、「ステープルの位置を指定してください」とのレスポンス(Response)を付加した解釈結果を形成する(ステップS24−1)。 Therefore, the interpreting unit 72 of the AI assistant server device 4 says "Please specify the staple position" in the parameter "Copy_Parameter_Setting" and the parameters "printing surface=duplex, number of copies=2". The interpretation result is formed by adding the response (Response) (step S24-1).

併せて、AIアシスタントサーバ装置4の解釈部72は、不足設定項目として選択可能な全設定(例えば、不足設定項目がステープル位置の場合、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」など)をAIアシスタントサーバ4内で特定する(ステップS24−2)。 At the same time, the interpretation unit 72 of the AI assistant server device 4 sets all the settings that can be selected as the insufficient setting items (for example, when the insufficient setting item is the staple position, “upper one place”, “oblique”, “two left places”). , "Upper two places", etc. are specified in the AI assistant server 4 (step S24-2).

ここで、選択可能な設定としては、例えばAIアシスタントサーバ装置4に予め登録されている辞書情報(図10に示すAIアシスタントサービス情報)に基づいて決定することができる。これにより、AIアシスタントサーバ装置4で解釈可能な設定項目のみを特定することができる。 Here, the selectable settings can be determined based on, for example, dictionary information (AI assistant service information shown in FIG. 10) registered in advance in the AI assistant server device 4. As a result, only the setting items that can be interpreted by the AI assistant server device 4 can be specified.

次に、AIアシスタントサーバ装置4の解釈部72は、特定した設定に対応するイメージ画像を(AIアシスタントサーバ装置4内のHDD44などの記憶部から又はAIアシスタントサーバ装置4と通信可能な外部サーバから)検索する(ステップS24−3)。例えば、不足設定項目がステープル位置であった場合、ステープル位置をキーワードとして検索を行う。 Next, the interpretation unit 72 of the AI assistant server device 4 displays an image image corresponding to the specified setting (from a storage unit such as the HDD 44 in the AI assistant server device 4 or from an external server that can communicate with the AI assistant server device 4). ) Search (step S24-3). For example, when the shortage setting item is the staple position, the staple position is used as a keyword for the search.

ここで、ステープル位置として設定可能な項目は、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」の4つがある。この場合、4つの設定項目それぞれに対応するイメージ画像を検索することができる。なお、ステープル位置として上記の4つの設定項目をまとめた一つの画像を検索するものとしても良い。 Here, there are four items that can be set as the staple position: "upper one place", "oblique", "left two places", and "upper two places". In this case, the image image corresponding to each of the four setting items can be searched. It should be noted that one image in which the above four setting items are collected may be searched for as the staple position.

次に、AIアシスタントサーバ装置4の通信制御部73は、検索したイメージ画像を含む解釈結果を携帯端末装置2に送信する(ステップS25)。携帯端末装置2のフィードバック部55は、スピーカ部28を介して「ステープルの位置を指定してください」との音声出力を行うと共に、タッチパネル27に対して「ステープルの位置を指定してください」とのテキスト表示を行う(入力不足フィードバック)(ステップS26)。また、携帯端末装置2のフィードバック部55は、受信した画像を後述するように携帯端末装置2のタッチパネル27の画面上に表示させる。 Next, the communication control unit 73 of the AI assistant server device 4 transmits the interpretation result including the searched image image to the mobile terminal device 2 (step S25). The feedback unit 55 of the mobile terminal device 2 outputs a voice "Please specify the position of the staple" through the speaker unit 28, and at the same time, "Please specify the position of the staple" on the touch panel 27. Is displayed (feedback for insufficient input) (step S26). Further, the feedback unit 55 of the mobile terminal device 2 displays the received image on the screen of the touch panel 27 of the mobile terminal device 2 as described later.

携帯端末装置2は、図13に示すように、イメージ画像(アイコン)を携帯端末装置2のタッチパネル27の画面に表示することで、ユーザに不足設定項目の入力を促すことができる。ここで、不足設定項目の入力方法は、音声で指示を行うことができるが、携帯端末装置2のタッチパネル27の画面のタッチで指示を行っても良い。この場合、携帯端末装置2は、イメージ画像(アイコン)を携帯端末装置2のタッチパネル27上に選択可能に表示して、画面タッチで選択を受け付けた画像(アイコン)に対応する設定情報をAIアシスタントサーバ装置4又はMFP1へ送信する構成であっても良い。 As shown in FIG. 13, the mobile terminal device 2 can prompt the user to input the insufficient setting item by displaying an image (icon) on the screen of the touch panel 27 of the mobile terminal device 2. Here, the input method of the insufficient setting items can be instructed by voice, but may be instructed by touching the screen of the touch panel 27 of the mobile terminal device 2. In this case, the mobile terminal device 2 displays an image image (icon) on the touch panel 27 of the mobile terminal device 2 in a selectable manner, and the AI assistant receives the setting information corresponding to the image (icon) selected by touching the screen. It may be configured to transmit to the server device 4 or the MFP 1.

携帯端末装置2は、複数のイメージ画像(アイコン)それぞれを選択可能なようにタッチパネル27の画面上に表示する。例えば、不足設定項目がステープル位置の場合、携帯端末装置2は、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」、それぞれの設定項目を示す、合計4つのイメージ画像をそれぞれが独立して選択可能に表示させる。 The mobile terminal device 2 displays a plurality of image images (icons) on the screen of the touch panel 27 so that they can be selected. For example, when the shortage setting item is the stapling position, the mobile terminal device 2 has four images in total, which show the setting items of “upper one place”, “oblique”, “two left places”, and “upper two places”. Each of the images is independently selectable.

タッチパネル27の画面上に表示されたイメージ画像(アイコン)のいずれかが選択された場合、携帯端末装置2は、選択されたイメージ画像(アイコン)に対応する設定値(又はどのイメージ画像が選択されたかを特定する情報)を、AIアシスタントサーバ装置4へ送信する(テキスト化は不要なため音声認識サーバ装置3は介さない)。 When any one of the image images (icons) displayed on the screen of the touch panel 27 is selected, the mobile terminal device 2 selects the set value (or which image image is selected) corresponding to the selected image image (icon). Information for identifying whether or not the voice recognition server device 3 is transmitted to the AI assistant server device 4 (text conversion is not required, so that the voice recognition server device 3 is not used).

つまり、携帯端末装置2は、ユーザから音声入力が行われた場合には入力情報(音声データ)を音声認識サーバ装置3へ送信し、画面操作入力が行われた場合には入力情報(選択された設定項目を示す情報)をAIアシスタントサーバ装置4へ送信するように判断する。 That is, the mobile terminal device 2 transmits the input information (voice data) to the voice recognition server device 3 when a voice input is performed by the user, and the input information (selected when the screen operation input is performed. Information indicating the set item) is transmitted to the AI assistant server device 4.

図13に示すような画面に対して、ユーザは、「上1ヶ所で」との発話、または「上1ヶ所」のタッチパネル27の画面タッチによる指定によって、ステープル位置を指定する(ステップS27)。画面タッチによる指定の場合、携帯端末装置2の通信制御部52は、「上1ヶ所」のテキストデータをAIアシスタントサーバ装置4に送信する(ステップS28)。AIアシスタントサーバ装置4の解釈部72は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する(ステップS29)。この例の場合、ユーザが「上1ヶ所」のタッチパネル27の画面タッチすることで、コピーのジョブに対する必須パラメータ不足が解消する。このため、解釈部72は、「Copy_Confirm」としたアクションに、「印刷面=両面」、「部数=2部」及び「ステープル位置=上1ヶ所」とのパラメータを付加した解釈結果を形成する。AIアシスタントサーバ装置4の通信制御部73、この解釈結果を携帯端末装置2に送信する(ステップS30)。 On the screen as shown in FIG. 13, the user specifies the staple position by uttering “at one place on top” or by touching the screen on the touch panel 27 at “one place on top” (step S27). In the case of designation by touching the screen, the communication control unit 52 of the mobile terminal device 2 transmits the text data “upper one place” to the AI assistant server device 4 (step S28). The interpretation unit 72 of the AI assistant server device 4 interprets the action and the parameter based on the utterance phrase of the user indicated by the received text data (step S29). In the case of this example, the user touches the screen of the touch panel 27 at "one place", and the lack of essential parameters for the copy job is resolved. Therefore, the interpretation unit 72 forms an interpretation result by adding parameters such as “print surface=double-sided”, “number of copies=2 copies”, and “stapling position=1 upper position” to the action “Copy_Confirm”. The communication control unit 73 of the AI assistant server device 4 transmits the interpretation result to the mobile terminal device 2 (step S30).

携帯端末装置2のフィードバック部55は、必須パラメータ不足が解消し、コピーを開始する準備が整ったため、例えば「両面、2部でコピーします。上1ヶ所でステープルします。よろしいですか?」とのフィードバックのテキストを、解釈結果に含まれるResponseに基づいて生成する(ステップS31)。ここで、テキストの生成は、携帯端末装置2の記憶部に記憶されたテキストデータの中から全て、又は一部を読み出し、組み合わせることで生成してもよい。 The feedback unit 55 of the mobile terminal device 2 has solved the shortage of essential parameters and is ready to start copying. For example, "duplexing, copying in two copies. Staple in one place. Are you sure?" The text of the feedback is generated based on the Response included in the interpretation result (step S31). Here, the text may be generated by reading all or part of the text data stored in the storage unit of the mobile terminal device 2 and combining them.

なお、フィードバック部55は、ステップS31に限らず、AIアシスタントサーバ装置4から解釈結果を取得した場合であれば、他のステップでも同様にフィードバックのテキストを生成しても良いが、フィードバックするテキスト情報が解釈結果のレスポンスに含まれている場合は、フィードバックのテキストを生成する必要はない。 It should be noted that the feedback unit 55 may generate the feedback text in other steps as well as in the case where the interpretation result is acquired from the AI assistant server device 4, not limited to step S31. If is included in the interpreted response, it is not necessary to generate feedback text.

次に、上述の入力確認フィードバックを行う(ステップS32)。この入力確認フィードバックに対して、ユーザは、設定値の変更又はコピーの開始を指示する音声入力を行う。 Next, the above-mentioned input confirmation feedback is performed (step S32). In response to the input confirmation feedback, the user inputs a voice to instruct to change the setting value or start copying.

複数のパラメータのうち、いずれのパラメータが必須パラメータであるかは、AIアシストサーバ装置4の記憶部に予め記憶しておくことができる。この場合、解釈部72は、記憶部に記憶された必須パラメータの情報に基づいて、携帯端末装置2から取得したパラメータが全ての必須パラメータの設定を行っているか否かを判断し、必須パラメータについて設定が行われていない場合は、必須パラメータの設定を行うように、携帯端末装置2を介してユーザへ促すことができる。 Which of the plurality of parameters is an essential parameter can be stored in advance in the storage unit of the AI assist server device 4. In this case, the interpretation unit 72 determines whether or not the parameters acquired from the mobile terminal device 2 set all the essential parameters based on the information of the essential parameters stored in the storage unit. If the setting has not been made, the user can be prompted via the mobile terminal device 2 to set the essential parameters.

このように、操作音声処理プログラムは、予め携帯端末装置2で記憶されたテキストデータ、音声認識サーバ装置3から受信したテキストデータ、AIアシスタントサーバ装置4から受信したResponseに基づいて、コメントを携帯端末装置2のタッチパネル27の画面に表示させる。 As described above, the operation voice processing program makes a comment based on the text data previously stored in the mobile terminal device 2, the text data received from the voice recognition server device 3, and the Response received from the AI assistant server device 4. It is displayed on the screen of the touch panel 27 of the device 2.

図15のシーケンス図のステップS35〜ステップS42が、設定値の変更を音声指示した場合の動作の流れを示すシーケンス図である。この図15において、ユーザが設定値を変更する発話を行うと(ステップS35)、音声認識サーバ装置3のテキスト変換部62が、変更された設定値のテキストデータに生成し、携帯端末装置2を介してAIアシスタントサーバ装置4に送信する(ステップS36〜ステップS38)。AIアシスタントサーバ装置4は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、変更された設定値を示す解釈結果を生成し(ステップS39)、携帯端末装置2に送信する(ステップS40)。 Steps S35 to S42 of the sequence diagram of FIG. 15 are sequence diagrams showing the flow of operations when a voice instruction is given to change the set value. In FIG. 15, when the user speaks to change the set value (step S35), the text conversion unit 62 of the voice recognition server device 3 generates the text data of the changed set value, and the mobile terminal device 2 operates. It transmits to the AI assistant server apparatus 4 via (step S36-step S38). The AI assistant server device 4 generates an interpretation result indicating the changed setting value based on the utterance phrase of the user indicated by the received text data (step S39) and transmits it to the mobile terminal device 2 (step S40). .

携帯端末装置2のフィードバック部55は、解釈結果に含まれるResponseに基づいてフィードバックのテキストを生成し(ステップS41)、例えば「モノクロ、2部、両面でコピーします。よろしいですか?」等の、上述の入力確認フィードバックを行うことで、変更された設定値でコピーを開始してよいか否かの確認を行う(ステップS42)。 The feedback unit 55 of the mobile terminal device 2 generates a feedback text based on the Response included in the interpretation result (step S41), for example, "black and white, copy two-sided, both sides. Are you sure?" By performing the above-described input confirmation feedback, it is confirmed whether or not copying may be started with the changed set value (step S42).

図15のシーケンス図のステップS43〜ステップS50が、コピーの開始を指示した際の各部の動作の流れである。すなわち、上述の入力確認フィードバックにより、ユーザが「はい」と応答すると(ステップS43)、テキスト化され、携帯端末装置2を介してAIアシスタントサーバ装置4に送信される(ステップS44〜ステップS46)。AIアシスタントサーバ装置4は、受信したテキストデータに基づいてコピー開始指示を認識すると、「Copy_Execute」としたアクションに、「印刷面=両面」及び「部数=1部」とのパラメータを付加した解釈結果を形成し、これを携帯端末装置2に送信する(ステップS47〜ステップS48)。 Steps S43 to S50 in the sequence diagram of FIG. 15 are the flow of the operation of each unit when the start of copying is instructed. That is, when the user responds "yes" by the input confirmation feedback described above (step S43), it is converted into text and transmitted to the AI assistant server device 4 via the mobile terminal device 2 (steps S44 to S46). When the AI assistant server device 4 recognizes the copy start instruction based on the received text data, the interpretation result of adding the parameters of “printing surface=duplex” and “copies=1 copy” to the action “Copy_Execute” Is formed and transmitted to the mobile terminal device 2 (steps S47 to S48).

携帯端末装置2の解釈結果変換部53は、解釈結果をMFP1のジョブ命令に変換処理し(ステップS49)、MFP1に送信する(ステップS50)。これにより、音声入力操作により、MFP1をコピー制御することができる。 The interpretation result conversion unit 53 of the mobile terminal device 2 converts the interpretation result into a job command of the MFP 1 (step S49), and transmits the job command to the MFP 1 (step S50). Thus, the MFP 1 can be copy-controlled by the voice input operation.

なお、携帯端末装置2がMFP1へジョブ命令を送信した後、MFP1において連結コピーモードONで、且つ、ステープルモードONの場合に、親機である携帯端末装置2は子機であるMFP1に対して、フィニッシャなどの周辺機器の接続状況を要求する。MFP1に周辺機器が接続されていない場合は、携帯端末装置2のタッチパネル27に連結コピーができない旨の表示を行う。 After the mobile terminal device 2 sends a job command to the MFP 1, when the linked copy mode is ON in the MFP 1 and the staple mode is ON, the mobile terminal device 2 as the parent device sends to the MFP 1 as the child device. , Request the connection status of peripheral devices such as finishers. When the peripheral device is not connected to the MFP 1, the touch panel 27 of the mobile terminal device 2 displays a message indicating that linked copy cannot be performed.

(AIアシスタントサーバ装置4からフィードバックされる情報の例)
以下の表2に、AIアシスタントサーバ装置4から携帯端末装置2にフィードバックされる解釈結果の一例を示す。
(Example of information fed back from the AI assistant server device 4)
Table 2 below shows an example of the interpretation result fed back from the AI assistant server device 4 to the mobile terminal device 2.

Figure 2020087381
Figure 2020087381

この表2に示すように、例えばジョブの設定値の入力促すための「Copy_Parameter_Setting」、ジョブの設定値の確認を促すための「Copy_Confirm」、ジョブの実行開始を伝えるための「Copy_Execute」等のアクションが、解釈結果に含められて携帯端末装置2にフィードバックされる。 As shown in Table 2, actions such as “Copy_Parameter_Setting” for prompting the input of the setting value of the job, “Copy_Confirm” for prompting the confirmation of the setting value of the job, “Copy_Execute” for notifying the start of the execution of the job Is included in the interpretation result and fed back to the mobile terminal device 2.

フィードバック部55は、解釈結果に含まれるアクション、パラメータ、レスポンスに応じて、ユーザに対するフィードバックを判断することができる。フィードバック部55は、フィードバックする内容を決定するために、表2に相当する情報を携帯端末装置2の記憶部に記憶し、参照できる構成としても良い。なお、表2では、コピーの場合を例に説明したが、プリント、スキャン、FAXも表2と同様にアクションとして、ジョブの設定値の入力促すための「Parameter_Setting」、ジョブの設定値の確認を促すための「Confirm」が用いられても良い。 The feedback unit 55 can determine feedback to the user according to the action, parameter, and response included in the interpretation result. The feedback unit 55 may store the information corresponding to Table 2 in the storage unit of the mobile terminal device 2 so as to be referred to in order to determine the content to be fed back. In Table 2, the case of copying has been described as an example, but as with Table 2, print, scan, and FAX are also actions such as “Parameter_Setting” for prompting the input of the setting value of the job and confirmation of the setting value of the job. “Confirm” for prompting may be used.

また、例えば両面又は片面等の印刷面の設定値、又は、コピー部数等のパラメータが、解釈結果に含められて携帯端末装置2にフィードバックされる。さらに、必須パラメータが不足している場合、不足するパラメータの入力を促すメッセージが、レスポンスとして解釈結果に含められて携帯端末装置2にフィードバックされる。 Further, for example, the setting value of the printing surface such as double-sided or single-sided or the parameter such as the number of copies is included in the interpretation result and fed back to the mobile terminal device 2. Further, when the required parameters are insufficient, a message prompting the user to input the insufficient parameters is included in the interpretation result as a response and fed back to the mobile terminal device 2.

このように本実施の形態によれば、例えば「呼び方」が難しく、口頭での指示に不向きな設定についての選択肢を報知することにより、「ステープルの位置設定」などの呼び方が難しい設定指示を容易にすることができる。また、ユーザは、経験的に設定の「呼び方」を覚えることができ、ユーザは、次からその「呼び方」を指示できるようになる。 As described above, according to the present embodiment, for example, “calling” is difficult, and by giving an option about settings that are not suitable for verbal instructions, setting instructions such as “staple position setting” that is difficult to call Can be facilitated. Further, the user can empirically learn the “calling” of the setting, and the user can instruct the “calling” from the next time.

なお、本実施の形態では、AIアシスタントサーバ装置4が、特定した設定に対応するイメージ画像を検索するようにしたが、これに限るものではない。他の形態としては、特定した設定に対応するイメージ画像を携帯端末装置2が検索するものであってもよい。 In this embodiment, the AI assistant server device 4 searches for the image image corresponding to the specified setting, but the present invention is not limited to this. As another form, the mobile terminal device 2 may search for an image image corresponding to the specified setting.

この場合、AIアシスタントサーバ装置4は、不足設定項目を携帯端末装置2に対して問い合わせをする。つまり、図14ステップS25において、AIアシスタントサーバ装置4の通信制御部73は、イメージ画像を含まない解釈結果を携帯端末装置2に送信する。この場合、Action:Copy_Parameter_Setting(Parameter::印刷面=両面、部数=2部、後処理=ステープル。Response:ステープルの位置を選択してください)との解釈結果を送信する。このとき、イメージ画像の表示を携帯端末装置2に要求する指示を含めた解釈結果を送信しても良いし、所定のResponseを受信した場合に(例えば、「ステープルの位置を選択してください」のテキストデータを受信したことに応答して)、携帯端末装置2がイメージ画像の表示をすることを判断しても良い。 In this case, the AI assistant server device 4 inquires of the mobile terminal device 2 about the insufficient setting item. That is, in step S25 of FIG. 14, the communication control unit 73 of the AI assistant server device 4 transmits the interpretation result that does not include the image image to the mobile terminal device 2. In this case, the interpretation result of Action:Copy_Parameter_Setting (Parameter::printing side=both sides, number of copies=2 copies, post-processing=stapling, Response: select staple position) is transmitted. At this time, an interpretation result including an instruction for requesting the display of the image image to the mobile terminal device 2 may be transmitted, or when a predetermined Response is received (for example, “select staple position”). The mobile terminal device 2 may determine to display the image image (in response to the reception of the text data).

携帯端末装置2は、AIアシスタントサーバ装置4から問い合わせを受けた場合、携帯端末装置2は、不足設定項目として選択可能な全設定(「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」)を携帯端末装置2内から特定して、特定した設定に対応するイメージ画像を(携帯端末装置2のROM23などの記憶部又は携帯端末装置2がアクセス可能な外部サーバ又はMFP1から)検索して、検索したイメージ画像を表示する。 When the mobile terminal device 2 receives an inquiry from the AI assistant server device 4, the mobile terminal device 2 selects all settings (“upper one place”, “diagonal”, “two left places”) that can be selected as insufficient setting items. “Upper two places” are specified from within the mobile terminal device 2, and an image image corresponding to the specified setting is stored (a storage unit such as the ROM 23 of the mobile terminal device 2 or an external server or the MFP 1 accessible by the mobile terminal device 2). Search) and display the searched image.

なお、上述の実施の形態の説明では、音声認識サーバ装置3でユーザの発話に対応するテキストデータを生成し、AIアシスタントサーバ装置4でテキストデータに基づいて、ユーザの意図している操作を解釈した。しかし、携帯端末装置2側に、このような音声認識機能及び解釈機能を設け、携帯端末装置2で、ユーザの発話から意図する操作を解釈してもよい。これにより、音声認識サーバ装置3及びAIアシスタントサーバ装置4を不要とすることができ、システム構成を簡素化できる。 In the description of the above embodiment, the voice recognition server device 3 generates text data corresponding to the user's utterance, and the AI assistant server device 4 interprets the operation intended by the user based on the text data. did. However, the mobile terminal device 2 may be provided with such a voice recognition function and an interpretation function, and the mobile terminal device 2 may interpret the intended operation from the user's utterance. As a result, the voice recognition server device 3 and the AI assistant server device 4 can be eliminated, and the system configuration can be simplified.

(第2の実施の形態)
次に、第2の実施の形態について説明する。
(Second embodiment)
Next, a second embodiment will be described.

第2の実施の形態は、携帯端末装置2に代えてスマートスピーカーを適用する点が、第1の実施の形態と異なる。以下、第2の実施の形態の説明では、第1の実施の形態と同一部分の説明については省略し、第1の実施の形態と異なる箇所について説明する。 The second embodiment is different from the first embodiment in that a smart speaker is applied instead of the mobile terminal device 2. In the following description of the second embodiment, the description of the same parts as those of the first embodiment will be omitted, and only the parts different from those of the first embodiment will be described.

図16は、第2の実施の形態の音声操作システムのシステム構成図である。この図16に示すように、第2の実施の形態の音声操作システムは、図1で説明した携帯端末装置2に代えてスマートスピーカー50(情報処理装置の一例)を適用したものである。スマートスピーカーとは、AIスピーカーとも呼ばれ、対話型の音声操作に対応したAIアシスタント機能を持つスピーカーである。 FIG. 16 is a system configuration diagram of the voice operation system according to the second embodiment. As shown in FIG. 16, the voice operation system according to the second embodiment employs a smart speaker 50 (an example of an information processing device) instead of the mobile terminal device 2 described in FIG. The smart speaker is also called an AI speaker and has an AI assistant function that supports interactive voice operations.

音声操作システムは、外部装置の一例であるMFP1、スマートスピーカー50(情報処理装置の一例)、クラウドサービス装置60を、例えばLAN(Local Area Network)等の所定のネットワーク5を介して相互に接続することで形成されている。ただし、外部装置は複合機には限定されず、電子黒板やプロジェクタなどのオフィス機器を含む、種々の電子機器であっても良い。 The voice operation system connects the MFP 1, which is an example of an external device, the smart speaker 50 (an example of an information processing device), and the cloud service device 60 to each other via a predetermined network 5 such as a LAN (Local Area Network). It is formed by that. However, the external device is not limited to the multifunction peripheral, and may be various electronic devices including office devices such as an electronic blackboard and a projector.

スマートスピーカー50は、MFP1を音声操作するための、ユーザからの音声入力を受け付ける。スマートスピーカー50は、MFP1に近接して設置される。また、スマートスピーカー50とMFP1とは、1対1で対応する。したがって、スマートスピーカー50は、基本的に、MFP1の前で操作しているユーザを対象として機能提供を行う。ただし、これに限定されず、スマートスピーカー50は複数のMFP1及び他の電子機器と対応しても良い。 The smart speaker 50 receives a voice input from the user for voice-operating the MFP 1. The smart speaker 50 is installed near the MFP 1. Further, the smart speaker 50 and the MFP 1 have a one-to-one correspondence. Therefore, the smart speaker 50 basically provides the function to the user operating in front of the MFP 1. However, the present invention is not limited to this, and the smart speaker 50 may correspond to the plurality of MFPs 1 and other electronic devices.

クラウドサービス装置60は、物理的に一つのサーバ装置としてもよいし、複数のサーバ装置で実現してもよい。クラウドサービス装置60は、音声データをテキストデータに変換し、更にユーザの意図を解釈するための操作音声変換プログラムがインストールされている制御装置である。また、クラウドサービス装置60は、MFP1を管理するための管理プログラムがインストールされている制御装置である。したがって、クラウドサービス装置60は、第1の実施の形態の音声認識サーバ装置3やAIアシスタントサーバ装置4と同様の機能を発揮する。 The cloud service device 60 may be physically one server device or may be realized by a plurality of server devices. The cloud service device 60 is a control device in which an operation voice conversion program for converting voice data into text data and further interpreting a user's intention is installed. The cloud service device 60 is a control device in which a management program for managing the MFP 1 is installed. Therefore, the cloud service device 60 exhibits the same functions as the voice recognition server device 3 and the AI assistant server device 4 of the first embodiment.

操作音声変換プログラムは、MFP1に対する操作用の音声辞書と操作を作成/登録する。管理プログラムは、スマートスピーカー50やMFP1のアカウント/デバイスを紐付け、システム全体を管理する。 The operation voice conversion program creates/registers an operation voice dictionary and an operation for the MFP 1. The management program manages the entire system by associating the accounts/devices of the smart speaker 50 and the MFP 1.

(スマートスピーカー50のハードウェア構成)
図17は、音声操作システムに設けられているスマートスピーカー50のハードウェア構成図である。図17に示すように、スマートスピーカー50は、図3で説明した携帯端末装置2と同様に、CPU21、RAM22、ROM23、インタフェース部(I/F部)24及び通信部25を、バスライン26を介して相互に接続して形成されている。
(Hardware configuration of smart speaker 50)
FIG. 17 is a hardware configuration diagram of the smart speaker 50 provided in the voice operation system. As shown in FIG. 17, the smart speaker 50 includes a CPU 21, a RAM 22, a ROM 23, an interface unit (I/F unit) 24, a communication unit 25, and a bus line 26, as in the mobile terminal device 2 described in FIG. It is formed by being connected to each other through.

ROM23には、操作音声処理プログラムが記憶されている。CPU21は、この操作音声処理プログラムを実行することで、MFP1の音声入力操作を可能とする。 An operation voice processing program is stored in the ROM 23. The CPU 21 enables the voice input operation of the MFP 1 by executing this operation voice processing program.

I/F部24には、タッチパネル27、スピーカ部28及びマイクロホン部29が接続されている。マイクロホン部29は、通話音声の他、MFP1に対するジョブの実行命令の入力音声を集音(取得)する。入力音声は、通信部25を介してクラウドサービス装置60に送信され、テキストデータに変換される。 A touch panel 27, a speaker unit 28, and a microphone unit 29 are connected to the I/F unit 24. The microphone unit 29 collects (acquires) the input voice of the job execution command for the MFP 1 in addition to the call voice. The input voice is transmitted to the cloud service device 60 via the communication unit 25 and converted into text data.

(クラウドサービス装置60のハードウェア構成)
図18は、音声操作システムに設けられているクラウドサービス装置60のハードウェア構成図である。なお、図18においては、クラウドサービス装置60は、物理的に一つのサーバ装置で構成されているものとする。図18に示すように、クラウドサービス装置60は、図4で説明した音声認識サーバ装置3と同様に、CPU31、RAM32、ROM33、HDD(Hard Disk Drive)34、インタフェース部(I/F部)35及び通信部36を、バスライン37を介して相互に接続して形成されている。I/F部35には、表示部38及び操作部39が接続されている。HDD34には、MFP1に対する操作用の音声辞書と操作を作成/登録するための操作音声変換プログラムが記憶されている。また、HDD34には、スマートスピーカー50やMFP1のアカウント/デバイスを紐付け、システム全体を管理する管理プログラムが記憶されている。CPU31は、操作音声変換プログラムや管理プログラムを実行することで、スマートスピーカー50から送信された音声データに基づいて、MFP1を操作可能とする。
(Hardware configuration of cloud service device 60)
FIG. 18 is a hardware configuration diagram of the cloud service device 60 provided in the voice operation system. Note that, in FIG. 18, the cloud service device 60 is assumed to be physically configured by one server device. As shown in FIG. 18, the cloud service device 60, like the voice recognition server device 3 described in FIG. 4, includes a CPU 31, a RAM 32, a ROM 33, an HDD (Hard Disk Drive) 34, and an interface unit (I/F unit) 35. The communication unit 36 and the communication unit 36 are connected to each other via a bus line 37. A display unit 38 and an operation unit 39 are connected to the I/F unit 35. The HDD 34 stores a voice dictionary for operating the MFP 1 and an operation voice conversion program for creating/registering an operation. Further, the HDD 34 stores a management program for managing the entire system by associating the accounts/devices of the smart speaker 50 and the MFP 1. By executing the operation voice conversion program and the management program, the CPU 31 enables the MFP 1 to be operated based on the voice data transmitted from the smart speaker 50.

(全体の機能構成)
図19は、全体の機能の概要説明図である。図19には、クラウドサービスを提供する主な機能を示している。主な機能の詳細や、図19に示したスマートスピーカー50についての機能の説明については、図20〜図21を参照して後に説明する。
(Overall functional configuration)
FIG. 19 is a schematic explanatory diagram of the entire function. FIG. 19 shows main functions of providing a cloud service. Details of main functions and description of functions of the smart speaker 50 shown in FIG. 19 will be described later with reference to FIGS. 20 to 21.

クラウド100の機能は、1つのクラウドサービス装置60、あるいは複数のクラウドサービス装置60により実現される。これらの機能は1つまたは複数のクラウドサービス装置60に適宜設定されるものであり、1つのクラウドサービス装置60でもよいし、複数のクラウドサービス装置60でもよい。 The function of the cloud 100 is realized by one cloud service device 60 or a plurality of cloud service devices 60. These functions are appropriately set in one or a plurality of cloud service devices 60, and may be one cloud service device 60 or a plurality of cloud service devices 60.

クラウドサービス装置60のCPU31はHDD34の操作音声変換プログラムをRAM32に読み出して実行することにより操作音声変換部310として機能する。操作音声変換部310は、音声データをテキストデータに変換する機能を有する。更に、操作音声変換部310は、テキストデータを予め定義された辞書情報と一致するか否かを判断する機能を有する。更に、操作音声変換部310は、マッチした場合にはテキストデータをユーザの意図を示すアクションおよびジョブ条件などの変数を示すパラメータに変換する機能を有する。 The CPU 31 of the cloud service device 60 functions as the operation voice conversion unit 310 by reading the operation voice conversion program of the HDD 34 into the RAM 32 and executing it. The operation voice conversion unit 310 has a function of converting voice data into text data. Further, the operation voice conversion unit 310 has a function of determining whether or not the text data matches the predefined dictionary information. Furthermore, the operation voice conversion unit 310 has a function of converting the text data into a parameter indicating a variable such as an action indicating the user's intention and a job condition when the operation voice converting unit 310 matches.

また、クラウドサービス装置60のCPU31はHDD34の音声アシスタントプログラムをRAM32に読み出して実行することにより音声アシスタント部320として機能する。音声アシスタント部320は、辞書情報を保持する機能を有する。 Further, the CPU 31 of the cloud service device 60 functions as the voice assistant unit 320 by reading the voice assistant program of the HDD 34 into the RAM 32 and executing it. The voice assistant unit 320 has a function of holding dictionary information.

また、クラウドサービス装置60のCPU31はHDD34の管理プログラムをRAM32に読み出して実行することにより管理部330として機能する。管理部330は、アクションとパラメータに基づいてMFP1が解釈可能な形式であるジョブ実行指示に変換した上で登録されたMFP1へ送信する機能を有する。 Further, the CPU 31 of the cloud service device 60 functions as the management unit 330 by reading the management program of the HDD 34 into the RAM 32 and executing it. The management unit 330 has a function of converting the job execution instruction into a format that can be interpreted by the MFP 1 based on the action and the parameter, and transmitting the job execution instruction to the registered MFP 1.

このようにクラウド100は、少なくとも操作音声変換部310、音声アシスタント部320、および管理部330の機能によりクラウドサービス300を提供する。 As described above, the cloud 100 provides the cloud service 300 with at least the functions of the operation voice conversion unit 310, the voice assistant unit 320, and the management unit 330.

クラウドサービス300は、MFP1や情報処理装置との通信に基づき、各種の情報をDBに記憶する。一例として、管理部330が、管理DB340や、紐づけ用DB350や、機器情報DB360などを使用して各種情報を管理する。 The cloud service 300 stores various kinds of information in a DB based on communication with the MFP 1 and the information processing device. As an example, the management unit 330 manages various information using the management DB 340, the linking DB 350, the device information DB 360, and the like.

管理DB340は、テキストデータ、画像データ、音声データなど、クラウドサービス300が提供するコンテンツにかかるデータを記憶するデータベースである。 The management DB 340 is a database that stores data related to the content provided by the cloud service 300, such as text data, image data, and audio data.

紐づけ用DB350は、情報処理装置と紐づける外部装置を記憶するデータベースである。紐づけ用DB350は、本例では、情報処理装置として使用するスマートスピーカー50のデバイスIDと、そのスマートスピーカー50と対応付ける外部装置(本例ではMFP1)のIDとを対応付けて記憶する。なお、スマートスピーカー50と外部装置は一対一で紐づけられていても良いが、スマートスピーカー50と複数の外部装置を紐づけても良い。つまり、デバイスIDと紐づく外部装置の種類と個数は限定されない。また、外部装置とスマートスピーカー50の紐づけの方法についても上記の方法に限定されない。つまり、ユーザアカウントやユーザIDなどのユーザを特定する情報と外部装置とを紐づける構成であっても良い。この場合、デバイスIDなどのスマートスピーカー50からクラウドへ送信されるスマートスピーカー50を特定する情報と、ユーザを特定する情報とをクラウド100の紐づけ用DBなどに記憶しておき、管理部330はデバイスIDと紐づくユーザを特定する情報に基づいて外部装置を特定する構成であっても良い。若しくは、スマートスピーカー50からデバイスIDに代えてユーザを特定する情報を送信しても良い。また、ユーザを特定するための情報に代えて、部署や企業などの組織を特定する情報、又は部屋や建物などの場所を特定する情報と、外部装置とを紐づける構成であっても良く、この場合は1以上のスマートスピーカー50と1以上の外部装置を紐づけても良い。 The association DB 350 is a database that stores an external device associated with the information processing device. In this example, the association DB 350 stores the device ID of the smart speaker 50 used as the information processing device and the ID of the external device (MFP 1 in this example) associated with the smart speaker 50 in association with each other. The smart speaker 50 and the external device may be linked one-to-one, but the smart speaker 50 and a plurality of external devices may be linked. That is, the type and number of external devices associated with the device ID are not limited. Further, the method of associating the external device with the smart speaker 50 is not limited to the above method. That is, the configuration may be such that the information for identifying the user such as the user account and the user ID is linked to the external device. In this case, the information for specifying the smart speaker 50 transmitted from the smart speaker 50 to the cloud, such as the device ID, and the information for specifying the user are stored in the linking DB of the cloud 100, and the management unit 330 stores the information. The external device may be specified based on the information specifying the user associated with the device ID. Alternatively, instead of the device ID, information for identifying the user may be transmitted from the smart speaker 50. Further, instead of the information for specifying the user, information for specifying an organization such as a department or a company, or information for specifying a place such as a room or a building, and the external device may be linked. In this case, one or more smart speakers 50 may be associated with one or more external devices.

機器情報DB360は、MFP1を含む各外部装置のIDとそれぞれの機器情報とを対応付けて記憶するデータベースである。 The device information DB 360 is a database that stores the IDs of the external devices including the MFP 1 and the device information in association with each other.

(スマートスピーカー50の機能)
図20は、スマートスピーカー50の機能ブロックの構成の一例を示す図である。スマートスピーカー50のCPU21は、ROM23に記憶されている操作処理プログラムを実行することで、図20に示すように取得部211、通信制御部212、フィードバック部213として機能する。
(Function of smart speaker 50)
FIG. 20 is a diagram showing an example of a functional block configuration of the smart speaker 50. By executing the operation processing program stored in the ROM 23, the CPU 21 of the smart speaker 50 functions as the acquisition unit 211, the communication control unit 212, and the feedback unit 213 as illustrated in FIG.

取得部211は、マイクロホン部29(図3参照)を介して集音された、MFP1を音声操作するためのユーザの指示音声を、取得する。なお、取得部211は、タッチパネル27(図3参照)や物理スイッチ(不図示)などを介してユーザの操作を取得してもよい。通信制御部212は、クラウド100との間の通信を制御する。通信制御部212は、クラウド100と通信し、取得部211が取得した情報をクラウド100へ送信したり、クラウド100からテキストデータや画像データ、音声データを取得したりする。また、通信制御部212は、取得部211が取得した情報をクラウド100へ送信する場合、スマートスピーカー50を特定するデバイスIDを共に送信してもよい。 The acquisition unit 211 acquires the user's instruction voice for voice-operating the MFP 1, which is collected via the microphone unit 29 (see FIG. 3). The acquisition unit 211 may acquire a user operation via the touch panel 27 (see FIG. 3) or a physical switch (not shown). The communication control unit 212 controls communication with the cloud 100. The communication control unit 212 communicates with the cloud 100, transmits the information acquired by the acquisition unit 211 to the cloud 100, and acquires text data, image data, and voice data from the cloud 100. In addition, when transmitting the information acquired by the acquisition unit 211 to the cloud 100, the communication control unit 212 may also transmit a device ID that identifies the smart speaker 50.

フィードバック部213は、対話型の音声入力操作を実現すべく、例えば不足するデータを補う入力を促す音声や、入力を確認する音声などをユーザ側にフィードバックする。また、フィードバック部213は、タッチパネル27のディスプレイ表示を制御することによって、テキストまたは画像としてユーザに対してフィードバックを行ってもよい。 The feedback unit 213 feeds back to the user, for example, a voice prompting an input to make up for insufficient data, a voice confirming the input, or the like in order to realize an interactive voice input operation. Further, the feedback unit 213 may provide feedback to the user as a text or an image by controlling the display display on the touch panel 27.

なお、この例では、取得部211〜フィードバック部213をソフトウェアで実現することとしたが、これらのうちの一部または全部をIC(Integrated Circuit)等のハードウェアで実現してもよい。また、取得部211〜フィードバック部213の各機能は、操作処理プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。 In this example, the acquisition unit 211 to the feedback unit 213 are implemented by software, but some or all of these may be implemented by hardware such as an IC (Integrated Circuit). Further, each function of the acquisition unit 211 to the feedback unit 213 may be realized by a single operation processing program, or may cause another program to execute a part of the processing, or indirectly perform the processing by using another program. It may be executed.

(クラウドサービスの機能の詳細)
図21は、クラウドサービスの各機能の構成の一例を示す図である。操作音声変換部310は、図21に示すように、取得部311や、テキスト変換部312や、解釈部313や、出力部314などの機能を含む。取得部311は、スマートスピーカー50から送信される音声データ(ユーザにより入力された音声データ)を取得する。また、取得部311は、スマートスピーカー50のタッチパネル27や物理スイッチ(ボタンなども含む)などに対してユーザが行った操作を示すデータを取得してもよい。テキスト変換部312は、音声データ(スマートスピーカー50において入力されたユーザの音声データ)をテキストデータに変換するSTT(Speech To Text)を含む。解釈部313は、テキスト変換部312により変換されたテキストデータに基づいてユーザの指示の内容を解釈する。具体的に、解釈部313は、テキスト変換部312により変換されたテキストデータに含まれる単語などが、音声アシスタント部320が提供する辞書情報にマッチしているか否かを確認し、マッチしている場合に、ジョブの種類を示すアクションと、ジョブ条件などの変数を示すパラメータとに変換する。そして、解釈部313は、例えば音声データの取得元であるスマートスピーカー50を特定するデバイスIDなどと共に、アクションおよびパラメータを管理部330に対して送信する。出力部314は、テキストデータを音声データに合成するTTS(Text To Speech)を含む。出力部314は、通信部36(図4参照)を通信制御し、スマートスピーカー50にテキストデータ、音声データ、画像データなどのデータの送信等を行う。
(Details of cloud service functions)
FIG. 21 is a diagram showing an example of the configuration of each function of the cloud service. As shown in FIG. 21, the operation voice conversion unit 310 includes functions such as an acquisition unit 311, a text conversion unit 312, an interpretation unit 313, and an output unit 314. The acquisition unit 311 acquires voice data (voice data input by the user) transmitted from the smart speaker 50. The acquisition unit 311 may also acquire data indicating an operation performed by the user on the touch panel 27 of the smart speaker 50, a physical switch (including a button, etc.), or the like. The text conversion unit 312 includes STT (Speech To Text) that converts voice data (user's voice data input in the smart speaker 50) into text data. The interpretation unit 313 interprets the content of the user's instruction based on the text data converted by the text conversion unit 312. Specifically, the interpretation unit 313 confirms whether or not a word or the like included in the text data converted by the text conversion unit 312 matches the dictionary information provided by the voice assistant unit 320, and the words match. In this case, it is converted into an action indicating a job type and a parameter indicating a variable such as a job condition. Then, the interpretation unit 313 transmits the action and the parameter to the management unit 330 together with, for example, the device ID that specifies the smart speaker 50 that is the acquisition source of the audio data. The output unit 314 includes TTS (Text To Speech) that synthesizes text data into voice data. The output unit 314 controls the communication of the communication unit 36 (see FIG. 4) and transmits data such as text data, voice data, and image data to the smart speaker 50.

なお、この例では、取得部311〜出力部314をソフトウェアで実現することとしたが、これらのうちの一部または全部をIC(Integrated Circuit)等のハードウェアで実現してもよい。また、取得部311〜出力部314が実現する各機能は、操作音声変換プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。また、操作音声変換プログラムの解釈部313の機能の一部または全てを音声アシスタントプログラムに実行させてもよい。この場合、例えばテキストデータに含まれる単語などが辞書情報にマッチしているか否かの確認、マッチしている場合にユーザの意図を示すアクションとジョブ条件などの変数を示すパラメータへの変換は、音声アシスタント部320が行う。解釈部313はアクションおよびパラメータを音声アシスタント部320から取得するだけでよい。 In this example, the acquisition unit 311 to the output unit 314 are implemented by software, but some or all of these may be implemented by hardware such as an IC (Integrated Circuit). Further, each function realized by the acquisition unit 311 to the output unit 314 may be realized by the operation voice conversion program alone, or may be caused to cause another program to execute a part of the processing, or indirectly by using another program. May perform processing. In addition, a part or all of the functions of the interpretation unit 313 of the operation voice conversion program may be executed by the voice assistant program. In this case, for example, it is confirmed whether a word included in the text data matches the dictionary information, and if they match, the action indicating the user's intention and the conversion to the parameter indicating the variable such as the job condition are performed. The voice assistant unit 320 does this. The interpreting unit 313 only needs to acquire the action and the parameter from the voice assistant unit 320.

音声アシスタント部320は、図21に示すように提供部321の機能を含む。提供部321は、テキストデータとアクションおよびパラメータの関係を予め定義した辞書情報を管理し、操作音声変換部310に辞書情報を提供する。なお、音声アシスタント部320は、操作音声変換部310からテキストデータを受け付けて、そのテキストデータからユーザの操作指示を解釈してもよい。例えば、音声アシスタント部320は、解釈部313からテキストデータを取得し、テキストデータに含まれる単語などが辞書情報にマッチしているか否かを確認し、マッチしている場合にテキストデータをアクションとパラメータに変換する。その後、アクションおよびパラメータを解釈部313に提供する。 The voice assistant unit 320 includes the function of the providing unit 321 as shown in FIG. The providing unit 321 manages the dictionary information in which the relationship between the text data, the action, and the parameter is defined in advance, and provides the operation voice converting unit 310 with the dictionary information. The voice assistant unit 320 may receive the text data from the operation voice conversion unit 310 and interpret the user's operation instruction from the text data. For example, the voice assistant unit 320 acquires the text data from the interpretation unit 313, confirms whether a word or the like included in the text data matches the dictionary information, and if the words match, the text data is regarded as an action. Convert to a parameter. Then, the action and the parameter are provided to the interpretation unit 313.

なお、この例では、音声アシスタント部320(提供部321を含む)をソフトウェアで実現することとしたが、そのうちの一部または全部をIC(Integrated Circuit)等のハードウェアで実現してもよい。また、提供部321などの機能は、音声アシスタントプログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。 In this example, the voice assistant unit 320 (including the providing unit 321) is realized by software, but a part or all of it may be realized by hardware such as an IC (Integrated Circuit). Further, the function of the providing unit 321 or the like may be realized by the voice assistant program alone, or may be caused to execute a part of the processing by another program or indirectly execute the processing by using another program. Good.

管理部330は、図21に示すように、取得部331や、解釈結果変換部332や、実行指示部333や、機器情報取得部334や、実行判定部335や、通知部336や、DB管理部337などの機能を含む。 As shown in FIG. 21, the management unit 330 includes an acquisition unit 331, an interpretation result conversion unit 332, an execution instruction unit 333, a device information acquisition unit 334, an execution determination unit 335, a notification unit 336, and a DB management. Functions of the unit 337 and the like are included.

取得部331は、解釈部313から解釈結果を取得する。 The acquisition unit 331 acquires the interpretation result from the interpretation unit 313.

解釈結果変換部332は、操作音声変換部310で変換されたアクションおよびパラメータなどの解釈結果を、MFP1が解釈可能なジョブの実行命令に変換する。 The interpretation result conversion unit 332 converts the interpretation result of the action, the parameter, and the like converted by the operation voice conversion unit 310 into a job execution command that can be interpreted by the MFP 1.

実行指示部333は、ジョブの実行命令をMFP1に送信することによりジョブの実行を指示する。具体的に、実行指示部333は、アクションおよびパラメータと共に、ユーザが音声指示したスマートスピーカー50のデバイスIDを取得する。実行指示部333は、取得したデバイスIDに対応するMFP1を紐づけ用DB350(図19参照)から検索し、検索により得られたMFP1に対してジョブ実行命令を送信する。 The execution instruction unit 333 gives an instruction to execute the job by transmitting a job execution instruction to the MFP 1. Specifically, the execution instruction unit 333 acquires the device ID of the smart speaker 50 instructed by the user, along with the action and the parameter. The execution instruction unit 333 searches the association DB 350 (see FIG. 19) for the MFP 1 corresponding to the acquired device ID, and sends a job execution command to the MFP 1 obtained by the search.

機器情報取得部334は、登録されている各外部装置(この例ではMFP1)から機器情報を取得する。例えば、機器情報取得部334は、処理可能な最大画素数等の処理能力を示す情報を取得する。また、機器情報取得部334は、MFP1との間で、通信接続が確立されているか否かを示す接続状態、MFP1の電源のON/OFFまたはスリープモードであるかを示す電力状態、エラーの有無とエラーの種類、用紙やトナーなどの消耗品の残余状況、ユーザのログイン状態、ログインユーザに使用が許可された機能を示す権限情報、などを含む機器状態を示す情報も設定に応じて適宜取得する。 The device information acquisition unit 334 acquires device information from each registered external device (MFP 1 in this example). For example, the device information acquisition unit 334 acquires information indicating the processing capacity such as the maximum number of pixels that can be processed. Further, the device information acquisition unit 334 has a connection state indicating whether or not a communication connection is established with the MFP 1, a power state indicating whether the power of the MFP 1 is ON/OFF or a sleep mode, and whether or not there is an error. And information about the device status including the type of error, the remaining status of consumables such as paper and toner, the login status of the user, authority information indicating the functions that the logged-in user is permitted to use, etc. are also acquired according to the settings. To do.

なお、機器情報取得部334は、複数のMFP1から処理能力などの機器情報を取得した場合、機器情報DB360(図19参照)において、各外部装置を特定するIDなどの情報と紐づけてそれぞれの機器情報を管理する。 When the device information acquisition unit 334 acquires the device information such as the processing capability from the plurality of MFPs 1, the device information acquisition unit 334 associates the device information DB 360 (see FIG. 19) with the information such as the ID that identifies each external device. Manage device information.

実行判定部335は、MFP1の処理能力と、ユーザから指定されたジョブ(即ち、操作音声変換部310で生成されたアクションおよびパラメータ)とを比較することで、ユーザから指定されたジョブをMFP1で実行可能か否か判定する。ユーザから指定されたジョブ実行が実行可能と判断した場合はMFP1に対してジョブ実行命令を送信する。なお、実行不可能と判断した場合は通知部336により操作音声変換部310を介してスマートスピーカー50に対してエラーメッセージなどをレスポンス情報としてフィードバックさせてもよい。 The execution determination unit 335 compares the processing capability of the MFP 1 with the job specified by the user (that is, the action and the parameter generated by the operation voice conversion unit 310), so that the job specified by the user is executed by the MFP 1. Determine if it is feasible. When it is determined that the job execution designated by the user can be executed, the job execution instruction is transmitted to the MFP 1. When it is determined that the notification cannot be executed, the notification unit 336 may feed back an error message or the like as response information to the smart speaker 50 via the operation voice conversion unit 310.

通知部336は、ユーザのジョブ実行指示への応答としてテキストデータ、音声データ、画像データなどを操作音声変換部310へ送信する。また、ジョブの実行するためのジョブ条件を示すパラメータが不足している場合には、操作音声変換部310を介してスマートスピーカー50に対してフィードバックすることでユーザにパラメータの更なる指示を促す。ここで、不足しているパラメータを確認するために必要な情報として、パラメータ情報を送信してもよいし、ユーザにパラメータの指定を促すために必要な情報としてテキストデータ、音声データ、画像データを送信してもよい。 The notification unit 336 transmits text data, voice data, image data, and the like to the operation voice conversion unit 310 as a response to the user's job execution instruction. Further, when the parameters indicating the job conditions for executing the job are insufficient, the user is urged to further instruct the parameters by feeding back to the smart speaker 50 via the operation voice conversion unit 310. Here, parameter information may be transmitted as information necessary for confirming the missing parameter, or text data, voice data, image data may be transmitted as information necessary for prompting the user to specify the parameter. You may send it.

DB管理部337は、管理DB340、紐づけ用DB350、および機器情報DB360を管理する。具体的には、各種テーブルの設定や、各種テーブルに対してのデータの登録、検索、削除、更新などを行う。例えば、DB管理部337は、MFP1、スマートスピーカー50、またはクラウドサービス装置60のクライアントデバイスに入力された情報および指示に基づいて、スマートスピーカー50のデバイスIDとMFP1のIDとを紐づけて紐づけ用DB350に登録する。紐づけ用DB350は、スマートスピーカー50のデバイスIDとMFP1のIDとを紐づけた情報をテーブルデータなどで保持する。 The DB management unit 337 manages the management DB 340, the linking DB 350, and the device information DB 360. Specifically, various tables are set, and data is registered, searched, deleted, and updated in various tables. For example, the DB management unit 337 links and associates the device ID of the smart speaker 50 with the ID of the MFP 1 based on the information and the instruction input to the client device of the MFP 1, the smart speaker 50, or the cloud service device 60. It is registered in the business DB 350. The association DB 350 holds information in which the device ID of the smart speaker 50 and the ID of the MFP 1 are associated with each other as table data.

(対話型動作の流れ)
図22〜図25は、音声操作システムにおいてユーザがシステムと対話してMFPの操作を行う場合の全体の動作の一例を示す図である。図22は、起動時の動作の流れを示しており、図23〜図25は、起動後の対話型動作の流れを示している。システムと対話して操作を行う場合、対話のセッション管理が必要になる。対話のセッション管理については後述する。ここでは、一例としてユーザがスマートスピーカー50を介してカラー画像を両面上下開き、ステープル上2か所で2部のコピーを行う操作を指示する場合の動作を示す。この例では、部数(=2部)が必須パラメータとなっているが、部数に限定されず、モノクロ、カラー、または、用紙サイズ等、複数のパラメータを必須パラメータに含めてもよい。
(Flow of interactive operation)
22 to 25 are diagrams showing an example of the overall operation when the user interacts with the system to operate the MFP in the voice operation system. FIG. 22 shows the flow of the operation at the time of startup, and FIGS. 23 to 25 show the flow of the interactive operation after the startup. When interacting with the system to operate, session management of the interaction is required. The session management of the dialogue will be described later. Here, as an example, an operation in the case where a user opens a color image on both sides vertically through the smart speaker 50 and gives an instruction to copy two copies at two places on the staple is shown. In this example, the number of copies (=2 copies) is an essential parameter, but the number of copies is not limited, and a plurality of parameters such as monochrome, color, or paper size may be included in the essential parameters.

まず、ユーザによりスマートスピーカー50(操作処理プログラム)が起動操作された後、例えばユーザがスマートスピーカー50に起動ワードを音声入力する(ステップS1´)。ここで、ユーザが音声アシスタントプログラムを起動するための起動ワードを発話することで、所望の音声アシスタントプログラムを起動させることができる。スマートスピーカー50(通信制御部212)は、クラウド100(操作音声変換部310)に対して起動ワードの音声データを送信する(ステップS2´)。 First, after the user activates the smart speaker 50 (operation processing program), for example, the user inputs the activation word into the smart speaker 50 by voice (step S1′). Here, the user can start the desired voice assistant program by speaking the activation word for activating the voice assistant program. The smart speaker 50 (communication control unit 212) transmits the voice data of the activation word to the cloud 100 (operation voice conversion unit 310) (step S2′).

クラウド100では、操作音声変換部310(取得部311)が、スマートスピーカー50から送信データを取得し、操作音声変換部310(テキスト変換部312)が、音声データをテキスト化、つまりテキストデータに変換処理する(ステップS3´)。 In the cloud 100, the operation voice conversion unit 310 (acquisition unit 311) acquires the transmission data from the smart speaker 50, and the operation voice conversion unit 310 (text conversion unit 312) converts the voice data into text, that is, converts it into text data. Process (step S3').

操作音声変換部310(解釈部313)は、音声アシスタント部320(提供部321)に辞書情報を要求して音声アシスタント部320(提供部321)から辞書情報を取得する(ステップS4´)。 The operation voice converting unit 310 (interpretation unit 313) requests the dictionary information from the voice assistant unit 320 (providing unit 321) and acquires the dictionary information from the voice assistant unit 320 (providing unit 321) (step S4′).

さらに、操作音声変換部310(解釈部313)は、取得した辞書情報から、テキスト解釈を行う(ステップS5´)。 Further, the operation voice conversion unit 310 (interpretation unit 313) performs text interpretation from the acquired dictionary information (step S5').

そして、操作音声変換部310(解釈部313)は、その解釈結果を、管理部330に渡す(ステップS6´)。 Then, the operation voice conversion unit 310 (interpretation unit 313) passes the interpretation result to the management unit 330 (step S6′).

ここで、管理部330は、必要に応じて、紐づけ用DBの検索(ステップS71)、接続状態確認(ステップS72)、アプリ状態確認(ステップS73)、機器情報取得(ステップS74)などを行う。なお、これらの処理の順番は適宜入れ替えてよい。また、各処理は、それぞれ、別のタイミングで行っていれば、ここでの処理を省略してもよい。 Here, the management unit 330 searches the linking DB (step S71), confirms the connection state (step S72), confirms the application state (step S73), acquires device information (step S74), and the like, as necessary. .. The order of these processes may be changed as appropriate. Further, if each process is performed at different timing, the process here may be omitted.

紐づけ用DBの検索(ステップS71)では、管理部330(DB管理部337)が、取得したデバイスID(スマートスピーカー50のID)に対応するMFP1(MFP1のID)を、紐づけ用DB350から検索して取得する。このとき、管理部330(通知部336)は、デバイスIDと紐づくMFP1のIDが検索で得られなかった場合、スマートスピーカー50が通信対象と紐づけられていないことを操作音声変換部310(出力部314)を介してユーザに通知する。例えば、管理部330(通知部336)は、「このデバイスは機器と紐づけられていません」とのレスポンスを含むレスポンス情報を生成する。ここで、管理部330(通知部336)は、デバイスと通信対象を紐づけする方法をレスポンスに含めてもよい。なお、ステップS71は、デバイスIDを取得した他の任意のタイミングで行ってもよい。 In the search of the association DB (step S71), the management unit 330 (DB management unit 337) retrieves the MFP1 (ID of the MFP1) corresponding to the acquired device ID (ID of the smart speaker 50) from the association DB 350. Search and get. At this time, when the ID of the MFP 1 associated with the device ID is not obtained by the search, the management unit 330 (notification unit 336) determines that the smart speaker 50 is not associated with the communication target, the operation voice conversion unit 310 ( The user is notified via the output unit 314). For example, the management unit 330 (notification unit 336) generates response information including a response “This device is not associated with a device”. Here, the management unit 330 (notification unit 336) may include a method of associating the device with the communication target in the response. Note that step S71 may be performed at any other timing when the device ID is acquired.

接続状態確認(ステップS72)は、管理部330が通信対象(この例ではMFP1)の機器状態を確認する。例えばDB管理部337が機器情報DB360の予め取得した機器情報を参照することで確認する。あるは、機器情報取得部334が通信対象のMFP1から機器情報を取得して確認してもよい。ここで、機器状態の確認は、例えば通信対象のMFP1と通信可能か否かおよびMFP1が使用可能か否かの確認である。このとき、デバイスIDと紐づくMFP1(確認対象のMFP1)との接続が確立していない場合、または、そのMFP1が起動中などで使用できない場合、管理部330(通知部336)は、操作音声変換部310(出力部314)を介してユーザに通知を行う。例えば、管理部330(通知部336)は、「機器がオフラインです」または「機器が準備中です」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部330(通知部336)は、対策方法をレスポンスに含めてもよい。なお、機器状態の確認は、操作音声変換部310(解釈部313)からアクションおよびパラメータ、デバイスIDを取得した他の任意のタイミングで行ってもよい。 In the connection state confirmation (step S72), the management unit 330 confirms the device state of the communication target (MFP1 in this example). For example, the DB management unit 337 confirms by referring to the device information acquired in advance in the device information DB 360. Alternatively, the device information acquisition unit 334 may acquire and confirm the device information from the MFP 1 that is the communication target. Here, the confirmation of the device state is, for example, confirmation as to whether or not communication with the communication target MFP 1 is possible and whether or not the MFP 1 is usable. At this time, if the connection with the MFP 1 associated with the device ID (the confirmation target MFP 1) is not established, or if the MFP 1 cannot be used because it is running, the management unit 330 (notification unit 336) displays the operation voice. The user is notified via the conversion unit 310 (output unit 314). For example, the management unit 330 (notification unit 336) generates and notifies response information including a response that "the device is offline" or "the device is being prepared". Here, the management unit 330 (notification unit 336) may include the countermeasure method in the response. The device state may be confirmed at any other timing when the action, the parameter, and the device ID are acquired from the operation voice conversion unit 310 (interpretation unit 313).

アプリ状態確認(ステップS73)は、管理部330が通信対象のMFP1にユーザから指定された機能を実行するアプリケーションの状態を確認する。例えばDB管理部337が、機器情報DB360の予め取得した機器情報を参照することで確認する。あるいは、機器情報取得部334が通信対象のMFP1から機器情報を取得して確認してもよい。ここで、アプリ状態の確認は、例えばアプリケーションがインストールされているか否か、アプリケーションが実行可能な状態であるか否かの確認である。そして、実行を指示された機能がコピーであったとして、コピーに関するアプリケーションがデバイスIDと紐づくMFP1にインストールされていなかったり、あるいは、アプリケーションが起動中などで使用できなかったりする場合は、管理部330(通知部336)は、操作音声変換部310(出力部314)を介してユーザに通知を行う。例えば、管理部330(通知部336)は、「アプリケーションがインストールされていません」または「アプリケーションは現在利用できません」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部330(通知部336)は、対策方法をレスポンスに含めてもよい。なお、アプリケーションの状態の確認は、操作音声変換部310(解釈部313)からアクションおよびパラメータ、デバイスIDを取得した他の任意のタイミングで行ってもよい。 In the application status confirmation (step S73), the management unit 330 confirms the status of the application that executes the function designated by the user on the communication target MFP1. For example, the DB management unit 337 confirms by referring to the device information acquired in advance in the device information DB 360. Alternatively, the device information acquisition unit 334 may acquire and confirm the device information from the MFP 1 as the communication target. Here, the confirmation of the application state is, for example, confirmation of whether or not the application is installed and whether or not the application is in the executable state. If it is determined that the function instructed to execute is copy, and the application relating to the copy is not installed in the MFP 1 associated with the device ID, or the application cannot be used because it is running, the management unit 330 (notification unit 336) notifies the user via the operation voice conversion unit 310 (output unit 314). For example, the management unit 330 (notification unit 336) generates and notifies the response information including the response that "the application is not installed" or "the application is currently unavailable". Here, the management unit 330 (notification unit 336) may include the countermeasure method in the response. The state of the application may be confirmed at any other timing when the action, the parameter, and the device ID are acquired from the operation voice conversion unit 310 (interpretation unit 313).

機器情報取得(ステップS74)は、管理部330が通信対象(この例ではMFP1)の機器情報を取得する。例えばDB管理部337が機器情報DB360の予め取得した機器情報を取得する。あるは、機器情報取得部334が通信対象のMFP1から機器情報を取得してもよい。ここで取得する機器状態は、例えば通信対象のMFP1において、ユーザが指示したジョブ種類およびジョブ条件が実行可能か否かを判断する際に利用される。 In the device information acquisition (step S74), the management unit 330 acquires the device information of the communication target (MFP 1 in this example). For example, the DB management unit 337 acquires previously acquired device information in the device information DB 360. Alternatively, the device information acquisition unit 334 may acquire the device information from the communication target MFP 1. The device status acquired here is used, for example, in the communication target MFP 1 when determining whether or not the job type and the job condition instructed by the user can be executed.

これらの処理が起動後の任意のタイミングで完了していると、管理部330(実行判定部335)は、必須パラメータ不足判断を行う(ステップS75)。管理部330(実行判定部335)は、必須パラメータ不足判断において、解釈結果のアクションおよびパラメータに基づいてジョブ実行に必要な条件が全て揃っているか否かを判断する。 When these processes are completed at an arbitrary timing after the start-up, the management unit 330 (execution determination unit 335) makes the essential parameter shortage determination (step S75). In the essential parameter shortage determination, the management unit 330 (execution determination unit 335) determines whether or not all conditions necessary for job execution are complete based on the action and parameter of the interpretation result.

なお、音声アシスタントプログラムの起動を指示する際においてジョブの種類および必須の設定条件をすべて指定していた場合には、これ以降に示す「入力フィードバック」のステップは省略し、MFP1に実行を指示してもよい。 If all the job types and required setting conditions have been specified when instructing to start the voice assistant program, the steps of “input feedback” described below are omitted and the MFP 1 is instructed to execute the operation. May be.

この段階では、音声で起動が指示されただけで、それ以外に、MFP1が有する複数のアクションやパラメータの指定をユーザが受け付けていないため、管理部330(実行判定部335)は、必須パラメータを満たしていないと判断する。音声アシスタントプログラムの起動を指示する際に必須の条件の指示漏れがある場合にも必須パラメータを満たしていないと判断する。従って、管理部330(通知部336)はレスポンス情報を作成し、操作音声変換部310(出力部314)を介してスマートスピーカー50にレスポンス情報を送信する(ステップS76、ステップS77)。 At this stage, the user is not instructed to specify a plurality of actions and parameters of the MFP 1 other than the instruction to start by voice. Therefore, the management unit 330 (execution determination unit 335) specifies the essential parameters. Judge that it does not meet. It is determined that the required parameters are not satisfied even if there is an omission of an indispensable condition when instructing to start the voice assistant program. Therefore, the management unit 330 (notification unit 336) creates response information, and transmits the response information to the smart speaker 50 via the operation voice conversion unit 310 (output unit 314) (steps S76 and S77).

なお、管理部330(DB管理部337)は、このスマートスピーカー50との通信のセッションを管理DB340で管理する。管理部330(通知部336)はスマートスピーカー50にレスポンス情報を送信する際に、セッションが継続していることを示す状態情報を送信することができる。ここで状態情報は、セッションが継続していることを示す情報である。後段の手順においても適宜説明を省略しているが、クラウド100がスマートスピーカー50に問合せを行う場合、状態情報を含めてスマートスピーカー50に送信する。 The management unit 330 (DB management unit 337) manages the session of communication with the smart speaker 50 with the management DB 340. When transmitting the response information to the smart speaker 50, the management unit 330 (notification unit 336) can transmit the state information indicating that the session is continuing. Here, the state information is information indicating that the session is continuing. Although description is omitted as appropriate in the procedure in the latter stage, when the cloud 100 makes an inquiry to the smart speaker 50, the cloud 100 transmits the status information to the smart speaker 50.

レスポンス情報には、ユーザに問合せる内容としてテキストデータ、音声データ、画像データを含めることができる。ここでは一例として、「コピーしますか?スキャンしますか?」の音声データを送信する。これにより、スマートスピーカー50(フィードバック部213)は、「コピーしますか?スキャンしますか?」と音声でフィードバックを行う(ステップS78)。 The response information can include text data, voice data, and image data as contents to be inquired to the user. Here, as an example, the audio data “Do you want to copy? Do you want to scan?” is transmitted. As a result, the smart speaker 50 (feedback unit 213) gives a voice feedback "Do you want to copy? Scan?" (step S78).

なお、ユーザに対してジョブの種類またはジョブの設定条件の入力を促すメッセージであればフィードバックの内容はこれに限定されない。更に、ユーザに対するフィードバックは、音声出力だけでなく、タッチパネルにテキストまたは画像を表示することで行ってもよい。その場合、スマートスピーカー50にテキストデータや画像データ(表示情報)などを送信する。 Note that the content of the feedback is not limited to this as long as it is a message prompting the user to input the job type or the job setting condition. Further, the feedback to the user may be performed by displaying text or an image on the touch panel as well as the voice output. In that case, text data, image data (display information), etc. are transmitted to the smart speaker 50.

ステップS78の後に、ユーザが「コピー」と発話した場合(音声アシスタントプログラムの起動指示の際に「コピー」と発話していた場合も同様)、次のように処理が進む。ユーザが発話した音声は、スマートスピーカー50(取得部211)により音声データとして取得される(ステップS1−1)。スマートスピーカー50(通信制御部212)は、この「コピー」の音声データをクラウド100に送信する(ステップS2−1)。このとき、スマートスピーカー50(通信制御部212)は、スマートスピーカー50を特定するデバイスIDをクラウド100に送信する。 After the step S78, when the user utters "copy" (similarly when "uttered "copy" when instructing to start the voice assistant program), the process proceeds as follows. The voice uttered by the user is acquired as voice data by the smart speaker 50 (acquisition unit 211) (step S1-1). The smart speaker 50 (communication control unit 212) transmits this "copy" voice data to the cloud 100 (step S2-1). At this time, the smart speaker 50 (communication control unit 212) transmits the device ID identifying the smart speaker 50 to the cloud 100.

クラウド100では、操作音声変換部310(取得部311)が、その音声データを取得し、その後は、ステップS3´〜ステップS5´と同様に、操作音声変換部310においてテキスト解釈までの処理が行われ(ステップS3−1〜ステップS5−1)、解釈結果が管理部330へ渡される(ステップS6−1)。ここでは、「コピーして」に対応する「Copy_Execute」としたアクションを解釈結果として渡す。 In the cloud 100, the operation voice conversion unit 310 (acquisition unit 311) acquires the voice data, and thereafter, as in steps S3′ to S5′, the operation voice conversion unit 310 performs processing up to text interpretation. I (step S3-1 to step S5-1), and the interpretation result is passed to the management unit 330 (step S6-1). Here, the action of "Copy_Execute" corresponding to "copy" is passed as the interpretation result.

そして、管理部330(実行判定部335)は、改めて必須パラメータ不足判断を行う(ステップS75―1)。この例の場合、ユーザは、「コピー」としか発話しておらず、必須パラメータのコピー部数等の設定値が不明である。 Then, the management unit 330 (execution determination unit 335) again performs the essential parameter shortage determination (step S75-1). In the case of this example, the user speaks only "copy", and the set value such as the number of copies of the essential parameter is unknown.

このため、クラウド100がスマートスピーカー50に対して不足しているパラメータを問い合わせる。具体的には、この段階では設定値不足であったため、管理部330(通知部336)が「設定値を入力してください」を含むレスポンス情報を生成し、操作音声変換部310(出力部314)を介して「設定値を入力してください」の音声データをスマートスピーカー50に送信する(ステップS75−1〜ステップS77−1)。そして、スマートスピーカー50(フィードバック部213)が「設定値を入力してください」との音声出力を行う(ステップS78−1)。なお、この場合も、音声出力の他に、タッチパネル27において「設定値を入力してください」とのテキスト表示などを行ってもよい。 Therefore, the cloud 100 inquires of the smart speaker 50 about the missing parameters. Specifically, since the setting value is insufficient at this stage, the management unit 330 (notifying unit 336) generates response information including “Please input the setting value”, and the operation voice converting unit 310 (output unit 314). ), the voice data of "Please input the setting value" is transmitted to the smart speaker 50 (step S75-1 to step S77-1). Then, the smart speaker 50 (feedback unit 213) outputs a voice message "Please input the setting value" (step S78-1). In this case as well, in addition to the voice output, a text display such as "Please input the setting value" may be displayed on the touch panel 27.

次に、入力不足フィードバックがあったため、ユーザは、例えば「両面、2部、ステープル」と発話する。ユーザが発話した音声は、スマートスピーカー50(取得部211)により音声データとして取得される(ステップS1−2)。スマートスピーカー50(通信制御部212)は、この「両面、2部、ステープル」の音声データをクラウド100に送信する(ステップS2−2)。このとき、スマートスピーカー50(通信制御部212)は、スマートスピーカー50を特定するデバイスIDをクラウド100に送信する。 Next, since there was insufficient input feedback, the user utters, for example, "double-sided, 2-copy, staple". The voice uttered by the user is acquired as voice data by the smart speaker 50 (acquisition unit 211) (step S1-2). The smart speaker 50 (communication control unit 212) transmits this “double-sided, two-copy, staple” audio data to the cloud 100 (step S2-2). At this time, the smart speaker 50 (communication control unit 212) transmits the device ID identifying the smart speaker 50 to the cloud 100.

クラウド100では、操作音声変換部310(取得部311)が、その音声データを取得し、その後は、ステップS3´〜ステップS5´と同様に、操作音声変換部310においてテキスト解釈までの処理が行われ(ステップS3−2〜ステップS5−2)、解釈結果が管理部330へ渡される(ステップS6−2)。 In the cloud 100, the operation voice conversion unit 310 (acquisition unit 311) acquires the voice data, and thereafter, as in steps S3′ to S5′, the operation voice conversion unit 310 performs processing up to text interpretation. I (step S3-2 to step S5-2), and the interpretation result is passed to the management unit 330 (step S6-2).

ここでは、操作音声変換部310(解釈部313)が「Parameter:印刷面=両面、部数=2部、後処理=ステープル」としたパラメータを解釈結果として生成し、その解釈結果を管理部330へ渡す。 Here, the operation voice conversion unit 310 (interpretation unit 313) generates a parameter with “Parameter: print surface=double-sided, number of copies=two copies, post-processing=staple” as an interpretation result, and the interpretation result is sent to the management unit 330. hand over.

そして、管理部330(実行判定部335)は、改めて必須パラメータ不足判断を行う(ステップS75―2)。 Then, the management unit 330 (execution determination unit 335) again performs the essential parameter shortage determination (step S75-2).

具体的に、管理部330(DB管理部337)は、前回の発話の解釈結果を管理DB340などに記憶しておき、管理部330(DB管理部337)により前回の発話の解釈結果と今回の発話の解釈結果とを統合してアクションおよびパラメータを完成させる。管理部330(実行判定部335)は、この統合された解釈結果に基づいて改めて必須パラメータ不足判断を行う。 Specifically, the management unit 330 (DB management unit 337) stores the interpretation result of the previous utterance in the management DB 340 or the like, and the management unit 330 (DB management unit 337) stores the interpretation result of the previous utterance and this time. The actions and parameters are completed by integrating the utterance interpretation results. The management unit 330 (execution determination unit 335) again performs the essential parameter shortage determination based on the integrated interpretation result.

なお、以上では管理部330で前回の発話の解釈結果と今回の発話の解釈結果とを統合する場合について説明したが、これに限定されない。即ち、操作音声変換部310が前回の発話に含まれるアクションおよびパラメータと合わせて「Copy_Execute」としたアクション、および「Parameter:印刷面=両面、部数=2部、後処理=ステープル」としたパラメータを含む解釈結果を管理部330へ渡してもよい。 In addition, although the case where the management unit 330 integrates the interpretation result of the previous utterance and the interpretation result of the current utterance has been described above, the present invention is not limited to this. That is, the operation voice conversion unit 310 combines the action and the parameter included in the previous utterance with “Copy_Execute”, and the parameter “Parameter: print side=both sides, number of copies=2 copies, post-processing=staple”. The included interpretation result may be passed to the management unit 330.

この例の場合、ユーザはステープルの設定を発音しておらず、ステープル位置が必須パラメータ不足である。従って、管理部330(実行判定部335)は、この段階(ステップS75―2)でも必須パラメータ不足と判断する。 In the case of this example, the user has not pronounced the stapling setting, and the staple position has insufficient essential parameters. Therefore, the management unit 330 (execution determination unit 335) determines that the essential parameters are insufficient even at this stage (step S75-2).

このため、クラウド100がスマートスピーカー50に対して不足しているパラメータを更に問い合わせる。このとき、管理部330では、ステープルの位置を特定するためのイメージ画像を検索して、検索した画像をスマートスピーカー50へ送信することができる。パラメータを問い合わせる続きは同様である。つまり、管理部330(通知部336)が「ステープルの位置を指定してください」のレスポンスと、検索したイメージ画像を含むフィードバック情報を生成し、操作音声変換部310(出力部314)を介して「ステープルの位置を指定してください」の音声データをスマートスピーカー50に送信する(ステップS75−2〜ステップS77−2)。そして、スマートスピーカー50(フィードバック部213)が「ステープルの位置を指定してください」との音声出力を行う(ステップS78−2)。なお、この場合も、音声出力の他に、タッチパネル27において「ステープルの位置を指定してください」とのテキスト表示などを行ってもよい。このとき、イメージ画像を表示することができる。 Therefore, the cloud 100 further inquires of the smart speaker 50 about the missing parameters. At this time, the management unit 330 can search for an image image for specifying the position of the staple and send the searched image to the smart speaker 50. The procedure for inquiring parameters is the same. In other words, the management unit 330 (notification unit 336) generates feedback information including the response “please specify the position of the staple” and the searched image image, and outputs the feedback information via the operation voice conversion unit 310 (output unit 314). The audio data "Please specify the position of the staple" is transmitted to the smart speaker 50 (step S75-2 to step S77-2). Then, the smart speaker 50 (feedback unit 213) outputs a voice message "Please specify the position of the staple" (step S78-2). In this case also, in addition to the voice output, a text display such as "Please specify the position of the staple" may be displayed on the touch panel 27. At this time, an image image can be displayed.

次に、入力不足フィードバックがあったため、ユーザは、例えば「上1か所で」と発話するか、スマートスピーカー50の画面をタッチすることによってステープル位置を指定する。ユーザが発話した音声は、スマートスピーカー50(取得部211)により音声データとして取得される(ステップS1−2)。スマートスピーカー50(通信制御部212)は、この「上1か所で」の音声データをクラウド100に送信する(ステップS2−2)。このとき、スマートスピーカー50(通信制御部212)は、スマートスピーカー50を特定するデバイスIDをクラウド100に送信する。 Next, since there is insufficient input feedback, the user utters, for example, "at one place above" or touches the screen of the smart speaker 50 to specify the staple position. The voice uttered by the user is acquired as voice data by the smart speaker 50 (acquisition unit 211) (step S1-2). The smart speaker 50 (communication control unit 212) transmits this "at one place" voice data to the cloud 100 (step S2-2). At this time, the smart speaker 50 (communication control unit 212) transmits the device ID identifying the smart speaker 50 to the cloud 100.

クラウド100では、操作音声変換部310(取得部311)が、その音声データを取得し、その後は、ステップS3´〜ステップS5´と同様に、操作音声変換部310においてテキスト解釈までの処理が行われ(ステップS3−2〜ステップS5−2)、解釈結果が管理部330へ渡される(ステップS6−2)。 In the cloud 100, the operation voice conversion unit 310 (acquisition unit 311) acquires the voice data, and thereafter, as in steps S3′ to S5′, the operation voice conversion unit 310 performs processing up to text interpretation. I (step S3-2 to step S5-2), and the interpretation result is passed to the management unit 330 (step S6-2).

ここでは、操作音声変換部310(解釈部313)が「ステープル位置=上1か所」としたパラメータを解釈結果として生成し、その解釈結果を管理部330へ渡す。 Here, the operation voice conversion unit 310 (interpretation unit 313) generates a parameter with “staple position=1 upper position” as an interpretation result, and passes the interpretation result to the management unit 330.

そして、管理部330(実行判定部335)は、改めて必須パラメータ不足判断を行う(ステップS75−3)。 Then, the management unit 330 (execution determination unit 335) again performs the essential parameter shortage determination (step S75-3).

具体的に、管理部330(DB管理部337)は、前回の発話の解釈結果と今回の発話の解釈結果とを統合してアクションおよびパラメータを完成させる。つまり、この例では、「Copy_Execute」としたアクション、および「Parameter:印刷面=両面、部数=2部、後処理=ステープル、ステープル位置=上1か所」としたパラメータを完成させる。管理部330(実行判定部335)は、この統合された解釈結果に基づいて改めて必須パラメータ不足判断を行う。この例の場合、ユーザが「上1か所」と発話したことで、コピーのジョブに対する必須パラメータ不足が解消する。 Specifically, the management unit 330 (DB management unit 337) integrates the interpretation result of the previous utterance and the interpretation result of the current utterance to complete the action and the parameter. That is, in this example, the action of “Copy_Execute” and the parameter of “Parameter: print surface=double-sided, number of copies=two copies, post-processing=staple, staple position=1 upper position” are completed. The management unit 330 (execution determination unit 335) again performs the essential parameter shortage determination based on the integrated interpretation result. In the case of this example, the user utters “upper one place”, and the lack of essential parameters for the copy job is resolved.

この例では、続いて管理部330(通知部336)は、入力確認フィードバックを行うために「両面で2部コピーします。上1か所でステープルします。よろしいですか?」とのレスポンス情報を生成し、操作音声変換部310(出力部314)を介して「両面で2部コピーします。上1か所でステープルします。よろしいですか?」の音声データをスマートスピーカー50に送信する(ステップS75−3〜ステップS77−3)。そして、スマートスピーカー50(フィードバック部213)が「両面で2部コピーします。上1か所でステープルします。よろしいですか?」との音声出力を行う(ステップS78−3)。なお、この場合も、音声出力の他に、タッチパネル27において「両面で2部コピーします。上1か所でステープルします。よろしいですか?」とのテキスト表示などを行ってもよい。ここで、レスポンス情報に含まれるテキストデータや音声データを出力することに代えて、レスポンス情報に含まれる情報に基づいてスマートスピーカー50の記憶部に記憶されたテキストデータを組み合わせて出力情報を生成してもよい。 In this example, subsequently, the management unit 330 (notification unit 336) responds with information such as "copy two copies on both sides. Staple at one place. Are you sure?" to provide input confirmation feedback. To the smart speaker 50 via the operation voice conversion unit 310 (output unit 314), and the voice data of "2 copies on both sides. Staple at 1 place. Are you sure?" is sent to the smart speaker 50. (Step S75-3 to step S77-3). Then, the smart speaker 50 (feedback unit 213) outputs a voice saying "Copy two copies on both sides. Staple at one place. Are you sure?" (step S78-3). In this case as well, in addition to the voice output, a text display such as “Copy 2 copies on both sides. Staple at 1 place. Are you sure?” may be displayed on the touch panel 27. Here, instead of outputting the text data and voice data included in the response information, the output information is generated by combining the text data stored in the storage unit of the smart speaker 50 based on the information included in the response information. May be.

その後、ユーザは、この入力確認フィードバックに対して、設定値の変更またはコピーの開始をスマートスピーカー50に発話する。ユーザが設定値を変更する内容を発話した場合は、その発話した設定値の変更について、スマートスピーカー50からクラウド100へ音声データが送信され、クラウド100で設定値の変更が行われて、スマートスピーカー50に設定値の変更が行われたことについて音声でフィードバックされる。音声のフィードバックは、例えば「○○設定でコピーします。よろしいですか?」など、変更された設定値でコピーを開始してよいか否かの確認を行う。 Then, in response to the input confirmation feedback, the user speaks to the smart speaker 50 to change the setting value or start copying. When the user utters the contents to change the set value, the smart speaker 50 transmits voice data to the cloud 100 to change the uttered set value, the cloud 100 changes the set value, and the smart speaker changes. The fact that the setting value has been changed is feedbacked by voice in 50. The voice feedback confirms whether or not the copying can be started with the changed setting values, such as "Copy with XX setting. Are you sure?".

その後も、ユーザが設定値を変更する内容を発話する場合は、この手続きが繰り返される。従って、「両面で2部コピーします。上1か所でステープルします。よろしいですか?」との音声出力が行われた後は、ユーザが設定値を変更する内容を発話した回数(k回)だけ、手続きが繰り返される。 After that, when the user speaks the content of changing the set value, this procedure is repeated. Therefore, after the voice output saying "Copy 2 copies on both sides. Staple at 1 place. Are you sure?" Only once), the procedure is repeated.

ユーザが「はい」と応答するなどしてコピーの開始を指示した場合は、図25に示されるn番目の手順が行われる。つまり、ユーザが発話した音声は、スマートスピーカー50(取得部211)により音声データとして取得される(ステップS1−n)。スマートスピーカー50(通信制御部212)は、この「はい」の音声データをクラウド100に送信する(ステップS2−n)。このとき、スマートスピーカー50(通信制御部212)は、スマートスピーカー50を特定するデバイスIDをクラウド100に送信する。 If the user responds with "yes" to instruct to start copying, the n-th procedure shown in FIG. 25 is performed. That is, the voice uttered by the user is acquired as voice data by the smart speaker 50 (acquisition unit 211) (step S1-n). The smart speaker 50 (communication control unit 212) transmits this "yes" voice data to the cloud 100 (step S2-n). At this time, the smart speaker 50 (communication control unit 212) transmits the device ID identifying the smart speaker 50 to the cloud 100.

クラウド100では、操作音声変換部310(取得部311)が、その音声データを取得し、その後は、ステップS3´〜ステップS5´と同様に、操作音声変換部310においてテキスト解釈までの処理が行われ(ステップS3−n〜ステップS5−n)、解釈結果が管理部330へ渡される(ステップS6−n)。 In the cloud 100, the operation voice conversion unit 310 (acquisition unit 311) acquires the voice data, and thereafter, as in steps S3′ to S5′, the operation voice conversion unit 310 performs processing up to text interpretation. I (step S3-n to step S5-n), and the interpretation result is passed to the management unit 330 (step S6-n).

ここで、操作音声変換部310(解釈部313)は、コピー開始指示を認識すると、その解釈結果を管理部330に渡し、管理部330(実行判定部335)が、最終確認OKと判断する(ステップS75−n)。 Here, when the operation voice conversion unit 310 (interpretation unit 313) recognizes the copy start instruction, it passes the interpretation result to the management unit 330, and the management unit 330 (execution determination unit 335) determines that the final confirmation is OK ( Step S75-n).

これにより、管理部330(解釈結果変換部332)は、解釈結果をMFP1のジョブ命令に変換処理する(ステップS76)。そして管理部330(実行指示部333)は、変換処理した実行指示情報をMFP1に送信する(ステップS8)。これにより、音声入力操作により、MFP1をコピー制御することができる。 As a result, the management unit 330 (interpretation result conversion unit 332) converts the interpretation result into a job command for the MFP 1 (step S76). Then, the management unit 330 (execution instruction unit 333) transmits the converted execution instruction information to the MFP 1 (step S8). Thus, the MFP 1 can be copy-controlled by the voice input operation.

図26は、スマートスピーカー50の表示部に表示される画面を示す正面図である。図26に示すように、スマートスピーカー50の表示部に表示される画面は、図13に示した携帯端末装置2に表示される画面と同じである。 FIG. 26 is a front view showing a screen displayed on the display unit of the smart speaker 50. As shown in FIG. 26, the screen displayed on the display unit of the smart speaker 50 is the same as the screen displayed on the mobile terminal device 2 shown in FIG.

スマートスピーカー50に対する発話、及びフィードバックの処理については、第1の実施の形態で示した処理と同じである。概略的には、スマートスピーカー50は、ユーザが発話した内容と、クラウドサービス装置60(操作音声変換プログラム)から受信したレスポンス情報を出力する。レスポンス情報は、テキストデータ、音声データ、画像データの少なくともいずれかを含む情報である。 The process of utterance and feedback to the smart speaker 50 is the same as the process shown in the first embodiment. Schematically, the smart speaker 50 outputs the content uttered by the user and the response information received from the cloud service device 60 (operation voice conversion program). The response information is information including at least one of text data, voice data, and image data.

なお、図26においてスマートスピーカー50のタッチパネル27の画面右側から吹き出し表示されるコメントは、ユーザがスマートスピーカー50に対して発話した内容を示すコメントを示す。また、図26においてスマートスピーカー50のタッチパネル27の画面左側から吹き出し表示されるコメントは、クラウドサービス装置60からユーザの発話に対して音声フィードバックされた内容を示すコメントである。つまり、スマートスピーカー50は、クラウドサービス装置60からフィードバック情報を受信した場合、音声出力でユーザへフィードバックすると同時に、画面表示によってもフィードバックを行う。ただし、音声出力のフィードバックについては省略しても良い。 Note that, in FIG. 26, the comment displayed in a balloon from the right side of the screen of the touch panel 27 of the smart speaker 50 is a comment indicating the content that the user uttered to the smart speaker 50. Further, in FIG. 26, the comment displayed in a balloon from the left side of the screen of the touch panel 27 of the smart speaker 50 is a comment indicating the content of voice feedback from the cloud service device 60 in response to the user's utterance. That is, when the smart speaker 50 receives the feedback information from the cloud service device 60, the smart speaker 50 provides the feedback to the user by voice output and also the feedback by the screen display. However, the feedback of the audio output may be omitted.

ここで、図22〜図25を用いて説明すると、「コピーしますか?スキャンしますか?」のコメントは、ステップS78の音声フィードバックと共にスマートスピーカー50のタッチパネル27の画面に表示される。 Explaining with reference to FIGS. 22 to 25, the comment “Do you want to copy? Do you want to scan?” is displayed on the screen of the touch panel 27 of the smart speaker 50 together with the voice feedback in step S78.

なお、スマートスピーカー50の操作音声処理プログラムは、クラウドサービス装置60からのレスポンス情報に基づいて表示するテキストを生成したり、スマートスピーカー50のROM23などに予め記憶されたテキストデータを表示させたりしても良い。また、レスポンス情報に含まれるテキストデータ及び音声データをそのまま表示しても良い。 The operation voice processing program of the smart speaker 50 may generate text to be displayed based on the response information from the cloud service device 60 or may display text data stored in advance in the ROM 23 of the smart speaker 50. Is also good. Further, the text data and voice data included in the response information may be displayed as they are.

スマートスピーカー50の操作音声処理プログラムは、「コピー」のコメントを、クラウドサービス装置60(操作音声変換プログラム)が音声データをテキストデータに変換したものをレスポンス情報として受信してスマートスピーカー50のタッチパネル27の画面に表示させることができる。 The operation voice processing program of the smart speaker 50 receives the comment of “copy”, which is obtained by converting the voice data into text data by the cloud service device 60 (operation voice conversion program) as response information, and receives the touch panel 27 of the smart speaker 50. Can be displayed on the screen.

なお、クラウドサービス装置60(操作音声変換プログラム)は、任意のタイミングでレスポンス情報を送信することができる。例えば、クラウドサービス装置60(操作音声変換プログラム)は、テキストデータに変換したタイミングで「コピー」のレスポンス情報を生成してスマートスピーカー50に対して送信しても良い(この場合は、「コピー」だけが表示される)。 The cloud service device 60 (operation voice conversion program) can transmit the response information at any timing. For example, the cloud service device 60 (operation voice conversion program) may generate response information of “copy” at the timing of conversion to text data and transmit the response information to the smart speaker 50 (in this case, “copy”). Only displayed).

また、クラウドサービス装置60(管理プログラム)は、「設定値を入力してください」のレスポンス情報を生成するタイミングで、「コピー」のレスポンス情報も生成して、操作音声変換プログラムを介してスマートスピーカー50に送信しても良い(この場合、「コピー」と「設定値を入力してください」がほぼ同時にスマートスピーカー50のタッチパネル27に画面表示される。 Further, the cloud service device 60 (management program) also generates the response information of “copy” at the timing of generating the response information of “please enter the setting value”, and the smart speaker is generated through the operation voice conversion program. It may be transmitted to the device 50 (in this case, "copy" and "please input the set value" are displayed on the touch panel 27 of the smart speaker 50 almost at the same time.

なお、操作音声変換プログラムは、管理プログラムに対して「Copy_Execute」としたインテントを解釈結果として送信する際に、「コピー」のレスポンス情報を生成するために必要な情報を送信しても良い。 Note that the operation voice conversion program may transmit information necessary for generating response information of “copy” when transmitting the intent “Copy_Execute” to the management program as the interpretation result.

また、レスポンス情報は操作音声変換プログラムが作成して、管理プログラムが操作音声変換プログラムを介して「設定値を入力してください」のレスポンス情報をスマートスピーカー50へ送信する際に、一緒に「コピー」のレスポンス情報をスマートスピーカー50へ送信しても良い。 In addition, the response information is created by the operation voice conversion program, and when the management program sends the response information “Please input the setting value” to the smart speaker 50 via the operation voice conversion program, the response information is also “copy” together. The response information “” may be transmitted to the smart speaker 50.

スマートスピーカー50の操作音声処理プログラムは、「設定値を入力してください」のコメントは、図23のステップS78−1の音声フィードバックと共にスマートスピーカー50のタッチパネル27の画面に表示される。即ち、クラウドサービス装置60(管理プログラム)から受信したレスポンス情報に基づいてコメントを表示させる。 The operation voice processing program of the smart speaker 50 displays the comment "Please input the setting value" on the screen of the touch panel 27 of the smart speaker 50 together with the voice feedback in step S78-1 of FIG. That is, the comment is displayed based on the response information received from the cloud service device 60 (management program).

スマートスピーカー50の操作音声処理プログラムは、「両面、2部、ステープル」のコメントを、クラウドサービス装置60(操作音声変換プログラム)が音声データをテキストデータに変換したものを受信して画面に表示させることができる。表示の方法については、「コピー」と話した場合と同様である。 The operation voice processing program of the smart speaker 50 receives the comment “two-sided, two copies, staple”, which the cloud service device 60 (operation voice conversion program) converts voice data into text data and displays it on the screen. be able to. The display method is the same as that when "copy" is spoken.

スマートスピーカー50の操作音声処理プログラムは、「「ステープルの位置を指定してください」のコメントを、図14のステップS26の音声フィードバックと共にスマートスピーカー50のタッチパネル27の画面に複数のイメージ画像それぞれを選択可能なように表示する。例えば、不足設定項目がステープル位置の場合、携帯端末装置2は、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」、それぞれの設定項目を示す、合計4つのイメージ画像をそれぞれが独立して選択可能に表示させる。 The operation voice processing program of the smart speaker 50 selects each of a plurality of image images on the screen of the touch panel 27 of the smart speaker 50 with the comment of "Please specify the position of the staple" and the voice feedback of step S26 of FIG. Display as possible. For example, when the shortage setting item is the stapling position, the mobile terminal device 2 has four images in total, which show the setting items of “upper one place”, “oblique”, “two left places”, and “upper two places”. Each of the images is independently selectable.

このように、スマートスピーカー50は、予めスマートスピーカー50に記憶されたテキストデータ、クラウドサービス装置60から受信したテキストデータ又はレスポンス情報に基づいて、コメントをスマートスピーカー50のタッチパネル27の画面に表示させる。 As described above, the smart speaker 50 causes the comment to be displayed on the screen of the touch panel 27 of the smart speaker 50 based on the text data previously stored in the smart speaker 50, the text data received from the cloud service device 60, or the response information.

ここで、第1の実施の形態で説明した具体例を本実施の形態に適用した場合について説明する。 Here, a case where the specific example described in the first embodiment is applied to this embodiment will be described.

クラウドサービス装置60(管理プログラム)は、不足設定項目(例:ステープル位置)があった場合、スマートスピーカー50に問い合わせを行う。スマートスピーカー50は、音声/コメント表示でユーザへフィードバックする。この際、以下の手順によってユーザへのフィードバックを行う。 The cloud service device 60 (management program) makes an inquiry to the smart speaker 50 when there is an insufficient setting item (eg, staple position). The smart speaker 50 gives a feedback to the user in a voice/comment display. At this time, feedback to the user is performed by the following procedure.

クラウドサービス装置60(管理プログラム)は、不足設定項目として選択可能な全設定(例えば、不足設定項目がステープル位置の場合、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」など)をクラウドサービス装置60内から特定する。ここで、選択可能な設定としては、例えば管理プログラムに予め登録されている辞書情報に基づいて決定することができる。これにより、管理プログラムで解釈可能な設定項目のみを特定することができる。 The cloud service device 60 (management program) sets all the settings that can be selected as the insufficient setting items (for example, when the insufficient setting item is the staple position, “upper one place”, “diagonal”, “two left places”, “upper two”). Etc.) from within the cloud service device 60. Here, the selectable setting can be determined based on, for example, dictionary information registered in advance in the management program. This makes it possible to specify only the setting items that can be interpreted by the management program.

次に、クラウドサービス装置60(管理プログラム)は、特定した設定に対応するイメージ画像を(クラウドサービス装置60内のHDD34などの記憶部から又はクラウドサービス装置60と通信可能な外部サーバから)検索する。例えば、不足設定項目がステープル位置であった場合、ステープル位置をキーワードとして検索を行う。ここで、ステープル位置として設定可能な項目は、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」の4つがある。この場合、4つの設定項目それぞれに対応するイメージ画像を検索することができる。 Next, the cloud service device 60 (management program) searches for an image image corresponding to the specified setting (from a storage unit such as the HDD 34 in the cloud service device 60 or from an external server that can communicate with the cloud service device 60). .. For example, when the shortage setting item is the staple position, the staple position is used as a keyword for the search. Here, there are four items that can be set as the staple position: "upper one place", "oblique", "left two places", and "upper two places". In this case, the image image corresponding to each of the four setting items can be searched.

なお、ステープル位置として上記の4つの設定項目をまとめた一つの画像を検索するものとしても良い。 It should be noted that one image in which the above four setting items are collected may be searched for as the staple position.

次に、クラウドサービス装置60(管理プログラム)は、検索したイメージ画像を操作音声変換プログラムを介してスマートスピーカー50へ送信する。スマートスピーカー50は、受信した画像を後述するように画面上に表示させる。 Next, the cloud service device 60 (management program) transmits the searched image image to the smart speaker 50 via the operation voice conversion program. The smart speaker 50 displays the received image on the screen as described later.

図26に示すように、ユーザが「両面、2部、ステープル」を発話した場合、操作音声変換プログラムでテキスト化及び解釈する。このとき、クラウドサービス装置60(管理プログラム)は、必須パラメータが充足しているか否かを判断する。なお、必須パラメータは、例えば部数である。ただし、ユーザによって所定のジョブ条件が指定された場合は、必須パラメータの項目を変更することができる。例えば、ユーザからステープルを指示された場合は、部数に加えて、ステープル位置を必須パラメータの項目とすることができる。 As shown in FIG. 26, when the user speaks “double-sided, dual-copy, staple”, it is converted into text and interpreted by the operation voice conversion program. At this time, the cloud service device 60 (management program) determines whether the required parameters are satisfied. The essential parameter is, for example, the number of copies. However, when a predetermined job condition is designated by the user, the item of the essential parameter can be changed. For example, when the user instructs stapling, the staple position can be set as an essential parameter item in addition to the number of copies.

ここで、ステープル位置が必須パラメータとして設定されている場合、クラウドサービス装置60(管理プログラム)は、必須パラメータが満たされていないと判断し、スマートスピーカー50に対して不足設定項目を問い合わせる。このとき、図26に示すように、ステープル位置として設定可能な項目を示す1以上の画像をスマートスピーカー50のタッチパネル27に表示させることで、ユーザに対して不足設定項目の入力を促すことができる。なお、図26に示すように、コメントに加えて画像を表示しても良いし、コメントは省略して画像のみを表示しても良い。また、設定可能な全ての項目について画像を表示しても良いし、代表的な項目のみを画像で表示しても良い。 Here, when the staple position is set as an essential parameter, the cloud service device 60 (management program) determines that the essential parameter is not satisfied, and inquires of the smart speaker 50 about the insufficient setting item. At this time, as shown in FIG. 26, by displaying one or more images showing items that can be set as the staple position on the touch panel 27 of the smart speaker 50, the user can be prompted to input the insufficient setting items. .. As shown in FIG. 26, an image may be displayed in addition to the comment, or the comment may be omitted and only the image may be displayed. Further, images may be displayed for all the settable items, or only representative items may be displayed as images.

図26では、ステープル位置として設定可能な項目として、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」の4つの項目それぞれを示す画像を表示している。また、各画像には、それぞれの設定項目の名称(「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」)がそれぞれテキスト表示されている。なお、表示される呼称は、音声アシスタントプログラムに予め登録されている辞書情報に対応している。これにより、ユーザは画像と共に表示されているテキストを発話することによって、所望のステープル位置を指定することができる。 In FIG. 26, as the items that can be set as the staple position, an image showing each of the four items of “upper one place”, “oblique”, “two left places”, and “upper two places” is displayed. In addition, the name of each setting item (“upper one place”, “diagonal”, “left two places”, “upper two places”) is displayed in text on each image. The displayed name corresponds to dictionary information registered in advance in the voice assistant program. This allows the user to specify a desired staple position by speaking the text displayed with the image.

なお、以上では画像表示するジョブ条件としてステープル位置を例にして説明したが、これに限定されない。例えば、集約、製本、パンチ位置、ディザリング設定など、任意の印刷条件について画像表示することができる。また、コピーや印刷の条件に限らず、スキャン、FAXなど、他の機能に関する設定条件について画像表示することができる。 Although the staple position has been described as an example of the job condition for displaying an image in the above description, the present invention is not limited to this. For example, images can be displayed for arbitrary printing conditions such as aggregation, bookbinding, punch positions, dithering settings, and the like. Further, not only the conditions for copying and printing, but also the setting conditions for other functions such as scanning and FAX can be displayed as an image.

このように本実施の形態によれば、例えば「呼び方」が難しく、口頭での指示に不向きな設定についての選択肢を報知することにより、「ステープルの位置設定」などの呼び方が難しい設定指示を容易にすることができる。また、ユーザは、経験的に設定の「呼び方」を覚えることができ、ユーザは、次からその「呼び方」を指示できるようになる。 As described above, according to the present embodiment, for example, “calling” is difficult, and by giving an option about settings that are not suitable for verbal instructions, setting instructions such as “staple position setting” that is difficult to call Can be facilitated. Further, the user can empirically learn the “calling” of the setting, and the user can instruct the “calling” from the next time.

なお、本実施の形態においては、クラウドサービス装置60(管理プログラム)が、特定した設定に対応するイメージ画像を検索するようにしたが、これに限るものではない。 In the present embodiment, the cloud service device 60 (management program) searches for an image image corresponding to the specified setting, but the present invention is not limited to this.

例えば、特定した設定に対応するイメージ画像をスマートスピーカー50が検索するものであってもよい。この場合、クラウドサービス装置60(管理プログラム)は、不足設定項目をスマートスピーカー50に対して問い合わせをする。クラウドサービス装置60(管理プログラム)は、「レスポンス:ステープルの位置を選択してください」とのレスポンス情報を送信する。このとき、クラウドサービス装置60(管理プログラム)は、イメージ画像の表示をスマートスピーカー50に要求する指示を含めたレスポンス情報を送信しても良い。また、スマートスピーカー50が、所定のレスポンスを受信した場合に(例えば、「ステープルの位置を選択してください」のテキストデータを受信したことに応答して)、イメージ画像の表示をすることを判断しても良い。 For example, the smart speaker 50 may search for an image image corresponding to the specified setting. In this case, the cloud service device 60 (management program) inquires of the smart speaker 50 about the insufficient setting item. The cloud service device 60 (management program) transmits the response information “Response: Please select the position of the staple”. At this time, the cloud service device 60 (management program) may transmit response information including an instruction for requesting the smart speaker 50 to display an image. In addition, when the smart speaker 50 receives a predetermined response (for example, in response to receiving the text data “Please select the staple position”), the smart speaker 50 determines to display the image. You may.

問い合わせを受けた場合、スマートスピーカー50は、不足設定項目として選択可能な全設定(「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」)をスマートスピーカー50内から特定して、特定した設定に対応するイメージ画像を(スマートスピーカー50のROM23などの記憶部又はスマートスピーカー50がアクセス可能な外部サーバ又はMFP1から)検索して、検索したイメージ画像を表示する。なお、選択可能な項目の特定、及びイメージ画像の検索方法は、上述のクラウドサービス装置60(管理プログラム)が特定した設定に対応するイメージ画像を検索する方法と同様である。 When an inquiry is received, the smart speaker 50 identifies from the smart speaker 50 all settings that can be selected as insufficient setting items (“upper one place”, “diagonal”, “left two places”, “upper two places”). Then, the image image corresponding to the specified setting is searched (from the storage unit such as the ROM 23 of the smart speaker 50 or the external server or the MFP 1 accessible by the smart speaker 50), and the searched image image is displayed. The method of specifying the selectable items and the method of searching the image image are the same as the method of searching the image image corresponding to the setting specified by the cloud service device 60 (management program).

スマートスピーカー50は、イメージ画像を画面に表示することで、ユーザに不足設定項目の入力を促すことができる。ここで、不足設定項目の入力方法は、音声で指示を行うことができるが、音声以外の方法、例えば画面のタッチで指示を行っても良い。 The smart speaker 50 can prompt the user to input the insufficient setting item by displaying the image image on the screen. Here, the input method of the insufficient setting items can be instructed by voice, but the method may be performed by a method other than voice, for example, by touching the screen.

この場合、イメージ画像をスマートスピーカー50のタッチパネル27上に選択可能に表示して、画面タッチで選択を受け付けた場合に選択された画像に対応する設定情報をクラウドサービス装置60へ送信する構成であっても良い。 In this case, the image images are displayed on the touch panel 27 of the smart speaker 50 in a selectable manner, and when the selection is received by touching the screen, the setting information corresponding to the selected image is transmitted to the cloud service device 60. May be.

スマートスピーカー50は、複数のイメージ画像それぞれを選択可能なようにタッチパネル27の画面上に表示する。例えば、不足設定項目がステープル位置の場合は、「上1ヶ所」、「斜め」、「左2ヶ所」、「上2ヶ所」、それぞれの設定項目を示す、合計4つのイメージ画像をそれぞれが独立して選択可能に表示させる。 The smart speaker 50 displays a plurality of image images on the screen of the touch panel 27 so that they can be selected. For example, when the shortage setting item is the staple position, a total of four image images indicating “one place”, “diagonal”, “two places on the left”, and “two places on the top” are set independently. And selectably display.

スマートスピーカー50は、イメージ画像のいずれかが選択された場合、選択されたイメージ画像に対応する設定値(又はどのイメージ画像が選択されたかを特定する情報)を、クラウドサービス装置60の操作音声変換プログラムへ送信する。 When any one of the image images is selected, the smart speaker 50 converts the setting value corresponding to the selected image image (or the information specifying which image image is selected) into the operation voice conversion of the cloud service device 60. Send to the program.

最後に、上述の各実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。 Lastly, each of the above-described embodiments is presented as an example, and is not intended to limit the scope of the present invention. The novel embodiment can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention.

このような各実施の形態及び各実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 Such respective embodiments and modifications of the respective embodiments are included in the scope and gist of the invention, and are also included in the invention described in the claims and its equivalent scope.

なお、上記実施の形態では、本発明の画像形成装置を、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも2つの機能を有する複合機に適用した例を挙げて説明するが、複写機、プリンタ、スキャナ装置、ファクシミリ装置等の画像形成装置であればいずれにも適用することができる。 In the above embodiment, the image forming apparatus of the present invention is described as an example in which the image forming apparatus is applied to a multifunction machine having at least two functions of a copy function, a printer function, a scanner function, and a facsimile function. The present invention can be applied to any image forming apparatus such as a printer, a scanner device, and a facsimile device.

1 外部装置
2、50 情報処理装置
51、211 取得部
52、212 出力部
55、213 報知部
62 音声認識部
72 解釈部
1 External Device 2, 50 Information Processing Device 51, 211 Acquisition Unit 52, 212 Output Unit 55, 213 Notification Unit 62 Speech Recognition Unit 72 Interpretation Unit

特開2014−203024号公報JP, 2014-203024, A

Claims (8)

情報処理装置及び外部装置を含む情報処理システムにおいて、
前記外部装置を操作するための設定指示を含む音声情報を取得する取得部と、
前記音声情報を認識する音声認識部と、
前記音声認識部による前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知部と、
前記操作情報において不足する設定を解釈する解釈部と、
前記操作情報を前記外部装置に出力する出力部と、
を備え、
前記報知部は、前記操作情報において不足する設定にかかる選択肢を前記情報処理装置の画面にて報知する、
ことを特徴とする情報処理システム。
In an information processing system including an information processing device and an external device,
An acquisition unit for acquiring audio information including a setting instruction for operating the external device,
A voice recognition unit for recognizing the voice information,
A notification unit for notifying operation information based on the recognition result of the voice information by the voice recognition unit on the screen of the information processing device,
An interpreting unit that interprets a setting that is insufficient in the operation information,
An output unit that outputs the operation information to the external device,
Equipped with
The informing unit informs a screen of the information processing device of options related to a setting that is insufficient in the operation information,
An information processing system characterized by the above.
前記報知部は、前記選択肢として設定可能な項目を示す画像を表示する、
ことを特徴とする請求項1に記載の情報処理システム。
The notification unit displays an image showing items that can be set as the options,
The information processing system according to claim 1, wherein:
前記報知部は、前記選択肢として設定可能な項目を示す呼称を表示する、
ことを特徴とする請求項1に記載の情報処理システム。
The notification unit displays a name indicating an item that can be set as the option,
The information processing system according to claim 1, wherein:
前記報知部は、前記選択肢として設定可能な項目を示す画像および呼称を表示する、
ことを特徴とする請求項1に記載の情報処理システム。
The notification unit displays an image and a name indicating an item that can be set as the option,
The information processing system according to claim 1, wherein:
前記報知部は、前記選択肢として設定可能な項目のうち、代表的な項目のみについて画像を表示し、その他の設定可能な項目については呼称を表示する、
ことを特徴とする請求項1に記載の情報処理システム。
Of the items that can be set as the options, the notification unit displays an image only for typical items, and displays a name for other items that can be set.
The information processing system according to claim 1, wherein:
前記報知部は、前記選択肢として設定可能な項目を示す画像を選択可能に表示するものであって、
前記解釈部は、選択された画像にかかる前記設定可能な項目を含めた前記操作情報において不足する設定を解釈する、
ことを特徴とする請求項1に記載の情報処理システム。
The notifying unit is configured to selectably display an image showing items that can be set as the options,
The interpretation unit interprets a setting that is insufficient in the operation information including the settable item related to the selected image,
The information processing system according to claim 1, wherein:
情報処理装置を制御するコンピュータを、
外部装置を操作するための設定指示を含む音声情報を取得する取得部と、
前記音声情報を認識する音声認識部による前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知部と、
前記操作情報を前記外部装置に出力する出力部と、
として機能させ、
前記報知部は、前記操作情報において不足する設定にかかる選択肢を前記情報処理装置の画面にて報知する、
ことを特徴とするプログラム。
A computer that controls the information processing device
An acquisition unit that acquires audio information including a setting instruction for operating an external device,
A notification unit that notifies operation information based on the recognition result of the voice information by the voice recognition unit that recognizes the voice information on the screen of the information processing device,
An output unit that outputs the operation information to the external device,
Function as
The informing unit informs a screen of the information processing device of options related to a setting that is insufficient in the operation information,
A program characterized by that.
情報処理装置及び外部装置を含む情報処理システムにおける情報処理方法であって、
前記外部装置を操作するための設定指示を含む音声情報を取得する取得ステップと、
前記音声情報を認識する音声認識ステップと、
前記音声認識ステップによる前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知ステップと、
前記操作情報において不足する設定を解釈する解釈ステップと、
前記操作情報を前記外部装置に出力する出力ステップと、
を含み、
前記報知ステップは、前記操作情報において不足する設定にかかる選択肢を前記情報処理装置の画面にて報知する、
ことを特徴とする情報処理方法。
An information processing method in an information processing system including an information processing device and an external device,
An acquisition step of acquiring voice information including a setting instruction for operating the external device;
A voice recognition step of recognizing the voice information,
A notification step of notifying operation information based on the recognition result of the voice information by the voice recognition step on the screen of the information processing device,
An interpreting step of interpreting a setting that is insufficient in the operation information,
An output step of outputting the operation information to the external device,
Including,
The informing step informs the options related to the setting lacking in the operation information on the screen of the information processing device,
An information processing method characterized by the above.
JP2018226140A 2018-11-30 2018-11-30 Information processing system, program, and information processing method Pending JP2020087381A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018226140A JP2020087381A (en) 2018-11-30 2018-11-30 Information processing system, program, and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018226140A JP2020087381A (en) 2018-11-30 2018-11-30 Information processing system, program, and information processing method

Publications (1)

Publication Number Publication Date
JP2020087381A true JP2020087381A (en) 2020-06-04

Family

ID=70908493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018226140A Pending JP2020087381A (en) 2018-11-30 2018-11-30 Information processing system, program, and information processing method

Country Status (1)

Country Link
JP (1) JP2020087381A (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149183A (en) * 2000-07-26 2002-05-24 Canon Inc Voice processing system
JP2004248057A (en) * 2003-02-14 2004-09-02 Ricoh Co Ltd Image forming device
JP2010224890A (en) * 2009-03-24 2010-10-07 Konica Minolta Business Technologies Inc Operation screen control device, image forming apparatus, and computer program
JP2010282300A (en) * 2009-06-02 2010-12-16 Ricoh Co Ltd Program, recording medium, and information processor
JP2015501022A (en) * 2011-09-30 2015-01-08 アップル インコーポレイテッド Automatic user interface adaptation for hands-free interaction
JP2015106853A (en) * 2013-11-29 2015-06-08 キヤノンマーケティングジャパン株式会社 Image forming apparatus, control method of image forming apparatus, and program
JP2016045762A (en) * 2014-08-25 2016-04-04 富士ゼロックス株式会社 Information processing device and program
JP2018046416A (en) * 2016-09-14 2018-03-22 富士ゼロックス株式会社 Information processing device and program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149183A (en) * 2000-07-26 2002-05-24 Canon Inc Voice processing system
JP2004248057A (en) * 2003-02-14 2004-09-02 Ricoh Co Ltd Image forming device
JP2010224890A (en) * 2009-03-24 2010-10-07 Konica Minolta Business Technologies Inc Operation screen control device, image forming apparatus, and computer program
JP2010282300A (en) * 2009-06-02 2010-12-16 Ricoh Co Ltd Program, recording medium, and information processor
JP2015501022A (en) * 2011-09-30 2015-01-08 アップル インコーポレイテッド Automatic user interface adaptation for hands-free interaction
JP2015106853A (en) * 2013-11-29 2015-06-08 キヤノンマーケティングジャパン株式会社 Image forming apparatus, control method of image forming apparatus, and program
JP2016045762A (en) * 2014-08-25 2016-04-04 富士ゼロックス株式会社 Information processing device and program
JP2018046416A (en) * 2016-09-14 2018-03-22 富士ゼロックス株式会社 Information processing device and program

Similar Documents

Publication Publication Date Title
JP2020086412A (en) Information processing system, program, and information processing method
US11355106B2 (en) Information processing apparatus, method of processing information and storage medium comprising dot per inch resolution for scan or copy
US10917369B2 (en) Information processing apparatus, information processing system, and information processing method
JP7180330B2 (en) Information processing system, information processing device, and method
JP7215118B2 (en) Information processing device, information processing system, program and method
US11302321B2 (en) Audio-based operation system, method of processing information using audio-based operation and storage medium
JP7188036B2 (en) Information processing device, information processing system, and method
US11159339B2 (en) Information processing apparatus, method of processing information and storage medium
US11211069B2 (en) Information processing system, information processing method, and non-transitory recording medium
JP2019185734A (en) Information processing system, information processing apparatus, information processing method, and information processing program
CN110875993B (en) Image forming system with interactive agent function, control method thereof, and storage medium
US11423903B2 (en) Information processing system and information processing method
US11240390B2 (en) Server apparatus, voice operation system, voice operation method, and recording medium
US11792338B2 (en) Image processing system for controlling an image forming apparatus with a microphone
JP2021081875A (en) Information processing system, information processing method, information processing device and output device
JP7215119B2 (en) Information processing system, program and information processing method
US11647129B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
JP7151428B2 (en) Information processing system, program and information processing method
JP2020087381A (en) Information processing system, program, and information processing method
US11825042B2 (en) Peripheral device management system, peripheral device management method, and printing apparatus control system
JP2020087383A (en) Information processing system, program, and information processing method
JP2020087382A (en) Information processing system, program, and information processing method
US20220394141A1 (en) Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220826

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221220