JP2021085982A - 情報処理装置、入出力デバイスの起動方法 - Google Patents

情報処理装置、入出力デバイスの起動方法 Download PDF

Info

Publication number
JP2021085982A
JP2021085982A JP2019214509A JP2019214509A JP2021085982A JP 2021085982 A JP2021085982 A JP 2021085982A JP 2019214509 A JP2019214509 A JP 2019214509A JP 2019214509 A JP2019214509 A JP 2019214509A JP 2021085982 A JP2021085982 A JP 2021085982A
Authority
JP
Japan
Prior art keywords
voice
input
information processing
output device
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019214509A
Other languages
English (en)
Inventor
一浩 菅原
Kazuhiro Sugawara
一浩 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019214509A priority Critical patent/JP2021085982A/ja
Priority to US16/950,515 priority patent/US11327697B2/en
Publication of JP2021085982A publication Critical patent/JP2021085982A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1253Configuration of print job parameters, e.g. using UI at the client
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1202Dedicated interfaces to print systems specifically adapted to achieve a particular effect
    • G06F3/1218Reducing or saving of used resources, e.g. avoiding waste of consumables or improving usage of hardware resources
    • G06F3/1221Reducing or saving of used resources, e.g. avoiding waste of consumables or improving usage of hardware resources with regard to power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1278Dedicated interfaces to print systems specifically adapted to adopt a particular infrastructure
    • G06F3/1285Remote printer device, e.g. being remote from client or server
    • G06F3/1287Remote printer device, e.g. being remote from client or server via internet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1202Dedicated interfaces to print systems specifically adapted to achieve a particular effect
    • G06F3/1203Improving or facilitating administration, e.g. print management
    • G06F3/1205Improving or facilitating administration, e.g. print management resulting in increased flexibility in print job configuration, e.g. job settings, print requirements, job tickets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1253Configuration of print job parameters, e.g. using UI at the client
    • G06F3/1258Configuration of print job parameters, e.g. using UI at the client by updating job settings at the printer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Facsimiles In General (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)

Abstract

【課題】 スピーカにウェイクワードを発話することなく、スピーカを起動することができる。【解決手段】 画像形成装置101は、音声が入力され、入力された音声に対応する音声データを出力し、出力した音声データを解析するクラウドサーバ102と通信可能なスピーカ5000と通信可能である。画像形成装置100は、音声を出力するスピーカ51と、スピーカ5000を起動するためのユーザ操作を受信する受信手段と、受信手段によって受信されたユーザ操作に従って、スピーカ5000を起動させるウェイクワードをスピーカ5000から出力するよう制御する制御手段と、を備える。【選択図】 図17

Description

本発明は、音声を入出力する入出力デバイスと通信可能な情報処理装置、及び入出力デバイスの起動方法に関する。
昨今、音声認識技術の発展により、入力された音声に基づいて情報処理装置を制御するシステムが普及している。特許文献1には、ユーザの声による印刷指示で印刷処理を実行するシステムが開示されている。これにより、ユーザは、印刷装置の操作部を操作することなく、指示の内容を発話するだけで、ジョブの設定指示やジョブの実行指示を行うことができる。入出力デバイスは、音声をマイクで録音し、録音した音声の音声データを外部サーバ群(クラウドサーバ)に送信し、クラウドサーバで音声データを解析し、解析結果に基づいて画像形成装置を制御する。
特開2019−95520号公報
しかしながら、入出力デバイスは、ユーザが入出力デバイスを起動させる音声(以下、ウェイクワードとする)を入出力デバイスに発話するか、入出力デバイスの起動ボタンを押下しないと、起動しない。また、クラウドサーバによる情報処理装置の音声操作サービスは、ユーザが情報処理装置の音声操作サービスを起動するワード(以下、音声操作起動ワードとする)を入出力デバイスに発話しないと起動しない。よって、ユーザからの発話による情報処理装置の音声操作サービスは、ウェイクワード及び音声操作起動ワードを発話しないと、起動することが出来なかった。
そこで、本発明は、入出力装置にウェイクワードを発話することなく、入出力デバイスを起動することが可能な情報処理装置を提供することを目的とする。
上記目的を達成するために、本発明の情報処理装置は、音声が入力され、入力された音声に対応する音声データを出力し、出力した音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置であって、音声を出力する音声出力手段と、入出力デバイスを起動するためのユーザ操作を受信する受信手段と、受信手段によって受信されたユーザ操作に従って、入出力デバイスを起動させるウェイクワードを音声出力手段から出力するよう制御する制御手段と、を備える。
本発明によれば、入出力装置にウェイクワードを発話することなく、入出力デバイスを起動することができる。
音声認識システムのシステム構成図である。 画像形成装置の操作パネルの構成図である。 音声制御装置のハードブロック図である。 クラウドサーバのハードブロック図である。 画像形成装置のハードブロック図である。 音声制御装置の制御プログラムのソフトブロック図である。 クラウドサーバの制御プログラムのソフトブロック図である。 クラウドサーバが音声認識するワードとグループIDリストを示す図である。 クラウドサーバの画像形成装置用の制御プログラムのソフトブロック図である。 システムを構成する装置間のシーケンスを説明する図である。 システムを構成する装置間の起動シーケンスを説明する図である。 実施例2のシステムを構成する装置間の起動シーケンスを説明する図である。 画像形成装置のデバイス制御プログラムを説明するフローチャートである。 画像形成装置の音声認識起動トリガ設定を説明するフローチャートである。 画像形成装置の音声認識起動制御を説明するフローチャートである。 画像形成装置の音声認識制御を説明するフローチャートである。 画像形成装置の音声認識終了トリガ判定を説明するフローチャートである。 音声制御装置の音声制御プログラムを説明するフローチャートである。 クラウドサーバの音声データ変換制御プログラムを説明するフローチャートである。 音声認識システムのデータ構成を説明する図である。
以下、本発明を実施するための形態について実施例を挙げ、図面を用いて具体的に説明する。ただし、実施例で挙げる構成要素はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。
(実施例1)
<システムの構成>
図1は、本実施例のシステム構成の一例を示す図である。図1に示すように、本実施例のシステムは、例えば、音声制御装置100、画像形成装置101、クラウドサーバ102、クライアント端末103、ゲートウェイ105で構成される。本発明の入出力デバイスの一例が、音声制御装置100である。本発明の情報処理装置の一例が、画像形成装置101である。本発明のサーバの一例が、クラウドサーバ102である。
音声制御装置100、画像形成装置101、クライアント端末103は、ゲートウェイ105およびネットワーク104を介して互いに通信可能である。なお、音声制御装置100、画像形成装置101、クライアント端末103のそれぞれは、単一接続ではなく複数接続された構成であってもよい。また、音声制御装置100、画像形成装置101、クライアント端末103は、ゲートウェイ105およびインターネットを介してクラウドサーバ102に通信可能である。
音声制御装置100は、ユーザ106の音声操作開始指示に従い、ユーザ106の音声を録音してクラウドサーバ102へ符号化された音声データとして送信する。音声制御装置100は、スマートスピーカやスマートフォンなどであって、音声によりユーザとコミュニケーション可能な装置である。この音声制御装置100は、音声を入力可能であって、且つ、音声を出力可能である。なお、本実施例では、音声制御装置100と画像形成装置101が独立した構成となっているが、この構成に限定するものではない。音声制御装置100を構成するハードウェア(図3に記載のハードブロック)、及び、ソフトウェア機能(図6に記載のソフトブロック)の少なくとも一方が画像形成装置101の中に含まれていてもよい。
画像形成装置101は、コピー、スキャン、プリント、FAX等の複数の機能を備える複合機である。なお、画像形成装置101は、プリンタやスキャナなど、単体の機能を備える装置であってもよい。操作パネル509は、図2及び図5で後述する。また、スピーカ517は、図5で後述する。実施例1の画像形成装置101は、カラーレーザービーム複合機とである。
クラウドサーバ102は、1つ以上のクラウドサーバにより構成され、音声認識および画像形成装置101の音声操作サービスを提供する。クラウドサーバ102は、音声制御装置100が取得したユーザ106の音声データの音声認識、及び、音声認識結果から画像形成装置101の画面操作・ジョブ実行に関わるワードを判定するための役割を有する。また、クラウドサーバ102は、音声認識結果またはワードの判定結果に応じてテキストを生成し、そのテキストの内容を音声制御装置100で音声再生するための音声データの合成も行う。ここで、ジョブとは、画像形成装置101がプリントエンジン513またはスキャナ515を用いて実現する一連の画像形成処理(例えばコピー、スキャン、プリントなど)の実行単位を示す。
クライアント端末103は、例えば、ユーザ106が使うパーソナル・コンピュータ(PC)やスマートフォンである。クライアント端末103は、電子ファイルを画像形成装置101でプリントするためのプリントジョブを生成する。電子ファイルは、クライアント端末103に格納されていてもよいし、インターネット上の何処かのサーバ上(不図示)、あるいは、画像形成装置101の外部記憶装置505上などに格納されていてもよい。また、クライアント端末103は、画像形成装置101でスキャンされた画像データの受信を行うこともできる。なお、クライアント端末103の動作は、本実施例の主旨と直接的に関係しないため、これ以上の詳細な説明は省略する。
ネットワーク104は、音声制御装置100、画像形成装置101、クライアント端末103、ゲートウェイ105を互いに接続する。ネットワーク104は、音声制御装置100が取得した音声データをクラウドサーバ102へ送信する。また、ネットワーク104は、クラウドサーバ102から送信される音声データを送信する。また、ネットワーク104は、クライアント端末103から送信されるプリントジョブやスキャンジョブなどの各種データを送信する。
ゲートウェイ105は、例えば、IEEE802.11規格シリーズに準拠した無線LANルータなどである。ゲートウェイ105、他の無線通信方式に従って動作する能力を有してもよい。また、無線LANルータではなく、10BASE−T、100BASET、1000BASE−Tなどに代表されるEthernet規格に準拠した有線LANルータなどでもよく、他の有線通信方式に従って動作する能力を有してもよい。なお、前記IEEE802.11規格シリーズとは、IEEE802.11aやIEEE802.11b等のIEEE802.11に属する一連の規格である。
<画像形成装置の操作パネル>
図2は、画像形成装置101の操作パネル509の構成例を示す図である。
操作パネル509はLED(Light Emitting Diode)やLCD(Liquid Crystal Display)ディスプレイを備える。LEDは、装置の内部状態を示し、LCDディスプレイは、各種の情報を表示する。また、操作パネル509は、ユーザ106の操作を受け付ける入力部を備える。入力部は、例えば、複数のハードキーやLCDディスプレイと一体となったタッチパネル200などである。図2のタッチパネル200は、画像形成装置101の起動直後に表示されるホーム画面を表示している。ホーム画面は、画像形成装置101が実行する各機能のボタン(コピーボタン203、スキャンボタン204、ファクス、音声認識ボタン201、ログインボタン202など)を表示する。ここで、ボタンとは、ユーザ106が判別可能なタッチパネル上の一定区画の領域を示し、この領域へのタッチを検知すると表示されているボタンに定義された機能を実行する。
音声認識ボタン201は、音声制御装置100を起動するためのユーザ操作を受け付けるためのボタンである。音声認識ボタン201を押下し、音声制御装置100による音声入力が可能になると、音声認識中を示す情報がステータス表示205の領域に表示する。本発明の受信手段の一例が、音声認識ボタン201である。
ログインボタン202は、画像形成装置を用いるユーザ認証を実行するための画面を表示する。ユーザ認証実行後は、認証したユーザ毎にカスタマイズした画面を表示する。また、認証したユーザ毎に音声認識する・しないを設定し、音声認識による入力操作を認証ユーザ毎に受け付け可能または不可能に設定してもよい。
ホームボタン210は、ホーム画面200を表示するためのボタンである。ホーム210は、タッチパネル200に常時表示される。
ストップボタン211は、画像形成装置101の動作の停止するボタンである。ストップボタン211は、タッチパネル200に常時表示される。
データLED220及びエラーLED221は、画像形成装置101の状態をユーザに通知するものである。データLED210は、送信ジョブや印刷ジョブの実行中に点灯し、エラーLED211は、画像形成装置101に何らかのエラー(ジャム・紙無しなど)が発生した際に点灯する。
ステータス表示205は、ステータス表示領域で、画像形成装置のステータスを表示している。ステータス表示205は、音声認識の起動中を示す“起動中です”〜 “音声認識中”のように外部の音声制御装置との接続状態を表示する。その他、“印刷中”、“受信中”、“送信中”、“読み取り中”などのジョブの状況も表示する。また、“紙なし”、“ジャム”、“トナー無”などのエラー状態も表示する。また、複数の状況・状態が発生している場合、表示を1秒ごとに繰り返して切り替えながら表示する。例えば、音声認識中にコピージョブの印刷を実行し、紙なしエラーが発生している場合、“音声認識中”〜“印刷中”〜“紙なし”のステータスを切り替えながら繰り返し表示する。なお、音声認識起動中は、表示しているステータスを音声制御装置100より音声で通知するようにしてもよい。例えば、音声認識結果を音声で通知する設定を設けて、音声で通知する設定時には、音声制御装置がステータス表示の内容を確認するための制御をクラウドサーバ102に指示して、クラウドサーバ102から音声合成データを取得して通知する。さらに、音声認識起動中は、音声認識により認識されたワードをテキストでステータス表示205に表示するようにしてもよい。例えば、音声認識結果のテキストデータをクラウドサーバ102が画像形成装置に送信し、画像形成装置が受信したテキストデータをステータス表示205に表示する。
<音声制御装置のハードウェア構成>
図3は、音声制御装置100のハードウェア構成図である。
図3に示すように、音声制御装置100のコントローラ部300は、CPU302、RAM303、ROM304、外部記憶装置305、ネットワークI/F306、マイクI/F307、オーディオコントローラ309、および表示コントローラ311を含む。これらの構成はシステムバス301に接続されており、互いに通信可能である。また、音声制御装置100は、コントローラ部300に接続されるデバイスとして、マイクロフォン308、スピーカ310、LED312を含む。
CPU302は、コントローラ部300全体の動作を制御する中央演算装置である。RAM303は、揮発性メモリである。ROM304は、不揮発性メモリであり、CPU302の起動用プログラムが格納されている。外部記憶装置305は、RAM303と比較して大容量な記憶デバイス(例えばSDカード)である。外部記憶装置305には、コントローラ部300によって実行される音声制御装置100の制御用プログラムが格納されている。なお、外部記憶装置305は、SDカード以外のフラッシュROMなどに置き換えてもよく、SDカードと同等の機能を有する他の記憶デバイスに置き換えてもよい。
CPU302は、電源ONにより起動する時、ROM304に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置305に格納されている制御用プログラムを読み出し、RAM303上に展開するためのプログラムである。CPU302は、起動用プログラムを実行すると、続けてRAM303上に展開した制御用プログラムを実行し、音声の入出力制御、表示制御、ネットワーク104とのデータ通信制御を行う。また、CPU302は、制御用プログラムの実行時に用いるデータもRAM303上に格納して読み書きを行う。外部記憶装置305上には、制御用プログラムの実行時に必要な各種設定などを格納することができる。各種設定は、クラウドサーバ102のURL(画像形成装置へのアクセスを可能にする)やウェイクワードなどを格納し、CPU302によって読み書きされる。CPU302は、ネットワークI/F306を介してネットワーク104上の他の機器との通信を行う。
ネットワークI/F306は、IEEE802.11規格シリーズに準拠した無線通信方式に従って通信を行うための回路やアンテナを含む。ただし、無線通信方式でなくEthernet規格に準拠した有線通信方式であってもよく、無線通信方式に限定するものではない。
マイクI/F307は、マイクロフォン308に接続され、ユーザ106が発した音声をマイクロフォン308から入力し、符号化された音声データに変換し、CPU302の指示によりRAM303に格納する。
マイクロフォン308は、ユーザ106の音声を取得できる音声入力用のデバイスである。例えば、スマートフォンなどに搭載される小型のMEMSマイクロフォンなどである。また、マイクロフォン308は、ユーザ106が発した音声の到来方向を算出できるように、3個以上を所定の位置に配して用いてもよい。ただし、マイクロフォン308は、1個であっても本実施例は実現でき、3個以上にこだわるものではない。
オーディオコントローラ309は、スピーカ310に接続され、CPU302の指示に応じて音声データをアナログ音声信号に変換し、スピーカ310を通じて音声を出力する。
スピーカ310は、音声制御装置100が応答していることを表す応答音、及び、クラウドサーバ102によって合成された音声合成を出力する。スピーカ310は、音声を出力するための汎用のデバイスであり、その仕組みは本実施例の主旨ではないため、これ以上の説明は省略する。
表示コントローラ311は、LED312に接続されCPU302の指示に応じてLED312の表示を制御する。ここでは、表示コントローラ311は、音声制御装置100がユーザ106の音声を正しく入力していることを示すためのLEDの点灯制御を主に行う。
LED312は、例えば、ユーザ106が可視可能な青色などのLEDである。LED312は汎用のデバイスであり、本実施例の主旨ではないため、これ以上の説明は省略する。なお、LED312の代わりに、文字や絵を表示可能なディスプレイ装置に置き換えてもよい。
<クラウドサーバのハードウェア構成>
図4は、クラウドサーバのハードウェア構成図である。
クラウドサーバ102は、システムバス401に接続されたCPU402、RAM403、ROM404、外部記憶装置405、ネットワークI/F406を含む。
CPU402は、クラウドサーバ102全体の動作を制御する中央演算装置である。RAM403は、揮発性メモリである。ROM404は、不揮発性メモリであり、CPU402の起動用プログラムが格納されている。外部記憶装置405は、RAM403と比較して大容量な記憶装置(例えばハードディスクドライブ:HDD)である。外部記憶装置405には、CPU402が実行する、クラウドサーバ102の制御用プログラムが格納されている。なお、外部記憶装置405は、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよく、例えばソリッドステートドライブ(SSD)などを用いてもよい。さらに、クラウドサーバ102としてアクセス可能な外部ストレージに置き換えてもよい。
CPU402は、電源ON等の起動時、ROM404に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置405に格納されている制御用プログラムを読み出し、RAM403上に展開するためのものである。CPU402は、起動用プログラムを実行すると、続けてRAM403上に展開した制御用プログラムを実行する。また、CPU402は、制御用プログラムの実行時に用いるデータもRAM403上に格納して読み書きを行う。外部記憶装置405上には、制御用プログラム実行時に必要な各種設定を格納することができる。各種設定は、CPU402によって読み書きされる。CPU402は、ネットワークI/F406を介してネットワーク104上の他の機器との通信を行う。
<画像形成装置のハードウェア構成>
図5は、画像形成装置101のハードウェア構成図である。
図5に示すように、コントローラ部500は、CPU502、RAM503、ROM504、外部記憶装置505を有し、それぞれがシステムバス501に接続している。また、コントローラ部500は、ネットワークI/F506、ディスプレイコントローラ507、操作I/F508、プリントコントローラ512、スキャンコントローラ514、オーディオI/F516を有する。これらの構成は、システムバス501に接続され、互いに通信可能である。
CPU502は、コントローラ部500の全体の動作を制御する中央演算装置である。RAM503は、揮発性メモリである。ROM504は、不揮発性メモリであり、CPU502の起動用プログラムが格納されている。外部記憶装置505は、RAM503と比較して大容量な記憶装置(例えばハードディスクドライブ:HDD)である。外部記憶装置505には、CPU502によって実行される制御用プログラムが格納されている。なお、外部記憶装置505は、ソリッドステートドライブ(SSD)など、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよい。本発明の制御手段の一例が、CPU502である。
CPU502は、電源ON等の起動時、ROM504に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置505に格納されている制御用プログラムを読み出し、RAM503上に展開するためのものである。CPU502は、起動用プログラムを実行すると、続けてRAM503上に展開した制御用プログラムを実行する。また、CPU502は、制御用プログラム実行時に用いるデータもRAM503上に格納して読み書きを行う。外部記憶装置505には、さらに、制御用プログラム実行時に必要な各種設定や、スキャナ515で読み取った画像データを格納することができ、CPU502によって読み書きされる。CPU502はネットワークI/F506を介してネットワーク104上の他の機器や、ゲートウェイを介してインターネット上のクラウドサーバ102との通信を行う。本発明の通信手段の一例が、ネットワークI/F506である。
ディスプレイコントローラ507は、CPU502の指示に応じて、接続される操作パネル509のタッチパネル200の画面表示制御を行う。
操作I/F508は、操作信号の入出力を行う。操作I/F508は、操作パネル509に接続され、CPU502はタッチパネル200が押下されたときに、操作I/F508を介してタッチパネル200の押下された座標を取得する。本発明の処理手段や表示制御手段の一例が、操作I/F508である。
プリントコントローラ512は、CPU502からの指示に応じて、接続されるプリントエンジン513に対して制御コマンドや画像データを送信する。本発明の処理手段や印刷制御手段の一例が、プリントコントローラ512である。
プリントエンジン513は、プリントコントローラ512から受信した制御コマンドに従い、受信した画像データを紙などの記録媒体に印刷する。プリントエンジン513の詳細な説明は、本実施例の主旨ではないため、これ以上の説明は省略する。
スキャンコントローラ514は、CPU502からの指示に応じて、接続されるスキャナ515に対して制御コマンドを送信し、スキャナ515から受信する画像データをRAM503へ書き込む。
スキャナ515は、スキャンコントローラ514から受信した制御コマンドに従い、画像形成装置101が備える原稿台ガラス上(不図示)の原稿を、光学ユニットを用いて読み取る。スキャナ515の詳細な説明は、本実施例の主旨ではないため、これ以上の説明は省略する。
オーディオI/F516は、CPU502からの指示に応じて符号化された音声データをRAM503から読み出し、復号したデジタル信号をアナログ信号に変換して、スピーカ517に出力する。
スピーカ517は、CPU502からの指示に応じて音声を出力する。音声のほか、画像形成装置101でエラーが発生した時のエラー音や、タッチパネル200へのタッチ音などの音も出力する。本発明の音声出力手段の一例が、スピーカ517である。
<音声制御装置の音声制御プログラムの機能構成>
図6は、CPU302が実行する音声制御プログラム601の機能構成を示すブロック図である。
音声制御プログラム601は、外部記憶装置305に格納されている。そして、音声制御装置100の起動時に、CPU302によってRAM303上に展開され実行される。
データ送受信部602は、ネットワークI/F306を介して、ネットワーク104上の他の機器とTCP/IPによるデータの送受信を行う。データ送受信部602は、後述の音声取得部604で取得されたユーザ106の発した音声データをクラウドサーバ102に送信する。また、データ送受信部602は、クラウドサーバ102上で生成される音声合成データを受信する。
データ管理部603は、音声制御プログラム601の実行において生成した作業データなど様々なデータを外部記憶装置305上の所定の領域へ格納し、管理する。例えば、データ管理部603は、後述する音声再生部605で再生する音量データ、ゲートウェイ105との通信に必要な認証情報、画像形成装置101及びクラウドサーバ102と通信するために必要な各デバイス情報、クラウドサービスのURLなどを格納する。
音声取得部604は、マイクロフォン308で取得されるユーザ106のアナログ音声を、音声データに変換し、一時格納する。ユーザ106の音声は、例えば、MP3などの所定のフォーマットに変換され、クラウドサーバ102に送信するための符号化された音声データとしてRAM303上に一時的に格納する。音声取得部604の処理開始及びその終了のタイミングは、後述する音声制御部609によって管理される。また、音声データの符号化は、汎用のストリーミング用フォーマットでもよく、符号化された音声データを順次、データ送受信部602で送信するようにしてもよい。
音声再生部605は、データ送受信部602が受信した音声合成データを、オーディオコントローラ309を介してスピーカ310で再生する。音声再生部605の音声再生のタイミングは、後述する音声制御部609によって管理される。
表示部606は、表示コントローラ311を介して、LED312の表示を行う。例えば、後述の音声操作開始検知部607で音声操作があることを検知した場合にLED312を表示する。表示部606の表示のタイミングは、後述する音声制御部609によって管理される。
音声操作開始検知部607は、ユーザ106の発したウェイクワード、音声制御装置100の操作開始キー(不図示)の押下、データ送受信部602が受信した音声制御起動コマンドの受信、を検知し、音声制御部609へ操作開始通知を送信する。ここで、ウェイクワードとは、音声制御装置100の音声操作を開始するために予め決められている音声ワードである。音声操作開始検知部607は、マイクロフォン308で取得されるユーザ106のアナログ音声から、常時ウェイクワードを検知する。ユーザ106は、ウェイクワードを話し、続いてユーザ106が行いたいことを話すことで画像形成装置101の操作を行うことができる。音声操作開始検知部607がウェイクワードを検知してからの音声処理については後述する。
発話終了判定部608は、音声取得部604での処理の終了タイミングを判定する。例えば、ユーザ106の音声が所定時間(例えば3秒)途切れたときにユーザ106の発話が終了したと判定し、音声制御部609へ発話終了通知を送信する。なお、発話終了の判定は、発話が無い時間(以降、空白時間と呼ぶ)ではなく、ユーザ106の所定の語句から判定して行ってもよい。例えば、「はい」、「いいえ」、「OK」、「キャンセル」、「終了」、「スタート」、「開始」など所定の語句のときには、所定時間を待たずに発話終了と判定してもよい。また、発話終了の判定は、音声制御装置100ではなく、クラウドサーバ102で行うようにしてもよく、ユーザの106の発話内容の意味や文脈から発話の終了を判定するようにしてもよい。
音声制御部609は、音声制御プログラム601内の他の各モジュールが相互に連携して動作するよう制御する。具体的には、音声取得部604、音声再生部605、表示部606の処理開始・終了の制御を行う。また、音声取得部604で音声データが取得された後、音声データをデータ送受信部602でクラウドサーバ102へ送信するよう制御する。また、クラウドサーバ102からの音声合成データをデータ送受信部602が受信した後、音声再生部605が音声合成データを再生するよう制御する。
ここで、音声取得部604、音声再生部605、表示部606の処理開始・終了のタイミングについて述べる。
音声制御部609は、音声操作開始検知部607からの操作開始通知を受信すると、音声取得部604の処理を開始する。また、発話終了判定部608からの発話終了通知を受信すると、音声取得部604の処理を終了する。例えば、ユーザ106がウェイクワードを発話し、続いて「コピーしたい」と話したとする。このとき、音声操作開始検知部607が、ウェイクワードの音声を検知し、音声制御部609に操作開始通知を送信する。音声制御部609は、操作開始通知を受信すると、音声取得部604の処理を開始するよう制御する。音声取得部604は続いて話される「コピーしたい」というアナログ音声を音声データへ変換し一時格納をする。発話終了判定部608は、「コピーしたい」の発話後に空白時間が所定時間あったと判定すると、発話終了通知を音声制御部609に送信する。音声制御部609は、発話終了通知を受信すると、音声取得部604の処理を終了する。なお、音声取得部604が処理を開始してから終了するまでの状態を発話処理状態と呼ぶこととする。表示部606は、発話処理状態であることを示すLED312を点灯表示する。
ユーザ106の発話終了判定後、音声制御部609は、音声データをデータ送受信部602でクラウドサーバ102へ送信するよう制御し、クラウドサーバ102からの応答を待つ。クラウドサーバ102からの応答は、例えば、応答であることを示すヘッダ部と、音声合成データから成る応答メッセージある。データ送受信部602が応答メッセージを受信すると、音声制御部609は、音声再生部605で音声合成データを再生するよう制御する。音声合成データは、例えば、「コピー画面を表示します」である。なお、発話終了判定後から音声合成データの再生終了までの状態を応答処理状態と呼ぶこととする。表示部606は、応答処理状態であることを示すLED312を点滅表示する。
応答処理の後、クラウドサーバ102との対話セッションが継続している間は、ユーザ106はウェイクワードを発話することなく、続けて自身の行いたいことを発話することができる。対話セッションの終了判定は、クラウドサーバ102が行い、音声制御装置100に対話セッション終了通知を送信することで行う。なお、対話セッション終了から次の対話セッションが開始されるまでの状態を待機状態と呼ぶこととする。音声制御装置100が音声操作開始検知部607からの操作開始通知を受信するまでは、常時待機状態であるとする。表示部606は、待機状態の間、LED312を消灯する。
<クラウドサーバの音声データ変換制御プログラムの機能構成>
図7Aは、CPU402が実行する音声データ変換制御プログラム701の機能構成を示すブロック図である。また、図7Bは、グループID判定部707がグループIDの判定に使うグループIDリストの例である。グループIDリストは、画像形成装置101のユーザ操作に関して同じ意味や意図を持つワードが同じIDとしてグルーピングされている。なお、前記ワードは、ユーザ106が音声制御装置100に対して発話する言葉を音声認識した結果である。
音声データ変換制御プログラム701は、外部記憶装置405に格納され、CPU402がRAM403上に展開して実行する。
データ送受信部702は、ネットワークI/F406を介して、ネットワーク104上の他の機器とTCP/IPによるデータの送受信を行う。データ送受信部702では、音声制御装置100からユーザ106の音声データを受信する。また、後述するグループID判定部707で判定されたグループID判定結果の送信を行う。
データ管理部703は、音声データ変換制御プログラム701の実行において生成した作業データや、音声データ変換部704で音声認識処理をするために必要なパラメータなど様々なデータを外部記憶装置405上の所定の領域へ格納し、管理する。例えば、データ管理部703は、音声認識部705が音声データをテキスト(テキスト情報)へ変換するための音響モデルや言語モデルを外部記憶装置405上の所定の領域へ格納し、管理する。また、形態素解析部706でテキストの形態素解析を行うための辞書を外部記憶装置405上の所定の領域へ格納し、管理する。また、データ管理部703は、グループID判定部707でグループIDを判定するためのグループIDリストを外部記憶装置405上の所定の領域へ格納し、管理する。また、データ管理部703は、音声合成部708で音声合成を行うための音声データベースを外部記憶装置405上の所定の領域へ格納し、管理する。また、データ管理部703には、音声制御装置100、及び、画像形成装置101と通信するために必要な各デバイス情報などが格納、管理される。
音声データ変換部704は、音声認識部705、形態素解析部706、グループID判定部707、音声合成部708から成る。以降、音声データ変換部704について説明する。
音声認識部705は、データ送受信部702が受信した音声データを、テキストに変換するための音声認識処理を行う。音声認識処理は、音響モデルを用いて音声データを音素に変換し、さらに言語モデルによるパターンマッチングにより音素を実際のテキストデータに変換する。なお、音響モデルは、DNN−HMMのようにニューラルネットワークによる機械学習手法を用いるモデルであってもよいし、GMM−HMMのように異なる手法を用いたモデルであってもよい。ニューラルネットワークを用いた機械学習では、例えば音声とテキストを対とする教師データに基づいて学習モデルの学習が行われる。言語モデルは、RNNのようにニューラルネットワークによる機械学習手法のモデルを用いるモデルであってもよいし、N−gram手法のように異なる手法を用いるモデルであってもよい。
本実施例では、前記テキストデータは1つ以上のカナから構成されるテキストと、それらを「かな漢字変換」(数字、アルファベット、記号等への変換も含む)したテキストから成るものとする。ただし、音声データをテキストデータへ変換する音声認識処理として他の手法を用いてもよく、前述の手法に限るものではない。音声認識処理の詳細は、本実施例の主旨ではないため、これ以上の説明は省略する。
形態素解析部706は、音声認識部705で変換されたテキストデータを、形態素解析する。形態素解析は、その言語の文法や、品詞などの情報をもつ辞書から形態素列を導出し、さらに各形態素の品詞などを判別する。形態素解析部706は、例えば、JUMAN、茶筒、MeCab等の公知の形態素解析ソフトウェアを用いて実現することができる。
形態素解析部706は、例えば、音声認識部705で変換された「コピーをしたい」というテキストデータを、「コピー」、「を」、「し」、「たい」の形態素列として解析する。また、「A3からA4へ」というテキストデータを、「A3」、「から」、「A4」、「へ」の形態素列として解析する。
グループID判定部707は、形態素解析部706で形態素解析された結果と、図7BのグループIDリストとをマッチングすることでグループIDを判定し、さらにグループID判定結果を生成する。例えば、「コピー」、「を」、「し」、「たい」の形態素列からは、「コピー」のグループIDである「FNC00001」があると判定され、グループID判定結果として、{ID:FNC00001}を生成する。また、「A3」、「から」、「A4」、「へ」の形態素列からは、「A3」と「A4」のグループIDである「PAP00100」と「PAP00101」が2つあると判定される。そして、グループID判定結果として、{ID:PAP00100、ID:PAP00101}を生成する。
なお、グループID判定結果にIDが複数生成される場合は、音声認識および形態素解析された順に生成されるものとする。例えば、音声認識および形態素解析された結果が「A4」「から」「A3」「へ」である場合は、グループID判定結果は{ID:PAP00101、ID:PAP00100}と生成される。また、隣接する複数の形態素を結合してグループIDリストとマッチングして判定してもよいものとする。この時、1つの形態素がグループIDリストの中から合致するものが見つかり、さらに、その形態素を含む複数の形態素がグループIDリストの中から合致するものが見つかった場合は、後者の結果を用いてグループID判定結果を生成する。例えば、形態素列が「A」「4」であった場合は、グループID判定結果を{ID:CHR00000、ID:NUM00004}ではなく、{ID:PAP00101}として生成する。また、音声認識および形態素解析結果に含まれる1つ以上のカナから構成されるテキストと、それらを「かな漢字変換」したテキストを組み合わせて、グループIDリストのマッチングを行ってもよい。例えば、グループID判定部707は、まず始めに、「かな漢字変換」したテキストとグループIDリストの「かな漢字変換後」に示されたテキストとのマッチングを行う。その結果、マッチングするグループIDが見つからない場合にはカナのテキストとグループIDリストの「カナ」に示されたテキストとがマッチングするグループIDを検出する。また、グループIDリスト内で「カナ」が重複し、複数のグループIDがマッチングする場合は、グループID判定結果を複数の候補として生成してもよい。これにより、「かな漢字変換」の間違いや漢字のふり仮名の違いを許容したグループID判定結果を生成する。
音声合成部708は、画像形成装置101から受信した通知にもとづき、音声合成処理を行う。音声合成処理は、所定の通知に対して、組となる予め用意されたテキストをMP3などの所定のフォーマットの音声データに変換する。受信した通知データと音声合成対象のテキストの組み合わせ例については、後述の図9Aのシーケンス図で説明する。音声合成処理は、例えば、データ管理部703に格納されている音声データベースにもとづいて音声データを生成する。音声データベースとは、例えば、単語等の定型の内容を発話した音声を集めたデータベースである。なお、本実施例では音声データベースを用いて音声合成処理を行っているが、音声合成の手法として他の手法を用いてもよく、音声データベースによる手法に限定するものではない。音声合成処理の詳細は、本実施例の主旨ではないため、これ以上の説明は省略する。
<画像形成装置のデバイス制御プログラムの機能構成>
図8は、CPU502が実行するデバイス制御プログラム801の機能構成を示すブロック図である。
画像形成装置101のデバイス制御プログラム801は、外部記憶装置505に格納され、CPU502がRAM503上に展開して実行する。
データ送受信部802は、ネットワークI/F506を介して、ネットワーク104上の他の機器とTCP/IPによるデータの送受信を行う。データ送受信部802では、グループID判定部707が生成するグループID判定結果の受信を行う。また、画像形成装置101からクラウドサーバ102へ、操作パネル509上のタッチパネル200の画面表示内容が更新されたことを示す画面更新通知、及び、ジョブの状態を示すジョブ実行状態通知を送信する。通知の内容に関しては後述の図9Aのシーケンス図で説明する。さらに、データ送受信部802は、音声認識を起動するための音声データおよび音声操作を開始するための音声データなどもネットワーク104を介して音声制御装置100に送信する。
データ管理部803は、デバイス制御プログラム801の実行において生成した作業データや、各デバイス制御に必要な設定パラメータなど様々なデータをRAM503および外部記憶装置505上の所定の領域へ格納し、管理する。例えば、後述するデバイス制御部808で実行するジョブの各設定項目及び設定値の組み合わせから成るジョブデータや、用紙の属性情報などが設定された機械設定情報が、格納、管理される。また、ゲートウェイ105との通信に必要な認証情報、クラウドサーバ102と通信するために必要なデバイス情報、URL(例えば、http://aaaaa/mfp_mng)、認証情報などを格納、管理される。また、画像形成装置101で画像形成する対象の画像データを格納し、管理する。また、表示部806が画面表示制御に用いる画面制御情報と、音声操作判定部807が操作を判定するために用いる音声操作判定情報を格納し、画面制御情報と音声操作判定情報は、表示部806が表示する画面ごとに管理する。また、音声操作判定部807は、音声制御装置100のウェイクワードや音声操作起動の為のワード(音声操作起動ワード)に関する音声データや、ネットワークI/Fやその他の起動手段による音声認識起動や音声操作起動の為の命令・制御手段などを管理する。
スキャン部804は、後述するデバイス制御部808のスキャンジョブパラメータ設定に基づいて、スキャンコントローラ514を介してスキャナ515でスキャンを実行させ、読み取った画像データをデータ管理部803に格納する。
プリント部805は、後述するデバイス制御部808のプリントジョブパラメータ設定に基づいて、プリントコントローラ512を介してプリントエンジン513で印刷を実行させる。
表示部806は、ディスプレイコントローラ507を介して、操作パネル509の制御を行い、前記の画面表示制御情報に基づいてユーザ操作可能なUI部品(ボタン、プルダウンリスト、チェックボックスなど)をタッチパネル200に表示する。また、操作I/F508を介して、タッチパネル200(以降、画面等と呼ぶ)上のタッチされた座標を取得し、操作対象のUI部品と操作受付時の処理内容を決定する。表示部806は、処理内容の決定に応じて、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。また、後述する音声操作判定部807の音声操作判定結果に応じても同様に、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。
音声操作判定部807は、データ送受信部802にてクラウドサーバ102より受信したグループIDに基づいて、操作パネル509に表示される画面を構成するユーザ操作可能なUI部品を操作対象として判定する。例えば、ホーム画面200を表示している状態で、図7BのグループID:FNC00001(コピー)を受信した場合、コピー画面952に遷移し、その状態でグループID:OPR00011(スタート)を受信した場合、コピーを実行する。コピー画面952は、本発明の印刷設定画面の一例であって、印刷の設定を示す画面である。この画面で印刷設定を入力することもできる。この時、ユーザ106は、音声認識ボタンを押下し、音声認識中のステータス表示後、音声制御装置に“コピーをスタートして”と発話することで、コピー画面のデフォルト設定状態でコピーを開始する。
デバイス制御部808は、プリントコントローラ512、及び、スキャンコントローラ514を介して、プリントエンジン513、及び、スキャナ515の制御指示を行う。例えば、表示部806がコピー機能画面を表示中にタッチパネル200のスタートキー956押下を検知した場合、デバイス制御部808は表示部806からコピージョブのパラメータとジョブ開始指示を受信する。そのジョブパラメータに基づいて、スキャナ515によって読取られた画像データをプリントエンジン513でシートに印刷するよう制御する。なお、スキャン、及び、プリント制御の仕組みについては、本実施例の主旨ではないため、これ以上の説明は省略する。
スピーカ制御部809は、外部記憶装置505に格納されている音声データやネットワーク104から受信した音声データをRAM503にコピーし、オーディオI/F516によりデジタル信号からアナログ信号に変換してスピーカ517に出力する。本発明では、音声制御装置100のウェイクワード、音声操作起動用の音声操作起動ワードを出力する。
<システムの制御シーケンス>
図9Aは、図1で示したシステムを構成する各装置のやりとりを示すシーケンス図である。特に、図9Aは、音声制御装置100がユーザ106から発話された音声操作を受け、それによって画像形成装置101が各処理を実行し、その実行結果を示す応答をユーザ106に音声で返すためのシーケンスを示す。
なお、図9Aで示すシーケンスの例では、音声制御装置100、画像形成装置101、クラウドサーバ102は互いに通信可能な状態であるとする。また、画像形成装置101は、電源ONの起動後にコピー、スキャン、プリントなどの機能を呼び出し可能なホーム画面950を表示している状態であるとする。
まず、ステップ901(以降、S901のように表記する)では、ホーム画面950が表示されている状態から、ユーザ106が音声制御装置100に対して音声操作の開始を指示(これを、音声認識起動トリガと呼ぶ)する。
S902では、音声認識起動トリガの検知により、音声操作開始処理を画像形成装置101にて実行する。音声操作開始処理は、図9Bの音声操作開始処理にて説明する。本実施例では、音声操作開始後、画像形成装置101は、ホーム画面951を表示し、音声操作の受付が可能な状態になっているものとして説明する。ホーム画面951のステータス表示204は、音声認識中のステータスを表示する。本発明の状態表示手段の一例が、操作パネル509である。
S903では、音声制御プログラム601の表示部606が、発話処理中を示すLEDを点灯し、音声取得部604が処理を開始する。
S904では、ユーザ106がコピー画面呼び出し指示を音声制御装置100に対して行う。コピー画面呼び出し指示は、例えば、ユーザ106が「コピーしたい」や「コピー画面を開いて」と発話することであり、音声取得部604によって取得された音声が音声データとして生成される。ユーザ106の発話後、空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S905は、音声制御プログラム601の表示部606が、発話終了判定に応じて応答処理状態を示すLEDを点滅する。また、同時に音声取得部604が処理を終了する。
S906は、データ送受信部602が、S904で生成した音声データをクラウドサーバ102に送信する。
S907では、音声データ変換制御プログラム701のデータ送受信部702が受信した音声データに対して、音声認識部705が、音声認識処理を行う。音声認識処理によって、例えば、ユーザ106が発話した「コピーしたい」という音声がテキストとして生成される。
S908では、音声データ変換制御プログラム701の形態素解析部706が、S907で生成されたテキストに対して形態素解析処理を行う。形態素解析処理によって、例えば、「コピーしたい」というテキストが、「コピー」、「し」、「たい」という形態素列として解析される。
S909では、音声データ変換制御プログラム701のグループID判定部707が、解析された形態素列のテキストに対してグループID判定処理を行う。グループID判定処理によって、例えば、「コピー」、「し」、「たい」という形態素列と図7BのグループIDリストとのマッチングにより、グループID判定結果として{ID:FNC00001}が生成される。
S910では、音声データ変換制御プログラム701のデータ送受信部702が、S909のグループID判定結果を画像形成装置101に送信する。
S911では、デバイス制御プログラム801のデータ送受信部802が受信したグループID判定結果に対して、音声操作判定部807が、音声操作判定処理を行う。音声操作判定処理によって、例えば、グループID判定結果{ID:FNC00001}から、ホーム画面の“コピー”ボタン203が選択されたと判定される。
S912では、S911の判定結果に応じて、表示部806が画面に表示する内容更新する。例えば、これまでの処理を通じて、ユーザが発話した「コピーしたい」から、画面に表示される“コピー”ボタン203に対する操作であると判定された場合は、タッチパネル200で“コピー”ボタン203押下時に表示されるコピー機能画面952を表示する。
S913では、データ送受信部802によって、クラウドサーバ102へ、画面の表示内容が更新されたことを示す画面更新通知を送信する。例えば、表示部806がホーム画面からコピー機能画面へ表示が変更した場合、画面更新通知として「コピー機能画面表示」というテキストデータを送信する。
S914では、音声データ変換制御プログラム701のデータ送受信部702が受信した画面更新通知に対して、音声合成部708が画面更新通知の内容に対応する所定のテキストデータの音声合成処理を行う。例えば、画面更新通知の内容が「コピー機能画面表示」の場合、音声合成部708は、「コピー画面を表示しました」というテキストデータを音声合成する。音声合成部708が音声合成処理によって生成した音声データ(音声合成データ)は、データ送受信部702によって音声制御装置100へと送信される。
S915では、データ送受信部602が、S914で生成された音声合成データを受信する。
S916では、音声再生部605が、915で受信した音声合成データを再生する。例えば、S914で生成した「コピー画面を表示しました。」という音声合成データを、スピーカ310を通じて再生する。
S917は、前述のS903と同様である。
S918では、ユーザ106が設定画面呼び出し指示を音声制御装置100に対して行う。設定画面呼び出し指示は、例えば、ユーザ106が「用紙を選択」と発話することであり、音声取得部604によって取得された音声が音声データとして生成される。ユーザ106の発話後、空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S919は、前述のS905と同様である。
S920は、前述のS906〜S915の処理と同様の音声操作処理を示す。ただし、S920では、S918の設定画面呼び出し指示に伴って、表示部806が設定画面を表示するように画面を更新する。例えば、コピー機能画面を表示している場合、グループID判定結果が{ID:PAP0000、ID:OPR00040}のとき、用紙選択画面953を表示する。
S921では、音声再生部605が、S920で受信した音声合成データを再生する。例えば、S920で生成した「用紙選択画面を表示しました。続いて用紙を設定してください。」という音声合成データを、スピーカ310を通じて再生する。
S922は、前述のS903と同様である。
S923では、ユーザ106が設定変更指示を音声制御装置100に対して行う。設定変更指示は、例えば、ユーザ106が「A4」と発話することである。ユーザ106の発話後、空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S924は、前述のS905と同様である。
S925は、前述のS906〜S915の処理と同様の音声操作処理を示す。ただし、S925では、S923の設定変更指示に伴って、表示部806が設定画面に表示する設定値を変更する。例えば、用紙選択画面を表示している場合、グループID判定結果が{ID:PAP00101}のとき、用紙の設定値をA4に変更した用紙選択画面954を表示する。
S926は、音声再生部605が、S925における音声合成処理で生成した音声合成データを再生する。例えば、S925で用紙の設定値を変更して表示した場合は「用紙をA4に設定しました」という音声合成データを、スピーカ310を通じて再生する。
S927は、前述のS903と同様である。
S928では、ユーザ106がジョブ実行指示を音声制御装置100に対して行う。ジョブ実行指示は、例えば、ユーザ106が「コピースタート」と発話することである。ユーザ106の発話後、空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S929〜S934は、前述のS905〜S910と同様の処理である。
S935では、デバイス制御プログラム801のデータ送受信部802が受信したグループID判定結果に対して、音声操作判定部807が音声操作判定処理を行う。グループID判定結果が{ID:FNC00001、ID:OPR00011}である場合、画面に表示している“スタート”ボタン956が操作されたと判定される。
S936では、S935の判定結果に応じて、ジョブの実行画面955を表示する。例えば、これまでの処理を通じて、ユーザが発話した「コピースタート」の音声が、スタートボタン956に対する操作であると判定された場合は、コピージョブ開始の画面が表示される。
S937では、画像形成装置101の画面で設定されたジョブパラメータに従って、コピージョブを実行する。
S938では、データ送受信部802によって、クラウドサーバ102へ、ジョブ実行状態通知の内容として、ジョブの実行を開始したことを示す情報(ジョブ実行開始通知)を送信する。例えば、コピージョブを開始した場合、ジョブ実行状態の内容として「コピージョブ開始」というテキストデータを送信する。
S939では、音声データ変換制御プログラム701のデータ送受信部702でジョブ実行状態通知を受信し、音声合成部708がその内容(ジョブ実行開始通知)に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ開始」の場合、音声合成部708は、「コピーを開始します」というテキストデータを音声合成する。
S940は、前述のS915と同様である。
S941では、音声再生部605が、S940で受信した音声合成データを再生する。例えば、S939で生成した「コピーを開始します」という音声合成データを、スピーカ310を通じて再生する。
S942では、データ送受信部802によって、クラウドサーバ102へ、ジョブ実行状態通知の内容として、ジョブ実行を終了したことを示す情報(ジョブ実行終了通知)を送信する。例えば、コピージョブを終了した場合、ジョブ実行状態通知の内容として「コピージョブ終了」というテキストデータを送信する。
S943では、音声データ変換制御プログラム701のデータ送受信部702がジョブ実行状態通知を受信し、音声合成部708がその内容(ジョブ実行終了通知)に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ終了」の場合、音声合成部708は、「コピーを終了しました」というテキストデータを音声合成する。
S944では、S937のジョブ実行処理が終了したことを受けて、表示部806はジョブの実行終了画面を表示する。例えば、コピージョブの実行が終了した場合、ジョブの実行画面955を閉じて、コピー機能画面952を表示する。
S945では、データ送受信部602が、S938で生成した音声合成データをクラウドサーバ102から受信する。
S946では、音声再生部605が、S943で受信した音声合成データを再生する。例えば、S943で生成した「コピーを終了しました」という音声合成データを、スピーカ310を通じて再生する。
S947は、前述のS903と同様である。
S948では、ユーザ106が音声認識ボタン201を押下することで、音声制御装置100に対して音声操作の終了を指示する。S901の音声認識ボタン201の押下により起動した音声操作は、ユーザ106が再度音声認識ボタンを押下する終了トリガが発生する事で終了する。
S949では、音声認識の終了トリガが発生した事を音声操作判定部807にて判定し、音声認識中204の表示を消去して、表示部806にてホーム画面950を表示する。
S950では、データ送受信部802によって、クラウドサーバ102へ、画面の表示内容が更新されたことを示す画面更新通知を送信する。ここでは、「音声認識終了」というテキストデータを送信する。
S951では、データ送受信部702によって、S950の「音声認識終了」のテキストデータを受信したことに対応して、対話セッション終了通知を音声制御装置100に送信する。
S952では、S951でデータ送受信部602が対話セッション終了通知を受信したことに対応して、音声制御プログラム601の表示部606が、音声制御装置100の待機状態を示すためにLEDを消灯する。
S953では、S951で対話セッション終了通知を受信したことに対応して、音声制御装置100が待機状態へ移行する。
なお、シーケンス図上で、応答処理中を示すLEDが点滅中であってもウェイクワードは常に入力可能である。ユーザ106はウェイクワードの発話に続いて「キャンセル」、または「中止」などと発言することで、対話セッションを強制的に終了するようにしてもよい。
<システムの音声操作開始処理シーケンス>
図9Bは、図9Aで示した音声操作開始処理に関するシーケンス図である。
S901は、図9Aで説明したので省略する。尚、本実施例は、音声操作の開始の指示(音声認識起動トリガ)は、ユーザ106が音声認識ボタン201を押下することで行われたとして説明する。音声認識起動トリガは、後で説明するが、コピーボタン203押下、原稿のスキャナ515への設置(原稿検知)、PDL印刷のセキュアジョブの受信など、他のトリガであっても良い。
S961では、デバイス制御プログラム801が音声制御装置100のウェイクワードと音声操作用の起動ワードをデータ管理部803のプログラムにより外部記憶装置505から読み出す。
音声制御装置100のウェイクワードは、下記の表1の「表A 音声制御装置のウェイクワード設定」のように、音声制御装置の装置名または製品名と紐づけて外部記憶装置505に格納されている。当該表1において、使用する/しない設定が“使用する”に設定されている装置のウェイクワードを読み出す。本実施例では、スピーカ5000は、“スピーカ1を起動して”というウェイクワードで起動する。スピーカ5001は、“スピーカ2を起動して”というウェイクワードで起動する。なお、スピーカ5002のウェイクワードをカスタマイズした場合、ウェイクワードの手動入力設定を設け、手動でウェイクワードを入力可能とすることで(ここでは、“MFP起きて”)対応可能となる。また、2つ以上の音声制御装置を使用する場合、使用したい機能毎、ユーザ毎に音声制御装置100のウェイクワードを割り当てて使用するようにしてもよい。この場合、画像形成装置から離れた場所の音声制御装置100にて、別々のユーザが画像形成装置のリモートで音声操作をすることができる。
Figure 2021085982
S962では、デバイス制御プログラム801は、スピーカ制御部809によりS961で読み出したスピーカ5000のウェイクワード“スピーカ1を起動して”をオーディオI/F経由でスピーカ517から音声データに変換して出力する。音声制御装置100は、音声取得部604によって取得した音声を音声データとして生成し、音声データがウェイクワードとして音声操作開始検知部607に検知されると、音声制御部609は、対話セッション開始状態に移行する。
S963では、音声制御プログラム601の表示部606が、発話処理中を示すLEDを点灯し、音声取得部604から取得した音声データをデータ送受信部602によりクラウドサーバ102に送信する処理を開始する(対話セッション開始)。
S964では、デバイス制御プログラム801の表示部806がタッチパネル200のステータス表示部に起動中981を表示する。
S965では、デバイス制御プログラム801は、スピーカ制御部809により、S961で読み出した音声操作起動ワード“音声操作を起動して”をオーディオI/F経由でスピーカ517から出力する。これにより、クラウドサーバ102による画像形成装置101の音声操作サービスが提供される。
音声制御装置100の音声操作起動ワードは、下記の表2の「表B 音声制御装置の音声操作起動設定」のように、起動トリガ、音声操作、音声操作起動ワードを紐づけて外部記憶装置505に格納している。
音声認識ボタン6010は、音声認識ボタン201を押下した時の音声操作として音声認識(FNC00008)を紐付け、音声制御装置100の音声操作起動ワードは、“音声操作起動”として設定されている。さらに、音声操作の終了を判定するための終了トリガも起動トリガに紐づけて設定する。例えば、音声認識ボタン6010の終了トリガは、同じく音声認識ボタン201の押下により音声認識による音声操作の終了が設定されている。以下、各起動トリガ6010〜6015について説明する。
音声認識ボタン6010は、音声認識ボタン201を押下した時の音声操作として音声認識(FNC00008)と起動(OPR00021)を紐付け、音声制御装置100の音声操作起動ワードは、“音声操作を起動して”として設定されている。さらに、音声操作の終了を判定するための終了トリガも起動トリガに紐づけて設定する。例えば、音声認識ボタン6010の終了トリガは、同じく音声認識ボタン201の押下により音声認識による音声操作の終了を設定している。
ユーザログイン6011は、ユーザログインの為のログインボタン202を押下した時の音声操作として認証(FNC00009)と起動(OPR00021)を紐付け、音声制御装置100の音声操作起動ワードは、“ログイン起動して”が設定されている。この時の終了トリガは、ログアウトでログイン後の画面に表示されるログアウトボタン(不図示)の押下を検出した時、音声認識による音声操作を終了する。
コピーボタン6013は、コピーボタン203を押下した時の音声操作としてコピー(FNC00001)を紐付け、音声制御装置100の音声操作起動ワードは、“コピーして”として設定されている。尚、音声操作が単機能のみの場合、音声操作起動ワードの“起動”(OPR00021)という操作の為のワードは、省略可能とする。終了トリガは、コピー実行による印刷が終了する印刷終了が設定され、印刷終了時に音声認識による音声操作を終了する。
原稿検知6014は、原稿をスキャナ515の原稿台またはシートフィーダへの設置を検知した時の音声操作内容としてスキャン(FNC00003)を紐付け、音声制御装置100の音声操作起動ワードは、“スキャンして”と設定されている。原稿検知6014の終了トリガは、スキャン終了に設定され、スキャン終了時に音声認識による音声操作を終了する。
表2のセキュアプリント6015は、セキュアプリントジョブを受信した時の音声操作として印刷、スプール(FNC00007、FNC00002)を紐付け、音声制御装置100の音声操作起動ワードは、“印刷ジョブを表示“として設定されている。セキュアプリント6015の終了トリガは、印刷ジョブ画面によるセキュアプリントジョブの印刷操作を終了した時に設定され、印刷ジョブ画面の操作を終了した時に音声認識による音声操作を終了する。
Figure 2021085982
S966では、音声制御プログラム601の表示部606が、発話終了判定に応じて応答処理状態を示すLEDを点滅する。また、同時に音声取得部604が処理を終了する。
S967では、音声制御プログラム601は、S965で取得した“音声操作を起動して”という音声データをクラウドサーバ102にネットワークI/F306を介して送信する。S967で送信される音声データは、本発明の開始データの一例である。
S968では、音声データ変換制御プログラム701は、受信した音声データに対して音声認識処理を実行し、音声データから“音声操作を起動して”というテキストデータを生成する。
S969では、音声データ変換制御プログラム701は、S968で生成したテキストデータの形態素解析処理を実行する。
S970は、形態素解析部706からグループID判定部707を起動し、受信した“音声操作を起動して“からグループID{FNC00009、OPR00021}を判定する。
S971では、音声データ変換制御プログラム701は、画像形成装置101にグループID{FNC00009、OPR00021}をデータ送受信部702にて送信する。デバイス制御プログラム801は、データ送受信部802よりグループID{FNC00009、OPR00021}を受信する。
S972では、デバイス制御プログラム801は、表示部806がタッチパネル200のステータス表示部に音声認識中982を表示する。
S973では、音声データ変換制御プログラム701は、画像形成装置101の画面が更新し、音声認識中表示982に表示が切り替わった通知(画面更新通知)を受信する。例えば、「音声認識起動」を受信する。
S974では、音声データ変換制御プログラム701のデータ送受信部702が受信した画面更新通知に対して、音声合成部708が画面更新通知の内容に対応する所定のテキストデータの音声合成処理を行う。例えば、画面更新通知の内容が「音声認識起動」の場合、音声合成部708は、「起動しました」というテキストデータを音声合成する。
S975では、音声合成部708が音声合成処理によって生成した音声合成データは、データ送受信部702によって音声制御装置100へと送信される。
S976では、音声制御プログラム601は、音声再生部605が、S974で受信した音声合成データを再生する。例えば、S973で生成した「起動しました」という音声合成データを、スピーカ310を通じて再生する。
以上、図9Aに示すように、表2の音声認識起動トリガに基づいて、画像形成装置101のスピーカ517よりウェイクワード、音声操作起動ワードを音声出力する事で、ユーザが発話せずに音声制御装置との対話セッションを開始できる。また、ウェイクワードを音声制御装置の装置名または製品名と紐づけて画像形成装置に格納する事で、ユーザは、様々な音声制御装置と組み合わせて画像形成装置の音声操作を実行できる。
<画像形成装置のデバイス制御プログラムの処理フロー>
図10は、画像形成装置101のデバイス制御プログラム801の処理の概要を示すフローチャートである。デバイス制御プログラム801は、画像形成装置101のRAM503、ROM504、外部記憶装置505のいずれかの記憶手段に記憶され、CPU502により実行される。本実施例においてデバイス制御プログラム801は、リアルタイムOSにより制御され、各プログラム間においては、割り込み、メッセージの送受信、イベント処理、タスクスイッチなどにより並列実行が可能である。
S1001にて、デバイス制御プログラム801は、音声認識の為の起動トリガを設定したデバイス制御部808が起動トリガの検出に応じて音声認識の為の起動制御を実行する。起動トリガ設定に関しては、図11の音声認識起動トリガ設定のフローチャートにて説明する。
S1002にて、デバイス制御部808は、起動トリガが発生した事を示す起動メッセージの受信を待つ。起動メッセージは、起動トリガが検出されると検出された各制御部から送信されるデータで、起動トリガの発生源(例:操作パネル509)と起動トリガの内容(音声認識ボタン6010)を少なくとも保持する。
S1003にて、デバイス制御部808は、音声認識の為の起動トリガを検出したかどうかを判定し、検出したらYESのS1004に遷移し、検出していなかったらNOのS1002に遷移する。尚、検出しなかった場合、他のメッセージ処理(画面操作、ジョブ制御、ネットワーク監視など)を実行する。
S1004にて、デバイス制御部808は、起動メッセージをRAM503に格納する。
S1005にて、デバイス制御部808は、音声制御装置100の音声認識起動制御を実行する。音声認識起動制御は、図12の音声認識起動フローのフローチャートにて説明する。
S1006にて、デバイス制御部808は、音声認識が正常に起動したかを判定し、正常に起動したYESの場合、S1007に遷移し、起動に失敗したNOの場合、S1008に遷移する。
S1007にて、デバイス制御部808は、音声認識により音声操作の制御を実行する。音声認識制御の詳細は、図13のフローチャートにて説明する。
S1008にて、デバイス制御部808は、音声認識の起動に失敗したことを起動メッセージ応答により表示部806にて表示する。本実施例のデバイス制御部808は、音声認識の起動に失敗した時、表示部806がステータス表示部204に音声認識中の起動に失敗しましたという表示(不図示)を行うことでユーザに通知する。また、スピーカ制御部809にメッセージを送信し、スピーカ517にて音声で“起動に失敗しました”と音声出力するようにしても良い。
S1009にて、デバイス制御部808は、音声認識制御中に音声認識の終了トリガを検出したかを判定し、終了トリガを検出したYESの場合、S1010に遷移し、終了トリガ非検出のNOの場合、S1007に遷移する。
S1010にて、デバイス制御部808は、音声認識終了指示を表示部806にメッセージ送信し、音声認識中の表示を消去する。また、スピーカ制御部809にメッセージ送信し、スピーカ517にて音声で“音声認識を終了しました”と音声出力するようにしても良い。
以上、画像形成装置101のデバイス制御プログラム801の音声操作に関するフローチャートを説明した。画像形成装置100は、音声制御装置100の起動をS1005で処理することで、ユーザの発話による音声制御装置100の起動が不要となる。さらに、音声操作の起動トリガと紐づけた終了トリガにより音声認識制御の終了を判定する事で、ユーザが発話しないで音声制御装置100を終了できる。
<画像形成装置の音声認識起動トリガ設定の処理フロー>
図11は、画像形成装置101のデバイス制御プログラム801の音声認識起動設定の読み出し処理の概要を示すフローチャートである。音声認識起動設定の読み出し処理は、データ管理部803が、表1、2、3のウェイクワード、音声操作起動ワード、起動手段に関する設定を外部記憶装置505から読み出す。
S1101にて、データ管理部803は、音声制御装置100の起動手段の設定を外部記憶装置505から読み出す。音声制御装置100の起動手段の設定は、下記の表3の「表C音声制御装置の起動手段の設定」のように、音声制御装置100の起動手段、起動手段の使用する・しない、優先順位、を紐づけて外部記憶装置505に格納し、起動時に読み出す。起動手段の使用する・しない設定は、起動手段として音声制御装置100の入力手段に応じて様々な設定が用意される。
起動手段が複数使用するに設定されている場合、優先順位に基づいて複数の起動手段を実行し、最初に起動した手段により音声制御装置との通信を行う。また、音声制御装置100が複数ある場合、音声制御装置毎に起動手段の設定を用意するようにしても良い。さらに、優先順位をユーザが指定可能としても良く、音声制御装置100の入力手段が複数ある場合、ユーザが使用したい手段を選択可能にする。例えば、音声を出力せずに音声認識による音声操作をしたい場合は、表3のように音声入力による起動手段の優先順位を5に下げて、その他の起動手段の優先順位を1〜4に上げる事で、スピーカから音声を出力しないで音声操作を実行可能になる。
尚、本実施例では、音声制御装置を起動するための入力手段としてマイクロフォン308とネットワーク104を図示しているが、BLE(不図示)や赤外線(不図示)による入力手段で起動するようにしても良い。
Figure 2021085982
S1102にて、データ管理部803は、音声制御装置100の起動設定を外部記憶装置505から読み出し、RAM503に保存する。音声制御装置の起動設定は、表1で説明した内容である。
S1103にて、データ管理部803は、音声制御装置100の音声認識起動設定を外部記憶装置505から読み出し、RAM503に保存する。音声認識起動設定は、表2で説明した内容である。
S1104にて、S1103で読み出した音声認識起動設定の起動トリガに基づいて、起動トリガ検出時に音声操作判定部が音声認識の開始を実行するための割り込みや、コールバック関数や、起動判別テーブルなどを設定する。例えば、タッチパネル200の音声認識ボタン201の押下を検出した時、音声操作判定部807に音声操作開始指示を通知するためのコールバック関数の設定を行う。その他、スキャナ515に原稿が置かれたことをスキャンコントローラ614よりスキャン部804で検出した時、音声操作判定部807に音声操作開始指示を通知するため、CPU502の割り込み設定を行う。
以上、図11のフローチャートにより画像形成装置101は、起動時に音声制御装置100による音声認識を起動するための各種設定を外部記憶装置505から読み出し、起動トリガ検出時の音声操作開始指示を実行するための設定を行う。本フローチャートにより、様々な音声制御装置の入力手段と起動条件と音声操作が対応可能となる。
<画像形成装置の音声認識起動制御の処理フロー>
図12は、画像形成装置101のデバイス制御プログラム801の音声認識起動制御の概要を示すフローチャートである。
S1201にて、デバイス制御プログラム801は、音声認識の起動手段判定処理を実行する。起動手段判定処理は、表3の音声制御装置の起動手段の設定の優先順位設定が1〜5の順番に、使用設定が“使用する”の起動手段を実行し、起動した起動手段をRAM503に格納し、次のS1202、S1205のステップの判定で使用する。尚、S1201は、図11の音声認識起動設定読み出しのS1104の後に実行し、どの起動手段で実行するのか外部記憶装置505に格納し、S1201は、格納した起動手段を読み出しRAM503に格納するようにしても良い。また、複数の起動手段が使用可能な場合に限り、(1)、(2)、(3)の起動手段を優先順位に基づいて実行し、最速で起動したときの起動手段を用いるようにしても良い。ここで、(1)、(2)、(3)で囲んだ点線は、起動手段毎の起動処理を示している。(3)の処理は、図示していないが、BLE、赤外線などの起動処理を実行する。
S1202にて、デバイス制御プログラム801は、S1201で格納した起動手段を読み出し、格納した起動手段がネットワーク(有線)で起動するYESの場合、S1203に遷移し、ネットワーク(有線)で起動しないNOの場合、S1205に遷移する。
S1203にて、デバイス制御プログラム801は、データ送受信部802により音声制御装置100に音声制御起動コマンド(または、音声データ)をネットワーク(有線)から送信し、音声制御装置100からの音声制御起動応答を受信する。
S1204にて、音声制御装置100に表2の音声認識起動設定に基づいて、“音声操作起動”を送信し、音声制御装置100からの“音声操作起動応答を受信する。
S1205にて、デバイス制御プログラム801は、S1201で格納した起動手段を読み出し、格納した起動手段が音声入力で起動するYESの場合、S1206に遷移し、音声入力で起動しないNOの場合、S1208に遷移する。
S1206にて、デバイス制御プログラム801は、スピーカ制御部809によりスピーカ517からウェイクワード(“スピーカ1起動して”)の音声データを出力する。
S1207にて、デバイス制御プログラム801は、スピーカ制御部809によりスピーカ517から音声操作起動ワード(“音声操作起動”)の音声データを出力する。
S1208にて、デバイス制御プログラム801は、S1201で判定された起動手段に基づいて、その他の起動手段(ネットワーク(無線)、BLE、赤外線)を実行する。その他の起動手段については、(1)、(2)と同様の処理のため、説明は省略する。
S1209にて、クラウドサーバ102よりグループIDを受信する。
S1210にて、受信したグループIDから音声認識が正常に起動したかどうかを判定し、正常に起動したYESの場合、S1210に遷移し、正常に起動しなかったNOの場合、S1211に遷移する。
S1211にて、音声認識の起動が成功したことを音声認識中画面951で表示する。
S1212にて、音声認識の起動が失敗したことを“音声認識に失敗しました“と画像形成装置のステータス表示部204に表示する事で、ユーザに通知する。
以上、図12の音声認識起動制御を行うことで、音声制御装置の起動を音声認識の起動手段毎に起動制御することが可能となる。また、本実施例では、2つの起動手段を用いて説明しているが、音声入力のみで起動する場合は、常にS1205で起動するように表3の音声制御装置の起動手段の設定を音声入力のみ使用するに設定する事で可能となる。
<画像形成装置の音声操作判定の処理フロー>
図13は、画像形成装置101のデバイス制御プログラム801の音声操作判定部807の概要を示すフローチャートである。
S1300にて、音声操作判定部807は、タッチパネル200の画面をタッチされたかどうかを判定し、タッチパネルへのタッチ(画面操作)があるYESの場合、S1311に遷移し、画面操作が無いNOの場合、S1301に遷移する。
S1301にて、音声操作判定部807は、データ送受信部802にて受信した音声認識判定結果のグループIDを受信する。
S1302にて、音声操作判定部807は、受信したグループIDが表示部805によりタッチパネル200に表示されている画面で操作対象のグループIDかを判定する。また、操作対象のグループIDの場合、操作グループIDとしてRAM503に格納する。
S1303にて、音声操作判定部807は、受信したグループIDからジョブを実行するYESの場合、S1307に遷移し、ジョブを実行しないNOの場合、S1304に遷移する。例えば、S935のようにコピー画面におけるスタートキー押下のグループIDの場合、ジョブを実行するYESに遷移する。例えば、S925のように用紙選択画面における設定変更指示「A4」のグループIDの場合、ジョブを実行しないNOに遷移する。
S1304にて、音声操作判定部807は、操作対象の設定を変更する。
S1305にて、音声操作判定部807は、表示部805にS1304の設定変更を反映した画面表示に更新するように指示する。
S1306にて、音声操作判定部807は、タッチパネル200の表示が更新されたことをデータ送受信部802によりクラウドサーバ102に送信する。
S1307にて、音声操作判定部807は、表示部805にジョブ実行画面を表示するように指示する。例えば、コピージョブのジョブ実行画面955をタッチパネル200に表示する。
S1308にて、音声操作判定部807は、デバイス制御部808にてジョブの実行処理を指示する。
S1309にて、音声操作判定部807は、ジョブの実行処理の終了をデバイス制御部808から受信し、表示部805にジョブの実行終了を通知し、ジョブ実行画面955を閉じる。例えば、S912で表示するコピー画面952を表示する。
S1310にて、音声操作判定部807は、音声認識を終了するための終了トリガが発生したかを判定する処理(終了トリガ判定処理)を実行する。終了トリガ判定処理は、図14のフローチャートにて説明する。
S1311にて、表示部805は、画面操作の処理を実行し、操作した処理に対応するグループIDを決定し、操作グループIDとしてRAM503に保持し、S1310の終了トリガ判定で使用する。
以上、図13の音声操作判定部807のフローチャートにより、クラウドサーバ102から音声認識結果のグループIDを受信する事で、音声制御装置100から入力した音声データより画像形成装置101の操作を実行可能とする。
<画像形成装置の音声認識終了トリガ判定の処理フロー>
図14は、画像形成装置101のデバイス制御プログラム801の音声認識終了トリガ判定の概要を示すフローチャートである。図13で説明したように、音声操作によりジョブの実行、画面を変更した後、音声認識の終了トリガ判定を行い、音声制御装置100を用いた音声操作を終了するかを判定する。
S1401にて、音声操作判定部807は、S1004で格納した起動メッセージから起動トリガを取得し、表2音声認識起動設定において一致する起動トリガの終了トリガを取得する。例えば、起動トリガが音声認識ボタン6010の場合、終了トリガは、音声認識ボタン押下になる。
S1402にて、音声操作判定部807は、S1301またはS1311でRAM503に格納した操作グループIDを取得する。
S1403にて、音声操作判定部807は、S1402で取得したグループIDが終了トリガと一致するかを判定する。判定した結果が終了トリガと一致するYESの場合、S1404に遷移し、終了トリガと一致しないNOの場合、終了する。
ここで、終了トリガの判別方法について説明する。例えば、終了トリガが印刷終了の場合、ジョブ実行時の機能番号(コピー:FNC00001)、操作番号(開始:OPR00012)からジョブ種を判別し、終了したジョブ種より印刷が終了したかを判断する。例えば、終了トリガが音声認識ボタンの場合、画面操作した機能番号(音声認識:FNC00009)からどの機能ボタンを押下したか判別し、終了トリガの音声認識ボタン押下と一致するかを判断する。
S1404にて、音声認識終了トリガを検出したことを上位フローのS1009に通知する。
以上の音声認識の終了トリガ判定を画面操作、ジョブ終了時に判定する事で、音声認識を起動し続けることを防止する。また、起動トリガと終了トリガを紐づける事で、ユーザが使用したい機能に応じた音声操作が可能となる。
<音声制御装置の音声制御プログラムの処理フロー>
図15は、音声制御装置の音声制御プログラム601の音声制御の概要を示すフローチャートである。
S1501にて、音声制御プログラム601は、音声操作開始指示の受信を待ち、マイクロフォン308で録音した録音データがウェイクワードと一致したことを音声操作開始検知部607にて検知されたら、S1502に遷移する。
S1502にて、音声制御プログラム601は、対話セッション(例えば、S963)を開始する。
S1503にて、音声制御プログラム601は、表示部606により発話処理状態LEDを点灯する。
S1504にて、音声制御プログラム601は、音声操作起動ワードまたは音声操作ワードを音声取得部604から音声で取得、または、データ送受信部602から音声データとして受信する。音声の場合、発話終了判定部608により音声取得部604により取得した音声の終了を決定し、音声を音声データに変換して外部記憶装置305に格納する。音声データの場合、データ管理部603により受信した音声データを外部記憶装置305に格納する。
S1505にて、音声制御プログラム601は、音声データを検出したかを判定し、音声データを検出したYESの場合、S1506に遷移し、音声データを検出しないNOの場合、S1504に遷移する。
S1506にて、音声制御プログラム601は、表示部606により応答処理状態LEDを点滅する。
S1507にて、音声制御プログラム601は、S1504にて格納した音声データをデータ送受信部602によりネットワークI/F306を介してクラウドサーバ102に送信する。
S1508にて、音声制御プログラム601は、データ送受信部602から音声合成データの受信を待つ。尚、一定時間受信しなかったら、次のステップに遷移する。
S1509にて、音声制御プログラム601は、音声合成データの受信を確認し、受信したYESの場合、S1510に遷移し、未受信または受信中のNOの場合、S1508に戻る。
S1510にて、音声制御プログラム601は、音声再生部605にてS1508で受信した音声合成データを再生する。
S1511にて、音声制御プログラム601は、データ送受信部602にてデータをクラウドサーバ102から受信するのを待つ。
S1512にて、音声制御プログラム601は、データ送受信部602に対話セッション終了通知を受信したかを判定し、受信したYESの場合、S1513に遷移し、受信しないNOの場合、S1508に遷移する。
S1513にて、音声制御プログラム601は、表示部606で発話処理待機LEDを消灯する。
S1514にて、音声制御プログラム601は、対話セッションを終了し、音声操作開始指示の受信待ちS1501に戻る。
<クラウドサーバの音声データ変換プログラムの処理フロー>
図16は、クラウドサーバ102のクラウドサーバの音声データ変換制御プログラム701の音声認識制御の概要を示すフローチャートである。尚、クラウドサーバ102における音声操作は、音声データ変換制御プログラム701により実行する。
S1601にて、音声データ変換プログラム701は、受信した音声データに対して、音声認識部705で音声認識処理を実行し、形態素解析部706により認識した音声を分解し、グループID判定部707によりグループIDを決定する。
S1602にて、音声データ変換プログラム701は、音声認識結果としてS1601で決定したグループIDをデータ送受信部702により画像形成装置101に送信する。
S1603にて、音声データ変換プログラム701は、S1601で決定したグループIDがジョブを実行するグループIDかどうかを判定し、ジョブを実行するYESの場合、S1604に遷移し、ジョブを実行しないNOの場合、S1610に遷移する。
S1604にて、音声データ変換プログラム701は、データ送受信部702にて、ジョブ実行開始通知を受信する。
S1605にて、音声データ変換プログラム701は、ジョブ実行開始通知で通知されたテキストデータを元に音声合成部708にて音声合成処理を実行する。
S1606にて、音声データ変換プログラム701は、データ送受信部702にてS1605で生成した音声合成データを音声制御装置100に送信する。
S1607にて、音声データ変換プログラム701は、データ送受信部702にて、ジョブ実行終了通知を受信する。
S1608にて、音声データ変換プログラム701は、S1607で受信したジョブ実行終了通知で通知されたテキストデータを元に音声合成部708にて音声合成処理を実行する。
S1609にて、音声データ変換プログラム701は、データ送受信部702にてS1608で生成した音声合成データを音声制御装置100に送信する。
S1610にて、音声データ変換プログラム701は、データ送受信部702にて画面更新通知を受信する。
S1611にて、音声データ変換プログラム701は、S1605受信した画面更新通知で通知されたテキストデータを元に音声合成部708にて音声合成処理を実行する。
S1612にて、音声データ変換プログラム701は、データ送受信部702にてS1610で生成した音声合成データを音声制御装置100に送信する。
以上、クラウドサーバ102に配置された音声操作を実行するための音声データ変換プログラム701の音声認識の為のフロー制御を説明した。このように、クラウドサーバ102に配置されるクラウドサーバの音声データ変換制御プログラム701にて形態素解析部706とグループID判定部707と音声合成部708を音声操作に応じて用意する事で、様々な音声認識の音声操作に対応可能となる。また、音声操作と画像形成装置をデータ管理部703で紐づけることにより、受信した音声データから画像形成装置の音声操作を行うためのグループIDの送信が可能となる。また、逆に画像形成装置からジョブ実行開始通知、ジョブ実行終了通知、画面更新通知を受信し、音声合成データを生成し、音声制御装置に送信する事で、音声制御装置から音声応答を出力することが可能となる。
<音声認識システムのデータ構成図>
図17は、本発明の画像認識制御システムを構成する各装置・クラウドサーバに格納されるデータを示したデータ構成図である。
クラウドサーバ102は、音声操作を実行するため、2つのURL情報を有し、音声操作で発話した音声データを音声認識実行後、生成したテキストデータからグループIDを判定し、グループIDに基づいて画像形成装置の制御、音声応答を実行する。音声制御装置100と通信するクラウドサーバ102(http://aaaaa/voice_serv)は、音声制御装置100から音声データを受信し、音声認識して、テキストデータを生成し、音声合成データを受信した音声データの応答として送信する。画像形成装置101と通信するクラウドサーバ102(http://aaaaa/voice_serv)は、テキストデータからグループIDを抽出して、画像形成装置100にグループIDを送信し、画像形成装置からグループIDの処理結果を受信する。
また、クラウドサーバ102は、スピーカ5000(図17の音声制御装置の製品名)の情報として、MACアドレスとIPアドレスをクラウドサーバ102の外部記憶装置405に格納する。また、音声制御装置からクラウドサーバ102にアクセスするためのアカウント情報(QQQ@aaaaa.mail)も外部記憶装置405に格納し、前述のURLにアクセスする際に認証してから通信する。尚、音声制御装置が複数ある場合は、スピーカ5001の情報もクラウドサーバ102の外部記憶装置405に格納する。
クラウドサーバ102は、画像形成装置101の情報として、MACアドレス、IPアドレスをクラウドサーバ102の外部記憶装置405に格納する。また、画像形成装置からクラウドサーバ102にアクセスするためのアカウント情報(QQQ@aaaaa.mail)も外部記憶装置405に格納する。
スピーカ5000(音声制御装置1)は、MACアドレスとIPアドレスを外部記憶装置305に格納する。また、音声認識を起動するためのウェイクワード(“スピーカ1を起動して”)も、音声データとして外部記憶装置305に格納する。さらに、音声認識を実行するためのURL情報(http://aaaaa/voice_serv)とアカウント情報(QQQ@aaaaa.mail)を格納し、音声認識起動後、前記URLに対して音声データの送信を実行する。
画像形成装置101は、音声操作を行うためのクラウドサーバ102のURL情報(http://aaaaa/mfp_mng)とアカウント(QQQ@aaaaa.mail)情報を外部記憶装置505に格納する。また、音声認識を起動するための表A〜Cの音声認識起動に関する各種設定、クラウドサーバ102のクラウドサーバが格納しているグループIDのリスト図7Bも外部記憶装置505に格納する。尚、図7Bのリストは、クラウドサーバとアカウント情報を用いて認証した後、クラウドサーバ102から受信するようにしてもよい。また、スピーカ5000の音声認識を起動するため、スピーカ5000のウェイクワード(“スピーカ1を起動して”)の音声データと、スピーカ5001のウェイクワード(“スピーカ2を起動して”)の音声データも外部記憶装置505に格納する。尚、音声データを保持せずに、テキストデータのみ保持し、テキストデータをクラウドサーバに送信後、でクラウドサーバ102の音声合成処理した音声データを受信し、RAM503に保存して音声制御装置の起動に用いても良い。また、音声操作起動ワードとして、“音声操作を起動して”、“コピーして”などを外部記憶装置505に格納する。音声操作起動ワードも、クラウドサーバ102から音声合成後の音声データとして受信するようにしても良い。
以上、実施例1で説明した各種データに関して、クラウドサーバ102と通信するためのアカウントでクラウドサーバ102は、音響制御装置100と画像形成装置101を紐づけて情報処理し、音声操作を可能とする。また、音声制御装置100の起動ワードを画像形成装置101が保有する事で、音声制御装置100の起動を画像形成装置101から実行可能とする。また、音声認識による画像形成装置の音声操作起動ワードをクラウドサーバ102にて保持する事で、クラウドサーバ102が音声操作起動ワード受信後に画像形成装置の制御の開始を画像形成装置に通知する事が可能となる。さらに、クラウドサーバ102から画像形成装置101がウェイクワードおよび音声操作起動ワードを受信する事で、画像形成装置の記憶装置505に保持する音声データのサイズを減らし、音声操作を実行可能にした。
(実施例2)
実施例2は、図9Bで説明した音声操作開始処理が実施例1と異なる。実施例2の音声操作開始処理は、図9Cの音声操作開始処理のシーケンス図で説明する。
S961〜S976は、図9Bと同じ処理であるため、説明を省略する。
S980にて、デバイス制御プログラム801は、ウェイクワードを音声データとして音声制御装置100に送信する。ここで送信される音声データは、本発明のウェイク指示の一例である。尚、送信データは、音声データではなく、音声制御装置100の音声認識を起動するための起動コマンドまたはウェイクワードのテキストデータを受け付ける場合は、起動コマンドまたはテキストデータでもよい。音声制御プログラム601は、データ送受信部602より受信したウェイクワードをRAM303に保存し、音声操作開始検知部607にて音声操作の開始を判定する。
S981にて、音声制御プログラム601は、音声操作の開始を判定したら、音声制御起動応答を画像形成装置101に送信する。デバイス制御制御プログラム801は、データ送受信部802経由で受信した音声制御起動応答を判定し、音声制御装置の起動に成功した場合、ステータス表示204に“起動中です“を表示する事でユーザに通知する。音声制御装置の起動に失敗した場合は、ステータス表示204”音声認識起動エラー“を表示する。
S982にて、音声操作起動ワードを音声データとして音声制御装置100に送信する。この音声データは、本発明の起動指示の一例である。尚、送信データは、音声データではなく、音声制御装置100の音声操作を起動するための音声操作起動コマンドまたは音声操作起動ワードのテキストデータを受け付ける場合は、音声操作起動コマンドまたは音声操作起動ワード(テキストデータ)でもよい。音声制御プログラム601は、データ送受信部より受信した音声操作起動ワードをRAM303に保存する。
S983にて、音声制御プログラム601は、画像形成装置101に音声操作起動応答を送信する。デバイス制御プログラム801は、データ送受信部802経由で受信した音声制御起動応答を判定し、音声制御装置の起動に失敗した場合は、ステータス表示204”音声認識起動エラー“を表示する。
以上、図9Cのシーケンス図により、音声制御装置の起動と音声操作の開始を画像形成装置のスピーカからの音声出力無しで、ネットワーク104経由で起動する事が可能となる。スピーカからの音声出力で起動しない為、音声制御装置100と画像形成装置101が離れた場所でも、本実施形による音声操作の起動が可能になる。ユーザ106が操作しているクライアント端末103の傍に音声制御装置を置いた状態で、画像形成装置101の音声操作が可能になることで、クライアント端末103から印刷指示した印刷ジョブ(セキュアプリント指定)の出力操作をリモートで実行可能になる。
以下に上記した実施例に記載の略語について説明する。
BLEとは、Bluetooth(登録商標) Low Energyのことである。
CPUとは、Central Processing Unitのことである。
DNNとは、Deep Neural Networkのことである。
FAXとは、Facsimileのことである。
GMMとは、Gaussian mixture modelのことである。
HDDとは、Hard Disk Driveのことである。
HMMとは、Hidden Markov Modelのことである。
IDとは、Identificationのことである。
IEEEとは、Institute of Electrical and Electronics Engineersのことである。
IPとは、Internet Protocolのことである。
LANとは、Local Area Networkのことである。
LCDとは、Liquid Crystal Displayのことである。
LEDとは、Light Emitting Diodeのことである。
MEMSとは、Micro Electro Mechanical Systemsのことである。
MFPとは、Multifunction Peripheralのことである。
MP3とは、MPEG Audio Layer−3のことである。
PCとは、Personal Computerのことである。
RAMとは、Random‐Access Memoryのことである。
RNNとは、Recurrent Neural Networksのことである。
ROMとは、Read Only Memoryのことである。
SDカードとは、Secure Digital Memory Cardのことである。
SSDとは、Solid State Driveのことである。
TCPとは、Transmission Control Protocolのことである。
UIとは、User Interfaceのことである。
URLとは、Uniform Resource Locatorのことである。
<その他の実施形態>
上記実施形態は、1つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出して実行する処理の形式でも実現可能である。また、1つ以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 音声制御装置
101 画像形成装置
102 クラウドサーバ
103 クライアント端末
104 ネットワーク
105 ゲートウェイ
106 ユーザ
308 マイクロフォン
509 操作パネル(ディスプレイ)
701 音声データ変換制御プログラム
801 デバイス制御プログラム

Claims (20)

  1. 音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置であって、
    音声を出力する音声出力手段と、
    前記入出力デバイスを起動するためのユーザ操作を受信する受信手段と、
    前記受信手段によって受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードを前記音声出力手段から出力するよう制御する制御手段と、を備えることを特徴とする情報処理装置。
  2. 前記制御手段は、前記ウェイクワードに続いて、前記サーバによる前記情報処理装置の音声操作サービスを起動する音声操作起動ワードを前記音声出力手段から出力するよう制御する、請求項1に記載の情報処理装置。
  3. 前記入出力デバイスは、前記音声操作起動ワードに対応する音声データを前記サーバに送信し、前記サーバは、当該音声データに従って前記音声操作サービスの開始を示す開始データを送信し、
    前記情報処理装置は、
    前記サーバから前記開始データを受信する通信手段と、
    前記開始データに従って、前記入出力デバイスを介した音声操作を実行する実行手段と、をさらに備えることを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記入出力デバイスの状態を示す状態表示手段をさらに備える、ことを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記状態表示手段は、前記入出力デバイスが起動中であること示す情報を表示する、ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記入出力デバイスは、前記情報処理装置を操作するための操作ワードを入力し、入力された前記操作ワードに対応する音声データを前記サーバに出力し、前記サーバは、当該音声データの解析結果に基づいて前記情報処理装置を操作するための情報を前記情報処理装置に送信し、
    前記情報処理装置は、
    前記サーバから受信した前記情報に従って処理を実行する処理手段をさらに備える、ことを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
  7. 情報を表示する表示手段をさらに備え、
    前記処理手段は、前記サーバから受信した前記情報に従って前記表示手段に情報を表示させる表示制御手段である、ことを特徴とする請求項6に記載の情報処理装置。
  8. 印刷手段をさらに備え、
    前記表示制御手段は、前記入出力デバイスに前記印刷手段の使用を示す操作ワードが入力されると、前記表示手段に前記印刷手段による印刷の設定を示す印刷設定画面を表示させる、ことを特徴とする請求項7に記載の情報処理装置。
  9. 印刷手段をさらに備え、
    前記処理手段は、前記サーバから受信した前記情報に従って前記印刷手段に印刷を実行させる印刷制御手段である、ことを特徴とする請求項6に記載の情報処理装置。
  10. 音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置による前記入出力デバイスの起動方法であって、
    前記情報処理装置において前記入出力デバイスを起動するためのユーザ操作を受信する受信工程と、
    前記受信工程で受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードを前記情報処理装置の音声出力手段から出力する出力工程と、を備えることを特徴とする入出力デバイスの起動方法。
  11. 音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置であって、
    前記入出力デバイスとネットワークを介して通信可能な通信手段と、
    前記入出力デバイスを起動するためのユーザ操作を受信する受信手段と、
    前記受信手段によって受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードに対応するウェイク指示を前記入出力デバイスに出力するよう前記通信手段を制御する制御手段と、を備えることを特徴とする情報処理装置。
  12. 前記制御手段は、前記ウェイク指示に続いて、前記サーバによる前記情報処理装置の音声操作サービスを起動する起動指示を前記入出力デバイスに出力するよう前記通信手段を制御する、請求項11に記載の情報処理装置。
  13. 前記入出力デバイスは、前記起動指示に対応する音声データを前記サーバに送信し、前記サーバは、当該音声データに従って前記音声操作サービスの開始を示す開始データを送信し、
    前記情報処理装置は、
    前記通信手段によって受信された前記開始データに従って、前記入出力デバイスを介した音声操作を実行する実行手段、をさらに備えることを特徴とする請求項11又は12に記載の情報処理装置。
  14. 前記入出力デバイスの状態を示す状態表示手段をさらに備える、ことを特徴とする請求項11乃至13の何れか1項に記載の情報処理装置。
  15. 前記状態表示手段は、前記入出力デバイスが起動中であること示す情報を表示する、ことを特徴とする請求項14に記載の情報処理装置。
  16. 前記入出力デバイスは、前記情報処理装置を操作するための操作ワードを入力し、入力された前記操作ワードに対応する音声データを前記サーバに出力し、前記サーバは、当該音声データの解析結果に基づいて前記情報処理装置を操作するための情報を前記情報処理装置に送信し、
    前記情報処理装置は、
    前記サーバから受信した前記情報に従って処理を実行する処理手段をさらに備える、ことを特徴とする請求項11乃至15の何れか1項に記載の情報処理装置。
  17. 情報を表示する表示手段をさらに備え、
    前記処理手段は、前記サーバから受信した前記情報に従って前記表示手段に情報を表示させる表示制御手段である、ことを特徴とする請求項16に記載の情報処理装置。
  18. 印刷手段をさらに備え、
    前記表示制御手段は、前記入出力デバイスに前記印刷手段の使用を示す操作ワードが入力されると、前記表示手段に前記印刷手段による印刷の設定を示す印刷設定画面を表示させる、ことを特徴とする請求項17に記載の情報処理装置。
  19. 印刷手段をさらに備え、
    前記処理手段は、前記サーバから受信した前記情報に従って前記印刷手段に印刷を実行させる印刷制御手段である、ことを特徴とする請求項16に記載の情報処理装置。
  20. 音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置による前記入出力デバイスの起動方法であって、
    前記情報処理装置において前記入出力デバイスを起動するためのユーザ操作を受信する受信工程と、
    前記受信工程で受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードに対応するウェイク指示を前記入出力デバイスに出力する出力工程と、を備えることを特徴とする入出力デバイスの起動方法。
JP2019214509A 2019-11-27 2019-11-27 情報処理装置、入出力デバイスの起動方法 Pending JP2021085982A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019214509A JP2021085982A (ja) 2019-11-27 2019-11-27 情報処理装置、入出力デバイスの起動方法
US16/950,515 US11327697B2 (en) 2019-11-27 2020-11-17 Information processing apparatus and startup method for input-output device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019214509A JP2021085982A (ja) 2019-11-27 2019-11-27 情報処理装置、入出力デバイスの起動方法

Publications (1)

Publication Number Publication Date
JP2021085982A true JP2021085982A (ja) 2021-06-03

Family

ID=75974788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019214509A Pending JP2021085982A (ja) 2019-11-27 2019-11-27 情報処理装置、入出力デバイスの起動方法

Country Status (2)

Country Link
US (1) US11327697B2 (ja)
JP (1) JP2021085982A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI803782B (zh) * 2020-10-16 2023-06-01 明泰科技股份有限公司 無線電網路閘道器以及無線電系統
US11893985B2 (en) * 2021-01-15 2024-02-06 Harman International Industries, Incorporated Systems and methods for voice exchange beacon devices
US11706357B2 (en) * 2021-08-24 2023-07-18 Toshiba Tec Kabushiki Kaisha Multifunction peripheral natural language chatbot

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
JP7071098B2 (ja) 2017-11-20 2022-05-18 キヤノン株式会社 音声制御システム、制御方法およびプログラム
CN111357048A (zh) * 2017-12-31 2020-06-30 美的集团股份有限公司 用于控制家庭助手装置的方法和系统
WO2019235863A1 (en) * 2018-06-05 2019-12-12 Samsung Electronics Co., Ltd. Methods and systems for passive wakeup of a user interaction device
JP7180330B2 (ja) * 2018-11-30 2022-11-30 株式会社リコー 情報処理システム、情報処理装置、および方法

Also Published As

Publication number Publication date
US11327697B2 (en) 2022-05-10
US20210157536A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
US10917369B2 (en) Information processing apparatus, information processing system, and information processing method
JP2021085982A (ja) 情報処理装置、入出力デバイスの起動方法
US11475892B2 (en) Speech control system, speech control method, image processing apparatus, speech control apparatus, and storage medium
CN110875993B (zh) 带交互代理功能的图像形成系统及其控制方法和存储介质
US11792338B2 (en) Image processing system for controlling an image forming apparatus with a microphone
KR20120051517A (ko) 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치
US11683422B2 (en) Image processing system, image processing apparatus, and image processing method
JP2022001997A (ja) 情報処理装置、情報処理システム、制御方法、並びにプログラム
US20210152700A1 (en) Image processing system, setting control method, image processing apparatus, and storage medium
KR20200140740A (ko) 정보 처리 시스템, 정보 처리장치, 및 정보 처리방법
JP7286321B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP2020201911A (ja) 情報処理システム、情報処理装置、情報処理方法
US20220247878A1 (en) Information processing system, information processing apparatus, and information processing method
JP7327939B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP7353806B2 (ja) 情報処理システム、情報処理装置、情報処理方法
JP2021015441A (ja) 情報処理システム、情報処理装置、情報処理方法
JP7483487B2 (ja) 画像形成システム、画像形成システムの制御方法、及びプログラム
JP2022096305A (ja) 情報処理システム、画像処理装置、情報処理システムの制御方法、及びプログラム
US11700338B2 (en) Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor
US11837226B2 (en) Information processing apparatus, information processing method, electronic device and information processing system
US11647130B2 (en) Information processing system capable of connecting a plurality of voice control devices, method of controlling information processing system, and storage medium
JP2023018516A (ja) 情報処理システム、情報処理システムの制御方法およびプログラム
US12015746B2 (en) Image processing system, setting control method, image processing apparatus, and storage medium
JP7388079B2 (ja) 情報送信装置、情報送信方法およびプログラム
JP2021163163A (ja) 情報処理装置、情報処理方法及びプログラム