JP2020177131A - 音声クラウドシステム、方法およびプログラム - Google Patents

音声クラウドシステム、方法およびプログラム Download PDF

Info

Publication number
JP2020177131A
JP2020177131A JP2019079236A JP2019079236A JP2020177131A JP 2020177131 A JP2020177131 A JP 2020177131A JP 2019079236 A JP2019079236 A JP 2019079236A JP 2019079236 A JP2019079236 A JP 2019079236A JP 2020177131 A JP2020177131 A JP 2020177131A
Authority
JP
Japan
Prior art keywords
voice
output
notification sound
instruction
image forming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019079236A
Other languages
English (en)
Inventor
真央 細野
Mao Hosono
真央 細野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019079236A priority Critical patent/JP2020177131A/ja
Publication of JP2020177131A publication Critical patent/JP2020177131A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Accessory Devices And Overall Control Thereof (AREA)
  • Facsimiles In General (AREA)

Abstract

【課題】画像形成装置からユーザーへの通知を行うことができる音声クラウドシステム、方法およびプログラムを提供する。【解決手段】複合機112は、エラーその他のユーザーに通知すべき事象が発生すると、スマートスピーカー111に起動ワードを音声入力する。スマートスピーカー111が起動ワードの音声データを生成して、音声AIサーバー101へ送信すると、音声AIサーバー101は複合機112との会話セッションを開始する。次に、複合機112が報知音をスマートスピーカー111に音声入力し、当該音声データをスマートスピーカー111が音声AIサーバー101へ送信すると、音声AIサーバー101は当該音声データから報知音のパターンを特定し、更に、当該報知パターンの対応する報知メッセージを特定する。その後、音声AIサーバー101は当該報知メッセージをスマートスピーカー111へ送信して音声出力させる。【選択図】図2

Description

本発明は、音声クラウドシステム、方法およびプログラムに関し、特に、画像形成装置を音声操作するユーザーに対する情報提供を高機能化する技術に関する。
近年、オフィス環境などでは、画像形成装置をLAN(Local Area Network)に接続し、複数のPC(Personal Computer)からジョブを送信して、印刷を行わせる利用形態が一般的になっている。このような環境下で、画像形成装置に複数のジョブが集中すると、ユーザーは、自分が投入したジョブが完了したかどうかが分かり難くなって、画像形成装置の使い勝手が低下する恐れがある。
このような問題に対して、例えば、ジョブの完了時に当該ジョブを投入したユーザー毎に固有の音声を出力したり、エラー等のイベントが発生した場合にも当該イベントに対応した音声を出力したりする印刷システムが提案されている(特許文献1を参照)。このようにすれば、出力された音声から印刷システムの動作状況を知ることができるので、印刷システムの使い勝手を向上させることができる。
更に、画像形成装置の操作パネルに設定画面を表示してから所定時間を経過しても、ユーザーからの設定入力が無い場合には、音声ガイダンスを出力して、ユーザーの設定入力を補助する画像形成装置も提案されている(特許文献2を参照)。このようにすれば、単にビープ音しか出力しない場合と比較して、画像形成装置の使い方を理解し易くすることができる。これは、画像形成装置の動作状況を通知する場合についても同様で、単なるビープ音ではなく言語を用いれば動作状況をユーザーによりよく理解させることができる。
特開2002−051173号公報 特開2005−064883号公報
しかしながら、画像形成装置には様々な機種があり、省スペース化を優先する機種やコストパフォーマンスを優先する機種などではガイダンス音声を合成して出力するための音声出力装置を内蔵したり、外付けで追加したりすることが難しい場合もある。
一方、近年、スマートスピーカーおよびIoT機器の普及が進んだことから、スマートスピーカーを用いて音声操作することができる機器が増加しつつあり、画像形成装置に関しても、他のIoT機器とスマートスピーカーを共用して音声操作に対応する利用形態が実用段階に到達しつつある。このため、既設のスマートスピーカーを利用すれば、画像形成装置専用の音声出力装置を追加する場合と比較してコストの上昇を抑えたり、省スペース化を図ったりすることができると期待される。
スマートスピーカーは、音声入力をマイクで受け付けて音声データをクラウドサーバー(以下、「音声クラウドシステム」という。)へ送信し、音声クラウドシステムは当該音声データを音声認識によってテキストデータに変化し、当該テキストデータを自然言語解析することによって、指示内容を特定する。更に、当該指示内容に従ってコマンドを生成して画像形成装置に入力すれば、音声指示された処理を画像形成装置に実行させることができる。
しかしながら、スマートスピーカーを用いた音声サービスでは、ユーザーとの会話セッションが終了すると、音声クラウドシステムは外部デバイスからの通知を受け取らない。このため、画像形成装置で印刷完了やエラーといったイベントが発生しても、音声クラウドシステムおよびスマートスピーカーを経由してユーザーに音声通知することができない、という問題がある。
本発明は、上述のような問題に鑑みて為されたものであって、画像形成装置からユーザーへの通知を行うことができる音声クラウドシステム、方法およびプログラムを提供することを目的とする。
上記目的を達成するため、本発明の一形態に係る音声クラウドシステムは、音声入出力装置に入力された指示音声の音声データを、ネットワークを介して受信し、当該音声データに応じたコマンドを画像形成装置へ送信して、音声指示された処理を実行させる音声クラウドシステムであって、前記指示音声が、前記画像形成装置が音声出力した報知音であるかどうかを判別する判別手段と、前記判別手段が前記指示音声は前記報知音であると判別した場合に、当該報知音に対応する言語メッセージを前記音声入出力装置に音声出力させる出力手段と、を備えることを特徴とする。
この場合において、前記報知音に対応付けて前記言語メッセージを記憶する第1の記憶手段を備え、前記出力手段は、前記報知音に対応する言語メッセージを前記第1の記憶手段から読み出して、前記音声入出力装置に音声出力させてもよい。
また、画像形成装置の装置状態に対応付けて前記言語メッセージを記憶する第2の記憶手段と、前記第1の記憶手段が、前記指示音声に対応する前記言語メッセージを記憶していない場合に、前記画像形成装置から装置状態を取得する取得手段と、前記出力手段は、前記取得手段が取得した装置状態に対応する言語メッセージを前記第2の記憶手段から読み出して、前記音声入出力装置に音声出力させてもよい。
また、画像形成装置の装置状態に対応付けて前記言語メッセージを記憶する第3の記憶手段と、前記指示音声は前記報知音であると判別した場合に、前記画像形成装置から装置状態を取得する取得手段と、前記出力手段は、前記取得手段が取得した装置状態に対応する前記言語メッセージを前記第3の記憶手段から読み出して、前記音声入出力装置に音声出力させてもよい。
また、前記画像形成装置が報知音を出力した際に実行していたジョブが、当該報知音を受け付けた音声入出力装置と同じ音声入出力装置から受け付けた指示音声に基づくコマンドによって前記画像形成装置が実行したジョブでない場合には、前記出力手段に、当該報知音に対応する言語メッセージを前記音声入出力装置に出力させるのを禁止する禁止手段を備えてもよい。
また、前記報知音から、前記画像形成装置にエラーが発生したかどうかを判別するエラー判別手段と、エラーが発生したと判別した場合に、当該エラーの種類から画像形成装置がジョブの実行を継続することができるかどうかを判別する継続判別手段と、ジョブ実行を継続できると判別した場合に、ジョブの実行継続の要否を問い合わせる音声を前記音声入出力装置に音声出力させる問い合わせ手段と、を備えてもよい。
また、前記問い合わせに対して、ジョブ実行を継続するとの指示音声を前記音声入出力装置が受け付けた場合に、当該ジョブの実行を継続させるコマンドを前記画像形成装置へ送信する継続指示手段を備えてもよい。
また、本発明の一形態に係る方法は、音声入出力装置に入力された指示音声の音声データを、ネットワークを介して受信し、当該指示音声に応じたコマンドを画像形成装置へ送信して、音声指示された処理を実行させる音声クラウドシステムが実行する方法であって、前記指示音声が、前記画像形成装置が音声出力した報知音であるかどうかを判別する判別ステップと、前記判別ステップにおいて、前記指示音声は前記報知音であると判別した場合に、当該報知音に対応する言語メッセージを前記音声入出力装置に音声出力させる出力ステップと、を含むことを特徴とする。
また、本発明の一形態に係るプログラムは、音声入出力装置に入力された指示音声の音声データを、ネットワークを介して受信し、当該指示音声に応じたコマンドを画像形成装置へ送信して、音声指示された処理を実行させる音声クラウドシステムとして、コンピューターを動作させるプログラムであって、前記指示音声が、前記画像形成装置が音声出力した報知音であるかどうかを判別する判別ステップと、前記判別ステップにおいて、前記指示音声は前記報知音であると判別した場合に、当該報知音に対応する言語メッセージを前記音声入出力装置に音声出力させる出力ステップと、前記コンピューターに実行させることを特徴とする。
このようにすれば、既設の音声クラウドシステムおよび音声入出力装置(スマートスピーカー)を用いて、画像形成装置が、例えば、ジョブ完了などの事象を報せる報知音を音声出力した場合に、その報知音に対応する言語メッセージを音声入出力装置が出力するので、言語メッセージを出力するためのコスト削減を実現しつつ、画像形成装置にどのような事象が発生したかを音声メッセージでユーザーに報せることができる。
画像形成システムの主要な構成を示す図である。 画像形成システムの動作を例示するシーケンス図である。 スマートスピーカー111の主要な構成を示すブロック図である。 音声AIサーバー101の主要な構成を示すブロック図である。 MFP制御サーバー102の主要な構成を示すブロック図である。 複合機112の主要な構成を示す外観斜視図である。 複合機112の主要な構成を示すブロック図である。 音声AIサーバー101の主要な動作を示すフローチャートである。 音声AIサーバー101が実行する報知音処理を示すフローチャートである。 (a)は複合機112が音声出力する報知音の音声データを例示するグラフであり、(b)は2種類の音声データに周波数フィルタリングを行うことによって得られる2種類の音声データを例示するグラフであって、いずれのグラフも横軸は時間を表し、縦軸は音声データの振幅を表す。 報知音パターン登録テーブル1100を例示する表である。 音声AIサーバー101が実行するエラー継続判定処理を示すフローチャートである。 本発明の変形例に係る報知音処理を示すフローチャートである。 ステータス情報テーブル1400を例示する表である。 本発明の変形例に係る音声AIサーバー101のメインルーチンを示すフローチャートである。 本発明の別の変形例に係る音声AIサーバー101のメインルーチンを示すフローチャートである。
以下、本発明に係る音声クラウドシステム、方法およびプログラムの実施の形態について、画像形成システムを例にとり、図面を参照しながら説明する。
[1]画像形成システムの構成
まず、本実施の形態に係る画像形成システムの構成について説明する。
図1に示すように、画像形成システム1は、音声クラウドシステム100とユーザーシステム110とからなっている。ユーザーシステム110は、音声入出力装置であるスマートスピーカー(SS: Smart Speaker)111と複合機(MFP: Multi-Function Peripheral)112とをLAN(Local Area Network)122に接続したものである。スマートスピーカー111は、複合機112が出力する報知音を音声入力として集音することができる場所に配置されている。
また、音声クラウドシステム100は、フロントエンドクラウドサービスを提供する音声AI(Artificial Intelligence)サーバー101と、バックエンドクラウドサービスを提供するMFP制御サーバー102との2つのクラウドサーバーからなっており、インターネット121に接続されている。インターネット121にはLAN122もまた接続されている。
図2に示すように、複合機112のユーザーが、スマートスピーカー111に対して、例えば、「コピーして」との指示を音声入力すると、スマートスピーカー111は、アナログ音声信号から音声データを生成し、LAN122とインターネット121を経由して、当該音声データを音声AIサーバー101へ送信する。
音声AIサーバー101は、音声認識処理によって、音声データからテキストデータを生成し、更に、当該テキストデータを自然言語解析処理によって、複合機112に対する指示内容を抽出する。音声AIサーバー101は、公知のAI技術を用いて、音声認識処理および自然言語解析処理を実行してもよいし、AI技術以外の技術を用いてもよい。
また、自然言語解析処理によってテキストデータから単語を抽出し、予め用意されているリストを参照して指示内容を特定してもよい。例えば、テキストデータから抽出した単語が「ページ集約」、「2in1」なら、リストの中から「ページ集約」を探して、「ページ集約」に対応するアクションの一覧の中で「2in1」に相当するものを見つけ出すことによって指示内容を特定する。音声AIサーバー101は、抽出した指示内容をMFP制御サーバー102へ送信する。
MFP制御サーバー102は、音声AIサーバー101から指示内容を受信すると、当該指示内容に対応するコマンドを生成し、当該音声指示を受け付けたスマートスピーカー111に対応付けられている複合機112へ当該コマンドを送信する。コマンドは、例えば、スキャンジョブやプリントジョブ等のジョブを実行させる指示や、ジョブの設定内容を変更する指示などである。
複合機112は、MFP制御サーバー102からコマンドを受け付けると、当該コマンドにて指定された処理内容のジョブを実行する。その後、音声指示されたジョブの完了その他の事象あるいはエラーが発生した場合、複合機112は起動ワードを音声出力する。複合機112が音声出力した起動ワードは、上述のように、複合機112の出力音声を集音することができる位置に配設されているスマートスピーカー111に音声入力される。この音声入力を受けたスマートスピーカー111は、起動ワードの音声データを音声AIサーバー101へ送信する。
音声AIサーバー101は、起動ワードが予め登録されている起動ワードに一致するかどうかを確認することによって、音声入力された起動ワードが複合機112の起動ワードであることを特定するとともに、複合機112との新たな会話セッションを開始する。複合機112は、起動ワードに引き続いて、報知音をスマートスピーカー111に音声入力する。図2においては、当該報知音はコピー処理が完了した旨を報知する報知音である。
スマートスピーカー111が、当該報知音の音声データを音声AIサーバー101へ送信すると、音声AIサーバー101は、音声データから報知音のパターンを特定し、当該パターンに対応する報知メッセージを特定して、当該報知メッセージの音声データをスマートスピーカー111へ送信する。当該報知メッセージは、例えば、「コピーを完了しました」のように自然言語によるメッセージである。スマートスピーカー111は、受信した音声データを音声出力する。
[2]スマートスピーカー111の構成
次に、スマートスピーカー111の構成について説明する。
図3に示すように、スマートスピーカー111は、音声処理部301と通信制御部302とを備えており、音声処理部301にはマイク311とスピーカー312が接続されている。マイク311はユーザーの指示音声や複合機112の出力音声を集音してアナログ音声信号を生成する。マイク311は音声処理部301からのアナログ音声信号に応じて音声出力を行う。
音声処理部301は、マイク311から受け詰めたアナログ音声信号をAD(Analogue to Digital)変換し、更に圧縮符号化した音声データを生成したり、通信制御部302から受け付けた音声データからアナログ音声信号を復元して、スピーカー312に音声出力させたりする。通信制御部302は、インターネット121を経由して音声AIサーバー101と音声データ等の送受信を行うための通信処理を実行する。
[3]音声AIサーバー101の構成
次に、音声AIサーバー101の構成について説明する。
図4に示すように、音声AIサーバー101は、CPU(Central Processing Unit)400やROM(Read Only Memory)401、RAM(Random Access Memory)402等を備えており、CPU400はリセット後にROM401からブートプログラムを読み出して起動し、RAM402を作業用記憶領域として、HDD(Hard Disk Drive)403からOS(Operating System)その他のプログラムを読み出して実行する。
NIC(Network Interface Card)404は、インターネット121やLAN122を経由してスマートスピーカー111やMFP制御サーバー102と相互接続するための通信処理を実行する。
起動処理部405は、スマートスピーカー111から受け付けた音声データの音声認識処理を行うことによって、当該音声データが起動ワードであるかどうかを判別し、当該音声データが起動ワードであれば、会話セッションを開始する。また、新たに取得した起動ワードと予め登録されている起動ワードとを比較することによって、新たに取得した起動ワードが複合機112の起動ワードであるかどうかを判別する。
音声処理部406は、起動処理部405が新たに取得した起動ワードが複合機112の起動ワード以外の起動ワードであると判別した場合に、スマートスピーカー111から受け付けた音声データの音声認識処理や、スマートスピーカー111へ送信する音声データの音声合成処理を実行する。
言語処理部407は、音声処理部406が生成したテキストデータの自然言語解析処理を実行する。これによって、ユーザーが起動ワードに引き続いて入力した音声指示を認識して、指示内容を特定し、MFP制御サーバー102へ送信する。
報知音処理部408は、起動処理部405が新たに取得した起動ワードが複合機112の起動ワード以外の起動ワードであると判別した場合に、複合機112が起動ワードに引き続いて出力した報知音のパターンから報知内容を特定し、MFP制御サーバー102へ送信する。
[4]MFP制御サーバー102の構成
次に、MFP制御サーバー102の構成について説明する。
図5に示すように、MFP制御サーバー102は、CPU500やROM501、RAM502等を備えており、CPU500はリセット後にROM501からブートプログラムを読み出して起動し、RAM502を作業用記憶領域として、HDD503からOS等のプログラムを読み出して実行する。NIC504は、インターネット121を経由して音声AIサーバー101や複合機112と相互接続するための通信処理を実行する。
このような構成を備えることによって、ユーザーの指示内容に応じたコマンドを生成して、複合機112へ送信したり、複合機112の報知内容に応じたテキストデータを生成して、音声AIサーバー101へ送信したりすることができる。
[5]複合機112の構成
次に、複合機112の構成について説明する。複合機112はモノクロおよびカラーの画像形成機能、複写機能、ファクシミリ機能などの機能を兼ね備えた画像形成装置である。
図6に示すように、複合機112は、画像読み取り部610、画像形成部620および給紙部630を備えている。画像読み取り部610は、原稿トレイ611にセットされた原稿束から、自動原稿搬送装置(ADF: Automatic Document Feeder)612を用いて、1枚ずつ原稿を送り出して、所謂シートスルー方式で当該原稿を読み取った後、当該原稿を排紙トレイ613へ排出する。このようにして、画像データが生成される。
画像形成部620は、トナー像を形成して記録シートに転写する作像部やトナー像を記録シートに熱定着する定着部を有しており、画像読み取り部610が生成した画像データやLAN122やインターネット121を経由して受信した画像データを用いて画像形成処理を実行する。給紙部630は、記録シートを収容しており、画像形成部620がトナー像を形成するのに並行して記録シートを供給する。トナー像を静電転写され、更に熱定着された記録シートは、複合機112の胴内空間に設けられた排紙トレイ621へ排出される。
画像形成部620は、操作パネル600を備えており、複合機112のユーザーに対して情報を提示したり、ユーザーから指示入力を受け付けたりする。操作パネル600はスピーカーを備えており、報知音を出力することができる。また、画像形成部620は、制御部622を備えており、制御部622は複合機112の動作を制御する。
図7に示すように、制御部622は、CPU700やROM701、RAM702等を備えており、CPU700はリセット後にROM701からブートプログラムを読み出して起動し、RAM702を作業用記憶領域として、HDD703からOS等のプログラムを読み出して実行する。NIC704は、LAN122およびインターネット121を経由してMFP制御サーバー102と相互接続するための通信処理を実行する。
このような構成を備えることによって、制御部622は、画像読み取り部610、画像形成部620および給紙部630の動作を制御する。特に、操作パネル600は、液晶ディスプレイ(Liquid Crystal Display)601、タッチパッド602、ハードキー603、スピーカー604およびパネル制御部605を備えており、液晶ディスプレイ601とタッチパッド602とはタッチパネルを構成している。パネル制御部605は、タッチパッド603、ハードキー603の操作の検知、液晶ディスプレイ601での表示、及びスピーカー604から報知音の出力の制御を行う。
[6]画像形成システム1の動作
次に、画像形成システム1の動作について、特に、音声AIサーバー101の動作に着目して説明する。
(6−1)メインルーチン
図8に示すように、音声AIサーバー101は、スマートスピーカー111にて起動ワードを受け付けると(S801:YES)、当該起動ワードが複合機112の起動ワードかどうかを確認する。当該起動ワードが複合機112の起動ワードでない場合に(S802:NO)、引き続いてスマートスピーカー111にて音声指示を受け付けると(S811:YES)、当該指示内容を複合機112へ送信する(S812)。この場合において、音声AIサーバー101は、上述のように、指示内容をMFP制御サーバー102へ送信することによって、MFP制御サーバー102から複合機112へ指示内容に対応するコマンドを送信させる。
起動ワードが複合機112の起動ワードである場合は(S802:YES)、その後、スマートスピーカー111にて複合機112の報知音を受け付けると(S803:YES)、報知音処理を実行する(S804)。
(6−2)報知音処理(S804)
次に、報知音処理(S804)について説明する。
図9に示すように、報知音処理においては、まず、複合機112が出力した報知音のパターンを特定する(S901)。図10(a)に例示する音声データ1001のうち、複合機112が出力する報知音の周波数成分を抽出すると、図10(b)に例示するような音声データ1002、1003を得ることができる。音声データ1002、1003では報知音の有音部分では振幅が大きくなり、無音部分ではノイズのみなので振幅が小さくなる。このため、適当な閾値1010を用いて、振幅の大小を判定することによって、有音部分と無音部分とを特定することができる。
次に、最初の有音部分から順に、最初の有音部分の継続時間T0毎に、有音部分を「1」とし、無音部分を「0」とする符号化して、当該報知音のパターンとする。符号化する部分の数は予め設定しておけばよく、符号化する部分の数が16個である場合には報知音のパターンを2桁の16進数で表現することができる。ただし、継続時間T0を特定する必要上、MSB(Most Significant Bit)の2ビット分は「10b」とすれば、残余の14ビットで報知音の種別を表すことができる。例えば、「0xC0(10100000b)」を正常終了の報知音パターンとしたり、「0xB0(10010000b)」を紙詰まり発生の報知音パターンとしたりすることができる。このようにすることによって、報知音のパターンを特定する。
次に、報知音パターン登録テーブルを参照して、ステップS901で特定した報知音のパターンが報知音パターン登録テーブルに登録されているか確認する。報知音パターン登録テーブルは、図11に例示するように、報知音のパターン毎に、報知音の種別、自然言語(例えば、日本語)による報知メッセージ、報知種別およびエラー種別が登録されている。特定した報知音のパターンが、報知音パターン登録テーブル1100に登録されている報知音のパターンP1〜Pnのどれかに該当する場合には(S902:YES)、報知音パターン登録テーブル1100において当該報知音のパターンに対応する報知メッセージをスマートスピーカー111に音声出力させる(S911)。
報知音パターン登録テーブル1100に登録する報知メッセージは音声データであってもよいし、テキストデータであってもよい。登録されている報知メッセージがテキストデータである場合には、当該テキストデータから音声データを合成し、合成した音声データをスマートスピーカー111へ送信して、音声出力させる。
その後、報知音パターン登録テーブル1100を参照して、報知音のパターンに対応する報知種別がジョブの実行を一時中断させる「エラー」である場合には(S908:YES)、エラー継続判定処理を実行する(S909)。報知種別が「エラー」でない場合(S908:NO)並びにエラー継続判定処理を完了した後は、メインルーチンに復帰する。
特定した報知音のパターンが報知音パターン登録テーブル1100に登録されていない場合には(S902:NO)、複合機112に報知音の種別を問い合わせる(S903)。この問い合わせは、MFP制御サーバー102を経由して行う。なお、MFP制御サーバー102は、複合機112に対して問い合わせを行うことなく、自ら報知音の種別を音声AIサーバー101に応答してもよい。
音声AIサーバー101は、報知音の種別を受信すると(S904)、当該報知音の種別に対応する報知メッセージが報知音パターン登録テーブル1100に登録されているかどうかを確認する。報知音パターン登録テーブル1100に、当該報知音の種別に対応する報知メッセージが登録されている場合には(S905:YES)、ステップS901で特定した報知音のパターンを当該報知メッセージに対応するパターンとして、報知音パターン登録テーブル1100に登録するとともに(S906)、当該報知メッセージをスマートスピーカー111に送信して、音声出力させる(S907)。その後、ステップS908へ進み、上述のような処理を実行して、メインルーチンに復帰する。
報知音パターン登録テーブル1100に、当該報知音の種別に対応する報知メッセージが登録されていない場合には(S905:NO)、当該報知音の種別に対応する報知メッセージを複合機112に問い合わせる(S912)。この問い合わせも、MFP制御サーバー102を経由して行う。この場合においても、MFP制御サーバー102は、複合機112に対して問い合わせを行うことなく、自ら報知音の種別を音声AIサーバー101に応答してもよい。
音声AIサーバー101は、報知メッセージを受信すると(S913)、ステップS901で特定した報知音のパターン、報知音の種別および当該報知メッセージを対応付けて報知音パターン登録テーブル1100に登録するとともに(S914)、当該報知メッセージをスマートスピーカー111に送信して、音声出力させる(S915)。その後、ステップS908へ進み、上述のような処理を実行して、メインルーチンに復帰する。
(6−3)エラー継続判定処理(S909)
次に、エラー継続判定処理(S909)について説明する。
図12に示すように、エラー継続判定処理(S909)においては、報知音パターン登録テーブル1100を参照して、当該報知音のパターンに対応するエラー種別を特定して(S1201)、当該エラーの発生によって一時停止したジョブの実行を再開、継続することができるかどうかを当該エラー種別から判定する。当該エラーが、ジョブの実行を再開することができるエラーである場合には(S1202:YES)、当該ジョブの実行を継続するかどうかを問い合わせる音声メッセージをスマートスピーカー111に送信して、音声出力させる(S1203)。
この音声出力に対して、スマートスピーカー111は継続の要否の音声入力を受け付けると、当該継続の要否を音声AIサーバー101に送信する(S1204)。音声AIサーバー101は、当該ジョブの実行を継続するとの音声入力を受け付けた場合には(S1205:YES)、複合機112に当該ジョブの実行を再開、継続させる(S1206)。その後、上位ルーチンに復帰する。また、当該エラーが、ジョブの実行を再開することができるエラーでない場合や(S1202:NO)、上記の音声出力に対して、当該ジョブの実行を継続するとの音声入力を受け付けなかった場合にも(S1205:NO)、上位ルーチンに復帰する。
[7]変形例
以上、本発明を実施の形態に基づいて説明してきたが、本発明が上述の実施の形態に限定されないのは勿論であり、以下のような変形例を実施することができる。
(7−1)上記実施の形態においては、報知音のパターンに応じて報知メッセージを出力する場合を例にとって説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。
例えば、報知音のパターンに関わらず、報知メッセージを音声出力するための情報を取得して、当該情報に基づいて報知メッセージの音声出力を行ってもよい。この報知メッセージを音声出力するための情報とは、複合機112が音声出力した報知音のパターンであってもよいし、当該報知音の種別であってもよい。また、報知メッセージのテキストデータや音声データであってもよい。更に、複合機112のステータス情報を取得して、当該ステータス情報に応じた報知メッセージを音声出力してもよい。
すなわち、図13に示すように、報知音処理(S804)において、まず、複合機112にステータスを問い合わせて(S1301)、複合機112からステータス情報を受信し(S1302)、当該ステータス情報に対応する報知メッセージがステータス情報テーブルに登録されているかどうか確認する。図14に示すように、ステータス情報テーブル1400は、ステータス情報と報知メッセージとを対応付けた表である。ステータス情報に対応する報知メッセージがステータス情報テーブル1400に登録されている場合には(S1303:YES)、当該報知メッセージをスマートスピーカー111に送信して、音声出力させる(S1304)。その後、上記実施の形態と同様に、エラー継続判定処理に関連する処理を実行して、上位ルーチンに復帰する。
ステータス情報に対応する報知メッセージがステータス情報テーブル1400に登録されていない場合には(S1303:NO)、当該ステータス情報に対応する報知メッセージを複合機112に問い合わせて(S1311)、複合機112から当該報知メッセージを受信し(S1312)、ステータス情報に対応付けて当該報知メッセージをステータス情報テーブル1400に登録するとともに(S1313)、当該報知メッセージをスマートスピーカー111に送信して、音声出力させる(S1314)。その後、エラー継続判定処理(S1306)に関連する処理を実行して、上位ルーチンに復帰する。
なお、この場合において、複合機112は報知音を出力してもよいし、起動ワードのみを音声出力して報知音の出力は停止してもよい。
(7−2)上記実施の形態においては、複合機112が報知音を音声出力すると、当該報知音のパターンに対応した報知メッセージを常に音声出力する場合を例にとって説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。
例えば、複合機112が報知音を音声出力した際に実行中であったジョブが、複合機112から報知音の音声入力を受けたスマートスピーカー111を用いて投入されたジョブでない場合には、当該報知音に対応する報知メッセージの出力を禁止してもよい。
この場合において、図15に示すように、音声AIサーバー101のメインルーチンにおいて、スマートスピーカー111が受け付けた起動ワードが複合機112の起動ワードでない場合に(S1502:NO)、当該起動ワードに引き続いて音声指示を受け付けると(S1511:YES)、音声指示の指示内容と当該音声指示を受け付けたスマートスピーカー111の識別子とを複合機112へ送信して(S1512)、複合機112に当該指示内容に係るジョブと対応付けてスマートスピーカー111の識別子を記憶させておく。
その後、複合機112が音声出力した報知音を受け付けると(S1503:YES)、当該報知音の音声入力を受けたスマートスピーカー111の識別子を複合機112に送信して、当該報知音を出力した際に実行中だったジョブに対応付けられているスマートスピーカー111の識別子と一致するかどうかを問い合わせる(S1504)。
当該報知音の音声入力を受けたスマートスピーカー111の識別子と、当該報知音を出力した際に実行中だったジョブに対応付けられているスマートスピーカー111の識別子と、の一致の有無を複合機112から受信すると(S1505)、識別子が一致する場合には(S1506:YES)、報知音処理を実行する(S1507)。また、識別子が一致しない場合には(S1506:NO)、報知音処理を実行することなく、ステップS1501へ進む。従って、この場合には、スマートスピーカー111は報知メッセージを音声出力しない。
このようにすれば、スマートスピーカー111を用いて音声指示しなかったジョブに関する報知メッセージが音声出力されることによって、当該ジョブと関係のないユーザーが煩わされるのを抑制することができる。また、報知音処理を実行しないので、エラー継続判定処理も実行されない。従って、当該ジョブと関係のないユーザーに対して、当該ジョブを実行するかどうかを無駄に問い合わせることも抑制することができる。
(7−3)上記実施の形態においては、報知音の音声入力を受け付けるスピーカーと当該報知音に対応する報知メッセージを音声出力するスピーカーとが同一である場合を例にとって説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。
例えば、図16に示すように、音声AIサーバー101のメインルーチンにおいて、スマートスピーカー111が受け付けた起動ワードが複合機112の起動ワードでない場合に(S1602:NO)、当該起動ワードに引き続いて音声指示を受け付けると(S1611:YES)、音声指示の指示内容と当該音声指示を受け付けたスマートスピーカー111の識別子とを複合機112へ送信して(S1612)、複合機112に当該指示内容に係るジョブと対応付けてスマートスピーカー111の識別子を記憶させておく。
その後、複合機112が音声出力した報知音を受け付けると(S1603:YES)、当該報知音を出力した際に実行中だったジョブに対応付けられているスマートスピーカー111の識別子を問い合わせて(S1604)、当該識別子を複合機112から受信すると(S1605)、報知音処理を実行する(S1606)。報知音処理(S1606)においては、複合機112から受信した識別子に対応するスマートスピーカー111、言い換えると報知音を出力した際に実行中だったジョブの実行を音声指示されたスマートスピーカー111に報知メッセージを音声出力させる。
また、報知音処理(S1606)においてエラー継続判定処理を実行する場合には、複合機112から受信した識別子に対応するスマートスピーカー111からジョブ実行の継続要否を問い合わせる。
このようにすれば、報知音に係る事象の発生に関連するジョブを投入したユーザーに対して報知メッセージの音声出力や、ジョブ実行の継続要否の問い合わせを行うことができるので、ユーザーの利便性を高めることができる。
また、上記に代えて、ユーザーシステム110内に配設されたすべてのスマートスピーカー111から報知メッセージを音声出力させてもよい。このようにすれば、例えば、ユーザーがオフィス内を移動しても、より確実に報知メッセージを聞かせることができる。
(7−4)上記実施の形態においては、スマートスピーカー111を複合機112の近傍に配設することによって、複合機112が音声出力した報知音をスマートスピーカー111に音声入力する場合を例にとって説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて次のようにしてもよい。
例えば、複合機112が有するUSB(Universal Serial Bus)ポートにUSBスピーカーのコネクターを接続して、スマートスピーカー111の近傍に当該USBスピーカーを配設し、当該USBスピーカーから報知音を音声出力してもよい。このようにすれば、スマートスピーカー111を複合機112の近傍に配設しなくても、上記実施の形態と同様の効果を得ることができる。
言うまでもなく、USBスピーカー以外の音声出力手段を用いて報知音を出力してもよいが、できるだけ低コストの出力手段を用いるのが望ましい。この意味において、複合機112は複数のUSBポートを有していることが多いので、USBスピーカーを用いるのが有効である。
(7−5)上記実施の形態においては、ユーザーシステム110内に配置された複合機112のうちの1台に着目して本発明を説明したが、ユーザーシステム110内に複数の複合機112が配設されている場合には、次のようにしてもよい。
例えば、複合機112と同数のスマートスピーカー111を用意して、個々の複合機112の近傍にスマートスピーカー111を各1台ずつ配設してもよい。このようにすれば、複合機112毎に上記実施の形態と同様の処理を行うことによって、同様の効果を得ることができる。
また、オフィス等では複数の複合機112がまとめて一箇所に配設されることも珍しくない。このため、互いに近傍に配設されている複合機112群については、複合機112群ごとにスマートスピーカー111を配設してもよい。この場合においては、1つの複合機112群を構成する複数の複合機112どうしで起動ワードを異ならせれば、複合機112どうしで報知音の周波数やパターンが共通していても、どの複合機112が報知音を音声出力するかを判別することができる。
なお、互いに近傍に配設されている複合機112どうしでなくても、上記のようにUSBスピーカー等を用いれば、互いに近傍に配設されていない複合機112どうしであってもスマートスピーカー111を共用することができる。
このようにすれば、スマートスピーカー111の設置台数を節減することができるので、報知メッセージの出力に要するコストを低減することができる。
(7−6)上記実施の形態においては、特に言及しなかったが、複合機112において用紙切れや紙詰まり等のエラーや扉開などの事象が発生した場合には、当該エラーや事象が解消されるまで報知音が出力され続けるのが一般的であり、当該報知音がスマートスピーカー111に音声入力され続けることになる。
この場合において、当該エラーや事象が解消され、当該報知音の音声出力が停止されるまで、当該報知音を音声出力する複合機112との会話セッションを維持し続けて、当該報知音に対応する報知メッセージをスマートスピーカー111に音声出力させ続けてもよい。このようにすれば、より確実にエラーや事象をユーザーに認識させることができる。
また、スマートスピーカー111が報知メッセージを音声出力してから、次の報知音が当該スマートスピーカー111に音声入力されるまでの時間間隔よりも短いタイムアウト時間を設定しておき、スマートスピーカー111が報知メッセージを音声出力してから当該タイムアウト時間が経過したら会話セッションを強制終了させてもよい。このようにすれば、スマートスピーカー111を速やかに他の用途に使用できるようにすることができる。また、同じ報知メッセージが繰り返されることによって、当該エラーや事象、当該ジョブに関係のないユーザーが騒々しさや煩わしさを感じるのを防止することができる。
また、上記のようにタイムアウト制御を行う場合には、緊急の対応を要するエラーなど、予め設定されているエラーについては、報知音を音声出力するたびに起動ワードを出力すれば、スマートスピーカー111に報知メッセージを音声出力させ続けることができる。これによって、重要なエラーの発生をできる限り早急にユーザーに報知することができる。
(7−7)スマートスピーカー111を用いてユーザーが音声指示を行う場合には、当該音声指示に先立ってユーザー毎に固有の起動ワードが音声入力させるため、AIサーバー101は、どのユーザーが音声指示を行ったかを識別することができる。これを利用して、スマートスピーカー111に報知メッセージを出力する際に、併せてユーザーを特定する音声を出力してもよい。
例えば、ジョブが正常終了した際に、単に「ジョブが正常終了しました」との報知メッセージを音声出力するのに代えて、ユーザーの氏名を報知メッセージに追加して、「Aさん、ジョブが正常終了しました」との音声出力を行ってもよい。また、氏名に代えて、ユーザー毎に固有のメロディーを音声出力してもよい。どのような音声を追加するかはユーザーに設定させてもよい。
また、ユーザー毎に報知メッセージに使用すべき言語の指定が登録されている場合には、当該言語を用いた報知メッセージを音声出力してもよい。この場合において、報知音パターン登録テーブル1100に言語ごとに報知メッセージを予め登録しておいてもよいし、いずれかの言語を用いて報知音パターン登録テーブル1100に登録されている報知メッセージを、ユーザー毎の指定言語に翻訳し、翻訳後の報知メッセージを音声出力してもよい。
このようにすれば、報知メッセージの意味や宛先が更に明確になるので、ユーザーの利便性を高めることができる。
(7−8)上記実施の形態においては、MFP制御サーバー102を用いてバックエンドクラウドサービスを提供する場合を例にとって説明したが、本発明がこれに限定されないのは言うまでもなく、MFP制御サーバー102を省いて、音声AIサーバー101が直接複合機112にアクセスする構成であっても、上記実施の形態と同様に音声AIサーバー101を動作させることによって同様の効果を得ることができる。
(7−9)上記実施の形態においては、複合機112が報知音を音声出力する場合を例にとって説明したが、スキャナー装置やプリンター装置、コピー装置、ファクシミリ装置といった単機能機が報知音を音声出力する場合においても、本発明を適用することによって同様の効果を得ることができる。
(7−10)上述したように、画像形成システム1並びにMFP制御サーバー101は、マイクロプロセッサーとメモリとを備えたコンピューターシステムである。メモリは、コンピュータープログラムを記憶しており、マイクロプロセッサーは、コンピュータープログラムに従って動作するとしてもよい。
ここで、コンピュータープログラムは、所定の機能を達成するために、コンピューターに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
また、コンピュータープログラムは、コンピューター読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、光ディスク、半導体メモリなどに記録されているとしてもよい。
また、コンピュータープログラムを、有線又は無線の電気通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。
また、本発明は、上記のコンピュータープログラムがコンピューターに実行させる方法であるとしてもよい。
(7−11)上記実施の形態及び上記変形例をそれぞれ組み合わせてもよい。
本発明に係る音声クラウドシステム、方法およびプログラムは、画像形成装置を音声操作するユーザーに対する情報提供を高機能化する技術として有用である。
1…………画像形成システム
100……音声クラウドシステム
101……音声AIサーバー
102……MFP制御サーバー
110……ユーザーシステム
111……スマートスピーカー
112……複合機
121……インターネット
122……LAN
1100…報知音パターン登録テーブル
1400…ステータス情報テーブル

Claims (9)

  1. 音声入出力装置に入力された指示音声の音声データを、ネットワークを介して受信し、当該音声データに応じたコマンドを画像形成装置へ送信して、音声指示された処理を実行させる音声クラウドシステムであって、
    前記指示音声が、前記画像形成装置が音声出力した報知音であるかどうかを判別する判別手段と、
    前記判別手段が前記指示音声は前記報知音であると判別した場合に、当該報知音に対応する言語メッセージを前記音声入出力装置に音声出力させる出力手段と、を備える
    ことを特徴とする音声クラウドシステム。
  2. 前記報知音に対応付けて前記言語メッセージを記憶する第1の記憶手段を備え、
    前記出力手段は、前記報知音に対応する言語メッセージを前記第1の記憶手段から読み出して、前記音声入出力装置に音声出力させる
    ことを特徴とする請求項1に記載の音声クラウドシステム。
  3. 画像形成装置の装置状態に対応付けて前記言語メッセージを記憶する第2の記憶手段と、
    前記第1の記憶手段が、前記指示音声に対応する前記言語メッセージを記憶していない場合に、前記画像形成装置から装置状態を取得する取得手段と、
    前記出力手段は、前記取得手段が取得した装置状態に対応する言語メッセージを前記第2の記憶手段から読み出して、前記音声入出力装置に音声出力させる
    ことを特徴とする請求項2に記載の音声クラウドシステム。
  4. 画像形成装置の装置状態に対応付けて前記言語メッセージを記憶する第3の記憶手段と、
    前記指示音声は前記報知音であると判別した場合に、前記画像形成装置から装置状態を取得する取得手段と、
    前記出力手段は、前記取得手段が取得した装置状態に対応する前記言語メッセージを前記第3の記憶手段から読み出して、前記音声入出力装置に音声出力させる
    ことを特徴とする請求項2に記載の音声クラウドシステム。
  5. 前記画像形成装置が報知音を出力した際に実行していたジョブが、当該報知音を受け付けた音声入出力装置と同じ音声入出力装置から受け付けた指示音声に基づくコマンドによって前記画像形成装置が実行したジョブでない場合には、前記出力手段に、当該報知音に対応する言語メッセージを前記音声入出力装置に出力させるのを禁止する禁止手段を備える
    ことを特徴とする請求項1から4のいずれかに記載の音声クラウドシステム。
  6. 前記報知音から、前記画像形成装置にエラーが発生したかどうかを判別するエラー判別手段と、
    エラーが発生したと判別した場合に、当該エラーの種類から画像形成装置がジョブの実行を継続することができるかどうかを判別する継続判別手段と、
    ジョブ実行を継続できると判別した場合に、ジョブの実行継続の要否を問い合わせる音声を前記音声入出力装置に音声出力させる問い合わせ手段と、を備える
    ことを特徴とする請求項1から5のいずれかに記載の音声クラウドシステム。
  7. 前記問い合わせに対して、ジョブ実行を継続するとの指示音声を前記音声入出力装置が受け付けた場合に、当該ジョブの実行を継続させるコマンドを前記画像形成装置へ送信する継続指示手段を備える
    ことを特徴とする請求項6に記載の音声クラウドシステム。
  8. 音声入出力装置に入力された指示音声の音声データを、ネットワークを介して受信し、当該指示音声に応じたコマンドを画像形成装置へ送信して、音声指示された処理を実行させる音声クラウドシステムが実行する方法であって、
    前記指示音声が、前記画像形成装置が音声出力した報知音であるかどうかを判別する判別ステップと、
    前記判別ステップにおいて、前記指示音声は前記報知音であると判別した場合に、当該報知音に対応する言語メッセージを前記音声入出力装置に音声出力させる出力ステップと、を含む
    ことを特徴とする方法。
  9. 音声入出力装置に入力された指示音声の音声データを、ネットワークを介して受信し、当該指示音声に応じたコマンドを画像形成装置へ送信して、音声指示された処理を実行させる音声クラウドシステムとして、コンピューターを動作させるプログラムであって、
    前記指示音声が、前記画像形成装置が音声出力した報知音であるかどうかを判別する判別ステップと、
    前記判別ステップにおいて、前記指示音声は前記報知音であると判別した場合に、当該報知音に対応する言語メッセージを前記音声入出力装置に音声出力させる出力ステップと、前記コンピューターに実行させる
    ことを特徴とするプログラム。
JP2019079236A 2019-04-18 2019-04-18 音声クラウドシステム、方法およびプログラム Pending JP2020177131A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019079236A JP2020177131A (ja) 2019-04-18 2019-04-18 音声クラウドシステム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019079236A JP2020177131A (ja) 2019-04-18 2019-04-18 音声クラウドシステム、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2020177131A true JP2020177131A (ja) 2020-10-29

Family

ID=72936453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019079236A Pending JP2020177131A (ja) 2019-04-18 2019-04-18 音声クラウドシステム、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2020177131A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697375A (zh) * 2022-02-18 2022-07-01 青岛海尔科技有限公司 语音包的切换方法和装置、存储介质及电子装置
CN115953874A (zh) * 2023-03-15 2023-04-11 哈尔滨学院 一种音箱智能告警方法
EP4231185A1 (en) * 2022-02-21 2023-08-23 Canon Kabushiki Kaisha Information processing system, information processing apparatus, method of controlling the same, and storage medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697375A (zh) * 2022-02-18 2022-07-01 青岛海尔科技有限公司 语音包的切换方法和装置、存储介质及电子装置
CN114697375B (zh) * 2022-02-18 2024-03-22 青岛海尔科技有限公司 语音包的切换方法和装置、存储介质及电子装置
EP4231185A1 (en) * 2022-02-21 2023-08-23 Canon Kabushiki Kaisha Information processing system, information processing apparatus, method of controlling the same, and storage medium
CN115953874A (zh) * 2023-03-15 2023-04-11 哈尔滨学院 一种音箱智能告警方法
CN115953874B (zh) * 2023-03-15 2023-05-16 哈尔滨学院 一种音箱智能告警方法

Similar Documents

Publication Publication Date Title
JP5846051B2 (ja) 画像形成装置、画像形成装置の制御プログラム、および画像形成システム
KR101337160B1 (ko) 정보 처리 장치, 정보 처리 방법 및 기억 매체
JP5025342B2 (ja) 画像処理装置、画像処理システム、画像処理装置の制御方法及びプログラム
JP2020177131A (ja) 音声クラウドシステム、方法およびプログラム
KR20170033785A (ko) 화상 처리 장치, 화상 처리 장치 내에서의 디스플레이 제어 방법 및 저장 매체
JP7331355B2 (ja) 画像処理システム、クラウドサーバおよびプログラム
US20100149575A1 (en) Image displaying system, image forming apparatus, job execution control method, and recording medium
JP2004178249A (ja) 情報処理装置、情報処理方法、制御プログラム
US11140284B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
US20200175982A1 (en) Information processing system, information processing method, and non-transitory recording medium
JP2006197230A (ja) 画像形成システムおよびデータ処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム
US20200304663A1 (en) Server apparatus, voice operation system, voice operation method, and recording medium
JP2007233611A (ja) 情報処理装置、デバイス管理方法、記憶媒体、プログラム
JP7210937B2 (ja) 画像形成装置
JP2015092769A (ja) 画像形成装置,プログラム更新方法および記録媒体
JP7284455B2 (ja) 装置
JP7415350B2 (ja) 音声操作システム、制御装置、および制御プログラム
JP2022001997A (ja) 情報処理装置、情報処理システム、制御方法、並びにプログラム
JP2010211251A (ja) 画像形成システム、情報処理装置、プリントサーバ、画像形成装置、画像形成補助プログラム、および印字制御方法
US11647129B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
CN111698378B (zh) 控制装置、图像形成系统以及记录介质
JP7361509B2 (ja) 周辺装置管理システム、印刷装置制御システム、制御方法、印刷制御装置及びプログラム
JP2013157653A (ja) 画像形成装置、画像形成システム、画像形成装置の制御プログラム、および端末装置の制御プログラム
JP2008079340A (ja) 画像形成装置,プログラム更新方法および記録媒体
JP2007334918A (ja) 印刷管理サーバおよび印刷装置および印刷管理方法および印刷方法およびプログラムおよび記録媒体