(第一の実施形態)
以下に図面を参照して、第一の実施形態について説明する。図1は、第一の実施形態の情報処理システムの概要を説明する図である。
本実施形態の情報処理システム100は、電子黒板200と、サーバ装置300と、を有する。情報処理システム100において、電子黒板200とサーバ装置300とは、ネットワークNを介して接続される。また、本実施形態の情報処理システム100は、ネットワークNを介して、音声データをテキストデータに変換する音声認識装置400と接続される。
本実施形態の音声認識装置400は、例えば、人工知能により提供されるサービスである。音声認識装置400は、受信した音声データを音声認識機能によりテキストデータとし、電子黒板200やサーバ装置300へ送信する。
また、本実施形態の電子黒板200は、サーバ装置300や音声認識装置400を含む他の装置450との通信の状態に応じて、音声データの出力先を選択する。以下の説明では、電子黒板200は、他の装置450に含まれるサーバ装置300との通信の状態に応じて、音声データの出力先を選択するものとする。
本実施形態の電子黒板200は、マイク等の集音装置を有しており、集音装置によって音声データを取得すると(ステップS1)、自機とサーバ装置300(外部装置)との間の通信の状態に応じて、音声データを音声認識装置400へ送信してコマンドを取得するか、自機の音声認識機能によりコマンドを取得するか否かを判定する(ステップS2)。
具体的には、電子黒板200は、ステップS2において、電子黒板200とサーバ装置300(外部装置)との間の通信に係る時間が所定のパターンを示す場合、自機の音声認識機能によりコマンドを取得するものと判定する。そして、電子黒板200は、音声データを音声認識装置400に送信せず、自機の音声認識機能により、コマンドを取得する(ステップS3)。
ここで、通信に係る時間が所定のパターンを示す場合とは、電子黒板200が他の装置450との接続に用いるネットワークNが混雑している場合や、通信が行えない場合を含む。
また、ステップS2において、電子黒板200は、電子黒板200とサーバ装置300との間の通信に係る時間が所定のパターンを示していない場合、電子黒板200は、音声データを音声認識装置400へ送信してコマンドを取得すると判定する。そして、電子黒板200は、音声データを音声認識装置400へ送信し(ステップS4)、音声認識装置400からコマンドを取得する(ステップS5)。
ここで、通信に係る時間が所定のパターンを示さない場合とは、電子黒板200が他の装置450との接続に用いるネットワークNが混雑しておらず、速やかな通信が行える場合を含む。
このように、本実施形態の情報処理システム100では、電子黒板200と他の装置との通信の状態に応じて、音声データの出力先を選択するため、音声操作に対する応答性を向上させることができる。
尚、図1のステップS1〜ステップS5の詳細は、後述する図9で説明する。
図2は、第一の実施形態の情報処理システムのシステム構成の一例を示す図である。
本実施形態の情報処理システム100において、電子黒板200は、手書き入力された文字や画像等を示すストローク情報、電子黒板200の画面をキャプチャした画像データ等を、サーバ装置300に送信する。また、本実施形態の電子黒板200は、マイク等の集音装置を有しており、集音装置によって集音された音声データを、サーバ装置300と、音声認識装置400とに送信する。
尚、本実施形態の音声データは、集音装置が集音した全ての音を示す波形をデジタル化したデータである。したがって、本実施形態では、電子黒板200の周辺で発話した人の声を示す発話データは、音声データの一部である。
本実施形態のサーバ装置300は、受信したストローク情報や画像データ、音声データ等を格納する。また、本実施形態のサーバ装置300は、音声認識装置400から送信されたテキストデータを、音声データと対応付けて格納する。
尚、サーバ装置300は、例えば、ある会議において電子黒板200が使用された場合、会議名と、会議中に取得したスクロール情報と、画像データと、音声データと、音声データから変換されたテキストデータとが対応付けられて格納されても良い。言い換えれば、サーバ装置300では、電子黒板200から取得した各種の情報が、会議毎に格納されても良い。
さらに、本実施形態の電子黒板200は、ネットワークNの混雑具合いを判定し、ネットワークNが混雑している場合には、音声認識を行う場所を、音声認識装置400から自機へ切り替え、音声データを外部に送信せずに、自機内で音声認識を行う。言い換えれば、電子黒板200は、電子黒板200と、ネットワークNを介して通信を行う他の装置との間の通信に係る時間が所定の条件を満たす場合に、ネットワークNが混雑していると判定する。尚、所定の条件は、予め設定されていても良い。
また、以下の説明では、電子黒板200と、ネットワークNを介して通信を行う他の装置との間の通信に係る時間を、通信遅延時間と呼ぶ。言い換えれば、通信遅延時間は、電子黒板200がネットワークNを介して他の装置に信号を送信してから、の他の装置から応答を受信するまでの時間である。電子黒板200とネットワークNを介して通信を行う他の装置は、サーバ装置300(外部装置)と、音声認識装置400と、を含む。
また、本実施形態の電子黒板200は、ネットワークNの混雑していない場合には、音声データを音声認識装置400に送信して音声認識を行う。言い換えれば、電子黒板200は、通信遅延時間が所定の条件を満たさない場合に、ネットワークNが混雑してないと判定する。
本実施形態で、このように、音声認識を行う場所を切り替えることで、発話による操作指示(コマンド)に対する電子黒板200の応答性を向上させる。
尚、図1では、音声操作の対象となる機器を電子黒板200としているが、これに限定されない。本実施形態の情報処理システム100において、音声操作の対象となる機器は、集音装置と音声認識機能とを有しており、且つ、音声認識装置400と通信を行うことができる機器であれば良い。具体的には、本実施形態における音声操作の対象となる機器は、例えば、一般的なコンピュータ、タブレット型端末、スマートフォン等がある。また、その他にも、各種の電子機器に本実施形態を適用することができる。
また、以下の説明では、電子黒板200からサーバ装置300に送信される各種のデータをコンテンツデータと呼ぶ。したがって、本実施形態のコンテンツデータは、音声データ、画像データ、動画データ、ストローク情報等を含む。
次に、本実施形態の情報処理システム100の有する各装置について説明する。図3は、第一の実施形態の電子黒板のハードウェア構成の一例を示す図である。
図3に示されているように、電子黒板200は、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、SSD(Solid State Drive)204、ネットワークI/F(Interface)205、外部機器接続I/F206、及び、無線LAN(Local Area Network)モジュール207を備えた情報処理装置である。
これらのうち、CPU201は、電子黒板200全体の動作を制御する。尚、CPU201は、例えば、複数のCPUを含んでいても良い。
ROM202は、CPU201やIPL(Initial Program Loader)等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。SSD204は、電子黒板用のプログラム等の各種データを記憶する。ネットワークI/F205は、通信ネットワークとの通信を制御する。外部機器接続I/F206は、USB(Universal Serial Bus)メモリ2600、外付け機器(カメラ2400、スピーカ2300、スマートスピーカ2200)との通信を制御する。無線LANモジュール207は、電子黒板200を無線LANにてネットワークに接続させる。
また、電子黒板200は、キャプチャデバイス211、GPU212、ディスプレイコントローラ213、接触センサ214、センサコントローラ215、電子ペンコントローラ216、近距離通信回路219、近距離通信回路219のアンテナ219a、及び電源スイッチ222を備えている。
これらのうち、キャプチャデバイス211は、PC410−1のディスプレイに対して映像情報を静止画または動画として表示させる。GPU(Graphics Processing Unit)212は、グラフィクスを専門に扱う半導体チップである。ディスプレイコントローラ213は、GPU212からの入力画像をディスプレイ226(表示装置)等へ出力するために画面表示の制御及び管理を行う。接触センサ214は、ディスプレイ226上に電子ペン2500や利用者の手H等が接触したことを検知する。
センサコントローラ215は、接触センサ214の処理を制御する。接触センサ214は、赤外線遮断方式による座標の入力及び座標の検出を行う。この座標の入力及び座標の検出する方法は、ディスプレイ226の上側両端部に設置された2つ受発光装置が、ディスプレイ226に平行して複数の赤外線を放射し、ディスプレイ226の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ214は、物体によって遮断された2つの受発光装置が放射した赤外線のIDをセンサコントローラ215に出力し、センサコントローラ215が、物体の接触位置である座標位置を特定する。
電子ペンコントローラ216は、電子ペン2500と通信することで、ディスプレイ226へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信回路219は、NFC、Bluetooth(登録商標)等の通信回路である。
電源スイッチ222は、電子黒板200の電源のON/OFFを切り換えるためのスイッチである。
また、電子黒板200は、バスラインBを備えている。バスラインBは、図2に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
更に、電子黒板200は、RS−232Cポート223、変換コネクタ224、Bluetoothコントローラ225を有する。
RS−232Cポート223は、バスラインBと接続されており、PC410−2等をCPU201等に接続する。変換コネクタ224は、PC410−2のUSB(Universal Serial Bus)ポートに電子黒板200を接続するためのコネクタである。
Bluetoothコントローラ225は、例えば、PC410−1等と、Bluetoothによる通信を行うためのコントローラである。
尚、接触センサ214は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式のタッチパネル、対向する2つの抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式のタッチパネル、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式のタッチパネルなどの種々の検出手段を用いてもよい。また、電子ペンコントローラ216が、電子ペン2500のペン先及びペン尻だけでなく、電子ペン2500の利用者が握る部分や、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。
本実施形態の電子黒板200は、図2に示すハードウェア構成を有することにより、後述するような各種処理を実現できる。
また、本実施形態のスマートスピーカ2200は、例えば、ネットワークへの接続機能や、マイクを有しており、集音装置の1つである。また、本実施形態のスマートスピーカ2200は、例えば、人工知能を搭載しており、Wi-Fi、Bluetooth等の規格に準じた通信を行うことで音声データの収集や、音声データの再生の他の様々な用途に使用される。
本実施形態では、例えば、スマートスピーカ2200により収集された音声データから、電子黒板200に対するコマンドが取得されても良い。また、図3の例では、集音装置をスマートスピーカ2200としているが、これに限定されない。電子黒板200は、スマートスピーカ2200の代わりに、通常のマイクを有していても良い。
また、電子黒板200は、無線LANモジュール207と、スマートスピーカ2200の有するネットワークの接続機能とにより、無線にて接続されていても良い。以下に、本実施形態のスマートスピーカ2200のハードウェア構成について説明する。
図4は、第一の実施形態のスマートスピーカのハードウェア構成の一例を示す図である。
スマートスピーカ2200は、CPU2201、ROM2202、RAM2203、SSD2204、ネットワークI/F2205、外部機器接続I/F2206、及び、無線LANモジュール2207を備えた情報端末である。
CPU2201は、スマートスピーカ2200全体の動作を制御する。尚、CPU2201は、例えば、複数のCPUを含んでいても良い。
ROM2202は、CPU2201やIPL等のCPU2201の駆動に用いられるプログラムを記憶する。RAM2203は、CPU2201のワークエリアとして使用される。SSD2204は、スマートスピーカ用のプログラム等の各種データを記憶する。ネットワークI/F2205は、通信ネットワークとの通信を制御する。外部機器接続I/F2206は、USBメモリ2601、外付け機器(カメラ2401、スピーカ2301、マイク2700)との通信を制御する。無線LANモジュール2207は、スマートスピーカ2200を無線LANにてネットワークに接続させる。
また、スマートスピーカ2200は、キャプチャデバイス2211、GPU2212、ディスプレイコントローラ2213、接触センサ2214、センサコントローラ2215、電子ペンコントローラ2216、近距離通信回路2219、近距離通信回路2219のアンテナ2219a、及び電源スイッチ2222を備えている。
これらのうち、キャプチャデバイス2211は、PC411−1のディスプレイに対して映像情報を静止画または動画として表示させる。GPU(Graphics Processing Unit)2212は、グラフィクスを専門に扱う半導体チップである。ディスプレイコントローラ2213は、GPU2212からの入力画像をディスプレイ2226(表示装置)等へ出力するために画面表示の制御及び管理を行う。接触センサ2214は、ディスプレイ2226上に電子ペン2501や利用者の手H等が接触したことを検知する。
センサコントローラ2215は、接触センサ2214の処理を制御する。接触センサ2214は、赤外線遮断方式による座標の入力及び座標の検出を行う。この座標の入力及び座標の検出する方法は、ディスプレイ2226の上側両端部に設置された2つ受発光装置が、ディスプレイ2226に平行して複数の赤外線を放射し、ディスプレイ2226の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ2214は、物体によって遮断された2つの受発光装置が放射した赤外線のIDをセンサコントローラ2215に出力し、センサコントローラ2215が、物体の接触位置である座標位置を特定する。
電子ペンコントローラ2216は、電子ペン2501と通信することで、ディスプレイ2226へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信回路2219は、NFC、Bluetooth(登録商標)等の通信回路である。
電源スイッチ2222は、スマートスピーカ2200の電源のON/OFFを切り換えるためのスイッチである。
また、スマートスピーカ2200は、バスラインB1を備えている。バスラインB1は、図4に示されているCPU2201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
Bluetoothコントローラ2225は、例えば、PC411−1等と、Bluetoothによる通信を行うためのコントローラである。
次に、図5を参照して、本実施形態のサーバ装置300のハードウェア構成について説明する。図5は、第一の実施形態のサーバ装置のハードウェア構成の一例を示す図である。
本実施形態のサーバ装置300は、一般のコンピュータ(外部装置)であり、それぞれバスB2で相互に接続されている入力装置31、出力装置32、ドライブ装置33、補助記憶装置34、メモリ装置35、演算処理装置36及びインターフェース装置37を有する。
入力装置31は、例えばマウスやキーボードであり、各種の情報を入力するために用いられる。出力装置32は、例えばディスプレイ等であり、各種信号の表示(出力)に用いられる。インターフェース装置37は、モデム,LANカード等を含み、ネットワークに接続する為に用いられる。
情報処理プログラムは、サーバ装置300を制御する各種プログラムの少なくとも一部である。情報処理プログラムは例えば記録媒体38の配布やネットワークからのダウンロードなどによって提供される。情報処理プログラムを記録した記録媒体38は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
また、情報処理プログラムを記録した記録媒体38がドライブ装置33にセットされると、情報処理プログラムは記録媒体38からドライブ装置33を介して補助記憶装置34にインストールされる。ネットワークからダウンロードされた通信プログラムは、インターフェース装置37を介して補助記憶装置34にインストールされる。
補助記憶装置34は、インストールされた情報処理プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置35は、コンピュータの起動時に補助記憶装置34から情報処理プログラムを読み出して格納する。そして、演算処理装置36はメモリ装置35に格納された各プログラムに従って、後述するような各種処理を実現している。
次に、図6を参照して、情報処理システム100の有する各装置の機能について説明する。図6は、情報処理システムの有する各装置の機能を説明する図である。
始めに、電子黒板200の機能について説明する。以下に説明する電子黒板200の機能は、CPU27がRAM26等に格納されたプログラムを読み出して実行することで実現される。
本実施形態の電子黒板200は、集音部210、入力部220、コンテンツ変換部230、送受信部240、コマンド抽出部250、コマンド実行部260、通信時間計測部265、出力先選択部270、音声認識部280、辞書更新部290を有する。ここで上述した各部は、CPU201がROM202等からプログラムを読み出して実行することで実現される。
また、本実施形態の電子黒板200は、記憶部500を有する。記憶部500には、コマンドデータベース501、辞書データベース502が設けられている。記憶部500は、例えば、電子黒板200のROM202やHDD204等の記憶装置に設けられていても良い。
また、本実施形態の記憶部500は、記憶装置における記憶領域を示すものであり、記憶部500は、複数の記憶装置によって実現されても良い。
本実施形態のコマンドデータベース501は、音声データの認識結果と、電子黒板200の操作内容とが対応付けられて格納される。コマンドデータベース501の詳細は後述する。
本実施形態の辞書データベース502は、音声認識部280によって参照されるものであり、音声認識に用いられる。
集音部210は、スマートスピーカ2200に入力された音声を音声データとして取得する。入力部220は、電子黒板200の有するディスプレイ226に対して手書き入力された文字や画像を示すストローク情報や、ディスプレイ226に表示された画像の画像データ等を取得する。尚、本実施形態のストローク情報とは、タッチパネルに対して手書き入力が行われた場合の、利用者による一画毎の軌跡を示す点群の座標報である。また、入力部220は、撮像装置30により撮影された動画データ等を取得する。
コンテンツ変換部230は、音声データ、画像データ、動画データを、サーバ装置300に保存できる形式に変換する。具体的には、コンテンツ変換部230は、音声データをAAC(Advanced Audio Coding)形式等とし、画像データや動画データをJPEG形式等とする。本実施形態のコンテンツ変換部230は、このように、各種のデータを圧縮することで、ネットワークNを介して送受信しやすく、且つ、サーバ装置300のメモリ容量を圧迫しないようにしている。また、本実施形態では、動画データは、画像データに含まれるものである。
送受信部240は、集音部210により取得された音声データをサーバ装置300と音声認識装置400とに送信する。つまり、電子黒板200は、情報処理システム100に含まれない外部端末(音声認識装置400)に音声データを送信する。また、送受信部240は、入力部220により取得された画像データ、動画データ等をサーバ装置300に送信する。
コマンド抽出部250は、コマンドデータベース501を参照し、音声認識装置400から受信したテキストデータや、音声認識部280によって認識されたテキストデータから、音声データに含まれる電子黒板200に対するコマンドを抽出する。
コマンド実行部260は、送受信部240がサーバ装置300から受信したコマンドに基づき、コマンドが示す操作を実行する。
通信時間計測部265は、送受信部240がコンテンツデータをサーバ装置300に送信してから、サーバ装置300からコンテンツデータの格納の完了の通知を受信するまでの通信遅延時間を計測する。また、本実施形態の通信時間計測部265は、計測した通信遅延時間を、通信を行った履歴を示す情報として保持していても良い。
出力先選択部270は、通信時間計測部265により計測された通信遅延時間に応じて、音声認識を行う装置を選択する。言い換えれば、出力先選択部270は、通信遅延時間に応じて、音声データの出力先を選択する。
具体的には、出力先選択部270は、遅延判定テーブル271を有する。そして、出力先選択部270は、遅延判定テーブル271を参照し、通信遅延時間が所定の条件を満たす場合に、音声認識を行う装置をとして、音声データの出力先の装置に、電子黒板200を選択する。遅延判定テーブル271の詳細は後述する。
音声認識部280は、集音部210が集音した音声データに対して、辞書データベース502を参照して音声認識を行い、音声認識の結果として、テキストデータを出力する。
辞書更新部290は、ネットワークNを介して音声認識装置400の辞書データベースを参照し、音声認識装置400の辞書データベースに合わせて、辞書データベース502を更新する。本実施形態の辞書更新部290は、例えば、電子黒板200が起動したタイミングで辞書データベース502を更新しても良い。また、本実施形態の辞書更新部290は、電子黒板200が使用されていないときに、辞書データベース502の更新を行っても良い。
次に、サーバ装置300の機能について説明する。本実施形態のサーバ装置300は、コンテンツデータベース310を有する。また、本実施形態のサーバ装置300は、送受信部320、コンテンツ格納部330を有する。本実施形態のサーバ装置300の有する各部は、演算処理装置36がメモリ装置35から情報処理プログラムを読み出して実行することで実現される。
本実施形態のコンテンツデータベース310は、例えば、サーバ装置300の補助記憶装置34等に設けられていても良い。
コンテンツデータベース310は、電子黒板200から受信した各種のデータ(コンテンツ)が格納される。本実施形態のコンテンツとは、音声データ、画像データ、動画データ、ストローク情報を含む。
本実施形態の送受信部320は、電子黒板200と間の情報の送受信と、音声認識装置400からの情報の受信を行う。
コンテンツ格納部330は、電子黒板200から受信したコンテンツをコンテンツデータベース310へ格納する。
次に、図7を参照して、本実施形態のコマンドデータベース501について説明する。図7は、コマンドデータベースの一例を示す図である。
本実施形態のコマンドデータベース501では、例えば、操作内容を示す1つのワードに対し、関連する複数のワードが対応付けられたツリー状の構造となっている。
図5の例では、例えば、「ペン」というワードに、「色」、「太さ」と言うワードが対応付けられており、「色」には、「赤」、「青」等の線の色を示すワードが対応付けられている。また、「太さ」には、「1.0ポイント」、「5.0ポイント」といった、線の太さを示すワードが対応付けられている。
次に、図8を参照して、遅延判定テーブル271について説明する。図8は、第一の実施形態の遅延判定テーブルを説明する図である。
図8に示す遅延判定テーブル271では、情報の項目として、通信の状態と、音声認識先とを有し、両者は対応付けられている。言い換えれば、遅延判定テーブル271では、通信の状態と、音声認識先との組み合わせが格納されている。
項目「通信の状態」の値は、ネットワークNが混雑しているか否かの判定において参照される。項目「音声認識先」の値は、電子黒板200の集音部210により集音された音声データの音声認識を行う装置を示している。言い換えれば、項目「音声認識先」の値は、音声データの出力先を示す。
図8の例では、通信遅延時間が1秒を超えることが10秒間以上続く場合、通信遅延時間が5秒を超えた場合、通信が行えなかった場合において、音声データの出力先は、電子黒板200の音声認識部280となる。また、図8の例では、通信遅延時間が1秒以下となることが10秒間続く場合には、音声データの出力先は、音声認識装置400となる。
したがって、図8から、通信遅延時間が長くなると、電子黒板200で集音された音声データは、自機内の音声認識部280により音声認識が行われることがわかる。
つまり、本実施形態では、通信遅延時間のパターンが、遅延判定テーブル271において、音声認識先「電子黒板の音声認識部」と対応付けられた項目「通信の状態」の値となるとき、ネットワークNが混雑していると判定される。
したがって、本実施形態では、遅延判定テーブル271において、音声認識先「電子黒板の音声認識部」と対応付けられた項目「通信の状態」の値が示す通信遅延時間のパターンが、ネットワークNが混雑していると判定するための所定の条件となる。
尚、通信遅延時間は、電子黒板200がサーバ装置300にコンテンツデータを送信したタイミングから、サーバ装置300からコンテンツデータの格納の完了の通知を受信したタイミングまでの時間である。言い換えれば、通信遅延時間は、電子黒板200が外部装置(電子黒板200と通信を行う他の装置)にコンテンツデータを送信したタイミングから、外部装置からコンテンツデータの格納の完了の通知を受信したタイミングまでの時間である。
また、通信遅延時間は、例えば、電子黒板200から音声データを音声認識装置400(電子黒板200と通信を行う他の装置)に送信したタイミングから、電子黒板200が音声認識装置400から音声認識結果のテキストデータを受信したタイミングのまでの時間としても良い。
尚、音声データの出力先を選択する際の基準となる所定の条件は、図8の例に限定されない。
本実施形態では、例えば、通信遅延時間が1秒以上となった場合に、音声データの出力先を、ネットワークを経由する必要がある音声認識装置400から、自機内の音声認識部280に切り替えるようにしても良い。本実施形態の遅延判定テーブル271における通信遅延時間と、音声認識先との組み合わせは、例えば、電子黒板200の管理者等によって、任意に決定されて良い。
次に、図9を参照して、本実施形態の情報処理システム100の動作を説明する。図9は、第一の実施形態の情報処理システムの動作を説明するシーケンス図である。
以下の図9では、ステップS901の処理が、図1のステップS1の処理に相当し、ステップS902からステップS925までの処理は、図1のステップS2の処理に相当する。また、図9では、ステップS926からステップS945までの処理が、図1のステップS3に相当する。尚、図1のステップS4の処理は、ネットワークにおける負荷がネットワークを混雑させるほど大きくなく、通信遅延時間が所定のパターンを示していない場合の処理であるため、図9のステップS901からステップS924までの処理と同様の処理となる。
本実施形態の情報処理システム100において、集音部210は、音声データを取得すると、コンテンツ変換部230へ渡す(ステップS901)。また、入力部220は、画像データや動画データを取得すると、コンテンツ変換部230へ渡す(ステップS902)。
コンテンツ変換部230は、これらのデータに対して、設定されたパラメータに応じてデータ形式の変換を行い(ステップS903)、送受信部240へ渡す(ステップS904)。送受信部240は、画像データ、動画データ、音声データを含むコンテンツデータをサーバ装置300へ送信する(ステップS905)。
また、送受信部240は、通信時間計測部265に対し、通信遅延時間の計測の開始指示を送信する(ステップS906)。通信時間計測部265は、この指示を受けて、通信遅延時間の計測を開始する(ステップS907)。
サーバ装置300は、送受信部320がコンテンツデータを受信すると、コンテンツ格納部330へ渡し(ステップS908)、コンテンツデータベース310へ受信したコンテンツデータへ格納する(ステップS909)。
続いて、コンテンツ格納部330は、コンテンツデータの格納が完了したことを、送受信部320に通知し(ステップS910)、送受信部320は、この通知を電子黒板200へ送信する(ステップS911)。
電子黒板200の送受信部240は、この通知受けて、通信時間計測部265に対し、通信遅延時間の計測の終了指示を送信する(ステップS912)。通信時間計測部265は、この指示を受けて、通信遅延時間の計測を終了する(ステップS913)。尚、通信時間計測部265は、計測した通信遅延時間を、通信の履歴として保持していても良い。
また、電子黒板200は、送受信部240により、集音部210が取得した音声データを音声認識装置400へ送信する(ステップS914)。
音声認識装置400は、音声データを受信すると、この音声データに対して音声認識を行い(ステップS915)、認識結果のテキストデータを電子黒板200へ送信する(ステップS916)。
また、音声認識装置400は、認識結果のテキストデータをサーバ装置300へ送信する(ステップS917)。サーバ装置300は、送受信部320がテキストデータを受信すると、このテキストデータをコンテンツ格納部330へ渡す(ステップS918)。コンテンツ格納部330は、このテキストデータをステップS909で格納したコンテンツデータと対応付けて、コンテンツデータベース310に格納する(ステップS919)。
電子黒板200の送受信部240は、音声認識装置400からテキストデータを受信すると、受信したテキストデータをコマンド抽出部250へ渡す(ステップS920)。
コマンド抽出部250は、テキストデータを受けて、コマンドデータベース501をサ参照し、テキストデータの中にコマンドが含まれるか否かを判定する(ステップS921)。
ステップS921でコマンドが含まれない場合には、コマンド抽出部250は、処理を終了する。
ステップS921でコマンドが含まれる場合、コマンド抽出部250は、コマンドを抽出し(ステップS922)、コマンド実行部260へ抽出したコマンドを渡す(ステップS923)。コマンド実行部260は、このコマンドを受けて、コマンドを実行する(ステップS924)。
また、電子黒板200において、出力先選択部270は、通信時間計測部265が保持している通信遅延時間と、遅延判定テーブル271とを参照して、音声データの認識先(出力先)を選択する(ステップS925)。
より具体的には、出力先選択部270は、通信時間計測部265が保持している通信遅延時間のパターンが示す通信の状態が、所定の条件を満たしているか否かを判定し、判定した結果に応じて、音声データの出力先を選択する。
尚、ここでは、送受信部240がステップS905においてコンテンツデータを送信したタイミングから、ステップS911において、送受信部240がコンテンツデータの格納完了の通知を受信するまでのタイミングまでを通信遅延時間としている。
ステップS925で、音声データの認識先として音声認識装置400が選択された場合、電子黒板200は、ステップS901からの通常の処理を行う。音声データの認識先として音声認識装置400が選択された場合とは、ネットワークにおける負荷が、ネットワークを混雑させるほど大きくない場合である。
ステップS925で、音声データの認識先として音声認識部280が選択された場合、電子黒板200は、次に入力されるコンテンツデータに対して、ステップS926以降の処理を行う。
図9のステップS926からステップS934までの処理は、ステップS906、ステップS907と、ステップS912とステップS913により通信遅延時間の計測を行わない点以外は、ステップS901からステップS909までの処理と同様であるから、説明を省略する。
ステップS934に続いて、電子黒板200は、コンテンツ変換部230により、音声データを音声認識部280に渡す(ステップS935)。音声認識部280は、音声データを受けて、辞書データベース502を参照し、音声認識を行い(ステップS936)、認識結果のテキストデータをコマンド抽出部250へ渡す(ステップS937)。
ステップS938からステップS941までの処理は、ステップS921からステップS924までの処理と同様であるから、説明を省略する。
ステップS941に続いて、電子黒板200の音声認識部280は、テキストデータを送受信部240に渡す(ステップS942)。送受信部240は、テキストデータをサーバ装置300へ送信する(ステップS943)。サーバ装置300において、送受信部320は、受信したテキストデータをコンテンツ格納部330へ渡す(ステップS944)。コンテンツ格納部330は、受信したテキストデータを、ステップS928で格納したコンテンツデータと対応付けて、コンテンツデータベース310に格納する(ステップS945)。
以上のように、本実施形態では、電子黒板200とサーバ装置300との間の通信遅延時間に基づき、音声データの出力先(音声データの音声認識を行う装置)を選択する。
したがって、本実施形態では、ネットワークが混雑している場合等には、ネットワークを経由せずに、音声データをテキストデータに変換し、コマンドを抽出して実行することができる。
したがって、本実施形態によれば、ネットワークのおける通信の負荷が大きい場合等においても、発話による音声操作に対する応答性を向上させることができる。
また、本実施形態では、辞書更新部290により、電子黒板200の音声認識部280によって参照される辞書データベース502を定期的に更新する。このため、本実施形態の音声認識部280では、音声認識装置400における音声認識の精度に近づけるように、音声認識の精度を向上させることができる。
(第二の実施形態)
以下に、図面を参照して第二の実施形態について説明する。第二の実施形態は、情報処理システムが複数の音声認識装置と接続可能であることが、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
図10は、第二の実施形態の情報処理システムのシステム構成の一例を示す図である。本実施形態の超音波診断システム100Aは、電子黒板200Aと、サーバ装置300とを有する。
また、本実施形態の情報処理システム100Aは、複数の音声認識装置400−1、400−2、・・・、400−NとネットワークNを介して接続することができる。
複数の音声認識装置400−1、400−2、・・・、400−Nは、それぞれが、人工知能により提供されるサービスであり、受信した音声データを音声認識機能によりテキストデータとし、電子黒板200やサーバ装置300へ送信する。
また、本実施形態では、複数の音声認識装置400−1、400−2、・・・、400−Nは、それぞれが、異なる言語の音声データに対応した音声認識装置であっても良い。
図11は、第二の実施形態の情報処理システムの有する各装置の機能を説明する図である。
本実施形態の電子黒板200Aは、集音部210、入力部220、コンテンツ変換部230、送受信部240、コマンド抽出部250、コマンド実行部260、通信時間計測部265、出力先選択部270A、音声認識部280、辞書更新部290を有する。
本実施形態の出力先選択部270Aは、遅延判定テーブル271Aと、優先順位テーブル272とを有し、通信の状態が所定の条件を満たす場合は、優先順位テーブル272を参照して、音声データの出力先を選択する。以下に、遅延判定テーブル271Aと、優先順位テーブル272について説明する。
図12は、第二の実施形態の遅延判定テーブルの一例を示す図である。本実施形態では、優先順位テーブル272は、予め、電子黒板200の出力先選択部270Aに与えられていても良い。
また、本実施形態の遅延判定テーブル271Aは、項目「音声認識先」の値として、「電子黒板200の音声認識部又は他の音声認識装置400」を有する。
例えば、図12の例では、項目「通信の状態」の値が「5秒を超えた」であった場合、音声認識先は、他の音声認識装置400、又は、電子黒板200の音声認識部280から選択されることがわかる。つまり、図12の例では、通信遅延時間のパターンが「5秒を超えた」パターンである場合には、ネットワークNが混在していると判定されることがわかる。
また、図12の例では、項目「通信の状態」の値が「1秒以下になることが10秒続いた」であった場合、音声認識先は、優先順位が第1位の音声認識装置400が選択されることがわかる。つまり、図12の例では、通信遅延時間のパターンが「1秒以下になることが10秒続いた」パターンである場合には、ネットワークNが混在していないと判定されることがわかる。
図13は、第二の実施形態の優先順位テーブルの一例を示す図である。本実施形態の優先順位テーブル272は、情報の項目として、優先順位と音声認識先とを有し、優先順位テーブル272において、優先順位と音声認識先とは対応付けられている。
例えば、図13の例では、優先順位が1位の音声認識先は、音声認識装置400−1であり、次に優先順位が高い2位の音声認識先は、電子黒板200の音声認識部280であり、その次に優先順位が高い2位の音声認識先は、音声認識装置400−3である。
本実施形態の優先順位は、例えば、電子黒板200Aで頻繁に使用される言語の音声認識の精度が高い音声認識装置400から順に、優先順位が付与されていても良い。また、本実施形態の優先順位テーブル272の優先順位は、例えば、定期的に更新されても良い。具体的には、例えば、定期的に、電子黒板200Aが接続可能な複数の音声認識装置400に対して、接続試験等を実施し、その結果に応じて優先順位テーブル272の優先順位を更新しても良い。
本実施形態の出力先選択部270Aは、最初に接続した音声認識装置400との通信遅延時間が所定の条件を満たす場合に、遅延判定テーブル271Aと優先順位テーブル272とを参照して、音声データの出力先を選択する。
以下に、図14を参照して、本実施形態の出力先選択部270Aの動作について説明する。図14は、第二の実施形態の出力先選択部の動作を説明するフローチャートである。
図14では、図9のステップS925において、出力先選択部270Aが音声データの認識先(出力先)を選択する処理を示している。
本実施形態の電子黒板200Aにおいて、出力先選択部270Aは、通信時間計測部265が通信遅延時間を計測すると、通信時間計測部265が保持している通信遅延時間と、遅延判定テーブル271Aを参照し(ステップS1401)、通信の状態が所定の条件を満たすが否かを判定する(ステップS1402)。
ステップS1402において、通信の状態が所定の条件を満たさない場合、出力先選択部270Aは、優先順位テーブル272を参照し、優先順位が1位の音声認識装置400を音声データの出力先の選択し(ステップS1403)、処理を終了する。この場合、電子黒板200Aは、ステップS901からの通常の処理を行う。
ステップS1402において、通信の状態が所定の条件を満たす場合、出力先選択部270Aは、優先順位テーブル272を参照する(ステップS1404)。続いて、出力先選択部270Aは、優先順位テーブル272において、次に優先順位が高い音声認識先を選択する(ステップS1405)。
続いて、出力先選択部270Aは、選択された音声認識先が電子黒板200Aの音声認識部280であるか否かを判定する(ステップS1406)。ステップS1406において、選択された音声認識先が電子黒板200Aの音声認識部280あった場合、出力先選択部270Aは、電子黒板200Aの音声認識部280を音声データの出力先に選択し(ステップS1407)、処理を終了する。
ステップS1406において、選択された音声認識先が電子黒板200Aの音声認識部280でない場合、出力先選択部270Aは、選択した音声認識先と接続が可能であるか否かを判定する(ステップS1408)。具体的には、出力先選択部270Aは、選択された音声認識先の装置に対して、特定の信号を送信し、応答信号が受信されるか否かによって、接続が可能であるか否かを判定しても良い。
ステップS1408において、接続ができない場合、出力先選択部270Aは、ステップS1404へ戻る。
ステップS1408において、接続が可能である場合、出力先選択部270Aは、送受信部240に、選択された音声認識先へ音声データを送信させる(ステップS1409)。
続いて、出力先選択部270Aは、送受信部240が、音声認識先からテキストデータを受けとったことを示す応答を受信したか否かを判定する(ステップS1410)。ステップS1410において、応答を受信しない場合は、出力先選択部270Aは、応答を受信するまで待機する。
ステップS1410において、応答を受信すると、出力先選択部270Aは、ステップS1401へ戻る。
このように、本実施形態では、例えば、複数の音声認識装置400と接続することが可能な場合には、予め決められた優先順位に応じて、音声データの出力先を選択しても良い。
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。