JP2018156060A

JP2018156060A - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: JP2018156060A
Application number: JP2017252637A
Authority: JP
Inventors: 佳子岩田; Yoshiko Iwata
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-03-17
Filing date: 2017-12-27
Publication date: 2018-10-04
Anticipated expiration: 2037-12-27
Also published as: JP7035526B2

Abstract

【課題】音声操作に対する応答性を向上させることを目的としている。【解決手段】集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置であって、前記音声データに対する音声認識を行う音声認識部と、ネットワークを介して接続された他の装置との通信の状態に応じて、前記情報処理装置と通信を行う音声認識装置、又は、前記音声認識部の何れかを、前記音声データの出力先として選択する出力先選択部と、を有する。【選択図】図１

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。

近年では、自然言語の音声認識技術の発展や、人工知能と呼ばれるサービスの向上等により、発話によって機器の操作を行う音声操作が利用されつつある。この音声操作では、操作対象の機器において音声認識が行われてコマンドが実行される場合と、操作対象の機器からクラウドサービスに発話データが送信され、クラウドサービスで行われた音声認識の結果であるコマンドを機器が実行する場合と、が知られている。

クラウドサービスでは、機器により集音された発話データをインターネット経由で受信し音声認識によって認識されたコマンドを機器に返す。このため、操作対象となる機器において、発話データを取得してからコマンドが実行されるまでの時間は、ネットワークの帯域に大きく依存する。

このような通信システムでは、通信状況に応じて、単位時間あたりのデータ転送量を変化させる工夫等が行われている（特許文献１）。

ネットワークを経由して送受信されるデータは、発話データだけではなく、画像データ、音声データ、動画データ、ドキュメントといったコンテンツが含まれる。

このため、従来の技術では、発話によって機器を操作する音声操作においては、音声データ以外のコンテンツの送受信にネットワーク帯域を奪われ、その応答性が低下する可能性がある。

開示の技術は、上記事情に鑑みてなされたものであり、音声操作に対する応答性を向上させることを目的としている。

開示の技術は、集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置であって、前記音声データに対する音声認識を行う音声認識部と、ネットワークを介して接続された他の装置との通信の状態に応じて、前記情報処理装置と通信を行う音声認識装置、又は、前記音声認識部の何れかを、前記音声データの出力先として選択する出力先選択部と、を有する。

音声操作に対する応答性を向上させることができる。

第一の実施形態の情報処理システムの概要を説明する図である。第一の実施形態の情報処理システムのシステム構成の一例を示す図である。第一の実施形態の電子黒板のハードウェア構成の一例を示す図である。第一の実施形態のスマートスピーカのハードウェア構成の一例を示す図である。第一の実施形態のサーバ装置のハードウェア構成の一例を示す図である。第一の実施形態の情報処理システムの有する各装置の機能を説明する図である。第一の実施形態のコマンドデータベースの一例を示す図である。第一の実施形態の遅延判定テーブルを説明する図である。第一の実施形態の情報処理システムの動作を説明するシーケンス図である。第二の実施形態の情報処理システムのシステム構成の一例を示す図である。第二の実施形態の情報処理システムの有する各装置の機能を説明する図である。第二の実施形態の遅延判定テーブルの一例を示す図である。本第二の実施形態の優先順位テーブルの一例を示す図である。第二の実施形態の出力先選択部の動作を説明するフローチャートである。

（第一の実施形態）
以下に図面を参照して、第一の実施形態について説明する。図１は、第一の実施形態の情報処理システムの概要を説明する図である。

本実施形態の情報処理システム１００は、電子黒板２００と、サーバ装置３００と、を有する。情報処理システム１００において、電子黒板２００とサーバ装置３００とは、ネットワークＮを介して接続される。また、本実施形態の情報処理システム１００は、ネットワークＮを介して、音声データをテキストデータに変換する音声認識装置４００と接続される。

本実施形態の音声認識装置４００は、例えば、人工知能により提供されるサービスである。音声認識装置４００は、受信した音声データを音声認識機能によりテキストデータとし、電子黒板２００やサーバ装置３００へ送信する。

また、本実施形態の電子黒板２００は、サーバ装置３００や音声認識装置４００を含む他の装置４５０との通信の状態に応じて、音声データの出力先を選択する。以下の説明では、電子黒板２００は、他の装置４５０に含まれるサーバ装置３００との通信の状態に応じて、音声データの出力先を選択するものとする。

本実施形態の電子黒板２００は、マイク等の集音装置を有しており、集音装置によって音声データを取得すると（ステップＳ１）、自機とサーバ装置３００（外部装置）との間の通信の状態に応じて、音声データを音声認識装置４００へ送信してコマンドを取得するか、自機の音声認識機能によりコマンドを取得するか否かを判定する（ステップＳ２）。

具体的には、電子黒板２００は、ステップＳ２において、電子黒板２００とサーバ装置３００（外部装置）との間の通信に係る時間が所定のパターンを示す場合、自機の音声認識機能によりコマンドを取得するものと判定する。そして、電子黒板２００は、音声データを音声認識装置４００に送信せず、自機の音声認識機能により、コマンドを取得する（ステップＳ３）。

ここで、通信に係る時間が所定のパターンを示す場合とは、電子黒板２００が他の装置４５０との接続に用いるネットワークＮが混雑している場合や、通信が行えない場合を含む。

また、ステップＳ２において、電子黒板２００は、電子黒板２００とサーバ装置３００との間の通信に係る時間が所定のパターンを示していない場合、電子黒板２００は、音声データを音声認識装置４００へ送信してコマンドを取得すると判定する。そして、電子黒板２００は、音声データを音声認識装置４００へ送信し（ステップＳ４）、音声認識装置４００からコマンドを取得する（ステップＳ５）。

ここで、通信に係る時間が所定のパターンを示さない場合とは、電子黒板２００が他の装置４５０との接続に用いるネットワークＮが混雑しておらず、速やかな通信が行える場合を含む。

このように、本実施形態の情報処理システム１００では、電子黒板２００と他の装置との通信の状態に応じて、音声データの出力先を選択するため、音声操作に対する応答性を向上させることができる。

尚、図１のステップＳ１〜ステップＳ５の詳細は、後述する図９で説明する。

図２は、第一の実施形態の情報処理システムのシステム構成の一例を示す図である。

本実施形態の情報処理システム１００において、電子黒板２００は、手書き入力された文字や画像等を示すストローク情報、電子黒板２００の画面をキャプチャした画像データ等を、サーバ装置３００に送信する。また、本実施形態の電子黒板２００は、マイク等の集音装置を有しており、集音装置によって集音された音声データを、サーバ装置３００と、音声認識装置４００とに送信する。

尚、本実施形態の音声データは、集音装置が集音した全ての音を示す波形をデジタル化したデータである。したがって、本実施形態では、電子黒板２００の周辺で発話した人の声を示す発話データは、音声データの一部である。

本実施形態のサーバ装置３００は、受信したストローク情報や画像データ、音声データ等を格納する。また、本実施形態のサーバ装置３００は、音声認識装置４００から送信されたテキストデータを、音声データと対応付けて格納する。

尚、サーバ装置３００は、例えば、ある会議において電子黒板２００が使用された場合、会議名と、会議中に取得したスクロール情報と、画像データと、音声データと、音声データから変換されたテキストデータとが対応付けられて格納されても良い。言い換えれば、サーバ装置３００では、電子黒板２００から取得した各種の情報が、会議毎に格納されても良い。

さらに、本実施形態の電子黒板２００は、ネットワークＮの混雑具合いを判定し、ネットワークＮが混雑している場合には、音声認識を行う場所を、音声認識装置４００から自機へ切り替え、音声データを外部に送信せずに、自機内で音声認識を行う。言い換えれば、電子黒板２００は、電子黒板２００と、ネットワークＮを介して通信を行う他の装置との間の通信に係る時間が所定の条件を満たす場合に、ネットワークＮが混雑していると判定する。尚、所定の条件は、予め設定されていても良い。

また、以下の説明では、電子黒板２００と、ネットワークＮを介して通信を行う他の装置との間の通信に係る時間を、通信遅延時間と呼ぶ。言い換えれば、通信遅延時間は、電子黒板２００がネットワークＮを介して他の装置に信号を送信してから、の他の装置から応答を受信するまでの時間である。電子黒板２００とネットワークＮを介して通信を行う他の装置は、サーバ装置３００（外部装置）と、音声認識装置４００と、を含む。

また、本実施形態の電子黒板２００は、ネットワークＮの混雑していない場合には、音声データを音声認識装置４００に送信して音声認識を行う。言い換えれば、電子黒板２００は、通信遅延時間が所定の条件を満たさない場合に、ネットワークＮが混雑してないと判定する。

本実施形態で、このように、音声認識を行う場所を切り替えることで、発話による操作指示（コマンド）に対する電子黒板２００の応答性を向上させる。

尚、図１では、音声操作の対象となる機器を電子黒板２００としているが、これに限定されない。本実施形態の情報処理システム１００において、音声操作の対象となる機器は、集音装置と音声認識機能とを有しており、且つ、音声認識装置４００と通信を行うことができる機器であれば良い。具体的には、本実施形態における音声操作の対象となる機器は、例えば、一般的なコンピュータ、タブレット型端末、スマートフォン等がある。また、その他にも、各種の電子機器に本実施形態を適用することができる。

また、以下の説明では、電子黒板２００からサーバ装置３００に送信される各種のデータをコンテンツデータと呼ぶ。したがって、本実施形態のコンテンツデータは、音声データ、画像データ、動画データ、ストローク情報等を含む。

次に、本実施形態の情報処理システム１００の有する各装置について説明する。図３は、第一の実施形態の電子黒板のハードウェア構成の一例を示す図である。

図３に示されているように、電子黒板２００は、ＣＰＵ(Central Processing Unit)２０１、ＲＯＭ(Read Only Memory)２０２、ＲＡＭ(Random Access Memory)２０３、ＳＳＤ(Solid State Drive)２０４、ネットワークＩ／Ｆ(Interface)２０５、外部機器接続Ｉ／Ｆ２０６、及び、無線ＬＡＮ（Local Area Network）モジュール２０７を備えた情報処理装置である。

これらのうち、ＣＰＵ２０１は、電子黒板２００全体の動作を制御する。尚、ＣＰＵ２０１は、例えば、複数のＣＰＵを含んでいても良い。

ＲＯＭ２０２は、ＣＰＵ２０１やＩＰＬ(Initial Program Loader)等のＣＰＵ２０１の駆動に用いられるプログラムを記憶する。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される。ＳＳＤ２０４は、電子黒板用のプログラム等の各種データを記憶する。ネットワークＩ／Ｆ２０５は、通信ネットワークとの通信を制御する。外部機器接続Ｉ／Ｆ２０６は、ＵＳＢ(Universal Serial Bus)メモリ２６００、外付け機器（カメラ２４００、スピーカ２３００、スマートスピーカ２２００）との通信を制御する。無線ＬＡＮモジュール２０７は、電子黒板２００を無線ＬＡＮにてネットワークに接続させる。

また、電子黒板２００は、キャプチャデバイス２１１、ＧＰＵ２１２、ディスプレイコントローラ２１３、接触センサ２１４、センサコントローラ２１５、電子ペンコントローラ２１６、近距離通信回路２１９、近距離通信回路２１９のアンテナ２１９ａ、及び電源スイッチ２２２を備えている。

これらのうち、キャプチャデバイス２１１は、ＰＣ４１０−１のディスプレイに対して映像情報を静止画または動画として表示させる。ＧＰＵ(Graphics Processing Unit)２１２は、グラフィクスを専門に扱う半導体チップである。ディスプレイコントローラ２１３は、ＧＰＵ２１２からの入力画像をディスプレイ２２６（表示装置）等へ出力するために画面表示の制御及び管理を行う。接触センサ２１４は、ディスプレイ２２６上に電子ペン２５００や利用者の手Ｈ等が接触したことを検知する。

センサコントローラ２１５は、接触センサ２１４の処理を制御する。接触センサ２１４は、赤外線遮断方式による座標の入力及び座標の検出を行う。この座標の入力及び座標の検出する方法は、ディスプレイ２２６の上側両端部に設置された２つ受発光装置が、ディスプレイ２２６に平行して複数の赤外線を放射し、ディスプレイ２２６の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ２１４は、物体によって遮断された２つの受発光装置が放射した赤外線のＩＤをセンサコントローラ２１５に出力し、センサコントローラ２１５が、物体の接触位置である座標位置を特定する。

電子ペンコントローラ２１６は、電子ペン２５００と通信することで、ディスプレイ２２６へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信回路２１９は、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の通信回路である。

電源スイッチ２２２は、電子黒板２００の電源のＯＮ／ＯＦＦを切り換えるためのスイッチである。

また、電子黒板２００は、バスラインＢを備えている。バスラインＢは、図２に示されているＣＰＵ２０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

更に、電子黒板２００は、ＲＳ−２３２Ｃポート２２３、変換コネクタ２２４、Ｂｌｕｅｔｏｏｔｈコントローラ２２５を有する。

ＲＳ−２３２Ｃポート２２３は、バスラインＢと接続されており、ＰＣ４１０−２等をＣＰＵ２０１等に接続する。変換コネクタ２２４は、ＰＣ４１０−２のＵＳＢ（Universal Serial Bus）ポートに電子黒板２００を接続するためのコネクタである。

Ｂｌｕｅｔｏｏｔｈコントローラ２２５は、例えば、ＰＣ４１０−１等と、Ｂｌｕｅｔｏｏｔｈによる通信を行うためのコントローラである。

尚、接触センサ２１４は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式のタッチパネル、対向する２つの抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式のタッチパネル、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式のタッチパネルなどの種々の検出手段を用いてもよい。また、電子ペンコントローラ２１６が、電子ペン２５００のペン先及びペン尻だけでなく、電子ペン２５００の利用者が握る部分や、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。

本実施形態の電子黒板２００は、図２に示すハードウェア構成を有することにより、後述するような各種処理を実現できる。

また、本実施形態のスマートスピーカ２２００は、例えば、ネットワークへの接続機能や、マイクを有しており、集音装置の１つである。また、本実施形態のスマートスピーカ２２００は、例えば、人工知能を搭載しており、Wi-Fi、Bluetooth等の規格に準じた通信を行うことで音声データの収集や、音声データの再生の他の様々な用途に使用される。

本実施形態では、例えば、スマートスピーカ２２００により収集された音声データから、電子黒板２００に対するコマンドが取得されても良い。また、図３の例では、集音装置をスマートスピーカ２２００としているが、これに限定されない。電子黒板２００は、スマートスピーカ２２００の代わりに、通常のマイクを有していても良い。

また、電子黒板２００は、無線ＬＡＮモジュール２０７と、スマートスピーカ２２００の有するネットワークの接続機能とにより、無線にて接続されていても良い。以下に、本実施形態のスマートスピーカ２２００のハードウェア構成について説明する。

図４は、第一の実施形態のスマートスピーカのハードウェア構成の一例を示す図である。

スマートスピーカ２２００は、ＣＰＵ２２０１、ＲＯＭ２２０２、ＲＡＭ２２０３、ＳＳＤ２２０４、ネットワークＩ／Ｆ２２０５、外部機器接続Ｉ／Ｆ２２０６、及び、無線ＬＡＮモジュール２２０７を備えた情報端末である。

ＣＰＵ２２０１は、スマートスピーカ２２００全体の動作を制御する。尚、ＣＰＵ２２０１は、例えば、複数のＣＰＵを含んでいても良い。

ＲＯＭ２２０２は、ＣＰＵ２２０１やＩＰＬ等のＣＰＵ２２０１の駆動に用いられるプログラムを記憶する。ＲＡＭ２２０３は、ＣＰＵ２２０１のワークエリアとして使用される。ＳＳＤ２２０４は、スマートスピーカ用のプログラム等の各種データを記憶する。ネットワークＩ／Ｆ２２０５は、通信ネットワークとの通信を制御する。外部機器接続Ｉ／Ｆ２２０６は、ＵＳＢメモリ２６０１、外付け機器（カメラ２４０１、スピーカ２３０１、マイク２７００）との通信を制御する。無線ＬＡＮモジュール２２０７は、スマートスピーカ２２００を無線ＬＡＮにてネットワークに接続させる。

また、スマートスピーカ２２００は、キャプチャデバイス２２１１、ＧＰＵ２２１２、ディスプレイコントローラ２２１３、接触センサ２２１４、センサコントローラ２２１５、電子ペンコントローラ２２１６、近距離通信回路２２１９、近距離通信回路２２１９のアンテナ２２１９ａ、及び電源スイッチ２２２２を備えている。

これらのうち、キャプチャデバイス２２１１は、ＰＣ４１１−１のディスプレイに対して映像情報を静止画または動画として表示させる。ＧＰＵ(Graphics Processing Unit)２２１２は、グラフィクスを専門に扱う半導体チップである。ディスプレイコントローラ２２１３は、ＧＰＵ２２１２からの入力画像をディスプレイ２２２６（表示装置）等へ出力するために画面表示の制御及び管理を行う。接触センサ２２１４は、ディスプレイ２２２６上に電子ペン２５０１や利用者の手Ｈ等が接触したことを検知する。

センサコントローラ２２１５は、接触センサ２２１４の処理を制御する。接触センサ２２１４は、赤外線遮断方式による座標の入力及び座標の検出を行う。この座標の入力及び座標の検出する方法は、ディスプレイ２２２６の上側両端部に設置された２つ受発光装置が、ディスプレイ２２２６に平行して複数の赤外線を放射し、ディスプレイ２２２６の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ２２１４は、物体によって遮断された２つの受発光装置が放射した赤外線のＩＤをセンサコントローラ２２１５に出力し、センサコントローラ２２１５が、物体の接触位置である座標位置を特定する。

電子ペンコントローラ２２１６は、電子ペン２５０１と通信することで、ディスプレイ２２２６へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信回路２２１９は、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の通信回路である。

電源スイッチ２２２２は、スマートスピーカ２２００の電源のＯＮ／ＯＦＦを切り換えるためのスイッチである。

また、スマートスピーカ２２００は、バスラインＢ１を備えている。バスラインＢ１は、図４に示されているＣＰＵ２２０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

Ｂｌｕｅｔｏｏｔｈコントローラ２２２５は、例えば、ＰＣ４１１−１等と、Ｂｌｕｅｔｏｏｔｈによる通信を行うためのコントローラである。

次に、図５を参照して、本実施形態のサーバ装置３００のハードウェア構成について説明する。図５は、第一の実施形態のサーバ装置のハードウェア構成の一例を示す図である。

本実施形態のサーバ装置３００は、一般のコンピュータ（外部装置）であり、それぞれバスＢ２で相互に接続されている入力装置３１、出力装置３２、ドライブ装置３３、補助記憶装置３４、メモリ装置３５、演算処理装置３６及びインターフェース装置３７を有する。

入力装置３１は、例えばマウスやキーボードであり、各種の情報を入力するために用いられる。出力装置３２は、例えばディスプレイ等であり、各種信号の表示（出力）に用いられる。インターフェース装置３７は、モデム，ＬＡＮカード等を含み、ネットワークに接続する為に用いられる。

情報処理プログラムは、サーバ装置３００を制御する各種プログラムの少なくとも一部である。情報処理プログラムは例えば記録媒体３８の配布やネットワークからのダウンロードなどによって提供される。情報処理プログラムを記録した記録媒体３８は、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的，電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

また、情報処理プログラムを記録した記録媒体３８がドライブ装置３３にセットされると、情報処理プログラムは記録媒体３８からドライブ装置３３を介して補助記憶装置３４にインストールされる。ネットワークからダウンロードされた通信プログラムは、インターフェース装置３７を介して補助記憶装置３４にインストールされる。

補助記憶装置３４は、インストールされた情報処理プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置３５は、コンピュータの起動時に補助記憶装置３４から情報処理プログラムを読み出して格納する。そして、演算処理装置３６はメモリ装置３５に格納された各プログラムに従って、後述するような各種処理を実現している。

次に、図６を参照して、情報処理システム１００の有する各装置の機能について説明する。図６は、情報処理システムの有する各装置の機能を説明する図である。

始めに、電子黒板２００の機能について説明する。以下に説明する電子黒板２００の機能は、ＣＰＵ２７がＲＡＭ２６等に格納されたプログラムを読み出して実行することで実現される。

本実施形態の電子黒板２００は、集音部２１０、入力部２２０、コンテンツ変換部２３０、送受信部２４０、コマンド抽出部２５０、コマンド実行部２６０、通信時間計測部２６５、出力先選択部２７０、音声認識部２８０、辞書更新部２９０を有する。ここで上述した各部は、ＣＰＵ２０１がＲＯＭ２０２等からプログラムを読み出して実行することで実現される。

また、本実施形態の電子黒板２００は、記憶部５００を有する。記憶部５００には、コマンドデータベース５０１、辞書データベース５０２が設けられている。記憶部５００は、例えば、電子黒板２００のＲＯＭ２０２やＨＤＤ２０４等の記憶装置に設けられていても良い。

また、本実施形態の記憶部５００は、記憶装置における記憶領域を示すものであり、記憶部５００は、複数の記憶装置によって実現されても良い。

本実施形態のコマンドデータベース５０１は、音声データの認識結果と、電子黒板２００の操作内容とが対応付けられて格納される。コマンドデータベース５０１の詳細は後述する。

本実施形態の辞書データベース５０２は、音声認識部２８０によって参照されるものであり、音声認識に用いられる。

集音部２１０は、スマートスピーカ２２００に入力された音声を音声データとして取得する。入力部２２０は、電子黒板２００の有するディスプレイ２２６に対して手書き入力された文字や画像を示すストローク情報や、ディスプレイ２２６に表示された画像の画像データ等を取得する。尚、本実施形態のストローク情報とは、タッチパネルに対して手書き入力が行われた場合の、利用者による一画毎の軌跡を示す点群の座標報である。また、入力部２２０は、撮像装置３０により撮影された動画データ等を取得する。

コンテンツ変換部２３０は、音声データ、画像データ、動画データを、サーバ装置３００に保存できる形式に変換する。具体的には、コンテンツ変換部２３０は、音声データをＡＡＣ（Advanced Audio Coding）形式等とし、画像データや動画データをＪＰＥＧ形式等とする。本実施形態のコンテンツ変換部２３０は、このように、各種のデータを圧縮することで、ネットワークＮを介して送受信しやすく、且つ、サーバ装置３００のメモリ容量を圧迫しないようにしている。また、本実施形態では、動画データは、画像データに含まれるものである。

送受信部２４０は、集音部２１０により取得された音声データをサーバ装置３００と音声認識装置４００とに送信する。つまり、電子黒板２００は、情報処理システム１００に含まれない外部端末（音声認識装置４００）に音声データを送信する。また、送受信部２４０は、入力部２２０により取得された画像データ、動画データ等をサーバ装置３００に送信する。

コマンド抽出部２５０は、コマンドデータベース５０１を参照し、音声認識装置４００から受信したテキストデータや、音声認識部２８０によって認識されたテキストデータから、音声データに含まれる電子黒板２００に対するコマンドを抽出する。

コマンド実行部２６０は、送受信部２４０がサーバ装置３００から受信したコマンドに基づき、コマンドが示す操作を実行する。

通信時間計測部２６５は、送受信部２４０がコンテンツデータをサーバ装置３００に送信してから、サーバ装置３００からコンテンツデータの格納の完了の通知を受信するまでの通信遅延時間を計測する。また、本実施形態の通信時間計測部２６５は、計測した通信遅延時間を、通信を行った履歴を示す情報として保持していても良い。

出力先選択部２７０は、通信時間計測部２６５により計測された通信遅延時間に応じて、音声認識を行う装置を選択する。言い換えれば、出力先選択部２７０は、通信遅延時間に応じて、音声データの出力先を選択する。

具体的には、出力先選択部２７０は、遅延判定テーブル２７１を有する。そして、出力先選択部２７０は、遅延判定テーブル２７１を参照し、通信遅延時間が所定の条件を満たす場合に、音声認識を行う装置をとして、音声データの出力先の装置に、電子黒板２００を選択する。遅延判定テーブル２７１の詳細は後述する。

音声認識部２８０は、集音部２１０が集音した音声データに対して、辞書データベース５０２を参照して音声認識を行い、音声認識の結果として、テキストデータを出力する。

辞書更新部２９０は、ネットワークＮを介して音声認識装置４００の辞書データベースを参照し、音声認識装置４００の辞書データベースに合わせて、辞書データベース５０２を更新する。本実施形態の辞書更新部２９０は、例えば、電子黒板２００が起動したタイミングで辞書データベース５０２を更新しても良い。また、本実施形態の辞書更新部２９０は、電子黒板２００が使用されていないときに、辞書データベース５０２の更新を行っても良い。

次に、サーバ装置３００の機能について説明する。本実施形態のサーバ装置３００は、コンテンツデータベース３１０を有する。また、本実施形態のサーバ装置３００は、送受信部３２０、コンテンツ格納部３３０を有する。本実施形態のサーバ装置３００の有する各部は、演算処理装置３６がメモリ装置３５から情報処理プログラムを読み出して実行することで実現される。

本実施形態のコンテンツデータベース３１０は、例えば、サーバ装置３００の補助記憶装置３４等に設けられていても良い。

コンテンツデータベース３１０は、電子黒板２００から受信した各種のデータ（コンテンツ）が格納される。本実施形態のコンテンツとは、音声データ、画像データ、動画データ、ストローク情報を含む。

本実施形態の送受信部３２０は、電子黒板２００と間の情報の送受信と、音声認識装置４００からの情報の受信を行う。

コンテンツ格納部３３０は、電子黒板２００から受信したコンテンツをコンテンツデータベース３１０へ格納する。

次に、図７を参照して、本実施形態のコマンドデータベース５０１について説明する。図７は、コマンドデータベースの一例を示す図である。

本実施形態のコマンドデータベース５０１では、例えば、操作内容を示す１つのワードに対し、関連する複数のワードが対応付けられたツリー状の構造となっている。

図５の例では、例えば、「ペン」というワードに、「色」、「太さ」と言うワードが対応付けられており、「色」には、「赤」、「青」等の線の色を示すワードが対応付けられている。また、「太さ」には、「１．０ポイント」、「５．０ポイント」といった、線の太さを示すワードが対応付けられている。

次に、図８を参照して、遅延判定テーブル２７１について説明する。図８は、第一の実施形態の遅延判定テーブルを説明する図である。

図８に示す遅延判定テーブル２７１では、情報の項目として、通信の状態と、音声認識先とを有し、両者は対応付けられている。言い換えれば、遅延判定テーブル２７１では、通信の状態と、音声認識先との組み合わせが格納されている。

項目「通信の状態」の値は、ネットワークＮが混雑しているか否かの判定において参照される。項目「音声認識先」の値は、電子黒板２００の集音部２１０により集音された音声データの音声認識を行う装置を示している。言い換えれば、項目「音声認識先」の値は、音声データの出力先を示す。

図８の例では、通信遅延時間が１秒を超えることが１０秒間以上続く場合、通信遅延時間が５秒を超えた場合、通信が行えなかった場合において、音声データの出力先は、電子黒板２００の音声認識部２８０となる。また、図８の例では、通信遅延時間が１秒以下となることが１０秒間続く場合には、音声データの出力先は、音声認識装置４００となる。

したがって、図８から、通信遅延時間が長くなると、電子黒板２００で集音された音声データは、自機内の音声認識部２８０により音声認識が行われることがわかる。

つまり、本実施形態では、通信遅延時間のパターンが、遅延判定テーブル２７１において、音声認識先「電子黒板の音声認識部」と対応付けられた項目「通信の状態」の値となるとき、ネットワークＮが混雑していると判定される。

したがって、本実施形態では、遅延判定テーブル２７１において、音声認識先「電子黒板の音声認識部」と対応付けられた項目「通信の状態」の値が示す通信遅延時間のパターンが、ネットワークＮが混雑していると判定するための所定の条件となる。

尚、通信遅延時間は、電子黒板２００がサーバ装置３００にコンテンツデータを送信したタイミングから、サーバ装置３００からコンテンツデータの格納の完了の通知を受信したタイミングまでの時間である。言い換えれば、通信遅延時間は、電子黒板２００が外部装置（電子黒板２００と通信を行う他の装置）にコンテンツデータを送信したタイミングから、外部装置からコンテンツデータの格納の完了の通知を受信したタイミングまでの時間である。

また、通信遅延時間は、例えば、電子黒板２００から音声データを音声認識装置４００（電子黒板２００と通信を行う他の装置）に送信したタイミングから、電子黒板２００が音声認識装置４００から音声認識結果のテキストデータを受信したタイミングのまでの時間としても良い。

尚、音声データの出力先を選択する際の基準となる所定の条件は、図８の例に限定されない。

本実施形態では、例えば、通信遅延時間が１秒以上となった場合に、音声データの出力先を、ネットワークを経由する必要がある音声認識装置４００から、自機内の音声認識部２８０に切り替えるようにしても良い。本実施形態の遅延判定テーブル２７１における通信遅延時間と、音声認識先との組み合わせは、例えば、電子黒板２００の管理者等によって、任意に決定されて良い。

次に、図９を参照して、本実施形態の情報処理システム１００の動作を説明する。図９は、第一の実施形態の情報処理システムの動作を説明するシーケンス図である。

以下の図９では、ステップＳ９０１の処理が、図１のステップＳ１の処理に相当し、ステップＳ９０２からステップＳ９２５までの処理は、図１のステップＳ２の処理に相当する。また、図９では、ステップＳ９２６からステップＳ９４５までの処理が、図１のステップＳ３に相当する。尚、図１のステップＳ４の処理は、ネットワークにおける負荷がネットワークを混雑させるほど大きくなく、通信遅延時間が所定のパターンを示していない場合の処理であるため、図９のステップＳ９０１からステップＳ９２４までの処理と同様の処理となる。

本実施形態の情報処理システム１００において、集音部２１０は、音声データを取得すると、コンテンツ変換部２３０へ渡す（ステップＳ９０１）。また、入力部２２０は、画像データや動画データを取得すると、コンテンツ変換部２３０へ渡す（ステップＳ９０２）。

コンテンツ変換部２３０は、これらのデータに対して、設定されたパラメータに応じてデータ形式の変換を行い（ステップＳ９０３）、送受信部２４０へ渡す（ステップＳ９０４）。送受信部２４０は、画像データ、動画データ、音声データを含むコンテンツデータをサーバ装置３００へ送信する（ステップＳ９０５）。

また、送受信部２４０は、通信時間計測部２６５に対し、通信遅延時間の計測の開始指示を送信する（ステップＳ９０６）。通信時間計測部２６５は、この指示を受けて、通信遅延時間の計測を開始する（ステップＳ９０７）。

サーバ装置３００は、送受信部３２０がコンテンツデータを受信すると、コンテンツ格納部３３０へ渡し（ステップＳ９０８）、コンテンツデータベース３１０へ受信したコンテンツデータへ格納する（ステップＳ９０９）。

続いて、コンテンツ格納部３３０は、コンテンツデータの格納が完了したことを、送受信部３２０に通知し（ステップＳ９１０）、送受信部３２０は、この通知を電子黒板２００へ送信する（ステップＳ９１１）。

電子黒板２００の送受信部２４０は、この通知受けて、通信時間計測部２６５に対し、通信遅延時間の計測の終了指示を送信する（ステップＳ９１２）。通信時間計測部２６５は、この指示を受けて、通信遅延時間の計測を終了する（ステップＳ９１３）。尚、通信時間計測部２６５は、計測した通信遅延時間を、通信の履歴として保持していても良い。

また、電子黒板２００は、送受信部２４０により、集音部２１０が取得した音声データを音声認識装置４００へ送信する（ステップＳ９１４）。

音声認識装置４００は、音声データを受信すると、この音声データに対して音声認識を行い（ステップＳ９１５）、認識結果のテキストデータを電子黒板２００へ送信する（ステップＳ９１６）。

また、音声認識装置４００は、認識結果のテキストデータをサーバ装置３００へ送信する（ステップＳ９１７）。サーバ装置３００は、送受信部３２０がテキストデータを受信すると、このテキストデータをコンテンツ格納部３３０へ渡す（ステップＳ９１８）。コンテンツ格納部３３０は、このテキストデータをステップＳ９０９で格納したコンテンツデータと対応付けて、コンテンツデータベース３１０に格納する（ステップＳ９１９）。

電子黒板２００の送受信部２４０は、音声認識装置４００からテキストデータを受信すると、受信したテキストデータをコマンド抽出部２５０へ渡す（ステップＳ９２０）。

コマンド抽出部２５０は、テキストデータを受けて、コマンドデータベース５０１をサ参照し、テキストデータの中にコマンドが含まれるか否かを判定する（ステップＳ９２１）。

ステップＳ９２１でコマンドが含まれない場合には、コマンド抽出部２５０は、処理を終了する。

ステップＳ９２１でコマンドが含まれる場合、コマンド抽出部２５０は、コマンドを抽出し（ステップＳ９２２）、コマンド実行部２６０へ抽出したコマンドを渡す（ステップＳ９２３）。コマンド実行部２６０は、このコマンドを受けて、コマンドを実行する（ステップＳ９２４）。

また、電子黒板２００において、出力先選択部２７０は、通信時間計測部２６５が保持している通信遅延時間と、遅延判定テーブル２７１とを参照して、音声データの認識先（出力先）を選択する（ステップＳ９２５）。

より具体的には、出力先選択部２７０は、通信時間計測部２６５が保持している通信遅延時間のパターンが示す通信の状態が、所定の条件を満たしているか否かを判定し、判定した結果に応じて、音声データの出力先を選択する。

尚、ここでは、送受信部２４０がステップＳ９０５においてコンテンツデータを送信したタイミングから、ステップＳ９１１において、送受信部２４０がコンテンツデータの格納完了の通知を受信するまでのタイミングまでを通信遅延時間としている。

ステップＳ９２５で、音声データの認識先として音声認識装置４００が選択された場合、電子黒板２００は、ステップＳ９０１からの通常の処理を行う。音声データの認識先として音声認識装置４００が選択された場合とは、ネットワークにおける負荷が、ネットワークを混雑させるほど大きくない場合である。

ステップＳ９２５で、音声データの認識先として音声認識部２８０が選択された場合、電子黒板２００は、次に入力されるコンテンツデータに対して、ステップＳ９２６以降の処理を行う。

図９のステップＳ９２６からステップＳ９３４までの処理は、ステップＳ９０６、ステップＳ９０７と、ステップＳ９１２とステップＳ９１３により通信遅延時間の計測を行わない点以外は、ステップＳ９０１からステップＳ９０９までの処理と同様であるから、説明を省略する。

ステップＳ９３４に続いて、電子黒板２００は、コンテンツ変換部２３０により、音声データを音声認識部２８０に渡す（ステップＳ９３５）。音声認識部２８０は、音声データを受けて、辞書データベース５０２を参照し、音声認識を行い（ステップＳ９３６）、認識結果のテキストデータをコマンド抽出部２５０へ渡す（ステップＳ９３７）。

ステップＳ９３８からステップＳ９４１までの処理は、ステップＳ９２１からステップＳ９２４までの処理と同様であるから、説明を省略する。

ステップＳ９４１に続いて、電子黒板２００の音声認識部２８０は、テキストデータを送受信部２４０に渡す（ステップＳ９４２）。送受信部２４０は、テキストデータをサーバ装置３００へ送信する（ステップＳ９４３）。サーバ装置３００において、送受信部３２０は、受信したテキストデータをコンテンツ格納部３３０へ渡す（ステップＳ９４４）。コンテンツ格納部３３０は、受信したテキストデータを、ステップＳ９２８で格納したコンテンツデータと対応付けて、コンテンツデータベース３１０に格納する（ステップＳ９４５）。

以上のように、本実施形態では、電子黒板２００とサーバ装置３００との間の通信遅延時間に基づき、音声データの出力先（音声データの音声認識を行う装置）を選択する。

したがって、本実施形態では、ネットワークが混雑している場合等には、ネットワークを経由せずに、音声データをテキストデータに変換し、コマンドを抽出して実行することができる。

したがって、本実施形態によれば、ネットワークのおける通信の負荷が大きい場合等においても、発話による音声操作に対する応答性を向上させることができる。

また、本実施形態では、辞書更新部２９０により、電子黒板２００の音声認識部２８０によって参照される辞書データベース５０２を定期的に更新する。このため、本実施形態の音声認識部２８０では、音声認識装置４００における音声認識の精度に近づけるように、音声認識の精度を向上させることができる。

（第二の実施形態）
以下に、図面を参照して第二の実施形態について説明する。第二の実施形態は、情報処理システムが複数の音声認識装置と接続可能であることが、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

図１０は、第二の実施形態の情報処理システムのシステム構成の一例を示す図である。本実施形態の超音波診断システム１００Ａは、電子黒板２００Ａと、サーバ装置３００とを有する。

また、本実施形態の情報処理システム１００Ａは、複数の音声認識装置４００−１、４００−２、・・・、４００−ＮとネットワークＮを介して接続することができる。

複数の音声認識装置４００−１、４００−２、・・・、４００−Ｎは、それぞれが、人工知能により提供されるサービスであり、受信した音声データを音声認識機能によりテキストデータとし、電子黒板２００やサーバ装置３００へ送信する。

また、本実施形態では、複数の音声認識装置４００−１、４００−２、・・・、４００−Ｎは、それぞれが、異なる言語の音声データに対応した音声認識装置であっても良い。

図１１は、第二の実施形態の情報処理システムの有する各装置の機能を説明する図である。

本実施形態の電子黒板２００Ａは、集音部２１０、入力部２２０、コンテンツ変換部２３０、送受信部２４０、コマンド抽出部２５０、コマンド実行部２６０、通信時間計測部２６５、出力先選択部２７０Ａ、音声認識部２８０、辞書更新部２９０を有する。

本実施形態の出力先選択部２７０Ａは、遅延判定テーブル２７１Ａと、優先順位テーブル２７２とを有し、通信の状態が所定の条件を満たす場合は、優先順位テーブル２７２を参照して、音声データの出力先を選択する。以下に、遅延判定テーブル２７１Ａと、優先順位テーブル２７２について説明する。

図１２は、第二の実施形態の遅延判定テーブルの一例を示す図である。本実施形態では、優先順位テーブル２７２は、予め、電子黒板２００の出力先選択部２７０Ａに与えられていても良い。

また、本実施形態の遅延判定テーブル２７１Ａは、項目「音声認識先」の値として、「電子黒板２００の音声認識部又は他の音声認識装置４００」を有する。

例えば、図１２の例では、項目「通信の状態」の値が「５秒を超えた」であった場合、音声認識先は、他の音声認識装置４００、又は、電子黒板２００の音声認識部２８０から選択されることがわかる。つまり、図１２の例では、通信遅延時間のパターンが「５秒を超えた」パターンである場合には、ネットワークＮが混在していると判定されることがわかる。

また、図１２の例では、項目「通信の状態」の値が「１秒以下になることが１０秒続いた」であった場合、音声認識先は、優先順位が第１位の音声認識装置４００が選択されることがわかる。つまり、図１２の例では、通信遅延時間のパターンが「１秒以下になることが１０秒続いた」パターンである場合には、ネットワークＮが混在していないと判定されることがわかる。

図１３は、第二の実施形態の優先順位テーブルの一例を示す図である。本実施形態の優先順位テーブル２７２は、情報の項目として、優先順位と音声認識先とを有し、優先順位テーブル２７２において、優先順位と音声認識先とは対応付けられている。

例えば、図１３の例では、優先順位が１位の音声認識先は、音声認識装置４００−１であり、次に優先順位が高い２位の音声認識先は、電子黒板２００の音声認識部２８０であり、その次に優先順位が高い２位の音声認識先は、音声認識装置４００−３である。

本実施形態の優先順位は、例えば、電子黒板２００Ａで頻繁に使用される言語の音声認識の精度が高い音声認識装置４００から順に、優先順位が付与されていても良い。また、本実施形態の優先順位テーブル２７２の優先順位は、例えば、定期的に更新されても良い。具体的には、例えば、定期的に、電子黒板２００Ａが接続可能な複数の音声認識装置４００に対して、接続試験等を実施し、その結果に応じて優先順位テーブル２７２の優先順位を更新しても良い。

本実施形態の出力先選択部２７０Ａは、最初に接続した音声認識装置４００との通信遅延時間が所定の条件を満たす場合に、遅延判定テーブル２７１Ａと優先順位テーブル２７２とを参照して、音声データの出力先を選択する。

以下に、図１４を参照して、本実施形態の出力先選択部２７０Ａの動作について説明する。図１４は、第二の実施形態の出力先選択部の動作を説明するフローチャートである。

図１４では、図９のステップＳ９２５において、出力先選択部２７０Ａが音声データの認識先（出力先）を選択する処理を示している。

本実施形態の電子黒板２００Ａにおいて、出力先選択部２７０Ａは、通信時間計測部２６５が通信遅延時間を計測すると、通信時間計測部２６５が保持している通信遅延時間と、遅延判定テーブル２７１Ａを参照し（ステップＳ１４０１）、通信の状態が所定の条件を満たすが否かを判定する（ステップＳ１４０２）。

ステップＳ１４０２において、通信の状態が所定の条件を満たさない場合、出力先選択部２７０Ａは、優先順位テーブル２７２を参照し、優先順位が１位の音声認識装置４００を音声データの出力先の選択し（ステップＳ１４０３）、処理を終了する。この場合、電子黒板２００Ａは、ステップＳ９０１からの通常の処理を行う。

ステップＳ１４０２において、通信の状態が所定の条件を満たす場合、出力先選択部２７０Ａは、優先順位テーブル２７２を参照する（ステップＳ１４０４）。続いて、出力先選択部２７０Ａは、優先順位テーブル２７２において、次に優先順位が高い音声認識先を選択する（ステップＳ１４０５）。

続いて、出力先選択部２７０Ａは、選択された音声認識先が電子黒板２００Ａの音声認識部２８０であるか否かを判定する（ステップＳ１４０６）。ステップＳ１４０６において、選択された音声認識先が電子黒板２００Ａの音声認識部２８０あった場合、出力先選択部２７０Ａは、電子黒板２００Ａの音声認識部２８０を音声データの出力先に選択し（ステップＳ１４０７）、処理を終了する。

ステップＳ１４０６において、選択された音声認識先が電子黒板２００Ａの音声認識部２８０でない場合、出力先選択部２７０Ａは、選択した音声認識先と接続が可能であるか否かを判定する（ステップＳ１４０８）。具体的には、出力先選択部２７０Ａは、選択された音声認識先の装置に対して、特定の信号を送信し、応答信号が受信されるか否かによって、接続が可能であるか否かを判定しても良い。

ステップＳ１４０８において、接続ができない場合、出力先選択部２７０Ａは、ステップＳ１４０４へ戻る。

ステップＳ１４０８において、接続が可能である場合、出力先選択部２７０Ａは、送受信部２４０に、選択された音声認識先へ音声データを送信させる（ステップＳ１４０９）。

続いて、出力先選択部２７０Ａは、送受信部２４０が、音声認識先からテキストデータを受けとったことを示す応答を受信したか否かを判定する（ステップＳ１４１０）。ステップＳ１４１０において、応答を受信しない場合は、出力先選択部２７０Ａは、応答を受信するまで待機する。

ステップＳ１４１０において、応答を受信すると、出力先選択部２７０Ａは、ステップＳ１４０１へ戻る。

このように、本実施形態では、例えば、複数の音声認識装置４００と接続することが可能な場合には、予め決められた優先順位に応じて、音声データの出力先を選択しても良い。

以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。

１００、１００Ａ情報処理システム
２００、２００Ａ電子黒板
２１０集音部
２２０入力部
２３０コンテンツ変換部
２４０送受信部
２５０コマンド抽出部
２６０コマンド実行部
２６５通信時間計測部
２７０出力先選択部
２７１遅延判定テーブル
２８０音声認識部
２９０辞書更新部
３００サーバ装置
３１０コンテンツデータベース
３２０送受信部
３３０コンテンツ格納部
４００音声認識装置
５００記憶部
５０１コマンドデータベース
５０２辞書データベース

特開２０１４−２９９２２号公報

Claims

集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置であって、
前記音声データに対する音声認識を行う音声認識部と、
ネットワークを介して接続された他の装置との通信の状態に応じて、前記情報処理装置と通信を行う音声認識装置、又は、前記音声認識部の何れかを、前記音声データの出力先として選択する出力先選択部と、
を有する情報処理装置。
前記他の装置は、前記コンテンツデータが格納される外部装置と、前記音声認識装置とを含む、請求項１記載の情報処理装置。
前記情報処理装置と、前記外部装置との通信遅延時間を計測する通信時間計測部を有し、
前記通信時間計測部は、
前記情報処理装置から前記外部装置へ前記コンテンツデータが送信されたタイミングから、前記情報処理装置が、前記外部装置から、前記コンテンツデータの格納の完了の通知を受信するタイミングまでの時間を前記通信遅延時間として計測する、請求項２記載の情報処理装置。
前記出力先選択部は、
前記通信遅延時間のパターンが示す通信の状態が、所定の条件を満たす場合に、前記音声データの出力先を、前記音声認識装置に選択する、請求項３記載の情報処理装置。
前記ネットワークを介して複数の音声認識装置が接続されており、
前記出力先選択部は、
前記複数の音声認識装置と前記音声認識部とに優先順位を付与した優先順位テーブルを保持し、
前記通信の状態が所定の条件を満たすとき、
前記優先順位テーブルにしたがって、前記複数の音声認識装置又は前記音声認識部の何れかを、前記音声データの出力先として選択する、請求項４記載の情報処理装置。
前記音声認識部により参照される辞書データベースと、
前記辞書データベースを更新する辞書更新部と、を有し、
前記辞書更新部は、
前記コンテンツデータの送受信が行われていないとき、前記辞書データベースの更新を行う、請求項２乃至５の何れか一項に記載の情報処理装置。
前記情報処理装置に対するコマンドが格納された記憶部を参照し、前記音声データに対する音声認識結果であるテキストデータから、前記情報処理装置に対する操作内容を含むコマンドを抽出するコマンド抽出部と、
前記コマンドを前記情報処理装置に実行させるコマンド実行部と、を有する、請求項２乃至６の何れか一項に記載の情報処理装置。
前記音声認識部による音声認識結果であるテキストデータは、前記コンテンツデータと対応付けられて、前記外部装置に格納される、請求項２乃至６の何れか一項に記載の情報処理装置。
集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置により実行される情報処理プログラムであって、
前記情報処理装置が有する音声認識部により、前記音声データに対する音声認識を行う処理と、
ネットワークを介して接続された他の装置との通信の状態に応じて、前記情報処理装置と通信を行う音声認識装置、又は、前記音声認識部の何れかを、前記音声データの出力先として選択する処理と、
を情報処理装置に実行させる、プログラム。
集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置による情報処理方法であって、
前記情報処理装置が有する音声認識部により、前記音声データに対する音声認識を行う手順と、
ネットワークを介して接続された他の装置との通信の状態に応じて、前記情報処理装置と通信を行う音声認識装置、又は、前記音声認識部の何れかを、前記音声データの出力先として選択する手順と、
を有する情報処理方法。