JP2016045487A

JP2016045487A - 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム

Info

Publication number: JP2016045487A
Application number: JP2015082359A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 武志水本; Takeshi Mizumoto; 圭佑中村; Keisuke Nakamura; 将行瀧ヶ平; Masayuki Takigahira
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2014-08-21
Filing date: 2015-04-14
Publication date: 2016-04-04
Anticipated expiration: 2035-04-14
Also published as: US9899028B2; US20160055850A1; JP6118838B2

Abstract

【課題】使用環境に応じて有用性を向上することができる情報処理システム、情報処理方法、及び情報処理プログラムを提供する。【解決手段】第１情報処理部１１６は入力データに所定の情報処理を行って第１処理結果データを生成し、通信部１２０は入力データに情報処理と同じ種類の情報処理を汎用性がより高い条件で実行可能な第２情報処理部が生成する第２処理結果データを受信可能であり、制御部１１７は自装置の使用環境に応じて第１処理結果データと第２処理結果データのいずれかを選択する。【選択図】図１

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムに関する。

音声認識は、収録された音声が示す発話内容を機械が処理可能なテキスト情報に変換する処理である。従来から、種々の使用環境により認識精度が影響されることが知られている。認識精度に影響を与える使用環境には、騒音や残響等の周囲の音響環境、音声認識の用途、等がある。単語辞書とは、認識結果の候補となる単語を含むデータであり、音声認識用のデータの一部を形成していることがある。

使用環境は音声認識が用いられる場面や状況により異なる。例えば、音声認識の使用目的、扱われる分野、等に応じて用いられる語彙が異なる。所定の機器の操作を目的とする場合には、操作コマンドを主とする語彙で足りるが、特定の専門分野が扱われている場合には、汎用の単語辞書では足りず、その分野の語彙が必要とされる。また、自動車の車室内では、エンジン音、空調音、等の騒音のレベルが事務室よりも一般に高いが、車室内では騒音源が明らかな場合が多い。そのため、あらゆる使用環境に適用できる種々の制御パラメータやデータベースを準備することは現実的ではない。

そこで、予め設定された複数の音声認識データベースのうち使用すべき音声認識データベースを認識された単語に応じて切り替えることが提案されている。例えば、特許文献１には、音声データベースを用いて入力発声データの少なくとも一部を解析し、解析して得られた結果を用いて、解析に使用する音声データベースを切り替える音声認識装置について記載されている。当該音声認識装置は、切り替えた音声データベース内の音声データと比較することにより入力発声データを再解析する。

特開２０００−１８１４８５号公報

特許文献１に記載の音声認識装置において、音声データベースは、複数の階層の辞書を含んで構成される。各階層の辞書は、全国レベル、都道府県レベル、市町村レベル、それぞれの地名や名前を示すデータである。階層間では、地名や名前の地理的範囲が異なるが、使用環境によって異なるものではないため、使用環境に応じた適切な認識結果が得られるとは限られない。

本発明は上記の点に鑑みてなされたものであり、使用環境に応じて有用性を向上することができる情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理部と、前記入力データに情報処理と同じ種類の情報処理を汎用性がより高い条件で実行可能な第２情報処理部が生成する第２処理結果データを受信可能な通信部と、自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御部と、を備える情報処理装置である。

（２）本発明の他の態様は、（１）の情報処理装置であって、前記第１情報処理部は、入力された音声信号に第１音声認識データを用いて音声認識を行って第１テキストデータを生成する第１音声認識部であり、前記第２情報処理部は、前記音声信号に前記第１音声認識データよりも汎用性が高い第２音声認識データを用いて音声認識を行って第２テキストデータを生成する第２音声認識部であり、前記通信部は、前記第２音声認識部から前記第２テキストデータを受信可能であり、前記制御部は、前記第１処理結果データとして前記第１テキストデータと前記第２処理結果データとして前記第２テキストデータのいずれかを選択する。

（３）本発明の他の態様は、（２）の情報処理装置であって、前記制御部は、前記第１テキストデータ又は前記第２テキストデータに含まれる単語に基づいて前記第１テキストデータと前記第２テキストデータのいずれかを選択する。

（４）本発明の他の態様は、（２）又は（３）の情報処理装置であって、前記制御部は、前記第１テキストデータを選択しているとき、前記第２テキストデータに含まれる単語に基づいて前記第２テキストデータを選択する否かを判定し、前記第２テキストデータを選択しているとき、前記第１テキストデータに含まれる単語に基づいて前記第１テキストデータを選択する否かを判定する。

（５）本発明の他の態様は、（２）から（４）のいずれかの情報処理装置であって、前記制御部は、前記第２音声認識部との通信状態に基づいて前記第１音声認識部を動作させるか否かを判定する。

（６）本発明の他の態様は、（５）の情報処理装置であって、前記音声信号に前処理を行って第１音響特徴量を生成する第１前処理部を備え、前記第１音声認識部は、前記第１音響特徴量に基づいて前記第１テキストデータを生成し、前記第１前処理部は、Ｌ（Ｌは１以上の予め定めた整数）階層の階層処理部を備え、第ｌ（ｌは１以上Ｌ以下の整数）階層処理部は、第ｌ階層データに第ｌ階層処理を行って第ｌ＋１階層データを生成し、第１階層データは前記音声信号であり、第Ｌ＋１階層データは、前記第１音響特徴量であり、前記制御部は、前記通信状態に応じていずれの階層の階層処理部まで動作させるかを判定する。

（７）本発明の他の態様は、（６）の情報処理装置であって、Ｌは３であり、第１階層処理部は、複数チャネルの音声信号から音源毎の音源方向を算出する音源定位部であり、第２階層処理部は、前記複数チャネルの音声信号を前記音源毎の音源別音声信号に分離する音源分離部であり、第３階層処理部は、前記音源別音声信号から音響特徴量を算出する特徴量算出部である。

（８）本発明の他の態様は、（１）から（７）のいずれかの情報処理装置であって、前記制御部は、前記入力データの情報量と前記情報処理により生成される処理結果データの情報量に基づいて前記第２情報処理部に前記情報処理を行わせるか否かを判定する。

（９）本発明の他の態様は、（８）の情報処理装置であって、前記制御部は、前記情報処理として音声認識を前記第１情報処理部に行わせ、前記情報処理として音声合成、コンテンツ復号又は電子メール受信を前記第２情報処理部に行わせる。

（１０）本発明の他の態様は、第１情報処理装置と第２情報処理装置とを備える情報処理システムであって、前記第１情報処理装置は、入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理部と、前記第２情報処理装置から第２処理結果データを受信可能な通信部と、自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御部と、を備え、前記第２情報処理装置は、前記入力データに前記情報処理と同じ種類の情報処理を汎用性がより高い条件で実行して前記第２処理結果データを生成する第２情報処理部を備える、
情報処理システムである。

（１１）本発明の他の態様は、情報処理装置における情報処理方法であって、入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理過程と、前記入力データに情報処理と同じ種類の情報処理を汎用性がより高い条件で実行可能な第２情報処理部が生成する第２処理結果データを受信可能な通信過程と、自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御過程と、を有する情報処理方法である。

（１２）本発明の他の態様は、情報処理装置のコンピュータに、入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理手順と、前記入力データに情報処理と同じ種類の情報処理を汎用性がより高い条件で実行可能な第２情報処理部が生成する第２処理結果データを受信可能な通信手順と、自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御手順と、を実行させるための情報処理プログラムである。

上述した（１）、（１０）、（１１）又は（１２）の構成によれば、自装置で取得した第１処理結果データと、汎用性がより高い条件で実行され、他装置から受信した第２処理結果データとのいずれかが自装置の使用環境に応じて選択される。そのため、自装置の使用環境に応じて他装置の処理資源を活用することで有用性を向上することができる。

上述した（２）の構成によれば、自装置で取得した第１テキストデータと、汎用性が高い音声認識データを用いて認識され、他装置から受信した第２テキストデータとのいずれかが自装置の使用環境に応じて選択される。そのため、自装置の使用環境に応じて他装置の処理資源を活用することで認識精度を向上することができる。

上述した（３）の構成によれば、発話内容を形成する単語に応じて、より適切な音声認識データを用いて認識されたテキストデータが選択される。そのため、利用目的や分野に応じて適切な音声認識を行うことができる。

上述した（４）の構成によれば、第１テキストデータと第２テキストデータのいずれを選択するかが、現在選択されていないテキストデータに基づいて判定される。そのため、利用目的や分野の変化に応じて適切なテキストデータを選択することで、認識精度を向上することができる。

上述した（５）の構成によれば、自装置の第１音声認識部を動作させるか、第２音声認識部で汎用性が高い音声認識データを用いて取得された第２テキストデータを受信するかが、第２音声認識部との通信状態に応じて選択される。そのため、第２音声認識部との通信状態に応じて、その処理資源を活用することで認識精度を向上することができる。

上述した（６）の構成によれば、第１前処理部を構成する階層処理部のうち動作すべき階層処理部の階層が、通信状態に応じて可変になる。そのため、第２音声認識部に係る処理資源を活用する度合いを、通信状態に応じて適切に制御することができる。

上述した（７）の構成によれば、第１前処理部を構成する音源定位部、音源分離部及び特徴量算出部のうち動作すべき処理部の階層が、通信状態に応じて可変になる。また、音源定位部、音源分離部、特徴量算出部の順に生成されるデータの情報量が少なくなる。そのため、第２音声認識部に係る処理資源を活用する度合いを、各部で生成されるデータの情報量に見合った通信状態に応じて制御することができる。

上述した（８）の構成によれば、ネットワークに接続された他装置が備える第２情報処理部を有効に使用できる度合いが情報処理の種別により異なりうることに応じて、第２情報処理部の使用の可否が判定される。そのため、情報処理の種類毎に第２情報処理部を用いるか否かを的確に判定することができる。

上述した（９）の構成によれば、第１情報処理部よりも有効に第２情報処理部を使用しうる情報処理として音声合成、コンテンツ復号又は電子メール受信が第２情報処理部で実行され、第２情報処理部よりも有効に第１情報処理部を使用しうる情報処理として音声認識が第１情報処理部で実行される。そのため、情報処理システム全体として有用性が向上する。

本発明の第１の実施形態に係る音声処理システムの構成を示すブロック図である。単語の種別とその例を示す図である。単語の種別毎に採用すべきテキストデータとその優先度の例を示す優先テーブルである。本発明の第１の実施形態に係る制御部における制御状態の状態遷移図の例を示す。本発明の第１の実施形態に係る状態遷移処理の一例を示すフローチャートである。本発明の第１の実施形態に係る状態遷移処理の他の例を示すフローチャートである。本発明の第２の実施形態に係る音声処理システムの構成を示すブロック図である。本発明の第２の実施形態に係る選択テーブルの例を示すデータである。本発明の第３の実施形態に係る情報処理システムの構成を示すブロック図である。本発明の第３の実施形態に係る適性データの一例を示す表である。入力データ、処理結果データの情報量とクラウド処理の適性の一例を示す表である。本発明の第３の実施形態に係る情報処理の制御例を示すフローチャートである。本発明の第４の実施形態に係る情報処理システムの構成を示すブロック図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音声処理システム１の構成を示すブロック図である。
音声処理システム１は、第１音声処理装置１０、第２音声処理装置２０、及び収音部３０を含んで構成される。第１音声処理装置１０と第２音声処理装置２０とは、ネットワーク５０で接続され、相互にデータが送受信可能である。

第１音声処理装置１０は、収音部３０から取得した音声信号について第１の音声認識データを用いて音声認識を行って第１のテキストデータを生成し、第２音声処理装置２０から第２のテキストデータを受信する。また、第１音声処理装置１０は、自装置の使用環境に応じて第１のテキストデータと第２のテキストデータのいずれかを選択する。
使用環境には、例えば、第１音声処理装置１０で実行されるアプリケーションソフトウェア（以下、単に「アプリケーション」と呼ぶ）、第１音声処理装置１０が利用される空間における騒音、残響等の状態、第２音声処理装置２０とのデータの送受信に係る通信路やその状態、等がある。
第１音声処理装置１０は、例えば、多機能携帯電話機（いわゆるスマートフォンを含む）、タブレット端末装置、パーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の端末装置である。

第２音声処理装置２０は、第１音声処理装置１０で取得された音声信号について第１の音声認識データよりも汎用性が高い第２の音声認識データを用いて音声認識を行って第２のテキストデータを生成し、生成したテキストデータを第１音声処理装置１０に送信する。
第２音声処理装置２０は、例えば、ウェブサーバ、データベースサーバ、等のサーバ装置である。

収音部３０は、自部に到来した音を収集し、収集した音に基づくＭ（Ｍは、１以上の整数）チャネルの音声信号を生成する。収音部３０は、例えば、Ｍ個のマイクロホンを備えたマイクロホンアレイである。収音部３０は、生成した音声信号を第１音声処理装置１０に送信する。収音部３０は、生成した音声信号を無線で送信してもよいし、有線で送信してもよい。収音部３０は、第１音声処理装置１０と一体化されていてもよいし、別体であってもよい。

ネットワーク５０は、例えば、インターネット、公衆無線通信網（ＰＬＭＮ：ＰｕｂｌｉｃＬａｎｄＭｏｂｉｌｅＮｅｔｗｏｒｋ）等の広域通信網（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、構内通信網（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、専用回線、等、いずれであってもよい。

（第１音声処理装置）
次に、第１音声処理装置１０の構成について説明する。
第１音声処理装置１０は、音声信号取得部１１０、前処理部１１１、第１音声認識ＤＢ（Ｄａｔａｂａｓｅ、データベース）１１５、第１音声認識部１１６、制御部１１７、及び通信部１２０を含んで構成される。

音声信号取得部１１０は、収音部３０から入力されたＭチャネルの音声信号を前処理部１１１に出力する。音声信号取得部１１０は、例えば、データ入出力インタフェースである。
前処理部１１１は、音声信号取得部１１０から入力された音声信号について前処理を行い、前処理により得られた前処理データ（例えば、音響特徴量データ）を第１音声認識部１１６に出力する。前処理部１１１は、音源定位部１１２、音源分離部１１３、および特徴量算出部１１４を含んで構成される。

音源定位部１１２は、音声信号取得部１１０から入力されたＭチャネルの音声信号に基づいて音源毎の方向を予め定めた長さの時間（例えば、５０ｍｓ）毎に算出する。音源定位部１１２は、音源方向の算出において、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いる。ＭＵＳＩＣ法については、後述する。音源定位部１１２は、算出した音源毎の音源方向を示す音源方向情報とＭチャネルの音声信号を音源分離部１１３に出力する。

音源分離部１１３には、音源定位部１１２からＭチャネルの音声信号と音源方向情報が入力される。音源分離部１１３は、Ｍチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音源別音声信号に分離する。音源分離部１１３は、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。ＧＨＤＳＳ法については、後述する。音源分離部１１３は、分離した音源毎の音源別音声信号を特徴量算出部１１４に出力する。

特徴量算出部１１４は、音源分離部１１３から入力された音源毎の音源別音声信号について音声信号の物理的特徴を示す音響特徴量を所定の時間間隔（例えば、１０ｍｓ）で算出する。音響特徴量は、例えば、１３次のメルスケール対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ｓｃａｌｅＬｏｇａｒｉｔｈｍｉｃＳｐｅｃｔｒｕｍ）を含む。１セットの音響特徴量には、１３次のデルタＭＳＬＳやデルタパワーが含まれてもよい。デルタＭＳＬＳは、その時点におけるフレーム（現時刻）のＭＳＬＳから直前のフレーム（前時刻）のＭＳＬＳの差分である。デルタパワーは、現時刻のパワーから前時刻のパワーの差分である。音響特徴量は、これには限られず、例えば、メル周波数ケプストラム係数（ＭＦＣＣ：Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）であってもよい。特徴量算出部１１４は、算出した音響特徴量を第１音声認識部１１６及び通信部１２０に出力する。

第１音声認識ＤＢ１１５には、第１音声認識データとして音声認識処理に用いられる各種のデータが予め記憶されている。第１音声認識データは、例えば、音響モデル、言語モデル、及び単語辞書を含む。音響モデルは、音響特徴量から音素を認識する際に用いられるデータである。言語モデルは、互いに隣接する複数の音素からなる音素列から複数の単語のセットを認識する際に用いられるデータである。単語辞書は、認識結果となるテキストデータを形成する音素列の候補である単語を示すデータである。なお、音響モデルは、例えば、連続隠れマルコフモデル（ｃｏｎｔｉｎｕｏｕｓＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。連続ＨＭＭは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して表される。言語モデルは、例えば、ある音素に後続する音素からなる音素列の制約や、音素列毎の遷移確率を示すＮグラムである。

第１音声認識部１１６は、特徴量算出部１１４から入力された音響特徴量について第１音声認識ＤＢ１１５に記憶された第１音声認識データを用いて音声認識処理を行い、発話内容を示す第１テキストデータを生成する。
第１音声認識部１１６は、音響特徴量について第１音声認識データのうち音響モデルを用いて音素を認識する。第１音声認識部１１６は、認識した音素の時系列からなる音素列について単語辞書を用いて単語を認識する。第１音声認識部１１６は、認識した単語からなる単語列について言語モデルを用いて発話内容を示す文章を認識する。第１音声認識部１１６は、認識した発話内容を示す第１テキストデータを生成し、生成した第１テキストデータを制御部１１７に出力する。

制御部１１７は、第１音声処理装置１０が行う種々の処理を制御する。例えば、第１テキストデータで指示されたアプリケーションを実行して、第１音声処理装置の機能を発揮する。かかる機能には、例えば、電子メール、文書編集、等における文書作成、現在地から目的地までの経路探索（ナビゲーション）、音楽や映像等の各種のコンテンツの再生、等がある。即ち、第１テキストデータには、文書作成に用いられる単語、目的地の指示に用いられる単語（地名、等）、再生対象のコンテンツ（表題、等）、文章を形成する単語、等、主に動作の対象、目的となる単語が含まれることがある。以下の説明では、これらの単語や、それらの単語を含む文を「メッセージ」と総称する。また、第１テキストデータには、アプリケーションの各種の動作を制御するためのコマンドを示す単語、例えば、動作開始、終了、リセットが含まれることがある。以下の説明では、これらの単語や、それらの単語を含む文を「コマンド」と総称する。

制御部１１７は、第２音声処理装置２０からネットワーク５０及び通信部１２０を介して第２テキストデータを受信する。第２テキストデータにも、メッセージ又はコマンドが含まれる。制御部１１７は、その機能を実現する際、第１テキストデータと第２テキストデータのうちいずれを採用するかを、それらに含まれる単語の種別、例えば、メッセージであるかコマンドであるかに基づいて定める。
制御部１１７は、採用すると判定したテキストデータに係る動作を実行する。例えば、制御部１１７は、第１テキストデータが示すコマンドに基づいてアプリケーションの実行を制御する。制御部１１７による実行制御の例については後述する。

通信部１２０は、他の機器との間で各種のデータを送受信する。通信部１２０は、特徴量算出部１１４から入力された音響特徴量を第２音声処理装置２０に送信する。通信部１２０は、第２音声処理装置２０から受信した第２テキストデータを制御部１１７に出力する。通信部１２０は、所定の通信規格、例えば、ＬＴＥ−Ａ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ−Ａｄｖａｎｃｅｄ）に準拠した無線通信インタフェースである。

（第２音声処理装置）
次に、第２音声処理装置２０の構成について説明する。
第２音声処理装置２０は、第２音声認識ＤＢ２１５、第２音声認識部２１６、データ抽出部２１８、及び通信部２２０を含んで構成される。

第２音声認識ＤＢ２１５には、第２音声認識データが予め記憶されている。第２音声認識データは、第１音声認識データと同様に音響モデル、言語モデル、及び単語辞書を含む。但し、第２音声認識データは、第１音声認識データよりも汎用性が高いデータである。汎用性が高いとは、例えば、次の（ｉ）−（ｉｉｉ）のいずれか、もしくは、それらの組を満たす状態である。

（ｉ）第２音声認識データに含まれる単語辞書は、第１音声認識データに含まれる単語辞書よりも語彙が豊富、網羅する分野が広範、のいずれかもしくは両者である。
（ｉｉ）第２音声認識データに含まれる言語モデルは、第１音声認識データに含まれる言語よりも長文の認識に対応できる。つまり、第２音声認識データに含まれる言語モデルを形成する最高次のＮグラムの次数が第１音声認識データよりも高い、同一の次数のＮグラムの種類が豊富、のいずれかもしくは両者である。Ｎグラムとは、Ｎ（Ｎは、１以上の整数）個の単語が同時に出現する確率を示すデータである。
（ｉｉｉ）第２音声認識データに含まれる音響モデルは、代表的もしくは平均的な音響環境（例えば、残響時間、騒音レベル、等）で学習された音響モデルであるのに対し、第１音声認識データに含まれる音響モデルは、第１音声処理装置１０が用いられる室内の音響環境に適応したものである。

第１音声認識モデルに含まれる音響モデルは、動作環境下で尤度を高くするように学習されたものであってもよい。そこで、第１音声処理装置１０は、例えば、音源分離部１１３から入力された音源毎の音声信号が、人間が発声した音声の区間を検出（音声区間検出、ＶＡＤ:ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）する音声判定部（図示せず）を備えてもよい。音声判定部は、音声信号のフレーム毎のパワーが、所定のパワーの閾値よりも高く、かつ、零交差数が所定の数（例えば、１秒当たり３００−１０００回）の範囲内である場合、その時点の音声信号のフレームを音声区間であると検出し、それ以外の場合、非音声区間であると判定する。零交差数とは、信号値が０を跨ぐ回数、つまり、負の値から正の値、もしくは正の値から負の値に変化する回数である。また、第１音声処理装置１０は、音声区間における認識結果である発話内容を示す第１テキストデータに基づいて尤度を高くするように音響モデルのパラメータである混合重み係数、平均値、共分散行列を調整する音響モデル学習部（図示せず）を備えてもよい。なお、音響モデルの学習は、第１音声処理装置１０に限られず、その他の機器で行われてもよい。

第２音声認識部２１６は、データ抽出部２１８から入力された音響特徴量について第２音声認識ＤＢ２１５に記憶された第２音声認識データを用いて音声認識処理を行う。第２音声認識部２１６で行われる音声認識処理は、第１音声認識部１１６と同様の手法であってもよい。第２音声認識部２１６は、発話内容を示す第２テキストデータを生成し、生成し第２テキストデータを通信部２２０に出力する。

データ抽出部２１８は、通信部２２０から入力された受信データから音響特徴量を抽出し、抽出した音響特徴量を第２音声認識部２１６に出力する。
通信部２２０は、他の機器、例えば、第１音声処理装置１０との間で各種のデータを送受信する。通信部２２０は、第１音声処理装置１０から受信した音響特徴量を含んだ受信データをデータ抽出部２１８に出力する。通信部２２０は、第２音声認識部２１６から入力された第２テキストデータを含んだ送信データを第１音声処理装置１０に送信する。通信部２２０は、例えば、通信インタフェースである。

（音源定位）
次に、音源定位の一手法であるＭＵＳＩＣ法について説明する。
音源定位部１１２は、予め所定の間隔（例えば、１°）に分布した音源方向ｄ毎の伝達関数が記憶されている記憶部を備える。音源定位部１１２は、各チャネルｍ（ｍは、１以上Ｍ以下の整数）までの伝達関数Ａ_{［ｄ］［ｍ］}（ω）を要素とする伝達関数ベクトルＤ（ｄ）を音源方向ｄ毎に生成する。ωは、角周波数を示す。

音源定位部１１２は、各チャネルｍの音響信号ｘ_ｍを所定のサンプル数からなるフレーム毎に周波数領域に変換して変換係数Ｘ_ｍ（ω）を算出し、算出した変換係数から式（１）に示す入力相関行列Ｒ_ｘｘを算出する。

式（１）において、Ｅ［…］は、…の期待値を示す。［Ｘ］は、各チャネルの変換係数を要素とするＭ次元のベクトルである。［…］^＊は、行列又はベクトルの共役を示す。
次に、音源定位部１１２は、入力相関行列Ｒ_ｘｘの固有値δ_ｉ及び固有ベクトルｅ_ｉを算出する。入力相関行列Ｒ_ｘｘ、固有値δ_ｉ、及び固有ベクトルｅ_ｉは、式（２）に示す関係を有する。

式（２）において、ｉは、１以上Ｍ以下の整数である。インデックスｉの順序は、固有値δ_ｉの降順である。
音源定位部１１２は、伝達関数ベクトルＤ（ｄ）と算出した固有ベクトルｅ_ｉに基づいて、式（３）に示す空間スペクトルＰ_ｓｐ（ｄ）を算出する。

式（３）において、Ｋは、検出可能な音源の個数（例えば、１）であり、Ｍよりも小さい予め定めた自然数である。
音源定位部１１２は、Ｓ／Ｎ比が予め定めた閾値（例えば、２０ｄＢ）よりも大きい周波数帯域における空間スペクトルＰ_ｓｐ（ｄ）の総和を拡張空間スペクトルＰ_ｅｘｔ（ｄ）として算出する。音源定位部１１２は、算出した拡張空間スペクトルＰ_ｅｘｔ（ｄ）の極大値をとる方向ｄを音源方向と定める。

なお、音源定位部１１２は、ＭＵＳＩＣ法に代えて、その他の手法を用いて音源方向を算出してもよい。音源定位部１１２は、例えば、一般化固有値分解（ＧＥＶＤ：ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎｖａｌｕｅ）−ＭＵＳＩＣ法、一般化特異値分解（ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ；ＧＳＶＤ−）ＭＵＳＩＣ法、重み付き遅延和ビームフォーミング法（ＷＤＳ−ＢＦ：ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法、等を用いてもよい。

（音源分離）
次に、音源分離の一手法であるＧＨＤＳＳ法について説明する。
ＧＨＤＳＳ法は、２つのコスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）として、分離尖鋭度（ＳｅｐａｒａｔｉｏｎＳｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（［Ｖ（ω）］）と幾何制約度（ＧｅｏｍｅｔｒｉｃＣｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（［Ｖ（ω）］）が、それぞれ低減するように分離行列Ｖ（ω）を適応的に算出する方法である。分離行列［Ｖ（ω）］は、音源定位部１１２から入力されたＭチャネルの音声信号［ｘ（ω）］＝［ｘ_１（ω），ｘ_２（ω），…，ｘ_Ｍ（ω）］^Ｔに乗じることによって、Ｓチャネルの音源毎の音声信号（推定値ベクトル）［ｕ’（ω）］＝［ｕ_１’（ω），ｕ_２’（ω），…，ｕ_Ｓ’（ω）］^Ｔを算出するために用いられる行列である。ここで、［…］^Ｔは、行列又はベクトルの転置を示す。

分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）は、それぞれ、式（４）、（５）のように表される。

式（４）、（５）において、｜｜…｜｜^２は、行列…のフロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）である。フロベニウスノルムとは、行列を構成する各要素値の二乗和（スカラー値）である。φ（［ｕ’（ω）］）は、音声信号［ｕ’（ω）］の非線形関数、例えば、双曲線正接関数（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔｆｕｎｃｔｉｏｎ）である。［…］^Ｈは、行列又はベクトルの共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。ｄｉａｇ［…］は、行列…の対角成分の総和を示す。従って、分離尖鋭度Ｊ_ＳＳ（［Ｖ（ω）］）は、音声信号（推定値）のスペクトルのチャネル間非対角成分の大きさ、つまり、ある１つの音源が他の音源として誤って分離される度合いを表す指標値である。
式（５）において、［Ａ（ω）］は、音源から各１つのマイクロホンまでの伝達関数を要素として有する伝達関数行列を示す。［Ｉ］は、単位行列を示す。従って、幾何制約度Ｊ_ＧＣ（［Ｖ（ω）］）とは、音声信号（推定値）のスペクトルと音声信号（音源）のスペクトルとの誤差の度合いを表す指標値である。

音源分離部１１３は、音源定位部１１２から入力されたＭチャネルの音声信号［ｘ（ω）］に分離行列［Ｖ（ω）］を乗じて、Ｓ個の音源のそれぞれに係る音源別音声信号［ｕ’（ω）］を算出する。

（実行制御）
次に、制御部１１７による実行制御の例について説明する。
上述したように第１テキストデータもしくは第２テキストデータに含まれる単語の種別には、コマンドとメッセージがある。
図２は、単語の種別とその例を示す図である。
メッセージには、例えば、音楽（曲名、出演者名、作曲家名、等）、メール（送受信される文、等）、目的地（地名、施設名、等）、などが含まれる。コマンドには、例えば、リセット、等の第１音声処理装置１０の機能や動作を指示する語である。一般的に、メッセージとして用いられる単語の方が、コマンドとして用いられる単語よりも多様であり、コマンドとして用いられる単語は限定されている。

図３は、単語の種別毎に採用すべきテキストデータとその優先度の例を示す優先テーブルである。
優先テーブルは、各単語の種別の単語（又はその区分）の例毎の第１テキストデータ、第２テキストデータ、それぞれの優先度を示すデータである。「×」印は採用不可を示す。「○」印は採用可を示す。「◎」印は、優先採用可を示す。優先採用可とは、採用可よりも優先して採用可能であることを意味する。つまり、優先採用可に係る単語と採用可に係る単語の両者が含まれる場合には、優先採用可に係る単語が採用される。制御部１１７には、優先テーブルを予め記憶させた記憶部を備え、優先テーブルを参照して第１テキストデータ、第２テキストデータのうち、採用すべきテキストデータを定めてもよい。

例えば、第２列の「コマンド」に係る単語については、第１テキストデータのみを採用し、第２テキストデータを採用しないことを示す。このことは、認識候補の単語の語彙が極めて限定され、必ずしも第２テキストデータを参照しなくてもよいためである。他方、第２〜第４列の「メッセージ」に属する単語は、いずれも第２テキストデータの採用が許容される。このことは、「コマンド」に係る単語よりも自由度が高いため、より語彙が豊富な第２音声認識データを用いて取得された第２テキストデータを採用することで、的確な認識結果を取得できる可能性が高くなるためである。

「メッセージ」に係る単語のうち、第３列の「音楽」に係る単語については、第２テキストデータを第１テキストデータよりも優先的に採用することを示す。通信状況により第２テキストデータを取得できない場合には、第１テキストデータが採用されることがある。かかる単語は、広範な分野に跨っていることがあり、第１テキストデータよりも、第２音声処理装置２０で取得された第２テキストデータの方が的確である可能性が高いためである。第４列の「メール」に係る単語については、第２テキストデータのみを採用し、第１テキストデータを採用しないことを示す。かかる単語は、ユーザが任意に発声したものであり、第１テキストデータの生成に用いた第１音声認識データでは語彙が不足することがあるからである。第５列の「目的地」に係る単語については、第１テキストデータを第２テキストデータよりも優先的に採用することを示す。ユーザが指示する目的地は、その行動（業務、生活習慣、等）により変化が少ない場合には、第１音声認識データを用いて取得された第１テキストデータで足りることが多く、第１音声認識部１１６で認識に失敗したときに第２テキストデータを採用すれば足りると考えられるためである。
なお、図３に示す優先テーブルの内容は例示であり、この内容には限られない。単語や単語の区分、その他、利用目的に応じて、その採否や優先度は任意に設定可能である。

図４は、本実施形態に係る制御部１１７における制御状態の状態遷移図の例を示す。
制御状態には、「コマンド待ち」の状態と、「メッセージ待ち」の状態がある。「コマンド待ち」とは、制御部１１７が、音声認識結果である第１テキストデータをコマンドとして待ち受ける動作状態である。制御部１１７は、「コマンド待ち」の間に入力された第１テキストデータをコマンドとして処理する。「メッセージ待ち」とは、制御部１１７が、音声認識結果である第１テキストデータ、第２テキストデータをコマンドとして待ち受ける動作状態である。制御部１１７は、「メッセージ待ち」の間に入力された第１テキストデータ、第２テキストデータを、図３に示す優先度でメッセージとして処理する。

図４に示す状態遷移は、「コマンド待ち」の状態を繰り返す経路ｐ１１、「コマンド待ち」の状態から「メッセージ待ち」の状態に遷移する経路ｐ１２、「メッセージ待ち」の状態を繰り返す経路ｐ２２、及び「メッセージ待ち」の状態から「コマンド待ち」の状態に遷移する経路ｐ２１を含む。

次に、状態遷移に係る処理について説明する。
図５は、本実施形態に係る状態遷移処理の一例を示すフローチャートである。
図５に示す例は、経路ｐ１１、ｐ１２に係る。
（ステップＳ１１１）制御部１１７の動作状態は「コマンド待ち」の状態である。なお、動作状態の初期値は、この「コマンド待ち」の状態であってもよいし、「メッセージ待ち」の状態であってもよい。その後、ステップＳ１１２に進む。
（ステップＳ１１２）制御部１１７は、音声信号取得部１１０にＭチャネルの音声信号が入力されたか（音声あり）否かを判定する。入力されたと判定された場合には（ステップＳ１１２ＹＥＳ）、ステップＳ１１３に進む。入力されていないと判定された場合には（ステップＳ１１２ＮＯ）、ステップＳ１１１に戻る。

（ステップＳ１１３）第１音声認識部１１６における音声認識処理と並行して、第２音声処理装置２０の第２音声認識部２１６は、第１音声処理装置１０から受信した音響特徴量について音声認識処理を行って第２テキストデータを生成する。その後、ステップＳ１１４に進む。
（ステップＳ１１４）制御部１１７は、第２テキストデータの第２音声処理装置２０からの受信を待機する（結果待ち）。その後、ステップＳ１１５に進む。

（ステップＳ１１５）制御部１１７は、受信した第２テキストデータに基づいてモード判定を行う。ここで、制御部１１７は、優先テーブルを参照して、第２テキストデータに「メッセージ」に係る単語が含まれているか否かを判定する。含まれていないと判定された場合には（ステップＳ１１５１）、ステップＳ１１１に戻る。含まれていると判定された場合には（ステップＳ１１５２）、ステップＳ１２１に進む。
（ステップＳ１２１）制御部１１７は、その動作状態を「メッセージ待ち」に遷移する。その後、図５に示す処理を終了する。

図６は、本実施形態に係る状態遷移処理の他の例を示すフローチャートである。
図６に示す例は、経路ｐ２１、ｐ２２に係る。
（ステップＳ１２１）制御部１１７の動作状態は「メッセージ待ち」の状態である。その後、ステップＳ１２２に進む。
（ステップＳ１２２）制御部１１７は、音声信号取得部１１０にＭチャネルの音声信号が入力されたか（音声あり）否かを判定する。入力されたと判定された場合には（ステップＳ１２２ＹＥＳ）、ステップＳ１２３に進む。入力されていないと判定された場合には（ステップＳ１２２ＮＯ）、ステップＳ１２１に戻る。

（ステップＳ１２３）第１音声認識部１１６は、特徴量算出部１１４から入力された音響特徴量について音声認識処理を行って第１テキストデータを生成する。その後、ステップＳ１２４に進む。
（ステップＳ１２４）制御部１１７は、第１テキストデータの第１音声認識部１１６からの入力を待機する（結果待ち）。その後、ステップＳ１２５に進む。

（ステップＳ１２５）制御部１１７は、入力された第１テキストデータに基づいてモード判定を行う。ここで、制御部１１７は、優先テーブルを参照して、第１テキストデータに「コマンド」に係る単語が含まれているか否かを判定する。含まれていないと判定された場合には（ステップＳ１２５２）、ステップＳ１２１に戻る。含まれていると判定された場合には（ステップＳ１２５１）、ステップＳ１１１に進む。
（ステップＳ１１１）制御部１１７は、その動作状態を「コマンド待ち」に遷移する。その後、図６に示す処理を終了する。

以上に説明したように、本実施形態に係る第１音声処理装置１０は、入力された音声信号に第１音声認識データを用いて音声認識を行って第１テキストデータを生成する第１音声認識部１１６と、第２音声認識部２１６から第２テキストデータを受信する通信部１２０を備える。また、第１音声処理装置１０は、自装置の使用環境に応じて第１テキストデータと第２テキストデータのいずれかを選択する制御部１１７を備え、第２音声認識部２１６は、第１音声処理装置１０から受信した音声信号に第１音声認識データよりも汎用性が高い第２音声認識データを用いて音声認識を行って第２テキストデータを生成する。
この構成によれば、自装置で取得した第１テキストデータと、汎用性が高い音声認識データを用いて認識され、他装置から受信した第２テキストデータとのいずれかが自装置の使用環境に応じて選択される。そのため、自装置の使用環境に応じて他装置の処理資源を活用することで認識精度を向上することができる。

第１音声処理装置１０において、制御部１１７は、第１テキストデータ又は第２テキストデータに含まれる単語に基づいて第１テキストデータと第２テキストデータのいずれかを選択する。
この構成によれば、発話内容を形成する単語に応じて、より適切な音声認識データを用いて認識されたテキストデータが選択される。そのため、利用目的や分野に応じて適切な音声認識を行うことができる。

また、制御部１１７は、第１テキストデータを選択しているとき、第２テキストデータに含まれる単語に基づいて第２テキストデータを選択する否かを判定し、第２テキストデータを選択しているとき、第１テキストデータに含まれる単語に基づいて第１テキストデータを選択する否かを判定する。
この構成によれば、第１テキストデータと第２テキストデータのいずれを選択するかが、現在選択されていないテキストデータに基づいて判定される。そのため、利用目的や分野の変化に応じて適切なテキストデータを選択することで、認識精度を向上することができる。

（第２の実施形態）
以下、図面を参照しながら本発明の第２の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図７は、本実施形態に係る音声処理システム１Ａの構成を示すブロック図である。
音声処理システム１Ａは、第１音声処理装置１０Ａ、第２音声処理装置２０Ａ、及び収音部３０を含んで構成される。

第１音声処理装置１０Ａは、音声信号取得部１１０、前処理部１１１、第１音声認識ＤＢ１１５、第１音声認識部１１６、制御部１１７Ａ、選択部１１８Ａ、通信状態解析部１１９Ａ、及び通信部１２０を含んで構成される。
第２音声処理装置２０Ａは、前処理部２１１Ａ、第２音声認識ＤＢ２１５、第２音声認識部２１６、データ抽出部２１８、及び通信部２２０を含んで構成される。
前処理部２１１Ａは、音源定位部２１２Ａ、音源分離部２１３Ａ、及び特徴量算出部２１４Ａを含んで構成される。

（第１音声処理装置）
次に、第１音声処理装置１０Ａの構成について、主に第１音声処理装置１０（図１）との差異点に関して説明する。
音声信号取得部１１０は、Ｍチャネルの音声信号を前処理部１１１及び選択部１１８Ａに出力する。
音源定位部１１２は、上述した音声区間検出を行い、発話が検出された音声区間について、算出した音源方向を示す音源方向情報とＭチャネルの音声信号を音源分離部１１３及び選択部１１８Ａに出力する。
音源分離部１１３は、分離した音源別音声信号を特徴量算出部１１４及び選択部１１８Ａに出力する。第１音声処理装置１０には、通例、一度に１名のユーザの発話に係る音声信号が入力されるので、１チャネルの音源別音声信号が出力される。
特徴量算出部１１４は、算出した音響特徴量を第１音声認識部１１６及び選択部１１８Ａに出力する。

制御部１１７Ａは、通信状態解析部１１９Ａから入力された通信状態情報に基づいて、第１音声認識部１１６から入力された第１テキストデータと第２音声処理装置２０Ａから受信した第２テキストデータのいずれかを選択する。ここで、制御部１１７Ａは、通信状態情報に基づいて第１音声認識部１１６を動作させるか否かを判定する。第１音声認識部１１６の動作を停止する場合には、制御部１１７Ａは、前処理部１１１が備える３階層の処理部である音源定位部１１２、音源分離部１１３及び特徴量算出部１１４のうち、どの階層の処理部まで動作させるかを判定する。言い換えれば、制御部１１７Ａは、動作させると判定した処理部よりも後段の処理部の動作を停止させる。制御部１１７Ａは、第１音声認識部１１６の動作を停止するか否か、ならびにどの階層の処理部まで動作させるかを示す選択情報を選択部１１８Ａに出力する。以下の説明では動作させる処理部のうち、最上位の階層を「動作階層」と呼ぶことがある。

選択部１１８Ａには、音声信号取得部１１０から（ｉ）Ｍチャネルの音声信号が、音源定位部１１２から（ｉｉ）音源方向情報ならびにＭチャネルの音声信号が、音源分離部１１３から（ｉｉｉ）音源別音声信号が、特徴量算出部１１４から（ｉｖ）音響特徴量が、入力されうる。
選択部１１８Ａは、制御部１１７Ａから入力された選択情報に基づいて、データの送信の要否、データを送信する場合には、自部に入力されるデータから送信すべきデータ（送信データ）を選択する。また、選択情報が動作階層を示す場合、選択部１１８Ａは、動作階層の処理部から入力されたデータを選択し、選択したデータを通信部１２０に出力する。
例えば、選択情報が動作させる処理部がないことを示す場合、選択部１１８Ａは（ｉ）Ｍチャネルの音声信号を、通信部１２０に出力する。また、選択情報が音源定位部１１２を示す場合、選択部１１８Ａは（ｉｉ）音源方向情報ならびにＭチャネルの音声信号を通信部１２０に出力する。選択情報が音源分離部１１３を示す場合（ｉｉｉ）音源別音声信号を、通信部１２０に出力する。選択情報が特徴量算出部１１４を示す場合（ｉｖ）音響特徴量を、通信部１２０に出力する。なお、選択情報が第１音声認識部１１６を動作させることを示す場合、選択部１１８Ａは（ｖ）送信データなし、と判定する。

通信状態解析部１１９Ａには、通信部１２０から入力された受信信号に基づいて第２音声処理装置２０との通信状態を解析する。通信状態は、例えば、帯域幅、遮断の程度、等である。上述の帯域幅は、必ずしも搬送波の周波数帯域の幅のみを意味するものではなく、実効通信レートもしくは実効通信レートと相関関係がある通信品質の指標も意味する。遮断は、必ずしも信号（パケット）の欠落や、基地局装置からの電波が到達しない、もしくは微弱な状態（圏外）のみを意味するものではない。遮断は、一定時間間隔の送受信が期待される音声信号の受信時刻の揺らぎや、揺らぎや伝送誤りに起因する欠落と相関関係がある通信品質も意味する。これらの通信状態の指標値として、例えば、搬送波の電界強度、信号対干渉雑音比（ＳＩＮＲ：Ｓｉｇｎａｌ−ｔｏ−ｉｎｔｅｒｆｅｒｅｎｃｅ−ｐｌｕｓ−ｎｏｉｓｅｒａｔｉｏ）、呼損率、総合音声伝送品質率（Ｒ値）、等のいずれか、もしくはそれらの組み合わせが通信状態の判定に用いられてもよい。通信状態解析部１１９Ａは、解析した通信状態を示す通信状態情報を制御部１１７Ａに出力する。

（第２音声処理装置）
次に、第２音声処理装置２０Ａの構成について、主に第２音声処理装置２０（図１）との差異点に関して説明する。
第２音声処理装置２０Ａは、前処理部２１１Ａ、第２音声認識ＤＢ２１５、第２音声認識部２１６、データ抽出部２１８、及び通信部２２０を含んで構成される。

前処理部２１１Ａは、音源定位部２１２Ａ、音源分離部２１３Ａ、及び特徴量算出部２１４Ａを含んで構成される。
音源定位部２１２Ａは、データ抽出部２１８から入力されたＭチャネルの音声信号に基づいて音源毎の方向を算出する。音源定位部２１２Ａが音源方向を算出する手法は、音源定位部１１２と同様であってもよい。音源定位部２１２Ａは、算出した音源毎の音源方向を示す音源方向情報とＭチャネルの音声信号を音源分離部２１３Ａに出力する。
音源分離部２１３Ａは、データ抽出部２１８又は音源定位部２１２Ａから音源方向情報とＭチャネルの音声信号が入力される。音源分離部２１３Ａは、Ｍチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音源別音声信号に分離する。音源分離部２１３Ａが音源分離を行う手法は、音源分離部１１３と同様であってもよい。音源分離部２１３Ａは、分離した音源毎の音源別音声信号を特徴量算出部２１４Ａに出力する。

特徴量算出部２１４Ａは、データ抽出部２１８から入力された音源毎の音源別音声信号又は音源分離部１１３から入力された音源毎の音源別音声信号について音響特徴量を所定の時間毎に算出する。特徴量算出部２１４Ａが算出する音響特徴量は、特徴量算出部１１４と同じ種類の音響特徴量であってもよい。なお、特徴量算出部２１４Ａが算出する音響特徴量は、第２音声認識データを形成する音響モデルに係る音響特徴量と同じ種類及び同じ次数の音響特徴量であれば、特徴量算出部１１４が算出する音響特徴量とは異なってもよい。
特徴量算出部２１４Ａは、算出した音響特徴量を第２音声認識部２１６に出力する。
第２音声認識部２１６は、特徴量算出部２１４Ａから入力された音響特徴量、又はデータ抽出部２１８から入力された音響特徴量について第２音声認識ＤＢ２１５に記憶された第２音声認識データを用いて音声認識処理を行う。

（選択処理）
次に、制御部１１７Ａが行う選択処理の例について説明する。
制御部１１７Ａは、通信状態情報と選択情報とを対応付けて形成される選択データを記憶させた記憶部を備える。制御部１１７Ａは、選択データを参照して、通信状態解析部１１９Ａから入力された通信状態情報に対応する選択情報を読み取る。制御部１１７Ａは、読み取った選択情報が示す処理部の動作の要否を判定し、動作要と判定した処理部を動作させ、動作否と判定した処理部の動作を停止する。選択部１１８Ａは、選択情報に基づいて送信すべき送信データを判定し、判定した送信データを、通信部１２０を介して第２音声処理装置２０Ａに送信する。

図８は、本実施形態に係る選択テーブルの例を示すデータである。
選択テーブルの第１列、第２列、第３列は、それぞれ通信状態情報、選択情報（動作させる処理部）、選択情報に基づいて指示される送信データを示す。選択テーブルにおいて、送信データは必須ではないが、説明の便宜のために図示している。
通信状態情報のうち、帯域１とは、予め定めた帯域幅の閾値１よりも広い帯域幅で通信可能であることを示す。帯域１は、例えば、Ｍチャネルの音声信号を送受信するのに十分な通信容量である。帯域２は、帯域幅の閾値１以下の帯域幅であって、予め定めた帯域幅の閾値２よりも広い帯域幅で通信可能であることを示す。帯域２は、例えば、１チャネルの音声信号を間欠的に送受信するのに十分な通信容量である。帯域３は、帯域幅の閾値２以下の帯域幅であって、予め定めた帯域幅の閾値３よりも広い帯域幅で通信可能であることを示す。帯域３は、例えば、１チャネルの音声信号に係る音響特徴量を間欠的に送受信するのに十分な通信容量である。

通信状態情報のうち遮断１とは、遮断の頻度が予め定めた遮断の頻度の閾値１よりも少ないことを示す。遮断１は、例えば、各種のデータを十分に安定して送受信できることを示す。遮断２は、遮断の頻度がその閾値１以上であって、予め定めた遮断の頻度の閾値２よりも少ないことを示す。遮断２は、例えば、間欠的に遮断が生ずるが発話内容等の情報の伝達に支障を生じない程度に遮断が発生することを示す。遮断３は、遮断の頻度がその閾値２以上、又はデータの送受信ができないことを示す。
従って、図８に示す例は、第２行から下方に向かうほど通信状態情報が示す通信状態が劣り、通信状態が劣るほど、制御部１１７Ａは、第１音声処理装置１０Ａにおいて動作させる処理部の数を多くし、送信データの情報量を少なくすることを示す。言い換えれば、制御部１１７Ａは、通信状態が良好なほど第１音声処理装置１０Ａにおいて動作させる処理部の数を少なくし、送信データの情報量を多くすることで、第２音声処理装置２０Ａの処理資源（リソース）をより活用することを示す。

図８の第２行では、帯域１、遮断１を示す通信状態情報に、前処理部１１１において動作させる処理部がないことを示す選択情報が対応付けられている。この場合、選択部１１８Ａは、送信データとして（ｉ）Ｍチャネルの音声信号を、通信部１２０を介して第２音声処理装置２０に送信する。かかる通信状態は、帯域幅が十分に広く安定している場合に相当し、例えば、第１音声処理装置１０Ａと第２音声処理装置２０Ａとが光回線のように大容量の有線で接続されているときに生じることがある。この構成により、制御部１１７Ａは、第２音声処理装置２０Ａに対して、Ｍチャネルの音声信号に基づく音源定位、音源分離、音響特徴量の算出、音声認識処理を第２音声処理装置２０Ａに実行させることができる。従って、第２音声処理装置２０Ａにおける豊富なデータ、処理量等の処理資源を活用して、高精度の音声認識を実現することができる。また、制御部１１７Ａは、音声信号取得部１１０よりも後段の音源定位部１１２、音源分離部１１３、特徴量算出部１１４及び第１音声認識部１１６の動作を停止することで、第１音声処理装置１０Ａにおける処理量を低減することができる。

図８の第３行では、帯域１、遮断２を示す通信状態情報に、音源定位部１１２まで動作させることを示す選択情報が対応付けられている。この場合、選択部１１８Ａは、送信データとして（ｉｉ）音源方向情報ならびにＭチャネルの音声信号を第２音声処理装置２０に送信する。かかる通信状態は、帯域幅が十分に広いが、間欠的に遮断が生じる場合に相当し、例えば、第１音声処理装置１０Ａと第２音声処理装置２０Ａとが無線で接続され、第１音声処理装置１０Ａが走行する車両に設置され、基地局装置に十分に近接しているときに生じることがある。ここで、音源方向情報は、音声信号情報は音声信号よりも格段に情報量が少ないので、音源方向情報の付加は通信品質に影響を与えない。また、（ｉｉ）音源方向情報ならびにＭチャネルの音声信号は、間欠的に生じる発話時に生成されるので、常に生じる（ｉ）Ｍチャネルの音声信号よりも情報量が少ないので、接続が確立したときに行われるデータの送受信が間欠的であることが許容される。
この構成により、制御部１１７Ａは、第２音声処理装置２０Ａに対して、音源分離、音響特徴量の算出、音声認識処理を第２音声処理装置２０Ａに実行させることができる。従って、第２音声処理装置２０Ａは音源定位を省略可能であるが、豊富な処理資源を活用して、高精度の音声認識を実現することができる。また、制御部１１７Ａは、音源定位部１１２よりも後段の音源分離部１１３、特徴量算出部１１４及び第１音声認識部１１６の動作を停止することで、第１音声処理装置１０Ａにおける処理量を低減することができる。但し、通信状態情報が帯域１、遮断１を示す場合よりも、処理量の低減の度合いが少ない。

図８の第４行では、帯域２、遮断２を示す通信状態情報に、音源定位部１１２から音源分離部１１３まで動作させることを示す選択情報が対応付けられている。この場合、選択部１１８Ａは、送信データとして（ｉｉｉ）音源別音声信号を送信する。かかる通信状態は、帯域幅が比較的狭く、間欠的に遮断が生じる場合に相当し、例えば、第１音声処理装置１０Ａと第２音声処理装置２０Ａとが無線で接続され、第１音声処理装置１０Ａが走行する車両に設置され、基地局装置から比較的離れているときに生じることがある。ここで、（ｉｉｉ）音源別音声信号は、間欠的に生じる発話時に生成されるので、接続が確立したときに行われるデータの送受信が間欠的であることが許容される。また、音源別音声信号は、ユーザの発話に係る１チャネルの音声信号であるため、Ｍチャネルの音声信号よりも帯域幅が狭くてもよい。
従って、制御部１１７Ａは、第２音声処理装置２０Ａに対して、音響特徴量の算出、音声認識処理を第２音声処理装置２０Ａに実行させることができる。従って、第２音声処理装置２０Ａは音源定位と音源分離を省略可能であるが、処理資源を活用して、高精度の音声認識を実現することができる。また、制御部１１７Ａは、音源分離部１１３よりも後段の特徴量算出部１１４及び第１音声認識部１１６の動作を停止することで、第１音声処理装置１０Ａにおける処理量を低減することができる。但し、通信状態情報が帯域１、遮断２を示す場合よりも、処理量の低減の度合いが少ない。

図８の第５行では、帯域３、遮断２を示す通信状態情報に、音源定位部１１２から特徴量算出部１１４まで動作させることを示す選択情報が対応付けられている。この場合、選択部１１８Ａは、送信データとして（ｉｖ）音響特徴量を送信する。かかる通信状態は、帯域幅がさらに狭く、間欠的に遮断が生じる場合に相当し、例えば、第１音声処理装置１０Ａと第２音声処理装置２０Ａとが無線で接続され、第１音声処理装置１０Ａが走行する車両に設置され、郊外等、基地局装置からさらに離れているときに生じることがある。ここで、（ｉｖ）音響特徴量は、間欠的に生じる発話時に生成されるので、接続が確立したときに行われるデータの送受信が間欠的であることが許容される。また、音響特徴量は、ユーザの発話に係る１チャネルの音声信号よりも情報量が少ないため、１チャネルの音声信号よりも帯域幅が狭くてもよい。
この構成により、制御部１１７Ａは、第２音声処理装置２０Ａに対して、音声認識処理を第２音声処理装置２０Ａに実行させることができる。従って、第２音声処理装置２０Ａにおける、汎用性が高い語彙に基づく高精度の音声認識を実現することができる。また、制御部１１７Ａは、特徴量算出部１１４よりも後段の第１音声認識部１１６の動作を停止することで、第１音声処理装置１０Ａにおける処理量を低減することができる。但し、通信状態情報が帯域２、遮断２を示す場合よりも、処理量の低減の度合いが少ない。

図８の第６行では、遮断３を示す通信状態情報に、第１音声認識部１１６を動作させることを示す選択情報が対応付けられている。この場合、前処理部１１１を構成する、３つの処理部、音源定位部１１２、音源分離部１１３、及び特徴量算出部１１４が動作する。選択部１１８Ａは（ｖ）送信データなし、と判定する。かかる通信状態は、第１音声処理装置１０Ａと第２音声処理装置２０Ａとの間でデータの送受信が不可能である場合に相当し、第１音声処理装置１０Ａが基地局装置からの電波が届かない圏外にある場合や、アンテナが設置されていないトンネルや地下にある場合に生じることがある。この場合、制御部１１７Ａは、第２音声処理装置２０Ａから第２テキストデータを取得することができず、音声認識結果として第１音声認識部１１６が生成した第１テキストデータのみを取得する。
第１音声認識部１１６は、第１音声認識データを用いて音声認識処理を行うため、語彙等が限定され、長文の認識精度が低下することがあるが、その音響環境に応じた音声認識、つまり、耐騒音性、耐残響特性の高い音声認識を実現することができる。なお、データの送受信が不要であるため、制御部１１７Ａは、通信部１２０の動作を停止することで処理量を低減することができる。

以上に説明したように、本実施形態に係る第１音声処理装置１０Ａにおいて、制御部１１７Ａは、第２音声認識部２１６との通信状態に基づいて第１音声認識部１１６を動作させるか否かを判定する。
この構成によれば、自装置の第１音声認識部１１６を動作させるか、第２音声認識部２１６で汎用性が高い音声認識データを用いて取得された第２テキストデータを受信するかが第２音声認識部２１６との通信状態に応じて選択される。そのため、第２音声認識部２１６との通信状態に応じて、その処理資源を活用することで認識精度を向上することができる。

また、第１音声処理装置１０Ａは、音声信号に前処理を行って第１音響特徴量を生成する前処理部１１１を備え、第１音声認識部１１６は、第１音響特徴量に基づいて第１テキストデータを生成する。また、前処理部１１１は、Ｌ（例えば、３）階層の階層処理部を備え、第ｌ（ｌは、１以上Ｌ以下の整数）階層処理部は、第ｌ階層データに第ｌ階層処理を行って第ｌ＋１階層データを生成し、第１階層データは前記音声信号であり、第Ｌ＋１階層データは、前記第１音響特徴量である。また、制御部１１７Ａは、通信状態に応じていずれの階層の階層処理部まで動作させるかを判定する。
この構成によれば、前処理部１１１を構成する階層処理部のうち動作すべき階層処理部の階層が、通信状態に応じて可変になる。そのため、第２音声認識部２１６に係る処理資源を活用する度合いを、通信状態に応じて適切に制御することができる。

また、第１音声処理装置１０Ａにおいて、Ｌは３であり、第１階層処理部は、複数チャネルの音声信号から音源毎の音源方向を算出する音源定位部１１２であり、第２階層処理部は、複数チャネルの音声信号を音源毎の音源別音声信号に分離する音源分離部１１３である。また、第３階層処理部は、音源別音声信号から音響特徴量を算出する特徴量算出部１１４である。
この構成により、前処理部１１１を構成する音源定位部１１２、音源分離部１１３及び特徴量算出部１１４のうち動作すべき処理部の階層が、通信状態に応じて可変になる。また、音源定位部１１２、音源分離部１１３、特徴量算出部１１４の順に生成されるデータの情報量が少なくなる。そのため、第２音声認識部２１６に係る処理資源を活用する度合いを、各部で生成されるデータの情報量に見合った通信状態に応じて制御することができる。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して、その説明を援用する。
上述した実施形態に係る音声処理システム１、１Ａは、主たる情報処理が音声認識である情報処理システムであるが、本実施形態に係る情報処理システム１Ｂは、複数種類の情報処理を行う情報処理システムである。
図９は、本実施形態に係る情報処理システム１Ｂの構成を示すブロック図である。
情報処理システム１Ｂは、第１情報処理装置１０Ｂ、第２音声処理装置２０、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理装置２５Ｂ、収音部３０、操作入力部３１Ｂ、表示部３２Ｂ、再生部３３Ｂを含んで構成される。

第１情報処理装置１０Ｂは、第１音声処理部１１Ｂ、第１音声合成部１３Ｂ、第１コンテンツ復号部１４Ｂ、第１電子メール処理部１５Ｂ、ユーザＩＦ（Ｉｎｔｅｒｆａｃｅ、インタフェース）部１６Ｂ、制御部１１７Ｂ、選択部１１８Ｂ及び通信部１２０を含んで構成される。第１情報処理装置１０Ｂは、例えば、携帯電話機（いわゆるスマートフォンを含む）、タブレット端末装置、パーソナルコンピュータ等の端末装置であってもよいし、車載用の音響機器であってもよい。以下の説明では、第１音声処理部１１Ｂ、第１音声合成部１３Ｂ、第１コンテンツ復号部１４Ｂ、第１電子メール処理部１５Ｂを第１情報処理部と総称することがある。また、第２音声処理装置２０、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理装置２５Ｂを第２情報処理装置と総称することがある。そして、第１情報処理部が主に行う情報処理を第１情報処理、第２情報処理装置が主に行う情報処理を第２情報処理と呼ぶことがある。

第１音声処理部１１Ｂは、収音部３０からユーザＩＦ部１６Ｂと選択部１１８Ｂを介して入力された音声信号を処理対象として音声認識処理を行い、第１テキストデータを生成する。第１音声処理部１１Ｂは、前処理部１１１、第１音声認識ＤＢ１１５及び第１音声認識部１１６に相当する構成を備える。第１音声処理部１１Ｂは、生成した第１テキストデータをユーザＩＦ部１６Ｂに出力する。ユーザＩＦ部１６Ｂの機能を実現するアプリケーションによっては、ユーザＩＦ部１６Ｂは、入力された第１テキストデータ又は第２音声処理装置２０からの制御部１１７Ｂを介して入力された第２テキストデータを表示部３２Ｂに出力する。表示部３２Ｂは、第１テキストデータ又は第２テキストデータが示す認識された発話内容を示すテキストを表示する。

第１音声合成部１３Ｂは、処理対象のテキストを示す対象テキストデータについてテキスト音声合成処理を行って第１音声信号を生成する。テキスト音声合成処理において、第１音声合成部１３Ｂは、例えば、フォルマント合成法を用いる。対象テキストデータは、ユーザＩＦ部１６Ｂから選択部１１８Ｂを介して入力される。第１音声合成部１３Ｂは、取得した対象テキストデータを選択部１１８Ｂに出力する。生成される音声信号が示す内容は、処理対象のテキストの内容と同様の内容を含む。第１音声合成部１３Ｂは、生成した第１音声信号をユーザＩＦ部１６Ｂに出力する。ユーザＩＦ部１６Ｂの機能を実現するアプリケーションによっては、ユーザＩＦ部１６Ｂは、入力された第１音声信号又は第２音声合成装置２３Ｂからの制御部１１７Ｂを介して入力された第２音声信号を表示部３２Ｂに出力する。再生部３３Ｂは、第１音声信号又は第２音声信号に基づいて処理対象のテキストの内容を発話内容として表す音声を再生する。

第１コンテンツ復号部１４Ｂは、処理対象のコンテンツ（対象コンテンツ）を示す対象コンテンツデータを復号し、対象コンテンツを示す第１音響信号を生成する。対象コンテンツは、例えば、楽曲や発話音声などの音響コンテンツである。対象コンテンツは、ユーザＩＦ部１６Ｂから選択部１１８Ｂを介して入力される表題（例えば、曲名、イベント名、等）、識別番号（例えば、コンテンツＩＤ（Ｉｄｅｎｔｉｆｉｅｒ））などのコンテンツ識別情報により指定される。ここで、ユーザＩＦ部１６Ｂは、第１音声処理部１１Ｂからの第１テキストデータ又は操作入力部３１Ｂからの操作信号に基づいてコンテンツ識別情報を生成する。コンテンツ識別情報は、例えば、対象コンテンツの表題や識別番号などの対象コンテンツを一意に特定することができるテキスト形式、またはその他のデータ形式で表わされる。第１コンテンツ復号部１４Ｂは、第１情報処理装置１０Ｂが予め記憶部（図示せず）に記憶されたコンテンツデータから、コンテンツ識別情報で識別される対象コンテンツデータを読み出す。記憶部は、第１情報処理装置１０Ｂが備える各種の記憶媒体により実現される。第１コンテンツ復号部１４Ｂは、コンテンツデータの復号において、コンテンツデータの生成に用いられた符号化方式に対応した所定の復号方式、例えば、ＭＰＥＧ−４ＡＡＣ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）を用いる。第１コンテンツ復号部１４Ｂは、生成した第１音響信号をユーザＩＦ部１６Ｂに出力する。ユーザＩＦ部１６Ｂの機能を実現するアプリケーションによっては、ユーザＩＦ部１６Ｂは、入力された第１音響信号又は第２コンテンツ復号装置２４Ｂからの制御部１１７Ｂを介して入力された第２音響信号を再生部３３Ｂに出力する。再生部３３Ｂは、第１音響信号又は第２音響信号に基づいて対象コンテンツの音声を再生する。なお、対象コンテンツは、映像やテキストなどの他の種類の情報が含まれ、再生部３３Ｂからの音声の再生と並行して表示部３２Ｂに表示されるようにしてもよい。

第１電子メール処理部１５Ｂは、ユーザＩＦ部１６Ｂから選択部１１８Ｂを介して入力されたコマンドデータが示すコマンドに基づいてメッセージの送信又は受信に係る処理を行う（電子メール）。第１電子メール処理部１５Ｂは、所定の受信用のプロトコルを用いて所定のメールサーバ（図示せず）から自装置宛のメッセージデータを取得する（電子メールの受信）。受信用のプロトコルとして、例えば、ＰＯＰ（ＰｏｓｔＯｆｆｉｃｅＰｒｏｔｏｃｏｌ）、ＩＭＡＰ（ＩｎｔｅｒｎｅｔＭｅｓｓａｇｅＡｃｃｅｓｓＰｒｏｔｏｃｏｌ）、などのプロトコルが利用可能である。ここで、第１電子メール処理部１５Ｂは、受信を示すコマンドデータが入力されるとき、通信部１２０を介してメールサーバにメッセージ要求情報を送信する。第１電子メール処理部１５Ｂは、その応答としてメールサーバから自装置（第１情報処理装置１０Ｂ）宛のメッセージデータを受信する。第１電子メール処理部１５Ｂは、受信したメッセージデータを第１電子メールデータとしてユーザＩＦ部１６Ｂに出力する。ユーザＩＦ部１６Ｂの機能を実現するアプリケーションによっては、ユーザＩＦ部１６Ｂは、入力された第１電子メールデータ又は第２電子メール処理装置２５Ｂからの制御部１１７Ｂを介して入力された第２電子メールデータを表示部３２Ｂに出力する。表示部３２Ｂは、第１電子メールデータ又は第２電子メールデータが示すメッセージを表示する。

なお、第１電子メール処理部１５Ｂは、所定の送信用のプロトコルを用いてメールサーバを介してコマンドデータで指定される送信先にメッセージデータを送信する（電子メールの送信）。送信用のプロトコルとして、例えば、ＳＭＰＴ（ＳｉｍｐｌｅＭａｉｌＴｒａｎｆｅｒＰｒｏｔｏｃｏｌ）、などのプロトコルが利用可能である。ここで、第１電子メール処理部１５Ｂは、ユーザＩＦ部１６Ｂから選択部１１８Ｂを介して入力された編集コマンドを示すコマンドデータと、編集に係るテキストデータとに基づいて送信対象のメッセージを示す送信メッセージデータを生成する。また、第１電子メール処理部１５Ｂは、送信と送信先を示すコマンドデータがユーザＩＦ部１６Ｂから選択部１１８Ｂを介して入力されるとき、生成した送信メッセージデータをメールサーバに通信部１２０を介して送信する。メールサーバは、送信先アドレスで指定される装置からメッセージデータを取得可能なメールサーバに、送信メッセージデータを送信する。コマンドデータ及び編集テキストデータとして、例えば、ユーザＩＦ部１６Ｂにおいて、その機能を実現するアプリケーションの実行により、操作入力部３１Ｂからの操作信号に基づいて生成されたデータが用いられてもよい。また、コマンドデータ及び編集テキストデータの生成に、第１音声処理部１１Ｂからの第１テキストデータ又は第２音声処理装置２０からの第２テキストデータが用いられてもよい。

ユーザＩＦ部１６Ｂは、ユーザの指示による各種の信号に基づいて実行すべき情報処理を選択する。ユーザの指示による各種の信号は、例えば、操作入力部３１Ｂから入力された操作信号である。例えば、ユーザＩＦ部１６Ｂは、表示部３２Ｂに表示されているアイコンの表示領域内の座標を示す操作信号が入力されるとき、そのアイコンに対応する情報処理を選択する。また、第１音声処理部１１Ｂが動作している場合には、収音部３０から入力された音声信号に基づいて生成された第１テキストデータが実行すべき情報処理を選択するために利用可能である。図９に示す例では、選択対象の情報処理は、音声認識、音声合成、コンテンツ復号、電子メールの受信である。音声認識、音声合成、コンテンツ復号、電子メールの受信は、それぞれ第１音声処理部１１Ｂ、第１音声合成部１３Ｂ、第１コンテンツ復号部１４Ｂ、第１電子メール処理部１５Ｂにおいて実行可能な情報処理である。ユーザＩＦ部１６Ｂは、選択した情報処理を示す選択情報を制御部１１７Ｂに出力する。なお、ユーザＩＦ部１６Ｂ又は制御部１１７Ｂは、選択された情報処理を実行する第１情報処理部の機能を実現するために、予め記憶部に記憶された所定のアプリケーションを読み出し、読み出したアプリケーションを起動してもよい。

また、ユーザＩＦ部１６Ｂは、ユーザの指示による各種の信号に基づいて、選択した情報処理を制御するための制御データや、処理対象となる対象データを取得する。制御データは、具体的には、コンテンツの復号に用いられるコンテンツ識別情報、電子メールの受信に用いられるコマンドデータである。対象データは、具体的には、音声認識に用いられる音声信号、音声合成に用いられるテキストデータ、電子メールの送信に用いられるテキストデータである。ユーザＩＦ部１６Ｂは、取得した制御データ及び対象データを選択部１１８Ｂに出力する。以下の説明では、制御データ及び対象データを入力データと総称し、第１情報処理又は第２情報処理によって得られるデータを処理結果データと総称することがある。例えば、収音部３０からの音声信号は、それぞれ第１音声処理部１１Ｂ、第２音声処理装置２０への入力データである。また、第１テキストデータ、第２テキストデータは、それぞれ第１音声処理部１１Ｂ、第２音声処理装置２０の処理結果データである。

なお、ユーザＩＦ部１６Ｂは、第１情報処理又は第２情報処理により生成された処理結果データを、その提示形態に応じた提示部に出力する。第２情報処理による処理結果データは、第２処理装置から通信部１２０と制御部１１７Ｂを介して受信される。例えば、ユーザＩＦ部１６Ｂは、第１音声処理部１１Ｂからの第１テキストデータ、第２音声処理装置２０からの第２テキストデータを表示部３２Ｂに出力する。また、ユーザＩＦ部１６Ｂは、第１音声合成部１３Ｂからの第１音声信号、第２音声合成装置２３Ｂからの第２音声信号を再生部３３Ｂに出力する。また、ユーザＩＦ部１６Ｂは、第１コンテンツ復号部１４Ｂからの第１音響信号、第２コンテンツ復号装置２４Ｂからの第２音響信号を再生部３３Ｂに出力する。また、ユーザＩＦ部１６Ｂは、第１電子メール処理部１５Ｂからの第１電子メールデータ、第２電子メール処理装置２５Ｂからの第２電子メールデータを表示部３２Ｂに出力する。

制御部１１７Ｂは、ユーザＩＦ部１６Ｂから入力された選択信号が示す情報処理について、クラウド処理を要するか否かを判定する。以下の説明では、クラウド処理とは、ネットワーク５０に接続された他の機器が実行する処理であって、自装置で実行可能な処理と同じ種類の処理を意味する。これに対し、自装置が行う処理をローカル処理と呼ぶ。本実施形態では、第１情報処理部が行う情報処理がローカル処理であり、第２情報処理部が行う情報処理がクラウド処理に相当する。第２情報処理部は、ネットワーク５０に接続された第２情報処理装置において備えられ、第１情報処理部と同じ種類の情報処理をより汎用性が高い条件で実行する。例えば、第１音声処理部１１Ｂが行う音声認識、第１音声合成部１３Ｂが行う音声合成、第１コンテンツ復号部１４Ｂが行うコンテンツデータの復号、第１電子メール処理部１５Ｂが行う電子メールの受信が、それぞれローカル処理に相当する。第２音声処理装置２０が行う音声認識、第２音声合成装置２３Ｂが行う音声合成、第２コンテンツ復号装置２４Ｂが行うコンテンツデータの復号、第２電子メール処理装置２５Ｂが行う電子メールの受信が、いずれもクラウド処理に相当する。

制御部１１７Ｂは、例えば、選択信号によりクラウド処理の実行が指示された場合にクラウド処理を要すると判定し、指示されない場合にクラウド処理を必ずしも要しないと判定する。制御部１１７Ｂは、選択信号により指示された条件が、第１情報処理部で実行不可能であって、第２情報処理部が実行可能である場合においてクラウド処理を要すると判定してもよい。例えば、コンテンツの復号処理に関しては、制御部１１７Ｂは、コンテンツ識別情報が示すコンテンツデータが第２コンテンツ復号装置２４Ｂが取得可能であって第１情報処理装置１０Ｂの記憶部に記憶されていないとき、クラウド処理を行うと判定してもよい。第２情報処理部における第２情報処理の実行可能な条件の汎用性の例については、後述する。また、制御部１１７Ｂは、制御部１１７Ａと同様に通信状態情報が示す通信状態が所定の通信状態よりも良好であるとき、クラウド処理を行い、所定の通信状態よりも劣るときクラウド処理を行わないと判定してもよい。

制御部１１７Ｂは、クラウド処理を必ずしも要しないと判定するとき、予め記憶部に記憶された適性データを参照して、ユーザＩＦ部１６Ｂから入力された選択信号が示す情報処理についてクラウド処理の適性を判定する。判定した適性が所定の適性の閾値と同等かそれよりも高い適性以上である場合、制御部１１７Ｂは、クラウド処理を行うと判定し、判定した適性が所定の適性の閾値未満である場合、クラウド処理を行わずローカル処理を行うと判定する。制御部１１７Ｂは、判定した処理がクラウド処理であるかローカル処理であるかを示す処理種別信号を選択部１１８Ｂに出力する。適性データについては後述する。

制御部１１７Ｂは、クラウド処理を行うと判定するとき、第２情報処理装置から通信部１２０を介して受信した処理結果データを受信し、処理結果データをユーザＩＦ部１６Ｂに出力する。また、制御部１１７Ｂは、処理結果データに基づいて第２情報処理装置からの応答状態を判定する。応答状態が所定の応答状態よりも劣る場合には、制御部１１７Ｂは、暫定処理を行ってもよい。応答状態の指標として、例えば、選択部１１８Ｂが第２情報処理装置に入力データの送信を開始してから、制御部１１７Ｂが、第２情報処理装置から当該入力データに対する処理結果データの受信が終了するまでに要する時間（ＴＡＴ：Ｔｕｒｎ−ａｒｏｕｎｄＴｉｍｅ）が利用可能である。制御部１１７Ｂは、例えば、入力データの送信開始時からの経過時間が所定時間（例えば、５秒）よりも大きくなっても処理結果データが取得されない場合、暫定処理を行う。暫定処理は、第２情報処理による処理結果データの受信が完了するまでに行われる一時的な処理である。暫定処理として、ユーザが認知可能な情報として音声信号、画像信号の一方又は両方を、それぞれユーザＩＦ部１６Ｂを介して再生部３３Ｂ、表示部３２Ｂに出力する。暫定処理においては、例えば、「あのー」、「ええと」、「少しお待ちください」などの対話の隙間を埋める発話（フィラー）、待ち受け音を示す音声信号、処理中である旨を示す画像を示す映像信号が利用可能である。なお、制御部１１７Ｂは、暫定処理として、所定のテキストデータについて第１音声合成部１３Ｂに音声合成を行わせてもよいし、所定のコンテンツデータについて第１コンテンツ復号部１４Ｂに復号させてもよい。暫定処理により、ユーザに対し待機中における退屈感を解消又は緩和させることができる。制御部１１７Ｂは、第２情報処理装置から処理結果データの受信が終了したとき、暫定処理を停止する。

選択部１１８Ｂは、制御部１１７Ｂから入力された処理種別信号に基づいて、ユーザＩＦ部１６Ｂから入力された入力データの出力先として第１情報処理部と第２情報処理装置のいずれかを選択する。選択部１１８Ｂは、処理種別信号がローカル処理を示す情報処理について、入力された入力データを第１情報処理部に出力し、処理種別信号がクラウド処理を示す情報処理について、当該入力データを第２情報処理装置に通信部１２０を介して送信する。これにより、第１情報処理部と第２情報処理部のいずれに当該情報処理を実行させるかが選択される。

操作入力部３１Ｂは、ユーザの操作入力に応じて操作信号を取得し、取得した操作信号をユーザＩＦ部１６Ｂに出力する。操作入力部３１Ｂは、例えば、マウス、タッチセンサ等を含んで構成される。操作入力部３１Ｂは、リモートコントローラ、携帯電話機等の外部機器からの操作信号を受信する入力インタフェースを含んで構成されてもよい。
表示部３２Ｂは、ユーザＩＦ部１６Ｂから入力された画像信号に基づく画像を表示する。表示部３２Ｂは、例えば、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等である。
再生部３３Ｂは、ユーザＩＦ部１６Ｂから入力された音声信号又は音響信号に基づく音声を再生する。再生部３３Ｂは、例えば、スピーカ等である。

次に、ネットワーク５０に接続された各装置について説明する。
第２音声合成装置２３Ｂは、第１情報処理装置１０Ｂから受信した対象テキストデータについて所定の音声合成方式を用いてテキスト音声合成処理を行って第２音声信号を生成する第２音声合成部（図示せず）を備える。第２音声合成部は、第１音声合成部１３Ｂよりも汎用性が高い条件として、例えば、より多くの言語ならびに話者特性の一方又は両方に適応した発話音声を示す第２音声信号を生成することができる。第２音声合成部は、生成した第２音声信号を第１情報処理装置１０Ｂに送信する。

第２コンテンツ復号装置２４Ｂは、コンテンツ識別情報で識別される対象コンテンツデータを復号する第２コンテンツ復号部（図示せず）を備える。第２コンテンツ復号装置２４Ｂは、種々のコンテンツデータが予め記憶された記憶部（図示せず）を備える。第２コンテンツ復号部は、第１コンテンツ復号部１４Ｂよりも汎用性が高い条件として、例えばよりも多様なコンテンツデータが利用可能である。第２コンテンツ復号部は、第１情報処理装置１０Ｂから受信したコンテンツ識別情報で識別される対象コンテンツデータを記憶部から読み出す。第２コンテンツ復号部は、読み出した対象コンテンツデータを、その符号化に用いられた符号化方式に対応する所定の復号方式を用いて復号し、対象コンテンツを示す第２音響信号を生成する。第２コンテンツ復号部は、生成した第２音響信号を第１情報処理装置１０Ｂに送信する。

第２電子メール処理装置２５Ｂは、第１情報処理装置１０Ｂから受信したコマンドデータが示すコマンドに基づいてメッセージの送信又は受信に係る処理を行う第２電子メール処理部（図示せず）を備える。第２電子メール処理部は、所定の受信用のプロトコルを用いて所定のメールサーバ（図示せず）から主に第１情報処理装置１０Ｂ宛のメッセージデータを取得する（電子メールの受信）。第２電子メール処理部は、第１電子メール処理部１５Ｂよりも汎用性が高い条件として、例えば、より過去に受信されたメッセージデータや、第１情報処理装置１０Ｂのユーザが利用する別個の電子機器宛のメッセージデータを取得可能である。第２電子メール処理部は、受信を示すコマンドデータが入力されるとき、メールサーバにメッセージ要求情報を送信し、その応答としてメールサーバから第１情報処理装置１０Ｂ宛のメッセージデータを受信する。第２電子メール処理部は、受信したメッセージデータを第２メッセージデータとして第１情報処理装置１０Ｂに送信する。

なお、第２電子メール処理部は、所定の送信用のプロトコルを用いてメールサーバを介して第１情報処理装置１０Ｂから受信したコマンドデータで指定される送信先にメッセージデータを送信する（電子メールの送信）。第２電子メール処理部は、第１情報処理装置１０Ｂから受信した編集コマンドを示すコマンドデータと、編集に係るテキストデータとに基づいて送信対象のメッセージを示す送信メッセージデータを生成する。また、第２電子メール処理部は、送信と送信先を示すコマンドデータが第１情報処理装置１０Ｂから受信するとき、生成した送信メッセージデータをメールサーバに送信する。メールサーバは、送信先アドレスで指定される装置からメッセージデータを取得可能な他のメールサーバに、送信メッセージデータを送信する。

なお、第２電子メール処理装置２５Ｂは、メールサーバと一体化した単一のサーバ装置として構成されてもよい。その場合には、当該メールサーバとの間の各種データの送受信が省略可能である。
また、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理装置２５Ｂは、それぞれ専用の装置であってもよいし、汎用のサーバ装置において所定のプログラムで指示される処理を実行することにより構成されてもよい。

（適性データ）
次に、制御部１１７Ｂにおいて、クラウド処理の適性の判定に用いられる適性データの一例について説明する。
図１０は、本実施形態に係る適性データの一例を示す表である。
図１０に示す例では、処理の種類毎に、「高」、「中」、「低」の３段階のいずれかの適性が与えられている。音声認識、音声合成、電子メール受信、コンテンツ復号のそれぞれについて、適性が「低」、「高」、「中」、「高」と与えられている。所定の適性の度合いが「中」である場合には、制御部１１７Ｂは、音声認識、音声合成、電子メール受信、コンテンツ復号のそれぞれについて、ローカル処理、クラウド処理、クラウド処理、クラウド処理を行うと判定する。

図１０に示すクラウド処理の適性は、第１情報処理装置１０Ｂが受信する処理結果データの情報量よりも第１情報処理装置１０Ｂから送信される入力データの情報量が少ないほど高い。つまり、処理結果データの伝送容量が下り帯域で伝送可能な伝送容量の範囲内であれば、処理結果データの情報量の入力データの情報量に対する比が小さいほどクラウド処理の適性が高い。図１１は、図１０に示すクラウド処理の適性を与える各処理に要する入力データの送信に要する上り帯域の帯域幅、処理結果データの受信に要する下り帯域の帯域幅の例を示す。このクラウド処理の適性の例は、第１情報処理装置１０Ｂに接続されるネットワーク５０を構成するアクセス回線では、一般に上り帯域よりも下り帯域の方が伝送容量が大きいことによる。例えば、通信部１２０が通信方式としてＬＴＥを用い、ネットワーク５０を構成する基地局装置からの電波の電界強度が十分に得られる場合、上り帯域、下り帯域の平均伝送容量は、それぞれ９Ｍｂｐｓ、２７Ｍｂｐｓである。図１１に示す例では、帯域幅として、「広」、「中」、「狭」の３段階のいずれかの指標が与えられている。音声認識については、音声信号を送信する上り帯域の帯域幅、テキストデータを受信する下り帯域の帯域幅は、それぞれ「広」、「狭」であるため、クラウド処理の適性として「低」が与えられる。音声合成については、テキストデータを送信する上り帯域の帯域幅、音声信号を受信する下り帯域の帯域幅は、それぞれ「狭」、「広」であるため、クラウド処理の適性として「高」が与えられる。電子メール受信については、コマンドデータを送信する上り帯域の帯域幅、メッセージデータを受信する下り帯域の帯域幅は、それぞれ「狭」、「中」であるため、クラウド処理の適性として「中」が与えられる。コンテンツデータについては、コンテンツ識別情報を送信する上り帯域の帯域幅、音響信号を受信する下り帯域の帯域幅は、それぞれ「狭」、「広」であるため、クラウド処理の適性として「高」が与えられる。

（情報処理）
次に、本実施形態に係る情報処理について説明する。
図１２は、本実施形態に係る情報処理の制御例を示すフローチャートである。
（ステップＳ２０１）制御部１１７Ｂは、ユーザＩＦ部１６Ｂから入力された選択信号が示す情報処理について、クラウド処理の要否を判定する。クラウド処理を要すると判定された場合（ステップＳ２０１ＹＥＳ）、ステップＳ２０３に進む。クラウド処理を必ずしも要しないと判定された場合（ステップＳ２０１ＮＯ）、ステップＳ２０２に進む。
（ステップＳ２０２）制御部１１７Ｂは、適性データを参照して、実行が指示された情報処理についてクラウド処理の適性を判定する。判定したクラウド処理の適性が所定の適性の閾値（例えば、「中」）以上である場合（ステップＳ２０２中以上）、ステップＳ２０３に進む。判定したクラウド処理の適性の度合いが所定の適性の閾値未満である場合（ステップＳ２０２低）、ステップＳ２０４に進む。

（ステップＳ２０３）制御部１１７Ｂは、クラウド処理を行うと判定する。ここで、制御部１１７Ｂは、選択部１１８Ｂに対してユーザＩＦ部１６Ｂから入力された入力データを第２情報処理装置に送信させる。これにより、第２情報処理装置は、第１情報処理装置１０Ｂから受信した入力データに基づく第２情報処理（クラウド処理）を開始する。その後、ステップＳ２０５に進む。
（ステップＳ２０４）制御部１１７Ｂは、ローカル処理を行うと判定する。ここで、制御部１１７Ｂは、選択部１１８Ｂに対してユーザＩＦ部１６Ｂから入力された入力データを第１情報処理部に出力させる。これにより、第１情報処理部は、選択部１１８Ｂから入力された入力データに基づく第１情報処理（ローカル処理）を開始する。その後、ステップＳ２０８に進む。

（ステップＳ２０５）制御部１１７Ｂは、第２情報処理装置からの応答状態として入力データの送信開始時刻からの経過時間を判定する。経過時間が、所定の経過時間の閾値を超えても第２情報処理装置から処理結果データが取得されない場合（ステップＳ２０５ＮＧ）、制御部１１７は、応答状態が劣ると判定し、ステップＳ２０６に進む。経過時間が、所定の経過時間の閾値以下の時間内に処理結果データが取得される場合（ステップＳ２０５ＯＫ）、制御部１１７は、応答状態が良好と判定し、暫定処理を行わずにステップＳ２０８に進む。
（ステップＳ２０６）制御部１１７Ｂは、暫定処理を開始する。その後、ステップＳ２０７に進む。
（ステップＳ２０７）制御部１１７Ｂは、ステップＳ２０３においてクラウド処理を開始させた場合、第２情報処理装置ら処理結果データを取得し、暫定処理を停止する。その後、ステップＳ２０８に進む。

（ステップＳ２０８）制御部１１７Ｂ又は第１情報処理部は、取得した処理結果データを、その提示形態に応じた提示部として表示部３２Ｂ又は再生部３３ＢにユーザＩＦ部１６Ｂを介して出力する。その後、図１２に示す処理を終了する。

なお、ステップＳ２０２において制御部１１７Ｂがクラウド処理を行うか否かを判定する際に用いられる適性の度合いの閾値は、第２情報処理装置との通信状態に応じて可変であってもよい。例えば、通信状態が良好なほど低く、通信状態が劣るほど高くてもよい。

以上に説明したように、本実施形態に係る第１情報処理装置１０Ｂにおいて、制御部１１７Ｂは、各情報処理に用いられる入力データの情報量と、当該情報処理により生成される処理結果データの情報量に基づいて第２情報処理装置（例えば、第２音声処理装置２０）が備える第２情報処理部（例えば、第２音声認識部２１６）に当該情報処理を行わせるか否かを判定する。
この構成により、ネットワークに接続された第２情報処理装置が備える第２情報処理部を有効に使用できる度合いが情報処理の種別により異なりうることに応じて、第２情報処理部の使用の可否が判定される。そのため、情報処理の種類毎に第２情報処理部を用いるか否かを的確に判定することができる。

また、本実施形態に係る第１情報処理装置１０Ｃにおいて、制御部１１７Ｂは、当該情報処理として音声認識を第１音声処理部１１Ｂに行わせ、当該情報処理として音声合成、コンテンツ復号及び電子メール受信を、それぞれ第２音声合成装置２３Ｂの音声合成部、第２コンテンツ復号装置２４Ｂのコンテンツ復号、第２電子メール処理装置２５Ｂの第２電子メール処理部に行わせる。
この構成により、音声合成、コンテンツ復号又は電子メール受信が、それぞれの情報処理の際に有効に使用可能な第２音声合成装置２３Ｂの音声合成部、第２コンテンツ復号装置２４Ｂのコンテンツ復号部又は第２電子メール処理装置２５Ｂの第２電子メール処理部において実行される。また、第２音声処理装置２０の第２音声処理部を有効に使用することができない音声認識が第１音声処理部１１Ｂで実行される。そのため、情報処理システム１Ｂ全体として有用性が向上する。

（第４の実施形態）
次に、本発明の第４の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図１３は、本実施形態に係る情報処理システム１Ｃの構成を示すブロック図である。
情報処理システム１Ｃは、第１情報処理装置１０Ｃ、第２音声処理装置２０、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理装置２５Ｂ、対話処理装置２６Ｃ、収音部３０、操作入力部３１Ｂ、表示部３２Ｂ、再生部３３Ｂ及びロボット３４Ｃを含んで構成される。また、収音部３０はロボット３４Ｃの頭部に設置され、再生部３３Ｂはロボット３４Ｃの正面に設置される。

ロボット３４Ｃは、第１情報処理装置１０Ｃから入力される動作計画データに基づいて動作する。ロボット３４Ｃは、例えば、頭部、２個の耳介部、胴体部、２個の上腕部、２個の下肢部を備え、各部を動作させる動作機構を備える人型ロボット又はキャラクターロボット（ロボットエージェント）である。動作機構は、電力が動力源として供給されることによって各部を動作させるモータを備える。２個の耳介部のそれぞれは、頭部の正面に対して左方、右方に設置されている。左方、右方に設置されている耳介部を、それぞれ左耳介部、右耳介部と呼ぶ。

第１情報処理装置１０Ｃは、第１音声処理部１１Ｂ、第１音声合成部１３Ｂ、第１コンテンツ復号部１４Ｂ、第１電子メール処理部１５Ｂ、ユーザＩＦ部１６Ｂ、動作計画生成部１８Ｃ、データＩＦ部１９Ｃ、制御部１１７Ｃ、選択部１１８Ｂ、通信部１２０、話速検出部１７２Ｃ及び音楽情報検出部１７３Ｃを含んで構成される。動作計画生成部１８Ｃは、全身方向計画生成部１８１Ｃ、全身動作計画生成部１８２Ｃ及び耳動作計画生成部１８３Ｃを含んで構成される。

第１情報処理装置１０Ｃの制御部１１７Ｃは、制御部１１７Ｂと同様の処理を行う他、ユーザＩＦ部１６Ｂから入力された選択信号が示す情報処理が対話処理である場合には、ユーザＩＦ部１６Ｂから入力された入力データを対話処理装置２６Ｃに通信部１２０を介して送信する。対話処理のための入力データとして、第１音声処理部１１Ｂからの処理結果データである第１テキストデータ又は第２音声処理装置２０からの処理結果データである第２テキストデータが用いられる。

対話処理装置２６Ｃは、第１情報処理装置１０Ｃからネットワーク５０を介して第１テキストデータ又は第２テキストデータを受信する。対話処理装置２６Ｃは、取得した第１テキストデータ又は第２テキストデータに対応する応答データを取得する。対話処理装置２６Ｃは、所定のキーワード情報と提示情報を予め記憶させておいた記憶部（図示せず）を備える。キーワード情報として、例えば、地名を示す位置情報、人名を示す個人情報、要求する情報の種別を示す種別情報が記憶される。情報の種別として、気象情報、交通情報などがある。また、提示情報として、キーワード情報及び種別情報に対応する応答情報、応答情報を代入して情報の種別毎の応答文を形成するための文型情報（テンプレート）などが記憶される。応答情報として、例えば、地域毎の気象情報、交通情報が記憶される。対話処理装置２６Ｃは、取得された第１テキストデータ又は第２テキストデータからキーワード情報と種別情報とを抽出する。対話処理装置２６Ｃは、抽出したキーワード情報及び種別情報に対応する応答情報と、種別情報に対応する文型情報をそれぞれ記憶部から読み出す。対話処理装置２６Ｃは、読み出した応答情報を文型情報に代入して応答文を示す応答データを生成する。対話処理装置２６Ｃは、生成した応答データを第１情報処理装置１０Ｃにネットワーク５０を介して送信する。対話処理装置２６Ｃは、例えば、検索サーバなどのウェブサーバである。その場合、ユーザＩＦ部１６Ｂは、アプリケーションとして所定のブラウザで指示される処理を実行することにより、その機能を実現してもよい。

第１情報処理装置１０Ｃが受信した応答データは、通信部１２０、制御部１１７Ｃを介して全身動作計画生成部１８２Ｃに入力される。また、当該応答データは、対象テキストデータとしてユーザＩＦ部１６Ｂ及び選択部１１８Ｂを介して第１音声合成部１３Ｂ又は第２音声合成装置２３Ｂに出力される。そのため、再生部３３Ｂからは、ユーザの発話によって収録された音声から音声認識によって認識された発話に対応する応答を表す合成音声が再生される。

本実施形態では、対話処理装置２６Ｃに送信される第１テキストデータ又は第２テキストデータの生成に用いられた音源別音声信号の音源と、その音源方向を示す音源を示す音源別音声信号に基づく第１テキストデータ又は第２テキストデータであるかを示す音源識別情報が付加されている。つまり、音源識別情報は、発話者とその方向を示す情報である。上述したように、音源別音源信号は、第１音声処理部１１Ｂの音源分離部１１３において生成され、音源方向は第１音声処理部１１Ｂの音源定位部１１２において算出される。そこで、制御部１１７Ｃは、第１テキストデータ又は第２テキストデータに付加された音源識別情報を検出し、検出した音源識別情報を全身方向計画生成部１８１Ｃに出力する。また、制御部１１７Ｃは、音源定位部１１２において生成される音源毎の音源方向を示す音源方向情報をユーザＩＦ部１６Ｂを介して取得し、取得した音源方向情報を耳動作計画生成部１８３Ｃに出力する。

話速検出部１７２Ｃは、第１音声合成部１３Ｂからの処理結果データである第１音声信号又は第２音声合成装置２３Ｂからの処理結果データである第２音声信号をユーザＩＦ部１６Ｂから取得する。話速検出部１７２Ｃは、取得した第１音声信号又は第２音声信号が示す音声の話速を所定の話速検出方法を用いて検出する。話速検出部１７２Ｃは、検出した話速を示す話速情報を生成し、生成した話速情報を全身動作計画生成部１８２Ｃに出力する。

音楽情報検出部１７３Ｃは、収音部３０からユーザＩＦ部１６Ｂを介して入力された音声信号が表す音楽に関する音楽情報を検出する。音楽情報検出部１７３Ｃは、音楽情報として、例えば、特開２０１１−１８０５９０号公報に記載の手法を用いて、その音楽を構成する拍（ビート）、音階、強度を検出する。音楽情報検出部１７３Ｃは、検出した音楽情報を全身動作計画生成部１８２Ｃに出力する。

動作計画生成部１８Ｃは、ロボット３４Ｃの動作を制御するための動作計画値を示す動作計画データを生成する。動作計画値は、ロボット３４Ｃを所定の動作形態で動作させるための動作機構への供給電力を示す値である。動作計画生成部１８Ｃは、動作計画データとして、以下に説明する全身方向計画データ、全身動作計画データ及び耳動作計画データを生成する。

全身方向計画生成部１８１Ｃは、制御部１１７Ｃから入力された音源識別情報に基づいてロボット３４Ｃの全身の方向を制御するための動作計画値を示す全身方向計画データを生成する。全身方向計画生成部１８１Ｃは、例えば、ロボット３４Ｃ全身の正面の方向を音源識別情報が示す音源方向に向けるために、下肢部を動作させるための全身方向計画データを生成する。全身方向計画生成部１８１Ｃは、生成した全身方向計画データをロボット３４ＣにデータＩＦ部１９Ｃを介して送信する。ロボット３４Ｃは、全身方向計画生成部１８１Ｃから受信した全身方向計画データが示す動作計画値で指示される供給電力を脚部の動作機構に供給する。よって、ロボット３４Ｃの下肢部は、その動作によりロボット３４Ｃの正面方向を音源である話者の方向に向ける。

全身動作計画生成部１８２Ｃは、対話処理装置２６Ｃから制御部１１７Ｃを介して応答データが入力される場合には、当該応答データが示すテキストデータに対応する全身動作計画データを生成する。第１情報処理装置１０Ｃの記憶部には、例えば、所定の音素列毎にロボット３４Ｃの構成の主要部である胴部、頭部及び上腕部の動作態様を与える動作計画値の時系列パターンを示す全身動作態様データを予め記憶させておく。全身動作計画生成部１８２Ｃは、入力された対象テキストデータが示す音素列を生成し、生成した音素列に含まれる音素列に対応する全身動作態様データを記憶部から読み取る。全身動作計画生成部１８２Ｃは、読み取った全身動作態様データが示す動作計画値の時系列パターンに係る話速を、話速検出部１７２Ｃから入力される話速情報が示す話速に調整する。全身動作計画生成部１８２Ｃは、話速を調整した動作計画値の時系列パターンを示す全身動作計画データを生成し、生成した全身動作計画データをロボット３４ＣにデータＩＦ部１９Ｃを介して送信する。ロボット３４Ｃは、全身動作計画生成部１８２Ｃから受信した全身動作計画データが示す動作計画値で指示される供給電力を上述した主要部の動作機構に供給する。よって、ロボット３４Ｃは、合成された音声の発話と同期し、かつその発話に応じた態様で動作する。

また、全身動作計画生成部１８２Ｃは、音楽情報検出部１７３Ｃから音楽情報が入力される場合には、当該音楽情報に対応する全身動作計画データを生成する。第１情報処理装置１０Ｃの記憶部には、例えば、音階と強度の所定の時系列毎にロボット３４Ｃの主要部の動作態様を与える動作計画値の時系列パターンを示す全身動作態様データをさらに記憶させておく。全身動作計画生成部１８２Ｃは、所定時間毎に入力された音楽情報が示す音階と強度の時系列に相当する音階と強度の時系列に対応する全身動作態様データを記憶部から読み取る。全身動作計画生成部１８２Ｃは、読み取った全身動作態様データが示す動作計画値の時系列パターンに係る拍間隔を、話速検出部１７２Ｃから入力される話速情報が示す拍の時系列で与えられる拍間隔に調整する。全身動作計画生成部１８２Ｃは、拍間隔を調整した動作計画値の時系列パターンを示す全身動作計画データを生成し、生成した全身動作計画データをロボット３４ＣにデータＩＦ部１９Ｃを介して送信する。ロボット３４Ｃは、全身動作計画生成部１８２Ｃから受信した全身動作計画データが示す動作計画値で指示される供給電力を上述した主要部の動作機構に供給する。よって、ロボット３４Ｃは、収録された音楽の拍と同期し、かつその旋律や強度に応じた態様で動作する。

耳動作計画生成部１８３Ｃは、制御部１１７Ｃから入力された音源方向情報に基づいてロボット３４Ｃの耳介部の方向を制御するための動作計画値を示す耳動作計画データを生成する。耳動作計画生成部１８３Ｃは、例えば、音源識別情報が示す音源方向がロボット３４Ｃの正面に対して左方である場合には、左耳介部の位置を所定の周期で変位させるための耳動作計画データを生成する。耳動作計画生成部１８３Ｃは、例えば、音源識別情報が示す音源方向がロボット３４Ｃの正面に対して右方である場合には、右耳介部の位置を所定の周期で変位させるための耳動作計画データを生成する。耳動作計画生成部１８３Ｃは、耳動作計画データをロボット３４ＣにデータＩＦ部１９Ｃを介して送信する。ロボット３４Ｃは、耳動作計画生成部１８３Ｃから受信した耳動作計画データが示す動作計画値で指示される供給電力を左耳介部又は右耳介部の動作機構に供給する。よって、音源方向がロボット３４Ｃの正面に対して左方である場合には、左耳介部が所定の周期で動作する。音源方向がロボット３４Ｃの正面に対して右方である場合には、右耳介部が所定の周期で動作する。音源として発話者の方向により近似する方向の耳介部が動作するため、発話者には自己の発話が受聴されているという心理的感覚が与えられる。

データＩＦ部１９Ｃは、動作計画生成部１８Ｃから入力された各種の動作計画データをロボット３４Ｃに出力する。データＩＦ部１９Ｃは、例えば、データ入出力インタフェースである。

以上に説明したように、本実施形態によれば、本実施形態に係る第１情報処理装置１０Ｃは、ロボット３４Ｃの動作を制御するための動作計画値を示す動作計画データを生成する動作計画生成部１８Ｃを備える。音源識別情報に基づいて生成された全身方向計画データにより、ロボット３４Ｃ全身の正面の向きを音源、例えば、発話者に向けることができる。音源方向情報に基づいて生成された耳動作計画データにより、ロボット３４Ｃの正面に対して音源、例えば、発話者の方向に近似する方に設置された耳介部を動作させることができる。音楽情報に基づいて生成された全身動作計画データにより、音楽に合わせてロボット３４Ｃの主要部を動作させることができる。また、応答データと話速情報に基づいて生成された全身動作計画データにより、発話者による発話に対する応答に合わせてロボット３４Ｃの主要部を動作させることができる。
そのため、ユーザは自己の発話に応じたロボット３４Ｃの動作に接することにより、興趣を得るとともに第１情報処理装置１０Ｃに対する発話の動機を維持することができる。

以上、図面を参照して本発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、制御部１１７は制御部１１７Ａと同様の処理を実行してもよいし、しなくてもよい。制御部１１７Ａは、第２テキストデータが選択される可能性がある場合に、通信状態情報に基づいて第１音声認識部１１６を動作させるか否かを判定する処理、音源定位部１１２、音源分離部１１３及び特徴量算出部１１４のうち、どの階層の処理部まで動作させるかを判定する処理を行う。第２テキストデータが選択される可能性がある場合とは、動作状態が「メッセージ待ち」の状態（図４）の場合である。

上述した前処理部１１１、２１１Ａが、それぞれ音源定位部１１２、２１２Ａ、音源分離部１１３、２１３Ａ及び特徴量算出部１１４、２１４Ａといった３階層の処理部を備える場合を例にしたが、これには限られない。前処理部１１１、２１１Ａの階層数は、２階層以下でもよいし、４階層以上でもよい。前処理部１１１、２１１Ａの階層数が４階層である場合には、音源分離部１１３、２１３Ａと特徴量算出部１１４、２１４Ａの間にそれぞれ残響抑圧部（図示せず）を含んでもよい。残響抑圧部は、入力された音源別音声信号について残響抑圧を行い、残響成分が抑圧された音源別音声信号を出力する。残響抑圧法として、例えば、スペクトラルサブトラクション（ｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ）法、ウィーナフィルタリング（Ｗｉｅｎｅｒｆｉｌｔｅｒｉｎｇ）法が利用可能である。
また、前処理部１１１、２１１Ａの階層数が１階層である場合には、それぞれ音源定位部１１２、２１２Ａ、音源分離部１１３、２１３Ａが省略されてもよい。

また、第２音声認識ＤＢ２１５には、Ｊ個（Ｊは、予め定めた２以上の整数）の第２音声認識データが予め記憶されていてもよい。Ｊ個の第２の音声認識データは、互いに異なる利用目的、分野の語彙の単語辞書を含む。その場合、制御部１１７、１１７Ａは、第１テキストデータ又は第２テキストデータに、ある利用目的、分野の単語が含まれる場合、その単語に対応した音声認識データをＪ個の第２の音声認識データから選択する。そして、制御部１１７、１１７Ａは、選択した音声認識データを示す音声認識データ指示情報を第２音声処理装置２０、２０Ａに送信する。第２音声処理装置２０、２０Ａの第２音声認識部２１６は、第１音声処理装置１０、１０Ａから受信した音声認識データ指示情報が示す音声認識データを用いて音声認識処理を行う。
この構成により、第２音声認識部２１６において、第１音声処理装置１０、１０Ａのユーザの発話に係る利用目的、分野に応じて複数の第２の音声認識データが使い分けることができる。

また、ネットワーク５０には、それぞれ異なる利用目的、分野の語彙の単語辞書を含んだ第２の音声認識データを用いて音声認識処理を行う第２音声認識部２１６を各１個備えた複数の第２音声処理装置２０、２０Ａが接続されていてもよい。その場合、制御部１１７、１１７Ａは、第１テキストデータ又は第２テキストデータに、ある利用目的、分野の単語が含まれる場合、その単語に対応した音声認識データを記憶した第２音声認識ＤＢ２１５を備えた第２音声処理装置２０、２０Ａを選択する。そして、制御部１１７は、第１音響特徴量を選択した第２音声処理装置２０に送信する。同様に、制御部１１７Ａは、（ｉ）Ｍチャネルの音声信号、（ｉｉ）音源方向情報ならびにＭチャネルの音声信号、（ｉｉｉ）音源別音声信号、（ｉｖ）音響特徴量のいずれかを、選択した第２音声処理装置２０Ａに送信する。制御部１１７、１１７Ａに選択された第２音声処理装置２０、２０Ａの第２音声認識部２１６は、第１音声処理装置１０、１０Ａから受信したデータに基づく音響特徴量について音声認識処理を行う。
この構成により、ネットワークに分散配置され、それぞれ異なる第２音声認識データを用いて音声認識処理を実行する第２音声処理装置２０、２０Ａが、第１音声処理装置１０、１０Ａのユーザの発話に係る利用目的、分野に応じて使い分けることができる。

また、上述したステップＳ１１２（図５）、Ｓ１２２（図６）において、制御部１１７、１１７Ａは、音源分離部１１３から出力された音源別音声信号について音声検出処理を行ってもよい。制御部１１７、１１７Ａは、音声検出処理において音声区間であると判定した場合、音声ありと判定し、音声区間ではないと判定したとき、音声なしと判定してもよい。

情報処理システム１Ｂ、１Ｃは、第２音声処理装置２０に代えて第２音声処理装置２０Ａを備えてもよい。その場合、第１情報処理装置１０Ｂ、１０Ｃは、通信状態解析部１１９Ａを備え、制御部１１７Ｂ、１１７Ｃは、制御部１１７Ａと同様に処理部の動作の要否を判定し、動作要と判定した処理部を動作させ、動作否と判定した処理部の動作を停止する。そして、選択部１１８Ｂは、選択部１１８Ａと同様に送信すべき送信データを判定し、判定した送信データを、通信部１２０を介して第２音声処理装置２０Ａに送信する。
また、第１情報処理装置１０Ｂ、１０Ｃに備えられる通信状態解析部１１９Ａは、第２音声処理装置２０の他、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理装置２５Ｂ、対話処理装置２６Ｃとの通信状態を解析してもよい。制御部１１７Ｂ、１１７Ｃは、解析された通信状態に基づいてクラウド処理の要否を判定してもよい。
第１情報処理装置１０Ｃは、ロボット３４Ｃと一体化され、単一のロボット３４Ｃとして構成されてもよい。また、ロボット３４Ｃは、操作入力部３１Ｂ、表示部３２Ｂの一方又は両方と一体化されてもよい。

また、上述した実施形態では、第２音声処理装置２０、２０Ａ、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理装置２５Ｂ及び対話処理装置２６Ｃがそれぞれ別個である場合を例にしたが、これには限られない。第２音声処理装置２０、２０Ａ、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理装置２５Ｂ及び対話処理装置２６Ｃの全部又はいずれかの組み合わせが一体化した単一のサーバ装置として構成されてもよい。また、第２音声処理装置２０、第２音声合成装置２３Ｂ、第２コンテンツ復号装置２４Ｂ、第２電子メール処理部又は対話処理装置２６Ｃの個数は、各１個に限らず、複数個であってもよい。

なお、上述した実施形態における第１音声処理装置１０、１０Ａ、もしくは第１情報処理装置１０Ｂ、１０Ｃの一部、例えば、音源定位部１１２、音源分離部１１３、特徴量算出部１１４、第１音声認識部１１６、制御部１１７、１１７Ａ、１１７Ｂ、１１７Ｃ、選択部１１８Ａ、１１８Ｂ、通信状態解析部１１９Ａ、第１音声処理部１１Ｂ、第１音声合成部１３Ｂ、第１コンテンツ復号部１４Ｂ、第１電子メール処理部１５Ｂ、ユーザＩＦ部１６Ｂ、話速検出部１７２Ｃ、音楽情報検出部１７３Ｃ、全身方向計画生成部１８１Ｃ、全身動作計画生成部１８２Ｃ、耳動作計画生成部１８３Ｃ、第２音声処理装置２０の一部、例えば、音源定位部２１２Ａ、音源分離部２１３Ａ、特徴量算出部２１４Ａ、第２音声認識部２１６、データ抽出部２１８をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、第１音声処理装置１０、１０Ａ、第１情報処理装置１０Ｂ、１０Ｃ、第２音声処理装置２０、２０Ａに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、上述した実施形態及び変形例における第１音声処理装置１０、１０Ａの一部、または全部を、第１情報処理装置１０Ｂ、１０Ｃの一部、または全部を、第２音声処理装置２０、２０Ａの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。第１音声処理装置１０、１０Ａ、第１情報処理装置１０Ｂ、１０Ｃ、第２音声処理装置２０、２０Ａの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１０、１０Ａ…第１音声処理装置、１０Ｂ、１０Ｃ…第１情報処理装置、１１Ｂ…第１音声処理部、１１０…音声信号取得部、１１１…前処理部、１１２…音源定位部、１１３…音源分離部、１１４…特徴量算出部、１１５…第１音声認識ＤＢ、１１６…第１音声認識部、１１７、１１７Ａ、１１７Ｂ、１１７Ｃ…制御部、１１８Ａ、１１８Ｂ…選択部、
１１９Ａ…通信状態解析部、１２０…通信部、１３Ｂ…第１音声合成部、１４Ｂ…第１コンテンツ復号部、１５Ｂ…第１電子メール処理部、１６Ｂ…ユーザＩＦ部、１８Ｃ…動作計画生成部、１８１Ｃ…全身方向計画生成部、１８２Ｃ…全身動作計画生成部、１８３Ｃ…耳動作計画生成部、１９Ｃ…データＩＦ部、２０、２０Ａ…第２音声処理装置、２１１Ａ…前処理部、２１２Ａ…音源定位部、２１３Ａ…音源分離部、２１４Ａ…特徴量算出部、２１５…第２音声認識ＤＢ、２１６…第２音声認識部、２１８…データ抽出部、２２０…通信部、２３Ｂ…第２音声合成装置、２４Ｂ…第２コンテンツ復号装置、２５Ｂ…第２電子メール処理装置、２６Ｃ…対話処理装置、３０…収音部、３１Ｂ…操作入力部、３２Ｂ…表示部、３３Ｂ…再生部、３４Ｃ…ロボット、５０…ネットワーク

Claims

入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理部と、
前記入力データに情報処理と同じ種類の情報処理を汎用性がより高い条件で実行可能な第２情報処理部が生成する第２処理結果データを受信可能な通信部と、
自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御部と、
を備える情報処理装置。
前記第１情報処理部は、入力された音声信号に第１音声認識データを用いて音声認識を行って第１テキストデータを生成する第１音声認識部であり、
前記第２情報処理部は、前記音声信号に前記第１音声認識データよりも汎用性が高い第２音声認識データを用いて音声認識を行って第２テキストデータを生成する第２音声認識部であり、
前記通信部は、前記第２音声認識部から前記第２テキストデータを受信可能であり、
前記制御部は、前記第１処理結果データとして前記第１テキストデータと前記第２処理結果データとして前記第２テキストデータのいずれかを選択する請求項１に記載の情報処理装置。
前記制御部は、前記第１テキストデータまたは前記第２テキストデータに含まれる単語に基づいて前記第１テキストデータと前記第２テキストデータのいずれかを選択する請求項２に記載の情報処理装置。
前記制御部は、前記第１テキストデータを選択しているとき、前記第２テキストデータに含まれる単語に基づいて前記第２テキストデータを選択する否かを判定し、前記第２テキストデータを選択しているとき、前記第１テキストデータに含まれる単語に基づいて前記第１テキストデータを選択する否かを判定する請求項２又は請求項３に記載の情報処理装置。
前記制御部は、前記第２音声認識部との通信状態に基づいて前記第１音声認識部を動作させるか否かを判定する請求項２から請求項４のいずれか一項に記載の情報処理装置。
前記音声信号に前処理を行って第１音響特徴量を生成する第１前処理部を備え、
前記第１音声認識部は、前記第１音響特徴量に基づいて前記第１テキストデータを生成し、
前記第１前処理部は、
Ｌ（Ｌは１以上の予め定めた整数）階層の階層処理部を備え、
第ｌ（ｌは１以上Ｌ以下の整数）階層処理部は、第ｌ階層データに第ｌ階層処理を行って第ｌ＋１階層データを生成し、第１階層データは前記音声信号であり、第Ｌ＋１階層データは、前記第１音響特徴量であり、
前記制御部は、前記通信状態に応じていずれの階層の階層処理部まで動作させるかを判定する請求項５に記載の情報処理装置。
Ｌは３であり、
第１階層処理部は、複数チャネルの音声信号から音源毎の音源方向を算出する音源定位部であり、
第２階層処理部は、前記複数チャネルの音声信号を前記音源毎の音源別音声信号に分離する音源分離部であり、
第３階層処理部は、前記音源別音声信号から音響特徴量を算出する特徴量算出部である請求項６に記載の情報処理装置。
前記制御部は、前記入力データの情報量と前記情報処理により生成される処理結果データの情報量に基づいて前記第２情報処理部に前記情報処理を行わせるか否かを判定する請求項１から請求項７のいずれか一項に記載の情報処理装置。
前記制御部は、前記情報処理として音声認識を前記第１情報処理部に行わせ、前記情報処理として音声合成、コンテンツ復号又は電子メール受信を前記第２情報処理部に行わせる請求項８に記載の情報処理装置。
第１情報処理装置と第２情報処理装置とを備える情報処理システムであって、
前記第１情報処理装置は、
入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理部と、
前記第２情報処理装置から第２処理結果データを受信可能な通信部と、
自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御部と、を備え、
前記第２情報処理装置は、
前記入力データに前記情報処理と同じ種類の情報処理を汎用性がより高い条件で実行して前記第２処理結果データを生成する第２情報処理部を備える、
情報処理システム。
情報処理装置における情報処理方法であって、
入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理過程と、
前記入力データに情報処理と同じ種類の情報処理を汎用性がより高い条件で実行可能な第２情報処理部が生成する第２処理結果データを受信可能な通信過程と、
自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御過程と、
を有する情報処理方法。
情報処理装置のコンピュータに、
入力データに所定の情報処理を行って第１処理結果データを生成する第１情報処理手順と、
前記入力データに情報処理と同じ種類の情報処理を汎用性がより高い条件で実行可能な第２情報処理部が生成する第２処理結果データを受信可能な通信手順と、
自装置の使用環境に応じて前記第１処理結果データと前記第２処理結果データのいずれかを選択する制御手順と、
を実行させるための情報処理プログラム。