JP6097048B2

JP6097048B2 - 端末装置、サーバ装置、音声処理方法、設定方法、音声処理システム

Info

Publication number: JP6097048B2
Application number: JP2012241255A
Authority: JP
Inventors: 滋典川合; コクセンチョン; ゾンシェンリュウ; ヨンフィーシム; スアホンネオ; 勝田　昇; 昇勝田
Original assignee: パナソニックオートモーティブシステムズアジアパシフィックカンパニーリミテッド
Priority date: 2012-10-31
Filing date: 2012-10-31
Publication date: 2017-03-15
Anticipated expiration: 2032-10-31
Also published as: JP2014093577A

Description

本発明は、音声処理技術に関し、特に音声処理のためのパラメータを設定する端末装置、サーバ装置、音声処理方法、設定方法、音声処理システムに関する。

映画やドラマ、スポーツ中継、音楽等のコンテンツ配信・配布技術は、コンテンツ提供事業者から一方向的になされており、一般的に、各視聴者の嗜好情報は加味されていない。しかしながら、コンテンツに対する視聴者の嗜好が反映されることが望まれる。これに対応するために、コンテンツ再生時の操作情報などで構成される嗜好データ等がネットワーク経由でサーバに転送され、サーバは、嗜好データを統計処理して、視聴者の属性ごとに付加価値情報が生成する。さらに、付加価値情報がされるように、コンテンツが再生される（例えば、特許文献１参照）。

特開２００２−２３２８２３号公報

音楽等を再生する際には、音声処理がなされる。音声処理を実行する際には、イコライザのタップ係数等のパラメータ（以下、「音声処理パラメータ」等）が設定されるが、この音声処理パラメータには、音楽を聴く条件およびユーザの嗜好が反映されることが望まれる。一方、音声処理パラメータの設定は、一般的に容易ではないので、設定の簡略化も望まれる。

本発明はこうした状況に鑑みてなされたものであり、その目的は、状況に適した音声処理パラメータを容易に設定する技術を提供することにある。

上記課題を解決するために、本発明のある態様の端末装置は、複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、サーバ装置から、いずれかの音声処理のパラメータの推薦を受けつける入力部と、入力部において受けつけた推薦に対応した音声処理のパラメータを設定することによって、音声処理を実行する音声処理部と、音声処理部が実行した音声処理に対するユーザの評価を受けつける受付部と、受付部において受けつけた評価をサーバ装置に報告する出力部とを備える。出力部から報告される評価は、よいあるいは悪いを少なくとも示しており、入力部は、出力部から報告される評価が悪いを示している場合に、サーバ装置から、別の音声処理のパラメータの推薦を新たに受けつけ、音声処理部は、入力部において新たに受けつけた推薦に対応した別の音声処理のパラメータを使用する。

本発明の別の態様は、サーバ装置である。この装置は、複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択する分析部と、分析部において選択した音声処理のパラメータを端末装置に推薦する出力部と、出力部による推薦に対応した音声処理のパラメータを使用して音声処理を実行した端末装置から、音声処理に対するユーザの評価を受けつける入力部とを備える。入力部において受けつけうる評価は、よいあるいは悪いを少なくとも示しており、分析部は、入力部において受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、出力部は、分析部が新たに選択した別の音声処理のパラメータを端末装置に推薦する。

本発明のさらに別の態様は、音声処理方法である。この方法は、複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、サーバ装置から、いずれかの音声処理のパラメータの推薦を受けつけるステップと、受けつけた推薦に対応した音声処理のパラメータを設定することによって、音声処理を実行するステップと、音声処理に対するユーザの評価を受けつけるステップと、受けつけた評価をサーバ装置に報告するステップとを備える。報告されるステップから報告される評価は、よいあるいは悪いを少なくとも示しており、推薦を受けつけるステップは、報告される評価が悪いを示している場合に、サーバ装置から、別の音声処理のパラメータの推薦を新たに受けつけ、音声処理を実行するステップは、新たに受けつけた推薦に対応した別の音声処理のパラメータを使用する。

本発明のさらに別の態様は、設定方法である。この方法は、複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択するステップと、選択した音声処理のパラメータを端末装置に推薦するステップと、推薦に対応した音声処理のパラメータを使用して音声処理を実行した端末装置から、音声処理に対するユーザの評価を受けつけるステップとを備える。受けつけるステップにおいて受けつけうる評価は、よいあるいは悪いを少なくとも示しており、選択するステップは、受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、推薦するステップは、新たに選択した別の音声処理のパラメータを端末装置に推薦する。

本発明のさらに別の態様は、音声処理システムである。この音声処理システムは、複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、いずれかの音声処理のパラメータを選択し、選択した音声処理のパラメータを推薦するサーバ装置と、サーバ装置による推薦に対応した音声処理のパラメータを使用して音声処理を実行するとともに、音声処理に対するユーザの評価を受けると、評価をサーバ装置に報告する端末装置とを備える。端末装置から報告される評価は、よいあるいは悪いを少なくとも示しており、サーバ装置は、受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、新たに選択した別の音声処理のパラメータを推薦する。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、状況に適した音声処理パラメータを容易に設定できる。

本発明の実施例１に係る音声処理システムの構成を示す図である。図１の端末装置の構成を示す図である。図２の音声処理パラメータ記憶部に記憶されるテーブルのデータ構造を示す図である。図１のサーバ装置の構成を示す図である。図４の端末情報データベースのデータ構造を示す図である。図４の端末情報データベースの別のデータ構造を示す図である。図１の音声処理システムによる再生手順を示すシーケンス図である。本発明の実施例２に係る端末装置の構成を示す図である。本発明の実施例３に係る車両の構成を示す図である。本発明の実施例３に係る端末装置の構成を示す図である。本発明の実施例３に係るサーバ装置の構成を示す図である。本発明の実施例３に係る音声処理システムによる再生手順を示すシーケンス図である。

（実施例１）
本発明の実施例１を具体的に説明する前に、基礎となった知見を説明する。本発明の実施例１は、自動車等の車両内に設置された音声の再生装置に対して、音声のチューニングを実行する音声処理システムに関する。音声のチューニングとは、周囲の環境に応じて音声の再生／録音を最適化することである。このような音声のチューニングは、音声キャリブレーション、音声等化、音声補償、音声訂正、音声最適化とも呼ばれる。音声のチューニングによって、より自然な音声、より現実的な音声、よりバランスのとれた音声、雑音が低減された音声、ユーザの好みに合った音声等が再生される。このような音声のチューニングは、一般的に、工場にてなされる。また、再生装置を販売している店舗、例えば、カーオーディオ店にてなされることもある。しかしながら、音声のチューニングは、一般ユーザによって難しいので、ユーザ宅において通常なされない。

音声のチューニング処理は、一般的に次のステップにてなされる。
（１）ハードウエアの構成／キャリブレーション
スピーカを追加したり、スピーカの位置を変えたりすることによって、スピーカ、増幅器、ケーブルが変更される。
（２）クロスオーバ
各スピーカに対して特定の周波数バンドを割り当てる。
（３）増幅率の設定
クリッピングを防止し、バランスを保つように、増幅器の各チャネルレベルを調節する。
（４）タイムアライメント
位相のミスマッチを修正するために各スピーカからの音声の遅延を調節する。
（５）等化
音色を調整するために、周波数応答を制御する。なお、等化は、主として次のふたつのタイプに分類される。ひとつ目は、補償のための等化（以下、「補償等化」という）である。装置あるいは環境の影響を受けて、ユーザに到達する前に、音声が変化する。補償等化は、装置と環境の影響を低減するように、周波数応答を操作するための処理である。ふたつ目は、人工的な等化である。上記のような補償がなされている場合であっても、音声が、ユーザの好みに合っていないこともある。人工的な等化は、ユーザの好みに音声を合わせるように、周波数応答を調整するための処理である。

音声のチューニングに関する課題は、例えば、次の通りである。ひとつ目の課題は、音声のチューニングの困難性である。音声のチューニングには、高度な技術と装置が求められる。高度な技術は、音声のバランス／音色／遅延／雑音レベルをチェックするために必要とされる。このようにユーザが満足するような音声を再現するためには、高度の技術が要求される。また、高度な装置として、インパルス生成機、マイクロホン、両耳の部分にマイクロホンを組み込んだ人頭型の録音装置、実時間音声分析器が必要とされる。ふたつ目の課題は、環境の特性の学習がなされないことである。音声のチューニングは、前述のごとく、出荷前に工場だけでなされ、出荷後に音声のチューニングを実行することはまれである。３つ目の課題は、人種、国籍、年齢、性別のようなユーザの特徴が区別されていないことである。例えば、高齢者は高周波数に対して敏感でないので、高周波数の増幅が必要とされる。一方、若い人は低音を強調した音を好む傾向にある。インド人は、道路においても大きな音で警笛をならすので、周波数領域を補償することが望ましい。ＶＩＰ車両において、ＶＩＰ座席に対して音声のチューニングがなされるべきである。

次に、本実施例の概略を説明する。本実施例では、車両内に再生装置と端末装置とが搭載されるとともに、車両外にサーバ装置が設置される。また、端末装置とサーバ装置とは、無線回線にて接続される。サーバ装置は、端末装置から、ユーザプロファイル等を受信して、ユーザプロファイル等をもとにユーザの好みを分析することによって、音声処理パラメータを選択する。なお、音声処理パラメータは、専門家によって予め複数用意されている。サーバ装置は、選択した音声処理パラメータの使用を端末装置に推薦する。端末装置は、推薦された音声処理パラメータを使用して音声処理を実行し、再生装置は、音声処理結果を再生する。これを聴いたユーザは、音声処理に対する評価として、「よい」あるいは「悪い」を端末装置に入力する。端末装置は、評価をサーバ装置に報告する。評価が「悪い」であれば、サーバ装置は、別の音声処理パラメータを選択し、これを端末装置に推薦し直す。

ここで、好みの傾向を分析するために、サーバ装置は、ユーザプロファイル、評価、音声内容のデータを使用する。ユーザプロファイルは、端末装置から初期段階において取得されており、例えば、ユーザの国籍、人種、年齢、種別等によって示される。評価は、音声処理パラメータの過去の処理結果、履歴を反映する。音声内容のデータは、ジャンル、アーティスト、題名を含む。分析は、ソフトウエアによって自動的になされるか、部分的に手動によってなされる。協調フィルタリング、コンテンツベースフィルタリング、ベイジアンネットワーク等が、傾向分析のために適用される。

推薦される音声処理パラメータは、ランキングスタイルにて示される。ユーザが、最も推薦される音声処理パラメータを「悪い」と評価すると、評価はサーバ装置に還元される。サーバ装置は、次の音声処理パラメータを端末装置に推薦する。ユーザは、気に入った音声処理パラメータを取得するまで、音声処理システムは、上記の処理が繰り返される。このように還元された評価は、ユーザの好みを学習するために使用され、データベースが更新される。

ひとつ目の課題に対して、高度の技術を有した専門家が、さまざまな環境あるいは好みに応じた音声処理パラメータを複数生成する。このような複数の音声処理パラメータは、複数のユーザによって共有される。特に、好みの傾向が近い複数のユーザによってグループが形成され、グループ内において音声処理パラメータが共有される。その結果、高度の技術を有さないユーザに対しても、環境あるいは好みに適した音声処理パラメータが提供可能になる。その際、ユーザの処理を簡易するために、ユーザは、「よい」あるいは「悪い」を入力するだけである。このように、簡易に迅速に、音声処理パラメータが設定される。ふたつ目の課題に対して、高度の技術を有した専門家によって、音声処理パラメータが追加されるとともに、これが使用される。その結果、出荷後であっても、音声のチューニングがなされる。３つ目の課題に対して、前述のグループが形成されることによって、グループの好みの傾向に応じた音声処理パラメータが設定される。その結果、ユーザの特徴を区別するための設定が簡易になされる。

図１は、本発明の実施例１に係る音声処理システム１００の構成を示す。音声処理システム１００は、サーバ装置１０、ネットワーク１２、基地局装置１４、端末装置２０、再生装置１８を含む。ここで、端末装置２０、再生装置１８は、車両１６に搭載される。ここでは、図を明瞭にするために、ひとつの再生装置１８、端末装置２０が示されているが、これらは複数存在してもよい。車両１６は、例えば、自動車である。再生装置１８は、車両１６に搭載され、音声データを再生する。以下では、「音声」と「音声データ」とを区別せずに使用し、これらには音楽も含まれる。再生装置１８は、例えば、カーオーディオ、ナビゲーション装置である。なお、再生装置１８と端末装置２０とはケーブル等によって接続されており、再生装置１８において再生される音声データは、端末装置２０から取得される。

端末装置２０は、音声処理の条件に関する情報（以下、「条件情報」という）を基地局装置１４へ送信する。条件情報には、例えば、車両１６において音声を聴くユーザのユーザプロファイル等が含まれる。条件情報は、最終的にサーバ装置１０へ送信される。端末装置２０は、基地局装置１４を介してサーバ装置１０から、音声処理パラメータの推薦を受けつける。端末装置２０は、サーバ装置１０による推薦に対応した音声処理パラメータを使用して音声処理を実行し、音声処理の結果を再生装置１８に再生させる。端末装置２０は、音声処理に対するユーザの評価を受けると、評価をサーバ装置１０に報告する。前述のごとく、評価は、「よい」あるいは「悪い」を少なくとも示す。評価が「悪い」場合、端末装置２０は、サーバ装置１０から別の音声処理パラメータを受けつける。

基地局装置１４は、一端側にて、ネットワーク１２を介してサーバ装置１０に接続され、他端側にて、無線回線を介して端末装置２０に接続される。基地局装置１４は、例えば、携帯電話システムの基地局装置に相当する。サーバ装置１０は、端末装置２０から、条件情報を受けつけ、条件情報を分析することによって、いずれかの音声処理パラメータを選択する。ここで、複数の端末装置２０のそれぞれにおいて使用されうる音声処理パラメータが複数規定されている。サーバ装置１０は、選択した音声処理パラメータを端末装置２０に推薦する。また、サーバ装置１０は、音声処理パラメータの推薦後、端末装置２０から、評価を受けつける。受けつけた評価が「悪い」を示している場合に、サーバ装置１０は、別の音声処理パラメータを新たに選択し、新たに選択した別の音声処理パラメータを端末装置２０に推薦する。

図２は、端末装置２０の構成を示す。端末装置２０は、通信部３０、入力部３２、音声処理パラメータ記憶部３４、音声処理部３６、出力部３８、受付部４０、プロファイル記憶部４２を含む。通信部３０は、図示しない基地局装置１４との間で無線通信を実行することによって、サーバ装置１０との間の通信を実行する。無線通信には、公知の技術が使用されればよく、例えば、携帯電話通信システム、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）システム、無線ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）システムが使用される。また、携帯電話通信システムとして、第３世代携帯電話システムが使用されてもよく、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）が使用されてもよい。

出力部３８は、条件情報を取得し、条件情報が格納されたユーザ情報ストリームを生成する。出力部３８は、ユーザ情報ストリームを通信部３０に出力する。ユーザ情報ストリームは、通信部３０から送信される。条件情報のひとつは、ユーザプロファイルである。ユーザプロファイルには、名前、年齢、性別、人種、国籍、住所、車種、車内空間のサイズ等が含まれる。このような情報は、プロファイル記憶部４２に予め記憶されている。また、条件情報の別のひとつは、再生すべき音声の曲名、アーティスト、ジャンルである。このような情報は、外部から入力される音声から抽出される。外部から入力される音声は、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、Ｂｌｕｒａｙ等にディスクに格納されている。

入力部３２は、通信部３０から、サーバ装置１０からの分析データストリームを受けつける。これは、サーバ装置１０から、いずれかの音声処理パラメータの推薦を受けつけることに相当する。いずれかの音声処理パラメータの推薦は、音声処理パラメータを識別するための識別情報によって示されている。そのため、入力部３２は、識別情報を取得する。入力部３２は、識別情報を音声処理パラメータ記憶部３４に出力する。

音声処理パラメータ記憶部３４は、複数の音声処理パラメータを記憶する。音声処理パラメータの一例は、イコライザを形成するフィルタに設定すべきタップ係数である。図３は、音声処理パラメータ記憶部３４に記憶されるテーブルのデータ構造を示す。図示のごとく、識別情報欄２００、音声処理パラメータ欄２０２が格納されている。つまり、音声処理パラメータのそれぞれは、識別情報に対応づけられている。なお、音声処理パラメータは、ユーザプロファイル、ジャンル等によって分類されていてもよい。また、音声処理パラメータ記憶部３４には、処理の初期において使用すべき音声処理パラメータであって、かつ基本的なジャンルに対応した音声処理パラメータが記憶されていてもよい。そのような音声処理パラメータは、工場において設定される。図２に戻る。

音声処理部３６は、入力部３２において受けつけた識別情報に対応した音声処理パラメータを音声処理パラメータ記憶部３４から受けつける。つまり、音声処理部３６は、識別情報に対応づけられた音声処理パラメータが複数記憶された音声処理パラメータ記憶部３４から、受けつけた識別情報に対応した音声処理パラメータを選択する。音声処理部３６は、音声処理パラメータを設定することによって、外部から入力した音声に対して、音声処理を実行する。音声処理部３６は、音声処理の結果を再生装置１８に出力する。再生装置１８は、音声処理部３６から、音声処理の結果を受けつけ、音声処理の結果を再生する。再生装置１８は、再生した音声をスピーカから出力する。

受付部４０は、図示しないインターフェイスから、ユーザによって入力された情報を受けつける。インターフェイスは、ボタン等によって構成され、ボタンはダッシュボードあるいはハンドルに設けられる。なお、受付部４０が音声認識機能を有する場合、インターフェイスはマイクロホンによって構成されてもよい。また、受付部４０が画像認識機能を有する場合、インターフェイスはカメラによって構成されてもよい。ユーザによって入力された情報は、音声処理部３６が実行した音声処理に対するユーザの評価である。前述のごとく、評価は、「よい」あるいは「悪い」によって示される。なお、「よい」および「悪い」のそれぞれに応じたボタンが備えられていてもよい。受付部４０は、評価を出力部３８に出力する。

出力部３８は、受付部４０から評価を受けつけた場合、条件情報が格納されたユーザ情報ストリームを生成する。出力部３８は、ユーザ情報ストリームを通信部３０に出力する。ユーザ情報ストリームは、通信部３０から送信される。つまり、出力部３８は、受付部４０において受けつけた評価をサーバ装置１０に報告する。この処理の後、入力部３２は、評価が悪いを示している場合に、サーバ装置１０から、別の音声処理パラメータを識別するための識別情報が含まれた分析データストリームを受けつける。これは、別の音声処理パラメータの推薦を新たに受けつけることに相当する。音声処理部３６は、新たに受けつけた識別情報に対応した別の音声処理パラメータを使用する。

この構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ハードウエアとソフトウエアの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

図４は、サーバ装置１０の構成を示す。サーバ装置１０は、通信部５０、入力部５２、端末情報データベース５４、分析部５６、分析結果データベース５８、出力部６０を含む。通信部５０は、ネットワーク１２、基地局装置１４に接続されることによって、端末装置２０と通信する。なお、通信部５０は、複数の端末装置２０と通信可能である。通信部５０は、端末装置２０からのユーザ情報ストリームを受信する。入力部５２は、ユーザ情報ストリームから条件情報を受けつける。入力部５２は、複数の端末装置２０のそれぞれに対応した条件情報を端末情報データベース５４に記憶させる。

端末情報データベース５４は、複数の端末装置２０のそれぞれに対する条件情報等をデータベースとして記憶する。端末情報データベース５４は、大規模リレーショナルデータベース、ＮｏＳＱＬ（ＮｏｔＯｎｌｙＳＱＬ）データベースとして構成されている。ここで、条件情報に共通項目の多い端末装置２０がグループとしてまとめられており、端末情報データベース５４では、グループによる分類がなされている。図５は、端末情報データベース５４のデータ構造を示す。図示のごとく、グループ欄２１０、端末装置欄２１２が含まれている。端末装置欄２１２には、各端末装置２０に対する条件情報等が格納されている。また、ふたつ以上の端末装置２０に対する条件情報等が、グループ欄２１０に示されるようにグループとしてまとめられている。

図６は、端末情報データベース５４の別のデータ構造を示す。これは、図５の端末装置欄２１２に格納されたひとつの端末装置２０に対する条件情報等に相当する。図示のごとく、項目欄２２０、内容欄２２２が含まれている。ユーザプロファイルとして、年齢、性別、人種、国籍、車種、サイズが示されている。エンジン条件として、長距離ドライブ、スピード違反が示されている。環境条件として、静寂、雑音が示されている。位置として、運転席、後部座席が示されている。音楽情報として、アーティスト、ジャンル、アルバム名、曲名が示されている。音楽の一部は、実際に再生装置１８において再生される音声の一部である。フィードバックは、前述の評価に相当する。ユーザプロファイルに対する変更の頻度は、音楽情報に対する変更の頻度よりも一般的に低い。そのため、端末装置２０からの通知によって、音楽情報だけが適宜更新されてもよい。図４に戻る。

分析部５６は、音声処理パラメータを絶えず改善し、かつ個別化するために、必要な情報を抽出するための分析を端末情報データベース５４に対して実行する。分析は、部分的に専門家によって手動にてなされてもよいし、完全に自動的になされてもよい。自動的になされる場合、分析部５６は、音声の内容の特徴を分析するために、曲名あるいは音声の一部を使用する。その際、分析部５６は、推薦、データマイニング、機械学習、パターン認識、統計方法論のための処理を実行する。例えば、データ処理として、距離測定、類似性測定、サンプリング技術、次元縮退が使用される。また、分類として、Ｋ近傍法、決定木、規定、ベイジアンネットワーク、単純ベイズ、人工ニューラルネットワーク、サポートベクターマシンが使用される。また、クラスタリングとして、Ｋ平均法、密度ベース、メッセージパッシング、階層が使用される。推薦として、協調フィルタリング、コンテンツベースフィルタリングが使用される。これらには公知の技術が使用されればよいので、ここでは説明を省略する。

ここでは、分析の具体例をふたつ説明する。ひとつ目の例では、第１端末装置２０ａ、第６端末装置２０ｆ、第１０端末装置２０ｊが、曲Ａ、Ｇ、Ｙに対して、識別情報７−１の音声処理パラメータを選択しているとする。そのため、これらは、ひとつのグループに含まれる。第１端末装置２０ａ、第６端末装置２０ｆが、曲Ｘに対して識別情報９−５の音声処理パラメータを選択する場合、分析部５６は、第１０端末装置２０ｊに対して、曲Ｘに対する音声処理パラメータとして、識別情報９−５をまず選択する。ふたつ目の例では、特定の国籍のユーザにおいて「低音重視」を推薦する傾向がある場合、それを反映した音声処理パラメータが選択される。同一国籍の新たなユーザの端末装置２０に対しても、同様の音声処理パラメータが選択される。

このように、分析部５６は、端末情報データベース５４に記憶されたデータを参照することによって、ひとつの端末装置２０に使用させるべきいずれかの音声処理パラメータを選択する。また、端末情報データベース５４に記憶されたデータは、評価、条件情報に相当する。分析において、同一のグループに含まれたふたつ以上の端末装置２０からの評価、音声処理の条件が反映される。なお、データの内容と、選択すべき音声処理パラメータとの対応関係も、端末情報データベース５４に予め記憶されている。この対応関係は、実験、シミュレーション等によって決定されている。分析部５６は、対応関係を利用して、データから音声処理パラメータを決定する。分析部５６は、選択した音声処理パラメータに対応した識別情報を分析結果データベース５８に出力する。

分析結果データベース５８は、分析部５６において選択された識別情報を記憶する。また、分析結果データベース５８は、分析部５６での分析結果を記憶してもよい。分析結果は、ユーザの振る舞い、好み、傾向が含まれた市場情報を生成するために使用される。市場情報は外部に出力される。出力部６０は、分析部５６において選択された識別情報を格納するように分析データストリームを生成し、分析データストリームを通信部５０に出力する。通信部５０は、ネットワーク１２、基地局装置１４を介して、分析データストリームを端末装置２０へ送信する。これは、分析部５６において選択した音声処理パラメータを端末装置２０に推薦することに相当する。

以上の処理の後、入力部５２は、通信部５０を介して、推薦に対応した音声処理パラメータを使用して音声処理を実行した端末装置２０から、音声処理に対するユーザの評価を受けつける。当該評価も、ユーザ情報ストリームに格納されている。入力部５２は、評価を端末情報データベース５４に記憶する。分析部５６は、入力部５２において受けつけた評価が「悪い」を示している場合に、別の音声処理パラメータを新たに選択する。別の音声処理パラメータを選択するために、前述の処理と同様の処理が使用される。なお、別の音声処理パラメータは、実験、シミュレーションによって予め定められる。出力部６０は、分析部５６において新たに選択した別の音声処理パラメータに対応した識別情報を格納するように分析データストリームを生成し、分析データストリームを通信部５０に出力する。

ここまでの処理において、複数の音声処理パラメータが予め規定されており、端末装置２０からの情報に応じて、サーバ装置１０は、いずれかの音声処理パラメータを選択している。なお、音声処理パラメータが処理開始後に追加されてもよい。サーバ装置１０は、専門家によって導出された新たな音声処理パラメータを受けつける。端末情報データベース５４は、新たな音声処理パラメータを記憶するとともに、当該新たな音声処理パラメータに対応づけられた識別情報も記憶する。さらに、端末情報データベース５４は、新たな音声処理パラメータが含まれた対応関係も記憶する。新たな音声処理パラメータは、端末装置２０に記憶されていないので、分析部５６が新たな音声処理パラメータを選択した場合、出力部６０は、識別情報とともに新たな音声処理パラメータを格納するように、分析データストリームを生成する。図２の端末装置２０は、新たな音声処理パラメータおよび識別情報を音声処理パラメータ記憶部３４に記憶するとともに、音声処理部３６は、新たな音声処理パラメータを設定して音声処理を実行する。

以上の構成による音声処理システム１００の動作を説明する。図７は、音声処理システム１００による再生手順を示すシーケンス図である。端末装置２０は、条件情報をサーバ装置１０に報告する（Ｓ１０）。サーバ装置１０は、音声処理パラメータを選択する（Ｓ１２）。サーバ装置１０は、選択した音声処理パラメータに対応した識別情報を端末装置２０に通知する（Ｓ１４）。端末装置２０は、音声処理パラメータを設定し（Ｓ１６）、音声処理を実行する（Ｓ１８）。端末装置２０は、評価を受けつける（Ｓ２０）。端末装置２０は、評価をサーバ装置１０に報告する（Ｓ２２）。サーバ装置１０は、別の音声処理パラメータを選択する（Ｓ２４）。サーバ装置１０は、選択した別の音声処理パラメータに対応した識別情報を端末装置２０に通知する（Ｓ２６）。端末装置２０は、別の音声処理パラメータを設定し（Ｓ２８）、音声処理を実行する（Ｓ３０）。

本発明の実施例によれば、複数の音声処理パラメータの中から、いずれかを選択するので、音声チューニングの技術が低いユーザであっても、状況に適した音声処理パラメータを容易に設定させることができる。また、設定した音声処理パラメータが気に入らない場合であっても、次の音声処理パラメータが設定されるので、ユーザの処理を容易にできる。また、音声処理パラメータは、専門家によって準備されるので、状況に適した音声再生を可能にできる。また、専門家によって準備された音声処理パラメータを共有するので、精度の高い音声処理パラメータを容易に使用できる。また、音声処理パラメータを追加がされるので、音声処理パラメータのデータベースを更新できる。また、音声処理に使用される音声処理パラメータが固定ではないので、状況に適するように音声処理パラメータを更新できる。また、条件情報をもとに生成したグループ内において音声処理パラメータを共有するので、音声処理パラメータを決定するための条件情報のサンプル数を増加できる。また、サンプル数が増加するので、精度を向上できる。

（実施例２）
本発明の実施例２も、実施例１と同様に、音声の再生装置に対して、音声のチューニングを実行する音声処理システムに関する。実施例２では、実施例１での処理に加えて、車両の走行状況に適した音声処理パラメータを選択する。そのため、端末装置は、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）等の測位装置に接続され、測位装置から位置情報を取得する。端末装置は、位置情報をサーバ装置に報告する。サーバ装置では、位置情報に対応づけられるように、音声処理パラメータの識別情報が記憶されている。サーバ装置は、受けつけた位置情報をもとに音声処理パラメータを選択する。実施例２に係る音声処理システム１００、サーバ装置１０は、図１、図４と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

図８は、本発明の実施例２に係る端末装置２０の構成を示す。端末装置２０は、通信部３０、入力部３２、音声処理パラメータ記憶部３４、音声処理部３６、出力部３８、第１受付部４６、第２受付部４８、プロファイル記憶部４２を含む。また。端末装置２０は、測位装置４４に接続される。第１受付部４６は、図２の受付部４０に相当する。測位装置４４は、ＧＰＳの受信機能を有することによって、位置情報を取得する。測位装置４４は、位置情報を第２受付部４８へ出力する。また、測位装置４４は、ジャイロスコープ装置、加速度計装置、圧力感知装置、頭脳感知装置、バイタルサイン感知装置であってもよい。その場合、周囲の環境情報が取得される。

第２受付部４８は、測位装置４４に接続され、測位装置４４において取得された情報、例えば、位置情報を受けつける。ここで、測位装置４４と第２受付部４８との接続には、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、シリアルバス、パラレルバス、ＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）、電話ジャックが使用される。出力部３８は、第２受付部４８において受けつけた位置情報が格納されたユーザ情報ストリームを生成する。出力部３８は、ユーザ情報ストリームを通信部３０に出力する。入力部３２は、通信部３０を介してサーバ装置１０から、識別情報を受けつける。この識別情報には、位置情報が反映されている。

図４のサーバ装置１０において、入力部５２が通信部５０から受けつけたユーザ情報ストリームには、位置情報が格納されている。入力部５２は、端末情報データベース５４に位置情報を出力する。端末情報データベース５４は、入力部５２からの位置情報も記憶する。さらに、端末情報データベース５４は、所定のエリアにおける音声処理パラメータを記憶する。例えば、所定のエリアは通学路に相当し、端末情報データベース５４は、通学路の位置情報と音声処理パラメータとを対応づけて記憶する。車両１６が通学路を走行している場合、学生が道路に飛び出す危険性が高いので、周囲の状況を把握するための集中力がより高くなるような音声処理パラメータが予め規定されている。所定のエリアは住宅街であってもよい。その際、夜中に住宅街に近づけば、低音を押さえるような音声処理パラメータが予め規定されている。

分析部５６は、入力部５２において取得した位置情報が、端末情報データベース５４に記憶されている所定のエリアに含まれている場合、分析部５６は、当該エリアに対応した音声処理パラメータを選択する。前述のごとく、選択として、分析部５６は、音声処理パラメータに対応した識別情報を選択する。つまり、所定のエリアを車両１６が走行している場合、分析部５６は、条件情報、評価に関係なく、位置情報に対応づけられた音声パラメータを選択する。なお、分析部５６は、条件情報、評価をもとに選択した音声処理パラメータに対して、位置情報に応じた補正を実行してもよい。具体的に説明すると、分析部５６は、条件情報、評価をもとに識別情報を仮選択する。また、端末情報データベース５４には、位置情報ごとに、仮選択した識別情報と、最終的な識別情報との対応関係が記憶されている。分析部５６は、対応関係をもとに、仮選択した識別情報から、最終的な識別情報を選択する。このように、分析部５６は、位置情報も反映させて音声処理パラメータを選択する。これに続く処理は、実施例１と同様であるので、ここでは説明を省略する。

本発明の実施例によれば、位置情報に応じた音声処理パラメータを設定するので、再生装置、端末装置を車両に搭載する場合に適した音声を再生できる。また、再生装置、端末装置を車両に搭載する場合に適した音声が再生されるので、安全運転を実行させることができる。

（実施例３）
本発明の実施例３も、これまでと同様に音声の再生装置に対して、音声のチューニングを実行する音声処理システムに関する。実施例３では、実施例１での処理に加えて、音声を聴いているユーザの車両中の位置を考慮して、音声のチューニングを実行する。そのため、端末装置は、音声を聴くべきユーザ、例えば、運転者、同乗者等の位置を計測するためのセンサに接続され、センサからユーザの位置情報を取得する。端末装置は、ユーザの位置情報もサーバ装置に報告する。サーバ装置は、位置情報をもとに、車両内に備えられた複数のスピーカのそれぞれとユーザとの間の距離を導出し、導出した距離をもとに、各スピーカから音声を出力する際の遅延時間を導出する。

各スピーカから音声を出力する差異のタイミングを遅延時間によって調節することは、タイムアライメントに相当する。また、遅延時間は音声処理パラメータに相当するが、これまでの音声処理パラメータとの差異を明確にするために、ここでの遅延時間は初期処理パラメータと呼ばれる。なお、初期処理パラメータは、遅延時間に限定されるものではなく、これまでと同様にタップ係数を含んでもよい。端末装置は、初期処理パラメータを使用することによって、音声処理を実行する。実施例３に係る音声処理システム１００は、図１と同様のタイプである。ここでは、これまでとの差異を中心に説明する。

図９は、本発明の実施例３に係る車両１６の構成を示しており、車両１６の上面図に相当する。車両１６は、左前スピーカ１１０、右前スピーカ１１２、左後スピーカ１１４、右後スピーカ１１６、右前シート１２０、左前シート１２２、ハンドル１２４、ダッシュボード１２６、ルームミラー１２８、端末装置２０を含む。また、車両１６において、端末装置２０は、図示しない再生装置１８に接続されている。

タイムアライメントは、左前スピーカ１１０、右前スピーカ１１２、左後スピーカ１１４、右後スピーカ１１６のそれぞれから出力される音声の遅延を調節するための音声チューニングである。これは、位相の不整合を修正するためになされる。運転者１１８が右前シート１２０に着席している場合、左前スピーカ１１０、右前スピーカ１１２、左後スピーカ１１４、右後スピーカ１１６のそれぞれから運転者１１８までの距離は、互いに異なる。端末装置２０および再生装置１８が４つのスピーカから同時に音声を再生した場合、各スピーカからの到来時間が異なるので、音像は正しくなくなる。一方、右前シート１２０が前後上下に移動されると、運転者１１８の位置が変化する。右前シート１２０の位置は、音像に影響を与える。また、座高の高い運転者１１８は、音像の影響を受ける。このような状況に対応するために、車両１６の車種情報と、センサでの検出結果が、サーバ装置１０において受信されている。なお、センサは、例えば、右前シート１２０に設置されており、右前シート１２０の前後方向の位置、上下方向の位置を検出する。

音声を聴くための最高の位置が、右前シート１２０ではなく左前シート１２２であるように設定する場合、音声を聴く場所が左前シート１２２であることは、端末装置２０に入力され、サーバ装置１０へ送信される。一方、車種の情報のみがサーバ装置１０に送信されてもよい。その場合、座席位置でのキャリブレーションのパラメータ、音声を聞く位置、座高は端末装置２０において測定されてもよい。

図９では、音声チューニングの補償等化を対象としてもよい。補償等化は、周波数特性を補正し、かつ周波数領域での周波数応答を平坦にするための音声チューニングである。運転者１１８が右前シート１２０に座っている場合、右側のウインドウのために右側からの反射が支配的になる。右前シート１２０と左前シート１２２との間の周波数特性は、大きく異なる。加えて、ハンドル１２４、ダッシュボード１２６、ルームミラー１２８のような車載品が周波数特性に影響に与える。周波数特性は、シートの位置に応じて変わるので、座席位置の情報が、センサによって自動的に検出され、かつサーバ装置１０に送信される。運転者１１８ではなく、同乗者が音声を聴く場合、その旨が、運転者１１８によって手動にて端末装置２０に入力され、サーバ装置１０へ送信される。

別の同乗者がシートに座っている場合、彼らは、彼らの体による反射、吸収、回折による周波数特性の影響を受ける。そのため、別の同乗者の座席位置もセンサによって自動的に検出され、かつサーバ装置１０に報告される。なお、車種の情報だけがサーバ装置１０に送信されてもよい。別の同乗者の位置でのキャリブレーションパラメータは、端末装置２０によって測定される。そのような端末装置２０は、そのようなパラメータから初期処理パラメータを計算すべき機能を有する。

図１０は、本発明の実施例３に係る端末装置２０の構成を示す。端末装置２０は、通信部３０、入力部３２、音声処理パラメータ記憶部３４、音声処理部３６、出力部３８、第１受付部４６、第２受付部４８、プロファイル記憶部４２、初期処理パラメータ記憶部７０を含む。また、端末装置２０は、センサ７２に接続されている。第１受付部４６は、図２の受付部４０に相当する。センサ７２は、図９の右前シート１２０に設置されており、右前シート１２０の前後方向および上下方向の位置を検出する。センサ７２には公知の技術が使用されればよいので、ここでは説明を省略する。センサ７２は、検出結果を第２受付部４８に出力する。この検出結果は、右前シート１２０の位置情報に相当する。

第２受付部４８は、センサ７２に接続され、センサ７２での検出結果を受けつける。これは、音声処理部３６が実行した音声処理の結果を運転者１１８、つまりユーザが聴く環境に関する環境情報も受けつけることに相当する。第２受付部４８は、環境情報を出力する。出力部３８は、第２受付部４８において受けつけた環境情報が格納されたユーザ情報ストリームを生成する。出力部３８は、ユーザ情報ストリームを通信部３０に出力する。これは、環境情報をサーバ装置１０に報告することに相当する。

入力部３２は、通信部３０を介してサーバ装置１０から、初期処理パラメータを受けつける。初期処理パラメータは、サーバ装置１０において環境情報をもとに生成されている。入力部３２は、初期処理パラメータを初期処理パラメータ記憶部７０に出力する。初期処理パラメータ記憶部７０は、入力部３２からの初期処理パラメータを記憶する。音声処理部３６は、初期段階において、初期処理パラメータを設定することによって、音声処理を実行する。この処理は、タイムアライメント、補償等化、クロスオーバを含む。初期処理パラメータを適用した音声が再生装置１８から出力された後、これまで説明した処理が実行されることによって、音声処理パラメータが更新される。

図１１は、本発明の実施例３に係るサーバ装置１０の構成を示す。サーバ装置１０は、通信部５０、入力部５２、端末情報データベース５４、第１分析部６２、第２分析部６４、初期処理パラメータデータベース６６、分析結果データベース５８、出力部６０を含む。入力部５２は、通信部５０を介して、端末装置２０からのユーザ情報ストリームを受けつける。入力部５２は、ユーザ情報ストリームから、センサ７２にて取得された環境情報であって、かつ音声処理の結果をユーザが聴く環境に関する環境情報も抽出する。入力部５２は、複数の端末装置２０のそれぞれに対応した環境情報を端末情報データベース５４に記憶させる。

第１分析部６２は、図４の分析部５６に相当する。第２分析部６４は、端末装置２０からの環境情報をもとに、当該端末装置２０に対する初期処理パラメータを生成する。初期処理パラメータが、タイムアライメントのための遅延時間である場合、第２分析部６４は、各スピーカからユーザまでの距離を導出してから、距離が長くなるほど短くなるような遅延時間を導出する。これは、図９において、左前スピーカ１１０、右前スピーカ１１２、左後スピーカ１１４、右後スピーカ１１６から運転者１１８までの距離に応じた遅延時間が導出されることに相当する。なお、初期処理パラメータが、タップ係数である場合、実験等において予め取得したタップ係数を複数記憶しており、第２分析部６４は、環境情報をもとに、そのうちのいずれかを選択する。

初期処理パラメータデータベース６６は、第２分析部６４において導出した初期処理パラメータを記憶する。出力部６０は、初期処理パラメータデータベース６６において記憶した初期処理パラメータを格納するように分析データストリームを生成し、分析データストリームを通信部５０に出力する。

図１２は、本発明の実施例３に係る音声処理システム１００による再生手順を示すシーケンス図である。端末装置２０は、センサデータを取得する（Ｓ５０）。センサデータは、前述の環境情報に相当する。端末装置２０は、センサデータ、条件情報をサーバ装置１０に報告する（Ｓ５２）。サーバ装置１０は、初期処理パラメータを計算する（Ｓ５４）。サーバ装置１０は、初期処理パラメータを端末装置２０に通知する（Ｓ５６）。端末装置２０は、初期処理パラメータを設定し（Ｓ５８）、音声処理を実行する（Ｓ６０）。

本発明の実施例によれば、座席の位置に応じた初期処理パラメータを設定するので、各スピーカからの音声に対するタイムアライメントを実現できる。また、初期処理パラメータによってタイムアライメントだけではなく、補償等化も実現されるので、周波数領域での音のひずみの影響を低減できる。

以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

本発明の実施例において、再生装置１８、端末装置２０は、車両１６内に搭載されている。しかしながらこれに限らず例えば、再生装置１８、端末装置２０は、車両１６以外に搭載されてもよい。具体的には、再生装置１８、端末装置２０は、部屋の中に設置されてもよい。本変形例によれば、本発明の適用領域を拡大できる。

本発明の実施例１から３の任意の組合せも有効である。本変形例によれば、任意の組合せによる効果を得ることができる。

１０サーバ装置、１２ネットワーク、１４基地局装置、１６車両、１８再生装置、２０端末装置、３０通信部、３２入力部、３４音声処理パラメータ記憶部、３６音声処理部、３８出力部、４０受付部、４２プロファイル記憶部、５０通信部、５２入力部、５４端末情報データベース、５６分析部、５８分析結果データベース、６０出力部、１００音声処理システム。

Claims

複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、サーバ装置から、いずれかの音声処理のパラメータの推薦を受けつける入力部と、
前記入力部において受けつけた推薦に対応した音声処理のパラメータを設定することによって、音声処理を実行する音声処理部と、
前記音声処理部が実行した音声処理に対するユーザの評価を受けつける受付部と、
前記受付部において受けつけた評価を前記サーバ装置に報告する出力部とを備え、
前記出力部から報告される評価は、よいあるいは悪いを少なくとも示しており、
前記入力部は、前記出力部による評価の報告の後、前記出力部から報告される評価が悪いを示している場合に、前記サーバ装置から、別の音声処理のパラメータの推薦を新たに受けつけ、
前記音声処理部は、前記入力部において新たに受けつけた推薦に対応した別の音声処理のパラメータを使用することを特徴とする端末装置。
前記入力部において受けつけた推薦は、音声処理のパラメータを識別するための識別情報によって示されており、
前記音声処理部は、識別情報に対応づけられた音声処理のパラメータが複数記憶された記憶部から、前記入力部において受けつけた識別情報に対応した音声処理のパラメータを選択することを特徴とする請求項１に記載の端末装置。
前記受付部は、測位装置から、位置情報も受けつけ、
前記出力部は、前記受付部において受けつけた位置情報を前記サーバ装置に報告し、
前記入力部は、前記サーバ装置から、位置情報を反映させた音声処理のパラメータの推薦を受けつけることを特徴とする請求項１または２に記載の端末装置。
前記受付部は、センサから、前記音声処理部が実行した音声処理の結果をユーザが聴く環境に関する環境情報も受けつけ、
前記出力部は、前記受付部において受けつけた環境情報を前記サーバ装置に報告し、
前記入力部は、前記サーバ装置から、環境情報をもとに生成された音声処理の初期のパラメータを受けつけ、
前記音声処理部は、前記入力部において受けつけた音声処理の初期のパラメータを設定することによって、音声処理を実行することを特徴とする請求項１から３のいずれかに記載の端末装置。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択する分析部と、
前記分析部において選択した音声処理のパラメータを前記端末装置に推薦する出力部と、
前記出力部による推薦に対応した音声処理のパラメータを使用して音声処理を実行した前記端末装置から、音声処理に対するユーザの評価を受けつける入力部とを備え、
前記入力部において受けつけうる評価は、よいあるいは悪いを少なくとも示しており、
前記分析部は、前記入力部において評価を受けつけた後、前記入力部において受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、
前記出力部は、前記分析部が新たに選択した別の音声処理のパラメータを前記端末装置に推薦することを特徴とするサーバ装置。
前記入力部は、前記端末装置から、音声処理の条件に関する情報も受けつけ、
前記分析部は、前記入力部において受けつけた評価、音声処理の条件に関する情報が記憶されたデータベースをもとにして、音声処理のパラメータを選択することを特徴とする請求項５に記載のサーバ装置。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択する分析部と、
前記分析部において選択した音声処理のパラメータを前記端末装置に推薦する出力部と、
前記出力部による推薦に対応した音声処理のパラメータを使用して音声処理を実行した前記端末装置から、音声処理に対するユーザの評価を受けつける入力部とを備え、
前記入力部において受けつけうる評価は、よいあるいは悪いを少なくとも示しており、
前記分析部は、前記入力部において受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、
前記出力部は、前記分析部が新たに選択した別の音声処理のパラメータを前記端末装置に推薦し、
前記入力部は、前記端末装置から、音声処理の条件に関する情報も受けつけ、
前記分析部は、前記入力部において受けつけた評価、音声処理の条件に関する情報が記憶されたデータベースをもとにして、音声処理のパラメータを選択し、
前記分析部は、同一のグループに含まれたふたつ以上の端末装置からの評価、音声処理の条件を反映させることによって、音声処理のパラメータを選択することを特徴とするサーバ装置。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択する分析部と、
前記分析部において選択した音声処理のパラメータを前記端末装置に推薦する出力部と、
前記出力部による推薦に対応した音声処理のパラメータを使用して音声処理を実行した前記端末装置から、音声処理に対するユーザの評価を受けつける入力部とを備え、
前記入力部において受けつけうる評価は、よいあるいは悪いを少なくとも示しており、
前記分析部は、前記入力部において受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、
前記出力部は、前記分析部が新たに選択した別の音声処理のパラメータを前記端末装置に推薦し、
前記入力部は、前記端末装置から、位置情報も受けつけ、
前記分析部は、前記入力部において受けつけた位置情報も反映させて音声処理のパラメータを選択することを特徴とするサーバ装置。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択する分析部と、
前記分析部において選択した音声処理のパラメータを前記端末装置に推薦する出力部と、
前記出力部による推薦に対応した音声処理のパラメータを使用して音声処理を実行した前記端末装置から、音声処理に対するユーザの評価を受けつける入力部とを備え、
前記入力部において受けつけうる評価は、よいあるいは悪いを少なくとも示しており、
前記分析部は、前記入力部において受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、
前記出力部は、前記分析部が新たに選択した別の音声処理のパラメータを前記端末装置に推薦し、
前記入力部は、前記端末装置から、センサにて取得された環境情報であって、かつ音声処理の結果をユーザが聴く環境に関する環境情報も受けつけ、
前記分析部は、前記入力部において受けつけた環境情報をもとに、音声処理の初期のパラメータを生成し、
前記出力部は、前記分析部において生成した音声処理の初期のパラメータを前記端末装置に出力することを特徴とするサーバ装置。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、サーバ装置から、いずれかの音声処理のパラメータの推薦を受けつけるステップと、
受けつけた推薦に対応した音声処理のパラメータを設定することによって、音声処理を実行するステップと、
音声処理に対するユーザの評価を受けつけるステップと、
受けつけた評価を前記サーバ装置に報告するステップとを備え、
前記報告されるステップから報告される評価は、よいあるいは悪いを少なくとも示しており、
前記推薦を受けつけるステップは、評価の報告の後、報告される評価が悪いを示している場合に、前記サーバ装置から、別の音声処理のパラメータの推薦を新たに受けつけ、
前記音声処理を実行するステップは、新たに受けつけた推薦に対応した別の音声処理のパラメータを使用することを特徴とする音声処理方法。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択するステップと、
選択した音声処理のパラメータを前記端末装置に推薦するステップと、
推薦に対応した音声処理のパラメータを使用して音声処理を実行した前記端末装置から、音声処理に対するユーザの評価を受けつけるステップとを備え、
前記受けつけるステップにおいて受けつけうる評価は、よいあるいは悪いを少なくとも示しており、
前記選択するステップは、評価を受けつけた後、受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、
前記推薦するステップは、新たに選択した別の音声処理のパラメータを前記端末装置に推薦することを特徴とする設定方法。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、いずれかの音声処理のパラメータを選択し、選択した音声処理のパラメータを推薦するサーバ装置と、
前記サーバ装置による推薦に対応した音声処理のパラメータを使用して音声処理を実行するとともに、音声処理に対するユーザの評価を受けると、評価を前記サーバ装置に報告する端末装置とを備え、
前記端末装置から報告される評価は、よいあるいは悪いを少なくとも示しており、
前記サーバ装置は、評価を受けつけた後、受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、新たに選択した別の音声処理のパラメータを推薦することを特徴とする音声処理システム。