JP2014052630A

JP2014052630A - 音響処理装置、音響処理方法、及び音響処理プログラム

Info

Publication number: JP2014052630A
Application number: JP2013182617A
Authority: JP
Inventors: Joao Labato Oliveira; ロバートオリベイラジョアオ; Goekhan Ince; ギョカンインジュ; Keisuke Nakamura; 圭佑中村; Kazuhiro Nakadai; 一博中臺; Hiroshi Okuno; 博奥乃; Paulo Reis Luis; パウロレイシュルイス; Gouyon Fabien; グーヨンファビアン
Original assignee: ENNESKPORT; Honda Motor Co Ltd; Universidade do Porto
Current assignee: ENNESKPORT; Honda Motor Co Ltd; Universidade do Porto
Priority date: 2012-09-05
Filing date: 2013-09-03
Publication date: 2014-03-20
Anticipated expiration: 2033-09-03
Also published as: JP6140579B2; US20140067385A1; US9378752B2

Abstract

【課題】音楽、音声及び雑音が同時に入力される状況であっても、ビート間隔の検出を精度良く行え、且つユーザ発話に対して精度良く応対行動をとることができる音響処理装置、音響処理方法及び音響処理プログラムを提供することを目的としている。
【解決手段】音響処理装置は、音楽音響信号と音声音響信号に分離する分離部と、音楽音響信号と音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧部と、音楽音響信号の特徴量を推定する音楽特徴量推定部と、音声音響信号から音声認識を行う音声認識部と、雑音処理信頼度を算出する雑音処理信頼度計算部と、音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部と、音声認識信頼度を算出する音声認識信頼度計算部と、雑音処理信頼度と音楽特徴量推定信頼度と音声認識信頼度に基づき音声行動決定関数と音楽行動決定関数のうち少なくとも１つを算出し行動決定関数に応じた行動を決定する制御部とを備える。
【選択図】図１

Description

本発明は、音響処理装置、音響処理方法、及び音響処理プログラムに関する。

近年、ヒューマノイドやホームロボット等、人間とソーシャル・インタラクションを行うロボットの研究が盛んに行われている。その中でも、ロボットに対して音楽を聴かせ、その音楽に合わせて歌唱させたり体を動かしたりさせる音楽インタラクションに関する研究は、ロボットに自然で豊かな表現をさせるために重要である。この技術分野においては、例えば、マイクロホンで集音した音楽音響信号からリアルタイムにビート間隔を抽出し、そのビート間隔に合わせてロボットを踊らせる技術が提案されている（例えば、特許文献１参照）。

また、ロボットに音声や音楽を聴かせるためには、集音装置、例えばマイクロホンを搭載することが必要である。しかし、ロボットの集音装置が集音する音には様々な雑音が含まれる。集音装置が集音する音には、例えば、ロボットの周囲で発生する環境音はもちろんのこと、ロボット自身から発生する様々な音が雑音として含まれる。例えば、ロボット自身から発生する音として、ロボットの足音、体内で駆動するモータの動作音、自発音声等が挙げられる。このように、集音された音響信号のＳ／Ｎ比が悪くなると、音声認識の精度が落ちる。このため、ロボットが動作を行っているときに、ユーザからの発話があった場合、ロボットの動作音が小さくなるように制御することで、音声認識の認識率を向上させることが提案されている（例えば、特許文献２参照）。

特開２０１０−０２６５１３号公報特許第４４６８７７７号公報

ロボットがダンスなどを行っている場合に楽譜情報を用いずにビートトラッキングを行うために、ロボットは、雑音の影響を低減して、音楽音響信号から精度良くビート間隔を検出する必要がある。しかしながら、音楽に加えてユーザからの発話があった場合、ビート間隔の検出に対して、ユーザ発話は悪影響を及ぼす。さらに、ユーザ発話の認識には、音楽音響信号は悪影響を及ぼす。このため、ロボットは、ビート間隔を検出しつつユーザ発話に対して精度良く応対行動をとることは困難であるという課題があった。

本発明は、上記の問題点に鑑みてなされたものであって、音楽、音声、及び雑音が同時に入力される状況であっても、ビート間隔の検出を精度良く行え、かつユーザ発話に対して精度良く応対行動をとることができる音響処理装置、音響処理方法、及び音響処理プログラムを提供することを目的としている。

（１）上記目的を達成するため、本発明の一態様に係る音響処理装置は、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離部と、前記分離部によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧部と、前記音楽音響信号から前記音楽音響信号の特徴量を推定する音楽特徴量推定部と、前記音声音響信号から音声認識を行う音声認識部と、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算部と、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部と、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算部と、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも１つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御部と、を備えることを特徴としている。

（２）本発明に係るその他の様態は、前記制御部は、前記音声行動決定関数に基づいて前記音声認識部に関する応答行動を決定し、前記音楽行動決定関数に基づいて前記音楽特徴量推定部に関する応答行動を決定することを特徴とする（１）の音響処理装置である。

（３）本発明に係るその他の様態は、前記制御部は、前記音楽特徴量推定信頼度と前記音声認識信頼度とがともに予め定められている値より小さくなったとき、前記音楽特徴量推定部をリセットするように制御することを特徴とする（１）または（２）の音響処理装置である。

（４）本発明に係るその他の様態は、前記音声行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値であり、前記音楽行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値であることを特徴とする（１）から（３）のいずれか１の音響処理装置である。

（５）本発明に係るその他の様態は、分離部が、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、雑音抑圧部が、前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、音楽特徴量推定部が、前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、音声認識部が、前記音声音響信号から音声認識を行う音声認識手順と、雑音処理信頼度計算部が、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、音楽特徴量推定信頼度計算部が、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、音声認識信頼度計算部が、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、制御部が、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも１つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、を含むことを特徴とする音響処理方法である。

（６）本発明に係るその他の様態は、音響処理装置のコンピュータに、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、前記音声音響信号から音声認識を行う音声認識手順と、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも１つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、を実行させる音響処理プログラムである。

本発明の態様（１）、（５）、および（６）によれば、音声、音楽、及び雑音に関する各処理の信頼度を算出し、算出したこれらの信頼度に基づいて算出した行動決定関数に基づいて、応答高度を決定するようにした。この結果、本発明に係る音響処理装置は、音楽、音声、及び雑音が同時に入力される状況であっても、ビート間隔の検出を精度良く行え、かつユーザ発話に対して精度良く応対行動をとることができる。
本発明の態様（２）によれば、音声行動決定関数に基づいて音声認識部に関する応答行動を決定し、音響行動決定関数に基づいてビート間隔推定部に関する応答行動を決定し、決定した応答行動に応じて、音声認識部またはビート間隔推定部が制御する。この結果、本発明に係る音響処理装置は、ビート間隔の検出を精度が低下した場合にビート間隔の検出の精度を向上することができ、音声認識の精度が低下した場合に音声認識の精度を向上することができる。
本発明の態様（３）によれば、雑音処理信頼度とビート間隔推定信頼度と音声認識信頼度とがともに予め定められている値より小さくなったとき、ビート間隔推定部をリセットするように制御するため、ビート間隔の検出を精度が低下した場合にビート間隔の検出の精度を向上することができる。
本発明の態様（４）によれば、音声行動決定関数と音楽行動決定関数によって算出される値を所定のレベルに分けることができるので、この分類されたレベルに応じて適切な応答行動を選択することができる。

本実施形態に係るロボットの概略構成を表すブロック図である。本実施形態に係るロボットにおける処理手順の一例のフローチャートである。本実施形態に係るフィルタリング部の構成の一例を説明するブロック図である。本実施形態に係る自己雑音抑圧部におけるテンプレートの学習に関する処理手順の一例のフローチャートである。本実施形態に係る音楽特徴量推定部の構成の一例のブロック図である。本実施形態に係るエージェントが変更された場合のエージェント期間の一例を説明する図である。本実施形態に係るエージェントが変更された場合のスコアの一例を説明する図である。本実施形態に係る音声用適応度関数Ｆ_Ｓ（ｎ）によって判別される動作の一例を示す図である。本実施形態に係る音楽用適応度関数Ｆ_Ｍ（ｎ）によって判別される動作の一例を示す図である。本実施形態に係るロボットのダンスにおける動作とビートとの同期を説明する図である。ＡＭＬｔ_ｓ及びＡＭＬｔ_ｅスコアの観点から、平均ダンスビート同期の結果の一例を説明する図である。５ｂｐｍ刻みで音楽テンポの関数内ＡＭＬｔ_ｅスコアの分布の一例を説明する図である。システムのすべての変種の平均音声認識結果の一例を説明する図である。ＡＭＬｔ_ｓとＡＭＬｔ_ｅスコアの面でＩＢＴ−デフォルトとＩＢＴレギュラの全体的なビートトラッキング精度の一例を説明する図である。平均反応時間とテストされた音楽のデータストリームで正常に処理遷移の数を説明する図である。本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。

以下、図面を参照しながら本発明の実施形態について説明する。本実施形態では、ロボット１に音響処理装置を適用した例を説明する。
図１は、本実施形態に係るロボット１の概略構成を表すブロック図である。図１に示すように、ロボット１は、収音部１０、動作検出部２０、フィルタリング部３０、認識部４０、変換部５０、決定部６０、制御部７０、及び音声再生部８０を備えている。なお、ロボット１は、図示しないモータ、機構部等を備えている。

収音部１０は、Ｎ個（Ｎは、１以上の整数）のチャネルの音響信号を収録し、収録したＮチャネルの音響信号をアナログ音響信号に変換する。ここで、収音部１０が収録する音響信号は、人間による発話音声、音声再生部８０から出力される音楽、及びロボット１が発生する自己雑音（ｅｇｏｎｏｉｓｅ；エゴノイズ）を含む。ここで、自己雑音とは、ロボット１が有する機構部やモータの動作音、フィルタリング部３０〜制御部７０を冷却するためのファンの風切り音等を含む音である。収音部１０は、変換したＮチャネルのアナログ音声信号を、有線または無線によってフィルタリング部３０に出力する。収音部１０は、例えば周波数帯域（例えば２００Ｈｚ〜４ｋＨｚ）の音波を受信するマイクロホンである。

動作検出部２０は、制御部７０から入力された動作制御信号に応じてロボット１の動作を示す動作信号を生成し、生成した動作信号をフィルタリング部３０に出力する。ここで、動作検出部２０は、例えば、Ｊ個の（Ｊは、１よりも大きい整数）エンコーダ（位置センサ）を備え、各エンコーダは、ロボット１が有する各モータに取り付けられ、各関節の角度位置（ａｎｇｕｌａｒｐｏｓｉｔｉｏｎ）を計測する。動作検出部２０は、計測した角度位置の時間微分である角速度と、その時間微分である角加速度を算出する。動作検出部２０は、算出したエンコーダ毎の角度位置、角速度、及び角加速度をエンコーダ間で統合して、特徴ベクトルを構成する。そして、動作検出部２０は、構成した特徴ベクトルを示す動作信号を生成し、生成した動作信号をフィルタリング部３０に出力する。

フィルタリング部３０は、音源定位部３１、音源分離部３２、及び自己雑音抑圧部３３を備えている。
音源定位部３１は、収音部１０から入力されたＮチャネルの音響信号に基づいて、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多信号分類）法を用いて音源毎の位置を推定する。ここで、音源は、発話した人間、または音楽を出力するスピーカ等である。音源定位部３１は、予め定めた数の伝達関数ベクトルを、方向と対応付けて記憶した記憶部を備える。音源定位部３１は、記憶部から選択した伝達関数ベクトルと、入力されたＮチャネルの音響信号に基づいて算出した固有ベクトルに基づき、空間スペクトルを算出する。音源定位部３１は、算出した空間スペクトルが最も大きい音源方向を選択し、選択した音源方向を示す情報を音源分離部３２に出力する。

音源分離部３２は、音源定位部３１から入力された音源方向に基づいて、収音部１０から入力されたＮチャネルの音響信号を、例えばＧＨＤＳＳ（ＧｅｏｍｅｔｒｉｃＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いて音声信号と音楽信号とに分離する。なお、ＧＨＤＳＳについては、後述する。音源分離部３２は、分離した音声信号と音楽信号とを、自己雑音抑圧部３３に出力する。音源分離部３２は、例えば独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ；ＩＣＡ）法を用いて、音源分離処理を行ってもよい。または、音源分離部３２は、その他の音源分離処理、例えば、指定した音源方向に感度が最も高くなるように指向性を制御する適用ビームフォーミングを用いてもよい。

自己雑音抑圧部３３は、動作検出部２０から入力された動作信号に基づいて、音源分離部３２から入力された音声信号と音響信号に対して各々、自己雑音成分を抑圧する。自己雑音抑圧部３３は、自己雑音成分を抑圧した音響信号を認識部４０の音楽特徴量推定部４１に出力する。また、自己雑音抑圧部３３は、自己雑音成分を抑圧した音声信号を認識部４０の音声認識部４３に出力する。自己雑音抑圧部３３は、例えば、後述するようにテンプレートを用いた手法によって、自己雑音成分を抑圧する。なお、自己雑音抑圧部３３の構成については後述する。

認識部４０は、音楽特徴量推定部４１、自己雑音推定部４２、及び音声認識部４３を備えている。

音声認識部４３は、フィルタリング部３０から入力された音声信号に対して音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。音声認識部４３は、例えば、音響モデルである隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）と辞書を備える。音声認識部４３は、音響特徴量、例えば、１３個の静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）と１３個のデルタＭＳＬＳと１個のデルタパワーを所定時間毎にリアルタイムで算出する。音声認識部４３は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から辞書を用いて単語、音節、または文を認識する。さらに、音声認識部４３は、認識過程で算出したコスト関数によって与えられた各々評価された単語の確からしさに基づく信頼度（ｃｏｎｆｉｄｅｎｃｅｆｕｎｃｔｉｏｎ）ｃｆ_Ｓ（ｎ）を、変換部５０の音楽用適応度関数（ｆｉｔｎｅｓｓｆｕｎｃｔｉｏｎ）演算部５１及び音声用適応度関数演算部５２に出力する。なお、ｎは、フレーム数であり、１以上の整数である。また、信頼度ｃｆ_Ｓの添え字のＳは、音声（ｓｐｅｅｃｈ）を示している。

自己雑音推定部４２は、動作検出部２０から入力された動作信号に基づいて、自己雑音のレベルＥ（ｎ）を次式（１）によって算出する。

式（１）において、Ｊはロボット１が有する機構的な接続部の総数であり、ｖ_ｊは、ロボット１の全ての機構的な接続部の動作速度である。式（１）は、ロボット１の機構的な接続部の動作速度が速いほど、接続部が動作時に発する自己雑音のレベルが高くなることを表している。自己雑音推定部４２は、算出した自己雑音のレベルＥ（ｎ）を信頼度ｃｆ_Ｅ（ｎ）として、変換部５０の音楽用適応度関数演算部５１及び音声用適応度関数演算部５２に出力する。また、信頼度ｃｆ_Ｅの添え字のＥは、自己ノイズ（Ｅｇｏｎｏｉｓｅ）を示している。

音楽特徴量推定部４１は、音楽特徴量を推定し、推定した音楽特徴量を変換部５０と制御部７０とに出力する。なお、音楽特徴量とは、ビート間隔（テンポ）、推定したビート間隔（テンポ）の信頼度、楽曲の曲名（タイトル）、楽曲のジャンル等である。また、楽曲のジャンルとは、例えば、クラシック、ロック、ジャズ、演歌、雅楽、フォーク、ソウル等である。音楽特徴量推定部４１は、例えば、参考文献１に記載のＩＢＴ（ｓｔａｎｄｉｎｇｆｏｒＩＮＥＳＣｐｏｒｔｏＢｅａｔＴｒａｃｋｅｒ）法を用いて、自己雑音抑圧部３３から入力された音楽信号に対して、ビートトラッキング処理を行う。なお、ビートトラッキング処理とは、音楽信号のビート間隔を検出する処理である。また、音楽特徴量推定部４１は、ビートトラッキング処理によって算出された最も良い値の測定値のチャンクである値を信頼度ｃｆ_Ｍ（ｎ）（音楽特徴量推定信頼度）として、音楽用適応度関数演算部５１及び音声用適応度関数演算部５２に出力する。また、信頼度ｃｆ_Ｍの添え字のＭは、音楽（Ｍｕｓｉｃ）を示している。さらに、音楽特徴量推定部４１は、ビートトラッキング処理によって推定されたビート間隔（テンポ）に基づいて、楽曲のタイル、ジャンル等を推定する。音楽特徴量推定部４１は、推定したビート間隔（テンポ）、楽曲のタイル、ジャンル等を音楽特徴量として制御部７０に出力する。なお、音楽特徴量推定部４１の構成、及び信頼度ｃｆ_Ｍ（ｎ）の算出については、後述する。

変換部５０は、音楽用適応度関数演算部５１及び音声用適応度関数演算部５２を備えている。
音楽用適応度関数演算部５１は、認識部４０から入力された信頼度ｃｆ_Ｓ（ｎ）、ｃｆ_Ｅ（ｎ）、及びｃｆ_Ｍ（ｎ）を用いて、音楽用適応度関数Ｆ_Ｍ（ｎ）を算出し、算出した音楽用適応度関数Ｆ_Ｍ（ｎ）を決定部６０に出力する。なお、添え字のＭは、音楽（Ｍｕｓｉｃ）を示している。
音声用適応度関数演算部５２は、認識部４０から入力された信頼度ｃｆ_Ｓ（ｎ）、ｃｆ_Ｅ（ｎ）、及びｃｆ_Ｍ（ｎ）を用いて音声用適応度関数Ｆ_Ｓ（ｎ）を算出し、算出した音声用適応度関数Ｆ_Ｓ（ｎ）を決定部６０に出力する。また、添え字のＳは、音声（ｓｐｅｅｃｈ）を示している。
音楽用適応度関数Ｆ_Ｍ（ｎ）及び音声用適応度関数Ｆ_Ｓ（ｎ）は、決定部６０が、制御部７０の動作を決定するために用いられる。なお、コスト関数、及び音楽用適応度関数Ｆ_Ｍ（ｎ）と音声用適応度関数Ｆ_Ｓ（ｎ）の算出については後述する。

決定部６０は、音楽動作調停部６１及び音声動作調停部６２を備えている。
音楽動作調停部６１は、変換部５０から入力された音楽用適応度関数Ｆ_Ｍ（ｎ）に基づいて、音楽に関する動作を決定し、決定した動作を示す指示を制御部７０に出力する。
音声動作調停部６２は、変換部５０から入力された音声用適応度関数Ｆ_Ｓ（ｎ）に基づいて、音声に関する動作を決定し、決定した動作を示す動作指示を制御部７０に出力する。なお、音楽動作調停部６１及び音声動作調停部６２が行う処理については、後述する。

制御部７０は、動作継続部７１、リカバリー部７２、リセット部７３、動作継続部７４、雑音低減部７５、動作停止部７６、及び動作制御部７７を備えている。
動作継続部７１は、音楽動作調停部６１が出力した動作指示に応じて、例えば、収録された音楽に合わせたダンスを継続するように、ロボット１が有するモータを制御する。また、動作継続部７１は、ビートトラッキング処理を現在の設定のまま継続するように、音楽特徴量推定部４１を制御する。
リカバリー部７２は、音楽動作調停部６１が出力した動作指示に応じて、例えば、収録された音楽に対するビートトラッキング処理をリカバリーするように、音楽特徴量推定部４１を制御する。
リセット部７３は、音楽動作調停部６１が出力した動作指示に応じて、例えば、収録された音楽に対するビートトラッキング処理をリセットするように、音楽特徴量推定部４１を制御する。
以上のように、動作継続部７１、リカバリー部７２、及びリセット部７３は、ビートトラッキング処理に関係する動作について制御する。

動作継続部７４は、例えば、音声認識部４３が認識した文が疑問文であった場合、音声動作調停部６２が出力した動作指示に応じて、認識した音声に対する回答をロボット１に発話させるように、音声再生部８０から音声信号を発するように制御する。あるいは、動作継続部７４は、音声認識部４３が認識した文が指示を示す文であった場合、音声動作調停部６２が出力した動作指示に応じて、ロボット１が有するモータ及び機構部を制御して、認識した音声に応じた行動をロボット１にさせるように制御する。
雑音低減部７５は、例えば、音声動作調停部６２が出力した動作指示に応じて、ロボット１が有するモータ及び機構部を制御して、認識した音声が認識しやすくなるように、音楽のボリュームを下げるようにロボット１が動作するように制御する。または、雑音低減部７５は、音声動作調停部６２が出力した動作指示に応じて、音楽のボリュームを下げる依頼を表す音声信号を音声再生部８０から出力するように制御する。あるいは、雑音低減部７５は、音声動作調停部６２が出力した動作指示に応じて、発話者に質問を反復してもらうための音声信号を音声再生部８０から出力するように制御する。
動作停止部７６は、音声動作調停部６２が出力した動作指示に応じて、例えば、ロボット１が音楽の再生を停止させるように動作するように制御する。あるいは、動作停止部７６は、音声動作調停部６２が出力した動作指示に応じて、ロボット１が有するモータ及び機構部を制御して、ロボット１の動きを止めることによって自己雑音を減らすように制御する。
以上のように、動作継続部７４、雑音低減部７５、及び動作停止部７６は、音声の認識に関係する動作について制御する。

動作制御部７７は、認識部４０から出力された認識された音声を示す情報と認識されたビート間隔を示す情報に応じて、ロボット１の機構部、モータ等の各機能部の動作を制御する。動作制御部７７は、ビートトラッキング処理に関係する動作の制御、及び音声認識に関係する制御以外のロボット１の動作（例えば歩行、ダンス、発話）に関する制御を行う。また、動作制御部７７は、各機構部、モータ等に対する動作指示を、動作検出部２０に出力する。
例えば、収音された音響信号から認識部４０によってビート間隔が検出された場合、動作制御部７７は、認識されたビート間隔に合わせてロボット１がダンスするように制御する。あるいは、収音された音声信号から認識部４０によって疑問文が認識された場合、動作制御部７７は、認識された疑問文に対する返答の音声信号を音声再生部８０から出力するように制御する。また、ロボット１が、例えばＬＥＤ（発光ダイオード）等を有する場合、動作制御部７７は、認識されたビート間隔に合わせてＬＥＤを点灯するように制御するようにしてもよい。

音声再生部８０は、制御部７０の制御に応じて、音声信号を再生する。音声再生部８０は、例えば、制御部７０から入力されたテキストを音声信号に変換し、変換した音声信号を音声再生部８０が備えるスピーカから発する。

図２は、本実施形態に係るロボット１における処理手順の一例のフローチャートである。
（ステップＳ１）収音部１０は、Ｎチャネルの音響信号を収録する。
（ステップＳ２）音源分離部３２は、音源定位部３１から入力された音源方向に基づいて、収音部１０によって収録されたＮチャネルの音響信号を、例えば独立成分分析法を用いて音声信号と音楽信号とに分離する。

（ステップＳ３）自己雑音抑圧部３３は、動作検出部２０から入力された動作信号に基づいて、自己雑音を推定し、音源分離部３２から入力された音声信号と音響信号に対して各々、自己雑音成分を抑圧する。
（ステップＳ４）音楽特徴量推定部４１は、自己雑音抑圧部３３から入力された音楽信号に対して、ビートトラッキング処理を行う。次に、音楽特徴量推定部４１は、ビートトラッキング処理によって検出したビート間隔を示す情報を、動作制御部７７に出力する。
（ステップＳ５）音楽特徴量推定部４１は、信頼度ｃｆ_Ｍ（ｎ）を算出し、算出した信頼度ｃｆ_Ｍ（ｎ）を音楽用適応度関数演算部５１及び音声用適応度関数演算部５２に出力する。

（ステップＳ６）自己雑音推定部４２は、動作検出部２０から入力された動作信号に基づいて、自己雑音のレベルを算出し、算出した自己雑音のレベルを信頼度ｃｆ_Ｅ（ｎ）として、音楽用適応度関数演算部５１及び音声用適応度関数演算部５２に出力する。

（ステップＳ７）音声認識部４３は、自己雑音抑圧部３３から入力された音声信号に対して音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。次に、音声認識部４３は、音声認識した発話内容を示す情報を、動作制御部７７に出力する。
（ステップＳ８）音声認識部４３は、認識過程で算出したコスト関数によって与えられた各々評価された単語の確からしさに基づく信頼度ｃｆ_Ｓ（ｎ）を算出し、算出した信頼度ｃｆ_Ｓ（ｎ）を音楽用適応度関数演算部５１及び音声用適応度関数演算部５２に出力する。

（ステップＳ９）音楽用適応度関数演算部５１は、認識部４０から入力された信頼度ｃｆ_Ｓ（ｎ）、ｃｆ_Ｅ（ｎ）、及びｃｆ_Ｍ（ｎ）を用いて、音楽用適応度関数Ｆ_Ｍ（ｎ）を算出し、算出した音声用適応度関数Ｆ_Ｍ（ｎ）を決定部６０に出力する。
（ステップＳ１０）音楽動作調停部６１は、音楽用適応度関数演算部５１によって算出された音楽用適応度関数Ｆ_Ｍ（ｎ）に基づいて、ビートトラッキング処理の精度を上げる音楽に対する動作を決定し、またはロボット１の動作を決定する。次に、制御部７０は、音楽動作調停部６１によって決定された動作を行うように、ロボット１を制御する。

（ステップＳ１１）音声用適応度関数演算部５２は、認識部４０から入力された信頼度ｃｆ_Ｓ（ｎ）、ｃｆ_Ｅ（ｎ）、及びｃｆ_Ｍ（ｎ）を用いて音声用適応度関数Ｆ_Ｓ（ｎ）を算出し、算出した音声用適応度関数Ｆ_Ｓ（ｎ）を決定部６０に出力する。
（ステップＳ１２）音声動作調停部６２は、音声用適応度関数演算部５２によって算出された音声用適応度関数Ｆ_Ｓ（ｎ）に基づいて、音声認識処理の精度を上げるための動作を決定し、またはロボット１の動作を決定する。次に、制御部７０は、音声動作調停部６２によって決定された動作を行うように、ロボット１を制御する。
以上で、ロボット１の処理を終了する。

なお、ステップ（Ｓ９とＳ１０）、ステップ（Ｓ１１、Ｓ１２）を行う順番は、ステップ（Ｓ９とＳ１０）とステップ（Ｓ１１、Ｓ１２）のどちらが先でもよく、あるいは、ステップ（Ｓ９とＳ１０）と（Ｓ１１、Ｓ１２）を平行して行うようにしてもよい。

（ＧＨＤＳＳ法）
ここで、音源分離部３２で用いられるＧＨＤＳＳ法について説明する。ＧＨＤＳＳ法は、ＧＣ（幾何拘束に基づく音源分離）法と、ＨＤＳＳ（Ｈｉｇｈ−ｏｒｄｅｒＤｉｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ；高次元無相関化に基づく音源分離）法を統合した手法である。ＧＨＤＳＳ法は、1種のブラインド分離処理（ｂｌｉｎｄｄｅｃｏｎｖｏｌｕｔｉｏｎ）である。ＧＨＤＳＳ法は、分離行列（ｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）［Ｖ（ω）］を逐次に算出し、入力音声ベクトル［ｘ（ω）］に算出した分離行列［Ｖ（ω）］を乗算して音源ベクトル［ｕ（ω）］を推定することで、音源毎の音響信号に分離する手法である。分離行列［Ｖ（ω）］は、各音源から収音部１０が備える各マイクロホンまでに伝達関数を要素として有する伝達関数［Ｈ（ω）］の擬似逆行列（ｐｓｅｕｄｏ−ｉｎｖｅｒｓｅｍａｔｒｉｘ）である。入力音声ベクトル［ｘ（ω）］は、各チャネルの音響信号の周波数領域係数を要素として有するベクトルである。音源ベクトル［ｕ（ω）］は、各音源が発する音響信号の周波数領域係数を要素として有するベクトルである。

ＧＨＤＳＳ法は、分離行列［Ｖ（ω）］を算出するとき、分離尖鋭度（ｓｅｐａｒａｔｉｏｎｓｈａｒｐｎｅｓｓ）Ｊ_ＳＳ、幾何制約度（ｇｅｏｍｅｔｒｉｘｃｏｎｓｔｒａｉｎｔｓ）Ｊ_ＧＣといった２つのコスト関数を、それぞれ最小化するように音源ベクトル［ｕ（ω）］を推定する。
ここで、分離尖鋭度Ｊ_ＳＳは、１つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、式（２）で表される。

式（２）において、‖…‖^２は、フロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）を示す。＊は、ベクトル又は行列の共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。また、ｄｉａｇ（…）は、…の対角要素からなる対角行列（ｄｉａｇｏｎａｌｍａｔｒｉｘ）を示す。
幾何制約度Ｊ_ＧＣは、音源ベクトル［ｕ（ω）］の誤差の度合いを表す指標値であり、例えば、次式（３）で表される。

式（３）において、［Ｉ］は、単位行列を示す。

次に、フィルタリング部３０の詳細な構成について説明する。
図３は、本実施形態に係るフィルタリング部３０の構成の一例を説明するブロック図である。図３に示すように、音源分離部３２は、第１音源分離部３２１及び第２音源分離部３２２を備えている。また、自己雑音抑圧部３３は、テンプレート推定部３３１、テンプレート記憶部３３２、スペクトル減算部３３３、及びテンプレート更新部３３４を備えている。

第１音源分離部３２１は、収音部１０から入力され、時間領域で表された音響信号を、周波数領域で表された複素入力スペクトルに変換する。第１音源分離部３２１は、例えば、音響信号に対して、所定のフレーム毎に離散フーリエ変換（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＤＦＴ）を行う。
第１音源分離部３２１は、音源定位部３１から入力された音源方向を示す情報に基づいて、周知の手法を用いて、変換された複素入力スペクトルを音楽信号と音声信号とに分離する。第１音源分離部３２１は、分離した音楽信号と音声信号の各スペクトルを、自己雑音抑圧部３３のスペクトル減算部３３３に出力する。
第２音源分離部３２２は、自己雑音抑圧部３３のテンプレート推定部３３１から入力された自己雑音成分のパワースペクトルの推定値を、スペクトル減算部３３３に出力する。

テンプレート推定部３３１は、動作検出部２０から入力された動作信号に基づいて、テンプレート記憶部３３２に記憶されている情報を用いて自己雑音成分のパワースペクトルを推定する。テンプレート推定部３３１は、推定した自己雑音成分のパワースペクトルを、テンプレート更新部３３４及び音源分離部３２の第２音源分離部３２２に出力する。ここで、テンプレート推定部３３１は、入力された動作信号に基づいて、テンプレート記憶部３３２に記憶されている特徴ベクトルを選択することで、自己雑音成分のパワースペクトルを推定する。なお、動作信号とは、ロボット１に対する動作指示信号、ロボット１が有するモータの駆動信号であってもよい。

テンプレート記憶部３３２には、所定の環境において、ロボット１に各種動作をさせたときに取得した音響信号の特徴ベクトルと雑音スペクトルベクトルとロボット１の動作信号とが対応付けて記憶されている。
スペクトル減算部３３３は、第１音源分離部３２１から入力された音楽信号と音声信号の各スペクトルから各々、第２音源分離部３２２から入力された自己雑音成分のパワースペクトルを減算することで、自己雑音成分を抑圧する。スペクトル減算部３３３は、自己雑音成分を抑圧した音楽信号のスペクトルを認識部４０の音楽特徴量推定部４１に出力し、自己雑音成分を抑圧した音声信号のスペクトルを認識部４０の音声認識部４３に出力する。

テンプレート更新部３３４は、テンプレート推定部３３１が出力した自己雑音成分のパワースペクトルに基づいて、テンプレート記憶部３３２に記憶されている情報を更新する。テンプレート記憶部３３２に記憶されている情報は、例えば、ロボット１が初期状態の時に取得したものであるため、ロボット１が有するモータや機構部の劣化によって、自己雑音成分が変化する場合がある。このため、テンプレート更新部３３４は、テンプレート記憶部３３２に記憶されている情報を更新する。テンプレート更新部３３４は、テンプレート記憶部３３２に記憶されている情報を更新するとき、それまで記憶されていた古い情報を削除するようにしてもよい。また、テンプレート更新部３３４は、テンプレート記憶部３３２に記憶されているテンプレートと一致しない場合、収音部１０が収録した音響信号の特徴ベクトルと雑音スペクトルベクトルとロボット１の動作信号とを新たに関連付けて、テンプレート記憶部３３２に記憶させる。また、テンプレート更新部３３４は、ロボット１に所定の動作を行わせることで、学習によってテンプレート記憶部３３２に情報を更新するようにしてもよい。なお、テンプレート更新部３３４が更新するタイミングは、所定のタイミングであってもよく、あるいはロボット１が音楽や音声を認識しているときであってもよい。

図４は、本実施形態に係る自己雑音抑圧部３３におけるテンプレートの学習に関する処理手順の一例のフローチャートである。
（ステップＳ１０１）テンプレート更新部３３４は、学習用のテンプレートを生成する。
（ステップＳ１０２）テンプレート推定部３３１は、ＮＮ（ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）法によって、ステップＳ１０１で生成されたテンプレートがテンプレート記憶部３３２に記憶されているか探索する。

（ステップＳ１０３）テンプレート推定部３３１は、自己雑音以外の雑音に対応するテンプレートが検出されたか否かを判別する。
テンプレート推定部３３１は、自己雑音以外の雑音に対応するテンプレートが検出されたと判別した場合（ステップＳ１０３；ＹＥＳ）、ステップＳ１０４に進み、自己雑音以外の雑音に対応するテンプレートが検出されていないと判別した場合（ステップＳ１０３；ＮＯ）、ステップＳ１０５に進む。

（ステップＳ１０４）テンプレート推定部３３１は、自己雑音以外の雑音に対応するテンプレートを、テンプレート記憶部３３２から削除する。テンプレート推定部３３１は、ステップＳ１０４が終了後、処理をステップＳ１０１に戻す。
（ステップＳ１０５）テンプレート推定部３３１は、類似するテンプレートがテンプレート記憶部３３２にあるか否かを判別する。テンプレート推定部３３１は、類似するテンプレートがテンプレート記憶部３３２にあると判別した場合（ステップＳ１０５；ＹＥＳ）、ステップＳ１０６に進み、類似するテンプレートがテンプレート記憶部３３２にないと判別した場合（ステップＳ１０５；ＮＯ）、ステップＳ１０７に進む。

（ステップＳ１０６）テンプレート推定部３３１は、例えば、類似するテンプレートを１つにまとめることで、テンプレート記憶部３３２の情報を更新する。テンプレート推定部３３１は、ステップＳ１０６が終了後、処理をステップＳ１０１に戻す。
（ステップＳ１０７）テンプレート推定部３３１は、新たな学習用のテンプレートを追加する。

（ステップＳ１０８）テンプレート推定部３３１は、テンプレート記憶部３３２の大きさが、予め定められている最大の大きさに達したか否かを判別する。テンプレート推定部３３１は、テンプレート記憶部３３２の大きさが予め定められている最大の大きさに達したと判別した場合（ステップＳ１０８；ＹＥＳ）、ステップＳ１０９に進む。または、テンプレート推定部３３１は、テンプレート記憶部３３２に記憶されているテンプレートの個数が予め定められている最大の大きさに達していないと判別した場合（ステップＳ１０８；ＮＯ）、処理をステップＳ１０１に戻す。

（ステップＳ１０９）テンプレート推定部３３１は、テンプレート記憶部３３２に記憶されているテンプレートのうち、例えばテンプレート記憶部３３２に記憶された日時が古いテンプレートを削除する。なお、テンプレート記憶部３３２に記憶されるテンプレートには、例えば、テンプレートが登録された日時も関連付けられて記憶されている。
以上で、自己雑音抑圧部３３におけるテンプレートの学習に関する処理を終了する。

なお、図４に示したテンプレートの学習に関する処理は、一例であり、テンプレートの学習は、他の方法で行う用にしてもよい。例えば、ロボット１に定期的に、予め定められている複数の動作を行わせ、テンプレート記憶部３３２に記憶されている情報を全て更新するようにしてもよい。なお、予め定められている複数の動作とは、例えば、各機構部の単独動作、複数の機構部のうちいくつかを組み合わせた動作等である。
また、テンプレート記憶部３３２に記憶されている情報は、例えば、ネットワーク経由で接続されているサーバに記憶されていてもよい。この場合、サーバには、複数のロボット１に関するテンプレートを記憶させておき、複数のロボット１がテンプレートを共用するようにしてもよい。

次に、音楽特徴量推定部４１の構成と動作について説明する。
図５は、本実施形態に係る音楽特徴量推定部４１の構成の一例のブロック図である。図５に示すように、音楽特徴量推定部４１は、特徴量抽出部４０１、エージェント導入部４０２、マルチエージェント部４０３、エージェント調停部４０４、状態リカバリー部４０５、楽曲推定部４０６、及び楽曲データベース４０７を備えている。

特徴量抽出部４０１は、フィルタリング部３０の自己雑音抑圧部３３から入力された音楽信号から、その物理的な特徴を表す音響特徴量を抽出し、抽出した音響特徴量をエージェント導入部４０２に出力する。特徴量抽出部４０１は、音響特徴量として、例えば、振幅周波数特性として周波数毎の振幅を表す音響スペクトログラム、自己相関、音響スペクトログラムの時間差分に基づく距離値を算出する。

エージェント導入部４０２は、区間推定部（ＰｅｒｉｏｄＨｙｐｏｔｈｅｓｅｓＩｎｄｕｃｔｉｏｎ）４０２１、位相推定部（ＰｈａｓｅＨｙｐｏｔｈｅｓｅｓＳｅｌｅｃｔｉｏｎ）４０２２、及びエージェントセットアップ部４０２３を備えている。

区間推定部４０２１は、特徴量抽出部４０１から入力された音響特徴量から、区間を区別するために、シンボリックイベントリスト（ｓｙｍｂｏｌｉｃｅｖｅｎｔｌｉｓｔ）から直接選択し、ピーク検出後、周期関数（ｐｅｒｉｏｄｉｃｉｔｙｆｕｎｃｔｉｏｎ）を継続する。なお、周期関数として、例えば自己相関関数（Ａｕｔｏｃｏｒｒｅｌａｔｉｏｎｆｕｎｃｔｉｏｎ；ＡＣＦ）を用いる。
区間推定部４０２１は、次式（４）に示されるように、特徴量抽出部４０１から入力された音響特徴量に基づいて、周期関数Ａ(τ)を計算する。

式（４）において、ｎはフレーム数、Ｓ^〜Ｆ（ｎ）は、フレームｎにおける平滑化されたスペクトルの固定値であり、Ｉは導入する窓の長さである。この周期関数は、例えば、Ｋ個の極大値を探索する適応ピーク検出アルゴリズムを適用し、解析される。ここで、検出されたピークに対応するタイムラグτから、次式（５）に示される周期仮説Ｐの初期集合を構成する。

式（５）において、δは固定されたしきい値パラメータであり、例えば実験により０．７５に設定する。また、Ｔは、選択されたテンポの範囲であり、例えば６ｍｓｅｃである。また、ａｒｇｍａｘは、Ｋ個の極大値に対応する定義域の元の集合（ａｒｇｕｍｅｎｔｏｆｔｈｅｍａｘｉｍｕｍ）である。また。ｒｍｓは、平均二乗偏差(ＲｏｏｔＭｅａｎＳｑｕａｒｅ)である。

位相推定部４０２２は、次式（６）を用いて、全てのγ_ｉ ^ｊについてΔｓ（ｅｒｒｏｒ_ｉ ^ｊ）スコアの総計を計算して、ロースコアｓ_ｉ，ｊ ^ｒａｗを、各Γ_ｉ ^ｊテンプレートに対して計算する。

エージェントセットアップ部４０２３は、位相推定部４０２２によって算出されたｓ_ｉ，ｊ ^ｒａｗを用いて、次式（７）により相関スコア（ｒｅｌａｔｉｏｎａｌｓｃｏｒｅ）ｓ_ｉ ^ｒｅｌを各エージェントに与える。

また、エージェントセットアップ部４０２３は、シングルおよびリセットオペレーションの推定モードに対する最終のスコアｓ_ｉを、次式（８）によって定義する。

式（８）において、ｍａｘは、最大値を表す。
すなわち、エージェント導入部４０２は、ビート間隔とビートの位相に関する仮の初期セットと新規セットとをエージェントとして生成、または再帰的に再生成することで、ビート間隔の検出を行う。さらに、本実施形態では、複数のエージェントを生成して用いる。

マルチエージェント部４０３は、仮のエージェントを増やし、オンラインでのエージェントの生成を続行させ、または消滅させ、あるいは順序づけする。そして、マルチエージェント部４０３は、データの先取りなしにリアルタイムでＩＢＴを実行することで、入力される音楽信号のビート間隔を示す情報を出力する。また、マルチエージェント部４０３は、ビートトラッキング処理をリカバリー、またはリセットする必要が発生した場合、ビートトラッキング処理をリカバリーするためのリカバリー指示、またはリセットするためのリセット指示を、状態リカバリー部４０５に出力する。なお、ビートトラッキング処理をリカバリー、またはリセットする必要が発生した状態とは、ビートトラッキングの精度が落ちていると判断された状態である。この状態の判定は、後述するように、周知の指標を用いて、実験によって設定した。

エージェント調停部４０４は、現在のチャンクのベストスコアの平均値￣ｓｂ_ｎと一つ前の値￣ｓｂ_ｎ-thopを比較して得られる変化値￣δｓｂ_ｎを、式（９）によって算出する。なお、上付き￣は、平均値を表す。

式（９）において、ｎは、現在のフレーム時間、Ｗは３秒であり、検討した中でチャンクサイズの中で最も良いスコアが測定された際の値である。また、￣ｓｂ（ｎ）は、フレームｎにおける測定された最も良いスコアである。また、ｓｂ_{ｎ−ｔｈｏｐ}は、前に比較されたスコアである。なお、新しいエージェントの導入条件は、例えば、次式（１０）である。

すなわち、エージェント調停部４０４は、δ_ｔｈとδ￣ｓｂとの論理積の値が、δ￣ｓｂ_ｎ−１以下であり、δ_ｔｈ（ただし、δ_ｔｈは０．００）未満であるとき、新しいエージェントを導入する。
そして、エージェント調停部４０４は、時刻が変化したとき、最も好ましいスコアの進行になるように、エージェントを変更していく。エージェント調停部４０４は、算出した現在の測定チャンクのδｓｂ_ｎを、信頼度ｃｆ_Ｓ（ｎ）として、変換部５０に出力する。また、エージェント調停部４０４は、このように最も好ましいスコアの進行になるようにエージェントを変更しながらビート間隔（テンポ）を推定し、推定したビート間隔（テンポ）を、楽曲推定部４０６及び制御部７０に出力する。

状態リカバリー部４０５は、マルチエージェント部４０３から入力されたリカバリー指示、または、制御部７０から入力されたリカバリー指示またはリセット指示に応じて、エージェント導入部４０２を、リカバリーまたはリセットするように制御する。

楽曲推定部４０６は、エージェント調停部４０４から入力されたビート間隔（テンポ）と、楽曲データベース４０７に格納されている楽曲のデータとに基づいて、周知の処方によって音楽のジャンル、及び楽曲のタイトルを推定する。そして、楽曲推定部４０６は、推定した音楽のジャンル、及び楽曲のタイトルを制御部７０に出力する。なお、楽曲推定部４０６は、特徴量抽出部４０１が抽出した音響特徴量も用いて、音楽のジャンル、及び楽曲のタイトルを推定するようにしてもよい。
楽曲データベース４０７には、複数の楽曲について、楽曲の特徴量、テンポ、タイトル、ジャンル等が関連付けられて格納されている。なお、楽曲データベース４０７には、楽曲の楽譜も楽曲に関連付けられて格納されていてもよい。

図６は、本実施形態に係るエージェントが変更された場合のエージェント期間の一例を説明する図である。図６において、横軸は時刻、縦軸はエージェント区間［ｂｐｍ（ｂｅａｔｓｐｅｒｍｉｎｕｔｅ）］である。図７は、本実施形態に係るエージェントが変更された場合のスコアの一例を説明する図である。図７において、横軸は時刻、縦軸はエージェントスコアである。
例えば、図６及び図７において、１２〜１３秒の間、及び２５〜２８秒の間、最も良いエージェントが順次、切り替わっている。一方、例えば２０〜２３秒、及び３３〜３７秒の間、選択されたエージェントが継続して使用されている。
図７の太線に示したように、音楽特徴量推定部４１は、スコアが最も良いエージェントを継続して使用していくことで、安定してビート間隔を検出することができる。

次に、変換部５０の動作について説明する。
ここで、ビートトラッキング結果の信頼度ｃｆ_Ｓ（ｎ）のコストをＣ_Ｓ（ｎ）、音声認識した結果の信頼度ｃｆ_Ｍ（ｎ）のコストをＣ_Ｍ（ｎ）、自己雑音推定部４２が算出した信頼度ｃｆ_Ｅ（ｎ）のコストをＣ_Ｅ（ｎ）とする。また、信頼度ｃｆ_Ｓ（ｎ）に対するしきい値Ｔ_Ｓ、信頼度ｃｆ_Ｍ（ｎ）に対するしきい値Ｔ_Ｍ、信頼度ｃｆ_Ｅ（ｎ）に対するしきい値Ｔ_Ｅとする。以下では、信頼度をｃｆ_Ｙ（ただし、Ｙは、Ｍ、Ｓ、及びＥ）、コストをＣ_Ｙ（ｎ）と表し、しきい値をＴ_Ｙと表す。

本実施形態では、コストを次式（１１）のように定義する。

すなわち、信頼度ｃｆ_Ｙ（ｎ）がしきい値Ｔ_Ｙ未満であるとき、コストＣ_Ｙ（ｎ）は１である。あるいは、信頼度ｃｆ_Ｙ（ｎ）がしきい値Ｔ_Ｙ以上であるとき、コストＣ_Ｙ（ｎ）は０である。

次に、音楽用適応度関数演算部５１は、適応度関数Ｆ_Ｍ（ｎ）において、これらのコストに重み付けと結合とを、次式（１２）のように行う。また、音声用適応度関数演算部５２は、適応度関数Ｆ_Ｓ（ｎ）において、これらのコストに重み付けと結合とを、次式（１２）のように行う。

式（１２）において、Ｗ_Ｘ ^Ｙ（ただし、Ｘは、Ｍ、Ｓ、及びＥ）は、各適応度関数における各コストに対する重み付けである。
これらの適応度関数は、適応度の異なるレベルをとる。適応度の異なるレベルに従って、音楽動作調停部６１は、音楽用適応度関数演算部５１が算出した音楽用適応度関数Ｆ_Ｍ（ｎ）に基づいて、ロボット１に対する制御の判別を行う。また、音声動作調停部６２は、音声用適応度関数演算部５２が算出した音声用適応度関数Ｆ_Ｓ（ｎ）に基づいて、ロボット１に対する制御の判別を行う。
各重み付けは、例えばＷ_Ｍ ^Ｓ＝０、Ｗ_Ｍ ^Ｍ＝２、Ｗ_Ｍ ^Ｅ＝１、Ｗ_Ｓ ^Ｓ＝２、Ｗ_Ｓ ^Ｍ＝０、及びＷ_Ｓ ^Ｅ＝１である。この場合、適応度関数の値は、例えば、０．１、２、及び３のいずれか１つである。適応度関数の値が小さいとき、現状の動作を維持する。このような動作を、本実施形態では、アクティブ（ＡＣＴＩＶＥ）な動作であると定義する。一方、適応度関数の値が大きいとき、現状の動作を停止させる。このような動作を、本実施形態では、プロアクティブ（ＰＲＯＡＣＴＩＶＥ）な動作であると定義する。

図８は、本実施形態に係る音声用適応度関数Ｆ_Ｓ（ｎ）によって判別される動作の一例を示す図である。図９は、本実施形態に係る音楽用適応度関数Ｆ_Ｍ（ｎ）によって判別される動作の一例を示す図である。符号８０１で囲んだ四角内は、音楽に対する行動の例を示している。また、符号８０２で囲んだ四角内は、音声に対する行動の例を示している。
音声動作調停部６２は、符号８０１のように、Ｆ_Ｓ（ｎ）が０又は１のとき、現在の動作を継続するように動作を決定する。例えば、ロボット１が出力されている音楽に合わせてダンスをしている場合、動作継続部７４は、音声動作調停部６２が決定した動作内容に従って、ロボット１にダンスの動作を継続するように制御する。
また、音声動作調停部６２は、符号８０１のように、Ｆ_Ｓ（ｎ）が２のとき、自己雑音を減少させるように動作を決定する。この場合、例えば、音声認識処理における認識率が低下していることが考えられる。このため、雑音低減部７５は、音声動作調停部６２が決定した動作内容に従って、例えば、ロボット１に動作音が小さくなるように動作が少なくなるように、または動作が遅くように制御する。
あるいは、音声動作調停部６２は、符号８０１のように、Ｆ_Ｓ（ｎ）が３のとき、現在の動作を停止するように動作を決定する。この場合、例えば、音声認識処理が困難になっていることが考えられる。このため、動作停止部７６は、音声動作調停部６２が決定した動作内容に従って、ロボット１にダンスの動作を停止するように制御する。

音楽動作調停部６１は、符号８０２のように、Ｆ_Ｍ（ｎ）が０又は１のとき、現在の動作を継続するように動作を決定する。例えば、動作継続部７１は、音楽動作調停部６１が決定した動作内容に従って、現在の設定のままビートトラッキング処理の動作を継続するように制御する。
また、音楽動作調停部６１は、符号８０２のように、Ｆ_Ｍ（ｎ）が２のとき、ビートトラッキング処理をリカバリーさせるように動作を決定する。この場合、例えば、ビートトラッキング処理におけるビート間隔の検出精度が低下していることが考えられる。このため、リカバリー部７２は、音楽動作調停部６１が決定した動作内容に従って、例えば、音楽特徴量推定部４１にリカバリー指示を出力する。
あるいは、音楽動作調停部６１は、符号８０２のように、Ｆ_Ｍ（ｎ）が３のとき、現在の動作を停止するように動作を決定する。この場合、例えば、ビートトラッキング処理が困難になっていることが考えられる。このため、リセット部７３は、音楽動作調停部６１が決定した動作内容に従って、例えば、音楽特徴量推定部４１にリセット指示を出力する。

（実験結果）
次に、本実施形態に係るロボット１（図１）を動作させて行った実験例について説明する。実験は、次の条件で行った。収音部１０として、人型ロボット（ｈｕｍａｎｏｉｄｒｏｂｏｔ）の頭部の外周に装着されたマイクロホンを８個用いた。
テンプレート記憶部３３２に記憶させるテンプレートを学習させる際、テンポの範囲が４０〜８０［ｂｐｍ］の中からランダムにテンポを抜き出し、３つのダンス動作を５分間行わせた。
音響モデルを学習させる際、日本語の学習用のデータベース（ｔｒａｉｎｉｎｇｄａｔａｂａｓｅ）として、日本語新聞記事文（ＪＮＡＳ；ＪａｐａｎｅｓｅＮｅｗｓｐａｐｅｒＡｒｔｉｃｌｅＳｅｎｔｅｎｃｅ）コーパスを用いた。また、英語の学習用のデータベースとして、英字新聞から抜き出したコーパスを用いた。

実験に使用した音源は、部屋の大きさが４．０［ｍ］（メートル）×７．０［ｍ］×３．０［ｍ］、残響時間ＲＴ２０が０．２秒であるノイジィーな部屋で録音した。音楽信号は、−２［ｄＢ］の音楽信号対雑音比（Ｍ−ＳＮＲ）で記録した。また音声信号は、−３［ｄＢ］の音声信号対雑音比（Ｓ−ＳＮＲ）で記録した。また、実験に使用した音源は、記録ごとに異なるスピーカからの音声を使用して、８チャネルのオーディオ信号を１０分記録した。

また、実験に使用した音楽の種類は、ポップ、ロック、ジャズ、ヒップホップ、ダンス、フォーク、ソウルの７種類である。また、使用した音楽のテンポは、８０〜１４０［ｂｐｍ］であり、平均１０９±１７．６［ｂｐｍ］である。そして、実験にしようした音楽のデータは、上述した音楽を抜粋して２０秒毎につなげて作成した１０分間の録音である。
実験に使用した音声は、４人の男性の音声、４人の女性の音声である。この音声を、上記した条件で録音して、１０分感の音声データを作成した。なお、音声データは、日本語の場合、単語のそれぞれの間におよそ1秒の無音ギャップを置いて、連続したストリームとして連結した。

まず、ロボット１のダンスにおける動作とビートとの同期を説明する。
図１０は、本実施形態に係るロボット１のダンスにおける動作とビートとの同期を説明する図である。実験では、ロボット１は、音楽に合わせて動作を行うことで、ダンスを行う。図１０の符号５０１が示す画像領域のように、ロボット１が右腕を上げ、左腕を下げた姿勢をポーズ１と定義する。また、符号５０２が示す画像領域のように、ロボット１が左腕を上げ、右腕を下げた姿勢をポーズ２と定義する。
ポーズ１及びポーズ２は、ビートと同期を取って動作が行われる。ポーズ１をイベントb’_n+1とし、イベント１の後、次のステップｓｔｅｐ_ｎ＋１に遷移する。また、ポーズ２をイベントb’_n+２とし、イベント１の後、次のステップｓｔｅｐ_ｎ＋２に遷移する。
そして、通信遅延時間、ステップ遷移要求、実際の動作との間には、次式（１３）で示すような関係がある。

式（１３）において、Δbは、最後の二つのビートのイベントの時間差を推定することによって得られる所定の電流ＩＢＩ（インタービート間隔；Ｉｎｔｅｒ−Ｂｅａｔ−Ｉｎｔｅｒｖａｌ）である。また、ｂ_ｎとｂ_ｎ−１は、ｂ_ｔとｄ_ｎによって推定される最後のロボット１の動作応答の遅延である。この遅延は、次式（１４）ように、推定されるすべてのビートのイベントｂ_ｎの時に再計算される。

式（１４）において、ｂ’_ｎ−１は、前のビートイベント予測のタイミングである。また、ｒ_ｎ−１は、最後のステップの遷移要求に対する動作応答のタイミングを表す。この応答タイミングｒ_ｎ−１は、次式（１５）のように、ロボット１が最後のステップの遷移要求に応じて移動を開始した時間枠、nで与えられる。

式（１５）において、E（n）は、ロボット１の関節の時間枠nにおける平均速度を表す。また、ｓ_{ｔｈｒｅｓ}＝０．１は、ロボット１が停止したり、移動していると考えられる全てに境界を目印にするためのE（ｎ）に対する実証的しきい値である。
この取り決めに基づいて、ロボット１が新たなステップの際に移動している場合に遷移要求が来た場合、直ちにステップは、次に遷移する。あるいは、ロボット１は、既に次のステップに移行する前に、次回のビートイベント予測の時に現在のステップ、その停止を終える。
このような取り決めによって、通信速度の遅延の影響をなくして、ロボット１にビートに合わせてダンスを行わせた。

ここで、ビートトラッキングの定量化について説明する。ビートトラッキングには、継続性が必須ではない可韻律レベルであるＡＭＬｔ（ＡｌｌｏｗｅｄＭｅｔｒｉｃａｌＬｅｖｅｌｓ，ｃｏｎｔｉｎｕｉｔｙｎｏｔｒｅｑｕｉｒｅｄ）を用いた。このＡＭＬｔに基づいて、以下の評価値を導入した。ＡＭＬｔ_ｓは、全体の流れの上の正確さを測定したものである。また、ＡＭＬｔ_ｅは、全体の流れの正確さの測定により連結した音楽の抜粋に関する個々の評価をシミュレートする。ただし、ＡＭＬｔ_ｅは、各音楽推移の後に最初の５秒を廃棄する。

さらに、各音楽推移で、反応時間(ｒ_ｔ)を測定するために、そして、推移のタイミング間ｔ_ｔと、音楽の抜粋の中に、最初の４つの連続する正確なビートが含まれている最初のビートタイミングｂ_ｒとの間で、ｒ_ｔを時差のように｜ｂ_ｒ−ｔ_ｔ｜と定義する。

次に、音声認識率の評価は、平均の単語認識率(ＷｏｒｄＣｏｒｒｅｃｔＲａｔｅ；ＷＣＲ)の点から測定した。なお、ＷＣＲは、実例のその総数で割られたテスト・セットからの正確に認識された言葉の数として定義する。

ダンスと、音楽のビートの同期の程度の測定のために、上述したＡＭＬｔ_ｓとＡＭＬｔ_ｅを使用した。これらは、音ストリームから検出されたビートの時間的整合を、ダンスステップ推移のタイミングと比較した。具体的には、どのビートが、ロボット１のダンスに同期を行わせるために使われたかを確認した。また、ダンスステップの遷移のタイミングを取得するために、参考文献２に記載されている平均速度信号の最小値検出アルゴリズムを適用し、平均速度極小値のタイミングを取得した。

次に、本実施形態のロボット１を評価するために、ビートトラッキングと音声認識の精度が異なる前処理の手法を適用することから得られた異なる入力信号を使用して測定した。なお、以下において、ＥＮＳとは、自己雑音抑圧部３３による自己雑音抑圧処理である。
１）１チャネル：シングル（正面）マイクから収録された音響信号
２）１チャネル＋ＥＮＳ：ＥＮＳによって１チャネルをリファイン（ｒｅｆｉｎｅｄ）
３）８チャネル：8チャネルのマイクアレイから収録された音響信号を、音源定位部３１と音源分離部３２を適用することにより、分離された信号。この分離された音声と音楽信号は、それぞれ、音声認識部４３と音楽特徴量推定部４１に出力される。
４）8チャネル＋ＥＮＳ：ＥＮＳによって８チャネルをリファイン。
さらに、ビートトラッキングを目的とした音響環境を調節する効果を観察するために、非調整（ｎｏｎ−ｒｅｇｕｌａｔｅｄ）の音響信号上ＩＢＴの性能を比較した。この場合、上述したように、ＩＢＴ−デフォルトである調整の音響信号上ＩＢＴのパフォーマンスに対して、ＩＢＴ調節である音楽処理のための信頼性の低い音響条件に直面したときの要求を通して、ビートトラッキング処理をリカバリーするか、またはリセットする。

図１１は、ＡＭＬｔ_ｓ及びＡＭＬｔ_ｅスコアの観点から、平均ダンスビート同期の結果の一例を説明する図である。図１２は、５ｂｐｍ刻みで音楽テンポの関数内ＡＭＬｔ_ｅスコアの分布の一例を説明する図である。図１３は、システムのすべての変種の平均音声認識結果の一例を説明する図である。図１４は、ＡＭＬｔ_ｓとＡＭＬｔ_ｅスコアの面でＩＢＴ−デフォルトとＩＢＴレギュラの全体的なビートトラッキング精度の一例を説明する図である。図１５は、平均反応時間とテストされた音楽のデータストリームで正常に処理遷移の数を説明する図である。

まず、ダンスの同期に関する結果を説明する。
図１１において、横軸はＡＭＬｔ_ｓ、ＡＭＬｔ_ｅを示し、縦軸はＡＭＬスコアを示す。図１１の符号１００１が示す画像のように、ビート同期ロボットダンスの動きを生成するための本実施形態のアルゴリズムは、ＡＭＬｔ_ｓスコアの観点から、ビート同期全体の６７．７％まで再現することができた。また、最初の５秒を破棄したことで効果的な各曲遷移をし、図１１の符号１００２が示画像のように、ＡＭＬｔ_ｅは７５．９％のスコアが得られた。ＡＭＬｔ_ｓとＡＭＬｔ_ｅのスコアの差８％は、ロボット１のモータ速度等の変化による影響であると考えられる。

図１２において、横軸はテンポ、縦軸はＡＭＬｔ_ｅのスコアを示す。図１２に示すように、テンポ４０〜６５ｂｐｍでは、ＡＭＬｔ_ｅのスコアは７０〜７５％であり、テンポ６５〜７５ｂｐｍでは、ＡＭＬｔ_ｅのスコアは８８〜９７％である。このパフォーマンスの違いは、平均速度最小値により決定ダンスステップの遷移のタイミングを取得するタイミングによるものであると考えられる。
低いテンポ（遅い遷移による）によって要求されるフラットな速度遷移よりも、高いテンポ（より速い遷移）が要求するピークの速度遷移を検出するために、より正確である。しかしながら、図１２に示したように、人間の知覚的には、ロボット１の動きは、テンポに同期して動作していることを意味している。

次に、単語認識率の結果について説明する。
図１３において、横軸は、１チャネル（ＩＢＴ−レギュラ）、１チャネル＋ＥＮＳ（ＩＢＴ−デフォルト）、８チャネル（ＩＢＴ−レギュラ）、及び８チャネル＋ＥＮＳ（ＩＢＴ−デフォルト）を示し、縦軸は、単語認識率を示している。図１３に示すように、前処理として音源定位部３１と音源分離部３２の実装（信号８チャネル）によって、平均で３５．８ｐｐ（ｐｅｒｃｅｎｔａｇｅｐｏｉｎｔｓ）の大幅な音声認識による単語認識率を改善することができた。

次に、音楽に対するビートトラッキングの結果について説明する。
図１４において、横軸は、１チャネル（ＩＢＴ−デフォルト）、１チャネル（ＩＢＴ−レギュラ）、１チャネル＋ＥＮＳ（ＩＢＴ−レギュラ）、８チャネル（ＩＢＴ−レギュラ）、及び８チャネル＋ＥＮＳ（ＩＢＴ−レギュラ）を示し、縦軸はＡＭＬｔスコアを示している。
図１４において、符号１２０１に示す画像は、ＩＢＴ−デフォルトにおけるＡＭＬｔ_ｓスコアを表し、符号１２０２に示す画像は、ＩＢＴ−デフォルトにおけるＡＭＬｔ_ｅスコアを表している。また、図１４において、符号１２０３、１２０５、１２０７、１２０９が示す画像は、ＩＢＴ−レギュラにおけるＡＭＬｔ_ｓスコアを表し、符号１２０４、１２０６、１２０８、１２１０が示す画像は、ＩＢＴ−レギュラにおけるＡＭＬｔ_ｅのスコアを表している。
図１４に示すように、１チャネル記録された信号において、ＩＢＴ−デフォルトに対してＩＢＴを規制した場合、ＡＭＬｔ_ｓが１８．５ｐｐ、ＡＭＬｔ_ｅが２２．５ｐｐ、各々ビートトラッキング精度が増加している。この意味合いは、同じ条件で１チャネル信号を、両方を比較すると精度の増加は、音楽の遷移における反応時間の１．６秒の減少に反映されることになる。
この結果、ＩＢＴ調節は±２．０秒、全ての信号条件にわたって、その結果（平均値Ｐ＝０．７６±０．１８で）のうち、統計的有意性なしで４．９の平均反応時間で音楽遷移から回復することができた。
以上のように、８チャネル信号に本実施形態を適用するとき、最大６２．１％と７８．６％、それぞれ、ＡＭＬｔ_ｅで９．５ｐｐ、ＡＭＬｔ_ｓで８．９ｐｐのビートトラッキング精度の改善を実現した。

図１５において、横軸は図１４と同じであり、縦軸は、平均応答時間（ｒｅａｃｔｉｏｎｔｉｍｅ）を示している。また、図１５において、符号１３０１〜１３０４が示す画像は、ＡＭＬｔ_ｓの結果を示している。また、図１５において、縦線及び数値は、ビートトラッキング可能な音楽のストリーム数を表している。すなわち、ＩＢＴ−デフォルトの１チャネルでは、３０のストリーム中、２３のストリームを処理できるが、本実施形態によれば、２８〜３０のストリームを処理できることを示している。
また、図１４に示すように、ＩＢＴ−レギュラの１チャネル及び８チャネルでは、ＥＮＳを行うことでＡＭＬｔ_ｓを１．２ｐｐ、ＡＭＬｔ_ｅを１．０ｐｐ改善できた。
この結果、ＩＢＴ−レギュラでは、８チャネル＋ＥＮＳにおけるＡＭＬｔ_ｓが６３．１パーセント、ＡＭＬｔ_ｅで８０．０％、反応時間の平均４．８±３．０秒になった。

図１６〜図１９は、本実施形態に係るロボット１に音楽、音声を聞かせたときのロボット１の動作の結果の一例を説明する図である。図１６〜１８において、横軸は時刻を示している。また、図１６〜図１８の符号１５０１が示す画像は、音源定位の結果を示し、符号１５０２が示す画像は、ロボット１の腕、肩、Ｙ軸方向の肘の角度、Ｘ軸方向の肘の角度を各々示している。また、符号１５０３が示す画像は、機構部の平均移動速度を示し、符号１５０４に示す画像は、音声に対する適応度関数Ｆ_Ｓの値を示し、符号１５０５に示す画像は、ビートトラッキングに対する適応度関数Ｆ_Ｍの値を示している。符号１５０６に示す画像は、ロボット１と人間との相互の会話を示している。
また、符号１５０４に示す画像において、符号１５０４−１は、コスト関数Ｃ_Ｓの値を示し、符号１５０４−２は、コスト関数Ｃ_Ｅの値を示している。また、符号１５０５に示す画像において、符号１５０５−１は、コスト関数Ｃ_Ｍの値を示し、符号１５０５−２は、コスト関数Ｃ_Ｅの値を示している。また、符号１５０６に示す画像において、Ｈは人間の発話を示し、Ｒはロボット１の発話を示している。

図１６〜図１９の実験では、１つのスピーカから音楽を出力し、１人の話者が発話して実験を行った。
図１６において、まず、ロボット１は、音声信号に含まれる『音楽の再生をしてくださいませんか？』（Ｈ１）に対して、『ハイ！』（Ｒ１）と発話させた後、音楽の演奏を開始する（約２秒）。この時点で演奏されている音楽は、テンポが１２０ｂｐｍである。
次に、ロボット１は、音声信号に含まれる『ダンスはできますか？』（Ｈ２）に対して、『ハイ！』（Ｒ２）と発話させた後、ダンスを開始する（約１８秒）。ダンスの開始に伴い、符号１５０３に示す画像に示すように、機構部の動作速度が約２０秒から増加する。

次に、ロボット１は、音声信号に含まれる『この音楽のテンポはいくつですか？』（Ｈ３）に対して、『テンポは６０ｂｐｍです！』（Ｒ３）と発話させる（約２９秒）。時刻２９秒において、Ｃ_Ｓが０、Ｃ_Ｅが０であるためＦ_Ｓは０である。また、Ｃ_Ｍが１、Ｃ_Ｅが０であるためＦ_Ｍは２である。なお、各重み付け係数は、前述した値である。すなわち、時刻２９秒では、ビートトラッキング処理に支障が出ているため、ロボット１は、適応度関数Ｆ_Ｍの値が２のため、ビートトラッキング処理のリカバリー処理を行う。

次に、ロボット１は、音声信号に含まれる『音楽を変えて！』（Ｈ４）に対し、『ハイ！』（Ｒ４）と発話させた後、音楽を変更する（約３５秒）。この時点で演奏されている音楽は、テンポが１２２ｂｐｍである。
時刻約５５秒において、ロボット１は、音声信号に含まれる『この曲のタイトルは何ですか？』（Ｈ５）に対し、『タイトルは、ポロネーズです！』（Ｒ５）と発話させる。符号１５０４及び符号１５０５に示す画像のように、適応度関数Ｆ_Ｓの値は０のままであり、適応度関数Ｆ_Ｍの値は２である。ロボット１は、適応度関数Ｆ_Ｍの値が２のため、ビートトラッキング処理のリカバリー処理を行う。
次に、ロボット１は、音声信号に含まれる『ムードを変えて！』（Ｈ６）に対し、『ハイ！』（R６）と発話させた後、音楽を変更する（約５８秒）。この時点で演奏されている音楽は、テンポが１００ｂｐｍである。

図１７の時刻約６１秒において、符号１５０４及び符号１５０５に示す画像のように、コスト関数Ｃ_Ｓが０のため適応度関数Ｆ_Ｓの値は０になり、コスト関数C_Mが１のため適応度関数Ｆ_Ｍの値は２である。
次に、時刻約６２秒において、符号１５０４及び符号１５０５に示す画像のように、コスト関数Ｃ_Ｓが１のため適応度関数Ｆ_Ｓの値は１になり、コスト関数C_Mが１及びコスト関数Ｃ_Ｅが１のため適応度関数Ｆ_Ｍの値は３になる。このため、ロボット１は、適応度関数Ｆ_Ｍの値が３であるため、ビットトラッキング処理をリセットする。

次に、時刻約７８秒において、音声信号に含まれる『ムードを変えて！』（Ｈ７）を収録する。時刻約７８秒において、符号１５０４及び符号１５０５に示す画像のように、コスト関数Ｃ_Ｓが０のため適応度関数Ｆ_Ｓの値は０になり、コスト関数C_Mが１のため適応度関数Ｆ_Ｍの値は２である。しかしながら、ロボット１は、音声認識ができなかったため、『もう一度、言ってくださいませんか？』（R７）と発話させる。

次に、時刻約７８秒において、音声信号に含まれる『ムードを変えて！』（Ｈ８）を認識する。時刻約８８秒において、符号１５０４及び符号１５０５に示す画像のように、コスト関数Ｃ_Ｓが１のため適応度関数Ｆ_Ｓの値は２になり、コスト関数C_Mが１のため適応度関数Ｆ_Ｍの値は２である。この時点でロボット１は、音声認識ができなかったため、『もう一度、言ってくださいませんか？』（R８）と発話させる。一方、ロボット１は、適応度関数Ｆ_Ｓの値が２であるため、ロボット１の自己雑音を低減するために、ロボット１の動作速度を下げるように制御する制御する。
この結果、時刻約８４秒において、音声信号に含まれる『ムードを変えて！』（Ｈ９）に対し、『ハイ！』（R９）と発話させた後、音楽を変更する（約８６秒）。この時点で演奏されている音楽は、テンポが１３３ｂｐｍである。時刻約８６秒において、符号１５０４及び符号１５０５に示す画像のように、コスト関数Ｃ_Ｓが０のため適応度関数Ｆ_Ｓの値は０になり、コスト関数C_Mが１のため適応度関数Ｆ_Ｍの値は２である。このように、ロボット１が適応度関数の値に応じて、制御したため、時刻約８４秒の発話を認識できた。

音楽を変更し、ダンスを継続しているため、時刻約９５秒において、符号１５０４及び符号１５０５に示す画像のように、コスト関数Ｃ_Ｓが１のため適応度関数Ｆ_Ｓの値は１になり、コスト関数C_Mが１及びコスト関数Ｃ_Ｅが１のため適応度関数Ｆ_Ｍの値は３になる。このため、ロボット１は、適応度関数Ｆ_Ｍの値が３であるため、ビットトラッキング処理をリセットする。

以上のように、本実施形態に係る音響処理装置（ロボット１）は、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離部（音源分離部３２）と、分離部によって分離された音楽音響信号と音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧部（自己雑音抑圧部３３）と、音楽音響信号から音楽音響信号の特徴量を推定する音楽特徴量推定部（音楽特徴量推定部４１）と、音声音響信号から音声認識を行う音声認識部４３と、雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算部（自己雑音推定部４２）と、音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部（音楽用適応度関数演算部５１）と、音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算部（音声用適応度関数演算部５２）と、雑音処理信頼度と音楽特徴量推定信頼度と音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも１つの行動決定関数を算出し、算出した行動決定関数に応じた行動を決定する制御部７０と、を備える。

この構成によって、ロボット１は、話者の発話を認識し、認識した発話内容に応じて、音楽を変更する。また、ロボット１は、認識した発話内容に応じて、その音楽のテンポを答え、その音楽の曲名を答える音声を発する。
そして、図１６〜図１８に示したように、本実施形態のロボット１は、適応度関数の値に応じて、ロボット１の動作速度、演奏されている音楽の音量の変更、ビートトラッキング処理に対するリカバリー、ビートトラッキング処理に対するリセットを応答処理として選択し、選択した応答行動に応じて制御する。この結果、本実施形態のロボット１は、演奏されている音楽に対してビートを検出し、検出したビートに合わせてダンスを行う。このダンスに伴って、ロボット１が収録する音響信号には、自己雑音が増加する。このような状況下であっても、本実施形態のロボット１は、ビートトラッキング処理を継続し、さらに話者の発話を認識して、認識した発話に応じた行動を行う。

なお、図１６〜図１９に示した実験例は一例であり、ロボット１は、適応度関数Ｆ_ＳとＦ_Ｍの値に応じて、ロボット１の各機能部の応答行動を選択するようにしてもよい。例えば、適応度関数Ｆ_Ｓの値に応じて、収音部１０が収録した音響信号に対して音源定位部３１及び音源分離部３２に対して、増幅率を増やすように制御してもよい。例えば、適応度関数Ｆ_Ｓの値が２のとき、増幅率を１．５倍に制御し、適応度関数Ｆ_Ｓの値が３のとき、増幅率を２倍に制御するようにしてもよい。

また、本実施形態では、適応度関数の値が０、１、２、３の例を説明したが、これらの値は、２種類以上であればよい。すなわち、０と１の２つでもよく、０〜４の５個以上であってもよい。その場合であっても、これらの適応度関数の値に応じて、決定部６０が応答行動を選択し、選択した応答行動に応じて、ロボット１の各部を制御するようにしてもよい。

上述では、音響処理装置を組み込んでいる機器として、例えばロボット１の場合を例にとって説明したが、上述した実施形態では、これには限られない。音響処理装置は、図１に示したロボット１と同様の機能部を備えている。音響処理装置を組み込んでいる機器は、自装置による音響信号の処理中に動作し、動作音を周囲に放射する機器であればよい。そのような機器は、例えば、エンジン、ＤＶＤプレイヤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＰｌａｙｅｒ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等を搭載する車両等であってもよい。即ち、音響処理装置は、動作の制御対象であって、かつ、その動作によって生じる音を直接取得することができない機器に組み込まれるようにしてもよい。

なお、本発明におけるロボット１の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

（参考文献）
参考文献１；Ｊ．Ｌ．Ｏｌｉｖｅｉｒａ，Ｆ．Ｇｏｕｙｏｎ，Ｌ．Ｇ．Ｍａｒｔｉｎｓ，ａｎｄＬ．Ｐ．Ｒｅｉｓ， “ＩＢＴ：ａｒｅａｌｔｉｍｅｔｅｍｐｏａｎｄｂｅａｔｔｒａｃｋｉｎｇｓｙｓｔｅｍ，” ｉｎＩｎｔ．Ｓｏｃ．ｆｏｒＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＣｏｎｆ．，２０１０，ｐｐ．２９１−２９６.
参考文献２；Ｋ．Ｎａｋａｄａｉｅｔａｌ．， “Ａｃｔｉｖｅａｕｄｉｔｉｏｎｆｏｒｈｕｍａｎｏｉｄ，” ｉｎＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２０００，ｐｐ．８３２−８３９．

１…ロボット、１０…収音部、２０…動作検出部、３０…フィルタリング部、４０…認識部、５０…変換部、６０…決定部、７０…制御部、８０…音声再生部、３１…音源定位部、３２…音源分離部、３３…自己雑音抑圧部、４１…音楽特徴量推定部、４２…自己雑音推定部、４３…音声認識部４３、５１…音楽用適応度関数演算部、５２…音声用適応度関数演算部、６１…音楽動作調停部、６２…音声動作調停部、７１…動作継続部、７２…リカバリー部、７３…リセット部、７４…動作継続部、７５…雑音低減部、７６…動作停止部、７７…動作制御部、３３１…テンプレート推定部、３３２…テンプレート記憶部、３３３…スペクトル減算部、３３４…テンプレート更新部、４０１…特徴量抽出部、４０２…エージェント導入部、４０３…マルチエージェント部、４０４…エージェント調停部、４０５…状態リカバリー部、４０６…楽曲推定部、４０７…楽曲データベース

Claims

収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離部と、
前記分離部によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧部と、
前記音楽音響信号から前記音楽音響信号の特徴量を推定する音楽特徴量推定部と、
前記音声音響信号から音声認識を行う音声認識部と、
前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算部と、
前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部と、
前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算部と、
前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも１つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御部と、
を備えることを特徴とする音響処理装置。
前記制御部は、
前記音声行動決定関数に基づいて前記音声認識部に関する応答行動を決定し、前記音楽行動決定関数に基づいて前記音楽特徴量推定部に関する応答行動を決定する
ことを特徴とする請求項１に記載の音響処理装置。
前記制御部は、
前記音楽特徴量推定信頼度と前記音声認識信頼度とがともに予め定められている値より小さくなったとき、前記音楽特徴量推定部をリセットするように制御する
ことを特徴とする請求項１または請求項２に記載の音響処理装置。
前記音声行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値であり、
前記音楽行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値である
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音響処理装置。
分離部が、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、
雑音抑圧部が、前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、
音楽特徴量推定部が、前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、
音声認識部が、前記音声音響信号から音声認識を行う音声認識手順と、
雑音処理信頼度計算部が、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、
音楽特徴量推定信頼度計算部が、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、
音声認識信頼度計算部が、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、
制御部が、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも１つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、
を含むことを特徴とする音響処理方法。
音響処理装置のコンピュータに、
収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、
前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、
前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、
前記音声音響信号から音声認識を行う音声認識手順と、
前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、
前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、
前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、
前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも１つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、
を実行させる音響処理プログラム。