JP6140579B2 - 音響処理装置、音響処理方法、及び音響処理プログラム - Google Patents

音響処理装置、音響処理方法、及び音響処理プログラム Download PDF

Info

Publication number
JP6140579B2
JP6140579B2 JP2013182617A JP2013182617A JP6140579B2 JP 6140579 B2 JP6140579 B2 JP 6140579B2 JP 2013182617 A JP2013182617 A JP 2013182617A JP 2013182617 A JP2013182617 A JP 2013182617A JP 6140579 B2 JP6140579 B2 JP 6140579B2
Authority
JP
Japan
Prior art keywords
music
unit
reliability
noise
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013182617A
Other languages
English (en)
Other versions
JP2014052630A (ja
Inventor
ロバート オリベイラ ジョアオ
ロバート オリベイラ ジョアオ
ギョカン インジュ
ギョカン インジュ
圭佑 中村
圭佑 中村
一博 中臺
一博 中臺
博 奥乃
博 奥乃
パウロ レイシュ ルイス
パウロ レイシュ ルイス
グーヨン ファビアン
グーヨン ファビアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Universidade do Porto
Original Assignee
Honda Motor Co Ltd
Universidade do Porto
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Universidade do Porto filed Critical Honda Motor Co Ltd
Publication of JP2014052630A publication Critical patent/JP2014052630A/ja
Application granted granted Critical
Publication of JP6140579B2 publication Critical patent/JP6140579B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Manipulator (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響処理装置、音響処理方法、及び音響処理プログラムに関する。
近年、ヒューマノイドやホームロボット等、人間とソーシャル・インタラクションを行うロボットの研究が盛んに行われている。その中でも、ロボットに対して音楽を聴かせ、その音楽に合わせて歌唱させたり体を動かしたりさせる音楽インタラクションに関する研究は、ロボットに自然で豊かな表現をさせるために重要である。この技術分野においては、例えば、マイクロホンで集音した音楽音響信号からリアルタイムにビート間隔を抽出し、そのビート間隔に合わせてロボットを踊らせる技術が提案されている(例えば、特許文献1参照)。
また、ロボットに音声や音楽を聴かせるためには、集音装置、例えばマイクロホンを搭載することが必要である。しかし、ロボットの集音装置が集音する音には様々な雑音が含まれる。集音装置が集音する音には、例えば、ロボットの周囲で発生する環境音はもちろんのこと、ロボット自身から発生する様々な音が雑音として含まれる。例えば、ロボット自身から発生する音として、ロボットの足音、体内で駆動するモータの動作音、自発音声等が挙げられる。このように、集音された音響信号のS/N比が悪くなると、音声認識の精度が落ちる。このため、ロボットが動作を行っているときに、ユーザからの発話があった場合、ロボットの動作音が小さくなるように制御することで、音声認識の認識率を向上させることが提案されている(例えば、特許文献2参照)。
特開2010−026513号公報 特許第4468777号公報
ロボットがダンスなどを行っている場合に楽譜情報を用いずにビートトラッキングを行うために、ロボットは、雑音の影響を低減して、音楽音響信号から精度良くビート間隔を検出する必要がある。しかしながら、音楽に加えてユーザからの発話があった場合、ビート間隔の検出に対して、ユーザ発話は悪影響を及ぼす。さらに、ユーザ発話の認識には、音楽音響信号は悪影響を及ぼす。このため、ロボットは、ビート間隔を検出しつつユーザ発話に対して精度良く応対行動をとることは困難であるという課題があった。
本発明は、上記の問題点に鑑みてなされたものであって、音楽、音声、及び雑音が同時に入力される状況であっても、ビート間隔の検出を精度良く行え、かつユーザ発話に対して精度良く応対行動をとることができる音響処理装置、音響処理方法、及び音響処理プログラムを提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る音響処理装置は、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離部と、前記分離部によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧部と、前記音楽音響信号から前記音楽音響信号の特徴量を推定する音楽特徴量推定部と、前記音声音響信号から音声認識を行う音声認識部と、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算部と、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部と、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算部と、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御部と、を備えることを特徴としている。
(2)本発明に係るその他の様態は、前記制御部は、前記音声行動決定関数に基づいて前記音声認識部に関する応答行動を決定し、前記音楽行動決定関数に基づいて前記音楽特徴量推定部に関する応答行動を決定することを特徴とする(1)の音響処理装置である。
(3)本発明に係るその他の様態は、前記制御部は、前記音楽特徴量推定信頼度と前記音声認識信頼度とがともに予め定められている値より小さくなったとき、前記音楽特徴量推定部をリセットするように制御することを特徴とする(1)または(2)の音響処理装置である。
(4)本発明に係るその他の様態は、前記音声行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値であり、前記音楽行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値であることを特徴とする(1)から(3)のいずれか1の音響処理装置である。
(5)本発明に係るその他の様態は、分離部が、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、雑音抑圧部が、前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、音楽特徴量推定部が、前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、音声認識部が、前記音声音響信号から音声認識を行う音声認識手順と、雑音処理信頼度計算部が、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、音楽特徴量推定信頼度計算部が、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、音声認識信頼度計算部が、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、制御部が、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、を含むことを特徴とする音響処理方法である。
(6)本発明に係るその他の様態は、音響処理装置のコンピュータに、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、前記音声音響信号から音声認識を行う音声認識手順と、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、を実行させる音響処理プログラムである。
本発明の態様(1)、(5)、および(6)によれば、音声、音楽、及び雑音に関する各処理の信頼度を算出し、算出したこれらの信頼度に基づいて算出した行動決定関数に基づいて、応答高度を決定するようにした。この結果、本発明に係る音響処理装置は、音楽、音声、及び雑音が同時に入力される状況であっても、ビート間隔の検出を精度良く行え、かつユーザ発話に対して精度良く応対行動をとることができる。
本発明の態様(2)によれば、音声行動決定関数に基づいて音声認識部に関する応答行動を決定し、音響行動決定関数に基づいてビート間隔推定部に関する応答行動を決定し、決定した応答行動に応じて、音声認識部またはビート間隔推定部が制御する。この結果、本発明に係る音響処理装置は、ビート間隔の検出を精度が低下した場合にビート間隔の検出の精度を向上することができ、音声認識の精度が低下した場合に音声認識の精度を向上することができる。
本発明の態様(3)によれば、雑音処理信頼度とビート間隔推定信頼度と音声認識信頼度とがともに予め定められている値より小さくなったとき、ビート間隔推定部をリセットするように制御するため、ビート間隔の検出を精度が低下した場合にビート間隔の検出の精度を向上することができる。
本発明の態様(4)によれば、音声行動決定関数と音楽行動決定関数によって算出される値を所定のレベルに分けることができるので、この分類されたレベルに応じて適切な応答行動を選択することができる。
本実施形態に係るロボットの概略構成を表すブロック図である。 本実施形態に係るロボットにおける処理手順の一例のフローチャートである。 本実施形態に係るフィルタリング部の構成の一例を説明するブロック図である。 本実施形態に係る自己雑音抑圧部におけるテンプレートの学習に関する処理手順の一例のフローチャートである。 本実施形態に係る音楽特徴量推定部の構成の一例のブロック図である。 本実施形態に係るエージェントが変更された場合のエージェント期間の一例を説明する図である。 本実施形態に係るエージェントが変更された場合のスコアの一例を説明する図である。 本実施形態に係る音声用適応度関数F(n)によって判別される動作の一例を示す図である。 本実施形態に係る音楽用適応度関数F(n)によって判別される動作の一例を示す図である。 本実施形態に係るロボットのダンスにおける動作とビートとの同期を説明する図である。 AMLt及びAMLtスコアの観点から、平均ダンスビート同期の結果の一例を説明する図である。 5bpm刻みで音楽テンポの関数内AMLtスコアの分布の一例を説明する図である。 システムのすべての変種の平均音声認識結果の一例を説明する図である。 AMLtとAMLtスコアの面でIBT−デフォルトとIBTレギュラの全体的なビートトラッキング精度の一例を説明する図である。 平均反応時間とテストされた音楽のデータストリームで正常に処理遷移の数を説明する図である。 本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。 本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。 本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。 本実施形態に係るロボットに音楽、音声を聞かせたときのロボットの動作の結果の一例を説明する図である。
以下、図面を参照しながら本発明の実施形態について説明する。本実施形態では、ロボット1に音響処理装置を適用した例を説明する。
図1は、本実施形態に係るロボット1の概略構成を表すブロック図である。図1に示すように、ロボット1は、収音部10、動作検出部20、フィルタリング部30、認識部40、変換部50、決定部60、制御部70、及び音声再生部80を備えている。なお、ロボット1は、図示しないモータ、機構部等を備えている。
収音部10は、N個(Nは、1以上の整数)のチャネルの音響信号を収録し、収録したNチャネルの音響信号をアナログ音響信号に変換する。ここで、収音部10が収録する音響信号は、人間による発話音声、音声再生部80から出力される音楽、及びロボット1が発生する自己雑音(ego noise;エゴノイズ)を含む。ここで、自己雑音とは、ロボット1が有する機構部やモータの動作音、フィルタリング部30〜制御部70を冷却するためのファンの風切り音等を含む音である。収音部10は、変換したNチャネルのアナログ音声信号を、有線または無線によってフィルタリング部30に出力する。収音部10は、例えば周波数帯域(例えば200Hz〜4kHz)の音波を受信するマイクロホンである。
動作検出部20は、制御部70から入力された動作制御信号に応じてロボット1の動作を示す動作信号を生成し、生成した動作信号をフィルタリング部30に出力する。ここで、動作検出部20は、例えば、J個の(Jは、1よりも大きい整数)エンコーダ(位置センサ)を備え、各エンコーダは、ロボット1が有する各モータに取り付けられ、各関節の角度位置(angular position)を計測する。動作検出部20は、計測した角度位置の時間微分である角速度と、その時間微分である角加速度を算出する。動作検出部20は、算出したエンコーダ毎の角度位置、角速度、及び角加速度をエンコーダ間で統合して、特徴ベクトルを構成する。そして、動作検出部20は、構成した特徴ベクトルを示す動作信号を生成し、生成した動作信号をフィルタリング部30に出力する。
フィルタリング部30は、音源定位部31、音源分離部32、及び自己雑音抑圧部33を備えている。
音源定位部31は、収音部10から入力されたNチャネルの音響信号に基づいて、例えば、MUSIC(Multiple Signal Classification;多信号分類)法を用いて音源毎の位置を推定する。ここで、音源は、発話した人間、または音楽を出力するスピーカ等である。音源定位部31は、予め定めた数の伝達関数ベクトルを、方向と対応付けて記憶した記憶部を備える。音源定位部31は、記憶部から選択した伝達関数ベクトルと、入力されたNチャネルの音響信号に基づいて算出した固有ベクトルに基づき、空間スペクトルを算出する。音源定位部31は、算出した空間スペクトルが最も大きい音源方向を選択し、選択した音源方向を示す情報を音源分離部32に出力する。
音源分離部32は、音源定位部31から入力された音源方向に基づいて、収音部10から入力されたNチャネルの音響信号を、例えばGHDSS(Geometric High−order Decorrelation−based Source Separation)法を用いて音声信号と音楽信号とに分離する。なお、GHDSSについては、後述する。音源分離部32は、分離した音声信号と音楽信号とを、自己雑音抑圧部33に出力する。音源分離部32は、例えば独立成分分析(Independent Component Analysis;ICA)法を用いて、音源分離処理を行ってもよい。または、音源分離部32は、その他の音源分離処理、例えば、指定した音源方向に感度が最も高くなるように指向性を制御する適用ビームフォーミングを用いてもよい。
自己雑音抑圧部33は、動作検出部20から入力された動作信号に基づいて、音源分離部32から入力された音声信号と音響信号に対して各々、自己雑音成分を抑圧する。自己雑音抑圧部33は、自己雑音成分を抑圧した音響信号を認識部40の音楽特徴量推定部41に出力する。また、自己雑音抑圧部33は、自己雑音成分を抑圧した音声信号を認識部40の音声認識部43に出力する。自己雑音抑圧部33は、例えば、後述するようにテンプレートを用いた手法によって、自己雑音成分を抑圧する。なお、自己雑音抑圧部33の構成については後述する。
認識部40は、音楽特徴量推定部41、自己雑音推定部42、及び音声認識部43を備えている。
音声認識部43は、フィルタリング部30から入力された音声信号に対して音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。音声認識部43は、例えば、音響モデルである隠れマルコフモデル(HMM:Hidden Markov Model)と辞書を備える。音声認識部43は、音響特徴量、例えば、13個の静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)と13個のデルタMSLSと1個のデルタパワーを所定時間毎にリアルタイムで算出する。音声認識部43は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から辞書を用いて単語、音節、または文を認識する。さらに、音声認識部43は、認識過程で算出したコスト関数によって与えられた各々評価された単語の確からしさに基づく信頼度(confidence function)cf(n)を、変換部50の音楽用適応度関数(fitness function)演算部51及び音声用適応度関数演算部52に出力する。なお、nは、フレーム数であり、1以上の整数である。また、信頼度cfの添え字のSは、音声(speech)を示している。
自己雑音推定部42は、動作検出部20から入力された動作信号に基づいて、自己雑音のレベルE(n)を次式(1)によって算出する。
Figure 0006140579
式(1)において、Jはロボット1が有する機構的な接続部の総数であり、vは、ロボット1の全ての機構的な接続部の動作速度である。式(1)は、ロボット1の機構的な接続部の動作速度が速いほど、接続部が動作時に発する自己雑音のレベルが高くなることを表している。自己雑音推定部42は、算出した自己雑音のレベルE(n)を信頼度cf(n)として、変換部50の音楽用適応度関数演算部51及び音声用適応度関数演算部52に出力する。また、信頼度cfの添え字のEは、自己ノイズ(Ego noise)を示している。
音楽特徴量推定部41は、音楽特徴量を推定し、推定した音楽特徴量を変換部50と制御部70とに出力する。なお、音楽特徴量とは、ビート間隔(テンポ)、推定したビート間隔(テンポ)の信頼度、楽曲の曲名(タイトル)、楽曲のジャンル等である。また、楽曲のジャンルとは、例えば、クラシック、ロック、ジャズ、演歌、雅楽、フォーク、ソウル等である。音楽特徴量推定部41は、例えば、参考文献1に記載のIBT(standing for INESC porto Beat Tracker)法を用いて、自己雑音抑圧部33から入力された音楽信号に対して、ビートトラッキング処理を行う。なお、ビートトラッキング処理とは、音楽信号のビート間隔を検出する処理である。また、音楽特徴量推定部41は、ビートトラッキング処理によって算出された最も良い値の測定値のチャンクである値を信頼度cf(n)(音楽特徴量推定信頼度)として、音楽用適応度関数演算部51及び音声用適応度関数演算部52に出力する。また、信頼度cfの添え字のMは、音楽(Music)を示している。さらに、音楽特徴量推定部41は、ビートトラッキング処理によって推定されたビート間隔(テンポ)に基づいて、楽曲のタイル、ジャンル等を推定する。音楽特徴量推定部41は、推定したビート間隔(テンポ)、楽曲のタイル、ジャンル等を音楽特徴量として制御部70に出力する。なお、音楽特徴量推定部41の構成、及び信頼度cf(n)の算出については、後述する。
変換部50は、音楽用適応度関数演算部51及び音声用適応度関数演算部52を備えている。
音楽用適応度関数演算部51は、認識部40から入力された信頼度cf(n)、cf(n)、及びcf(n)を用いて、音楽用適応度関数F(n)を算出し、算出した音楽用適応度関数F(n)を決定部60に出力する。なお、添え字のMは、音楽(Music)を示している。
音声用適応度関数演算部52は、認識部40から入力された信頼度cf(n)、cf(n)、及びcf(n)を用いて音声用適応度関数F(n)を算出し、算出した音声用適応度関数F(n)を決定部60に出力する。また、添え字のSは、音声(speech)を示している。
音楽用適応度関数F(n)及び音声用適応度関数F(n)は、決定部60が、制御部70の動作を決定するために用いられる。なお、コスト関数、及び音楽用適応度関数F(n)と音声用適応度関数F(n)の算出については後述する。
決定部60は、音楽動作調停部61及び音声動作調停部62を備えている。
音楽動作調停部61は、変換部50から入力された音楽用適応度関数F(n)に基づいて、音楽に関する動作を決定し、決定した動作を示す指示を制御部70に出力する。
音声動作調停部62は、変換部50から入力された音声用適応度関数F(n)に基づいて、音声に関する動作を決定し、決定した動作を示す動作指示を制御部70に出力する。なお、音楽動作調停部61及び音声動作調停部62が行う処理については、後述する。
制御部70は、動作継続部71、リカバリー部72、リセット部73、動作継続部74、雑音低減部75、動作停止部76、及び動作制御部77を備えている。
動作継続部71は、音楽動作調停部61が出力した動作指示に応じて、例えば、収録された音楽に合わせたダンスを継続するように、ロボット1が有するモータを制御する。また、動作継続部71は、ビートトラッキング処理を現在の設定のまま継続するように、音楽特徴量推定部41を制御する。
リカバリー部72は、音楽動作調停部61が出力した動作指示に応じて、例えば、収録された音楽に対するビートトラッキング処理をリカバリーするように、音楽特徴量推定部41を制御する。
リセット部73は、音楽動作調停部61が出力した動作指示に応じて、例えば、収録された音楽に対するビートトラッキング処理をリセットするように、音楽特徴量推定部41を制御する。
以上のように、動作継続部71、リカバリー部72、及びリセット部73は、ビートトラッキング処理に関係する動作について制御する。
動作継続部74は、例えば、音声認識部43が認識した文が疑問文であった場合、音声動作調停部62が出力した動作指示に応じて、認識した音声に対する回答をロボット1に発話させるように、音声再生部80から音声信号を発するように制御する。あるいは、動作継続部74は、音声認識部43が認識した文が指示を示す文であった場合、音声動作調停部62が出力した動作指示に応じて、ロボット1が有するモータ及び機構部を制御して、認識した音声に応じた行動をロボット1にさせるように制御する。
雑音低減部75は、例えば、音声動作調停部62が出力した動作指示に応じて、ロボット1が有するモータ及び機構部を制御して、認識した音声が認識しやすくなるように、音楽のボリュームを下げるようにロボット1が動作するように制御する。または、雑音低減部75は、音声動作調停部62が出力した動作指示に応じて、音楽のボリュームを下げる依頼を表す音声信号を音声再生部80から出力するように制御する。あるいは、雑音低減部75は、音声動作調停部62が出力した動作指示に応じて、発話者に質問を反復してもらうための音声信号を音声再生部80から出力するように制御する。
動作停止部76は、音声動作調停部62が出力した動作指示に応じて、例えば、ロボット1が音楽の再生を停止させるように動作するように制御する。あるいは、動作停止部76は、音声動作調停部62が出力した動作指示に応じて、ロボット1が有するモータ及び機構部を制御して、ロボット1の動きを止めることによって自己雑音を減らすように制御する。
以上のように、動作継続部74、雑音低減部75、及び動作停止部76は、音声の認識に関係する動作について制御する。
動作制御部77は、認識部40から出力された認識された音声を示す情報と認識されたビート間隔を示す情報に応じて、ロボット1の機構部、モータ等の各機能部の動作を制御する。動作制御部77は、ビートトラッキング処理に関係する動作の制御、及び音声認識に関係する制御以外のロボット1の動作(例えば歩行、ダンス、発話)に関する制御を行う。また、動作制御部77は、各機構部、モータ等に対する動作指示を、動作検出部20に出力する。
例えば、収音された音響信号から認識部40によってビート間隔が検出された場合、動作制御部77は、認識されたビート間隔に合わせてロボット1がダンスするように制御する。あるいは、収音された音声信号から認識部40によって疑問文が認識された場合、動作制御部77は、認識された疑問文に対する返答の音声信号を音声再生部80から出力するように制御する。また、ロボット1が、例えばLED(発光ダイオード)等を有する場合、動作制御部77は、認識されたビート間隔に合わせてLEDを点灯するように制御するようにしてもよい。
音声再生部80は、制御部70の制御に応じて、音声信号を再生する。音声再生部80は、例えば、制御部70から入力されたテキストを音声信号に変換し、変換した音声信号を音声再生部80が備えるスピーカから発する。
図2は、本実施形態に係るロボット1における処理手順の一例のフローチャートである。
(ステップS1)収音部10は、Nチャネルの音響信号を収録する。
(ステップS2)音源分離部32は、音源定位部31から入力された音源方向に基づいて、収音部10によって収録されたNチャネルの音響信号を、例えば独立成分分析法を用いて音声信号と音楽信号とに分離する。
(ステップS3)自己雑音抑圧部33は、動作検出部20から入力された動作信号に基づいて、自己雑音を推定し、音源分離部32から入力された音声信号と音響信号に対して各々、自己雑音成分を抑圧する。
(ステップS4)音楽特徴量推定部41は、自己雑音抑圧部33から入力された音楽信号に対して、ビートトラッキング処理を行う。次に、音楽特徴量推定部41は、ビートトラッキング処理によって検出したビート間隔を示す情報を、動作制御部77に出力する。
(ステップS5)音楽特徴量推定部41は、信頼度cf(n)を算出し、算出した信頼度cf(n)を音楽用適応度関数演算部51及び音声用適応度関数演算部52に出力する。
(ステップS6)自己雑音推定部42は、動作検出部20から入力された動作信号に基づいて、自己雑音のレベルを算出し、算出した自己雑音のレベルを信頼度cf(n)として、音楽用適応度関数演算部51及び音声用適応度関数演算部52に出力する。
(ステップS7)音声認識部43は、自己雑音抑圧部33から入力された音声信号に対して音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。次に、音声認識部43は、音声認識した発話内容を示す情報を、動作制御部77に出力する。
(ステップS8)音声認識部43は、認識過程で算出したコスト関数によって与えられた各々評価された単語の確からしさに基づく信頼度cf(n)を算出し、算出した信頼度cf(n)を音楽用適応度関数演算部51及び音声用適応度関数演算部52に出力する。
(ステップS9)音楽用適応度関数演算部51は、認識部40から入力された信頼度cf(n)、cf(n)、及びcf(n)を用いて、音楽用適応度関数F(n)を算出し、算出した音声用適応度関数F(n)を決定部60に出力する。
(ステップS10)音楽動作調停部61は、音楽用適応度関数演算部51によって算出された音楽用適応度関数F(n)に基づいて、ビートトラッキング処理の精度を上げる音楽に対する動作を決定し、またはロボット1の動作を決定する。次に、制御部70は、音楽動作調停部61によって決定された動作を行うように、ロボット1を制御する。
(ステップS11)音声用適応度関数演算部52は、認識部40から入力された信頼度cf(n)、cf(n)、及びcf(n)を用いて音声用適応度関数F(n)を算出し、算出した音声用適応度関数F(n)を決定部60に出力する。
(ステップS12)音声動作調停部62は、音声用適応度関数演算部52によって算出された音声用適応度関数F(n)に基づいて、音声認識処理の精度を上げるための動作を決定し、またはロボット1の動作を決定する。次に、制御部70は、音声動作調停部62によって決定された動作を行うように、ロボット1を制御する。
以上で、ロボット1の処理を終了する。
なお、ステップ(S9とS10)、ステップ(S11、S12)を行う順番は、ステップ(S9とS10)とステップ(S11、S12)のどちらが先でもよく、あるいは、ステップ(S9とS10)と(S11、S12)を平行して行うようにしてもよい。
(GHDSS法)
ここで、音源分離部32で用いられるGHDSS法について説明する。GHDSS法は、GC(幾何拘束に基づく音源分離)法と、HDSS(High−order Dicorrelation−based Source Separation;高次元無相関化に基づく音源分離)法を統合した手法である。GHDSS法は、1種のブラインド分離処理(blind deconvolution)である。GHDSS法は、分離行列(separation matrix)[V(ω)]を逐次に算出し、入力音声ベクトル[x(ω)]に算出した分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]を推定することで、音源毎の音響信号に分離する手法である。分離行列[V(ω)]は、各音源から収音部10が備える各マイクロホンまでに伝達関数を要素として有する伝達関数[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素として有するベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素として有するベクトルである。
GHDSS法は、分離行列[V(ω)]を算出するとき、分離尖鋭度(separation sharpness)JSS、幾何制約度(geometrix constraints)JGCといった2つのコスト関数を、それぞれ最小化するように音源ベクトル[u(ω)]を推定する。
ここで、分離尖鋭度JSSは、1つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、式(2)で表される。
Figure 0006140579
式(2)において、‖…‖は、フロベニウスノルム(Frobenius norm)を示す。*は、ベクトル又は行列の共役転置(conjugate transpose)を示す。また、diag(…)は、…の対角要素からなる対角行列(diagonal matrix)を示す。
幾何制約度JGCは、音源ベクトル[u(ω)]の誤差の度合いを表す指標値であり、例えば、次式(3)で表される。
Figure 0006140579
式(3)において、[I]は、単位行列を示す。
次に、フィルタリング部30の詳細な構成について説明する。
図3は、本実施形態に係るフィルタリング部30の構成の一例を説明するブロック図である。図3に示すように、音源分離部32は、第1音源分離部321及び第2音源分離部322を備えている。また、自己雑音抑圧部33は、テンプレート推定部331、テンプレート記憶部332、スペクトル減算部333、及びテンプレート更新部334を備えている。
第1音源分離部321は、収音部10から入力され、時間領域で表された音響信号を、周波数領域で表された複素入力スペクトルに変換する。第1音源分離部321は、例えば、音響信号に対して、所定のフレーム毎に離散フーリエ変換(Discrete Fourier Transform、DFT)を行う。
第1音源分離部321は、音源定位部31から入力された音源方向を示す情報に基づいて、周知の手法を用いて、変換された複素入力スペクトルを音楽信号と音声信号とに分離する。第1音源分離部321は、分離した音楽信号と音声信号の各スペクトルを、自己雑音抑圧部33のスペクトル減算部333に出力する。
第2音源分離部322は、自己雑音抑圧部33のテンプレート推定部331から入力された自己雑音成分のパワースペクトルの推定値を、スペクトル減算部333に出力する。
テンプレート推定部331は、動作検出部20から入力された動作信号に基づいて、テンプレート記憶部332に記憶されている情報を用いて自己雑音成分のパワースペクトルを推定する。テンプレート推定部331は、推定した自己雑音成分のパワースペクトルを、テンプレート更新部334及び音源分離部32の第2音源分離部322に出力する。ここで、テンプレート推定部331は、入力された動作信号に基づいて、テンプレート記憶部332に記憶されている特徴ベクトルを選択することで、自己雑音成分のパワースペクトルを推定する。なお、動作信号とは、ロボット1に対する動作指示信号、ロボット1が有するモータの駆動信号であってもよい。
テンプレート記憶部332には、所定の環境において、ロボット1に各種動作をさせたときに取得した音響信号の特徴ベクトルと雑音スペクトルベクトルとロボット1の動作信号とが対応付けて記憶されている。
スペクトル減算部333は、第1音源分離部321から入力された音楽信号と音声信号の各スペクトルから各々、第2音源分離部322から入力された自己雑音成分のパワースペクトルを減算することで、自己雑音成分を抑圧する。スペクトル減算部333は、自己雑音成分を抑圧した音楽信号のスペクトルを認識部40の音楽特徴量推定部41に出力し、自己雑音成分を抑圧した音声信号のスペクトルを認識部40の音声認識部43に出力する。
テンプレート更新部334は、テンプレート推定部331が出力した自己雑音成分のパワースペクトルに基づいて、テンプレート記憶部332に記憶されている情報を更新する。テンプレート記憶部332に記憶されている情報は、例えば、ロボット1が初期状態の時に取得したものであるため、ロボット1が有するモータや機構部の劣化によって、自己雑音成分が変化する場合がある。このため、テンプレート更新部334は、テンプレート記憶部332に記憶されている情報を更新する。テンプレート更新部334は、テンプレート記憶部332に記憶されている情報を更新するとき、それまで記憶されていた古い情報を削除するようにしてもよい。また、テンプレート更新部334は、テンプレート記憶部332に記憶されているテンプレートと一致しない場合、収音部10が収録した音響信号の特徴ベクトルと雑音スペクトルベクトルとロボット1の動作信号とを新たに関連付けて、テンプレート記憶部332に記憶させる。また、テンプレート更新部334は、ロボット1に所定の動作を行わせることで、学習によってテンプレート記憶部332に情報を更新するようにしてもよい。なお、テンプレート更新部334が更新するタイミングは、所定のタイミングであってもよく、あるいはロボット1が音楽や音声を認識しているときであってもよい。
図4は、本実施形態に係る自己雑音抑圧部33におけるテンプレートの学習に関する処理手順の一例のフローチャートである。
(ステップS101)テンプレート更新部334は、学習用のテンプレートを生成する。
(ステップS102)テンプレート推定部331は、NN(Nearest Neighbor)法によって、ステップS101で生成されたテンプレートがテンプレート記憶部332に記憶されているか探索する。
(ステップS103)テンプレート推定部331は、自己雑音以外の雑音に対応するテンプレートが検出されたか否かを判別する。
テンプレート推定部331は、自己雑音以外の雑音に対応するテンプレートが検出されたと判別した場合(ステップS103;YES)、ステップS104に進み、自己雑音以外の雑音に対応するテンプレートが検出されていないと判別した場合(ステップS103;NO)、ステップS105に進む。
(ステップS104)テンプレート推定部331は、自己雑音以外の雑音に対応するテンプレートを、テンプレート記憶部332から削除する。テンプレート推定部331は、ステップS104が終了後、処理をステップS101に戻す。
(ステップS105)テンプレート推定部331は、類似するテンプレートがテンプレート記憶部332にあるか否かを判別する。テンプレート推定部331は、類似するテンプレートがテンプレート記憶部332にあると判別した場合(ステップS105;YES)、ステップS106に進み、類似するテンプレートがテンプレート記憶部332にないと判別した場合(ステップS105;NO)、ステップS107に進む。
(ステップS106)テンプレート推定部331は、例えば、類似するテンプレートを1つにまとめることで、テンプレート記憶部332の情報を更新する。テンプレート推定部331は、ステップS106が終了後、処理をステップS101に戻す。
(ステップS107)テンプレート推定部331は、新たな学習用のテンプレートを追加する。
(ステップS108)テンプレート推定部331は、テンプレート記憶部332の大きさが、予め定められている最大の大きさに達したか否かを判別する。テンプレート推定部331は、テンプレート記憶部332の大きさが予め定められている最大の大きさに達したと判別した場合(ステップS108;YES)、ステップS109に進む。または、テンプレート推定部331は、テンプレート記憶部332に記憶されているテンプレートの個数が予め定められている最大の大きさに達していないと判別した場合(ステップS108;NO)、処理をステップS101に戻す。
(ステップS109)テンプレート推定部331は、テンプレート記憶部332に記憶されているテンプレートのうち、例えばテンプレート記憶部332に記憶された日時が古いテンプレートを削除する。なお、テンプレート記憶部332に記憶されるテンプレートには、例えば、テンプレートが登録された日時も関連付けられて記憶されている。
以上で、自己雑音抑圧部33におけるテンプレートの学習に関する処理を終了する。
なお、図4に示したテンプレートの学習に関する処理は、一例であり、テンプレートの学習は、他の方法で行う用にしてもよい。例えば、ロボット1に定期的に、予め定められている複数の動作を行わせ、テンプレート記憶部332に記憶されている情報を全て更新するようにしてもよい。なお、予め定められている複数の動作とは、例えば、各機構部の単独動作、複数の機構部のうちいくつかを組み合わせた動作等である。
また、テンプレート記憶部332に記憶されている情報は、例えば、ネットワーク経由で接続されているサーバに記憶されていてもよい。この場合、サーバには、複数のロボット1に関するテンプレートを記憶させておき、複数のロボット1がテンプレートを共用するようにしてもよい。
次に、音楽特徴量推定部41の構成と動作について説明する。
図5は、本実施形態に係る音楽特徴量推定部41の構成の一例のブロック図である。図5に示すように、音楽特徴量推定部41は、特徴量抽出部401、エージェント導入部402、マルチエージェント部403、エージェント調停部404、状態リカバリー部405、楽曲推定部406、及び楽曲データベース407を備えている。
特徴量抽出部401は、フィルタリング部30の自己雑音抑圧部33から入力された音楽信号から、その物理的な特徴を表す音響特徴量を抽出し、抽出した音響特徴量をエージェント導入部402に出力する。特徴量抽出部401は、音響特徴量として、例えば、振幅周波数特性として周波数毎の振幅を表す音響スペクトログラム、自己相関、音響スペクトログラムの時間差分に基づく距離値を算出する。
エージェント導入部402は、区間推定部(Period Hypotheses Induction)4021、位相推定部(Phase Hypotheses Selection)4022、及びエージェントセットアップ部4023を備えている。
区間推定部4021は、特徴量抽出部401から入力された音響特徴量から、区間を区別するために、シンボリックイベントリスト(symbolic event list)から直接選択し、ピーク検出後、周期関数(periodicity function)を継続する。なお、周期関数として、例えば自己相関関数(Autocorrelation function;ACF)を用いる。
区間推定部4021は、次式(4)に示されるように、特徴量抽出部401から入力された音響特徴量に基づいて、周期関数A(τ)を計算する。
Figure 0006140579
式(4)において、nはフレーム数、SF(n)は、フレームnにおける平滑化されたスペクトルの固定値であり、Iは導入する窓の長さである。この周期関数は、例えば、K個の極大値を探索する適応ピーク検出アルゴリズムを適用し、解析される。ここで、検出されたピークに対応するタイムラグτから、次式(5)に示される周期仮説Pの初期集合を構成する。
Figure 0006140579
式(5)において、δは固定されたしきい値パラメータであり、例えば実験により0.75に設定する。また、Tは、選択されたテンポの範囲であり、例えば6msecである。また、arg maxは、K個の極大値に対応する定義域の元の集合(argument of the maximum)である。また。rmsは、平均二乗偏差(Root Mean Square)である。
位相推定部4022は、次式(6)を用いて、全てのγ についてΔs(error )スコアの総計を計算して、ロースコアsi,j rawを、各Γ テンプレートに対して計算する。
Figure 0006140579
エージェントセットアップ部4023は、位相推定部4022によって算出されたsi,j rawを用いて、次式(7)により相関スコア(relational score)s relを各エージェントに与える。
Figure 0006140579
また、エージェントセットアップ部4023は、シングルおよびリセットオペレーションの推定モードに対する最終のスコアsを、次式(8)によって定義する。
Figure 0006140579
式(8)において、maxは、最大値を表す。
すなわち、エージェント導入部402は、ビート間隔とビートの位相に関する仮の初期セットと新規セットとをエージェントとして生成、または再帰的に再生成することで、ビート間隔の検出を行う。さらに、本実施形態では、複数のエージェントを生成して用いる。
マルチエージェント部403は、仮のエージェントを増やし、オンラインでのエージェントの生成を続行させ、または消滅させ、あるいは順序づけする。そして、マルチエージェント部403は、データの先取りなしにリアルタイムでIBTを実行することで、入力される音楽信号のビート間隔を示す情報を出力する。また、マルチエージェント部403は、ビートトラッキング処理をリカバリー、またはリセットする必要が発生した場合、ビートトラッキング処理をリカバリーするためのリカバリー指示、またはリセットするためのリセット指示を、状態リカバリー部405に出力する。なお、ビートトラッキング処理をリカバリー、またはリセットする必要が発生した状態とは、ビートトラッキングの精度が落ちていると判断された状態である。この状態の判定は、後述するように、周知の指標を用いて、実験によって設定した。
エージェント調停部404は、現在のチャンクのベストスコアの平均値 ̄sbと一つ前の値 ̄sbn-thopを比較して得られる変化値 ̄δsbを、式(9)によって算出する。なお、上付き ̄は、平均値を表す。
Figure 0006140579
式(9)において、nは、現在のフレーム時間、Wは3秒であり、検討した中でチャンクサイズの中で最も良いスコアが測定された際の値である。また、 ̄sb(n)は、フレームnにおける測定された最も良いスコアである。また、sbn−thopは、前に比較されたスコアである。なお、新しいエージェントの導入条件は、例えば、次式(10)である。
Figure 0006140579
すなわち、エージェント調停部404は、δthとδ ̄sbとの論理積の値が、δ ̄sbn−1以下であり、δth(ただし、δthは0.00)未満であるとき、新しいエージェントを導入する。
そして、エージェント調停部404は、時刻が変化したとき、最も好ましいスコアの進行になるように、エージェントを変更していく。エージェント調停部404は、算出した現在の測定チャンクのδsbを、信頼度cf(n)として、変換部50に出力する。また、エージェント調停部404は、このように最も好ましいスコアの進行になるようにエージェントを変更しながらビート間隔(テンポ)を推定し、推定したビート間隔(テンポ)を、楽曲推定部406及び制御部70に出力する。
状態リカバリー部405は、マルチエージェント部403から入力されたリカバリー指示、または、制御部70から入力されたリカバリー指示またはリセット指示に応じて、エージェント導入部402を、リカバリーまたはリセットするように制御する。
楽曲推定部406は、エージェント調停部404から入力されたビート間隔(テンポ)と、楽曲データベース407に格納されている楽曲のデータとに基づいて、周知の処方によって音楽のジャンル、及び楽曲のタイトルを推定する。そして、楽曲推定部406は、推定した音楽のジャンル、及び楽曲のタイトルを制御部70に出力する。なお、楽曲推定部406は、特徴量抽出部401が抽出した音響特徴量も用いて、音楽のジャンル、及び楽曲のタイトルを推定するようにしてもよい。
楽曲データベース407には、複数の楽曲について、楽曲の特徴量、テンポ、タイトル、ジャンル等が関連付けられて格納されている。なお、楽曲データベース407には、楽曲の楽譜も楽曲に関連付けられて格納されていてもよい。
図6は、本実施形態に係るエージェントが変更された場合のエージェント期間の一例を説明する図である。図6において、横軸は時刻、縦軸はエージェント区間[bpm(beats per minute)]である。図7は、本実施形態に係るエージェントが変更された場合のスコアの一例を説明する図である。図7において、横軸は時刻、縦軸はエージェントスコアである。
例えば、図6及び図7において、12〜13秒の間、及び25〜28秒の間、最も良いエージェントが順次、切り替わっている。一方、例えば20〜23秒、及び33〜37秒の間、選択されたエージェントが継続して使用されている。
図7の太線に示したように、音楽特徴量推定部41は、スコアが最も良いエージェントを継続して使用していくことで、安定してビート間隔を検出することができる。
次に、変換部50の動作について説明する。
ここで、ビートトラッキング結果の信頼度cf(n)のコストをC(n)、音声認識した結果の信頼度cf(n)のコストをC(n)、自己雑音推定部42が算出した信頼度cf(n)のコストをC(n)とする。また、信頼度cf(n)に対するしきい値T、信頼度cf(n)に対するしきい値T、信頼度cf(n)に対するしきい値Tとする。以下では、信頼度をcf(ただし、Yは、M、S、及びE)、コストをC(n)と表し、しきい値をTと表す。
本実施形態では、コストを次式(11)のように定義する。
Figure 0006140579
すなわち、信頼度cf(n)がしきい値T未満であるとき、コストC(n)は1である。あるいは、信頼度cf(n)がしきい値T以上であるとき、コストC(n)は0である。
次に、音楽用適応度関数演算部51は、適応度関数F(n)において、これらのコストに重み付けと結合とを、次式(12)のように行う。また、音声用適応度関数演算部52は、適応度関数F(n)において、これらのコストに重み付けと結合とを、次式(12)のように行う。
Figure 0006140579
式(12)において、W (ただし、Xは、M、S、及びE)は、各適応度関数における各コストに対する重み付けである。
これらの適応度関数は、適応度の異なるレベルをとる。適応度の異なるレベルに従って、音楽動作調停部61は、音楽用適応度関数演算部51が算出した音楽用適応度関数F(n)に基づいて、ロボット1に対する制御の判別を行う。また、音声動作調停部62は、音声用適応度関数演算部52が算出した音声用適応度関数F(n)に基づいて、ロボット1に対する制御の判別を行う。
各重み付けは、例えばW =0、W =2、W =1、W =2、W =0、及びW =1である。この場合、適応度関数の値は、例えば、0.1、2、及び3のいずれか1つである。適応度関数の値が小さいとき、現状の動作を維持する。このような動作を、本実施形態では、アクティブ(ACTIVE)な動作であると定義する。一方、適応度関数の値が大きいとき、現状の動作を停止させる。このような動作を、本実施形態では、プロアクティブ(PROACTIVE)な動作であると定義する。
図8は、本実施形態に係る音声用適応度関数F(n)によって判別される動作の一例を示す図である。図9は、本実施形態に係る音楽用適応度関数F(n)によって判別される動作の一例を示す図である。符号801で囲んだ四角内は、音楽に対する行動の例を示している。また、符号802で囲んだ四角内は、音声に対する行動の例を示している。
音声動作調停部62は、符号801のように、F(n)が0又は1のとき、現在の動作を継続するように動作を決定する。例えば、ロボット1が出力されている音楽に合わせてダンスをしている場合、動作継続部74は、音声動作調停部62が決定した動作内容に従って、ロボット1にダンスの動作を継続するように制御する。
また、音声動作調停部62は、符号801のように、F(n)が2のとき、自己雑音を減少させるように動作を決定する。この場合、例えば、音声認識処理における認識率が低下していることが考えられる。このため、雑音低減部75は、音声動作調停部62が決定した動作内容に従って、例えば、ロボット1に動作音が小さくなるように動作が少なくなるように、または動作が遅くように制御する。
あるいは、音声動作調停部62は、符号801のように、F(n)が3のとき、現在の動作を停止するように動作を決定する。この場合、例えば、音声認識処理が困難になっていることが考えられる。このため、動作停止部76は、音声動作調停部62が決定した動作内容に従って、ロボット1にダンスの動作を停止するように制御する。
音楽動作調停部61は、符号802のように、F(n)が0又は1のとき、現在の動作を継続するように動作を決定する。例えば、動作継続部71は、音楽動作調停部61が決定した動作内容に従って、現在の設定のままビートトラッキング処理の動作を継続するように制御する。
また、音楽動作調停部61は、符号802のように、F(n)が2のとき、ビートトラッキング処理をリカバリーさせるように動作を決定する。この場合、例えば、ビートトラッキング処理におけるビート間隔の検出精度が低下していることが考えられる。このため、リカバリー部72は、音楽動作調停部61が決定した動作内容に従って、例えば、音楽特徴量推定部41にリカバリー指示を出力する。
あるいは、音楽動作調停部61は、符号802のように、F(n)が3のとき、現在の動作を停止するように動作を決定する。この場合、例えば、ビートトラッキング処理が困難になっていることが考えられる。このため、リセット部73は、音楽動作調停部61が決定した動作内容に従って、例えば、音楽特徴量推定部41にリセット指示を出力する。
(実験結果)
次に、本実施形態に係るロボット1(図1)を動作させて行った実験例について説明する。実験は、次の条件で行った。収音部10として、人型ロボット(humanoid robot)の頭部の外周に装着されたマイクロホンを8個用いた。
テンプレート記憶部332に記憶させるテンプレートを学習させる際、テンポの範囲が40〜80[bpm]の中からランダムにテンポを抜き出し、3つのダンス動作を5分間行わせた。
音響モデルを学習させる際、日本語の学習用のデータベース(training database)として、日本語新聞記事文(JNAS;Japanese Newspaper Article Sentence)コーパスを用いた。また、英語の学習用のデータベースとして、英字新聞から抜き出したコーパスを用いた。
実験に使用した音源は、部屋の大きさが4.0[m](メートル)×7.0[m]×3.0[m]、残響時間RT20が0.2秒であるノイジィーな部屋で録音した。音楽信号は、−2[dB]の音楽信号対雑音比(M−SNR)で記録した。また音声信号は、−3[dB]の音声信号対雑音比(S−SNR)で記録した。また、実験に使用した音源は、記録ごとに異なるスピーカからの音声を使用して、8チャネルのオーディオ信号を10分記録した。
また、実験に使用した音楽の種類は、ポップ、ロック、ジャズ、ヒップホップ、ダンス、フォーク、ソウルの7種類である。また、使用した音楽のテンポは、80〜140[bpm]であり、平均109±17.6[bpm]である。そして、実験にしようした音楽のデータは、上述した音楽を抜粋して20秒毎につなげて作成した10分間の録音である。
実験に使用した音声は、4人の男性の音声、4人の女性の音声である。この音声を、上記した条件で録音して、10分感の音声データを作成した。なお、音声データは、日本語の場合、単語のそれぞれの間におよそ1秒の無音ギャップを置いて、連続したストリームとして連結した。
まず、ロボット1のダンスにおける動作とビートとの同期を説明する。
図10は、本実施形態に係るロボット1のダンスにおける動作とビートとの同期を説明する図である。実験では、ロボット1は、音楽に合わせて動作を行うことで、ダンスを行う。図10の符号501が示す画像領域のように、ロボット1が右腕を上げ、左腕を下げた姿勢をポーズ1と定義する。また、符号502が示す画像領域のように、ロボット1が左腕を上げ、右腕を下げた姿勢をポーズ2と定義する。
ポーズ1及びポーズ2は、ビートと同期を取って動作が行われる。ポーズ1をイベントb’n+1とし、イベント1の後、次のステップstepn+1に遷移する。また、ポーズ2をイベントb’n+2とし、イベント1の後、次のステップstepn+2に遷移する。
そして、通信遅延時間、ステップ遷移要求、実際の動作との間には、次式(13)で示すような関係がある。
Figure 0006140579
式(13)において、Δbは、最後の二つのビートのイベントの時間差を推定することによって得られる所定の電流IBI(インタービート間隔;Inter−Beat−Interval)である。また、bとbn−1は、bとdによって推定される最後のロボット1の動作応答の遅延である。この遅延は、次式(14)ように、推定されるすべてのビートのイベントbの時に再計算される。
Figure 0006140579
式(14)において、b’n−1は、前のビートイベント予測のタイミングである。また、rn−1は、最後のステップの遷移要求に対する動作応答のタイミングを表す。この応答タイミングrn−1は、次式(15)のように、ロボット1が最後のステップの遷移要求に応じて移動を開始した時間枠、nで与えられる。
Figure 0006140579
式(15)において、E(n)は、ロボット1の関節の時間枠nにおける平均速度を表す。また、sthres=0.1は、ロボット1が停止したり、移動していると考えられる全てに境界を目印にするためのE(n)に対する実証的しきい値である。
この取り決めに基づいて、ロボット1が新たなステップの際に移動している場合に遷移要求が来た場合、直ちにステップは、次に遷移する。あるいは、ロボット1は、既に次のステップに移行する前に、次回のビートイベント予測の時に現在のステップ、その停止を終える。
このような取り決めによって、通信速度の遅延の影響をなくして、ロボット1にビートに合わせてダンスを行わせた。
ここで、ビートトラッキングの定量化について説明する。ビートトラッキングには、継続性が必須ではない可韻律レベルであるAMLt(Allowed Metrical Levels, continuity not required)を用いた。このAMLtに基づいて、以下の評価値を導入した。AMLtは、全体の流れの上の正確さを測定したものである。また、AMLtは、全体の流れの正確さの測定により連結した音楽の抜粋に関する個々の評価をシミュレートする。ただし、AMLtは、各音楽推移の後に最初の5秒を廃棄する。
さらに、各音楽推移で、反応時間(r)を測定するために、そして、推移のタイミング間tと、音楽の抜粋の中に、最初の4つの連続する正確なビートが含まれている最初のビートタイミングbとの間で、rを時差のように|b−t|と定義する。
次に、音声認識率の評価は、平均の単語認識率(Word Correct Rate;WCR)の点から測定した。なお、WCRは、実例のその総数で割られたテスト・セットからの正確に認識された言葉の数として定義する。
ダンスと、音楽のビートの同期の程度の測定のために、上述したAMLtとAMLtを使用した。これらは、音ストリームから検出されたビートの時間的整合を、ダンスステップ推移のタイミングと比較した。具体的には、どのビートが、ロボット1のダンスに同期を行わせるために使われたかを確認した。また、ダンスステップの遷移のタイミングを取得するために、参考文献2に記載されている平均速度信号の最小値検出アルゴリズムを適用し、平均速度極小値のタイミングを取得した。
次に、本実施形態のロボット1を評価するために、ビートトラッキングと音声認識の精度が異なる前処理の手法を適用することから得られた異なる入力信号を使用して測定した。なお、以下において、ENSとは、自己雑音抑圧部33による自己雑音抑圧処理である。
1)1チャネル:シングル(正面)マイクから収録された音響信号
2)1チャネル+ENS:ENSによって1チャネルをリファイン(refined)
3)8チャネル:8チャネルのマイクアレイから収録された音響信号を、音源定位部31と音源分離部32を適用することにより、分離された信号。この分離された音声と音楽信号は、それぞれ、音声認識部43と音楽特徴量推定部41に出力される。
4)8チャネル+ ENS:ENSによって8チャネルをリファイン。
さらに、ビートトラッキングを目的とした音響環境を調節する効果を観察するために、非調整(non−regulated)の音響信号上IBTの性能を比較した。この場合、上述したように、IBT−デフォルトである調整の音響信号上IBTのパフォーマンスに対して、IBT調節である音楽処理のための信頼性の低い音響条件に直面したときの要求を通して、ビートトラッキング処理をリカバリーするか、またはリセットする。
図11は、AMLt及びAMLtスコアの観点から、平均ダンスビート同期の結果の一例を説明する図である。図12は、5bpm刻みで音楽テンポの関数内AMLtスコアの分布の一例を説明する図である。図13は、システムのすべての変種の平均音声認識結果の一例を説明する図である。図14は、AMLtとAMLtスコアの面でIBT−デフォルトとIBTレギュラの全体的なビートトラッキング精度の一例を説明する図である。図15は、平均反応時間とテストされた音楽のデータストリームで正常に処理遷移の数を説明する図である。
まず、ダンスの同期に関する結果を説明する。
図11において、横軸はAMLt、AMLtを示し、縦軸はAMLスコアを示す。図11の符号1001が示す画像のように、ビート同期ロボットダンスの動きを生成するための本実施形態のアルゴリズムは、AMLtスコアの観点から、ビート同期全体の67.7%まで再現することができた。また、最初の5秒を破棄したことで効果的な各曲遷移をし、図11の符号1002が示画像のように、AMLtは75.9%のスコアが得られた。AMLtとAMLtのスコアの差8%は、ロボット1のモータ速度等の変化による影響であると考えられる。
図12において、横軸はテンポ、縦軸はAMLtのスコアを示す。図12に示すように、テンポ40〜65bpmでは、AMLtのスコアは70〜75%であり、テンポ65〜75bpmでは、AMLtのスコアは88〜97%である。このパフォーマンスの違いは、平均速度最小値により決定ダンスステップの遷移のタイミングを取得するタイミングによるものであると考えられる。
低いテンポ(遅い遷移による)によって要求されるフラットな速度遷移よりも、高いテンポ(より速い遷移)が要求するピークの速度遷移を検出するために、より正確である。しかしながら、図12に示したように、人間の知覚的には、ロボット1の動きは、テンポに同期して動作していることを意味している。
次に、単語認識率の結果について説明する。
図13において、横軸は、1チャネル(IBT−レギュラ)、1チャネル+ENS(IBT−デフォルト)、8チャネル(IBT−レギュラ)、及び8チャネル+ENS(IBT−デフォルト)を示し、縦軸は、単語認識率を示している。図13に示すように、前処理として音源定位部31と音源分離部32の実装(信号8チャネル)によって、平均で35.8pp(percentage points)の大幅な音声認識による単語認識率を改善することができた。
次に、音楽に対するビートトラッキングの結果について説明する。
図14において、横軸は、1チャネル(IBT−デフォルト)、1チャネル(IBT−レギュラ)、1チャネル+ENS(IBT−レギュラ)、8チャネル(IBT−レギュラ)、及び8チャネル+ENS(IBT−レギュラ)を示し、縦軸はAMLtスコアを示している。
図14において、符号1201に示す画像は、IBT−デフォルトにおけるAMLtスコアを表し、符号1202に示す画像は、IBT−デフォルトにおけるAMLtスコアを表している。また、図14において、符号1203、1205、1207、1209が示す画像は、IBT−レギュラにおけるAMLtスコアを表し、符号1204、1206、1208、1210が示す画像は、IBT−レギュラにおけるAMLtのスコアを表している。
図14に示すように、1チャネル記録された信号において、IBT−デフォルトに対してIBTを規制した場合、AMLtが18.5pp、AMLtが22.5pp、各々ビートトラッキング精度が増加している。この意味合いは、同じ条件で1チャネル信号を、両方を比較すると精度の増加は、音楽の遷移における反応時間の1.6秒の減少に反映されることになる。
この結果、IBT調節は±2.0秒、全ての信号条件にわたって、その結果(平均値P =0.76±0.18で)のうち、統計的有意性なしで4.9の平均反応時間で音楽遷移から回復することができた。
以上のように、8チャネル信号に本実施形態を適用するとき、最大62.1%と78.6%、それぞれ、AMLtで9.5pp、AMLtで8.9ppのビートトラッキング精度の改善を実現した。
図15において、横軸は図14と同じであり、縦軸は、平均応答時間(reaction time)を示している。また、図15において、符号1301〜1304が示す画像は、AMLtの結果を示している。また、図15において、縦線及び数値は、ビートトラッキング可能な音楽のストリーム数を表している。すなわち、IBT−デフォルトの1チャネルでは、30のストリーム中、23のストリームを処理できるが、本実施形態によれば、28〜30のストリームを処理できることを示している。
また、図14に示すように、IBT−レギュラの1チャネル及び8チャネルでは、ENSを行うことでAMLtを1.2pp、AMLtを1.0pp改善できた。
この結果、IBT−レギュラでは、8チャネル+ENSにおけるAMLtが63.1パーセント、AMLtで80.0%、反応時間の平均4.8±3.0秒になった。
図16〜図19は、本実施形態に係るロボット1に音楽、音声を聞かせたときのロボット1の動作の結果の一例を説明する図である。図16〜18において、横軸は時刻を示している。また、図16〜図18の符号1501が示す画像は、音源定位の結果を示し、符号1502が示す画像は、ロボット1の腕、肩、Y軸方向の肘の角度、X軸方向の肘の角度を各々示している。また、符号1503が示す画像は、機構部の平均移動速度を示し、符号1504に示す画像は、音声に対する適応度関数Fの値を示し、符号1505に示す画像は、ビートトラッキングに対する適応度関数Fの値を示している。符号1506に示す画像は、ロボット1と人間との相互の会話を示している。
また、符号1504に示す画像において、符号1504−1は、コスト関数Cの値を示し、符号1504−2は、コスト関数Cの値を示している。また、符号1505に示す画像において、符号1505−1は、コスト関数Cの値を示し、符号1505−2は、コスト関数Cの値を示している。また、符号1506に示す画像において、Hは人間の発話を示し、Rはロボット1の発話を示している。
図16〜図19の実験では、1つのスピーカから音楽を出力し、1人の話者が発話して実験を行った。
図16において、まず、ロボット1は、音声信号に含まれる『音楽の再生をしてくださいませんか?』(H1)に対して、『ハイ!』(R1)と発話させた後、音楽の演奏を開始する(約2秒)。この時点で演奏されている音楽は、テンポが120bpmである。
次に、ロボット1は、音声信号に含まれる『ダンスはできますか?』(H2)に対して、『ハイ!』(R2)と発話させた後、ダンスを開始する(約18秒)。ダンスの開始に伴い、符号1503に示す画像に示すように、機構部の動作速度が約20秒から増加する。
次に、ロボット1は、音声信号に含まれる『この音楽のテンポはいくつですか?』(H3)に対して、『テンポは60bpmです!』(R3)と発話させる(約29秒)。時刻29秒において、Cが0、Cが0であるためFは0である。また、Cが1、Cが0であるためFは2である。なお、各重み付け係数は、前述した値である。すなわち、時刻29秒では、ビートトラッキング処理に支障が出ているため、ロボット1は、適応度関数Fの値が2のため、ビートトラッキング処理のリカバリー処理を行う。
次に、ロボット1は、音声信号に含まれる『音楽を変えて!』(H4)に対し、『ハイ!』(R4)と発話させた後、音楽を変更する(約35秒)。この時点で演奏されている音楽は、テンポが122bpmである。
時刻約55秒において、ロボット1は、音声信号に含まれる『この曲のタイトルは何ですか?』(H5)に対し、『タイトルは、ポロネーズです!』(R5)と発話させる。符号1504及び符号1505に示す画像のように、適応度関数Fの値は0のままであり、適応度関数Fの値は2である。ロボット1は、適応度関数Fの値が2のため、ビートトラッキング処理のリカバリー処理を行う。
次に、ロボット1は、音声信号に含まれる『ムードを変えて!』(H6)に対し、『ハイ!』(R6)と発話させた後、音楽を変更する(約58秒)。この時点で演奏されている音楽は、テンポが100bpmである。
図17の時刻約61秒において、符号1504及び符号1505に示す画像のように、コスト関数Cが0のため適応度関数Fの値は0になり、コスト関数CMが1のため適応度関数Fの値は2である。
次に、時刻約62秒において、符号1504及び符号1505に示す画像のように、コスト関数Cが1のため適応度関数Fの値は1になり、コスト関数CMが1及びコスト関数Cが1のため適応度関数Fの値は3になる。このため、ロボット1は、適応度関数Fの値が3であるため、ビットトラッキング処理をリセットする。
次に、時刻約78秒において、音声信号に含まれる『ムードを変えて!』(H7)を収録する。時刻約78秒において、符号1504及び符号1505に示す画像のように、コスト関数Cが0のため適応度関数Fの値は0になり、コスト関数CMが1のため適応度関数Fの値は2である。しかしながら、ロボット1は、音声認識ができなかったため、『もう一度、言ってくださいませんか?』(R7)と発話させる。
次に、時刻約78秒において、音声信号に含まれる『ムードを変えて!』(H8)を認識する。時刻約88秒において、符号1504及び符号1505に示す画像のように、コスト関数Cが1のため適応度関数Fの値は2になり、コスト関数CMが1のため適応度関数Fの値は2である。この時点でロボット1は、音声認識ができなかったため、『もう一度、言ってくださいませんか?』(R8)と発話させる。一方、ロボット1は、適応度関数Fの値が2であるため、ロボット1の自己雑音を低減するために、ロボット1の動作速度を下げるように制御する制御する。
この結果、時刻約84秒において、音声信号に含まれる『ムードを変えて!』(H9)に対し、『ハイ!』(R9)と発話させた後、音楽を変更する(約86秒)。この時点で演奏されている音楽は、テンポが133bpmである。時刻約86秒において、符号1504及び符号1505に示す画像のように、コスト関数Cが0のため適応度関数Fの値は0になり、コスト関数CMが1のため適応度関数Fの値は2である。このように、ロボット1が適応度関数の値に応じて、制御したため、時刻約84秒の発話を認識できた。
音楽を変更し、ダンスを継続しているため、時刻約95秒において、符号1504及び符号1505に示す画像のように、コスト関数Cが1のため適応度関数Fの値は1になり、コスト関数CMが1及びコスト関数Cが1のため適応度関数Fの値は3になる。このため、ロボット1は、適応度関数Fの値が3であるため、ビットトラッキング処理をリセットする。
以上のように、本実施形態に係る音響処理装置(ロボット1)は、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離部(音源分離部32)と、分離部によって分離された音楽音響信号と音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧部(自己雑音抑圧部33)と、音楽音響信号から音楽音響信号の特徴量を推定する音楽特徴量推定部(音楽特徴量推定部41)と、音声音響信号から音声認識を行う音声認識部43と、雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算部(自己雑音推定部42)と、音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部(音楽用適応度関数演算部51)と、音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算部(音声用適応度関数演算部52)と、雑音処理信頼度と音楽特徴量推定信頼度と音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した行動決定関数に応じた行動を決定する制御部70と、を備える。
この構成によって、ロボット1は、話者の発話を認識し、認識した発話内容に応じて、音楽を変更する。また、ロボット1は、認識した発話内容に応じて、その音楽のテンポを答え、その音楽の曲名を答える音声を発する。
そして、図16〜図18に示したように、本実施形態のロボット1は、適応度関数の値に応じて、ロボット1の動作速度、演奏されている音楽の音量の変更、ビートトラッキング処理に対するリカバリー、ビートトラッキング処理に対するリセットを応答処理として選択し、選択した応答行動に応じて制御する。この結果、本実施形態のロボット1は、演奏されている音楽に対してビートを検出し、検出したビートに合わせてダンスを行う。このダンスに伴って、ロボット1が収録する音響信号には、自己雑音が増加する。このような状況下であっても、本実施形態のロボット1は、ビートトラッキング処理を継続し、さらに話者の発話を認識して、認識した発話に応じた行動を行う。
なお、図16〜図19に示した実験例は一例であり、ロボット1は、適応度関数FとFの値に応じて、ロボット1の各機能部の応答行動を選択するようにしてもよい。例えば、適応度関数Fの値に応じて、収音部10が収録した音響信号に対して音源定位部31及び音源分離部32に対して、増幅率を増やすように制御してもよい。例えば、適応度関数Fの値が2のとき、増幅率を1.5倍に制御し、適応度関数Fの値が3のとき、増幅率を2倍に制御するようにしてもよい。
また、本実施形態では、適応度関数の値が0、1、2、3の例を説明したが、これらの値は、2種類以上であればよい。すなわち、0と1の2つでもよく、0〜4の5個以上であってもよい。その場合であっても、これらの適応度関数の値に応じて、決定部60が応答行動を選択し、選択した応答行動に応じて、ロボット1の各部を制御するようにしてもよい。
上述では、音響処理装置を組み込んでいる機器として、例えばロボット1の場合を例にとって説明したが、上述した実施形態では、これには限られない。音響処理装置は、図1に示したロボット1と同様の機能部を備えている。音響処理装置を組み込んでいる機器は、自装置による音響信号の処理中に動作し、動作音を周囲に放射する機器であればよい。そのような機器は、例えば、エンジン、DVDプレイヤ(Digital Versatile Disk Player)、HDD(Hard Disk Drive)等を搭載する車両等であってもよい。即ち、音響処理装置は、動作の制御対象であって、かつ、その動作によって生じる音を直接取得することができない機器に組み込まれるようにしてもよい。
なお、本発明におけるロボット1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
(参考文献)
参考文献1;J. L. Oliveira, F. Gouyon, L. G. Martins, and L. P. Reis, “IBT: a realtime tempo and beat tracking system,” in Int. Soc. for Music Information Retrieval Conf., 2010, pp. 291−296.
参考文献2;K. Nakadai et al., “Active audition for humanoid,” in National Conference on Artificial Intelligence, 2000, pp. 832−839.
1…ロボット、10…収音部、20…動作検出部、30…フィルタリング部、40…認識部、50…変換部、60…決定部、70…制御部、80…音声再生部、31…音源定位部、32…音源分離部、33…自己雑音抑圧部、41…音楽特徴量推定部、42…自己雑音推定部、43…音声認識部43、51…音楽用適応度関数演算部、52…音声用適応度関数演算部、61…音楽動作調停部、62…音声動作調停部、71…動作継続部、72…リカバリー部、73…リセット部、74…動作継続部、75…雑音低減部、76…動作停止部、77…動作制御部、331…テンプレート推定部、332…テンプレート記憶部、333…スペクトル減算部、334…テンプレート更新部、401…特徴量抽出部、402…エージェント導入部、403…マルチエージェント部、404…エージェント調停部、405…状態リカバリー部、406…楽曲推定部、407…楽曲データベース

Claims (6)

  1. 収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離部と、
    前記分離部によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧部と、
    前記音楽音響信号から前記音楽音響信号の特徴量を推定する音楽特徴量推定部と、
    前記音声音響信号から音声認識を行う音声認識部と、
    前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算部と、
    前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部と、
    前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算部と、
    前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御部と、
    を備えることを特徴とする音響処理装置。
  2. 前記制御部は、
    前記音声行動決定関数に基づいて前記音声認識部に関する応答行動を決定し、前記音楽行動決定関数に基づいて前記音楽特徴量推定部に関する応答行動を決定する
    ことを特徴とする請求項1に記載の音響処理装置。
  3. 前記制御部は、
    前記音楽特徴量推定信頼度と前記音声認識信頼度とがともに予め定められている値より小さくなったとき、前記音楽特徴量推定部をリセットするように制御する
    ことを特徴とする請求項1または請求項2に記載の音響処理装置。
  4. 前記音声行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値であり、
    前記音楽行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値である
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の音響処理装置。
  5. 分離部が、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、
    雑音抑圧部が、前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、
    音楽特徴量推定部が、前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、
    音声認識部が、前記音声音響信号から音声認識を行う音声認識手順と、
    雑音処理信頼度計算部が、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、
    音楽特徴量推定信頼度計算部が、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、
    音声認識信頼度計算部が、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、
    制御部が、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、
    を含むことを特徴とする音響処理方法。
  6. 音響処理装置のコンピュータに、
    収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、
    前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、
    前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、
    前記音声音響信号から音声認識を行う音声認識手順と、
    前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、
    前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、
    前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、
    前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、
    を実行させる音響処理プログラム。
JP2013182617A 2012-09-05 2013-09-03 音響処理装置、音響処理方法、及び音響処理プログラム Expired - Fee Related JP6140579B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261696960P 2012-09-05 2012-09-05
US61/696,960 2012-09-05

Publications (2)

Publication Number Publication Date
JP2014052630A JP2014052630A (ja) 2014-03-20
JP6140579B2 true JP6140579B2 (ja) 2017-05-31

Family

ID=50188664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013182617A Expired - Fee Related JP6140579B2 (ja) 2012-09-05 2013-09-03 音響処理装置、音響処理方法、及び音響処理プログラム

Country Status (2)

Country Link
US (1) US9378752B2 (ja)
JP (1) JP6140579B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107520849A (zh) * 2017-07-25 2017-12-29 北京联合大学 一种基于单片机的语音控制机器人表情显示装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6195548B2 (ja) * 2014-08-19 2017-09-13 日本電信電話株式会社 信号解析装置、方法、及びプログラム
US20160300569A1 (en) * 2015-04-13 2016-10-13 AIPleasures, Inc. Speech controlled sex toy
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
JP6603919B2 (ja) * 2015-06-18 2019-11-13 本田技研工業株式会社 音声認識装置、および音声認識方法
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
CN109661705B (zh) 2016-09-09 2023-06-16 索尼公司 声源分离装置和方法以及程序
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
CN106453761B (zh) * 2016-10-31 2019-10-15 北京小米移动软件有限公司 语音信号的处理方法及装置
US10649060B2 (en) 2017-07-24 2020-05-12 Microsoft Technology Licensing, Llc Sound source localization confidence estimation using machine learning
JP7075064B2 (ja) * 2018-03-09 2022-05-25 日本電気株式会社 信号源識別装置、信号源識別方法、プログラム
CN110534110B (zh) * 2018-05-25 2022-04-15 深圳市优必选科技有限公司 一种机器人及提高其语音交互识别率的方法、装置和电路
GB2575873A (en) * 2018-07-27 2020-01-29 Xmos Ltd Processing audio signals
JP7326824B2 (ja) * 2019-04-05 2023-08-16 ヤマハ株式会社 信号処理装置、及び信号処理方法
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法
CN116827813B (zh) * 2023-08-15 2024-05-31 广东云下汇金科技有限公司 一种多数据中心安全通信方法及dci设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
JP2005342862A (ja) * 2004-06-04 2005-12-15 Nec Corp ロボット
US7373248B2 (en) * 2004-09-10 2008-05-13 Atx Group, Inc. Systems and methods for off-board voice-automated vehicle navigation
JP4468777B2 (ja) 2004-09-29 2010-05-26 本田技研工業株式会社 脚式歩行ロボットの制御装置
JP4687297B2 (ja) * 2005-07-15 2011-05-25 カシオ計算機株式会社 画像処理装置及びプログラム
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
JP5337608B2 (ja) 2008-07-16 2013-11-06 本田技研工業株式会社 ビートトラッキング装置、ビートトラッキング方法、記録媒体、ビートトラッキング用プログラム、及びロボット
JP5328744B2 (ja) * 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107520849A (zh) * 2017-07-25 2017-12-29 北京联合大学 一种基于单片机的语音控制机器人表情显示装置

Also Published As

Publication number Publication date
US9378752B2 (en) 2016-06-28
JP2014052630A (ja) 2014-03-20
US20140067385A1 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
JP6140579B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
US8762144B2 (en) Method and apparatus for voice activity detection
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US8889976B2 (en) Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
JP2010026512A (ja) ビートトラッキング装置、ビートトラッキング方法、記録媒体、ビートトラッキング用プログラム、及びロボット
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
JP2017032857A (ja) 音声処理装置及び音声処理方法
JP2017067879A (ja) 音声処理装置及び音声処理方法
JP2021043258A (ja) 制御システム、及び制御方法
JP4323029B2 (ja) 音声処理装置およびカラオケ装置
Oliveira et al. Beat tracking for interactive dancing robots
KR101791907B1 (ko) 위치 기반의 음향 처리 장치 및 방법
Murata et al. A beat-tracking robot for human-robot interaction and its evaluation
JP2007101813A (ja) 認識システム
Oliveira et al. Live assessment of beat tracking for robot audition
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP2020018015A (ja) 音響信号処理装置、方法及びプログラム
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
Rajavel et al. Optimum integration weight for decision fusion audio–visual speech recognition
JP4632831B2 (ja) 音声認識方法および音声認識装置
JP2019144524A (ja) ワード検出システム、ワード検出方法及びワード検出プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170501

R150 Certificate of patent or registration of utility model

Ref document number: 6140579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees