JP6140579B2 - 音響処理装置、音響処理方法、及び音響処理プログラム - Google Patents
音響処理装置、音響処理方法、及び音響処理プログラム Download PDFInfo
- Publication number
- JP6140579B2 JP6140579B2 JP2013182617A JP2013182617A JP6140579B2 JP 6140579 B2 JP6140579 B2 JP 6140579B2 JP 2013182617 A JP2013182617 A JP 2013182617A JP 2013182617 A JP2013182617 A JP 2013182617A JP 6140579 B2 JP6140579 B2 JP 6140579B2
- Authority
- JP
- Japan
- Prior art keywords
- music
- unit
- reliability
- noise
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 84
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 98
- 238000004364 calculation method Methods 0.000 claims description 53
- 238000000926 separation method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 46
- 230000001629 suppression Effects 0.000 claims description 46
- 230000009471 action Effects 0.000 claims description 43
- 230000005236 sound signal Effects 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 description 157
- 230000033001 locomotion Effects 0.000 description 51
- 239000003795 chemical substances by application Substances 0.000 description 42
- 238000001228 spectrum Methods 0.000 description 24
- 238000001514 detection method Methods 0.000 description 22
- 230000007704 transition Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 18
- 238000011084 recovery Methods 0.000 description 16
- 230000006399 behavior Effects 0.000 description 14
- 230000004807 localization Effects 0.000 description 13
- 238000001914 filtration Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000035484 reaction time Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/085—Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Manipulator (AREA)
- Auxiliary Devices For Music (AREA)
Description
本発明の態様(2)によれば、音声行動決定関数に基づいて音声認識部に関する応答行動を決定し、音響行動決定関数に基づいてビート間隔推定部に関する応答行動を決定し、決定した応答行動に応じて、音声認識部またはビート間隔推定部が制御する。この結果、本発明に係る音響処理装置は、ビート間隔の検出を精度が低下した場合にビート間隔の検出の精度を向上することができ、音声認識の精度が低下した場合に音声認識の精度を向上することができる。
本発明の態様(3)によれば、雑音処理信頼度とビート間隔推定信頼度と音声認識信頼度とがともに予め定められている値より小さくなったとき、ビート間隔推定部をリセットするように制御するため、ビート間隔の検出を精度が低下した場合にビート間隔の検出の精度を向上することができる。
本発明の態様(4)によれば、音声行動決定関数と音楽行動決定関数によって算出される値を所定のレベルに分けることができるので、この分類されたレベルに応じて適切な応答行動を選択することができる。
図1は、本実施形態に係るロボット1の概略構成を表すブロック図である。図1に示すように、ロボット1は、収音部10、動作検出部20、フィルタリング部30、認識部40、変換部50、決定部60、制御部70、及び音声再生部80を備えている。なお、ロボット1は、図示しないモータ、機構部等を備えている。
音源定位部31は、収音部10から入力されたNチャネルの音響信号に基づいて、例えば、MUSIC(Multiple Signal Classification;多信号分類)法を用いて音源毎の位置を推定する。ここで、音源は、発話した人間、または音楽を出力するスピーカ等である。音源定位部31は、予め定めた数の伝達関数ベクトルを、方向と対応付けて記憶した記憶部を備える。音源定位部31は、記憶部から選択した伝達関数ベクトルと、入力されたNチャネルの音響信号に基づいて算出した固有ベクトルに基づき、空間スペクトルを算出する。音源定位部31は、算出した空間スペクトルが最も大きい音源方向を選択し、選択した音源方向を示す情報を音源分離部32に出力する。
音楽用適応度関数演算部51は、認識部40から入力された信頼度cfS(n)、cfE(n)、及びcfM(n)を用いて、音楽用適応度関数FM(n)を算出し、算出した音楽用適応度関数FM(n)を決定部60に出力する。なお、添え字のMは、音楽(Music)を示している。
音声用適応度関数演算部52は、認識部40から入力された信頼度cfS(n)、cfE(n)、及びcfM(n)を用いて音声用適応度関数FS(n)を算出し、算出した音声用適応度関数FS(n)を決定部60に出力する。また、添え字のSは、音声(speech)を示している。
音楽用適応度関数FM(n)及び音声用適応度関数FS(n)は、決定部60が、制御部70の動作を決定するために用いられる。なお、コスト関数、及び音楽用適応度関数FM(n)と音声用適応度関数FS(n)の算出については後述する。
音楽動作調停部61は、変換部50から入力された音楽用適応度関数FM(n)に基づいて、音楽に関する動作を決定し、決定した動作を示す指示を制御部70に出力する。
音声動作調停部62は、変換部50から入力された音声用適応度関数FS(n)に基づいて、音声に関する動作を決定し、決定した動作を示す動作指示を制御部70に出力する。なお、音楽動作調停部61及び音声動作調停部62が行う処理については、後述する。
動作継続部71は、音楽動作調停部61が出力した動作指示に応じて、例えば、収録された音楽に合わせたダンスを継続するように、ロボット1が有するモータを制御する。また、動作継続部71は、ビートトラッキング処理を現在の設定のまま継続するように、音楽特徴量推定部41を制御する。
リカバリー部72は、音楽動作調停部61が出力した動作指示に応じて、例えば、収録された音楽に対するビートトラッキング処理をリカバリーするように、音楽特徴量推定部41を制御する。
リセット部73は、音楽動作調停部61が出力した動作指示に応じて、例えば、収録された音楽に対するビートトラッキング処理をリセットするように、音楽特徴量推定部41を制御する。
以上のように、動作継続部71、リカバリー部72、及びリセット部73は、ビートトラッキング処理に関係する動作について制御する。
雑音低減部75は、例えば、音声動作調停部62が出力した動作指示に応じて、ロボット1が有するモータ及び機構部を制御して、認識した音声が認識しやすくなるように、音楽のボリュームを下げるようにロボット1が動作するように制御する。または、雑音低減部75は、音声動作調停部62が出力した動作指示に応じて、音楽のボリュームを下げる依頼を表す音声信号を音声再生部80から出力するように制御する。あるいは、雑音低減部75は、音声動作調停部62が出力した動作指示に応じて、発話者に質問を反復してもらうための音声信号を音声再生部80から出力するように制御する。
動作停止部76は、音声動作調停部62が出力した動作指示に応じて、例えば、ロボット1が音楽の再生を停止させるように動作するように制御する。あるいは、動作停止部76は、音声動作調停部62が出力した動作指示に応じて、ロボット1が有するモータ及び機構部を制御して、ロボット1の動きを止めることによって自己雑音を減らすように制御する。
以上のように、動作継続部74、雑音低減部75、及び動作停止部76は、音声の認識に関係する動作について制御する。
例えば、収音された音響信号から認識部40によってビート間隔が検出された場合、動作制御部77は、認識されたビート間隔に合わせてロボット1がダンスするように制御する。あるいは、収音された音声信号から認識部40によって疑問文が認識された場合、動作制御部77は、認識された疑問文に対する返答の音声信号を音声再生部80から出力するように制御する。また、ロボット1が、例えばLED(発光ダイオード)等を有する場合、動作制御部77は、認識されたビート間隔に合わせてLEDを点灯するように制御するようにしてもよい。
(ステップS1)収音部10は、Nチャネルの音響信号を収録する。
(ステップS2)音源分離部32は、音源定位部31から入力された音源方向に基づいて、収音部10によって収録されたNチャネルの音響信号を、例えば独立成分分析法を用いて音声信号と音楽信号とに分離する。
(ステップS4)音楽特徴量推定部41は、自己雑音抑圧部33から入力された音楽信号に対して、ビートトラッキング処理を行う。次に、音楽特徴量推定部41は、ビートトラッキング処理によって検出したビート間隔を示す情報を、動作制御部77に出力する。
(ステップS5)音楽特徴量推定部41は、信頼度cfM(n)を算出し、算出した信頼度cfM(n)を音楽用適応度関数演算部51及び音声用適応度関数演算部52に出力する。
(ステップS8)音声認識部43は、認識過程で算出したコスト関数によって与えられた各々評価された単語の確からしさに基づく信頼度cfS(n)を算出し、算出した信頼度cfS(n)を音楽用適応度関数演算部51及び音声用適応度関数演算部52に出力する。
(ステップS10)音楽動作調停部61は、音楽用適応度関数演算部51によって算出された音楽用適応度関数FM(n)に基づいて、ビートトラッキング処理の精度を上げる音楽に対する動作を決定し、またはロボット1の動作を決定する。次に、制御部70は、音楽動作調停部61によって決定された動作を行うように、ロボット1を制御する。
(ステップS12)音声動作調停部62は、音声用適応度関数演算部52によって算出された音声用適応度関数FS(n)に基づいて、音声認識処理の精度を上げるための動作を決定し、またはロボット1の動作を決定する。次に、制御部70は、音声動作調停部62によって決定された動作を行うように、ロボット1を制御する。
以上で、ロボット1の処理を終了する。
ここで、音源分離部32で用いられるGHDSS法について説明する。GHDSS法は、GC(幾何拘束に基づく音源分離)法と、HDSS(High−order Dicorrelation−based Source Separation;高次元無相関化に基づく音源分離)法を統合した手法である。GHDSS法は、1種のブラインド分離処理(blind deconvolution)である。GHDSS法は、分離行列(separation matrix)[V(ω)]を逐次に算出し、入力音声ベクトル[x(ω)]に算出した分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]を推定することで、音源毎の音響信号に分離する手法である。分離行列[V(ω)]は、各音源から収音部10が備える各マイクロホンまでに伝達関数を要素として有する伝達関数[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素として有するベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素として有するベクトルである。
ここで、分離尖鋭度JSSは、1つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、式(2)で表される。
幾何制約度JGCは、音源ベクトル[u(ω)]の誤差の度合いを表す指標値であり、例えば、次式(3)で表される。
図3は、本実施形態に係るフィルタリング部30の構成の一例を説明するブロック図である。図3に示すように、音源分離部32は、第1音源分離部321及び第2音源分離部322を備えている。また、自己雑音抑圧部33は、テンプレート推定部331、テンプレート記憶部332、スペクトル減算部333、及びテンプレート更新部334を備えている。
第1音源分離部321は、音源定位部31から入力された音源方向を示す情報に基づいて、周知の手法を用いて、変換された複素入力スペクトルを音楽信号と音声信号とに分離する。第1音源分離部321は、分離した音楽信号と音声信号の各スペクトルを、自己雑音抑圧部33のスペクトル減算部333に出力する。
第2音源分離部322は、自己雑音抑圧部33のテンプレート推定部331から入力された自己雑音成分のパワースペクトルの推定値を、スペクトル減算部333に出力する。
スペクトル減算部333は、第1音源分離部321から入力された音楽信号と音声信号の各スペクトルから各々、第2音源分離部322から入力された自己雑音成分のパワースペクトルを減算することで、自己雑音成分を抑圧する。スペクトル減算部333は、自己雑音成分を抑圧した音楽信号のスペクトルを認識部40の音楽特徴量推定部41に出力し、自己雑音成分を抑圧した音声信号のスペクトルを認識部40の音声認識部43に出力する。
(ステップS101)テンプレート更新部334は、学習用のテンプレートを生成する。
(ステップS102)テンプレート推定部331は、NN(Nearest Neighbor)法によって、ステップS101で生成されたテンプレートがテンプレート記憶部332に記憶されているか探索する。
テンプレート推定部331は、自己雑音以外の雑音に対応するテンプレートが検出されたと判別した場合(ステップS103;YES)、ステップS104に進み、自己雑音以外の雑音に対応するテンプレートが検出されていないと判別した場合(ステップS103;NO)、ステップS105に進む。
(ステップS105)テンプレート推定部331は、類似するテンプレートがテンプレート記憶部332にあるか否かを判別する。テンプレート推定部331は、類似するテンプレートがテンプレート記憶部332にあると判別した場合(ステップS105;YES)、ステップS106に進み、類似するテンプレートがテンプレート記憶部332にないと判別した場合(ステップS105;NO)、ステップS107に進む。
(ステップS107)テンプレート推定部331は、新たな学習用のテンプレートを追加する。
以上で、自己雑音抑圧部33におけるテンプレートの学習に関する処理を終了する。
また、テンプレート記憶部332に記憶されている情報は、例えば、ネットワーク経由で接続されているサーバに記憶されていてもよい。この場合、サーバには、複数のロボット1に関するテンプレートを記憶させておき、複数のロボット1がテンプレートを共用するようにしてもよい。
図5は、本実施形態に係る音楽特徴量推定部41の構成の一例のブロック図である。図5に示すように、音楽特徴量推定部41は、特徴量抽出部401、エージェント導入部402、マルチエージェント部403、エージェント調停部404、状態リカバリー部405、楽曲推定部406、及び楽曲データベース407を備えている。
区間推定部4021は、次式(4)に示されるように、特徴量抽出部401から入力された音響特徴量に基づいて、周期関数A(τ)を計算する。
すなわち、エージェント導入部402は、ビート間隔とビートの位相に関する仮の初期セットと新規セットとをエージェントとして生成、または再帰的に再生成することで、ビート間隔の検出を行う。さらに、本実施形態では、複数のエージェントを生成して用いる。
そして、エージェント調停部404は、時刻が変化したとき、最も好ましいスコアの進行になるように、エージェントを変更していく。エージェント調停部404は、算出した現在の測定チャンクのδsbnを、信頼度cfS(n)として、変換部50に出力する。また、エージェント調停部404は、このように最も好ましいスコアの進行になるようにエージェントを変更しながらビート間隔(テンポ)を推定し、推定したビート間隔(テンポ)を、楽曲推定部406及び制御部70に出力する。
楽曲データベース407には、複数の楽曲について、楽曲の特徴量、テンポ、タイトル、ジャンル等が関連付けられて格納されている。なお、楽曲データベース407には、楽曲の楽譜も楽曲に関連付けられて格納されていてもよい。
例えば、図6及び図7において、12〜13秒の間、及び25〜28秒の間、最も良いエージェントが順次、切り替わっている。一方、例えば20〜23秒、及び33〜37秒の間、選択されたエージェントが継続して使用されている。
図7の太線に示したように、音楽特徴量推定部41は、スコアが最も良いエージェントを継続して使用していくことで、安定してビート間隔を検出することができる。
ここで、ビートトラッキング結果の信頼度cfS(n)のコストをCS(n)、音声認識した結果の信頼度cfM(n)のコストをCM(n)、自己雑音推定部42が算出した信頼度cfE(n)のコストをCE(n)とする。また、信頼度cfS(n)に対するしきい値TS、信頼度cfM(n)に対するしきい値TM、信頼度cfE(n)に対するしきい値TEとする。以下では、信頼度をcfY(ただし、Yは、M、S、及びE)、コストをCY(n)と表し、しきい値をTYと表す。
これらの適応度関数は、適応度の異なるレベルをとる。適応度の異なるレベルに従って、音楽動作調停部61は、音楽用適応度関数演算部51が算出した音楽用適応度関数FM(n)に基づいて、ロボット1に対する制御の判別を行う。また、音声動作調停部62は、音声用適応度関数演算部52が算出した音声用適応度関数FS(n)に基づいて、ロボット1に対する制御の判別を行う。
各重み付けは、例えばWM S=0、WM M=2、WM E=1、WS S=2、WS M=0、及びWS E=1である。この場合、適応度関数の値は、例えば、0.1、2、及び3のいずれか1つである。適応度関数の値が小さいとき、現状の動作を維持する。このような動作を、本実施形態では、アクティブ(ACTIVE)な動作であると定義する。一方、適応度関数の値が大きいとき、現状の動作を停止させる。このような動作を、本実施形態では、プロアクティブ(PROACTIVE)な動作であると定義する。
音声動作調停部62は、符号801のように、FS(n)が0又は1のとき、現在の動作を継続するように動作を決定する。例えば、ロボット1が出力されている音楽に合わせてダンスをしている場合、動作継続部74は、音声動作調停部62が決定した動作内容に従って、ロボット1にダンスの動作を継続するように制御する。
また、音声動作調停部62は、符号801のように、FS(n)が2のとき、自己雑音を減少させるように動作を決定する。この場合、例えば、音声認識処理における認識率が低下していることが考えられる。このため、雑音低減部75は、音声動作調停部62が決定した動作内容に従って、例えば、ロボット1に動作音が小さくなるように動作が少なくなるように、または動作が遅くように制御する。
あるいは、音声動作調停部62は、符号801のように、FS(n)が3のとき、現在の動作を停止するように動作を決定する。この場合、例えば、音声認識処理が困難になっていることが考えられる。このため、動作停止部76は、音声動作調停部62が決定した動作内容に従って、ロボット1にダンスの動作を停止するように制御する。
また、音楽動作調停部61は、符号802のように、FM(n)が2のとき、ビートトラッキング処理をリカバリーさせるように動作を決定する。この場合、例えば、ビートトラッキング処理におけるビート間隔の検出精度が低下していることが考えられる。このため、リカバリー部72は、音楽動作調停部61が決定した動作内容に従って、例えば、音楽特徴量推定部41にリカバリー指示を出力する。
あるいは、音楽動作調停部61は、符号802のように、FM(n)が3のとき、現在の動作を停止するように動作を決定する。この場合、例えば、ビートトラッキング処理が困難になっていることが考えられる。このため、リセット部73は、音楽動作調停部61が決定した動作内容に従って、例えば、音楽特徴量推定部41にリセット指示を出力する。
次に、本実施形態に係るロボット1(図1)を動作させて行った実験例について説明する。実験は、次の条件で行った。収音部10として、人型ロボット(humanoid robot)の頭部の外周に装着されたマイクロホンを8個用いた。
テンプレート記憶部332に記憶させるテンプレートを学習させる際、テンポの範囲が40〜80[bpm]の中からランダムにテンポを抜き出し、3つのダンス動作を5分間行わせた。
音響モデルを学習させる際、日本語の学習用のデータベース(training database)として、日本語新聞記事文(JNAS;Japanese Newspaper Article Sentence)コーパスを用いた。また、英語の学習用のデータベースとして、英字新聞から抜き出したコーパスを用いた。
実験に使用した音声は、4人の男性の音声、4人の女性の音声である。この音声を、上記した条件で録音して、10分感の音声データを作成した。なお、音声データは、日本語の場合、単語のそれぞれの間におよそ1秒の無音ギャップを置いて、連続したストリームとして連結した。
図10は、本実施形態に係るロボット1のダンスにおける動作とビートとの同期を説明する図である。実験では、ロボット1は、音楽に合わせて動作を行うことで、ダンスを行う。図10の符号501が示す画像領域のように、ロボット1が右腕を上げ、左腕を下げた姿勢をポーズ1と定義する。また、符号502が示す画像領域のように、ロボット1が左腕を上げ、右腕を下げた姿勢をポーズ2と定義する。
ポーズ1及びポーズ2は、ビートと同期を取って動作が行われる。ポーズ1をイベントb’n+1とし、イベント1の後、次のステップstepn+1に遷移する。また、ポーズ2をイベントb’n+2とし、イベント1の後、次のステップstepn+2に遷移する。
そして、通信遅延時間、ステップ遷移要求、実際の動作との間には、次式(13)で示すような関係がある。
この取り決めに基づいて、ロボット1が新たなステップの際に移動している場合に遷移要求が来た場合、直ちにステップは、次に遷移する。あるいは、ロボット1は、既に次のステップに移行する前に、次回のビートイベント予測の時に現在のステップ、その停止を終える。
このような取り決めによって、通信速度の遅延の影響をなくして、ロボット1にビートに合わせてダンスを行わせた。
1)1チャネル:シングル(正面)マイクから収録された音響信号
2)1チャネル+ENS:ENSによって1チャネルをリファイン(refined)
3)8チャネル:8チャネルのマイクアレイから収録された音響信号を、音源定位部31と音源分離部32を適用することにより、分離された信号。この分離された音声と音楽信号は、それぞれ、音声認識部43と音楽特徴量推定部41に出力される。
4)8チャネル+ ENS:ENSによって8チャネルをリファイン。
さらに、ビートトラッキングを目的とした音響環境を調節する効果を観察するために、非調整(non−regulated)の音響信号上IBTの性能を比較した。この場合、上述したように、IBT−デフォルトである調整の音響信号上IBTのパフォーマンスに対して、IBT調節である音楽処理のための信頼性の低い音響条件に直面したときの要求を通して、ビートトラッキング処理をリカバリーするか、またはリセットする。
図11において、横軸はAMLts、AMLteを示し、縦軸はAMLスコアを示す。図11の符号1001が示す画像のように、ビート同期ロボットダンスの動きを生成するための本実施形態のアルゴリズムは、AMLtsスコアの観点から、ビート同期全体の67.7%まで再現することができた。また、最初の5秒を破棄したことで効果的な各曲遷移をし、図11の符号1002が示画像のように、AMLteは75.9%のスコアが得られた。AMLtsとAMLteのスコアの差8%は、ロボット1のモータ速度等の変化による影響であると考えられる。
低いテンポ(遅い遷移による)によって要求されるフラットな速度遷移よりも、高いテンポ(より速い遷移)が要求するピークの速度遷移を検出するために、より正確である。しかしながら、図12に示したように、人間の知覚的には、ロボット1の動きは、テンポに同期して動作していることを意味している。
図13において、横軸は、1チャネル(IBT−レギュラ)、1チャネル+ENS(IBT−デフォルト)、8チャネル(IBT−レギュラ)、及び8チャネル+ENS(IBT−デフォルト)を示し、縦軸は、単語認識率を示している。図13に示すように、前処理として音源定位部31と音源分離部32の実装(信号8チャネル)によって、平均で35.8pp(percentage points)の大幅な音声認識による単語認識率を改善することができた。
図14において、横軸は、1チャネル(IBT−デフォルト)、1チャネル(IBT−レギュラ)、1チャネル+ENS(IBT−レギュラ)、8チャネル(IBT−レギュラ)、及び8チャネル+ENS(IBT−レギュラ)を示し、縦軸はAMLtスコアを示している。
図14において、符号1201に示す画像は、IBT−デフォルトにおけるAMLtsスコアを表し、符号1202に示す画像は、IBT−デフォルトにおけるAMLteスコアを表している。また、図14において、符号1203、1205、1207、1209が示す画像は、IBT−レギュラにおけるAMLtsスコアを表し、符号1204、1206、1208、1210が示す画像は、IBT−レギュラにおけるAMLteのスコアを表している。
図14に示すように、1チャネル記録された信号において、IBT−デフォルトに対してIBTを規制した場合、AMLtsが18.5pp、AMLteが22.5pp、各々ビートトラッキング精度が増加している。この意味合いは、同じ条件で1チャネル信号を、両方を比較すると精度の増加は、音楽の遷移における反応時間の1.6秒の減少に反映されることになる。
この結果、IBT調節は±2.0秒、全ての信号条件にわたって、その結果(平均値P =0.76±0.18で)のうち、統計的有意性なしで4.9の平均反応時間で音楽遷移から回復することができた。
以上のように、8チャネル信号に本実施形態を適用するとき、最大62.1%と78.6%、それぞれ、AMLteで9.5pp、AMLtsで8.9ppのビートトラッキング精度の改善を実現した。
また、図14に示すように、IBT−レギュラの1チャネル及び8チャネルでは、ENSを行うことでAMLtsを1.2pp、AMLteを1.0pp改善できた。
この結果、IBT−レギュラでは、8チャネル+ENSにおけるAMLtsが63.1パーセント、AMLteで80.0%、反応時間の平均4.8±3.0秒になった。
また、符号1504に示す画像において、符号1504−1は、コスト関数CSの値を示し、符号1504−2は、コスト関数CEの値を示している。また、符号1505に示す画像において、符号1505−1は、コスト関数CMの値を示し、符号1505−2は、コスト関数CEの値を示している。また、符号1506に示す画像において、Hは人間の発話を示し、Rはロボット1の発話を示している。
図16において、まず、ロボット1は、音声信号に含まれる『音楽の再生をしてくださいませんか?』(H1)に対して、『ハイ!』(R1)と発話させた後、音楽の演奏を開始する(約2秒)。この時点で演奏されている音楽は、テンポが120bpmである。
次に、ロボット1は、音声信号に含まれる『ダンスはできますか?』(H2)に対して、『ハイ!』(R2)と発話させた後、ダンスを開始する(約18秒)。ダンスの開始に伴い、符号1503に示す画像に示すように、機構部の動作速度が約20秒から増加する。
時刻約55秒において、ロボット1は、音声信号に含まれる『この曲のタイトルは何ですか?』(H5)に対し、『タイトルは、ポロネーズです!』(R5)と発話させる。符号1504及び符号1505に示す画像のように、適応度関数FSの値は0のままであり、適応度関数FMの値は2である。ロボット1は、適応度関数FMの値が2のため、ビートトラッキング処理のリカバリー処理を行う。
次に、ロボット1は、音声信号に含まれる『ムードを変えて!』(H6)に対し、『ハイ!』(R6)と発話させた後、音楽を変更する(約58秒)。この時点で演奏されている音楽は、テンポが100bpmである。
次に、時刻約62秒において、符号1504及び符号1505に示す画像のように、コスト関数CSが1のため適応度関数FSの値は1になり、コスト関数CMが1及びコスト関数CEが1のため適応度関数FMの値は3になる。このため、ロボット1は、適応度関数FMの値が3であるため、ビットトラッキング処理をリセットする。
この結果、時刻約84秒において、音声信号に含まれる『ムードを変えて!』(H9)に対し、『ハイ!』(R9)と発話させた後、音楽を変更する(約86秒)。この時点で演奏されている音楽は、テンポが133bpmである。時刻約86秒において、符号1504及び符号1505に示す画像のように、コスト関数CSが0のため適応度関数FSの値は0になり、コスト関数CMが1のため適応度関数FMの値は2である。このように、ロボット1が適応度関数の値に応じて、制御したため、時刻約84秒の発話を認識できた。
そして、図16〜図18に示したように、本実施形態のロボット1は、適応度関数の値に応じて、ロボット1の動作速度、演奏されている音楽の音量の変更、ビートトラッキング処理に対するリカバリー、ビートトラッキング処理に対するリセットを応答処理として選択し、選択した応答行動に応じて制御する。この結果、本実施形態のロボット1は、演奏されている音楽に対してビートを検出し、検出したビートに合わせてダンスを行う。このダンスに伴って、ロボット1が収録する音響信号には、自己雑音が増加する。このような状況下であっても、本実施形態のロボット1は、ビートトラッキング処理を継続し、さらに話者の発話を認識して、認識した発話に応じた行動を行う。
参考文献1;J. L. Oliveira, F. Gouyon, L. G. Martins, and L. P. Reis, “IBT: a realtime tempo and beat tracking system,” in Int. Soc. for Music Information Retrieval Conf., 2010, pp. 291−296.
参考文献2;K. Nakadai et al., “Active audition for humanoid,” in National Conference on Artificial Intelligence, 2000, pp. 832−839.
Claims (6)
- 収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離部と、
前記分離部によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧部と、
前記音楽音響信号から前記音楽音響信号の特徴量を推定する音楽特徴量推定部と、
前記音声音響信号から音声認識を行う音声認識部と、
前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算部と、
前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算部と、
前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算部と、
前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御部と、
を備えることを特徴とする音響処理装置。 - 前記制御部は、
前記音声行動決定関数に基づいて前記音声認識部に関する応答行動を決定し、前記音楽行動決定関数に基づいて前記音楽特徴量推定部に関する応答行動を決定する
ことを特徴とする請求項1に記載の音響処理装置。 - 前記制御部は、
前記音楽特徴量推定信頼度と前記音声認識信頼度とがともに予め定められている値より小さくなったとき、前記音楽特徴量推定部をリセットするように制御する
ことを特徴とする請求項1または請求項2に記載の音響処理装置。 - 前記音声行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値であり、
前記音楽行動決定関数は、前記雑音処理信頼度、前記音楽特徴量推定信頼度、及び前記音声認識信頼度に各々基づいて算出された各々のコスト関数と、算出された各々のコスト関数に対して予め定められたそれぞれの重み付け係数に基づいて算出された値である
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音響処理装置。 - 分離部が、収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、
雑音抑圧部が、前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、
音楽特徴量推定部が、前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、
音声認識部が、前記音声音響信号から音声認識を行う音声認識手順と、
雑音処理信頼度計算部が、前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、
音楽特徴量推定信頼度計算部が、前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、
音声認識信頼度計算部が、前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、
制御部が、前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、
を含むことを特徴とする音響処理方法。 - 音響処理装置のコンピュータに、
収録した音響信号から、少なくとも音楽音響信号と音声音響信号に分離する分離手順と、
前記分離手順によって分離された前記音楽音響信号と前記音声音響信号の少なくとも一方から雑音を抑圧する雑音抑圧処理を行う雑音抑圧手順と、
前記音楽音響信号の特徴量を推定する音楽特徴量推定手順と、
前記音声音響信号から音声認識を行う音声認識手順と、
前記雑音抑圧処理に関する信頼度である雑音処理信頼度を算出する雑音処理信頼度計算手順と、
前記音楽音響信号の特徴量の推定処理に関する信頼度である音楽特徴量推定信頼度を算出する音楽特徴量推定信頼度計算手順と、
前記音声認識に関する信頼度である音声認識信頼度を算出する音声認識信頼度計算手順と、
前記雑音処理信頼度と前記音楽特徴量推定信頼度と前記音声認識信頼度とに基づいて、音声に関する音声行動決定関数と、音楽に関する音楽行動決定関数のうち少なくとも1つの行動決定関数を算出し、算出した前記行動決定関数に応じた行動を決定する制御手順と、
を実行させる音響処理プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261696960P | 2012-09-05 | 2012-09-05 | |
US61/696,960 | 2012-09-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014052630A JP2014052630A (ja) | 2014-03-20 |
JP6140579B2 true JP6140579B2 (ja) | 2017-05-31 |
Family
ID=50188664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013182617A Expired - Fee Related JP6140579B2 (ja) | 2012-09-05 | 2013-09-03 | 音響処理装置、音響処理方法、及び音響処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9378752B2 (ja) |
JP (1) | JP6140579B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107520849A (zh) * | 2017-07-25 | 2017-12-29 | 北京联合大学 | 一种基于单片机的语音控制机器人表情显示装置 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6195548B2 (ja) * | 2014-08-19 | 2017-09-13 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
US20160300569A1 (en) * | 2015-04-13 | 2016-10-13 | AIPleasures, Inc. | Speech controlled sex toy |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
JP6603919B2 (ja) * | 2015-06-18 | 2019-11-13 | 本田技研工業株式会社 | 音声認識装置、および音声認識方法 |
US9756281B2 (en) | 2016-02-05 | 2017-09-05 | Gopro, Inc. | Apparatus and method for audio based video synchronization |
US9697849B1 (en) | 2016-07-25 | 2017-07-04 | Gopro, Inc. | Systems and methods for audio based synchronization using energy vectors |
US9640159B1 (en) | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
US9653095B1 (en) | 2016-08-30 | 2017-05-16 | Gopro, Inc. | Systems and methods for determining a repeatogram in a music composition using audio features |
CN109661705B (zh) | 2016-09-09 | 2023-06-16 | 索尼公司 | 声源分离装置和方法以及程序 |
US9916822B1 (en) | 2016-10-07 | 2018-03-13 | Gopro, Inc. | Systems and methods for audio remixing using repeated segments |
CN106453761B (zh) * | 2016-10-31 | 2019-10-15 | 北京小米移动软件有限公司 | 语音信号的处理方法及装置 |
US10649060B2 (en) | 2017-07-24 | 2020-05-12 | Microsoft Technology Licensing, Llc | Sound source localization confidence estimation using machine learning |
JP7075064B2 (ja) * | 2018-03-09 | 2022-05-25 | 日本電気株式会社 | 信号源識別装置、信号源識別方法、プログラム |
CN110534110B (zh) * | 2018-05-25 | 2022-04-15 | 深圳市优必选科技有限公司 | 一种机器人及提高其语音交互识别率的方法、装置和电路 |
GB2575873A (en) * | 2018-07-27 | 2020-01-29 | Xmos Ltd | Processing audio signals |
JP7326824B2 (ja) * | 2019-04-05 | 2023-08-16 | ヤマハ株式会社 | 信号処理装置、及び信号処理方法 |
TWI790718B (zh) * | 2021-08-19 | 2023-01-21 | 宏碁股份有限公司 | 會議終端及用於會議的回音消除方法 |
CN116827813B (zh) * | 2023-08-15 | 2024-05-31 | 广东云下汇金科技有限公司 | 一种多数据中心安全通信方法及dci设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6735562B1 (en) * | 2000-06-05 | 2004-05-11 | Motorola, Inc. | Method for estimating a confidence measure for a speech recognition system |
US7013273B2 (en) * | 2001-03-29 | 2006-03-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition based captioning system |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
JP2005342862A (ja) * | 2004-06-04 | 2005-12-15 | Nec Corp | ロボット |
US7373248B2 (en) * | 2004-09-10 | 2008-05-13 | Atx Group, Inc. | Systems and methods for off-board voice-automated vehicle navigation |
JP4468777B2 (ja) | 2004-09-29 | 2010-05-26 | 本田技研工業株式会社 | 脚式歩行ロボットの制御装置 |
JP4687297B2 (ja) * | 2005-07-15 | 2011-05-25 | カシオ計算機株式会社 | 画像処理装置及びプログラム |
EP1760696B1 (en) * | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
JP5337608B2 (ja) | 2008-07-16 | 2013-11-06 | 本田技研工業株式会社 | ビートトラッキング装置、ビートトラッキング方法、記録媒体、ビートトラッキング用プログラム、及びロボット |
JP5328744B2 (ja) * | 2010-10-15 | 2013-10-30 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
-
2013
- 2013-09-03 US US14/016,901 patent/US9378752B2/en not_active Expired - Fee Related
- 2013-09-03 JP JP2013182617A patent/JP6140579B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107520849A (zh) * | 2017-07-25 | 2017-12-29 | 北京联合大学 | 一种基于单片机的语音控制机器人表情显示装置 |
Also Published As
Publication number | Publication date |
---|---|
US9378752B2 (en) | 2016-06-28 |
JP2014052630A (ja) | 2014-03-20 |
US20140067385A1 (en) | 2014-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6140579B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
US8889976B2 (en) | Musical score position estimating device, musical score position estimating method, and musical score position estimating robot | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
JP2010026512A (ja) | ビートトラッキング装置、ビートトラッキング方法、記録媒体、ビートトラッキング用プログラム、及びロボット | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
JP2017032857A (ja) | 音声処理装置及び音声処理方法 | |
JP2017067879A (ja) | 音声処理装置及び音声処理方法 | |
JP2021043258A (ja) | 制御システム、及び制御方法 | |
JP4323029B2 (ja) | 音声処理装置およびカラオケ装置 | |
Oliveira et al. | Beat tracking for interactive dancing robots | |
KR101791907B1 (ko) | 위치 기반의 음향 처리 장치 및 방법 | |
Murata et al. | A beat-tracking robot for human-robot interaction and its evaluation | |
JP2007101813A (ja) | 認識システム | |
Oliveira et al. | Live assessment of beat tracking for robot audition | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2020018015A (ja) | 音響信号処理装置、方法及びプログラム | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
Rajavel et al. | Optimum integration weight for decision fusion audio–visual speech recognition | |
JP4632831B2 (ja) | 音声認識方法および音声認識装置 | |
JP2019144524A (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131121 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6140579 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |