JP2010501955A - デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置 - Google Patents

デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置 Download PDF

Info

Publication number
JP2010501955A
JP2010501955A JP2009526152A JP2009526152A JP2010501955A JP 2010501955 A JP2010501955 A JP 2010501955A JP 2009526152 A JP2009526152 A JP 2009526152A JP 2009526152 A JP2009526152 A JP 2009526152A JP 2010501955 A JP2010501955 A JP 2010501955A
Authority
JP
Japan
Prior art keywords
parameters
control
parameter
vowel
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009526152A
Other languages
English (en)
Inventor
デローム,ニコラス
レスキュリュー,オリビエ
Original Assignee
ヴォクスラー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォクスラー filed Critical ヴォクスラー
Publication of JP2010501955A publication Critical patent/JP2010501955A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/135Musical aspects of games or videogames; Musical instrument-shaped game input interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明はデジタル装置(4、13、14)のリアルタイム音声制御方法に関する。この方法は、音声解析モジュール(3)の入力側に供給される音声信号から子音および母音(ak、tki)を可能な限り短い待ち時間かつ小さい計算能力で抽出する手段(6)を含む音声解析モジュール(3)を使用する。デジタル装置は、特に、検出された子音の種類(A1−A3)、検出された母音の音色(tki)、ならびにピッチおよびインテンシティに応じて、制御信号(25)を生成する。本発明は特に声の表現性を取り込みテレビゲームを制御するのにきわめて有利に応用される。

【選択図】図2a

Description

本発明は、人間の声をリアルタイムで解析し、デジタル装置をリアルタイムで音声制御するための方法に関する。本発明は、人間の声から1組のパラメータをリアルタイムで抽出し、これらの装置の音声制御インタフェースコンポーネントとしてこれらのパラメータを使用することを特に目的とする。本発明は、仮想人物または仮想オブジェクト(ボール、乗り物、兵器...)あるいは仮想世界のその他の任意のパラメータをリアルタイムで音声制御するためのテレビゲームの制御の分野における応用がきわめて有利である。
本発明は、電子および情報処理の応用例では、プレーヤまたはユーザが働きかけることができるパラメータを多く含むため、より高い対話性を可能にする直感的かつわかりやすい新しいインタフェースの開発が必要であることの確認から生まれたものである。そのため、テレビゲームにおいて、ジョイスティックおよびマウスでは、現代のテレビゲームの制御の潜在的な豊富さに比べ、表現性が限られている。
前出の対話性の問題を解決するために、本発明は制御インタフェースとしてユーザの声を使用することを提案する。この枠組において、本発明は「音声コントローラ」または「音声マウス」として記述することができ、すなわち本発明は、これらの従来のインタフェースコンポーネントを補完するものあるいはそれらに代わるものになる。
この目的で、本発明においては、人間の声の表現性、音声信号の形態構造を特徴付ける1組のパラメータを取り込む。ユーザの音声表現性を特徴付けるために、ピッチ、ボリューム(すなわちインテンシティ)、アタック(インテンシティの短いピーク)、音色(特に嗄声性、明瞭性、フォルマント)などの音楽性パラメータ、ならびに子音または子音群、母音または二重母音、音素または音節を離散化または特徴付ける韻律パラメータを組み合わせる。
次に、電子システムまたは情報処理プログラム、特にテレビゲームの人物を制御するためにこれらの表現性パラメータが用いられる。
声の解析はリアルタイムで行われる、すなわち声の処理方法により、理論的には任意のタイミングでデータ(ここでは音の電気信号)の取り込みおよび結果の即時取得が可能になる。しかしながらここではリアルタイムはむしろ、可能な限り小さな時間的ずれで処理が行われるようなデータ処理方法を意味する。というのは、ユーザの制御音声信号の送信後、できるだけ早急に装置を制御することが重要であるからである。このリアルタイム管理を可能にするために本発明のデータ処理アルゴリズムが選択される。
本発明においては、完全に同時であるとの印象、およびユーザの音声表現とその声から抽出されたパラメータを基にして制御される情報処理プロセスが整合しているとの印象をユーザがもつように、制御されるモジュールの目標応答時間は40ms未満である。
アタックなどいくつかのパラメータの場合には、40msより確実に短い応答時間が得られる。
音声解析エンジンは、従来、マイクロコンピュータ、携帯電話、PDA、ゲームまたは玩具のコンソールで使用されているプロセッサ上で実行されるソフトウエアの形態で作製されるか、専用の電子コンポーネント(例:ASIC)上に一体化される。
本発明においては、パラメータの検出は堅固である、すなわち検出は、任意のユーザに対し、ユーザの言語とは関係なく、多くの使用条件下で行われる。高い精度が要求されるいくつかのアプリケーションの場合には、ユーザは、音声プロフィールを定義しこれらのキャリブレーションデータに基づいて検出アルゴリズムを自動的に最適化するために解析される1つまたは複数の音を生成するよう要求される。
したがって、本発明は、ユーザの音声信号によるデジタル装置の制御方法において、
音声信号から表現性パラメータを抽出するステップであって、
これらの表現性パラメータが
−音声信号のピッチ、ボリューム、音色およびアタックなどの音楽性パラメータ、ならびに
−音声信号に存在する子音、母音、音素、音節または二重母音を示す、この音声信号の韻律パラメータであり、
−この抽出ステップが、音声束の形式構造の測定を可能にするものであり、使用者の言葉の理解をねらいとするものではないステップと、
−これらのパラメータを使用して、デジタル装置またはソフトウエア装置を音声制御するステップと
が組み合わされて実行される方法を対象とする。
一実施形態においては、装置の制御はパルス式であり、子音群またはアタック群が装置に送信され、特定の制御タイプが、検出可能な各子音群またはアタック群に関連付けられる。
一実施形態においては、子音群を検出するために、子音を検出すべき音声信号のスペクトル成分上でHFC(英語のHigh Frequency Content)アルゴリズムを実行する。そして、検出された子音について有声化試験および母音試験を行い、第1群は無声かつ非母音性であり、第2群は有声であるが非母音性であり、第3群は有声化され母音性であるという特徴を有する3つの子音群を区別し、特定の制御タイプがこれら3つの群のそれぞれに関連付けられる。
一実施形態においては、第1群は子音[p、t、k]で構成され、第2群は子音[b、d、g]で構成され、第3群は子音[m、n、l]で構成される。
一実施形態においては、最初に有声化試験が行われ、第2に母音試験が行われ、音声信号の第一自己相関係数またはスペクトルセントロイドを用いて子音の有声化または無声化特性が求められ、音声信号の全エネルギまたはある周波数帯内のエネルギを用いて子音の母音性または非母音性特性が求められる。
一実施形態においては、装置の制御はパルス式であり、ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定する。そして、しきい値とこの連続パラメータの値との比較の結果を装置に送信する。第1の制御タイプは、連続パラメータがしきい値よりも大きいことを示す比較の結果に関連付けられる。第2の制御タイプは、連続パラメータがしきい値よりも小さいことを示す比較の結果に関連付けられる。
一実施形態においては、装置の制御は連続式であり、ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定する。そして、この連続パラメータの値を装置に送信する。装置の連続制御はこの連続値に依存する。
一実施形態においては、連続値は、ある所与の瞬間の表現性パラメータの値、あるいはこの表現性パラメータの導関数または二次導関数である。
一実施形態においては、制御すべき装置はグラフィックカーソルであり、表現性パラメータの導関数はこのカーソルの速度に関連付けられる。
一実施形態においては、連続値は、母音三角形の3つの軸のいずれかに沿った表現性パラメータの測定値から作成される。
一実施形態においては、母音三角形の3つの軸のいずれかに沿って表現性パラメータを測定するために、音声の最初の3つのフォルマントF1、F2およびF3または最初の2つのフォルマントF1およびF2によって音色を特徴付ける。
一実施形態においては、ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するために、Yinのアルゴリズムを実行する。
一実施形態においては、ユーザが、音声表現性と装置の制御の間で完全な同時性および整合性があるという感覚を持つように、表現性パラメータを抽出するための応答時間は40ms未満である。
一実施形態においては、ボタン、キーボードまたはジョイステックなど他のマン/マシンインタフェースからのパラメータが、装置の制御用の表現性パラメータと組み合わせて用いられる。
一実施形態においては、インタフェースのボタンがパルス動作を起動するのに用いられ、パルス動作が即時動作である一方、制御するパルス動作の性質または変化を制御するのに、さらには、時間とともに変化する動作である連続的動作を制御するのに音声パラメータが用いられる。
一実施形態においては、表現性パラメータの数Nを装置の入力数Pに適合させるために、定数および/または時間とともに変動する値とすることができる、係数x11〜xNPのN行およびP列の行列を用いてN個の表現性パラメータ同士を組み合わせる。
一実施形態においては、N個のパラメータにその導関数および/または二次導関数を加える。
一実施形態においては、制御する装置がソフトウエアであり、それによりテレビゲームの人物、車、または飛行機など仮想オブジェクトの制御が可能であり、この仮想オブジェクトは表現性パラメータに応じて移動しあるいは動作を行う。
一実施形態においては、使用者の音声表現性パラメータは、しぐさ、身振り、顔の表情、くちびるの同期、髪または毛の逆立ち、顔または体の色など仮想人物のしぐさの表現性を制御し、ユーザの音声信号は人物のしぐさの表現性と整合している。
本発明は、以下の説明を読み、添付の図面を参照することにより、よりよく理解されよう。これらの図面はもっぱら例として示したものであり、本発明をなんら限定するものではない。
本発明による音声の解析および制御装置、ならびに制御が可能な種々の装置の略図である。 適合化モジュールを介して制御されるモジュールに接続された制御モジュールを含む、本発明による装置の詳細図である。 サンプリング後の音声信号、ならびにこの音声信号を構成する子音および母音の略図である。 子音、母音およびそれらの音色の検出、ならびピッチおよびインテンシティの測定が可能な、本発明による解析モジュールの略図である。 制御モジュールの出力と制御されるモジュールの入力の対応を保証する、本発明による適合化モジュールに関連付けられた行列である。 有声化特性または母音性特性によるフランス語の子音の区分表である。 最初の2つのフォルマントにより母音の位置を決める母音三角形の略図である。
図1は本発明による音声制御装置1の略図である。この装置1は、音声解析モジュール3の入力部に接続されたマイクロフォン2を含む。このモジュール3の出力部は、デジタルまたはソフトウエア装置4の入力部に接続される。一例では、マイクロフォン2は、携帯電話、コンピュータのマイクロフォンまたは業務用マイクロフォンである。
マイクロフォン2は、ユーザの音声を基にして、音の電気信号5を解析モジュール3に送信する。このモジュール3は、信号5を分割し子音の存在を検出する抽出モジュール6を含む。モジュール6は、毎回の子音の検出後、ある子音または子音群および/またはある母音または母音群を識別する。モジュール6はさらに、検出した母音および/または子音のピッチ、インテンシティおよび音色も抽出する。このモジュール6は言葉の認識を目的とするものではなく、装置4の正確かつリアルタイムな制御を行うために音声の表現性を測定することを目的とする。
したがってモジュール6の出力側には、ピッチ、インテンシティ、アタックに関する情報をもつ数値パラメータ17、音色パラメータ、および母音/二重母音、子音、音素または音節(母音/子音の結合)を特徴付け離散化する韻律パラメータが見られる。
デジタル装置4の入力側には数値パラメータ17が供給される。
一実施形態においては、抽出されたパラメータ17が単数または複数のイベントのトリガとして作用する。一例では、空手タイプの戦闘ゲームにおける人物を制御するために、ある用語が定義される。たとえば、「p」のアタック音はキック、「b」のアタック音は拳のパンチ、「l」のアタック音は首技というように、アタック音の種類によりパンチの種類が決まる。母音の種類によってたとえば左側または右側のキックまたはパンチであるかどうかが決まる。音のピッチによりたとえば上向きのパンチであるか下向きのパンチであるかが決まり、インテンシティによりたとえばパンチの強さが決まる。
これらの場合のそれぞれにおいて、子音または母音は、IPA(国際音声学会)の分類においてそれが属する子音群または母音群に置き換えられる。たとえば、実行されるアルゴリズムにより子音または母音を分離すること、あるいは歯音([t]、[d]、[s]、[z]、[n]、[H]、[l])または口蓋音([k]、[g]、[S]、[Z]、[J]、[j]、[R])から唇音([p]、[b]、[f]、[v]、[m]、[w])を分離するよう選択することができる。また、無声閉鎖音([p]、[t]、[k])、有声摩擦音([v]、[z]、[Z])、無声摩擦音([f]、[s]、[S])、鼻音([m]、[n]、[J])、渡り音([w]、[H]、[j])および流音([l]、[R])から有声閉鎖音([b]、[d]、[g])を分離するよう選択することができる。またこれらの複数のクラス同士をまとめたり、子音を無声閉鎖音、有声閉鎖音、およびその他に分割するよう選択することもできる。
アタックおよび子音はパルスコントローラとして用いられる、すなわち用いられる技術により音声信号内のアタックの存在を識別することおよび/またはこのアタックが属する子音または子音群を特徴付けることができる。アタックおよび/またはこのアタックが属する子音または子音群の存在が、制御される装置に送信される。したがってたとえばアタックの存在により、テレビゲームのアプリケーションにおける射撃を開始することができる。マウスタイプのアプリケーションにおいては、1つのアタックの存在をクリック動作とみなすことができ、きわめて近接した2つのアタックの存在をダブルクリックに対応させることができる。アタックの種類により実行する操作を規定することができる。たとえばテレビゲームのアプリケーションにおいては、「p」は射撃に関連付けることができ、「b」は爆弾の発射に対応させることができる。マウスタイプのアプリケーションにおいては、「p」は右ボタンクリックに関連付けることができ、「b」は左ボタンクリックに関連付けることができる。
音声内で検出されるその他のパラメータ、特にピッチ、インテンシティ、ならびに母音三角形内の位置および/またはそれらの組合せをパルスまたは連続制御器として用いることができる。このアプローチにおいては、これらのパラメータのうちの1つまたは複数をリアルタイムで測定し、たとえば0から100までの間に含まれる値をこれらに割り当てる。インテンシティパラメータは信号全体に印加することができるが、子音のみあるいは母音のみに印加することもできる。
装置4はテレビゲーム制御モジュール13を含むことができる。このモジュール13はパラメータ17に応じて、人物、車、グラフ構造、画質を制御する。
たとえばゲームにおいては、三次元飛行において飛行機を制御するために、音声から抽出された連続パラメータが用いられる。一例では、ボリュームはアクセル(y軸)に関連付けられ、音のピッチはインシデンス(z軸)に関連付けられ、母音三角形の[a]−[u]軸における位置は方向(y軸)に関連付けられる。
制御される装置に送信される情報は様々な方法で処理することができる。パルス処理の場合、情報は、パラメータの値がいずれかの方向であるしきい値を超過しないと送信されない。すなわち、声の音のピッチが基準ピッチよりも高いか低く、インテンシティが基準インテンシティよりも高いか低い場合、あるいは母音三角形内における位置が、母音三角形の3つの軸[a]−[u]、[u]−[i]、[i]−[a]のいずれか1つの方向である点に充分近い場合である(図2fを参照のこと)。この場合、パルス制御器として連続パラメータが用いられ、制御される装置に送信される情報はバイナリータイプである。
連続処理では、連続記述子からの情報はそれら記述子の連続性を考慮して処理される。
その枠組の中においては、制御される装置を制御するのに用いられる情報はこれらの連続パラメータの値である(たとえば0から100までの間に含まれる)。
使用される連続パラメータの値はある所与の瞬間におけるパラメータの値である。またこれらのパラメータを変換して、それらの導関数または二次導関数を計算することもできる。画面上でのカーソルの制御の場合、当然ながらカーソルの移動速度に導関数を関連付けることができる。
したがって、簡単な例では、たとえばスペースインベーダータイプの宇宙船ゲームのように音声はカーソルを制御する。この枠組において、[a]は左方向への動きを表すことができ、[u]は右方向への動きを表す。バイナリーアプローチでは、音が[a]に充分に近い場合、より正確には母音三角形の[a]−[u]軸方向における位置の値がしきい値より小さい場合、左方向への動きが開始される。この例では音[a]は0に相当し、音[u]は100に相当する。
連続処理では、直接用いられるのは[a]−[u]軸方向の値である。この枠組において複数の処理モードについて説明する。この値は、座標値で記述される位置に直接割り当てることができる。この処理モードによりカーソルの高速移動が可能であるが、あまりに高速な移動であると制御が困難になることがある。この値はまた移動速度に割り当てることもできる。したがって、値0に関連付けられた[a]により左方向への高速移動が発生し、値値100に関連付けられた[u]により右方向への高速移動が発生する。より低速な移動については、この場合、左方向への低速移動に関しては値[O]を、右方向への低速移動に関しては値[o]を送信する。後者の場合、画面における移動速度を制御するのに用いられるのは、[a]−[u]軸方向における位置の第一導関数である。
制御パラメータとして母音三角形の[a]−[u]軸方向における位置を用いることにより後者の例を詳細に説明したが、音声内で検出された連続パラメータのいずれに対しても、あるいはそれらの組合せに対しても同じ論理を適用することができる。
制御の効いた位置または移動を得るために、連続パラメータの瞬間値は、特定のアプリケーションに従って行われるゲームまたはプログラムの設計の際に調節される時間窓に従って平均化することができる。
二次元または三次元における移動体の移動を記述するのに用いられる系としては、二、三またはn次元の世界における移動体の位置または移動を記述することができる任意の座標系、特に直交座標系または極座標系を使用することができる。たとえば、ある立体の移動に関する3つの次元に加え、立体の回転および/またはたとえば画像の輝度または色などの環境パラメータに関する3つの次元を制御するとした場合には、次元数nは3より多くすることができる。位置の記述の基準系は不動でも可動でもよい。可動基準とは、座標系が制御される対象の位置および向きに対して記述される基準系であるのに対し、不動基準系は不動であり、前記物体の位置または向きとは無関係である。
本発明により、提供された連続パラメータまたはパルスパラメータのうちのいくつかしか使用しない音声制御ゲームまたは他の簡単なアプリケーションを設計することが可能である。テレビゲームまたはより完成された他のアプリケーションの制御においては、より細やかな制御を必要とするゲームまたは他のアプリケーションの高い自由度を制御するために、音声から抽出した多くのパルスパラメータおよび連続パラメータを同時にまたは相次いで使用することができる。したがって初心者レベルにおいてはパラメータのうちのいくつかしか考慮せず、プレーヤの進歩に応じて制御の可能性を拡大することも考えられる。
先の例においては、制御パラメータの値は、声音が一切発声されないときにこれらのパラメータの測定値に対応するか、プログラムまたはゲームの設計者によって定義することができる任意のタイプのキャリブレーションに対応するキャリブレーション値だけ補正することができる。
これらの例においては、この技術は「音声コントローラ」とみなすことができ、単体で提供することも、マルチモーダルアプローチで、すなわちキーボード、ジョイスティック、ゲームパッド、あるいは位置または運動センサなど既存のゲームインタフェースに追加するものとして提供することもできる。
変形形態では、モジュール3は、仮想人物の制御用モジュール、あるいはロボットなどの電子システムまたは他の任意の情報処理システムまたは電子システムでよいモジュール14とすることができる。装置4は、想定するアプリケーションに応じて、要素13、14のうちの1つまたは複数を含む。これらの装置13、14は独立したものとし、それ自身も独立しているモジュール3に接続することができる。
図2aは、適合化モジュール23を介して制御モジュール3に接続された制御される装置4を含む本発明によるシステム1の詳細図である。この適合化モジュール23は、モジュール3の出力パラメータと制御される装置4の入力パラメータとの間の対応を保証する。
より詳細には、マイクロフォン2は、サンプルウインドウをサンプリングするアナログデジタル変換器21に向けてアナログ信号5を送信する。サンプリングの細かさはユーザが期待する精度、あるいはターゲット製品またはプラットフォームにおいて利用可能な計算能力に依存させることができる。サンプリングされた信号22を図2bに示す。この信号22はタイミングkにおいて、通常は大きな振幅のアタックakと、小さな振幅のキープtkiを含む。実際にはアタックakは声の1つの子音に相当し、ホールドtkiは1つの母音または一連の母音に相当する。
信号22は、これら種々の子音akを検出し隔離する分割モジュール6.1に向けて送信される。この目的のため、分割モジュール6.1は、HFC(英語のHigh Frequency Content)アルゴリズムを使用してそれぞれの新しい子音を検出する。このアルゴリズムはスペクトル成分のモジュールの重み付き線形和を行うことにより、信号22のある部分の高周波成分を強調する。これらの強調化を基にして、子音に相当する音の開始時のピークを検出する。次に、2つの振幅のピークの間に位置する母音を抽出する。
変形形態では、子音を検出するために、エネルギ、スペクトル差、位相偏移、あるいは複合ドメイン内の複合アプローチのアルゴリズムも使用することができる。しかしながら、驚くべきことに、HFCアルゴリズムは、引用した他のアルゴリズムの成功率よりもかなり高い成功率で声の子音の検出を行うことを実験が示している。
さらに、図2cに示すように、分割モジュールの出力部に接続された検出モジュール6.2は、検出された子音がどのクラスに属するかを検出する。この目的のために、3つの子音クラス、すなわち子音[p、t、k]を含む第1のクラスA1と、子音[b、d、g]を含む第2のクラスA2と、子音[m、n、l]を含む第3のクラスA3をあらかじめ決定する。
第2および第3クラスA2、A3は、ジャコブソンの「Preliminaries to Speech Analysis」と題する著書による有声特性を有する子音を集めたものであるが、第1クラスA1はそのような特性を有さない。有声特性は周波数的には250Hz前後における周波数の強調という形になって現れる。第3クラスA3は母音性特性を有する子音を集めたものであるが、第1および第2クラスA2はそのような特徴を有さない。子音の発声源が単一であり、周期的であり、減衰が少なく、アタックが急ではない場合、その子音は母音性である。したがって、アタックが有声特性または無声特性であるか、ならびに母音性または非母音性であるか検出することにより、これら二対二の子音クラスをすばやく区別することが可能である。
変形形態では、他の3つの子音群が、母音および有声化試験によって、たとえば第1群は無声化されかつ非母音性であり、第2群は有声化されているが非母音性であり、第3群は有声化されかつ母音性であるというように区別できれば、そのような子音群を形成することができる。フランス語の子音の有声化特性および母音性特性を表2eに記載した。
一実施形態においては、解析モジュールは、検出された子音の信号に印加された50−3000Hzの帯域に対する自己相関係数またはスペクトルセントロイドを用いて有声化特性を検出する。
一実施形態においては、解析モジュールは、信号のある周波数帯内のエネルギ、あるいは子音によって異なる値を有する子音の全エネルギを調べることにより、子音の母音性または非母音性特性を検出する。
テレビゲーム内あるいは任意のアプリケーション内で行われる動作は、検出された子音がこれらのクラスのどれに属するかによって異なる。たとえば空手ゲームにおいては、音のアタックakが第1クラスA1に属する場合(ユーザがたとえば「te、ta、ti」を発した場合)、パンチが出されるが、音のアタックakが第2または第3クラスに属する場合(ユーザがたとえば「be、bi、bou」を発した場合)、パンチは弱くなるがよりすばやくなる。変形形態では、当然のことながら3つより多いまたは少ないクラスを定義することが可能である。
これと並行して、母音tkiのピッチ、インテンシティおよび音色を求めるためにこれらの母音について連続的に解析が行われる。このために、モジュール6.2は、周波数抽出モジュールと、インテンシティ抽出モジュールと、音色抽出モジュールを含む。変形形態では、基本周波数の抽出は、France Telecomの特許文書(フランス国内登録番号0107284)に記載されているYinのアルゴリズムを基にして行われる。
インテンシティ抽出モジュールは、ユーザの声のインテンシティを測定する。声のインテンシティにより、たとえば空手ゲームにおけるチョップの力、あるいは射撃ゲームにおける銃撃の強さを制御することが可能である。
音色抽出モジュールは、母音の音色の種類を抽出する。母音の音色はその最初の3つのフォルマントF1、F2、F3によって特徴付けられ、最初の2つのフォルマントF1およびF2を基にして充分正確に近似することができる。この目的のため、音色抽出モジュールは図2fに示す母音三角形における母音の瞬間的状態の位置を求めるが、面F1−F2内の母音の座標値は有利な二次元制御源となることができる。
この目的のため、抽出モジュールは、母音の振幅スペクトルの重心に相当するスペクトルセントロイドをリアルタイムで計算する。変形形態では、重み付きスペクトル領域の計算を基にして母音の種類が解析される。
制御の表現の豊かさを向上させるために、定義された種々のクラスの中から正確に母音またはこの母音のクラスを正確に検出することも可能であり、制御される動作は母音の種類および/またはこの母音のクラスによって変わる。したがって、一例では、同じピッチかつ同じインテンシティの音声信号の場合、「pi」に関連付けられている空手の形は「pa」または「pe」に関連付けられている形とは異なることになる。
解析モジュール6.2は、適合化モジュール23の入力部に供給されるN個の数値パラメータ17を抽出する。このモジュール23は、これらN個の数値パラメータを、制御されるモジュールのP個の入力部に供給されるP個の数値パラメータに変換するが、このときPはNと異なるか、またはNに等しい。この目的のためモジュール23はN個のパラメータ同士を組み合わせ、モジュール23の出力側で見られるP個の数値パラメータのそれぞれがN個の入力パラメータの組合せになるようにする。
図2dは、信号17のN個のデータd1〜dNに対して適用される適合化モジュール23に関連付けられたマッピング行列と呼ばれる行列を示す。この行列はN本の行とP個の列を含むので、信号17から、P個のデータd’1〜d’Pを含むデータ信号25が得られる。適合化行列は、制御されるゲームまたはアプリケーションの種類、ユーザのレベル(専門家、アマチュア、初心者)によって適合させることができる。マッピング行列のパラメータx11〜xNPは定数(線形適合)とすることもでき、パラメータd1〜dNおよび時間の数学的関数(非線形適合)とすることもできる。
変形形態では、パラメータd1〜dNの全てまたはそのいくつかについての瞬間値を履歴行列内に保存する。この履歴行列はたとえばゲームの直近の1分間に限定するようにすることができる。この履歴行列に収納されている値は、パラメータd1〜dNの変化に関する数学的演算を行うのに使用される。たとえばパラメータの平均値、標準偏差を計算することや、その他の統計的演算を行うことが可能である。
入力パラメータd1〜dNの変化に特に注目する変形形態では、これらのパラメータの導関数および/または二次導関数を計算することができる。こうすることにより2Nまたは3N個のパラメータが得られる。そして、2Nまたは3N個の行およびP個の列の行列との間で同じインタフェース方法を再度適用する。行列のサイズを無意味に大きくしないようにするために、行列が有用であるパラメータの導関数およびまたは二次関数についてのみこれらの関数を計算するようにすることができる。
変形形態では、行列をニューラルネットワークまたはその他の人工知能の手法に置き換えることができ、前記網は参照試験のコーパスから自動的または半自動的にパラメータ化することができる。より洗練されたバージョンでは、特定の重みを特定のユーザのゲームのモードに付与することにより、行列またはニューラルネットワークがこのユーザ用に洗練化される。
本発明においては、使用されるアルゴリズムにより、ティーチングなしにマルチ話者利用が可能になる。上級ユーザ専用の進化バージョンでは、適合化モジュールは、たとえば、あらかじめ決められたゲームのいくつかの局面を反復するよう話者に要求することにより、話者の声に特有な特性に応じてパラメータ設定を調節する。
モジュール23によって生成されるパラメータは、制御される装置4の入力側に供給される。こうすることにより、モジュール23は、解析モジュール3によって生成されたパラメータの数を、制御されるモジュール3の制御に必要なパラメータの数に適合させることができる。
また、制御インタフェース37は、制御されるモジュール4またはマッピングモジュール23の入力部に接続することができる。この制御インタフェース37は、ジョイスティック、ゲームパッド、コンピュータまたは携帯電話のキーボード、マウス、または専用に開発されしぐさまたは動きのセンサを含むことができるコントローラ、タッチ表面、圧力またはひねりのセンサなどの情報処理コントローラとすることができ、制御される装置4またはマッピングモジュール23に向けて出力信号38を送信する。
インタフェース37は仮想人物の射撃を制御するのに用いることができ、声はその人物の動きを制御するのに使用されるが、その逆であってもよい。
一実施形態においては、インタフェース37のボタンはパルス動作を開始するのに用いられるが、声は、制御される連続的動作またはパルス動作の種類を制御するのに用いられる。たとえば、ユーザは、各瞬間に連続パラメータ(ピッチ、インテンシティ、母音三角形の中の位置)を抽出する母音タイプの連続信号を常時発信する。その場合、直前に測定された連続パラメータに相当する動作を瞬時に開始するのにパルス信号が用いられる。
たとえば、ユーザは、あるピッチおよびある所与のインテンシティに相当するAを連続的に発信する。ユーザがボタンを押した瞬間に、既に事前に計算されていた連続値に相当する、キックまたはパンチまたはあらかじめ定義された任意の動作が開始する。この実施方法により、いくつかのパラメータ、特にピッチにとって完全に同時であるとの印象を与えるには過大な計算時間を必要とすることがある連続関数を計算する必要がなく、パルス動作のきわめてすばやい起動が可能になる。
一実施形態においては、パルス動作を起動するためにインタフェース37のボタンが用いられるが、連続動作、あるいはパルス的に起動された動作の変化を制御するためには声が用いられる。パルス起動ボタンは単にパルス(YESまたはNO)を供給するか、値(感度ボタン)を供給することができる。
一実施形態においては、表現性パラメータの組合せにより、プレーヤの声を基にして、人物のしぐさ、身振り、顔の表情、くちびるの同期、髪または毛の逆立ち、顔または体の色を制御することができ、人物の身体的表現はたとえばプレーヤの音声表現と整合している。
説明した種々のモジュールは当然のことながらソフトウエアモジュールまたは電子モジュールの形態をとることができる。適合化モジュールは解析モジュールまたは制御されるモジュールに組み込むことができる。一実施形態においては、ただ1つのモジュールの内部に3つのモジュールが組み込まれる。
本発明は、上で説明した方法を実施することができるハードウエア装置にも適用される。

Claims (21)

  1. ユーザの音声信号によるデジタル装置の制御方法において、
    音声信号から表現性パラメータを抽出するステップであって、
    前記表現性パラメータが、
    音声信号のピッチ、ボリュームおよびアタック、ならびに/または音色などの音楽性パラメータ、ならびに
    子音の存在および検出された母音に関する、前記音声信号の韻律パラメータであり、
    この抽出ステップが、音声束の形式構造および表現性の測定を可能にするものであり、音声信号内に含まれている単語の識別または認識を行わないことをねらいとするステップと、
    抽出された表現性パラメータに応じてデジタル装置またはソフトウエア装置を制御するステップと
    が組み合わされて実行される方法。
  2. 検出された子音の子音群への所属を検出し、装置の制御が、検出された子音が所属するクラスに応じて変わることを特徴とする請求項1に記載の方法。
  3. 装置の制御がパルス式であり、
    子音群が装置に送信され、特定の制御タイプが、検出可能な各子音群またはアタック群に関連付けられることを特徴とする請求項2に記載の方法。
  4. 子音群を検出するために、子音を検出すべき音声信号のスペクトル成分上でHFC(英語のHigh Frequency Content)アルゴリズムを実行するステップと、
    検出された子音について有声化試験および母音試験を行い、第1群は無声化されかつ非母音性であり、第2群は有声化されているが非母音性であり、第3群は有声化され母音性であるという特徴を有する3つの子音群を区別するステップと
    を含み、特定の制御タイプがこれら3つの群のそれぞれに関連付けられる
    請求項2または3に記載の方法。
  5. 第1群が子音[p、t、k]で構成され、第2群が子音[b、d、g]で構成され、第3群が子音[m、n、l]で構成される請求項4に記載の方法。
  6. 最初に有声化試験が行われ、第2に母音試験が行われ、
    音声信号の第一自己相関係数またはスペクトルセントロイドを用いて子音の有声化または無声化特性が求められ、
    音声信号の全エネルギまたはある周波数帯内のエネルギを用いて子音の母音性または非母音性特性が求められる
    請求項4または5に記載の方法。
  7. 装置の制御がパルス式であり、
    ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するステップと、
    しきい値とこの連続パラメータの値との比較の結果を装置に送信するステップと、
    を含み、第1の制御タイプが、連続パラメータがしきい値よりも大きいことを示す比較の結果に関連付けられ、
    第2の制御タイプが、連続パラメータがしきい値よりも小さいことを示す比較の結果に関連付けられる
    ことを特徴とする請求項1からの6のいずれか一項に記載の方法。
  8. 装置の制御が連続式であり、
    ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するステップと、
    連続パラメータのこの値を装置に送信するステップと、
    を含み、装置の連続制御がパラメータのこの値に依存する
    ことを特徴とする請求項1から7のいずれか一項に記載の方法。
  9. 連続値が、ある所与の瞬間の表現性パラメータの値、あるいはこの表現性パラメータの導関数または二次導関数であることを特徴とする請求項8に記載の方法。
  10. 制御すべき装置がグラフィックカーソルであり、表現性パラメータの導関数がこのカーソルの速度に関連付けられることを特徴とする請求項9に記載の方法。
  11. 連続値が、母音三角形の3つの軸のいずれかに沿った表現性パラメータの測定値から作成されることを特徴とする請求項8から10のいずれか一項に記載の方法。
  12. 母音三角形の3つの軸のいずれかに沿って表現性パラメータを測定するために、音声の最初の3つのフォルマントF1、F2およびF3または最初の2つのフォルマントF1およびF2によって音色を特徴付けることを特徴とする請求項11に記載の方法。
  13. ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するために、Yinのアルゴリズムを実行する請求項7から12のいずれか一項に記載の方法。
  14. ユーザが、音声表現性と装置の制御の間において完全な同時性および整合性があるという感覚を持つように、表現性パラメータを抽出するための応答時間が40ms未満である請求項1から13のいずれか一項に記載の方法。
  15. ボタン、キーボードまたはジョイステックなど他のマン/マシンインタフェース(37)からのパラメータが、装置の制御用の表現性パラメータと組み合わせて用いられることを特徴とする請求項1から14のいずれか一項に記載の方法。
  16. インタフェース(37)のボタンがパルス動作を起動するのに用いられ、パルス動作が即時動作である一方、
    制御するパルス動作の性質または変化を制御するのに、さらには、時間とともに変化する動作である連続的動作を制御するのに音声パラメータが用いられる
    ことを特徴とする請求項15に記載の方法。
  17. 表現性パラメータの数Nを装置の入力数Pに適合させるために、
    定数および/または時間とともに変動する値とすることができる、係数x11〜xNPのN行およびP列の行列を用いてN個の表現性パラメータ同士を組み合わせる請求項1から16のいずれか一項に記載の方法。
  18. N個のパラメータにその導関数および/または二次導関数を加えるステップを含むことを特徴とする請求項17に記載の方法。
  19. 制御する装置がソフトウエアであり、それによりテレビゲームの人物、車、または飛行機など仮想オブジェクトの制御が可能であり、この仮想オブジェクトが表現性パラメータに応じて移動しあるいは動作を行う請求項1から18のいずれか一項に記載の方法。
  20. N個の音声表現性パラメータが、特にしぐさ、身振り、顔の表情、くちびるの同期、髪または毛の逆立ち、顔または体の色となって表れる仮想人物の表現性を制御するP個の制御パラメータを制御する請求項17に記載の方法。
  21. 請求項1から20のいずれか一項に記載の方法を実施することができるハードウエア装置。
JP2009526152A 2006-09-01 2007-08-09 デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置 Pending JP2010501955A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0653557A FR2905510B1 (fr) 2006-09-01 2006-09-01 Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
PCT/FR2007/051807 WO2008025918A1 (fr) 2006-09-01 2007-08-09 Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe

Publications (1)

Publication Number Publication Date
JP2010501955A true JP2010501955A (ja) 2010-01-21

Family

ID=37772626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009526152A Pending JP2010501955A (ja) 2006-09-01 2007-08-09 デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置

Country Status (4)

Country Link
EP (1) EP2070078A1 (ja)
JP (1) JP2010501955A (ja)
FR (1) FR2905510B1 (ja)
WO (1) WO2008025918A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258366A (ja) * 2008-04-16 2009-11-05 Arcadia:Kk 音声制御装置
JP2021502608A (ja) * 2017-11-10 2021-01-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2940497B1 (fr) 2008-12-23 2011-06-24 Voxler Procede de pilotage d'une application a partir d'un signal de voix et dispositif associe pour sa mise en oeuvre.
GB2468140A (en) * 2009-02-26 2010-09-01 Dublin Inst Of Technology A character animation tool which associates stress values with the locations of vowels

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258366A (ja) * 2008-04-16 2009-11-05 Arcadia:Kk 音声制御装置
JP2021502608A (ja) * 2017-11-10 2021-01-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
JP7073492B2 (ja) 2017-11-10 2022-05-23 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ
US11380339B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11386909B2 (en) 2017-11-10 2022-07-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation

Also Published As

Publication number Publication date
WO2008025918A1 (fr) 2008-03-06
FR2905510A1 (fr) 2008-03-07
EP2070078A1 (fr) 2009-06-17
FR2905510B1 (fr) 2009-04-10

Similar Documents

Publication Publication Date Title
JP2010501955A (ja) デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置
EP3553773B1 (en) Training and testing utterance-based frameworks
CN103810992B (zh) 语音合成方法和语音合成设备
Vijayalakshmi et al. Sign language to speech conversion
US10748515B2 (en) Enhanced real-time audio generation via cloud-based virtualized orchestra
CN108874158A (zh) 触觉效果的自动适配
CN112837401B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN105529024A (zh) 音韵信息合成装置、语音合成装置以及音韵信息合成方法
CN110853669B (zh) 音频识别方法、装置及设备
KR20220071959A (ko) 인공지능 기술에 기반한 음성 합성 시스템
CN111755029B (zh) 语音处理方法、装置、存储介质以及电子设备
CN114446268B (zh) 一种音频数据处理方法、装置、电子设备、介质和程序产品
JP7380008B2 (ja) 発音制御方法および発音制御装置
Beller et al. Gestural control of real-time concatenative synthesis in luna park
Kaur Mouse movement using speech and non-speech characteristics of human voice
Kasprzak et al. Agent-based approach to the design of a multimodal interface for cyber-security event visualisation control
Fabiani et al. Interactive sonification of emotionally expressive gestures by means of music performance
Christopher et al. Kontrol: Hand Gesture Recognition for Music and Dance Interaction.
Gao et al. A real-time Chinese speech recognition system with unlimited vocabulary
Quested et al. Polyphonic note tracking using multimodal retrieval of musical events
Antoshchuk et al. Creating an interactive musical experience for a concert hall
Jadhav et al. Transfer Learning for Audio Waveform to Guitar Chord Spectrograms Using the Convolution Neural Network
Barhoumi et al. Real-Time Speech Emotion Recognition Using Deep Learning and Data Augmentation
Tindale A hybrid method for extended percussive gesture