JP2010501955A

JP2010501955A - デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置

Info

Publication number: JP2010501955A
Application number: JP2009526152A
Authority: JP
Inventors: デローム，ニコラス; レスキュリュー，オリビエ
Original assignee: ヴォクスラー
Priority date: 2006-09-01
Filing date: 2007-08-09
Publication date: 2010-01-21
Also published as: WO2008025918A1; FR2905510A1; EP2070078A1; FR2905510B1

Abstract

本発明はデジタル装置（４、１３、１４）のリアルタイム音声制御方法に関する。この方法は、音声解析モジュール（３）の入力側に供給される音声信号から子音および母音（ａｋ、ｔｋｉ）を可能な限り短い待ち時間かつ小さい計算能力で抽出する手段（６）を含む音声解析モジュール（３）を使用する。デジタル装置は、特に、検出された子音の種類（Ａ１−Ａ３）、検出された母音の音色（ｔｋｉ）、ならびにピッチおよびインテンシティに応じて、制御信号（２５）を生成する。本発明は特に声の表現性を取り込みテレビゲームを制御するのにきわめて有利に応用される。

【選択図】図２a

Description

本発明は、人間の声をリアルタイムで解析し、デジタル装置をリアルタイムで音声制御するための方法に関する。本発明は、人間の声から１組のパラメータをリアルタイムで抽出し、これらの装置の音声制御インタフェースコンポーネントとしてこれらのパラメータを使用することを特に目的とする。本発明は、仮想人物または仮想オブジェクト（ボール、乗り物、兵器．．．）あるいは仮想世界のその他の任意のパラメータをリアルタイムで音声制御するためのテレビゲームの制御の分野における応用がきわめて有利である。

本発明は、電子および情報処理の応用例では、プレーヤまたはユーザが働きかけることができるパラメータを多く含むため、より高い対話性を可能にする直感的かつわかりやすい新しいインタフェースの開発が必要であることの確認から生まれたものである。そのため、テレビゲームにおいて、ジョイスティックおよびマウスでは、現代のテレビゲームの制御の潜在的な豊富さに比べ、表現性が限られている。

前出の対話性の問題を解決するために、本発明は制御インタフェースとしてユーザの声を使用することを提案する。この枠組において、本発明は「音声コントローラ」または「音声マウス」として記述することができ、すなわち本発明は、これらの従来のインタフェースコンポーネントを補完するものあるいはそれらに代わるものになる。

この目的で、本発明においては、人間の声の表現性、音声信号の形態構造を特徴付ける１組のパラメータを取り込む。ユーザの音声表現性を特徴付けるために、ピッチ、ボリューム（すなわちインテンシティ）、アタック（インテンシティの短いピーク）、音色（特に嗄声性、明瞭性、フォルマント）などの音楽性パラメータ、ならびに子音または子音群、母音または二重母音、音素または音節を離散化または特徴付ける韻律パラメータを組み合わせる。

次に、電子システムまたは情報処理プログラム、特にテレビゲームの人物を制御するためにこれらの表現性パラメータが用いられる。

声の解析はリアルタイムで行われる、すなわち声の処理方法により、理論的には任意のタイミングでデータ（ここでは音の電気信号）の取り込みおよび結果の即時取得が可能になる。しかしながらここではリアルタイムはむしろ、可能な限り小さな時間的ずれで処理が行われるようなデータ処理方法を意味する。というのは、ユーザの制御音声信号の送信後、できるだけ早急に装置を制御することが重要であるからである。このリアルタイム管理を可能にするために本発明のデータ処理アルゴリズムが選択される。

本発明においては、完全に同時であるとの印象、およびユーザの音声表現とその声から抽出されたパラメータを基にして制御される情報処理プロセスが整合しているとの印象をユーザがもつように、制御されるモジュールの目標応答時間は４０ｍｓ未満である。

アタックなどいくつかのパラメータの場合には、４０ｍｓより確実に短い応答時間が得られる。

音声解析エンジンは、従来、マイクロコンピュータ、携帯電話、ＰＤＡ、ゲームまたは玩具のコンソールで使用されているプロセッサ上で実行されるソフトウエアの形態で作製されるか、専用の電子コンポーネント（例：ＡＳＩＣ）上に一体化される。

本発明においては、パラメータの検出は堅固である、すなわち検出は、任意のユーザに対し、ユーザの言語とは関係なく、多くの使用条件下で行われる。高い精度が要求されるいくつかのアプリケーションの場合には、ユーザは、音声プロフィールを定義しこれらのキャリブレーションデータに基づいて検出アルゴリズムを自動的に最適化するために解析される１つまたは複数の音を生成するよう要求される。

したがって、本発明は、ユーザの音声信号によるデジタル装置の制御方法において、
音声信号から表現性パラメータを抽出するステップであって、
これらの表現性パラメータが
−音声信号のピッチ、ボリューム、音色およびアタックなどの音楽性パラメータ、ならびに
−音声信号に存在する子音、母音、音素、音節または二重母音を示す、この音声信号の韻律パラメータであり、
−この抽出ステップが、音声束の形式構造の測定を可能にするものであり、使用者の言葉の理解をねらいとするものではないステップと、
−これらのパラメータを使用して、デジタル装置またはソフトウエア装置を音声制御するステップと
が組み合わされて実行される方法を対象とする。

一実施形態においては、装置の制御はパルス式であり、子音群またはアタック群が装置に送信され、特定の制御タイプが、検出可能な各子音群またはアタック群に関連付けられる。

一実施形態においては、子音群を検出するために、子音を検出すべき音声信号のスペクトル成分上でＨＦＣ（英語のＨｉｇｈＦｒｅｑｕｅｎｃｙＣｏｎｔｅｎｔ）アルゴリズムを実行する。そして、検出された子音について有声化試験および母音試験を行い、第１群は無声かつ非母音性であり、第２群は有声であるが非母音性であり、第３群は有声化され母音性であるという特徴を有する３つの子音群を区別し、特定の制御タイプがこれら３つの群のそれぞれに関連付けられる。

一実施形態においては、第１群は子音［ｐ、ｔ、ｋ］で構成され、第２群は子音［ｂ、ｄ、ｇ］で構成され、第３群は子音［ｍ、ｎ、ｌ］で構成される。

一実施形態においては、最初に有声化試験が行われ、第２に母音試験が行われ、音声信号の第一自己相関係数またはスペクトルセントロイドを用いて子音の有声化または無声化特性が求められ、音声信号の全エネルギまたはある周波数帯内のエネルギを用いて子音の母音性または非母音性特性が求められる。

一実施形態においては、装置の制御はパルス式であり、ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定する。そして、しきい値とこの連続パラメータの値との比較の結果を装置に送信する。第１の制御タイプは、連続パラメータがしきい値よりも大きいことを示す比較の結果に関連付けられる。第２の制御タイプは、連続パラメータがしきい値よりも小さいことを示す比較の結果に関連付けられる。

一実施形態においては、装置の制御は連続式であり、ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定する。そして、この連続パラメータの値を装置に送信する。装置の連続制御はこの連続値に依存する。

一実施形態においては、連続値は、ある所与の瞬間の表現性パラメータの値、あるいはこの表現性パラメータの導関数または二次導関数である。

一実施形態においては、制御すべき装置はグラフィックカーソルであり、表現性パラメータの導関数はこのカーソルの速度に関連付けられる。

一実施形態においては、連続値は、母音三角形の３つの軸のいずれかに沿った表現性パラメータの測定値から作成される。

一実施形態においては、母音三角形の３つの軸のいずれかに沿って表現性パラメータを測定するために、音声の最初の３つのフォルマントＦ１、Ｆ２およびＦ３または最初の２つのフォルマントＦ１およびＦ２によって音色を特徴付ける。

一実施形態においては、ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するために、Ｙｉｎのアルゴリズムを実行する。

一実施形態においては、ユーザが、音声表現性と装置の制御の間で完全な同時性および整合性があるという感覚を持つように、表現性パラメータを抽出するための応答時間は４０ｍｓ未満である。

一実施形態においては、ボタン、キーボードまたはジョイステックなど他のマン／マシンインタフェースからのパラメータが、装置の制御用の表現性パラメータと組み合わせて用いられる。

一実施形態においては、インタフェースのボタンがパルス動作を起動するのに用いられ、パルス動作が即時動作である一方、制御するパルス動作の性質または変化を制御するのに、さらには、時間とともに変化する動作である連続的動作を制御するのに音声パラメータが用いられる。

一実施形態においては、表現性パラメータの数Ｎを装置の入力数Ｐに適合させるために、定数および／または時間とともに変動する値とすることができる、係数ｘ１１〜ｘＮＰのＮ行およびＰ列の行列を用いてＮ個の表現性パラメータ同士を組み合わせる。

一実施形態においては、Ｎ個のパラメータにその導関数および／または二次導関数を加える。

一実施形態においては、制御する装置がソフトウエアであり、それによりテレビゲームの人物、車、または飛行機など仮想オブジェクトの制御が可能であり、この仮想オブジェクトは表現性パラメータに応じて移動しあるいは動作を行う。

一実施形態においては、使用者の音声表現性パラメータは、しぐさ、身振り、顔の表情、くちびるの同期、髪または毛の逆立ち、顔または体の色など仮想人物のしぐさの表現性を制御し、ユーザの音声信号は人物のしぐさの表現性と整合している。

本発明は、以下の説明を読み、添付の図面を参照することにより、よりよく理解されよう。これらの図面はもっぱら例として示したものであり、本発明をなんら限定するものではない。

本発明による音声の解析および制御装置、ならびに制御が可能な種々の装置の略図である。適合化モジュールを介して制御されるモジュールに接続された制御モジュールを含む、本発明による装置の詳細図である。サンプリング後の音声信号、ならびにこの音声信号を構成する子音および母音の略図である。子音、母音およびそれらの音色の検出、ならびピッチおよびインテンシティの測定が可能な、本発明による解析モジュールの略図である。制御モジュールの出力と制御されるモジュールの入力の対応を保証する、本発明による適合化モジュールに関連付けられた行列である。有声化特性または母音性特性によるフランス語の子音の区分表である。最初の２つのフォルマントにより母音の位置を決める母音三角形の略図である。

図１は本発明による音声制御装置１の略図である。この装置１は、音声解析モジュール３の入力部に接続されたマイクロフォン２を含む。このモジュール３の出力部は、デジタルまたはソフトウエア装置４の入力部に接続される。一例では、マイクロフォン２は、携帯電話、コンピュータのマイクロフォンまたは業務用マイクロフォンである。

マイクロフォン２は、ユーザの音声を基にして、音の電気信号５を解析モジュール３に送信する。このモジュール３は、信号５を分割し子音の存在を検出する抽出モジュール６を含む。モジュール６は、毎回の子音の検出後、ある子音または子音群および／またはある母音または母音群を識別する。モジュール６はさらに、検出した母音および／または子音のピッチ、インテンシティおよび音色も抽出する。このモジュール６は言葉の認識を目的とするものではなく、装置４の正確かつリアルタイムな制御を行うために音声の表現性を測定することを目的とする。

したがってモジュール６の出力側には、ピッチ、インテンシティ、アタックに関する情報をもつ数値パラメータ１７、音色パラメータ、および母音／二重母音、子音、音素または音節（母音／子音の結合）を特徴付け離散化する韻律パラメータが見られる。

デジタル装置４の入力側には数値パラメータ１７が供給される。

一実施形態においては、抽出されたパラメータ１７が単数または複数のイベントのトリガとして作用する。一例では、空手タイプの戦闘ゲームにおける人物を制御するために、ある用語が定義される。たとえば、「ｐ」のアタック音はキック、「ｂ」のアタック音は拳のパンチ、「ｌ」のアタック音は首技というように、アタック音の種類によりパンチの種類が決まる。母音の種類によってたとえば左側または右側のキックまたはパンチであるかどうかが決まる。音のピッチによりたとえば上向きのパンチであるか下向きのパンチであるかが決まり、インテンシティによりたとえばパンチの強さが決まる。

これらの場合のそれぞれにおいて、子音または母音は、ＩＰＡ（国際音声学会）の分類においてそれが属する子音群または母音群に置き換えられる。たとえば、実行されるアルゴリズムにより子音または母音を分離すること、あるいは歯音（［ｔ］、［ｄ］、［ｓ］、［ｚ］、［ｎ］、［Ｈ］、［ｌ］）または口蓋音（［ｋ］、［ｇ］、［Ｓ］、［Ｚ］、［Ｊ］、［ｊ］、［Ｒ］）から唇音（［ｐ］、［ｂ］、［ｆ］、［ｖ］、［ｍ］、［ｗ］）を分離するよう選択することができる。また、無声閉鎖音（［ｐ］、［ｔ］、［ｋ］）、有声摩擦音（［ｖ］、［ｚ］、［Ｚ］）、無声摩擦音（［ｆ］、［ｓ］、［Ｓ］）、鼻音（［ｍ］、［ｎ］、［Ｊ］）、渡り音（［ｗ］、［Ｈ］、［ｊ］）および流音（［ｌ］、［Ｒ］）から有声閉鎖音（［ｂ］、［ｄ］、［ｇ］）を分離するよう選択することができる。またこれらの複数のクラス同士をまとめたり、子音を無声閉鎖音、有声閉鎖音、およびその他に分割するよう選択することもできる。

アタックおよび子音はパルスコントローラとして用いられる、すなわち用いられる技術により音声信号内のアタックの存在を識別することおよび／またはこのアタックが属する子音または子音群を特徴付けることができる。アタックおよび／またはこのアタックが属する子音または子音群の存在が、制御される装置に送信される。したがってたとえばアタックの存在により、テレビゲームのアプリケーションにおける射撃を開始することができる。マウスタイプのアプリケーションにおいては、１つのアタックの存在をクリック動作とみなすことができ、きわめて近接した２つのアタックの存在をダブルクリックに対応させることができる。アタックの種類により実行する操作を規定することができる。たとえばテレビゲームのアプリケーションにおいては、「ｐ」は射撃に関連付けることができ、「ｂ」は爆弾の発射に対応させることができる。マウスタイプのアプリケーションにおいては、「ｐ」は右ボタンクリックに関連付けることができ、「ｂ」は左ボタンクリックに関連付けることができる。

音声内で検出されるその他のパラメータ、特にピッチ、インテンシティ、ならびに母音三角形内の位置および／またはそれらの組合せをパルスまたは連続制御器として用いることができる。このアプローチにおいては、これらのパラメータのうちの１つまたは複数をリアルタイムで測定し、たとえば０から１００までの間に含まれる値をこれらに割り当てる。インテンシティパラメータは信号全体に印加することができるが、子音のみあるいは母音のみに印加することもできる。

装置４はテレビゲーム制御モジュール１３を含むことができる。このモジュール１３はパラメータ１７に応じて、人物、車、グラフ構造、画質を制御する。

たとえばゲームにおいては、三次元飛行において飛行機を制御するために、音声から抽出された連続パラメータが用いられる。一例では、ボリュームはアクセル（ｙ軸）に関連付けられ、音のピッチはインシデンス（ｚ軸）に関連付けられ、母音三角形の［ａ］−［ｕ］軸における位置は方向（ｙ軸）に関連付けられる。

制御される装置に送信される情報は様々な方法で処理することができる。パルス処理の場合、情報は、パラメータの値がいずれかの方向であるしきい値を超過しないと送信されない。すなわち、声の音のピッチが基準ピッチよりも高いか低く、インテンシティが基準インテンシティよりも高いか低い場合、あるいは母音三角形内における位置が、母音三角形の３つの軸［ａ］−［ｕ］、［ｕ］−［ｉ］、［ｉ］−［ａ］のいずれか１つの方向である点に充分近い場合である（図２ｆを参照のこと）。この場合、パルス制御器として連続パラメータが用いられ、制御される装置に送信される情報はバイナリータイプである。

連続処理では、連続記述子からの情報はそれら記述子の連続性を考慮して処理される。
その枠組の中においては、制御される装置を制御するのに用いられる情報はこれらの連続パラメータの値である（たとえば０から１００までの間に含まれる）。

使用される連続パラメータの値はある所与の瞬間におけるパラメータの値である。またこれらのパラメータを変換して、それらの導関数または二次導関数を計算することもできる。画面上でのカーソルの制御の場合、当然ながらカーソルの移動速度に導関数を関連付けることができる。

したがって、簡単な例では、たとえばスペースインベーダータイプの宇宙船ゲームのように音声はカーソルを制御する。この枠組において、［ａ］は左方向への動きを表すことができ、［ｕ］は右方向への動きを表す。バイナリーアプローチでは、音が［ａ］に充分に近い場合、より正確には母音三角形の［ａ］−［ｕ］軸方向における位置の値がしきい値より小さい場合、左方向への動きが開始される。この例では音［ａ］は０に相当し、音［ｕ］は１００に相当する。

連続処理では、直接用いられるのは［ａ］−［ｕ］軸方向の値である。この枠組において複数の処理モードについて説明する。この値は、座標値で記述される位置に直接割り当てることができる。この処理モードによりカーソルの高速移動が可能であるが、あまりに高速な移動であると制御が困難になることがある。この値はまた移動速度に割り当てることもできる。したがって、値０に関連付けられた［ａ］により左方向への高速移動が発生し、値値１００に関連付けられた［ｕ］により右方向への高速移動が発生する。より低速な移動については、この場合、左方向への低速移動に関しては値［Ｏ］を、右方向への低速移動に関しては値［ｏ］を送信する。後者の場合、画面における移動速度を制御するのに用いられるのは、［ａ］−［ｕ］軸方向における位置の第一導関数である。

制御パラメータとして母音三角形の［ａ］−［ｕ］軸方向における位置を用いることにより後者の例を詳細に説明したが、音声内で検出された連続パラメータのいずれに対しても、あるいはそれらの組合せに対しても同じ論理を適用することができる。

制御の効いた位置または移動を得るために、連続パラメータの瞬間値は、特定のアプリケーションに従って行われるゲームまたはプログラムの設計の際に調節される時間窓に従って平均化することができる。

二次元または三次元における移動体の移動を記述するのに用いられる系としては、二、三またはｎ次元の世界における移動体の位置または移動を記述することができる任意の座標系、特に直交座標系または極座標系を使用することができる。たとえば、ある立体の移動に関する３つの次元に加え、立体の回転および／またはたとえば画像の輝度または色などの環境パラメータに関する３つの次元を制御するとした場合には、次元数ｎは３より多くすることができる。位置の記述の基準系は不動でも可動でもよい。可動基準とは、座標系が制御される対象の位置および向きに対して記述される基準系であるのに対し、不動基準系は不動であり、前記物体の位置または向きとは無関係である。

本発明により、提供された連続パラメータまたはパルスパラメータのうちのいくつかしか使用しない音声制御ゲームまたは他の簡単なアプリケーションを設計することが可能である。テレビゲームまたはより完成された他のアプリケーションの制御においては、より細やかな制御を必要とするゲームまたは他のアプリケーションの高い自由度を制御するために、音声から抽出した多くのパルスパラメータおよび連続パラメータを同時にまたは相次いで使用することができる。したがって初心者レベルにおいてはパラメータのうちのいくつかしか考慮せず、プレーヤの進歩に応じて制御の可能性を拡大することも考えられる。

先の例においては、制御パラメータの値は、声音が一切発声されないときにこれらのパラメータの測定値に対応するか、プログラムまたはゲームの設計者によって定義することができる任意のタイプのキャリブレーションに対応するキャリブレーション値だけ補正することができる。

これらの例においては、この技術は「音声コントローラ」とみなすことができ、単体で提供することも、マルチモーダルアプローチで、すなわちキーボード、ジョイスティック、ゲームパッド、あるいは位置または運動センサなど既存のゲームインタフェースに追加するものとして提供することもできる。

変形形態では、モジュール３は、仮想人物の制御用モジュール、あるいはロボットなどの電子システムまたは他の任意の情報処理システムまたは電子システムでよいモジュール１４とすることができる。装置４は、想定するアプリケーションに応じて、要素１３、１４のうちの１つまたは複数を含む。これらの装置１３、１４は独立したものとし、それ自身も独立しているモジュール３に接続することができる。

図２ａは、適合化モジュール２３を介して制御モジュール３に接続された制御される装置４を含む本発明によるシステム１の詳細図である。この適合化モジュール２３は、モジュール３の出力パラメータと制御される装置４の入力パラメータとの間の対応を保証する。

より詳細には、マイクロフォン２は、サンプルウインドウをサンプリングするアナログデジタル変換器２１に向けてアナログ信号５を送信する。サンプリングの細かさはユーザが期待する精度、あるいはターゲット製品またはプラットフォームにおいて利用可能な計算能力に依存させることができる。サンプリングされた信号２２を図２ｂに示す。この信号２２はタイミングｋにおいて、通常は大きな振幅のアタックａｋと、小さな振幅のキープｔｋｉを含む。実際にはアタックａｋは声の１つの子音に相当し、ホールドｔｋｉは１つの母音または一連の母音に相当する。

信号２２は、これら種々の子音ａｋを検出し隔離する分割モジュール６．１に向けて送信される。この目的のため、分割モジュール６．１は、ＨＦＣ（英語のＨｉｇｈＦｒｅｑｕｅｎｃｙＣｏｎｔｅｎｔ）アルゴリズムを使用してそれぞれの新しい子音を検出する。このアルゴリズムはスペクトル成分のモジュールの重み付き線形和を行うことにより、信号２２のある部分の高周波成分を強調する。これらの強調化を基にして、子音に相当する音の開始時のピークを検出する。次に、２つの振幅のピークの間に位置する母音を抽出する。

変形形態では、子音を検出するために、エネルギ、スペクトル差、位相偏移、あるいは複合ドメイン内の複合アプローチのアルゴリズムも使用することができる。しかしながら、驚くべきことに、ＨＦＣアルゴリズムは、引用した他のアルゴリズムの成功率よりもかなり高い成功率で声の子音の検出を行うことを実験が示している。

さらに、図２ｃに示すように、分割モジュールの出力部に接続された検出モジュール６．２は、検出された子音がどのクラスに属するかを検出する。この目的のために、３つの子音クラス、すなわち子音［ｐ、ｔ、ｋ］を含む第１のクラスＡ１と、子音［ｂ、ｄ、ｇ］を含む第２のクラスＡ２と、子音［ｍ、ｎ、ｌ］を含む第３のクラスＡ３をあらかじめ決定する。

第２および第３クラスＡ２、Ａ３は、ジャコブソンの「ＰｒｅｌｉｍｉｎａｒｉｅｓｔｏＳｐｅｅｃｈＡｎａｌｙｓｉｓ」と題する著書による有声特性を有する子音を集めたものであるが、第１クラスＡ１はそのような特性を有さない。有声特性は周波数的には２５０Ｈｚ前後における周波数の強調という形になって現れる。第３クラスＡ３は母音性特性を有する子音を集めたものであるが、第１および第２クラスＡ２はそのような特徴を有さない。子音の発声源が単一であり、周期的であり、減衰が少なく、アタックが急ではない場合、その子音は母音性である。したがって、アタックが有声特性または無声特性であるか、ならびに母音性または非母音性であるか検出することにより、これら二対二の子音クラスをすばやく区別することが可能である。

変形形態では、他の３つの子音群が、母音および有声化試験によって、たとえば第１群は無声化されかつ非母音性であり、第２群は有声化されているが非母音性であり、第３群は有声化されかつ母音性であるというように区別できれば、そのような子音群を形成することができる。フランス語の子音の有声化特性および母音性特性を表２ｅに記載した。

一実施形態においては、解析モジュールは、検出された子音の信号に印加された５０−３０００Ｈｚの帯域に対する自己相関係数またはスペクトルセントロイドを用いて有声化特性を検出する。

一実施形態においては、解析モジュールは、信号のある周波数帯内のエネルギ、あるいは子音によって異なる値を有する子音の全エネルギを調べることにより、子音の母音性または非母音性特性を検出する。

テレビゲーム内あるいは任意のアプリケーション内で行われる動作は、検出された子音がこれらのクラスのどれに属するかによって異なる。たとえば空手ゲームにおいては、音のアタックａｋが第１クラスＡ１に属する場合（ユーザがたとえば「ｔｅ、ｔａ、ｔｉ」を発した場合）、パンチが出されるが、音のアタックａｋが第２または第３クラスに属する場合（ユーザがたとえば「ｂｅ、ｂｉ、ｂｏｕ」を発した場合）、パンチは弱くなるがよりすばやくなる。変形形態では、当然のことながら３つより多いまたは少ないクラスを定義することが可能である。

これと並行して、母音ｔｋｉのピッチ、インテンシティおよび音色を求めるためにこれらの母音について連続的に解析が行われる。このために、モジュール６．２は、周波数抽出モジュールと、インテンシティ抽出モジュールと、音色抽出モジュールを含む。変形形態では、基本周波数の抽出は、ＦｒａｎｃｅＴｅｌｅｃｏｍの特許文書（フランス国内登録番号０１０７２８４）に記載されているＹｉｎのアルゴリズムを基にして行われる。

インテンシティ抽出モジュールは、ユーザの声のインテンシティを測定する。声のインテンシティにより、たとえば空手ゲームにおけるチョップの力、あるいは射撃ゲームにおける銃撃の強さを制御することが可能である。

音色抽出モジュールは、母音の音色の種類を抽出する。母音の音色はその最初の３つのフォルマントＦ１、Ｆ２、Ｆ３によって特徴付けられ、最初の２つのフォルマントＦ１およびＦ２を基にして充分正確に近似することができる。この目的のため、音色抽出モジュールは図２ｆに示す母音三角形における母音の瞬間的状態の位置を求めるが、面Ｆ１−Ｆ２内の母音の座標値は有利な二次元制御源となることができる。

この目的のため、抽出モジュールは、母音の振幅スペクトルの重心に相当するスペクトルセントロイドをリアルタイムで計算する。変形形態では、重み付きスペクトル領域の計算を基にして母音の種類が解析される。

制御の表現の豊かさを向上させるために、定義された種々のクラスの中から正確に母音またはこの母音のクラスを正確に検出することも可能であり、制御される動作は母音の種類および／またはこの母音のクラスによって変わる。したがって、一例では、同じピッチかつ同じインテンシティの音声信号の場合、「ｐｉ」に関連付けられている空手の形は「ｐａ」または「ｐｅ」に関連付けられている形とは異なることになる。

解析モジュール６．２は、適合化モジュール２３の入力部に供給されるＮ個の数値パラメータ１７を抽出する。このモジュール２３は、これらＮ個の数値パラメータを、制御されるモジュールのＰ個の入力部に供給されるＰ個の数値パラメータに変換するが、このときＰはＮと異なるか、またはＮに等しい。この目的のためモジュール２３はＮ個のパラメータ同士を組み合わせ、モジュール２３の出力側で見られるＰ個の数値パラメータのそれぞれがＮ個の入力パラメータの組合せになるようにする。

図２ｄは、信号１７のＮ個のデータｄ１〜ｄＮに対して適用される適合化モジュール２３に関連付けられたマッピング行列と呼ばれる行列を示す。この行列はＮ本の行とＰ個の列を含むので、信号１７から、Ｐ個のデータｄ’１〜ｄ’Ｐを含むデータ信号２５が得られる。適合化行列は、制御されるゲームまたはアプリケーションの種類、ユーザのレベル（専門家、アマチュア、初心者）によって適合させることができる。マッピング行列のパラメータｘ１１〜ｘＮＰは定数（線形適合）とすることもでき、パラメータｄ１〜ｄＮおよび時間の数学的関数（非線形適合）とすることもできる。

変形形態では、パラメータｄ１〜ｄＮの全てまたはそのいくつかについての瞬間値を履歴行列内に保存する。この履歴行列はたとえばゲームの直近の１分間に限定するようにすることができる。この履歴行列に収納されている値は、パラメータｄ１〜ｄＮの変化に関する数学的演算を行うのに使用される。たとえばパラメータの平均値、標準偏差を計算することや、その他の統計的演算を行うことが可能である。

入力パラメータｄ１〜ｄＮの変化に特に注目する変形形態では、これらのパラメータの導関数および／または二次導関数を計算することができる。こうすることにより２Ｎまたは３Ｎ個のパラメータが得られる。そして、２Ｎまたは３Ｎ個の行およびＰ個の列の行列との間で同じインタフェース方法を再度適用する。行列のサイズを無意味に大きくしないようにするために、行列が有用であるパラメータの導関数およびまたは二次関数についてのみこれらの関数を計算するようにすることができる。

変形形態では、行列をニューラルネットワークまたはその他の人工知能の手法に置き換えることができ、前記網は参照試験のコーパスから自動的または半自動的にパラメータ化することができる。より洗練されたバージョンでは、特定の重みを特定のユーザのゲームのモードに付与することにより、行列またはニューラルネットワークがこのユーザ用に洗練化される。

本発明においては、使用されるアルゴリズムにより、ティーチングなしにマルチ話者利用が可能になる。上級ユーザ専用の進化バージョンでは、適合化モジュールは、たとえば、あらかじめ決められたゲームのいくつかの局面を反復するよう話者に要求することにより、話者の声に特有な特性に応じてパラメータ設定を調節する。

モジュール２３によって生成されるパラメータは、制御される装置４の入力側に供給される。こうすることにより、モジュール２３は、解析モジュール３によって生成されたパラメータの数を、制御されるモジュール３の制御に必要なパラメータの数に適合させることができる。

また、制御インタフェース３７は、制御されるモジュール４またはマッピングモジュール２３の入力部に接続することができる。この制御インタフェース３７は、ジョイスティック、ゲームパッド、コンピュータまたは携帯電話のキーボード、マウス、または専用に開発されしぐさまたは動きのセンサを含むことができるコントローラ、タッチ表面、圧力またはひねりのセンサなどの情報処理コントローラとすることができ、制御される装置４またはマッピングモジュール２３に向けて出力信号３８を送信する。

インタフェース３７は仮想人物の射撃を制御するのに用いることができ、声はその人物の動きを制御するのに使用されるが、その逆であってもよい。

一実施形態においては、インタフェース３７のボタンはパルス動作を開始するのに用いられるが、声は、制御される連続的動作またはパルス動作の種類を制御するのに用いられる。たとえば、ユーザは、各瞬間に連続パラメータ（ピッチ、インテンシティ、母音三角形の中の位置）を抽出する母音タイプの連続信号を常時発信する。その場合、直前に測定された連続パラメータに相当する動作を瞬時に開始するのにパルス信号が用いられる。

たとえば、ユーザは、あるピッチおよびある所与のインテンシティに相当するＡを連続的に発信する。ユーザがボタンを押した瞬間に、既に事前に計算されていた連続値に相当する、キックまたはパンチまたはあらかじめ定義された任意の動作が開始する。この実施方法により、いくつかのパラメータ、特にピッチにとって完全に同時であるとの印象を与えるには過大な計算時間を必要とすることがある連続関数を計算する必要がなく、パルス動作のきわめてすばやい起動が可能になる。

一実施形態においては、パルス動作を起動するためにインタフェース３７のボタンが用いられるが、連続動作、あるいはパルス的に起動された動作の変化を制御するためには声が用いられる。パルス起動ボタンは単にパルス（ＹＥＳまたはＮＯ）を供給するか、値（感度ボタン）を供給することができる。

一実施形態においては、表現性パラメータの組合せにより、プレーヤの声を基にして、人物のしぐさ、身振り、顔の表情、くちびるの同期、髪または毛の逆立ち、顔または体の色を制御することができ、人物の身体的表現はたとえばプレーヤの音声表現と整合している。

説明した種々のモジュールは当然のことながらソフトウエアモジュールまたは電子モジュールの形態をとることができる。適合化モジュールは解析モジュールまたは制御されるモジュールに組み込むことができる。一実施形態においては、ただ１つのモジュールの内部に３つのモジュールが組み込まれる。

本発明は、上で説明した方法を実施することができるハードウエア装置にも適用される。

Claims

ユーザの音声信号によるデジタル装置の制御方法において、
音声信号から表現性パラメータを抽出するステップであって、
前記表現性パラメータが、
音声信号のピッチ、ボリュームおよびアタック、ならびに／または音色などの音楽性パラメータ、ならびに
子音の存在および検出された母音に関する、前記音声信号の韻律パラメータであり、
この抽出ステップが、音声束の形式構造および表現性の測定を可能にするものであり、音声信号内に含まれている単語の識別または認識を行わないことをねらいとするステップと、
抽出された表現性パラメータに応じてデジタル装置またはソフトウエア装置を制御するステップと
が組み合わされて実行される方法。
検出された子音の子音群への所属を検出し、装置の制御が、検出された子音が所属するクラスに応じて変わることを特徴とする請求項１に記載の方法。
装置の制御がパルス式であり、
子音群が装置に送信され、特定の制御タイプが、検出可能な各子音群またはアタック群に関連付けられることを特徴とする請求項２に記載の方法。
子音群を検出するために、子音を検出すべき音声信号のスペクトル成分上でＨＦＣ（英語のＨｉｇｈＦｒｅｑｕｅｎｃｙＣｏｎｔｅｎｔ）アルゴリズムを実行するステップと、
検出された子音について有声化試験および母音試験を行い、第１群は無声化されかつ非母音性であり、第２群は有声化されているが非母音性であり、第３群は有声化され母音性であるという特徴を有する３つの子音群を区別するステップと
を含み、特定の制御タイプがこれら３つの群のそれぞれに関連付けられる
請求項２または３に記載の方法。
第１群が子音［ｐ、ｔ、ｋ］で構成され、第２群が子音［ｂ、ｄ、ｇ］で構成され、第３群が子音［ｍ、ｎ、ｌ］で構成される請求項４に記載の方法。
最初に有声化試験が行われ、第２に母音試験が行われ、
音声信号の第一自己相関係数またはスペクトルセントロイドを用いて子音の有声化または無声化特性が求められ、
音声信号の全エネルギまたはある周波数帯内のエネルギを用いて子音の母音性または非母音性特性が求められる
請求項４または５に記載の方法。
装置の制御がパルス式であり、
ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するステップと、
しきい値とこの連続パラメータの値との比較の結果を装置に送信するステップと、
を含み、第１の制御タイプが、連続パラメータがしきい値よりも大きいことを示す比較の結果に関連付けられ、
第２の制御タイプが、連続パラメータがしきい値よりも小さいことを示す比較の結果に関連付けられる
ことを特徴とする請求項１からの６のいずれか一項に記載の方法。
装置の制御が連続式であり、
ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するステップと、
連続パラメータのこの値を装置に送信するステップと、
を含み、装置の連続制御がパラメータのこの値に依存する
ことを特徴とする請求項１から７のいずれか一項に記載の方法。
連続値が、ある所与の瞬間の表現性パラメータの値、あるいはこの表現性パラメータの導関数または二次導関数であることを特徴とする請求項８に記載の方法。
制御すべき装置がグラフィックカーソルであり、表現性パラメータの導関数がこのカーソルの速度に関連付けられることを特徴とする請求項９に記載の方法。
連続値が、母音三角形の３つの軸のいずれかに沿った表現性パラメータの測定値から作成されることを特徴とする請求項８から１０のいずれか一項に記載の方法。
母音三角形の３つの軸のいずれかに沿って表現性パラメータを測定するために、音声の最初の３つのフォルマントＦ１、Ｆ２およびＦ３または最初の２つのフォルマントＦ１およびＦ２によって音色を特徴付けることを特徴とする請求項１１に記載の方法。
ピッチまたはインテンシティなど時間の経過につれて連続的に変動することができる音声の連続的パラメータの値をある所与の瞬間に測定するために、Ｙｉｎのアルゴリズムを実行する請求項７から１２のいずれか一項に記載の方法。
ユーザが、音声表現性と装置の制御の間において完全な同時性および整合性があるという感覚を持つように、表現性パラメータを抽出するための応答時間が４０ｍｓ未満である請求項１から１３のいずれか一項に記載の方法。
ボタン、キーボードまたはジョイステックなど他のマン／マシンインタフェース（３７）からのパラメータが、装置の制御用の表現性パラメータと組み合わせて用いられることを特徴とする請求項１から１４のいずれか一項に記載の方法。
インタフェース（３７）のボタンがパルス動作を起動するのに用いられ、パルス動作が即時動作である一方、
制御するパルス動作の性質または変化を制御するのに、さらには、時間とともに変化する動作である連続的動作を制御するのに音声パラメータが用いられる
ことを特徴とする請求項１５に記載の方法。
表現性パラメータの数Ｎを装置の入力数Ｐに適合させるために、
定数および／または時間とともに変動する値とすることができる、係数ｘ１１〜ｘＮＰのＮ行およびＰ列の行列を用いてＮ個の表現性パラメータ同士を組み合わせる請求項１から１６のいずれか一項に記載の方法。
Ｎ個のパラメータにその導関数および／または二次導関数を加えるステップを含むことを特徴とする請求項１７に記載の方法。
制御する装置がソフトウエアであり、それによりテレビゲームの人物、車、または飛行機など仮想オブジェクトの制御が可能であり、この仮想オブジェクトが表現性パラメータに応じて移動しあるいは動作を行う請求項１から１８のいずれか一項に記載の方法。
Ｎ個の音声表現性パラメータが、特にしぐさ、身振り、顔の表情、くちびるの同期、髪または毛の逆立ち、顔または体の色となって表れる仮想人物の表現性を制御するＰ個の制御パラメータを制御する請求項１７に記載の方法。
請求項１から２０のいずれか一項に記載の方法を実施することができるハードウエア装置。