JP4906776B2

JP4906776B2 - 音声制御装置

Info

Publication number: JP4906776B2
Application number: JP2008106923A
Authority: JP
Inventors: 成一天白; 康雄傍島; 泰宏藤井; 正樹津守; 高士庄司
Original assignee: ARCADIA, INC.
Current assignee: ARCADIA, INC.
Priority date: 2008-04-16
Filing date: 2008-04-16
Publication date: 2012-03-28
Anticipated expiration: 2028-04-16
Also published as: JP2009258366A

Description

この発明は音声に基づいて制御を行う音声制御装置に関するものである。

入力された音声の特徴を解析することにより入力された音を推定し、この音の並びによって制御を行う装置が提案されている（たとえば特許文献１）。このような装置によれば、ユーザは、手による操作を行わずとも声によって機器を制御することができるという効果がある。

特許第４０２６１９８号

しかしながら、入力された音声が意味する内容によって制御を行うことは、ユーザにとって分かりやすいものである反面、発話の仕方自体は直接的に制御に反映されず、その点において制御が間接的であった。

そこでこの発明は、音声の特徴自体によって直接的に制御を行うことを可能とした音声制御装置を提供することを目的とする。

この発明のいくつかの独立した特徴を以下に示す。

(1)(2)この発明に係る音声制御システムは、音声を取得し音声信号に変換する音声取得部と、音声取得部からの音声信号を周波数解析して特徴量を算出する特徴量算出手段と、前記特徴量算出手段によって算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う母音判定手段と、各母音を異なる方向に対応付けた平面または空間において、前記母音判定手段によって判定された母音に対応する方向に、その類似度に対応する大きさのベクトルを想定し、当該ベクトルの方向もしくは大きさまたはその双方によって制御を行う制御手段と、制御手段による制御結果を出力する出力部とを備えている。

したがって、入力された音声の母音との類似度に基づいてベクトルを想定し、当該ベクトルに基づいた制御を行うことができる。

(3)この発明に係る音声制御プログラムは、制御手段が、予め記録されたベクトルの方向および大きさの時間的変化と、算出したベクトルの方向および大きさの時間的変化とを比較し、その類似度に基づいて得点を算出することを特徴としている。

したがって、基準となる音声との対比において、入力された音声を得点付けすることができる。

(4)(5)この発明に係る歌唱力判定装置は、伴奏データを音として出力する伴奏出力部と、音声を取得し音声信号に変換する音声取得部と、音声取得部からの音声信号を周波数解析して特徴量を算出する特徴量算出手段と、前記特徴量算出手段によって算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う母音判定手段と、母音判定手段によって判定された母音の変化タイミングを、予め記録されている正解母音変化タイミングと比較し、その一致度に基づいて、歌唱力を判定する比較手段とを備えている。

したがって、母音変化のタイミングに基づいて歌唱力を判定することができる。

(6)(8)この発明に係る音声制御装置は、音声を取得し音声信号に変換する音声取得部と、音声取得部からの音声信号を周波数解析して特徴量を算出する特徴量算出手段と、前記特徴量算出手段によって算出した特徴量に基づいて、予め登録された各母音との類似度を算出する母音判定手段と、各母音を異なる方向に対応付けた平面または空間において、前記母音判定手段によって判定された各母音との類似度をマッピングし、前記平面または空間におけるマッピング位置に基づいて制御を行う制御手段と、制御手段による制御結果を出力する出力部とを備えている。

したがって、入力された音声の母音との類似度に基づいて平面または空間にマッピングを行い、当該マッピングに基づいた制御を行うことができる。

(7)(9)この発明に係る音声制御装置は、音声を取得し音声信号に変換する音声取得部と、音声取得部からの音声信号を周波数解析して少なくとも二以上の特徴量を算出する特徴量算出手段と、前記二以上の特徴量を異なる方向に対応付けた平面または空間において、前記二以上の特徴量をマッピングし、前記平面または空間におけるマッピング位置に基づいて制御を行う制御手段と、制御手段による制御結果を出力する出力部とを備えている。

したがって、入力された音声の周波数解析による特徴量に基づいて平面または空間にマッピングを行い、当該マッピングに基づいて制御を行うことができる。

(10)この発明に係る音声制御プログラムは、制御手段が、前記マッピング位置に基づいて表示部における制御対象を移動させるよう制御することを特徴としている。

したがって、入力した音声の周波数的な特徴に基づいて制御対象の移動を制御することができる。

(11)この発明に係る音声制御プログラムは、制御手段が、前記マッピング位置の時間的変化を表示部において表示するよう制御することを特徴としている。

したがって、入力した音声の周波数的な特徴量の時間的変化を視覚的に確認することができる。

この発明における「特徴量算出手段」は、実施形態では、図３のステップＳ２やＭＦＣＣチップ２８がこれに対応する。

「母音判定手段」は、実施形態では、図３、図４のステップＳ３〜Ｓ８がこれに対応する。

「制御手段」は、実施形態では、図４のステップＳ９がこれに対応する。

「プログラム」とは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。

発明を実施するための形態

１．第一の実施形態
1.1全体構成
図１にこの発明の一実施形態による音声制御装置の機能ブロック図を示す。音声取得部２は、音声を取得し電気信号に変換する。特徴量算出手段４は、音声電気信号を周波数解析し、特徴量を算出する。母音判定手段６は、算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う。制御手段８は、各母音を異なる方向に対応づけた平面または空間において、母音判定手段６によって判定された母音に対応する方向に、その類似度に対応する大きさのベクトルを想定する。制御手段８は、このようにして想定したベクトルに基づいて制御信号を出力する。このようにして、音声に基づいた制御を行うことができる。

1.2ハードウエア構成
図１の音声制御装置のハードウエア構成を図２に示す。ＣＰＵ１８には、ディスプレイ１２、操作部１４、Ａ／Ｄ変換器１６、メモリ２０、フラッシュメモリ２２が接続されている。操作部１４は、キーボードやポインティングデバイスなどである。マイク２４は、Ａ／Ｄ変換器１６を介してＣＰＵ１８に接続されている。フラッシュメモリ２２には、音声制御プログラム、ＭＦＣＣパラメータの基準値・分散値やアプリケーションプログラムが記録されている。

1.3音声制御プログラム
図３に、フラッシュメモリ２２に記録された音声制御プログラムのフローチャートを示す。ユーザがマイクに発話すると、この音声信号はＡ／Ｄ変換器１６によってディジタルデータに変換され、メモリ２０に記録される。ＣＰＵ１８は、メモリ２０に記録された音声データを、所定時間分（たとえば５秒）取り込む（ステップＳ１）。次に、ＣＰＵ１８は、取り込んだ音声データを周波数解析し、ＭＦＣＣパラメータを算出する（ステップＳ２）。具体的には、音声データをケプストラム解析し、フィルタバンク分析によって１２次までのスペクトル成分を算出する。図５にこのようにして算出したＭＦＣＣパラメータの例を示す。この実施形態では１次から１２次までのパラメータを算出している。

次に、ＣＰＵ１８は、算出した各次のＭＦＣＣパラメータと、予め記録してある基準値との差を算出する（ステップＳ３）。ここで、基準値とは、予め特定または不特定の話者に「あ」「い」「う」「え」「お」（あるいはこれら母音を含む音）をマイク２４から入力してもらい、それぞれについてＭＦＣＣパラメータを算出し、多くのデータの平均値を求めたものである。図６に、フラッシュメモリ２２に記録されたＭＦＣＣパラメータの基準値の例を示す。上段には、各母音・各次数ごとのＭＦＣＣパラメータの平均値が示されている。下段には、各母音・各次数ごとのＭＦＣＣパラメータのばらつきを示す分散値が示されている。

ＣＰＵ１８は、ステップＳ２において算出した各次数のＭＦＣＣパラメータと、各母音ごとに、基準値である各次数のＭＦＣＣパラメータとの差を求める。図７に、入力された音声のＭＦＣＣパラメータ（図５のサンプル１）について算出した基準値との差を示す。

次に、ＣＰＵ１８は、算出した差を２乗する（ステップＳ４）。続いて、差の２乗を予め算出して記録しておいた図６の分散値で除する（ステップＳ５）。これにより、各パラメータごとのばらつきを正規化する。さらに、ＣＰＵ１８は、各母音ごとに、正規化した各次数の値を合計し平方根を算出し次数で除してスコアを算出する（ステップＳ６）。

以上のようにして、ＣＰＵ１８は、スコアを算出する。スコアの算出を数式で表すと、以下のようになる。

ここで、Ｓａは母音「あ」についてのスコア、Ｓｉは母音「い」についてのスコア・・・Ｓｏは母音「お」についてのスコアである。Ｐ１は、入力された音声のＭＦＣＣパラメータの１次のパラメータである。Ｐ２、Ｐ３・・・Ｐ１２は、同様に、入力された音声のＭＦＣＣパラメータの２次から１２次までのパラメータである。Ａ１は、「あ」のＭＦＣＣパラメータ基準値の１次パラメータである。Ａ２、Ａ３・・・Ａ１２は、同様に、「あ」のＭＦＣＣパラメータ基準値の２次から１２次までのパラメータである。Ｉ１、Ｉ２・・・Ｉ１２は、「い」のＭＦＣＣパラメータ基準値の１次から１２次パラメータである。Ｕ１、Ｕ２・・・Ｕ１２は、「う」のＭＦＣＣパラメータ基準値の１次から１２次パラメータである。Ｅ１、Ｅ２・・・Ｅ１２は、「え」のＭＦＣＣパラメータ基準値の１次から１２次パラメータである。Ｏ１、Ｏ２・・・Ｏ１２は、「お」のＭＦＣＣパラメータ基準値の１次から１２次パラメータである。ａ１、ａ２・・・ａ１２は、「あ」のＭＦＣＣパラメータ基準値の１次から１２次パラメータの分散値である。ｉ１、ｉ２・・・ｉ１２は、「い」のＭＦＣＣパラメータ基準値の１次から１２次パラメータの分散値である。ｕ１、ｕ２・・・ｕ１２は、「う」のＭＦＣＣパラメータ基準値の１次から１２次パラメータの分散値である。ｅ１、ｅ２・・・ｅ１２は、「え」のＭＦＣＣパラメータ基準値の１次から１２次パラメータの分散値である。ｏ１、ｏ２・・・ｏ１２は、「お」のＭＦＣＣパラメータ基準値の１次から１２次パラメータの分散値である。

上記のようにして、入力された音声が、いずれの母音に近いかを示すスコアを得ることができる。

次に、ＣＰＵ１８は、算出したスコアＳａ、Ｓｉ、Ｓｕ、Ｓｅ、Ｓｏのいずれかが１を下回っているかどうかを判断する（ステップＳ７）。１未満のスコアがなければ、判定不能とし、ステップＳ１に戻って次の音声に対する処理を行う。

１未満のスコアがあれば、それらスコアの内で最も小さいものを選択し、それを判定母音とする（ステップＳ８）。たとえば、図８の上段（サンプル１）に示すようにスコアが算出された場合、１未満で最も小さいスコアＳａが選択され、「あ」と判定することになる。

ＣＰＵ１８は、「あ」という判定結果とスコア（図８のサンプル１なら０．３３８）に基づいて、たとえば、ディスプレイ１２のカーソルの移動を制御する（ステップＳ９）。具体的には、図９のような「あ」が上、「い」が下、「え」が右、「お」が左という平面を想定し、この平面上に判定結果をプロットする。上記の例であれば、「あ」の軸方向に対して、スコアＳａの逆数をプロットする。ＣＰＵ１８は、このプロットした方向にカーソルを移動させる。したがって、入力された母音の方向に、その類似度（スコアの逆数）に応じてカーソルが移動されることになる。移動速度ないし移動加速度が類似度によって決定される。なお、この実施形態では、「う」と判定された場合には、そのカーソルの位置でクリックがされたものと判断する。

次に、ＣＰＵ１８は、ステップＳ１に戻って次の音声データの処理を行う。

この実施形態では、母音判定に基づいて制御を行うようにしている。マイク２４から入力する音声は、「あ」から「お」までの母音でなくともよい。「か」「き」「く」・・・「わ」の音に含まれる母音を判定して、同様の制御ができるからである。

1.4その他の実施形態
(1)上記実施形態では、各母音を２次元平面の軸に配置しているが、図１０Ａに示すように、三次元以上の空間軸に配置し、これにしたがってマッピングし制御を行うようにしてもよい。

(2)上記実施形態では、ＭＦＣＣパラメータを用いたが、ＦＦＴ解析、ＬＰＣ解析などの周波数解析を用いてもよい。

(3)上記実施形態では、母音判定を行った後、座標上へのマッピングを行っている。しかし、図１１に示すように、母音判定を行わず、各母音の類似度に基づいて座標上にマッピングするようにしてもよい。図１１において、ＹはスコアＳａからＳｉを減じたものであり、ＸはスコアＳｅからＳｏを減じたものである。ＣＰＵ１８は、このようにして生成したベクトルＶに基づいた制御を行う。

(4)上記実施形態では、各母音を平面または空間の軸に配置しているが、図１０Ｂに示すように、特徴量（たとえばＭＦＣＣパラメータの各次の値）を平面または空間の軸に配置するようにしてもよい。

(5)また、特徴量としてフォルマント周波数を用い、これに基づいて平面または空間の軸に配置するようにしてもよい。たとえば、縦軸に第１フォルマント周波数、横軸に第２フォルマント周波数をとって、図１０Ｃに示すように、この平面内における特徴量の移動をディスプレイに表示するようにしてもよい。

２．第二の実施形態
2.1全体構成
図１２に、この発明の一実施形態による歌唱力判定装置の機能ブロック図を示す。音声取得部２、特徴量算出手段４、母音判定手段６は、第一の実施形態と同様である。この実施形態では、制御手段８は、比較手段８１、読出手段８２、計数手段８４を備えている。読出手段８２は、カラオケデータ８３を読み出し表示部１０ａ、音声出力部１０ｂに与える。これにより音声出力部１０ｂから、カラオケ演奏が出力され、表示部１０ａには演奏に合わせて歌詞が表示される。ユーザは、これに合わせて歌を歌う。

音声取得部２はこれを取得し、特徴量算出手段４を経て、母音判定手段６によって母音が判定される。母音判定手段６の判定出力は、比較手段８１に与えられる。一方、読出手段８２は、読み出したカラオケデータ８３に記録されている母音変化のタイミングを比較手段８１に与える。したがって、比較手段８１は、ユーザの歌の母音変化のタイミングが、記録されているカラオケデータ８３のタイミングと合致するかどうかを判断する。合致の度合いに応じて得点を算出し、計数手段８４に出力する。計数手段８４は、これを合計して得点を算出し、カラオケ演奏が終わった時点で、表示部１０ａに得点を表示する。以上のようにして、歌唱力を判定することができる。

2.2ハードウエア構成
図１３に、図１２の歌唱力判定装置のハードウエア構成を示す。この実施形態では、携帯電話装置に歌唱力判定プログラムを組み込んだものを例として示している。

ＣＰＵ１８には、ディスプレイ１２、操作部１４、ＭＦＣＣチップ２８、メモリ２０、フラッシュメモリ２２、スピーカ２６が接続されている。なお、携帯電話装置の基本機能である通話部分については省略している。ＭＦＣＣチップ２８は、第一の実施形態にて説明したＭＦＣＣパラメータの演算を行うＩＣである。スピーカ２６は、音を出力するためのものである。フラッシュメモリ２２には、歌唱力判定プログラム、カラオケデータなどが記録されている。

2.3歌唱力判定プログラムのフローチャート
図１４に、歌唱力判定プログラムのフローチャートを示す。ＣＰＵ１８は、フラッシュメモリ２２からカラオケデータを読み出す（ステップＳ５１）。このカラオケデータには、伴奏データ、歌詞データと母音変化正解データが含まれている。母音変化正解データは、伴奏の進行に合致した歌の母音変化のタイミングを示すものである。

ＣＰＵ１８は、読み出した伴奏データをスピーカ２６に出力する（ステップＳ５２）。これにより、スピーカ２６から伴奏が出力される。また、歌詞データをディスプレイ１２に表示する。

ユーザは、この伴奏を聞き、歌詞データの表示を見て、伴奏に合うようにマイク２４に向かって歌う。ＭＦＣＣチップ２８は、マイク２４から入力された歌のＭＦＣＣパラメータを算出して出力する。ＣＰＵ１８は、これをメモリ２０に取り込む（ステップＳ５３）。さらに、ＣＰＵ１８は、取り込んだＭＦＣＣパラメータに基づいて母音判定を行う（ステップＳ５４）。なお、全ての音は母音を含んでいるので、全ての音について母音判定を行うことができる。

ＣＰＵ１８は、入力された歌の母音の変化データと、予め記録していた母音変化正解データとを比較し、両者の合致度に基づいて得点を算出する（ステップＳ５５）。たとえば、母音変化正解データが図１５Ａに示すようであったとし、入力された歌の母音変化データが図１５Ｂに示すようであったとする。図１５Ａは、時間ｔ０から「あ」が開始され、時間ｔ２に「あ」が終了することが好ましいことが示されている。入力された歌は、時刻ｔ１に「あ」が開始され、時刻ｔ３に「あ」が終了しているので、ｔ１−ｔ０とｔ３−ｔ２を合わせた誤差が生じている。ＣＰＵ１８は、この誤差の大きさにより得点付けを行う。誤差が小さければ得点は高く、誤差が大きければ得点は小さくなる。なお、母音変化正解データの示す母音と、入力された音の母音が異なる場合には得点は「０」となる。

ＣＰＵ１８は、このようにして算出した得点を合計していく（ステップＳ５６）。次に、ＣＰＵ１８は、カラオケデータが終了したかどうかを判断する（ステップＳ５７）。終了していなければ、ステップＳ５１に戻って次のカラオケデータを読み出して処理を続ける。カラオケデータが終了していれば、ＣＰＵ１８は、得点をディスプレイに表示する（ステップＳ５８）。この得点は、ステップＳ５６において累計した得点の満点に対する割合として算出する。以上のようにして歌唱力の判定を行うことができる。

2.4その他の実施形態
(1)上記実施形態では、母音変化のタイミングによって歌唱力の判定を行った。しかし、声の大きさについて正解データとの比較を行い、上記のタイミングと大きさの双方によって得点を付けるようにしてもよい。

(2)上記実施形態では、歌唱力判定を行った。しかし、２人のプレイヤが交互に声を入力し、特定の母音に対する類似度に基づいて、綱引きなどのゲームを進行するようにしてもよい。

この発明の一実施形態による音声制御装置の機能ブロック図である。音声制御装置のハードウエア構成を示す図である。音声制御プログラムのフローチャートである。音声制御プログラムのフローチャートである。入力された音のＭＦＣＣパラメータの例である。各母音の標準ＭＦＣＣパラメータの例である。標準ＭＦＣＣパラメータとの差を算出したデータ例である。算出されたスコアの例である。制御のためのマッピング座標を示す図である。他のマッピング座標例を示す図である。他のマッピング座標例を示す図である。この発明の一実施形態による歌唱力判定装置の機能ブロック図である。歌唱力判定装置のハードウエア構成である。歌唱力判定プログラムのフローチャートである。正解母音変化データと入力された歌の母音変化データを示す図である。

符号の説明

２・・・音声取得部
４・・・特徴量算出手段
６・・・母音判定手段
８・・・制御手段
１０・・・出力部

Claims

音声を取得し音声信号に変換する音声取得部と、
音声取得部からの音声信号を周波数解析して特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う母音判定手段と、
原点からの４方向それぞれに各母音を対応づけ、原点からの距離が大きいほど類似度が高くなるように設定した平面または空間において、前記母音判定手段によって判定された母音の類似度をマッピングし、原点からのベクトルを想定して、当該ベクトルの方向に基づいてカーソルの移動方向を制御し、当該ベクトルの大きさに基づいてカーソルの移動速度または移動加速度を制御する制御手段と、
を備えた音声制御装置。
コンピュータによって音声制御装置を実現するための音声制御プログラムであって、
音声取得部からの音声信号を周波数解析して特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う母音判定手段と、
原点からの４方向それぞれに各母音を対応づけ、原点からの距離が大きいほど類似度が高くなるように設定した平面または空間において、前記母音判定手段によって判定された母音の類似度をマッピングし、原点からのベクトルを想定して、当該ベクトルの方向に基づいてカーソルの移動方向を制御し、当該ベクトルの大きさに基づいてカーソルの移動速度または移動加速度を制御する制御手段と、
をコンピュータによって実現するための音声制御プログラム。
請求項２の音声制御プログラムにおいて、
前記移動制御手段は、前記母音定手段が前記４方向に対応付けられた母音以外の母音であると判定した場合には、その時のカーソルの位置においてクリックがなされたものとして制御を行うことを特徴とする音声制御プログラム。
音声を取得し音声信号に変換する音声取得部と、
音声取得部からの音声信号を周波数解析して特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う母音判定手段と、
原点からの４方向それぞれに各母音を対応づけ、原点からの距離が大きいほど類似度が高くなるように設定した平面または空間において、前記母音判定手段によって判定された母音の類似度をマッピングし、原点からのベクトルを想定して、当該ベクトルの方向およおび大きさの時間的変化を、予め記録されたベクトルの方向及び大きさの時間的変化と比較し、その類似度に基づいて得点を算出する制御手段と、
を備えた音声処理装置。
コンピュータによって音声処理装置を実現するための音声処理プログラムであって、
音声取得部からの音声信号を周波数解析して特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う母音判定手段と、
原点からの４方向それぞれに各母音を対応づけ、原点からの距離が大きいほど類似度が高くなるように設定した平面または空間において、前記母音判定手段によって判定された母音の類似度をマッピングし、原点からのベクトルを想定して、当該ベクトルの方向およおび大きさの時間的変化を、予め記録されたベクトルの方向及び大きさの時間的変化と比較し、その類似度に基づいて得点を算出する制御手段と、
をコンピュータによって実現するための音声処理プログラム。
請求項５の音声処理プログラムにおいて、
前記声取得部から取得される音声信号は、ユーザが歌唱を行った音声信号であり、
前記予め記録されたベクトルの方向及び大きさの時間的変化は、歌唱力を判定するための正解母音変化タイミングであることを特徴とする音声処理プログラム。
音声を取得し音声信号に変換する音声取得部と、
音声取得部からの音声信号を周波数解析して第一フォルマント周波数成分と第二フォルマント周波数成分を特徴量として算出する特徴量算出手段と、
第一の軸を第一フォルマント周波数成分とし、第二の軸を第二フォルマント成分とした平面において、前記特徴量算出手段によって算出された第一フォルマント周波数成分と第二フォルマント成分をマッピングし、時間的に変化する当該マッピング点が移動した跡を表示する制御手段と、
を備えた音声制御装置。
コンピュータによって音声制御装置を実現するための音声制御プログラムであって、
音声取得部からの音声信号を周波数解析して第一フォルマント周波数成分と第二フォルマント周波数成分を特徴量として算出する特徴量算出手段と、
第一の軸を第一フォルマント周波数成分とし、第二の軸を第二フォルマント成分とした平面において、前記特徴量算出手段によって算出された第一フォルマント周波数成分と第二フォルマント成分をマッピングし、時間的に変化する当該マッピング点が移動した跡を表示する制御手段と、
をコンピュータによって実現するための音声制御プログラム。