JP2010197998A

JP2010197998A - 音声信号処理システムおよび該システムを備えた自律ロボット

Info

Publication number: JP2010197998A
Application number: JP2009288449A
Authority: JP
Inventors: Tobias Rodemann; トビアス・ローデマン
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2009-02-26
Filing date: 2009-12-18
Publication date: 2010-09-09
Also published as: EP2224425B1; EP2224425A1; US20100217435A1

Abstract

【課題】検知した音声信号を処理して、行動制御に適した、大まかで管理することのできる音声信号の表現を与える音声プロト・オブジェクトに変換する。
【解決手段】音声信号を感知する一つまたは複数のセンサと、コヒーレントな信号エレメントの音声信号セグメントを計算するためのセグメント計算モジュールと、各音声信号セグメントの一つまたは好ましくは複数の音声特徴の圧縮された表現を計算する、少なくとも一つの圧縮モジュールと、関連する音声信号セグメントの、該圧縮された表現及び時間情報、特に、開始時間及び／または時間間隔を含むデータオブジェクトである、音声プロト・オブジェクトを保管する保管モジュールと、を含む音声信号処理システム。
【選択図】図１

Description

本発明は、音声信号検知手段を備え、検知した音声信号を処理してその行動を変更するシステムに関する。音声信号は、音声特徴計算、セグメント化、特徴統合、及び、行動制御に適した、大まかで管理することのできる音声信号の表現を与える音声プロト・オブジェクトへのセグメントの圧縮からなる処理によって変換される。音声プロト・オブジェクトは、その後、たとえば、適切な行動を規定するためのフィルタリングやグループ化からなる異なる処理段階で解析される。

提案されるシステムの概要は、図７に図示されている。特定のシステムの実施例は、図８に描かれている。

音声プロト・オブジェクトの定義
音声プロト・オブジェクト(省略形ＡＰＯ)は、音声信号のより高いレベルの表現として、特定の音声セグメントに対する、圧縮した音声特徴及びセグメント自体の情報の集まりを含むエンティティ(すなわち、データオブジェクト)である。セグメントは、(時間領域で表現する場合に)時間のスパンであり、あるいは、（音声信号を周波数領域で表現する場合に）周波数・時間空間における領域である。音声プロト・オブジェクトは、元のセグメントのサイズから独立した固定サイズを有しており、音声信号を処理するシステムに行動の点から関係を有する音声セグメントの情報を含む。

本発明は、実世界の条件下、たとえば、ロボットシステムにおける音声処理のためのシステムの領域に位置づけられる。このような条件下において、マイクロフォンによって記録された音声信号は、多くの異なる音源及び壁、天井、家具などからの反射によって生成されたエコーの和である。

音声信号を適切な行動(本機構における「行動」は、たとえば、音声信号を検知し処理したことに応答してロボットによって実行されるアクションまたは環境解析である)に直接結びつけることは困難であるので、音声信号の基本的な、低いレベルの表現は、ロボット工学には適していない。したがって、本発明は、音声信号を、ロボット工学の応用分野により適したより高いレベルの表現に変換する方法を提案する。提案されたシステムは、たとえば、話し手のような関係する音声源の方向へ(頭、センサ、動きなどを)向けるように構想されたロボットにおいて実現される。

ロボットシステムの行動を指示する音声知覚信号の多数の例が存在する。行動の第１のクラスは、物理的なアクションによる音声信号へのロボットの応答である。

音源の位置へ向くことや音源(話し手)と通信を開始することなどである。

行動の第２のクラスは、将来におけるロボットの修正された物理的なアクションへ結びつく、環境分析による、ロボットの音声信号への応答である。

環境音（たとえば、衝突）の評価や通信状態(誰が誰と通信しているか)の理解などである。

これらのシナリオは、音声認識、話して識別、音声処理の標準的な応用を超えた、多数の聴覚処理能力を必要とする。これらの聴覚処理能力は、特に、音の場所を突き止めること(音の位置特定)、行動に無関係な音を無視すること、獲得した音の背後にある音を識別すること、対話の状況においてタイミングとリズムを解析することである。

音声認識が、特に順序情報など、生の音声情報の相当な部分をなお保持している音声信号の表現を必要とする一方、ロボット聴覚における上記のタスクの多くは、より圧縮された音声の表現で十分に機能することができる。

本発明の課題は、たとえば、ロボットが、検知された音声信号に応じてその行動を適合させることができるようにする、より高いレベルの音声信号処理及び音声信号表現を提供することである。

本発明の提案された解決策は、音声プロト・オブジェクトを含み、音声プロト・オブジェクトを使用して、それによって行動の選択をより容易に実行することのできる、音声心経のより小さな表現を提供する。

課題は、一般的に独立請求項の特徴によって達成される。従属請求項は、本発明の中心的なアイディアをさらに発展させたものである。

本発明の第１の態様によれば、音声信号処理システムは、
ａ．）音声信号を感知する一つまたは複数のセンサと、
ｂ．）コヒーレントな信号エレメントの音声信号セグメントを計算するためのモジュールと、
ｃ．）各音声信号セグメントの一つまたは好ましくは複数の音声特徴の圧縮された表現を計算する、少なくとも一つの圧縮モジュールと、
ｄ．）関連する音声信号セグメントの、該圧縮された表現及び時間情報、特に、開始時間及び／または時間間隔を含むデータオブジェクトである、音声プロト・オブジェクトを保管するモジュールと、を含む。

オプションとして、関連する音声信号セグメントの時間期間も保管することができる。

音声プロト・オブジェクトは、音声プロト・オブジェクトによって表現されるセグメントの長さとは無関係に、全て、同じデータサイズを有するように設計されているのが好ましい。

音声信号処理システムは、状況に応じて、同様の特徴を備えた音声プロト・オブジェクトを、グループ化し、保管するように設計さしてもよい。

セグメント計算モジュールは、信号エネルギのような音声手がかり及び一様な音声特徴を備えたグループ化領域の少なくとも一つに基づいて、セグメント化を実施してもよい。

セグメント計算モジュールは、感知された音声信号の時間領域またはスペクトル領域でセグメント化を実施してもよい。

圧縮モジュールは、ピッチ、フォルマント、ステレオのまたはスペクトルの位置特定の手がかり、ＲＡＳＴＡ特徴、ＨＩＳＴ特徴、信号エネルギのうちの一つまたは複数を使用してもよい。

画像検知に基づいて生成された、画像プロト・オブジェクトを、音声プロト・オブジェクトと一緒に保管してもよい。（位置のように）共通な、または（画像サイズ及びピッチのように）結合した、音声特徴及び画像特徴は、統合することができる。統合は、ある検知特徴を、他の検知様式からの入力に基づいて予測するマッピングを学習し、使用することができることを意味する。このマッピングは、確率ベースであろう。結果としての予測は、直接測定と結合することができる。

本発明の別の態様は、上記の音声信号処理システムを有するロボットであって、保管された音声プロト・オブジェクトに基づいて、ロボットの行動を制御する計算ユニットを備えている。

添付の図面とともに好ましい実施形態の以下の記載を参照すれば、当業者にとって、さらなる利点、特徴および目的は明らかである。

時間領域の音声信号を示す図である。周波数・時間領域の音声信号を示す図である。セグメント化プロセス１Ｄを示す図である。セグメント化プロセス２Ｄを示す図である。音声プロト・オブジェクトの位置特徴を示す図である。音声プロト・オブジェクトにおける、時間上の信号エネルギ及び種々の圧縮方法を示す図である。一般的なシステム構成を示す図である。音位置特定の一例のシステム図である。

図１は、時間表現の音声信号を示す図である。音声データは、一般的に感知され、その後、たとえば１６ｋＨｚなどの特定のサンプリングレートでデジタル的に記録される(図１は、デジタル的に記録された信号の一例として参照されたい)。本明細書では、各測定値をサンプルと呼称する。個々の測定値、すなわちサンプルは、しばしば、使用するにはノイズが大きすぎる。したがって、安定し、信頼のおける結果を得るには、多数のサンプルにわたり平均化するのが標準的なアプローチである。

音声処理における他の、通常使用されるアプローチは、上記信号の周波数解析を実施することである。それは、１次元の時間信号をその周波数成分に変換することを意味する。この変換は、普通は、標準(高速)フーリエ変換(ＦＦＴまたはＦＴ)、またはいわゆる、ガンマトーンフィルタバンク(ＧＦＢｓ)を使用して行われる。

図２は、周波数・時間表現の音声信号の一例を示す図である。この図は、図１と同じ音声信号であるが、ガンマトーンフィルタバンク及びエンベロープ抽出を適用した後のものを示す。周波数・次官空間で表現された音声信号の例に対して、チャネル番号１は、１００Ｈｚの周波数に対応し、チャネル６０は、２０００Ｈｚに対応する。

この周波数解析アプローチの利点は、解析のある形が周波数空間で簡単であることである。また、異なる音源は、異なる周波数を使用しており、周波数表現における分離がより簡単になる可能性もある。

重ね合わせ問題を解決するいくつかのアプローチが存在する。すなわち、ブラインド音源分離(ＢＳＳ)またはビームフォーミングのようなアプローチによってマイクロフォン信号の異なる音源を分離することである。

Bregmanは、音声特徴（場所の特徴、ピッチ、フォルマント、信号エネルギなど）を集めたものを計算し、これらの特徴に基づいて、時間及び／または周波数上で信号の分離を実施する、聴覚シーン解析と呼ばれる、アプローチを提案した。

図３は、セグメント化プロセス１Ｄを示す図である。セグメントは、時間表現の信号エンベロープに注目することによって定義される。

セグメントの分離は、同質性解析(同様の特徴値を備えたサンプルをまとめてグループ化する)または差異解析(特徴値が急激に変化する場所を境界と定義する)に基づく。結果は、同一の基本的な音エレメントに属すると識別された、セグメント、時間のスパン(１Ｄ信号に対しては図３を参照)または周波数／時間空間における区域（図４)である。図４は、２Ｄにおけるセグメント化プロセスを示す図である。セグメントは、同様のエネルギの周波数・時間エレメントをグループ化することによって定義される。

このセグメントは通常、聴覚ストリームと呼ばれる。聴覚ストリームは、明瞭で分離された音声信号を必要とする、音声認識モジュールにしばしば送られる。聴覚ストリームは、信号レベルに近い、まだ低レベルのエレメントである。ストリームの記述は、セグメントにおける全ての特徴を集めたものである。異なる長さのセグメントに対して、特徴の表現は、サイズが異なり、このため、異なるサイズの聴覚ストリームを比較するのは困難となる。さらに、上記の表現は、聴覚ストリームの詳細な情報のほとんどは、行動制御には不要であるので、視覚入力または行動制御に伴う統合に適していない。

本発明は、音声データの高レベルの表現として音声プロト・オブジェクトを使用することを提案する。ここで、音声プロト・オブジェクトは、圧縮され、規格化された特徴値をセグメントへ割り当てることによって、組み立てられたデータ・オブジェクトである。

全ての音声プロト・オブジェクト(ＡＰＯ)が、シラブル、語、または、滴り落ちる水の音のような自然音などの意味のあるオブジェクトに対応しないので、表記音声プロト・オブジェクトが選択される。

ＡＰＯに関連する特徴は、タイミング(たとえば、開始時間と長さ、すなわち、期間)及びセグメント内の全てのサンプルの特徴の代表値のような簡単なものである。代表値は、単純な平均化プロセス(たとえば、全てのサンプルにわたる算術平均ピッチ値など)、値のヒストグラム、母集団コード表現、または、セグメントの固定長の、低次元の表現を提供する他の方法によって生成することができる。

結果としてのＡＰＯは、特定の音声セグメントを記述する特徴を集めるための、使用しやすいきっかけである。ＡＰＯは、長い時間間隔にわたり、保管することができる。

従来技術の限界
標準的なサンプルに関する処理は、種々のサンプル測定値が必ずしも同じ音源に属しないので、時間または周波数チャネル上で個々の測定値を容易に統合することができない。個々のサンプルの特徴は、高い多様性を示すので、結果としての解析は、信頼性が低い。標準的な解決策は、短い時間間隔での時間的な統合である。このアプローチは、特に、多数の交互に生じる音源や急速に変化する特徴(たとえば、移動オブジェクトの位置など)を伴うシナリオにおいて、明らかに限定される。

音声処理を(たとえば、ロボットにおいて)他の感覚や行動制御に結合する必要がある場合には、種々の表現がしばしば必要とされる。典型的なシナリオ、音源位置特定を考察すると、標準的なアプローチの限界が見える。(ロボットがその頭を向ける)音源の位置を連続的に推定する必要があるが、システムは、いくつの音源が活動しており、その音声の特性はどのようなものであるか決定することはできない。したがって、現在の音がロボットに関係するかどうか決定するのは困難であり、種々の音源からの音が混合され、そのため音源の位置特定を損なう危険もある。

本発明の実施形態の詳細な説明
初期の段階で、セグメント化プロセスは、共通の起源すなわち音源に由来すると考えられる、時間・周波数空間の区域を規定する。セグメント化は、(たとえば、推定位置の変化など)何らかの音声特徴の差異またはいくつかのサンプル及び周波数にわたる特性値の同質性に基づくことのできる標準的なプロセスである。簡単なセグメント化プロセスの一例は、信号エネルギに基づくセグメント化である(図３)。

セグメント化プロセスによってグループ化された、全ての時間・周波数エレメントは、音声プロト・オブジェクトの未処理のデータを形成する。次のステップは、低次元表現への特徴の圧縮である。このステップは、特徴値の平均化またはより進んだ方法によって実施することができる。

音声プロト・オブジェクトを取り扱い、比較することができるようにするために、これらの表現は固定サイズを有すること、すなわち、全ての音声プロト・オブジェクトに対して、特定の特徴の表現は、同じ寸法であることを提案する。

結果として、セグメント化された時間・周波数領域における音声特徴の表現は、縮小される(図５及び図６)。図５は、ストリームにおける音の位置特定の情報及び音声プロト・オブジェクトの形を示す。この図は、種々の位置(方位角)に対する位置のしるしとして、計算された音の位置特定の情報を示す。標準的なアプローチは、左上に描かれており、そこでは、全てのサンプルに対して位置のしるしが計算されている。一方、音声プロト・オブジェクトの概念(右下)においては、全てのサンプルに対して情報が統合されている。ほとんどの応用に対して、この縮小された表現は、行動を導くのに十分であり、ずっと濃縮されたものである。

図６は、プロト・オブジェクトに対して、時間上の信号エネルギを示す。この図は、音声特徴（ここでは、左側にプロットされた信号エネルギ）を圧縮された表現へ変換するための種々のやり方を示す。特徴圧縮の第１のオプションは、セグメントにおけるエネルギ値の単純な平均値である(右側の一番上)。第２(右側の上から２番目)は、エネルギ値の分布についてさらなる情報を提供するヒストグラム表現を示す。ポピュレーションコードとしての表現(右側の下から２番目)は、ヒストグラムと同様である。ポピュレーションコードには、ビンの中央の分布を変えることができること、応答を重ねること、すなわち、ある特定の特徴値を、ポピュレーションの複数のノードによってコード化すること、というさらなる利点がある。右側の最も下のプロットは、導関数特徴値の表現を描く。それは、信号エネルギの時間導関数のヒストグラムである。この特定の例において、正の傾きよりも負の傾きにサンプルがより多く存在する、すなわち、信号エネルギは、時間にしたがって減衰することがわかる。

特徴の例は、セグメント長、信号エネルギ、位置推定、ピッチ、フォルマント、または、聴覚間時間差(Interaural Time Difference ITD)、聴覚間強度差(Interaural Intensity Difference IID)、ＲＡＳＴＡ、ＨＩＳＴ（階層的スペクトル・時間特徴、Hierarchical Spectro-Temporal Features）などのような低レベルの特徴である。

音声特徴の適切な圧縮表現は、(セグメント内の平均ピッチ、平均信号エネルギのような)全てのサンプルにわたる平均化された値または特徴ヒストグラムまたはポピュレーションコードのようなより大規模な方法である。

ヒストグラムは、ある特徴値の相対的または絶対的出現頻度を保管することによってセグメント内の特徴値を表現する。ヒストグラムによれば、固定長の表現という利点を備えながら、セグメントにおける特徴値の分布を表現することができる。脳のコード化原理から派生したポピュレーションコードという概念もヒストグラムと同様である。このアプローチにおいては、ある特徴は、特定の特徴値へそれぞれ応答するエレメント（ニューロン）の集合によってコード化される。異なる特徴値が（順次または同時に）提示されると、異なるニューロンが活性化される。このことにより、限られたニューロンの集合内で多くの異なる特徴値を表現することができる。

これらの圧縮方法は、順序情報を除去する（特徴値の順序は表現されない）ので、本発明は、順序情報のあるものを保持するように導関数の特徴（時間または周波数の１次または２次導関数）を含むことを提案する。

ある場合には、サンプルの一様ではない重みをつけて音声特徴を積分することは、有意義である。より最近の事象は、より以前の事象よりも、しばしば、行動により関連するので、音声特徴の減衰積分を使用することを提案する。減衰積分において、異なるサンプルの特徴値は加算されるが、活動は、また、時間とともに低下する。その結果、特徴応答は、初期には、（ほとんど線形に）増加し、より長いセグメントはより高い応答を生産する。ある時点で、特徴値が一定であると、活動は飽和する。特徴値が、時間にわたり変化すると、活動は、サンプルが過去になるほど低くなる重みによって、セグメント内のサンプルの重み付けられた平均である。このことは、セグメントの最後の部分の役割を強調する傾向がある。このアプローチは、たとえば、（音の大きさに関連した）信号エネルギの圧縮された表現を計算するときに有意義である。信号エネルギに対して、人間が聞く場合に、信号エネルギは、セグメント長とともに増加するが、約１秒後に飽和するということが明らかにされている。セグメントの最後の部分をより高く重み付けすることは、フレーズの終わり近くのピッチの変化は、そのフレーズが疑問か叙述かを判断する重要な手がかりであるので、ピッチの変化を解析するときに意味があるかもしれない。特徴ｆに対して、圧縮された特徴Ｐを計算するための減衰積分は、以下の式によって反復的に実施することができる。

望ましい、圧縮された特徴値は、Ｐ（ｔ＝ｔ_１）であり、ここでｔ_１はセグメントの終わりである。プロセスは、
Ｐ（ｔ＝ｔ_０）＝０
とともに開始され、セグメントの始まり（ｔ＝ｔ_０）にスタートする。パラメータαは、時間積分の時定数を規定する。

聴覚信号が聴覚プロト・オブジェクトに変換されると、これらの信号をさらに取り扱うことが簡単になる。例として、ロボットの頭の向きを音源に向ける。音源位置が、プロト・オブジェクトにおける抽出された特徴の一つであると仮定すると、音声プロト・オブジェクトは、行動またはモータ制御のための、音声データの適切な表現である。

ある状況においては、ロボットの向きを変える運動を所定のタイプの音声信号に限定するのが望ましい（たとえば、最小長さを備えた、スピーチまたは信号に応答するだけとするなど）。その後、音声プロト・オブジェクトの圧縮された特徴値は、しばしば、特定の信号が注意を向けるべきものであるかどうかを決定するのに必要な情報を提供する。ある場合には、（たとえば、長さ＞しきい値などの）単純なしきい値フィルタリングが、関連するＡＰＯを選択するのに十分であり、他の場合には、決定を行なうのに、プロト・オブジェクト特徴の全集合を解析する必要がある。

ＡＰＯは、圧縮された特徴表現を備えているので、多数のＡＰＯをメモリに保持することができる。したがって、音声プロト・オブジェクトは、音声シーン・メモリの自然な組み立てメモリである。音声プロト・オブジェクトの特徴（たとえば、タイミング）が共通の音源を示す場合に、シーン・メモリにおいて異なる音声プロト・オブジェクトを比較し、結合することも可能である。ＡＰＯのこのグループ化に基づいて、追加の音声特徴として機能する、これらの音声プロト・オブジェクトまたは音源の順序及びリズムを定めることができる。

画像において、心理学的なデータに基づいて、画像プロト・オブジェクトの同様な概念が最近提案された。セグメント化プロセス及び特徴は異なるが、画像及び音声プロト・オブジェクトの単純な統合を求める可能性も存在する。音発生対象の位置は、音声及び画像領域で同一である。したがって、プロト・オブジェクトの概念は使用しないが、二つの様式を結合することは、文献における通常のアプローチである。統合は、かなり低いレベル（両方の様式における未処理の位置の推定）で機能するので、所定の、音声及び画像信号対に対して、共通のソースが存在するかどうかが実質的な問題である。プロト・オブジェクトの概念は、この問題に対する解決策を提供する。画像及び音声特徴の間の関係を学習することが可能である。そして、これらの特徴が、プロト・オブジェクトの対に一致すれば、プロト・オブジェクトは、同じソースに割り当てられ、２個のプロト・オブジェクトの位置推定を統合することができる。

音声プロト・オブジェクトの概念に基づいて、音声特徴を測定し、それから画像プロト・オブジェクトの特徴を予測する（「この音を生成したであろう対象の検索」）ことも可能である。

音声プロト・オブジェクトの概念を使用して、セグメント化が正しいと仮定して、異なる音源を分離し、位置または平均ピッチなどの音源の特性を抽出し、その特徴にしたがって音に反応することが可能である。たとえば、音声プロト・オブジェクトの平均ピッチを解析し、それが正しい範囲にあれば、（やはり、音声プロト・オブジェクトに保管された）測定された位置に頭を向けることができる。

音声プロト・オブジェクト及び（同じソースから発生したらしい）同様なプロト・オブジェクトのグループのタイミングを見ると、タイミングのリズムが現れることがある。このリズムを計算すると、プロト・オブジェクトの次の出現を予測することができる。わずかに修正することにより、（たとえば、対話における）異なるソースからの連続したプロト・オブジェクトのタイミングを解析し、どの音声ソースが、つぎにそしていつ活動するか予測することができる。予測することにより、特徴の測定及びその後のグループ化プロセスを支援することができる。

これらの予測からの測定偏差は、シーンの変化を検出するのに使用することができる。たとえば、二人の人の間の対話が、三人の対話に拡大したときに、話し手のリズムが変化する。

Bregmanの音声ストリームの概念との差異
なお、全ての詳細情報を含む、完全に分離された音声信号を提供するように設計された音声ストリームとは異なり、本発明は、ロボットの応用、特に行動選択のために取り扱うことができるレベルへ、情報を濃縮することを提案する。音声プロト・オブジェクトはより小さく、固定サイズであり、異なる音声プロト・オブジェクトを直接比較することができる。音声プロト・オブジェクトを、シーン表現の基本エレメントとして使用し、画像のような他の様式との相互作用のために使用することを提案する。

まとめとして、ＡＰＯは圧縮された特徴値を使用し、ＡＰＯは、セグメントサイズから独立した固定サイズを備える。

画像プロト・オブジェクトの概念との差異
画像プロト・オブジェクトは、動作選択及びシーン表現のためのコンパクトな、中間表現を生成するという目的において同様である。しかし、セグメント化プロセス及び特徴は、全く異なる。画像プロト・オブジェクトのために提案された概念は、また、Bregmanの音声ストリームと同等の非常に低いレベルの表現を含む。

図７は、音声プロト・オブジェクトに基づく行動選択のためのシステム・グラフを図示する。（たとえば、マイクロフォンを使用した）音声獲得及び（たとえば、ＧＦＢを使用する）オプションの、一般的な前処理段階の後に、Ｎ個の音声特徴を計算する。１または複数の音声特徴を使用して、セグメント境界を提供するセグメント化プロセスが、適用される。

セグメント情報に基づいて、全ての音声特徴用の圧縮された表現が計算される。種々の方法を使用することができ、異なるきっかけに異なる方法を使用することもできる。基本的な要請は、圧縮された特徴が、セグメントに関して普遍のサイズを備えることである。圧縮された特徴値に加えて、追加のタイミング情報が計算される（セグメントの開始及び中止時間、または開始時間及び長さ）。先行する処理段階は、音声プロト・オブジェクトを規定する。つぎに、音声プロト・オブジェクトの特徴を、個々にまたは組み合わせて解析し、音声プロト・オブジェクトを通過させるかどうか決定する、多数のフィルタ・モジュールが適用される。フィルタ・モジュールの後に、同様な値を備えた異なるプロト・オブジェクトを一緒にグループ化することのできる、オプションの段階が存在する。最後に、行動選択が、残っている音声プロト・オブジェクトを評価し、対応する動作を実行する。

実施例
図８は、音声プロト・オブジェクトを使用した、選択的な音位置特定における信号処理フローを図示し、音源の位置に選択的に向けるための、音声プロト・オブジェクト・システムの適用の例を与える。

音声獲得の後、ガンマトーンフィルタバンクが適用される。結果として生じる信号は、信号エネルギ、ピッチ及び位置推定を計算するのに使用される。信号エネルギは、セグメント境界を定めるように選ばれた。ここでは、単純なアプローチが選ばれる。セグメントは、エネルギが特定のしきい値を超えたときに開始し、エネルギがそのしきい値より下に低下したときに終了する。

その後、セグメントの長さ（音声プロト・オブジェクトの開始及び終了時間の差）、ピッチ及び信号エネルギの算術平均、及び全ての位置の蓄積されたしるしが計算される。その結果は、音声プロト・オブジェクトであり、その例は、右下隅に描かれている。２個のフィルタリングモジュールは、長さ及び平均エネルギが規定されたしきい値を超える音声プロト・オブジェクトのみを通過させる。

オプションのステップで、同様の平均ピッチを備えた音声プロト・オブジェクトをグループ化し、その特徴値を平均化することができる。最後に、システム（たとえば、ロボット）は、最も高いしるしを伴う位置（本例では８０度）を検索し、（センサを備えた）その頭をこの位置に向けることによって、音源の位置の方向を向く。

図８において、音声プロト・オブジェクト・システムの特定の具体化を描いた。音声信号は、１または複数の（少なくとも音の位置特定のための）マイクロフォンを使用して記録される。その後、信号の周波数分解を実施するためにガンマトーンフィルタバンク（ＧＦＢ）が使用される。結果として生じる信号に基づいて、多数の処理モジュールが供給される。音の位置特定モジュールは、少なくとも２個のマイクロフォンからの信号を解析し、所定の位置に対して、しるしの値の形で、サンプルに関する位置推定を提供する（ここでは、９０度と-９０度の間の方位角の正面水平範囲が使用され、図５の下側のグラフに示すダイアグラムとなる）。また、ＧＦＢ信号に基づいて、信号のピッチが計算される。また、ＧＦＢまたは未処理のマイクロフォン信号に基づいて、サンプルに関する信号エネルギを計算する。

信号エネルギは、セグメント化の手がかりとして使用される。すなわち、セグメント化は、サンプル計算ごとのエネルギに基づいて実施される。セグメント（本例では時間スパンセグメント）は、予め定めたエネルギ開始しきい値
を超えたときに（時間ｔ_０で）開始し、停止しきい値
を下回ったときに（時間ｔ_１）で終了する。２個のしきい値は、同じに選ぶことができる点に留意すべきである。音声プロト・オブジェクトの長さ（時間期間）はセグメントの開始と停止との間の時間（またはサンプルの数）として計算することができる（Ｌ＝ｔ_１−ｔ_０）。

音声プロト・オブジェクトは、今開始され、特徴値は、セグメント全体にわたり平均化される。該セグメントの全てのサンプルにわたる、ＡＰＯの長さ、平均エネルギ及び平均ピッチが計算され、その後、セグメント全体の間の、全ての位置に対する位置のしるしが追加される。結果として生じる値は、音声プロト・オブジェクトに保管される。

その後、音声プロト・オブジェクトは、多数のフィルタリング段階で処理され、ここでプロト・オブジェクト値は解析され、正しい値（すなわち、プリセット基準のしきい値を超える値）を備えた音声プロト・オブジェクトだけが、次の処理段階へ通過する。特定の例として、十分に長く、かつ大きくない（すなわち、高エネルギではない）全ての音声プロト・オブジェクトが破棄される。多くの実世界のシナリオにおいて、このことは、たとえば、背景雑音やマウスクリックのような短い周囲音をフィルタによって除去するのに使用することができる。

残りの有効とされたプロト・オブジェクトは、この段階で、位置およびピッチにしたがって、異なる音源（たとえば、スピーカー）へ割り当てることができる。同様の位置およびピッチを供えた全ての音声プロト・オブジェクトが平均化されれば、システムは、異なる音源の位置および平均ピッチ（たとえば、異なる位置における男性及び女性のスピーカ）をよりよく推定することができる。最後に、システムは、たとえば、特定のピッチを備えたものを検索し、ロボットの運動を導くように統合された位置推定を使用することによって、メモリに保管された音声プロト・オブジェクトの一つの方向に向くことを決定することができる。

Claims

音声信号を感知する一つまたは複数のセンサと、
コヒーレントな信号エレメントの音声信号セグメントを計算するためのセグメント計算モジュールと、
各音声信号セグメントの一つまたは好ましくは複数の音声特徴の圧縮された表現を計算する、少なくとも一つの圧縮モジュールと、
関連する音声信号セグメントの、該圧縮された表現及び時間情報、特に、開始時間及び／または時間間隔を含むデータオブジェクトである、音声プロト・オブジェクトを保管する保管モジュールと、を含む音声信号処理システム。
前記音声プロト・オブジェクトは、前記音声プロト・オブジェクトによって表現されるセグメントの長さとは無関係に、全て、同じデータサイズを有するように設計された請求項１に記載の音声信号処理システム。
状況に応じて、同様の特徴を備えた音声プロト・オブジェクトを、グループ化し、保管するように設計された請求項１または２に記載の音声信号処理システム。
セグメント計算モジュールが、信号エネルギのような音声手がかり及び一様な音声特徴を備えたグループ化領域の少なくとも一つに基づいて、セグメント化を実施する、請求項１から３のいずれかに記載の音声信号処理システム。
音声プロト・オブジェクトの次の発生を予測するために、種々の音声セグメントの、開始、終了または重心位置が格納され、互いに関連付けられる請求項４に記載の音声信号処理システム。
セグメント計算モジュールが、感知された音声信号の時間領域またはスペクトル領域でセグメント化を実施する、請求項１から５のいずれかに記載の音声信号処理システム。
圧縮モジュールが、ピッチ、フォルマント、ステレオのまたはスペクトルの位置特定の手がかり、ＲＡＳＴＡ特徴、ＨＩＳＴ特徴、信号エネルギのうちの一つまたは複数を使用する、請求項１から６のいずれかに記載の音声信号処理システム。
圧縮モジュールが、好ましくは、算術平均値、ヒストグラム表現、神経系のポピュレーションコードと同様な、または、クラスタ中心における活性化の圧縮技術のうちの一つまたは複数を使用する、請求項１から７のいずれかに記載の音声信号処理システム。
圧縮モジュールが、標準の特徴値に加えて、１次、またはより高次の、時間またはスペクトル導関数値を使用する請求項８に記載の音声信号処理システム。
応答、すなわち蓄積された音声特徴が、時間にわたり増加し、セグメントより後のサンプルが、前のサンプルよりも、音声プロト・オブジェクトにおける圧縮された特徴により大きな影響を有するように、圧縮モジュールが、減衰積分によって、時間にわたり前記音声特徴の積分を実施するように設計された、請求項１から９のいずれかに記載の音声信号処理システム。
画像検知に基づいて生成された、画像プロト・オブジェクトが、音声プロト・オブジェクトと一緒に保管される、請求項１から１０のいずれかに記載の音声信号処理システム。
請求項１から１１のいずれかに記載の音声信号処理システムを有するロボットであって、保管された音声プロト・オブジェクトに基づいて、ロボットの行動を制御する計算ユニットを備えたロボット。
ロボットの行動は、音声プロト・オブジェクトの個々の特徴、またはそれらの組み合わせによって制御される、請求項１２に記載のロボット。
音声信号を感知し、デジタル的に記録するステップと、
記録された音声信号から、コヒーレントな信号エレメントの音声信号セグメントを計算するステップと、
各音声信号セグメントの音声特徴の圧縮された表現を計算するステップと、
関連する音声信号セグメントの、該圧縮された表現及び時間情報、すなわち、開始時間及び／または時間間隔を含むデータオブジェクトである、音声プロト・オブジェクトを保管するステップと、を含む音声信号処理方法。
コンピュータで実行されるときに、請求項１４に記載の音声信号処理方法を実行する、コンピュータ・ソフトウェア・プログラム。