JP5704598B2

JP5704598B2 - 動物−機械間音声相互作用システム

Info

Publication number: JP5704598B2
Application number: JP2010227888A
Authority: JP
Inventors: パシェフランソワ; ロイピエール
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-10-07
Filing date: 2010-10-07
Publication date: 2015-04-22
Anticipated expiration: 2030-10-07
Also published as: JP2011081383A; US8838260B2; US20110082574A1

Description

本発明は、単体または複数の動物と機械（通常、コンピュータシステム）との間に音声相互作用を形成するように構成される音声相互作用システムに関する。

動物は様々な音を生成する。この音には、鳥が鳴く、犬が吠えるといった発声の他に、動物が声帯以外の体の一部を使って鳴らす音や、何らかの活動（例えば、嘴でつつく、食事をする、穴を掘る等）に従事する際に生成される音が含まれる。

動物が生成する音の多くには意味があり、動物の行動、状況、精神状態および／またはアイデンティティ（性別、年齢、大きさや個々のアイデンティティ）と関わりがあることは、長年、動物行動学者、農家、動物園の飼育員、ペットの飼い主等に知られてきた。現在では、度重なる実験によって、動物の行動状況（状況／動機付け状態）および／またはアイデンティティと、動物が生成する音の測定可能な音特性との間に関係性があり得ることが分かっている。

また、実験から、鳥類、種々の哺乳類（霊長目、鹿、犬、象等）、無尾目、ならびに他の陸上動物および海洋動物による発声の音特性は、行動状況（交尾欲求、捕食動物（捕食者）の存在等）に応じて、かつ／または動物の大きさ、性別および年齢に応じて（後者の特性によって、動物の発声から動物を個別に識別することが可能になる）によって変化し得ることが分かっている。

例えば、行動状況の影響に関して述べれば、サセックス大学の哺乳類音声コミュニケーション研究センターの近年の研究によって、飼い猫が飼い主の気を引こうとする際または飼い主から餌をもらうとする際に、（人間の赤ん坊の泣き声に似た）高周波成分を内包した特殊なごろ鳴き声を発することができることが判明している。さらに、本発明者らは、７種の行動状況におけるコモンドール犬の鳴き声を分析した研究チームに属していたことがあり、機械をベースにして鳴き声の音分析を行うことによって、特定の鳴き声が発される行動状況をかなりの確率で特定することができることを発見している（非特許文献１を参照）。

上述した「意味のある発声」に加え、動物が日常生活において意図的にまたは偶然に生成する音は、動物の目下の行動や精神状態等を示すのに役立てることができるという点で興味深いものであり得る。

動物はまた、特に自身の行動の種類または強度を変えることによって、耳にした音に対する反応を示す。例えば、ペットとして飼われている動物が腹を空かしているときに飼い主が近付いてくる音を感知した場合、餌皿の傍に待機しに行くことがある。別の例では、ペットのまたは動物園の動物が脅えている場合に、その動物が馴れている人物の声が聞こえると、落ち着きを見せることがある。さらに別の例として、アザラシが、アザラシを襲う鯨が接近する音とアザラシを襲わない別の種が接近する音とを聞き分けて、それに応じた行動をとることがよく知られている。

Molnar他著「犬の鳴き声の分類：機械学習手法（Classification of dog barks: a machine learning approach）」（Animal Cognition, 11(3)）３８９〜４００頁、シュプリンガー−フェルラーク社、２００８年

いくつかの実験では、動物学者らが、単体または複数の動物に対して、合成した動物の鳴き声または録音した動物の鳴き声を再生し、当該動物がこの音に対してどのような反応を見せるかを観察したことがある。しかし、これらの実験は、音の生成や出力、および動物の音声応答の録音に機械を用いているに過ぎず、本質的には人の手による作業である。また、上記実験は、与えられた音が動物の行動に及ぼす一瞬の効果を研究しているため、「単発的な」作業と言える。さらに、上記実験では、動物が人の手によって与えられた刺激に反応することになっているため、動物側が先に刺激を与える相互作用が試験されることがない。

本発明者らは、単体または複数の動物によって生成される音（および任意選択で、動物の行動、状況、精神状態および／またはアイデンティティを表すことができる他のパラメータ）を監視および分析し、動物のさらなる音／行動等を誘起し得る音声応答を自動的に生成する動物−機械間音声相互作用システムを考案した。

特に、本発明によれば、請求項１に記載の動物−機械間音声相互作用システムが提供される。

さらに、本発明によれば、請求項９に記載の単体または複数の動物および機械間音声相互作用を制御する方法が提供される。

さらに、本発明によれば、請求項１５に記載のコンピュータプログラムが提供される。

本発明の好ましい実施形態では、動物−機械間音声相互作用システムは、音声センサと、任意選択で、動物の行動、状況、精神状態および／またはアイデンティティを表すのに役立つパラメータを検出する他のセンサとを具備する。動物−機械間音声相互作用システムは、センサの出力を監視し、特定の特徴を有する音を生成する動物に対応する個々の音イベントをセンサ信号ストリームから検出するために上記出力を分析する（平たく言えば、様々なセンサを用いて、例えば、或る特定の行動／活動に従事しているか、特定の精神状態にあるか、または特定の状況に置かれている動物に対応する「イベント」を検出する）。

本発明の好ましい実施形態では、動物−機械間音声相互作用システムは、予備訓練段階中に通常遭遇するイベントに対応する所定のカテゴリと、個々に検出されたイベント（例えば、音、行動、活動等）の特性とが一致するか否かを判定することによって、当該イベントを分類するようになっている。このような分類は、個々に検出された「イベント」に対応するセンサデータを、イベントを特徴付けている「特徴」セットを生成するために分析し、この特徴セットを、記憶されている特徴セットのデータ（これは例えば、訓練段階中に導出される）と比較することによって行われる。この場合、当該特徴セットのデータは、様々な動物の行動、精神状態、状況、活動等を特徴付ける「カテゴリ」を定義する。検出されたイベントの特徴セットが所定のカテゴリを特徴付けている特徴セットに類似している場合、上記検出イベントはこの所定のカテゴリに分類される。これは、動物が、上記カテゴリの特徴セットのデータが取得されたときに訓練段階中のものと同種の活動に従事していること（同種の発声を行っている等）、および／または音を検出した動物が、訓練段階中に音を分析した動物と同じ個体（または性別、年齢等）であることを意味する。

本発明の好ましい実施形態では、動物−機械間音声相互作用システムは、動物に送り返す音を自動的に選択する。係る選択は、１つまたは複数の検出イベントが分類されたカテゴリを考慮して行われる。

検出された動物の音（行動、イベント）に割り当てるカテゴリを確定し、様々な環境下においてどのような音声出力を生成するかを確定するのに、動物−機械間音声相互作用システムの用途に応じて様々な制御プロトコルを用いてもよい。

制御プロトコルは、所与のイベントに応答する音出力が（所定のマッピング機能に応じて）イベントに割り当てられたカテゴリに直に依存する単純な「応答」モードを確定してもよい。より複雑な「応答タイプ」制御プロトコルは、過去に検出されたことがある特定数のイベントに割り当てられたカテゴリシーケンスに応じて出力音を選択してもよい。

いくつかの制御プロトコルは、動物−機械間音声相互作用システムの多様な動作状態または「モード」を含む固有のシナリオを確定する。例えば、カナリアの鳴き声の出し方を研究するために本発明を適用する用途では、動物−機械間音声相互作用システムが、カナリアがまばらに音を生成している限り、（録音したカナリアの鳴き声のデータベースから音を４秒に一回のペースでランダムに選択して再生する）「トリガ」モードで動作し、これに続いて、一対一の相互作用が確立される「ダイアログ」モードで動作する（当該モードは動物−機械間音声相互作用システムが、所定の時間または所定の条件を満たすまで、例えば、カナリアの鳴き声が発する周波数が特定値まで減少するまで維持される）、制御プロトコルを用いた。

所与の制御プロトコルを実施するに当たって、通常、何が適切な出力であるのかを判定するために１つまたは複数の入力（特に、分析モジュールがイベントに割り当てるカテゴリ）が分析される。通常、目下のイベントに割り当てられるカテゴリは、動物−機械間音声相互作用システムの音声出力に或る程度の影響を及ぼす。入力の分析には、任意の所望の技術（例えば、確率オートマトン、マルコフ技術等）を用いて実施することができる状態機械を使用してもよい。出力選択は、任意の適切な技術を用いて達成することができる。単純なケースでは、ルックアップテーブルを用いるのが妥当であり、複雑なケースになると、シーケンス発生器（現行のセッションにおける相互作用の一部または全ての履歴を考慮するシーケンス発生器とすることができる）を用いることが適する場合がある。

動物−機械間音声相互作用システムの動作中、動物（複数可）と動物−機械間音声相互作用システムとの間に閉ループ音声相互作用が確立される。動物−機械間音声相互作用システムの制御プロトコルを適宜選択することで、この相互作用を様々な目的に合わせて用いることが可能である。

とりわけ、本発明による動物−機械間音声相互作用システムには多くの用途がある。例えば、本発明は、動物の行動を調査するための科学的ツールとして動物行動学者によって用いられてもよいし、或る種の動物娯楽システム（例えば、動物との「会話」を楽しむシステム）として本発明を実施してもよいし、また、動物の行動を制御する（例えば、不安感を抱いている動物の気を落ち着かせたり、動物を特定の場所に移動させたりする）ためのシステムとして本発明を実施してもよい。これ以外にも、多くの用途が可能である。

本発明による動物−機械間音声相互作用システムは自動化されたシステムである。設定が完了すると、実質的に人間が介入しない限り動作し続けることができることから、当該動物−機械間音声相互作用システムは、閉ループの自動的な音声ベース相互作用システムと言える。

さらに、本発明による動物−機械間音声相互作用システムは、動物（または動物群）と機械との間に、単発的な刺激・応答ではなく、むしろ会話と言えるほどに継続した相互作用を成立させることができる。

さらに、本発明による動物−機械間音声相互作用システムは、実験者側からではなく、音、行動または動作によって動物側から引き起こされる相互作用を行うことができる。したがって、これまでにない新しい機能性を有するシステムを提供することができる。さらに、動物の行動調査に関する用途にとっても、相互作用を実験者ではなく動物が引き起こすことが可能になることで、これまで体系的な調査が不可能であった動物の行動についての特徴を解明することができる。

本発明のさらなる特徴および利点は、以下で添付の図面に関して限定ではなく例示としてなされる、現時点で好ましいと考えられる実施形態の説明から明らかになるであろう。

本発明の一実施形態による動物−機械間音声相互作用システムの一実施形態に用いられる主要なデバイスを概略的に示す図である。図１の実施形態による動物−機械間音声相互作用システムで用いることができる処理モジュールの一例を示すブロック図である。本発明の一実施形態において「イベント」を検出するためにセンサ出力信号がどのようにセグメント化され得るのかを表した図である。本発明による動物−機械間音声相互作用システムの物理的な実施態様例を示す図である。

上述したように、本発明者らは、動物から発せられる音（および任意選択で、他のパラメータ）を感知し、音声応答を生成することによって、動物に対する相互作用を行う自動システムを開発した。係る音声応答の生成は、制御プロトコルと、動物が発する音（および任意選択で、他のキュー）の自動分類とに基づいて、動物に対して出力する応答音の選択を確定することによって行われる。

本発明の一実施形態による動物−機械音声相互作用システムの主な構成要素を図１に概略的に示す。図１から分かるように、本実施形態の動物−機械音声相互作用システム１は、１つまたは複数のセンサ３から成るセットと、コンピュータシステム５と、音出力デバイス７とを具備する。１つまたは複数のセンサ３には、単体または複数の動物Ａから発せられる音（または他のパラメータ）を検出するように構成される音声センサ３Ａが含まれる。上記コンピュータシステム５は、センサ３のセットの出力信号を受信して処理し、所定の制御プロトコルに基づいて音声応答を生成するように構成される。上記音出力デバイス７は、動物Ａ（複数可）に対して選択された音声応答を再生するためのものである。

上述したように、センサ３のセットには少なくとも音声センサ３Ａが含まれる。上記音声センサ３Ａは、動物の環境に適しており（例えば、マイクロフォン、ハイドロフォン）、かつ動物から発せられる音の期待される特性（例えば、ピッチ）に適している限り、任意の種類の音響変換機とすることができる。センサ３のセットには、動物−機械音声相互作用システムの用途に応じて、他の種類のセンサを含めてもよい。「他のセンサ」には、スチルカメラまたはビデオカメラ（例えば、シーン分析／動作検出技術を利用して動物の行動に関する情報を提供する）、生理学センサ（例えば、フェロモンセンサ、動物の脈、血圧、体温等を測定するセンサ、脳の活動を監視する、脳波（ＥＥＧ）を生成するデバイスまたは機能性ＭＲＩスキャン等のセンサ等）、移動センサ（例えば、無線で移動を検出するマイクロ波デバイスおよび受動型赤外線素子、動物が作動させることができるハムスタホイール等のデバイスに結合されるセンサ、動物に装着されるかまたは動物の体内に移植されるチップやＲＦＩＤタグを監視するセンサ等）、活動モニタ（例えば、動物に携帯させて歩数を測定する加速度計）、および食事や水の摂取を監視するセンサ等が含まれ得る。また、係るセンサには、将来開発される新しいタイプのセンサも含まれる。

用途によっては、センサには、光レベル、周囲温度、汚染や所与のガス（例えば、二酸化炭素）の濃度等を測定するデバイスが含まれていてもよい。係る環境センサからのデータは、他のセンサ（複数可）から送られてくるデータを解釈するのに役立ち、これによって、動物の目下の行動に関してより正確な算出がなされる。さらに、動物−機械間音声相互作用システムは、イベント検出時の環境の１つまたは複数の特性に応じて様々な出力音を選択する（あるいは音生成を防止する）制御プロトコルを用いるように構成してもよい（例えば、夜（検出される光レベルが低い）か、昼（検出される光レベルが高い）かに応じて所与のカテゴリのイベントに応答して様々な音を出力してもよい）。

通常は、センサ３を連続動作するように設定し、対象動物の鳴き声または行動を逃すことがないように動物の行動を絶えず監視させる。しかし、本発明は上記構成に限定されない。例えば、センサは、実際に関心行動を逃すことがないように十分に短く選択された測定間隔で測定を行うように構成されてもよい。別の変形例では、第１のセンサが連続的に（または選択された測定周波数で）動作している間は他のセンサ（複数可）はスタンバイモードに置かれ、第１のセンサからの出力信号が何か興味深いことが起こっている（例えば、動物が動き始めた、動物が新たな音を発し始めた等）ことを示したときに、スタンバイモードであった他のセンサが活動監視モードに切り替わるようにする。さらに別の変形例では、動物−機械間音声相互作用システムが何か興味深いことが起こり始めたと判定した場合に、センサの測定周波数が増加されるようにする。

同様に、本発明は、音出力デバイス７の性質に関して特に限定はない。動物がいる環境に適しており（例えば、ラウドスピーカ、圧電変換機等の水中音響変換機等）、かつ出力音の所望の特性（例えば、ピッチ）に適していれば、任意の好都合な音出力デバイスを用いることが可能である。

また、コンピュータシステム５および音出力デバイス７間も、センサ３およびコンピュータシステム５間も接続に関する自由度は高い。図１では有線接続になっているが、本発明はこれに限定されず、無線接続を利用してもよい。この場合、接続は中間デバイス（例えば、増幅器、データロギングデバイス）等を介して達成される。

図１の動物−機械間音声相互作用システムに関する信号処理は、特定の態様でプログラミングされている処理モジュール１０（図２を参照）を含む汎用コンピュータシステム５を用いて行われる。しかし、本発明はこの構成に限定されない。例えば、一変形例では、特定用途向けのハードウェアおよびソフトウェアの組合せを用いて必要な信号処理を実行する。

図２は、図１の動物−機械間音声相互作用システムで用いられる処理モジュール１０を実施するために用いることができる処理コンポーネントの組合せの一例を示すブロック図である。なお、実際には、図２の処理モジュール１０は通常はソフトウェアとして実装され、同図の種々のコンポーネントは、当該処理モジュール１０によって実行される様々な機能を理解し易くするためだけに識別されている。さらに、図２に示す種々のコンポーネント間の機能の分配は変更可能であり、かつ／または上記機能は、図１に示されているものよりも少ないかまたは多い要素を用いて実行することができる。

図２に示されるように、処理モジュール１０（図１のコンピュータシステム５に含まれる汎用プロセッサとしてもよい）は、センサ３のセットが出力する信号を受信する前処理部１１を有するようにプログラミングまたは構成されている。また、処理モジュール１０は、センサ出力信号のタイプ毎に必要な任意の前処理を実行するように構成されてもいる。前処理部１１は、前処理済みのセンサ信号を識別器１２に供給するように構成されている。識別器１２は、上記信号にさらなる処理を加え、個別化して個別のサンプル（すなわち、意味のある個別「イベント」であり、これは、動物の吠え声、さえずり、もしくは鳴き声、または、広い意味で、特定の行動であり得る）として見なすことができる意味のある部分を識別するように構成される。用途に応じて、前処理部１１を省くか、または前処理部１１を識別器１２に統合するのが適切である場合もある。

図２に示されるように、識別器１２は、センサから送られた個別のイベントに関するデータを特徴抽出器１４に出力するように構成されている。特徴抽出器１４は、検出された「イベント」を表す１つまたは複数の特徴から成るセットを確定するために、識別器１２から受信したセンサデータを処理するように構成されている。特徴抽出器１４は、この特徴セットを確定するデータを分類モジュール１６に出力する。分類モジュール１６は、検出されたイベントを、特徴抽出器１４から受信した特徴データに基づいて複数の所定のカテゴリのうちの１つに分類する。カテゴリ定義は、通常、処理モジュール１０の内部のメモリ１７に記憶される。分類モジュール１６は、検出されたイベントに割り当てられたカテゴリを定義するデータを音選択器１８に出力するように構成されている。音選択器１８は、所定の応答プロトコルに基づいて、監視下にある動物（複数可）に対して再生する音を選択するように構成されている。通常、利用可能な音を確定するデータは、処理モジュール１０の内部のメモリ１９に記憶される。通常、１つまたは複数の応答プロトコルを定義するデータは、処理モジュール１０の内部のメモリ２３に記憶される。処理モジュール１０は、音選別器１８がどの応答プロトコルを用いるかをユーザが所与の時間に制御することを可能にするように構成されてもよい（これは、図２に破線矢印Ｕによって示されている）。同様に、処理モジュール１０は、例えば既存のプロトコルを修正することによって、または新規の制御プロトコルを追加することによって、制御プロトコルの更新をユーザに可能にするように構成されてもよい。

上記カテゴリ定義および音データを記憶するために、共有メモリ２１が用いられてもよい。応答プロトコル（複数可）も、上記共有メモリ２１に記憶することができる。別の代替形態として、応答プロトコル（複数可）を音選択器１８に統合してもよい。カテゴリ定義、音データおよび応答プロトコルは、図２に示されるような処理モジュール１０の内部の記憶デバイスに保持するのが好都合である。しかし、本発明はこの構成に限定されない。本発明のいくつかの実施形態は、処理モジュール１０の外部の場所から（例えば、処理モジュール１０の外部の記録媒体または記憶デバイスから、または、ネットワークを介して遠隔地から等）、上述のカテゴリ定義、音データおよび応答プロトコルのうちの１つまたは複数にアクセスしてもよい。

図２に示されるように、音選択器１８は、監視している動物（複数可）Ａに対して選択された音を再生するように音出力デバイス７を制御し、音制御データを図１の音出力デバイス７に出力するように構成されている。任意選択で、音選択器１８は、検出されたイベントに割り当てられたカテゴリと、当該カテゴリに応じて出力された音とをメモリ２５に記録させるように構成されていてもよい。メモリ２５には、動物−機械間音声相互作用システムの動作履歴に関する他の情報、例えば、システム−動物（または動物群）間の任意の持続的な相互作用のログ詳細が記録されてもよい。上記ログ詳細は、例えば、所与の持続的な相互作用における検出されたイベントおよび出力応答音の数、持続的な相互作用中に用いた応答プロトコルの性質等を含む。

通常、処理モジュール１０は、監視下にある動物の種（複数可）に応じてプログラミングされる（詳細には、識別器１２、特徴抽出器１４、分類モジュール１６および出力音は、監視下にある動物の種に応じた、また、場合によっては、監視下にある特定の種の個体（複数可）に応じた適合を必要とする傾向にある）。しかし、同種のセンサデバイスおよび音出力デバイスが、多様な種の動物に使用可能である場合が多い。

次に、図２に示されている特定のモジュールによって実行される機能に関して詳述する。

［識別器］
識別器１２の性質および動作は、用途に応じて、とりわけ、センサ３の数および性質に応じて様々に変更することができる。

センサ３として音声センサ３Ａが１つしかない単純なケースでは、音声センサ３Ａによって生成される出力信号ストリーム内で個々の音に対応していると見なされ得るセグメントを識別するために、識別器は既知の技術（例えば、音声認識等の分野において既知である技術）を利用することができる。適した分割技術の一例として、測定される音信号の短期間スペクトラムのエネルギー変化（すなわち、最大値および最小値）がある。しかし、本発明はこの特定の技術を使用することに限定されない。当業者であれば、他の音分割技術、例えば、オンセット検出技術、相関技術、隠れマルコフモデルベースの技術等を用いてもよいことを理解するであろう。

監視下にある動物（複数可）と同じ種の動物に対して意味のある音のみを返すことが望まれている場合、識別器１２による分析の前に、当該種の動物の耳の周波数分解能および周波数応答を模倣するように構成されているフィルタバンクを用いて、測定される音信号を前処理することが有利であり得る。このようなフィルタバンクは、図２に示されている前処理部１１に統合することができる。

通常のケースでは、識別器１２は、入力として、２つ以上の信号ストリームから成るセットを受信し、監視中の動物（複数可）が特定の種類の行動を展開している等、センサ信号のセットが意味のある「イベント」が発生していると示している時間間隔を算出する。この場合識別器１２によって処理される信号ストリームはそれぞれ別個のチャネルを構成していることが想定されている。

この通常のケースは、典型的には、センサ３のセットが、音声センサ３Ａに加えて他のタイプのセンサを有する場合に起こる。しかし、これは、複数の音声センサ３Ａを、監視対象の動物（複数可）がいる区域の周囲に配置して用い、関連する音を漏れなく捉えられるようにする場合にも当てはまる。このような場合、識別器１２は、各音声センサからの出力信号を別個のチャネルとして処理するように構成され得るが、他の構成も可能である。例えば、識別器１２は、音声センサによって受信される音声信号のうち、最も強い信号のみを処理するように構成されてもよい。大まかに述べれば、所与のタイプの関心データを漏れなく捉えられるように所与のタイプの複数のセンサが検出領域の周囲に配置される場合、識別器１２は、上記センサの各々からのデータを別個のチャネルとして処理し、最も強い出力のみを処理し、同種のセンサからの出力の平均をとってもよい。

図３は、識別器１２によって実行される機能の特性を示す図である。なお、図３では、３つのセンサが動物−機械間音声相互作用システムに信号ストリームを供給し（すなわち、３つのチャネルが存在し）、識別器１２は、全てのチャネルの信号に基づいてイベントを検出するように構成されている。図３Ａは、３つのセンサ（センサａ、センサｂおよびセンサｃとする）からの信号が特定の期間にわたってどのように変化し得るのかを示している。本例では、センサａの信号は、時折ふり幅を見せることを除けば比較的不活発な期間を有し、センサｂの信号は、高出力と低出力との波を比較的ゆっくりと繰り返すように変化し、センサｃの信号は、略ランダムに変化をみせていることが分かる。

識別器１２は、関心イベントが発生している可能性のある期間をセンサ信号ストリームから識別するように動作する。図３Ｂは、図３Ａに示されているセンサ信号ストリームのセグメント化の一例を示す。図３Ｂから分かるように、識別器１２は３つの「イベント」を識別している。つまり、時間ｔ１から時間ｔ２の間にイベント１、時間ｔ３から時間ｔ４の間にイベント２、時間ｔ５から時間ｔ６の間にイベント３が起こっている。本例では、識別された「イベント」は、センサａの信号に活発な波が生じているとともにセンサｂの信号が比較的低いレベルにある時間期間に対応している。

２つ以上のセンサ信号ストリームから成るセットにおいて「イベント」を識別するのにさまざまな技法を用いることができる。１つの手法として、特に欧州特許出願公開第１９１６８２８号に記載されているように、異なるセンサの信号間の座標角度を測定するものがある。しかし、他の技術を用いてもよい。例えば、識別器１２は、チャネル（チャネルセット）のうちの所定の１つのチャネル上の信号に見られる変化に完全にまたは主に基づいてセグメント化を行うように構成されてもよい。実際、多くの用途において、セグメント化は専ら（または主として）音声センサ（複数可）からの入力に基づく。別の例として、チャネル毎にセグメント化を行うように識別器１２を構成し、その後、「イベント」を種々の方法で識別し、その中のうちの１つを異なるチャネルについて識別された「イベント」のタイミングと比較するようにしてもよい。これは、例えば、全てのチャネル（またはチャネルのサブセット）が「イベント」を含んでいると見なされた場合に１つの期間セット（期間群）を測定するため、または高い信頼度でイベントが識別されるチャネルを特定するため等に行われる。

識別器１２がセンサ信号中に「イベント」を識別すると、識別器１２は、当該イベントに対応するセンサ信号（複数可）の関連部分を識別するデータを特徴抽出器１４に供給する。

通常、識別器１２は、識別されたイベントに対応する実際のセンサ信号データを特徴抽出器１４に送る。例えば、図３Ｂに示されるケースでは、イベント１に関して、識別器１２は、センサａ、センサｂおよびセンサｃからの信号の、時間１から時間ｔ２までの部分を特徴抽出器１４に送ることができる。これは、図３Ｃに示す関連のアナログ信号セグメントを特徴抽出器１４に並列に（または直列に）転送することによって、または例えば図３Ｄに示されるようなデジタルデータのブロック形態で信号−セグメントデータを特徴抽出器１４に転送することによって達成することができる。

（任意選択で前処理された）センサ信号が識別器１２および特徴抽出器１４の両方に直接供給される構成では、識別器１２は、センサ信号セグメントそのものを転送せずに、センサ出力信号のどの部分が所与のイベントに対応しているかを特徴抽出器１４に通知するだけでよい。

識別器１２は、時間間隔Ｔにわたってセンサ信号データを収集し、時間間隔Ｔの終わりに収集したセンサ信号データを分析して時間間隔Ｔ内に発生した任意の「イベント」を検出するように構成することができる。

代替的には、本発明のいくつかの実施形態では、識別器１２は、センサ信号がイベントの始まりを示す瞬間を感知するように、到来するセンサ信号ストリームを連続して監視するように構成される。このような実施形態では、識別器１２がセンサ信号のセットがイベントの開始と一致していると判断すると、識別器１２は、イベントの終了を検出することに加えて、センサ信号データを記録すること、およびイベントが発生しているか否かを確認するためにセンサ信号データを分析することを開始する。係る実施形態は、記憶する必要があるデータの量を削減するとともに、イベントの発生とイベントの検出との間の遅延を減らすことができるため、好都合である。

［特徴抽出器］
便宜上、所与のイベントに対応するセンサ信号セグメントセットを「イベントデータ」として割り当てる。特徴抽出器１４は、識別器１２によって識別された所与のイベントに対応する前処理済のセンサ出力信号の「特徴」、すなわち、記述子のセットを生成するように構成される。一般的には、「特徴」は、属性および属性に対応する値から成る。例えば、イベントに対応する音声信号セグメントの平均ピッチを確定する特徴は、属性＜平均ピッチ＞および値データ＜２８．４ｋＨｚ＞から成り得る。「値」は数である場合が多いが、これは必須ではない。例えば、可能性リストの中から選択されるアイテムとしてもよく、または関連する属性が当該イベントに関して真であるかまたは偽であるかを示すブール変数としてもよい。

通常、異なるチャネル（センサ出力）毎に特徴が生成されるが、本発明は、（異なる種類のセンサを含む）２つ以上のセンサの出力信号と合わせた処理によって複合特徴が導出される場合も網羅する。

音声センサ出力の場合、セグメント（「イベント」）に対して算出され得る典型的な特徴は以下を含む：
−音信号波形の「継続」部分中に評価される音声セグメントのピッチ（フーリエ変換において最も顕著なピークを算出することによって導出される）、
−音声セグメントのエネルギー、
−セグメントの「雑音性（noisiness）」（例えば、スペクトルの平坦さから見出される）、
−「衝撃度（percussivity）」（例えば、波形の衝撃部（attack portion）のエネルギーを分析することによって見出される）、
−音の「音要素」（例えば、ＭＦＣＣ（Mel Frequency Cepstrum Coefficients）によってモデリングされる）、
−音声セグメントの周波数帯域、
−音声セグメントの持続時間、
−ゼロ交差数（ＺＣＲ：zero crossing rate）等。

代替的に（または付加的に）、特徴または「音響記述子（acoustic descriptors）」は、Ｍｐｅｇ−７規格において定義される低レベルな特徴の組合せとすることができる（これは音声分類用途において既知である）。

ビデオカメラ出力の場合、セグメントに対して算出され得る典型的な特徴は、ヒストグラム情報（いわゆる「画像モーメント」、相関、テクスチャ等）を含む。

通常一次元的である生理学センサからの出力の場合、抽出され得る典型的な特徴は、イベント期間中に測定される属性の統計パラメータを含む（例えば、平均、分散、尖度等）。

動きセンサからの出力の場合、抽出され得る典型的な特徴は、ビデオカメラデータと同じ傾向にある。

通常、特徴抽出器１４は、所定のセットから取り出される特徴、特に、予備訓練段階中にイベント「カテゴリ」を定義するのに用いられた特徴を用いて各イベントを表すように構成される。特徴抽出器１４が所与のイベントを表す特徴のセットを算出すると、特徴抽出器１４は、特徴データを分類モジュール１６に供給する。このようにして、分類モジュール１６が、目下のイベントが既知カテゴリのうちの１つに該当するかを評価することができる。

音声相互作用システム１の使用中に実行される特徴抽出および分類機能の態様は、訓練段階中に実行される動作についての以下の説明からより明らかになるであろう（訓練段階は、使用段階中に検出されたイベントに割り当てられ得るカテゴリを確立するために動物−機械間音声相互作用システムの使用前に実施されるものである）。

本発明を具現化する音声相互作用システムを設計する際に、分類モデル、すなわち、動物−機械間音声相互作用システムが後続の動作中に検出することになるイベントに割り当てられ得る１セットのカテゴリ定義を作成する必要がある。分類モデルは、異なるカテゴリを特徴付ける特徴を定義する明示的なデータから成っていてもよいし、または、訓練された分類モジュール１６の構造に潜在していてもよい（例えば、判別ツリーまたは訓練したニューラルネットワーク）。通常、カテゴリは、動物−機械間音声相互作用システムに意図される用途に応じて、特に監視対象の種の動物および当該種の動物が見せ得る行動の種類に応じて決まる。動物の種は、センサ信号をセグメント化する際に用いられるのに最適な技術の決定にも影響を及ぼし得る。

訓練段階中は、音声相互作用システム１のセンサ３のセットと同様のセンサのセットを用いて単体または複数の動物から成るセットを監視する。これは、実際に後に用いる音声相互作用システム１に含まれるセンサセットであってもよい。また、より典型的には、音声相互作用システム１のセンサ３のセットに適合する、異なる物理センサセットである。

訓練段階中、センサ信号データの収集と並行して観察が行われ、監視動物（複数可）が異なる時間に見せる行動を特定する。したがって、例えば、観察者（または信頼性を上げる場合、観察チーム）が、訓練期間内のｔｉ〜ｔｊ、ｔｋ〜ｔｌおよびｔｍ〜ｔｎの時間期間中に、監視中に動物が（恐れを示す）第１のタイプの鳴き声を発していること、ｔｐ〜ｔｑおよびｔｒ〜ｔｓの時間期間中に鈴を鳴らしていること、ならびにｔｔ〜ｔｕ、ｔｖ〜ｔｗ、およびｔｘ〜ｔｙの時間期間中に（安堵を示す）第２のタイプの鳴き声を発していることを判定することができる。実際、観察者は、訓練段階中に観察した動物の行動を、観察者にとって意味のある、音声相互作用システム１が使用中に認識することができると期待されている様々なカテゴリに分類する。上記例では、ユーザが特定した情報は、異なる３つのカテゴリの８つの「イベント」が訓練段階中に発生したことを示している。

測定されたセンサ信号は、訓練段階中に発生したイベントのタイミングおよびカテゴリに関してユーザが特定した情報に関連して処理され、これによって、音声相互作用システムの使用中に用途に適した分類モデルが作成される。分類モデルを作成するために行われる処理は、使用段階中に用いられる音声相互作用システム１の処理モジュール１０の構成要素を用いて実施してもよい。しかし、分類モジュール１６は、他の処理装置を用いて分類モデルを作成してもよく、分類モデルが作成された後には、その詳細、つまり、特徴セットおよびカテゴリは、使用段階中に用いられる音声相互作用システム１の処理モジュール１０に供給される。

多種多用な機械学習技術を用いて、測定されたセンサ信号ならびにユーザによって供給されたカテゴリおよびタイミング情報から分類モデルを作成してもよい。当業者であれば、測定されるセンサ信号および関連するユーザが特定したカテゴリが、教師あり学習プロセスにおいて１つまたは複数の分類モジュール１６を訓練するのに用いられる訓練データとしての役割を果たすことを容易に理解するであろう。訓練プロセスは、異なる（既知の）カテゴリのイベントに関するセンサ信号の特徴の直接的なまたは間接的な分析を含み、これによって、１つのカテゴリのインスタンスを他のカテゴリのインスタンスと区別するのに役立つ特徴を特定する。

訓練段階において分類モジュール１６を訓練するのにあらゆる好都合な教師有り学習記述を用いることができる。教師有り学習技術は既知であり、イルカの発声を分類するための分類モジュール１６を訓練するのに用いられている（Kremliovsky他著、「動的分類法を用いたイルカのエコーロケーションの音響データの特徴付け」（in Int. J. Bifurcat Chaos, 8）８１３〜８３２頁（１９９８年）を参照）。したがって、当該技術についてここでは詳述しないが、本発明に包含されるいくつかの変形形態を明示するための説明を行う。

機械学習プロセスは、イベント毎に、所定の属性セットの値（例えば、イベントを確定する音センサ信号の高周波の数、周波数帯域、振幅、持続時間、ゼロ交差数等の値）を評価することを含み得る。この後、様々なイベントに対する結果として得られた特徴セットが処理され、これによって、上記特徴の（または上記特徴の組合せ）のうちのいずれが、様々なカテゴリを他のカテゴリと区別するのに最も役に立つかが判断される。何れの特徴が、様々なカテゴリを他のカテゴリと区別するのに最も役に立つかを判断するために、後者の処理は、任意の好都合な手法を実施することができる。限定しないが、当該手法には、判別因子分析（discriminant factorial analysis）（ＤＦＡ）および主成分分析（ＰＣＡ）が含まれる。

代替的に、機械学習プロセスは、それ自体で、様々なカテゴリのインスタンス同士を区別する特徴を生成するように定量化されるセンサ信号の属性を自動的に特定してもよい。換言すると、機械学習アルゴリズムが特徴生成コンポーネントを有していてもよい。

動物の音の分類に関して特徴を生成するための好都合な一手法として、ＥＤＳ音声信号処理システムを使用することができる（上述の非特許文献１に記載されているように、犬の鳴き声が７つのカテゴリのうちの１つに分類される）。より詳細には、音声信号の波形表示に対して実行される一定の基本的な数学演算に対応する特徴を生成し、基本的な演算子を組み合わせることで進化の過程でより複雑な記述子を作成させる、ＥＤＳ音声信号処理システムを用いることができる。学習段階中、上記ＥＤＳ音声処理システムは、既に分類されている訓練インスタンスのセットに関する記述子を生成するのに用いることができる。次いで、生成した記述子（特徴）またはその組合せのいずれが、最も良好に訓練インスタンスが正確に分類されることを可能にするかを判定するために（例えば、ＰＣＡ、ＤＦＡ等によって）分析が行われる。

訓練段階は、訓練された分類モジュール１６（例えば、判別ツリー、訓練されたニューラルネットワーク、特徴セットおよびカテゴリの明示的なリスト等）を生成する。これは、音声相互作用システム１の処理モジュールで（例えば、図２に示されている分類モジュール１６およびカテゴリ定義１７の適切な処理によって）複製することができる。

多くの場合、本発明による音声相互作用システムは、当該用途において意味がないかまたは関心外である種類のイベントを識別することができるように構成される。例えば、センサとして１つの音声センサ３Ａしか有しない相互作用システム１の場合、検出され得る音の一部は、特定の用途において対象となっていない動物の行動に対応していることがある。監視中の動物によってなされる発声に対応するように設計される音声相互作用システム１の場合を考慮すると、動物−機械間音声相互作用システムは、発声に該当しない音（例えば、動物が穴を掘ったり、動き回ったりするとき等に生成される音）が検出されてもこれに応答しないことが望ましい。したがって、分類モデルによって当該用途における関心イベントと関心外イベントとを区別することができれば有益である。これは、種々の方法で達成することができる。

訓練段階中、分類モジュール１６は、特定のカテゴリ（またはカテゴリセット）を、意図した将来的な用途において「関心外」であるイベントインスタンスに割り当てる目的を持って訓練することができる。音声相互作用システム１の音選択器１８に応答プロトコルを供給する。この応答プロトコルは、「関心外」のイベントに対応するカテゴリにおいて検出されるイベントの場合には音を出力すべきではないことを示す。

所与の用途で音声相互作用システム１を使用しているときに、或る一定のタイプのイベントが関心外であることが初めから分かっている場合、全ての上記タイプのイベントのインスタンスを同じカテゴリに割り当てるように訓練段階中に分類モジュール１６を訓練してもよい。すなわち、分類モジュール１６によって、異なるタイプの「関心外」のイベントを区別することができなくてもよい。

しかし、動物−機械間音声相互作用システムからの音声出力をトリガするタイプのイベントに対してユーザに何らかの制御をさせることが望まれる用途があるかもしれない。換言すると、用途によっては、どのイベントが「関心外」であるかを動的に定義することが望まれる。

例えば、オウムによって生成される音を調査するためのツールとして設計された相互作用システム１の場合、ユーザは、第１の時間期間中には動物−機械間音声相互作用システムがオウムによって生成されるスピーチタイプの音のみに応答することを望み、第２の時間期間中には動物−機械間音声相互作用システムがオウムによって生成されるスピーチタイプの音ではなく、「ビートボックスタイプ」の音のみに応答することを望むかもしれない。この機能は、ユーザが１つまたは複数の特定のイベントカテゴリを「関心外」（すなわち、出力音を選択および生成すべきではないカテゴリ）として指定し、かつ自由にこの指定を変更することを可能にするユーザインタフェース（図示せず）を、相互作用システム１に設けることによって達成される。

後者のタイプの用途では、異なるタイプのイベントを区別して、「関心外」として指定することができるように（例えば、オウムが生成する「スピーチタイプ」音と「ビートボックスタイプ」音とを区別することができるように）、訓練段階中に分類モジュール１６を訓練した方がよい。したがって、訓練段階では、分類モジュール１６を、異なるカテゴリを上記異なるタイプのイベントに割り当てるように訓練すべきである。

訓練段階は、センサ信号ストリーム内において「イベント」を識別するのにいずれのセグメント化技術を用いるべきかを判定することにも用いてもよい。これは、訓練段階中に発生した「イベント」によってユーザが確定したタイミングと、訓練段階中に測定されるセンサ信号に作用する識別器によって算出されるタイミングとを比較することによって行うことができる。多種多様な自動セグメント化技術を、訓練段階中に測定されるセンサ信号に適用することができ、上記自動セグメント化技術のうちのいずれが、ユーザによって割り当てられたものに最もマッチするタイミングを生成するかについて（自動的にまたはユーザの手によって）判定を下すことができる。識別器１２は、訓練段階後の動作段階において最良のマッチングをもたらすセグメント化技術を利用するように構成することができる。

［出力音選択器］
本発明は、音声相互作用システム１によって出力することができる音の種類に関して特に限定はない。一般的には、音選択器１８による選択に利用可能な出力音は、音声相互作用システム１の用途に応じて決まる。

したがって、例えば、単体または複数の動物との持続的な相互作用を確立することが望まれている用途では、出力音は、監視下にある種類の動物によって生成された音に似ていることが有利である。したがって、音選択器は、監視下にある種類の動物によって生成された音と同じ音量特性を有する音を生成するように音出力デバイスを制御するように構成することができる。選択される音声応答は合成音とすることができる。しかし、出力音が監視下にある動物と同じ種類の動物によって実際に生成された音を録音したものであれば特に有利である。

図２に示したように、音選択器１８は、メモリ１９からの出力音を確定するデータを取得することができる。記憶されるデータは、所望の特徴を有する音を生成するように音出力デバイス７を制御するのに必要とされる制御データとすることができる。しかし、これは必須ではない。記憶されるデータは、音出力デバイス７を制御するために必要な出力信号を自身で生成する音選択器１８によって解釈されるデータとしてもよい。

［応答プロトコル］
上述したように、検出イベントの発生時に、音選択器１８は、１つまたは複数の検出イベントのカテゴリを考慮に入れて様々な環境において出力すべき音のタイプを特定する応答プロトコルを含む制御プロトコルに基づいて、音声相互作用システム１によって出力される音を選択する。本発明は、応答プロトコルの性質に関して特に限定はない。一般的には、応答プロトコルの性質は、音声相互作用システム１の用途に応じて決まるが、ここでは、概論を挙げるに留める。

応答プロトコル（複数可）を適宜設計することによって様々な機能が達成され得る。監視中の動物群の種々の個体によって展開される行動を区別するようにイベントカテゴリが定義される本発明の実施形態について考察する。例えば、動物を音のみで監視し（すなわち、センサとして音声センサ３Ａが１つのみであり）、それぞれのカテゴリが、各動物によって音が生成されたときにインスタンスに対応するように確定される実施形態について考察する。係る実施形態では、応答プロトコルは、出力音が「発話者」に応じて変化するように確定することができる。

或るタイプの応答プロトコルは、検出されたイベントのカテゴリ毎に出力される正確な音の明示的な定義を含む（例えば、「イベントカテゴリＡに関して、ＩＤ付きの出力音データ＝ＰＱＲ」、「イベントカテゴリＢに関して、ＩＤ付きの出力音データ＝ＸＹＺ」等）。係る応答プロトコルは、任意の好都合な技術を用いて、例えばルックアップテーブルを介して、確定され得る。

別のタイプの応答プロトコルは、出力音が、検出されたイベントに付随する音に対して固有の関係を有するように間接的な方法で出力音を確定する。このタイプの応答プロトコルの一例は、音選択器を制御して、検出されたイベント中に発生した動物の音を模倣する出力音を選択させるものである。模倣音は、検出されたイベント中に発生した音と同じタイプの音としてもよい（なお、当該音は既に録音されているものである）。あるいは、検出されたイベント中に測定される実際の音データを再生してもよく、または、上述の音のいずれかを合成したものを用いてもよい。

さらに別のタイプの応答プロトコルは、音声相互作用システム１の過去の動作中にメモリ２５に録音された履歴データに応じる出力音を選択するように音選択器を制御するようになっている。例えば、履歴データは、過去に、動物−機械間音声相互作用システムが或る特定のカテゴリのイベントが検出されたことに応答して所与のタイプの音を出力した際にこれが望ましくない結果に終わったこと（おそらく、監視中の動物（複数可）が動物−機械間音声相互作用システムとの相互作用を打ち切ったことを示すことによって、例えば、その後に検出されたイベントが監視中の動物（複数可）の所望されていない行動に対応したか、またはかなりの期間にわたって後のイベントが検出されなかったこと）を示してもよい。係る場合には、適合応答プロトコルは、音選択器１８を、この特定のカテゴリのイベントの応答に応じて、過去の望ましくない結果に終わった出力音を選択しないように制御することができる。

デバイスの履歴は、２つ以上の検出イベント（例えば、最新のｎイベント、ここでは、ｎは整数である）から成るシーケンスに割り当てられたカテゴリに応じて、出力音を確定する応答プロトコルにも考慮に入れられる。

さらに、上述したように、所与の応答プロトコルは、異なるシナリオを確定し、上記異なるシナリオのうちの１つがやってきた場合に出力音をどのように選択するかをケース毎に示してもよい。

多くの場合、音選択器１８によってなされる選択を制御するために複数の応答プロトコルが利用可能である（例えば、複数の異なる応答プロトコルを確定するデータをメモリ２３に記憶する）ように音声相互作用システム１を構成することが望まれる。係る場合、（不図示のユーザインタフェースを介した）何らかのユーザの操作によって、所与の時点で使用が選択されている特定の応答プロトコルに応じて、音選択器１８の動作を当該時点で制御してもよい。代替的には、音選択器１８は、任意の時点で、例えば、ランダム選択に基づいて、動物−機械間音声相互作用システムの過去の動作中に生じた出来事に関する履歴データに基づいて、または何らかの他の基準に基づいて適用する応答プロトコルに関する選択を行うように構成することができる。音選択器１８が所与の時点において使用する応答プロトコルに関して自動的に選択を行う場合、当該選択は、例えば、非常に多くの検出イベントおよび応答を含む継続した相互作用を喚起する目的で応答プロトコルを選択する等、予めプログラミングされた指示原則に従って行われるようにしてもよい。

科学的ツールとしての本発明の実施態様例に関する以下の説明から本発明の有用性がよりよく理解されるであろう。

［実施態様例−科学的ツール］
次に、カナリアの行動を調査するための科学的ツールとして構成された、本発明による相互作用システムの一例を説明する。この科学的ツールは概して、センサが音声センサ３Ａ１つのみであることを除けば、図１および図２に示すものと同じモジュールから成る。

メスのカナリア群が発する鳴き声を調査するために訓練段階を実施した。訓練段階中でのカナリアの鳴き声の分析によって、鳴き声をカナリアの音響特性から２つのカテゴリ、すなわち、ＡタイプおよびＢタイプに分類することができることが分かった。センサ３Ａおよび識別器１２によって後に検出されるカナリア鳴き声を評価するように、相互作用システムの特徴抽出器１４を一定の音響特徴（特に、訓練段階中にカナリアのＡタイプおよびＢタイプの鳴き声を区別するのに役立つ特徴）によってプログラミングした。録音されたカナリアのＡタイプおよびＢタイプの鳴き声に対応する音データを、カナリアのＡタイプおよびＢタイプの鳴き声に対応する合成音とともにメモリ１９に供給した。

メモリ２３には、以下の４つの異なる応答プロトコルを確定する制御データが供給された：
−第１の応答プロトコルによって、音選択器１８に「自然複製モード」で相互作用システムを動作させた（すなわち、カナリアのＡタイプの鳴き声の検出に応答してカナリアのＡタイプの鳴き声を出力し、カナリアのＢタイプの鳴き声の検出に応答してカナリアのＢタイプの鳴き声を出力した）。
−第２の応答プロトコルによって、音選択器１８に「自然逆モード」で相互作用システムを動作させた（すなわち、カナリアのＡタイプの鳴き声の検出に応答してカナリアのＢタイプの鳴き声を出力し、カナリアのＢタイプの鳴き声の検出に応答してカナリアのＡタイプの鳴き声を出力した）。
−第３の応答プロトコルによって、音選択器１８に「人口複製モード」で相互作用システムを動作させた（すなわち、検出されたカナリアの鳴き声に対して同じタイプの鳴き声を出力するのだが、録音したそのままの鳴き声を出力する代わりに合成した出力音を用いた）。
−第４の応答プロトコルによって、音選択器１８に「人口逆モード」で相互作用システムを動作させた（すなわち、検出されたカナリアの鳴き声に対して逆タイプの鳴き声を出力するのだが、録音したそのままの鳴き声を出力する代わりに合成した出力音を用いた）。

本実施例では、音声相互作用システム１は、科学的ツールとして、訓練段階中に用いたものと同じメスのカナリア群の鳴き声の出し方を調査するように構成された。相互作用システムが第１の応答プロトコルを用いて動作する（すなわち、動物−機械間音声相互作用システムが同じタイプの録音したカナリアの鳴き声を出力することによって実際の鳴き声に応答するようになっている）場合、カナリアはさらなる音を生成する傾向にあり、これによって、カナリアとシステムとの間に継続した相互作用が確立されることが判明した。他方、相互作用システムが第２の応答プロトコルを用いて動作する（すなわち、動物−機械間音声相互作用システムが逆タイプの録音したカナリアの鳴き声を出力することによって実際の鳴き声に応答するようになっている）場合、カナリアは音を生成することをやめた。また、相互作用システムが第３の応答プロトコルまたは第４の応答プロトコルを用いて動作する（すなわち、検出されたカナリアの鳴き声に対して合成した出力音を用いて応答する）場合も、カナリアは音を生成するのをやめる傾向にあった。

上記用途例において、本発明による音声相互作用システムは、調査対象として監視される動物の行動を可能にする有益な科学的ツールを構成したことが分かるであろう。

さらに、上記用途例から分かるように、動物−機械間音声相互作用システムによって、発した音が検出されているカナリアを個々に識別することができる。これによって、鳴き声を発した特定の個体に対して出力音を適合させることが可能になる。

本発明による音声相互作用システムを構成する物理的な機器は、用途に応じて多様な方法で構成することができる。

例えば、図４Ａに示すように、監視される動物（複数可）が包囲区域５０内にいる場合、センサ３の一部または全てを決まった場所、例えば、囲いを画定するフェンスに取り付けられたポールに設置することができる。同様に、音出力デバイス７を囲い５０に向けて出力することができるように、囲いに対して決まった場所に設置することができる。通常、処理モジュール１０の機能を提供するコンピュータ装置５または他の処理機器が、監視下にある囲いの外部にある棚の中に（損傷防止のために）配置される。

図４Ｂに示される別の構成では、音声相互作用システムは縮小され、（ストラップ１１０または他の便利な取り付け器具によって）動物に装着することができる可搬性ケース１００内に取り付けられている。このタイプの構成は、監視する動物（複数可）が自由に動き回れる用途に適している。

その他の構成も可能である。監視する動物（複数可）が囲いの中に位置している用途であっても、一般的には、動物の生理学的特性を測定するセンサが動物に装着される。しかし、囲いの中にいる動物に他のタイプのセンサ（例えば、マイクロフォン）を同様に携帯させてもよい。別の代替形態として、動物−機械間音声相互作用システムの機器全体を、監視する動物の（複数可）の近傍（例えば、鳥かごの隣）に配置される単一の装置に統合してもよい。

具体的な実施形態を多数参照して本発明を説明してきたが、当業者であれば、本発明が上記具体的な実施形態の詳細な特徴によって限定されることがなく、とりわけ、添付の特許請求の範囲に規定される発明の範囲を逸脱しない限り、種々の変更形態および展開が可能であることを容易に理解するであろう。

例えば、上記具体的な実施形態は、特定されたカテゴリ内のイベント（音、行動）の検出に応じて音声応答を生成する音声相互作用システムに関していた。しかし、このようなシステムが常時、応答状態にある必要はない。つまり、動物−機械間音声相互作用システムは、適したカテゴリのイベントが検出された場合であっても音を出力しない、一定の非応答段階を有するように構成されてもよい。非応答期間は、ランダムな時間間隔、ユーザによって設定された時間間隔、または所定のパターンに応じて設定された期間等で出現するように設定することができる。このような非応答期間中には、システム回路をスタンバイ状態においてエネルギーを節約してもよい。

さらに、上記実施形態では、検出されたイベント（音等）は、各イベントを表す各特徴セットの分析によって分類された。しかし、検出されたイベントを、予め求められている既知の種々のカテゴリのイベントと比較するといった、他の技術を用いて分類を実施することも可能である。

例えば、検出された音のスペクトログラムを、既知の各カテゴリに対応する基準音サンプルのスペクトログラムと比較することによって分類を行ってもよい。

Claims

音声センサを含む、単体または複数の動物を監視する１つまたは複数のセンサと、
前記センサによって出力された１つまたは複数の信号ストリームを処理して個々のイベントを識別する識別器と、
前記識別器によって識別されたイベントに対応する前記信号ストリームを分析し、前記イベントにカテゴリを割り当てる分析器と、
前記分析器によって１つまたは複数の検出された各イベントに割り当てられた１つまたは複数のカテゴリを基に、イベント検出時に生成される出力音を選択する出力音選択器と、
前記選択された出力音を出力する音出力部と
を具備し、
前記分析器は、音声出力が望まれていないイベントの少なくとも１つのクラスを識別し、前記識別された少なくとも１つのクラスのイベント検出に応答した出力音の生成を規制する
動物−機械間音声相互作用システム。
請求項１に記載の動物−機械間音声相互作用システムであって、
前記出力音選択器は、監視下にある前記単体または複数の動物の種に応じた出力音を選択する
動物−機械間音声相互作用システム。
請求項１または２に記載の動物−機械間音声相互作用システムであって、
前記出力音選択器は、録音された動物の音を出力用に選択する
動物−機械間音声相互作用システム。
請求項１〜３のいずれか一項に記載の動物−機械間音声相互作用システムであって、さらに、
前記分析器によって検出されたイベントのシーケンスと、当該イベントのシーケンスに応じて前記出力音選択器によって出力用に選択された出力音とを記録することによって、当該動物−機械間音声相互作用システムと、前記単体または複数の動物との間の相互作用を記録する履歴記録部を具備する
動物−機械間音声相互作用システム。
請求項４に記載の動物−機械間音声相互作用システムであって、
前記出力音選択器は、前記履歴記録部によって記録された過去の相互作用を基に、所与のイベントに対する出力音を選択する
動物−機械間音声相互作用システム。
請求項１〜５のいずれか一項に記載の動物−機械間音声相互作用システムであって、
可搬性デバイスに実装される
動物−機械間音声相互作用システム。
請求項６に記載の動物−機械間音声相互作用システムであって、
前記可搬性デバイスは、前記単体または複数の動物に装着される
動物−機械間音声相互作用システム。
単体または複数の動物および機械間の音声相互作用を制御する方法であって、
音声センサを含む１つまたは複数のセンサから成るセットを用いて単体または複数の動物を監視する監視ステップと、
イベントを検出するように、前記センサのセットによって出力された信号ストリームのセットを処理する処理ステップと、
前記処理ステップで検出されたイベントに対応するセンサ信号ストリームを分析し、カテゴリを前記イベントに割り当てる分析ステップと、
前記分析ステップで検出された１つまたは複数のイベントに割り当てられた１つまたは複数のカテゴリを考慮して、イベント検出時に生成される出力音を選択する選択ステップと、
前記選択ステップで選択された前記出力音を出力する出力ステップと、
音声出力が望まれていないイベントの少なくとも１つのクラスを識別する識別ステップと、
前記識別された少なくとも１つのクラスのイベント検出に応答した出力音の生成を規制する規制ステップと
を具備する、単体または複数の動物および機械間の音声相互作用を制御する方法。
請求項８に記載の、単体または複数の動物および機械間の音声相互作用を制御する方法であって、
前記出力ステップは、監視下にある前記１つまたは複数の動物の種に応じた出力音を選択するステップを含む
単体または複数の動物および機械間の音声相互作用を制御する方法。
請求項８または９に記載の、単体または複数の動物および機械間の音声相互作用を制御する方法であって、
前記選択ステップは、録音されている動物の音を出力用に選択するステップを含む
単体または複数の動物および機械間の音声相互作用を制御する方法。
請求項８〜１０のいずれか一項に記載の、単体または複数の動物および機械間の音声相互作用を制御する方法であって、さらに、
前記処理ステップで検出されたイベントシーケンスと、前記選択ステップで出力用に選択された対応音とを登録することによって、前記機械および前記単体または複数の動物間の相互作用を登録する登録ステップを含む
単体または複数の動物および機械間の音声相互作用を制御する方法。
請求項１１に記載の、単体または複数の動物および機械間の音声相互作用を制御する方法であって、
前記選択ステップは、所与のイベントに対する出力音を選択するときに、前記登録ステップで登録された過去の相互作用を考慮するステップを含む
単体または複数の動物および機械間の音声相互作用を制御する方法。
コンピュータに、請求項８〜１２のいずれか一項に記載の制御方法を実行させるプログラム。