JP2012503401A

JP2012503401A - システム制御方法及び信号処理システム

Info

Publication number: JP2012503401A
Application number: JP2011527440A
Authority: JP
Inventors: エスハルマ，アキ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-09-18
Filing date: 2009-09-11
Publication date: 2012-02-02
Anticipated expiration: 2029-09-11
Also published as: EP2342884B1; WO2010032182A3; TR201901706T4; CN102160359A; US20110191109A1; WO2010032182A2; CN102160359B; US8731940B2; JP5499038B2; EP2342884A2

Abstract

システム制御方法は、ユーザの環境において入力装置（14-16）を介してユーザにより通信された情報を表す少なくとも１つの信号を取得し、第１のソース（1,2）からの信号は、環境において認知できる形式で利用可能であり、第１のソース（1,2）から生じる情報とユーザから生じる情報との間の遷移が生じることが想定される時点を少なくとも推定し、予想時間に関してシステムによる機能の実行をタイミング調整することを含む。

Description

本発明は、ユーザの環境において入力装置を介してユーザにより通信された情報を表す少なくとも１つの信号を取得することを含むシステム制御方法に関する。本発明はまた、ユーザの環境において少なくとも１つの入力装置へのインタフェースを含む信号処理システムに関する。本発明はまた、コンピュータプログラムに関する。

Brdiczka, O.他，“Automatic detection of interaction groups”，Proc. ICMI，2005年10月4-6は、会話の交替（turn-taking）がグループ内で同期しているという仮定に基づいて相互作用グループ構成を検出する手法を開示している。検出器は、会話の仮定で構成されたHMM（Hidden Markov Model）に基づく。検出器の入力は、どの人が話しているか話していないかの情報を含む発話活動ベクトルである。グループ内での発話の寄与の同期は、会話の仮定で構築されたHMMによる可能なグループ構成の検出を可能にする。

既知のシステムの問題は、装置の動作を制御するのに適していない点にある。グループ構成の変化の検出は、その事実の後に生じ、このような検出は、制御方式の基礎となる入力としての使用のみに限定されている。その主な用途は、ユーザの連絡リストを更新することである。

ユーザにとって目立たない方法且つユーザの活動に適した方法で装置を制御するのに適した前述のような種類の方法、システム及びコンピュータプログラムを提供することが望まれる。

前述のことは、本発明による方法により実現され、この方法は、ユーザの環境において入力装置を介してユーザにより通信された情報を表す少なくとも１つの信号を取得し、第１のソースからの信号は、環境において認知できる形式で利用可能であり、第１のソースから生じる情報とユーザから生じる情報との間の遷移が生じることが想定される時点を少なくとも推定し、予想時間に関してシステムによる機能の実行をタイミング調整することを含む。

この方法により、ユーザの環境におけるシステムは、ユーザとシステムとの間の相互作用の異なる段階に適した機能を提供することが可能になる。特に、ユーザが会話のような相互作用に寄与しているときに特定の機能が実行されてもよく、このような寄与段階の間の間隔に特定の機能が実行されてもよい。ソースからユーザへの情報のフローの遷移及びユーザからソースへの情報のフローの遷移は比較的頻繁に生じるため、この方法は、システムの機能の連続制御に適している。遷移が推定されるため、会話のような相互作用中にシステムを制御するのに適しており、このような相互作用が終了した後の実行に限定されない。この方法は、ユーザの応答から第１のソースからの情報を合図とするため、目立たない。機能のタイミングは、機能が本当に実行されるか又はいつ機能が特定の設定で実行されるかの少なくとも１つに関することがわかる。後者の場合、“タイミング”は、異なる設定の間の遷移を示す。

実施例は、第１のソースから信号を取得し、会話交替モデル（conversational turn-taking model）に基づいて、相互に、ユーザからの情報のフローと、第１のソースからの信号で伝達される情報のフローとを分析することにより、推定を実行することを含む。

会話のような相互作用は、予想可能な方法で構成され、基本的には、情報のフローの間で同期する交互の活動及び沈黙の期間を有する。会話交替モデルに基づいて、相互に、ユーザからの情報のフローと、第１のソースからの信号で伝達される情報のフローとを分析することにより、システムによる機能の実行の開始も同期することができる。これは、過去の相互作用の比較的短い間隔に基づいて行われてもよい。

少なくとも１つの入力装置からの信号及び第１のソースからの信号が少なくとも１つのオーディオ成分を含む実施例において、この方法は、相互に時間と共に（長期に）オーディオ情報のフローを分析することを含む。

例えばビデオ情報に対して、特定の閾値音量の上のオーディオ情報は、ソースの会話への寄与に対応して、バースト状に生じる。このことは、２つ以上のオーディオ信号のソースの間での会話のような相互作用の存在を決定することを比較的容易にする。音声認識は必要ないが、ビデオ情報に基づく会話のような相互作用の決定は、一般的に会話のような相互作用を検出するための画像分析を必要とする。この実施例では、視聴覚信号の分析は除外されない点に留意すべきである。テキストメッセージに比べて、オーディオ情報は、会話の交替に対応するような相互作用を検出する分析に適している。一般的に、テキストメッセージはまた、特定の議論に関係しているか否か（例えば、或る人が電子フォーラムをホストしているか否か）を決定するために、少なくとも件名の分析を必要とする。このようなフォーラムへのポストの時間的フローのみに基づいて会話を検出することは、一般的に困難である。

この実施例の変形では、情報のフローの分析は、ユーザにより通信された情報を表す少なくとも１つの信号に音声活動アルゴリズムを適用することを含む。

この効果は、決定する次の分析がかなり簡単になり得る点にある。この次の分析は、複数の連続する時間間隔毎にその間隔が相互作用の特定の参加者からの会話のような相互作用への寄与を含むか否か又は含む確率を示すデータに基づいてもよい。

実施例において、第１のソースからの信号は、ユーザの環境において少なくとも入力装置へのインタフェースを含む電気通信システムへのオープン接続を有する遠隔電気通信端末から、少なくとも１つの電気通信ネットワークを介して取得されてもよい。

この方法の媒介（mediated）の通信形式への用途は比較的容易である。特に、第１のソースからの信号が入力装置の環境におけるユーザ以外の関係者からの情報を伝達することが既に明らかである。従って、単一の信号を異なるそれぞれのユーザから生じる情報を伝達する部分に分離する必要性は小さい。このことは、この方法を、システムのリアルタイム又はほぼリアルタイムの制御に十分に応答可能にするために必要な手間を低減する。更なる利点は、このような電気通信システムにおいて、全ての相互作用が会話のような形式である点にある。オープン接続が現在使用中でない場合には、ノイズから区別されればよい。

電気通信システムがユーザにより通信される情報を表す信号を取得するために複数の入力装置とインタフェース接続し、認知できる形式で第１のソースからの信号を再生するために複数の再生装置とインタフェース接続する実施例において、このシステムは、推定時間に関してユーザを見つける機能の実行をタイミング調整するようにされる。

この効果は、ユーザを絶えずトラッキングする必要なく、ユーザが移動することを可能にする点にある。ユーザが電話システムを使用して通信することが想定される場合にのみ、ユーザの位置が決定される。この理由は、ユーザは、入力装置の１つの近くにいることが想定され得るからである。従って、見つける方法（検出方法）は、入力装置のみに関係してもよく、偏在する必要はない。

この実施例の変形では、ユーザは、情報がユーザにより通信されることが推定される間隔中に入力装置からの信号に少なくとも部分的に基づいて見つけられるようにされる。

この変形は、主に入力装置の既知の位置に基づいてもよく、入力装置の既知の位置にのみ基づいてもよい。例えば、オーディオ情報の場合、複数の入力装置からの信号の相対強度が決定されてもよい。これは、情報が或る特定のユーザにより通信されることが想定される間隔中に行われるため、この方法は、より正確である（或いは逆に、あまり高度ではないものの、より高度な位置検出方法と同じ精度の結果を生じ得る）。他の間隔中に、背景ノイズのみが存在してもよく、実際に同じ環境において他のユーザにより通信された情報を伝達する信号が存在してもよい。

この方法の実施例は、推定時間に関して決定された時間まで、ユーザの環境における装置の出力を処理する機能を遅延させることを含む。

従って、マルチメディア環境では、ユーザは、ユーザが関与している会話のような相互作用に関係しない他の種類の情報により妨害されない。このような中断は、最も適切な時点に生じるようにタイミング調整される。例えば、電子メールが到達したという指示は、ユーザが話し終えるまで（より正確には、話し終えることが想定されるまで）遅延してもよい。

この方法の実施例は、遷移が生じることが想定される時点に続く間隔内に第１のソース及びユーザのうち少なくとも１つから情報が通信されない場合にのみ、システムに対して推定時間に関して決定された時間に機能を実行させることを含む。

従って、この方法は、会話のような相互作用の終了を迅速に検出し、ユーザの環境におけるシステムに対して遅延した機能を実行させるようにすることができる。このことは、システムがユーザにより使用される効率を増加させる。

この方法の実施例は、第１のソースから生じる情報とユーザから生じる情報との間の遷移が生じることが想定される時点を少なくとも推定する前に、入力装置の環境におけるユーザと第１のソースとの間での会話の交替に対応するような相互作用を検出する少なくとも１つの基準を使用して、第１のソースからの信号で伝達される情報のフローと、入力装置の１つからの信号で伝達される情報の少なくとも１つのフローとを時間と共に（長期に）分析することを含む。

この実施例は、とりわけ、それぞれ最初に検出される複数の会話のような相互作用の間を区別するために使用されてもよい。次に、これらの相互作用のそれぞれ個々のものの構成が、システム機能の実行をタイミング調整するために分析されてもよい。特に、同じ環境において複数のユーザのそれぞれを見つけるための検出方法と組み合わせて、この方法は、各ユーザに個々に応答可能になり、個々のユーザが共有環境（例えば、家又は会社）でシステムを使用できる効率を増加させる。

他の態様によれば、本発明による信号処理システムは、第１のソースからの信号が認知できる形式で利用可能なユーザの環境における少なくとも１つの入力装置へのインタフェースであり、ユーザにより通信された情報を表す少なくとも１つの信号を取得するインタフェースと、第１のソースから生じる情報とユーザから生じるとの間の遷移が生じることが想定される時点を少なくとも推定する処理構成とを含み、信号処理システムは、推定時間に関してシステムの機能の実行をタイミング調整するように構成される。

実施例において、信号処理システムは、本発明による方法を実行するように構成される。

他の態様によれば、本発明によるコンピュータプログラムは、機械可読媒体に組み込まれた場合、情報処理機能を有するシステムに対して本発明による方法を実行させることができる一式の命令を含む。

２つの遠隔端末を含む通信ネットワークにおける周囲の電話システムの概略図周囲の電話システムにおける個々の電話装置の機能構成要素の概略図周囲の電話システムにおけるマスター又はプロキシ電話の機能構成要素の概略図会話活動中である２人のユーザからの発話信号を表す２つのチャネルにおける発話活動の概略図ユーザと遠隔電気通信端末のユーザとの間で通信される情報に基づいて周囲の電話システムを使用してユーザを見つける方法の実行を制御する方法を示すフローチャートユーザとオーディオユーザインタフェースを備えたデータ処理システムとの間で通信される情報に基づいて周囲の電話システムを使用してユーザを見つける方法の実行を制御する方法を示すフローチャート

本発明について、添付図面を参照して更に詳細に説明する。

一例として、電気通信ネットワーク3に接続された２つの遠隔端末1、2が図１に示されている。３つの空間5-7を備えたビル4は、ネットワーク3への少なくとも１つの接続でローカル環境を形成している。

ネットワーク3は広域ネットワークであり、例えば、セルラ電話ネットワーク、POTSネットワーク又はブロードバンドインターネットネットワークを含んでもよい。通信は直接接続を介してもよいが、好ましくはデータパケットに基づく。以下では、通信は、テレビ会議アプリケーションの場合のように、任意選択のビデオ画像を有する音声に基づくことを仮定する。同じ原理はまた、テキストメッセージング、掲示板へのメッセージの投稿等を含む、個人間での他の情報通信方法のアプリケーションにも見出される。これらの他の例では、この例のように、遠隔端末1、2から通信される情報及びビル4内の現実又は仮想のローカル端末から通信される情報は、各端末のユーザ間での会話の交替（conversational turn-taking）に対応するような相互作用のモデルに基づいて、時間と共に分析される。進行中であると決定された会話のような相互作用の構成は、システム機能の実行を制御するために使用され、任意選択で、ビル4内の他の装置の機能の実行を制御するために使用される。検出された会話の構成に関する情報はまた、周囲の電話システム（ambient telephony system）によるオーディオ処理及び取得を制御するためにも使用される。

ネットワークの接続性は、ますます定額制の加入モデルに基づいている。この場合、呼の時間（分）は計算されない。従って、非常に長い呼、又はもはやオープン若しくはクローズではないが多くの異なる方法で部分的にオープンである呼を有することが一般的である。その結果、接続がユーザにより情報を通信するために使用されず、複数の遠隔端末1、2にオープンになっている接続が存在する多くの状況が存在する。例えば、ユーザは、コンピュータの近くにすらいることなく、ピア・ツー・ピア・オーバーレイ・ネットワークにサインインしている可能性がある。

図示の実施例では、周囲の電話システムは、好ましくは無線ネットワークを使用して接続された個々のネットワーク接続された電話ユニットから構成される。しかし、ここに説明する原理は、複数のマイクロホン及びスピーカが同じ電話システムに接続されるシステム（例えば、家庭インターホンシステム又は有線電話システム）にも当てはまる。ここに説明する方法は、この例では周囲の電話システムにより実行され、通信相手（caller）とユーザとの間の区別が行われる。通信相手は遠隔端末1、2のユーザを示し、ユーザは、ビル4内の個人を示す。

マスター電話ユニット8は、電気通信ネットワーク3へのインタフェースを含み、個別に図３に示されている。図示の例では、インターネット、一般電話システム（POTS：Plain Old Telephone System）及びセルラ電話ネットワークへのインタフェース9-11が存在する。代替実施例では、少ない種類のインタフェース及び他の種類のインタフェースが使用されてもよい。マスター電話ユニット8はまた、他の個々の電話ユニット12、13がそれを介して遠隔端末1、2と通信するという意味で、プロキシ電話ユニットと考えられてもよい。個々の電話ユニット12のうち第１のものが図２に示されており、他のものも同一である。マスター電話ユニット8は、図１に示す周囲の電話システムにおける個々の電話ユニットを有する。

それぞれ個々の電話ユニット12、13及びマスター電話ユニット8は、少なくとも１つのマイクロホン14-16及び少なくとも１つのスピーカ17-19とインタフェース接続する。図示の実施例では、第２の個々の電話ユニット13と、マスター電話ユニット8に含まれる個々の電話ユニットとはまた、それぞれのカメラ20、21及びディスプレイ装置22、23ともインタフェース接続する。出力信号は、第２の個々の電話ユニット13から、ラジオ又はテレビセットのような娯楽装置25及び外部照明装置24に提供されてもよい。これらの接続の１つ以上は、無線ネットワークを介してもよく、ホームオートメーション用の何らかのネットワークを介してもよい。

図２を参照すると、個々の電話ユニット12により扱われる遠隔の通信相手への接続毎に別々の発呼ユニット26が提供される。インタフェース27は、デコーダと入力バッファとを含む。図示の例では、インタフェース27は、G.722デコーダと入力バッファとを含むRTP（Real-time Packet protocol）ソケットインタフェースを有する。これは、IP（Internet Protocol）ソケット（図示せず）からRTPデータを受信する。

処理ユニット28は、デコードされたオーディオデータがスピーカ17により処理されることを可能にする。これは、幾何学モデル（geometric model）を実装する制御ユニット29の制御で少なくとも部分的に動作し、例えば、マスター電話ユニット8からSIP（Session Initiation Protocol）プロトコルに従ってIPパケット上のTCP（Transmission Control Protocol）として伝達されたメッセージ形式の制御信号を受信する。遅延線30は、参照信号を入力信号処理ユニット41に提供するために提供される。参照信号は、入力信号処理ユニット31が音響エコーキャンセルを実行することを可能にする。入力信号処理ユニット31はまた、音響利得制御を実行し、ユーザからのオーディオ情報を伝達する信号を提供する他の信号処理機能を実行してもよい。入力信号処理ユニット31はまた、制御ユニット29から制御信号を受信する。入力信号処理ユニットは、オーディオ情報を伝達する信号を、G.722デコーダ及び出力RTPソケット32と、発話活動検出（SAD：speech activity detection）システム33とに提供する。

典型的なSADシステム33は、短いオーディオセグメントから複数の特性を計算するアルゴリズムを使用し、これらを使用して音セグメントが発話であるか、発話でないか、沈黙であるかを決定する。如何なる種類の発話活動検出（音声活動検出とも呼ばれる）アルゴリズムが実装されてもよい。この例は以下の文献に示されている。
Bhou-Gazale, S.及びAssaleh, K.，“A robust endpoint detection of speech for noisy environments with application to automatic speech recognition”，Proc. ICASSP 2002，Orlando，Florida，2002年5月
Davis, A.他，“Statistical voice activity detection using low/variance spectrum estimation and an adaptive threshold”，IEEE Trans. on audio, speech and language processing，14(2) ，2006，pp.412-424
Huang, L,及びYang, C，“A novel approach to robust speech detection in car environments”，IEEE Int. Conf. on Acoustics, Speech and Signal Processing，3(5-9)，2000，pp.1751-1754
SADシステム33の機能はまた、マスター電話ユニット8のみに実装されてもよいことがわかる。マスター電話ユニット8は、G.722デコーダ及び出力RTPソケット32を介して提供された信号を受信する。この機能はまた、入力信号処理ユニット31に実装されたエコーキャンセル及び発話拡張アルゴリズムの一部として実装されてもよい。発話活動検出の出力は、しばしばバイナリ値である。これはまた、例えば信頼値でもよい。所定の持続時間間隔での発話活動検出の結果は、ビル4内のネットワークでマスター電話ユニット8に送信される。

図３を参照すると、マスター電話ユニット8は、接続がオープンになっている外部の通信相手（この場合は遠隔端末1、2に対応する）毎に呼インスタンス34を生成する。呼インスタンス34は、１つ以上の個々の電話ユニット12、13に送信されるオーディオ情報を伝達する信号を提供するために、発話拡張機能35を利用する。この信号はまた、発話活動検出36の対象になる。発話拡張機能35の出力と、オーディオ情報を伝達して呼インスタンス34に関連する他の信号との双方は、特に１つ以上のスピーカ17-19に出力される前に、残留AEC（residual AEC）37に渡される。

会話活動検出ユニット38は、第１の個々の電話ユニット12のSADシステム33及び他の個々の電話ユニットの同様のシステムからの出力と、呼インスタンス34が関連する遠隔端末1、2から通信される情報に適用された発話活動検出機能36からの出力とを受信する。会話活動検出ユニット38の出力は、関連の遠隔端末1、2を使用する通信相手と個々の電話ユニット12、13の１つ以上を含む環境におけるローカルユーザとの間の会話のような相互作用の存在の時間的確率を表す値である。これらの出力は、以下に説明するように、周囲の電話システム自体又はこの外部の装置（娯楽装置25又は外部照明装置24等）を制御するマスター制御ユニット39に提供される。

図４を参照すると、会話交替モデルが示されている。このモデルは、周囲の電話システムを制御するために使用され、任意選択で他の装置を制御するために使用される。図４は、オーディオ情報の２つのフロー40、41を示している。一方は遠隔端末1、2からのものであり、他方は個々の電話ユニット12、13又はマスター電話ユニット8の１つのユーザからのものである。後者のフロー41は、実際には、例えばWO2007/086042に記載のような分離技術を使用して、オーディオ信号を、オーディオ情報を電話ユニット8、12、13の１つに提供する複数のユーザの１人に関連するセグメントに分離することにより得られてもよい。フロー40、41は、SADシステム33及びSAD機能36により決定された沈黙期間42、43と、発話期間44、45とを有する。

図５を参照すると、周囲の電話システム機能の制御は、進行中の会話を検出するステップ46を含む。図示の実施例では、この検出は、ビル4内のユーザと関与する遠隔端末1、2のユーザとの間の会話の交替に対応するような相互作用を検出する少なくとも１つの基準を使用して、遠隔端末1、2の１つからの信号で伝達されるオーディオ情報のフローと、電話ユニット8、12、13の１つへのオーディオ入力信号のオーディオ情報のフローとを分析することを含む。代替実施例では、このステップ46は、例えば、遠隔端末1、2への接続を確立するため、前のユーザ入力に基づいて既存の会話を決定するステップにより置換されてもよい。すなわち、会話の存在は、ユーザが確立される接続を要求したという事実及び／又はこのような接続が実際に現時点でオープンであるという事実に基づいて想定される。しかし、接続が積極的に使用されずに長期の期間にオープンになり得るシステムでは、会話を検出するステップ46は、リソースの使用効率を増加させる。

会話の交替に対応する相互作用の形式の検出は、複数の原理に基づく。
1.会話では、会話の大部分のいずれかの時点で唯一の話し手が活動中である。
2.活動中／沈黙中の話し手のチャネルが交互になるように、話し手が交替する。
3.双方のチャネルで連続する沈黙は、参加者の間で活動中の会話の交替が存在しないことを意味する。
4.１つのチャネルで交互にならない発話活動は、チャネル間で会話活動が存在しないが、例えば、２人の通信相手の間の会話が同じ遠隔端末1、2により取得されたことを意味する。
5.発話期間44、45と沈黙期間42、43との間の交替がチャネル間で同期しない場合、当該チャネル間での会話の交替は存在しない。これが、フロー40、41が相互に時間と共に分析される理由である。

会話の交替を検出する可能なアルゴリズムは以下の通りである。

nをオーディオフレームインデックスとし、pl(n)をチャネルlのフレームnがSADシステム33又はSAD機能36により決定された発話を含む確率であるとする。簡単な例では、pl(n)の値は0（発話なし）又は1（発話あり）でもよい。ゼロに初期化される４つの状態変数（Presence1，Presence2，Conflict，Silence）が存在する。次のように初期化される３つの更なる状態変数が存在する。
g1=0.9
g2=0.99及び
g3=0.995
擬似コードでは、アルゴリズムは以下のように実行する。
1.チャネル1及び2での現在のフレームnのVAD状態を決定し、以下を評価する。

2.n=n+1としてステップ1に進む。

Conversation(n)の現在の値が特定の閾値を超過したときに会話が検出される。従って、アルゴリズムは回顧的（backward-looking）であるため、時間と共に情報を評価する。状態変数は、Conversationの現在の値が前のオーディオフレームの評価に基づくことを確保する。同時に、これは会話が存在するか否かの絶えず進展する決定のため、装置を制御する出力信号の基礎として適している。

前述の基本的な方法は、とりわけ利用可能な計算リソースに応じて様々な方法で拡張されてもよい。例えば、状態変数Presence1，Presence2，Conflict，Silenceに加えて又はこれらの代わりに、長い観測期間（複数のオーディオフレーム）で計算された状態変数が使用されてもよい。これらは、２つ以上の信号において発話活動検出の値の数分間に計算された相関又は相互情報メトリックを含む。

自然の会話では、聞き手の参加者は、しばしば短い発声（“はい”、“分かりました”、“本当？”、“うーん”等）の形式で話し手にフィードバックを提供する。これは、しばしばバックチャネル発話活動と呼ばれる。これは、これらの発声が短く（<1s）、比較的長い沈黙で分離されるという事実に基づいて、遠隔端末1、2の１つ及び個々の電話ユニット12、13又はマスター電話ユニット8の１つのユーザからのオーディオ情報のフロー40、41内で別々に検出されてもよい。バックチャネル活動検出は、更なる状態変数として使用されてもよく、例えば、衝突は重複する発話活動の時間セグメントが他の話し手からのバックチャネル活動を表さないときにのみ検出されるという点で、状態変数Conflictを変更するために使用されてもよい。

更なる特徴は、交替の時間的詳細構造から導かれてもよい。例えばオーディオ情報の第２のフロー41の発話活動期間45の終了とオーディオ情報の第１のフロー40の発話活動の次の期間44の開始との間の時点と、その逆との間の時間差が、会話の交替の質の指標として使用されてもよい。会話のような相互作用の場合、話し手の複数の変化で測定されたこの時間差は、会話でない相互作用に比べて、わずかに正の中間値及び低い分散を有する。後者の場合、時間差は、ゼロの中間値及び大きい分散を有する。

話し手の変化が検出される精度を改善するため、発話活動検出は、オーディオ情報の内容の分析で補われてもよい。特に、オーディオ情報のフロー40、41では、音の高さ（pitch）が分析されてもよい。多くの言語では、話された発声の終了前の上り調子の音の高さは、他方の話し手への質問を示す。場合によっては小さい中断の後に、これに他方の発話活動が続く場合、この種類の変化は、Question-Answer構成としてラベル付されてもよい。これは、会話のような相互作用を検出するために使用される会話モデルの特徴（状態変数）として特徴付けられてもよい。

詳細に前述したアルゴリズムは、一次積分器を使用して決定された複数の状態変数の動的な時間的進展に基づいてもよい。代わりに、様々な異なる線形及び非線形フィルタリング及び積分アルゴリズムが使用されてもよい。

会話活動の確率を表す特徴Conversationを形成するために特徴の線形結合を使用する代わりに、会話の検出は、判別式分析、サポートベクトル機械及びニューラルネットワークに基づく様々な種類のデータ分類方法を含み、線形検出（又は回帰）モデル以外のモデルに基づいてもよい。

特徴Conversationはまた、バイナリの変数ではなく、0と1との間の程度の値の連続的な確率変数でもよい。

最後に、時間的進展の固定のパラメータ（g1，g2，g3）及び検出ロジック（ステップ2）を使用する代わりに、異なるユーザ及び通信相手のパラメータ又は異なるコンテキストを最適化するために、別の技術が使用されてもよい。例えば、会話検出器は、システムの会話相手のそれぞれの対又は各ローカルユーザ及び識別された通常の遠隔通信相手について別々に調整されてもよい。同様に、パラメータ及び／又は検出ロジックは、分析されるオーディオ情報を通信する信号が第１又は第２の個々の電話ユニット12、13のものであるか、マスター電話ユニット8からのものであるかに応じて、異なってもよい。

会話検出及び分析方法は、一般的にはリアルタイムで実装するのは非常に困難である。しかし、電気通信システムのような媒介の環境では、その実装は低い計算コストで実現可能になる。この理由は、オーディオ情報の各フローがどこから生じているかが既に明らかになっているからである。これは、マイクロホンを装備した部屋の中の人の間での会話検出システムとは対照的である。これは、全ての音がキャプチャされて、まず、部屋の様々な人に帰属させなければならないからである。

例えば、ビル4のローカル環境のユーザ1と、例えば第１の遠隔端末1を使用する通信相手とを含む会話の検出に続いて、周囲の電話システムは、ローカルユーザからの信号において沈黙期間42から発話期間44への遷移がいつ生じることが想定されるかを予想するため、会話交替モデルに基づいて、相互に、例えばユーザ1に帰属する情報の第１のフロー40と、例えば遠隔通信相手に帰属するオーディオ情報の第２のフロー41とを分析する（ステップ47）。この分析は、発話期間44、45と沈黙期間42、43とを見つける音声活動検出のみに基づいてもよい。これは、オーディオ情報のフロー40、41の少なくとも一部の内容の分析により補われてもよい。特に、遠隔通信相手の音声の沈黙期間の前の上り調子の音の高さ（疑問文の指標）の検出は、ローカルユーザからの発話期間45がすぐに続くという指標として使用されてもよい。

実質的にこの時点で、又はその直後であるが、少なくともユーザ1からの発話が想定される期間44内及び期間44内のみに、複数のシステム機能が実行されるようにされる。

任意選択である１つの例示的なステップ48において、ユーザ1の状態が、例えばネットワーク3で他のシステムに通信される。これは、中断を回避するのに役立ち得る。テレビ会議の実施例では、通知は、ディスプレイ装置22及び遠隔通信相手のディスプレイ装置に次の話し手をハイライトするために使用されてもよい。

第２の個々の電話ユニット13が位置する空間6にユーザ1が存在する場合、照明装置24は、照明レベルを増加させるように制御される（ステップ49）。同様に、これもテレビ会議アプリケーションで有用である。

例えば、マイクロホン14-16の感度を増加させること、話し手17-19の音量を減少させること、及び／又は遠隔通信相手に通信される音の品質を改善する同様の手段を行うことも可能である。このような手段はまた、エコーキャンセルの実行を容易にする。

いずれの場合でも、予想された遷移は、好ましくはオーディオに基づく検出方法を開始するために選択的に使用される（ステップ50）。すなわち、ユーザは、オーディオ情報がローカルユーザから通信されることが想定される間隔中に、マイクロホン14-16からの信号に少なくとも部分的に基づいて見つけられるようにされる。特に、特定のユーザによる寄与の予想される開始は、他のローカルユーザによる同じ又は異なる会話のような相互作用への寄与の開始から区別される。これは、検出方法の精度の増加に寄与する。ローカルユーザからの次の寄与の開始を遠隔通信相手からの寄与から区別することは、背景ノイズを除去するためにマイクロホン14-16からの入力信号を処理することにあまり作業が費やされる必要がないことを意味する。

如何なる既知の種類のオーディオに基づく検出が基本的に実行されてもよい。簡単な実施例では、ユーザは、最も強いマイクロホン信号を受信する電話ユニット8、12、13に関連付けられてもよい。他の実施例では、より正確な位置を提供するために三角測量が使用されてもよい。ところで、ユーザの位置のトラッキングは、必ずしも排他的にオーディオに基づく方法を必要とするとは限らないことがわかる。

図５の方法では、ユーザからの発話期間44への遷移が生じることが想定される時点に続く間隔内に、情報がユーザ1から通信されない場合、１つ以上の更なるシステム機能が実行されるようにされる（ステップS51）。特に、この時点は、ユーザを中断させるのに良い時点と取られる。従って、特定の動作の実行は、このような時点まで遅延する。このステップ51で起動する動作の例は、進行中の会話へのテレビ会議呼に参加することを要求した他の通信相手を紹介すること、又は会話に完全に関係のないメッセージ若しくは他の出力を処理することを含む。例えば、システムは、データ処理システムに対して、呼、テキストメッセージ、電子メール又は画像が他の通信装置（図１に図示せず）を通じて受信されたという指示の提示を遅延させてもよい。他の例として、電話ユニット8、12、13を含むビル4内の装置からのエラーメッセージ又は注意メッセージは、このステップ51が起動されるまで遅延してもよい。

図示の実施例では、周囲の電話システムはまた、遠隔通信相手からの発話期間45への遷移が生じることが想定される時点を少なくとも予想する（ステップ52）。

次に、例えば、同じ名前3の前のステップ48と同様のステップにおいて、ネットワーク3でローカルユーザの状態の変更を他のシステムに通信する（ステップ53）。

第２の個々の電話ユニット13がある空間6にユーザが存在する場合、照明装置24は、照明レベルを減少させるように制御される（ステップ54）。一般的に、このステップ54は、周囲の電話システムに外部の装置を制御するあらゆる種類の類似のステップを表す。このような外部装置の機能の実行の適合は、媒介の会話における１人の参加者から他の参加者への寄与の間の遷移の予想時間に関して決定された時間に開始される。

この場合も同様に、遠隔通信相手からの発話期間44への遷移が生じることが想定される時点に続く間隔内に、外部の通信相手から情報が通信されない場合、１つ以上の更なるシステム機能が実行されるようにされる（ステップ55）。

図５は、電気通信システムにおける会話のような相互作用の例を示しており、相互作用は、実際に２人以上の間で生じる。同じ原理は、如何なる分散型発話インタフェースシステム（例えば、家庭サポート及び快楽アプリケーション、高齢者介護アプリケーション及び会話システムで使用されるもの）に適用されてもよい。この場合、情報のフローの少なくとも１つは、人間でないソースから生じる。従って、電話ユニット8、12、13が分散型発話インタフェースシステム及び娯楽装置25のようなビル4内の装置を制御する手段に備えられる場合、図６に示す方法が実行されてもよい。

ステップ56において、ユーザからシステムへの情報のフロー及びシステムからユーザへの情報のフローは、会話のような相互作用が行われているか否かを決定するために分析される。システムは、出力（音声入力を提供するようにユーザを誘う形式の可聴出力）を提供する（ステップ57）。いつユーザが音声入力を提供し始める可能性があるかについて、予想が行われる（ステップ58）。この予想された時点に関して決定された時点（例えば、ちょうど同じ時点又はわずかに後の時点）に、オーディオに基づく検出方法の実行が開始される（ステップ59）。更に、システムは、前のステップ58で予想された時点に関して決定された間隔内に受信したオーディオ情報のみに自動音声認識を適用するように起動する（ステップ60）。この効果は、システムがマイクロホン14-16により取得された全ての音の入力を分析する必要がない点にある。

従って、システムによる機能の実行は、会話のような相互作用の構成の認識に基づいて予想された時点に関して決定された時間に開始される。特に、ユーザが分散型発話トランスデューサのシステムで検出される精度が改善する。

前述の実施例は、本発明を限定するものではなく、例示するものであり、特許請求の範囲を逸脱することなく、当業者は多数の代替実施例を設計することができる点に留意すべきである。特許請求の範囲において、括弧の間にある如何なる参照符号も特許請求の範囲を限定するものとして解釈されるべきではない。“有する”という用語は、請求項に記載のもの以外の要素又はステップの存在を除外しない。単一の要素は、このような要素の複数の存在を除外しない。特定の手段が相互に異なる従属項に記載されているという単なる事実は、これらの手段の組み合わせが有利には使用できないことを意味するのではない。

ユーザと単一の遠隔通信相手又はローカルのデータ処理システムと会話のような相互作用が一例として使用されているが、ここに記載の方法は、３人以上の参加者の間の交替を含む会話にも同様に有用である。相互作用において３人のうち誰が３人のうち他のものに続くかを予想するために、パターン検出が使用されてもよい。或いは、単に他の話し手への遷移が生じることが想定される時点が予想されてもよい。予想時間に関して決定された時間での機能の実行は、更なる条件（例えば、検出される次の音声活動がローカルでなければならないこと、又は前の話し手がローカルユーザであってはならない）の充足に応じて行われてもよい。

この例では、機能の実行の開始は、機能の実行の起動に対応する。これはまた、例えば、異なる重みでのオーディオに基づく検出方法の実行の開始に対応してもよい。この場合、予想された発話間隔と同時に生じるオーディオフレームを使用して決定された位置は、他のオーディオフレームを使用して決定された位置より大きい重みを与えられる。従って、図５の方法は、ユーザを見つけるステップ50が連続して実行されるが、推定された位置がローカルユーザからの発話期間45又は沈黙期間43の間に取得されたオーディオ情報を使用して推定された確率に応じて重み付けられるように変更されてもよい。

EP1526706A2は、NのソースからN以上の出力へのデジタルオーディオを混合するために使用可能なオーディオミキサを含むグループ通信システムアーキテクチャを記載しており、オーディオは出力毎に混合されたときに個々に制御され得る。グループ通信システムアーキテクチャは、会話の特徴のデータを分析するために使用されるフロア分析モジュールを含む。フロア分析モジュールの結果は、会話グループのメンバの確立を自動的に決定するために使用され得る。フロア分析モジュールは、オーディオミキサの一式の混合パラメータを指定することにより、会話のフロアを実行する。フロア分析モジュールは、‘交替分析’モジュール、‘反応動作分析’モジュール及び／又は‘関連動作分析’モジュールのような１つ以上の分析モジュールを含み得る。実施例では、テレビ会議の状態に焦点を合わせたビデオがサポートされる。すなわち、会話のフロアがテレビ会議セッションの参加者の間で確立されると、会話フロアのメンバは、他の会話フロアのメンバと異なるビデオ表示を有する。他の実施例では、この方法は、全てのユーザが必ずしも遠隔位置にいるとは限らない共有通信環境に拡張され、パーソナル入力装置（マイクロホン等）及びパーソナル出力装置（ヘッドホン等）に関連付けられる。例えば、ユーザに個々のマイクロホンを装着させるのではなく、物理環境（家庭又はオフィスビル内の部屋銅）は、複数のマイクロホンで構成された指向性ビーム形成アレイと、個々のユーザをトラッキングするセンサとで補われる。この場合、それぞれトラッキングされたユーザの発声は、個々に装着されたマイクロホンを使用することなく、別々のオーディオストリームとして取得され得る。他の例として、複数のユーザに対応するオーディオストリームを取得するために単一のマイクロホンが使用され得る。単一のオーディオストリームとして取得された場合であっても、会話の特徴（発話活動等）を検出するために、既知の話し手識別技術が使用され得る。
Brdiczka, O.他，“Automatic detection of interaction groups”，Proc. ICMI，2005年10月4-6は、会話の交替（turn-taking）がグループ内で同期しているという仮定に基づいて相互作用グループ構成を検出する手法を開示している。検出器は、会話の仮定で構成されたHMM（Hidden Markov Model）に基づく。検出器の入力は、どの人が話しているか話していないかの情報を含む発話活動ベクトルである。グループ内での発話の寄与の同期は、会話の仮定で構築されたHMMによる可能なグループ構成の検出を可能にする。

既知のシステムの問題は、装置の動作を制御するのに適していない点にある。グループ構成の変化の検出は、その事実の後に生じ、このような検出は、制御方式の基礎となる入力としての使用のみに限定されている。その主な用途は、ユーザの連絡リストを更新することである。
US2006/0206329A1は、機械とユーザとの間の相互作用の対話を管理する方法を記載している。一実施例では、機械とユーザとの間の相互作用は、ユーザの可能な発話の開始に応じた少なくとも１つの確率値を決定することにより管理される。応答確率関数は、ユーザが時間tに意味アイテムNを実際に話し始める確率を表す。応答確率関数はまた、音声活動検出（VAD:：voice activity detector）アルゴリズムへの音声の開始の前の予測を供給するためにも使用され得る。その結果、VADは、時間が進展すると共に、そのパラメータを絶えず変更する。従って、VADは、低い前の開始の確率を有することが想定される時点で生じる明白な中断に厳しい要件を課し、中断が予想される状況であまり厳格ではない。

前述のことは、請求項１に記載の本発明による方法により実現される。

この方法は、第１のソースから信号を取得し、会話交替モデル（conversational turn-taking model）に基づいて、相互に、ユーザからの情報のフローと、第１のソースからの信号で伝達される情報のフローとを分析することにより、推定を実行することを含む。

この効果は、会話のような相互作用の存在を決定する次の分析がかなり簡単になり得る点にある。この次の分析は、複数の連続する時間間隔毎にその間隔が相互作用の特定の参加者からの会話のような相互作用への寄与を含むか否か又は含む確率を示すデータに基づいてもよい。

本発明の他の態様によれば、請求項１０に記載の信号処理システムが提供される。

Claims

システムを制御する方法であって、
ユーザの環境において入力装置を介してユーザにより通信された情報を表す少なくとも１つの信号を取得し、第１のソースからの信号は、前記環境において認知できる形式で利用可能であり、
前記第１のソースから生じる情報と前記ユーザから生じる情報との間の遷移が生じることが想定される時点を少なくとも推定し、
推定時間に関して前記システムによる機能の実行をタイミング調整することを含む方法。
前記第１のソースから前記信号を取得し、
会話交替モデルに基づいて、相互に、前記ユーザからの情報のフローと、前記第１のソースからの前記信号で伝達される情報のフローとを分析することにより、前記推定を実行することを含む、請求項１に記載の方法。
前記少なくとも１つの入力装置からの信号及び前記第１のソースからの信号が少なくとも１つのオーディオ成分を含み、
前記方法は、相互に時間と共にオーディオ情報のフローを分析することを含む、請求項１に記載の方法。
前記情報のフローの分析は、前記ユーザにより通信された情報を表す前記少なくとも１つの信号に音声活動アルゴリズムを適用することを含む、請求項２に記載の方法。
前記第１のソースからの信号は、前記ユーザの環境において少なくとも前記入力装置へのインタフェースを含む電気通信システムへのオープン接続を有する遠隔電気通信端末から、少なくとも１つの電気通信ネットワークを介して取得される、請求項１に記載の方法。
前記電気通信システムは、前記ユーザにより通信される情報を表す信号を取得するために複数の入力装置とインタフェース接続し、認知できる形式で前記第１のソースからの前記信号を再生するために複数の再生装置とインタフェース接続し、
前記システムは、推定時間に関して前記ユーザを見つける機能の実行をタイミング調整するようにされる、請求項５に記載の方法。
前記ユーザは、情報が前記ユーザにより通信されることが推定される間隔中に前記入力装置からの信号に少なくとも部分的に基づいて見つけられるようにされる、請求項６に記載の方法。
推定時間に関して決定された時間まで、前記ユーザの環境における装置の出力を処理する機能を遅延させることを含む、請求項１に記載の方法。
前記遷移が生じることが想定される時点に続く間隔内に前記第１のソース及び前記ユーザのうち少なくとも１つから情報が通信されない場合にのみ、前記システムに対して推定時間に関して決定された時間に機能を実行させることを含む、請求項１に記載の方法。
前記第１のソースから生じる情報と前記ユーザから生じる情報との間の遷移が生じることが想定される時点を少なくとも推定する前に、前記入力装置の環境におけるユーザと前記第１のソースとの間での会話の交替に対応するような相互作用を検出する少なくとも１つの基準を使用して、前記第１のソースからの前記信号で伝達される情報のフローと、前記入力装置の１つからの信号で伝達される情報の少なくとも１つのフローとを時間と共に分析することを含む、請求項１に記載の方法。
第１のソースからの信号が認知できる形式で利用可能なユーザの環境における少なくとも１つの入力装置へのインタフェースであり、前記ユーザにより通信された情報を表す少なくとも１つの信号を取得するインタフェースと、
前記第１のソースから生じる情報と前記ユーザから生じるとの間の遷移が生じることが想定される時点を少なくとも推定する処理構成と
を含み、
推定時間に関してシステムの機能の実行をタイミング調整するように構成される信号処理システム。
請求項１ないし１０のうちいずれか１項に記載の方法を実行するように構成された、請求項１１に記載の信号処理システム。
機械可読媒体に組み込まれた場合、情報処理機能を有するシステムに対して請求項１ないし１０のうちいずれか１項に記載の方法を実行させることができる一式の命令を含むコンピュータプログラム。