JP2010529738A

JP2010529738A - 居宅用動画通信システム

Info

Publication number: JP2010529738A
Application number: JP2010510342A
Authority: JP
Inventors: アンドリューフレデリックカーツ; ジョンノーボルドボーダー; キャスリーンメアリーコステロ; キースエイジャコビィ; ロバートジョンジュニアパラダ
Original assignee: イーストマンコダックカンパニー
Priority date: 2007-05-31
Filing date: 2008-05-29
Publication date: 2010-08-26
Also published as: US20080298571A1; WO2008153822A2; EP2149258A2; US8253770B2; WO2008153822A3

Abstract

動画通信システム及びそれを稼働させる方法を提供する。本システム（２９０）の端末（３００）は、画像表示装置（１１０）、所与の動画撮影セッティングに従いローカル環境及びそこにいる人物の動画像を撮影する１個又は複数個の撮影装置（１１０，１２０）、採音装置（３２３）及び鳴音装置（３２１）を含む音響システム、並びに１個又は複数個の場面に亘る動画像をリモートサイト（３６４）に送信する動画通信イベントをコンテキスト伝達インタフェース（４５０）、プライバシ保護インタフェース（４００）、イメージプロセッサ（３２０）及び通信コントローラ（３５５）と連携して実行するコンピュータ（３１０）を備える。インタフェース（４５０）は場面解析アルゴリズムに則り場面の変転を察知したとき撮影管理アルゴリズムに則り動画撮影セッティングを修正する。インタフェース（４００）はプライバシ保護セッティングを提供してローカル環境動画像の撮影、送信、表示又は録画を制御する。

Description

本発明は、ローカルサイト・リモートサイト間でユーザが動画通信を行える通信システム、特に状況やユーザの多様さ、使い勝手、プライバシ上の懸念、システムコスト等の諸要因が複雑に絡み合った環境である居宅にて好適に利用可能なシステムに関する。

テレビ電話(video-telephone)の概念は古くから知られている。その嚆矢は連載小説たる非特許文献１４に記載のものであるが、実用的なテレビ電話システムとしては１９６４年のニューヨーク万国博覧会にベル研究所が出品したものが最初のものである。ＡＴ＆ＴはこのシステムをＰｉｃｒｕｒｅｐｈｏｎｅなる商標の下に様々な形態で商品化したが、このシリーズは商業的な成功を見ることができなかった。それは、解像度が低い、カラー画像を扱えない、音声と動画像のタイミングが合っていない等、その性能に関わる重大な技術的問題があって魅力に欠けたからである。更に、Ｐｉｃｔｕｒｅｐｈｏｎｅの撮影視野は非常に狭く、大抵は話者の顔周りしか捉えることができなかった。このことをよく示しているのは特許文献１１（発明者：W. Rea）の記述、特にＰｉｃｔｕｒｅｐｈｏｎｅ用カメラの狭い撮影視野内に話者を正しく捉える手段についての記述である。撮影視野が狭いということは、背景についての情報がほとんど或いは全く得られず、コンテキスト（状況・経緯）が伝わらないということである。加えて、Ｐｉｃｔｕｒｅｐｈｏｎｅに備わっている話者プライバシ保護機能は、動画像の送信を遮断するオプションだけであった。

現代世界では既に様々な技術による双方向動画通信が可能となっている。なかでも広く用いられているのはカメラ付携帯電話である。昨今の携帯電話では、静止画像撮影用カメラが備わっていないものの方が珍しく、一部の携帯電話はライブ動画撮影表示機能も備えている。ＦｏｔｏｎａｔｉｏｎＬｔｄ．（アイルランド）のように、顔検知、顔認識、顔追跡等を含めユーザエクスペリエンス（体験的満足性）の良質化につながるライブビデオカメラ付携帯電話向け新技術を提供している企業もある。特許文献６（発明者：J.H. Lo）にもカメラ及び顔認識機能を有する携帯電話が記載されている。このように、カメラ付携帯電話はその使い勝手と可搬性が良好なため現代生活において疑いなく必須のものとなっているが、サイズ上及び価格上の制約が厳しいためその用途が限られている。

これに似た機能を有する別種の装置としてはウェブカメラがある。この種のカメラはラップトップコンピュータ等のコンピュータに実装可能であり、パン、ティルト、ズーム等の機能を備えているものが多い。また、ＣｒｅａｔｉｖｅＬａｂｏｒａｔｏｒｉｅｓ（シンガポール）、Ｌｏｇｉｔｅｃｈ（スイス）等といった企業は、現在、ウェブカメラとして使用かのうな高性能カメラをコンピュータアクセサリとして世に送り出している。それらには高度な音声信号採取機能、動き検知機能、顔追跡機能等といった高付加価値的諸機能が備わっている。特許文献１０（発明者：McAlpine et al.）にも、ウェブカメラの機械的なパン、ティルト及びズーム動作でユーザの顔を追跡するシステム及び方法が記載されている。

ＡｐｐｌｅＩｎｃ．（米国カリフォルニア州クペルティーノ）では、このウェブカメラの改良版に当たるｉＳｉｇｈｔ（登録商標；以下表記省略）、ｉＣｈａｔ（登録商標；以下表記省略）等の製品乃至サービスを提供している。ｉＳｉｇｈｔは、ラップトップコンピュータに装着・実装可能なカメラと、白バランス・シャープネス・色・合焦状態・露出の自動調整やノイズのフィルタリングによってその明るさ・合焦状態・発色が良好な画像を生成するオンボード画像処理手段と、からなる製品である。ｉＣｈａｔは、ｉＳｉｇｈｔで生成された画像を使用し最大１０人までの人々の間で１対１チャット、マルチウェイチャット、音声チャット等を行えるサービスである。ただ、こうしてビデオカメラとコンピュータを結合させてインターネット経由テレビ電話システムを構築しても、携帯電話ほどユビキタスなシステムにはなりえない。一段と値が張ることや装置が大規模になることは無論のこと、ウェブカメラで得られるユーザエクスペリエンスに多くの問題がありまだ適切に解決されていないことも、その原因となっている。とりわけ、このシステムは家庭等のようにめまぐるしく変化する環境に十分馴染んでいない。ウェブカメラを利用したシステムをその種の環境に順応させより簡便に使えるようにするには、ユーザインタフェース、画像撮影、プライバシ保護等の面での技術的改良が必要となろう。

特記すべきことに、ＷｅｂＥｘＣｏｍｍｕｎｉｃａｔｉｏｎｓ（米国カリフォルニア州サンタクララ）では、ウェブカメラ技術を応用した安価なウェブベーステレビ会議(video-conferencing)であるＷｅｂＥｘ（登録商標；以下表記省略）を提供している。これはミーティング、トレーニングセッション、Ｗｅｂｉｎａｒ（登録商標）、カスタマサポート等の業務で使用されるサービスであり、リアルタイム通信向けに特化した専用のウェブベースグローバルネットワーク上でアプリケーションを頒布する仕組みを採っている。このサービスでは、セキュリティを多層的に提供することで、会議出席者によるアクセスや文書保存・印刷権限を管理し、またデスクトッププライバシを保護している。ネットワークセキュリティに関わる機能としては、認証機能、会議内容／文書暗号化機能、侵入遮断機能、データ保持回避機能（ＷｅｂＥｘサーバにデータを保存しない機能）等を提供している。特許文献２９（発明者：Zhu et al.）にも、セキュア通信システム向けコラボレイティブコンピューティング方式が記載されている。こうしたＷｅｂＥｘ方式は有益なものではあるが、ユーザが抱く様々な不安に配慮していないため、個人ベースでの動画通信に使用するには障りがある。

これら、カメラ付携帯電話やウェブカメラに代わる装置としては更に高性能ビデオホン(enhanced video-phone)がある。これはズーム機能及び追跡機能を有得する多機能カメラや高性能な音響装置を備える大画面の装置であり、複数のユーザが同時に使用可能で良質なユーザエクスペリエンスをもたらしてくれるものである。但し、この装置を設置可能な環境は、家庭、事務所、学校等のように、撮影・表示機能が良質であれば可搬性が多少劣っていても許される環境に限られている。その基本的なシステム構成は、複数のサイト（場所）間で情報を転送できるようカメラ及びテレビジョン受像機を電話回線又はインターネットに接続する、というものであり、特許文献８（発明者：AbbiEzzi et al.）に記載の一般家庭用テレビ会議システムでもそうしたシステム構成を採用している。このシステムは、居宅用遠隔会議システムに相応しい基本的な撮影素子及び表示素子が備わっているので、ウェブカメラと同じく広い視野に亘り画像を撮影して表示することができ、その原型たるＰｉｃｔｕｒｅｐｈｏｎｅに比べて良好にコンテキストを伝えることができる。しかしながら、このシステムにも、居宅用テレビ電話システムにまつわる種々の懸案、特に居宅のようにめまぐるしく変化する環境における周囲状況管理、プライバシ保護等にまつわる懸案への対策はあまり盛り込まれていない。

より高性能なシステムとしては特許文献４１（発明者：N. Chim）に記載の高性能遠隔会議システム(enhanced teleconferencing system)がある。これは居宅での使用を想定したシステムであり、マイクロホンが複数個あるので音声信号を利用した被写体追跡を好適に実行することができる。このシステムでは、更に、そのディスプレイの背後にカメラを配することで、アイコンタクト（目配せ・目交い）上のユーザエクスペリエンスを高めている。とりわけ、このシステムで実行される被写体追跡手順、即ち複数個のマイクロホンを用いローカル環境における人物の所在場所を特定してその人物を追跡する手順は秀逸である。この手順では、オーディオプロセッサで発声させる音声追跡信号に従い、人物を追いかけるようにカメラを駆動する。更に、その人物をフレーム内に捉え続けるためそのカメラの撮影視野を最適化する。この最適化は、機械的なパン、ティルト及びズーム動作と、画像処理によるクロッピング（裁ち切り）との併用で実行される。また、そのカメラはディスプレイの後に隠れているので、ユーザの視線をカメラで真正面から捉えてアイコンタクトを成立させることができる。即ち、そのディスプレイを見ている人物のダイレクトオン画像（画面正面からの画像）を捉え、リモートサイトに送って他の人達に向けて表示させることができる。ただ、居宅環境でも使用可能とはされているが、そのプライバシ保護やコンテキスト伝達の管理面が充実していないことからすると、この文献に記載のシステムの実用環境は企業内会議室環境となろう。

同じく高性能な動画通信システムとしては、テレビ会議端末を用いた高性能テレビ電話システム(enhanced video-telephony)が主として主に企業向けに市販されている。例えばＣｉｓｃｏＳｙｓｔｅｍｓ（米国カリフォルニア州サンノゼ）、ＤｉｇｉｔａｌＶｉｄｅｏＥｎｔｅｒｐｒｉｓｅｓ（米国カリフォルニア州アーヴィン）、ＤｅｓｔｉｎｙＣｏｎｆｅｒｅｎｃｉｎｇ（米国オハイオ州デイトン）、Ｔｅｌｅｒｉｓ（英国ロンドン）等といった企業は、企業経営者向けに高性能テレビ会議端末を商品化している。それらのうち一部は、既に特許文献１５及び１９（共に発明者：Allen et al.）や特許文献２０及び２５（共に発明者：McNelley et al.）といったテレビ会議関連特許を取得している。これらの企業の商品では、画像及び音声の忠実性、環境美学及びエルゴノミクスへの配慮、アイコンタクトに配慮した撮影表示能力、ネットワーク上の大規模データストリームをシームレス且つ安全に扱う能力等が強化されている。そして、そのカメラが画面、ビームスプリッタ等の背後に隠れているので、カメラが目障りにならないようにしつつ、アイコンタクトを好適に成立させることができる。

ただ、これらの遠隔会議乃至テレビ電話システムは、その居場所が異なる複数のユーザ間で会議を行うには便利であるが、管理の行き届いた環境での利用を前提としているので、個人の居宅や学校のようにめまぐるしい変化が珍しくない環境には不向きである。特に、これらのシステムは、中央テーブルを備えた一般的な会議室、議場風の座席を備えた高級な部屋等が既にあること又はそれを新設することを想定している。即ち、出席者同士が互いに顔見知りで、その所作（アクション）も割合に型にはまっている“きちんとした”環境を想定している。そうした環境向けのシステムは、個人の居宅のように変化が激しい環境には不向きである。更に、これらのシステムの端末では、ローカルユーザの画像から背景部分を削除してコンテキストを隠すことができるように構成されている。リモートサイトで別の出席者がその画像を見たとしても、背景が当該リモートサイトのそれ又は仮想的なそれに差し代わっているので、ローカルユーザ側のコンテキストはリモートサイトに伝わらない。また、ＷｅｂＥｘ方式での捉え方と同じく、プライバシ保護やセキュリティ提供の課題がネットワークを介したアクセス及びデータ転送可能性の問題として捉えられているので、例えば特許文献２（発明者：Le Pennec）に多ノード間セキュアテレビ会議確立方式として記載されている通り、リンクユニーク暗号鍵、暗号鍵間接続用セキュアインタフェース及びリンクユニーク暗号鍵保持用セキュアデータアーカイブを含む少なくとも三種類の暗号化デバイスが必要になる。加えて、これらのテレビ会議システムの価格は１０万米ドルを上回っており、居宅向け市場で許容される水準ではない。

留意すべきことに、そうした高性能テレビ会議システムのなかにも、複数の人物間で交わされる会話の無秩序さ想定しているものがある。とりわけ、特許文献２４（発明者：Strubbe et al.）、２８（発明者：Gutta et al.）、３３（発明者：Strubbe et al.）等、いずれもＰｈｉｌｉｐｓＥｌｅｃｔｒｏｎｉｃｓ（蘭国アイントホーフェン）を譲受人とする一連の特許で提案された動的環境下遠隔会議方式によるものである。それらのうち特許文献２４に記載のテレビ会議システムはビデオロケータ及びオーディオロケータを備えている。システム稼働時には、それらのロケータ（測位器）の出力に基づき各出席者の居所を特定すること、ひいては話者に焦点を合わせることやその話者のクローズアップ画像を送信することができる。また、その話者の発言が所定時間以上に亘り続いたときや、その出席者が発言を止めてから所定時間が経過したときには、システム側でカメラの設定を調整し、発言中でない別の出席者を順繰りに表示させる。或いは、システム側でカメラを相応量ズームアウトさせ、全出席者を一覧表示させる。更に、テレビ会議セッションの最中で新たな人物が参加したときや参加中の人物が退出するときに、その人物を撮影することもできる。ただ、このシステムでは、同文献の図２に記載の通り、出席者達があたかも一つのテーブルを囲んで着座しているかのような形式でテレビ会議が行われる。そのため、このシステムを好適に適用できるのは、（半ば）公式的な企業内テレビ会合のように、その地位に大差がない出席者達が互いにある程度の礼儀作法を弁えて参加する場に絞られよう。発言中でない出席者を順繰りに撮影しその画像を送信するというやり方は、そうした状況想定の下でこそ採用可能且つ妥当なものであると認められる。

次に、特許文献２８及び３３に記載の発明は、基本的には特許文献２４に記載の発明を改良し、テレビ会議のイベントをより自然に行わせるための順応手段を付加したものである。そのうち特許文献３３に記載のシステムでは、カメラ、オーディオロケータ及びビデオロケータの出力に対して一群の経験則を適用することで、それまで話者であった人物を追い続けるべきか、それとも新たな話者に切り替えるべきかを、判別するようにしている。具体的には、話者間時間差、５度コロケーションしきい値等のファクタを計測し、信頼度推定値に照らして評価することにより、別の人物に切り替えるべきかそれとも広視野撮影に切り替えるべきかをシステム側で判別している。また、特許文献２８では動的環境下テレビ会議方式を更に概念的に拡張している。即ち、出席者の行動に現れているキュー（手がかり）を幾通りか認識し、それらのキューを解析して予測することで、それまでの話者から別の話者へのシームレスな動画撮影対象切替を試みている。行動に現れるキューとは、例えば抑揚パターン・音調・ラウドネス等の音響的キューや、視線・顔向け・身振り・手振り・表情等の画像的キューや、その組合せのことである。それらのキューは一般にイベント毎に異なるので上掲のように利用することができる。ただ、両文献の図１に記載の通り、そもそも特許文献２８及び３３でテレビ会議の円滑開催に相応しい場として想定しているのは、会議室の中や議場的座席配置を採る部屋の中、即ち出席者の移動や交代がほとんど生じない場である。更に、これらのシステムを好適に適用できるのは、（半ば）公式的な企業内テレビ会合のように、その地位に大差がない出席者達が互いにある程度の礼儀作法を弁えて参加する場に絞られよう。特許文献２８ではその適用可能範囲を拡げており、第１１カラムの表に記載の通り子供がいる状況での使用を多少は想定しているけれども、特許文献２４、２８及び３３で提案されているシステムは、やはり、居宅環境に照準したシステムであるとは言い得ない。即ち、居宅における変化のめまぐるしさに順応させるには不十分で、プライバシ保護や周囲状況管理の側面も十分に行き届いていない。

特許文献４（発明者：Girish et al.、名称：テレビ会議装置及び方法(Video Conferencing Apparatus and Method)）に記載のテレビ会議システムでは、出席者が自分のプライバシを守れるよう幾つかの策が講じられている。具体的には、動画撮影や音声信号採取が実行されている旨の通知をハードウェア的光インジケータから受けることができ、音声信号をミュートすることができ、またカメラ前置機械絞り（及びそのキャップ）を見ることで動画撮影が行われていないことを確認することができる。即ち、このシステムは、動画通信イベント開催中に動画像が不用意に伝送されるのを防ぐこと、特にその場にいるユーザが知らないうちに確立済ネットワークリンクを介し画像が伝送されることを、特に重視したシステムであるといえる。ただ、ユーザが自分の環境を管理し自分や家族のプライバシを保護する上で、この文献に記載のやり方が万能なわけでは決してない。このシステムは、更に、居宅環境で有用となるであろうコンテキスト解釈及び制御の手段を欠いている。

更に、遠隔会議システムや高性能動画通信システムのなかには、会議室環境向けに限らず、オフィス環境や実験室環境における従業員間交流向けに開発されたものもある。その先駆例は、１９８０年代にＸｅｒｏｘＰａｌｏＡｌｔｏＲｅｓｅａｒｃｈＣｅｎｔｅｒ（米国カリフォルニア州パロアルト）で開発されたＭｅｄｉａＳｐａｃｅ（登録商標）である。これは、オフィス間常時リアルタイム音声付動画通信を行うシステムであった。その類例たるＶｉｄｅｏＷｉｎｄｏｗ（商標）は、非特許文献１２に記載の通り大画面を有する全二重遠隔会議システムであり、専門職従業者間非公式コラボレイティブ通信を助ける役割を担っていた。これらのシステムは、会議室向けのものより非公式な通信に適しているが、居宅環境における個人使用ではなく業務使用向けに開発されたものであるため、居宅独特の問題はその想定外となっている。

原初的な家庭用メディア空間としては、在宅勤務者・出社勤務者間で通信を行えるようにするものも既に開発されている。例えば非特許文献３には常時稼働型家庭用メディア空間が記載されている。この文献の筆者は、プライバシに関し人々が抱く不安を解消することが家庭用メディア空間では業務用メディア空間よりもかなり強く求められるとの認識を示し、在宅ユーザが常時稼働の事実を忘れたり不用意にカメラの視野内をうろついたりするとプライバシ侵害的状況が発生することを指摘した上で、そうしたリスクを軽減する手法を幾つか提案している。そのなかには、職住分離、人数カウント、身体利用制御、ジェスチャ認識、可視可聴フィードバック等の機構が含まれている。ただ、家庭内に配置されはしても、このシステムは住人による個人的な通信での利用を想定していない。即ち、一人又は複数人のユーザが行う個人的なアクションに順応させることができ、またそれらのユーザが自分のプライバシを守ることができる居宅用通信システムにはなっていない。

米国特許出願公開第２００４／０１４０９７３号明細書米国特許出願公開第２００４／０１５０７１２号明細書米国特許出願公開第２００４／０１９６３６０号明細書米国特許出願公開第２００４／０２５７４３１号明細書米国特許出願公開第２００５／００２４４８９号明細書米国特許出願公開第２００５／００４１８４０号明細書米国特許出願公開第２００５／０１２８３３２号明細書米国特許出願公開第２００５／０１４６５９８号明細書米国特許出願公開第２００６／０００７２２２号明細書米国特許出願公開第２００６／００７５４４８号明細書米国特許第３４９５９０８号明細書米国特許第４９２８３０１号明細書米国特許第４９８７４９２号明細書米国特許第５１９４９５５号明細書米国特許第５５７２２４８号明細書米国特許第５６３９１５１号明細書米国特許第５７７７６６５号明細書米国特許第５９９９２０７号明細書米国特許第６１６０５７３号明細書米国特許第６２４３１３０号明細書米国特許第６２７５２５１号明細書米国特許第６４００９０３号明細書米国特許第６４５４４１４号明細書米国特許第６６１１２８１号明細書米国特許第６７１０７９７号明細書米国特許第６７７１３０３号明細書米国特許第６８８８５６２号明細書米国特許第６８９４７１４号明細書米国特許第６９０１４４８号明細書米国特許第７０１５５９４号明細書米国特許第７０３４８６６号明細書米国特許第７０４８３８６号明細書米国特許第６８５０２６５号明細書米国特許第７０５８２０９号明細書米国特許第６３７３６４２号明細書米国特許第６４２４３７７号明細書米国特許第７０４２４８６号明細書米国特許第６７２４４１７号明細書米国特許第６８０６８９８号明細書米国特許第６９１９８９２号明細書米国特許第６２７５２５８号明細書米国特許第５６７５３７６号明細書

Debby Hindus et al., "Casablanca: Designing Social Communication Devices for the Home", Interval Research Corporation, Proceedings SIGCHI'01, March 31-April 4, 2001, ACM 1-58113-327-8/01/0003, pp.325-332 Cisco Systems, "Cisco Teleconference 3000", 2006, pp.1-5, [online] Internet URL: http://www.cisco.com/go/telepresence Carman Neustaedter and Saul Greenberg, "The Design of a Context-Aware Home Media Space for Balancing Privacy and Awareness", University of Calgary, Proceedings of the Fifth International Conference on Ubiquitous Computing (UbiComp2003), pp.1-18 Digital Video Enterprises, Inc., "Telepresence Products", 2006, pp.1-6, [online] Internet URL: http://www.dvetelepresence.com Claudio Pinhanez, "The Everywhere Displays Projector: A Device to Create Ubiquitous Graphical Interfaces", IBM Thomas Watson Research Center, Proceedings of Ubiquitous Computing 2001, pp.1-18 Emmanuel Munguia Tapia, Stephen S. Intille, John Rebula, and Steve Stoddard, "Concept and Partial Prototype Video: Ubiquitous Video Communication with the Perception of Eye Contact", Massachusetts Institute of Technology, Proceedings of UBICOMP 2003, pp.1-2 Ken Go et al., "Familyware: Communicating with Someone You Love", Yamanashi University, Japan, Proceedings of the IFIP HOIT Conference, HOIT 2000, pp.1-10 Apple Inc., "iChat AV Videoconferencing", March 2007, pp.1-4, [online] Internet URL: http://www.apple.com Xavier L.C. Brolly, Constantinos Stratelos and Jeffrey B. Mulligan, "Model-Based Head Pose Estimation for Air-Traffic Controllers", NASA Ames Research Center, California, published at ICIP 2003, the IEEE Conference on Image Processing, pp.1-4 Polycom Inc., "Polycom RealPresence Experience High Definition (RPTTMHD)", 2007, pp.1-6 Thomas Vetter, "Synthesis of Novel Views from a Single Face Image", Max-Planck-Institut, Germany, Technical Report No.26 (February 1996), [online] Internet URL: http://www.mpik-tueb.mpg.de/projects.techreport.list.html Robert S. Fish, Robert E. Kraut, and Barbara L. Chalfonte, "The VideoWindow System in Informal Communications", Proceedings of the 1990 ACM conference on Computer-Supported Cooperative Work, pp.1-11, October 1990 WebEx Communications Inc., "WebEx Capabilities", 2005, pp.1-16, [online] Internet URL: http://www.webex.com "Tom Swift and His Photo Telephone" (1914)

従って、今求められているのは、従来のシステムでは想定されていなかった需要に応え、遠隔地にいる一人又は複数人の人物との親しいテレビ会議乃至動画通信を実現するのに普く役立つ居宅用のシステムを実現することである。そのシステムには、居宅で発生する様々な状況に順応しつつほどほどシームレスに機能すること、少なくとも画像の撮影、録画及び送信に関しユーザが自分達のプライバシを管理及び保全できるようにすること、ユーザ及びその環境に関わるコンテキストの伝達を管理して良質な通信体験を可能にすること等が求められよう。

本願で提供するのは動画通信システム及び方法である。本システムは、動画像を表示可能な画像表示装置と、所与の動画撮影セッティング(video capture settings)に従いローカル環境及びそこにいる人物の動画像を撮影する１個又は複数個の撮影装置と、稼働時にローカル環境にて音響を発生させる鳴音装置及び稼働時にローカル環境から音声信号を採取する採音装置を含み音響セッティング(audio settings)に従い稼働する音響システムと、それら撮影装置（群）及び音響システムのほかイメージプロセッサ及び通信コントローラと連携して動画通信イベントを実行するコンピュータと、を備える。その動画通信イベントでは、撮影済動画像に基づき撮影を行い、また動画像をリモートユーザへと送信する。

そのコンピュータは更にコンテキスト伝達インタフェース(contextual interface)を提供する。コンテキスト伝達インタフェースでは、動画通信イベント開催中にその動画像に場面内変転(intra-scene transition)が生じたとき、そのことを場面内解析(intra-scene analysis)アルゴリズムに則り察知し、察知した変転に応じ且つ場面撮影管理(scene capture management)アルゴリズムに則り、動画撮影セッティングに施すべき修正の内容を特定する。

コンテキスト伝達インタフェースでは、更に、人物のアクションに場面間変転(inter-scene transition)を意味すると見られる変化が生じたとき、そのことを場面間解析(inter-scene analysis)アルゴリズムに則った変転テスト(tansition test)により察知し、察知した場面間変転に応じ且つ変転処理(transition process)機構を用い、動画撮影セッティングに施すべき調整の内容を特定する。なお、動画像又は音声信号に場面内変転が生じると、その動画通信イベントの通信インパクトが低下することがある。動画像又は音声信号に場面間変転が生じるのは、その動画通信イベントの性格が変わった場合等である。

ローカル端末をリモート端末にネットワーク経由で接続するシステムの全体構成図である。図１に示した動画通信システムが稼働するローカル環境で生じるコンテキストの一例を示す図である。この動画通信システムの概略機能構成を示す図である。この動画通信システムのより詳細な機能構成の一例を示す図である。一群のカメラで撮影される広狭二種類の撮影視野を示す図である。それらの位置関係を示す図である。通信イベント開催中に生じる撮影視野変転の例を示す図である。基準画像の一例を示す図である。基準画像の別例を示す図である。この動画通信システムの一構成部分たる電子イメージング装置に画面分割画像として表示されている二種類のリモート側場面を示す図である。種々ある手順の一例を示すフローチャートである。その詳細を示すフローチャートである。その詳細を示すフローチャートである。その詳細を示すフローチャートである。この動画通信システムが稼働するローカル環境コンテキストの別例を示す図である。この動画通信システムの実施に当たり利用可能な電子イメージング装置の別例構成、特に従来技術に属する装置を示す図である。この動画通信システムの実施に当たり利用可能な電子イメージング装置の別例構成を示す図である。リモートユーザ用ディスプレイの方向がこの動画通信システムで使用される電子イメージング装置に及ぼす影響を示す幾何学的位置関係を示す図である。ローカルサイトリモートサイト間のやりとりで動きに追従する動作を示す図である。その続きを示す図である。その続きを示す図である。電子イメージング装置上の画像をユーザの視線に関わる視線追跡キューに応じ変化させる動作を示す図である。その続きを示す図である。

今日、テレビ会議やテレビ電話をその性質に基づき概括するのにテレプレゼンスなる表現が使用されている。これは、自分の身の回りの環境（ローカル環境）とは別の場所にある環境（リモート環境）に何らかの体験乃至印象をもたらす、という意味である。この表現がよく用いられるのは、別の場所にいるグループ間の協業を可能にする企業内遠隔会議について述べるときである。テレビ会議システムのなかには、リモートユーザの実物大画像を表示させてアイコンタクトを図ることや、その画像の背景をローカル環境のそれに置き換えて表示することができるものがあり、そうした機能を備えるテレビ会議システムは理想的なテレプレゼンスシステムであるといえよう。ただ、それを以てテレプレゼンスと称するのはある意味で不適切というものである。何故なら、カメラのズーム機能を初めとする種々のツールを使用し相応の制御を実行することで、ある意味で“現実以上”の人為的な体験を産み出せるからである。

テレプレゼンス概念は、居宅用テレビ電話(residential video telephony)を実現するのに有用ではあるが最適の手法とは言い切れない。従って、ローカルユーザ（群）からリモートユーザ（群）への動画通信に使用できる優れた居宅向け動画通信システムを実現するには、本願で提案するシステム、装置及び方法を用いるべきであろう。本発明の種々の実施形態に係る動画通信システムには、例えば次に示す主要機能属性のうち幾つかを持たせることができる：
・画像表示装置、例えば可搬サイズのもの；
・動画撮影用の１個又は複数個の撮影装置、例えばその撮影視野(field of view)が広いＷＦＯＶ(wide field of view)型撮影装置とＮＦＯＶ(narrow field of view)型撮影装置の組合せ；
・鳴音装置及び採音装置を有する音響システム；
・ローカルサイト及びそこにいる人物のプライバシを保護するプライバシ保護インタフェース(privacy interface)；
・ローカルサイト及びそこにいる人物の撮影態様を取り仕切るコンテキスト伝達インタフェース、特にプライバシ保護インタフェース等と連携して種々の有用な機能を提供するもの；
・キー入力、顔認識、音声認識等を通じ人物を識別する機能。

図１に、一実施形態に係る双方向型の動画通信システム２９０のブロック構成を示す。このシステム２９０では、動画通信装置（端末）３００が設置されている場所（ローカルサイト）３６２と、同様の端末３００が設置されている別の場所（リモートサイト）３６４との間で、通話を交わすことができる。図示例の端末３００はそれぞれ電子イメージング装置１００を有しており、その装置１００はそれぞれ画像表示装置乃至ディスプレイ１１０と撮影装置（カメラ）１２０を備えている。それらを使用し通話を交わす人物のうち、サイト３６２にいる方の人物１０ａをローカルユーザと呼び、サイト３６４にいる方の人物１０ｂをリモートユーザと呼ぶ。どちらの端末３００も、動画像の撮影や処理、更には通信ネットワーク３６０を介した動画像の送受信を、ハンドシェイクプロトコル、プライバシ保護プロトコル及び帯域的制約に従い取り仕切っている。サイト３６２側端末（ローカル端末）３００は、図示しないリモートサーバからの支援を受け、ネットワーク３６０越しにサイト３６４側端末（リモート端末）３００に接続可能であるので、ユーザ１０ａ，１０ｂはそれぞれ手許の装置１００のディスプレイ１１０及びカメラ（群）１２０を使用し互いに通話することができる。コンピュータ３４０例えば制御用論理プロセッサ乃至ＣＰＵは、イメージプロセッサ３２０及びシステムコントローラ３３０の動作を調和させる。システムコントローラ３３０はディスプレイドライバ機能や撮影制御機能を担う部材であり、必要ならコンピュータ３４０に組み込むこともできる。そのコンピュータ３４０はローカルに、即ちローカル端末３００と一体に設けるのが原則であるが、一部機能をリモートに、即ちシステム２９０内のリモートサーバやリモート端末３００に設けることもできる。この構成では、システムコントローラ３３０から相応のコマンドを発することでカメラ１２０のビューアングル、焦点等の特性を制御することができる。また、通信コントローラ３５５を、無線回線、有線回線等からなるネットワーク３６０に接続するためのインタフェースとして用い、サイト間で画像等のデータをやりとりすることができる。

この動画通信システム２９０によれば、例えば複数の居宅同士でテレビ会議、テレビ電話等の動画通信イベント６００を好適に開催することができる。即ち、そのイベント６００でやりとりされる動画像中のどの場面(video scene)６２０でも、サイト３６２・３６４間で動画像及び音声信号を好適にやりとりすることができる。このとき、リモートユーザ１０ｂの姿もローカルサイト３６２側ディスプレイ（ローカルディスプレイ）１１０によって画像として表示されるので、ユーザ１０ａは相手の姿を見ながらユーザ１０ｂと通話し遠隔会議を円滑に進めることができる。イメージプロセッサ３２０は、そうした双方向通信に役立つ種々の機能として、自サイト（例えば３６２）における撮影画質を高める機能、自サイトのディスプレイ１１０における表示画質を高める機能、他サイト（例えば３６４）に送信するデータを処理する（画質向上・データ圧縮・暗号化等を施す）機能等を有している。なお、図１が本発明の一実施形態についてその部材配置のあらましを示すためのものであることを重々承知されたい。カメラ１２０及びディスプレイ１１０を図示しない共通の枠乃至ハウジングに組み込んで端末３００の集積性を高めることや、その枠乃至ハウジングにサイト３６２又は３６４を構成する他の部材（プロセッサ３２０、通信コントローラ３５５、コンピュータ３４０、システムコントローラ３３０等）を組み込むことも可能である。

端末３００は、同じく図１に示す通り、採音装置（例えばマイクロホン）３２３及び鳴音装置（例えばスピーカ）３２４や、それらが接続されているオーディオプロセッサ３２５を備えており、そのオーディオプロセッサ３２５はコンピュータ３４０に接続されている。マイクロホン３２３の個数は１個でも複数個でもよい。マイクロホンの種類は指向性マイクロホンでも無指向性マイクロホンでもよい。即ち、音声信号を採取し、その音響エネルギを適切な形態へと変換してプロセッサ３２５に伝達することができればよい。そのプロセッサ３２５は、その音声信号を更に別の信号形態へと変換してコンピュータ３４０に供給する。マイクロホンには、このほかにも種々の音声通信用部材又はそれに類する補助部材を設けることができる。音声通信の分野で習熟を積まれた方々（いわゆる当業者）にとりそれらは既知のものである。スピーカとしては既知のスピーカ又はそれに類する部材を用いることができる。プロセッサ３２５から供給される音声信号に従い音響エネルギを輻射することができればよい。スピーカには、このほかにも種々の音声通信用部材又はそれに類する補助部材を設けることができる。音声通信の分野に係る当業者にとりそれらは既知のものである。プロセッサ３２５は、コンピュータ３４０から受け取った信号を必要に応じ相応の形態に変換し、その信号を鳴音装置３２４に供給することで可聴音や超音波を発生させ、それらを搬送波として音響エネルギを所定方向に輻射する。加えて、マイクロホン、スピーカ、プロセッサ３２５及びコンピュータ３４０には、こうした機能のほかに、音声信号／音響エネルギの採取／輻射時にそれらを補強する機能、例えば増幅、フィルタリング、変調等の既知手法による拡張処理機能を持たせることもできる。

ユーザ１０は、例えば図２に示すようなローカル環境乃至場面４１５で、自サイト（例えば３６２）の端末３００をインタラクティブに操作する。図示例ではユーザ１０が台所におり、そこにある機器例えばコンロ２７０で調理をしながら、本端末３００で通信を行っている。その端末３００は、台所の近くにある宅内調度例えばキッチンキャビネット２６５に、カメラ１２０及びマイクロホン（いずれも図示せず）がほぼユーザ１０の方を向くよう装着されている。図中破線で示されているように、カメラ１２０は角度幅（フルアングル）＝θに亘る撮影視野４２０内から、マイクロホンは採音視野４３０内からデータを採取する。

図３Ａ及び図３Ａに、端末３００及びその電子イメージング装置１００の一例構成を示す。特に図３Ａに詳示の通り、この装置１００は、表示画面１１５を有するディスプレイ１１０及びカメラ１２０のほか、ディスプレイ１１０のハウジング１４６内に収容され又は無線乃至有線で装置１００に接続されるコンピュータ３４０、システムコントローラ３３０、データストレージ３４５、通信コントローラ３５５等の部材を備えている。また、ディスプレイ１１０にはピクチャインピクチャ表示機能がある。これは、画面分割画像４１０を表示画面１１５の一部に表示させる機能である。この機能を担える電子式表示装置の例としては、液晶表示装置（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）、陰極線管（ＣＲＴ）、投写型ディスプレイ、光導波型ディスプレイ等がある。カメラ１２０としては、電子式カメラ乃至ディジタルカメラ、即ち撮像レンズ系及びイメージセンサ（いずれも図示せず）を有するカメラを使用している。そのイメージセンサの解像度は１〜１０メガピクセル程度、種類はＣＣＤ型又はＣＭＯＳ型アレイデバイスである。装置１００は、このほか、マイクロホン（群）、スピーカ（群）、環境光検知器１４０、動き検知器１４２、ユーザ用コントローラ(interface control)１９０等を備えている。環境光検知器１４０は、独立したセンサを装置１００のハウジング１４６に組み込むことで実現してもよいし、カメラ１２０自体に環境光検知機能を持たせること（独立した環境光検知器１４０を不要にすること）で実現してもよい。同様に、動き検知器１４２も、独立したセンサを装置１００のハウジング１４６に組み込むことで実現することができるほか、カメラ１２０及びマイクロホンに動き検知機能を持たせ、独立した動き検知器１４２を不要にすることもできる。図３Ａでは、更に、装置１００のハウジング１４６にユーザ用コントローラ（群）１９０が組み込まれている。これらのコントローラ１９０としては、例えばボタン、ダイアル、タッチスクリーン、その組合せ等のインタフェース部材を設けることができる。

端末３００は、他方の図３Ｂに詳示の通り、更に撮影システム３１０、音響システム等の電子システムを有している。撮影システム３１０はカメラ（群）１２０及びイメージプロセッサ３２０で、また音響システムはマイクロホン（群）、スピーカ（群）及びオーディオプロセッサ３２５で構成されている。コンピュータ３４０は、図中破線で示す通り、撮影システム３１０乃至そのプロセッサ３２０、音響システム乃至そのプロセッサ３２５、更にはシステムコントローラ３３０と連携して稼働する。なお、図中に破線で示した接続関係は端末３００における主要な有線又は無線接続関係の一例に過ぎない。しかも、これ以外の接続関係にすることも可能であるし、図示した以外にも様々な接続手段、例えば電源配線、内部信号線、データ伝送路等も必要になる。コンピュータ３４０は、更にユーザ追跡(user tracking)手順４８０、ユーザ識別(user identification)手順４７０、視線順応(gaze adaptive)手順４９５、データストレージ乃至メモリ３４５、ユーザインタフェース４４０等に接続され又は連携している。これらのうち手順４８０は動き検知器１４２における動き検知結果に基づきコンピュータ３４０上で稼働する相応のアルゴリズム、手順４７０はコンピュータ３４０上で稼働する相応のアルゴリズム、手順４９５は視線補正(gaze correction)及び視線追跡(gaze tracking)の両手順を含むアルゴリズムである。ストレージ３４５は１個又は複数個の部材、例えばコンピュータ用のハードディスク、フラッシュメモリ等や、複数の動画像フレームを保持できるフレームバッファ（動画像データの解析と調整を同時実行可能とするバッファ）で構成されている。インタフェース４４０は様々な物理的形態のユーザ用コントローラ１９０、例えばキーボード、ジョイスティック、マウス、タッチスクリーン、押しボタン、グラフィカルユーザインタフェース等を備えるほか、機能的には表示画面１１５もコントローラ１９０の一種である。プライバシ保護インタフェース４００やコンテキスト伝達インタフェース４５０、更には外見修正(appearance-altering)インタフェース４９０も、インタフェース４４０の一端を担っている。インタフェース４５０の一部はキュー依拠(cue-based)インタフェースとなっており、そのキュー依拠インタフェースもインタフェース４４０の一端を担っている。キュー依拠インタフェースの基本的な役目は、音声コマンド、音響キュー（抑揚、ピッチ等）、ジェスチャ、身体の姿勢等といった可解釈キュー(interpretive cue)を観測することと、それに対して端末３００が示すべき反応乃至応答を導出乃至決定することである。これらのインタフェースの土台をなすデータベース機能、解析機能及び制御機能は、コンピュータ３４０、ストレージ３４５、ディスプレイ１１０、カメラ１２０、コントローラ１９０等、種々の装置構成部材を利用して実現されている。

ユーザインタフェース４４０上に設けられたユーザ用コントローラ１９０のうちあるものは、まずシステムオンオフスイッチ、出力音量コントローラ、表示輝度コントローラ等の部材として使用される。これらはテレビジョン受像機やコンピュータ用モニタの分野でも一般的であるので容易にご理解頂けるであろう。コントローラ１９０のうちあるものは、端末３００に備わるテレビジョン視聴機能を制御するリモートコントローラ、即ちチャネル選択、記録媒体（ＤＶＤ等）へのテレビジョン録画の制御、当該記録媒体からの動画像コンテンツ再生の制御等の手段として使用することができる。コントローラ１９０のうちあるものは、端末３００に備わる電話機能の制御、例えば発呼、発呼者識別、電話帳管理等、電話機で一般的な諸機能の制御に使用することができる。コントローラ１９０のうちあるものは、カメラ１２０に備わるズーム、パン、ティルト等の機能の制御に使用される。そして、重要なことに、コントローラ１９０には自動機能もある。例えばユーザ識別手順４７０やユーザ追跡手順４８０を実行してカメラ（群）１２０に撮影を指令する機能である。従って、端末３００のユーザ１０は、シームレスで優雅な体験を享受することができる。

端末３００は、図３Ａでは１個としたが、図１及び図３Ｂに示した通り２個のカメラ１２０を有している。端末３００では、これらのカメラ１２０を所与の動画撮影セッティングに従い稼働させ動画像を撮影する。実際、端末３００に複数個のカメラ１２０を設けること、とりわけＷＦＯＶカメラ及びＮＦＯＶカメラを併用することは際立って有益なことである。ＷＦＯＶカメラ１２０用のレンズは、カバーできる視野４２０の角度幅即ちフルアングルθが一般に６０〜１２０°程度と広いカメラ用広角レンズであり、ＮＦＯＶカメラ１２０用のレンズはそのフルアングルθが一般に５〜１５°程度と狭い（固定焦点）望遠レンズである。カメラ間にビームスプリッタを配し対物空間側の光軸（及びレンズ）を共通化することも可能であるが、多くの場合、カメラ１２０及びそのレンズを分離させた方が有利であろう。その詳細を図４Ａに示す。この例では一方のカメラ１２０でＮＦＯＶ４２０を捉え、他方のカメラ１２０でＷＦＯＶ４２０を捉えている。この図では、上側に示されているＮＦＯＶカメラ１２０の撮影視野（ＮＦＯＶ）４２０は、もう一方のカメラ即ちＷＦＯＶカメラ１２０の視野（ＷＦＯＶ）４２０の中心に位置しているが、ＮＦＯＶカメラ１２０にはパン、ティルト、ズーム等の機能が備わっているので、リモート端末３００やコンピュータ３４０からの信号に応じパン、ティルト、ズーム等を自動調整しＮＦＯＶ４２０のサイズや位置を変化させること、ひいてはローカル環境４１５における人間のアクションを追跡させることができる。なお、ＷＦＯＶカメラ１２０の出力を画像処理してＮＦＯＶ４２０相当の画像データを得ることも可能であるが、ＮＦＯＶカメラ１２０を別体且つ専用のカメラにした方が画質が良好になる。

そのＮＦＯＶカメラ１２０は、ＷＦＯＶ４２０内に複数のＮＦＯＶ４２０が生じるよう複数個にすることもできる。また、図４Ａ及び図４Ｂに示す通りＮＦＯＶ４２０がＷＦＯＶ４２０内に丸ごと収まることが多いが、ＮＦＯＶカメラ１２０が複数個ある場合や、その居宅の状況がひどくめまぐるしく変化する場合等には、ＮＦＯＶ４２０がＷＦＯＶ４２０内に収まりきらないこともある。即ち、同じローカル環境４１５で同時に使用されるＮＦＯＶカメラ１２０・ＷＦＯＶカメラ１２０間で、それらの視野４２０間に部分的にしか重なりがないことや、全く重なりが生じないこともあり得る。

次に、ユーザインタフェース４４０、特にその構成部分たるプライバシ保護インタフェース４００及びコンテキスト伝達インタフェース４５０について説明する。インタフェース４４０は端末３００の構成部材のなかでも特に重要な部材であり、そのなかでもプライバシ及びコンテキストに関わるプライバシ保護インタフェース４００及びコンテキスト伝達インタフェース４５０は高度に工夫されている。そこで、その性質を好適に理解するため、ユーザ１０の振る舞い方や、ユーザ１０及びその家族の自宅での暮らしぶりについて、検討することとする。まず、端末３００が自宅にあれば、その家の住人（ユーザ１０）は、その端末３００をうまく使いこなしたいと思うものである。具体的には、多くのユーザ１０が、コンテキスト的に問題のあるコンテンツを認識及び制限するのに役立つユーザ用コントローラ（群）１９０を求めるものである。また、プライバシ管理には融通性や順応性が求められる。これは、期待されるプライバシ保護レベルが通信イベント毎に異なり、また人間毎、家族毎、世代毎、社会階層毎、文明圏毎及び宗教毎にも異なるからである。そのため、後述の通り、インタフェース４４０は、インタフェース４００及び４５０を通じ、ユーザ１０が種々のプライバシ保護セッティング(privacy settings)を制定して様々な洗練度のプライバシ管理を行えるようにしている。

特に、ユーザ１０による管制及びプライバシ保護に関する下記の要望事項は、様々な状況でユーザ１０から頻発しうる要望であると思われる：
・自サイトから送信される画像及び音声の内容を知りたい、またその送信を自分で管制したい；
・自分のプライバシが守られるようローカル端末３００に自動反応機能を設けて欲しい；
・動画通信イベントに誰かが新規参加したことを自サイトに知らせてもらいたい、またその参加可否判断に自分が関与したい；
・リモートユーザからの要求で自サイト内撮影視野が変更されたことを知りたい；
・撮影視野内にある被写体が写った画像の外見やコンテキストを自サイトで修正したい；
・他のユーザが画像を録画中であるか否かを自サイトに知らせてもらいたい。

これらの要望、ひいてはプライバシ保護インタフェース４００及びコンテキスト伝達インタフェース４５０の必要性について理解するには、次のような例を考えるとよいであろう。まず、図２に示した例では、ユーザ１０が、台所内環境４１５でコンロ２７０を扱いながら、端末３００を使用し動画通信システム２９０上での動画通信イベント６００に参加している。具体的には、遠くの知己と通話して指南を受けつつ調理を行っている。こうしたイベント６００を開催する際、多くのユーザ１０は、自分の身なりや自分のサイト３６２の見てくれを事前点検するものである。その事前点検で得心できない部分があった場合、無論、髪梳き、ゴミ拾い、片付け等を行い自分の身だしなみや環境４１５を綺麗にすることも可能であるが、ユーザ１０にしてみれば、その手間を省くため端末３００の機能でその部分をカバーして欲しいものである。ユーザ１０は、更に、そのイベント６００が始まったこと、特に動画撮影が始まったことを自分に知らせて欲しい、と望むであろう。ユーザ１０は、また、イベント６００が始まった後で生じた状況の変化、例えば自分のサイト３６２に存する環境４１５に新たな人物が現れたといった変化や、その環境４１５からそれまでいた人物が去ったといった変化に、ローカル端末３００が速やかに順応する（プライバシを保護しつつ撮影視野４２０を変更する）ようにして欲しい、とも望むであろう。ユーザ１０は、そして、そのイベント６００で撮影された動画像のデータ伝送、サイト３６２又は３６４における録画、話者追加による例えば二者間通話から三者間通話への移行等を操作乃至管制したい、と望むであろう。

こうした要望事項に応えるため、ユーザインタフェース４４０ではユーザ向け制御乃至管制機能を提供している。また、そのプライバシ保護インタフェース４００でデフォルト版（所定内容）のプライバシ保護セッティングが保持されており、ユーザ１０はインタフェース４４０によるプライバシ保護及びコンテキスト伝達の管理をそのデフォルト版プライバシ保護セッティングに委ねることもできる。従って、インタフェース４４０の操作を省くことができので、端末３００の日常的な使用がユーザ１０にとり負担になることはあまりない。更に、そのインタフェース４４０上に準備されているユーザ用コントローラ１９０は簡易操作型のものであるので、ユーザ１０は、イベント６００の開催前に、或いは開催中でも、プライバシ保護セッティング及びコンテキスト伝達セッティング(contextual settings)を手早く修正することができる。総じて、インタフェース４００は、各回動画通信イベントで修正されうる短期的プライバシ保護セッティングと、その修正頻度が割合に低い長期的（デフォルト版）プライバシ保護セッティングと、からなる二階層インタフェースになるので、ユーザ１０は、居宅間個人的動画通信時に送受信される動画像コンテンツの撮影、表示及び録画を基本的にはそのインタフェース４００の使用で管制することができる。端末３００による画像通信をこうしてプライバシ保護セッティング及びコンテキスト伝達セッティングに従い管制することで、大筋では、現代の個人的動画通信に必要とされるエチケットに従うことができる。

端末３００がリモートサイト３６４との接続に当たり使用するネットワーク技術は、地上伝送線（ケーブルや光ファイバ）を使用した電話接続やデータストリーミングである（このほか、無線、衛星通信、インターネット等も使用できる）。使用可能帯域幅上の制約から、ストリーミング動画像伝送技術はテレビ電話やテレビ会議の分野ではあまり使用されてこなかったが、この技術はなおも進歩を続けている。ユーザ１０は、新規の動画通信イベント６００をローカル端末３００で開始させることも、既存の電話接続をイベント６００に移行させることもできる。端末３００には、これを支援する招待６０５及び応諾６１０の機能が備わっている。そのイベント６００では、ユーザ１０が修正版を使用しない限り、デフォルト版プライバシ保護セッティングが適用されることとなる。端末３００は、そのデフォルト版プライバシ保護セッティングに従いサイト３６２，３６４間の通信をまず音声伝送のみで開始し、次いで動画通信に移行する。その際、ローカル端末３００は、リモート端末３００との間で、プライバシ言語プロトコル(privacy language protocol)に則り通信ネットワーク３６０越しにプライバシ保護セッティングを交換する。例えば、そのユーザ１０ａ，１０ｂが共に画像通信開始を承認すると、それらローカル端末３００及びリモート端末３００が銘々に又は一斉に動画像伝送へと移行する（ハンドシェイク手順）。また、この動画像伝送では、ネットワーク３６０を介しサイト３６２・３６４間で暗号化動画像データストリームをやりとりする。そのため、それぞれ相手側がその暗号を解読することができるよう、ローカル端末３００はリモート端末３００向けに、またリモート端末３００はローカル端末３００向けに、プライバシ言語プロトコルに則り電子鍵を発行する。更に、ローカル端末３００はローカルユーザ１０ａ向けに、リモート端末３００はリモートユーザ１０ｂ向けに、自サイトでの撮影が始まったことを通知する。そのためのフィードバック機構として、端末３００は、音響や光（例えばフラッシュ）を発するインジケータを備えている。このインジケータは、動画通信イベント開始時等に、動画像が撮影及び送信されることをユーザ１０に警告する。加えて、図示しないがカメラ１２０には物理的遮光シャッタが備わっている。ユーザ１０は、そのシャッタを見るだけで、現在の装置状態が自サイト内を撮影可能な状態か否かを知ることができる。

端末３００は、更なるプライバシ保護機能として、図３Ａに示す如く画面分割画像４１０例えばピクチャインピクチャ画像を表示させる機能を有している。具体的には、ローカルディスプレイ１１０の表示画面１１５のうち主要な部分を使用し、リモートサイト３６４及びそこにいるリモートユーザ１０ｂの画像を表示させると共に、ローカルサイト３６２で撮影されリモートサイト３６４に送られる動画像を、画像４１０として表示させることができる。従って、自分のディスプレイ１１０上の画像４１０を見ることで、ローカルユーザ１０ａは、ローカル端末３００で撮影されサイト３６４に送信されていく画像を、自分の目で確かめることができる。即ち、そのユーザ１０ａは、送信される画像のプライバシ保護レベルが所望レベルであることを確認し、必要に応じ調整する機会を得ることができる。

端末３００は、動画通信イベント６００の開始後に通信ネットワーク３６０越しの動画像伝送に不調が生じた場合、プライバシ言語プロトコルに則りそのネットワーク３６０越しに不調の事実を通知する。各端末３００は、インジケータたる警報器３５０を作動させること、例えば画面分割画像４１０上に相応のアイコンを重畳表示させることによって、自サイトのユーザ１０向けに伝送不調警報を発する。ローカルユーザ１０ａ及びリモートユーザ１０ｂは、不調が生じていることを相手との音声通話で知り、或いは自サイトの端末３００からの警報で知ることができる。それらのユーザ１０は、自サイトの端末３００に備わっているユーザ用コントローラ１９０のうち相応のものを使用することで、送信される音声信号を無音化（ミュート）させることや、送信される動画像を抑圧（ブランキング）させることができる。その操作は、そのイベント６００を中断することなく迅速且つ簡便に行うことができる。更に、動画像送信抑圧中に、その動画像を別の動画像又は静止画像に差し替えることもできる。

ユーザ１０は、至極もっともなことながら、動画通信イベント６００の内容がローカルサイト３６２やリモートサイト３６４で記録されるか否か、とりわけ動画像が録画されるか否かに関して、懸念するであろう。そのため、ローカル端末３００及びリモート端末３００では、自端末３００のプライバシ保護インタフェース４００によって提供されるプライバシ保護セッティングのうち相応のものに従い、動画像のローカル録画又はリモート録画に関するユーザ１０の承認を求め、その結果を示すステータス情報をプライバシ言語プロトコルに則りやりとりする。各端末３００は、相手側の端末３００から録画承認とのステータス情報を受信すると、録画（又は音声信号の記録）を開始し、そのことを相手側の端末３００に通知する。録画実行中は、サイト３６２，３６４の双方にて警報器３５０が作動する。例えば、ディスプレイ１１０によるアイコン表示やハウジング１４６外面に設けたライトの点灯によって、録画中であることが通知される。また、そのイベント６００が二者間通話から三者間通話へと切り替わるときには、プライバシ言語プロトコルに則り所定内容のデフォルト版プライバシ保護セッティングが送信されてくる。即ち、通話への参加意志が通知されてくる。ユーザ１０のなかには、プライバシ保護セッティングのうちサイト３６２又は３６４での録画に関する部分や、イベント６００の途上での多者間通話への移行に関する部分に対し、修正を施したいと望む者もいよう。また、ユーザ１０のなかには、ローカルディスプレイ１１０による画面分割画像４１０の表示をイベント６００の開催中は行わせないでおきたい、気が向いたら見ることができるよう録画しておきたい、と望む者もいよう。ユーザ１０は、ユーザ用コントローラ１９０を操作することで、プライバシ保護セッティング等のセッティングを修正し、これらの望みを簡単に叶えることができる。

ユーザ１０は、更に、ローカル端末３００に指示して撮影視野４２０等の撮影条件を変化させることができる。こうした機能を設けたのは、図２に示すように、端末３００のカメラ１２０をローカルサイト３６２例えば台所に向けたとしても、その視野４２０内に台所以外の居住スペースが部分的に入り込んでくるからである。ユーザ１０にも色々な都合があるので、サイト３６２内の余分な個所を視野４２０に入れたくないと思うことがあろう。そうした場合、ユーザ１０は、ドアを閉めるなり他の部屋の照明を消すなりしてローカルサイト３６２内視野４２０を制限することができるほか、ＮＦＯＶカメラ１２０だけを撮影に使用するよう求めるプライバシ保護セッティングを適用させることでも、視野４２０を制限することができる。これに加え、ＮＦＯＶカメラ１２０のパン、ティルト及びズーム動作を制限することで、端末３００の視野４２０及び動き追跡機能を各回動画通信イベント６００毎に制限することができる。

ユーザ１０は、また、ローカル端末３００で撮影された画像を電子的に修正し、撮影視野４２０の一部４２２が削除された画像を送信させることができる。ユーザ１０が領域４２２を指定して動画像から除かせる動機は幾つかあろうが、最たるものは自分や家族のプライバシを守りたいという想いであろう。図４Ａに、ＷＦＯＶカメラ１２０の視野（ＷＦＯＶ）４２０を示す。通信ネットワーク３６０経由でリモートサイト３６４に送信される画像は、修正対象として指定された部分４２２を、例えばクロッピングによって撮影済画像から削除したものである。ユーザ１０は、プライバシ保護インタフェース４００及びコンテキスト伝達インタフェース４５０を稼働させることで、ローカルサイト３６２を捉えた画像のうち高プライバシ部分(privacy sensitive area)４２２の外見を、このように修正させることができる。また、ユーザ１０は、それに適するプライバシ保護セッティングを予め制定しておくことができる。例えば、動画通信イベント６００が始まる前にプリビューモードで動画像撮影を実行させることで、人目に付き情動を刺激する画像構成要素乃至コンテンツを調べ、それを勘案してプライバシ保護セッティングを初期設定すればよい。勿論、イベント６００の最中でユーザ１０が撮影済画像に対する修正内容等を指定することもできる。なお、プリビューモードにおける設定操作は、表示画面１１５上の主たる領域を使って行ってもよいし、画面分割画像４１０が表示される領域を使って行ってもよい。

コンテキスト伝達インタフェース４５０は、高プライバシ部分４２２の画像コンテンツがプライバシ保護セッティング通りに修正されるよう、例えば場面解析(scene analysis)アルゴリズムに則りイメージプロセッサ３２０に指示し、撮影される画像からリアルタイムで修正版動画像信号を自動生成させる。このとき、その部分４２２を撮影済画像からクロッピングで削除してプライバシ保護上の問題を抑えるだけでもよいし、歪付加、ブラーリング（解像度低減）、シェーディング（輝度／コントラスト低減）等の視覚効果を施し隠蔽性の修正を図ってもよい。例えばシェーディングを使用すれば、天然の明暗移ろいに似た輝度勾配を付けることができる。端末３００で決めた場面解析ルールに従い適当な隠蔽性視覚効果を推奨するようにしてもよい。状況にもよるが、推奨された視覚効果又はそれに類する隠蔽性視覚効果を適用することで、部分４２２に対する隠蔽効果を発生させることができる。即ち、部分４２２にどのようなアクション、どのような物体が写っているかを、リモートユーザ１０ｂが容易に視認乃至推察できない修正版画像を得ることができる。更に、修正される部分４２２の形状を任意に指定することで、撮影視野４２０内の所望部分を修正例えば除去して画像を送信させることができる。

ローカルディスプレイ１１０は、こうしてプライバシ保護セッティングに従い削除乃至視覚効果が施された画像や、その部分を含めローカル環境４１５内をより広範囲に捉えた画像を、画面分割画像４１０として表示する。例えば図４Ｂに示す例では、環境４１５のうちＷＦＯＶカメラ１２０の視野（ＷＦＯＶ）４２０から捉えられた画像が、高プライバシ部分４２２として指定されたため送信対象域から除外されている部分を含め画像４１０としてローカル表示されている。カメラ１２０の可動範囲例えばパン、ティルト又はズームの可動範囲も、プライバシ保護の観点から制限されている。ＷＦＯＶカメラ１２０で捉えた画像をこうしてローカルディスプレイ１１０により画像４１０として表示させる場合、部分４２２に目印例えば陰影を付けてＷＦＯＶ４２０全域に亘る画像を表示させる。その目印を見ることで、ローカルユーザ１０ａは、現在どの画像領域及びコンテンツが隠蔽乃至除外されているのかを即座に理解することができる。また、これに代え、実際に送信される画像、即ちＷＦＯＶ４２０から部分４２２を除いた部分の画像を画像４１０として表示させてもよい。画像４１０としては、このほか、ＷＦＯＶ４２０のうちリモートユーザ１０ｂが現在見ているＮＦＯＶ４２０内部分だけを表示させることや、当該ＮＦＯＶ４２０内部分を含む大きなＷＦＯＶ４２０内画像をＮＦＯＶ４２０内部分指示目印（図示例では子供達を囲んでいる鎖線）と共に表示させることができる。

プライバシ保護セッティングは、ユーザ１０によって制定される段階では人知可能な画像コンテンツの形態をとっているが、端末３００を動作させる際には、端末３００の動作に適した形態、即ち動画像乃至音声データに準じた形態に変換する必要がある。この変換で得られるのは、画像中の隠蔽すべき部分４２２（その広さと場所）、その隠蔽を担う視覚効果（種類）、その隠蔽の規模・程度、身体的特徴、音声、ジェスチャ、ローカルユーザ１０ａ及びリモートユーザ１０ｂの身元、物品の種類等々、撮影及び送信される画像のコンテンツ及びコンテキストに関わるプライバシ保護セッティングパラメタである。これらは各回動画通信イベント６００毎に変わることもあれば変わらないこともある。図２に示した端末３００のように、そのローカル環境４１５にある宅内調度例えばキャビネット２６５に装着等して常用されるのであれば、それら部分的画像修正に関わるプライバシ保護セッティング及び対応するプライバシ保護セッティングパラメタをまとめてデフォルト設定しておけば、各回使用時に、それらのデフォルト条件を迅速に読み込み自動適用させることができる。また、端末３００の典型的な使用環境は判っているので、現存の環境４１５がどのような環境であるかを、コンテキスト伝達インタフェース４５０で場面解析アルゴリズムに則り認識し、所定のデフォルト版プライバシ保護セッティングのうちその認識の結果に相応するものを適用することができる。

こうしたプライバシ保護セッティングは、動画通信イベント６００又は場面６２０の切り替わりに対して割合に安定であるが、カメラ１２０や注目被写体の動きに対応するには、画像コンテンツへの適用形態を随時変化させる必要がある。そのため、プライバシ保護セッティングのうちユーザ１０の身体的プライバシを保護するためのもの、例えば撮影視野４２０内を動き回る裸の子供を隠すためのものを、その隠蔽の対象となる任意形状の修正対象部分４２２を適宜移動及び伸縮させてその部分４２２を衆目から守る、というセッティングにしてある。カメラ１２０が固定型である場合、こうしたプライバシ関連画像部分隠蔽処理を実行するには、視野４２０の形状・寸法に依拠しつつ、被写体に対するカメラ１２０の動きを補償する必要がある。そのため、コンテキスト伝達インタフェース４５０上の場面解析アルゴリズムでは被写体本位法を使用している。被写体本位法とは、プライバシ上問題になる部分としてユーザ１０がプライバシ保護セッティングで指定している部分４２２の存否及び位置を、被写体の画像を調べることにより認識し、認識した部分４２２をプライバシ保護セッティングパラメタにより被写体と関連付ける手法である。

加えて、ユーザ１０は、ローカル端末３００に対し充実したプライバシ保護機能を求めるものである。そのため、この端末３００では、事態の展開に相応するプライバシ保護セッティングを場面解析アルゴリズムに則り自動的に選定し、それを適用するようにしている。その際には、プライバシ保護セッティングパラメタに照らし且つプライバシ保護セッティング指標を用い、場面解析アルゴリズムに則って動画像を自動精査する。プライバシ保護セッティング指標は潜在するプライバシ問題を示唆する指標であり、画像の大きさ・形状・表面起伏等といった画像コンテンツに関するものも、また不適切な服装等といった画像コンテキストキューに関するものもある。場面解析アルゴリズムでは、プライバシ保護セッティング指標を用い撮影視野４２０例えば個々の動画像フレーム内の画像を解析することで、隠蔽対象となりうる修正対象部分４２２の所在及び位置を認識する。１個又は複数個のカメラ１２０から得られる直近の動画像フレームを評価し、従前の動画像フレームとの関係を精査するので、場面解析アルゴリズムによる解析処理の流れはスムーズで、その結果も良好なものになる。必要なら、プライバシ補正自信度を統計的に算出し、それに基づき部分４２２の認識結果を点検乃至評価した上で、動画像にその修正を施すようにしてもよい。場面解析アルゴリズムによる処理は、画像データを（プライバシ保護セッティング指標を介し）プライバシ保護セッティング（又は対応するパラメタ）と照合し又は連関させることで進行していく。それにより状況が整ったら、撮影された動画像を場面解析ルールの適用結果に従い直ちに自動修正する。これにより、ユーザからの指示（それを表すプライバシ保護セッティングパラメタ）、撮影条件、場面内コンテキスト等の要素に従い、認識済の修正対象部分４２２が隠蔽されることとなる。

また、端末３００は、主として個人の居宅で使用される端末である。個人の居宅では、場の静けさ、寛ぎ方、作法等が動画通信イベント６００の最中にしばしば変化する。例えば、端末３００の撮影視野４２０に新たな人物が入ってくる、といったことが起こる。端末３００は、その場合、ローカル環境４１５にその人物がいることを示す画像をリモートサイト３６４に送ってもよいか、コンテキストを踏まえて適切に対処しなければならない。また、新たな人物の出現に伴い未適用のプライバシ保護セッティングが幾つか急に適用可能になった場合、端末３００はその新たなプライバシ保護セッティングを認識、読込及び適用しなければならない。これらの応答、即ち動画撮影対象の新旧変転に対する応答の具体的な内容は、どのような状況で誰が入ってきたのかによって変わってくる。例えば、図４Ｃに示す例では、イベント６００が催されている環境４１５にローカルユーザ１０ａがいる。図示されている場面のうち第１の場面６２０では、通話を行っているユーザのうち一方（ユーザ１０ａ）がテーブルに向かって着席している。このユーザ１０ａは、ローカルディスプレイ１１０に表示されているリモートユーザ１０ｂの画像を見つめながら、大切な相談事についてそのユーザ１０ｂと有目的的な会話を交わしている。こうした場面６２０では、ユーザ１０ａを捉える視野４２０は狭めでもよい。これに対し、そのイベント６００が更に進んでユーザ１０ａ，１０ｂが寛ぎ始め、より取り留めなく話をするようになった場面６２０’では、ユーザ１０ａが席を立って鷹揚に振る舞うので、視野４２０はより広い方がよい。総じて、本発明の実施形態では、端末３００の対人対応動作、特にその端末３００が自動稼働しているときのそれを、その端末３００のコンテキスト伝達インタフェース４５０によって取り仕切ることができる。

端末３００は、図４Ｃに例示した一般的な筋書き以外の様々な筋書きでも使用されうる。寧ろ、動画通信イベント６００の初っ端からリラックスして取り留めのない話が交わされる筋書きの方が多いであろう。そのことを考えると、当初から広めの撮影視野４２０を使用する方がよい。そのため、動画通信イベント開始時のカメラ制御に使用されることが多いデフォルト版動画撮影セッティングは、視野４２０の全域又は大半をＷＦＯＶカメラ１２０で捉える内容にしておく。従って、リモートユーザ１０ｂは、少なくとも通信開始当初は、ローカルユーザ１０ａを取り巻くローカル環境４１５のコンテキストをよく知ることができる。その後イベント６００が進行すると、ユーザ１０ａ又は１０ｂが、ローカル環境４１５内のある限られた部分（ＮＦＯＶ）内を接写せよとの指示を発する局面も発生してくる。また、ユーザ１０ｂが、それまで撮影されていた個所から別の個所へとＮＦＯＶ４２０を移すよう（例えば図４Ｂ中でテーブル近辺から子供の近辺へとＮＦＯＶ４２０を移動させるよう）指示を発することもあろう。これらの指示は、ユーザ１０ａ，１０ｂのいずれからも、ユーザ用コントローラ１９０の操作で発することができる。視野４２０がこれらの指示に応じ変更された場合も、ユーザ１０ａは、画面分割画像４１０を見ることで、どのような動画像がリモートサイト３６４に送信されるのかを知ることができる。また、プライバシ保護インタフェース４００が稼働するので、ユーザ１０ａは、視野４２０を狭めよといったユーザ１０ｂからの指示を拒否、改変等することができる。視野４２０を狭める処理は、通信ネットワーク３６０経由でサイト３６４に送信される画像をイメージプロセッサ３２０でクロッピング又はズーミングすることで実行してもよいが、こうしたディジタルズームで得られる画像の質、特に解像度は、ある限界を超えると途端に低下する。従って、光学ズーム機能付のカメラ、ＮＦＯＶカメラ１２０又はその双方を使用した方がよい。なお、光学ズーム機能付のカメラとは、一般に、そのレンズアセンブリ内に何個かの可動レンズが配されたカメラのことである。この端末３００では、また、環境４１５内又はその付近にいるユーザ１０ａに対し、その視野４２０が及ぶ限りにおいて照準追跡するユーザ追跡手順４８０を実行することもできる。

端末３００は、こうして動画通信イベント６００が開催されている間、ローカルユーザ１０ａ及びリモートユーザ１０ｂによるインタラクティブな操作に応じ、その撮影視野４２０を適宜修正していく。更に、端末３００では、様々な状況で撮影動作を自動制御することで、ユーザ１０からの期待に応えるようにしている。即ち、コンテキスト伝達インタフェース４５０では、種々のアルゴリズム及びデフォルト条件を適用することで、その人が今起こしているアクションを解釈して動画通信コンテキストを調べ、端末３００による動画撮影のモード(video capture mode)をその結果に応じ従前のモードから新たなモードへと適宜変更させる。例えば、イベント６００の開始時にローカル環境４１５内をＷＦＯＶカメラ１２０で撮影する場合、端末３００は、そのＷＦＯＶ４２０内のどこかにユーザ１０ａの姿を捉えることができよう。コンテキスト伝達インタフェース４５０は、そのユーザ１０ａに対し時間制限及び空間制限を適用することで、ユーザ１０ａがその場所に所定時間（例えば３０秒）以上に亘り居続けているか否かを判別する。インタフェース４５０にて「居続けている」と判別された場合、この端末３００では、例えば表示画面１１５上で約３０％又はそれ以上の面積をその姿が占めるに至るように、ユーザ１０ａに向けてＮＦＯＶカメラ１２０をズームインさせる。インタフェース４５０では、更に、動き検知器１４２及びユーザ追跡手順４８０を稼働・実行させることで、環境４１５内又はその付近にいるユーザ１０ａに照準してその人物を追跡する（照準追跡(lock onto and follow)）。照準追跡する人物をユーザ種別、ユーザ身元、アクション種別等に基づき特定人物に絞ることも可能である。また、ユーザ１０ａの動きや居場所が拡がってきたら、インタフェース４５０では画面１１５に占めるユーザ１０ａの姿の面積比を変化させる。そして、端末３００は、これらの中間に相当する半自動モードで動画像撮影を行うこともできる。これは、ローカル又はリモートユーザ１０とインタフェース４５０が、撮影及び送信の対象となる場所を変化させることができ、且つそのユーザ１０にオーバライド特権があるモードである。

端末３００は、動画通信イベント６００の開催中に誰かがそのローカル環境４１５の撮影視野４２０に出入りしたときには、より複雑な動作を実行する。例えば、その環境４１５からローカルユーザ１０ａ（特にその時点でたった一人のローカルユーザ１０ａであった人物）が退出した瞬間に、それに伴うローカル画像コンテンツの変化に直ちに順応するための動作、具体的にはその撮影視野４２０をＷＦＯＶ又はＮＦＯＶ４２０に変化させる動作を実行する。端末３００では、このように視野４２０を変転させユーザ又はそのアクションの変化に対応する動作を、ユーザ１０による直接入力に応じて、或いはユーザ１０が制定した動画撮影セッティングに従い実行する。端末３００は、或いは、ユーザ１０ａが戻ってくるまでの間、送信する画像を静止画像やローカル環境４１５以外の画像に差し替える。また、その撮影視野４２０に新たな人物が入ってくる状況にも、端末３００は順応することができる。即ち、ローカルサイト３６２でそれ以前からそのイベント６００に参加しているユーザ１０ａが通常はそのことに気づくので、そのユーザ１０ａから発せられる指令に応じ視野４２０を拡張、縮小又は移動させることで、その人物を視野４２０に取り込み又はその視野４２０から外すことができる。

端末３００は、更に、コンテンツに変転が生じたときに、そのコンテキスト伝達インタフェース４５０の動作で撮影視野４２０を順応的に自動変転させる。例えば、動画通信イベント６００への人物の出入りを、それらの人々がアクションを起こしている場所及びそのアクションの持続時間(location and duration of activity)に基づき認否する。即ち、そのアクションの場所及び持続時間にまつわる種々のキューから動画通信のコンテキストを認識するので、インタフェース４５０では、動画像、音声、プライバシ、場面内又は場面間変転管理等の諸条件を充足させうるように、動画撮影モードを決めることができる。特に、アクションの場所及び持続時間を調べて場面の変転を認識するには、そのアクションの範囲、規模及び速度に関する量的指標があればよく、そのアクションの種別がわからなくてもよい。

端末３００は、アクションの場所及び持続時間についてのデータを様々な形態で利用する。例えば自動モードで動画像撮影を行いながら動画通信イベント６００に参加中の端末３００では、コンテキスト伝達インタフェース４５０による決定に基づき、ＮＦＯＶカメラ１２０でＮＦＯＶ４２０内を撮影して得られる動画像（例えば図４Ｂ中の少年達の画像）を送信する動作と、ＷＦＯＶカメラ１２０でより広い視野（例えば図４Ｂ中のＷＦＯＶ４２０）内を撮影しローカル環境４１５にいる人々のアクションを広範囲に監視する動作とを、同時並行的に実行することができる。このとき、インタフェース４５０では、そのアクションの場所及び持続時間にまつわる種々のキューを利用することで、ＷＦＯＶ４２０から得られた画像のうちその時点で動画像として送信されていない外側部分を解析し、リモートユーザ１０ｂの関心を惹きそうな画像を探す。インタフェース４５０がこの監視に当たり依拠する場面解析アルゴリズムは、ＷＦＯＶ４２０から得られる画像を相応の指標及びルールに基づき評価し、発生している変転の性質をユーザ１０ａのアクションに基づき検知するアルゴリズムである。なお、送信される動画像は、ＮＦＯＶ４２０又はその一部を捉えた画像、ＷＦＯＶ４２０又はその一部を捉えた画像、それらを任意に組み合わせたコンポジット画像等のなかから、プライバシ保護インタフェース４００から課される制限の下に、インタフェース４５０で選定したものである。

コンテキスト伝達インタフェース４５０では、ＷＦＯＶ４２０のうち動画像として送信されない外側部分での人々のアクションを監視するのに、カメラ１２０で捉えた画像だけでなく、マイクロホン１４４で捉えた音声データも使用することができる。マイクロホン１４４の採音視野４３０はローカル環境４１５の物理的形状と相俟って決まるので、撮影視野４２０とは広狭の差がある。一般には視野４３０の方が広くなるので、主には撮影視野４２０からのデータに従い端末３００を稼働させることにしつつ視野４３０も監視することで、人物の出入り等に早期対応することができる。

即ち、この機能を利用しＷＦＯＶ４２０及び採音視野４３０の双方を対象に人々のアクションを監視することで、ローカル環境４１５への人々の出入りをより好適に検知することができる。具体的には、コンテキスト伝達インタフェース４５０上で種々の場面解析アルゴリズムを稼働させることで、新たな人物（潜在的な被写体乃至ユーザ１０）がローカル環境４１５の主要部例えば中央部に入ってくるのか、それともその環境４１５の辺縁部を過ぎるだけかを、予測、判別することができる。その際に使用するデータとしては、まず最新の動画像フレームに係る画像データ及び従前の動画像フレームに係る画像データがある。場面解析アルゴリズムでは、それらのデータのうち辺縁部でアクションを起こしている人々のいる場所及びそのアクションの持続時間にまつわるものを、画像エリア、時間しきい値及び動き追跡データを参照して調べる。参照されるデータとしては、更に、動画通信コンテキストに関連するコンテキスト伝達データ(contextual data)がある。コンテキスト伝達データとはユーザ種別(user clasification)、ユーザ身元(user identity)、イベント種別(event classification)、ユーザ１０のアクション・ジェスチャ・挙動のコンテキスト種別(contextual classification)等といったデータのことである。場面解析アルゴリズムでは、後述の如く、現在ＮＦＯＶ４２０外にどのようなアクションが見られるかを監視・解析する際、このデータを使用する。即ち、場面解析アルゴリズムでは、それら画像データ及びコンテキスト伝達データに基づき、且つ相応する場面解析ルールに従い、辺縁部でのアクションを動画撮影対象に含めるべきか否かを判別する。例えば、その辺縁部から検知されたアクションが動画像に係る所定のコンテキスト、例えば一時的なアクションに該当する場合、そのアクションがプライバシ保護セッティングに抵触しないものであれば、送信する動画像に含めてもかまわない。この後は、場面内調整(scene adjustment)ルールに従い撮影形態修正(capture transition)アルゴリズムを稼働させ、撮影視野４２０を変化させる速度及びタイミングを決定する。

例えば、新たな人物がローカル環境４１５に入ってきそうであるとする。その場合、コンテキスト伝達インタフェース４５０では場面解析アルゴリズムに従い予測を行い、本当にその人物がその環境４１５の主要部に入ってくるのかそれとも辺縁部を過ぎるだけかを判別する。辺縁部を過ぎるだけ、という判別結果なら、その端末３００ではその人物を単に無視する。これに対し、実際に入ってくる見込み、という判別結果であれば、それまで捉えていた狭い範囲よりも広い範囲を捉えるよう、即ち元々そこにいたローカルユーザ１０ａだけでなく新たにやってきた人物（新たにユーザ１０ａの一人となった人物）も捉えることができるよう、端末３００の視野４２０を拡張させる。インタフェース４５０では、それらのユーザ１０ａが暫しその場所に一緒にいると、場面解析アルゴリズムに従い端末３００の視野４２０をユーザ１０ａの居所へと狭めるよう指示し、カメラ１２０又はイメージプロセッサ３２０がその指示に従い動作する。インタフェース４５０では、それまでその視野４２０に捉えていたユーザ１０ａのうち一人又は複数人が立ち去っていく状況にも、同様にして順応することができる。例えば、それらのユーザ１０ａが立ち去っていくことが判るように、視野４２０を拡張させる。また、現在ＮＦＯＶ４２０内にいる人物がＮＦＯＶ４２０の辺縁部又は外部にいる別の人物と会話を始めたことを認識したときも、インタフェース４５０では必要であると判断し、後者の人物まで包括されるように端末３００の視野４２０を拡張させる。なお、ユーザ１０は、音声コンテキストを非常に厳しく制限する内容のプライバシ保護セッティングを制定することができる。例えば、同じ動画通信イベント６００又は場面６２０が続いている限り、誰が関心を持ちそうでも、そのときの視野４２０外でのアクションを排除し続ける、という内容にすることができる。

端末３００のコンテキスト伝達インタフェース４５０は、更に、ユーザ種別に依拠するタグをキューとして用いつつコンテンツ撮影及びコンテキスト変転を管理し、動画像コンテキスト及び相応しい動画撮影モードを決定する、という手法でも変転を管理する。例えば、動画通信イベント開始時に、それに参画しているローカルユーザ１０ａに対しその動画通信イベント６００について「一次ユーザ」なるタグを付与する。具体的には、顔認識手順乃至アルゴリズムと音声認識手順乃至アルゴリズムとを併含するユーザ識別手順４７０を、インタフェース４５０と共に稼働させることによって、端末３００は、ユーザ１０ａに対し、「一次ユーザ（初期ユーザ）」「二次ユーザ」「第１成年ユーザ」「第２成年ユーザ」「第１未成年ユーザ」「第２未成年ユーザ」等の含意的な分類子乃至識別子を付与する。このとき、端末３００のインタフェース４５０でユーザ１０ａの真正な身元（名前、関係、年齢等）を知る必要はなく、タグ付け即ちユーザ分類に十分なデータがあればよい。付与されるタグの有効期間は通信イベント１回限り又は複数回である。ユーザ１０ａのうち動画通信イベント開始時に参画していた人（初期ユーザ）、成年に達している人、以前に使用したことがある人等には優先度の高いタグを付与する。例えばローカル環境４１５の撮影視野４２０内にタグ「一次ユーザ」「二次ユーザ」「第１未成年ユーザ」を有する三者が収まっている場面６２０から、そのうちの「一次ユーザ」が立ち去りつつあることを察知した場合、インタフェース４５０では、そのユーザ１０ａの立ち去る姿がカメラ１２０で捉えられるよう、暫くの間端末３００の視野４２０をＷＦＯＶ４２０へと拡げさせる。その後、インタフェース４５０では、後に残った「二次ユーザ」及び「第１未成年ユーザ」のアクションがより好適に捉えられるように視野４２０を狭めさせる。インタフェース４５０では、そのイベント６００が続いている間は、ＷＦＯＶ４２０及び採音視野４３０の監視及びそれにより得られる画像データに基づく辺縁部内アクションの解釈を続ける。即ち、インタフェース４５０では、辺縁部にいる人物及びそのアクションの重要性を場面解析アルゴリズムに則り判別する。例えば、上述の階層的タグ体系に見合った場面解析ルールに従い重要性を判別する。重要と見られる人物又はアクションを特定した場合、インタフェース４５０では、ＷＦＯＶカメラ１２０か複数個のカメラを稼働させることで、その人物が包括されるように視野４２０を拡げて動画像撮影を継続させる。単独画像又は画面分割画像４１０を用いることで、ローカルディスプレイ１１０による表示も然るべく拡げる。

更に、この端末３００で想定している主な使用場所は居宅である。なかでも所帯持ちの居宅では状況変動が生じやすく、例えばパーティ、家族夕食会、ゲーム大会等といった様々なイベントが開かれる。ローカルユーザ１０ａは、そのイベントに相応しいものとなるよう撮影視野４２０を設定し、その全域を端末３００によって撮影及び送信させることができる。また、コンテキスト伝達インタフェース４５０には、開かれるイベントに自動順応する機能がある。その際、インタフェース４５０では、一群のイベント種別データをキューとして用いつつそのイベント乃至アクションの種別を認識し、動画通信コンテキスト及び適切な動画撮影モードを決定する。例えば、開催されているイベントの種別（イベント種別）がインタフェース４５０にて“パーティ”と認識されると、端末３００はそれに応じた動作を実行する。このイベント／アクション認識機能はイベント種別データセットに依拠しており、そのデータセットは種々のアクションの量的記述子を含んでいる。その量的記述子としては、イベント関与人数、使用ジェスチャ、使用時間帯、被写体乃至音声認識結果等のデータを使用することができる。イベント種別の記述に使用できるデータとしては、このほか、温度、日照、湿度、風等に関する環境条件データ等がある。

そのコンテキスト伝達インタフェース４５０は、手始めに、そこにいる人々の身元、アクションの内容、アクションの場所等に関わりなく、端末３００の撮影視野４２０を広めにして撮影を開始させる。インタフェース４５０は、また、イベント種別や場所種別を被写体認識を通じて認識する。例えば椅子、テーブル、机、ソファ、自動車、芝刈り機、煉瓦、窓、絨毯、木目床、コンクリート床等の可認識被写体は、通常、ある特定の種類の部屋及びそれが使用されるイベントを示唆しているので、それらを認識することでそのイベントの開催場所を認識し、そこで開かれているイベントの種別（家族夕食会・パーティ・カードゲーム会・お茶会・寄り合い・井戸端会議等の別）を認識することができる。インタフェース４５０は、更に、そのイベントに相応しい一群のイベント撮影ガイドラインを適用する。このイベント撮影ガイドラインに組み込まれるのは、撮影視野４２０の設定、音声処理、所要照明、プライバシ要素、視線補正、追跡等の要素である。インタフェース４５０は、また、そのイベントでのアクションに見られる変化、例えば家族夕食会の後片付けが済んでボードゲーム遊びが始まったこと等を監視によって察知し、それらの変化の過程を通じ随時暫定版の動画撮影セッティングを適用して動画像の撮影及び表示動作、採音動作等に係る変転を取り仕切る。更に、インタフェース４５０は、キュー依拠評価アルゴリズムを手助けとしてこのイベント解釈を実行する。このアルゴリズムは、諸音声要素（抑揚、ピッチ、ラウドネス、拍等）、ジェスチャ、姿勢等の可解釈キューを観測し、その結果に基づきアクションの性質を判別し、然るべき撮影動作や採音動作を指示するアルゴリズムである。そして、他の場合と同様、ユーザ１０は、自動モード下でインタフェース４５０が発した撮影関連の指示をオーバライドすることができる。

また、一般の居宅では、子供達や愛玩動物や隣人達が動き回り動画通信イベント６００の最中に撮影視野４２０に入り込んでくること、例えばよそ様に見せたくないほど散らかった家の中を裸の子供達がうろつき回ることも珍しくない。コンテキスト伝達インタフェース４５０では、そうした状況が発生したことを速やかに認識して相応の指示をイメージプロセッサ３２０宛に発し、プライバシ保護上問題となる部分にブラーリング（ぼかし）又はクロッピング（削除）を施させる。実際、プライバシ保護インタフェース４００にデフォルト版のプライバシ保護セッティングを組み込む際には、この種のブラーリングやクロッピングについて規定することが必須となろう。

更に、居宅内で家族員等が好適に共用できるようにするため、端末３００には、ユーザ身元データをキューとして用いつつ個々の人物の身元を認識し、動画像コンテキスト及び適切な動画撮影モードを決定する機能が備わっている。前述の通り、この端末３００には顔認識、音声認識、バイオメトリクス認識（例えば指紋認識）、その任意の組合せ等の認識手法に基づくユーザ識別手順４７０が実装されているので、それを使用することによって、撮影視野４２０内にいる個々人の身元を認識することができる。例えば、顔認識を利用し家族員同士で端末３００を共用する場合、個々の家族員の良質な顔画像を端末３００に登録するため、まずその端末３００に初期設定動作を実行させる。その初期設定動作では、その家に住んでいる個々の家族員（ユーザ１０）の顔画像を端末３００に撮影させ、次いでその顔画像を所定の解析アルゴリズムに従い処理させる。この解析は、その顔画像に写っているユーザ１０の姿勢及び照明状態がロバスト且つリアルタイムな個人識別に耐えうる程度に良好か否かを調べる解析である。例えば特許文献３４（発明者：Shoupu et al.、譲受人：本願出願人、名称：顔面起伏位置特定方法及びそのためのコンピュータプログラム(Method and Computer Program Product for Locating Facial Features)）に記載の顔認識アルゴリズムはこの処理に利用することができる。この初期設定動作では、こうして各人毎に１枚又は複数枚の高品質顔画像を生成し、それらの画像を基準画像４６０（図５Ａ参照）として保存する。また、ローカルユーザ１０ａは、その画像４６０に写っている人物の身元データ（例えば名前）をテキスト入力や音声認識で端末３００に入力することができる。ユーザ１０ａは、更に、同居はしていないが自分達にとっては近親者で時々は往来のある人物の身元を端末３００に登録すること、例えば別宅に住んでいて時折来訪する祖父母達の身元を登録することができる。再来者に対してはコンテキスト伝達インタフェース４５０でも自動的にラベルを付して追跡を行う。人物名付画像データ、例えばスキャン画像データを入力してもよい。身元や続柄（家族か友人か等）を表すこうした身元データは、入力後はインタフェース４５０によって管理されることとなる。

これらのユーザ身元データは、端末３００に実装されている種々のプライバシ乃至コンテキスト関連機能で活用できる。まず、この端末３００には、パスワード、音声認識、顔認識等のアクセス制御手段を用いユーザ１０を認証する機能がある。これは、プライバシ保護インタフェース４００上のプライバシ保護セッティングを改変する権限のある筆頭ユーザや、プライバシ保護セッティングにアクセスする権限はないがプライバシ保護セッティング及び動作オプション制限の許に端末を利用することはできる他種ユーザを認証する機能である。端末３００に動画撮影や送信を行わせる権限を筆頭ユーザだけに認め他種ユーザには端末３００へのアクセス自体を認めないようにすることもできる。端末３００を家族員で共用する場合、家族員のなかでも年長者が筆頭ユーザとされ、同時に前掲の一次ユーザ（初期ユーザ）ともされることが多いであろう。コンテキスト伝達インタフェース４５０では、プライバシ保護インタフェース４００と連携しつつユーザ識別手順４７０を実行させることで、撮影視野４２０内の人物のうち誰がプライバシ保護セッティング改変権限を持ち誰が持たないのかを把握する。また、端末３００はユーザ名及びパスワードの入力も受け付けるので、手順４７０では筆頭ユーザと認識され得ない人物が筆頭ユーザ名及びそのパスワードを入力し筆頭ユーザとして認証を受けること、例えば筆頭ユーザからプライバシ保護セッティング改変権限を一時的に譲り受けることもある。更に、筆頭ユーザは、インタフェース４００を用い人物毎にプライバシ保護セッティングを制定することができる。インタフェース４５０では、動画通信イベント６００の開催中に手順４７０に従い既知の人物を捜し、認識できた人物を相応のプライバシ保護セッティングに対応付ける。そのプライバシ保護セッティングには、その人物が使用できる視野、その人物に連絡できるアドレス乃至電話番号、記録オプション等の事項に関する制限規定を含めることができる。

ユーザ身元データは、更に、動画通信イベント６００に自動モードで参加中のローカル環境４１５にて、コンテキスト伝達インタフェース４５０によるイベント解釈にも使用される。例えば、ＷＦＯＶ４２０の辺縁部等、ＷＦＯＶカメラ１２０の視野（ＷＦＯＶ）４２０内だがＮＦＯＶ４２０外の位置に既知の被写体乃至ユーザ１０が長々と居座っていることをユーザ識別手順４７０の実行を通じて認識すると、インタフェース４５０は、ユーザ身元データを動画撮影優先順位決定用階層ツールとして有効活用しながら、その人物がローカルユーザ１０ａにとりどの程度重要な人物であるのかを判別する。インタフェース４５０は、その辺縁部居座りユーザ１０が一次ユーザ（当初ユーザ）１０にとり相応に重要な人物であると認めた場合、一次ユーザ１０及び辺縁部居座りユーザ１０のアクションが共に撮影されるよう視野４２０を拡張させる。辺縁部居座りユーザ１０のアクションを捉え、ローカルディスプレイ１１０上に第２画面分割画像４１０’として表示させることや、一次ユーザ１０及び辺縁部居座りユーザ１０の画像を、画面分割画像としてリモートユーザ１０ｂに届けることもできる。図６に、リモートサイト３６４でそこのユーザ１０ｂ向けに表示画面１１５上に表示される画像の例を示す。この例では、そこのサイト３６４内の環境を示す画像を画面分割画像４１０として表示する一方、画面１１５のより広い部分を利用し、他のサイト３６２内の環境を示す２個の画面分割画像４１０’及び４１０”（互いに異なる部位におけるアクションを捉えた画像）を表示している。サイト３６４でこうした表示が行われているとき、ローカルサイト３６２では、例えば、サイト３６４で表示中の画像４１０’及び４１０”に相当する画像か、ＷＦＯＶ４２０内の全てのアクションを捉えた画像を、画像４１０として表示させる。より一般的な表現でいえば、ローカルディスプレイ１１０の画面１１５に表示される複数個の画面分割画像、例えばローカル撮影コンテンツに係る画像４１０、サイト３６４側ＷＦＯＶ４２０内を捉えた画像４１０’、サイト３６４側ＮＦＯＶ４２０内を捉えた画像４１０”等をローカルユーザ１０ａは看取することができる。画面分割画像やピクチャインピクチャ画像を表示させるのではなく、複数個のディスプレイを用い複数個の画像を表示させてもよい。

ローカルユーザ１０ａは、当然のことながら、辺縁部居座りユーザ１０を撮影しその画像をリモートサイト３６４に送信する機能をオーバライドすることができる。また、辺縁部居座りユーザ１０の姿を撮影、送信し画面分割表示させる機能を、手動モードで稼働中の端末３００で使用することもできる。更に、リモートユーザ１０ｂに見せる画面分割画像にローカル環境４１５内の様々な（恐らくは互いに無関係な）アクションが写っている場合に、ユーザ１０ｂがそれらのうち任意のアクションに係る音を聞き取れるようにすることができる。例えば、電子イメージング装置１００の音響システム部分を構成する指向性マイクロホン１４４及び指向性スピーカ１２５を使用しユーザ１０ｂによる聞き分けを容易にすることや、ミュート機能を使用して不要な音声信号を抑圧し聞き取りたい音声を残すことや、音声認識ソフトウェアを音声信号に適用して話者音声を解釈しテキストを生成することができる。生成したテキストは、ユーザ１０ｂ向けに字幕４１２（図６参照）又は話者ラベルとして表示させることができる。

コンテキスト伝達インタフェース４５０では、更に、ローカルユーザ１０ａとリモートユーザ１０ｂの関係性／親密性を示すデータを利用する。例えば、顔画像データ、音声認識、リモートユーザ位置（電話番号やＩＰアドレスの類）等といった含意データ(semantic data)を利用することで、ユーザ１０ｂのなかにユーザ１０ａにとり親密な人物がいた場合にその人物を認識する。即ち、インタフェース４５０は、ユーザ１０ａにとり親、祖父母、友人、家族等に該当するユーザ１０ｂを認識する。インタフェース４５０は、認識したユーザ１０ｂの興味関心について認識結果に基づき判別する。例えば、そのユーザ１０ｂがユーザ１０ａの親であるのなら、ユーザ１０ａがいる主要部とは別の場所（但し同じローカル環境４１５内）にいる子供又は子供達（そのユーザ１０ｂから見て孫）がそこで何をしているのか、そのユーザ１０ｂが関心を抱くものと判別する。インタフェース４５０は、こうした判別の結果に基づきローカル端末３６２及びリモート端末３６４に要求し、ローカルサイト３６２及びリモートサイト３６４双方のディスプレイ１１０に、ローカル環境４１５内主要部の画像と子供所在部の画像を、共に画面分割画像として表示させる。その際には、ローカル端末３００のプライバシ保護インタフェース４００によって保持されているプライバシ保護セッティングも適用されるが、その形態はユーザ１０ｂの身元によって変わってくる。例えば、ユーザ１０ｂがユーザ１０ａの親であると認識された場合、ユーザ１０ａの子供はユーザ１０ｂの孫であるから、脱衣した子供の裸を隠すように定めたプライバシ保護セッティングを適用する必要性は低い。また、動画通信イベント６００の途中でユーザ１０ｂ又はその顔ぶれに変化が生じたことを例えば顔認識により認識した場合、ローカル端末３００は、適用するプライバシ保護セッティングを自動的に切り替える。プライバシ保護セッティングの切替方は状況によって変えるので、速やかな場合も、ゆっくりな場合も、遅らせる場合もあり得る。インタフェース４５０は、更に、受信データ例えばサイト３６４発の動画像データを、サイト３６２のプライバシ保護セッティングに合致するよう編集する。この編集で、例えば裸体が隠され或いは罰当たりな言葉が削除されるので、ユーザ１０ａの意志に反しローカル環境４１５内にそれらが侵入することを防ぐことができる。

コンテキスト伝達インタフェース４５０では、また、前述した幾通りかの動画撮影モードを提供する。ユーザ１０がそれらの動画撮影モードのうちいずれかを指定すると端末３００がその動画撮影モードで稼働するので、ユーザ１０は自分達のアクションを撮影しリモートサイト３６４に送信する動作をそのモードで行わせることができる。動画撮影モードとしてはＷＦＯＶ撮影専用モードのほかに追跡機能のあるモード群が準備されている。後者は、端末３００に備わるズーム、パン及びティルト機能を活かし、そのローカル環境４１５で人々がアクションを起こしている場所の特定や、そのアクションを端末３００に追跡させるモード群であり、ユーザ１０の多くはこちらの方を好むであろう。コンテキスト伝達インタフェース４５０が重要であるのは、人物やそのアクションの重要性をローカル環境４１５との関係で認識できるためである。インタフェース４５０には、更に、そのＷＦＯＶ４２０内を監視しその環境４１５内で何が行われているのかを調べさせる動作と、そのＷＦＯＶ４２０とは大分違う視野４２０内を撮影させる動作とを、同時並行的に実行できる、という重要な特徴がある。しかも、人物やそのアクションの変転（移り変わり）等に応じそれらの動作を自動実行させることができる。また、この端末３００で使用できる動画撮影モードには前述の通り幾通りかのモードがある。それらを表１に示す。この表では、自動モードに幾通りかの種類があることや、それらの間に定義の違いがあることも記されている。その違いの基礎となる動画通信のコンテキスト及びコンテンツとしては、１）そのユーザの種別、２）そのユーザの身元、３）ユーザに対する照準追跡の結果、４）その環境乃至領域内で人々がアクションを起こしている場所及びそのアクションの持続時間、５）イベント種別等が示されている。例えば、ユーザ種別データやユーザ身元データに基づき優先順位を付けて動画像撮影を行う際には、前述の通り階層的手法で動画像のコンテンツを選別することができる。また、ユーザに対する照準追跡を行いつつ動画像を撮影する際には、ユーザ身元データに基づき又はイベントをより重視し、例えばピエロの追跡等を行うことができる。こうした自動モードでは、アクションそのものではなくアクションの場所の認識結果に基づき、或いはジェスチャ、ユーザ音声キュー、ユーザ挙動等についての認識結果に基づき、動画像撮影を行って動画像の撮影／処理動作に施すべき修正の内容を決めることができる。更に、動画撮影モード間の定義の違いは、そのもとになるイベントの種別によってももたらされうる。例えば大勢でパーティを行っている場面で使用される動画撮影セッティングは、相談事があって個人的に通話している場面で使用される動画撮影セッティングとは、大きく異なるものになろう。

使用される動画撮影モードは、動画通信イベント６００毎に切り替わることもあれば、同じイベント６００内で切り替わることもある。その切り替わりが端末３００の自動動作で引き起こされることもあれば、ユーザ１０からの指示で行われることもある。例えば、ユーザ用コントローラ１９０を操作することで、ユーザ１０は、コンテキスト示唆キュー(contextual cue)を利用しイベント相応の撮影及び変転管理を行うモードや、端末３００の移動に順応しつつ撮影及び変転管理を行うポータブルモードや、照明条件等の環境条件を認識しそれに順応するアウトドアモード等といった動画撮影モードを指示することができる。これらの動画撮影モードには、撮影視野４２０内にいる人物やそのアクションに反応する機能だけでなく、視野４２０内にいる人物又はそのアクションを解釈及び予測する機能もある。コンテキスト伝達インタフェース４５０では、コンテキスト及びプライバシとの関連でそうした解釈予測機能を担うべく様々なやり方で含意データを利用し、今の動画像コンテキストに代わる新たな動画像コンテキストや、それに相応する動画撮影モードを特定する。なお、含意データとは人知及び体験に関わるデータ、例えばイベント、人物のアクション、人物の異同、場所、被写体、音楽ジャンル等に関するデータである。含意データに関連付けうる情報資源としては、画像レコード、音声レコード、データファイル等がある。

そのコンテキスト伝達インタフェース４５０は、これまで詳細に説明してきた画像認識／解釈関連の諸動作のほかに、音声に関しても重要な動作を実行する。前述した音声認識に関わる動作、音声コマンド及びキューを利用した動作、採音視野４３０を監視する動作、音響を利用した動き追跡及び測位動作等々である。これにまつわる問題は数多いが、そのなかでも問題なのは音質である。音質が低いと、良質な音響的ユーザエクスペリエンスを端末３００からリモートユーザ１０ｂにもたらすことができないので、音響システムには幾つかの工夫が施されている。まず、ユーザ１０は、相応のユーザ用コントローラ１９０を操作することで、音響システムのトーン感度を修正（バス／トレブル調整）することができる。また、端末３００に複数個備わる前述のマイクロホンのうち指向性が鋭い１個又は複数個を利用することで、雑音源の所在を突き止めることや音源乃至音声源の位置を個別に認識することができる。更に、オーディオプロセッサ３２５に相応の処理を実行させることにより、音響システムにノイズキャンセル機能やノイズリダクション機能を持たせ、音響的ユーザエクスペリエンスを向上させることができる。また、ユーザ１０ｂによる聞き取りを邪魔する音響、例えばローカル環境４１５の周囲で発生する車両騒音、犬の吠え声等の環境音や、電子雑音等の雑音を減らすことが重要であるが、流れている音楽等の環境音をユーザ１０ｂに聞かせたい場合もあるので、音質調整用のユーザ用コントローラ１９０も設けてある。そして、インタフェース４５０では、拍手の音、笑い声、鳴き声、犬の吠え声、猫の鳴き声等が登録された非音声音響キューデータベース乃至ライブラリも使用する。このデータベース乃至ライブラリには、汎用性のある音響キューだけでなく、その端末３００が使用される居宅、使用する人物又は使用される場所に固有の音響キューも登録しておくことができる。従って、動物達の基準画像４６０や基準音声を作成し、その端末３００に登録しておくことができる。

それら、音響キューの利用がとりわけ役に立つのは、そのコンテキスト伝達インタフェース４５０でペットを認識する際である。これは、ペットを外観で認識することができない場合があるからである。即ち、大抵のペットは床の近くにいるので、その姿がカメラ１２０の撮影視野４２０から外れてしまう。端末３００によるペットの認識及び追跡に音響キューを用いることで、そのペットが写るよう、写らないよう或いは目立たないよう、動画像を撮影して送信することができる。

また、居宅向けの動画通信システム２９０を構築する上で重要なのは、プライバシ保護プロトコル、パスワード認証、録画／録音制御、暗号化等の電子的手段と、撮影視野制御、撮影時警告、身元確認、美観配慮、イベント対応等のコンテキスト的手段とを併用して、ユーザ１０のプライバシを十分に管理することである。表２に、システム２９０を構成する個々の端末３００、特にそのプライバシ保護インタフェース４００及びコンテキスト伝達インタフェース４５０に備わるべき主要属性のあらましを示す。

但し、表２に示したプライバシ乃至コンテキスト関連の諸機能及び諸セッティングを動画通信システム２９０及びその端末３００で漏れなく使用することも、それらを全て搭載・制定することも必要でない。例えばその端末３００の動画撮影モードが手動モードになっている状態では、コンテキスト伝達セッティングやコンテキスト伝達インタフェース４５０に備わる機能の多くはほとんど必要ない。従って、コンテキスト管理用の機構を然るべく削減することで、ユーザインタフェース４４０を全体的に簡素化することができる。例えば、コンテキスト伝達インタフェース４５０の機能を、撮影視野４２０及び修正対象部分４２２を利用し身体プライバシ保護機能に絞ってもよい。その逆に、人物（達）に対する視野４２０のサイズ及び位置をインタフェース４５０で自動的に決める機能を付加することにより、その動作の自動性を高めることもできる。同様に、可解釈な一群の含意キュー、例えば人間のアクション（笑い・拍手・踊り・ジャンプ等）、イベント（パーティ・夕食会・遊技会等）或いは付き添い（動物等）を認識し、それに応じた動作を実行させる機能を追加することでも、その動作の自動性を高めることができる。更に、ローカルユーザ１０ａ又はリモートユーザ１０ｂにまつわる人物の身元及び続柄に関わる含意データを、プライバシ又はコンテキストに関わるデータに基づき保存及び適用することで、インタフェース４５０に価値ある機能を追加することができる。但し、その実行には多くの個人情報が必要になる。

ユーザインタフェース４４０は、これらプライバシ保護インタフェース４００及びコンテキスト伝達インタフェース４５０と、それらから基本的に独立している前述したオンオフスイッチ、出力音量コントローラ、表示輝度コントローラ等のユーザ用コントローラ１９０と、を有している。それらのユーザインタフェース構成要素中で重きをなすのはやはりインタフェース４００及び４５０である。その構成要素としては、まず、種々のセッティング及び制御オプションや、グラフィカルユーザインタフェース、メニュー型ユーザインタフェース等の直接可操作インタフェースがある。ユーザ１０は、インタフェース４００，４５０が銘々に提供する直接可操作インタフェースを使用し、それらのセッティング及び制御オプションにアクセスすることができる。各インタフェース４００，４５０の構成要素としては、更に、種々の内部インタフェース又は制御セッティング、助力となる種々のデータベース、並びに端末３００の動作や動画通信システム２９０内の端末３００間での通信動作を規定する種々のアルゴリズムがある。ユーザ１０がセッティング及び制御オプションに関する入力を行うと、その内容が内部インタフェースや制御セッティング、更にはそれに関連する内部的なアルゴリズムに反映するので、そのアルゴリズムの適用により、そのユーザ入力が端末３００やシステム２９０の動作に反映することとなる。また、使用されている動画撮影モードが手動モードであれ自動モードであれ、ユーザインタフェース４４０は、動画通信イベント６００の開始又はそれへの参加を求めるユーザ１０からの指示に対し遅滞なく、即ち種々のオプションで極端に煩わせることなく対処しなければならない。この条件を満たすには、例えば両インタフェース４００，４５０を二階層構造、即ち過渡的な性格が強いセッティングからなる階層及び安定的な性格が強い（例えばデフォルト版の）セッティングからなる別の階層からなる構造にすればよい。更に、インタフェース４４０には、一群の稼働形態のうちいずれかが指定されたときに、その稼働形態に対応する動画撮影モードでの動作を、所定内容のプライバシ保護セッティング及びコンテキスト伝達セッティングに従い即座に実行させる機能がある。ユーザ１０は、そのイベント６００に相応しい稼働形態、例えば「夕食会」「祖父母」「ボードゲーム」「台所」「仕事場」「友人達」等のうちいずれかを指定するだけでよい。端末３００に種々の稼働形態を設定する操作は、ユーザ１０が行ってもよいし、ユーザ１０以外の人物例えばシステム製造者が行ってもよい。

以上、端末３００並びにその主要構成要素であるプライバシ保護インタフェース４００及びコンテキスト伝達インタフェース４５０に関し、人間同士の個人的なやりとりや個人的な関係への関わり方に注視し定性的に説明した。次に、端末３００やそのインタフェース４００，４５０の動作について理解を深めるため、動画通信イベント６００における動作の流れを、一群のフローチャートを参照して説明することとする。まず、図７Ａに、イベント６００への参加に際し端末３００で順を追って実行される処理全体のあらましを示す。図示の通り、通常のイベント６００ではまず招待６０５及び応諾６１０の手順を実行する。それにより、図１に示した通り、ローカル端末３００・リモート端末３００間が通信ネットワーク３６０経由で接続される。招待６０５及び応諾６１０の手順は、システム的観点からすると、ネットワークプロトコルに則り接続先アドレスの探索及び特定並びに話者間接続を実行させる手順である。この手順では、通話に参加する２個の端末３００間を接続するため電子的ハンドシェイク手順３６５が実行される。その手順３６５では、プライバシ言語プロトコルに則り、通話に参加する２個の端末３００でネットワーク３６０越しにプライバシ保護セッティングを交換させる。これは、（音声及び）動画像の送信、暗号化及び暗号解読、録画／録音等といったプライバシ関連機能に関する認証ステータスの交換によって行う。また、ユーザ１０に対しては、招待６０５及び応諾６１０が実行されているときに、ユーザインタフェース４４０によって発着呼手段が提供される。ユーザ１０は、その発着呼手段に組み込まれているアドレス帳、発呼者識別、着呼／接続警報等の機能を利用することができる。ユーザ１０は、更に、招待６０５及び応諾６１０で使用される初期的なプライバシ保護セッティング又はコンテキスト伝達セッティングを、インタフェース４４０を使用して指定乃至制定することができる。インタフェース４００，４５０はこの動作にも随時関与してくる。また、この初期的な指定乃至制定に際しては、プリビューモードを使用することができる。そのプリビューモードで稼働している間に、動画像及び音声の採取動作やプライバシ保護セッティングを修正することができる。そして、招待６０５及び応諾６１０の手順が終わったら、通常は動画像伝送６１５が始まる。招待６０５及び応諾６１０の終了から伝送６１５の開始までに間がないこともあれば間が空くこともある。そのいずれになるかは、ユーザ１０が初期音声ミュート機能や動画像ブランキング機能を使用しているか否かで決まる。

動画像伝送６１５が始まると、動画像中の最初の場面６２０で動画像による通話が始まる。このとき、個々の環境（４１５等）に設けられているカメラ（群）１２０は、その環境の初期的な動画像コンテキストに従い稼働される。動画像及び音声の採取及び処理に関するセッティングのため初期的に使用される動画像コンテキスト（例えばイベント種別）やそれに対応する動画撮影モードは、ユーザ１０が制定したものでもよいし、端末３００で保持している（例えばデフォルト版の）ものでもよい。最初の場面６２０は、ローカルユーザ１０ａがいる環境４１５及びリモートユーザ１０ｂがいる環境それぞれを捉えたものになるのが普通である。そのまま場面６２０に変転が生じないで動画通信イベント６００が伝送終了６１７に至ることもあれば、成り行きに応じた変転が生じることもある。変転の発生に対処するため、端末３００では同時並行的に変転テスト６３０を実行する。特に、自動モードで動画像撮影を行う場合にこれが役に立つ。

本願で提案する手法では、発生しうる変転、例えばユーザ１０のアクションが変化しイベント種別等に係る動画撮影セッティングが不相応になるといった前掲の変転を、場面内変転と場面間変転に区分することで、それらの変転に好適に対処している。例えば図４Ｃに示す動画通信イベント６００で生じている何種類かのコンテンツ的及びコンテキスト的変転のうち、場面６２０における変転はローカルユーザ１０ａの小さな動き、例えば姿勢の変更等に伴うものである。こうした変転に対しては、動画像を撮影する動作や撮影された動画像の処理を小幅に修正すること、例えば焦点、コントラスト、視線、視野等に関わる小規模な修正を施すことで対処することができる。場面内変転とは、このようにユーザ１０のアクションにおける小規模な変化に伴い生じる変転であり、その動画通信イベント又は場面に係る動画像コンテキストが大きく変化しないため、動画撮影セッティングに大きな修正を施さなくても対処することができる。即ち、場面内変転を示唆する変化は、開催中のイベント６００又は場面６２０の性質に影響しない程度に小規模な、ユーザ１０のアクションにおける変化である。どの程度のものを「小規模」な変化と呼べるかはコンテキストによって違い、例えば図４Ｃ中の場面６２０のように有目的的な（即ちはっきりとした通話目的のある）場面での「小規模」と、図２に示した場面のように無目的的な（即ちはっきりとした通話目的がなく寛いだ）場面での「小規模」との間には、かなりの違いがある。また、環境４１５又はその撮影視野４２０内の諸部分で発生し場面内変転をもたらす小規模な変化のうち、場面の構図又は音響に関わる変化は、補正しないと動画像通信の質乃至通信インパクトが損なわれることが多いが、新たにやってきた人物をカメラ１２０のパンニングにより撮影視野４２０内に取り込む等といった動画像撮影上の変化は、単純に画質損失乃至音質損失を補償するのに比べたらリモートユーザ１０ｂにとり有益なものである。

これに対し、場面間変転はその動画通信イベントの性質に関わる変転であり、動画像コンテキストが従前のものから新たなものへと変化するため、動画撮影セッティングを大きく変化させないと対処することができない。例えば図４Ｃでは、ローカルユーザ１０ａのいる場面が第１の場面６２０から第２の場面６２０’へと切り替わる過程で、そのユーザ１０ａのアクションが有目的的なものから無目的的なものへと変化していく。動画像コンテキストにこのような移り変わりが生じるときには、動画撮影セッティングを大きく変化させる必要がある。具体的には、有目的的な場面６２０で使用していたセッティング（緻密な視線補正でアイコンタクトを成立させるセッティング）から、無目的的な場面６２０’に相応しい別のセッティング（撮影視野４２０は広めにまた視線補正は間欠実行にし必要に応じ照準追尾による撮影を実行するセッティング）へと切り替えていく必要がある。このように、そのイベント６００で生じているコンテンツ及びアクションの変化が、従前の動画像コンテキスト又は対応する動画撮影モードに照らし動画像コンテキストの交替といえるほどに顕著であるので、図４Ｃにおける場面６２０から場面６２０’への移り変わりは場面間変転を表しているといえる。

変転テスト６３０は、大まかにいえば、送受信中の動画像データストリームや撮影視野４２０内送信対象外部分に発する動画像及び音声を監視することで、例えば今の場面６２０から次の場面６２０’へ移行する際の動画像コンテキストの交替による変転等といった場面間変転を察知する処理である。このテスト６３０を実行することで、例えば、動画像コンテキストの交替による次の場面６２０’への場面間変転が生じつつあることを、好適に察知することができる。このテスト６３０は、アクションの範囲、アクションの速度、撮影視野４２０、自信度等に関わる指標や、コンテキスト示唆キュー、従前の動画像コンテキスト（又はそこからの乖離）等に基づき、従前のデータとの関連で今の場面に係る動画像を調べることで、行うことができる。更に、このテスト６３０で場面間変転示唆と覚しき変化が察知された場合は変転処理６４０が実行される。その処理６４０では、その変転の性質に応じた応答の仕方で端末３００の動作を変化させる。逆に、変転テスト６３０で調べた場面の変化が局部的で小規模なものである場合は場面撮影管理６５０が実行される。

これら、図７Ａに示した変転テスト６３０、変転処理６４０及び場面撮影管理６５０は、図７Ｂに示す通信イベント解析(communication event analysis)６５５と共に、前述したコンテキスト伝達インタフェース４５０によって実行される。そのインタフェース４５０は、見方によっては、ユーザ１０のアクションに対するこうした順応的乃至予測的応答を一群のアルゴリズムに従い実行し、画像的ユーザエクスペリエンスが高まるように動画撮影手順を修正する知的エージェント乃至人工知能（ＡＩ）である。インタフェース４５０でこうしたシステム知性が提供されることは、ステップ６３０〜６５５における処理内容からも窺える。ユーザ１０のアクションや通信ニーズを徐々に理解していくので、インタフェース４５０は学習システムであるともいえる。インタフェース４５０では、表３に列挙したシステムデータ及びアルゴリズムを使用し図７Ａに示した手順を実行し、動画通信イベント６００に参加する。図７Ｂ及び図７Ｃは、それらのうち変転処理６４０及び場面撮影管理６５０に関わる動作をより詳細に示したものである。図７Ｂに示すように、端末３００は同じ場面６２０に関する通信イベント解析６５５及びテスト６３０を同時並行的に実行することができる。解析６５５では場面内変転を調べテスト６３０では場面間変転を調べる、という違いはあるものの、いずれも同じ場面解析アルゴリズムに則った処理であり、動画像（及び音声）データストリームから直接導出されたデータを解析してその場面に生じたコンテンツ的又はコンテキスト的化の顕著性を識別する点で共通している。場面コンテンツ指標、場面解析ルール、コンテキスト示唆キュー、統計解析結果等を併用するので、その解析手法は多変数的である。管理６５０及び処理６４０（特に図７Ｃ中のステップ６４４）も、共に撮影形態修正アルゴリズム(video capture scene adjustment algorithm)に則った処理であり、今適用中の動画撮影セッティングを調整して進行中の動画像撮影動作を修正する点で共通している。図７Ｄに詳示する通り、図７Ａに示した手順に従い動画通信イベント６００を開催する際には、動画通信システム２９０内の２端末３００間で、通信ネットワーク３６０上の動画通信リンクを介したデータ交換やデータ伝送（動画像や音声信号の伝送等）等のやりとりが実行される。

それらのうち通信イベント解析６５５では、動画像中の個々の場面６２０から得た画像を調べて場面内変転を察知する。その結果に応じ動画撮影（及び動画像処理；以下同様）セッティングや音響（及び音声処理；以下同様）セッティング、ひいてはそれに基づく動作を調整することで、ユーザエクスペリエンスを高めることができる。具体的には、その動画像の新旧両場面のコンテンツ又はコンテキストに対し種々の場面解析ルールを適用し、プライバシ、撮影視野４２０、被写体の動き、人々のアクション、画質、音質、視線、コンテキスト、諸キュー（音声・ジェスチャ・情動等）等といった属性を解析６５５で調べることで、場面６２０内で生じる小規模なコンテンツ変化を探索する。この探索で見つかる変化は、それまでの動画像コンテキスト及びそれに対応する動画撮影モードと違背しない（或いは関連を保つ）性質の変化であるので、端末３００の動画撮影セッティングを小幅に変化させることで対処することができる。例えば図４Ｃに示した場面６２０では、場面解析アルゴリズムに則った通信イベント解析６５５によって、着席しているローカルユーザ１０ａの身じろぎ等が検知される。それに対しては、焦点、視野４２０、輝度等を改善方向に修正し対処することができる。更に、解析６５５では、今の視野４２０から得られる動画像（及び音声）だけでなく、その視野４２０の外側から得られる動画像、例えばＷＦＯＶカメラ１２０で得られる動画像（図４Ａ及び図４Ｂ参照）等も調べることができる。そして、解析６５５では、動画撮影セッティングに施すべき修正を特定する際に、その特定結果の信頼性を量る場面内変転自信度を求める。更に、この解析６５５の結果を受けて実行される場面撮影管理６５０では、その場面を撮影する動作に対しどのような調整をどのようにして施すべきかを判別し、今行われている動画撮影／処理動作に対し、コンピュータ３４０、イメージプロセッサ３２０等の部材を通じてその調整を適用させる。

対するに、変転テスト６３０では、新旧両場面から得られるデータ（動画像や音声）を場面解析アルゴリズムに則り且つ種々の場面解析ルール及び種々の場面指標に従い調べて場面間変転を察知する。具体的には、所与の動画像コンテキスト及び動画撮影モードが使用されている現在の場面６２０から別の場面６２０’へと場面が変転することを示唆する場面コンテンツを検知する。テスト６３０では、そのため、その時点でＮＦＯＶ４２０から得られるデータに加え、その外側、例えばＷＦＯＶ４２０や採音視野４３０から収集されたデータをも使用して、ユーザ１０のアクションに現れている変化を調べる。その変化がそれまでの動画通信コンテキストに照らして大規模なものであった場合、テスト６３０では、今依拠しているイベント種別又は今使用している動画撮影モードがもはや動画撮影動作に適さないものになっている又はなりつつあると判断する。例えば、ローカルユーザ１０ａのアクションが、図４Ｃに示した如く、場面６２０相応のアクションから場面６２０’相応のアクションに変化したとする。このとき、テスト６３０では、場面間変転を示すと覚しき変化がユーザ１０ａのアクションに現れた、今の動画撮影セッティングではその変転に対処できそうにない、と判断する。こうして場面間変転と疑わしい場面コンテンツ変化が認識されると、それを受けて実行される変転処理６４０にて、その場面間変転の性質が子細に調べられ、今使用中の動画撮影セッティングに施すべき修正が決定され、その修正が適用される。

その変転処理６４０の機構は、図７Ｃに詳示する通り一連の変転処理ステップ６４１〜６４５で形成されている。そのうちの最初のステップ６４１では、新旧両場面の動画像を動画像コンテキスト特定(video context selection)アルゴリズムに則り且つ統計指標等に従い調べることで、場面のコンテンツに場面を跨いで生じたコンテキスト的変化、ひいては新たな場面に相応しい動画像コンテキストの種別が特定される。例えば、人々のアクションがパーティでよくあるアクションからカードゲームに多いアクションへと切り替わりつつあること、有目的的な通話からより無目的的な通話に切り替わりつつあること（図４Ｃ参照）、子供達の集まりからその親達の集まりに切り替わりつつあること等を認識した場合には、その場面のコンテンツに係るイベントがそれまでとは別の種別に係るイベントに切り替わりつつあるということであるので、それまでの動画像コンテキストに代わるべき新たな動画像コンテキストの種別が特定されることになる。その次のステップ６４２では、こうして特定された新たな（イベント）種別に係る動画像コンテキストに対応する新たな動画撮影モードが、動画撮影／音響セッティングへの修正内容を然るべく決定することによって選定される。動画撮影セッティングに施されうる修正としては、例えば視野の調整、プライバシ保護セッティングの適用、ユーザの動き・アクション・ジェスチャへの応答、画像の外見的修正（視線等）、画質の向上等がある。また、既に用意されている別の動画撮影セッティングと同じ内容の修正なら当該別の動画撮影セッティングを使用することができ、そうでない場合もその動画通信イベント６００又は場面６２０に相応しいカスタム版の動画撮影セッティングを制定して使用することができる。三番目のステップ６４３では、場面間変転の認識結果、それに基づき特定された動画像コンテキスト種別、それに基づき選定された動画撮影モード、並びにそれに対応する動画撮影セッティング及び音響セッティングの有効性が（統計的に）確認される。肯定的な結果が得られた場合、即ち有効性が確認された場合には、その次のステップ６４４にて、動画像コンテキストが新たな動画像コンテキストに切り替わるよう動画撮影セッティングを変更して動画像の撮影を継続させる。逆に、否定的な結果が得られた場合、即ち有効性が確認できないとの結果になった場合、この端末３００では、有効性確認との結果が得られるに至るまで、従前の動画撮影モードのままで場面撮影管理６５０が実行され、或いはステップ６４５に従い暫定的な動画撮影セッティングが適用され始める。

コンテキスト伝達インタフェース４５０がこの動作で選定しうる動画撮影モードとしては、ユーザ１０からの指示に応じ動画撮影セッティングが制御される手動モードのほかに、良質な画像的ユーザエクスペリエンスがもたらされるようインタフェース４５０自身がその端末３００を制御する幾種類かの自動モードがある。ユーザ１０が良質な画像的ユーザエクスペリエンスを味わえるのは、まさに、個々の端末３００が、個々の動画通信イベント６００でそのローカル環境４１５に生じる変化に対し、間断なく且つ円滑に応答して動画像の画質を高めるように構成されているからである。そのためには、端末３００が動画撮影セッティングに修正を施すタイミング及び頻度が適切であること、即ちユーザ１０を煩わせず画像的ユーザエクスペリエンスも良質になりうるタイミング及び頻度であることが求められる。次に、図７Ａ〜図７Ｃを参照して概述済の動作のうち、解析乃至評価に関わる手順乃至ステップについて、より詳細に説明する。

まず、図７Ａに通信イベント解析６５５を描くとしたら変転テスト６３０の後であるが、実際にはそれら二種類の場面解析手順を図７Ｂの如く同時並行的に実行することができる。両者は共に今の場面におけるユーザ１０のアクションを調べる手順であるが、調べる対象が異なっている。即ち、解析６５５で調べるのはそのアクションが今の動画撮影モードやそれに対応する動画像コンテキスト乃至イベントの種別に整合するか否かであり、テスト６３０で調べるのはそのアクションが場面間変転の進行又はその前段階を示しているか否かである。その変転後の場面がそれまでとは別の動画像コンテキストで表すべきもの、即ち別の動画撮影モードで撮影すべきものであるかもしれないので、テスト６３０の後には新たな動画像コンテキストを識別する処理を実行する。この処理では、ユーザの種別、身元、ジェスチャ、挙動（笑い・跳躍等）乃至音声キュー、プライバシ保護セッティング、含意的暦データ、被写体、被服等といった種々のコンテキスト示唆キューや、アクションの場所及び持続時間、照準追跡の要否、大集団／小集団／個人の別、無目的的／有目的的の別、過渡性の有無、場所移動性の有無等に基づく種々のコンテキスト依存型イベント種別データに対し、場面６２０又は動画通信イベント６００を分類するためのルール群を適用することで、その新たな動画像コンテキストの種別を特定する。新たな動画像コンテキストの種別を特定したら、それに相応する動画撮影モードを選定することで、動画撮影セッティングに対する修正内容を決める。なお、動画像コンテキストの種別を求める際には、人々のアクションを示す幾通りかの量的属性、例えば人数（顔の個数）、目立ったアクションが見られる領域の拡がり、人々が集まっている領域の拡がり、撮影視野４２０、動きの速度乃至パターン等も使用することができるほか、予め取得済の基準画像が登録されているライブラリや、それに関連する参照データ及び統計量も、使用することもできる。例えば、有目的的に通話に参加している一人又は二人のローカルユーザ１０ａについての指標値と、パーティに参加している大勢（例えば１５人）の人々についての指標値との間には、大きな違いがあるのが普通である。

コンテキスト伝達インタフェース４５０がこれら場面解析処理（変転テスト６３０及び通信イベント解析６５５）及び動画像コンテキスト特定を実行する際に使用するアルゴリズムは、統計解析的な手法を使用しその場面のコンテンツ及びコンテキストに関する結論を導出するアルゴリズムである。例えば、場面解析処理の際には、ユーザのアクションのアクションに見られる変化が場面間変転（テスト６３０）又は場面内変転（解析６５５）を示唆している確率を算出し、その値が低いか、中庸か、それとも高いかを調べる、という統計的手法に従い、撮影された動画像を直ちに解析して変転発生の有無を判別する。これに加え、変転自信度又はそのレベルを導出するようにしてもよい。変転自信度は、調べた結果（ここでは変転示唆との判断）にどの程度の自信があるかを示す物差しであり、通常は百分率値（０〜１００％）又は確率値（０〜１）で表される。同様に、場面間変転示唆と覚しき変化が認識されたときに稼働する動画像コンテキスト特定アルゴリズムでも、種々のコンテキスト示唆キュー及び判別ルールに従い新たな動画像コンテキストの種別を求め、その結果にどの程度の自信があるかを示す動画像コンテキスト自信度を算出する。その動画像コンテキスト自信度は、場面間変転を示唆していると覚しき変化を見つけた解析の有効性を評価する際に使用される（ステップ６４３）。場面解析ルールとしては、これらの手順を実行できるよう、解析の条件、変転示唆と見なされる確率及び自信度のレベルを動画像コンテキスト種別毎に定めたものを使用する。

まず、それらのうち通信イベント解析６５５における処理、即ち場面解析アルゴリズムに則り且つ場面解析ルール及び指標に従い今の場面６２０を解析して場面間変転を察知する処理について、より詳細に説明する。一例として、図４Ｃに示した第１の場面６２０、即ちローカルユーザ１０ａが動画通信イベント６００に参加しリモートユーザ１０ｂとの通話を有目的的に行っている場面を考えることとする。プライバシ保護セッティング、音響セッティング、動画撮影セッティング、画質等の撮影関連セッティングについては、ユーザ１０からの指示、端末３００による決定又はその併用によってそれ以前に設定されているものとする。ユーザ１０ａはこの場面６２０での通話を身じろぎせずに進めるわけではなく、撮影視野４２０内で背伸び、貧乏揺すり、よそ見等の仕草を示すこともあれば、ユーザ１０ｂとの通信を効果的に進めるため電子メール、文書スキャナ、インターネット等の使用に及ぶこともある。これらのアクションであれば、変転テスト６３０の結果は、条件不備で場面間変転を示唆するものと認められない（場面間変転自信度が低い）との結果になる。これに対し、解析６５５の結果は、今の場面６２０向けの指標及びセッティングやそれに対応する動画撮影モードと整合又は関連している（場面内変転自信度が高い）との結果になりうる。そうした結果になった場合、解析６５５では、動画撮影／音響セッティングに施せる修正のなかから、今の場面６２０と齟齬しておらず且つそのユーザ１０ａのアクション乃至対応する場面間変転に相応しいものを選定乃至特定する。具体的には、まず場面解析アルゴリズムに則りイベント種別相応の場面解析ルールを適用する。イベント種別に見合った場面解析ルールを適用するのは、例えば図４Ｃに示した場面６２０で有目的的に通話を行っている一人物向けの修正と、パーティ等の大規模なイベントに参加している人々向けの修正等とでは、その内容を大きく違えるべきであるからである。同様に、イベント種別、ユーザ１０ａの動き（視野４２０を基準とした動きの規模及び速度）等に基づき、場面解析アルゴリズムで参照される動画像フレームの個数も変える。更に、場面解析アルゴリズムに則りそれらの動画像フレームを参照して例えばユーザ１０ａの動きを追跡する。そして、その動きが撮影視野４２０や焦点（画質）の小規模修正で対処するに相応しい動きであるか否かを場面内調整自信度の算出値等に基づき判別する。例えば、図４Ｃ中の場面６２０におけるユーザ１０ａのアクションが“椅子への腰掛け直し”であれば、解析６５５では当該小規模修正で対処するに相応しいと判別されるが、“貧乏揺すり”であれば、そうした修正で対処する条件が備わっていないとして無視されるであろう。また、そのアクションが“一時的なよそ見”であるなら、後述する視線順応手順４９５を一時的に停止させ後刻復帰させる。

場面撮影管理６５０では、通信イベント解析６５５にて選定乃至特定された修正の内容や対応する場面内調整自信度等を示すデータを参照して撮影形態修正アルゴリズムを適用することにより、その場面における動画撮影セッティングの調整をその端末３００でどのように実行するかを決める。この撮影形態修正アルゴリズムで使用される一群の場面内調整ルール(scene adjustment rule)のなかには、イベント種別、プライバシ保護セッティング、時間的要素（ローカルユーザ１０ａのアクションが変化する速度やリモートユーザ１０ｂがその変化を知覚する速度に比した動画撮影／処理動作修正の速度及び頻度）、修正の規模、場面内調整自信度等の要素に依拠するものが含まれている。そのため、例えば図４Ｃ中の場面６２０にてユーザ１０ａが着座状態で身じろぎした場合に、場面撮影管理６５０では、その動きをユーザ１０ｂにどの程度気づかせたいかに応じて時間を（数フレーム周期分、数十秒等々と）決め、その時間をかけて端末３００の撮影視野４２０及び焦点を変化させることができる。また例えば、その動画通信イベント６００で照準追跡を行っている場合に、場面内調整ルールに基づき決めた加重係数によって優先順位付けを行うことで、撮影視野４２０及び焦点の補正を、（発色）画質や視線等の修正乃至補正より先に行わせることができる。

次に、変転テスト６３０及び変転処理６４０における処理内容について同じくより詳細に説明する。このテスト６３０で使用されるアルゴリズムは、前述の通り、現在の場面６２０で得られる動画像及び音声に基づき、現在の動画撮影モードに相応しくないほど大きく場面間変転示唆と覚しき変化が、ユーザ１０のアクションに現れているか否かを調べる、というアルゴリズムである。このアルゴリズムでは、場面解析ルール及び判別ルール、例えば動画像コンテキスト、イベント種別データ、最新の撮影条件データ、人的コンテキストデータ、加重係数、しきい値条件、場面間変転自信度等の項目に関するルールを使用することで、そうした解析を実行する。これについて理解するには、図４Ｃ中の場面６２０から場面６２０’にかけてローカルユーザ１０ａが示すアクションを考えるとよい。こうした状況では、ユーザ１０ａは、テーブル上を片付けるにせよお茶を飲むにせよ、まずは椅子から立ち上がるアクション、即ち着座したまま体勢を整えてから椅子を後に引き腰を上げるという一連のアクションをすることとなろう。その場合、ユーザ１０ａが着座したまま体勢を整えている段階では、テスト６３０における解析結果は、場面間変転と認めるためのしきい値条件に達していない、場面間変転自信度が低いので統計的に見て変転発生とは認めがたい、という判断になる。そのため、動画撮影セッティングを適切なものに修正する処理は通信イベント解析６５５及び場面撮影管理６５０に委ねられることとなる。次の段階、即ちユーザ１０ａが椅子を後に引いている段階では、テスト６３０における解析結果は、場面間変転と認めるためのしきい値条件に相変わらず達していない、しかし場面間変転自信度は若干上がって中庸に達している、という結果になる。動画撮影セッティングは、これを受けて暫定版のものに修正される（６４５）。そして、ユーザ１０ａが腰を上げてテーブル上の片付け等を始めた段階では、テスト６３０における解析結果は、場面間変転と認めるためのしきい値条件に達した、場面間変転自信度も十分に高い、という結果になる。

変転テスト６３０でこのような肯定的な結果が得られると変転処理６４０が実行される。この処理６４０では、まず、動画像コンテキスト特定アルゴリズムに則り新たな動画像コンテキストを特定する（６４１）。この処理では、撮影視野４２０内におけるローカルユーザ１０ａのアクションを示すシステムデータや、イベント種別、ユーザ１０ａの身振り・手振り・種別・身元、音声／被写体認識結果、ユーザ１０ａによる入力等のデータに基づき、その又はそれらのユーザ１０ａが関わっているイベントの種別を識別する。併せて、そのイベント種別識別結果がどの程度の統計的確率で正鵠を射ているかを示すべく動画像コンテキスト自信度を算出する。これに次いで、そのイベント種別識別結果に相応しい動画撮影セッティングを特定する（６４２）。この処理では、予め動画撮影モード毎に制定されている標準的な動画撮影セッティングのなかに相応しいものがあれば、それを選ぶこともできる。例えば、図４Ｃに示した有目的的な場面６２０からより無目的的な場面６２０’への変転を察知したときには、ユーザ１０ｂがより良質な画像的エクスペリエンスを味わえるよう、緩慢なパン、ティルト又はズーム動作で撮影視野を拡げたり新たな場面６２０’に相応しく輝度及びコントラストを補正したりするセッティングを、選択するのが望ましい。その次は、動画撮影セッティング変更有効性評価アルゴリズムに則り、且つ動画像コンテキスト自信度を指標として用い、新たな動画撮影セッティング及び音響セッティングが適切であるか否かをその適用に先立ち判別する（６４３）。その結果が肯定的であれば、撮影形態修正アルゴリズムに則り、その新たなセッティングを適用して端末３００による動画撮影／処理動作を然るべく修正させる（６４４）。この処理では、前述した場面撮影管理６５０での処理を連想させるが如く、一群の場面内調整ルールに従い動画撮影セッティングの変更速度及び変更タイミングを決めてそれを管理する。例えば、そのローカル環境４１５におけるアクションの拡がり方が速い場合は速め（例えば数フレーム以内）に、遅い場合は遅めに、動画撮影セッティングを変化させるようにする。

無論、場面間変転自信度が中庸水準又は高水準に達しているにもかかわらず、ユーザ１０が今行っているアクションがどのような種類のイベントに係るアクションなのか、変転処理６４０でうまく特定できない（動画像コンテキスト自信度が低い）場合もあり得る。そうした場合には、デフォルト版乃至過渡版の動画像コンテキスト乃至イベント種別を一時的に適用し、それに応じた動画撮影セッティングを暫定し（６４５）、後刻より相応しい動画撮影セッティングに移行させるようにする。図４Ｃに示した例なら、場面６２０と場面６２０’の間に挟まる期間にローカルユーザ１０ａが見せるアクション、例えばテーブル上を片付けるアクションや茶を飲むアクションに対して、暫定版の動画撮影セッティングが適用されることとなろう。

なお、先の場面（例えば６２０）の動画像、後の場面（例えば６２０’）の動画像といえば概ねその場面で撮影された動画像フレームの集まりことである。但し、後の場面（例えば６２０’）に係る動画像として扱われる動画像フレームのなかに、先の場面（例えば６２０）で撮影された動画像フレームが何個か含まれることもあるので、その点に留意すべきである。

また、上掲の構成では、場面解析アルゴリズムに則り且つ新旧双方の動画像に基づき統計解析を行い、その解析で場面内変転又は場面間変転を察知したときに、動画撮影セッティングを修正している。そのため、動画撮影セッティングの修正が後追い的になっている。この問題点には、先取り的乃至予測的統計解析法を用い場面の変転を事前に察知し、動画撮影セッティングを先取り的に修正することで対処可能である。また、それは、ベイズネットワーク(Bayesian network)技術等を用いることで実現することができる。ベイズネットワークは変数間の確率的関係を表すグラフィカルモデルに依拠するネットワークである。そのモデルには、事象Ｘの生起確率を古典的且つ物理的な生起確率ではなく主観確率(person's degree of belief)で表すという特徴がある。その主観確率は個々の命題に関連付けられており、確率則に則り命題間で結合させて操作することができるので、ベイズネットワークは、先行事象発生確率（予備知識乃至事前分布）によって条件付けられる事象発生確率（条件付確率）を扱う際にとりわけ便利である。また、ベイズネットワークでは、推論に際し、そのインタフェース越しに与えられる仮説に整合しそうな証拠や、その仮説に違背しそうな証拠が収集される。証拠収集が進むにつれその仮説についての主観確率は変動していき、証拠が十分に集まると通常はかなり高い又は低い値になる。言い換えれば、ベイズネットワークでは、そのネットワーク上にある個々のノードについて条件付確率を算出し、それらのノードのうち幾つかのノードについて条件付確率の値を求めることができる。例えば、専門家の許でベイズネットワークに学習を施し、そのベイズネットワークを推論に使用することができる。また、ネットワーク構造や個々のローカル端末の諸元を表すデータに従いベイズネットワークに学習を施し、面倒すぎて人手に負えないようなネットワーク構築作業にそのベイズネットワークを使用することもできる。

ここに、ベイズの定理によれば、ランダムな事象Ａ及びＢに係る条件付確率・周辺確率間の関係は、両事象間のつながり乃至条件付確率を考慮に入れると、
Ｐ（Ａ／Ｂ）＝［Ｐ（Ｂ／Ａ）＊Ｐ（Ａ）］／Ｐ（Ｂ）（１）
と表される。式（１）中、Ｐ（Ａ／Ｂ）は事象Ｂが生起した後に事象Ａが生起する条件付確率（事象Ａの事後確率）、Ｐ（Ｂ／Ａ）は事象Ａが生起した後に事象Ｂが生起する条件付確率（事象Ｂの事後確率）であり、Ｐ（Ａ），Ｐ（Ｂ）は先行事象（先行体験）から独立に生起するときの事象Ａ，Ｂの周辺確率（アプリオリ確率）である（符号同順）。通常、事象Ｂに対する事象Ａの事後確率と事象Ａに対する事象Ｂの事後確率は一致しないが、ベイズの定理で記述される厳密な関係が両者間に存在する点に、留意すべきである。

こうしたベイズネットワーク技術は、コンテキスト伝達インタフェース４５０によるイベント種別識別動作や判別動作に利用することができる。それは、大勢が参加するイベント、無目的的なイベント、有目的的な通話等、発生しうる種々のイベントについて個別に周辺確率Ｐを決めうるからである。また、有目的的な通話から無目的的な通話へと場面が変転する際（図４Ｃ参照）と、その逆に無目的的な通話から有目的的な通話へと場面が変転する際とで、条件付確率の値が異なってくるからでもある。ある種類のイベントから別の種類のイベントへと場面が変転する確率は、物理的事象の古典的生起確率（例えばコイントスで表又は裏が出る確率）ではなく人間の起居作法についての知識に基づくものであるので、ベイズネットワーク技術による解析はかなり有益な手段である。

また、動画通信イベント６００中である場面６２０が生じたときに、その場面６２０の次の場面６２０’で現れる動画像コンテキスト及びイベントの種類、即ちその場面６２０’で実際に生起する可能性のある事象は、無論のこと多様である。このように１個の事象からランダムに分岐して様々な事象が発生する現象を取り扱うには、マルコフ的確率モデル(Markov probability model)を使用すればよい。ただ、端末３００の主たる稼働環境は居宅であるので、それらの事象への分岐確率は今の場面でのイベントによって条件付けられるものと考えるべきである。例えば、有目的的な場面の次にくる可能性が高いのは、少人数で無目的的に通話している場面か誰かを照準追跡している場面であり、大勢で通話している場面となる可能性は低い。この種の統計的問題を取り扱うには、有向性のあるマルコフ的確率モデル、例えば一次マルコフソースモデルを使用するのが理に適っている。

これら、ベイズ的確率推論法、マルコフ的確率推論法又はそれらを組み合わせた複合的推論法は、コンテキスト伝達インタフェース４５０における場面変転管理手法として有効な方法である。例えば、ベイズ的確率推論法に則り新旧双方の動画像の場面解析を実行することで、アクションの変化が場面間変転を示唆しているか否かを弁別することができる（変転テスト６３０）。その変化が場面間変転示唆として識別された場合は、それに対し有向マルコフモデルを適用することで、新たな場面６２０’に相応しかろうイベント種別を推定する。更に、前述の諸例に倣い自信度を導出し、それらベイズ的確率推論法による場面間変転識別及びマルコフ的確率推論法によるイベント種別識別の確からしさを量る物差しとすること、例えばその自信度を参照して有効性評価を実行し必要時にイベント種別を暫定することもできる。このようにベイズモデルを使用する手法は、何が発生するかについての信念モデル(belief model)に基づき後の場面におけるイベント種別（及び動画撮影モード）を予測しようとする点で、予測的乃至先取り的であるといえる。但し、統計的手法で後追いする前掲の手法に比べると、その実現はやや難しい。

次に、ユーザ１０の意向に反することなく端末３００又はそのコンテキスト伝達インタフェース４５０による自動処理に委ねうる範囲が、動画通信イベント６００が辿る一連の場面毎に且つその場面に先行する場面に応じて変化していく点にも、留意すべきである。例えば、図４Ｃ中の場面６２０が最初の場面、場面６２０’がその次の場面であるとする。この場合、最初の場面６２０では、ローカルユーザ１０ａが手許の電子イメージング装置１００を使用し有目的的に通話しているので、端末３００相手の手動操作をユーザ１０ａにかなりの程度行わせても、ユーザ１０ａとしては期待乃至許容の範囲内となろう。先行する場面がこうした場面６２０であるので、その次の場面６２０’、即ちユーザ１０ａがより無目的的に通話する場面では、撮影視野４２０、焦点、輝度、プライバシ保護等といった属性の管理動作を自動実行するだけで、端末３００としては、そのユーザ１０ａの期待におおよそ応えたことになる。しかも、その管理動作はインタフェース４５０による場面解析を通じ好適に実行することができ、その場面解析に必要なキューも個々の領域におけるアクションの場所及び持続時間や顔追跡結果だけで足りる。また、これと対照的な例として、ユーザ１０ａが気楽なパーティに参加している場面（図示せず）が最初の場面、ユーザ１０ａがより有目的的に通話する場面６２０（図４Ｃ参照）がその次の場面となる例を考える。この例の最初の場面（気楽なパーティの場面）では、数多くの場面解析ルール及びコンテキスト対応キュー（例えばユーザ１０ａの種別・身元・ジェスチャ・アクション等）に従い様々なイベント種別のなかからイベントを特定する高度な場面解析／変転テスト方式を採らないと、ユーザ１０ａが抱く期待に応えることができない。先行する場面がそうした場面であるので、その次の場面６２０、即ちユーザ１０ａがより有目的的に通話する場面では、先の例と同じく自動動作の範囲を限定しユーザ１０ａによる手動操作に任せることも可能ではあるが、大抵のユーザ１０ａは、先の場面における高度に自動的な動作をその場面６２０でも引き続き実行するよう期待するはずである。

そうしたコンテキスト的問題の多くは、個々人のアクションを検討して初めて判る類の問題である。例えば、来客があるときに予め自宅や居室や接客場所を清掃しておく、といった通例的な配慮と同様の配慮は、前述の通り動画通信システム２９０のユーザ１０もその使用に際して行うものと思われる。ユーザ１０のなかには、更に、自サイトの環境４１５がより綺麗な環境又はより整頓の行き届いた環境に見えるよう、端末３００側で助力して欲しいと期待する者もあろう。端末３００のコンテキスト伝達インタフェース４５０に（必須ではないが）設けられている外見修正インタフェース４９０は、そうした期待に応えるのに役立っている。例えば、端末３００に初期設定動作を実行させると、図５Ｂに示すようにその環境４１５の基準画像４６０が何枚か撮影される。それらの画像４６０は一種の校正基準を表しているので、ユーザ１０は、それらの画像４６０を参照しながら自サイトの環境４１５を整え、清掃及び整頓が行き届いた適度に明るい環境にすることができる。そのユーザ１０は、更に、環境４１５の見栄えを高めよとの指令を端末３００に与えることができる。端末３００では、その指令に応じ画像４６０のうち適当なものにアクセスして合成画像を作成し、その環境４１５の撮影で得られた画像をその合成画像に差し替える。この機能は、例えばユーザ用コントローラ１９０に設けられているデクラッタボタンをローカルユーザ１０ａが操作するたびに１回又は複数回実行される。１回目の実行で塵埃や小さなゴミが画面に現れなくなり、２回目以降の実行でより大きな物体２６０等が現れなくなる、といった具合である。また、画面に現れていない物体、例えば図２中の照明ランプ２１５等を、ユーザ１０ａが動画通信イベント６００の最中に操作することも無論あり得る。そうした操作が行われると、リモートユーザ１０ｂ向けに表示される画像が、ちぐはぐで滑稽なものになってしまう。そのため、画面に現れていない物体が操作されるときにその物体を画面上に表示させてその時点以後のイベント６００を続けられるようにしてある。即ち、そのユーザインタフェース部分を介したユーザ１０ａからの指示等でそうした操作を察知すると、インタフェース４９０から相応の通知乃至指示が発せられるため、撮影で得られる動画像に対し場面撮影管理６５０にて施される画像処理の内容が然るべく修正されることとなる。

このほか、ユーザ１０は、ローカル環境４１５の外見を修正する機能を以下の用途にも使用することができる。まず、外見修正インタフェース４９０による修正で照明状態をブラック照明類似の状態にすることができる。更に、インタフェース４９０により自分の姿を環境４１５から抽出させ、別途準備してある仮想環境画像（例えば浜辺の画像）にそれをはめ込ませることができる。その仮想環境画像は静止画像でも動画像でもよい。端末３００内に或いはネットワーク経由でアクセス可能な他サイトに仮想環境画像ライブラリを準備しておき、そこから仮想環境画像を取得する構成にすることも可能である。また、インタフェース４９０による修正で自分の容貌、例えば肌、髪、衣服等を別物にして表示させることもできる。具体的には、自分の端末３００のコンテキスト伝達インタフェース４５０に備わる外見修正インタフェース４９０を通じ、自分の姿がより美しく見えるよう、顔２５や髪４０の表示を修正させたり衣服の色を見かけ上変化させたりすることができる。基準画像４６０のなかにそのユーザ１０の姿を捉えているものがあれば、そのユーザ１０の最新の姿を捉えた画像と併せて利用することで、この修正をより効果的に行うことができる。なお、ユーザ１０の音声特性についても、外見についてのものと似た修正機能を使用することができる。

そうして得られる画質は、動画通信システム２９０の稼働品質及びユーザ満足度を左右する。撮影で得られる画像の色を真色にする必要こそないが、発色上の画質を許容水準以上にするには重要な記憶色を好適に発現させること、例えば肌色を好適に発現させることが必要となろう。そのためには、照明光のスペクトル品質を高めることだけでなく、その照明光を十分な光量及び均一度にすることが必要である。その際、照明が設置される部屋の種類、照明される家具の種類、日照の取り込まれ方等によって室内環境光条件が大きく変わることや、日照が天候でしばしば左右されることにも注意した方がよい。

そのため、上述の構成では、環境光検知器１４０から得られる信号に基づき、環境光条件が許容水準に達しているか否かを調べて画質を管理している。その検知器１４０としては、まず、ローカル環境４１５における環境光２００のレベルを計測するタイプのものを使用することができる。検知器１４０としては、更に、スペクトル選別的濾波／分散装置（例えばダイクロイックフィルタや回折格子）が付設されていて環境光スペクトラムを計測可能なものも使用することができる。その場合、端末３００では、検知器１４０からスペクトル計測結果を取得し、室内照明の近似的黒体放射色温度（普通の日照下なら５９００Ｋ）を推定することができる。同様に、端末３００では、検知器１４０から数通りの指定波長におけるスペクトル計測結果を取得し、環境光２００の一般的な発生源（日照・白熱灯・蛍光灯・ＬＥＤランプ等）及びその寄与比率を１個又は複数個の発生源について調べることができる。ある時点での環境光発生元光源及びその寄与比率が例えば日照＝約２５％且つ白熱灯＝約７５％と判明すれば、その結果に基づき有効な光源モデルを合成することができる。そして、検知器１４０としては、分光計又は分光放射計を備えていて詳細なスペクトル計測結果が得られるものも使用することができる。その場合、逐次得られるスペクトル計測結果又はその光源モデルを、以前に取得して保存しておいたスペクトル計測結果や以前に生成して保存しておいた色補正データと比較することで、対応する電子イメージング装置１００での撮影に使用可能な色補正データを生成又は更新することができる。加えて、基準画像４６０も画質調整の目標として使用することができる。画像４６０上での色を本来の色と見なし、それに近づくように現在の色信号値を調整すればよい。色の変化は適当な色空間モデル、例えばＣＩＥＬＡＢに従い追跡することができる。

こうした動作に次いで、端末３００は、環境光検知器１４０から得られる信号を画質評価アルゴリズムに則り処理することで、今の環境光条件が照明として十分な水準に達しているか否かを調べる。達していない場合、その端末３００は、ローカル環境４１５の照明状態が全体的又は部分的に不備である旨通知する。多くの場合、ユーザ１０は、これを受けて新たな照明光源を点灯させ、或いはその環境４１５への日照採光量を加増させる。端末３００は、その一方で、照明ランプ２１５等の室内照明光源乃至採光源のうち無線等で制御可能なものを直接に自動制御して状況を改善させる。そして、イメージプロセッサ３２０では、強度補正データ及び色補正データを生成し、それらのデータに基づく補正を撮影済画像に施すことで、送信用の画像を生成する。なお、色補正データは、その端末３００で使用されている個々のカメラ毎に、生成して保存することができる。

更に、一軒の居宅に電子イメージング装置１００を複数個設けることもできる。それらを構成する都合各複数個のディスプレイ１１０及びカメラ１２０を内部ネットワークで相互接続すれば、それらを同じローカル端末３００の一部として機能させることができる。装置１００が複数個あると、例えば複数のユーザ１０が同時並行的に装置１００を使用することができるほか、ユーザ１０が動画通信イベント６００の途中で部屋から部屋へと移動しつつ個々の部屋の装置１００を順繰りに使用することができる。後者の場合、ユーザ１０が部屋から部屋へと（装置１００から別の装置１００へと）動画通信イベント開催中に移動するので、部屋から部屋への移動というユーザ１０のアクションに追従するよう動画撮影を行うようにする。そのアクション追従的動画撮影動作は自動モードで起動させてもよいし、ローカルユーザ１０ａの管制等による手動モードで起動させてもよい。なお、ユーザ１０は自分の居宅の部屋毎（環境４１５毎）に別々のプライバシ保護セッティングを制定することができる。従って、部屋から部屋へと移動するユーザ１０の姿を追って撮影しているときの端末３００の反応が、部屋毎に異なるものになることがある。また、内部ネットワーク経由で相互に接続されている複数の装置１００のうちいずれかでイベント６００を実行しているときに、その装置１００とは別の部屋にある別の装置１００を稼働させてその部屋の動画像や音声を採取することは、必要とまではいえない。しかしながら、それらの部屋の装置１００を同時に稼働させて動画像や音声の採取を行わせれば、それらの部屋のローカルディスプレイ１１０それぞれに、自他の部屋の様子を示す何個かの画面分割画像４１０を表示させることができる。その場合も、コンテキスト伝達インタフェース４５０では、アクションやイベントの種別、ユーザ１０ａの種別や身元、リモートユーザの種別や身元等といった動画像コンテキスト関連知識を適用することで、撮影及び送信すべきコンテンツを特定することができる。

端末３００は、また、使い勝手がよく様々な形態で利用できる装置になるよう、（少なくとも部分的に）可搬な装置として構成されている。そのため、端末３００（少なくともその電子イメージング装置１００）をキッチンキャビネット２６５上に固定して使用することも（図２参照）、装置１００を仕事場や車庫で使用することも（図８参照）できる。後者の用法では、リモートユーザ１０ｂとのやりとりを通じローカルユーザ１０ａが自動車修理等を助けてもらうことができる。また、いつもは図２のローカル環境４１５にあるキャビネット２６５に載せていき、必要なときにそこから取り外して図８のローカル環境４１５（車庫等）に持ち込む、という拡張的な形態で装置１００を使用することも、図１０に示すように装置１００を居宅内の別の場所（例えばテーブル上）に移動させて使用することもできる。また、このようにユーザ１０が自分の目的用途に応じ端末３００を持ち運べるようにするため、画面サイズをそれに相応しいサイズにしてある。即ち、ディスプレイ１１０のサイズが大画面テレビジョン受像機並であると端末３００の可搬性がかなり低くなるので、より小さなラップトップコンピュータ並又は電子書籍リーダ並のサイズにして可搬性を高め、或いは更に小さな携帯電話並又は携帯情報端末（ＰＤＡ）並のサイズにして更に可搬性を高めてある。携帯電話やＰＤＡ並のサイズだと、端末３００及びその画面が小さいのでプライバシ保護やコンテキスト対応に関わる機能が一部制約されるが、ＧＰＳ（汎地球測位システム）測位機能の付加で機能及び性能が高まる面もある。また、画面が小さいとその上に画面分割画像４１０を表示させることが難しいが、マイクロプロジェクタ技術が近年とみに進歩しているので、携帯電話等の一般消費者向け小型電子機器にＬＥＤプロジェクタが装備され、画面サイズが実質的に拡張されるのも遠い未来のことではなかろう。そうした機器は本発明の実施にひときわ適している。

端末３００の機能は、更に、その端末３００で使用される撮影装置乃至カメラ１２０の種類及び配置によっても左右される。例えば、端末３００におけるカメラ１２０の使用個数は、図３Ａ及び図６の如く１個にすることも、図１、図３Ｂ及び図４Ａの如く２個にすることも、或いはそれ以上にすることもできるので、前述した図４Ａの如く、ＷＦＯＶカメラ１２０と１個又は複数個のパン、ティルト及びズーム機能付ＮＦＯＶカメラ１２０とを対にして設けて利便性を高めることができるほか、互いに異なる方向を向くようＮＦＯＶカメラ１２０を複数個設けて複数通りのＮＦＯＶ４２０を捉えうる構成にすることもできる。また、前述した図３Ａの如く、電子イメージング装置１００の構成をそのカメラ１２０及びディスプレイ１１０が共にほぼ＋Ｚ方向を向く前睨み型の構成にすることができるほか、ディスプレイ１１０、カメラ１２０又はその双方が＋Ｚ方向だけでなくその逆の−Ｚ方向にも向く（或いは−Ｚ方向側にもある）両睨み型の構成にし、二方向からその部屋乃至ローカル環境４１５を撮影してその画像を表示することも可能である。更に、電子イメージング装置１００を構成するカメラ１２０をそのフルアングルθが約１８０°又はそれ以上にもなる超広角カメラ、例えば魚眼レンズカメラや３６０°パノラマカメラにすることができる。例えば特許文献３５（発明者：Wallerstein et al.）又は特許文献３６（発明者：Driscoll et al.）に記載の３６０°パノラマカメラ、例えばカメラを使用すれば、ローカル環境４１５を取り巻くエリアにおけるアクションを、その端末３００でより素早く撮影乃至監視することができる。但し、超広角レンズで撮影された画像は歪んでいることが多いので、ローカルユーザ１０ａ又はリモートユーザ１０ｂに示される画像に対し、イメージプロセッサ３２０で歪補正処理を施すことが必要になろう。そして、端末３００の電子イメージング装置１００が設けられている場所から物理的に離れた場所を占めるよう、ローカル環境４１５内に更に１個又は複数個のカメラ１２０を設けることもできる。例えば、装置１００が設けられている部屋とは別の部屋に、新たなカメラ１２０（又はそれにディスプレイ１１０を付加した新たな電子イメージング装置１００）を追加配置することができる。追加したカメラ１２０（又は装置１００）を内部ネットワーク経由で端末３００と接続すれば、ユーザ１０の動きをより広い範囲に亘りその端末３００で捉えることが可能になる。しかも、元々あった装置１００を構成しているカメラ１２０だけではうまく捉えられない方向から、その新たなカメラ１２０で撮影を行える分、撮影能力が高まることとなる。プロセッサ３２０では、それらの画像から秀逸なコンポジット画像を生成することができる。

ただ、ユーザ１０がそのローカル環境４１５内又は居宅内を動き回ると、いずれはアイコンタクトが成立しなくなる。即ち、電子イメージング装置１００のカメラ１２０を真正面から見られない状況や、その装置１００に表示されるリモートユーザ画像と視線が一致しない状況に立ち至る。例えば、図４Ｃ中の場面６２０ではローカルユーザ１０ａの視線が真正面から装置１００に向いているのに対し、場面６２０’では反れている。図２中のユーザ１０の視線も真正面から装置１００に向いているわけではない。この問題に対処する手段としては、非特許文献６に記載の興味深い手法を使用することができる。具体的には、複数個のカメラからなるセンサアレイを壁や家具に設ける一方、指向性ビデオプロジェクタ（いわゆるエブリフェアディスプレイプロジェクタ）を好ましくは天井付近に設けておく。更に、動画通信イベント開催中にユーザ１０ａが壁又は家具上のカメラを注視したら、指向性ビデオプロジェクタがリモートユーザ１０ｂの姿をそのカメラの配設面（壁又は家具の外面）に映写するように、システムを構成すればよい。この手法ならアイコンタクト問題を好適に解消することができる。反面、この手法は、ユビキタスコンピューティング又はパーベイシブコンピューティングがある程度普及していないと実施できない、システム構築に当たり相当なインフラストラクチャが必要になる、普及が進むか否かが懸念される、ユーザ１０ｂの頭部が体から切り離されて壁上に浮かび上がるので見た目に気味が悪い、等といった難題も抱えている。

また、テレビ会議の分野では、従来から、できるだけ小さな視差でアイコンタクトを成立させることがひときわ重要であるとされている。これは、互いに実際に会って会話しているかのような感覚を、ローカルユーザ１０ａ及びリモートユーザ１０ｂに抱かせるためである。これを達成するには、既存の多くの特許文献の記載に倣い、電子イメージング装置を構成するディスプレイの背後にカメラを仕込んだ構造にするとよい。そうした構造では、そのディスプレイを真正面から見つめているユーザ１０ａの姿を、ディスプレイ越しにカメラで撮影し、その撮影で得られた画像（ダイレクトオン画像）をユーザ１０ｂに送信することができる。図９Ａに、そうしたディスプレイ越し撮影装置の一従来例として、特許文献３７（発明者：Manico et al.、譲受人：本願出願人、名称：画像撮影表示装置(Image capture and display device)）に記載の装置を示す。図示例の電子イメージング装置１００は、カメラ１２０及びプロジェクタ１８０に加え、散光状態・透光状態間でスイッチングする明滅画面１３２や、カメラ１２０及びプロジェクタ１８０から画面１３２に至る光軸を部分的に共通光軸１７０にするビームスプリッタ（例えば部分的に銀色をした半透明のミラー）１３４や、個々のフレーム周期のうちカメラ１２０による撮影に割り当てられている期間だけ遮光されるようプロジェクタ１８０からの光を変調するシャッタ１８４を備えている。そのシャッタ１８４は、画面１３２が散光状態になるときに透光状態になるよう（プロジェクタ１８０からの画像が画面１３２上に表示されるよう）、また画面１３２が透光状態になるときに透光状態になるよう（カメラ１２０が画面１３２越しにユーザ１０を撮影できるよう）、画面１３２のスイッチングと同期して駆動される。

この種のアイコンタクト型遠隔会議装置はこれまでも数多くの特許文献で提案されている。例えば、上掲の特許文献３７のほかに、特許文献１４（発明者：Yoneta et al.、名称：テレビ電話機(Video Telephone)）、特許文献１６（発明者：McNelley, et al.、名称：パススルー反射型投射表示装置(Pass-Through Reflective Projection Display)）、特許文献１７（発明者：McNelley, et al.、名称：画像ブロック型遠隔会議用アイコンタクト端末(Image Blocking Teleconferencing Eye Contact Terminal)）等がある。ただ、ビームスプリッタ（例えば部分的に銀色をしたミラー）を使用するため、この種の従来型テレビ会議装置は図９Ａに示す如く（特に奥行き方向に）大きくなりやすく、現在この種の仕組みによる製品は一般消費者向け市場ではなく企業経営者向け市場で販売されるに留まっている。

そのため、ディスプレイの背後にカメラを設置する方法の改良案として、表示部材と撮影部材が密着している装置を様々な企業が提案している。その一例として、図９Ｂに、米国特許出願第１１／５５５８２２号（発明者：Kurtz et al.、譲受人：本願出願人、名称：撮影装置を複数個備える集積型表示装置(An Integrated Display Having Multiple Capture Devices)）に記載の構成を採る電子イメージング装置１００、特にその個別画素統合型画像表示兼撮影部の構成を示す。この構成では、基本的に、複数個の部分透明画素１５４によって形成されるディスプレイ１１０越しにカメラ１２０で撮影を行うことができる。具体的には、この装置１００の基板１５８上には通常表示画素１５０及び部分透明画素１５４が各複数個形成されており、それらの画素１５０，１５４に対する制御信号及び駆動電流の供給が薄膜電子部品１６２のパターンによって、或いは更に反射電極１６８及び透明電極１６６のパターンによって行われている。画素１５４たる窓素子の上下両面に電極１６６が配されているのに対し、画素１５０ではその下面に電極１６８が配されている、という違いはあるが、それらの画素１５０，１５４は、いずれもＯＬＥＤ技術、ポリマ発光ダイオード（ＰＬＥＤ）等を用い白色或いは特定色（レッド、グリーン、ブルー等）の発光素子として形成されている。こうした構成では、複数個の画素（窓素子）１５４によって開口Ａが何個所かに形成されるので、カメラ１２０がそこから前方を覗くことができる。また、スクリーンドア効果（網扉効果）等の偽像が発生して撮影画質が低くなる恐れもあるものの、カメラ１２０は概ね通常通りに合焦及び機能させることができる。そのカメラ１２０からディスプレイ前面までの距離が図９Ａの構成に比べて短いので、この装置１００は図９Ａのそれに比べコンパクトで（特に奥行き方向寸法が小さく）、構造上は図３Ａ及び図３Ｂのそれにより近いものになる。また、コンピュータ用モニタ又はテレビジョン受像機としても機能するディスプレイ１１０（図１に関する説明を参照）に対しこの集積手法を適用すると、カメラ１２０の位置がディスプレイ１１０の側方ではなく背後になる。その結果、アイコンタクトが成立しやすくしかもコンパクトな集積型の装置１００が得られるので、この集積手法はとりわけその種のディスプレイ１１０に適しているといえる。

こうしてアイコンタクトを成立させることは、全ての用途で明らかに有益なこととはいえないし、あらゆる動画撮影モードで必要とされているわけでもない。しかし、前述した従来のテレビ電話装置や遠隔会議装置のように、ローカルユーザ及びリモートユーザが共に会議室風の部屋にいる場合には、ダイレクトオン画像を表示させることによって、ローカルユーザ・リモートユーザ間のアイコンタクトを成立させることができる。即ち、ローカルユーザ及びリモートユーザが自分の顔を自分側のディスプレイの画面と同じ高さにし、その画面に真正面から向かい合って画面中央を見つめるものと想定できる用途なら、ユーザの視線がくるはずの位置（画面の中央）から画面越しに覗けるよう端末のカメラを配置することで、アイコンタクトを好適に成立させてユーザエクスペリエンスを高めることができる。

それとは違い、画面を真正面から見つめているユーザの姿を斜め方向から撮影するようカメラが配置されている場合でも、ソフトウェア的な処理を利用してアイコンタクトを成立させることができる。その手法としては既提案のものを使用することができる。例えば、特許文献４２（発明者：Andersson et al.）に記載のテレビ会議システムでは、リモートユーザの姿を捉えている画像データから目（瞳と瞼）のデータを取り出し、それをライブ画像データに編入するソフトウェアを使用している。このソフトウェアを使用すれば、リモートサイト側被写体がこちらをまっすぐ向いているかの如く見えるよう、リモートユーザ画像を外見的に修正して（カメラの位置オフセット分を補正して）表示させることができる。また、特許文献３８（発明者：Hillis et al.）に記載のテレビ遠隔会議システムでは、複数個の動画撮影装置で撮影される複数通りの動画像に対し同時に画像モーフィングアルゴリズムを適用する、という手法を使用している。この手法を使用すれば、複数通り得られる動画像間の補間でローカルユーザ画像を合成し、そのコンポジット画像をリモートユーザ向けに表示して、アイコンタクトを成立させることができる。

また、遠隔会議用のものと違い、居宅向けの動画通信システム２９０及びその端末３００は様々な流れで使用される。そのなかには、ダイレクトオン画像の撮影及び表示でアイコンタクトを成立させることができない流れも数多く含まれる。例えば、図４Ｃ中の場面６２０でローカルユーザ１０ａのダイレクトオン画像が得られるのに対し、同図中の別の場面６２０’や図２の場面では、ユーザ１０又は１０ａの視線が電子イメージング装置１００に対し上下又は左右に反れているためそのダイレクトオン画像を得ることができない。この点についてより詳細に検討するため、図１０に、ユーザ１０が自サイトの装置１００及びそのカメラ１２０を見下ろしている状況を示す。カメラ１２０がディスプレイ１１０の背後に仕込まれている場合、ユーザ１０がテーブルに向かって着席し、真正面からディスプレイ１１０の中央を見据えれば、即ちディスプレイ１１０の中央から真正面に延びる光軸１７０に沿ってユーザ１０、ディスプレイ１１０及びその背後のカメラ１２０が並べば、そのカメラ１２０でユーザ１０を撮影してアイコンタクトを成立させることが可能である。しかし、図示状況ではユーザ１０が装置１００を見下ろしている。この状況では、ディスプレイ１１０の中央からユーザ１０の目に至る光軸が、軸１７０に対し傾斜した別の軸１７０’になる。そのため、ディスプレイ１１０の背後にあるカメラ１２０で下側の軸１７０沿いにユーザ１０を撮影しても、そのユーザ１０の顔画像が得られるとは限らない。得られるにしても、リモートユーザがそれを見てユーザ１０とアイコンタクトできるような顔画像ではないでろう。また、この種の動的な環境では、リモートユーザ画像を表示する際にも、これと似たアイコンタクト問題が発生する。具体的には、ローカルディスプレイ１１０上にリモートユーザ１０ｂの画像を表示させる際に、その視線をユーザ１０ａにどうやって向けるか、という問題が発生する。例えば、図１０に示したディスプレイ１１０上にリモートユーザ画像を表示させたとしても、その画像の視線方向が下側の軸１７０に沿っているのであれば、ディスプレイ１１０を軸１７０’沿いに見ているユーザ１０ａは、恐らく、ユーザ１０ｂとのアイコンタクト感を味わうことができない。

このように、リモートユーザがローカルユーザの視線を感じられるようローカルユーザを撮影することや、ローカルユーザがリモートユーザの視線を感じられるよう視線補正してリモートユーザ画像を表示させることは、決して簡単なことではない。実際、ユーザ１０、ディスプレイ１１０及びカメラ１２０三者間の幾何学的配置に生じる変動に抗し、完全にアイコンタクトを成立させるとしたら、ユーザ１０の移動に応じダイナミックな修正が施されるよう撮影，表示の両局面でそれぞれ視線追跡処理を行うことが必須となろう。無論、この問題の解決をそこまで絶対視する必要はない。自分が動画通信イベントに参加しているという事実をユーザ１０がどの程度まで許容できるか、またその許容度が“ちょうど窓から外を見ているかのような擬似臨所体験を味わいたい”というユーザ１０の想いに比し如何ほどのものかに応じて解決を図ればよい。ユーザ１０がアイコンタクトを望む度合いはイベントの種類によっても変わってくるので、この問題の重要度は動画像コンテキスト、特にイベント種別によっても左右される。

アイコンタクトが成立しやすい画像が得られるよう撮影を行う上で重要なのは、使用している端末３００の構成を十分に利用することである。例えば、その端末３００で使用される撮影装置１２０のうち第１のものが広角カメラであり、第２のものが表示画面１１５の背後に仕込まれたズーム機能付ＮＦＯＶカメラ（図９Ｂに示した構成のもの等）であり、第３のものがどこか画面１１５以外の場所に実装されたズーム機能付ＮＦＯＶカメラであるとする。この場合、ディスプレイ１１０の構成上パン動作及びティルト動作が制約されるので、第２のカメラ１２０で好適に撮影できる方向は、例えば図１０中の軸１７０’沿いに限られる。他方、第３のカメラ１２０は、画面１１５の背後に仕込まれていないためそのパン動作及びティルト動作にあまり制約が課されない。従って、第３のカメラ１２０で高品質な画像が得られる方向はより多様である。図１０中の軸１７０”以外にも様々な方向沿いにローカル環境４１５を高品質撮影することができるので、第３のカメラ１２０をうまく利用すれば、ローカルユーザ１０ａや物体２６０のダイレクトオン画像を多様な方向から得ることができる。また、特許文献３８の記載に倣い、非仕込みタイプでパン及びティルト可能なカメラ１２０を複数個用い、それらで捉えたユーザ１０の顔画像を合成してよりアイコンタクトが成立しやすいコンポジット画像を生成することも可能であろう。但し、ユーザ１０がいつもディスプレイ１１０やカメラ１２０を見ているとは限らない。よそ見が甚だしくなると、アイコンタクト性の高い画像を撮影することがコンテキスト的に重要でなくなり或いは技術的に不可能になる。

同様に、アイコンタクトが成立しやすいように画像を表示させる処理で重要なのは、以下の要領で幾何学的配置の変化に対処することである。まず、図４Ｃ中の場面６２０で表示されているのと同様のリモートユーザ画像を、図１０に示したサイトのディスプレイ１１０によって表示させ、そのサイトのユーザ１０に見せる場合を考える。通常のテレビ会議システムであれば、軸１７０に沿ってリモートユーザ画像を眺めているユーザ１０と、表示されているリモートユーザとの間にアイコンタクトが成立するよう、真正面を見つめているリモートユーザ画像を画面の中央に表示させるところである。しかし、図１０に示す例では、ユーザ１０（特にその顔２５）の位置が軸１７０から外れているので、そのようなリモートユーザ画像を表示させたのでは、ユーザ１０の視線とリモートユーザの視線とを一致させることができない。この問題を抑えるため、端末３００では、まず、そのローカル環境４１５におけるユーザ１０の方向又は位置をディスプレイ１１０を基準にして推定する。その推定のアルゴリズムとしては、ディスプレイ１１０又はその中央を原点にした三次元空間でそのユーザ１０の顔の向き、位置等を追跡する姿勢追跡アルゴリズムや、同じ空間でそのユーザ１０の目の向き、位置等を追跡する視線追跡アルゴリズムを使用する。ユーザ１０の位置を調べる手法としては、ステレオカメライメージングや、光波又は音波（ソナー）による測距及びマッピング等、様々な手法を使用することができる。端末３００では、次いで、そのイメージプロセッサ３２０に視線順応手順４９５を実行させる。手順４９５としては、例えば、リモートユーザがユーザ１０の方を向いているように見せるためリモートユーザ画像中の目の部分を修正する手順を、使用することもできる。ディスプレイ１１０上に表示されるのはこの修正を経たリモートユーザ画像である。目の部分を修正する手法としては、例えば特許文献４２に記載の眼差し修正法を使用する。この手法では、画像データのうち瞳又は瞼を表している部分を修正し、リモートユーザがあたかも適切な方向（軸１７０沿いの正面方向でもよい）を向いているかのような外見に変化させる。

ただ、実際には、自分の視線を左右（横方向）又は上下（縦方向）に動かす際に、人間というものは、目の動きだけで済ますのではなく、いっとき目を動かして対処した後素早くその方向へと頭を巡らしそれにつれて目の位置を元に戻すはずである。そのため、視線順応手順４９５としては、より進んだ手順、即ちより自然にアイコンタクトが成立するよう少なくとも頭の動きを勘案して画像を表示させる手順を使用する。この手順では、リモートユーザ画像を傾斜及び回転させてローカルユーザの方を向かせる処理を実行する。その処理は、例えば特許文献３８に記載のデュアルカメラ法の拡張で、即ち非特許文献１１に記載の眼差し修正法等に則り顔の向きを修正しローカルユーザの方を向かせる手法の併用で実行される。また、特許文献３９（発明者：Toyama et al.）に記載のテレビ会議システムでは、カメラによる撮影で得られたローカルユーザ画像に対し、バーチャルな三次元画像に変換した上で修正を施している。その修正は、ローカルユーザの頭や目の向きを画像上で改変して画面の真正面に向けることで、リモートユーザがアイコンタクト感を得られるようにする、というものである。従って、頭や目を画像修正で様々な方向に向けられるようこの手法を拡張し、それを手順４９５で実行するようにしてもよい。例えば、あるリモートサイト３６４の端末３００が、その環境内の様々な場所に配置された都合複数個のカメラ１２０を備えているのであれば、それらのカメラ１２０のうちリモートユーザ１０ｂを最善の向きから捉えているもの（手順４９５による後処理ができるだけ少なくなるもの）を選び、そのカメラ１２０から得られる一群の画像をローカルサイト３６２にいるユーザ１０向けに表示させるようにすればよい。

また、ローカル環境にリモートユーザ画像を表示させてアイコンタクトを図ることの要否及びその画像の表示形態は、前述の通り、ローカル，リモートの各環境で生起しているイベント及びアクション双方のコンテキストによって場面毎に変わってくる。例えば、ローカル環境４１５に複数の人物がいる場合、それらローカルユーザ１０ａ全員の平均的な居場所を見やる画像になるようリモートユーザ画像を修正すべきか、それともそれらのユーザ１０ａのうち現在の話者を見やる画像になるようリモートユーザ画像を修正すべきか、といった興味深い問題が発生する。この問題への対処が重要になるのは、通常、ユーザ１０ａ及びそれを取り巻く環境４１５を捉えるための撮影視野４２０があまり広くないときである。

より詳細に述べると、表示される画像に視線補正を施しアイコンタクトの成立を図る処理は、視線指標やコンテキストに応じその内容が切り替わるよう、視線又は動画像コンテキストに基づく一群の視線コンテキストルールに従い実行される。例えば図２では、ユーザ１０が宅内機器たるコンロ２７０を見ながらローカル環境４１５たる台所で作業している。コンロ２７０に限らず、ユーザ１０が見ているのが端末３００以外の物体であるときには、その環境４１５がどのような様子（コンテキスト）であるかが色々と伝わるように、そのユーザ１０の画像を視線補正無しでリモートユーザ向けに表示する。逆に、ユーザ１０が端末３００、特にそのカメラ１２０を見ているときには、コンテキスト伝達インタフェース４５０にて時間的及び方向的な視線指標に基づきそのことを検知し、視線補正アルゴリズムをそのユーザ１０の画像に適用することで、そのユーザ１０のダイレクトオン画像をよりアイコンタクトが成立しやすい画像に修正する。リモートユーザが見るのはこの修正を経た画像である。

更に、居宅間動画通信ではユーザの位置やコンテキストがめまぐるしく変化する。視線配慮型の撮影動作（リモートユーザとのアイコンタクトが成立しやすい画像が得られるタイミング及び形態でのローカルユーザ画像撮影）や、視線配慮型の表示動作（ローカルユーザとのアイコンタクトが成立しやすい向き及び形態でのリモートユーザ画像表示）は、こうした制約条件の下に実行される動作である。その際踏まえるべきユーザ位置及びコンテキストは、前述の通り、ローカルサイト，リモートサイト双方のそれである。この点については、不完全ながら、動画通信システム２９０に属する二端末３００間で動画通信イベント６００の最中に交わされるやりとり、という形態で図７Ｄにも示されている。こうした制約条件を充足させるため、通信イベント解析６５５では、その時々の場面（例えば６２０）に場面解析アルゴリズムを適用する際、一群の視線コンテキストルールに従いその場面６２０の特性に関わる種々の情報を調べる。その対象となるのは、頭又は目の動き・その速度・（カメラ１２０から見た）方向等の視線指標、撮影視野設定、人々のアクション・会話等の人的キュー、イベント種別等の動画像コンテキスト等々、撮影時の視線追跡や視線補正（視線対応）を行うべきか否かを判別するのに役立つ情報である。もし、ローカルユーザ１０ａの参加先イベントが有目的的イベントであれば、視線コンテキストルール群を適用したときに一群の視線指標に基づき視線対応の必要性が認められるのに対し、ユーザ１０ａの参加先イベントが多人数イベント、即ちディスプレイ１１０を眺めはするがリモートユーザ１０ｂとの通話はあまり行われないイベントであれば、そうした視線対応は概ね不要であるということになる。使用される視線コンテキストルール群は、例えば、撮影視野が狭く捉えている人数が少ないほど視線対応の必要性及び重要性が高いと判別されるようなルールである。また、視線対応が不要な状況でも、場面解析アルゴリズムに則り例えば推定姿勢角を求め、その推定姿勢をトリガ値乃至しきい値に照らすことで、ユーザ１０ａがディスプレイ１１０を見ようとしているか否かを判別する。推定姿勢角は、ユーザ１０ａの視線方向を追跡する視線追跡処理で得られる情報であり、そのユーザ１０ａの注意を惹いているものの方向を表している。これを導出するには実際に目（瞳）の動きを追跡した方がよいが、非特許文献９に記載の如く頭の姿勢から視線方向を推論するだけで十分であることも多い。

その場面解析アルゴリズムで視線対応の要否判別に使用される視線コンテキストルール、即ち現場面の動画像コンテキスト（イベント種別や撮影視野設定）を視線対応の必要性乃至重要性に関連付けるルールには、視線配慮型撮影時動作に関わるローカルユーザ特性（視線指標等）の変動範囲を現場面の動画像コンテキストに基づき定めるルールや、視線配慮型表示時動作に関わるリモートユーザ特性（視線指標等）の変動範囲を定めるルールが含まれている。従って、通信イベント解析６５５における視線追跡／補正の要否判別は、現場面での視線指標を導出し、現場面の動画像コンテキストに対応する視線指標変動範囲と比較することで、行うことができる。視線指標の算出は、場面解析アルゴリズムに関し前述した別種処理に倣い行い、併せてその統計的品質評価指標たる視線方向自信度も算出する。コンテキスト伝達インタフェース４５０では、こうした解析６５５の実行を通じ、ローカルユーザの姿を視線に応じ撮影又は画像処理すべきことが、高い視線方向自信度で判明した場合、視線順応手順４９５の実行を通じ指令を発することで、カメラ１２０による撮影動作を調整する。即ち、使用するカメラ１２０を指定し、或いはズーム、パン、ティルト等のセッティングを調整して撮影を行わせることで、リモートユーザがアイコンタクト感を得やすい画像を撮るようにする。必要ならば、その視線順応手順４９５から場面撮影管理６５０経由でイメージプロセッサ３２０にデータを供給することで、撮影済の画像データを修正し、それによりリモートユーザとのアイコンタクトが成立しやすい動画像を生成する。

その画像修正では、アイコンタクト感を高めるため、前述の通り画像データのうち瞳又は瞼を表す部分や頭の向きを修正する。同様の目的で身体の姿勢や場面の向きを修正することもある。視線順応手順４９５では、更に、先方（リモート環境）の動画像コンテキスト、場面特性及び視線指標が判る場合は、先方のサイト３６４でローカルユーザ１０ａの画像が表示される際の目又は頭の向きをそれらに基づき指定又は修正する。例えば、先方のサイト３６４の動画像コンテキストが複数の人物をＷＦＯＶ４２０で捉える性格のコンテキストであるのなら、先方で表示される画像におけるユーザ１０ａの目又は頭の向きを、先方のサイト３６４で捉えている人物群の平均的な居場所を見やる向きになるよう指定又は修正することで、アイコンタクトを成立させやすくする。リモートディスプレイ１１０から見たリモートユーザ１０ｂの位置又は方向が判明している場合は、先方で表示される画像におけるユーザ１０ａの目又は頭の向きを、そのユーザ１０ｂの方向になるよう指定又は修正することで、そのユーザ１０ｂとのアイコンタクトを図ることもできる。これを実現するため、端末３００は、動画像コンテキスト（イベント種別）、撮影視野設定、話者位置、視線指標等のデータを収集し、ネットワーク３６５経由で他の端末３００へとそのデータを送信する。その一方、端末３００は、他の端末３００からその種のデータを受信して手順４９５を実行する。例えば、そのデータに基づき画像処理を施すことで、表示される画像における目又は頭の向きを修正する。また、手順４９５では、前述した場面内調整アルゴリズムに倣い、且つこうした視線補正の必要性を示す指標として視線方向自信度を用いつつ、その視線補正の要否を判別し又は予め定められている処理のうちどれを今回の視線補正で使用するのかを指定する。その手順４９５では、更にタイミングの制御も実行する。例えば、ユーザの視線が引き続きディスプレイに達しているが、その視線がそのディスプレイプレイの仕込みカメラの真正面から外れているため視線補正が必要な場合、視線補正が施されていない状態から所要内容の視線補正が施されている状態へとスムーズに遷移するよう、視線補正開始までに費やす時間及び視線補正開始から遷移完了までに費やす時間双方の長さを制御する。

この画像処理、即ちリモートサイト３６４で表示される画像に視線補正を施しリモートユーザ１０ｂのアイコンタクト感を高める処理は、そのサイト３６４から供給される視線関連データに基づきローカルサイト３６２で動画像データを修正してサイト３６４に送信する、という段取りでも、動画像データの修正を含む仕上げ部分をサイト３６４で行う、という段取りでも行うことができる。どちらもネットワーク３６５経由でのデータ交換が必要になるが、使用帯域幅を抑えるには前者の方がよい。同じ端末３００で両者を併用することもできる。このほかには、サイト３６４から供給される動画像データを独自に解析することで、視線指標、動画像コンテキスト等の視線関連場面特性をサイト３６２の端末３００が独自に導出し、その場面特性に従いローカルユーザ画像に視線補正を施してサイト３６４に送信する、という段取りも採用することができるが、関連データをネットワーク越しに交換する前掲の手法に比べると低効率なものになろう。

関連する事項として、ローカル環境４１５におけるローカルユーザ１０ａのアクションに対し、リモートユーザ１０ｂが受動的にも能動的にも関わり合えることに、留意すべきである。即ち、ユーザ１０ｂは、ユーザ１０ａ又はその端末３００から送られてくる画像を見ることで受動的に、またローカルサイト３６２における撮影視野変更を要求又は指令することで能動的に、関わり合うことができる。能動的な例では、図４Ｂに示す如く視野４２０を縮小することや、ＮＦＯＶ４２０を第１の場所（テーブル）から第２の場所（子供達）へと移動させることを、ユーザ用コントローラ１９０の操作等で要求する。ユーザ１０ｂからのこうした要求乃至指令に応じ、ユーザ１０ａ側のディスプレイ１１０では、例えば、ＷＦＯＶ４２０におけるＮＦＯＶ４２０の動き又はそこから得られる画像を、画面分割画像４１０として表示する。ユーザ１０ｂが見せるジェスチャに反応してカメラ１２０に指令を発する意向察知応答手順(prompt and response sequence)を実行し、能動性を更に高めることもできる。その場合、ジェスチャに反応するタイプのコントローラ１９０を、端末３００のユーザインタフェース４４０に何個か設けるとよい。その種のコントローラ１９０は、システム稼働だけでなく、ユーザ１０ａ・１０ｂ間のやりとりにも使用することができる。

図１１Ａ及び図１１Ｂに、この動画通信システム２９０で使用可能な意向察知応答手順の一例を模式的に示す。この例は、ユーザ１０ａ及び１０ｂが自分の端末３００を使用しネットワーク３６０経由で通話しており、またその端末３００のディスプレイ１１０に通話相手の姿が映し出されている点で前掲の例と同様であるが、カメラ１２０で捉えた画像からユーザ１０ａの意向(prompt)を察知する機能、例えば非特許文献９に記載の如く視線追跡結果をジェスチャキューとして使用し頭部姿勢等から意向を察知する機能がローカルサイト３６２側の電子イメージング装置に備わっている点で異なっている。そうした機能があるため、図１１Ａに示すように、ローカルユーザ１０ａがリモートユーザ画像を見つめると、リモートサイト３６４側のカメラ１２０がその画像の相対位置Ｍに対応する位置Ｍ’を向く。位置Ｍ’にはリモートユーザ１０ｂがいるので、ユーザ１０ａ及び１０ｂはアイコンタクトしながら通話することができる。更に、その通話が進展してユーザ１０ａの注意が例えば上の方にずれると、ユーザ１０ａの見つめる先が相対位置Ｎに移動した旨、視線検知アルゴリズムに従い検知される。サイト３６２側のコンピュータ３４０は、こうしてユーザ１０ａが関心を示した方向に基づく指令を、通信コントローラ３５５及びネットワーク３６０を介しサイト３６４側のコンピュータ３４０に送信する。サイト３６４側のコンピュータ３４０は、図１１Ｂに示す如く、その位置Ｎに対応する位置Ｎ’に向くよう自サイトにあるカメラ１２０の向きを修正する。

ご理解頂けるように、こうしたジェスチャ追跡インタフェースとしての視線追跡は、アイコンタクトしすい画像を表示させるための視線追跡及び視線補正との連携で進行する。例えば、図１１Ａではリモートユーザ１０ｂの顔がサイト３６４内の位置Ｍ’にあり、ローカルユーザ１０ａがその位置Ｍ’に対応する位置Ｍを見つめている。また、サイト３６２側のカメラ１２０は、例えばディスプレイ１１０越しにユーザ１０ａのダイレクトオン画像を捉えている。その画像はサイト３６４のディスプレイ１１０に表示されるので、ユーザ１０ａと、その画像を見ているユーザ１０ｂとの間に、アイコンタクトが成立する。この状態からユーザ１０ａの見つめる先が位置Ｎへと移動すると、ユーザ１０ａの視線はいっときそのサイト３６２のカメラ１２０から外れる。しかし、サイト３６４にあるカメラ１２０の向きがその位置Ｎに対応する位置Ｎ’の方向に修正されるため、位置Ｎ’にある物体２６０の画像がユーザ１０ａ用のディスプレイ１１０の中央に表示されることとなり、ユーザ１０ａの視線が再び自サイトのカメラ１２０の方に寄せられる。この状態では、位置Ｎ’にある物体２６０の画像がユーザ１０ａの目に映る（位置Ｍ’にあるユーザ１０ｂの顔は映らないこともある）一方で、ユーザ１０ｂ向けに表示される画像がユーザ１０ａのダイレクトオン画像になる。即ち、非対称ながら、ユーザ１０ｂだけがアイコンタクト感を味わうことができる。なお、視線補正アルゴリズムがユーザ１０ａの画像に適用されるため、ユーザ１０ａが位置Ｎ（Ｎ’）を見ているか否かについて、ユーザ１０ｂ側に混乱が生じる可能性がある。

ジェスチャ追跡インタフェースとしての視線追跡は、更に、ユーザ１０が表示画面１１５を見ながら（ちょうど窓の外を眺めて隅から隅へと視線を走らせるときのように）視線や姿勢を横方向にずらし、そのことがコンテキスト伝達インタフェース４５０により検知されたときに実行される。例えば図１２Ａでは、ユーザ１０が端末３００に備わるディスプレイ１１０の画面１１５を眺めており、その画面１１５には子供二人と犬一匹がいる場面が映っており、犬の姿はその画面１１５の縁の方にあって体の一部しか見えていない。その犬の姿をもっとよく見たい場合、ユーザ１０は、窓の縁の方へと視線を移していくときとちょうど同じように、自分の視線を画面１１５の縁の方へと動かしていく。即ち、自分の頭、顔２５、或いは更に身体５０を動かすことで、自分の姿勢ひいては視線方向を変えていく。端末３００は、こうしたユーザ１０の姿勢又は位置変化を検知し、場面の向き及び位置を変化させる。即ち、図１２Ｂに示すように、それまで縁の方に位置していた画像コンテンツが画面１１５の中央寄りに表示されるよう表示を調整する。この調整は、例えば、インタフェース４５０からの求めでリモートサイト３６４における撮影動作に修正を加え、ローカルサイト３６２で表示される画像が窓の外を眺めているときと同様に変化するよう、そのサイト３６４における撮影視野４２０（その撮影対象部分）を横方向に移動させることで行う。

そのコンテキスト伝達インタフェース４５０には、更に、視線追跡及び視線補正のどちらを優先的に適用するかを決定する役割がある。例えば、ジェスチャ追跡時の視線追跡では、ユーザ側の混乱を抑えるため視線補正付の視線追跡よりも視線補正抜きの視線追跡を優先させ、またコンテキスト的混乱を抑えるため単なる視線追跡より撮影視野ズームアウト付の視線追跡を優先させる。撮影視野ズームアウト付での実行を優先させるのは、ローカルユーザ１０ａやリモートユーザ１０ｂのポートレイトを接写するより、ユーザ１０ａやユーザ１０ｂを取り巻く広い空間を撮影した方が、前述の通りより豊富にコンテキストを伝達して視線方向関連の抵触問題を抑えられるためである。

図１１Ｃに、端末３００で使用できるジェスチャ追跡インタフェースの別例を示す。この例では、ユーザ１０ａがレーザポインタ等のポインタ装置１９２を手にしており、自分の好きな場所例えば位置Ｍをポイントすることができる。また、そのポインタから発せられる光ビームの射突位置を検知するプロンプトディテクタ１９４例えば二次元センサが、別途設けられている。コンピュータ３４０は、このポインタ利用型ディテクタ１９４の出力に基づく指令を、ネットワーク３６０経由でリモートサイト３６４側のカメラ１２０に送信する。これら、ポインタ装置１９２及びディテクタ１９４は、基本的にジェスチャ追跡用ツールの一種であるといえよう。端末３００では、このほかにも様々な形態でジェスチャ追跡を行うことができる。例えば、ジェスチャ解析アルゴリズムに則り画像を解析し、それにより識別される手、腕、頭、身体等の動きに追従するようにしてもよい。

こうしたジェスチャ追跡インタフェース、例えば図１１Ｃに示すようにポインタを利用するタイプのそれには、図１１Ａ、図１１Ｂ、図１２Ａ及び図１２Ｂに示した単純な視線追跡インタフェースに比べてロバストな面がある。例えば、ユーザ１０がジェスチャ言語を習得する必要があるものの、ユーザ１０の意図が誤解されることが少なくなる。更には、ユーザアクションの解釈を通じ人間同士のやりとりの内容を察知することができる様々な他種インタフェース乃至アルゴリズムを、コンテキスト伝達インタフェース４５０で利用可能であることも、重要なことである。例えば、表情、言葉、対話内容等のキューを手がかりに人間同士のやりとりを察知するインタフェースや、やりとりの状況と関連しており大部分無意識的に生まれてくる非言語キューを手がかりに人間同士のやりとりの内容を察知するインタフェースである。非言語キューとは、話者が話し相手に指図するときや話者が自分の気持ちを仄めかすときに使用する手段のことであり、ジェスチャ等も含めて韻律と総称されている。その韻律には、声の音調、拍子取り、ラウドネス等、意識的に発現され又は無意識的に発生する様々な発声要素が含まれる。本発明のシステムでそうした非言語キューを使用する際には、ある撮影視野又は動画像コンテキストの撮影から別の撮影視野又は動画像コンテキストへの変転に対応するための案内手段として使用するのが基本であるが、プライバシ管理やジェスチャ追跡でもそうした非言語キューを使用することができる。

更に、個々の人物の動画像をローカルサイトリモートサイト間で交換する際にアニメーション技術を使用できることにも留意すべきである。例えば、特許文献４０（発明者：Cheiky et al.、名称：フォトリアリスティックトーキングヘッド生成システム及び方法(Photo Realistic Talking Head Creation System and Method)）に記載の方法では、人物（被写体）の姿を複数通り撮影して画像ライブラリを構築する。具体的には、その被写体の姿を様々な方向から撮影することで、目や口の外見的な特徴を様々な方向から捉えた何枚かの画像を取得し、それらの画像を用い通話用頭部画像（トーキングヘッド）のフォトリアリスティック画像ライブラリを構築する。次いで、そのフォトリアリスティック画像ライブラリを参照することで、フォトリアリスティックな画像になるよう、即ち誰が何をどのような気持ちで伝えようとしているのかを読み取れる画像になるよう、その被写体のアニメーション画像即ちアバタを生成する。そのアバタ、即ち被写体を模した動画像類似の画像はインターネット等のネットワークを介してよそに送信することができ、それに必要な帯域幅は狭く、しかも圧縮由来の偽像例えばブラーが少ないため、最終的な画質が良好になる。この文献に記載の方法の想定用途はニュースキャスティング等であるが、居宅用の動画通信システム２９０でもこうしたアバタの使用は可能である。

なお、以上の説明では、実施形態に係る端末３００で動画像（基本的にはテレビジョン信号中の画像部分）及びそれに付随する音声が生成されることを示したが、端末３００でディジタルスチルカメラを利用することや、画像処理で動画像データストリームから静止画像を抽出する構成にすることも可能であるので、その点をご理解頂きたい。例えば、動画通信システム２９０から出力される動画像にキーフレーム抽出アルゴリズムを適用することで、そのなかで最も構図及び顔の映り方がよいフレームを識別し、そのフレームを静止画像として抽出することができる。そのシステム２９０乃至端末３００では、更に、動画像又は静止画像の画像データに付随又はリンクするかたちで、含意データ等のメタデータを生成することができる。このメタデータに含めうる情報としては、例えば日時、ローカルユーザ及びリモートユーザの身元、イベント種別、音声認識ソフトウェアで抽出したキーワード、その通信イベントに係るプライバシ保護セッティング、ユーザが入力した注釈やタイトル等々といたデータがある。そうしたメタデータがあると、システム２９０又はその端末３００で生成された動画像、静止画像、音声等のデータを書庫に保存するときや、そのデータを書庫から読み出すときに便利である。

また、動画通信システム２９０が基本的には個人居宅向けのテレビ電話システムであるとして説明したが、このシステム２９０はそれ以外の種類の居宅間通信、とりわけプライバシ保護やコンテキスト伝達が画像管理上の問題になるものにも拡張することができる。例えば、在宅勤務中のローカルユーザ１０は、遠隔会議の開催にこのシステム２９０を利用することができる。そうすれば、私宅の状況をあからさまにすることなく自分の業務を遂行することができる。また、ローカルユーザ１０は、ホームセキュリティ管理を支援する手段としてこのシステム２９０及びその端末３００を利用することができる。例えば、ローカルユーザ１０は、自宅とは別の場所にいるときでも、システム２９０及び端末３００に接続し、パスワード等によるセキュリティチェックを受け、カメラ１２０で撮影された画像をシステム２９０に要求することで、自宅で何が起こったのか或いは今何が起こっているのかを知ることができる。

更に、動画通信システム２９０及びその端末３００による個人的通信を拡張して新出の通信形態で利用すること、例えばユーザがワールドワイドウェブ上に動画像データをエクスポートする際に利用することもできる。具体的には、システム２９０を利用し、メタバース（登録商標）、ＳｅｃｏｎｄＬｉｆｅ（登録商標）等のオンラインコミュニティや、ＹｏｕＴｕｂｅ（登録商標）等のビデオブログを初め、様々な場所に画像を送り込むことができる。自明な通り、そうしたコミュニティ類を現在利用しているオンラインユーザの多くは、プライバシ保護及びコンテキスト伝達の機能に多くの期待を寄せている。その期待は、その種のインターネット技術の採用にあまり積極的でない他の多くの人々が抱いているものとはまた違った水準のものであろう。然るに、システム２９０及び端末３００にはプライバシ保護及びコンテキスト伝達を管制する機能が備わっている。ユーザ１０は、インターネット向け動画像コンテンツの生成を管制する手段として、この機能を利用することができる。その管制の内容は、これまでは得ることができなかった水準のものである。

また、端末３００の使い途はほかにも色々とある。まず、ユーザ１０は自サイトの端末３００を前述の如くテレビジョン受像機として使用することができる。動画通信に使用されていないときに、端末３００を一種のディジタルフォトフレーム(electronic picture frame)として稼働させ、ローカル環境にいる人々の個人的関心を惹くような静止画像乃至動画像を表示させることもできる。そのディジタルフォトフレームモードは受動な形態でも受動的な形態でも実行することができる。能動的に実行する場合は、端末３００が自サイトにいるユーザ１０を検知及び識別し、識別したユーザ１０の（既知の）興味関心事項に応じた静止画像又は動画像を表示させる。居宅内の様々な場所に都合複数個の電子イメージング装置１００が配されている端末３００で能動的なディジタルフォトフレームモードを実行する場合は、そのサイトのユーザ１０が居宅内を動き回りながら画像を見ることができるようにそれらの装置１００で画像を表示させる。

更に、より興味深い使い途としては、住人（特に老人）がその住宅に居ながらにして健康状態管理を受けるネット見守り住宅(smart medical home)がある。この種の住宅では、その内部の様々な場所、例えば家具、床、電化製品、薬棚等にセンサを配すると共に、そこの住人を見守るためのカメラを配する。カメラで撮られるのは住人にとりかなり煩わしいことであるので、そのカメラは、例えばディジタルフォトフレームの背後に隠れるように配される。ただ、このように目立たないかたちでカメラを配しても、自分を“監視”するカメラが存在していること自体が、住人にとっては不快なことである。従って、こうした構成を採るよりは、実施形態に係る端末３００をそうした住宅に配した方がよい。そうすれば、そこの住人はリモートユーザ、例えば遠地にいる友人や親戚、介護担当者、看護師等と通話することができる。その介護担当者や看護師は、画像を見る必要が生じたときに、住人側の端末３００のプライバシ保護インタフェース４００に係るローカルなプライバシ保護セッティングを、一時的にオーバライドすることができる。更に、住人たるローカルユーザ１０は撮影に関する警告を受けることができる。その警告は、例えば、介護担当者や看護師の姿を示す画面分割画像４１０の表示と、ローカルユーザ１０の姿やローカル環境４１５の状況を示す画面分割画像４１０の表示とにより行われる。

また、動画通信システム２９０及びその端末３００は、プライバシ保護やコンテキスト伝達の管理が重視される用途であれば、居宅間通信以外の用途でも使用することができる。例えば、教育用にシステム２９０を使用すれば、生徒と教師がシステム越しにやりとりすることができ、ビジネス環境用に使用すれば、別々の場所にいる同僚達が動画通信を通じ仮想的に一つのデスクを共有して共用作業空間を作り出すことができる。更に、以上の説明では、基本的に、ローカルユーザ１０ａ及びその環境４１５を示す画面分割画像４１０と共に何人かのリモートユーザ１０ｂの姿をローカルディスプレイ１１０に表示させるものとしてシステム２９０を説明してきたが、システム２９０では、ユーザ１０ｂがいないときのリモートサイト３６４の環境、例えばユーザ１０ｂが一時的にいなくなっているときのリモート環境や、リモート環境のなかで元々ユーザ１０ｂがいない個所の状況を、表示させることもできる。そして、システム２９０の更なる用途としては、リモートサイトから継続的に送られてくる動画像をディスプレイに表示させ、それによって仮想的な窓を作り出す、という用途もある。その“窓”には、例えば休日をよく過ごす場所等の風景等、リモートサイトの状況を映し出すことができる。

そうした幻想的な窓には、他に、自然界や舞踏会の光景をテーマにした番組等も映し出すことができる。端末３００は、そうした番組を見ているローカルユーザ１０ａの姿や、その番組に対するユーザ１０ａの反応を、予め定められているプライバシ保護セッティング及びコンテキスト伝達セッティングに従いながら撮影する。この種の稼働モデルは、教育、市場調査、動向調査、薬物調査等といった様々な分野で、また様々な用途で使用することができよう。更に、その動画通信システム２９０及び端末３００を用い多者間通信イベントを開催する際、個々のサイトで、表示される画像のうち１個を共通の動画像（例えばテレビジョン番組の画像）とし、他の何個かをユーザ１０ａ又はリモートユーザ１０ｂの画像にすることもできる。例えば、図６に示したディスプレイ１１０に表示される三種類の画像のうち、左側の画像４１０’をテレビジョン番組の画像、右側の画像４１０”をユーザ１０ｂの画像、挿入される画面分割画像４１０をユーザ１０ａの画像にする、といった具合である。このようにすれば、ユーザ１０ａ及び１０ｂが、面白い番組（例えばスポーツ番組）を一緒に見たかのような感覚を共有することができる。

更に、本発明を実施する形態がその用途によって様々に変わることをご理解頂けよう。即ち、その双方向動画通信システムに備わるべき撮影機能、画像処理機能、音声機能、ディジタル信号プロセッサ、送受信機能、表示機能等の機能の種類は、そのシステムの用途次第で様々に変わってくるし、備わる機能の種類が違えば画像ベースでの入力を利用できる度合いも違ってくる。例えば大型の壁掛けユニットなら、高解像度の撮影装置や強力なディジタル信号プロセッサを搭載できるため、身振り、手振り、音声コマンド等による入力を検知可能な構成にすることができるが、携帯電話では、低解像度の撮影装置や非力なディジタル信号プロセッサしか搭載できないため、身振りや手振りを検知できず恐らくは音声コマンドの検知や動き検知に限られるであろう。ご理解頂けるように、最善の性能が発揮されるのは、ローカルサイト３６２の端末３００とリモートサイト３６４の端末３００が同一又は同等のものである場合である。

また、いわゆる当業者には自明な通り、好適な実施形態に係る双方向動画通信システムでは、前述した情報以外に、静止画像、テキスト、スプレッドシート、録音済音声等の情報乃至画像を双方向通信に供し、通話に参加している何人かの間でそれらを共有することができる。例えば、図６中の画面分割画像４１０’と同様にして、テキスト文書を別途表示させることができる。

以上、その好適な実施形態のうち幾つかを具体的に参照しつつ、本発明に関して詳細に説明したが、それらに変形や改良を施すことが可能であることや、その変形乃至改良を本発明の本質的な技術的範囲内で行うことが可能であることを了解されたい。強調すべきことに、本願記載の装置乃至方法は様々なシステム構成で実施することができ、またそのシステムで使用できるハードウェア及びソフトウェアの種類も非常に多様である。特に、動画通信システム２９０及びその端末３００で場面解析アルゴリズム、場面内調整アルゴリズム、場面解析ルール及びコンテキスト種別が使用されること、それらがコンテキスト伝達インタフェース４５０の自動稼働要素であること、そしてそれらの要素による動画像の撮影、解析及び調整機構が一連の手順（図７Ａ〜図７Ｄ参照）に従い連携して動作することを説明してきたが、これらに比肩しうる別の手法、機構及び連携動作で、或いは時間的順序の入替で、別紙特許請求の範囲に記載の機能を実現することもできる。そして、別紙図面は、本発明の好適な実施形態で使用される部材及び原理のうち主立ったものを説明するためのものであり、実物を均等に縮尺したものではない。

Claims

画像表示装置と、
ローカル環境及びそこにいる人物の動画像を動画撮影セッティングに従い撮影する１個又は複数個の撮影装置と、
採音装置及び鳴音装置を含む音響システムと、
１個又は複数個の場面に亘る動画像を他サイトに送信する動画通信イベントをコンテキスト伝達インタフェース、プライバシ保護インタフェース、イメージプロセッサ及び通信コントローラとの連携で実行するコンピュータと、
を有する動画通信装置を備え、
上記コンテキスト伝達インタフェースが、場面解析アルゴリズムに則り場面の変転を察知する機能と、その変転に見合うよう撮影管理アルゴリズムに則り動画撮影セッティングを修正する機能と、を有し、
上記プライバシ保護インタフェースが、ローカル環境及びそこにいる人物の動画像の撮影、送信、表示又は録画動作に対しプライバシ保護セッティングを適用してその動作を管制する機能を有する動画通信システム。
請求項１記載の動画通信システムであって、ローカル環境及びそこにいる人物を捉えた動画像を、コンテキスト伝達インタフェース及びプライバシ保護インタフェースに従い相応に修正してから他サイトへと送信する動画通信システム。
請求項２記載の動画通信システムであって、その動画像修正を、撮影装置で使用される動画撮影セッティングの修正又はイメージプロセッサにおける画像処理により行う動画通信システム。
請求項１記載の動画通信システムであって、その場面解析アルゴリズムが、コンテキスト示唆キュー、場面解析ルール及び統計解析結果に基づき動画像を調べ、それにより場面内変転又は場面間変転を察知するアルゴリズムである動画通信システム。
請求項１記載の動画通信システムであって、所与の動画撮影セッティングを様々に組み合わせた複数通りの動画撮影モードに従い１個又は複数個の撮影装置と連携稼働させうるよう、またその動画撮影モードとして手動、自動、半自動、プリビュー、デフォルト及びディジタルフォトフレームの諸モードのうちいずれかを使用しうるよう、そのコンピュータが構成された動画通信システム。
請求項１記載の動画通信システムであって、その撮影装置として、狭い視野でローカル環境を撮影する第１撮影装置と、第１撮影装置の視野を包含する広い視野で第１撮影装置と同時にローカル環境を撮影する第２撮影装置と、を備える動画通信システム。
請求項６記載の動画通信システムであって、そのコンテキスト伝達インタフェースが、第２撮影装置の広い視野内を監視することによって、場面の変転を察知し又はプライバシ保護セッティングに抵触するコンテンツを認識する動画通信システム。
請求項１記載の動画通信システムであって、リモートサイトに送信されそこにいる人物に提供される動画像が、互いに別の撮影装置で撮影された二種類の動画像を示す複数の画像部分を含むコンポジット画像である動画通信システム。
請求項８記載の動画通信システムであって、リモートサイトに送信されそこにいる人物に提供される動画像が、撮影装置で撮影された画像を表す画像部分と、通信コントローラ経由で受信した画像を表す画像部分と、を含むコンポジット画像である動画通信システム。
請求項１記載の動画通信システムであって、その画像表示装置が、ローカル環境を捉えた動画像と、リモートサイトから受信した動画像とを、プライバシ保護セッティングに従い同時に表示する動画通信システム。
請求項１記載の動画通信システムであって、そのコンピュータが、ローカル環境を捉えた動画像と、複数のリモートサイトから受信した複数の動画像とを同時に、或いはローカル環境内の互いに別々の個所を捉えた複数の動画像と、リモートサイトから受信した動画像とを同時に、画像表示装置によって表示させる動画通信システム。
請求項１記載の動画通信システムであって、その電子イメージング装置が２個の画面を有し、それらの画面に表示される画像が、互いに逆の方向を撮影した画像である動画通信システム。
請求項１記載の動画通信システムであって、その電子イメージング装置がローカル環境内に複数個ある動画通信システム。
請求項１２記載の動画通信システムであって、それら複数個の電子イメージング装置が、通信イベント開催中に同時又は順繰りに使用される動画通信システム。
請求項１記載の動画通信システムであって、その場面解析アルゴリズムが、顔検知、音声認識、動き検知又は動き追跡の技術を利用するアルゴリズムである動画通信システム。
請求項１記載の動画通信システムであって、そのローカル環境内にいる人物をその顔又は音声の認識により認識する動画通信システム。
請求項１６記載の動画通信システムであって、その電子イメージング装置が、認識された人物に見せるに相応しい静止画像又は動画像を表示する動画通信システム。
請求項１６記載の動画通信システムであって、音声認識を用い話者音声を捉え、その結果を解釈して字幕を生成する動画通信システム。
請求項１記載の動画通信システムであって、その採音装置が指向性マイクロホンを少なくとも１個有する動画通信システム。
請求項１記載の動画通信システムであって、そのコンピュータが、撮影装置のうち光学的ズーム、パン又はティルト機能を有するものと連携してその機能を自動調整する動作を、その場面について察知された変転の内容、プライバシ保護セッティング、或いは動画像のコンテンツに従い実行する動画通信システム。
請求項１記載の動画通信システムであって、キーボード、タッチスクリーン、ジョイスティック、マウス又はその任意の組合せを含むユーザインタフェースを備える動画通信システム。
請求項１記載の動画通信システムであって、その音響システムが、ノイズキャンセル乃至ノイズリダクション機能、音源同定解析機能又はその組合せたる音響的拡張機能を有する動画通信システム。
請求項１記載の動画通信システムであって、静止画像を撮影する機能を有する動画通信システム。
請求項１記載の動画通信システムであって、ローカル環境又はそこにいる人物の画像を解析する際に、それに先立ちそのローカル環境又は人物を撮影して取得した基準画像を、その解析の基準として使用する動画通信システム。
請求項２３記載の動画通信システムであって、その基準画像がローカル環境を捉えた画像であり、個々の場面におけるローカル環境画像をその基準画像を手がかりにして修正する動画通信システム。
請求項２３記載の動画通信システムであって、その基準画像がローカル環境にいる人物の外見を捉えた画像であり、後の場面におけるローカル環境内人物画像をその基準画像を手がかりにして修正する動画通信システム。
第１サイトに設けられた動画通信装置と、第２サイトに設けられた別の動画通信装置と、を備え、
個々の動画通信装置が、
ａ）画像表示装置と、
ｂ）ローカル環境及びそこにいる人物の動画像を所与の動画撮影セッティングに従い撮影する１個又は複数個の撮影装置と、
ｃ）稼働時にローカル環境にて音響を発生させる鳴音装置及び稼働時にローカル環境から音声信号を採取する採音装置を含む音響システムと、
ｄ）１個又は複数個の場面に亘る動画像についての動画通信イベントをコンテキスト伝達インタフェース、プライバシ保護インタフェース及びイメージプロセッサと連携して実行するコンピュータと、
ｅ）通信ネットワークを介し第１サイトと第２サイトの間で動画像及び音声信号を共有させる通信コントローラと、
を有し、
上記コンテキスト伝達インタフェースが、場面の変転を場面解析アルゴリズムに則り察知する機能と、その変転に見合うよう撮影管理アルゴリズムに則り動画撮影セッティングの修正内容を決める機能と、を有し、
上記プライバシ保護インタフェースが、ローカル環境及びそこにいる人物の動画像を撮影、送信、表示又は録画する動作に対しプライバシ保護セッティングを適用しその動作を管制する機能を有する通信システム。
請求項２６記載の通信システムであって、各動画通信装置が、自装置で決めたプライバシ保護セッティングの内容をプライバシ言語プロトコルに則り且つ通信ネットワークを介し他の動画通信装置に通知する一方、他の動画通信装置から通知された内容のプライバシ保護セッティングに従い自装置での動画像の撮影、処理、送信又は受信動作を管制する通信システム。
請求項２７記載の通信システムであって、第１又は第２サイトにおける動画像の送信、表示又は録画動作を他サイトの動画通信装置から通知されたプライバシ保護セッティングに従い管制する通信システム。
請求項２６記載の通信システムであって、その場面解析アルゴリズムが、コンテキスト示唆キュー、場面解析ルール及び統計解析結果に基づき動画像を調べ、それにより動画像内場面内での又は動画像内場面間の変転を察知するアルゴリズムである通信システム。
請求項２６記載の通信システムであって、所与の動画撮影セッティングを様々に組み合わせた複数通りの動画撮影モードに従い稼働するよう、またその動画撮影モードとして手動、自動、プリビュー及びデフォルトの諸モードのうちいずれかを使用しうるよう、個々の動画通信装置が構成された通信システム。
ローカルサイトにいる第１の人物とリモートサイトにいる第２の人物との間で動画通信を行う方法であって、
ローカル及びリモートの各サイトで通信イベント毎にプライバシ保護セッティングを制定するステップと、
所与の動画撮影セッティングに従いローカルサイトで動画像を撮影するステップと、
そのローカルサイトで音声信号を採取するステップと、
ローカルサイトでの動画像の撮影と並行しその動画像における場面の変転を察知するステップと、
察知された変転に順応するよう撮影管理アルゴリズムに則り修正内容を決めて動画撮影動作を然るべく修正するステップと、
撮影された動画像及び採取された音声信号のうち少なくとも一部分をローカルサイトからリモートサイトにいる第２の人物へと送信するステップと、
リモートサイトを捉えた動画像及び音声信号のうち少なくとも一部分をリモートサイトからローカルサイトへと送信するステップと、
個々のサイトにおける動画像コンテンツの撮影、送信、表示又は録画動作をローカル及びリモートの各サイトで制定されたプライバシ保護セッティングに対し順応させるステップと、
を有する方法。
請求項３２記載の方法であって、場面の変転を察知するステップが、コンテキスト示唆キュー、場面解析ルール及び統計解析結果に基づき動画像を調べて場面内変転又は場面間変転を察知するステップを含む方法。
請求項３２記載の方法であって、所与の動画撮影セッティングを様々に組み合わせた複数通りの動画撮影モードのうち、手動、自動、プリビュー及びデフォルトのいずれかのモードに従い稼働する方法。
請求項３２記載の方法であって、個々のサイトにいる人物からの指示に従い且つ通信イベント別カスタム版プライバシ保護セッティング、デフォルト版プライバシ保護セッティング又はその組合せを用い、プライバシ保護セッティングを制定する方法。
請求項３２記載の方法であって、ある狭い撮影視野で人物の動きを追跡しその動きによって示唆される変転に順応するよう動画撮影動作を修正する方法。
請求項３２記載の方法であって、ローカルサイトにいる人物の動きを検知した結果に基づきリモートサイトで動画撮影セッティングの修正内容を決める方法。
請求項３７記載の方法であって、リモートサイトにおける動画撮影動作をローカルサイトにいる人物が案内するステップを有し、その案内の手段として、ローカルサイトにいる人物を対象にした視線追跡、ジェスチャ追跡又はポインタ利用型ジェスチャ追跡を使用する方法。