JP2024521292A

JP2024521292A - ビデオ会議エンドポイント

Info

Publication number: JP2024521292A
Application number: JP2023566604A
Authority: JP
Inventors: ドゥックダオ，; ホーコンスクラムスタッド，
Original assignee: ニートフレームリミテッド
Priority date: 2021-05-28
Filing date: 2022-05-27
Publication date: 2024-05-31
Also published as: GB2607573B; AU2022279584A1; WO2022248671A1; US20240214520A1; EP4349007A1; CN117480776A; GB2607573A; GB202107641D0

Abstract

ビデオ会議エンドポイントを動作させるコンピュータ実施方法。ビデオ会議エンドポイントは、視野を示す画像を撮影するビデオカメラを含む。方法は、視野内の空間的境界を画定するデータを受け取るステップであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取るステップと、視野の画像を撮影するステップと、ビデオカメラの視野内の１又は複数の人を識別するステップと、ビデオカメラの視野内の人又は各々の人の位置を推定するステップと、受信機への送信のために、空間的境界内にいると決定された１又は複数の人に対応する１つ又は複数のクロップ領域を含む１つ又は複数のビデオ信号を生成するステップとを含む。【選択図】図３

Description

本発明は、コンピュータ実施方法及びビデオ会議エンドポイントに関する。

近年、異なる場所にいる複数のユーザが、同一の場所に移動する必要なく対面での議論を行うことを可能とするビデオ会議及びビデオ通話が、多大な人気を得ている。ビジネスミーティング、生徒との遠隔レッスン、並びに友人及び家族間での私的なビデオ通話が、ビデオ会議技術の一般的用途である。ビデオ会議は、スマートフォン又はタブレットを用いて、デスクトップコンピュータにより、或いは専用のビデオ会議デバイス（場合によりエンドポイントと称される）により行われる場合がある。

ビデオ会議システムは、映像及び音声の両方を、デジタルネットワークを介して異なる場所に位置する２人以上の参加者の間で伝送することを可能とする。異なる場所の各々に配置されるビデオカメラ又はウェブカメラにより、映像入力を提供することができ、異なる場所の各々に設けられるマイクにより、音声入力を提供することができる。異なる場所の各々におけるスクリーン、ディスプレイ、モニタ、テレビ、又はプロジェクタにより、映像出力を提供することができ、異なる場所の各々におけるスピーカにより、音声出力を提供することができる。ハードウェア又はソフトウェアベースのエンコーダ・デコーダ技術は、アナログの映像及び音声データを、デジタルネットワークを介した転送のためにデジタルパケットに圧縮し、データを異なる場所での出力のために展開する。

一部のビデオ会議システムは、会議室にいる人を見つけてフレーミングし、例えば、それらの人を既存の映像ストリームから分離し、それらの人全てを含む領域をクロップし、又はそれらの人を個々の映像ストリームとして提示する、自動フレーミングアルゴリズムを含む。一部の例では、例えばガラスの壁又はドアを有する部屋、或いは開放スペースでは、通話の外部の（すなわち通話に参加していない）不所望な人が検出され、フレーミングの対象となる場合がある。そこで、ビデオ通話中の人が検出されフレーミングされる信頼性を向上させることが望ましい。

したがって、第１の態様において、本発明の実施形態は、ビデオ会議エンドポイントを動作させるコンピュータ実施方法であって、ビデオ会議エンドポイントが、視野を示す画像を撮影するビデオカメラを含み、方法が、
視野内の空間的境界を画定するデータを受け取るステップであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取るステップと、
視野の画像を撮影するステップと、
ビデオカメラの視野内の１又は複数の人を識別するステップと、
ビデオカメラの視野内の人又は各々の人の位置を推定するステップと、
受信機への送信のために、空間的境界内にいると決定された１又は複数の人に対応する１つ又は複数のクロップ領域を含む１つ又は複数のビデオ信号を生成するステップと
を含む、コンピュータ実施方法を提供する。

空間的境界を画定し、境界内にいると決定された者のみをフレーミングすることにより、ビデオ通話中の人がフレーミングされる信頼性が向上する。

ここで、本発明の任意選択的な特徴について述べる。これらは、単独で、又は本発明の任意の態様との任意の組み合わせで適用可能である。

１つ又は複数のビデオ信号を生成するステップは、１又は複数の人のうちの少なくとも１人が空間的境界内にいることを（１つ又は複数の）推定位置から決定することと、空間的境界内にいると決定された１又は複数の人をフレーミングして、それぞれのクロップ領域を生成することとを含んでもよい。１つ又は複数のビデオ信号を生成するステップは、カメラの視野内の１又は複数の人をフレーミングして、１つ又は複数のクロップ領域を生成することと、１又は複数の人のうちのいずれの人が空間的境界内にいるかを（１つ又は複数の）推定された位置から決定することと、空間的境界内の１又は複数の人に対応するクロップ領域のみに基づいて１つ又は複数のビデオ信号を生成することとを含んでもよい。

方法は、ビデオ信号又は各ビデオ信号を受信機に送信するステップをさらに含んでもよい。受信機は、コンピュータネットワークを介して第１のビデオ会議エンドポイントに接続された第２のビデオ会議エンドポイントであってもよい。

方法のステップは、適宜、任意の順序で実行することができる。例えば、空間的境界を画定するデータを受け取るステップが、視野の画像を撮影するステップの後に行われてもよい。

フレーミングとは、空間的境界内にいると決定された人を含む撮影された画像の領域、例えばクロップ領域を抽出することを意味するものであってもよい。このフレーム又はクロップ領域は、元々撮影された画像よりも小さく、フレーミングされている人は、抽出された領域内の中央に位置していてもよい。いくつかの例において、一のクロップ領域又は複数のクロップ領域のうちの１つは、単一の人のみを含んでもよい。いくつかの例において、一のクロップ領域又は複数のクロップ領域のうちの１つは、各々が空間的境界内にいると決定された複数の人を含んでもよい。一例においては、空間的境界内にいると決定された人の全てを含む単一のクロップ領域が抽出される。

方法は、カメラの視野内の画像における各々の人を、空間的境界の内部又は外側にいるか否かに従ってラベル付けし、ラベル付けされた画像を検証のためにユーザに提示する検証モードをさらに含んでもよい。ユーザは次いで、フレーミングの対象となる全ての人が空間的境界内にいることが確実になるように、空間的境界を画定するデータを変更することができる。

人又は各々の人の位置を推定するステップは、それぞれの人の顔ランドマークの１つ又は複数のペアの間の距離を測定することにより行われてもよい。例えば、推定は、人間についての顔ランドマークの１つ又は複数のペアの間の平均距離を取得し、撮影された画像におけるこれらのランドマークを検出し、画像におけるそれらのランドマークの間の距離を計算し、カメラの結像のジオメトリ及びカメラのパラメータに基づいてカメラに対する人の位置を推定し、顔ランドマーク特徴の各ペアから計算する複数の距離のうちの距離を推定することにより行われてもよい。

距離を推定するステップは、カメラに対する人の顔の向きを推定し、推定された向きに基づいて位置を推定するために用いられる顔ランドマークのペアを選択することを含んでもよい。

人又は各々の人の位置を推定するステップは、ビデオ会議エンドポイント内の１つ又は複数の加速度計を用いてカメラの向きを推定することを含んでもよい。

人又は各々の人の位置を推定するステップは、ビデオ会議エンドポイント内の１つ又は複数の距離センサの使用を含んでもよい。

空間的境界は、少なくとも部分的にカメラの場所からの距離として画定される。距離は、床における円形の境界を効果的に形成する径方向距離であってもよい。別の例において、空間的境界は、床における矩形の境界を形成するように、側部からどれだけ遠いか及びカメラから前方にどれだけ遠いかを規定する。空間的境界は、少なくとも部分的に撮影された画像の角度範囲により画定されてもよい。

方法は、ユーザが空間的境界を画定するデータを用意するユーザ入力ステップを含んでもよい。ユーザは、例えばユーザインターフェースを介して側部まで又はカメラから前方への距離を画定することにより、ユーザインターフェースを介してデータを用意してもよい。ユーザは、ビデオ会議エンドポイントがユーザの場所を追跡するデータ入力モードにビデオ会議エンドポイントを入らせることによりデータを用意してもよく、ユーザは、ユーザの１つ又は複数の場所を用いて空間的境界を画定することをビデオ会議エンドポイントに要求する。

方法は、映像ストリームに対して行われてもよく、以て、カメラの視野内の人又は各々の人の位置が追跡され、１つ又は複数のビデオ信号を生成するステップが、視野の複数の画像について繰り返される。

第２の態様において、本発明の実施形態は、視野を示す画像を撮影するように構成されたビデオカメラ、及びプロセッサを含むビデオ会議エンドポイントであって、プロセッサが、
視野内の空間的境界を画定するデータを受け取ることであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取ることと、
ビデオカメラから視野の画像を取得することと、
ビデオカメラの視野内の１又は複数の人を識別することと、
ビデオカメラの視野内の人又は各々の人の位置を推定することと、
受信機への送信のために、空間的境界内にいると決定された１又は複数の人に対応する１つ又は複数のクロップ領域を含む１つ又は複数のビデオ信号を生成することと
を行うように構成されている、ビデオ会議エンドポイントを提供する。

第２の態様のビデオ会議エンドポイントは、第１の態様において述べた方法の特徴のうちのいずれか１つ、又はそれらが適合する場合は任意の組み合わせを実行するように構成されてもよい。

第３の態様において、本発明の実施形態は、人からカメラまでの距離を推定するコンピュータ実施方法であって、方法が、
（ａ）カメラにより人の画像を取得するステップと、
（ｂ）カメラに存在する人の顔領域を識別するステップと、
（ｃ）人の顔ランドマークの複数のペアの各々の間の距離を測定するステップと、
（ｄ）測定された距離の各々を用いてカメラからの人の距離を推定するステップと、
（ｅ）ステップ（ｄ）における最大推定距離及び／又は最小推定距離を識別するステップと、
（ｆ）識別された最大距離及び／又は最小距離に基づいてカメラに対する人の位置を推定するステップと
を含む、コンピュータ実施方法を提供する。

第４の態様において、本発明の実施形態は、第３の態様の方法を実行するように構成されたビデオ会議エンドポイントを提供する。

本発明は、説明されている態様及び任意選択的な特徴の組み合わせが明らかに許容できない又は明示的に避けられている場合を除き、そのような組み合わせを含む。

本発明のさらなる態様は、コンピュータにおいて実行された場合に第１の態様及び／又は第３の態様の方法をコンピュータに行わせるコードを備えるコンピュータプログラム、コンピュータにおいて実行された場合に第１の態様及び／又は第３の態様の方法をコンピュータに行わせるコードを備えるコンピュータプログラムを記憶するコンピュータ可読媒体、並びに、第１の態様及び／又は第３の態様の方法を行うようにプログラムされたコンピュータシステムを提供する。

ここで、添付の図面を参照して、本発明の実施形態を例として説明する。
ビデオ会議エンドポイントを示す。コンピュータ実施方法のフローチャートを示す。図１のビデオ会議エンドポイントを含むビデオ会議スイートを示す。図１のビデオ会議エンドポイントを含む異なるビデオ会議スイートを示す。ユーザに表示される検証画像を示す。

ここで、添付の図面を参照して、本発明の態様及び実施形態について論じる。さらなる態様及び実施形態が、当業者に明らかとなる。

図１は、ビデオ会議エンドポイント１００を示す。エンドポイントは、揮発性メモリ４及び不揮発性メモリ６に接続されるプロセッサ２を含む。揮発性メモリ４及び不揮発性メモリ６のいずれか又は両方は、プロセッサにおいて実行された場合に図２を参照して論じる方法をプロセッサに実施させる機械実行可能命令を格納する。プロセッサ２はまた、１つ又は複数のビデオカメラ１０２に接続され、本例においては単一のカメラが存在するが、異なる視野又は撮影モード（例えば周波数範囲）を提供する複数のカメラが存在してもよい。プロセッサはまた、１つ又は複数のマイク１２、及び、ユーザがデータを入力することを可能とするヒューマンマシンインターフェース１４（例えばキーボード又はタッチ対応ディスプレイ）に接続される。プロセッサはまた、データをネットワーク全体にわたって伝送することを可能とするネットワークインターフェース８に接続される。

図２は、コンピュータ実施方法のフローチャートを示す。第１のステップ２０２において、プロセッサは、カメラ又は複数のカメラ１０２の視野内における空間的境界を画定するデータを受け取る。このデータは、例えばヒューマンマシンインターフェース１４を介して、又はネットワークインターフェース８を介して受け取られてもよい。このデータは、例えば、空間的境界が境界づける（例えばメートル単位の）カメラからの最大距離を識別することができる。データは、例えば、空間的境界が広がるカメラからの最大角度を識別することもできる。一例において、データは、ユーザが、プロセッサ２が（１つ又は複数の）カメラ１０２によりユーザの場所を追跡するデータ入力モードにビデオ会議エンドポイントを入らせることにより、受け取られる。ユーザは次いで、ユーザの現在の場所を用いて、空間的境界の頂点又は境界線を画定することをビデオ会議エンドポイントに要求する。この要求は、例えば、ユーザが予め定められた方法でジェスチャを行う（例えば腕を「Ｘ」字状に交差させる）ことによるものであってもよい。ユーザは次いで、別の地点に移動し、ジェスチャを繰り返して、第２の頂点又は境界線を画定し、以下同様のことを行ってもよい。

プロセッサがデータを受け取った後、方法は、画像が空間的境界を含む視野のカメラにより撮影されるステップ２０４に移る。プロセッサは次いで、ステップ２０６において視野内にいる全ての人を識別する。人のこの識別は、例えば画像内の人を識別するように訓練された機械学習モデルを用いて行われてもよい。いくつかの例において、「ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ」（又はＹＯＬＯ）物体検出アルゴリズム、又はコンピュータビジョンのＨａａｒ特徴ベースのカスケード型分類器、又は勾配方向ヒストグラムなどの訓練済み畳み込みニューラルネットワークが、画像内の人を識別するために用いられてもよい。プロセッサは、カメラの視野において識別された人の数を示すためのカウンタｊをインクリメントする。その後、プロセッサは、ステップ２０８～２１６により規定されるループに入る。ステップ２０８において、人ｉの位置がカメラの視野内で推定される。

視野における人の位置又は場所の推定は、いくつかの例において、（ｉ）人の顔からカメラまでの距離を推定し、（ｉｉ）カメラ水平位置に対する人の顔への方向を計算し、（ｉｉｉ）エンドポイントにおける１つ又は複数の加速度計を用いることによりカメラの向きを計算し、（ｉｖ）視野における部屋の床の平面に対する人の顔の方向を計算するという４つのステップで行われる。ステップ（ｉ）～（ｉｉｉ）は、任意の順序で行うことができる。第１のステップは、（ａ）飛行時間センサを用いること、（ｂ）２つ以上のカメラからの立体視を用いること、（ｃ）画像に対して訓練済み機械学習アルゴリズムを用いること、（ｄ）画像内の顔を検出し、顔のバウンディングボックスのサイズを用いること、（ｅ）顔を検出し、次いで目、鼻、口などの顔ランドマークを検出し、事前訓練済み機械学習モデルを用いて距離を推定すること、及び（ｆ）頭、耳、胴などの人の主要な特徴を検出し、主要な特徴のうちの少なくともいくつかの間の一定な距離を仮定する事前訓練済み機械学習モデルを用いることを含む様々な方法により行うことができる。

（ｅ）の変形例を用いて人の位置を推定することも可能である。顔ランドマークのペアの間の距離は、母集団全体にわたって１０％以内で変動する。これらの距離のいくつかの例は、両目の間の距離、片目と鼻先との間の距離、片目と口との間の距離、額の頂部と顎先との間の距離、及び顔の全幅を含む。撮影された画像において、これらのランドマークはカメラ焦点面に投影されており、したがって、撮影された画像におけるランドマーク間の距離は、顔のカメラ画角に依存する。人が顔をカメラ視野に対して側方に向けた場合、上記の距離のほとんどは短くなる。ただし、（例えば）顔の長さ又は視認可能な片目から口までの距離を含む一部は短くならない。同様に、人が上方を見た場合、画像における投影された顔の長さは短くなるが、顔幅及び目の距離は同じままである。人が顔を回転させるが、顔をカメラに対して正面に保つ場合、目の距離などのランドマークの間の距離は同じままである。ランドマーク間の距離が顔からカメラまでの距離よりも小さいと仮定すると、カメラの結像により、実世界における２つのランドマークの間の距離及び画素単位での画像におけるそれらの距離を関連付ける式を導出することが可能となる。場合により等価式と称されるこれらの式は、三角形の比の性質を示す。

例えば、ｆをカメラの（メートル単位の）焦点距離とし、ｄ_ｒｅａｌを２つの顔ランドマークの実世界における距離とし、ｄ_{ｉｍａｇｅ}を画素長さ単位での２つの顔ランドマークの画像における距離とし、ｐｉｘｅｌＳｉｚｅを（メートル単位の）画素のサイズとし、ｄを人からカメラまでの距離とすると、以下を導出することができる。

上記の「以下」は、顔が正面にある、すなわち２つの顔ランドマークを接続する線が画像平面に平行である場合には、等しいことになる。これは、ランドマークの各ペアについて、上記の式の右辺の値が、顔からカメラまでの距離についての１つの上限を与えることを意味する。ランドマークの複数のペア、及びｄ_ｒｅａｌについてのそれぞれの平均値が、このプロセスで用いられてもよい。これにより、カメラまでの推定距離を導出することが可能となる。上記の式の変形例、例えば、焦点距離及び画素サイズを、カメラの水平視野ＨＦＯＶ及び画素単位でのセンサ解像度幅で置き換えることも可能である。

水平視野及びセンサ解像度幅は、垂直方向又は対角方向における同等の要素により置き換えられてもよい。

カメラ位置に対する人の顔の位置は、距離及び方向を知ることにより一意に識別される。方向は、パン及びチルトなどの角度により記述することができる。カメラ水平面に対する顔の方向は、画像の中心に対する顔の画素位置から計算されてもよい。例えば、ｃｘが中心画素に対する画像における顔の位置である場合、望遠レンズについてのパン角度は、以下のように計算することができる。

又は

魚眼モデルに従う広角レンズについては、ａｔａｎ及びｔａｎ関数が省略されてもよい。

ビデオ会議エンドポイントは、多くの場合、床に対して上方又は下方に傾斜して装着される。カメラ向きは、チルト角度を導出することを可能とするために重力を検知する、エンドポイント内の加速度計から計算されてもよい。床に対する方向は、上記の角度から導出される。例えば、床に対するパン角度は、カメラ水平面に対するパン角度に等しいが、床に対するチルト角度は、カメラ水平面に対するチルト角度及びカメラのチルト角度の和に等しい。

人の位置が推定されると、方法は、人ｉが事前に画定された空間的境界内にいるか否かをプロセッサが決定するステップ２１０に移る。そうである、すなわち「はい」の場合、方法はステップ２１２に移り、人がフレーミングリスト（すなわち、１つ又は複数のクロップ領域においてフレーミングすべき人又は複数の人を含むリスト）に追加される。方法は次いで、ｉカウンタがインクリメントされるステップ２１４に移る。人が空間的境界の外側にいると決定される、すなわち「いいえ」の場合、方法は直接ステップ２１４に移り、ステップ２１２は行われない。

カウンタがインクリメントされると、プロセッサは、ステップ２１６においてｉ＝ｊであるかを決定する。すなわち、全ての識別された人の位置が推定され、境界と比較されたかである。そうでない、すなわち「いいえ」の場合、方法はステップ２０８に戻り、ループが続行する。一例において、方法は、まずステップ２０６において識別された全ての人をループしてその位置を推定し、次いで各推定位置をループして、それらが空間的境界内であるかを決定してもよいことに留意されたい。方法は、次いで、空間的境界内にいると決定された全ての人をループし、それらの人をフレーミングすることができる。全ての人の位置が推定され、それらの人をフレーミングするか否かについての決定が行われると、すなわち「はい」となると、方法はステップ２１８に移り、フレーミングリストにおける人のうちの１又は複数を含むクロップ領域又は各クロップ領域が抽出される。これらのクロップ領域は次いで、各映像ストリームがそれぞれのクロップ領域を含む１つ又は複数の単一映像ストリーム、又は複数のクロップ領域を含む複合映像ストリームを生成するために用いられる。これらは、ステップ２２０において送信される。

代替的方法においては、ステップ２０６において識別された人の全てがまずフレーミングされ、すなわち、ステップ２０６において識別された各々の人についてクロップ領域が抽出される。次に、方法は、空間的境界内の人の各々を識別し、空間的境界内の人を含むクロップ領域を残りのクロップ領域から分離する。次いで、空間的境界内の人を含むクロップ領域のみが用いられる。

図３は、図１のビデオ会議エンドポイント１００を含むビデオ会議スイートを示す。カメラ１０２は、第１の部屋１０４及び第２の部屋１１０を含む（破線により示される）視野１０６を撮影する。第１の部屋及び第２の部屋は、ガラス壁１１２により分離され、本例において、部屋１０４はビデオ会議スイートであり、部屋１１０はオフィスである。（点線により示される）空間的境界１０８が、カメラからの最大距離として画定される。本例において、これは、人１１４ａ～１１４ｄが空間的境界内におり、一方で（カメラ１０２の視野１０６内にいるが第１の部屋１０４内にいない）人１１６が空間的境界内にいないことを意味する。したがって、人１１４ａ～１１４ｄをビデオ会議エンドポイント１００によりフレーミングすることができ、人１１６を除外することができる。

図４は、図１のビデオ会議エンドポイントを含む異なるビデオ会議スイートを示す。同様の特徴は、同様の参照番号で示されている。図３に示す例とは対照的に、ここでは、空間的境界が最大距離１０８により画定されるのみでなく、画像の最大角度範囲４０８によりさらに画定される。最大角度範囲を適切に画定することにより、人１１４ａ～１１４ｂを空間的境界内にいるものとして画定することができ、一方で人１１６を空間的境界から除外することができる。

図５は、ユーザに表示される検証画像を示す。人が空間的境界の内側又は外側にいるという図形的表示が提供され、それぞれの人と関連付けられる。本例においては、空間的境界内にいる人の近傍にチェック印が付けられ、一方で空間的境界の外側にいる人の近傍にバツ印が付けられる。例えば空間的境界内にいると見出された人のみの周囲のバウンディングボックス、又は全ての検出された人の周囲にあるが境界の内側及び外側の人で異なる色が付けられたバウンディングボックスといった他の図形的表示が提供されてもよい。これにより、ユーザが、空間的境界を画定するデータを調整して、フレーミングすべき人を適切に除外する又は含めることを可能とすることができる。

特定の形態で、又は開示されている機能を実行するための手段に関して表現されている、本説明、又は以下の特許請求の範囲、又は添付の図面において開示されている特徴、又は開示の結果を得るための方法若しくはプロセスは、適宜、別個に又はそのような特徴の任意の組み合わせで、多様な形態において本発明を実現するために利用されてもよい。

本発明を上述の例示的実施形態に関連して説明したが、本開示を考慮すれば、多数の同等な修正例及び変形例が当業者には明らかであろう。したがって、上記で述べた本発明の例示的実施形態は、限定ではなく例示的なものとして考えられる。本発明の趣旨及び範囲から逸脱しない限りにおいて、説明されている実施形態に対する様々な変更がなされてもよい。

何らかの疑義を避けるために、本明細書において提供されているあらゆる理論的説明は、読者の理解を深める目的で提供されている。発明者らは、これらの理論的説明のいずれによっても制約されることを望むものではない。

本明細書において用いられているあらゆる段落見出しは、単に整理を目的としたものであり、説明されている主題を限定するものとして解釈されるべきではない。

以下の請求項を含む本明細書全体にわたって、文脈がそうでないことを求めない限り、「備える（ｃｏｍｐｒｉｓｅ）」及び「含む（ｉｎｃｌｕｄｅ）」という語、並びに「備える（ｃｏｍｐｒｉｓｅｓ）」、「備える（ｃｏｍｐｒｉｓｉｎｇ）」、及び「含む（ｉｎｃｌｕｄｉｎｇ）」などの変化形は、記載されている整数若しくはステップ又は複数の整数若しくはステップの群を含むことを意味するが、任意の他の整数若しくはステップ又は複数の整数若しくはステップの群を除外することを意味しないものと理解される。

本明細書及び添付の特許請求の範囲において用いられる場合、単数形の「一の（ａ）」、「一の（ａｎ）」、及び「その（ｔｈｅ）」は、文脈がそうでないことを明示しない限り、複数形の言及を含むことに留意する必要がある。本明細書において、「約」１つの特定の値から、及び／又は「約」別の特定の値までとして、範囲が表現される場合がある。そのような範囲が表現される場合、別の実施形態は、当該１つの特定の値から、及び／又は当該別の特定の値までを含む。同様に、前に「約」を用いることにより、値が近似として表現される場合、その特定の値が別の実施形態を形成することが理解されよう。数値に関する「約」という用語は、任意選択的であり、例えば＋／－１０％を意味する。

Claims

ビデオ会議エンドポイントを動作させるコンピュータ実施方法であって、前記ビデオ会議エンドポイントが、視野を示す画像を撮影するビデオカメラを含み、前記方法が、
前記視野内の空間的境界を画定するデータを受け取るステップであって、前記空間的境界が、少なくとも部分的に前記ビデオカメラからの距離により画定されている、受け取るステップと、
前記視野の画像を撮影するステップと、
前記ビデオカメラの前記視野内の１又は複数の人を識別するステップと、
前記ビデオカメラの前記視野内の前記人又は各々の人の位置を推定するステップと、
受信機への送信のために、前記空間的境界内にいると決定された１又は複数の人に対応する１つ又は複数のクロップ領域を含む１つ又は複数のビデオ信号を生成するステップと
を含む、コンピュータ実施方法。
前記１つ又は複数のビデオ信号を生成するステップが、
前記１又は複数の人のうちの少なくとも１人が前記空間的境界内にいることを１つ又は複数の推定位置から決定することと、
前記空間的境界内にいると決定された前記１又は複数の人をフレーミングして、それぞれのクロップ領域を生成することと
を含む、請求項１に記載のコンピュータ実施方法。
前記ビデオ信号又は各ビデオ信号を前記受信機に送信するステップを含む、請求項１又は２に記載のコンピュータ実施方法。
前記ビデオカメラの前記視野内の前記画像における各々の人を、前記空間的境界の内部又は外側にいるか否かに従ってラベル付けし、
前記ラベル付けされた画像を検証のためにユーザに提示する
検証モードをさらに含む、請求項１～３のいずれか一項に記載のコンピュータ実施方法。
前記人又は各々の人の前記位置を推定するステップが、それぞれの前記人についての顔ランドマークの１つ又は複数のペアの間の距離を測定することにより行われる、請求項１～４のいずれか一項に記載のコンピュータ実施方法。
顔ランドマーク特徴の複数のペアの間の距離が測定され、各距離が、前記ビデオカメラからの前記人の距離を推定するために用いられ、前記推定された距離のうちの最大推定距離及び／又は最小推定距離が、前記人又は各々の人の前記位置を推定するために用いられる、請求項５に記載のコンピュータ実施方法。
前記距離を推定するステップが、前記カメラに対する前記人の顔の向きを推定し、前記推定された向きに基づいて前記位置を推定するために用いられる顔ランドマークのペアを選択することを含む、請求項５又は６に記載のコンピュータ実施方法。
前記人又は各々の人の前記位置を推定するステップが、前記ビデオ会議エンドポイント内の１つ又は複数の加速度計を用いて前記カメラの向きを推定することを含む、請求項１～７のいずれか一項に記載のコンピュータ実施方法。
前記人又は各々の人の前記位置を推定するステップが、前記ビデオ会議エンドポイント内の１つ又は複数の距離センサの使用を含む、請求項１～８のいずれか一項に記載のコンピュータ実施方法。
前記空間的境界が、少なくとも部分的に前記撮影された画像の角度範囲によりさらに画定されている、請求項１～９のいずれか一項に記載のコンピュータ実施方法。
前記方法が、ユーザが前記空間的境界を画定する前記データを用意するユーザ入力ステップを含む、請求項１～１０のいずれか一項に記載のコンピュータ実施方法。
前記ユーザが、ユーザインターフェースを介して前記データを用意する、請求項１１に記載のコンピュータ実施方法。
前記ユーザが、ビデオ会議エンドポイントが前記ユーザの場所を追跡するデータ入力モードに前記ビデオ会議エンドポイントを入らせることにより前記データを用意し、前記ユーザが、前記ユーザの１つ又は複数の場所を用いて前記空間的境界を画定することを前記ビデオ会議エンドポイントに要求する、請求項１１に記載のコンピュータ実施方法。
視野を示す画像を撮影するように構成されたビデオカメラ、及びプロセッサを含むビデオ会議エンドポイントであって、前記プロセッサが、
前記視野内の空間的境界を画定するデータを受け取ることであって、前記空間的境界が、少なくとも部分的に前記ビデオカメラからの距離により画定されている、受け取ることと、
前記ビデオカメラから前記視野の画像を取得することと、
前記ビデオカメラの前記視野内の１又は複数の人を識別することと、
前記ビデオカメラの前記視野内の前記人又は各々の人の位置を推定することと、
受信機への送信のために、前記空間的境界内にいると決定された１又は複数の人に対応する１つ又は複数のクロップ領域を含む１つ又は複数のビデオ信号を生成することと
を行うように構成されている、ビデオ会議エンドポイント。
前記１つ又は複数のビデオ信号を生成することが、
前記１又は複数の人のうちの少なくとも１人が前記空間的境界内にいることを１つ又は複数の推定位置から決定することと、
前記空間的境界内にいると決定された前記１又は複数の人をフレーミングして、それぞれのクロップ領域を生成することと
を含む、請求項１５に記載のビデオ会議エンドポイント。
前記ビデオ会議エンドポイントが、ネットワークを介して受信機に接続されており、前記プロセッサが、前記１つ又は複数のビデオ信号を前記受信機に送信するように構成されている、請求項１５又は１６に記載のビデオ会議エンドポイント。
前記プロセッサが、
前記カメラの前記視野内の前記画像における各々の人を、前記空間的境界の内部又は外側にいるか否かに従ってラベル付けし、
前記ラベル付けされた画像を検証のためにユーザに提示する
検証モードを実行するように構成されている、請求項１５～１７のいずれか一項に記載のビデオ会議エンドポイント。
前記プロセッサが、それぞれの前記人の顔ランドマーク特徴の１つ又は複数のペアの間の距離を測定することにより、前記人又は各々の人の前記位置を推定するように構成されている、請求項１５～１８のいずれか一項に記載のビデオ会議エンドポイント。
前記プロセッサが、顔ランドマーク特徴の複数のペアの間の複数の距離を測定して、前記測定された距離の各々を用いて前記ビデオカメラからの前記人の距離を推定し、前記推定された距離のうちの最大推定距離及び／又は最小推定距離を用いて、前記人又は各々の人の前記位置を推定するように構成されている、請求項１９に記載のビデオ会議エンドポイント。
人からカメラまでの距離を推定するコンピュータ実施方法であって、前記方法が、
（ａ）前記カメラにより前記人の画像を取得するステップと、
（ｂ）前記画像に存在する前記人の顔領域を識別するステップと、
（ｃ）前記人の顔ランドマークの複数のペアの各々の間の距離を測定するステップと、
（ｄ）前記測定された距離の各々を用いて前記カメラからの前記人の距離を推定するステップと、
（ｅ）ステップ（ｄ）における最大推定距離及び／又は最小推定距離を識別するステップと、
（ｆ）前記識別された最大距離及び／又は最小距離に基づいて前記カメラに対する前記人の位置を推定するステップと
を含む、コンピュータ実施方法。