JP2024521292A - ビデオ会議エンドポイント - Google Patents
ビデオ会議エンドポイント Download PDFInfo
- Publication number
- JP2024521292A JP2024521292A JP2023566604A JP2023566604A JP2024521292A JP 2024521292 A JP2024521292 A JP 2024521292A JP 2023566604 A JP2023566604 A JP 2023566604A JP 2023566604 A JP2023566604 A JP 2023566604A JP 2024521292 A JP2024521292 A JP 2024521292A
- Authority
- JP
- Japan
- Prior art keywords
- person
- distance
- camera
- view
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 230000001815 facial effect Effects 0.000 claims description 18
- 238000009432 framing Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 8
- 238000013479 data entry Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 2
- 238000010801 machine learning Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005010 torso Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2628—Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
ビデオ会議エンドポイントを動作させるコンピュータ実施方法。ビデオ会議エンドポイントは、視野を示す画像を撮影するビデオカメラを含む。方法は、視野内の空間的境界を画定するデータを受け取るステップであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取るステップと、視野の画像を撮影するステップと、ビデオカメラの視野内の1又は複数の人を識別するステップと、ビデオカメラの視野内の人又は各々の人の位置を推定するステップと、受信機への送信のために、空間的境界内にいると決定された1又は複数の人に対応する1つ又は複数のクロップ領域を含む1つ又は複数のビデオ信号を生成するステップとを含む。【選択図】 図3
Description
本発明は、コンピュータ実施方法及びビデオ会議エンドポイントに関する。
近年、異なる場所にいる複数のユーザが、同一の場所に移動する必要なく対面での議論を行うことを可能とするビデオ会議及びビデオ通話が、多大な人気を得ている。ビジネスミーティング、生徒との遠隔レッスン、並びに友人及び家族間での私的なビデオ通話が、ビデオ会議技術の一般的用途である。ビデオ会議は、スマートフォン又はタブレットを用いて、デスクトップコンピュータにより、或いは専用のビデオ会議デバイス(場合によりエンドポイントと称される)により行われる場合がある。
ビデオ会議システムは、映像及び音声の両方を、デジタルネットワークを介して異なる場所に位置する2人以上の参加者の間で伝送することを可能とする。異なる場所の各々に配置されるビデオカメラ又はウェブカメラにより、映像入力を提供することができ、異なる場所の各々に設けられるマイクにより、音声入力を提供することができる。異なる場所の各々におけるスクリーン、ディスプレイ、モニタ、テレビ、又はプロジェクタにより、映像出力を提供することができ、異なる場所の各々におけるスピーカにより、音声出力を提供することができる。ハードウェア又はソフトウェアベースのエンコーダ・デコーダ技術は、アナログの映像及び音声データを、デジタルネットワークを介した転送のためにデジタルパケットに圧縮し、データを異なる場所での出力のために展開する。
一部のビデオ会議システムは、会議室にいる人を見つけてフレーミングし、例えば、それらの人を既存の映像ストリームから分離し、それらの人全てを含む領域をクロップし、又はそれらの人を個々の映像ストリームとして提示する、自動フレーミングアルゴリズムを含む。一部の例では、例えばガラスの壁又はドアを有する部屋、或いは開放スペースでは、通話の外部の(すなわち通話に参加していない)不所望な人が検出され、フレーミングの対象となる場合がある。そこで、ビデオ通話中の人が検出されフレーミングされる信頼性を向上させることが望ましい。
したがって、第1の態様において、本発明の実施形態は、ビデオ会議エンドポイントを動作させるコンピュータ実施方法であって、ビデオ会議エンドポイントが、視野を示す画像を撮影するビデオカメラを含み、方法が、
視野内の空間的境界を画定するデータを受け取るステップであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取るステップと、
視野の画像を撮影するステップと、
ビデオカメラの視野内の1又は複数の人を識別するステップと、
ビデオカメラの視野内の人又は各々の人の位置を推定するステップと、
受信機への送信のために、空間的境界内にいると決定された1又は複数の人に対応する1つ又は複数のクロップ領域を含む1つ又は複数のビデオ信号を生成するステップと
を含む、コンピュータ実施方法を提供する。
視野内の空間的境界を画定するデータを受け取るステップであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取るステップと、
視野の画像を撮影するステップと、
ビデオカメラの視野内の1又は複数の人を識別するステップと、
ビデオカメラの視野内の人又は各々の人の位置を推定するステップと、
受信機への送信のために、空間的境界内にいると決定された1又は複数の人に対応する1つ又は複数のクロップ領域を含む1つ又は複数のビデオ信号を生成するステップと
を含む、コンピュータ実施方法を提供する。
空間的境界を画定し、境界内にいると決定された者のみをフレーミングすることにより、ビデオ通話中の人がフレーミングされる信頼性が向上する。
ここで、本発明の任意選択的な特徴について述べる。これらは、単独で、又は本発明の任意の態様との任意の組み合わせで適用可能である。
1つ又は複数のビデオ信号を生成するステップは、1又は複数の人のうちの少なくとも1人が空間的境界内にいることを(1つ又は複数の)推定位置から決定することと、空間的境界内にいると決定された1又は複数の人をフレーミングして、それぞれのクロップ領域を生成することとを含んでもよい。1つ又は複数のビデオ信号を生成するステップは、カメラの視野内の1又は複数の人をフレーミングして、1つ又は複数のクロップ領域を生成することと、1又は複数の人のうちのいずれの人が空間的境界内にいるかを(1つ又は複数の)推定された位置から決定することと、空間的境界内の1又は複数の人に対応するクロップ領域のみに基づいて1つ又は複数のビデオ信号を生成することとを含んでもよい。
方法は、ビデオ信号又は各ビデオ信号を受信機に送信するステップをさらに含んでもよい。受信機は、コンピュータネットワークを介して第1のビデオ会議エンドポイントに接続された第2のビデオ会議エンドポイントであってもよい。
方法のステップは、適宜、任意の順序で実行することができる。例えば、空間的境界を画定するデータを受け取るステップが、視野の画像を撮影するステップの後に行われてもよい。
フレーミングとは、空間的境界内にいると決定された人を含む撮影された画像の領域、例えばクロップ領域を抽出することを意味するものであってもよい。このフレーム又はクロップ領域は、元々撮影された画像よりも小さく、フレーミングされている人は、抽出された領域内の中央に位置していてもよい。いくつかの例において、一のクロップ領域又は複数のクロップ領域のうちの1つは、単一の人のみを含んでもよい。いくつかの例において、一のクロップ領域又は複数のクロップ領域のうちの1つは、各々が空間的境界内にいると決定された複数の人を含んでもよい。一例においては、空間的境界内にいると決定された人の全てを含む単一のクロップ領域が抽出される。
方法は、カメラの視野内の画像における各々の人を、空間的境界の内部又は外側にいるか否かに従ってラベル付けし、ラベル付けされた画像を検証のためにユーザに提示する検証モードをさらに含んでもよい。ユーザは次いで、フレーミングの対象となる全ての人が空間的境界内にいることが確実になるように、空間的境界を画定するデータを変更することができる。
人又は各々の人の位置を推定するステップは、それぞれの人の顔ランドマークの1つ又は複数のペアの間の距離を測定することにより行われてもよい。例えば、推定は、人間についての顔ランドマークの1つ又は複数のペアの間の平均距離を取得し、撮影された画像におけるこれらのランドマークを検出し、画像におけるそれらのランドマークの間の距離を計算し、カメラの結像のジオメトリ及びカメラのパラメータに基づいてカメラに対する人の位置を推定し、顔ランドマーク特徴の各ペアから計算する複数の距離のうちの距離を推定することにより行われてもよい。
距離を推定するステップは、カメラに対する人の顔の向きを推定し、推定された向きに基づいて位置を推定するために用いられる顔ランドマークのペアを選択することを含んでもよい。
人又は各々の人の位置を推定するステップは、ビデオ会議エンドポイント内の1つ又は複数の加速度計を用いてカメラの向きを推定することを含んでもよい。
人又は各々の人の位置を推定するステップは、ビデオ会議エンドポイント内の1つ又は複数の距離センサの使用を含んでもよい。
空間的境界は、少なくとも部分的にカメラの場所からの距離として画定される。距離は、床における円形の境界を効果的に形成する径方向距離であってもよい。別の例において、空間的境界は、床における矩形の境界を形成するように、側部からどれだけ遠いか及びカメラから前方にどれだけ遠いかを規定する。空間的境界は、少なくとも部分的に撮影された画像の角度範囲により画定されてもよい。
方法は、ユーザが空間的境界を画定するデータを用意するユーザ入力ステップを含んでもよい。ユーザは、例えばユーザインターフェースを介して側部まで又はカメラから前方への距離を画定することにより、ユーザインターフェースを介してデータを用意してもよい。ユーザは、ビデオ会議エンドポイントがユーザの場所を追跡するデータ入力モードにビデオ会議エンドポイントを入らせることによりデータを用意してもよく、ユーザは、ユーザの1つ又は複数の場所を用いて空間的境界を画定することをビデオ会議エンドポイントに要求する。
方法は、映像ストリームに対して行われてもよく、以て、カメラの視野内の人又は各々の人の位置が追跡され、1つ又は複数のビデオ信号を生成するステップが、視野の複数の画像について繰り返される。
第2の態様において、本発明の実施形態は、視野を示す画像を撮影するように構成されたビデオカメラ、及びプロセッサを含むビデオ会議エンドポイントであって、プロセッサが、
視野内の空間的境界を画定するデータを受け取ることであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取ることと、
ビデオカメラから視野の画像を取得することと、
ビデオカメラの視野内の1又は複数の人を識別することと、
ビデオカメラの視野内の人又は各々の人の位置を推定することと、
受信機への送信のために、空間的境界内にいると決定された1又は複数の人に対応する1つ又は複数のクロップ領域を含む1つ又は複数のビデオ信号を生成することと
を行うように構成されている、ビデオ会議エンドポイントを提供する。
視野内の空間的境界を画定するデータを受け取ることであって、空間的境界が、少なくとも部分的にビデオカメラからの距離により画定されている、受け取ることと、
ビデオカメラから視野の画像を取得することと、
ビデオカメラの視野内の1又は複数の人を識別することと、
ビデオカメラの視野内の人又は各々の人の位置を推定することと、
受信機への送信のために、空間的境界内にいると決定された1又は複数の人に対応する1つ又は複数のクロップ領域を含む1つ又は複数のビデオ信号を生成することと
を行うように構成されている、ビデオ会議エンドポイントを提供する。
第2の態様のビデオ会議エンドポイントは、第1の態様において述べた方法の特徴のうちのいずれか1つ、又はそれらが適合する場合は任意の組み合わせを実行するように構成されてもよい。
第3の態様において、本発明の実施形態は、人からカメラまでの距離を推定するコンピュータ実施方法であって、方法が、
(a)カメラにより人の画像を取得するステップと、
(b)カメラに存在する人の顔領域を識別するステップと、
(c)人の顔ランドマークの複数のペアの各々の間の距離を測定するステップと、
(d)測定された距離の各々を用いてカメラからの人の距離を推定するステップと、
(e)ステップ(d)における最大推定距離及び/又は最小推定距離を識別するステップと、
(f)識別された最大距離及び/又は最小距離に基づいてカメラに対する人の位置を推定するステップと
を含む、コンピュータ実施方法を提供する。
(a)カメラにより人の画像を取得するステップと、
(b)カメラに存在する人の顔領域を識別するステップと、
(c)人の顔ランドマークの複数のペアの各々の間の距離を測定するステップと、
(d)測定された距離の各々を用いてカメラからの人の距離を推定するステップと、
(e)ステップ(d)における最大推定距離及び/又は最小推定距離を識別するステップと、
(f)識別された最大距離及び/又は最小距離に基づいてカメラに対する人の位置を推定するステップと
を含む、コンピュータ実施方法を提供する。
第4の態様において、本発明の実施形態は、第3の態様の方法を実行するように構成されたビデオ会議エンドポイントを提供する。
本発明は、説明されている態様及び任意選択的な特徴の組み合わせが明らかに許容できない又は明示的に避けられている場合を除き、そのような組み合わせを含む。
本発明のさらなる態様は、コンピュータにおいて実行された場合に第1の態様及び/又は第3の態様の方法をコンピュータに行わせるコードを備えるコンピュータプログラム、コンピュータにおいて実行された場合に第1の態様及び/又は第3の態様の方法をコンピュータに行わせるコードを備えるコンピュータプログラムを記憶するコンピュータ可読媒体、並びに、第1の態様及び/又は第3の態様の方法を行うようにプログラムされたコンピュータシステムを提供する。
ここで、添付の図面を参照して、本発明の実施形態を例として説明する。
ビデオ会議エンドポイントを示す。
コンピュータ実施方法のフローチャートを示す。
図1のビデオ会議エンドポイントを含むビデオ会議スイートを示す。
図1のビデオ会議エンドポイントを含む異なるビデオ会議スイートを示す。
ユーザに表示される検証画像を示す。
ここで、添付の図面を参照して、本発明の態様及び実施形態について論じる。さらなる態様及び実施形態が、当業者に明らかとなる。
図1は、ビデオ会議エンドポイント100を示す。エンドポイントは、揮発性メモリ4及び不揮発性メモリ6に接続されるプロセッサ2を含む。揮発性メモリ4及び不揮発性メモリ6のいずれか又は両方は、プロセッサにおいて実行された場合に図2を参照して論じる方法をプロセッサに実施させる機械実行可能命令を格納する。プロセッサ2はまた、1つ又は複数のビデオカメラ102に接続され、本例においては単一のカメラが存在するが、異なる視野又は撮影モード(例えば周波数範囲)を提供する複数のカメラが存在してもよい。プロセッサはまた、1つ又は複数のマイク12、及び、ユーザがデータを入力することを可能とするヒューマンマシンインターフェース14(例えばキーボード又はタッチ対応ディスプレイ)に接続される。プロセッサはまた、データをネットワーク全体にわたって伝送することを可能とするネットワークインターフェース8に接続される。
図2は、コンピュータ実施方法のフローチャートを示す。第1のステップ202において、プロセッサは、カメラ又は複数のカメラ102の視野内における空間的境界を画定するデータを受け取る。このデータは、例えばヒューマンマシンインターフェース14を介して、又はネットワークインターフェース8を介して受け取られてもよい。このデータは、例えば、空間的境界が境界づける(例えばメートル単位の)カメラからの最大距離を識別することができる。データは、例えば、空間的境界が広がるカメラからの最大角度を識別することもできる。一例において、データは、ユーザが、プロセッサ2が(1つ又は複数の)カメラ102によりユーザの場所を追跡するデータ入力モードにビデオ会議エンドポイントを入らせることにより、受け取られる。ユーザは次いで、ユーザの現在の場所を用いて、空間的境界の頂点又は境界線を画定することをビデオ会議エンドポイントに要求する。この要求は、例えば、ユーザが予め定められた方法でジェスチャを行う(例えば腕を「X」字状に交差させる)ことによるものであってもよい。ユーザは次いで、別の地点に移動し、ジェスチャを繰り返して、第2の頂点又は境界線を画定し、以下同様のことを行ってもよい。
プロセッサがデータを受け取った後、方法は、画像が空間的境界を含む視野のカメラにより撮影されるステップ204に移る。プロセッサは次いで、ステップ206において視野内にいる全ての人を識別する。人のこの識別は、例えば画像内の人を識別するように訓練された機械学習モデルを用いて行われてもよい。いくつかの例において、「you only look once」(又はYOLO)物体検出アルゴリズム、又はコンピュータビジョンのHaar特徴ベースのカスケード型分類器、又は勾配方向ヒストグラムなどの訓練済み畳み込みニューラルネットワークが、画像内の人を識別するために用いられてもよい。プロセッサは、カメラの視野において識別された人の数を示すためのカウンタjをインクリメントする。その後、プロセッサは、ステップ208~216により規定されるループに入る。ステップ208において、人iの位置がカメラの視野内で推定される。
視野における人の位置又は場所の推定は、いくつかの例において、(i)人の顔からカメラまでの距離を推定し、(ii)カメラ水平位置に対する人の顔への方向を計算し、(iii)エンドポイントにおける1つ又は複数の加速度計を用いることによりカメラの向きを計算し、(iv)視野における部屋の床の平面に対する人の顔の方向を計算するという4つのステップで行われる。ステップ(i)~(iii)は、任意の順序で行うことができる。第1のステップは、(a)飛行時間センサを用いること、(b)2つ以上のカメラからの立体視を用いること、(c)画像に対して訓練済み機械学習アルゴリズムを用いること、(d)画像内の顔を検出し、顔のバウンディングボックスのサイズを用いること、(e)顔を検出し、次いで目、鼻、口などの顔ランドマークを検出し、事前訓練済み機械学習モデルを用いて距離を推定すること、及び(f)頭、耳、胴などの人の主要な特徴を検出し、主要な特徴のうちの少なくともいくつかの間の一定な距離を仮定する事前訓練済み機械学習モデルを用いることを含む様々な方法により行うことができる。
(e)の変形例を用いて人の位置を推定することも可能である。顔ランドマークのペアの間の距離は、母集団全体にわたって10%以内で変動する。これらの距離のいくつかの例は、両目の間の距離、片目と鼻先との間の距離、片目と口との間の距離、額の頂部と顎先との間の距離、及び顔の全幅を含む。撮影された画像において、これらのランドマークはカメラ焦点面に投影されており、したがって、撮影された画像におけるランドマーク間の距離は、顔のカメラ画角に依存する。人が顔をカメラ視野に対して側方に向けた場合、上記の距離のほとんどは短くなる。ただし、(例えば)顔の長さ又は視認可能な片目から口までの距離を含む一部は短くならない。同様に、人が上方を見た場合、画像における投影された顔の長さは短くなるが、顔幅及び目の距離は同じままである。人が顔を回転させるが、顔をカメラに対して正面に保つ場合、目の距離などのランドマークの間の距離は同じままである。ランドマーク間の距離が顔からカメラまでの距離よりも小さいと仮定すると、カメラの結像により、実世界における2つのランドマークの間の距離及び画素単位での画像におけるそれらの距離を関連付ける式を導出することが可能となる。場合により等価式と称されるこれらの式は、三角形の比の性質を示す。
例えば、fをカメラの(メートル単位の)焦点距離とし、drealを2つの顔ランドマークの実世界における距離とし、dimageを画素長さ単位での2つの顔ランドマークの画像における距離とし、pixelSizeを(メートル単位の)画素のサイズとし、dを人からカメラまでの距離とすると、以下を導出することができる。
上記の「以下」は、顔が正面にある、すなわち2つの顔ランドマークを接続する線が画像平面に平行である場合には、等しいことになる。これは、ランドマークの各ペアについて、上記の式の右辺の値が、顔からカメラまでの距離についての1つの上限を与えることを意味する。ランドマークの複数のペア、及びdrealについてのそれぞれの平均値が、このプロセスで用いられてもよい。これにより、カメラまでの推定距離を導出することが可能となる。上記の式の変形例、例えば、焦点距離及び画素サイズを、カメラの水平視野HFOV及び画素単位でのセンサ解像度幅で置き換えることも可能である。
水平視野及びセンサ解像度幅は、垂直方向又は対角方向における同等の要素により置き換えられてもよい。
上記の「以下」は、顔が正面にある、すなわち2つの顔ランドマークを接続する線が画像平面に平行である場合には、等しいことになる。これは、ランドマークの各ペアについて、上記の式の右辺の値が、顔からカメラまでの距離についての1つの上限を与えることを意味する。ランドマークの複数のペア、及びdrealについてのそれぞれの平均値が、このプロセスで用いられてもよい。これにより、カメラまでの推定距離を導出することが可能となる。上記の式の変形例、例えば、焦点距離及び画素サイズを、カメラの水平視野HFOV及び画素単位でのセンサ解像度幅で置き換えることも可能である。
水平視野及びセンサ解像度幅は、垂直方向又は対角方向における同等の要素により置き換えられてもよい。
カメラ位置に対する人の顔の位置は、距離及び方向を知ることにより一意に識別される。方向は、パン及びチルトなどの角度により記述することができる。カメラ水平面に対する顔の方向は、画像の中心に対する顔の画素位置から計算されてもよい。例えば、cxが中心画素に対する画像における顔の位置である場合、望遠レンズについてのパン角度は、以下のように計算することができる。
又は
魚眼モデルに従う広角レンズについては、atan及びtan関数が省略されてもよい。
又は
魚眼モデルに従う広角レンズについては、atan及びtan関数が省略されてもよい。
ビデオ会議エンドポイントは、多くの場合、床に対して上方又は下方に傾斜して装着される。カメラ向きは、チルト角度を導出することを可能とするために重力を検知する、エンドポイント内の加速度計から計算されてもよい。床に対する方向は、上記の角度から導出される。例えば、床に対するパン角度は、カメラ水平面に対するパン角度に等しいが、床に対するチルト角度は、カメラ水平面に対するチルト角度及びカメラのチルト角度の和に等しい。
人の位置が推定されると、方法は、人iが事前に画定された空間的境界内にいるか否かをプロセッサが決定するステップ210に移る。そうである、すなわち「はい」の場合、方法はステップ212に移り、人がフレーミングリスト(すなわち、1つ又は複数のクロップ領域においてフレーミングすべき人又は複数の人を含むリスト)に追加される。方法は次いで、iカウンタがインクリメントされるステップ214に移る。人が空間的境界の外側にいると決定される、すなわち「いいえ」の場合、方法は直接ステップ214に移り、ステップ212は行われない。
カウンタがインクリメントされると、プロセッサは、ステップ216においてi=jであるかを決定する。すなわち、全ての識別された人の位置が推定され、境界と比較されたかである。そうでない、すなわち「いいえ」の場合、方法はステップ208に戻り、ループが続行する。一例において、方法は、まずステップ206において識別された全ての人をループしてその位置を推定し、次いで各推定位置をループして、それらが空間的境界内であるかを決定してもよいことに留意されたい。方法は、次いで、空間的境界内にいると決定された全ての人をループし、それらの人をフレーミングすることができる。全ての人の位置が推定され、それらの人をフレーミングするか否かについての決定が行われると、すなわち「はい」となると、方法はステップ218に移り、フレーミングリストにおける人のうちの1又は複数を含むクロップ領域又は各クロップ領域が抽出される。これらのクロップ領域は次いで、各映像ストリームがそれぞれのクロップ領域を含む1つ又は複数の単一映像ストリーム、又は複数のクロップ領域を含む複合映像ストリームを生成するために用いられる。これらは、ステップ220において送信される。
代替的方法においては、ステップ206において識別された人の全てがまずフレーミングされ、すなわち、ステップ206において識別された各々の人についてクロップ領域が抽出される。次に、方法は、空間的境界内の人の各々を識別し、空間的境界内の人を含むクロップ領域を残りのクロップ領域から分離する。次いで、空間的境界内の人を含むクロップ領域のみが用いられる。
図3は、図1のビデオ会議エンドポイント100を含むビデオ会議スイートを示す。カメラ102は、第1の部屋104及び第2の部屋110を含む(破線により示される)視野106を撮影する。第1の部屋及び第2の部屋は、ガラス壁112により分離され、本例において、部屋104はビデオ会議スイートであり、部屋110はオフィスである。(点線により示される)空間的境界108が、カメラからの最大距離として画定される。本例において、これは、人114a~114dが空間的境界内におり、一方で(カメラ102の視野106内にいるが第1の部屋104内にいない)人116が空間的境界内にいないことを意味する。したがって、人114a~114dをビデオ会議エンドポイント100によりフレーミングすることができ、人116を除外することができる。
図4は、図1のビデオ会議エンドポイントを含む異なるビデオ会議スイートを示す。同様の特徴は、同様の参照番号で示されている。図3に示す例とは対照的に、ここでは、空間的境界が最大距離108により画定されるのみでなく、画像の最大角度範囲408によりさらに画定される。最大角度範囲を適切に画定することにより、人114a~114bを空間的境界内にいるものとして画定することができ、一方で人116を空間的境界から除外することができる。
図5は、ユーザに表示される検証画像を示す。人が空間的境界の内側又は外側にいるという図形的表示が提供され、それぞれの人と関連付けられる。本例においては、空間的境界内にいる人の近傍にチェック印が付けられ、一方で空間的境界の外側にいる人の近傍にバツ印が付けられる。例えば空間的境界内にいると見出された人のみの周囲のバウンディングボックス、又は全ての検出された人の周囲にあるが境界の内側及び外側の人で異なる色が付けられたバウンディングボックスといった他の図形的表示が提供されてもよい。これにより、ユーザが、空間的境界を画定するデータを調整して、フレーミングすべき人を適切に除外する又は含めることを可能とすることができる。
特定の形態で、又は開示されている機能を実行するための手段に関して表現されている、本説明、又は以下の特許請求の範囲、又は添付の図面において開示されている特徴、又は開示の結果を得るための方法若しくはプロセスは、適宜、別個に又はそのような特徴の任意の組み合わせで、多様な形態において本発明を実現するために利用されてもよい。
本発明を上述の例示的実施形態に関連して説明したが、本開示を考慮すれば、多数の同等な修正例及び変形例が当業者には明らかであろう。したがって、上記で述べた本発明の例示的実施形態は、限定ではなく例示的なものとして考えられる。本発明の趣旨及び範囲から逸脱しない限りにおいて、説明されている実施形態に対する様々な変更がなされてもよい。
何らかの疑義を避けるために、本明細書において提供されているあらゆる理論的説明は、読者の理解を深める目的で提供されている。発明者らは、これらの理論的説明のいずれによっても制約されることを望むものではない。
本明細書において用いられているあらゆる段落見出しは、単に整理を目的としたものであり、説明されている主題を限定するものとして解釈されるべきではない。
以下の請求項を含む本明細書全体にわたって、文脈がそうでないことを求めない限り、「備える(comprise)」及び「含む(include)」という語、並びに「備える(comprises)」、「備える(comprising)」、及び「含む(including)」などの変化形は、記載されている整数若しくはステップ又は複数の整数若しくはステップの群を含むことを意味するが、任意の他の整数若しくはステップ又は複数の整数若しくはステップの群を除外することを意味しないものと理解される。
本明細書及び添付の特許請求の範囲において用いられる場合、単数形の「一の(a)」、「一の(an)」、及び「その(the)」は、文脈がそうでないことを明示しない限り、複数形の言及を含むことに留意する必要がある。本明細書において、「約」1つの特定の値から、及び/又は「約」別の特定の値までとして、範囲が表現される場合がある。そのような範囲が表現される場合、別の実施形態は、当該1つの特定の値から、及び/又は当該別の特定の値までを含む。同様に、前に「約」を用いることにより、値が近似として表現される場合、その特定の値が別の実施形態を形成することが理解されよう。数値に関する「約」という用語は、任意選択的であり、例えば+/-10%を意味する。
Claims (20)
- ビデオ会議エンドポイントを動作させるコンピュータ実施方法であって、前記ビデオ会議エンドポイントが、視野を示す画像を撮影するビデオカメラを含み、前記方法が、
前記視野内の空間的境界を画定するデータを受け取るステップであって、前記空間的境界が、少なくとも部分的に前記ビデオカメラからの距離により画定されている、受け取るステップと、
前記視野の画像を撮影するステップと、
前記ビデオカメラの前記視野内の1又は複数の人を識別するステップと、
前記ビデオカメラの前記視野内の前記人又は各々の人の位置を推定するステップと、
受信機への送信のために、前記空間的境界内にいると決定された1又は複数の人に対応する1つ又は複数のクロップ領域を含む1つ又は複数のビデオ信号を生成するステップと
を含む、コンピュータ実施方法。 - 前記1つ又は複数のビデオ信号を生成するステップが、
前記1又は複数の人のうちの少なくとも1人が前記空間的境界内にいることを1つ又は複数の推定位置から決定することと、
前記空間的境界内にいると決定された前記1又は複数の人をフレーミングして、それぞれのクロップ領域を生成することと
を含む、請求項1に記載のコンピュータ実施方法。 - 前記ビデオ信号又は各ビデオ信号を前記受信機に送信するステップを含む、請求項1又は2に記載のコンピュータ実施方法。
- 前記ビデオカメラの前記視野内の前記画像における各々の人を、前記空間的境界の内部又は外側にいるか否かに従ってラベル付けし、
前記ラベル付けされた画像を検証のためにユーザに提示する
検証モードをさらに含む、請求項1~3のいずれか一項に記載のコンピュータ実施方法。 - 前記人又は各々の人の前記位置を推定するステップが、それぞれの前記人についての顔ランドマークの1つ又は複数のペアの間の距離を測定することにより行われる、請求項1~4のいずれか一項に記載のコンピュータ実施方法。
- 顔ランドマーク特徴の複数のペアの間の距離が測定され、各距離が、前記ビデオカメラからの前記人の距離を推定するために用いられ、前記推定された距離のうちの最大推定距離及び/又は最小推定距離が、前記人又は各々の人の前記位置を推定するために用いられる、請求項5に記載のコンピュータ実施方法。
- 前記距離を推定するステップが、前記カメラに対する前記人の顔の向きを推定し、前記推定された向きに基づいて前記位置を推定するために用いられる顔ランドマークのペアを選択することを含む、請求項5又は6に記載のコンピュータ実施方法。
- 前記人又は各々の人の前記位置を推定するステップが、前記ビデオ会議エンドポイント内の1つ又は複数の加速度計を用いて前記カメラの向きを推定することを含む、請求項1~7のいずれか一項に記載のコンピュータ実施方法。
- 前記人又は各々の人の前記位置を推定するステップが、前記ビデオ会議エンドポイント内の1つ又は複数の距離センサの使用を含む、請求項1~8のいずれか一項に記載のコンピュータ実施方法。
- 前記空間的境界が、少なくとも部分的に前記撮影された画像の角度範囲によりさらに画定されている、請求項1~9のいずれか一項に記載のコンピュータ実施方法。
- 前記方法が、ユーザが前記空間的境界を画定する前記データを用意するユーザ入力ステップを含む、請求項1~10のいずれか一項に記載のコンピュータ実施方法。
- 前記ユーザが、ユーザインターフェースを介して前記データを用意する、請求項11に記載のコンピュータ実施方法。
- 前記ユーザが、ビデオ会議エンドポイントが前記ユーザの場所を追跡するデータ入力モードに前記ビデオ会議エンドポイントを入らせることにより前記データを用意し、前記ユーザが、前記ユーザの1つ又は複数の場所を用いて前記空間的境界を画定することを前記ビデオ会議エンドポイントに要求する、請求項11に記載のコンピュータ実施方法。
- 視野を示す画像を撮影するように構成されたビデオカメラ、及びプロセッサを含むビデオ会議エンドポイントであって、前記プロセッサが、
前記視野内の空間的境界を画定するデータを受け取ることであって、前記空間的境界が、少なくとも部分的に前記ビデオカメラからの距離により画定されている、受け取ることと、
前記ビデオカメラから前記視野の画像を取得することと、
前記ビデオカメラの前記視野内の1又は複数の人を識別することと、
前記ビデオカメラの前記視野内の前記人又は各々の人の位置を推定することと、
受信機への送信のために、前記空間的境界内にいると決定された1又は複数の人に対応する1つ又は複数のクロップ領域を含む1つ又は複数のビデオ信号を生成することと
を行うように構成されている、ビデオ会議エンドポイント。 - 前記1つ又は複数のビデオ信号を生成することが、
前記1又は複数の人のうちの少なくとも1人が前記空間的境界内にいることを1つ又は複数の推定位置から決定することと、
前記空間的境界内にいると決定された前記1又は複数の人をフレーミングして、それぞれのクロップ領域を生成することと
を含む、請求項15に記載のビデオ会議エンドポイント。 - 前記ビデオ会議エンドポイントが、ネットワークを介して受信機に接続されており、前記プロセッサが、前記1つ又は複数のビデオ信号を前記受信機に送信するように構成されている、請求項15又は16に記載のビデオ会議エンドポイント。
- 前記プロセッサが、
前記カメラの前記視野内の前記画像における各々の人を、前記空間的境界の内部又は外側にいるか否かに従ってラベル付けし、
前記ラベル付けされた画像を検証のためにユーザに提示する
検証モードを実行するように構成されている、請求項15~17のいずれか一項に記載のビデオ会議エンドポイント。 - 前記プロセッサが、それぞれの前記人の顔ランドマーク特徴の1つ又は複数のペアの間の距離を測定することにより、前記人又は各々の人の前記位置を推定するように構成されている、請求項15~18のいずれか一項に記載のビデオ会議エンドポイント。
- 前記プロセッサが、顔ランドマーク特徴の複数のペアの間の複数の距離を測定して、前記測定された距離の各々を用いて前記ビデオカメラからの前記人の距離を推定し、前記推定された距離のうちの最大推定距離及び/又は最小推定距離を用いて、前記人又は各々の人の前記位置を推定するように構成されている、請求項19に記載のビデオ会議エンドポイント。
- 人からカメラまでの距離を推定するコンピュータ実施方法であって、前記方法が、
(a)前記カメラにより前記人の画像を取得するステップと、
(b)前記画像に存在する前記人の顔領域を識別するステップと、
(c)前記人の顔ランドマークの複数のペアの各々の間の距離を測定するステップと、
(d)前記測定された距離の各々を用いて前記カメラからの前記人の距離を推定するステップと、
(e)ステップ(d)における最大推定距離及び/又は最小推定距離を識別するステップと、
(f)前記識別された最大距離及び/又は最小距離に基づいて前記カメラに対する前記人の位置を推定するステップと
を含む、コンピュータ実施方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB2107641.9 | 2021-05-28 | ||
GB2107641.9A GB2607573B (en) | 2021-05-28 | 2021-05-28 | Video-conference endpoint |
PCT/EP2022/064419 WO2022248671A1 (en) | 2021-05-28 | 2022-05-27 | Video-conference endpoint |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024521292A true JP2024521292A (ja) | 2024-05-31 |
Family
ID=76741441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023566604A Pending JP2024521292A (ja) | 2021-05-28 | 2022-05-27 | ビデオ会議エンドポイント |
Country Status (7)
Country | Link |
---|---|
US (1) | US20240214520A1 (ja) |
EP (1) | EP4349007A1 (ja) |
JP (1) | JP2024521292A (ja) |
CN (1) | CN117480776A (ja) |
AU (1) | AU2022279584A1 (ja) |
GB (1) | GB2607573B (ja) |
WO (1) | WO2022248671A1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839257B2 (en) * | 2017-08-30 | 2020-11-17 | Qualcomm Incorporated | Prioritizing objects for object recognition |
US20190215464A1 (en) * | 2018-01-11 | 2019-07-11 | Blue Jeans Network, Inc. | Systems and methods for decomposing a video stream into face streams |
JP7225631B2 (ja) * | 2018-09-21 | 2023-02-21 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
US11386562B2 (en) * | 2018-12-28 | 2022-07-12 | Cyberlink Corp. | Systems and methods for foreground and background processing of content in a live video |
US10904446B1 (en) * | 2020-03-30 | 2021-01-26 | Logitech Europe S.A. | Advanced video conferencing systems and methods |
CN112672095B (zh) * | 2020-12-25 | 2022-10-25 | 联通在线信息科技有限公司 | 远程会议系统 |
-
2021
- 2021-05-28 GB GB2107641.9A patent/GB2607573B/en active Active
-
2022
- 2022-05-27 AU AU2022279584A patent/AU2022279584A1/en active Pending
- 2022-05-27 CN CN202280038638.7A patent/CN117480776A/zh active Pending
- 2022-05-27 JP JP2023566604A patent/JP2024521292A/ja active Pending
- 2022-05-27 EP EP22733871.2A patent/EP4349007A1/en active Pending
- 2022-05-27 US US18/288,931 patent/US20240214520A1/en active Pending
- 2022-05-27 WO PCT/EP2022/064419 patent/WO2022248671A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
GB2607573B (en) | 2023-08-09 |
AU2022279584A1 (en) | 2023-11-09 |
WO2022248671A1 (en) | 2022-12-01 |
US20240214520A1 (en) | 2024-06-27 |
EP4349007A1 (en) | 2024-04-10 |
CN117480776A (zh) | 2024-01-30 |
GB2607573A (en) | 2022-12-14 |
GB202107641D0 (en) | 2021-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017215295A1 (zh) | 一种摄像机参数调整方法、导播摄像机及系统 | |
US7742624B2 (en) | Perspective improvement for image and video applications | |
JP6077655B2 (ja) | 撮影システム | |
JP4085959B2 (ja) | 物体検出装置、物体検出方法、および記録媒体 | |
US8749607B2 (en) | Face equalization in video conferencing | |
CN106650671A (zh) | 人脸识别方法、装置及系统 | |
TR201702966A2 (tr) | Kafaya takilan görüntüleme ci̇hazi (hmd&#8217#&ler)i̇le vi̇deo konferanslari i̇çi̇n i̇yi̇leşti̇ri̇lmi̇ş yöntem ve si̇stem | |
WO2020020022A1 (zh) | 视觉识别方法及其系统 | |
JP2012151848A (ja) | 関心領域の動的検知に基づいたシーン状態切換システム及び方法 | |
EP3295372A1 (en) | Facial signature methods, systems and software | |
JP5963006B2 (ja) | 画像変換装置、カメラ、映像システム、画像変換方法およびプログラムを記録した記録媒体 | |
CN107862713A (zh) | 针对轮询会场的摄像机偏转实时检测预警方法及模块 | |
JP2016213674A (ja) | 表示制御システム、表示制御装置、表示制御方法、及びプログラム | |
CN108702482A (zh) | 信息处理设备、信息处理系统、信息处理方法和程序 | |
WO2009119288A1 (ja) | コミュニケーションシステム及びコミュニケーションプログラム | |
WO2023036218A1 (zh) | 视点宽度的确定方法及其装置 | |
US20210400234A1 (en) | Information processing apparatus, information processing method, and program | |
EP4187898A2 (en) | Securing image data from unintended disclosure at a videoconferencing endpoint | |
JP2024521292A (ja) | ビデオ会議エンドポイント | |
US11587321B2 (en) | Enhanced person detection using face recognition and reinforced, segmented field inferencing | |
US20200252585A1 (en) | Systems, Algorithms, and Designs for See-through Experiences With Wide-Angle Cameras | |
US20230306698A1 (en) | System and method to enhance distant people representation | |
JP4586447B2 (ja) | 画像処理装置及び方法、プログラム | |
CN114519888B (zh) | 基于双目摄像头的人脸框获取方法、系统、装置及介质 | |
JP2018049479A (ja) | 情報処理装置、評価システムおよびプログラム |