JP6723591B1

JP6723591B1 - データベースに顔情報を入力する方法及び装置

Info

Publication number: JP6723591B1
Application number: JP2019184911A
Authority: JP
Inventors: ツァイハイジャオ; フォンシンポン; ジョウジィ
Original assignee: NextVPU Shanghai Co Ltd
Current assignee: NextVPU Shanghai Co Ltd
Priority date: 2019-07-29
Filing date: 2019-10-08
Publication date: 2020-07-15
Anticipated expiration: 2039-10-08
Also published as: JP2021022351A; US10922570B1; US20210034898A1; EP3772016A1; WO2021017096A1; CN110196914B; KR20220041891A; EP3772016B1; CN110196914A

Abstract

【課題】本開示は、データベースに顔情報を入力する方法、プロセッサチップ、電子機器及び記憶媒体を提供する。【解決手段】データベースに顔情報を入力する方法は、１つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から被撮影者の顔情報を抽出するステップと、少なくとも１つの被撮影者の撮影中の音声を記録するステップと、記録された音声に対して意味解析を行い、該音声から対応する情報を抽出するステップと、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けてデータベースに入力するステップと、を含む。【選択図】図１

Description

本開示は、顔認識に関し、特にデータベースに顔情報を入力する方法及び装置に関する。

顔認識は、人間の顔特徴情報に基づいて認識を行う生体認証技術の１つである。顔認識技術は、ビデオカメラ又はカメラを用いて顔を含む画像又はビデオストリームを取り込み、画像における顔を自動的に検出し、検出された顔に対して顔認識を行う。顔情報データベースの構築は、顔認識の前提条件である。データベースに顔情報を入力する際に、通常、画像及びビデオの取り込み装置のユーザにより、取り込まれた顔情報に対応する情報を入力する。

本開示の１つの目的は、データベースに顔情報を入力する方法、プロセッサチップ、電子機器及び記憶媒体を提供することである。

本開示の１つの態様では、データベースに顔情報を入力する方法であって、１つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から前記１つ又は複数の被撮影者の顔情報を抽出するステップと、前記１つ又は複数の被撮影者のうち少なくとも１つの被撮影者の撮影中の音声を記録するステップと、記録された音声に対して意味解析を行い、該音声から対応する情報を抽出するステップと、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けて前記データベースに入力するステップと、を含む、方法を提供する。

本開示のもう１つの態様では、データベースに顔情報を入力するプロセッサチップ回路であって、上記の方法のステップを実行する回路部、を含む、プロセッサチップ回路を提供する。

本開示のもう１つの態様では、１つ又は複数の被撮影者に対してビデオ撮影を行うビデオ・センサと、前記１つ又は複数の被撮影者のうち少なくとも１つの被撮影者の撮影中の音声を記録するオーディオ・センサと、対応する被撮影者の情報と顔情報とを関連付けてデータベースに入力する上記のプロセッサチップ回路と、を含む、電子機器を提供する。

本開示のもう１つの態様では、命令を含むプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令が電子機器のプロセッサにより実行される際に、前記電子機器に上記の方法を実行させる、記憶媒体を提供する。

図面は実施例を例示し、明細書の一部を構成するものであり、図面及び明細書の文言の説明を参照しながら実施例の例示的な態様を説明する。示される実施例は単なる例示のためのものであり、特許請求の範囲を制限するものではない。全ての図面では、同一の符号は類似の要素を示しているが、必ずしも同一の要素ではない。
第１実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。複数の被撮影者について顔情報を入力するシーンを例示的に示す図である。マイクロホンアレイとカメラの第１種の配列方式を示す図である。マイクロホンアレイとカメラの第２種の配列方式を示す図である。共通の時間軸に基づいてビデオ画像とオーディオ波形とを関連付けて表示することを例示的に示す図である。第２実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。第３実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。例示的な実施形態に適用可能なコンピュータ装置の構成の一例を示すブロック図である。

本開示では、他の説明がない限り、様々な要素を説明するための「第１」、「第２」などの用語は、これらの要素の位置関係、時間的関係又は重要性の関係を限定するものではなく、単に１つの素子と他の素子とを区別するために用いられる。幾つかの例では、第１要素及び第２要素は、該要素の同一の例を表してもよいし、場合によって、文脈上の説明に基づいて、異なる例を表してもよい。

図１は本開示の第１実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。

以下は、まず、図１におけるステップに従って、１人の被撮影者のみのシーンを説明する。該シーンは、例えば、政府関係部門又は銀行のスタッフが１人の被撮影者の顔及び身分を入力する必要があるシーン、又は視覚障害者が補助的なウェアラブルデバイスを使用して目の前の話者の顔及び身分を含む関連情報を受動的に入力するシーンである。

ステップＳ１０１において、１人の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から被撮影者の顔情報を抽出する。

ビデオ撮影は、ビデオカメラ、カメラ、又は画像センサを有する他のビデオ取り込みユニットにより行われてもよい。被撮影者がビデオ取り込みユニットの撮影範囲内にいる場合、ビデオ取り込みユニットは、顔認識技術を利用して顔を自動的に検索し、顔認識のために被撮影者の顔情報を抽出してもよい。

顔情報は、被撮影者を認識するために使用できる顔特徴情報を含む。顔認識システムで使用できる特徴は、視覚特徴、画素統計特徴、顔画像変換係数特徴、顔画像代数特徴などを含む。例えば、顔の目、鼻、口、顎などの局所間の構造的関係の幾何学的記述、及び虹彩は、顔を認識するための重要な特徴として用いられてもよい。

顔認識を行う際に、上記の抽出された顔情報とデータベースに記憶された顔情報テンプレートに対して検索とマッチングを行い、類似度に基づいて顔の身分情報を判断する。例えば、深層学習によりニューラルネットワークを訓練し、上記の類似度の判断を行ってもよい。

ステップＳ１０３において、被撮影者の撮影中の音声を記録する。

音声は話者自身の身分情報を含んでもよい。代替的なもの又は補充的なものとして、音声は、話者自身の所在するシーンに関する情報をさらに含んでもよい。例えば、視覚障害者が受診するシーンでは、医師の会話内容は、該医師の姓名、所属科、地位などの身分情報だけではなく、治療方法、投薬方法などの有効な音声情報を含んでもよい。

音声の取り込みは、マイクロホンなどのオーディオ取り込みユニットにより実現されてもよい。被撮影者は、例えば自分の身分情報である「私は王軍です」などの情報を自発的に話す。身分情報は、少なくとも姓名を含み、データベースの用途に応じて、年齢、出身地、上記の勤務先、役職などのその他の情報をさらに含んでもよい。

ステップＳ１０５において、記録された音声に対して意味解析を行い、該音声から対応する情報を抽出する。

音声から情報を抽出することは音声認識技術により実現されてもよく、抽出された情報はテキストの形で記憶されてもよい。音声認識技術のプロバイダにより提供される中国語（様々な方言を含む）、英語などの各種の言語の音声データベースに基づいて、複数の種類の言語で伝えられた情報を認識することができる。上述したように、抽出された情報は、話者自身の身分情報であってもよい。代替的なもの又は補充的なものとして、抽出された情報は、話者自身の所在するシーンに関する情報をさらに含んでもよい。なお、意味解析により抽出された身分情報は、話者の声紋情報と異なる。

被撮影者の協力の程度は、音声認識の結果に影響を与える可能性がある。被撮影者が適切な速度で対応する情報をはっきり話すと、音声認識の結果がより正確になる。

ステップＳ１０７において、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けてデータベースに記憶する。

被撮影者が１人だけのシーンでは、抽出された顔情報と情報とが該同一の被撮影者に属すると判断し、抽出された顔情報と情報とを関連付けてデータベースに記憶してもよい。ここで、情報はテキスト情報の形でデータベースに記憶される。

上記の顔情報の入力方法は、被撮影者により伝えられた情報及びその顔情報を自動的に認識して関連付けることで、ビデオ取り込みユニットのユーザが被撮影者の情報（特に身分情報）を誤って入力するリスクを低減させ、顔情報の入力の効率を向上させた。また、本開示の方法によれば、シーンに関連する他の情報を同時に入力することができるため、様々なシーンにおけるユーザの使用需要を満たすことができる。

図１のフローチャートにおけるステップは、複数の被撮影者を含むシーンに適用されてもよい。該シーンは、例えば視覚障害者が複数参加者の会議に参加し、或いは社交の場にいるシーンである。

なお、以上の単一の被撮影者について説明された顔認識及び音声認識は、複数の被撮影者を含むシーンにおける各被撮影者にそれぞれ適用されてもよいため、関連内容の説明を省略する。

ステップＳ１０１において、複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から各被撮影者の顔情報を抽出する。

図２に示すように、ビデオ取り込みユニット２０４の撮影範囲内（図２における２つの破線により定められた扇形領域）に同時に３人の被撮影者２０１、２０２及び２０３が存在する。顔認識技術を利用して複数の被撮影者の顔を自動的に検索し、撮影された全ての顔に対して対応する顔情報を抽出する。

ステップＳ１０３において、複数の被撮影者のうち少なくとも１人の被撮影者の撮影中の音声を記録する。

複数の被撮影者は自分の情報を順番に伝えてもよく、記憶された音声はメモリに記憶されてもよい。

ステップＳ１０５において、記録された各音声に対して意味解析を行い、該音声から対応する情報を抽出する。上述したように、音声は、身分情報に加え、話者の所在するシーンに関する情報をさらに含んでもよく、このような情報は、同様に音声を解析することで抽出され、顔情報に関連付けられてデータベースに記憶されてもよい。説明の便宜上、以下は、音声における身分情報を一例にして本発明を説明する。

ステップＳ１０７において、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けてデータベースに入力する。

複数の被撮影者を含むシーンでは、１人だけが話すシーンと、複数の人が同時に話すシーンとをさらに区別してもよい。複数の人が話すことにより互いに干渉を引き起こして区別できなくなる場合、現在のシーンで記憶された音声を放棄し、音声を再入力してもよい。１人だけが話し、或いは複数の人が話しても１つの音声と他の音声とを区別できる場合、記録された音声における該重要な（又は唯一の）音声を解析して該音声から対応する情報を抽出する。

抽出された対応する情報と顔情報との関連付けは、以下２つの方法により実現されてもよい。

一、音源定位
図２の上面図に示すシーンでは、３人の被撮影者２０１、２０２及び２０３はビデオ取り込みユニット２０４の撮影範囲内に位置する。また、顔情報入力のための装置２００は、オーディオ取り込みユニット２０５をさらに含む。なお、図２に示すオーディオ取り込みユニット２０５及びビデオ取り込みユニット２０４の相対位置に限定されない。

オーディオ取り込みユニット２０５は、３つのマイクロホンを含むアレイであってもよく、マイクロホンは、例えば音圧感度が高く、指向性を有しないマイクロホン素子である。

図３では、３つのマイクロホン３０５−１、３０５−２及び３０５−３は、カメラ３０４の上方に直線状に配列されている。図４では、３つのマイクロホン４０５−１、４０５−２及び４０５−３は、カメラ４０４を中心として等辺三角形を形成している。

マイクロホンのアレイの態様は、図３及び図４におけるパターンに限定されず、３つのマイクロホンが顔情報入力装置２００、３００、４００における既知、且つ異なる位置にそれぞれ取り付けられることは重要である。

被撮影者２０１、２０２及び２０３のうち１人が自分の身分情報を伝える際に、話者の音波はオーディオ取り込みユニットの３つのマイクロホン３０５−１、３０５−２及び３０５−３に伝播される。位置が異なるため、３つのマイクロホンにより取り込まれたオーディオ信号同士の間には位相差が存在し、３つの位相差に基づいて音源の顔情報入力装置に対する方向を判断することができる。例えば、図３に示すように、３つのマイクロホン３０５−１、３０５−２、３０５−３のうちの１つのマイクロホン３０５−２を顔情報入力装置３００の垂直方向の中心軸上に配置し、残りの２つのマイクロホン３０５−１及び３０５−３をマイクロホン３０５−２に対して左右対称となるように配置し、マイクロホン３０５−２を通過し、且つ所在平面に垂直する法線は基準線とされ、音源の具体的な方向は角度で表されてもよい。

図２に示す例では、被撮影者１は自分の身分情報を伝えるように音声を発している。オーディオ取り込みユニット２０５により、被撮影者１の音声取り込みユニット２０５に対する方向を正確に特定することができる。なお、音源定位の精度はオーディオ取り込みユニットにより使用されるマイクロホンの感度に関連する。撮影範囲内に位置する被撮影者間の間隔距離が大きくなると、音源定位の精度への要求が低くなり、一方、撮影範囲内に位置する被撮影者間の間隔距離が小さくなると、音源定位の精度への要求が高くなる。この規則に従って、本開示を実施する際に、当業者は具体的な応用シーンに応じて（例えば撮影範囲内に同時に存在する人の数に基づいて）オーディオ取り込みユニットの性能を決定してもよい。

ビデオ取り込みユニット３０４、４０４は、方位について撮影者の所在する現実シーンとビデオシーンとのマッピングを行うために用いられてもよい。このようなマッピングは、現実シーンにおける予め設けられた基準標示物２０６、２０７により実現されてもよいし（この場合は、ビデオ取り込みユニットと基準標示物との距離は既知である）、カメラの距離測定機能を利用することで実現されてもよい。

ここで、カメラを用いる距離測定は、以下の方法により実現されてもよい。

１）多視点画像の撮影：ビデオ取り込みユニット３０４、４０４のカメラのパラメータが既知である場合、装置内のセンサ（例えばジャイロスコープ）を用いてカメラの視点の変化及びビデオ取り込みユニットの変位を推定し、画像における画素の変位に対応する実際の空間的距離を推測してもよい。

２）ｄｅｆｏｃｕｓ（ｄｅｐｔｈｆｒｏｍｆｏｃｕｓ）の方法を用いて、焦点深度が異なる複数枚の画像を撮影し、複数枚の画像を用いて深度推定を行う。

現実シーンとビデオシーンとの方位のマッピングにより、現実シーンにおける方位の撮影されたビデオ画面に現れる対応位置を判断してもよい。具体的には、図２のシーンでは、３つの被撮影者２０１、２０２及び２０３の現実シーンにおけるビデオ取り込みユニット２０４に対する位置、話者２０１のオーディオ取り込みユニット２０５に対する方向、オーディオ取り込みユニット２０５とビデオ取り込みユニット２０４との相対的距離が既知である場合、話者（被撮影者１）のビデオ画面における位置を推定し、抽出された身分情報と抽出された顔情報との関連付けを行うことができる。

二、唇の動作のキャプチャ
上記の音源定位はオーディオとビデオとの空間的方位の関連付けに関するが、唇の動作のキャプチャの実施形態はビデオとオーディオとの時間的な関連付けに関する。

好ましくは、ビデオ取り込みユニット及びオーディオ取り込みユニットを同時に起動し、ビデオ及びオーディオをそれぞれ記憶する。

図５は共通の時間軸に基づいてビデオ画像とオーディオ波形とを関連付けて表示することを例示的に示す図である。

ｔ１からｔ２までの期間内にオーディオ信号が記録されたとオーディオ取り込みユニットにより検出された場合、該オーディオ信号から有効な（ノイズが除去された）身分情報を抽出し、顔情報入力装置２００、３００、４００は記録されたビデオ画面を取得し、ｔ１時点のフレーム５０２とその前の時点（例えば１００ｍｓ前の時点）のフレーム５０１とを比較する。比較により、フレーム５０２に左側に位置する被撮影者の唇の明らかな開き動作があると判断することができる。同様に、ｔ２時点のフレーム５０３とその後の時点（例えば１００ｍｓ後の時点）のフレーム５０４とを比較する。比較により、フレーム５０４に左側に位置する被撮影者の唇の開き状態が終了すると判断することができる。

時間がぴったり一致することにより、オーディオ取り込みユニットによりｔ１からｔ２までの期間内に取り込まれた身分情報が左側に位置する被撮影者に関連すると判断することができる。

上記の唇の動作をキャプチャすることで身分情報と顔情報とを関連付ける方法は、音源定位の実施形態を強化するために用いられてもよいし、音源定位の代替として単独で用いられてもよい。

身分情報と顔情報とを関連付けることで、同一のビデオ撮影期間内に複数の被撮影者について情報を入力することができ、顔情報の入力にかかる時間をさらに節約することができる。また、視覚障害者が人の多い会議又は社交の場で参加者の身分情報を迅速に把握し、知らない人の身分情報と対応する顔情報とを関連付けてデータベースに記憶するように補助することができる。データベースが構築されると、次の会話の際に、上述した定位技術により、話者のビデオ画面における位置を決定し、該話者に対して顔認識を行い、例えばスピーカを通じて視覚障害者に現在の話者の身分情報を提供することができるため、視覚障害者が正常の社交活動を行うように大きな便利を提供することができる。

さらに、多くの人が話しているシーンでは、撮影されたビデオの唇の動作により対応する意味を正確に解析し、オーディオ取り込みユニットにより異なる音源を分割し、ビデオの唇の動作の解析により取得された意味とオーディオ取り込みユニットにより分割された単一チャネルの音源情報とを比較して関連付けを行ってもよい。

図６は本開示の第２実施形態に係る音声から抽出された情報と顔情報とを関連付けてデータベースに入力することを示すフローチャートである。

図１に示す実施形態と異なって、第２実施形態は、音声から対応する情報を抽出する前に、抽出された顔情報がデータベースに記憶されているか否かを判断する。

ステップＳ６０１において、１つ又は複数の被撮影者に対してビデオ撮影を行い、ビデオ画面から被撮影者の顔情報を抽出し、被撮影者の音声を記録する。

ステップＳ６０２において、抽出された顔情報とデータベースに記憶された顔情報テンプレートとを比較する。

該顔情報がデータベースに記憶されていると判断された場合、ステップＳ６０５に進み、顔情報入力モードを終了する。

該顔情報がデータベースに記憶されていないと判断された場合、ステップＳ６０３に進み、ステップＳ６０１において記録された音声に対して意味解析を行い、音声から対応する情報を抽出する。

好ましくは、入力される姓名がデータベースに記憶されている（対応する顔情報が異なる）場合、入力される姓名を異ならせた後にデータベースに入力する。例えば、データベースに「王軍」が既に存在する場合、データベースに入力された「王軍」と区別するように「王軍２号」として入力する。これによって、後でユーザに伝える際に、異なる音声情報の番号により、異なる顔情報に対応することをユーザに知らせることができる。

ステップＳ６０４において、抽出された情報と顔情報とを関連付けてデータベースに入力する。上記の図１乃至図５を参照しながら説明された音声と顔との関連付けの方法は第２実施形態に適用されてもよい。

第２実施形態によれば、抽出された対応情報及び顔情報の入力の効率をさらに向上させることができる。

なお、本開示に係る抽出された身分を含む対応情報はオーディオ・フォーマットの音声情報から認識されたテキスト情報であるため、上記の情報は、音声情報ではなく、テキスト情報としてデータベースに記憶される。

図７は本開示の第３実施形態に係る顔情報と身分情報とを関連付けてデータベースに入力することを示すフローチャートである。

ステップＳ７０１において、１つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から被撮影者の顔情報を抽出する。

ステップＳ７０３において、被撮影者の撮影中の音声に対して意味解析を行い、音声は話者自身の身分情報を含んでもよい。

ステップＳ７０５において、抽出された顔情報がデータベースに存在するか否かを判断する。

関連する顔情報がデータベースに記憶されていないと判断された場合、ステップＳ７０７に進み、抽出された情報と顔情報とを関連付けてデータベースに記憶する。なお、上記の図１乃至図５を参照しながら説明された音声と顔との関連付け方法は第３実施形態に適用されてもよい。

関連する顔情報がデータベースに記憶されていると判断された場合、ステップＳ７１０に進み、抽出された情報がデータベースにおける既存の情報を補充できるか否かをさらに判断する。例えば、データベースに被撮影者の姓名が既に存在するが、抽出された情報には、年齢、出身地などその他の情報、又は話者の所在するシーンに関する新たな情報が含まれる。

データベースに補充可能な他の情報が存在しない場合、ステップＳ７１１に進み、顔情報入力モードを終了する。

データベースに補充可能な他の情報が存在する場合、ステップＳ７１２に進み、補充可能な情報をデータベースに補充的に記憶する。

第３実施形態によれば、より全面的な身分情報データベースをより効率に取得することができる。

図８を参照しながら本開示の方法又はプロセスを実現するためのコンピュータ装置２０００を説明し、コンピュータ装置２０００は本開示の各態様のハードウェア装置に適用可能な例である。コンピュータ装置２０００は、処理及び／又は計算を実行する任意の機器であってもよい。特に、参加者の多い会議又は社交の場では、コンピュータ装置２０００は、ウェアラブルデバイスであってもよく、好ましくは、スマート眼鏡であってもよい。また、コンピュータ装置２０００は、タブレットコンピュータ、スマートフォン又はその任意の組み合わせであってもよい。本開示に係る顔情報を入力するための装置の全て又は少なくとも一部は、コンピュータ装置２０００、又は類似の装置若しくはシステムにより実現されてもよい。

コンピュータ装置２０００は、（場合によっては１つ又は複数のインタフェースを介して）バス２００２に接続され、或いはバス２００２と通信する素子を含んでもよい。例えば、コンピュータ装置２０００は、バス２００２、１つ又は複数のプロセッサ２００４、１つ又は複数の入力装置２００６、及び１つ又は複数の出力装置２００８を含んでもよい。１つ又は複数のプロセッサ２００４は、任意のタイプのプロセッサであってもよく、１つ又は複数の汎用プロセッサ及び／又は１つ又は複数の専用プロセッサ（例えば特定処理チップ）を含んでもよい。入力装置２００６は、コンピュータ装置２０００に情報を入力することができる任意のタイプの装置であってもよく、カメラを含んでもよいが、これに限定されない。出力装置２００８は、情報を提示することができる任意のタイプの装置であってもよく、スピーカ、オーディオ出力端末、バイブレータ、及び／又はディスプレイを含んでもよいが、これに限定されない。コンピュータ装置２０００は、非一時的な記憶装置２０１０を含み、或いは非一時的な記憶装置２０１０に接続されてもよい。該非一時的な記憶装置２０１０は、データを記憶可能な非一時的な任意の記憶装置であってもよく、ディスクドライブ、光記憶装置、固体メモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ若しくは他の任意の磁気媒体、光ディスク若しくは他の任意の光学媒体、ＲＯＭ（読み出し専用メモリ）、ＲＡＭ（ランダムアクセスメモリ）、キャッシュメモリ及び／又は他の任意のメモリチップ若しくはカートリッジ、及び／又はコンピュータがデータ、命令及び／又はコードを読み取ることができる他の任意の媒体であってもよいが、これらに限定されない。非一時的な記憶装置２０１０はインタフェースから取り外すことができる。非一時的な記憶装置２０１０は、上記の方法及びステップを実現するためのデータ／プログラム（命令を含む）／コードを有してもよい。コンピュータ装置２０００は、通信装置２０１２をさらに含んでもよい。通信装置２０１２は、外部装置及び／又はネットワークと通信を行うことが可能な任意のタイプの装置又はシステムであってもよく、無線通信装置、及び／又はチップセット、例えばブルートゥース（登録商標）装置、１３０２．１１デバイス、ＷｉＦｉデバイス、ＷｉＭａｘデバイス、セルラ通信デバイス及び／又は類似のデバイスであってもよいが、これらに限定されない。

コンピュータ装置２０００は、動作用メモリ２０１４をさらに含んでもよく、該動作用メモリ２０１４は、プロセッサ２００４の動作のためのプログラム（命令を含む）及び／又はデータを記憶可能な任意の動作用メモリであってもよく、ランダムアクセスメモリ及び／又は読み出し専用メモリを含んでもよいが、これらに限定されない。

動作用メモリ２０１４にソフトウェア要素（プログラム）があってもよく、該ソフトウェア要素は、オペレーティングシステム２０１６、１つ又は複数のアプリケーション２０１８、ドライバプログラム及び／又は他のデータ及びコードを含んでもよいが、これらに限定されない。上記の方法及びステップを実行するための命令は、１つ又は複数のアプリケーション２０１８に含まれてもよい。

図８に示すコンピュータ装置２０００が本開示の実施形態に適用される時に、メモリ２０１４は、図１、図６及び図７に示すフローチャートのステップを実行するためのプログラムコード、撮影されたビデオ及び／又はオーディオのファイルを記憶してもよい。ここで、アプリケーション２０１８は、第三者により提供される顔認識アプリケーション、音声認識アプリケーション、カメラ距離測位アプリケーションなどを含んでもよい。入力装置２００６は、例えばカメラ及びマイクロホンなどのビデオ及びオーディオを取得するためのセンサであってもよい。記憶装置２０１０は、例えば関連付けられた身分情報と顔情報をデータベースに書き込むことができるようにデータベースを記憶する。プロセッサ２００４は、動作用メモリ２０１４におけるプログラムコードにより本開示の各態様の方法のステップを実行する。

なお、コンピュータ装置２０００の構成要素はネットワークに分散されてもよい。例えば、プロセッサを用いて処理を実行し、該プロセッサから離れた他のプロセッサを用いて他の処理を実行してもよい。コンピュータシステム２０００の他の構成要素も同様に分散さてもよい。従って、コンピュータ装置２０００は、複数の場所で処理を実行する分散コンピュータシステムとして解釈されてもよい。

図面を参照しながら本開示の実施形態又は実施例を説明したが、上述した方法、システム及び装置は例示的な実施形態又は実施例に過ぎず、本発明の範囲はこれらの実施形態又は実施例に制限されず、添付の特許請求の範囲及びその均等物によってのみ限定される。実施形態又は実施例における各要素は、省略されてもよく、それらと同等の要素によって置き換えられてもよい。また、本開示に記載されているものとは異なる順序でステップを実行してもよい。さらに、実施形態又は実施例の各要素を様々な方法で組み合わせてもよい。なお、技術の進化に伴い、本明細書で説明されている要素は本開示の後に現れる同等の要素によって置き換えられてもよい。

Claims

データベースに顔情報を入力する方法であって、
１つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から前記１つ又は複数の被撮影者の顔情報を抽出するステップと、
前記１つ又は複数の被撮影者のうち少なくとも１つの被撮影者の撮影中の音声を記録するステップと、
記録された音声に対して意味解析を行い、該音声から対応する情報を抽出するステップと、
抽出された情報と該情報を話した被撮影者の顔情報とを関連付けて前記データベースに入力するステップと、を含み、
前記抽出された情報と該情報を話した被撮影者の顔情報とを関連付けるステップは、
音源定位により前記情報を話した被撮影者の現実シーンにおける方位を決定するステップと、
方位について前記現実シーンとビデオシーンとのマッピングを行うステップと、
前記情報を話した被撮影者の現実シーンにおける方位により、該被撮影者のビデオシーンにおける位置を決定するステップと、を含む、方法。
前記顔情報は、前記１つ又は複数の被撮影者を認識するために使用できる顔特徴情報を含む、請求項１に記載の方法。
前記少なくとも１つの被撮影者の音声は、話者自身の身分情報を含み、
前記抽出された対応する情報は、前記話者自身の身分情報を含む、請求項１又は２に記載の方法。
前記身分情報は姓名を含む、請求項３に記載の方法。
前記少なくとも１つの被撮影者の音声は、話者自身の所在するシーンに関する情報を含み、
前記抽出された対応する情報は、前記話者自身の所在するシーンに関する情報を含む、請求項１又は２に記載の方法。
抽出された情報と該情報を話した被撮影者の顔情報とを関連付けるステップは、
撮影中にビデオ画面に基づいて前記１つ又は複数の被撮影者の唇の動きを解析するステップ、を含む、請求項１に記載の方法。
前記唇の動きの開始時間と、前記音声が記録される開始時間とを比較する、請求項６に記載の方法。
データベースに前記少なくとも１つの被撮影者の顔情報が記憶されているか否かを検出し、データベースに前記少なくとも１つの被撮影者の顔情報が存在しない場合、前記記録された音声に対して解析を行う、請求項１に記載の方法。
データベースに前記少なくとも１つの被撮影者の顔情報が記憶されているか否かを検出し、データベースに前記少なくとも１つの被撮影者の顔情報が記憶されている場合、前記抽出された情報を用いて、データベースに記憶された前記少なくとも１つの被撮影者の顔情報に関連付けられた情報を補充する、請求項１に記載の方法。
前記情報はテキスト情報としてデータベースに記憶される、請求項１に記載の方法。
データベースに顔情報を入力するプロセッサチップ回路であって、
請求項１乃至１０の何れかに記載の方法のステップを実行する回路部、を含む、プロセッサチップ回路。
１つ又は複数の被撮影者に対してビデオ撮影を行うビデオ・センサと、
前記１つ又は複数の被撮影者のうち少なくとも１つの被撮影者の撮影中の音声を記録するオーディオ・センサと、
対応する被撮影者の情報と顔情報とを関連付けてデータベースに入力する請求項１１に記載のプロセッサチップ回路と、を含む、電子機器。
前記電子機器はウェアラブルデバイスとして実現され、
前記ウェアラブルデバイスは、認識された顔に対応する情報がデータベースに存在する場合、情報の内容を音声で再生するスピーカ、を含む、請求項１２に記載の電子機器。
命令を含むプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記命令が電子機器のプロセッサにより実行される際に、前記電子機器に請求項１乃至１０の何れかに記載の方法を実行させる、記憶媒体。