JP6986187B2

JP6986187B2 - 人物識別方法、装置、電子デバイス、記憶媒体、及びプログラム

Info

Publication number: JP6986187B2
Application number: JP2020021940A
Authority: JP
Inventors: レイレイ、ガオ
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2019-08-16
Filing date: 2020-02-12
Publication date: 2021-12-22
Anticipated expiration: 2040-02-12
Also published as: CN110458130A; US20210049354A1; CN110458130B; JP2021034003A

Description

本願は、画像識別技術分野に関し、特に、人物識別方法、装置、電子デバイス、記憶媒体、及びプログラムに関する。

ユーザは、ビデオを見ている間に、ビデオに現れた人物の情報を調べたい場合がある。しかし、調べるリクエストをユーザが出すと、ビデオ画像に人物の正面顔を含むビデオフレームが既に再生済みになり、現在のビデオフレームには人物の横顔または背中だけがあり、または現在のビデオフレームに顔がはっきりと映されておらず、顔認識の技術を利用しても人物の身分を特定することができない場合がある。この場合は通常、識別に失敗することになる。ユーザは、人物の正面顔が写るビデオフレームを一時停止したり、人物の正面顔を写る時点を捉えたりすることのみ識別率と満足度を向上させることができ、ユーザにとってユーザエクスペリエンスが良くないという問題があった。

本願は、従来技術における上記の１つ又は複数の技術課題を解決するための人物識別方法、装置、電子デバイスおよび記憶媒体を提供する。

本願の第１態様は、人物識別方法を提供する。当該方法は、
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信することと、
現在のビデオフレームにおける人体的特徴を抽出することと、
現在のビデオフレームにおける人体的特徴と、知識ベースに保存されたビデオストリーム中の第１のビデオフレームにおける人体的特徴とをマッチングさせることと、
マッチングに成功した場合に、第１のビデオフレームにおける第１の人物ラベルを前記人物識別リクエストの識別結果とすることと、を含む。
本実施形態によれば、人物識別リクエストを送信する際に、ユーザは人物の正面顔が写るビデオフレームを捕捉する必要がなく、現在のビデオフレームにおける人体的特徴からビデオに写された人物の情報を調べることができ、便利な照会サービスを提供することができ、ユーザの好感度を高め、ユーザエクスペリエンスを良好にすることができる。

１つの実施形態において、当該方法は、
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する前に、
ビデオストリーム中の、人物の顔がその画像に含まれている第２のビデオフレームに対して顔認識をし、第２のビデオフレームにおける第２の人物ラベルを得ることと、
第２のビデオフレームにおける人体的特徴と、人物の顔がその画像に含まれていない第１のビデオフレームにおける人体的特徴と、を抽出することと、
第２のビデオフレームにおける人体的特徴と第１のビデオフレームにおける人体的特徴とのマッチングが成功した場合に、第２の人物ラベルを第１のビデオフレームにおける第１の人物ラベルとすることと、
第１のビデオフレームおよびその第１の人物ラベルを知識ベースに保存することと、を含む。
本実施形態によれば、ビデオストリームを分析することにより知識ベースを改善し、人物識別の精度を高めることができる。

１つの実施形態において、ビデオストリーム中の第２のビデオフレームに対して顔認識をする前に、
少なくとも１つの第１のビデオフレーム及び少なくとも１つの第２のビデオフレームを、ビデオストリームから切り出すこと、をさらに含む。
本実施形態によれば、顔特徴と人体的特徴とが対応的な関係をもつ、少なくとも１つの時間枠内の連続的なビデオフレームを予め切り出して、効率的な識別効果を生成することを確保できる。

１つの実施形態において、識別リクエストには、現在のビデオフレームにおける画像を含み、
現在のビデオフレームにおける画像は、前記ビデオストリームの再生側で、キャプチャー又は写真撮影により得られること、をさらに含む。
本実施形態によれば、ビデオストリームの再生側で人物識別リクエストを送信する際、人物識別リクエストには現在のビデオフレームにおける画像を含む必要があり、キャプチャーまたは写真撮影の手段により実際の画像データを取得することを確保できる。

本願の第２態様は、人物識別装置を提供する。当該人物識別装置は、
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する受信ユニットと、
現在のビデオフレームにおける人体的特徴を抽出する抽出ユニットと、
現在のビデオフレームにおける人体的特徴と、知識ベースに保存された前記ビデオストリーム中の第１のビデオフレームにおける人体的特徴とをマッチングさせるマッチングユニットと、
マッチングに成功した場合に、第１のビデオフレームにおける第１の人物ラベルを人物識別リクエストの識別結果とする識別ユニットと、を含む。

１つの実施形態において、当該人物識別装置は、知識ベース構築ユニットをさらに含み、
知識ベース構築ユニットは、
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する前に、ビデオストリーム中の、人物の顔がその画像に含まれている第２のビデオフレームに対して顔認識をし、第２のビデオフレームにおける第２の人物ラベルを得る顔認識サブユニットと、
第２のビデオフレームにおける人体的特徴と、人物の顔がその画像に含まれていない第１のビデオフレームにおける人体的特徴と、を抽出する抽出サブユニットと、
第２のビデオフレームにおける人体的特徴と第１のビデオフレームにおける人体的特徴とのマッチングが成功した場合に、第２の人物ラベルを第１のビデオフレームにおける第１の人物ラベルとするラベルサブユニットと、
第１のビデオフレームおよびその第１の人物ラベルを知識ベースに保存する保存サブユニットと、
を含む。

１つの実施形態において、知識ベース構築ユニットは、切り出しサブユニット、をさらに含み、
切り出しサブユニットは、
ビデオストリーム中の第２のビデオフレームに対して顔認識をする前に、
少なくとも１つの第１のビデオフレーム及び少なくとも１つの第２のビデオフレームを、ビデオストリームから切り出す。

本願の第３態様は、電子デバイスを提供する。当該電子デバイスは、
１つ又は複数のプロセッサと、
１つ又は複数のプロセッサに通信可能に接続される記憶装置とを含み、
記憶装置は、１つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、
１つ又は複数のプロセッサが、１つ又は複数のコマンドを実行する場合、いずれか１つの人物識別方法を実行させる。

本願の第４態様は、コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体を提供する。当該コンピュータコマンドがいずれか１つの実施形態により提供された人物識別方法を実行させるために用いられる。

上記の実施形態のうちの少なくとも１つの実施形態は、下記のメリット及び有益的な効果を有する。
本願によれば、人物識別リクエストを送信する際に、ユーザは人物の正面顔が写るビデオフレームを捕捉する必要がなく、現在のビデオフレームにおける人体的特徴からビデオに写された人物の情報を調べることができ、便利な照会サービスを提供することができ、ユーザの好感度を高め、ユーザエクスペリエンスを良好にすることができる。また、本願によれば、ビデオストリームを分析することにより知識ベースを改善し、人物識別の精度を高めることができる。

上記の選択可能な実施形態によるその他の効果は、具体的な実施形態とあわせて後述する。

添付図面は本開示の理解を促すためのものであり、いかなる限定をも目的としない。
本願の一実施形態に係る人物識別方法の模式図である。本願の一実施形態に係る人物識別方法の模式図である。本願の一実施形態に係る人物識別方法を例示的に示すフローチャートである。本願の一実施形態に係る人物識別装置の構成模式図である。本願の一実施形態に係る人物識別装置の構成模式図である。本願の一実施形態に係る人物識別装置の構成模式図である。本願の一実施形態に係る人物識別方法を実現させるための電子デバイスのブロック図である。

以下、図面を参照しながら本願の例示的な実施形態を説明するが、本願の実施形態の様々な詳細が理解を容易にするために含まれており、それらは単なる例示的と考えられるべきである。したがって、当業者は、本願の範囲および旨から逸脱することなく、本願明細書に記載された実施形態に対して様々な変更および修正を行うことができることを理解すべきである。同様に、以下の説明では、公知な機能および構造についての説明は、明瞭かつ簡明のために省略される。

図１は本願の一実施形態に係る人物識別方法の模式図である。図１に示すように、人物識別方法はを以下のステップＳ１１０〜Ｓ１４０を含む。
Ｓ１１０において、ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する。
Ｓ１２０において、現在のビデオフレームにおける人体的特徴を抽出する。
Ｓ１３０において、現在のビデオフレームにおける人体的特徴と、知識ベースに保存されたビデオストリーム中の第１のビデオフレームにおける人体的特徴と、をマッチングさせる。
Ｓ１４０において、マッチングに成功した場合に、第１のビデオフレームにおける第１の人物ラベルを前記人物識別リクエストの識別結果とする。
本実施形態において、ユーザは、ビデオを見ている間、ビデオの中の人物情報を調べたい場合がある。例えば、ユーザは、現在のビデオフレームでこの役割を演じている俳優が誰なのかを調べたく、さらに、この俳優に関する情報を調べたくなることがある。この場合、ユーザは、ビデオを視聴する際に、携帯電話、タブレットコンピュータ、ノートパソコンなどのビデオの再生端を介して人物識別リクエストを発信してもよい。人物識別リクエストには、ビデオストリーム中の現在のビデオフレームの情報が含まれてもよい。例えば、人物識別リクエストには、ビデオストリーム中の現在のビデオフレームにおける画像が含まれてもよい。ユーザは、ビデオストリームの再生端を介して、人物識別リクエストをサーバに送信する。Ｓ１１０において、サーバは現在のビデオフレームの情報を含む人物識別リクエストを受信する。

現在のビデオフレームにおける画像において、ビデオ中の人物の顔が含まれていることがある。この場合、現在のビデオフレームに対して、顔認識技術により人物を識別してもよい。一方で、現在のビデオフレームにおいて、人物の横顔か背中だけが含まれたり、あるいは顔がはっきりと映されていなかったりすることがあるので、顔認識技術を利用しても人物を正確に識別することができない場合がある。Ｓ１２０において、現在のビデオフレームにおける人体的特徴を抽出し、人体的特徴を用いて人物を識別することができる。

通常、ビデオストリーム中の一部のビデオフレームにおける画像では、人物の正面顔を含み且つ人物の顔がはっきりと映されている。このようなビデオフレームを第２のビデオフレームと称する。一方で、ビデオストリーム中のその他のビデオフレームにおける画像では、人物の正面顔を含まず、あるいは人物の顔がはっきりと映されていない。このようなビデオフレームを第１のビデオフレームと称する。

図２は本願の一実施形態に係る人物識別方法の模式図である。図２に示すように、一実施形態において、図１中のステップＳ１１０では、ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する前に、以下のステップＳ２１０〜Ｓ２４０を含む。
Ｓ２１０において、ビデオストリーム中の、人物の顔がその画像に含まれている第２のビデオフレームに対して顔認識をし、第２のビデオフレームにおける第２の人物ラベルを得る。
Ｓ２２０において、第２のビデオフレームにおける人体的特徴と、人物の顔がその画像に含まれていない第１のビデオフレームにおける人体的特徴と、を抽出する。
Ｓ２３０において、第２のビデオフレームにおける人体的特徴と第１のビデオフレームにおける人体的特徴とのマッチングが成功した場合に、第２の人物ラベルを第１のビデオフレームにおける第１の人物ラベルとする。
Ｓ２４０において、第１のビデオフレームおよびその第１の人物ラベルを知識ベースに保存する。

第１のビデオフレームにおける人物を識別するために、予めビデオストリーム中の第２のビデオフレームに対して顔認識をし、第２の人物ラベルを得てもよく、第１のビデオフレームにおける人体的特徴と第２のビデオフレームにおける人体的特徴とを抽出してもよい。たとえば、身長、外形、服飾などを抽出してもよい。第１のビデオフレームにおける人体的特徴と第２のビデオフレームにおける人体特徴とのマッチングが成功した場合に、得られた第２のビデオフレームにおける第２の人物ラベルは第１のビデオフレームに付けられる。そして、得られた第１のビデオフレームにおける人体的特徴及び対応する人物ラベルを知識ベースに保存する。

本願の実施形態においては、ビデオフレームに対応する人物ラベルを、知識ベースを用いて保存することには、明らかな優位性がある。知識ベースの構造は、その知識を効果的にアクセスしたり、検索したりすることができ、また、ベース内の知識を簡単に変更したり、編集したりすることができ、さらに、ベース内の知識の一致性と完備性に対して検証することができる。知識ベースの構築において、既存の情報と知識を大規模に集めて整理し、一定の方法で分類して保存し、相応の検索手段を提供する。例えば、上記の方法では、第２のビデオフレームに対して顔認識をし、第１のビデオフレームにおける人体的特徴と第２のビデオフレームにおける人体的特徴とのマッチングによって、第１のビデオフレームに対応する人物識別が得られる。このような処理を経て、多くの暗示的な知識が符号化され、デジタル化され、情報と知識がもとの混乱状態から秩序化され、もって情報や知識の検索が便利になり、効果的に利用されることができる。知識と情報は秩序化が実現され、それらを探したり、利用したりするための時間は大幅に短縮され、知識ベースに基づくサービスシステムを利用した照会サービスのスピードを大いに加速させることができる。

一実施形態において、ビデオストリームを分析することにより知識ベースを改善し、人物識別の精度を高めることができる。
前述したように、知識ベースには、第１のビデオフレームにおける人体的特徴およびその第１の人物ラベルをすでに保存しているので、ステップＳ１３０において、現在のビデオフレームにおける人体的特徴と、知識ベースに保存されたビデオストリーム中の第１のビデオフレームにおける人体的特徴とをマッチングさせる。マッチングに成功した場合、ユーザが現在再生中の、現在のビデオフレームにおける画像中の人物と、知識ベースに保存された第１のビデオフレームにおける人物とが同一の人物であることは示されている。ステップＳ１４０において、第１のビデオフレームにおける第１の人物ラベルを人物識別リクエストの識別結果とする。
この実施形態によれば、人物識別リクエストを送信する際に、ユーザは人物の正面顔が写るビデオフレームを捕捉する必要がなく、現在のビデオフレームにおける人体的特徴からビデオに写された人物の情報を調べることができ、便利な照会サービスを提供することができ、ユーザの好感度を高め、ユーザエクスペリエンスを向上させることができる。

一実施形態において、ビデオストリーム中の第２のビデオフレームに対して顔認識をする前に、
少なくとも１つの第１のビデオフレーム及び少なくとも１つの第２のビデオフレームを、ビデオストリームから切り出すこと、をさらに含む。
この実施形態によれば、顔特徴と人体的特徴とが対応的な関係をもつ、少なくとも１つの時間枠内の連続的なビデオフレームを予め切り出して、効率的な識別効果を生成することを確保できる。

一実施形態において、ビデオベースから一部のビデオフレームを事前に抽出して、人物識別のためのモデルをトレーニングしてもよい。トレーニングされたモデルで生成された第１のビデオフレームにおける人体的特徴と対応する人物ラベルは、知識ベースに保存される。例えば、ビデオストリームから画像グループを切り取ってモデルへのトレーニングを行うことができる。ビデオストリームの中で、人の顔の特徴と人体的特徴との対応関係はずっと存在しているのではなく、通常は比較的短い時間枠の中にて存在している。したがって、モデルへのトレーニングのために、少なくとも１つの時間枠内の連続ビデオフレームを切り取ることができる。

図３は本願の一実施形態に係る人物識別方法を例示的に示すフローチャートである。図３に示すように、音声モジュールは、ユーザの音声情報を受信する。例えば、ユーザーは「この人は誰ですか？」や、「このスターは誰ですか？」を聞くとする。ユーザの音声情報を受信した後、音声モジュールは音声情報をテキスト情報に変換し、テキスト情報を意図解析モジュールに送信する。意図解析モジュールは、テキスト情報に対して語意の理解を行い、ユーザの意図がビデオ中のスターの情報を調べたいであると認識する。次に、意図解析モジュールは、ユーザーのリクエストを検索モジュールに送信する。図３に示す例では、音声モジュール、意図解析モジュール、ビデオ画像取得モジュールは、ビデオストリームの再生端に設定してもよく、検索モジュールはサーバ端に設定してもよい。
上記の例では、ユーザの意図を識別した後、ビデオ画像取得モジュールは、ユーザの意図に従ってビデオ再生端のキャプチャーまたは写真撮影を制御することができる。例えば、音声情報「この人は誰ですか？」から、ユーザがビデオ中のスターの情報を調べたいというユーザの意図を識別する。すると、現在のビデオフレームにおける画像をキャプチャーする。一実施形態では、人物識別方法は、現在のビデオフレームにおける画像が識別リクエストに含まれ、現在のビデオフレームにおける画像がビデオストリームの再生端でキャプチャーまたは写真撮影により取得される。ユーザの意図を識別した後、現在のビデオフレームにおける画像に対して、キャプチャーまたは写真撮影をトリガし、現在のビデオフレームにおける画像を持つ人物識別リクエストをサーバに送信する。
ビデオストリームの再生側で人物識別リクエストを送信する際、人物識別リクエストには現在のビデオフレームにおける画像を含む必要があり、キャプチャーまたは写真撮影の手段により実際の画像データを取得することを確保できる。

検索モジュールは、ユーザに検索サービスを提供するために使用される。このモジュールは、ビデオストリームの再生端からの人物識別リクエストに伝送されている現在のビデオフレームにおける画像中の、顔特徴、人体特徴などを含む情報を抽出する。これらの特徴を入力データとして使用し、人物識別のためのモデルに予測結果、すなわち現在のビデオフレームにおける人物ラベルをリクエストする。そして、このラベルに基づき、知識ベースから人物に関する情報を取得し、一定のフォーマットに従ってビデオストリームの再生端に送信する。図３に示すように、検索モジュールは、特徴抽出モジュール、人物本体識別モジュールを含む。
特徴抽出モジュールは、現在のビデオフレームにおける画像から、例えば、身長、体型、服飾、随時携帯するカバン、携帯電話、その他携帯する道具やツールなどの人体的特徴を抽出するために使用される。
知識ベースには、人体的特徴および、それに対応する人物ラベル、人物の関連情報が格納されている。しばらくの間、人物の服、造形（外形特徴）が変化しないので、人の顔情報がない場合には、人体的特徴に応じて人物認識が可能である。
人物本体識別モジュールの機能は、人物識別のためのモデルをトレーニングすることと、トレーニングされたモデルを用いて人物認識を行うこととを含む。まず顔より人物の情報を識別し、人物情報を人体的特徴と関連付けることで、顔がはっきりと映されていない場合や人物の背中の場合にも人物情報を識別することができる。具体的なトレーニングおよび使用のプロセスは以下の通りである。

ａ．ビデオフレームにおける人物に対して顔認識をし、人物の顔特徴やスター紹介などの情報をパッケージ化し、顔の指紋を生成する。顔の指紋を知識庫に入れる。スター紹介にはスターの経歴や芸能生活などのユーザーが関心を持っている情報が含まれています。
ｂ．人物識別技術により人体的特徴を抽出し、人体的特徴を顔の特徴と関連させ、または人体的特徴を顔・指紋と関連させる。人物を識別する時、人体的特徴と顔の特徴とを相互に補って識別率を高めることができる。例えば、顔情報がない場合は、人体的特徴だけから人物認識を行う。
サーバ端で人物識別が完了したら、人物識別結果および人物に関する情報をビデオストリームの再生端に送信する。ビデオストリームの再生端に結果を表示する。一例では、識別結果および人物に関する情報をサーバが返すと、識別結果および人物関連情報をアピールまたはプレゼンテンションするための結果表示モジュールをビデオストリームの再生端に内蔵することができる。

図４は本願の一実施形態に係る人物識別装置の構成模式図である。図４に示すように、本実施形態に係る人物識別装置は、
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する受信ユニット１００と、
現在のビデオフレームにおける人体的特徴を抽出する抽出ユニット２００と、
現在のビデオフレームにおける人体的特徴と、知識ベースに保存された前記ビデオストリーム中の第１のビデオフレームにおける人体的特徴とをマッチングさせるマッチングユニット３００と、
マッチングに成功した場合に、第１のビデオフレームにおける第１の人物ラベルを人物識別リクエストの識別結果とする識別ユニット４００と、を含む１００。

図５は本願の一実施形態に係る人物識別装置の構成模式図である。図５に示すように、本実施形態に係る上述の人物識別装置は、知識ベース構築ユニット５００をさらに含み、
知識ベース構築ユニット５００は、
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する前に、ビデオストリーム中の、人物の顔がその画像に含まれている第２のビデオフレームに対して顔認識をし、第２のビデオフレームにおける第２の人物ラベルを得る顔認識サブユニット５１０と、
第２のビデオフレームにおける人体的特徴と、人物の顔がその画像に含まれていない第１のビデオフレームにおける人体的特徴と、を抽出する抽出サブユニット５２０と、
第２のビデオフレームにおける人体的特徴と第１のビデオフレームにおける人体的特徴とのマッチングが成功した場合に、第２の人物ラベルを第１のビデオフレームにおける第１の人物ラベルとするラベルサブユニット５３０と、
第１のビデオフレームおよびその第１の人物ラベルを知識ベースに保存する保存サブユニット５４０と、
を含む。

図６は本願の一実施形態に係る人物識別装置の構成模式図である。図６に示すように、本実施形態に係る上述の知識ベース構築ユニット５００は、切り出しサブユニット５０５、をさらに含み、
切り出しサブユニット５０５は、
ビデオストリーム中の第２のビデオフレームに対して顔認識をする前に、
少なくとも１つの第１のビデオフレーム及び少なくとも１つの第２のビデオフレームを、ビデオストリームから切り出す。

本願の実施形態に係る人物識別装置の各ユニットの機能は、上述の方法に対応する説明を参照してもよく、ここでは説明を省略する。

本願に係る実施形態では、電子デバイスと非一過性のコンピュータ可読取記録媒体をさらに提供する。
図７に示すように、本願の一実施形態の人物識別方法に係る電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本願で説明されたものおよび／または要求される本願の実施を制限することは意図されない。
図７に示すように、当該電子デバイスは、１つ又は複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス（例えば、インターフェースに接続された表示デバイス）にグラフィックユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ，ＧＵＩ）を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作（例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして）を提供する。図７においてプロセッサ７０１を例とする。

メモリ７０２は、本願にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本願で提供される人物識別方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行されることができる命令を記憶する。本願における非一過性のコンピュータ可読記憶媒体は、本願で提供された人物識別方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ７０２は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよく、本願の実施形態における人物識別方法に対応するプログラム命令／モジュール（たとえば、図４に示される受信ユニット１００、抽出ユニット２００、マッチングユニット３００、識別ユニット４００、図５に示される知識ベース構築ユニット５００、顔認識サブユニット５１０、抽出サブユニット５２０、ラベルサブユニット５３０、保存サブユニット５４０、図６に示される切り出しサブユニット５０５）のようなものである。プロセッサ７０１は、メモリ７０２に記憶されている非一過性のソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、すなわち上述した方法に関する実施形態に係る人物識別方法を実行する。

メモリ７０２は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、人物識別方法に係る電子デバイスの使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ７０２はオプションとして、プロセッサ７０１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して人物識別方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。

人物識別方法に係る電子デバイスは、入力装置７０３と出力装置７０４とをさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、および出力装置７０４は、バスまたは他の方法で接続されてもよく、図８ではバスを介して接続されている。

入力装置７０３は、入力された数字または文字を受信し、人物識別方法に係る電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置８０４は、表示装置、補助照明装置（例えばＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。この表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＬＥＤ）ディスプレイおよびプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本願におけるシステムおよび技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実装されてもよく、この１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、および／または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置より、データと命令を受信し、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に、データと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサのマシン命令を含み、プロセス指向および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本願で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのイントラクションを提供するために、本願で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、入力をコンピュータに提供するためのキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本願で説明されているシステムおよび技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、または中間部構成要素を含む計算システム（例えば、アプリケーションサーバ）、または、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本願で説明されたシステムおよび技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ）に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ，ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。

本願の実施形態に係る発明によれば、人物識別リクエストを送信する際に、ユーザは人物の正面顔が写るビデオフレームを捕捉する必要がなく、現在のビデオフレームにおける人体的特徴からビデオに写された人物の情報を調べることができ、便利な照会サービスを提供することができ、ユーザの好感度を高め、ユーザエクスペリエンスを良好にすることができる。また、本願の実施形態に係る発明によれば、ビデオストリームを分析することにより知識ベースを改善し、人物識別の精度を高めることができる。

上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本願で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本願で開示された技術案が所望する結果を実現することができる限り、本願ではこれに限定されない。

上記具体的な実施形態は、本願の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本願の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本願の保護範囲に含まれるべきである。

Claims

ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信することと、
前記現在のビデオフレームにおける人体的特徴を抽出することと、
前記現在のビデオフレームにおける人体的特徴と、知識ベースに保存された前記ビデオストリーム中の第１のビデオフレームにおける人体的特徴とをマッチングさせることと、
マッチングに成功した場合に、前記第１のビデオフレームにおける第１の人物ラベルを前記人物識別リクエストの識別結果とすることと、を含み、
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する前に、
前記ビデオストリーム中の、人物の顔がその画像に含まれている第２のビデオフレームに対して顔認識をし、前記第２のビデオフレームにおける第２の人物ラベルを得ることと、
前記第２のビデオフレームにおける人体的特徴と、人物の顔がその画像に含まれていない前記第１のビデオフレームにおける人体的特徴と、を抽出することと、
前記第２のビデオフレームにおける人体的特徴と前記第１のビデオフレームにおける人体的特徴とのマッチングが成功した場合に、前記第２の人物ラベルを前記第１のビデオフレームにおける第１の人物ラベルとすることと、
前記第１のビデオフレームおよびその第１の人物ラベルを前記知識ベースに保存することと、をさらに含む、
ことを特徴とする人物識別方法。
前記ビデオストリーム中の第２のビデオフレームに対して顔認識をする前に、
少なくとも１つの前記第１のビデオフレーム及び少なくとも１つの前記第２のビデオフレームを、前記ビデオストリームから切り出すこと、をさらに含む、
ことを特徴とする請求項１に記載の人物識別方法。
前記識別リクエストには、前記現在のビデオフレームにおける画像を含み、
前記現在のビデオフレームにおける画像は、前記ビデオストリームの再生側で、キャプチャー又は写真撮影により得られること、をさらに含む、
ことを特徴とする請求項１又は２に記載の人物識別方法。
ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する受信ユニットと、
前記現在のビデオフレームにおける人体的特徴を抽出する抽出ユニットと、
前記現在のビデオフレームにおける人体的特徴と、知識ベースに保存された前記ビデオストリーム中の第１のビデオフレームにおける人体的特徴とをマッチングさせるマッチングユニットと、
マッチングに成功した場合に、前記第１のビデオフレームにおける第１の人物ラベルを前記人物識別リクエストの識別結果とする識別ユニットと、を含み、
知識ベース構築ユニットをさらに含み、
前記知識ベース構築ユニットは、
前記ビデオストリーム中の現在のビデオフレームに対応する人物識別リクエストを受信する前に、前記ビデオストリーム中の、人物の顔がその画像に含まれている第２のビデオフレームに対して顔認識をし、前記第２のビデオフレームにおける第２の人物ラベルを得る顔認識サブユニットと、
前記第２のビデオフレームにおける人体的特徴と、人物の顔がその画像に含まれていない前記第１のビデオフレームにおける人体的特徴と、を抽出する抽出サブユニットと、
前記第２のビデオフレームにおける人体的特徴と前記第１のビデオフレームにおける人体的特徴とのマッチングが成功した場合に、前記第２の人物ラベルを前記第１のビデオフレームにおける第１の人物ラベルとするラベルサブユニットと、
前記第１のビデオフレームおよびその第１の人物ラベルを知識ベースに保存する保存サブユニットと、を含む、
ことを特徴とする人物識別装置。
前記知識ベース構築ユニットは、切り出しサブユニット、をさらに含み、
前記切り出しサブユニットは、
前記ビデオストリーム中の第２のビデオフレームに対して顔認識をする前に、少なくとも１つの前記第１のビデオフレーム及び少なくとも１つの前記第２のビデオフレームを、前記ビデオストリームから切り出す、
ことを特徴とする請求項４に記載の人物識別装置。
前記識別リクエストには、前記現在のビデオフレームにおける画像を含み、
前記現在のビデオフレームにおける画像は、前記ビデオストリームの再生側で、キャプチャー又は写真撮影により得られる、
ことを特徴とする請求項４又は５に記載の人物識別装置。
１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサに通信可能に接続される記憶装置とを含み、
前記記憶装置には、前記１つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、
前記１つ又は複数のプロセッサが、前記１つ又は複数のコマンドを実行する場合、請求項１〜３のいずれか１項に記載の人物識別方法を実行させる、
ことを特徴とする電子デバイス。
請求項１〜３のいずれか１項に記載の人物識別方法をコンピュータに実行させるためのコンピュータコマンドを記憶した非一過性のコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１〜３のいずれか１項に記載の人物識別方法を実現することを特徴とするプログラム。