JP6423872B2

JP6423872B2 - ビデオ分類方法および装置

Info

Publication number: JP6423872B2
Application number: JP2016523976A
Authority: JP
Inventors: 陳志軍; 侯文迪; 龍飛
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-12-01
Filing date: 2015-12-29
Publication date: 2018-11-14
Anticipated expiration: 2035-12-29
Also published as: US10115019B2; CN105426515A; US20170154221A1; EP3176709A1; RU2016136707A3; JP2018502340A; KR101952486B1; KR20180081637A; MX2016005882A; RU2016136707A; CN105426515B; RU2667027C2; WO2017092127A1

Description

本発明は、マルチメディア・クラスタリング技術分野に関し、特にビデオ分類方法および装置に関する。

現在、ユーザーは撮影装置を用いてビデオ、写真などのマルチメディアデータを撮影することができる。写真については、現在すでに顔クラスタリング技術が存在し、同じ人物の撮影に関わる写真を当該人物に対応する写真集に分類することができる。しかし、同一人物の撮影に関わるビデオと写真に対して顔クラスタリングを適用する技術が不足しているため、ユーザーは手動でビデオを分別するしかなく、スマート化が低く、効率も低い。

本発明は、前記技術に存在する不足を解決すべく、ビデオ分類方法および装置を提供する。

本発明の実施例の第１の態様によれば、ビデオ分類方法を提供する。前記分類方法は、
ビデオにおける、顔を含むキーフレームを取得するステップと、
前記キーフレームにおける顔特徴を取得するステップと、
画像タイプに対応する顔特徴を取得するステップと、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップと、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップと、を含む。

一実施例では、前記ビデオにおける、顔を含むキーフレームを取得するステップは、
前記ビデオから顔を含む少なくとも１つのビデオフレームを取得するステップと、
前記少なくとも１つのビデオフレームにおいて、各ビデオフレームにおける顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定するステップと、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップと、を含む。

一実施例では、前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定するステップと、
少なくとも１つの前記非重複ビデオフレームを前記キーフレームとして特定するステップと、を含む。

一実施例では、前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが同じである少なくとも１組の重複ビデオフレームを特定するステップと、
各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定するステップと、を含み、
各組の前記重複ビデオフレームが少なくとも２つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じである。

一実施例では、前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップは、前記ビデオの数が少なくとも２つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定するステップと、各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも２つのビデオに対して顔クラスタリング処理を行い、少なくとも１つのビデオタイプを取得するステップと、前記少なくとも１つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴に基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定するステップと、を含み、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップは、前記各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てるステップを含む。

一実施例では、前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップは、
前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定するステップと、
前記マッチングする画像タイプを前記ビデオが属する画像タイプとして特定するステップと、を含む。

一実施例では、前記方法は、
前記ビデオの撮影時刻および撮影場所を取得するステップと、
前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定するステップと、
前記ビデオを前記目的画像が属する画像タイプに割り当てるステップと、をさらに含む。

本発明の実施例の第２の態様によれば、ビデオ分類装置を提供する。前記分類装置は、
ビデオにおける、顔を含むキーフレームを取得する、第１取得モジュールと、
前記第１取得モジュールが取得した前記キーフレームにおける顔特徴を取得する、第２取得モジュールと、
画像タイプに対応する顔特徴を取得する、第３取得モジュールと、
前記第２取得モジュールが取得した前記キーフレームにおける顔特徴と前記第３取得モジュールが取得した前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定する、第１特定モジュールと、
前記ビデオを前記第１特定モジュールが特定した前記ビデオが属する画像タイプに割り当てる、第１割当モジュールと、を備える。

一実施例では、前記第１取得モジュールは、
前記ビデオから顔を含む少なくとも１つのビデオフレームを取得する、取得サブモジュールと、
前記取得サブモジュールが取得した前記少なくとも１つのビデオフレームにおいて、各ビデオフレームにおける顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定する、第１特定サブモジュールと、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定する、第２特定サブモジュールと、を備える。

一実施例では、前記第２特定サブモジュールはさらに、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも１つの前記非重複ビデオフレームを前記キーフレームとして特定する。

一実施例では、前記第２特定サブモジュールはさらに、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータ同じ少なくとも１組の重複ビデオフレームを特定し、各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定し、各組の前記重複ビデオフレームに少なくとも２つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じである。

一実施例では、前記第１特定モジュールは、
前記ビデオの数が少なくとも２つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定し、各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも２つのビデオに対して顔クラスタリング処理を行い、少なくとも１つのビデオタイプを取得し、前記少なくとも１つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴に基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する、第３特定サブモジュールを備え、
前記第１割当モジュールは、
前記第３特定サブモジュールが特定した各ビデオタイプのビデオに同じ顔特徴に対応する画像タイプに割り当てる、第１割当サブモジュールを備える。

一実施例では、前記第１特定モジュールは、
前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定する、第４特定サブモジュールと、
前記第４特定サブモジュールが特定した前記にマッチングする画像タイプは前記ビデオが属する画像タイプであると特定する、第２割当サブモジュールと、を備える。

一実施例では、前記装置は、
前記ビデオの撮影時刻および撮影場所を取得する、第４取得モジュールと、
前記第４取得モジュールが取得した前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定する、第２特定モジュールと、
前記ビデオを前記第２特定モジュールが特定した前記目的画像が属する画像タイプに割り当てる、第２割当モジュールと、をさらに備える。

本発明の実施例の第３の態様によれば、ビデオ分類装置を提供する。前記ビデオ分類装置は、
プロセッサと、
プロセッサの実行可能な指令を記憶するためのメモリと、を備え、
前記プロセッサは、
ビデオにおける、顔を含むキーフレームを取得し、
前記キーフレームにおける顔特徴を取得し、
画像タイプに対応する顔特徴を取得し、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定し、
前記ビデオを前記ビデオが属する画像タイプに割り当てるように構成される。

本発明の実施例に係る技術案は、以下の格別な作用効果を含むことができる。

前記技術案から分かるように、インテリジェント・オートメーション化してビデオを当該ビデオに撮影されている人物に対応する画像タイプに分類することができ、ユーザーが手動で分類する必要がないのみならず、分別精度も高い。

前記のした一般的な記述および後続する詳細な記述は、単に例示的および解釈的なものであり、本発明を制限できるものでないと理解されるべきである。

ここでの図面は、明細書を構成する一部として見なされ、本発明に適した実施例を示し、かつ、明細書の文字記載とともに本発明の仕組みを解釈するために用いられる。
一実施例に係るビデオ分類方法を示すフローチャートである。一実施例に係る別のビデオ分類方法を示すフローチャートである。一実施例に係るさらに他のビデオ分類方法を示すフローチャートである。一実施例に係るビデオ分類装置を示すブロック図である。一実施例に係る別のビデオ分類装置を示すブロック図である。一実施例に係るさらに他のビデオ分類装置を示すブロック図である。一実施例に係るまた他のビデオ分類装置を示すブロック図である。一実施例に係るまた他のビデオ分類装置を示すブロック図である。一実施例に係るに適用されるネットワーク接続装置を示すブロック図である。

次に、実施例を詳細に説明し、例示が図に示されている。以下の記述が図に係る場合、別途にて示さない限り、異なる図面における同じ符号は、同じ又は類似する要素を示す。以下の実施例に記述される実施形態は、本発明と一致する全ての実施形態を代表するとは限らない。逆に、それらは、添付する特許請求の範囲に記載されているように、本発明の一部の態様と一致する装置および方法の例に過ぎない。

本発明の実施例は、インテリジェント・オートメーション化してビデオを当該ビデオに撮影されている人物に対応する画像タイプに分類することができ、ユーザーが手動で分類する必要がないのみならず、分別精度も高いビデオ分類技術を提供する。

本発明の実施例が提供する方法を説明する前に、画像タイプおよびこれの生成方法を説明する。１つの画像タイプは１つの顔に対応し、各画像タイプの画像に全て同じ顔がある場合、１つの画像タイプが１人に対応していると言えるため、各画像タイプは同一の顔特徴を有する１組の画像を含む。本発明の実施例は、以下の顔クラスタリング方法を用いて画像タイプを生成することができるが以下の方法に限らない。

顔クラスタリング方法では、通常、最初のクラスタリングにて全量のクラスタリング方法を用いて初期化し、後続のクラスタリングでは一般的にクラスタリングを増量する方法を用いる。顔クラスタリング方法以下のステップをＡ１−Ａ５を含んでもよい。

ステップＡ１では、Ｎ個の画像それぞれが備える顔特徴を取得し、Ｎ個の顔特徴を取得し、Ｎは２より大きい又は等しい。クラスタリング初期は、各顔を1タイプと見なすため、初期はＮ個のタイプが存在する。

ステップＡ２では、Ｎ個のタイプから、タイプとタイプとの間の距離を算定する。タイプとタイプとの間の距離は２つのタイプそれぞれが備える顔との距離である。

ステップＡ３では、距離閾値θを事前に設定する。２つのタイプとの間の距離がθより小さければ、この２つのタイプは対応する同一人物であると見なし、この反復はこの２つのタイプを１つの新しいタイプに合併する。

ステップＡ４では、ステップＡ３を繰り返して実行し、反復を繰り返し、反復中に新しいタイプが作成されなくなれば、反復を終了する。

ステップＡ５では、結果として計Ｍ個のタイプを作成する。各タイプとも少なくとも１つの顔を備え、１つのタイプは、１人の人物を示す。

図１に示すように、図１は、本発明の実施例に係るビデオ分類方法を示すフローチャートである。当該方法の実行主体はマルチメディアファイルを管理するアプリケーションでもよい。このとき、当該方法に係るビデオ、画像タイプおよび画像タイプの画像とは、前記アプリケーションがインストールされている機器に記憶したビデオ、画像タイプおよび画像タイプの画像をいう。この他に、当該方法の実行主体はマルチメディアファイルを記憶している電子機器でもよい。このとき、当該方法に係るビデオ、画像タイプおよび画像タイプの画像とは、当該電子機器に記憶しているビデオ、画像タイプおよび画像タイプの画像をいう。前記アプリケーション又は電子機器は周期的に自動的に当該方法を作動させてもよく、ユーザーの指示を受信したときに当該方法を作動させてもよく、少なくとも１つの新しいビデオを作成したことを検知したときに自動的に当該方法を作動させてもよい。当該方法を作動させるタイミングは数種類存在してもよく、前記に例示した数種類に限定しない。これの最終的な目的は当該方法を用いてビデオに対してスマート化された分類を行い、労力を減らすことである。

図１に示すように、当該方法はステップＳ１０１と、テップＳ１０２と、テップＳ１０３と、テップＳ１０４と、ステップＳ１０５とを含む。

ステップＳ１０１では、ビデオにおける、顔を含むキーフレームを取得する。

一実施例では、ビデオから如何なる１つ又は複数の顔を含むビデオフレームを選択してキーフレームとすることができ、図２に示す形態に従い、キーフレームを取得することもでき、図２に示すように、ステップＳ１０１は以下のステップＳ２０１と、ステップＳ２０２と、ステップＳ２０３とを実施することができる。

ステップＳ２０１では、ビデオから顔を含む少なくとも１つのビデオフレームを取得する。

ステップＳ２０２では、少なくとも１つのビデオフレームにおいて、各ビデオフレームにおける顔の数、顔の位置のいずれか一項又は二項を含む顔パラメータを特定する。

ステップＳ２０３では、各ビデオフレームにおける顔パラメータに基づいて、ビデオにおけるキーフレームを特定する。

ただし、ステップＳ２０３以下の実施形態１、実施形態２におけるいずれかの１つ又は２つを実施することができる。

実施形態１：各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも１つの非重複ビデオフレームはキーフレームであると特定する。

即ち、非重複ビデオフレームとは、顔パラメータが他のいずれのビデオフレームとも異なるビデオフレームをいい、顔画面に他のビデオフレームに重複して出現していない。したがって、１つまたは複数の非重複ビデオフレームをいずれか選択してキーフレームとすることができる。

実施形態２：各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが同じである少なくとも１組の重複ビデオフレームを特定し、各組の重複ビデオフレームに少なくとも２つのビデオフレームを含み、各組の重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じであり、各組の重複ビデオフレームにおけるいずれかのビデオフレームは前記キーフレームであると特定する。

ただし、所定の時間は事前に設定できる。通常、ビデオの同じ画面は長く持続できないため、所定の時間を長くすることは適切でない。ビデオは毎秒２４フレーム再生することを鑑みると、所定の時間はＮ／２４秒以内に制御でき、Ｎは１より大きい又は等しい、且つ、２４より小さい又は等しい（又は３６、又は他の数値，必要に応じて決定できる）。所定の時間が短いほど、最後に選択するキーフレームはより正確になる。即ち、各組の重複ビデオフレームにおける各ビデオフレームの顔画面は同じであり、同じ顔画面が複数のビデオフレームに出現する。したがって、各組の重複ビデオフレームにおいて、如何なるビデオフレームを選択してキーフレームとしてもよく、重複排除効果を実現し、キーフレーム選択における効率を高める。

以上の実施形態１、実施形態２は単独で実施してもよく、組み合わせて実施してもよい。

ステップＳ１０２では、キーフレームにおける顔特徴を取得する。

ステップＳ１０３では、画像タイプに対応する顔特徴を取得する。

ステップＳ１０４では、キーフレームにおける顔特徴と画像タイプに対応する顔特徴に基づいて、ビデオが属する画像タイプを特定する。

ステップＳ１０５では、ビデオをビデオが属する画像タイプに割り当てる。

本発明の実施例は、インテリジェント・オートメーション化してビデオをビデオと画像に分類することができ、ユーザーが手動で分類する必要がないのみならず、顔特徴により分別を行い、精度も高い前記方法を提供する。

一実施例では、ステップＳ１０４は、以下のステップＢ１−Ｂ２を実施することができる。ステップＢ１では、画像タイプに対応する顔特徴から、キーフレームにおける顔特徴にマッチングする画像タイプを特定する。例えば、前記ステップＡ１−Ａ５を実行することができ、顔クラスタリング処理により、キーフレームにおける顔特徴に基づいて、キーフレームが属する画像タイプを特定する。キーフレームが属する画像タイプはキーフレームにおける顔特徴にマッチングする画像タイプである。ステップＢ２では、前記のステップＢ１が特定したマッチングする画像タイプはビデオが属する画像タイプであると特定する。

別の実施例では、ステップＳ１０４は以下のステップＣ１と、ステップＣ２と、ステップＣ３とを実施することができる。

ステップＣ１では、ビデオの数が少なくとも２つであるとき、各ビデオのキーフレームにおける顔特徴を特定する。ステップＣ２では、各ビデオのキーフレームにおける顔特徴に基づいて、少なくとも２つのビデオに対して顔クラスタリング処理を行い、少なくとも１つのビデオタイプを取得し、１つのビデオタイプに１つの顔が対応する。具体的に、前記ステップＡ１−Ａ５を実行することができ、顔クラスタリング処理により、キーフレームにおける顔特徴に基づいて、キーフレームが属する画像タイプを特定する。１タイプは１つのビデオタイプであるため、各ビデオタイプは１つの顔特徴に対応する。ビデオのキーフレームが属するビデオタイプは、当該ビデオが属するビデオタイプである。ステップＣ３では、少なくとも１つのビデオタイプに対応するそれぞれの顔特徴と画像タイプに対応する顔特徴とに基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。即ち、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。これに応じて、前記のステップＳ１０５を実施することができ、各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる。このような形態では、先にビデオに対して顔クラスタリング処理を行い、ビデオタイプを取得する。その後に再度ビデオに対して顔クラスタリング処理を行い、同じ顔に対応するビデオタイプと画像タイプを特定し、各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる。これにより、ビデオの分類処理を実現する。

一実施例では、前記の方法はさらに以下の形態を用いてビデオ分類を行うことができる。このような形態では顔クラスタリング処理を行う必要がなく、おおまかに撮影時刻および撮影場所と同じであると見なせば、ビデオと画像は同一人物が撮影されていると見なし、これらを１つのタイプに分類する。このような形態は一定の正確性を有し、分類速度も速い。図３に示すように、前記の方法はステップＳ３０１と、テップＳ３０２と、ステップＳ３０３とをさらに含んでもよい。ステップＳ３０１では、ビデオの撮影時刻と撮影場所を取得する。ステップＳ３０２では、ビデオの撮影時刻および撮影場所と同じである目的画像を特定する。ステップＳ３０３では、ビデオを目的画像が属する画像タイプに割り当てる。

本発明の実施例の第２の態様によれば、ビデオ分類装置を提供する。当該装置は、マルチメディアファイルを管理するアプリケーションに用いることができる。このとき、当該装置に係るビデオ、画像タイプおよび画像タイプの画像とは、前記アプリケーションがインストールされている機器に記憶したビデオ、画像タイプおよび画像タイプの画像をいう。この他に、当該装置は、マルチメディアファイルを記憶している電子機器にもちいることもできる。このとき、当該方法に係るビデオ、画像タイプおよび画像タイプの画像とは、当該電子機器に記憶しているビデオ、画像タイプおよび画像タイプの画像をいう。前記アプリケーション又は電子機器周期的に自動的に当該装置実行操作を作動させてもよく、ユーザーの指示を受信したときに当該装置実行操作を作動させてもよく、さらに少なくとも１つの新しいビデオを作成したことを検知したときに自動的に当該装置実行操作を作動させてもよい。作動させるタイミングは数種存在してもよく、前記に例示した数種類に限定しない，これの最終的な目的は当該装置を用いてビデオに対してスマート化された分類を行い、労力を減らすことである。図４に示すように、当該装置は、第１取得モジュール４１と、第２取得モジュール４２と、第３取得モジュール４３と、第１特定モジュール４４と、第１割当モジュール４５と、を備える。

第１取得モジュール４１は、ビデオにおける、顔を含むキーフレームを取得するように構成される。

第２取得モジュール４２は、、第１取得モジュール４１が取得したキーフレームにおける顔特徴を取得するように構成される。

第３取得モジュール４３は、画像タイプに対応する顔特徴を取得するように構成される。

第１特定モジュール４４は、第２取得モジュール４２が取得したキーフレームにおける顔特徴と第３取得モジュール４３が取得した画像タイプに対応する顔特徴に基づいて、ビデオが属する画像タイプを特定するように構成される。

第１割当モジュール４５は、ビデオを第１特定モジュール４１が特定したビデオが属する画像タイプに割り当てるとように構成される。

本発明の実施例では、インテリジェント・オートメーション化してビデオをビデオと画像に分類することができ、ユーザーが手動で分類する必要がないのみならず、顔特徴により分別を行い、精度も高い前記の装置を提供する。

一実施例では、図５に示すように、第１取得モジュール４１は、取得サブモジュール５１と、第１特定サブモジュール５２と、第２特定サブモジュール５３と、を備える。

取得サブモジュール５１は、ビデオから顔を含む少なくとも１つのビデオフレームを取得するように構成される。

第１特定サブモジュール５２は、取得サブモジュール５１が取得し少なくとも１つのビデオフレームにおいて、各ビデオフレームにおける顔の数、顔の位置のいずれか一項又は二項を含む顔パラメータを特定するように構成される。

第２特定サブモジュール５３は、各ビデオフレームにおける顔パラメータに基づいて、ビデオにおけるキーフレームを特定するように構成される。

一実施例では、第２特定サブモジュール５３はさらに、各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも１つの非重複ビデオフレームはキーフレームであると特定するように構成される。即ち、非重複ビデオフレームとは、顔パラメータが他のいずれのビデオフレームとも異なるビデオフレームをいい、顔画面に他のビデオフレームに重複して出現していない。したがって、１つまたは複数の非重複ビデオフレームをいずれか選択してキーフレームとすることができる。

一実施例では，第２特定サブモジュール５３はさらに、各ビデオフレームにおける顔パラメータに基づいて、顔パラメータが同じである少なくとも１組の重複ビデオフレームを特定し、各組の重複ビデオフレームに少なくとも２つのビデオフレームを含み、各組の重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の重複ビデオフレームにおける全てのビデオフレーム的顔パラメータ同じであり、各組の重複ビデオフレームにおけるいずれかのビデオフレームはキーフレームであると特定するように構成される。

ただし、所定の時間は事前に設定できる。通常、ビデオの同じ画面は長く持続できないため、所定の時間を長くすることは適切でない。ビデオは毎秒２４フレーム再生することを鑑みると、所定の時間はＮ／２４秒以内に制御でき、Ｎは１より大きい又は等しい、即ち、各組の重複ビデオフレームにおける各ビデオフレームの顔画面は同じであり、同じ顔画面が複数のビデオフレームに出現する。したがって、各組の重複ビデオフレームにおいて、如何なるビデオフレームを選択してキーフレームとしてもよく、重複排除効果を実現し、キーフレーム選択における効率を高める。

一実施例では，図６に示すように、第１特定モジュール４４は、ビデオの数が少なくとも２つであるとき、各ビデオのキーフレームにおける顔特徴を特定し、各ビデオのキーフレームにおける顔特徴に基づいて、少なくとも２つのビデオに対して顔クラスタリング処理を行い、少なくとも１つのビデオタイプを取得し、１つのビデオタイプに１つの顔が対応するように構成される、第３特定サブモジュール６１を備える。具体的に、前記ステップＡ１−Ａ５を実行することができ、顔クラスタリング処理により、キーフレームにおける顔特徴に基づいて、キーフレームが属する画像タイプを特定する。１タイプは１つのビデオタイプであるため、各ビデオタイプは１つの顔特徴に対応する。ビデオのキーフレームが属するビデオタイプは、当該ビデオが属するビデオタイプである。少なくとも１つのビデオタイプに対応するそれぞれの顔特徴と画像タイプに対応する顔特徴に基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。即ち、同じ顔特徴に対応するビデオタイプと画像タイプを特定する。

第１割当モジュール４５は、第３特定サブモジュール６１が特定した各ビデオタイプのビデオ同じ顔特徴に対応する画像タイプに割り当てるように構成される、第１割当サブモジュール６２を備える。

前記の装置は、先にビデオに対して顔クラスタリング処理を行い、ビデオタイプを取得する。その後に再度ビデオに対して顔クラスタリング処理を行い、同じ顔に対応するビデオタイプと画像タイプを特定し、各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる。これにより、ビデオの分類処理を実現する。

一実施例では、図７に示すように、第１特定モジュール４４は、第４特定サブモジュール７１と、第２割当サブモジュール７２と、を備える。

第４特定サブモジュール７１と、画像タイプに対応する顔特徴から、キーフレームにおける顔特徴にマッチングする画像タイプを特定するように構成される。

第２割当サブモジュール７２は、第４特定サブモジュール７１が特定したにマッチングする画像タイプはビデオが属する画像タイプであると特定するように構成される。

一実施例では、図８に示すように、前記の装置は、第４取得モジュール８１と、第２特定モジュール８２と、第２割当モジュール８３と、をさらに備える
第４取得モジュール８１は、ビデオの撮影時刻と撮影場所を取得するように構成される。

第２特定モジュール８２は、第４取得モジュール８１が取得したビデオの撮影時刻および撮影場所と同じである目的画像を特定するように構成される。

第２割当モジュール８３は、ビデオを第２特定モジュール８２が特定した目的画像が属する画像タイプに割り当てるように構成される。

前記の装置では、顔クラスタリング処理を行う必要がなく、おおまかに撮影時刻と撮影場所が同じであると見なせば、ビデオと画像は同一人物が撮影されていると見なし、これらを１つのタイプに分類する。このような形態は一定の正確性を有し、分類速度も速い。

本発明の実施例の第３の態様によれば、ビデオ分別装置を提供する。前記分別装置は、プロセッサと、プロセッサの実行可能な指令を記憶するためのメモリと、を備える。

前記プロセッサは、
ビデオにおける、顔を含むキーフレームを取得し、
キーフレームにおける顔特徴を取得し、
画像タイプに対応する顔特徴を取得し、
キーフレームにおける顔特徴と画像タイプに対応する顔特徴とに基づいて、ビデオが属する画像タイプを特定し、
ビデオをビデオが属する画像タイプに割り当てるように構成される。

図９に示すように、図９は、一実施例に係るビデオ分類ための装置８００を示すブロック図である。例えば、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレットデバイス、医療設備、フィットネス機器、ＰＤＡなどである。

図９を参照すると、装置８００は、処理ユニット８０２、メモリ８０４、電源ユニット８０６、マルチメディアユニット８０８、オーディオユニット８１０、入力/出力（Ｉ／Ｏ）インターフェース８１２、センサユニット８１４、および、通信ユニット８１６のうちの１つ又は複数を含んでもよい。

処理ユニット８０２は、通常は、表示、電話発呼、データ通信、カメラ操作および記録操作に関連する操作のような、装置８００の全般操作を制御する。処理ユニット８０２は、前記方法の全部又は一部のステップを実施させるように、指令を実行するための１つ又は複数のプロセッサ１８２０を含んでもよい。また、処理ユニット８０２は、処理ユニット８０２と他のユニットとの間の相互作用を容易にするように、１つ又は複数のモジュールを含んでもよい。例えば、処理ユニット８０２は、マルチメディアユニット８０８と処理ユニット８０２との間の相互作用を容易にするように、マルチメディアモジュールを含んでもよい。

メモリ８０４は、各タイプのデータを記憶して装置８００での操作をサポートするように構成される。これらのデータの例示は、装置８００で操作するための如何なるのアプリケーションもしくは方法の指令、連絡人データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ８０４は、如何なる種別の揮発性もしくは不揮発性記憶装置又はそれらの組合せで実現されてもよい。例えば、静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクであってもよい。

電源ユニット８０６は、装置８００のユニットのそれぞれに電力を供給する。電源ユニット８０６は、電源管理システム、１つ又は複数の電源、並びに、装置８００用の電力を生成、管理および配分するに関する他のユニットを含んでもよい。

マルチメディアユニット８０８は、前記装置８００とユーザーとの間に1つの出力インターフェースを供給するスクリーンを含む。一部の実施例では、スクリーンは、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンは、タッチパネルを含む場合、ユーザーからの入力信号を受信するように、タッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを感知するように、１つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチあるいはスライド動作の境界を感知するだけではなく、前記タッチあるいはスライド操作と関連する持続時間および圧力をさらに検出することができる。一部の実施例では、マルチメディアユニット８０８は、１つのフロントカメラおよび/又はバックカメラを含む。装置８００が操作モード、例えば、撮影モードあるいはビデオモードであるとき、フロントカメラおよび/又はバックカメラは、外部のマルチメディアデータを受信することができる。フロントカメラおよびバックカメラのそれぞれは、１つの固定の光学レンズシステムであってもよいし、焦点距離および光学ズーム能力を有するものであってもよい。

オーディオユニット８１０は、オーディオ信号を出力および/又は入力するように構成される。例えば、オーディオユニット８１０は、マイク（ＭＩＣ）を備え、装置８００が操作モード、例えば、発呼モード、記録モードおよび音声識別モードであるとき、マイクは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらに、メモリ８０４に格納される、又は、通信ユニット８１６を介して送信されることができる。一部の実施例では、オーディオユニット８１０は、オーディオ信号を出力するためのスピーカをさらに含む。

Ｉ/Ｏインターフェース８１２は、処理ユニット８０２とペリフェラルインターフェースモジュールとの間でインターフェースを供給するものであり、前記ペリフェラルインターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンには、ホームページボタン、ボリュームボタン、起動ボタンおよびロックボタンが含まれてもよいが、それらに限定されない。

センサユニット８１４は、様々な側面での状態推定を装置８００に供給するための１つ又は複数のセンサを含む。例えば、センサユニット８１４は、装置８００のオン/オフ状態、ユニットの相対位置を検出することができ、前記ユニットは、例えば、装置８００のディスプレイおよびキーパッドである。センサユニット８１４は、さらに、装置８００もしくは装置８００の１つのユニットの位置変更、ユーザーと装置８００との接触の存在もしくは非存在、装置８００の方位もしくは加速/減速および装置８００の温度変化をさらに検出することができる。センサユニット８１４は、如何なる物理的接触もないとき、近辺にある物体の存在を検出するための近接センサを含んでもよい。センサユニット８１４は、さらに、イメージングアプリケーションに使用される光センサ、例えばＣＭＯＳ又はＣＣＤ画像センサを含んでもよい。一部の実施例では、当該センサユニット８１４は、さらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを含んでもよい。

通信ユニット８１６は、装置８００と他の機器間の無線又は有線方式の通信ができるように構成される。装置８００は、通信規格に基づく無線ネットワーク、例えば、ＷｉＦｉ、２Ｇもしくは３Ｇ、又はそれらの組合せにアクセスすることができる。ある実施例では、通信ユニット８１６は、外部ブロードキャスト管理システムからのブロードキャスト信号又はブロードキャスト関連情報をブロードキャストチャネルを介して受信する。ある実施例では、前記通信ユニット８１６は、さらに、短距離通信を容易にするように、ニアフィールド通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術および他の技術によって実現されてもよい。

実施例では、装置８００は、前記方法を実行するための１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子部品によって実現されてもよい。

実施例では、指令を含む非一時的コンピュータ読み取り可能な記憶媒体、例えば、指令を含むメモリ８０４をさらに提供し、前記指令が装置８００のプロセッサ１８２０によって実行されることで前記の方法を実施させることができる。例えば、前記非一時的コンピュータ読み取り可能な記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ-ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスクおよび光データ記憶機器などであってもよい。

非一時的コンピュータ読み取り可能な記憶媒体は、前記読み取り可能な記憶媒体における指令をモバイル端末のプロセッサにより実行するときに、モバイル端末にビデオ分類方法を実行させる。前記方法は、
ビデオにおける、顔を含むキーフレームを取得するステップと、
前記キーフレームにおける顔特徴を取得するステップと、
画像タイプに対応する顔特徴を取得するステップと、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴に基づいて、前記ビデオが属する画像タイプを特定するステップと、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップと、を含む。

当業者は明細書を考慮し、ここに公開された開示を実践した後、本発明の他の実施案を容易に想到する。本願は、本発明の如何なる変形、用途又は適合もカバーすることを意図する。これらの変形、用途又は適合は、本発明の一般的な仕組みに従い、かつ、本発明に公開されていない当分野における公知常識又は慣用技術手段を含む。明細書および実施例は単なる例示と見なされ、本発明の本当の範囲および思想は添付する特許請求の範囲によって与えられる。

本発明が以上で記載され、且つ、図面に示された正確な構造に限定されるものでなく、その要旨を逸脱しない範囲で様々な補正や変更も可能であることは理解されるべきである。本発明の範囲は、添付する特許請求の範囲のみによって限定される。
本発明は、出願番号が２０１５１０８６７４３６５、出願日が２０１５年１２月０１日である中国特許出願を基に提出するものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容は、参照のため本願に援用される。

Claims

ビデオにおける、顔を含むキーフレームを取得するステップと、
前記キーフレームにおける顔特徴を取得するステップと、
画像タイプに対応する顔特徴を取得するステップと、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定するステップと、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップと、を含み、
前記ビデオにおける、顔を含むキーフレームを取得するステップは、
前記ビデオから顔を含む少なくとも１つのビデオフレームを取得するステップと、
前記少なくとも１つのビデオフレームにおいて、各ビデオフレームにおける、顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定するステップと、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップと、を含み、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定するステップと、
少なくとも１つの前記非重複ビデオフレームを前記キーフレームとして特定するステップと、を含む
ことを特徴とするビデオ分類方法。
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定するステップは、
前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが同じである少なくとも１組の重複ビデオフレームを特定するステップと、
各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定するステップと、を含み、
各組の前記重複ビデオフレームが少なくとも２つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じであることを特徴とする請求項１に記載のビデオ分類方法。
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定するステップは、
前記ビデオの数が少なくとも２つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定するステップと、
各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも２つのビデオに対して顔クラスタリング処理を行い、少なくとも１つのビデオタイプを取得するステップと、
前記少なくとも１つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴とに基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定するステップと、を含み、
前記ビデオを前記ビデオが属する画像タイプに割り当てるステップは、
前記各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てるステップを含むことを特徴とする請求項１に記載のビデオ分類方法。
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定するステップは、
前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定するステップと、
前記マッチングする画像タイプを前記ビデオが属する画像タイプとして特定するステップと、を含むことを特徴とする請求項１に記載のビデオ分類方法。
前記ビデオの撮影時刻および撮影場所を取得するステップと、
前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定するステップと、
前記ビデオを前記目的画像が属する画像タイプに割り当てるステップと、をさらに含むことを特徴とする請求項１に記載のビデオ分類方法。
ビデオにおける、顔を含むキーフレームを取得する、第１取得モジュールと、
前記第１取得モジュールが取得した前記キーフレームにおける顔特徴を取得する、第２取得モジュールと、
画像タイプに対応する顔特徴を取得する、第３取得モジュールと、
前記第２取得モジュールが取得した前記キーフレームにおける顔特徴と前記第３取得モジュールが取得した前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定する、第１特定モジュールと、
前記ビデオを前記第１特定モジュールが特定した前記ビデオが属する画像タイプに割り当てる、第１割当モジュールと、を備え、
前記第１取得モジュールは、
前記ビデオから顔を含む少なくとも１つのビデオフレームを取得する、取得サブモジュールと、
前記取得サブモジュールが取得した前記少なくとも１つのビデオフレームにおいて、各ビデオフレームにおける顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定する、第１特定サブモジュールと、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定する、第２特定サブモジュールと、を備え、
前記第２特定サブモジュールは、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、少なくとも１つの前記非重複ビデオフレームを前記キーフレームとして特定する
ことを特徴とするビデオ分類装置。
前記第２特定サブモジュールは、前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが同じである少なくとも１組の重複ビデオフレームを特定し、各組の前記重複ビデオフレームのうちのいずれかのビデオフレームを前記キーフレームとして特定し、各組の前記重複ビデオフレームが少なくとも２つのビデオフレームを含み、各組の前記重複ビデオフレームにおける撮影時間が最も遅いビデオフレームと撮影時間が最も早いビデオフレームとの間の撮影時間の差がより所定の時間小さい又は等しく、各組の前記重複ビデオフレームにおける全てのビデオフレームの顔パラメータが同じであることを特徴とする請求項６に記載のビデオ分類装置。
前記第１特定モジュールは、
前記ビデオの数が少なくとも２つであるとき、各ビデオの前記キーフレームにおける顔特徴を特定し、各ビデオの前記キーフレームにおける顔特徴に基づいて、前記少なくとも２つのビデオに対して顔クラスタリング処理を行い、少なくとも１つのビデオタイプを取得し、前記少なくとも１つのビデオタイプに対応するそれぞれの顔特徴と前記画像タイプに対応する顔特徴とに基づいて、同じ顔特徴に対応するビデオタイプと画像タイプを特定する、第３特定サブモジュールを備え、
前記第１割当モジュールは、
前記第３特定サブモジュールが特定した各ビデオタイプのビデオを同じ顔特徴に対応する画像タイプに割り当てる、第１割当サブモジュールを備えることを特徴とする請求項６に記載のビデオ分類装置。
前記第１特定モジュールは、
前記画像タイプに対応する顔特徴において、前記キーフレームにおける顔特徴にマッチングする画像タイプを特定する、第４特定サブモジュールと、
前記第４特定サブモジュールが特定した前記マッチングする画像タイプを前記ビデオが属する画像タイプとして特定する、第２割当サブモジュールと、を備えることを特徴とする請求項６に記載のビデオ分類装置。
前記ビデオの撮影時刻および撮影場所を取得する、第４取得モジュールと、
前記第４取得モジュールが取得した前記ビデオの撮影時刻および撮影場所と同じである目的画像を特定する、第２特定モジュールと、
前記ビデオを前記第２特定モジュールが特定した前記目的画像が属する画像タイプに割り当てる、第２割当モジュールと、をさらに備えることを特徴とする請求項６に記載のビデオ分類装置。
プロセッサと、
プロセッサの実行可能な指令を記憶するためのメモリと、を備え、
前記プロセッサは、
ビデオにおける、顔を含むキーフレームを取得し、
前記キーフレームにおける顔特徴を取得し、
画像タイプに対応する顔特徴を取得し、
前記キーフレームにおける顔特徴と前記画像タイプに対応する顔特徴とに基づいて、前記ビデオが属する画像タイプを特定し、
前記ビデオを前記ビデオが属する画像タイプに割り当て、
前記ビデオにおける、顔を含むキーフレームを取得する際には、
前記ビデオから顔を含む少なくとも１つのビデオフレームを取得し、
前記少なくとも１つのビデオフレームにおいて、各ビデオフレームにおける、顔の数および顔の位置のいずれか一項又は二項を含む顔パラメータを特定し、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定し、
前記各ビデオフレームにおける顔パラメータに基づいて、前記ビデオにおけるキーフレームを特定する際には、
前記各ビデオフレームにおける前記顔パラメータに基づいて、前記顔パラメータが他のビデオフレームに重複して出現していない非重複ビデオフレームを特定し、
少なくとも１つの前記非重複ビデオフレームを前記キーフレームとして特定する、
ように構成されることを特徴とするビデオ分類装置。