JP2018503148A

JP2018503148A - ビデオ再生のための方法および装置

Info

Publication number: JP2018503148A
Application number: JP2016549720A
Authority: JP
Inventors: ▲張▼▲濤▼; ▲陳▼志▲軍▼; ▲龍▼▲飛▼
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-10-28
Filing date: 2015-12-29
Publication date: 2018-02-01
Anticipated expiration: 2035-12-29
Also published as: CN105357475A; EP3163473A1; WO2017071086A1; JP6419201B2; RU2016118885A; KR101798011B1; US20170125060A1; MX363623B; MX2016005835A

Abstract

本開示の実施例は、ビデオ再生のための方法および装置に関し、インターネット技術分野に属する。前記方法は、再生要求を受信し、前記再生要求にターゲットオブジェクト情報が携帯され、前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像または前記ターゲットオブジェクトの所属するターゲットキーワードを含むことと、前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することと、前記ビデオセグメントを端末に送信し、前記端末に前記ビデオを再生させることとを含む。【選択図】図２

Description

本願は、出願番号２０１５１０７１３１１８．３、出願日２０１５年１０月２８日の中国特許出願に基づいて提出され、且つ、当該中国特許出願の優先権を主張しており、当該中国特許出願の全ての内容が本願に援用される。

本開示は、インターネット技術分野に関し、特にビデオ再生のための方法および装置に関する。

カメラの普及に伴い、カメラを使用してリアルタイムに監視することは、ますます人気とってきている。カメラを使用してリアルタイムに監視して取得された監視ビデオが時間的に連続性を有するため、ユーザは、監視ビデオにおける特定オブジェクトの挙動を見たい場合、例えば、ユーザは、監視ビデオにおける赤ちゃんの挙動を見たい場合、ユーザは、監視ビデオの再生中に、監視ビデオの再生進捗を手動で調整する必要があり、監視ビデオを特定オブジェクトの所在するビデオ画面に早送りまたは後戻しさせ、それによって、特定オブジェクトの挙動を見ることが多い。しかし、ユーザが監視ビデオの再生進捗を手動で調整する操作は、比較的煩雑であり、ビデオの再生効率が低下し、従って、ビデオ再生効率を向上させる、ビデオ再生のための方法が必要となる。

関連技術に存在する問題を克服するために、本開示の実施例は、ビデオ再生のための方法および装置を提供する。

本開示の実施例の第一態様によるビデオ再生のための方法は、
再生要求を受信し、前記再生要求にターゲットオブジェクト情報が携帯され、前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像または前記ターゲットオブジェクトの所属するターゲットキーワードを含むことと、
前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することと、
前記ビデオセグメントを端末に送信し、前記端末に前記ビデオセグメントを再生させることとを含む。

第一態様と組み合わせ、前記第一態様の第一可能な実現形態において、前記の前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することは、
前記ターゲットオブジェクト情報にターゲットオブジェクトの所在するターゲット画像が含まれる場合、指定された分類モデルおよび前記ターゲット画像に基づいて、前記ターゲットオブジェクトの所属するターゲット類別を確定することと、
前記ターゲット類別に基づいて、前記ターゲットオブジェクトの所属するターゲットキーワードを確定することと、
前記ターゲットキーワードに基づいて、前記監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することとを含む。

第一態様と組み合わせ、前記第一態様の第二可能な実現形態において、前記の前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することは、
前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することと、
前記少なくとも１フレームのビデオ画像を前記監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントに構成させることとを含む。

第一態様の第二可能な実現形態と組み合わせ、前記第一態様の第三可能な実現形態において、前記の前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
前記インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードと監視時点との対応関係から、少なくとも一つの監視時点を取得することと、
前記少なくとも一つの監視時点に基づいて、前記監視ビデオから少なくとも１フレームのビデオ画像を取得することとを含む。

第一態様の第二可能な実現形態と組み合わせ、前記第一態様の第四可能な実現形態において、前記の前記ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
前記インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードとビデオ画像との対応関係から、少なくとも１フレームのビデオ画像を取得することとを含む。

第一態様の第二可能な実現形態〜第一態様の第四可能な実現形態のいずれかの可能な実現形態と組み合わせ、前記第一態様の第五可能な実現形態において、前記ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得する前に、さらに
監視ビデオを取得することと、
前記監視ビデオの各フレームのビデオ画像に対して、指定された分類モデルに基づいて、前記ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別を確定することと、
前記オブジェクト類別に基づいて、前記ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することと、
前記キーワードおよび前記監視ビデオに基づいて、前記インデックスライブラリを生成することとを含む。

第一態様の第五可能な実現形態と組み合わせ、前記第一態様の第六可能な実現形態において、前記の前記オブジェクト類別に基づいて、前記ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することは、
前記オブジェクト類別が人間である場合、前記ビデオ画像に含まれるオブジェクトに対して顔識別を行い、顔特徴を取得することと、
前記顔特徴に基づいて、記憶された顔特徴と身元識別子との対応関係から、対応する身元識別子を取得することと、
前記身元識別子を前記ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することとを含む。

第一態様の第五可能な実現形態と組み合わせ、前記第一態様の第七可能な実現形態において、前記の前記キーワードおよび前記監視ビデオに基づいて、前記インデックスライブラリを生成することは、
前記監視ビデオから前記ビデオ画像の所在する監視時点を確定することと、
前記キーワードと前記監視時点を前記インデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶することとを含む。

第一態様の第五可能な実現形態と組み合わせ、前記第一態様の第八可能な実現形態において、前記の前記キーワードおよび前記監視ビデオに基づいて、前記インデックスライブラリを生成することは、
前記キーワードと前記ビデオ画像を前記インデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶することを含む。

本開示の実施例の第二態様によるビデオ再生のための装置は、
再生要求を受信するように構成され、前記再生要求にターゲットオブジェクト情報が携帯され、前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像または前記ターゲットオブジェクトの所属するターゲットキーワードを含む受信モジュールと、
前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定するように構成される確定モジュールと、
前記ビデオセグメントを端末に送信し、前記端末に前記ビデオセグメントを再生させるように構成される送信モジュールとを含む。

第二態様と組み合わせ、前記第二態様の第一可能な実現形態において、前記確定モジュールは、
前記ターゲットオブジェクト情報にターゲットオブジェクトの所在するターゲット画像が含まれる場合、指定された分類モデルおよび前記ターゲット画像に基づいて、前記ターゲットオブジェクトの所属するターゲット類別を確定するように構成される第一確定ユニットと、
前記ターゲット類別に基づいて、前記ターゲットオブジェクトの所属するターゲットキーワードを確定するように構成される第二確定ユニットと、
前記ターゲットキーワードに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定するように構成される第三確定ユニットとを含む。

第二態様と組み合わせ、前記第二態様の第二可能な実現形態において、前記確定モジュールは、
前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードと記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得するように構成される第一取得ユニットと、
前記少なくとも１フレームのビデオ画像を前記ターゲットオブジェクトの所在する前記監視ビデオのビデオセグメントに構成させるように構成される構成ユニットとを含む。

第二態様の第二可能な実現形態と組み合わせ、前記第二態様の第三可能な実現形態において、前記第一取得ユニットは、
前記インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードと監視時点との対応関係から、少なくとも一つ監視時点を取得するように構成される第一の取得サブユニットと、
前記少なくとも一つの監視時間点に基づいて、前記監視ビデオから少なくとも１フレームのビデオ画像を取得するように構成される第二の取得サブユニットとを含む。

第二態様の第二可能な実現形態と組み合わせ、前記第二態様の第四可能な実現形態において、前記第一取得ユニットは、
前記インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードとビデオ画像との対応関係から少なくとも１フレームのビデオ画像を取得するように構成される第三取得サブユニットを含む。

第二態様の第二〜第四可能な実現のいずれかの可能な実現形態と組み合わせ、前記第二態様の第五可能な実現形態において、前記確定モジュールは、さら、
監視ビデオを取得するように構成される第二の取得ユニットと、
前記監視ビデオの各フレームのビデオ画像に対して、指定された分類モデルに基づいて、前記ビデオ画像に含まれるターゲットの所属するターゲット類別を確定するように構成される第四確定ユニットと、
前記オブジェクト類別に基づいて、前記ビデオ画像に含まれるターゲットの所属するキーワードを確定するように構成される第五確定ユニットと、
前記キーワードと前記監視ビデオに基づいて、前記インデックスライブラリを生成するように構成される生成ユニットとを含む。

第二態様の第五可能な実現形態と組み合わせ、前記第二態様の第六可能な実現形態において、前記第五確定ユニットは、
前記オブジェクト類別が人間である場合、前記ビデオ画像に含まれるターゲットに対して顔識別を行い、顔特徴を取得するように構成される識別サブユニットと、
前記顔特徴に基づいて、記憶された顔特徴と身元識別子との対応関係から、対応する身元識別子を取得するように構成される第四取得サブユニットと、
前記身元識別子を前記ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定するように構成される第一確定サブユニットとを含む。

第二態様の第五可能な実現形態と組み合わせ、前記第二態様の第七可能な実現形態において、前記生成ユニットは、
前記監視ビデオから前記ビデオ画像の所在する監視時点を確定するように構成される第二確定サブユニットと、
前記キーワードと前記監視時点を前記インデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶するように構成される第一記憶サブユニットとを含む。

第二態様の第五可能な実現形態と組み合わせ、前記第二態様の第八可能な実現形態において、前記生成ユニットは、
前記キーワードと前記ビデオ画像を前記インデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶するように構成される第二記憶サブユニットを含む。

本開示の実施例の第三態様によるビデオ再生のための装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、
ここで、前記プロセッサは、
再生要求を受信し、前記再生要求にターゲットオブジェクト情報が携帯され、前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像または前記ターゲットオブジェクトの所属するターゲットキーワードを含み、
前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定し、
前記ビデオセグメントを端末に送信し、前記端末に前記ビデオセグメントを再生させるように構成される。

本開示の実施例において、サーバは、再生要求を受信し、当該再生要求にターゲットオブジェクト情報が携帯され、サーバは、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定し、当該ビデオセグメントを端末に送信し、それによって、端末が直接前記監視ビデオのターゲットオブジェクトが所在するビデオセグメントを再生することができ、当該監視ビデオのターゲットオブジェクト以外のオブジェクトが存在するビデオセグメントを再生することなく、ユーザが当該監視ビデオを手動で調整してターゲットオブジェクトの所在するビデオセグメントを視聴することを回避し、操作が簡単であり、且つ、ビデオの再生効率を向上させる。

以上の一般的な説明と後の詳細な説明は、例示的および説明的なものに過ぎず、本開示を制限できないと理解すべきである。

例示的な実施例によるビデオ再生のための方法に関する実施環境を示す図である。例示的な実施例によるビデオ再生のための方法のフローチャートである。例示的な実施例による別のビデオ再生のための方法のフローチャートである。例示的な実施例によるビデオ再生のための装置のブロック図である。例示的な実施例による確定モジュールのブロック図である。例示的な実施例による別の確定モジュールのブロック図である。例示的な実施例による第一取得ユニットのブロック図である。例示的な実施例による別の確定モジュールのブロック図である。例示的な実施例による第五確定ユニットのブロック図である。例示的な実施例による生成ユニットのブロック図である。例示的な実施例による別のビデオ再生装置のブロック図である。

ここの図面は、明細書に組み込まれ、且つ、本明細書の一部を構成し、本発明に該当する実施例を示し、明細書と共に本発明の原理を解釈することに用いられる。

ここで例示的な実施例を詳しく説明し、その例は、図面に示される。以下の説明が図面に関する場合、他に示されない限り、異なる図面の同一の数字は、同一または類似の要素を表す。以下の例示的な実施例に記載される実施形態は、本発明と一致する全ての実施形態を代表しているわけではない。逆に、それらは、特許請求の範囲に詳しく記載される、本発明のいくつかの方面に一致する装置と方法の例に過ぎない。

図１は例示的な実施例によるビデオ再生のための方法に関する実施環境を示す図である。図１に示すように、当該実施環境は、サーバ１０１、スマート撮影装置１０２と端末１０３を含むことができる。サーバ１０１は、サーバ、または複数のサーバから構成されたサーバクラスタ、またはクラウドコンピューティングサービスセンターであってよく、スマート撮影装置１０２は、スマート撮影カメラであってよく、端末１０３は、携帯電話、コンピューター、タブレットデバイスなどであってよい。サーバ１０１とスマート撮影装置１０２は、インターネットを介して接続されることができ、サーバ１０１と端末１０３は、インターネットを介して接続することもできる。サーバ１０１は、端末から送信された再生要求を受信し、当該再生要求に基づいて、対応するビデオを取得し、且つ、当該ビデオを端末に送信するように構成される。スマート撮影装置１０２は、監視エリア内の監視ビデオを収集し、監視ビデオをサーバに送信するように構成される。端末１０３は、サーバから送信されたビデオを受信し、当該ビデオを再生するように構成される。

図２は例示的な実施例によるビデオ再生のための方法のフローチャートである。図２に示すように、当該方法は、サーバに用いられ、以下のステップを含む。

ステップ２０１において、再生要求を受信し、再生要求にターゲットオブジェクト情報が携帯され、ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像またはターゲットオブジェクトの所属するターゲットキーワードを含む。

ステップ２０２において、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定する。

ステップ２０３において、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを端末に送信し、端末に当該ビデオセグメントを再生させる。

本開示の実施例において、サーバは、再生要求を受信し、当該再生要求にターゲットオブジェクト情報が携帯され、サーバは、ターゲットオブジェクト情報に基づいて監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定し、且つ、当該ビデオセグメントを端末に送信し、それによって、端末が直接当該監視ビデオのターゲットオブジェクトが所在するビデオセグメントを再生することができ、当該監視ビデオのターゲットオブジェクト以外のオブジェクトが所在するビデオセグメントを再生する必要がなく、ユーザが監視ビデオを手動で調整して、ターゲットオブジェクトが所在するビデオセグメントを視聴することを回避し、操作が簡単であり、且つビデオの再生効率を向上させる。

本開示の別の実施例において、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することは、
ターゲットオブジェクト情報にターゲットオブジェクトの所在するターゲット画像が含まれる場合、指定された分類モデルおよびターゲット画像に基づいて、ターゲットオブジェクトの所属するターゲット類別を確定することと、
ターゲット類別に基づいて、ターゲットオブジェクトの所属するターゲットキーワードを確定することと、
ターゲットキーワードに基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することとを含む。

ここで、サーバは、指定された分類モデルおよびターゲット画像に基づいて、ターゲットオブジェクトの所属するターゲット類別を確定し、当該ターゲット類別に基づいて、ターゲットオブジェクトの所属するターゲットキーワードを確定し、これにより、サーバは、当該ターゲットキーワードに基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを迅速に確定することが便利となる。

本開示の別の実施例において、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することは、
ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが存在する少なくとも１フレームのビデオ画像を取得することと、
少なくとも１フレームのビデオセグメントを監視ビデオのターゲットオブジェクトが所在するビデオセグメントに構成することとを含む。

端末が監視ビデオのターゲットオブジェクトが所在するビデオセグメントを取得するために、再生要求を送信し、ビデオセグメントが少なくとも１フレームのビデオ画像から構成されることができ、従って、サーバは、ターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を迅速に取得でき、ビデオの取得効率が向上される。

本開示の別の実施例において、ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、ターゲットオブジェクト情報に対応するターゲットキーワードに基づいて、キーワードと監視時点との対応関係から、少なくとも一つの監視時点を取得することと、
少なくとも一つの時点に基づいて、監視ビデオから少なくとも１フレームのビデオ画像を取得することとを含む。

監視ビデオに当該監視ビデオに含まれる各フレームのビデオ画像に対応する監視時点が含まれるため、サーバは、ターゲットキーワードに対応する少なくとも一つ監視時点を確定し、且つ、監視ビデオから当該少なくとも一つの監視時点に対応する少なくとも一つのビデオ画像を取得することができ、ビデオ画像の取得正確性が向上される。

本開示の別の実施例において、ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、ターゲットオブジェクト情報に対応するターゲットキーワードに基づいて、キーワードとビデオ画像との対応関係から、少なくとも１フレームのビデオ画像を取得することを含む。

ここで、サーバは、ターゲットキーワードに基づいて、直接ターゲットオブジェクトに対応する少なくとも１フレームのビデオ画像を取得し、これにより、ビデオ画像の取得効率が向上される。

本開示の別の実施例において、ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得する前に、さらに、
ビデオ画像を取得することと、
監視ビデオの各フレームのビデオ画像に対して、指定された分類モデルに基づいて、ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別を確定することと、
オブジェクト類別に基づいて、ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することと、
キーワードおよび監視ビデオに基づいて、インデックスライブラリを生成することとを含む。

ここで、サーバは、キーワードおよび監視ビデオに基づいて、インデックスライブラリを生成し、これにより、サーバは、再生要求を受信した場合、当該インデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することが便利となり、ビデオ画像の取得效率が向上される。

本開示の別の実施例において、オブジェクト類別に基づいて、ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することは、
オブジェクト類別が人間である場合、ビデオ画像に含まれるオブジェクトに対して顔識別を行い、顔特徴を取得することと、
顔特徴に基づいて、記憶された顔特徴と身元識別子との対応関係から、対応する身元識別子を取得することと、
身元識別子をビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することとを含む。

ここで、オブジェクト類別が人間である場合、サーバは、オブジェクトの身元識別子を当該オブジェクトの所属するターゲットキーワードとして確定し、これにより、端末は、監視ビデオの特定な身元を有する人間がいる少なくとも１フレームのビデオ画像を取得することが便利となり、ある人間のビデオセグメントをターゲットに取得することができる。

本開示の別の実施例において、キーワードおよび監視ビデオに基づいて、インデックスライブラリを生成することは、
監視ビデオから、ビデオ画像の所在する監視時点を確定することと、
キーワードと監視時点をインデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶することとを含む。

監視ビデオに各フレームのビデオ画像に対応する監視時点が含まれているため、サーバは、キーワードと監視時点をインデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶し、これにより、サーバは、キーワードに基づいて、対応する監視時点を取得し、さらに監視ビデオから当該監視時点に対応するビデオ画像を取得することが便利となり、ビデオ画像の取得正確性が向上される。

本開示の別の実施例において、キーワードおよび監視ビデオに基づいて、インデックスライブラリを生成することは、
キーワードとビデオ画像をインデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶することを含む。

ここで、サーバは、キーワードとビデオ画像をインデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶し、これにより、サーバは、キーワードに基づいて、対応するビデオ画像を直接取得することが便利となり、ビデオ画像の取得効率が向上される。

前記すべての選択可能な技術的解決手段は、任意の組合せにより本開示の選択可能な実施例を構成できるので、本開示の実施例で説明は、省略する。

図３は例示的な実施例によるビデオ再生のための方法のフローチャートである。図３に示すように、当該方法は、以下のステップを含む。

ステップ３０１において、サーバは、再生要求を受信し、当該再生要求にターゲットオブジェクト情報が携帯され、ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像またはターゲットオブジェクトの所属するターゲットキーワードを含む。

当該再生要求は、端末によって直接送信されることができ、当然、当該再生要求は、端末によって他のデバイスに送信され、さらに他のデバイスによってサーバに送信されることもでき、本開示の実施例でそれに対して具体的に限定しないと説明すべきである。

また、端末が再生要求を送信する場合、当該端末は、再生命令を受信した場合に、サーバまたは他のデバイスに再生要求を送信することができる。

再生命令は、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを取得するように構成され、且つ、再生命令は、ユーザによってトリガされることができ、ユーザは、指定された操作によりトリガすることができ、当該指定された操作は、クリック操作、スライド操作、音声操作などであってよく、本開示の実施例でそれに対して具体的に限定しないと説明すべきである。

また、ターゲット画像は、ターゲットオブジェクトが含まれる画像であり、且つ、前記ターゲット画像は、ターゲットオブジェクトの写真でり、または、端末が監視ビデオを再生する過程において、端末が監視ビデオのビデオ画像に基づいて選択命令を受信した場合、前記選択命令にターゲットオブジェクトが携帯される画像であってよく、当然、ターゲット画像は、その他の方式により取得されることができ、本開示の実施例でそれに対して具体的に限定しない。

さらに、ターゲットキーワードは、ターゲットオブジェクトと唯一に対応し、且つ、ターゲットキーワードは、ターゲットオブジェクトの所属する類別、ターゲットオブジェクトの身元識別子などであってよく、本開示の実施例でそれに対して具体的に限定しない。

ステップ３０２において、サーバは、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定する。

ターゲットオブジェクト情報にターゲットオブジェクトの所在する画像またはターゲットオブジェクトの所属するターゲットキーワードが含まれるので、ターゲットオブジェクト情報に含まれる異なる内容に基づいて、サーバは、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することは、以下の２つの方式がある。

第一方式：ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得し、且つ、当該少なくとも１フレームのビデオ画像を当該監視ビデオのターゲットオブジェクトが所在するビデオセグメントに構成する。

端末が監視ビデオのターゲットオブジェクトが所在するビデオセグメントを取得するために、再生請求を送信し、ビデオセグメントが少なくとも１フレームのビデオ画像から構成されることができ、従って、サーバは、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得し、且つ、前記少なくとも１フレームのビデオ画像を監視ビデオのターゲットオブジェクトが所在するビデオセグメントに構成することができる。

ターゲットオブジェクト情報にターゲットキーワードが含まれる場合、ターゲットオブジェクト情報に対応するターゲットキーワードは、当該ターゲットオブジェクト情報に含まれるターゲットキーワードであってよく、ターゲットオブジェクト情報にターゲット画像が含まれる場合、ターゲットオブジェクト情報に対応するターゲットキーワードは、当該ターゲット画像により取得されることができると説明すべきである。

ここで、サーバは、ターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得する場合、インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、サーバは、ターゲットキーワードに基づいて、当該キーワードと監視時点との対応関係から、少なくとも一つの監視時点を取得し、且つ、当該少なくとも一つの監視時点に基づいて、監視ビデオから少なくとも１フレームのビデオ画像を取得する。または、インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、サーバは、ターゲットキーワードに基づいて、当該キーワードとビデオ画像との対応関係から少なくとも１フレームのビデオ画像を取得する。

監視ビデオに当該監視ビデオに含まれる各フレームのビデオ画像に対応する監視時点が含まれるため、サーバは、ターゲットキーワードに基づいて、当該キーワードと監視時点との対応関係から、当該ターゲットキーワードに対応する少なくとも一つの監視時点を取得した場合、サーバは、当該少なくとも一つの監視時点に基づいて、当該監視ビデオから、当該少なくとも一つの監視時点に対応する少なくとも１フレームのビデオ画像を取得することができる。

サーバが当該少なくとも一つの監視時点に基づいて、監視ビデオから少なくとも１フレームのビデオ画像を取得する過程については、関連技術を参考できるため、本開示の実施例で詳しく説明しない。

例えば、インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、ターゲットキーワードが楊楽楽であると仮定する場合、サーバは、ターゲットキーワード楊楽楽に基づいて、下記の表１に示すキーワードと監視時点との対応関係から、楊楽楽に対応する少なくとも一つの監視時点２０１５／０２／０３ー２１：０８：３１、２０１５／０３／０５−１１：０８：１１、２０１５／０８／０３−０９：０５：３１を取得することができ、その後、サーバは、監視ビデオから２０１５／０２／０３−２１：０８：３１、２０１５／０３／０５−１１：０８：１１、２０１５／０８／０３−０９：０５：３１の各々に対応するビデオ画像を取得することができる。

本開示の実施例において、前記表１に示されるキーワードと監視時点との対応関係だけを例として説明するが、前記表１は、本開示の実施例に対して限定を構成しないと説明すべきである。

また、例えば、インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、ターゲットキーワードが楊楽楽であると仮定する場合、サーバは、ターゲットキーワード楊楽楽に基づいて、下記の表２に示すキーワードとビデオ画像との対応関係から、楊楽楽に対応する少なくとも１フレームのビデオ画像１．ＪＰＥＧ、２．ＪＰＥＧ、３．ＪＰＥＧを取得することができる。

本開示の実施例において、前記表２に示すキーワードとビデオ画像との対応関係だけを例として説明するが、前記表２は、本開示の実施例に対して限定を構成しないと説明すべきである。

ここで、サーバが当該少なくとも１フレームのビデオ画像を監視ビデオのターゲットオブジェクトが所在するビデオセグメントに構成する過程については、関連技術を参考できるため、本発明の実施例で詳しく説明しない。

さらに、サーバがターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得する前に、さらに下記のステップ（１）−（４）によりインデックスライブラリを生成することができる。

（１）サーバは、監視ビデオを取得する。

サーバは、スマート撮影装置から当該監視ビデオを取得でき、当然、当該スマート撮影装置は、当該監視ビデオを他の装置に送信することもでき、これにより、サーバは、他の装置から当該監視ビデオを取得することが可能となり、本開示の実施例でそれに対して詳しく限定しないと説明すべきである。

ここで、スマート撮影装置は、監視エリア内の監視ビデオを収集するように構成され、且つ、スマート撮影装置が監視エリア内の監視ビデオを収集する過程については、関連技術を参考できるため、本開示の実施例でそれに対して詳しく限定しない。

また、スマート撮影装置は、有線または無線ネットワークを介してサーバまたは他の装置と通信することができ、スマート撮影装置が無線ネットワークを介してサーバまたは他の装置と通信する場合、スマート撮影装置は、内蔵されたワイファイ（英語：ＷＩｒｅｌｓｓ−ＦＩｄｅｌｉｔｙ、略称：ＷＡＩＦＩ）、ブルートース（登録商標）または他の無線通信チップを介してサーバまたは他の装置と通信することができ、本開示の実施例でそれに対して詳しく限定しない。

（２）当該監視ビデオの各フレームのビデオ画像に対し、サーバは、指定された分類モデルに基づいて、当該ビデオ画像に含まれるオブジェクトの所属する類別を確定する。

指定された分類モデルは、画像に対応するオブジェクト類別を確定することに用いられ、且つ、指定された分類モデルは、予め構築されることができると説明すべきである。

指定された分類モデルが予め構築されることができるため、且つ、オブジェクト類別の確定効率を向上させるために、指定された分類モデルは、一般的に、プリセット寸法の画像を処理し、当該画像に含まれるオブジェクトの所属するオブジェクト類別を確定することができ、従って、サーバは、指定された分類モデルに基づいて、当該ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別を確定する場合、サーバは、監視ビデオのビデオ画像に、当該オブジェクトの所在エリアを切り取り、オブジェクト画像を取得し、且つ、オブジェクト画像の寸法をプリセット寸法に処理し、その後、指定された分類モデルおよび処理されたオブジェクト画像に基づいて、当該オブジェクトの所属するオブジェクト類別を確定することができる。

ここで、サーバは、監視ビデオのビデオ画像に、前記オブジェクトの所在エリアを切り取り、オブジェクト画像を取得した場合、当該オブジェクトの所在するビデオ画像から当該オブジェクトの外接矩形を切り取り、且つ、当該外接矩形を監視ビデオの当該オブジェクトが所在する画像エリア、即ちオブジェクト画像として確定することができる。当然、サーバは、他の方式で当該オブジェクトの所在エリアを切り取り、オブジェクト画像を取得することができるが、本開示の実施例でそれに対して詳しく限定しない。

また、プリセット寸法は、予め設定されることができ、例えば、プリセット寸法は、２２４＊２２４画素、３００＊３００画素などであり、本開示の実施例でそれに対して詳しく限定しない。

サーバが指定された分類モデルおよび処理されたオブジェクト画像に基づいて、当該オブジェクトの所属するオブジェクト類別を確定する過程については、関連技術を参考できるため、本開示の実施例でそれに対して詳しく限定しないと説明すべきである。

（３）サーバは、当該ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別に基づいて、当該ビデオ画像に含まれるオブジェクトの所属するキーワードを確定する。

当該ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別が人間、またはペット、または他の物体である可能性があり、当該ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別が人間またはペットである場合、端末は、監視ビデオの特定の身元を有する人間またはペットがいるビデオセグメントを取得する必要があり、従って、サーバが当該ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別に基づいて、当該ビデオ画像に含まれるオブジェクトの所属するキーワードを確定する操作は、ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別が人間である場合、サーバが当該オブジェクトに対して顔識別を行い、顔特徴を取得し、その後、当該顔特徴に基づいて、記憶された顔特徴と身元識別子との対応関係から、対応する身元識別子を取得し、且つ、当該身元識別子を当該ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することであってよい。当該ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別がペットである場合、サーバは、当該ビデオ画像に基づいて、ペット識別子を取得し、且つ、当該ペット識別子に基づいて、記憶されたペット識別子と身元識別子との対応関係から、対応する身元識別子を取得し、当該身元識別子を当該ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定する。ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別が人間、ペットではない場合、サーバは、直接当該オブジェクト類別を当該ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することができる。

サーバが当該オブジェクトに対して顔識別を行い、顔特徴を取得する過程については、関連技術を参考できるため、本開示の実施例で詳しく限定しないと説明すべきである。

また、ペット識別子は、当該ペットを唯一に識別することに用いられ、且つ、当該ペット識別子は、当該ペットに付けられた二次元コード、バーコード、または他の識別可能な識別子で取得されることができ、本開示の実施例でそれに対して詳しく限定しないと説明すべきである。

例えば、ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別が人間である場合、サーバは、当該オブジェクトに対して顔識別を行い、顔特徴Ａを取得し、その後、顔特徴Ａに基づいて、下記の表３に示す顔特徴と身元識別子との対応関係から、Ａに対応する身元識別子である楊楽楽を取得した場合、サーバは、楊楽楽を当該ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することができる。

本開示の実施例において、前記表３に示す顔特徴と身元識別子との対応関係だけを例として説明するが、前記表３は、本開示の実施例に対して限定を構成しないと説明すべきである。

また、例えば、ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別がペットである場合、サーバは、当該ビデオ画像に基づいて、当該ペットに付けられた二次元コード、バーコードまたは他の識別可能な識別子をスキャンし、ペット識別子ＩＤ１を取得し、その後、当該ペット識別子ＩＤ１に基づいて、下記の表４に示すペット識別子と身元識別子との対応関係から、ＩＤ１に対応する身元識別子である豆豆を取得した場合、サーバは、豆豆を当該ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することができる。

本開示の実施例に、前記表４に示すぺット識別子と身元識別子との対応関係だけを例として説明するが、前記表４は、本開示の実施例に対して限定を構成しないと説明すべきである。

さらに、サーバは、当該顔特徴に基づいて、記憶された顔特徴と身元識別子との対応関係から、対応する身元識別子を取得する前に、サーバは、端末から送信された第一設定情報を受信でき、当該第一設置情報に当該オブジェクトの身元識別子および当該オブジェクトの顔画像が携帯され、サーバは、当該顔画像に対して特徴抽出を行い、当該オブジェクトの顔特徴を取得し、当該顔特徴と当該身元識別子を顔特徴と身元識別子との対応関係に記憶する。

例えば、端末から送信された第一設定情報に身元識別子と顔画像が携帯され、且つ、当該身元識別子が楊楽楽であり、サーバは、当該顔画像に対して、特徴抽出を行い、顔特徴Ａを取得した場合、サーバは、Ａと楊楽楽を表３に示す顔特徴と身元識別子との対応関係に記憶することができる。

さらに、サーバは、当該ペット識別子に基づいて、記憶されたペット識別子と身元識別子との対応関係から、対応する身元識別子を取得する前に、サーバは、端末から送信された第二設定情報を受信でき、当該第二設定情報に当該オブジェクトの身元識別子および当該オブジェクトのペット識別子が携帯され、サーバは、当該ペット識別子と当該身元識別子を顔特徴と身元識別子との対応関係に記憶する。

例えば、端末から送信された第二設定情報に身元識別子とペット識別子が携帯され、且つ身元識別子が豆豆であり、ペット識別子がＩＤ１である場合、サーバは、ＩＤ１と豆豆を表４に示すペット識別子と身元識別子との対応関係に記憶することができる。

（４）サーバは、当該キーワードと当該監視ビデオに基づいて、インデックスライブラリを生成する。

インデックスライブラリにキーワードと監視時点との対応関係だけではなく、キーワードとビデオ画像との対応関係が記憶されることができるので、サーバが当該キーワードと当該監視ビデオとの対応関係に基づいて、インデックスライブラリを生成する操作は、インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、サーバが当該監視ビデオから、当該ビデオ画像の所在する監視時点を確定し、当該キーワードと当該監視時点をインデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶することであってよい。インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、サーバは、当該キーワードと当該ビデオ画像をインデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶する。

監視ビデオに当該監視ビデオの各フレームのビデオ画像に対応する監視時点が含まれるため、サーバは、あるオブジェクトのビデオ画像が存在することを確定した場合、当該ビデオ画像に基づいて、当該ビデオ画像の所属する監視ビデオから当該ビデオ画像に対応する監視時点を取得することができ、その後、サーバは、当該オブジェクトの所属するキーワードと当該監視時点をインデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶することができる。

例えば、当該オブジェクトの所属するキーワードが楊楽楽であり、サーバが当該監視ビデオから、楊楽楽がいるビデオ画像の所在する監視時点が２０１５／０８／０３−０９：０５：３１であることを確定した場合、サーバは、楊楽楽と２０１５／０８／０３−０９：０５：３１を表１に示すキーワードとビデオ画像との対応関係に記憶することができる。

さらに、例えば、当該オブジェクトの所属するキーワードが楊楽楽であり、当該監視ビデオの楊楽楽がいるビデオ画像が３．ＪＰＥＧである場合、サーバは、楊楽楽と３．ＪＰＥＧを表２に示すキーワードとビデオ画像との対応関係に記憶することができる。

第二方式：ターゲットオブジェクト情報にターゲットオブジェクトの所在するターゲット画像が含まれる場合、サーバは、指定された分類モデルとターゲット画像に基づいて、ターゲットオブジェクトの所属するターゲット類別を確定し、且つ、ターゲット類別に基づいて、ターゲットオブジェクトの所属するターゲットキーワードを確定し、さらに、ターゲットキーワードに基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定する。

ここで、サーバは、指定された分類モデルとターゲット画像に基づいて、ターゲットオブジェクトの所属するターゲット類別を確定した場合、サーバは、ターゲット画像の寸法をプリセット寸法に処理し、指定された分類モデルと処理されたターゲット画像に基づいて、当該ターゲット画像に含まれるターゲットオブジェクトの所属するターゲット類別を確定することができる。

サーバが指定された分類モデルと処理されたターゲット画像に基づいて、当該ターゲットオブジェクトの所属するターゲット類別を確定する過程については、関連技術を参考できるため、本開示の実施例で詳しく説明しないと説明すべきである。

サーバがターゲット類別に基づいて、ターゲットオブジェクトの所属するターゲットキーワードを確定する過程は、ステップ３０２の第一方式におけるステップ（３）の確定過程と類似するので、本開示の実施例で説明は、省略すると説明すべきである。

また、サーバがターゲットキーワードに基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定する過程は、ステップ３０２の第一方式における確定過程と同様であるので、本開示の実施例で説明は、省略すると説明すべきである。

ステップ３０３、端末は、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを端末に送信し、端末に当該ビデオセグメントを再生させる。

端末は、当該ビデオセグメントを再生する場合、端末に設置された再生モジュールにより再生できるだけではなく、当然、端末は、自体にインストールされた再生アプリケーションプログラムにより再生でき、本開示の実施例でそれに対して詳しく限定しないと説明すべきである。

本開示の実施例において、サーバは、監視ビデオを取得し、指定された分類モデルに基づいて当該ターゲット画像に含まれるターゲットオブジェクトの所属するオブジェクト類別を確定し、さらに当該オブジェクト類別に基づいて、当該オブジェクトの所属するキーワードを確定し、当該キーワードと当該キーワードに対応する監視時点または当該キーワードと当該キーワードに対応するビデオ画像をインデックスライブラリに記憶し、その後、サーバは、再生要求を受信した場合、当該再生要求に携帯されるターゲットオブジェクト情報に基づいて、ターゲットオブジェクトの所属するターゲットキーワードを確定し、且つ、当該ターゲットキーワードと記憶されたインデックスライブラリに基づいて、当該監視ビデオの当該ターゲットオブジェクトが所在する、少なくとも１フレームのビデオ画像を取得し、当該少なくとも１フレームのビデオ画像を監視ビデオのターゲットオブジェクトが所在するビデオセグメントに構成し、さらに当該ビデオセグメントを端末に送信し、これにより、端末が直接当該監視ビデオのターゲットオブジェクトが存在するビデオセグメントを再生することが可能となり、当該監視ビデオの当該ターゲットオブジェクト以外のオブジェクトが所在するビデオセグメントを再生する必要がなく、さらに。ユーザが当該監視ビデオの再生を手動で調整してターゲットオブジェクトが所在するビデオを視聴することを回避し、操作が簡単であり、かつビデオの再生効率を向上させる。

図４は例示的な実施例によるビデオ再生のための装置のブロック図である図４を参照し、当該装置は、受信モジュール４０１、確定モジュール４０２と送信モジュール４０３を含む。

受信モジュール４０１は、再生要求を受信するように構成され、再生要求に情報が携帯され、ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像またはターゲットオブジェクトの所属するターゲットキーワードを含む。

確定モジュール４０２は、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定するように構成される。

送信モジュール４０３は、ビデオセグメントを端末に送信し、端末にビデオセグメントを再生させるように構成される。

本開示の別の実施例において、図５を参照し、当該確定モジュール４０２は、
ターゲットオブジェクト情報にターゲットオブジェクトの所在するターゲット画像が含まれる場合、指定された分類モデルとターゲット画像に基づいて、ターゲットオブジェクトの所属するターゲット類別を確定するように構成される第一確定ユニット４０２１と、
ターゲット類別基づいて、ターゲットオブジェクトの所属するターゲットキーワードを確定するように構成される第二確定ユニット４０２２と、
ターゲットキーワードに基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定するように構成される第三確定ユニット４０２３とを含む。

本開示の別の実施例において、図６を参照し、当該確定モジュール４０２は、第一取得ユニット４０２４と構成ユニット４０２５を含む。

第一取得ユニット４０２４は、ターゲットオブジェクト情報に対応するターゲットキーワードと記憶されるインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得するように構成される。

構成ユニット４０２５は、少なくとも１フレームのビデオ画像を監視ビデオのターゲットオブジェクトが所在するビデオセグメントに構成するように構成される。

本開示の別の実施例において、図７を参照し、当該第一取得ユニット４０２４は、第一取得サブユニット４０２４１と第二取得サブユニット４０２４２を含む。

第一取得サブユニット４０２４１は、インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、ターゲットオブジェクト情報に対応するターゲットキーワードに基づいて、キーワードと監視時点との対応関係から、少なくとも一つの監視時点を取得するように構成される。

第二取得サブモジュール４０２４２は、少なくとも一つの監視時点に基づいて、監視ビデオから少なくとも１フレームのビデオ画像を取得するように構成される。

本開示の別の実施例において、当該第一取得サブユニット４０２４は、
第三取得サブユニットールは、インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、ターゲットオブジェクト情報に対応するターゲットキーワードに基づいて、キーワードとビデオ画像との対応関係から、少なくとも１フレームのビデオ画像を取得するように構成される。

本開示の別の実施例において、図８を参照し、当該確定モジュール４０２は、さらに第二取得ユニット４０２６、第四確定ユニット４０２７、第五確定ユニット４０２８と生成ユニット４０２９を含む。

第二取得ユニット４０２６は、スマート撮影装置から送信された監視ビデオを受信するように構成される。

第四確定ユニット４０２７は、監視ビデオ内の各フレームのビデオ画像に対して、指定された分類モデルに基づいて、ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別を確定するように構成される。

第五確定ユニット４０２８は、オブジェクト類別に基づいて、ビデオ画像に含まれるオブジェクトの所属するキーワードを確定するように構成される。

生成ユニット４０２９は、キーワードと監視ビデオに基づいて、インデックスライブラリを生成するように構成される。

本開示の別の実施例において、図９を参照し、当該第五確定ユニット４０２８は、識別サブユニット４０２８１、第四取得サブユニット４０２８２、第一確定サブユニット４０２８３を含む。

識別サブユニット４０２８１は、オブジェクト類別が人間である場合、ビデオ画像に含まれるオブジェクトに対して、顔識別を行い、顔特徴を取得するように構成される。

第四取得サブユニット４０２８２は、顔特徴に基づいて、記憶された顔特徴と身元識別子の対応関係から、対応する身元識別子を取得するように構成される。

第一確定サブユニット４０２８３は、身元識別子をビデオ画像に含まれるオブジェクトの所属するキーワードとして確定するように構成される。

本開示の別の実施例において、図１０を参照し、当該生成ユニット４０２９は、第二確定サブユニット４０２９１と第一記憶サブユニット４０２９２を含む。

第二確定サブユニット４０２９１は、監視ビデオからビデオ画像の所在する監視時点を確定するように構成される。

第一記憶サブユニット４０２９２は、キーワードと監視時点をインデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶するように構成される。

本開示の別の実施例において、当該生成ユニット４０２９は、
キーワードとビデオ画像をインデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶するように構成される第二記憶サブユニットを含む。

本開示の実施例において、サーバは、再生要求を受信し、当該再生要求にターゲットオブジェクト情報が携帯され、サーバは、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定し、当該ビデオセグメントを端末に送信し、これにより、端末が直接当該監視ビデオのターゲットオブジェクトが存在するビデオセグメントを再生することが可能となり、監視ビデオの当該ターゲットオブジェクト以外のオブジェクトが存在するビデオセグメントを再生する必要がなく、さらにユーザが当該監視ビデオの再生を手動で調整してターゲットオブジェクトが所在するビデオを視聴することを回避し、操作が簡単であり、且つビデオの再生効率を向上させる。

前記実施例の装置に関して、その中の各モジュールが操作を実行する具体的な方式は、既に当該方法に関する実施例で詳しく説明されたので、ここで詳しく説明しない。

図１１は例示的な実施例によるビデオ再生のための装置１１００のブロック図である。例えば、装置１１００は、サーバとして提供されることができる。図１１を参照し、装置１１００は、一つまたは複数のプロセッサが含まれる処理コンポーネント１１２２、および処理コンポーネント１１２２で実行可能な命令、例えばアプリケーションプログラムを記憶するように構成される、メモリ１１３２によって代表されるメモリリソースを含む。メモリ１１３２に記憶されたアプリケーションプログラムは、それぞれが１グループの命令に対応する一つまたは複数のモジュールを含む。

装置１１００は、さらに、装置１１００の電源管理を実行するように構成される電源コンポーネント１１２６、装置１１００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１１５０、および入力／出力（Ｉ／Ｏ）インタフェース１１５８を含むことができる。装置１１００は、メモリ１１３２に記憶された操作システム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）ＴＭ、Ｌｉｎｕｘ（登録商標）ＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似のシステムに基づいて操作されることができる。

また、処理コンポーネント１１２２は、下記のビデオ再生方法を実行するために、命令を実行するように構成され、前記方法は、
再生要求を受信し、再生要求にターゲットオブジェクト情報が携帯され、ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像またはターゲットオブジェクトの所属するターゲットキーワードを含むことと、
ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することと、
監視ビデオのターゲットオブジェクトが所在するビデオセグメントを端末に送信し、端末に当該ビデオセグメントを再生させることとを含む。

本開示の別の実施例において、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することは、
ターゲットオブジェクト情報にターゲットオブジェクトの所在するターゲット画像が含まれる場合、指定された分類モデルとターゲット画像に基づいて、ターゲットオブジェクトの所属するターゲット類別を確定することと、
ターゲット類別に基づいて、ターゲットオブジェクトの所属するターゲットキーワードを確定することと、
ターゲットキーワードに基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することとを含む。

本開示の別の実施例において、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定することは、
ターゲットオブジェクト情報に対応するターゲットキーワードと記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することと、
少なくとも１フレームのビデオ画像を監視ビデオのターゲットオブジェクトが所在するビデオセグメントに構成することとを含む。

本開示の別の実施例において、ターゲットオブジェクト情報に対応するターゲットキーワードと記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、ターゲットオブジェクト情報に対応するターゲットキーワードに基づいて、キーワードと監視時点との対応関係から、少なくとも１フレームの監視時点を取得することと、
少なくとも一つの監視時点に基づいて、監視ビデオから少なくとも１フレームのビデオ画像を取得することとを含む。

本開示の別の実施例において、ターゲットオブジェクト情報に対応するターゲットキーワードと記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、ターゲットオブジェクト情報に対応するターゲットキーワードに基づいて、キーワードとビデオ画像との対応関係から、少なくとも１フレームのビデオ画像を取得することを含む。

本開示の別の実施例において、ターゲットオブジェクト情報に対応するターゲットキーワードと記憶されたインデックスライブラリに基づいて、監視ビデオのターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
監視ビデオを取得することと、
監視ビデオ内の各フレームのビデオ画像に対して、指定された分類モデルに基づいて、ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別を確定することと、
オブジェクト類別に基づいて、ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することと、
キーワードと監視ビデオに基づいて、インデックスライブラリを生成することとを含む。

本開示の別の実施例において、オブジェクト類別に基づいて、ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することは、
オブジェクト類別が人間である場合、ビデオ画像に含まれるオブジェクトに対して顔識別を行い、顔特徴を取得することと、
顔特徴に基づいて、記憶される顔特徴と身元識別子の対応関係から対応する身元識別子を取得することと、
身元識別子をビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することとを含む。

本開示の別の実施例において、キーワードと監視ビデオに基づいてインデックスライブラリを生成することは、
監視ビデオから、ビデオ画像の所在する監視時点を確定することと、
キーワードと監視時点をインデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶することとを含む。

本開示の別の実施例において、キーワードと監視ビデオに基づいてインデックスライブラリを生成することは、
キーワードとビデオ画像をインデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶することを含む。

本開示の実施例において、サーバは、再生要求を受信し、当該再生要求にターゲットオブジェクト情報が携帯され、サーバは、ターゲットオブジェクト情報に基づいて、監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定し、当該ビデオセグメントを端末に送信し、これにより、端末は、直接当該監視ビデオのターゲットオブジェクトが所在するビデオセグメントを再生することが可能となり、当該監視ビデオのターゲットオブジェクト以外のオブジェクトが所在するビデオセグメントを再生する必要がなく、さらにユーザが当該監視ビデオの再生を手動で調整してターゲットオブジェクトの所在するビデオを視聴することを回避し、操作が簡単であり、且つビデオの再生効率を向上させる。

当業者は、明細書を考慮してここで開示された発明を実践した後、本発明の他の実施形態を容易に想到する。本出願は、本発明のいかなる変形、用途または適応性変化をカバーすることを意図しており、これらの変形、用途または適応性変化が本発明の一般的な原理に従って、且つ、本開示の実施例で開示されない本技術分野の公知常識または慣用技術手段を含む。明細書と実施例は、例示的なものと見なされるだけであり、本発明の真の範囲と精神は、以下の特許請求の範囲によって示される。

本発明は、以上に記載され且つ図面に示された精確な構造に限らず、且つ、その範囲から逸脱することなく様々な修正および変更を行うことができると理解すべきである。本発明の範囲は、添付の特許請求の範囲のみによって制限される。

本開示の実施例において、サーバは、再生要求を受信し、当該再生要求にターゲットオブジェクト情報が携帯され、サーバは、ターゲットオブジェクト情報に基づいて監視ビデオのターゲットオブジェクトが所在するビデオセグメントを確定し、且つ当該ビデオセグメントを端末に送信し、これにより、端末は、直接当該監視ビデオのターゲットオブジェクトが所在するビデオセグメントを再生することが可能となり、当該監視ビデオの当該ターゲットオブジェクト以外のオブジェクトが所在するビデオセグメントを再生する必要がなく、ユーザが当該監視ビデオの再生を手動で調整してターゲットオブジェクトの所在するビデオセグメントを視聴することを回避し、操作が簡単であり、且つビデオの再生効率を向上させる。

Claims

ビデオ再生のための方法であって、
再生要求を受信し、前記再生要求にターゲットオブジェクト情報が携帯され、前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像または前記ターゲットオブジェクトの所属するターゲットキーワードを含むことと、
前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することと、
前記ビデオセグメントを端末に送信し、前記端末に前記ビデオセグメントを再生させることとを含む、前記ビデオ再生のための方法。
前記の前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することは、
前記ターゲットオブジェクト情報にターゲットオブジェクトの所在する画像が含まれる場合、指定された分類モデルおよび前記ターゲット画像に基づいて、前記ターゲットオブジェクトの所属するターゲット類別を確定することと、
前記ターゲット類別に基づいて、前記ターゲットオブジェクトの所属するターゲットキーワードを確定することと、
前記ターゲットキーワードに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することとを含むことを特徴とする
請求項１に記載の方法。
前記の前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定することは、
前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することと、
前記少なくとも１フレームのビデオ画像を前記監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントに構成することとを含むことを特徴とする
請求項１に記載の方法。
前記の前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
前記インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードと監視時点との対応関係から、少なくとも一つの監視時点を取得することと、
前記少なくとも一つの監視時点に基づいて、前記監視ビデオから少なくとも１フレームのビデオ画像を取得することとを含むことを特徴とする
請求項３に記載の方法。
前記の前記ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得することは、
前記インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードとビデオ画像との対応関係から、少なくとも１フレームのビデオ画像を取得することを含むことを特徴とする
請求項３に記載の方法。
前記の前記ターゲットオブジェクト情報に対応するターゲットキーワードおよび記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得する前に、さらに、
ビデオ画像を取得することと、
前記監視ビデオの各フレームのビデオ画像のに対して、指定された分類モデルに基づいて、前記ビデオ画像に含まれるオブジェクトの所属するオブジェクト類別を確定することと、
前記オブジェクト類別に基づいて、前記ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することと、
前記キーワードおよび前記監視ビデオに基づいて、前記インデックスライブラリを生成することとを含むことを特徴とする
請求項３〜５のいずれか１項に記載の方法。
前記の前記オブジェクト類別に基づいて、前記ビデオ画像に含まれるオブジェクトの所属するキーワードを確定することは、
前記オブジェクト類別が人間である場合、前記ビデオ画像に含まれるオブジェクトに対して顔識別を行い、顔特徴を取得することと、
顔特徴に基づいて、記憶された顔特徴と身元識別子との対応関係から、対応する身元識別子を取得することと、
前記身元識別子を前記ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定することとを含むことを特徴とする
請求項６に記載の方法。
前記の前記キーワードと前記監視ビデオに基づいて、前記インデックスライブラリを生成することは、
前記監視ビデオから、前記ビデオ画像の所在する監視時点を確定することと、
前記キーワードと前記監視時点を前記インデックスライブラリに含まれるキーワードと監視時点との対応関係内に記憶することとを含むことを特徴とする
請求項６に記載の方法。
前記の前記キーワードと前記監視ビデオに基づいて、前記インデックスライブラリを生成することは、
前記キーワードと前記ビデオ画像を前記インデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶することを含むことを特徴とする
請求項６に記載の方法。
ビデオ再生のための装置であって、
再生要求を受信するように構成され、前記再生要求にターゲットオブジェクト情報が携帯され、前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像または前記ターゲットオブジェクトの所属するターゲットキーワードを含む受信モジュールと、
前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定するように構成される確定モジュールと、
前記ビデオセグメントを端末に送信し、端末に前記ビデオセグメントを再生させるように構成される送信モジュールとを含む、前記ビデオ再生のための装置。
前記確定モジュールは、
前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像を含む場合、指定された分類モデルおよび前記ターゲット画像に基づいて、前記ターゲットオブジェクトの所属するオブジェクト類別を確定するように構成される第一の確定ユニットと、
前記ターゲット類別に基づいて、前記ターゲットオブジェクトの所属するターゲットキーワードを確定するように構成される第二確定ユニットと、
前記ターゲットキーワードに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定するように構成される第三確定ユニットとを含むことを特徴とする
請求項１０に記載の装置。
前記確定モジュールは、
前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードと記憶されたインデックスライブラリに基づいて、前記監視ビデオの前記ターゲットオブジェクトが所在する少なくとも１フレームのビデオ画像を取得するように構成される第一の取得ユニットと、
前記少なくとも１フレームのビデオ画像を前記監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントに構成するように構成される構成ユニットとを含むことを特徴とする
請求項１０に記載の装置
前記第一取得ユニットは、
前記インデックスライブラリにキーワードと監視時点との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードと監視時点との対応関係から、少なくとも一つの監視時点を取得するように構成される第一取得サブユニットと、
前記少なくとも一つの監視時点に基づいて、前記監視ビデオから少なくとも１フレームのビデオ画像を取得するように構成される第二取得サブユニットとを含むことを特徴とする
請求項１２に記載の装置。
前記第一取得ユニットは、
前記インデックスライブラリにキーワードとビデオ画像との対応関係が記憶された場合、前記ターゲットオブジェクト情報に対応する前記ターゲットキーワードに基づいて、前記キーワードとビデオ画像との対応関係から少なくとも１フレームのビデオ画像を取得するように構成される第三取得サブユニットを含むことを特徴とする
請求項１２に記載の装置。
前記確定モジュールは、さらに、
監視画像を取得するように構成される第二取得ユニットと、
前記監視ビデオの各フレームのビデオ画像に対して、指定された分類モデルに基づいて、前記ビデオ画像に含まれるオブジェクトの所属するターゲット類別を確定するように構成される第四確定ユニットと、
前記オブジェクト類別に基づいて、前記ビデオ画像に含まれるオブジェクトの所属するキーワードを確定するように構成される第五確定ユニットと、
前記キーワードと前記監視ビデオに基づいて、前記インデックスライブラリを生成するように構成される生成ユニットとを含むことを特徴とする
請求項１２〜１４のいずれか１項に記載の前記装置。
前記第五確定ユニットは、
前記オブジェクト類別が人間である場合、前記ビデオ画像に含まれるオブジェクトに対して、顔識別を行い、顔特徴を取得するように構成される識別サブユニットと、
前記顔特徴に基づいて、記憶された顔特徴と身元識別子との対応関係から対応する身元識別子を取得するように構成される第四取得サブユニットと、
前記身元識別子を前記ビデオ画像に含まれるオブジェクトの所属するキーワードとして確定するように構成される第一確定サブユニットとを含むことを特徴とする
請求項１５に記載の装置。
前記生成ユニットは、
前記監視ビデオから、前記ビデオ画像の所在する監視時点を確定するように構成される第二確定サブユニットと、
前記キーワードと前記監視時点を前記インデックスライブラリに含まれるキーワードと監視時点との対応関係に記憶するように構成される第一記憶サブユニットとを含むことを特徴とする
請求項１５に記載の装置。
前記生成ユニットは、
前記キーワードと前記ビデオ画像を前記インデックスライブラリに含まれるキーワードとビデオ画像との対応関係に記憶するように構成される第二記憶サブユニットを含むことを特徴とする
請求項１５に記載の装置。
ビデオ再生のための装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、
ここで、前記プロセッサは、
再生要求を受信し、前記再生要求にターゲットオブジェクト情報が携帯され、前記ターゲットオブジェクト情報がターゲットオブジェクトの所在するターゲット画像または前記ターゲットオブジェクトの所属するターゲットキーワードを含み、
前記ターゲットオブジェクト情報に基づいて、監視ビデオの前記ターゲットオブジェクトが所在するビデオセグメントを確定し、
前記ビデオセグメントを端末に送信し、前記端末に前記ビデオセグメントを再生させるように構成される、ビデオ再生のための装置。