JP2024502516A

JP2024502516A - データ注釈方法、装置、システム、デバイスおよび記憶媒体

Info

Publication number: JP2024502516A
Application number: JP2023508558A
Authority: JP
Inventors: 磊王; 迎王; 暁▲ティン▼ ▲ザン▼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-08
Filing date: 2022-06-20
Publication date: 2024-01-22
Also published as: EP4224338A1; WO2023103329A1; EP4224338A4; CN114168767A; KR20230088332A

Abstract

本発明は、データ注釈方法、装置、システム、デバイスおよび記憶媒体を提供し、データ処理技術分野に関し、特に、人工知能、ビッグデータ、ディープラーニングなどの分野に関する。本発明の具体的な実現手段は、内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含み、各オブジェクトに対して、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、２つ前のピクチャーは時系列で１つ前のピクチャーの前にあって、１つ前のピクチャーに隣接するピクチャーであり、１つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することである。本発明によれば、複数のピクチャーにおいて、同じオブジェクトを注釈する速度を高めることができる。【選択図】図３

Description

本発明は、２０２１年１２月８日に中国特許局に提出した、出願番号が２０２１１１４８９６７９．１であり、発明名称が「データ注釈方法、装置、システム、デバイスおよび記憶媒体」である中国特許出願を優先権として主張し、その内容の全ては、援用により本発明に組み込まれる。

本発明は、データ処理技術分野に関し、特に、人工知能、ビッグデータ、およびディープラーニングなどの分野に関する。

データを注釈することは、コンピューター研究・応用分野で重要な過程である。例えば、大量の注釈されたデータに基づいてモデルのトレーニングなどを行う。

本発明は、データ注釈方法、装置、システム、デバイスおよび記憶媒体を提供する。

本発明の第１態様では、データ注釈方法を提供する。前記データ注釈方法は、
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含むことと、
各オブジェクトに対して、隣接する２つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、前記１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記２つ前のピクチャーは時系列で前記１つ前のピクチャーの前にあって、前記１つ前のピクチャーに隣接するピクチャーであることと、
前記１つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定することと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することと、を含む。

本発明の第２態様では、データ注釈装置を提供する。前記データ注釈装置は、
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含む、第１取得モジュールと、
各オブジェクトに対して、隣接する２つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、前記１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記２つ前のピクチャーは時系列で前記１つ前のピクチャーの前にあって、前記１つ前のピクチャーに隣接するピクチャーであり、前記１つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定する、確定モジュールと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈する、注釈モジュールと、を含む。

本発明の第３態様では、データ注釈システムを提供する。前記データ注釈システムは、注釈システムバックエンドと注釈システムフロントエンドとを含み、
前記注釈システムバックエンドは、内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含み、各オブジェクトに対して、隣接する２つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、前記１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記２つ前のピクチャーは時系列で前記１つ前のピクチャーの前にあって、前記１つ前のピクチャーに隣接するピクチャーであり、前記１つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定し、前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈し、
前記注釈システムフロントエンドは、前記注釈システムバックエンドが前記注釈対象ピクチャーにおける前記オブジェクトに対する注釈を展示する。

本発明の第４態様では、電子デバイスを提供する。前記電子デバイスは、
少なくとも１つのプロセッサーと、
前記少なくとも１つのプロセッサーと通信接続しているメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサーによって実行される命令が記憶されており、前記少なくとも１つのプロセッサーによって前記命令を実行することにより、前記少なくとも１つのプロセッサーが第１態様に記載の方法を実行できる。

本発明の第五態様では、コンピューター命令が記憶されている非一時的なコンピューター可読記憶媒体を提供する。ここで、前記コンピューター命令は、前記コンピューターに第１態様に記載の方法を実行させる。

本発明の第六態様では、コンピュータープログラム製品を提供する。前記コンピュータープログラム製品は、コンピュータープログラムを含み、前記コンピュータープログラムは、プロセッサーによって実行されると、第１態様に記載の方法を実現する。

本発明は、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、１つ前のピクチャーの位置情報および位置シフト量に基づいて注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することができる。これにより、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避し、複数のピクチャーに同じオブジェクトを注釈する速度を高めることができる。

この部分で記述された内容は、本発明実施例の要旨又は重要な特徴を特定することを意図しておらず、本発明の範囲に対する限定にならないことを理解すべきである。本発明の他の特徴は、以下の明細書によって容易に理解される。

以下の図面は、本技術案をより理解するためのものであり、本発明に対する限定にならない。
図１は本発明実施例におけるブロック選択の模式図である。図２は本発明実施例におけるピクチャーにオブジェクトタグを注釈する模式図である。図３は本発明実施例が提供するデータ注釈方法のフローチャートである。図４は本発明実施例における動画データに対応する時間順に並べた複数のピクチャーを確定するフローチャートである。図５は本発明実施例におけるシステムのインタラクションの模式図である。図６は本発明実施例が提供するデータ注釈方法の応用の模式図である。図７は本発明実施例が提供するデータ注釈装置の一構成模式図である。図８は本発明実施例が提供するデータ注釈装置の別の構成模式図である。図９は本発明実施例が提供するデータ注釈装置のさらに別の構成模式図である。図１０は本発明実施例が提供するデータ注釈システムの一構成模式図である。図１１は本発明実施例が提供するデータ注釈システムの別の構成模式図である。図１２は本発明実施例のデータ注釈方法を実現するための電子デバイスのブロック図である。

本発明の目的、技術案、及び利点をより明らかに説明するためには、以下、図面を参照し実施例を挙げて、本発明をさらに詳しく説明する。勿論、説明される実施例は単に本発明の一部の実施例に過ぎず、すべての実施例ではない。本発明の実施例に基づき、当業者が進歩性を有する努力をせずに想到し得るほかの実施例はすべて本発明の保護範囲に属する。

以下、附図を参照しながら、本発明の例示的な実施例に対して説明する。理解の便宜上、本発明実施例の様々な詳細が含まれるが、これらは例示的なものに過ぎないとみなされるべきである。そのため、当業者であれば、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができることを認識するべきである。また、以下の説明では、明確や簡潔のために、公知の機能や構成に対する説明を省略する。

現在、スマートシティという概念での人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）アプリケーションは、多くの場合にはカメラが収集した画面に対して注釈する必要がある。例えば、オブジェクトが撮像範囲に入ってから、当該オブジェクトが撮像範囲から離れるまで、オブジェクトを注釈する。これは、カメラが撮ったピクチャーに対して注釈することと理解してよい。

通常、ブロック選択することで注釈を行い、ブロック選択する同時に、異なるオブジェクトに対して、例えば、船、車両などの異なる物体に対して、異なるＩＤ（タグ）をマークすることで、同じＩＤによって、異なる画面において同一オブジェクトが識別される。ここで、ブロック選択とは、ピクチャーにおけるあるオブジェクトを中心として、当該オブジェクトの最大カバー範囲を注釈することである。図１に示すように、矩形の枠で１つの船をブロック選択した。オブジェクトに対してＩＤをマークした。オブジェクトの付近に１つのＩＤをマークすることができる。図２のように、ピクチャーにおいて、船のＩＤを１としてマークした。その後のピクチャーには、当該船の位置が変化する可能性があり、例えば、左下にずれている場合、位置が変化した後の当該船に対して、１つ前のピクチャーと同じＩＤ：１をマークし続ける必要がある。

本発明実施例が提供するデータ注釈方法は、電子デバイスに用いられることができる。具体的には、電子デバイスは、端末装置、サーバーなどであってよい。

本発明実施例は、データ注釈方法を提供する。前記データ注釈方法は、
内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含むことと、
各オブジェクトに対して、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、２つ前のピクチャーは時系列で１つ前のピクチャーの前にあって、１つ前のピクチャーに隣接するピクチャーであることと、
１つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定することと、
予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することと、を含む。

本発明は、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、１つ前のピクチャーの位置情報および位置シフト量に基づいて注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトに対して注釈を行うことができる。これにより、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避し、複数のピクチャーに同じオブジェクトを注釈する速度を高めることができる。

なお、注釈者は記憶に基づいて同じオブジェクトを注釈すると、人為的なミスが発生しやすい。例えば、オブジェクトが何度も撮像範囲内に入り、異なる注釈のニーズがある場合、ミスが発生する可能性が大きくなる。例えば、同一オブジェクトが何度も撮像範囲に入った場合は同じＩＤを用いる要求がある。本発明実施例では、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避でき、さらに、注釈の正確度を向上することができる。

図３は本発明実施例が提供するデータ注釈方法のフローチャートである。図３を参照して、本発明実施例が提供するデータ注釈方法は、以下のステップを含んでよい。

Ｓ３０１において、内容が連続する複数のピクチャーを取得する。
複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含む。

オブジェクトとは、ピクチャーにおけるターゲット、例えば、船、車両などの物体と理解してもよい。

内容が連続するとは、複数のピクチャーにおける内容が連続していることを指す。具体的には、内容が連続する複数のピクチャーは、動画における連続フレームであってもよく、時間順に並べた複数のピクチャー、例えば、動画データからフレーム抽出して得られた複数のピクチャーなどであってもよい。

１つの実現可能な形態において、画像取集デバイスが取集したピクチャーをリアルタイムで受けてよい。内容が連続する複数のピクチャーは画像取集デバイスがリアルタイムで取集した連続フレームである。ここで、画像取集デバイスは、ビデオカメラ、カメラなどを含んでもよい。

別の実現可能な形態において、データベースから、格納されている動画データに対応する時間順に並べた複数のピクチャーを取得してもよい。内容が連続する複数のピクチャーとして、動画データにおけるすべてのフレームを取得してもよく、動画における一部のフレームを取得してもよい。例えば、画像取集デバイスがデバイスデータを取集した後、動画データをデータベースに格納し、動画データをフレーム抽出して並べて、動画データに対応する時間順に並べた複数のピクチャーを取得し、動画データに対応する時間順に並べた複数のピクチャーをデータベースに格納する。

Ｓ３０２において、各オブジェクトに対して、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定する。

ここで、隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、２つ前のピクチャーは時系列で１つ前のピクチャーの前にあって、１つ前のピクチャーに隣接するピクチャーである。

１つの実現可能な形態において、当該位置シフト量は、１つ前のピクチャーにおけるオブジェクトの位置情報から当該２つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものであってよい。

別の実現可能な形態において、当該位置シフト量は、２つ前のピクチャーにおけるオブジェクトの位置情報から当該１つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものであってもよい。

Ｓ３０３において、１つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定する。

通常、内容が連続する複数のピクチャー（例えば、動画における連続フレーム）における同一オブジェクトの位置変化は規律があり、例えば、同一オブジェクトについて、１つのピクチャーにおける位置が当該ピクチャーの内容と連続する１つ前のピクチャーにおける位置に対する変化は、変化１と理解してよく、当該ピクチャーの内容と連続する１つ後ろのピクチャーにおける当該オブジェクトの位置が当該ピクチャーにおける当該オブジェクトの位置に対する変化は、変化２と理解してよく、変化１と変化２との間の差は、一般に小さく、ひいて変化１と変化２は同じである可能性もある。本発明実施例では、隣接する２つのピクチャーにおける同一オブジェクトの位置情報によって注釈対象ピクチャーにおける当該オブジェクトの予測位置情報を確定することができる。簡単に理解すると、隣接する２つのピクチャーにおける同一オブジェクトの位置情報によって注釈対象ピクチャーにおける当該オブジェクトの位置情報を予測する。

１つの実現可能な形態において、位置シフト量が１つ前のピクチャーにおけるオブジェクトの位置情報から２つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものである場合、Ｓ３０３は、１つ前のピクチャーにおけるオブジェクトの位置情報に当該位置シフト量を加算し、即ち、１つ前のピクチャーにおけるオブジェクトの位置情報を元に、当該位置シフト量を増加することと理解してもよく、そして、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を取得すること、を含んでよい。

１つの実現可能な形態において、位置シフト量が２つ前のピクチャーにおけるオブジェクトの位置情報から１つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものである場合、Ｓ３０３は、１つ前のピクチャーにおけるオブジェクトの位置情報から当該位置シフト量を減算し、即ち、１つ前のピクチャーにおけるオブジェクトの位置情報元に、当該位置シフト量を減算することと理解してよく、そして、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を取得すること、を含んでよい。

注釈対象ピクチャーは、内容が連続する複数のピクチャーのうち、１つ目のピクチャーおよび２つ目のピクチャー以外の他のピクチャーを含んでよい。

複数のピクチャーにおける時間順に並べる１つ目のピクチャーおよび２つ目のピクチャーを注釈し、１つ目のピクチャーおよび２つ目のピクチャーにおけるオブジェクトの位置情報を後続の注釈のベースとして、即ち、１つ目のピクチャーおよび２つ目のピクチャーにおけるオブジェクトの位置情報に基づいて、後続の各ピクチャーにおける各オブジェクトのそれぞれの位置情報を予測すると理解してよい。

簡単に理解すると、隣接する２つのピクチャーによって次のピクチャーの位置を予測することである。例えば、時系列を有する５つのピクチャーについて、５つのピクチャーは１つの動画における連続フレームであってよく、例えば、１つの動画の一部である。または、５つのピクチャーは、動画からフレーム抽出し、並べて得られたピクチャーである。まず、１つ目のピクチャーおよび２つ目のピクチャーを注釈し、具体的に、１つ目のピクチャーにおける各オブジェクトの位置を注釈し、各オブジェクトの位置に当該オブジェクトのタグを注釈する。そして、２つ目のピクチャーにおいて、各オブジェクトに対して１つ目のピクチャーにおける同じタグを注釈し、２つ目のピクチャーにおける各オブジェクトの位置を注釈する。次に、各オブジェクトに対して、１つ目のピクチャーおよび２つ目のピクチャーによって３つ目のピクチャーにおける当該オブジェクトの位置を予測し、即ち、１つ目のピクチャーおよび２つ目のピクチャーにおける当該オブジェクトの位置情報によって当該オブジェクトの位置シフト量を確定し、２つ目のピクチャーにおける当該オブジェクトの座標から１つ目のピクチャーにおける当該オブジェクトの座標を減算して、座標の差を取得し、その座標の差は当該位置シフト量として理解されることができ、２つ目のピクチャーの位置情報に当該位置シフト量を加算して、３つ目のピクチャーにおける当該オブジェクトの位置情報を取得する。同様に、２つ目のピクチャーおよび３つ目のピクチャーによって４つ目のピクチャーにおける当該オブジェクトの位置を予測し、即ち、２つ目のピクチャーおよび３つ目のピクチャーにおける当該オブジェクトの位置情報によって当該オブジェクトの位置シフト量を確定し、３つ目のピクチャーにおける当該オブジェクトの座標から２つ目のピクチャーにおける当該オブジェクトの座標を減算して、座標の差を取得し、その座標の差は当該位置シフト量として理解されることができ、３つ目のピクチャーの位置情報に当該位置シフト量を加算して、４つ目のピクチャーにおける当該オブジェクトの位置情報を取得する。３つ目のピクチャーおよび４つ目のピクチャーによって５つ目のピクチャーにおける当該オブジェクトの位置を予測し、即ち、３つ目のピクチャーおよび４つ目のピクチャーにおける当該オブジェクトの位置情報によって当該オブジェクトの位置シフト量を確定し、４つ目のピクチャーにおける当該オブジェクトの座標から３つ目のピクチャーにおける当該オブジェクトの座標を減算して、座標の差を取得し、その座標の差は当該位置シフト量として理解されることができ、４つ目のピクチャーの位置情報に当該位置シフト量を加算して、５つ目のピクチャーにおける当該オブジェクトの位置情報を取得する。

ここで、５つのピクチャーは、隣接するピクチャーに基づいて注釈対象ピクチャーの位置を予測する過程を説明するためのものであり、実際応用の過程において、ピクチャーの数量がさらに多くなる可能性がある。

Ｓ３０４において、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈する。

１つの実現可能な形態において、注釈対象ピクチャーに、当該予測位置情報を直接に注釈し、当該予測位置情報に基づいて確定された位置に、オブジェクトのタグを注釈することができる。１つの形態において、当該予測位置情報が存在する位置は、注釈対象ピクチャーにおける当該オブジェクトの位置と理解してよく、かつ、当該位置に当該オブジェクトのタグを注釈することができる。これにより、注釈対象ピクチャーにおける当該オブジェクトの注釈を完成する。別の形態において、予測位置情報が１つの座標であり、当該座標を矩形の中心点として、当該中心点に基づいて１つの矩形を書くことができる。当該矩形が当該オブジェクトに対する矩形の枠であると理解してよく、当該矩形の枠の位置に当該オブジェクトのタグをマークすることができ、例えば、当該矩形の枠の左側に当該オブジェクトのタグをマークする。

このような形態は、各オブジェクトのタグおよび位置を人為的に記憶する難しさを回避し、マークの速度を高めることができ、かつ、各オブジェクトのタグおよび位置を人為的に記憶することによる注釈ミスを回避し、注釈の正確度を高めることができる。

別の実現可能な形態において、当該予測位置情報を展示することによって、注釈者は当該予測位置情報を校正し、校正後の予測位置情報を入力する。これにより、当該校正後の予測位置情報を受信し、注釈対象ピクチャーに校正後の予測位置情報を注釈することができる。注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置に、オブジェクトのタグを注釈する。１つの形態において、当該校正後の予測位置情報は、注釈対象ピクチャーにおける当該オブジェクトの位置と理解してよく、かつ、当該位置に当該オブジェクトのタグを注釈することができる。これにより、注釈対象ピクチャーにおける当該オブジェクトのマークを完成する。別の形態において、当該校正後の予測位置情報を矩形の中心点として、当該中心点に基づいて１つの矩形を書くことができる。当該矩形は当該オブジェクトに対する矩形の枠であると理解してよく、当該矩形の枠の位置に当該オブジェクトのタグをマークすることができ、例えば、当該矩形の枠の左側に当該オブジェクトのタグをマークする。

この方法は、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避し、注釈の速度を高めることができる。かつ、注釈者は、注釈の過程において、予測位置に対して少量の校正を行うことだけで、隣接するピクチャーにおける同一オブジェクトの位置記録の作業を完成でき、注釈者がＩＤを記憶する難しさを大幅に下げており、人間の記憶が注釈効率および正確性に与える影響を下げており、注釈速度および正確度を向上することができる。なお、得られた予測位置情報を校正することは、注釈の正確性をさらに向上することができる。

１つの好ましい実施例において、内容が連続する複数のピクチャーを取得することは、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得すること、を含む。

１つの動画データについて、動画データに対応する時間順に並べた複数のピクチャーは、動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順に従って、ピクチャーを並べて得られたものである。

時間順に並べた複数のピクチャーは、内容が連続する複数のピクチャーと理解してよい。即ち、異なる動画データにそれぞれ対応する、内容が連続する複数のピクチャーに対して注釈することを実現できる。動画の注釈において、連続画面における同じオブジェクトに対して継続的に注釈する効率を高めることを実現できる。

１つの実現可能な形態において、動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、電子デバイスが動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順に従って、ピクチャーを並べて得られたものであってよい。

図４に示すように、本発明実施例が提供するデータ注釈方法は、以下のステップを含む。

Ｓ４０１において、少なくとも１つの動画データを取得する。

１つの画像取集デバイスが取集した動画データを取得してよい。例えば、１つのビデオカメラは複数のカメラを備える場合、複数のカメラのそれぞれが取集した動画データを取得してよい。または、１つのカメラが異なる時間帯で取集した動画データをそれぞれ取得してよい。少なくとも２つの画像取集デバイスが取集した動画データのそれぞれを取得してもよい。

本発明実施例において、電子デバイスは直接に画像取集デバイスから動画データを取得することができ、または、画像取集デバイスは取集された動画データをデータベースに格納し、電子デバイスはデータベースから動画データを取得することなどができる。

１つの実現可能な形態において、少なくとも２つのビデオカメラによってデータをそれぞれ取集し、カメラにより得られたデータに対して番号を付け、各カメラがそれぞれ唯一の識別コードを有し、当該識別コードは、異なるカメラにより得られたデータを区別するために用いられる。例えば、番号１のカメラにより得られたすべてのデータに対して、「００１－」をデータファイル名のプレフィックスとして、番号２のカメラにより得られたデータに対して、「００２－」をデータファイル名のプレフィックスとして、以下はこのようにしてよい。

データファイルパッケージによってビデオカメラが取集したデータを格納することができる。データファイルのデータファイル名にはカメラに対応する標識コードを含むことで、当該標識コードは、当該データファイルに格納されているデータがどのカメラにより取集したデータであるかを標識するために用いられる。

１つの実現可能な形態において、異なるカメラにより得られたデータは、異なるデータファイルにそれぞれ格納することができ、即ち、１つのカメラが取集したすべてのデータが１つのデータファイルに格納されており、かつ、各データファイルに対して、当該データファイルのデータファイル名には、当該データファイルに格納されているデータに対応するカメラを標識するための標識コードを含む。これにより、異なるデータファイルから、異なる画像取集デバイスにより得られた動画データを取得しやすくなる。

Ｓ４０２において、各動画データについて、動画データをフレーム抽出し、動画データに対応するピクチャーを取得する。

本発明実施例において、フレーム抽出する方法は制限されなく、実際の要求に応じて選択すればよい。例えば、予め設定された時間の間隔ごとに１つのフレームの画像を抽出するように、動画データ全体に対してフレーム抽出してよい。ここで、予め設定された時間の間隔は、実際の要求や経験などに応じて確定してよく、例えば、１秒ごとに１つのフレームの画像を抽出してもよい。即ち、抽出された隣接する２つのフレームの画像の間隔が１秒であることと理解してもよい。または、予め設定された時間範囲の動画ごとに１つのフレームの画像を抽出するように、例えば、１秒の動画ごとに１つのフレームの画像を抽出するように、フレーム抽出してよい。抽出された当該フレームの画像は、この１秒の動画におけるいずれか１つのフレームの画像であってもよい。

フレーム抽出して得られたピクチャーには、時間タグを含むことができる。例えば、ビデオカメラがデータを取集する過程において、１つのフレームの画像のそれぞれの撮影時間を記録することができる。当該時間タグは、当該撮影時間を示すことができる。

または、時間タグは、シフト時間を示すことができる。シフト時間とは、ある１フレームの画像に対して、抽出された当該フレームの画像のシフト時間を指す。当該フレームの画像は、動画データにおけるいずれか１つのフレームの画像であってよく、例えば、抽出された１番目のフレームの画像であってよい。

本発明実施例において、フレーム抽出して得られたピクチャーにおける時間タグは、制限されなく、同一組のピクチャーが同一種類の時間の時間タグを使用すればよい。例えば、１つの動画データをフレーム抽出して得られたすべてのピクチャーの時間は、いずれも撮影時間を標識するためのものであり、または、いずれもシフト時間を標識するためのものである。

本発明実施例において、フレーム抽出して得られた動画データに対応するピクチャーを格納する。ここで、動画データのタグおよびピクチャーの時間タグで当該ピクチャーを命名することができる。例えば、動画データファイル名のプレフィックス（動画データを生成した画像取集デバイス、例えばビデオカメラを標識する）を画像データファイルのファイル名のプレフィックスとして保存する。画像データファイル名は、動画データプレフィックス＋当該フレームを生成した時刻のタイムスタンプに構成される。動画データプレフィックスは動画データを格納するデータファイルのデータファイル名のプレフィックスであり、当該フレームを生成した時刻のタイムスタンプは上記した時間タグである。

１つの場合では、フレーム抽出する過程において、同じ秒の動画から複数フレームのピクチャーを抽出した可能性がある。この場合、時間タグが標識した時間の単位が秒であれば、これらの複数フレームの画像を区別することができない。そのため、この場合は、時間タグが標識した時間の単位がミリ秒であってよく、即ち、ピクチャーを命名する過程において、当該フレームを生成した時刻のタイムスタンプにミリ秒フィールドを増加してよい。

Ｓ４０３において、ピクチャーの時間順にピクチャーを並べて、動画データに対応する時間順に並べた複数のピクチャーを取得する。

ピクチャーの時間タグに基づいて、各動画データからフレーム抽出して得られたピクチャーのそれぞれを時間順に並べることができる。例えば、時間の前後順に従って、即ち、時間的に前のピクチャーを前に、時間的に後のピクチャーを後に並べることができる。これにより、各動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得することができる。

フレーム抽出して得られた複数のピクチャーを時間が自然に流れる順に並べることで、複数のピクチャーに連続性を持たせることができ、各ピクチャーは、ピクチャーの内容について、前後のピクチャーと連続性を生じる。時間順に並べた複数のピクチャーは、内容が連続する複数のピクチャーであると理解してよい。

異なるカメラが生成したデータを組に分けて、各組に同一カメラが生成した画像データを格納することができる。例えば、異なるカメラにより得られた動画データにそれぞれ対応する時間順に並べた複数のピクチャーをそれぞれ分けて格納する。例えば、全部で、３つのカメラが取集した動画データが３つある場合、３つの動画データから、それらに対応する３組の時間順に並べた複数のピクチャーをそれぞれ取得でき、これらの３組のピクチャーはそれぞれ分けて格納されることができる。

これにより、内容が連続する複数のピクチャーを取得することは、時間順に並べた複数のピクチャーを取得することを含む。内容が連続する複数のピクチャーは、上記した時間順に並べた複数のピクチャーを含む。

本発明実施例において、動画データを取得した後、まず、動画データをフレーム抽出し、そして、フレーム抽出して得られたピクチャーを時間順に並べることができる。並べた複数のピクチャーは、内容が連続する複数のピクチャーであると理解してよい。具体的に、複数の動画データにおける各動画データについて、それぞれに対応する内容が連続する複数のピクチャーを取得することができる。異なる動画データにそれぞれ対応する内容が連続する複数のピクチャーに対して、上記したステップＳ３０２～Ｓ３０４をそれぞれ実行することで、異なる動画データにそれぞれ対応する内容が連続する複数のピクチャーを注釈することをできる。

本発明実施例において、異なるカメラが撮った動画データを取得することができ、各カメラが撮った動画データをそれぞれフレーム抽出し、異なるカメラに対応する画像データを取得し、画像データには、各ピクチャーのカメラタグおよび時間タグを含む。これにより、注釈する過程において、時間順に並べた複数のピクチャーを取得し、２つ前のピクチャーにおけるオブジェクトを注釈し（各オブジェクトのオブジェクトタグおよび位置を注釈する）、各オブジェクトに対して、後続のピクチャーにおける同一オブジェクトの位置を予測することができる。具体的に、予測することは、各ピクチャーに対して、当該ピクチャーと当該ピクチャーの１つ前のピクチャーにおける同一オブジェクトの位置との差を算出し、オブジェクトの位置シフト量を取得し、当該ピクチャーにおけるオブジェクトの位置に当該位置シフト量を加算して、次のピクチャーにおける当該オブジェクトの位置を取得し、当該位置に基づいて次のピクチャーに当該オブジェクトを注釈することを含む。予測した位置に基づいて当該オブジェクトを注釈する前に、予測して得られた位置を校正することもできる。

別の実現可能な形態において、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、電子デバイスがデータベース、例えば注釈システムデータベースから取得したものであってよく、各動画データに対応する時間順に並べた複数のピクチャーは、動画データ処理システムが注釈システムデータベースに格納したものである。

各動画データを処理し、各動画データに対応する時間順に並べた複数のピクチャーを取得することは、
各動画データについて、動画データをフレーム抽出し、動画データに対応するピクチャーを取得することと、ピクチャーの時間順にピクチャーを並べて、動画データに対応する時間順に並べた複数のピクチャーを取得することと、を含んでもよい。

具体的に、動画データ処理システムは、上記したＳ４０１～Ｓ４０３を実行して、各動画データに対応する時間順に並べた複数のピクチャーを取得し、各動画データに対応する時間順に並べた複数のピクチャーを注釈システムデータベースに保存する。これにより、注釈する過程において、注釈システムデータベースから、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得することができる。

動画データ処理システムによって動画データを処理して、時間順に並べた複数のピクチャーを取得し、注釈システムデータベースによって複数の動画データにそれぞれ対応する時間順に並べた複数のピクチャーを保存し、注釈する過程において、注釈システムデータベースからこれらの時間順に並べた複数のピクチャーを直接に取得して注釈することによって、注釈する過程において、電子デバイスの処理負荷を低減し、電子デバイスの計算リソースなどを節約することができる。

図５に示すように、複数のカメラがデータをそれぞれ取集し、複数のカメラのそれぞれに対応する動画データを取得する。各カメラが動画データを取得した後、当該カメラの動画データを動画データ処理システムに送信することができる。動画データ処理システムは、各動画データをそれぞれ処理し、各動画データに対応する時間順に並べた複数のピクチャーを取得し、各動画データに対応する時間順に並べた複数のピクチャーを注釈システムデータベースに格納する。ここで、時間順に並べた複数のピクチャーは、内容が連続するピクチャーであると理解してもよい。

注釈システムバックエンドは、アプリケーションプログラムインタフェース（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ、ＡＰＩ）を介して注釈システムデータベースからこれらの内容が連続するピクチャーを取得し、これらの内容が連続するピクチャーを注釈する。注釈システムフロントエンドは、注釈されたピクチャーを展示する。

ここで、注釈システムバックエンドおよび注釈システムフロントエンドは、１つの電子デバイスにおける２つの部分であってよく、または、２つの独立した電子デバイスなどであってもよい。

注釈システムバックエンドは内容が連続するピクチャーを取得し、これらの内容が連続するピクチャーを注釈することは、
内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含むことと、各オブジェクトに対して、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、２つ前のピクチャーは時系列で１つ前のピクチャーの前にあって、１つ前のピクチャーに隣接するピクチャーであることと、１つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定することと、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することと、を含んでよい。具体的な過程は、上記した実施例に詳しく説明した。

１つの具体的な例において、図６に示すように、本発明実施例が提供するデータ注釈方法は、以下のステップを含む。

ステップＡにおいて、動画データを取集し、カメラによって番号を付ける。

複数のカメラが動画データをそれぞれ取集し、異なるカメラが取集した動画データに対してカメラの番号によって標識する。

各カメラは唯一の識別コードをそれぞれ有し、当該識別コードは、異なるカメラにより得られた動画データを区別するために用いられる。例えば、番号１のカメラにより得られた動画データは、いずれも「００１－」をデータファイル名のプレフィックスとし、即ち、番号１のカメラにより得られた動画データは、１つのデータファイルに格納されており、「００１－」をデータファイル名のプレフィックスとする。番号２のカメラにより得られたデータは、いずれも「００２－」データファイル名のプレフィックスとし、即ち、番号２のカメラにより得られた動画データは、他のデータファイルに格納されており、「００２－」をデータファイル名のプレフィックスとする。このようにして、異なるカメラにより得られた動画データを、異なるデータファイルにそれぞれ格納し、異なるデータファイル名で区別する。

ステップＢにおいて、動画データをフレーム抽出し、動画シフト時間に従ってピクチャーに対して番号を付ける。

本発明実施例において、動画データを取得した後、まず動画データを処理し、即ち、まず動画データをフレーム抽出してよい。

動画データを動画データファイルに格納してよく、各動画データファイルから動画データをそれぞれ取得し、動画データを処理する。

シフト時間に従ってピクチャーに対して番号を付けることは、フレーム抽出して得られた各ピクチャーに当該ピクチャーのシフト時間を標識することと理解してもよい。シフト時間は、ある１つのフレームのピクチャーに対して、抽出された当該フレームのピクチャーのシフト時間であってよい。当該フレームの画像は、動画データにおけるいずれか１つのフレームの画像であってよく、例えば、抽出された１番目のフレームの画像であってよい。

１つの例において、１秒の動画ごとに１つのフレームのピクチャーを抽出するように、すべての動画データをフレーム抽出するとともに、各ピクチャーのシフト時間を計算する。シフト時間は、ミリ秒まで精確なものであってよい。シフト時間をピクチャーの作成時間として格納する。ピクチャーは、データベースに格納されてよく、例えば、データベースにおける画像データファイルに格納されてよい。

ピクチャーを格納する過程において、シフト時間を格納することのほか、動画データファイル名のプレフィックスを画像データファイルのファイル名のプレフィックスとして保存することもできる。画像データファイル名は、元プレフィックス（動画データファイル名のプレフィックス）＋当該フレームを生成した時刻のタイムスタンプ（時間タグ、例えば、撮影時間、シフト時間など）＋ミリ秒数に構成される。即ち、画像データファイル名は、動画データプレフィックス＋当該フレームを生成した時刻のタイムスタンプに構成されることと理解してもよい。動画データプレフィックスは動画データを格納するデータファイルのデータファイル名のプレフィックスであり、当該フレームを生成した時刻のタイムスタンプは上記した時間タグである。時間タグが標識した時間の単位はミリ秒であってよく、即ち、ピクチャーを命名する過程において、当該フレームを生成した時刻のタイムスタンプにミリ秒フィールドを追加してよい。ミリ秒数を追加することは、あるフレーム抽出方法において１秒の動画から複数のピクチャーを抽出した場合があることを考慮するためである。

ステップＣにおいて、ピクチャーを組に分けて並べる。

異なるカメラが生成した画像データを組に分けて、各組に同一カメラが生成した画像データを格納することができる。ここで、各カメラが生成した画像データは、当該カメラの動画データをフレーム抽出して得られた複数のピクチャーである。

各ピクチャーはいずれも時間属性を有し、即ち、各ピクチャーにはいずれも時間タグが標識されているため、同一組にあるデータ、即ち複数のピクチャーを、ピクチャーの時間タグに従って並べることができ、複数のピクチャーに連続性を持たせ、ピクチャーを時間が自然に流れる順に並べさせることを目的とする。これにより、各ピクチャーは、ピクチャーの内容について、前後のピクチャーと連続性を生じる。

１つの実現可能な形態において、各カメラが動画データを取得した後、当該カメラの動画データを動画データ処理システムに送信することができる。動画データ処理システムは、各動画データをそれぞれ処理する。具体的に、動画データ処理システムがカメラによって番号を付け、動画データをフレーム抽出し、動画シフト時間に従ってピクチャーに対して番号を付け、ピクチャーを組に分けて並べる。これにより、各動画データに対応する時間順に並べた複数のピクチャーを取得する。

なお、各動画データに対応する時間順に並べた複数のピクチャーを注釈システムデータベースに格納することができる。

ステップＤにおいて、ピクチャーの組の１つ目のピクチャーおよび２つ目のピクチャーにおける各オブジェクトに対して、ＩＤおよび位置を注釈する。

ステップＥにおいて、次のピクチャーにおける各オブジェクトの位置を予測する。

注釈システムデータベースから少なくとも１つの動画データに対応する時間順に並べた複数のピクチャーを取得することができる。例えば、複数のカメラにそれぞれ対応する複数組のピクチャーを取得することができる。例えば、注釈システムバックエンドは、注釈システムデータベースから少なくとも１つの動画データに対応する時間順に並べた複数のピクチャーを取得する。

並べた各組のピクチャーに対して、当該組のピクチャーのうち１つ目のピクチャーおよび２つ目のピクチャーにおけるオブジェクトを注釈し、各オブジェクトのＩＤおよび座標を記録する。ＩＤは当該オブジェクトの唯一の標識であり、座標はピクチャーにおける当該オブジェクトの位置である。

当該組のピクチャーのうち残りのピクチャー（１つ目のピクチャーおよび２つ目のピクチャー以外の他のピクチャー）におけるオブジェクトの位置を逐次に予測する。予測方法は、隣接する２つのピクチャーにおける同じＩＤのオブジェクトの位置シフト量を計算し、例えば、隣接する２つのピクチャーの位置（１つの座標であってよい）の差を計算し、各オブジェクトに対して、ピクチャーにおける当該オブジェクトの現在の位置に当該オブジェクトの位置シフト量を加算することで、次のピクチャーにおける各オブジェクトの座標を計算することである。

当該ピクチャーと当該ピクチャーの１つ前のピクチャーにおける同一オブジェクトの位置の差を計算し、オブジェクトの位置シフト量を取得し、当該ピクチャーにおけるオブジェクトの位置に当該位置シフト量を加算して、次のピクチャーにおける当該オブジェクトの位置を取得する。

ステップＦにおいて、各オブジェクトの位置を校正する。

次のピクチャーにおける各オブジェクトの予測位置情報を取得した後、注釈対象ピクチャーに当該予測位置情報を直接に注釈し、当該予測位置情報に基づいて確定された位置にオブジェクトのタグを注釈することができる。

または、当該予測位置情報を展示することによって、注釈者は当該予測位置情報を校正し、校正後の予測位置情報を入力することもできる。これにより、当該校正後の予測位置情報を受信し、注釈対象ピクチャーに当該校正後の予測位置情報を注釈することができる。注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置に、オブジェクトのタグを注釈する。

注釈者は、注釈する過程において、予測位置に対して少量の座標校正を行うことだけで、隣接するピクチャーにおける同一オブジェクトの位置記録の作業を完成でき、注釈者がＩＤを記憶する難しさを大幅に下げるとともに、注釈の正確度を向上することができる。

ステップＧにおいて、注釈結果を整理する。

注釈された結果をファイル名に従って並べて整理してから、交付する。

ファイル名は、上記した画像データファイル名である。

各カメラが生成した画像データは１組のピクチャーであり、即ち、各カメラの動画データに対して得られた時間順に並べた複数のピクチャーが１組のピクチャーであると理解されてよい。複数のカメラに対応する複数組のピクチャーをそれぞれ注釈し、複数組の注釈されたピクチャーを取得する。

注釈が完成された後にも、注釈結果を展示することができる。具体的に、各ピクチャーに注釈された各オブジェクトのタグおよび位置を展示してもよい。例えば、注釈システムフロントエンドは、注釈された各ピクチャーを展示する。

本発明実施例は、動画中の連続画面における同じオブジェクトを注釈すること実現でき、動画中の連続画面における同じオブジェクトを注釈する速度を向上し、注釈の正確度を高めることができる。かつ、注釈過程は注釈者の能力に制限されない。

本発明実施例は、さらに、データ注釈装置を提供する。図７に示すように、前記データ注釈装置は、
内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含む、第１取得モジュール７０１と、
各オブジェクトに対して、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、２つ前のピクチャーは時系列で１つ前のピクチャーの前にあって、１つ前のピクチャーに隣接するピクチャーであり、１つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定する、確定モジュール７０２と、
予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈する、注釈モジュール７０３と、を含む。

好ましくは、第１取得モジュール７０１は、具体的に、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得する。１つの動画データについて、動画データに対応する時間順に並べた複数のピクチャーは、動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである。

好ましくは、図８に示すように、当該装置は、さらに、
少なくとも１つの動画データを取得する、第２取得モジュール８０１と、
各動画データについて、動画データをフレーム抽出し、動画データに対応するピクチャーを取得する、フレーム抽出モジュール８０２と、
ピクチャーの時間順にピクチャーを並べて、動画データに対応する時間順に並べた複数のピクチャーを取得する、ソートモジュール８０３と、を含む。

好ましくは、第１取得モジュール７０１は、具体的に、注釈システムデータベースから少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得する。少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが注釈システムデータベースに格納されているものであり、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各動画データのそれぞれについて、動画データ処理システムが動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである。

好ましくは、図９に示すように、当該装置は、さらに、
予測位置情報を展示する、展示モジュール９０１と、
予測位置情報を校正して得られた校正後の予測位置情報を受信する、受信モジュール９０２と、
注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置にオブジェクトのタグを注釈する、注釈モジュール７０３と、を含み。

本発明実施例は、さらに、データ注釈システムを提供する。図１０に示すように、前記データ注釈システムは、注釈システムバックエンド１００１と注釈システムフロントエンド１００２とを含み、
注釈システムバックエンド１００１は、内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含み、各オブジェクトに対して、隣接する２つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、２つ前のピクチャーは時系列で１つ前のピクチャーの前にあって、１つ前のピクチャーに隣接するピクチャーであり、１つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈し、
注釈システムフロントエンド１００２は、注釈システムバックエンド１００１による注釈対象ピクチャーにおけるオブジェクトに対する注釈を展示する。

好ましくは、図１１に示すように、当該データ注釈システムは、さらに、注釈システムデータベース１１０１と、
注釈システムデータベース１１０１から少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、１つの動画データについて、動画データに対応する時間順に並べた複数のピクチャーは、動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである、注釈システムバックエンド１００１と、を含む。

好ましくは、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが注釈システムデータベース１１０１に格納するものであり、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各動画データのそれぞれについて、動画データ処理システムが動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである。

好ましくは、注釈システムバックエンド１００１は、予測位置情報を展示し、予測位置情報を校正して得られた校正後の予測位置情報を受信し、注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置にオブジェクトのタグを注釈する。

装置、システム実施例は、方法実施例と基本的に同様であるため、簡単に説明したが、関連する内容について、方法実施例の説明部分に参照すればよい。

本発明の技術案に関するユーザーの個人情報に対する収集、保存、使用、加工、伝送、提供及び公開等の処理は、いずれも関連する法律および規制に従い、公序良俗に反しないものである。

本発明実施例によれば、本発明は、デバイス、可読記憶媒体、及びコンピュータープログラム製品をさらに提供する。

図１２は、本発明実施例を実施できる例示である電子デバイス１２００の模式的なブロック図を示す。電子デバイスとしては、例えば、ラップトップパソコン、デスクトップパソコン、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、及び他の適当なコンピューターなど、様々な形態のデジタルコンピューターである。電子デバイスとしては、さらに、例えば、パーソナルデジタルアシスタント、セルフォン、スマートフォン、ウェアラブル機器、及び他の類似の計算装置など、様々な形態のモバイル装置である。本明細書に記載のコンポーネント、それらの接続関係、及びそれらの機能は例示的なものに過ぎず、本発明の実施に関して本明細書に記載及び／又は主張された内容に限定するものではない。

図１２に示すように、デバイス１２００は、リードオンリーメモリ（ＲＯＭ）１２０２に記憶されているコンピュータープログラムによって、又は記憶手段１２０８からランダムアクセスメモリ（ＲＡＭ）１２０３にロードされたコンピュータープログラムによって、各種の適当な動作や処理を実行する、計算手段１２０１を含む。ＲＡＭ１２０３には、さらに、デバイス１２００の動作に必要する各種のプログラムやデータが記憶されていることもできる。計算手段１２０１、ＲＯＭ１２０２及びＲＡＭ１２０３は、それぞれ、バス１２０４によって接続する。入力／出力（Ｉ／Ｏ）インターフェース１２０５も、バス１２０４に接続されている。

デバイス１２００における複数のコンポーネントは、Ｉ／Ｏインターフェース１２０５に接続されている。前記複数のコンポーネントは、例えばキーボード、マウス等の入力手段１２０６と、例えば各種の型のディスプレイ、スピーカー等の出力手段１２０７と、例えばディスク、光ディスク等の記憶手段１２０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段１２０９と、を含む。通信手段１２０９によって、デバイス１２００は、例えばインターネット等のコンピューターネットワーク、及び／又は各種の通信ネットワークを介して、他のデバイスと情報／データを交換することが可能である。

計算手段１２０１は、処理及び計算能力を有する、各種の汎用な及び／又は専用な処理コンポーネントであってよい。計算手段１２０１のいくつかの例示は、中央処理ユニット（ＣＰＵ）、画像処理ユニット（ＧＰＵ）、各種の専用な人工知能（ＡＩ）演算チップ、機械学習モデルアルゴリズムを実行する各種の演算ユニット、デジタルシグナルプロセッサー（ＤＳＰ）、及び任意の適当なプロセッサー、コントローラ、マイクロコントローラ等を含むが、これらに限定されない。計算手段１２０１は、上述した各方法や処理、例えばデータ注釈方法を実行する。例えば、いくつかの実施例では、データ注釈方法は、コンピューターソフトウェアプログラムとして実現されることができ、例えば記憶手段１２０８等の機械可読媒体に有形的に含まれている。いくつかの実施例では、コンピュータープログラムの一部又は全部は、ＲＯＭ１２０２及び／又は通信手段１２０９を介して、デバイス１２００にロード及び／又はインストールされていることができる。コンピュータープログラムは、ＲＡＭ１２０３にロードされ、計算手段１２０１によって実行されると、上述したデータ注釈方法の１つ又は複数のステップを実行することができる。予備的に、他の実施例において、計算手段１２０１は、他の任意の適当な方式によって（例えば、ファームウェアによって）、実行データ注釈方法を実行するように構成されてよい。

本明細書において、上述したシステムや技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、コンピューターハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現できる。これらの各種実施形態は、１つ以上のコンピュータープログラムにおいて実施されており、当該１つ以上のコンピュータープログラムは、少なくとも１つのプログラマブルプロセッサーを含むプログラマブルシステムにおいて実行及び／又は解釈されてよく、当該プログラマブルプロセッサーは、専用又は汎用のプログラマブルプロセッサーであってよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる、ことを含んでもよい。

本発明の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせを用いて編集してよい。これらのプログラムコードは、汎用コンピューター、専用コンピューター又は他のプログラマブルデータ処理装置のプロセッサー又はコントローラに提供されることができる。これによって、プログラムコードがプロセッサー又はコントローラによって実行される時、フローチャート図及び／又はブロック図で規定された機能／動作を実施させられることができる。プログラムコードは、完全的に機械で実行されることができ、部分的に機械で実行されることができ、スタンドアロンパッケージとして部分的に機械で実行され且つ部分的にリモート機械で実行され、又は完全的にリモート機械やサーバーで実行されることができる。

本発明の文脈では、機械可読媒体は、命令実行システム、装置又はデバイスが使用されるプログラム、又は、命令実行システム、装置又はデバイスと結合して使用されるプログラムを含み又は記憶されている有形の媒体であってよい。機械可読媒体は、機械可読シグナル媒体、又は機械可読記憶媒体であってよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又はこれらの任意の適当な組み合わせを含んでよいが、これに限定されない。機械可読記憶媒体のより具体的な例示としては、１本以上のワイヤに基づく電気接続、携帯型コンピューターディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、携帯型コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶デバイス、磁気記憶デバイス、又はこれらの任意の適当な組み合わせを含んでよい。

ユーザーとのインタラクションを提供するために、上述したシステム及び技術は、コンピューターで実施されることができる。当該コンピューターは、ユーザーに情報を表示することに用いられる表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニター）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザーは、当該キーボード及び当該ポインティングデバイスによって、コンピューターに入力を提供することができる。ユーザーとのインタラクションを提供するために、他の種類の装置も使える。例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってよい。また、任意の形式（音入力、音声入力、触覚入力を含む）によって、ユーザーからの入力を受信してよい。

ここで記述したシステム及び技術は、バックグラウンドコンポーネントを含む計算システム（例えば、データサーバーとして）、又は中間コンポーネントを含む計算システム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるユーザーコンピューターであって、ユーザーは、当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによって上記したシステム及び技術の実施形態とインタラクションを行うことができる）、又はこのようなバックグラウンドコンポーネント、中間コンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで、実施されることができる。任意の形式又は媒体によるデジタルデータ通信（例えば、通信ネットワーク）を介して、システムのコンポーネントを互いに接続することができる。通信ネットワークの例示としては、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピューターシステムは、クライアントとサーバーとを含んでよい。クライアントとサーバーとは、一般的に互いに離れており、通常、通信ネットワークを介してインタラクションを行う。対応するコンピューターで実行され、互いにクライアント－サーバー関係を有するコンピュータープログラムによって、クライアントとサーバーとの関係を確立する。サーバーは、クラウドサーバー、分散システムのサーバー、又はブロックチェーンを結合したサーバーであってよい。

なお、上記の様々なプロセスを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本発明に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の所望の結果を得られるものであれば、本明細書では特に限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の趣旨においてなされた修正、同等な置き換えや改善等は、いずれも本開示の保護範囲に含まれる。

Claims

内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含むことと、
各オブジェクトに対して、隣接する２つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、前記１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記２つ前のピクチャーは時系列で前記１つ前のピクチャーの前にあって、前記１つ前のピクチャーに隣接するピクチャーであることと、
前記１つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定することと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することと、を含む、
データ注釈方法。
前記内容が連続する複数のピクチャーを取得することは、
少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、１つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものであること、を含む、
請求項１に記載の方法。
前記方法は、さらに、
少なくとも１つの動画データを取得することと、
各動画データについて、前記動画データをフレーム抽出し、前記動画データに対応するピクチャーを取得することと、
前記ピクチャーの時間順に前記ピクチャーを並べて、前記動画データに対応する時間順に並べた複数のピクチャーを取得することと、を含む、
請求項２に記載の方法。
前記の少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得することは、
注釈システムデータベースから少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、ここで、前記少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものであること、を含む、
請求項２に記載の方法。
前記方法は、さらに、
前記予測位置情報を展示することと、
前記予測位置情報を校正して得られた校正後の予測位置情報を受信することと、を含み、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することは、
前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈すること、を含む、
請求項１～４のいずれか一項に記載の方法。
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含む、第１取得モジュールと、
各オブジェクトに対して、隣接する２つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、前記１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記２つ前のピクチャーは時系列で前記１つ前のピクチャーの前にあって、前記１つ前のピクチャーに隣接するピクチャーであり、前記１つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定する、確定モジュールと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈する、注釈モジュールと、を含む、
データ注釈装置。
前記第１取得モジュールは、少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、１つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項６に記載の装置。
少なくとも１つの動画データを取得する、第２取得モジュールと、
各動画データについて、前記動画データをフレーム抽出し、前記動画データに対応するピクチャーを取得する、フレーム抽出モジュールと、
前記ピクチャーの時間順に前記ピクチャーを並べて、前記動画データに対応する時間順に並べた複数のピクチャーを取得する、ソートモジュールとを、さらに含む、
請求項７に記載の装置。
前記第１取得モジュールは、注釈システムデータベースから少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、ここで、前記少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項７に記載の装置。
前記予測位置情報を展示する、展示モジュールと、
前記予測位置情報を校正して得られた校正後の予測位置情報を受信する、受信モジュールと、をさらに含み、
前記注釈モジュールは、前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈する、
請求項６～９のいずれか一項に記載の装置。
注釈システムバックエンドと注釈システムフロントエンドとを含むデータ注釈システムであって、
前記注釈システムバックエンドは、内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも１つ含み、各オブジェクトに対して、隣接する２つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する２つのピクチャーは２つ前のピクチャーと１つ前のピクチャーとを含み、前記１つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記２つ前のピクチャーは時系列で前記１つ前のピクチャーの前にあって、前記１つ前のピクチャーに隣接するピクチャーであり、前記１つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定し、前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈し、
前記注釈システムフロントエンドは、前記注釈システムバックエンドが前記注釈対象ピクチャーにおける前記オブジェクトに対する注釈を展示する、
データ注釈システム。
前記システムは、さらに、注釈システムデータベースを含み、
前記注釈システムバックエンドは、前記注釈システムデータベースから少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、１つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項１１に記載のシステム。
前記少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも１つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項１２に記載のシステム。
前記注釈システムバックエンドは、前記予測位置情報を展示し、前記予測位置情報を校正して得られた校正後の予測位置情報を受信し、前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈する、
請求項１１～１３のいずれか一項に記載のシステム。
少なくとも１つのプロセッサーと、
前記少なくとも１つのプロセッサーと通信接続しているメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサーによって実行できる命令が記憶されており、前記少なくとも１つのプロセッサーによって前記命令を実行することにより、前記少なくとも１つのプロセッサーが請求項１－５のいずれか一項に記載の方法を実行できる、
電子デバイス。
コンピューター命令が記憶されている非一時的なコンピューター可読記憶媒体であって、前記コンピューター命令は、前記コンピューターに請求項１～５のいずれか一項に記載の方法を実行させる、
非一時的なコンピューター可読記憶媒体。
コンピュータープログラムを含むコンピュータープログラム製品であって、前記コンピュータープログラムは、プロセッサーによって実行されると、請求項１～５のいずれか一項に記載の方法を実行させる、
コンピュータープログラム製品。