JP2022545899A - カテゴリ付け方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム - Google Patents

カテゴリ付け方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム Download PDF

Info

Publication number
JP2022545899A
JP2022545899A JP2022512849A JP2022512849A JP2022545899A JP 2022545899 A JP2022545899 A JP 2022545899A JP 2022512849 A JP2022512849 A JP 2022512849A JP 2022512849 A JP2022512849 A JP 2022512849A JP 2022545899 A JP2022545899 A JP 2022545899A
Authority
JP
Japan
Prior art keywords
category
target
target video
video frame
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2022512849A
Other languages
English (en)
Inventor
インチェン チェン
ヅゥー チャン
チイー ファン
ダンチイン チェン
フアン ペイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022545899A publication Critical patent/JP2022545899A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示はカテゴリ付け方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。前記方法は、画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定し、前記検出結果は、前記目標ビデオフレームにおける対象の対象カテゴリと、前記目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含むことと、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することと、を含む。【選択図】図1

Description

優先権主張
本開示は、2020年1月19日に中国特許庁に提出された、出願番号が202010060050.4号で、発明の名称が「カテゴリ付け方法及び装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、その開示の全ての内容が援用によって本開示に組み込まれる。
本開示は、コンピュータ技術分野に関し、特に、カテゴリ付け方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。
科学技術の発展に伴い、画像収集装置は工業生産や生活のあらゆる面で使用されている。たとえば、ビデオ監視システムは社会公共安全の重要な要素として広く普及しており、現在、多くの企業や機関が大量のビデオ監視システムを設置した。ビデオ監視システムに大量の画像収集装置が含まれていることがよくある。
本開示はカテゴリ付けの技術的解決手段を提案する。
本開示の一方面によれば、
画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定し、前記検出結果は、前記目標ビデオフレームにおける対象の対象カテゴリと、前記目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含むことと、
複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することと、
を含むカテゴリ付け方法を提供する。
可能な一実現形態では、画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定することは、目標ビデオフレームが複数のカテゴリのそれぞれに該当する信頼度を決定することと、信頼度閾値よりも大きい信頼度がある場合、信頼度閾値よりも大きい前記信頼度に対応するカテゴリを目標ビデオフレームの検出結果とすることと、を含む。
可能な一実現形態では、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定した後、前記方法は、予め設定された時間帯内において取得された前記検出結果の総数を確認することをさらに含み、それに応じて、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することは、前記検出結果の総数が数閾値よりも大きい場合、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することを含む。
可能な一実現形態では、前記検出結果が複数あり、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することは、前記複数の検出結果における1つ又は複数の検出カテゴリの数が前記総数に占める割合を決定することと、割合閾値よりも大きい割合に対応する検出カテゴリを前記画像収集装置に対応する付けべきカテゴリ結果として決定することと、を含む。
可能な一実現形態では、前記対象カテゴリは、人顔と人体とナンバープレートと車型との少なくとも1つを含み、前記シーンカテゴリは、高空と低空屋内と低空屋外との少なくとも1つを含む。
可能な一実現形態では、前記画像収集装置に対応する付けべきカテゴリ結果を決定した後、目標カテゴリの目標画像収集装置の検索リクエストを受けた場合、決定した前記画像収集装置に対応する前記付けべきカテゴリ結果に基づいた、前記目標カテゴリの前記目標画像収集装置を回答として返すことをさらに含む。
可能な一実現形態では、前記方法は、画像収集装置が収集したビデオストリームを検出する前に、現在時間が夜間時間であるかを確認することをさらに含み、それに応じて、前記画像収集装置が収集したビデオストリームを検出することは、現在時間が夜間時間ではないと確認した場合、前記画像収集装置が収集したビデオストリームを検出することを含む。
本開示の一方面によれば、
画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定し、前記検出結果は、前記目標ビデオフレームにおける対象の対象カテゴリと、前記目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含む検出結果決定モジュールと、
複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定する付けべき結果決定モジュールと、を備えるカテゴリ付け装置を提供する。
可能な一実現形態では、検出結果決定モジュールは、目標ビデオフレームが複数のカテゴリのそれぞれに該当する信頼度を決定し、信頼度閾値よりも大きい信頼度がある場合、信頼度閾値よりも大きい前記信頼度に対応するカテゴリを目標ビデオフレームの検出結果とすることに用いられる。
可能な一実現形態では、前記装置は、予め設定された時間帯内において取得された前記検出結果の総数を確認する総数確認モジュールをさらに備え、前記付けべき結果決定モジュールは、前記検出結果の総数が数閾値よりも大きい場合、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することに用いられる。
可能な一実現形態では、前記検出結果が複数あり、前記付けべき結果決定モジュールは第1付けべき結果決定サブモジュールと第2付けべき結果決定サブモジュールとを有し、前記第1付けべき結果決定サブモジュールは、前記複数の検出結果における1つ又は複数の検出カテゴリの数が前記総数に占める割合を決定することに用いられ、第2付けべき結果決定サブモジュールは、割合閾値よりも大きい割合に対応する検出カテゴリを前記画像収集装置に対応する付けべきカテゴリ結果として決定することに用いられる。
可能な一実現形態では、前記対象カテゴリは、人顔と人体とナンバープレートと車型との少なくとも1つを含み、前記シーンカテゴリは、高空と低空屋内と低空屋外との少なくとも1つを含む。
可能な一実現形態では、前記装置は、目標カテゴリの目標画像収集装置の検索リクエストを受けた場合、決定された前記画像収集装置に対応する前記付けべきカテゴリ結果に基づいた、前記目標カテゴリの前記目標画像収集装置を回答として返すための検索モジュールをさらに備える。
可能な一実現形態では、前記装置は、現在時間が夜間時間であるかを確認するための時間確認モジュールをさらに備え、前記検出結果決定モジュールは、現在時間が夜間時間ではないと確認した場合、前記画像収集装置が収集したビデオストリームを検出することに用いられる。
本開示の一方面によれば、プロセッサーと、プロセッサーにより実行可能な命令を記憶するためのメモリとを含み、前記プロセッサーは、前記メモリに記憶されている命令を呼び出し、上記の方法を実行するように構成される電子機器を提供する。
本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令がプロセッサーによって実行されると、上記の方法を実現させるコンピュータ読み取り可能記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読み取り可能コードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサーに上記の方法を実現するための命令を実行させるコンピュータプログラムを提供する。
本開示の実施例では、画像収集装置の付けべきカテゴリ結果を的確に決定することができ、画像収集装置のカテゴリ区画が実現され、それによって、管理者によるカテゴリの次元を介する画像収集装置の管理及び呼び出しが便利となり、画像収集装置の管理の難易度が低減されている。
以上の一般な説明および以下の詳細な説明は、本開示を限定するのではなく、単なる例示的及び解釈的なものであることを理解されたい。以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴および方面は明確になる。
明細書の一部として組み込まれた図面は、本開示に合致する実施例を示し、さらに明細書と共に本開示の技術的手段を説明するために用いられる。
本開示の実施例によるカテゴリ付け方法のフローチャートを示す。 本開示の実施例によるカテゴリ付け装置のブロック図を示す。 本開示の実施例による電子機器のブロック図を示す。 本開示の実施例による電子機器のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面において、同じ符号が同じまたは類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましい又は優れるものであると理解すべきではない。
本明細書において、用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBが同時に存在し、Bのみが存在するという3つの場合を示すことができる。また、本明細書において、用語の「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組合を示し、例えば、A、B及びCのうちの少なくとも1つを含むということは、A、B及びCで構成される集合から選択されたいずれか1つ又は複数の要素を含むことを示すことができる。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路について、詳細な説明を行わない。
科学技術の発展に伴い、画像収集装置は工業生産や生活のあらゆる面で普及している。画像収集装置は街の所々で見られる。いくつかの監視システムでは、管理が必要となる数十個、ひいては数万個の画像収集装置がある。これほど多くの画像収集装置があるため、画像収集装置の管理の難易度がますます高くなってきた。
本開示の実施例で提供されたカテゴリ付け方法は、画像収集装置の付けべきカテゴリ結果を的確に決定することができ、画像収集装置のカテゴリ区画が実現され、それによって、管理者によるカテゴリの次元を介する画像収集装置の管理及び呼び出しが便利となり、画像収集装置の管理の難易度が低減されている。
本開示の実施例で提供されたカテゴリ付け方法は、画像収集装置のカテゴリ付けに利用可能であり、その適用価値は少なくとも以下のいくつかの方面に示されている。
(1)画像収集装置のオペレーション・メンテナンス及び使用の効率が向上する。ユーザが画像収集装置によって必要な監視画像を閲覧したいとき、画像収集装置の画像を一枚ずつチェックして探すことなく、ユーザのリクエストへの迅速な応答を実現可能である。例えば、警察機関は人顔が撮影可能な画像収集装置をチェックして容疑者を追跡する場合、数百個、ひいては1万個以上の画像収集装置から手動で探すと、かなりの時間がかかる。一方、本開示の実施例で提供されたカテゴリ付け方法を利用すると、画像収集装置にカテゴリを付けたので、警察機関のユーザがカテゴリの次元で画像収集装置を検索することができ、検索効率が大幅に向上する。
(2)画像収集装置のカテゴリ付けの効率及び的確性が向上する。ビデオフレームを自動的に抽出して検出し、画像収集装置を分類することにより、人工手動で各ビデオ収集装置が収集した映像をチェックして分析することに比べて、人力、物力及び時間を大幅に節約するようになっている。また、分類過程が人的ファクタによって干渉されず、かつ、カテゴリが複数の目標ビデオフレームの検出結果によって取得されたものであるため、画像収集装置の分類の的確性が向上する。
本開示の実施例で提供されたカテゴリ付け方法の実行主体はカテゴリ付け装置であってもよい。例えば、カテゴリ付け方法は、ユーザー機器(User Equipment、UE)、移動機器、ユーザー端末、端末、携帯電話、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ち機器、計算機器、車載機器、ウエアラブル機器等の端末機器、サーバー、又は、その他の処理機器により実行されてもよい。いくつかの可能な実現形態では、このカテゴリ付け方法は、プロセッサーがメモリに記憶されているコンピュータ読み取り可能命令を呼び出すことにより実現してもよい。
図1は本開示の実施例によるカテゴリ付け方法のフローチャートを示す。図1に示すように、前記カテゴリ付け方法は以下のステップを含む。
ステップS11:画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定し、
前記検出結果は、前記目標ビデオフレームにおける対象の対象カテゴリと、前記目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含む。
画像収集装置は画像収集機能を有し、収集した画像をビデオストリームの形で送信可能であり、検出されるビデオストリームは画像収集装置がリアルタイムで収集したものであってもよい。
検出時に、ビデオストリームにおけるビデオフレームを検出してもよい。ビデオフレームの具体的な表現としては、1枚の画像であってもよいので、画像フレームとも呼ばれる。記述の便宜上、ここで、検出されるビデオフレームを目標ビデオフレームと呼ぶ。
ステップS12:複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定する。
前記画像収集装置に対応する付けべきカテゴリ結果を決定するとき、付けべき結果の的確性を向上させるために、複数の目標ビデオフレームの検出結果に基づいて決定してもよい。
本開示の実施例によれば、画像収集装置が収集したビデオストリームを検出することにより、当該ビデオストリームにおける目標ビデオフレームの検出結果を決定し、検出結果は、目標ビデオフレームにおける対象の対象カテゴリと、目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含み、そして、複数の目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定する。画像収集装置が収集したビデオストリームを検出することによりビデオフレームのカテゴリを決定し、さらに、複数のビデオフレームのカテゴリに基づいて、画像収集装置のカテゴリ付け結果を的確に決定するようになるので、画像収集装置のカテゴリ区画が実現される。それによって、管理者によるカテゴリの次元を介する画像収集装置の管理及び呼び出しが便利となり、画像収集装置の管理の難易度が低減されている。また、ビデオフレームを自動的に抽出して検出し、画像収集装置を分類することにより、ビデオコンバージェンスプラットフォームから人工手動で各画像収集装置のビデオストリームをチェックして分析することに比べて、人力、物力及び時間を大幅に節約するようになっている。また、分類過程は人的ファクタによって干渉されず、かつ、カテゴリが複数の目標ビデオフレームの検出結果によって取得されたものであるため、画像収集装置の分類の的確性が向上する。
可能な一実現形態では、検出により目標ビデオフレームを分類し、目標ビデオフレームのカテゴリを取得することができる。検出により目標ビデオフレームを分類するとき、目標ビデオフレームに含まれる対象に基づいて、目標ビデオフレームにおける対象の対象カテゴリを決定してもよく、目標ビデオフレームのシーンに基づいて、目標ビデオフレームに対応するシーンカテゴリを取得してもよい。
目標ビデオフレームに含まれる対象は、ビデオフレームを解析することにより取得してもよい。具体的に解析する際に、ニューラルネットワークによってビデオフレームの対象を識別してもよい。例えば、ニューラルネットワークを利用して人顔を識別することにより目標ビデオフレームにおける人顔の有無を識別したり、ニューラルネットワークを利用して車両を識別することにより目標ビデオフレームにおける車両の有無を識別したりしてもよい。
目標ビデオフレームに対応するシーンは、ニューラルネットワークによって目標ビデオフレームを解析することにより取得してもよい。シーンが付けられたサンプル画像によってニューラルネットワークを訓練し、訓練済みのニューラルネットワークによって目標ビデオフレームのシーンを識別すればよい。
可能な一実現形態では、画像収集装置が収集したビデオストリームを検出する前に、現在時間が夜間時間であるかを確認することをさらに含み、現在時間が夜間時間ではないと確認した場合、画像収集装置が収集したビデオストリームを検出する。一方、現在時間が夜間時間であると確認した場合、画像収集装置が収集したビデオストリームを検出しなくてもよい。
具体的な夜間時間はユーザが予め設定可能である。例えば、毎日の18:00から翌日の5:30を夜間時間としてもよい。又は、画像収集装置が位置する場所の当日の日出時刻及び日没時刻に基づいて夜間時間を決定してもよく、日没時刻から日出時刻までは夜間時間となる。このように、現在時間が夜間時間であるかを確認する際に、画像収集装置が位置する場所の日出時刻及び日没時刻を取得し、日出時刻及び日没時刻に基づいて、現在時間が夜間時間であるかを確認することができる。
日出時刻及び日没時刻の具体的な取得方法について、日出時刻及び日没時刻が提供されるネットワークポートから取得してもよい。具体的な取得方法は、本開示では制限しない。
夜間で取得された画像の鮮鋭度が高くないため、対象およびシーンを的確に識別できないことが考えられる。したがって、現在時間が夜間時間ではないと確認した場合、画像収集装置が収集したビデオストリームを検出し、現在時間が夜間時間であると確認した場合、画像収集装置が収集したビデオストリームを検出しないことにより、処理資源の浪費が低減され、付けべきカテゴリ結果の的確性が向上する。
可能な一実現形態では、対象カテゴリは人顔と人体とナンバープレートと車型との少なくとも1つを含む。シーンカテゴリは高空と低空屋内と低空屋外との少なくとも1つを含む。
可能な一実現形態では、画像収集装置が収集したビデオストリームを検出し、ビデオストリームにおける目標ビデオフレームの検出結果を決定することは、目標ビデオフレームが複数のカテゴリのそれぞれに該当する信頼度を決定することと、信頼度閾値よりも大きい信頼度がある場合、信頼度閾値よりも大きい信頼度に対応するカテゴリを目標ビデオフレームの検出結果とすることと、を含む。
目標ビデオフレームが複数のカテゴリのそれぞれに該当する信頼度の決定は、分類ネットワークによって決定してもよい。分類ネットワークは具体的に、超解像度テストシーケンスネットワーク(VGG Net、Visual Geometry Group Net)であってもよく、残差ネットワーク(ResNet、Residual Neural Network)であってもよいが、具体的にいずれの分類ネットワークを採用するかは、本開示の実際の適用ニーズに応じて決定できるので、これについて、本開示では特に限定しない。
いくつかの分類ネットワークにおいて、信頼度は、目標ビデオフレームがあるカテゴリに属する確率を示すことができる。又は、信頼度は、目標ビデオフレームがあるカテゴリに属する度合いを示すことに用いられる。信頼度が高いほど、当該目標ビデオフレームがあるカテゴリに属する可能性は高い。目標ビデオフレームを分類ネットワークに入力した後、目標ビデオフレームが複数のカテゴリのそれぞれに該当する信頼度を決定でき、各カテゴリは1つの信頼度に対応付けられる。
信頼度が高いほど、目標ビデオフレームがあるカテゴリに属する可能性は高いので、信頼度閾値を設定することにより、信頼度閾値よりも大きい信頼度に対応するカテゴリを目標ビデオフレームの検出結果としてもよい。信頼度閾値よりも大きい信頼度は1つ以上を有してもよく、このとき、目標ビデオフレームは複数のカテゴリに該当することになる。一方、信頼度閾値よりも大きい信頼度がない場合、目標ビデオフレームが分類ネットワークのいずれのカテゴリにも属せず、すなわち、目標ビデオフレームの検出結果を取得していないと確認できる。例えば、予め設定された信頼度閾値が60%、分類ネットワークから出力されたカテゴリ1の信頼度が70%、カテゴリ2の信頼度が20%、カテゴリ3の信頼度が10%となる場合、カテゴリ1を目標ビデオフレームの検出結果とすることができる。
なお、信頼度閾値の具体的な値は本開示の実際の適用ニーズに応じて決定できるので、これについて、本開示では特に限定しない。
分類ネットワークは、カテゴリが付けられた画像サンプルデータによって訓練されてもよい。例えば、人顔、人体、ナンバープレート、車型等の対象カテゴリが付けられたサンプル画面によって、分類ネットワークが訓練され、訓練済のネットワークは対象カテゴリの識別に利用可能である。高空、低空屋内、低空屋外等のシーンカテゴリが付けられたサンプル画面によって、分類ネットワークが訓練され、訓練済のネットワークは上記シーンカテゴリの識別に利用可能である。具体的な訓練過程はここでは再度説明しない。
可能な一実現形態では、付けべきカテゴリ結果の的確性を向上させるために、ビデオストリームにおける目標ビデオフレームの検出結果を決定した後、予め設定された時間帯内において取得された検出結果の総数を確認してもよい。そして、検出結果の総数が数閾値よりも大きい場合、複数の前記目標ビデオフレームの検出結果に基づいて、画像収集装置に対応する付けべきカテゴリ結果を決定する。
なお、数閾値が大きいほど、取得された付けべきカテゴリ結果の信頼性は高いが、付けべきカテゴリ結果の決定効率を確保するために、数閾値は大きすぎてはならない。このため、数閾値の具体的な値は本開示の実際の適用ニーズに応じて決定できるので、これについて、本開示では特に限定しない。
ビデオストリームにおける目標ビデオフレームの検出結果を決定した後、予め設定された時間帯内において取得された検出結果の総数を確認すればよい。ここで、予め設定された時間帯内において取得された検出結果の総数を確認する際に、1つの目標ビデオフレームの検出結果を取得した後、総数に1を加えてもよい。すなわち、1つの目標ビデオフレームの検出結果が1つの数に対応する。1つの目標ビデオフレームの検出結果を取得した後、具体的に取得したカテゴリの数を総数に積算してもよい。すなわち、1つの目標ビデオフレームの検出結果にnのカテゴリが含まれる場合、それに対応してnの数を積算する。例えば、1つの目標ビデオフレームの検出結果が2つのカテゴリである場合、総数に2を加える。総数の具体的な決定方法は本開示の実際の適用ニーズに応じて決定できるので、これについて、本開示では特に限定しない。
予め設定された時間帯はユーザが自由に設定できる。また、予め設定された時間帯は1つの連続的な時間帯であってもよく、複数の非連続的な時間帯からなるものであってもよい。さらに、複数の予め設定された時間帯同士についてはユーザが時間間隔を自由に設定できる。予め設定された時間帯の具体的な設定は本開示の実際の適用ニーズに応じて決定できるので、これについて、本開示では特に限定しない。
本開示の実施例によれば、検出結果の総数が数閾値よりも大きい場合、複数の前記目標ビデオフレームの検出結果にも基づいて、画像収集装置に対応する付けべきカテゴリ結果を決定することによって、付けべきカテゴリ結果の的確性を向上させることができる。
可能な一実現形態では、付けべきカテゴリ結果の的確性をさらに向上させるために、複数の前記目標ビデオフレームの検出結果に基づいて、画像収集装置に対応する付けべきカテゴリ結果を決定することは、複数の検出結果における1つ又は複数の検出カテゴリの数が前記総数に占める割合を決定することと、割合閾値よりも大きい割合に対応する検出カテゴリを前記画像収集装置に対応する付けべきカテゴリ結果として決定することと、を含む。割合閾値の具体的な値は本開示の実際の適用ニーズに応じて決定できるので、これについて、本開示では特に限定しない。
例えば、ある画像収集装置のビデオストリームについて、取得した検出結果の総数が100であり、そのうち、人顔カテゴリの数が50、人体カテゴリの数が40、ナンバープレートカテゴリ数が10となる。この場合、取得した人顔カテゴリの割合が50%、人体カテゴリの割合が40%、ナンバープレートカテゴリの割合が10%となる。設定された割合閾値が30%であると、人顔カテゴリと人体カテゴリは画像収集装置に対応する付けべきカテゴリ結果となる。
可能な一実現形態では、画像収集装置に対応する付けべきカテゴリ結果を決定した後、後続の付けべきカテゴリ結果に基づく画像収集装置のオペレーション・メンテナンス及び呼び出しを容易に行うために、付けべきカテゴリ結果を記憶してもよい。
可能な一実現形態では、画像収集装置に対応する付けべきカテゴリ結果を決定した後、目標カテゴリの画像収集装置の検索リクエストを受けた場合、決定された画像収集装置に対応する付けべきカテゴリ結果に基づいた、目標カテゴリの画像収集装置を回答として返すことをさらに含む。
目標カテゴリの画像収集装置の検索リクエストは、ユーザがマンマシン・インタフェイスによってトリガーしてもよい。ユーザによる選択のために、マンマシン・インタフェイスに画像収集装置のカテゴリを表示してもよい。記述の便宜上、ここで、ユーザが検索をリクエストするカテゴリを目標カテゴリと呼ぶ。
該検索リクエストを受けた後、画像収集装置の付けべきカテゴリ結果が予め記憶されたので、決定された画像収集装置に対応する付けべきカテゴリ結果に基づいて、目標カテゴリの画像収集装置を決定し、決定された目標カテゴリの画像収集装置を回答としてユーザに返すことができる。
例えば、ユーザは、人顔が見える画像収集装置の呼び出しをリクエストする場合、予め付けられたカテゴリに基づいて画像収集装置をスクリーニングすることができる。人顔カテゴリの画像収集装置を検索するリクエストを受けた後、データベースにおいて人顔カテゴリの画像収集装置を検索し、ユーザに人顔カテゴリの画像収集装置を回答として返すことができる。
本開示の実施例によれば、画像収集装置のオペレーション・メンテナンス及び使用の効率の向上に利用可能である。例えば、ビデオ監視は警察機関による調査と事件解決のための重要な手段となる。警察機関システムにおいて、目標カテゴリの対象および/またはシーンの監視システムを設置するとき、本開示の実施例のカテゴリ付け方法によって、設置されたすべての画像収集装置を分析して画像収集装置の付けべきカテゴリ結果を取得することができ、そして、ユーザは目標カテゴリの対象および/またはシーンの画像収集装置を選択して監視システムに加えることができるので、画像収集装置の効率的なオペレーション・メンテナンス及び使用を実現した。
本開示の実施例によれば、画像収集装置の内情把握・分析作業にも利用可能である。本開示の実施例によって、監視画面の位置するシーンのタイプ及び解析にふさわしい対象の内情把握・分析を行うことができ、内情把握の効率及び画像収集装置のタイプの一致性が向上した。
本開示で言及された上記各方法の実施例は、原理や論理に違反しない限り、相互に組み合わせて組み合わせ後の実施例を形成することができることが理解され、紙幅に限りがあるため、詳細は本開示では再度説明しない。当業者であれば、具体的な実施形態の上記方法において、各ステップの具体的な実行順序はその機能及び可能な内在的論理によって決定されるべきであることが理解される。
なお、本開示は、カテゴリ付け装置、電子機器、コンピュータ読み取り可能記憶媒体、プログラムをさらに提供し、これらはいずれも本開示で提供されるカテゴリ付け方法のいずれか1つを実現するために用いることができ、対応する技術的解決手段及び説明は、方法部分の対応する記載を参照すればよく、詳細は再度説明しない。
図2は本開示の実施例によるカテゴリ付け装置20のブロック図を示す。図2に示すように、前記カテゴリ付け装置20は、
画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定し、前記検出結果は、前記目標ビデオフレームにおける対象の対象カテゴリと、前記目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含む検出結果決定モジュール21と、
複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定する付けべき結果決定モジュール22と、を備える。
可能な一実現形態では、検出結果決定モジュール21は、目標ビデオフレームが複数のカテゴリのそれぞれに該当する信頼度を決定し、信頼度閾値よりも大きい信頼度がある場合、信頼度閾値よりも大きい前記信頼度に対応するカテゴリを目標ビデオフレームの検出結果とすることに用いられる。
可能な一実現形態では、前記装置は、予め設定された時間帯内において取得された前記検出結果の総数を確認するための総数確認モジュールをさらに備え、前記付けべき結果決定モジュール22は、前記検出結果の総数が数閾値よりも大きい場合、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することに用いられる。
可能な一実現形態では、前記検出結果が複数あり、前記付けべき結果決定モジュール22は第1付けべき結果決定サブモジュールと第2付けべき結果決定サブモジュールとを有し、前記第1付けべき結果決定サブモジュールは、前記複数の検出結果における1つ又は複数の検出カテゴリの数が前記総数に占める割合を決定することに用いられ、第2付けべき結果決定サブモジュールは、割合閾値よりも大きい割合に対応する検知検出カテゴリを前記画像収集装置に対応する付けべきカテゴリ結果として決定することに用いられる。
可能な一実現形態では、前記対象カテゴリは、人顔と人体とナンバープレートと車型との少なくとも1つを含み、前記シーンカテゴリは、高空と低空屋内と低空屋外との少なくとも1つを含む。
可能な一実現形態では、前記装置は、目標カテゴリの目標画像収集装置の検索リクエストを受けた場合、決定された前記画像収集装置に対応する前記付けべきカテゴリ結果に基づいた、前記目標カテゴリの前記目標画像収集装置を回答として返すための検索モジュールをさらに備える。
可能な一実現形態では、前記装置は、現在時間が夜間時間であるかを確認するための時間確認モジュールをさらに備え、前記検出結果決定モジュール21は、現在時間が夜間時間ではないと確認した場合、前記画像収集装置が収集したビデオストリームを検出することに用いられる。
本開示の実施例では、画像収集装置の付けべきカテゴリ結果を的確に決定することができ、画像収集装置のカテゴリ区画が実現され、それによって、管理者によるカテゴリの次元を介する画像収集装置の管理及び呼び出しが便利となり、画像収集装置の管理の難易度が低減されている。
いくつかの実施例では、本開示の実施例で提供された装置が備えた機能又はモジュールは、上記方法の実施例に記載の方法の実行に使用可能であり、その具体的な実現は、上記方法の実施例の説明を参照すればよく、簡潔にするために、詳細はここでは再度説明しない。
本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、上記の方法を実現させるコンピュータ読み取り可能記憶媒体をさらに提案する。コンピュータ読み取り可能記憶媒体は、不揮発性コンピュータ読み取り可能記憶媒体であってもよい。
本開示の実施例は、プロセッサーと、プロセッサーにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサーは、前記メモリに記憶されている命令を呼び出し、上記の方法を実行するように構成される電子機器をさらに提案する。
本開示の実施例は、コンピュータ読み取り可能コードを含むコンピュータプログラム製品であって、コンピュータ読み取り可能コードが機器で実行されると、機器のプロセッサーに、上記のいずれかの実施例で提供されたカテゴリ付け方法を実現するための命令を実行させるコンピュータプログラム製品をさらに提案する。
本開示の実施例は、コンピュータ読み取り可能命令を記憶しているコンピュータプログラム製品であって、命令が実行されると、コンピュータに上記のいずれかの実施例で提供されたカテゴリ付け方法の動作を実行させる別のコンピュータプログラム製品をさらに提案する。
電子機器は、端末、サーバー、又はその他の形態の装置として提供されてもよい。
図3は本開示の実施例に係る電子機器800のブロック図を示す。例えば、電子装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってもよい。
図3を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサーコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記の方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサー820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は、電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび後面カメラは固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサーコンポーネント814は電子機器800の各方面の状態評価のための一つ以上のセンサを含む。例えば、センサーコンポーネント814は、電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサーコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサーコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含む。センサーコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサーコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサー(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサーまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804を提供し、上記コンピュータプログラム命令は電子機器800のプロセッサー820によって実行されると、上記方法を実行させることができる。
図4は本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバーとして提供されてもよい。図4を参照すると、電子機器1900は、さらに一つ以上のプロセッサーを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は、命令を実行することにによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される一つの電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932を提供し、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されると、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサーに本開示の各方面を実現させるためのコンピュータ読み取り可能プログラム命令を有しているコンピュータ読み取り可能記憶媒体を含んでもよい。
コンピュータ読み取り可能記憶媒体は命令実行装置に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらなる具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内の突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過する光パルス)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを経由して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバーを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読取可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバーにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行することにより、本開示の各方面を実現できるようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各方面を説明した。フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサーへ提供されて、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサーによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現するように装置を製造してもよい。これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。命令が記憶されているコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現するための命令を有する製品を含む。
コンピュータ読み取り可能プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施可能なプロセスを生成するようにしてもよい。コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は図面に付した順序と異なる順序で実現してもよい。例えば、連続的な二つのブロックは実質的に並行に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
該コンピュータプログラム製品は、具体的にハードウェア、ソフトウェア、またはそれらの組み合わせによって実現してもよい。選択可能な一実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体化される。別の選択可能な一実施例では、コンピュータプログラム製品は、ソフトウェア開発キット(Software Development Kit,SDK)などのソフトウェア製品として具体化される
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に用いられた用語は、各実施例の原理、実際の適用または従来技術への技術的改善を好適に解釈するか、または他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims (11)

  1. 画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定し、前記検出結果は、前記目標ビデオフレームにおける対象の対象カテゴリと、前記目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含むことと、
    複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することと、
    を含むカテゴリ付け方法。
  2. 画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定することは、
    目標ビデオフレームが複数のカテゴリのそれぞれに該当する信頼度を決定することと、
    信頼度閾値よりも大きい信頼度がある場合、信頼度閾値よりも大きい前記信頼度に対応するカテゴリを目標ビデオフレームの検出結果とすることと、
    を含む請求項1に記載の方法。
  3. 前記ビデオストリームにおける目標ビデオフレームの検出結果を決定した後、
    予め設定された時間帯内において取得された前記検出結果の総数を確認することをさらに含み、
    それに応じて、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することは、
    前記検出結果の総数が数閾値よりも大きい場合、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することを含む、請求項1又は2に記載の方法。
  4. 前記検出結果が複数あり、複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定することは、
    前記複数の検出結果における1つ又は複数の検出カテゴリの数が前記総数に占める割合を決定することと、
    割合閾値よりも大きい割合に対応する検出カテゴリを前記画像収集装置に対応する付けべきカテゴリ結果として決定することと、を含む請求項3に記載の方法。
  5. 前記対象カテゴリは、
    人顔と人体とナンバープレートと車型との少なくとも1つを含み、
    前記シーンカテゴリは、
    高空と低空屋内と低空屋外との少なくとも1つを含む請求項1~4のいずれか1項に記載の方法。
  6. 前記画像収集装置に対応する付けべきカテゴリ結果を決定した後、
    目標カテゴリの目標画像収集装置の検索リクエストを受けた場合、決定された前記画像収集装置に対応する前記付けべきカテゴリ結果に基づいた、前記目標カテゴリの前記目標画像収集装置を回答として返すことをさらに含む請求項1~5のいずれか1項に記載の方法。
  7. 画像収集装置が収集したビデオストリームを検出する前に、
    現在時間が夜間時間であるかを確認することをさらに含み、
    それに応じて、前記画像収集装置が収集したビデオストリームを検出することは、
    現在時間が夜間時間ではないと確認した場合、前記画像収集装置が収集したビデオストリームを検出することを含む請求項1~6のいずれか1項に記載の方法。
  8. 画像収集装置が収集したビデオストリームを検出し、前記ビデオストリームにおける目標ビデオフレームの検出結果を決定し、前記検出結果は、前記目標ビデオフレームにおける対象の対象カテゴリと、前記目標ビデオフレームに対応するシーンカテゴリとの少なくとも1つを有する検出カテゴリを含む検出結果決定モジュールと、
    複数の前記目標ビデオフレームの検出結果に基づいて、前記画像収集装置に対応する付けべきカテゴリ結果を決定する付けべき結果決定モジュールと、
    を備えるカテゴリ付け装置。
  9. プロセッサーと、
    プロセッサーにより実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサーは、前記メモリに記憶されている命令を呼び出し、請求項1~7のいずれか1項に記載の方法を実行するように構成される電子機器。
  10. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサーによって実行されると、請求項1~7のいずれか1項に記載の方法を実現させるコンピュータ読み取り可能記憶媒体。
  11. コンピュータ読み取り可能コードを含むコンピュータプログラムであって、
    前記コンピュータ読み取り可能コードが電子機器で実行されると、前記電子機器のプロセッサーに、請求項1~7のいずれか1項に記載の方法を実現するための命令を実行させるコンピュータプログラム。
JP2022512849A 2020-01-19 2020-05-27 カテゴリ付け方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム Withdrawn JP2022545899A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010060050 2020-01-19
CN202010060050.4 2020-01-19
PCT/CN2020/092694 WO2021143008A1 (zh) 2020-01-19 2020-05-27 类别标注方法及装置、电子设备、存储介质和计算机程序

Publications (1)

Publication Number Publication Date
JP2022545899A true JP2022545899A (ja) 2022-11-01

Family

ID=71003553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022512849A Withdrawn JP2022545899A (ja) 2020-01-19 2020-05-27 カテゴリ付け方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム

Country Status (6)

Country Link
US (1) US20220067379A1 (ja)
JP (1) JP2022545899A (ja)
CN (1) CN111274426B (ja)
SG (1) SG11202112130XA (ja)
TW (1) TWI755758B (ja)
WO (1) WO2021143008A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274426B (zh) * 2020-01-19 2023-09-12 深圳市商汤科技有限公司 类别标注方法及装置、电子设备和存储介质
CN112287169B (zh) * 2020-10-29 2024-04-26 字节跳动有限公司 数据采集方法、装置及系统、电子设备及存储介质
CN112418287B (zh) * 2020-11-16 2023-10-13 深圳市优必选科技股份有限公司 图像预标注方法、装置、电子设备及介质
CN112950667B (zh) * 2021-02-10 2023-12-22 中国科学院深圳先进技术研究院 一种视频标注方法、装置、设备及计算机可读存储介质
CN113033681A (zh) * 2021-03-31 2021-06-25 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质及电子设备
CN113066135A (zh) * 2021-04-26 2021-07-02 深圳市商汤科技有限公司 图像采集设备的标定方法及装置、电子设备和存储介质
CN113722541A (zh) * 2021-08-30 2021-11-30 深圳市商汤科技有限公司 视频指纹的生成方法及装置、电子设备和存储介质
CN114694066A (zh) * 2022-03-24 2022-07-01 商汤集团有限公司 一种图像处理方法、装置、电子设备和存储介质
CN116112779A (zh) * 2023-02-23 2023-05-12 上海哔哩哔哩科技有限公司 拍摄效果的推荐、装置、存储介质及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131365A (zh) * 2006-08-23 2008-02-27 宝山钢铁股份有限公司 烧结矿主要矿物相自动识别方法
CN101478665B (zh) * 2008-12-15 2011-06-15 华为终端有限公司 一种视频监控方法及装置
CN103294811A (zh) * 2013-06-05 2013-09-11 中国科学院自动化研究所 考虑特征可靠性的视频分类器构造方法
US9544636B2 (en) * 2014-07-07 2017-01-10 Google Inc. Method and system for editing event categories
US9704054B1 (en) * 2015-09-30 2017-07-11 Amazon Technologies, Inc. Cluster-trained machine learning for image processing
CN108734214A (zh) * 2018-05-21 2018-11-02 Oppo广东移动通信有限公司 图像识别方法和装置、电子设备、存储介质
CN108960290A (zh) * 2018-06-08 2018-12-07 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备
US11100633B2 (en) * 2018-06-13 2021-08-24 Cosmo Artificial Intelligence—Al Limited Systems and methods for processing real-time video from a medical image device and detecting objects in the video
CN109308490B (zh) * 2018-09-07 2020-03-17 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110532971B (zh) * 2019-09-02 2023-04-28 京东方科技集团股份有限公司 图像处理及装置、训练方法以及计算机可读存储介质
CN111274426B (zh) * 2020-01-19 2023-09-12 深圳市商汤科技有限公司 类别标注方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111274426B (zh) 2023-09-12
SG11202112130XA (en) 2021-12-30
WO2021143008A1 (zh) 2021-07-22
TW202129548A (zh) 2021-08-01
CN111274426A (zh) 2020-06-12
TWI755758B (zh) 2022-02-21
US20220067379A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
JP2022545899A (ja) カテゴリ付け方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
WO2022011892A1 (zh) 网络训练方法及装置、目标检测方法及装置和电子设备
WO2021093375A1 (zh) 检测同行人的方法及装置、系统、电子设备和存储介质
WO2017177606A1 (zh) 视频数据的管理方法、装置、终端及服务器
JP2022529300A (ja) 違反イベント検出方法及び装置、電子デバイス並びに記憶媒体
CN110942036B (zh) 人员识别方法及装置、电子设备和存储介质
WO2021093427A1 (zh) 访客信息管理方法及装置、电子设备和存储介质
CN111814629A (zh) 人员检测方法及装置、电子设备和存储介质
CN109493852A (zh) 一种语音识别的评测方法及装置
TWI766458B (zh) 資訊識別方法及裝置、電子設備、儲存媒體
WO2017181545A1 (zh) 对象监控方法及装置
CN113556485A (zh) 视频生成方法及装置、电子设备和存储介质
JP2020512623A (ja) マルチメディアプロセスとの対話に基づいて関連するユーザを推奨する方法および装置
CN111523346B (zh) 图像识别方法及装置、电子设备和存储介质
TW202205127A (zh) 目標檢測方法、電子設備和電腦可讀儲存介質
CN109101542B (zh) 图像识别结果输出方法及装置、电子设备和存储介质
CN109635142A (zh) 图像选择方法及装置、电子设备和存储介质
CN110019960A (zh) 数据处理方法及装置、电子设备和存储介质
TW202145064A (zh) 對象計數方法、電子設備、電腦可讀儲存介質
CN109671051A (zh) 图像质量检测模型训练方法及装置、电子设备和存储介质
JP2023514762A (ja) 通行検出方法及びその装置、電子デバイス並びにコンピュータ可読記憶媒体
WO2022227562A1 (zh) 身份识别方法及装置、电子设备、存储介质和计算机程序产品
CN110781842A (zh) 图像处理方法及装置、电子设备和存储介质
CN111814627B (zh) 人员检测方法及装置、电子设备和存储介质
CN111651627A (zh) 数据处理方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220224

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20221221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221221