JP6842395B2 - ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用 - Google Patents

ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用 Download PDF

Info

Publication number
JP6842395B2
JP6842395B2 JP2017182561A JP2017182561A JP6842395B2 JP 6842395 B2 JP6842395 B2 JP 6842395B2 JP 2017182561 A JP2017182561 A JP 2017182561A JP 2017182561 A JP2017182561 A JP 2017182561A JP 6842395 B2 JP6842395 B2 JP 6842395B2
Authority
JP
Japan
Prior art keywords
image
digital
training
images
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017182561A
Other languages
English (en)
Other versions
JP2018101406A5 (ja
JP2018101406A (ja
Inventor
ニクラス ダニエルソン,
ニクラス ダニエルソン,
ファン, シン ダニエルソン
ファン, シン ダニエルソン
Original Assignee
アクシス アーベー
アクシス アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アクシス アーベー, アクシス アーベー filed Critical アクシス アーベー
Publication of JP2018101406A publication Critical patent/JP2018101406A/ja
Publication of JP2018101406A5 publication Critical patent/JP2018101406A5/ja
Application granted granted Critical
Publication of JP6842395B2 publication Critical patent/JP6842395B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は一般に、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするための方法、コンピュータプログラム、コンピュータ、およびシステムに関する。
画像処理では、多くのアプリケーションは、さまざまな画像領域に対してリソースの割り当てを変えることが必要となる。たとえば、圧縮パラメータは、画像のある種の特性に基づいて選択することが可能であり、或いは、画像領域は、送信信頼性と効率等との間のトレードオフを最適なものにするために、さまざまな程度のエラー修正を受けることがあり得る。特定の画像領域に割り当てられるべきリソースの量を決定するための画像領域の関連度の自動識別は、重要な問題であり、そのようなアルゴリズムを実行することはまた、貴重なCPU時間を必要とする場合もある。これは、たとえば多数のプログラムが、監視カメラのような組み込みプラットフォーム上で限られたリソースをめぐって競合する場合には、問題を生じる可能性がある。
したがって、このような状況において改善の必要がある。
欧州特許第3021583号明細書
上記のことを考慮して、本発明の目的は、上記で説明されている欠点の1つまたは複数を、解決するかまたは少なくとも低減することである。概して、上記の目的は、添付の独立請求項によって達成される。
第1の態様によれば、本発明は、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするための方法により実現される。方法は、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。
「ニューラルネットワーク」という用語は、本明細書のコンテキストでは、脳内のニューロンの巨大なネットワークと類似した、相互接続されたノード群として理解されたい。ニューラルネットワークはまた、「人工ニューラルネットワーク」(ANN)と称されることもある。このコンテキストで使用され得るニューラルネットワークの特定のタイプは、畳み込みニューラルネットワーク(CNN)である。「ディープラーニング」という用語もまた一般に使用される。
「関連度」という用語は、本明細書のコンテキストでは、画像内の対応する領域の画像コンテンツの(たとえばユーザにとっての)関心度の格付けとして理解されたい。言い換るならば、関連度は、画像内の領域(ピクセル群)に対応し、関連度は、その領域の画像コンテンツが画像の閲覧者にとってどの程度関心を引くものであるかを規定する。これは有利なことに、画像のビットレートバジェットを分配するために使用されてもよい。たとえば、関連度は、圧縮レベルの設定を通じて、対応する領域の圧縮度を制御するため、またはエンコーダがその領域のコーディングをどの程度積極的にスキップすべきかを決定するために使用されてもよい。関連度はさらに、たとえばエンコードされた画像を送信する際のエラー修正の度合いを決定するための、エラーコーディングの目的で使用されてもよい。画像の特定の領域の比較的高い関連度は、ビットレートバジェットのより大きい部分が、関連度のより低い別の画像領域と比較して、その特定の領域に費やされ得ることを意味する。
従来技術において関連度に代わって使用されることもあるその他の用語として、「関心領域」すなわち「ROI」を挙げることができる。
「ピクセル群に関連度を自動的にラベル付けするように構成された画像解析アルゴリズム」という表現は、本明細書のコンテキストでは、その部分の画像特性(つまり画像解析)に基づいて画像の対応する領域(たとえばマクロブロック)の画像コンテンツの(たとえばユーザにとっての)関心度を自動的に(たとえば、コンピュータを用いて、人間の補助なしに)格付けするために使用され得る任意の適切なアルゴリズムとして理解されたい。画像特性は、たとえばデジタル画像の一部に存在するエッジ、ノイズの存在、繰り返しテクスチャ加工された部分、顔認識、オブジェクト検出などのように、空間的であってもよい。画像特性はまた、たとえば動き検出のように、時間的なものであってもよい。適切な画像解析アルゴリズムの例は、Axis Communicationにより提供されるZipstreamアルゴリズムである。このアルゴリズムの一部は、たとえば欧州特許第3021583号明細書において説明されている。
本発明者らは、上記で説明されている既存の画像解析アルゴリズムを使用してトレーニングされるニューラルネットワークを採用することがいくつかの利点を有することに注目した。たとえば、ニューラルネットワークは極めて反復的ではあるが、極めて単純な膨大な量の計算によって機能するため、ニューラルネットワークの設計は、極めて単純で、ハードウェアの実装に十分に順応することができる。さらに、モデル圧縮の分野で現在進行中の研究は、監視カメラのような組み込みプラットフォーム上に置くことが徐々に実現可能になりつつあるニューラルネットワークを利用する。このように、監視カメラのような組み込みプラットフォームでニューラルネットワークを使用することは、カメラで実際の画像解析アルゴリズムを実行することよりも有利となり得る。
一部の実施形態によれば、第1の画像解析アルゴリズムは、ピクセル群の空間的統計測定値を計算することと、複数のデジタルトレーニング画像の画像シーケンスに時間フィルタリングを適用することによって、ピクセル群の時間的統計測定値を計算することであって、画像シーケンスは特定のデジタルトレーニング画像を含む、ピクセル群の時間的統計測定値を計算することと、を行うことにより、ピクセル群に関連度を自動的にラベル付けするように構成される。
次いで、2つの統計測定値は、ピクセル群の時間的統計測定値および空間的統計測定値を重み付けすることによって重み付け統計測定値を計算して、重み付け統計測定値に基づいてピクセル群に関連度をラベル付けするために使用され得る。使用される重みは、たとえば0.5、0.3、0.7のような静的な重みであってもよく、または関与する画像領域の画像特性に応じて異なっていてもよい。
一部の実施形態によれば、トレーニングデータセットを決定することは、第2の複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第2の画像解析アルゴリズムを使用することにより、第2の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することを含み、第2の画像解析アルゴリズムは第1の画像解析アルゴリズムとは異なる。
たとえば、(より少ない)複数の画像について、より複雑または特殊化された画像解析アルゴリズムが、たとえばデジタル画像の特定のコンテンツに関係するトレーニングデータをニューラルネットワークに提供するために採用されてもよい。そのような特定のコンテンツの例は、交通量を示す画像コンテンツか、または多くの人々がカメラのそばを通り過ぎるエントランスを示す画像コンテンツなどであってもよい。
本発明の実施形態の利点は、ニューラルネットワークが、正しくトレーニングされる場合、第1の画像解析アルゴリズムのような手作りのアルゴリズムと比較して、はるかに優れたパフォーマンスを有する可能性があることである。本発明の実施形態の利点は、膨大な量のトレーニングデータが、第1の画像解析アルゴリズムとの間で生成されて、そのアルゴリズムと同程度で実行するためのアルゴリズムを迅速に獲得できることである。その後、ニューラルネットワークは、第2の複数の画像およびそのレベル(第2の画像解析アルゴリズムによって決定される)のような、その他のより「高度な」トレーニングデータで微調整されてもよい。また、微調整が必要とするデータは通常、初期トレーニング(つまり、第1の複数の画像を使用すること)よりもはるかに少なくてすむ。言い換えるならば、第2のトレーニングを行う目的は、ユーザ固有の関連度を提供することである。画像のある区域は、一部のユーザにとっては重要であるが、その他のタイプの使用事例では関心を引くものではない。この第2のトレーニング(第2の複数の画像および第2の画像解析アルゴリズムを使用する)を追加することで、ビットレートバジェットはユーザの関連分野で容易に費やすことができる。
第2の複数のデジタルトレーニング画像は、第1の複数のデジタルトレーニング画像の一部である少なくとも1つのデジタルトレーニング画像を備えることができる。第2の複数のデジタルトレーニング画像は、たとえば、第1の複数のデジタルトレーニング画像のサブセットで構成されてもよい。第2の複数のデジタルトレーニング画像はまた、第1の複数のデジタルトレーニング画像の一部ではない少なくとも1つのデジタルトレーニング画像を備えることができる、つまり第2の複数のデジタルトレーニング画像は第1の複数のデジタルトレーニング画像のサブセットではない。
一部の実施形態によれば、トレーニングデータセットは、第1の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。その他の実施形態によれば、トレーニングデータセットは、第2の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。トレーニングデータセットの画像の中のピクセル群に手動でラベル付けすることは、トレーニングデータセットを微調整するために使用されてもよい。第2の複数の画像および第2の画像解析アルゴリズムの使用と併せて、上記で説明されているものと同じ論拠を使用すると、この実施形態では、ビットレートバジェットはユーザの関連分野で容易に費やすことができる。
第2の態様において、本発明は、処理機能を有するデバイスによって実行されるとき、第1の態様の方法を遂行するように適合された命令を伴うコンピュータ可読記憶媒体を備えるコンピュータプログラム製品を提供する。
第3の態様によれば、本発明は、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを備えるコンピュータを提供する。ニューラルネットワークのトレーニングは、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。
第4の態様において、本発明は、ビデオカメラおよびコンピュータを備えるシステムを提供する。コンピュータは、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のピクセル群の関連度を決定するためのデータを特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを有し、ニューラルネットワークのトレーニングは、複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することにより複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定することによって、トレーニングデータセットを決定することと、複数のデジタルトレーニング画像およびラベルをトレーニングデータセットとして含めることと、ニューラルネットワークのトレーニングのためにトレーニングデータセットを使用することとを含む。プロセッサは、結果として得られたトレーニングされたニューラルネットワークをカメラに提供するようにさらに構成され、カメラは、トレーニングされたニューラルネットワークを受信するように構築される。カメラは、複数のデジタル画像を取り込み、複数のデジタル画像の画像データをトレーニングされたニューラルネットワークに提供し、複数のデジタル画像の各特定のデジタル画像について、特定のデジタル画像のピクセル群に各々対応する複数の関連度を取得するように、さらに構築される。
「トレーニングされたニューラルネットワーク」という用語は、本明細書のコンテキストでは、たとえば、ニューラルネットワーク内のノードのセットアップ(ノードが相互接続される方法)、およびニューラルネットワークにおいて使用される重み(フィルタ、重みバンクなど)を指定するテキストファイルとして理解されたい。たとえばバイナリファイルを介するなど、コンピュータとカメラとの間でトレーニングされたニューラルネットワークを提供するその他の方法が、同様に可能である。
一部の実施形態によれば、カメラは、取得された関連度に従って特定のデジタル画像の圧縮度を制御することによって特定のデジタル画像をエンコードするようにさらに構築される。
圧縮度は、画像の特定の部分(領域、区域など)について圧縮比を設定することによって制御されてもよい。圧縮比は、たとえば0〜51(H.264)、1〜255(VP9)、または1〜100の範囲の、量子化パラメータ値、QP値によって具現化されてもよい。この説明において、「圧縮度」、「圧縮比」、および「圧縮レベル」という用語は、広い意味で、元の、圧縮解除された、ピクセルの表現よりも少ないビットを使用するピクセルのエンコーディングを示すために同義的に使用されることに留意されたい。上記で説明されているように、エンコーディングプロセスのその他の部分は、たとえば関連度に基づいてエンコードされた画像を送信する際のエラー修正の度合いを決定するために、エラーコーディングのような、関連度に基づいてもよい。
第2、第3、および第4の態様は概して、第1の態様と同じ特徴および利点を有することができる。
本発明の上記、ならびに追加の目的、特徴、および利点は、同じ参照番号が類似する要素について使用される添付の図面を参照して、本発明の実施形態の以下の例示的かつ非限定的な詳細な説明を通じてさらに深く理解されるであろう。
畳み込みニューラルネットワークを概略的に示す図である。 実施形態によるニューラルネットワークがトレーニングされる方法を示す図である。 実施形態によるビデオカメラおよびコンピュータを備えるシステムを示す図である。 実施形態によるニューラルネットワークをトレーニングする方法を示す図である。
図1は、一例として畳み込みニューラルネットワーク(CNN)100を示す。この明細書のコンテキストでは、入力用デジタル画像におけるピクセル群の関連度を決定するためのCNNの使用は単に一例に過ぎないことに留意されたい。たとえば別のタイプのフィードフォワードニューラルネットワーク(つまりCNN以外)、再帰型ネットワークなど、任意の適切なニューラルネットワークアーキテクチャが、この目的で採用されてもよい。CNN100において、畳み込みレイヤ102、および完全接続レイヤ104という2つのタイプのレイヤが存在することができる。完全接続レイヤは、2つ以上の出力を有するレイヤで置き換えられてもよいことが想定される。CNN100において、任意の数の2つの異なるレイヤが存在することができる。図1において、2つの畳み込みレイヤ102a、102bが存在する。畳み込みレイヤ102には、2つの回帰ヘッド104が追加される。回帰ヘッド104は、この例において、畳み込みレイヤ102から出力106を供給される完全接続レイヤ104a〜b、104c〜dのセットである。このコンテキストにおけるCNNの利点は、(画像解析の目的に適合されたフィルタおよびフィルタ重みで構成された)畳み込みレイヤ102の同じセットが、関連度を決定する目的のために使用され得ることであってもよい。このセット102には、追加の回帰ヘッド104が追加されてもよい(畳み込みレイヤ102のセットはその他の画像解析の目的でトレーニングされたその他の回帰ヘッドにすでに接続されている)。次いで、追加の回帰ヘッドは、畳み込みレイヤ102からの出力データ106を使用して関連度を決定するためにトレーニングされてもよい。回帰ヘッド104の計算複雑性は、畳み込みレイヤ102のセットと比較すると低い場合が多く、そのためニューラルネットワーク100を実行するハードウェアに追加の要求を加えることはほとんどない。
図2は、ニューラルネットワーク100をトレーニングするように構築されたデバイス200を一例として示す。トレーニングの実施形態は、これ以降、図2および図4と併せて説明される。デバイス200は、処理機能を有する任意のデバイスであってもよく、これ以降、コンピュータ200と称される。コンピュータ200は、最初に複数のデジタルトレーニング画像208を受信することによって、トレーニングデータセット212を決定することができる。次いで、デジタルトレーニング画像208は、デジタルトレーニング画像208の各々におけるピクセル群に対する関連度を決定しS402、自動的にラベル付けするように構成される第1の画像解析アルゴリズム204に供給されてもよい。第1の画像解析アルゴリズム204は、一部の実施形態に従ってデジタルトレーニング画像の空間的統計測定値に重点を置くことができる。この場合、各デジタルトレーニング画像は、第1の画像解析アルゴリズム204によって個別に処理されてもよい。通常の空間的統計測定値は、エッジ検出、色分布、顔検出、および空間ノイズ検出であってもよい。代替的に、または追加的に、第1の画像解析アルゴリズム204はまた、デジタルトレーニング画像のシーケンスのオブジェクトの動きのような、デジタルトレーニング画像の時間的特徴を考慮に入れることもできる。この理由から、第1の画像解析アルゴリズムは、複数のデジタルトレーニング画像の画像シーケンスに時間的フィルタリングを適用することによって、各特定のデジタルトレーニング画像におけるピクセル群の時間的統計測定値を計算するように構成されてもよく、画像シーケンスは特定のデジタルトレーニング画像を含む。この場合、第1の画像解析アルゴリズム204は、アルゴリズムの1つの実行において、つまり特定のデジタルトレーニング画像における特定のピクセル群の時間的統計測定値を計算する際に、複数のデジタルトレーニング画像を考慮する必要がある。時間的統計測定値の例は、動き検出、時間ノイズ検出、画像間の照明条件の変化の検出などである。
空間的統計測定値および時間的統計測定値の両方がピクセルの特定群について計算される場合、第1の画像解析アルゴリズム204は、ピクセル群の時間的統計測定値および空間的統計測定値を重み付けすることによって重み付け統計測定値を計算し、重み付け統計測定値に基づいてピクセル群に関連度をラベル付けするように構成されてもよい。適用される重みは、0から1の任意の値であってもよく(時間的統計測定値および空間的統計測定値が正規化される場合、それ以外の場合はその他の範囲の重みが適用する)、第1の画像解析アルゴリズム204の対象分野に応じて決まる。
たとえば、第1の画像解析アルゴリズム204が、移動する人物を含む画像の部分にビットレートバジェットを費やすように適合される場合、アルゴリズムは、画像のそのような部分に高い関連度をラベル付けすべきである。第1の画像解析アルゴリズムは、この実施形態において、画像内のピクセル群が移動する人物に対応するかどうかを決定するために、対応する空間的および時間的統計測定値を計算する必要がある。もう1つの例は、第1の画像解析アルゴリズム204が街路を細部にわたり表示する保存区域に重点を置くように構築される(つまりビットレートバジェットがそのような区域に費やされる)ものであってもよく、この場合、計算される必要があるのは空間的統計測定値のみであってもよい。
要約すると、第1の画像解析アルゴリズム204は、各デジタルトレーニング画像208の特定のピクセル群に関連度を自動的にラベル付けするように構成される。この目的で第1の画像解析アルゴリズム204のみが使用される実施形態について、複数のデジタルトレーニング画像208および計算されたラベルは、トレーニングデータセット212を形成する。
一部の実施形態によれば、トレーニングデータセット212を決定することは、第2の複数のデジタルトレーニング画像を第2の画像解析アルゴリズム206を通じて実行することを含む。
第2の複数のデジタルトレーニング画像は、第1の複数のデジタルトレーニング画像208のサブセットであってもよい。
あるいは、第2の複数のデジタルトレーニング画像は、第1の複数のデジタルトレーニング画像208のサブセットではない。
たとえば、第2の複数のデジタルトレーニング画像は、たとえば交通状況、カジノ、小売店、銀行、航空機監視など、ニューラルネットワークのアプリケーションの特定の範囲を対象としてもよい。この理由により、これらの特定の状況も対象とすることができる第2の画像解析アルゴリズム206を使用してそのような状況を表示する画像210を解析することは有利となり得る。すなわち、一部の実施形態によれば、第1の画像解析アルゴリズム204は、各種の画像コンテンツで良好に機能するより汎用のアルゴリズムであってもよく、第2の画像解析アルゴリズム206は、特定の画像コンテンツを対象とする。一部の実施形態によれば、第1の画像解析アルゴリズム204は、計算複雑性がさほど高くはなく、そのため膨大な画像(たとえば>10000または>1000000)で実行することが可能であってもよく、第2の画像解析アルゴリズム206は、計算複雑性がより高くてもよい。
したがって、コンピュータ200は、第2の複数のデジタルトレーニング画像について、ピクセル群に関連度を自動的にラベル付けするように構成された第2の画像解析アルゴリズムを使用することにより、第2の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像におけるピクセル群の関連度を決定するS404ように構築されてもよく、第2の画像解析アルゴリズムは第1の画像解析アルゴリズムとは異なる。上記で説明されているように、第1の画像解析アルゴリズムは、あらゆるタイプの入力画像で等しく良好に機能する汎用アルゴリズムであってもよく、第2の画像解析アルゴリズムは、よりプロファイルベースの解析を提供する(つまり一部の特定のコンテンツを備えるかまたは特定の状況を表示する画像を対象とする)ことができる。
一部の実施形態によれば、トレーニングデータセット212は、第1の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のピクセル群に関連度を手動で(人物214により)ラベル付けすることによってさらに決定されるS406。代替的に、または追加的に、トレーニングデータセット212は、第2の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のピクセル群に関連度を手動でラベル付けすることによってさらに決定される。この実施形態は、第1および/または第2の画像解析アルゴリズム204、206が関連度を正しくラベル付けできなかったデジタルトレーニング画像の一部の特定の特徴に対して、トレーニングデータセットが微調整される必要がある場合に有利となりうる。トレーニングデータセット212は、一部の実施形態により、少なくとも1つのさらなるデジタルトレーニング画像(第1/第2の複数のデジタルトレーニング画像の一部ではない)のピクセル群に関連度を手動でラベル付けすることによってさらに決定されてもよく、少なくとも1つのさらなるデジタルトレーニング画像および対応するラベルをトレーニングデータセットに含む。この実施形態は、図2には含まれていない。
したがって、トレーニングデータセット212は、第1および/または第2の画像解析アルゴリズム204、206によって解析された複数のデジタルトレーニング画像、および場合によっては人物214によって微調整されたラベルを備える。
次いで、トレーニングデータセット212は、ニューラルネットワーク100をトレーニングするS408ために使用される。トレーニングデータセット212を使用してニューラルネットワーク100をトレーニングすることは、当業者に実施が任せられ、使用されるニューラルネットワーク100のアーキテクチャに従って行なわれる。一般に、ニューラルネットワークは、各入力用デジタル画像の関連度のマップを、トレーニングデジタル画像のピクセル群に対するグラウンドトゥルースとして損失関数およびラベルを使用して、その内部重みを調整することによって提供するようにトレーニングされる。損失関数は、たとえば、平均二乗誤差の最小化をもたらす、L2ノルムに基づいてもよい。損失関数は、たとえば、可能な関連度の数、入力データのサイズなどに基づいて規定されてもよい。損失関数が規定されている場合、重みは通常、たとえばオプティマイザの確率的勾配降下法アルゴリズムと共に標準化誤差逆伝播法を通じて更新される。当業者に知られているように、確率的勾配降下法は、トレーニング中の入力画像に基づいて望ましい出力を生成することに可能な限り近いモデルを取得するように、ニューラルネットワークの重みをいかにして更新するかを計算するための最もよく知られている方法である。
第2の複数のトレーニング画像がトレーニングに使用され、第1の複数のトレーニング画像のサブセットである場合、第2の複数のデジタルトレーニング画像およびその対応するラベルは通常、ニューラルネットワークが第1の複数のデジタルトレーニング画像でトレーニングされた後にニューラルネットワークのトレーニングに使用されることに留意されたい。
たとえば、トレーニング中に何万もの画像がニューラルネットワーク100に入力され、トレーニングデジタル画像の一部ではないデジタル画像上で、ただしはるかに迅速かつ計算複雑性の低い方法で、第1および/または第2の画像解析アルゴリズム204、206に相当する(またはより良い)結果を生成することができるまで、ニューラルネットワーク100の内部重みが調整される。
ニューラルネットワークの設計により、有利な使用領域は、特定用途向集積回路(ASIC)のような、ニューラルネットワークを実行するように特に設計されたハードウェアを備えるビデオカメラなどの低い使用可能計算リソース(たとえば、第1/第2の画像アルゴリズムを実行するのに十分ではない)を有し得るデバイスにある。そのため、デバイス200は、そのようなデバイス304に、トレーニングされたニューラルネットワークを、たとえば無線ネットワーク302を介して提供するように構築されてもよく、それによってデバイスはトレーニングされたニューラルネットワークで構成されるS410。これは、図3に示される。トレーニングされたニューラルネットワークが、内部フィルタおよびトレーニングされたニューラルネットワークの重みを備えるテキストファイルのような、任意の適切な方法で配布されてもよいことに留意されたい。また、コンピュータメモリ(たとえば、USB)または有線接続のような、トレーニングされたニューラルネットワークのカメラへの配布の任意のその他の手段が使用されてもよいことに留意されたい。次いで、カメラは、カメラ304によって取り込まれ、次いで適宜にエンコードされた画像の関連度を決定するために、トレーニングされたニューラルネットワークを使用するように構築される。そのため、カメラ304は、
複数のデジタル画像を取り込み、
複数のデジタル画像の画像データをトレーニングされたニューラルネットワークに提供し、複数のデジタル画像の各特定のデジタル画像について、特定のデジタル画像のピクセル群に各々対応する複数の関連度を取得するように構築されてもよい。
一部の実施形態によれば、カメラは、取得された複数の関連度に従って特定のデジタル画像の圧縮度を制御することによって特定のデジタル画像をエンコードするように構築されてもよい。関連度と圧縮度との間のマッピングは線形であってもよい、つまり比較的高い関連度は常に、比較的低い関連度と比べて、対応するピクセル群のより低い圧縮度に対応してもよい。その他の実施形態によれば、マッピングは段階的なものである、つまり関連度の範囲は、同じ圧縮度にマップする。画像の多数の区域、または画像シーケンスが、関連すると見なされる画像コンテンツを含む場合には、使用可能な帯域幅を超えることがないように、マッピングはまた、使用可能な帯域幅を検討する必要がある。
上記で説明されているように、一部の実施形態によれば、カメラ304は、ニューラルネットワークを実行するために専用のハードウェアを備えることができる。その他の実施形態によれば、ニューラルネットワークのソフトウェア実施は、使用されるべき関連度を取得するために使用される。いずれにせよ、上記で説明されているニューラルネットワークを使用することにより達成される結果は、関連度を取得するために第1/第2の画像解析アルゴリズム204、206を実際に実行する場合と比較して、大幅に改善され得る。
100 ニューラルネットワーク
102 畳み込みレイヤ
102a 畳み込みレイヤ
102b 畳み込みレイヤ
104 回帰ヘッド
104a 完全接続レイヤ
104b 完全接続レイヤ
104c 完全接続レイヤ
104d 完全接続レイヤ
106 出力
200 デバイス、コンピュータ
208 デジタルトレーニング画像
212 トレーニングデータセット
204 第1の画像解析アルゴリズム
206 第2の画像解析アルゴリズム
214 人物
210 画像
302 無線ネットワーク
304 カメラ

Claims (10)

  1. エンコーディングプロセス中に、画像にビットレートバジェットを分配するときにビデオカメラで使用される、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のマクロブロックの関連度を決定するためのデータを前記特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするためのコンピュータプログラムであって、
    第1の複数のデジタルトレーニング画像について、前記マクロブロック内の画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することによって、前記複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定することと(S402)、
    ユーザが特定した状況を表示する第2の複数のデジタルトレーニング画像について、マクロブロックの画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第2の画像解析アルゴリズムを使用することにより、前記第2の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定すること(S404)、
    によってトレーニングデータセットを決定することであって、
    前記第2の画像解析アルゴリズムは、前記ユーザが特定した状況を表示する画像を解析するように特別に適合されている点で、第1の画像解析アルゴリズムとは異なり、
    比較的高い関連度のマクロブロックは、より低い関連度を有するマクロブロックと比較して、エンコーディングプロセス中にそのマクロブロックに前記ビットレートバジェットのより大きい部分が費やされることをビデオカメラに示す、前記トレーニングデータセットを決定すること、
    前記第1および第2の複数のデジタルトレーニング画像および前記関連するラベルを前記トレーニングデータセットとして含めること、および
    前記ニューラルネットワークのトレーニング(S408)に前記トレーニングデータセットを使用すること、
    を含み、
    前記第1の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークを最初にトレーニングするのに使用され、その後、前記第2の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークの前記トレーニングを前記ユーザが特定した状況に微調整するのに使用される、コンピュータプログラム
  2. 前記第1の画像解析アルゴリズムが、
    前記マクロブロックの空間的統計測定値を計算することと、
    前記複数のデジタルトレーニング画像の画像シーケンスに時間的フィルタリングを適用することによって、前記マクロブロックの時間的統計測定値を計算することであって、前記画像シーケンスは前記特定のデジタルトレーニング画像を含む、前記マクロブロックの時間的統計測定値を計算することと、
    前記マクロブロックの前記時間的統計測定値および前記空間的統計測定値を重み付けすることによって重み付け統計測定値を計算して、前記重み付け統計測定値に基づいて前記マクロブロックに関連度をラベル付けすることと
    を行うことにより、前記マクロブロックに関連度を自動的にラベル付けするように構成される、請求項1に記載のコンピュータプログラム
  3. 前記第2の複数のデジタルトレーニング画像が、前記第1の複数のデジタルトレーニング画像の一部である少なくとも1つのデジタルトレーニング画像を含む、請求項1または2に記載のコンピュータプログラム
  4. 前記第2の複数のデジタルトレーニング画像が、前記第1の複数のデジタルトレーニング画像の一部ではない少なくとも1つのデジタルトレーニング画像を含む、請求項1から3のいずれか一項に記載のコンピュータプログラム
  5. 前記トレーニングデータセットが、前記第1の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のマクロブロックに関連度を手動でラベル付けすること(S406)によってさらに決定される、請求項1から4のいずれか一項に記載のコンピュータプログラム
  6. 前記トレーニングデータセットが、前記第2の複数のデジタルトレーニング画像の中の少なくとも1つのデジタルトレーニング画像のマクロブロックに関連度を手動でラベル付けすることによってさらに決定される、請求項1から5のいずれか一項に記載のコンピュータプログラム
  7. 求項1から6のいずれか一項に記載のコンピュータプログラムを収容した、コンピュータ可読記憶媒
  8. エンコーディングプロセス中に、画像にビットレートバジェットを分配するときにビデオカメラで使用される、複数の入力用デジタル画像を受信し、特定の入力用デジタル画像内のマクロブロックの関連度を決定するためのデータを前記特定の入力用デジタル画像の各々について出力するニューラルネットワークをトレーニングするように構成されたプロセッサを備えるコンピュータであって、前記ニューラルネットワークの前記トレーニングが、
    第1の複数のデジタルトレーニング画像について、前記マクロブロック内の画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第1の画像解析アルゴリズムを使用することによって、前記複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定することと、
    ユーザが特定した状況を表示する第2の複数のデジタルトレーニング画像について、マクロブロックの画像特性に基づく関連度で前記マクロブロックを自動的にラベル付けするように構成された第2の画像解析アルゴリズムを使用することにより、前記第2の複数のデジタルトレーニング画像の各特定のデジタルトレーニング画像内の前記マクロブロックの関連度を決定すること(S404)、
    とによってトレーニングデータセットを決定することであって、
    前記第2の画像解析アルゴリズムは、前記ユーザが特定した状況を表示する画像を解析するように特別に適合されている点で、第1の画像解析アルゴリズムとは異なり、
    比較的高い関連度のマクロブロックは、より低い関連度を有するマクロブロックと比較して、エンコーディングプロセス中にそのマクロブロックに前記ビットレートバジェットのより大きい部分が費やされることをビデオカメラに示す、前記トレーニングデータセットを決定すること、
    前記第1および第2の複数のデジタルトレーニング画像および前記関連するラベルを前記トレーニングデータセットとして含めること、および
    前記ニューラルネットワークのトレーニングに前記トレーニングデータセットを使用すること、
    を含み、
    前記第1の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークを最初にトレーニングするのに使用され、その後、前記第2の複数のデジタルトレーニング画像および前記関連する関連度は、前記ニューラルネットワークの前記トレーニングを前記ユーザが特定した状況に微調整するのに使用される、コンピュータ。
  9. ビデオカメラと請求項8に記載のコンピュータとを備えるシステムであって、
    前記プロセッサが、結果として得られたトレーニングされたニューラルネットワークを前記カメラに提供する(S410)ようにさらに構成され、
    前記カメラが、
    前記トレーニングされたニューラルネットワークを受信し、
    複数のデジタル画像を取り込み、前記複数のデジタル画像の画像データを前記トレーニングされたニューラルネットワークに供給し、前記複数のデジタル画像の各特定のデジタル画像について、前記特定のデジタル画像のマクロブロックに各々対応する複数の関連度を取得するように構成された、システム。
  10. 前記カメラが、
    前記取得された関連度に従って前記特定のデジタル画像の圧縮度を制御することによって前記特定のデジタル画像をエンコードするようにさらに構成された、請求項9に記載のシステム。
JP2017182561A 2016-10-04 2017-09-22 ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用 Active JP6842395B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16192142.4A EP3306528B1 (en) 2016-10-04 2016-10-04 Using image analysis algorithms for providing traning data to neural networks
EP16192142.4 2016-10-04

Publications (3)

Publication Number Publication Date
JP2018101406A JP2018101406A (ja) 2018-06-28
JP2018101406A5 JP2018101406A5 (ja) 2020-08-20
JP6842395B2 true JP6842395B2 (ja) 2021-03-17

Family

ID=57083180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017182561A Active JP6842395B2 (ja) 2016-10-04 2017-09-22 ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用

Country Status (6)

Country Link
US (1) US10496903B2 (ja)
EP (1) EP3306528B1 (ja)
JP (1) JP6842395B2 (ja)
KR (1) KR102203694B1 (ja)
CN (1) CN107895359B (ja)
TW (1) TWI735669B (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6624125B2 (ja) * 2017-03-13 2019-12-25 コニカミノルタ株式会社 画像検査装置、画像形成システム及び画像圧縮方法
CN111727412B (zh) * 2018-03-05 2023-07-14 欧姆龙株式会社 用于设定照明条件的方法、装置、系统以及存储介质
DE102019208257A1 (de) * 2018-07-03 2020-01-09 Heidelberger Druckmaschinen Ag Druckqualitätsanalyse mit neuronalen Netzen
CN109271847B (zh) 2018-08-01 2023-04-07 创新先进技术有限公司 无人结算场景中异常检测方法、装置及设备
KR102194303B1 (ko) 2018-10-08 2020-12-22 단국대학교 산학협력단 3d 데이터 프로세싱에 이용되는 ai 트레이닝을 위한 데이터 셋 확장 생성과 전처리를 위한 장치 및 방법
EP3667557B1 (en) * 2018-12-13 2021-06-16 Axis AB Method and device for tracking an object
TWI701565B (zh) * 2018-12-19 2020-08-11 財團法人工業技術研究院 資料標記系統及資料標記方法
US11853812B2 (en) * 2018-12-20 2023-12-26 Here Global B.V. Single component data processing system and method utilizing a trained neural network
US10540572B1 (en) * 2019-01-31 2020-01-21 StradVision, Inc. Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
US10762393B2 (en) * 2019-01-31 2020-09-01 StradVision, Inc. Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same
WO2020170036A1 (en) * 2019-02-22 2020-08-27 Stratuscent Inc. Systems and methods for learning across multiple chemical sensing units using a mutual latent representation
CN114127776A (zh) * 2019-05-17 2022-03-01 巴科股份有限公司 用于训练具有构数据的生成式对抗网络的方法和系统
DE102019207575A1 (de) * 2019-05-23 2020-11-26 Volkswagen Aktiengesellschaft Verfahren zum Beurteilen einer funktionsspezifischen Robustheit eines Neuronalen Netzes
KR102339181B1 (ko) * 2020-03-09 2021-12-13 에스케이 주식회사 Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템
TWI809266B (zh) * 2020-04-21 2023-07-21 中華電信股份有限公司 電梯事件偵測模型之產生與更新方法
EP3905659B1 (en) * 2020-04-28 2022-06-01 Axis AB Statistics-based electronics image stabilization
WO2021230675A1 (ko) * 2020-05-13 2021-11-18 (주)사맛디 딥러닝 기반 대상체 감성 인식 방법 및 장치
US11295430B2 (en) 2020-05-20 2022-04-05 Bank Of America Corporation Image analysis architecture employing logical operations
US11379697B2 (en) 2020-05-20 2022-07-05 Bank Of America Corporation Field programmable gate array architecture for image analysis
CN111767985B (zh) * 2020-06-19 2022-07-22 深圳市商汤科技有限公司 一种神经网络的训练方法、视频识别方法及装置
KR102213291B1 (ko) * 2020-07-30 2021-02-04 배도연 웹사이트 제작 시스템
WO2023085457A1 (ko) * 2021-11-11 2023-05-19 한국전자기술연구원 효율적인 딥러닝 학습을 위한 메모리 구조 및 제어 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757602B2 (en) * 1997-02-06 2004-06-29 Automotive Technologies International, Inc. System for determining the occupancy state of a seat in a vehicle and controlling a component based thereon
JP3524250B2 (ja) * 1995-11-27 2004-05-10 キヤノン株式会社 デジタル画像処理プロセッサ
US7444030B2 (en) * 2004-11-12 2008-10-28 Micron Technology, Inc. Image encoding with dynamic buffer-capacity-level-based compression adjustment
US7840502B2 (en) * 2007-06-13 2010-11-23 Microsoft Corporation Classification of images as advertisement images or non-advertisement images of web pages
JP5193931B2 (ja) * 2009-04-20 2013-05-08 富士フイルム株式会社 画像処理装置、画像処理方法およびプログラム
US9208405B2 (en) * 2010-08-06 2015-12-08 Sony Corporation Systems and methods for digital image analysis
EP2499964B1 (en) * 2011-03-18 2015-04-15 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Optical measuring device and system
EP2557789B1 (en) * 2011-08-09 2017-09-27 Dolby Laboratories Licensing Corporation Guided image up-sampling in video coding
US9066048B2 (en) * 2013-06-17 2015-06-23 Spotify Ab System and method for switching between audio content while navigating through video streams
US8965112B1 (en) * 2013-12-09 2015-02-24 Google Inc. Sequence transcription with deep neural networks
CN104103033B (zh) * 2014-08-05 2017-06-06 广州国米科技有限公司 图像实时处理方法
EP3021583B1 (en) 2014-11-14 2019-10-23 Axis AB Method of identifying relevant areas in digital images, method of encoding digital images, and encoder system
EP3029937B1 (en) * 2014-12-03 2016-11-16 Axis AB Method and encoder for video encoding of a sequence of frames
CN104679863B (zh) 2015-02-28 2018-05-04 武汉烽火众智数字技术有限责任公司 一种基于深度学习的以图搜图方法和系统
CN105260734A (zh) * 2015-10-10 2016-01-20 燕山大学 一种具有自建模功能的商品油表面激光标码识别方法
CN105430394A (zh) 2015-11-23 2016-03-23 小米科技有限责任公司 视频数据压缩处理方法、装置和设备
CN105551036B (zh) * 2015-12-10 2019-10-08 中国科学院深圳先进技术研究院 一种深度学习网络的训练方法和装置

Also Published As

Publication number Publication date
CN107895359A (zh) 2018-04-10
US20180096232A1 (en) 2018-04-05
EP3306528B1 (en) 2019-12-25
KR102203694B1 (ko) 2021-01-15
EP3306528A1 (en) 2018-04-11
TWI735669B (zh) 2021-08-11
KR20180037593A (ko) 2018-04-12
TW201814596A (zh) 2018-04-16
CN107895359B (zh) 2023-06-09
JP2018101406A (ja) 2018-06-28
US10496903B2 (en) 2019-12-03

Similar Documents

Publication Publication Date Title
JP6842395B2 (ja) ニューラルネットワークにトレーニングデータを提供するための画像解析アルゴリズムの使用
US20230336754A1 (en) Video compression using deep generative models
US20200329233A1 (en) Hyperdata Compression: Accelerating Encoding for Improved Communication, Distribution & Delivery of Personalized Content
US10462476B1 (en) Devices for compression/decompression, system, chip, and electronic device
US20200351509A1 (en) Method and device for compressing image and neural network using hidden variable
CN110309732B (zh) 基于骨架视频的行为识别方法
CN108780499B (zh) 基于量化参数的视频处理的系统和方法
CN110637460B (zh) 利用深层神经网络的视觉质量保持量化参数预测
WO2020191200A1 (en) Video compression using deep generative models
CN110574077A (zh) 利用虚拟三维深层神经网络的影像分析装置及方法
CN111738231A (zh) 目标对象检测方法、装置、计算机设备和存储介质
JP2023512570A (ja) 画像処理方法および関連装置
WO2007097586A1 (en) Portable apparatuses having devices for tracking object's head, and methods of tracking object's head in portable apparatus
EP3074926A1 (en) Method and system for exacting face features from data of face images
Liu et al. Video quality assessment using space–time slice mappings
CN114096987A (zh) 视频处理方法及装置
TW202215303A (zh) 使用基於自我注意之神經網路處理影像
Li et al. ROI-based deep image compression with Swin transformers
CN114650421A (zh) 视频处理方法、装置、电子设备及存储介质
CN112418223A (zh) 一种基于改进优化的野生动物图像显著性目标检测方法
Khodadadi et al. Variable bit allocation method based on meta-heuristic algorithms for facial image compression
CN113591838B (zh) 目标检测方法、装置、电子设备和存储介质
CN110148155A (zh) 一种多特征与自适应标准对冲相结合的目标跟踪方法
WO2024084660A1 (ja) 画像符号化装置、画像復号装置、画像処理システム、モデル学習装置、画像符号化方法、画像復号方法、および、コンピュータ可読記憶媒体
Ponlatha et al. An Artificial Neural Network Based Lossless Video Compression using Multi-Level Snapshots and Wavelet Transform using Intensity measures

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200708

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200708

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200708

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210219

R150 Certificate of patent or registration of utility model

Ref document number: 6842395

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250