JP2021099868A - 画像処理方法、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品 - Google Patents

画像処理方法、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP2021099868A
JP2021099868A JP2021040312A JP2021040312A JP2021099868A JP 2021099868 A JP2021099868 A JP 2021099868A JP 2021040312 A JP2021040312 A JP 2021040312A JP 2021040312 A JP2021040312 A JP 2021040312A JP 2021099868 A JP2021099868 A JP 2021099868A
Authority
JP
Japan
Prior art keywords
image
channel
channel image
dimension
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021040312A
Other languages
English (en)
Other versions
JP7146985B2 (ja
Inventor
康康 王
Kangkang Wang
康康 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021099868A publication Critical patent/JP2021099868A/ja
Application granted granted Critical
Publication of JP7146985B2 publication Critical patent/JP7146985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/67Circuits for processing colour signals for matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/64Systems for the transmission or the storage of the colour picture signal; Details therefor, e.g. coding or decoding means therefor
    • H04N1/646Transmitting or storing colour television type signals, e.g. PAL, Lab; Their conversion into additive or subtractive colour signals or vice versa therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

【課題】YUV画像をRGB画像に変換する時間を短縮して、画像前処理の速度を向上させる画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。【解決手段】画像前処理方法は、処理対象の画像を取得し、処理対象の画像を3チャンネルYUV画像に変換し、3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得し、3チャンネルRGB画像を前処理する。【選択図】図1

Description

本願は、画像処理の技術分野に関し、特に、画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。
従来のコンピュータビジョン技術では、画像前処理は不可欠である。現在、一般的な画像前処理方式は、処理対象の画像における各画素点に対して、データフォーマット整理、RGB変換、データ正規化等のフローを順に行うことである。しかしながら、この方式は、処理時間が多くかかるため、処理速度が遅い。
本願の実施例は、従来の画像前処理方式の処理速度が遅いという問題を解決するために、画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。
上記技術的問題を解決するために、本願は、以下のように実現される。
第1の態様では、本願の実施例に係る画像処理方法は、
処理対象の画像を取得することと、
前記処理対象の画像を3チャンネルYUV画像に変換することと、
前記3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得することと、
前記3チャンネルRGB画像を前処理することと、を含む。
これにより、画像前処理プロセスでは、変換して取得された3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像を畳み込み演算により処理して、3チャンネルRGB画像を生成し、かつ該3チャンネルRGB画像を前処理することにより、YUV画像をRGB画像に変換する時間を短縮して、画像前処理の速度を向上させることができる。
好ましくは、前記の前記処理対象の画像を3チャンネルYUV画像に変換することは、
前記処理対象の画像を第1のYチャンネル画像とUVチャンネル画像に分割することと、
前記第1のYチャンネル画像を調整して、次元が(N,1,W,H)のYチャンネル画像を取得することと、
前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得することと、
前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得することと、
次元が(N,1,W,H)のYチャンネル画像、Uチャンネル画像、Vチャンネル画像を合成して、次元が(N,3,W,H)のYUV画像を取得することと、を含み、
ここで、前記Nは前記処理対象の画像の個数を表し、前記1は前記Yチャンネル画像、前記Uチャンネル画像又は前記Vチャンネル画像のチャンネルが1つであることを表し、前記3は前記YUV画像のチャンネルが3つであることを表し、前記Wは前記処理対象の画像の幅に等しく、前記Hは前記処理対象の画像の高に等しい。
これにより、上記分離、サンプリング、合成のプロセスにより、後続きの畳み込み演算の要求を満たす3チャンネルYUV画像を効率的に取得することができる。
好ましくは、前記の前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得することは、
前記UVチャンネル画像を、次元が(N,2,W*H*0.25)のUVチャンネル画像に調整することと、
前記次元が(N,2,W*H*0.25)のUVチャンネル画像を分離して、次元が(N,1,W*H*0.25)のUチャンネル画像と、次元が(N,1,W*H*0.25)のVチャンネル画像とを取得することと、
前記次元が(N,1,W*H*0.25)のUチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像に調整すると共に、前記次元が(N,1,W*H*0.25)のVチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像に調整することと、を含む。
これにより、UVチャンネル画像の分離を正確に実現することができる。
好ましくは、前記の前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得することは、
nearest補間関数を利用して、それぞれ前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とに対して2倍の最近隣アップサンプリングを行って、前記次元が(N,1,W,H)のUチャンネル画像と、前記次元が(N,1,W,H)のVチャンネル画像とを取得することを含む。
これにより、nearest補間関数を利用して2倍の最近接サンプリングを行うことにより、所望のUチャンネル画像とVチャンネル画像を正確にサンプリングして取得することができる。
好ましくは、前記の前記3チャンネルRGB画像を前処理することは、
バッチ正規化関数を利用して前記3チャンネルRGB画像を前処理することを含む。
これにより、バッチ正規化関数により、3チャンネルRGB画像の一括前処理を実現することができるため、前処理プロセスを加速させることができる。
好ましくは、前記バッチ正規化関数は、下式に示すとおりであり、
Figure 2021099868
ここで、前記outputは前処理後の画像の画素値を表し、前記inputは前処理前の画像の画素値を表し、前記scaleはズーム率を表し、前記biasはバイアス値を表し、前記meanは平均値を表し、前記varianceは分散を表し、前記epsilonは予め設定された除算値安定係数を表す。
好ましくは、前記の3チャンネルRGB画像を取得することの後に、前記方法は、
前記3チャンネルRGB画像のサイズを調整することをさらに含み、
前記の前記3チャンネルRGB画像を前処理することは、
サイズ調整後の3チャンネルRGB画像を前処理することを含む。
第2の態様では、本願の実施例に係る画像処理装置は、
処理対象の画像を取得する取得モジュールと、
前記処理対象の画像を3チャンネルYUV画像に変換する変換モジュールと、
前記3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得する演算モジュールと、
前記3チャンネルRGB画像を前処理する前処理モジュールと、を含む。
好ましくは、前記変換モジュールは、
前記処理対象の画像を第1のYチャンネル画像とUVチャンネル画像に分割する分割ユニットと、
前記第1のYチャンネル画像を調整して、次元が(N,1,W,H)のYチャンネル画像を取得する調整ユニットと、
前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得する分離ユニットと、
前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得するサンプリングユニットと、
次元が(N,1,W,H)のYチャンネル画像、Uチャンネル画像、Vチャンネル画像を合成して、次元が(N,3,W,H)のYUV画像を取得する合成ユニットと、を含み、
ここで、前記Nは前記処理対象の画像の個数を表し、前記1は前記Yチャンネル画像、前記Uチャンネル画像又は前記Vチャンネル画像のチャンネルが1つであることを表し、前記3は前記YUV画像のチャンネルが3つであることを表し、前記Wは前記処理対象の画像の幅に等しく、前記Hは前記処理対象の画像の高さに等しい。
好ましくは、前記分離ユニットは、
前記UVチャンネル画像を、次元が(N,2,W*H*0.25)のUVチャンネル画像に調整する第1の調整サブユニットと、
前記次元が(N,2,W*H*0.25)のUVチャンネル画像を分離して、次元が(N,1,W*H*0.25)のUチャンネル画像と、次元が(N,1,W*H*0.25)のVチャンネル画像とを取得する分離サブユニットと、
前記次元が(N,1,W*H*0.25)のUチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像に調整すると共に、前記次元が(N,1,W*H*0.25)のVチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像に調整する第2の調整サブユニットと、を含む。
好ましくは、前記サンプリングユニットは、具体的には、nearest補間関数を利用して、それぞれ前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とに対して2倍の最近隣アップサンプリングを行い、前記次元が(N,1,W,H)であるUチャンネル画像と、前記次元が(N,1,W,H)のVチャンネル画像とを取得する。
好ましくは、前記前処理モジュールは、具体的には、バッチ正規化関数を利用して前記3チャンネルRGB画像を前処理する。
好ましくは、前記バッチ正規化関数は、下式に示すとおりであり、
Figure 2021099868
ここで、前記outputは前処理後の画像の画素値を表し、前記inputは前処理前の画像の画素値を表し、前記scaleはズーム率を表し、前記biasはバイアス値を表し、前記meanは平均値を表し、前記varianceは分散を表し、前記epsilonは予め設定された除算値安定係数を表す。
好ましくは、前記装置は、
前記3チャンネルRGB画像のサイズを調整する調整モジュールをさらに含み、
前記前処理モジュールは、具体的には、サイズ調整後の3チャンネルRGB画像を前処理する。
第3の態様では、本願の実施例に係る電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、上述した画像処理方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている。
第4の態様では、本願の実施例に係る、非一時的なコンピュータ読み取り可能な記憶媒体には、上述した画像処理方法をコンピュータに実行させるコンピュータ命令が記憶されている。
上記出願における一実施例は、画像前処理プロセスでは、変換して取得された3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像を畳み込み演算により処理して、3チャンネルRGB画像を生成し、かつ該3チャンネルRGB画像を前処理することにより、YUV画像をRGB画像に変換する時間を短縮して、画像前処理の速度を向上させるという利点又は有益な効果を有する。処理対象の画像を取得し、前記処理対象の画像を3チャンネルYUV画像に変換し、前記3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得し、そして前記3チャンネルRGB画像を前処理する技術手段を採用しているため、従来の画像前処理方式の処理速度が遅いという技術的問題を解消し、さらに画像前処理速度を向上させる技術的効果を達成する。
以下、上記好ましい方式の他の効果を、具体的な実施例を参照しながら説明する。
図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。
本願の実施例に係る画像処理方法のフローチャートである。 本願の具体例に係る畳み込み演算プロセスの概略図である。 本願の具体例に係る画像変換及び前処理プロセスのフローチャートである。 本願の実施例に係る画像処理方法を実現する画像処理装置のブロック図である。 本願の実施例に係る画像処理方法を実現する電子機器のブロック図である。
以下、図面を参照しながら、本願の例示的な実施例を説明し、理解を容易にするための本願の実施例の様々な詳細を含むが、それらが単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確さと簡潔さのために、以下の説明では、公知の機能及び構造についての説明を省略する。
本願の明細書及び特許請求の範囲における用語「第1」、「第2」などは、類似した対象を区別するためのものであり、必ずしも特定の順序又は優先順位を説明するためのものではない。ここで説明する本願の実施例が、ここでの図示説明又は説明以外の順序でも実施できるように、このように使用されるデータは、適宜入れ替えてもよいことを理解されたい。また、用語「含む」、「備える」及びそれらのいかなる変形は、非排他的な包含をカバーすることを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、明確に示されたステップ又はユニットに限定されず、明確に示されていないか又はこれらのプロセス、方法、システム、製品又は装置に固有の他のステップ又はユニットを含んでもよい。
図1を参照すると、図1は、本願の実施例に係る画像処理方法のフローチャートであり、該方法は、電子機器に適用され、図1に示すように、以下のステップ101〜104を含む。
ステップ101では、処理対象の画像を取得する。
本実施例では、本願の処理対象の画像は、撮像装置によって取得されてもよいし、サーバ装置等の他の装置から直接取得されてもよい。処理対象の画像のタイプについては、本発明は、限定せず、例えば、顔画像、オブジェクト画像、風景画像等であってよい。
一実施形態では、処理対象の画像を取得した後、処理対象の画像のフォーマットを調整し、例えば、処理対象の画像のフォーマットを、次元が(W*H*1.5)で、データタイプが8ビットの符号なし整数型(uint8)である配列に調整する。Wは、処理対象の画像の幅に等しく、Hは、処理対象の画像の高さに等しい。
ステップ102では、上記処理対象の画像を3チャンネルYUV画像に変換する。
このステップで変換して取得されたYUV画像は、次元が(N,3,W,H)のYUV画像であってよい。Nは処理対象の画像の個数を表し、3は該YUV画像のチャンネルが3つであることを表し、Wは該YUV画像の幅を表し(処理対象の画像の幅に等しく)、Hは該YUV画像の高さを表す(処理対象の画像の高さに等しい)。
YUV画像のフォーマットは、YUV444、YUV422、YUV420、NV12等の複数の種類を含んでよい。異なるYUV画像フォーマットは、異なる画素配列方式を有する。例えば、本実施例におけるYUV画像フォーマットは、YUV420を選択することができ、その画素配列方式は、全てのYチャンネル画素とUVチャンネル画素を列に交互に配列することである。
ステップ103では、前記3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得する。
本実施例では、このステップでは、次のような畳み込み関数(conv2d)を利用して、3チャンネルYUV画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像、Bチャンネル画像を生成して、以下の3チャンネルRGB画像を取得することができる。
Figure 2021099868
ここで、RGB_imgは、3チャンネルRGB画像を表し、YUV_imgは、3チャンネルYUV画像を表し、w及びbは、決定されたパラメータ行列を表し、
Figure 2021099868
は、畳み込み符号を表す。この部分の畳み込み演算については、畳み込みカーネルの次元は(1,1,3,3)であり、すなわち畳み込みカーネルサイズは1*1であり、入力チャンネル数は3であり、出力チャンネル数は3である。
一実施形態では、上記wパラメータ行列は、[[1、0、1.13983]、[1、−0.39465、−0.58060]、[1、2.03211、0]]として選択されてよく、上記bパラメータ行列は、[−128*1.13983、128*0.39465+128*0.58060、−128*2.03211]として選択されてよい。この場合、図2に示すように、対応する畳み込み演算プロセス(入力が3チャンネルYUV画像であり、出力が3チャンネルRGB画像である)は、
R=Y+1.13983*(V−128)と、
G=Y−0.39465*(U−128)−0.58060*(V−128)と、
B=Y+2.03211*(U−128)と、を含んでよい。
ステップ104では、前記3チャンネルGB画像を前処理する。
本実施例では、前処理後の画像は、画像オブジェクト検出、ビデオオブジェクト検出及び分析等に用いることができる。該前処理は、画像正規化処理を含んでよい。このステップにおける前処理プロセスは、バッチ正規化関数を利用して該3チャンネルRGB画像を前処理することであってよい。これにより、バッチ正規化関数により、3チャンネルRGB画像の一括前処理を実現することができ、前処理プロセスを加速させることができる。
好ましくは、該バッチ正規化関数は、
Figure 2021099868
であってよい。ここで、outputは前処理後の画像の画素値を表し、inputは前処理前の画像の画素値を表し、scaleはズーム率を表し、biasはバイアス値を表し、meanは平均値を表し、varianceは分散を表し、epsilonは予め設定された除算値安定係数を表す。該scale、bias、mean、variance及びepsilonは、予め設定されてよい。
好ましい実施形態として、上記バッチ正規化関数におけるパラメータ設定は、具体的には、scaleが[1/σ、1/σ、1/σ]に等しく、biasが[μ1/σ、μ2/σ、μ3/σ]に等しく、meanが[0、0、0]に等しく、varianceが[0.999995、0.999995、0.999995]に等しく、epsilonが1e−5に等しいものとすることができる。さらに、μ値は128であってよいし、σ値は256であってよい。epsilonを1e−5に設定する理由は、いくつかの場合で、epsilonが1e−5より小さいことを許可しないことである。
好ましくは、3チャンネルRGB画像を取得する前記ステップの後に、前記方法は、前記3チャンネルRGB画像のサイズを、指定されたサイズに調整するステップをさらに含む。前記3チャンネルRGB画像を前処理する上記ステップは、サイズ調整後の3チャンネルRGB画像を前処理するステップを含んでよい。これにより、調整された画像のサイズが均一であることを保証し、前処理速度を向上させることができる。
好ましい実施形態として、3チャンネルRGB画像を前処理する前に、まず、resize関数を呼び出して該3チャンネルRGB画像のサイズを調整し、即ち、該3チャンネルRGB画像を指定されたサイズに調整することができる。該resize関数の具体的な形式については、従来の一般的な形式を採用することができ、ここでは限定しない。
本願の実施例に係る画像処理方法は、画像前処理プロセスでは、変換して取得された3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像を畳み込み演算により処理して、3チャンネルRGB画像を生成し、かつ該3チャンネルRGB画像を前処理することにより、YUV画像をRGB画像に変換する時間を短縮して、画像前処理の速度を向上させることができる。
本願の実施例では、上記ステップ102における処理対象の画像を3チャンネルYUV画像に変換するプロセスは、以下を含むことができる。
処理対象の画像を第1のYチャンネル画像とUVチャンネル画像に分割し、この分割プロセスは、指針リダイレクトと理解することができ、該第1のYチャンネル画像の次元は(W*H)であってよく、該UVチャンネル画像の次元は(W*H*0.5)であってよく、
上記第1のYチャンネル画像を調整して、次元が(N,1,W,H)のYチャンネル画像を取得し、ここで、Nは処理対象の画像の個数を表し、1は該Yチャンネル画像のチャンネルが1つであることを表し、Wは該Yチャンネル画像の幅を表し、Hは該Yチャンネル画像の高さを表し、好ましくは、本実施例では、reshape関数を呼び出して第1のYチャンネル画像を調整することができ、
前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像を取得し、ここで、1は該Yチャンネル画像又はVチャンネル画像のチャンネルが1つであることを表し、該W*0.5は該Yチャンネル画像又はVチャンネル画像の幅を表し、該H*0.5は該Yチャンネル画像又はVチャンネル画像の高さを表し、好ましくは、本実施例では、split関数を呼び出してUVチャンネル画像を分離することができ、
前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得し、ここで、1は該Yチャンネル画像又はVチャンネル画像のチャンネルが1つであることを表し、該Wは該Yチャンネル画像又はVチャンネル画像の幅を表し、該Hは該Yチャンネル画像又はVチャンネル画像の高さを表し、
次元が(N,1,W,H)のYチャンネル画像、Uチャンネル画像、Vチャンネル画像を合成して、次元が(N,3,W,H)のYUV画像を取得し、ここで、3は該YUVチャンネル画像のチャンネルが3つであることを表し、該Wは該YUV画像の幅を表し、当該Hは該YUV画像の高さを表し、好ましくは、本実施例では、concat関数を呼び出して、次元が(N,1,W,H)のYチャンネル画像、Uチャンネル画像、Vチャンネル画像を合成し、次元が(N,3,W,H)のYUV画像を取得することができる。
これにより、上記分離、サンプリング及び合成のプロセスにより、後続きの畳み込み演算の要求を満たす3チャンネルYUV画像を効率的に取得することができる。
なお、上記reshape関数は、従来の呼び出し形式を採用することができ、指定された行列を特定の次元の行列に変換することができ、かつ行列中の要素数を変化させずに、行列の行数、列数、次元数を再調整することができる。上記split関数は、従来の呼び出し形式を採用することができ、UVチャンネル画像を分離してUチャンネル画像とVチャンネル画像を取得することができる。上記concat関数は、従来の呼び出し形式を採用することができ、一般的には、2つ以上の配列を接続して新たな配列を取得する。
好ましくは、UVチャンネル画像の分離を正確に実現するために、UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得する上記プロセスは、以下のとおりであってよい。
前記UVチャンネル画像を、次元が(N,2,W*H*0.25)のUVチャンネル画像に調整し、ここで、W*H*0.25は、該UVチャンネル画像の幅がW*0.5で、該UVチャンネル画像の高さがH*0.5であることを表し、2は該UVチャンネル画像のチャンネルが2つであることを表し、
前記次元が(N,2,W*H*0.25)のUVチャンネル画像を分離して、次元が(N,1,W*H*0.25)のUチャンネル画像と、次元が(N,1,W*H*0.25)のVチャンネル画像とを取得し、ここで、W*H*0.25は、該Uチャンネル画像の幅がW*0.5で、該Uチャンネル画像の高さがH*0.5であることを表すか、又は該Vチャンネル画像の幅がW*0.5で、該Vチャンネル画像の高さがH*0.5であることを表し、1は該Uチャンネル画像又はVチャンネル画像のチャンネルが1つであることを表し、好ましくは、本実施例では、split関数を呼び出して次元が(N,2,W*H*0.25)のUVチャンネル画像を分離することができ、
上記次元が(N,1,W*H*0.25)のUチャンネル画像を、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像に調整すると共に、上記次元が(N,1,W*H*0.25)のVチャンネル画像を、次元が(N,1,W*0.5,H*0.5)のVチャンネル画像に調整し、好ましくは、本実施例では、reshape関数を呼び出して次元が(N,1,W*H*0.25)のUチャンネル画像又はVチャンネル画像を調整することができる。
好ましくは、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングする上記プロセスは、以下のとおりであってよい。nearest補間関数を利用して、それぞれ次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とに対して2倍の最近隣アップサンプリングを行xつて、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得する。これにより、nearest補間関数を利用して2倍の最近接サンプリングを行うことにより、所望のUチャンネル画像とVチャンネル画像を正確にサンプリングして取得することができる。
以下、図3を参照しながら本願の具体例の画像変換及び前処理プロセスを説明する。
本願の具体例では、処理対象の画像の個数が1であることを例とすると、処理対象の画像のサイズが1080*1920であり、ニューラルネットワーク予測ライブラリにおける関数を呼び出すことにより画像変換及び前処理プロセスを実現し、かつニューラルネットフレームワーク(例えば、PaddlePaddle)により説明する。図3に示すように、該ニューラルネットワークフレームワークは、入力層と、モジュール1と、モジュール2と、モジュール3(畳み込み層)と、モジュール4と、モジュール5(バッチ正規化層)とを含み、対応するプロセスは、以下を含んでよい。
入力層について、まず、処理対象の画像1080*1920を順に、次元が(1080*1920)のYチャンネル画像と、次元が(540*960*2)のUVチャンネル画像との2つの部分に分割し、そして、reshape関数を呼び出して次元が(1080*1920)のYチャンネル画像を調整して、次元が(1,1,1080,1920)のYチャンネル画像を取得して入力ノード1の入力とする共に、次元が(1,1,540*960*2)のUVチャンネル画像を入力ノード2の入力とする。
モジュール1について、まず、split関数を呼び出して入力ノード2のUVチャンネル画像を分離して、次元が(1,1,540*960)のUチャンネル画像と次元が(N,1,540*960)のVチャンネル画像とを取得し、そして、reshape関数を呼び出して次元が(1,1,540*960)のUチャンネル画像を次元が(1,1,540,960)のUチャンネル画像に調整すると共に、reshape関数を呼び出して次元が(1,1,540*960)のVチャンネル画像を次元が(1,1,540,960)のVチャンネル画像に調整する。
モジュール2について、まず、nearest補間関数を利用して、次元が(1,1,540,960)のUチャンネル画像と、次元が(1,1,540,960)のVチャンネル画像とに対してそれぞれ2倍の最近隣アップサンプリングを行って、次元が(1,1,1080,1920)のUチャンネル画像と、次元が(1,1,1080,1920)のVチャンネル画像とを取得し、そして、concat関数を呼び出して、次元が(1,1,1080,1920)のYチャンネル画像と、Uチャンネル画像と、Vチャンネル画像とを合成して、次元が(1,3,1080,1920)のYUV画像を取得する。
モジュール3について、畳み込み関数conv2dを呼び出し、次元が(1,3,1080,1920)のYUV画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像、Bチャンネル画像を生成して、次元が(1,3,1080,1920)のRGB画像を取得する。
モジュール4について、resize_bilinear関数を呼び出し、この次元が(1,3,1080,1920)のRGB画像のサイズを調整し、次元が(1,3,216,384)のRGB画像に調整する。
モジュール5について、バッチ正規化関数Batch_normを利用して該次元が(1,3,216,384)のRGB画像を前処理して、次元が(1,3,216,384)の正規化RGB画像を取得する。
これにより、ニューラルネットワーク予測ライブラリにおける関数を呼び出すことにより、画像前処理の速度を大幅に向上させることができる。
図4を参照すると、図4は、本願の実施例に係る画像処理装置の構成概略図であり、図4に示すように、該画像処理装置40は、
処理対象の画像を取得する取得モジュール41と、
前記処理対象の画像を3チャンネルYUV画像に変換する変換モジュール42と、
前記3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得する演算モジュール43と、
前記3チャンネルRGB画像を前処理する前処理モジュール44と、を含む。
好ましくは、前記変換モジュール42は、
前記処理対象の画像を第1のYチャンネル画像とUVチャンネル画像に分割する分割ユニットと、
前記第1のYチャンネル画像を調整して、次元が(N,1,W,H)のYチャンネル画像を取得する調整ユニットと、
前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得する分離ユニットと、
前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得するサンプリングユニットと、
次元が(N,1,W,H)のYチャンネル画像、Uチャンネル画像、Vチャンネル画像を合成して、次元が(N,3,W,H)のYUV画像を取得する合成ユニットと、を含み、
ここで、前記Nは前記処理対象の画像の個数を表し、前記1は前記Yチャンネル画像、前記Uチャンネル画像又は前記Vチャンネル画像のチャンネルが1つであることを表し、前記3は前記YUV画像のチャンネルが3つであることを表し、前記Wは処理対象の画像の幅に等しく、前記Hは処理対象の画像の高さに等しい。
好ましくは、上記分離ユニットは、
前記UVチャンネル画像を、次元が(N,2,W*H*0.25)のUVチャンネル画像に調整する第1の調整サブユニットと、
前記次元が(N,2,W*H*0.25)のUVチャンネル画像を分離して、次元が(N,1,W*H*0.25)のUチャンネル画像と、次元が(N,1,W*H*0.25)のVチャンネル画像とを取得する分離サブユニットと、
前記次元が(N,1,W*H*0.25)のUチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像に調整すると共に、前記次元が(N,1,W*H*0.25)のVチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像に調整する第2の調整サブユニットと、を含む。
好ましくは、前記サンプリングユニットは、具体的には、nearest補間関数を利用して、それぞれ前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とに対して2倍の最近隣アップサンプリングを行い、前記次元が(N,1,W,H)のUチャンネル画像と、前記次元が(N,1,W,H)のVチャンネル画像とを取得する。
好ましくは、前記前処理モジュール44は、具体的には、バッチ正規化関数を利用して前記3チャンネルRGB画像を前処理する。
好ましくは、前記バッチ正規化関数は、下式に示すとおりであり、
Figure 2021099868
ここで、前記outputは前処理後の画像の画素値を表し、前記inputは前処理前の画像の画素値を表し、前記scaleはズーム率を表し、前記biasはバイアス値を表し、前記meanは平均値を表し、前記varianceは分散を表し、前記epsilonは予め設定された除算値安定係数を表す。
好ましくは、前記装置は、
前記3チャンネルRGB画像のサイズを調整する調整モジュールをさらに含み、
前記前処理モジュール44は、具体的には、サイズ調整後の3チャンネルRGB画像を前処理する。
理解できるように、本願の実施例に係る画像処理装置40は、上記図1に示す方法の実施例において実現された各プロセスを実現し、かつ同様の効果を達成することができ、重複を避けるため、ここでは説明を省略する。
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図5に示すように、本願の実施例に係る画像処理方法を実現する電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブルデバイス及びその他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書で示されたコンポーネント、それらの接続及び関係と、それらの機能とは、例示的なものに過ぎず、本明細書で説明及び/又は要求された本願の実現を限定していることを意図するものではない。
図5に示すように、該電子機器は、1つ以上のプロセッサ501と、メモリ502と、各コンポーネントを接続し高速インタフェース及び低速インタフェースを含むインタフェースと、を含む。各コンポーネントは、異なるバスを介して互いに接続され、かつ共通のマザーボード上に取り付けられてもよく、必要に応じて他の方式で取り付けられてもよい。プロセッサは、電子機器内で実行された、外部入力/出力装置(例えば、インタフェースに結合された表示機器)上にGUIのグラフィック情報を表示するようにメモリ内又はメモリ上に記憶された命令を含む命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリ及び複数のストレージと共に使用することができる。同様に、それぞれが必要な動作を提供する複数の電子機器(例えば、サーバアレイ、ブレードサーバのグループ又はマルチプロセッサシステム)を接続することができる。図5において、1つのプロセッサ501を例とする。
メモリ502は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサに本願に係る画像処理方法を実行させる命令が記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願に係る画像処理方法をコンピュータに実行させるコンピュータ命令を記憶している。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例における画像処理方法に対応するプログラム命令/モジュール(例えば、図4に示す取得モジュール41、変換モジュール42、演算モジュール43及び前処理モジュール44)を記憶することができる。プロセッサ501は、メモリ502に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における画像処理方法を実現する。
メモリ502は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶できるプログラム記憶領域と、電子機器の使用中に作成されたデータなどを記憶できるデータ記憶領域とを含んでよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスクメモリ装置、フラッシュメモリ装置、又は他の非一時的な固体メモリ装置などの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ502は、好ましくは、プロセッサ501に対して遠隔的に配置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
画像処理方法の電子機器は、入力装置503及び出力装置504をさらに含んでよい。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の方式で接続することができ、図5において、バスによる接続を例とする。
入力装置503は、入力された数字又は文字情報を受信すると共に、画像処理方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、入力装置は、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティックである。出力装置504は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含んでよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイなどを含んでよいが、これらに限定されない。いくつかの実施形態では、表示機器は、タッチスクリーンであってよい。
本明細書で説明されたシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈できる1つ以上のコンピュータプログラムにおける実施を含んでよく、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータと命令を受信し、かつデータと命令を該記憶システム、該少なくとも1つの入力装置及び該少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつこれらのコンピュータプログラムを、高レベルのプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語を用いて実施することができる。本明細書で使用された用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供する任意のコンピュータプログラム製品、機器及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供する任意の信号を指す。
ユーザとの対話を提供するために、本明細書で説明されたシステム及び技術をコンピュータ上で実施することができ、該コンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(ブラウン)又はLCD(液晶ディスプレイ)モニタ)と、キーボードと、ポインティング装置(例えば、マウス又はトラックボール)とを含み、ユーザは、該キーボードと該ポインティング装置により入力をコンピュータに提供することができる。他のタイプの装置は、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック又は触覚フィードバック))であってよく、また、任意の形式(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書で説明されたシステム及び技術を、バックエンドコンポーネントを含むコンピュータシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピュータシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピュータシステム(例えば、ユーザが本明細書で説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又は該ウェブブラウザを有するユーザコンピュータ)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムにおいて実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムのコンポーネントを互いに接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットが挙げられる。
コンピュータシステムは、クライアントとサーバを含んでよい。クライアントとサーバは、一般的に、互いに離れ、かつ、通常通信ネットワークを介して対話する。対応するコンピュータ上で実行し、互いにクライアント−サーバの関係を有するコンピュータプログラムによりクライアントとサーバの関係を生成する。
本願の実施例の技術手段によれば、画像前処理プロセスでは、変換して取得された3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像を畳み込み演算により処理して、3チャンネルRGB画像を生成し、かつ該3チャンネルRGB画像を前処理することにより、YUV画像をRGB画像に変換する時間を短縮して、画像前処理の速度を向上させることができる。
なお、上記様々な形式のフローを用いて、ステップを改めて順序付けしたり、追加したり、削除したりしてよい。例えば、本願において開示されている技術手段の所望の結果を実現する限り、本願に記載された各ステップは、並列的に実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本明細書は限定しない。
上記具体的な実施例は、本願の保護範囲を限定するものではない。当業者は、設計要件及びその他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができることを理解すべきである。本願の精神及び原則の範囲内で行われる修正、同等置換、改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims (15)

  1. 処理対象の画像を取得することと、
    前記処理対象の画像を3チャンネルYUV画像に変換することと、
    前記3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得することと、
    前記3チャンネルRGB画像を前処理することと、を含む、ことを特徴とする画像処理方法。
  2. 前記の前記処理対象の画像を3チャンネルYUV画像に変換することは、
    前記処理対象の画像を第1のYチャンネル画像とUVチャンネル画像に分割することと、
    前記第1のYチャンネル画像を調整して、次元が(N,1,W,H)のYチャンネル画像を取得することと、
    前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得することと、
    前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得することと、
    次元が(N,1,W,H)のYチャンネル画像、Uチャンネル画像、Vチャンネル画像を合成して、次元が(N,3,W,H)のYUV画像を取得することと、を含み、
    ここで、前記Nは前記処理対象の画像の個数を表し、前記1は前記Yチャンネル画像、前記Uチャンネル画像又は前記Vチャンネル画像のチャンネルが1つであることを表し、前記3は前記YUV画像のチャンネルが3つであることを表し、前記Wは前記処理対象の画像の幅に等しく、前記Hは前記処理対象の画像の高さに等しい、ことを特徴とする請求項1に記載の方法。
  3. 前記の前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得することは、
    前記UVチャンネル画像を、次元が(N,2,W*H*0.25)のUVチャンネル画像に調整することと、
    前記次元が(N,2,W*H*0.25)のUVチャンネル画像を分離して、次元が(N,1,W*H*0.25)のUチャンネル画像と、次元が(N,1,W*H*0.25)のVチャンネル画像とを取得することと、
    前記次元が(N,1,W*H*0.25)のUチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像に調整すると共に、前記次元が(N,1,W*H*0.25)のVチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像に調整することと、を含む、ことを特徴とする請求項2に記載の方法。
  4. 前記の前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得することは、
    nearest補間関数を利用して、それぞれ前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とに対して2倍の最近隣アップサンプリングを行って、前記次元が(N,1,W,H)のUチャンネル画像と、前記次元が(N,1,W,H)のVチャンネル画像とを取得することを含む、ことを特徴とする請求項2に記載の方法。
  5. 前記の前記3チャンネルRGB画像を前処理することは、
    バッチ正規化関数を利用して前記3チャンネルRGB画像を前処理することを含む、ことを特徴とする請求項1に記載の方法。
  6. 前記バッチ正規化関数は、下式に示すとおりであり、
    Figure 2021099868
    ここで、前記outputは前処理後の画像の画素値を表し、前記inputは前処理前の画像の画素値を表し、前記scaleはズーム率を表し、前記biasはバイアス値を表し、前記meanは平均値を表し、前記varianceは分散を表し、前記epsilonは予め設定された除算値安定係数を表す、ことを特徴とする請求項5に記載の方法。
  7. 前記の3チャンネルRGB画像を取得することの後に、
    前記3チャンネルRGB画像のサイズを調整することをさらに含み、
    前記の前記3チャンネルRGB画像を前処理することは、
    サイズ調整後の3チャンネルRGB画像を前処理することを含む、ことを特徴とする請求項1に記載の方法。
  8. 処理対象の画像を取得する取得モジュールと、
    前記処理対象の画像を3チャンネルYUV画像に変換する変換モジュールと、
    前記3チャンネルYUV画像におけるYチャンネル画像、Uチャンネル画像及びVチャンネル画像に畳み込み演算を行い、それぞれRチャンネル画像、Gチャンネル画像及びBチャンネル画像を生成して、3チャンネルRGB画像を取得する演算モジュールと、
    前記3チャンネルRGB画像を前処理する前処理モジュールと、を含む、ことを特徴とする画像処理装置。
  9. 前記変換モジュールは、
    前記処理対象の画像を第1のYチャンネル画像とUVチャンネル画像に分割する分割ユニットと、
    前記第1のYチャンネル画像を調整して、次元が(N,1,W,H)のYチャンネル画像を取得する調整ユニットと、
    前記UVチャンネル画像を分離して、次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とを取得する分離ユニットと、
    前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とをそれぞれ2倍サンプリングして、次元が(N,1,W,H)のUチャンネル画像と、次元が(N,1,W,H)のVチャンネル画像とを取得するサンプリングユニットと、
    次元が(N,1,W,H)のYチャンネル画像、Uチャンネル画像、Vチャンネル画像を合成して、次元が(N,3,W,H)のYUV画像を取得する合成ユニットと、を含み、
    ここで、前記Nは前記処理対象の画像の個数を表し、前記1は前記Yチャンネル画像、前記Uチャンネル画像又は前記Vチャンネル画像のチャンネルが1つであることを表し、前記3は前記YUV画像のチャンネルが3つであることを表し、前記Wは前記処理対象の画像の幅に等しく、前記Hは前記処理対象の画像の高さに等しい、ことを特徴とする請求項8に記載の装置。
  10. 前記分離ユニットは、
    前記UVチャンネル画像を、次元が(N,2,W*H*0.25)のUVチャンネル画像に調整する第1の調整サブユニットと、
    前記次元が(N,2,W*H*0.25)のUVチャンネル画像を分離して、次元が(N,1,W*H*0.25)のUチャンネル画像と、次元が(N,1,W*H*0.25)のVチャンネル画像とを取得する分離サブユニットと、
    前記次元が(N,1,W*H*0.25)のUチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像に調整すると共に、前記次元が(N,1,W*H*0.25)のVチャンネル画像を、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像に調整する第2の調整サブユニットと、を含む、ことを特徴とする請求項9に記載の装置。
  11. 前記サンプリングユニットは、具体的には、nearest補間関数を利用して、それぞれ前記次元が(N,1,W*0.5,H*0.5)のUチャンネル画像と、前記次元が(N,1,W*0.5,H*0.5)のVチャンネル画像とに対して2倍の最近隣アップサンプリングを行って、前記次元が(N,1,W,H)のUチャンネル画像と、前記次元が(N,1,W,H)のVチャンネル画像とを取得する、ことを特徴とする請求項9に記載の装置。
  12. 前記前処理モジュールは、具体的には、バッチ正規化関数を利用して前記3チャンネルRGB画像を前処理する、ことを特徴とする請求項8に記載の装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを含み、
    前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、請求項1〜7のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている、ことを特徴とする電子機器。
  14. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、請求項1〜7のいずれか1項に記載の方法をコンピュータに実行させる、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  15. コンピュータプログラムを含むコンピュータプログラム製品であって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7のいずれか1項に記載の方法が実現される、ことを特徴とするコンピュータプログラム製品。
JP2021040312A 2020-04-17 2021-03-12 画像処理方法、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品 Active JP7146985B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010305880.9A CN111508038A (zh) 2020-04-17 2020-04-17 图像处理方法、装置、电子设备及计算机可读存储介质
CN202010305880.9 2020-04-17

Publications (2)

Publication Number Publication Date
JP2021099868A true JP2021099868A (ja) 2021-07-01
JP7146985B2 JP7146985B2 (ja) 2022-10-04

Family

ID=71864721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021040312A Active JP7146985B2 (ja) 2020-04-17 2021-03-12 画像処理方法、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品

Country Status (5)

Country Link
US (1) US11930307B2 (ja)
EP (1) EP3893479B1 (ja)
JP (1) JP7146985B2 (ja)
KR (1) KR102600806B1 (ja)
CN (1) CN111508038A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010034713A (ja) * 2008-07-25 2010-02-12 Noritsu Koki Co Ltd 写真画像処理方法、写真画像処理プログラム、及び写真画像処理装置
JP2011155691A (ja) * 2007-10-05 2011-08-11 Sharp Corp 色調整回路、色調整装置、色調整方法およびプログラム
JP2012108898A (ja) * 2010-10-29 2012-06-07 Jvc Kenwood Corp 画像処理装置、画像処理方法
JP2012175310A (ja) * 2011-02-21 2012-09-10 Jvc Kenwood Corp 画像処理装置、画像処理方法
JP2015154425A (ja) * 2014-02-18 2015-08-24 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
JP2016115304A (ja) * 2014-12-18 2016-06-23 シャープ株式会社 画像処理装置
JP2016178553A (ja) * 2015-03-20 2016-10-06 株式会社Pfu 画像処理装置、領域検出方法及びコンピュータプログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5838299A (en) * 1995-05-03 1998-11-17 Apple Computer, Inc. RGB/YUV video convolution system
US20040042686A1 (en) * 2002-09-04 2004-03-04 Eastman Kodak Company Resizing digital images for digital camera-printer systems
US7426308B2 (en) * 2003-07-18 2008-09-16 Microsoft Corporation Intraframe and interframe interlace coding and decoding
JP2006013701A (ja) * 2004-06-23 2006-01-12 Seiko Epson Corp 表示コントローラ、電子機器及び画像データ供給方法
JP5509828B2 (ja) * 2009-12-11 2014-06-04 カシオ計算機株式会社 画像分類装置と画像分類方法、及びプログラム
CN101923455B (zh) * 2010-09-01 2012-02-08 武汉大学 一种yuv格式的数字图像显示和分析方法
US8860716B2 (en) * 2010-10-13 2014-10-14 3D Nuri Co., Ltd. 3D image processing method and portable 3D display apparatus implementing the same
CN102073987A (zh) 2010-12-30 2011-05-25 深圳市融创天下科技发展有限公司 一种yuv420图像转换成rgb565图像的方法和系统
US9832388B2 (en) * 2014-08-04 2017-11-28 Nvidia Corporation Deinterleaving interleaved high dynamic range image by using YUV interpolation
KR101899101B1 (ko) * 2016-06-01 2018-09-14 서울대학교 산학협력단 인공 신경망 기반 예측 모델 생성 장치 및 방법
CN106331532A (zh) * 2016-08-26 2017-01-11 北京金山安全软件有限公司 一种数据转换方法、装置及电子设备
CN106447606A (zh) * 2016-10-31 2017-02-22 南京维睛视空信息科技有限公司 一种快速实时的视频美颜方法
CN106960243A (zh) * 2017-03-06 2017-07-18 中南大学 一种改进卷积神经网络结构的方法
CA3058010A1 (en) * 2017-04-03 2018-10-11 Royal Bank Of Canada Systems and methods for malicious code detection
CN107220934B (zh) * 2017-05-15 2021-03-30 北京小米移动软件有限公司 图像重建方法及装置
CN107680031A (zh) * 2017-09-29 2018-02-09 郑州云海信息技术有限公司 一种rgb转yuv方法、系统及计算机可读存储介质
CN108111859B (zh) * 2017-12-29 2020-10-09 北京华航无线电测量研究所 基于JetsonTX1平台的H.264视频编解码方法
JP2019153057A (ja) * 2018-03-02 2019-09-12 富士通株式会社 画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラムおよび学習プログラム
CN108259997B (zh) * 2018-04-02 2019-08-23 腾讯科技(深圳)有限公司 图像相关处理方法及装置、智能终端、服务器、存储介质
CN108364270B (zh) * 2018-05-22 2020-11-06 北京理工大学 偏色图像颜色还原方法及装置
CN108921283A (zh) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 深度神经网络的归一化方法和装置、设备、存储介质
CN108846842B (zh) * 2018-07-04 2021-04-27 武汉斗鱼网络科技有限公司 一种图像噪声检测方法、装置及电子设备
CN108960258A (zh) * 2018-07-06 2018-12-07 江苏迪伦智能科技有限公司 一种基于自学习深度特征的模板匹配方法
CN109472270B (zh) * 2018-10-31 2021-09-24 京东方科技集团股份有限公司 图像风格转换方法、装置及设备
CN109697727A (zh) * 2018-11-27 2019-04-30 哈尔滨工业大学(深圳) 基于相关滤波和度量学习的目标跟踪方法、系统及存储介质
CN109918752B (zh) * 2019-02-26 2022-12-16 华南理工大学 基于迁移卷积神经网络的机械故障诊断方法、设备及介质
CN109948692B (zh) 2019-03-16 2020-12-15 四川大学 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
US11477464B2 (en) * 2020-09-16 2022-10-18 Qualcomm Incorporated End-to-end neural network based video coding
CN114596210A (zh) * 2020-12-07 2022-06-07 武汉Tcl集团工业研究院有限公司 噪声估计方法、装置、终端设备及计算机可读存储介质
CN115115514A (zh) * 2022-06-15 2022-09-27 浙江科技学院 基于高频信息特征融合的图像超分辨率重建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011155691A (ja) * 2007-10-05 2011-08-11 Sharp Corp 色調整回路、色調整装置、色調整方法およびプログラム
JP2010034713A (ja) * 2008-07-25 2010-02-12 Noritsu Koki Co Ltd 写真画像処理方法、写真画像処理プログラム、及び写真画像処理装置
JP2012108898A (ja) * 2010-10-29 2012-06-07 Jvc Kenwood Corp 画像処理装置、画像処理方法
JP2012175310A (ja) * 2011-02-21 2012-09-10 Jvc Kenwood Corp 画像処理装置、画像処理方法
JP2015154425A (ja) * 2014-02-18 2015-08-24 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
JP2016115304A (ja) * 2014-12-18 2016-06-23 シャープ株式会社 画像処理装置
JP2016178553A (ja) * 2015-03-20 2016-10-06 株式会社Pfu 画像処理装置、領域検出方法及びコンピュータプログラム

Also Published As

Publication number Publication date
CN111508038A (zh) 2020-08-07
EP3893479B1 (en) 2023-05-31
EP3893479A1 (en) 2021-10-13
KR20210035108A (ko) 2021-03-31
KR102600806B1 (ko) 2023-11-10
JP7146985B2 (ja) 2022-10-04
US20210203900A1 (en) 2021-07-01
US11930307B2 (en) 2024-03-12

Similar Documents

Publication Publication Date Title
CN111182254B (zh) 一种视频处理方法、装置、设备及存储介质
US10861133B1 (en) Super-resolution video reconstruction method, device, apparatus and computer-readable storage medium
WO2018205627A1 (zh) 一种图像处理系统、方法及显示装置
TWI557683B (zh) Mipmap壓縮技術
EP4207051A1 (en) Image super-resolution method and electronic device
US11922598B2 (en) Image processing apparatus, image processing method, and storage medium
US20220261961A1 (en) Method and device, electronic equipment, and storage medium
WO2021223526A1 (zh) gamma调试方法和装置
US20210335008A1 (en) Method and apparatus for processing video frame
CN107220934B (zh) 图像重建方法及装置
JPWO2018025474A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN108885790B (zh) 基于所生成的运动数据处理图像
JP2021099868A (ja) 画像処理方法、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品
US20230011823A1 (en) Method for converting image format, device, and storage medium
JP2009111969A (ja) 分割映像処理装置および方法、または制御因子計算装置
CN116862762A (zh) 一种视频超分方法、装置、设备及存储介质
US11176720B2 (en) Computer program, image processing method, and image processing apparatus
CN113988294A (zh) 训练预测网络的方法、图像处理方法和装置
Gutenko et al. Remote volume rendering pipeline for mHealth applications
CN117315172B (zh) 地图页面配置方法、装置、电子设备与计算机可读介质
US20230342991A1 (en) Machine learning-based chroma keying process
CN116309160A (zh) 图像分辨率修复方法、装置、设备及存储介质
CN117745550A (zh) 一种图像畸变矫正方法、装置、电子设备及存储介质
CN115249207A (zh) 视频超分方法、装置、视频超分模型、介质及终端设备
US20180373951A1 (en) Image processing apparatus, image processing method, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220921

R150 Certificate of patent or registration of utility model

Ref document number: 7146985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150