JP7332813B2 - 画像処理方法、装置、電子デバイス及び記憶媒体 - Google Patents
画像処理方法、装置、電子デバイス及び記憶媒体 Download PDFInfo
- Publication number
- JP7332813B2 JP7332813B2 JP2022543040A JP2022543040A JP7332813B2 JP 7332813 B2 JP7332813 B2 JP 7332813B2 JP 2022543040 A JP2022543040 A JP 2022543040A JP 2022543040 A JP2022543040 A JP 2022543040A JP 7332813 B2 JP7332813 B2 JP 7332813B2
- Authority
- JP
- Japan
- Prior art keywords
- line
- semantic
- auxiliary
- lines
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 70
- 238000000034 method Methods 0.000 claims description 21
- 210000000746 body region Anatomy 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 description 32
- 230000011218 segmentation Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 13
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 210000000744 eyelid Anatomy 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000005452 bending Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001350860 Glena Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Description
本開示は、画像処理の技術分野に関し、特に、画像処理方法、装置、電子デバイス及び記憶媒体に関する。
本願は、2020年4月28日に出願された中国特許出願202010351704.9の優先権を主張し、上記の中国特許出願に開示された内容は、本願の一部として完全に引用される。
線抽出は、デジタル画像を変換して、デジタル画像で表現されたシーンの主要な物体の輪郭や境界情報を抽象化する技術であり、さまざまなエンターテインメント情報の作成に広く使用され、ユーザに新しい体験をもたらす。例えば、人物画像抽出機能は、スマートフォンのショートビデオアプリケーション(application、APP)に導入されており、人物画像の写真のスタイライズされたレンダリングをすばやく実現する。
しかし、関連する線抽出技術により抽出された線では、人物画像の輪郭を識別するために使用される線は、例えば、線が連続されなく、線が細すぎて混沌され、セマンティック性が悪いため、人物画像を適切に表示できず、結果としてユーザの視覚効果が悪くなる。
本開示は、少なくとも、初期画像から抽出された対象物体の輪郭を識別するために使用される線のセマンティックが悪いという従来の技術課題を解決することができる画像処理方法、装置、電子デバイス及び記憶媒体を提供する。本開示の技術案は、以下の通りである。
本開示の実施例の第1の態様は、画像処理方法を提供し、該画像処理方法は、対象物体を含む初期画像を取得した後、初期画像に対してセマンティック情報抽出を行い、補助線を入手することと、補助線と初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手することと、セマンティック線の予測結果に基づいてセマンティック線を取得することとを含み、ここで、補助線は、対象物体の領域の境界線及び/又は対象物体の部位の輪郭線を含み、補助線は、予測ニューラルネットワークが予測結果を主とするようにガイドし、セマンティック線の予測結果は、初期画像内の画素がセマンティック線内の画素である確率を示すために使用され、セマンティック線は、対象物体を表示する。
本開示の実施例の第2の態様は、画像取得モジュールと、補助線取得モジュールと、セマンティック線予測モジュールと、セマンティック線決定モジュールとを含む画像処理装置を提供し、ここで、画像取得モジュールは、対象物体を含む初期画像を取得するように構成され、補助線取得モジュールは、初期画像に対してセマンティック情報抽出を行い、補助線を入手するように構成される。ここで、補助線は、対象物体の領域の境界線及び/又は対象物体の部位の輪郭線を含み、セマンティック線予測モジュールは、補助線と初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手するように構成され、ここで、補助線は、予測ニューラルネットワークが予測結果を取得するようにガイドするために使用され、セマンティック線の予測結果は、初期画像内の画素がセマンティック線内の画素である確率を示すために使用され、セマンティック線は、対象物体を表示するために使用され、セマンティック線決定モジュールは、セマンティック線の予測結果に基づいてセマンティック線を取得するように構成される。
本開示の実施例の第3の態様は、プロセッサと、プロセッサの実行可能命令を記憶するメモリとを含む電子デバイスを提供し、ここで、プロセッサは、該命令を実行して、上記の第1の態様又は第1の態様の任意の可能な実施例における画像処理方法を実行する。
本開示の実施例の第4の態様は、命令を記憶するコンピュータ可読記憶媒体を提供し、該命令がプロセッサにより実行される場合、上記の第1の態様又は第1の態様の任意の可能な実施例における画像処理方法を実行する。
本開示の実施例の第5の態様は、コンピュータプログラム製品を提供し、該コンピュータプログラム製品の命令が電子デバイスのプロセッサにより実行される場合、電子デバイスが上記の第1の態様又は第1の態様の任意の可能な実施例における画像処理方法を実行する。
なお、前述の一般的な説明及び以下の詳細な説明は、例示的かつ説明的なものにすぎず、本開示を限定するものではない。
本明細書に組み込まれ、その一部を構成する添付の図面は、本開示と一致する実施例を示し、本開示の原理を説明するのに役立ち、本開示を過度に制限するものではない。
当業者に本開示の技術的解決策をよりよく理解させるために、本開示の実施例における技術的解決策は、添付の図面を参照して以下に明確かつ完全に説明される。
なお、本開示及び上記の図面の説明及び特許請求の範囲における「第1」、「第2」などの用語は、類似の対象を区別するために使用され、必ずしも特定のシーケンス又はシーケンスを説明するために使用されるわけではない。そのように使用されるデータは、本明細書に記載される本開示の実施例が本明細書に図示又は記載されるもの以外の順序で実施され得るように、適切な状況下で交換され得る。以下の例示的な例で説明される実装は、この開示と一致するすべての実装を表すことを意図するものではない。むしろ、それらは、添付の特許請求の範囲に記載されているように、本開示のいくつかの態様と一致する装置及び方法の単なる例である。
本開示の実施例によって提供される画像処理方法は、人物画像のスタイライズのレンダリングなどのシーンに適用することができる。まず、電子デバイスは、スタイライズされてレンダリングされる初期画像を決定する。ここで、初期画像は、対象物体の画像を含む。ここで、対象物体の画像は、図1の(a)に示すように、人物画像であってもよい。初期画像は、ユーザが撮影した写真、又は携帯電話で再生されたビデオの特定のフレームの画像であってもよい。電子デバイスは、事前にトレーニングされた予測ニューラルネットワークを使用して、初期画像から線を抽出し、図1の(b)に示すように、人物画像の輪郭を識別するために使用される線を取得し、これにより、人物画像のスタイライズのレンダリングが実現される。ここで、事前にトレーニングされた予測ニューラルネットワークは、入力された初期画像に対して関数変換を実行することによって抽出される線を取得する深い畳み込みニューラルネットワークであってもよい。ここで、事前にトレーニングされた予測ニューラルネットワークは、複雑な非線形変換関数であり、通常、一連の畳み込み演算子、活性化関数、アップサンプリング関数、及びダウンサンプリング関数で構成される。人物画像の場合、人物画像の輪郭と顔の特徴が強力なセマンティック情報を有する。しかし、関連する線抽出技術では、事前にトレーニングされた予測ニューラルネットワークは、抽出される対象物体のセマンティック情報を考慮せず、入力された初期画像のみに基づいて予測するため、トレーニングされた予測ニューラルネットワークから出力された線のセマンティック性が悪くなり、例えば、人物画像の輪郭を識別するために使用される線が不連続で、些細すぎているなど、ユーザの視覚効果が悪くなる。従来の線抽出技術で抽出された線のセマンティック性が悪いという問題を解決するために、本開示の実施例は、線抽出結果における線のセマンティック性を改善し、ユーザの視角体験を改善することができる画像処理方法を提供する。
いくつかの実施例では、電子デバイス又はサーバーを使用して、本開示の実施例によって提供される画像処理方法を実現する。該電子デバイスは、カメラ装置、ディスプレイ装置などで構成することができる。いくつかの実施例では、電子デバイスは、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、ポータブルコンピュータなどであり得る。いくつかの実施例では、サーバーは、1つのサーバーであり得るか、又は複数のサーバーから構成されるサーバークラスターであり得るが、本開示において限定されない。
図2は一実施例における画像処理方法のフローチャートであり、いくつかの実施例では、前記画像処理方法は、前記電子デバイス及び同様のデバイスに応用される。
S21において、対象物体を含む初期画像を取得する。
ここで、対象物体の画像は、図3の(a)に示すように、人物画像であってもよい。いくつかの実施例では、初期画像は、ユーザが撮影した写真、又は携帯電話で再生されたビデオの特定のフレームの画像であってもよい。
ここで、対象物体の画像は、図3の(a)に示すように、人物画像であってもよい。いくつかの実施例では、初期画像は、ユーザが撮影した写真、又は携帯電話で再生されたビデオの特定のフレームの画像であってもよい。
S22において、初期画像に対してセマンティック情報抽出を行い、補助線を入手する。
ここで、セマンティック情報は、対象物体の属性又は特徴を体現することができる。補助線が対象物体のセマンティック情報を有し、具体的に、対象物体の領域の境界線及び/又は対象物体の部位の輪郭線で表示する。
いくつかの実施例では、人物画像の場合、セマンティック情報は、人物画像における人体の特徴、ヘアスタイルの特徴、服の特徴等であってもよい。従って、補助線は、人物画像の領域の境界線であってもよく、例えば、人体の領域の境界線、髪の領域の境界線又は服の領域の境界線等であってもよい。セマンティック情報は、人物画像における顔の特徴等であってもよい。従って、補助線は、人物画像の部位の輪郭線等であってもよく、例えば、顔の輪郭線、目の輪郭線、鼻の輪郭線又は口の輪郭線等であってもよい。図3の(b)を参照し、補助線は、二値化された画像の線である。
S23において、補助線と初期画像とをスティッチングした画像を、予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手する。
ここで、補助線は、予測ニューラルネットワークがセマンティック線の予測結果を取得するようにガイドするために使用される。セマンティック線の予測結果は、初期画像内の画素がセマンティック線内の画素である確率を示すために使用される。実際の応用では、セマンティック線の予測結果は、具体的に、線の確率図として実現される。セマンティック線は、図3(c)に示すように、対象物体を表示するために使用される。
ここで、予測ニューラルネットワークは事前にトレーニングされている。予測ニューラルネットワークは、畳み込み層、ダウンサンプリング層、及びデコンボリューション層を含む深い畳み込みニューラルネットワークであり、任意の解像度の初期画像をサポートする。予測ニューラルネットワークは、他の畳み込みニューラルネットワークであってもよい。
いくつかの実施例では、補助線は、二値化された画像によって表示され得る。補助線を示す二値化された画像と初期画像をスプライスして、4チャンネルの入力画像を入手し、スプライスされた画像として予測ニューラルネットワークに入力される。ここで、初期画像はカラー画像であり、赤(red、R)、青(blue、B)、緑(green、G)の3つのチャネルを介して入力される。4番目のチャネルは、補助線を表示する二値化された画像を入力するために使用される。予測ニューラルネットワークは、補助線が有するセマンティック情報に基づいて、セマンティック情報を制約として初期画像を予測して、セマンティック線の予測結果を取得する。図3の(b)と(c)を組み合わせて、予測ニューラルネットワークは、人体の領域の境界線に基づいて、指の境界線を予測し、人体の一部の詳細を豊かにする。予測ニューラルネットワークは、服の領域の境界線に基づいて、襟の境界線、衣服の角の境界線などを予測し、衣服部分の細部を豊かにする。
S24において、セマンティック線の予測結果に基づいてセマンティック線を取得する。
いくつかの実施例では、セマンティック線の予測結果に従ってセマンティック線を取得することは、線の確率マップに基づいてセマンティック線の予測結果とし、線の確率マップを特定のしきい値で二値化して二値化画像を取得することを含み得る。ここで、二値化された画像の線は、対象物体を表示するためのセマンティック線性である。二値化の処理プロセスで使用されるしきい値は0.5であってもよい。
いくつかの実施例では、セマンティック線の予測結果に基づいてセマンティック線を取得することは、以下をさらに含み得る。まず、線の確率マップに対して高コントラストの保持処理を実行して、高コントラストの確率マップを取得し、フィルタリングとノイズリダクションの効果を実現し、これにより、セマンティック線のロバスト性を向上するのに有利である。次に、高コントラストの確率マップが二値化されて、二値化された画像が得られる。ここで、二値化された画像の線は、対象物体を表示するためのセマンティック線である。高コントラストの確率マップは、初期画像の画素がセマンティック線内の画素である確率を示す。
ここで、線の確率マップと高コントラストの確率マップの関係は、次の式を満す。
Eraw-high=Eraw-G(Eraw)+0.5 式(1)
Eraw-high=Eraw-G(Eraw)+0.5 式(1)
ここで、Eraw-highは、高コントラストの確率マップを示し、Erawは、線の確率マップを示し、G(Eraw)は、線の確率マップに対してガウスフィルタリング操作を行うことを示す。
図4は一実施例における画像処理プロセスの例の模式図である。図4の(a)に示す初期画像では、既存の線抽出技術に基づいて、図4の(b)に示すように、人物画像の輪郭を識別するために取得された線が不連続になる。本開示の実施例によって提供される画像処理方法に基づいて、得られたセマンティック線が図4の(c)に示されている。図4の(b)と比較して、図4の(c)の人物画像の輪郭を識別するために使用されるセマンティック線は、より強力なセマンティック性を持ち、セマンティック線が良い連続性を有し、人物画像の顔の特徴、人体の輪郭、髪の輪郭、衣服の輪郭などを比較的明確に表すことができ、画像の視覚効果が良くなる。
本開示の実施例によって提供される画像処理方法は、セマンティック線のセマンティック性が良くなることができる。従って、対象物体の輪郭を識別するために使用されるセマンティック線が良い連続性を有し、セマンティック線が細かすぎる可能性が低くなり、ユーザの視覚効果を向上させるのに有利である。
図5は一実施例における画像処理方法のフローチャートである。
S221において、初期画像をセマンティック識別ニューラルネットワークに入力し、補助線の座標を入手する。
S221において、初期画像をセマンティック識別ニューラルネットワークに入力し、補助線の座標を入手する。
ここで、セマンティック識別ニューラルネットワークは事前にトレーニングされている。セマンティック識別ニューラルネットワークには多くの種類がある。対象物体の画像が人物画像である場合、セマンティック識別ニューラルネットワークは、例えば、人体のセグメンテーションニューラルネットワーク、髪のセグメンテーションニューラルネットワーク、衣服のセグメンテーションニューラルネットワーク、部分輪郭の識別ニューラルネットワークであってもよいが、これらに限定されない。
ここで、補助線のタイプが複数である。対象物体の画像が人物画像である場合、補助線は、例えば、人体の領域の境界線、髪の領域の境界線、服の領域の境界線、顔の輪郭線、目の輪郭線、鼻の輪郭線、口の輪郭線等であってもよいが、これらに限定されない。ここで、人体の領域の境界線、髪の領域の境界線及び服の領域の境界線は、領域の境界線に属し、顔の輪郭線、目の輪郭線、鼻の輪郭線及び口の輪郭線は、部位の輪郭線に属する。以下、3つのケースでS221を詳しく説明する。
ケース一として、補助線が領域の境界線を含む。本開示の実施例における画像処理方法は、ステップ一及びステップ二で領域の境界線の座標を取得する。ここで、ステップ一~ステップ二は、以下の通りである。
ステップ一では、初期画像を領域セグメンテーションニューラルネットワークに入力して、異なる領域のセグメンテーション確率マップを取得する。
ここで、領域セグメンテーションニューラルネットワークは、初期画像を領域セグメント化するために使用される。領域セグメンテーションニューラルネットワークは、上記の人体のセグメンテーションニューラルネットワーク、髪のセグメンテーションニューラルネットワーク、又は衣服のセグメンテーションニューラルネットワークなどであってもよい。ある領域のセグメンテーション確率マップは、初期画像の異なる画素が対応する領域に属する確率を示すために使用される。いくつかの実施例では、初期画像が図6の(a)に示されている。ここで、人体のセグメンテーションニューラルネットワークを使用して初期画像の領域を識別し、初期画像の異なる画素が人体領域の画素に属する確率を計算して、図6の(b)に示すように、人体領域のセグメンテーション確率マップを取得する。人体領域のセグメンテーション確率マップは初期画像のサイズと一致しており、明るさが高いほど、その位置が人体領域に属する確率が大きくなる。
髪のセグメンテーションニューラルネットワークを使用して初期画像の領域を識別し、初期画像の異なる画素が髪領域の画素に属する確率を計算して、図6の(c)に示すように、髪領域のセグメンテーション確率マップを取得する。髪領域のセグメンテーション確率マップは初期画像のサイズと一致しており、明るさが高いほど、その位置が髪領域に属する確率が大きくなる。
服のセグメンテーションニューラルネットワークを使用して初期画像の領域を識別し、初期画像の異なる画素が服領域の画素に属する確率を計算して、図6の(d)に示すように、服領域のセグメンテーション確率マップを取得する。服領域のセグメンテーション確率マップは初期画像のサイズと一致しており、明るさが高いほど、その位置が服領域に属する確率が大きくなる。
ステップ二では、異なる領域のセグメンテーション確率マップに従って、領域の境界線の座標を取得する。
いくつかの実施例では、人体領域のセグメンテーション確率マップに基づいて、人体領域のセグメンテーション確率マップは、異なる画素が人体領域に属する確率を示すことができるので、まず、人体領域のセグメンテーション確率マップに対して二値化処理を実行して、人体領域の二値化された画像を得る。次に、プリセット処理関数(OpenSource Computer Vision Library OpenCV関数など)を使用して、人体領域の二値化された画像に対して境界を抽出し、人体の領域の境界線の座標を取得する。ここで、二値化処理のしきい値は0.5であってもよい。
同様に、髪領域のセグメンテーション確率マップに対して同じ処理を実行して、髪の領域の境界線の座標を取得する。服領域のセグメンテーション確率マップに対しても同様の処理を行い、服の領域の境界線の座標を取得する。ここで、異なる領域のセグメンテーション確率マップに対して二値化処理を実行する場合、同じ閾値を使用してもよく、又は、異なる閾値を使用してもよいが、本願のこの実施例に限定されない。
ケース二として、補助線が部位の輪郭線を含む。本開示の実施例における画像処理方法は、以下の処理で部位の輪郭線の座標を取得する。
初期画像を部位輪郭識別ニューラルネットワークに入力し、異なる部位の部位輪郭点を識別し、部位の輪郭線の座標を取得する。
ここで、ある部位の部位輪郭点は、該部位の輪郭を表示するために使用される。
いくつかの実施例では、初期画像は、図7(a)に示すように、部位輪郭識別ニューラルネットワークを利用して初期画像を識別し、部位輪郭点が分布された初期画像を入手し、部位輪郭点は、図7(b)に示すように、人物画像の顔部に分布される。ここで、図7の(b)の顔部の拡大図は、図7中(c)に示す。図7(c)は、顔部の部位輪郭点、例えば、顔の輪郭点、目の輪郭点、鼻の輪郭点、口の輪郭点などを示す。
ケース三として、補助線が領域の境界線及び部位の輪郭線を含む。補助線の座標を取得することは、ケース一及び二を参照し、ここで説明を省略する。
S222において、補助線の座標に基づいて、補助線を描画する。
いくつかの実施例では、Open GL (open graphics library)シェーダーを利用して、補助線の座標に基づいて、完全の補助線を描画する。
いくつかの実施例では、Open GL (open graphics library)シェーダーを利用して、補助線の座標に基づいて、完全の補助線を描画する。
このように、セマンティック識別ニューラルネットワークを利用して異なる補助線の座標を識別することで、補助線の座標に基づいて補助線を描画し、補助線の整合を実現し、例えば、異なる領域の境界線及び/又は異なる部位の輪郭線を二値化された同じ画像に整合する。
また、補助線が領域の境界線を含む場合は、深層学習法を用いて初期画像の領域セグメンテーションを行い、領域の境界線を取得することもできる。同様に、補助線が部位の輪郭線を含む場合、深層学習法を使用して、初期画像上の部位の輪郭点を識別し、部位の輪郭線を取得することもできる。
いくつかの実施例では、補助線が部位の輪郭線を含む場合、本開示の実施例画像処理方法は、ステップ三とステップ四を含む。
ステップ三において、対象部位の特徴が属するタイプを決定する。
いくつかの実施例では、対象物体の画像が人物画像である場合、対象部分が眼であることに応答して、眼の特徴が属するタイプは、一重まぶた又は二重のまぶたであり得る。まぶたタイプ検出ニューラルネットワークを使用して初期画像を識別し、人物画像の左眼と右眼のタイプ、つまり、人物画像の左眼が一重まぶたに属するか二重まぶたに属するか、人物画像の右目が一重まぶたに属するか又は二重のまぶたに属するかを取得する。
いくつかの実施例では、対象物体の画像が人物画像である場合、対象部分が眼であることに応答して、眼の特徴が属するタイプは、一重まぶた又は二重のまぶたであり得る。まぶたタイプ検出ニューラルネットワークを使用して初期画像を識別し、人物画像の左眼と右眼のタイプ、つまり、人物画像の左眼が一重まぶたに属するか二重まぶたに属するか、人物画像の右目が一重まぶたに属するか又は二重のまぶたに属するかを取得する。
対象部位が口であることに応答して、口の特徴が属するタイプは、上曲げ、下曲げ、四字形、一字形などであり得る。口形状検出ニューラルネットワークを使用して初期画像を識別し、人物画像の口の形状のタイプ、つまり、人物画像の口の形状のタイプが上曲げ、下曲げ、四字形、一字形のいずれかに属するかを取得する。
スッテプ四において、対象部位の特徴が属するタイプに基づいて、対象部位の輪郭線を調整する。
いくつかの実施例では、眼の特徴が属するタイプが二重まぶたであり、二重まぶた曲線は、眼の輪郭線に基づいて追加される。口の特徴が属するタイプが上曲げであり、口の輪郭に基づいて口角の角度又は形状が調整される。
このように、セマンティック線が対象部位の輪郭線を含む場合、対象部位の特徴が属するタイプに基づいて、対応する対象部位の輪郭線を調整することで、補助線がより多いセマンティック情報を有する。このように、該調整された対象部位の輪郭線に基づいて予測する時に、得られたセマンティック線のセマンティック性が強くなり、セマンティック線の完全性及び連続性が良くなり、対象物体をより完全に表示する。
図8は一実施例における画像処理方法のフローチャートである。
S231において、補助線と初期画像とをスティッチングした画像を、予測ニューラルネットワークに入力する。
S231において、補助線と初期画像とをスティッチングした画像を、予測ニューラルネットワークに入力する。
ここで、補助線が二値化された画像で表示され、二値化された画像内の線が補助線である。補助線を表示する二値化された画像は、初期画像のサイズと一致する。補助線、プリセットニューラルネットワーク及びスティッチングされた画像は、S23の記載を参照し、ここで説明を省略する。
S232において、予測ニューラルネットワークを利用して、補助線と初期画像とをスティッチングした画像に基づいて、補助線の座標及び補助線が有するセマンティック情報を決定し、補助線の座標に基づいてセマンティック線内の画素の初期画像内の分布領域を決定し、補助線が有するセマンティック情報に基づいて分布領域内の画素がセマンティック線内の画素である確率を決定する。
いくつかの実施例では、閉じた領域は、補助線の座標に基づいて決定することができ、予測ニューラルネットワークは、事前設定された値に従って閉じた領域の中心点から外側に拡張し、セマンティック線内の画素の初期画像内の分布領域を取得する。
ここで、補助線の座標が予測ニューラルネットワークのためにセマンティック線の分布領域を示し、さらに、予測ニューラルネットワークがセマンティック線の分布領域にセマンティック線の画素を決定し、予測効率を向上させる。さらに、補助線のセマンティック情報がセマンティック線の属性及び特徴を体現することができ、予測ニューラルネットワークがセマンティック線内の画素をより正確に識別し、予測の正確度を向上させることができる。
いくつかの実施例では、本開示の実施例における画像処理方法でセマンティック線を取得した後、さらに、セマンティック線を最適化することができる。図9は一実施例における画像処理方法のフローチャートである。
S25において、セマンティック線において異なる線の幅が一致するように、セマンティック線の幅を調整する。
いくつかの実施例では、セマンティック線は、高コントラストの確率マップを二値化処理された線であり得る。ここで、高コントラストの確率マップは、初期画像の画素がセマンティック線の画素である確率を示す。
幅の値をプリセット設定する場合は、プリセット幅の値に応じて、セマンティック線における削除する画素をマークしてから、マークした画素を削除する。このように、セマンティック線のスケルトンを取得できるため、セマンティック線をプリセット幅に細くすることができる。ここで、プリセット幅の値は、ユーザが設定したデータであってもよい。プリセット幅の値は、特定の数の画素の幅の値であってもよい。セマンティック線の幅を調整する場合、使用できるアルゴリズムはZhang-Suenスケルトン化アルゴリズムであってもよい。
S26において、幅が一致するセマンティック線をベクトル化し、ベクトル化記述パラメータを入手する。
ここで、ベクトル化記述パラメータは、セマンティック線の幾何学的特徴を記述するために使用される。例えば、曲線の場合、幾何学的特徴は、曲線の中心、角度、半径などである。
いくつかの実施例では、ベクトル化処理を実行するためのアルゴリズムは、Potraceベクトル化アルゴリズムであり得、セマンティック線のベクトル化記述パラメータは、二次ベジェ曲線記述パラメータであり得る。ベクトル化記述パラメータによって示されるセマンティック線は、解像度に依存せず、SVG(scalable vector graphics)形式で格納され、任意のアプリケーションによって表示画面にレンダリングされ、表示画面に表示される。図10を参照すると、図10の(a)は、図3に示した初期画像と同じ、人物画像を含む初期画像を示し、図10の(c)は、セマンティック線で表示する人物画像である。図10の(d)は、最適化後の画像であり、図10の(d)では、セマンティック線の幅は一致する。
このように、セマンティック線の幅は一致し、ベクトル化記述パラメータを使用してセマンティック線の幾何学的特徴を記述し、これにより、セマンティック線の幅がより制御可能になり、異なる解像度で、幅が一致するセマンティック線の幅が表示され、ユーザの視覚効果を向上させ、「線の幅の不一致により画像の全体的なスタイルが影響を受ける」という従来技術の課題が発生することを回避することができる。
また、本開示の実施例に係る画像処理方法は、処理効率が高く、初期画像の解像度が512×512であることに基づいて、画像処理方法の全ステップの計算を完了するのに1秒かかる。
図11は一実施例における画像処理装置のブロック図である。該装置は、画像取得モジュール111、補助線取得モジュール112、セマンティック線予測モジュール113及びセマンティック線決定モジュール114を含む。
ここで、画像取得モジュール111は、対象物体を含む初期画像を取得するように構成される。
補助線取得モジュール112は、初期画像に対してセマンティック情報抽出を行い、補助線を入手するように構成される。ここで、補助線は、対象物体の領域の境界線及び/又は対象物体の部位の輪郭線を含む。
セマンティック線予測モジュール113は、補助線と初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手するように構成される。ここで、補助線は、予測ニューラルネットワークが予測結果を取得するようにガイドするために使用される。セマンティック線の予測結果は、初期画像内の画素がセマンティック線内の画素である確率を示すために使用される。セマンティック線は、対象物体を表示するために使用される。
セマンティック線決定モジュール114は、セマンティック線の予測結果に基づいてセマンティック線を取得するように構成される。
いくつかの実施例では、補助線取得モジュール112は、具体的に、初期画像をセマンティック識別ニューラルネットワークに入力し、補助線の座標を入手するように構成される。補助線取得モジュール112は、さらに、補助線の座標に基づいて、補助線を描画するように構成される。
いくつかの実施例では、セマンティック線予測モジュール113は、具体的に、補助線と初期画像とスティッチングした画像を、予測ニューラルネットワークに入力するように構成される。セマンティック線予測モジュール113は、さらに、予測ニューラルネットワークを利用して、補助線と初期画像とをスティッチングした画像に基づいて補助線の座標及び補助線が有するセマンティック情報を決定し、補助線の座標に基づいてセマンティック線内の画素の初期画像内の分布領域を決定し、補助線が有するセマンティック情報に基づいて分布領域内の画素がセマンティック線内の画素である確率を決定するように構成される。
いくつかの実施例では、図12は一実施例における画像処理装置のブロック図である。該画像処理装置は、さらに、幅処理モジュール115とベクトル化処理モジュール116とを含む。ここで、幅処理モジュール115は、セマンティック線において異なる線の幅が一致するようにセマンティック線の幅を調整するように構成される。
ベクトル化処理モジュール116は、幅が一致するセマンティック線をベクトル化し、ベクトル化記述パラメータを入手する。ここで、ベクトル化記述パラメータは、セマンティック線の幾何学的特徴を記述するために使用される。
いくつかの実施例では、対象物体の画像は、人物画像である。補助線が領域の境界線を含む場合、領域の境界線は、人体の領域の境界線、髪の領域の境界線及び服の領域の境界線のうちの少なくとも1つを含む。補助線が部位の輪郭線を含む場合、部位の輪郭線は、顔の輪郭線、目の輪郭線、鼻の輪郭線及び口の輪郭線のうちの少なくとも1つを含む。
上記の実施例における装置に関して、各モジュールが動作を実行する特定の方法は、方法の実施例において詳細に説明されており、ここで説明を省略する。
画像処理装置が電子デバイスである場合、図13は、電子デバイスの可能な概略構造図を示している。 図13に示すように、電子デバイス130は、プロセッサ131及びメモリ132を含む。
図13に示す電子デバイス130は、上記の画像処理装置のすべての機能を実行できることが理解できる。上記の画像処理装置の各モジュールの機能は、電子デバイス130のプロセッサ131に実装され得る。画像処理装置の記憶ユニット(図11及び12には示されていない)は、電子デバイス130のメモリ132に対応する。
ここで、プロセッサ131は、4コアプロセッサ、8コアプロセッサなどのような1つ又は複数の処理コアを含むことができる。プロセッサ311は、アプリケーションプロセッサ(application processor、AP)、モデムプロセッサ、グラフィックプロセッサ(graphics processing unit、GPU)、画像信号プロセッサ(image signal processor、ISP)、コントローラ、メモリ、ビデオコーデック、デジタル信号プロセッサ(digital signal processor、DSP)、ベースバンドプロセッサ、及び/又はニューラルネットワーク処理ユニット(neural-network processing unit 、NPU)などを含むことができる。ここで、異なる処理ユニットは、独立したデバイスであってもよく、1つ又は複数のプロセッサに統合されてもよい。
メモリ132は、非一時的であり得る1つ以上のコンピュータ可読記憶媒体を含み得る。メモリ132はまた、高速ランダムアクセスメモリ、ならびに1つ又は複数のディスクストレージデバイス、フラッシュストレージデバイスなどの不揮発性メモリを含み得る。いくつかの実施例では、メモリ132内の非一時的なコンピュータ可読記憶媒体は、少なくとも1つの命令を格納するために使用され、少なくとも1つの命令は、プロセッサ311によって実行されて、本願の実施例における画像処理方法を実現する。
いくつかの実施例では、電子デバイス130はまた、任意選択で、周辺デバイスインターフェース133及び少なくとも1つの周辺デバイスを含み得る。プロセッサ131、メモリ132、及び周辺デバイスインターフェース133は、バス又は信号線を介して接続することができる。各周辺機器は、バス、信号線、又は回路基板を介して周辺デバイスインターフェース133に接続することができる。具体的には、周辺デバイスは、無線周波数回路134、表示画面135、カメラアセンブリ136、オーディオ回路137、位置決めアセンブリ138、及び電源139のうちの少なくとも1つを含む。
周辺デバイスインターフェース133は、入力/出力(I/O)に関連する少なくとも1つの周辺デバイスをプロセッサ311及びメモリ132に接続するために使用され得る。いくつかの実施例では、プロセッサ131、メモリ132、及び周辺デバイスインターフェース133は、同じチップ又は回路基板上に統合される。他のいくつかの実施例では、プロセッサ311、メモリ132、及び周辺デバイスインターフェース133のいずれか1つ又は2つは、別個のチップ又は回路基板により実現され、この実施例では限定されない。
無線周波数回路134は、電磁信号とも呼ばれる無線周波数(radio frequency 、RF)信号を送受信するために使用される。無線周波数回路134は、電磁信号を介して通信ネットワーク及び他の通信デバイスと通信する。無線周波数回路134は、電気信号を送信用の電磁信号に変換するか、又は受信した電磁信号を電気信号に変換する。任意選択で、無線周波数回路134は、アンテナシステム、RFトランシーバ、1つ又は複数の増幅器、チューナ、発振器、デジタル信号プロセッサ、コーデックチップセット、加入者識別モジュールカードなどを含む。無線周波数回路134は、少なくとも1つの無線通信プロトコルを介して他の電子デバイスと通信することができる。該無線通信プロトコルには、メトロポリタンエリアネットワーク、さまざまな世代のモバイル通信ネットワーク(2G、3G、4G、及び5G)、ワイヤレスローカルエリアネットワーク、及び/又はワイヤレスフィデリティ(wireless fidelity、Wi-Fi)ネットワークが含まれますが、これらに限定されない。いくつかの実施例では、無線周波数回路134は、本開示に限定されない近距離無線通信(near field Communication、NFC)に関連する回路をさらに含むことができる。
表示画面135は、ユーザインターフェース(UI)を表示するために使用される。該UIには、グラフィック、テキスト、アイコン、ビデオ、及びそれらの任意の組み合わせを含めることができる。表示画面135がタッチ表示画面である場合、表示画面135はまた、表示画面135の表面上又はその上でタッチ信号を取得する能力を有する。このタッチ信号は、処理のための制御信号としてプロセッサ131に入力することができる。このとき、表示画面135はまた、仮想ボタン及び/又は仮想キーボード(ソフトボタン及び/又はソフトキーボードとも呼ばれる)を提供するために使用され得る。いくつかの実施例では、表示画面135は1つであり得、電子デバイス130の前面パネルが提供され、表示画面135は、液晶ディスプレイ(LDC)、有機発光ダイオード(OLED)などで作成されてもよい。
カメラアセンブリ136は、画像又はビデオをキャプチャするために使用される。任意選択で、カメラアセンブリ136は、フロントカメラ及びリアカメラを含む。一般に、フロントカメラは電子デバイス130のフロントパネルに配置され、リアカメラは電子デバイス130の背面に配置される。オーディオ回路137は、マイクロフォン及びスピーカーを含み得る。マイクロフォンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換し、それらを処理のためにプロセッサ131に入力するか、又は音声通信を実現するために無線周波数回路134に入力するために使用される。ステレオ取得又はノイズ低減の目的で、複数のマイクロフォンがあり得、それらはそれぞれ、電子デバイス130の異なる部分に配置されている。マイクは、アレイマイク又は無指向性コレクションマイクの場合もある。スピーカーは、プロセッサ131又は無線周波数回路134からの電気信号を音波に変換するために使用される。ラウドスピーカーは、従来の薄膜ラウドスピーカー又は圧電セラミックラウドスピーカーにすることができる。スピーカーが圧電セラミックスピーカーの場合、電気信号を人間に聞こえる音波に変換するだけでなく、距離測定などの目的で電気信号を人間に聞こえない音波に変換することもできる。いくつかの実施例では、オーディオ回路137はまた、ヘッドホンジャックを含み得る。
位置決めアセンブリ138は、ナビゲーション又はロケーションベースのサービス(ロケーションベースのサービス、LBS)を実装するために、電子デバイス130の現在の地理的位置を特定するために使用される。位置決めアセンブリ138は、米国の全地球測位システム(GPS)、中国の北斗システム、ロシアのグレナスシステム、又は欧州連合のガリレオシステムに基づく位置決めアセンブリであり得る。
電源139は、電子デバイス130内の様々な構成要素に電力を供給するために使用される。電源139は、交流、直流、使い捨て電池又は充電式電池であり得る。電源139が充電式電池を含む場合、充電式電池は、有線充電又は無線充電をサポートすることができる。充電式バッテリーは、急速充電技術をサポートするためにも使用できる。
いくつかの実施例では、電子デバイス130はまた、1つ又は複数のセンサ1310を含む。1つ又は複数のセンサ1310には、加速度センサ、ジャイロスコープセンサ、圧力センサ、指紋センサ、光学センサ、及び近接センサが含まれるが、これらに限定されない。
加速度センサは、電子デバイス130によって確立された座標系の3つの座標軸上の加速度の大きさを検出することができる。ジャイロスコープセンサは、電子デバイス130の体の方向及び回転角度を検出することができ、ジャイロスコープセンサは、加速度センサと連携して、電子デバイス130上でのユーザの3Dアクションを収集することができる。圧力センサは、電子デバイス130のサイドフレーム及び/又は表示画面135の下層に配置することができる。圧力センサが電子デバイス130のサイドフレームに配置されている場合、電子デバイス130上のユーザの保持信号を検出することができる。指紋センサは、ユーザの指紋を収集するために使用される。光学センサは、周囲光の強度を収集するために使用される。距離センサとも呼ばれる近接センサは、通常、電子デバイス130のフロントパネルに設けられている。近接センサは、ユーザと電子デバイス130の前面との間の距離を収集するために使用される。
本開示はまた、命令がコンピュータ可読記憶媒体に記憶されるコンピュータ可読記憶媒体を提供し、記憶媒体内の命令が電子デバイスのプロセッサによって実行されるとき、電子デバイスは本開示の実施例を説明した画像処理方法を実行することができる。
本開示の実施例はまた、命令を含むコンピュータプログラム製品を提供し、コンピュータプログラム製品の命令が電子デバイスのプロセッサによって実行されるとき、電子デバイスは、上記の実施例によって提供される画像処理方法を実行するようにされる。
本開示の他の実施例は、本明細書に開示された本発明の明細書及び実施を考慮した上で、当業者には容易に想到する。本開示は、本開示の一般原則に従い、本開示によって開示されない技術分野における一般的な一般知識又は技術を含む、本開示の任意の変形、使用、又は適合をカバーすることを意図している。明細書及び実施例は単なる例示と見なされるべきであり、本開示の真の範囲及び精神は、以下の特許請求の範囲によって示される。
本開示は、上記に記載され、添付の図面に示されている正確な構造に限定されず、その範囲から逸脱することなく、様々な修正及び変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。
Claims (15)
- 対象物体を含む初期画像を取得することと、
前記初期画像に対してセマンティック情報抽出を行い、補助線を入手することと、
前記補助線と前記初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手することと、
前記セマンティック線の予測結果に基づいて前記セマンティック線を取得することとを含み、
前記補助線は、前記対象物体の領域の境界線及び/又は前記対象物体の部位の輪郭線を含み、前記補助線は、前記予測ニューラルネットワークが前記予測結果を取得するようにガイドするために使用され、前記予測結果は、前記初期画像内の画素が前記セマンティック線内の画素である確率を示すために使用され、前記セマンティック線は、前記対象物体を表示するために使用される
ことを特徴とする画像処理方法。 - 前記初期画像に対してセマンティック情報抽出を行い、補助線を入手することは、
前記初期画像をセマンティック識別ニューラルネットワークに入力し、前記補助線の座標を取得することと、
前記補助線の座標に基づいて、前記補助線を描画することとを含む
ことを特徴とする請求項1に記載の画像処理方法。 - 前記補助線と前記初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手することは、
前記補助線と前記初期画像とをスティッチングした画像を前記予測ニューラルネットワークに入力することと、
前記予測ニューラルネットワークを利用して、
前記補助線と前記初期画像とをスティッチングした画像に基づいて、前記補助線の座標及び前記補助線が有するセマンティック情報を決定し、
前記補助線の座標に基づいて、前記セマンティック線内の画素の前記初期画像内の分布領域を決定し、
前記補助線が有するセマンティック情報に基づいて、前記分布領域内の画素が前記セマンティック線内の画素である確率を決定することとを含む
ことを特徴とする請求項1又は2に記載の画像処理方法。 - 前記方法は、さらに、
前記セマンティック線のうちの異なる線の幅が一致するように、前記セマンティック線の幅を調整することと、
前記幅が一致するセマンティック線をベクトル化し、ベクトル化記述パラメータを入手することとを含み、
前記ベクトル化記述パラメータは、前記セマンティック線の幾何学的特徴を記述するために使用される
ことを特徴とする請求項1又は2に記載の画像処理方法。 - 前記対象物体の画像は、人物画像であり、
前記補助線が前記領域の境界線を含む場合、前記領域の境界線は、人体の領域の境界線、髪の領域の境界線及び服の領域の境界線のうちの少なくとも1つを含み、
前記補助線が前記部位の輪郭線を含む場合、前記部位の輪郭線は、顔の輪郭線、目の輪郭線、鼻の輪郭線及び口の輪郭線のうちの少なくとも1つを含む
ことを特徴とする請求項1又は2に記載の画像処理方法。 - プロセッサと、前記プロセッサの実行可能命令を記憶するメモリとを含む電子デバイスであって、
前記プロセッサは、前記命令を実行して、画像処理方法を実行し、
前記プロセッサは、
対象物体を含む初期画像を取得し、
前記初期画像に対してセマンティック情報抽出を行い、補助線を入手し、
前記補助線と前記初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手し、
前記セマンティック線の予測結果に基づいて前記セマンティック線を取得するように構成され、
前記補助線は、前記対象物体の領域の境界線及び/又は前記対象物体の部位の輪郭線を含み、前記補助線は、前記予測ニューラルネットワークが前記予測結果を取得するようにガイドするために使用され、前記予測結果は、前記初期画像内の画素が前記セマンティック線内の画素である確率を示すために使用され、前記セマンティック線は、前記対象物体を表示するために使用される
ことを特徴とする電子デバイス。 - 前記プロセッサは、
前記初期画像をセマンティック識別ニューラルネットワークに入力し、前記補助線の座標を取得し、
前記補助線の座標に基づいて、前記補助線を描画するように構成される
ことを特徴とする請求項6に記載の電子デバイス。 - 前記プロセッサは、
前記補助線と前記初期画像とをスティッチングした画像を前記予測ニューラルネットワークに入力し、
前記予測ニューラルネットワークを利用して、
前記補助線と前記初期画像とをスティッチングした画像に基づいて、前記補助線の座標及び前記補助線が有するセマンティック情報を決定し、
前記補助線の座標に基づいて、前記セマンティック線内の画素の前記初期画像内の分布領域を決定し、
前記補助線が有するセマンティック情報に基づいて、前記分布領域内の画素が前記セマンティック線内の画素である確率を決定するように構成される
ことを特徴とする請求項6又は7に記載の電子デバイス。 - 前記プロセッサは、
前記セマンティック線において異なる線の幅が一致するように、前記セマンティック線の幅を調整し、
前記幅が一致するセマンティック線をベクトル化し、ベクトル化記述パラメータを入手するように構成され、
前記ベクトル化記述パラメータは、前記セマンティック線の幾何学的特徴を記述するために使用される
ことを特徴とする請求項6又は7に記載の電子デバイス。 - 前記対象物体の画像は、人物画像であり、
前記プロセッサは、
前記補助線が前記領域の境界線を含む場合、前記領域の境界線は、人体の領域の境界線、髪の領域の境界線及び服の領域の境界線のうちの少なくとも1つを含み、
前記補助線が前記部位の輪郭線を含む場合、前記部位の輪郭線は、顔の輪郭線、目の輪郭線、鼻の輪郭線及び口の輪郭線のうちの少なくとも1つを含む
ことを特徴とする請求項6又は7に記載の電子デバイス。 - 命令を記憶するコンピュータ可読記憶媒体であって、
前記記憶媒体内の命令を電子デバイスのプロセッサにより実行される場合、前記電子デバイスが画像処理方法を実行し、前記画像処理方法は、
対象物体を含む初期画像を取得することと、
前記初期画像に対してセマンティック情報抽出を行い、補助線を入手することと、
前記補助線と前記初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手することと、
前記セマンティック線の予測結果に基づいて前記セマンティック線を取得することとを含み、
前記補助線は、前記対象物体の領域の境界線及び/又は前記対象物体の部位の輪郭線を含み、前記補助線は、前記予測ニューラルネットワークが前記予測結果を取得するようにガイドするために使用され、前記予測結果は、前記初期画像内の画素が前記セマンティック線内の画素である確率を示すために使用され、前記セマンティック線は、前記対象物体を表示するために使用される
ことを特徴とするコンピュータ可読記憶媒体。 - 前記初期画像に対してセマンティック情報抽出を行い、補助線を入手することは、
前記初期画像をセマンティック識別ニューラルネットワークに入力し、前記補助線の座標を取得することと、
前記補助線の座標に基づいて、前記補助線を描画することとを含む
ことを特徴とする請求項11に記載のコンピュータ可読記憶媒体。 - 前記補助線と前記初期画像とをスティッチングした画像を予測ニューラルネットワークに入力し、セマンティック線の予測結果を入手することは、
前記補助線と前記初期画像とをスティッチングした画像を前記予測ニューラルネットワークに入力することと、
前記予測ニューラルネットワークを利用して、
前記補助線と前記初期画像とをスティッチングした画像に基づいて、前記補助線の座標及び前記補助線が有するセマンティック情報を決定し、
前記補助線の座標に基づいて、前記セマンティック線内の画素の前記初期画像内の分布領域を決定し、
前記補助線が有するセマンティック情報に基づいて、前記分布領域内の画素が前記セマンティック線内の画素である確率を決定することとを含む
ことを特徴とする請求項11又は12に記載のコンピュータ可読記憶媒体。 - 前記方法は、さらに、
前記セマンティック線において異なる線の幅が一致するように、前記セマンティック線の幅を調整することと、
前記幅が一致するセマンティック線をベクトル化し、ベクトル化記述パラメータを入手することとを含み、
前記ベクトル化記述パラメータは、前記セマンティック線の幾何学的特徴を記述するために使用される
ことを特徴とする請求項11又は12に記載のコンピュータ可読記憶媒体。 - 前記対象物体の画像は、人物画像であり、
前記補助線が前記領域の境界線を含む場合、前記領域の境界線は、人体の領域の境界線、髪の領域の境界線及び服の領域の境界線のうちの少なくとも1つを含み、
前記補助線が前記部位の輪郭線を含む場合、前記部位の輪郭線は、顔の輪郭線、目の輪郭線、鼻の輪郭線及び口の輪郭線のうちの少なくとも1つを含む
ことを特徴とする請求項11又は12に記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010351704.9 | 2020-04-28 | ||
CN202010351704.9A CN113570052B (zh) | 2020-04-28 | 2020-04-28 | 图像处理方法、装置、电子设备及存储介质 |
PCT/CN2020/129799 WO2021218121A1 (zh) | 2020-04-28 | 2020-11-18 | 图像处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023510375A JP2023510375A (ja) | 2023-03-13 |
JP7332813B2 true JP7332813B2 (ja) | 2023-08-23 |
Family
ID=78158276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022543040A Active JP7332813B2 (ja) | 2020-04-28 | 2020-11-18 | 画像処理方法、装置、電子デバイス及び記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230065433A1 (ja) |
JP (1) | JP7332813B2 (ja) |
CN (1) | CN113570052B (ja) |
WO (1) | WO2021218121A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529978B (zh) * | 2020-12-07 | 2022-10-14 | 四川大学 | 一种人机交互式抽象画生成方法 |
US20220237414A1 (en) * | 2021-01-26 | 2022-07-28 | Nvidia Corporation | Confidence generation using a neural network |
US11868790B2 (en) * | 2021-10-26 | 2024-01-09 | Salesforce, Inc. | One-to-many automatic content generation |
CN114119427B (zh) * | 2022-01-28 | 2022-05-27 | 深圳市明源云科技有限公司 | 图片转换方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018195293A (ja) | 2017-05-18 | 2018-12-06 | 三菱電機株式会社 | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 |
CN109409262A (zh) | 2018-10-11 | 2019-03-01 | 北京迈格威科技有限公司 | 图像处理方法、图像处理装置、计算机可读存储介质 |
CN110930427A (zh) | 2018-09-20 | 2020-03-27 | 银河水滴科技(北京)有限公司 | 一种基于语义轮廓信息的图像分割方法、设备和存储介质 |
JP2020528176A (ja) | 2017-09-27 | 2020-09-17 | グーグル エルエルシー | 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664702B2 (en) * | 2016-12-30 | 2020-05-26 | International Business Machines Corporation | Method and system for crop recognition and boundary delineation |
US10445877B2 (en) * | 2016-12-30 | 2019-10-15 | International Business Machines Corporation | Method and system for crop recognition and boundary delineation |
CN107220990B (zh) * | 2017-06-22 | 2020-09-08 | 成都品果科技有限公司 | 一种基于深度学习的头发分割方法 |
CN109033945B (zh) * | 2018-06-07 | 2021-04-06 | 西安理工大学 | 一种基于深度学习的人体轮廓提取方法 |
CN109461211B (zh) * | 2018-11-12 | 2021-01-26 | 南京人工智能高等研究院有限公司 | 基于视觉点云的语义矢量地图构建方法、装置和电子设备 |
-
2020
- 2020-04-28 CN CN202010351704.9A patent/CN113570052B/zh active Active
- 2020-11-18 JP JP2022543040A patent/JP7332813B2/ja active Active
- 2020-11-18 WO PCT/CN2020/129799 patent/WO2021218121A1/zh active Application Filing
-
2022
- 2022-10-24 US US18/049,152 patent/US20230065433A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018195293A (ja) | 2017-05-18 | 2018-12-06 | 三菱電機株式会社 | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 |
JP2020528176A (ja) | 2017-09-27 | 2020-09-17 | グーグル エルエルシー | 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル |
CN110930427A (zh) | 2018-09-20 | 2020-03-27 | 银河水滴科技(北京)有限公司 | 一种基于语义轮廓信息的图像分割方法、设备和存储介质 |
CN109409262A (zh) | 2018-10-11 | 2019-03-01 | 北京迈格威科技有限公司 | 图像处理方法、图像处理装置、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230065433A1 (en) | 2023-03-02 |
CN113570052A (zh) | 2021-10-29 |
JP2023510375A (ja) | 2023-03-13 |
CN113570052B (zh) | 2023-10-31 |
WO2021218121A1 (zh) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11678734B2 (en) | Method for processing images and electronic device | |
CN110189340B (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN108594997B (zh) | 手势骨架构建方法、装置、设备及存储介质 | |
JP7332813B2 (ja) | 画像処理方法、装置、電子デバイス及び記憶媒体 | |
EP3779883B1 (en) | Method and device for repositioning in camera orientation tracking process, and storage medium | |
JP7058760B2 (ja) | 画像処理方法およびその、装置、端末並びにコンピュータプログラム | |
WO2019101021A1 (zh) | 图像识别方法、装置及电子设备 | |
CN110544272B (zh) | 脸部跟踪方法、装置、计算机设备及存储介质 | |
WO2021147434A1 (zh) | 基于人工智能的人脸识别方法、装置、设备及介质 | |
CN110555839A (zh) | 缺陷检测识别方法、装置、计算机设备及存储介质 | |
CN107844781A (zh) | 人脸属性识别方法及装置、电子设备及存储介质 | |
CN109360222B (zh) | 图像分割方法、装置及存储介质 | |
CN111541907B (zh) | 物品显示方法、装置、设备及存储介质 | |
CN108830186B (zh) | 文本图像的内容提取方法、装置、设备及存储介质 | |
CN110807361A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN110570460B (zh) | 目标跟踪方法、装置、计算机设备及计算机可读存储介质 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN109325924B (zh) | 图像处理方法、装置、终端及存储介质 | |
CN109285178A (zh) | 图像分割方法、装置及存储介质 | |
CN111723803B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN110991457A (zh) | 二维码处理方法、装置、电子设备及存储介质 | |
CN112135191A (zh) | 视频编辑方法、装置、终端及存储介质 | |
CN110675413B (zh) | 三维人脸模型构建方法、装置、计算机设备及存储介质 | |
EP4145343A1 (en) | Fingerprint liveness detection method and device, and storage medium | |
CN115393562A (zh) | 虚拟形象显示方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7332813 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |