JP2021524957A - 画像処理方法およびその、装置、端末並びにコンピュータプログラム - Google Patents

画像処理方法およびその、装置、端末並びにコンピュータプログラム Download PDF

Info

Publication number
JP2021524957A
JP2021524957A JP2020561766A JP2020561766A JP2021524957A JP 2021524957 A JP2021524957 A JP 2021524957A JP 2020561766 A JP2020561766 A JP 2020561766A JP 2020561766 A JP2020561766 A JP 2020561766A JP 2021524957 A JP2021524957 A JP 2021524957A
Authority
JP
Japan
Prior art keywords
pixel
head
classification
image
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020561766A
Other languages
English (en)
Other versions
JP7058760B2 (ja
Inventor
ション,ウエイ
ホアン,フェイ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2021524957A publication Critical patent/JP2021524957A/ja
Application granted granted Critical
Publication of JP7058760B2 publication Critical patent/JP7058760B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本発明の実施例は、コンピュータ技術分野に属し、画像処理方法およびその、装置、端末並びにコンピュータ読み取り可能な記憶媒体を開示する。当該方法は、トレーニングされた画素分類モデルを取得するステップであって、画素分類モデルは、任意の1つの画像における各画素の分類識別子を決定するために使用され、分類識別子は、頭部分類識別子を含み、頭部分類識別子は、対応する画素が頭部領域に位置することを示す、ステップと、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得するステップと、分類識別子が頭部分類識別子である画素に従って、目標画像の頭部領域を決定し、頭部領域に対して編集処理を実行するステップとを含む。【選択図】図6

Description

(関連出願の相互参照)
本願は、2018年7月23日に中国特許局に提出された、出願番号が2018108126754であり、発明の名称が「画像処理方法およびその、装置、端末並びに記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。
本発明の実施例は、コンピュータ技術分野、具体的に、画像処理方法およびその、装置、端末並びにコンピュータ読み取り可能な記憶媒体に関するものである。
インターネットの普及とマルチメディア技術の急速な発展に伴い、写真やショートビデオなどのマルチメディアデータがインターネット上で広く普及され、豊富で多様な画像処理方式が登場し始めている。ここで、画像における頭部領域を識別して、頭部領域に対して編集処理を実行する方式は、斬新でユニークであり、興味深い方式であり、多くのユーザに人気がある。
写真またはショートビデオにおける画像について、ユーザが画像における頭部に対して編集処理を実行する場合、頭部が配置されている位置で、スライド操作またはドラッグ操作により長方形フレームを決定して、頭部が長方形フレーム内に配置されるようにすることができる。端末は、ユーザによって決定された長方形フレームを頭部領域として使用し、頭部領域に対して編集処理を実行する。
ユーザが長方形フレームを手動で決定する上述した方式は、頭部領域に頭部が含まれるだけでなく、頭部の周囲の領域も含まれるため、決定された頭部領域が十分に正確ではなく、編集処理の効果が良くない。
本願の様々な実施例によれば、画像処理方法およびその、装置、端末並びにコンピュータ読み取り可能な記憶媒体を開示する。
端末が実行する画像処理方法を開示し、前記方法は、トレーニングされた画素分類モデルを取得するステップであって、前記画素分類モデルは、任意の1つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも、頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、ステップと、前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得するステップと、前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行するステップとを含む。
画像処理装置を開示し、前記装置は、トレーニングされた画素分類モデルを取得するように構成される第1取得モジュールであって、前記画素分類モデルは、任意の1つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも、頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、第1取得モジュールと、前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得するように構成される分類モジュールと、前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行するように構成される第1処理モジュールとを備える。
画像処理のための端末を開示し、前記端末は、プロセッサと、メモリとを備え、前記メモリは、少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセットまたは命令セットを記憶し、前記命令、前記プログラム、前記コードセットまたは前記命令セットは、プロセッサによってローディングされ、前記画像処理方法のステップが実行される。
コンピュータ読み取り可能な記憶媒体を開示し、前記コンピュータ読み取り可能な記憶媒体は、少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセットまたは命令セットを記憶し、前記命令、前記プログラム、前記コードセットまたは前記命令セットは、プロセッサによってローディングされ、前記画像処理方法のステップが実行される。
本願の1つまたは複数の実施例の詳細は、以下の図面および説明で提案される。本願の他の特徴および利点は、明細書、図面および特許請求の範囲から明らかになる。
本発明の実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本発明の実施例のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面にしたがって他の図面を得ることもできることは自明である。
本発明の実施例で開示された画像処理方法の応用環境図である。 本発明の実施例で開示された画像処理方法のフローチャートである。 本発明の実施例で開示された表情識別モデルのトレーニングのフローチャートである。 本発明の実施例で開示された画素分類モデルのトレーニングのフローチャートである。 本発明の実施例で開示された画素分類モデルの例示的な構造図である。 本発明の実施例で開示された頭部領域の処理効果の概略図である。 本発明の実施例で開示された画像処理方法のフローチャートである。 本発明の実施例で開示された画像処理装置の例示的な構造図である。 本発明の実施例で開示された端末の例示的な構造図である。
本願の目的、技術案および利点をより明確且つ明らかにするために、以下、図面および実施例を参照して、本願についてさらに詳細に説明する。ここで説明された具体的な実施例は、本願を説明するものに過ぎず、本願を限定しないことを理解されたい。
関連技術では、目標画像における頭部領域に対して編集処理を実行する時に、通常、先ず、ユーザが頭部領域を手動で決定するため、決定された頭部領域に頭部が含まれるだけでなく、頭部の周囲の領域も含まれ、頭部エッジに対する細かい取り抜きを実行することができない。本発明の実施例は、画素分類モデルに基づき、目標画像における画素を分類して、目標画像における頭部領域を決定することにより、画素レベルの頭部識別を実現することができ、頭部エッジに対する細かい取り抜きを実行し、細かく取り抜いた頭部領域に対して編集処理を実行することができ、適合率を向上させる、画像処理方法を開示する。
本発明の実施例は、画像の頭部領域に対して編集処理を実行する任意のシナリオに適用されることができる。例えば、端末が一枚の写真を撮影する時に、本発明の実施例で開示された方法を使用して、写真における頭部領域に対して編集処理を実行することができる。または、端末がビデオを撮影した時、またはビデオを撮影している時に、本発明の実施例で開示された方法を使用して、ビデオにおける各フレームの画像の頭部領域に対して編集処理を実行することができる。
または、端末は、特に画像の編集処理のために使用されるサードパーティアプリケーションをインストールし、サードパーティアプリケーションでギャラリー内の写真またはビデオを呼びたし、本発明の実施例で開示された方法を使用して、写真またはビデオにおける頭部領域に対して編集処理を実行する。編集処理完了後の写真またはビデオをギャラリーに記憶することができる。ここで、上述のギャラリーは、ローカルギャラリーであってもよく、サーバ側のギャラリーであってもよい。
図1aは、一実施例における画像処理方法の応用環境図である。図1aを参照すれば、当該画像処理方法は、画像処理システムに適用される。当該画像処理システムは、端末110およびサーバ120を含む。端末110は、ネットワークを介してサーバ120に接続する。端末110は、カメラを介して目標画像(またはビデオ)を収集し、またはサーバ120のギャラリーまたはローカルギャラリーから目標画像(またはビデオ)を収集し、その後、トレーニングされた画素分類モデルを取得し、当該画素分類モデルは、任意の1つの画像における各画素の分類識別子を決定するために使用され、分類識別子は、少なくとも、頭部分類識別子を含み、頭部分類識別子は、対応する画素が頭部領域に位置することを示し、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得し、分類識別子における頭部分類識別子に従って、目標画像の頭部領域を決定し、頭部領域に対して編集処理を実行する。
ここで、端末110は、具体的に、デスクトップ端末またはモバイル端末であってもよく、モバイル端末は、具体的に、携帯電話、タブレットコンピュータ、ラップトップコンピュータなどのうちの少なくとも1つであってもよい。サーバ120は、独立したサーバまたは複数のサーバで構成されたサーバクラスタとして実現されてもよい。
図1bは、本発明の実施例で開示された画像処理方法のフローチャートである。本発明の実施例の実行主体は端末であり、図1bを参照すれば、当該方法は、次のステップを含む。
ステップ101において、端末が、処理される目標画像を決定し、目標画像に対して顔検出を実行して、目標画像の顔領域を取得する。
ステップ102において、端末が、トレーニングされた表情識別モデルを取得し、表情識別モデルに基づき、顔領域を識別して、顔領域の表情カテゴリを取得する。
本発明の実施例は、目標画像の頭部領域に対して編集処理を実行するシナリオに適用され、端末は、処理される目標画像を決定し、目標画像の頭部領域を識別した後に編集処理を実行することができる。
さらに、端末は、目標画像における顔領域の表情に従って編集処理を実行することができ、端末によって決定された目標画像が顔領域を含むが、非顔領域も含む可能性もあるため、目標画像に対して顔検出を実行して、顔領域を取得し、表情識別モデルを取得し、顔領域を表情識別モデルに入力し、顔領域に対して識別を実行して、表情カテゴリを取得する。
ここで、顔検出を実行する時に、プリセットされた顔検出アルゴリズムを採用してもよく、または端末で開示した顔検出インターフェースを呼び出して、目標画像に対して顔検出を実行してもよい。表情識別モデルは、驚いた表情、嬉しい表情など、顔領域を少なくとも2つの表情カテゴリに分割するために使用され、当該少なくとも2つの表情カテゴリは、表情識別モデルをトレーニングする時に決定することができる。
トレーニング装置は、当該表情識別モデルをトレーニングするプロセス中に、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリを取得し、トレーニングされた表情識別モデルの識別適合率が第2所定閾値に達するまで、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリに従って、反復トレーニングを複数回実行して、表情識別モデルを取得することができる。
一つの可能な実施形態において、トレーニング装置は、初期の表情識別モデルを構築し、トレーニングデータセットおよびテストデータセットを取得することができ、トレーニングデータセットおよびテストデータセットは、両方とも、複数のサンプル顔画像および対応する表情カテゴリを含む。例えば、当該トレーニング装置は、パイソンプログラムを使用して、ネットワークにおける顔画像をキャプチャして、複数のサンプル顔画像を取得し、各サンプル顔画像における表情カテゴリをマークすることができる。
トレーニング段階では、トレーニングデータセットにおける複数のサンプル顔画像を表情識別モデルの入力として使用し、対応する表情カテゴリを表情識別モデルの出力として使用し、表情識別モデルに対して反復トレーニングを実行して、表情識別モデルが顔画像における表情特徴を学習して、表情識別機能を備えるようにする。その後、テストデータセットにおける各サンプル顔画像を表情識別モデルの入力として使用し、表情識別モデルに基づき、各サンプル顔画像に対応するテスト表情カテゴリをそれぞれ取得し、テスト表情カテゴリをマークした実際の表情カテゴリと比較し、それにより、表情識別モデルの識別適合率を決定する。表情識別モデルの識別適合率が第2所定閾値より小さい場合、トレーニングデータセットに従ってトレーニングを続行し、トレーニングされた表情識別モデルの識別適合率が第2所定閾値に達する時まで、トレーニングを完了する。
ここで、当該第2所定閾値は、表情識別適合率要件および計算量要件に従って決定することができ、95%または99%などの値であってもよい。当該トレーニング装置は端末自体であってもよく、または当該トレーニング装置は、サーバなどの端末以外の他の機器であってもよい。当該トレーニング装置は、オフライントレーニングを実行した後に、端末が使用するように、表情識別モデルを端末に送信する。当該トレーニング装置は、リニア分類器、サポートベクターマシン、深層ニューラルネットワークおよび決定ツリーなどのトレーニングアルゴリズムのうちの少なくとも1つを使用して、表情識別モデルをトレーニングすることができ、対応的に、トレーニング後の表情識別モデルは、リニア分類器モデル、サポートベクターマシンモデル、深層ニューラルネットワークモデルおよび決定ツリーモデルなどのモデルのうちの少なくとも1つを含み得る。
例示的に、表情識別モデルのトレーニングのフローチャートは図2に示したようであり得る。表情識別モデルが軽量レベルの深層ニューラルネットワークモデル(Mobilenet)であることを例とすると、当該ネットワークモデルの演算速度が速く、ネットワークモデルの体積が小さく、識別率がより正確で、ユーザの大量のニーズにすばやく応答することができ、バックグラウンドの負担が少ない。
入力した目標画像のサイズが224*224であると仮定すると、当該ネットワークモデルの各ネットワーク層のパラメータは表1に示す通りである。
Figure 2021524957
ここで、Convは、畳み込み層であり、DepthSepConvネットワーク層は、深度分離可能な畳み込み層であり、当該層において、3*3の深度畳み込み操作を先に実行し、次に1*1の点群畳み込み操作を実行し、poolingはプーリング層である。
各ネットワーク層の畳み込み操作のステップサイズパラメータはs1またはs2であり、ここで、s1の値は1であり、s2の値は2である。各ネットワーク層の特徴マップのサイズは、当該ネットワーク層によって出力されたデータサイズであり、最後の層によって出力された特徴マップのサイズは1*1*Nであり、Nは、即ち、表情カテゴリの数である。
上述のネットワークモデルから分かるように、224*224の目標画像を表情識別モデルに入力した後に、最終的にN次元データを出力し、ソフトマックス(softmax)を介してN次元データを計算して、N次元データのうち、適合率が最も高いデータを取得することができる。当該N次元データは、目標画像における顔の表情がN個の表情カテゴリに属する適合率を表し、ここで、適合率が最も高いデータは、目標画像における顔の表情が最も属する可能性の高い表情カテゴリである。
ステップ103において、顔領域の表情カテゴリが目標表情カテゴリである場合、端末は、トレーニングされた画素分類モデルを取得し、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得する。
端末は、1つまたは複数の目標表情カテゴリを設定し、目標画像が、目標表情カテゴリと一致する顔領域を有する場合のみ、目標画像の頭部領域に対して編集処理を実行することができる。したがって、端末が表情識別モデルに基づき、目標画像における顔領域の表情カテゴリを決定する場合、当該表情カテゴリが目標表情カテゴリであるかどうかを判断する。当該表情カテゴリが目標表情カテゴリではない場合、編集処理を再び実行しない。
当該表情カテゴリが目標表情カテゴリである場合、目標画像における頭部領域を識別するために、端末は、まず、画素分類モデルを取得し、目標画像を画素分類モデルに入力し、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得する。
ここで、画素分類モデルは、任意の1つの画像における画素の分類識別子を決定するために使用され、分類識別子は、頭部分類識別子および非頭部分類識別子を含み、頭部分類識別子は、対応する画素が頭部領域に位置することを示し、非頭部分類識別子は、対応する画素が非頭部領域に位置することを示し、それにより、各画素を頭部領域または非頭部領域に分割することができる。頭部分類識別子および非頭部分類識別子は、画素分類モデルをトレーニングする時に決定された異なる分類識別子である。例えば、頭部分類識別子は1であり、非頭部分類識別子は0である。
トレーニング装置は、当該画素分類モデルをトレーニングするプロセス中に、複数のサンプル画像および各サンプル画像における各画素の分類識別子を取得し、トレーニングされた画素分類モデルの分類適合率が第1所定閾値に達するまで、複数のサンプル画像および各サンプル画像における各画素の分類識別子に従って反復トレーニングを複数回実行して、画素分類モデルを取得することができる。
一つの可能な実施形態において、当該トレーニング装置は、初期の画素分類モデルを構築し、トレーニングデータセットおよびテストデータセットを取得することができ、トレーニングデータセットおよびテストデータセットは、両方とも、複数のサンプル画像および各サンプル画像における各画素の分類識別子を含む。例えば、当該トレーニング装置は、パイソンプログラムを使用して、ネットワークにおけるサンプル画像をキャプチャして、複数のサンプル画像を取得し、各サンプル画像における頭部領域に従って、各サンプル画像における各画素の分類識別子をマークすることができる。
トレーニング段階では、トレーニングデータセットにおける複数のサンプル画像を画素分類モデルの入力として使用し、サンプル画像における各画素の分類識別子を画素分類モデルの出力として使用し、画素分類モデルに対して反復トレーニングを実行して、画素分類モデルがサンプル画像における頭部領域特徴を学習して、頭部領域画素を分割する機能を備えるようにする。その後、テストデータセットにおける各サンプル画像を画素分類モデルの入力として使用し、画素分類モデルに基づき、各サンプル画像における各画素のテスト分類識別子を取得し、テスト分類識別子をマークした実際の分類識別子と比較し、それにより、画素分類モデルの分類適合率を決定する。画素分類モデルの分類適合率が第1所定閾値より小さい場合、トレーニングデータセットに従ってトレーニングを続行し、トレーニングされた画素分類モデルの分類適合率が第1所定閾値に達する時まで、トレーニングを完了する。
ここで、当該第1所定閾値は、サンプル画像における画素分類適合率要件および計算量要件に従って決定することができ、95%または99%などの値であってもよい。当該トレーニング装置は端末自体であってもよく、または当該トレーニング装置は、サーバなどの端末以外の他の機器であってもよい。当該トレーニング装置は、オフライントレーニングを実行した後に、端末が使用するように、画素分類モデルを端末に送信する。当該トレーニング装置は、リニア分類器、サポートベクターマシン、深層ニューラルネットワークおよび決定ツリーなどのトレーニングアルゴリズムのうちの少なくとも1つを使用して、画素分類モデルをトレーニングすることができ、対応的に、トレーニング後の画素分類モデルは、リニア分類器モデル、サポートベクターマシンモデル、深層ニューラルネットワークモデルおよび決定ツリーモデルなどのモデルのうちの少なくとも1つを含み得る。
例示的に、画素分類モデルのトレーニングのフローチャートは図3に示したようであり得る。画素分類モデルがセマンティックセグメンテーション(Semantic segmentation)ネットワークおよびMobilenet基本ネットワークモデルで構成されたネットワークモデルであることを例とし、図4を参照すると、目標画像をネットワークモデルに入力し、セマンティックセグメンテーションネットワークを介して大まかな予測を実行し、さらに、多重解像度畳み込みおよび逆畳み込み操作を通じて、目標画像のサイズを最終的に取得し、また、目標画像の各画素を分類する。分類して取得した分類識別子が1であると、当該画素は、頭部領域における画素であると見なされ、そうでない場合、当該画素は、非頭部領域の画素であると見なされる。
ステップ104において、端末が、分類識別子が頭部分類識別子である画素に従って、目標画像の頭部領域を決定する。
目標画像における各画素の分類識別子を決定した後に、分類識別子が頭部分類識別子である複数の画素で構成された領域を目標画像の頭部領域として決定することができる。
ステップ105において、端末が、事前に設定された表情カテゴリと処理方式との間の対応関係に従って、目標表情カテゴリに対応する目標処理方式を決定し、目標処理方式を使用して、目標画像における頭部領域に対して編集処理を実行する。
本発明の実施例では、端末が、表情カテゴリと処理方式との間の対応関係を事前に設定することができることは、特定の表情カテゴリに属する頭部領域において、対応する処理方式を使用して編集処理を実行することができることを示す。したがって、端末は、目標表情カテゴリに対応する目標処理方式を決定し、目標処理方式を使用して、目標画像における頭部領域に対して編集処理を実行する。
ここで、当該対応関係で設定された処理方式は、頭部領域に対して拡大処理または縮小処理を実行すること、頭部領域に素材を追加すること、頭部領域の揺れの動的効果を表示することまたは他の処理方式などのうちの少なくとも1つを含み得る。ここで、追加可能な素材は、発光効果、ステッカ、ペンダントなどを含み得る。
例えば、表情カテゴリと処理方式との間の対応関係は表2に示す通りである。
Figure 2021524957
図5を参照すると、目標画像における表情識別が嬉しいというカテゴリである場合、目標画像における頭部領域の左側に、嬉しい表情と一致するテキストステッカ「満面の笑み」および笑顔のステッカを追加する。
なお、別の実施例において、端末は、当該対応関係を設定しなくてもよい。目標画像が目標表情カテゴリと一致する顔領域を有する時に、プリセットされた処理方式に応じて、頭部領域に対して編集処理を実行するだけでよい。当該プリセットされた処理方式は、端末によってデフォルトに設定されてもよく、ユーザによって事前に設定されてもよく、または目標画像におけるユーザの編集操作に従って決定されてもよい。
例えば、端末には、ステッカ追加オプションおよび発光効果追加オプションが表示され、ユーザが発光効果追加オプションに対する選択操作を検出した場合、頭部領域に発光効果を追加する。
なお、本発明の実施例は、目標画像における顔領域に対して表情識別を先に実行することに過ぎず、表情カテゴリが目標表情カテゴリである場合のみ、頭部領域に対して編集処理を実行する。別の実施例において、端末は、目標画像における顔領域に対して表情識別を実行しなくてもよく、目標画像を取得した場合、ステップ103〜105を直接に実行して、頭部領域に対して編集処理を実行することができる。
なお、本発明の実施例は、目標画像を例として説明するものに過ぎず、当該目標画像は、1つの画像であってもよく、またはビデオにおける画像であってもよい。当該1つの画像または当該ビデオは、端末によって撮影されて取得されることができ、または他の機器によって端末に送信されることができる。
例えば、端末が目標ビデオを取得し、目標ビデオは、早い順に配列された複数の画像を含み、複数の画像における各画像をそれぞれ目標画像として使用し、ビデオにおける複数の画像の各画素を分類して、分類識別子を取得した後に、本発明の実施例で開示された方法を使用して、ビデオにおける各画像における頭部領域の全てに対して編集処理を実行することができる。
図6は、本発明の実施例で開示された画像処理方法のフローチャートであり、図6を参照すれば、端末がビデオを撮影する場合、ビデオにおける各画像に対して、まず、顔検出を実行し、表情識別モデルに基づき、検出された顔領域を識別し、識別された表情カテゴリが目標表情カテゴリである場合、画素分類モデルに基づき、目標画像に対して画素レベルの分類を実行して、目標画像における頭部領域を決定し、頭部領域に対して編集処理を実行する。
本発明の実施例で開示された方法は、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得し、目標画像における頭部領域を決定して、画素レベルの頭部識別を実現するために、分類識別子が頭部分類識別子である画素に従って、目標画像の頭部領域を決定し、画素分類モデルに基づき、目標画像における画素を分類することができ、頭部エッジに対する細かい取り抜きを実行し、頭部領域の適合率を向上させ、頭部領域の編集処理効果を改善することができる。
さらに、頭部識別を実行する前に、目標画像における顔領域に対して表情識別を先に実行し、顔領域の表情カテゴリが目標表情カテゴリである場合、また、目標画像に対して画素レベルの頭部識別を実行し、特定の表情の顔領域に対して編集処理を実行することができ、目標性を向上させる。
さらに、目標表情カテゴリに対応する目標処理方式を使用して、頭部領域に対して編集処理を実行し、処理方式が頭部領域の表情と一致することを保証し、さらに、処理効果を向上させる。
図1b〜図3、図6のフローチャートにおける各ステップは、矢印の指示に従って順次に表示されるが、これらのステップは、必ず、矢印によって指示された順序に従って順次に実行されるとは限らないことに留意されたい。本明細書で明確に説明されていない限り、これらのステップの実行に対して厳しく順次を限定せず、これらのステップは、他の順序で実行されてもよい。さらに、図1b〜図3、図6の少なくとも一部のステップは、複数のサブステップまたは複数の段階を含み得、これらのサブステップまたは段階は、必ず、同じ時刻で実行されて完了するとは限れず、異なる時刻で実行される場合もあり、これらのステップまたは段階の実行順序は、必ず、順次に実行されることに限らず、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と交代または詳細を引き続いて実行することができる。
図7は、本発明の実施例で開示された画像処理装置の例示的な構造図であり、図7を参照すると、当該装置は、上述の実施例における、トレーニングされた画素分類モデルを取得するステップを実行するように構成される第1取得モジュール701と、上述の実施例における、画素分類モデルに基づき、目標画像における各画素を分類するステップを実行するように構成される分類モジュール702と、上述の実施例における、目標画像の頭部領域を決定し、頭部領域に対して編集処理を実行するステップを実行するように構成される第1処理モジュール703とを備える。
例示的に、当該装置は、上述の実施例における、複数のサンプル画像および複数のサンプル画像における各画素の分類識別子を取得するステップを実行するように構成される第2取得モジュールと、上述の実施例における、複数のサンプル画像および複数のサンプル画像における各画素の分類識別子に従ってトレーニングするステップを実行するように構成される第1トレーニングモジュールとをさらに備える。
例示的に、当該装置は、上述の実施例における、目標画像に対して顔検出を実行して、目標画像の顔領域を取得するステップを実行するように構成される検出モジュールと、上述の実施例における、トレーニングされた表情識別モデルを取得するステップを実行するように構成される第3取得モジュールと、上述の実施例における、表情識別モデルに基づき、顔領域を識別して、顔領域の表情カテゴリを取得するステップを実行するように構成される表情識別モジュールとをさらに備える。
分類モジュール702は、さらに、顔領域の表情カテゴリが目標表情カテゴリである場合、上述の実施例における、画素分類モデルに基づき、目標画像における各画素を分類するステップを実行するように構成される。
例示的に、第1処理モジュール703は、上述の実施例における、目標表情カテゴリに対応する目標処理方式を決定するステップを実行するように構成される目標処理ユニットと、上述の実施例における、目標処理方式を使用して、頭部領域に対して編集処理を実行するステップを実行するように構成される編集処理ユニットとを備える。
例示的に、当該装置は、上述の実施例における、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリを取得するステップを実行するように構成される第4取得モジュールと、上述の実施例における、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリに従ってトレーニングするステップを実行するように構成される第2トレーニングモジュールとをさらに備える。
例示的に、当該装置は、上述の実施例における、目標ビデオを取得し、複数の画像における各画像をそれぞれ目標画像として使用するステップを実行するように構成されるビデオ処理モジュールをさらに備える。
例示的に、第1処理モジュール703は、上述の実施例における、頭部領域に対して拡大処理または縮小処理を実行するステップを実行するように構成される拡大および縮小処理ユニット、または、上述の実施例における、頭部領域に素材を追加するステップを実行するように構成される素材追加ユニット、または、上述の実施例における、頭部領域の揺れの動的効果を表示するステップを実行するように構成される動的処理ユニットを備える。
なお、上述の実施例で開示された画像処理装置が画像を処理する場合、上記の各機能モジュールの分割のみを例に挙げて説明したが、実際の応用では、必要に応じて上述の機能を異なる機能モジュールにより割り当てられて完了してもよく、即ち、端末の内部構造を異なる機能モジュールに分割して、上述の機能のすべてまたは一部を完了することができる。なお、上述の実施例で開示された画像処理装置は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては方法の実施例を参照する。
上述の画像処理装置は、端末によって実行されることができる、コンピュータプログラムの形で実現されてもよい。端末上のコンピュータ読み取り可能な記憶媒体は、図7に示された第1取得モジュール701、分類モジュール702および第1処理モジュール703などの、当該画像処理装置を構成する各プログラムモジュールを記憶することができる。各プログラムモジュールで構成されたコンピュータプログラムがプロセッサによって実行される時に、プロセッサが、本願の各実施例の画像処理方法におけるステップを実行するようにする。
図8は、本発明の一例示的な実施例で開示された端末800の例示的な構造図を示す。当該端末800は、携帯式移動端末、例えば、スマトフォン、タブレットコンピュータ、動画エキスパートグループオーディオレイヤー3(Moving Picture Experts Group Audio Layer III、MP3と略称)プレーヤー、動画エキスパートグループオーディオレイヤー4(Moving Picture Experts Group Audio Layer IV、MP4と略称)プレーヤー、ラップトップコンピュータ、デスクトップコンピュータ、ヘッドマウント機器、または他の任意のスマート端末などであってもよい。端末800は、ユーザ機器、携帯式端末、ラップトップ端末、デスクトップ端末などの他の名称で称されることもできる。
通常、端末800は、プロセッサ801およびメモリ802を備える。
プロセッサ801は、4コアプロセッサ、8コアプロセッサなどの1つまたは複数の処理コアを備えることができる。プロセッサ801は、デジタル信号プロセッサ(Digital Signal Processing、DSPと略称)、フィールドプログラマブルゲートアレイ(Field−Programmable Gate Array、FPGAと略称)、プログラマブルロジックアレイ(Programmable Logic Array、PLAと略称)のうちの少なくとも1つのハードウェアの形式を使用して実現することができる。プロセッサ801は、メインプロセッサおよびセカンダリプロセッサを備えることもでき、メインプロセッサは、アウェイク状態でデータを処理するために使用されるプロセッサであり、中央処理装置(Central Processing Unit、CPUと略称)とも称し、セカンダリプロセッサは、スタンバイ状態でデータを処理するために使用される低電力プロセッサである。いくつかの実施例において、プロセッサ801は、グラフィックスプロセッサ(Graphics Processing Unit、GPUと略称)と統合されてもよく、GPUは、ディスプレイ画面に表示される必要があるコンテンツをレンダリングおよび描画するために使用される。いくつかの実施例において、プロセッサ801は、人工知能(Artificial Intelligence、AIと略称)プロセッサをさらに備えることができ、当該AIプロセッサは、機械学習に関する計算操作を処理するために使用される。
メモリ802は、1つまたは複数のコンピュータ読み取り可能な記憶媒体を含み得、当該コンピュータ読み取り可能な記憶媒体は不揮発性メモリおよび/または揮発性メモリであってもよい。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)またはフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)または外部キャッシュメモリを含み得る。説明するものであるが限定するものではないが、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、強化型SDRAM(ESDRAM)、同期接続(Synchlink)DRAM(SLDRAM)、ラムバス(Rambus)直接RAM(RDRAM)、直接メモリバスダイナミックRAM(DRDRAM)、およびメモリバスダイナミックRAM(RDRAM)などの様々な形であってもよい。いくつかの実施例において、本願の方法実施例で開示されたカメラの画像処理方法を実現するために、メモリ802の非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも1つの命令を記憶するために使用され、当該少なくとも1つの命令は、プロセッサ801によって実行される。
いくつかの実施例において、端末800は、例示的に周辺機器インターフェース803および少なくとも1つの周辺機器を備えることもできる。プロセッサ801、メモリ802および周辺機器インターフェース803間は、バスまたは信号線を介して接続されることができる。各周辺機器は、バス、信号線または回路基板および周辺機器インターフェース803を介して接続されることができる。具体的に、周辺機器は、無線周波数回路804、タッチスクリーン(ディスプレイスクリーン)805、カメラコンポーネント806、オーディオ回路807、測位コンポーネント808および電源809のうちの少なくとも1つを含む。
周辺機器インターフェース803は、入力/出力(Input/Output、I/Oと略称)に関する少なくとも1つの周辺機器と、プロセッサ801およびメモリ802との接続を実行するように構成されることができる。いくつかの実施例において、プロセッサ801、メモリ802および周辺機器インターフェース803は、同じチップまたは回路基板に統合され、いくつかの他の実施例において、プロセッサ801、メモリ802および周辺機器インターフェース803における任意の1つまたは2つは、独立したチップまたは回路基板で実現し、本実施例は、これらに対して限定しない。
無線周波数回路804は、電磁信号とも称される無線周波数(Radio Frequency、RFと略称)信号を送信および受信するために使用される。無線周波数回路804は、電磁信号を介して通信ネットワークおよび他の通信機器と通信する。無線周波数回路804は、電気信号を送信用の電磁信号に変換し、または、受信した電磁信号を電気信号に変換する。例示的に、無線周波数回路804は、アンテナシステム、RFトランシーバ、1つまたは複数の増幅器、チューナ、発振器、デジタルシグナルプロセッサ、コーデックチップセット、ユーザIDモジュールカードなどを備える。無線周波数回路804は、少なくとも1つの無線通信プロトコルを介して他の端末と通信することができる。当該無線通信プロトコルは、メトロポリタンエリアネットワーク、各世代の移動通信ネットワーク(2G、3G、4Gおよび5G)、ワイヤレスメトロポリタンエリアネットワークおよび/またはWiFi(登録商標)ネットワークを含むが、これらに限定されない。いくつかの実施例において、無線周波数回路804は、近距離無線通信(Near Field Communication、NFCと略称)に関する回路をさらに備えるが、本願は、これらに対して限定しない。
ディスプレイスクリーン805は、ユーザインターフェース(User Interface、UIと略称)を表示するように構成される。当該UIは、グラフィック、テキスト、アイコン、ビデオ、およびそれらの任意の組み合わせを含むことができる。ディスプレイスクリーン805がタッチスクリーンである場合、ディスプレイスクリーン805は、ディスプレイスクリーン805の表面または表面の上側のタッチ信号を収集する機能を備える。当該タッチ信号は、処理のための制御信号としてプロセッサ801に入力されてもよい。このとき、ディスプレイスクリーン805は、ソフトボタンおよび/またはソフトキーボードとも称する、仮想ボタンおよび/または仮想キーボードを提供するように構成される。いくつかの実施例において、ディスプレイスクリーン805は端末800のフロントパネルに配置された1つのディスプレイスクリーン805であってもよく、別のいくつかの実施例において、ディスプレイスクリーン805は、端末800の異なる表面にそれぞれ配置された、または折り畳み可能な形状に設計された少なくとも2つのディスプレイスクリーン805であってもよく、さらにいくつかの実施例において、ディスプレイスクリーン805は、端末800の曲面または折り畳み面に配置されたフレキシブルディスプレイスクリーン(Flexible display screen)であってもよい。さらに、ディスプレイスクリーン805は、長方形以外の不規則な形、即ち、特徴な形状のスクリーンに設定されてもよい。ディスプレイスクリーン805は、液晶ディスプレイ(Liquid Crystal Display、LCDと略称)、有機発光ダイオード(Organic Light−Emitting Diode、OLEDと略称)などの素材で作られることができる。
カメラコンポーネント806は、画像またはビデオを収集するように構成される。例示的に、カメラコンポーネント806は、フロントカメラおよびリアカメラを備える。通常、フロントカメラは、端末のフロントパネルに配置され、リアカメラは、端末の背面に配置される。いくつかの実施例において、リアカメラは少なくとも2つであり、それぞれ、メインカメラ、被写界深度カメラ、広角カメラ、望遠カメラのうちの任意の1つであり、メインカメラと被写界深度カメラの融合で背景ぼかし機能を実現し、メインカメラおよび望遠カメラの融合でパノラマ撮影および仮想現実(Virtual Reality、VRと略称)撮影機能または他の融合撮影機能を実現する。いくつかの実施例において、カメラコンポーネント806は、フラッシュをさらに備える。フラッシュは、単色温度フラッシュであってもよく、二色温度フラッシュであってもよい。二色温度フラッシュは、ウォームフラッシュとコールドフラッシュの組み合わせを指し、異なる色温度での光線の補正に使用されることができる。
オーディオ回路807は、マイクロフォンおよびスピーカを含み得る。マイクロフォンは、ユーザと環境の音波を収集し、音声通信を実現するために、音波を電気信号に変換してプロセッサ801に入力して処理し、または無線周波数回路804に入力するように構成される。ステレオ収集またはノイズ低減を目的とし、マイクロフォンは複数であってもよく、それぞれ、端末800の異なる部位に配置されることができる。マイクロフォンは、マイクロフォンアレイまたは全方位型マイクロフォンであってもよい。スピーカは、プロセッサ801または無線周波数回路804からの電気信号を音波に変換するように構成される。スピーカは、従来のフィルムスピーカであってもよく、圧電セラミックスピーカであってもよい。スピーカが圧電セラミックスピーカである場合、電気信号を人間の可聴音波に変換してもよく、距離測定などの目的で電気信号を人間の不可聴音波に変換してもよい。いくつかの実施例において、オーディオ回路807は、ヘッドフォンジャックをさらに含み得る。
測位コンポーネント808は、ナビゲーションまたは位置ベースのサービス(Location Based Service、LBSと略称)を実現するために、端末800の現在の地理的位置を位置決めするように構成される。測位コンポーネント808は、アメリカの全地球測位システム(Global Positioning System、GPSと略称)であってもよく、中国の北斗衛星測位システム、ロシアのグロナスシステムまたは欧州連合のガリレオシステムに基づく測位コンポーネントであってもよい。
電源809は、端末800における各コンポーネントに電力を供給するように構成される。電源809は、交流、直流、使い捨て電池、または充電式電池であり得る。電源809が充電式電池を備える場合、当該充電式電池は、有線充電または無線充電をサポートすることができる。当該充電式電池は、高速充電技術をサポートするように構成されることができる。
いくつかの実施例において、端末800は、1つまたは複数のセンサ810をさらに備える。当該1つまたは複数のセンサ810は、加速度センサ811、ジャイロセンサ812、圧力センサ813、指紋センサ814、光学センサ815および近接センサ816を含むが、これらに限定されない。
加速度センサ811は、端末800によって確立された座標系の3つの座標軸上の加速度の大きさを検出することができる。例えば、加速度センサ811は、3つの座標軸上の重力加速度の成分を検出するために使用されることができる。プロセッサ801は、加速度センサ811で収集された重力加速度信号に従って、ランドスケープビューまたはポートレートビューをユーザインターフェースで表示するために、タッチスクリーン805を制御することができる。加速度センサ811は、ゲームまたはユーザの運動データの収集に使用されることもできる。
ジャイロセンサ812は、端末800の本体方向および回転角度を検出することができ、ジャイロセンサ812は、加速度センサ811と協働して、端末800に対するユーザの3D動作を収集することができる。プロセッサ801は、ジャイロセンサ812で収集されたデータに従って、モーションセンシング(ユーザの傾斜操作に応じてUIを変換させるなど)、撮影中の画像の手振れ補正、ゲーム制御および慣性航法などの機能を実現することができる。
圧力センサ813は、端末800のサイドフレームおよび/またはタッチスクリーン805の下層に配置されることができる。圧力センサ813が端末800のサイドフレームに配置される場合、端末800に対するユーザのホールディング信号を検出し、プロセッサ801によって、圧力センサ813によって収集されたホールディング信号に従って、右手と左手の識別またはクイック操作を実行することができる。圧力センサ813がタッチスクリーン805の下層に配置される場合、プロセッサ801によって、ユーザがタッチスクリーン805に対する圧力操作に従って、UIインターフェース上の可操作性制御部に対する制御を実現する。可操作性制御部は、ボタン制御部、スクロールバー制御部、アイコン制御部、メニュー制御部のうちの1つを備える。
指紋センサ814は、ユーザの指紋を収集するように構成され、プロセッサ801によって、指紋センサ814で収集された指紋に従ってユーザの身元を識別し、または、指紋センサ814によって、収集した指紋に従ってユーザの身元を識別する。ユーザの身元が信頼できる身元であると識別した場合、プロセッサ801は、画面のロックの解除、暗号化された情報の閲覧、ソフトウェアのダウンロード、支払い、設定の変更など、関連する敏感な操作をユーザに認可する。指紋センサ814は、端末800の正面、背面または側面に配置されることができる。端末800に、物理的ボタンまたは製造業者のロゴ(Logo)に配置される場合、指紋センサ814は、物理的ボタンまたはメーカーのロゴと統合されてもよい。
光学センサ815は、環境光の強度を収集するように構成される。一実施例において、プロセッサ801は、光学センサ815によって収集された環境光の強度に従って、タッチスクリーン805のディスプレイ輝度を制御することができる。具体的に、環境光の強度が高い場合、タッチスクリーン805のディスプレイ輝度を上げ、環境光の強度が低い場合、タッチスクリーン805のディスプレイ輝度を下げる。別の実施例において、プロセッサ801は、光学センサ815によって収集された環境光の強度に従って、カメラコンポーネント806の撮影パラメータを動的に調整することもできる。
近接センサ816は、距離センサとも称され、通常、端末800のフロントパネルに配置される。近接センサ816は、ユーザと端末800の正面との間の距離を収集するように構成される。一実施例において、近接センサ816がユーザと端末800の正面との間の距離がますます小さくなることを検出した場合、プロセッサ801が、タッチスクリーン805がオンスクリーン状態からオフスクリーン状態に切り替えるように制御し、近接センサ816がユーザと端末800の正面との間の距離がますます大きくなることを検出した場合、プロセッサ801が、タッチスクリーン805がオフスクリーン状態からオンスクリーン状態に切り替えるように制御する。
当業者は、図8で示された構造は、端末800に対して限定するものではなく、図に示されたものより多くまたはより少ないコンポーネントを備え、またはいくつかのコンポーネントを組み合わせ、または異なるコンポーネント配置を使用することができることを理解できるだろう。
本発明の実施例は、画像処理のための端末をさらに開示し、当該端末は、プロセッサおよびメモリを備え、メモリは、少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセットまたは命令セットを記憶し、命令、プログラム、コードセットまたは命令セットは、プロセッサによってローディングされ、上述の実施例を実現する画像処理方法が有する操作の全てを有する。
本発明の実施例は、コンピュータ読み取り可能な記憶媒体をさらに開示し、当該コンピュータ読み取り可能な記憶媒体は、少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセットまたは命令セットを記憶し、当該命令、当該プログラム、当該コードセットまたは当該命令セットは、プロセッサによってローディングされ、上述の実施例を実現する画像処理方法が有する操作の全てを有する。
上述の実施例の全てまたは一部のステップは、ハードウェアを介して完了してもよく、プログラムによって、関連するハードウェアに命令することにより完了してもよいことを当業者なら自明である。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、上記で言及された記憶媒体は、読み取り専用メモリ、磁気ディスク、または光ディスクであり得る。
以上、実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上述の実施例における各技術的特徴の全ての可能な組み合わせについて説明していない。しかしながら、これらの技術的特徴の組み合わせに矛盾がない限り、それらの全ては、本明細書の範囲と見なされるべきである。
以上、実施例は本願のいくつかの実施形態のみを説明しており、それらの説明はより具体的且つ詳細であるが、本発明の特許の範囲を限定するものとして解釈されるべきではない。当業者にとって、本願の構想から逸脱することなく、いくつかの変形又は改善を加えることもでき、これらの変形又は改善は、両方とも、本願の保護範囲に属することに留意されたい。したがって、本願の特許の保護範囲は、特許請求を基準とするべきである。

Claims (10)

  1. 端末が実行する画像処理方法であって、
    トレーニングされた画素分類モデルを取得するステップであって、前記画素分類モデルは、任意の1つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、ステップと、
    前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得するステップと、
    前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行するステップと、
    を含むことを特徴とする、画像処理方法。
  2. 前記トレーニングされた画素分類モデルを取得する前に、
    複数のサンプル画像および前記複数のサンプル画像における各画素の分類識別子を取得するステップと、
    トレーニングされた画素分類モデルの分類適合率が第1所定閾値に達するまで、前記複数のサンプル画像および前記複数のサンプル画像における各画素の分類識別子に従ってトレーニングするステップと、
    をさらに含むことを特徴とする、請求項1に記載の画像処理方法。
  3. 前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得する前に、
    前記目標画像に対して顔検出を実行して、前記目標画像の顔領域を取得するステップと、
    トレーニングされた表情識別モデルを取得するステップと、
    前記表情識別モデルに基づき、前記顔領域を識別して、前記顔領域の表情カテゴリを取得するステップと、
    前記顔領域の表情カテゴリが目標表情カテゴリである場合、前記画素分類モデルに基づき、前記目標画像における各画素を分類する前記ステップを実行するステップと、
    をさらに含むことを特徴とする、請求項1または2に記載の画像処理方法。
  4. 前記頭部領域に対して編集処理を実行する前記ステップは、
    事前に設定された表情カテゴリと処理方式との対応関係に従って、前記目標表情カテゴリに対応する目標処理方式を決定するステップと、
    前記目標処理方式を使用して、前記頭部領域に対して編集処理を実行するステップと、
    を含むことを特徴とする、請求項3に記載の画像処理方法。
  5. 前記トレーニングされた表情識別モデルを取得する前に、
    複数のサンプル顔画像および各サンプル顔画像の表情カテゴリを取得するステップと、
    トレーニングされた表情識別モデルの識別適合率が第2所定閾値に達するまで、前記複数のサンプル顔画像および各サンプル顔画像の表情カテゴリに従ってトレーニングするステップと、
    をさらに含むことを特徴とする、請求項3または4に記載の画像処理方法。
  6. 前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得する前に、
    目標ビデオを取得するステップであって、前記目標ビデオは、早い順に配列された複数の画像を含む、ステップと、
    前記複数の画像のうちの各画像を前記目標画像として使用し、前記画素分類モデルに基づき、前記目標画像における各画素を分類する前記ステップを実行するステップと、
    を含むことを特徴とする、請求項1ないし5のいずれか一項に記載の画像処理方法。
  7. 前記頭部領域に対して編集処理を実行する前記ステップは、
    前記頭部領域に対して拡大処理を実行するステップ、または、
    前記頭部領域に対して縮小処理を実行するステップ、または、
    前記頭部領域に素材を追加するステップ、または、
    前記頭部領域の揺れの動的効果を表示するステップ、
    を含むことを特徴とする、請求項1ないし6のいずれか一項に記載の画像処理方法。
  8. 画像処理装置であって、
    トレーニングされた画素分類モデルを取得する第1取得モジュールであって、前記画素分類モデルは、任意の1つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、第1取得モジュールと、
    前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得する分類モジュールと、
    前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行する第1処理モジュールと、
    を備えることを特徴とする、画像処理装置。
  9. 画像処理のための端末であって、
    前記端末は、プロセッサと、メモリとを備え、前記メモリは、少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセットまたは命令セットを記憶し、前記命令、前記プログラム、前記コードセットまたは前記命令セットは、前記プロセッサにより実行される際に、請求項1ないし7のいずれか一項に記載の画像処理方法を実行させる
    ことを特徴とする、端末。
  10. コンピュータプログラムであって、
    コンピュータに、請求項1ないし7のいずれか1項に記載の画像処理方法を実行させる、コンピュータプログラム。
JP2020561766A 2018-07-23 2019-06-03 画像処理方法およびその、装置、端末並びにコンピュータプログラム Active JP7058760B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810812675.4A CN110147805B (zh) 2018-07-23 2018-07-23 图像处理方法、装置、终端及存储介质
CN201810812675.4 2018-07-23
PCT/CN2019/089825 WO2020019873A1 (zh) 2018-07-23 2019-06-03 图像处理方法、装置、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021524957A true JP2021524957A (ja) 2021-09-16
JP7058760B2 JP7058760B2 (ja) 2022-04-22

Family

ID=67589260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561766A Active JP7058760B2 (ja) 2018-07-23 2019-06-03 画像処理方法およびその、装置、端末並びにコンピュータプログラム

Country Status (6)

Country Link
US (2) US11631275B2 (ja)
EP (1) EP3828769B1 (ja)
JP (1) JP7058760B2 (ja)
KR (1) KR102635373B1 (ja)
CN (1) CN110147805B (ja)
WO (1) WO2020019873A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807361B (zh) * 2019-09-19 2023-08-08 腾讯科技(深圳)有限公司 人体识别方法、装置、计算机设备及存储介质
CN110850996A (zh) * 2019-09-29 2020-02-28 上海萌家网络科技有限公司 一种应用于输入法的图片/视频的处理方法和装置
KR20210062477A (ko) 2019-11-21 2021-05-31 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110991298B (zh) * 2019-11-26 2023-07-14 腾讯科技(深圳)有限公司 图像的处理方法和装置、存储介质及电子装置
WO2021102947A1 (zh) * 2019-11-29 2021-06-03 深圳市大疆创新科技有限公司 图像信号处理装置、方法、相机以及可移动平台
CN111435437A (zh) * 2019-12-26 2020-07-21 珠海大横琴科技发展有限公司 一种pcb行人重识别模型训练方法及pcb行人重识别方法
CN113315924A (zh) * 2020-02-27 2021-08-27 北京字节跳动网络技术有限公司 图像特效处理方法及装置
CN111353470B (zh) * 2020-03-13 2023-08-01 北京字节跳动网络技术有限公司 图像的处理方法、装置、可读介质和电子设备
CN111402271A (zh) * 2020-03-18 2020-07-10 维沃移动通信有限公司 一种图像处理方法及电子设备
CN111598133B (zh) * 2020-04-22 2022-10-14 腾讯医疗健康(深圳)有限公司 基于人工智能的图像显示方法、装置、系统、设备及介质
CN113763228B (zh) * 2020-06-01 2024-03-19 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN111652878B (zh) * 2020-06-16 2022-09-23 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备及存储介质
CN113569894B (zh) * 2021-02-09 2023-11-21 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法、装置及设备
CN116386106B (zh) * 2023-03-16 2024-08-20 宁波星巡智能科技有限公司 伴睡婴幼儿时婴幼儿头部智能识别方法、装置及设备
CN117115895A (zh) * 2023-10-25 2023-11-24 成都大学 一种课堂微表情识别方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199417A (ja) * 2008-02-22 2009-09-03 Denso Corp 顔追跡装置及び顔追跡方法
JP2010086178A (ja) * 2008-09-30 2010-04-15 Fujifilm Corp 画像合成装置およびその制御方法
JP2010218551A (ja) * 2009-03-12 2010-09-30 Seiko Epson Corp 顔認識方法、コンピューター読み取り可能な媒体および画像処理装置
JP2013242571A (ja) * 2010-11-11 2013-12-05 Digitaloptics Corp Europe Ltd 焦点ずれ状態下での被写体検出及び認識
CN105404845A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片处理方法及装置
JP2018055470A (ja) * 2016-09-29 2018-04-05 国立大学法人神戸大学 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム
CN107909065A (zh) * 2017-12-29 2018-04-13 百度在线网络技术(北京)有限公司 用于检测人脸遮挡的方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002048A1 (ja) * 2010-06-30 2012-01-05 Necソフト株式会社 頭部検出方法、頭部検出装置、属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
CN102436636B (zh) * 2010-09-29 2013-09-25 中国科学院计算技术研究所 自动分割头发的方法及其系统
CN104063683B (zh) * 2014-06-06 2017-05-17 北京搜狗科技发展有限公司 一种基于人脸识别的表情输入方法和装置
CN104063865B (zh) * 2014-06-27 2017-08-01 小米科技有限责任公司 分类模型创建方法、图像分割方法及相关装置
CN106709404B (zh) * 2015-11-16 2022-01-04 佳能株式会社 图像处理装置及图像处理方法
CN106096551B (zh) * 2016-06-14 2019-05-21 湖南拓视觉信息技术有限公司 人脸部位识别的方法和装置
CN106295566B (zh) * 2016-08-10 2019-07-09 北京小米移动软件有限公司 人脸表情识别方法及装置
CN107341434A (zh) * 2016-08-19 2017-11-10 北京市商汤科技开发有限公司 视频图像的处理方法、装置和终端设备
KR101835531B1 (ko) * 2016-12-23 2018-03-08 주식회사 심보다 얼굴 인식 기반의 증강현실 영상을 제공하는 디스플레이 장치 및 이의 제어 방법
CN108280388A (zh) * 2017-01-06 2018-07-13 富士通株式会社 训练面部检测模型的方法和装置以及面部检测方法和装置
US10922566B2 (en) * 2017-05-09 2021-02-16 Affectiva, Inc. Cognitive state evaluation for vehicle navigation
CN107680069B (zh) * 2017-08-30 2020-09-11 歌尔股份有限公司 一种图像处理方法、装置和终端设备
CN107844781A (zh) * 2017-11-28 2018-03-27 腾讯科技(深圳)有限公司 人脸属性识别方法及装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199417A (ja) * 2008-02-22 2009-09-03 Denso Corp 顔追跡装置及び顔追跡方法
JP2010086178A (ja) * 2008-09-30 2010-04-15 Fujifilm Corp 画像合成装置およびその制御方法
JP2010218551A (ja) * 2009-03-12 2010-09-30 Seiko Epson Corp 顔認識方法、コンピューター読み取り可能な媒体および画像処理装置
JP2013242571A (ja) * 2010-11-11 2013-12-05 Digitaloptics Corp Europe Ltd 焦点ずれ状態下での被写体検出及び認識
CN105404845A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片处理方法及装置
JP2018055470A (ja) * 2016-09-29 2018-04-05 国立大学法人神戸大学 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム
CN107909065A (zh) * 2017-12-29 2018-04-13 百度在线网络技术(北京)有限公司 用于检测人脸遮挡的方法及装置

Also Published As

Publication number Publication date
WO2020019873A1 (zh) 2020-01-30
EP3828769B1 (en) 2023-08-16
JP7058760B2 (ja) 2022-04-22
EP3828769A4 (en) 2021-08-25
US20230222770A1 (en) 2023-07-13
KR20200128565A (ko) 2020-11-13
CN110147805A (zh) 2019-08-20
US20200394388A1 (en) 2020-12-17
CN110147805B (zh) 2023-04-07
US11631275B2 (en) 2023-04-18
EP3828769A1 (en) 2021-06-02
KR102635373B1 (ko) 2024-02-07

Similar Documents

Publication Publication Date Title
JP7058760B2 (ja) 画像処理方法およびその、装置、端末並びにコンピュータプログラム
WO2021008456A1 (zh) 图像处理方法、装置、电子设备及存储介质
CN109308727B (zh) 虚拟形象模型生成方法、装置及存储介质
WO2020048308A1 (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
WO2020221012A1 (zh) 图像特征点的运动信息确定方法、任务执行方法和设备
CN110059685B (zh) 文字区域检测方法、装置及存储介质
CN112907725B (zh) 图像生成、图像处理模型的训练、图像处理方法和装置
CN111753784B (zh) 视频的特效处理方法、装置、终端及存储介质
CN111382624A (zh) 动作识别方法、装置、设备及可读存储介质
CN109360222B (zh) 图像分割方法、装置及存储介质
WO2022048398A1 (zh) 多媒体数据拍摄方法及终端
WO2022042425A1 (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN108776822B (zh) 目标区域检测方法、装置、终端及存储介质
US11386586B2 (en) Method and electronic device for adding virtual item
JP7210089B2 (ja) リソースの表示方法、装置、機器及びコンピュータプログラム
CN112581358B (zh) 图像处理模型的训练方法、图像处理方法及装置
WO2022134634A1 (zh) 视频处理方法及电子设备
CN111539795A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN110853124B (zh) 生成gif动态图的方法、装置、电子设备及介质
CN110991445B (zh) 竖排文字识别方法、装置、设备及介质
CN108305262A (zh) 文件扫描方法、装置及设备
CN112257594B (zh) 多媒体数据的显示方法、装置、计算机设备及存储介质
CN111611414A (zh) 车辆检索方法、装置及存储介质
CN113592874B (zh) 图像显示方法、装置和计算机设备
CN111639639B (zh) 检测文本区域的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220412

R150 Certificate of patent or registration of utility model

Ref document number: 7058760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150