JP2021524957A

JP2021524957A - 画像処理方法およびその、装置、端末並びにコンピュータプログラム

Info

Publication number: JP2021524957A
Application number: JP2020561766A
Authority: JP
Inventors: ション，ウエイ; ホアン，フェイ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2018-07-23
Filing date: 2019-06-03
Publication date: 2021-09-16
Anticipated expiration: 2039-06-03
Also published as: WO2020019873A1; EP3828769B1; JP7058760B2; EP3828769A4; US20230222770A1; KR20200128565A; CN110147805A; US20200394388A1; CN110147805B; US11631275B2; EP3828769A1; KR102635373B1

Abstract

本発明の実施例は、コンピュータ技術分野に属し、画像処理方法およびその、装置、端末並びにコンピュータ読み取り可能な記憶媒体を開示する。当該方法は、トレーニングされた画素分類モデルを取得するステップであって、画素分類モデルは、任意の１つの画像における各画素の分類識別子を決定するために使用され、分類識別子は、頭部分類識別子を含み、頭部分類識別子は、対応する画素が頭部領域に位置することを示す、ステップと、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得するステップと、分類識別子が頭部分類識別子である画素に従って、目標画像の頭部領域を決定し、頭部領域に対して編集処理を実行するステップとを含む。【選択図】図６

Description

（関連出願の相互参照）
本願は、２０１８年７月２３日に中国特許局に提出された、出願番号が２０１８１０８１２６７５４であり、発明の名称が「画像処理方法およびその、装置、端末並びに記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。

本発明の実施例は、コンピュータ技術分野、具体的に、画像処理方法およびその、装置、端末並びにコンピュータ読み取り可能な記憶媒体に関するものである。

インターネットの普及とマルチメディア技術の急速な発展に伴い、写真やショートビデオなどのマルチメディアデータがインターネット上で広く普及され、豊富で多様な画像処理方式が登場し始めている。ここで、画像における頭部領域を識別して、頭部領域に対して編集処理を実行する方式は、斬新でユニークであり、興味深い方式であり、多くのユーザに人気がある。

写真またはショートビデオにおける画像について、ユーザが画像における頭部に対して編集処理を実行する場合、頭部が配置されている位置で、スライド操作またはドラッグ操作により長方形フレームを決定して、頭部が長方形フレーム内に配置されるようにすることができる。端末は、ユーザによって決定された長方形フレームを頭部領域として使用し、頭部領域に対して編集処理を実行する。

ユーザが長方形フレームを手動で決定する上述した方式は、頭部領域に頭部が含まれるだけでなく、頭部の周囲の領域も含まれるため、決定された頭部領域が十分に正確ではなく、編集処理の効果が良くない。

本願の様々な実施例によれば、画像処理方法およびその、装置、端末並びにコンピュータ読み取り可能な記憶媒体を開示する。

端末が実行する画像処理方法を開示し、前記方法は、トレーニングされた画素分類モデルを取得するステップであって、前記画素分類モデルは、任意の１つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも、頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、ステップと、前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得するステップと、前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行するステップとを含む。

画像処理装置を開示し、前記装置は、トレーニングされた画素分類モデルを取得するように構成される第１取得モジュールであって、前記画素分類モデルは、任意の１つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも、頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、第１取得モジュールと、前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得するように構成される分類モジュールと、前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行するように構成される第１処理モジュールとを備える。

画像処理のための端末を開示し、前記端末は、プロセッサと、メモリとを備え、前記メモリは、少なくとも１つの命令、少なくとも１セグメントのプログラム、コードセットまたは命令セットを記憶し、前記命令、前記プログラム、前記コードセットまたは前記命令セットは、プロセッサによってローディングされ、前記画像処理方法のステップが実行される。

コンピュータ読み取り可能な記憶媒体を開示し、前記コンピュータ読み取り可能な記憶媒体は、少なくとも１つの命令、少なくとも１セグメントのプログラム、コードセットまたは命令セットを記憶し、前記命令、前記プログラム、前記コードセットまたは前記命令セットは、プロセッサによってローディングされ、前記画像処理方法のステップが実行される。

本願の１つまたは複数の実施例の詳細は、以下の図面および説明で提案される。本願の他の特徴および利点は、明細書、図面および特許請求の範囲から明らかになる。

本発明の実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本発明の実施例のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面にしたがって他の図面を得ることもできることは自明である。
本発明の実施例で開示された画像処理方法の応用環境図である。本発明の実施例で開示された画像処理方法のフローチャートである。本発明の実施例で開示された表情識別モデルのトレーニングのフローチャートである。本発明の実施例で開示された画素分類モデルのトレーニングのフローチャートである。本発明の実施例で開示された画素分類モデルの例示的な構造図である。本発明の実施例で開示された頭部領域の処理効果の概略図である。本発明の実施例で開示された画像処理方法のフローチャートである。本発明の実施例で開示された画像処理装置の例示的な構造図である。本発明の実施例で開示された端末の例示的な構造図である。

本願の目的、技術案および利点をより明確且つ明らかにするために、以下、図面および実施例を参照して、本願についてさらに詳細に説明する。ここで説明された具体的な実施例は、本願を説明するものに過ぎず、本願を限定しないことを理解されたい。

関連技術では、目標画像における頭部領域に対して編集処理を実行する時に、通常、先ず、ユーザが頭部領域を手動で決定するため、決定された頭部領域に頭部が含まれるだけでなく、頭部の周囲の領域も含まれ、頭部エッジに対する細かい取り抜きを実行することができない。本発明の実施例は、画素分類モデルに基づき、目標画像における画素を分類して、目標画像における頭部領域を決定することにより、画素レベルの頭部識別を実現することができ、頭部エッジに対する細かい取り抜きを実行し、細かく取り抜いた頭部領域に対して編集処理を実行することができ、適合率を向上させる、画像処理方法を開示する。

本発明の実施例は、画像の頭部領域に対して編集処理を実行する任意のシナリオに適用されることができる。例えば、端末が一枚の写真を撮影する時に、本発明の実施例で開示された方法を使用して、写真における頭部領域に対して編集処理を実行することができる。または、端末がビデオを撮影した時、またはビデオを撮影している時に、本発明の実施例で開示された方法を使用して、ビデオにおける各フレームの画像の頭部領域に対して編集処理を実行することができる。

または、端末は、特に画像の編集処理のために使用されるサードパーティアプリケーションをインストールし、サードパーティアプリケーションでギャラリー内の写真またはビデオを呼びたし、本発明の実施例で開示された方法を使用して、写真またはビデオにおける頭部領域に対して編集処理を実行する。編集処理完了後の写真またはビデオをギャラリーに記憶することができる。ここで、上述のギャラリーは、ローカルギャラリーであってもよく、サーバ側のギャラリーであってもよい。

図１ａは、一実施例における画像処理方法の応用環境図である。図１ａを参照すれば、当該画像処理方法は、画像処理システムに適用される。当該画像処理システムは、端末１１０およびサーバ１２０を含む。端末１１０は、ネットワークを介してサーバ１２０に接続する。端末１１０は、カメラを介して目標画像（またはビデオ）を収集し、またはサーバ１２０のギャラリーまたはローカルギャラリーから目標画像（またはビデオ）を収集し、その後、トレーニングされた画素分類モデルを取得し、当該画素分類モデルは、任意の１つの画像における各画素の分類識別子を決定するために使用され、分類識別子は、少なくとも、頭部分類識別子を含み、頭部分類識別子は、対応する画素が頭部領域に位置することを示し、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得し、分類識別子における頭部分類識別子に従って、目標画像の頭部領域を決定し、頭部領域に対して編集処理を実行する。

ここで、端末１１０は、具体的に、デスクトップ端末またはモバイル端末であってもよく、モバイル端末は、具体的に、携帯電話、タブレットコンピュータ、ラップトップコンピュータなどのうちの少なくとも１つであってもよい。サーバ１２０は、独立したサーバまたは複数のサーバで構成されたサーバクラスタとして実現されてもよい。

図１ｂは、本発明の実施例で開示された画像処理方法のフローチャートである。本発明の実施例の実行主体は端末であり、図１ｂを参照すれば、当該方法は、次のステップを含む。

ステップ１０１において、端末が、処理される目標画像を決定し、目標画像に対して顔検出を実行して、目標画像の顔領域を取得する。

ステップ１０２において、端末が、トレーニングされた表情識別モデルを取得し、表情識別モデルに基づき、顔領域を識別して、顔領域の表情カテゴリを取得する。

本発明の実施例は、目標画像の頭部領域に対して編集処理を実行するシナリオに適用され、端末は、処理される目標画像を決定し、目標画像の頭部領域を識別した後に編集処理を実行することができる。

さらに、端末は、目標画像における顔領域の表情に従って編集処理を実行することができ、端末によって決定された目標画像が顔領域を含むが、非顔領域も含む可能性もあるため、目標画像に対して顔検出を実行して、顔領域を取得し、表情識別モデルを取得し、顔領域を表情識別モデルに入力し、顔領域に対して識別を実行して、表情カテゴリを取得する。

ここで、顔検出を実行する時に、プリセットされた顔検出アルゴリズムを採用してもよく、または端末で開示した顔検出インターフェースを呼び出して、目標画像に対して顔検出を実行してもよい。表情識別モデルは、驚いた表情、嬉しい表情など、顔領域を少なくとも２つの表情カテゴリに分割するために使用され、当該少なくとも２つの表情カテゴリは、表情識別モデルをトレーニングする時に決定することができる。

トレーニング装置は、当該表情識別モデルをトレーニングするプロセス中に、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリを取得し、トレーニングされた表情識別モデルの識別適合率が第２所定閾値に達するまで、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリに従って、反復トレーニングを複数回実行して、表情識別モデルを取得することができる。

一つの可能な実施形態において、トレーニング装置は、初期の表情識別モデルを構築し、トレーニングデータセットおよびテストデータセットを取得することができ、トレーニングデータセットおよびテストデータセットは、両方とも、複数のサンプル顔画像および対応する表情カテゴリを含む。例えば、当該トレーニング装置は、パイソンプログラムを使用して、ネットワークにおける顔画像をキャプチャして、複数のサンプル顔画像を取得し、各サンプル顔画像における表情カテゴリをマークすることができる。

トレーニング段階では、トレーニングデータセットにおける複数のサンプル顔画像を表情識別モデルの入力として使用し、対応する表情カテゴリを表情識別モデルの出力として使用し、表情識別モデルに対して反復トレーニングを実行して、表情識別モデルが顔画像における表情特徴を学習して、表情識別機能を備えるようにする。その後、テストデータセットにおける各サンプル顔画像を表情識別モデルの入力として使用し、表情識別モデルに基づき、各サンプル顔画像に対応するテスト表情カテゴリをそれぞれ取得し、テスト表情カテゴリをマークした実際の表情カテゴリと比較し、それにより、表情識別モデルの識別適合率を決定する。表情識別モデルの識別適合率が第２所定閾値より小さい場合、トレーニングデータセットに従ってトレーニングを続行し、トレーニングされた表情識別モデルの識別適合率が第２所定閾値に達する時まで、トレーニングを完了する。

ここで、当該第２所定閾値は、表情識別適合率要件および計算量要件に従って決定することができ、９５％または９９％などの値であってもよい。当該トレーニング装置は端末自体であってもよく、または当該トレーニング装置は、サーバなどの端末以外の他の機器であってもよい。当該トレーニング装置は、オフライントレーニングを実行した後に、端末が使用するように、表情識別モデルを端末に送信する。当該トレーニング装置は、リニア分類器、サポートベクターマシン、深層ニューラルネットワークおよび決定ツリーなどのトレーニングアルゴリズムのうちの少なくとも１つを使用して、表情識別モデルをトレーニングすることができ、対応的に、トレーニング後の表情識別モデルは、リニア分類器モデル、サポートベクターマシンモデル、深層ニューラルネットワークモデルおよび決定ツリーモデルなどのモデルのうちの少なくとも１つを含み得る。

例示的に、表情識別モデルのトレーニングのフローチャートは図２に示したようであり得る。表情識別モデルが軽量レベルの深層ニューラルネットワークモデル（Ｍｏｂｉｌｅｎｅｔ）であることを例とすると、当該ネットワークモデルの演算速度が速く、ネットワークモデルの体積が小さく、識別率がより正確で、ユーザの大量のニーズにすばやく応答することができ、バックグラウンドの負担が少ない。

入力した目標画像のサイズが２２４＊２２４であると仮定すると、当該ネットワークモデルの各ネットワーク層のパラメータは表１に示す通りである。

ここで、Ｃｏｎｖは、畳み込み層であり、ＤｅｐｔｈＳｅｐＣｏｎｖネットワーク層は、深度分離可能な畳み込み層であり、当該層において、３＊３の深度畳み込み操作を先に実行し、次に１＊１の点群畳み込み操作を実行し、ｐｏｏｌｉｎｇはプーリング層である。

各ネットワーク層の畳み込み操作のステップサイズパラメータはｓ１またはｓ２であり、ここで、ｓ１の値は１であり、ｓ２の値は２である。各ネットワーク層の特徴マップのサイズは、当該ネットワーク層によって出力されたデータサイズであり、最後の層によって出力された特徴マップのサイズは１＊１＊Ｎであり、Ｎは、即ち、表情カテゴリの数である。

上述のネットワークモデルから分かるように、２２４＊２２４の目標画像を表情識別モデルに入力した後に、最終的にＮ次元データを出力し、ソフトマックス（ｓｏｆｔｍａｘ）を介してＮ次元データを計算して、Ｎ次元データのうち、適合率が最も高いデータを取得することができる。当該Ｎ次元データは、目標画像における顔の表情がＮ個の表情カテゴリに属する適合率を表し、ここで、適合率が最も高いデータは、目標画像における顔の表情が最も属する可能性の高い表情カテゴリである。

ステップ１０３において、顔領域の表情カテゴリが目標表情カテゴリである場合、端末は、トレーニングされた画素分類モデルを取得し、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得する。

端末は、１つまたは複数の目標表情カテゴリを設定し、目標画像が、目標表情カテゴリと一致する顔領域を有する場合のみ、目標画像の頭部領域に対して編集処理を実行することができる。したがって、端末が表情識別モデルに基づき、目標画像における顔領域の表情カテゴリを決定する場合、当該表情カテゴリが目標表情カテゴリであるかどうかを判断する。当該表情カテゴリが目標表情カテゴリではない場合、編集処理を再び実行しない。

当該表情カテゴリが目標表情カテゴリである場合、目標画像における頭部領域を識別するために、端末は、まず、画素分類モデルを取得し、目標画像を画素分類モデルに入力し、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得する。

ここで、画素分類モデルは、任意の１つの画像における画素の分類識別子を決定するために使用され、分類識別子は、頭部分類識別子および非頭部分類識別子を含み、頭部分類識別子は、対応する画素が頭部領域に位置することを示し、非頭部分類識別子は、対応する画素が非頭部領域に位置することを示し、それにより、各画素を頭部領域または非頭部領域に分割することができる。頭部分類識別子および非頭部分類識別子は、画素分類モデルをトレーニングする時に決定された異なる分類識別子である。例えば、頭部分類識別子は１であり、非頭部分類識別子は０である。

トレーニング装置は、当該画素分類モデルをトレーニングするプロセス中に、複数のサンプル画像および各サンプル画像における各画素の分類識別子を取得し、トレーニングされた画素分類モデルの分類適合率が第１所定閾値に達するまで、複数のサンプル画像および各サンプル画像における各画素の分類識別子に従って反復トレーニングを複数回実行して、画素分類モデルを取得することができる。

一つの可能な実施形態において、当該トレーニング装置は、初期の画素分類モデルを構築し、トレーニングデータセットおよびテストデータセットを取得することができ、トレーニングデータセットおよびテストデータセットは、両方とも、複数のサンプル画像および各サンプル画像における各画素の分類識別子を含む。例えば、当該トレーニング装置は、パイソンプログラムを使用して、ネットワークにおけるサンプル画像をキャプチャして、複数のサンプル画像を取得し、各サンプル画像における頭部領域に従って、各サンプル画像における各画素の分類識別子をマークすることができる。

トレーニング段階では、トレーニングデータセットにおける複数のサンプル画像を画素分類モデルの入力として使用し、サンプル画像における各画素の分類識別子を画素分類モデルの出力として使用し、画素分類モデルに対して反復トレーニングを実行して、画素分類モデルがサンプル画像における頭部領域特徴を学習して、頭部領域画素を分割する機能を備えるようにする。その後、テストデータセットにおける各サンプル画像を画素分類モデルの入力として使用し、画素分類モデルに基づき、各サンプル画像における各画素のテスト分類識別子を取得し、テスト分類識別子をマークした実際の分類識別子と比較し、それにより、画素分類モデルの分類適合率を決定する。画素分類モデルの分類適合率が第１所定閾値より小さい場合、トレーニングデータセットに従ってトレーニングを続行し、トレーニングされた画素分類モデルの分類適合率が第１所定閾値に達する時まで、トレーニングを完了する。

ここで、当該第１所定閾値は、サンプル画像における画素分類適合率要件および計算量要件に従って決定することができ、９５％または９９％などの値であってもよい。当該トレーニング装置は端末自体であってもよく、または当該トレーニング装置は、サーバなどの端末以外の他の機器であってもよい。当該トレーニング装置は、オフライントレーニングを実行した後に、端末が使用するように、画素分類モデルを端末に送信する。当該トレーニング装置は、リニア分類器、サポートベクターマシン、深層ニューラルネットワークおよび決定ツリーなどのトレーニングアルゴリズムのうちの少なくとも１つを使用して、画素分類モデルをトレーニングすることができ、対応的に、トレーニング後の画素分類モデルは、リニア分類器モデル、サポートベクターマシンモデル、深層ニューラルネットワークモデルおよび決定ツリーモデルなどのモデルのうちの少なくとも１つを含み得る。

例示的に、画素分類モデルのトレーニングのフローチャートは図３に示したようであり得る。画素分類モデルがセマンティックセグメンテーション（Ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）ネットワークおよびＭｏｂｉｌｅｎｅｔ基本ネットワークモデルで構成されたネットワークモデルであることを例とし、図４を参照すると、目標画像をネットワークモデルに入力し、セマンティックセグメンテーションネットワークを介して大まかな予測を実行し、さらに、多重解像度畳み込みおよび逆畳み込み操作を通じて、目標画像のサイズを最終的に取得し、また、目標画像の各画素を分類する。分類して取得した分類識別子が１であると、当該画素は、頭部領域における画素であると見なされ、そうでない場合、当該画素は、非頭部領域の画素であると見なされる。

ステップ１０４において、端末が、分類識別子が頭部分類識別子である画素に従って、目標画像の頭部領域を決定する。

目標画像における各画素の分類識別子を決定した後に、分類識別子が頭部分類識別子である複数の画素で構成された領域を目標画像の頭部領域として決定することができる。

ステップ１０５において、端末が、事前に設定された表情カテゴリと処理方式との間の対応関係に従って、目標表情カテゴリに対応する目標処理方式を決定し、目標処理方式を使用して、目標画像における頭部領域に対して編集処理を実行する。

本発明の実施例では、端末が、表情カテゴリと処理方式との間の対応関係を事前に設定することができることは、特定の表情カテゴリに属する頭部領域において、対応する処理方式を使用して編集処理を実行することができることを示す。したがって、端末は、目標表情カテゴリに対応する目標処理方式を決定し、目標処理方式を使用して、目標画像における頭部領域に対して編集処理を実行する。

ここで、当該対応関係で設定された処理方式は、頭部領域に対して拡大処理または縮小処理を実行すること、頭部領域に素材を追加すること、頭部領域の揺れの動的効果を表示することまたは他の処理方式などのうちの少なくとも１つを含み得る。ここで、追加可能な素材は、発光効果、ステッカ、ペンダントなどを含み得る。

例えば、表情カテゴリと処理方式との間の対応関係は表２に示す通りである。

図５を参照すると、目標画像における表情識別が嬉しいというカテゴリである場合、目標画像における頭部領域の左側に、嬉しい表情と一致するテキストステッカ「満面の笑み」および笑顔のステッカを追加する。

なお、別の実施例において、端末は、当該対応関係を設定しなくてもよい。目標画像が目標表情カテゴリと一致する顔領域を有する時に、プリセットされた処理方式に応じて、頭部領域に対して編集処理を実行するだけでよい。当該プリセットされた処理方式は、端末によってデフォルトに設定されてもよく、ユーザによって事前に設定されてもよく、または目標画像におけるユーザの編集操作に従って決定されてもよい。

例えば、端末には、ステッカ追加オプションおよび発光効果追加オプションが表示され、ユーザが発光効果追加オプションに対する選択操作を検出した場合、頭部領域に発光効果を追加する。

なお、本発明の実施例は、目標画像における顔領域に対して表情識別を先に実行することに過ぎず、表情カテゴリが目標表情カテゴリである場合のみ、頭部領域に対して編集処理を実行する。別の実施例において、端末は、目標画像における顔領域に対して表情識別を実行しなくてもよく、目標画像を取得した場合、ステップ１０３〜１０５を直接に実行して、頭部領域に対して編集処理を実行することができる。

なお、本発明の実施例は、目標画像を例として説明するものに過ぎず、当該目標画像は、１つの画像であってもよく、またはビデオにおける画像であってもよい。当該１つの画像または当該ビデオは、端末によって撮影されて取得されることができ、または他の機器によって端末に送信されることができる。

例えば、端末が目標ビデオを取得し、目標ビデオは、早い順に配列された複数の画像を含み、複数の画像における各画像をそれぞれ目標画像として使用し、ビデオにおける複数の画像の各画素を分類して、分類識別子を取得した後に、本発明の実施例で開示された方法を使用して、ビデオにおける各画像における頭部領域の全てに対して編集処理を実行することができる。

図６は、本発明の実施例で開示された画像処理方法のフローチャートであり、図６を参照すれば、端末がビデオを撮影する場合、ビデオにおける各画像に対して、まず、顔検出を実行し、表情識別モデルに基づき、検出された顔領域を識別し、識別された表情カテゴリが目標表情カテゴリである場合、画素分類モデルに基づき、目標画像に対して画素レベルの分類を実行して、目標画像における頭部領域を決定し、頭部領域に対して編集処理を実行する。

本発明の実施例で開示された方法は、画素分類モデルに基づき、目標画像における各画素を分類して、目標画像における各画素の分類識別子を取得し、目標画像における頭部領域を決定して、画素レベルの頭部識別を実現するために、分類識別子が頭部分類識別子である画素に従って、目標画像の頭部領域を決定し、画素分類モデルに基づき、目標画像における画素を分類することができ、頭部エッジに対する細かい取り抜きを実行し、頭部領域の適合率を向上させ、頭部領域の編集処理効果を改善することができる。

さらに、頭部識別を実行する前に、目標画像における顔領域に対して表情識別を先に実行し、顔領域の表情カテゴリが目標表情カテゴリである場合、また、目標画像に対して画素レベルの頭部識別を実行し、特定の表情の顔領域に対して編集処理を実行することができ、目標性を向上させる。

さらに、目標表情カテゴリに対応する目標処理方式を使用して、頭部領域に対して編集処理を実行し、処理方式が頭部領域の表情と一致することを保証し、さらに、処理効果を向上させる。

図１ｂ〜図３、図６のフローチャートにおける各ステップは、矢印の指示に従って順次に表示されるが、これらのステップは、必ず、矢印によって指示された順序に従って順次に実行されるとは限らないことに留意されたい。本明細書で明確に説明されていない限り、これらのステップの実行に対して厳しく順次を限定せず、これらのステップは、他の順序で実行されてもよい。さらに、図１ｂ〜図３、図６の少なくとも一部のステップは、複数のサブステップまたは複数の段階を含み得、これらのサブステップまたは段階は、必ず、同じ時刻で実行されて完了するとは限れず、異なる時刻で実行される場合もあり、これらのステップまたは段階の実行順序は、必ず、順次に実行されることに限らず、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と交代または詳細を引き続いて実行することができる。

図７は、本発明の実施例で開示された画像処理装置の例示的な構造図であり、図７を参照すると、当該装置は、上述の実施例における、トレーニングされた画素分類モデルを取得するステップを実行するように構成される第１取得モジュール７０１と、上述の実施例における、画素分類モデルに基づき、目標画像における各画素を分類するステップを実行するように構成される分類モジュール７０２と、上述の実施例における、目標画像の頭部領域を決定し、頭部領域に対して編集処理を実行するステップを実行するように構成される第１処理モジュール７０３とを備える。

例示的に、当該装置は、上述の実施例における、複数のサンプル画像および複数のサンプル画像における各画素の分類識別子を取得するステップを実行するように構成される第２取得モジュールと、上述の実施例における、複数のサンプル画像および複数のサンプル画像における各画素の分類識別子に従ってトレーニングするステップを実行するように構成される第１トレーニングモジュールとをさらに備える。

例示的に、当該装置は、上述の実施例における、目標画像に対して顔検出を実行して、目標画像の顔領域を取得するステップを実行するように構成される検出モジュールと、上述の実施例における、トレーニングされた表情識別モデルを取得するステップを実行するように構成される第３取得モジュールと、上述の実施例における、表情識別モデルに基づき、顔領域を識別して、顔領域の表情カテゴリを取得するステップを実行するように構成される表情識別モジュールとをさらに備える。

分類モジュール７０２は、さらに、顔領域の表情カテゴリが目標表情カテゴリである場合、上述の実施例における、画素分類モデルに基づき、目標画像における各画素を分類するステップを実行するように構成される。

例示的に、第１処理モジュール７０３は、上述の実施例における、目標表情カテゴリに対応する目標処理方式を決定するステップを実行するように構成される目標処理ユニットと、上述の実施例における、目標処理方式を使用して、頭部領域に対して編集処理を実行するステップを実行するように構成される編集処理ユニットとを備える。

例示的に、当該装置は、上述の実施例における、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリを取得するステップを実行するように構成される第４取得モジュールと、上述の実施例における、複数のサンプル顔画像および各サンプル顔画像の表情カテゴリに従ってトレーニングするステップを実行するように構成される第２トレーニングモジュールとをさらに備える。

例示的に、当該装置は、上述の実施例における、目標ビデオを取得し、複数の画像における各画像をそれぞれ目標画像として使用するステップを実行するように構成されるビデオ処理モジュールをさらに備える。

例示的に、第１処理モジュール７０３は、上述の実施例における、頭部領域に対して拡大処理または縮小処理を実行するステップを実行するように構成される拡大および縮小処理ユニット、または、上述の実施例における、頭部領域に素材を追加するステップを実行するように構成される素材追加ユニット、または、上述の実施例における、頭部領域の揺れの動的効果を表示するステップを実行するように構成される動的処理ユニットを備える。

なお、上述の実施例で開示された画像処理装置が画像を処理する場合、上記の各機能モジュールの分割のみを例に挙げて説明したが、実際の応用では、必要に応じて上述の機能を異なる機能モジュールにより割り当てられて完了してもよく、即ち、端末の内部構造を異なる機能モジュールに分割して、上述の機能のすべてまたは一部を完了することができる。なお、上述の実施例で開示された画像処理装置は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては方法の実施例を参照する。

上述の画像処理装置は、端末によって実行されることができる、コンピュータプログラムの形で実現されてもよい。端末上のコンピュータ読み取り可能な記憶媒体は、図７に示された第１取得モジュール７０１、分類モジュール７０２および第１処理モジュール７０３などの、当該画像処理装置を構成する各プログラムモジュールを記憶することができる。各プログラムモジュールで構成されたコンピュータプログラムがプロセッサによって実行される時に、プロセッサが、本願の各実施例の画像処理方法におけるステップを実行するようにする。

図８は、本発明の一例示的な実施例で開示された端末８００の例示的な構造図を示す。当該端末８００は、携帯式移動端末、例えば、スマトフォン、タブレットコンピュータ、動画エキスパートグループオーディオレイヤー３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、ＭＰ３と略称）プレーヤー、動画エキスパートグループオーディオレイヤー４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、ＭＰ４と略称）プレーヤー、ラップトップコンピュータ、デスクトップコンピュータ、ヘッドマウント機器、または他の任意のスマート端末などであってもよい。端末８００は、ユーザ機器、携帯式端末、ラップトップ端末、デスクトップ端末などの他の名称で称されることもできる。

通常、端末８００は、プロセッサ８０１およびメモリ８０２を備える。

プロセッサ８０１は、４コアプロセッサ、８コアプロセッサなどの１つまたは複数の処理コアを備えることができる。プロセッサ８０１は、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ＤＳＰと略称）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡと略称）、プログラマブルロジックアレイ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、ＰＬＡと略称）のうちの少なくとも１つのハードウェアの形式を使用して実現することができる。プロセッサ８０１は、メインプロセッサおよびセカンダリプロセッサを備えることもでき、メインプロセッサは、アウェイク状態でデータを処理するために使用されるプロセッサであり、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵと略称）とも称し、セカンダリプロセッサは、スタンバイ状態でデータを処理するために使用される低電力プロセッサである。いくつかの実施例において、プロセッサ８０１は、グラフィックスプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵと略称）と統合されてもよく、ＧＰＵは、ディスプレイ画面に表示される必要があるコンテンツをレンダリングおよび描画するために使用される。いくつかの実施例において、プロセッサ８０１は、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩと略称）プロセッサをさらに備えることができ、当該ＡＩプロセッサは、機械学習に関する計算操作を処理するために使用される。

メモリ８０２は、１つまたは複数のコンピュータ読み取り可能な記憶媒体を含み得、当該コンピュータ読み取り可能な記憶媒体は不揮発性メモリおよび／または揮発性メモリであってもよい。不揮発性メモリは、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）またはフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）または外部キャッシュメモリを含み得る。説明するものであるが限定するものではないが、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、強化型ＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期接続（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、ラムバス（Ｒａｍｂｕｓ）直接ＲＡＭ（ＲＤＲＡＭ）、直接メモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、およびメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などの様々な形であってもよい。いくつかの実施例において、本願の方法実施例で開示されたカメラの画像処理方法を実現するために、メモリ８０２の非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも１つの命令を記憶するために使用され、当該少なくとも１つの命令は、プロセッサ８０１によって実行される。

いくつかの実施例において、端末８００は、例示的に周辺機器インターフェース８０３および少なくとも１つの周辺機器を備えることもできる。プロセッサ８０１、メモリ８０２および周辺機器インターフェース８０３間は、バスまたは信号線を介して接続されることができる。各周辺機器は、バス、信号線または回路基板および周辺機器インターフェース８０３を介して接続されることができる。具体的に、周辺機器は、無線周波数回路８０４、タッチスクリーン（ディスプレイスクリーン）８０５、カメラコンポーネント８０６、オーディオ回路８０７、測位コンポーネント８０８および電源８０９のうちの少なくとも１つを含む。

周辺機器インターフェース８０３は、入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏと略称）に関する少なくとも１つの周辺機器と、プロセッサ８０１およびメモリ８０２との接続を実行するように構成されることができる。いくつかの実施例において、プロセッサ８０１、メモリ８０２および周辺機器インターフェース８０３は、同じチップまたは回路基板に統合され、いくつかの他の実施例において、プロセッサ８０１、メモリ８０２および周辺機器インターフェース８０３における任意の１つまたは２つは、独立したチップまたは回路基板で実現し、本実施例は、これらに対して限定しない。

無線周波数回路８０４は、電磁信号とも称される無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦと略称）信号を送信および受信するために使用される。無線周波数回路８０４は、電磁信号を介して通信ネットワークおよび他の通信機器と通信する。無線周波数回路８０４は、電気信号を送信用の電磁信号に変換し、または、受信した電磁信号を電気信号に変換する。例示的に、無線周波数回路８０４は、アンテナシステム、ＲＦトランシーバ、１つまたは複数の増幅器、チューナ、発振器、デジタルシグナルプロセッサ、コーデックチップセット、ユーザＩＤモジュールカードなどを備える。無線周波数回路８０４は、少なくとも１つの無線通信プロトコルを介して他の端末と通信することができる。当該無線通信プロトコルは、メトロポリタンエリアネットワーク、各世代の移動通信ネットワーク（２Ｇ、３Ｇ、４Ｇおよび５Ｇ）、ワイヤレスメトロポリタンエリアネットワークおよび／またはＷｉＦｉ（登録商標）ネットワークを含むが、これらに限定されない。いくつかの実施例において、無線周波数回路８０４は、近距離無線通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ、ＮＦＣと略称）に関する回路をさらに備えるが、本願は、これらに対して限定しない。

ディスプレイスクリーン８０５は、ユーザインターフェース（ＵｓｅｒＩｎｔｅｒｆａｃｅ、ＵＩと略称）を表示するように構成される。当該ＵＩは、グラフィック、テキスト、アイコン、ビデオ、およびそれらの任意の組み合わせを含むことができる。ディスプレイスクリーン８０５がタッチスクリーンである場合、ディスプレイスクリーン８０５は、ディスプレイスクリーン８０５の表面または表面の上側のタッチ信号を収集する機能を備える。当該タッチ信号は、処理のための制御信号としてプロセッサ８０１に入力されてもよい。このとき、ディスプレイスクリーン８０５は、ソフトボタンおよび／またはソフトキーボードとも称する、仮想ボタンおよび／または仮想キーボードを提供するように構成される。いくつかの実施例において、ディスプレイスクリーン８０５は端末８００のフロントパネルに配置された１つのディスプレイスクリーン８０５であってもよく、別のいくつかの実施例において、ディスプレイスクリーン８０５は、端末８００の異なる表面にそれぞれ配置された、または折り畳み可能な形状に設計された少なくとも２つのディスプレイスクリーン８０５であってもよく、さらにいくつかの実施例において、ディスプレイスクリーン８０５は、端末８００の曲面または折り畳み面に配置されたフレキシブルディスプレイスクリーン（Ｆｌｅｘｉｂｌｅｄｉｓｐｌａｙｓｃｒｅｅｎ）であってもよい。さらに、ディスプレイスクリーン８０５は、長方形以外の不規則な形、即ち、特徴な形状のスクリーンに設定されてもよい。ディスプレイスクリーン８０５は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤと略称）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ−ＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＯＬＥＤと略称）などの素材で作られることができる。

カメラコンポーネント８０６は、画像またはビデオを収集するように構成される。例示的に、カメラコンポーネント８０６は、フロントカメラおよびリアカメラを備える。通常、フロントカメラは、端末のフロントパネルに配置され、リアカメラは、端末の背面に配置される。いくつかの実施例において、リアカメラは少なくとも２つであり、それぞれ、メインカメラ、被写界深度カメラ、広角カメラ、望遠カメラのうちの任意の１つであり、メインカメラと被写界深度カメラの融合で背景ぼかし機能を実現し、メインカメラおよび望遠カメラの融合でパノラマ撮影および仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲと略称）撮影機能または他の融合撮影機能を実現する。いくつかの実施例において、カメラコンポーネント８０６は、フラッシュをさらに備える。フラッシュは、単色温度フラッシュであってもよく、二色温度フラッシュであってもよい。二色温度フラッシュは、ウォームフラッシュとコールドフラッシュの組み合わせを指し、異なる色温度での光線の補正に使用されることができる。

オーディオ回路８０７は、マイクロフォンおよびスピーカを含み得る。マイクロフォンは、ユーザと環境の音波を収集し、音声通信を実現するために、音波を電気信号に変換してプロセッサ８０１に入力して処理し、または無線周波数回路８０４に入力するように構成される。ステレオ収集またはノイズ低減を目的とし、マイクロフォンは複数であってもよく、それぞれ、端末８００の異なる部位に配置されることができる。マイクロフォンは、マイクロフォンアレイまたは全方位型マイクロフォンであってもよい。スピーカは、プロセッサ８０１または無線周波数回路８０４からの電気信号を音波に変換するように構成される。スピーカは、従来のフィルムスピーカであってもよく、圧電セラミックスピーカであってもよい。スピーカが圧電セラミックスピーカである場合、電気信号を人間の可聴音波に変換してもよく、距離測定などの目的で電気信号を人間の不可聴音波に変換してもよい。いくつかの実施例において、オーディオ回路８０７は、ヘッドフォンジャックをさらに含み得る。

測位コンポーネント８０８は、ナビゲーションまたは位置ベースのサービス（ＬｏｃａｔｉｏｎＢａｓｅｄＳｅｒｖｉｃｅ、ＬＢＳと略称）を実現するために、端末８００の現在の地理的位置を位置決めするように構成される。測位コンポーネント８０８は、アメリカの全地球測位システム（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ、ＧＰＳと略称）であってもよく、中国の北斗衛星測位システム、ロシアのグロナスシステムまたは欧州連合のガリレオシステムに基づく測位コンポーネントであってもよい。

電源８０９は、端末８００における各コンポーネントに電力を供給するように構成される。電源８０９は、交流、直流、使い捨て電池、または充電式電池であり得る。電源８０９が充電式電池を備える場合、当該充電式電池は、有線充電または無線充電をサポートすることができる。当該充電式電池は、高速充電技術をサポートするように構成されることができる。

いくつかの実施例において、端末８００は、１つまたは複数のセンサ８１０をさらに備える。当該１つまたは複数のセンサ８１０は、加速度センサ８１１、ジャイロセンサ８１２、圧力センサ８１３、指紋センサ８１４、光学センサ８１５および近接センサ８１６を含むが、これらに限定されない。

加速度センサ８１１は、端末８００によって確立された座標系の３つの座標軸上の加速度の大きさを検出することができる。例えば、加速度センサ８１１は、３つの座標軸上の重力加速度の成分を検出するために使用されることができる。プロセッサ８０１は、加速度センサ８１１で収集された重力加速度信号に従って、ランドスケープビューまたはポートレートビューをユーザインターフェースで表示するために、タッチスクリーン８０５を制御することができる。加速度センサ８１１は、ゲームまたはユーザの運動データの収集に使用されることもできる。

ジャイロセンサ８１２は、端末８００の本体方向および回転角度を検出することができ、ジャイロセンサ８１２は、加速度センサ８１１と協働して、端末８００に対するユーザの３Ｄ動作を収集することができる。プロセッサ８０１は、ジャイロセンサ８１２で収集されたデータに従って、モーションセンシング（ユーザの傾斜操作に応じてＵＩを変換させるなど）、撮影中の画像の手振れ補正、ゲーム制御および慣性航法などの機能を実現することができる。

圧力センサ８１３は、端末８００のサイドフレームおよび／またはタッチスクリーン８０５の下層に配置されることができる。圧力センサ８１３が端末８００のサイドフレームに配置される場合、端末８００に対するユーザのホールディング信号を検出し、プロセッサ８０１によって、圧力センサ８１３によって収集されたホールディング信号に従って、右手と左手の識別またはクイック操作を実行することができる。圧力センサ８１３がタッチスクリーン８０５の下層に配置される場合、プロセッサ８０１によって、ユーザがタッチスクリーン８０５に対する圧力操作に従って、ＵＩインターフェース上の可操作性制御部に対する制御を実現する。可操作性制御部は、ボタン制御部、スクロールバー制御部、アイコン制御部、メニュー制御部のうちの１つを備える。

指紋センサ８１４は、ユーザの指紋を収集するように構成され、プロセッサ８０１によって、指紋センサ８１４で収集された指紋に従ってユーザの身元を識別し、または、指紋センサ８１４によって、収集した指紋に従ってユーザの身元を識別する。ユーザの身元が信頼できる身元であると識別した場合、プロセッサ８０１は、画面のロックの解除、暗号化された情報の閲覧、ソフトウェアのダウンロード、支払い、設定の変更など、関連する敏感な操作をユーザに認可する。指紋センサ８１４は、端末８００の正面、背面または側面に配置されることができる。端末８００に、物理的ボタンまたは製造業者のロゴ（Ｌｏｇｏ）に配置される場合、指紋センサ８１４は、物理的ボタンまたはメーカーのロゴと統合されてもよい。

光学センサ８１５は、環境光の強度を収集するように構成される。一実施例において、プロセッサ８０１は、光学センサ８１５によって収集された環境光の強度に従って、タッチスクリーン８０５のディスプレイ輝度を制御することができる。具体的に、環境光の強度が高い場合、タッチスクリーン８０５のディスプレイ輝度を上げ、環境光の強度が低い場合、タッチスクリーン８０５のディスプレイ輝度を下げる。別の実施例において、プロセッサ８０１は、光学センサ８１５によって収集された環境光の強度に従って、カメラコンポーネント８０６の撮影パラメータを動的に調整することもできる。

近接センサ８１６は、距離センサとも称され、通常、端末８００のフロントパネルに配置される。近接センサ８１６は、ユーザと端末８００の正面との間の距離を収集するように構成される。一実施例において、近接センサ８１６がユーザと端末８００の正面との間の距離がますます小さくなることを検出した場合、プロセッサ８０１が、タッチスクリーン８０５がオンスクリーン状態からオフスクリーン状態に切り替えるように制御し、近接センサ８１６がユーザと端末８００の正面との間の距離がますます大きくなることを検出した場合、プロセッサ８０１が、タッチスクリーン８０５がオフスクリーン状態からオンスクリーン状態に切り替えるように制御する。

当業者は、図８で示された構造は、端末８００に対して限定するものではなく、図に示されたものより多くまたはより少ないコンポーネントを備え、またはいくつかのコンポーネントを組み合わせ、または異なるコンポーネント配置を使用することができることを理解できるだろう。

本発明の実施例は、画像処理のための端末をさらに開示し、当該端末は、プロセッサおよびメモリを備え、メモリは、少なくとも１つの命令、少なくとも１セグメントのプログラム、コードセットまたは命令セットを記憶し、命令、プログラム、コードセットまたは命令セットは、プロセッサによってローディングされ、上述の実施例を実現する画像処理方法が有する操作の全てを有する。

本発明の実施例は、コンピュータ読み取り可能な記憶媒体をさらに開示し、当該コンピュータ読み取り可能な記憶媒体は、少なくとも１つの命令、少なくとも１セグメントのプログラム、コードセットまたは命令セットを記憶し、当該命令、当該プログラム、当該コードセットまたは当該命令セットは、プロセッサによってローディングされ、上述の実施例を実現する画像処理方法が有する操作の全てを有する。

上述の実施例の全てまたは一部のステップは、ハードウェアを介して完了してもよく、プログラムによって、関連するハードウェアに命令することにより完了してもよいことを当業者なら自明である。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、上記で言及された記憶媒体は、読み取り専用メモリ、磁気ディスク、または光ディスクであり得る。

以上、実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上述の実施例における各技術的特徴の全ての可能な組み合わせについて説明していない。しかしながら、これらの技術的特徴の組み合わせに矛盾がない限り、それらの全ては、本明細書の範囲と見なされるべきである。

以上、実施例は本願のいくつかの実施形態のみを説明しており、それらの説明はより具体的且つ詳細であるが、本発明の特許の範囲を限定するものとして解釈されるべきではない。当業者にとって、本願の構想から逸脱することなく、いくつかの変形又は改善を加えることもでき、これらの変形又は改善は、両方とも、本願の保護範囲に属することに留意されたい。したがって、本願の特許の保護範囲は、特許請求を基準とするべきである。

Claims

端末が実行する画像処理方法であって、
トレーニングされた画素分類モデルを取得するステップであって、前記画素分類モデルは、任意の１つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、ステップと、
前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得するステップと、
前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行するステップと、
を含むことを特徴とする、画像処理方法。
前記トレーニングされた画素分類モデルを取得する前に、
複数のサンプル画像および前記複数のサンプル画像における各画素の分類識別子を取得するステップと、
トレーニングされた画素分類モデルの分類適合率が第１所定閾値に達するまで、前記複数のサンプル画像および前記複数のサンプル画像における各画素の分類識別子に従ってトレーニングするステップと、
をさらに含むことを特徴とする、請求項１に記載の画像処理方法。
前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得する前に、
前記目標画像に対して顔検出を実行して、前記目標画像の顔領域を取得するステップと、
トレーニングされた表情識別モデルを取得するステップと、
前記表情識別モデルに基づき、前記顔領域を識別して、前記顔領域の表情カテゴリを取得するステップと、
前記顔領域の表情カテゴリが目標表情カテゴリである場合、前記画素分類モデルに基づき、前記目標画像における各画素を分類する前記ステップを実行するステップと、
をさらに含むことを特徴とする、請求項１または２に記載の画像処理方法。
前記頭部領域に対して編集処理を実行する前記ステップは、
事前に設定された表情カテゴリと処理方式との対応関係に従って、前記目標表情カテゴリに対応する目標処理方式を決定するステップと、
前記目標処理方式を使用して、前記頭部領域に対して編集処理を実行するステップと、
を含むことを特徴とする、請求項３に記載の画像処理方法。
前記トレーニングされた表情識別モデルを取得する前に、
複数のサンプル顔画像および各サンプル顔画像の表情カテゴリを取得するステップと、
トレーニングされた表情識別モデルの識別適合率が第２所定閾値に達するまで、前記複数のサンプル顔画像および各サンプル顔画像の表情カテゴリに従ってトレーニングするステップと、
をさらに含むことを特徴とする、請求項３または４に記載の画像処理方法。
前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得する前に、
目標ビデオを取得するステップであって、前記目標ビデオは、早い順に配列された複数の画像を含む、ステップと、
前記複数の画像のうちの各画像を前記目標画像として使用し、前記画素分類モデルに基づき、前記目標画像における各画素を分類する前記ステップを実行するステップと、
を含むことを特徴とする、請求項１ないし５のいずれか一項に記載の画像処理方法。
前記頭部領域に対して編集処理を実行する前記ステップは、
前記頭部領域に対して拡大処理を実行するステップ、または、
前記頭部領域に対して縮小処理を実行するステップ、または、
前記頭部領域に素材を追加するステップ、または、
前記頭部領域の揺れの動的効果を表示するステップ、
を含むことを特徴とする、請求項１ないし６のいずれか一項に記載の画像処理方法。
画像処理装置であって、
トレーニングされた画素分類モデルを取得する第１取得モジュールであって、前記画素分類モデルは、任意の１つの画像における各画素の分類識別子を決定するために使用され、前記分類識別子は、少なくとも頭部分類識別子を含み、前記頭部分類識別子は、対応する画素が頭部領域に位置することを示す、第１取得モジュールと、
前記画素分類モデルに基づき、目標画像における各画素を分類して、前記目標画像における各画素の分類識別子を取得する分類モジュールと、
前記分類識別子における頭部分類識別子に従って、前記目標画像の頭部領域を決定し、前記頭部領域に対して編集処理を実行する第１処理モジュールと、
を備えることを特徴とする、画像処理装置。
画像処理のための端末であって、
前記端末は、プロセッサと、メモリとを備え、前記メモリは、少なくとも１つの命令、少なくとも１セグメントのプログラム、コードセットまたは命令セットを記憶し、前記命令、前記プログラム、前記コードセットまたは前記命令セットは、前記プロセッサにより実行される際に、請求項１ないし７のいずれか一項に記載の画像処理方法を実行させる
ことを特徴とする、端末。
コンピュータプログラムであって、
コンピュータに、請求項１ないし７のいずれか１項に記載の画像処理方法を実行させる、コンピュータプログラム。