JP7316387B2 - 顔画像の処理方法、デバイス、可読媒体及び電子装置 - Google Patents

顔画像の処理方法、デバイス、可読媒体及び電子装置 Download PDF

Info

Publication number
JP7316387B2
JP7316387B2 JP2021571584A JP2021571584A JP7316387B2 JP 7316387 B2 JP7316387 B2 JP 7316387B2 JP 2021571584 A JP2021571584 A JP 2021571584A JP 2021571584 A JP2021571584 A JP 2021571584A JP 7316387 B2 JP7316387 B2 JP 7316387B2
Authority
JP
Japan
Prior art keywords
line
coordinates
distance
sight
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021571584A
Other languages
English (en)
Other versions
JP2022535524A (ja
Inventor
晶晶 ▲諸▼葛
清▲帥▼ ▲楊▼
▲しゅあん▼ 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2022535524A publication Critical patent/JP2022535524A/ja
Application granted granted Critical
Publication of JP7316387B2 publication Critical patent/JP7316387B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Generation (AREA)

Description

本願は2020年1月6日に中国特許局に出願され、出願番号は202010010716.5であり、出願名称は「顔画像の処理方法、デバイス、可読媒体及び電子装置」の中国特許出願の優先権を主張し、その全ての内容は引用により本願に組み込まれる。
本願は画像処理技術分野に関し、より具体的には、顔画像の処理方法、デバイス、可読媒体及び電子装置に関する。
端末技術及び画像処理技術の発展に伴い、端末装置で提供できる画像処理操作はますます豊富になっている。ユーザの異なる需要を満たすために、端末装置は顔を含む画像に様々な効果を追加することができ、例えば画像における人間の目についてレーザ、発光、泣きの効果をレンダリングすることができる。しかしながら、人間の目に対するレンダリング効果は、一般的には人間の目の所在位置の近傍に固定的に表示され、人間の目の真実な状態を反映することができない。
本願の目的は顔画像の処理方法、デバイス、可読媒体及び電子装置を提供することであり、従来の顔画像処理方法において、人間の目のレンダリングを行うときに、レンダリング効果は人間の目の所在位置の近傍のみに固定して表示されることができ、人間の目の真実な状態を反映することができないという技術的問題を解決することに用いられる。
当該発明の内容部分を提供することにより、概要を簡単に説明し、これらの構想は後の具体的な実施形態部分において詳細に説明される。当該発明の内容部分は保護を請求する技術案の重要な特徴又は必要な特徴を認識することを意図していなく、保護を請求する技術案の範囲を限定するためのものでもない。第1の態様において、本開示は顔画像の処理方法を提供し、前記方法は、
予め設定された認識アルゴリズムに従って、処理対象顔画像における視線情報を取得し、前記視線情報は、人間の目の第1の座標及びエッジ座標を含み、前記エッジ座標は前記人間の目の視線と前記顔画像のエッジとの交点を指示するために用いられることと、
前記視線情報に基づいて前記顔画像における目標領域を決定し、前記目標領域は前記第1の座標及び前記エッジ座標を端点とする視線線分を含むことと、
予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることと、を含む。
第2の態様において、本開示は顔画像の処理デバイスを提供し、前記デバイスは、
予め設定された認識アルゴリズムに従って、処理対象顔画像における、人間の目の第1の座標、及び前記人間の目の視線と前記顔画像のエッジとの交点を指示するためのエッジ座標を含む、視線情報を取得するための取得モジュールと、
前記視線情報に基づいて前記顔画像における、前記第1の座標及び前記エッジ座標を端点とする視線線分を含む、目標領域を決定するための第1の確定モジュールと、
予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得るためのレンダリングモジュールとを含む。
第3の態様において、本開示はコンピュータ可読媒体を提供し、それにはコンピュータプログラムが記憶され、当該処理デバイスがプロセッサにより実行されるとき、本開示の第1の態様に記載の方法のステップを実現する。
第4の態様において、本開示は電子装置を提供し、
コンピュータプログラムが記憶されている記憶デバイスと、
本開示の第1の態様に記載の方法のステップを実現するように、前記記憶デバイスにおける前記コンピュータプログラムを実行するための処理デバイスとを含む。
上記技術案によって、本開示はまず予め設定された認識アルゴリズムに基づいて処理対象顔画像を認識することにより、人間の目の第1の座標及びエッジ座標を含む視線情報を取得し、ここで、エッジ座標は人間の目の視線と顔画像のエッジとの交点を指示するために用いられ、その後に視線情報に基づいて顔画像における、第1の座標及びエッジ座標を端点とする視線線分を含む目標領域を決定し、最後に予め設定された効果素材を目標領域にレンダリングすることにより、目標画像を得る。本開示は顔画像に含まれる視線情報を認識することにより、レンダリングする必要がある目標領域を決定し、さらに効果素材を目標領域にレンダリングすることにより、レンダリング効果を人間の目の視線に追従させることができる。
本開示の他の特徴及び利点は後の具体的な実施形態部分において詳細に説明される。
図面を参照しながら以下の具体的な実施形態を参照し、本開示の各実施例の上記及び他の特徴、利点及び方面はより明らかになる。図面において、同一又は類似の符号は同一又は類似の要素を示す。添付図面は模式的なものであり、素子及び要素は必ずしも割合に応じて描画されない。図面において、
1つの例示的な実施例に応じて示された顔画像の処理方法のフローチャートである。 1つの例示的な実施例に応じて示された効果素材である。 1つの例示的な実施例に応じて示された顔画像である。 1つの例示的な実施例に応じて示された目標画像である。 1つの例示的な実施例に応じて示されたもう1つの顔画像の処理方法のフローチャートである。 1つの例示的な実施例に応じて示された顔画像である。 1つの例示的な実施例に応じて示されたもう1つの顔画像の処理方法のフローチャートである。 1つの例示的な実施例に応じて示されたもう1つの顔画像の処理方法のフローチャートである。 1つの例示的な実施例に応じて示された付加効果素材である。 1つの例示的な実施例に応じて示された顔画像である。 1つの例示的な実施例に応じて示された目標画像である。 1つの例示的な実施例に応じて示された顔画像の処理デバイスのブロック図である。 1つの例示的な実施例に応じて示されたもう1つの顔画像の処理デバイスのブロック図である。 1つの例示的な実施例に応じて示されたもう1つの顔画像の処理デバイスのブロック図である。 1つの例示的な実施例に応じて示されたもう1つの顔画像の処理デバイスのブロック図である。 1つの例示的な実施例に応じて示された電子装置の構成模式図である。
以下、本開示の実施例について、図面を参照しながら、より詳細に説明する。図面に本開示のいくつかの実施例が示されているが、理解すべきことは、本開示は様々な形式で実現されてもよく、かつここで説明された実施例に限定されるもので解釈されるべきではなく、逆にこれらの実施例を提供することは本開示をより充分にかつ完全に理解するためである。理解すべきことは、本開示の図面及び実施例は例示的な作用のみに用いられ、本開示の保護範囲を限定するものではない。
理解すべきことは、本開示の方法の実施形態に記載の各ステップは異なる順序に応じて実行され、及び/又は並列に実行されてもよい。また、方法の実施形態は追加的なステップを含むか、及び/又は示されるステップの実行を省略してもよい。本開示の範囲は、これらの点に限定されるものではない。
本明細書で使用される用語「含む」及びその変形は開放的な含みであり、即ち「含むがこれに限定されるものではない」。用語「基づいて」は「少なくとも部分的に基づいて」である。用語「1つの実施例」は「少なくとも1つの実施例」を示す。用語「他の実施例」は「少なくとも1つの他の実施例」を示す。用語「いくつかの実施例」は「少なくともいくつかの実施例」を示す。他の用語の関連する定義については後述する。
注意すべきことは、本開示において言及された「第一」、「第二」等の概念は異なるデバイス、モジュール又はユニットを区別するためにのみ用いられ、これらのデバイス、モジュール又はユニットが実行する機能の順序又は相互依存関係を限定するものではない。
注意すべきことは、本開示において言及された「1つ」、「複数」の修飾は模式的なものであり、限定的なものではなく、当業者であれば理解すべきことは、文脈で明確に指摘しない限り、そうでなければ「1つ又は複数の」と理解すべきである。
本開示の実施形態における複数のデバイスの間に対話するメッセージ又は情報の名称は説明的な目的のみに用いられ、これらのメッセージ又は情報の範囲を限定するためではない。
図1は1つの例示的な実施例に応じて示された顔画像の処理方法のフローチャートであり、図1に示すように、当該方法は以下のステップを含む。
ステップ101、予め設定された認識アルゴリズムに従って、処理対象顔画像における視線情報を取得する。視線情報は、人間の目の第1の座標及びエッジ座標を含み、エッジ座標は人間の目の視線と顔画像のエッジとの交点を指示するために用いられる。
例えば、処理対象顔画像は、例えばユーザが端末装置により撮影された1枚の顔を含む写真であってもよく、又は端末装置により撮影されたビデオのうちの1つのフレームの顔を含む画像であってもよく、ユーザにより端末装置の表示インタフェースで選択された1枚の顔を含む画像であってもよい。まず、予め設定された認識アルゴリズムに従って、顔画像に含まれる視線情報を認識する。認識アルゴリズムはまず顔画像における顔を認識し、さらに顔における人間の目の位置を決定し、最後に視線情報を取得してもよい。ここで、視線情報は人間の目の視線を表すことができ、例えば人間の目の顔画像での第1の座標、及び人間の目の視線と顔画像のエッジとの交点の顔画像でのエッジ座標を含んでもよい。第1の座標及びエッジ座標によって、視線の方向(つまり人間の目がどちらの方向を見ているか)を表すことができる。顔画像に含まれる視線は、第1の座標を起点とし、エッジ座標を終点とする。なお、顔画像に1つ又は複数の顔が含まれてもよく、人の顔各々は2つの人間の目が含まれてもよく、そのため、人間の目各々は1つの視線に対応する。それに応じて、視線各々はいずれも1つのグループの第1の座標及びエッジ座標に対応する。顔画像にN個の人間の目が含まれる場合、ステップ101で取得されたのはN個の視線情報であり、視線情報各々は1つのグループの第1の座標及びエッジ座標を含み、1つの人間の目の視線を表すために用いられると理解されてもよい。
ステップ102、視線情報に基づいて顔画像における目標領域を決定し、目標領域は第1の座標及びエッジ座標を端点とする視線線分を含む。
例示的には、ユーザは端末装置によって指定された効果(例えばレーザ、発光、泣きなどであってもよい)を選択することができ、このとき、人間の目に対して指定された効果をレンダリングすべきであり、顔画像において、視線情報に基づいて1つの目標領域を決定する必要があり、つまり指定された効果が顔画像において表示する必要がある位置である。目標領域は第1の座標及びエッジ座標を端点とする視線線分を含む。目標領域は、視線線分を含む矩形であってもよいし、又は他の形であってもよい。例えば目標領域は視線線分の中点を中心とし、視線線分の長さを長さとし、人間の目の長さを幅として、決定された矩形であってもよい。さらに視線線分をエッジ座標の方向に延伸し、長さが顔画像の対角線の長さと同じ延長線分を取得してもよく、目標領域は延長線分の中点を中心とし、延長線分の長さを長さとし、予め設定された幅を幅とし、得られた矩形である。
ここで、目標領域は視線線分と一対一に対応し、顔画像に複数の人間の目(例えば:顔画像における単一の顔の2つの人間の目、又は顔画像における複数の顔の複数の人間の目)が含まれると、人間の目各々は1つのグループの第1の座標及びエッジ座標に対応し、グループ各々の第1の座標及びエッジ座標は1つの視線線分を決定し、対応する視線線分各々は1つの目標領域を決定し、つまり顔画像において複数の目標領域を決定する。
ステップ103、予め設定された効果素材を目標領域にレンダリングすることにより、目標画像を得る。
例示的には、目標領域についてレンダリングする前に、さらにユーザの指定した効果に基づいて、予め記憶された素材ライブラリから指定された効果に対応する効果素材を見つけてもよい。ここで、素材ライブラリには様々な効果における効果各々に対応する効果素材が含まれ、素材ライブラリは端末装置に予め記憶されてもよく、端末装置がアクセスできるサーバに記憶されてもよく、端末装置がある効果に対応する効果素材を使用する必要があるときに、サーバから当該効果素材を検索して取得する。効果素材を確定した後、openGL(Open Graphics Library)により効果素材をテクスチャマップとして、目標領域内にレンダリングして、目標画像を得る。目標領域は視線情報に基づいて決定されるため、目標領域内に効果素材をレンダリングすることにより、レンダリング効果は人間の目の視線を追従することができ、人間の目の真実な状態を反映することができる。
さらに、レンダリング効果が視覚的な3D(英語:3 Dimensions, 中国語:三次元)効果を有するように、効果素材を両端の幅が一致しない素材に設定してもよい。目標領域をレンダリングするとき、効果素材における幅の小さい一端を目標領域における第1の座標に近い端(つまり人間の目に近い端)にレンダリングし、効果素材における幅の大きい端を目標領域におけるエッジ座標に近い端にレンダリングする。効果素材がレーザであることを例とし、このようにして得られた目標画像は人間の目の端に位置するレーザ光線がより細く、画像エッジの端に位置するレーザ光線がより粗く、それにより視覚的な3D効果を生成する。
なお、目標画像を得た後、ユーザの異なる需要に応じて、目標画像に対して異なる操作を行うことができ、例えば目標画像を端末装置の表示インタフェースに表示してもよく、目標画像を指定された記憶経路内に記憶してもよく、また目標画像を指定されたサーバに送信して共有することなどもよく、本開示はこれを具体的に限定しない。
効果素材が図2であり、顔画像が図3である例を挙げ、まず認識アルゴリズムにより図3における左眼の第1の座標及びエッジ座標:(P0,P1)、右眼の第1の座標及びエッジ座標:(P2,P3)を得、さらに(P0,P1)及び(P2,P3)に基づいて左眼に対応する目標領域A、及び右眼に対応する目標領域Bを決定し、最後に図2をそれぞれ目標領域A及びBにレンダリングし、図4に示すような目標画像を得る。
以上のように、本開示はまず予め設定された認識アルゴリズムに従って処理対象顔画像を認識することにより、人間の目の第1の座標及びエッジ座標を含む視線情報を取得し、ここで、エッジ座標は人間の目の視線と顔画像のエッジとの交点を指示するために用いられ、その後に視線情報に基づいて、顔画像において第1の座標及びエッジ座標を端点とする視線線分を含む目標領域を決定し、最後に予め設定された効果素材を目標領域にレンダリングすることにより、目標画像を得る。本開示は顔画像に含まれる視線情報を認識することにより、レンダリングする必要がある目標領域を決定し、さらに効果素材を目標領域にレンダリングすることにより、レンダリング効果を人間の目の視線に追従させることができる。
図5は1つの例示的な実施例に応じて示されたもう1つの顔画像の処理方法のフローチャートであり、図5に示すように、視線情報は被写界深度距離をさらに含み、被写界深度距離は人間の目から顔画像を撮影するレンズまでの距離であり、ステップ102の実現方式は以下のステップを含んでもよい。
ステップ1021、被写界深度距離に基づいて第1の距離を決定し、顔画像の画像サイズに基づいて第2の距離を決定し、第1の距離と被写界深度距離との間に負の相関があり、第2の距離と画像サイズとの間には正の相関がある。
ステップ1022、視線線分を含み、かつ幅が第1の距離であり、長さが第2の距離である矩形領域を目標領域とする。
例を挙げて、レンダリング効果が視覚的な3D効果を有するように、さらに視線情報に含まれる被写界深度距離を合わせて目標領域を決定してもよい。ここで、被写界深度距離は、顔画像における人間の目と、当該顔画像を撮影するレンズとの間の距離であると理解してもよく、人間の目とレンズとの距離が近いほど、被写界深度距離が小さく、人間の目とレンズとの距離が遠いほど、被写界深度距離が大きい。まず、被写界深度距離に基づいて第1の距離を決定し、顔画像の画像サイズに基づいて第2の距離を決定し、ここで、第1の距離と被写界深度距離との間に負の相関があり、第2の距離と画像サイズとの間には正の相関がある。その後、第1の距離を幅にし、第2の距離を長さにして、視線線分を含む矩形を決定し、目標領域とする。このように、被写界深度距離が小さいほど、目標領域の幅が広くなり、被写界深度距離が大きいほど、目標領域の幅が狭くなる。
具体的には、第1の距離は数式1に基づいて決定することができる。
Figure 0007316387000001
ここで、Wは第1の距離を示し、Zは被写界深度距離を示し、α及びβは予め設定された調整パラメータであり、WがZの変化に伴って変化する感度を調整するために用いられる。逆正接関数
Figure 0007316387000002
を利用してWが大きすぎるか又は小さすぎることを制限する。
選択される目標領域が小さすぎて、効果素材が顔画像において切断されるという問題を回避するために、目標領域を顔画像の範囲外に延伸してもよい。そのため、顔画像の対角線の長さを第2の距離として設定してもよく、対角線の長さを第2の距離の最小値としてもよく、それにより効果素材が顔画像において切断されるという問題は生じないことを保証する。
それに応じて、ステップ103の実現方式は以下のとおりであってもよい。
第1の距離及び第2の距離に応じて効果素材の大きさを調整して、調整された効果素材を目標領域にレンダリングすることにより、目標画像を得る。
例示的には、第1の距離と第2の距離に応じて効果素材の大きさを調整し、調整された後の効果素材の幅は第1の距離であり、長さは第2の距離であり、次にopenGLによって調整された効果素材をテクスチャマップとして、目標領域にレンダリングして、目標画像を得る。効果素材がレーザであることを例とし、被写界深度距離が小さいほど、目標領域の幅が広くなり、調整された効果素材が広くなり、目標画像におけるレーザ光線が広くなり、被写界深度距離が大きいほど、目標領域の幅が狭くなり、調整された効果素材が狭くなり、目標画像におけるレーザ光線が狭くなり、それにより視覚的な3D効果を生成する。
具体的には、ステップ1022において目標領域を決定することは以下のステップを含んでもよい。
ステップ1)、第1の辺を決定し、第1の辺の長さは第1の距離とし、第1の辺の中点は第1の座標とし、かつ第1の辺は視線線分と垂直する。
ステップ2)、第2の辺を決定し、第2の辺の長さは第2の距離であり、かつ第2の辺は第1の辺と垂直する。
ステップ3)、第1の辺と第2の辺で構成され、かつ視線線分を含む矩形を目標領域とする。
例示的には、まず目標領域の第1の辺を決定し、第1の辺は視線線分の法線とし、かつ、第1の辺は辺長が第1の距離とし、かつ中点が第1の座標である線分である。その後、さらに目標領域の第2の辺を決定し、第2の辺は第1の辺に垂直し、長さが第2の長さの線分とし、かつ第2の辺と第1の辺との交点が第1の辺の1つの端点に位置する。最後に、第1の辺と第2の辺で構成された矩形を目標領域とし、目標領域内に視線線分が含まれる。図における左眼を例に挙げて、左眼の第1の座標及びエッジ座標は(P0,P1)であり、ステップ1)からステップ3)によって決定された第1の辺がMNとし、第2の辺がMOとし、左眼の目標領域がA1とし、図6に示すとおりである。右眼の目標領域を決定する方式は左眼と同じであり、ここでは説明を省略する。A1の4つの頂点の座標は数式2に基づいて決定することができる。
Figure 0007316387000003
Figure 0007316387000004
Figure 0007316387000005
Figure 0007316387000006
ここで、VertexLeftTopはA1の左上隅の座標を示し、VertexRightTopはA1の右上隅の座標を示し、VertexLeftBottomはA1の左下隅の座標を示し、VertexRightBottomはA1の右下隅の座標を示し、Wは第1の距離(つまりMNの長さ)を示し、Hは第2の距離(つまりMOの長さ)を示し、dyはsinθを示し、dxはcosθを示し、θは視線線分と顔画像の下縁とのなす角である。
選択的に、ステップ101の実現方式は以下のとおりであってもよい。
顔画像を予めトレーニングされた視線認識モデルに入力することにより、視線認識モデルが出力した第1の座標、エッジ座標及び被写界深度距離を得る。
例を挙げて、認識アルゴリズムは、その中には顔画像が入力された予めトレーニングされた視線認識モデルであってもよく、視線認識モデルが顔画像における第1の座標、エッジ座標及び被写界深度距離を輸出することができる。ここで、視線認識モデルは予め設定されたサンプル入力グループ及びサンプル出力グループに基づいてトレーニングして得られたニューラルネットワークであってもよく、例えば畳み込みニューラルネットワーク(英語:Convolutional Neural Networks,略称:CNN)であってもよい。畳み込みニューラルネットワークは本開示の実施例のニューラルネットワークの1つの例のみであり、本開示はこれに限定されず、他の様々なニューラルネットワークを含んでもよい。視線認識モデルは、例えば、入力層と、畳み込み層と、フィードバック層と、全接続層と、出力層とを含んでもよい。まず顔画像を入力層に入力し、畳み込み層を通過して、顔画像から畳み込み層特徴を抽出する。さらにフィードバック層に通過させ、前回のフィードバック層特徴と次回のフィードバック層特徴を結合し、畳み込み層から現在のフィードバック層特徴を抽出し、その後に全接続層によって、フィードバック層特徴に対して抽象化処理を行うことにより、顔画像の第1の座標、エッジ座標及び被写界深度距離を生成し、最後に出力層によって第1の座標、エッジ座標及び被写界深度距離を出力する。
図7は1つの例示的な実施例に応じて示されたもう1つの顔画像の処理方法のフローチャートであり、図7に示すように、顔画像に複数の視線線分が存在するシーンにおいて、ステップ102の後に、当該方法は以下のステップをさらに含む。
ステップ104、視線情報に基づいて複数の視線線分の交点座標を決定する。
ステップ105、エッジ座標、及び/又は交点座標を付加効果座標とする。
ステップ106、付加効果座標を中心とする付加領域を決定する。
対応して、ステップ103は以下のステップを含む。
効果素材を目標領域にレンダリングして、予め設定された付加効果素材を付加領域にレンダリングすることにより、目標画像を得る。
具体的な実現シーンにおいて、例えば顔画像における単一の顔の両目がそれぞれ2つの視線線分に対応することができ、前記2つの視線線分が交差する可能性があり、例えば顔画像に複数の顔を含む可能性があり、前記複数の顔に対応する視線線分が交差する可能性があり、さらに例えば人間の目の視線も顔画像のエッジと交差する(つまり、エッジ座標が指示する点)。このとき、交差する位置で付加的な効果(例えば衝突、スパーク等であってもよい)をレンダリングしてもよい。まず、複数の視線線分の交点座標を決定し、交点座標の個数はゼロであってもよく(つまり、複数の視線線分が互いに平行であるか、又は顔画像内に交点が存在しない)、又は1つ又は複数であってもよい。
顔画像に2つの視線線分ab及びcdが存在することを例として、abとcdの交点座標を決定することは以下のステップによって取得してもよい。
ab及びcdにおける4つの端点の座標は以下のとおりである。aの横座標はa.xであり、aの縦座標はa.yであり、の横座標はb.xであり、bの縦座標はb.yであり、cの横座標はc.xであり、cの縦座標はc.yであり、dの横座標はd.xであり、dの縦座標はd.yである。まず、acとbcの外積を算出する。
area_abc=(a.x-c.x)*(b.y-c.y)-(a.y-c.y)*(b.x-c.x)
abとbdの外積を算出する。
area_abd=(a.x-d.x)*(b.y-d.y)-(a.y-d.y)*(b.x-d.x)
caとdaの外積を算出する。
area_cda=(c.x-a.x)*(d.y-a.y)-(c.y-a.y)*(d.x-a.x)
cbとdbの外積を算出する。
area_cdb=area_cda+area_abc-area_abd
area_abc==area_abdであればabとcdが平行であることを示し、つまりabとcdとの間に交点がない。area_abc*area_abd>=0又はarea_cda*area_cdb>=0であれば、abとcdが平行ではないけど、顔画像内に交点が存在しないことを示す。
上記条件を満たさない場合、abとcdとの間に交点が存在することを示し、交点座標の横座標X及び縦座標Yは数式3によって取得してもよい。
X=(a.x+dx)
Y=(a.y+dy)
dx=t*(b.x-a.x)
dy=t*(b.y-a.y)
t=area_cda/(area_abd-area_abc) 数式3
ここで、tは三角形cdaの面積と四角形abcdの面積との比率であると理解してもよく、点aから交点までの長さとabの長さの比率であると理解してもよい。
以上は2つの視線線分の間の交点座標だけで例を挙げて説明しており、2つ以上の視線線分が存在する場合、交点座標の確定方式は同じであり、ここでは説明を省略する。
さらに、交点座標の個数がゼロでなければ、エッジ座標及び交点座標を付加効果座標とすることができ、交点座標の個数がゼロであれば、エッジ座標のみを付加効果座標とする。そして、付加効果座標を中心とする付加領域を決定する。付加領域は付加効果座標を中心とする矩形であってもよく、他の形であってもよい。付加領域を決定した後、openGLによって効果素材を目標領域にレンダリングすると同時に、付加効果素材を付加領域にレンダリングすることにより、目標画像を得ることができる。ここで、付加的な効果も同様にユーザによって選択されてもよく、その後にユーザが選択した付加的な効果に基づいて、予め記憶された付加的な素材ライブラリから付加的な効果に対応する付加効果素材を見つける。
図8は1つの例示的な実施例に応じて示されたもう1つの顔画像の処理方法のフローチャートであり、図8に示すように、視線情報は被写界深度距離をさらに含み、被写界深度距離は人間の目から顔画像を撮影するレンズまでの距離であり、ステップ106の実現方式は以下のステップを含むことができる。
ステップ1061、被写界深度距離及び付加効果座標に基づいて、付加効果座標に対応する付加被写界深度距離を決定する。
ステップ1062、付加効果座標を中心とする付加領域を決定し、付加領域の大きさは付加被写界深度距離に基づいて決定される。
例示的には、付加効果も視覚的な3D効果を有するように、同様に視線情報に含まれる被写界深度距離を合わせて付加領域を決定することができる。まず、被写界深度距離及び付加効果座標に基づいて、付加効果座標に対応する付加被写界深度距離を決定してよい。付加被写界深度距離は数式4によって決定することができる。
=Z*(1-t) 数式4
ここで、Zは付加被写界深度距離を示し、Zは被写界深度距離を示し、tは数式3によって決定され、三角形cdaの面積と四角形abcdの面積との比率である。
次に、付加被写界深度距離に基づいて、付加領域の大きさを決定し、付加領域の大きさと付加被写界深度距離の間は負の相関がある。つまり、付加被写界深度距離が大きいほど、付加効果座標がレンズから遠いことを示し、そのため、付加領域が小さく、付加被写界深度距離が小さいほど、付加効果座標がレンズに近いことを示し、そのため、付加領域が大きい。付加領域が正方形である例を上げると、付加領域の辺の長さは数式5に基づいて決定することができる。
Figure 0007316387000007
ここで、Wは付加領域の辺の長さを示し、α及びβは予め設定された調整パラメータとし、WがZに伴って変化する感度を調整するために用いられる。逆正接関数
Figure 0007316387000008
を利用してWが大きすぎるか又は小さすぎることを制限する。
効果素材を図2とし、付加効果素材は図9であり、顔画像は図3であることを例として、確定された付加領域はC、D、Eとし、図10aに示すように、図2を目標領域にレンダリングし、図9の素材を付加領域にレンダリングすることにより、得られた目標画像は図10bに示すとおりである。
なお、上記実施例において、効果素材(又は付加効果素材)を目標領域(又は付加領域)にレンダリングするときに、openGLにおけるGL_MAX_EXT混合方程式を採用し、効果素材が位置するレイヤー、付加効果素材が位置するレイヤーと顔画像が位置するレイヤーを合併し、その後にカラーフィルタ混合モードを採用して効果素材、付加効果素材と顔画像を混合し、レンダリングを実現してもよい。ここで、目標画像に表示されたのは結果色であり、顔画像の色は基礎色であり、効果素材と付加効果素材の色は混合色であり、カラーフィルタ混合モードにおけるカラーフィルタ混合数式は、結果色=255-[(255-基礎色)*(255-混合色)]/255であってもよい。
以上により、本開示はまず予め設定された認識アルゴリズムに基づいて処理対象顔画像を認識することにより、人間の目の第1の座標及びエッジ座標を含む視線情報を取得し、ここで、エッジ座標は人間の目の視線と顔画像のエッジとの交点を指示するために用いられ、その後に視線情報に基づいて顔画像において、第1の座標及びエッジ座標を端点とする視線線分を含む目標領域を決定し、最後に予め設定された効果素材を目標領域にレンダリングすることにより、目標画像を得る。本開示は顔画像に含まれる視線情報を認識することにより、レンダリングする必要がある目標領域を決定し、さらに効果素材を目標領域にレンダリングすることにより、レンダリング効果を人間の目の視線に追従させることができる。
図11は1つの例示的な実施例に示された顔画像の処理デバイスのブロック図であり、図11に示すように、当該デバイス200は、
予め設定された認識アルゴリズムに従って、処理対象顔画像における、人間の目の第1の座標及び人間の目の視線と顔画像のエッジとの交点を指示するためのエッジ座標を含む、視線情報を取得するための取得モジュール201と、
視線情報に基づいて顔画像における、第1の座標及びエッジ座標を端点とする視線線分を含む、目標領域を決定するための第1の確定モジュール202と、
予め設定された効果素材を目標領域にレンダリングすることにより、目標画像を得るためのレンダリングモジュール203とを含む。
図12は1つの例示的な実施例に応じて示されたもう1つの顔画像の処理デバイスのブロック図であり、図12に示すように、視線情報は被写界深度距離をさらに含み、被写界深度距離は人間の目から顔画像を撮影するレンズまでの距離であり、第1の確定モジュールは、
被写界深度距離に基づいて、被写界深度距離との間に負の相関がある第1の距離を決定し、顔画像の画像サイズに基づいて、画像サイズとの間には正の相関がある第2の距離を決定するための第1の確定サブモジュール2021と、
視線線分を含み、かつ幅が第1の距離であり、長さが第2の距離である矩形領域を目標領域とするための第2の確定サブモジュール2022とを含む。
選択的に、レンダリングモジュール203は、
第1の距離及び第2の距離に応じて効果素材の大きさを調整し、調整された効果素材を目標領域にレンダリングすることにより、目標画像を得るために用いられる。
選択的に、第2の確定サブモジュールは以下のステップを実行するために用いられる。
ステップ1)、第1の辺を決定し、第1の辺の長さは第1の距離とし、第1の辺の中点は第1の座標とし、かつ第1の辺は視線線分と垂直することとする。
ステップ2)、第2の辺を決定し、第2の辺の長さは第2の距離とし、かつ第2の辺は第1の辺に垂直することとする。
ステップ3)、第1の辺と第2の辺で構成され、かつ視線線分を含む矩形を目標領域とする。
選択的に、取得モジュール201は、
顔画像を予めトレーニングされた視線認識モデルに入力することにより、視線認識モデルが出力した第1の座標、エッジ座標及び被写界深度距離を得るために用いられる。
図13は1つの例示的な実施例に示されたもう1つの顔画像の処理デバイスのブロック図であり、図13に示すように、顔画像には複数の視線線分が存在し、当該デバイス200は、
視線情報に基づいて顔画像における目標領域を決定した後、視線情報に基づいて複数の視線線分の交点座標を決定し、

エッジ座標、及び/又は交点座標を付加効果座標とし、及び

付加効果座標を中心とする付加領域を決定するための第2の確定モジュール204と、
効果素材を目標領域にレンダリングして、予め設定された付加効果素材を付加領域にレンダリングすることにより、目標画像を得るためのレンダリングモジュール203とをさらに含む
図14は1つの例示的な実施例に示されたもう1つの顔画像の処理デバイスのブロック図であり、図14に示すように、第2の確定モジュール204は、
被写界深度距離及び付加効果座標に基づいて、付加効果座標に対応する付加被写界深度距離を決定するための第3の決定サブモジュール2041と、
付加効果座標を中心とする付加領域を決定し、付加領域の大きさは付加被写界深度距離に基づいて決定される第4の決定サブモジュール2042とを含む。
上記実施例におけるデバイスについて、ここで各モジュールが動作を実行する具体的な方式は関連する当該方法の実施例において詳細に説明され、ここで詳細に説明しない。
以上により、本開示はまず予め設定された認識アルゴリズムに基づいて処理対象顔画像を認識することにより、人間の目の第1の座標及びエッジ座標を含む視線情報を取得し、ここで、エッジ座標は人間の目の視線と顔画像のエッジとの交点を指示するために用いられ、その後に視線情報に基づいて顔画像において、第1の座標及びエッジ座標を端点とする視線線分を含む目標領域を決定し、最後に予め設定された効果素材を目標領域にレンダリングすることにより、目標画像を得る。本開示は顔画像に含まれる視線情報を認識することにより、レンダリングする必要がある目標領域を決定し、さらに効果素材を目標領域にレンダリングすることにより、レンダリング効果を人間の目の視線に追従させることができる。
以下に図15を参照し、それは本開示の実施例を実現することに適する電子装置300の模式的な構成図を示す。本開示の実施例における電子装置(つまり、上記画像の処理方法の実行主体)は、サーバであってもよく、当該サーバは例えばローカルサーバ又はクラウドサーバであってもよく、端末装置であってもよく、端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレットコンピュータ)、PMP(携帯型マルチメディアプレーヤ)、車載端末(例えば車載ナビゲーション端末)等の移動端末及びデジタルTV、デスクトップコンピュータ等の固定端末を含んでよいけど、それらに限定されない。ユーザはサーバをログインすることにより顔画像をアップロードしてもよく、端末装置によって顔画像を直接にアップロードするか、又は端末装置によって顔画像を採集してもよい。図15に示された電子装置は1つの例に過ぎず、本開示の実施例の機能及び使用範囲にいかなる制限を与えない。
図15に示すように、電子装置300は処理デバイス(例えば中央プロセッサ、グラフィックプロセッサなど)301を含んでもよく、それはリードオンリーメモリ(ROM)302に記憶されたプログラム又は記憶デバイス308からランダムアクセスメモリ(RAM)303にロードされたプログラムに基づいて様々な適切な動作及び処理を実行してもよい。RAM303には、さらに電子装置300の操作に必要な様々なプログラム及びデータが記憶される。処理デバイス301、ROM302、及びRAM303は、バス304を介して相互に接続される。入力/出力(I/O)インタフェース305もバス304に接続される。
一般的に、以下のデバイスはI/Oインタフェース305に接続してもよく、例えばタッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロ等を含む入力デバイス306、例えば液晶ディスプレイ(LCD)、スピーカ、振動器等を含む出力デバイス307、例えば磁気テープ、ハードディスク等を含む記憶デバイス308、及び通信デバイス309を含む。通信デバイス309は、電子装置300と他の装置との間で無線又は有線の通信を行ってデータをやり取りすることを許可することができる。図15は様々なデバイスを有する電子装置300を示したが、理解すべきことは、全ての示されたデバイスを実施するか備えることが要求されるものではない。その代わりに、より多くのデバイスを実施したり、より少なくのデバイスを備えてもよい。
特に、本開示の実施例によれば、以上のフローチャートを参照して説明した過程をコンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは非一時的なコンピュータ可読媒体に担持されたコンピュータプログラムを含み、当該コンピュータプログラムはフローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは通信デバイス309によってネットワークからダウンロード及びインストールされるか、又は記憶デバイス308からインストールされ、又はROM 302からインストールされえる。当該コンピュータプログラムが処理デバイス301により実行されるとき、本開示の実施例の方法に限定された上記機能を実行する。
なお、本開示の上記コンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、デバイス、若しくはパーツ、又はこれらのいずれかの組み合わせとしてもよいが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数のワイアを有する電気的な接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ、光ファイバ、ポータブルコンパクトな磁気ディスク読み出し専用メモリ(CD-ROM)、光記憶パーツ、磁気記憶パーツあるいは上記任意の適切な組み合わせを含むが、これに限定されるものではない。本開示では、コンピュータ可読記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよいし、当該プログラムは、命令実行システム、デバイス又はパーツに使用され、あるいはそれと結合し使用されてもよい。本開示では、コンピュータ読み出し可能な信号媒体は、ベースバンド内又は搬送波の一部として伝播されるデータ信号を含まれてもよいし、それにはコンピュータ可読プログラムコードが搭載されている。このように伝播されるデータ信号は、様々な形式を用いてもよいし、電磁信号、光信号、又は上記任意の適切な組み合わせを含んでもよいけど、これらに限定されない。コンピュータ読み出し可能な信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよいし、当該コンピュータ可読信号媒体は、命令実行システム、デバイス、又はパーツに使用されるか、あるいはそれと結合して使用されるプログラムを送信、伝播、又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送でき、電線、光ケーブル、RF(ラジオ)など、又は上記任意の適切な組み合わせを含んでもよいけど、これらに限定されない。
いくつかの実施形態において、端末装置、サーバはHTTP(HyperText Transfer Protocol, ハイパーテキスト転送プロトコル)のような任意の現在知られているか又は将来に開発されるネットワークプロトコルを利用して通信することができ、かつ任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)とお互いに接続してもよい。通信ネットワークの例はローカルエリアネットワーク(“LAN”)、ワイドエリアネットワーク(“WAN”)、インターネットワーク(例えば、インターネット)及びエンドツーエンドネットワーク(例えば、アドホックエンドツーエンドネットワーク)、及び任意の現在知られているか又は将来に開発されるネットワークを含む。
上記コンピュータ可読媒体は上記電子装置に含まれてもよく、単独で存在し、当該電子装置に装着されていなくてもよい。
上記コンピュータ可読媒体は1つ又は複数のプログラムを担持し、上記1つ又は複数のプログラムが当該電子装置により実行されるときに、当該電子機器が、予め設定された認識アルゴリズムに従って、処理対象顔画像における視線情報を取得し、前記視線情報は、人間の目の第1の座標及びエッジ座標を含み、前記エッジ座標は人間の目の視線と前記顔画像のエッジとの交点を指示するために用いられ、前記視線情報に基づいて前記顔画像における目標領域を決定し、前記目標領域は前記第1の座標及び前記エッジ座標を端点とする視線線分を含み、予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得るようにする。
1種類又は複数種類のプログラミング言語又はその組み合わせで本開示の操作を実行するために用いられるコンピュータプログラムコードを作成することができ、上記プログラミング言語はオブジェクト指向プログラミング言語を含み、例えばJava、Smalltalk、C++であり、さらに一般的なプロセス式プログラミング言語を含み、例えば「C」言語又は類似するプログラミング言語であるが、これらに限定されない。プログラムコードは完全にユーザコンピュータ上で実行されてもよいし、部分的にユーザコンピュータ上で実行されてもよいし、1つの独立なソフトウェアパッケージとして実行され、部分的にユーザコンピュータで、他の部分は遠隔コンピュータで実行され、又は完全に遠隔コンピュータ又はサーバで実行されてもよい。遠隔コンピュータに関する状況において、遠隔コンピュータは任意の種類のネットワーク(ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む)を介して、ユーザコンピュータに接続されてもよいし、又は、外部コンピュータに接続されてもよい(例えばインターネットサービスプロバイダを利用してインターネットを介して接続される)。
図面のフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。この点において、フローチャート又はブロック図における各ブロックは1つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、当該モジュール、プログラムセグメント、又はコードの一部は1つ又は複数の所定の論理機能を実現するための実行可能な指令を含む。注意すべきことは、いくつかの代替としての実現において、ブロックにマークされた機能は図面と異なる順序で発生してもよい。例えば、2つの連続的に示されるブロックは実際に基本的に並行して実行されてもよく、それらは逆の順序で実行されてもよく、これは関連する機能に依存する。注意すべきことは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアに基づくシステムで実現されてもよく、又は専用ハードウェアとコンピュータ指令の組み合わせで実現されてもよい。
本開示の実施例におけるモジュールはソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。ここで、モジュールの名称はある場合に当該モジュール自体を限定するものではなく、例えば、第1の確定モジュールはさらに「目標領域を決定するモジュール」として説明されてもよい。
本明細書で説明した機能は、少なくとも一部が1つ又は複数のハードウェアロジックパーツによって実行されてもよい。例えば、非限定的に、使用可能な例示的なタイプのハードウェアロジックパーツは、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などを含む。
本開示のコンテキストにおいて、機器可読媒体は有形の媒体であってもよく、それは指令実行システム、デバイス又は装置の使用又は指令実行システム、デバイス又は装置と組み合わせて使用されるプログラムを含むか又は記憶してもよい。機器可読媒体は機器可読信号媒体又は機器可読記憶媒体であってもよい。機器可読媒体は電子的、磁気的、光学的、電磁的、赤外線の、又は半導体システム、デバイス又は装置、又は上記の内容の任意の適切な組み合わせを含んでもよいけどそれらに限定されない。機器可読記憶媒体のより具体的な例は1つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ、光ファイバ、携帯式コンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。
本開示の1つ又は複数の実施例によれば、例1は顔画像の処理方法を提供し、予め設定された認識アルゴリズムに応じて、処理対象顔画像における、人間の目の第1の座標及び前記人間の目の視線と前記顔画像のエッジとの交点を指示するためのエッジ座標を含む視線情報を取得することと、前記視線情報に基づいて前記顔画像における、前記第1の座標及び前記エッジ座標を端点とする視線線分を含む目標領域を決定することと、予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることとを含む。
本開示の1つ又は複数の実施例によれば、例2は例1の方法を提供し、前記視線情報は被写界深度距離をさらに含み、前記被写界深度距離は前記人間の目から前記顔画像を撮影するレンズまでの距離であり、前記視線情報に基づいて前記顔画像における目標領域を決定することは、前記被写界深度距離に基づいて前記被写界深度距離と負相関がある第1の距離を決定して、前記顔画像の画像サイズに基づいて前記画像サイズと正相関がある第2の距離を決定することと、前記視線線分を含み、かつ幅は前記第1の距離であり、長さが前記第2の距離である矩形領域を前記目標領域とすることとを含む。
本開示の1つ又は複数の実施例によれば、例3は例2の方法を提供し、前記予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を取得することは、前記第1の距離及び前記第2の距離に応じて効果素材の大きさを調整して、調整された前記効果素材を前記目標領域にレンダリングすることにより、前記目標画像を得ることを含む。
本開示の1つ又は複数の実施例によれば、例4は例2の方法を提供し、前記視線線分を含み、かつ幅が前記第1の距離であり、長さが前記第2の距離である矩形を前記目標領域とすることは、辺の長さが前記第1の距離であり、中点が前記第1の座標であり、かつ前記視線線分と垂直する第1の辺を決定することと、辺の長さが前記第2の距離であり、かつ前記第1の辺に垂直する第2の辺を決定することと、前記第1の辺と前記第2の辺で構成され、かつ前記視線線分を含む矩形を前記目標領域とすることとを含む。
本開示の1つ又は複数の実施例によれば、例5は例2~例4のいずれか一項に記載の方法を提供し、前記予め設定された認識アルゴリズムに応じて、処理対象顔画像における視線情報を取得することは、前記顔画像を予めトレーニングされた視線認識モデルに入力することにより、前記視線認識モデルが出力する前記第1の座標、前記エッジ座標及び前記被写界深度距離を得ることを含む。
本開示の1つ又は複数の実施例によれば、例6は例1~例4のいずれか一項に記載の方法を提供し、前記顔画像に複数の前記視線線分が存在し、前記視線情報に基づいて前記顔画像における目標領域を決定した後、前記方法は、前記視線情報に基づいて複数の前記視線線分の交点座標を決定することと、前記エッジ座標、及び/又は前記交点座標を付加効果座標とすることと、前記付加効果座標を中心とする付加領域を決定することと、前記予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることとを含む。ここで、前記予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることは、前記効果素材を前記目標領域にレンダリングし、且つ予め設定された付加効果素材を前記付加領域にレンダリングすることにより、前記目標画像を取得することを含む。
本開示の1つ又は複数の実施例によれば、例7は例6の方法を提供し、前記視線情報は被写界深度距離をさらに含み、前記被写界深度距離は前記人間の目から前記顔画像を撮影するレンズまでの距離であり、前記付加効果座標を中心とする付加領域を決定することは、前記被写界深度距離及び前記付加効果座標に基づいて、前記付加効果座標に対応する付加被写界深度距離を決定することと、前記付加効果座標を中心とし、大きさは前記付加被写界深度距離に基づいて決定される前記付加領域を決定することとを含む。
本開示の1つ又は複数の実施例によれば、例8は顔画像の処理デバイスを提供し、前記デバイスは、予め設定された認識アルゴリズムに応じて、処理対象顔画像における、人間の目の第1の座標及び前記人間の目の視線と前記顔画像のエッジとの交点を指示するためのエッジ座標を含む視線情報を取得するための取得モジュールと、前記視線情報に基づいて前記顔画像における、前記第1の座標及び前記エッジ座標を端点とする視線線分を含む目標領域を決定するための第1の確定モジュールと、予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得るためのレンダリングモジュールとを含む。
本開示の1つ又は複数の実施例によれば、例9はコンピュータ可読媒体を提供し、その上にはコンピュータプログラムが記憶され、当該プログラムが処理デバイスにより実行される場合に例1~例7に記載の方法のステップを実現する。
本開示の1つ又は複数の実施例によれば、例10は電子装置を提供し、コンピュータプログラムが記憶される記憶デバイスと、例1から例7における前記方法のステップを実現するように、前記記憶デバイスにおける前記コンピュータプログラムを実行するための処理デバイスとを含む。
本開示の1つ又は複数の実施例によれば、例11はコンピュータプログラムを提供し、コンピュータは当該コンピュータプログラムを運転するときに、コンピュータコードは実行されることにより、例1から例7における前記方法のステップを実現するプログラムコードとを含む。
以上の説明は本開示の好ましい実施例及び適用される技術原理の説明のみである。当業者であれば理解されるように、本開示に係る開示範囲は、上記技術的特徴の特定の組み合わせの技術的解決手段に限定されるものではなく、同時に上記開示の構想から逸脱することなく、上記技術的特徴又はその同等の特徴を任意に組み合わせて形成された他の技術的解決手段をカバーすべきである。例えば、上記特徴は、本開示において開示され(但し、これらに限定されるものではない)、同様の機能を有する技術的特徴を相互に置換した技術案である。
また、特定の順序で各操作を記述したが、これらの操作は示された特定の順序又は手順の順序で実行されることを要求するものと理解すべきではない。一定の環境で、マルチタスク及び並列処理が有利である可能性がある。同様に、上記においていくつかの具体的な実現の詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。個別の実施例のコンテキストに記述されたいくつかの特徴はさらに単一の実施例に組み合わせて実現してもよい。逆に、単一の実施例のコンテキストに説明された様々な特徴は単独で又は任意の適切なサブセットの方式で複数の実施例に実現することもできる。
構造的な特徴及び/又は方法の論理動作に特定した言語を用いて本テーマを説明したが、添付の特許請求の範囲に限定されたテーマは必ずしも上記特定の特徴又は動作に限定されるものではないと理解すべきである。逆に、上記説明した特定の特徴及び動作は単なる特許請求の範囲を実現するための例示的な形態である。上記実施例におけるデバイスについて、ここで各モジュールが動作を実行する具体的な方式は当該方法に関連する実施例において詳細に説明され、ここで詳細に説明しない。

Claims (11)

  1. 予め設定された認識アルゴリズムに応じて、処理対象顔画像における、人間の目の第1の座標及び、前記人間の目の視線と顔画像全体の長方形の辺である前記顔画像のエッジとの交点を指示するためのエッジ座標を含む視線情報を取得することと、
    前記視線情報に基づいて前記顔画像における、前記第1の座標及び前記エッジ座標を端点とする視線線分を含む目標領域を決定することと、
    予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることとを含む、
    ことを特徴とする顔画像の処理方法。
  2. 前記視線情報は被写界深度距離をさらに含み、前記被写界深度距離は前記人間の目から前記顔画像を撮影するレンズまでの距離であり、前記視線情報に基づいて前記顔画像における目標領域を決定することは、
    前記被写界深度距離に基づいて前記被写界深度距離と負相関がある第1の距離を決定し、且つ前記顔画像の画像サイズに基づいて前記画像サイズと正相関がある第2の距離を決定することと、
    前記視線線分を含み、かつ幅は前記第1の距離であり、長さが前記第2の距離である矩形領域を前記目標領域とすることとを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることは、
    前記第1の距離及び前記第2の距離に応じて前記効果素材の大きさを調整して、調整された前記効果素材を前記目標領域にレンダリングすることにより、前記目標画像を得ることを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記視線線分を含み、かつ幅が前記第1の距離であり、長さが前記第2の距離である矩形を前記目標領域とすることは、
    辺の長さが前記第1の距離であり、中点が前記第1の座標であり、かつ前記視線線分と垂直する第1の辺を決定することと、
    辺の長さが前記第2の距離であり、かつ前記第1の辺に垂直する第2の辺を決定することと、
    前記第1の辺と前記第2の辺で構成され、かつ前記視線線分を含む矩形を前記目標領域とすることとを含む、
    ことを特徴とする請求項2又は3に記載の方法。
  5. 前記予め設定された認識アルゴリズムに応じて、処理対象顔画像における視線情報を取得することは、
    前記顔画像を予めトレーニングされた視線認識モデルに入力することにより、視線認識モデルが出力する第1の座標、前記エッジ座標及び被写界深度距離を得ることを含む、
    ことを特徴とする請求項2~4のいずれか一項に記載の方法。
  6. 前記顔画像に複数の前記視線線分が存在し、前記視線情報に基づいて前記顔画像における目標領域を決定した後、前記方法は、さらに、
    前記視線情報に基づいて複数の前記視線線分の交点座標を決定することと、
    前記エッジ座標、及び/又は前記交点座標を付加効果座標とすることと、
    前記付加効果座標を中心とする付加領域を決定することと、
    前記予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることとを含み、
    ここで、前記予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得ることは、
    前記効果素材を前記目標領域にレンダリングし、且つ予め設定された付加効果素材を前記付加領域にレンダリングすることにより、前記目標画像を取得することを含む、
    ことを特徴とする請求項1~5のいずれか一項に記載の方法。
  7. 前記視線情報は被写界深度距離をさらに含み、前記被写界深度距離は前記人間の目から前記顔画像を撮影するレンズまでの距離であり、
    前記付加効果座標を中心とする付加領域を決定することは、
    前記被写界深度距離及び前記付加効果座標に基づいて、前記付加効果座標に対応する付加被写界深度距離を決定することと、
    前記付加効果座標を中心とし、大きさは前記付加被写界深度距離に基づいて決定される前記付加領域を決定することとを含む、
    ことを特徴とする請求項6に記載の方法。
  8. 予め設定された認識アルゴリズムに応じて、処理対象顔画像における、人間の目の第1の座標及び、前記人間の目の視線と顔画像全体の長方形の辺である前記顔画像のエッジとの交点を指示するためのエッジ座標を含む視線情報を取得するための取得モジュールと、
    前記視線情報に基づいて前記顔画像における、前記第1の座標及び前記エッジ座標を端点とする視線線分を含む目標領域を決定するための第1の確定モジュールと、
    予め設定された効果素材を前記目標領域にレンダリングすることにより、目標画像を得るためのレンダリングモジュールとを含む、
    ことを特徴とする顔画像の処理デバイス。
  9. コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
    当該プログラムが処理デバイスにより実行されるときに、請求項1~7のいずれか一項に記載の方法を実現する、
    ことを特徴とするコンピュータ可読媒体。
  10. コンピュータプログラムが記憶される電子装置であって、
    コンピュータプログラムが記憶されている記憶デバイスと、
    前記記憶デバイスにおける前記コンピュータプログラムを実行することにより、請求項1~7のいずれか一項に記載の方法のステップを実現するための処理デバイスとを含む、
    ことを特徴とする電子装置。
  11. プログラムコードを含み、コンピュータがコンピュータプログラムを実行するときに、前記プログラムコードは実行されることにより、請求項1~7のいずれか一項に記載の方法のステップを実現する、
    ことを特徴とする前記コンピュータプログラム。
JP2021571584A 2020-01-06 2020-11-06 顔画像の処理方法、デバイス、可読媒体及び電子装置 Active JP7316387B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010010716.5 2020-01-06
CN202010010716.5A CN111243049B (zh) 2020-01-06 2020-01-06 人脸图像的处理方法、装置、可读介质和电子设备
PCT/CN2020/127260 WO2021139382A1 (zh) 2020-01-06 2020-11-06 人脸图像的处理方法、装置、可读介质和电子设备

Publications (2)

Publication Number Publication Date
JP2022535524A JP2022535524A (ja) 2022-08-09
JP7316387B2 true JP7316387B2 (ja) 2023-07-27

Family

ID=70865325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021571584A Active JP7316387B2 (ja) 2020-01-06 2020-11-06 顔画像の処理方法、デバイス、可読媒体及び電子装置

Country Status (5)

Country Link
US (1) US11887325B2 (ja)
JP (1) JP7316387B2 (ja)
CN (1) CN111243049B (ja)
GB (1) GB2599036A (ja)
WO (1) WO2021139382A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243049B (zh) 2020-01-06 2021-04-02 北京字节跳动网络技术有限公司 人脸图像的处理方法、装置、可读介质和电子设备
CN111754613A (zh) * 2020-06-24 2020-10-09 北京字节跳动网络技术有限公司 图像装饰方法、装置、计算机可读介质和电子设备
CN112257598B (zh) * 2020-10-22 2024-06-18 北京字跳网络技术有限公司 图像中四边形的识别方法、装置、可读介质和电子设备
CN113838189B (zh) * 2021-09-13 2024-02-02 厦门美图之家科技有限公司 一种睫毛渲染方法及装置
CN114202617A (zh) * 2021-12-13 2022-03-18 北京字跳网络技术有限公司 视频图像处理方法、装置、电子设备及存储介质
CN116934577A (zh) * 2022-04-01 2023-10-24 北京字跳网络技术有限公司 一种风格图像生成方法、装置、设备及介质
CN117095108B (zh) * 2023-10-17 2024-01-23 海马云(天津)信息技术有限公司 虚拟数字人的纹理渲染方法及装置、云服务器和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282931A (ja) 2008-05-26 2009-12-03 Sony Computer Entertainment Inc 画像処理装置、画像処理方法及びプログラム
JP2011049988A (ja) 2009-08-28 2011-03-10 Nikon Corp 画像処理装置およびカメラ

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152778B2 (en) * 2015-09-11 2018-12-11 Intel Corporation Real-time face beautification features for video images
CN106249413B (zh) * 2016-08-16 2019-04-23 杭州映墨科技有限公司 一种模拟人眼对焦的虚拟动态景深变化处理方法
DK179948B1 (en) * 2017-05-16 2019-10-22 Apple Inc. Recording and sending Emoji
CN107563353B (zh) * 2017-09-26 2020-06-23 维沃移动通信有限公司 一种图像处理方法、装置及移动终端
CN107818305B (zh) 2017-10-31 2020-09-22 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
CN107909058A (zh) * 2017-11-30 2018-04-13 广东欧珀移动通信有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN107909057A (zh) * 2017-11-30 2018-04-13 广东欧珀移动通信有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN108898546B (zh) * 2018-06-15 2022-08-16 北京小米移动软件有限公司 人脸图像处理方法、装置及设备、可读存储介质
CN108958610A (zh) * 2018-07-27 2018-12-07 北京微播视界科技有限公司 基于人脸的特效生成方法、装置和电子设备
JP7146585B2 (ja) * 2018-11-13 2022-10-04 本田技研工業株式会社 視線検出装置、プログラム、及び、視線検出方法
CN109584152A (zh) * 2018-11-30 2019-04-05 深圳市脸萌科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN110378839A (zh) * 2019-06-28 2019-10-25 北京字节跳动网络技术有限公司 人脸图像处理方法、装置、介质及电子设备
CN110378847A (zh) * 2019-06-28 2019-10-25 北京字节跳动网络技术有限公司 人脸图像处理方法、装置、介质及电子设备
CN110555798B (zh) * 2019-08-26 2023-10-17 北京字节跳动网络技术有限公司 图像变形方法、装置、电子设备及计算机可读存储介质
CN111243049B (zh) * 2020-01-06 2021-04-02 北京字节跳动网络技术有限公司 人脸图像的处理方法、装置、可读介质和电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282931A (ja) 2008-05-26 2009-12-03 Sony Computer Entertainment Inc 画像処理装置、画像処理方法及びプログラム
JP2011049988A (ja) 2009-08-28 2011-03-10 Nikon Corp 画像処理装置およびカメラ

Also Published As

Publication number Publication date
GB2599036A9 (en) 2023-06-07
GB2599036A (en) 2022-03-23
US20220327726A1 (en) 2022-10-13
CN111243049B (zh) 2021-04-02
GB202117372D0 (en) 2022-01-12
US11887325B2 (en) 2024-01-30
CN111243049A (zh) 2020-06-05
JP2022535524A (ja) 2022-08-09
WO2021139382A1 (zh) 2021-07-15

Similar Documents

Publication Publication Date Title
JP7316387B2 (ja) 顔画像の処理方法、デバイス、可読媒体及び電子装置
CN108292043B (zh) 多光学表面光学设计
US9858031B2 (en) Colony desktop hive display: creating an extended desktop display from multiple mobile devices using near-field or other networking
TWI514314B (zh) 丟棄過濾器分接點之紋理位址模式
KR20230079177A (ko) 증강 현실 콘텐츠 생성기들을 절차적으로 생성함
CN112933599A (zh) 三维模型渲染方法、装置、设备及存储介质
TWI752473B (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體
WO2023138559A1 (zh) 虚拟现实交互方法、装置、设备和存储介质
CN112034984A (zh) 一种虚拟模型处理方法、装置、电子设备和存储介质
CN112308780A (zh) 图像的处理方法、装置、设备及存储介质
KR20230079264A (ko) 증강 현실 콘텐츠 생성기들에 대한 수집 파이프라인
CN114419213A (zh) 图像处理方法、装置、设备和存储介质
CN111461965B (zh) 图片处理方法、装置、电子设备和计算机可读介质
WO2020259152A1 (zh) 贴纸生成方法、装置、介质和电子设备
CN109636922B (zh) 一种用于呈现增强现实内容的方法与设备
CN114040129B (zh) 视频生成方法、装置、设备及存储介质
CN110619615A (zh) 用于处理图像方法和装置
CN111461969B (zh) 用于处理图片的方法、装置、电子设备和计算机可读介质
WO2021073204A1 (zh) 对象的显示方法、装置、电子设备及计算机可读存储介质
CN112099712B (zh) 人脸图像显示方法、装置、电子设备及存储介质
TWI601090B (zh) 用於隨機柵格化之彈性散焦模糊的技術
KR102534449B1 (ko) 이미지 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체
RU2802724C1 (ru) Способ и устройство обработки изображений, электронное устройство и машиночитаемый носитель информации
CN115202792A (zh) 用于场景切换的方法、装置、设备和存储介质
TWI502539B (zh) 用於隨機柵格化之使用線性邊界的淘汰技術

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230714

R150 Certificate of patent or registration of utility model

Ref document number: 7316387

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150