KR102498056B1 - Metahuman generation system and method in metaverse - Google Patents

Metahuman generation system and method in metaverse Download PDF

Info

Publication number
KR102498056B1
KR102498056B1 KR1020220021481A KR20220021481A KR102498056B1 KR 102498056 B1 KR102498056 B1 KR 102498056B1 KR 1020220021481 A KR1020220021481 A KR 1020220021481A KR 20220021481 A KR20220021481 A KR 20220021481A KR 102498056 B1 KR102498056 B1 KR 102498056B1
Authority
KR
South Korea
Prior art keywords
face
feature point
image
avatar
metaverse
Prior art date
Application number
KR1020220021481A
Other languages
Korean (ko)
Inventor
류광웅
Original Assignee
주식회사 공간과 상상
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 공간과 상상 filed Critical 주식회사 공간과 상상
Priority to KR1020220021481A priority Critical patent/KR102498056B1/en
Application granted granted Critical
Publication of KR102498056B1 publication Critical patent/KR102498056B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

The present invention relates to a system and method for creating metahumans used in a metaverse. More specifically, the present invention provides a system and method for creating metahumans in a metaverse that resemble actual users by using deep learning. The system of the present invention includes: an image receiving unit that receives a photo including a user's face from a user terminal; a feature point extraction unit that detects feature points from the face received from the image receiving unit; and an avatar face generating unit that generates an avatar face based on the feature points extracted from the feature point extraction unit, wherein the avatar face generating unit operates to generate the avatar face using a deep learning-based face generation model. The present invention can improve the sense of reality and presence felt within a virtual space.

Description

메타버스내 메타휴먼의 생성 시스템 및 방법{METAHUMAN GENERATION SYSTEM AND METHOD IN METAVERSE}Metahuman generation system and method in the metaverse {METAHUMAN GENERATION SYSTEM AND METHOD IN METAVERSE}

본 발명은 메타버스내 이용되는 메타휴먼의 생성 방법에 관한 것으로 보다 구체적으로는 딥러닝을 이용하여 실제 사용자의 모습과 유사한 메타버스내 메타휴먼을 생성하는 시스템 및 방법에 관한 것이다.The present invention relates to a method for generating a metahuman used in a metaverse, and more specifically, to a system and method for generating a metahuman similar to a real user in a metaverse using deep learning.

메타버스(Metaverse)는 가상, 초월(meta)과 세계,우주(universe)의 합성어로 3차원 가상세계를 의미한다. 메타버스(Metaverse)의 엄밀한 정의는 현실 세계와 같은 사회적, 경제적 활동이 통용되는 3차원 가상공간이라 말할수 있다. 예를들면 네이버에서 개발한 "제페토"가 알려져 있다. 특히 코로나19 시대의 도래와 함께 비대면 활동 수요가 급증하면서 원격 미팅 서비스, 원격 교육 서비스, 원격의료 서비스, 원격 상거래 서비스 등의 현실 세계의 사회적 경제적 활동의 원격 서비스에 대한 연구 개발이 각광받고 있다.Metaverse is a compound word of virtual, transcendence (meta) and world, universe (universe), and means a three-dimensional virtual world. A strict definition of the metaverse can be said to be a three-dimensional virtual space where social and economic activities like the real world are accepted. For example, "ZEPETO" developed by Naver is known. In particular, as the demand for non-face-to-face activities soars with the advent of the COVID-19 era, research and development on remote services for social and economic activities in the real world, such as remote meeting services, distance education services, remote medical services, and remote commerce services, is in the spotlight.

3차원 가상공간 서비스를 실현하는 핵심기술 중 하나로 아바타 생성기술이 있다. 메타버스 환경에서 사용자는 아바타를 이용하여 가상공간에서 모든 활동을 수행하기 때문에 가상공간 내에서 아바타의 형태 또는 이미지는 가상공간 내 서비스의 현실감 또는 현장감을 제공하는 중요한 요소이기도 하다.One of the key technologies to realize 3D virtual space service is avatar generation technology. In the metaverse environment, since users perform all activities in virtual space using avatars, the form or image of avatars in virtual space is also an important factor that provides a sense of realism or realism of services in virtual space.

그러나 최근 가상공간에서 이용되는 아바타의 경우 사용자는 서비스 제공자측에서 제공하는 툴을 이용하여 아바타의 눈, 코, 입, 얼굴형태와 같은 요소들을 본인이 직접 조합하여 이용하고 있기 때문에 가상공간 내에서 느껴지는 현장감이 떨어지게 되는 문제점이 있다.However, in the case of avatars used in recent virtual spaces, users directly combine elements such as the eyes, nose, mouth, and face shape of the avatar using tools provided by service providers, so they can feel the feeling in the virtual space. There is a problem that the sense of place is degraded.

한국공개특허 10-2020-0135538(2020년12월02일)Korean Patent Publication No. 10-2020-0135538 (December 02, 2020)

본 발명은 전술한 문제점에 기반하여 메타버스내 이용되는 아바타의 얼굴을 사용자의 실제 얼굴에 기반하여 자동으로 생성할 수 있는 딥러닝 기반의 메타버스내 메타휴먼의 생성 시스템 및 방법을 제공하는 것을 목적으로 한다. The purpose of the present invention is to provide a deep learning-based metahuman generation system and method that can automatically generate the face of an avatar used in the metaverse based on the user's real face based on the above-mentioned problems. to be

전술한 과제를 해결하기 위해 본 발명의 일양태에 따르면, 메타버스내 메타휴먼을 생성하기 위한 시스템이 제공되고, 이 시스템은, According to one aspect of the present invention to solve the above problems, a system for generating a metahuman in a metaverse is provided, the system comprising:

사용자 단말로부터 사용자의 얼굴을 포함하는 사진을 수신하는 이미지 수신부;an image receiving unit for receiving a picture including a user's face from a user terminal;

이미지 수신부로부터 쉰된 얼굴로부터 특징점을 검출하는 특징점 추출부; 및a feature point extraction unit that detects a feature point from a face that has been removed from the image receiving unit; and

특징점 추출부에서 추출된 특징점에 기반하여 아바타 얼굴을 생성하는 아바타 얼굴 생성부를 포함하고,An avatar face generator for generating an avatar face based on the feature points extracted by the feature point extractor;

상기 아바타 얼굴 생성부는 딥러닝 기반의 얼굴생성모델에 의해 아바타 얼굴을 생성하도록 동작한다. The avatar face generation unit operates to generate an avatar face using a face generation model based on deep learning.

전술한 양태에서, 이미지 수신부에서 수신된 이미지는 이미지 전처리부에 의해 전처리되고, 이미지 전처리부는,In the above aspect, the image received by the image receiving unit is pre-processed by the image pre-processing unit, and the image pre-processing unit comprises:

수신된 이미지로부터 얼굴 부분만을 추출하는 동작;extracting only the face part from the received image;

수신된 이미지의 밝기, 색상을 조정하는 동작; 및adjusting the brightness and color of the received image; and

수신된 이미지의 틸팅 동작을 수행하도록 구성된다.It is configured to perform a tilting operation of the received image.

또한 전술한 어느 하나의 양태에서, 특징점 추출부는 딥러닝 기반으로 한 얼굴의 눈, 코, 입, 턱, 눈섭을 인식하도록 학습되고, 특징점 추출부는 눈 크기, 눈꼬리 높이, 눈썹 모양, 눈썹 길이, 눈썹꼬리 높이, 이마 높이, 이마 폭, 코 길이, 콧망울 크기, 입술 두께, 입 크기, 입술 꼬리 높이, 인당(눈과 눈썹간 거리), 인중(코와 윗입술간 거리), 미간(눈썹간 거리)의 형태와 길이 정보를 더 추출하도록 구성된다. In addition, in any one of the above-described aspects, the feature point extraction unit is trained to recognize the eyes, nose, mouth, chin, and eyebrows of a face based on deep learning, and the feature point extraction unit is used to determine the size of the eyes, the height of the tail of the eyes, the shape of the eyebrows, the length of the eyebrows, the eyebrows Tail height, forehead height, forehead width, nose length, nostril size, lip thickness, mouth size, lip tail height, per capita (distance between eyes and eyebrows), philtrum (distance between nose and upper lip), between eyebrows (distance between eyebrows) It is configured to further extract the shape and length information of

또한 전술한 어느 하나의 양태에서, 특징점 추출부는 특징점 정보로서 경혈점 정보를 더 포함하고, 경혈점 정보는 손궁, 리궁, 곤궁, 진공, 중궁, 태궁, 산궁, 감궁, 건궁으로 이루어진 9개의 얼굴 영역을 포함한다. In addition, in any one of the above-described aspects, the feature point extraction unit further includes information on acupuncture points as feature point information, and the information on acupuncture points includes 9 face regions consisting of hand bow, rib bow, impoverished bow, vacuum bow, middle bow, big bow, maternal bow, gam bow, and gun bow. do.

본 발명에 따르면 메타버스내 이용되는 아바타의 얼굴을 사용자의 실제 얼굴을 촬영한 이미지 또는 동영상에 기반하여 딥러닝을 통해 훈련된 얼굴인식 모델을 이용하여 자동으로 생성함에 따라 사용자의 실제 얼굴과 유사한 메타휴먼 또는 아바타를 생성할 수 있게 되어 가상공간 내에서 느껴지는 현실감 및 현장감을 향상시킬 수 있다.According to the present invention, the face of the avatar used in the metaverse is automatically generated using a face recognition model trained through deep learning based on an image or video of a user's real face, so that the metaverse is similar to the user's real face. Since it is possible to create a human or an avatar, it is possible to improve the sense of realism and realism felt in the virtual space.

도 1은 본 발명에 따른 메타버스내 메타휴먼의 생성 시스템의 일례를 나타내는 도면;
도 2는 본 발명에 따른 아바타 생성 서버 또는 메타버스 서버 내의 아바타 생성부의 구성을 나타내는 도면;
도 3은 본 발명에 따른 아바타 생성시 이용되는 학습 장치의 일례를 나타내는 도면;
도 4는 딥러닝 기반의 특징점 추출의 일례를 나타내는 도면;
도 5는 본 발명에 따른 아바타 생성시 얼굴의 특징점으로 이용되는 얼굴 경혈점을 나타내는 도면;
도 6는 3D 메시 포인트 매칭에 따른 매쉬 변형 및 텍스처링 과정을 나타내는 도면;
도 7은 아바타 복장 및 소품 라이브러리의 예시를 나타내는 도면이다.
1 is a diagram showing an example of a system for generating metahumans in a metaverse according to the present invention;
2 is a diagram showing the configuration of an avatar creation unit in an avatar creation server or metaverse server according to the present invention;
3 is a diagram showing an example of a learning device used when creating an avatar according to the present invention;
4 is a diagram showing an example of feature point extraction based on deep learning;
5 is a diagram showing facial acupoints used as facial feature points when creating an avatar according to the present invention;
6 is a diagram illustrating a mesh deformation and texturing process according to 3D mesh point matching;
7 is a diagram illustrating an example of an avatar costume and prop library.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시예를 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이다. 본 명세서에서 본 실시예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 그리고 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 따라서, 몇몇 실시예들에서, 잘 알려진 구성 요소, 잘 알려진 동작 및 잘 알려진 기술들은 본 발명이 모호하게 해석되는 것을 피하기 위하여 구체적으로 설명되지 않는다. Advantages and features of the present invention, and methods for achieving them, will become clear with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and will be implemented in various different forms. In this specification, this embodiment is provided to complete the disclosure of the present invention, and to completely inform those skilled in the art of the scope of the invention to which the present invention belongs. And the invention is only defined by the scope of the claims. Thus, in some embodiments, well-known components, well-known operations and well-known techniques have not been described in detail in order to avoid obscuring the interpretation of the present invention.

본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 정의되어 있지 않은 한 이상적으로 또는 과도하게 해석되지 않는다. All terms (including technical and scientific terms) used in this specification may be used in a meaning that can be commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless they are defined.

이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 보다 상세하게 설명하도록 한다. 도 1은 본 발명에 따른 메타휴먼의 생성 시스템의 일례를 나타내는 도면이다.Hereinafter, embodiments of the present invention will be described in more detail with reference to the accompanying drawings. 1 is a diagram showing an example of a metahuman generation system according to the present invention.

도 1에 도시된 바와 같이 본 발명에 따른 메타휴먼의 생성 시스템은 네트워크를 통해 서로 연결된 복수의 사용자 단말(10) 및 메타버스 서버(20)를 포함한다. 통신망(30)은 사용자 단말(10)과 메타버스 서버(20) 사이의 정보 송수신을 위한 통로를 제공하는 역할을 한다. 즉, 통신망이라고 함은 사용자 단말의 디스플레이부 또는 HMD와 같은 웨어러블 장치의 디스플레이부에 메타버스 서비스를 제공하기 위하여, 사용자 단말(10) 및 메타버스 서버(20) 사이의 데이터 송수신이 이루어질 수 있도록 하는 모든 데이터 망을 포함한다.As shown in FIG. 1 , the metahuman creation system according to the present invention includes a plurality of user terminals 10 and a metaverse server 20 connected to each other through a network. The communication network 30 serves to provide a passage for information transmission and reception between the user terminal 10 and the metaverse server 20 . That is, the communication network refers to a display unit of a user terminal or a display unit of a wearable device such as an HMD to provide a metaverse service, enabling data transmission and reception between the user terminal 10 and the metaverse server 20 to be made. Includes all data networks.

예를 들어, 이와 같은 기능을 수행하는 통신망(30)은 인터넷 프로토콜(IP, Internet Protocol)을 통하여 대용량 데이터의 송수신 서비스 및 끊기는 현상이 없는 데이터 서비스를 제공하는 아이피망으로, 아이피를 기반으로 서로 다른 망을 통합한 아이피망 구조인 올 아이피(All IP)망 일 수 있다. 또한, 통신망(30)은 유선통신망, 이동통신망, Wibro(Wireless Broadband)망, HSDPA(High Speed Downlink Packet Access)망, 위성통신망 및 와이파이(WI-FI, Wireless Fidelity)망, 4G , 5G와 같은 통신망 중 하나일 수 있다.For example, the communication network 30 performing such a function is an IP network that provides large data transmission and reception services and data services without interruption through Internet Protocol (IP). It may be an All IP network, which is an IP network structure that integrates networks. In addition, the communication network 30 is a communication network such as a wired communication network, a mobile communication network, a Wibro (Wireless Broadband) network, a High Speed Downlink Packet Access (HSDPA) network, a satellite communication network and a Wi-Fi (Wireless Fidelity) network, 4G, 5G can be one of

사용자 단말(10)은 메타버스 서버(20)에 접속하여 메타버스 서비스를 수행할 수 있는 장치라면 한정되는 것은 아니지만 스마트폰, 스마트 패드와 같은 스마트 단말, 랩탑 컴퓨터, 노트북, PC, HMD와 같은 장치가 이용될 수도 있으며, 통신망을 통해 사용자의 얼굴 이미지를 촬영하여 서버(20)에 전송하거나, 사용자 단말(10)에 저장된 사용자의 얼굴 이미지를 서버(20)에 전송할 수 있는 장치라면 특별하게 한정되는 것은 아니다.The user terminal 10 is not limited to any device capable of accessing the metaverse server 20 and performing the metaverse service, but devices such as smart terminals such as smart phones and smart pads, laptop computers, notebooks, PCs, and HMDs. may be used, and a device capable of capturing a user's face image and transmitting the user's face image stored in the user terminal 10 to the server 20 through a communication network is specially limited It is not.

메타버스 서버(20)는 서버(20)에 접속한 사용자에게 메타버스 환경을 제공하는 기능을 수행하는데, 구체적으로는 메타버스 서버(20)는 다양한 메타버스 공간을 서로 다른 현실공간에 위치하는 복수의 사용자들에게 제공하며, 이때, 각각의 사용자들은 사용자 단말(10)을 이용하여 메타버스 서버(20)에 원격으로 접속하여 동일한 메타버스 공간을 공유할 수 있게 된다. The metaverse server 20 performs a function of providing a metaverse environment to users who access the server 20. Specifically, the metaverse server 20 provides a plurality of metaverse spaces located in different real spaces. Provided to the users of, at this time, each user is able to remotely access the metaverse server 20 using the user terminal 10 to share the same metaverse space.

이에 따라, 메타버스 서버에 접속한 사용자는 메타버스 서버(20)가 제공하는 메타버스 공간을 모니터 또는 HMD 등과 같은 디스플레이 수단을 통해 가상현실의 3D 그래픽으로 제공받을 수 있으며, 메타버스 공간 상에서 자신의 모습이 투영된 아바타를 보며 메타버스 공간 내에서 다양한 활동을 즐길 수 있게 된다. Accordingly, the user who accesses the metaverse server can receive the metaverse space provided by the metaverse server 20 as 3D graphics of virtual reality through a display means such as a monitor or HMD, and You will be able to enjoy various activities within the metaverse space by looking at the avatar on which your appearance is projected.

본 발명에서는 메타버스 내 이용되는 아바타의 생성에 관한 것으로 이하 설명에서는 아바타 생성과 관련된 기술 구성에 대해 구체적으로 설명하며 그 이외의 구성에 대해서는 생략하도록 한다.The present invention relates to the generation of avatars used in the metaverse, and in the following description, technical configurations related to avatar creation will be described in detail, and other configurations will be omitted.

도 2는 전술한 바와 같은 메타버스 서버(20)(또는 아바타 생성 서버로 언급됨)의 구성을 개략적으로 도시한 블록도이다. 도 2에 도시된 바와 같이 메타버스 서버(20)는 이미지 수신부(210), 특징점 추출부(220), 얼굴 생성부(230), 및 아바타 저장부(240)을 포함하고, 아바타의 얼굴 생성부(230)는 딥러닝 학습장치(500)에 의해 학습된 딥러닝 기반 얼굴생성모델에 의해 아바타의 얼굴을 생성하도록 기능한다. 본 발명의 메타버스 서버(20)의 구성요소를 설명하기 이전에 인공학습에 대한 이해를 돕기 위해 인공신경망 학습장치(500)에 대해 도 3을 참조하여 먼저 설명하도록 한다.2 is a block diagram schematically showing the configuration of the metaverse server 20 (or referred to as an avatar creation server) as described above. As shown in FIG. 2, the metaverse server 20 includes an image receiver 210, a feature point extractor 220, a face generator 230, and an avatar storage unit 240, and an avatar face generator. 230 functions to generate the face of the avatar by the deep learning-based face generation model learned by the deep learning learning device 500. Before explaining the components of the metaverse server 20 of the present invention, the artificial neural network learning apparatus 500 will be described first with reference to FIG. 3 to help understanding artificial learning.

도 3은 얼굴생성모델을 훈련하기 위한 학습장치의 일례를 나타낸다. 인공신경망 학습장치(500)는 훈련 데이터를 이용하여 기계 학습을 수행할 수 있는 장치로서, 인공 신경망으로 구성된 모델을 이용하여 학습하는 장치를 포함할 수 있다. 즉, 신경망 훈련 장치는 데이터 마이닝, 데이터 분석, 지능형 의사 결정 및 기계 학습 알고리즘을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성될 수 있다. 여기서, 기계 학습 알고리즘은 딥 러닝 알고리즘을 포함할 수 있다.3 shows an example of a learning device for training a face generation model. The artificial neural network learning device 500 is a device that can perform machine learning using training data, and may include a device that learns using a model composed of an artificial neural network. That is, the neural network training apparatus may be configured to receive, classify, store, and output information to be used for data mining, data analysis, intelligent decision-making, and machine learning algorithms. Here, the machine learning algorithm may include a deep learning algorithm.

신경망 학습 장치(500)는 적어도 하나의 외부 장치 또는 단말기와 통신할 수 있고, 외부 장치를 대신하여 혹은 외부장치를 도와 데이터를 분석하거나 학습하여 결과를 도출할 수 있다. 여기서, 다른 장치를 도운다는 의미는 분산 처리를 통한 연산력의 분배를 의미할 수 있다.The neural network training apparatus 500 may communicate with at least one external device or terminal, and may analyze data or learn results in place of or assisting the external device. Here, the meaning of helping other devices may mean distribution of computing power through distributed processing.

신경망 학습 장치(500)는 인공 신경망을 학습하기 위한 장치로서, 통상적으로 서버를 의미할 수 있고, 신경망 학습 서버 등으로 지칭할 수 있다. 신경망 학습 장치(500)는 주기적으로 혹은 요청에 의하여 얼굴생성부(230)로 학습한 얼굴생성모델을 전송하거나 이미 설치된 얼굴생성모델을 업데이트할 수도 있다.The neural network learning device 500 is a device for learning an artificial neural network, and may generally mean a server, and may be referred to as a neural network learning server. The neural network learning apparatus 500 may periodically or upon request transmit the learned face generation model to the face generation unit 230 or update an already installed face generation model.

신경망 학습 장치(100)는 통신부(Communication Unit, 510), 입력부(Input Unit, 520), 메모리(Memory, 530), 러닝 프로세서(Learning Processor, 540), 및 프로세서(Processor, 560) 등을 포함할 수 있다.The neural network learning apparatus 100 includes a communication unit 510, an input unit 520, a memory 530, a learning processor 540, and a processor 560. can

통신부(510)는 무선 통신부(미도시) 및 인터페이스부(미도시)를 포함하는 구성을 의미할 수 있다. 즉, 통신부(510)는 유무선 통신이나 인터페이스를 통하여 드론과 같은 다른 장치와 데이터를 송수신할 수 있다.The communication unit 510 may refer to a configuration including a wireless communication unit (not shown) and an interface unit (not shown). That is, the communication unit 510 may transmit/receive data with other devices such as drones through wired/wireless communication or an interface.

입력부(520)는 모델 학습을 위한 훈련 데이터 또는 학습된 모델(a trained model)을 이용하여 출력을 획득하기 위한 입력 데이터 등을 획득할 수 있다. 입력부(520)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 러닝 프로세서(540) 또는 프로세서(560)는 획득한 데이터를 전처리하여 모델 학습에 입력이 가능한 훈련 데이터 또는 전처리된 입력 데이터를 생성할 수 있다.The input unit 520 may obtain training data for model learning or input data for obtaining an output using a trained model. The input unit 520 may obtain raw input data. In this case, the learning processor 540 or the processor 560 preprocesses the acquired data to generate training data or preprocessed input data that can be input to model learning. can do.

메모리(530)는 러닝 프로세서(540) 또는 신경망 학습 장치(500)에서 학습된 모델을 저장할 수 있다. 이때, 메모리(530)는 필요에 따라 학습된 모델을 학습 시점 또는 학습 진척도 등에 따라 복수의 버전으로 구분하여 저장할 수 있다. 이때, 메모리(530)는 입력부(520)에서 획득한 입력 데이터, 모델 학습을 위하여 이용되는 학습 데이터(또는 훈련 데이터), 모델의 학습 히스토리 등을 저장할 수 있다. 이때, 메모리(530)에 저장된 입력 데이터는 모델 학습에 적합하게 가공된 데이터뿐만 아니라, 가공되지 않은 입력 데이터 그 자체일 수 있다.The memory 530 may store a model learned by the learning processor 540 or the neural network learning apparatus 500 . At this time, the memory 530 may store the learned model by dividing it into a plurality of versions according to the learning time or learning progress, as needed. In this case, the memory 530 may store input data obtained from the input unit 520, learning data (or training data) used for model learning, and a learning history of the model. At this time, the input data stored in the memory 530 may be not only processed data suitable for model learning, but also unprocessed input data itself.

메모리(530)는 모델 저장부(531) 및 데이터베이스(532) 등을 포함할 수 있다. 모델 저장부(531)는 러닝 프로세서(540)을 통하여 학습 중인 또는 학습된 신경망 모델(또는 인공 신경망, 531a)을 저장하며, 학습을 통하여 모델이 업데이트되면 업데이트 된 모델을 저장한다. 이때, 모델 저장부(531)는 필요에 따라 학습된 모델을 학습 시점 또는 학습 진척도 등에 따라 복수의 버전으로 구분하여 저장할 수 있다.The memory 530 may include a model storage unit 531 and a database 532 . The model storage unit 531 stores a neural network model (or artificial neural network, 531a) that is being learned or learned through the learning processor 540, and stores the updated model when the model is updated through learning. In this case, the model storage unit 531 may classify and store the learned model into a plurality of versions according to learning time or learning progress, as needed.

데이터베이스(532)는 입력부(520)에서 획득한 입력 데이터, 모델 학습을 위하여 이용되는 학습 데이터(또는 훈련 데이터), 모델의 학습 히스토리 등을 저장할 수 있다. 데이터베이스(532)에 저장된 입력 데이터는 모델 학습에 적합하게 가공된 데이터뿐만 아니라, 가공되지 않은 입력 데이터 그 자체일 수 있다.The database 532 may store input data obtained from the input unit 520, learning data (or training data) used for model learning, and a learning history of the model. The input data stored in the database 532 may be processed data suitable for model learning as well as unprocessed input data itself.

러닝 프로세서(540)는 훈련 데이터 또는 트레이닝 셋(training set)을 이용하여 인공 신경망(131a)을 훈련(training, 또는 학습)시킬 수 있다. 러닝 프로세서(540)는 프로세서(560)가 입력부(520)를 통해 획득한 입력 데이터를 전처리한 데이터를 바로 획득하여 인공 신경망(531a)을 학습하거나, 데이터베이스(532)에 저장된 전처리된 입력 데이터를 획득하여 인공 신경망(531a)을 학습할 수 있다.The learning processor 540 may train (or learn) the artificial neural network 131a using training data or a training set. The learning processor 540 directly acquires preprocessed input data acquired by the processor 560 through the input unit 520 to learn the artificial neural network 531a or obtains preprocessed input data stored in the database 532 Thus, the artificial neural network 531a can be learned.

구체적으로, 러닝 프로세서(540)는 앞서 설명한 다양한 학습 기법을 이용하여 인공 신경망(531a)을 반복적으로 학습시킴으로써, 인공 신경망(531a)의 최적화된 모델 파라미터들을 결정할 수 있다. 본 명세서에서는 훈련 데이터를 이용하여 학습됨으로써 파라미터가 결정된 인공 신경망을 학습 모델 또는 학습된 모델(a trained model)이라 칭할 수 있다.Specifically, the learning processor 540 may determine optimized model parameters of the artificial neural network 531a by iteratively training the artificial neural network 531a using various learning techniques described above. In this specification, an artificial neural network whose parameters are determined by learning using training data may be referred to as a learning model or a trained model.

이때, 학습 모델은 통신부(510)를 통해 직업 매칭 서버(10) 전송되어 탑재될 수도 있다. 또한, 학습 모델이 업데이트되는 경우, 업데이트된 학습 모델은 통신부(510)를 통해 메타버스 서버(20)의 얼굴 생성부(230)에 전송되어 탑재될 수 있다.At this time, the learning model may be transmitted and loaded into the job matching server 10 through the communication unit 510 . In addition, when the learning model is updated, the updated learning model may be transmitted and loaded to the face generation unit 230 of the metaverse server 20 through the communication unit 510.

러닝 프로세서(540)는 신경망 학습 장치(500)에 통합되거나 구현된 메모리를 포함할 수 있다. 일부 실시 예에서, 러닝 프로세서(540)는 메모리(530)를 사용하여 구현될 수 있다. 선택적으로 또는 부가적으로, 러닝 프로세서(540)는 단말기에 직접 결합된 외부 메모리 또는 단말기와 통신하는 서버에서 유지되는 메모리와 같이 단말기와 관련된 메모리를 사용하여 구현될 수 있다. The learning processor 540 may include a memory integrated or implemented in the neural network learning apparatus 500 . In some embodiments, learning processor 540 may be implemented using memory 530 . Alternatively or additionally, the running processor 540 may be implemented using memory associated with the terminal, such as external memory coupled directly to the terminal or memory maintained in a server communicating with the terminal.

본 발명에서는 사용자의 사진에 기반한 아바타(메타휴먼)생성을 위해 OpenCV 딥러닝 프로세스를 활용한 이미지 검출 및 적용 프로세스를 사용한다.In the present invention, an image detection and application process using OpenCV deep learning process is used to generate an avatar (metahuman) based on a user's picture.

딥러닝 학습에 의한 추론체계 구성을 위해 시스템에 대입할 수 있는 사진 이미지를 무작위로 선정하여 학습자료 DB를 구축하고, 구축된 사진DB에 OpenCV- Python기반의 얼굴검출 프로그램을 적용한다.In order to construct an inference system by deep learning learning, a photo image that can be substituted into the system is randomly selected to build a learning data DB, and an OpenCV-Python-based face detection program is applied to the built photo DB.

또한 이미지상의 얼굴영역(Face Detection) 및 이목구비 특징에 대한 벡터값을 도출하되, 초기에 도출되는 특징들을 원본과 대조하여 오차범위를 산정하고 이를 수정하기 위한 알고리즘을 구성 및 적용하여 다시 원본 이미지를 분석하는 과정을 오차범위가 최소화 될 때까지 반복(딥러닝)하여 정확도를 높이도록 학습시킨다.In addition, vector values for face detection and features of the image are derived, and the original image is analyzed again by constructing and applying an algorithm to calculate the error range by comparing the initially derived features with the original, and then constructing and applying an algorithm to correct it. This process is repeated (deep learning) until the margin of error is minimized to learn to increase accuracy.

다시 도 2를 참조하면, 이미지 수신부(210)는 사용자 단말(10)로부터 사용자의 2D 이미지를 수신하도록 구성된다. 이미지 수신부(210)는 사용자의 2D 얼굴 이미지를 수신하고 수신된 이미지에 대해 전처리 작업을 수행하는 이미지 전처리부(215)를 더 포함할 수 있다. 사용자로부터 수신되는 얼굴 이미지는 얼굴의 위치, 색상 등이 모두 각각 다르기 때문에 사진 데이터에서 사용자 얼굴에 대한 특징점 정보를 추출하기에 적절하지 않기 때문에 이미지 전처리부(215)는 얼굴 이미지 데이터에 대한 사전 처리 작업을 수행한다. 즉, 이미지 전처리부(215)는 전체 사진 데이터 중에서 원하는 얼굴 부분만을 추출하거나 사진의 밝기, 색상 등의 사전 수정 작업을 포함할 수도 있다. Referring back to FIG. 2 , the image receiver 210 is configured to receive a 2D image of a user from the user terminal 10 . The image receiving unit 210 may further include an image pre-processing unit 215 that receives the user's 2D face image and performs pre-processing on the received image. Face images received from the user have different face positions and colors, so it is not appropriate to extract feature point information on the user's face from the photo data. Do it. That is, the image pre-processing unit 215 may extract only a desired face part from the entire photo data or may include a pre-correction work such as brightness and color of the photo.

또한 이미지 전처리부(215)는 사용자의 얼굴 부분만을 추출한 이후 정확한 얼굴의 특징점을 추출할 수 있도록 이미지 틸팅 작업을 더 수행할 수도 있다. 이미지 틸팅 작업은 사진의 얼굴부분을 2차원 평면 상에서 회전시켜 눈, 코, 입, 눈섭, 귀와 같이 얼굴을 구성하는 요소들이 2차원 평면 상에서 기울어지지 않도록 하여 얼굴의 특징점을 보다 정확하게 추출하는데 도움을 준다.In addition, the image pre-processing unit 215 may further perform an image tilting operation to accurately extract facial feature points after extracting only the user's face. Image tilting helps to extract facial feature points more accurately by rotating the face part of the picture on a 2D plane so that the elements that make up the face, such as eyes, nose, mouth, eyebrows, and ears, are not tilted on the 2D plane. .

도 4는 딥러닝 기반의 특징점 추출의 일례를 나타내는 도면이다. 특징점 추출부(220)는 이미지 전처리부(215)에서 전처리된 이미지에 대해 미리 정해진 얼굴의 특징점을 추출하도록 기능한다. 특징점 추출부(220)에서는 딥러닝 학습을 기반으로 얼굴의 눈, 코, 입, 턱 등을 인식하도록 학습 모듈을 구비하며, 기계 학습 모듈을 이용하여 얼굴의 특징점 정보를 추출한다.4 is a diagram illustrating an example of feature point extraction based on deep learning. The feature point extraction unit 220 functions to extract predetermined facial feature points from the image preprocessed by the image preprocessing unit 215 . The feature point extraction unit 220 includes a learning module to recognize the eyes, nose, mouth, chin, etc. of the face based on deep learning, and extracts facial feature point information using the machine learning module.

특징점 추출부(220)는 전술한 바와 같이 구축된 딥러닝 학습모델로 사용자의 사진의 얼굴데이터를 검출해 새로운 이미지에 적용된 딥러닝 모델의 정확도를 교차 검증하고 검출된 이목구비의 주요 특징을 도출한다.The feature point extraction unit 220 detects face data of a user's photo with the deep learning model built as described above, cross-verifies the accuracy of the deep learning model applied to the new image, and derives the main features of the detected features.

얼굴 특징점 추출 과정은 먼저 전처리 과정을 수행한 후 레이블링 연산에서 추출된 후보 객체정보로부터 특징점를 추출하기 위해 다음과 같은 각각의 얼굴 검출 알고리즘이 적용된다. 눈 특징점 검출은 레이블링 연산을 수행한 후 추출한 얼굴개체들에 대해 수직, 수평좌표를 이용하여 수평중앙선 위쪽과 수직중앙선 왼쪽에 존재하는 객체 중에서 대칭되는 객체의 존재여부를 가려낸다. 대칭되는 객체가 두개 이상 존재하면 대칭되는 객체들의 아래쪽에 위치하고, 임계값 이하인 대칭 쌍을 눈 특징점 영역으로 추출한다.In the facial feature point extraction process, the following face detection algorithms are applied to extract feature points from candidate object information extracted from the labeling operation after first performing a preprocessing process. Eye feature point detection detects whether there is a symmetrical object among the objects existing above the horizontal centerline and to the left of the vertical centerline using the vertical and horizontal coordinates of the extracted face objects after performing the labeling operation. If there are two or more symmetrical objects, a symmetrical pair located below the symmetrical objects and less than a threshold value is extracted as an eye feature area.

또한 코 특징점 검출은 눈 특징점를 검출한 후 레이블링된 연산된 객체들 중에서 눈 아래와 양쪽 눈 사이에 존재하며, 수직좌표 차이가 임계값 이하인 객체를 코 영역으로 추출하도록 한다.In addition, nose feature point detection detects eye feature points, and then extracts an object, which exists below the eye and between both eyes, and whose vertical coordinate difference is less than a threshold among labeled computed objects as the nose area.

한편 입 특징점 추출은 코 특징점 추출 후 레이블링 연산된 객체들 중에서 코 영역 아래에 위치하고 두눈 좌표의 외곽 끝점 내에 존재하는 객체를 입 영역으로 추출하도록 하였다. 만약 다수의 객체가 존재하면 가로길이의 비가 넓고 상위에 존재하는 객체를 입 특징점로 추출한다.On the other hand, in mouth feature point extraction, objects located under the nose area and existing within the outer endpoints of binocular coordinates are extracted as the mouth area among the objects subjected to labeling operation after nose feature point extraction. If there are a large number of objects, the horizontal length ratio is wide and the object existing at the top is extracted as a mouth feature point.

이외에도 얼굴 특징점 정보를 세부 분류하기 위해 얼굴형태, 눈 크기, 눈꼬리 높이, 눈썹 모양, 눈썹 길이, 눈썹꼬리 높이, 이마 높이, 이마 폭, 코 길이, 콧망울 크기, 입술 두께, 입 크기, 입술 꼬리 높이, 인당(눈과 눈썹간 거리), 인중(코와 윗입술간 거리), 미간(눈썹간 거리)의 형태와 길이 정보를 추출하여 세부분류에 사용한다.In addition, to classify facial feature information in detail, face shape, eye size, eyebrow height, eyebrow shape, eyebrow length, eyebrow tail height, forehead height, forehead width, nose length, nostril size, lip thickness, mouth size, lip tail height , per person (distance between eyes and eyebrows), philtrum (distance between nose and upper lip), and glabella (distance between eyebrows) are extracted and used for detailed classification.

서로 다른 얼굴 특징을 지닌 사람들을 분석하고 분류하기 위하여 각 얼굴의 형태적 특징을 키포인트로 사용하는데, 이러한 포인트의 관련성으로 특징을 분류하는 패턴을 설명할 수 있다. 아바타를 생성하고 특징 정보를 충분히 묘사하기 위해서 각 얼굴 특징과 그들의 포지션의 양을 다음과 같이 규정된다.In order to analyze and classify people with different facial features, the morphological features of each face are used as key points, and the relationship between these points can explain the pattern of classifying features. In order to create an avatar and fully describe the feature information, the amount of each facial feature and their position is defined as follows.

1) 얼굴 윤곽 : 12곳의 위치1) Face contour: 12 locations

2) 입 윤곽 : 4곳의 위치2) Mouth contour: 4 locations

3) 눈 윤곽 : 4곳의 위치3) Eye contour: 4 positions

4) 눈썹 윤곽 : 4곳의 위치4) Eyebrow contour: 4 locations

5) 코 윤곽 : 4곳의 위치5) Nose contour: 4 locations

또한 본 발명은 전술한 바와 같은 24개의 윤곽과 관련된 특징점 정보 이외에도 도 5에 도시된 바와 같은 경혈점 정보를 특징점 정보로서 더 포함한다. 경혈점 정보는 도 5에 도시된 바와 같이 손궁, 리궁, 곤궁, 진공, 중궁, 태궁, 산궁, 감궁, 건궁과 같은 9개의 얼굴 영역을 포함하고, 각각의 얼굴 영역에서 경혈점의 위치는 다음과 같다.In addition, the present invention further includes acupuncture point information as shown in FIG. 5 as feature point information in addition to feature point information related to the 24 contours as described above. As shown in FIG. 5, information on acupuncture points includes nine facial areas such as handung, ligung, gongung, vacuum, midgung, taegung, sangung, gamgung, and geongung, and the locations of acupuncture points in each facial area are as follows.

1) 손궁: 1곳 위치1) Hand Bow: 1 location

2) 리궁: 7곳 위치2) Ligung: 7 locations

3) 곤궁: 1곳 위치3) Poverty: 1 location

4) 진궁: 9곳 위치4) Jingung: 9 locations

5) 태궁: 9곳 위치5) Great Palace: 9 locations

6) 중궁: 4곳 위치6) Junggung: 4 locations

7) 산궁: 2곳 위치7) Sangung: 2 locations

8) 건궁: 2곳 위치8) Geongung: 2 locations

9) 감궁: 4곳 위치9) Gamgung: 4 locations

이와 같은 경혈점의 위치는 얼굴의 특징점을 결정하는 다른 요소로 이용될 수 있는데, 예를 들면 리궁의 곡차와 신정의 위치는 얼굴에 위치된 헤어라인의 생성과 관련이 있다. 또한 예를 들면 중궁의 비룡과 비룡의 위치는 코의 중앙부 윤곽을 결정하는 특징점으로 작용될 수 있으며, 이는 전술한 바와 같은 얼굴윤곽 정보(24개소)로만 형성되는 아바타의 얼굴 형성을 보완하도록 적용될 수 있다.The locations of these acupuncture points can be used as other factors that determine the facial feature points. For example, the curves of the arch and the locations of the new points are related to the generation of the hairline located on the face. Also, for example, the positions of the dragons and dragons of the middle palace can be used as feature points that determine the contour of the central part of the nose, and this can be applied to supplement the avatar's face formation formed only with the facial contour information (24 points) as described above. there is.

얼굴 생성부(230)는 전술한 바와 같이 24개의 윤곽 정보와 39개의 얼굴 경혈점 정보에 기반하여 아바타 얼굴을 생성하도록 동작한다. 얼굴 생성부(230)는 입력 사진의 얼굴 부분에서 추출한 특징점 정보를 기반으로 얼굴 사진을 닮은 3D 메시를 생성한다. 얼굴 생성부(230)는 딥러닝 학습모델의 정확도가 새로운 이미지에 적용해도 최소화 되었다고 판단되면 이미지로부터 검출된 얼굴의 주요 특징(feature-point)을 라이브러리에 준비된 3D 얼굴 메쉬의 대칭점(match-point)에 대입한다. 구체적으로 얼굴 생성부(230)는 편차 계산부(231), 모델 수정부(233), 텍스처생성부(235)를 포함할 수 있다.As described above, the face generation unit 230 operates to generate an avatar face based on 24 contour information and 39 facial acupuncture point information. The face generation unit 230 creates a 3D mesh resembling a face photo based on feature point information extracted from a face part of an input photo. When the face generation unit 230 determines that the accuracy of the deep learning model is minimized even when applied to a new image, the main feature (feature-point) of the face detected from the image is match-point of the 3D face mesh prepared in the library. Substitute into In detail, the face generator 230 may include a deviation calculator 231, a model corrector 233, and a texture generator 235.

편차 계산부(231)는 입력 사진의 얼굴부분에 대한 얼굴 특징 정보와 표준 정보를 기반으로 표준 3차원 얼굴 모델을 생성하고, 생성된 표준 3차원 얼굴 모델의 기 설정된 특징 정보과 얼굴 특징 정보 생성부(110)에서 제공받은 얼굴 특징 정보를 비교하여 그 차이를 계산한 후 이를 모델 수정부(233)에 제공한다.The deviation calculation unit 231 generates a standard 3D face model based on the facial feature information and standard information for the face part of the input picture, and generates preset feature information and facial feature information of the generated standard 3D face model ( After comparing the facial feature information provided in 110) and calculating the difference, the result is provided to the model correction unit 233.

모델 수정부(233)는 편차계산부(231)에서 계산된 특징 편차를 바탕으로 표준 3차원 얼굴 모델을 변형하여 입력 사진의 얼굴의 형태를 생성한다. 얼굴 표준 모델과 얼굴 사진에서 추출한 특징 정보와의 비교를 수행하고 비교 결과를 얼굴 표준 모델에 적용하여 사용자의 아바타 얼굴을 생성한다. The model correction unit 233 transforms the standard 3D face model based on the feature deviation calculated by the deviation calculation unit 231 to generate the face shape of the input photo. The face standard model is compared with the feature information extracted from the face picture, and the comparison result is applied to the face standard model to generate the user's avatar face.

도 6은 3D 메시 상에 텍스처를 생성하는 과정을 나타내는 도면이다. 도시된 바와 같이, 텍스처 생성부(235)는 수정된 얼굴 모델에 사실감을 부여하기 위해 얼굴의 텍스처를 생성하는데, 즉 생성된 메타버스 아바타를 사용할 때, 사실감이 느껴지도록 얼굴의 텍스처를 생성한다. 이에 따라, 따라서 얼굴 생성부(230)는 얼굴의 텍스처와 수정된 얼굴 모델을 결합하여 아바타 얼굴 이미지를 생성할 수 있다. 6 is a diagram illustrating a process of generating a texture on a 3D mesh. As shown, the texture generator 235 generates a face texture to impart a sense of realism to the modified face model, that is, when using the generated metaverse avatar, the texture generator 235 creates a face texture to feel realism. Accordingly, the face generation unit 230 may generate an avatar face image by combining the face texture and the modified face model.

더욱 상세하게, 3차원 모델을 화면에 출력하는 기법을 렌더링이라 하는데, 모델의 사실감은 렌더링 작업에 달려있다. 렌더링 작업의 여러 요소 중에서 가장 편리하면서도 쉽게 사실감을 높일 수 있는 작업이 텍스처 매핑 기법이다. 이는 3차원 모델에서 정점이나 광원의 밝기 등을 계산하기 보다 수식이나 2차원의 그림을 삼차원 물체의 표면에 여러 가지 방법을 통하여 적용하고 이에 따라 컴퓨터 그래픽 화면을 만들어 나갈 때 마치 실제의 물체처럼 느껴지게끔 그 세부 묘사를 하는 기법을 의미한다.More specifically, a technique of outputting a 3D model on the screen is called rendering, and the realism of the model depends on the rendering task. Among the various elements of rendering work, the most convenient and easy way to increase realism is the texture mapping technique. Rather than calculating vertices or brightness of light sources in a 3D model, formulas or 2D pictures are applied to the surface of a 3D object in various ways, so that when a computer graphic screen is created, it feels like a real object. It means the technique of describing the details.

텍스처링 작업은, 대칭점에 대입된 주요 특징(feature-point)에 따라 3D 얼굴 메쉬가 자동으로 변형되어 최종적으로 사용자의 얼굴형태를 반영한 아바타의 얼굴형태가 형성되고, 아바타 얼굴 최종형태에 사용자의 사진으로부터 추출된 Albedo값을 지닌 텍스처가 자동 매핑되어 아바타의 얼굴부위 3D모델이 생성된다.In the texturing operation, the 3D face mesh is automatically deformed according to the feature-point assigned to the symmetry point, and finally the avatar's face shape reflecting the user's face shape is formed. The texture with the extracted Albedo value is automatically mapped to create a 3D model of the avatar's face.

결과적으로 2D 얼굴 사진에서의 특징점을 기반으로 입력된 표준 3D 얼굴 모델을 변형하여 생성한 3D 얼굴 모델과 텍스처 생성부(235)에서 생성한 텍스처를 이용하여 입력 사진을 반영한 3차원 아바타 이미지을 자동으로 편리하게 생성할 수 있다.As a result, the 3D face model generated by transforming the standard 3D face model input based on the feature points in the 2D face photo and the texture created by the texture generator 235 are used to automatically and conveniently create a 3D avatar image reflecting the input photo. can be created

또한 본 발명의 실시예에서, 아바타 생성부는 도 7에 도시된 바와 같이 사용자 입력정보의 성별구분 및 신장 길이를 반영하여 라이브러리 상의 남/여 바디모델을 완성된 얼굴모델과 매칭하되, 항공정비 직업군 외 다른 직업 및 상태를 고려한 복장 및 소품 라이브러리를 제공해 사용자가 자신에게 맞게 커스텀할 수 있도록 구성될 수도 있고, 기본적인 스킨컬러, 헤어컬러, 헤어스타일 등을 커스텀 할 수 있는 라이브러리를 함께 제공하여 사용자가 메타버스 공간 내에 자신의 상황과 개성을 더 표출할 수 있도록 구성될 수도 있다.In addition, in an embodiment of the present invention, the avatar generation unit matches the male/female body model in the library with the completed face model by reflecting the gender classification and height length of the user input information as shown in FIG. In addition, it can be configured so that users can customize it to suit themselves by providing a library of costumes and props considering other occupations and conditions, or by providing a library that allows users to customize basic skin color, hair color, hairstyle, etc. It can also be configured to further express one's situation and personality within the bus space.

본 발명에 따른 메타버스 서버(20)는 아바타 저장부(240)을 포함하고, 아바타 저장부(240)는 생성된 아바타를 데이터베이스에 저장한다.The metaverse server 20 according to the present invention includes an avatar storage unit 240, and the avatar storage unit 240 stores the created avatar in a database.

본 발명에 따르면 메타버스내 이용되는 아바타의 얼굴을 사용자의 실제 얼굴을 촬영한 이미지 또는 동영상에 기반하여 딥러닝을 통해 훈련된 얼굴인식 모델을 이용하여 자동으로 생성함에 따라 사용자의 실제 얼굴과 유사한 메타휴먼 또는 아바타를 생성할 수 있게 되어 가상공간 내에서 느껴지는 현실감 및 현장감을 향상시킬 수 있다.According to the present invention, the face of the avatar used in the metaverse is automatically generated using a face recognition model trained through deep learning based on an image or video of a user's real face, so that the metaverse is similar to the user's real face. Since it is possible to create a human or an avatar, it is possible to improve the sense of realism and realism felt in the virtual space.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The devices described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. A processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively)처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or to provide instructions or data to a processing device. can be embodied in Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속하는 것으로 해석되어야만 한다.Therefore, other implementations, other embodiments, and equivalents of the claims should be construed as falling within the scope of the following claims.

10: 사용자 단말 20: 메타버스 서버
30: 통신망 210: 이미지 수신부
215: 이미지 전처리부 220: 특징점 추출부
230: 얼굴 생성부 231: 편차 계산부
233: 모델 수정부 235: 텍스처 생성부
240: 아바타 저장부 500: 딥러닝 학습장치
10: user terminal 20: metaverse server
30: communication network 210: image receiver
215: image pre-processing unit 220: feature point extraction unit
230: face generation unit 231: deviation calculation unit
233: model correction unit 235: texture generation unit
240: avatar storage unit 500: deep learning learning device

Claims (5)

메타버스내 메타휴먼을 생성하기 위한 시스템에 있어서,
사용자 단말로부터 사용자의 얼굴을 포함하는 사진을 수신하는 이미지 수신부;
이미지 수신부로부터 수신된 얼굴로부터 특징점을 검출하는 특징점 추출부; 및
특징점 추출부에서 추출된 특징점에 기반하여 아바타 얼굴을 생성하는 아바타 얼굴 생성부를 포함하고,
상기 아바타 얼굴 생성부는 딥러닝 기반의 얼굴생성모델에 의해 아바타 얼굴을 생성하고,
상기 이미지 수신부에서 수신된 이미지는 이미지 전처리부에 의해 전처리되고, 상기 이미지 전처리부는,
수신된 이미지로부터 얼굴 부분만을 추출하는 동작;
수신된 이미지의 밝기, 색상을 조정하는 동작; 및
수신된 이미지의 틸팅 동작; 을 수행하도록 구성되고,
상기 특징점 추출부는 딥러닝 기반으로 한 얼굴의 눈, 코, 입, 턱, 눈섭을 인식하도록 학습되고,
상기 특징점 추출부는 눈 크기, 눈꼬리 높이, 눈썹 모양, 눈썹 길이, 눈썹꼬리 높이, 이마 높이, 이마 폭, 코 길이, 콧망울 크기, 입술 두께, 입 크기, 입술 꼬리 높이, 인당(눈과 눈썹간 거리), 인중(코와 윗입술간 거리), 미간(눈썹간 거리)의 형태와 길이 정보를 더 추출하도록 구성되고,
상기 특징점 추출부는 특징점 정보로서 경혈점 정보를 더 포함하고, 경혈점 정보는 손궁, 리궁, 곤궁, 진공, 중궁, 태궁, 산궁, 감궁, 건궁으로 이루어진 9개의 얼굴 영역을 포함하고
상기 특징점 추출부에 의해 추출되는 눈 특징점 검출은 레이블링 연산을 수행한 후 추출한 얼굴개체들에 대해 수직, 수평좌표를 이용하여 수평중앙선 위쪽과 수직중앙선 왼쪽에 존재하는 객체 중에서 대칭되는 객체의 존재여부를 가려내고, 대칭되는 객체가 두개 이상 존재하면 대칭되는 객체들의 아래쪽에 위치하고, 임계값 이하인 대칭 쌍을 눈 특징점 영역으로 추출하고,
상기 특징점 추출부에 의해 추출되는 코 특징점 검출은 눈 특징점를 검출한 후 레이블링된 연산된 객체들 중에서 눈 아래와 양쪽 눈 사이에 존재하며, 수직좌표 차이가 임계값 이하인 객체를 코 영역으로 추출하고,
상기 특징점 추출부에 의해 추출되는 입 특징점 추출은 코 특징점 추출 후 레이블링 연산된 객체들 중에서 코 영역 아래에 위치하고 두눈 좌표의 외곽 끝점 내에 존재하는 객체를 입 영역으로 추출하도록 하되, 만약 다수의 객체가 존재하면 가로길이의 비가 넓고 상위에 존재하는 객체를 입 특징점로 추출하는 것
을 특징으로 하는 메타버스내 메타휴먼을 생성하기 위한 시스템.
In the system for generating metahumans in the metaverse,
an image receiving unit for receiving a picture including a user's face from a user terminal;
a feature point extractor for detecting feature points from the face received from the image receiver; and
An avatar face generator for generating an avatar face based on the feature points extracted by the feature point extractor;
The avatar face generation unit generates an avatar face by a deep learning-based face generation model,
The image received by the image receiving unit is pre-processed by an image pre-processing unit, and the image pre-processing unit,
extracting only the face part from the received image;
adjusting the brightness and color of the received image; and
tilting operation of the received image; configured to perform
The feature point extractor is trained to recognize the eyes, nose, mouth, chin, and eyebrows of a face based on deep learning,
The feature point extraction unit is eye size, eye tail height, eyebrow shape, eyebrow length, eyebrow tail height, forehead height, forehead width, nose length, nostril size, lip thickness, mouth size, lip tail height, per person (distance between eyes and eyebrows) ), it is configured to further extract shape and length information of the philtrum (distance between the nose and the upper lip), and between the eyebrows (distance between the eyebrows),
The feature point extraction unit further includes information on acupuncture points as feature point information, and the information on acupuncture points includes 9 face regions consisting of hand bows, li bows, impoverished bows, vacuum bows, mid bows, big bows, midbows, gam bows, and gun bows,
The eye feature points extracted by the feature point extractor are detected by using the vertical and horizontal coordinates of the face objects extracted after performing the labeling operation to determine whether there is a symmetrical object among the objects existing above the horizontal center line and to the left of the vertical center line. If there are two or more symmetrical objects, a symmetrical pair located below the symmetrical objects and less than a threshold value is extracted as an eye feature area,
The nose feature point extraction extracted by the feature point extractor detects the eye feature point, and then extracts an object that exists below the eye and between both eyes among the labeled calculated objects and has a vertical coordinate difference of less than a threshold value as the nose region,
Mouth feature points extracted by the feature point extraction unit extract objects that are located below the nose region and exist within the outer endpoints of binocular coordinates among objects subjected to labeling operation after extracting nose feature points as the mouth region, but if there are multiple objects If the horizontal length ratio is wide, extracting the object existing at the top as the mouth feature point
A system for creating metahumans in the metaverse, characterized by:
삭제delete 삭제delete 삭제delete 삭제delete
KR1020220021481A 2022-02-18 2022-02-18 Metahuman generation system and method in metaverse KR102498056B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220021481A KR102498056B1 (en) 2022-02-18 2022-02-18 Metahuman generation system and method in metaverse

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220021481A KR102498056B1 (en) 2022-02-18 2022-02-18 Metahuman generation system and method in metaverse

Publications (1)

Publication Number Publication Date
KR102498056B1 true KR102498056B1 (en) 2023-02-10

Family

ID=85223391

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220021481A KR102498056B1 (en) 2022-02-18 2022-02-18 Metahuman generation system and method in metaverse

Country Status (1)

Country Link
KR (1) KR102498056B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274504A (en) * 2023-11-17 2023-12-22 深圳市加推科技有限公司 Intelligent business card manufacturing method, intelligent sales system and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190101832A (en) * 2018-02-23 2019-09-02 삼성전자주식회사 An elelctronic device and method for operating a custem object based on a avata
KR20200135538A (en) 2018-05-07 2020-12-02 애플 인크. Avatar creation user interface
KR20210002888A (en) * 2019-07-01 2021-01-11 주식회사 시어스랩 Method, apparatus, and system generating 3d avartar from 2d image
KR102236904B1 (en) * 2019-12-13 2021-04-06 조선대학교산학협력단 Method and apparatus for compositing images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190101832A (en) * 2018-02-23 2019-09-02 삼성전자주식회사 An elelctronic device and method for operating a custem object based on a avata
KR20200135538A (en) 2018-05-07 2020-12-02 애플 인크. Avatar creation user interface
KR20210002888A (en) * 2019-07-01 2021-01-11 주식회사 시어스랩 Method, apparatus, and system generating 3d avartar from 2d image
KR102236904B1 (en) * 2019-12-13 2021-04-06 조선대학교산학협력단 Method and apparatus for compositing images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274504A (en) * 2023-11-17 2023-12-22 深圳市加推科技有限公司 Intelligent business card manufacturing method, intelligent sales system and storage medium
CN117274504B (en) * 2023-11-17 2024-03-01 深圳市加推科技有限公司 Intelligent business card manufacturing method, intelligent sales system and storage medium

Similar Documents

Publication Publication Date Title
US10169905B2 (en) Systems and methods for animating models from audio data
US20210358214A1 (en) Matching meshes for virtual avatars
Khabarlak et al. Fast facial landmark detection and applications: A survey
US20220284654A1 (en) Photorealistic real-time portrait animation
CN110688948B (en) Method and device for transforming gender of human face in video, electronic equipment and storage medium
WO2022095721A1 (en) Parameter estimation model training method and apparatus, and device and storage medium
WO2022143645A1 (en) Three-dimensional face reconstruction method and apparatus, device, and storage medium
CN113628327B (en) Head three-dimensional reconstruction method and device
CN110555896B (en) Image generation method and device and storage medium
WO2022057526A1 (en) Three-dimensional model reconstruction method and apparatus, and three-dimensional reconstruction model training method and apparatus
CN111652123B (en) Image processing and image synthesizing method, device and storage medium
US11217036B1 (en) Avatar fidelity and personalization
CN112102480B (en) Image data processing method, apparatus, device and medium
CN110796593A (en) Image processing method, device, medium and electronic equipment based on artificial intelligence
US11461962B1 (en) Holographic calling for artificial reality
CN113362263A (en) Method, apparatus, medium, and program product for changing the image of a virtual idol
CN112581635B (en) Universal quick face changing method and device, electronic equipment and storage medium
US20220413433A1 (en) Holographic Calling for Artificial Reality
KR102498056B1 (en) Metahuman generation system and method in metaverse
JP2024503794A (en) Method, system and computer program for extracting color from two-dimensional (2D) facial images
JP2024506170A (en) Methods, electronic devices, and programs for forming personalized 3D head and face models
KR102160955B1 (en) Method and apparatus of generating 3d data based on deep learning
WO2021155666A1 (en) Method and apparatus for generating image
CN117011449A (en) Reconstruction method and device of three-dimensional face model, storage medium and electronic equipment
Ren et al. Make-A-Character: High Quality Text-to-3D Character Generation within Minutes

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant