JP6785282B2 - Live broadcasting method and equipment by avatar - Google Patents
Live broadcasting method and equipment by avatar Download PDFInfo
- Publication number
- JP6785282B2 JP6785282B2 JP2018225247A JP2018225247A JP6785282B2 JP 6785282 B2 JP6785282 B2 JP 6785282B2 JP 2018225247 A JP2018225247 A JP 2018225247A JP 2018225247 A JP2018225247 A JP 2018225247A JP 6785282 B2 JP6785282 B2 JP 6785282B2
- Authority
- JP
- Japan
- Prior art keywords
- face
- facial expression
- anchor user
- avatar
- depth information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 45
- 230000008921 facial expression Effects 0.000 claims description 89
- 210000000056 organ Anatomy 0.000 claims description 19
- 238000009877 rendering Methods 0.000 claims description 17
- 230000003287 optical effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Social Psychology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、生放送技術分野に関し、特にアバタによる生放送方法及び装置に関する。 The present invention relates to the field of live broadcasting technology, and particularly to live broadcasting methods and devices by avatars.
コンピュータ技術の発展に伴い、コンピュータ技術に依存するエンターテインメント産業もますます豊かになってきており、例えば、コンピュータ技術に依存する生放送業界、例えば、ゲーム生放送、生放送販売等は、新興産業として、ますます広く注目されている。 With the development of computer technology, the entertainment industry that relies on computer technology is becoming more and more prosperous. For example, the live broadcasting industry that relies on computer technology, such as live game broadcasting and live broadcasting sales, is becoming more and more emerging industry. It is receiving widespread attention.
関連技術では、アンカーユーザ及びその位置する環境の実際の音声ビデオ情報をソーシャルプラットフォームにリアルタイムで配信することにより、生放送が実現されるが、この方式では、アンカーユーザが、その実際の身分を公開したくない場合に、アンカーユーザのプライバシーが大きく損なわれる。従って、生放送の真正性とプライバシー保護との矛盾のバランスを取ることができる方法が求められている。 In related technology, live broadcasting is realized by delivering the actual audio-video information of the anchor user and the environment in which it is located to the social platform in real time. In this method, the anchor user discloses his / her actual identity. If you don't want to, the privacy of the anchor user is greatly compromised. Therefore, there is a need for a method that can balance the contradiction between the authenticity of live broadcasting and the protection of privacy.
本発明は、従来技術における少なくとも1つの技術的課題をある程度で解決することを目的とする。 An object of the present invention is to solve at least one technical problem in the prior art to some extent.
そのため、本発明の第1の目的は、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護されるアバタによる生放送方法を提供することである。 Therefore, a first object of the present invention is to provide a live broadcasting method by avatar while ensuring the authenticity of live broadcasting and protecting the privacy of live broadcasting users.
本発明の第2の目的は、アバタによる生放送装置を提供することである。 A second object of the present invention is to provide a live broadcasting device by avatar.
本発明の第3の目的は、コンピュータプログラム製品を提供することである。 A third object of the present invention is to provide a computer program product.
本発明の第4の目的は、非一時的なコンピュータ読み取り可能な記憶媒体を提供することである。 A fourth object of the present invention is to provide a non-temporary computer-readable storage medium.
上記目的を達成するために、本発明の第一態様の実施例は、アンカーユーザの顔の奥行き情報を採取するステップと、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップと、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップと、前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成し、前記ビデオフレームを視聴ユーザクライアントに送信するステップと、を含むアバタによる生放送方法を提供する。 In order to achieve the above object, the embodiment of the first aspect of the present invention includes a step of collecting the depth information of the face of the anchor user and a step of determining the facial expression of the anchor user based on the depth information of the face. A step of rendering a preset virtual face of the avatar based on the facial expression, and collecting the voice information of the anchor user, synthesizing the voice information and the virtual face into a video frame, and combining the video frame with the video frame. Provides a live broadcast method by avatar, including a step of sending to a viewing user client.
また、本発明の実施例に係るアバタによる生放送方法は、以下の付加的な技術的特徴をさらに含む。 In addition, the avatar live broadcasting method according to the embodiment of the present invention further includes the following additional technical features.
選択可能に、アンカーユーザの顔の奥行き情報を採取するステップは、ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するステップと、前記アンカーユーザの顔によって変調された構造化光画像を撮影するステップと、前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するステップと、を含む。 Selectably, the step of collecting the depth information of the anchor user's face includes a step of projecting a plurality of light spots on the anchor user's face by a dot matrix projector and a structured optical image modulated by the anchor user's face. The step of photographing the image and the step of demodulating the phase information corresponding to each pixel of the structured optical image to acquire the depth information of the face of the anchor user are included.
選択可能に、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップは、予め設定された第1の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得するステップ、または、前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得するステップを含む。 Selectably, the step of determining the facial expression of the anchor user based on the depth information of the face queries a preset first facial expression database to acquire the facial expression corresponding to the depth information of the face. The depth change information of the step or the depth information of the face and the depth information of the face collected last time is calculated, the second facial expression database set in advance is queried, and the facial expression corresponding to the depth change information is obtained. Includes steps to get.
選択可能に、前記方法は、前記アンカーユーザのユーザ特徴及び生放送シーン特徴を取得するステップと、前記ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成するステップと、をさらに含む。 Optionally, the method further includes a step of acquiring the user features and live broadcast scene features of the anchor user and a step of generating avatars based on the user features and live broadcast scene features.
選択可能に、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むステップと、予め設定された2次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得するステップと、前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングするステップと、を含む。 Selectably, the step of rendering a preset virtual face of the avatar based on the facial expression builds a virtual vertical drawing model corresponding to the virtual face, and the virtual vertical drawing model is each of the virtual faces in the virtual face. A step including a mesh region containing a key point corresponding to an organ, a step of querying a preset two-dimensional animation editing database to obtain a target organ corresponding to the facial expression and an adjustment parameter, and the adjustment parameter. Includes a step of adjusting the target mesh corresponding to the target organ to render the virtual face based on.
本発明の第2の態様の実施例は、アンカーユーザの顔の奥行き情報を採取するための採取モジュールと、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するための決定モジュールと、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのレンダリングモジュールと、前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成するための合成モジュールと、前記ビデオフレームを視聴ユーザクライアントに送信するため送信モジュールと、を含むアバタによる生放送装置を提供する。 An embodiment of the second aspect of the present invention includes a collection module for collecting the depth information of the face of the anchor user and a determination module for determining the facial expression of the anchor user based on the depth information of the face. , A rendering module for rendering a preset virtual face of the avatar based on the facial expression, and a composition for collecting the voice information of the anchor user and synthesizing the voice information and the virtual face into a video frame. Provided is a live broadcasting device by an avatar including a module and a transmission module for transmitting the video frame to a viewing user client.
本発明の第3の態様の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合に、上記方法の実施例に記載のアバタによる生放送方法が実現される。 An embodiment of a third aspect of the present invention provides a computer program product, and when an instruction in the computer program product is executed by a processor, the live broadcasting method by avatar described in the embodiment of the above method is realized. ..
本発明の第4の態様の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される場合に、上記方法の実施例に記載のアバタによる生放送方法が実現される。 An embodiment of a fourth aspect of the present invention provides a non-temporary computer-readable storage medium in which a computer program is stored, and examples of the above method when the computer program is executed by a processor. The live broadcasting method by avatar described in is realized.
本発明の実施例によって提供される技術案は、以下の有益な効果を含むことができる。 The proposed technology provided by the embodiments of the present invention can include the following beneficial effects.
アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいて、アンカーユーザの表情を決定し、さらに、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。 The depth information of the anchor user's face is collected, the facial expression of the anchor user is determined based on the facial depth information, and the preset virtual face of the avatar is rendered based on the facial expression, and finally, the anchor The user's voice information is collected, the voice information and the virtual face are combined with the video frame, and the video frame is transmitted to the viewing user client. This ensures the authenticity of the live broadcast, protects the privacy of the live broadcast user, and increases the user's dependence on the product.
本発明の付加的な特徴及び利点は、以下の説明において一部が示され、一部が以下の説明により明らかになるか、または、本発明の実施により理解される。 The additional features and advantages of the present invention are shown in part in the following description and partly revealed by the following description or understood by the practice of the present invention.
本発明の上記および/または付加的な特徴と利点は、図面を参照して実施例を以下に説明することにより明らかになり、容易に理解される。
以下に、本発明の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一または類似する符号は、常に、同一又は類似する部品、或いは、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示するものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解してはならない。 Examples of the present invention will be described in detail below. Examples of the above embodiments are shown in the drawings, but the same or similar reference numerals always represent parts that are the same or similar, or parts that have the same or similar functions. The examples described below with reference to the drawings are exemplary and are used solely for the purpose of interpreting the invention and should not be understood as limiting the invention.
以下、図面を参照して本発明の実施例に係るアバタによる生放送方法及び装置を説明する。 Hereinafter, the live broadcasting method and apparatus by the avatar according to the embodiment of the present invention will be described with reference to the drawings.
上記従来技術で説明したように、関連技術では、生放送の真正性とプライバシー保護との矛盾のバランスを取ることができておらず、当該技術的課題を解決するために、本発明は、アバタによる生放送方法を提供する。当該方法では、アンカーユーザのアバタを構築して、アバタによって生放送を実現することにより、アンカーユーザのプライバシーが保護される一方、アバタを構築する場合には、アンカーユーザの顔の奥行き情報の分析及びレンダリングに基づいて構築するため、精度が高くなり、効果がより現実的であり、生放送の真正性が確保される。 As described in the above prior art, the related technology has not been able to balance the contradiction between the authenticity of live broadcasting and the protection of privacy, and in order to solve the technical problem, the present invention is based on avatar. Provide a live broadcasting method. In this method, the privacy of the anchor user is protected by constructing the anchor user's avatar and realizing live broadcasting by the avatar, while when constructing the avatar, the analysis of the depth information of the anchor user's face and the analysis of the depth information of the anchor user's face are performed. Because it is built on rendering, it is more accurate, more realistic in effect, and ensures the authenticity of live broadcasts.
具体的には、図1には、本発明の一実施例に係るアバタによる生放送方法のフローチャートを示す。図1に示すように、当該方法は、以下のステップ101〜ステップ104を含む。 Specifically, FIG. 1 shows a flowchart of a live broadcasting method by an avatar according to an embodiment of the present invention. As shown in FIG. 1, the method includes the following steps 101-104.
ステップ101では、アンカーユーザの顔の奥行き情報を採取する。 In step 101, the depth information of the anchor user's face is collected.
顔の奥行き情報は、アンカーユーザの3次元空間での顔立体形状を反映する。 The depth information of the face reflects the three-dimensional shape of the face in the three-dimensional space of the anchor user.
なお、適用のシーンによって、アンカーユーザの顔の奥行き情報を採取する方式が異なり、以下のように例示する。 The method of collecting the depth information of the anchor user's face differs depending on the application scene, and is illustrated as follows.
本発明の一実施例では、図2に示すように、上記ステップ101は、以下のステップ201〜ステップ203を含む。 In one embodiment of the present invention, as shown in FIG. 2, the step 101 includes the following steps 201 to 203.
ステップ201では、ドットマトリクスプロジェクターが、アンカーユーザの顔に複数の光点を投射する。 In step 201, the dot matrix projector projects a plurality of light spots on the face of the anchor user.
ここで、ユーザの顔に光点を投射する技術により顔の奥行き情報の採取を実現するため、光点数を制御することにより採取精度を制御することができる。また、顔情報の複雑さに基づいて、異なる部位に数の異なる光点を投射するように制御することもできる。例えば、目及び口の部位で光点を比較的多く投射し、顔領域に光点を比較的少なく投射するなどとすることができる。これにより、資源が十分に利用され、採取の精度が向上する。 Here, since the depth information of the face is collected by the technique of projecting the light spots on the user's face, the collection accuracy can be controlled by controlling the number of light spots. It is also possible to control to project a different number of light spots to different parts based on the complexity of face information. For example, a relatively large number of light spots can be projected on the eyes and mouth, and a relatively small number of light spots can be projected on the face region. As a result, resources are fully utilized and the accuracy of collection is improved.
ステップ202では、アンカーユーザの顔によって変調された構造化光画像を撮影する。 In step 202, a structured light image modulated by the anchor user's face is captured.
ステップ203では、構造化光画像の各画素に対応する位相情報を復調してアンカーユーザの顔の奥行き情報を取得する。 In step 203, the phase information corresponding to each pixel of the structured optical image is demodulated to acquire the depth information of the anchor user's face.
具体的には、上記ドットマトリクスプロジェクターは、構造化光投光器等を含んでもよい。ここで、ドットマトリクスプロジェクターが構造化光投光器を含む場合には、構造化光投光器は、現在のアンカーユーザの顔に構造化光を投射することができる。構造化光投光器の構造化光カメラは、現在のアンカーユーザの顔によって変調された構造化光画像を撮影し、構造化光画像の各画素に対応する位相情報を撮影して奥行き画像を取得する。ここで、構造化光のパターンは、レーザーストライプ、グレイコード、正弦波ストライプ、不均一なスペックル等であってもよい。当然ながら、可能な一部の例では、変調されていない構造化光に比べて、変調された構造化光の位相情報が変化し、構造化光画像における構造化光は、歪みが生じた構造化光であり、ここで、変化した位相情報は、物体の奥行き情報を特徴付けることができる。従って、構造化光カメラは、まず構造化光画像における各画素に対応する位相情報を復調し、その後、位相情報に基づいて、アンカーユーザの顔の奥行き情報を算出する。 Specifically, the dot matrix projector may include a structured light floodlight or the like. Here, when the dot matrix projector includes a structured light floodlight, the structured light floodlight can project the structured light onto the face of the current anchor user. The structured optical camera of the structured optical floodlight captures a structured optical image modulated by the face of the current anchor user, captures the phase information corresponding to each pixel of the structured optical image, and acquires a depth image. .. Here, the pattern of the structured light may be a laser stripe, a Gray code, a sinusoidal stripe, a non-uniform speckle, or the like. Of course, in some possible examples, the phase information of the modulated structured light changes compared to the unmodulated structured light, and the structured light in the structured light image has a distorted structure. It is a chemical light, where the changed phase information can characterize the depth information of the object. Therefore, the structured optical camera first demodulates the phase information corresponding to each pixel in the structured optical image, and then calculates the depth information of the anchor user's face based on the phase information.
本発明の一実施例では、現在の端末デバイスのハードウェアデバイスを照会し、端末デバイスに搭載されたドットマトリクス投光装置によってドットマトリクス光を投射して、アンカーユーザの顔の奥行き情報を採取することができる。例えば、アップル社のアイフォンユーザは、当該アイフォンのTrueDepthカメラによってユーザの奥行き情報を採取することができる。 In one embodiment of the present invention, the hardware device of the current terminal device is queried, the dot matrix light is projected by the dot matrix floodlight mounted on the terminal device, and the depth information of the anchor user's face is collected. be able to. For example, an iPhone user of Apple Inc. can collect depth information of the user by using the TrueDept camera of the iPhone.
ステップ102では、顔の奥行き情報に基づいて、アンカーユーザの表情を決定する。 In step 102, the facial expression of the anchor user is determined based on the depth information of the face.
具体的には、リアリティー生放送シーンでは、アンカーユーザの顔表情の変化が、生放送を魅力的に、そして興味深くするための重要な表現であることを考慮して、本発明の実施例では、アンカーユーザのアバタを構築する場合に、このような生き生きとした表情を復元するために、顔の奥行き情報に基づいて、アンカーユーザの表情を決定する。 Specifically, in the reality live broadcasting scene, considering that the change in the facial expression of the anchor user is an important expression for making the live broadcasting attractive and interesting, in the embodiment of the present invention, the anchor user In order to restore such a lively facial expression when constructing the avatar, the facial expression of the anchor user is determined based on the depth information of the face.
ここで、適用するシーンによっては、顔の奥行き情報に基づいてアンカーユーザの表情を決定する方式が異なっている。以下にその例を示す。 Here, the method of determining the facial expression of the anchor user based on the depth information of the face differs depending on the scene to be applied. An example is shown below.
例1
この例では、大量の実験データ(当該実験データには、ユーザの表情及び対応するユーザの顔の奥行き情報が含まれる)に基づいて、深層学習モデルを予め構築し、アンカーユーザの顔情報を当該深層学習モデルに入力し、当該深層学習モデルによって出力されたアンカーユーザの表情を取得する。
Example 1
In this example, a deep learning model is constructed in advance based on a large amount of experimental data (the experimental data includes the facial expression of the user and the depth information of the corresponding user's face), and the facial information of the anchor user is used. Input to the deep learning model and acquire the facial expression of the anchor user output by the deep learning model.
例2
アンカーユーザがアンカープラットフォームに登録する場合に、アンカーユーザが異なる表情をするときの顔の奥行き情報を採取する。ここで、表情タイプと顔の奥行き情報とを対応させるために、ユーザに表情タイプ採取提示を予め送信し、当該提示でユーザがする表情を取得する。例えば、楽しい表情をするようにユーザに提示すると、現在採取された顔の奥行き情報を楽しい表情に対応する顔の奥行き情報とする。あるいは、ユーザが表情を終了した後、表情タイプを手動で入力してもよく、インターフェース上の表情オプションを選択してもよい。さらに、顔の奥行き情報と表情との対応関係に基づいて、当該アンカーユーザに対して第1の表情データベースを構築する。これにより、アンカーユーザの顔の奥行き情報を取得した後、当該第1の表情データベースを照会すれば、対応する表情を取得することができる。例えば、一致度が一定の値より大きい顔の奥行き情報に対応する表情を、現在のアンカーユーザの表情とすることができる。
Example 2
When the anchor user registers with the anchor platform, the depth information of the face when the anchor user makes a different facial expression is collected. Here, in order to make the facial expression type correspond to the depth information of the face, the facial expression type collection presentation is transmitted to the user in advance, and the facial expression that the user makes in the presentation is acquired. For example, when the user is presented with a pleasant facial expression, the currently collected facial depth information is used as the facial depth information corresponding to the pleasant facial expression. Alternatively, after the user finishes the facial expression, the facial expression type may be entered manually or the facial expression option on the interface may be selected. Further, a first facial expression database is constructed for the anchor user based on the correspondence between the depth information of the face and the facial expression. As a result, if the depth information of the face of the anchor user is acquired and then the first facial expression database is queried, the corresponding facial expression can be acquired. For example, the facial expression corresponding to the depth information of the face whose matching degree is larger than a certain value can be the facial expression of the current anchor user.
当然のことながら、奥行き情報を比較する場合に、各点の比較による計算量が大きいという問題を軽減するために、本実施例では、顔の奥行き情報の変化に基づいて第2の表情データベースを構築することができる。当該第2の表情データベースには、対応するアンカーユーザの奥行き変化情報と表情との対応関係が含まれている。例えば、顔の奥行き情報変化は、口角の部分の位相が正方向にA変化し、目の部分の位相が負方向にB変化した場合に、対応する第2の表情データベースを照会すると、当該奥行き変化情報に対応する表情が嬉しくて大笑いする表情1であることが分かる。 As a matter of course, in order to alleviate the problem that the amount of calculation due to the comparison of each point is large when comparing the depth information, in this embodiment, the second facial expression database is created based on the change in the depth information of the face. Can be built. The second facial expression database includes a correspondence relationship between the depth change information of the corresponding anchor user and the facial expression. For example, when the phase of the corner of the mouth changes A in the positive direction and the phase of the eye part changes B in the negative direction, the depth information of the face changes when the corresponding second facial expression database is queried. It can be seen that the facial expression corresponding to the change information is a happy and laughing facial expression 1.
ステップ103では、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングする。 In step 103, a preset virtual face of the avatar is rendered based on the facial expression.
ここで、アバタが2次元であってもよいし、3次元であってもよい。 Here, the avatar may be two-dimensional or three-dimensional.
具体的には、各人が同じタイプの表情をする時に対応する表情が同じでないことを考慮して、アンカーユーザの現在の表情を現実的に復元するために、表情に基づいて予め設定されたアバタの仮想顔をレンダリングして、アバタの顔表情を現在のアンカーユーザの顔表情と一致させる。例えば、図3に示すように、アバタが猫の3Dモデルである場合には、表情に基づいて猫の顔表情をアンカーユーザの表情にレンダリングする。 Specifically, it is preset based on facial expressions in order to realistically restore the current facial expression of the anchor user, considering that the corresponding facial expressions are not the same when each person makes the same type of facial expression. Renders Avata's virtual face to match Avata's facial expression with the current anchor user's facial expression. For example, as shown in FIG. 3, when the avatar is a 3D model of a cat, the facial expression of the cat is rendered to the facial expression of the anchor user based on the facial expression.
ここで、ユーザの個人差異及びアバタに対応する差異を考慮して、本発明の実施例では、表情に基づいて予め設定されたアバタをレンダリングする場合に、アンカーユーザの顔の五官位置及び形状を取得し、五官位置及び五官形状に基づいてアバタを微調整する。 Here, in consideration of the individual difference of the user and the difference corresponding to the avatar, in the embodiment of the present invention, when rendering the preset avatar based on the facial expression, the five official positions and shapes of the face of the anchor user are set. Obtain and fine-tune the avatar based on the position and shape of the five officials.
本発明の一実施例では、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングする效率を向上させるため、アバタが2次元である場合には、Live2D技術により仮想顔の構築を実現する。具体的には、図4に示すように、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、以下のステップ301〜ステップ303を含んでいる。 In one embodiment of the present invention, in order to improve the efficiency of rendering a preset virtual face of the avatar based on the facial expression, when the avatar is two-dimensional, the construction of the virtual face is realized by Live2D technology. .. Specifically, as shown in FIG. 4, the step of rendering the preset virtual face of the avatar based on the facial expression includes the following steps 301 to 303.
ステップ301では、仮想顔に対応する仮想垂直描画モデルを構築する。仮想垂直描画モデルは、仮想顔における各器官に対応するキーポイントを含むメッシュ領域を含む。 In step 301, a virtual vertical drawing model corresponding to the virtual face is constructed. The virtual vertical drawing model includes a mesh area containing key points corresponding to each organ in the virtual face.
具体的には、仮想顔に対応する仮想垂直描画モデルを構築する。仮想垂直描画モデルは、仮想顔における各器官に対応するキーポイントを含むメッシュ領域を含む。即ち、仮想顔の各部分をバラバラにするため、仮想垂直描画モデルでは、目、鼻、口、髪等の部位が独立しており、独立した部分のそれぞれは、自分のキーポイントおよびメッシュ領域があり、いずれもアニメーション編集により独立して動くことができる。たとえば、「Live2D」は、まぶた部位のメッシュ領域の変形によって、目の瞬きの表情等を生成することができる。 Specifically, a virtual vertical drawing model corresponding to a virtual face is constructed. The virtual vertical drawing model includes a mesh area containing key points corresponding to each organ in the virtual face. That is, in order to separate each part of the virtual face, in the virtual vertical drawing model, the parts such as eyes, nose, mouth, and hair are independent, and each of the independent parts has its own key point and mesh area. Yes, both can move independently by editing the animation. For example, "Live2D" can generate a blinking facial expression of the eyes by deforming the mesh region of the eyelid portion.
ステップ302では、予め設定された2次元のアニメーション編集データベースを照会して、表情に対応する標的器官及び調整パラメータを取得する。 In step 302, a preset two-dimensional animation editing database is queried to obtain target organs and adjustment parameters corresponding to facial expressions.
ステップ303では、調整パラメータに基づいて、標的器官に対応する標的メッシュを調整して仮想顔をレンダリングする。 In step 303, the target mesh corresponding to the target organ is adjusted to render the virtual face based on the adjustment parameters.
具体的には、仮想垂直描画モデルにおける各部分のそれぞれは、仮想顔の大量のキーポイントを有しており、これらのキーポイントは、お互いに連結して個々のメッシュ領域を形成する。これらのキーポイントは、3Dモデルにおける頂点に類似しており、キーポイントが移動する場合に、メッシュ領域が変形し、対応する元の仮想顔部品(仮想顔の顔器官を含む)も変形する。メッシュの変形、移動、拡縮によって対応する元の仮想顔部品の動きを制御することにより、2次元のアバタに表情が自然に変化するいくつかの動作をさせることができる。ここで、前記メッシュ領域の変形パラメータ、移動パラメータ及び拡縮パラメータは、本実施例における対応する標的器官の調整パラメータとして理解されてもよい。 Specifically, each part of the virtual vertical drawing model has a large number of key points of the virtual face, and these key points are connected to each other to form individual mesh regions. These key points are similar to the vertices in the 3D model, and as the key points move, the mesh area deforms and the corresponding original virtual facial parts (including the facial organs of the virtual face) also deform. By controlling the movement of the corresponding original virtual face component by deforming, moving, and scaling the mesh, it is possible to make the two-dimensional avatar perform some movements in which the facial expression changes naturally. Here, the deformation parameter, movement parameter, and scaling parameter of the mesh region may be understood as the adjustment parameters of the corresponding target organs in this embodiment.
本実施例では、表情と、標的器官及び標的器官の調整パラメータとの対応関係を含む2次元のアニメーション編集データベースを構築し、当該2次元のアニメーション編集データベースは、各アンカーユーザに対応することができる。さらに、2次元のアニメーション編集データベースに基づいて、現在のアンカー表情に対応する標的器官及び調整パラメータを取得し、調整パラメータに基づいて、標的器官に対応する標的メッシュを調整して仮想顔をレンダリングする。 In this embodiment, a two-dimensional animation editing database including the correspondence between the facial expression and the target organ and the adjustment parameters of the target organ is constructed, and the two-dimensional animation editing database can correspond to each anchor user. .. Furthermore, based on the two-dimensional animation editing database, the target organ and adjustment parameters corresponding to the current anchor facial expression are acquired, and the target mesh corresponding to the target organ is adjusted based on the adjustment parameters to render the virtual face. ..
なお、本発明の実施例では、アバタは、予め設定されたデフォルトキャラクタ、例えば、ある製品の宣伝用マスコットキャラクタ等であってもよいし、現在の生放送によって生成されたものであってもよい。例えば、アンカーユーザのユーザ特徴及び生放送シーン特徴を取得し、ここで、ユーザ特徴は、ユーザの嗜好情報、性別、年齢等を含み、生放送シーン特徴は、服の購入、ゲーム、ビジネスの促進等の生放送業務に関する特徴を含み、さらに、ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成してもよい。例えば、現在のシーンの特徴が秘密商業会談で、アンカーユーザ特徴がビジネスマンであり、さらに必要に応じてアバタが顔の五官を含まない場合には、図5に示すように、相対的に正式なアバタが生成されることとしてもよい。 In the embodiment of the present invention, the avatar may be a preset default character, for example, a promotional mascot character of a certain product, or may be generated by the current live broadcast. For example, the user characteristics and live broadcast scene characteristics of the anchor user are acquired, where the user characteristics include the user's preference information, gender, age, etc., and the live broadcast scene characteristics include clothes purchase, games, business promotion, etc. The avatar may be generated based on the characteristics related to the live broadcasting business, the user characteristics, and the live broadcasting scene characteristics. For example, if the feature of the current scene is a secret commercial talk, the anchor user feature is a businessman, and if necessary, the avatar does not include the face five officials, it is relatively formal, as shown in Figure 5. Avatar may be generated.
ステップ104では、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。 In step 104, the voice information of the anchor user is collected, the voice information and the virtual face are combined with the video frame, and the video frame is transmitted to the viewing user client.
具体的には、生放送を実現するために、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。ここで、各ビデオフレームにおけるアバタ、顔表情及び音声情報はアンカーユーザに対応するものである。このたため、ビデオフレームからなるビデオストリームは、アンカーユーザの実際のアンカー表情等を復元するので、真正感を高めながらも、アンカーユーザのプライバシーを保護することができる。 Specifically, in order to realize live broadcasting, the audio information of the anchor user is collected, the audio information and the virtual face are combined with the video frame, and the video frame is transmitted to the viewing user client. Here, the avatar, facial expression, and voice information in each video frame correspond to the anchor user. Therefore, since the video stream composed of the video frame restores the actual anchor facial expression of the anchor user, it is possible to protect the privacy of the anchor user while enhancing the sense of authenticity.
以上のように、本発明の実施例に係るアバタによる生放送方法は、アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいてアンカーユーザの表情を決定し、さらに、表情に基づいて予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。 As described above, in the live broadcasting method by avatar according to the embodiment of the present invention, the depth information of the face of the anchor user is collected, the facial expression of the anchor user is determined based on the depth information of the face, and further, based on the facial expression. The preset virtual face of the avatar is rendered, and finally, the voice information of the anchor user is collected, the voice information and the virtual face are combined with the video frame, and the video frame is transmitted to the viewing user client. This ensures the authenticity of the live broadcast, protects the privacy of the live broadcast user, and increases the user's dependence on the product.
上記実施例を実現するために、本発明は、アバタによる生放送装置をさらに提供する。図6は、本発明の一実施例に係るアバタによる生放送装置の概略構成図である。図6に示すように、当該アバタによる生放送装置は、採取モジュール10と、決定モジュール20と、レンダリングモジュール30と、合成モジュール40と、送信モジュール50と、を含む。 In order to realize the above embodiment, the present invention further provides a live broadcasting device by avatar. FIG. 6 is a schematic configuration diagram of a live broadcasting device by an avatar according to an embodiment of the present invention. As shown in FIG. 6, the live broadcasting device by the avatar includes a sampling module 10, a determination module 20, a rendering module 30, a synthesis module 40, and a transmission module 50.
ここで、採取モジュール10は、アンカーユーザの顔の奥行き情報を採取するためのものである。 Here, the collection module 10 is for collecting the depth information of the face of the anchor user.
決定モジュール20は、顔の奥行き情報に基づいて、アンカーユーザの表情を決定するためのものである。 The determination module 20 is for determining the facial expression of the anchor user based on the depth information of the face.
レンダリングモジュール30は、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのものである。 The rendering module 30 is for rendering a preset virtual face of the avatar based on the facial expression.
合成モジュール40は、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成するためのものである。 The synthesis module 40 is for collecting the voice information of the anchor user and synthesizing the voice information and the virtual face in the video frame.
送信モジュール50は、ビデオフレームを視聴ユーザクライアントに送信するためのものである。 The transmission module 50 is for transmitting a video frame to the viewing user client.
本発明の一実施例では、図7に示すように、図6に示すものに基づく。採取モジュール10は、投射ユニット11と、撮影ユニット12と、取得ユニット13と、を含む。 One embodiment of the present invention is based on that shown in FIG. 6, as shown in FIG. The collection module 10 includes a projection unit 11, a photographing unit 12, and an acquisition unit 13.
ここで、投射ユニット11は、ドットマトリクスプロジェクターによりアンカーユーザの顔に複数の光点を投射するためのものである。 Here, the projection unit 11 is for projecting a plurality of light spots on the face of the anchor user by the dot matrix projector.
撮影ユニット12は、アンカーユーザの顔によって変調された構造化光画像を撮影するためのものである。 The photographing unit 12 is for capturing a structured optical image modulated by the face of the anchor user.
取得ユニット13は、構造化光画像の各画素に対応する位相情報を復調してアンカーユーザの顔の奥行き情報を取得するためのものである。 The acquisition unit 13 is for demodulating the phase information corresponding to each pixel of the structured optical image and acquiring the depth information of the face of the anchor user.
本実施例では、決定モジュール20は、具体的には、予め設定された第1の表情データベースを照会して、顔の奥行き情報に対応する表情を取得し、または、顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、奥行き変化情報に対応する表情を取得する。 In this embodiment, specifically, the determination module 20 queries a preset first facial expression database to acquire facial expressions corresponding to facial depth information, or collects facial depth information and the previous time. The depth change information with the depth information of the face is calculated, the second facial expression database set in advance is queried, and the facial expression corresponding to the depth change information is acquired.
なお、アバタによる生放送方法の実施例に対する上記説明が、当該実施例に係るアバタによる生放送装置にも適用されるが、その実現原理が類似するため、ここでは説明を省略する。 The above description for the embodiment of the avatar live broadcasting method is also applied to the avatar live broadcasting device according to the embodiment, but the description is omitted here because the realization principle is similar.
以上述べたように、本発明の実施例に係るアバタによる生放送装置は、アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいてアンカーユーザの表情を決定し、表情に基づいて予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。 As described above, the live broadcasting device by avatar according to the embodiment of the present invention collects the depth information of the face of the anchor user, determines the facial expression of the anchor user based on the depth information of the face, and preliminarily determines the facial expression of the anchor user based on the facial expression. The virtual face of the set avatar is rendered, and finally, the voice information of the anchor user is collected, the voice information and the virtual face are combined with the video frame, and the video frame is transmitted to the viewing user client. This ensures the authenticity of the live broadcast, protects the privacy of the live broadcast user, and increases the user's dependence on the product.
上記実施例を実現するために、本発明は、コンピュータプログラム製品をさらに提供する。前記コンピュータプログラム製品における命令を、プロセッサに実行させると、前述した方法の実施例に記載のアバタによる生放送方法が実現される。 In order to realize the above embodiment, the present invention further provides a computer program product. When the processor is made to execute the instruction in the computer program product, the live broadcasting method by the avatar described in the embodiment of the above-mentioned method is realized.
上記実施例を実現するために、本発明は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。前記コンピュータプログラムがプロセッサによって実行される場合に、前述した方法の実施例に記載のアバタによる生放送方法が実現される。 To realize the above embodiment, the present invention further provides a non-temporary computer-readable storage medium in which a computer program is stored. When the computer program is executed by a processor, the avatar live broadcasting method described in the above-described embodiment of the method is realized.
本発明の説明において、「一実施例」、「一部の実施例」、「例示的な実施例」、「具体的な実施例」、又は「一部の実施例」などの用語を参照した説明とは、該実施例又は実施例に結合して説明された具体的な特徴、構成、材料又は特徴が、本発明の少なくとも一実施例又は実施例に含まれることを意味する。本明細書において、上記用語に対する例示的な記述は、必ずしも同一の実施例又は実施例を示すことではない。又、説明された具体的な特徴、構成、材料又は特徴は、いずれか1つ又は複数の実施例又は実施例において適切に組み合わせることができる。さらに、互いに矛盾しない場合、当業者であれば、本明細書に記述した異なる実施例又は例、及び異なる実施例又は例示的特徴に対して結合及び組み合わせを行うことができる。 In the description of the present invention, terms such as "one example", "partial example", "exemplary example", "concrete example", or "partial example" are referred to. The description means that the specific features, configurations, materials or features described in combination with the Examples or Examples are included in at least one Example or Example of the present invention. In the present specification, the exemplary description of the above terms does not necessarily indicate the same embodiment or embodiment. Also, the specific features, configurations, materials or features described may be adequately combined in any one or more embodiments or embodiments. Moreover, if not inconsistent with each other, one of ordinary skill in the art can combine and combine different examples or examples and different examples or exemplary features described herein.
また、「第1」、「第2」の用語は単に説明のために用いるものであり、比較的な重要性を指示又は暗示するか、又は示された技術的特徴の数を黙示的に指示すると理解してはならない。従って、「第1」、「第2」で限定された特徴は、少なくとも1つの前記特徴を含むことを明示又は暗示する。本発明の説明において、別途、明確で具体的な限定がない限り、「複数」とは、少なくとも2つ、例えば、2つ、3つなどを意味する。 Also, the terms "first" and "second" are used merely for illustration purposes and either indicate or imply comparative importance or imply the number of technical features shown. Then don't understand. Therefore, the features limited by the "first" and "second" express or imply that they include at least one of the above features. In the description of the present invention, unless otherwise specified and specified, the term "plurality" means at least two, for example, two or three.
フローチャートにおける、又はここで他の形態で記載された任意のプロセス又は方法は、カスタムロジック機能又はプロセスのステップを実現するための1つ又は複数の実行可能な命令コードを含むモジュール、セグメント又は一部を表すと理解されてもよい。また、本発明の好ましい実施形態の範囲は、示された又は論議された順番ではなく、係る機能に応じてほぼ同時の形態又は逆の順番で機能を実行することができる他の実現を含むことができる。これは、当業者であれば理解すべきものである。 Any process or method in the flow chart, or otherwise described herein, is a module, segment or part that contains one or more executable instructions to implement a custom logic function or process step. May be understood to represent. Also, the scope of preferred embodiments of the present invention includes other realizations in which the functions can be performed in substantially simultaneous or reverse order, depending on the function, rather than in the order shown or discussed. Can be done. This should be understood by those skilled in the art.
フローチャートで示された又はここで他の形態で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な記憶媒体に具体的に実装され、命令実行システム、装置、又はデバイス(例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を獲得して命令を実行するシステム)に利用されるか、又はこれらの命令実行システム、装置又はデバイスと組み合わせて利用される。本願明細書において、「コンピュータ読み取り可能な記憶媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納、通信、伝播、又は伝送することができる任意の装置であってもよい。コンピュータ読み取り可能な記憶媒体のより具体的な例(非限定的なリスト)として、1つ又は複数の配線を備える電気接続部(電子デバイス)、ポータブルコンピュータディスクカートリッジ(磁気デバイス)、ランダムアクセスメモリ(RAM)読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ(CDROM)を含む。また、コンピュータ読み取り可能な記憶媒体は、前記プログラムが印刷され得る紙又は他の適切な媒体であってもよい。これは、例えば、紙や他の媒体を光学的スキャンし、編集し、解釈し、又は必要な場合に他の適切な形態で処理して前記プログラムを電子的に取得して、コンピュータメモリに格納するためである。 The logic and / or steps shown in the flowchart or described elsewhere herein can be considered, for example, as an ordered list of executable instructions for implementing logic functions, any computer. Specifically implemented on a readable storage medium, instructions are obtained from an instruction execution system, device, or device (eg, a computer-based system, a system that includes a processor, or another instruction execution system, device, or device). It is used in (systems that execute) or in combination with these instruction execution systems, devices or devices. As used herein, a "computer-readable storage medium" includes storage, communication, propagation, including a program for use by an instruction execution system, device or device, or in combination with an instruction execution system, device or device. Alternatively, it may be any device capable of transmitting. More specific examples (non-limiting list) of computer-readable storage media include electrical connections (electronic devices) with one or more wires, portable computer disk cartridges (magnetic devices), random access memory (random access memory). RAM) Includes read-only memory (ROM), erasable programmable read-only memory (EPROM or flash memory), fiber optic devices, and portable compact disk read-only rememory (CDROM). The computer-readable storage medium may also be paper or other suitable medium on which the program can be printed. It may, for example, optically scan, edit, interpret, or otherwise process, if necessary, electronically obtain the program and store it in computer memory. To do.
なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに記憶された適切な命令実行システムによって実行されるソフトウェア又はファームウェアによって実現することができる。例えば、ハードウェアで実現される場合に、もう1つの実施形態と同様に、本分野において周知な、データ信号に対してロジック機能を実現するためのロジックゲート回路を備える離散ロジック回路、適切な組み合わせロジックゲート回路を備える特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などの当分野の周知技術のうちいずれか1つ又はこれらの組み合わせによって実現することができる。 Each part of the present invention can be realized by hardware, software, firmware, or a combination thereof. In the above embodiment, the plurality of steps or methods can be realized by software or firmware executed by an appropriate instruction execution system stored in memory. For example, when implemented in hardware, a discrete logic circuit with a logic gate circuit for realizing a logic function for a data signal, which is well known in the art, as in another embodiment, an appropriate combination. It can be realized by any one or a combination of well-known techniques in the art such as an integrated circuit for a specific application including a logic gate circuit, a programmable gate array (PGA), and a field programmable gate array (FPGA).
通常の当業者であれば、上記の実施例に係る方法に含まれる全部又は一部のステップは、プログラムによってハードウェアを命令することで実行することができると理解することができる。前記プログラムは、コンピュータ読み取り可能な記憶媒体に格納することができ、当該プログラムが実行される場合に、方法実施例におけるステップの1つ又はそれらの組み合わせが実行される。 A person of ordinary skill in the art can understand that all or some of the steps included in the method according to the above embodiment can be performed by instructing the hardware programmatically. The program can be stored in a computer-readable storage medium, and when the program is executed, one of the steps in the method embodiment or a combination thereof is executed.
また、本発明の各実施例における各機能ユニットは、1つの処理モジュールに集積されてもよいし、それぞれが個別の物理的存在であってもよいし、2つ以上のユニットが1つのモジュールに集積されてもよい。前記集積モジュールは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。前記集積モジュールがソフト機能モジュールの形態で実現され、独立した製品として販売又は使用される場合には、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。 Further, each functional unit in each embodiment of the present invention may be integrated in one processing module, each may be an individual physical entity, or two or more units may be integrated in one module. It may be accumulated. The integrated module may be realized in the form of hardware or in the form of a software function module. When the integrated module is realized in the form of a soft function module and sold or used as an independent product, it may be stored in one computer-readable storage medium.
上記の記憶媒体は、読み出し専用メモリ、磁気ディスク、又はCDなどであってもよい。なお、以上、本発明の実施例を示して説明したが、上記実施例はあくまで例示であり、本発明を制限するためのものであると理解してはならない。通常の当業者であれば、本発明の範囲内で、上記実施例に対して変更、修正、取り替え、変形を行うことができる。
The storage medium may be a read-only memory, a magnetic disk, a CD, or the like. Although examples of the present invention have been described above, the above examples are merely examples and should not be understood as being intended to limit the present invention. A person skilled in the art can modify, modify, replace, or modify the above embodiment within the scope of the present invention.
Claims (9)
前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップと、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップと、
前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成し、前記ビデオフレームを視聴ユーザクライアントに送信するステップと、を含み、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、
前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むステップと、
予め設定された2次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得するステップと、
前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングするステップと、を含むことを特徴とするアバタによる生放送方法。 Steps to collect depth information on the anchor user's face,
A step of determining the facial expression of the anchor user based on the depth information of the face,
A step to render a preset virtual face of an avatar based on the facial expression,
The collected audio information of the anchor user, the audio information and the virtual face synthesized video frame, viewed including the steps of: transmitting the video frames to view user client,
The step of rendering a preset avatar virtual face based on the facial expression is
A virtual vertical drawing model corresponding to the virtual face is constructed, and the virtual vertical drawing model includes a step including a mesh area including a key point corresponding to each organ in the virtual face.
A step of querying a preset two-dimensional animation editing database to acquire target organs and adjustment parameters corresponding to the facial expressions, and
Wherein based on the adjustment parameter, live process according avatar, characterized the steps, the-containing Mukoto rendering the virtual face by adjusting the target mesh that correspond to the target organ.
ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するステップと、
前記アンカーユーザの顔によって変調された構造化光画像を撮影するステップと、
前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するステップと、を含むことを特徴とする請求項1に記載の方法。 The step of collecting the depth information of the anchor user's face is
A step of projecting a plurality of light spots on the face of the anchor user by a dot matrix projector,
A step of capturing a structured optical image modulated by the anchor user's face,
The method according to claim 1, further comprising a step of demodulating the phase information corresponding to each pixel of the structured optical image and acquiring the depth information of the face of the anchor user.
予め設定された第1の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得するステップ、
または、
前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得するステップを含むことを特徴とする請求項2に記載の方法。 The step of determining the facial expression of the anchor user based on the depth information of the face is
A step of querying a preset first facial expression database to acquire a facial expression corresponding to the depth information of the face.
Or
A step of calculating the depth change information of the depth information of the face and the depth information of the face collected last time, inquiring the second facial expression database set in advance, and acquiring the facial expression corresponding to the depth change information. The method according to claim 2, wherein the method includes.
前記アンカーユーザのユーザ特徴及び生放送シーン特徴を取得するステップと、
前記ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成するステップと、をさらに含むことを特徴とする請求項1に記載の方法。 The method is
The step of acquiring the user characteristics and live broadcast scene characteristics of the anchor user, and
The method according to claim 1, further comprising a step of generating an avatar based on the user characteristics and live broadcast scene characteristics.
前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するための決定モジュールと、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのレンダリングモジュールと、
前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成するための合成モジュールと、
前記ビデオフレームを視聴ユーザクライアントに送信するための送信モジュールと、を含み、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングすることは、
前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むことと、
予め設定された2次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得することと、
前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングすることと、を含むことを特徴とするアバタによる生放送装置。 A collection module for collecting depth information of the anchor user's face,
A determination module for determining the facial expression of the anchor user based on the depth information of the face,
A rendering module for rendering a preset virtual face of avatar based on the facial expression,
A synthesis module for collecting the voice information of the anchor user and synthesizing the voice information and the virtual face into a video frame,
Look including a transmitting module for transmitting the video frames to view user client,
Rendering a preset avatar virtual face based on the facial expression
A virtual vertical drawing model corresponding to the virtual face is constructed, and the virtual vertical drawing model includes a mesh area containing key points corresponding to each organ in the virtual face.
Inquiring a preset two-dimensional animation editing database to acquire the target organ and adjustment parameters corresponding to the facial expression, and
Wherein based on the adjustment parameter, and rendering the virtual face by adjusting the target mesh that correspond to the target organ, live device according avatar characterized by containing Mukoto a.
ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するための投射ユニットと、
前記アンカーユーザの顔によって変調された構造化光画像を撮影するための撮影ユニットと、
前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するための取得ユニットと、を含むことを特徴とする請求項5に記載の装置。 The collection module
A projection unit for projecting a plurality of light spots on the face of the anchor user by a dot matrix projector, and
An imaging unit for capturing a structured optical image modulated by the anchor user's face, and
The apparatus according to claim 5 , further comprising an acquisition unit for demodulating the phase information corresponding to each pixel of the structured optical image and acquiring the depth information of the face of the anchor user.
予め設定された第1の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得し、
または、
前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得することを特徴とする請求項6に記載の装置。 Specifically, the determination module
The first facial expression database set in advance is queried to obtain the facial expression corresponding to the depth information of the face.
Or
It is possible to calculate the depth change information between the depth information of the face and the depth information of the face collected last time, inquire the second facial expression database set in advance, and acquire the facial expression corresponding to the depth change information. The apparatus according to claim 6 .
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811287612.8A CN111200747A (en) | 2018-10-31 | 2018-10-31 | Live broadcasting method and device based on virtual image |
CN201811287612.8 | 2018-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020071851A JP2020071851A (en) | 2020-05-07 |
JP6785282B2 true JP6785282B2 (en) | 2020-11-18 |
Family
ID=70547916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018225247A Active JP6785282B2 (en) | 2018-10-31 | 2018-11-30 | Live broadcasting method and equipment by avatar |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6785282B2 (en) |
CN (1) | CN111200747A (en) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111935491B (en) | 2020-06-28 | 2023-04-07 | 百度在线网络技术(北京)有限公司 | Live broadcast special effect processing method and device and server |
CN111970522A (en) * | 2020-07-31 | 2020-11-20 | 北京琳云信息科技有限责任公司 | Processing method and device of virtual live broadcast data and storage medium |
CN111986301B (en) * | 2020-09-04 | 2024-06-28 | 网易(杭州)网络有限公司 | Method and device for processing data in live broadcast, electronic equipment and storage medium |
CN112150638B (en) * | 2020-09-14 | 2024-01-26 | 北京百度网讯科技有限公司 | Virtual object image synthesis method, device, electronic equipment and storage medium |
CN112118477B (en) * | 2020-09-21 | 2023-05-09 | 北京达佳互联信息技术有限公司 | Virtual gift display method, device, equipment and storage medium |
CN112653898B (en) * | 2020-12-15 | 2023-03-21 | 北京百度网讯科技有限公司 | User image generation method, related device and computer program product |
CN112788359B (en) * | 2020-12-30 | 2023-05-09 | 北京达佳互联信息技术有限公司 | Live broadcast processing method and device, electronic equipment and storage medium |
CN113507621A (en) * | 2021-07-07 | 2021-10-15 | 上海商汤智能科技有限公司 | Live broadcast method, device, system, computer equipment and storage medium |
CN113613048A (en) * | 2021-07-30 | 2021-11-05 | 武汉微派网络科技有限公司 | Virtual image expression driving method and system |
CN113689532B (en) * | 2021-08-05 | 2023-07-18 | 北京奇艺世纪科技有限公司 | Method and device for reconstructing virtual roles based on voice data |
CN115776597A (en) * | 2021-08-30 | 2023-03-10 | 海信集团控股股份有限公司 | Audio and video generation method and device and electronic equipment |
CN114332671B (en) * | 2021-11-08 | 2022-11-01 | 深圳追一科技有限公司 | Processing method, device, equipment and medium based on video data |
CN114245155A (en) * | 2021-11-30 | 2022-03-25 | 北京百度网讯科技有限公司 | Live broadcast method and device and electronic equipment |
WO2023120754A1 (en) * | 2021-12-21 | 2023-06-29 | 엘지전자 주식회사 | Metaverse-based virtualization image providing system and method thereof |
CN114374880B (en) * | 2021-12-23 | 2023-08-29 | 北京达佳互联信息技术有限公司 | Joint live broadcast method, joint live broadcast device, electronic equipment and computer readable storage medium |
CN114363652A (en) * | 2022-01-04 | 2022-04-15 | 阿里巴巴(中国)有限公司 | Video live broadcast method, system and computer storage medium |
CN114501065A (en) * | 2022-02-11 | 2022-05-13 | 广州方硅信息技术有限公司 | Virtual gift interaction method and system based on face jigsaw and computer equipment |
CN114827647B (en) * | 2022-04-15 | 2024-03-19 | 北京百度网讯科技有限公司 | Live broadcast data generation method, device, equipment, medium and program product |
CN114979682B (en) * | 2022-04-19 | 2023-10-13 | 阿里巴巴(中国)有限公司 | Method and device for virtual live broadcasting of multicast |
CN114827652A (en) * | 2022-05-18 | 2022-07-29 | 上海哔哩哔哩科技有限公司 | Virtual image playing method and device |
CN116137673B (en) * | 2023-02-22 | 2024-08-20 | 广州欢聚时代信息科技有限公司 | Digital human expression driving method and device, equipment and medium thereof |
CN118338092B (en) * | 2024-06-12 | 2024-08-09 | 江苏物润船联网络股份有限公司 | Method and system for driving digital person by voice |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2085744B1 (en) * | 2006-12-25 | 2016-11-23 | NEC Corporation | Distance measuring device, method, and program |
CN108229239B (en) * | 2016-12-09 | 2020-07-10 | 武汉斗鱼网络科技有限公司 | Image processing method and device |
CN107154069B (en) * | 2017-05-11 | 2021-02-02 | 上海微漫网络科技有限公司 | Data processing method and system based on virtual roles |
CN107172040A (en) * | 2017-05-11 | 2017-09-15 | 上海微漫网络科技有限公司 | The player method and system of a kind of virtual role |
CN107277599A (en) * | 2017-05-31 | 2017-10-20 | 珠海金山网络游戏科技有限公司 | A kind of live broadcasting method of virtual reality, device and system |
CN107170030A (en) * | 2017-05-31 | 2017-09-15 | 珠海金山网络游戏科技有限公司 | A kind of virtual newscaster's live broadcasting method and system |
CN107438183A (en) * | 2017-07-26 | 2017-12-05 | 北京暴风魔镜科技有限公司 | A kind of virtual portrait live broadcasting method, apparatus and system |
CN107481304B (en) * | 2017-07-31 | 2020-11-24 | Oppo广东移动通信有限公司 | Method and device for constructing virtual image in game scene |
CN107551549A (en) * | 2017-08-09 | 2018-01-09 | 广东欧珀移动通信有限公司 | Video game image method of adjustment and its device |
CN107682729A (en) * | 2017-09-08 | 2018-02-09 | 广州华多网络科技有限公司 | It is a kind of based on live interactive approach and live broadcast system, electronic equipment |
JP6382468B1 (en) * | 2018-05-08 | 2018-08-29 | グリー株式会社 | Movie distribution system, movie distribution method, and movie distribution program for distributing movie including animation of character object generated based on movement of actor |
-
2018
- 2018-10-31 CN CN201811287612.8A patent/CN111200747A/en active Pending
- 2018-11-30 JP JP2018225247A patent/JP6785282B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020071851A (en) | 2020-05-07 |
CN111200747A (en) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6785282B2 (en) | Live broadcasting method and equipment by avatar | |
US11977670B2 (en) | Mixed reality system for context-aware virtual object rendering | |
US20230035084A1 (en) | Geometry matching in virtual reality and augmented reality | |
JP5174908B2 (en) | Portable game device and method for controlling portable game device | |
EP3096208B1 (en) | Image processing for head mounted display devices | |
US9654734B1 (en) | Virtual conference room | |
US20200302688A1 (en) | Method and system for generating an image | |
US9710974B2 (en) | Video game processing apparatus and video game processing program | |
JP4354907B2 (en) | Image processing method and apparatus | |
JP6298563B1 (en) | Program and method for providing virtual space by head mounted device, and information processing apparatus for executing the program | |
JP2016045815A (en) | Virtual reality presentation system, virtual reality presentation device, and virtual reality presentation method | |
JP2014187559A (en) | Virtual reality presentation system and virtual reality presentation method | |
CN109640070A (en) | A kind of stereo display method, device, equipment and storage medium | |
WO2023142650A1 (en) | Special effect rendering | |
JP2014182597A (en) | Virtual reality presentation system, virtual reality presentation device, and virtual reality presentation method | |
JP2014164537A (en) | Virtual reality service providing system and virtual reality service providing method | |
JP6431259B2 (en) | Karaoke device, dance scoring method, and program | |
JP6688378B1 (en) | Content distribution system, distribution device, reception device, and program | |
KR20200028830A (en) | Real-time computer graphics video broadcasting service system | |
JP2003284095A (en) | Stereoscopic image processing method and apparatus therefor | |
US20140192045A1 (en) | Method and apparatus for generating three-dimensional caricature using shape and texture of face | |
KR20200092893A (en) | Augmented reality video production system and method using 3d scan data | |
JP6313003B2 (en) | Karaoke apparatus, image output method, and program | |
JP2019133276A (en) | Image processing system and terminal | |
JP6937803B2 (en) | Distribution A video distribution system, video distribution method, and video distribution program that delivers live video including animation of character objects generated based on the movement of the user. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6785282 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |