CN117255983A - 计算机模拟中的语音驱动3d静态资产创建 - Google Patents
计算机模拟中的语音驱动3d静态资产创建 Download PDFInfo
- Publication number
- CN117255983A CN117255983A CN202280032577.3A CN202280032577A CN117255983A CN 117255983 A CN117255983 A CN 117255983A CN 202280032577 A CN202280032577 A CN 202280032577A CN 117255983 A CN117255983 A CN 117255983A
- Authority
- CN
- China
- Prior art keywords
- asset
- image
- instructions
- executable
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005094 computer simulation Methods 0.000 title claims description 12
- 230000003068 static effect Effects 0.000 title description 2
- 238000000034 method Methods 0.000 claims description 28
- 230000004048 modification Effects 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims 1
- 230000001537 neural effect Effects 0.000 abstract description 9
- 230000001131 transforming effect Effects 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000009466 transformation Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000004927 clay Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004579 marble Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/20—Input arrangements for video game devices
- A63F13/21—Input arrangements for video game devices characterised by their sensors, purposes or types
- A63F13/215—Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/30—Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
- A63F13/35—Details of game servers
- A63F13/352—Details of game servers involving special game server arrangements, e.g. regional servers connected to a national server or a plurality of servers managing partitions of the game world
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/40—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
- A63F13/42—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/40—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
- A63F13/42—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
- A63F13/424—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/53—Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
- A63F13/537—Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2024—Style variation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Architecture (AREA)
- Optics & Photonics (AREA)
- Processing Or Creating Images (AREA)
Abstract
根据自然语言描述生成由一个或多个对象组成的3D场景,所述自然语言描述可由文本或话音(300,302)组成。从所述描述中提取(303)像资产属性和布置之类的相关关键字。使用这些关键字,使用生成模型生成(304)2D图像。使用另一个神经模型来根据所述2D重建(306)所述3D对象。可组合(310)所述3D对象以满足布置规范。替代地,通过对现有3D对象进行变换或通过使用3D生成模型来生成所述3D对象以满足所述描述中的规范。
Description
技术领域
本申请涉及必须植根于计算机技术并且产生具体技术改进的技术上创新的非常规解决方案。
背景技术
如本文所理解的,诸如常见背景对象之类的常用计算机游戏资产被用来增加计算机游戏的视觉吸引力。
发明内容
目前的原理允许内容创建者以自然语言输入的方式描述他们想要的资产,并且从所述(语音)输入创建2D或3D资产。还有助于为艺术家创建初始原型资产以进行迭代。
因此,一种方法包括接收诸如来自语音转换的文本,以及使用至少一个神经网络处理所述文本以渲染计算机模拟资产的二维(2D)图像。所述方法还包括将所述2D图像转换为三维(3D)资产。所述方法包括在至少一个计算机模拟中呈现所述3D资产。
所述文本可从键盘输入或从语音输入并且可指示至少一个位置,并且所述3D资产与所述位置一致。所述文本/语音可指示至少多个对象,并且所述3D资产与所述多个对象一致。所述方法可包括在呈现所述3D资产之前使用艺术家计算机修改所述3D资产。可使用麦克风来将所述3D资产的修改输入到艺术家计算机。
在另一个方面中,一种装置包括至少一个计算机存储器,所述至少一个计算机存储器不是瞬时信号并且继而包括可由至少一个处理器执行以接收二维(2D)图像的相片的指令。所述指令可执行以将所述2D图像转换为3D资产,并且在至少一个计算机模拟中呈现所述3D资产。
在另一个方面中,一种设备包括至少一个处理器和被配置为由所述处理器控制的至少一个计算机输出装置。所述处理器用指令编程以识别二维(2D)图像、将所述2D图像转换为3D资产,以及使用所述3D资产作为计算机模拟中的对象。
本申请的关于其结构和操作两者的细节可参考附图得到最好的理解,在附图中相同的附图标记指代相同的部分,并且在附图中:
附图说明
图1是包括根据本发明原理的示例的示例系统的框图;
图2示出了提示人输入语音以用于计算机模拟资产的文本识别的示例屏幕截图;
图3以示例流程图格式示出了用于将语音转换为文本再转换为3D资产的示例逻辑;
图4示出了提示人输入图像以生成计算机模拟资产的示例屏幕截图;
图5以示例流程图格式示出了用于将图像转换为3D资产的示例逻辑;
图6以示例流程图格式示出了用于将来自语言的文本转换为3D资产的位置和部分的示例逻辑;
图7示出了与图6相关的示例屏幕截图;
图8示出了与图6相关的示例屏幕截图;
图9示出了与图6相关的用于修改资产的一部分的示例屏幕截图;
图10以示例流程图格式示出了用于修改资产的一部分的示例逻辑;
图11以示例流程图格式示出了用于3D资产与物理引擎之间的闭环处理的示例逻辑;
图12示出了用于2D至3D资产生成的技术的概述;
图13示出了用于受控特征变换的技术;
图14示出了2D到3D重建方法;以及
图15示出了用于在无2D输入的情况下生成3D资产的技术。
具体实施方式
本公开总体上涉及计算机生态系统,所述计算机生态系统包括消费型电子(CE)装置网络的各方面,诸如但不限于计算机游戏网络。本文中的系统可包括服务器部件和客户端部件,其可通过网络连接,使得可在客户端部件与服务器部件之间交换数据。客户端部件可包括一个或多个计算装置,所述计算装置包括游戏控制台(诸如Sony 或由微软(Microsoft)或任天堂(Nintendo)或其他制造商制作的游戏控制台)、虚拟现实(VR)头戴式耳机、增强现实(AR)头戴式耳机、便携式电视机(例如,智能TV、支持因特网的TV)、便携式计算机(诸如膝上型计算机和平板计算机)以及其他移动装置(包括智能电话和下文讨论的额外示例)。这些客户端装置可在多种操作环境中操作。例如,一些客户端计算机可采用例如Linux操作系统、来自微软的操作系统、或Unix操作系统、或由苹果公司(Apple,Inc.)或谷歌(Google)生产的操作系统。可使用这些操作环境来执行一个或多个浏览程序,诸如由微软或谷歌或摩斯拉(Mozilla)制作的浏览器或可访问由下文讨论的因特网服务器托管的网站的其他浏览器程序。此外,可使用根据本发明原理的操作环境来执行一个或多个计算机游戏程序。
服务器和/或网关可包括一个或多个处理器,所述一个或多个处理器执行将服务器配置为通过诸如因特网的网络来接收和传输数据的指令。或者,客户端和服务器可通过本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台(诸如Sony)、个人计算机等实例化。
可通过网络在客户端与服务器之间交换信息。为此,并且出于安全起见,服务器和/或客户端可包括防火墙、负载平衡器、临时存储装置和代理以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可形成一种设备,所述设备实施向网络成员提供安全社区(诸如在线社交网站)的方法。
处理器可以是单芯片或多芯片处理器,所述单芯片或多芯片处理器可借助于各种线(诸如地址线、数据线和控制线)以及寄存器和移位寄存器来执行逻辑。
一个实施方案中包括的部件可按任何适当的组合用于其他实施方案中。例如,本文中所描述和/或图中所描绘的各种部件中的任一者可组合、互换或从其他实施方案排除。
“具有A、B和C中的至少一者的系统”(同样地,“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包括:仅具有A的系统;仅具有B的系统;仅具有C的系统;同时具有A和B的系统;同时具有A和C的系统;同时具有B和C的系统;和/或同时具有A、B和C的系统等。
现在具体地参考图1,示出了示例系统10,所述示例系统可包括根据本发明原理的上文所提及且下文进一步描述的示例装置中的一者或多者。系统10中所包括的示例装置中的第一装置是消费型电子(CE)装置,诸如音频视频装置(AVD)12,诸如但不限于带有TV调谐器(等效地,控制TV的机顶盒)的支持因特网的TV。替代地,AVD 12还可以是计算机化的支持因特网的(“智能”)电话、平板计算机、笔记本计算机、HMD、可穿戴计算机化装置、计算机化的支持因特网的音乐播放器、计算机化的支持因特网的头戴式耳机、计算机化的支持因特网的可植入装置(诸如可植入皮肤装置)等。无论如何,应当理解,AVD 12被配置为实施本发明原理(例如,与其他CE装置通信以实施本发明原理,执行本文所述的逻辑,并且执行本文所述的任何其他功能和/或操作)。
因此,为了实施此类原理,AVD 12可由图1所示的部件中的一些或全部建立。例如,AVD 12可包括一个或多个显示器14,所述一个或多个显示器可由高清晰度或超高清晰度“4K”或更高的平面屏幕实现,并且可以是支持触摸的以用于经由显示器上的触摸来接收用户输入信号。AVD 12可包括一个或多个扬声器16以用于根据本发明原理输出音频,并且包括至少一个额外输入装置18(诸如音频接收器/麦克风)以用于向AVD 12输入可听命令来控制AVD 12。示例AVD 12还可以包括一个或多个网络接口20以在一个或多个处理器24的控制下通过至少一个网络22(诸如因特网、WAN、LAN等)进行通信。还可以包括图形处理器。因此,接口20可以是但不限于Wi-Fi收发器,所述Wi-Fi收发器是无线计算机网络接口的示例,诸如但不限于网状网络收发器。应当理解,处理器24控制AVD 12以实施本发明原理,包括控制AVD 12的本文所述的其他元件,诸如控制显示器14以在所述显示器上呈现图像以及从所述显示器接收输入。此外,需注意,网络接口20可以是有线或无线调制解调器或路由器,或其他适当的接口,诸如无线电话收发器或如上文所提及的Wi-Fi收发器等。
除前述项之外,AVD 12还可包括一个或多个输入端口26,诸如物理连接到另一个CE装置的高清晰度多媒体接口(HDMI)端口或USB端口和/或将头戴式耳机连接到AVD 12以通过头戴式耳机将来自AVD 12的音频呈现给用户的头戴式耳机端口。例如,输入端口26可有线地或无线地连接到音频视频内容的有线或卫星源26a。因此,源26a可以是分离的或集成的机顶盒,或卫星接收器。或者,源26a可以是包含内容的游戏控制台或盘播放器。源26a在实现为游戏控制台时可包括下文关于CE装置44描述的部件中的一些或全部。
AVD 12还可包括不是瞬时信号的一个或多个计算机存储器28,诸如基于磁盘的存储装置或固态存储装置,在一些情况下,所述一个或多个计算机存储器在AVD的机壳中体现为独立装置,或者体现为在AVD的机壳内部或外部的用于回放AV节目的个人视频记录装置(PVR)或视频磁盘播放器,或者体现为可移除存储器介质。此外,在一些实施方案中,AVD 12可包括位置或定位接收器,诸如但不限于蜂窝电话接收器、GPS接收器和/或测高仪30,其被配置为从卫星或蜂窝电话基站接收地理位置信息,并且将所述信息提供给处理器24和/或结合处理器24确定AVD 12所处的高度。部件30还可由惯性测量单元(IMU)实现,所述IMU通常包括加速度计、陀螺仪和磁力计的组合以确定AVD 12在三个维度中的位置和取向。
继续对AVD 12的描述,在一些实施方案中,AVD 12可包括一个或多个相机32,所述一个或多个相机可以是热成像相机、数字相机(诸如网络摄像头)和/或集成到AVD 12中并且能够由处理器24控制以根据本发明原理采集图片/图像和/或视频的相机。AVD 12上还可包括蓝牙收发器34和其他近场通信(NFC)元件36,以分别使用蓝牙和/或NFC技术与其他装置进行通信。示例NFC元件可以是射频识别(RFID)元件。
此外,AVD 12可包括向处理器24提供输入的一个或多个辅助传感器38(例如,运动传感器(诸如加速度计、陀螺仪、计程器或磁传感器)、红外(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如,用于感测手势命令)。AVD 12可包括向处理器24提供输入的无线TV广播端口40,以用于接收OTA TV广播。除前述项之外,应注意,AVD 12还可以包括红外(IR)发射器和/或IR接收器和/或IR收发器42,诸如IR数据关联(IRDA)装置。电池(未示出)可被提供用于给AVD 12供电,如可以是动能采集器,所述动能采集器可将动能转变为电力来给电池充电和/或给AVD 12供电。还可以包括图形处理单元(GPU)44和现场可编程门阵列46。
仍参考图1,除AVD 12之外,系统10还可以包括一个或多个其他CE装置类型。在一个示例中,第一CE装置48可以是计算机游戏控制台,所述计算机游戏控制台可用于经由直接发送到AVD 12的命令和/或通过下述服务器将计算机游戏的音频和视频发送到AVD 12,而第二CE装置50可包括与第一CE装置48类似的部件。在所示的示例中,第二CE装置50可被配置为由玩家操纵的计算机游戏控制器或由玩家穿戴的头戴式显示器(HMD)。在所示的示例中,仅示出了两个CE装置,应理解,可使用更少或更多的装置。本文的装置可实现针对AVD12所示的部件中的一些或全部。在以下附图中示出的部件中的任一者都可结合在AVD 12的情况下示出的部件中的一些或全部。
现在参考前面提及的至少一个服务器52,所述至少一个服务器包括至少一个服务器处理器54、至少一个有形计算机可读存储介质56(诸如基于磁盘的存储装置或固态存储装置),以及至少一个网络接口58,所述至少一个网络接口在服务器处理器54的控制下允许通过网络22与图1的其他装置进行通信,并且实际上可根据本发明原理促进服务器与客户端装置之间的通信。应注意,网络接口58可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当的接口(诸如例如无线电话收发器)。
因此,在一些实施方案中,服务器52可以是因特网服务器或整个服务器“场”,并且在用于例如网络游戏应用程序的示例实施方案中,服务器可包括并执行“云”功能,使得系统10的装置可经由服务器52来访问“云”环境。或者,服务器52可由一个或多个游戏控制台或者与图1所示的其他装置在同一房间中或在附近的其他计算机来实现。
以下图中所示的部件可包括图1所示的一些或全部部件。
图2和图3示出用于允许游戏设计者创建和/或修改用于计算机模拟(诸如计算机游戏)的三维(3D)资产的技术,通常是从零开始或通过改编先前存储在资产库中的资产来创建和/或修改普通非角色资产。
如图2所示,用户界面200可呈现在显示器202(诸如本文所述的任何显示器)上,以在204处提示设计者说出期望资产的名称,在所示的示例中为椅子。
图3示出了在框300处接收设计者接下来的话(例如,“带有扶手、4条腿、软垫表面和栏杆靠背的棕色椅子”)并在框302处将其转换为文本。框303指示使用提取关键字的文本处理模块来从文本中提取关键字。在该示例中,关键字提取的输出可以是:
对象:椅子
颜色:棕色
腿:4条腿
表面:软垫
靠背:栏杆
在框304处,可将文本输入到诸如一个或多个神经网络之类的人工智能(AI)引擎,以生成所请求的资产的2D图像。图像可以是从头开始生成或者可以通过访问资产库来选择。首先可对库进行搜索以查找与关键字匹配的图像,并且只有在未找到匹配时,AI引擎才可以基于人类语言的监督或无监督训练,使用文本到2D或3D生成模型来生成资产的图像。
从框304前进到框306,使用2D到3D转换系统将2D图像转换为资产的3D资产,所述2D到3D转换系统使用例如层堆叠或其他技术,例如创建3D互补色立体图、假高度浮雕等等。可使用2D到3D重建模型。可包括编码器-解码器神经架构,其中编码器将2D图像作为输入并生成编码,并且3D解码器基于所述编码生成3D对象。因此,可使用2D到3D重建来生成3D对象或资产,使用生成神经模型生成3D对象,然后对其进行变换以满足规范,或者根据所要规范变换现有3D模型。其他细节在图5和图12到图15中阐述。
3D资产可呈现在例如图2所示的显示器上,并且在框308处,可使用话音或其他输入(诸如点击装置图形操纵输入)来接收艺术家对资产的修改。修改可包括对资产的某些部分(但不是资产的所有部分)的大小、形状、颜色、式样、资产的表面纹理等的改变。在框310处生成修改后的最终3D资产以在计算机模拟中使用。
图4示出了UI 400,所述UI可呈现在显示器402(诸如本文揭露的任何显示器)上以在404处提示用户输入所要资产的照片。照片在406处被描绘为2D形式并且在图5中可通过选择上传选择器408来上传以便进行处理。
图5示出了在框500处接收照片中的资产的2D图像。移至框502,将2D图像转换为3D资产。前进到框504,艺术家或其他用户可如本文所描述地修改3D资产以在计算机模拟中使用。下面讨论的图12至图15中示出了3D资产生成的额外细节。
图6示出了用于指定在计算机模拟中多个资产以及其相对于彼此的所要位置的示例逻辑。从框600开始,接收来自直接文本输入或话音到文本转换的文本,所述文本通过名称和资产相对于彼此的所要位置来描述资产。
移至框602,如果需要,还可以接收资产的仅一部分的描述,所述描述不应用于整个资产。如果描述作为话音输入被接收,则在框604处将其转换为文本。在框606处,可使用诸如生成对抗网络(GAN)之类的AI引擎来基于先前接收到的资产描述和位置来生成2D图像,其中图像是在框608处根据本文讨论的原理来转换为3D场景。3D资产可直接生成,无需经过2D阶段。
图7示出了。UI 700可呈现在显示器702(诸如本文描述的任何显示器)上。UI 700可包括提示704,用于提醒人们说出所要的资产场景的描述,所述描述在706处经过语音到文本转换之后可呈现为文本格式。在所示的示例中,人指定了一个场景,其中沙发在椅子的左边和前面,椅子的风格是高迪椅风格的。
图8示出了图7的过程的示例结果。继续图7中陈述的示例,沙发的3D模型800被示出在椅子的3D资产802的左边和前面,其中椅子的靠背804是高迪风格的,如褶边806所描绘。标签808还可以通过相应图像来呈现,指示图像想要描绘什么,使得艺术家可确定GAN是否正确地执行所要任务。
验证标签的一种方法是将3D模型渲染为2D图像,并使用相似性度量来比较从文本生成的2D图像与从3D模型渲染的2D图像之间的相似性。
图9示出了UI 900,所述UI可呈现在显示器902(诸如本文描述的任何显示器)上。UI 900可包括文本904,所述文本指示从例如艺术家的话音输入经过语音到文本转换得到的文本,以在所示的示例中将图8所示的椅子从高迪风格修改为路易十四风格。这导致图8所示的椅子的靠背上的褶边变成更华丽、更气派的风格,以遵循给出的示例。
图10示出了与上文的公开内容相关的其他原理。在框1000处,接收指示对资产的所要修改的文本,例如可从语音转换得来的文本。基于所述所要修改,在框1002处,视情况将相关资产的各部分合成在一起以满足所要求的修改。这可以通过改变沿着资产中的边界区域的内插像素的权重来完成,在所述边界区域处所要修改被识别为相关的。
请注意,除了资产之外,艺术家还可以口头描述所要的背景地形,例如“泥土”或“宫殿大理石”或其他地形。此外,如所述,资产的大小可由艺术家指定。例如,艺术家可指定一把二十英尺高的椅子。如果这导致资产一旦合并到模拟的游戏空间中就会干扰另一资产(诸如对象的屋顶),则可能会导致屋顶自动显示为变形以容纳椅子。这可能需要人与AI的协作方法。纯AI方法可用于满足更多定性要求,例如宽座椅或高靠背的椅子。
图11示出了另一个方面。一旦如本文所述创建3D资产,便可在框1100处将其输入到物理引擎。前进到框1102,可通过例如GAN来修改资产几何形状以维持由物理引擎计算出的恒定惯性张量以倾向于移动资产或使资产变形。因此,物理引擎可求解惯性张量以描述资产如何对力做出反应。例如,物理引擎可基于生成的3D资产的当前结构特性来确定它在被特定力推动时是否翻倒。
换句话说,AI引擎可查看资产的结构的物理性质并预测结构如何对物理做出反应,以确定如何维持先前对象的物理比率。为此目的可施加约束,例如,如果资产是一件家具,则它在生成时必须具有防止其翻倒的属性,无论模拟的3D资产有多么头重脚轻,这可通过例如将资产的各个部分的总扭矩维持为零来实现,将总扭矩维持为零是通过例如适当地改变资产的各部分的尺寸和重量来实现。换句话说,基于规则的方法可与AI结合以生成对象本身。在框1104处,将更新后的资产(或其物理确定)反馈到AI引擎。
除了视觉性质之外,本文描述的技术还可以用于使用单独的相应AI引擎(诸如GAN)来修改资产的声学性质和材料性质。例如,GAN可用于确定资产如何吸收力的资产性质,例如,如果被子弹击中,资产是否会破碎或破裂,或者是否吸收子弹。代表手榴弹的资产可被设计为在存在不同资产的情况下具有不同类型的爆炸。
现在参考图12,示出了用于2D到3D图形资产生成的技术的概述。图12的技术对于新资产或在变换现有3D模型不可行时非常有用。该技术支持生成和变换。
从框1200开始,继续上述示例,将诸如椅子等真实2D对象的照片之类的表示1202输入到条件生成神经模型以进行2D合成。所得输出1204是合成椅子的2D表示。输出1204被发送到可选的2D变换模型1206以用于插值和特征编辑。模型1206可完全基于AI或者它可在AI模型与人类操作员之间交互。
在所示的示例中,2D变换模型1206输出椅子的变换的2D合成表示1208。表示1208可包括在资产库中,用于艺术家输入,并且用于3D重建。
实际上,诸如椅子之类的真实资产的变换后的2D合成表示1208和/或表示1202可被输入到神经模型1210。神经模型1210将2D表示变换成3D形状以输出资产的重建网格1212。神经模型1210视情况地涉及隐函数和网格变形。如果需要,重建的网格1212可输入到纹理变换模型1214以用于3D资产的纹理的神经渲染。
图13示出了受控的特征变换。从框1300开始,针对诸如桌子和椅子等相应资产类别训练2D生成模型(诸如生成对抗网络(GAN))以生成资产。训练可以是监督的、半监督的或无监督的。
当请求资产时,针对描述中所指定的资产选择适当训练模型。例如,如果存在用于生成椅子、桌子等的单独模型,则基于指定的资产选择模型。
艺术家通常会指定要变换资产的哪些特性,诸如纹理、颜色和形状(几何形状)。为了将所生成资产转变为满足输入描述中的规范,在框1302处,将生成以从描述提取的关键词(例如,属性)为条件,所述关键词可被视为注释特征(y标签)。例如,可使用椅子的五个特征,即扶手、支腿、靠背、表面和视图(例如,前视图或后视图)。
移至框1304,可使用不同权重来生成带注释的椅子的编码,可对这些权重进行内插以最好地满足艺术家规范。编码被发送到训练的监督分类器1306以发现特征轴F(i)。在框1308处,可连同特征轴一起编辑新椅子的特征,使得交互地控制特定特征以变换属性(人类-AI协作)以例如将现有椅子资产改变为具有栏杆靠背的椅子。因此,新椅子的编码W'是先前存在的椅子的编码W加上α与特征轴F(i)的乘积,其中α可凭经验确定或发现。
图14示出了其他方法。真实或合成椅子的2D表示1400被发送到2D编码器-解码器神经模型1402以进行形状编码。2D编码器模型1402可以是卷积网络或类似的深度神经网络。编码器模型1402的输入1400可以是在图13中生成和(可选地)变换的图像,以满足所要资产的描述。如果需要,还可以提供纹理编码器1404来对对象的纹理进行编码。
3D解码器1406获取输入编码并生成3D对象。3D解码器1406还可以是卷积网络或类似的DNN。3D解码器的输出是表示3D资产的重建网格1408。
为了训练网络,可将3D输出渲染为2D图像并与输入图像进行比较。训练可迭代地继续,直到输入和输出是接近匹配。替代地,可使用网格变形。
编码器-解码器模型可适于合并额外编码(例如纹理编码)来变换3D对象以满足描述中的规范。
转向图15,对于生成3D资产的替代方法,在框1500,训练3D GAN模型以生成3D对象。在框1502处提取资产的每个部分的部分编码,例如,就椅子来说,是扶手、腿、靠背等的编码。移至框1504,基于所要资产的形状描述1506来变换部分编码。前进到框1508,基于外观描述1510(诸如非形状描述,如样式或尺寸或颜色)来调节3D资产生成。根据需要,3D资产的重建网格1512在具有或不具有纹理的情况下被输出。也就是说,可基于指定的纹理来渲染3D资产模型。可基于指定的属性创建3D变体。
应了解,虽然已经参考一些示例实施方案描述了本发明原理,但这些实施方案并不意图进行限制,并且可使用各种替代布置来实现本文所要求保护的主题。
Claims (22)
1.一种方法,所述方法包括:
接收文本;
使用至少一个神经网络处理所述文本以渲染计算机模拟资产的二维(2D)图像;
将所述2D图像转换为三维(3D)资产;以及
在至少一个计算机模拟中呈现所述3D资产。
2.如权利要求1所述的方法,其中所述文本是从语音转换接收。
3.如权利要求1所述的方法,所述方法包括至少部分地基于所述文本将音频与所述3D资产相关联。
4.如权利要求2所述的方法,其中所述语音转换指示至少一个位置,并且所述3D资产与所述位置一致。
5.如权利要求2所述的方法,其中所述语音转换指示至少多个对象,并且所述3D资产与所述多个对象一致。
6.如权利要求1所述的方法,所述方法包括在呈现所述3D资产之前使用艺术家计算机修改所述3D资产。
7.如权利要求6所述的方法,所述方法包括使用麦克风来将所述3D资产的修改输入到所述艺术家计算机。
8.一种装置,所述装置包括:
至少一个计算机存储器,所述至少一个计算机存储器不是瞬时信号并且包括可由至少一个处理器执行以进行以下操作的指令:
接收二维(2D)图像的相片;
将所述2D图像转换为3D资产;以及
在至少一个计算机模拟中呈现所述3D资产。
9.如权利要求8所述的装置,其中所述指令可执行以至少部分地基于所述文本将音频与所述3D资产相关联。
10.如权利要求8所述的装置,其中所述指令可执行以接收指示至少一个位置的语音,并且所述3D资产与所述位置一致。
11.如权利要求8所述的装置,其中所述指令可执行以接收指示至少多个对象的语音,并且所述3D资产与所述多个对象一致。
12.如权利要求8所述的装置,其中所述指令可执行以在呈现所述3D资产之前使用艺术家计算机修改所述3D资产。
13.如权利要求8所述的装置,其中所述指令可执行以在显示器上呈现用户界面(UI),所述用户界面包括选择器以上传所述相片。
14.如权利要求8所述的装置,其中所述指令可执行以在显示器上呈现用户界面(UI),所述用户界面包括提示以说出期望的资产场景。
15.一种设备,所述设备包括:
至少一个处理器;
至少一个计算机输出装置,所述至少一个计算机输出装置被配置用于由所述处理器控制;
所述处理器用指令编程以:
识别二维(2D)图像;
将所述2D图像转换为3D资产;以及
使用所述3D资产作为计算机模拟中的对象。
16.如权利要求15所述的设备,其中所述指令可执行以:
至少部分地基于所述2D图像的相片的输入来识别所述2D图像。
17.如权利要求15所述的设备,其中所述指令可执行以:
至少部分地基于描述所述2D图像的文本输入来识别所述2D图像。
18.如权利要求17所述的设备,其中所述指令可执行以:
从语音输入导出所述文本输入。
19.如权利要求17所述的设备,其中所述指令可执行以:
使用至少一个神经网络,至少部分地基于描述所述2D图像的文本输入来生成所述2D图像。
20.如权利要求15所述的设备,其中所述指令可执行以:
至少部分地基于文本输入来将音频与所述3D资产相关联。
21.如权利要求15所述的设备,其中所述指令可执行以:
在3D重建之前基于文本和/或话音输入修改所述2D图像。
22.如权利要求15所述的设备,其中所述指令可执行以:
至少部分地基于所述3D资产的环境影响的物理建模来改变所述3D资产。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/307,988 US20220357914A1 (en) | 2021-05-04 | 2021-05-04 | Voice driven 3d static asset creation in computer simulations |
US17/307,988 | 2021-05-04 | ||
PCT/US2022/025958 WO2022235443A1 (en) | 2021-05-04 | 2022-04-22 | Voice driven 3d static asset creation in computer simulations |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117255983A true CN117255983A (zh) | 2023-12-19 |
Family
ID=83900379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280032577.3A Pending CN117255983A (zh) | 2021-05-04 | 2022-04-22 | 计算机模拟中的语音驱动3d静态资产创建 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220357914A1 (zh) |
EP (1) | EP4334806A1 (zh) |
JP (1) | JP2024514948A (zh) |
CN (1) | CN117255983A (zh) |
WO (1) | WO2022235443A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11809688B1 (en) * | 2023-02-08 | 2023-11-07 | Typeface Inc. | Interactive prompting system for multimodal personalized content generation |
CN116993875B (zh) * | 2023-08-31 | 2024-02-27 | 荣耀终端有限公司 | 数字人的生成方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US11361118B2 (en) * | 2018-03-09 | 2022-06-14 | Pascale Marill | Symbiotic modeling system and method |
US10980096B2 (en) * | 2019-01-11 | 2021-04-13 | Lexi Devices, Inc. | Learning a lighting preference based on a reaction type |
-
2021
- 2021-05-04 US US17/307,988 patent/US20220357914A1/en active Pending
-
2022
- 2022-04-22 WO PCT/US2022/025958 patent/WO2022235443A1/en active Application Filing
- 2022-04-22 CN CN202280032577.3A patent/CN117255983A/zh active Pending
- 2022-04-22 JP JP2023564623A patent/JP2024514948A/ja active Pending
- 2022-04-22 EP EP22799296.3A patent/EP4334806A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4334806A1 (en) | 2024-03-13 |
US20220357914A1 (en) | 2022-11-10 |
JP2024514948A (ja) | 2024-04-03 |
WO2022235443A1 (en) | 2022-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102270275B (zh) | 在虚拟环境中选择对象的方法和多媒体终端 | |
US11263821B1 (en) | Generating augmented reality prerenderings using template images | |
CN114930399A (zh) | 使用基于表面的神经合成的图像生成 | |
US12020667B2 (en) | Systems, methods, and media for displaying interactive augmented reality presentations | |
CN117255983A (zh) | 计算机模拟中的语音驱动3d静态资产创建 | |
US11935556B2 (en) | Neural networks for changing characteristics of vocals | |
US20240115954A1 (en) | Hyper-personalized game items | |
US20240112403A1 (en) | Rapid generation of 3d heads with natural language | |
EP4208866A1 (en) | Facial animation control by automatic generation of facial action units using text and speech | |
KR20240131411A (ko) | 평면을 따른 ar 위치 및 오리엔테이션 | |
US20240338887A1 (en) | Voice driven modification of sub-parts of assets in computer simulations | |
JP7564969B2 (ja) | 物理的特性及び物理パラメータ化の音声駆動による修正 | |
KR20230162062A (ko) | 노래로부터의 신경망 반주 추출 | |
WO2022256162A1 (en) | Image reenactment with illumination disentanglement | |
WO2019105002A1 (en) | Systems and methods for creating virtual 3d environment | |
US20240179291A1 (en) | Generating 3d video using 2d images and audio with background keyed to 2d image-derived metadata | |
KR20240024536A (ko) | 다중 합성을 통해 이목구비를 변형하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |