CN110622109A

CN110622109A - 基于自然语言的计算机动画

Info

Publication number: CN110622109A
Application number: CN201880031512.0A
Authority: CN
Inventors: A.L.博尔登
Original assignee: Randfield Co Ltd
Current assignee: Randfield Co Ltd
Priority date: 2017-04-11
Filing date: 2018-04-10
Publication date: 2019-12-27
Also published as: US20180293050A1; WO2018191234A1; EP3610355A1; EP3610355B1; US20210064336A1; US10922049B2; KR102356435B1; KR20190138834A

Abstract

本公开涉及基于音频、文本或手势输入助于近乎实时地动态生成图形内容的系统、方法和非暂时性计算机可读介质。一种示例方法包括从诸如麦克风、键盘或相机的输入设备接收输入。这样，输入可以包括文本、语音和/或手势。该方法包括基于输入确定一个或多个命令指令。该方法还包括基于一个或多个命令指令确定场景布局。一个或多个命令指令中的每一个对应于场景布局的至少一个元素。该方法还包括基于所确定的场景布局提供渲染场景。

Description

基于自然语言的计算机动画

相关申请的交叉引用

本申请要求2017年4月11日提交的第62/484,116号美国专利申请的优先权，该申请通过引用整体结合于此。

背景技术

传统的3D动画在处理周期和成本方面要求很高。也就是说，使用数百个处理器渲染动画电影的3D场景可能需要数周、数月甚至数年的时间。此外，传统的3D动画基于昂贵且通常复杂的软件，这种软件更喜欢具有计算机编程方面的专业知识的操作者。换句话说，传统的3D场景生成、修正和电影导出可能过于复杂，无法被业余用户广泛接受。因此，存在一种直观、处理器周期高效且成本更低的方式来动态创建图形内容的需要。

发明内容

本公开一般涉及基于自然语言(例如，语音或文本)、手势输入和/或诸如感觉输入或基于机器的输入(例如，来自人工智能结构的通信或来自其他计算机系统的输入)的其他类型的输入的2D和3D图形计算机动画的生成。例如，本公开可以涉及用于动态创建三维图形内容的系统和方法。本公开还可以提供用于修正和导出这种内容以在传统显示器和/或增强现实或虚拟现实显示器或另一类型的视觉介质(例如，全息图)上显示的系统和方法。

在第一方面，提供了一种系统。该系统包括输入设备、渲染处理单元、显示器和控制器。控制器包括至少一个存储器和至少一个处理器。控制器执行指令以便执行操作。操作包括经由输入设备接收指示文本、语音或手势中的至少一个的输入信息。操作还包括基于所接收的输入信息确定一个或多个命令指令。操作还进一步包括基于一个或多个命令指令确定场景布局。操作附加地包括使用渲染处理单元基于所确定的场景布局渲染渲染场景(rendered scene)。操作还包括经由显示器显示渲染场景。

在第二方面，提供了一种方法。该方法包括接收输入。输入包括文本、语音或手势中的至少一个。该方法还包括基于输入确定一个或多个命令指令。该方法进一步包括基于一个或多个命令指令确定场景布局。该方法还包括基于所确定的场景布局提供渲染场景。

在第三方面，提供了一种非暂时性计算机可读介质。该非暂时性计算机可读介质已经存储了指令，当由计算设备执行时，这些指令使得计算设备执行操作。操作包括接收输入，其中输入包括文本、语音或手势中的至少一个。操作还包括基于输入确定至少一个命令指令。操作还包括基于至少一个命令指令确定场景布局。操作还包括基于所确定的场景布局提供渲染场景。

通过阅读以下详细描述，并适当参考附图，其他方面、实施例和实施方式对本领域普通技术人员来说将变得显而易见。

附图说明

图1示出了根据示例实施例的系统。

图2示出了根据示例实施例的方法。

图3A示出了根据示例实施例的动态图形生成场景。

图3B示出了根据示例实施例的另一动态图形生成场景。

图3C示出了根据示例实施例的动态图形生成场景的自然语言识别阶段。

图3D示出了根据示例实施例的动态图形生成场景。

图3E示出了根据示例实施例的另一动态图形生成场景。

图4A示出了根据示例实施例的矢量对象处理。

图4B示出了根据示例实施例的矢量对象处理。

图5示出了根据示例实施例的方法。

具体实施方式

本文描述了示例方法、设备和系统。应当理解，本文使用的词语“示例”和“示例性”是指“用作示例、实例或说明”。本文描述为“示例”或“示例性”的任何实施例或特征不一定被解释为优选于或优于其他实施例或特征。在不脱离本文呈现的主题的范围的情况下，可以利用其他实施例，并且可以进行其他改变。

因此，本文描述的示例实施例不意味着是限制性的。如在本文一般描述的并在附图中示出的，本公开的各方面可以以各种不同的配置进行布置、替换、组合、分离和设计，所有这些都是本文预期的。

此外，除非上下文另有暗示，否则每个附图中示出的特征可以彼此组合使用。因此，附图一般应被视为一个或多个总体实施例的组成方面，应当理解并非所有示出的特征对于每个实施例都是必要的。

I.概述

本文描述了涉及动态视听内容生成的实施例。例如，音频、文本、手势或基于机器的输入描述可以被转换成在给定场景布局内在特定坐标处布置的矢量对象。给定场景布局可以(例如，以用户能够提供文本/语音/手势输入的速度)近乎实时地被渲染，以提供动态视听内容(例如，电影、静止图像、视频剪辑等)。

在示例实施例中，用户可以以导入的文本文档(例如，Word文档、PDF文档)的形式或者作为图形用户界面中的键入输入来提供文本输入。附加地或替代地，用户可以提供音频输入(例如，语音)。在一些实施例中，可以首先使用语音到文本接口将口语音频输入转换成文本。作为进一步的替代，输入可以经由手势(例如，手信号、身体移动等)来提供。

作为另一种替代，输入可以包括感觉输入，诸如来自人或动物的大脑信号。附加地或替代地，输入可以包括机器输入，例如来自人工智能结构或另一计算机的机器输入。

文本/音频/手势输入被解析成线段，这些线段由文本/语音/手势识别算法进行分析。文本/语音/手势识别算法可以包括各种人工智能结构，包括但不限于：1)被配置为将每个单词与本地化语言词典进行比较以确定含义的单词结构；2)被配置为基于标点符号分析短句或短语的短语结构；3)被配置为根据单词和动词的使用方式来确定含义的构造结构；以及4)被配置为分析定量、定性和关系属性的含义的关系结构。

应当理解，各种人工智能结构可以访问一个或多个数据库进行比较和/或分析。此外，这样的数据库可以为各种书面和口语语言以及手势形式(例如，英语、西班牙语、法语、德语、普通话、韩语、美国手语、HTML或基于机器的通信语言等)提供支持。此外，(多个)数据库可以提供与这些地域中的人、地点、习俗和/或偏好相关的城市、区域和/或国家特定信息。

识别的线段被转换成命令指令，例如，这些指令可以与来自相应数据库的特定对象、语言元素或环境元素相关。这些对象、语言元素或环境元素可以近乎实时或实时地放置在场景布局中。场景布局内的对象和环境元素然后可以使用光线跟踪算法或另一类型的渲染算法或引擎以高质量图形格式渲染。作为示例，渲染算法可以包括以下中的一个或多个：实时渲染、粒子建模、粒子渲染、光场渲染、视差渲染和/或蛮力渲染(brute-forcerendering)。

在一些实施例中，一个或多个命令指令可以被分类成以下中的至少一个：对象命令指令、语言命令指令或环境命令指令。此外，一个或多个命令指令可以包括可以应用于一个或多个对象的动作命令指令。

例如，响应于“保龄球”的文本输入，本文的系统和方法可以提供显示为静止在中性灰色背景上的初始位置处的黑色保龄球的图形渲染。在这种场景下，编辑文本输入来叙述“保龄球落下”可以将“落下”的动作与保龄球相关联。因此，可以对保龄球应用动画，以显示它从初始位置向下落下。在一些实施例中，动画可以循环或重复一次或多次。

在一些示例中，对象可以用默认动画呈现。例如，响应于“人”的文本输入，本文描述的系统和方法可以呈现正在正常呼吸(例如，胸部起伏)的普通人(例如，简笔人物画、典型人体、典型男人或女人、随机人体等)。其他类型的默认动画可以与各种对象相关联。

在其他可能性当中，场景布局可以基于包括一系列if/then/else语句的算法来确定。在其他可能性当中，这样的语句可以确定：1)场景布局的主题(例如，人、动物、人物、有机体等)；2)场景布局的时间段(例如，一天中的时间、日期、历史时代等)；3)场景布局的物理位置(例如，地点、面积、相机角度、对象的阻挡等)。

可以从相应的数据库中调用对应于相应命令指令的对象、环境元素或动作。例如，人、建筑物、事物等的图形表示可以从对象数据库中检索。此外，天空、云、陆地块、水团、空间和行星的图形表示可以从环境元素数据库中检索。此外，诸如移动、运动捕捉或动作(例如跑步、行走、打斗等)的各种动作可以从动作数据库中检索。

相应数据库中的对象或环境元素可以被格式化为包括矢量对象，其格式为每个对象沿x轴被分成1000层，并且在y、z平面被分成1000×1000像素。以这种方式，可以提供每个对象或环境元素的3D表示。对象可以被分成不同数量的层和/或像素范围。

虽然本文描述了高分辨率的3D表示，但是应当理解，可能期望存储和/或调用其他类型的图形表示。例如，黑白、灰度、卡通风格、单元阴影、二维、其他高分辨率格式和/或低分辨率(例如，块状8位)表示在本文也是可能的和预期的。

对象、环境和/或动作的检索可以以压缩的矢量对象的形式提供。这种矢量对象可以被解压缩并放置在“平台(stage)”或场景布局上。当从给定数据库中检索给定对象或环境元素时，矢量对象可以基于其在场景布局上放置的位置被解压缩。例如，矢量对象可以基于视角、照明角度及其(例如，考虑前景/背景元素、遮挡元素等)与场景布局中其他对象的空间关系被解压缩。替代地，对象、环境和/或动作可以以未压缩的矢量对象的形式提供。

虽然可以从对象数据库中检索对象，但是也可以预期，本文描述的系统和方法可以能够仅基于字典定义来生成对象。例如，如果文本输入包括没有在对象数据库中提供的对象，本文描述的系统和方法可以基于文本输入的字典定义生成关于该对象的“最佳猜测”。

本公开的各个方面可以涉及和/或利用人工智能系统和方法。例如，本文描述的智能代理(agent)或结构(construct)可以接收指示用户输入(例如，文本、语音、手势等)的信息。作为响应，代理或结构可以采取动作以努力最大化其成功的机会(例如，正确地识别用户输入并基于其采取动作以提供动态图形内容)。在一些实施例中，本文描述的智能代理或结构可以模拟与人类“学习”和“解决问题”相关联的“认知”功能。换句话说，本文描述的一个或多个功能可以利用机器学习。例如，机器学习可以应用于本文描述的一个或多个功能，以准确预测正确的命令指令、对象、动作、场景布局等。

例如，人工智能结构可以协调对象的移动和动作，并向动态渲染引擎和整体时间线提供渲染信息。矢量对象位置可以在场景布局内绘制，并且渲染可以使用光线跟踪算法来执行。附加地或替代地，其他类型的渲染引擎也是可能的和预期的。渲染场景可以结合各种不同的照明模型。此外，场景布局的渲染版本可以作为输出来提供。在一些实施例中，可以重复通过渲染版本输入的每个数据。如本文所述，输出可以以与五种人类感觉相关的各种方式提供给用户。也就是说，输出可以包括视觉、听觉、触摸/触觉、嗅觉和/或味觉反馈。

在一些实施例中，方法或系统可以包括版本控制，该版本控制可以例如为用户提供选项来移除先前应用的元素(例如，“撤销”对场景布局的改变)。在一些实施例中，用户界面可以通过允许文本和/或其他输入近乎实时地改变来包括即时编辑。例如，用户可以调整关于角色、位置、动作、相机角度、角色语音等的细节。显示器可以用调整后的细节近乎实时地更新。在其他实施例中，用户界面可以回放“草稿”场景以供用户查看、编辑和/或批准。

II.示例系统

图1示出了根据示例实施例的系统100。系统100包括输入设备110、渲染处理单元120、显示器130和控制器150。系统100的一些或所有元件可以在计算设备中提供。例如，计算设备可以包括智能手机、手表、平板计算机、膝上型计算机、头戴式显示器、虚拟现实耳机、增强现实耳机、台式计算机、云计算网络或另一类型的计算设备。可选地，系统100可以包括图形输出单元140、音频输出单元142、触觉输出单元144、嗅觉输出单元146和/或味觉输出单元148。

输入设备110可以包括麦克风、键盘、鼠标、触控板、触摸板、轨迹球、触摸屏、操纵杆、多轴控制器(例如，3D控制器)和/或相机。在一些实施例中，输入设备110可以包括增强现实耳机/控制器或虚拟现实耳机/控制器。在这种场景下，AR或VR耳机的用户可以观看给定场景，并使用语音输入、控制器输入(例如，3D操纵杆)和/或手势输入与系统100交互。附加地或替代地，输入设备110可以包括眼睛跟踪系统。例如，系统100的一个或多个输入可以包括指示用户一只或两只眼睛的位置和/或视角的信息。

在一些示例实施例中，输入设备110可以包括被配置为接收信息的通信接口。例如，通信接口可以被配置为接收点云(point cloud)和/或光场(light field)信息。这种点云和/或光场信息可用于创建场景布局和/或一个或多个环境元素，如本文别处所述。在本公开中预期了向系统100提供输入信息的其他方式。

在一些实施例中，输入设备110可以包括被配置为在用户的大脑和系统100之间提供直接通信路径的设备。在这种场景下，输入设备110可以包括例如脑-计算机接口(brain-computer interface，BCI)、人-机接口(mind-machine interface，MMI)、直接神经接口(direct neural interface，DNI)或脑-机接口(brain-machine interface，BMI)。作为示例，BMI可以包括运动神经假体，其可以将用户的手势直接翻译成对系统100的输入命令。附加地或替代地，预期了被配置为转换电生理信号(例如，局部场电位或LFP)的设备。在这种场景下，这种设备可以向输入设备110提供信息。这种信息可以指示例如来自用户大脑特定区域的用户的LFP。在一些情况下，LFP信号可以经由物理电极植入或无线手段获得。应当理解，从用户的运动或感觉皮层向系统100直接提供输入的其他方式在本文也是可能的和预期的。

附加地或替代地，由图形输出单元140、音频输出单元142、触觉输出单元144、嗅觉输出单元146和/或味觉输出单元148提供的一些或全部输出可以经由这样的脑-机接口提供给用户。作为示例，BMI可以包括视觉神经假体，使得系统100的图形输出可以直接提供给用户的视觉皮层。附加地或替代地，音频神经假体(例如，被配置为刺激听觉神经的微电极设备)可以向用户的感觉皮层提供直接听觉输出。应当理解，将来自系统100的输出直接提供给用户的感觉皮层的其他方式在本文也是可能的和预期的。

此外，尽管本文描述的示例包括人类用户经由输入设备110提供输入，但是其他计算机或设备也可以被操作来向输入设备110提供输入。例如，人工智能结构或另一类型的计算设备可以经由输入设备110提供输入。此外，虽然本文的实施例包括向人类用户提供输出，但是应当理解，输出可以被提供给另一计算设备和/或人工智能结构。换句话说，在一些情况下，本文描述的方法和系统不需要包括来自人类用户的输入或向人类用户的输出。

渲染处理单元120包括中央处理单元(central processing unit，CPU)或图形处理单元(graphics processing unit，GPU)中的至少一个。在示例实施例中，渲染处理单元120可以包括具有被配置为提供硬件加速图形计算的GPU的一个或多个专用显卡。例如，渲染处理单元120可以被配置为提供图形能力，诸如但不限于光线跟踪、纹理映射、多边形渲染、顶点旋转和平移、可编程着色器、视频解码和编码、物理处理、点云、光场和运动补偿。

显示器130可以包括被配置为提供视觉信息的计算机监视器或其他视觉输出介质。例如，显示器130可以包括液晶显示器(liquid crystal display，LCD)、发光二极管(light-emitting diode，LED)显示器、全息显示器、光场显示器、短投或长投投影设备或阴极射线管(cathode ray tube，CRT)显示器。显示器130可以是另一类型的显示器，诸如智能手机、膝上型计算机等。显示器130可以被配置为显示图形用户界面。附加地或替代地，显示器130可以被配置为显示由本文描述的动态内容生成方法生成的图像。

在示例实施例中，显示器130可以包括虚拟现实显示器(例如，VR耳机)或增强现实显示器(例如微软全息透镜(Microsoft Hololens)或谷歌眼镜(Google Glass))。

图形输出单元140可以包括图形引擎和/或到输出目标(例如，硬盘驱动器、服务器、移动设备)的通信链路。图形输出单元140可以被配置为提供渲染场景以输出到期望的图形格式和/或期望类型的设备。例如，图形输出单元140可以生成可以显示在显示器130上的3D视频或其他类型的图形内容。

在一些实施例中，输出可以以HTML兼容格式(例如，HTML5)或(适于在浏览器上观看的)另一类型的互联网兼容网页格式提供。

附加地或替代地，图形输出单元140可以使用应用编程接口(applicationprogramming interface，API)来提供输出。例如，API可以包括以下中的至少一个：OpenGL、Direct 3D、Glide API、Mantle、Metal、RenderMan、RenderWare或Vulkan。在一些实施例中，API可以是定制的API。

可选地，图形输出单元140可以使用图形引擎提供输出。图形引擎可以包括以下中的至少一个：同一游戏引擎(Unity Game Engine)、尖叫引擎(Cry Engine)、虚幻引擎(Unreal Engine)、id Tech 4、id Tech 5或源(Source)。在一些实施例中，图形引擎可以包括定制图形引擎。

如图1所示，系统100可以包括其他类型的输出。例如，其他输出单元可以用于为非视觉感觉提供输出。在示例实施例中，系统100可以包括音频输出单元142、触觉输出单元144、嗅觉输出单元146和味觉输出单元148。

音频输出单元142可以被配置为向用户提供音频输出。例如，音频输出单元142可以向系统100的用户提供音乐、口语音频和/或其他声音效果(例如，福利效果(Foleyeffects))。此外，音频输出单元142可以提供可以由场景中的演员或通过画外音说出的音频对话。

触觉输出单元144可以被配置为向用户提供与触觉相关的输出。在一些示例实施例中，触觉输出单元144可以向用户的指尖或用户身体的其他部分提供触摸感觉。在一些实施例中，触觉输出单元144可以提供热和/或冷的感觉。例如，触觉输出单元144可以经由VR控制器或用户座椅(例如，椅子)提供“隆隆声”反馈。在一些实施例中，触觉输出单元144可以包括振动器块和被配置为以往复方式移动振动器块的一个或多个致动器(例如，马达)。预期了提供触觉反馈的其他方式。

嗅觉输出单元146可以被配置为提供与用户的嗅觉感觉相关的输出。例如，嗅觉输出单元146可以包括被配置为提供可以与给定场景、对象、地点、环境和/或角色相关联的各种气味的物理喷雾机或喷雾器。作为非限制性示例，嗅觉输出单元146可以被配置为提供任意数量的气味，诸如：玫瑰气味、香水、古龙水、新鲜的山地空气、咸的海洋喷雾、新割的草、新车嗅觉、燃烧的营火、难闻的垃圾、下水道气体等。

味觉输出单元148可以被配置为提供与用户的味觉感觉相关的输出。味觉输出单元148可以包括被配置为与用户的味觉感觉器官(例如，用户的舌头)交互的接口件(mouthpiece)或另一类型的设备。在示例实施例中，味觉输出单元148可以向用户的嘴巴/舌头提供预定量的味觉物质。味觉输出单元148可以提供几种不同的味觉感觉，诸如但不限于甜味、酸味、咸味、苦味和鲜味。在一些示例中，与味觉直接或间接相关的其他感觉，诸如温度(热或冷)、辛辣、淀粉、脂肪、麻木等在本文也是可能的和预期的。

控制器150包括至少一个存储器154和至少一个处理器152。控制器150执行指令以便执行操作。操作包括经由输入设备接收指示文本、语音或手势中的至少一个的输入信息。

操作还包括基于所接收的输入信息确定一个或多个命令指令。在示例实施例中，确定一个或多个命令指令包括将所接收的输入信息解析成多个线段。一旦所接收的输入信息被解析，就可以用自然语言识别算法并行或顺序地处理多个线段。在这种场景下，顺序处理包括将线段中的每一个与自然语言命令数据库进行比较。

操作包括基于比较确定至少一个识别的线段。(多个)命令指令可以基于至少一个识别的线段。

操作还包括基于一个或多个命令指令确定场景布局。每个命令指令对应于场景布局的至少一个元素。在示例实施例中，确定一个或多个命令指令包括将所接收的输入信息解析成多个线段。确定一个或多个命令指令还包括用自然语言识别算法顺序地或并行处理多个线段。顺序或并行处理包括将线段中的每一个与自然语言命令数据库进行比较。

在一些实施例中，确定场景布局可以包括为每个对象命令指令确定至少一个对象和至少一个对应的对象位置。也就是说，当对象从对象数据库中提取出时，这些对象可以被分配一个它们可以坐落在“世界空间”的二维或三维坐标。对象可以包括物理上可见和/或可分配给世界空间内坐标的任何“事物”。对象可以包括例如人、动物、汽车、建筑物、水坑、云等。这些对象可以从数据库中调用，并且可以是用矢量或像素表示的2D或3D对象。

此外，在一些实施例中，确定场景布局可以包括为每个环境命令指令确定至少一个环境元素和至少一个对应的环境元素位置。环境元素可以包括但不限于场景效果，诸如背景、照明效果/源(例如，灯、蜡烛、星星和太阳)、雨、浓雾、薄雾、雪、镜头模糊/散景(bokeh)、镜头闪光等。

操作还包括基于比较确定至少一个识别的线段。命令指令可以基于至少一个识别的线段来确定。

操作还包括使用渲染处理单元120基于所确定的场景布局渲染渲染场景。

操作还包括经由显示器130显示渲染场景。

在一些实施例中，操作可以包括将每个命令指令分类为以下中的至少一个：对象命令指令、语言命令指令或环境命令指令。这些操作还可以包括将每个分类的命令指令存储到至少一个对应的数据库中。在这种场景下，对应的数据库可以包括对象数据库、语言数据库或环境数据库中的至少一个。

在一些实施例中，所确定的命令指令可以包括从多个可能的命令指令当中的随机选择。作为示例，“人”的文本输入可以导致对“人”的多达数百或数千种不同的可能解释。在一些这样的场景中，随机数生成器可以生成可能与人的一种可能解释相关联的伪随机数。换句话说，系统100可以生成伪随机数，该伪随机数可以用于从给定单词或短语的许多不同可能性当中“选择”。

控制器150可以近乎实时地执行操作。也就是说，操作可以包括执行命令指令的确定和/或每50毫秒确定场景布局至少一次。在其他示例中，这种“刷新”操作可以在100微秒至100毫秒的范围内发生至少一次。在一些实施例中，命令指令和/或场景布局的确定可以周期性地或非周期性地发生。在一些实施例中，操作可以按需进行，或者“刷新率”可以基于例如给定场景中的对象、环境和/或动作来动态调整。应当理解，其他时间尺度也是可能的和预期的。例如，场景布局可以每秒确定100次或每10毫秒确定一次。

控制器150可以包括车载计算机、外部计算机或移动计算平台，诸如智能手机、平板设备、个人计算机、可穿戴设备等。附加地或替代地，控制器150可以包括或(例如，经由有线或无线连接)通信连接到远程计算机系统，诸如云服务器。在示例实施例中，控制器150可以被配置为执行本文描述的一些或所有方法块或步骤。

控制器150可以包括一个或多个处理器152和至少一个存储器154。处理器152可以包括例如专用集成电路(application-specific integrated circuit，ASIC)或现场可编程门阵列(field-programmable gate array，FPGA)。被配置为执行软件指令的其他类型的处理器、计算机或设备也是本文预期的。存储器154可以包括非暂时性计算机可读介质，诸如但不限于只读存储器(read-only memory，ROM)、可编程只读存储器(programmableread-only memory，PROM)、可擦除可编程只读存储器(erasable programmable read-onlymemory，EPROM)、电可擦除可编程只读存储器(electrically erasable programmableread-only memory，EEPROM)、非易失性随机存取存储器(例如，闪存)、固态驱动器(solidstate drive，SSD)、硬盘驱动器(hard disk drive，HDD)、光盘(Compact Disc，CD)、数字视盘(Digital Video Disk，DVD)、数字磁带、读/写(read/write，R/W)CD、读写DVD等。

III.示例方法

图2示出了根据示例实施例的方法200。方法200可以包括可以由如参考图1所示和所述的系统100的一个或多个组件执行的块、步骤或元素。应当理解，方法200可以包括比本文明确描述的步骤或块更少或更多的步骤或块。此外，方法200的各个步骤或块可以以任何顺序执行，并且每个步骤或块可以执行一次或多次。

块202包括接收输入。输入可以包括文本、语音或手势中的至少一个。在一些实施例中，可以经由键盘或触摸屏接收文本。作为示例，输入可以包括经由图形用户界面中的文本输入接收的文本。

在示例实施例中，语音可以经由麦克风或另一类型的音频换能器来接收。附加地或替代地，在一些实施例中，手势可以经由相机接收，并且手势识别可以用图像识别方法来执行。

块220包括基于输入确定一个或多个命令指令。在一些实施例中，确定一个或多个命令指令可以包括将输入解析成多个线段。在这种场景下，每个单词或短语可以(例如，通过人工智能(artificial intelligence，AI)结构，诸如AI1 210)被解析，以确定其字典含义和/或其集体的上下文含义。例如，AI1 210可以解析每个单词，并对照本地化语言词典或字典检查该单词的含义。

在一些实例下，第二AI结构(例如，AI2 212)可以用于分析完整的句子和/或段落，以便确定输入的含义。在一些实施例中，考虑标点符号，AI2 212可以解析和分析每个句子、短语、问题或语句的含义。

附加地或替代地，第三AI结构(例如，AI3 214)可以用于从给定短语、句子或段落的构造(例如，词序、单词选择、俗语语言、主动/被动语态、标点符号)中确定含义。AI3 214可以从单词在上下文中的使用方式来分析输入的构造和含义。

此外，另一AI结构(例如，AI4 216)可用于分析对象之间的某些定性或定量关系，诸如大小、前景/背景放置、缩放、相对移动等。AI4 216可以分析贯穿输入到文本框中的整个文本正文中的每个单词的定量、定性和关系属性。例如，AI4可以确定两个对象之间的空间关系或者给定世界空间内对象的移动。

虽然AI结构被描述为具有某些分析特性，但是具有不同分析方法或类型的其他AI结构也是可能的。例如，一个或多个AI结构可以应用语素切分来分析单词的特定构造。附加地或替代地，AI结构可以分析词性，将每个单词标记为名词、动词、形容词等。此外，AI结构可以被配置为使用命名实体识别方法来分析输入文本。也就是说，该结构可以将单词和短语映射到适当的名称、地点和/或位置等。其他类型的AI结构在本文也是可能的和预期的。

确定一个或多个命令指令可以包括用自然语言识别算法224处理多个线段。自然语言识别算法224可以包括机器学习语言处理方法、统计/概率语言模型、决策树语言模型或另一类型的自然语言处理(natural language processing，NLP)方法。多个线段的处理可以包括一个或多个线段与自然语言指令数据库222的比较。

在一些实施例中，自然语言识别算法224可以提供可以由给定场景中的角色/对象说出的音频对话。在一些这样的场景中，输入这样的对话可能使得对象(例如，人)被动画化。也就是说，人的嘴唇和/或身体(例如，身体语言)可以与对话同步移动。这样，呈现的场景可以模拟实际上正在说输入对话的图形人。此外，对话可以作为口语音频输出呈现给用户。

此外，一些实施例包括基于与自然语言指令数据库222的比较来确定至少一个识别的线段。因此，一个或多个命令指令可以基于至少一个识别的线段。

解析和分析的顺序218可以顺序地和/或并行地执行。例如，用自然语言识别算法处理多个线段可以包括用自然语言识别算法顺序地处理多个线段。附加地或替代地，用自然语言识别算法处理多个线段可以包括用自然语言识别算法同时地处理多个线段的至少一部分。

换句话说，在一些实施例中，给定输入可以首先由AI1 210分析，然后由AI2 212分析，然后由AI3 214分析，等等。在其他实施例中，给定输入可以由多个AI结构以并发或同时的方式进行分析。应当理解，在一些实施例中，递归循环可以用于重复分析循环。例如，在给定AI结构的分析结果导致关于给定输入的假定含义的不确定性水平大于不确定性阈值水平的情况下，可以由同一AI再次进行分析，或者可以由另一AI结构分析不确定性分析的结果。这种递归分析最终可以关于给定输入的含义提供更高的确定性。

在其他方面当中，AI结构可以确定对象、环境和/或语言学的各种特性。例如，AI可以评估给定输入句子中的主语(例如，“谁”)，并确定它指的是给定的人、动物、人物、有机体等。

附加地或替代地，AI可以评估给定输入的时间性质(例如，“何时”)。例如，基于文本和/或上下文分析，AI可以从输入中确定给定的年份、时间段、时代等。

此外，AI可以评估给定输入的位置(“哪里”)。作为示例，AI可以确定由给定输入描述的地点、区域和/或相机角度。

可选地，方法200可以包括将一个或多个命令指令中的每一个分类为以下中的至少一个：对象命令指令230、语言命令指令232或环境命令指令234。一旦分类，每个分类的命令指令可以存储到至少一个对应的数据库236a-c中。作为示例，对应的数据库236a-c可以包括对象数据库236a、语言数据库236b和/或环境数据库236c中的至少一个。对象数据库236a可以包括用于世界空间场景布局中的人、地点、事物、建筑物或其他类型的对象的矢量表示。语言数据库236b可以包括文本到语音的音频剪辑、录音(例如，鸟儿啁啾声、汽车鸣笛声等)、人工音效(例如，福利(Foley)声音艺术等)、和/或音频声场参数(例如，回声、延迟、房间大小等)。环境数据库236c包括天空、云、陆地和海洋块、空间环境、行星或用于世界空间场景布局的其他类型的图形场景的矢量表示。

块240包括基于一个或多个命令指令确定场景布局。一个或多个命令指令中的每一个对应于场景布局的至少一个元素。

在示例实施例中，确定场景布局可以包括为每个对象命令指令确定至少一个对象(例如，矢量对象)和放置该对象的世界平台内的至少一个对应位置。附加地或替代地，确定场景布局可以包括为每个环境命令指令确定至少一个环境元素和至少一个对应的环境元素位置。在一些情况下，要并入场景布局的对象可以具有相关联的动画(例如，雨伞打开和关闭、人在行走等)。在这种场景下，确定场景布局可以包括确定动画将以什么顺序和/或在什么时间开始和停止等。

如本文别处所述，矢量对象和/或环境元素可以从多个可能的元素中随机选择。在这种场景下，随机数生成器可以生成伪随机种子。确定一个或多个命令指令还基于从与伪随机种子相关联的多个命令指令中进行选择。在另一实施例中，确定场景布局还基于从与伪随机种子相关联的多个场景布局中进行选择。

块250包括基于所确定的场景布局提供渲染场景。在这种场景下，渲染场景可以通过使用专用图形处理器252来提供。渲染场景可以基于所确定的场景布局。专用图形处理器可以包括图形处理单元(GPU)。

附加地或替代地，提供渲染场景可以包括使用中央处理单元(CPU)渲染渲染场景。

块260可以包括以HTML5兼容格式提供输出270。

附加地或替代地，可以使用应用编程接口来提供输出270。在这种场景下，应用程序编程接口可以包括以下中的至少一个：Open GL、Direct 3D、Glide API、Mantle、Metal、RenderMan、RenderWare或Vulkan。此外，输出270可以使用图形引擎262来提供。图形引擎262可以包括以下中的至少一个：统一游戏引擎、尖叫引擎、虚幻引擎、id Tech 4、id Tech5或源。

如上所述，可以重复方法200的一些或所有块。此外，在一些实施例中，方法200近乎实时地执行。在示例实施例中，近乎实时可以包括每0.1-100毫秒确定一个或多个命令指令至少一次和/或每0.1-100毫秒确定场景布局至少一次。方法200可以以周期性间隔(例如，60Hz、600Hz等)或非周期间隔执行。

图3A示出了根据示例实施例的动态图形生成场景300。场景300示出了具有几个元素的图形用户界面，包括文本输入窗口302、几个数据库304a-d、工具栏306、3D工具栏308和场景显示310。文本输入窗口302可以接受单词、短语、句子和/或段落。如本文所述，这种输入可以由各种AI结构来解析和/或分析，以便从输入中确定含义。尽管在图3A中示出了文本输入窗口302，但是应当理解，语音输入可以被转录成文本以显示在文本输入窗口302中。此外，手势输入同样可以被转录或以其他方式并入文本输入窗口302。附加地或替代地，语音输入和/或手势输入可以在别处处理或显示。

数据库304a-d可以包括对象数据库、氛围数据库、语言学/语言数据库、属性数据库等。其他类型的数据库在本文也是可能的和预期的。数据库304a-d可以提供可以被选择用于在场景显示310中显示的可能的对象、属性、氛围效果等。在一些情况下，所选择的属性不需要直接显示在场景显示310中，而这样的属性(例如，重力、一天中的时间、白平衡等)可以影响对象或氛围效果如何出现在当前的场景显示310中。

如图3A所示，用户可以将以下文本导入或键入文本输入窗口302：

EXT.罗迪欧大道—加利福尼亚州贝弗利山-早上

广角镜头

在著名的罗迪欧(Rodeo)大道和维亚罗迪欧(Via Rodeo)大道的拐角处，当晨光洒落在空旷的鹅卵石和混凝土街道上时，它们发出灿烂的光芒。

一个奇特而多彩的水坑覆盖着从维亚罗迪欧的中央向后到尽头的地面，奇妙而孤独的是，它被遮盖在吉安弗朗哥费雷大楼的暗阴影里。

结束场景

响应于输入的文本，计算机(例如，控制器150)可以执行方法200，以便提供场景显示310。例如，AI结构可以对文本进行分析，以便得出其含义。例如，缩写“ext.”可以被分类为位置属性(“外景”或“外面”)。“罗迪欧大道—加利福尼亚州贝弗利山”将被AI结构解释为一个氛围命令(“位置是加利福尼亚州贝弗利山的罗迪欧大道”)。此外，“广角镜头”可以被解释为另一氛围命令(“使用/模拟广角相机镜头”)。此外，“鹅卵石和混凝土街道”可以被解释为具有特定纹理的对象(“鹅卵石图案表面和混凝土表面”)。其他单词也可以被类似地解析。结果，场景显示310包括贝弗利山罗迪欧大道的外景视图以及吉安弗朗哥大楼阴影中的红蓝绿水坑。

图3B示出了根据示例实施例的另一动态图形生成场景330。即，在文本窗口332中输入的文本包括不同的短语和句子结构。“这是一个阳光明媚的早晨，著名但异常空旷的街道罗迪欧大道和维亚罗迪欧大道相遇。事实上如此明亮，以至于来自吉安弗朗哥费雷大楼的无情的阴影部分掩盖了一些事物。形状像水坑一样，它多彩的流体似乎蜿蜒地穿过维亚罗迪欧的一半，直到远方。”

由于两个输入不同，场景显示340的一些元素可以与场景300不同地解释。

图3C示出了根据示例实施例的动态图形生成场景330的自然语言识别阶段350。即，自然语言识别阶段350可以包括单个单词/句子/段落解析，以便确定关于AI1 210、AI2212、AI3 214和AI4 216所描述的并在图2中示出的含义。此外，自然语言识别阶段350可以包括将识别的命令分类成几个组(例如，对象命令230、语言命令232和环境命令234)。

图3D示出了根据示例实施例的动态图形生成场景360。如文本窗口362所示，用户可以编辑现有文本以直接调整场景显示366。附加地或替代地，通过从输入文本中选择某些单词，用户可以调整与所选择的文本相关联的对象或效果。在这种情况下，选择“暗阴影”。在这种场景下，可以向用户提供柔化或变暗场景显示366中应用的阴影的选项。作为示例，可以通过从输入文本中移除“暗”一词或者将“阴影”的修饰语调整为“柔和”或者甚至“透明”，来减轻建筑物的阴影。如场景显示366中所示，阴影已经稍微变亮，使得水坑更加可见。

图3E示出了根据示例实施例的另一动态图形生成场景370。如场景370所示，修改场景显示376的另一方式是将输入文本372从“早上”调整到“晚上”。“晚上”这个词可以被AI结构分析为改变一天中的时间。这样，照明可以变暗，阴影可以加深，并且光源的白平衡可以被调整，如场景显示376所示。因此，水坑可能比先前的场景显示更不可见。

图4A示出了根据示例实施例的矢量对象处理400。当给定对象410(在这种情况下是球体)被加载到矢量对象数据库中时，该对象在x方向上被分成1000层以形成矢量对象420。特别地，矢量对象420通过记录给定对象410与1000×1000×1000的三维(例如，x，y，z)网格相交的点并存储x方向上每个层的(y，z)坐标来创建。应当理解，矢量对象420可以使用不同大小的网格(例如，2000×2000×1000)来定义。因此，基于所使用的网格，随后的压缩/解压缩方法可以包括不同数量的层。

当矢量对象420存储在矢量对象数据库中时，1000层中的每一层被压缩成单层，使得交叉点作为矢量彼此重叠。矢量中的每个交叉点都携带有关于其相关层和空间坐标(例如，y位置、z位置和x层)的信息。这样，当矢量对象420被存储在矢量对象数据库中时，存储压缩的版本的有效存储器使用可能显著少于相对于给定对象410的“完整”表示存储整个1000×1000×1000网格的情况。因此，对于相似数量的对象，这样的矢量对象数据库可能比包括对象的完整3D表示的数据库占用少得多的存储器/磁盘空间。

图4B示出了根据示例实施例的矢量对象处理430。也就是说，当从矢量对象数据库调用矢量对象420时，矢量对象420通过在x方向上将对象扩展回其1000层而被解压缩。因此，矢量对象420可以比给定对象410的完整表示加载得快得多。例如，压缩的矢量对象可能占未压缩的对象的存储器的1/1000。此外，通过利用可以特别有效地处理矢量和矢量对象的GPU，可以以动态的、近乎实时的方式提供这种矢量对象的加载、放置和动画。

本文描述的矢量对象和氛围元素可以存储在使用类似的压缩/解压缩方法的单独的矢量数据库中。因此，对象和氛围效果可以近乎实时地动态并入世界平台上。例如，对象和氛围效果可以基本上与用户通过打字、说话和/或手势来输入输入一样快地被调用、显示、以及在某些情况下被动画化。

图5示出了根据示例实施例的方法500。方法500可包括可由如参考图1所示和所述的系统100的一个或多个组件执行的块、步骤或元素。应当理解，方法500可以包括比本文明确描述的步骤或块更少或更多的步骤或块。此外，方法500的各个步骤或块可以以任何顺序执行，并且每个步骤或块可以执行一次或多次。方法500的一些块或步骤可以类似于或等同于方法200的一个或多个块或步骤，如图2所示和所述。

块502包括接收输入，其中输入包括文本、语音或手势中的至少一个。

块504包括基于输入确定一个或多个命令指令。

块506包括基于一个或多个命令指令确定场景布局。

块508包括基于所确定的场景布局提供渲染场景。

附图中所示的特定布置不应被视为限制性的。应当理解，其他实施例可以包括给定图中所示的更多或更少的每个元素。此外，一些示出的元素可以被组合或省略。此外，说明性实施例可以包括图中未示出的元素。

表示信息处理的步骤或块可以对应于可以被配置为执行本文描述的方法或技术的特定逻辑功能的电路。替代地或附加地，表示信息处理的步骤或块可以对应于模块、段、物理计算机(例如，现场可编程门阵列(FPGA)或专用集成电路(ASIC))或程序代码的一部分(包括相关数据)。程序代码可以包括可由处理器执行的一个或多个指令，用于实施方法或技术中的特定逻辑功能或动作。程序代码和/或相关数据可以存储在任何类型的计算机可读介质上，诸如包括磁盘、硬盘驱动器或其他存储介质的存储设备。

计算机可读介质还可以包括非暂时性计算机可读介质，诸如短时间段地存储数据的计算机可读介质，如寄存器存储器、处理器高速缓存和随机存取存储器(random accessmemory，RAM)。计算机可读介质还可以包括更长时间段地存储程序代码和/或数据的非暂时性计算机可读介质。因此，计算机可读介质可以包括二级或永久长期存储，例如，只读存储器(ROM)、光盘或磁盘、光盘只读存储器(CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。例如，计算机可读介质可以被认为是计算机可读存储介质，或者是有形存储设备。

虽然已经公开了各种示例和实施例，但是其他示例和实施例对于本领域技术人员来说将是显而易见的。各种公开的示例和实施例是为了说明的目的，而不是为了限制，真正的范围由所附权利要求来指示。

Claims

1.一种方法，包括：

接收输入，其中所述输入包括文本、语音或手势中的至少一个；

基于所述输入确定一个或多个命令指令，其中确定所述一个或多个命令指令包括：

将所述输入解析成多个线段；

用自然语言识别算法处理所述多个线段，其中所述处理包括将所述线段中的每一个与自然语言命令数据库进行比较；和

基于所述比较确定至少一个识别的线段，其中所述一个或多个命令指令基于所述至少一个识别的线段；基于所述一个或多个命令指令，确定场景布局；和

基于所确定的场景布局提供渲染场景。

2.根据权利要求1所述的方法，其中所述一个或多个命令指令中的每一个对应于所述场景布局的至少一个元素。

3.根据权利要求1所述的方法，其中所述输入包括文本，其中接收所述输入包括经由图形用户界面中的文本输入接收所述文本。

4.根据权利要求1所述的方法，其中所述输入包括语音，其中接收所述输入包括经由麦克风接收所述语音。

5.根据权利要求1所述的方法，其中所述输入包括手势，其中接收所述输入包括经由相机接收所述手势。

6.根据权利要求1所述的方法，其中用自然语言识别算法处理所述多个线段包括用自然语言识别算法顺序地处理所述多个线段。

7.根据权利要求1所述的方法，其中用自然语言识别算法处理所述多个线段包括用自然语言识别算法同时地处理所述多个线段的至少一部分。

8.根据权利要求1所述的方法，进一步包括：

将所述一个或多个命令指令中的每一个分类为以下中的至少一个：对象命令指令、语言命令指令或环境命令指令；和

将每个分类的命令指令存储到至少一个对应的数据库中，其中所述对应的数据库包括对象数据库、语言数据库或环境数据库中的至少一个。

9.根据权利要求8所述的方法，其中确定所述场景布局包括：

为每个对象命令指令确定至少一个对象和至少一个对应的对象位置。

10.根据权利要求8所述的方法，其中确定所述场景布局包括：

为每个环境命令指令确定至少一个环境元素和至少一个对应的环境元素位置。

11.根据权利要求1所述的方法，还包括用随机数生成器生成伪随机种子，其中确定所述一个或多个命令指令或所述场景布局中的至少一个还基于选择与所述伪随机种子相关联的相应命令指令或相应场景布局。

12.根据权利要求1所述的方法，其中提供渲染场景包括使用专用图形处理器基于所确定的场景布局渲染所述渲染场景，其中所述专用图形处理器包括图形处理单元(GPU)。

13.根据权利要求1所述的方法，还包括以HTML兼容格式提供输出。

14.根据权利要求1所述的方法，还包括提供输出，其中所述输出包括与虚拟现实显示器或增强现实显示器中的至少一个兼容的格式。

15.根据权利要求1所述的方法，其中所述方法是近乎实时执行的，其中近乎实时包括每50毫秒确定所述一个或多个命令指令至少一次或至少每50毫秒确定所述场景布局至少一次中的至少一个。

16.根据权利要求1所述的方法，其中所述方法的一个或多个步骤由利用机器学习的智能代理或人工智能结构来执行。

17.一种系统，包括：

输入设备；

渲染处理单元；

显示器；和

控制器，包括至少一个存储器和至少一个处理器，其中所述控制器执行指令以便执行操作，所述操作包括：

经由所述输入设备接收指示文本、语音或手势中的至少一个的输入信息；

基于所接收的输入信息确定一个或多个命令指令，其中确定所述一个或多个命令指令包括：

将所接收的输入信息解析成多个线段；

基于所述比较确定至少一个识别的线段，其中所述至少一个命令指令基于所述至少一个识别的线段；基于所述一个或多个命令指令，确定场景布局；使用所述渲染处理单元基于所确定的场景布局渲染渲染场景；和

经由所述显示器显示所述渲染场景。

18.根据权利要求17所述的系统，进一步包括：

将每个命令指令分类为以下中的至少一个：对象命令指令、语言命令指令或环境命令指令；和

19.根据权利要求17所述的系统，其中，所述显示器包括虚拟现实显示器或增强现实显示器中的至少一个。

20.一种非暂时性计算机可读介质，其中存储有指令，当由计算设备执行时，所述指令使得所述计算设备执行操作，包括：

基于所述输入确定至少一个命令指令，其中确定所述至少一个命令指令包括：

将所述输入解析成多个线段；

基于所述比较确定至少一个识别的线段，其中所述至少一个命令指令基于所述至少一个识别的线段；

基于所述至少一个命令指令，确定场景布局；

基于所确定的场景布局提供渲染场景，其中每个命令指令对应于所述场景布局的至少一个元素；

将每个命令指令分类为以下中的至少一个：对象命令指令、语言命令指令或环境命令指令；

将每个分类的命令指令存储到至少一个对应的数据库中，其中所述对应的数据库包括对象数据库、语言数据库或环境数据库中的至少一个；和

以HTML兼容格式提供输出。