CN114125529A

CN114125529A - 一种生成和演示视频的方法、设备及存储介质

Info

Publication number: CN114125529A
Application number: CN202110871392.9A
Authority: CN
Inventors: 汪灏泓
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2020-08-31
Filing date: 2021-07-30
Publication date: 2022-03-01
Also published as: US20220070541A1; US11418848B2

Abstract

一种生成和演示视频的方法、设备及存储介质，所述方法包括：通过电子设备获取与故事对应的视频数据；通过显示界面演示与所述故事的选定的故事线路径对应的部分所述视频数据；通过输入界面，接收从2D视频流模式切换到3D探索模式的用户请求；和响应于从所述2D视频流模式切换到所述3D探索模式的用户请求，通过处理器，获取具有化身的探索选项的3D视频场景，所述3D视频场景与当前故事状态和当前演示的视频数据相匹配；和通过所述显示界面演示带有所述探索选项的所述3D视频场景。

Description

一种生成和演示视频的方法、设备及存储介质

技术领域

本发明涉及内容显示技术领域，尤其涉及用于交互式视频演示的设备和方法。

背景技术

几十年来，电视一直是最具影响力的娱乐设备。许多技术和创新已部署在电视领域以增强电视体验。例如，基于电视是一种需要尽可能少的用户交互次数的放松体验的假设，因此用户交互和/或对遥控器按键的点击的频率视为评估电视性能的基本指标。在某些其他示例中，研究了基于感应的自动用户识别学习方法，并提出了个性化建议，以加快电视机前的用户交互过程。某些应用探索了电视内容的布局结构和组织，并提供了可缩放的用户交互机制，以实现更快的内容搜索和选择过程。在某些其他应用中，研究了观看电视过程的目标层级访问和交互任务，以使用户能够实时处理电视购物和信息检索等体验。

随着互动电影的出现，故事的形式与传统方式不同，即主角周期性的面对两到三个选项，每个选项引出更多的选项，随后引出多个结局中的一种结局。结果表明，引入的不可预测性会鼓励用户进行可能性的重复观看。然而，对于电视前的用户的频繁交互需求使其不利于喜欢更轻松的风格的用户。

因此，需要一些方法和设备来改善视频观看的体验，并在保持不可预测的美和不过度打扰用户之间进行权衡。

发明内容

本发明一方面提供了一种用于交互式视频演示的方法。所述方法包括：通过电子设备获取与故事对应的视频数据；通过显示界面演示与所述故事的选定的故事情节路径相对应的部分所述视频数据；通过输入界面接收在二维(2D)视频流模式和三维(3D)探索模式之间切换的用户请求；和响应从所述2D视频流模式切换到所述3D探索模式的用户请求：通过所述处理器获取具有化身的探索选项的3D视频场景，所述3D视频场景与当前故事状态和当前演示的视频数据相匹配；和通过所述显示界面演示带有所述探索选项的所述3D视频场景。

在所述方法的某些实施例中，获取具有探索选项的3D视频场景包括：在3D空间中生成化身的运动路径；和获取所述3D环境场景，所述3D环境场景根据所述运动路径变化。

在所述方法的某些实施例中，在3D空间中生成所述化身的运动路径前，获取具有探索选项的3D视频场景还包括：接收用户指令以在所述3D空间中操作所述化身；和根据所述用户指令生成所述运动路径。

在所述方法的某些实施例中，在获取根据所述运动路径变化的所述3D环境场景后，获取具有探索选项的3D视频场景还包括：生成并演示与所述3D空间中的对象和所述化身之间的交互内容相对应的动画内容。

在所述方法的某些实施例中，所述对象与所述化身之间的所述交互内容包括对话，和所述对象在所述对话期间表达一个或多个：合法意见、混乱意见、明智意见、教育意见或随机意见。

在所述方法的某些实施例中，基于在所述对话期间中的角色响应的训练模型，使用神经网络处理来生成具有探索选项的所述3D视频场景。

在所述方法的某些实施例中，所述故事是包括多个故事情节路径的超故事，并且所述超级故事还包括在所述故事的多个时间点对应于多个故事人物的多个人物状态；和所述的方法还包括：通过输入界面接收优选故事发展的用户输入；和根据所述优选故事发展，通过所述处理器从所述超故事的多个所述故事情节路径中识别选定的故事情节路径。

在所述方法的某些实施例中，用于所述优选故事发展的所述用户输入包括语音输入或手势输入；和所述方法还包括翻译所述用户输入以确定所述优选故事发展，包括：执行自然语言处理过程以将所述用户输入转换为意愿命令；或执行手势分析，以从所述显示界面显示的菜单中确定用户选择。

在所述方法的某些实施例中，根据所述优选故事发展来识别所述选定的故事情节路径包括：通过所述处理器获取用以表示所述超故事的DAG空间的大小为M×N的有向无环图(DAG)矩阵，M是多个所述故事角色的所有角色状态组合的数目，N是所述时间点的数目，并且所述矩阵的每个顶点表示在一个时间点的角色状态组合；通过所述处理器，识别所述矩阵中与当前时间点和当前角色状态组合对应的起始顶点；通过所述处理器执行意愿实现距离(WRD)函数的最小化过程，以识别连接所述DAG空间中的多个顶点的连接路径，所述连接路径从所述起始顶点开始并在结果顶点结束，其中，基于意愿和实现结果的匹配程度，所述实现过程的故事质量和视频质量，提出意愿和实现结果之间的延时，所述最小化过程中潜在的用户探索机会中的一项或多项，所述最小化过程动态测量并最小化所述优选故事发展和实现过程之间的距离，所述实现过程由所述连接路径表示。

在所述方法的某些实施例中，所述WRD函数的所述最小化过程包括：通过所述处理器计算所述优选故事发展与所述连接路径的结果之间的匹配度；通过所述处理器计算延时因子，所述延时因子用以说明所述起始顶点和所述结果顶点之间的所有路径的最小持续时间；通过所述处理器计算机会因子，所述机会因子用以说明所述起始顶点和所述结果顶点之间所有路径的最大场景总数；通过处理器计算质量因子，所述质量因子用以说明在所述连接路径中所有步骤中最低质量步骤的质量；通过所述处理器计算作为所述匹配度，所述延时因子和所述机会因子的加权和的所述WRD函数，其中所述加权和包括所述匹配度的第一加权系数、所述延时因子的第二加权系数和所述机会因子的第三加权系数，所述匹配度的所述第一加权系数≤0，所述延时因子的所述第二加权系数≥0，所述机会因子的所述第三加权系数≥0；和在保持所述质量因子高于阈值的同时，通过查找与所述WRD函数的最小值相对应的路径来识别所述连接路径。

在某些实施例中，在所述演示与所述选定的故事线路径相对应的部分所述视频数据之前，所述方法还包括：在演示与所述选定的故事线路径相对应的所述部分所述视频数据之前，通过所述显示界面通知所述实现结果的延时和所述实现结果的置信度。

本发明另一方面公开了一种用于基于医学图像执行计算机辅助诊断(Computer-Aided Diagnosis，CAD)的设备。所述设备包括：存储计算机可执行指令的存储器；和一种与所述存储器耦合处理器，当执行所述计算机可执行指令时，所述处理器还配置为：获取与故事对应的视频数据；通过显示界面显示与所述故事的选定的故事线路径相对应的部分所述视频数据；接收在二维(2D)视频流模式和三维(3D)探索模式之间切换的用户请求；和响应于从所述2D视频流模式切换到所述3D探索模式的所述用户请求：获取具有化身的探索选项的3D视频场景，所述3D视频场景与当前故事状态和当前显示的视频数据相匹配；和通过所述显示界面演示带有所述探索选项的所述3D视频场景。

在所述电子设备的某些实施例中，所述处理器还配置为：在3D空间中生成化身的运动路径；和获取3D环境场景，所述3D环境场景根据所述运动路径变化。

在所述电子设备的某些实施例中，所述处理器还配置为：接收用户指令以在所述3D空间中操作所述化身；和根据所述用户指令生成所述运动路径。

在所述电子设备的某些实施例中，所述处理器还配置为：生成并演示与3D空间中的对象和所述化身之间的交互内容相对应的动画内容。

在所述电子设备的某些实施例中，所述对象和所述化身之间的交互内容包括对话，和所述对象在所述对话期间表达的合法意见、混乱意见、明智意见、教育意见和随机意见中的一个或多个。

在所述电子设备的某些实施例中，所述故事是超故事，包括多个故事情节路径，并且所述超级故事还包括在所述故事的多个时间点对应于多个故事人物的多个人物状态；和所述处理器还配置为：通过输入界面，接收优选故事发展的用户输入；和根据所述优选故事发展，从所述超故事的多个所述故事情节路径中识别选定的故事情节路径。

在所述电子设备的某些实施例中，用于所述优选故事发展的所述用户输入包括语音输入或手势输入；和所述处理器还配置为：执行自然语言处理过程以将所述用户输入转换为意愿命令；或执行手势分析，以从所述显示界面显示的菜单中确定用户选择。

在所述电子设备的某些实施例中，所述处理器还配置为：获取用以表示所述超故事的DAG空间的大小为M×N的有向无环图(Directed Acyclic Graph，DAG)矩阵，M是多个所述故事角色的所有角色状态组合的数目，N是所述时间点的数目，并且所述矩阵的每个顶点表示在一个时间点的角色状态组合；识别所述矩阵中与当前时间点和当前角色状态组合对应的起始顶点；执行意愿实现距离(WRD)函数的最小化过程，以识别连接所述DAG空间中的多个顶点的连接路径，所述连接路径从所述起始顶点开始并在结果顶点结束，其中，所述最小化过程动态的测量和最小化所述优选故事发展和由所述连接路径表示的实现过程之间的距离，同时考虑以下一项或多项：意愿和实现结果的匹配程度，所述实现过程的故事和视频质量，提出意愿和实现结果之间的延时和所述过程中潜在的用户探索机会。

在所述电子设备的某些实施例中，所述处理器还配置于：计算所述优选故事发展与所述连接路径的结果之间的匹配度；计算延时因子，所述延时因子用以说明所述起始顶点和所述结果顶点之间的所有路径的最小持续时间；计算机会因子，所述机会因子用以说明所述起始顶点和所述结果顶点之间所有路径的最大场景总数；计算质量因子，所述质量因子用以说明在所述连接路径中所有步骤中最低质量步骤的质量；计算作为所述匹配度，所述延时因子和所述机会因子的加权和的所述WRD函数，其中所述加权和包括所述匹配度的第一加权系数、所述延时因子的第二加权系数和所述机会因子的第三加权系数，所述匹配度的所述第一加权系数≤0，所述延时因子的所述第二加权系数≥0，所述机会因子的所述第三加权系数≥0；和在保持所述质量因子高于阈值的同时，通过查找与所述WRD函数的最小值相对应的路径来识别所述连接路径。

在所述电子设备的某些实施例中，所述处理器还配置于：在演示与所述选定的故事线路径相对应的所述部分所述视频数据之前，通过所述显示界面通知所述实现结果的延时和所述实现结果的置信度。

本发明另一方面提供了一种非暂时性计算机可读存储介质。所述非暂时性计算机可读存储介质存储多条指令，其中当所述处理器执行多个所述指令时，使所述处理器执行以下操作：获取与故事对应的视频数据；通过显示界面显示与所述故事的选定的故事线路径相对应的部分所述视频数据；接收在二维(2D)视频流模式和三维(3D)探索模式之间切换的用户请求；和响应于从所述2D视频流模式切换到所述3D探索模式的所述用户请求：获取具有化身的探索选项的3D视频场景，所述3D视频场景与当前故事状态和当前显示的视频数据相匹配；和通过所述显示界面显示带有所述探索选项的所述3D视频场景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对在实施例的描述中使用的附图进行简要说明。显而易见的是，以下描述中的附图仅是本发明的部分实施例。基于这些附图，本领域普通技术人员可以得到其他附图。

图1A示出了交互式视频演示体验的示例；

图1B示出了交互式视频演示体验的另一示例；

图1C示出了交互式视频演示体验的另一示例；

图2示出了依据本发明的某些实施例的交互视频演示的不同模式之间的切换；

图3示出了依据本发明的某些实施例的功能单元；

图4示出了依据本发明的某些实施例的IDEO设备的硬件实现形式；

图5示出依据本发明的某些实施例的表示超故事的DAG的示例；

图6A示出了依据本发明的某些实施例的特定故事的故事片段；

图6B示出了DAG表示图6A中所示的故事；

图7示出了强化学习方法；

图8示出了故事中的函数连接的示例；

图9示出了依据本发明的某些实施例的表示超故事的DAG图；

图10示出了由IDEO系统和设备实现的交互式视频演示方法。

具体实施方式

下面参考附图描述本发明实施例的技术方案。所描述的实施例仅是本发明的实施例的一部分，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种用于交互式视频演示的设备和方法。特别地，本发明提供的方法将用户交互能力从仅在电视外提出意愿扩展到能够在三维(3-Dimensional，3D)故事场景内部进行体验(例如，通过他们自己的化身)和探索。所述方法提供的功能能给用户带来更多价值，例如了解背景，获得线索，观察视觉细节以及接收建议等。交互可以通过输入设备完成，例如，通过手(如果使用触摸屏或手势识别机制)、通过语音命令、通过头部运动(如果使用头戴式设备)、通过遥控器或鼠标、通过移动电话和移动设备、或通过如玩具等物联网设备。所述电视能识别用户的交互内容并管理在所述3D故事场景中代表所述用户的化身。

值得注意的是，本发明中使用的通用术语“电视”不限于电视。“电视”可以是指所有视频娱乐系统，也包括基于投影、基于PC、基于机顶盒/机顶盒和基于移动的设备等。

图1A–1C展示了演示3D探索场景的示例。如图1A-1C所示，图1B中的所述3D探索场景中的化身可会根据用户的意图进行操作(例如讲话)。此外，二维(2-Dimensional，2D)视频(图1A所示)中的某些对象在所述3D场景探索(图1C所示)中可以变为活体，并且能够彼此交互或与化身交互。这些对象可以是故事智能的，可以(通过与化身的交互)向用户提供故事背景，线索和建议。在用户许可下，所述化身可以自行探索所述3D场景并与活体对象进行交互，在这种情况下，探索体验可以返回为用户的观看体验。

如图2所示，本发明的某些实施例允许用户通过在三种场景之间切换，即在2D空间中观看电视、在3D空间中观看所述化身在3D空间中自动探索以及驱动所述化身在3D空间中探索，以在2D和3D空间之间以及在被动和主动模式之间自由切换。这种交互体验可以称为交互视频(Interactive viDEO，IDEO)，它包括在2D视频帧到3D故事场景之间的任意切换，反之亦然，与多个3D故事智能对象和化身的协作探索体验，以及通过交互(例如，提出意愿)随时引导故事未来的方向。

根据某些实施例，IDEO系统可以提供以下一个或多个特征：

1)通过简单的交互(例如，单击远程按钮，通过手势或通过语音命令)在2D和3D空间之间切换；

2)同时管理2D视频数据和3D场景数据，使其无缝匹配(即在任意视频时刻找到关联的3D场景)，并且在3D数据不可用的情况下，支持2D视频回放功能；

3)一旦用户从2D切换到3D，就可以实时渲染与当前2D视频帧相关的3D场景，从而提供一种具有多个设备和/或云计算资源支持的协作计算的解决方案；

4)训练故事智能对象以及具有从可使用故事获得的故事知识的用户化身；

5)动态地引导故事智能对象和化身进行交互式交互；

6)引导用户化身在需要时(例如，当用户将化身设置为自动模式时)自动探索3D场景；和

7)通过动态调整超故事网络内部故事分支的路径选择来实现用户的意愿。

图3示出了依据本发明的某些实施例的功能单元。如图3所示，用户可以使用简单的交互模型与电视进行交互，即，任何时候所述用户通过交互提出意愿时，所述电视能识别所述用户的即时意图，随后动态地引导讲故事引擎以满足他/她的期望，并通过反馈消息通知所述用户有关何时可以实现(短期或长期)他/她的意愿。所述用户可以随时在体验模式之间切换(如图2所示)，所述电视将相应的传送2D视频或渲染的3D场景。在3D模式下，故事智能对话引擎可以启用智能对象与化身的对话，并且化身路径规划器可以引导化身在场景中的自动导航(如果用户选择非自行驱动化身)。

在图3中，IDEO的主功能单元在虚线框中显示。值得注意的是，这是一个概念图，无需所有组件都在物理电视盒中，而是所述组件可以在电视软件中执行，也可以作为云服务执行，或者另一设备提供的电视软件可以访问和使用的服务执行。在图3中，左侧的模块归类为“在线模块”，其要求系统提供即时的计算资源并生成即时响应。右侧的模块归类为“离线模块”，其允许离线计算或无需即时结果的过程。归类基于概念观点，无需严格遵循执行。换句话说，在所述IDEO系统的实际执行中，可以基于系统设置的实际条件和相关要求来确定模块是在线的还是离线的。

图4示出了依据本发明的某些实施例的IDEO设备100的硬件执行的示例。如图4所示，所述IDEO设备100可以配置为交互式的演示2D和3D视频场景。在某些实施例中，所述IDEO设备100可以包括计算设备，所述计算设备包括处理器102和存储介质104。所述IDEO设备100还可以包括显示器106或其他输出单元、通信模块108和附加外围设备112。可以省略某些设备，且可以包括其他设备。所述处理器102可以包括任何合适的处理器。在某些实施例中，所述处理器102可以包括用于多线程或并行处理的多个核。所述处理器102可以执行计算机程序指令序列以执行各种处理，例如神经网络处理程序。所述存储介质104可以是非暂时性计算机可读存储介质，并且可以包括存储器模块，例如ROM、RAM、闪存模块、可擦除和可重写存储器，以及大容量存储器，例如CD-ROM、U盘和硬盘等。当由所述处理器102执行时，所述存储介质104可以存储用于执行各种处理的计算机程序和指令，从而使所述处理器执行生成和演示2D和3D视频场景的各种步骤。所述通信模块108可以包括用于通过网络建立连接的网络设备。所述显示器106可以包括任何适当类型的显示设备或电子设备显示器(例如，基于CRT或LCD的设备，触摸屏，VR耳机等)。所述外围设备112可以包括附加的I/O设备，如键盘，鼠标，照相机，麦克风等。所述处理器102可以配置为执行存储在所述存储介质104上的指令，并且执行如以下描述中所详述的与IDEO方法有关的各种操作。

参阅图3，可扩展超故事生成器配置为根据用户的意愿生成故事情节。超故事和常规故事的一个关键区别是，所述超故事包含许多故事，且每个故事都有一个唯一的路径，所述的唯一路径取决于系统创建的选项和角色可能采取的选择。所述超故事可以人工生成，也可以由计算设备自动生成。在故事情节的不同阶段，所述故事可能具有不同的质量级别，因此可适合不同的群体或数量的观众。使用可扩展超故事生成器的优势在于，所述可扩展超故事生成器允许所述超故事的不同分支处于各种质量级别，并且可以不时以可扩展方式改进质量。

顾名思义，超故事(hyper-story)指的是一个故事网络(network)。在以往的一些工作中，提取并抽象了31个角色的函数，以作为童话故事的基本结构成分。换句话说，任何故事都可以表示为串联函数序列。

在本发明中，可以使用有向无环图(Directed Acyclic Graph，DAG)来表示超故事。图5示出了表示超故事的DAG的示例。DAG中的每个顶点表示所有主要角色的状态组合，和从一个顶点到另一个顶点的定向边表示导致这些角色的状态改变的事件。在图5所示的超故事DAG中，存在一个单独的起始顶点，因为所述超故事中包含的所有故事设置的起始点都是相同的，但由于在故事创作过程中可能会生成各种故事的多个结尾，因此存在多个结果顶点。显然，只要满足好故事的基本标准，从起始顶点到所述结果顶点的多条路径中的任何一条都是可能的故事。将从一个顶点到多个顶点的边视为故事图的多个分支。

可以以广为人知的电影/故事《狮子王》为例以示图5的DAG结构。所述故事中有3个主要角色，即木法沙，刀疤和辛巴。所述故事在很大程度上触及了马斯洛层次体系的需要理论的两个层次，王权和生/死。在一个示例中，王权＝0可以表示不考虑王权。王权＝1可以表示渴望获得王权。王权＝2可以表示获得王权。生＝0可以表示已死亡，1表示处于危险中，2表示没有即时危险的生。通过这些量化，所有3个角色的状态可以由6个元组表示，所述6个元组由包括木法沙，刀疤和辛巴3个全部角色的王权和生值组成。图6A示出了依据以上方案的狮子王的故事片段。如图6A所示，具有7个片段(或步骤)的故事的一部分可以由由所有3个角色的王权和生值组成的6元组来表示。

图6B示出了图6A中所示故事的DAG表示。如图6B所示，上述故事的DAG表示可以由实线的路径表示，其中每个顶点表示每个步骤中的状态，每个边表示从一种状态到另一种状态的转换。通过以虚线添加顶点和边缘，可以形成新的故事作为示例。从状态转换开始，故事情节可以通过以下步骤完成。例如，从(221201)到(001202)的边可以指木法沙救了辛巴，但却失去了自己的生命。从(001202)到(001222)的边可以指指辛巴作为新国王向前迈进的发展。可以想象，所述DAG结构中用于生成新故事的空间可以很大，这与故事的步骤数有关。此外，即使故事的步骤数是固定的，故事的持续时间也可以变化，这与依据这些步骤和视频后处理阶段中的编辑和剪切处理的实际持续时间高度相关。

参阅图3，为了使文本格式的故事能够通过电影或视频动画的格式传送给用户，需要自动(或半自动)工作流程来从剧本或故事的其他格式生成视频。自动电影摄影技术已证明可以实现这一目标。视频场景生成器模块从所述超故事生成器获取输入，并相应的创建视频，然后将所述视频存储在数据库中。同时，还可以存储与所述视频相关联的3D场景，以使所述用户可以随时在所述视频回放过程中(通过化身)进入所述3D场景。

为了最大程度地服务于用户，系统需要通过他/她与电视的互动模式来了解用户的偏好。用户配置文件引擎处理收集电视前的用户行为(例如，多久发出一次意愿，完成3D探索次数等等)，为每个用户建立配置文件，并对他们的行为和偏好进行建模。

为了使所述3D场景中的所述对象的形象以及行为生动，可以使用基于人工智能(Artificial Intelligence,AI)的方法来支持类人对话以及指示故事智能特征。另一方面，当允许化身自行导航场景时，需要AI引擎来引导其运动和与周围对象的交互。环境AI引擎配置为执行这些任务。训练可以离线进行，并且训练的模型可以存储在数据库中以供如故事智能对话引擎和化身路径规划器之类的在线模块使用。

故事通常包括通过多个场景的故事发展的过渡。在传统电影中，观众可能会喜欢观看故事场景的投影2D图像，因为当前的电影设置(如果不是3D电影)不支持用户在观看视频的过程中进入3D场景。然而，根据调查，许多用户喜欢能够进入视频场景在3D空间中进行探索的理念，他们对活体对象(例如，类人对象)持非常积极的态度，并希望通过对话和引导与所述对象进行互动。大多数用户可能喜欢接收与故事相关的信息，他们也可能对角色信息和闲聊感兴趣，以获得更多的真实感和多样性。许多用户也表明故事线索会很实用。

故事智能对象可以是在故事情节或场景的上下文中拟人化的场景中的对象。3D环境中的故事智能对象可以包含许多不同的角色或观点，例如，表达：

1)合法意见–故事智能对象代表合法角色的声音，所述合法角色尊重权威，尊重传统并审判不履行职责的人；

2)混乱意见–故事智能对象代表了混乱角色的声音，所述混乱角色遵循自己的良心，不喜欢被告知去做什么，并且偏爱新观念而非传统；

3)明智意见–故事智能对象代表明智角色的声音，所述明智角色对未来有更好的洞察力，并且有更多不可见的可能性的线索；

4)教育意见–故事智能对象代表知道所有角色和与故事相关的对象的背景和内在知识/信息的内幕人士的声音；和

5)随机意见–故事智能对象提供与故事相关或不相关的信息，有时对于听众听起来很荒唐和有趣。

在某些实施例中，当用户通过化身访问3D场景时，某些对象可以与用户或用户化身进行双向对话。所述用户可以引导化身的运动方向，或授权化身四处走动并自动采取行动。所述化身和这些对象的自动化可以通过AI算法来实现。

根据某些实施例，部署环境AI引擎以在以下任务中支持智能对象和化身：

1)3D场景中的化身导航；和

2)所述智能对象和所述化身的故事智能对话。

AI模型的训练可以离线进行，训练后的模型可以存储在数据库中供其他在线模块使用。对于化身自动导航，手动任务可以包括：

1)化身(代表用户)在3D空间中走动，检查一些感兴趣的细节(例如，近距离的观看地图)，以及与智能对象交互/通信，并且在导航完成之后，返回到2D视频观看体验；和

2)所述用户在悠闲模式下观看化身的表演，但可以不时的为化身提供指导(例如，检查感兴趣的内容)。

要解决的问题可定义为：给定3D场景平面图，所述3D平面图包含多个要探索的对象/细节(类别、位置信息等)和每个体验的用户探索历史(探索的对象和时间信息)，确定满足用户期望的所选K个对象的化身的探索序列。

如图7所示，可应用强化学习方法来解决所述问题。图7中的环境是具有代理可以查实的对象/细节的3D场景。所述代理的可能动作是9个方向的移动(假设当化身在对象/细节的周围框内时，交互将自动发生)和切换(切换到2D视频回放模式)。所述代理探索所述环境的状态为S_t。奖励机制设计如下：

(1)每个动作a_t都会获得负奖励-1.0。

(2)在一段时间(典型用户的平均探索时间)之后，每一次运动都会获得负奖励-2.0。

(3)根据用户的喜好程度(可以根据历史数据得出)查实新对象/细节获得各种正奖励，偏好程度越高(来自用户的指导指令/要求视为最高偏好)所述代理将获得的奖励R_t越高。

模型可以用深度Q网络(Deep Q-network,DQN)来执行。多次迭代训练后，所训练的模型可以引导化身快速确定好的例程，以在好的定时控制内探索用户可能偏好的对象/细节的类别。可在框架中共同考虑用于化身和智能对象之间的对话的可变时间，以使结果更具吸引力。

对于故事智能对话，IDEO可以包括3种对话类型，包括：

1)A型：单向注释(例如，来自智能对象的注释)；

2)B型：问题的答案(例如，智能对象回答用户的问题)；和

3)C型：双向对话(例如，化身问一个问题，智能对象回答)。

当考虑“故事智能”时，所有三种类型的对话可以浓缩到与故事有关的话题。对于A型，可以期望IDEO基于对故事常识或已经存在的超故事的知识，可以从故事发展的当前阶段衍生出故事趋势。图8显示了故事中函数连接的示例。如图8所示，故事中的所述函数具有相互关联的模式，例如包括捐赠者的准备函数和魔法剂的转移形式，所述捐赠者的准备函数包括测试D¹，审讯D²，一个将死之人D³，为了仁慈和自由D^4,5，用于划分D⁶，其他D⁷，企图歼灭D⁸，小冲突D⁹，交换提议D¹⁰，所述魔法剂的转移形式包括F¹转移，F²指示，F³准备，F⁴售卖，F⁵发现，F⁶外观，F⁷吞，F⁸夺取，F⁹提供服务。因此，给定在故事的当前状态中找到的当前函数，可以使用基于规则的机制来得出可能的下一个函数。在前面的描述中，由6元组表示的角色状态显然支持相同的逻辑，其中基于规则的机制可用于导出角色的可能的下一个状态。可以通过现有知识和分析来建立规则，可以从现有电影/故事中学到，或者直接从当前超故事中学到，或者是所有这些来源的结合。通常，一旦可以获得下一步骤信息的猜测，就可以使用基于模板的语言生成方法来形成一个句子以表达出来。

对于B型，所需的智能度高于A型，因为系统需要理解故事(或故事的一部分)，理解包含什么、谁、为什么、如何、在哪里、哪个、多少、何时等的问题，并能够解决这些问题。可以用各种训练数据集以及人工智能算法解决这个问题。

B型和C型之间的差别在于C型需要化身问合理的，像人类提出的问题。的确，最近已经开始了对于生成问题的研究，其中可以利用AI算法生成合理的问题。通过结合生成问题和回答问题，IDEO通过结合后的AI算法可以处理C型对话。

参阅图3，以在线模块为特征的模块处理与用户的交互内容以接收请求并传递结果。在线模块利用存储在数据库中的数据和模型来执行即时的智能操作，例如激活对象的表演和对话，以及化身的自我导航等，从而产生IDEO的新颖体验。

用户意图识别器接收用户交互内容并将其译为来自用户的当前意愿。如果用户使用语音输入来明确表达他/她的意愿，例如“我希望苏西能够存活”，则识别器可以使用NLP(自然语言处理)来理解这个指令中的谁、何时、内容，并将其转换为意愿命令的模板，如“苏西(谁)+存活(未来状态)”。如果用户使用手势或通过操作遥控器按钮表达意愿(借助菜单选择)，例如，在屏幕上选择一个角色(例如约翰)，然后在弹出菜单中选择“入狱”以表达“把约翰关进监狱”的意愿，识别器可以立即获得他/她的意图。有很多方法可以用来表明他们的愿望，用户意图识别器的任务是理解用户的即时需求，并将所述即时需求发送到讲故事引擎。

讲故事引擎是在线系统的内核，因为它根据超故事中故事的现有可用性来确定如何响应用户的意愿。系统中可以部署一种新的工作流来平衡多个因素，如实现结果延迟(即提出意愿和实现显示视频之间的持续时间)、故事质量、对意愿的响应置信度、用于探索的3D场景的多样性等，从而找到满足用户期望的最佳故事分支以及到达那里的最佳途径。在做出决定之后，讲故事引擎可以以置信度通知用户将在多长时间内实现他/她的意愿。根据情节分支的可用性，即使有时置信度不够高，IDEO系统也可以尝试寻找最佳解决方案并通知用户。

讲故事引擎的主要职责包括：

1)根据用户的即时意愿，基于故事分支的可用性以及在他/她的行为模式中观察到的用户偏好，找到满足用户意愿的最佳解决方案(即，超故事网络中故事的未来路径)；和

2)将故事趋势提供给故事智能对话引擎，以便智能对象和化身将能够在由环境AI引擎训练的AI模型的指导下展示富有远见的线索和动作。

整数N表示图6A和图6B所示的超故事中的步骤数。如果只考虑角色状态变化的关键发展，N可能是一个小数字，但如果放大角色的动作和情感变化，并在角色状态中考虑更多的因素，N也可能是一个大数字。例如，当N足够大时，电影分成N个步骤，平均每个步骤最多占用一分钟(甚至更少)，那么我们就能够将连续的时间世界转换成离散的步骤世界。另一方面，合理的说法是，所有可能的角色状态的数目都是有限的。整数M表示角色状态的所有组合的数目，因此图6A和图6B中所示的DAG空间可以由如图9所示的大小为M×N的顶点矩阵来表示。元素V_i,j(i＜N，j＜M)表示图9的矩阵中的第i列和第j行顶点。如图9所示，那么讲故事引擎的问题可以表示为：给定在步骤x的时间附近产生的当前意愿和相关的当前顶点V_i,j，需要从所有可能的情况中选择V_rx,ry的顶点以及桥接V_x,y和V_rx,ry的路径。在图9中，点A标记为对应于当前意愿点的示例顶点，顶点B/C/D是可能的实现点，并且用粗线标记源自A到B、C和D的可能路径。最终目标是从B，C和D确定一个点，且从A到所述确定点只有一条路径。

本发明提供了一种名为意愿实现距离(Wish-Realization-Distance,WRD)函数的机制，所述机制能够动态地测量意愿与DAG空间中从一个顶点到另一个顶点的传输所反映的实现过程之间的距离。WRD考虑了意愿与实现结果的匹配程度、实现过程中的故事和视频质量、提出意愿与实现结果之间的延迟、实现过程中潜在的用户探索机会等。利用WRD函数，可以将上述问题转换为在DAG中为距离列表(例如AB、AC、AD)寻找最小值的更容易的问题。

如果P(V_x,y,V_rx,ry)表示在所有可能的选择中具有最小WRD的选定的边的路径，则理想情况下，它同时表示用户意图与实现路径之间的最佳匹配，实现结果的最佳质量过程，提出意愿和实现结果之间的最低延迟以及最丰富的探索机会。然而，在实际中，P(V_x,y,V_rx,ry)在所有这些组元中取胜是非常困难的，因此，使用WRD的联合成本函数使P(V_x,y,V_rx,ry)在这些组元之间进行权衡时胜出更为合理。

如果w表示从用户意图识别器模块传递的意图，所述意图源于用户当前的意愿，M(w，V_x,y，V_rx,ry)表示用户意图与实现结果之间的匹配度，M函数的值在[0.0，1.0]范围内，且所述值越大匹配越好。通常，所述用户的意图是更改或阻止更改角色的状态，这与惩罚，拯救，原谅，获胜，逃脱，寻找等动作有关，因此，可以有效的使用V_x,y和V_rx,ry之间的状态变化与用户意图进行比较以计算M(w，V_x,y，V_rx,ry)。为了简化系统，M函数只考虑角色的起始和结束状态，没有考虑使用所述角色在P(Vx,y,Vrx,ry)路径上的状态变化轨迹来确定其与意图的对齐程度(如图6B所示)，尽管这可能是一个很好的探索方向，匹配度确实是选择实现路径的关键因素。

对于延时因子，T(V_x,y,V_rx,ry)表示V_x,y和V_rx,ry之间的所有路径的最小视频时间段，假设T(V_x,y,V_x+1,yy)是连接的顶点对V_x,y和V_x+1,yy之间的路径的视频会话时间，那么T(V_x,y,V_rx,ry)可以递归计算为：

对于所有与顶点V_x,y直接连接的顶点V_x+1,yy，T(V_x,y,V_rx,ry)＝Minimum[T(V_x,y,V_x+1,yy)+T(V_x+1,yy,V_rx,ry)] (1)

其中若rx＝x+1，则T(V_x+1,yy，V_rx,ry)＝0，。

对于探索机会因子，可以考虑故事中包含的场景数量，假设新场景越多，用户探索的机会就越多。为了简化系统，可以容许重复的场景，并且系统可以计算故事过程中进出的所有场景。S(V_x,y，V_rx,ry)表示由V_x,y和V_rx,ry之间的步骤引入的最大场景总数，因此可以将其计算为：

对于所有与顶点V_x,y直接连接的顶点V_x+1,yy，S(V_x,y,V_rx,ry)＝Maximum[S(V_x,y,V_x+1,yy)+S(V_x+1,yy,V_rx,ry)] (2)

其中，若rx＝x+1，则S(V_x+1，yy，V_rx,ry)＝0。

对于质量因子，我们需要评估使WRD最小化的P(V_x,y,V_rx,ry)的每个步骤，并确保其质量高于预定义的标准(例如Q_阀值)。若Q(P(V_x,y,V_rx,ry))表示路径P(V_x,y,V_rx,ry)的质量，则可以将其计算为：

对于P(V_x,y,V_rx,ry)中的任意边(V₁,V₂)，Q(P(V_x,y,V_rx,ry))＝Minimum[q(V₁,V₂) (3)

其中，q(V₁,V₂)函数测量步骤的质量。这意味着任何低质量的步骤都会降低对包含此步骤的所有较长视频剪辑的评估。

现在，WRD可以定义为M、T和S的函数的组合，其计算过程如下：WRD(w,V_x,y,V_rx,ry)＝a*[1.0-M(w,V_x,y,V_rx,ry)]+b*T(V_x,y,V_rx,ry)-(1–a–b)*S(V_x,y,V_rx,ry), (4)

式中，a和b在[0.0，1.0]范围内，是系统用来调整组元M，T和S的权重的参数；因此，为了最小化WRD，最大化匹配度M和探索机会S，以及最小化延迟T。

给定V_x,y，考虑到{V_rx,ry}的所有可能的候选值以及所有可能的路径，我们可以解最小化WRD(w,V_x,y,V_rx,ry)这一问题，以使Q(P(V_x,y,V_rx,ry))≥Q_阀值。

讲故事引擎可以按以下流程工作：

1.一旦有新故事，可以从可扩展超故事生成器和视频生成器中获得相关故事的视频，重新计算方程式(1)和(2)中的函数T和S，并将其存储在DAG空间中的所有顶点组合中。

2.一旦在接近顶点V_x,y的时间收到意愿w：

a.考虑未来L个步骤中的所有顶点V_rx,ry(L是系统可配置的参数)，并使用P(V_x,y，V_rx,ry)路径选择一个满足方程式(5)的顶点；

b.如果S(w，V_x,y，V_rx,ry)低于可配置的置信度，则将通知用户“无法在当前超故事中实现意愿”；

c.否则，以置信度M(w，V_x,y，V_rx,ry)通知用户实现结果的延迟T(V_x,y，V_rx,ry)。

输出视频调度器可配置为用来根据讲故事引擎的决定动态的调度视频流，并传送要在电视显示器上显示的所需视频片段。

值得注意的是，IDEO框架也适用于单结局故事，因为只有一条路径的所述单结局故事是超故事的最小极端情况。尽管由于故事中所包含分支的限制，某些用户的意愿可能无法有效解决，但在观看和探索模式之间的自由切换以及化身/对象的交互内容为用户提供了具有吸引力的特色。

图3所示IDEO框架的当前设计可用于处理单结局故事而不作任何更改，因为单结局故事可视为超故事的最小极端。

参阅图3，体验模式切换器配置为处理如图2所示的模式之间切换的用户请求。一旦讲故事引擎从所述体验模式切换器接收到请求的模式，所述讲故事引擎就可以决定将利用超故事中的哪些分支去完成目标。对于2D和3D演示，可以调用不同的模块以生成不同的输出给用户。

故事智能对话引擎使用环境AI引擎训练的深度神经网络模型，提供智能对象和化身的对话功能。当用户允许化身自行探索3D场景并且用户切换到3D探索模式时，化身路径规划器可以被激活。可以使用由环境AI引擎训练的学习模型来引导化身在场景内移动并与相邻的智能对象交互。3D渲染模块遵循故事智能对话引擎，化身路径规划器和从数据库传出的3D数据的指导为用户渲染3D场景。

使用图3所示的IDEO系统，用户可以使用各种交互机制在任何时候提出意愿，并且系统可以即时响应他/她的意愿，并且通知用户的意愿可以在故事讲述中多久实现以及在什么置信度下实现。另一方面，所述用户可以随时在电视观看和3D环境探索体验之间自由切换。具有AI功能的智能对象和化身可以有效的将故事的原始2D视频演示扩展为具有沉浸感的3D场景中新的交互式体验方式。通过结合可以将原始故事更改为完全不同的故事的用户的意愿机制与使用户具有浸入感和互动感的体验切换机制相结合，IDEO体验可以吸引用户在不同的时间以不同的愿望和更丰富的策划旅程重复体验故事。IDEO可以将传统的电视观看体验隐式地转化为用户自发参与的探索体验。3D空间可以视为2D视频的可选陪伴层，因此，如果存在任何限制3D空间探索体验成功演示的条件或约束，则IDEO可作为简单的2D视频使用。

图10示出了根据某些实施例由图3和图4所示的IDEO系统和设备实现的交互式视频演示方法200。交互式视频演示方法200可以包括以下步骤。如图10所示，所述方法可以包括以下步骤。

步骤210是获取与超故事对应的视频数据。根据某些实施例，超故事可以是机器生成的。根据某些其他实施例，超故事可以由故事作者生成并输入到电子设备。超故事可以包括多个故事线路径，故事还包括在故事的多个时间点对应于多个故事角色的多个角色状态。在获取超故事之后，电子设备可以根据超故事创建视频数据并将视频存储在存储设备中。在某些实施例中，还可以存储与视频相关联的3D场景，以便用户可以在视频回放过程中的任何时候(经由化身)进入3D场景。

步骤220是接收优选故事发展的用户输入。根据某些实施例，用于优选故事发展的用户输入包括语音输入或手势输入。用户输入转译为以确定优选故事发展。例如，如果用户输入是语音输入，则电子设备可以执行自然语言处理过程以将用户输入转换为所需命令。如果用户输入是手势，则电子设备100可以执行手势分析以确定用户从所显示界面显示的菜单中的选择。

步骤230是根据优选的故事发展从超故事的多个故事情节路径中识别选定的故事情节路径。根据某些实施例，可以用大小为M×N的DAG矩阵来表示超故事，所述大小为M×N的DAG矩阵代表超故事的DAG空间。M是多个故事角色的角色状态的所有组合的数目。N是时间点的数目。矩阵的每个顶点表示某个时间点角色状态的组合。执行意愿实现距离(WRD)函数的最小化处理，以识别连接DAG空间中的多个顶点的连接路径，所述连接路径从起始顶点开始并在结果顶点结束，其中，最小化过程动态的测量并最小化优选故事发展和由连接路径表示的实现过程之间的距离，同时考虑以下一个或多个：提出意愿和实现结果的匹配程度、实现过程中的故事和视频质量，提出意愿和实现结果之间的延迟，以及在此过程中潜在的用户探索机会。WRD函数的最小化过程可根据方程式(1)-(5)执行。例如，所述WRD函数的最小化过程可以包括：由处理器计算优选故事发展和连接路径的结果之间的匹配度；由处理器计算用于说明起始顶点和结果顶点之间的所有路径的最小持续时间的延时因子；由处理器计算用于说明起始顶点和结果顶点之间所有路径的最大场景总数的机会因子；由处理器计算占连接路径中所有步骤的最低质量的质量因子；由处理器计算WRD函数匹配度，延时因子和机会因子的加权和，所述加权和包括所述匹配度的第一加权系数、所述延时因子的第二加权系数和所述机会因子的第三加权系数，其中所述匹配度的所述第一加权系数≤0，所述延时因子的所述第二加权系数≥0，所述机会因子≥0的所述第三加权系数；在保持质量因子高于阈值的同时，通过查找与WRD函数的最小值相对应的路径来识别连接路径。

步骤240是通知用户实现结果的延迟和实现结果的置信度。根据某些实施例，当用户在故事进行的任何时候通过交互来提出意愿时，电子设备可以识别用户的即时意图，然后动态的引导讲故事引擎以满足他/她的期望。根据情节分支的可用性，即使有时置信度不够高，IDEO系统也可以尝试寻找最佳解决方案并通知用户。电子设备还可以通知用户他/她的意愿多长时间和置信度。

步骤250是演示与选定的故事线路径相对应的部分视频数据。在某些实施例中，在获取超故事之后，电子设备可以根据超故事创建视频数据并将视频存储在存储设备中。在选定故事线路径被识别后，电子设备可以识别与选定故事线路径相对应的部分视频数据，并流传输所述部分视频数据。

步骤260是接收从二维(2D)视频流模式切换到三维(3D)探索模式的用户请求。步骤270是响应于从所述2D视频流模式切换到所述3D探索模式的所述用户请求，获取具有化身的探索选项的3D视频场景。所述3D视频场景与当前故事状态和当前显示的视频数据相匹配。根据某些实施例，具有探索选项的3D视频场景可以包括根据化身的移动路径的3D环境场景变化。在某些实施例中，化身的移动路径可以在没有用户输入的情况下自动生成。在某些其他实施例中，化身可以由用户根据用户指令操作。在某些实施例中，可以对应于3D空间中的对象与化身之间的交互内容来生成动画内容。对象和化身之间的交互内容可以包括对话。在对话过程中，对象可以表达一个或多个：合法意见、混乱意见、明智意见、教育意见或随机意见。在某些实施例中，使用基于在所述对话期间中的角色响应的训练模型的神经网络处理来生成具有探索选项的3D视频场景。在某些实施例中，所述方法还包括根据用户请求从3D探索模式切换回2D视频流模式。

以上依据实施例详尽描述了本发明中提供的方法和设备。本文通过具体示例对本发明提供的原理和实施方式进行描述。以上实施例的描述仅用于帮助理解本发明中提供的方法。同时，本领域技术人员将根据本发明提供的思路，对具体实施例和应用范围进行改变。总之，本说明书的内容不应解释为限制本发明。

本发明包含受版权保护的材料。著作权是著作权人的财产。著作权人对复制专利文件或者在专利商标局的正式记录和档案中披露专利无异议。

Claims

1.一种生成和演示视频的方法，其特征在于，所述生成和演示视频的方法应用于具有处理器的电子设备，包括：

通过所述电子设备获取与故事对应的视频数据；

通过显示界面显示部分所述视频数据，所述部分所述视频数据与所述故事的选定的故事情节路径相对应；

通过输入界面接收从2D视频流模式切换到3D探索模式的用户请求；

响应于从所述2D视频流模式切换到所述3D探索模式的所述用户请求，通过所述处理器获取具有探索选项的3D视频场景，其中，所述探索选项是针对化身的探索选项，所述3D视频场景与当前故事状态和当前显示的视频数据相匹配；通过所述显示界面显示具有所述探索选项的所述3D视频场景。

2.根据权利要求1所述的生成和演示视频的方法，其特征在于，所述获取具有探索选项的3D视频场景包括：

在3D空间中生成所述化身的运动路径；

获取所述3D环境场景，所述3D环境场景根据所述运动路径变化。

3.根据权利要求2所述的生成和演示视频的方法，其特征在于，在3D空间中生成所述化身的运动路径前，所述获取具有探索选项的3D视频场景还包括：

接收用户指令以在所述3D空间中操作所述化身；和

根据所述用户指令生成所述运动路径。

4.根据权利要求3所述的生成和演示视频的方法，其特征在于，在获取根据所述运动路径变化的所述3D环境场景后，所述获取具有探索选项的3D视频场景还包括：

生成并演示与所述3D空间中的对象和所述化身之间的交互内容相对应的动画内容。

5.根据权利要求4所述的生成和演示视频的方法，其特征在于，所述对象与所述化身之间的所述交互内容包括对话，和所述对象在所述对话期间表达的合法意见、混乱意见、明智意见、教育意见和随机意见中的一个或多个。

6.根据权利要求5所述的生成和演示视频的方法，其特征在于，基于在所述对话期间中的角色响应的训练模型，使用神经网络处理过程来生成具有探索选项的所述3D视频场景。

7.根据权利要求1所述的生成和演示视频的方法，其特征在于，所述故事是超故事，所述超故事包括多个故事情节路径，并且所述超故事还包括在所述故事的多个时间点对应于多个故事人物的多个人物状态；和

所述生成和演示视频的方法还包括：

通过输入界面，接收优选故事发展的用户输入；和

根据所述优选故事发展，通过所述处理器从所述超故事的多个所述故事情节路径中识别选定的故事情节路径。

8.根据权利要求7所述的生成和演示视频的方法，其特征在于：

所述优选故事发展的所述用户输入包括语音输入或手势输入；和

所述生成和演示视频的方法还包括转译所述用户输入以确定所述优选故事发展，包括：

执行自然语言处理过程以将所述用户输入转换为意愿命令；或

执行手势分析，以从所述显示界面显示的菜单中确定用户选择。

9.根据权利要求7所述的生成和演示视频的方法，其特征在于，所述根据所述优选故事发展来识别所述选定的故事情节路径包括：

通过所述处理器获取大小为M×N的DAG矩阵，所述DAG矩阵用以表示所述超故事的DAG空间，M是多个所述故事角色的所有角色状态组合的数目，N是所述时间点的数目，并且所述DAG矩阵的每个顶点表示在一个时间点的角色状态组合；通过所述处理器，识别所述DAG矩阵中与当前时间点和当前角色状态组合对应的起始顶点；

通过所述处理器执行WRD函数的最小化过程，以识别连接所述DAG空间中的多个顶点的连接路径，所述连接路径从所述起始顶点开始并在结果顶点结束，其中，基于意愿和实现结果的匹配程度，所述实现过程的故事质量和视频质量，提出意愿和实现结果之间的延时，所述最小化过程中潜在的用户探索机会中的一项或多项，所述最小化过程动态测量并最小化所述优选故事发展和实现过程之间的距离，所述实现过程由所述连接路径表示。

10.根据权利要求9所述的生成和演示视频的方法，其特征在于，所述WRD函数的所述最小化过程包括：

通过所述处理器计算所述优选故事发展与所述连接路径的结果之间的匹配度；

通过所述处理器计算延时因子，所述延时因子用以说明所述起始顶点和所述结果顶点之间的所有路径的最小持续时间；

通过所述处理器计算机会因子，所述机会因子用以说明所述起始顶点和所述结果顶点之间所有路径的最大场景总数；

通过处理器计算质量因子，所述质量因子用以说明在所述连接路径中所有步骤中的最低质量步骤的质量；

通过所述处理器计算所述WRD函数，所述WRD函数作为所述匹配度、所述延时因子和所述机会因子的加权和，所述加权和包括所述匹配度的第一加权系数、所述延时因子的第二加权系数和所述机会因子的第三加权系数，其中所述匹配度的所述第一加权系数≤0，所述延时因子的所述第二加权系数≥0，所述机会因子的所述第三加权系数≥0；和

在保持所述质量因子高于阈值的同时，通过查找与所述WRD函数的最小值相对应的路径来识别所述连接路径。

11.根据权利要求9所述的生成和演示视频的方法，其特征在于，在所述演示与所述选定的故事线路径相对应的部分所述视频数据之前，所述方法还包括：

通过所述显示界面通知所述实现结果的延时和所述实现结果的置信度。

12.一种设备，所述设备用于基于医学图像执行计算机辅助诊断，其特征在于，包括：

存储计算机可执行指令的存储器；和

与所述存储器耦合的处理器，当执行所述计算机可执行指令时，还将所述处理器用于：

获取与故事对应的视频数据；

通过显示界面显示部分所述视频数据，所述部分所述视频数据与所述故事的选定的故事线路径相对应；

接收在2D视频流模式和3D探索模式之间切换的用户请求；和

响应于从所述2D视频流模式切换到所述3D探索模式的所述用户请求：获取具有探索选项的3D视频场景，所述探索选项是针对化身的探索选项，所述3D视频场景与当前故事状态和当前显示的视频数据相匹配；和通过所述显示界面显示具有所述探索选项的所述3D视频场景。

13.根据权利要求12所述的设备，其特征在于，还将所述处理器配置为：

在3D空间中生成所述化身的运动路径；和

14.根据权利要求13所述的设备，其特征在于，所述处理器还配置为：

接收用户指令以在所述3D空间中操作所述化身；和

根据所述用户指令生成所述运动路径。

15.根据权利要求14所述的设备，其特征在于，还将所述处理器配置为：

生成并演示与3D空间中的对象和所述化身之间的交互内容相对应的动画内容。

16.根据权利要求12所述的设备，其特征在于：

所述故事是超故事，所述超故事包括多个故事情节路径，并且所述超级故事还包括在所述故事的多个时间点对应于多个故事人物的多个人物状态；和

还将所述处理器配置为：

通过输入界面，接收优选故事发展的用户输入；和

根据所述优选故事发展，从所述超故事的多个所述故事情节路径中识别选定的故事情节路径。

17.根据权利要求16所述的设备，其特征在于，

还将所述处理器配置为：

18.根据权利要求16所述的设备，其特征在于，还将所述处理器配置为：

获取大小为M×N的DAG矩阵，所述DAG矩阵用以表示所述超故事的DAG空间，M是多个所述故事角色的所有角色状态组合的数目，N是所述时间点的数目，并且所述DAG矩阵的每个顶点表示在一个时间点的角色状态组合；

识别所述DAG矩阵中与当前时间点和当前角色状态组合对应的起始顶点；

执行WRD函数的最小化过程，以识别连接所述DAG空间中的多个顶点的连接路径，所述连接路径从所述起始顶点开始并在结果顶点结束，其中，基于意愿和实现结果的匹配程度，所述实现过程的故事质量和视频质量，提出意愿和实现结果之间的延时，所述最小化过程中潜在的用户探索机会中的一项或多项，所述最小化过程动态测量以及最小化所述优选故事发展和实现过程之间的距离，所述实现过程由所述连接路径表示。

19.根据权利要求18所述的设备，其特征在于，还将所述处理器配置于：

计算所述优选故事发展与所述连接路径的结果之间的匹配度；

计算延时因子，所述延时因子用以说明所述起始顶点和所述结果顶点之间的所有路径的最小持续时间；

计算机会因子，所述机会因子用以说明所述起始顶点和所述结果顶点之间所有路径的最大场景总数；

计算质量因子，所述质量因子用以说明在所述连接路径中所有步骤中最低质量；计算所述WRD函数，所述WRD函数作为所述匹配度，所述延时因子和所述机会因子的加权和，所述加权和包括所述匹配度的第一加权系数、所述延时因子的第二加权系数和所述机会因子的第三加权系数，其中所述匹配度的所述第一加权系数≤0，所述延时因子的所述第二加权系数≥0，所述机会因子的所述第三加权系数≥0；和

20.一种存储介质，所述存储介质为存储多个指令的非临时性计算机可读存储介质，其特征在于，当处理器执行多个所述指令时，使所述处理器执行以下操作：

获取与故事对应的视频数据；

通过显示界面显示部分所述视频数据，所述部分所述视频数据与所述故事的选定的故事线路径相对应的；

接收在2D视频流模式和3D探索模式之间切换的用户请求；和

响应于从所述2D视频流模式切换到所述3D探索模式的所述用户请求：获取具有探索选项的3D视频场景，所述探索选项是针对化身的探索选项，所述3D视频场景与当前故事状态和当前显示的视频数据相匹配；和通过所述显示界面显示带有所述探索选项的所述3D视频场景。