CN115443663A

CN115443663A - 自动生成对av内容的增强

Info

Publication number: CN115443663A
Application number: CN202180029466.2A
Authority: CN
Inventors: M.A.斯泰尔玛内托; B.西尔瓦; R.L.德弗雷塔斯库尼亚; V.菲格雷多德桑塔纳
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-05-19
Filing date: 2021-04-26
Publication date: 2022-12-06
Anticipated expiration: 2041-04-26
Also published as: GB2610757A; US11375251B2; GB202218488D0; KR20220160025A; CN115443663B; DE112021001550T5; JP2023526911A; WO2021234477A1; US20210368222A1; AU2021276897A1

Abstract

提供了一种用于自动生成对视听(AV)内容的增强的方法、内容管理器和计算机程序产品。该方法可以包括由处理单元分析关于消费者交互的数据以生成关于原始AV内容的消费者见解，自动将消费者见解与原始AV内容的片段相关联，响应于消费者见解自动生成用于片段的内容，以及将生成的内容注入到原始AV内容中以创建经修改的AV内容。该方法还可以包括通过网络接口接收关于与原始AV内容进行的消费者交互的数据并自动发送经修改的AV内容。

Description

自动生成对AV内容的增强

背景技术

本公开涉及创建和管理视听(audio-visual，AV)内容，并且更具体地，涉及响应于观看者与AV内容的交互来自动增强AV内容。

1948年EDVAC系统的开发经常被引用为计算机时代的开始。从那时起，计算机系统已经发展成极其复杂的设备。当今的计算机系统通常包括复杂的硬件和软件组件、应用程序、操作系统、处理器、总线、存储器、输入/输出设备等的组合。随着半导体处理和计算机架构的进步推动性能越来越高，甚至更先进的计算机软件已经演进为利用那些能力的更高的性能，使得当今的计算机系统比几年前强大得多。

各种内容创建者已经开始经由内容流传输和发布博客(podcasting)来利用这些改进的能力。内容流传输通常指通常通过互联网进行的音频和/或视频文件从服务器到客户端的传输，并且广泛地用于在各种介质播放器(例如，电视、计算机、平板电脑、以及智能电话)上观看视频剪辑和电影。通常，在内容流传输中，观看者/终端用户可以在已经传输整个文件之前开始播放内容。相反，发布博客通常指也通常通过互联网进行的音频和/或视频文件从服务器到客户端的传输。然而，在发布播客中，传输通常在观看者开始播放内容之前发生。

流传输和发布播客已经证明它们自己是用于广告、产品评论、故障排除问题(例如，信息技术、房屋维护、行业相关问题)等的优秀平台。

发明内容

根据本公开的实施例，提供一种用于自动生成对视听(AV)内容的增强的方法。一个实施例可以包括：由处理单元分析关于消费者交互的数据以生成关于原始AV内容的消费者见解、自动将消费者见解与原始AV内容的片段相关联、响应于消费者见解而自动生成用于片段的内容，以及将所生成的内容注入到原始AV内容中以创建经修改的AV内容。该实施例还可以包括通过网络接口接收关于与原始AV内容进行的消费者交互的数据并自动发送经修改的AV内容。

根据本公开的实施例，提供了一种内容管理器。一个实施例可以包括通信耦合到多个内容消费者设备的内容创建服务器，其中该服务器包括耦合到存储器的处理器。处理器和存储器可以被配置为：接收关于与原始视听(AV)内容进行的消费者交互的数据；分析关于消费者交互的数据以生成关于原始AV内容的消费者见解；自动将消费者见解与原始AV内容的片段相关联；响应于消费者见解自动生成用于片段的内容；将生成的内容注入到原始AV内容中以创建经修改的AV内容；以及自动发送经修改的AV内容。

根据本公开的实施例，提供了一种用于自动生成对视听(AV)内容的增强的计算机程序产品。在一个实施例中，该计算机程序产品可以包括计算机可读存储介质，该计算机可读存储介质具有随其体现的程序指令，这些程序指令可由处理器执行。该程序指令可以使得处理器：接收关于与原始AV内容进行的消费者交互的数据；分析关于消费者交互的数据以生成关于原始AV内容的消费者见解；自动将消费者见解与原始AV内容的片段相关联；响应于消费者见解自动生成用于片段的内容；将生成的内容注入到原始AV内容中以创建经修改的AV内容；以及自动发送经修改的AV内容。

以上概述并不旨在描述本公开的每个所示实施例或每个实施方式。

附图说明

本申请包括的附图被合并到说明书中并且形成说明书的一部分。它们示出了本公开的实施方式，并且与描述一起用于解释本公开的原理。附图仅说明某些实施例，而并不限制本公开。

图1描绘了与一些实施例一致的云计算环境。

图2描绘了与一些实施例一致的抽象模型层。

图3描绘了与一些实施例一致的数据处理系统。

图4描绘了与一些实施例一致的系统架构。

图5A-图5B示出了与一些实施例一致的增强内容的一种方法。

虽然本发明可服从不同的修改和替代形式，但是其细节已经通过举例在附图中示出并且将被详细描述。然而，应当理解，本发明并不局限于所描述的具体实施例。相反，本发明旨在覆盖落入本发明的精神和范围内的所有修改、等同物和替代物。

具体实施方式

本公开的各方面涉及创建和管理视听(AV)内容；更具体的方面涉及响应于消费者与AV内容的交互(诸如评论、观看行为等)来自动增强AV内容。虽然本公开不必限于这样的应用，但是可以通过使用该上下文对不同示例的讨论来理解本公开的各个方面。

本公开的一些实施例可以提供用于生成原始内容(诸如，视频或播客)的新版本的自动化系统。该系统可以包括将关于消费者与内容的交互(诸如，人群评论和观看/收听行为(例如，观看者开始交互视频的哪个部分，或者用户停止交互视频的哪个部分))的数据和外部数据(诸如，热门搜索项)变换成见解；使用见解来自动生成内容和/或修改内容；注入生成的内容和/或经修改的内容以创建满足所有者约束和目标(例如，新视频时间、影响视频观看时间的外部因素、满足高要求修改)的内容的(一个或多个)经修改的版本；以及经由在所请求的内容改变的线程中创建和添加评论来最小化冲突的请求。

以此方式，一些实施例可以减少产生针对不同观看者简档而定制的AV内容的(一个或多个)替代版本、修复原始内容中的错误、补充原始内容、更新原始内容和/或以其他方式维持观看者对内容的参与所需要的时间和资源。具体地，一些实施例可以允许自动校正AV内容的原始版本中可能缺失或错误的次要但相关的细节，和/或允许响应于热门话题而自动添加信息(例如，公布智能电话的新版本)。这些错误和遗漏的校正可以实现AV内容的更多观看和AV内容花费的时间增加，并因此使得其所有者进行品牌化和投资的机会更大。

在示例操作中，内容创建者/所有者可以创建视频的原始版本，并然后将视频上传到流服务。流服务继而既将视频递送给终端用户又提供反馈机制，诸如公共消息板或评论板。当将原始视频上传到流服务时，内容所有者可以指定他们想要和/或将允许自动生成的对视频的增强。一些内容所有者还可以指定对这些增强的一个或多个约束，诸如，“我希望该视频的不超过四个版本，每个版本在原始视频的持续时间的130％以下”。

内容递送服务455(参考图4，其在下面更详细地描述)然后可以开始将原始视频分发给终端用户，终端用户可以以消息/评论板上的文本评论的形式将反馈提交给流服务。示例用户评论可以包括“以1.25倍的速度观看它使其完美”和“在12:54很难在浏览器中看到URL”和“这是刚刚发行的新iPhone中的作品吗？”流服务还可以允许用户对其他人提交的评论作出反应，诸如指示他们“喜欢”或“不喜欢”评论和/或通过向原始评论提交反应评论(统称为用户“反应”)。这些反应与它们的基础评论一起在线程中运行，使得讲述“她可能使用3.7，因为这是在变量PYTHON中设定的内容”的反应将出现在离基础评论“这是测试的Python的哪个版本？”非常近的地方，而不论由谁在何时提交了这两个评论。

视频创建服务460可以分析所提交的评论以及所提交的反应，以检测在原始视频中和/或在用于原始视频的改进的区域中的问题。这可以包括使用自然语言处理(NLP)技术(包括情感分析)来分析和理解评论和反应的含义、语调和方向。在一些实施例中，这可以包括解决所提交的评论和反应之间的冲突，诸如按优先级排列更近的评论和/或由具有更高的在线声誉的个人提供的评论。视频创建服务460然后可以将所得到的见解与原始视频的特定片段相关联。这可以再次包括使用NLP技术，诸如生成原始视频的时间索引的转录本。其还可以包括使用对象识别技术来对原始视频的内容进行分类。

接下来，一些实施例可以响应于评论和/或反应中的一个或多个而从潜在操作的菜单中选择最优修复。在一些实施例中，潜在操作的菜单可以包括但不限于：增大视频的一部分的广播速度(例如，1倍速度至1.25倍速度)、减小视频的一部分的广播速度(例如，1倍速度至0.8倍速度)、检索和插入补充的外部材料、创建和插入补充的原始材料、以及编辑原始材料的部分。在一些实施例中，这可以包括生成用于添加的多个候选，然后使用从内容所有者提供的偏好和限制从候选中进行选择。

在一些实施例中，补充材料可以包括对现有视频片段的覆盖文本材料，诸如添加URL(在该URL处可以获得特定产品或可以找到更多信息)或具有某些附加的解释性文本。在一些实施例中，可以通过使用深度学习和用于生成原始视频中的内容呈现者/演员的语音和/或脸部的现实模拟的生成式对抗网络(GAN)技术来包括补充材料。以此方式，例如，如果内容或反应指示原始内容包含错误，则可以用正确的事实来创建视频的新版本，并且其中它看起来好像内容呈现者实际上表达了正确的事实。一些实施例可以自动发布经更新的版本，且一些实施例可以要求原始视频的所有者批准此改变。

在一些实施例中，视频创建服务460可以生成编辑和/或补充材料的多个不同版本以产生原始视频的多个不同的经修改的版本，其中每个经修改的版本针对不同的观看者简档。继续以上示例，视频创建服务460可以创建针对信息技术(IT)专业人员的视频的第一版本，其中添加了声明“Python版本3.7”的覆盖，并且可以创建针对特定品牌智能电话的零售用户的视频的第二版本，其中GAN创建宣布针对智能电话的最新版本的兼容性和最佳设置的新视频片段。

在向内容递送服务455发布(一个或多个)经更新的视频之后，在一些实施例中，视频创建服务460然后可以对不同的版本(例如，原始版本vs.经修改的版本；新版本Avs.新版本B等)执行A/B测试，以确定是否存在用于改进的任何附加领域，以及确定哪个版本具有更高的观看者参与度分数。如果新版本具有更好的分数，则内容递送服务455然后可以将所得到的作品许可回内容所有者。在一些实施例中，视频创建服务460还可以向针对原始或经修改的内容提交了用于创建视频的新版本的评论和反应的观看者以及所使用的任何内容的外部源进行支付。在其他实施例中，内容递送服务455可以创建视频链接(交叉引用)的市场，其中可以基于观看者简档向不同用户呈现原始内容的不同版本。

云计算

图1示出与一些实施例一致的云环境。应当理解，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储装置、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户端平台或胖客户端平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活跃客户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的特定于消费者的应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参考图1，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、桌上型计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图1中所示的计算设备54A-54N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参考图2，示出了由云计算环境50(图1)提供的一组功能抽象层。应提前理解，图2中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储装置72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。客户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；事务处理95；以及内容管理器96。

数据处理系统

图3示出了与一些实施例一致的适合用作云计算环境50中的云计算节点10的数据处理系统(DPS)300的实施例。在一些实施例中，DPS 300可以被实施为个人计算机；服务器计算机；便携式计算机，诸如膝上型或笔记本计算机、PDA(个人数字助理)、平板计算机或智能电话；嵌入较大设备(例如，汽车、飞机、电话会议系统、电器)、智能设备或任何其他适当类型的电子设备中的处理器。此外，可以存在不同于图3中所示的那些组件的组件或除了图3中所示的那些组件之外的组件，并且此类组件的数量、类型和配置可以变化。此外，图3仅描绘了DPS 300的代表性主要组件，并且单个的组件可以具有比图3中所表示的更大的复杂度。

图3中的数据处理系统300可以包括通过系统总线322连接至存储器312、大容量存储接口314、终端/显示接口316、网络接口318、以及输入/输出(“I/O”)接口320的多个中央处理单元310a-310d(本文中统称为处理器310或CPU 310)。在此实施例中，大容量存储接口314将系统总线322连接至一个或多个大容量存储设备，诸如直接存取存储设备340、通用串行总线(“USB”)存储设备341、或可读/可写光盘驱动器342。网络接口318可以允许DPS 300a通过通信介质306与其他DPS 300b通信。存储器312还可以包含操作系统324、多个应用程序326和程序数据328。

图3中的DPS 300实施例可以是通用计算设备。因此，处理器310可以是能够执行存储在存储器312中的程序指令的任何设备，并且其本身可以由一个或多个微处理器和/或集成电路构造。在这个实施例中，DPS 300包含多个处理器和/或处理核，这对于更大的、更有能力的计算机系统是典型的；然而，在其他实施例中，DPS 300可以包括单一处理器系统和/或被设计为模拟多处理器系统的单一处理器。进一步，处理器310可以使用多个异构DPS300来实施，其中主处理器与次级处理器存在于单个芯片上。作为另一说明性示例，处理器310可以是包含相同类型的多个处理器的对称多处理器系统。

当DPS 300启动时，相关联的(一个或多个)处理器310可以初始地执行构成操作系统324的程序指令，该操作系统324管理DPS 300的物理和逻辑资源。这些资源可以包括存储器312、大容量存储接口314、终端/显示接口316、网络接口318和系统总线322。与(一个或多个)处理器310一样，一些DPS 300实施例可以利用多个系统接口314、316、318、320和总线322，这进而可以各自包括它们自己的单独的、完全编程的微处理器。

用于操作系统、应用和/或程序的指令(统称为“程序代码”、“计算机可用程序代码”或“计算机可读程序代码”)可以初始地位于通过系统总线322与处理器310通信的大容量存储设备340、341、342中。不同实施例中的程序代码可以体现在不同的物理或有形计算机可读介质上，诸如系统存储器312或大容量存储设备340、341、342。在图3中的说明性示例中，指令可以采用永久性存储器的功能形式存储在直接存取存储设备340上。这些指令然后可被加载到存储器312中以供处理器310执行。然而，程序代码还可以以功能形式位于选择性可移除的计算机可读介质342上，并且可以被加载到或者转移到DPS 300以供处理器310执行。

系统总线322可以是促进处理器310、存储器312和接口314、316、318、320之间的通信的任何设备。此外，尽管本实施例中的系统总线322是在系统总线322之间提供直接通信路径的相对简单、单个总线结构，但其他总线结构与本公开一致，包括但不限于分级、星形或网络配置中的点对点链路、多个分级总线、并行和冗余路径等。

存储器312和大容量存储设备340、341、342可以协作地工作以存储操作系统324、应用程序326和程序数据328。在所示实施例中，存储器312是能够存储数据和程序的随机存取半导体器件。尽管图3概念性地将该设备描述为单个单片实体，但是在一些实施例中，存储器312可以是更复杂的布置，诸如高速缓存和其他存储器设备的层级。例如，存储器312可存在于多级高速缓存中，且这些高速缓存可进一步按函数划分，使得一个高速缓存保持指令而另一高速缓存保持由一个或多个处理器使用的非指令数据。存储器312可以进一步被分发并且与不同的处理器310或一组处理器310相关联，如在各种所谓的非一致存储器访问(NUMA)计算机架构中的任意一个中已知的。此外，一些实施例可以利用虚拟寻址机制，该虚拟寻址机制允许DPS 300表现得好像它访问单个大的存储实体而不是访问多个小的存储实体，如存储器312和大容量存储设备340、341、342。

尽管操作系统324、应用程序326和程序数据328被示出为包含在存储器312内，但是在一些实施例中，它们中的一些或全部可以在物理上位于不同的计算机系统上并且可以例如经由通信介质306远程访问。由此，虽然操作系统324、应用程序326和程序数据328被图示为包含在存储器312内，但是这些元件不必同时全部完全包含在相同的物理设备中并且甚至可以驻留在其他DPS 300的虚拟存储器中。

系统接口314、316、318、320支持与各种存储装置和I/O设备的通信。大容量存储接口314可支持一个或多个大容量存储设备340、341、342的附接，这些大容量存储设备340、341、342通常是旋转磁盘驱动器存储设备、使用集成电路组件作为存储器来持久存储数据的固态存储设备(SSD)(通常使用闪存)、或这两者的组合。然而，大容量存储设备340、341、342还可以包括其他设备，包括被配置为对主机表现为单个大型存储设备的磁盘驱动器阵列(通常被称为RAID阵列)和/或归档存储介质，诸如硬盘驱动器、磁带(例如，迷你DV)、可写致密盘(例如，CD-R和CD-RW)、数字通用盘(例如，DVD、DVD-R、DVD+R、DVD+RW、DVD-RAM)、全息存储系统、蓝色激光盘、IBMMillipede设备等。

终端/显示器接口316可以用于将一个或多个显示单元(例如监视器380)直接连接到DPS 300上。这些显示单元380可以是非智能(即，无声)终端，例如LED监视器，或者它们本身可以是用于允许IT管理员和客户与DPS 300通信的完全可编程的工作站。然而，注意，虽然显示接口316被提供来支持与一个或多个显示单元380的通信，但是DPS 300不一定需要显示单元380，因为与客户和其他过程的所有需要的交互可以经由网络接口318发生。

通信介质306可以是任何适当的网络或者网络的组合，并且可以支持适合于向/从多个DPS 300传送数据和/或代码的任何适当的协议。因此，网络接口318可以是促进这种通信的任何设备，而不管网络连接是使用当前的模拟和/或数字技术还是经由未来的一些联网机制进行。合适的通信介质306包括但不限于使用“InfiniBand”或IEEE(电气和电子工程师协会)802.3x“以太网”规范中的一个或多个来实施的网络；蜂窝传输网络；实施IEEE802.11x、IEEE802.16、通用分组无线电服务(“GPRS”)、FRS(家庭无线电服务)或蓝牙规范中的一个的无线网络；诸如在FCC 02-48中描述的超宽带(“UWB”)技术。本领域技术人员将理解，许多不同的网络和传输协议可以用于实施通信介质306。传输控制协议/互联网协议(“TCP/IP”)套件包含合适的网络和传输协议。

系统架构

图4描绘了与一些实施例一致的系统400架构。图4中的系统400实施例可以包括原始视频401的所有者/创建器410、在原始视频401中捕获的人420、以及原始视频401的多个观看者430a-430d(统称为观看者430)。所有者410和每一个观看者430可以具有DPS 411、431a-431d(例如，膝上型计算机、智能电话、平板计算机等，在一些实施例中，它们中的每一个可以是上述DPS 300)，该DPS具有能够接入一个或多个公共计算机网络(例如，互联网、专有社交网络平台等)的网络接口。在一些实施例中，系统400还可包括托管内容管理器496的云计算基础设施450(诸如上述云计算环境50)，内容管理器496可以包括内容递送服务455和视频创建服务460。

在操作中，本实施例中的所有者410可以使用其DPS 411来向内容递送服务455上传视频401的原始版本。内容递送服务455转而可以将视频401的原始版本存储在其计算资源450上，并且可以在请求时将视频401的原始版本流传输到与观看者430相关联的(一个或多个)DPS 431。在一些实施例中，一组观看者430可以基本上同时接收该流(例如，实况流)。在其他实施例中，每个观看者430中可以在不同时间接收流(例如，按需流、播客等)。

该实施例中的观看者430可以消费来自内容递送服务455的原始视频401。观看者430中的一些可通过向内容递送服务455发回评论和/或反应来作出响应，内容递送服务455又可以使那些评论和/或反应对其他观看者430可用。另外，内容递送服务455可以收集和使用关于观看者430的活动的统计，诸如他们观看视频401多久、他们在哪个片段开始观看、他们在哪个片段停止观看、观看者重复地观看(即，循环)视频401的哪个(哪些)片段、观看者430是否在任何(哪些)片段处暂停视频401、他们是否从外部源搜索解释性材料等。在一些实施例中，视频创建服务460可以使用自然语言处理(NLP)技术来自动分析所收集的统计数据、所发布的评论和/或所发布的反应，以生成关于原始视频401的问题和/或用于潜在的补充/改进的区域的见解。视频创建服务460然后可以从潜在操作的菜单计算对视频401的一个或多个优选的改变，并然后自动创建包含那些改变的一个或多个经修改的视频401a-401d。当计算优选的改变时，一些实施例还可以利用由所有者410指定的条件，诸如对所使用的计算能力的量、新产生的视频的总时间、新视频的百分比时间增加、添加的内容的类型(例如，仅适用于儿童的语言、仅非受版权保护的内容)等的限制。

在一些实施例中，视频创建服务460还可以包括用于将所计算的(一个或多个)见解与视频401的对应的(一个或多个)片段匹配的相关视频片段分析引擎462，用于生成新内容(例如，修改现有内容、创建新内容、创建新模拟内容、和/或从外部数据源465导入现有内容)并且将该内容插入到视频401中的内容修改器464，确定要做出和/或包括服从约束的哪些修改的内容选择模块466，以及可以使用NLP来分析观看者统计数据、观看者评论和观看者对视频401的反应的反馈引擎468。

内容增强

图5A-图5B(统称为图5)示出了与一些实施例一致的增强内容500的一种方法500。在操作510处，视频401的所有者410可以定义一个或多个视频创建简档。每个简档可以包含一个或多个偏好，诸如对可被创建的经修改的视频的最大数量的限制、针对可被创建的经修改的视频的一个或多个用户简档的意向性加权、对可被创建的经修改的视频的频率的限制、对经修改的版本应当被示出多久的限制、可以使用什么类型的第三方内容、允许什么类型的修复操作。每个简档还可以包含一个或多个限制，例如，对可以使用的计算能力的量、任何经修改的视频401a-401d的总运行时间、每个经修改的视频401a-401d与原始视频401相比的百分比运行时间增加、任何新内容的类型和许可(例如，但不限于，仅适用于儿童的语言或仅非版权内容)等的限制。在操作515处，所有者410可以上传原始视频401并将其与修改简档之一相关联和/或选择一个或多个约束。

接下来，内容递送服务455可以开始将上载的原始视频401流传输到观看者430，然后可以在操作520处开始收集关于观看行为和人口结构简档的统计数据。此外，在操作520处，内容递送服务455可以接收并随后托管来自观看者430的评论和反应。在操作525处，视频创建服务460可以开始分析由内容递送服务455收集的统计数据以及所提交的评论和反应的内容。例如但不限于，如果统计数据指示观看者在时间点2:23和3:12之间循环了视频401的某部分三次，则视频创建服务460可以将该片段标记为有问题。类似地，可以指示原始视频401的片段需要修改的示例评论可以包括诸如“面板的演示太快以至于无法详细查看”、“视频没有提及汽车中的伸腿空间的量、以及“如何使其可以针对GNU/Linux操作系统的最新版本工作？”之类的陈述。

在一些实施例中，视频创建服务460的反馈引擎468可以通过基于经由自然语言处理(NLP)处理的评论的含义对这些评论进行聚类来生成见解。NLP还可用于提取关键字，诸如但不限于，“加快速度”、“加速”、“使其更快”，并且将其聚类成指示原始视频的片段的加速的操作。另一示例是对包含诸如“缺失信息”、“不清楚”和“不能理解”等关键字的句子进行聚类以指示其某些方面需要澄清的视频的片段，这将转换成例如将添加对原始视频的该片段的更多细节的解释的操作。

在一些实施例中，视频创建服务460的反馈引擎468还可通过对评论和反应应用情感分析来生成见解。例如，如果许多评论和/或反应使用尖锐的否定性语言，则系统还可以更重地加权相关联的(一个或多个)片段以用于修改。用于决定修改这样的片段的将具有更大权重的负面评论的示例是“没有办法看到汽车的伸腿空间”，“您在呈现伸腿空间时糟糕地使用相机”，以及“在视频中看伸腿空间时确实是有压力的”。情感分析还可利用与评论相关联的时间戳来生成情感的方向和趋势(例如，评论通常在某些事件之前是有利的，并且通常在该事件之后是不利的)。

在操作530处，视频创建服务460的视频片段分析引擎462可以响应于见解来选择一个或多个视频片段以进行修改。在一些实施例中，可从修改获益的视频片段可以通过例如将从操作525获得的见解与视频401的自动生成的转录本的内容进行匹配来识别。一些实施例还可以对视频401执行对象识别分析，然后将得到的对象列表与见解进行比较。一些实施例还可以利用与统计相关联的时间戳和/或在评论和/或反应中提交的时间戳来识别片段以进行修改。

在操作540处，视频创建服务460的内容修改器464可以确定如何修改原始视频401的所识别的片段。此操作可以包括将来自操作525的见解与潜在操作的菜单进行比较，包括拉伸片段以使其播放得更慢、缩小片段以使其播放得更快、添加具有新内容的新帧、添加具有新内容的覆盖、添加具有新内容的文本气球、以及添加来自外部源465(诸如其他网站、剪辑艺术、数字模型、博客等)的内容。该操作还可以包括生成多个可能的修改，然后使用在操作510处接收的偏好和限制从可能的修改中进行选择。

对于涉及新内容的每个操作，视频创建服务460的内容修改器464可以初始地响应于评论创建经修订的脚本(即，修改所生成的转录本)，然后使用GAN技术创建表演者/叙述者420的语音和类似度的模拟。一些实施例还可以用补充文本材料(诸如，实时字幕和/或文本覆盖)来补充视听材料。

在一些实施例中，使用GAN来添加附加材料可以包括：从表演者/叙述者的现有镜头和新创建的具有新语句的脚本合成新帧，以及合成类似于视频表演者/叙述者的语音和/或类似物的音频。当创建新的视觉效果(诸如创建和添加新的经风格化的文本材料)时，GAN可以用于学习原始视频中使用的视觉效果的风格，并且然后对新的覆盖进行风格化，使得它们与原始内容相匹配。

接下来，在操作550处，视频创建服务460的内容选择模块466可以考虑到在操作510处指定的约束或优化来细化视频修改的部分。例如，一些实施例可以操作来对视频的修改进行优先级排序，该修改将添加与热门话题有关的信息、对最大数量的评论中的关注做出响应、或者对最尊重和有影响力的观看者430的关注做出响应。然而，添加内容来解决所有三种情况可能使得所得到的经修改的视频401a-401d太长。在这种情况下，在一个实施例中，视频创建服务460可以向视频所有者410呈现原始视频的新版本的可能组合的全部或其子集，因此视频所有者可以选择要传送到内容递送服务455的经更新的版本，或者视频所有者可以指定修改操作的一组优先级。在这种情况下，基于该优先级生成可能的经更新的版本的排名列表，并且可以选择满足视频所有者约束的第一版本。

在一些情况下，一些见解可能导致冲突的修改，例如一些观看者430可能想要更多细节，而其他观看者想要更少细节。在这些情况下，视频创建服务460的内容选择模块466可以在操作570处基于在操作510处指定的优先级来选择应实际插入哪个(或哪些)修改。在一些实施例中，视频创建服务460的内容选择模块466可以通过在操作570处创建视频401a-401d的多个不同的经修改的版本(一个经修改的版本针对每组观看者430)并然后将所有版本上传到内容递送服务455来做出响应。在一些实施例中，在操作570处，视频创建服务460可附加地或替换地决定自动生成其自己的对原始视频401的评论和反应并将其发布到内容递送服务的455评论和/或消息板，所述评论和/或消息板解决某些人的关注(例如，在冲突的情况下，评论可以对更低优先级的修改做出响应和/或对文本响应被计算为比其他修改更适当的修改做出响应，诸如对请求URL的评论的响应)。

在操作580处，视频创建服务460的内容修改器464可以处理所选择的(一个或多个)修改以创建视频401a-401d的一个或多个附加的修改版本。此外，在操作590处，视频创建服务460可以生成元数据并将其插入到(一个或多个)经修改的视频401a-401d中，该元数据标识经修改的视频401a-401d的什么(一个或多个)部分是新的、做出了什么改变、何时做出的改变等。

在操作592处，视频创建服务460可任选地为修改寻找视频401的原始所有者410的任何必要的许可证和/或批准。在操作594处，视频创建服务460可以自动上传视频的(一个或多个)经修改的版本401a-401d，并开始收集对(一个或多个)经修改的版本401a-401d的统计数据、评论和反应。在操作596处，视频创建服务460可以将(一个或多个)经修改的版本401a-401d的所收集的统计数据(例如，观看者的数量、观看的持续时间等)以及所收集的评论和反应与视频401的原始版本的统计数据、评论和反应进行比较。如果统计数据、评论和观点没有改进视频，则视频创建服务460可回滚改变、通知原始所有者等。可替代地，一些实施例可以对视频401、401a-401d的不同版本执行A/B测试，并且然后选择具有更好统计数据、评论和反应的版本。

计算机程序产品

虽然已经参考本发明的某些实例详细地描述了本发明，但是在不脱离其基本精神或属性的情况下，本发明也可以以其他特定形式体现。例如，本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。计算机可读程序指令可以在单个计算机上存储和执行或者在相同位置或不同位置在不同计算机之间划分以用于存储和执行。

计算机可读存储介质可以是可以保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全在客户计算机上执行、部分在客户计算机上执行、作为独立软件包执行、部分在客户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至客户的计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个框中规定的功能/动作。

概述

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个框以及流程图和/或框图中各框的组合，都可以由计算机可读程序指令实现。此外，附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实施方式中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

在本说明书中使用的任何特定程序术语仅仅是为了方便，因此，本发明不应仅限于在由这种术语标识和/或暗示的任何特定应用中使用。因此，例如，被执行以实现本发明的实施例的例程(无论是实现为操作系统的一部分还是特定应用、组件、程序、模块、对象或指令序列)可以称为“程序”、“应用”、“服务器”或其他有意义的术语。实际上，在不背离本发明的范围的情况下，可以使用其他替代的硬件和/或软件环境。

因此，希望在此描述的这些实施例在所有方面都被认为是说明性的而非限制性的，并且参考所附权利要求书来确定本发明的范围。

Claims

1.一种用于自动生成对视听(AV)内容的增强的方法，包括：

通过网络接口接收关于与原始AV内容进行的消费者交互的数据；

由处理单元：

分析关于消费者交互的所述数据以生成关于所述原始AV内容的消费者见解；

自动将所述消费者见解与所述原始AV内容的片段相关联；

响应于所述消费者见解自动生成用于所述片段的内容；以及

将生成的内容注入到所述原始AV内容中以创建经修改的AV内容；以及

通过所述网络接口自动发送所述经修改的AV内容。

2.根据权利要求1所述的方法，还包括收集关于与原始AV内容进行的消费者交互的所述数据。

3.根据权利要求1所述的方法，其中，所述数据包括关于所述原始AV内容的评论，并且所述方法还包括分析所述评论以生成所述消费者见解。

4.根据权利要求3所述的方法，其中，所述分析包括：

对所述评论执行自然语言处理以确定含义；以及

使用所确定的含义对所述评论进行聚类。

5.根据权利要求3所述的方法，其中，所述分析包括执行所述评论的情感分析以确定情感和情感方向。

6.根据权利要求1所述的方法，其中，所述内容的自动生成包括：

生成所述原始AV内容的转录本；

将所述消费者见解与所述转录物进行比较。

7.根据权利要求6所述的方法，其中，所述内容的自动生成还包括：

响应于所述消费者见解修改所述转录本；以及

使用经修改的转录本生成模拟的表现。

8.根据权利要求7所述的方法，其中，所述内容的自动生成还包括使用生成式对抗网络来生成所述模拟的表现，其中，所述模拟的表现显得像表演者的语音及其类似物。

9.根据权利要求6所述的方法，还包括：

使用所述消费者见解生成补充文本材料；以及

将补充材料覆盖在所述内容片段上。

10.根据权利要求6所述的方法，还包括：

分析关于消费者交互的所述数据以生成关于所述原始AV内容的多个消费者见解；

检测所述多个见解中的至少两个见解之间的冲突；

从冲突的所述至少两个见解中选择优先级见解，其中自动生成的所述内容是响应于所述优先级见解的；

响应于更低优先级见解自动生成评论；以及

发布所生成的评论作为对关于所述原始AV内容的评论的响应。

11.根据权利要求6所述的方法，还包括：

响应于所述消费者见解来选择外部内容；以及

将所述外部内容添加到所述原始AV内容。

12.根据权利要求1所述的方法，还包括：

生成关于所述经修改的AV内容的元数据；以及

将所述元数据附加到所述经修改的AV内容。

13.根据权利要求1所述的方法，其中，所述消费者交互包括：

关于所述内容的评论；以及

关于消费者对所述内容的使用的数据。

14.根据权利要求1所述的方法，还包括：

接收关于与所述经修改的AV内容进行的消费者交互的数据；

将关于与所述经修改的AV内容进行的消费者交互的数据与关于与所述原始AV内容进行的消费者交互的数据进行比较；以及

基于所述比较移除所述经修改的AV内容或所述原始AV内容。

15.根据权利要求1所述的方法，还包括：

从所述原始AV内容的所有者接收简档，所述简档指定至少一个偏好和至少一个限制；以及

由所述处理单元，响应于所述至少一个偏好和所述至少一个限制而自动生成用于所述片段的内容。

16.根据权利要求15所述的方法，还包括：

响应于所述消费者见解而自动生成用于所述片段的多个潜在的内容；

估计与所述多个潜在的内容相关联的附加的时间量；以及

使用所述至少一个偏好和所述至少一个约束从所述多个潜在的内容中进行选择。

17.根据权利要求1所述的方法，其中，关于与所述原始AV内容进行的消费者交互的所述数据包括与所述原始AV内容有关的热门搜索项。

18.根据权利要求1所述的方法，还包括：由所述处理单元响应于所述消费者见解而自动修改所述片段。

19.一种内容管理器，包括：

内容创建服务器，其通信耦合到多个内容消费者设备，其中所述服务器包括耦合到存储器的处理器，其中所述处理器和所述存储器被配置为：

接收关于与原始视听(AV)内容进行的消费者交互的数据；

自动将所述消费者见解与所述原始AV内容的片段相关联；

响应于所述消费者见解而自动生成用于所述片段的内容；

自动发送所述经修改的AV内容。

20.一种用于自动生成视听(AV)内容的增强的计算机程序产品，所述计算机程序产品包括具有随其体现的程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使所述处理器：

接收关于与原始AV内容进行的消费者交互的数据；

自动将所述消费者见解与所述原始AV内容的片段相关联；

响应于所述消费者见解而自动生成用于所述片段的内容；

将生成的所述内容注入到所述原始AV内容中以创建经修改的AV内容；以及

自动发送所述经修改的AV内容。