CN115209214A

CN115209214A - 从视频中识别并移除受限信息

Info

Publication number: CN115209214A
Application number: CN202210355692.6A
Authority: CN
Inventors: 安东尼奥·哈罗; 陆瑞汶; 塞尔丘克·科尔普
Original assignee: eBay Inc
Current assignee: eBay Inc
Priority date: 2021-04-06
Filing date: 2022-04-06
Publication date: 2022-10-18
Anticipated expiration: 2042-04-06
Also published as: US20220319551A1; CN115209214B; US11587591B2; EP4071644A1; EP4071644B1

Abstract

使用基于web的平台向观众提供具有没有受限音频的视频，诸如受版权保护的音轨。为此，接收包括至少两个音频层的视频。音频层可以包括分离且不同的音频层或来自不同源的音频的混合。在第一音频层中识别受限音频元素并且在第二音频层中识别语音元素。通过在两个音频层上执行语音到文本并且移除与第二音频层的受限音频元素相对应的文本，可以生成缝合文本字符串。播放视频时，一部分视频会根据受限音频元素静音。语音合成器用于在静音部分期间使用缝合文本字符串生成可听语音。

Description

从视频中识别并移除受限信息

技术领域

在高层次上，本文描述的方面涉及提供具有受限音频的视频。

背景技术

许多网站允许第三方上传视频内容。其中一些网站积极寻求识别并移除包括受限信息的视频内容，例如受版权保护的音乐。受版权保护的音乐有时会无意中出现，因为某些第三方将他们无权使用的音乐合并到视频中。在其他情况下，它会无意中出现在视频的背景中。传统技术会在检测到受限信息(如受版权保护的音乐)时标记视频，并可能禁止将视频上传到网站。一些网站要求用户在上传视频之前发布免责声明。

发明内容

一种方法包括识别视频的第一音频层中的受限音频元素和第二音频层中的语音元素。在一个示例中，这可能发生在用户创建的视频内容包括一些受限音频(例如受版权保护的音轨)的情况下。

基于第一音频层包括受限音频元素，包括第一层和第二层的音频在播放视频时被静音。通过这样做，受限音频元素不存在于计算设备的用户界面处的视频回放中。

为了让其他人在没有受限音频元素的情况下仍然能够理解视频的内容，启动语音合成器以生成对应于第二音频层的语音元素的可听语音。语音合成器在已经静音的一部分视频期间提供可听语音。这样，用户可以在不听到受限音频元素的情况下观看视频，但仍然能够理解视频的内容，因为语音合成器提供了来自语音元素的可听语音。

除了启动语音合成器之外或代替启动语音合成器，可以在回放期间提供文本以便在没有受限音频元素的情况下提供语音元素的内容。为此，使用语音到文本模型生成文本字符串，并且生成的文本字符串包括表示第一音频层的第一组文本和表示第二音频层的第二组文本。生成文本字符串使得文本字符串内的第一组文本分散在第二组文本中。当受限音频元素和语音元素同时出现在视频中时，就会出现这种模式。

从文本字符串中生成缝合文本字符串。这是通过缝合表示第二音频层的第二组文本并且从第一音频层排除第一组文本来完成的。这样，缝合文本字符串中包括与语音元素相对应的文本，但不包括受限音频元素。可以在静音一部分视频期间提供缝合文本字符串以在用户界面上显示。

本概述旨在以简化形式介绍概念的选择，这将在本公开的详细描述部分中进一步描述。本发明内容并非旨在识别所要求保护的主题的关键或基本特征，也不旨在用作确定所要求保护的主题范围的帮助。本技术的其他目的、优点和新颖特征将部分地在随后的描述中阐述，并且部分地对于本领域技术人员在检查本公开内容或通过技术实践学习时将变得显而易见。

附图说明

下面结合附图对本技术进行详细描述，其中：

图1是根据本文描述的一个方面的包括示例视频编辑引擎的示例运行环境；

图2是根据这里描述的一个方面的说明性场景，其中创建具有受限音频元素和语音元素的视频文件；

图3是根据本文描述的一个方面的由图2的语音元素形成的缝合文本字符串的示例说明；

图4是根据本文描述的一个方面的在没有图2的受限音频元素的情况下播放视频的计算设备；

图5至图6是示出根据本文描述的方面的用于提供没有受限音频的视频的示例方法的框图；以及

图7是根据本文描述的方面的适用于采用图2的示例视频编辑引擎的方面的示例计算设备。

具体实施方式

一些允许用户上传视频内容的网站试图阻止上传受限制的内容，例如受版权保护的信息，因为这些网站拥有允许其他用户访问视频内容的平台。

但是，防止受限视频内容对网站来说是一项挑战。尤其是一些网站变得非常庞大，并且内容也非常庞大，以至于无法查看每一分钟的视频以确定它是否包括受限制的内容。2019年，一个流行的互联网流媒体网站平均每天上传的视频内容量为720,000小时。

为了帮助识别受限内容，这些基于web的大型平台依赖于人工智能。在其他情况下，这些平台依靠个人用户来标记视频。一旦确定，网站通常会抽取视频以进行额外的人工审查，或者会完全禁止在网站上提供视频。在许多情况下，这些网站随后会对上传用户采取行动，以主动阻止未来的受限内容。

在大多数情况下，这些传统方法的结果是，如果这些用户仍然希望他们的视频被主机平台公开，上传用户将不得不重新上传没有限制部分的视频内容。很多时候，这需要用户重做视频内容，而这可能无法重现。此外，一些人工智能引擎对受限内容的误报会导致一些用户错误地受到平台的预防措施的影响，从而无意中危害了不包括受限视频内容的用户的其他历史视频内容。

本公开的技术解决了这些问题以及更多传统实践中固有的问题。特别是，该技术提供了一种机制，通过该机制可以从视频中移除受限元素，但仍以观众仍能够理解视频上下文的方式提供视频内容。

通过这样做，用户现在不再需要重新创建没有受限内容的视频。在无法重新创建视频的情况下，诸如在视频上捕获的一次性事件，仍然可以上传和共享视频，以便观众能够观看视频并了解上下文。

另一个好处来自虚假标记场景，其中人工智能或人为错误地将视频识别为包括受限内容。在这种情况下，可以采用使用本公开中提供的技术对视频进行编辑，而不是限制视频上传或其共享，或者对用户采取一些行动。通过使用本技术，即使一部分视频以某种方式受到虚假标记的影响，视频仍会被上传并以保持内容上下文的方式提供给观众。因此，本公开中提供的技术可以用作传统技术的标记和限制方法的替代方案，传统技术使用户受到潜在的惩罚并且限制单一内容。

所公开的方法包括优于移除一种类型声音的现有编辑方法的好处，因为现有编辑方法是计算密集型的并且通常不会产生完美的结果，通常仍然需要人来查看和操纵音频的某些部分。此外，使用这些传统方法，从一个源中移除声音数据会在回放期间使来自第二个源的声音失真。所公开的方法的计算密集度要低得多，因为它可以使两个层静音并且使用语音合成器来生成与语音元素相对应的音频，这通常比已经编辑以移除一些声源但留下其他声源的音频更真实。对于从语音元素训练用户语音以生成音频的实施方式来说，这变得更加现实。

与传统方法相比，可以用来实现这些好处的一种示例方法从接收视频开始。在一个特定场景中，用户使用计算设备提供视频，并且视频包括音频部分。音频部分包括至少两个音频层。如将要描述的，这些音频层可以是不同的或组合成单个音频输出。在至少两个音频层内包含包括受限音频元素的第一音频层和包括语音元素的第二音频层。

举个例子，上传视频的用户可能正在拍摄对象的视频并且描述视频的对象。如果用户正在拍摄物品的视频以将其发布到物品列表平台上进行销售，则可能会发生这种情况。然而，当用户描述该物品时，受版权保护的音轨正在后台播放。在这种情况下，音频包括具有受限元素的第一音频层，即受版权保护的音轨，而第二音频层包括描述物品的用户的语音元素。

为了识别第一音频层的受限元素，诸如受限音频元素，可以将音频或音频的层与数字指纹数据库的内容进行比较。数字指纹数据库包括大量受限内容并将受限内容与音频进行比较以识别音频与受限内容之间的匹配。在识别匹配时，数字指纹数据库可以指示匹配，从而将音频层识别为包括受限音频。

当一部分视频已被识别为包括受限音频元素时，则在该一部分期间将音频静音。例如，如果第一音频层包括受限音频元素，则第一音频层和第二音频层可以在该一部分视频期间静音。通过静音，视频被编辑以移除音频。

为了帮助保持视频的上下文，同时不提供受限音频元素，可以在已经静音的一部分视频期间启动语音合成器。语音合成器接收第二音频层的语音元素作为输入，并且发送对应于输入语音元素的合成语音以用于可听投射。例如，如果第二音频层包括“这是一款新的限量版车型”的语音元素，则语音合成器可以生成与该语句相对应的合成语音元素，使得在视频播放过程中，扬声器投射的可听声音是合成的可听语音，说：“这是一款新的限量版车型。”以这种方式，用户在静音部分期间听到合成语音，由于这已被静音，因此在没有受限音频元素的情况下提供视频的上下文。

为了进一步提高播放期间视频的质量，可以在语音元素上训练语音合成器模型。也就是说，可以将与用户语音相对应的音频部分(例如第二音频层)——语音元素——用作训练语音合成器模型的输入。因此，输出的训练后的语音合成器模型已经在语音元素中包括的可听语音特征上进行了训练，从而生成了可以用作与视频中的语音的特征更密切相关的语音合成器的训练后的语音合成器模型。

除了训练语音合成器模型之外或代替训练语音合成器模型，可以基于第二音频层的语音元素的可听语音特征从一组语音合成器中选择语音合成器。即，基于语言、音调和声调以及其他可能的特征，可以选择语音合成器。例如，语音元素可能具有指示带有英国口音的女性说英语的特征。可以选择和使用与之匹配的语音合成器。

可以分离使用或与使用语音合成器的前述方法组合使用的另一种方法使用在显示器处提供的可视文本，该方法有助于在静音部分期间保持视频的上下文。例如，语音到文本模型可以用于从视频中生成文本字符串。在受限音频元素和语音元素同时出现在视频中的情况下，有时得到的文本字符串可以包括散布的表示第一音频层的第一组文本和表示第二音频层的第二组文本。

因此，为了提供基于音频的视频上下文，通过移除与第一音频层的受限音频元素相对应的文本并且根据与第二音频层的语音元素相对应的剩余文本形成缝合文本字符串来生成缝合文本字符串。然后可以在音频已经静音的时间期间在计算设备的显示器处提供缝合文本字符串。这样，观众可以使用文本看到语音元素的内容，而无需听到或看到受限的语音元素。

将认识到，刚刚描述的方法只是一个示例，可以从以下描述中进行实践，并且提供该方法是为了更容易理解该技术并认识到它的好处。现在参考附图描述附加示例。

现在转向图1，图1示出了可以采用本公开的实施方式的示例运行环境100。特别地，图1示出了具有根据本公开的实施方式的组件的运行环境100的高级架构。图1的组件和架构旨在作为示例。

在未示出的其他组件或引擎中，运行环境100包括计算设备102。计算设备102被示为使用网络104与数据存储器106和视频编辑引擎108通信。

计算设备102可以是对应于参考图7描述的计算设备700的设备。在实施方式中，计算设备102可以是客户端或前端设备，而在其他实现中，计算设备102表示后端或服务器端设备。如将要讨论的，计算设备102还可以表示一个或多个计算设备，因此，该技术的一些变体包括客户端或前端设备，以及执行将进一步描述的任何功能组合的后端或服务器端计算设备。

网络104可以包括一个或多个网络(例如，公共网络或虚拟专用网络“VPN”)，如网络104所示。网络104可以包括但不限于一个或多个局域网(LAN)、广域网(WAN)或任何其他通信网络或方法。计算设备102可以是对应于这里参考图7描述的计算设备的客户端计算设备。

数据存储器106通常存储信息，包括数据、计算机指令(例如，软件程序指令、例程或服务)或在所述技术的实施例中使用的模型。尽管描述为单个数据库组件，但数据存储器106可以体现为一个或多个数据存储器或者可以在云端中。

视频编辑引擎108通常在播放时提供不包括受限元素的视频。视频编辑引擎108可以由从用户接收视频并将视频提供给其他观众的基于web的平台采用。通过使用视频编辑引擎108，受限元素在观看时可以不提供给其他观众。

在特定实施方式中，视频编辑引擎108由基于web的物品列表平台采用，该平台列出待售物品。对于某些物品列表平台，视频是在平台提供的物品列表过程期间上传的。也就是说，物品列表平台可以为用户提供物品列表过程以在平台上列出物品，并且物品列表可以部分地包含包括该物品的视频。

视频编辑引擎108可以接收视频。可以从计算设备接收视频。视频可以包括作为视频文件的一部分，该视频文件包括视频元素和至少两个音频层。

在本公开的上下文中，至少两个音频层旨在表示来自至少两个不同源的音频数据。将理解，当音频数据作为视频文件的一部分被接收时，音频数据可以包括来自两个不同源的分离且不同的音频层。这可能发生在使用多个麦克风并且每一个麦克风的数据被分离写入和组合以进行回放的情况下。在另一种情况下，分离且不同的音频层可能源于用户对视频进行事后编辑并将音频覆盖到视频文件中。然而，在其他情况下，音频可能仅包括来自不同源的音频数据；但是，来自这些源的音频数据在写入文件时会合并。也就是说，基于创建音频数据的方式，音频数据可以不可分离成不同的音频层，或者至少在没有大量修改的情况下不可分离。然而，在音频数据仍然包括从不同音频源写入的数据的情况下，例如人声说话和在后台播放的音乐，包括视频和音频的视频文件可能包括至少两个音频层。当至少两个音频层是分离且不同的，或者当至少两个音频层被组合但对应于源自两个不同源的音频时，可以使用本文提供的技术的实施方式。

由此提供一些上下文，并且还提供一个可以用于理解技术的其他方面和功能的示例，已经提供了图2来说明其中创建视频文件202的示例场景200。

简要参考图2，场景200包括用于记录物品206的视频的计算设备204。如所指出的，这可以作为物品列表过程的一部分来完成，该物品列表过程用于在基于web的物品列表平台上列出物品206。然而，应当理解，这只是该技术的一个示例用例，并且该技术也可以用于其他场景，为了简洁起见，不讨论其中的许多场景。

在记录物品206的视频时，计算设备204可以使用作为通信耦合到计算设备204的来记录视频数据的输入组件的相机，同时还利用一个或多个麦克风作为通信耦合到计算设备204的输入组件。在此说明中，一个或多个麦克风用于记录来自两个不同源的音频数据。第一不同源起源于人类语音并且包括语音元素源208。这里，与语音元素源208相关联的音频数据对应于人类语音“这款手表是正品...”

另外，在场景200中，两个不同源还包括源自在后台播放并被一个或多个麦克风接收的受版权保护的音轨(“音轨12”)的音频。此处，提供受限音频元素源210以说明在记录物品206的视频时捕获的受版权保护的音轨的音频。如图所示，由相机捕获的视频数据作为视频212提供，而来自语音元素源208的音频数据作为语音元素214提供，而来自受限音频元素源210的音频数据作为受限音频元素216提供。在该示例中，与视频212、语音元素214和受限音频元素216相关联的每一个数据都被写入视频文件202。可以理解，在一些情况下，虽然语音元素源208和音频元素源210在场景200中同时发起，但与这两个不同源相关联的数据可能于不同时间发起，例如，如果用户稍后要编辑视频，使其除了用户的语音之外还包括受版权保护的音轨。此类方法还可用于生成适用于该技术的视频文件。

现在回到图1，为了在播放时提供没有受限元素的视频，例如回放在场景200中记录的没有受限音频元素216的视频，视频编辑引擎108的一些实施例方式使用音频元素识别器110、语音到文本引擎112、语音合成器引擎114和回放组件116。

通常，音频元素识别器110从视频文件(诸如图2的视频文件202)或从音频文件识别音频元素。例如，音频文件可以包括与不同音频源相关联的、没有视频数据的数据，并且被视频编辑引擎108与视频文件类似地处理。

音频元素识别器110可以将音频层识别为包括受限音频元素。一种用于识别受限音频元素的示例方法是将音频层与数字指纹数据库118进行比较。如所指出的，比较的音频层可以是与其他音频数据分离且不同的音频层。在另一个实施方式中，音频层是从不同音频源写入的数据的说明。在任一种情况下，可以将音频层提供给数字指纹数据库118或与数字指纹数据库118进行比较，因为通常只需要在数字指纹数据库118内将部分音频进行比较。

数字指纹数据库118可以包括已知受限元素的数据库。例如，这可能包括受版权保护的信息，例如音乐、文本、图像等。数字指纹数据库118可以是索引已知受限元素的数据库，音频元素可以与已知受限元素比较。在一些情况下，通过将从音频层确定的语言或单词与数字指纹数据库118的已知受限元素进行匹配来进行比较。这可以通过使用语音到文本引擎112将音频层转换为与音频层相对应并且表示音频层的文本来执行，这将进一步讨论。除此之外或代替地，通过将音频层的音频信号与数字指纹数据库的音频信号进行比较，声音特征元素(例如声音的指纹)可以用于将音频层与数据库中的受限元素进行匹配。在识别出音频层和数字指纹数据库118的已知受限音频元素之间的匹配之后，数字指纹数据库118提供音频层包括受限音频元素的指示。在一种情况下，该指示包括提供匹配的已知受限元素。这样，音频元素识别器110将音频层识别为包括受限音频元素。

音频元素识别器110可以将音频层识别为包括语音元素。例如，可以训练深度神经网络来识别视频或音频文件的音频层中的人类语音。为此，可以使用谷歌提供的WebRTCVAD作为示例来训练深度神经网络。在训练时，可以将视频或音频或其一部分作为输入提供给训练后的深度神经网络，该深度神经网络输出提供的视频或音频的音频层的语音元素的指示。其他机器学习模型可以用于将音频元素分类为音频层中的语音元素并且旨在落入本公开的范围内。

语音到文本引擎112通常从语音生成文本。更具体地，语音到文本引擎112通常将与人类语音相对应的音频数据转换成表示人类语音的文本。

语音到文本引擎112可以在音频元素识别器110检测到视频中的人类语音时使用。在一些情况下，当存在指示视频内的部分音频包括受限音频元素时，使用语音到文本引擎112。因为引擎可以开始分析包括受限音频元素的一部分视频，但不必分析整个视频，所以在检测到受限音频元素时使用语音到文本引擎112在一些情况下可以是有益的。因此，虽然语音到文本引擎112可以被配置为分析视频的整个音频，但它也可以仅在音频元素识别器112将音频层分类为包括受限元素时实现。

语音到文本引擎112可以使用训练后的算法将音频数据转换成表示人类语音的文本。本领域的普通技术人员将理解，目前存在适合由语音到文本引擎112使用的训练模型。为了提供一个非限制性示例，IBM的Watson的语音到文本也是适用的。在提交本公开内容时，开源选项可以包括Simon，因为Simon使用KDE库、CMU SPHINX或Julius以及HTK(隐藏马尔可夫模型工具包)。应当理解，这些只是可以使用的几个示例，并且其他示例也是可用的并且将变得可用。

通过采用这种模型，语音到文本引擎112输入音频层并且输出与音频层内的人类语音相对应并且表示音频层内的人类语音的文本字符串。在一个示例中，包括语音元素但不包括受限音频元素的一个音频层被提供为语音到文本引擎112的输入，并且生成包括语音元素的文本但不表示受限音频元素的文本字符串作为输出。文本字符串可以由语音合成器引擎114或回放组件116使用，这将更详细地讨论。

在一些实施方式中，来自至少两个音频层(包含包括受限音频元素的音频层和包括语音元素的音频层)两者的音频数据被提供为语音到文本引擎112的输入。在受限音频元素和语音元素都包括人类语音的情况下，文本字符串包括表示散布在表示语音元素的文本之间的受限音频元素的文本。换句话说，语音到文本引擎112可以生成文本字符串，该文本字符串包括表示包括受限音频元素的第一音频层的第一组文本和表示包括视频元素的第二音频层的第二组文本，其中文本字符串内的第一组文本分散在第二组文本中。

语音到文本引擎112可以从文本字符串形成缝合文本字符串以提供表示包括语音元素的音频层的文本，同时不包括表示包括受限音频元素的音频层的文本。作为示例，语音到文本引擎112可以通过将表示语音元素的文本缝合在一起以使得缝合文本字符串不包括表示受限音频元素的文本来形成缝合文本字符串。

当形成缝合文本字符串时，语音到文本引擎112可以利用由数字指纹数据库118提供的信息。如所指出的，音频元素识别器110可以基于由数字指纹数据库118提供的匹配已知受限元素的指示将音频层识别为包括受限音频元素。语音到文本引擎112可以利用数字指纹数据库118中被识别为匹配的已知受限元素来移除表示受限音频元素的文本字符串的部分。即，将文本字符串与匹配的已知受限元素进行比较，以识别文本字符串中与已知受限元素中的文本元素相对应的文本元素。可以移除对应的文本。一旦被移除，剩余的文本包括与语音元素相关联的文本。在没有与受限音频元素相关联的被移除文本的情况下，剩余文本按照剩余文本的原始顺序缝合以形成缝合文本字符串。

该示例方法使用图3来说明。一般来说，图3是形成缝合文本字符串308的示例说明300。特别地，图示300描绘了从文本字符串302(由图2的视频文件202生成)形成缝合文本字符串308。如前所述，视频文件202包括语音元素214和受限音频元素216。根据与语音元素214和受限音频元素216相对应的音频层，语音到文本引擎112已经生成了文本字符串302。文本字符串302包括与语音元素214相对应的文本，其分散在与受限音频元素216相对应的文本中。

在此示例中，与受限音频元素216相关联的音频层已被识别为和与指纹数据库304的音轨12相对应的文本的至少一部分匹配。语音到文本引擎112将指纹数据库304的音轨12的文本与文本字符串302的文本进行比较，并从文本字符串302中移除与指纹数据库304的音轨12的文本相对应的文本。在移除之后，将对应的文本，表示为文本元素306A-D的剩余文本，缝合在一起以形成缝合文本字符串308。如图所示，缝合文本字符串308包括对应于语音元素214的文本，同时不包括来自受限音频元素316的文本。

再次主要参考图1，语音合成器引擎114通常使用语音合成器来生成可以在回放时提供的音频。语音合成器引擎114可以选择和使用存储在数据存储器106中的任何语音合成器120。语音合成器120可以包括文本到语音模型。各种模型在本领域中是已知的。每一个模型可以包括与语音合成器的文本到语音模型提供的语音类型相关联的一组特征。一些示例特征可以包括音高、速度、变调、口音、性别、语言等，它们由声音特征元素(profile)定义，包括波长、幅度、频率等。

语音合成器引擎114可以从多个语音合成器中进行选择，每一个语音合成器与具有不同特征的文本到语音模型相关联，并且包括在语音合成器120中。该选择可以基于与音频层的语音元素相关联的语音特征。也就是说，语音元素的语音特征由语音合成器引擎114使用语音元素的声音特征元素来确定。然后可以将语音特征与语音合成器的文本到语音模型的类似特征相匹配。

在一些实施方式中，语音合成器模型122被训练。语音合成器引擎114可以使用语音元素的音频层来训练语音合成器模型122。这样，使用训练后的语音合成器模型的语音合成器可以比使用不同的声音特征或特征元素构建的文本到语音模型更接近地匹配人类语音的特征。其中，可以使用包括语音元素的音频层作为训练数据的语音合成器模型的一个示例包括Microsoft的自定义语音。一旦经过训练，训练后的语音合成器模型可以被语音合成器引擎114用来生成与语音元素相对应的音频。训练后的语音合成器模型可以被存储为语音合成器模型122，并由语音合成器引擎114使用或在附加语音元素上进一步训练。

在一种方法中，语音合成器引擎114通过使用语音合成器的文本到语音模型或训练后的语音合成器模型来生成音频。如上所述，语音到文本可以用于从包括语音元素的分离且不同的音频层生成文本。在这种情况下生成的文本字符串可以是语音合成器引擎114用来生成音频的输入。在音频层不是分离且不同的但仍包括来自至少两个不同源的至少两个音频层的实施方式中，缝合文本字符串可以是语音合成器引擎114用来生成音频的输入。

回放组件116通常提供编辑后的视频。在一些实施方式中，回放组件编辑视频以生成编辑后的视频并且编辑后的视频被保存以便可以播放编辑后的视频。例如，编辑后的视频可以从基于web的平台流式传输。在其他实施方式中，在视频流式传输时对视频进行编辑，从而保持视频的保存版本完好无损。

回放组件116对视频的编辑包括使音频静音。包括音频的一个或多个音频层的音频可以在其中音频层包括如使用音频元素识别器110识别的受限音频元素的一部分视频期间被静音。回放组件116可以通过启动语音合成器或使用语音合成器引擎114选择或训练的训练后的语音合成器模型来编辑视频，以在静音部分期间生成可听声音。如所指出的，回放组件116可以编辑视频并将其保存为编辑后的视频，或者现在正在提供编辑后的视频时对视频进行编辑。

图4提供了在计算设备400处播放的编辑后的视频的示例图示，其中编辑后的视频不包括受限音频元素。正在通过图形用户界面提供视频以在显示器402上显示。作为示例，图标404旨在说明基于对包括在音频层之一中的受限音频元素的识别，原始一个或多个音频层被静音。也就是说，包括受限音频元素的第一音频层和包括语音元素的第二音频层都可以在包括受限音频元素的一部分视频期间被静音。

还如图所示，已启动语音合成器以生成与语音元素相对应的可听声音。语音合成器可以在被静音的一部分视频期间启动，或者在预编辑过程期间或者在回放组件116提供视频的时间期间启动。使用框406来表示语音合成器在静音部分期间生成可听声音的这种启动和使用，以说明语音合成器在该一部分视频期间曾经是活动的或正在活动。语音合成器为语音元素生成可听声音，该声音使用以通信方式耦接到计算设备的扬声器412投射。与语音元素相对应的声音投射由可听信号408说明，其对应于文本字符串410“This watch isan authentic...(这款手表是正品...)”。除了可听信号408之外或代替可听信号408，可以提供文本字符串410。文本字符串410可以示出缝合文本字符串，例如与图3的缝合文本字符串308相对应的缝合文本字符串，或者可以是由语音到文本引擎直接从包括语音元素的音频层生成的文本字符串。

返回参考图1，再次注意，可以采用任意数量的组件来实现本公开范围内的期望功能。尽管为了清楚起见，图1的各个组件用线条示出，但实际上，描绘各个组件并不是那么清楚而是隐喻地，线条可能更准确地是灰色或模糊的。此外，虽然图1的一些组件被描绘为单个组件，但是这些描绘在本质上和数量上旨在作为示例并且不应被解释为对本公开的所有实施方式的限制。除了所示的那些之外或代替所示的那些，可以使用其他布置和元件(例如，机器、接口、功能、指令和功能分组等)，并且可以完全省略一些元件。

此外，关于图1描述的许多元件是功能实体，例如关于视频编辑引擎108描述的那些，其可以实现为离散或分布式组件或与其他组件结合，并且以任何合适的组合和位置实现。在此描述为由一个或多个实体执行的各种功能可以由硬件、固件或软件来执行。例如，可以通过处理器执行存储在存储器中的指令来执行各种功能。

参考图5至图6，包括框图以说明用于提供没有受限音频元素的视频的方法。可以使用这里描述的视频编辑引擎108来执行这些方法。在实施例中，一个或多个计算机存储介质具有在其上体现的计算机可执行指令，当由一个或多个处理器执行时，使一个或多个处理器执行方法的运行。

图5是用于提供没有受限音频元素的视频的示例方法500的框图。在框502处，接收视频。视频可以包括至少两个音频层，它们可以是分离且不同的，或者由一个以上不同的音频源形成。

在框504处，第一音频层被识别为包括受限音频元素。也就是说，受限音频元素是从音频中识别出来的并且被包括在第一音频层中。音频元素识别器110可以通过将至少两个层或如果第一层与第二层分离且不同于第二层则单独的第一层与数字指纹数据库进行比较来识别受限音频元素。在一些情况下，将至少两个音频层提供给数字指纹数据库，这使得数字指纹数据库与已知的受限元素进行比较并指示或提供匹配的已知受限音频元素，从而指示至少两个音频层中的第一音频层包括受限音频元素。

在框506处，第二音频层被识别为包括语音元素。音频元素识别器110还可用于识别第二音频层中的语音元素。训练后的机器学习算法，例如深度神经网络，可以被训练来分类第二音频层是否包括语音元素。在一些情况下，语音到文本引擎112可以用于生成文本字符串或缝合文本字符串形式的文本，该文本字符串对应于语音元素并且表示语音元素。

在框508处，第一音频层和第二音频层被静音。这可以在离线过程中由回放组件116执行，回放组件116将具有受限音频的一部分视频静音并将其存储为编辑后的视频。这也可以通过在回放期间使一部分视频静音来完成。两者都旨在作为“编辑后的”视频被包括在内。基于包括第一音频层的受限音频元素的视频，该一部分视频被静音。

在框510处，启动语音合成器以生成与第二音频层的语音元素相对应的可听语音。这可以由回放组件116在离线过程期间或在播放视频时完成。语音合成器被启动和激活期间的一部分视频包括具有受限音频元素的部分。可以基于语音元素的特征来选择语音合成器，这可以与多个语音合成器中的语音合成器的特征进行比较。这个启动的语音合成器可以包括已经至少部分地使用第二音频层的语音元素训练的训练后的语音合成器模型。在一些实施方式中，语音合成器使用文本字符串或缝合文本字符串作为输入，除了语音合成器生成的语音之外或代替语音合成器生成的语音，它们中的任一个都可以由图形用户界面提供。

现在参考图6，提供了一种用于提供没有受限音频元素的视频的示例方法。在框602处，接收视频。在框604处，生成包括表示视频的第一音频层的第一组文本和表示视频的第二音频层的第二组文本的文本字符串。可以使用图2的语音到文本引擎来生成文本字符串。在一些情况下，文本字符串内的第一组文本分散在第二组文本中。这可能发生在同时提供第一音频层和第二音频层的第一源和第二源的情况下。

在框606处，第一音频层被识别为包括受限音频元素。这可以使用前面讨论的方法来完成，并由音频元素识别器110执行。

在框608处，第一音频层和第二音频层被静音。这可以在离线过程期间或在播放编辑后的视频时使用回放组件116来完成。可以基于识别受限音频元素来完成第一音频层和第二音频层的静音。

在框610处，提供缝合文本字符串。缝合文本字符串不包括与第一音频层的受限元素相关联的第一组文本。可以使用语音合成器引擎114通过移除第一组文本并将剩余的文本(包括与第二音频层和语音元素相关联的第二组文本)缝合在一起来生成缝合文本字符串。缝合文本字符串可以由计算设备的显示器处的图形用户界面提供。在一些情况下，启动语音合成器从而在已经静音的一部分视频期间使用缝合文本字符串生成可听声音。

已经描述了本技术的概述，下面描述可以在其中实现本技术的实施例的示例运行环境，以便为本技术的各个方面提供一般上下文。首先特别参考图7，示出了用于实现本技术的实施例的示例性运行环境并且通常被指定为计算设备700。计算设备700只是合适的计算环境的一个示例，并不旨在暗示对该技术的使用范围或功能的任何限制。也不应将计算设备700解释为具有与所示组件中的任何一个或组合相关的任何依赖性或要求。

可以在计算机代码或机器可用指令的通用内容中描述本公开的技术，包括由计算机或其他机器(诸如个人数据助理或其他手持设备)执行的计算机可执行指令(诸如程序模块)。通常，包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或实现特定抽象数据类型的代码。该技术可以在各种系统配置中实施，包括手持设备、消费电子产品、通用计算机、更专业的计算设备等。该技术也可以在分布式计算环境中实施，其中任务由通过通信网络链接的远程处理设备执行。

参考图7，计算设备700包括直接或间接耦合以下设备的总线710：存储器712、一个或多个处理器714、一个或多个呈现组件716、输入/输出端口718、输入/输出组件720和说明性电源722。总线710表示可以是一个或多个总线(例如地址总线、数据总线或其组合)。尽管为了清楚起见，图7的各个框都用线条表示，但实际上，描绘各种组件并不是那么清楚而且是隐喻地，线条会更准确地是灰色和模糊的。例如，可以将诸如显示设备之类的呈现组件视为I/O组件。此外，处理器具有存储器。我们认识到这是本领域的本质，并且重申图7的图表仅示出了可以与本技术的一个或多个实施例结合使用的示例计算设备。诸如“工作站”、“服务器”、“笔记本电脑”、“手持设备”等之类的类别之间没有区别，因为所有这些类别都在图7的范围内并且参考“计算设备”。

计算设备700通常包括各种计算机可读介质。计算机可读介质可以是可以由计算设备700访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备、或可以用于存储期望信息并且可以由计算设备700存取的任何其他介质。计算机存储介质本身不包括信号。

通信介质通常在诸如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“调制数据信号”是指具有一个或多个其特征的信号，该特征以这样一种方式设置或改变，以便在信号中编码信息。作为示例而非限制，通信媒体包括诸如有线网络或直接有线连接的有线媒体，以及诸如声学、RF、红外线和其他无线媒体的无线媒体。以上任何内容的组合也应包括在计算机可读介质的范围内。

存储器712包括易失性或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备700包括从诸如存储器712或I/O组件720等各种实体读取数据的一个或多个处理器。呈现组件716向用户或其他设备呈现数据指示。呈现组件的示例包括显示设备、扬声器、打印组件、振动组件等。

I/O端口718允许计算设备700逻辑耦合到包括I/O组件720的其他设备，其中一些可以内置。说明性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备等。

以上描述的实施例可以与一个或多个具体描述的替代方案组合。特别地，要求保护的实施例可以包括对不止一个其他实施例的参考。要求保护的实施例可以指定要求保护的主题的进一步限制。

本技术的主题在本文中被具体描述以满足法定要求。然而，描述本身并不旨在限制本公开的范围。相反，发明人已经考虑到，要求保护或公开的主题也可以以其他方式体现，以包括与本文中描述的那些类似的不同步骤或步骤组合，并结合其他现有或未来技术。此外，尽管在本文中可以使用术语“步骤”或“块”来表示所采用的方法的不同组成元素，这些术语不应被解释为暗示本文公开的各个步骤之间的任何特定顺序，除非和除了明确说明各个步骤的顺序。

出于本公开的目的，“包括”一词与“包含”一词具有相同的广泛含义，“访问”一词包括“接收”、“引用”或“检索”。此外，词语“通信”与词语“接收”或“发送”具有相同的广义含义，该词语由使用本文描述的通信介质的基于软件或硬件的总线、接收器或发射器器具体化。此外，“启动”一词与“执行”或“指示”一词具有相同的广义含义，其中对应的的动作可以基于另一动作的发生而被执行到完成或中断。此外，诸如“一”和“一个”之类的词语，除非另有相反说明，包括单数和复数。因此，例如，在存在一个或多个特征的情况下满足“特征”的约束。此外，术语“或”包括合取词、析取词和两者(a或b因此包括a或b，以及a和b)。

出于以上详细讨论的目的，本技术的实施例参考分布式计算环境进行描述；然而，这里描述的分布式计算环境仅仅是示例。组件可以被配置用于执行实施例的新颖方面，其中术语“配置用于”可以指“被编程为”执行特定任务或使用代码实现特定抽象数据类型。此外，虽然本技术的实施例通常可以参考这里描述的视频编辑引擎和示意图，但是应当理解，所描述的技术可以扩展到其他实现环境。

从上文可以看出，该技术非常适合于实现上述所有目的和对象，包括该结构明显或固有的其他优点。应当理解，某些特征和子组合是有用的并且可以在不参考其他特征和子组合的情况下使用。以上都是由权利要求所设想的并且在权利要求的范围内。由于可以在不脱离本范围的情况下做出所描述技术的许多可能的实施例，因此应当理解，这里描述的或附图所示的所有内容都应被解释为说明性的而不是限制性的。

可以根据之前描述进行实践的一种非限制性示例系统包括用于提供没有受限音频的视频的系统，该系统包括：至少一个处理器；和/或多个存储计算机可执行指令的计算机存储介质，当这些指令由处理器执行时，使处理器执行操作，包括：捕获包括至少两个音频层的视频，其中第一音频层包括受限音频元素并且第二音频层包括语音元素；将视频上传到基于web的平台，其中基于web的平台提供第三方网络用户对视频的访问；以及在图形用户界面显示视频时，通过扬声器投射可听声音，该可听声音由语音合成器确定并对应于第二音频层，其中可听声音在第一音频层和第二音频层基于第一音频层包括受限音频元素而被静音的一部分视频期间投射。

Claims

1.一种用于提供没有受限音频的视频的计算机实现方法，所述方法包括：

接收包括至少两个音频层的视频；

识别第一音频层包括受限音频元素；

识别第二音频层包括语音元素；

基于所述第一音频层包括所述受限音频元素，当视频被提供用于在用户界面处显示时，使一部分视频的所述第一音频层和所述第二音频层静音；以及

启动语音合成器以在所述第一音频层和所述第二音频层被静音的所述一部分视频期间生成与所述第二音频层的所述语音元素相对应的可听语音。

2.根据权利要求1所述的方法，其中，通过将所述第一音频层与数字指纹数据库进行比较来识别所述第一音频层包括所述受限音频元素。

3.根据权利要求2所述的方法，还包括从所述数字指纹数据库接收第一层包括受版权保护的音轨的指示，并且其中识别所述第一音频层包括所述受限音频元素是基于所述受版权保护的音轨的所述指示的。

4.根据权利要求1所述的方法，其中，所述视频被接收作为在列出待售物品的物品列表平台处的物品列表过程的一部分，所述视频包括在所述物品列表平台上的待售物品。

5.根据权利要求1所述的方法，还包括基于所述第二音频层中的可听语音特征来选择所述语音合成器。

6.根据权利要求1所述的方法，还包括：

使用所述第二音频层训练语音合成器模型以生成训练后的语音合成器模型；以及

采用所述训练后的语音合成器模型作为所述语音合成器。

7.根据权利要求1所述的方法，还包括：

生成包括表示所述视频的所述第一音频层的第一组文本和表示所述视频的所述第二音频层的第二组文本的文本字符串，其中，所述文本字符串中的所述第一组文本分散在所述第二组文本中；以及

通过缝合所述文本字符串的所述第二组文本来形成缝合文本字符串，使得所述缝合文本字符串不包括所述文本字符串的所述第一组文本，其中，所述语音合成器基于所述缝合文本字符串生成可听声音。

8.根据权利要求7所述的方法，还包括在所述第一音频层和所述第二音频层被静音的所述一部分视频期间提供所述缝合文本字符串以在所述用户界面处显示。

9.一个或多个存储计算机可执行指令的计算机存储介质，所述计算机可执行指令当由处理器执行时，使所述处理器执行提供没有受限音频的视频的方法，所述方法包括：

接收包括至少两个音频层的视频；

生成包括表示视频的第一音频层的第一组文本和表示视频的第二音频层的第二组文本的文本字符串，其中，所述文本字符串中的所述第一组文本分散在所述第二组文本中；

识别所述第一音频层包括受限音频元素；

基于所述第一音频层包括所述受限音频元素，当提供所述视频以在用户界面处显示时，使一部分视频的所述第一音频层和所述第二音频层静音；以及

在其中所述第一音频层和所述第二音频层被静音的所述一部分视频期间提供缝合文本字符串用于在所述用户界面处显示，其中，所述缝合文本字符串是通过缝合所述文本字符串的所述第二组文本使得所述缝合文本字符串不包括所述文本字符串的所述第一组文本而形成的。

10.根据权利要求9所述的介质，其中，通过将所述第一音频层与数字指纹数据库进行比较来识别所述第一音频层包括所述受限音频元素。

11.根据权利要求10所述的介质，还包括从所述数字指纹数据库接收第一层包括受版权保护的音轨的指示，并且其中识别所述第一音频层包括所述受限音频元素是基于所述受版权保护的音轨的所述指示的。

12.根据权利要求9所述的介质，其中，所述视频被接收作为在列出待售物品的物品列表平台处的物品列表过程的一部分，所述视频包括在所述物品列表平台上的待售物品。

13.根据权利要求9所述的介质，还包括启动语音合成器以在其中所述第一音频层和所述第二音频层被静音的所述一部分视频期间基于所述缝合文本字符串生成音频。

14.根据权利要求13所述的介质，还包括基于所述第二音频层中的可听语音特征来选择所述语音合成器。

15.一种用于提供没有受限音频的视频的系统，所述系统包括：

至少一个处理器；以及

一个或多个存储计算机可执行指令的计算机存储介质，所述计算机可执行指令当由处理器执行时，使所述处理器执行包括以下步骤的操作：

捕获包括至少两个音频层的视频，其中，第一音频层包括受限音频元素并且第二音频层包括语音元素；

将所述视频发送到向第三方web用户提供对所述视频的访问的基于web的平台，其中，基于所述第一音频层包括所述受限音频元素，所述发送对所述视频进行编辑以生成编辑后的视频，对所述编辑后的视频的所述编辑包含在包括所述第一音频层的受限元素的一部分视频期间使声音静音并且插入来自语音合成器的合成音频，所述合成音频与所述第二音频层的所述语音元素相对应；以及

在图形用户界面播放所述编辑后的视频时，通过扬声器投射可听声音，所述可听声音包括与所述语音元素相对应的所述合成音频。

16.根据权利要求15所述的系统，其中，所述基于web的平台是列出待售物品的基于web的物品列表平台，并且其中所述系统还包括在所述基于web的物品列表平台处启动物品列表过程，所述视频被捕获作为所述物品列表过程的一部分并且所述视频包括在所述物品列表平台上的待售物品。

17.根据权利要求15所述的系统，还包括在捕获视频时提供所述第二音频层的所述语音元素，其中，所述第二音频层的所述语音元素使得对所述语音合成器采用的所述语音合成器模型进行训练。

18.根据权利要求15所述的系统，还包括在捕获视频时提供所述第二音频层的所述语音元素，其中，所述第二音频层的所述语音元素基于所述第二音频层中的可听语音特征来使得对所述语音合成器进行选择。

19.根据权利要求15所述的系统，还包括在播放视频时，提供缝合文本字符串用于在所述图形用户界面处显示，所述缝合文本字符串包括与所述第二音频层的所述语音元素相对应的文本并且不包括与所述第一音频层的所述受限音频元素相对应的文本。

20.根据权利要求15所述的系统，其中，所述第一音频层的所述受限音频元素与包括在数字指纹数据库内的受版权保护的音轨相对应。