CN113748425A

CN113748425A - 针对视频数据中表达的内容的自动完成

Info

Publication number: CN113748425A
Application number: CN202080029806.7A
Authority: CN
Inventors: S·S·菲尔斯; D·允; M·亚尔曼德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-04-19
Filing date: 2020-03-30
Publication date: 2021-12-03
Also published as: WO2020214403A1; US10904631B2; US20200336794A1; EP3938944A1

Abstract

本公开提供了一种执行自动完成过程的计算设备，该自动完成过程生成视频的口语内容的文本并将其插入到文本输入字段中。通过在文本输入字段中提供引述内容，系统可以减轻用户执行收听视频的口语内容并将该口语内容手动键入到计算设备中的乏味过程的需要。在一些配置中，系统可以从用户输入接收一个或多个关键词，并标识包含关键词的口语内容。系统可以基于相关性水平来提供口语内容的文本，并且利用口语内容的文本填入一个或多个输入字段。从视频的口语内容生成自动完成文本可以增强与计算机的用户交互，并且使生产力以及与基于视频的系统的参与度最大化。

Description

针对视频数据中表达的内容的自动完成

背景技术

在许多社交、教育和娱乐平台上，对视频进行评论正变得流行和无处不在。许多基于视频的评论者会引用视频内容来上下文化(contextualize)并指定他们的消息。评论者可以通过多种方式引用视觉实体或特定的声音片段。例如，用户可以引用某人在特定时间的声音或引述(quote)，或者提供时间戳以允许查看者播放在特定时间点处开始的视频。这种特征在影响用户参与方面发挥着关键作用，并最终在用户流量和用户留存水平方面发挥着关键作用。

尽管现有的基于视频的平台提供了允许用户提供评论的特征，但是当今存在的大多数用户界面本质上是简单化的并且不提供用于对用户体验进行优化的工具。许多站点遵循包括视频显示区域、文本键入字段(text entry field)和评论部分的传统模型。经常要求用户在文本键入字段中手动键入文本，这在用户生产力和计算资源方面既麻烦又低效。当要执行复杂的任务时，这种低效率会加剧。例如，如果用户想要从视频的口语内容提供引述，则要求用户逐步播放视频并手动转录口语内容。这种传统做法可能导致关于评论的不准确。此外，这种传统做法可能导致计算资源的低效使用，因为可能要求评论者多次重播视频的部分以转录内容。这种问题可以对站点的许多性能度量产生负面影响。

针对这些和其他技术挑战，提出了本文所公开的内容。

发明内容

本文公开的技术通过使计算设备能够执行自动完成过程来提供对现有系统的改进，该自动完成过程生成视频的口语内容的文本并将其插入到文本输入字段中。通过在文本输入字段中提供引述内容，系统可以减轻用户执行收听视频的口语内容并将该口语内容手动键入到计算设备中的乏味过程的需要。在一些配置中，系统可以从用户输入接收一个或多个关键词，并标识视频中包含关键词的口语内容。系统可以基于相关性水平来提供口语内容的文本，并且利用口语内容的文本填入一个或多个输入字段。

本文所描述的技术提供了许多益处。例如，通过提供从视频生成口语内容并将该口语内容插入文本输入字段的自动完成过程，本文公开的技术可以从个人角度和社区角度增加用户参与。具体地，通过提供一种使生成包含口语内容的输入文本的过程自动化的机制，系统可以使用户能够在视频平台的评论部分发布更准确的陈述，同时使生成评论所要求的手动交互的量最小化。从社区的角度而言，也可以优化用户参与。一些使用数据示出，包含来自视频的口语内容的评论(在本文也被称为“引述内容”)与不包括视频的口语内容的评论相比更有可能接收响应。本文所描述的系统不仅帮助用户提供包含口语内容的更准确的评论，而且通过向用户的输入提供建议的行完成内容，系统可以鼓励用户在他们可能没有以其他方式被提供引述内容的情况下提供这种信息。这种特征可以鼓励某些类型的用户活动，这最终增强用户对基于视频的系统的参与。

出于说明的目的，术语“口语”内容可以包括可以由实体或个人产生的任何类型的语言、旋律或声音。口语内容可以根据从输入设备(例如，麦克风)接收到的任何形式的输入或任何类型的声音进行解释，这些声音可以根据音频数据进行解释以生成任何类型的记号，包括符号、文本、图像、代码或者可以表示声音的任何其他数据。

本文所描述的技术可以导致更高效地使用计算系统。特别地，通过使生成具有视频的引述内容的输入字符串自动化，可以改进与计算设备的用户交互。本文公开的技术可以消除要求附加计算资源的多个手动步骤。例如，对于从视频流转录音频内容的人而言，用户可能必须多次播放视频以确保他们能够准确地捕获内容。这导致计算设备取回视频数据并使用多个计算资源(包括存储器资源和处理资源)，以在转录内容的同时播放和重播视频以及对应的音频。这些手动步骤的消除导致更高效地使用计算资源(例如，存储器使用、网络使用和处理资源)，因为这消除了人取回、渲染音频数据和视频数据两者以及查看经渲染的数据的需要。另外地，手动数据键入的减少和人与计算机之间的用户交互的改进可以带来若干其他好处。例如，通过减少手动键入的需要，可以减少无意输入和人为错误。较少的手动交互和无意输入的减少可以避免可能用于更正或重新键入由无意输入创建的数据的计算资源的消耗。

通过阅读以下具体实施方式并且查看相关联的附图，除了上文明确描述的那些特征和技术优势之外的其他特征和技术优势也将是显而易见的。提供本发明内容以便以简化的形式对下面在具体实施方式中进一步描述的概念的选择进行介绍。本发明内容不旨在标识要求保护的主题的关键或重要特征，也不旨在用于协助确定要求保护的主题的范围。例如，术语“技术”可以指代由上面描述的上下文以及整个文档允许的(多个)系统、(多个)方法、计算机可读指令、(多个)模块、算法、硬件逻辑和/或(多个)操作。

附图说明

参考附图描述了具体实施方式。在附图中，附图标记的最左边的数字标识该附图标记在其中首次出现的附图。相同的附图标记在不同的附图中指示相似或相同的项目。对多个项目中的单独的项目的引用可以使用具有字母序列中的字母的附图标记来指代每个单独的项目。对项目的一般引用可以使用没有字母序列的特定附图标记。

图1A示出了其中系统可以在用于提供来自视频的口语内容的自动完成过程中使用的示例场景。

图1B示出了用于提供来自视频的口语内容的自动完成过程的步骤。

图1C示出了用于响应于接收到对文本部分内的链接的选择而渲染音频输出的回放过程的方面。

图1D示出了利用图形菜单来获得说明文字(caption)的自动完成过程的方面。

图1E示出了利用图形菜单或其他类型的输入来获得说明文字的自动完成过程的附加方面。

图2是示出用于从视频数据生成文本数据的过程的组件的框图。

图3示出了基于具有与多个文本部分相关联的时间线的文本数据来显示相关的文本部分的用户界面的示例。

图4示出了示例图形用户界面，其具有用于允许用户选择口语内容的经排序的选项的菜单。

图5示出了示例图形用户界面，其具有用于选择口语内容的选项的经过滤的菜单。

图6A示出了具有指示视频的指定时间的输入文本的用户界面的示例。

图6B示出了基于指示视频的指定时间的输入文本而被选择的文本部分的示例。

图7A示出了具有指示视频的指定时间和实体的输入文本的用户界面的示例。

图7B示出了基于指示视频的指定时间和实体的输入文本而被选择的文本部分的示例。

图8A示出了显示基于音频文件的特性而被选择的文本部分的用户界面。

图8B示出了显示基于音频文件的特性而被格式化的文本部分的用户界面。

图9A示出了可以基于由计算机的麦克风捕获的用户输入的特性而生成的记号的形式。

图9B示出了用于生成输出记号的自动完成过程，该输出记号基于对与根据用户输入生成的记号具有阈值水平的相关性的音频内容的分析。

图9C示出了可以如何使用所生成的记号来填入文档的一个或多个部分的一个示例。

图9D示出了可以如何渲染与所生成的记号相关的音频内容的示例。

图10是示出用于计算高效地生成视频的口语内容的例程的方面的流程图。

图11是示出用于本文公开的技术的说明性操作环境的方面的计算系统图。

图12是示出可以实现本文公开的技术的方面的计算设备的配置和操作的方面的计算架构图。

具体实施方式

图1A和图1B示出了其中系统可以在用于提供来自视频的引述内容的自动完成过程中使用的示例场景。通常，系统可以对用户输入进行分析以标识在视频中表达的引述内容。出于帮助用户生成包括来自视频的引述内容的评论的目的，引述内容可以自动填入到输入字段中。与要求用户手动转录视频的音频内容相反，系统可以从用户输入接收一个或多个关键词并标识视频中包含关键词的引述内容。然后，可以在输入字段中填入该引述内容。

如图1A中示出的，系统100可以引起用户界面130的显示，该用户界面130包括视频显示区域140、文本键入字段150以及评论部分160。系统100可以接收具有视频内容111和音频内容112的视频数据110。系统还可以接收与视频数据110相关联的文本数据113。在一个说明性示例中，文本数据113可以以隐藏式字幕文本的形式，并且具有与视频内容111和音频内容112的时间线相关联的多个不同短语。系统100可以对视频内容111进行处理以生成经渲染的视频内容116以在视频显示区域140内显示。另外地，系统100可以对音频内容112进行处理以通过端点设备(例如，扬声器)生成对音频内容112的渲染。

用户界面130可以被配置为在文本键入字段150处接收输入文本151。输入文本151包括至少一个关键词152。在一些实施例中，可以通过使用特殊字符(例如，单引号或双引号)来将关键词152与输入文本151的其他词区分开来。在该示例中，关键词152GREATEST(最伟大的)被标识，因为它紧跟在双引号中短语的第一个引号之后。

然后，系统100可以基于关键词152来标识文本数据113的部分115。然后，如图1B中示出的，系统100然后可以将文本数据113的具有至少一个关键词152的部分115插入文本键入字段150。在该示例中，基于关键词152GREATEST在文本数据113中标识文本数据的部分PLAY IN HISTORY。如果用户希望继续手动键入引述的其余部分，则用户可以按下预定键(例如，ESC键)，并且系统将移除文本数据113的部分115。

在一些配置中，用户界面130可以包括用于接收输入的界面元素131。用户界面130还可以被配置为：响应于在界面元素131处接收到输入而在评论部分160中显示文本数据113的部分115和用户输入151。出于说明的目的，划定的文本部分(例如，具有标点符号的句子)可以在本文被称为文本数据113的“部分115”、文本数据113的“段115”或“文本部分115”。在一些配置中，文本数据113的部分115可以被插入到所生成的评论143或其他图形元素中。评论143可以被配置具有链接，该链接调用与文本数据113的部分115相关联的音频数据的回放。该链接可以导致以特定时间间隔回放音频内容112。在一些实施例中，时间间隔可以从与文本数据113相关联的时间戳数据121导出。时间戳数据可以包括特定的时间点，或者时间戳数据可以指示其中系统100可以从系统100的扬声器125生成音频输出126的间隔。

图1C示出了用于响应于接收到对文本部分内的链接的选择而渲染音频输出的回放过程的方面。在该说明性示例中，当用户选择所生成的评论143时，系统可以渲染来自系统100的扬声器125的音频输出126。在一些配置中，可以利用时间戳数据121来控制音频内容112的回放。回放可以基于时间戳数据121。

在一些配置中，自动完成过程可以基于一个或多个用户输入。图1D示出了利用图形菜单来获得说明文字的自动完成过程的方面。在该示例中，在用户包括至少一个关键词152之后，用户可以采取一个或多个动作，例如，选择图形元素122。如图1E中示出的，响应于对图形元素122的选择，系统101可以获得文本数据113的部分115以插入到输入文本字段150中。这样的实施例是可选的，因为可以认识到的是，系统100可以响应于接收到至少一个关键词或可以利用文本数据113的部分标识出的任何其他文本而自动填入输入文本字段。在其他实施例中，与显示图形元素122相反，系统还可以接收预定输入，例如，特殊键或特殊键序列(例如，shift-control-Q)，以调用系统100利用文本数据113的部分115来自动填入输入文本字段。

在一些配置中，系统100可以通过对视频数据110进行分析来生成文本数据113。图2示出了用于生成文本数据113的过程的一个示例。在该示例中，处理器101可以对与视频数据110相关联的音频内容112进行分析以生成文本数据113。例如，如果音频内容112包含对话，则处理器101可以将对话转换为多个短语114。可以利用用于转录音频信号的任何合适的技术。

在该示例中，音频内容112包含视频游戏的玩家之间的对话。可以使用一个或多个标准来将文本数据113的短语114解析为句子。可以根据转录自音频内容112的短语114来生成句子，其中句子可以包括标点符号以及用于划定短语的其他标识符。因此，标准可以包括用于标识标点符号或其他标识符可以被放置在哪里以标识特定引述(例如，以标识引述的开始和结束)的特定语言的通用语法规则。通过定义句子，可以利用特定引述的开始和结束来标识文本数据的应该被选择用于插入到文本键入字段150中的部分。在一些配置中，系统100可以选择具有关键词152的句子用于插入文本键入字段150，该关键词152是作为输入的一部分被提供的。

评论部分160在本文也被称为“文本字段160”、“文本部分160”或“记号部分160”。评论部分160可以包括用户界面的任何部分，包括与视频内容或音频内容相关联的文本或任何其他类型的记号。例如，评论部分160可以是文字处理文档、OneNote文件、电子表格、博客或者可以使计算机结合视频的渲染来渲染文本的任何其他形式的媒体或数据的一部分。

在其他实施例中，可以通过语音的特性来标识文本数据113的句子或任何其他划定的部分。例如，系统100可以对音频内容进行分析以检测音频内容的音调、变曲点(inflection point)或音量中的至少一项。如果系统100检测到关于语音的阈值水平的改变，则系统可以标识句子或划定的部分的开始点或结束点。类似地，如果存在关于特性任何其他类型的阈值水平的改变(例如，音量或任何类型的变曲)，则系统可以标识句子或划定的部分的开始点或结束点。这种技术可以帮助标识要插入到文本键入字段150中的引述。

除了将文本数据113解析为句子或任何其他类型的划定的文本部分之外，系统100还可以标识与每个句子相关联的实体。例如，系统100可以对音频内容进行分析以检测音频内容的音调、变曲点或音量中的至少一项。基于关于音调、变曲点或音量中的至少一项的阈值水平的改变，系统100可以标识与句子或所划定的文本部分相关联的实体，例如，特定的人。然后，系统100可以将标识符117插入文本数据113，以用于特定的句子或任何其他划定的文本部分。

系统100还可以通过对音频内容进行解释来标识特定的标识符名称。例如，如果名称在特定上下文内重复多次，则系统100可以将该名称与特定的文本部分相关联。系统还可以通过检测预定的音调、音高(pitch)、变曲特性等来标识特定语音。系统100还可以将特定语音与名称相关联，并将该名称与关联于具有特定特性的语音的文本部分相关联。

在某些配置中，可以利用用户的意图来标识要针对文本数据进行分析的输入条目的关键词。用户的意图可以通过文本输入的一个或多个字符来推测。例如，可以利用单引号字符或双引号字符来标识用户的意图。在图3中示出的示例中，输入条目包括以下文本：Ilike the quote,“Greatest，其中该条目仅在Greatest一词之前包括一个双引号字符。在该示例中，双引号指示以下词是用户希望包括在其评论中的口语内容的一部分。基于这种类型的输入，系统可以搜索紧跟在双引号字符、单引号字符等后面的关键词。

该示例是出于说明性目的提供的，并且不应被解释为限制性的。可以认识到的是，其他字符或其他视觉指示符可以暗示用户意图以标识关键词。例如，可以使用格式化的文本(例如，粗体文本、斜体文本或其他类型的文本格式)来标识用户的意图。在一个说明性示例中，如果用户文本条目包括一个或两个粗体词，则这些词可以用于生成搜索查询以标识视频的口语内容。

在一些配置中，系统100可以利用与文本部分相关联的时间标记来标识用于引述的最相关的文本部分。为了说明该特征的方面，图3示出了文本数据113的示例集合。这样的数据集合可以由处理器101通过记录从音频内容转录的每个文本部分的时间戳来生成。在该特定示例中，文本数据113包括三个句子，这三个句子包括关键词“greatest”，并且系统在具有该关键词的每个句子中记录了时间标记，例如，分别在3:20、7:50和9:03处。

在一些实施例中，可以基于相对于文本数据113的特定部分的时间标记的选定的时间标记301来选择被选择用于插入到文本键入字段150中的文本部分。在图3的示例中，系统选择了第一个句子(“Greatest achievement in history！(历史上最伟大的成就！)”)，因为它的时间比其他句子(“Greatest player ever！(有史以来最伟大的玩家！)”和“I amthe Greatest！(我是最伟大的！)”)的时间更接近选定的时间标记301。

选定的时间标记301可以基于多个因素。在一个说明性示例中，选定的时间标记301可以基于由用户输入指示的时间。例如，如果用户输入包括文本“I like the player’squote at time marker 3:20,Greatest(我喜欢玩家在时间标记3:20处的引述，最伟大的)”，则系统100可以将3:20指定为选定的时间标记，然后选择与该选定的时间标记最接近且还包括由用户输入提供的特定关键词(例如，“greatest”)的文本部分。以这种方式，即使文本数据113内的多个句子包括来自用户输入的关键词，系统100也可以关于文本部分的选择更加准确。

在另一个示例中，选定的时间标记301可以基于与显示在视频显示区域中的经渲染的内容相关联的当前时间。例如，如图3中示出的，回放光标305的位置表示视频渲染的当前时间。因此，如果用户正在观看视频并在特定时间处(例如，在4:00标记处)暂停视频，则系统可以选择包含最接近该特定时间的关键词的文本部分。选定的时间标记301还可以基于多个不同的因素，包括视频播放器的当前时间和用户的组合。以这种方式，如果用户输入关于指定的时间不完全准确，则系统可以结合玩家的当前时间来对由输入指定的时间进行分析并确定选定的时间标记301。

在一些配置中，系统可以为用户选择、排序和显示多个文本部分。例如，如图4中示出的，系统可以标识包含在输入中提供的关键词的多于一个文本部分。在这种场景中，系统可以生成包括菜单401的用户界面130，该菜单401示出了具有关键词的每个句子。在一些配置中，可以基于相关性水平对具有关键词的句子进行排序。在该示例中，由于第一个句子(3:20)比第二个句子(7:50)更接近选定的时间标记301，因此第一个句子可以在菜单401内被放置在首位。菜单401还可以被配置为接收用户输入。响应于指示对特定句子或文本部分的选择的用户输入，系统可以利用选定的部分来填入文本键入字段150。

该示例是出于说明性目的提供的，并且不应被解释为限制性的。可以认识到的是，本文公开的技术的其他变化可以在本公开的范围内。例如，虽然选定的时间标记301被指示为特定的时间点，但是可以认识到的是，选定的时间标记301可以包括时间间隔。因此，可以选择最接近选定范围的文本部分或者最接近时间间隔内的点的文本部分来填入文本键入字段150。

在一些实施例中，可以根据与文本部分相关联的时间标记来对菜单401选项进行排序。在图4中示出的示例中，每个句子基于相关联的时间相对于选定的时间标记301的接近度来进行排序。

在一些实施例中，系统可以基于一个或多个因素来过滤不同的菜单401选项。图5示出了这种特征的示例。在该示例中，系统可以对文本数据113进行分析以确定针对文本数据的包含至少一个关键词的部分的时间标记。然后，系统可以确定针对每个文本部分的相关联的时间标记是否在当前时间标记301的阈值持续时间内。然后，系统可以在菜单401中插入具有在阈值持续时间内的相关联的时间标记的每个文本部分。

在一个说明性示例中，系统可以响应于确定针对文本数据的选定的部分的时间标记在当前时间标记的预定阈值内而在菜单401中插入文本数据的选定的部分。因此，系统可以从菜单401选项的经排序的列表中过滤某些文本部分，即使这些文本部分与输入文本具有阈值水平的相关性和/或公共的关键词。

尽管本文所描述的示例示出了其中基于关键词来选择文本部分的实施例，但是可以认识到的是，可以利用用于标识相关的文本部分的其他技术。例如，在一些实施例中，系统可以基于相关性水平来选择文本部分。相关性水平可以基于许多不同的因素，这些因素可以包括由用户输入解释的上下文。图6A、图6B、图7A和图7B示出了这种实施例的示例。

在一些实施例中，系统可以基于用户定义的时间标记来选择文本数据113的部分。例如，考虑其中用户提供以下输入文本的场景：“I like the quote at time marker 3:30when he said,“Greatest___(我喜欢在时间标记3:30处当他说“最伟大的___时的引述)。”在该示例中，系统可以选择具有词“Greatest”并且具有与输入中指示的时间标记最接近的时间标记的句子。图6A和图6B示出了该特征的另一示例。

在图6A中示出的示例中，输入文本包括“@7:50”。基于对该输入的分析，系统可以选择文本部分“Greatest play ever！(有史以来最伟大的比赛！)”因为该部分具有相关联的时间，该相关联的时间等于在输入文本中指示的时间，或者相对于在输入文本中指示的时间在阈值持续时间之内。如图6B中示出的，系统选择文本数据的在输入文本中指示的时间标记处的部分。然后将选定的文本部分插入文本键入字段150。

在其他实施例中，系统可以基于在输入文本中提供的指示符的组合来选择一个或多个文本部分。图7A和图7B示出了如何在输入文本内提供多个指示符的一个示例。如图7A中示出的，输入文本包括“I LIKE WHAT PLAYER 1SAID AT 7:50”(我喜欢玩家1在7:50处说的话)。基于对该输入的分析，系统可以基于在输入文本中指示的时间以及在输入文本中标识的实体来选择文本部分。

在该示例中，如图7A中示出的，选定的部分可以包括来自玩家1在7:49处的引述(GREATEST PLAY EVER！(有史以来最伟大的比赛！))，因为该文本部分的时间在距输入文本中指示的时间的阈值持续时间内，并且因为该部分与在输入文本中指示的实体相关联。可以基于这样的事实来排除其他文本部分：这些文本部分在距输入文本中指示的时间的阈值持续时间之外，或者这些文本部分与输入文本中未指示的实体相关联。如图7B中示出的，系统选择文本数据的在输入文本中指示的时间处的部分并将其插入文本键入字段150中。

这些示例是出于说明性目的提供的，并且不应被解释为限制性的。可以认识到的是，可以基于其他因素来选择文本部分。在另一示例中，可以通过与文本数据的部分相关联的语音的字符来确定被选择用于自动完成键入的词。在一个特定的说明中，被选择用于自动完成键入的词可以基于与该文本部分相关联的语音的变曲、音调或音量。

图8A示出了这种实施例的示例。在这里，系统可以对音频内容进行分析以检测音频内容的部分的音调、变曲点或音量中的至少一项。然后，系统可以基于关于音调、变曲点或音量中的至少一项的阈值改变来确定文本数据内的开始点或结束点。确定出的开始点801和结束点802可以定义文本数据的部分的边界。在该示例中，由于音调和音量在某个时间点之后超过阈值，因此系统可以选择与在音调和/或音量改变之前呈现的特性(例如，音调和/或音量)相关联的文本，并利用在改变之后呈现的特性来过滤文本。这样的实施例在其中文本数据113可能不包括标点符号或其他文本划定符的情况下可以是有用的。因此，如果文本数据113包括一长串文本，或者如果标点符号不正确，则系统可以基于音频内容的特性来选择上下文相关的文本。

在一些配置中，系统可以为选定的文本选择样式、排列、外观或标点符号。文本的这种特性可以基于对音频内容的分析。例如，如果系统确定与文本部分相关联的语音升高，则系统可以生成视觉指示符以指示升高的语音。图8B示出了该特征的示例。如所示的，随着语音的一个或多个特性改变，系统可以对插入到文本键入字段150中的选定的文本部分自动地格式化。在该示例中，给定音调的改变速率和/或相对于音量的改变速率超过阈值，系统对词“history(历史)”进行格式化以强调相关联的文本。

该示例是出于说明性目的提供的，并且不应被解释为限制性的。可以认识到的是，可以利用与文本部分相关联的语音或声音的其他特性、音调或音量来对文本键入字段150内的文本的显示进行格式化。还可以认识到的是，可以利用特性的阈值水平的改变和/或改变速率(在附图中示为“斜率”)来选择任何显示的文本的排版。选定的排版可以包括对文本进行排列以使其在显示时更加突出、易读、可读和/或吸引人的任何技术。对文字的排列涉及选择字体、字号、行长、行距和字母间距，以及调整字母对之间的间距。术语排版也适用于对该过程创建的字母、数字和符号的样式、排列和外观。

尽管本文公开的示例说明了涉及文本键入的实施例，但本文公开的技术可以基于指示指定内容的任何用户输入来标识与视频相关的任何类型的内容。在另一说明性示例中，可以利用指示旋律的用户输入来标识与视频相关的特定音频内容。可以在图9A-图9D中示出这样的示例。

现在参考图9A，示出了用户901提供诸如旋律之类的输入903的示例场景。在该示例中，用户901向诸如麦克风902之类的输入设备提供(例如，吟诵、唱歌、聊天、讲话、哼唱、说话)旋律。在一些配置中，旋律可以包括包含一系列音调的有声输入。输入903可以包括由麦克风捕获的任何可听声音或从输入设备接收到的文本。输入903可以与字符输入或预定键输入或菜单项的选择相关联地接收。响应于输入903，系统100对旋律进行分析并确定定义旋律的音符序列181。这个过程可以利用任何合适的技术将用户的语音转录为任何类型的记号。

如图9B中示出的，系统100可以标识具有音频内容112的音频片段，该音频片段与音符序列181具有阈值水平的相关性。可以利用用于对音频内容112进行处理以基于由用户提供的音符序列或旋律来标识特定音频内容的任何合适的技术。在一些配置中，系统100可以引起一个或多个过程，这些过程将音符序列和/或用户的旋律与音频内容112的不同部分进行比较。可以针对音频内容112的不同部分生成置信度分数。音频内容112的具有高于阈值的置信度分数的任何部分都可以被标识为相关的音频内容。然后，系统可以生成定义音频内容112的与用户的旋律和/或音符序列181具有阈值水平的相关性的部分的输出182。输出182可以以音频内容112的部分的图形表示的形式，并且该输出182可以是传达旋律、一系列音符、一系列音调、一系列音调改变等或对其进行建模的任何格式。

接下来，如图9C中示出的，用户输入可以使得计算设备100在用户界面130的记号部分160内生成条目183。可以认识到的是，用户输入可以基于对用户界面元素131的选择或任何其他类型的输入。例如，输入可以包括语音命令、手势或任何其他类型的用户输入，这些用户输入提供对用户意图为在记号部分160或用户界面的任何其他部分内添加条目183的指示。可以认识到的是，条目183还可以包括与音频内容112的部分相关联的链接，该部分与用户的旋律和/或音符序列181具有阈值水平的相关性。因此，如图9D中示出的，响应于用户输入(例如，对条目183的选择)，系统100可以渲染音频内容112的音频输出126部分，其与用户的旋律和/或音符序列181具有阈值水平的相关性。

图10是示出用于计算高效地生成和管理文本部分的例程1000的方面的图。本领域普通技术人员应该理解，本文公开的方法的操作不一定以任何特定次序呈现，并且以替代次序执行操作中的一些或所有操作是可能的并且是被设想到的。为了便于描述和说明，已经以展示的次序呈现了操作。在不脱离所附权利要求书的范围的情况下，可以添加、省略、一起执行和/或同时执行操作。

还应该理解，所示方法可以在任何时间结束，并且不需要以其整体执行。如本文所定义的，可以通过执行计算机存储介质上包括的计算机可读指令来执行方法的一些或全部操作和/或实质上等同的操作。在说明书和权利要求书中使用的术语“计算机可读指令”及其变型在本文中被广泛地使用，以包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。可以在各种系统配置上实现计算机可读指令，这些系统配置包括单处理器或多处理器系统、小型计算机、大型计算机、个人计算机、手持计算设备、基于微处理器的可编程消费者电子产品、其组合等。

因此，应当认识到的是，本文所描述的逻辑操作被实现为：(1)计算机实现的动作的序列或在诸如本文所描述的那些计算系统之类的计算系统上运行的程序模块；和/或(2)在计算系统内的互连机器逻辑电路或电路模块。该实现方式是取决于计算系统的性能和其他要求的选择问题。因此，逻辑操作可以以软件、固件、专用数字逻辑单元及其任何组合来实现。

另外地，可以与上面描述的示例呈现UI相关联地实现图10和其他附图中示出的操作。例如，本文描述的各种设备和/或(多个)模块可以生成、发送、接收和/或显示与视频的内容相关联的数据(例如，实时内容、广播的事件、记录的内容等)和/或呈现UI，该呈现UI包括远程计算设备、化身(avatar)、频道、聊天会话、视频流、图像、虚拟对象和/或与视频相关联的应用的一个或多个参与者的渲染。

例程1000开始于操作1002处，在该操作1002处，系统可以引起用户界面的显示，该用户界面具有视频显示区域以及文本键入字段。图1A中示出了用户界面的一个示例。在一些配置中，用户界面还可以包括评论部分。用户界面可以显示在诸如平板电脑、移动电话、台式计算机等之类的客户端设备上。

接下来，在操作1004处，系统可以在文本键入字段处接收输入文本。在一些配置中，文本输入可以包括关键词或短语。输入文本可以由诸如触摸屏、键盘或任何其他合适的输入设备之类的输入设备接收。输入文本也可以通过由设备的相机捕获的手势来接收，或者通过由设备的扬声器捕获音频信号来接收。

接下来，在操作1006处，系统可以对文本数据进行分析以确定输入文本与文本数据的部分具有阈值水平的相关性。在一些配置中，阈值水平的相关性可以基于输入文本与文本数据的部分之间的公共关键词。阈值水平的相关性也可以基于选定的时间标记或预定的时间线。例如，如果文本数据的部分与选定的时间标记的阈值内的时间相关联，则可以选择该文本部分用于文本键入字段。可替代地，如果文本部分在预定的时间线内，则可以选择该文本部分用于文本键入字段。选定的时间标记可以基于视频播放器的当前位置、输入文本中指示的时间标记或者由用户以其他方式指示的时间标记。文本数据(例如，隐藏式字幕文本)可以由系统接收，或者文本数据可以由系统通过对与视频数据相关联的音频内容的分析来生成。

接下来，在操作1008处，系统可以对视频数据进行分析以确定选定的文本部分的参数。例如，与文本部分相关联的音轨(例如，音频内容)的音调或音量可以用于选择文本部分的要插入文本键入字段的特定词。当诸如说话者的名称之类的标识符没有与文本数据一起提供时，可以使用这样的特征。在另一示例中，与文本部分相关联的音轨的音调或音量可以用于对文本进行格式化以突出某些词或短语。

接下来，在操作1010处，系统可以将选定的文本部分填入到文本键入字段中。在一些配置中，选定的文本部分的一部分可以被添加到文本键入字段内的现有文本以用作自动完成(例如，行完成)特征。例如，如果用户键入初始关键词，并且该初始关键词是选定的文本的第一个词，则系统可以维持用户键入的初始关键词并且仅添加选定的文本中的不包括初始关键词的部分。

接下来，在操作1012处，系统可以利用选定的文本部分来填入用户界面的评论部分。在一些配置中，系统可以响应于接受选定的文本部分的用户输入来填入评论部分。用户输入可以是语音命令、由相机捕获的手势或与计算机的任何其他合适的交互。在操作1012中，可以根据在操作1008处执行的分析来对评论部分内显示的文本部分进行格式化。

应当认识到的是，上面描述的主题可以被实现为计算机控制的装置、计算机过程、计算系统，或者被实现为诸如计算机可读存储介质之类的制品。示例方法的操作在单独的框中示出，并且参考那些框进行总结。方法被示为框的逻辑流，这些框中的每个框可以表示可以以硬件、软件或其组合来实现的一个或多个操作。在软件的上下文中，操作表示存储在一个或多个计算机可读介质上的计算机可执行指令，该计算机可执行指令当由一个或多个处理器执行时，使得一个或多个处理器能够执行所引述的操作。

通常，计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、模块、组件、数据结构等。描述操作的次序不旨在被解释为限制性的，并且任何数量的所描述的操作可以以任何次序执行、以任何次序组合、被细分为多个子操作和/或并行执行，以实现所描述的过程。所描述的过程可以由与一个或多个设备(例如，一个或多个内部或外部CPU或GPU)和/或一个或多个硬件逻辑单元(例如，现场可编程门阵列(“FPGA”)、数字信号处理器(“DSP”)或其他类型的加速器)相关联的资源执行。

上面描述的所有方法和过程都可以体现在由一个或多个通用计算机或处理器执行的软件代码模块中，并经由该软件代码模块完全自动化。可以将代码模块存储在例如下面所描述的任何类型的计算机可读存储介质或其他计算机存储设备中。方法中的一些或全部可以可替代地体现在例如下面所描述的专用计算机硬件中。

本文描述的和/或在附图中描绘的流程图中的任何常规描述、元素或框应该被理解为潜在地表示模块、片段或代码的部分，其包括用于实现例程中的特定逻辑功能或元素的一个或多个可执行指令。替代实现方式被包括在本文描述的示例的范围内，其中，取决于如本领域技术人员理解的所涉及的功能，可以从所示或所讨论的那些元素或功能中删除元素或功能或以不同的次序执行元素或功能，包括实质上同步或以相反的次序执行。

图11是示出其中系统1102可以实现本文公开的技术的示例环境1100的图。在一些实现方式中，系统1102可以用于收集、分析和共享定义向通信会话1004的用户显示的一个或多个对象的数据。

如所示的，可以在与系统1102相关联的或者是作为系统1102的一部分的多个客户端计算设备1106(1)至1106(N)之间实现通信会话1104(其中，N是值为二或更大的数字)。客户端计算设备1106(1)至1106(N)使用户(也被称为个人)能够参与通信会话1104。尽管该实施例示出了通信会话1104，但是可以认识到的是，对于本文公开的每个实施例而言，通信会话1104不是必要的。可以认识到的是，视频流可以由每个客户端1106上传并且评论可以由每个客户端1106提供。可以认识到的是，任何客户端1106也可以从服务器模块1130接收视频数据和音频数据。

在该示例中，通信会话1104由系统1102托管在一个或多个网络1108上。即，系统1102可以提供使客户端计算设备1106(1)至1106(N)的用户能够(例如，经由实时查看和/或记录的查看)参与通信会话1104的服务。因此，通信会话1104的“参与者”可以包括用户和/或客户端计算设备(例如，多个用户可以在房间中经由使用单个客户端计算设备参与通信会话)，用户和/或客户端计算设备中的每一个可以与其他参与者进行通信。作为替代方案，通信会话1104可以利用对等技术由客户端计算设备1106(1)至1106(N)中的一个托管。系统1102还可以托管聊天对话和其他团队协作功能(例如，作为应用套件的一部分)。

在一些实现方式中，这样的聊天对话和其他团队协作功能被认为是不同于通信会话1104的外部通信会话。用于收集通信会话1104中的参与者数据的计算机化代理可以能够链接到这样的外部通信会话。因此，计算机化代理可以接收诸如日期、时间、会话特定信息等之类的信息，该信息实现到这种外部通信会话的连通性。在一个示例中，可以根据通信会话1104来进行聊天对话。另外地，系统1102可以托管通信会话1104，该通信会话1104包括共同位于会议位置(例如，会议室或礼堂)或位于不同位置的至少多个参与者。在本文所描述的示例中，一些实施例可以不利用通信会话1104。在一些实施例中，视频可以从客户端计算设备中的至少一个(例如，1106(1)、1106(2))上传到服务器模块1130。当视频内容被上传到服务器模块1130时，任何客户端计算设备都可以访问上传的视频内容并在诸如上述那些的用户界面之类的用户界面内显示该视频内容。

在本文描述的示例中，参与通信会话1104的客户端计算设备1106(1)至1106(N)被配置为接收并渲染通信数据以在显示屏的用户界面上进行显示。通信数据可以包括实时内容和/或记录的内容的各种实例或流的集合。实时内容和/或记录的内容的各种实例或流的集合可以由一个或多个相机(例如，摄像机)提供。例如，实时内容或记录的内容的单个流可以包括与由摄像机提供的视频馈送相关联的媒体数据(例如，捕获参与通信会话的用户的外观和话音的音频数据和视觉数据)。在一些实现方式中，视频馈送可以包括这种音频数据和视觉数据、一个或多个静止图像和/或一个或多个化身。一个或多个静止图像还可以包括一个或多个化身。

实时内容或记录的内容的单个流的另一个示例可以包括媒体数据，该媒体数据包括参与通信会话的用户的化身以及捕获用户的话音的音频数据。实时内容或记录的内容的单个流的又一示例可以包括媒体数据，该媒体数据包括在显示屏上显示的文件以及捕获用户的话音的音频数据。因此，通信数据内的实时内容或记录的内容的各种流使得能够促进一群人之间的远程会议以及在一群人之内共享内容。在一些实现方式中，通信数据内的实时内容或记录的内容的各种流可以源自位于空间(例如，房间)中的用于记录或流式传输演示的多个共置的摄像机，该演示包括一个或多个个人呈现以及一个或多个个人消费呈现的内容。

参与者或出席者可以在活动发生时实时查看通信会话1104的内容，或者可替代地，在活动发生后的较晚时间经由记录进行查看。在本文描述的示例中，参与通信会话1104的客户端计算设备1106(1)至1106(N)被配置为接收并渲染通信数据以在显示屏的用户界面上进行显示。通信数据可以包括实时内容和/或记录的内容的各种实例或流的集合。例如，内容的单个流可以包括视频馈送相关联的媒体数据(例如，捕获参与通信会话的用户的外观和话音的音频数据和视觉数据)。内容的单个流的另一示例可以包括媒体数据，该媒体数据包括参与会议会话的用户的化身以及捕获用户的话音的音频数据。内容的单个流的又一示例可以包括媒体数据，该媒体数据包括在显示屏上显示的内容项和/或捕获用户的话音的音频数据。因此，通信数据内的内容的各种流使得能够促进跨远程位置分散的一群人之间的会议或广播演示。每个流还可以包括文本、音频和视频数据，例如，在频道、聊天板或私人消息传递服务内传送的数据。

通信会话的参与者或出席者是在相机或其他图像和/或音频捕获设备的范围内的人，以使得可以捕获(例如，记录)当人正在查看和/或收听经由通信会话共享的内容时所产生的人的动作和/或声音。例如，参与者可以坐在人群中，查看舞台呈现发生的广播位置处实时进行的共享内容。或者，参与者可以坐在办公室会议室中，经由显示屏查看与其他同事的通信会话的共享内容。甚至更进一步，参与者可以坐在或站在个人设备(例如，平板计算机、智能电话、计算机等)的前面，独自在其办公室或在家中查看通信会话的共享内容。

系统1102包括(多个)设备1110。(多个)设备1110和/或系统1102的其他组件可以包括经由一个或多个网络1108彼此通信和/或与客户端计算设备1106(1)至1106(N)通信的分布式计算资源。在一些示例中，系统1102可以是独立系统，其负责管理一个或多个通信会话(例如，通信会话1104)的方面。作为示例，系统1102可以由诸如YOUTUBE、FACEBOOK、SLACK、WEBEX、GOTOMEETING、GOOGLE HANGOUTS等之类的实体管理。

(多个)网络1108可以包括例如公共网络(例如，互联网)、私有网络(例如，机构和/或个人内联网)、或私有网络和公共网络的某种组合。(多个)网络1108还可以包括任何类型的有线和/或无线网络，包括但不限于局域网(“LAN”)、广域网(“WAN”)、卫星网络、电缆网络、Wi-Fi网络、WiMax网络、移动通信网络(例如，3G、4G等)或其任何组合。(多个)网络1108可以利用通信协议，包括基于分组和/或基于数据报的协议，例如，互联网协议(“IP”)、传输控制协议(“TCP”)、用户数据报协议(“UDP”)或其他类型的协议。此外，(多个)网络1108还可以包括促进网络通信和/或形成网络的硬件基础的多个设备，例如，交换机、路由器、网关、接入点、防火墙、基站、中继器、骨干设备，等等。

在一些示例中，(多个)网络1108还可以包括使得能够连接到无线网络的设备，例如，无线接入点(“WAP”)。示例支持通过在各种电磁频率(例如，射频)上发送和接收数据的WAP(包括支持电气和电子工程师协会(“IEEE”)802.21标准(例如，802.11g、802.11n、802.11ac等)和其他标准的WAP)的连通性。

在各种示例中，(多个)设备1110可以包括以群集或其他分组配置进行操作以共享资源、平衡负载、提高性能、提供故障转移支持或冗余或用于其他目的的一个或多个计算设备。例如，(多个)设备1110可以属于各种类别的设备，例如，传统的服务器类型的设备、台式计算机类型的设备和/或移动类型的设备。因此，尽管(多个)设备1110被示为单一类型的设备或服务器类型的设备，但是(多个)设备110可以包括各种各样的设备类型，并且不限于特定类型的设备。(多个)设备1110可以表示但不限于服务器计算机、台式计算机、web服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机或任何其他种类的计算设备。

客户端计算设备(例如，客户端计算设备1106(1)至1106(N)中的一个)可以属于各种类别的设备，其可以与(多个)设备1110相同或不同，例如，传统的服务器类型的设备、台式计算机类型的设备、移动类型的设备、专用类型的设备、嵌入式类型的设备和/或可穿戴类型的设备。因此，客户端计算设备可以包括但不限于台式计算机、游戏控制台和/或游戏设备、平板计算机、个人数据助理(“PDA”)、移动电话/平板计算机混合设备、膝上型计算机、电信设备、计算机导航类型的客户端计算设备(例如，基于卫星的导航系统，其包括全球定位系统(“GPS”)设备)、可穿戴设备、虚拟现实(“VR”)设备、增强现实(“AR”)设备、植入式计算设备、汽车计算机、支持网络的电视、瘦客户机、终端、物联网(“IoT”)设备、工作站、媒体播放器、个人录像机(“PVR”)、机顶盒、相机、用于包括在计算设备中的集成组件(例如，外围设备)、家用电器或任何其他种类的计算设备。此外，客户端计算设备可以包括客户端计算设备的较早列出的示例的组合，例如，台式计算机类型的设备或移动类型的设备与可穿戴设备等的组合。

各种类别和设备类型的客户端计算设备1106(1)至1106(N)可以表示具有(例如，经由总线1116)可操作地连接到计算机可读介质1194的一个或多个数据处理单元1192的任何类型的计算设备，在一些实例中，总线1116可以包括系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线以及任何各种本地、外围和/或独立总线中的一个或多个。

存储在计算机可读介质1194上的可执行指令可以包括例如操作系统1119、客户端模块1120、简档模块1122以及可由(多个)数据处理单元1192加载和执行的其他模块、程序或应用。

客户端计算设备1106(1)至1106(N)还可以包括一个或多个接口1124，以实现通过(多个)网络1108在客户端计算设备1106(1)至1106(N)与其他联网设备(例如，(多个)设备1110)之间的通信。这样的网络接口1124可以包括一个或多个网络接口控制器(NIC)或其他类型的收发机设备，以通过网络发送和接收通信和/或数据。此外，客户端计算设备1106(1)至1106(N)可以包括输入/输出(“I/O”)接口(设备)1126，该输入/输出接口(设备)1126实现与输入/输出设备(例如，包括外围输入设备(例如，游戏控制器、键盘、鼠标、笔、诸如麦克风之类的声音输入设备、用于获得和提供视频馈送和/或静止图像的摄像机、触摸输入设备、手势输入设备等)的用户输入设备，和/或包括外围输出设备(例如，显示器、打印机、音频扬声器、触摸输出设备等)的输出设备)的通信。图11示出了客户端计算设备1106(N)以某种方式连接到显示设备(例如，显示屏1129(1))，该显示设备可以根据本文所描述的技术来显示UI。

在图11的示例环境1100中，客户端计算设备1106(1)至1106(N)可以使用其相应的客户端模块1120彼此连接和/或与(多个)其他外部设备连接，以便参与通信会话1104，或者向协作环境贡献活动。例如，第一用户可以利用客户端计算设备1106(1)来与另一客户端计算设备1106(2)的第二用户进行通信。当执行客户端模块1120时，用户可以共享数据，这可能导致客户端计算设备1106(1)通过(多个)网络1108连接到系统1102和/或其他客户端计算设备1106(2)至1106(N)。

客户端计算设备1106(1)至1106(N)(其中的每一个在本文也被称为“数据处理系统”)可以使用其相应的简档模块1122来生成参与者简档(图11中未示出)，并将参与者简档提供给其他客户端计算设备和/或系统1102的(多个)设备1110。参与者简档可以包括以下各项中的一个或多个：用户或一组用户的身份(例如，姓名、唯一标识符(“ID”)等)、用户数据(例如，个人数据)、诸如位置之类的机器数据(例如，IP地址、建筑物中的房间等)和技术能力等。可以利用参与者简档来针对通信会话注册参与者。

如图11中示出的，系统1102的(多个)设备1110包括服务器模块1130和输出模块1132。在该示例中，服务器模块1130被配置为从各个客户端计算设备(例如，客户端计算设备1106(1)至1106(N))接收媒体流1134(1)至1134(N)。如上面所描述的，媒体流可以包括视频馈送(例如，与用户相关联的音频和视觉数据)、要与用户的化身的呈现一起输出的音频数据(例如，纯音频体验，其中不发送用户的视频数据)、文本数据(例如，文本消息)、文件数据和/或屏幕共享数据(例如，在显示屏上显示的文档、幻灯片版面、图像、视频等)等等。因此，服务器模块1130被配置为在实时查看通信会话1104期间接收各种媒体流1134(1)至1134(N)的集合(该集合在本文中被称为“媒体数据1134”)。在一些场景中，并非参与通信会话1104的所有客户端计算设备都提供媒体流。例如，客户端计算设备可以仅是消费设备或“收听”设备，使得其仅接收与通信会话1104相关联的内容，而不向通信会话1104提供任何内容。

在各种示例中，服务器模块1130可以选择要与参与客户端计算设备1106(1)至1106(N)中的单个客户端计算设备共享的媒体流1134的方面。因此，服务器模块1130可以被配置为基于流1134来生成会话数据1136和/或将会话数据1136传递到输出模块1132。然后，输出模块1132可以将通信数据1139传送到客户端计算设备(例如，参与通信会话的实时查看的客户端计算设备1106(1)至1106(3))。通信数据1139可以包括由输出模块1132基于与输出模块1132相关联的内容1150并且基于所接收的会话数据1136来提供的视频、音频和/或其他内容数据。

如所示的，输出模块1132将通信数据1139(1)发送到客户端计算设备1106(1)，并且将通信数据1139(2)发送到客户端计算设备1106(2)，并且将通信数据1139(3)发送到客户端计算设备1106(3)，等等。发送到客户端计算设备的通信数据1139可以相同或可以不同(例如，用户界面内的内容流的位置可以在设备之间不同)。

在各种实现方式中，(多个)设备1110和/或客户端模块1120可以包括GUI呈现模块1140。GUI呈现模块1140可以被配置为对通信数据1139进行分析，该通信数据1139用于递送到客户端计算设备1106中的一个或多个。具体地，在设备(多个)1110和/或客户端计算设备1106处的GUI呈现模块1140可以对通信数据1139进行分析，以确定用于在相关联的客户端计算设备1106的显示屏1129上显示视频、图像和/或内容的适当方式。在一些实现方式中，GUI呈现模块1140可以将视频、图像和/或内容提供给渲染在相关联的客户端计算设备1106的显示屏1129上的呈现GUI 1146。GUI呈现模块1140可以使呈现GUI 1146渲染在显示屏1129上。呈现GUI 1146可以包括由GUI呈现模块1140分析的视频、图像和/或内容。

在一些实现方式中，呈现GUI 1146可以包括多个部分或网格，这些部分或网格可以渲染或包括用于在显示屏1129上显示的视频、图像和/或内容。例如，呈现GUI 1146的第一部分可以包括演示者或个人的视频馈送，呈现GUI 1146的第二部分可以包括个人消费由呈现者或个人提供的会议信息的视频馈送。GUI呈现模块1140可以以适当地模仿呈现者和个人可以共享的环境体验的方式来填入呈现GUI 1146的第一部分和第二部分。

在一些实现方式中，GUI呈现模块1140可以放大或提供由视频馈送表示的个人的缩放视图，以便突出显示个人对呈现者的反应，例如，面部特征。在一些实现方式中，呈现GUI 1146可以包括与会议(例如，一般通信会话)相关联的多个参与者的视频馈送。在其他实现方式中，呈现GUI 1146可以与诸如聊天频道、企业团队频道等之类的频道相关联。因此，呈现GUI 1146可以与不同于一般通信会话的外部通信会话相关联。

图12示出了说明示例设备1200(在本文也被称为“计算设备100”或“系统100”)的示例组件的图，该示例设备1200被配置为生成用于本文公开的用户界面中的一些的数据。设备1200可以生成可以包括一个或多个部分的数据，该一个或多个部分可以渲染或包括用于在显示屏1129上显示的视频、图像、虚拟对象和/或内容。设备1200可以表示本文描述的(多个)设备中的一个。另外地或可替代地，设备1200可以表示客户端计算设备1106中的一个。

如所示的，设备1200包括一个或多个数据处理单元1202、计算机可读介质1204和(多个)通信接口1206。设备1200的组件例如经由总线1209可操作地连接，该总线1209可以包括系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线以及任何各种本地、外围和/或独立总线中的一个或多个。

如本文所利用的，(多个)数据处理单元(例如，(多个)数据处理单元1202和/或(多个)数据处理单元1192)可以表示例如CPU类型的数据处理单元、GPU类型的数据处理单元、现场可编程门阵列(“FPGA”)、另一类别的DSP或其他硬件逻辑组件(在一些实例中，其可以由CPU驱动)。例如但不限于，可以利用的说明性类型的硬件逻辑组件包括专用集成电路(“ASIC”)、专用标准产品(“ASSP”)、片上系统(“SOC”)、复杂可编程逻辑器件(“CPLD”)等。

如本文所利用的，计算机可读介质(例如，计算机可读介质1204和计算机可读介质1194)可以存储可由(多个)数据处理单元执行的指令。计算机可读介质还可以存储可由外部数据处理单元(例如，由外部CPU、外部GPU)执行和/或可由外部加速器(例如，FPGA类型的加速器、DSP类型的加速器或任何其他内部或外部加速器)执行的指令。在各种示例中，在计算设备中并入了至少一个CPU、GPU和/或加速器，而在某些示例中，CPU、GPU和/或加速器中的一个或多个在计算设备的外部。

计算机可读介质(在本文也可以被称为多个计算机可读介质)可以包括计算机存储介质和/或通信介质。计算机存储介质可以包括以用于存储信息(例如，计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性存储器、非易失性存储器和/或其他持久和/或辅助计算机存储介质、可移除和不可移除计算机存储介质中的一个或多个。因此，计算机存储介质包括在设备和/或作为设备的一部分或在设备外部的硬件组件中包括的有形和/或物理形式的介质，包括但不限于随机存取存储器(“RAM”)、静态随机存取存储器(“SRAM”)、动态随机存取存储器(“DRAM”)、相变存储器(“PCM”)、只读存储器(“ROM”)、可擦除可编程只读存储器(“EPROM”)、电可擦除可编程只读存储器(“EEPROM”)、闪速存储器、压缩盘只读存储器(“CD-ROM”)、数字通用磁盘(“DVD”)、光卡或其他光学存储介质、磁带盒、磁带、磁盘存储装置、磁卡或其他磁存储设备或介质、固态存储器设备、存储阵列、网络附接存储装置、存储区域网络、托管的计算机存储装置或任何其他存储存储器、存储设备和/或可以用于存储和维护供计算设备访问的信息的存储介质。

与计算机存储介质相反，通信介质可以在诸如载波之类的调制的数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的，计算机存储介质不包括通信介质。即，计算机存储介质不包括仅由调制的数据信号、载波或传播信号本身组成的通信介质。

(多个)通信接口1206可以表示例如网络接口控制器(“NIC”)或其他类型的收发机设备，以通过网络发送和接收通信。此外，(多个)通信接口1206可以包括一个或多个摄像机和/或音频设备1222，以使得能够生成视频馈送和/或静止图像等等。

在所示的示例中，计算机可读介质1204包括数据储存库1208。在一些示例中，数据储存库1208包括数据存储装置，例如，数据库、数据仓库或其他类型的结构化或非结构化数据存储装置。在一些示例中，数据储存库1208包括具有一个或多个表、索引、存储的过程等的语料库和/或关系数据库以实现数据访问，其包括例如以下各项中的一个或多个：超文本标记语言(“HTML”)表、资源描述框架(“RDF”)表、web本体语言(“OWL”)表和/或可扩展标记语言(“XML”)表。

数据储存库1208可以存储用于存储在计算机可读介质1204中和/或由(多个)数据处理单元1218和/或(多个)加速器执行的过程、应用、组件和/或模块的操作的数据。例如，在一些示例中，数据储存库1208可以存储会话数据1210(例如，会话数据1136)、简档数据1212(例如，其与参与者简档相关联)和/或其他数据。会话数据1210可以包括通信会话中的参与者(例如，用户和/或客户端计算设备)的总数量、在通信会话中发生的活动、通信会话的受邀者列表和/或与何时以及如何进行或托管通信会话相关的其他数据。数据储存库1208还可以包括内容数据1214，例如，包括视频、音频或用于在显示屏1129中的一个或多个上渲染和显示的其他内容的内容。

可替代地，上面引用的数据中的一些或全部可以存储在一个或多个数据处理单元1202的板上的单独的存储器1181(例如，在CPU类型的处理器、GPU类型的处理器、FPGA类型的加速器、DSP类型的加速器和/或其他加速器的板上的存储器)上。在该示例中，计算机可读介质1204还包括操作系统1218和被配置为向其他设备暴露设备1200的功能和数据的(多个)应用编程接口1210(API)。另外地，计算机可读介质1204包括一个或多个模块(例如，服务器模块1230、输出模块1232和GUI呈现模块1246)，但是所示模块的数量仅是示例，并且该数量可以变得更高或更低。即，在本文与所示模块相关联地描述的功能可以由一个设备上或遍布在多个设备上的较少数量的模块或较大数量的模块来执行。

应当认识到的是，除非另外具体陈述，否则在上下文内理解本文使用的条件性语言(例如，“可以(can)”、“可(could)”、“可能(might)”或“可以(may)”)，以表达某些示例包括而其他示例不包括某些特征、元素和/或步骤。因此，这种条件性语言通常不意在暗示一个或多个示例以任何方式要求某些特征、元素和/或步骤，或者一个或多个示例必须包括用于(在有或没有用户输入或提示的情况下)决定在任何特定示例中是否要包括或执行某些特征、元素和/或步骤的逻辑单元。除非另外具体陈述，否则诸如短语“X，Y或Z中的至少一个”之类的合取语言应理解为表示条目、项等可以是X，Y，或Z，或者其组合。

还应该认识到的是，可以对上面描述的示例进行各种变型和修改，其中的元素应被理解为在其他可接受的示例之中。所有这些修改和变型旨在在本文中被包括在本公开内容的范围内，并由所附权利要求书保护。最后，虽然已经以特定于结构特征和/或方法动作的语言对各种配置进行了描述，但应当理解的是，所附表示中定义的主题并不一定受限于所描述的特定特征或动作。而是，公开的特定特征和动作作为实现要求保护的主题的示例形式。

本文呈现的公开内容也涵盖在以下条款中阐述的主题：

条款1、一种要由数据处理系统执行的、用于运行的方法，该方法包括：引起用户界面的显示，该用户界面包括视频显示区域、文本键入字段和文本部分；处理视频数据的视频内容，以生成用于在视频显示区域内显示的经渲染的内容；在文本键入字段处接收输入文本，该输入文本包括至少一个关键词；标识文本数据的具有至少一个关键词的部分；以及将文本数据的具有至少一个关键词的部分插入文本键入字段，该用户界面被配置为：响应于接收到确认输入，而在评论部分中显示文本数据的部分。

条款2、根据条款1的方法，还包括：处理与视频数据相关联的音频内容以生成文本数据，该文本数据包括在音频内容中表达的短语；基于一个或多个标准来将文本数据解析为多个句子；以及选择具有至少一个关键词的句子，其中，将文本数据的部分插入文本键入字段包括：将选定的句子插入文本键入字段。

条款3、根据条款1和条款2的方法，还包括：对文本数据进行分析以确定文本数据中的短语的个体时间，该短语包含至少一个关键词；从多个短语中选择个体短语，该个体短语的个体时间比多个短语中的也包括至少一个关键词的另一短语的个体时间更接近选定的时间标记；以及插入个体短语作为要被插入文本键入字段的文本数据的部分。

条款4、根据条款1-3的方法，其中，选定的时间标记基于输入文本中指示的时间。

条款5、根据条款3-4的方法，其中，选定的时间标记基于与在视频显示区域中显示的经渲染的内容相关联的回放光标的位置。

条款6、根据条款1-5的方法，还包括：对文本数据进行分析以确定针对文本数据的包含至少一个关键词的部分的时间标记；确定该时间标记在当前时间标记的预定阈值内，该当前时间标记是针对在视频显示区域中显示的经渲染的内容的；以及响应于确定针对文本数据的部分的时间标记在当前时间标记的预定阈值内，而将文本数据的部分插入文本键入字段，该当前时间标记是针对在视频显示区域中显示的经渲染的内容的。

条款7、根据条款1-6的方法，还包括：对与视频内容相关联的音频内容进行分析，以检测音频内容的部分的音调、变曲点或音量中的至少一项；以及基于音调、变曲点或音量中的至少一项的阈值改变来确定文本数据内的开始点和结束点，其中，开始点和结束点定义文本数据的部分的边界。

条款8、根据条款1-7的方法，还包括：对与视频内容相关联的音频内容进行分析，以检测音频内容的音调、变曲点或音量中的至少一项；以及基于音调、变曲点或音量中的至少一项的阈值改变来确定文本数据内的开始点和结束点，其中，开始点和结束点定义文本数据的部分的边界。

条款9、根据条款1-8的方法，还包括：对与视频内容相关联的音频内容进行分析，以检测音频内容的音调、变曲点或音量中的至少一项；确定音频内容的音调、变曲点或音量中的至少一项的阈值水平；以及响应于确定音频内容的音调、变曲点或音量中的至少一项的阈值水平，而选择文本数据的部分的字符的样式、排列或外观中的至少一项。

条款10、根据条款1-9的方法，还包括：对与视频内容相关联的音频内容进行分析，以检测音频内容的音调或音量中的至少一项；确定音频内容的音调或音量中的至少一项的阈值改变程度；以及响应于确定音频内容的音调或音量中的至少一项的阈值改变，而选择文本数据的部分的字符的样式、排列或外观中的至少一项。

条款11、一种系统，其包括：一个或多个处理单元；以及计算机可读介质，其上编码有计算机可执行指令，该计算机可执行指令用于使一个或多个处理单元执行包括以下各项的方法：引起用户界面的显示，该用户界面包括视频显示区域和键入字段；处理视频数据的视频内容，以在视频显示区域内生成经渲染的内容；在键入字段处接收输入；对与视频数据相关联的文本数据进行分析，以确定输入与文本数据的部分具有阈值水平的相关性；以及响应于确定输入与文本数据的部分具有阈值水平的相关性，而将文本数据的部分插入键入字段。

条款12、根据条款11的方法，其中，方法还包括：接收指示接受文本数据的部分的确认输入；以及响应于确认输入，而将文本数据的部分插入用户界面的评论部分，其中，评论部分中的文本数据的部分被配置为：引起在扬声器上对音频内容的音频渲染。

条款13、根据条款11-12的系统，其中，基于输入与文本数据的部分之间的公共关键词的数量，输入与文本数据的部分具有阈值水平的相关性。

条款14、根据条款11-13的系统，其中，基于在输入中指示的时间标记与关联于文本数据的部分的时间之间的阈值差，输入与文本数据的部分具有阈值水平的相关性。

条款15、根据条款11-14的系统，其中，基于在输入中引用的标识符与关联于文本数据的部分的另一标识符，以及在输入中指示的时间标记与关联于文本数据的部分的时间之间的阈值差，输入与文本数据的部分具有阈值水平的相关性。

条款16、根据条款11-15的系统，其中，基于在输入中引用的标识符与关联于文本数据的部分的另一标识符，以及输入与文本数据的部分之间的公共关键词的数量，输入与文本数据的部分具有阈值水平的相关性。

条款17、一种系统，包括：用于显示用户界面的单元，该用户界面包括视频显示区域、键入字段和评论部分；用于处理视频数据的视频内容，以生成用于在视频显示区域内显示的经渲染的内容的单元；用于在键入字段处接收输入的单元，该输入包括至少一个关键词或者包含一系列音调的有声输入；用于选择文本数据的具有至少一个关键词的部分，或者音频内容的与一系列音调中的音符序列具有阈值水平的相关性的一部分的单元；以及用于将文本数据的具有至少一个关键词的部分或者音频内容的部分的表示填入键入字段的单元，该用户界面被配置为：响应于接收到确认输入，而在评论部分中显示文本数据的部分或音频内容的部分的表示。

条款18、根据条款17的系统，还包括：用于处理与视频数据相关联的音频内容以生成文本数据的单元，该文本数据包括在音频内容中表达的短语；用于基于一个或多个标准来将文本数据解析为多个句子的单元；以及用于选择具有至少一个关键词的句子的单元，其中，将文本数据的部分填入键入字段包括：将选定的句子插入键入字段。

条款19、根据条款17-18的方法，还包括：用于对文本数据进行分析以确定文本数据中的短语的个体时间的单元，该短语包含至少一个关键词；用于从多个短语中选择个体短语的单元，该个体短语的个体时间比多个短语中的也包括至少一个关键词的另一短语的个体时间更接近选定的时间标记；以及用于插入个体短语作为要被插入键入字段的文本数据的部分的单元。

条款20、根据条款17-19的系统，还包括：用于对文本数据进行分析以确定针对文本数据的包含至少一个关键词的部分的时间标记的单元；用于确定时间标记在当前时间标记的预定阈值内的单元，该当前时间标记是针对在视频显示区域中显示的经渲染的内容的；以及用于响应于确定针对文本数据的部分的时间标记在当前时间标记的预定阈值内，而将文本数据的部分填入键入字段的单元，该当前时间标记是针对在视频显示区域中显示的经渲染的内容的。

Claims

1.一种要由数据处理系统执行的、用于运行的方法，所述方法包括：

引起用户界面的显示，所述用户界面包括视频显示区域、文本键入字段和文本部分；

处理视频数据的视频内容，以生成用于在所述视频显示区域内显示的经渲染的内容；

在所述文本键入字段处接收输入文本，所述输入文本包括至少一个关键词；

标识文本数据的具有所述至少一个关键词的部分；以及

将所述文本数据的具有所述至少一个关键词的所述部分插入所述文本键入字段，所述用户界面被配置为：响应于接收到确认输入，而在评论部分中显示所述文本数据的所述部分。

2.根据权利要求1所述的方法，还包括：

处理与所述视频数据相关联的音频内容以生成所述文本数据，所述文本数据包括在所述音频内容中表达的短语；

基于一个或多个标准来将所述文本数据解析为多个句子；以及

选择具有所述至少一个关键词的句子，其中，将所述文本数据的所述部分插入所述文本键入字段包括：将选定的句子插入所述文本键入字段。

3.根据权利要求1所述的方法，还包括：

对所述文本数据进行分析以确定所述文本数据中的短语的个体时间，所述短语包含所述至少一个关键词；

从多个短语中选择个体短语，所述个体短语的个体时间比所述多个短语中的也包括所述至少一个关键词的另一短语的个体时间更接近选定的时间标记；以及

插入所述个体短语作为要被插入所述文本键入字段的所述文本数据的所述部分。

4.根据权利要求3所述的方法，其中，所述选定的时间标记基于所述输入文本中指示的时间。

5.根据权利要求3所述的方法，其中，所述选定的时间标记基于与在所述视频显示区域中显示的所述经渲染的内容相关联的回放光标的位置。

6.根据权利要求1所述的方法，还包括：

对所述文本数据进行分析以确定针对所述文本数据的包含所述至少一个关键词的所述部分的时间标记；

确定所述时间标记在当前时间标记的预定阈值内，所述当前时间标记是针对在所述视频显示区域中显示的所述经渲染的内容的；以及

响应于确定针对所述文本数据的所述部分的所述时间标记在所述当前时间标记的所述预定阈值内，而将所述文本数据的所述部分插入所述文本键入字段，所述当前时间标记是针对在所述视频显示区域中显示的所述经渲染的内容的。

7.根据权利要求1所述的方法，还包括：

对与所述视频内容相关联的音频内容进行分析，以检测所述音频内容的部分的音调、变曲点或音量中的至少一项；以及

基于所述音调、所述变曲点或所述音量中的至少一项的阈值改变来确定所述文本数据内的开始点和结束点，其中，所述开始点和所述结束点定义所述文本数据的所述部分的边界。

8.根据权利要求1所述的方法，还包括：

对与所述视频内容相关联的音频内容进行分析，以检测所述音频内容的音调、变曲点或音量中的至少一项；以及

9.根据权利要求1所述的方法，还包括：

对与所述视频内容相关联的音频内容进行分析，以检测所述音频内容的音调、变曲点或音量中的至少一项；

确定所述音频内容的所述音调、所述变曲点或所述音量中的至少一项的阈值水平；以及

响应于确定所述音频内容的所述音调、所述变曲点或所述音量中的至少一项的所述阈值水平，而选择所述文本数据的所述部分的字符的样式、排列或外观中的至少一项。

10.根据权利要求1所述的方法，还包括：

对与所述视频内容相关联的音频内容进行分析，以检测所述音频内容的音调或音量中的至少一项；

确定所述音频内容的所述音调或所述音量中的至少一项的阈值改变程度；以及

响应于确定所述音频内容的所述音调或所述音量中的至少一项的阈值改变，而选择所述文本数据的所述部分的字符的样式、排列或外观中的至少一项。

11.一种系统，其包括：

一个或多个处理单元；以及

计算机可读介质，其上编码有计算机可执行指令，所述计算机可执行指令用于使所述一个或多个处理单元执行包括以下各项的方法：

引起用户界面的显示，所述用户界面包括视频显示区域和键入字段；

处理视频数据的视频内容，以在所述视频显示区域内生成经渲染的内容；

在所述键入字段处接收输入；

对与所述视频数据相关联的文本数据进行分析，以确定所述输入与所述文本数据的部分具有阈值水平的相关性；以及

响应于确定所述输入与所述文本数据的所述部分具有所述阈值水平的相关性，而将所述文本数据的所述部分插入所述键入字段。

12.根据权利要求11所述的系统，其中，所述方法还包括：

接收指示接受所述文本数据的所述部分的确认输入；以及

响应于所述确认输入，而将所述文本数据的所述部分插入所述用户界面的评论部分，其中，所述评论部分中的所述文本数据的所述部分被配置为：引起在扬声器上对所述音频内容的音频渲染。

13.根据权利要求11所述的系统，其中，基于所述输入与所述文本数据的所述部分之间的公共关键词的数量，所述输入与所述文本数据的所述部分具有所述阈值水平的相关性。

14.根据权利要求11所述的系统，其中，基于在所述输入中指示的时间标记与关联于所述文本数据的所述部分的时间之间的阈值差，所述输入与所述文本数据的所述部分具有所述阈值水平的相关性。

15.根据权利要求11所述的系统，其中，基于在所述输入中引用的标识符与关联于所述文本数据的所述部分的另一标识符，以及在所述输入中指示的时间标记与关联于所述文本数据的所述部分的时间之间的阈值差，所述输入与所述文本数据的所述部分具有所述阈值水平的相关性。