CN112219214A

CN112219214A - 用于面试训练的具有时间匹配反馈的系统及方法

Info

Publication number: CN112219214A
Application number: CN201980032336.7A
Authority: CN
Inventors: T·斯泰因霍夫; P·S·斯坦缪斯; B·阿克尔曼; J·戴伊托
Original assignee: Brilliant Co
Current assignee: Brilliant Co
Priority date: 2018-04-06
Filing date: 2019-04-05
Publication date: 2021-01-12
Also published as: EP3776410A1; US20220398541A1; US20190333021A1; US20220036315A1; US11107041B2; US20210004768A1; US11403598B2; US11182747B2; WO2019195808A1; US11120405B2; EP3776410A4; US11868965B2; US20240104508A1; US20190311331A1

Abstract

本公开通常涉及面试训练以及提供面试反馈。一种示例性方法包括：在与显示器以及一个或多个输入设备通信的电子设备处：经由该一个或多个输入设备，接收与用户对多个提示的响应相对应的媒体数据；分析媒体数据；以及当在显示器上显示该媒体数据的媒体表示时，显示覆盖在媒体表示上的多个分析表示，其中，该多个分析表示中的每个分析表示与位于媒体表示中的给定时间处的内容的分析相关联，并与媒体表示中的给定时间协调显示。

Description

用于面试训练的具有时间匹配反馈的系统及方法

相关申请的交叉引用

本申请要求于2018年4月6日提交的标题为“System and Method for InterviewTraining with Time-Matched Feedback”的美国临时专利申请序列号62/654,088的优先权，其内容出于所有目的通过引用并入于此。

技术领域

本公开通常涉及面试训练并提供面试反馈。

附图说明

为了更好地理解各种所述实施例，应当参考以下具体实施方式并结合以下附图，其中在全部附图中相同的附图标记表示相应的部分。

图1示出了根据本公开的一些实施例的示例性面试分析和反馈过程。

图2A至图2J示出了根据本公开的一些实施例的示例性用户界面。

图3示出了根据本公开的一些实施例的示例性用户界面。

图4示出了根据本公开的一些实施例的示例性用户界面。

图5示出了根据本公开的一些实施例的示例性面试筛选过程。

图6示出了根据本公开的一些实施例的示例性用户界面。

图7A至图7B示出了根据本公开的一些实施例的示例性视频筛选用户界面。

图8示出了根据本公开的一些实施例的示例性面试分析过程。

图9示出了根据本公开的一些实施例的示例性视频筛选用户界面。

图10示出了根据本公开的一些实施例的示例性指导用户界面。

图11示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

图12示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

图13示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

图14示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

图15示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

图16示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

图17示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

图18示出了根据本公开的一些实施例的用于查看和编辑媒体内容的示例性用户界面。

具体实施方式

在以下实施例的描述中，参考形成本文的部分的附图，并且在附图中通过图示的方式展示了可选实施的特定实施例。要理解的是，在不脱离所公开的实施例的范围的情况下，可选地使用其他实施例，并且可选地进行结构上的改变。

图1示出了根据本公开的一些实施例的示例性面试分析和反馈过程。在该过程的步骤1，可以向用户提供问题的类别的清单，并且用户可以选定问题的类别中的一个类别。例如，可能的问题的类别可以是1分钟电梯游说、标准面试、报告式面试或者公开发言参与。与训练应聘者有关的其他合适的问题的类别也是可能的。问题的类别可以被显示为卡或图标或文本清单。在一些实施例中，用户可以从头至尾地滚动问题的类别。例如，可以通过向左或向右、向上或向下滑动屏幕或者通过启动滚动条来进行滚动。

在一些实施例中，在该过程的步骤1，用户可以选择上传用于分析的预先记录的视频来代替选定要记录的问题的类别。在一些实施例中，该视频可以是用户的视频，也可以是其他求职者或著名演讲的示例性视频。系统可以独立于问题的类别来分析并处理上传的视频。例如，系统可以跳过步骤2和步骤3，并且直接移动到用于质量分析以及全面分析的步骤4。在一些实施例中，这一特征可以提供用户分析和反馈，并且从示例性模范中获得见解。

在该过程的步骤2，系统将提示用户准备记录数据。在一些实施例中，记录的数据可以是仅音频数据或是音频和视频两者的数据。在一些实施例中，用户可以上传预先记录的音频或视频文件。可以显示问题的类别的描述。在一些实施例中，用户可以启动用户界面元素，以选定类别并开始记录。

在该过程的步骤3，系统将开始记录数据。在一些实施例中，记录数据可以通过使用内置在用户设备(例如智能电话、计算机、平板计算机等)中的麦克风或摄像机来发生。在一些实施例中，可以使用外部记录机构。在一些实施例中，可以在设备上显示记录的显示。在一些实施例中，系列的面试问题被呈现给设备的用户，并且用户响应于那些问题，用户设备记录这些响应。在一些实施例中，以文本形式显示系列的面试问题，并且还可以同时显示招聘者询问问题的视频。在一些实施例中，系列的面试问题中的一个或多个系列的面试问题以仅文本的形式显示。在一些实施例中，可以使用现场双向会议会话来向设备的用户呈现面试问题。例如，可以使用VOIP来将现场招聘者连接到用户。在一些实施例中，除了显示现场招聘者之外，可以使用增强现实(例如，将招聘者描绘为坐在与用户相对的面试桌的另一侧)。在一些实施例中，可以使用数字渲染的化身来呈现面试问题。数字渲染的化身可以是三维的。数字渲染的化身可以将问题视觉地并听觉地呈现给用户。计算机渲染的化身还可以将其视觉移动与音频同步(例如，与问题的单词同步地移动嘴部)。在一些实施例中，数字渲染的化身可以调整其视觉移动，以与用户进行眼神接触(例如，如果招聘者正在向下注视屏幕，则该数字渲染的化身可以调整其眼部位置，以看起来正在直接注视用户)。在一些实施例中，数字渲染的化身可以显示为仿佛该化身在与用户的视频聊天一样。在一些实施例中，可以使用其他合适的向用户呈现问题的手段。在一些实施例中，步骤3继续，直到用户响应激活的问题的类别中的每个面试问题，并且用户设备记录用户的每个响应。在一些实施例中，用户可以启动按钮，以指示一个问题的完成并移动到下一个问题。在一些实施例中，视频可以被记录在用户设备上。在一些实施例中，视频可以被记录在远程设备上，并且然后被发送到用户设备。

在该过程的步骤4，系统分析记录的数据的质量。在一些实施例中，分析记录的质量包括分析语音强度、最小长度以及用户的可见性。在一些实施例中，如果质量分析无法产生合适的质量，则提示用户重新记录数据，并且系统返回到该过程的步骤2。在一些实施例中，用户可以观看记录的数据。在一些实施例中，用户可以确认记录的数据并启动按钮以开始面试分析。

在该过程的步骤5，记录的数据由用户设备和/或由用户设备结合远程计算机系统来分析。在一些实施例中，分析记录的数据可以包括识别要避免的单词或短语。在一些实施例中，分析记录的数据可以包括识别陈词滥调的单词或短语、填充单词或犹豫。在一些实施例中，分析记录的数据可以包括分析数据的清晰度和可理解性。例如，可以分析响应以确定该响应回答向用户提出的问题的好坏程度。在一些实施例中，分析可以包括检测口音或方言。在一些实施例中，口音和方言分析可以提供关于读法、发音或其他清晰度和可理解性度量的用户反馈。在一些实施例中，分析记录的数据可以包括确定用户的响应的等级水平。在一些实施例中，分析记录的数据可以包括识别用户的对话速度(例如，每分钟的单词)。在一些实施例中，分析记录的数据可以包括识别用户响应的语气。在一些实施例中，识别用户响应的语气可以包括识别用户的能量水平。在一些实施例中，识别用户响应的语气可以包括用户的态度。在一些实施例中，识别用户响应的语气可以包括用户的心情。在一些实施例中，识别用户响应的语气可以包括识别用户的举止。在一些实施例中，分析可以基于由用户使用的单词、短语、陈述或句子。在一些实施例中，分析可以基于用户的面部表情或身体语言。在一些实施例中，用户的面部表情或身体语言的分析可以包括文化规范的分析。例如，如果用户正在某个国家为了面试而练习，则可以执行关于要避免的手势或头部移动的分析。在一些实施例中，分析可以基于用户的音量、速度、音调或其他语音特性。在一些实施例中，分析可以基于其他合适的度量。在一些实施例中，可以给出记录的数据的分数。在一些实施例中，分数可以基于一些分析或所有分析。在一些实施例中，通过人工智能、机器学习、神经网络或其他合适的手段来执行任何以上分析或所有以上分析。在一些实施例中，现场面试指导可以分析视频并提供上述反馈。在一些实施例中，现场面试指导可以提供语音、视频或文本的反馈。

在一些实施例中，分析可以与视频合并。在一些实施例中，将分析与视频合并包括将分析和反馈与引起该分析反馈的事件的时间相关联。例如，如果系统在该记录中的1:30处识别到了填充单词，则要避免填充单词的分析和反馈可以与记录中的1:30相关联。在一些实施例中，分析和反馈可以与事件稍早之前或稍晚之后(例如0.5秒、1秒、2秒)相关联，以提升可视性。

在该过程的步骤6，合并视频的分析可以被保存并发布到私有云帐户。在一些实施例中，包括覆盖的弹出图标的视频记录可以被导出。在一些实施例中，水印可以被嵌入到导出的视频中。例如，公司水印或商标可以被嵌入视频的背景、前景、角落或者任何其他合适的位置。在一些实施例中，保存的视频可以是专有文件格式。在一些实施例中，保存的视频可以被存储在应用程序的存储器中。在一些实施例中，保存的视频可以被导出为标准文件格式，诸如AVI、MP4或者任何其他合适的文件格式。在一些实施例中，可以使用不同的视频和音频编码。在一些实施例中，仅视频记录被导出。在一些实施例中，视频可以被保存到用户的设备上的本地存储装置中。在一些实施例中，视频可以被上传或发布到云帐户。在一些实施例中，云帐户可以是与应用程序相关联的私有用户帐户。在一些实施例中，云帐户可以是在公有云存储运营商上的私有用户帐户。在一些实施例中，云帐户可以是公有存储位置。在一些实施例中，可以使用其他合适的存储位置。

在该过程的步骤7，可以生成指向视频的可共享链接。在一些实施例中，可共享链接是指向web位置的统一资源定位符(URL)。在一些实施例中，可共享链接是识别视频的位置的专有文件。在一些实施例中，可以使用其他适当的指示器。在一些实施例中，不执行步骤7。

图2示出了根据本公开的一些实施例的示例性用户界面。示例性用户界面UI1示出了显示问题的类别210，供用户选定。在一些实施例中，问题的类别210可以是电梯(ELEVATOR)游说、标准(S_TANDARD)面试或报告或者可以被提供的其他问题的类别210。在一些实施例中，用户可以选定问题的类别210，然后用户界面显示与选定的问题的类别相关联的问题的子类别212。在一些实施例中，问题的类别210的清单是可滚动的。当问题的类别210被选定时，显示一定数量的子类别211。在一些实施例中，问题的子类别212被显示为卡、图标或文本清单。在一些实施例中，问题的子类别212可以是可滚动的。在一些实施例中，问题的子类别212可以包括该子类别的表示。例如，该表示可以是静止图片、动画视频或其他合适的表示。在一些实施例中，问题的子类别212可以包括子类别的描述213。在一些实施例中，用户界面UI1可以包括用户的表示214。在一些实施例中，用户的表示214可以是用户的名字、用户的简介图片或唯一标识符(例如，屏幕名字或ID)。在一些实施例中，用户的表示214可以是任何其他合适的表示。在一些实施例中，用户界面UI1包括字体调整元素215，以调整用户界面UI1中的文本的字体大小。在一些实施例中，字体调整元素215被设置为默认字体大小。在一些实施例中，当用户将字体调整元素215设置为除默认字体大小以外的设置时，设置持续。

示例性用户界面UI2示出了提示用户准备记录数据。在一些实施例中，当用户选定问题的类别212时，可以显示用户界面UI2。在一些实施例中，UI2可以包括问题的类别的描述220。在一些实施例中，UI2可以包括问题的类别的表示221(例如，静止图片、动画视频或其他表示)。在一些实施例中，UI2可以包括用户的表示223。在一些实施例中，用户的表示223可以是静止照片。在一些实施例中，用户的表示223可以是从设备的相机拍摄的用户的现场视频。在一些实施例中，UI2可以包括字体调整元素224，以调整用户界面UI2中的文本的字体大小。在一些实施例中，字体调整元素224的设置可以是字体调整元素215的设置。在一些实施例中，UI2可以包括用户界面元素225，该用户界面元素225的启动将开始数据记录。

示例性用户界面UI3示出了与选定的问题的类别有关的记录数据。在一些实施例中，UI3可以在用户启动用户界面元素225并开始面试会话之后显示。在一些实施例中，UI3可以包括面试问题的文本提示230。在一些实施例中，UI3可以显示招聘者询问招聘者问题的预先记录的视频231。在一些实施例中，UI3可以显示用户的表示232。在一些实施例中，用户的表示232可以是从设备的相机拍摄的用户的现场视频。在一些实施例中，用户的表示232可以是数字渲染的化身。该数字渲染的化身可以是三维的。该数字渲染的化身可以将其移动与视频的视觉数据和音频数据同步。在一些实施例中，视频将被分析，并且数字渲染的化身可以将其移动与用户的移动同步(例如，眨眼、笑容、头部位置、眼部位置和嘴部移动可以被分析并被反映在该数字渲染的化身的移动中)。通过仅显示用户的表示而不是视觉地显示用户，数字渲染的化身具有消除潜在的偏见因素的优点。在一些实施例中，UI3可以显示指示数据当前正被记录的指示符234。

示例性用户界面UI4示出了示例性视频记录确认页面。在一些实施例中，UI4可以包括记录的视频的表示240。在一些实施例中，记录的视频的表示240可以是交互式的。在一些实施例中，用户可以启动记录的视频的表示240，以观看记录的视频的回放。在一些实施例中，UI4可以包括视频质量分析241的结果。在一些实施例中，视频质量分析241的结果可以包括对用户的语音强度、该视频的最大长度或者该用户的面部可见性的质量的指示。在一些实施例中，视频质量分析241的结果可以提供关于如何改善视频质量分析241的反馈。在一些实施例中，如果视频质量分析241的结果是不充分的，则用户界面元素242不被启用(例如，变灰、划掉、不显示或其他合适的手段)。在一些实施例中，如果视频质量分析241的结果是充分的，然后用户界面元素242被启用。在一些实施例中，用户可以启动用户界面元素242，以开始视频数据的分析。

示例性用户界面UI5示出了示例性分析和反馈选择页面。在一些实施例中，在执行分析并且分析与视频合并之后，用户可以选定要回放哪个合并的视频。例如，如果用户已经记录了几种不同的问题的类别的数据，然后UI5可以显示带有分析和反馈的多个视频，供用户选择。

示例性用户界面UI6示出了示例性分析和反馈回放界面。UI6可以显示并回放分析的视频260(例如，从UI5中选定的视频)。当回放在进行中时，分析或反馈的表示可以在视频261上弹出(例如，作为覆盖区弹出)。分析或反馈的表示可以是图形图标或文本或两者。该表示可以淡入，并且持续一段时间的阈值量(例如0.5秒、1秒、1.5秒、2秒或其他合适的时间的量)再淡出。在一些实施例中，该表示可以具有不透明或半透明的背景。在一些实施例中，分析或反馈的表示可以与引起该分析反馈的事件的时间相关联。例如，如果系统在记录中的1:30处识别到了填充单词，则分析或反馈的表示可以与该记录中的1:30相关联。在一些实施例中，当记录的回放已经达到相关联的时间时(例如，当记录的回放达到1:30时)，分析或反馈的表示将随后被显示。在一些实施例中，分析和反馈可以与事件稍早之前或稍晚之后(例如0.5秒、1秒、2秒)相关联，以提升可视性。

UI6可以包括分析和反馈的标签262。标签261可以是用户连同反馈做出的陈述或是对视频的语气的分析或者是可以使招聘者受益的其他见解。在一些实施例中，陈述标签可以显示定量分析的表示263。例如，定量分析可以是用户的说话速度(WPM)(每分钟的单词)、发言人的教育水平(LEVEL)、清晰度(CLARITY)的水平(例如，发音、单词选用、句子结构等)以及识别的缺陷(ISSUES)的总数。UI6可以包括显示反馈的项264的反馈窗格。例如，反馈的项264可以包括触发该反馈的陈述、分析以及用于改善的建议。反馈面板可以是可滚动的清单。在一些实施例中，反馈面板将基于视频的回放位置，根据与反馈面板中的项相关联的时间而自动地滚动。在一些实施例中，用户可以向前或向后滚动反馈面板，而不影响视频的回放。在一些实施例中，向前或向后滚动反馈将引起视频的回放快进或倒退。反馈的项264也是可选定的，使得选定项会将视频的回放位置移动到与该反馈项相关联的位置。例如，如果用户滚动反馈面板至视频中的1：30处，并选定与该视频中1：30相关联的反馈项，尽管该视频仍正在1：00处播放，该视频回放也将移动到1：30。然后，视频将回放，从而展示触发该反馈的陈述。在一些实施例中，选定反馈窗格的不同部分触发不同的响应。在一些实施例中，选定转录的文本将引起被转录的陈述的回放，并且该回放将超过该被转录的陈述而继续(例如，直到达到视频的结束或被用户打断)。在一些实施例中，选定分析和建议元素将引起仅触发该反馈的陈述的回放(例如，回放将在陈述的结束处结束)。UI6可以包括视频的总体分析分数265。总体分析分数可以基于一些前述分析或全部前述分析或者其他合适的分析。

在一些实施例中，UI6可以包括语气标签，以提供关于用户的语气的反馈(如下面关于图4更详细地描述的)。在一些实施例中，UI6可以包括见解标签。在一些实施例中，见解标签可以包括关于对用户应该如何回答特定的问题、不同类型的响应的结果或者招聘者通常针对某些问题在寻找什么的讨论。在一些实施例中，见解标签可以包括记录的讨论上述话题的专家的访谈。在一些实施例中，见解标签可以是关于呈现给用户的问题以及用户如何响应问题的特定的反馈。

在一些实施例中，如果使用现场指导来分析视频，则反馈窗格可以包括提供反馈的指导的预先记录的视频或音频。在一些实施例中，指导可以提供文本反馈，在这种情况下，反馈窗格可能看起来与上述反馈窗格相同或相似。

示例性用户界面UI6示出了全屏回放模式中的示例性分析和反馈回放界面。在一些实施例中，用户可以通过启动按钮或通过将设备从纵向转换到横向来触发这一模式。在一些实施例中，当在全屏播放回放模式中时，不显示反馈窗格。在一些实施例中，在回放期间只显示弹出图标。在一些实施例中，反馈板可以随透明或半透明的背景显示。在一些实施例中，反馈的项(例如，UI6中的反馈的项264)可以被显示为覆盖区。在一些实施例中，反馈的项可以在播放视频时淡入和淡出。在一些实施例中，当显示反馈的项时，用户可以从头至尾地滚动反馈的项。在一些实施例中，选定反馈的项将退出全屏模式并执行关于UI6所描述的动作。

示例性用户界面UI8至U10示出了随着视频回放的用户界面的演变。例如，UI9示出了指示反馈的项的弹出并覆盖的图标(例如，手形图标)。在一些实施例中，弹出并覆盖的图标可以是如关于UI6所描述的反馈和分析的表示。如以上关于UI6更详细地描述的，在一些实施例中，弹出并覆盖的图标可以与引起该弹出并覆盖的图标的事件的时间相关联。例如，如果系统在记录中的1:30处识别到了填充单词，则该弹出并覆盖的图标可以与记录中的1:30相关联。在一些实施例中，当记录的回放已经达到相关联的时间时(例如，当记录的回放达到1:30时)，然后将显示该弹出并覆盖的图标。在一些实施例中，弹出并覆盖的图标可以与事件稍早之前或稍晚之后(例如0.5秒、1秒、2秒)相关联，以提升可视性。

UI10示出了从第一位置移动到第二位置的反馈的项(例如，图标平移到视频的侧边，并随着与图标相对应的视频的部分被播放再播过而淡出)。在一些实施例中，可以同时地显示多个反馈的项(例如，当正显示手形图标时，也显示拇指朝上的图标)。

图3示出了根据本公开的一些实施例的示例性用户界面，诸如图2中的UI10。

图4示出了根据本公开的一些实施例的示例性用户界面。在一些实施例中，显示语气(Tone)标签。在一些实施例中，语气标签显示与用户的语气相关联的分析和反馈。在一些实施例中，语气标签可以显示定性分析的表示401。例如，定性分析可以是用户的能量(ENERGY)水平、用户的态度(ATTITUDE)、用户的心情以及用户的举止。定性分析的表示401可以包括关于它们的合意性的反馈(即，“中等(NEUTRAL)”、“还不错(OK)”、“满意(Joy)”等)。语气标签还可以包括与上述关于陈述标签的反馈窗格类似的反馈窗格。在一些实施例中，语气标签可以显示呈现给用户的问题402。在一些实施例中，语气标签可以显示对呈现给用户的问题的响应的分析的表示403。

图5示出了根据本公开的一些实施例的示例性面试筛选过程。在筛选过程的步骤1中，用户识别要被使用在生成新视频中的筛选项。在筛选过程的步骤2中，该过程能够生成新视频。在筛选过程的步骤3中，分析与原始视频合并。在筛选过程的步骤4中，生成消除了已经被用户选定的筛选项筛选的项的新视频(以及随附的音频)。例如，某些单词、短语、填充单词或不自然的停顿可以由筛选过程筛选掉。在一些实施例中，与筛选过程之前的视频相比，新视频将不具有在分析中识别出的缺陷、基本不具有在分析中识别出的缺陷或者具有减少的在分析中识别出的缺陷的量。在一些实施例中，新视频可以是拼接在一起的原始视频的未筛选部分。在筛选过程的步骤5中，分析被合并到新视频中。在一些示例中，合并到新视频中的分析可以包含与未从原始视频中筛选掉的内容有关的剩余的分析和反馈(例如，来自以上图1至图4的分析和反馈)。在筛选过程的步骤6中，与以上关于图1所描述的过程的步骤6类似，新视频可以被保存并被上传或发布到私有云中。在步骤7，与以上关于图1所描述的过程的步骤7类似，可以生成可共享链接。

图6示出了根据本公开的一些实施例的示例性用户界面。在一些实施例中，用户可以通过启动用户界面元素600来选择筛选项。在一些实施例中，启动用户界面元素600来为用户显示多个筛选项选项。例如，用户可以选择筛选视频(使视频没有常见缺陷、仅有缺陷)或者选择查看原始视频(例如，没有筛选的视频)。在一些实施例中，筛选过程可以执行上下文自然语言处理(NPL)，以在筛选过程期间识别要筛选的单词、短语或缺陷。

图7示出了根据本公开的一些实施例的示例性视频筛选用户界面。在一些实施例中，视频筛选过程将识别包含已经被选定的要被筛选的元素的视频和音频的部分。例如，视频筛选过程可以识别如图1至图4的分析中所识别的不合意的短语、填充单词或不必要的停顿来筛选。在一些实施例中，视频筛选用户界面可以提供视频的回放，并且视觉地区分(例如，通过颜色、标贴或任何其他合适的视觉区分手段)被标记为筛选的视频片段与未被标记为筛选的视频片段。例如，作为视频筛选过程的部分，用户可以引起视频的回放，并且当该回放达到筛选过程已经识别的要被消除的视频的部分时，那些部分将在视频上显示红色调。在一些实施例中，可以使用其他合适类型的指示符来指示已经被标记为消除的视频的部分。在执行筛选过程之后，生成的视频可以是未被筛选的原始视频的部分的拼接版本。在一些实施例中，视频的拼接可以基于视频和音频的分析，以混合视频并防止不自然的视频的跳过或音频的卡顿。在一些实施例中，筛选的视频看起来基本是无缝的。例如，拼接处理可以分析记录中的背景图像以及人的位置，以尽可能接近地匹配帧，这将提供基本无缝的过渡。

图9示出了视频筛选用户界面的替代实施例。在一些实施例中，如UI11至UI13所示，用户界面允许用户自定义要应用到视频的不同的筛选项。

在一些实施例中，视频筛选用户界面可以由创建提示(例如，面试问题)的创建者使用。在描绘的示例中，UI11包括用于添加新提示的UI元素902。可以选定(例如，使用鼠标或使用手指)UI元素902，以使UI12显示。UI12允许用户指定要被自动地应用到该回答的提示、回答的持续时间(例如，记录的视频中的持续时间)以及自定义筛选项。一旦用户选择UI元素904，就显示UI13。UI13提供用于自定义可以被应用到视频的筛选项的清单的多个可供项(affordance)(例如，勾选框)。可以通过选定一个或多个UI元素906来选定一个或多个筛选项。在一些实施例中，自定义的筛选项的清单必须通过选定UI元素908来保存。

视频筛选界面可以利用音频或视频的时间同步转录。在一些实施例中，可以基于在视频中检测到的发言来生成转录。例如，视频可以包括记录的用户向麦克风的发言，并且可以基于该记录的用户的发言来生成转录。在一些实施例中，转录与视频时间同步。例如，转录中的各个单词可以与包括视频中记录的用户开始发言该单词的时间以及视频中记录的用户结束发言该单词的时间的时间段相关联。在一些实施例中，置信度数据与各个单词相关联。置信度数据可以指示单词被准确地转录的置信度。在一些实施例中，置信度数据与各个相关联的时间段相关联。置信度数据可以指示关联准确地链接时间段和视频部分的置信度。然而，可以想到的是，可以使用将转录与视频时间同步的其他方法。例如，各个单词的开始和结束可以与视频中特定的帧或时间戳相关联。在一些实施例中，时间同步转录还可以将记录的视频中的停顿与相应的时间段相关联。在一些实施例中，每次停顿具有相关联的时间段。在一些实施例中，只有比某一阈值长的停顿才具有相关联的时间段。在一些实施例中，标点符号具有相关联的时间段。在一些实施例中，笑声具有相关联的时间段。在一些实施例中，时间同步转录可以包括转录的音素，而不是转录的单词。根据那些实施例，音素也可以以与转录的单词类似的方式被时间同步。在一些实施例中，可以生成来自不同提供商的多个转录版本。在一些实施例中，可以对一种或多种转录生成算法进行API调用。在一些实施例中，用户可以选定他们希望使用的转录版本。在一些实施例中，使用的转录版本被自动选定。在一些实施例中，时间同步的转录与视频文件分开存储。例如，时间同步的转录可以被存储为JSON文件。

筛选项可以包括不合意的以及应该从视频中筛选掉的单词或短语的清单。例如，对应于UI元素906a的“不必要的单词(UNNECESSARY WORDS)”筛选项可以包括一个或多个包括“像(like)”和“呃(uh)”的预定义的单词。当与UI元素906a相对应的筛选项被激活时，提交的视频可以被编辑，使得视频中记录的用户说到“像”或“呃”的部分将从提交的视频中消除。例如，视频筛选过程可以通过将转录中的单词与任何选定的筛选项进行比较来分析生成的转录。如果视频筛选过程在转录中识别到了与选定的筛选项中的一个或多个单词匹配的一个或多个单词，则可以触发筛选项，并且视频筛选过程可以编辑视频，使得相应的时间段被消除。可以消除相应的时间段，使得剩余的时间段可以被拼接到一起，以创建连续的编辑的视频。编辑的结果可以符合图7中描述的实施例，其中作为结果的编辑的视频防止了不自然的视频的跳过或音频的卡顿。在一些实施例中，作为结果的编辑的视频可以显示到下一片段的简单剪辑。在一些实施例中，作为结果的编辑的视频可以在片段之间利用动画(例如，淡化或运动混合)。在一些实施例中，筛选项可以包括合意的单词或短语的清单。如果视频筛选过程触发正面单词的筛选项，则相应的时间段可以不被消除。在一些实施例中，可以显示视觉指示器，以提供正面加强。在一些实施例中，筛选项包括20个至100个单词，但是要注意的是，可以使用任意数量的单词或单词的组合。

在一些实施例中，筛选项可以包括编程逻辑。在一些实施例中，筛选项可以包括关联数据。关联数据可以存储筛选项与一个或多个用户客户端的关联。在一些实施例中，筛选项可以包括类型数据。类型数据可以存储关于要被筛选掉的发言的类型的信息。例如，类型数据可以是标志(例如，特定的单词或短语)、犹豫(例如，发言中的停顿)、复读(例如，立即重复的单词或短语)或过度使用(例如，经常重复的单词或短语)。在一些实施例中，当应用筛选项时，可以在视频回放期间显示图标。该图标可以与特定的筛选项或筛选项的组相关联，并且可以视觉地指示哪个筛选项或筛选项的组被应用到了该视频。在一些实施例中，筛选项可以包括惩罚数据。惩罚数据可以确定当根据筛选项编辑视频的一个或多个部分时，分析分数应该如何改变。例如，惩罚数据可以为由视频触发筛选项的各个实例分配可以从分析分数中扣除的数值。在一些实施例中，如果筛选项包括正面单词或短语，则惩罚数据可以分配可以从分析分数中扣除的负数。在一些实施例中，筛选项可以包括排序顺序数据。当一个或多个单词触发多个筛选项时，排序顺序数据可以确定应该视觉地指示哪个筛选项。在一些实施例中，筛选项可以包括字符串数据。当触发筛选项时，字符串数据可以使文本的字符串显示。例如，如果使用单词“父亲(Father)”使得过度使用筛选项被触发，则在回放视频时可以显示文本“经常使用单词‘父亲’”。

在一些实施例中，筛选项可以包括例外。例如，对应于UI元素906a的筛选项可以具有基于编程逻辑的规则，以在当“像(like)”使用在短语“我喜欢(Ilike)”中时不筛选掉“喜欢(like)”。例如，如果记录的用户说“我喜欢去滑雪(Iliketoski)”，则视频筛选过程可以识别单词“喜欢(like)”被立即用在单词“我(I)”之后和单词“去(to)”之前。然后，视频筛选过程可以确定遇到了例外，并放弃消除与单词“喜欢”对应的时间段。

在一些实施例中，筛选项可以包括创建动态筛选项的编程逻辑。例如，动态筛选项可以识别提交的视频中过度使用的单词。根据该实施例，视频筛选过程可以基于创建的转录来对提交的视频中使用的各个单词的频率计数。在一些实施例中，动态筛选项可以识别以高于特定阈值的频率而使用的单词。在一些实施例中，动态筛选项可以识别以高于由使用的单词的总数或提交的视频的长度确定的相对阈值的频率而使用的单词。在一些实施例中，动态筛选项不标志像“的(of)”或“这(the)”的常见单词。

在另一个示例中，与UI元素906b相关联的“重读单词(DUPLICATE WORDS)”筛选项也可以是动态筛选项。根据该实施例，动态筛选项可以识别彼此邻近地立即重复的一个或多个单词或单词的组合。例如，记录的用户可以说“我认为……我认为我的优点涉及沟通。(Ithink…I think my strengths involve communication)”。在该实施例中的动态筛选项可以识别单词的组合“我认为(Ithink)”的重复，并且消除与重复的组合之一相关联的时间段。

在一些实施例中，视频筛选用户界面可以为用户提供可供项，以编辑筛选项中的单词的清单。在一些实施例中，视频筛选用户界面可以为用户提供可供项，以使用一个或多个单词的自定义清单来创建他们自己的筛选项。例如，如果记录的用户知道创建者的名字，则创建者可以创建包含创建者的名字的新筛选项。根据该实施例，记录的用户可以在记录的视频期间说“Jane，谢谢您的时间(Thank you for your time,Jane)”。然后，视频筛选过程可以将“Jane”识别为与新筛选项中的创建者的名字匹配，并消除相关联的时间段。然后，作为结果的视频和音频可以回放为“谢谢您的时间”，并消除了“Jane”。

在一些实施例中，用户可以以不同的语言来创建他们自己的单词或单词的组合的自定义的筛选项。根据该实施例，可以使用针对特定语言的适当的语音转文本方法来生成时间同步的转录。在一些实施例中，将分析提交的视频，以检测使用的语言，并且将选定适当的语音转文本方法。然后，自定义的筛选项可以将自定义筛选项中的单词与时间同步的转录文本进行比较。在一些实施例中，然后，视频筛选界面可以回放具有与被消除的筛选的单词相对应的时间段的视频。这具有允许视频筛选用户界面与其他语言兼容的优点。

在一些实施例中，可以为各个单独的记录的视频来自定义筛选项的清单。例如，记录的用户可以在系列的提示中为各个提交的视频选定不同的筛选项的组。在一些实施例中，选定的筛选项的组可以应用到整个系列的提示。例如，创建者可以具有该创建者希望要把它应用到该系列的提示的每个记录的用户的每个提交的视频的优选的筛选项的组。在一些实施例中，可以默认将优选的筛选项的组应用到各个提交的视频。在一些实施例中，用户可以为各个单独的视频编辑默认的筛选项的组。

筛选项的示例包括但不限于：要避免的单词、陈词滥调、商业陈词滥调、有争议的单词、谩骂、私人单词、犹豫或拖延、工作有关的单词、复读单词、过度使用的单词、要说的正面事物、不必要的多余单词、技术术语、军事术语、过分技术的单词、过分学术的单词。

图8示出了根据本公开的一些实施例的示例性面试分析过程。在面试分析过程的步骤801，可以记录和存储音频和视频。在步骤802，可以处理记录的视频成分。在步骤806，可以针对头部位置、眨眼特性(例如，模式、速度等)、笑容特性(例如，大小、小的笑容、歪嘴的笑容等)和友善度来分析记录的视频成分。在一些实施例中，分析可以基于用户的面部表情、身体语言或手势。例如，可以经多个帧来分析面部特征和动态，以识别情感响应和微表情。在一些实施例中，该分析可以被用于识别真诚、同情或其他个性特质的量。在一些实施例中，可以对作为移动的平均的预定数量的帧或者对作为整体的整个视频执行该分析。

在步骤803，可以处理记录的音频成分。在步骤804，可以将发言过的发言转录为文本。在一些实施例中，文本的转录可以支持多种语言。例如，用户可以选定系统将以该语言来提供面试的不同语言。在一些实施例中，文本的转录可以在同一记录内支持多种语言。例如，如果用户正在对要求多种语言的使用的职位进行练习面试，则系统可以转录并分析用户使用多种语言的能力。在步骤805，可以分析音频，以识别发言人的心情。在一些实施例中，可以对作为移动的平均的预定数量的帧或者对作为整体的整个视频执行该分析。在步骤807，可以分析音频，以识别发言人的情绪。在一些实施例中，可以分析音频，以识别用户对特定的人或话题的情绪。例如，对用户的情绪的分析可以提供有关用户如何呈现他/她自己以及如何改善用户呈现的见解。在步骤808，可以分析音频，以识别要避免的缺陷。例如，模式匹配引擎可以被用于识别要避免的单词，诸如陈词滥调、重读单词、有争议的话题、谩骂单词、家庭导向的短语、奇怪或尴尬的单词或短语、工作有关的话题、模棱两可的话、术语或俚语。在一些实施例中，步骤808可以分析音频的有利项，诸如正面短语或相关流行词。在步骤809，可以分析音频，以确定用户的说话速度(例如，每分钟的单词)和响应的等级水平(例如，短语、语法、句子结构、词汇等的复杂程度)。在一些实施例中，可以分析音频的音调、语气、质量和节奏。节奏分析可以进一步分析常见的言语习惯，诸如说话上扬(例如，以上扬的语气来结束暗示问题的句子)、颤音(例如，以轻微的低吼语气来结束句子)、“YouTube式发言”(例如，模仿成功的YouTube用户的说话方式)以及带有口音的发言的单词。

图10示出了根据一些实施例的用于直接请求来自现场指导的反馈的示例性用户界面。在UI14中，用户可以选定UI元素1002(“Get Coach Feedback”)，以请求来自现场指导对记录的视频的反馈。响应于用户选择，设备显示消息用户界面U15。U15允许用户发起与现场指导的消息会话，并将记录的视频发送给现场指导。在一些实施例中，现场指导是将观看记录的视频并向用户提供反馈的人。在一些实施例中，该现场指导特征是用户必须付费才能利用的高级特征。在一些实施例中，该现场指导特征可以是用户已经订阅的服务的订阅的部分。在UI15中，用户可以在聊天框1004中键入一条或多条消息。在编写一条或多条消息之后，用户可以选定软件按钮1008，以发送记录的视频以及一条或多条消息。除了在现场指导的设备上显示记录的视频外，还可以向现场指导显示该一条或多条消息(例如，经由在现场指导的设备上安装的应用程序的不同实例)。

在一些实施例中，现场指导可以在消息会话中将一条或多条消息发回给用户，并且该对话可以显示在UI16中。在一些实施例中，用户可以通过选定UI元素1006来直接从UI16查看记录的视频。

图11至图18示出了根据编辑系统的一些实施例的用于查看和编辑媒体内容(例如，视频或音频)的示例性用户界面。在一些实施例中，用户界面可以是安装在设备(例如，移动电话)上的软件应用程序的部分。在一些实施例中，媒体内容可以在该设备上生成(例如，通过移动电话的摄像机和麦克风)或者可以在不同的设备上生成并被发送到该设备用于查看和进一步处理。在描绘的示例中，媒体内容可以是用户执行模拟面试的记录，并且该记录可以被发送到远程设备(例如，经由图10中的消息会话发送给现场指导)。在一些实施例中，媒体内容可以是在同一设备上生成和编辑的自我推销的视频。

在一些实施例中，远程设备接收(例如，从用户的设备)记录的视频，并且基于该记录的视频来执行语音识别，以获得转录。远程设备进一步存储记录的视频的部分与转录的部分之间的一个或多个映射。在一些实施例中，语音识别由用户的设备执行，以生成相应的时间同步的转录。当用户与指导共享(例如，经由UI14至UI16)记录的视频时，用户将该记录的视频和该相应的时间同步的转录一起共享。在一些实施例中，远程服务器接收记录的视频并执行语音识别并生成时间同步的转录。远程服务器可以将记录的视频和时间同步的转录之一或两者发给用户的设备或远程设备或两者。

UI17至UI19中的每个包括视频区域1102和转录区域1104。视频区域1102可以提供视频内容的回放。在一些实施例中，用户可以与视频区域1102交互，以播放、暂停、快进、倒退或关闭视频。转录区域1104可以显示记录的视频的转录。在一些实施例中，视频区域1102被显示在转录区域1104上方，尽管也可以使用任何合适的布置。在一些实施例中，转录是根据上述实施例的时间同步的转录。在一些实施例中，视频区域和转录区域的显示被自动地同步。例如，在回放视频时，转录区域提供与正在回放的发言相对应的时间同步的转录的部分。在一些实施例中，UI17至UI19包括提供用于切换菜单(例如，反馈(Feedback)菜单、查看(Review)菜单、编辑菜单)的可供项的菜单区域1110。

查看菜单提供用于注释视频的多个选项。用户可以在转录中选定一个或多个单词。在一些实施例中，在转录中选定一个或多个单词可以使菜单区域1106呈现一个或多个可选定的UI元素(例如，拇指朝上按钮1108)。在一些实施例中，转录中选定的一个或多个单词可以是视觉上可区分的(例如，如UI18中所示被着色框包围)。然后，用户可以选定一个或多个UI元素，以将注释应用到视频。然后，可以在转录区域1104中视觉地显示注释。在一些实施例中，选定的一个或多个单词可以是视觉上可区分的(例如，如UI19所示，由对应于拇指朝上按钮的图标标在前面，并以不同的颜色展示)。在一些实施例中，转录是时间同步的转录。在一些实施例中，可以在视频区域1102中视觉地显示注释。例如，在相应的时间段的回放期间，键入到转录上的注释可以覆盖在视频区域1102的视频上。在一些实施例中，注释的视觉显示包括可由用户选定的反馈图标。

图12描绘了根据一些实施例的用于在转录的部分上提供注释的示例性用户界面。注释用户界面可以允许用户选定(例如，使用鼠标或使用手指)转录的部分。在一些实施例中，选定的部分是视觉上可区分的(例如，如UI20所示)。注释用户界面可以提供用于切换到文本键入用户界面的可供项(例如，在UI20中选定UI元素1203，按压并保持选定的部分)。UI21显示包括输入区域1202和转录区域1204的示例性注释用户界面。输入区域1202可以提供用于键入评论的可供项。输入区域1202可以提供用于文本输入(例如，如UI21中显示的键盘和文本框)、视觉输入(例如，用于绘图的区域)、音频/视频输入(例如，使记录开始或结束的一个或多个UI元素)或其他输入的可供项。在一些实施例中，转录区域1204仅展示包含由用户选定的文本的完整转录的部分。

注释用户界面可以提供用于为注释分配属性的可供项。UI22显示可以与评论相关联的多个预定义的属性。预定义的属性包括：私人(Personal)、拇指朝上(Thumbs Up)、拇指朝下(Thumbs Down)、陷阱(Trap)和避免(Avoid)。各个属性可以具有相关联的属性图标。UI22展示了用于选定要相对于评论或注释出现的属性图标的示例性用户界面。UI23示出了键入的注释的示例性用户界面。注释用户界面可以显示注释以及在转录区域1104中显示的选定的属性图标。在一些实施例中，用于评论的一个或多个选定的单词可以与转录的其余部分视觉地区分开来。在描绘的示例中，选定的单词具有与转录的其余部分不同的颜色，并且由选定的属性图标标在前面。在一些实施例中，也展示注释1105，并且注释1105与转录的其余部分视觉地区分开来。在描绘的示例中，注释1105处于与转录的其余部分不同的颜色文本框中。当用户选择区域1104中的图标时，就可以显示注释1105。在一些实施例中，注释还具有与选定的属性图标匹配的选定的图标。

在一些实施例中，当用户键入反馈时，视频区域1102中的记录的视频暂停。在一些实施例中，反馈系统可以允许用户在记录的视频正在播放时键入反馈。根据那些实施例，当视频区域1102中的记录的视频播放时，用户可以选定反馈按钮1108。反馈系统可以存储用户的反馈，使得记录的视频可以被回放，且在现场指导键入反馈的时间戳处，用户的反馈被视觉地显示在屏幕上。例如，如果用户在记录的视频中的两分钟处选定拇指朝上的反馈图标1108，则反馈系统可以存储该信息，使得记录的视频将在两分钟处显示拇指朝上的图标。在一些实施例中，反馈也可以反映在时间同步的转录中。

图13至图18示出了根据一些实施例的用于基于文本的视频编辑器的用户界面。基于文本的视频编辑器可以允许用户通过编辑视频的时间同步的转录来编辑该视频。根据一些实施例，用户可以删除或重新布置时间同步的转录中的文本的部分。根据一些实施例，然后，基于文本的视频编辑器可以相应地编辑视频，使得输出视频是反映编辑的时间同步的转录的编辑的版本。

在一些实施例中，基于文本的视频编辑器的用户界面可以包括视频区域1302、转录区域1304和编辑区域1306，如图13的UI24所示。在一些实施例中，视频区域1302显示在用户界面的顶部，编辑区域1306显示在视频区域1302下方，并且转录区域1304显示在编辑区域1306下方。然而，应当理解的是，可以使用其他布置。

在一些实施例中，视频区域1302显示记录的视频。在一些实施例中，用户可以与视频区域1302交互，以播放、暂停、快进、倒退或关闭记录的视频。在一些实施例中，转录区域1304将显示记录的视频的时间同步的转录。如根据图9的实施例所述，时间同步的转录可以将转录的单词和停顿与记录的视频中的相应的时间段相关联。

在一些实施例中，用户可以选定(例如，使用鼠标或使用手指)要消除的时间同步的转录的部分。例如，UI25示出了用户已经选定了表示停顿的省略号。该选择可以被视觉地区分。然后，用户可以选定可以从时间同步的转录中消除该省略号的编辑元素1308。在一些实施例中，消除的部分将视觉地显示在转录区域1304中。例如，在UI26中，消除的部分以不同的颜色被标记并被划掉。然而，可以使用其他视觉地区分消除的部分的方法。消除的部分也可以简单地不展示在转录区域1304中。图14示出了用户也从时间同步的转录中消除了文本“是的所以(yeahso)”的一个实施例。

在一些实施例中，消除的部分将使基于文本的视频编辑器创建编辑的视频，该编辑的视频中与消除的部分相关联的时间段从记录的视频中消除。例如，图14可以描绘在从记录的视频的开始消除停顿和“是的所以”的情况下，输出视频以“我刚开始(Ijuststarted)”开始的实施例。

图15示出了根据一些实施例的用于校正时间同步的转录的用户界面。在UI27中，用户可以选定已经被不准确地转录的一个或多个单词。然后，用户可以选定编辑元素1502，以校正该转录。在一些实施例中，用户可以通过在校正转录中手动键入来校正该转录。在一些实施例中，基于文本的视频编辑器可以显示一个或多个校正选项，供用户选定。在一些实施例中，转录的校正的部分在转录区域1304中将是视觉上可区分的。在一些实施例中，转录的校正的部分将是与转录的未编辑的部分和转录的消除的部分两者可区分的。

图16示出了根据一些实施例的用于自定义时间同步的转录的片段的用户界面。在UI29中，用户可以选定用户期望创建新转录片段的位置。在一些实施例中，该位置可以是用户希望是新转录片段的开头的单词。然后，用户可以选定编辑元素1602，这使得新转录片段在用户的选定的位置被创建。在一些实施例中，新转录片段与其他转录片段是视觉上可区分的。例如，在UI30中，两个转录由两个单独的文本框指示，尽管也可以使用其他的视觉区别。

在一些实施例中，用户可以通过重新布置转录片段来编辑记录的视频。在一些实施例中，用户可以通过选定、保持并拖动视觉指示符来重新布置转录片段。在一些实施例中，视觉指示符可以是包括堆叠在彼此顶部上的三根横线的握柄，尽管也可以使用其他合适的指示符。在一些实施例中，基于文本的视频编辑器可以输出以与重新布置的转录片段相对应的顺序而播放视频片段的编辑的视频。在一些实施例中，用户可以直接在用户界面内的视频区域1302中回放编辑的视频。

图17示出了根据上述实施例的用于向时间同步的转录添加注释的用户界面。

图18示出了用于向记录的视频添加字幕，使得输出视频将显示字幕的用户界面。在一些实施例中，用户界面将包括视频区域1802、字幕区域1804和菜单区域1806。在一些实施例中，视频区域1802位于用户界面的顶部，并且视频区域可以回放记录的视频。在一些实施例中，字幕区域1804位于用户界面的底部。在一些实施例中，菜单区域1806位于视频区域1802和字幕区域1804之间。菜单区域1806可以允许用户在不同的用户界面之间切换。例如，菜单区域1806可以允许用户在编辑用户界面和字幕用户界面之间切换。

在一些实施例中，字幕区域1804将包括对应于视频回放时间线的视觉时间线。例如，如果记录的视频长2分钟，则视觉时间线最多可以展示2分钟。在一些实施例中，在用户界面中仅展示视觉时间线的部分。在一些实施例中，用户可以滚动字幕区域1804，以展示视觉时间线的不同部分。

在一些实施例中，字幕区域1804将包括一个或多个UI元素1808。UI元素1808可以包括将在记录的视频中显示为字幕的文本。UI元素1808还可以显示字幕应该出现的时间的长度。UI元素1808可以基于时间同步的转录(例如，转录以及转录的部分和时间戳之间的多个映射)自动生成。在一些实施例中，用户可以改变字幕文本和字幕应该出现的时间的长度两者。在一些实施例中，UI元素1808位于与字幕应该出现在其中的视频回放时间线有关的视觉时间线上。例如，如果用户期望在记录的视频中的2秒处放置字幕，则UI元素1808可以位于2秒处的视觉时间线上。

在一些实施例中，UI元素1808也可以相对于时间线被动态地调整大小。例如，如果用户进一步期望字幕出现一秒钟，则UI元素1808可以在视觉时间线上显示为在2秒处开始并且在3秒处结束。在一些实施例中，然后，输出视频上的字幕将在输出视频中的2秒处开始，显示一秒，然后在输出视频中的3秒处消失。

在一些实施例中，用户还可以重新布置视觉时间线上的UI元素1808。在一些实施例中，用户可以选定、保持并拖动UI元素1808到视觉时间线上的不同位置。在一些实施例中，UI元素1808将包括用户可以在此选定、保持并拖动UI元素1808的视觉指示符。例如，视觉指示符可以是UI元素1810或者视觉指示符可以是UI元素1812。

在一些实施例中，字幕区域1804可以包括回放指示符1814。根据一些实施例，当记录的视频在视频区域1802中播放时，回放指示符1814可以相对于视觉时间线移动。在一些实施例中，回放指示符1814在视觉时间线上指示视频回放时间线的当前位置。例如，如果记录的视频在2.2秒处暂停，则回放指示符1814可以位于2秒和3秒之间的视觉时间线上。根据记录的视频正在视频区域1802中播放的实施例，视觉指示符可以相应地在视觉时间线上移动。

在一些实施例中，在记录的视频在视频区域中回放期间，编辑系统直接执行编辑(例如，剪辑帧、重新布置部分、添加字幕)。在一些实施例中，在导出记录的视频，以允许用户看到已经进行了哪些编辑并允许用户反转编辑或添加额外的编辑之前，编辑未最终确定。例如，在用户选定要最终确定视频之前，系统保留原始视频未修改，但是生成并存储与原始视频相关联的编辑的表示。编辑的表示可以包括一个或多个时间戳、编辑的类型、相应的转录部分、相应的视频部分或其任意组合。例如，当用户从转录中消除单词时，系统生成包括指示视频中该单词的发声的开始和结束的时间戳以及编辑的类型(即，消除)的编辑的表示。作为另一示例，当用户反转两个视频片段时，系统生成包括时间戳范围的序列的编辑的表示，且各个时间戳范围表示视频片段(例如，先播放0.5s至.06s，然后播放0s至0.4s)。作为另一示例，当用户编辑字幕(例如，内容或持续时间)时，系统更新包括表示多个字幕的多个文本字符串以及与各个文本字符串相对应的开始和结束时间戳的文本文件。如以上讨论的，可以基于时间同步的转录(例如，转录以及转录的部分和相应的时间戳之间的多个映射)来自动生成文本文件的初始版本。在一些实施例中，系统汇集多个编辑，以生成所有编辑的单个表示。例如，汇集的编辑可以包括时间戳范围的序列，且各个时间戳范围表示视频片段。

这样，系统可以通过回放和/或跳过原始视频的片段以及基于存储的编辑的表示将文本字符串覆盖在视频上来提供编辑的视频的预览，而无需更改原始视频。在用户选定要最终确定视频之后，系统会基于原始视频文件和编辑的表示来生成新的视频文件。

在一些实施例中，编辑系统使用iOS上的核心视频框架来现场回放编辑。在一些实施例中，导出的视频是标准视频文件格式。在一些实施例中，导出的视频不展示消除的部分，并且在一些实施例中，导出的视频是跨平台兼容的。在一些实施例中，可以将导出的视频直接共享到社交媒体平台。

与直接编辑视频相比，该编辑系统具有是更方便的编辑视频的方法的优点。视频的直接编辑可能要求用户反复观看记录的视频，以识别应该进行剪辑的精确时间。根据一些实施例，该编辑系统可以允许用户简单地从头至尾地滚动时间同步的转录并识别应该在哪里进行剪辑。该编辑系统进一步具有不要求展示视频帧的色带的复杂UI的优点。期望的是，在传输过程中使用既可以记录视频然后又可以在不将记录的视频导出至更强大的计算机的情况下编辑视频的移动设备来启用视频编辑。该编辑系统通过采用简单的UI来启用这一点，该UI仍然可以以更容易、更易于访问的方式实现与直接视频编辑器相同的结果。

在一些实施例中，可以通过人工智能、机器学习、神经网络或其他合适的手段来执行任意或所有上述分析步骤(例如，804、805、806、807、808或809)。尽管图8将这些步骤示为按序列的步骤，但是这意在说明一个实施例而不是限制。在不脱离本公开的范围的情况下，这些步骤中的任意步骤或所有步骤可以并行地执行或者可以以与所示顺序不同的顺序执行。在一些实施例中，可以一起分析(即，不分开处理或者在分开的步骤中)音频成分和视频成分。

在一些实施例中，可以在电子设备或其他合适的计算系统上实施上述实施例。该系统可以包括但不限于诸如中央处理单元(CPU)、存储装置、存储器、网络适配器、电源、输入输出(I/O)控制器、电气总线、一个或多个显示器、一个或多个用户输入设备以及其他外部设备的已知组件。本领域技术人员将理解的是，系统可以包含可以例如经由扩展槽或通过本领域技术人员已知的任何其他方法添加的其他公知的组件。这种组件可以包括但不限于硬件冗余组件(例如，双电源或数据备份单元)、冷却组件(例如，风扇或水基冷却系统)、额外的存储器以及处理硬件等。

该系统可以是例如，以能够跨网络连接至多个工作站或类似计算机系统以及/或者能够促进多个工作站或类似计算机系统的操作的客户端服务器计算机的形式。在另一实施例中，该系统可以通过内联网或互联网网络连接到一个或多个工作站，并且因此促进与大量的工作站或类似计算机系统的通信。更进一步地，该系统可以包括例如主要工作站或主要通用计算机，以允许用户直接与中央服务器交互。替代地，用户可以经由一个或多个远程工作站或本地工作站来与系统交互。如本领域普通技术人员将理解的，可以有用于与系统通信的任何实际数量的远程工作站。

系统上的CPU可以包括一个或多个处理器，例如

Core^TMi7处理器、AMD FX^TM系列处理器、基于ARM的处理器(例如，

Ax家庭处理器、

Exynos^TM系列处理器或其他基于ARM的处理器)或本领域技术人员将理解的其他处理器(例如，包括用于其他事物、诸如训练和/或运行本公开的机器学习算法的机器学习应用程序中的图形处理单元(GPU)式的专用计算硬件)。CPU可以进一步与诸如Linux操作系统、类Unix操作系统或微软公司的Windows

操作系统的操作系统通信。然而，本领域普通技术人员将理解的是，也可以利用类似的操作系统。存储装置(例如，非瞬时性计算机可读介质)可以包括如本领域普通技术人员已知的一种或多种类型的存储装置，诸如硬盘驱动器(HDD)、固态驱动器(SSD)、混合驱动器等。在一示例中，利用存储装置来持久地保留用于长期存储的数据。存储器(例如，非瞬时性计算机可读介质)可以包括如本领域普通技术人员已知的一种或多种类型的存储器，诸如随机存取存储器(RAM)、只读存储器(ROM)、硬盘或磁带、光学存储器或可移动硬盘驱动器。存储器可以被利用于短期存储器访问，诸如例如加载软件应用程序或应付临时系统处理。

如本领域普通技术人员将理解的，存储装置和/或存储器可以存储一个或多个计算机软件程序。这种计算机软件程序可以包括逻辑、代码和/或其他指令，以启用处理器执行本文所述的任务、操作和其他功能(例如，本文所述的分析、视频回放、视频编辑等功能)以及本领域普通技术人员将理解的额外的任务和功能。如本领域所公知的，操作系统可以进一步与固件协作来起作用，以启用处理器协调和施行本文所述的各种功能和计算机软件程序。这种固件可以驻留在存储装置和/或存储器内。

此外，如本领域普通技术人员所知的，I/O控制器可以包括一个或多个用于接收、发送、处理和/或解释来自外部源的信息的设备。在一个实施例中，I/O控制器可以包括促进到诸如一个或多个键盘、鼠标、麦克风、触控板、触摸板等的一个或多个用户设备的连接的功能。例如，I/O控制器可以包括用于连接到任何适当的用户设备的串行总线控制器、通用串行总线(USB)控制器、火线(FireWire)控制器等。I/O控制器还可以允许经由诸如例如近场通信(NFC)或蓝牙^TM的技术来与一个或多个无线设备通信。在一个实施例中，I/O控制器可以包括用于连接到诸如调制解调器卡、网络接口卡、声卡、打印设备、外部显示设备等的其他外部设备的电路或其他功能。此外，I/O控制器可以包括本领域普通技术人员已知的用于各种显示设备的控制器。这种显示设备可以以像素的形式视觉地向用户传达信息，并且这种像素可以被逻辑地布置在显示设备上，以允许用户感知在显示设备上渲染的信息。如本领域普通技术人员将理解的，这种显示设备可以是以触摸屏设备的形式、以传统的非触摸屏显示设备的形式或者以任何其他显示设备的形式。

此外，为了在例如一个或多个显示设备上渲染图形用户界面(GUI)(例如，参考图1至图8描述的GUI)，CPU可以进一步与I/O控制器通信。在一示例中，CPU可以访问存储装置和/或存储器，以施行一个或多个软件程序和/或组件，以允许用户与本文所述的系统交互。在一个实施例中，如本文所述的GUI包括用户可以与其交互并用其执行各种功能的一个或多个图标或其他图形元素。例如，GUI可以显示在触摸屏显示设备上，借此用户通过例如使用用户的手指物理地接触屏幕来经由触摸屏与GUI交互。作为另一示例，GUI可以显示在传统的非触摸显示器上，借此用户经由键盘、鼠标和其他常规的I/O组件与GUI交互。如本领域的普通技术人员将理解的，GUI可以至少部分地作为软件指令集而驻留在存储装置和/或存储器中。此外，如本领域的普通技术人员可以理解的，GUI不限于如上所述的交互的方法，还可以是用于与GUI交互的诸如基于语音的任何各种手段或与计算系统交互的其他基于残疾的方法。

此外，网络适配器可以允许设备与网络通信。网络适配器可以是诸如网络适配器、网络接口卡、LAN适配器等的网络接口控制器。如本领域的普通技术人员将理解的，网络适配器可以允许与诸如例如局域网(LAN)、城域网(MAN)、广域网(WAN)、云网络(IAN)或互联网的一个或多个网络通信。

一个或多个工作站可以包括例如，诸如CPU、存储装置、存储器、网络适配器、电源、I/O控制器、电气总线、一个或多个显示器、一个或多个用户输入设备以及其他外部设备的已知的组件。这种组件可以与关于以上系统描述的那些组件相同、相似或相当。本领域技术人员将理解的是，一个或多个工作站可以包含其他公知的组件，包括但不限于硬件冗余组件、冷却组件、额外的存储器/处理硬件等。

示例性方法、非瞬时性计算机可读存储介质、系统和电子设备在以下各项中列出：

1.一种方法，包括：

在与显示器以及一个或多个输入设备通信的电子设备处：

经由该一个或多个输入设备，接收与用户对多个提示的响应相对应的媒体数据；

分析媒体数据；以及

当在显示器上显示该媒体数据的媒体表示时，显示覆盖在媒体表示上的多个分析表示，其中，该多个分析表示中的每个分析表示与位于媒体表示中的给定时间处的内容的分析相关联，并与媒体表示中的给定时间协调显示。

2.如项1的方法，其中，媒体数据在电子设备上生成。

3.如项1或2的方法，其中，媒体数据在远程设备上生成。

4.如项1至3中任一项的方法，其中，分析表示包括关于发言的分析。

5.如项1至4中任一项的方法，其中，分析表示包括关于语气的分析。

6.如项1至5中任一项的方法，其中，分析表示包括关于面部表情的分析。

7.如项1至6中任一项的方法，其中，分析表示包括关于身体语言的分析。

8.如项1至7中任一项的方法，该方法进一步包括将分析表示与媒体表示合并。

9.如项1至8中任一项的方法，其中，分析表示由用户创建。

10.如项9的方法，其中，分析表示由与第一用户不同的第二用户创建。

11.一种方法，包括：

在与显示器以及一个或多个输入设备通信的电子设备处：

分析与用户对该多个提示的响应相对应的媒体数据；以及

在电子设备处生成筛选的媒体数据的媒体表示，其中，生成筛选的媒体数据的媒体表示包括：从媒体数据的媒体表示中消除与用户对该多个提示的响应中的选定的响应相对应的媒体数据的媒体表示的一个或多个部分。

12.一种方法，包括：

同时地显示第一区域和第二区域，

其中，第一区域包括媒体内容的回放，

其中，第二区域包括与媒体内容的部分相对应的转录；

接收转录的部分的第一用户选择；

接收与转录的部分相关联的操作的第二用户选择；

基于选定的转录的部分来识别与选定的转录的部分相对应的媒体内容的片段；以及

基于选定的操作以及识别的媒体内容的片段来修改媒体内容。

出于说明的目的，已经参考特定的实施例描述了前述说明书。然而，以上说明性的讨论并非旨在穷举或将本发明限制为所公开的精确形式。鉴于以上指导，许多修改例和变型例是可能的。选择和描述实施例是为了最好地解释本发明的原理及其实际应用，从而使得本领域的其他技术人员能够最佳地使用本发明以及具有各种修改例的各种所述实施例，以合适于想要的特定用途。

Claims

1.一种方法，包括：

在与显示器以及一个或多个输入设备通信的电子设备处：

经由所述一个或多个输入设备，接收与用户对多个提示的响应相对应的媒体数据；

分析媒体数据；以及

当在显示器上显示媒体数据的媒体表示时，显示覆盖在媒体表示上的多个分析表示，其中，所述多个分析表示中的每个分析表示与位于媒体表示中的给定时间处的内容的分析相关联，并与媒体表示中的给定时间协调显示。

2.如权利要求1所述的方法，其中，媒体数据在电子设备上生成。

3.如权利要求1或2所述的方法，其中，媒体数据在远程设备上生成。

4.如权利要求1至3中任一权利要求所述的方法，其中，分析表示包括关于发言的分析。

5.如权利要求1至4中任一权利要求所述的方法，其中，分析表示包括关于语气的分析。

6.如权利要求1至5中任一权利要求所述的方法，其中，分析表示包括关于面部表情的分析。

7.如权利要求1至6中任一权利要求所述的方法，其中，分析表示包括关于身体语言的分析。

8.如权利要求1至7中任一权利要求所述的方法，所述方法进一步包括将分析表示与媒体表示合并。

9.如权利要求1至8中任一权利要求所述的方法，其中，分析表示由用户创建。

10.如权利要求9所述的方法，其中，分析表示由与第一用户不同的第二用户创建。

11.一种方法，包括：

在与显示器以及一个或多个输入设备通信的电子设备处：

分析与用户对所述多个提示的响应相对应的媒体数据；以及

在电子设备处生成筛选的媒体数据的媒体表示，其中，生成筛选的媒体数据的媒体表示包括：从媒体数据的媒体表示中消除与用户对所述多个提示的响应中的选定的响应相对应的媒体数据的媒体表示的一个或多个部分。

12.一种方法，包括：

同时地显示第一区域和第二区域，

其中，第一区域包括媒体内容的回放，

其中，第二区域包括与媒体内容的部分相对应的转录；

接收转录的部分的第一用户选择；

接收与转录的部分相关联的操作的第二用户选择；