CN112673641B

CN112673641B - 对视频或语音消息的内联响应

Info

Publication number: CN112673641B
Application number: CN201980018715.0A
Authority: CN
Inventors: 马修·沙利菲
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-09-13
Filing date: 2019-05-30
Publication date: 2024-03-01
Anticipated expiration: 2039-05-30
Also published as: CN112673641A; WO2020055465A1; US11038824B2; US20200092237A1; US20210295823A1; US11425072B2

Abstract

方法包括，接收由与发送方相关联的发送方设备记录的发送方媒体。方法进一步包括，由接收方设备为接收方播放发送方媒体。方法进一步包括，检测到接收方正在说话。方法进一步包括，基于检测到接收方正在说话，记录接收方媒体。方法进一步包括，确定发送方媒体中的接收方媒体将被包括的位置。方法进一步包括，生成组合媒体，该组合媒体包括发送方媒体的至少一部分和在该位置处的接收方媒体。

Description

对视频或语音消息的内联响应

相关申请的交叉引用

本申请要求于2018年9月13日提交的标题为“对视频或语音消息的内联响应”的美国专利申请第16/130,650号的优先权，该美国专利申请的内容通过引用被完全结合在本文中。

背景技术

本说明书涉及一种媒体应用，该媒体应用生成包括发送方媒体和接收方媒体的组合媒体。

随着移动电话和其他便携式通信设备变得越来越流行，发送方可以为接收方留下视频消息或音频消息。存在接收方响应消息内的问题的技术。例如，存在允许接收方手动点击他们想要添加响应的消息的一部分的技术。然而，用于添加响应的手动技术足够费力，以至于接收方可能决定放弃使用该技术。另外，对已经很长的消息添加响应可能会使得它足够长，以至于发送方不希望收听该消息。

本文中提供的背景技术描述是出于总体上呈现本公开的情境的目的。该背景技术部分中描述的目前署名的发明人的工作，以及在提交时可能没有另外限定为现有技术的描述的方面，对于本公开而言既不应清楚地也不应隐含地被认定为现有技术。

发明内容

实施例总体上涉及一种方法，所述方法包括，接收由与发送方相关联的发送方设备记录的发送方媒体。所述方法进一步包括，由接收方设备为接收方播放发送方媒体。所述方法进一步包括，由麦克风检测到所述接收方正在说话。所述方法进一步包括，基于检测到所述接收方正在说话，记录接收方媒体。所述方法进一步包括，确定所述发送方媒体中的所述接收方媒体将被包括的位置。所述方法进一步包括，生成组合媒体，所述组合媒体包括所述发送方媒体的至少一部分和在所述位置处的所述接收方媒体。

在一些实施例中，所述方法进一步包括，确定所述发送方媒体相对于所述接收方媒体的情境，所述情境包括在所述发送方媒体中的所述接收方媒体将被包括的所述位置处由所述发送方询问的问题、以及包括所述问题和所述问题之前或之后的至少一个句子的所述发送方媒体的子集，以及基于所述情境，对所述发送方媒体进行概括，其中，基于所述情境，所述发送方媒体的所述至少一部分被概括。在一些实施例中，通过检测所述发送方媒体中的暂停或语义中断来确定作为所述发送方媒体的所述情境的一部分的所述问题。在一些实施例中，被训练为检测所述暂停或所述语义中断的机器学习模型通过检测所述发送方媒体中的所述暂停或所述语义中断来确定所述情境。在一些实施例中，基于所述情境，所述发送方媒体被概括为文本转录。在一些实施例中，被训练为分析与所述发送方媒体相关联的音频以检测所述音频中的问题的机器学习模型确定所述发送方媒体的所述情境。在一些实施例中，通过在所述发送方媒体中的所述接收方媒体将被包括的所述位置之后添加暂停来修改所述发送方媒体，并且所述发送方媒体的所述至少一部分在所述暂停之后开始。在一些实施例中，检测到所述接收方正在说话包括，使用所述接收方设备的麦克风来检测语音信号的起点。在一些实施例中，所述方法进一步包括，生成可操作为回放所述组合媒体的用户界面，所述用户界面包括搜索栏和标识符，所述搜索栏促进选择所述组合媒体内的不同回放位置，所述标识符识别所述接收方媒体在所述组合媒体中的所述位置。在一些实施例中，所述发送方媒体是视频文件或音频文件。

在一些实施例中，一种系统包括一个或多个处理器以及其上存储有指令的存储器，当所述指令由所述一个或多个处理器执行时，所述指令使得所述一个或多个处理器进行操作，所述操作包括，接收包括第一音频的发送方视频，所述第一音频由与发送方相关联的发送方设备记录，为一组接收方播放所述发送方视频，基于来自麦克风的一个或多个通知，检测所述一组接收方中的每个接收方何时说话，基于所述一组接收方响应于所述发送方视频而说话，记录接收方媒体，以及生成组合媒体，所述组合媒体包括(1)所述发送方视频的至少一部分和(2)所述接收方媒体。

在一些实施例中，其中，所述存储器具有其上存储的进一步指令，所述进一步指令使得所述一个或多个处理器进行操作，所述操作包括，确定与所述组合视频中的来自所述一组接收方中的至少一个接收方说话的部分相关联的主题，以及基于所述组合媒体来生成包括搜索栏的用户界面，所述搜索栏示出(1)所述组合媒体内的所述一组接收方响应所述发送方的位置；(2)在所述位置处说话的所述一组接收方中的接收方的数量；以及(3)与所述发送方视频的所述部分相关联的所述主题。在一些实施例中，其中，所述存储器具有其上存储的进一步指令，所述进一步指令使得所述一个或多个处理器进行操作，所述操作包括，确定所述发送方媒体相对于所述接收方媒体的情境，所述情境包括在所述发送方媒体中的所述接收方媒体将被包括的所述位置处由所述发送方询问的问题、以及包括所述问题和所述问题之前或之后的至少一个句子的所述发送方媒体的子集，以及基于所述情境，对所述发送方媒体进行概括，其中，基于所述情境，所述发送方媒体的所述至少一部分被概括。

在一些实施例中，一种非暂时性计算机可读介质包括其上存储的指令，当所述指令由一个或多个计算机执行时，所述指令使得所述一个或多个计算机进行操作，所述操作包括：接收由与发送方相关联的发送方设备记录的发送方媒体，由接收方设备为接收方播放所述发送方媒体，由麦克风检测到所述接收方正在说话，基于检测到所述接收方正在说话，记录接收方媒体，确定所述发送方媒体中的所述接收方媒体将被包括的位置，以及生成组合媒体，所述组合媒体包括所述发送方媒体的至少一部分和在所述位置处的所述接收方媒体。

在一些实施例中，所述操作进一步包括，确定所述发送方媒体相对于所述接收方媒体的情境，所述情境包括在所述发送方媒体中的所述接收方媒体将被包括的所述位置处由所述发送方询问的问题、以及包括所述问题和所述问题之前或之后的至少一个句子的所述发送方媒体的子集，以及基于所述情境，对所述发送方媒体进行概括，其中，基于所述情境，所述发送方媒体的所述至少一部分被概括。在一些实施例中，通过检测所述发送方媒体中的暂停或语义中断来确定作为所述发送方媒体的所述情境的一部分的所述问题。在一些实施例中，被训练为检测所述暂停或所述语义中断的机器学习模型通过检测所述发送方媒体中的所述暂停或所述语义中断来确定所述情境。在一些实施例中，基于所述情境，所述发送方媒体被概括为文本转录。在一些实施例中，被训练为分析与所述发送方媒体相关联的音频以检测所述音频中的问题的机器学习模型确定所述发送方媒体的所述情境。在一些实施例中，通过在所述发送方媒体中的所述接收方媒体将被包括的所述位置之后添加暂停来修改所述发送方媒体，并且所述发送方媒体的所述至少一部分在所述暂停之后开始。

下面描述的各种实施例有利地描述了一种生成组合媒体的方式，该组合媒体包括：(1)发送方媒体的至少一部分和(2)发送方媒体中的接收方媒体旨在被包括的位置处的接收方媒体。结果，组合媒体可以包括来自发送方的问题和来自接收方的回答。在一些实施例中，接收方收听发送方媒体，并且当检测到接收方正在说话时，回放被暂停。在一些实施例中，确定发送方媒体的情境，并且生成发送方媒体的概要，使得组合媒体仅包括确定问题和问题的情境所需的发送方媒体的部分。结果，组合媒体包括发送方媒体和接收方媒体的有效概括部分。

附图说明

在附图的图中以示例的方式而不是限制的方式示出了本公开，在附图中相同的附图标记用于指代相同的元素。

图1示出了根据一些实施例的生成组合媒体的示例系统的框图。

图2示出了根据一些实施例的生成发送方媒体的示例发送方设备的框图。

图3示出了根据一些实施例的生成接收方媒体的示例接收方设备的框图。

图4A和4B示出了根据一些实施例的不同搜索栏的示例。

图5示出了根据一些实施例的生成组合媒体的示例方法的流程图。

图6示出了确定组合媒体的另一示例方法的流程图。

具体实施方式

在一些实施例中，一种方法包括，接收由与发送方相关联的发送方设备记录的发送方媒体。例如，发送方可以在移动设备上记录视频。接收方在接收方设备上播放发送方媒体。方法包括，检测到接收方正在说话。在一些实施例中，响应于检测到接收方正在说话，接收方设备暂停第一媒体的回放。

方法包括，基于检测到接收方正在说话来记录接收方媒体，并且确定发送方媒体中的接收方媒体将被包括的位置。例如，如果发送方媒体包括以下音频：“嗨。你好吗？我刚才正在思考安排下周的晚餐。您哪些晚上有空？我正在考虑Cascal或Tied House。让我知道您是否有任何偏好”，则接收方的响应可以是“我星期二有空”和“我更喜欢Cascal”。方法包括，生成组合媒体，该组合媒体包括第一媒体的至少一部分和在该位置处的接收方媒体。

在一些实施例中，方法包括，创建组合媒体，该组合媒体包括概括的发送方媒体和接收方媒体。方法包括，确定发送方媒体相对于接收方媒体的情境，该情境描述在发送方媒体中的接收方媒体将被包括的位置处由发送方询问的问题。方法还包括，基于情境来对接收方媒体进行概括。情境包括包含问题的句子以及围绕该问题的其他句子。例如，继续上面的示例，基于情境来对发送方媒体进行概括包括，将发送方媒体减少为“您哪些晚上有空？”和“我正在考虑Cascal或Tied House。让我知道您是否有任何偏好”，并且通过将接收方的响应添加到概括的发送方媒体来生成组合媒体。

示例系统

图1示出了生成组合媒体的示例系统100的框图。示出的系统100包括媒体服务器101、发送方设备115、接收方设备117、第二服务器120和网络105。发送方125与发送方设备115相关联，并且接收方127与接收方设备117相关联。在一些实施例中，系统100包括图1中未示出的其它服务器或设备。在图1和其余附图中，在附图标记之后的字母，例如，“103a”，表示对具有该特定附图标记的元素的参考。文本中没有接着的字母的附图标记，例如，“103”，表示对带有该附图标记的元素的实施例的一般参考。虽然图1中仅示出一个媒体服务器101、一个发送方设备115、一个接收方设备117、一个第二服务器120和一个网络105，但是本领域普通技术人员将认识到，在一些实施例中，图1包括一个或多个媒体服务器101、一个或多个发送方设备115、一个或多个接收方设备117、一个或多个第二服务器120以及一个或多个网络105。

媒体服务器101包括处理器、存储器和网络通信能力。在一些实施例中，媒体服务器101是硬件服务器。媒体服务器101经由信号线102被通信地耦合到网络105。在一些实施例中，信号线102是有线连接，诸如以太网、同轴电缆、光纤电缆等，或者无线连接，诸如或其它无线技术。在一些实施例中，媒体服务器101经由网络105向发送方设备115、接收方设备117和第二服务器120中的一个或多个发送数据以及从发送方设备115、接收方设备117和第二服务器120中的一个或多个接收数据。媒体服务器101包括媒体应用103a和数据库199。

媒体应用103a是可操作为在发送方设备115和接收方设备117之间路由媒体的代码和例程。在一些实施例中，媒体应用103a还进行媒体的分析。例如，媒体应用103a从发送方设备115接收发送方媒体(例如，如果发送方125为接收方127留下消息)，并且使用机器学习来识别发送方媒体中的发送方125询问问题的位置。在一些实施例中，媒体应用103a在问题之后插入一秒或两秒的暂停，并且将修改后的发送方媒体发送到接收方设备117。在又一实施例中，发送方125或接收方127例如经由浏览器来访问服务器101上的媒体应用103，并且使用媒体应用103来记录发送方媒体或接收方媒体。

在一些实施例中，使用包括现场可编程门阵列(FPGA)或专用集成电路(ASIC)的硬件来实施媒体应用103a。在一些实施例中，使用硬件和软件的组合来实施媒体应用103a。

数据库199存储发送方媒体、接收方媒体、组合媒体、媒体转录、概要等。例如，数据库199存储视频消息、音频消息、图像和/或文本。在一些实施例中，数据库199还存储与发送方125、接收方127、发送方125和/或接收方127的用户偏好相关联的社交网络数据。

发送方设备115是包括存储器和硬件处理器的计算设备。例如，发送方设备115包括台式计算机、移动设备、平板计算机、移动电话、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏播放器、便携式音乐播放器、读取器设备或能够访问网络105的另一电子设备。

在示出的实施方式中，发送方设备115经由信号线108被耦合到网络105，并且接收方设备117经由信号线110被耦合到网络105。在一些实施例中，信号线108和110是有线连接，诸如以太网、同轴电缆、光纤电缆等，或者无线连接，诸如或其它无线技术。发送方设备115由发送方125访问，并且接收方设备117由接收方127访问。

在一些实施例中，发送方设备115可以是被包括在由发送方125穿戴的可穿戴设备中的用户设备。例如，发送方设备115被包括作为夹子(例如，腕带)的一部分、珠宝的一部分、或一副眼镜的一部分。在另一示例中，发送方设备115可以是智能手表。在一些实施例中，发送方125在由发送方125穿戴的设备的显示器上查看与媒体应用103相关联的数据。例如，媒体应用103a在智能手表或智能腕带的显示器上显示图像、视频和/或关于与在图像或视频中识别的人相关联的许可的问题。

在一些实施例中，媒体应用103b被存储在发送方设备115上。媒体应用103b可操作为记录发送方媒体。在一些实施例中，媒体应用103包括被存储在发送方设备115上的瘦客户端媒体应用103b和被存储在媒体服务器101上的媒体应用103a。例如，被存储在发送方设备115上的媒体应用103b记录发送方设备115向媒体服务器101上的媒体应用103a发送的发送方媒体用于分析。

接收方设备117是包括存储器和硬件处理器的计算设备。例如，接收方设备117包括台式计算机、移动设备、平板计算机、移动电话、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏播放器、便携式音乐播放器、读取器设备或能够访问网络105的另一电子设备。

在一些实施例中，接收方设备117包括媒体应用103c。媒体应用103c可操作为以从发送方设备115或者经由媒体服务器101的方向接收发送方媒体。媒体应用103c在接收方设备117上播放发送方媒体，并且检测到接收方127正在说话。响应于检测到接收方127正在说话，媒体应用103c记录接收方媒体。

媒体应用103c确定发送方媒体中的接收方媒体将被包括的位置。例如，发送方媒体可以包括发送方询问“您星期二晚上有空吗？”。媒体应用103c可以确定陈述“是！”的接收方媒体应该被直接插入在发送方的问题之后。媒体应用103c生成组合媒体，该组合媒体包括发送方媒体的至少一部分和在该位置处的接收方媒体。例如，组合媒体可以包括所有发送方媒体以及被直接插入在问题“您星期二晚上有空吗？”之后的接收方媒体。替代地，组合媒体可以包括发送方媒体的部分以及问题“您星期二晚上有空吗？”和包括响应“是”的接收方媒体。本领域普通技术人员将认识到，可以由媒体服务器101上的媒体应用103a进行一个或多个先前步骤。

第二服务器120包括处理器、存储器和网络通信能力。第二服务器120经由信号线109访问网络105。第二服务器120向媒体服务器101、发送方设备115和/或接收方设备117提供服务。例如，第二服务器120从发送方设备115或媒体服务器101接收发送方媒体，并且将发送方媒体转录为文本。在另一示例中，第二服务器120提供训练数据，由机器学习模块使用该训练数据来进行发送方媒体、接收方媒体和/或组合媒体的分析。

在示出的实施方式中，系统100的实体经由网络105被通信地耦合。网络105可以是传统类型的，有线或无线的，并且可以具有数个不同的配置，包括星形配置、令牌环配置或其它配置。此外，网络105可以包括局域网(LAN)、广域网(WAN)(例如，因特网)和/或多个设备可以在其上进行通信的其它互连数据路径。在一些实施例中，网络105可以是对等网络。网络105还可以被耦合到电信网络或包括电信网络的一部分，用于以各种不同的通信协议发送数据。在一些实施例中，网络105包括通信网络、/>由IEEE 902.11指定的无线局域网络(WLAN)计算机通信，或者用于发送和接收数据的蜂窝通信网络，包括经由短消息服务(SMS)、多媒体消息服务(MMS)、超文本传输协议(HTTP)、直接数据连接、电子邮件等。虽然图1示出了被耦合到用户设备115和媒体服务器101的一个网络105，但是实际上一个或多个网络105可以被耦合到这些实体。

在本文中讨论的系统和方法可以收集或使用关于用户的个人信息(例如，用户数据、关于用户的社交网络的信息、用户的位置、用户的生物计量信息、用户的活动和/或人口统计信息、由媒体服务器101或媒体应用103对图像或视频的存储和分析等)的情况下，向用户提供机会以控制是否收集个人信息，是否存储个人信息，是否使用个人信息，是否分析图像或视频，以及如何收集、存储和使用关于用户的信息。即，仅当从相关用户接收到明确授权以收集、存储和/或使用用户个人信息时，本文中讨论的系统和方法才可以收集、存储和/或使用用户个人信息。例如，向用户提供对程序或特征是否收集关于该特定用户或者与程序或特征相关的其他用户的用户信息的控制。向要被收集个人信息的每个用户呈现一个或多个选项以允许对与该用户相关的信息收集的控制，以提供关于是否收集信息以及关于要收集信息的哪些部分的许可或授权。例如，可以通过通信网络向用户提供一个或多个这种控制选项。另外，某些数据在其被存储或被使用之前可以以一个或多个方式来处理，使得个人可识别信息被移除。作为一个示例，用户的身份信息可以被处理(例如，被匿名)，使得没有个人可识别信息可以根据视频被确定。作为另一示例，用户的地理位置可以被归纳到较大的区域，使得用户的特定位置不可以被确定。

示例发送方设备

图2示出了根据一些实施例的生成发送方媒体的示例发送方设备115的框图。虽然图2被示为发送方设备115，但是一些或全部功能可以由媒体服务器101和/或接收方设备117进行。发送方设备115包括处理器235、存储器237、通信单元239、显示器241、麦克风243、相机245、扬声器247和存储设备249。取决于步骤是否全部由发送方设备115或媒体服务器101进行，可以存在附加的组件或可以省略一些先前的组件。例如，如果因为发送方正在使用基于浏览器的媒体应用103而使得媒体服务器101进行所有步骤，则媒体服务器101可以不包括显示器241。

发送方设备115将媒体应用103a存储在存储器237中。在发送方设备115是可穿戴设备的一些实施例中，发送方设备115不包括存储设备249。在一些实施例中，发送方设备115包括这里未列出的其它组件，诸如电池等。发送方设备115的组件由总线220通信地耦合。

处理器235包括算术逻辑单元、微处理器、通用控制器或一些其它处理器阵列以进行计算并且向显示设备提供指令。处理器235处理数据并且可以包括各种计算架构，包括复杂指令集计算机(CISC)架构、精简指令集计算机(RISC)架构或实施指令集的组合的架构。虽然图2包括单个处理器235，但是可以包括多个处理器235。其它处理器、操作系统、传感器、显示器和物理配置可以是发送方设备115的一部分。处理器235被耦合到总线220，用于经由信号线222与其它组件进行通信。

存储器237存储由处理器235执行的指令和/或数据。指令包括用于进行本文中描述的技术的代码。存储器237可以是动态随机存取存储器(DRAM)设备、静态RAM或一些其它存储器设备。在一些实施例中，存储器237还包括非易失性存储器，诸如静态随机存取存储器(SRAM)设备或闪存，或类似的永久性存储设备和介质，包括硬盘驱动器、光盘只读存储器(CD-ROM)设备、DVD-ROM设备、DVD-RAM设备、DVD-RW设备、闪存设备，或用于在更永久性基础上存储信息的一些其它大容量存储设备。存储器237包括可操作为执行媒体应用103的代码和例程，这在下面被更详细地描述。存储器237被耦合到总线220，用于经由信号线224与其它组件进行通信。

根据媒体应用103可以被存储的位置，通信单元239向发送方设备115和媒体服务器101中的至少一个传送数据，以及从发送方设备115和媒体服务器101中的至少一个接收数据。在一些实施例中，通信单元239包括用于直接物理连接到网络105或另一通信通道的端口。例如，根据媒体应用103被存储的位置，通信单元239包括通用串行总线(USB)、安全数字(SD)、5类电缆(CAT-5)或者用于与发送方设备115或媒体服务器101进行有线通信的类似端口。在一些实施例中，通信单元239包括无线收发器，用于使用一个或多个无线通信方法，包括IEEE 802.11、IEEE 802.16、或另一合适的无线通信方法，来与发送方设备115、媒体服务器101或其它通信通道交换数据。通信单元239被耦合到总线220，用于经由信号线226与其它组件进行通信。

在一些实施例中，通信单元239包括蜂窝通信收发器，用于通过蜂窝通信网络发送和接收数据，包括经由短消息服务(SMS)、多媒体消息服务(MMS)、超文本传输协议(HTTP)、直接数据连接、电子邮件或另一合适类型的电子通信。在一些实施例中，通信单元239包括有线端口和无线收发器。通信单元239还向网络105提供其它传统连接，用于使用标准网络协议来分发文件和/或媒体对象，该标准网络协议包括但是不限于用户数据报协议(UDP)、TCP/IP、HTTP、HTTP安全(HTTPS)、简单邮件传输协议(SMTP)、SPDY、快速UDP因特网连接(QUIC)等。

显示器241包括可操作为显示从媒体应用103接收的图形数据的硬件。例如，显示器241渲染图形以显示发送方选择以便开始记录发送方媒体的用户界面。显示器241被耦合到总线220，用于经由信号线228与其它组件进行通信。

麦克风243包括可操作为检测和记录从发送方接收到的音频的硬件。例如，麦克风243记录发送方媒体，其中，发送方媒体是音频记录或包括音频成分的视频记录。麦克风243被耦合到总线220，用于经由信号线230与其它组件进行通信。

相机245包括可操作为捕获发送方的图像的硬件。例如，相机245结合麦克风243捕获用于生成发送方媒体的一个或多个图像或视频。相机245被耦合到总线220，用于经由信号线232与其它组件进行通信。

扬声器247包括可操作为播放音频的硬件。例如，扬声器247播放包括发送方媒体的至少一部分和接收方媒体的组合媒体，使得发送方可以收听接收方对发送方的问题的回答。扬声器247被耦合到总线220，用于经由信号线234与其它组件进行通信。

存储设备249是存储数据的非暂时性计算机可读存储介质，该数据提供本文中描述的功能。例如，存储设备249存储由发送方记录的发送方媒体。在由媒体服务器101进行一个或多个操作的实施例中，存储设备249包括图1中的数据库199。存储设备249可以是DRAM设备、SRAM设备、闪存或一些其它存储器设备。在一些实施例中，存储设备249还包括非易失性存储器或类似的永久性存储设备和介质，包括硬盘驱动器、CD-ROM设备、DVD-ROM设备、DVD-RAM设备、DVD-RW设备、闪存设备，或用于在永久性基础上存储信息的一些其它大容量存储设备。存储设备249被耦合到总线220，用于经由信号线236与其它组件进行通信。

在一些实施例中，媒体应用103b包括检测器202、分析器204、机器学习模块206、媒体生成器模块208和用户界面模块210。

在一些实施例中，检测器202检测到发送方媒体被发送方设备115修改。在一些实施例中，检测器202包括可以由处理器235执行以检测发送方媒体的一组指令。在一些实施例中，检测器202被存储在发送方媒体115的存储器237中，并且可以由处理器235访问和执行。

在一些实施例中，检测器202响应于发送方指示发送方设备115记录音频或视频消息而检测到发送方媒体被发送方设备115修改。例如，发送方在由用户界面模块210生成的用户界面上选择图标，用于开始记录发送方媒体。在另一示例中，在发送方正在使用基于浏览器的应用的情况下，检测器202从麦克风243、相机245或存储设备249接收发送方正在记录发送方媒体的指示。

在一些实施例中，检测器202与分析器204进行通信以对发送方媒体进行分析，机器学习模块206修改发送方媒体，媒体生成器模块208准备发送方媒体用于路由到媒体服务器101或接收方设备117和/或用户界面模块210用于经由用户界面做出改变。

分析器204分析发送方媒体。在一些实施例中，分析器204包括可以由处理器235执行以分析发送方媒体的一组指令。在一些实施例中，分析器204被存储在发送方设备115的存储器237中，并且可以由处理器235访问和执行。

分析器204通过确定发送方媒体中的中断来分析发送方媒体。中断采用发送方的词语或句子之间的暂停或者语义中断的形式。分析器204使用暂停来识别发送方对于接收方有问题的位置。例如，如果发送方媒体是关于柠檬酸循环(又名克雷布斯循环)的讲座，则在讲座期间发送方可能在介绍新的概念之后暂停。这些可以是发送方媒体中的接收方可能有澄清问题的位置。在另一示例中，在发送方媒体是关于计划在星期六晚上去看音乐会的情况下，发送方可能在询问问题“您星期六晚上有空看X乐队吗？”之后立即暂停。在一些实施例中，分析器204与机器学习模块206进行通信，以识别要被延长的暂停，或者甚至识别暂停将被插入的位置，以向接收方强调这是接收方应该提供响应的位置。

分析器204使用语义分析来识别发送方媒体中的语义中断。例如，分析器204基于通常结束句子的词语、发送方语音中的指示问题的音调变化等来识别语义中断。在一些实施例中，分析器204还识别发送方媒体的发送方正在询问不需要回答的设问的部分。例如，许多消息以“嘿，你好吗？”开头，但是发送方实际上并不寻求响应。在一些实施例中，分析器204与机器学习模块206进行通信，以进行语义分析来识别发送方媒体中的语义中断。

在一些实施例中，分析器204还进行发送方媒体的语音识别。例如，分析器204将发送方媒体发送到第二服务器120，第二服务器120进行音频或视频的转录。

在一些实施例中，分析器204使用发送方媒体的分析来生成发送方媒体的概要。例如，分析器204使用分析来确定用于创建组合媒体的概要的发送方媒体的情境。下面参考图3对此进行更详细的讨论。

在一些实施例中，机器学习模块206被存储在发送方设备115的存储器237中，并且可以由处理器235访问和执行。在一些实施例中，机器学习模块206是被存储在单独的服务器上的单独的应用。

在一些实施例中，机器学习模块206是已经被训练为分析与发送方媒体相关联的音频以检测音频中的问题来确定发送方媒体的情境的模型。在一些实施例中，机器学习模块206被训练为识别包括发送方媒体中的暂停或语义中断的中断。在一些实施例中，机器学习模块206对发送方媒体的转录文本版本进行语义分析，以识别发送方媒体中的问题。下面更详细地描述不同训练模型的示例。

在一些实施例中，机器学习模块206实施机器学习技术，该机器学习技术可以例如通过检测发送方媒体中的暂停、检测媒体中的语义中断、检测发送方媒体中的问题、确定发送方媒体的情境或确定在发送方媒体中添加暂停的位置来分析发送方媒体。在一些实施方式中，在不使用用户信息的情况下，可以使用合成数据来训练模型，该合成数据例如是由计算机自动地生成的数据。在一些实施方式中，为了训练机器学习模型的目的，可以例如从志愿者和其他同意用户获得用户语音数据。在一些实施方式中，例如，如果用户反馈指示机器学习模型对媒体的一部分进行了错误分类，则可以利用与媒体应用103的用户交互来更新该模型。

在一些实施例中，可以例如基于训练数据来训练训练后的模型，对于该训练数据，已经明确地从用户获得了利用用户数据进行训练的许可。训练数据可以包括诸如媒体和对应的元数据的被允许用于训练的任何数据，诸如合成或计算机生成的数据、被许可用于训练的数据等。训练数据可以包括检测到并且识别出暂停、语义中断和/或问题的媒体或者媒体的转录版本。媒体可以是内部生成的，诸如被存储在媒体服务器101的数据库199上的那些，或者来自从第二服务器120接收到的媒体。例如，第二服务器120可以是媒体服务器，该媒体服务器向媒体提供指示暂停、语义中断和/或问题的位置的元数据。

在一些实施例中，可以基于监督学习，例如，基于媒体和媒体的每个部分的分类(例如，“暂停”、“语义中断”、“问题”等)来获得训练后的模型。例如，训练后的模型可以包括模型形式或结构(例如，描述多个神经网络节点到神经网络的层的数量和组织，具有相关联的权重)。在一些实施例中，训练后的模型可以被训练，使得机器学习模块206应用训练后的模型来进行发送方媒体的分析。

在一些实施例中，用户可以通过提供用户输入来提供训练数据。可以要求用户来识别媒体或媒体的转录版本中的暂停、语义中断和/或问题的位置。作为用户输入的结果，训练数据可以具有媒体中的停顿、语义中断和/或问题的准确识别。

在各种实施方式中，机器学习模块206利用贝叶斯分类器、支持向量机、神经网络或其他学习技术。在一些实施方式中，机器学习模块206可以包括训练后的模型、推理引擎和数据。机器学习模块206可以对于不同类型的数据使用不同的训练后的模型。例如，机器学习模块206可以将不同的模型应用到不同的语言或位于不同的地理区域(例如，不同的地点)的用户。

在一些实施方式中，数据包括训练数据，例如，用于生成训练后的模型的数据。例如，训练数据可以包括任何类型的数据，诸如是文本、图像、音频、视频等。训练数据可以从任何来源获得，例如，专门被标记用于训练的数据存储库、提供许可用作机器学习的训练数据的数据等。在一个或多个用户许可使用他们各自的用户数据来训练机器学习模型的实施方式中，训练数据可以包括这样的用户数据，该机器学习模型例如是训练后的模型。在用户许可使用他们各自的用户数据的实施方式中，数据可以包括许可的数据，诸如例如照片或其它用户生成的图像、视频、音频、文本等的媒体。

机器学习模块206还包括训练后的模型。在一些实施方式中，训练后的模型可以包括一个或多个模型形式或结构。例如，模型形式或结构可以包括任何类型的神经网络，诸如是线性网络、实施多个层(例如，输入层与输出层之间的“隐藏层”，其中，每个层是线性网络)的深度神经网络、卷积神经网络(例如，将输入数据拆分或划分为多个部分或区块(tile)，使用一个或多个神经网络层分别处理每个区块，并且聚合来自每个区块的处理的结果的网络)、序列到序列的神经网络(例如，将序列数据作为输入并且产生结果序列作为输出的网络，该序列数据诸如是句子中的词语、视频中的帧等)等。模型形式或结构可以指定各种节点之间的连接和节点到层的组织。例如，第一层(例如，输入层)的节点可以接收数据作为输入数据或应用数据。例如，当训练后的模型用于图像分析时，这样的数据可以包括例如每个节点的一个或多个像素。后续中间层可以按照模型形式或结构中所指定的连接来接收先前层的节点的输出作为输入。这些层也可以被称为隐藏层。最后层(例如，输出层)产生机器学习应用的输出。例如，取决于特定的训练后的模型，输出可以是图像的一组标签、许可将图像与其他图像进行比较的图像的表示(例如，图像的特征向量)、响应于输入句子的输出句子、输入数据的一个或多个类别等。在一些实施方式中，模型形式或结构还指定每个层中的节点的数量和/或类型。

在不同的实施方式中，训练后的模型可以包括多个节点，该多个节点按照模型结构或形式被布置到层中。在一些实施方式中，节点可以是没有存储器的计算节点，例如，被配置为处理一个单元的输入以产生一个单元的输出。由节点所进行的计算可以包括，例如，将多个节点输入中的每个节点输入乘以权重，获得加权和，以及使用偏置或截距值来调整加权和以产生节点输出。在一些实施方式中，由节点所进行的计算还可以包括将阶梯/激活函数应用于调整后的加权和。在一些实施方式中，阶梯/激活函数可以是非线性函数。在各种实施方式中，这样的计算可以包括诸如矩阵乘法的操作。在一些实施方式中，例如，使用多核处理器的多个处理器核、使用GPU的单独处理单元或者专用神经电路，可以并行地进行多个节点的计算。在一些实施方式中，节点可以包括存储器，例如，能够存储一个或多个较早输入并且在处理后续输入时使用一个或多个较早输入。例如，具有存储器的节点可以包括长短期存储器(LSTM)节点。LSTM节点可以使用存储器来维持许可节点像有限状态机(FSM)那样动作的“状态”。具有这样的节点的模型在处理序列数据时可能是有用的，该序列数据例如是句子或段落中的词语、视频中的帧、语音或其他音频等。

在一些实施方式中，训练后的模型可以包括用于各个节点的嵌入或权重。例如，模型可以被初始化为多个节点，该多个节点被组织为由模型形式或结构所指定的层。在初始化时，可以将相应的权重应用于按照模型形式所连接的每对节点之间的连接，该节点例如是神经网络的连续层中的节点。例如，可以随机地分配相应的权重，或者将相应的权重初始化为默认值。然后，可以例如使用数据来训练模型以产生结果。

例如，训练可以包括应用监督学习技术。在监督学习中，训练数据可以包括多个输入(例如，一组图像)和每个输入的对应的预期的输出(例如，每个图像的一个或多个标签)。基于模型的输出与预期的输出的比较，例如，以增加模型在被提供类似输入时产生预期的输出的概率的方式，自动地调整权重的值。

在一些实施方式中，训练可以包括应用无监督学习技术。在无监督学习中，可以仅提供输入数据，并且可以训练模型以区分数据，例如，以将输入数据聚类为多个组，其中，每个组包括以某个方式类似的输入数据。例如，可以训练模型以区分图像，使得模型将抽象图像(例如，合成图像、人工绘制(human-drawn)图像等)与自然图像(例如，照片)进行区分。

在另一示例中，使用无监督学习所训练的模型可以基于输入句子中的词语的使用来对词语进行聚类。在一些实施方式中，可以使用无监督学习来产生知识表示，例如，该知识表示可以由机器学习模块206使用。在各种实施方式中，训练后的模型包括与模型结构对应的一组权重或嵌入。在省略数据的实施方式中，机器学习模块206可以包括基于例如由机器学习模块206的开发者、由第三方等先前训练的训练后的模型。在一些实施方式中，训练后的模型可以包括例如从提供权重的服务器所下载的一组固定的权重。

机器学习模块206还包括推理引擎。推理引擎被配置为将训练后的模型应用于诸如应用数据的数据，以提供推理。在一些实施方式中，推理引擎可以包括要由处理器235执行的软件代码。在一些实施方式中，推理引擎可以指定电路配置(例如，用于可编程处理器、用于现场可编程门阵列(FPGA)等)，使得处理器235能够应用训练后的模型。在一些实施方式中，推理引擎可以包括软件指令、硬件指令或组合。在一些实施方式中，推理引擎可以提供应用程序接口(API)，API可以由操作系统和/或其他应用使用以调用推理引擎，例如，以将训练后的模型应用于应用数据以生成推理。

机器学习模块206可以提供多个技术优点。例如，当基于无监督学习生成训练后的模型时，可以由推理引擎应用训练后的模型以从例如应用数据的输入数据产生知识表示(例如，数字表示)。例如，被训练用于图像分析的模型可以产生具有比输入图像(例如，10MB)更小的数据大小(例如，1KB)的图像的表示。在一些实施方式中，这样的表示可以有助于减少生成输出(例如，标签、分类、描述图像的句子等)的处理成本(例如，计算成本、存储器使用等)。在一些实施方式中，可以提供这样的表示作为对不同的机器学习应用的输入，该不同的机器学习应用从推理引擎的输出产生输出。在一些实施方式中，由机器学习模块206生成的知识表示可以例如通过网络被提供给进行进一步处理的不同的设备。在这样的实施方式中，提供知识表示而不是图像可以提供技术益处，例如，以更低的成本实现更快的数据传送。在另一示例中，被训练用于聚类文档的模型可以从输入文档产生文档聚类。文档聚类可以适用于进一步处理(例如，确定文档是否与主题有关、确定文档的分类类别等)而无需访问原始文档，因此节省计算成本。

在一些实施方式中，可以以离线方式实施机器学习模块206。在这些实施方式中，可以在第一阶段中生成训练后的模型，并且将训练后的模型作为机器学习模块206的一部分而提供。在一些实施方式中，可以以在线方式实施机器学习模块206。例如，在这样的实施方式中，调用机器学习模块206的应用(例如，操作系统或者一个或多个其他应用)可以利用由机器学习模块206产生的推理，例如，向用户提供推理，并且可以生成系统日志(例如，如果由用户许可，则日志为由用户基于推理而采取的动作；或者如果被利用作为进一步处理的输入，则日志为进一步处理的结果)。可以周期性地产生系统日志，例如，每小时、每月、每季度等，并且在用户许可的情况下可以使用系统日志来更新训练后的模型，例如，更新训练后的模型的嵌入。

在一些实施方式中，机器学习模块206可以以可以适应其上执行机器学习模块206的发送方设备115的特定配置的方式来实施。例如，机器学习模块206可以确定利用例如处理器235的可用计算资源的计算图。例如，如果机器学习模块206被实施为多个设备上的分布式应用，则机器学习模块206可以以优化计算的方式确定要在单独的设备上执行的计算。在另一示例中，机器学习模块206可以确定处理器235包括具有特定数量(例如，1000)的GPU核的GPU，并且相应地实施推理引擎(例如，作为1000个单独的处理或线程)。

在一些实施方式中，机器学习模块206可以实施训练后的模型的全体。例如，训练后的模型可以包括多个训练后的模型，每个训练后的模型适用于相同的输入数据。在这些实施方式中，机器学习模块206可以例如基于可用计算资源、先前推理的成功率等来选择特定的训练后的模型。在一些实施方式中，机器学习模块206可以执行推理引擎，使得多个训练后的模型被应用。在这些实施方式中，机器学习模块206可以例如使用对来自应用每个训练后的模型的各个输出进行评分的投票技术、或者通过选择一个或多个特定的输出，来组合来自应用各个模型的输出。此外，在这些实施方式中，机器学习模块206可以应用时间阈值(例如，0.5ms)用于应用各个训练后的模型，并且仅利用在时间阈值内可用的那些单独的输出。可以不利用，例如，丢弃，在时间阈值内没有接收到的输出。例如，在例如通过操作系统或者一个或多个应用来调用机器学习应用时，当时间限制被指定时，这样的方法可能是合适的。

在不同的实施方式中，机器学习模块206可以产生不同类型的输出。例如，机器学习模块206可以提供表示或聚类(例如，输入数据的数字表示)、标签(例如，用于包括图像、文档等的输入数据)、短语或句子(例如，描述图像或视频、适合用作对输入句子的响应等)、图像(例如，由机器学习应用响应于输入而生成)、音频或视频。在一些实施方式中，机器学习模块206可以基于由例如操作系统或者一个或多个应用的调用应用指定的格式来产生输出。在一些实施方式中，调用应用可以是另一机器学习应用。例如，这样的配置可以用于生成的对抗网络中，其中，使用来自机器学习模块206的输出来训练调用机器学习模块，反之亦然。

媒体生成器模块208最终确定发送方媒体。在一些实施例中，媒体生成器模块208包括可以由处理器235执行以最终确定发送方媒体的一组指令。在一些实施例中，媒体生成器模块208被存储在发送方设备115的存储器237中，并且可以由处理器235访问和执行。

媒体生成器模块208从检测器202或存储设备249接收发送方媒体，并且从分析器204或机器学习模块206接收暂停和语义中断的位置的识别。在一些实施例中，媒体生成器模块208在已经识别出暂停和中断的一个或多个地方修改发送方媒体以包括空间，诸如一秒或两秒的暂停。空间可以使得接收方更容易识别发送方媒体中的发送方正在寻求接收方响应问题的位置。媒体生成器模块208将修改后的发送方媒体直接发送给接收方设备117，或者经由媒体服务器101发送给接收方设备117。

在一些实施例中，在发送方媒体是音频记录的情况下，媒体生成器模块208根据音频记录来生成包括一个或多个图像的视频。例如，媒体生成器模块208使用发送方的图像，诸如发送方的简档图像、发送方的发送方设备115上的图像等，来添加到音频记录。在一些实施例中，媒体生成器模块208结合音频记录或图像的幻灯片来使用单个图像。

在一些实施例中，媒体生成器模块208识别音频记录的主题，获得与该主题相对应的图像，并且生成包括该图像的视频。例如，如果发送方媒体是关于音乐会以及演出之前在特定餐馆吃饭，则媒体生成器模块208可以生成视频，该视频包括发送方、在音乐会上演奏的乐队以及在音频记录中提到的餐馆的图像。

用户界面模块210生成用于显示用户界面的图形数据。在一些实施例中，用户界面模块210包括可以由处理器235执行以生成图形数据的一组指令。在一些实施例中，用户界面模块210被存储在发送方设备115的存储器237中，并且可以由处理器235访问和执行。

在一些实施例中，用户界面模块210生成用于显示用户界面以供发送方启动音频或视频记录的图形数据。例如，用户界面模块210包括用于呼叫接收方，并且如果接收方没有回答则生成发送方媒体的选项。替代地或另外地，用户界面包括用于在没有首先呼叫的情况下生成发送方媒体的选项。

在一些实施例中，用户界面模块210包括用户界面，该用户界面包括用于播放组合媒体的选项。在一些实施例中，用户界面包括搜索栏，该搜索栏包括关于组合媒体的信息，诸如发送方询问问题的位置和接收方回答问题的位置。下面参考图4A和4B更详细地描述搜索栏用户界面。

在一些实施例中，用户界面模块210生成具有附加选项的用户界面，诸如用于创建简档、用户偏好等的系统选项。在一些实施例中，用户偏好包括用于在发送方媒体中的暂停或语义中断之后添加空间的选项。

示例接收方设备

图3示出了根据一些实施例的生成接收方媒体的示例接收方设备117的框图。虽然图3被示为接收方设备115，但是在一些实施例中，一些或全部功能由媒体服务器101进行。接收方设备117包括处理器335、存储器337、通信单元339、显示器341、麦克风343、相机345、扬声器347和存储设备349。因为图2描述了处理器235、存储器237、通信单元239、显示器241、麦克风243、相机245、扬声器247和存储设备249，所以这里不再重复它们的描述。取决于步骤是否由接收方设备115或媒体服务器101进行，可以存在附加的组件或可以省略一些先前的组件。处理器335经由信号线322被耦合到总线320，通信单元339经由信号线326被耦合到总线320，显示器341经由信号线328被耦合到总线320，麦克风343经由信号线330被耦合到总线320，相机345经由信号线332被耦合到总线320，扬声器347经由信号线334被耦合到总线320，并且存储设备349经由信号线336被耦合到总线320。

麦克风343包括可操作为检测和记录从发送方接收到的音频的硬件。例如，麦克风343记录接收方媒体，其中，接收方媒体是音频记录或包括音频成分的视频记录。在一些实施例中，麦克风343检测来自接收方的音频，并且将检测的通知发送给检测器302。麦克风343还记录由接收方说出的任何音频。

相机345包括可操作为捕获接收方的图像的硬件。例如，相机345结合麦克风343捕获用于生成接收方媒体的一个或多个图像或视频。

扬声器347包括可操作为响应于从检测器302接收到指令而播放音频和暂停音频的硬件。例如，麦克风343播放发送方媒体，接收方开始说话，检测器302指示扬声器347停止播放发送方媒体，并且麦克风343记录接收方媒体。

在一些实施例中，媒体应用103c包括检测器302、分析器304、机器学习模块306、媒体生成器模块308和用户界面模块310。在一些实施例中，上面参考检测器202、分析器204、机器学习模块206、媒体生成器模块208和用户界面模块210描述的操作也应用到媒体应用103c的组件，所以这里将不再讨论。媒体应用103c经由信号线324被耦合到总线320。

检测器302检测在发送方媒体的回放期间接收方是否正在说话。在一些实施例中，检测器302包括可以由处理器335执行以检测语音的一组指令。在一些实施例中，检测器302被存储在接收方设备117的存储器337中，并且可以由处理器335访问和执行。

在一些实施例中，当麦克风343检测到在发送方媒体的回放期间接收方正在说话时，检测器302从麦克风343接收通知。检测器302指示扬声器347暂停发送方媒体的回放，并且指示麦克风343记录接收方媒体。在一些实施例中，麦克风343响应于检测到在发送方媒体的回放期间接收方正在说话而自动地记录接收方媒体。一旦接收方停止说话，检测器302就指示扬声器347开始播放发送方媒体，直到接收方再次开始说话为止。

在一些实施例中，检测器302检测来自使用麦克风343说话的接收方的语音信号的起点。例如，检测器302使用语音终结器来检测语音事件的起点。一旦接收方停止说话，检测器302就使用语音终结器来检测语音事件的终点。然后，检测器302指示扬声器347开始播放发送方媒体，直到接收方再次开始说话为止。

在一些实施例中，检测器302使用多个类型的输入信号来检测语音信号的起点和/或终点。在一些实施例中，检测器302使用音频输入和视频输入的组合。例如，检测器302基于发送方的嘴巴张开来识别视频中的语音信号的起点，因为它暗示了语音的开始。在一些实施例中，检测器302使用得分系统基于音频输入和视频输入的组合来确定语音信号的起点或终点的可能性。例如，检测器302可以基于发送方说话的音频和发送方嘴巴移动的视频来确定一时间点有80％的可能性是发送方说话的起点。

因为正在播放的发送方媒体和正在记录的接收方媒体之间可能有一些重叠，所以在一些实施例中，正在记录接收方媒体的麦克风343在发送方媒体正在被回放时会无意地拾取一些发送方媒体。结果，在一些实施例中，检测器302使用回声消除(例如，回声消除算法或回声消除硬件)来防止发送方媒体反馈到麦克风343中。

分析器304分析发送方媒体和/或接收方媒体。在一些实施例中，分析器304包括可以由处理器335执行以分析发送方媒体和/或接收方媒体的一组指令。在一些实施例中，分析器304被存储在接收方设备117的存储器337中，并且可以由处理器335访问和执行。

在一些实施例中，分析器304进行上面描述的用于分析发送方媒体的步骤。例如，分析器304识别发送方媒体中的问题、暂停和语义中断的位置。在其他实施例中，分析器304从发送方设备115或媒体服务器101接收发送方媒体中的问题、暂停和语义中断的位置的识别。

分析器304确定发送方媒体相对于接收方媒体的情境，该情境包括在发送方媒体中的接收方媒体将被包括的位置处由发送方询问的问题、以及在问题附近的发送方媒体的子集。基于问题之前或之后的固定时间量(例如，发送方媒体的五秒钟)来确定发送方媒体的子集，或者基于暂停或语义中断的位置来确定子集。例如，分析器304可以将情境识别为包括问题“我们下次约会你想去哪里？”，并且将子集识别为问题之前或之后的一两个句子，诸如“我们上次约会是我选的餐馆，所以这次应该你选。”。分析器304基于情境通过指示媒体生成模块308生成组合媒体来概括发送方媒体，该组合媒体包括情境以及陈述“豪华素食汉堡！”的发送方媒体。

在一些实施例中，分析器304包括发送方媒体和/或接收方媒体的概要。例如，分析器304获得或接收发送方媒体和/或接收方媒体的转录，并且提供转录以及组合媒体。在一些实施例中，分析器304包括概要，该概要仅包括发送方媒体相对于接收方媒体的情境。

在一些实施例中，机器学习模块306被存储在接收方设备117的存储器337中，并且可以由处理器335访问和执行。

在一些实施例中，机器学习模块306使用机器学习来完善语音终点的检测。例如，可以在近场语音样本上训练机器学习模块306，以识别语音事件的起点和语音事件的终点。

媒体生成器模块308根据发送方媒体和接收方媒体生成组合媒体。在一些实施例中，媒体生成器模块308包括可以由处理器335执行以最终确定发送方媒体的一组指令。在一些实施例中，媒体生成器模块308被存储在接收方设备117的存储器337中，并且可以由处理器335访问和执行。

媒体生成器模块308生成组合媒体，该组合媒体包括发送方媒体和发送方媒体中的接收方媒体将被包括的位置处的接收方媒体。例如，接收方媒体可以被直接插入在发送方媒体中的问题之后，该问题被发送方设备115的分析器204或接收方设备117的分析器304识别为位置。如果发送方媒体包括数个问题，并且接收方媒体包括数个回答，则组合媒体可以包括来自发送方媒体的第一问题，然后是来自接收方媒体的第一回答，来自发送方媒体的第二问题，然后是来自接收方媒体的第二回答，等等。在分析器204或机器学习模块206将暂停添加在发送方媒体中的问题之后的实施例中，媒体生成器模块308添加接收方媒体以在暂停之后开始。

在一些实施例中，媒体生成器模块308将发送方媒体的部分与接收方媒体组合。例如，媒体生成器模块308基于情境从分析器304接收发送方媒体的概要，并且将概要与接收方媒体组合。例如，发送方媒体可以包括发送方媒体的部分，该部分包括关于接收方接下来何时访问的问题，而不是包括来自父亲的过去一周经历的所有事件的整个发送方媒体。

在一些实施例中，基于文本转录的情境，发送方媒体被概括。组合媒体包括来自发送方的问题的文本转录，然后是接收方媒体，以代替包括发送方视频和接收方视频的组合媒体。例如，发送方媒体问题可以是“您想喝咖啡吗？明天下午六点怎么样？”，并且接收方媒体可以是“没问题。下午6点听起来不错。”。媒体生成器模块308可以生成组合媒体，该组合媒体包括词语“咖啡？”的视觉显示、接收方陈述“没问题”的音频、“明天下午六点？”的视觉显示以及接收方陈述“下午6点听起来不错”的音频。

在一些实施例中，媒体生成器模块308根据发送方媒体和来自多个接收方的接收方媒体生成组合媒体。例如，媒体生成器模块308被存储在媒体服务器101上，并且从发送方设备115接收发送方媒体以及从一组接收方设备117接收接收方媒体。媒体生成器模块308使用询问问题的发送方媒体以及基于与接收方媒体相关联的时间戳来组织的来自多个接收方的回答来生成组合媒体。例如，发送方和接收方可以是正在讨论露营旅行的小组的一部分。发送方可能询问人们是否更喜欢优胜美地公园或大提顿公园，并且组合媒体可以包括发送方的问题以及所有接收方的回答。在另一示例中，发送方可以是演讲的教授，并且接收方媒体可以包括关于该演讲的评论和澄清问题。

用户界面模块310生成用于显示用户界面的图形数据。在一些实施例中，用户界面模块310包括可以由处理器335执行以生成图形数据的一组指令。在一些实施例中，用户界面模块310被存储在接收方设备117的存储器337中，并且可以由处理器335访问和执行。

用户界面模块310生成用于播放组合媒体的用户界面。组合媒体包括视频、音频、与图像配对的音频等。在一些实施例中，用户界面包括搜索栏和标识符，该搜索栏在视觉上概括组合媒体并且促进选择组合媒体内的不同回放位置，该标识符识别接收方媒体在组合媒体中的位置。例如，搜索栏使用书签、颜色或阴影来识别组合视频中的不同部分，例如，其中，发送方询问问题并且接收方响应。在一些实施例中，搜索栏可以是水平栏、垂直栏、圆形等。在一些实施例中，搜索栏接收用于在组合视频中的不同点提供回放的用户输入。例如，用户可以在搜索栏上选择任何位置，诸如在识别出问题的位置，以在所选位置启动组合媒体的回放。

现在转到图4A，示出了根据一些实施例的包括搜索栏410的示例用户界面400。在一些实施例中，用户界面模块310生成用户界面400，该用户界面400包括播放按钮405、搜索栏410和组合视频415。在一些实施例中，按压播放按钮405开始组合媒体415的回放。搜索栏410包括由发送方提出的问题和由接收方提供的回答的识别。在该示例中，发送方询问了两个问题，并且接收方提供了两个回答。

现在转到图4B，示出了根据一些实施例的包括搜索栏460的示例用户界面450。在该示例中，组合媒体是音频并且不包括视频。结果，不存在如图4A中示出的视频成分。搜索栏460示出了组合媒体包括接收方媒体的所有实例。例如，指示符465示出了五个接收方在该位置处提供了接收方媒体，并且指示符470示出了三个接收方在该位置处提供了接收方媒体。在一些实施例中，如果特定位置处的接收方媒体超过阈值，则用户界面模块310将该位置识别为问题。在该示例中，指示符475被识别为问题，因为该组接收方媒体包括10个接收方。

示例方法

图5示出了根据一些实施例的生成组合媒体的示例方法500的流程图。由图1的被存储在媒体服务器101上的媒体应用103a和被存储在接收方设备117上的媒体应用103c的任何组合来进行方法500。

在框502，确定发送方和接收方是否同意使用用户数据。如果发送方或接收方不同意使用用户数据，则在框504，不使用用户数据来实施框，并且方法500循环回到502。在一些实施例中，方法500停止，因为发送方媒体和接收方媒体被认为是用户数据，并且在没有这些片段中的任何一个的情况下，方法500不能继续进行。

如果发送方和接收方同意使用用户数据，则在框506，接收由与发送方相关联的发送方设备记录的发送方媒体。在框508，接收方设备为接收方播放发送方媒体。在框510，检测到接收方正在说话。在一些实施例中，当接收方正在说话时，媒体应用103暂停发送方媒体的回放。在框512，基于检测到接收方正在说话，记录接收方媒体。在框514，确定发送方媒体中的接收方媒体将被包括的位置。例如，媒体应用103确定接收方媒体将被直接添加在发送方媒体中询问的问题之后。在框516，生成组合媒体，该组合媒体包括(1)发送方媒体的至少一部分和(2)在该位置处的接收方媒体。

图6示出了根据一些实施例的生成组合媒体的另一示例方法600的流程图。由图1的被存储在媒体服务器101上的媒体应用103a和被存储在接收方设备117上的媒体应用103c的任何组合来进行方法600。

在框602，确定发送方和一组接收方是否同意使用用户数据。如果发送方或接收方不同意使用用户数据，则在框604，不使用用户数据来实施框，并且方法600循环回到602。在一些实施例中，方法600停止，因为发送方媒体和接收方媒体被认为是用户数据，并且在没有这些片段中的任何一个的情况下，方法600不能继续进行。在一些实施例中，如果发送方和来自一组接收方的至少一个接收方同意使用用户数据，则在不使用来自非同意接收方的接收方媒体的情况下，方法600继续进行。

如果发送方和接收方同意使用用户数据，则在框506，接收由与发送方相关联的发送方设备记录的包括第一音频的发送方视频。例如，发送方视频可以是继续教育视频。在框608，为一组接收方播放发送方媒体。例如，每个接收方在单独的接收方设备上收听发送方媒体。在框610，检测一组接收方中的每个接收方何时说话。例如，每个接收方设备使用终点来检测接收方何时说话，并且在接收方正在说话时暂停。每个接收方可以相对于发送方媒体在不同的时间说话。在框612，基于一组接收方中的每个接收方响应于发送方视频而说话，记录接收方媒体。在一些实施例中，当每个接收方结束说话时，接收方设备再次开始发送方媒体。在框614，生成组合媒体，该组合媒体包括(1)发送方媒体的至少一部分和(2)在该位置处的接收方媒体。

在上面的描述中，出于解释的目的，阐述了许多具体细节，以便提供对说明书的全面理解。然而，对于本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下实践本公开。在一些实例中，以框图形式示出了结构和设备，以便避免遮挡描述。例如，可以主要参考用户界面和特定硬件来描述上面的实施例。然而，实施例可以应用于可以接收数据和命令的任何类型的计算设备，以及提供服务的任何外围设备。

说明书中对“一些实施例”或“一些实例”的引用意味着结合实施例或实例描述的特定特征、结构或特性可以被包括在描述的至少一个实施方式中。在说明书中各处出现的短语“在一些实施例中”不一定都指代相同的实施例。

上面详细描述的一些部分是根据对计算机存储器内的数据位的操作的算法和符号表示来呈现的。这些算法描述和表示是数据处理领域的技术人员用来最有效地将他们工作的实质传达给本领域其他技术人员的手段。算法在这里通常被认为是导致期望结果的自洽的步骤序列。该步骤是需要物理量的物理操纵的那些步骤。通常，虽然不是必须的，这些量采取能够被存储、传输、组合、比较和以其它方式操纵的电或磁数据的形式。主要出于共同使用的原因，已经证明有时将这些数据指代为位、值、元素、符号、字符、术语、数字等是方便的。

然而，应该记住的是，所有这些和类似的术语将与适当的物理量相关联，并且仅仅是被应用于这些量的方便的标记。除非特别指出，否则从以下讨论显而易见的是，应该理解，在整个描述中，利用包括“处理”或“计算”或“算”或“确定”或“显示”等的术语的讨论，指的是计算机系统或类似的电子计算设备的动作和处理，该计算机系统或类似的电子计算设备将被表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操纵并且变换为类似地被表示为计算机系统存储器或寄存器或其他这种信息存储、传输或显示设备内的物理量的其它数据。

说明书的实施例还可以涉及用于进行上面描述的方法的一个或多个步骤的处理器。处理器可以是由被存储在计算机中的计算机程序选择性地激活或重新配置的专用处理器。这种计算机程序可以被存储在非暂时性计算机可读存储介质中，包括但是不限于任何类型的盘，包括光盘、ROM、CD-ROM、磁盘、RAM、EPROM、EEPROM、磁卡或光卡、包括具有非易失性存储器的USB密钥的闪存，或适用于存储电子指令的任何类型的介质，各自被耦接到计算机系统总线。

说明书可以采取一些完全硬件实施例、一些完全软件实施例或者包含硬件和软件元件的一些实施例的形式。在一些实施例中，说明书以软件来实施，该软件包括但是不限于固件、驻留软件、微代码等。

此外，描述可以采取可以从计算机可用介质或计算机可读介质访问的计算机程序产品的形式，该计算机可用介质或计算机可读介质提供由计算机或任何指令执行系统使用或者结合计算机或任何指令执行系统使用的程序代码。为了本描述的目的，计算机可用介质或计算机可读介质可以是能够包含、存储、通信、传播或传输由指令执行系统、装置或设备使用或者结合指令执行系统、装置或设备使用的程序的任何装置。

适用于存储或执行程序代码的数据处理系统将包括通过系统总线被直接或间接耦接到存储器元件的至少一个处理器。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器，大容量存储和缓存存储器，该缓存存储器提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储检索代码的次数。

在上面讨论的系统收集或使用个人信息的情形中，系统向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交行为或活动、职业、用户的偏好、或者用户的当前位置的信息)，或者控制是否和/或如何从服务器接收可能与用户更相关的内容。另外，某些数据在其被存储或被使用之前可以以一个或多个方式来处理，使得个人可识别信息被移除。例如，可以处理用户的身份，使得不能确定用户的个人可识别信息，或者可以归纳获得位置信息的用户的地理位置(诸如归纳到城市、邮政编码或州级)，使得不能确定用户的特定位置。因此，用户可以控制如何收集关于用户的信息，以及如何由服务器使用信息。

Claims

1.一种用于生成组合媒体的方法，其特征在于，所述方法包括：

接收由与发送方相关联的发送方设备记录的发送方媒体；

由接收方设备为接收方播放所述发送方媒体；

由麦克风检测到所述接收方正在说话；

基于检测到所述接收方正在说话，记录接收方媒体；

基于所述发送方媒体中的暂停或语义中断，确定所述发送方媒体包括由所述发送方询问的问题，其中，被训练为检测所述暂停或所述语义中断的机器学习模型通过检测所述发送方媒体中的所述暂停或所述语义中断来确定所述问题；

基于所述暂停或所述语义中断，确定所述发送方媒体中响应所述问题的所述接收方媒体将被包括的位置；

确定所述发送方媒体的情境，所述情境包括在所述问题附近的所述发送方媒体的子集；以及

根据所述发送方媒体的所述子集和在所述位置处的所述接收方媒体来生成组合媒体，以创建概要。

2.根据权利要求1所述的方法，其特征在于，所述组合媒体是音频，并且进一步包括：

根据所述组合媒体来生成视频，所述视频包括所述发送方和所述接收方的图像。

3.根据权利要求1所述的方法，其特征在于，进一步包括：

进行语义分析以识别所述发送方媒体中的后续问题是不需要回答的设问。

4.根据权利要求1所述的方法，其特征在于，使用所述机器学习模型来确定所述发送方媒体的所述情境，使用训练数据来训练所述机器学习模型，所述训练数据包括被分类为包括暂停、语义中断或问题中的一个或多个的部分，其中，所述训练数据与所述发送方媒体不同。

5.根据权利要求1所述的方法，其特征在于，基于所述情境，所述发送方媒体被概括为文本转录。

6.根据权利要求1所述的方法，其特征在于，所述组合媒体是音频，并且所述机器学习模型被训练为分析与所述发送方媒体相关联的音频以检测所述音频中的问题。

7.根据权利要求1所述的方法，其特征在于，通过在所述发送方媒体中的所述接收方媒体将被包括的所述位置之后添加所述暂停来修改所述发送方媒体的所述子集，并且所述接收方媒体在所述暂停之后开始。

8.根据权利要求1所述的方法，其特征在于，检测到所述接收方正在说话包括，使用所述接收方设备的麦克风来检测语音信号的起点。

9.根据权利要求1所述的方法，其特征在于，进一步包括：

生成可操作为回放所述组合媒体的用户界面，所述用户界面包括搜索栏和标识符，所述搜索栏促进选择所述组合媒体内的不同回放位置，所述标识符识别所述接收方媒体在所述组合媒体中的所述位置。

10.根据权利要求1所述的方法，其特征在于，所述发送方媒体是视频文件或音频文件。

11.一种用于生成组合媒体的系统，其特征在于，所述系统包括：

一个或多个处理器；以及

被耦接到所述一个或多个处理器的存储器，其上存储有指令，当所述指令由所述一个或多个处理器执行时，所述指令使得所述一个或多个处理器进行操作，所述操作包括：

接收包括第一音频的发送方视频，所述第一音频由与发送方相关联的发送方设备记录；

为一组接收方播放所述发送方视频；

基于来自麦克风的一个或多个通知，检测所述一组接收方中的每个接收方何时说话；

基于所述一组接收方响应于所述发送方视频而说话，记录接收方媒体；

基于所述发送方视频中的暂停或语义中断，确定所述发送方视频包括由所述发送方询问的问题，其中，被训练为检测所述暂停或所述语义中断的机器学习模型通过检测所述发送方视频中的所述暂停或所述语义中断来确定所述问题；

基于所述暂停或所述语义中断，确定所述发送方视频中响应所述问题的所述接收方媒体将被包括的位置；

确定所述发送方视频的情境，所述情境包括在所述问题附近的所述发送方视频的子集；以及

根据所述发送方视频的所述子集和所述接收方媒体来生成组合视频，以创建概要。

12.根据权利要求11所述的系统，其特征在于，所述存储器具有其上存储的进一步指令，所述进一步指令使得所述一个或多个处理器进行操作，所述操作包括：

确定与所述组合视频中的来自所述一组接收方中的至少一个接收方说话的部分相关联的主题；以及

基于所述组合视频来生成包括搜索栏的用户界面，所述搜索栏示出(1)所述组合视频内的所述一组接收方响应所述发送方的位置；(2)在所述位置处说话的所述一组接收方中的接收方的数量；以及(3)与所述发送方视频的所述子集相关联的所述主题。

13.根据权利要求11所述的系统，其特征在于，所述接收方媒体是音频，并且所述存储器具有其上存储的进一步指令，所述进一步指令使得所述一个或多个处理器进行操作，所述操作包括：

根据所述组合视频来生成视频，所述视频包括来自所述一组接收方的一个或多个简档图像的至少一个简档图像。

14.一种具有指令的非暂时性计算机可读介质，其特征在于，当所述指令由一个或多个计算机执行时，所述指令使得所述一个或多个计算机进行操作，所述操作包括：

接收由与发送方相关联的发送方设备记录的发送方媒体；

由接收方设备为接收方播放所述发送方媒体；

由麦克风检测到所述接收方正在说话；

基于检测到所述接收方正在说话，记录接收方媒体；

15.根据权利要求14所述的计算机可读介质，其特征在于，所述组合媒体是音频，并且所述操作进一步包括：

16.根据权利要求14所述的计算机可读介质，其特征在于，所述操作进一步包括：

17.根据权利要求14所述的计算机可读介质，其特征在于，使用所述机器学习模型来进行确定所述发送方媒体的所述情境，使用训练数据来训练所述机器学习模型，所述训练数据包括被分类为包括暂停、语义中断或问题中的一个或多个的部分，其中，所述训练数据与所述发送方媒体不同。

18.根据权利要求14所述的计算机可读介质，其特征在于，基于所述情境，所述发送方媒体被概括为文本转录。

19.根据权利要求14所述的计算机可读介质，其特征在于，所述组合媒体是音频，并且所述机器学习模型被训练为分析与所述发送方媒体相关联的音频以检测所述音频中的问题。

20.根据权利要求14所述的计算机可读介质，其特征在于，通过在所述发送方媒体中的所述接收方媒体将被包括的所述位置之后添加所述暂停来修改所述发送方媒体的所述子集，并且所述接收方媒体在所述暂停之后开始。