CN116072130A

CN116072130A - 自动确定音频流中语音字幕的定时窗口

Info

Publication number: CN116072130A
Application number: CN202310074852.4A
Authority: CN
Inventors: 苏里什·乔杜里; 内博伊沙·齐里奇; 谦·范
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-05-02
Filing date: 2016-12-29
Publication date: 2023-05-05
Also published as: US20200090678A1; WO2017192181A1; EP3403261A4; EP3403261B1; CN108604455A; EP3403261A1; US11011184B2; US10490209B2; CN108604455B; US20170316792A1

Abstract

本发明涉及自动确定音频流中语音字幕的定时窗口。内容系统将音频流的分段输入到用于分类的语音分类器中，语音分类器针对音频流的分段生成表示音频流的相应分段包括语音声音出现的可能性的原始分值。内容系统基于该组原始分值生成音频流的二进制分值，每个二进制分值基于来自音频流的连续系列分段的原始分值的聚合而生成。内容系统基于二进制分值为音频流中的语音声音生成一个或多个定时窗口，每个定时窗口指示音频流中的一个或多个语音声音的开始和结束时间戳的估计。

Description

自动确定音频流中语音字幕的定时窗口

分案说明

本申请属于申请日为2016年12月29日的中国发明专利申请No.201680081781.9的分案申请。

技术领域

所公开的实施例一般涉及用于音频字幕的计算机实现的方法，更具体地，涉及自动确定在音频流中的语音声音的字幕的定时窗口。

背景技术

诸如视频流或音频流的许多媒体内容项包括语音声音和非语音声音。对于语音声音(例如，说出的词、演唱的词)，可以将字幕添加到内容项，使得可以在不需要听到内容的音频流的情况下消费内容。每天可以将非常大量(例如，数百万)的这样的内容项上载到在线内容系统。但是，并非所有这些内容项都与字幕一起被上载。虽然这些字幕后来可以通过自动语音声音识别系统添加，但是这些字幕的准确性通常非常差。字幕也可以由其他用户(例如，志愿者)添加，但是这些志愿者可能必须手动计时每个字幕的开始和结束时间戳，使得字幕匹配于内容中的语音声音的开始和结束时间戳。这对于用户执行来说可能是不方便的，并且可能妨碍志愿者提供字幕。

发明内容

在一个实施例中，描述了一种用于自动确定语音声音的定时窗口的计算机实现的方法。该方法还包括：访问音频流，并将音频流的分段输入到用于分类的语音分类器中，语音分类器针对音频流的分段生成表示音频流的相应分段包括语音声音的发生的可能性的原始分值。该方法还包括：基于该组原始分值生成音频流的二进制分值，每个二进制分值基于来自音频流的连续系列的分段的原始分值的聚合而生成；并且基于二进制分值生成用于在音频流中的语音声音的一个或多个定时窗口，每个定时窗口指示在音频流中的一个或多个语音声音的开始和结束时间戳的估计。

本发明内容和以下详细描述中描述的特征和优点并非包括一切。参考附图、说明书及其权利要求，许多附加特征和优点对于本领域普通技术人员将是显而易见的。

附图说明

图1是根据实施例的用于自动生成用于语音字幕的定时窗口的环境的高级框图。

图2是根据实施例的语音分类器的高级框图。

图3示出了根据实施例的来自语音分类器的原始分值的输出的示例性曲线图。

图4是示出根据实施例的分值平滑器聚合原始分值以生成二进制分值的过程的示例性曲线图。

图5示出了根据实施例的示例性曲线图，该曲线图具有来自分值平滑器并且基于聚合值的二进制分值的示例性输出。

图6A是根据实施例的字幕定时窗口修改器的高级框图。

图6B是根据实施例的辅助字幕模块的高级框图。

图7示出了根据实施例的具有已经自动生成字幕的字幕框的示例性用户界面(UI)。

图8是示出根据实施例的用于从音频输入自动生成非语音字幕的内容系统的动作的数据流程图。

附图仅出于说明的目的描绘了本发明的各种实施例。本领域技术人员将从以下讨论中容易地认识到，可以采用本文所示的结构和方法的替代实施例而不脱离本文所述的本发明的原理。

具体实施方式

I.概述

本文描述的内容系统提供了自动生成用于音频中的语音声音的字幕的定时窗口的优点。内容系统分析内容项的音频流并将音频流分成多个分段。对于每个分段，内容系统提取特征，并生成指示语音声音在该分段中发生的可能性的原始分值。平滑原始分值以生成二进制分值，该二进制分值又用于生成内容项的字幕框的定时窗口。定时窗口指示内容项中语音声音的开始和结束时间戳。然后，诸如志愿者的用户可以为这些语音声音框提供字幕文本。通过自动生成字幕框的定时窗口而不是请求用户这样做，内容系统进一步激励用户为已经上载到内容系统但没有相关字幕的内容项提供更多字幕。每分钟可以将数百小时的内容项上载到内容系统，并且并非所有这些内容都可以具有相关联的字幕。因此，对于那些听力不好或不能启用内容项的音频流的人来说，向这些用户提供字幕有助于他们欣赏内容项，并且还为内容项提供扩展的受众。

II.系统架构

图1是根据实施例的用于自动生成用于语音字幕的定时窗口的环境100的高级框图。图1示出了具有内容子系统140、定时子系统110、内容存储器130和字幕子系统150的内容系统105。内容系统105连接到网络190，网络190还连接到客户端设备170。虽然在图1中示出了某些元素，但是在其他实施例中，环境可以具有不同的元件。此外，元件之间的功能可以在其他实施例中以不同的方式分布到不同的或多个模块。

客户端设备和网络

客户端设备170是可以从内容子系统140访问内容的计算设备。客户端设备170的用户可以通过使用客户端设备170来浏览内容目录而访问内容子系统140的视频、使用关键字进行搜索、查看来自其他用户或系统管理员的播放列表(例如，形成频道的内容的集合)或查看与特定用户组(例如，社区)相关联的内容。另外，在一些实施例中，客户端设备170还可以用于将内容上载到内容子系统140。客户端设备170可以是台式机、膝上型电脑、智能电话、平板电脑、可穿戴设备、电视和机顶盒之类。虽然图1仅示出了单个客户端设备120，但是应该理解，许多客户端设备(例如，数百万)可以在任何时间与视频托管系统100通信。

在一个实施例中，客户端设备170访问来自内容子系统140的内容并经由内容呈现器175将内容呈现给用户。在一个实施例中，通过包括视频播放器(例如，符合HTML5标准的播放器)的web浏览器访问内容呈现器。此外，内容呈现器175可以能够与从字幕子系统150接收的字幕同时向用户呈现内容。这些字幕可以用于内容中的语音声音和/或非语音声音。内容呈现器175可以是允许用户查看由内容子系统140提供的网页和内容的网络浏览器。

在一个实施例中，客户端设备170可以将内容项上载到内容系统105(例如，经由内容呈现器175)。此外，使用客户端设备170的用户可能能够将字幕数据贡献给已经上载到内容系统105的内容项。如下面进一步详细描述的，内容系统105可以向客户端设备170提供用于内容项的定时窗口，定时窗口指示在内容项中检测到的语音声音的开始和停止时间戳。客户端设备170可以向用户显示并入到字幕框中的这些定时窗口，允许用户在用于与这些定时窗口相关联的语音声音的字幕中输入。

网络

网络190表示在客户端设备170和内容系统105之间的通信路径。在一个实施例中，网络190是互联网，但也可以是任何网络，包括但不限于LAN、MAN、WAN、移动、有线或无线网络、云计算网络、专用网络或虚拟专用网络，以及它们的任何组合。另外，可以使用诸如安全套接字层(SSL)、安全HTTP和/或虚拟专用网络(VPN)之类的传统加密技术来加密网络190的全部或一些链路。在另一个实施例中，实体可以使用定制和/或专用数据通信技术来代替或补充上述的技术。

内容系统

内容系统105向客户端设备170的用户提供内容项，并且还接收从客户端设备170上载的内容。内容系统105包括内容存储器130、内容子系统140、定时子系统110和字幕子系统150。内容系统105还可以包括附加元件、子系统和服务器，例如负载平衡子系统和内容分发网络等。从图1中的图示中排除这些和其他附加元件，以便提高理解的便利性。另外，每个所示子系统的功能可以在一个以上的硬件设备之间划分。例如，如本文所述的内容子系统140的功能可以分布在多个单独的服务器上。

内容商店

内容系统105的内容存储器130存储内容项135。内容项135可以包括各种持续时间、分辨率等的视频和/或音频内容项。例如，内容项135可以包括4K视频文件，或360度视频文件，或立体视频文件。每个内容项可以包括音频流，该音频流是内容项的音频部分(尽管这里使用术语“流”，但是它不一定表示音频正在流式传输，即，在由内容系统105向客户端设备发送的同时被客户端设备170持续地接收)。内容存储器130还可以存储内容项135的关联元数据，包括与内容项135相关联的语音字幕150。存储在内容存储器130中的每个内容项135也可以与诸如字幕、描述、响应性评论和评级等的元数据一起存储并与元数据相关联。

语音字幕150包括内容存储器130中的多个内容项135中的语音声音的转录文本。语音声音可以包括可以理解为语言的任何类型的音频。这可能包括口语对话、有节奏的口语和唱词等。语音声音也可以包括多种语言的语音(即，不仅仅是英语)。在一个实施例中，语音字幕150包括多个条目，每个条目包括定时窗口和与定时窗口相关联的文本。定时窗口包括开始时间戳和结束时间戳，并且文本包括在开始时间戳和结束时间戳之间的内容项中存在的语音声音的转录。例如，定时窗口可以具有00:54:12秒的开始时间戳、00:54:17的结束时间戳，并且相关联的文本可以是“一个人可以说服任何人他其实是别人，而绝非他自己”。注意，由于转录、定时或其他错误，文本可能并非在所有情况下都准确地表示内容项的对应分段中的语音声音。在一个实施例中，内容项也可以与非语音字幕相关联。非语音字幕还可以包括指示何时在内容项内发生非语音声音(例如，笑声)的定时窗口，以及非语音声音是什么的指示符(例如，“音乐”，或标识符，诸如用于音乐的非语音声音的数字)。

内容子系统

内容子系统140提供对内容项135的访问、查看和收听，并允许上载内容项135(过程未示出)。内容子系统140允许用户通过搜索和/或浏览界面访问内容存储器130中的内容项135。内容项135可以源自内容的用户上载，源自内容的其他网站或数据库的搜索或抓取等，或其任何组合。例如，在一个实施例中，内容子系统140可以被配置为允许内容的用户上载。内容子系统140将这些上载的内容项存储在内容存储器130中。作为另一示例，内容子系统140可以通过网络190从其他内容数据库检索内容。

内容子系统140处理从用户接收的搜索查询。搜索查询可以包括搜索准则，诸如可以识别用户有兴趣观看的视频的关键字。内容子系统140可以使用搜索准则，以例如查询与存储在内容存储器130中的所有内容项135相关联的元数据和/或实体。来自查询的搜索结果由内容子系统140发送到客户端设备170。

内容子系统140可以从客户端设备170接收内容(过程未示出)。所接收的内容的处理可以包括将标识号分配给新接收的内容。处理接收的内容的其他步骤可以包括格式化(例如，码转换)、压缩、元数据标记、内容分析和/或其他数据处理方法。

除了内容之外，内容子系统140还可以接收伴随的字幕数据。字幕数据可以指示与内容中的语音(和非语音声音)相对应的字幕的开始和结束时间。内容还可以与其他信息相关联，例如字幕、描述、内容类型、作者和评级等。内容子系统140将内容(和任何相关联的元数据)存储在内容存储器130中。

内容子系统140可以以与YouTube^TM网站类似的方式提供内容；其他视频托管网站也是已知的，并且可以适于根据这里公开的教导进行操作。

定时子系统

定时子系统110对于内容项135，至少对于在被内容子系统140接收时没有伴随字幕数据的那些内容项，生成用于语音字幕的定时窗口。如上所述，这些定时窗口包括开始和结束时间戳，其指示在内容项的音频流中的语音声音的开始和结束。为了生成这些定时窗口，定时子系统110可以包括语音分类器115和分值平滑器120。语音分类器115生成用于表示音频流的分段包括语音声音的数值可能性的原始分值。分值平滑器120通过平滑来自语音分类器115的原始分值来生成音频分段的二进制分值。内容项的音频流的分段的二进制分值指示平滑器120对于该分段是否具有语音声音或没有语音声音的肯定的最佳估计确定，并且可以用于生成音频流的定时窗口，其指示语音声音在音频流中开始和结束的位置。

语音分类器115生成指示(内容项135的)音频流的分段包括语音声音(语言应激，language-agonistic)的可能性的原始分值。为了生成这些原始分值，语音分类器115将音频流分割或分成多个分段(例如，每个分段长度为250毫秒(ms))。每个分段可以与前面和后面的分段部分重叠。语音分类器115使用训练的模型或分类器分析每个分段，以确定音频流的分段呈现语音声音的可能性。可以使用数值，即原始分值，表示该可能性。可以使用从由用于音频流中的语音声音的现有字幕组成的数据语料库中提取的特征来训练模型。虽然可以训练模型以指示声音是否是语音，但是关于生成定时窗口的目的，可以不必训练模型来确定语音声音的实际音素、音节、单词、句子或其他语义或语法，可以足以确定语音是否存在。下面参考图2描述关于语音分类器115的附加细节。

分值平滑器120通过平滑原始分值从来自语音分类器115的原始分值生成二进制分值。由于语音分类器115生成的原始分值可能在短时间段(例如，1秒)内以高频率波动，因此直接使用原始分值可能导致对于在音频中的单个语音部分具有多个定时窗口的不期望结果。从某人试图将字幕添加到时间窗口或读取输入到这些时间窗口中的字幕的角度来看，输入每个窗口的带有字幕的语音的量可能太小而不能连贯地映射到屏幕上的活动，并且观看者可能难以阅读并按照正在发生的事情进行操作，因为时间窗口通常太短以至于无法在屏幕上停留任何有意义的持续时间。替代地，分值平滑器120产生二进制分值，其不会显著波动并因此被“平滑”。

分值平滑器120通过在音频流的连续分段上聚合一系列原始分值以生成聚合值来平滑音频流的特定分段的原始分值。例如，分值平滑器120可以聚合来自总共1000毫秒时间的音频流的分段的原始分值。聚合可以是数学或统计运算，例如平均值或中值。如果聚合值超过阈值，则该系列连续分段的二进制分值可以设置为1(即，开启或高，表示存在语音)。否则，该系列连续部分的二进制分值可以被设置为0(即，关闭或低，表示没有语音)。分值平滑器120确定二进制分值的每个系列的连续分段可以与其他系列的连续分段部分重叠。在将原始分值平滑成二进制分值之后，分值平滑器120生成对应于这些二进制分值的定时窗口(例如，与二进制分值1的连续时段相关联的每个定时窗口)，并且如果分值平滑器120确定定时窗口引入大量错误，则可以调整阈值。将在下面参考图3-5进行描述关于分值平滑器120的附加细节。

字幕子系统

字幕子系统150将语音字幕140提供给客户端设备170以用于与相关联的内容项135一起呈现，并且还为用户提供用于为可能没有与其相关联的语音字幕140的内容项135提供语音字幕140的界面。

当客户端设备170请求并被呈现有内容项135时，如果该客户端设备170也请求内容项135的字幕，则字幕子系统150可以将内容项135的字幕提供给客户端设备170，以与内容项135一起呈现。字幕子系统150可以选择与内容项135相关联的语音字幕140，并将这些字幕与指令一起发送到客户端设备170，该指令用于在内容项135的回放期间在某些时间将文本呈现在语音字幕中的某些条目内，使得根据用于条目的定时窗口信息呈现每个条目中的文本。例如，指令可以使客户端设备170在与字幕条目相关联的定时窗口的开始时间戳和结束时间戳之间的回放期间呈现字幕条目的文本。另外，指令还可以指示客户端设备170如何可视地格式化文本以用于呈现(例如，字体样式、字体类型、字体大小、屏幕上的文本位置等)。在一个实施例中，除了语音字幕140之外，字幕子系统150还检索描述内容项中的非语音声音的一组非语音字幕(例如，笑声)，并将这些非语音字幕以及关于如何呈现它们的指令发送到客户端设备170。

对于没有字幕信息或具有不完整或不准确的字幕信息的内容项135(例如，使用语音识别的自动字幕可能不会产生准确的结果)，字幕子系统150从客户端设备170接收用于语音字幕140的用户生成的条目。客户端设备170的用户可以将内容项135中的语音声音(例如，口语对话)转录成文本，并将该转录的文本提交给字幕子系统150，字幕子系统150可以将它们存储为字幕条目的一部分。

在其他系统中，当为一部分语音转录特定系列的语音声音时，用户必须向字幕子系统150指定该部分语音的开始和结束时间戳。换句话说，用户必须手动指定用户转录的每个文本部分的定时窗口。定时窗口的指定对于用户来说是繁琐的，并且因此可能妨碍用户提供语音声音的转录。

为了解决这个问题，字幕子系统150包括辅助字幕模块160，其使用由定时子系统110为内容项135生成的定时窗口，以便自动地为内容项135中的语音部分提供定时窗口。通过为内容项135中的语音部分提供自动确定的定时窗口，辅助字幕模块160能够在用户为内容项135的语音字幕140提供用户转录的文本时大大减少用户的努力。这与其他特征(例如，每个用户的评级分值)一起增加了对于用户协助(例如，众包源)从内容项中的语音转录文本的激励。

另外，字幕子系统150还可以包括字幕定时修改器155，以为显示给用户的字幕框创建最终定时窗口。字幕定时修改器155可以基于一组配置来修改由定时子系统140生成的定时窗口。字幕定时修改器155修改定时窗口以产生一组字幕框，这些字幕框对于观看者来说在视觉上更令人愉悦。例如，字幕定时修改器155可以分割超过特定持续时间的定时窗口，使得可以从该定时窗口生成多于一个的字幕框。作为另一示例，字幕定时修改器155可以将短于特定持续时间的多个定时窗口连接在一起，或者可以延长短于特定持续时间的定时窗口。将在下面参考图6-7描述关于字幕定时修改器155和辅助字幕模块160的附加细节。

III.语音字幕分类器

图2是根据实施例的语音字幕分类器115的高级框图。图2的语音字幕分类器包括：音频分离器210、过滤器级联模型220(用于确定特征)和分类器模型225(用于确定如上所述的原始分值)。虽然图2中示出了某些元件，但是在其他实施例中，环境可以具有不同的元素。此外，元件之间的功能可以在其他实施例中以不同的方式分布到不同的或多个模块。

音频分离器210将内容项135的音频流分成不同的分段。音频分离器210将音频流分成特定持续时间的小分段，每个分段从前一分段的开始偏移一个间隔。在一些情况下，每个分段的持续时间长于每个分段之间的时间偏移间隔，并且因此分段可以部分重叠。例如，每个分段可以相隔10毫秒间隔，并且每个分段的持续时间可以是250毫秒。因此，10秒音频剪辑将具有1,000个单独的分段，第一分段在0毫秒开始并在250毫秒结束，并且第二分段在10毫秒开始并在260毫秒结束，等等。最后分段将在9,750毫秒(即10,000毫秒-250毫秒)开始，并在10,000毫秒结束。特别地，X持续时间的音频剪辑内的分段的数量将是：((X-分段大小)/间隔大小)+1。

或者，最后分段可以在持续时间上更短并且可以不具有等于其他分段的持续时间的持续时间。虽然在此示例中持续时间被指示为250毫秒，但在其他实施例中，持续时间是1000毫秒(即，一秒)。在另一实施例中，最后分段可以是规则的分段长度，并且在分段超过音频剪辑的长度的情况下，用空或零信号填充分段。例如，参考上面的示例，对于在10秒剪辑中在9900毫秒开始的分段，可以用零填充超出音频剪辑的结尾的分段的剩余150毫秒。

过滤器级联模型220从音频分离器210接收内容项的音频流的分段，并提取每个对应分段的特征。在一个实施例中，过滤器级联模型220基于人耳的生理学。过滤器级联模型220可以将输入声音分成多个频率通道，并且包括多个过滤器的级联(其中增益控制耦合到每个过滤器)。每个过滤器滤除特定范围的频率或声音，并且来自这些各种过滤器的(数值)输出被用作特征的基础，分类器模型225使用该特征来对分段中的语音声音进行分类。在一个实施例中，可以处理过滤器的输出以生成听觉图像，该听觉图像用作分类器模型225的特征值的基础。

在一个实施例中，过滤器级联模型220是具有快速动作压缩(CARFAC)模型的非对称谐振器的级联。与多时间尺度耦合自动增益控制(AGC)网络结合的CARFAC模型基于听觉过滤的零极点过滤器级联(PZFC)模型。这模仿了听觉生理学的特征，例如掩蔽、压缩行波响应以及信号水平的过零时间的稳定性。CARFAC模型的输出(“神经活动模式”)可以被转换来捕获声音的音调、旋律和其他时间和谱特征。

尽管使用如本文所述的过滤器级联模型220来提取特征，但是在其他实施例中，可以使用另一模型来提取特征，诸如由梅尔过滤器组(mel filter bank)修改的频谱图。换句话说，语音分类器115利用梅尔频率倒频谱系数(MFCC)作为音频流的提取特征。这些MFCC表示基于音高感知音阶的音频功率谱，其称为梅尔音阶。也可以使用其他提取特征的方法，例如使用音频分段本身的原始频谱图作为特征。

在由过滤器级联模型220生成特征的值之后，语音分类器115将特征的值输入到分类器模型225中。分类器模型225可以是机器学习模型，例如深度神经网络、贝叶斯网络、支持向量机或其他机器学习模型，其接受音频分段的特征值作为输入，并生成该分段的原始分值，其指示该分段包括语音声音的可能性。该原始分值可以从0(0％可能性)扩增到1(100％可能性)。例如，分类器模型225可以为音频分段指示在分段中出现语音声音的原始分值(即，可能性)是0.6(60％)。

为了训练分类器模型225，使用从训练数据集提取的特征(使用过滤器级联模型)。训练数据包括音频流和对应的字幕标签，其指示其中已知出现语音声音的音频流内的定时窗口。用于音频流的字幕标签还可以指示语音发生在某个时间点或音频流的分段中或者语音在某个时间范围内发生。字幕标签可以转录在音频流中的实际语音，或者可以简单地指示语音发生的位置。训练数据可以包括来自不同语言的语音，并且可以包括其各种形式的语音，例如低声语音、演唱语音等。在一些情况下，可以不同地标记不同语言和形式的语音。在一个实施例中，训练数据中的音频流可以被分成间隔，例如两秒间隔，每个间隔将被单独用作训练样本。

训练数据可以从内容存储器110检索，并且可以基于已经与用户以高于特定阈值的良好信任分值提供的字幕相关联的内容项的字幕。在下面进一步详细描述这些信任分值。当接收到新的训练数据时，可以更新训练数据并且周期性地重新训练模型。还可以从第三方检索或接收训练数据(例如，来自广播字幕数据和音频的语料库)。分类器模型225可以自己训练，或者训练可以由管理员或其他用户执行。

训练过程可以是迭代的(例如，通过使用反向传播)，并且对于每次迭代，可以更新在分类器模型225内的权重以最小化在来自分类器模型225的输出与训练数据集中所有样本的基础事实数据之间的误差。例如，在训练集内，语音的出现可以被给予数值分值“1”，而语音不出现可以被给予数值分值“0”。训练分类器模型225，使得它最近地接近在基础事实数据中的这些值(例如，“1”和“0”)，即，使分值类器模型225的输出与基础事实值之间的德尔塔(delta)被最小化。由于训练数据可能不完全准确，因此训练数据的某些部分的值也可以根据数据的来源而被不同地加权。例如，可以根据训练数据的源的音频流记录的质量(例如，麦克风质量)来对训练数据进行加权。

在初始训练过程之后，可以将来自与训练数据分开并且还与一组字幕标签相关联的一组测试数据中提取的特征馈送到分类器模型225中，以验证分类器模型225的输出是准确的。如果测试数据显示输出中的误差超过特定阈值，则可以使用更大的数据集或使用不同的初始权重集来重新训练分类器模型225。

IV.示例性语音分类器原始分值图

图3示出了根据实施例的来自语音分类器115的原始分值的输出的示例性曲线300。如图3所示，由语音分类器115在每个分段的内容项的音频流的持续时间内生成原始分值。如图3中所示，存在N个分段，其在图300的水平轴上被标记为分段号310。每个分段具有特定持续时间，并且从前一分段的开始处以指定的偏移间隔开始，如上所述。由于每个分段可能仅与前一部分偏移一个短的偏移间隔，因此单个音频流可能具有数百或数千个分段或更多。

语音分类器115为这些分段中的每一个生成原始分值。该原始分值在图300上表示为原始分值标绘线330。如图3所示，由语音分类器115生成的原始分值可以随时间显著变化，并且原始分值可以在整个可能分值范围内分布。由于原始分值的波动，它们可能不容易用作语音是否在音频流中的某个时间点发生的指示符。替代地，如下所述，原始分值被平滑成一组二进制分值。注意，尽管图3中所示的曲线为了便于说明可能看起来是连续的，所产生的实际原始分值是离散的。

V.用于分值平滑的示例性过程

图4是示出根据实施例的分值平滑器120聚合原始分值以生成二进制分值的过程的示例性曲线图400。如前所述，分值平滑器120“平滑”由语音分类器115生成的原始分值，并基于原始分值生成一组二进制分值。为了生成这些二进制分值，分值平滑器120基于每个系列中的分段的原始分值(由语音分类器115计算)生成或计算音频流中的一系列连续分段中的每一个的聚合值。对其作用分值平滑器120的每个系列的连续分段可以包括特定数量的分段(例如，100个重叠分段等于一秒的时间)，并且每个系列可以从前一个系列偏移某个数量的分段(例如，一个分段)或某个时间间隔(例如，250毫秒)。

聚合函数可以是由分值平滑器120使用聚合函数计算的。聚合函数可以是从类似类型的多个值生成单个值的任何统计或数学运算，其中，单个值表示某些属性、特征或其他依赖于多个值的特征。这种聚合函数的示例可以包括中值、平均值、方差、标准偏差和几何平均值等。在一个实施例中，分值平滑器120使用针对系列分段中的原始分值的预定聚合函数来生成聚合值。

在另一实施例中，分值平滑器120在多个聚合函数之间进行选择以确定要使用的最佳聚合函数。为了确定要使用的最佳聚合函数，分值平滑器120可以使用其中字幕标签已知的验证数据集，并选择产生与验证数据的基础事实最佳匹配的聚合值集合的聚合函数。例如，分值平滑器120可以首先使用平均值作为对从验证数据(由语音分类器115)生成的原始分值的聚合函数，并将得到的聚合值与验证数据集的字幕标签进行比较，以根据基础事实的值确定聚合值的误差量(德尔塔)。然后，分值平滑器120可以使用其他聚合函数来确定误差，并选择在所有聚合值上产生最小误差的聚合函数。

如图4所示，连续分段的示例性系列450A-D中的每一个包括100个分段。由于每个分段从前一分段偏移10毫秒，因此每个分段450包括大约一秒量的分段。对于每个分段系列450，分值平滑器120基于在相应分段系列450中的分段的原始分值来计算聚合值460A-D。因此，使用在分段系列450A中的分段的原始分值来计算聚合值460A，并且基于分段系列450B中的原始分值计算聚合值460B，等等。出于说明的目的，图400中示出的聚合值460表示在相应分段系列450中的分段的原始分值的平均值，然而，在另一实施例中，另一聚合函数可用于生成聚合值460。请注意，图示中的平均值可能在数学上不准确，并且可能仅为图示目的是平均值的近似值。

基于聚合值，分值平滑器120生成二进制分值，如下面关于图5进一步详细描述。

图5示出了根据实施例的示例性绘图500，其具有来自分值平滑器120的二进制分值的示例性输出并且基于如图4中所示的聚合值460。这些二进制分值用于生成音频流中语音声音的字幕的定时窗口。为了生成二进制分值，分值平滑器120获取与每个分段系列相关联的每个聚合值460，并确定该聚合值460是高于还是低于阈值。如果聚合值460高于阈值，则分值平滑器120将与用于生成聚合值460并且不与任何其他分段系列重叠的分段系列450相对应的音频流的部分的二进制分值设置为“开启”(下面给出示例)。类似地，如果聚合值460低于阈值，则分值平滑器120对于相应的部分将二进制分值设置为“关闭”。

在一个实施例中，阈值是默认的预配置值。在另一实施例中，由分值平滑器120选择的阈值基于用于生成聚合值的聚合函数而变化。在另一实施例中，阈值由分值平滑器120基于验证数据集(基础事实)动态地确定。分值平滑器120选择阈值并生成一组二进制分值。

分值平滑器120生成对应于二进制分值的定时窗口。例如，分值平滑器120确定开始时间戳对应于在音频流中当二进制分值从关闭切换到开启的时间，并且对应的停止时间戳是二进制分值从开启切换到关闭的时间。在生成定时窗口之后，分值平滑器120将定时窗口与验证数据进行比较以确定误差值。误差值等于在基础事实验证集中的实际开始和结束时间戳以及由分值平滑器120使用二进制分值计算的对应的开始和结束时间戳之间的所有德尔塔(差异)的总和的一半。分值平滑器120可以迭代地调整阈值以便达到较低的误差值。

在曲线图500中进一步示出了上述过程。如图所示，水平轴保持为分段编号310，然而，垂直轴表示二进制分值520而不是原始分值范围，如图3和4所示。如图5中所示，二进制分值标绘线510表示所生成的二进制分值的曲线图，并且在关闭和开启之间(例如，0和1)移动。来自图4的聚合值460被覆盖为虚线。当聚合值460高于阈值430(由虚线表示)时，对应部分的二进制分值被设置为“开启”，并且当聚合值460低于阈值430时，对应的部分的二进制分值被设置为“关闭”。每个对应的部分聚合值是从用于计算聚合值的第一个分段的开始时间戳直到引入第二个分段系列的时间点的音频流的部分。例如在图示的曲线图500中，对应于聚合值460的部分在分段号0处开始并在分段号25处结束(下一分段系列和下一聚合值开始的点)。

在所示的曲线图500中，二进制分值标绘线510保持在“开启”位置直到分段号50，然后切换到“关闭”位置。整个音频流可以包括更多分段。二进制分值标绘线510持续音频流的整个长度，直到它到达结束(分段N)。注意，二进制分值标绘线510中的锯齿线表示这里未示出二进制分值标绘线510的部分。

在生成二进制分值之后，分值平滑器120还生成与这些二进制分值对应的定时窗口。定时窗口对应于音频流二进制分值在开启和关闭之间切换是的时间位置。具体地，定时窗口的开始时间戳对应于二进制分值从“关闭”切换到“开启”(或“0”到“1”)，并且定时窗口的停止时间戳对应于二进制分值从“开启”切换到“关闭”的时间。在“开始”和“停止”时间戳之间的时间段是内容系统105确定出现语音声音的音频流的部分。原始分值、二进制分值和/或定时窗口可以被定时子系统110存储在内容存储器130中，具体地，可以存储为关联的音频流和内容项135的语音字幕140。

通过使得分值平滑器120执行该平滑操作，将原始分值转换为一组二进制分值，其较少波动并且更稳定，在开/关转换之间具有更长的时段。与使用原始分值直接生成定时窗口的系统相比，分值平滑器120从这些二进制分值生成的定时窗口更可能增加字幕的使用。注意，这里的图可能未按比例绘制，并且可能在计算上/数学上不准确，而是出于说明性目的而被示出。

VII.示例性字幕定时修改器和辅助字幕模块

字幕定时修改器

图6A是根据实施例的字幕定时修改器155的高级框图。图6A的字幕定时修改器155包括定时分割器610、定时连接器615和定时扩展器620。虽然在图6A中示出了某些元素，但是在其他实施例中，环境可以具有不同的元素。此外，在元素之间的功能可以在其他实施例中以不同的方式分布到不同的或多个模块。

定时分割器610划分那些较长持续时间的定时窗口，以便为这样的定时窗口生成多于一个的字幕框。如这里所使用的，定时窗口的持续时间是定时窗口的开始时间戳和结束或停止时间戳之间的时间差。如上所述，开始时间戳指示音频流中的语音声音的开始，并且结束或停止时间戳指示音频流中的语音声音的结束。当定时窗口的持续时间长于预定义的最大持续时间(例如，10秒)时，定时分割器610可以将定时窗口划分或分割成多个定时窗口，使得从这些多个定时窗口创建的字幕框具有更短长度，并且更有可能推动内容系统105的用户对字幕的使用的增加。例如，如果定时窗口具有10秒的持续时间(其中语音声音在整个相应的音频流中存在)，而不将定时窗口分割为多个定时窗口，则从该字幕生成的字幕框将具有10秒的持续时间，并且当在屏幕上显示时可能非常大。这可能会导致用户禁用字幕并降低字幕的采用率。替代地，定时分割器610将这些定时窗口划分为较小的定时窗口，其可以生成较短时间段显示的字幕框。

定时分割器610可以将定时窗口划分为特定预设持续时间(例如，3秒)的较小定时窗口。在一些情况下，通过将定时窗口分成这些较小的定时窗口，所得到的定时窗口可以包括剩余定时窗口(在原始定时窗口的“结束”处)，其具有低于最小阈值的不期望的短的持续时间(例如，1秒)。在这种情况下，定时分割器610可以替代地将延续该剩余定时窗口的定时窗口和该剩余定时窗口组合在一起，并将该组合定时窗口分成两半，以便生成相同持续时间的两个定时窗口，并生成并非不合适地短的结束时间窗口。定时分割器610还可以简单地将定时窗口划分为某个数量的分区(例如，两个分区)，使得得到的定时窗口比预定义的最大持续时间短，而不是将定时窗口分成预设持续时间的多个定时窗口。

在一个实施例中，定时分割器610从定时子系统110接收其中出现短间隙(例如，微间隙)的定时窗口中的位置的指示。这些可以是非常短的持续时间(例如，0.2秒)的间隙，平滑过程忽略该间隙，但是可以将其用作分割点。尽管语音声音在定时窗口的整个持续时间内基本上是连续的，但是在间隙处分割定时窗口允许生成在间隙点处自然分割并且从而产生视觉上更加令人愉悦的结果的字幕框。

定时连接器615组合低于预定义的最小持续时间的定时窗口，以便生成至少在预定义的最小时间段内呈现的字幕框。当音频流中的多个定时窗口具有低于预定义最小值(例如，1秒)的持续时间并且也在相对于彼此的特定间隔(例如，0.5秒)内时，定时连接器615可以将定时窗口组合或连接成单个定时窗口，使得基于组合的定时窗口的字幕框在组合的定时窗口时段的持续时间内显示，而不是单独地显示每个原始的较短定时窗口的持续时间。这允许显示字幕框，这些字幕框不会“闪烁”，在“闪烁”的情况下字幕框被显示然后被快速连续地从视野中移除。定时连接器615可以将这些较短持续时间定时窗口连接在一起直到预定义的最大持续时间，如前所述。如果要连接附加定时窗口，则定时连接器615将这些附加定时窗口连接成单独的组合定时窗口。

定时扩展器620扩展具有小于预定义最小值的持续时间的定时窗口，使得定时窗口的持续时间至少是预定义最小值的持续时间。当定时窗口小于预定义的最小持续时间但是在时间上不与另一个定时窗口以特定间隔(例如，1秒)相邻，并且因此与其他定时窗口隔离时，定时扩展器620通过移位定时窗口的开始或结束时间戳延长了定时窗口的持续时间，使得由该定时窗口生成的字幕框被呈现至少预定义的最小持续时间。这会创建在预定义的最短持续时间内显示的字幕框，允许用户有足够的时间阅读字幕，而不是在呈现期间快速闪烁字幕。

定时扩展器620是否将开始时间戳向回移位、将结束时间戳前进或两者都取决于呈现定时窗口的情境。如果定时窗口的开始时间戳接近或位于音频流的开始(例如，在0.2秒内)，则定时扩展器620可以向前移动定时窗口的结束时间戳，直到定时窗口的持续时间满足预定义的最小值。如果定时窗口的结束时间戳接近或位于音频流的末尾(例如，在0.5秒内)，则定时扩展器620将定时窗口的开始时间戳回移，直到定时窗口的持续时间满足预定义的最小值。在一个实施例中，定时扩展器620可以替代地修改音频流以添加静音部分，以便适应具有移位的时间戳的定时窗口。例如，定时扩展器620可以将定时窗口的结束时间戳延伸超出音频流的末尾，并且然后将静音部分插入到匹配超过了原始音频流的末尾的定时窗口的持续时间的音频流的末尾。

如果定时窗口不在音频流的结束或开始附近，则定时扩展器620可以延长定时窗口的结束时间戳，直到满足预定义的最小值。然而，如果延长结束时间戳导致定时窗口在长持续时间的另一个定时窗口的某个间隙间隔(例如，1秒)内，则定时扩展器620可以替代地移位定时窗口的开始和结束时间戳二者，以便满足预定义的最小持续时间，并且使得定时窗口相对于较长持续时间定时窗口具有至少某个间隙间隔。

辅助字幕模块

图6B是根据实施例的辅助字幕模块160的高级框图。图6B的辅助字幕模块160包括：辅助定时模块650、自动定时反馈模块655和用户字幕反馈模块660。虽然在图6B中示出了某些元件，但是在其他实施例中，环境可以具有不同的元件。此外，元件之间的功能可以在其他实施例中以不同的方式分布到不同的或多个模块。

辅助定时模块650根据自动生成的字幕定时窗口向客户端设备170提供具有字幕框的图形界面，以供用户提供字幕文本。可以直接从定时子系统110或通过字幕定时修改器155接收自动生成的字幕定时窗口。当字幕子系统150从客户端设备170接收到指示用户希望提交与内容项相关联的音频流的字幕的请求时，辅助定时模块650向用户提供界面(例如，通过向呈现界面的客户端设备170发送HTML或其他代码)，其允许用户回放音频流(以及任何伴随的视频)，并输入用于音频流中的语音声音的字幕文本。辅助定时模块650还访问音频流的定时窗口(可能是在上载内容项时动态生成的或先前生成的)，并且为用户提供带有字幕框的界面以及根据这些定时窗口的每个字幕框的开始和结束时间戳，以及修改开始和结束时间戳的选项。这允许用户查看每个字幕的持续时间，输入与每个字幕相关联的字幕文本，并且如果自动生成的用于字幕的定时窗口由用户确定为不准确或以某种方式不受欢迎，则修改每个字幕的开始和结束时间戳。在图7中示出并且在下面描述由辅助定时模块650呈现的示例性用户界面。

在一个实施例中，辅助定时模块650向用户提供界面以允许用户以长形式输入内容项135的字幕。因此，代替分别为每个单独的语音声音输入字幕文本，辅助定时模块650可以允许用户在单个块中(例如，在单个文本框中)输入内容项的整个字幕文本。辅助定时模块650基于定时窗口将输入的字幕文本分成相应的字幕框。

为此，辅助定时模块650可以基于所有自动生成的定时窗口的持续时间和在输入的字幕文本中的音节数来确定内容项135的音频流中的语音的近似速度或速率(例如，每分钟的音节)。使用速率信息，辅助定时模块650还确定在输入文本中的间隙或中断的位置，其可以通过标点符号或其他语法(例如，句号、新段落、逗号等)指示，可以对应于在自动生成的定时窗口之间的间隙。例如，当根据语速确定句子与定时窗口具有相同的持续时间时，输入的字幕文本中的句子可以对应于自动生成的字幕数据中的定时窗口的结束。

在将输入的文本分成相应字幕框之后，辅助定时模块650可以提示用户验证输入的文本是否被正确地分成正确的字幕框。如果需要，则用户可以修改在每个字幕框中的文本。

在一个实施例中，辅助定时模块650可以利用语音识别引擎自动将内容项中的语音转录为字幕文本，根据自动生成的定时窗口将字幕文本输入字幕内，并向用户呈现此完成的字幕集合以用于编辑和验证。由于内容项135中的语音的语音识别可能不完全准确，因此验证过程允许用户对转录的文本进行编辑以提高准确性。辅助定时模块650还可以将该编辑的字幕文本反馈给语音识别引擎以提高其准确性。通过首先转录文本，还自动生成字幕，辅助定时模块650还可以在用户将内容项135的语音声音转录为字幕文本时为用户节省更多时间。

自动定时反馈模块655基于从用户接收的反馈来确定自动生成的定时窗口的质量。在内容系统105中，例如由单个实体创建的或在单个用户名下等的每个内容项分组可以与全局唯一标识符相关联。在一些情况下，在通道级别识别该内容项分组，其中，每个通道包含由与用户名相关联的用户分配给该组的一组内容项。自动定时反馈模块655可以收集来自用户的对于自动生成的定时窗口的质量的反馈，因为它们与辅助定时窗口模块650针对每个通道的字幕框的创建有关。该反馈用于为特定通道的自动生成的定时窗口生成分值。某些被动反馈被认为是负面的，并且对通道的自动生成的定时窗口的分值产生负面影响。这些的示例包括修改自动生成的字幕框的时间窗口的开始和结束时间戳，删除自动添加的字幕框，并且为未自动检测到的语音声音添加新的字幕框等等。这些修改表明自动生成的定时窗口不准确。较低数量的这些负反馈事件可以替代地使得自动定时反馈模块655增加用于通道的自动生成的定时窗口的分值。在一些情况下，来自具有较低信任分值的用户的反馈事件可以被加权以在计算反馈分值时不太重要。

如果通道的反馈分值下降到某个阈值以下(例如，阈值可以是内容系统105中针对所有通道的当前反馈分值的平均值)，则自动定时反馈模块655可以发送消息到管理员，或者可以使用来自用户的新生成的字幕作为通道的新的基础事实数据，以进一步优化定时子系统110使用的分类器模型，以生成如上所述的二进制分值。该模型的参数的这种优化和改变可以特定于指示了低于水准的反馈分值的通道，或者可以是普遍适用的，或者可以对特定通道更强地加权，而对于其他通道则不是强加权。

用户字幕反馈模块660确定字幕文本的用户贡献的信任分值。用户字幕反馈模块660在接收到字幕文本的用户贡献时，对字幕文本执行一个或多个基本检查(例如，“健全性”检查)以验证其准确性和质量。该检查可能涉及所接收的字幕文本的语言、长度和其他特征。

例如，用户字幕反馈模块660可以针对字幕文本检查不适当的词汇，并且特别是亵渎语言或其他强语言。取决于内容项的指示评级，可能不期望对音频流出现某种语言，并且因此这种语言的出现可能导致用户字幕反馈模块660降低有贡献用户的信任分值。作为另一示例，用户字幕反馈模块660可以检查以查看所提供的字幕文本的长度或覆盖范围是否大致匹配内容项的长度。如果不是，则用户字幕反馈模块660可以降低有贡献用户的信任分值。作为最后的示例，用户字幕反馈模块660可以检查以查看所接收的字幕文本的语言是否与针对内容项指示的语言(例如，“英语”)匹配。如果语言不匹配，则用户字幕反馈模块660可以降低有贡献用户的信任分值。

如果用户的信任分值低，则用户字幕反馈模块660可以对用户提供的贡献执行更多检查。另外，用户字幕反馈模块660可以请求其他用户的附加评论以及由被标记为内容项的所有者的实体(例如，用户)的最终评论。如果用户的信任分值高(例如，高于阈值)，则用户字幕反馈模块660可以对用户的贡献执行较少的检查，并且可能要求较少的其他用户的评论。当请求来自其他用户的评论时，用户字幕反馈模块660可以向辅助定时模块650指示请求附加用户验证所提供的字幕文本的准确性。其他用户对提供的字幕文本所做的改变的数量可以与最初提供字幕文本的用户的信任分值的降低成比例。换句话说，在验证期间由其他用户所做的更改越少，则用户的信任分值可能越高。如果用户的信任分值低于某个级别，则用户字幕反馈模块660可以阻止该用户提供字幕文本。

VIII.示例性辅助字幕用户界面

图7示出了根据实施例的具有自动生成的字幕的字幕框的示例性用户界面(UI)。尽管这里示出了一组UI元素，但是在其他实施例中，UI元素可以以小的变化在美观上不同或者可以显著不同。然而，这些其他实施例中的UI的功能可以类似于这里描述的功能。

框架710显示用于回放的内容项135，并且具体地，呈现由框架710的底部附近的搜索条指示的内容项135的部分。如果内容项135包括视频，则在框架710中显示视频。否则，只能呈现音频。

框架720随时间显示音频流的声音信号的检测波形。如图7中所示，框架720指示在指示箭头的位置附近持续分段时间的检测波形。

字幕框输入元件730是用户界面元素，其指示在对应于字幕框730的宽度的音频流的持续时间内显示字幕框，并且字幕框的开始时间戳对应于字幕框输入元件730的左边界，并且字幕框的结束时间戳对应于字幕框输入元件730的右边界。字幕子系统150(例如，辅助字幕模块160)可以使用如上所述的自动生成的字幕的定时窗口生成字幕框输入元件730。例如，如果字幕子系统150确定在00:45到00:52出现语音声音，则字幕子系统150可以生成字幕框输入元件730，其在00:45处具有左边界，而在00:52处具有右边界。注意，当使用搜索条搜索内容并且因此移动显示的时间戳时，字幕框输入元素730也在用户界面中移位，使得其边界始终匹配正确的开始和结束时间戳。

框架740在列表界面中显示每个字幕文本的字幕文本和定时窗口，而不是字幕框输入元素730的时间线界面。用户可以与每个字幕框交互以编辑框架740中的其内容或定时窗口，而不寻找内容项135中的对应点。这在最终审查过程中可能是有用的。如前所述，可以使用语音识别引擎在初始阶分段自动转录字幕文本。此外，如上所述，可以允许用户首先输入字幕文本作为文本块，之后字幕子系统150自动确定在何处分割输入的字幕文本以使字幕框与自动生成的定时窗口匹配。如果允许用户将文本作为大块输入，则最初仅显示单个字幕文本块，并且在如上所述的处理之后显示多个字幕文本块。

IX.自动生成字幕定时窗口的示例流程

图8是示出根据实施例的内容系统105用于从音频输入自动生成非语音字幕的动作的数据流程图。在一个实施例中，流程图中的操作归因于内容系统105。最初，内容系统105在805访问音频流。这可以是独立的音频流(例如，播客)，或者是作为视频的音频分段的音频流。

内容系统105在810将音频流分段输入到语音分类器中以生成原始分值。语音分类器针对每个分段生成指示该分段包括语音声音发生的可能性的原始分值。

为此，内容系统105将音频流划分成分段，每个分段具有特定持续时间并且从前一分段的开始偏移特定持续时间。例如，内容系统105将音频流划分为250毫秒分段，每个分段从前一分段移位10毫秒。

内容系统105将每个分段输入到过滤器级联模型中以从分段生成特征。内容系统105将特征输入到分类器模型中以确定语音声音在该分段中出现的概率。分类器模型可以是深度神经网络。

内容系统105在815基于原始分值为音频流生成一组二进制分值。可以基于来自音频流的连续系列分段的原始分值的聚合来生成二进制分值。例如，可以基于从时间点开始覆盖一秒的连续分段的原始分值的平均值来生成音频流中的时间点的一个二进制分值。当聚合值超过阈值时，内容系统105确定对应时间点的二进制分值是“开启”。可以基于使用验证数据集计算的误差值来调整阈值。

内容系统105在820基于二进制分值生成个定时窗口。每个定时窗口指示对应于音频流中的语音声音的开始和结束的开始时间戳和结束时间戳。这些定时窗口可以用于生成对应于定时窗口的持续时间的持续时间的字幕框，以便允许用户更容易地在内容系统105中提供(例如，“众包源”)内容项的字幕。

其他考虑因素

说明书中对“一个实施例”或“实施例”的引用意味着结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在说明书中各处出现的短语“在一个实施例中”不一定都指的是同一实施例。

应当注意，处理步骤和指令以软件、固件或硬件体现，并且当以软件体现时，可以被下载以驻留在各种操作系统所使用的不同平台上并且可以从该不同平台操作。

这里的操作也可以由装置执行。此外，说明书中提到的计算机可以包括单个处理器，或者可以是采用多个处理器设计以提高计算能力的架构。应当理解，可以使用各种编程语言来实现如本文所述的本发明的教导，并且提供以下对特定语言的任何参考以用于公开本发明的实现和最佳模式。

尽管已经参考优选实施例和若干备选实施例具体示出和描述了本发明，但是相关领域的技术人员将理解，在不脱离本发明的精神和范围的情况下，可以在形式和细节上进行各种改变。。

最后，应当注意，说明书中使用的语言主要是出于可读性和指导目的而选择的，并且可能未被选择来描绘或限制本发明的主题。因此，本发明的公开内容旨在对于在所附权利要求中阐述的本发明的范围是说明性的而非限制性的。

Claims

1.一种方法，包括：

访问包括多个分段的音频数据；

通过处理设备确定所述多个分段中的一个或多个分段包括语音声音；

识别所述语音声音的时间持续；以及

提供与所述语音声音的时间持续相对应的用户界面元素，其中所述用户界面元素指示所述语音声音的开始和结束的估计以及被配置为接收与所述音频数据的所述语音声音相关联的字幕文本。

2.根据权利要求1所述的方法，进一步包括：

将所述音频数据的所述多个分段输入到用于分类的语音分类器中，其中所述语音分类器生成表示相应分段包括语音声音的出现的可能性的原始分值的集合；

基于所述原始分值的集合生成用于所述音频数据的二进制分值，其中所述二进制分值中的一个是基于来自所述音频数据的分段的连续系列的原始分值的聚合而生成的；以及

基于所述二进制分值为所述音频数据中的所述语音声音中的一个或多个生成定时窗口，其中所述定时窗口指示在所述音频数据中的一个或多个语音声音的开始时间和结束时间的估计。

3.根据权利要求2所述的方法，其中，将所述音频数据的所述多个分段输入到用于分类的一个或多个语音分类器中还包括：

将所述音频数据分成所述多个分段，每个分段具有特定的持续时间并且从所述音频数据的起点偏移；

使用过滤器模型来过滤所述多个分段中的每个分段的音频信号以产生具有多个频率通道的输出；

基于所述过滤器模型的输出识别特征；以及

将所述特征输入到机器学习模型中，所述机器学习模型用于确定原始分值，所述原始分值指示在所述音频数据的相应分段中出现所述语音声音的可能性。

4.根据权利要求2所述的方法，其中，为所述音频数据生成二进制分值还包括：

将聚合函数应用于所述音频数据的所述分段的连续系列的原始分值；

基于所述聚合函数的输出生成多个聚合值，所述多个聚合值中的每个聚合值与所述分段的连续系列之一相关联；并且

基于所述聚合值生成所述二进制分值，每个二进制分值是基于对应的聚合值是否超过阈值而生成的。

5.根据权利要求4所述的方法，其中，所述多个分段中的一个或多个分段是验证数据集的一部分，并且所述方法还包括：

计算在所生成的定时窗口和所述验证数据集的基础事实定时窗口之间的总误差量；以及

迭代地修改所述阈值以最小化所述误差量。

6.根据权利要求1所述的方法，其中，所述用户界面元素包括多个字幕框中的一个，并且所述方法还包括：

为所述音频数据生成所述多个字幕框，每个字幕框具有与所生成的定时窗口的开始和结束时间戳相对应的开始时间戳和结束时间戳；以及

存储所述多个字幕框，其中所述字幕框被配置为允许用户在所述字幕框中输入字幕文本。

7.根据权利要求6所述的方法，还包括将在时间上彼此相邻的定时窗口的集合连接到单个定时窗口内，其中在所述集合中的每个定时窗口具有短于预定义的最小值的持续时间。

8.根据权利要求6所述的方法，还包括将定时窗口划分为多个定时窗口，所述定时窗口包括比预定义的最大值长的持续时间。

9.根据权利要求6所述的方法，其中，所述音频数据包括音频流并且还包括：

接收来自客户端设备的输入用于所述音频流的字幕的请求；

发送所述多个字幕框以用于在所述客户端设备处呈现；

接收多个字幕文本条目，每个字幕文本条目与所述多个字幕框中的一个字幕框相关联；以及

与相应的字幕框相关联地存储所述多个字幕文本条目。

10.根据权利要求9所述的方法，还包括：

接收来自客户端设备的呈现与所述音频流相关联的字幕的请求；以及

将具有用于所述音频流的相关字幕文本的所述多个字幕框发送到所述客户端设备以在所述客户端设备上呈现。

11.根据权利要求2所述的方法，其中，所述开始时间对应于所述二进制分值的从低值到高值的转变，并且所述结束时间对应于所述二进制分值的从高值到低值的后续转变。

12.一种计算机程序产品，包括其上编码有指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时使得所述处理器：

访问包括多个分段的音频数据；

确定所述多个分段中的一个或多个分段包括语音声音；

识别所述语音声音的时间持续；以及

13.根据权利要求12所述的计算机程序产品，其中，所述非暂时性计算机可读存储介质还具有使得所述处理器用于以下的指令：

基于所述原始分值的集合生成用于所述音频数据的二进制分值，其中，所述二进制分值中的一个是基于来自所述音频数据的分段的连续系列的原始分值的聚合而生成的；以及

基于所述二进制分值为所述音频数据中的所述语音声音中的一个或多个生成定时窗口，其中，所述定时窗口指示在所述音频数据中的一个或多个语音声音的开始时间和结束时间的估计。

14.根据权利要求13所述的计算机程序产品，其中，所述非暂时性计算机可读存储介质还具有使得所述处理器用于以下的指令：

基于所述过滤器模型的输出识别特征；以及

15.根据权利要求13所述的计算机程序产品，其中，所述非暂时性计算机可读存储介质还具有使得所述处理器用于以下的指令：

16.根据权利要求13所述的计算机程序产品，其中，所述用户界面元素包括多个字幕框中的一个，并且所述非暂时性计算机可读存储介质还具有在被处理器执行时使得所述处理器用于以下的指令：

为所述音频流生成所述多个字幕框，每个字幕框具有与所生成的定时窗口的开始和结束时间戳相对应的开始和结束时间戳；以及

17.一种系统，包括：

存储器；

耦合到所述存储器的处理设备，其中所述处理设备用于：

访问包括多个分段的音频数据；

确定所述多个分段中的一个或多个分段包括语音声音；

识别所述语音声音的时间持续；以及

18.根据权利要求17所述的系统，其中，所述处理设备还用于：

19.根据权利要求18所述的系统，其中，所述处理设备还用于：

基于所述过滤器模型的输出识别特征；以及

20.根据权利要求18所述的系统，其中，所述处理设备还被配置用于：