CN104246750B

CN104246750B - 抄录语音

Info

Publication number: CN104246750B
Application number: CN201380018139.2A
Authority: CN
Inventors: 约翰·理查德·贝克
Original assignee: Jpal Ltd
Current assignee: Jpal Ltd
Priority date: 2012-03-30
Filing date: 2013-03-26
Publication date: 2018-04-10
Anticipated expiration: 2033-03-26
Also published as: US9786283B2; WO2013144605A2; WO2013144605A3; EP2831762A2; US20150066505A1; CN104246750A; GB201205790D0; EP2831762B1; GB2502944A

Abstract

一种语音媒体抄录系统，包括被布置为播放被划定为多个分段的语音的播放设备。所述系统被编程以为待抄录的分段提供抄录员尚未抄录的分段的部分的自适应估计。所述设备被布置为可选地在已经播放整个所述分段之后，播放所述分段的所述部分。此外，一种分段引擎被布置为通过识别语音本身并使用定时信息，来将所述语音媒体划分成多个分段，而无需使用机器将语音媒体转换成文本或文本表达。

Description

抄录语音

技术领域

本发明涉及一种分段(segment)和抄录(transcribe)视频、音频或多媒体文件或播出节目的语音(speech)记录和语音成分的方法，这样的记录和成分在本文被统称为“语音媒体”。本文所用的“语音”包括说出的声音和口头陈述的任何其它形式，其可以被解释为能够以文本表示的话语。

背景技术

为了知道“原始”状态的音频和视频媒体中有什么，人们必须聆听材料(在视频情况下观看材料)，从这个意义上来说，“原始”状态的音频和视频媒体是不透明的(opaque)。通过将媒体标记为具有标题、版权、作者、关键词和其它信息的统一体，可以为音频或视频关联附加信息(例如，就像在ID3标准下MP3文件与媒体元数据关联)。此外，可以为媒体文件关联包括语音文本信息的定时信息，在本文被统称为“定时媒体元数据”，其允许适当的系统在媒体中以正确的时间显示诸如字幕和副字幕等信息(如果需要，还有其它元数据)。

无论是标记整个文件，还是提供关于媒体中定时事件的信息，所关联的定时媒体元数据都可以嵌入有媒体文件本身(如果有合适的工具、格式和播放器)，或者单独在定时文本文件(有许多不同的标准格式，如W3C定时文本标记语言(TTML，也称为分发格式交换资料DFXP)或同步多媒体(SMIL)标准和专有标准)中，或者在数据库中。

语音媒体的定时部分(其还可以包括时间偏移、播放速率和向原始媒体的引用)连同文本和其它元数据(其还可以包括更短时间间隔的具体的定时信息)与在本文中被统称为“分段”的语音媒体的一部分相关联。

媒体文件和相关联的元数据也可以被分组为播放列表或频道，其允许显示、选择和播放一组媒体。如果这样的播放列表可以与适当的定时媒体元数据相关联，则整个播放列表可有效地体现定时、文本和其它元数据，用于应用该方法。

因为通过搜索引擎进行有效的搜索可提供来自广告商和赞助商的收益机会，所以能够通过搜索定位媒体有很重要的价值。从消费者的角度看(消费者是试图收看或收听媒体的任何人)，能够通过对内容进行文本搜索找到合适的视频和音频内容，而不依赖任何标题和整个媒体标签很重要。

此外，一旦找到媒体，消费者可以(用合适的播放器)基于定时媒体元数据中的文本搜索，来搜索媒体播放中的特定时间位置，这允许适当的播放器在感兴趣的合适位置处开始播放(而不是消费者需要摸索(scrub through)播放)。这允许消费者体验到媒体的相关部分，而不用观看不相关的部分。

目前，许多司法管辖区对广播媒体有法规要求，其需要适当的访问协助，这导致定时文本元数据例如作为隐藏字幕等可用。

在提供到网络(例如，BBC iPlayer、Google的YouTube^TM服务和支持字幕或副字幕的其它在线视频发布服务)上的视频和音频材料的情况下，具有可用的相关联元数据的材料的普及度有限(由于立法定位)。尽管事实是元数据的可用性在广播情形中更为有价值，这不仅因为元数据具有访问协助，而且因为其允许媒体能够容易地被搜索引擎找到，以及其可以使用户快速定位媒体中相关的部分。

此外，可能提供有带有定时媒体元数据的丰富多样的元数据(例如相关联的图像)，其提高了其对于用户的配合(engagement)和价值，并使得用户更容易吸收所需的信息，或者“点击”到其它相关地方。另外，可以将当前的文本分段元数据与相关广告背景相关联。材料的定时关联还有助于教学环境。

将丰富的元数据添加到音频和视频材料的主要障碍是用当前的制作和发布系统这么做所需的复杂性和工作量。

存在协助制作字幕、副字幕和各种定时文本格式的多种当前系统。例如，可以将字幕和标记手动添加到视频/音频制作系统的时间线；在视频的情况下，使用诸如MicrosoftEncoder、Sony Vegas^TM Pro、Final Cut或Adobe可选地，可以使用专用字幕和副字幕系统，需要用户标记事件的定时以及添加诸如抄录等元数据形成定时媒体元数据，并且这些或者可以被导入媒体制作工具以创建嵌入的定时媒体信息，或者可以被导入与播放器中的媒体相关联的定时文本文件。此外，速记(steganography)需要由受过训练的抄录员可操作的特殊的抄录终端，并特别适用于现场加字幕。此外，自动语音识别(ASR)系统能够制作定时文本，其根据各种语音模型来识别并通过生成预期的词字来制作。由于ASR系统的不准确性，一种方法是使用被训练为个别抄录员模式的ASR，并使该个别抄录员重新朗读音频/视频材料中所说的话并将重新朗读插入到副字幕中，因为优良的识别而得到更高质量的结果。

还可以通过使用光学字符识别技术来从现有的视频材料导出定时字幕。当然，这依赖于材料中已经嵌入了现有的抄录稿。

与定时媒体元数据相关联的语音媒体的普及度很低。这反映了使用当前系统的在时间和/或费用上的挑战。在自动化的ASR的情况下，所得到的抄录稿的质量不足以用于许多重要的应用，并且重新朗读的方法还很费时。

发明内容

本发明的一个目的是缓解一些或全部这些缺点。

本发明的具体实施例满足了能够由无需非常熟练的抄录员高效地制作高质量抄录稿和其它元数据的需要，并且允许端到端过程以制作并发布抄录的结果。

根据第一方案，本发明提供了一种语音媒体抄录系统，所述系统包括被布置为播放被划定为多个分段的语音的播放设备，所述系统被编程以为待抄录的分段提供对抄录员尚未抄录的分段的部分的自适应估计，所述设备被布置为播放所述分段的所述部分。因此，当语音可能超出抄录员将其全部回忆起来的能力时，产生这样的播放(playback)。可以在可配置的导入时间的基础上(带有可选的音量渐响)计算合适的重放位置，并且如果可以，在词字(word)的边界上开始；或者如果该位置接近于开始点，则在分段的起始点开始，并且如果接近于结束点，则提供最小程度的重放。此外，可以为抄录员提供用于使用键盘组合来使该系统从重放位置或分段的起始点重放的装置。

所述播放设备可以被布置为在播放被估计为尚未抄录的所述部分之前播放整个分段。

所述自适应估计可以在以下中的至少一个的基础上进行：该分段中可能存在的文本的数量，发言者的语音速度，抄录员的文本输入速率，抄录员的工作记忆，或者抄录员的当前活动，即是否正在进行抄录。当对分段的分析指示该分段可能不包含语音时，可以从播放中省略该分段或以高速播放该分段。

所述系统可以监测抄录员的文本输入速率，并以取决于所述文本输入速率的速度播放语音。

在分段的开头打字输入的标点符号可以被自动转移到前一个打字输入的分段。

所述系统可以包括用于自动重放所述语音用于审阅和校正抄录的装置，和/或用于允许由审阅者识别被认为是错误的文本的分段的装置。

根据第二个方案，本发明提供一种抄录语音媒体的方法，包括：提供如上所述的系统，允许抄录员抄录所述语音媒体的分段的一部分，重放被估计为抄录员尚未抄录的所述分段的部分，以及随后确定所述分段已被完全抄录。

根据第三个方案，本发明提供一种分段引擎，被布置为通过识别语音本身并使用定时信息，来将所述语音媒体划分成多个分段，而无需使用机器将语音媒体转换成文本或文本表达。

所述分段引擎可以被编程为开始一分段，测量经过的时间，确定所述分段中词字之间的间隙，并且当该分段中经过的时间为至少1秒，优选至少2秒，和/或最多15秒，优选最多10秒时的间隙处结束该分段。

用于分段的定时信息可以基于语音媒体中的线索，所述线索选自由以下线索构成的群组：从自动语音识别系统导出的线索，从语音活动检测系统导出的线索，以及从对该语音媒体的音频或视频分析得到的线索。

在一个实施例中，所述分段引擎被编程为将附加的分段插入两个分段之间的间隙，以提供连续的分段。可替代地或另外地，所述引擎可以被编程为消除两个分段之间的间隙，以提供连续的分段。它可以允许用户将一个分段分成两个或更多个分段，并且可以允许用户将两个或更多个连续分段合并成一个分段。

所述分段引擎可以被编程为在没有来自随后的分段中的分段的元数据不适用于该随后的分段的指示的情况下，保存来自所述随后的分段中的分段的所述元数据。

根据第四个方案，本发明提供一种对语音媒体分段的方法，包括：提供如上所述的分段引擎，分析定时信息以确定词字之间的间隙，以及在词字之间的所述间隙中所选择的一些间隙处结束分段。

本发明的方法可以包括以下步骤：显示、发布、或传输由该方法制作的抄录。

附图说明

现在将参考附图，仅以示例方式更详细地描述本发明的实施例，附图中：

图1是示出根据本发明的系统的方框图；

图2是更详细地示出图1的系统的分段(segmentation)过程的方框图；

图3是更详细地示出图1的系统中的抄录(transcription)过程的方框图；以及

图4是示出重放系统参数的时序图。

具体实施方式

图1给出了根据本发明的系统的总览。该方法的主要步骤是：

–由其它系统(其可与本发明的系统进行交互)获取和制作视频或音频媒体；

–对媒体分段以标出合适的语音定时信息(speech timing information)；

–抄录多个分段以向其有效地添加文本和其它信息；

–审阅并确认抄录；

–用用户提供的参数以各种形式(包括定时文本文件，且可选地为网页以及完整的抄录稿)自动制作和发布分段后的信息。

本发明提供一种连贯的端到端的制作和发布系统。尽管该系统可以主要实现在通用个人计算机系统中，但所描述的功能、数据流(flow)和控制机制可以实现在多个服务器和处理器上且功能分布在多个服务器和处理器上，而且，在任何情况下，这通常为用于将所得到的定时媒体元数据发布给消费者的机制。

获取和制作

在分段之前，制作系统可能需要进行媒体格式转换以为线索生成系统创建合适的输入。例如，在媒体为H.264格式的情况下，其可以被转换成合适的音频格式的媒体用于输入到该线索生成系统。

1.分段

图2示出分段过程。本系统提供自动将语音媒体分段为适当长度的分段的自动能力，可期望这些分段保持连贯的语音短语。这与需要手动标记分段时间位置的系统不同。此外，可以提供涵盖预计没有待抄录的任何语音的时间段的分段。

1.1对线索的分段

用能够标出包括定时信息的语音表达的已知系统开始进行自动分段。这些包括(但不限于)自动语音识别(ASR)系统和语音活动检测系统(VAD)。这些系统提供从语音媒体导出的时间和其它线索，其向分段系统提供信息以及其它分段元数据和详细的分段粒度(例如，在ASR的情况下为词字级别)。可以从音频或视频媒体的其它特征导出附加线索，例如，音频频谱组成及其变化，或者在视频的情况下的场景分割事件(视频合成中的剪辑(cut))，或者使用人脸识别系统。可以根据需要使用所有或部分这些线索。

目前使用ASR系统制作自动字幕，获得与文本信息的自动制作相耦合的定时信息(当然这可以随后被编辑)。在本发明中，系统不依赖于系统的词字识别，而是使用由ASR系统提供的定时信息。可以使用识别的其它特征，但不使用来自ASR系统的建议文本，而是由抄录员输入。

不依赖ASR词字制作有三个好处。

首先，系统不需要经过训练的ASR语音模型，以在有多个发言者且没有为他们训练的语音模型的通常情况下实现准确性。

其次，较差质量的音频和有限数量的背景噪声和音乐(例如)的存在不会严重影响本系统的分段性能(而这极大地降低ASR系统的文本识别的准确性)。

第三，因为本发明不依赖于任何特定的ASR语音模型，所以它基本上以与语言无关的方式工作。某些语言不存在语音模型，因此一个很大的优势是能够使用一种语言的单一语音模型并将其应用到其它语言。

分段系统确实利用VAD或ASR系统制作的词字和短语定时。但不是简单地使用来自这些系统的原始定时，本发明在以下几个方面对分段进行调整。

1.2附加线索

还可以从附加线索导出对分段的选择，从而例如，当有一个视频场景间断时，如果合适，该系统可以优先考虑在媒体中此时应产生分段间断。可选地，如果音频的频谱分析表明语音媒体中可能有不同的发言者或某些时间可能有变化，则这种信息也可以影响系统的分段定时选择(因为期望为不同发言者创建不同的分段)。

此外，线索的其它特性可以提供例如关于分段调整和发言者分配信息的附加信息。在某些情况下，关于给定分段的(多个)发言者的信息是分段元数据的有用的部分，并且可以包括一组信息，包括名称、演员、图像链接和其它所需的信息。

1.3最小长度

分段一般应在一定长度范围内，以便被正确显示并具有有含义的短语。过短的分段(例如在2秒以下)通常不会为字幕提供可理解的短语，但是如果在较短时间段上出现的语音在该语音之前或之后具有间隙，则其可以是有效发音(通常是一个感叹词)并被该系统允许(例如，如果有人说“是”，其作为逻辑可分辨的分段)。还发现分段系统将300ms及以上的语音发音中的间隙处理为可分辨的分段非常有效。

1.4防快闪

此外，该系统保护字幕和显示输出的观看者不会看到“过快”的转变，这已知会造成潜在的健康问题(例如，避免媒体中的“闪烁”诱导癫痫的法规和标准)。因为限制包括在输出中的分段的最小长度，所以该系统自动地避免这些问题。没有足够的后期处理的手动系统或自动系统则无法做到这点。

1.5最大长度

通常如果长度超过10秒(视系统配置而定)，则分段也可能过长。分段可能过长，原因有两个：首先，将“配合”目标显示(通常包括两行文本)的显示长度有限。其次，系统的目的是提供一种有含义的语义“组块”，这通常实现在较短长度的语音中。当超过此阈值时，该系统能够自动估计合适的分段分割，并且对于基于ASR的分段，能够在可能有合适的分割点的词字之间的最大合适边界处进行分段(例如，当词字之间有微小的间隙时)。在这一自动分段分割不能实现所期望的结果时，可以如下所述进行手动调整。

在预期语音媒体的一部分不具有可理解的语音信息的情况下，分段系统可以创建长于如上所述长度的分段，并相应地标记这些分段。

1.6连续分段

对于许多应用，以及对于抄录过程，期望调整定时和/或添加附加分段，以创建跨度为整个媒体的一组连续的分段。为了使用某些嵌入式或定时文本格式的系统和相关联的显示设备进行适当显示，可能需要这种连续的特性。此外，某些定时文本格式不支持分段的结束时间，在这种情况下，如果需要，可以插入附加的分段以在适当的时间改变显示。连续分段(及表明其是否可能包含语音的被适当标记的分段)对抄录或审阅会很有用。

在从线索导出的分段之间的间隙被配置得很小(一般在1秒左右)的情况下，系统可以选择“闭合”两个相邻的分段的定时，使得它们变得连续而不插入短的附加分段。

1.7手动选择

在某些情况下，通过手动选择一段媒体来为系统导出线索可能是有利的，例如多轨道编辑器的时间线显示(无论音频或视频)，或者由系统或在播放过程中通过用键盘手势指示开始和停止位置支持的时间线。所选择的时间间隔可被用作分段系统的另一线索，注意现有的分段可能需要调整连续性和长度。

1.8手动调整

向抄录员或审阅者提供对分段定时的手动调整，并且这可以用各种不同的机制来提供。还可以使用手动输入来改变分段的开始或结束时间(例如，通过使用向前、向后拖曳滑块指示位置的“微调”，选择时间线位置，或在ASR的情况下，自动改变词字边界的定时)。当用户进行这种改变时，分段系统可以自动地调整相邻的分段，使它们保持连续。

1.9分割和合并

除了改变分段开始和结束时间以外，抄录员还可能希望将一个分段分割成两个(持续时间上)更短的分段，可以在改变开始或结束点时间的相同基础上来完成这一分割时间的指示。当这样做时，用户还可以指示现有的分段抄录稿中的文本分割点的位置，使得适当的文本位于所得到的两个分段的每个分段中。该系统提供将初始分段元数据(例如，发言者的信息、图像)复制到所得到的两个分段的能力。可选地，抄录员或审阅者还可能希望合并两个或更多个所选择的连续分段。在这种情况下，单个被合并的分段的开始点是第一个所选择的分段的开始点，而结束点是最后一个所选择的分段的结束点。在这种情况下，所得到的抄录稿表示待顺序合并的各个分段的混合。在其它元数据为非文本并且不能以这种方式直接被合并时，该系统可以提供默认的选择(例如，适用于合并后的分段的发言者是在第一个被合并的分段中所定义的发言者)。

1.10自动继续

为了避免抄录员需要连续地向分段元数据提供不变的信息，该系统提供了可配置的机制，以允许分段之间的“继续”。由参数控制对“继续”的使用和将其应用到不同格式。在特定的项没有接收到抄录员或审阅者输入的情况下，元数据可以被视为是连续的。在这种情况下，该系统可以复制来自第一个有效的先前分段的信息。所以，例如，关于一组分段的发言者的信息可以仅在语音的开始被标记一次，并且除非明确地指出，随后的分段也被假定为由该发言者发言(并且当发布该信息时，由系统自动填充必要的数据)。

1.11防抖(Anti-Flicker)

可以提供分段显示系统，其检查分段之间的特定的元数据是否已经改变(注意，即使字幕或副字幕已经改变，但元数据的其它项可能未改变)。一些类型的显示系统，如果向其提供写入到显示区的信息，即使信息是相同的，其也可能显示视觉分散行为。通过限制对显示区的写入直到必须改变该区域，该播放系统可以避免这种情况发生。这种功能对于图像数据的显示尤其重要，并适用于在抄录和/或审阅期间操作的显示系统以及媒体产品。

1.12分段刷新

在任何分段调整的情况下(无论是通过由人所做的改变，还是由于与显示类型或格式相关联的选择)，该系统可以执行任何已在以上1.1至1.12部分描述的任意或全部操作。

2.抄录

图3示出抄录过程。一旦高质量的分段可用，则系统使用各种控制和自适应措施来控制向抄录员播放每个分段。

出于本说明书目的的考虑，可以使用普通的键盘机制或经由上述通过“重新朗读”机制的语音识别技术的输入，或者通过任何其它文本输入方法来执行人的文字输入。

2.1非语音处理

分段过程可以识别不太可能包含可理解的语音信息的语音媒体部分。可以使得抄录和审阅播放机制或者跳过这样的分段，或者以更快的速度播放它们，从而节省时间(当然或者也可以正常播放它们)。实现很简单，即由分段系统检查此类标记。

2.2系统辅助的抄录播放和重放

尽管现有系统在有高度熟练的抄录员、可选的额外速记设备或脚踏板协助时工作最佳，但本发明的抄录系统可协助各种人用标准设备高效地输入高品质的抄录和字幕。

这是在对以下的自适应估计的基础上完成的：

a)在抄录分段中可能输入的文本的数量；

b)发言者的朗读速度；

c)抄录员的打字速度；

d)抄录员的工作记忆。

在a)的情况下，可根据自然人类语音速率来预测分段中的文本数量(无论是以字符、词字还是音素计量)。虽然这在各个人之间有变化并且有时根据条件变化，但是我们已经发现，正常的语音速率出现在可预测的较窄范围内。随着抄录的进行，我们获得关于此抄录中语音传输的实际速率的进一步信息，因此该系统可以使用一系列自适应算法(例如，指数平均)从先验速率适应到当前的情况。

a)和b)的结果是该系统可以以一定的准确性预测需要输入以完成正被抄录的分段的文本数量。

关于c)，可以由系统来测量抄录员的打字或输入速率。这种测量可以从系统设置(诸如输入技能评估、或对测试抄录的测量)开始。抄录员输入速率的进一步细化可以通过对本次抄录以及前一次抄录的实际输入速率的系统知识(其还可以包括对输入类别的知识—类似的抄录和抄录难点被分组为自然项，例如，来自特定顾客或风格的抄录)来实现。这使得能够适应更“难”或较不“难”的媒体。

关于d)，同样，先验估计一个人的工作记忆可以从通常的但较低的估计开始，然后在输入时由系统细化(如同c的情况)。特别是，系统可以检测尚未到达媒体的结束点，但打字已经停止，而用户没有给出分段结束点的信号。

抄录输入一个主要问题是，很多人输入信息慢于语音。这意味着在分段的播放结束的时候用户只对所需文本的一部分进行打字。

分段的存在本身是有用的，因为播放的媒体的数量被很自然地限制了。通常情况下，如果没有分段，则播放将继续，除非用户用来自人的一些明确的信令停止它。

人类对他们听到但还没有抄录的语音具有有限的“缓冲”或工作记忆空间，并且如果剩下的抄录比该空间长，则该分段将结束而不能完成对该分段的抄录。在我们的测量中，对于通常的分段长度(如图4中情况A所示)，即使是相当熟练的打字员，这也是通常常见的情况。

在通常的抄录系统中，用三种主要方式处理这个问题。第一种，用户可以在他们的心理记忆过载之前手动停止抄录(或用脚踏板，如果有的话)。第二种，可以播放媒体，然后手动倒带并依赖于用户的输入重放。第三种，一些系统提供可变速播放，由用户调整来适应。

在时间和文本分段可用的情况下，如在基于ASR的抄录的情况下，需要人的编辑来校正ASR错误，并且在手动控制下进行播放。

因为有时媒体长时间没有语音(或没有可理解的语音)，但抄录员仍然需要听完媒体(虽然如果系统支持的话可以以更快的速度这样做)，所以抄录也是复杂的。

本发明解决了这些问题。首先，由系统对媒体自动分段，使得向用户播放的媒体的数量被限制在任何给定的分段中，并且通常在逻辑上也是连贯的。在系统控制下播放分段，在结束时照这样自动前进到下一分段。这种自动前进通过已知的键盘组合或在重新朗读的情况下的口头代码进行。

图4示出用于播放与重放分段的系统。因为该系统具有对预期的输入量、以及抄录员的打字速度和工作记忆的自适应知识，所以其能够将分段的未抄录部分的准确部分重放给用户，而不是重复整个分段。这节省了抄录时间并作为抄录员的首选。换句话说，该系统“智能地”重放估计尚未抄录的部分，使得抄录员可以完成分段输入。如图4所示，基于所估计的当前的抄录位置、当前播放位置和抄录员的工作记忆，系统能够自动地确定合适的估计条件以实现重放。如图所示，如果播放位置超出抄录员的工作记忆(情况A)，则系统停止播放，将播放位置重置到所估计的当前抄录位置之前的适当位置(如下文所述)，然后重新开始播放。然后，如有必要，重复此过程直到该分段被抄录。所描述的控制功能可以全部被设定在通常的先验值，并且自适应以匹配实际性能。该系统允许与已经抄录的部分的一定估计程度的重叠，部分地用以估计错误，还允许抄录员的顺利导入。系统还根据输入继续重放过程，并且在一定条件下(例如重放计数、分段的持续时间，或者用户的不活动—例如，如果用户不进行输入则可以暂停或停止)可停止重放。在重放的估计开始点(可配置地且通常在2秒内)接近该分段的开始点的情况下，系统可以转而重放整个分段。此外，如果重放位置(可配置地)太接近分段的末尾，则代替地使用播放时间的最小量(可配置)。除了自动重放外，系统还可基于抄录员信令(例如击键组合)引起重放发生，并且如上所述可以将重放位置设置到分段的开始处，或者合适的位置处。

在ASR导出线索的情况下，可以估计重放，使得其在词字边界重新开始而不是在播放的计算出的时间开始，后者更容易导致播放被分开的词字，并且在音频音量上突然改变。在任何情况下，无论选择VAD或ASR还是其它分段机制，用户优选使用对音频音量水平的渐响(fade-in)方法，并且0.5至1s的渐响适合于该系统。

2.3可变速度

此外，如果需要，该系统可以基于将与用户的打字能力相匹配的速率的估计，来自动改变抄录播放。对于更熟练的用户，该系统可以自动加速抄录播放。播放速率的可懂度限制通常在0.75到2.5倍之间的正常语速(虽然更快的速度可能对抄录员听觉检测语音区域时有用)。还可以由系统使用键盘输入或以其它方式提供播放速度的手动控制。

2.4启动和结束分段播放

来自抄录员或审阅者的、应该播放一个分段或者对分段的文本输入完成的指示，可以通过使用可编程的键盘手势(或者任何其它合适的输入手势或命令或菜单项或按钮)给出，而不干扰抄录文本输入。这适用于抄录和审阅播放两者。在键盘命令的情况下这些手势可以由用户可配置地选择。此外，当多个分段组合成完整的抄录稿时，变量可以发信号给系统指示分段的结束点也是一行的结束点或一段落的结束点。一旦完成分段，则系统可以被设定为自动播放下一个有效分段(从而无需来自抄录员或审阅者的明确信号)并重复该过程。

2.5错误处理

由该系统以多种方式处理抄录错误：

2.5.1拼写等

对拼写错误的单词(word)、大写和拼写检查的自动校正是改进这些错误的标准方法。

2.5.2智能标点

此外，在分段之间转移标点的方法可以如下实现。假设有两个分段，“男人骑上马”，接着是“然后他前往镇上”。在输入第一个分段时，抄录员不能先验地对该分段打标点，因为下一分段可能是该句子的延续(无标点)，或句子中的一个短语(例如用逗号分隔)，或该句子可能已经结束。当抄录员听到下一分段“然后他前往镇上”时，他或她可以确定第一个分段的正确标点是使用分号。如果第二个分段的输入是“；然后他前往镇上”，则系统将修改分段，将分号的开始转移到第一个分段，从而其将读为：“男人骑上马；”并且第二个分段变为“然后他前往镇上”。可配置的规则确定每种类型的标点符号后面跟随的空间的量。请注意，该实现需要对语言相关的规则敏感，例如西班牙语具有在句子的开头使用一个感叹号的结构，并且这些可以被排除在上述自动转移机制之外。由诸如输入命令代码等其它实现方式可以实现允许这样的无因果关系的标点法的可替代的结构。

在分段不由标点符号结束，而在估计语音中跟随有明显的可配置间隙，具有不被估计为语音的约2秒或以上的默认间隙，则可选地，该系统可以自动地用句点(句号)符号对该分段打标点。

2.5.3审阅

用于校正抄录错误的另一种机制在于该系统的审阅功能，其允许抄录员或其他审阅者在系统控制下审阅分段(例如，带有紧跟有或没有用户干预的自动分段)，以及对抄录稿或元数据进行修改的功能，包括播放控制。此外，审阅者可以例如使用合适的键盘组合，用错误/注释指示符和审阅者意见来标记该分段。然后，审阅系统可以播放尚未审阅的那些分段，或标记错误或意见。

2.6.制作完整的抄录稿

用类似于版面设计的文字处理器将分段合并成一个完整的抄录的能力是本发明的系统的一个重要的选项，因为其允许同时呈现字幕式抄录和精美格式的完整抄录稿。此外，对各种演示提供版面设计选项以适应不同的应用。例如，完整的抄录输出可以根据发言者用不同色彩作标记；可以包括发言者的名称；可以包括时间代码；并且可以包括注释，可选地用不同的字体、用括号等。可以制作各种流行的输出格式的完整抄录稿。

2.7丰富的元数据

该系统不仅呈现简单的字幕、副字幕或文本分段，还允许丰富的元数据集，适于应用。与任何特定分段的定时相关联的可以是任意数量的文本、图像和视频链接。文本可以被归于注释、说明或其它文字信息。

2.8丰富的元数据传输和显示

在合适的格式定时文本文件的情况下，附加的字段类型及其表示的传输可以被编码为标准表述，或者在诸如TTML(DFXP)和SMIL等XML格式文件的情况下，借助于命名空间扩展来添加。可以提供合适的播放器以使用这些丰富的扩展并相称地显示。

2.9编码、语言、脚本

对文本的编码也可以被告知，从而例如，可以示出文本编码(例如UTF，使得可以存储包括非西方(non-Western)脚本的各种各样的脚本)；文本表示的含义可被存储为属性(例如，纯文本、HTML文本、待打开的URL—其允许任何文字信息的丰富文本显示)。此外，表示该文本的语言被编码，并且这允许任何文本字段设置有来自原始文本的副字幕或翻译(其可以由翻译人员或自动系统或两者的组合来完成)。

2.10丰富的文本传输与显示

此外，在对分段“文字”输入及其显示的编码的双重标准(或者如果被标准支持，则为非双重)的情况下，该系统可以支持完整的丰富文本和媒体对该文本信息进行编码。例如，HTML文档可以被支持为允许各种格式化文本以及图像和其它媒体的完全混合，并且此信息可以被编码为用于在合适的定时文本文件中传输，并且用合适的播放器发布显示；在网页浏览器上显示技术的情况下，对于HTML标准的支持自然匹配到浏览器的显示能力。此外，取决于由观看者的浏览器支持的浏览器插件，诸如XAML(可扩展应用程序标记语言)等格式可以支持传输和显示。

3.与媒体制作系统集成

上面描述的组件可以与合适的音频和视频制作系统集成。这些通常被称为用于视频系统的非线性编辑(NLE)系统，和用于数字音频工作站系统的多轨道音频制作工具。这些在时间线上的多个轨道上布局所需的源媒体“剪辑”，然后呈现(render)到被发布的视频或音频媒体(例如，如图4和图5所示)。流行的系统包括AdobeFinalCutMicrosoftEncoder、和Sony Vegas^TM Pro。

取决于媒体制作工具的能力，可以用多种方式支持制作系统与该系统之间的交互；这些例如包括：编辑决定列表(EDL)文件或其它数据库、插件支持和应用程序编程接口、或通过与制作工具直接集成。

3.1映射过程

在合适的情况下，本发明的系统可以用提供显著益处的强大方式与此类已知系统交互。特别地，多轨道时间线包括关于输出视频的定时以及来自源材料的剪辑定时的信息。当交互系统生成施加到该材料的元数据信息和分段时，从逻辑上讲，其适用于源媒体，并可以映射到时间线上的剪辑位置，使得其出现在输出视频的正确位置。这具有很大的优点，即当在时间线中改变剪辑位置时(但不相对于源媒体进行调整)，相关的定时文本输出信息可以由本发明的系统自动地调整(并且如果合适，则传递到多轨道编辑器)。这意味着，媒体制作和抄录制作可以更为同时地进行，并且如果需要改变输出媒体(例如，作为正常媒体制作编辑周期的结果)，将不会影响到自动制作相关抄录稿的能力。在通过此过程将附加(新)材料添加到时间线的情况下，则该新材料如果尚未被抄录当然会需要被抄录。此外，如果源媒体已经被系统抄录，则它可以被包括在新项目(用于不同的视频输出)中，且现有的抄录稿将在新的项目中立即可用，而无需另外的再抄录工作。

4.应用

虽然就在线音频和视频材料而言描述了本发明的方法和系统的应用，并且为这些应用提供合适的定时元数据，但其还可以适用于：

·广播系统和电视

·制作传统的抄录稿，特别是有关证据要求的抄录稿

·一般性地定时/注解会议抄录稿

·教育和教学应用(例如带有适当的定时和可搜索内容的讲座系列、教程和其它视频/音频演示)。

此外，对于所有这些应用，基于文本的抄录和其它元数据的可用性使得能够使用通用搜索引擎以及用于媒体资产的特定搜索数据库来搜索和定位感兴趣的媒体。

此外，该文本元数据的可用性允许用户在感兴趣的事项的媒体中进行搜索，并为用户自动播放该事项(而不必通过手动搜索该媒体)。

此外，可以借助于频道或播放列表来组织媒体。在这些集合中文本元数据与媒体的关联允许搜索以在整个频道或播放列表的基础上操作。

定时元数据的存在还使得能够显示在该时间点与媒体相关联的信息。特别是，这可以包括对所说内容的注解和评价、可以参考其它信息并同时显示该信息的注释、感兴趣的图像、完整抄录稿的高亮显示的视图以及基于当前的定时和元数据动态显示其它网页内容的能力。该后一种能力在在线广告和“点击”应用的背景下有重要意义(relevant)。

所有的文字信息可以被翻译为替代语言或文字再现。这些可以通过自动翻译系统或通过手动输入来生成。

本发明可以与合适的媒体制作工具结合使用，其允许灵活地重新使用现有的抄录稿、与媒体制作结合的高效的抄录制作流程，并且具有改变媒体时间线和保持准确的抄录定时的能力。

Claims

1.一种语音媒体抄录系统，包括被布置为播放被划定为多个分段的语音的播放设备，其特征在于，所述系统被编程以：为抄录员播放整个分段以进行抄录；估计抄录员的工作记忆的限制；为被抄录的分段提供对抄录员尚未抄录的分段的部分的自适应估计，所述自适应估计在以下的基础上进行：对抄录员的工作记忆的估计；随后当所述自适应估计指示出当前播放位置超出所述抄录员的工作记忆的限制时，立即再次播放尚未抄录的所述分段的所述部分。

2.根据权利要求1所述的系统，其中当对分段的分析指示该分段不包含语音时，从播放中省略该分段或以高速播放该分段。

3.根据权利要求1所述的系统，被布置为监测抄录员的文本输入速率，并以取决于所述文本输入速率的速度来播放所述语音。

4.根据权利要求1所述的系统，包括用于将打字输入的标点符号自动转移到前一个打字输入的分段的装置。

5.根据权利要求1所述的系统，包括用于自动重放所述语音以审阅和校正抄录的装置。

6.根据权利要求1所述的系统，包括用于允许由审阅者识别被认为是错误的文本的分段的装置。

7.一种抄录语音媒体的方法，包括：提供根据权利要求1所述的系统，允许抄录员抄录所述语音媒体的分段的一部分，重放被估计为尚未抄录的所述分段的部分，以及随后确定所述分段已被完全抄录。