CN117321603A

CN117321603A - 用于多语言处理的系统、方法和界面

Info

Publication number: CN117321603A
Application number: CN202280030062.XA
Authority: CN
Inventors: D·P·亨格
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-04-22
Filing date: 2022-04-02
Publication date: 2023-12-29
Also published as: EP4327237A2; US20220343893A1; WO2022234343A3; WO2022234343A2

Abstract

提供了用于多语言语音数据处理的系统。语言标识模块被配置为分析音频流中的口头话语并且检测与口语话语相对应的至少一种语言。语言标识模块检测第一语言与音频流的第一部分相对应。以第一语言对音频流的第一部分的第一转录被生成并且存储在缓存中。以第一语言对音频流的第二部分的第二转录也被生成并且存储。当音频流的第二部分与第二语言相对应时，第三转录是使用第二语音识别引擎以第二语言生成的，第二语音识别引擎被配置为以第二语言转录口语话语。然后，第二转录被缓存和任何显示实例中的第三转录替换。

Description

用于多语言处理的系统、方法和界面

背景技术

语音识别系统被用于检测口语话语并且将音频数据转录成文本数据，为对应音频数据提供语音转录。通常，语音识别系统在已针对单个用户和单种环境(例如，仅用一种语言)进行训练时最为准确。然而，对于对会话(包括带多语言发言者的会话)的转录，难以将语音识别系统适应于在不同语言之间交替的音频流。这是一项具有挑战性的任务，因为当前语音识别引擎通常只支持一种语言域或应用必须首先通过指定特定语言应该被自动检测来指定转录语言。

鉴于前述情况，存在对用于生成训练数据和训练模型(包括对这样的模型的部署)以用于改进的多语言语音处理的改进的系统和方法的持续需求。

本文中所要求保护的主题不限于解决任何缺点或仅在环境(诸如，上述环境)中操作的实施例。相反，提供该背景技术只是为了说明一个示例性技术领域，其中可以实践本文中所描述的一些实施例。

发明内容

提供了用于生成、校正和显示多语言语音转录的系统。

所公开的系统被配置为获得包括口语话语的音频流的电子内容并且在用于执行对音频流的转录的不同语音识别引擎之间动态切换，同时执行实时转录。

提供了用于多语言语音数据处理的系统。例如，语言标识模块被配置为分析音频流中的口头话语并且检测与口语话语相对应的至少一种语言。语言标识模块检测到第一语言与音频流的第一部分相对应。语言标识模块检测到第一语言与音频流的第一部分相对应。以第一语言对音频流的第一部分的第一转录被生成并且存储在缓存中。以第一语言对音频流的第二部分的第二转录也被生成并且存储。当音频流的第二部分与第二语言相对应时，第三转录是使用第二语音识别引擎以第二语言生成的，第二语音识别引擎被配置为以第二语言转录口语话语。然后，第二转录被缓存中和/或所显示的转录实例中的第三转录替换。

在一些情况下，所公开的系统使用与多个语音识别引擎相关联的语言标识模块来分析口语话语并且检测口语话语的音频流内的至少一种语言。该系统使用语言标识模块从多个语音识别引擎中选择与(多种)检测到的语言相对应的第一语音识别引擎。该系统然后使用所选择的/第一语音识别引擎来生成以第一语言对音频流的第一部分的第一转录，该第一转录被存储在转录缓存中。还使用第一语音识别引擎来以第一语言为音频流的第二部分生成第二转录。第二转录也被存储在转录缓存中。

在生成第二转录之后和/或在生成第二转录的同时，使用语言标识模块来确定音频流的第二部分与第二语言相对应。此后，该系统随后还确定音频流的第二部分与第二语言相对应。然后，该系统使用第二语音识别引擎来以第二语言生成第三转录，该第二语音识别引擎由语言标识模块标识并且被配置为以第二语言转录口语话语。然后，由(多个)系统用转录缓存内的第三转录替换第二转录，并且使得对音频流的所得存储转录对应、更紧密地匹配已由语音识别引擎转录的音频流中说出的适当/标识语言，该语音识别引擎专门被配置为分别以不同的标识语言转录音频流的不同部分。

一些所公开的系统和方法还被配置为获得包括口语话语的音频流的电子内容，并且在一个或多个界面处实时地动态生成、校正和呈现对音频流的实时转录。例如，该系统被配置为在一个或多个界面处动态地生成和显示以第一语言对音频流的第一实时转录，同时标识第一实时转录的子部分，该子部分包括一个或多个错误转录的口语话语。该系统还被配置为随后通过在(多个)所显示的界面内用对音频流的校正转录替换一个或多个错误转录的口语话语来生成和呈现对先前转录/呈现的子部分的校正转录。

提供本发明内容是为了以简化形式引入对概念的选择，下面在详细说明中进一步描述了这些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用作帮助确定所要求保护的主题的范围。

附加特征和优点将在以下的描述中进行阐述，并且部分地将根据该描述而显而易见，或者可以通过实践本文中的教导而获知。可以借助于在所附权利要求书中特别指出的仪器和组合来实现和获得本发明的特征和优点。本发明的特征将根据以下描述和所附权利要求书而变得更加清楚明白，或者可以通过实践如下文中所阐述的本发明而获知。

附图说明

为了描述可以获得上述优点和其他优点以及特征的方式，对上面简要描述的主题的更具体的描述将通过参考所附附图中所图示的特定实施例进行呈现。应理解，这些附图仅描绘了典型实施例并且因此不应被视为对范围的限制，将通过使用附图以附加特征和细节对实施例进行描述和解释，在附图中：

图1图示了计算系统包含和/或用于执行所公开的实施例的所公开的方面的计算环境。

图2图示了用于生成和校正多语言语音转录的示例实施例。

图3图示了传输音频与处理结果之间的处理延时的示例实施例。

图4图示了用于移除处理延时以实时生成转录的示例实施例。

图5图示了用于处理多语言音频并且输出最终转录的示例实施例。

图6A至图6F图示了被动态修改以显示多个转录的用户界面的各种视图。

图7图示了用户界面的另一实施例。

图8图示了具有用于生成和校正多语言语音转录的多个动作的流程图的另一实施例。

图9图示了具有用于生成和校正多语言语音转录的多个动作的流程图的另一实施例。

图10图示了具有用于生成、校正和显示多语言语音转录的多个动作的流程图的另一实施例。

具体实施方式

所公开的实施例涉及用于多语言语音处理的系统和方法。在一些实施例中，本发明涉及用于生成和校正多语言语音转录的系统和方法。本发明提供了优于现有系统的许多优点。例如，提供了用于实时生成、校正和动态显示多语言语音转录的方法。

现在将注意力放在图1上，图1图示了可以包括和/或用于实现本发明的各方面的计算系统110的组件。在一些情况下，将结合图2的组件描述图1的组件，图2图示了用于使用如图1中所示的一个或多个组件来生成语音转录的示例性流程图。如图1中所示，计算系统包括多个机器学习(ML)引擎、模型、模块、神经网络以及与机器学习引擎和模型的输入和输出相关联的数据类型。

计算系统110是计算环境100的一部分，该计算环境还包括与计算系统110通信(经由网络130)的(多个)远程系统120。计算系统110被配置为分析音频流，检测一种或多种语言，并且将口语话语转录成多语言转录。计算系统110还被配置为实时或接近实时地动态显示多语言转录。

例如，计算系统110包括一个或多个处理器112(诸如，一个或多个硬件处理器)和存储计算机可执行指令118的存储装置(即，(多个)硬件存储设备140)，其中(多个)硬件存储设备140中的一个或多个硬件存储设备能够可以容置任何数量的数据类型和任何数量的计算机可执行指令118，通过该计算机可执行指令，计算系统110被配置为在计算机可执行指令118被一个或多个处理器112执行时实现所公开的实施例的一个或多个方面。计算系统110还被示出为包括(多个)用户界面114和(多个)输入/输出(I/O)设备116。计算系统110被配置为修改(多个)用户界面114以显示多语言语音转录(例如，实时转录144)、校正转录145和多语言语音翻译转录。

如图1中所示，(多个)硬件存储设备140可以被配置为单个存储单元。然而，还应了解，(多个)硬件存储设备140可配置为分布在若干单独的并且有时是远程的(多个)系统120中。就此而言，计算系统110也可以被视为分布式系统，其中计算系统110中的所有所图示的组件都可以分布在彼此远离的不同离散系统中并且由这些离散系统维护/运行。在一些情况下，多个分布式系统执行类似的和/或共享的任务以便诸如在分布式云环境中实现所公开的功能性。

(多个)硬件存储设备140被配置为存储不同数据类型，包括本文中所描述的电子内容141、音频流142、口语话语(例如，话语143)、实时转录144、校正转录145、语言配置文件148和语言标识模块组件(例如，LID组件149)。

存储装置(例如，(多个)硬件存储设备140)包括用于实例化或执行计算系统110中所示的模型和/或引擎中的一个或多个模型和/或引擎的计算机可执行指令118。这些模型被配置为机器学习模型或机器习得模型，诸如深度学习模型和/或算法和/或神经网络。在一些情况下，一个或多个模型被配置为引擎或处理系统(例如，集成在计算系统110内的计算系统)，其中每个引擎(即，模型)包括一个或多个处理器(例如，(多个)硬件处理器112)和与计算系统110对应的计算机可执行指令118。

存储设备140还存储(多个)存储机器学习(ML)引擎150，但它们目前在单独的框中示出。它们是分开示出的，以说明它们可以如何与其他所存储的组件隔离和/或如何从远程和单独的系统进行访问。

(多个)所存储的ML引擎150包括以下一项或多项：数据获取引擎151、(多个)LID模块152、翻译引擎153、语音识别引擎154、显示引擎155和实现引擎158，它们单独和/或共同被配置为实现本文中所描述的不同功能性。

例如，数据获取引擎151被配置为定位和访问包括一种或多种数据类型的数据源、数据库和/或存储设备，数据获取引擎151可以从其中提取数据集或数据子集，以用于生成语音转录。数据获取引擎151从数据库和/或硬件存储设备接收数据，其中数据获取引擎151被配置为重新格式化或以其他方式扩充接收到的数据以用作训练数据。附加地或备选地，数据获取引擎151与包括远程数据集和/或数据源的一个或多个远程系统(例如，(多个)远程系统120)通信。在一些情况下，这些数据源包括记录或流式传输文本、图像和/或视频的视觉服务。

数据获取引擎151访问包括一种或多种类型的视听数据的电子内容140，该视听数据包括视频数据、图像数据、全息数据、3D图像数据等，其中数据获取引擎151能够从电子内容141提取或获取音频流142。音频流142包括一个或多个口语话语(例如，话语143)。每个口语话语包括以一种或多种语言说出的一个或多个字词和/或一个或多个短语。音频流142包括一个或多个发言者以及与一个或多个发言者中的每个发言者相关联的一种或多种语言。数据获取引擎151是智能引擎，该智能引擎能够学习最佳数据集提取进程来以及时方式提供足够量的数据，并且获取最适用于期望应用的数据，机器学习模型/引擎将针对该期望应用进行训练和/或实现。

数据获取引擎151定位、选择和/或存储原始记录的源数据，其中数据获取引擎151与计算系统110中所包括的一个或多个其他ML引擎和/或模型通信。在这样的情况下，与数据获取引擎151通信的其他引擎能够接收已从一个或多个数据源获取(即，提取、拉取等)到的数据，以使得接收到的数据被进一步扩充和/或应用于下游进程。

例如，数据获取引擎151与(多个)LID模块152、内部缓冲器146、翻译引擎153、(多个)语音识别引擎154、显示引擎144和/或实现引擎156通信。数据获取引擎151还被配置为获取存储在内部缓冲器146中的音频流142的一个或多个部分以便传输/路由给一个或多个语音识别引擎154，和/或获取转录缓存中的一个或多个实时转录144以便传输/路由给显示引擎155来在(多个)用户界面144上显示。

一个或多个语言标识模块(例如，(多个)LID模块152)被配置为从音频流142接收话语143并且检测与话语143对应的一种或多种语言(例如，与语言配置文件148相关联的一种或多种语言)。(多个)LID模块152还被配置为检测新口语话语是与同先前口语话语相同的语言相对应还是与新语言相对应。如果检测到新语言，那么(多个)LID模块152向控制器202(参见图2)发送警示消息以切换到与新语言相对应的新语音识别引擎154，并且向控制器202发送信号以获取存储在内部缓冲器146中的音频流142的一个或多个部分，从而将音频流的这些部分传输给新语音识别引擎154。

翻译引擎153被配置为将一种语言的音频流的口语话语翻译并且转录成一种或多种不同语言。语音识别引擎154基于来自对应语言的特定真值进行专门训练，以检测语音(例如，话语143)并且根据音频流来生成以对应语言对检测到的语音话语的转录(例如，实时转录144和/或校正转录145)。

内部缓冲器146被配置为存储音频流142的一个或多个部分(例如，音频部分204、音频部分206和/或音频部分208；参见图2)，使得当实时转录144需要校正转录145时，数据获取引擎150获取存储在内部缓冲器146中的音频流142的一个或多个部分，并且将音频流的一个或多个部分传输给被选择为生成校正转录145的新语音识别引擎154。

显示引擎155被配置为修改和更新一个或多个用户界面114以在(多个)指定用户界面内的各个位置处显示实时转录144和校正转录145。显示引擎155还被配置为显示转录的翻译版本。

在一些实施例中，计算系统110包括与计算系统110中所包括的模型和/或(多个)ML引擎150(或者，所有模型/引擎)中的任一模型和/或ML引擎通信的实现引擎156，使得实现引擎156被配置为实现、发起或运行多个ML引擎150的一个或多个功能。在一个示例中，实现引擎156被配置为操作数据获取引擎151，使得数据获取引擎151在适当的时间获取数据，以便能够将语音数据路由给语言标识模块(例如，(多个)LID模块152)、内部缓冲器146和/或一个或多个语音识别引擎154。

实现引擎156促进(多个)ML引擎150中的一个或多个ML引擎之间的进程通信和通信定时，并且被配置为实现和操作(多个)ML引擎150中的一个或多个ML引擎，该ML引擎被配置为处理包括多种语言的口语话语的语音数据。实现引擎156在计算系统110内实例化和/或由该计算系统访问以操作(多个)不同ML引擎150。在其他情况下，实现引擎156是远程系统的远程进程，该远程系统用于远程控制系统110的组件，诸如(多个)其他ML引擎150。

计算系统与(多个)远程系统120通信，该远程系统包括一个或多个处理器122和一个或多个计算机可执行指令124。(多个)远程系统120可以由第三方实体控制。应了解，在一些情况下，(多个)远程系统120还包括容置可以在语音处理时使用的数据(例如，未存储在本地存储装置中的音频数据)的数据库。附加地或备选地，(多个)远程系统120包括计算系统110外部的机器学习系统，该机器学习系统进一步支持或扩充系统110的功能性。在一些实施例中，(多个)远程系统120是软件程序或应用。

现在将注意力主要放在图2上，在对图1中所示的对应组件进行了一些参考的情况下，图2图示了用于生成和存储语音转录的示例性进程流程图。如图1中所示的计算系统110和/或如图2中所示的控制器202被配置为获得包括口语话语143的音频流142A的电子内容141。电子内容141可以从视听或音频流设备/应用实时获得或可以从先前记录的数据(例如，从远程系统120)获得。

为了开始生成语音转录，系统选择与多个语音识别(SR)引擎(例如，SR A 154A和SR B 154B)相关联的语言标识模块152A，该语音识别引擎被配置为分析音频流142A中所包括的口语话语并且检测与包括话语143的音频流142A对应的至少一种语言(例如，语言A148A和语言B 148B)。

通过各种方法访问和/或选择语言标识模块152A。语言标识模块152A是基于用户指定的语言偏好而可选择的。例如，用户可以基于每个用户的说话能力来预定义某些语言参数或偏好，或者用户可以通过在语言转录应用界面(例如，(多个)界面114)内输入指定/选择偏好的用户输入而基于将在音频流142A中说出的推测语言来预定义语言偏好。

也可从多个语言标识模块(例如，(多个)LID模块152)中自动选择语言标识模块152A，该语言标识模块被确定为要基于待处理的音频流的已知参数使用的最适合或最适当的LID模块。

例如，计算系统110访问包括多个语言标识模块的语言标识模块数据库，其中多个语言标识模块中所包括的每个语言标识模块与包括语言配置文件148的数据库中所包括的特定语言配置文件相对应。基于与用户定义的偏好对应的语言子集或其他自动选择的语言子集中所包括的一种或多种语言、基于发言者配置文件、音频流或音频流源的类型、程序上下文、地理位置等，计算系统选择被包括在语言标识模块数据库中的语言标识模块，该语言标识模块看起来与那些标识出的发言者配置文件、音频流或音频流源的类型、程序上下文、地理位置等的语言配置文件最佳匹配。

所选择的语言标识模块(例如，LID模块152A)也可通过实时构建优化的语言标识模块进行选择。语言标识模块组件数据库包括多个语言标识模块组件(例如，LID组件149)，其中多个语言标识模块组件中所包括的每个语言标识模块组件被配置为与多个语言标识模块组件中所包括的一个或多个不同的语言标识模块组件组合。当接收到指定(多个)音频流中将要说出的已知和/或可能语言的用户输入或其他输入时，系统选择一个或多个语言标识模块组件149，该语言标识模块组件专门被配置为识别和分析这些语言并且将所选择的一个或多个语言标识模块组件149组合成单个语言标识模块(例如，LID模块152A)。

然后使用被选择和/或构建的语言标识模块152A来检测与由系统实时处理的音频流142相关联的语言。例如，在音频流142的T1处，语言标识模块152A检测到语言A 148A。在T2处，语言标识模块152A检测到语言B 148B，此时其向控制器202警示已检测到新语言(例如，交换机210)。

计算系统110选择多个语音识别引擎154中的第一语音识别引擎或默认语音识别引擎(例如，SR A 154A)。第一语音识别引擎被配置为以第一语言(例如，语言A 148A)转录口语话语。默认语音识别引擎可通过各种方法进行选择。第一语音识别引擎(例如，SRA154A)是基于由语言标识模块输出的先前结果集合而可选择的。第一语音识别引擎也是基于用户定义的设置(诸如，预定义语言子集或用户语言偏好)而可选择的。

语音识别引擎154还被配置为将口语话语转录成多种语言，包括与口语话语相对应的主要语言和次要语言。例如，有时发言者可以在同一口语话语中说多种语言(参见如图6B中所示的第一所生成的语音转录)，使得所选择的语音识别引擎被配置为理解并且转录至少两种语言。

将音频流142A同时传输给语言标识模块152A、当前选择的语音识别引擎(例如，SRA 154A)和内部缓冲器146。备选地，将音频流142A串行地路由给前述系统位置中的每个系统位置。

系统使用第一语音识别引擎(例如，SR A 154A)来生成以第一语言(例如，语言A148A)对音频流142A的第一部分(例如，音频部分204)的第一实时转录(例如，转录AT1(RT)144A)。语音识别引擎154还被配置为针对由一个或多个语音识别引擎转录的音频流的每个部分生成时间戳(例如，T1、T2等，如图2中所示)。时间戳以预定义间隔生成或基于依据发言者或标识出的口语话语的音频流的解析来生成。使用时间戳来标记和跟踪音频流的不同部分或子部分以及对应转录的时间位置。

在生成转录AT1(RT)144A之后，其被存储在转录缓存147中。同时，系统使用第一语音识别引擎(例如，SR A 154A)来生成以第一语言(例如，语言A 148A)对音频流142A的第二部分(例如，音频部分206)的第二转录(例如，转录AT2(RT)144B)。第二转录也被存储在转录缓存147中。

在生成第二转录之后和/或在生成第二转录的同时，使用LID模块152A来确定音频流的第二部分或音频流的时间位置T2与第二语言(例如，语言B 148B)对应。一旦检测到新语言，LID模块152A就被配置为向控制器202警示已切换了该语言(例如，交换机210)，此时选择新语音识别引擎(例如，SR B 154B)。随后，向新语音识别模块(例如，SR B 154B)发送与时间位置(例如，T2)对应的音频部分(例如，音频部分206)或与新语言(例如，语言B148B)对应的音频流的部分以在该部分已经被先前语音识别模块(例如，SR A 154A)转录(例如，转录AT2(RT)144B)的情况下生成校正转录(例如，转录BT2(B)145A)。

在确定音频流142A的第二部分(例如，音频部分206)与第二语言(例如，语言B148B)对应之后，系统(例如，计算系统110)根据存储在内部缓冲器147中的音频部分206来生成第三转录，该第三转录是校正转录(例如，转录BT2(B)145A)。

在生成校正转录之后，系统用转录缓存147中的第三转录(例如，转录BT2(B)145A)替换和/或覆写(例如，覆写箭头212)第二转录(例如，存储在转录缓存147中的转录AT2(RT)144B)。

计算系统110还被配置为访问包括多个语言配置文件148的语言数据库，并且选择与语言数据库中所包括的一个或多个语言配置文件相对应的语言子集。

与语言数据库中所包括的一个或多个语言配置文件相对应的语言子集是基于音频流的属性而可自动选择的。在一些备选实施例中，对语言子集的选择也基于输入到(多个)用户界面中的用户定义的输入。

为了基于音频流的属性来选择语言子集，计算系统标识电子内容中所包括的口语话语的一个或多个属性并且基于在电子内容中标识出的口语话语的一个或多个属性来自动选择与语言数据库中所包括的一个或多个语言配置文件相对应的语言子集。在这样的情况下，计算系统将LID模块152A对电子内容141的分析限制于检测语言子集中所包括的一种或多种语言。计算系统110然后选择与LID模块152A相关联的一个或多个语音识别引擎(例如，SR A 154A和SR B154B)，这些语音识别引擎被LID模块152A确定为与语言子集最紧密地相关联。

在一些实施例中，计算系统基于与音频流相对应的多个发言者的身份来标识语言子集。系统基于在音频流中标识出的属性或基于先前定义的发言者偏好来获得多个发言者中所包括的每个发言者的预定义语言集，并且在标识出与特定预定义语言集对应的特定发言者时，将语言标识模块对音频流的分析限制于特定预定义语言集中所包括的一种或多种语言。

当标识出多个发言者时，系统进一步被配置为将具有多个发言者的不同音频流解析为隔离流，其中每个隔离流与多个发言者中的离散发言者对应。如果存在正在同时说话的多个发言者，从而使口语话语在原始音频流内重叠，那么这尤为有益。在必要时，这种解析由(多个)LID模块152、数据获取引擎151或计算系统110的另一组件执行。

再次参考图2，LID模块152A继续实时分析音频流并且在后续时间位置(例如，T3和T4)处检测语言。如图2中所示，LID模块152A向控制器202警示已检测到相同语言(例如，相同214和相同216)，使得不需要新语音识别引擎。例如，在生成校正转录(例如，转录BT2(B)145A)之后，SR B 154B继续转录音频流(例如，转录BT3(RT)144C和转录BT4(RT)144D)。每个后续实时转录被存储在转录缓存147中。

现在将注意力放在图3上，图3图示了在音频实时流式传输和传输(例如，传输音频304)并且处理(即，转录)时发生的处理延时302。这表明在音频流和所生成的转录(例如，处理结果306)的实时流式传输与传输之间存在轻微延迟。

然而，因为(多个)LID模块和语音识别模块比实时操作得更快，所以系统可以“赶上”或弥补在重新转录进程期间发生的延时，使得系统不再需要从缓冲器中拉取，而是可以再次开始直接实时转录音频流。

现在将注意力放在图4上，图4示出了用于处理、生成和存储多语言语音转录的另一示例性实施例，并且具体地示出了系统可以如何弥补在处理期间发生的延时。例如，与英语对应的语音识别(SR)引擎(例如，SR(en-US)402)被推测性地选择为一接收到音频流就开始转录音频流。在将音频流传输给LID 404之后，音频流也由LID 404分析。

如所示的，在通过语音识别引擎生成对音频部分的转录与通过LID在不同时间间隔处检测语言之间可以存在轻微延时。这里，SR(en-US)402在T0处开始实时转录，但LID404检测到T0处的音频部分与T2处的英语语言相对应。

例如，从T0到T1的音频部分与第一语言(例如，英语)对应，但英语语音识别引擎(例如，SR(en-US)402)继续假设音频流的其余部分也是英语并且继续在T1、T2和T3处转录音频流。

在该实施例中，LID 404在T4之前一直未检测到音频流与第二语言(例如，中文)对应，但引入新语言的时间位置实际上位于音频流的T2处。例如，这可能发生在LID 404确定了某些音素可能与不同语言(包括例如(en-US)和(zh-CH))对应时。LID 404被配置为在确定音频流中的口语已切换到新语言之前等待，直到在音频流中针对第一标识语言检测到特定数量的错误或不匹配音素为止。

因此，由SR(en-US)402在T2和T3处输出的转录是错误的并且需要覆写。系统然后从内部缓冲器(例如，图1和图2的内部缓冲器147)获取T2和T3处的音频部分并且将其传输给SR(zh-CN)406，该SR(zh-CN)然后生成校正转录。系统被配置为在检测到先前语言的第一错误或不匹配音素时返回到例如T2或音频流中的另一较早部分。备选地，系统被配置为返回音频流中的预定持续时间(例如，像2秒、3秒、4秒或另一持续时间的预定持续时间)或预定数量的音素(例如，5个音素、10个音素、15个音素或另一数量的音素)或预定数量的短语、句子或字词。当系统返回到T2以便在先前转录的音频流的所选择的持续时间内校正转录时，将产生延时。这里，因为语音识别引擎能够以比实时语音更快(例如，比发言者说话更快)的速率转录从内部缓冲器获取的音频部分，所以延时被赶上。在T4处，系统能够为T2和T3生成校正转录，并且开始在T4处用SR(zh-CN)406实时转录音频流。

应了解，在大部分转录和相关处理时间期间，在处理期间每次只有一个语音识别引擎处于启动状态，从而节省了处理能力。然而，如所描述的，在语言切换期间，多个语音识别系统将处于启动状态。虽然语音识别在语言切换已增加了来自LID处理时间的延时之后产生，但可以通过利用来自缓冲音频流的“追赶”增益来减轻这种延时。这可能会导致缓冲音频量减少。但是，在未来缓冲进程中，可以通过从缓冲音频中省略说话的间隙来建立缓冲。

现在将注意力放在图5上，其图示了用于连续生成和校正语音转录的示例实施例。如图5中所示，系统获得包括口语话语的音频流的电子内容。将该音频流传输给SR#1(例如，传输音频502)。传输音频502由语音识别引擎(例如，SR#1 504)处理，并且处理结果506包括对音频流的近实时转录。在转录的处理和生成时存在轻微延时(例如，延时惩罚508)。然而，在处理的下游进一步弥补了这种延时。应注意，当将音频流传输给语音识别引擎时，音频流也被连续存储在内部缓冲器中。

处理结果506(例如，以第一语言对音频流的实时转录)也被连续存储在转录缓存中。音频流还由所选择的语言标识模块分析，该语言标识模块被配置为连续分析音频流并且检测与口语话语相对应的语言。应了解，在将音频流连续存储在内部缓冲器中之前或在将音频流连续存储在内部缓冲器中的同时，系统选择语言标识模块，该语言标识模块被配置为连续分析音频流并且检测与口语话语相对应的语言。

在生成以第一语言对音频流的实时转录时，系统使用语言标识模块(LID 518)来检测从音频流(例如，音频部分520)中的后续时间位置(Tn)开始的新口头话语与第二语言相对应(例如，结果：场所#2 522，而第一场所#1与第一语言相对应)。

在检测到音频流中的新口头话语与第二语言相对应之后，系统选择第二语音识别引擎(SR#2 510)，该第二语音识别引擎被配置为以第二语言转录口语话语。

值得注意的是，在处理期间，在时间Tx处对新口语话语的初始检测可发生于在时间Tn处对音频流中的话语的实际呈现之后。这种延迟是由音频处理引起的并且是缓冲音频流的一个原因。因此，当这种情况发生(例如，检测到以新语言说出的话语)时，系统从内部缓冲器获取音频流的缓冲部分512。被选择的缓冲部分512将在音频流中在相对时间位置(Tn)处开始，在该相对时间位置(Tn)处，在经过处理的音频流中首次检测到(Tx)新语言。然后，系统将开始使用新语音识别引擎(SR#2 510)来继续处理所选择的缓冲部分512和正在处理的恢复进行中的音频流，直到任何后续切换为止。

在正在使用的语音识别引擎的切换期间，系统将继续用先前的并且错误的第一语音识别引擎来处理音频流，直到切换完全完成为止。

在选择第二语音识别引擎或其他后续语音识别引擎并且获取音频流的缓冲部分之后，系统使用第二语音识别引擎SR#2 510来生成以第二语言对音频流的缓冲部分512的新转录(例如，处理结果514)。从转录缓存移除错误识别结果(其在切换完成之前由第一语音识别引擎处理)并且用正确结果替换该错误识别结果。

附加地，如果正在显示结果并且从第一语音识别引擎显示了错误的先前转录结果，那么系统用从第二语音识别引擎生成的新校正结果替换显示界面上的错误结果。

如图5中所示，SR#2可以按比在实时处理的情况下可能的速率更快的速率处理缓冲音频，这意味着与处理未缓冲的实时音频所花费的时间相比，系统可以在相同的时间或更短的时间内处理更大量的缓冲音频，这是由于实时音频以(多个)发言者的低于计算系统的处理能力的速率进行递送。这在选择正确语音识别引擎来处理对应语言时尤其如此，使得系统能够用正确语音识别引擎以比实时音频递送更快的速率处理所传输的音频流，从而使得系统可以赶上实时音频递送，进而为音频流(例如，实时音频部分516)提供基本上实时的音频转录。这些处理结果514然后被连续存储在转录缓存中。

现在将注意力放在图6A至图6D上，图6A至图6D图示了用户界面(例如，用户界面114)的各种视图，该用户界面被配置为显示由本文中所描述的系统和方法生成的语音转录。系统被配置为获得包括多语言口语话语的音频流的电子内容，并且使用第一语音识别引擎来动态地生成以第一语言(例如，中文)对音频流的第一部分的第一实时转录，该第一语音识别引擎被配置为以第一语言转录口语话语。

系统还动态地修改用户界面，以在第一位置处在用户界面604内显示以第一语言对音频流的第一实时转录(例如，转录602)。系统继续动态地更新用户界面604，以在发言者正在说话时显示实时语音转录(参见如图6B中所示的转录606)。系统能够基于由LID模块标识出的语言切换来显示不同语言的转录。参见如图6C中所示的转录608。

系统还被配置为标识音频流的第一实时转录的子部分，该子部分包括已以错误语言转录的一个或多个错误转录的口语话语(例如，，如图6D中所示的“put hungry more”610)。系统然后生成对音频流的与第一实时转录的包括一个或多个错误转录的口语话语的子部分相对应的子部分的校正转录，并且修改用户界面604以通过用对音频流的校正转录替换音频流的第一实时转录的包括一个或多个错误转录的口语话语的子部分来在用户界面内进一步显示以第二语言对音频流的校正转录(参见图6E中所示的转录612)。

在校正音频流的错误转录和显示的部分之后，系统使用第二语音识别引擎来生成以第二语言对音频流的第二部分的第二实时转录，该第二语音识别引擎被配置为以第二语言转录口语话语并且动态地修改用户界面604以在用户界面内显示以第二语言对音频流的第二实时转录(参见如图6F中所示的转录614)。

现在将注意力放在图7上，图7图示了包括多种语言的多个实时和校正的转录的用户界面702A以及显示多个翻译转录(目标语言(例如，英语)的转录704、转录706和转录708)的用户界面702B。因此，系统还被配置为生成对音频流的第三转录(该第三转录是以目标语言对第一实时转录和/或第二实时转录的翻译)并且修改用户界面702以在用户界面702B的第二位置处在用户界面内显示第三转录。

系统还被配置为生成与音频流的多个转录段对应的多个时间戳并且动态地修改用户界面以在用户界面内显示多个时间戳，该多个时间戳中的每个时间戳显示在多个转录段中的特定转录段附近的位置中。

现在将注意力放在图8上，图8图示了流程图800，该流程图包括与可以由计算系统110实现的用于生成和校正多语言语音转录的示例性方法相关联的各种动作(动作805、动作810、动作815、动作820、动作825、动作830、动作840、动作845、动作850、动作855和动作860)。

第一图示动作包括获得包括口语话语的音频流的电子内容的动作(动作805)。该音频流可以从内部缓冲器进行访问和/或被连续存储在内部缓冲器中(动作810)。选择与音频流和音频流的口语相关联的语言标识模块和语音识别引擎(分别为动作815和820)。

计算系统选择与多个语音识别引擎相关联的语言标识模块(动作815)，该语言标识模块被配置为分析口语话语并且检测与口语话语的音频流相对应的至少一种语言(动作835)。使用语言标识模块来分析音频流的第一部分(动作830)，并且使用语言标识模块来检测与音频流的第一部分相对应的第一语言(动作835)。

由语言标识模块和/或基于用户输入从多个语音识别引擎中选择第一语音识别引擎(动作820)。第一语音识别引擎生成以第一语言对音频流的第一部分的第一转录(动作840)。

计算系统然后将第一转录存储在转录缓存中(动作845)，使用第一语音识别引擎生成以第一语言对音频流的第二部分的第二转录(动作855)，并且将第二转录存储在转录缓存中(动作860)。

在生成第二转录之后和/或在生成第二转录的同时，还使用语言标识模块来确定音频流的第二部分与第二语言相对应(动作850)。

然后，在确定音频流的第二部分与第二语言相对应之后，生成使用第二语音识别引擎的第二语言的第三转录，该第二语音识别引擎被配置为以第二语言转录口语话语(动作865)，并且用转录缓存中的第三转录替换第二转录(动作870)。备选地，系统通过用第二语音识别引擎以第二语言动态地生成第二转录(动作855)来绕过动作865和动作870。当在检测第二语言的动作850的同时选择第二语音识别引擎时，启用该实施例。

现在将注意力放在图9上，图9图示了流程图900，该流程图包括与可以由计算系统110实现的用于生成和校正多语言语音转录的示例性方法相关联的各种动作。

第一图示动作包括获得包括口语话语的音频流的电子内容的动作(动作905)。计算系统将音频流连续存储在内部缓冲器中(动作910)，并且选择第一语音识别引擎，该第一语音识别引擎被配置为以第一语言转录口语话语(动作915)。在选择第一语音识别引擎之后，第一语音识别引擎开始使用第一语音识别引擎从音频流的第一时间位置开始生成以第一语言对音频流的实时转录(动作920)。计算系统还将以第一语言对音频流的实时转录连续存储在转录缓存中(动作925)。

系统还基于预定设置或音频流的配置文件或上下文和/或基于用户输入来自动选择语言标识模块，该语言标识模块被配置为连续分析音频流并且检测与口语话语相对应的语言(动作930)。

在选择语言标识模块并且获得音频流之后，开始使用语言标识模块从第一时间位置开始分析音频流(动作935)。在生成以第一语言对音频流的实时转录时，使用语言标识模块来检测从音频流中的后续时间位置开始的新口头话语与第二语言相对应(动作940)。

在检测到音频流中的新口头话语与第二语言相对应之后，计算系统选择被配置为以第二语言转录口语话语的第二语音识别引擎(动作945)并且从内部缓冲器获取音频流的缓冲部分，该缓冲部分从后续时间位置开始(动作950)。在一些情况下，使用语言标识模块来根据由系统存储或由系统可访问的对应性映射，基于检测到的语言与语音识别引擎的已知和映射能力之间的所确定的对应性来选择语音识别引擎。

在选择第二语音识别引擎并且获取音频流的缓冲部分之后和/或在选择第二语音识别引擎并且获取音频流的缓冲部分的同时，使用第二语音识别引擎来生成以第二语言对音频流的缓冲部分的新转录(动作955)。计算系统还停止使用第一语音识别引擎来生成以第一语言对音频流的实时转录(动作960)，并且停止将以第一语言对音频流的实时转录存储在转录缓存中(动作965)。

用对缓冲部分的新转录替换对音频流的实时转录的缓存部分，该缓存部分从后续时间位置开始(动作970)。计算系统然后开始使用第二语音识别引擎来生成以第二语言对音频流的实时转录(动作975)，并且将以第二语言对音频流的实时转录连续存储在转录缓存中(动作980)。

应了解，可以递归地执行图9的流程图900中提及的动作，以便支持具有任何数量的检测到的语言的音频流的处理和音频流中所使用的语言之间的任何数量的切换。因此，系统可以有效地并且动态地选择和切换语音识别引擎，该语音识别引擎正用于转录检测到的不同语言，在用于音频流中的不同的对应检测到的语言切换中的每种语言切换的不同语音识别引擎之间动态地切换，还替换与不同切换相关联的错误转录的音频段的任何部分，该错误转录的音频段可能已在(多个)不同语音识别引擎之间进行(多个)切换的进程之前和/或期间被错误地转录。

现在将注意力放在图10上，图10图示了流程图1000，该流程图包括与可以由计算系统110实现的用于生成和校正多语言语音转录的示例性方法相关联的各种动作。第一图示动作包括获得包括口语话语的音频流的电子内容的动作(动作1005)。

计算系统然后使用第一语音识别引擎来动态地生成以第一语言对音频流的第一部分的第一实时转录，该第一语音识别引擎被配置为以第一语言转录口语话语(动作1010)。计算系统还动态地修改用户界面，以在第一位置处在用户界面内显示以第一语言对音频流的第一实时转录(例如，动作1015)。标识音频流的第一实时转录的包括一个或多个错误转录的口语话语的子部分(动作1020)。随后，生成对音频流的与第一实时转录的包括一个或多个错误转录的口语话语的子部分相对应的子部分的校正转录(动作1025)。

计算系统然后修改用户界面以通过用对音频流的校正转录替换音频流的第一实时转录的包括一个或多个错误转录的口语话语的子部分来在用户界面内进一步显示以第二语言对音频流的校正转录(动作1030)。

使用第二语音识别引擎来生成以第二语言对音频流的第二部分的第二实时转录，该第二语音识别引擎被配置为以第二语言转录口语话语(动作1035)。最后，计算系统动态地修改用户界面以在用户界面内显示以第二语言对音频流的第二实时转录(动作1040)。

鉴于前述情况，应了解，所公开的实施例提供了优于用于生成和校正多语言语音转录的常规系统和方法的许多技术益处。

如下面更详细地讨论的，本发明的实施例可以包括或利用专用或通用计算机(例如，计算系统110)，该专用或通用计算机包括计算机硬件。在本发明的范围内的实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这种计算机可读介质可以为可以由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令(例如，图1的计算机可执行指令118)的计算机可读介质(例如，图1的(多个)硬件存储设备140)是不包括传输介质的物理硬件存储介质或存储设备。在一个或多个载波或信号中携带计算机可执行指令或计算机可读指令(例如，计算机可执行指令118)的计算机可读介质是传输介质。因此，作为示例而非限制，本发明的实施例可以包括至少两种截然不同的计算机可读介质：物理计算机可读存储介质或存储设备以及传输计算机可读介质。

物理计算机可读存储介质和存储设备是硬件并且包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置(诸如，CD、DVD等)、磁盘存储装置或其他磁存储设备或任何其他硬件，该任何其他硬件可以用于存储呈计算机可执行指令或数据结构的形式的期望程序代码部件并且可以由通用或专用计算机访问。

“网络”(例如，图1的网络130)被定义为使得在计算机系统和/或模块和/或其他电子设备之间能够输送电子数据的一条或多条数据链路。当信息通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)被转移至或提供给计算机时，计算机将该连接适当地视为传输介质。传输介质可以包括网络和/或数据链路，该网络和/或数据链路可以用于携带呈计算机可执行指令或数据结构的形式的期望程序代码部件并且可以由通用或专用计算机访问。上述的组合也被包括在计算机可读介质的范围内。

进一步地，在到达各种计算机系统组件时，呈计算机可执行指令或数据结构的形式的程序代码部件可以从传输计算机可读介质自动转移到物理计算机可读存储介质(反之亦然)。例如，通过网络或数据链路接收到的计算机可执行指令或数据结构可以在网络界面模块(例如，“NIC”)内的RAM中进行缓冲，然后最终转移至计算机系统RAM和/或计算机系统处的非易失性计算机可读物理存储介质。因此，计算机可读物理存储介质可以被包括在也(或者，甚至主要)利用传输介质的计算机系统组件中。

计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。计算机可执行指令可以是例如二进制中间格式指令(诸如，汇编语言)或甚至可以是源代码。尽管已用特定于结构特征和/或方法动作的语言描述了主题，但应理解，所附权利要求书中限定的主题不必限于所描述的特征或上述动作。相反，所描述的特征和动作是作为实现权利要求的示例形式而公开的。

本领域的技术人员应了解，可以在具有多种类型的计算机系统配置的网络计算环境中实践本发明，该计算机系统配置包括个人计算机、桌上型计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的消费电子产品或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等。也可以在分布式系统环境中实践本发明，其中通过网络链接(由硬连线数据链路、无线数据链路或由硬连线与无线数据链路的组合)的本地计算机系统和远程计算机系统都执行任务。在分布式系统环境中，程序模块可以位于本地存储器存储设备和远程存储器存储设备两者中。

备选地或另外，本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑组件执行。例如，但不限于，可以使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等。

本发明可以在不脱离其基本特征的情况下以其他特定形式实施。所描述的实施例在所有方面都仅被视为是说明性的，而非限制性的。因此，本发明的范围由所附权利要求书，而非前述描述指示。在权利要求书的等效物的含义和范围内的所有变化都应被包含在权利要求书的范围内。

Claims

1.一种计算系统，包括：

一个或多个处理器；以及

一个或多个计算机可读指令，所述一个或多个计算机可读指令由所述一个或多个处理器可执行以将所述计算系统配置为在开始用第一语音识别引擎以第一语言对口语话语的音频流的至少第一部分的转录之后，至少执行以下动作：

使用所述第一语音识别引擎来生成以所述第一语言对所述音频流的第二部分的第二转录；

在转录缓存中存储所述第二转录；

在生成所述第二转录之后，使用语言标识模块来确定所述音频流的所述第二部分与第二语言相对应；

在确定所述音频流的所述第二部分与第二语言相对应之后，使用第二语音识别引擎来以所述第二语言生成第三转录，所述第二语音识别引擎被配置为以所述第二语言转录口语话语；以及

用所述转录缓存中的所述第三转录替换所述第二转录。

2.根据权利要求1所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

在内部缓冲器中存储所述音频流的所述第二部分；

在所述第二语言被所述语言标识模块检测到之后，

取回所述音频流的所述第二部分；

终止所述第一语音识别引擎；以及

访问所述第二语音识别引擎。

3.根据权利要求1所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

获得包括所述音频流的电子内容；

选择所述语言标识模块，所述语言标识模块与多个语音识别引擎相关联，并且被配置为分析口语话语，并且检测与口语话语的音频流相对应的至少一种语言；

使用所述语言标识模块来分析所述音频流的所述第一部分；

使用所述语言标识模块来检测所述第一语言与所述音频流的所述第一部分相对应；

选择所述多个语音识别引擎中的所述第一语音识别引擎，所述第一语音识别引擎被配置为以所述第一语言转录口语话语；

使用所述第一语音识别引擎来生成以所述第一语言对所述音频流的所述第一部分的第一转录；

在所述转录缓存中存储所述第一转录。

4.根据权利要求3所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

基于由所述语言标识模块输出的先前结果集合来选择所述第一语音识别引擎。

5.根据权利要求3所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

基于用户指定的语言偏好来选择所述语言标识模块。

6.根据权利要求1所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

访问包括多个语言配置文件的语言数据库；以及

选择与被包括在所述语言数据库中的一个或多个语言配置文件相对应的语言子集。

7.根据权利要求6所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

基于用户定义的输入，选择与被包括在所述语言数据库中的一个或多个语言配置文件相对应的所述语言子集。

8.根据权利要求6所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

标识被包括在所述电子内容中的口语话语的一个或多个属性；以及

基于在所述电子内容中被标识的所述口语话语的所述一个或多个属性，自动选择与被包括在所述语言数据库中的一个或多个语言配置文件相对应的所述语言子集。

9.根据权利要求6所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

将由所述语言标识模块对所述电子内容的分析限制于对被包括在所述语言子集中的一种或多种语言的检测。

10.根据权利要求6所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

基于被包括在所述语言子集中的至少一种语言，选择所述第一语音识别引擎和所述第二语音识别引擎中的每一者。

11.根据权利要求6所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

访问包括多个语言标识模块的语言标识模块数据库，被包括在所述多个语言标识模块中的每个语言标识模块与被包括在所述语言数据库中的特定语言配置文件相对应；以及

基于被包括在所述语言子集中的一种或多种语言，选择被包括在所述语言标识模块数据库中的所述语言标识模块。

12.根据权利要求6所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

访问包括多个语言标识模块组件的语言标识模块组件数据库，被包括在所述多个语言标识模块组件中的每个语言标识模块组件被配置为与被包括在所述多个语言标识模块组件中的一个或多个不同的语言标识模块组件组合；

基于被包括在所述语言子集中的一种或多种语言，选择一个或多个语言标识模块组件；以及

组合所述一个或多个语言标识模块组件以形成所述语言标识模块。

13.根据权利要求1所述的计算系统，所述第一语音识别引擎被配置为以多种语言转录口语话语，所述多种语言包括与所述口语话语相对应的主要语言和次要语言。

14.根据权利要求1所述的计算系统，所述一个或多个计算机可读指令还可执行以将所述计算系统进一步配置为：

针对由所述第一语音识别引擎和所述第二语音识别引擎转录的所述音频流的每个部分生成时间戳。

15.一种计算系统，包括：

一个或多个处理器；以及

一个或多个计算机可读指令，所述计算机可读指令由所述一个或多个处理器可执行以将所述计算系统配置为至少：

获得包括口语话语的音频流的电子内容；

在内部缓冲器中连续存储所述音频流；

选择第一语音识别引擎，所述第一语音识别引擎被配置为以第一语言转录口语话语；

在选择所述第一语音识别引擎之后，开始使用所述第一语音识别引擎来从所述音频流的第一时间位置开始生成以所述第一语言对所述音频流的实时转录；

在转录缓存中连续存储以所述第一语言对所述音频流的所述实时转录；

选择语言标识模块，所述语言标识模块被配置为连续分析所述音频流并且检测与口语话语相对应的语言；

在选择所述语言标识模块并且获得所述音频流之后，开始使用所述语言标识模块来从所述第一时间位置开始分析所述音频流；

在生成以所述第一语言对所述音频流的所述实时转录时，使用所述语言标识模块来检测从所述音频流中的后续时间位置开始的新口头话语与第二语言相对应；

在检测到所述音频流中的所述新口头话语与所述第二语言相对应之后，

选择第二语音识别引擎，所述第二语音识别引擎被配置为以所述第二语言转录口语话语；

从所述内部缓冲器取回所述音频流的缓冲部分，所述缓冲部分从所述后续时间位置开始；

在选择所述第二语音识别引擎并且取回所述音频流的所述缓冲部分之后，使用所述第二语音识别引擎来生成以所述第二语言对所述音频流的所述缓冲部分的新转录；

停止使用所述第一语音识别引擎来生成以所述第一语言对所述音频流的所述实时转录；

停止在所述转录缓存中存储以所述第一语言对所述音频流的所述实时转录；

用对所述缓冲部分的所述新转录替换对所述音频流的所述实时转录的缓存部分，所述缓存部分从所述后续时间位置开始；

开始使用所述第二语音识别引擎来生成以所述第二语言对所述音频流的所述实时转录；以及

在所述转录缓存中连续存储以所述第二语言对所述音频流的所述实时转录。