CN109417583A

CN109417583A - 一种将音频信号实时转录为文本的系统和方法

Info

Publication number: CN109417583A
Application number: CN201780036446.1A
Authority: CN
Inventors: 李世龙
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2019-03-01
Anticipated expiration: 2037-04-24
Also published as: EP3461304A1; AU2017411915B2; AU2020201997A1; CA3029444C; US20190130913A1; SG11201811604UA; EP3461304A4; AU2017411915A1; CN109417583B; JP2019537041A; WO2018195704A1; TW201843674A; JP6918845B2; CA3029444A1; AU2020201997B2

Abstract

公开了一种将音频信号实时转录为文本的系统和方法，其中该音频信号包括第一语音信号和第二语音信号。该方法包括建立接收音频信号的会话，通过建立的会话接收第一语音信号，将第一语音信号分割为第一组语音段，将第一组语音段转录为第一组文本，以及在转录所述第一组语音段的同时接收所述第二语音信号。

Description

一种将音频信号实时转录为文本的系统和方法

技术领域

本申请涉及语音识别领域，特别涉及转录音频信号的系统和方法，例如把语音实时转录为文本并分发给订阅者。

背景技术

自动语音识别(ASR)系统可以用来将语音转录为文本。转录后的文本可被计算机程序或个人读取，以便进一步分析。例如，自动语音识别系统转录用户呼叫得到的文本可以被在线打车平台的呼叫中心利用，使呼叫可以被更有效地分析，以提高向用户调度出租车或私家车的效率。

传统的自动语音识别系统要求在进行语音识别之前接收整个语音，才能转录为文本。因此，长语音的转录很难实时进行。例如，在线打车平台的自动语音识别系统需要保持录制通话直至通话结束，然后开始转录被录制的通话。

本申请的实施例提供了一种改进后的转录系统和方法，实现了语音到文本的实时转录，并分发给订阅者。

发明内容

在一方面，本申请提供了一种将音频信号转录为文本的方法，其中音频信号包括第一语音信号和第二语音信号。所述方法包括建立接收音频信号的会话，通过建立的会话接收第一语音信号，将第一语音信号分割为第一组语音段，将第一组语音段转录为第一组文本，以及在转录所述第一组语音段的同时接收所述第二语音信号。

在另一方面，本申请提供了一种音频信号转录为语音文本的语音识别系统，其中所述音频信号包括第一语音信号和第二语音信号，所述语音识别系统包括通信接口，被配置为建立接收音频信号的会话以及通过所述会话接收第一语音信号，分割单元，被配置为将第一语音信号分割为第一组语音段，以及转录单元，被配置为将第一组语音段转录为第一组文本，其中通信接口进一步被配置在转录所述第一组语音段的同时接收上述第二语音信号。

在另一方面，本申请提供了一种非临时性计算机可读介质。所述计算机可读介质存储计算机指令，当计算机处理器执行所述计算机指令时，计算机执行将音频信号转录为文本的方法，其中音频信号包括第一语音信号和第二语音信号。所述方法包括建立接收音频信号的会话，通过建立的会话接收第一语音信号，将第一语音信号分割为第一组语音段，将第一组语音段转录为第一组文本，以及在转录所述第一组语音段的同时接收所述第二语音信号。

应当理解的是，前面的一般描述和下面的详细描述都仅是示例性和解释性的，并不构成对本申请的限定。

附图说明

图1是根据本申请一些实施例所示的一种语音识别系统的示意图。

图2是根据本申请一些实施例所示的语音源与语音识别系统之间的一种示例性连接。

图3是根据本申请一些实施例所示的一种语音识别系统的方块图。

图4是根据本申请一些实施例所示的音频转录为文本的一种示例性过程的流程图。

图5是根据本申请一些实施例所示的分发转录后的文本给订阅者的一种示例性过程的流程图。

图6是根据本申请一些实施例所示的音频转录为文本的一种示例性过程的流程图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。任何可能的情况下，在整个附图中将使用相同的附图标记来指代相同或相似的部分。

图1是根据本申请一些实施例所示的一种语音识别系统的示意图。如图1所示，语音识别系统100可以从语音源101接收音频信号并将该音频信号转录为语音文本。语音源101可以包括麦克风101a、电话101b或智能设备101c(例如智能手机、平板电脑等)上的应用程序，用于接收并录制音频信号，例如电话呼叫录音。图2是根据本申请一些实施例所示的语音源101与语音识别系统100之间的一种示例性连接。

在一个实施例中，讲话者在会议或讲座中发言，麦克风101b可以录制讲话内容。该讲话内容可以被实时上传到语音识别系统100，或者在讲话结束并完成录制之后上传到语音识别系统100。然后讲话内容由语音识别系统100转录为语音文本。语音识别系统100可以自动保存语音文本和/或将语音文本分发给订阅者。

在另一个实施例中，用户可以使用电话101b拨打电话。例如，用户可以呼叫在线打车平台的呼叫中心，请求出租车或私家车。如图2所示，在线打车平台支持媒体资源控制协议版本2(MRCPv2)、语音服务器(例如，在线打车平台上的服务器)使用的通信协议向客户提供各种服务。MRCPv2可以通过使用，例如会话发起协议(SIP)和实时协议(RTP)来在客户和服务器之间建立控制会话和音频流。也就是说，语音识别系统100根据MRCPv2实时接收电话呼叫的音频信号。

语音识别系统100接收的音频信号可以在被转录之前被预处理。在一些实施例中，音频信号的原始格式可以被转录为与语音识别系统100兼容的格式。另外，电话呼叫的双音轨录音可以被分成两个单音轨信号。例如，可以使用多媒体框架FFmpeg将双音轨录音转录为脉冲编码调制(PCM)格式的单音轨信号。

在又一个实施例中，用户可以通过智能设备101c上的移动应用程序(例如滴滴应用程序)记录语音消息，或者与在线打车平台的客服进行语音聊天。如图2所示，移动应用程序可以包括用于处理语音消息或语音聊天的音频信号的语音软件开发工具包(SDK)，处理后的音频信号可以根据，例如超文本传输协议(HTTP)被发送至在线打车平台的语音识别系统100。应用程序的SDK可以进一步将音频信号压缩为自适应多速率(amr)或宽带32(bv32)格式的音频文件。

返回至图1，经转录后的语音文本可以被存储在存储设备103中，从而存储的语音文本后续可以被读取并进一步处理。所述存储设备103可以设置在语音识别系统100内部或外部。存储设备103可以被实施为任何类型的易失性或非易失性存储设备或其组合，例如静态随机存储器(SRAM)、电子可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存或者磁盘或光盘。

语音识别系统100还可以自动地或依据请求将转录后的文本分发给一个或多个订阅者105。订阅者105包括订阅文本的人或者进一步处理文本的设备(包括计算机程序)。例如，如图1所示，订阅者105包括第一用户105a、第二用户105b和文本处理设备105c。订阅者可以在不同的时间点订阅转录后的文本，这将被进一步讨论。

在一些实施例中，语音可以是持续一段时间的长语音，语音的音频信号可以在语音仍在进行中分段地传送到语音识别系统100。音频信号可以包括多个语音信号，这些语音信号可以依次被发送。在一些实施例中，语音信号可以代表在特定时间段中语音的一部分或语音的某个信道。可以预期的是，语音信号也可以是代表可转录内容的任何类型的音频信号，例如电话交谈、电影、电视剧、歌曲、新闻报道、演讲、辩论等。例如，音频信号包括第一语音信号和第二语音信号，并且第一和第二语音信号可以依次被发送。第一语音信号对应于语音的第一部分，第二语音信号对应于语音的第二部分。另一个例子，第一和第二语音信号分别对应于语音的左和右声道的内容。

图3是根据本申请一些实施例所示的一种语音识别系统100的方块图。

语音识别系统100可以包括通信接口301、识别单元303、转录单元305、分发接口307和内存309。在一些实施例中，识别单元303和转录单元305可以是语音识别系统100的处理器的部件。这些模块(以及任何相应的子模块或子单元)可以是功能硬件单元(例如，集成电路的部分)，这些硬件单元被设计用于与其他组件或执行特定功能的程序(存储在计算机可读介质中)的一部分一起使用。

通信接口301可以建立用于接收音频信号的会话，并且通过建立的会话接收音频信号的语音信号(例如，第一和第二语音信号)。例如，客户终端可以向通信接口301发送请求以建立会话。当根据MRCPv2和SIP建立会话时，语音识别系统100可以通过标签(例如“To”标签、“From”标签和“Call-ID”标签)来识别SIP会话。当根据HTTP建立会话时，语音识别系统100向会话分配唯一令牌，该唯一令牌由通用唯一标识符(UUID)生成。会话结束后，该会话的唯一令牌将被释放。

通信接口301可以在音频信号的传输过程中监控丢包率。丢包率是网络连接稳定性的一个指标。当丢包率大于一定值(例如2％)时，表明语音源101与语音识别系统100之间的网络连接不稳定，接收到的语音音频信号可能已经丢失过多数据而不能用于任何重建或进一步分析。因此，当丢包率大于预定阈值(例如，2％)时，通信接口可以301终止会话，并向语音源101报告错误。在一些实施例中，当会话空闲预设时间段(例如，30秒)之后，语音识别系统100可以确定讲话者已经完成了讲话，通信接口301随后终止会话。可以预期的是，会话还可以由语音源101(即，讲话者)手动终止。

通信接口301可以进一步确定每个语音信号被接收的时间点。例如，通信接口301可以确定第一语音信号被接收的第一时间点和第二语音信号被接收的第二时间点。

由通信接口301接收的音频信号在被转录单元305转录之前可以被进一步处理。每个语音信号可能包括几个句子，这对于语音识别系统100立刻转录来说太长。因此，识别单元303可以将接收到的音频信号分割为语音片段。例如，音频信号的第一和第二语音信号可以被各自进一步分割为第一和第二组语音段。在一些实施例中，语音活性检测(VAD)可以用于分割所接收到的音频信号。例如，VAD可以将第一语音信号分割为对应于句子或单词的语音段。VAD还可以识别第一语音信号的非语音部分，并进一步在转录过程中排除非语音部分，从而节省系统的计算和吞吐量。在一些实施例中，可以将第一和第二语音信号连续地连接组合成长语音信号，该长语音信号然后被分割。

转录单元305可以将每个语音信号的语音段转录为一组文本。例如，第一和第二语音信号的第一和第二组语音段可分别被转录为第一和第二组文本。语音段可以按顺序或并行转录。在一些实施例中，可以使用自动语音识别(ASR)来转录语音段，使得语音信号可以作为文本被存储和进一步处理。

除了将音频信号转录为文本之外，如果讲话者的特定语音已经存储在系统的数据库中，转录单元305可以进一步识别讲话者的身份。被转录的文本和讲话者的身份可以被传送回识别单元303以供进一步处理。

此外，例如，当用户呼叫在线打车平台时，语音识别系统100可以转录电话呼叫的音频信号并进一步识别用户的身份。然后，语音识别系统100的识别单元303可以识别转录文本中的关键词、突出关键词、和/或将与关键词相关的额外信息提供给在线打车平台的客服。在一些实施例中，当在转录的文本中检测到关于旅程的出发地点和目的地位置的关键字时，可以提供旅程的可能路线和每条路线的所需时间。因此，客服可以不需要手动收集相关信息。在一些实施例中，可以识别与用户相关的信息，例如他/她的偏好、历史订单、经常使用的目的地等，并将其提供给平台的客服。

当第一语音信号的第一组语音段被转录单元305转录时，通信接口301可以继续接收第二语音信号。对于每个语音信号(例如，第一和第二语音信号)，可以在会话期间建立线程。例如，经由第一线程接收第一语音信号，经由第二线程接收第二语音信号。当第一语音信号的传送完成时，生成用于释放第一线程的响应，识别单元303和转录单元305可以开始处理接收到的信号。同时，可以建立第二线程来接收第二语音信号。类似地，当第二语音信号被完全接收并发送用于转录时，语音识别系统100的通信接口301可以建立另一个线程来接收另一个语音信号。

因此，在另一个输入语音信号被接收的同时可以处理已接收到的语音信号，无需在开始转录之前等待接收完整音频信号。该特征使语音识别系统100能够实时转录语音。

虽然识别单元303和转录单元305被显示为独立的处理单元，但是可以设想单元303和305也可以是处理器的功能部件。

内存309可以按顺序组合语音信号的语音文本，并将组合的文本作为对转录文本的附加进行存储。例如，第一和第二组文本可以被组合和存储。此外，内存309可以根据由通信接口301确定的时间点来存储组合文本，这些时间点表示接收到对应于组合文本的语音信号的时间。

除了接收音频信号的语音信号之外，通信接口301可以进一步从订阅者接收第一请求并确定接收第一请求的时间点，其中第一请求可以为订阅音频信号的转录文本的请求。分发接口307可以向订阅者分发与由通信接口301确定的时间点对应的转录文本的子集。在一些实施例中，通信接口301可以从订阅者接收用于订阅同一组转录文本的多个请求，并且确定并记录每个请求的时间点。分发接口307向每个订阅者分别分发对应时间点的转录文本的子集。可以预期的是，分发接口307将转录后的文本直接或经由通信接口301分发给订阅者。

与时间点对应的转录文本的子集可以包括对应于音频信号与从开始到该时间点的内容的转录文本的子集、或对应于与音频信号特定时段内容的转录文本的子集。例如，订阅者可以连接到语音识别系统100，并在电话呼叫开始后两分钟的时间点发送订阅电话呼叫的请求。分发接口307向订阅者(例如，图1中的第一用户105a、第二用户105b和/或文本处理设备105c)分发对应于在电话呼叫开始后的两分钟内的所有内容的文本的子集、或仅对应于时间点之前的预设时段(例如，该时间点之前10秒的内容)的文本子集。可以设想，文本的子集也可以对应于最接近该时间点的语音段。

在一些实施例中，可以在订阅之后进行额外的分发。例如，在第一次订购音频信号时，根据接收到的请求将该文本子集分发给订阅者之后，分发接口307可以继续将转录后的文本分发给订阅者。在一个实施例中，通信接口301可以不分发附加文本，直到从订阅者处接收到用于更新音频信号转录文本的第二请求。随后，通信接口301根据第二请求向订阅者分发最近转录的文本。例如，订阅者点击由图形用户界面(GUI)显示的刷新按钮将第二请求发送到通信接口301，分发接口307可以确定是否存在任何新转录的文本并且将新转录的文本分发给订阅者。另一个实施例中，分发接口307自动将最近转录的文本推送给订阅者。

收到转录的文本之后，订阅者可以进一步处理文本并提取与文本相关的信息。综上所述，订阅者可以是图1的文本处理设备105c，文本处理设备105c包括执行指令以自动分析转录文本的处理器。

图4和5将进一步描述用于将音频信号转录为文本并根据超文本传输协议(HTTP)分发转录后的文本的过程。

图4是根据本申请一些实施例所示的音频转录为文本的一种示例性过程400的流程图。过程400可以由语音识别系统100来执行以转录音频信号。

在阶段401中，语音源101(例如，智能电话上的应用程序的SDK)可以向语音识别系统100的通信接口301发送建立语音会话的请求。例如，会话可以根据HTTP建立，相应地，请求可以通过，例如“HTTP获得”命令来发送。例如，接收“HTTP获得”请求的通信接口301可以是HTTP反向代理。反向代理可以从语音识别系统100的其他单元取回资源并将资源返回给语音源101，就好像资源源自反向代理本身一样。通信接口301随后可以经由，例如快速通用网关接口将该请求转发到识别单元303。快速通用网关接口可以是一种用于将程序与服务器进行接口的协议。可以预期的是其他合适的协议也可以用来转发该请求。在接收到建立会话的请求之后，识别单元303可以在内存309中生成会话队列，并且为通信接口301建立用于表示会话的令牌。在一些实施例中，令牌可以由UUID生成，该令牌是对于在此描述的整个过程的全局唯一标识。在通信接口301接收到令牌之后，可以向源101发送表示会话已经建立的HTTP响应200(“OK”)。HTTP响应200可以表示请求/命令已被成功处理。

会话建立后，语音识别将在阶段403中被初始化。在阶段403中，源101可以向通信接口301发送命令，所述命令用于为音频信号初始化语音识别和语音信号。该命令可以携带用于表示会话的令牌，并且所述语音信号可持续超过预设时间段(例如160毫秒)。语音信号可以包括ID号，所述ID号随着每个输入语音信号递增。命令和语音信号通过，例如“HTTP发布”命令来发送。类似地，通信接口301可以通过“快速通用网关接口”将命令和语音信号转发到识别单元303。然后，识别单元303可以检查令牌并验证语音信号的参数。上述参数可以包括语音信号被接收的时间点、ID号等。在一些实施例中，语音信号的ID号通常是连续的，可以通过验证该ID号以确定丢包率。如上所述，当语音信号的传送完成时，用于传送该语音信号的线程可以被释放。例如，当接收到的语音信号被验证时，识别单元303可以通知通信接口301，通信接口301可以向语音源101发送HTTP响应200，以指示语音信号已经被接收以及可以释放相应的线程。阶段403可以被循环执行，使音频信号的所有语音信号被上传到语音识别系统100。

在阶段403被循环执行的同时，阶段405可以处理上传的音频信号，而不必等待循环结束。在阶段405中，识别单元303可以将接收到的语音信号分割为语音段。例如，如图4所示，第一语音信号持续0.3～5.7秒，包含2.6～2.8秒的非语音部分，可以使用VAD，例如模型VAD技术，将该第一语音信号分割为第一组语音段。例如，语音信号可以被分割为第一段0.3～2.6秒和第二段2.8～5.7秒。所述语音段可以被转录为文本。例如，第一和第二段可以被转录为第一和第二组文本，第一和第二组文本可以被存储在由识别单元303生成的队列中。由音频信号转录的所有文本都将存储在与该音频信号相对应的同一队列中。转录后的文本可以根据其被接收的时间点来存储。队列可以根据令牌来标识，所述令牌为根据UUID生成的唯一标识。因此，每个音频信号都具有用于存储转录后的文本的唯一队列。当转录单元305正在处理所接收的语音信号时，语音源101可以向通信接口301发送请求反馈的命令。上述反馈可以包括关于，例如语音的当前长度、转录音频信号的进度、音频信号的丢包率等信息。上述信息可以被显示给扬声器，以便扬声器根据需要调整语音。例如，如果讲话转录的进度落后讲话本身预设时间段，可以向讲话者通知该进度，以便他/她调整讲话的速度。类似地，上述命令可以携带用于识别会话的令牌，通信接口301可以将该命令转发给识别单元303。识别单元303接收命令后，读取与上述令牌相对应的反馈，将其发送到通信接口301，并进一步发送到语音源101。

在阶段407中，用于终止会话的命令可以从语音源101发出。类似地，该命令与上述令牌一起经由通信单元301被发送到识别单元303。然后，识别单元303可以清除会话并为该会话释放资源。表示会话终止的响应可以被发送回通信接口301，通信接口301可以进一步生成HTTP响应200(“OK”)，并将其发送到语音源101。在一些其他实施例中，当存在高丢包率或空闲足够长的时间段时，会话也会被终止。例如，如果丢包率大于2％或者会话空闲30秒，则会话被终止。

可以预期的是，一个或多个HTTP响应可能是错误，而不一定是“OK”。在接收到表示特定过程失败的错误时，可以重复此特定过程，或者终止会话并将错误报告给讲话者和/或语音识别系统100的管理员。

图5是根据本申请一些实施例所示的分发转录后的文本给订阅者的一种示例性过程500的流程图。根据图5的流程图，过程500可以由语音识别系统100来执行以分发转录后的文本。

在阶段501中，因为语音识别系统100可以同时处理多个语音，所以可以在内存309中建立消息队列，使得转录单元305能够将语音的主题发布到消息队列。并且还可以在内存309中建立用于每个主题的订阅者队列，使得特定主题的订阅者被列在相应的订阅者队列中，且可以通过转录单元305将语音文本推送给相应的订阅者队列。内存309可以向转录单元305返回响应，表示语音的主题是否被成功发布和/或语音文本是否被成功推送。

在阶段503中，订阅者105可以向通信接口301发送查询当前活跃语音的请求。综上所述，上述请求可以通过“HTTP获得”命令发送到通信接口301。且上述请求将通过，例如快速通用网关接口被转发到分发接口307，然后分发接口307可以查询存储在内存309的消息队列中的活跃语音的主题。因此，内存309通过通信接口301将当前活跃语音的主题连同该语音的相关信息一起返回给订阅者105。上述相关信息包括，例如语音的标识符和描述。通信接口301还可以向订阅者105发送HTTP响应200(“OK”)。

在阶段505中，当前活跃语音的主题和相关信息可以被显示给订阅者105，订阅者105可以订阅具有标识符的语音。订阅语音的请求可以被发送到通信接口301，然后被转发到分发接口307。分发接口307可以验证该请求的参数。例如，参数包括校验码、订阅者105的标识符、语音的标识符、语音的主题、订阅者105发送请求的时间点等。

如果分发单元307确定订阅者105是新订阅者，与该请求相对应的语音可以被订阅，并且订阅者105会被更新到内存309的订阅者队列中。然后，表示订阅成功的响应可以被发送到分发接口307，分发接口307向通信接口301发送关于语音的信息，例如订阅者的标识符、语音的当前时间表和/或订阅该语音的订阅者的数量。通信接口301可以生成HTTP响应200(“OK”)，并将上述信息连同HTTP响应一起发回给订阅者105。

如果分发单元307确定订阅者105是现有用户，分发接口307可以将信息直接传送到通信接口301。

在阶段507中，在接收到HTTP响应200(“OK”)之后，订阅者105根据，例如订阅者的标识符、会话的令牌和/或消息的当前时间表发送用于获取文本的请求。上述请求可以通过快速通用网关接口，经由通信接口301被转发到分发接口307，使得分发接口307可以访问转录的文本。分发接口307可以将任何新转录文本发送回源105，或者如果没有新文本，则发送“空”信号。

可以预期的是，最近转录的文本也可以在没有任何请求的情况下自动推送给订阅者105。

在一些实施例中，如果存储在消息队列中的语音的话题在预设时间段内未被查询，则该话题可以作为过期话题被清除。

图6是根据本申请一些实施例所示的音频转录为文本的一种示例性过程600的流程图。例如，过程600由语音识别系统100执行，包括接下来讨论的步骤S601-S609。

在步骤S601中，语音识别系统可以建立用于接收音频信号的会话，该音频信号包括第一语音信号和第二语音信号。例如，可以根据媒体资源控制协议版本2或超文本传输协议首先接收第一语音信号。语音识别系统100可以进一步监控用于接收音频信号的丢包率，并且当丢包率大于预设阈值时终止会话。在一些实施例中，当丢包率大于2％时，会话被认为是不稳定的并被终止。语音识别系统100也可以在会话空闲预设时间段后终止会话。例如，在会话空闲30秒之后，语音识别系统100可以认为讲话结束随后终止会话。

在步骤S603中，语音识别系统100可以将接收到的第一语音信号分割为第一组语音段。在一些实施例中，VAD可以被用于将第一语音信号进一步分割为语音段。

在步骤S605中，语音识别系统100可以把第一组语音段转录为第一组文本。在一些实施例中，ASR可以被用来转录语音段，使得第一语音信号可以作为文本被存储并进一步处理。如果同一讲话者的先前讲话已经存储在系统的数据库中，讲话者的身份也可以被识别。可以进一步利用讲话者(例如在线打车平台的用户)的身份来获取用户的相关信息，例如他/她的偏好、历史订单、常用目的地等，这将提高平台的效率。

在步骤S607中，当第一组语音段正被转录为第一组文本时，语音识别系统100可以进一步接收第二语音信号。在一些实施例中，可以在会话期间建立第一线程来接收第一语音信号。第一语音信号被分割为第一组语音段之后，在第一组语音段被转录的同时可以发送用于释放第一线程的响应。一旦第一线程被释放，可以建立用于接收第二语音信号的第二线程。通过转录一个语音信号的同时并行接收下一个信号，可以实现实时将音频信号转录为文本。类似地，语音识别系统100可以将第二语音信号分割为第二组语音段，然后将第二组语音段转录为第二组文本。语音识别系统100可以进一步依次组合第一和第二组文本，并将组合文本作为对转录文本的添加存储在内部存储器或外部存储设备中。因此，整个音频信号被转录为文本。

语音识别系统100可以对转录文本进行进一步处理或分析。例如，语音识别系统100识别转录文本中的关键词、突出关键词、和/或提供与关键词相关的额外信息。在一些实施例中，音频信号产生于对在线打车平台的电话呼叫，当在转录文本中检测到旅程的出发地点和目的地位置的关键字时，可以提供旅程的可能路线和每条路线的所需时间。

在步骤S609中，语音识别系统100可以将转录文本的子集分发给订阅者。例如，语音识别系统100可以从订阅者接收订阅音频信号的转录文本的第一请求，确定接收第一请求的时间点，并向订阅者分发对应该时间点的转录文本的子集。语音识别系统100可以进一步从订阅者接收更新音频信号的转录文本的第二请求，并根据第二请求向订阅者分发最近的转录文本。在一些实施例中，也可以自动推送最近的转录文本给订阅者。在一些实施例中，上述转录文本的附加分析(例如，关键词、突出显示、额外信息)也可以分发给订阅者。

在一些实施例中，订阅者可以是计算设备，其包括执行指令以自动分析转录文本的处理器。各种文本分析或处理工具可以被用于确定语音的内容。在一些实施例中，订阅者可以进一步将文本翻译成不同的语言。分析文本通常需要较少计算，因此比直接分析音频信号要快得多。

本申请的另一方面是针对存储指令的非暂时性计算机可读介质，如上所述，所述指令在被执行时使得一个或多个处理器执行所述方法。计算机可读介质包括易失性或非易失性、磁性、半导体、磁带、光学、可移动、不可移动或其他类型的计算机可读介质或计算机可读存储设备。例如，如所公开的，计算机可读介质是其上存储有计算机指令的存储设备或存储器模块。在一些实施例中，计算机可读介质是其上存储有计算机指令的盘或闪存驱动器。

显而易见，本领域技术人员可以对所公开的欺骗检测系统和相关方法进行各种修改和变化。考虑到所公开的欺骗检测系统和相关方法的说明和实践，其他实施例对于本领域技术人员将是显而易见的。尽管使用在线打车平台作为示例描述了实施例，但是所描述的实时转录系统和方法可以应用于转录在任何其他情境中生成的音频信号。例如，所描述的系统和方法可以用于转录歌词、收音机/电视广播、演讲、语音消息、对话等。

本申请中的说明书和示例的目的仅被认为是示例性的，真正的范围由以下权利要求及其等同物限定。

Claims

1.一种音频信号转录为文本的方法，其中，所述音频信号包括第一语音信号和第二语音信号，所述方法包括：

建立接收所述音频信号的会话；

通过所述建立的会话接收所述第一语音信号；

将所述第一语音信号分割为第一组语音段；

将所述第一组语音段转录为第一组文本；以及

在转录所述第一组语音段的同时通过所述建立的会话接收所述第二语音信号。

2.根据权利要求1所述的方法，进一步包括：

将所述第二语音信号分割为第二组语音段，以及

将所述第二组语音段转录为第二组文本。

3.根据权利要求2所述的方法，进一步包括依次组合所述第一和第二组文本，并将所述组合文本存储为所述转录文本的附加内容。

4.根据权利要求1所述的方法，进一步包括：

从订阅者接收订阅所述音频信号的所述转录文本的第一请求；

确定接收到所述第一请求的时间点；以及

向所述订阅者分发对应于所述时间点的所述转录文本的子集。

5.根据权利要求4所述的方法，进一步包括：

进一步从所述订阅者接收更新所述音频信号的所述转录文本的第二请求；

根据所述第二请求向所述订阅者分发最近转录的文本。

6.根据权利要求4所述的方法，进一步包括：

自动推送所述最近转录的文本给所述订阅者。

7.根据权利要求1所述的方法，其中建立接收所述音频信号的会话进一步包括：

根据媒体资源控制协议版本2或超文本传输协议接收所述音频信号。

8.根据权利要求1所述的方法，进一步包括：

监控接收所述音频信号的丢包率；以及

当所述丢包率大于预设阈值时终止所述会话。

9.根据权利要求1所述的方法，进一步包括：

在所述会话空闲预设时间段之后，终止所述会话。

10.根据权利要求4所述的方法，其中所述订阅者包括执行指令以自动分析所述转录文本的处理器。

11.根据权利要求1所述的方法，其中在所述第一语音信号是通过在会话期间建立第一线程来接收，其中所述方法进一步包括：

转录所述第一组语音段的同时发送用于释放所述第一线程的响应；以及

建立接收所述第二语音信号的第二线程。

12.一种音频信号转录为语音文本的语音识别系统，其中所述音频信号包括第一语音信号和第二语音信号，所述语音识别系统包括：

通信接口，被配置为建立接收所述音频信号的会话并通过所述建立的会话接收所述第一语音信号；

分割单元，被配置为将所述第一语音信号分割为第一组语音段；以及

转录单元，被配置为将所述第一组语音段转录为第一组文本，其中，

通信接口，被进一步配置为在转录所述第一组语音段的同时接收所述第二语音信号。

13.根据权利要求12所述的语音识别系统，其中

所述分割单元进一步被配置为将所述第二语音信号分割为第二组语音段，以及

所述转录单元进一步被配置为将所述第二组语音段转录为第二组文本。

14.根据权利要求13所述的语音识别系统，进一步包括：

存储器被配置为依次组合所述第一和第二组文本，并将所述组合文本存储为所述转录文本的附加内容。

15.根据权利要求12所述的语音识别系统，进一步包括分发接口，其中：

所述通信接口进一步被配置为从订阅者接收订阅所述音频信号的所述转录文本的第一请求，并且确定接收所述第一请求的时间点；以及

所述分发接口被配置为向所述订阅者分发对应于所述时间点的所述转录文本的子集。

16.根据权利要求12所述的语音识别系统，其中所述通信接口进一步被配置为监控接收所述音频信号的丢包率；并且当所述分组丢包率大于预设阈值时终止所述会话。

17.根据权利要求12所述的语音识别系统，其中所述通信接口进一步被配置为在所述会话空闲预设时间段之后，终止所述会话。

18.根据权利要求15所述的语音识别系统，其中所述订阅者包括执行指令以自动分析所述转录文本的处理器。

19.根据权利要求12所述的语音识别系统，其中在所述第一语音信号是通过在会话期间建立第一线程来接收，以及所述通信接口进一步配置为：

建立接收所述第二语音信号的第二线程。

20.一种非临时性计算机可读介质，所述计算机可读介质存储一组指令，在语音识别系统的至少一个处理器执行所述指令时，所述语音识别系统执行将音频信号转录为文本的方法，其中所述音频信号包括第一语音信号和第二语音信号，所述方法包括：

建立接收所述音频信号的会话；

通过所述建立的会话接收所述第一语音信号；

将所述第一语音信号分割为第一组语音段；

将所述第一组语音段转录为第一组文本；以及

在转录所述第一组语音段的同时接收所述第二语音信号。