CN114743540A

CN114743540A - 语音识别方法、系统、电子设备和存储介质

Info

Publication number: CN114743540A
Application number: CN202210392131.3A
Authority: CN
Inventors: 张启祥; 杨赫; 罗超; 郝竹林; 邹宇
Original assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-12

Abstract

本发明公开了一种语音识别方法、系统、电子设备和存储介质，该语音识别方法包括：对包含多帧语音帧的音频流进行实时语音识别的第一次解码路径搜索，并将当前正在进行语音识别的语音帧作为目标帧；若在目标帧后识别到停顿，则在停顿处切分音频流，以获得目标音频段；基于目标音频段进行第二次解码路径搜索，以获得对目标帧的实时语音识别结果。本发明提供的语音识别方法在进行实时语音识别的过程中，将当前正在识别的音频帧作为目标帧，并暂不输出对该目标帧的识别结果，而是待到达音频段的尾点后基于整个音频段对该目标帧进行二次解码路径搜索，然后再输出最佳识别结果，有效克服了实时语音识别时音频的尾部的识别准确性较低的缺陷。

Description

语音识别方法、系统、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种语音识别方法、系统、电子设备和存储介质。

背景技术

呼叫中心作为OTA(Online Travel Agency，在线旅游)公司与客户的连接枢纽，是整个服务链中重要的一环。对于OTA客服来说，若能够在与酒店或者客户进行语音通话的过程中支持“边说边转”，即能够通过语音识别算法将对话音频实时转写为文字信息，则能够便于客服有效地对客户的咨询做出及时而准确的回应。

基于此，现有技术中通常使用流式语音识别与流媒体相配合来实现上述“边说边转”。具体地，首先通过流媒体来压缩音频数据，并将其以流的形式在网络中分段发送存储，从而实现获取正在进行通话的音频；然后，经由流式语音识别对流媒体中的音频流进行识别解码，并输出对应的文字信息，以在通话持续期间不断地返回由语音识别所转写的文本，支持客服人员及时做出反馈。

然而，如图1所示，流式语音识别的过程本质上是一种在线推理的过程，由于在线推理无法获知当前时刻之后的所产生的音频信息，因此与离线推理相比，其在进行推理时能够使用的上下文信息要远少于离线推理。基于此，在流式的语音识别算法中，虽然会随着通话的进行不断输出实时解码的中间识别结果，但是由于这些中间识别结果缺乏足够的下文信息辅助识别，因此其在尾部的准确性通常都较低，不利于支持客服准确及时地获得信息并作出反馈。

发明内容

本发明要解决的技术问题是为了克服现有技术中实时语音识别的识别结果尾部准确性较低的缺陷，提供一种语音识别方法、系统、电子设备和存储介质。

本发明是通过下述技术方案来解决上述技术问题：

第一方面，本发明提供一种语音识别方法，所述语音识别方法包括：

对包含多帧语音帧的音频流进行实时语音识别的第一次解码路径搜索，并将当前正在进行语音识别的语音帧作为目标帧；

若在所述目标帧后识别到停顿，则在所述停顿处切分所述音频流，以获得目标音频段；

基于所述目标音频段进行第二次解码路径搜索，以获得对所述目标帧的实时语音识别结果。

较佳地，所述对包含多帧语音帧的音频流进行实时语音识别的第一次解码路径搜索的步骤之前，还包括：

获取初始音频流；

若所述初始音频流包括至少两个声道，则对所述初始音频流进行声道分离，以获得所述目标音频流。

较佳地，所述基于所述目标音频段进行第二次解码路径搜索的步骤之前，还包括：

若所述目标音频段中所述目标帧后的音频帧数量小于预设值，则对所述目标音频段的最后一帧进行多次复制，直至述目标音频段中所述目标帧后的音频帧数量大于或等于所述预设值。

较佳地，所述目标音频段包括ID信息；

所述语音识别方法还包括：

对ID信息相同的若干个目标音频段进行语音识别，以更新所述实时语音识别结果。

第二方面，本发明提供一种语音识别系统，所述语音识别系统包括：

解码器模块，用于对目标音频流进行实时语音识别，并将当前正在进行语音识别的语音帧作为目标帧，所述实时语音识别包括第一次解码路径搜索；

音频切分模块，用于在识别到所述目标帧后的停顿时，在所述停顿处切分所述音频流，以获得目标音频段；

所述解码器模块还用于基于所述目标音频段进行第二次解码路径搜索，以获得对所述目标帧的实时语音识别结果。

较佳地，所述系统还包括：

流媒体模块，用于获取初始音频流；

声道分离模块，用于在所述初始音频流包括至少两个声道时，对所述初始音频流进行声道分离，以获得所述目标音频流；

和/或，所述实时语音识别还包括特征提取、声学得分计算和获取解码结果，所述解码器模块包括CPU线程和GPU线程，所述CPU线程用于进行所述特征提取和获取解码结果，所述GPU线程用于进行所述声学得分计算、第一次解码路径搜索和第二次解码路径搜索，所述GPU线程与CPU线程之间通过共享队列的方式传输数据。

较佳地，所述解码器模块还用于：

在所述目标音频段中所述目标帧后的音频帧数量小于预设值时，对所述目标音频段的最后一帧进行多次复制，直至述目标音频段中所述目标帧后的音频帧数量大于或等于所述预设值。

较佳地，所述目标音频段包括ID信息；

所述解码器模块还用于：对ID信息相同的若干个目标音频段进行语音识别，以更新所述实时语音识别结果。

第三方面，本发明提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述的语音识别方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的语音识别方法。

本发明的积极进步效果在于：本发明提供的语音识别方法在进行实时语音识别的过程中，将当前正在识别的音频帧作为目标帧，并暂不输出对该目标帧的识别结果，而是待到达音频段的尾点后基于整个音频段对该目标帧进行二次解码路径搜索，然后再输出最佳识别结果，从而实现了基于该目标帧所对应的下文信息进行更准确的语音识别，有效克服了实时语音识别时音频的尾部的识别准确性较低的缺陷，提升了用户的使用体验。

附图说明

图1为现有技术中进行在线推理和离线推理时可利用的上下文信息的数量的对比示意图。

图2为本发明实施例1的语音识别方法的第一流程示意图。

图3为现有技术中流式实时语音识别的工作流程示意图。

图4为本发明实施例1的语音识别方法的步骤S1的子步骤的流程示意图。

图5为本发明实施例1的语音识别方法的具体实施场景示意图。

图6为本发明实施例1的语音识别方法的流媒体与解码器模块之间数据传输示意图。

图7为本发明实施例2的语音识别系统的模块示意图。

图8为本发明实施例2的语音识别系统的解码器模块内的双线程示意图。

图9为本发明实施例3的用于实现语音识别方法的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例公开了一种语音识别方法，如图2所示，该语音识别方法包括：

S1、对包含多帧语音帧的音频流进行实时语音识别的第一次解码路径搜索，并将当前正在进行语音识别的语音帧作为目标帧；

S2、若在目标帧后识别到停顿，则在停顿处切分音频流，以获得目标音频段；

S3、基于目标音频段进行第二次解码路径搜索，以获得对目标帧的实时语音识别结果。

本实施例以对OTA呼叫中心的电话内容进行流式语音识别为例来对上述语音识别方法进行详细说明

如图3所示，现有技术中流式实时语音识别的工作流程主要包括特征提取、声学得分计算、解码路径搜索和获取解码结果。

对于步骤S1，在流式的语音识别算法中，随着通话的进行，语音识别算法会不断生成中间解码结果，但是，本实施例中的语音识别方法不直接输出当前时刻正在进行语音识别的目标帧对应的解码结果，而是会在对目标帧进行第一次解码路径搜索的同时保持连续不断地对音频流进行流式语音识别，以使得在获取到足够的下文信息后能够再次对目标帧进行第二次解码路径搜索，从而提高最终输出的识别结果的准确度。

对于步骤S2，当识别过程中检测到停顿时，可以认为说话者已经结束了一次完整的意思表达(例如，说话者已经说完了一句话)，故此时以该停顿进行切分所获得的目标音频段包含完整的上下文信息，基于该目标音频段所输出的识别结果往往具有较高的置信度。

在本实施例中，为了支持在长时间通话中及时返回高可靠的转写文本，使用流式的噪音检测算法来对目标音频流进行检测，并在检测到停顿尾点的时候进行切分，从而使获得的目标音频段内包含至少一次完整的意思表达。现有技术中，常用的流式噪音检测算法包括但不限于基于能量阈值的判断方法以及基于神经网络的检测方法。

对于步骤S3，利用该目标音频段内的完整上下文信息可以降低识别信息的损失，从而提高识别结果的尾部的准确性，以使得对通话音频整体的转写能够更加自然流畅。

此外，由于用户说话过程中的停顿通常间隔时间有限，故本实施方式中两次解码路径搜索之间的时间间隔基本可以忽略不计，仍能够做到实时输出识别结果以支持客服的及时回应。

由于OTA场景下的电话语音识别基本属于对话式语音识别，故存在OTA客服与客户两个独立的通道，二者的对话交替进行，且持续时间较长，因此，作为一种优选的实施方式，如图4所示，步骤S1之前，还包括：

S101、获取初始音频流；

S102、若初始音频流包括至少两个声道，则对初始音频流进行声道分离，以获得目标音频流。

由于在本实施例中，需要进行语音识别的对象是OTA呼叫中心的电话内容，故其具有在同一时间段内同时进行通话的数量多、通话持续时间长的特点，因此，其中所产生的实时音频数据量十分巨大。

基于此，如图5所示，本实施方式中借助流媒体来实时存储通话音频流。在通话开始后，随着通话的进行，呼叫中心将产生的一连串的音频数据，然后，流媒体将对上述音频数据进行压缩，并通过网络分包的方式来发送数据，使得音频数据可以向流水一样作为目标音频流进行发送或存储在流媒体模块中，以供下游服务进行订阅。

具体地，在接收到通话开始的信号时，ASR算法引擎开始从流媒体端循环拉取初始音频流，在获取到初始音频流之后，对客服与客户的双声道音频进行分离，并使用两个线程来分别进行处理，以减少流式语音识别中双声道音频的互相干扰，提高每一声道的内容之间的连贯性，从而提高流式语音识别的效率和最终结果的准确性。

并且，流媒体的使用还可以使得后端的ASR(语音识别)算法与前端的其他模块解耦，以更加灵活地支持不同的ASR算法引擎并行工作，进一步提高语音识别的效率。

如图6所示，为了增加进行处理时的吞吐量，本实施方式中，ASR算法引擎的解码器模块通过共享队列的模式来实现对目标音频流的获取。

其中，流媒体中存储的通话音频以音频流的形式写入共享队列中，而解码器模块则作为常驻线程，通过循环不断地从共享队列中获取目标音频流进行解码，并将得分最高的解码结果通过消息队列的方式广播出去，以供下游服务订阅使用。

优选地，为了支持呼叫中的高并发低延时的场景需求，本实施方式中使用CPU线程和GPU线程结合的方式来进一步进行优化。CPU线程进行目标音频流的特征提取后，将任务封装进任务队列中，并由适用于密集计算的GPU线程来进行声学得分计算和解码路径搜索，再将解码结果回传至CPU线程进行组合后广播。

优选地，上述目标音频段包括ID信息；

该语音识别方法还包括：

在流式解码过程中，由于需要考虑目标音频段内的上下文信息，故本实施方式中为每一目标音频流均设置有唯一的ID相对应，而同属于一个ID的目标音频段可以相互作为上下文信息提供给解码器，以进一步提高解码准确率。

在一些情况下，可能会出现目标帧后的音频帧数量过少，从而无法获得足够的下文信息的情况。因此，在一种优选的实施方式中，步骤S3之前，上述方法还包括：

若目标音频段中目标帧后的音频帧数量小于预设值，则对目标音频段的最后一帧进行多次复制，直至述目标音频段中目标帧后的音频帧数量大于或等于预设值。

例如，上述预设值可以为1，若目标音频段中目标帧后的音频帧数量为0，此时，为了本实施例中的语音识别方法能够顺利执行，可以对目标音频段的最后一帧进行复制，以若干停顿帧作为后文信息来表示则表示目标帧的无对应的下文信息。

需要说明的是，此处的预设值为1仅作示例说明之用，并不因此将其局限于此，还可以根据实际需求将预设设置任意大于零的整数。

在一种实施方式中，由于OTA行业的客服回话具有强领域相关性，因此，在本实施例中，针对不同领域的客服适配不同的ASR算法引擎，该ASR算法引擎中包括与领域场景特有的词汇与语料的定制化训练，以提高针对不同领域的通话音频的识别准确率。

在一种实施方式中，还包括将音频流转码为流式语音识别模型可以识别的pcm模式，然后再将转码后的音频流传输至语音识别算法的解码器模块进行流式解码，以使得音频流能够与语音识别算法模型相适配。

本实施例中的语音识别方法在进行实时语音识别的过程中，将当前正在识别的音频帧作为目标帧，并暂不输出对该目标帧的识别结果，而是待到达音频段的尾点后基于整个音频段对该目标帧进行二次解码路径搜索，然后再输出最佳识别结果，从而实现了基于该目标帧所对应的下文信息进行更准确的语音识别，有效克服了实时语音识别时音频的尾部的识别准确性较低的缺陷，提升了用户的使用体验。

实施例2

本实施例公开了一种语音识别系统，如图7所示，该语音识别系统包括：

解码器模块1，用于对目标音频流进行实时语音识别，并将当前正在进行语音识别的语音帧作为目标帧，上述实时语音识别包括第一次解码路径搜索；

音频切分模块2，用于在识别到目标帧后的停顿时，在停顿处切分音频流，以获得目标音频段；

解码器模块1还用于基于目标音频段进行第二次解码路径搜索，以获得对目标帧的实时语音识别结果。

本实施例以对OTA呼叫中心的电话内容进行流式语音识别为例来对上述语音识别系统进行详细说明

对于解码器模块1，在流式的语音识别算法中，随着通话的进行，语音识别算法会不断生成中间解码结果，但是，本实施例中的解码器模块1不直接输出当前时刻正在进行语音识别的目标帧对应的解码结果，而是会在对目标帧进行第一次解码路径搜索的同时保持连续不断地对音频流进行流式语音识别，以使得在获取到足够的下文信息后能够再次对目标帧进行第二次解码路径搜索，从而提高最终输出的识别结果的准确度。

对于音频切分模块2，当识别过程中检测到停顿时，可以认为说话者已经结束了一次完整的意思表达(例如，说话者已经说完了一句话)，故此时以该停顿进行切分所获得的目标音频段包含完整的上下文信息，基于该目标音频段所输出的识别结果往往具有较高的置信度。

在本实施例中，为了支持在长时间通话中及时返回高可靠的转写文本，音频切分模块2使用流式的噪音检测算法来对目标音频流进行检测，并在检测到停顿尾点的时候进行切分，从而使获得的目标音频段内包含至少一次完整的意思表达。现有技术中，常用的流式噪音检测算法包括但不限于基于能量阈值的判断方法以及基于神经网络的检测方法。

对于解码器模块1，利用目标音频段内的完整上下文信息可以降低识别信息的损失，从而提高识别结果的尾部的准确性，以使得对通话音频整体的转写能够更加自然流畅。

由于OTA场景下的电话语音识别基本属于对话式语音识别，故存在OTA客服与客户两个独立的通道，二者的对话交替进行，且持续时间较长，因此，作为一种优选的实施方式，本实施例中的系统还包括：

流媒体模块3，用于获取初始音频流；

声道分离模块4，用于在初始音频流包括至少两个声道时，对初始音频流进行声道分离，以获得目标音频流；

和/或，上述实时语音识别还包括特征提取、声学得分计算和获取解码结果，如图8所示，解码器模块1包括CPU线程和GPU线程，CPU线程用于进行特征提取和获取解码结果，GPU线程用于进行声学得分计算、第一次解码路径搜索和第二次解码路径搜索，GPU线程与CPU线程之间通过共享队列的方式传输数据。

基于此，本实施例中通过流媒体模块2来实时存储通话音频流。在通话开始后，随着通话的进行，呼叫中心将产生的一连串的音频数据，然后，流媒体模块2将对上述音频数据进行压缩，并通过网络分包的方式来发送数据，使得音频数据可以向流水一样作为目标音频流进行发送或存储在流媒体模块2中，以供下游服务进行订阅。

具体地，在接收到通话开始的信号时，ASR算法引擎开始从流媒体端循环拉取初始音频流，在获取到初始音频流之后，声道分离模块4对客服与客户的双声道音频进行分离，并在解码器模块1中使用两个线程来分别进行处理，以减少流式语音识别中双声道音频的互相干扰，提高每一声道的内容之间的连贯性，从而提高流式语音识别的效率和最终结果的准确性

并且，流媒体模块3的使用还可以使得后端的ASR(语音识别)算法与前端的其他模块解耦，以更加灵活地支持不同的ASR算法引擎并行工作，进一步提高语音识别的效率。

如图6所示，为了增加进行处理时的吞吐量，本实施方式中，ASR算法引擎的解码器模块1通过共享队列的模式来实现对目标音频流的获取。

其中，流媒体模块3中存储的通话音频以音频流的形式写入共享队列中，而解码器模块1则作为常驻线程，通过循环不断地从共享队列中获取目标音频流进行解码，并将得分最高的解码结果通过消息队列的方式广播出去，以供下游服务订阅使用。

优选地，为了支持呼叫中的高并发低延时的场景需求，本实施方式中的解码器模块1使用CPU线程和GPU线程结合的方式来进一步进行优化。CPU线程进行目标音频流的特征提取后，将任务封装进任务队列中，并由适用于密集计算的GPU线程来进行声学得分计算和解码路径搜索，再将解码结果回传至CPU线程进行组合后广播。

优选地，上述目标音频段包括ID信息；

解码器模块1还用于：对ID信息相同的若干个目标音频段进行语音识别，以更新实时语音识别结果。

在流式解码过程中，由于需要考虑目标音频段内的上下文信息，故本实施方式中为每一目标音频流均设置有唯一的ID相对应，而同属于一个ID的目标音频段可以相互作为上下文信息提供给解码器模块1，以进一步提高解码准确率。

在一些情况下，可能会出现目标帧后的音频帧数量过少，从而无法获得足够的下文信息的情况。因此，在一种优选的实施方式中，解码器模块1还用于：

在目标音频段中目标帧后的音频帧数量小于预设值时，对目标音频段的最后一帧进行多次复制，直至目标音频段中目标帧后的音频帧数量大于或等于预设值。

实施例3

图9为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1中的语音识别方法。图9显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备30可以以通用计算设备的形式表现，例如其可以为智能手表。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1中的语音识别方法。

电子设备30也可以与一个或多个外部设备34(例如手机)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1中的语音识别方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1中的语音识别方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括：

2.如权利要求1所述的语音识别方法，其特征在于，所述对包含多帧语音帧的音频流进行实时语音识别的第一次解码路径搜索的步骤之前，还包括：

获取初始音频流；

3.如权利要求1所述的语音识别方法，其特征在于，所述基于所述目标音频段进行第二次解码路径搜索的步骤之前，还包括：

4.如权利要求1所述的语音识别方法，其特征在于，所述目标音频段包括ID信息；

所述语音识别方法还包括：

5.一种语音识别系统，其特征在于，所述语音识别系统包括：

6.如权利要求5所述的语音识别系统，其特征在于，所述系统还包括：

流媒体模块，用于获取初始音频流；

7.如权利要求5所述的语音识别系统，其特征在于，所述解码器模块还用于：

8.如权利要求5所述的语音识别系统，其特征在于，所述目标音频段包括ID信息；

9.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的语音识别方法。