CN111986654B

CN111986654B - 降低语音识别系统延时的方法及系统

Info

Publication number: CN111986654B
Application number: CN202010773420.9A
Authority: CN
Inventors: 范红亮
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2024-01-19
Anticipated expiration: 2040-08-04
Also published as: CN111986654A

Abstract

本发明提供了一种降低语音识别系统延时的方法及系统，所述方法执行以下步骤：步骤1：对接收到的语音信号进行解码处理，得到解码语音数据；步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果；步骤3：根据所述片段相似度结果，得到断句结果。根据本发明的方法，利用引擎中已解码出的静音特征，根据某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到断句结果，可以实时监测引擎中最新的数据是否有足够长的静音片段，可以消除缓存数据和分片带来的延时影响，能在第一时间拿到断句信号，因此可以显著提升用户体验。

Description

降低语音识别系统延时的方法及系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种降低语音识别系统延时的方法及系统。

背景技术

在实时交互中，语音识别系统的延时是影响交互体验的一个重要因素，更低的延时意味着更快的系统响应和更好的体验感受。目前市场上的语音识别系统，延时包括引擎固有延时和其他延时，其中引擎固有延时是指由于神经网络结构本身的特性，引擎的处理总会有一部分未处理的缓存数据所导致的延时；其他延时指除引擎固有延时之外的延时，包括分片延时和阈值延时等，分片延时是指引擎分片处理数据时，不可能刚好将分片切在语音开始和结束处，不同的分片大小可能会导致完全不同的断句效果，阈值延时是指用户需要拿到足够长的静音，才能做断句操作。

目前市面上语音识别系统的延时，大多是基于阈值在调整。阈值越大，延时越高；阈值越小，延时低，但是也容易断句在相邻的语音上，用户稍微喘口气停顿一下就断句了，影响用户体验。

发明内容

本发明提供一种降低语音识别系统延时的方法及系统，用以解决语音识别中的延时问题，在实时交互中及时断句。

本发明提供了一种降低语音识别系统延时的方法，所述方法执行以下步骤：

步骤1：对接收到的语音信号进行解码处理，得到解码语音数据；

步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果；

步骤3：根据所述片段相似度结果，得到断句结果。

进一步地，所述步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果执行以下步骤：

步骤S21：在所述解码语音数据中确定一个静音片段作为参考静音片段；

步骤S22：提取所述参考静音片段中的音频特征，得到第一音频特征；

步骤S23：对于引擎接收到的每个时间片段，计算当前接收时间点之前的预设时长的语音片段的音频特征，得到第二音频特征；

步骤S24：比较所述第一音频特征和所述第二音频特征之间的音频片段相似度，得到片段相似度结果。

进一步地，在所述步骤S23中，所述预设时长为断句阈值。

进一步地，所述步骤S21：在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤：

步骤S211：在所述解码语音数据中，根据静音开始时间点和静音终止时间点，确定若干静音片段；

步骤S212：在若干静音片段中随机选择一个，作为所述参考静音片段。

进一步地，所述步骤3：根据所述片段相似度结果，得到断句结果执行以下步骤：

步骤S31：若所述片段相似度结果大于等于预设的相似度阈值，则确定所述预设时长的语音片段为静音段，并在所述预设时长的语音片段末尾断句；

步骤S32：若所述片段相似度结果小于预设的相似度阈值，则确定所述预设时长的语音片段为非静音段。

进一步地，所述步骤1：对接收到的语音信号进行解码处理，得到解码语音数据执行以下步骤：

步骤S11：对接收到的语音信号进行语音处理，得到语音识别数据；

步骤S12：对所述语音识别数据进行解码处理，得到相应的解码语音数据。

本发明实施例提供的一种降低语音识别系统延时的方法，具有以下有益效果：利用引擎中已解码出的静音特征，根据某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到断句结果，可以实时监测引擎中最新的数据是否有足够长的静音片段，可以消除缓存数据和分片带来的延时影响，能在第一时间拿到断句信号，因此可以显著提升用户体验。

本发明还提供一种降低语音识别系统延时的系统，包括：

语音解码模块，用于对接收到的语音信号进行解码处理，得到解码语音数据；

片段相似度比较模块，用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果；

断句模块，用于根据所述片段相似度结果，得到断句结果。

进一步地，所述片段相似度比较模块包括：

参考静音片段确定单元，用于在所述解码语音数据中确定一个静音片段作为参考静音片段；

第一音频特征提取单元，用于提取所述参考静音片段中的音频特征，得到第一音频特征；

第二音频特征提取单元，用于对于引擎接收到的每个时间片段，计算当前接收时间点之前的预设时长的语音片段的音频特征，得到第二音频特征；

片段相似度比较单元，用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度，得到片段相似度结果。

进一步地，所述断句模块包括：

静音段确定单元，用于在所述片段相似度结果大于等于预设的相似度阈值时，确定所述预设时长的语音片段为静音段，并在所述预设时长的语音片段末尾断句；

非静音段确定单元，用于在所述片段相似度结果小于预设的相似度阈值时，确定所述预设时长的语音片段为非静音段。

进一步地，所述语音解码模块包括：

语音处理单元，用于对接收到的语音信号进行语音处理，得到语音识别数据；

语音解码单元，用于对所述语音识别数据进行解码处理，得到相应的解码语音数据。

本发明实施例提供的一种降低语音识别系统延时的系统，具有以下有益效果：利用引擎中已解码出的静音特征，根据某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到断句结果，可以实时监测引擎中最新的数据是否有足够长的静音片段，可以消除缓存数据和分片带来的延时影响，能在第一时间拿到断句信号，因此可以显著提升用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种降低语音识别系统延时的方法的流程示意图；

图2为目前语音识别中系统延时的示意图；

图3为采用本发明语音识别方法中系统延时的示意图；

图4为本发明实施例中一种降低语音识别系统延时的系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种降低语音识别系统延时的方法，如图1所示，所述方法执行以下步骤：

步骤3：根据所述片段相似度结果，得到断句结果。

上述技术方案的工作原理为：利用引擎中已解码出的静音特征，根据某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到断句结果，1.妥善处理缓存数据的固有延时，不用等待引擎解码出当前接收到的语音片段就能抢先计算该语音片段的特征，因此不用等待引擎充分解码出固有延时的静音再断句，只要通过片段相似度计算，即可确定该语音片段是否为静音片段，若为语音片段就可以抢先断句。

上述技术方案的有益效果为：利用引擎中已解码出的静音特征，根据某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到断句结果，可以实时监测引擎中最新的数据是否有足够长的静音片段，可以消除缓存数据和分片带来的延时影响，能在第一时间拿到断句信号，因此可以显著提升用户体验。

在一个实施例中，所述步骤1：对接收到的语音信号进行解码处理，得到解码语音数据执行以下步骤：

上述技术方案的工作原理为：接收到的语音信号例如可以是通过麦克风采集到的用户说话语音，并将采集到的模拟信号处理成数字信号得到语音识别数据；然后利用解码引擎进行解码处理，得到相应的解码语音数据。

上述技术方案的有益效果为：提供了对语音信号进行解码处理，得到解码语音数据的具体步骤。

在一个实施例中，所述步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果执行以下步骤：

上述技术方案的工作原理为：在所述步骤S23中，所述预设时长为断句阈值，例如为450ms-550ms，优选地，在本发明中，断句阈值为500ms。

上述技术方案的有益效果为：提供了比较解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果的具体步骤。

在一个实施例中，所述步骤3：根据所述片段相似度结果，得到断句结果执行以下步骤：

上述技术方案的工作原理为：图2示出了目前语音识别中系统延时的示意图，图3示出采用本发明语音识别方法中系统延时的示意图。

如图2所示，t0表示音频流式送入ASR(Automatic Speech Recognition，自动语音识别)音频，当前已经送到t0时刻；t1表示解码引擎目前已经处理音频到t1时刻；t2表示解码引擎判断句子在t2时刻结束，此时静音开始出现；t0–t1表示引擎固有延时，这部分数据缓存在引擎中，还没有开始处理，这部分延时是引擎结构产生的固有延时，不可避免，不同ASR引擎固有延时大小可能不同；t1–t2表示引擎解码当前得到的静音长度。

传统断句方案通过以下步骤计算系统延时：当t1–t2超过设定阈值时进行断句，假设断句阈值为500ms，引擎固有延时t0–t1=200ms，当t1–t2>=500ms时断句，此时延时为t0–t2=(t0–t1)+(t1–t2)=200ms+(t1–t2)>=700ms。另外，考虑到语音数据是分片送入引擎的，延时多少还会受到分片大小的影响，假设分片大小为M(ms)，因此实际延时往往是介于700ms到(700+M)ms之间。

如图3所示，t0表示音频流式送入ASR(Automatic Speech Recognition，自动语音识别)引擎，当前已经送到t0时刻；t1表示解码引擎目前已经处理音频到t1时刻；t2表示解码引擎判断句子在t2时刻结束，此时静音开始出现；t3表示已经解码出的某个历史静音片段中的静音终止时间点；t4表示已经解码出的某个历史静音片段中的静音开始时间点；t3–t4表示已经解码出的某个静音片段；

本发明的技术构思是利用已经解码出的静音片段t3-t4，来检测当前引擎收到的最新数据中有多少静音。假设断句阈值为500ms，引擎固有延时t0–t1=200ms。

本发明语音识别方法中的断句方法为：首先计算[t4,t3]的音频特征，即将已经解码出的确定是静音音频的特征提取出并保存下来，作为参考信号；在得到[t4,t3]的特征以后，引擎每接收到一个时间片段的数据，就计算一下[t0–500ms,t0]这个区间的音频特征；如果[t4,t3]与[t0-500ms,t0]这两个音频片段的片段相似度很高（超过预设阈值），说明[t0–500ms,t0]为静音片段，可以进行断句；反之，如果[t4,t3]与[t0-500ms,t0]的相似度低于阈值，则不做断句。

上述技术方案的有益效果为：提供了根据片段相似度结果，得到断句结果的具体步骤。

如图2所示，本发明实施例提供了一种降低语音识别系统延时的系统，包括：

语音解码模块201，用于对接收到的语音信号进行解码处理，得到解码语音数据；

片段相似度比较模块202，用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果；

断句模块203，用于根据所述片段相似度结果，得到断句结果。

在一个实施例中，所述语音解码模块201包括：

上述技术方案的有益效果为：借助于语音处理单元和语音解码单元，可以对接收到的语音信号进行解码处理，得到解码语音数据。

在一个实施例中，所述片段相似度比较模块包括：

上述技术方案的工作原理为：具体地，所述参考静音片段确定单元包括：

静音片段确定子单元，用于在所述解码语音数据中，根据静音开始时间点和静音终止时间点，确定若干静音片段；

参考静音片段确定子单元，用于在若干静音片段中随机选择一个，作为所述参考静音片段。

上述技术方案的有益效果为：借助于参考静音片段确定单元、第一音频特征提取单元和第二音频特征提取单元，可以比较解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果。

在一个实施例中，所述断句模块203包括：

非静音段确定单元，用于在所述片段相似度结果小于预设的相似度阈值时，确定所述预设时长的语音片段为非静音段。静音段确定单元在片段相似度结果超过相似度阈值时，确定预设时长的语音片段为静音段，并在末尾断句；静音段确定单元在片段相似度结果小于预设的相似度阈值时，确定预设时长的语音片段为非静音段，此时不做断句处理。

上述技术方案的工作原理为：通过将片段相似度结果和相似度阈值进行比较可以确定某个语音片段是否为静音段。

上述技术方案的有益效果为：借助于静音段确定单元和非静音段确定单元，可以确定某个语音片段是否为静音段。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种降低语音识别系统延时的方法，其特征在于，所述方法执行以下步骤：

步骤3：根据所述片段相似度结果，得到断句结果；

所述步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果执行以下步骤：

步骤S24：比较所述第一音频特征和所述第二音频特征之间的音频片段相似度，得到片段相似度结果；

在所述步骤S23中，所述预设时长为断句阈值；

所述步骤S21：在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤：

步骤S212：在若干静音片段中随机选择一个，作为所述参考静音片段；

所述步骤3：根据所述片段相似度结果，得到断句结果执行以下步骤：

步骤S32：若所述片段相似度结果小于预设的相似度阈值，则确定所述预设时长的语音片段为非静音段；

所述步骤1：对接收到的语音信号进行解码处理，得到解码语音数据执行以下步骤：

2.一种降低语音识别系统延时的系统，其特征在于，包括：

断句模块，用于根据所述片段相似度结果，得到断句结果；

所述片段相似度比较模块包括：

片段相似度比较单元，用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度，得到片段相似度结果；

在所述第二音频特征提取单元中，所述预设时长为断句阈值；

所述第一音频特征提取单元，包括：

参考静音片段确定子单元，用于在若干静音片段中随机选择一个，作为所述参考静音片段；

所述断句模块包括：

非静音段确定单元，用于在所述片段相似度结果小于预设的相似度阈值时，确定所述预设时长的语音片段为非静音段；

所述语音解码模块包括：