CN113763960B

CN113763960B - 模型输出的后处理方法、装置和计算机设备

Info

Publication number: CN113763960B
Application number: CN202111316725.8A
Authority: CN
Inventors: 李�杰; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-04-26
Anticipated expiration: 2041-11-09
Also published as: CN113763960A

Abstract

本申请提供了一种模型输出的后处理方法、装置和计算机设备，识别系统获取语音识别模型输出的概率矩阵，在概率矩阵中进行窗口搜索，基于阈值对所述概率矩阵进行规则处理，剔除概率矩阵中的无效路径，并且概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值。最后筛选概率值最高的窗口区间对应的命令词作为语音识别结果。本申请通过基于阈值的规则处理，有效保证了概率矩阵的数值稳定性。并采用概率累乘计算的方式替换log域计算，从而降低计算量。在窗口搜索的过程中，后一窗口区间的概率计算基于前一窗口区间的概率结果，从而减少重复计算的过程，进一步降低了计算量，有效加快了处理速度。

Description

模型输出的后处理方法、装置和计算机设备

技术领域

本申请涉及语音识别技术领域，特别涉及一种模型输出的后处理方法、装置和计算机设备。

背景技术

现有语音识别的后处理算法，是基于神经网络输出的概率矩阵，在概率矩阵的基础上进行最优路径的搜索。最优路径的搜索通常是采用概率累乘算法获取得到，但由于数值稳定性的考虑，一般采用logsum的方式进行处理（先把概率值转换为log值，概率值之间的乘法转换为log的加法），在计算完成后再转换为原先的概率值。

这种处理方法虽然可以带来数值稳定性的好处，但是由于引入了大量的log运算，导致在嵌入式等资源受限的设备上运用时，由于计算量过大导致计算耗时过长，严重影响算法的实时性。

发明内容

本申请的主要目的为提供一种模型输出的后处理方法、装置和计算机设备，旨在解决现有语音识别的后处理算法计算量大、计算耗时过长的弊端。

为实现上述目的，本申请提供了一种模型输出的后处理方法，包括：

获取语音识别模型输出的概率矩阵；

在所述概率矩阵中进行窗口搜索，在窗口搜索过程中，基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径，并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值；

筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。

本申请还提供了一种模型输出的后处理装置，包括：

获取模块，用于获取语音识别模型输出的概率矩阵；

搜索模块，用于在所述概率矩阵中进行窗口搜索，在窗口搜索过程中，基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径，并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值；

筛选模块，用于筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的一种模型输出的后处理方法、装置和计算机设备，识别系统获取语音识别模型输出的概率矩阵，然后在概率矩阵中进行窗口搜索。在窗口搜索过程中，基于阈值对概率矩阵进行规则处理，剔除概率矩阵中的无效路径，并且概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值。最后，筛选概率值最高的窗口区间对应的命令词作为语音识别结果。本申请通过基于阈值的规则处理，有效保证了概率矩阵的数值稳定性。在保证概率矩阵的数值稳定性后，采用概率累乘计算的方式替换log域计算，从而降低计算量。在窗口搜索的过程中，后一窗口区间的概率计算基于前一窗口区间的概率结果，从而减少重复计算的过程，进一步降低了计算量，有效加快了处理速度。

附图说明

图1是本申请一实施例中模型输出的后处理方法的步骤示意图；

图2是本申请一实施例中模型输出的后处理装置的整体结构框图；

图3是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种模型输出的后处理方法，包括：

S1:获取语音识别模型输出的概率矩阵；

S2:在所述概率矩阵中进行窗口搜索，在窗口搜索过程中，基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径，并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值；

S3:筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。

本实施例中，用户将语音数据输入语音识别模型，语音识别模型对语音数据进行相应处理后，输出该语音数据对应的概率矩阵（以ctc（Connectionist TemporalClassification）方式为例，语音识别模型输出的概率矩阵为音素概率矩阵，大小是序列长度*音素类数的矩阵）。识别系统对语音识别模型输出的概率矩阵进行后处理，从而识别得到最终结果。识别系统在概率矩阵中进行窗口搜索，窗口搜索过程中，首先基于阈值对概率矩阵进行规则处理，剔除概率矩阵中的无效路径，从而保证数值稳定性。具体地，识别系统首先调取第一阈值，并将概率矩阵中小于第一阈值的概率值替换为第一阈值（即将概率矩阵中小于第一阈值的音素单元对应的概率值在后续的处理中，统一按照第一阈值处理），第一阈值根据计算精度进行相应设置。然后，识别系统调取第二阈值，并将概率矩阵中各个路径上的音素单元对应位置的概率值与第二阈值进行比对，判断两者之间的大小关系，其中，第二阈值根据语音数据发音的置信度设定进行相应设置。如果某个路径上小于第二阈值的概率值的个数，大于该路径的路径长度的预设比例，则判定该路径为无效路径，无效路径后续不需要再进行概率累乘计算。然后，识别系统在剔除无效路径后的概率矩阵中进行窗口区间的计算，分别计算各个窗口区间对应的概率值（单个窗口区间对应的概率值，由该窗口区间内命令词的各个路径的概率累乘结果相加得到）。在进行窗口区间的计算过程中，概率矩阵上的后一个窗口区间的概率计算基于前一个窗口区间的概率结果。以窗口搜索对应的子窗口的left为1，right为3为例进行说明，当前的窗口区间为【1,3】，在对窗口区间【1,3】进行概率计算时，基于相邻的前一窗口区间【1,2】中，以1（left）为起点，到达终列2（right）的每个点的概率累乘结果，从而计算得到窗口区间【1,3】以1（left）为起点，到达终点列3（right+1）的概率值；即直接根据前一窗口区间right列的概率结果与概率矩阵中当前窗口区间right+1列的概率算出当前窗口区间所对应的概率值。按照上述规则，识别系统分别计算出各个窗口区间对应的概率值。在得到各个概率值后，识别系统从中筛选出概率值最高的窗口区间对应的命令词作为当前次的语音识别结果。

本实施例通过基于阈值的规则处理，有效保证了概率矩阵的数值稳定性。在保证概率矩阵的数值稳定性后，采用概率累乘计算的方式替换log域计算，从而降低计算量。在窗口搜索的过程中，后一窗口区间的概率计算基于前一窗口区间的概率结果，从而减少重复计算的过程，进一步降低了计算量，有效加快了处理速度。

进一步的，所述基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径的步骤中，所述无效路径的识别规则包括：

S201:调取第一阈值，并将所述概率矩阵中小于所述第一阈值的概率值替换为所述第一阈值；

S202:调取第二阈值，并获取第一路径中小于所述第二阈值的概率值的个数；

S203:若小于所述第二阈值的概率值的个数大于预设比例的所述第一路径的路径长度，则判定所述第一路径为所述无效路径。

本实施例中，识别系统调取第一阈值，该第一阈值根据计算精度进行相应设置，优选为1e-5。识别系统在对概率矩阵中的各个路径的概率累乘计算时，将小于第一阈值的各个概率值均按照第一阈值统一处理；或者可以理解为，识别系统使用第一阈值替换概率矩阵中小于第一阈值的概率值，以消除数值不稳定的弊端。进一步的，识别系统调取第二阈值，该第二阈值为根据发音的置信度设定确定发音概率的最小值，优选为0.01。识别系统获取第一路径（第一路径表征概率矩阵中可映射为任一命令词的路径，比如概率矩阵中可映射为“打开空调”这一命令词的所有路径）中小于第二阈值的概率值的个数，并计算预设比例的第一路径的路径长度所对应的值（比如第一路径：“天猫精灵”有8个有效音素单元：tian m ao j ing l ing，预设比例为20%，若第一路径中有2个音素单元对应的概率值小于第二阈值，则认为此路径无效）。识别系统将第一路径中小于第二阈值的概率值的个数与预设比例的第一路径的路径长度所对应的值进行比较，判断两者之间的大小。如果第一路径中小于第二阈值的概率值的个数，大于预设比例的第一路径的路径长度，则说明第一路径的数值不仅不稳定，并且该第一路径计算出来的数值太小，不满足被识别的分数要求（或者说概率要求），因此将第一路径判定为无效路径，后续不需要对其进行概率累乘计算。

进一步的，所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值的的步骤，包括：

S204:在对所述概率矩阵中的第二路径做概率累乘计算的过程中，每得到一个概率累乘结果，则判断所述概率累乘结果是否小于所述第一阈值；

S205:若所述概率累乘结果小于所述第一阈值，则停止对所述第二路径做概率累乘计算，并将所述第二路径标定为无效路径。

本实施例中，识别系统在对概率矩阵的第二路径（第二路径表征概率矩阵中可映射为任一命令词的路径）做概率累乘计算的过程中，每得到一个位置对应的概率累乘结果，则将该概率累乘结果与第一阈值进行比对，判断两者之间的大小关系。如果当前位置对应的概率累乘结果大于第一阈值，则继续进行概率累乘计算，计算下一个位置对应的概率累乘结果。如果当前位置对应的概率累乘结果小于第一阈值，则计算过程在当前位置终止，不需要对第二路径继续做概率累乘计算，并将第一路径标定为无效路径。比如第二路径总共需要计算1—6的概率累乘计算，从左到右依次计算为：1—2,1—3,1—4，如果1—4的概率累乘结果小于第一阈值，则不需要对第二路径继续做概率累乘计算，即不需要做后续的1—5、1—6的位置对应的概率累乘计算。本实施例通过上述规则处理，不仅可以解决数值不稳定的弊端，还能够减少计算量，有效提高处理速度。

进一步的，所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值的步骤中，单个所述窗口区间的每个位置的概率值的计算步骤包括：

S206:根据所述窗口搜索的左指针在窗口范围内遍历，计算所述窗口区间在所述窗口搜索的右指针首列的第一概率结果，其中，所述右指针的值与所述窗口搜索的窗口长度相同；

S207:将所述第一概率结果与所述窗口区间在所述窗口搜索的右指针第二列对应的概率值进行运算，得到路径在所述窗口搜索的右指针第二列的第二概率结果；

S208:按照上述规则，从左到右依次计算得到所述窗口区间的各列各自对应的概率结果。

本实施例中，窗口搜索过程中，给定一个窗口长度记作N，窗口区间的left（即左指针）记作l，窗口区间的right（即右指针）记作r。由于语速、说明内容等不同，l和r的值是可变动的，其满足：0 =<l <r <=N。现有窗口搜索的过程为： l在窗口长度范围内进行遍历r在窗口长度范围内进行遍历，然后在窗口区间[l,r] 进行搜索。此处理流程存在大量重复计算，比如left相同，右窗口结束位置分别为right和right+1重复计算的部分为left 到right。为了减少计算量，提升处理速度，本实施例中，识别系统根据窗口搜索的左指针在窗口范围内遍历，计算路径在窗口搜索的右指针首列的第一概率结果（每个位置的概率结果由首列对应的子窗口区间（比如窗口区间为【1,4】，首列对应的子窗口区间为【1,2】）所包含的命令词路径的概率总和，单个命令词路径的概率为命令词路径所包含的各个概率的乘积），其中，右指针的值与窗口搜索的窗口长度相同（即r=N）。识别系统将第一概率结果与窗口区间在窗口搜索的右指针第二列对应的概率值进行运算，得到窗口区间在窗口搜索的右指针第二列的第二概率结果。识别系统按照上述规则，从左到右依次计算得到窗口区间的各列的概率结果。在窗口搜索过程中，由于每列的概率结果会进行缓存，后一列的概率计算基于前一列的概率结果，因此计算过程由现有技术的两重循环变为本实施例的一重循环，即只需要left在窗口范围内遍历，从而大幅减少了重复计算，有效提升了处理速度。

进一步的，所述窗口搜索的步长大于1。

本实施例中，窗口搜索时滑动的步长设定大于1，从而加速窗口搜索的速度。将步长设定为大于1后，窗口区间的left可以按照该步长进行移动；同时，left到N（即right）中，搜索的right也可按照一定步长进行移动。本实施例通过对步长的控制，可进一步减少计算过程，加速处理速度。

进一步的，所述筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果的步骤之后，包括：

S4:匹配与所述语音识别结果对应的指令动作，并控制设备终端执行所述指令动作。

本实施例中，识别系统在得到语音识别结果后，从指令库中匹配与该语音识别结果对应的指令动作，并控制设备终端（设备终端可以是识别系统预先关联绑定的硬件设备，也可以是识别系统所部署的硬件设备）执行该指令动作。比如语音识别结果为“打开空调”，则识别系统匹配与“打开空调”对应的指令动作，并控制空调从待机状态或关闭状态改变为工作状态。

参照图2，本申请一实施例中还提供了一种模型输出的后处理装置，包括：

获取模块1，用于获取语音识别模型输出的概率矩阵；

搜索模块2，用于在所述概率矩阵中进行窗口搜索，在窗口搜索过程中，基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径，并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值；

筛选模块3，用于筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。

进一步的，所述搜索模块2：

替换单元，用于调取第一阈值，并将所述概率矩阵中小于所述第一阈值的概率值替换为所述第一阈值；

获取单元，用于调取第二阈值，并获取第一路径中小于所述第二阈值的概率值的个数；

判定单元，用于若小于所述第二阈值的概率值的个数大于预设比例的所述第一路径的路径长度，则判定所述第一路径为所述无效路径。

进一步的，所述搜索模块2，包括：

判断单元，用于在对所述概率矩阵中的第二路径做概率累乘计算的过程中，每得到一个概率累乘结果，则判断所述概率累乘结果是否小于所述第一阈值；

标定单元，用于若所述概率累乘结果小于所述第一阈值，则停止对所述第二路径做概率累乘计算，并将所述第二路径标定为无效路径。

进一步的，所述搜索模块2，还包括：

第一计算单元，用于根据所述窗口搜索的左指针在窗口范围内遍历，计算所述窗口区间在所述窗口搜索的右指针首列的第一概率结果，其中，所述右指针的值与所述窗口搜索的窗口长度相同；

第二计算单元，用于将所述第一概率结果与所述窗口区间在所述窗口搜索的右指针第二列对应的概率值进行运算，得到路径在所述窗口搜索的右指针第二列的第二概率结果；

第三计算单元，用于按照上述规则，从左到右依次计算得到所述窗口区间的各列各自对应的概率结果。

进一步的，所述窗口搜索的步长大于1。

进一步的，所述筛后处理装置，还包括：

执行模块4，用于匹配与所述语音识别结果对应的指令动作，并控制设备终端执行所述指令动作。

本实施例中，模型输出的后处理装置中各模块、单元用于对应执行与上述模型输出的后处理方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种模型输出的后处理装置，识别系统获取语音识别模型输出的概率矩阵，然后在概率矩阵中进行窗口搜索。在窗口搜索过程中，基于阈值对概率矩阵进行规则处理，剔除概率矩阵中的无效路径，并且概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值。最后，筛选概率值最高的窗口区间对应的命令词作为语音识别结果。本申请通过基于阈值的规则处理，有效保证了概率矩阵的数值稳定性。在保证概率矩阵的数值稳定性后，采用概率累乘计算的方式替换log域计算，从而降低计算量。在窗口搜索的过程中，后一窗口区间的概率计算基于前一窗口区间的概率结果，从而减少重复计算的过程，进一步降低了计算量，有效加快了处理速度。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储概率累乘结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型输出的后处理方法。

上述处理器执行上述模型输出的后处理方法的步骤：

S1:获取语音识别模型输出的概率矩阵；

进一步的，所述窗口搜索的步长大于1。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种模型输出的后处理方法，所述模型输出的后处理方法具体为：

S1:获取语音识别模型输出的概率矩阵；

进一步的，所述窗口搜索的步长大于1。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种模型输出的后处理方法，其特征在于，包括：

获取语音识别模型输出的概率矩阵；

在所述概率矩阵中进行窗口搜索，在窗口搜索过程中，基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径，并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，利用累乘计算方式分别计算出各个窗口区间各自对应的概率值；

筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果；

所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，利用累乘计算方式分别计算出各个窗口区间各自对应的概率值的步骤中，单个所述窗口区间的每个位置的概率值的计算步骤包括：

根据所述窗口搜索的左指针在窗口范围内遍历，计算所述窗口区间在所述窗口搜索的右指针首列的第一概率结果，其中，所述右指针的值与所述窗口搜索的窗口长度相同；

将所述第一概率结果与所述窗口区间在所述窗口搜索的右指针第二列对应的概率值进行运算，得到路径在所述窗口搜索的右指针第二列的第二概率结果；

按照上述规则，从左到右依次计算得到所述窗口区间的各列各自对应的概率结果。

2.根据权利要求1所述的模型输出的后处理方法，其特征在于，所述基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径的步骤中，所述无效路径的识别规则包括：

调取第一阈值，并将所述概率矩阵中小于所述第一阈值的概率值替换为所述第一阈值；

调取第二阈值，并获取第一路径中小于所述第二阈值的概率值的个数；

若小于所述第二阈值的概率值的个数大于预设比例的所述第一路径的路径长度，则判定所述第一路径为所述无效路径。

3.根据权利要求2所述的模型输出的后处理方法，其特征在于，所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，分别计算出各个窗口区间各自对应的概率值的步骤，包括：

在对所述概率矩阵中的第二路径做概率累乘计算的过程中，每得到一个概率累乘结果，则判断所述概率累乘结果是否小于所述第一阈值；

若所述概率累乘结果小于所述第一阈值，则停止对所述第二路径做概率累乘计算，并将所述第二路径标定为无效路径。

4.根据权利要求1所述的模型输出的后处理方法，其特征在于，所述窗口搜索的步长大于1。

5.根据权利要求1所述的模型输出的后处理方法，其特征在于，所述筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果的步骤之后，包括：

匹配与所述语音识别结果对应的指令动作，并控制设备终端执行所述指令动作。

6.一种模型输出的后处理装置，其特征在于，包括：

获取模块，用于获取语音识别模型输出的概率矩阵；

搜索模块，用于在所述概率矩阵中进行窗口搜索，在窗口搜索过程中，基于阈值对所述概率矩阵进行规则处理，剔除所述概率矩阵中的无效路径，并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果，利用累乘计算方式分别计算出各个窗口区间各自对应的概率值；

筛选模块，用于筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果；

所述搜索模块包括：

7.根据权利要求6所述的模型输出的后处理装置，其特征在于，所述搜索模块，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。