CN108630210B

CN108630210B - 语音解码、识别方法、装置、系统和机器设备

Info

Publication number: CN108630210B
Application number: CN201810313090.8A
Authority: CN
Inventors: 蒲松柏; 罗敏; 王广森; 曹立新
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2023-06-30
Anticipated expiration: 2038-04-09
Also published as: CN108630210A

Abstract

本发明揭示了一种语音识别中的解码方法、语音识别方法、装置、系统和机器设备。所述方法包括：根据所进行语音识别对应的语音解码范围获取文本数据；生成文本数据的前缀搜索树；通过前缀搜索树解码语音识别中声学模型输出的声学特征，获得匹配的路径；根据匹配的路径获得语音识别的解码结果。至此实现封闭集场景下语音解码，对封闭集以前缀搜索树的方式取代语言模型，获得较强实时性以及灵活性，而对于解码结果通过前缀搜索树进行搜索获得，消除了edit‑distance度量的约束，也避免了语言模型与封闭集之间概率模型的不一致性，能够极大提高准确性，在前缀搜索树的作用下不需要大量存储空间且加快搜索速度，实现低复杂度、实时性强且准确的语音解码。

Description

语音解码、识别方法、装置、系统和机器设备

技术领域

本发明涉及语音技术领域，特别涉及一种语音识别中的解码方法、语音识别方法、装置、系统和机器设备。

背景技术

随着语音技术的发展，语音技术开始改变着我们的生活和工作方式。对于某此设备来说，语音成为了人机交互的主要方式，例如，对话交互的实现以及语音控制的实现。这些趋势的出现是多种语音解码方案推动所导致的。

现有语音解码方案大致分为两类，一类是开集解码，另一类则是封闭集解码，相对于开集解码而言，封闭集解码可以参考更多的先验信息。

而对于封闭集解码中，现有的技术实现主要是：使用声学模型和语言模型获得搜索空间，然后通过在搜索空间进行的搜索解码语音。

具体的，根据所用语言模型的不同，也分为两方式：一种是采用通用语言模型来获得搜索空间；另一种是利用封闭集动态生成所用的语言模型，进而结合声学模型获得搜索空间。

对于采用通用语言模型的语音解码方案，存在着非常多的搜索路径，进而影响解码速度，并且在获得识别结果之后还需要通过edit-distance的度量方法与封闭集进行匹配，以确定最终的识别结果，但是，这一edit-distance的度量方法并不适合封闭集的应用场景，且通用语言模型的概率模型与封闭集的概率模型往往并不一致，进而导致解码不准确的缺陷。

对于利用封闭集动态生成语音模型的语音解码方案，如果采用在线生成方式，则解码速度很难达到实时；如果采用离线生成方式，则提供服务的服务器需要大量的存储空间。

由此可知，对于封闭集应用场景下语音解码的实现存在着诸多缺陷，进而并无法落地实现封闭集应用场景下的语音解码。

至此，亟待获得低复杂度、实时性强且准确的语音解码方法，以落地于终端设备中的封闭集应用场景。

发明内容

为了解决相关技术中存在的封闭集应用场景下语音解码方法难以落地实现的技术问题，本发明提供了一种低复杂度、实时性强且准确的语音识别中的解码方法、语音识别方法、装置、系统和机器设备。

一种语音识别中的解码方法，所述方法包括：

根据所进行语音识别对应的语音解码范围获取文本数据；

动态生成所述文本数据的前缀搜索树；

通过所述前缀搜索树解码所述语音识别中声学模型输出的声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径；

根据匹配的所述路径获得所述语音识别的解码结果。

在一个示例性实施例中，所述根据所进行语音识别对应的语音解码范围获取文本数据，包括：

根据所发起进行的语音识别获得语音识别指令；

根据所述语音识别指令获取所对应识别目标所在文本数据为所述语音识别对应的语音解码范围；

按照所述语音解码范围获取文本数据。

在一个示例性实施例中，所述动态生成所述文本数据的前缀搜索树，包括：

根据所述文本数据之间相同前缀的存在，进行所述相同前缀下所述文本数据对应子节点的创建，所述相同前缀和所创建子节点形成所述文本数据的前缀搜索树。

在一个示例性实施例中，所述根据所述文本数据之间相同前缀的存在，进行所述相同前缀下所述文本数据对应子节点的创建，所述相同前缀和所创建子节点形成所述文本数据的前缀搜索树，包括：

为所述前缀搜索树创建头结点；

以所述头结点作为当前节点，获得所述当前节点下包含所述封闭集中文本数据首个单位文本的子节点；

针对于每一文本数据，循环以获得的所述子节点作为当前节点，按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，直至获得所述当前文本数据中包含所有单位文本的若干子节点；

待所述封闭集中的所有文本数据都在所述头结点下获得包含所有单位文本的若干子节点，则获得所述文本数据的前缀搜索树。

在一个示例性实施例中，所述按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，包括：

如果当前节点的子节点包含所述当前文本数据中的下一单位文本，则获得包含所述下一单位文本的子节点，以与其它文本数据进行相同前缀共享。

如果当前节点的子节点并不包含所述当前文本数据中的下一单位文本，则在所述当前节点下创建包含所述下一单位文本的子节点。

在一个示例性实施例中，所述通过所述前缀搜索树解码所述语音识别中声学模型输出的声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径，包括：

在所进行的语音输入中，持续为语音下一帧输出的声学特征进行所述前缀搜索树中的路径搜索，通过所述路径搜索获得所述声学特征在所述前缀搜索树中匹配的路径，直至所述语音输入结束。

在一个示例性实施例中，所述根据匹配的所述路径获得所述语音识别的解码结果，包括：

根据所匹配路径上节点顺次包含的文本单位，获得语音下一帧对应的字序列为解码结果，所述解码结果即为所进行语音输入中一帧语音解码所获得的文本内容。

一种语音识别方法，所述方法包括：

根据所进行的语音输入，以帧为单位通过声学模型输出声学特征；

在所动态生成的前缀搜索树解码所述声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径；

根据匹配的所述路径获得所输入每一帧语音的解码结果；

根据所述解码结果获得所输入语音对应的文本内容，所述文本内容对应于动态生成所述前缀搜索树的文本数据。

在一个示例性实施例中，所述在所动态生成的前缀搜索树解码所述声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径，之前，所述方法还包括：

根据所发起进行的语音识别获得语音识别指令；

对所述语音识别指令所对应识别目标所在文本数据动态生成前缀搜索树。

一种语音识别中的解码装置，所述装置包括：

数据获取模块，用于根据所进行语音识别对应的语音解码范围获取文本数据；

前缀搜索树生成模块，用于动态生成所述文本数据的前缀搜索树；

解码模块，用于通过所述前缀搜索树解码所述语音识别中声学模型输出的声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径；

解码结果获得模块，用于根据匹配的所述路径获得所述语音识别的解码结果。

在一个示例性实施例中，所述数据获取模块包括：

指令获取单元，用于根据所发起进行的语音识别获得语音识别指令；

解码范围获取单元，用于根据所述语音识别获取所对应识别目标所在文本数据为所述语音识别对应的语音解码范围；

文本数据获取单元，用于按照所述语音解码范围获取文本数据。

在一个示例性实施例中，所述前缀搜索树生成模块进一步用于根据所述文本数据之间相同前缀的存在，进行所述相同前缀下所述文本数据对应子节点的创建，所述相同前缀和所创建子节点形成所述文本数据的前缀搜索树。

在一个示例性实施例中，所述前缀搜索树生成模块包括：

头结点创建单元，用于为所述前缀搜索树创建头结点；

首文本子节点映射单元，用于以所述头结点作为当前节点，获得所述当前节点下包含所述文本数据首个单位文本的子节点；

子节点获得单元，用于针对于每一文本数据，循环以获得的所述子节点作为当前节点，按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，直至获得所述当前文本数据中包含所有单位文本的若干子节点；

搜索树获得单元，用于待所述封闭集中的所有文本数据都在所述头结点下获得包含所有单位文本的若干子节点，则获得所述文本数据的前缀搜索树。

在一个示例性实施例中，所述子节点获得单元进一步用于如果当前节点的子节点包含所述当前文本数据中的下一单位文本，则获得包含所述下一单位文本的子节点，以与其它文本数据进行相同前缀共享。

在一个示例性实施例中，所述子节点获得单元还用于如果当前节点的子节点并不包含所述当前文本数据中的下一单位文本，则在所述当前节点下创建包含所述下一单位文本的子节点。

在一个示例性实施例中，所述解码结果获得模块进一步用于在所进行的语音输入中，持续为语音下一帧输出的声学特征进行所述前缀搜索树中的路径搜索，通过所述路径搜索获得所述声学特征在所述前缀搜索树中匹配的路径，直至所述语音输入结束。

一种语音识别系统，所述系统包括：

特征识别模块，用于根据所进行的语音输入，以帧为单位通过声学模型输出声学特征；

特征解码模块，用于在所动态生成的前缀搜索树解码所述声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径；

结果获取模块，用于根据匹配的所述路径获得所输入每一帧语音的解码结果；

内容生成模块，用于根据所述解码结果获得所输入语音对应的文本内容，所述文本内容对应于动态生成所述前缀搜索树的文本数据。

一种机器设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如前所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

为实现对当前所输入语音的解码识别，首先为此而对应于语音解码范围动态生成文本数据的前缀搜索树，然后通过前缀搜索树解码语音识别中声学模型输出的声学特征，获得声学特征在前缀搜索树上匹配的路径，最终根据匹配的路径获得解码结果，至此，对应于语音解码范围的文本数据构成了语音解码的封闭集，进而得以实现封闭集场景下的语音解码，此语音识别的解码过程是对封闭集以前缀搜索树的方式取代语言模型，获得较强实时性以及灵活性，而对于解码结果的获得，是通过前缀搜索树进行搜索而获得的，此解码结果即为当前所输入语音的解码识别结果，消除了edit-distance度量的约束，也避免了语言模型与封闭集之间概率模型的不一致性，进而能够极大提高准确性，并在前缀搜索树的作用下不需要大量存储空间且加快搜索速度，实现低复杂度、实时性强且准确的语音解码。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种装置的框图；

图3是根据一示例性实施例示出的一种语音识别中的解码方法的流程图；

图4是根据图3对应实施例示出的对步骤310进行描述的流程图；

图5是根据一示例性实施例示出的对根据文本数据之间相同前缀的存在，进行相同前缀下文本数据对应子节点的创建，相同前缀和所创建子节点形成文本数据的前缀搜索树步骤的细节进行描述的流程图；

图6是根据一示例性实施例示出的一种语音识别方法的流程图；

图7是根据一示例性实施例示出的语音解码实现架构图；

图8是根据一示例性实施例示出的对前缀搜索树生成过程730的细节进行描述的流程图；

图9是根据一示例性实施例示出的基于封闭集前缀搜索树的beam-search过程的实现示意图；

图10是现有技术实现中基于通用语言模型的解码器实现架构图；

图11是现有技术实现基于封闭集语言模型解码器的架构示意图；

图12是根据一示例性实施例示出的一种语音识别中的解码装置的框图；

图13是根据一示例性实施例示出的对前缀搜索树生成模块的细节进行描述的框图；

图14是根据一示例性实施例示出的一种语音识别系统的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明所涉及的实施环境的示意图。在一个示例性实施例中，如图1所示的，该实施环境包括：运行于终端设备100中的语音识别应用110以及终端设备100中存储的封闭集130，此封闭集130为语音识别应用110所识别语音对应的文本数据。

所指的终端设备100，可以是需要实现语音识别的任一机器设备，例如，移动终端设备，个人电脑等。

终端设备100中运行着通过本发明方法实现的语音识别应用110，以对所输入的语音进行解码识别，获得语音所对应的文本内容。

而对于语音识别应用110，将通过所在终端设备100存储的封闭集动态生成前缀搜索树，以在前缀搜索树所构建的搜索空间对所输入的语音进行解码识别，进而实现封闭集场景下所输入语音对应文本内容的获得。

当然，应当说明的是，本发明所涉及的实施环境并不仅限于此，根据语音识别的需要，也可在其它机器设备而不限于终端设备中实现，在此仅举例说明，不进行限定。

图2是根据一示例性实施例示出的一种装置的框图。例如，装置200可以是图1所示实施环境中的终端设备110。例如，终端设备110可以是智能手机、平板电脑等便携移动终端。

参照图2，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，传感器组件214以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件202可以包括一个或多个处理器218来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器204中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器218执行，以完成下述图3、图4、图5和图6任一所示方法中的全部或者部分步骤。

电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(Microphone，简称MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到装置200的打开/关闭状态，组件的相对定位，传感器组件214还可以检测装置200或装置200一个组件的位置改变以及装置200的温度变化。在一些实施例中，该传感器组件214还可以包括磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(Near FieldCommunication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，简称RFID)技术，红外数据协会(Infrared DataAssociation，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

图3是根据一示例性实施例示出的一种语音识别中的解码方法的流程图。该语音识别中的解码方法，在一个示例性实施例中，如图3所示，至少包括以下步骤。

在步骤310中，根据所进行语音识别对应的语音解码范围获取文本数据。

其中，终端设备所运行的应用往往配置有语音识别功能，应用所配置的语音识别功能用于为用户通过语音输入的方式获得所需要的文本内容。应当理解，所获得的文本内容是应用所存储的。应用所配置的语音识别功能必然是为了用户能够自由调取存储的数据，因此，语音识别的实现，具体而言，语音识别中解码的实现是基于封闭集而进行的。

封闭集为语音识别中解码的进行限定了语音解码范围。所限定的语音解码范围即为后续对所输入语音执行语音解码中搜索的范围，即封闭集场景下执行语音解码的搜索范围。

在需要进行语音识别时，便按照所对应的语音解码范围进行文本数据获取，即实时动态的由所获取文本数据生成前缀搜索树。

为所进行的语音识别获取文本数据所对应的语音解码范围，是与当前所进行的语音识别强相关的，即当前进行语音识别的识别目标位于哪些文本数据中，这些文本数据便映射了语音解码范围。

由语音解码范围获取的文本数据为多条，所进行语音识别所最终得到的解码结果将来自于文本数据中的文本内容。

在步骤330中，动态生成文本数据的前缀搜索树。

其中，所动态生成的前缀搜索树是由文本数据所对应封闭集指向的。应当理解，封闭集是给定文本数据的集合。封闭集中记录了多条文本数据，在后续所进行的语音解码中每一条文本数据都可能对应于所获得的解码结果。对于所实现的语音解码，封闭集提供了对给定语音进行语音解码的范围，进而使得所进行的语音解码能够适用于封闭集所对应的应用，提高语音解码的速度和准确性。

封闭集限定了语音解码中进行搜索的范围，即前述所指的语音解码范围。例如，所进行的语音解码是为终端设备中的通讯录应用服务的，由此所进行的语音输入必然是为了获得通讯录中的一联系人信息，故语音输入的内容必然存在于通讯录这一封闭集。

通讯录便可作为语音解码所使用的目标封闭集，进而引入到为通讯录应用实现的语音解码中。

至此，可以理解，前缀搜索树所指向封闭集就是当前所进行语音解码而配置的目标封闭集，其可根据语音解码所落地的封闭集应用场景而配置，例如，除了通讯录，还可以是即时通信工具或者社交网络应用中的联系人数据，在此不一一进行列举。

如前所述的，所指向封闭集记录了若干条文本数据，根据所设定单位的不同，可进行每一条文本数据中的不同划分，在每一条文本数据中都能够获得顺序存在的若干单位文本。例如，所设定的单位，可以是字、音素和音位等任意一种。

使用封闭集中的所有文本数据，应用每一文本数据中顺序存在的若干单位文本，进行前缀搜索树的构建，以此来获得封闭集映射的前缀搜索树。

前缀搜索树为后续所进行的解码提供了搜索空间，进而将语音解码的搜索实现限定于封闭集所记录的文本内容，一方面由于搜索范围的限定而使得速度和效率得到提高，另一方面也得以提升了搜索的准确性，能够适应于所服务的应用。

前缀搜索树，是通过共享相同的前缀而实现的封闭集中所有文本数据的存储，因此，将极大节省了存储空间，并且也能够实现封闭集向前缀搜索树的动态、快速映射。

所指向封闭集对应的应用被触发进行语音识别之后，便进行所指向封闭集的前缀搜索树生成，以使得为此而进行的语音识别是在包含所指向目标封闭集的搜索空间进行的。

在步骤350中，通过前缀搜索树解码语音识别中声学模型输出的声学特征，获得声学特征在前缀搜索树上匹配的路径。

其中，前缀搜索树充当语言模型，即替代了原本与声学模型配合实现语音解码的语言模型。在声学模型输出声学特征之后，便通过前缀搜索树来进行解码，在前缀搜索中搜索得到声学特征最为匹配的路径。

声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示，通过声学模型进行着语音特征到音素的映射，进而获得声学特征。

应当补充说明的是，对所输入的语音，通过前端处理、声学模型、语言模型、解码等若干个过程的实现来识别获得文本内容。因此，声学模型输出的声学特征，往往将需要在语言模型的作用下实现声学特征到词、句子的映射。

而在本发明的实现中，将在动态生成的前缀搜索树作用下实现声学特征到词、句子的映射。因此通过前缀搜索树中声学特征的解码而获得相应的匹配路径。

声学特征的解码，是指前缀搜索树中逐层确定当前所匹配节点下子节点是否与声学特征相匹配的过程，以此来获得声学特征在前缀搜索树中匹配的路径。

前缀搜索树包含了以头结点为起始，若干子节点形成的路径，而路径中子节点的数量是与封闭集中文本数据所具备文本单位数量相适应的。

在一个示例性实施例的具体实现中，步骤330包括：在所进行的语音输入中，持续为语音下一帧输出的声学特征进行前缀搜索树中的路径搜索，通过路径搜索获得声学特征在前缀搜索树中匹配的路径，直至语音输入结束。

其中，应当理解，在通过前述步骤310的执行完成了前缀搜索树的动态生成之后，便对持续输入的语音以帧为单位进行解码，以获得每一帧所匹配的路径，直至语音输入结束。

在步骤370中，根据匹配的路径获得语音识别的解码结果。

其中，如前所述的，前缀搜索树中，每一子节点都包含着文本单位，例如，一个字或者一个音素。基于此，可以由所匹配路径上每一子节点包含的文本单位而顺序形成解码结果，解码结果指示了所输入语音对应的文本内容。

对于以帧为单位而进行的语音解码中，通过前述步骤330的执行获得每一帧语音匹配的路径之后，步骤350的执行中，便根据路径上节点顺次包含的文本单位，获得语音下一帧对应的字序列为解码结果，解码结果即为所进行语音输入中一帧语音解码所获得的文本内容。

至此，随着语音的持续输入，在封闭集映射的前缀搜索树中持续进行着声学模型所相应输出声学特征的解码，获得每一帧语音对应的解码结果，以此类推，获得所有语音的解码结果，完成对所输入语音的解码识别。

图4是根据图3对应实施例示出的对步骤310进行描述的流程图。在一示例性实施例中，如图4所示，步骤310，至少包括以下步骤。

在步骤311中，根据所发起进行的语音识别获得语音识别指令。

在步骤313中，根据语音识别指令获得所对应识别目标所在文本数据为语音识别对应的语音解码范围。

在步骤315中，按照语音解码范围获取文本数据。

其中，如前所述的，所进行的语音识别为一定应用部署的功能，因此，可在此应用的界面上通过按钮的触发等方式，触发进行语音识别的选择操作，此应用所对应存储的数据即为识别目标所在文本数据。

此时，便相应接收到进行语音识别的选择操作，将相应获取所指向的封闭集，即识别目标所在文本数据，引入所指向的封闭集来响应应用中触发的语音识别功能。

不同的应用，其为自身所进行语音识别而提供的参考数据各不相同，因此，不同的应用有着不同的封闭集，进而为应用中语音识别的实现而提供先验知识。

在一个示例性实施例中，步骤330包括：

根据文本数据之间相同前缀的存在，进行相同前缀下文本数据对应子节点的创建，相同前缀和所创建子节点形成文本数据的前缀搜索树。

其中，前缀是相对于文本数据中顺序存在的后一部分单位文本而言的。例如，前缀可以理解为文本数据中的前n个单位文本，n小于文本数据的长度。

相同前缀，是针对于两条以上文本数据而言的。两条以上的文本数据之间，如果前n个单位文本均相同，则可将这前n个单位文本作为这两条以上文本数据之间存在的相同前缀文本。

封闭集所映射前缀搜索树的构建，是基于文本数据相互之间相同前缀的存在而实现的。对于具备相同前缀的文本数据，首先是以相同前缀所顺序包含的单位文本获得子节点的，所获得的子节点往往由于此相同前缀的其它文本数据在前缀搜索树中的节点映射而已经存在，至此，只需要在相同前缀所对应的子节点下，对后继节点，即下一子节点继续进行此文本数据中顺序存在的后一部分单位文本的子节点映射，直至将此文本数据中的所有单位文本都映射至前缀搜索树中的一条路径上。

而对于并未存在相同前缀的文本数据，则对其顺序存在的单位文本顺序执行每一层中子节点的映射，即包含此单位文本的子节点创建，获得以头结点为起始而逐层顺序连接的若干子节点，形成此文本数据在前缀搜索树中的一条路径。

由此，所有文本数据便能够在所形成的前缀搜索树中映射至相应的路径，进而使得随后进行的解码能够快速准确的实现。

应当理解，对于封闭集中所有文本数据向前缀搜索树的映射，由于是通过相同前缀而进行的所有文本数据存储，直接有效的节省了所需要耗费的存储空间，并且也加快了封闭集向前缀搜索树的快速加载，即保证了前缀搜索树的动态实现，也得以使得封闭集能够快速且自适应的引入至语音解码中。

图5是根据一示例性实施例示出的对根据文本数据之间相同前缀的存在，进行相同前缀下文本数据对应子节点的创建，相同前缀和所创建子节点形成文本数据的前缀搜索树步骤的细节进行描述的流程图。

在一个示例性实施例中，如图5所示，根据文本数据之间相同前缀的存在，进行相同前缀下文本数据对应子节点的创建，相同前缀和所创建子节点形成文本数据的的前缀搜索树步骤，至少包括以下步骤。

在步骤501中，为前缀搜索树创建头结点。

其中，头结点，即为前缀搜索树中的根节点。头结点未包含任一单位文本。

在步骤503中，以头结点作为当前节点，获得当前节点下包含文本数据首个单位文本的子节点。

其中，首先应当说明的是，所指的单位文本，是对应于设定单位的。如果设定单位是字，则单位文本则是文本数据中的每一个字；如果设定单位是音素，则单位文本则是文本数据中的每一个音素。

在所创建头结点下，进行包含了文本数据中各首个单位文本的子节点创建。对于一文本数据所对应的首个单位文本而言，如果头结点的若干子节点中，存在着包含了这一单位文本的子节点，则将在这一子节点下继续进行当前文本数据中下一单位文本所对应子节点的获得，即执行后续步骤505。

如果头结点的若干子节点中，并不存在包含了这一单位文本的子节点，则需要在此头结点下创建包含这一单位文本的子节点。

需要强调的是，头结点的若干子节点，是头结点的直接后继，而并非是在头结点下各层级的所有子节点。

至此，通过步骤501以及步骤503的执行，便实现了头结点以及首层子节点的创建，对于封闭集中单一一条文本数据而言，在头结点下，对所存在子节点进行是否包含自身首个单位文本的判断，如果包含，则定位包含自身首个单位文本的子节点，如果并不包含，则创建包含自身首个单位文本的子节点。

随后步骤505和步骤507的执行，则是针对此条文本数据的后续单位文本顺序执行的，在步骤501和步骤503的基础上，通过后续步骤505和步骤507的执行实现此条文本数据在前缀搜索树的映射。

以此类推，封闭集中所有文本数据在前缀搜索树的映射完成，便获得了语音解码所使用的前缀搜索树。

在步骤505中，针对于每一文本数据，循环以获得的子节点作为当前节点，按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，直至获得当前文本数据中包含所有单位文本的若干子节点。

其中，在此步骤505的执行中，针对于封闭集中的一文本数据，首先以此文本数据在头结点下映射的子节点作为当前节点，相对当前节点获取包含下一单位文本的子节点，即下一节点。应当理解，所指的子节点获取，是定位下一节点或者创建下一节点的过程。

即，如果存在包含下一单位文本的下一节点，则定位此节点之后，以此节点作为当前节点，继续在当前节点下进行再下一单位文本在子节点的映射，获得包含再下一单位文本的子节点，以此方式，便可实现文本数据之间相同前缀的共享。

如果不存在包含下一单位文本的下一节点，则在当前节点下创建包含此下一单位文本的下一节点，然后再以此为节点作为当前节点，继续在当前节点下进行再下一单位文本在子节点的映射，获得包含再下一单位文本的子节点。

也就是说，在一个示例性实施例中，步骤505中，按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，包括：

如果当前节点的子节点包含当前文本数据中的下一单位文本，则获得包含下一单位文本的子节点，以与其它文本数据进行相同前缀共享。

在另一个示例性实施例中，步骤505中，按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，还包括：

如果当前节点的子节点并不包含当前文本数据中的下一单位文本，则在当前节点下创建包含下一单位文本的子节点。

在步骤507中，待封闭集中的所有文本数据都在头结点下获得包含所有单位文本的若干子节点，则获得文本数据的前缀搜索树。

通过此示例性实施例，便封闭集中的所有文本数据完成了前缀搜索树的构建，在所构建前缀搜索树中，每一文本数据都能够映射至一节点路径上，故为后续解码的快速进行提供了可能。

基于上述语音识别中的解码方法，与之相对应的，本发明还提供了一种语音识别方法。图6是根据一示例性实施例示出的一种语音识别方法的流程图。在一示例性实施例中，该语音识别方法，如图6所示，至少包括以下步骤。

在步骤610中，根据所进行的语音输入，以帧为单位通过声学模型输出声学特征。

在步骤630中，在所动态生成的前缀搜索树解码所述声学特征，获得声学特征在前缀搜索树上匹配的路径。

在步骤650中，根据匹配的路径获得所输入每一帧语音的解码结果，

在步骤670中，根据解码结果获得所输入语音对应的文本内容，文本内容对应于动态生成所述前缀搜索树的文本数据。

在另一示例性实施例中，该步骤630之前，还包括以下步骤：

根据所发起进行的语音识别获得语音识别指令；

对语音识别指令所对应识别目标所在文本数据动态生成前缀搜索树。

以即时通信工具这一应用中为通讯录实现语音识别为便，对本发明所进行的语音解码过程进行详细阐述。

在即时通信工具中，通过本发明所实现语音解码功能的激活，实现所配置通讯录中一联系人信息的读取获得，进而使得用户能够通过输入一联系人名字的语音，就可以在即时通信工具的页面上获得此联系人在通讯录对应的联系人信息。

即时通信工具中通讯录记录着大量联系人信息，这些联系人信息都是文本数据，因此对于即时通信工具为通讯录实现的语音解码而言，通讯录被配置为指向的封闭集。

图7是根据一示例性实施例示出的语音解码实现架构图。如图7所示的，为获得一联系人信息而输入的语音，将通过声学模型710、前缀搜索树生成过程730二者的配合下，经过beam-search模块750实现解码，获得搜索结果，此搜索结果即为解码结果。

对于声学模型710，可以采用基于字，但不限于字的Connectionist TemporalClassification(CTC)方法实现，也可以采用HMM(Hidden Markov Model，隐马尔可夫模型)+DNN(Deep Neural Networks，深度神经网络模型)等Hybrid(混合模式)声学模型。

对于前缀搜索树生成过程730，则是通过对封闭集动态生成的前缀搜索树而替代语言模型，进而以此为节省所需要耗费的存储空间，实现动态实时生成，也在此基础上得以限制搜索阶段的搜索路径，提高解码实现速度。

对于beam-search模块750，则利用声学模型和生成好的前缀搜索树进行bean-search，即实现搜索空间中的搜索。

具体的，使用封闭集而进行的前缀搜索树生成过程，在一个示例性实施例中，如图8所示。

图8是根据一示例性实施例示出的对前缀搜索树生成过程730的细节进行描述的流程图。在此，将以“字”为单位进行封闭集中文本数据向前缀搜索树的映射。

在前缀搜索生成过程730的实现中，是利用封闭集生成一个前缀搜索树，并且要求生成速度极快。

因此，首先建立树的头结点，如步骤810所示，获得树的头结点，另一方面的，也将获取封闭集中的第一记录作为当前记录，进而即可如步骤830所示的，获得该条记录的第一个字。

以此第一个字为当前字，以头结点为当前节点，判断当前节点的子节点是否包含当前字，如步骤870，如果包含，则获得包含该字的子节点，如步骤880，如果不包含，则如步骤890所示的，进行包含该字的节点创建，并成为当前节点的子节点。

至此，在当前记录中，完成了第一个字向前缀搜索树的映射，对于后续所存在的第二个字、第三个字、……、第n个字(n为记录中字的数量)，则循环执行步骤850至步骤890，以实现当前记录在前缀搜索树中的节点构建。

以此类推，对所有记录均通过上述过程的实现，而实现自身在前缀搜索树中的映射，获得对应于封闭集的前缀搜索树。

在动态生成前缀搜索树之后，beam-search模块750所执行的beam-search过程，如图9所示。

图9是根据一示例性实施例示出的基于封闭集前缀搜索树的beam-search过程的实现示意图。

beam-search过程，是利用预先训练好的声学模型，以及由封闭集动态生成的前缀搜索树，对输入的语音进行beam-search，以获得解码结果。

在所进行的beam-search过程中，首先初始化<pre,next>集合，在初始化所获得的<pre,next>集合中，pre为父结点，next为子节点，如步骤910。

执行步骤920，通过声学模型获得语音下一帧的声学特征，即多维特征所对应的输出向量。

为此输出向量进行前缀搜索树中的搜索。具体而言，对于初始化的<pre,next>集合而言，为输出向量而搜索的路径中，仅存在头结点。因此，以头结点为当前节点，在前缀搜索树中遍历头结点的子节点，获得当前节点下得分最高的beam个子节点，并添加至<pre,next>集合中，如步骤930至步骤940所示的。

然后再以<pre,next>集合中新增的子节点为当前节点，分别为每一当前节点执行步骤930至步骤940，以此类推，至直完成整个前缀搜索树的搜索，获得前若干个得分最高的节点路径，即如步骤950所示的，获得top beam个<pre,next>集合中的节点路径，以此来得到当前一帧语音的解码结果。

在此语音解码的实现中，一方面可以实时动态的对封闭集建立前缀搜索树，另一方面也通过前缀搜索树对搜索路径限制，大大提高识别的准确率和速率。

通过此语音解码的实现，获得了一种低复杂度且实时的新型封闭集动态解码器，进而应用于封闭集的应用场景下，占用空间小。

由此，在此语音解码的实现下，随着对话交互系统、语音控制在终端设备，尤其是在移动终端的应用得以顺畅实现。

比对现有的技术实现，即基于通用语言模型的解码器实现以及基于封闭集语言模型的解码器实现，来进一步进行本发明所实现语音解码的比对。

图10是现有技术实现中基于通用语言模型的解码器实现架构图。如图10所示的，首先需要进行声学模型1010和语言模型1030的训练，以生成解码搜索图，即实现搜索空间(graph)的构建。

利用解码搜索图，即graph 1050对输入语音解码，获得识别结果。最后采用edit-distance度量方法，计算识别结果跟封闭集中每一条记录的距离，距离最近的记录即为解码结果。

在此解码器的实现中，一方面由于采用的是通用语言模型，模型规模非常大，在解码阶段搜索路径非常多，进而导致解码速度缓慢。

其次，通用语言模型和封闭集之间概率模型很可能是不一致的，特别是在实际的应用场景中，进而也将导致解码结果的不准确。

而所使用的edit-distance度量也并不适用于封闭集中匹配的实现。

而通过本发明解码器的实现，去掉了edit-distance度量，而是直接由封闭集动态生成前缀搜索树，由此也得以避免了通用语言模型的使用，得以节省存储空间，提升解码速度以及准确性。

图11是现有技术实现基于封闭集语言模型解码器的架构示意图。在图11的解码器实现中，也是通过声学模型1110和语言模型来实现的graph 1130。

不同之处在于，语言模型是由封闭集文本1151以及实时拉取的离线生成封闭集语言模型1153而动态生成封闭集语言模型1150的。

由此来获得解码结果。此解码器的实现，去掉了edit-distance度量的约束，但是，所进行的封闭集语言模型1150的生成中，如果采用在线方式，则存在实时性缺乏的总量，如果采用离线方式，则需要大量存储空间。

因此仍然无法适用于实际落地的封闭集应用场景。

下述为本发明装置实施例，可以用于执行本发明上述语音解码方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明语音解码方法实施例。

图12是根据一示例性实施例示出的一种语音识别中的解码装置的框图。该语音识别中的解码装置，如图12所示，包括但不限于：数据获取模块1310、前缀搜索树生成模块1330、解码模块1350和解码结果获得模块1370。

数据获取模块1310，用于根据所进行语音识别对应的语音解码范围获取文本数据。

前缀搜索树生成模块1330，用于动态生成所述文本数据的前缀搜索树；

解码模块1350，用于通过所述前缀搜索树解码所述语音识别中声学模型输出的声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径；

解码结果获得模块1370，用于根据匹配的所述路径获得所述语音识别的解码结果。

在一个示例性实施例中，数据获取模块1310包括：

在一个示例性实施例中，前缀搜索树生成模块进一步用于根据所述文本数据之间相同前缀的存在，进行所述相同前缀下所述文本数据对应子节点的创建，所述相同前缀和所创建子节点形成所述文本数据的前缀搜索树。

图13是根据一示例性实施例示出的对前缀搜索树生成模块的细节进行描述的框图。在一示例性实施例中，前缀搜索树生成模块1310，如图13所示，包括但不限于：头结点创建单元1311、首文本子节点映射单元1313、子节点获得单元1315和搜索树获得单元1317。

头结点创建单元1311，用于为所述前缀搜索树创建头结点；

首文本子节点映射单元1313，用于以所述头结点作为当前节点，获得所述当前节点下包含文本数据首个单位文本的子节点；

子节点获得单元1315，用于针对于每一文本数据，循环以获得的所述子节点作为当前节点，按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，直至获得所述当前文本数据中包含所有单位文本的若干子节点；

搜索树获得单元1317，用于待所述封闭集中的所有文本数据都在所述头结点下获得包含所有单位文本的若干子节点，则获得文本数据的前缀搜索树。

在一个示例性实施例中，子节点获得单元1315进一步用于如果当前节点的子节点包含所述当前文本数据中的下一单位文本，则获得包含所述下一单位文本的子节点，以与其它文本数据进行相同前缀共享。

在另一个示例性实施例中，子节点获得单元1315还用于如果当前节点的子节点并不包含所述当前文本数据中的下一单位文本，则在所述当前节点下创建包含所述下一单位文本的子节点。

在一个示例性实施例中，解码结果获得模块1350进一步用于在所进行的语音输入中，持续为语音下一帧输出的声学特征进行所述前缀搜索树中的路径搜索，通过所述路径搜索获得所述声学特征在所述前缀搜索树中匹配的路径，直至所述语音输入结束。

图14是根据一示例性实施例示出的一种语音识别系统的框图。在一示例性实施例中，如图14所示，该语音识别系统至少包括：特征识别模块1510、特征解码模块1530、结果获取模块1550以及内容生成模块1570。

特征识别模块1510，用于根据所进行的语音输入，以帧为单位通过声学模型输出声学特征；

特征解码模块1530，用于在所动态生成的前缀搜索树解码所述声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径；

结果获取模块1550，用于根据匹配的所述路径获得所输入每一帧语音的解码结果；

内容生成模块1570，用于根据所述解码结果获得所输入语音对应的文本内容，所述文本内容对应于动态生成所述前缀搜索树的文本数据。

可选的，本发明还提供一种机器设备，执行图3、图4、图5和图6任一所示的方法的全部或者部分步骤。所述机器设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如上所述的方法。

该实施例中的装置的处理器执行操作的具体方式已经在如上所述的方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介指例如包括指令的存储器204，上述指令可由装置200的处理器218执行以完成上述方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别中的解码方法，其特征在于，所述方法包括：

根据所进行语音识别对应的语音解码范围获取文本数据；

动态生成所述文本数据的前缀搜索树；

所述动态生成所述文本数据的前缀搜索树，包括：

为所述前缀搜索树创建头结点；

以所述头结点作为当前节点，获得所述当前节点下包含所述文本数据首个单位文本的子节点；

针对于每一文本数据，循环以获得的所述子节点作为当前节点，按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，直至获得当前文本数据中包含所有单位文本的若干子节点；

待封闭集中的所有文本数据都在所述头结点下获得包含所有单位文本的若干子节点，则获得所述文本数据的前缀搜索树；

根据匹配的所述路径获得所述语音识别的解码结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所进行语音识别对应的语音解码范围获取文本数据，包括：

根据所发起进行的语音识别获得语音识别指令；

按照所述语音解码范围获取文本数据。

3.根据权利要求1所述的方法，其特征在于，所述按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，包括：

4.根据权利要求1或3所述的方法，其特征在于，所述按照设定单位进行文本数据之间相同前缀共享而获得当前节点下包含下一单位文本的子节点，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过所述前缀搜索树解码所述语音识别中声学模型输出的声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据匹配的所述路径获得所述语音识别的解码结果，包括：

7.一种语音识别方法，其特征在于，所述方法包括：

所述前缀搜索树的动态生成包括：

为所述前缀搜索树创建头结点；

以所述头结点作为当前节点，获得所述当前节点下包含文本数据首个单位文本的子节点；

根据匹配的所述路径获得所输入每一帧语音的解码结果；

8.根据权利要求7所述的方法，其特征在于，所述在所动态生成的前缀搜索树解码所述声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径，之前，所述方法还包括：

根据所发起进行的语音识别获得语音识别指令；

9.一种语音识别中的解码装置，其特征在于，所述装置包括：

前缀搜索树生成模块，用于为所述前缀搜索树创建头结点；

10.根据权利要求9所述的装置，其特征在于，所述数据获取模块包括：

11.一种语音识别系统，其特征在于，所述系统包括：

特征解码模块，用于在所动态生成的前缀搜索树解码所述声学特征，获得所述声学特征在所述前缀搜索树上匹配的路径；所述前缀搜索树的动态生成包括：

为所述前缀搜索树创建头结点；

12.一种机器设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至8中任一项所述的方法。