CN105161095A

CN105161095A - 语音识别语法树的构图方法及装置

Info

Publication number: CN105161095A
Application number: CN201510455696.1A
Authority: CN
Inventors: 彭守业; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2015-12-16
Anticipated expiration: 2035-07-29
Also published as: CN105161095B; WO2017016126A1

Abstract

本发明公开了一种语音识别语法树的构图方法及装置，其中所述方法包括：确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词；根据预定语法路径中的槽顺序和槽对应的字词，形成语法语句，并解析语法语句中字词的语音，确定对应的声学模型；根据所述应用场景的预定语法路径中的槽构建语法树，其中，槽与语法树中的节点对应，且节点中存储该槽的槽索引，所述槽索引用于索引对应字词的声学模型存储位置。本发明实施例只需要确定与应用场景对应的槽，为每个槽赋予对应的至少一个字词槽中，通过构建与槽对应的语法树，在节点中存储该槽的槽索引，从而完成构图过程，能够大大节约内存空间和构图消耗时间。

Description

语音识别语法树的构图方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别语法树的构图方法及装置。

背景技术

相对于联网语音识别的场景，同样有非常多的语音识别需求，需要在本地完成，例如用户使用语音输入进行拨打电话时，即可通过语音输入“打电话给张三”，移动终端接收到上述语音输入后，根据现有的语音识别技术即可匹配得到文字信息，从而完成通话操作。

本地语音识别也需要在识别之前对预识别的文本进行语法树构图，即建立用户输入语音的所有可能路径，在进行语音识别时，遍历整个构图空间，结合语音识别算法，查找与输入语音最佳的匹配路径，该路径会返回识别的最终结果。

目前，在构图时，大都采用权重有限状态机语音识别构图算法，该算法会将所有可能的路径穷举展开。例如，对于上述三条语句“打电话给张三”、“给张三打电话”和“拨打张三的电话”，在采用权重有限状态机语音识别构图算法构图时，将会构建三条独立的路径，与语句“打电话给张三”、“给张三打电话”和“拨打张三的电话”分别对应。

由于构造的三条路径相互独立，且存在相同关键词“张三”或“电话”，需要重复存储其对应的声学模型和语音模型，因此，当数据量较大时，构图消耗的内存也较大，另外，为了使构图更加紧凑，必须进行多次遍历，寻找相同节点进行合并，导致构图消耗时间长。

发明内容

本发明实施例提供一种语音识别语法树的构图方法及装置，能够节约构图占用内存空间和构图消耗时间。

第一方面，本发明实施例提供了一种语音识别语法树的构图方法，包括：

确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词；

根据预定语法路径中的槽顺序和槽对应的字词，形成语法语句，并解析语法语句中字词的语音，确定对应的声学模型；

根据所述应用场景的预定语法路径中的槽构建语法树，其中，槽与语法树中的节点对应，且节点中存储该槽的槽索引，所述槽索引用于索引对应字词的声学模型存储位置。

第二方面，本发明实施例还提供一种语音识别语法树的构图装置，包括：

槽确定模块，用于确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词；

声学模型模块，用于根据预定语法路径中的槽顺序和槽对应的字词，形成语法语句，并解析语法语句中字词的语音，确定对应的声学模型；

语法树构建模块，用于根据所述应用场景的预定语法路径中的槽构建语法树，其中，槽与语法树中的节点对应，且节点中存储该槽的槽索引，所述槽索引用于索引对应字词的声学模型存储位置。

本发明实施例，确定与应用场景对应的槽，为每个槽赋予对应的至少一个字词，基于槽构建语法树，而相同槽所对应字词的声学模型等信息无需反复存储，可通过槽索引至不同的语法路径中，所以完成构图过程时，能够节约内存空间和构图消耗时间。

附图说明

图1A为本发明实施例一提供的语音识别语法树的构图方法的流程示意图；

图1B为本发明实施例一提供的语音识别语法树的构图方法中的第一种语法树结构示意图；

图1C为本发明实施例一提供的语音识别语法树的构图方法中的第二种语法树结构示意图；

图2为本发明实施例二提供的语音识别语法树的构图装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明实施例提供的语音识别语法树的构图方法的执行主体，可为本发明实施例提供的语音识别语法树的构图装置，该装置可以集成于移动终端设备(例如，智能手机、平板电脑等)，也可以集成于服务器中，该语音识别语法树的构图装置可以采用硬件或软件实现。本发明实施例提供的语音识别语法树的构图方法尤为适用于本地语音识别，能够适应数量有限的语音指令的内容识别，但也可以适用于在线语音识别，相应增加预定语法路径和槽的数量即可，下面将结合实施例进行说明。

实施例一

图1A为本发明实施例一提供的语音识别语法树的构图方法的流程示意图，如图1A所示，具体包括：

S11、确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词；

其中，本实施例中的应用场景是用户控制终端操作的常用场景，典型的应用场景例如为，打电话、导航、发短信、以及搜索等。每个应用场景可能涉及至少一条控制指令，通常会涉及多条控制指令，且指令的实质内容往往相同。本发明实施例将以打电话应用场景为例进行说明。

例如，在打电话应用场景下，一般可涉及到的操作指令包括给张圆圆打电话、打电话给张圆圆、拨打张圆圆的电话等，则可根据人工经验或数据挖掘，确定该应用场景下的槽包括：$SIL、$to、$action、$de、$name和$phone，并为每个槽赋予与所述打电话应用场景相关联的至少一个字词：

$SIL＝sil，该槽为特殊的起始槽，用于标注预定语法路径的起始点；

$to＝给；

$action＝打|拨打；

$de＝的；

$name＝张圆圆|张亚媛|朱大元|周小元；

$phone＝电话；

其中，每个槽可用数组来表示，等号右边为与该槽所关联的字词信息，包括至少一个字词。

S12、根据预定语法路径中的槽顺序和槽对应的字词，形成语法语句，并解析语法语句中字词的语音，确定对应的声学模型；

其中，所述预定语法路径可预先设定，具体由上述步骤11中确定的槽按照一定语法顺序构成，按顺序读取槽中的字词，可形成语法语句。

具体的，针对上述打电话应用场景，假设预先定义如下三条语法路径：

($SIL$to$name$action$phone)

($SIL$action$phone$to$name)

($SIL$action$name$de$phone)

按照上述预定语法路径中的槽顺序读取槽中的字词，可对应形成多条语法语句，例如：

给张圆圆打电话

打电话给张圆圆

打张圆圆的电话

而后，对语法语句中的字词进行解析，得到对应的语音信息。例如，通过解析分别得到上述三条语法语句中各字词的语音信息，并确定对应的声学模型，以便于在语音识别中快速定位到对应的语法语句。例如确定的声学模型如下：

sil-g+eig-ei+zhei-zh+angzh-ang+yang-y+uangy-uang+yuang-y+uangy-uang+duang-d+ad-a+da-d+iand-ian+hian-h+uah-ua+sil；

sil-d+ad-a+da-d+iand-ian+hian-h+uah-ua+gua-g+eig-ei+zhei-zh+angzh-ang+yang-y+uangy-uang+yuang-y+uangy-uang+sil；

sil-d+ad-a+zha-zh+angzh-ang+yang-y+uangy-uang+yuang-y+uangy-uang+duang-d+ed-e+d-e-d+iand-ian+hian-h+uah-ua+sil。

S13、根据所述应用场景的预定语法路径中的槽构建语法树，其中，槽与语法树中的节点对应，且节点中存储该槽的槽索引，所述槽索引用于索引对应字词的声学模型存储位置。

例如，根据上述三条预定语法路径($SIL$to$name$action$phone)、($SIL$action$phone$to$name)和($SIL$action$name$de$phone)，可初步构建如图1B所示的语法树，每个节点中存储该槽的槽索引。$SIL、$to、$action、$de、$name和$phone即可以作为槽对应的槽索引，可以是指针或存储地址，指向该槽中字词的声学模型以及其他信息。

本实施例，确定与应用场景对应的槽，为每个槽赋予对应的至少一个字词，基于槽构建语法树，而相同槽所对应字词的声学模型等信息无需反复存储，可通过槽索引至不同的语法路径中，所以完成构图过程时，能够节约内存空间和构图消耗时间。

示例性的，在上述实施例的基础上，所述方法还包括：

按照预定语法路径中槽的顺序，确定父槽和子槽之间的槽联接，并存储所述槽联接的声学模型；

将所述槽联接的槽联接索引存储在语法树中子槽对应的节点中，所述槽联接索引用于索引所述槽联接的声学模型的存储位置。

其中，所述槽联接表征了父槽和子槽之间的关联信息，在语法树构图时，以上述例子中的字词“打电话”为例，其中“打”的最后一个声学信息是d-a+*，“电话”的第一个声学信息是*-d+ian，*代表任意词的意思，但是单独的声学信息，无法确认*的内容，只有通过槽联接才能把他们展成：d-a+d(*被展成电话的声母)，a-d+ian(*被展成打的韵母)。

由于后文的发音会影响前文的发音，所以记录字词的声学上下文关系，有助于进行语音识别。所以对于“打电话”需构建“d-a+d”这样的声学模型。当槽中包括多个字词时，相邻槽的槽联接将包括多个声学模型。例如，$to$name的槽联接中将包括“给张圆圆”、“给李四”、“给王五”等多个声学模型。

如果多条预定语法路径中有重复的槽联接，则只需要将槽联接的声学模型存储一份即可，在构建语法树时，在子槽对应的节点中存储槽联接索引。这样可以节省重复存储槽联接声学模型的内存和构图消耗时间。

例如，对于上述预定语法路径($SIL$to$name$action$phone)中的父槽$to和子槽$name，和($SIL$action$phone$to$name)中的父槽$to和子槽$name，只需要存储预定语法路径($SIL$to$name$action$phone)中的父槽$to和子槽$name的槽联接即可，在存储($SIL$action$phone$to$name)中的父槽$to和子槽$name的槽联接时，由于$to$name的槽联接已经构建并存储，所以只需存储上述预定语法路径($SIL$to$name$action$phone)中的父槽$to和子槽$name的槽联接对应的槽联接索引即可。

在上述实施例的基础上，所述根据所述应用场景的预定语法路径中的槽构建语法树具体包括：

将所述应用场景的各预定语法路径的起始槽作为语法树的根节点；

将每条所述预定语法路径形成所述语法树的一条深度路径，预定语法路径中的槽与深度路径中的节点对应，且在节点中存储槽索引和与父槽之间的槽联接索引，在每条深度路径的尾节点存储结束标识符；

将各深度路径中位于相同层的相同槽对应的节点进行合并。

具体的，为进一步节省构树所占的内存空间，同样以上述实施例中打电话应用场景为例，如图1C所示，将所述各预定语法路径的SIL作为起始槽，形成语法树的根节点，且对于预定语法路径中相同层的相同槽对应的节点进行合并，例如，预定语法路径($SIL$action$phone$to$name)中的槽$action和预定语法路径($SIL$action$name$de$phone)中的槽$action，即可进行合并。或者，起始槽也可以为空槽，自动形成一空槽作为该应用场景下各预定语法路径的根节点。

在上述实施例的基础上，按照用户的说话习惯，可以总结出各预设语法路径中槽的特点，添加相应的标识，以便进一步节约构图资源。具体是添加如下至少一种标识，可以给槽添加一个标识，也可以同时添加多个：

添加资料标识(_CORE),例如$name_CORE，即，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

确定与应用场景对应的资料类槽，为所述资料类槽添加资料标识作为槽的节点信息，且为资料类槽赋予设定资料库中的字词，其中，所述设定资料库至少包括：通信录姓名库、通信录电话号码库、公共电话库、或建筑物名称库。

其中，通信录姓名库、通信录电话号码库、公共电话库、或建筑物名称库均可以从移动终端中获取。

例如，当当前应用场景为打电话应用场景时，资料类槽包括通信录姓名库，具体可从终端的通信录中进行获取，例如包括：张圆圆、张亚媛、朱大元和周小元等。

添加循环标识(_LOOP),例如$number_LOOP，即，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

确定与应用场景对应的循环类槽，为所述循环类槽添加循环标识作为槽的节点信息，且为所述循环类槽赋予对应的至少两个字词，其中，所述循环标识用于指示在识别过程中，循环采用循环类槽的声学模型进行字词识别。

例如，以打电话应用场景为例，可在该类槽中存储0-9中的数字，在语音识别时，用于循环识别用户输入的电话号码信息。可以通过在循环类槽之后设置静音槽$SIL，当识别到出现静音时，则循环结束。

添加可选标识(_OPT)，即，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

确定与应用场景对应的可选类槽，为所述可选类槽添加可选标识作为槽的节点信息，且为所述可选类槽赋予对应的可选字词，其中，所述可选标识用于指示在识别过程中，可选类槽的声学模型与同一深度路径中下一个槽的声学模型同时进行语音识别。

此类槽通常应用于简单的场合，即只在一条语法路径中只包含一个或两个可选的字词情况下使用。对此类槽进行构图时，会将一条预定语法路径展成两条或多条。例如，可将上述槽$de标识为可选类槽，即在构建语法树时会构建如下两条语法语句“打张三的电话”和“打张三电话”对应的语法路径。在语音识别时，将同时支持语句“打张三的电话”和“打张三电话”，即，对于$SIL$action$name$de$phone预定语法路径所对应语法树的深度路径中，可以将槽$de和槽$phone同时进行语音识别，即可支持两条语音识别。

添加跳转标识(_JMP&_TAG)，即，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

确定与应用场景对应的跳转类槽，为所述跳转类槽添加跳转标识作为槽的节点信息，且为所述跳转类槽赋予对应的字词，其中，所述跳转标识用于指示在识别过程中，跳转类槽的识别之后跳转至指定槽进行语音识别。

例如，对于如下运算场景，将运算槽$yunsuan和数字槽$number设置跳转标识，即$yunsuan_TAG1$number_LOOP_JMP1；其中，$yunsuan＝加|减|乘|除；$number＝0|1|2|3|4|5|6|7|8|9；对于如下输入语句进行语音识别时，($SIL$number_LOOP$yunsuan_TAG1$number_LOOP_JMP1$SIL)，可以实现任意多的运算功能。

例如对于语句1+56-45/324*1000，其识别过程为，首先在数字槽$number_LOOP识别出数字1，然后在运算槽$yunsuan识别出+，然后跳转至数字槽$number_LOOP循环识别出数字56，然后跳转至运算槽$yunsuan识别出-，等等，依次类推，即可识别出上述计算公式。

其中，在某个应用场景下，人工比较容易获知与该场景相关的语境，可根据相关语句采用人工添加的方式对预定语法路径中的指定槽添加跳转标识。该类槽可用于识别较为复杂的语法语句。在某些语法语句下，该类槽等同于多个可选槽。例如，以下2个语法是等效的：$SIL$action$name$de_OPT$phone；$SIL$action$name_JMP2$de$phone_TAG2。

添加声学加强标识(_WGT),例如$kwd_WGT，即，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

确定与应用场景对应的声学加强类槽，为所述声学加强类槽添加声学加强标识作为槽的节点信息，且为声学加强类槽赋予对应的字词，其中，所述声学加强标识用于指示在识别过程中，增加声学加强类槽的声学识别得分。

此类槽一般应用于当语法树的语法路径非常多的情况(例如几百条)，用户可能更关注其中某条预定语法路径的检出率，则可以对该语法路径的槽都添加声学加强标识，则在进行语音识别时，该路径会由于得分高而更容易被检出，从而能够提高该路径的识别精度。

添加语言加强标识(_LM),例如$ime_LOOP_LM，即，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

确定与应用场景对应的语言加强类槽，为所述语言加强类槽添加语言加强标识作为槽的节点信息，且为语言加强类槽赋予对应的字词，其中，所述语言加强标识用于指示在识别过程中，增加语言加强类槽的语言识别得分。

例如，对于建立的如下槽$ime＝井|经|冈山；当用户输入语音“井冈山”，首先确定该语音对应的语法路径，即($SIL$ime_LOOP$SIL)，根据声学模型可识别出对应的字词“经冈山”和“井冈山”，由于他们的声学模型得分一样，所以将无法区分用户需要的“井冈山”。但是，通过引入语言模型得分，在语言模型中可知“井冈山”对应的语言模型得分要高于“经冈山”对应的语言模型得分，从而快速准确的匹配到用户需要有的结果。上述各实施例同样通过确定与应用场景对应的槽，为每个槽赋予对应的至少一个字词，基于槽构建语法树，而相同槽所对应字词的声学模型等信息无需反复存储，可通过槽索引至不同的语法路径中，所以完成构图过程时，能够节约内存空间和构图消耗时间。

另外，通过对槽进行添加标识，可提高语音识别速率。

实施例二

图2为本发明实施例二提供的语音识别语法树的构图装置的结构示意图，如图2所示，具体包括：槽确定模块21、声学模型确定模块22和语法树构建模块23；

所述槽确定模块21用于确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词；

所述声学模型模块22用于根据预定语法路径中的槽顺序和槽对应的字词，形成语法语句，并解析语法语句中字词的语音，确定对应的声学模型；

所述语法树构建模块23用于根据所述应用场景的预定语法路径中的槽构建语法树，其中，槽与语法树中的节点对应，且节点中存储该槽的槽索引，所述槽索引用于索引对应字词的声学模型存储位置。

本实施例所述的语音识别构图装置用于执行上述各实施例所述的语音识别构图方法，其技术原理和产生的技术效果类似，这里不再累述。

示例性的，在上述实施例的基础上，所述装置，其特征在于，还包括：槽联接确定模块24和槽联接存储模块25；

所述槽联接确定模块24用于按照预定语法路径中槽的顺序，确定父槽和子槽之间的槽联接，并存储所述槽联接的声学模型；

所述槽联接存储模块25用于将所述槽联接的槽联接索引存储在语法树中子槽对应的节点中，所述槽联接索引用于索引所述槽联接的声学模型的存储位置。

示例性的，在上述实施例的基础上，所述语法树构建模块23具体用于：

将所述应用场景的各预定语法路径的起始槽作为语法树的根节点；将每条所述预定语法路径形成所述语法树的一条深度路径，预定语法路径中的槽与深度路径中的节点对应，且在节点中存储槽索引和与父槽之间的槽联接索引，在每条深度路径的尾节点存储结束标识符；将各深度路径中位于相同层的相同槽对应的节点进行合并。

示例性的，在上述实施例的基础上，所述槽确定模块21具体用于：

上述各实施例所述的语音识别构图装置同样用于执行上述各实施例所述的语音识别构图方法，其技术原理和产生的技术效果类似，这里不再累述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别语法树的构图方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，根据所述应用场景的预定语法路径中的槽构建语法树包括：

将各深度路径中位于相同层的相同槽对应的节点进行合并。

4.根据权利要求1～3任一项所述的方法，其特征在于，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

5.根据权利要求1～3任一项所述的方法，其特征在于，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

6.根据权利要求1～3任一项所述的方法，其特征在于，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

7.根据权利要求1～3任一项所述的方法，其特征在于，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

8.根据权利要求1～3任一项所述的方法，其特征在于，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

9.根据权利要求1～3任一项所述的方法，其特征在于，确定与应用场景对应的槽，且为每个槽赋予对应的至少一个字词包括：

10.一种语音识别语法树的构图装置，其特征在于，包括：

声学模型确定模块，用于根据预定语法路径中的槽顺序和槽对应的字词，形成语法语句，并解析语法语句中字词的语音，确定对应的声学模型；

11.根据权利要求10所述的装置，其特征在于，还包括：

槽联接确定模块，用于按照预定语法路径中槽的顺序，确定父槽和子槽之间的槽联接，并存储所述槽联接的声学模型；

槽联接存储模块，用于将所述槽联接的槽联接索引存储在语法树中子槽对应的节点中，所述槽联接索引用于索引所述槽联接的声学模型的存储位置。

12.根据权利要求10所述的装置，其特征在于，所述语法树构建模块具体用于：

13.根据权利要求10～12任一项所述的装置，其特征在于，所述槽确定模块具体用于：

14.根据权利要求10～12任一项所述的装置，其特征在于，所述槽确定模块具体用于：

15.根据权利要求10～12任一项所述的装置，其特征在于，所述槽确定模块具体用于：

16.根据权利要求10～12任一项所述的装置，其特征在于，所述槽确定模块具体用于：

17.根据权利要求10～12任一项所述的装置，其特征在于，所述槽确定模块具体用于：

18.根据权利要求10～12任一项所述的装置，其特征在于，所述槽确定模块具体用于：