CN106294460A

CN106294460A - 一种基于字和词混合语言模型的汉语语音关键词检索方法

Info

Publication number: CN106294460A
Application number: CN201510291079.2A
Authority: CN
Inventors: 张鹏远; 王旭阳; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2017-01-04
Anticipated expiration: 2035-05-29
Also published as: CN106294460B

Abstract

本发明提出了一种基于字和词混合语言模型的关键词检索方法及系统，所述方法包含：步骤101)，根据词性区分训练语料中非常见词和常见词，为组成非常见词的各个字添加标识信息，将原训练语料划分为由常见词和标识非常见词信息的符号构成的新语料；根据新语料构建词的语言模型并根据原训练语料按单字重新训练一个语言模型进而得到字的语言模型；步骤102)构建主解码网络和子解码网络，基于主解码网络和子解码网络进行关键词检索；其中，当进行解码时由所述词的语言模型决定是否进入带有标识非常见词信息的节点，且带有标识非常见词信息的节点连接一个由全部单字构成的子解码网络，当进入子解码网络后由所述字的语言模型限制搜索范围。

Description

一种基于字和词混合语言模型的汉语语音关键词检索方法

技术领域

本发明属于语音识别领域，具体地说，涉及一种基于字和词混合语言模型的汉语语音关键检索方法，可用于语音关键词检索技术，提高非常见词的检索性能。

背景技术

在语音关键词检索系统中，在不提供语音模板的情况下，常用的有两种方法，一种是声学关键词检测，这种方法将由关键词构成的解码网络和垃圾音素(filler)构成的网络并联，但其缺点是解码网络随着关键词列表的改变而变化；另外一种是基于大词汇量连续语音识别的方法，是目前最为流行的方法。我们定义那些不在识别词典中并且在训练集中未出现或出现次数很少的词汇为非常见词，这些词汇一般是命名实体，如人名，地名和机构团体名等。尽管汉语中任意词汇都可以通过单字拼接而得到，但是由于语言模型训练数据的稀疏性，再加上解码过程中为了平衡声学模型得分和语言模型得分的大小而加入的语言模型尺度因子(LM scale)，这些因素共同导致并放大了常见词和非常见词语言模型得分的差距，因此在解码过程中包含非常见词的正确的路径易被剪枝，从而影响到检索的性能。如果识别系统使用基于字词如音节或音素的识别词典，可以规避非常见词的问题，但是对于常见词的检索性能带来一定的损失。

非常见词往往包含丰富的信息，是用户关注的重心，因此非常见词的检索性能成为了语音关键词检索应用的一个瓶颈，如何解决这一问题，就显得格外重要。

发明内容

本发明的目的在于克服传统方法在非常见词识别和检索的不足，提出一种通过改变语言模型和解码结构以提高非常见词检索性能的方法。

为了实现上述目的，本发明提供一种基于字和词混合语言模型的关键词检索方法，所述方法包含：

步骤101)

根据词性区分训练语料中非常见词和常见词，为组成非常见词的各个字添加标识信息，将原训练语料划分为由常见词和标识非常见词信息的符号构成的新语料；

根据新语料构建词的语言模型并根据原训练语料按单字重新训练一个语言模型进而得到字的语言模型；

步骤102)

构建主解码网络和子解码网络，基于主解码网络和子解码网络进行关键词检索；

其中，主解码网络由识别词典构建，所述子解码网络在主解码网络中添加一个带有标识非常见词信息的节点；当进行解码时由所述词的语言模型决定是否进入带有标识非常见词信息的节点，且带有标识非常见词信息的节点连接一个由全部单字构成的子解码网络，当进入子解码网络后由所述字的语言模型限制搜索范围。

可选的，上述步骤103)还包含通过添加对进入子解码空间的惩罚值来控制在子解码空间的次数的步骤。

上述步骤103)还包含在子解码空间中使用一元概率进行解码的步骤。

上述步骤101)具体为：使用词性标注工具对训练集进行处理，将标注为人名、地名和机构团体名的词汇转为使用“OOV”标记的词汇，使用srilm工具训练一个词的语言模型。

上述步骤102)具体包含：

步骤102-1)将“OOV”标识加入识别词典构建主解码网络，在主解码网络中使用词的语言模型进行解码；当解到“OOV”标识时，进入子解码网络并加入惩罚，该子解码网络由全部单字构成，同时使用字的一元语言模型限制搜索范围；

步骤102-2)根据由解码产生的多候选结果建立的索引进行检索。

此外，本发明还提供了一种基于字和词混合语言模型的关键词检索系统，其特征在于，所述系统包含：

划分模块，用于根据词性将原训练语料中的词区分非常见词和常见词，并为组成非常见词的各个字添加标识信息，进而将原训练语料变为由常见词和标识非常见词信息的符号构成的新语料；

语言模型构建模块，用于根据新训练语料构建词的语言模型并根据原训练数据按单字重新训练一个字的语言模型；

解码网络构建模块，用于构建主解码网络和子解码网络；

解码执行模块，用于在解码过程中由词的语言模型决定是否进入带有标识非常见词信息的节点，该标识非常见词信息的节点连接一个由全部单字构成的子解码网络，进入子解码网络后由字的语言模型限制搜索范围。

与现有技术相比，本发明优点：在解码过程中，通过添加“OOV”标识使得包含非常见词的路径更容易被保存下来，而不是在正确的位置由于语言模型得分突变被剪枝；通过添加对进入子解码空间的惩罚值来控制在子解码空间的次数；在子解码空间中使用一元概率一方面加速了解码，另一方面也使得解码结果更偏向常见字，而且不使用历史信息进行限制，突出了声学模型的区分度，这也是符合逻辑的。

附图说明

图1本发明实施例在训练集里添加“OOV”标识的示意图；

图2本发明实施例提供的主解码网络和子解码网络构建示意图；

图3本发明实施例提供的基于字和词混合语言模型的解码流程示意图。

具体实施方式

下面对本发明作进一步地描述。

本发明提供的方法首先根据词性区分训练语料中非常见词和常见词，得到非常见词出现的统计规律；在解码网络中添加一个非常见词的节点，其后连接一个由全部单字构成的子解码网络，在解码过程中由词的语言模型决定是否进入非常见词节点，进入后由字的语言模型限制搜索范围，从而缓解由于词语言模型的稀疏造成的正确解码路径被剪枝，进而提高了非常见词的检索性能。具体描述如下：

(1)如图1所示，使用词性标注工具对训练集进行处理，将标注为人名、地名和机构团体名的词汇转为使用“OOV”标记的词汇，使用srilm工具根据传统的ngram算法训练一个词的语言模型。

(2)对于原训练数据，按单字重新训练一个语言模型。

(3)将“OOV”标识加入识别词典构建主解码网络，在主解码网络中使用词的语言模型进行解码；当解到“OOV”标识时，进入子解码网络并加入一定的惩罚，该网络由全部单字构成，同时使用字的一元语言模型限制搜索范围。解码过程采用令牌传递算法在动态解码器上实现。

在解码过程中，分别在主解码网络和子解码网络中采用令牌传递算法进行解码。其中，在主解码网络中使用词的语言模型限制搜索范围，在子解码网络中使用字的语言模型限制搜索范围。解码开始时，令牌首先在主解码网络中传递。当令牌传递到带有标识非常见词信息的节点时，进入子解码网络，同时加入相应的罚值以限制进入子解码网络的次数；令牌在退出子解码网络后回到主解码网络的根节点。对于在主解码网络中未进入子解码网络的令牌，在传递到当前词尾节点后同样返回到主解码网络的根节点。

(4)根据由解码产生的多候选结果建立的索引进行检索。

可选的上述训练字和词混合语言模型

如图1所示，首先将训练集数据通过词性标注工具进行处理，将标注为人名、地名和机构团体名的词汇转为带有“OOV”标识的符号，替换方法为一个符号替换一个字，这是因为其后接入的子解码网络是由单字空间构成的。然后将“OOV”标识加入识别词典，并使用srilm工具训练一个词的三元语言模型。同时，使用原训练数据训练得到一个字的一元语言模型。

可选的，上述主解码网络和子解码网络的构建

如图2所示，主解码网络是由识别词典中所有的词构成，包括了“OOV”；在“OOV”之后，接入子解码网络，该网络由所有单字构成，到达子解码网络终点后同其他词一样返回主解码网络的根节点。因此该子解码网络是可重入的。

可选的，上述基于字和词混合语言模型的解码流程

令牌传递模块：令牌传递到“OOV”标识的符号时，进入子解码网络，同时施加一定的惩罚值，防止其进入次数过多；在退出子解码网络后，令牌返回主解码网络的根节点，这与其他词节点上的令牌表现一致。词的语言模型作用于主解码网络，使用三元模型可以更充分地表现上下文的统计规律；字的语言模型作用于子解码网络，使用一元模型，一方面是为了限制令牌传递范围，防止其过度膨胀，另一方面避免了上下文的限制，突出声学模型的作用。

语言模型得分计算：在包含“OOV”标识的路径上，语言模型得分的计算如公式1所示:

p (c_{1}, . . ., c_{m} | oov) = Π_{j = 1}^{m} α \cdot p (c_{j}) - - - (2)

其中，w_i是当前词，h_i是历史信息，c_j代表单字。计算主要分为两个部分：首先是在词级别的三元概率累积；在字层面使用一元概率，同时加入惩罚值。

本发明实验数据总共为时长5小时的电话交谈语音。测试语音为采样率8000HZ、单声道、16bit的语音数据。关键词列表包含100个常见词和24个分常见词。测试结果如下表：

由表中可以看出，采用本发明的方法后，对于非常见词检索性能有大约11.3％的提升，而并不影响常见词的检索性能。同时，注意到在采用本发明后索引大小有一定的增加，这也意味着，相比于基线系统，本发明的识别系统给出的多候选结果信息更加丰富，因而能够对非常见词的检索性能带来提升。

此外，本发明还提供了一种基于字和词混合语言模型的关键词检索系统，所述系统包含：

解码网络构建模块，用于构建主解码网络和子解码网络；

可选的，上述划分模块进一步包含：

标注子模块，用于使用词性标注工具对原训练语料进行词性标注，将原语料中词汇分类，所述分类规则包含：将词分别标为名词、动词、形容词和代词，且每种词类下又包含若干小类，其中，将名词进一步划分为包含人名、地名和机构团体名的非常见词，其他名词作为常见词；

新语料获取子模块，用于将名词、动词、形容词和代词中标为非常见词的每个字转为同一个标识非常见词信息的符号“OOV”，得到转换后的新语料。

上述语言模型构建模块进一步包含：

词训练的语言模型构造子模块，用于将标识非常见词信息的符号“OOV”加入识别词典作为一个词，使用ngram方法在新语料上训练词的语言模型；

字语言模型构造子模块，用于根据原语料训练字的语言模型。

上述解码网络构建模块进一步包含：

主解码网络构建模块，用于由识别词典通过前缀树的形式构建而成，包括一个标识非常见词信息的节点，该标识非常见词信息的节点的词尾节点与子解码网络连接，其他所有词尾节点与根节点连接以支持网络重入；

子解码网络构建模块，用于由全部单字通过前缀树的形式构建而成，所有词尾节点连接到主解码网络的根节点以支持网络重入。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于字和词混合语言模型的关键词检索方法，所述方法包含：

步骤101)

步骤102)

2.根据权利要求1所述的基于字和词混合语言模型的关键词检索方法，其特征在于，所述步骤102)还包含通过添加对进入子解码空间的惩罚值来控制在子解码空间的次数的步骤。

3.根据权利要求1所述的基于字和词混合语言模型的关键词检索方法，其特征在于，所述步骤102)还包含在子解码空间中使用一元概率进行解码的步骤。

4.根据权利要求1所述的基于字和词混合语言模型的关键词检索方法，其特征在于，所述步骤101)具体为：使用词性标注工具对训练集进行处理，将标注为人名、地名和机构团体名的词汇转为使用“OOV”标记的词汇，使用srilm工具训练一个词的语言模型。

5.根据权利要求4所述的基于字和词混合语言模型的关键词检索方法，其特征在于，所述步骤102)具体包含：

6.一种基于字和词混合语言模型的关键词检索系统，其特征在于，所述系统包含：

解码网络构建模块，用于构建主解码网络和子解码网络；

7.根据权利要求6所述的基于字和词混合语言模型的关键词检索系统，其特征在于，所述划分模块进一步包含：

8.根据权利要求6所述的基于字和词混合语言模型的关键词检索系统，其特征在于，所述语言模型构建模块进一步包含：

9.根据权利要求6所述的基于字和词混合语言模型的关键词检索系统，其特征在于，所述解码网络构建模块进一步包含：