CN103971677B

CN103971677B - 一种声学语言模型训练方法和装置

Info

Publication number: CN103971677B
Application number: CN201310040085.1A
Authority: CN
Inventors: 陆读羚; 李露; 饶丰; 陈波; 卢鲤; 张翔; 王尔玉; 岳帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-02-01
Filing date: 2013-02-01
Publication date: 2015-08-12
Anticipated expiration: 2033-02-01
Also published as: BR112015018205A2; JP5901001B1; BR112015018205B1; WO2014117548A1; TWI512719B; CN103971677A; CA2899532C; CA2899532A1; TW201432669A; JP2016513269A

Abstract

本发明实施方式提出一种声学语言模型训练方法和装置。方法包括：利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。本发明实施方式扩大了语言模型囊括的词汇数量，从而提高了语音识别系统的识别准确率。

Description

一种声学语言模型训练方法和装置

技术领域

本发明实施方式涉及自然语言处理技术领域，更具体地，涉及一种声学语言模型训练方法和装置。

背景技术

随着计算机使用的日益普及，人们越来越期望能够与计算机直接进行语言交流，因为语言是人类进行沟通最方便、快捷、有效的方式。语音识别技术就是让计算机通过识别和理解过程，把人类语音信号转变为相应文本的一项技术，语言模型在其中扮演着提高语音识别正确率的重要角色。

由于硬件性能和软件算法的局限，当前语音识别系统对语言模型大小有比较严格的限制。与此相对，语言模型随包含词汇数量的增加，其模型大小呈指数级增长。基于这两个原因，语音识别系统可容纳的词汇数量是不能无限扩充的。当前技术条件下，语音识别系统的词表容量上限在十几万的量级。对于词表之外的词汇，语音识别系统的识别准确率会下降很多。

而且，在正常语言环境下，存在着百万量级的低频词汇。它们或者受关注时间较短（影视剧名），或者受限于地域（餐馆饭店名)，或者仅出现于某一专业领域（专业术语），等等多种因素导致，单个词汇统计显著性很小，但整体数量庞大的低频词汇现象。

因此，如何在不增加语言模型大小，以及尽量不损失模型计算精度的条件下，扩大语言模型囊括的词汇数量是一个迫切需要解决的技术问题。

发明内容

本发明实施方式提出一种声学语言模型训练方法，以扩大语言模型囊括的词汇数量，从而语音识别系统的识别准确率。

本发明实施方式提出一种声学语言模型训练装置，以扩大语言模型囊括的词汇数量，从而提高语音识别系统的识别准确率。

本发明实施方式的技术方案如下：

一种声学语言模型训练方法，该方法包括：

利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；

对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；

对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；

利用该有类别标签的第二分词数据获取声学语言模型。

一种声学语言模型训练装置，该装置包括分词单元、词类替换单元、语言模型训练单元和声学语言模型获取单元，其中：

分词单元，用于利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；

词类替换单元，用于对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；

语言模型训练单元，用于对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；

声学语言模型获取单元，用于利用该有类别标签的第二分词数据获取声学语言模型。

从上述技术方案可以看出，在本发明实施方式中，利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。由此可见，应用本发明实施方式之后，实现了基于词类分词的声学语言模型训练。本发明实施方式可以采用类别标签替换语言模型训练文本中所有该类实体名，从而减少了语言模型中的词汇数量，而且当同类实体名在计算概率时，都采用语言模型中对应类别标签的参数。本发明实施方式扩大了语言模型囊括的词汇数量，从而提高了语音识别系统的识别准确率。

而且，本发明实施方式解决了语音识别系统词表容量有限所造成的词表范围之外的词汇识别效果不佳的问题。

附图说明

图1为根据本发明实施方式声学语言模型训练方法流程图；

图2为根据本发明实施方式声学语言模型训练方法总体示意图；

图3为根据本发明实施方式声学语言模型训练装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

在本发明实施方式中，充分考虑到词汇知识的以下特点：

（1）、大量低频词汇是实体名，如：人名、书名、电影名等特征；

（2）、同一类型的实体名其上下文信息通常具有相似性，如果将同类的不同实体名放入相同的上下文中几乎不影响句子的表意能力。比如：“我喜欢看“蜡笔小新”这部动画片”与“我喜欢看“樱桃小丸子”这部动画片其表意能力非常类似。

根据以上特点，本发明实施方式提出了一种基于词类分词的声学语言模型训练算法。

语言模型经常使用在许多自然语言处理方面的应用，如语音识别、机器翻译、词性标注、，句法分析和资讯检索，等等。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法（N-gram）模型之原因。

在本发明实施方式中，通过采用类别标签，替换语言模型训练文本中所有该类实体名。由于大量同类实体名在语言模型中被表示为同一个类别标签，因此本发明实施方式可以减少语言模型中的词汇数量。当同类实体名在计算概率时，都采用语言模型中对应类别标签的参数。对于未出现在训练文本中的实体名，只要代表这类实体名的类别标签存在，也可认为它与类别标签具有近似的概率分布。从效果上看，通过含有词类的语言模型，能够计算概率的词汇数量，要远远大于该语言模型真实包含的词汇和词类数量。正好可以解决，语音识别系统词表容量有限所造成的，词表范围之外的词汇识别效果不佳的问题。

图1为根据本发明实施方式声学语言模型训练方法流程图。

如图1所示，该方法包括：

步骤101：利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据。

在这里，优选在利用无类别标签的语言模型对训练语料进行分词之前，对训练语料作归一化处理。归一化处理具体可以包括：大小写转换、全角半角转换、时间数据格式统一，等等。

具体地，此处采用各种类型的分词器使用初始的语言模型（即无类别标签的语言模型）对训练语料分词，以获得没有类别标签的分词结果。

无类别标签的语言模型可以是以概率统计理论为基础，用来计算汉语语句概率的数学模型，它使得输出正确语句的概率大于输出错误语句的概率。例如，对于汉语输入的汉语语句“说明此处汉语语句的概率”，在统计语言模型中，该汉语语句可以分解为若干个词语，如：说明\此处\汉语\语句\的\概率。

对于一个包含m（m为自然数）个词的汉语语句S＝w₁w₂…w_m，根据Bayes理论，该汉语语句概率（输出正确的概率）可以分解为包含多个词语的条件概率的乘积，即：

上式中，w_i为汉语语句中包含的第i个词语；p(w_i/w₁w₂…w_i-1)为词语w_i在该汉语语句w₁w₂…w_m中的条件概率。

由上述公式可见，条件概率p(w_i/w₁w₂…w_i-1)的参数空间随着变量i的增加呈指数级增长，当变量i较大时，以现有训练语料的规模，还无法准确地估计出概率p(w_i/w₁w₂…w_i-1)的值。

训练语料是指采用统计的方法从大规模训练文本中，按照一定的类别进行组织形成的有序文本集合，训练语料可以由计算机执行规模处理。因而，目前实用化的语言模型建模方法中，均对条件概率p(w_i/w₁w₂…w_i-1)进行了不同程度的简化，提出了标准Ngram语言模型建模方法。

标准Ngram语言模型是目前最常用的统计语言模型。它将汉语语句看作是一个马尔科夫序列，满足马尔科夫属性。具体来讲，标准Ngram语言模型对统计语言模型中的条件概率p(w_i/w₁w₂…w_i-1)作如下基本假设：

（1）有限历史假设：当前输入语句中词语的条件概率仅仅与它前n-1个词相关，而与整个汉语语句无关，其中，n为预先设置的自然数；

（2）时齐性假设：当前词语的条件概率与它在汉语语句句子中出现的位置无关。

基于上述两个假设，标准Ngram语言模型的语句概率计算公式可以简化为：

可见，基于上述两个假设，标准统计语言模型中的条件概率p(w_i/w₁w₂…w_i-1)被简化成了标准Ngram语言模型中的条件概率p(w_i/w_i-n+1w_i-n+2…w_i-1)，新概率的计算公式中，与当前词语相关的历史词语的个数固定为常数n-1，而不是标准统计语言模型中的变数i-1。这样，整体降低了语言模型参数空间的大小，使得在现有训练语料的基础上，能够正确地估计出Ngram概率的值，从而使得标准Ngram语言模型可以实用化。

在标准Ngram语言模型中，条件概率p(w_i/w_i-n+1w_i-n+2…w_i-1)的值采用最大似然估计的方法进行估计，估计公式如下：

p (w_{i} / w_{i - n + 1} w_{i - n + 2} . . . w_{i - 1}) = \frac{c (w_{i - n + 1} . . . w_{i - 1} w_{i})}{c (w_{i - n + 1} . . . w_{i - 2} w_{i - 1})};

上式中，c(w_i-n+1...w_i-1w_i)表示词语序列w_i-n+1...w_i-1w_i（语句中的一部分词语）在标准Ngram语言模型的训练语料中出现的次数。

步骤102：对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据。

在这里，可以预先建立分类词汇表，该分类词汇表中对词汇按照类别进行分类。此时，可以在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇，并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

比如，假设分类词汇表中包含有“家具”类的分类标签，对应该“家具”类分类标签的词汇有：窗户、桌子、椅子、大门，等等。而且，该“家具”词汇共同的分类标签为“家具”。当训练语料包含“我打开窗户”语句时，被分词为“我”\“打开”\“窗户”，则通过与分类词汇表相比较，发现训练语料中的“窗户”属于分类词汇表中的“家具”类，则将分词数据“我”\“打开”\“窗户”替换为：“我”\“打开”\“家具”。

类似地，当训练语料包含“我打开大门”语句时，被分词为“我”\“打开”\“大门”，则通过与分类词汇表相比较，发现训练语料中的“大门”属于分类词汇表中的“家具”类，则将分词数据“我”\“打开”\“大门”替换为：“我”\“打开”\“家具”。

类似地，当训练语料包含“我踢开桌子”语句时，被分词为“我”\“踢开”\“桌子”，则通过与分类词汇表相比较，发现训练语料中的“桌子”属于分类词汇表中的“家具”类，则将分词数据“我”\“踢开”\“桌子”替换为：“我”\“踢开”\“家具”。

在一个实施方式中，在获得有类别标签的第二分词数据之后，进一步包括：

判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同，如果是，则利用该有类别标签的第二分词数据获取声学语言模型，如果不是，则对有类别标签的第二分词数据执行词类替换。

在一个实施方式中，在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，该方法进一步包括：

判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

步骤103：对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据。

步骤104：利用该有类别标签的第二分词数据获取声学语言模型。

在根据有类别标签的第二分词数据获取声学语言模型之后，可以接收输入语音，并利用该声学语言模型针对输入语音执行语音识别处理。

实际上，本发明实施方式优选实施为循环流程，即，迭代优化基于词类的语言模型：主要包括：

（1）首先对训练语料作归一化处理；

（2）然后，分词器使用初始语言模型(没有类别标签)对训练语料分词，获得没有类别标签的分词结果；

（3）对分词结果根据一组条件触发规则进行词类替换，获得带有类别标签的分词结果。此时，为了保证准确率，条件触发规则可以仅对有把握的实体名做类别替换。如果此时带有类别标签的分词结果与上一次迭代出的带有类别标签的分词结果一样，则跳出循环进入后继流程；

（4）使用带有类别标签的分词数据训练语言模型，获得带有类别标签的语言模型；

（5）分词器使用带有类别标签的语言模型对第(1)步获得的训练语料做词类分词，获得带有类别标签的分词数据，并返回执行第(3)步。此时，由于使用了统计语言模型，可能产生触发规则未匹配到的词类替换，同时由于分词结果的变化，原来可以匹配触发规则的位置可能已经不再有效。

然后对带有类别标签的分词结果做适合语音识别的后处理；并计算带词类标签的声学语言模型。

图2为根据本发明实施方式声学语言模型训练方法总体示意图。

如图2所示，基于上述详细分析，在本发明实施方式中，对于分词阶段，在全切分过程中，优选不仅匹配模式词、词典词，还可以根据词类资源对匹配到的词汇做类别标签替换。对于分词阶段，在基于隐马模型的概率路径选优过程中，可以使用语言模型中的词类参数对词类做概率计算，若最优路径包含类别标签，则该类别标签直接作为的分词结果输出。在基于资源的词类替换阶段，词类替换的数据是可信的资源数据，不是来源于自动识别的未登录词。由此可见，本发明实施方式的词汇的类别替换方法综合了触发规则和统计语言模型两种方法，

在本发明实施方式中，触发规则仅对有把握的部分作词类替换，而且通过迭代基于词类的语言模型，可以逐步提高词类替换的覆盖率。在本发明实施方式中，分类词汇作为切分资源参与分词匹配过程，使用词类的概率参数参与最优概率路径的计算，而且对以对于胜出的词类词汇，可以以类别标签方式出现在分词结果中。

基于上述详细分析，本发明实施方式还提出了一种声学语言模型训练装置。

图3为根据本发明实施方式声学语言模型训练装置结构图。

该装置包括分词单元301、词类替换单元302、语言模型训练单元303和声学语言模型获取单元304，其中：

分词单元301，用于利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；

词类替换单元302，用于对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；

语言模型训练单元303，用于对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；

声学语言模型获取单元304，用于利用该有类别标签的第二分词数据获取声学语言模型。

在一个实施方式中，词类替换单元302，用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇，并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

在一个实施方式中，语言模型训练单元303，进一步用于在获得有类别标签的第二分词数据之后，判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同，如果是，则使能声学语言模型获取单元，如果不是，则使能词类替换单元对有类别标签的第二分词数据执行词类替换。

在一个实施方式中，词类替换单元302，用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，进一步判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

在一个实施方式中，词类替换单元302，用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，进一步判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

优选地，该装置进一步包括语音识别单元305；

语音识别单元305，用于接收输入语音，并利用该声学语言模型针对输入语音执行语音识别处理。

优选地，该装置进一步包括归一化单元306；

归一化单元306，用于在利用无类别标签的语言模型对训练语料进行分词之前，对该训练语料作出归一化处理。

可以将图3所示装置集成到各种网络的硬件实体当中。比如，可以将声学语言模型训练装置集成到：功能手机、智能手机、掌上电脑、个人电脑（PC）、平板电脑或个人数字助理（PDA），等等设备之中。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的声学语言模型训练装置。比如，可以遵循一定规范的应用程序接口，将声学语言模型训练装置编写为安装到浏览器中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的声学语言模型训练装置。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的声学语言模型训练方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒（Memory Stick）、xD卡等。

另外，还可以将本发明实施方式所提出的声学语言模型训练方法应用到基于闪存（Nand flash）的存储介质中，比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。

综上所述，在本发明实施方式中，利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。由此可见，应用本发明实施方式之后，实现了基于词类分词的声学语言模型训练。本发明实施方式可以采用类别标签替换语言模型训练文本中所有该类实体名，从而减少了语言模型中的词汇数量，而且当同类实体名在计算概率时，都采用语言模型中对应类别标签的参数。本发明实施方式扩大了语言模型囊括的词汇数量，从而提高了语音识别系统的识别准确率。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声学语言模型训练方法，其特征在于，该方法包括：

利用该有类别标签的第二分词数据获取声学语言模型。

2.根据权利要求1所述的声学语言模型训练方法，其特征在于，所述对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据包括：

在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇，并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

3.根据权利要求1所述的声学语言模型训练方法，其特征在于，该方法在获得有类别标签的第二分词数据之后，进一步包括：

4.根据权利要求2所述的声学语言模型训练方法，其特征在于，在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，该方法进一步包括：

5.根据权利要求2所述的声学语言模型训练方法，其特征在于，在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，该方法进一步包括：

判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

6.根据权利要求1所述的声学语言模型训练方法，其特征在于，该方法进一步包括：

在利用无类别标签的语言模型对训练语料进行分词之前，对该训练语料作出归一化处理。

7.根据权利要求1所述的声学语言模型训练方法，其特征在于，该方法进一步包括：

接收输入语音；

利用该声学语言模型针对输入语音执行语音识别处理。

8.一种声学语言模型训练装置，其特征在于，该装置包括分词单元、词类替换单元、语言模型训练单元和声学语言模型获取单元，其中：

9.根据权利要求8所述的声学语言模型训练装置，其特征在于，

词类替换单元，用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇，并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

10.根据权利要求8所述的声学语言模型训练装置，其特征在于，

语言模型训练单元，进一步用于在获得有类别标签的第二分词数据之后，判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同，如果是，则使能声学语言模型获取单元，如果不是，则使能词类替换单元对有类别标签的第二分词数据执行词类替换。

11.根据权利要求9所述的声学语言模型训练装置，其特征在于，

词类替换单元，用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，进一步判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

12.根据权利要求9所述的声学语言模型训练装置，其特征在于，

词类替换单元，用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后，进一步判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值，如果是，则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。

13.根据权利要求8所述的声学语言模型训练装置，其特征在于，进一步包括语音识别单元；

语音识别单元，用于接收输入语音，并利用该声学语言模型针对输入语音执行语音识别处理。

14.根据权利要求8所述的声学语言模型训练装置，其特征在于，进一步包括归一化单元；

归一化单元，用于在利用无类别标签的语言模型对训练语料进行分词之前，对该训练语料作出归一化处理。