CN111145727A

CN111145727A - 数字串的语音识别方法及装置

Info

Publication number: CN111145727A
Application number: CN201911214497.6A
Authority: CN
Inventors: 范红亮
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-05-12
Anticipated expiration: 2039-12-02
Also published as: CN111145727B

Abstract

本发明是关于数字串的语音识别方法及装置。该方法包括：建立数字串的发音词典；基于所述发音词典建立多类别数字串词条；根据所述多类别数字串词条，构建领域语言模型；根据所述领域语言模型，对包含数字串的语音进行识别。通过本发明的技术方案，可利用数字串建立的领域语言模型对语音数字进行快速识别，以提高包含数字串的语音的识别效率和识别准确率。

Description

数字串的语音识别方法及装置

技术领域

本发明涉及终端技术领域，尤其涉及数字串的语音识别方法及装置。

背景技术

目前，在对语音进行识别时，数字串语音识别率较低，特别是在一些特定场景中(如电话号码识别，身份证号识别，银行卡号识别等)，数字识别率远远无法满足业务需要。

例如：“一”，“四”，“五”，“七”等数字连读时极易产生插入和删除错误；“一”和“七”易混淆，“四八”容易混淆为“是吧”，“九八”容易混淆为“酒吧”等发音相近或相同的词等。

发明内容

本发明实施例提供了数字串的语音识别方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种数字串的语音识别方法，包括：

建立数字串的发音词典；

基于所述发音词典建立多类别数字串词条；

根据所述多类别数字串词条，构建领域语言模型；

根据所述领域语言模型，对包含数字串的语音进行识别。

在一个实施例中，所述建立数字串的发音词典，包括：

确定至少包含两个数字的若干类数字串，其中，每类数字串中的数字的数目不同，且所述每类数字串包括至少一个数字串；

将所述若干类数字串转换成对应的汉字；

根据所述若干类数字串和所述对应的汉字，建立所述发音词典。

在一个实施例中，所述基于所述发音词典建立多类别数字串词条，包括：

基于所述发音词典中的若干类数字串建立多类别数字串词条，其中，所述若干类数字串的每类数字串与所述多类别数字串词条的每类别数字串词条相对应，相对应的所述每类数字串与所述每类别数字串词条中的数字个数相同。

在一个实施例中，所述根据所述多类别数字串词条，构建领域语言模型，包括：

确定多个数字串应用场景；

根据所述多个数字串应用场景以及所述多类别数字串词条，建立句法规则；

根据所述句法规则，构建所述领域语言模型。

在一个实施例中，所述根据所述句法规则，构建所述领域语言模型，包括：

根据所述句法规则，建立基于类的语言模型；

根据所述基于类的语言模型以及通用语言模型，构建所述领域语言模型。

根据本发明实施例的第二方面，提供一种数字串的语音识别装置，包括：

第一建立模块，用于建立数字串的发音词典；

第二建立模块，用于基于所述发音词典建立多类别数字串词条；

构建模块，用于根据所述多类别数字串词条，构建领域语言模型；

识别模块，用于根据所述领域语言模型，对包含数字串的语音进行识别。

在一个实施例中，所述第一建立模块包括：

第一确定子模块，用于确定至少包含两个数字的若干类数字串，其中，每类数字串中的数字的数目不同，且所述每类数字串包括至少一个数字串；

转换子模块，用于将所述若干类数字串转换成对应的汉字；

第一建立子模块，用于根据所述若干类数字串和所述对应的汉字，建立所述发音词典。

在一个实施例中，所述第二建立模块包括：

第二建立子模块，用于基于所述发音词典中的若干类数字串建立多类别数字串词条，其中，所述若干类数字串的每类数字串与所述多类别数字串词条的每类别数字串词条相对应，相对应的所述每类数字串与所述每类别数字串词条中的数字个数相同。

在一个实施例中，所述构建模块包括：

第二确定子模块，用于确定多个数字串应用场景；

第三建立子模块，用于根据所述多个数字串应用场景以及所述多类别数字串词条，建立句法规则；

构建子模块，用于根据所述句法规则，构建所述领域语言模型。

在一个实施例中，所述构建子模块包括：

建立单元，用于根据所述句法规则，建立基于类的语言模型；

构建单元，用于根据所述基于类的语言模型以及通用语言模型，构建所述领域语言模型。

本发明的实施例提供的技术方案可以包括以下有益效果：

在建立好发音词典之后，可基于该发音词典建立多类别数字串词条，然后基于所述多类别数字串词条，构建领域语言模型，从而利用领域语言模型，对包含数字串的语音进行识别，如此，利用数字串建立的领域语言模型对语音数字进行快速识别，以提高包含数字串的语音的识别效率和识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种数字串的语音识别方法的流程图。

图2是根据一示例性实施例示出的一种数字串的语音识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了解决上述技术问题，本发明实施例提供了一种数字串的语音识别方法，该方法可用于数字串的语音识别程序、系统或装置中，且该方法对应的执行主体可以是终端或服务器，如图1所示，该方法包括步骤S101至步骤S104：

在步骤S101中，建立数字串的发音词典(如汉语发音词典)；

在步骤S102中，基于所述发音词典建立多类别数字串词条；

多类别数字串词条中各类别数字串词条可以有很多个数字串词条，且各类别数字串词条按所包含的数字个数分类，如各类别数字串词条中A类别数字串词条可以是包含二位数字的所有词条、B类别数字串词条可以是包含三位数字的所有词条、C类别数字串词条可以是包含四位数字的所有词条。

在步骤S103中，根据所述多类别数字串词条，构建领域语言模型；

在步骤S104中，根据所述领域语言模型，对包含数字串的语音进行识别。

在一个实施例中，所述建立数字串的发音词典，包括：

确定至少包含两个数字的若干类数字串，其中，若干类数字串中每类数字串的数字数目不同，且所述每类数字串包括至少一个数字串；

如A类数字串可以是全部包含一位数的数字，B类数字串可以是全部包含二位数的数字，如“51”，“61”，“11”，“98”等；

C类数字串可以是全部包含三位数的数字，如“110”等；

D类数字串可以是全部包含四位数的数字，如“1921”等。

将所述若干类数字串转换成对应的汉字；如“51”转换成“五一”，“98”转换成“九八”等。

通过根据所述若干类数字串和所述对应的汉字，自动建立所述发音词典，可以将数字串的任意读法都覆盖到，如11位电话号码可以按照3-4-4的方式读，从而可对任意长度的语音数字串进行识别，以便于之后能够利用发音词典提高语音数字串的识别效率和准确率。

基于所述发音词典中的若干类数字串建立多类别数字串词条，其中，所述若干类数字串的每类数字串与所述多类别数字串词条中的每类别数字串词条相对应，而相对应的所述每类数字串与所述每类别数字串词条中的数字个数相同，只不过每类别数字串词条相比于其对应的每类数字串而言，不仅包括其对应的每类数字串还包括文字等字符。

基于上述若干类数字串可建立包含任何长度数字的数字串词条(如包含3个数字的数字串词条、包含5个数字的数字串词条，当然，该数字串词条中除了包含数字，还包括其他文字等字符)，以便于之后利用每类别数字串词条，自动构建领域语言模型。

确定多个数字串应用场景；数字串应用场景即包含数字的字符串的应用场景，如打电话场景、吃饭的应用场景等。

根据所述句法规则，构建所述领域语言模型。

根据多个数字串应用场景以及多类别数字串词条，可建立不同应用场景下的语法语句规则，如可以预设好不同应用场景下的每个类别数字串词条的长度和语句模式，如可以是“打电话给xxx以在11桌吃饭”，“查询xxx”等，进而便于根据句法规则，自动构建领域语言模型，如此，利用可利用领域语言模型对语音数字进行快速识别，以提高包含数字串的语音的识别效率和识别准确率。

根据所述句法规则，建立基于类的语言模型；

基于类的语言模型与每类别数字串词条相对应，如A类别数字串词条为包含2个数字的词条时，相对应的那类语言模型为包含2个数字的语言模型，如B类别数字串词条为包含4个数字的词条时，相对应的那类语言模型为包含4个数字的语言模型。

根据该句法规则，可自动建立上述基于类的语言模型，然后，通过基于类的语言模型以及通用语言模型，构建所述领域语言模型后，可利用领域语言模型提高包含数字串的语音的识别效率和识别准确率，这相比于仅利用通用语言模型进行语音识别而言，可降低数字语音的识别错误率，在应用在电话号码、身份证号码、银行卡号码等各种数字串的识别场景时能够显著提升识别效果。

下面将进一步详细说明本发明的技术方案：

第1步：定制发音词典(lexicon)

现有技术中，语音识别发音词典中，会全部包含一位数的数字词条，但是两位和三位数字词条通常仅包含了一少部分常用词，如“五一”，“六一”，“十一”，“一一零”，“一一九”等。

本方法在发音词典中，将一位，两位，三位，四位数字补全，数字是汉字形式，如“九八”，“一一零”，“一九二一”等。这样能够将数字串的任意读法都覆盖到，如11位电话号码一般按照3-4-4的方式读。

第2步：定制化的class-based语言模型(LanguageModel)

使用基于类的语言模型(class-based LM)：

建立几个类(class):<class2>,<class3>,<class4>，其中<class2>包含所有的两位数字串词条，<class3>包含所有的三位数字串词条，<class4>包含所有的四位数字串词条。根据应用场景，可以给每个词条不同的权重，如在打电话场景中，“一一零”，“一二零”，“一五八”，“一三二”等权重会略高。

建立句法规则(grammar)：

不同应用场景会有不同的规则，如“打电话给xxx”，“查询xxx”等，都是和业务场景相关的，这里我们需要保证的是：grammar能够覆盖到所有句式和任何长度的数字串(通过<class2>,<class3>,<class4>的组合)。这样在识别解码的过程中，任意长度的字符串都能够识别出来。

根据grammar建立class-based LM，并与通用模型插值得到领域模型(domainLM)。

第3步：实验(识别电话号码)

定制发音词典；建立句法规则并据此建立class-based语言模型；class-based语言模型和通用语言模型做插值合并；训练领域模型用于识别。

效果：10000个通电话号码(11位数字串)，仅使用通用语言模型做识别时，wer/ser:0.57/4.59，识别错误459句；而若使用本发明训练得到的领域语言模型对上述10000个通电话号码作识别时，wer/ser:0.00/0.01，仅识别错误一个句子，也即：使用通用领域模型测试的base性能是错误459句，而使用优化过的领域语言模型做测试，仅错1个句子，性能提升明显。

分析：能够有效降低“一”，“五”，“七”，“八”等数字的插入和删除错误，特别是连读时的错误，也能够有效降低其他发音相似词的误识别，如(“一八”误识别为“一般”，“六七”误识别为“六期”等)。

通过上述实施例可定制发音词典，建立class-based语言模型，极大提升了数字串的识别率。

定制发音词典，通过对数字串的补全和完善，使得数字串在与发音相近的非数字词条竞争时不落下风，如“四八”和“是吧”，“一八”和“一般”，“六七”和“六期”等。

Clase-based LM中class和grammar的使用，可以覆盖到任意长度的数字串，且能够建立更加紧凑合理的句法结构。

能够有效缓解“一”，“四”，“五”，“七”等数字连读时产生的插入错误和删除错误。

该方法可以应用在电话号码、身份证号码、银行卡号码等各种数字串识别的场景，能够显著提升识别效果。

根据该方法的思路，也可以应用在限定词条和限定句式的场景。

最后，需要明确的是：本领域技术人员可根据实际需求，将上述多个实施例进行自由组合。

对应本发明实施例提供的上述数字串的语音识别方法，本发明实施例还提供一种数字串的语音识别装置，如图2所示，该装置包括：

第一建立模块201，用于建立数字串的发音词典；

第二建立模块202，用于基于所述发音词典建立多类别数字串词条；

构建模块203，用于根据所述多类别数字串词条，构建领域语言模型；

识别模块204，用于根据所述领域语言模型，对包含数字串的语音进行识别。

在一个实施例中，所述第一建立模块包括：

转换子模块，用于将所述若干类数字串转换成对应的汉字；

在一个实施例中，所述第二建立模块包括：

在一个实施例中，所述构建模块包括：

第二确定子模块，用于确定多个数字串应用场景；

在一个实施例中，所述构建子模块包括：

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数字串的语音识别方法，其特征在于，包括：

建立数字串的发音词典；

基于所述发音词典建立多类别数字串词条；

根据所述多类别数字串词条，构建领域语言模型；

根据所述领域语言模型，对包含数字串的语音进行识别。

2.根据权利要求1所述的方法，其特征在于，

所述建立数字串的发音词典，包括：

将所述若干类数字串转换成对应的汉字；

3.根据权利要求2所述的方法，其特征在于，

所述基于所述发音词典建立多类别数字串词条，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，

所述根据所述多类别数字串词条，构建领域语言模型，包括：

确定多个数字串应用场景；

根据所述句法规则，构建所述领域语言模型。

5.根据权利要求4所述的方法，其特征在于，

所述根据所述句法规则，构建所述领域语言模型，包括：

根据所述句法规则，建立基于类的语言模型；

6.一种数字串的语音识别装置，其特征在于，包括：

第一建立模块，用于建立数字串的发音词典；

7.根据权利要求6所述的装置，其特征在于，

所述第一建立模块包括：

转换子模块，用于将所述若干类数字串转换成对应的汉字；

8.根据权利要求7所述的装置，其特征在于，

所述第二建立模块包括：

9.根据权利要求6至8中任一项所述的装置，其特征在于，

所述构建模块包括：

第二确定子模块，用于确定多个数字串应用场景；

10.根据权利要求9所述的装置，其特征在于，

所述构建子模块包括：