CN101329868A

CN101329868A - 一种针对地区语言使用偏好的语音识别优化系统及其方法

Info

Publication number: CN101329868A
Application number: CNA2008100299041A
Authority: CN
Inventors: 陈铮陶; 林超
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-07-31
Filing date: 2008-07-31
Publication date: 2008-12-24
Anticipated expiration: 2028-07-31
Also published as: CN101329868B

Abstract

本发明提供针对地区语言使用偏好的语音识别优化系统，包括所述词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块、电话语音识别系统，词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块设置在计算机内；词汇表创建归类模块、语法模型初始化模块、电话语音识别系统、词汇使用记录模块、词汇数据库、语法权重计算与语法模型生成模块依次连接，且电话语音识别系统通过PSTN或者Internet与语音输入输出设备连接。本发明能够有效地突破算法优化的瓶颈，更加适应于行业应用的需要。

Description

一种针对地区语言使用偏好的语音识别优化系统及其方法

技术领域

本发明电话语音识别技术，具体是指一种针对地区语言使用偏好的语音识别优化系统及其方法。

背景技术

近年来，语音识别技术已经取得了巨大的进展。目前世界上最先进的电话语音识别系统——Nuance8.5在针对中小词汇量的孤立词(Isolate Words)的识别率已经达到95％左右。95％的识别率在满足用户使用这一层面上来说也仅仅只是合格的标准，从产品的用户体验和服务质量的角度出发，可能会要求语音识别系统有更加精准识别效果。这样，语音识别系统的优化，有效地提高语音识别系统的识别率，也成为了许多科研工作者和语音识别引擎开发厂商的一个主攻的课题。

行业内对于语音识别的优化，往往着眼点都只在于识别算法的改进，然而这种识别优化的方法仍然有一定的局限性，例如，实际的识别率提升的空间比较有限，容易出现瓶颈；涉及到复杂的算法的话，CPU的占用率高、运算时间长，对于硬件设备的依赖太大。鉴于此，算法改进的语音识别优化方案在实际的行业应用中，成本较高、效益较低。

发明内容

本发明的目的就是为了解决和克服现有技术存在的问题和缺陷，提供针对地区语言使用偏好的语音识别优化系统，其经一定时间的运营后，通过统计所积累的词汇使用记录数据，按照不同地区用户对词汇选项使用偏好设置语法权重后，系统对小词汇量的孤立词的识别率能够提升至98％，能够有效地突破算法优化的瓶颈，而且更加适应于行业应用的需要。

本发明的另一目的是提供上述系统的针对地区语言使用偏好的语音识别优化方法。

本发明的目的通过下述技术方案实现：本针对地区语言使用偏好的语音识别优化系统，包括所述词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块、电话语音识别系统，所述词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块设置在计算机内；所述词汇表创建归类模块、语法模型初始化模块、电话语音识别系统、词汇使用记录模块、词汇数据库、语法权重计算与语法模型生成模块依次连接，且所述电话语音识别系统通过PSTN(Public Switched Telephone Network，公共交换电话网络)或者Internet(采用VoIP：Voice over Internet Protocol，互联网协议语音技术)与语音输入输出设备连接。

为更好地实现本发明，电话语音识别系统包括依次连接的IVR应用模块、自动语音识别(ASR)模块、语法包模块，自动语音识别模块与所述词汇使用记录模块连接，语法包模块与所述语法模型初始化模块连接，IVR应用模块通过PSTN或者Internet(采用VoIP)与语音输入输出设备连接。

所述语音输入输出设备包括固定电话、移动电话、IP电话。

采用上述针对地区语言使用偏好的语音识别优化系统的语音识别优化方法，其包括以下步骤：

(1)词汇表创建模块根据语音识别的归类条件，将词汇选项归入各个词汇分类中，建立词汇表数据库；

(2)语法模型初始化模块根据所述词汇表数据库中的词汇分类及词汇选项的相应数据，为每个省区的每一个词汇分类相应生成一个电话语音识别系统的语法包，所述语法包里包含着归属于此词汇分类的所有词汇选项；

(3)当用户使用电话语音识别系统时，电话语音识别系统的IVR应用模块可以根据用户呼入电话的号码判断出该号码所属的省区的信息，并连同用户所应答的语音信息、当前IVR节点所属的词汇分类信息一起推送到电话语音识别系统的自动语音识别模块，自动语音识别模块将根据省区的信息和词汇分类的信息调用相对应语法包，对电话的语音信息进行自动识别；

(4)当语法包中的某一词汇选项被成功识别后，自动语音识别模块将识别成功的词汇的信息推送到词汇使用记录模块，通过词汇使用记录模块在词汇数据库中增加一条词汇使用的记录，同时把省区以及该词汇选项所属的分类的信息写入该记录相应的字段中；

(5)语法权重计算与语法模型生成模块以省区为单位对词汇数据库的记录进行统计，计算出每个分类中各词汇选项在各自所属的分类中使用频率百分比，根据这个百分比来计算出词汇选项的权重系数，并最终将带权重系数的词汇选项更新到各自的语法包中；

(6)当用户再次使用该电话语音识别系统时，自动语音识别模块将根据省区的信息和词汇分类的信息调取调整了权重参数的语法包，用户将可获得准确率更高的语音识别的效果，从而实现针对地区语言使用偏好的语音识别优化过程。

为更好地实现本发明，上述步骤(1)中，所述归类条件是指：根据系统的实际应用，人为地设定词汇的分类，然后再加入省区分类，以此作为语音识别词汇表的两个归类条件。

上述步骤(1)中，所述词汇分类可根据系统使用者所提供的服务内容以及服务应用的领域来具体进行设定。例如，提供体育资讯相关的服务可能有“球类”、“田径”、“体操”、“武术”等等。词汇分类可以根据实际的需要进行增加、删除或者合并。

上述步骤(1)、(2)所述词汇表数据库与步骤(4)、(5)所述词汇数据库可以采用大型数据库平台实现，包括SQL Server、Oracle、Sybase等。

上述步骤(2)中，所述语法包的层次结构可以表示为：

省区i{

词汇分类j[

词汇选项1

词汇选项2

·

词汇选项k

]

}

其中，i为省区的序号，j为每个省区词汇分类的序号，k为每个词汇分类中词汇选项的序号。

上述步骤(5)中，所述语法包的层次结构可以表示为：

省区i{

词汇分类j[

词汇选项2(权重系数2)

· ·

词汇选项k(权重系数k)

]

}

其中，i为省区的序号，j为每个省区词汇分类的序号，k为每个词汇分类中词汇选项的序号及相应的权重系数的序号。

步骤(5)所述权重系数通过以下步骤得到：

统计出某一词汇分类在某一省区范围内词汇选项的使用频率，计算出各词汇选项使用频率的在分类中所占的比重；对使用频率与使用频率的百分比这一组线性数据进行加权平均数以及幂函数的运算，得到权重系数：

权重系数：

y = \sqrt[3]{x \times {p_{a}}^{2}} - - - (a)

公式(a)中：x为各个词汇选项使用频率百分比；y为计算所得的权重系数；Pa为加权平均数；

其中：加权平均数Pa：

p_{a} = \frac{&Sum; (v_{i} \times x_{i})}{&Sum; v_{i}} - - - (b)

公式(b)中：Pa为加权平均数；x为选项使用频率百分比；v为选项使用频率。

上述权重系数计算的方法，应用了加权平均数以及幂函数的运算，目的是为了对数据进行缓冲处理，使计算得出的权重分布曲线显得更加平缓。

本发明的工作原理：自动语音识别(ASR)引擎在识别语法限定的范围内，通过计算比对输入的发音信息与语音库的发音数据，优选出相似度分值最高的词汇结果作为识别的结果。在识别语法的权重系数，可以对相似度的分值进行调节，从而对识别结果进行优化。利用自动语音识别引擎语法权重系数调节的原理，收集电话用户在语音识别系统所使用的词汇，建立词汇使用记录的数据库，创建一套针对不同地区的词汇语言使用偏好自动生成识别语法权重系数的方法，对语音识别系统的识别率进行优化。根据用户使用的数据记录进行分析，并统计出语法中各选项的使用比率，根据使用比率来升高或者降低选项的权重系数，有助于提高自动语音识别系统的整体识别率。

相对现有技术，本发明具有如下优点与效果：

(1)通过对用户词汇使用偏好，采用数据统计的方法，对识别语法进行权重调解的方法来提高系统的识别率。另辟一条巧径，以达到跟算法优化识别率殊途同归的效果。

(2)充分考虑到不同地区的用户之间在语音词汇使用以及使用习惯上的差异，本发明的语音识别优化方案是针对每一个地区这样相对小的范围内进行的，因此能做到更加精准的语音识别优化的效果。

(3)应用本发明提出的方法，语音识别系统经一定时间的运营后，通过统计所积累的词汇使用记录数据，按照不同地区用户对词汇选项使用偏好设置语法权重后，能够有效地突破算法优化的瓶颈，系统对小词汇量的孤立词的识别率能够提升至98％，有效地提高语音识别的识别率，从而提升语音识别产品的用户体验，提高用户的满意度和认可度，更适应于行业应用的需要。

附图说明

图1是本发明针对地区语言使用偏好的语音识别优化系统的结构框图。

图2是图1所示电话语音识别系统的内部结构框图。

图3是本发明所述权重系数对应使用频率的曲线示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述。

实施例一

如图1所示，本针对地区语言使用偏好的语音识别优化系统，包括所述词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块、电话语音识别系统，所述词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块设置在计算机内；所述词汇表创建归类模块、语法模型初始化模块、电话语音识别系统、词汇使用记录模块、词汇数据库、语法权重计算与语法模型生成模块依次连接，且所述电话语音识别系统通过PSTN或者Internet(采用VoIP)与语音输入输出设备连接。

如图2所示，电话语音识别系统包括依次连接的IVR应用模块、自动语音识别(ASR)模块、语法包模块，自动语音识别模块与所述词汇使用记录模块连接，语法包模块与所述语法模型初始化模块连接，IVR应用模块通过PSTN或者Internet(采用VoIP)与语音输入输出设备连接。

所述语音输入输出设备包括固定电话、移动电话、IP电话。

本针对地区语言使用偏好的语音识别优化系统的语音识别优化过程，包括以下步骤：

(1)词汇表创建模块根据语音识别的归类条件，将词汇选项归入各个词汇分类中，建立词汇表数据库；所述词汇表数据库采用大型数据库平台实现，包括SQL Server、Oracle、Sybase等。

所述归类条件是指：根据系统的实际应用，人为地设定词汇的分类，然后再加入省区分类，以此作为语音识别词汇表的两个归类条件；

所述词汇分类可根据系统使用者所提供的服务内容以及应用的领域来具体进行设定。例如，体育资讯相关的服务可能有“球类”、“田径”、“体操”、“武术”等等。词汇分类可以根据实际的需要进行增加、删除或者合并。

例如，若其中一个语法包的省区为“广东省”，词汇分类为“城市”，则此步骤时所述语法包的层次结构可以表示为：

广东省{

城市[

城市名1

城市名2

·

城市名10

]

}

所述词汇数据库可以采用大型数据库平台实现，包括SQL Server、Oracle、Sybase等。

若其中一个语法包的省区为“广东省”，词汇分类为“城市”，则此步骤所述语法包的层次结构可以表示为：

广东省{

城市[

城市名1(权重系数1)

城市名2(权重系数2)

· ·

城市名10(权重系数10)

]

}

步骤(5)所述权重系数通过以下步骤得到：

权重系数：

y = \sqrt[3]{x \times {p_{a}}^{2}} - - - (a)

公式(a)中：x为各个词汇选项使用频率百分比；y为计算所得的权重系

其中：加权平均数Pa：

p_{a} = \frac{&Sum; (v_{i} \times x_{i})}{&Sum; v_{i}} - - - (b)

例如：目前收集到的数据中，广东省区对于“城市”这个词汇分类中各城市各词汇选项的使用率统计数据如下表所示：

词汇选项(城市名)	使用频率	各词汇选项的使用频率比重	权重系数
词汇选项(城市名)	使用频率	各词汇选项的使用频率比重	权重系数	城市1	18500	27.86％	0.227002
城市2	17500	26.36％	0.222835	城市1	18500	27.86％	0.227002
城市2	17500	26.36％	0.222835	城市3	13500	20.33％	0.20437
城市4	6500	9.79％	0.16018	城市3	13500	20.33％	0.20437
城市4	6500	9.79％	0.16018	城市5	4600	6.93％	0.142744
城市6	2300	3.46％	0.113296	城市5	4600	6.93％	0.142744
城市6	2300	3.46％	0.113296	城市7	1650	2.48％	0.101422
城市8	800	1.20％	0.079677	城市7	1650	2.48％	0.101422
城市8	800	1.20％	0.079677	城市9	650	0.98％	0.074349
城市10	400	0.60％	0.06324	城市9	650	0.98％	0.074349

权重系数对应使用频率的曲线如图3所示。

如上所述，便可较好地实现本发明，上述实施例仅为本发明的较佳实施例，并非用来限定本发明的实施范围；即凡依本发明内容所作的均等变化与修饰，都为本发明权利要求所要求保护的范围所涵盖。

Claims

1、针对地区语言使用偏好的语音识别优化系统，其特征在于：包括所述词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块、电话语音识别系统，所述词汇表创建归类模块、语法模型初始化模块、词汇数据库、语法权重计算与语法模型生成模块、词汇使用记录模块设置在计算机内；所述词汇表创建归类模块、语法模型初始化模块、电话语音识别系统、词汇使用记录模块、词汇数据库、语法权重计算与语法模型生成模块依次连接，且所述电话语音识别系统通过PSTN或者Internet与语音输入输出设备连接。

2、根据权利要求1所述针对地区语言使用偏好的语音识别优化系统，其特征在于：电话语音识别系统包括依次连接的IVR应用模块、自动语音识别模块、语法包模块，自动语音识别模块与所述词汇使用记录模块连接，语法包模块与所述语法模型初始化模块连接，IVR应用模块通过PSTN或者Internet与语音输入输出设备连接。

3、根据权利要求2所述针对地区语言使用偏好的语音识别优化系统，其特征在于：所述语音输入输出设备包括固定电话、移动电话、IP电话。

4、采用权利要求1-3任一项所述针对地区语言使用偏好的语音识别优化系统的语音识别优化方法，其特征在于包括以下步骤：

5、根据权利要求4所述针对地区语言使用偏好的语音识别优化方法，其特征在于：所述步骤(1)中，所述归类条件是指：根据系统的实际应用，人为地设定词汇的分类，然后再加入省区分类，以此作为语音识别词汇表的两个归类条件。

6、根据权利要求4所述针对地区语言使用偏好的语音识别优化方法，其特征在于：所述步骤(1)中，所述词汇分类根据系统使用者所提供的服务内容以及应用的领域来具体进行设定；所述词汇分类根据实际的需要进行增加、删除或者合并。

7、根据权利要求4所述针对地区语言使用偏好的语音识别优化方法，其特征在于：步骤(1)、(2)所述词汇表数据库与步骤(4)、(5)所述词汇数据库采用大型数据库平台实现，包括SQL Server、Oracle、Sybase。

8、根据权利要求4所述针对地区语言使用偏好的语音识别优化方法，其特征在于：所述步骤(2)中，所述语法包的层次结构表示为：

省区i{

词汇分类j[

词汇选项1

词汇选项2

.

词汇选项k

]

9、根据权利要求4所述针对地区语言使用偏好的语音识别优化方法，其特征在于：上述步骤(5)中，所述语法包的层次结构表示为：

省区i{

词汇分类j[

词汇选项1(权重系数1)

词汇选项2(权重系数2)

. .

词汇选项k(权重系数k)

]

}

10、根据权利要求4所述针对地区语言使用偏好的语音识别优化方法，其特征在于：步骤(5)所述权重系数通过以下步骤得到：

权重系数：

y = \sqrt[3]{x \times {p_{a}}^{2}} - - - (a)

其中：加权平均数Pa：

p_{a} = \frac{Σ (v_{i} \times x_{i})}{Σ v_{i}} - - - (b)