CN1509107A

CN1509107A - 移动终端语音电话本系统

Info

Publication number: CN1509107A
Application number: CNA021568650A
Authority: CN
Inventors: 吴及; 汪勇; 孙琼; 赵庆卫
Original assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING
Current assignee: TIANLANG SPEECH SOUND SCI-TECH Co Ltd BEIJING
Priority date: 2002-12-19
Filing date: 2002-12-19
Publication date: 2004-06-30
Anticipated expiration: 2022-12-19
Also published as: CN1301026C

Abstract

本发明提供了一种移动终端语音电话本系统，包括一个具有语音输入装置的移动终端和一个语音电话本模块，该移动终端设有一联系人键，该语音电话本模块包括联系人主界面、传统查询模块、语音查询模块，其中语音查询模块又由录音界面、语音识别引擎、识别结果界面组成；而语音识别引擎又包括语音端点检测模块、MFCC语音特征提取模块、搜索算法模块、置信度拒识模块、音字映射表；语音识别引擎采用基于段长分布的隐含马尔可夫模型；用户长按联系人键，则启动电话本的语音查询模块；短按联系人键，则启动传统查询模块。本发明针对非特定人的，具有通用性、方便性、准确率高、识别容量大等优点。

Description

移动终端语音电话本系统

技术领域

本发明涉及一种移动终端语音电话本系统。

背景技术

移动终端，如手机、PDA等等，在人们的日常生活中扮演着越来越重要的角色，逐步成为人们必不可少的通讯和信息交互的工具。在这些移动终端中，电话本是最重要的功能之一。但是目前的电话本一般采取拼音或其它的排序方式，随着人们之间逐步增大的互相联系的需要，电话本的容量不断增加。这在为人们提供更多信息需求的同时，也为人们查找某个具体联系人的电话增加了越来越大的不便。在这种情况下，利用先进的语音识别技术实现的语音电话本成为一个更好的选择，能够为人们的使用带来更大的方便。

在目前的许多手机上，也有语音拨号功能，但都是基于语音比对的。从性能上来说，有如下缺陷：

1.对于需要采用语音拨号的条目，必须事先进行录音；

2.语音拨号功能是针对特定用户的；

3.由于受到存储量的限制，能进行语音拨号的条目最多也就是20-30条；

4.准确率不高。

从技术上来说，采用的是基于动态时间规整的匹配算法，因此在使用上给用户带来许多限制和不便。可以这么说，目前手机上使用的语音拨号技术是基于上一代语音识别技术的，并没有引入语音识别技术的最新研究成果。

近年来，也有一些关于移动终端语音电话本的一些技术和应用方案被陆陆续续地提出来。这些方案可以识别更多的条目，但是也还有很多问题和不足之处，主要包括：

1.语音识别引擎不够先进，包括识别精度不高，稳健性很差，占用资源太多。

2.语音识别模块和实际的系统结合不够好。

3.没有很好地考虑到用户使用的方便性和简洁性。

这也是为什么这些方案始终没有得到实际应用的原因所在。

发明内容

本发明的目的在于提出了一种移动终端语音电话本系统，该系统提高了语音识别的准确率，而且系统中的语音识别引擎是针对非特定人的，无须事先对用户进行录音，这样一方面方便了用户，另一方面节约了移动终端的存储部件，在固定存储容量的情况下，可以存储和识别更多的电话条目，同时本系统还极大地简化和方便了移动终端用户的使用流程。

为达到上述目的，本发明是这样实现的：该语音电话本模块包括联系人主界面、传统查询模块、语音查询模块，其中语音查询模块又由录音界面、语音识别引擎、识别结果界面组成；而语音识别引擎又包括语音端点检测模块、MFCC语音特征提取模块、搜索算法模块、置信度拒识模决、音字映射表；该系统的工作流程是这样的：

系统得到联系人键按下的消息，启动联系人界面并加载传统查询模块和语音查询模块，同时判断是长按还是短按；

如果是长按，则自动打开语音输入装置，启动录音界面，等待用户语音输入；

如果是短按，则用户可以通过传统查询模块进行查询，并拨出电话号码；如果此时需要进行语音识别，可以再长按一次联系人键，则打开语音输入装置，启动录音界面，等待用户语音输入；

语音输入装置检测到用户语音后将录音数据输入到语音识别引擎进行处理和识别，然后加载识别结果界面，将识别的候选结果集置入到该识别结果界面中，同时关闭录音界面；用户在结果集选择正确的联系人，按键拨出其电话号码。

所述的语音识别引擎采用基于段长分布的隐含马尔可夫模型。

所述的基于段长分布的隐含马尔可夫模型以半音节为建模单元，即一个汉语普通话单音节被分为前半部分和后半部分，接近于声母和韵母，同时考虑了零声母的情况，前半部分被细分为两个模型状态，后半部分被细分为四个模型状态，并且每个模型状态的观测矢量分布概率密度函数采用混合高斯分布进行拟合，采用K均值算法对模型参数进行训练。

所述的录音界面在移动终端屏幕的中间，是一个弹出的具有一定时间限制的小窗口，其中包括一段文本说明，以及一个进度条，用户在该时间内进行语音呼叫，超过该时间限制则所述的录音界面自动关闭。

所述的语音识别引擎的工作流程为：语音端点检测模块对输入的录音数据截取待识别的语音段，该语音段输入到MFCC语音特征提取模块，输出45维MFCC特征矢量，传递到搜索算法模块，搜索算法模块利用事先训练得到的声学模型参数，搜索出最优路径，得到候选结果集以及每个候选结果的声学得分，然后将该候选结果集和对应声学得分输入到置信拒识模块，置信拒识模块对由于非语音信号进入识别系统后得到的识别结果和用户说的集外词予以排除，得到识别结果集，但是该识别结果是汉字拼音，将这些拼音通过音字映射表获得最终所要的联系人识别结果集。

所述的语音端点检测模块采用时域能量门限进行语音端点检测，其工作流程为：首先对输入的录音数据进行模糊聚类分析确定高能量门限和低能量门限，先找到有连续数帧的能量高于高能量门限，确定为语音段中心；然后向前找到连续数帧的能量低于低能量门限，则定为语音段的起点；再向后搜寻，找到连续数帧的能量低于低能量门限，则确定为语音段的终点。

所述的搜索算法模块采用直接匹配和树搜索的方法实现。

所述的置信拒识模块对候选结果拒识的方法是：该置信拒识模块对于每一个候选结果都会根据其声学得分计算出一个置信度值，置信度值可以由下式计算出，其中o为观测矢量序列即MFCC特征矢量，w_i为首选结果声学得分，w_j为其它候选结果声学得分，C(w_i)为对应首选结果的置信度值，

C (w_{i}) = p (w_{i} | o) = \frac{p (o | w_{i})}{\underset{j}{Σ} p (o | w_{j})}

置信拒识模块有一个预先设定的拒识门限参数，该拒识门限参数是开放的，可以根据实际情况设定拒识门限，置信度值在拒识门限之外的结果为由于非语音信号进入识别系统后得到的识别结果和用户说的集外词，被排除在最终的识别结果之外。

所述的识别结果界面分为上下两个部分，上部界面为二维表格，分成三列，分别是姓名、电话类型、电话号码，显示的是置信度最高的几个记录，用户可以选择激活联系人的其中一个电话类型对应的电话号码拨打出去；下部界面显示的是置信度稍低一些的几个侯选姓名，用户选择某侯选姓名后相应的记录信息显示在上部界面。

所述的识别结果界面设计成单元格形式，整个界面按照候选结果分割成若干个单元格，每个单元格放置一条记录，单元格内顶端为联系人姓名框，单元格的其他部分根据该联系人的电话号码个数分割成若干个可拨号字段，可拨号字段内显示电话类型名称及其号码，用户可以选择激活联系人的其中一个电话类型对应的电话号码拨打出去。

用户在选择激活联系人的其中一个电话类型时，可以有两种方式选择，即直接通过手按方式和通过语音识别方式，语音识别方式是识别用户说出的电话类型文字的语音。

本发明是一个用户可以利用多模态的方式(包含语音和按键方式)，进行电话本查询的移动终端电话本系统，它集成了先进的语音识别技术、多模态技术和人性化的用户界面和人机交互流程。在比较安静的环境下，由于提供了多候选，对正确结果的覆盖率可以达到99％。由于提供了多模态的交互方式，所以用户可以根据需要进行选择，在非常嘈杂或者不便发声的情况下可以使用传统的方式查找电话；而在一般情况下都可以采用语音加按键的“三键一呼”的方式，即利用三次按键和一次语音呼叫，更为方便快捷地寻找电话，极大地简化和方便了移动终端用户的使用。由于本发明对系统做了算法和代码地优化，整个识别系统的容量可以被控制在500K以内，占用移动终端的存储资源很少。另外，本发明的响应速度非常快，对用户的呼叫可以在一秒内给出识别结果。同时本发明的语音识别引擎是针对非特定人的，电话本中有0多少个条目，识别系统就可以识别多少个条目，这相比于目前的语音拨号，必须加入标记并进行录音，仅能进行二三十个条目的语音拨号，是有本质提高的，一方面方便了用户，另一方面节约了移动终端的存储部件，在固定存储容量的情况下，可以存储和识别更多的电话条目，因此从另一种角度看降低了移动终端语音电话本系统的实施成本。另外，由于汉字中存在一字多音的情况，在系统中我们建立了一套字到音的映射表，用户可以直接读出汉字的正确发音，而不需要考虑是否由多音字的情况存在，为用户提供了很大的方便性。

附图说明

图1为本发明实施的一种公知的移动终端的示意图；

图2为本发明的工作流程图；

图3为本发明语音识别引擎的工作流程图；

图4为本发明联系人主界面的示意图；

图5为本发明录音界面的示意图；

图6为本发明一个识别结果界面的示意图；

图7为本发明另一个识别结果界面的示意图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步的阐述：

如图1、2所示，本发明包括一个具有语音输入装置的移动终端和一个语音电话本模块，图1所示的移动终端是基于StrongARM芯片和WinCE操作系统平台的智能手机，该手机没有数字按键，支持触摸屏和手写笔，该手机左上键为一联系人键11，如图2所示，该语音电话本模块包括联系人主界面、传统查询模块、语音查询模块，其中语音查询模块又由录音界面、语音识别引擎、识别结果界面、音字映射表组成，音字映射表是指汉字与汉语拼音的对照表；而语音识别引擎又包括语音端点检测模块、MFCC语音特征(基于Me1倒谱系数的语音特征，Me1-Frequency Cepstral Coefficients)提取模块、搜索算法模块、置信度拒识模块。

如图4，联系人界面分为任务栏41和电话条目显示栏42两部分，任务栏41里放置功能按钮，如确认按钮47，电话条目显示栏42设置成表格型，分为三列，即姓名44、电话类型45(如公司电话、住宅电话、手机等)、电话号码46。

本发明的语音识别引擎采用基于段长分布的隐含马尔可夫模型。该基于段长分布的隐含马尔可夫模型以半音节为建模单元，即一个汉语普通话单音节被分为前半部分和后半部分，接近于声母和韵母，同时考虑了零声母的情况，前半部分被细分为两个模型状态，后半部分被细分为四个模型状态，并且每个模型状态的观测矢量分布概率密度函数采用混合高斯分布进行拟合，采用K均值算法对模型参数进行训练。

如图2，该系统的工作流程是这样的：

系统得到联系人键11按下的消息，启动联系人界面并加载传统查询模块和语音查询模块，同时判断是长按还是短按，长按和短按的判断标准依据移动终端的系统平台规范。

如果是长按，则在联系人界面的任务栏41中显示语音图标43，表示语音识别功能正在运行；接着自动打开语音输入装置，同时判断录音界面51是否存在，如果已经存在，则激活录音界面51，如果不存在，则加载录音界面51，等待用户语音输入；该录音界面51在移动终端屏幕的中间，是一个弹出的具有一定时间限制的小窗口，其中包括一段文本说明53，以及一个进度条52，用户在该时间内进行语音呼叫，超过该时间限制则所述的录音界面51自动关闭。用户点击录音界51窗口的任何部位，将不再进行识别，或者如果界面大小允许的话，也可以再增加一个“取消识别”的按钮。

如果是短按，则用户可以通过传统查询模块进行查询，并拨出电话号码。如果此时需要进行语音识别，则再长按一次联系人键11，则与前述长按的功效一样，打开语音输入装置，启动录音界面51，等待用户语音输入；

语音输入装置检测到用户语音后将录音数据输入到语音识别引擎进行处理和识别，然后加载识别结果界面，将识别的候选结果集置入到该识别结果界面中，同时关闭录音界面5I；用户在结果集选择正确的联系人，按键拨出其电话号码。

如图3，上述语音识别引擎的工作流程为：语音端点检测模块采用时域能量门限对输入的录音数据进行语音端点检测，其方法为：首先对输入的录音数据进行模糊聚类分析确定高能量门限和低能量门限，先找到有连续数帧的能量高于高能量门限，确定为语音段中心，然后向前找到连续数帧的能量低于低能量门限，则定为语音段的起点，再向后搜寻，找到连续数帧的能量低于低能量门限，则确定为语音段的终点，输出该语音段到MFCC语音特征提取模块，该MFCC语音特征提取模块先将语音信号通过FFT变换到频谱上，按Me1滤波器求取能量，并经过逆DCT变换得到14维MFCC系数，加上归一化帧能量以及它们的一阶和二阶差分，形成45维MFCC特征矢量，输出该45维MFCC特征矢量，传递到搜索算法模块，搜索算法模块利用事先训练得到的声学模型参数，采用直接匹配和树搜索的方法，搜索出最优路径，得到候选结果集以及每个候选结果的声学得分，然后将该候选结果集和对应声学得分输入到置信拒识模块，该置信拒识模块对于每一个候选结果都会根据其声学得分计算出一个置信度值，置信度值可以由下式计算出，其中o为观测矢量序列即MFCC特征矢量，w_i为首选结果声学得分，w_j为其它候选结果声学得分，C(w_i)为对应首选结果的置信度值，

C (w_{i}) = p (w_{i} | o) = \frac{p (o | w_{i})}{\underset{j}{Σ} p (o | w_{j})}

拒识门限是开放的，可以根据实际情况设定拒识门限，置信度值在拒识门限之外的结果为由于非语音信号进入识别系统后得到的识别结果和用户说的集外词，被排除在最终的识别结果之外，从而得到识别结果集，但是该识别结果是汉字拼音，将这些拼音通过音字映射表获得最终所要的联系人识别结果集。

如图6，识别结果界面可以分为两个部分，上部界面61为二维表格，分成三列，分别是姓名、电话类型、电话号码，显示的是置信度最高的几个记录，默认是首选记录，用户可以通过点击目标记录的姓名字段或点击电话号码字段拨打出去；下部界面62显示的是置信度稍低一些的几个侯选记录，供用户选择，用户选择完后相应的记录显示在上部界面，用户再选择拨打。

如图7，识别结果界面也可以设计成单元格形式，即整个屏幕按照候选结果分割成若干个单元格71，每个单元格放置一条记录，单元格71内顶端为联系人姓名框72，用于显示联系人姓名，灰色黑底，激活时为蓝底白字，操作方向键时，不停留在该区域，手写笔点击该区域时，相当于点击该用户的第一个激活字段；单元格71的其他部分根据该联系人的电话号码个数分割成若干个可拨号字段73，可拨号字段73内显示电话类型名称及其号码，占用2行，外框虚线，如果成为激活字段74时则为实线，宽度加宽，也可增加阴影效果，操作“拨出电话键”或者“确认键”，则启动拨号模块，拨打激活字段74对应的电话号码；操作上、下方向键时，将在激活字段74所在单元格切换激活字段，如果超出单元格范围，则切换到另一单元格中；同样，左右方向键则是切换激活字段所在行的位置；手写笔点击拨号字段区域，则激活该区域，并启动拨号模块。若文本超出了显示的范围，则需要对文本进行特殊的显示处理，如加入“…”以便更直观地显示。

另外，无论是图6还是图7所示的识别结果界面，用户在选择激活联系人的其中一个电话类型时，都可以有两种方式选择，即直接通过手按方式和通过语音识别方式，语音识别方式是识别用户说出的电话类型文字的语音。

在识别结果界面中，只要用户切换到其它应用程序(包括拨打电话、退回电话本功能等)，识别结果界面将自动结束关闭，而联系人界面依然存在。

以上是本发明的一个优选实施例，但是本发明对于所有的移动终端，包括手机、PDA、掌上电脑，我们都可以利用相同的方法设计出相似和相仿的应用来，进一步，这样的方法还可以扩展到对移动终端的菜单控制、语音记事本等许多方面，因此其实用性和推广价值是很明显的。

Claims

1、一种移动终端语音电话本系统，包括一个具有语音输入装置的移动终端和一个语音电话本模块，该移动终端设有一联系人键，其特征在于：该语音电话本模块包括联系人主界面、传统查询模块、语音查询模块，其中语音查询模块又由录音界面、语音识别引擎、识别结果界面组成；而语音识别引擎又包括语音端点检测模块、MFCC语音特征提取模块、搜索算法模块、置信度拒识模块、音字映射表；该系统的工作流程是这样的：

2、如权利要求1所述的移动终端语音电话本系统，其特征在于：所述的语音识别引擎采用基于段长分布的隐含马尔可夫模型。

3、如权利要求2所述的移动终端语音电话本系统，其特征在于：所述的基于段长分布的隐含马尔可夫模型以半音节为建模单元，即一个汉语普通话单音节被分为前半部分和后半部分，接近于声母和韵母，同时考虑了零声母的情况，前半部分被细分为两个模型状态，后半部分被细分为四个模型状态，并且每个模型状态的观测矢量分布概率密度函数采用混合高斯分布进行拟合，采用K均值算法对模型参数进行训练。

4、如权利要求1所述的移动终端语音电话本系统，其特征在于：所述的录音界面在移动终端屏幕的中间，是一个弹出的具有一定时间限制的小窗口，其中包括一段文本说明，以及一个进度条，用户在该时间内进行语音呼叫，超过该时间限制则所述的录音界面自动关闭。

5、如权利要求1所述的移动终端语音电话本系统，其特征在于：所述的语音识别引擎的工作流程为：语音端点检测模块对输入的录音数据截取待识别的语音段，该语音段输入到MFCC语音特征提取模块，输出45维MFCC特征矢量，传递到搜索算法模块，搜索算法模块利用事先训练得到的声学模型参数，搜索出最优路径，得到候选结果集以及每个候选结果的声学得分，然后将该候选结果集和对应声学得分输入到置信拒识模块，置信拒识模块对由于非语音信号进入识别系统后得到的识别结果和用户说的集外词予以排除，得到识别结果集，但是该识别结果是汉字拼音，将这些拼音通过音字映射表获得最终所要的联系人识别结果集。

6、如权利要求1或5所述的移动终端语音电话本系统，其特征在于：所述的语音端点检测模块采用时域能量门限进行语音端点检测，其工作流程为：首先对输入的录音数据进行模糊聚类分析确定高能量门限和低能量门限，先找到有连续数帧的能量高于高能量门限，确定为语音段中心；然后向前找到连续数帧的能量低于低能量门限，则定为语音段的起点；再向后搜寻，找到连续数帧的能量低于低能量门限，则确定为语音段的终点。

7、如权利要求1或5所述的移动终端语音电话本系统，其特征在于：所述的搜索算法模块采用直接匹配和树搜索的方法实现。

8、如权利要求1或5所述的移动终端语音电话本系统，其特征在于：所述的置信拒识模块对候选结果拒识的方法是：该置信拒识模块对于每一个候选结果都会根据其声学得分计算出一个置信度值，置信度值可以由下式计算出，其中o为观测矢量序列即MFCC特征矢量，w_i为首选结果声学得分，w_j为其它候选结果声学得分，C(w_i)为对应首选结果的置信度值，

C (w_{i}) = p (w_{i} | o) = \frac{p (o | w_{i})}{\underset{j}{Σ} p (o | w_{j})}

9、如权利要求1所述的移动终端语音电话本系统，其特征在于：所述的识别结果界面分为上下两个部分，上部界面为二维表格，分成三列，分别是姓名、电话类型、电话号码，显示的是置信度最高的几个记录，用户可以选择激活联系人的其中一个电话类型对应的电话号码拨打出去；下部界面显示的是置信度稍低一些的几个侯选姓名，用户选择某侯选姓名后相应的记录信息显示在上部界面。

10、如权利要求1所述的移动终端语音电话本系统，其特征在于：所述的识别结果界面设计成单元格形式，整个界面按照候选结果分割成若干个单元格，每个单元格放置一条记录，单元格内顶端为联系人姓名框，单元格的其他部分根据该联系人的电话号码个数分割成若干个可拨号字段，可拨号字段内显示电话类型名称及其号码，用户可以选择激活联系人的其中一个电话类型对应的电话号码拨打出去。

11、如权利要求9或10所述的移动终端语音电话本系统，其特征在于：用户在选择激活联系人的其中一个电话类型时，可以有两种方式选择，即直接通过手按方式和通过语音识别方式，语音识别方式是识别用户说出的电话类型文字的语音。