CN100521708C

CN100521708C - 移动信息终端的语音识别与语音标签记录和调用方法

Info

Publication number: CN100521708C
Application number: CNB2005100950359A
Authority: CN
Inventors: 朱立锋; 牟中平; 赵志旺
Original assignee: NANJING LIANHUI COMMUNICATION TECHNOLOGY Co Ltd; Panda Electronics Group Co Ltd
Current assignee: NANJING LIANHUI COMMUNICATION TECHNOLOGY Co Ltd; Panda Electronics Group Co Ltd
Priority date: 2005-10-26
Filing date: 2005-10-26
Publication date: 2009-07-29
Anticipated expiration: 2025-10-26
Also published as: CN1758678A

Abstract

移动通讯终端的语音识别与语音标签记录和调用方法，用语音识别与语音标签记录时，用语音输入电话簿信息时，首先语音提示输入电话号码，用户通过语音报读电话号码，手机启动语音软件识别系统，识别用户报读号码，完成识别后用语音提示用户输入姓名，用户报读姓名后，调用语音软件识别系统部分功能，完成对用户报读姓名的采样，样本分析和特征的记录，并把语音样本的特征记录作为语音标签记录。本发明的可以使视障残疾人方便、可靠地使用手机终端，具有良好的社会效益。也是一种多用途的手机。

Description

移动信息终端的语音识别与语音标签记录和调用方法

一、技术领域

本发明涉及一种移动信息终端的设置方法，尤其是移动通讯终端的语音识别与语音标签记录与调用方法。

二、背景技术

普通手机终端依赖显示屏(LCD)与使用者进行交流，一些必要的操作(比如拨号、从电话簿里选择被叫人、查看短信等)必须通过显示屏显示给使用者或让使用者确认，这显然不适合视障残疾人使用(包括极弱视消费者)。目前的手机未有此种功能的应用。

CN00103333一种可同时供盲人使用的电话和手机，特别涉及一种可同时供盲人使用的电话机和手机。它首先利用盲人用手触摸识别原理，在现有电话和手机的0123456789及其它功能键上刻印并显突出所代表的盲文，这样盲人只要一触电话及手机的按键马上就可识别出其功能，而象正常人一样使用电话和手机，同时每个按键都连接着一个语音集成块，而一改现有电话音只用一个单音鸣示而改为语言读出，但并不能解决功能性的输入问题。

公开的“中国盲文计算机系统”设计并实现了汉字和盲文点字之间按照现有各种编码规则的翻译转换。提出了基于多种知识一体化分析的汉盲翻译转换算法，该算法根据汉语特征与盲文特征的内在联系，设计了多种知识的统一形式化描述和相应的规则处理机制，有效地解决了转换过程中的汉语分词歧义和连写问题，实现了汉语到盲文的自动翻译转换机制。包括盲盲输入、盲汉输入、汉盲输入、盲英和盲文到ASCII码等多种输入方式；“盲用的拼音输入法”使用大键盘以全拼、双拼方式输入汉字；“普通输入法朗读器”通过实时语音提示，但上述方案未能在手机上具体应用和实施。

CN01118923.1盲文数码(小键盘)输入法即盲文数字小键盘输入法。基本编码原理是把视力残疾人触摸所感知的符号与键号揉合起来，用10个数字作代码，按照凸凹点序编码，每方码长上限为3码，需要辅助键用于输入。

三、发明内容

本发明的目的是：为解决视障残疾人使用手机终端的技术障碍，在普通手机终端技术的基础上提出一种移动通讯终端的语音识别与语音标签记录与调用方法。

本发明的目的是这样实现的：移动通讯终端的语音识别与语音标签记录方法，其特征是手机开机后，在搜索到网络并准备好后，通过语音告诉使用者“手机已经正常”；用户如果需要用语音输入电话簿信息时，在电话簿信息输入方式中选择语音输入方式，既可启用电话簿语音输入方式。用户如果需要用语音输入备忘录信息时，在备忘录信息输入方式中选择语音输入方式，既可启用备忘录语音输入方式。采用语音数字识别，语音标签信息查询，录音信息记录的方式，实现完全的语音电话簿和语音备忘录的功能。

在启用电话簿语音输入方式情况下，首先语音提示输入电话号码，用户通过语音报读电话号码，手机启动语音软件识别系统，识别用户报读号码，完成识别后用语音提示用户输入姓名，用户报读姓名后，调用语音软件识别系统部分功能，完成对用户报读姓名的采样，样本分析和特征的记录，并把语音样本的特征记录作为语音标签记录。在以后用户语音信息查询中，把语音输入的姓名进行采样和样本分析，并将样本分析的特征与以前记录的语音标签进行比对，找出特征值一致的记录，并报读对应的用户存储信息。

语音备忘录的工作原理与语音电话簿一样，首先用户语音输入备忘录信息并进行采样和记录，再进行用户识别语音标签的输入和处理并存储。调用过程与语音电话簿一致，调用内容为信息录音。

在手机语音识别软件系统中，对于数字号码，内容少(十个数字)，每个数字发音差别大，可以在不训练条件下做到很高的识别率，但是对于普通汉字，数量大，很多字之间发音差别小，要做到不训练条件下高的识别率十分困难并且不现实。本发明可以使用智能语音识别(AR)方法和文字—语音转换(TTS)方法的软件用于支持语音识别的拨号控制和文字一语音转换。

此外，可以在键盘上设有进入语音拨号或进入语音备忘录的智能按键。当然，也可以不设专用功能键，而是设置复用某一键。操作者只要按此键，进入中断子程序，进入语音拨号或语音备忘录。而恢复键控需要再长按此键。

本发明的有益效果：可以使视障残疾人方便、可靠地使用手机终端，具有良好的社会效益。也是一种多用途的手机。

四、附图说明

图1为本发明语音识别标签记录程序框图

图2为本发明语音调用过程程序框图

五、具体实施方式

本发明装置硬件实现方法采用现有构件：主板中(为现有技术的终端或手机)包括DSP/CPU、DBB(数字基带处理器)、ABB(模拟基带处理器)，此为GSM设备的核心芯片，主要用于GSM通信的编解码、错误控制以及协调控制外部存储器、语言拨号控制。LCD、键盘等、频率合成器、双工器、功放、低噪声放大器、受话器和送话器，均为常用的硬件电路。

当然在普通手机的硬件基础上，可以增加“智能键”，操作者只要按一键，如复用键或专用键，如用数字“5”作为进入语音拨号的智能按键时，长按“5”键就可以开始进入语音识别操作。

移动信息终端的语音识别与语音标签的采集与确认有多种方法：如ACM语音采集serve端点检测。

以下是另一种实施例：采用语音信号的短时能量和短时过零率进行端点检测。语音信号的采样频率为8kHz，每帧数据为20ms，共计160个采样点。每隔20ms计算一次短时能量和短时过零率。通过对语音信号的短时能量和短时过零率检测可以剔除掉静默帧、白噪声帧和清音帧，最后保留对求取基音、LPCC等特征参数非常有用的浊音信号。

特征参数的选取，选取的特征必须能够有效地区分不同的说话人，且对同一说话人的变化保持相对稳定，同时要求特征参数计算简便，有高效快速算法，以保证识别的实时性。

语音特征大体可归为下述几类：

(1)基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。如谱包络、基音、共振峰等。其中基音能够很好地刻画说话人的声带特征。

(2)基于声道特征模型，通过线性预测分析得到的参数。包括线性预测系数(LPC)以及由线性预测导出的各种参数，如线性预测倒谱系数(LPCC)、部分相关系数、反射系数、对数面积比、LSP线谱对、线性预测残差等。LPCC参数不但能较好地反馈声道的共振峰特性，具有较好地识别效果，而且可以用比较简单的运算和较快的速度求得。

(3)基于人耳的听觉机理，反映听觉特性，模拟人耳对声音频率感知的特征参数。如美国尔倒谱系数(MFCC)等。还可通过对不同特征参数量的组合来提高实际系统的性能。当各组合参量间相关性不大时，会有较好的效果，因为它们分别反映了语音信号的不同特征。

本实施例采用了基音周期和线性预测倒谱系数(LPCC)共同作为说话人识别的特征参数。LPCC参数的提取：基于线性预测分析的倒谱参数LPCC可以通过简单的递推公式由线性预测系数求得。使LPC模型的阶数p与共振峰个数相吻合，其次是考虑声门脉冲形状和口唇辐射影响的补偿。通常一对极点对应一个共振峰，10kHz采样的语音信号通常有5个共振峰，取p＝10，对于8kHz采样的语音信号可取p＝8。线性预测系数的求取：自相关解法主要有杜宾(Durbin)算法、格型(Lattice)算法和舒尔(Schur)算法等几种递推算法。其中在杜宾算法是目前最常用的算法，而且在求取LPG系数时计算量也量小，本系统采用该递推算法。

基音参数的提取：

基音估计时，首先对带通滤波后的短时语音信号进行线性预测，求取预测残差；再对残差信号求自相关函数，找出第一最大峰值点的位置，即得到该段语音的基音估计值。

本实施例采用端点松驰两点的动态时间规整(DTW)算法，端点松驰引起的计算量增加并不大，还可以放松对端点检测的精度要求。上述方法体现在手机启动语音软件识别系统内。

当用户通过语音报读电话号码，手机启动语音软件识别系统(一般根据基音等特征采集)，识别用户报读号码，完成识别后用语音提示用户输入姓名，用户报读姓名后，调用语音软件识别系统部分功能，完成对用户报读姓名的采样，样本分析和特征的记录，并把语音样本的特征记录作为语音标签记录。

在以后用户语音信息查询中，把语音输入的姓名进行采样和样本分析，并将样本分析的特征与以前记录的语音标签进行比对，找出特征值一致的记录，并报读对应的用户存储信息。语音拨号手动指向手机语音拨号功能，说出被叫者姓名，电话即自动拔向被叫者。某某的电话是86543218。只要你摘机后说：“某某”，电话自动拨通86543218，无需再用手拨。

使用此功能前，用户通过录制语音标签把被叫人姓名的语音以及电话号码输入手机。

语音备忘录的工作原理与语音电话簿一样，首先用户语音输入备忘录信息并进行采样和记录，再进行用户识别语音标签的输入和处理并存储。用户报读姓名后，调用语音软件识别系统部分功能，完成对用户报读姓名的采样，样本分析和特征的记录，并把语音样本的特征记录作为语音标签记录。在以后用户语音信息查询中，把语音输入的姓名进行采样和样本分析，并将样本分析的特征与以前记录的语音标签进行比对，找出特征值一致的记录，并报读对应的用户存储信息。

本发明还可以结合智能语音识别(AR)方法和文字一语音转换(TTS)方法通过软件使菜单语音报读并集成语音识别、以TTS(Text to Speech)文本朗读等软件功能来方便视障人士使用。集成的语音识别功能不依赖通话者，支持不需要训练的号码识别和姓名识别。所述TTS为现有技术，其系统实施共采集了1335种发音，内含1306个流字发音，26个英文字母发音及3个停顿音。原始语音以WAV文件的格式保存在终端内。8Mbit×8位NAND型Flash存储器K9F6408UOB作为语音库的存储结构。GB2312汉字编码字符集中每个汉字在地址表中都有一个对应项，其内容指向该汉字对应读音的语音数据起始地GB码字符集中共有94个区，每区94个字符，总计8836个汉字、英文字母和其它符号语音数据区共存储1335个发音，采用流程编码压缩存放，并在每段语音数据结尾添加01H作为结束控制符。对不同的Flash存储器，语音库需做一些针对性的处理。

Claims

1、移动信息终端的语音识别与语音标签记录和调用方法，用语音识别与语音标签记录时，其特征是用语音输入电话簿信息时，首先语音提示输入电话号码，用户通过语音报读电话号码，手机启动语音软件识别系统，识别用户报读号码，完成识别后用语音提示用户输入姓名，用户报读姓名后，调用语音软件识别系统功能；语音识别时采用语音信号的短时能量和短时过零率进行端点检测，语音信号的采样频率为8kHz，每帧数据为20ms，共计160个采样点；每隔20ms计算一次短时能量和短时过零率；通过对语音信号的短时能量和短时过零率检测剔除掉静默帧、白噪声帧和清音帧，保留对求取基音、线性预测倒谱系数特征参数的浊音信号；完成对用户报读姓名的采样，样本分析和特征的记录，并把语音样本的特征记录作为语音标签记录；用户调用时，调用内容为信息录音；采用语音数字识别，语音标签信息查询录音信息记录的方式，得到语音查询号码或查询信息；实现完全的语音电话簿的功能；结合智能语音识别方法和文字——语音转换方法使菜单语音报读，并在以后用户语音信息查询中，把语音输入的姓名进行采样和样本分析，并将样本分析的特征与以前记录的语音标签进行比对，找出特征值一致的记录，并报读对应的用户存储信息；用语音输入备忘录信息时，在备忘录信息输入方式中选择语音输入方式，用户语音输入备忘录信息并进行采样和记录，再进行用户识别语音标签的输入和处理并存储；在以后用户语音信息查询中，把语音输入的姓名进行采样和样本分析，并将样本分析的特征与以前记录的语音标签进行比对，找出特征值一致的记录，并报读对应的用户存储信息。