CN1674091A

CN1674091A - 地理信息的语音识别方法及其在导航系统中的应用

Info

Publication number: CN1674091A
Application number: CNA2005100389311A
Authority: CN
Inventors: 张亮; 龙毅
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2005-04-18
Filing date: 2005-04-18
Publication date: 2005-09-28
Anticipated expiration: 2025-04-18
Also published as: CN100358006C

Abstract

本发明公开了一种地理信息的语音识别方法，其特征是：再现有语音识别方法的基础上，增加语言获取和语言匹配两个步骤；语言获取是利用现有语音识别模块及其调用接口，加入到地理信息的应用处理程序中，得到识别后的随机带噪字符串，将其转换为拼音字符串；语言的匹配是从现有的地理信息数据库中取出地理信息字符串转换为拼音字符串，与带噪拼音字符串匹配，计算基于拼音字符串的相近匹配度，从中得到最大相近匹配度的源串为语音识别的结果字符串，即需要查询的地理信息名称。本方法提高了语音识别的灵敏度和语音识别的能力，算法简单易行，可以和各种语音识别软件配合使用。将其应用到导航系统中，可以提高交通导航系统的智能化程度。

Description

地理信息的语音识别方法及其在导航系统中的应用

技术领域

本发明涉及一种语音识别方法，具体说是一种地理信息的语音识别方法及其在导航系统中的应用。

背景技术

语音识别技术就是一个让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，它可以为电子地图和地理信息系统(GIS)的应用提供智能化的人机交互界面服务。地理信息具有应用广泛的特点，对一个地理信息产品，通常使用者众多且频繁变动，外部环境噪声干扰大，随机性强，另外在我国地名信息一般采用汉字，文字之间有时缺乏语义关联，都直接影响了语音识别软件的应用。一些优秀的语音识别软件和模块，如IBM ViaVoice、NaturallySpeaking、Microsoft Speech SDK等，汉语语音识别率与英文相比偏低，受环境噪声影响大，易生成错误文字或者无效文字，难以在电子地图和GIS中得到较好的应用。在2686930专利公开的机载GPS语音导航系统中，语音主要用于导航信息的提示，无法进一步发挥语音识别的作用。

由于噪声对语音识别的影响大，目前主要通过对语音信号的处理来解决，包括语音增强、噪声屏蔽、提取特征参数和自适应处理等。据1542737专利公开了一种语音识别噪声自适应系统和方法，能够对许多类型的噪声数据进行最优聚类并且提高对输入语音的语音模型序列估计的精确度。哈尔滨工业大学的韩纪庆等人提出了在高噪声环境下应用环境特征学习方法针对特定人孤立词的语音识别方法。但是这些方法都是直接面对语音的底层处理，易导致系统的不灵活。对电子地图和GIS应用而言，尽管采用互联网上免费提供的开放的语音识别软件模块获取的数据可能带有噪声，但在已有地理信息数据库的情况下，可以利用现有的先验数据，通过近似的模糊匹配，来提高语音识别的效率。这些软件模块成本低，占用空间少，容易获取与更新，适合于要求功能灵活、快捷的电子地图与GIS系统的需要。

发明内容

本发明所要解决的技术问题在于克服现有技术存在的缺陷，针对目前汉语语音识别软件在噪声环境下存在的识别率低的情况，以现有语音识别模块为语音数据采集与识别的基础工具，对由其获取的随机带噪字符串，利用已有的地理信息名称字符串，建立在噪声破坏下它们之间存在的更加反映细节近似程度的相近匹配度指标，提供一种地理信息的语音识别方法，并将其应用于导航系统中。

由于在我国地理信息名称的文字之间有时缺乏关联性，汉字的语音表达很难保证完全正确，本发明是基于地理信息的语音识别方法，因此采用拼音字符串比较的方法，以提高语言匹配的效率。拼音字符串为汉字字符串的拼音转换，其中每个汉字所对应的拼音字符串称为音节字符串，每个音节字符串由声母字符串和韵母字符串构成，其中声母字符串的字符不能分解，最多只能计算成1个字符，称为有效字符，如b、p、s、sh、ch、zh都是1个有效字符，韵母字符串可以分解，如iu、ao都是2个有效字符，iong、uang都是4个有效字符。音节字符串之间用特定字符(如空格)分割。针对拼音中存在模糊拼音的情况，应将模糊拼音视为相同，以提高识别率。

本发明方法是再现有语音识别方法的基础上，增加语言获取和语言匹配两个步骤；

语言获取——是利用现有语音识别模块及其调用接口，加入到地理信息的应用处理程序中，运行该程序，启动语音采集和识别功能，得到识别后的随机带噪字符串，将其转换为拼音字符串；汉语到拼音字符串的转换是通过现有汉字-拼音对照文件直接编写转换函数实现；

语言的匹配——考虑到随机噪音的存在，从现有的地理信息数据库中取出地理信息字符串，同样转换为拼音字符串(简称为源串)，与带噪拼音字符串(简称目标串)匹配，计算基于拼音字符串的相近匹配度，从中得到最大相近匹配度的源串为语音识别的结果字符串，即需要查询的地理信息名称；

所述相近匹配度计算的基本过程是：

a、设定源串的音节数、有效字符数为M₁、N₁，目标串的音节数、有效字符数为M₂、N₂；源串的音节字符串集合为S₁={S_1′|i=1，M₁ and ∑ Len(S_1′)＝N₁}，目标串的音节字符串集合为S₂={S_2′|i=1，M₁ and ∑ Len(S_2′)＝N₂}；Len(S)表示字符串S的长度，分割符不在计算范围内；

b、将源串的拼音字符串递次从前面去掉1个音节字符串，得到M₁个新拼音字符串集合T＝{T_k|k=1，M₁ and T_k＝{S_1′|i=k，M₁}}

c、依次从T中取出新拼音字符串(T_j，j＝1，M₁)，分别与目标串进行匹配运算；

d、从T_j中依次取出音节字符串Y_n＝S_1n+j-1，n＝1，M₁-j+1；

e、对于Y_n，与目标串S₂的音节字符串比较时，必须从S₂的第m个音节字符串S_2m开始一直到S_2M2(最后一个音节字符串)，得到(M₂-m+1)个匹配值，其中最大的一个匹配值记为Mat(Y_n)，该匹配值对应的音节字符串在S₂中的音节位置记为Loc(Y_n)；设初始化时Loc(Y₀)＝0，对于m，则有

m = \{\begin{matrix} 1 & n = 1 \\ Loc (Y_{n - 2}) + 1 & M_{1} - j + 1 &GreaterEqual; n > 1 and Mat (Y_{n - 1}) = 0 \\ Loc (Y_{n - 1}) + 1 & M_{1} - j + 1 &GreaterEqual; n > 1 and Mat (Y_{n - 1}) > 0 \end{matrix}

对于两个音节字符串的匹配比较，设其匹配值为p，初始化为0，应遵循三个原则：①两个音节字符串的声母、韵母字符串分开比较；②无论是声母比较，还是韵母比较，模糊拼音文件中记录的模糊拼音应确定为完全匹配；③两个音节字符串的声母字符串相互比较，如果完全匹配，p加1，否则不计；两个音节字符串的韵母字符串相互比较，如果完全匹配或者部分匹配，p增加匹配正确的有效字符数，否则不计；部分匹配是指两个字符串中部分字符相同，且前后顺序一致的情况，如iong和ing就有三个字符匹配，分别为i、n、g；

f、转到d，直到T_j的所有音节字符串结束；

g、对于T_j和S₂比较的结果，得到一组{Mat(Y_n)|n＝1，M₁-j+1}序列，从中找出最大匹配值

Q_j＝MAX{Mat(Y_n)|n＝1，M₁-j+1}

作为T_j与目标串S₂的匹配值；从{Loc(Y_n)|n＝1，M₁-j+1}序列中计算当T_j时，目标串S₂的有效匹配区域的上下限音节位置分别为

Loc_max＝MAX{Loc(Y_n)|n＝1，M₁-j+1}

Loc_min＝MIN{Loc(Y_n)|n＝1，M₁-j+1}

MIN{}表示取集合中的最小值，MAX{}表示取集合中的最大值；匹配区域内的有效字符总数为

N_{2 j}^{'} = Σ_{k = {Loc}_{\min}}^{{Loc}_{\max}} Len (S_{2 k})

h、转到d，直到T中所有的新拼音字符串比较结束；

i、得到一组{(Q_j，N_2j′)|j＝1，M₁}序列，其中{Q_j|j＝1，M₁}中的最大值Q为源串S₁与目标串S₂的结果匹配值，对应的N_2j′值为目标串S₂的匹配区域内的有效字符总数，记为N₂′；

j、计算基于源串和目标串的相近匹配度，其大小为S₁与S₂经过匹配运算后的最大匹配字符数和总有效字符数的比值的两倍，其中总有效字符数是S₁的有效字符串数N₁与S₂的匹配区域内有效字符数N₂′之和，即相近匹配度

f = \frac{2 Q}{N_{1} + N_{2}^{'}} .

本发明公开的方法是以地理信息应用为目的，以地理名称信息为对象，在传统的基于语音信号的模式匹配基础之上，通过对得到的随机带噪语言和地理信息名称数据的细部结构相近程度比较，在二次匹配的基础上提高了语音识别的灵敏度，提高了语音识别的能力，且算法简单易行，可以和各种语音识别软件配合使用。

相近匹配度的概念提供了一个在正确拼音字符串和带噪拼音字符串之间比较相近程度的量化指标，其核心思想是承认语音输入和识别过程中噪声的客观存在和随机性，同时该指标也解决了输入信息不足情况下的模糊识别问题。

本方法针对地理信息的语音识别，采用了如下的策略：(1)以拼音字符串为处理对象，避免了汉字匹配度相对较低的问题；(2)在随机噪声干扰下，针对用户语音被部分破坏(包括声母破坏或韵母破坏)或者完全破坏的情况，在匹配运算时采用以音节为单位进行声母字符串与韵母字符串独立比较的方法，既考虑了音节字符串的完整性，又同时提高了匹配的灵敏度；(3)在最大匹配字符数计算时，采用了递次从源串的前面去掉一个音节字符串，作为一个新拼音字符串，并重新和目标串比较，提高了后面音节字符串的匹配率，避免由于目标串前面音节被噪声破坏的影响；(4)在相近匹配度计算时以总有效字符数为分母，总有效字符数同时考虑了源串和目标串的匹配有效区，从而进一步起到降低噪声和提高模糊匹配能力的作用。

本方法没有从语音的声音模型分析开始，而是用一般常用的语音输入识别模块为基础，将重点放在语言的匹配与理解上，随着语音输入设备和识别软件的进一步完善，结合本方法的匹配与理解功能，将具有更好的效果，对于提高交通导航系统的智能化程度发挥更大的作用。

附图说明

图1本发明方法计算机软件流程框图；

图2两个拼音字符串相近匹配度算法流程图；

图3两个单音节字符串匹配值算法流程图；

图4～15为测试的一些典型例图，拼音为Microsoft Speech SDK识别结果，中文名称为采用本发明的方法在拼音基础上重新匹配的结果。

具体实施方式

下面结合附图和实施例，对本发明作进一步详细说明。

实施例：

以电子地图支持下的交通导航系统为例，通过采集城市电子地图数据库，包括城市地图(尤其包括城市交通)的空间数据和地名信息等，建立导航句法—关键词规则库，运用本发明的语音识别方法，从依次取出每条句法的关键词字符串转换为拼音字符串作为源串，与语音输入的目标串进行匹配，得到一组相近匹配度值，取其中最大的值所对应的拼音字符串作为关键字，以此为基础截取带噪的地理信息名称字符串。从电子地图数据库中依次取出地理信息名称字符串转换为拼音字符串作为源串，将带噪的地理信息名称字符串作为目标串进行相近匹配度计算，得到一组相近匹配度，取其中最大值，记录对应的字符串作为名称字符串。根据功能的要求，通过记录的名称从电子地图数据库中取出地图目标，进行目标查询或路径分析处理，并将运算结果显示在电子地图中。

表1～2为Microsoft Speech SDK与经过本发明方法匹配后的识别率比较，其中表1在白天测试，运行环境噪声显著，表2在深夜测试，噪声不显著。测试人员使用头戴式麦克风，每人读相同的25组地名。

表1

试验人员编号	01	02	03	04	平均值
试验人员编号	01	02	03	04	平均值	试验次数	25	25	25	25	25
Microsoft SpeechSDK	48％	56％	64％	56％	56％	试验次数	25	25	25	25	25
Microsoft SpeechSDK	48％	56％	64％	56％	56％	本方法	84％	88％	84％	76％	83％

表2

试验人员编号	01	02	03	04	平均值
试验人员编号	01	02	03	04	平均值	试验次数	25	25	25	25	25
Microsoft SpeechSDK	76％	88％	72％	84％	82％	试验次数	25	25	25	25	25
Microsoft SpeechSDK	76％	88％	72％	84％	82％	本方法	96％	96％	88％	92％	93％

Claims

1、一种地理信息的语音识别方法，其特征是：在现有语音识别方法的基础上，增加语言获取和语言匹配两个步骤；

所述相近匹配度计算的基本过程是：

a、设定源串的音节数、有效字符数为M₁、N₁，目标串的音节数、有效字符数为M₂、N₂；源串的音节字符串集合为S₁＝{S_1i|i＝1，M₁and∑Len(S_1i)＝N₁}，目标串的音节字符串集合为S₂＝{S_2i|i＝1，M₁and∑Len(S_2i)＝N₂}；Len(S)表示字符串S的长度，分割符不在计算范围内；

b、将源串的拼音字符串递次从前面去掉1个音节字符串，得到M₁个新拼音字符串集合T＝{T_k|k＝1，M₁andT_k＝{S_1i|i＝k，M₁}}；

d、从T_j中依次取出音节字符串Y_n＝S_1n+j-1，n＝1，M₁-j+1；

m = \{\begin{matrix} 1 & n = 1 \\ Loc (Y_{n - 2}) + 1 & M_{1} - j + 1 &GreaterEqual; n > 1 andMat (Y_{n - 1}) = 0 \\ Loc (Y_{n - 1}) + 1 & M_{1} - j + 1 &GreaterEqual; n > 1 andMat (Y_{n - 1}) > 0 \end{matrix}

f、转到d，直到T_j的所有音节字符串结束；

Q_j＝MAX{Mat(Y_n)|n＝1，M₁-j+1}作为T_j与目标串S₂的匹配值；从{Loc(Y_n)|n＝1，M₁-j+1}序列中计算当T_j时，目标串S₂的有效匹配区域的上下限音节位置分别为

Loc_max＝MAX{Loc(Y_n)|n＝1，M₁-j+1}

Loc_min＝MIN{Loc(Y_n)|n＝1，M₁-j+1}MIN{}表示取集合中的最小值，MAX{}表示取集合中的最大值；匹配区域内的有效字符总数为

N_{2 j}^{'} = Σ_{k = Lo c_{\min}}^{Lo c_{\max}} Len (S_{2 k})

h、转到d，直到T中所有的新拼音字符串比较结束；

f = \frac{2 Q}{N_{1} + N_{2}^{'}} \cdot

2、权利要求1所述的地理信息的语音识别方法在导航系统中的应用。