CN104008132B

CN104008132B - 语音地图搜索方法及系统

Info

Publication number: CN104008132B
Application number: CN201410185061.XA
Authority: CN
Inventors: 王昕�; 刘轶; 石伟; 张勇; 黄石磊; 程刚; 林海洲; 陈诚
Original assignee: Shenzhen Beike Risound Polytron Technologies Inc
Current assignee: Shenzhen Beike Risound Polytron Technologies Inc
Priority date: 2014-05-04
Filing date: 2014-05-04
Publication date: 2018-09-25
Anticipated expiration: 2034-05-04
Also published as: CN104008132A

Abstract

本发明提供了一种语音地图搜索方法及系统，其中，语音地图搜索方法包括：采集语音信号；对语音信号进行初步识别，得到初步识别结果；判断初步识别结果是否可信；若所述初步识别结果可信，输出所述初步识别结果；若初步识别结果不可信，则将语音信号及初步识别结果发送至服务器，并接收服务器返回的对语音信号进行最终识别得到的最终识别结果，以及对最终识别结果进行模糊检索得到的搜索结果。本发明的语音地图搜索方法及系统对客户端要求较低、搜索速度快，且识别准确率较高。

Description

语音地图搜索方法及系统

技术领域

本发明涉及语音地图搜索领域，特别是涉及一种语音地图搜索方法及系统。

背景技术

随着城市道路日益复杂，人们对地图搜索的需求越来越大，语音地图搜索由于其便捷性，正逐渐成为用户青睐的地图搜索方式。

传统的语音地图搜索系统，通常采用本地识别，即语音采集和识别以及地名搜索都在客户端完成。客户端首先将用户输入的语音音频信息转换为文本信息，再对识别得到的文本信息进行搜索，由于地图库中地点条目非常多，可到达数百万甚至上千万，造成语音识别系统的解码空间长而复杂，对所需的硬件提出较高的要求，这增加了客户端的成本，而且结构复杂、运行速度慢。此外，用户在进行语音地图搜索时，所说内容具有一定的随意性，这导致用户语音输入的内容与数据库中保存的地名条目的用词顺序不同或用词本身有微小差异，如用户语音输入的是“东门茂业百货”，而数据库中保存的是“茂业百货东门店”，一旦出现上述情况，传统的语音地图搜索系统往往无法正确识别用户所说内容。

发明内容

基于此，有必要针对传统语音地图搜索系统对客户端要求高而搜索速度慢，且不易正确识别的问题，提供一种对客户端要求较低、搜索速度快，且识别准确率较高的语音地图搜索方法及系统。

一种语音地图搜索的方法，包括以下步骤：

采集语音信号；

初步识别，对语音信号进行初步识别，得到初步识别结果；

判断初步识别结果是否可信；

若初步识别结果可信，输出初步识别结果；

若初步识别结果不可信，则将语音信号及初步识别结果发送至服务器，并接收服务器返回的对语音信号进行最终识别得到的最终识别结果，以及对最终识别结果进行模糊检索得到的搜索结果。

在其中一个实施例中，对语音信号进行初步识别，得到初步识别结果包括以下步骤：

获取客户端静态解码图；

利用客户端静态解码图识别语音信号，得到客户端音素网格；

根据客户端音素网格求解最佳路径，得到初步识别文本；

计算并输出客户端音素网格的解码最佳路径的置信度。

在其中一个实施例中，最终识别包括以下步骤：

获取服务器静态解码图；

获取语音信号及客户端音素网格；

根据语音信号生成服务器音素网格，然后根据服务器音素网格对客户端音素网格进行扩展，得到最终音素网格；

利用服务器静态解码图对最终音素网格进行解码，得到语音输入内容；

识别语音输入内容，得到文本内容。

在其中一个实施例中，采集语音信号之前，该方法还包括建立索引库；建立索引库包括以下步骤：

根据地名生成索引文档，该索引文档包括地名词条、地名词条长度以及地名一元分词词条；

对所有索引文档建立索引并保存为索引文件；

将所有索引文件加入索引库。

在其中一个实施例中，对最终识别结果进行模糊检索得到的搜索结果包括以下步骤：

获取关键词列表；

根据关键词列表移除文本内容中的关键词，得到地名文本内容；

对地名文本内容进行词合并操作，得到合并文本内容；

根据合并文本内容构建模糊检索词串；

在索引库内对模糊检索词串进行检索，并输出搜索结果。

在其中一个实施例中，该方法还包括：

预设搜索结果的显示数量；

在得到搜索结果后，按照搜索结果与语音信号的匹配度从高到低筛选得到符合预设数量的搜索显示结果；

显示该搜索显示结果。

在其中一个实施例中，采集语音信号之前，该方法还包括训练语音识别模型得到服务器静态解码图和客户端静态解码图；训练语音识别模型得到服务器静态解码图和客户端静态解码图包括以下步骤：

训练背景语音模型和语言模型，语言模型包括背景语言模型和对该背景语言模型剪枝后得到的剪枝语言模型；

利用语言模型生成发音字典；

利用背景语音模型、背景语言模型和发音字典生成供服务器使用的服务器静态解码图；

利用背景语音模型、剪枝语言模型和发音字典生成供客户端使用的客户端静态解码图。

一种语音地图搜索系统，包括客户端，该客户端包括：

语音采集模块，用于采集语音信号；

初步识别模块，用于对语音信号进行初步识别，得到初步识别结果；

置信度判决模块，用于判断初步识别结果是否可信；

客户端输出模块，用于在初步识别结果可信时，输出初步识别结果；

传输模块，用于在初步识别结果不可信时，将语音信号及初步识别结果发送至服务器，并接收服务器返回的对语音信号进行最终识别得到的最终识别结果，以及对该最终识别结果进行模糊检索得到的搜索结果。

在其中一个实施例中，初步识别模块获取客户端静态解码图，利用客户端静态解码图识别语音信号得到客户端音素网格，并根据客户端音素网格求解最佳路径，得到初步识别文本，以及计算并输出客户端音素网格的解码最佳路径的置信度。

在其中一个实施例中，该系统还包括服务器，服务器包括：

最终识别模块，用于对接收语音信号和客户端音素网格，并识别语音信号得到文本内容；

检索词处理模块，用于对文本内容进行处理，得到模糊检索词串；

服务器检索模块，用于对模糊检索词串进行检索；以及

服务器输出模块，用于输出搜索结果。

在其中一个实施例中，客户端还包括显示模块，用于预设搜索结果的显示数量，并在得到搜索结果后，按照搜索结果与语音信号的匹配度从高到低筛选得到符合预设的显示数量的搜索显示结果，最后显示该搜索显示结果。

在其中一个实施例中，最终识别模块获取服务器静态解码图，根据语音信号生成服务器音素网格，根据服务器音素网格对客户端音素网格进行扩展，得到最终音素网格，再利用服务器静态解码图对最终音素网格进行解码，得到语音输入内容，最后识别语音输入内容，得到文本内容。

在其中一个实施例中，客户端静态解码图和服务器静态解码图通过训练语音识别模型得到。

在其中一个实施例中，检索词处理模块包括：

关键词移除模块，用于建立关键词列表，并利用关键词列表移除文本内容中的关键词，得到地名文本内容；

词合并模块，用于对地名文本内容进行词合并操作，得到合并文本内容；以及

模糊检索词串构建模块，用于根据合并文本内容构建模糊检索词串。

在其中一个实施例中，服务器检索模块调用索引库，用于供服务器检索模块进行模糊检索，索引库包括多个索引文件，每个索引文件由索引文档构成，索引文档包括地名词条、地名词条长度以及地名一元分词词条。

一种语音地图搜索系统，包括客户端、语音识别服务器和地图搜索服务器，其中：

客户端用于采集语音信号并进行初步识别，得到初步识别结果，判断初步识别结果是否可信，若初步识别结果可信，输出初步识别结果，若初步识别结果不可信，则将语音信号及初步识别结果发送至语音识别服务器；

语音识别服务器用于接收语音信号并进行最终识别，得到最终识别结果；

地图搜索服务器用于对最终识别结果进行模糊检索得到的搜索结果。

上述语音地图搜索方法及系统，仅利用客户端完成简单的识别任务，将更复杂的识别任务交由服务器处理，降低了对客户端硬件的要求，提升了搜索的速度。此外，在服务器上进行模糊检索，也提高了地名识别的准确率。

附图说明

图1为本发明的语音地图搜索系统的架构示意图；

图2为本发明的语音地图搜索方法的流程图；

图3为本发明的语音地图搜索方法的初步识别流程图；

图4为本发明的语音地图搜索方法的最终识别及搜索流程图；

图5为本发明的语音地图搜索方法的显示模块工作流程图；

图6为本发明的语音识别模型的训练过程示意图；

图7为本发明的语音地图搜索系统的客户端结构示意图；

图8为本发明的语音地图搜索系统的服务器结构示意图；

图9为本发明的语音地图搜索系统的服务器的检索功能模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为语音地图搜索系统的架构示意图。如图1所示，一种语音地图搜索系统，包括服务器集群、服务器网关和分散在不同网络环境中的各个客户端。

服务器集群中包含两种类型的服务器，即语音识别服务器和基于文本的地图搜索服务器，它们之间的任务调度和通信由服务器网关负责。此外，语音识别服务器和地图搜索服务器可集成为一个服务器。

服务器网关负责整个服务器集群对外的信息交换，包括请求接收、任务排队、任务分发、服务器集群负载均衡、服务器间通信及网络异常情况处理等。

客户端设备可以是各种移动设备，包括但不限于手机、平板电脑、车机等，以及其他需要地图搜索的应用场景的设备。客户端设备上安装有专用的客户端软件，且能实现语音信号的采集和初步的数据处理及语音识别。

客户端用于采集语音信号并进行初步识别，得到初步识别结果，判断该初步识别结果是否可信。具体的，客户端识别采集到的语音信号，得到客户端音素网格；根据客户端音素网格求解最佳路径，得到初步识别文本；计算并输出客户端音素网格的解码最佳路径的置信度。

置信度，是指在没有参考答案的情况下，对识别结果的可靠性的客观性度量。置信度的计算方法一般是根据音素网格中的对数似然比等参数进行计算，某一个识别结果的置信度越高，即该结果越可信。

最佳路径，是指网格中对数似然比之和最高的那一条路径。

在客户端预设一个置信度阙值，就可以根据输出的客户端音素网格的解码最佳路径的置信度判断初步识别结果是否可信。具体的，当输出的置信度大于该置信度阙值时，认为初步识别结果可信；当输出的置信度小于该置信度阙值时，认为初步识别结果不可信。

若该初步识别结果可信，输出该初步识别结果，若该初步识别结果不可信，则将该语音信号及该初步识别结果发送至语音识别服务器。

语音识别服务器用于接收所述语音信号并进行最终识别，得到最终识别结果。具体的，语音识别服务器获取语音信号和客户端音素网格后，根据语音信号生成服务器音素网格，根据服务器音素网格对客户端音素网格进行扩展，得到最终音素网格，再对最终音素网格进行解码，得到语音输入内容，最后识别语音输入内容，得到文本内容，即最终识别结果。

地图搜索服务器用于对该最终识别结果进行模糊检索得到的搜索结果。具体的，地图搜索服务器对语音识别服务器识别得到的文本内容进行处理，得到模糊检索词串，再对该模糊检索词串进行检索，得到搜索结果。

图2为一个实施例中语音地图搜索方法的流程图。图2中的语音地图搜索方法运行于图1的系统架构中，以客户端的角度进行描述。如图2所示，该语音地图搜索方法包括以下步骤：

S200，采集语音信号。该步骤在客户端完成，由客户端软件通过客户端的声卡实时获得音频输入。

采集到语音信号之后，通常会对该语音信号进行一系列处理，例如对采集到的语音信号进行降噪处理，由于客户端采集的语音信号一般含有噪声，因此首先需要对其进行降噪处理，降低噪声的影响。

还可以对语音信号进行滤波、预加重、分帧、和加窗等预处理，其中，

滤波，是将语音信号中特定波段频率滤除的操作，用于抑制和防止干扰。

预加重，是指通过一个一阶有限激励响应高通滤波器，使语音信号的频谱变得平坦。

分帧，即根据语音信号的短时平稳特性，以帧为单位对语音信号进行处理。

加窗，指采用汉明窗对一帧语音信号加窗，以减小语音信号的随机起伏。

为了提高语音识别的准确率，还会对语音信号进行特征提取，具体的，可以采用提取梅尔频谱倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)的方式。MFCC是计算语音信号的Mel频率倒谱系数,Mel频率是基于人耳听觉特性提出来的，它与频率成非线性对应关系，Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的频谱特征。

在一个实施例中，步骤S200之前，还包括：

S100，训练语音识别模型得到客户端静态解码图和服务器静态解码图。

如图3所示，步骤S100可包括以下步骤(1)(2)(3)(4)：

(1)训练背景语音模型和语言模型。

具体的，利用大量事先标注好的语音数据训练可通用的背景语音模型AM0，在本实施例中采用高斯混合-隐马尔可夫模型(Gaussian Mixture-Hidden Markov Model，GMM-HMM)；

利用大量平衡的汉语文本语料训练可通用的背景语言模型LM1，同时生成词表V1，语言模型建模方法采用三元语法；

以客户端设备能够承载的模型大小为准，设定合适的概率阈值，对背景语言模型LM1进行剪枝，去掉概率低于概率阈值的部分，以大幅降低语言模型的体积，得到剪枝语言模型LM1S，剪枝过程中所用概率阈值可调整；

将地名条目作为孤立词，训练基于一元语法的语言模型LM2,所有地名条目可作为孤立词形式的词表V2；

将地名条目进行一元分词，训练基于四元语法的语言模型LM3，同时生成字形式的词表V3；

将地名条目按可变词表进行自适应分词，训练基于三元语法的语言模型LM4，可变词表可通过公开途径收集得到，语言模型LM4对应的词表记为词表V4；

对背景语言模型LM1、语言模型LM2、语言模型LM3和语言模型LM4进行插值，生成供服务器使用的背景语言模型LM0，插值权重分别记为w1、w2、w3和w4，在本实施例中，取w1＝0.15，w2＝0.35，w3＝0.2，w4＝0.3，在其他实施例中，只要保证w1+w2+w3+w4＝1，均可以实现背景语言模型LM0的生成；

对剪枝语言模型LM1S、语言模型LM2、语言模型LM3和语言模型LM4进行插值，生成供客户端使用的剪枝语言模型LM0S，插值权重分别记为w1s、w2s、w3s和w4s，在本实施例中，取w1s＝0.25，w2s＝0.35，w3s＝0.15，w4s＝0.25，在其他实施例中，只要保证w1+w2+w3+w4＝1，均可以实现剪枝语言模型LM0S的生成。

(2)利用语言模型生成发音字典。

具体的，将词表V1、词表V2、词表V3和词表V4组合在一起，排除LM0和LM0S中未出现的词，生成词表V0；

根据词表V0生成对应的发音字典L0。

(3)利用背景语音模型AM0、背景语言模型LM0和发音字典L0生成供服务器使用的加权有限状态机(WFST，weighted finite state transducer)形式的服务器静态解码图HCLG。

(4)利用背景语音模型AM0、剪枝语言模型LM0S和发音字典L0生成供客户端使用的加权有限状态机(WFST，weighted finite state transducer)形式的客户端静态解码图HCLGS。

本实施例的语音识别模型包括设置在客户端的小型语音识别模型和设置在服务器的大型语音识别模型，具有较高的识别准确率。

在一个实施例中，步骤S100之前，还包括：

S000，建立索引库。具体的，步骤S000可包括以下步骤(1)(2)(3)：

(1)生成索引文档，该索引文档包括地名词条、地名词条长度以及地名一元分词词条。以地名词条“北京大学深圳研究院”为例，该地名词条的长度为9，与该词条对应的一元分词词条为“北京大学深圳研究院”。

(2)对所有索引文档建立索引并保存为索引文件。

(3)将所有索引文件加入索引库。

本实施例的索引库不仅包含地名词条，还包含地名一元分词词条，便于检索。

S300，对语音信号进行初步识别，得到初步识别结果。

如图4所示，步骤S300可包括步骤S301-S304：

S301，获取客户端静态解码图HCLGS；

S302，利用客户端静态解码图HCLGS识别语音信号，得到客户端音素网格，具体的，客户端音素网格是根据设置在客户端的小型语音识别模型生成的基于汉语音素的网格；

S303，根据客户端音素网格，求解最佳路径，生成初步识别文本；

S304，计算并输出客户端音素网格的解码最佳路径的置信度。

客户端仅对语音信号进行初步识别，并生成客户端音素网格，因此客户端不需要很高的硬件要求，也便于进行后续的识别。

S400，判断初步识别结果是否可信。具体的，通过客户端的一个置信度判决模块，预先设定一个置信度阙值，当客户端音素网格的解码最佳路径的置信度大于该置信度阙值时，认为初步识别结果可信；当客户端音素网格的解码最佳路径的置信度小于该置信度阙值时，认为初步识别结果不可信。

S500，若初步识别结果可信，输出初步识别结果。

客户端的语音识别模型较小，只能识别很常用的标志性地名，因为是常用的标志性地名，不需要搜索类似的地名，所以如果客户端认为初步识别结果可信，就会直接输出识初步别结果，该初步识别结果只有一条。

S600，若初步识别结果不可信，则将语音信号及初步识别结果发送至服务器，并接收服务器返回的对语音信号进行最终识别得到的最终识别结果，以及对最终识别结果进行模糊检索得到的搜索结果。

如图5所示，步骤S600可包括步骤S601-S610：

S601，获取服务器静态解码图HCLG。

S602，获取语音信号及客户端音素网格。

S603，根据语音信号生成服务器音素网格，然后根据服务器音素网格对客户端音素网格进行扩展，得到最终音素网格。

S604，利用服务器静态解码图HCLG对最终音素网格进行解码，得到语音输入内容。

S605，识别语音输入内容，得到文本内容W。以语音输入内容是“我要去深圳大学”为例，识别得到的文本内容为“我要去深圳大学”。

S606，获取关键词列表。关键词列表预先经过收集整理，用于过滤识别结果中可能存在的特定句式关键词，例如“我想去”、“导航到”、“在哪儿”、“在哪里”、“附近有”、“最近的”、“吗”等。

S607，根据关键词列表移除文本内容W中的关键词，得到地名文本内容W1。仍以语音输入内容是“我要去深圳大学”为例，移除关键词后的地名文本内容是“深圳大学”。

S608，对地名文本内容W1进行词合并操作，得到合并文本内容W2，如“深圳大学”。

S609，根据合并文本内容W2构建模糊检索词串W3。模糊检索词串W3由合并文本内容W2按字分词得到，如“深圳大学”。

S610，在索引库内对模糊检索词串W3进行模糊检索，并输出搜索结果。送入索引库进行检索的内容包括模糊检索词串W3整体以及该模糊检索词串W3中的每一个字，例如“深圳大学”及“深”、“圳”、“大”、“学”。

这样处理后得到的要检索的内容中含有的地名数据所占比重更大，利于得到更精确的检索结果。服务器采用模糊检索的方式，提高了地名识别的准确率。

在一个实施例中，步骤S600之后还包括：

S700，显示搜索结果。

如图6所示，步骤S700可包括步骤S701-S703：

S701，预设搜索结果的显示数量；

S702，在得到搜索结果后，按照搜索结果与语音信号的匹配度从高到低筛选得到符合预设数量的搜索显示结果；

S703，显示该搜索显示结果。

上述语音地图搜索方法，在客户端根据置信度判断语音信号能否识别，在无法识别的情况下直接将语音信号和客户端音素网格发送到服务器，在服务器上进行最终识别和模糊检索，步骤简单且容易实现，使客户端能够迅速反应，有利于提升搜索速度。

如图7所示，本发明提供了一种语音地图搜索系统，包括客户端，该客户端包括语音采集模块10、初步识别模块20、置信度判决模块30、客户端输出模块40和传输模块50，其中：

语音采集模块10，用于采集语音信号，具体的，是由客户端软件通过客户端的声卡实时获得音频输入。采集到语音信号之后，语音采集模块10通常会对该语音信号进行一系列处理，例如滤波、预加重、分帧、加窗和特征提取等。

初步识别模块20，用于对所述语音信号进行初步识别，得到初步识别结果。初步识别模块20获取客户端静态解码图HCLGS，利用客户端静态解码图HCLGS识别语音信号得到初步识别文本。初步识别结果包括生成客户端音素网格、根据客户端音素网格解码最佳路径并得到初步识别文本以及该客户端音素网格的解码最佳路径的置信度。

置信度判决模块30，用于判断初步识别结果是否可信。具体的，预先设定一个置信度阙值，当客户端音素网格的解码最佳路径的置信度大于该置信度阙值时，认为初步识别结果可信；当客户端音素网格的解码最佳路径的置信度小于该置信度阙值时，认为初步识别结果不可信。

客户端输出模块40，用于在初步识别结果可信时，输出初步识别结果。

传输模块50，用于在初步识别结果不可信时，将语音信号及客户端音素网格发送至服务器，并接收服务器返回的对语音信号进行最终识别得到的最终识别结果，以及对最终识别结果进行模糊检索得到的搜索结果。

在一个实施例中，本系统还包括服务器。

如图8所示，服务器包括最终识别模块60、检索词处理模块70、服务器检索模块80和服务器输出模块90，其中：

最终识别模块60，用于对接收语音信号和客户端音素网格，并识别语音信号得到文本内容W。具体的，最终识别模块60获取服务器静态解码图HCLG，根据语音信号生成服务器音素网格，根据服务器音素网格对客户端音素网格进行扩展，得到最终音素网格，再利用服务器静态解码图HCLG对最终音素网格进行解码，得到语音输入内容，最后识别语音输入内容，得到文本内容W。

检索词处理模块70，用于对文本内容W进行处理，得到模糊检索词串。

服务器检索模块80，用于对模糊检索词串进行模糊检索。服务器检索模块80调用索引库，用于供服务器检索模块80进行模糊检索。索引库包括多个索引文件，每个索引文件由索引文档构成，索引文档包括地名词条、地名词条长度以及地名一元分词词条。以地名词条“北京大学深圳研究院”为例，该地名词条的长度为9，与该词条对应的一元分词词条为“北京大学深圳研究院”。

服务器输出模块90，用于输出搜索结果。

在一个实施例中，客户端静态解码图HCLGS和服务器静态解码图HCLG通过训练语音识别模型得到。

如图3所示，语音识别模型包括可通用的背景语音模型AM0、可通用的背景语言模型LM1、对背景语言模型LM1剪枝得到的剪枝语言模型LM1S、基于一元语法的语言模型LM2、基于四元语法的语言模型LM3以及基于三元语法的语言模型LM4。

背景语音模型AM0采用高斯混合-隐马尔可夫模型，由大量事先标注好的语音数据训练得到。

背景语言模型LM1由大量平衡的汉语文本语料训练得到，训练的同时生成词表V1，语言模型建模方法采用三元语法。

剪枝语言模型LM1S是以客户端设备能够承载的模型大小为准，对背景语言模型LM1进行剪枝而得到的，其体积远小于背景语言模型LM1。

语言模型LM2基于孤立词形式的地名条目训练得到，其对应孤立词形式的词表V2。

语言模型LM3基于一元分词形式的地名条目训练得到，其对应字形式的词表V3。

语言模型LM4基于按可变词表进行自适应分词的地名条目训练得到，其对应的词表记为V4。可变词表可通过公开途径收集得到。

对背景语言模型LM1、语言模型LM2、语言模型LM3和语言模型LM4进行插值，可得到供服务器使用的背景语言模型LM0。

对剪枝语言模型LM1S、语言模型LM2、语言模型LM3和语言模型LM4进行插值，可得到供客户端使用的剪枝语言模型LM0S。

将词表V1、词表V2、词表V3和词表V4组合在一起，排除LM0和LM0S中未出现的词，可得到词表V0。词表V0对应发音字典L0。

服务器静态解码图HCLG由背景语音模型AM0、背景语言模型LM0和发音字典L0生成。

客户端静态解码图HCLGS由背景语音模型AM0、剪枝语言模型LM0S和发音字典L0生成。

如图9所示，检索词处理模块70包括关键词移除模块71、词合并模块72和模糊检索词串构建模块73，其中：

关键词移除模块71，用于建立关键词列表，并利用关键词列表移除文本内容W中的关键词，得到地名文本内容W1。具体的，首先，根据事先收集整理好的“特定句式关键词列表”，过滤掉文本内容W中可能存在的特定句式关键词，例如“我想去”、“导航到”、“在哪儿”、“在哪里”、“附近有”、“最近的”、“吗”等。这样处理后得到的地名文本内容W1中含有的地名数据所占比重更大，利于地名检索得到更精确的结果。

词合并模块72，用于对地名文本内容W1进行词合并操作，得到合并文本内容W2。具体的，观察地名文本内容W1的词序列，对相邻的两个词进行两两合并，如果合并后的内容在词表V0中，则将其合并为新词，从而得到合并文本内容W2。

模糊检索词串构建模块73，用于根据合并文本内容W2构建模糊检索词串W3，具体的，将合并文本内容W2按字分词得到模糊检索词串W3。

将模糊检索词串W3整体送入服务器检索模块80进行检索，同时将模糊检索词串W3中的每个字也送入服务器检索模块80进行检索，即服务器检索模块80检索的内容包括“深圳大学”及“深”、“圳”、“大”、“学”。。

这样的检索方法效率和准确率较高。

在一个实施例中，客户端还包括显示模块，用于显示搜索结果。显示模块可由用户预设或默认显示数量，在得到所述搜索结果后，按照所述搜索结果与所述语音信号的匹配度从高到低筛选得到符合所述显示数量的搜索显示结果。

本发明提供的语音地图搜索系统，仅利用客户端完成简单的识别任务，将更复杂的识别任务交由服务器处理，降低了对客户端硬件的要求，提升了搜索的速度。此外，在服务器上进行模糊检索，也提高了地名识别的准确率。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音地图搜索方法，包括以下步骤：

采集语音信号；

对所述语音信号进行初步识别，得到初步识别结果以及对应的置信度，其中，识别结果为所述语音信号对应的语义文本内容；

根据所述置信度以及预设置信度阈值,判断所述初步识别结果是否可信；

若所述初步识别结果可信，输出所述初步识别结果；

若所述初步识别结果不可信，则将所述语音信号及所述初步识别结果发送至服务器，并接收所述服务器返回的对所述语音信号进行最终识别得到的最终识别结果，以及对所述最终识别结果进行模糊检索得到的搜索结果；

其中，服务器对所述最终识别结果进行模糊检索得到搜索结果包括以下步骤：

获取关键词列表；

根据所述关键词列表移除所述文本内容中的关键词，得到地名文本内容；

对所述地名文本内容进行词合并操作，得到合并文本内容；

根据所述合并文本内容构建模糊检索词串；

在索引库内对所述模糊检索词串进行检索，并输出搜索结果。

2.根据权利要求1所述的语音地图搜索方法，其特征在于，所述对所述语音信号进行初步识别，得到初步识别结果以及对应的置信度包括以下步骤：

获取客户端静态解码图；

利用所述客户端静态解码图识别所述语音信号，生成客户端音素网格；

求解所述客户端音素网格的最佳路径，根据最佳路径生成初步识别结果文本；

计算并输出所述客户端音素网格的解码最佳路径的置信度。

3.根据权利要求2所述的语音地图搜索方法，其特征在于，所述最终识别包括以下步骤：

获取服务器静态解码图；

获取所述语音信号及所述客户端音素网格；

根据所述语音信号生成服务器音素网格，然后根据所述服务器音素网格对所述客户端音素网格进行扩展，得到最终音素网格；

利用所述服务器静态解码图对所述最终音素网格进行解码，得到语音输入内容；

识别所述语音输入内容，得到文本内容。

4.根据权利要求3所述的语音地图搜索方法，其特征在于，所述采集语音信号之前，所述方法还包括建立所述索引库的步骤，所述建立所述索引库的步骤包括：

根据地名生成索引文档，所述索引文档包括地名词条、地名词条长度以及地名一元分词词条；

对所有索引文档建立索引并保存为索引文件；

将所有索引文件加入索引库。

5.根据权利要求4所述的语音地图搜索方法，其特征在于，所述方法还包括：

预设所述搜索结果的显示数量；

在得到所述搜索结果后，按照所述搜索结果与所述语音信号的匹配度从高到低筛选得到符合所述预设数量的搜索显示结果；

显示所述搜索显示结果。

6.根据权利要求3所述的语音地图搜索方法，其特征在于，所述采集语音信号之前，所述方法还包括训练语音识别模型得到服务器静态解码图和客户端静态解码图；

所述训练语音识别模型得到服务器静态解码图和客户端静态解码图包括以下步骤：

训练背景语音模型和语言模型，所述语言模型包括背景语言模型和对所述背景语言模型剪枝后得到的剪枝语言模型；

利用所述语言模型生成发音字典；

利用所述背景语音模型、所述背景语言模型和所述发音字典生成供所述服务器使用的所述服务器静态解码图；

利用所述背景语音模型、所述剪枝语言模型和所述发音字典生成供所述客户端使用的所述客户端静态解码图。

7.一种语音地图搜索系统，其特征在于，包括客户端和服务器，所述客户端包括：

语音采集模块，用于采集语音信号；

初步识别模块，用于对所述语音信号进行初步识别，得到初步识别结果以及对应的置信度，其中，识别结果为所述语音信号对应的语义文本内容；

置信度判决模块，用于根据所述置信度和预设置信度阈值，判断所述初步识别结果是否可信；

客户端输出模块，用于在所述初步识别结果可信时，输出所述初步识别结果；

传输模块，用于在所述初步识别结果不可信时，将所述语音信号及所述初步识别结果发送至所述服务器，并接收所述服务器返回的对所述语音信号进行最终识别得到的最终识别结果，以及对所述最终识别结果进行模糊检索得到的搜索结果；

所述服务器包括：

检索词处理模块，用于对所述文本内容进行处理，得到模糊检索词串；

服务器检索模块，用于对所述模糊检索词串进行检索；以及

服务器输出模块，用于输出所述搜索结果；

其中，所述检索词处理模块包括：

关键词移除模块，用于建立关键词列表，并利用所述关键词列表移除所述文本内容中的关键词，得到地名文本内容；

词合并模块，用于对所述地名文本内容进行词合并操作，得到合并文本内容；以及

模糊检索词串构建模块，用于根据所述合并文本内容构建所述模糊检索词串。

8.根据权利要求7所述的语音地图搜索系统，其特征在于，所述初步识别模块获取客户端静态解码图，利用所述客户端静态解码图识别所述语音信号得到客户端音素网格，并根据所述客户端音素网格生成初步识别文本，以及计算并输出所述客户端音素网格的解码最佳路径的置信度。

9.根据权利要求8所述的语音地图搜索系统，其特征在于，所述系统还包括服务器，所述服务器包括：

最终识别模块，用于对接收所述语音信号和所述客户端音素网格，并识别所述语音信号得到文本内容。

10.根据权利要求9所述的语音地图搜索系统，其特征在于，所述客户端还包括显示模块，用于预设所述搜索结果的显示数量，并在得到所述搜索结果后，按照所述搜索结果与所述语音信号的匹配度从高到低筛选得到符合所述显示数量的搜索显示结果，最后显示所述搜索显示结果。

11.根据权利要求9所述的语音地图搜索系统，其特征在于，所述最终识别模块获取服务器静态解码图，根据所述语音信号生成服务器音素网格，根据所述服务器音素网格对所述客户端音素网格进行扩展，得到最终音素网格，再利用所述服务器静态解码图对所述最终音素网格进行解码，得到语音输入内容，最后识别所述语音输入内容，得到文本内容。

12.根据权利要求11所述的语音地图搜索系统，其特征在于，所述客户端静态解码图和所述服务器静态解码图通过训练语音识别模型得到。

13.根据权利要求11所述的语音地图搜索系统，其特征在于，所述服务器检索模块调用索引库，用于供所述服务器检索模块进行模糊检索，所述索引库包括多个索引文件，每个索引文件由索引文档构成，所述索引文档包括地名词条、地名词条长度以及地名一元分词词条。