CN108899013A

CN108899013A - 语音搜索方法、装置和语音识别系统

Info

Publication number: CN108899013A
Application number: CN201810678800.7A
Authority: CN
Inventors: 李忠杰
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-11-27
Anticipated expiration: 2038-06-27
Also published as: CN108899013B

Abstract

本发明公开一种语音搜索方法，包括步骤：获取语音信号并对所述语音信号进行特征提取，得到对应的声学特征信息；根据所述声学特征信息，通过预先构建的声学模型将所述语音信号分类为各个类别并确定对应的分类概率；根据各个类别的语音信号及对应的所述分类概率，基于预先构建的多个WFST模块进行前向搜索，获得目标最佳路径；目标最佳路径用于确定语音识别结果。还公开一种语音搜索装置和一种语音识别系统。通过各WFST进行前向搜索，从而得到语音识别结果，可应用于各种语音识别、交互场景，并可以兼顾用户语音特征，更贴近用户的实际应用情景，解决了传统语音识别技术中识别结果准确率较低的问题，达到了识别结果准确率大大提高的效果。

Description

语音搜索方法、装置和语音识别系统

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音搜索方法、装置和语音识别系统。

背景技术

随着智能交互技术的快速发展和市场需求的不断扩展，语音识别技术在今年来取得长足发展，至今已经在多个领域中得到广泛的应用。语音识别技术顾名思义就是对输入的语音信号进行识别，从而转换成计算机可处理的文本信息。利用语音识别技术可以实现众多应用场景中的智能语音交互。例如语音助手，基于语音识别的智能控制等。

传统的语音识别技术方案一般是系统接收到语音输入后进行特征提取，并基于提取的特征对语音信号进行分类计算，而后结合加权有限状态机(WFST)进行解码搜索输出语音识别结果。然而，传统的语音识别技术的识别结果准确率仍然不高。

发明内容

基于此，本发明提供一种语音搜索方法，一种语音搜索装置以及一种语音识别系统。

为实现上述目的，一方面，本发明实施例提供一种语音搜索方法，包括如下步骤：

获取语音信号并对所述语音信号进行特征提取，得到对应的声学特征信息；

根据所述声学特征信息，通过预先构建的声学模型将所述语音信号分类为各个类别并确定对应的分类概率；

根据各个类别的语音信号及对应的所述分类概率，基于预先构建的多个WFST模块进行前向搜索，获得目标最佳路径；所述目标最佳路径用于确定语音识别结果。

在一个实施例中，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的多个WFST模块分别进行前向搜索，获得目标最佳路径的过程包括：

根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个所述WFST模块分别进行独立前向搜索，分别获得各个所述WFST模块对应的最佳路径；

对各个所述WFST模块对应的所述最佳路径进行加权计算，获得所述目标最佳路径。

在一个实施例中，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个WFST模块分别进行前向搜索，获得目标最佳路径的过程还包括：

根据预先训练的第一用户模型对各个所述WFST模块对应的所述最佳路径进行评价，获得目标最佳路径。

在一个实施例中，获得各个所述WFST模块对应的最佳路径的过程包括：

根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个所述WFST模块分别进行独立前向搜索，分别获得各个所述WFST模块对应的多个路径信息；

对任意一个所述WFST模块，根据预先训练的第二用户模型对所述WFST模块对应的多个所述路径信息进行评价，根据评价最优的所述路径信息确定所述WFST模块对应的最佳路径。

在一个实施例中，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个WFST模块分别进行前向搜索，获得目标最佳路径的过程包括：

根据各个类别的语音信号及对应的所述分类概率，基于预先构建的多个所述WFST模块及对应的权重进行同步前向搜索，获得所述目标最佳路径。

在一个实施例中，各个所述WFST模块中包含定制WFST模块，所述定制WFST模块通过以下步骤获取：

采集设定的词句及语法信息；

通过词典对所述设定的词句进行分词处理；

对所述语法信息进行统计训练，得到对应的语言模型；

根据所述分词处理的结果和所述语言模型，编译得到所述定制WFST模块。

在一个实施例中，在确定与所述目标最佳路径对应的语音识别结果之后，还包括步骤：

若检测到所述语音识别结果中包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据所述新增的联系人信息、所述新增的自创词组和/或所述新增的特征语言信息，更新所述第一用户模型和/或所述第二用户模型。

在一个实施例中，在确定与所述目标最佳路径对应的语音识别结果之后，还包括：

将所述语音识别结果发送到所述语音信号对应的终端。

另一方面，本发明实施例提供一种语音搜索装置，包括：

语音获取模块，用于获取语音信号；

特征提取模块，用于对所述语音信号进行特征提取，得到对应的声学特征信息；

信号分类模块，用于根据所述声学特征信息，通过预先构建的声学模型将所述语音信号分类为各个类别并确定对应的分类概率；

解码搜索模块，用于根据各个类别的语音信号及对应的所述分类概率，基于预先构建的多个WFST模块进行前向搜索，获得目标最佳路径；所述目标最佳路径用于确定语音识别结果。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现各上述的语音搜索方法的步骤。

再一方面，本发明实施例提供一种语音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现各上述的语音搜索方法。

再一方面，本发明实施例提供一种语音识别系统，包括终端和服务器；

所述终端用于发送语音信号至所述服务器；

所述服务器用于对所述语音信号进行特征提取，得到对应的声学特征信息；根据所述声学特征信息，通过预先构建的声学模型将所述语音信号分类为各个类别，并确定对应的分类概率；根据各个类别的语音信号及对应的所述分类概率，基于预先构建的多个WFST模块进行前向搜索，获得目标最佳路径；根据所述目标最佳路径确定语音识别结果，并将所述语音识别结果发送到所述终端。

上述技术方案中的一个技术方案具有如下优点和有益效果：

通过预先构建的声学模型依据提取得到的声学特征信息，对语音信号进行分类计算，将所述语音信号分类为各个类别并确定对应的分类概率，然后根据各个类别的所述语音信号以及对应的分类概率，通过各个WFST模块进行前向搜索，找到目标最佳路径，获得语音识别结果。在设置各个WFST模块时可以对应于不同的语音应用场景和领域，并且可以兼顾不同用户的语音特征，如此得到的语音识别结果，可以有效贴近用户的实际应用情景，有效提高语音识别的准确率。

附图说明

图1为一个实施例的语音搜索方法的第一示意性流程示意图；

图2为一个实施例中第一种获取目标最佳路径的流程示意图；

图3为一个实施例中第二种获取目标最佳路径的流程示意图；

图4为一个实施例的定制WFST模块的构建流程示意图；

图5为一个实施例的语音识别过程的第一种简要示意图；

图6为一个实施例的语音识别过程的第二种简要示意图；

图7为一个实施例的第一种语音搜索装置的模块结构示意图；

图8为一个实施例的语音识别系统的结构示意图；

图9为一个实施例语音识别系统的一种通信时序示意图。

具体实施方式

下面将结合较佳实施例及附图对本发明的内容作进一步详细描述。显然，下文所描述的实施例仅用于解释本发明，而非对本发明的限定。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当说明的是，为了便于描述，各附图中仅示出了与本发明实施例相关的部分而非全部内容。

语音识别技术，也可以称为自动语音识别(Automatic Speech Recognition，ASR)，其任务是把人所发出的语音中的词汇内容转换为计算机可读入的文本。语音识别技术是一种综合性的技术，涉及多个学科领域，如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等。目前，主流的大词汇量语音识别系统中通常采用基于统计模型的识别技术。语音识别技术的应用载体一般是语音识别系统，主体通常可以包含有服务器及终端，语音信号一般由终端输入后发送到服务器，由服务器对语音信号进行语音识别处理并返回相应的结果。终端例如可以是智能手机，例如用户可以通过手机讲一段话，手机会将输入的这段语音送到服务器进行语音识别后，接收服务器返回的语音识别结果，最终用户在手机上看到的是一段与输入的语音对应的文字或者手机显示对应文字后执行对应的控制操作，例如开启对应的应用等。除此之外，上述的终端还可以是各种智能设备，例如智能电视、平板甚至是其他各种智能家电、智能办公设备等。

然而，发明人在实现本发明实施例的技术方案过程中发现，在随着日益提高的应用要求，传统的语音识别技术中的识别方法仍然存在着语音识别准确率不高的问题。为此，请参阅图1，提供一种语音搜索方法，包括如下步骤：

S10，获取语音信号并对所述语音信号进行特征提取，得到对应的声学特征信息；

其中，语音信号可以是服务器从终端上获得的用户输入的语音信号，也可以是终端直接采集用户说话的声音获得的语音信号。终端可以是但不限于智能手机、平板电脑、智能电视机、智能机器人、智能交互平板、智能穿戴设备、智能医疗设备等，还可以是其他类型的智能家电、汽车等。

可以理解，上述的步骤S10的执行过程可以全部在服务器上执行，也可以全部在终端上执行；还可以部分在终端上执行，部分在服务器上执行，例如终端获取语音信号并发送给服务器进行特征提取等后续过程。以步骤S10的执行过程在服务器上实现为例，服务器获取语音信号后，对获得的语音信号进行特征提取以得到该语音信号的声学特征信息。服务器对执行特征提取的过程中可以采用本领域常规技术手段来完成，本说明书实施例不对服务器执行声学特征信息提取过程所采用的方法进行限定，例如可以采用线性预测倒谱系数法(LPCC：LinearPrediction Cepstrum Coefficient)、美尔频率倒谱系数法(MFCC：MelFrequency Cepstrum Coefficient)、感知线性预测参数法(PLP：Perceptual LinearPredictive)和梅尔标度滤波法(FBANK：Mel-scale Filter Bank)中的任意一种均可。

S12，根据声学特征信息，通过预先构建的声学模型将语音信号分类为各个类别并确定对应的分类概率；

其中，声学模型可以通过本领域常规方法进行预先构建，本说明书不对构建声学模型的方法进行限定，例如可以基于卷积神经网络、循环神经网络、深度神经网络、高斯混合模型和长短期记忆网络中的任一种方法进行声学模型的构建。

可以理解，上述的步骤S12的执行过程可以全部在服务器上执行，也可以全部在终端上执行。以步骤S12的执行过程在服务器上实现为例，服务器可以通过预先构建好的声学模型，根据前述获得的声学特征信息对语音信号进行分类计算，结合设定的分类数量和类别等指标，将语音信号分成一定数量的类别并且给出每个类别的对应分类概率。一般的，声学模型中的各条分类搜索路径包含有对应的权重(概率)，通过对各条分类路径的相应权重进行合并，就可以在输出的类别结果同时得到该类别的分类概率。例如该语音信号中的某帧被分类到A类的概率为0.8，被分到B类的概率为0.4等。一定数量的类别例如可以是3000到10000个类别，其可以根据语音识别技术所需要应用到的常见场景的各种细分类别来进行确定，例如可以是A类为手机类，B类为电视机类，C类为电子体温计类。

S14，根据各个类别的语音信号及对应的分类概率，基于预先构建的各个WFST模块分别进行前向搜索，获得目标最佳路径；目标最佳路径用于确定语音识别结果。

预先构建的WFST模块可以是解码器中的预先构建的搜索功能模块，其中，解码器是指将输入的音频信号解码输出对应文字结果的软件程序(如手机应用程序、服务器程序等等)或装置(如独立的语音翻译机)。WFST模块可以包含根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建得到的、对应各预定领域、各预定场景和各设定语言模式的各个WFST模块。各预定领域可以是各种学科领域、各类商品领域或其他具体领域，通常每一个预定领域都会有该领域对应的常用词句、专业词句等具有区别性的词句，相应的发音习惯也会有所不同或侧重。各预定场景例如可以是用户常处在的各种生活场景和工作场景等，同样也会具有对应各种场景下的语音特点。各设定语言模式可以是用户自身的语言习惯或语音发音习惯，产生的能够代表该用户个人特征的语言模式，例如用户的口音以及习惯用语等。

目标最佳路径是多个WFST模块对语音信号进行搜索后输出的多个搜索结果中满足要求的一条搜索路径，例如，目标最佳路径可以是权重最高的一个搜索结果所对应的搜索路径，用于最终语音识别结果的确定输出。语音识别结果可以是词序列，也可以是词序列对应控制指令。其中，词序列可以是目标最佳路径对应的具有相应概率、且具有网格结构的字符串。语音识别结果可以直接以文字形式直观地显示语音信号传达的信息内容。

可以理解，上述的步骤S14的执行过程可以全部在服务器上执行，也可以全部在终端上执行。服务器可以通过预先构建的各个WFST模块，根据各个类别的语音信号及对应的分类概率分别进行前向搜索。而后可以是服务器，也可以是终端从各个WFST模块输出的各个搜索路径中获取得到一个目标最佳路径，从而根据该目标最佳路径可以得到最佳的语音识别结果。至此，服务器及终端即完成了通过多个的WFST模块进行搜索后得到最佳的语音识别结果的过程。各个WFST模块的构建方法可以利用本领域的常用方法，在本说明书中不做限定。

如此，通过各个领域等的WFST模块，分别进行前向搜索得到所需的语音识别结果，从而可以根据目标最佳路径得到语音识别的结果，可以有效适应复杂多变的各种语音交流场景，并可以兼顾用户语音交流的内容所涵盖的各种领域及说话习惯，更贴近用户的实际应用情景，识别结果的准确率得到大大提高，有效避免传统的语音识别技术的语音识别效果准确率仍然较差的问题。

需要说明的是，本说明书中的语音搜索方法的各个步骤，可以部分步骤在终端上执行，其余部分步骤可以在服务器上执行，也可以在终端上执行上述各个步骤，例如离线的语音识别，因此所述的通过服务器执行上述各个步骤的方式是示例性的，而非全部的执行方式。

请参阅图2，在其中一个实施例中，对于步骤S14，可以具体包含如下步骤：

S140，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个WFST模块分别进行独立前向搜索，分别获得各个WFST模块对应的最佳路径；S142，对各个WFST模块对应的最佳路径进行加权计算，获得目标最佳路径。

可以理解，服务器在执行解码搜索的过程中，可以通过各个领域的各WFST模块、各个场景的各WFST模块和/各个设定语言模式中的各WFST模块，分别依据被分类为各种类别的语音信号及其对应的分类概率进行独立的前向搜索，分别得到各个WFST模块对应的最佳路径。从而，服务器可以从各个最佳路径中，对各个最佳路径的权重进行加权计算，得到最优的一个最佳路径作为目标最佳路径。

如此，通过上述采用多个WFST模块进行前向搜索等的步骤获得一个目标最佳路径后，即可通过步骤S16得到语音识别结果，达到大大提高语音识别准确率的效果。需要说明的是，上述实施例仅是以各步骤的执行过程在服务器上实现为例进行说明的，而非限定上述步骤只能在服务器上实现。下文中的各实施例同理理解。

请参阅图3，在其中一个实施例中，对于步骤S14，还可以是具体包含如下步骤：S140，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个WFST模块分别进行独立前向搜索，分别获得各个WFST模块对应的最佳路径；S141，根据预先训练的第一用户模型对WFST模块对应的最佳路径进行评价，获得目标最佳路径。

其中，第一用户模型可以是反映用户个人特征的数据统计形态的数据模型，用于对所得的各个最佳路径进行评价。第一用户模型可以通过利用本领域的常用技术手段，对需要的用户数据进行收集并预先训练得到，本说明书对用户模型的训练方法不做限定。

可以理解，服务器可以结合预先训练的第一用户模型，对各个WFST模块获得的多个最佳路径进行评价，可以向评价后的多个最佳路径均分别赋予一个对应的评价指标，例如接近用户个人特征的程度得分，或者例如接近用户个人特征的程度与路径对应的权重两方面的综合得分。服务器可以将评价最优的一个最佳路径通过对应的WFST模块输出作为最终的一个目标最佳路径。一般地，评价最优的一个最佳路径可以表示该语音信号在该WFST模块所对应的领域、场景和/或设定语言模式中最贴近用户实际情况的一条解码路径。服务器也可以对评价指标和对应权重的综合结果最优的一条最佳路径通过该WFST模块输出作为最终的一个目标最佳路径。

如此，通过上述的步骤，可以结合第一用户模型对WFST模块搜索获得的各最佳路径进行评价后再输出目标最佳路径，从而可以通过步骤S16得到语音识别结果，可以进一步提升得到的语音识别结果的准确度。

在其中一个实施例中，服务器可以在各个WFST模块输出的各个最佳路径的过程中，可以将各个WFST模块的各个次佳的路径保存输出，例如可以将权重比最佳路径的权重低的两个或者两个以上的路径保存输出；如此，可以使每一个WFST模块同时输出多个路径，在需要提供识别结果参考或比较的操作时，也能够方便为识别结果的验证提供可靠的各个原始中间数据。

在其中一个实施例中，对于步骤S140，获取各个WFST模块的最佳路径的步骤，具体也可以是：服务器分别根据WFST模块的多个路径及多个路径对应的权重，提取权重最大的一个路径作为对应各个WFST模块的最佳路径。如此，服务器可以通过分别控制各个WFST模块直接输出权重最大的路径作为各最佳路径，再对各个WFST模块的多个最佳路径进行加权计算来获得最终需要的一个目标最佳路径，可以确保在各个领域、各个场景和/或设定语言模式中得到准确率较高的识别结果。

在其中一个实施例中，对于获得各个WFST模块对应的最佳路径的过程，还可以具体包含如下过程：根据各个类别的语音信号及对应的分类概率，基于预先构建的各个WFST模块分别进行独立前向搜索，分别获得各个WFST模块对应的多个路径信息；对任意一个WFST模块，根据预先训练的第二用户模型对WFST模块对应的多个路径信息进行评价，根据评价最优的路径信息确定WFST模块对应的最佳路径。

其中，路径信息可以是上述实施例中，每一个WFST模块同时输出的多个路径及其各自对应的权重。第二用户模型也可以是反映用户个人特征的数据统计模型，用于对所得的各个路径信息进行评价。第二用户模型可以通过利用本领域的常用技术手段，对需要的用户数据进行收集，并根据设定的路径信息的评价方式确定对应的模型类型，预先训练得到，本说明书对用户模型的训练方法不做限定，只要能够得到与路径信息的数据形式相匹配的第二用户模型即可。

可以理解，在输出最佳路径的过程中，服务器也可以结合预先训练好的第二用户模型，对各个WFST模块分别独立进行前向搜索获得的各个路径信息进行评价，从而可以向评价后的各个路径信息分别赋予一个对应的评价指标，例如接近用户个人特征的程度得分，或者例如接近用户个人特征的程度与路径信息的权重两方面的综合得分。从而可以将各路径信息中，评价最优(例如综合得分最高)的一个路径信息输出作为各个WFST模块的最佳路径信息，也即可以得到各个WFST模块对应的最佳路径。

如此，也可以在获得各个最佳路径之前，通过结合第二用户模型的评价方式，使得到的目标最佳路径的准确度获得进一步的提高，从而最终进一步提高语音识别结果的准确度。上述各实施例中，第二用户模型的评价处理过程涉及的计算处理通常也会占用系统资源，因此结合第二用户模型的评价处理过程可以由服务器来完成，可以大大降低语音识别过程中的运算处理等操作对终端系统资源的占用，避免给终端带来额外的开销，保持终端原有的数据处理效率。

在其中一个实施例中，在步骤S14之后，还可以包含步骤：将语音识别结果发送到语音信号对应的终端。可以理解，语音信号对应的终端可以是语音信号来源的终端，也可以是语音信号所对应要控制的其他设备，例如电视、智能交互平板或者其他智能交互设备。语音信号可以在被服务器处理成对应的语音识别结果后，由服务器根据语音识别结果中包含的指令信息，确定该语音信号指向的终端。也即是说，上述的语音识别过程可以全部在服务器上完成，最终返回所得的语音识别结果到对应的终端即可，如服务器在获取用户的语音信号并进行语音识别，获得对应的语音识别结果后，可以将语音识别结果发送到语音信号对应的终端，从而可以实现语音信号的语音识别响应的全过程，方便相应的终端及时执行对应的显示、交互或操作控制等。

在其中一个实施例中，在其中一个实施例中，对于步骤S141，具体还可以包含步骤：分别将各个WFST模块的最佳路径发送到终端，以使终端分别根据预先训练的第一用户模型，对各个WFST模块的最佳路径进行评价，将评价最优的一个最佳路径输出为目标最佳路径。

可以理解，服务器可以在得到各个WFST模块的最佳路径后，即将各个WFST模块的最佳路径作为语音识别的中间结果发送回对应的终端上。预先训练的第一用户模型也可以配置在终端上，如此，终端可以向服务器发送用户输入的语音信号，使服务器将语音信号分为各个类别并通过各个WFST模块，得到各个最佳路径并发送回终端上；终端进而可以分别根据预先训练的第一用户模型，对各个WFST模块的最佳路径进行评价，将评价最优的一个最佳路径作为目标最佳路径。最后，终端即可以根据得到的目标最佳路径确定语音信号的语音识别结果。

通过在终端上结合第一用户模型对服务器返回的各个中间结果，也即前述的各个最佳路径进行评价，得到目标最佳路径并最终得到语音识别结果，可以实现获得较准确的语音识别结果的同时，大大降低用户的隐私数据发生泄露的风险效果。

在其中一个实施例中，上述实施例中的第一用户模型和/或第二用户模型可以根据但不限于：与用户关联的联系人信息、自创词组和/或特征语言信息进行训练获得。与用户关联的联系人信息可以是预先从用户的终端上调取或者用户语音输入时识别得到的该用户的联系人信息。自创词组可以是从用户在日常使用终端的过程中通过各种方式，例如语音输入、触控的文字输入等，输入到终端上的语句信息中提取得到的自创词组，其一般不存在于现有词典中，而是用户首次创建的。特征语言信息可以包含有表征用户的语言习惯的信息及语音使用习惯的信息等，例如用户的发音、平均语速、口头禅或者其他表征用户的语音特性的信息。如此，通过定期或在线收集用户的语音特性信息用于用户模型的训练，得到尽可能符合用户真实情况的用户模型，从而确保语音识别结果的准确度提高效果。

在其中一个实施例中，对于步骤S14之后，还可以包括步骤：若检测到语音识别结果中包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据新增的联系人信息、新增的自创词组和/或新增的特征语言信息，更新第一用户模型和/或第二用户模型。

其中，新增的联系人信息一般可以是用户的联系人信息中新添加的联系人信息，或者可以是联系人信息中，被用户进行过更改之后产生的新名称、新号码或新地址等更新的部分信息。新增的自创词组可以是指用户在终端的日常使用过程中首创的词组，例如用户对识别结果所进行修改时，出现的自创词组。新增的特征语言信息可以是用户在终端的日常使用过程中最新形成的语言习惯相关的信息，例如用户长期在一个不同语言环境中生活，形成新的口音或者新的用语习惯等，用语习惯也可以通过用户对识别结果所进行的修改获得，如口头禅、高频词语等。

可以理解，服务器或者终端在检测到语音识别结果中包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息等情况时，将会自动获取新增的联系人信息、新增的自创词组和/或新增的特征语言信息，以及时训练更新第一用户模型和/或第二用户模型，从而确保第一用户模型和/或第二用户模型在日常使用过程中可以保持与用户的特性一致，能够准确反映用户实际情况。如此，通过上述的用户模型的训练更新可以确保用户模型的评价结果的准确度。

在其中一个实施例中，对于步骤S14，具体过程还可以是：根据各个类别的语音信号及对应的分类概率，基于预先构建的各个WFST模块及对应的权重进行同步前向搜索，获得目标最佳路径。

可以理解，服务器可以将各个类别的语音信号及对应的分类概率，同时输入到多个WFST模块，结合维特比算法，将各个WFST各自的权重带入搜索过程，例如根据维特比算法和各个WFST各自的权重，多个WFST模块进行同步前向搜索，将搜索中所得的路径进行统一的阈值剪枝管理，如低于设定概率阈值的路径剪枝去除，保留有限数量的较佳路径继续进行前向搜索，从而最终得到一个最佳的目标最佳路径输出。各个WFST模块可以在生成时即获得各自的相应权重，例如该语音信号在该WFST模块所对应的领域内的权重。各个WFST模块可以在声学特征的提取阶段获得各自的相应权重，例如该语音信号在该WFST模块所对应的领域内的权重。如此，各个WFST模块在同步前向搜索过程中就可以基于权重的大小，例如将权重最大的路径输出作为最终的目标最佳路径。有效降低搜索过程的时间消耗，提高识别速度的同时，也能够提高识别准确度。

请参阅图4，在其中一个实施例中，上述各实施例中的各个WFST模块可以包含有定制的WFST模块，也即是说，各个WFST模块中可以包含至少两类WFST模块，其中一类为根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建对应前述各预定领域、各预定场景和各设定语言模式的各个常规WFST模块(相对于定制解码模块而言的)。另一类为基于日常使用较少的特殊的语法、生僻词句以及最新出现的新词句或者网络热点词等构建的定制WFST模块，其中新词句或者热点词，例如可以是网络上每年流行的新词或热词，如“我要打、我要看、我要听、我要买、OMG(Oh My God)”等。定制WFST模块构建时所需的上述词句可以通过从网上爬取相关语料的方式获取，关于爬取语料的具体方法此处不做限定，可以采用本领域常用的方法。

定制WFST模块的构建的主要步骤可以如下S20～S26：

S20，采集设定的词句及语法信息；

S22，通过词典对设定的词句进行分词处理；

S24，对语法信息进行统计训练，得到对应的语言模型；

S26，根据分词处理的结果和语言模型，编译得到定制WFST模块。

其中，前述的词典可以是常规WFST模块中的发音词典。语言模型的统计训练可以采用本领域的常规方法，例如N-Gram语言模型。

可以理解，可以通过服务器在利用传统的WFST生成方法生成各个领域的WFST模块时，通过采集设定的词句及语法信息，并对分别进行分词处理和语言模型的统计训练，从而根据分词处理的结果和训练得到的语言模型，将设定的词句与语法信息通过传统的常用解码器构建方法，编译得到定制WFST模块，定制WFST模块例如可以是口语、书面语、化学或者数学等各个细分领域的各个定制WFST模块。如此，通过常规WFST模块和定制WFST模块分别进行前向搜索，可以实现获取到的语音信号包含生僻词句、网络流行的新词句、热点词句及其存在的语法时，同样能够输出准确度较高的语音识别结果。

请参阅图5至6示出的语音识别过程的简要示意图，以更易于理解上述各实施例中的各个步骤。需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序。

请参阅图7，提供一种语音搜索装置100，包括语音获取模块12、特征提取模块14、信号分类模块16和解码搜索模块18。语音获取模块12用于获取语音信号。特征提取模块14用于对语音信号进行特征提取，得到对应的声学特征信息。信号分类模块16用于根据声学特征信息，通过预先构建的声学模型将语音信号分类为各个类别并确定对应的分类概率。解码搜索模块18用于根据各个类别的语音信号及对应的分类概率，基于预先构建的多个WFST模块进行前向搜索，获得目标最佳路径。目标最佳路径用于确定语音识别结果。

如此，通过各个领域等的WFST模块，分别进行前向搜索得到所需的目标最佳路径，从而可以根据目标最佳路径得到语音信号的语音识别结果，可以有效适应复杂多变的各种语音交流场景，并可以兼顾用户语音交流的内容所涵盖的各种领域及说话习惯，更贴近用户的实际应用情景，识别结果的准确率得到大大提高，有效避免传统的语音识别技术的语音识别效果准确率仍然较差的问题。

在其中一个实施例中，解码搜索模块18可以包含第一搜索模块和目标路径获取模块。第一搜索模块用于根据各个类别的语音信号及对应的分类概率，基于预先构建的各个WFST模块分别进行独立前向搜索，分别获得各个WFST模块对应的最佳路径。目标路径获取模块用于对各个WFST模块对应的最佳路径进行加权计算，获得目标最佳路径。

在其中一个实施例中，解码搜索模块18还可以包含第一用户评价模块。第一用户评价模块用于根据预先训练的第一用户模型对各个WFST模块对应的最佳路径进行评价，获得目标最佳路径。

在其中一个实施例，解码搜索模块18还可以包含第二搜索模块和第二用户评价模块，第二搜索模块用于根据各个类别的语音信号及对应的分类概率，基于预先构建的各个WFST模块分别进行独立前向搜索，分别获得各个WFST模块对应的多个路径信息。第二用户评价模块用于对任意一个所述WFST模块，根据预先训练的第二用户模型对WFST模块对应的多个路径信息进行评价，根据评价最优的路径信息确定WFST模块对应的最佳路径。

在其中一个实施例中，解码搜索模块18还可以包含第三搜索模块，第三搜索模块用于根据各个类别的语音信号及对应的分类概率，基于预先构建的多个WFST模块及对应的权重进行同步前向搜索，获得目标最佳路径。

在其中一个实施例中，上述的语音搜索装置100可以包括用户模型更新模块。用户模型更新模块用于若检测到语音识别结果中新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据新增的联系人信息、新增的自创词组和/或新增的特征语言信息，训练更新上述的第一用户模型和/或第二用户模型。

在其中一个实施例中，上述的语音搜索装置100可以包括设定信息采集模块、分词训练模块和定制解码模块构建模块。设定信息采集模块用于采集设定的词句及语法信息。分词训练模块用于通过词典对设定的词句进行分词处理，对语法信息进行统计训练，得到对应的语言模型。定制解码模块构建模块用于根据分词处理的结果和语言模型，编译得到定制WFST模块。

上述的语音搜索装置100的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

通常存储在一个存储介质中的程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和/或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。因此本发明公开了一种计算机可读存储介质，其中存储有计算机程序，该计算机程序被运行时用于执行如下步骤：获取语音信号并对语音信号进行特征提取，得到对应的声学特征信息；根据声学特征信息，通过预先构建的声学模型将语音信号分类为各个类别并确定对应的分类概率；根据各个类别的语音信号及对应的分类概率，基于预先构建的多个WFST模块进行前向搜索，获得目标最佳路径；目标最佳路径用于确定语音识别结果。

在其中一个实施例中，提供一种语音识别设备，该语音识别设备可以是计算机设备；例如普通电脑或者可以是服务器。该语音识别设备包括存储器和处理器。存储器上存储有可在处理器上运行的计算机程序。该语音识别设备的处理器用于提供计算和控制能力。该语音识别设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该语音识别设备可以包含网络接口，用于与外部的交互终端通过网络连接通信。处理器执行存储器上的计算机程序时，可以执行如下步骤：获取语音信号并对语音信号进行特征提取，得到对应的声学特征信息；根据声学特征信息，通过预先构建的声学模型将语音信号分类为各个类别并确定对应的分类概率；根据各个类别的语音信号及对应的分类概率，基于预先构建的多个WFST模块进行前向搜索，获得目标最佳路径；目标最佳路径用于确定语音识别结果。

在其中一个实施例中，上述实施例的语音识别设备中的处理器执行其存储器上的计算机程序时，还可以实现本发明上述语音搜索方法的各相应部分的实施例。

根据上述本发明实施例的语音搜索方法，请参阅图8，本发明实施例还提供一种语音识别系统400，下面结合图8所示的结构、图9所示的时序及可选实施例对本发明的语音识别系统400进行详细说明。

语音识别系统400可以包含终端40和服务器42。终端40用于发送语音信号至服务器42。服务器42用于对语音信号进行特征提取，得到对应的声学特征信息；根据声学特征信息，通过预先构建的声学模型将语音信号分类为各个类别，并确定对应的分类概率；根据各个类别的语音信号及对应的分类概率，基于预先构建的多个WFST模块分别进行前向搜索，获得目标最佳路径；根据目标最佳路径确定语音识别结果，并将语音识别结果发送发终端40。

其中，服务器42可以是语音信号的后台处理服务器设备，例如本地实体服务器或云计算服务器，或者实体服务器与云计算服务器组合而成的语音信号的识别处理平台。终端40可以是各种智能设备，例如智能手机、智能电视、平板电脑或者是其他各种智能家电、智能办公设备和智能交通工具。

具体的，上述的终端40可以在获得用户直接口头输入，或者通过其他设备间接输入的语音信号后，将得到的语音信号发送到服务器42。服务器42从而可以对接收到语音信号进行前向搜索处理，获得目标最佳路径，并根据目标最佳路径确定用户输入的语音信号的语音识别结果。服务器42将该语音识别结果返回到终端40上。可以理解，服务器42所进行的上述搜索处理，可以根据上述语音搜索方法的各实施例中的搜索处理过程理解。本实施例中不再赘述。

如此，通过服务器42利用各个WFST模块可以有效覆盖尽多的语音应用场景和领域，可以兼顾用户习惯，更贴近用户的实际应用情景，识别结果准确率得到较大的提高，用户体验得到较大的改善。

在其中一个实施例中，服务器42可以只有一台，可以有多台，例如多台互联的服务器42中，每一台服务器42上可以存储有一个或者多个领域、场景或者设定语言模式中的WFST模块，通过多台服务器42的联动工作，可以较快地对语音信号在不同领域、场景或者设定语言模式中进行解码搜索，从而可以更快速、准确地完成上述语音信号的语音识别过程并由一台控制服务器42获取语音识别结果，并返回到终端40。如此，可以通过分布式的服务器42网络来协作完成用户通过终端40输入的语音信号的语音识别过程，更快速、准确地输出语音识别结果。

在其中一个实施例中，服务器42实现上述获得的多个最佳路径的过程可以具体参见上述各语音搜索方法实施例中的搜索过程。为了使上述实施例的语音识别系统200中各组成部分的交互过程更易于理解，请参阅图9的时序图。

在其中一个实施例中，服务器42还可以用于当检测到语音识别结果包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据新增的联系人信息、新增的自创词组和/或新增的特征语言信息，更新第一用户模型和/或第二用户模型。服务器42通过训练更新第一用户模型和/或第二用户模型，可以确保第一用户模型和/或第二用户模型的评价的准确度，提高目标最佳路径的搜索准确率。

在其中一个实施例中，终端40上可以安装有客户端。客户端可以用于执行终端40与服务器42之间的通信，以及终端40与服务器42之间的上述语音识别的步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音搜索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的语音搜索方法，其特征在于，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的多个WFST模块分别进行前向搜索，获得目标最佳路径的过程包括：

3.根据权利要求1所述的语音搜索方法，其特征在于，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个WFST模块分别进行前向搜索，获得目标最佳路径的过程还包括：

4.根据权利要求3所述的语音搜索方法，其特征在于，获得各个所述WFST模块对应的最佳路径的过程包括：

5.根据权利要求1所述的语音搜索方法，其特征在于，根据各个类别的语音信号及对应的所述分类概率，基于预先构建的各个WFST模块分别进行前向搜索，获得目标最佳路径的过程还包括：

6.根据权利要求1所述的语音搜索方法，其特征在于，各个所述WFST模块中包含定制WFST模块，所述定制WFST模块通过以下步骤获取：

采集设定的词句及语法信息；

通过词典对所述设定的词句进行分词处理；

对所述语法信息进行统计训练，得到对应的语言模型；

7.根据权利要求4所述的语音搜索方法，其特征在于，在确定与所述目标最佳路径对应的语音识别结果之后，还包括步骤：

8.根据权利要求1所述的语音搜索方法，其特征在于，在确定与所述目标最佳路径对应的语音识别结果之后，还包括：

将所述语音识别结果发送到所述语音信号对应的终端。

9.一种语音搜索装置，其特征在于，包括：

语音获取模块，用于获取语音信号；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音搜索方法的步骤。

11.一种语音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现权利要求1至8中任一项所述的语音搜索方法。

12.一种语音识别系统，其特征在于，包括终端和服务器；

所述终端用于发送语音信号至所述服务器；