CN108288467A

CN108288467A - 一种语音识别方法、装置及语音识别引擎

Info

Publication number: CN108288467A
Application number: CN201710425219.XA
Authority: CN
Inventors: 饶丰; 卢鲤; 马建雄; 赵贺楠; 孙彬; 王尔玉; 周领良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2018-07-17
Anticipated expiration: 2037-06-07
Also published as: CN108288467B; WO2018223796A1

Abstract

本发明实施例公开了一种语音识别方法，包括：在持续获取语音信号的过程中，获取当前账户对应的自定义语料；对所述自定义语料进行分析处理，构建相应的至少一个自定义解码模型；将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果。本发明实施例同时还提供一种语音识别装置及语音识别引擎。

Description

一种语音识别方法、装置及语音识别引擎

技术领域

本发明涉及自动语音识别(ASR，Automatic Speech Recognition)技术领域,尤其涉及ー种语音识别方法、装置及语音识别引擎。

背景技术

ASR技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的ー项技木。语音识别具有复杂的处理流程，主要包括声学模型训练、语言模型训练、解码资源网络构建以及解码四个过程。

目前，现有的语音识别方案，主要是通过计算语音信号基于文字的最大后验概率来获得，一般分为动态解码和静态解码两种解码方式。基于静态解码的语音识别解决方案主要是基于有限状态转换器(FST，Finite State Transducer)网络来实现的，例如，采用加权有限状态转换器(WFST，Weighted Finite State Transducer)网络将语音识别过程中的大部分组件，包括发音字典，声学模型，语法信息等进行整合，得到一张有限状态转移图，然后，通过解码令牌(Token)在该有限状态转移图中搜索，来得到最优的语音识别结果。

然而，由于上述整合后的有限状态转移图是固定的，所以，一旦生成有限状态转移图，就无法进行修改；又因为每个用户所说语音的内容是天差地别的，具体到算法上来说，就是每个用户的语言模型是不同的，声学模型由于口音的差异也是有所不同，所以，每个用户对应的有限状态转移图也是不同的。那么，为了匹配所有用户，就需要针对每个用户生成一张有限状态转移图，但是，在存储资源有限的情况下，针对每个用户存储一张有限状态转移图往往是无法实现的，而通常只是存储针对常用说话识别的有限状态转移图，这样，每个用户都是在同一张图上完成语音搜索的，往往会产生数据偏移，导致语音识别准确率低。

发明内容

有鉴于此，本发明实施例提供一种语音识别方法、装置及语音识别引擎，以提高语音识别的准确率。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种语音识别方法，包括：在持续获取语音信号的过程中，获取当前账户对应的自定义语料；对所述自定义语料进行分析处理，构建相应的至少一个自定义解码模型；将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果。

第二方面，本发明实施例提供一种语音识别装置，包括：语音信号获取单元，用于持续获取语音信号；语料获得单元，用于在持续获取语音信号的过程中，获取当前账户对应的自定义语料；模型构建单元，用于对所述自定义语料进行分析处理，构建相应的至少一个自定义解码模型；加载单元，用于将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；解码单元，用于对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果。

第三方面，本发明实施例提供一种语音识别引擎，包括：通信接口、存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：在通过所述通信接口持续获取语音信号的过程中，获取当前账户对应的自定义语料；对所述自定义语料进行分析处理，构建相应的至少一个自定义解码模型；将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：在持续获取语音信号的过程中，获取当前账户对应的自定义语料；对所述自定义语料进行分析处理，构建相应的至少一个自定义解码模型；将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果。

本发明实施例提供了一种语音识别方法、装置及语音识别引擎，首先，持续获取语音信号，也就是语音识别服务保持在线，在持续获取语音信号的过程中，获取当前账户对应的自定义语料，如当前账户的联系人信息、当前账户上传的特定领域的专有文本，然后，对这些自定义语料进行分析处理，构建相应的至少一个自定义解码模型，接着，将构建好的至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型，最后，对语音信号采用新的解码模型进行解码，获得语音识别结果，如此，通过这种新的解码模型，可以明显提高用户的自定义语料在通用解码模型中过低的概率值，因此可以降低自定义语料的语音发生数据偏移的几率，整体提高语音识别的准确率。

附图说明

图1-1为本发明实施例中的语音识别服务器的结构示意图；

图1-2为本发明实施例中的终端的结构示意图；

图2-1为本发明实施例中的语音识别方法的实现流程示意图一；

图2-2为本发明实施例中的语音识别方法的实现流程示意图二；

图3-1为本发明实施例中的语音识别界面的示意图一；

图3-2为本发明实施例中的语音识别界面的示意图二；

图4-1为本发明实施例中的语音识别方法的实现流程示意图三；

图4-2为本发明实施例中的语音识别方法的实现流程示意图四；

图4-3为本发明实施例中的新的WFST网络的局部示意图；

图5为本发明实施例中的语音识别装置的结构示意图；

图6为本发明实施例中的语音识别引擎的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提供一种语音识别方法，该方法应用于语音识别引擎，该语音识别引擎可以为云端语音识别引擎，也就是说语音识别引擎设置于语音识别服务器；上述语音识别引擎也可以为本地语音识别引擎，也就是说语音识别引擎设置于终端。

图1-1为本发明实施例中语音识别服务器的结构示意图，当语音识别引擎为云端语音识别引擎时，参见图1-1所示，语音识别服务器110可以通过网路120与终端200通信；图1-2为本发明实施例中终端的结构示意图，当语音识别引擎为本地语音识别引擎时，参见图1-2所示，终端120可以包括处理器121以及语音采集装置122，这里，处理器121可以与语音采集装置124进行通信，语音采集装置122能够采集用户输入的语音。进一步地，在本发明实施例中，语音采集装置122可以为麦克风、麦克风阵列、送话器等，本发明实施例不作具体限定。

那么，上述语音识别引擎，可以用于在持续获取语音信号的过程中，获取当前账户对应的自定义语料；对自定义语料进行分析处理，构建相应的至少一个自定义解码模型；将至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；对语音信号采用新的解码模型进行解码，获得语音识别结果。

下面以语音识别引擎为云端语音识别引擎为例，对上述语音识别方法进行说明。

图2-1为本发明实施例中的语音识别方法的实现流程示意图一，参见图2-1所示，上述方法可以包括：

S211：终端采集用户输入的语音信号；

这里，终端可以安装具有语音输入功能的应用，如即时通信应用、语音输入法应用、语音助手等。用户可以使用这些应用输入语音信号，比如，用户使用即时通信应用的过程中，需要输入语音时，用户开启如图3-1所示的语音识别界面30，用户按住该界面中的语音输入控件301，此时，即时通信应用调用语音采集装置，如开启麦克风，这样，用户就能够对着麦克风开始说话，也就是说终端采集用户输入的语音信号。

S212：终端将采集到的语音信号发送给语音识别服务器；

这里，终端将采集到的语音信号发送给语音识别服务器。在实际应用中，终端可以通过无线局域网、蜂窝数据网等发送给语音识别服务器。

S213：语音识别服务器在持续获取语音信号的过程中，获取当前账户对应的自定义语料；

这里，由于终端不断的发送语音信号给语音识别服务器，语音识别服务器就会持续接收到这些语音信号，那么，语音识别服务器在持续接收这些语音信号的过程中，可以获得当前账户对应的自定义语料。

在实际应用中，通常采用文本来代替语言实例，也就是说将文本作为语料，那么，上述自定义语料可以包括以下之一：当前账户对应的联系人信息，如电话通讯录、即时通信应用联系人信息；或者当前账户上传的至少一个领域的专有文本，如法律条文、通信标准、行业标准等文本。当然，自定义语料还可以为其它文本，本发明实施例不作具体限定。

在本发明其它实施例中，上述自定义语料可以是语音识别服务器在接收到终端上传的语音信号后，从用户账户信息服务器或者终端读取到的；也可以是用户通过终端上的应用向语音识别服务器上传的。当然，自定义语料还可以存在其它获取方式，本发明实施例不作具体限定。

举例来说，用户按住如图3-1所示的语音识别界面30中语音输入控件301，然后，嘴对着麦克风说话，实时的语音识别结果会流式返回。在这个过程中，首先，通过语音活动检测(VAD，Voice Activity Detection)模块获取语音信号的有效部分，此时，对于该段语音信号的语音识别开始；然后，语音识别开始之后，语音识别服务器通过从用户账户信息服务器或者终端读取当前账户的联系人信息。或者，在用户开始使用语音识别服务后，终端载入用户所需要的至少一个领域的专有文本，如法律条文，并且上传至语音识别服务器，此时，语音识别服务器获得法律条文。

需要说明的是，上述自定义语料可以区分类别，也可以不区分类别，本发明实施例不作具体限定。

S214：语音识别服务器对自定义语料进行分析处理，构建相应的至少一个自定义解码模型；

在具体实施过程中，为了使得语音识别更加准确，S214可以包括：对自定义语料进行分类，得到各分类的自定义语言模型；基于预先存储的声学模型、词典模型以及各分类的自定义语言模型，构建与各分类对应的至少一个自定义解码模型。

这里，语音识别服务器在获得上述自定义语料之后，对这些自定义语料进行分类，得到各分类的自定义语言模型，比如，语音识别服务器同时获得当前账户对应的联系人信息和法律条文，那么，语音识别服务器就需要先对联系人信息和法律条文进行分类，得到联系人信息对应的语言模型和法律条文对应的语言模型；然后，语音识别服务器根据预先存储的声学模型、词典模型以及上述各分类的自定义语言模型，构建与各分类对应的至少一个自定义解码模型，也就是说，语音识别服务器会构建联系人信息对应的解码模型和法律条文对应的解码模型。

S215：语音识别服务器将至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；

这里，通用解码模型是指针对日常用语搭建的解码模型，具有普适性，能够较好地是识别日常用语。

在具体实施过程中，由于不同用户的语言习惯和口音都不尽相同，那么，为了实现更为准确的语音识别，S215还可以包括：获取带有槽的上下文模板，其中，槽是上下文模板中的信息变量，上下文模板是对当前账户的历史语音数据进行数据挖掘获得的；根据槽的分类标记，在通用解码模型的开始符号和结束符号之间添加槽，并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联，生成新的解码模型。

这里，语音识别服务器在用户使用语音识别服务之前，可以获取当前账户的历史语音数据，对这些数据进行数据挖掘，获得至少一个带有槽的上下文模板，例如，对语音中的人名进行识别，通过数据挖掘，得到人名相关的上下文模板：“@NAME@来找我吃饭”、“我和@NAME@是好朋友”等。需要说明的是，在上述上下文模板中“@NAME@”就是槽，“NAME”就是该槽的分类标记。然后，语音识别服务器根据这些上下文模板，在通用解码模型的开始符号和结束符号之间添加上述槽，并将槽与至少一个自定义解码模型中具有相同分类标记的自定义解码模型关联，生成新的解码模型。例如，语音识别服务器根据上下文模板“@NAME@来找我吃饭”，在通用解码模型中插入“@NAME@”所对应的槽，并根据分类标记“NAME”，将“@NAME@”所对应的槽与联系人信息对应的解码模型关联起来，如此，生成了新的解码模型。

S216：语音识别服务器对语音信号采用新的解码模型进行解码，获得语音识别结果；

在具体实施过程中，S216可以包括：根据新的解码模型对语音信号进行解码识别，当解码令牌遇到槽时，跳转到槽所关联的自定义解码模型；在槽所关联的自定义解码模型中进行解码；在槽所关联的自定义解码模型中解码完成后返回槽，并继续在通用解码模型中继续进行解码，直至获得语音识别结果。

这里，语音识别服务器在构建完成新的解码模型之后，语音服务器就可以将语音信号输入到新的解码模型进行解码。首先，语音识别服务器在通用解码模型中进行音素搜索，直至解码令牌遇到通用解码模型中插入的槽，此时，跳转到该槽所关联的自定义解码模型中继续进行音素搜索，在该自定义解码模型中完成搜索后返回槽，并继续在通用解码模型中该槽之后各个符号继续进行搜索，直至获得概率值最高的字符串作为语音识别结果。

S217：语音识别服务器将语音识别结果发送给终端；

S218：终端输出语音识别结果。

这里，语音识别服务器在获得语音识别结果后，将该语音识别结果，也就是字符串发送给终端，让终端在语音识别界面上进行显示。例如，用户语音输入一句话“张三来找我吃饭”，通过由通用解码模型中插入联系人信息对应的自定义解码模型所生成的新的解码模型，对这样的一句话进行解码，获得字符串“张三来找我吃饭”，语音识别服务器将这个字符串发给终端，如图3-2所示，终端可以在语音识别界面30中显示该字符串302，也可以将字符串转换为语音信号，输出给用户，与用户进行语音交互。当然，还可以为其它输入方式，本发明实施例不作具体限定。

至此，便完成了语音识别流程。

下面以语音识别引擎为本地语音识别引擎为例，对上述语音识别方法进行说明。

图2-2为本发明实施例中的语音识别方法的实现流程示意图二，参见图2-2所示，上述方法可以包括：

S221：语音采集装置采集用户输入的语音信号；

这里，终端可以安装具有语音输入功能的应用，如即时通信应用、语音输入法应用、语音助手等。用户可以使用这些应用输入语音信号，比如，用户使用即时通信应用的过程中，需要输入语音时，用户开启如图3-1所示的语音识别界面30，用户按住该界面中的语音输入控件301，此时，即时通信应用调用语音采集装置，如开启麦克风，用户就能够对着麦克风开始说话，如此，也就是说终端采集用户输入的语音信号。

S222：语音采集装置将采集到的语音信号发送给处理器；

这里，语音采集装置将采集到的语音信号通过通信总线发送给处理器，也就是解码器。

S223：处理器在持续获取语音信号的过程中，获取当前账户对应的自定义语料；

这里，由于语音采集装置不断的发送语音信号给处理器，处理器就会持续接收到这些语音信号，那么，处理器在持续接收这些语音信号的过程中，可以获得当前账户对应的自定义语料。

在实际应用中，上述自定义语料可以包括以下之一：当前账户对应的联系人信息，如电话通讯录、即时通信应用联系人信息；或者当前账户上传的至少一个领域的专有文本，如法律条文、通信标准、行业标准等文本。当然，自定义语料还可以为其它文本，本发明实施例不作具体限定。

在本发明其它实施例中，上述自定义语料可以是处理器在接收到语音采集装置采集的语音信号后，从用户账户信息服务器或者本地读取到的；也可以是用户预先存储在本地的。当然，自定义语料还可以存在其它获取方式，本发明实施例不作具体限定。

S224：处理器对自定义语料进行分析处理，构建相应的至少一个自定义解码模型；

在具体实施过程中，为了使得语音识别更加准确，S224可以包括：对自定义语料进行分类，得到各分类的自定义语言模型；基于预先存储的声学模型、词典模型以及各分类的自定义语言模型，构建与各分类对应的至少一个自定义解码模型。

这里，处理器在获得上述自定义语料之后，对这些自定义语料进行分类，得到各分类的自定义语言模型，比如，处理器同时获得当前账户对应的联系人信息和法律条文，那么，处理器就需要先对联系人信息和法律条文进行分类，得到联系人信息对应的语言模型和法律条文对应的语言模型；然后，处理器根据预先存储的声学模型、词典模型以及上述各分类的自定义语言模型，构建与各分类对应的至少一个自定义解码模型，也就是说，处理器会构建联系人信息对应的解码模型和法律条文对应的解码模型。

S225：处理器将至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；

在具体实施过程中，由于不同用户的语言习惯和口音都不尽相同，那么，为了实现更为准确的语音识别，S225还可以包括：获取带有槽的上下文模板，其中，上下文模板是对当前账户的历史语音数据进行数据挖掘获得的；根据槽的分类标记，在通用解码模型的开始符号和结束符号之间添加槽，并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联，生成新的解码模型。

这里，处理器在用户使用语音识别服务之前，可以获取当前账户的历史语音数据，对这些数据进行数据挖掘，获得至少一个带有槽的上下文模板，例如，对语音中的人名进行识别，通过数据挖掘，得到人名相关的上下文模板：“@NAME@来找我吃饭”、“我和@NAME@是好朋友”等。需要说明的是，在上述上下文模板中“@NAME@”就是槽，“NAME”就是该槽的分类标记。然后，处理器根据这些上下文模板，在通用解码模型的开始符号和结束符号之间添加上述槽，并将槽与至少一个自定义解码模型中具有相同分类标记的自定义解码模型关联，生成新的解码模型。例如，处理器根据上下文模板“@NAME@来找我吃饭”，在通用解码模型中插入“@NAME@”所对应的槽，并根据分类标记“NAME”，将“@NAME@”所对应的槽与联系人信息对应的解码模型关联起来，如此，生成了新的解码模型。

S226：处理器对语音信号采用新的解码模型进行解码，获得语音识别结果；

在具体实施过程中，S226可以包括：根据新的解码模型对语音信号进行解码识别，当解码令牌遇到槽时，跳转到槽所关联的自定义解码模型；在槽所关联的自定义解码模型中进行解码；在槽所关联的自定义解码模型中解码完成后返回槽，并继续在通用解码模型中继续进行解码，直至获得语音识别结果。

这里，处理器在构建完成新的解码模型之后，语音服务器就可以将语音信号输入到新的解码模型进行解码。首先，处理器在通用解码模型中进行音素搜索，直至解码令牌遇到通用解码模型中插入的槽，此时，跳转到该槽所关联的自定义解码模型中继续进行音素搜索，在该自定义解码模型中完成搜索后返回槽，并继续在通用解码模型中该槽之后各个符号继续进行搜索，直至获得概率值最高的字符串作为语音识别结果。

S227：处理器输出语音识别结果。

这里，处理器可以将字符串显示在如3-2所示的语音识别界面上，也可以将字符串转换为语音信号，输出给用户，与用户进行语音交互。当然，还可以为其它输入方式，本发明实施例不作具体限定。

由此可见，在本发明实施例中，语音识别引擎在持续获取语音信号的过程中，获取当前账户对应的自定义语料，如当前账户的联系人信息、当前账户上传的特定领域的专有文本，然后，对这些自定义语料进行分析处理，构建相应的至少一个自定义解码模型，接着，将构建好的至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型，最后，对语音信号采用新的解码模型进行解码，获得语音识别结果，如此，通过这种新的解码模型，可以明显提高用户的自定义语料在通用解码模型中过低的概率值，因此可以降低自定义语料的语音发生数据偏移的几率，整体提高语音识别的准确率。

基于前述实施例，在实际应用中可以采用WFST网络来实现解码模型。

在本发明实施例中，图4-1为本发明实施例中的语音识别方法的实现流程示意图三，参见图4-1所示，该图表示的是通用的语音识别服务，环境构建为离线环境下，通过将声学模型411、字典412、语言模型413等整合到一起，构建静态WFST网络414。在在线环境下，首先载入WFST网络。当服务收到语音信号之后，首先转换成语音特征，然后，通过计算声学模型分数以及WFST网络里的权重分数来得到具有最大后验概率的输出文字组合。

为了提高语音识别的精确度，在本发明其它实施例中，图4-2为本发明实施例中的语音识别方法的实现流程示意图四，参见图4-2所示，在上述实施例的基础上，保持语音识别在线服务，并通过把当前账户对应的自定义语料421，如联系人信息、至少一个领域的专有文本，进行分析处理。首先，提取词表外421(OOV，Out Of Vocabulary)词典422，考虑到用户可能会偏爱一些生僻的词汇，例如火星文之类的，这些词很大可能不在通用词表中，因此首先构建一个用户定制词表，通过将OOV字典和通用词表组合，获得新的词表。然后，利用新的词表结合用户的个人数据进行构建，生成自定义WFST网络423。

那么，前述实施例中所述的自定义解码模型可以自定义WFST网络；通用解码模型可以为通用WFST网络。

在本发明实施例中，前述实施例中的将至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型的步骤，就可以包括：将自定义WFST网络与通用WFST网络合并，得到新的WFST网络；相应地，前述实施例中对语音信号采用新的解码模型进行解码，获得语音识别结果的步骤，可以包括：对语音信号采用新的WFST网络进行搜索解码，获得语音识别结果。

举例来说，图4-3为本发明实施例中的新的WFST网络的局部示意图，参见图4-3所示，在通用WFST网络431中插入槽432，并将槽432与联系人信息对应的自定义WFST网络433关联，构成新的WFST网络。那么，在对语音信号进行解码时，当解码令牌在通用WFST网络中搜索到槽的位置的时候，会直接进入的自定义WFST网络中继续搜索，而在自定义WFST网络中搜索结束，解码令牌会回到通用WFST网络中，继续进行搜索。通过这种方式，可以针对每个用户构建了一个用户自己的解码空间。

基于同一发明构思，本发明实施例提供一种语音识别装置，该装置可以应用于上述一个或者多个实施例所述的语音识别引擎中。

图5为本发明实施例中的语音识别装置的结构示意图，参见图5所示，该语音识别装置500可以包括：语音信号获取单元501，用于持续获取语音信号；语料获得单元502，用于在持续获取语音信号的过程中，获取当前账户对应的自定义语料；模型构建单元503，用于对自定义语料进行分析处理，构建相应的至少一个自定义解码模型；加载单元504，用于将至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；解码单元505，用于对语音信号采用新的解码模型进行解码，获得语音识别结果。

在本发明其它实施例中，上述当前账户对应的自定义语料至少包括以下之一：当前账户的联系人信息和至少一个领域的专有文本。

在本发明其它实施例中，上述自定义解码模型可以为自定义WFST网络；通用解码模型可以为通用WFST网络；相应地，加载单元，还用于将自定义WFST网络与通用WFST网络合并，得到新的WFST网络；解码单元，还用于对语音信号采用新的WFST网络进行搜索解码，获得语音识别结果。

在本发明其它实施例中，上述模型构建单元，还用于对自定义语料进行分类，得到各分类的自定义语言模型；基于预先存储的声学模型、词典模型以及各分类的自定义语言模型，构建与各分类对应的至少一个自定义解码模型。

在本发明其它实施例中，上述加载单元，还用于对当前账户的历史语音数据进行数据挖掘，获得带有槽的上下文模板；根据槽的分类标记，在通用解码模型的开始符号和结束符号之间添加槽，并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联，生成新的解码模型。

在本发明其它实施例中，上述解码单元，具体用于根据新的解码模型对语音信号进行解码识别，当解码令牌遇到槽时，跳转到槽所关联的自定义解码模型；在槽所关联的自定义解码模型中进行解码；在槽所关联的自定义解码模型中解码完成后返回槽，并继续在通用解码模型中继续进行解码，直至获得语音识别结果。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

基于同一发明构思，本发明实施例提供一种语音识别引擎，与上述一个或者多个实施例中所述语音识别引擎一致。

图6为本发明实施例中的语音识别引擎的结构示意图，参见图4所示，该语音识别引擎600包括：通信接口601、存储器602、处理器603以及存储在存储器602上并可在处理器603上运行的计算机程序604；

其中，处理器执行计算机程序时实现以下步骤：在通过通信接口持续获取语音信号的过程中，获取当前账户对应的自定义语料；对自定义语料进行分析处理，构建相应的至少一个自定义解码模型；将至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；对语音信号采用新的解码模型进行解码，获得语音识别结果。

在本发明其它实施例中，当前账户对应的自定义语料至少包括以下之一：当前账户的联系人信息和至少一个领域的专有文本。

在本发明其它实施例中，自定义解码模型可以为自定义WFST网络；通用解码模型可以为通用WFST网络；相应地，处理器执行程序时还实现以下步骤：将自定义WFST网络与通用WFST网络合并，得到新的WFST网络；对语音信号采用新的WFST网络进行搜索解码，获得语音识别结果。

在本发明其它实施例中，处理器执行程序时还实现以下步骤：对自定义语料进行分类，得到各分类的自定义语言模型；基于预先存储的声学模型、词典模型以及各分类的自定义语言模型，构建与各分类对应的至少一个自定义解码模型。

在本发明其它实施例中，处理器执行程序时还实现以下步骤：对当前账户的历史语音数据进行数据挖掘，获得带有槽的上下文模板；根据槽的分类标记，在通用解码模型的开始符号和结束符号之间添加槽，并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联，生成新的解码模型。

在本发明其它实施例中，处理器执行程序时还实现以下步骤：根据新的解码模型对语音信号进行解码识别，当解码令牌遇到槽时，跳转到槽所关联的自定义解码模型；在槽所关联的自定义解码模型中进行解码；在槽所关联的自定义解码模型中解码完成后返回槽，并继续在通用解码模型中继续进行解码，直至获得语音识别结果。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理器(DSP，Digital Signal Processor)、数字信号处理装置(DSPD，Digital Signal Processing Device)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(FPGA，Field Programmable GateArray)、中央处理器(CPU，Central Processing Unit)、控制器、微控制器、微处理器中的至少一种。存储器可以为移动存储设备、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等。可以理解地，实现上述处理器和存储器功能的电子器件还可以为其它，本发明实施例不作具体限定。

进一步地，如果上述语音识别引擎为云端语音识别引擎，即设置于语音识别服务器，则上述通信接口可以为终端与语音服务器之间的接口；如果上述语音识别引擎为本地语音识别引擎，即设置于终端，则上述通信接口可以为处理器与语音采集装置，如麦克风、送话器等之间的接口。当然，上述通信接口还可以有其它实现形式，本发明实施例不作具体限定。

这里需要指出的是：以上语音识别引擎实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明语音识别引擎实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

基于同一发明构思，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：在持续获取语音信号的过程中，获取当前账户对应的自定义语料；对自定义语料进行分析处理，构建相应的至少一个自定义解码模型；将至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；对语音信号采用新的解码模型进行解码，获得语音识别结果。

在本发明其它实施例中，自定义解码模型可以为自定义WFST网络；通用解码模型可以为通用WFST网络；相应地，计算机程序被处理器执行时还实现以下步骤：将自定义WFST网络与通用WFST网络合并，得到新的WFST网络；对语音信号采用新的WFST网络进行搜索解码，获得语音识别结果。

在本发明其它实施例中，计算机程序被处理器执行时还实现以下步骤：对自定义语料进行分类，得到各分类的自定义语言模型；基于预先存储的声学模型、词典模型以及各分类的自定义语言模型，构建与各分类对应的至少一个自定义解码模型。

在本发明其它实施例中，计算机程序被处理器执行时还实现以下步骤：对当前账户的历史语音数据进行数据挖掘，获得带有槽的上下文模板；根据槽的分类标记，在通用解码模型的开始符号和结束符号之间添加槽，并将槽与至少一个自定义解码模型中具有分类标记的自定义解码模型关联，生成新的解码模型。

在本发明其它实施例中，计算机程序被处理器执行时还实现以下步骤：根据新的解码模型对语音信号进行解码识别，当解码令牌遇到槽时，跳转到槽所关联的自定义解码模型；在槽所关联的自定义解码模型中进行解码；在槽所关联的自定义解码模型中解码完成后返回槽，并继续在通用解码模型中继续进行解码，直至获得语音识别结果。

在本发明实施例中，上述计算机程序存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，ReadOnly Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

这里需要指出的是：以上计算设备或计算机可读存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明计算设备或存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

在持续获取语音信号的过程中，获取当前账户对应的自定义语料；

对所述自定义语料进行分析处理，构建相应的至少一个自定义解码模型；

将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；

对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述当前账户对应的自定义语料至少包括以下之一：所述当前账户的联系人信息和至少一个领域的专有文本。

3.根据权利要求1所述的方法，其特征在于，所述自定义解码模型为自定义加权有限转换机WFST网络；通用解码模型为通用WFST网络；

所述将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型，包括：将所述自定义WFST网络与所述通用WFST网络合并，得到新的WFST网络；

所述对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果，包括：对所述语音信号采用所述新的WFST网络进行搜索解码，获得语音识别结果。

4.根据权利要求1所述的方法，其特征在于，所述对所述自定义语料进行分析处理，构建相应的自定义解码模型，包括：

对所述自定义语料进行分类，得到各分类的自定义语言模型；

基于预先存储的声学模型、词典模型以及所述各分类的自定义语言模型，构建与各分类对应的所述至少一个自定义解码模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型，包括：

获取带有槽的上下文模板，其中，所述上下文模板是对所述当前账户的历史语音数据进行数据挖掘获得的；

根据所述槽的分类标记，在所述通用解码模型的开始符号和结束符号之间添加所述槽，并将所述槽与所述至少一个自定义解码模型中具有所述分类标记的自定义解码模型关联，生成所述新的解码模型。

6.根据权利要求5所述的方法，其特征在于，所述对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果，包括：

根据所述新的解码模型对所述语音信号进行解码识别，当解码令牌遇到所述时，跳转到所述所关联的自定义解码模型；在所述所关联的自定义解码模型中进行解码；

在所述所关联的自定义解码模型中解码完成后返回所述，并继续在所述通用解码模型中继续进行解码，直至获得所述语音识别结果。

7.一种语音识别装置，其特征在于，包括：

语音信号获取单元，用于持续获取语音信号；

语料获得单元，用于在持续获取语音信号的过程中，获取当前账户对应的自定义语料；

模型构建单元，用于对所述自定义语料进行分析处理，构建相应的至少一个自定义解码模型；

加载单元，用于将所述至少一个自定义解码模型加载到预先存储的通用解码模型中，生成新的解码模型；

解码单元，用于对所述语音信号采用所述新的解码模型进行解码，获得语音识别结果。

8.根据权利要求7所述的装置，其特征在于，所述自定义解码模型为自定义加权有限转换机WFST网络；通用解码模型为通用WFST网络；

所述加载单元，还用于将所述自定义WFST网络与所述通用WFST网络合并，得到新的WFST网络；

所述解码单元，还用于对所述语音信号采用所述新的WFST网络进行搜索解码，获得语音识别结果。

9.一种语音识别引擎，包括：通信接口、存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

在通过所述通信接口持续获取语音信号的过程中，获取当前账户对应的自定义语料；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：