CN105845133A

CN105845133A - 语音信号处理方法及装置

Info

Publication number: CN105845133A
Application number: CN201610195611.5A
Authority: CN
Inventors: 王彪
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-08-10
Also published as: WO2017166631A1

Abstract

本发明实施例提供一种语音信号处理方法及装置。语音信号处理方法包括：获取待识别语音信号对应的信息串；根据信息串，确定待识别语音信号对应的场景化语言模型；判断场景化语言模型中是否存在对应于信息串的词序列；若判断结果为是，增大场景化语言模型中对应于信息串的词序列在语言中出现的概率，以获得增强后的场景化语言模型；根据增强后的场景化语言模型，对待识别语音信号进行语音识别。采用本发明实施例进行语音识别，可以提高语音信号识别的准确率。

Description

语音信号处理方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音信号处理方法及装置。

背景技术

语音识别技术近年来发展迅速，使用户能够通过语音与智能设备进行交互。语音识别技术是通过识别和解析过程把语音信号转变为相应文本或命令的技术。其中，对语音信号的识别和解析过程离不开语言模型(LanguageModel,LM)，语言模型的目的是建立一个能够描述给定词序列在语言中出现的概率的分布。

在语音识别领域中，大多使用通用语言模型，通用语言模型主要包括通用词序列以及通用词序列在语言中出现的概率，用于对通用领域中的语音信号进行识别。但是，随着时代的发展、应用场景的增多以及用户语言习惯的不断变化等，现有通用语言模型显然无法满足这些应用需求，这会降低语音识别的准确率。

发明内容

本发明实施例提供一种语音信号处理方法及装置，用以进行语音识别，提高语音信号识别的准确率。

本发明实施例提供一种语音信号处理方法，包括：

获取待识别语音信号对应的信息串；

根据所述信息串，确定所述待识别语音信号对应的场景化语言模型；

判断所述场景化语言模型中是否存在对应于所述信息串的词序列；

若判断结果为是，增大所述场景化语言模型中对应于所述信息串的词序列在语言中出现的概率，以获得增强后的场景化语言模型；

根据所述增强后的场景化语言模型，对所述待识别语音信号进行语音识别。

本发明实施例提供一种语音信号处理装置，包括：

获取模块，用于获取待识别语音信号对应的信息串；

确定模块，用于根据所述信息串，确定所述待识别语音信号对应的场景化语言模型；

判断模块，用于判断所述场景化语言模型中是否存在对应于所述信息串的词序列；

增强模块，用于若判断结果为是，增大所述场景化语言模型中对应于所述信息串的词序列在语言中出现的概率，以获得增强后的场景化语言模型；

识别模块，用于根据所述增强后的场景化语言模型，对所述待识别语音信号进行语音识别。

本发明实施例提供的语音信号处理方法及装置，根据待识别语音信号对应的信息串，确定待识别语音信号对应的场景化语言模型，并在该场景化语言模型中存在信息串对应的词序列时，增大该词序列在语言中出现的概率，以获得增强后的场景化语言模型，基于增强后的场景化语言模型对待识别语音信号进行语音识别。与现有技术中基于通用语言模型的语音识别方案相比，本发明实施例基于增强后的场景化语言模型，可以提高语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音信号处理方法的流程示意图；

图2为本发明另一实施例提供的语音信号处理方法的流程示意图；

图3为本发明又一实施例提供的语音信号处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术存在的问题，本发明提供一种解决方案，主要原理是：确定待识别语音信号对应的场景化语言模型，并增大该场景化语言模型中相应词序列在语言中出现的概率，以获得增强后的场景化语言模型，基于增强后的场景化语言模型对待识别语音信号进行语音识别。与通用语言模型相比，场景化语言模型包含更多与应用场景相关的词序列(也可称为特定词序列)，且预先增大了场景化语言模型中与待识别语音信号相关的词序列在语言中出现的概率，所以基于增强后的场景化语言模型对待识别语音信号进行语音识别，能够提高语音识别的准确率。

下面通过具体实施例对本发明技术方案进行详细说明。

图1为本发明一实施例提供的语音信号处理方法的流程示意图。如图1所示，该方法包括：

101、获取待识别语音信号对应的信息串。

102、根据信息串，确定待识别语音信号对应的场景化语言模型。

103、判断场景化语言模型中是否存在对应于信息串的词序列；若判断结果为是，则执行步骤104，若判断结果为否，可选的，结束此次操作或者根据场景化语言模型对待识别语音型号进行语音识别。

104、增大场景化语言模型中对应于信息串的词序列在语言中出现的概率，以获得增强后的场景化语言模型。

105、根据增强后的场景化语言模型，对待识别语音信号进行语音识别。

本实施例提供一种语音信号处理方法，可由语音信号处理装置来执行，用以提高语音信号识别的准确率。

具体的，在对待识别语音信号进行识别之前，语音信号处理装置首先获取待识别语音信号对应的信息串。该信息串是指能够在一定程度上反映待识别语音信号的信息串，例如可以是待识别语音信号对应的拼音串，或者是对待识别语音信号进行初始语音识别获得的初始文本串。然后，语音信号处理装置根据该信息串，确定待识别语音信号对应的场景化语言模型，以便于基于该场景化语言模型对待识别语音信号进行语音识别。

可选的，上述根据该信息串，确定待识别语音信号对应的场景化语言模型的实施方式包括：

对待识别语音信号对应的信息串进行语义解析，确定该信息串中的语法句式和实体词；根据该语法句式和实体词，确定待识别语音信号表达的用户意图；根据该用户意图，确定待识别语音信号对应的场景化语言模型。例如，待识别语音信号对应的信息串为“我要给小李打电话”，经过语义解析，可以确定该信息串中的语法句式为“我要给…打电话”，而实体词为“小李”，根据该语句句式和实体词，可以确定用户意图是要给某人打电话，根据该用户意图，可以确定待识别语音信号对应的场景化语言模型为电话场景语言模型，而不是搜索场景语言模型。

在确定待识别语音信号对应的场景化语言模型之后，并不是直接基于该场景化语言模型对待识别语音信号进行语音识别，而是对该场景化语言模型中的相应词序列在语言中出现的概率进行增大，以提高语音识别准确率。由于信息串一定程度上反映着待识别语音信号，所以相比于其它词序列，待识别语音信号被识别为所述对应于信息串的词序列的可能更大，基于此，可以将对应于信息串的词序列作为待识别语音信号对应的场景化语言模型中需要增大概率的相应词序列。当然，在增大对应于信息串的词序列在语言中出现的概率之前，先要判断待识别语音信号对应的场景化语言模型中是否存在对应于信息串的词序列；如果判断结果为是，即该场景化语言模型中存在对应于信息串的词序列，则增大该场景化语言模型中对应于信息串的词序列在语言中出现的概率，以获得增强后的场景化语言模型，然后基于增强后的场景化语言模型，对待识别语音信号进行语音识别。

在一可选实施方式中，待识别语音信号对应的场景化语言模型包括语法文件和场景词典。语法文件存储该场景化语言模型对应的应用场景中各种语法句式，即一些固定表达方式，例如“请给…打电话”，“请播放歌曲…”，“请搜索歌曲…的歌词”等。场景词典存储该场景化语言模型对应的应用场景中常用的实体词，例如在电话应用场景下实体词可以是通讯录中联系人的姓名，或者在语音控制播放音乐的应用场景中实体词可以是音乐库中的歌曲名等。

基于上述，判断待识别语音信号对应的场景化语言模型中是否存在对应于信息串的词序列的实施方式包括：

对待识别语音信号对应的信息串进行语义解析，确定信息串中的语法句式和实体词；判断信息串中的固定句式是否包含在该场景化语言模型的语法文件中，并判断信息串中的实体词是否包含在该场景化语言模型的场景词典中；若判断结果均为是，则确定该场景化语言模型中存在对应于信息串的词序列，且由信息串中的固定句式和实体词组合成的词序列即为对应于信息串的词序列。

值得说明的是，在确定待识别信号对应的场景化语言模型的过程与在判断该场景化语言模型中是否存在对应于信息串的词序列的过程中，均包括对信息串进行语义解析，确定信息串中的语法句式和实体词的操作，在具体实现是，该操作可以仅执行一次，也可以在两个过程中分别执行一次。

由于上述可见，本实施例中待识别语音信号对应的场景化语言模型包括了与应用场景相关的词序列，同时该场景化语言模型中可能作为待识别语音信号的识别结果的词序列在语言中出现的概率又被增大了，所以基于增强后的场景化语言模型对待识别语音信号进行识别，能够提高语音识别的准确率。

在一可选实施方式中，可以先采用通用语言模型对待识别语音信号进行语音识别，当采用通用语言模型无法识别待识别语音信号对应的词序列时，再采用本发明实施例提供的方法，对待识别语音信号进行语音识别。该实施方式的流程如图2所示，包括以下步骤：

200、采用通用语言模型对待识别语音信号进行语音识别；

201、判断采用通用语言模型是否识别出待识别语音信号对应的词序列；若判断结果为是，则结束操作；若判断结果为否，则执行步骤202。

202、获取待识别语音信号对应的信息串。

203、根据该信息串，确定待识别语音信号对应的场景化语言模型；

204、判断场景化语言模型中是否存在对应于信息串的词序列；若判断结果为是，则执行步骤205，若判断结果为否，可选的，则执行步骤207。

205、增大场景化语言模型中对应于信息串的词序列在语言中出现的概率，以获得增强后的场景化语言模型。

206、根据增强后的场景化语言模型，对待识别语音信号进行语音识别，并结束此次操作。

207、结束此次操作或者根据场景化语言模型对待识别语音型号进行语音识别，并结束此次操作。

其中，通用语言模型又可以称为大语言模型，而场景化语言模型又可以称为小语言模型。

在一可选实施方式中，在上述步骤105或步骤206中，可以单独基于增强后的场景化语言模型，对待识别语音信号进行语音识别。

在另一可选实施方式中，在上述步骤105或步骤206中，可以结合通用语言模型和增强后的场景化语言模型，对待识别语音信号进行语音识别。

值得说明的是，本发明实施例中采用通用语言模型或增强后的场景化语言模型，对待识别语音信号进行语音识别的过程，与现有技术中基于通用语言模型对语音信号进行语音识别的过程类似，在此不再详细说明。

另外，上述结合通用语言模型和增强后的场景化语言模型，对待识别语音信号进行语音识别的一种实施方式包括：

可以将增强后的场景化语言模型叠加到通用语言模型中，生成一个复合语言模型(实际上是一个更大的语言模型)，然后基于该复合语言模型对待识别语音信号进行语音识别。

上述结合通用语言模型和增强后的场景化语言模型，对待识别语音信号进行语音识别的另一种实施方式包括：

先使用通用语言模型对待识别语音信号进行语音识别，获得待识别语音信号对应的候选词序列以及在通用语言模型中候选词序列在语言中出现的第一概率，从增强后的场景化语言模型中获取候选词序列在语言中出现的第二概率，将候选词序列的第一概率和第二概率进行加权处理，根据加权处理结果从候选词序列中获取待识别语音信号最终对应的词序列。

使用通用语言模型对待识别语音信号进行语音识别，获取待识别语音信号对应的第一候选词序列及第一候选词序列在语言中出现的概率；使用增强后的场景化语言模型对待识别语音信号进行语音识别，获取待识别语音信号对应的第二候选词序列及第二候选词序列在语言中出现的概率；根据第一候选词序列在语言中出现的概率和第二候选词序列在语言中出现的概率，从第一候选词序列和第二候选词序列中获取待识别语音信号最终对应的词序列。其中，对于第一候选词序列和第二候选词序列中的相同候选词序列，可以将其对应的两个概率进行加权求和，作为其最终概率。

在上述实施方式中，除了增强场景化语言模型有利于提高语音识别准确率之外，还结合通用语言模型和增强后的场景化语言模型，对待识别语音信号进行语音识别，可以充分利用通用语言模型包含较多通用词序列，而增强后的场景化语言模型中包含较多与应用场景相关的词序列的特点，提高语音识别的准确率。

图3为本发明又一实施例提供的语音信号处理装置的结构示意图。如图3所示，该装置包括：获取模块31、确定模块32、判断模块33、增强模块34和识别模块35。

获取模块31，用于获取待识别语音信号对应的信息串。

确定模块32，用于根据待识别语音信号对应的信息串，确定待识别语音信号对应的场景化语言模型。

判断模块33，用于判断待识别语音信号对应的场景化语言模型中是否存在对应于信息串的词序列。

增强模块34，用于若判断结果为是，增大待识别语音信号对应的场景化语言模型中对应于信息串的词序列在语言中出现的概率，以获得增强后的场景化语言模型。

识别模块35，用于根据增强后的场景化语言模型，对待识别语音信号进行语音识别。

在一可选实施方式中，确定模块32具体用于：

对待识别语音信号对应的信息串进行语义解析，确定该信息串中的语法句式和实体词；

根据语法句式和实体词，确定待识别语音信号表达的用户意图；

根据用户意图，确定待识别语音信号对应的场景化语言模型。

在一可选实施方式中，待识别语音信号对应的场景化语言模型包括语法文件和场景词典。基于此，判断模块33具体用于：

对待识别语音信号对应的信息串进行语义解析，确定该信息串中的语法句式和实体词

判断固定句式是否包含在语法文件中，并判断实体词是否包含在场景词典中；

若判断结果均为是，则确定场景化语言模型中存在对应于信息串的词序列，且由固定句式和实体词组合成的词序列为对应于信息串的词序列。

在一可选实施方式中，获取模块31具体用于：

当采用通用语言模型无法识别待识别语音信号对应的词序列时，获取待识别语音信号对应的信息串。

在一可选实施方式中，识别模块35具体用于：

根据通用语言模型和增强后的场景化语言模型，对待识别语音信号进行语音识别。

进一步，识别模块35具体用于：先使用通用语言模型对待识别语音信号进行语音识别，获得待识别语音信号对应的候选词序列以及在通用语言模型中候选词序列在语言中出现的第一概率，从增强后的场景化语言模型中获取候选词序列在语言中出现的第二概率，将候选词序列的第一概率和第二概率进行加权处理，根据加权处理结果从候选词序列中获取待识别语音信号最终对应的词序列。

进一步，识别模块35具体用于：先使用通用语言模型对待识别语音信号进行语音识别，获得待识别语音信号对应的候选词序列(通常为多组)以及在通用语言模型中候选词序列在语言中出现的第一概率，从增强后的场景化语言模型中获取候选词序列在语言中出现的第二概率，将候选词序列的第一概率和第二概率进行加权处理，根据加权处理结果从候选词序列中获取待识别语音信号最终对应的词序列。

进一步，识别模块35具体用于：使用通用语言模型对待识别语音信号进行语音识别，获取待识别语音信号对应的第一候选词序列及第一候选词序列在语言中出现的概率；使用增强后的场景化语言模型对待识别语音信号进行语音识别，获取待识别语音信号对应的第二候选词序列及第二候选词序列在语言中出现的概率；根据第一候选词序列在语言中出现的概率和第二候选词序列在语言中出现的概率，从第一候选词序列和第二候选词序列中获取待识别语音信号最终对应的词序列。其中，对于第一候选词序列和第二候选词序列中的相同候选词序列，可以将其对应的两个概率进行加权求和，作为其最终概率。

本实施例提供的语音信号处理装置，根据待识别语音信号对应的信息串，确定待识别语音信号对应的场景化语言模型，并在该场景化语言模型中存在信息串对应的词序列时，增大该词序列在语言中出现的概率，以获得增强后的场景化语言模型，基于增强后的场景化语言模型对待识别语音信号进行语音识别，而不是像现有技术那样基于通用语言模型进行语音识别，可以提高语音识别的准确率。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音信号处理方法，其特征在于，包括：

获取待识别语音信号对应的信息串；

2.根据权利要求1所述的方法，其特征在于，所述根据所述信息串，确定所述待识别语音信号对应的场景化语言模型，包括：

对所述信息串进行语义解析，确定所述信息串中的语法句式和实体词；

根据所述语法句式和实体词，确定所述待识别语音信号表达的用户意图；

根据所述用户意图，确定所述待识别语音信号对应的场景化语言模型。

3.根据权利要求1所述的方法，其特征在于，所述场景化语言模型包括语法文件和场景词典；

所述判断所述场景化语言模型中是否存在对应于所述信息串的词序列，包括：

对所述信息串进行语义解析，确定所述信息串中的语法句式和实体词

判断所述固定句式是否包含在所述语法文件中，并判断所述实体词是否包含在所述场景词典中；

若判断结果均为是，则确定所述场景化语言模型中存在对应于所述信息串的词序列，且由所述固定句式和所述实体词组合成的词序列为对应于所述信息串的词序列。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取待识别语音信号对应的信息串，包括：

当采用通用语言模型无法识别所述待识别语音信号对应的词序列时，获取所述待识别语音信号对应的信息串。

5.根据权利要求4所述的方法，其特征在于，所述根据所述增强后的场景化语言模型，对所述待识别语音信号进行语音识别，包括：

根据所述通用语言模型和所述增强后的场景化语言模型，对所述待识别语音信号进行语音识别。

6.一种语音信号处理装置，其特征在于，包括：

获取模块，用于获取待识别语音信号对应的信息串；

7.根据权利要求6所述的装置，其特征在于，所述确定模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述场景化语言模型包括语法文件和场景词典；

所述判断模块具体用于：

9.根据权利要求6-8任一项所述的装置，其特征在于，所述获取模块具体用于：

10.根据权利要求9所述的装置，其特征在于，所述识别模块具体用于：