CN111462738A

CN111462738A - 语音识别方法及装置

Info

Publication number: CN111462738A
Application number: CN201910047340.2A
Authority: CN
Inventors: 张帆; 郑梓豪; 胡于响; 姜飞俊
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2020-07-28
Anticipated expiration: 2039-01-18
Also published as: CN111462738B; WO2020147609A1

Abstract

本发明实施例提供了一种语音识别方法及装置，其中，所述语音识别方法包括：获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；获取所述文本向量的句法特征；根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。通过本发明实施例，减轻了用户的操作负担，也提高了智能语音设备对用户语音指令的智能化处理程度。

Description

语音识别方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种语音识别方法及装置。

背景技术

智能设备是传统电气设备与计算机技术、数据处理技术、控制技术、传感器技术、网络通信技术、电力电子技术等相结合的产物。在各种智能设备中，智能语音设备是其中重要的一个分支。

通过智能语音设备，用户仅需语音即可实现对各种智能设备的控制，包括对智能语音设备自身和智能语音设备所控制的其它智能设备的控制。目前，在用户与智能语音设备进行交互的过程中，每一次对智能语音设备的控制都需要使用唤醒词，然后紧接着说出语音指令以完成用户的意图。例如：“天猫精灵，打开灯”、“天猫精灵，播放音乐”等等，可见，在该交互中，用户每次都需要使用“天猫精灵”这一唤醒词来唤醒智能语音设备，以进行相应的操作和控制。而在“你为什么这么晚回家啊？请打开卧室的灯”这一语句中，“你为什么这么晚回家啊？”是用户之间的交互，而“请打开卧室的灯”则是对智能语音设备的控制指令。对于这类复杂的且无唤醒词的混合指令，目前的智能语音设备则无法进行处理。

但是，这种使用唤醒词唤醒智能语音设备的方式，一方面，用户的每条指令都必须使用唤醒词，增加了用户的操作负担，也使得智能语音设备对用户语音指令的智能化处理程度较低；另一方面，智能语音设备需要重复地对唤醒词进行处理，也增加了智能语音设备的处理负担。

发明内容

有鉴于此，本发明实施例提供一种语音识别方案，以解决上述问题。

根据本发明实施例的第一方面，提供了一种语音识别方法，包括：获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；获取所述文本向量的句法特征；根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。

根据本发明实施例的第二方面，提供了一种语音识别装置，包括：第一获取模块，用于获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；第二获取模块，用于获取所述文本向量的句法特征；第三获取模块，用于根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；识别模块，用于至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。

根据本发明实施例的第三方面，提供了一种智能设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的语音识别方法对应的操作。

根据本发明实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的语音识别方法。

根据本发明实施例提供的语音识别方案，先获取由语音输入数据转换的文本数据和该文本数据对应的文本向量；再通过对文本向量的特征提取获得对应的句法特征；然后，根据句法特征对语音输入数据对应的文本数据进行文本子句的划分及文本子句的领域信息的确定；进而，根据文本子句的领域信息识别语音输入数据中的语音指令。可见，通过本发明实施例的方案，使得智能语音设备更加适用于实际的使用环境，无需用户再使用唤醒词唤醒智能语音设备，不管是用户使用纯语音指令的语音输入数据，还是使用包含语音指令和其它语音数据的混合语音输入数据，都能对语音输入数据进行有效的子句划分，并识别其中包含的语音指令，进而，后续可以通过识别的语音指令对智能语音设备进行操作和控制。

因无需使用唤醒词唤醒智能语音设备，减轻了用户的操作负担，也提高了智能语音设备对用户语音指令的智能化处理程度；并且，智能语音设备也无需再针对唤醒词进行处理，减轻了智能语音设备的数据处理负担。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例一的一种语音识别方法的步骤流程图；

图2为根据本发明实施例二的一种语音识别方法的步骤流程图；

图3为图2所示实施例中的一种神经网络模型的结构示意图；

图4为根据本发明实施例三的一种语音识别装置的结构框图；

图5为根据本发明实施例四的一种语音识别装置的结构框图；

图6为根据本发明实施例五的一种智能设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一的一种语音识别方法的步骤流程图。

本实施例的语音识别方法包括以下步骤：

步骤S102：获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量。

在智能语音设备的使用场景中，用户可以通过语音对智能语音设备进行操作和控制；智能语音设备以用户发出的语音作为输入生成相应的语音输入数据，并将该语音输入数据转换为对应的文本数据，进而进行相应的处理。本实施例中，除需要将语音输入数据转换为文本数据外，还会获取该文本数据对应的文本向量，以通过向量形式表征该文本数据，且便于后续的处理。其中，将语音输入数据转换为对应的文本数据，以及，获取该文本数据对应的文本向量的具体实现均可由本领域技术人员根据实际需要采用任意适当的方式实现，本发明实施例对此不作限制。

例如，可以采用卷积神经网络模型或者BP神经网络模型或者隐马尔科夫模型HMM或者多频带谱减法等等方式实现将语音输入数据转换为文本数据；又例如，可以基于深度学习的方式(如word2vec方式)、或者基于图的方式(如textrank方式)、或者基于主题模型的方式(如LDA方式)、或者基于统计的方式(如bag of words方式)等等实现文本数据对应的文本向量的获取。

步骤S104：获取所述文本数据对应的文本向量的句法特征。

本发明实施例中，文本向量的句法特征可以表征文本向量所对应的文本数据中的字词之间的依存关系和语义信息，句法特征可以通过句法特征向量表达。在具体实现中，可以通过卷积神经网络CNN模型或者循环神经网络RNN模型对所述文本向量进行特征提取，以获取所述文本向量的句法特征。但不限于此，在实际应用中，本领域技术人员也可以采用其它适当方式获取文本向量的句法特征，如文本分类或其它方式等。

步骤S106：根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个文本子句的领域信息。

本发明实施例中，语音输入数据对应的文本数据中，包含一个或多个文本子句，当包含一个文本子句时，该文本子句可以是语音指令对应的文本子句，也可以是其它语音数据对应的文本子句；当包含多个文本子句时，该多个文本子句可以均为语音指令对应的文本子句，该多个文本子句也可以均为其它语音数据对应的文本子句，如用户说的与语音指令无关的句子，该多个文本子句还可以为语音指令对应的文本子句与其它语音数据对应的文本子句的混合，如在一个复杂的多人场景中，用户A和用户B在交流的同时，向智能语音设备发出的语音指令，如“你为什么这么晚回家啊？请打开卧室的灯”，其中，前半句“你为什么这么晚回家啊”会被识别为其它语音数据对应的文本子句，而后半句“请打开卧室的灯”则会被识别为语音指令对应的文本子句。

在实际应用中，在获得了文本向量对应的句法特征后，即可根据句法特征确定所述文本数据中的一个或多个文本子句。其中，获取文本子句的方式可以与获取句法特征的方式相适应，例如，当采用CNN模型或RNN模型获取所述文本向量的句法特征时，可以依据句法特征对所述文本数据进行序列标注，根据序列标注的结果获得一个或多个文本子句。

此外，本发明实施例中，还会根据文本向量的句法特征，获取每一个文本子句的领域信息。如，通过机器学习算法或者神经网络模型，由文本向量的句法特征获取其对应的文本子句的领域信息，其中，所述领域信息中包括语音指令对应的领域的信息。

需要说明的是，本发明实施例中，若无特别说明，“多个”、“多种”等与“多”有关的数量意指两个及两个以上。

步骤S108：至少根据每一个文本子句的领域信息，识别语音输入数据中的语音指令。

在语音输入数据包括有语音指令的情况下，其对应的文本数据包含的一个或多个文本子句中，应当有文本子句的领域信息指示该文本子句对应的那部分语音输入数据为语音指令，据此，即可从语音输入数据中识别出语音指令。

例如，在“你为什么这么晚回家啊？请打开卧室的灯”这一语音输入数据中，根据对其对应的文本数据及文本数据对应的文本向量的上述处理，可确定其中的文本子句“请打开卧室的灯”为语音指令。

通过本实施例，先获取由语音输入数据转换的文本数据和该文本数据对应的文本向量；再通过对文本向量的特征提取获得对应的句法特征；然后，根据句法特征对语音输入数据对应的文本数据进行文本子句的划分及文本子句的领域信息的确定；进而，根据文本子句的领域信息识别语音输入数据中的语音指令。可见，通过本实施例，使得智能语音设备更加适用于实际的使用环境，无需用户再使用唤醒词唤醒智能语音设备，不管是用户使用纯语音指令的语音输入数据，还是使用包含语音指令和其它语音数据的混合语音输入数据，都能对语音输入数据进行有效的子句划分，并识别其中包含的语音指令，进而，后续可以通过识别的语音指令对智能语音设备进行操作和控制。

本实施例的语音识别方法可以由任意适当的具有数据处理能力的智能语音设备执行，如，具有相应功能的各种智能家电等。

实施例二

参照图2，示出了根据本发明实施例二的一种语音识别方法的步骤流程图。

本实施例的语音识别方法包括以下步骤：

步骤S202：获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量。

本实施例中，所述文本数据对应的文本向量包括文本数据中的每一个字词对应的字词向量。其中，因可能采用的语言的不同，字词的具体含义也可能不同。例如，对于像中文、日文、韩文等类似语言体系的文本数据，一个字词可能是单个的字，也可能是一个词；而对于像英文、法文等类似语言体系的文本数据，一个字词多为一个完整的单词。

基于此，在一种可行方式中，本步骤可以实现为：获取语音输入数据，并生成与语音输入数据对应的文本数据；生成所述文本数据中的每一个字词对应的字词向量；根据每一个字词对应的字词向量，生成所述文本数据对应的文本向量。其中，根据语音输入数据生成对应的文本数据，以及，生成文本数据中的每一个字词对应的字词向量的具体实现方式均可由本领域技术人员根据实际需求采用任意适当的方式实现，本发明实施例对此不作限制。通过每一个字词对应的字词向量表征文本数据对应的文本向量既可便于对文本数据的处理，也可以有效避免因向量化处理而造成的文本数据的过多信息损失。

步骤S204：获取所述文本数据对应的文本向量的句法特征。

如实施例一中所述，获取文本向量的句法特征的方式可以有多种，本实施例中采用特征提取的方式，也即，对所述文本数据对应的文本向量进行特征提取，获取所述文本向量的句法特征。

在文本向量包括每一个字词对应的字词向量的情况下，本步骤可以实现为：对所述文本向量中的每一个字词对应的字词向量进行特征提取，获取每一个字词的句法特征。采用特征提取的方式提取到的句法特征，可以更为有效地表征每一个字词向量对应的字词的特性。

步骤S206：根据所述文本向量的句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息。

其中，在根据所述文本向量的句法特征，获取所述文本数据中包含的至少一个文本子句时，基于前述获取的每一个字词的句法特征，可以根据所述每一个字词的句法特征，获取每一个字词的标签，其中，所述标签包括结束标签；根据每一个字词的标签，获得所述文本数据的序列标注；根据所述序列标注中的结束标签，获取所述文本数据中包含的至少一个文本子句。也即，可以将文本子句的划分问题转换为文本数据的序列标注问题。其中，所述标签的类型可以由本领域技术人员根据实际需求适当设置，但至少包括结束标签。若一个字词被标注为结束标签，则表明从文本数据开头至该字词之间的所有字词组成为一个文本子句，或者，从前一结束标签之后的首个字词至该结束标签对应的字词之间的所有字词组成为一个文本子句。

可选地，所述标签可以包括B标签(开始标签，表明当前字词为一个句子的开始)、I标签(中间标签，表明当前字词在一个句子开始和结尾之间的内部)、E标签(结束标签，表明当前字词为一个句子的结尾)。若当前文本数据包括多个E标签，则表明当前文本数据包括多个子句，可以根据E标签对文本子句进行划分；而若当前文本数据仅包括一个E标签，则表明当前文本数据仅有一个文本子句，即当前文本数据自身。

通过对字词进行标签标注以形成文本数据的序列标注，进而根据序列标注中的结束标签获得文本子句的方式，可以使得对文本子句的划分更为准确；另外，相对于其它划分文本子句的方式，也简化了划分的操作步骤，降低了划分的实现成本。

而在根据所述文本向量的句法特征，获取每一个文本子句的领域信息时，可以根据所述文本向量的句法特征，获取每一个文本子句对应的领域特征；对每一个文本子句的领域特征，在每个特征维度上进行最大特征值提取，生成每一个文本子句的领域特征向量；根据每一个文本子句的领域特征向量，确定当前文本子句的领域信息。通过这种方式，可以获得每一个文本子句最有效的特征表达，且每一个文本子句的特征表达具有相同的向量长度，以便于后续处理。

在一种可行方式中，所述根据所述文本向量的句法特征，获取每一个文本子句对应的领域特征可以包括：根据所述文本向量的句法特征，获取所述文本向量的领域特征；根据每一个文本子句所包含的字词的信息，从所述文本向量的领域特征中获取每一个文本子句对应的领域特征。也即，先根据整个所述文本数据对应的文本向量，获取对应的总领域特征，进而依据文本子句中的字词的信息，从总领域特征中获得每一个文本子句的领域特征。由此，既保证了每一个文本子句的领域特征与总领域特征的一致性，也简化了获取文本子句的领域特征的实现。

步骤S208：至少根据每一个文本子句的领域信息，识别语音输入数据中的语音指令。

本发明实施例中，属于语音指令的文本子句对应有设定的领域信息，当某一文本子句的领域信息与该设定的领域信息一致时，则可以将该文本子句确定为语音指令对应的文本子句。可选地，还可以设置其它的领域信息，该其它的领域信息可以是指示文本子句为非语音指令的统一的领域信息，也可以再将其它的领域信息进行细分，以指示出文本子句的具体领域，如，交互领域，等等。

步骤S210：根据识别出的语音指令，对智能语音设备进行所述语音指令所指示的操作。

其中，所述操作可以是任意适当的操作，如，指示智能语音设备开启或关闭相应功能，如打开空调、关闭电灯等，或者，指示智能语音设备进行查询的操作，如，查询并播放某首歌曲、查询并播放某地天气，等等，本发明实施例对语音指令所指示的具体操作不作限制。

如前所述，本发明实施例提供的语音识别方案可以通过多种适当的方式实现，在一种可行的方式中，可以通过神经网络模型实现该语音识别方案中的部分或全部方案。以下，以卷积神经网络CNN模型为例，对本实施例的上述过程进行说明。

一种CNN模型的结构如图3所示，其包括：输入部分A、特征提取部分B、句边界探测部分C、和领域分类部分D。

其中：

输入部分A可以为CNN的输入层，用于接收输入的文本向量，如语音输入数据对应的文本数据的文本向量。

特征提取部分B中设置有多个卷积层，本实施例中，设定至少12个卷积层，以提高特征提取的精度。可选地，还可以在特征提取部分B中设置批规范化层(batchnormalization layer)、激活层(activation layer)、卷积层(convolutional layer)，其中，还可以对卷积层进行残差(residual)处理。通过设置批规范化层，可以优化CNN模型的数据处理速度；所述激活层可采用线性门函数进行非线性化处理，激活层采用线性门函数可以提升对文本向量的非线性化特征转换效果，当然，其它的激活函数也同样适用；通过对卷积层进行残差处理，将文本数据对应的原始的文本向量与当前卷积层输出的句法特征相结合后输出，以优化梯度回传效果，并提升特征提取效果。

句边界探测部分C可选地，可依次包括批规范化层、卷积层和输出层，其中，输出层采用Softmax函数作为损失函数。通过句边界探测部分C可以获得文本向量中每一个字词对应的字词向量的标签，进而获得整个文本数据的序列标注，根据序列标注中的结束标签如E标签即可确定文本子句的划分。

领域分类部分D可选地，可依次包括批规范化层、卷积层、池化层和输出层，其中，池化层采用一维特征池化(1-D RoI pooling)，输出层采用Softmax函数作为损失函数。领域分类部分D根据文本子句的划分结果和每个文本子句的领域信息，即可识别出其中的语音指令对应的文本子句。

需要说明的是，如图3所示，本实施例的CNN模型中的句边界探测部分C和领域分类部分D共享特征提取部分B提取的句法特征，以提升CNN模型数据处理效率，节约CNN模型实现成本。

基于图3所示的CNN模型，以智能语音设备为智能音箱、语音输入数据为“你为什么这么晚回家啊？请打开卧室的灯”为例，则相应的语音识别流程包括：

(1)将语音输入数据转换为文本数据，并获取该文本数据对应的文本向量。

该部分是文本向量输入CNN模型前，对数据的转换和处理。以用户发出“你为什么这么晚回家啊？请打开卧室的灯”的语音为例，则在本部分中，需要将“你为什么这么晚回家啊？请打开卧室的灯”这一语音输入数据转换为文本数据，并将其中的每一个字转换为D维的向量，其中，D的具体数值可以由本领域技术人员根据实际需求适当设置。

由此，可以生成N个D维的向量，其中N为字词的数量，本示例中包括17个字，因此，N为17。这N个D维的向量即为文本数据对应的文本向量。

(2)通过CNN模型的输入部分接收所述文本数据对应的文本向量。

例如，通过CNN模型的输入层接收上述生成的N个D维的向量。

(3)通过CNN模型的特征提取部分对所述文本向量进行特征提取，获取所述文本向量的句法特征。

包括：对输入的向量进行批规范化操作，生成规范化的向量；对所述规范化的向量进行非线性化处理；通过卷积层对非线性处理后的所述向量进行特征提取，获得初始特征；对所述初始特征进行残差分析处理，根据所述残差分析处理结果获得所述向量的句法特征并输出；返回所述对输入的向量进行批规范化操作的步骤继续执行，直至获得所述文本向量的句法特征。可选地，当设置有批规范化层时，通过批规范化层对输入的向量进行批规范化操作，生成规范化的向量。其中，输入首个卷积层部分的所述批规范化层的向量为所述文本数据对应的文本向量；输入非首个卷积层部分的所述批规范化层的向量为前一卷积层部分输出的向量。又可选地，当设置有激活层时，通过激活层对所述规范化的向量进行非线性化处理。

也即，先将文本向量输入首个批规范化层，依次通过批规范化层、激活层、卷积层对该文本向量进行批规范化操作、非线性化处理、特征提取和残差处理，获得句法特征；接着，将得到的该句法特征输入邻接的下一个批规范化层、激活层、卷积层等依次进行处理，再次获得处理得到的句法特征；再将该处理得到的句法特征输入下一批规范化层、激活层、卷积层进行处理，依次类推，直至获得最终的文本向量的句法特征。

需要说明的是，输入批规范化层的向量可以是前一卷积层经残差处理后的全部的向量如全部的文本向量或全部的句法特征，也可以是前一卷积层残差处理后的每一个字词的向量如文本向量中的每一个字词的字词向量或每一个字词对应的句法特征。但不管哪种方式，最终获取到的文本向量的句法特征包括每一个字词的句法特征。

具体到“你为什么这么晚回家啊？请打开卧室的灯”这一示例，则通过本步骤可以获得其中的每一个字对应的句法特征。

(4)通过CNN模型的句边界探测部分根据特征提取部分输出的句法特征，获取语音输入数据对应的文本数据中包含的至少一个文本子句。

包括：对所述句法特征进行批规范化操作(可选地，可通过句边界探测部分的批规范化层对所述句法特征进行批规范化操作)，生成规范化的句法特征；通过卷积层对所述规范化的句法特征进行特征提取；通过输出层根据特征提取结果确定所述文本数据中的每个字词的标签，根据每个字词的标签获取所述文本数据中包含的至少一个文本子句。

通过句边界探测部分，实现了文本数据的序列标注。例如，用B表示对应的字处于一个文本片段的开始(即B为开始标签)，E表示对应的字处于一个文本片段的结束(即E为结束标签)，I表示对应的字处于一个文本片段的中间(即I为中间标签)。根据每一个字词的句法特征，通过句边界探测部分即可得到文本数据中每一个字词上的BIE概率分布，对于每一个字词，取其BIE概率分布的最大值对应的标签。如，“你为什么这么晚回家啊？请打开卧室的灯”这一示例中，若“啊”字的B标签概率为0.3，I标签概率为0.1，E标签概率为0.8，则可以确定“啊”字的标签应为E标签。根据每一个字词的标签，可得到整个文本数据的序列标注，进而，根据该序列标注中的结束标签，即可得到每一个文本子句的句子边界，从而得到每一个文本子句的范围。

具体到“你为什么这么晚回家啊？请打开卧室的灯”这一示例，则通过本步骤可以获得其序列标注，如，“BIIIIIIIIEBIIIIIE”，据此，可以获得两个文本子句，即“你为什么这么晚回家啊？”和“请打开卧室的灯”。

(5)通过CNN模型的领域分类部分根据所述文本向量的句法特征和每一个文本子句的信息，获取每一个文本子句的领域信息。

包括：对所述文本向量的句法特征进行批规范化操作(可选地，可通过领域分类部分的批规范化层对所述文本向量的句法特征进行批规范化操作)，生成规范化的句法特征；通过卷积层对所述规范化的句法特征进行特征映射，获取所述文本向量的领域特征；通过池化层根据每一个所述文本子句的信息对所述文本向量的领域特征进行池化处理；通过输出层根据所述池化处理的结果，获取每一个所述文本子句的领域信息。

首先，针对文本向量的句法特征，通过领域分类部分的批规范化层和卷积层，可以把该句法特征映射为领域特征C。具体到“你为什么这么晚回家啊？请打开卧室的灯”这一示例，得到的领域特征C可以为一个N*D的二维矩阵，其中，N为文本数据中包含的字词数，本示例中为17，D为每一个字词的领域特征向量的维度。

其次，根据句边界探测部分得到的每一个文本子句的范围，可以把领域特征C转换为S＝(m1,m2,m3,...)，其中，m为每一个文本子句对应的二维领域特征矩阵，S是文本子句的二维领域特征矩阵的集合，也为一个N*D的二维矩阵。其中，每个m为一个W*D的二维矩阵，W表示当前文本子句中的字词的数量，D如前所述为每一个字词的特征向量的维度。

具体到“你为什么这么晚回家啊？请打开卧室的灯”这一示例，其包括文本子句“你为什么这么晚回家啊”，则其对应的二维领域特征矩阵m1为一个10*D的矩阵,文本子句“请打开卧室的灯”，其对应的二维领域特征矩阵m2为一个7*D的矩阵。相对应地，S＝(m1,m2)。

接着，针对S，在第一维上即N维上选取最大值，即在每个文本子句对应的二维特征领域矩阵的第一维进行max操作，得到每一个文本子句对应的二维特征领域矩阵的一维特征(1*D)，进而得到所有文本子句的固定长度的特征表达T＝(u1,u2,u3,...)，其中，u为每个文本子句对应的一维且长度为D的领域特征向量。

然后，通过领域分类部分的池化层对T＝(u1,u2,u3,...)进行池化处理后，再通过Softmax函数得到每一个文本子句的领域概率分布，根据每一个文本子句的领域概率分布确定该文本子句的领域信息。

(6)根据每一个文本子句的领域信息，识别语音输入数据中的语音指令。

可见，通过上述过程(2)-(4)，实现了CNN模型对文本子句的划分和文本子句的领域信息确定。通过该CNN模型，将语音指令的提取和识别两个任务统一于一个CNN模型框架中，有效实现了对用户指令的切分和识别。

进一步地，基于CNN输出的结果，即可确定出语音指令。

例如，为语音指令设定领域信息IOT(Internet Of Things)，则如果某个文本子句的领域信息被分类为IOT领域，则可以认为该文本子句对应的那部分语音输入数据即为语音指令。具体到“你为什么这么晚回家啊？请打开卧室的灯”这一示例，“请打开卧室的灯”会被分类到IOT领域，因此，确定“请打开卧室的灯”为用于操作和控制智能语音设备的语音指令。

实施例三

参照图4，示出了根据本发明实施例三的一种语音识别装置的结构框图。

本实施例的语音识别装置包括：第一获取模块302，用于获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；第二获取模块304，用于获取所述文本向量的句法特征；第三获取模块306，用于根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；识别模块308，用于至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。

实施例四

参照图5，示出了根据本发明实施例四的一种语音识别装置的结构框图。

本实施例的语音识别装置包括：第一获取模块402，用于获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；第二获取模块404，用于获取所述文本向量的句法特征；第三获取模块406，用于根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；识别模块408，用于至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。

可选地，所述第一获取模块402，用于获取语音输入数据，并生成与所述语音输入数据对应的文本数据；生成所述文本数据中的每一个字词对应的字词向量；根据每一个字词对应的字词向量，生成所述文本数据对应的文本向量。

可选地，所述第二获取模块404，用于对所述文本向量进行特征提取，获取所述文本向量的句法特征。

可选地，所述第二获取模块404，用于对所述文本向量中的每一个字词对应的字词向量进行特征提取，获取每一个字词的句法特征。

可选地，所述第三获取模块406包括：子句获取模块4062，用于根据每一个字词的句法特征，获取每一个字词的标签，其中，所述标签包括结束标签；根据每一个字词的标签，获得所述文本数据的序列标注；根据所述序列标注中的结束标签，获取所述文本数据中包含的至少一个文本子句；领域获取模块4064，用于根据所述句法特征，获取每一个所述文本子句的领域信息。

可选地，所述领域获取模块4064包括：领域特征模块40642，用于根据所述文本向量的句法特征，获取每一个所述文本子句对应的领域特征；确定模块40644，用于对每一个所述文本子句的领域特征，在每个特征维度上进行最大特征值提取，生成每一个所述文本子句的领域特征向量；根据每一个所述文本子句的领域特征向量，确定当前文本子句的领域信息。

可选地，所述领域特征模块40642，用于根据所述文本向量的句法特征，获取所述文本向量的领域特征；根据每一个所述文本子句所包含的字词的信息，从所述文本向量的领域特征中获取每一个所述文本子句对应的领域特征。

可选地，所述第二获取模块404，用于通过卷积神经网络模型的特征提取部分对所述文本向量进行特征提取，获取所述文本向量的句法特征；所述第三获取模块406，用于通过所述卷积神经网络模型的句边界探测部分根据所述句法特征，获取所述文本数据中包含的至少一个文本子句；通过所述卷积神经网络模型的领域分类部分根据所述句法特征和每一个所述文本子句的信息，获取每一个所述文本子句的领域信息；其中，所述句边界探测部分和所述领域分类部分共享所述特征提取部分提取的句法特征。

可选地，所述第二获取模块404，用于对输入的向量进行批规范化操作，生成规范化的向量；对所述规范化的向量进行非线性化处理；通过所述卷积层对非线性处理后的所述向量进行特征提取，获得初始特征；对所述初始特征进行残差分析处理，根据所述残差分析处理结果获得所述向量的句法特征并输出；返回所述对输入的向量进行批规范化操作继续执行，直至获得所述文本向量的句法特征。

可选地，所述特征提取部分至少包括12个卷积层，通过线性门函数对所述规范化的向量进行非线性化处理。

可选地，所述第三获取模块406在通过所述卷积神经网络模型的句边界探测部分根据所述句法特征，获取所述文本数据中包含的至少一个文本子句时：对所述句法特征进行批规范化操作，生成规范化的句法特征；通过卷积层对所述规范化的句法特征进行特征提取；通过输出层根据特征提取结果确定所述文本数据中的每个字词的标签，根据每个字词的标签获取所述文本数据中包含的至少一个文本子句。

可选地，所述第三获取模块406在通过所述卷积神经网络模型的领域分类部分根据所述句法特征和每一个所述文本子句的信息，获取每一个所述文本子句的领域信息时：对所述句法特征进行批规范化操作，生成规范化的句法特征；通过卷积层对所述规范化的句法特征进行特征映射，获取所述文本向量的领域特征；通过池化层根据每一个所述文本子句的信息对所述文本向量的领域特征进行池化处理；通过输出层根据所述池化处理的结果，获取每一个所述文本子句的领域信息。

本实施例的语音识别装置用于实现前述多个方法实施例中相应的语音识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的语音识别装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例五

参照图6，示出了根据本发明实施例六的一种智能设备的结构示意图，本发明具体实施例并不对智能设备的具体实现做限定。

如图6所示，该智能设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备如其它智能设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述语音识别方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；获取所述文本向量的句法特征；根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。

在一种可选的实施方式中，程序510还用于使得处理器502在获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量时，获取语音输入数据，并生成与所述语音输入数据对应的文本数据；生成所述文本数据中的每一个字词对应的字词向量；根据每一个字词对应的字词向量，生成所述文本数据对应的文本向量。

在一种可选的实施方式中，程序510还用于使得处理器502在获取所述文本向量的句法特征时，对所述文本向量进行特征提取，获取所述文本向量的句法特征。

在一种可选的实施方式中，程序510还用于使得处理器502在对所述文本向量进行特征提取，获取所述文本向量的句法特征时，对所述文本向量中的每一个字词对应的字词向量进行特征提取，获取每一个字词的句法特征。

在一种可选的实施方式中，程序510还用于使得处理器502在根据所述句法特征，获取所述文本数据中包含的至少一个文本子句时，根据每一个字词的句法特征，获取每一个字词的标签，其中，所述标签包括结束标签；根据每一个字词的标签，获得所述文本数据的序列标注；根据所述序列标注中的结束标签，获取所述文本数据中包含的至少一个文本子句。

在一种可选的实施方式中，程序510还用于使得处理器502在获取每一个所述文本子句的领域信息时，根据所述文本向量的句法特征，获取每一个所述文本子句对应的领域特征；对每一个所述文本子句的领域特征，在每个特征维度上进行最大特征值提取，生成每一个所述文本子句的领域特征向量；根据每一个所述文本子句的领域特征向量，确定当前文本子句的领域信息。

在一种可选的实施方式中，程序510还用于使得处理器502在根据所述文本向量的句法特征，获取每一个所述文本子句对应的领域特征时，根据所述文本向量的句法特征，获取所述文本向量的领域特征；根据每一个所述文本子句所包含的字词的信息，从所述文本向量的领域特征中获取每一个所述文本子句对应的领域特征。

在一种可选的实施方式中，程序510还用于使得处理器502通过卷积神经网络模型的特征提取部分对所述文本向量进行特征提取，获取所述文本向量的句法特征；程序510还用于使得处理器502通过所述卷积神经网络模型的句边界探测部分根据所述句法特征，获取所述文本数据中包含的至少一个文本子句；通过所述卷积神经网络模型的领域分类部分根据所述句法特征和每一个所述文本子句的信息，获取每一个所述文本子句的领域信息；其中，所述句边界探测部分和所述领域分类部分共享所述特征提取部分提取的句法特征。

在一种可选的实施方式中，程序510还用于使得处理器502在通过卷积神经网络模型的特征提取部分对所述文本向量进行特征提取，获取所述文本向量的句法特征时，对输入的向量进行批规范化操作，生成规范化的向量；对所述规范化的向量进行非线性化处理；通过卷积层对非线性处理后的所述向量进行特征提取，获得初始特征；对所述初始特征进行残差分析处理，根据所述残差分析处理结果获得所述向量的句法特征并输出；返回所述对输入的向量进行批规范化操作的步骤继续执行，直至获得所述文本向量的句法特征。

在一种可选的实施方式中，所述特征提取部分至少包括12个卷积层；通过线性门函数对所述规范化的向量进行非线性化处理。

在一种可选的实施方式中，程序510还用于使得处理器502在通过所述卷积神经网络模型的句边界探测部分根据所述句法特征，获取所述文本数据中包含的至少一个文本子句时，对所述句法特征进行批规范化操作，生成规范化的句法特征；通过卷积层对所述规范化的句法特征进行特征提取；通过输出层根据特征提取结果确定所述文本数据中的每个字词的标签，根据每个字词的标签获取所述文本数据中包含的至少一个文本子句。

在一种可选的实施方式中，程序510还用于使得处理器502在通过所述卷积神经网络模型的领域分类部分根据所述句法特征和每一个所述文本子句的信息，获取每一个所述文本子句的领域信息时，对所述句法特征进行批规范化操作，生成规范化的句法特征；通过卷积层对所述规范化的句法特征进行特征映射，获取所述文本向量的领域特征；通过池化层根据每一个所述文本子句的信息对所述文本向量的领域特征进行池化处理；通过输出层根据所述池化处理的结果，获取每一个所述文本子句的领域信息。

在一种可选的实施方式中，本实施例的智能设备还可以包括麦克风，以接收用户输入的模拟语音信号并转换为数字语音信号即语音输入数据；程序510还可以用于使得处理器502将所述语音输入数据转换为对应的文本数据。但不限于此，麦克风也可以独立于所述智能设备设置，并通过适当的连接方式与智能设备连接，并将所述语音输入数据发送给处理器。

程序510中各步骤的具体实现可以参见上述语音识别方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的智能设备，先获取由语音输入数据转换的文本数据和该文本数据对应的文本向量；再通过对文本向量的特征提取获得对应的句法特征；然后，根据句法特征对语音输入数据对应的文本数据进行文本子句的划分及文本子句的领域信息的确定；进而，根据文本子句的领域信息识别语音输入数据中的语音指令。可见，通过本实施例，使得智能语音设备更加适用于实际的使用环境，无需用户再使用唤醒词唤醒智能语音设备，不管是用户使用纯语音指令的语音输入数据，还是使用包含语音指令和其它语音数据的混合语音输入数据，都能对语音输入数据进行有效的子句划分，并识别其中包含的语音指令，进而，后续可以通过识别的语音指令对智能语音设备进行操作和控制。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的语音识别方法。此外，当通用计算机访问用于实现在此示出的语音识别方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的语音识别方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音识别方法，包括：

获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；

获取所述文本向量的句法特征；

根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；

至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。

2.根据权利要求1所述的方法，其中，所述获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量，包括：

获取语音输入数据，并生成与所述语音输入数据对应的文本数据；

生成所述文本数据中的每一个字词对应的字词向量；

根据每一个字词对应的字词向量，生成所述文本数据对应的文本向量。

3.根据权利要求2所述的方法，其中，所述获取所述文本向量的句法特征，包括：

对所述文本向量进行特征提取，获取所述文本向量的句法特征。

4.根据权利要求3所述的方法，其中，所述对所述文本向量进行特征提取，获取所述文本向量的句法特征，包括：

对所述文本向量中的每一个字词对应的字词向量进行特征提取，获取每一个字词的句法特征。

5.根据权利要求4所述的方法，其中，所述根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，包括：

根据每一个字词的句法特征，获取每一个字词的标签，其中，所述标签包括结束标签；

根据每一个字词的标签，获得所述文本数据的序列标注；

根据所述序列标注中的结束标签，获取所述文本数据中包含的至少一个文本子句。

6.根据权利要求5所述的方法，其中，所述获取每一个所述文本子句的领域信息，包括：

根据所述文本向量的句法特征，获取每一个所述文本子句对应的领域特征；

对每一个所述文本子句的领域特征，在每个特征维度上进行最大特征值提取，生成每一个所述文本子句的领域特征向量；

根据每一个所述文本子句的领域特征向量，确定当前文本子句的领域信息。

7.根据权利要求6所述的方法，其中，所述根据所述文本向量的句法特征，获取每一个所述文本子句对应的领域特征，包括：

根据所述文本向量的句法特征，获取所述文本向量的领域特征；

根据每一个所述文本子句所包含的字词的信息，从所述文本向量的领域特征中获取每一个所述文本子句对应的领域特征。

8.根据权利要求1-7任一项所述的方法，其中：

通过卷积神经网络模型的特征提取部分对所述文本向量进行特征提取，获取所述文本向量的句法特征；

通过所述卷积神经网络模型的句边界探测部分根据所述句法特征，获取所述文本数据中包含的至少一个文本子句；通过所述卷积神经网络模型的领域分类部分根据所述句法特征和每一个所述文本子句的信息，获取每一个所述文本子句的领域信息；

其中，所述句边界探测部分和所述领域分类部分共享所述特征提取部分提取的句法特征。

9.根据权利要求8所述的方法，其中，所述通过卷积神经网络模型的特征提取部分对所述文本向量进行特征提取，获取所述文本向量的句法特征，包括：

对输入的向量进行批规范化操作，生成规范化的向量；

对所述规范化的向量进行非线性化处理；

通过卷积层对非线性处理后的所述向量进行特征提取，获得初始特征；

对所述初始特征进行残差分析处理，根据所述残差分析处理结果获得所述向量的句法特征并输出；

返回所述对输入的向量进行批规范化操作的步骤继续执行，直至获得所述文本向量的句法特征。

10.根据权利要求9所述的方法，其中，所述特征提取部分至少包括12个卷积层；通过线性门函数对所述规范化的向量进行非线性化处理。

11.根据权利要求8所述的方法，其中，所述通过所述卷积神经网络模型的句边界探测部分根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，包括：

对所述句法特征进行批规范化操作，生成规范化的句法特征；

通过卷积层对所述规范化的句法特征进行特征提取；

通过输出层根据特征提取结果确定所述文本数据中的每个字词的标签，根据每个字词的标签获取所述文本数据中包含的至少一个文本子句。

12.根据权利要求8所述的方法，其中，所述通过所述卷积神经网络模型的领域分类部分根据所述句法特征和每一个所述文本子句的信息，获取每一个所述文本子句的领域信息包括：

通过卷积层对所述规范化的句法特征进行特征映射，获取所述文本向量的领域特征；

通过池化层根据每一个所述文本子句的信息对所述文本向量的领域特征进行池化处理；

通过输出层根据所述池化处理的结果，获取每一个所述文本子句的领域信息。

13.一种语音识别装置，包括：

第一获取模块，用于获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量；

第二获取模块，用于获取所述文本向量的句法特征；

第三获取模块，用于根据所述句法特征，获取所述文本数据中包含的至少一个文本子句，以及，获取每一个所述文本子句的领域信息；

识别模块，用于至少根据每一个所述文本子句的领域信息，识别所述语音输入数据中的语音指令。