CN110516253A

CN110516253A - 中文口语语义理解方法及系统

Info

Publication number: CN110516253A
Application number: CN201910814333.0A
Authority: CN
Inventors: 朱苏; 徐华; 俞凯; 张瑜
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29
Anticipated expiration: 2039-08-30
Also published as: CN110516253B

Abstract

本发明实施例提供一种中文口语语义理解方法。该方法包括：获取泛化的无标注文本序列训练集，依次对训练集进行正向预测、反向预测，训练字级别以及词级别的双向语言模型；接收用户输入的口语语音音频，进行序列分词，字序列以及词序列；分别使用字级别以及词级别的双向语言模型对字序列以及词序列解码，获得字级别以及词级别的隐层向量；对字序列和词序列的隐层向量进行向量对齐，得到语义理解模型输入的口语语音音频的隐层向量；将口语语音音频的隐层向量输入至语义理解模型，确定口语语音音频的语义。本发明实施例还提供一种中文口语语义理解系统。本发明实施例具有良好的泛化能力，将词、字序列相结合，提升了中文语义理解的性能。

Description

中文口语语义理解方法及系统

技术领域

本发明涉及智能语音交互领域，尤其涉及一种中文口语语义理解方法及系统。

背景技术

语义理解在智能语音的交互中有着重要的作用，通常会使用以下几个方法来进行语义理解：

1、基于深度学习、有监督学习的口语语义理解：需要在自然文本或者语音识别文本上进行人工的语义标注，结合深度神经网络模型，以数据驱动的方式训练语义理解模型。

2、基于深度学习、有监督学习，结合预训练词向量的口语语义理解：需要在自然文本或者语音识别文本上进行人工的语义标注，同时使用外部预训练的词向量初始化输入层网络，训练语义理解模型。

3、基于深度学习、半监督学习的口语语义理解：需要在自然文本或者语音识别文本上进行人工的语义标注，同时还有大量未标注的自然文本或者语音识别文本，然后结合半监督学习方法(比如伪标签学习、对抗训练等)训练语义理解模型。

4、基于深度学习、多任务学习，利用语言模型和语义理解联合训练的口语语义理解：需要在自然文本或者语音识别文本上进行人工的语义标注，同时还有大量未标注的自然文本或者语音识别文本；利用有标签数据学习语义理解任务，利用无标签数据学习语言模型任务，同时两个任务的底层参数相互共享。

5、英文自然语言处理领域，利用预训练语言模型作为输入的自然语言处理技术：利用大量未标注的自然文本训练一个双向语言模型，然后将改语言模型作为后端自然语言处理任务的输入层。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

1、基于深度学习、有监督学习的口语语义理解：需要大量人工标注的数据，严重依赖数据量，且文本特征是有较大稀疏性的，这样训练出来的模型会有一定的过拟合现象和低泛化性。

2、基于深度学习、有监督学习，结合预训练词向量的口语语义理解：相比于1，此方法利用的预训练词向量可以适当提高模型的泛化性且降低过拟合的现象，但词向量只能表现单个词的特性，对于句子(词序列)的泛化起到的作用非常有限。

3、基于深度学习、半监督学习的口语语义理解：半监督学习依赖于大量高质量的未标注文本，但是很难获取大量高质量的未标注数据，尤其是在口语对话系统刚起步或者用户量不大的时候(口语语义理解理解作为口语对话系统的重要组成部分)。

4、基于深度学习、多任务学习，利用语言模型和语义理解联合训练的口语语义理解：语言模型的训练数据是非常巨大的，深度学习的模型训练时间统一非常长。相比较而言语义理解的训练数据一般都非常小，所以为了语义理解任务而同时训练语言模型，时间和金钱的代价是非常大的。

5、英文自然语言处理领域，利用预训练语言模型作为输入的自然语言处理技术：在中文自然语言处理中，尤其使用到中口语语义理解中，该模型结构没有考虑中文分词现象(且无法同时考虑字和词)，对于中文分词错误的鲁棒性较差。

发明内容

为了至少解决现有技术中需要大量人工标注的数据，词向量智能表现单个此的特性，对于句子的泛化起到的作用非常有限，并且依赖于大量高质量的未标注文本，语言模型的训练数据巨大，训练时间非常长，语言模型无法同时考虑字和词，对中文分词效果欠佳的问题。

第一方面，本发明实施例提供一种中文口语语义理解方法，包括：

获取泛化的无标注文本序列训练集，依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型；

接收用户输入的口语语音音频，对所述语音音频进行序列分词，得到所述语音音频的字序列以及词序列；

分别使用字级别的双向语言模型以及词级别的双向语言模型对所述字序列以及词序列进行解码，获得字级别的隐层向量以及词级别的隐层向量；

对所述字序列和词序列的隐层向量进行向量对齐，得到语义理解模型输入的口语语音音频的隐层向量；

将所述口语语音音频的隐层向量输入至语义理解模型，确定所述口语语音音频的语义。

第二方面，本发明实施例提供一种中文口语语义理解系统，包括：

双向语言模型训练程序模块，用于获取泛化的无标注文本序列训练集，依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型；

序列确定程序模块，用于接收用户输入的口语语音音频，对所述语音音频进行序列分词，得到所述语音音频的字序列以及词序列；

隐层向量确定程序模块，用于分别使用字级别的双向语言模型以及词级别的双向语言模型对所述字序列以及词序列进行解码，获得字级别的隐层向量以及词级别的隐层向量；

向量对齐程序模块，用于对所述字序列和词序列的隐层向量进行向量对齐，得到语义理解模型输入的口语语音音频的隐层向量；

语义理解程序模块，用于将所述口语语音音频的隐层向量输入至语义理解模型，确定所述口语语音音频的语义。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的中文口语语义理解方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的中文口语语义理解方法的步骤。

本发明实施例的有益效果在于：降低了中文语义理解任务对于标注数据的需求，从而减轻成本，但是更深层次的，由于海量无标注数据训练的语言模型提供了一个先验的文本信息编码器，所以语义理解模型可以仅依赖少量的有标注数据就可以对其它没有见过的句子具有良好的泛化能力，提升理解性能。此外，预训练好的语言模型不需要更新和微调，因此语义理解模型的训练时间不会暴增；针对中文语言，提出将字序列和词序列的编码特征对齐结合的思路，继续提升了中文语义理解的性能，因为字序列可以避免分词错误，而词序列包含更丰富的语义信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种中文口语语义理解方法的流程图；

图2是本发明一实施例提供的一种中文口语语义理解系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种中文口语语义理解方法的流程图，包括如下步骤：

S11：获取泛化的无标注文本序列训练集，依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型；

S12：接收用户输入的口语语音音频，对所述语音音频进行序列分词，得到所述语音音频的字序列以及词序列；

S13：分别使用字级别的双向语言模型以及词级别的双向语言模型对所述字序列以及词序列进行解码，获得字级别的隐层向量以及词级别的隐层向量；

S14：对所述字序列和词序列的隐层向量进行向量对齐，得到语义理解模型输入的口语语音音频的隐层向量；

S15：将所述口语语音音频的隐层向量输入至语义理解模型，确定所述口语语音音频的语义。

在本实施方式中，SLU(Spoken Language Understanding，口语语义理解)模块是SDS(Spoken Dialogue System，口语对话系统)的一个关键组成部分，将用户的话语解析为相应的语义概念。口与语义理解一般分为两个子任务，第一个是领域分类，即人机口语交互中用户可能交谈到许多不同的领域，比如，“我要听刘德华的歌”是“音乐”领域，“导航到人民广场”是“地图导航”领域等等；另一个是语义槽填充任务，即从用户句子中识别可供查询的“属性-值”，例如，“帮我看看从上海到北京的航班”的话语可以被解析为“出发城市＝上海，到达城市＝北京”。本发明尤其关注中文口语语义理解。中文口语语义理解会涉及基本的中文分词，比如“帮我看看从上海到北京的航班”分词后的结果是“帮我看看从上海到北京的航班”。但由于文本的稀疏性以及口语的不规则性，任何分词算法都不能对口语做到完美的分词。

对于步骤S11，获取泛化的无标注文本序列训练集，包括利用利用海量无标注文本数据，来训练双向语言模型。该步骤将语言模型建模看成是一个序列预测问题，即把一个句子(训练样本)看成是一个词序列w＝(w₀，w₁，w₂，…，w_N，w_N+1),其中N是句子长度(即词的个数)，w₀和w_N+1分别表示句子开始和结束符号(即<s>,</s>)。一个单向语言模型的目标是根据历史词序列片段预测下一个词，比如根据(w₀，w₁，w₂，…，w_t-1)预测w_t。而双向语言模型则是包括了两个单向语言模型，一个是正向(即按词序列从左往右预测)，另一个是反向(即按词序列从右往左预测)。正向模型根据(w₁，w₂，…，w_t-1)预测w_t，反向模型根据(w_N+1，w_N，w_N-1，…，w_t+1)预测w_t。

这两个模型对输入句子的编码过程可以表示为：

其中f_l表示反向模型在t时刻的运算，h′_t是反向LSTM中的隐向量；f_r表示正向模型在t时刻的运算，是正向模型中的隐向量；是词w_t的词向量(t＝1,2,…,N)。h′_t被用来过一个前馈神经网络预测词w_t，而被用来过另外一个前馈神经网络预测词w_t。

相对于不同领域的语义理解模型，这里的双向语言模型只需要训练一次即可。不同领域的语义理解模型可以共享这个双向语言模型。此外在中文口语语义理解中，字层面和词层面被同时分析。所以针对字序列和词序列，发明人分别训练了一个双向语言模型，即一个字一级的双向语言模型，一个词一级的双向语言模型。

对于步骤S12，接收用户输入的口语语音音频，即用户说的中文句子，这个句子是一个字序列c＝(c₁，c₂，...，c_M)，其中M是句子长度(即字的个数)，也可以通过现成的分词工具得到一个词序列w＝(w₁，w₂，...，w_N),其中N是字的个数，且M≥N。根据中文分词的特性，可以得到一条分词定律：词一定是由若干个连续的字组成的，即w_t＝(c_i，c_i+1...，c_i+k)，且不同的词之间不会有重叠。比如“想听摇滚歌曲”分词后为“想听摇滚歌曲”。

对于步骤S13，针对中文语义理解，分别使用一个双向字语言模型和双向词语言模型对上述字序列和词序列进行编码(即获取双向语言模型的隐层向量)。字序列c＝(c₁，c₂，...，c_M)经过双向字语言模型的LSTM后，得到M个隐层向量H_c＝(h_c1，h_c2，...，h_cM)。词序列w＝(w₁，w₂，...，w_N)经过双向词语言模型的LSTM后，得到N个隐层向量H_w＝(h_w1，h_w2，...，h_wN)。双向语言模型的参数是不更新的，仅作为一个特征提取的组件，且对于后面不同领域的语义理解，双向语言模型时可以共享的(使用同一个)。

对于步骤S14，由于字序列、词序列的数量不同，字序列得到M个隐层向量，词序列得到N个隐层向量，M和N不相等，以至于两个隐层向量不等长，为了后续的语义理解任务(领域分类、语义槽填充)，将字序列和词序列得到的语言模型隐层向量对齐。作为后续语义理解模型的输入特征。

对于步骤S15，语义理解的任务分两步进行，领域分类任务和语义槽填充任务。领域分类可以看成句子分类任务，即判断当前输入的句子是否属于该领域。语义槽填充任务可以看作是序列标注任务，其目标是预测句子字序列中每一个字的语义槽并得到语义槽序列s＝(s₁，s₂，...，s_M)，其中语义槽是一些特定的概念或者属性，比如“出发城市”、“歌曲名称”、“音乐类型”等，最后得到所述口语语音音频的语义。

通过该实施方式可以看出，降低了中文语义理解任务对于标注数据的需求，从而减轻成本，但是更深层次的，由于海量无标注数据训练的语言模型提供了一个先验的文本信息编码器，所以语义理解模型可以仅依赖少量的有标注数据就可以对其它没有见过的句子具有良好的泛化能力，提升理解性能。此外，预训练好的语言模型不需要更新和微调，因此语义理解模型的训练时间不会暴增；针对中文语言，提出将字序列和词序列的编码特征对齐结合的思路，继续提升了中文语义理解的性能，因为字序列可以避免分词错误，而词序列包含更丰富的语义信息。

作为一种实施方式，在本实施例中，所述对所述字序列和词序列的隐层向量进行向量对齐包括：

通过分词定律，将词级别的隐层向量进行复制，使得词级别的隐层向量的个数和所述字级别的隐层向量一样多；

将分词后的两个向量进行序列对齐，将对齐后的两个向量一一拼接，确定语义理解模型输入的口语语音音频的隐层向量。

在本实施方式中，根据分词定律，即w_t＝(c_i，c_i+1...，c_i+k)，将词w_t对应的隐层向量复制k遍(k+1表示当前这个词对应的字个数)，使得词序列对应的隐层向量个数和字序列的一样多。最后，将两个等长的隐层向量序列对齐，一一拼接成更长的隐层向量，

通过该实施方式可以看出，由于使用了字级别的双向语言模型以及词级别的双向语言模型，两个模型输出的隐层向量不等长，无法合理拼接，输入至语义理解模型。为了这两个语言模型的耦合，使其输出的序列对齐。

作为一种实施方式，所述将所述口语语音音频的隐层向量输入至语义理解模型包括：

基于所述语音音频的隐层向量对应的特征序列进行领域分类；

分别预测所述语音音频中每个字对应隐向量的语义槽类别；

根据所述领域分类以及所述语义槽类别确定所述语音音频的语义。

在本实施方式中，通过建模的神经网络，对输入的句子进行编码：

其中h′_t是神经网络中的反向隐向量，是神经网络中的正向隐向量，e_t是第t字对应位置的双向语言模型特征(包括当前字和当前字被划分到的词对应的双向语言模型隐层向量)，是向量拼接操作。BLSTM将句子特征编码为隐向量序列：

(h₁，...，h_M)＝BLSTM_Θ(c₁，...，c_M)

其中领域分类对当前句子进行分类，需要获取句子的表示信息，利用最大化池化(max pooling)的技术得到句子表示，s＝max(h₁，...，h_M)，最后利用该句子表示过一个两类分类器。

语义槽填充则分别对每个字对应的隐向量h_t分别预测语义槽类别s_t，此外结合CRF(conditional random field，条件随机场)对该序列标注任务的训练过程进行整体优化。

通过该实施方式可以看出，将字序列的隐层向量和词序列的隐层向量有效的结合后，提高了语义理解模型的中文分词的准确率。

作为一种实施方式，在本实施例中，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型包括：

采用单向长短时记忆网络模型依次对所述训练集进行正向预测、反向预测。

在本实施方式中，单向长短时记忆网络(LSTM，bidirectional long-short termmemory network)需要的参数较少，训练时间相对较短，不依赖于设备的计算能力，利于产品的部署与更新，对于不同的需求有着不同的选择。

作为一种实施方式，在本实施例中，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型还包括：

采用基于转换器的双向语言编码模型依次对所述训练集进行正向预测、反向预测。

在本实施方式中，基于转换器的双向语言编码模型(BERT，BidirectionalEncoder Representation from Transformers)解决了正向和反向模型独立的限制，可以更好的对文本进行编码，对于不同的需求有着不同的选择。

对上述方法进行验证，在中文口语交互场景中选择了“天气查询”和“歌曲搜索”两个领域进行实验，并在每个领域中分别使用少量训练数据进行实验。在“天气查询”领域分别使用100、200、300、400句话作为训练数据，在“歌曲搜索”领域分别使用50、100、200句话作为训练数据。不同的是，利用数据库词表对这个训练数据中的语义槽进行词条随机替换来扩充数据(扩充100倍)。虽然如此，因为这些数据的非语义槽部分的说法非常有限，直接使用这些数据训练的模型性能是比较差的。

测试集部分，分别对“天气查询”和“歌曲搜索”收集丰富充足的测试数据(分别为3456和1863句不同的话)。

采取的基线系统是不基于预训练语言模型的语义理解模型。

实验结果：

1、领域分类：

表1天气领域的领域分类在不同训练数据下的结果：(领域分类的F1值)

系统	100	200	300	400
					基线系统(词)	78.91	92.55	92.32	94.99
+预训练语言模型(词)	87.63	93.17	95.65	97.00

表2音乐领域的领域分类在不同训练数据下的结果：(领域分类的F1值)

系统	50	100	200
				基线系统(词)	62.00	77.97	82.91
+预训练语言模型(词)	78.39	85.21	92.81

从表1和表2中可以发现预训练语言模型的引入，极大地提高了领域分类的性能。

2、语义槽填充

表3天气领域的语义槽填充在不同训练数据下的结果：(语义槽-值的F1)

系统	100	200	300	400
					基线系统(字)	72.02	81.98	86.75	90.76
基线系统(词)	68.35	79.25	82.39	87.12
					+预训练语言模型(字)	89.73	93.59	94.47	95.36
+预训练语言模型(词)	90.93	93.59	94.06	95.26
					+预训练语言模型(字+词)	94.12	96.81	97.17	97.53

表4音乐领域的语义槽填充在不同训练数据下的结果：(语义槽-值的F1)

系统	50	100	200
				基线系统(字)	44.64	60.07	66.74
基线系统(词)	44.29	57.93	68.18
				+预训练语言模型(字)	65.11	75.69	79.25
+预训练语言模型(词)	67.97	79.10	82.24
				+预训练语言模型(字+词)	68.63	80.12	82.55

从表3和表4可以看到，预训练语言模型同样对语义槽填充任务的性能提升也是非常明显的。首先观察基线系统，在字序列和词序列上的性能，可以发现大多数情况下分词是有害的，说明了分词错误对于语义槽填充任务的影响是十分明显的。再看分词引入了预训练语言模型的字序列语义槽填充和词序列语义槽填充，相对于各自的基线系统都有明显的提升。最后综合了字序列和词序列，利用分别基于字和词的双向语言模型，取得了最终最好的效果。尤其需要说明的是，只使用100句训练数据的“天气”领域最好性能已经超越了使用400句训练数据的基线系统，只使用50句训练数据的“音乐”领域最好性能也超越了使用200句训练数据的基线系统。说明了这种基于预训练语言模型的中文口语语义理解方法与系统，大大降低了中文语义理解任务对于标注数据的需求，从而减轻成本，但是更深层次的，由于海量无标注数据训练的语言模型提供了一个先验的文本信息编码器，所以语义理解模型可以仅依赖少量的有标注数据就可以对其它没有见过的句子具有良好的泛化能力，提升理解性能。另外一方面，本发明针对中文语言，提出将字序列和词序列的编码特征对齐结合的思路，继续提升了中文语义理解的性能，因为字序列可以避免分词错误，而词序列包含更丰富的语义信息。

如图2所示为本发明一实施例提供的一种中文口语语义理解系统的结构示意图，该系统可执行上述任意实施例所述的中文口语语义理解方法，并配置在终端中。

本实施例提供的一种中文口语语义理解系统包括：双向语言模型训练程序模块11，序列确定程序模块12，隐层向量确定程序模块13，向量对齐程序模块14和语义理解程序模块15。

其中，双向语言模型训练程序模块11用于获取泛化的无标注文本序列训练集，依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型；序列确定程序模块12用于接收用户输入的口语语音音频，对所述语音音频进行序列分词，得到所述语音音频的字序列以及词序列；隐层向量确定程序模块13用于分别使用字级别的双向语言模型以及词级别的双向语言模型对所述字序列以及词序列进行解码，获得字级别的隐层向量以及词级别的隐层向量；向量对齐程序模块14用于对所述字序列和词序列的隐层向量进行向量对齐，得到语义理解模型输入的口语语音音频的隐层向量；语义理解程序模块15用于将所述口语语音音频的隐层向量输入至语义理解模型，确定所述口语语音音频的语义。

进一步地，所述向量对齐程序模块用于：

进一步地，所述语义理解程序模块用于：

分别预测所述语音音频中每个字对应隐向量的语义槽类别；

进一步地，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型包括：

进一步地，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型还包括：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的中文口语语义理解方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的中文口语语义理解方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的中文口语语义理解方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语义理解功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中文口语语义理解方法，包括：

2.根据权利要求1所述的方法，其中，所述对所述字序列和词序列的隐层向量进行向量对齐包括：

3.根据权利要求1所述的方法，其中，所述将所述口语语音音频的隐层向量输入至语义理解模型包括：

分别预测所述语音音频中每个字对应隐向量的语义槽类别；

4.根据权利要求1所述的方法，其中，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型包括：

5.根据权利要求1所述的方法，其中，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型还包括：

6.一种中文口语语义理解系统，包括：

7.根据权利要求6所述的系统，其中，所述向量对齐程序模块用于：

8.根据权利要求6所述的系统，其中，所述语义理解程序模块用于：

分别预测所述语音音频中每个字对应隐向量的语义槽类别；

9.根据权利要求6所述的系统，其中，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型包括：

10.根据权利要求6所述的系统，其中，所述依次对所述训练集进行正向预测、反向预测，分别训练字级别的双向语言模型以及词级别的双向语言模型还包括：