CN108509411B

CN108509411B - 语义分析方法和装置

Info

Publication number: CN108509411B
Application number: CN201710936211.XA
Authority: CN
Inventors: 鲁亚楠; 曹荣禹; 林芬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2021-05-11
Anticipated expiration: 2037-10-10
Also published as: JP7276712B2; US20200065389A1; US11366970B2; CN108509411A; WO2019072166A1; JP2020522817A

Abstract

本发明提出一种语义分析方法和装置，其中，方法包括：针对对话流中的每一个样本句子，将样本句子中各单词的词向量输入编码器模型得到表示样本句子语义的句向量；将句向量分别输入样本句子的每个上下文句子对应的第一解码器模型和样本句子的每个单词对应的第二解码器模型，得到对应上下文句子的第一标识和对应单词的第二标识；根据第一标识的概率，以及第二标识的概率，确定目标函数的取值；根据目标函数的取值，对编码器模型进行参数训练；将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。通过本方法，能够缩短训练时长，提高计算效率，解决现有技术中模型训练时间长、语义分析效率低的技术问题。

Description

语义分析方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语义分析方法和装置。

背景技术

为了更好地进行人机交互，通常需要采用模型对用户输入的自然语言进行处理，以分析得到用户的语义。

现有技术中，通常采用循环神经网络作为模型的编解码器，对待分析句子进行语义分析。在对模型进行训练时，由于采用神经网络的编码器必须串行计算，编码器接收的句子的长度为m(即含m个单词)的情况下，需要m个时间步骤的计算时间；同时，在解码器接收的该待分析句子的2k个上下文句子中最大长度为n时，由于2k个解码器可以并行，但是每个解码器必须串行，因此需要n个时间步骤的计算时间。可见，仅针对一个句子，整个计算过程就需要m+n个时间步骤。

因此，现有技术中，当句子长度较长和/或句子数量很大时，模型训练时间很长，语义分析效率较低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种语义分析方法，以解决现有技术中模型训练时间很长，语义分析效率较低的技术问题。

本发明提出一种语义分析装置。

本发明提出一种计算机设备。

本发明提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种语义分析方法，包括：

针对对话流中的每一个样本句子，将所述样本句子中各单词的词向量输入编码器模型，得到表示所述样本句子语义的句向量；

将所述样本句子的句向量，分别输入所述样本句子的每个上下文句子对应的第一解码器模型中，以得到对应上下文句子的第一标识，将所述样本句子的句向量，分别输入所述样本句子的每个单词对应的第二解码器模型中，以得到对应单词的第二标识；

根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值；其中，所述目标函数的取值用于指示所述样本句子的句向量表示语义的准确程度；

根据所述目标函数的取值，对所述编码器模型进行参数训练；

将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示所述测试句子语义的句向量。

本发明实施例的语义分析方法，通过针对对话流中的样本句子，将该样本句子中各单词的词向量输入编码器模型得到表示样本句子语义的句向量，进而将样本句子的句向量，分别输入每个上下文句子对应的第一解码器模型中，得到对应上下文句子的第一标识，以及将该样本句子的句向量，分别输入样本句子的每个单词对应的第二解码器模型中，得到对应单词的第二标识，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值，进而根据目标函数的取值对编码器模型进行参数训练，将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。由于在训练过程中，第一解码器模型用于预测得到上下文句子的标识，因此，仅需要一个时间步骤的计算时长，相较于现有技术中所采用的需要预测得到句子中每一个单词的方式，在训练过程中，所需的计算时长得到缩短，从句子长度个时间步骤缩短至一个时间步骤，解决了现有技术中训练时长较长所导致的效率较低的技术问题。

为达上述目的，本发明第二方面实施例提出了一种语义分析装置，包括：

编码模块，用于针对对话流中的每一个样本句子，将所述样本句子中各单词的词向量输入编码器模型，得到表示所述样本句子语义的句向量；所述对话流包括样本句子，以及所述样本句子的多个上下文句子；

解码模块，用于将所述样本句子的句向量，分别输入所述样本句子的每个上下文句子对应的第一解码器模型中，以得到对应上下文句子的第一标识，将所述样本句子的句向量，分别输入所述样本句子的每个单词对应的第二解码器模型中，以得到对应单词的第二标识；

生成模块，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值；其中，所述目标函数的取值用于指示所述样本句子的句向量表示语义的准确程度；

训练模块，用于根据所述目标函数的取值，对所述编码器模型进行参数训练；

测试模块，用于将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示所述测试句子语义的句向量。

本发明实施例的语义分析装置，通过针对对话流中的样本句子，将该样本句子中各单词的词向量输入编码器模型得到表示样本句子语义的句向量，进而将样本句子的句向量，分别输入每个上下文句子对应的第一解码器模型中，得到对应上下文句子的第一标识，以及将该样本句子的句向量，分别输入样本句子的每个单词对应的第二解码器模型中，得到对应单词的第二标识，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值，进而根据目标函数的取值对编码器模型进行参数训练，将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。由于在训练过程中，第一解码器模型用于预测得到上下文句子的标识，因此，仅需要一个时间步骤的计算时长，相较于现有技术中，所采用的需要预测得到句子中每一个单词的方式，在训练过程中，所需的计算时长得到缩短，从句子长度个时间步骤缩短至一个时间步骤，解决了现有技术中训练时长较长所导致的效率较低的技术问题。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面实施例所述的语义分析方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的语义分析方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种语义分析方法的流程示意图；

图2为本发明实施例所提供的另一种语义分析方法的流程示意图；

图3为本发明实施例所提供的又一种语义分析方法的流程示意图；

图4为本发明一实施例采用的编码器-解码器模型结构示意图；

图5为本发明实施例的语义分析方法应用于问答系统的示意图；

图6为本发明实施例提供的一种语义分析装置的结构示意图；

图7为本发明实施例提供的另一种语义分析装置的结构示意图；

图8为本发明实施例提供的又一种语义分析装置的结构示意图；以及

图9为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语义分析方法和装置。

人工智能技术中，为了使聊天机器人能够准确理解用户的语义，实现更好地人机交互，通常需要采用大量的训练数据，基于模型训练句子语义表示。

相关技术中，大多采用skip-thought模型训练句子语义表示，该模型是一种基于循环神经网络的编码器-解码器模型。由于编码器和解码器均使用循环神经网络，而循环神经网络无法并行执行，运算效率较低，并且执行时间与句子长度呈线性关系，当句子长度较长、训练数据的数据量较大时，训练时间耗时较长，从而导致采用skip-thought模型训练句子语义表示时，需要较长的训练时间才能获得较好的训练结果。

针对上述问题，本发明实施例提出了一种语义分析方法，以缩短训练时长，提高处理效率。

图1为本发明实施例所提供的一种语义分析方法的流程示意图。

如图1所示，该语义分析方法包括以下步骤：

步骤101，针对对话流中的每一个样本句子，将样本句子中各单词的词向量输入编码器模型，得到表示样本句子语义的句向量。

在进行句子语义表示训练时，训练使用的数据集为自然对话数据集。自然对话数据集由多组对话流组成，每组对话流由两个用户的交替对话组成，第i组对话流表示为

其中，

表示第i组对话流中的第j个句子，T表示第i组对话流包含的句子个数。对于第i组对话流中的第j个句子，该句子由多个单词组成，每个单词可以分别表示为

其中，

表示第i组对话流的第j个句子中的第r个单词，M表示第i组对话流的第j个句子中包含的单词个数。

对于一组对话流中的多个句子，每一个句子均可以作为样本句子，每个样子句子有对应的多个上下文句子。本实施例中，针对对话流中的每一个样本句子，可以将样本句子中的各个单词的词向量输入至编码器模型中，编码器模型的输出结果为表示该样本句子语义的句向量。

步骤102，将样本句子的句向量，分别输入样本句子的每个上下文句子对应的第一解码器模型中，以得到对应上下文句子的标识，将样本句子的句向量，分别输入样本句子的每个单词对应的第二解码器模型中，以得到对应单词的第二标识。

对于一组对话流中的每一个句子，其句子语义表示决定了该句子的上下文句子和该句子中的所有单词。例如，“我吃了”经常作为“你吃饭了吗？”的回答，因此，“我吃了”这个句子的语义表示和“你吃饭了吗？”有很强的联系，并且“我”、“吃”、“了”这三个单词共同组成了该句子的语义表示。为了提高计算速度，本实施例中，仅使用上下文句子的句子标识作为该句子的上下文信息，使用单词的标识作为该句子中的每个单词。在数据量很大时，由于有很多重复的句子标识，因此句子标识所包含的信息量足够用以表示上下文信息。

其中，句子的标识是唯一的，每一个上下文句子都唯一对应一个句子的标识，相应地，根据一个句子的标识能够唯一确定一个样本句子的上下文句子。单词的标识也是唯一的，根据单词的标识，可以唯一确定句子中的单词。

针对样本句子的多个上下文句子，分别为每个上下文句子设置一个对应的第一解码器模型，并将编码器输出的样本句子的句向量分别输入至每一个上下文句子对应的第一解码器模型中，得到对应的上下文句子的第一标识。

针对样本句子中的每一个单词，分别为每个单词设置一个对应的第二解码器模型，并将编码器输出的样本句子的句向量输入至每个单词对应的第二解码器模型中，可以得到样本句子的每个单词对应的第二标识。

步骤103，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值。

其中，目标函数可以为似然概率函数，用于监督训练过程的准确度，评价模型训练效果。目标函数的取值用于指示样本句子的句向量表示语义的准确程度，目标函数的取值越大，表明训练结果越准确，训练效果越好。

本实施例中，将样本句子的句向量分别输入至各个第一解码器模型和各个第二解码器模型中，分别得到对应上下文句子的第一标识和样本句子中对应单词的第二标识的同时，还可以获得对应第一标识的概率以及对应第二标识的概率，进而可以利用第一标识的概率和第二标识的概率确定目标函数的取值。

需要说明的是，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值的具体过程将在后续内容中给出，为避免赘述，此处不再详细说明。

步骤104，根据目标函数的取值，对编码器模型进行参数训练。

如前文所述，目标函数的取值越大，表示模型训练的结果越准确，从而，本实施例中，可以目标函数最大化为目标，根据目标函数的取值对编码器模型进行参数训练。

作为一种可能的实现方式，可以通过最大化目标函数，采用梯度下降法对各个模型的参数进行训练。

具体地，对编码器模型进行参数训练的过程可以描述为：a、对模型的各个参数设置初始值，在初始参数下将样本句子的句向量输入至各个解码器中，得到对应的句子的第一标识和单词的第二标识，并获得第一标识的概率和第二标识的概率，进而根据第一标识的概率和第二标识的概率确定目标函数的取值，并判断目标函数的取值是否达到最大化。b、若目标函数的取值未达到最大化，则调整模型的各个参数，并重新根据第一标识的概率和第二标识的概率计算目标函数的取值，并判断新的目标函数的取值是否达到最大化。重复执行上述步骤b，直至目标函数的取值达到最大化，则此时的各个参数值即为该模型最佳的参数值，并作为训练所得的最终参数结果。

步骤105，将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。

本实施例中，根据目标函数的取值对编码器模型进行参数训练得到编码器模型的各个参数之后，进而将所得的参数值应用于编码器模型，得到训练后的编码器模型。基于训练后的编码器模型，对于任意的句子(测试句子)，将测试句子中各单词的词向量输入至经过训练的编码器模型中，即可准确获得表示该测试句子语义的句向量，为聊天机器人准确输出匹配的对答句子奠定基础。

本实施例的语义分析方法，通过针对对话流中的样本句子，将该样本句子中各单词的词向量输入编码器模型得到表示样本句子语义的句向量，进而将样本句子的句向量，分别输入每个上下文句子对应的第一解码器模型中，得到对应上下文句子的第一标识，以及将该样本句子的句向量，分别输入样本句子的每个单词对应的第二解码器模型中，得到对应单词的第二标识，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值，进而根据目标函数的取值对编码器模型进行参数训练，将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。由于在训练过程中，第一解码器模型用于预测得到上下文句子的标识，因此，仅需要一个时间步骤的计算时长，相较于现有技术中所采用的需要预测得到句子中每一个单词的方式，在训练过程中，所需的计算时长得到缩短，从句子长度个时间步骤缩短至一个时间步骤，解决了现有技术中训练时长较长所导致的效率较低的技术问题。

为了更加清楚地说明上述实施例中根据样本句子的句向量、样本句子的每个单词的标识以及每个上下文句子的标识，生成目标函数的具体实现过程，本发明实施例还提供了另一种语义分析方法，图2为本发明实施例所提供的另一种语义分析方法的流程示意图。

如图2所示，在如图1所示实施例的基础上，步骤103可以包括以下步骤：

步骤201，样本句子为第i组对话流中的第j个句子时，根据输入样本句子的句向量

的条件下，每个第一解码器模型输出对应上下文句子的第一标识

的概率，计算目标函数的第一项

的取值；其中，q＝1,2,…，Q；N为对话流的总组数，T为第i组对话流所含句子的总个数。

步骤202，根据输入样本句子的句向量

的条件下，每个第二解码器模型输出样本句子中对应单词的第二标识

的概率，计算目标函数的第二项

的取值；其中，M为样本句子中的单词总数。

步骤203，对第一项的取值和第二项的取值求和，得到目标函数的取值。

本实施例中，将样本句子的句向量分别输入至第一解码器模型和第二解码器模型之后，可以得到对应的每个上下文句子的第一标识

的概率，以及样本句子中每个单词的第二标识

的概率。进一步地，利用得到的每个上下文句子的第一标识的概率和样本句子中每个单词的第二标识的概率，分别得到目标函数的第一项

的取值，以及目标函数的第二项

的取值。最终，对所得的第一项的取值和第二项的取值进行求和，即可得到目标函数的取值，目标函数f(j)可以表示为如下公式(1)所示：

本实施例的语义分析方法，通过根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值，可以降低运算的复杂度。

为了更加清楚地描述上述实施例，本发明实施例还提出了另一种语义分析方法，图3为本发明实施例所提供的又一种语义分析方法的流程示意图。

如图3所示，该语义分析方法可以包括以下步骤：

步骤301，针对对话流中的每一个样本句子，将样本句子中各单词的词向量输入编码器模型，得到表示样本句子语义的句向量。

作为一种可能的实现方式，编码器模型可以采用卷积神经网络模型。针对对话流中的每一个样本句子，将样本句子中各个单词的词向量输入至卷积神经网络模型中，可以得到卷积神经网络中最后一层输出的样本句子的句向量。

具体地，当样本句子为第i组对话流中的第j个句子时，样本句子的第k个单词的词向量可以表示为

其中，

为样本句子的第k个单词的标识，E_encoder为卷积神经网络模型的词向量矩阵。将样本句子中各个单词的词向量输入至卷积神经网络模型中，可以得到表示该样本句子语义的句向量

卷积神经网络中卷积核(即滤波器)的大小为t*t(一般t取值为3)，由于卷积神经网络中的各个卷积核之间可以进行并行计算，因此需要t个时间步骤的计算时长。相比较于现有技术中编码器必须进行串行计算需要句子长度个时间步骤的计算时长，编码器的处理时长缩短。

步骤302，将样本句子的句向量，分别输入样本句子的每个上下文句子对应的第一解码器模型中，以得到对应上下文句子的第一标识，将样本句子的句向量，分别输入样本句子的每个单词对应的第二解码器模型中，以得到对应单词的第二标识。

步骤303，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值。

需要说明的是，本实施例中对步骤302和步骤303的描述，可以参见前述实施例中对步骤102和步骤103的描述，其实现原理类似，此处不再赘述。

步骤304，根据目标函数的取值，对编码器模型进行参数训练。

在本发明实施例一种可能的实现方式中，编码器模型采用卷积神经网络模型，第一解码器模型和第二解码器模型均采用深度神经网络模型，从而，在根据目标函数的取值对编码器模型进行参数训练时，主要根据目标函数的取值，对编码器模型中，卷积神经网络模型的词向量矩阵、卷积神经网络的权重矩阵和卷积神经网络的偏置向量进行参数训练。进一步地，还可以根据目标函数的取值，对第一解码器模型和第二解码器模型中，深度神经网络的权重矩阵和深度神经网络模型的偏置向量进行参数训练。

需要说明的是，由于深度神经网络模型和卷积神经网络模型是本领域技术人员熟知的网络模型，为避免赘述，本发明对卷积神经网络模型和深度神经网络模型的原理不作具体介绍。

图4为本发明一实施例采用的编码器-解码器模型结构示意图。如图4所示，当对话流中任一样本句子中的每一个单词的词向量

输入至卷积神经网络模型中后，输出该样本句子的句向量

再将该样本句子的句向量

分别输入至第一解码器模型和第二解码器模型(第一解码器模型和第二解码器模型均采用深度神经网络模型)中，可以分别得到该样本句子中每个单词的第二标识

以及该样本句子的上下文句子对应的句子的第一标识

等，每个单词的第二标识

的取值和每个上下文句子的第一标识

的取值均用作监督信息来计算目标函数的取值，以监督和评价模型训练效果。

由于采用深度神经网络模型的各个第一解码器模型和第二解码器模型之间可以并行计算，并且每个第二解码器模型仅对句子的标识进行预测，因而第二解码器模型仅需要一个时间步骤的计算时长。从而，对于每一组对话流中的任意一个句子，采用如图4所示的编码器-解码器模型仅需要(t+1)个时间步骤的计算时长，其中，t为卷积神经网络模型的卷积核大小。相较于现有技术中(样本句子的长度+上下文句子中最大句子长度)个时间步骤的计算时长而言，处理时长缩短，尤其是在句子长度和句子数量都很大时，处理耗时明显缩短，处理效率明显提升。

步骤305，将用户端输入问题作为测试句子。

步骤306，将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。

本实施例中，模型的参数训练完成后，当用户想要和聊天机器人进行对话时，可以将用户端输入的问题作为测试句子，比如，当用户输入“你吃饭了吗？”时，将句子“你吃饭了吗？”作为测试句子，将测试句子中每个单词的词向量输入经过训练后的编码器模型中，进而得到表示该测试句子语义的句向量。

步骤307，根据测试句子的句向量，从问题库中查询得到预存问题。

本实施例中，基于训练所得的编码器模型得到测试句子的句向量之后，可以进一步从预先建立的问题库中，搜索与测试句子的句向量语义相同或相似的预存问题，以基于预存问题获得对应的答案。

其中，问题库是预先建立的，可以根据获取的大量对话流建立问题库，并从对话流中获取预存问题对应的答案存储于问题库中或对应的答案库中。

步骤308，向用户端发送预存问题对应的答案。

本实施例中，当从问题库中匹配到与测试句子的句向量相似的预存问题时，进一步获取与预存问题对应的答案并发送给用户端。进一步地，当获取到预存问题对应的多个答案时，可以从多个答案中随机选择一个答案发送给用户端。当从问题库中未匹配到句向量相似的预存问题时，可以采用相关技术经语义分析后生成对应的答案并发送给用户端。

本实施例的语义分析方法，通过采用卷积神经网络模型作为编码器模型，采用深度神经网络模型作为第一解码器模型和第二解码器模型，由于卷积神经网络模型中各个卷积核之间可以并行计算，各个第一解码器模型和第二解码器模型之间也可以并行计算，从而可以大大缩短处理时间，提升处理效率。通过将用户端输入的问题作为测试句子输入至编码器模型中，得到测试句子的句向量，并基于句向量从问题库中查询得到句向量相似的预存问题，向用户端发送预存问题对应的答案，能够提高人机交互过程中答案与问题的匹配程度，提升用户体验。

图5为本发明实施例的语义分析方法应用于问答系统的示意图。如图5所示，问答系统包括数据显示和接收模块，以及相似问题推荐模块。相似问题推荐模块中包括相似问题判别模型，相似问题判别模型中又包括问答知识库。其中，问答知识库是预先建立的，通过对大量的对话流进行分析后，从中提取出若干个问答对，构成问答知识库。对于个性化问题，比如，“问：你多大了？答：我今年芳龄18。”、“问：你吃了吗？答：晚上的红烧肉真好吃。”，对于这些个性化问题，用户采用的询问方式可能各种各样，但无论哪种询问方式，问题所表达的语义意思相同，基于本发明实施例的语义分析方法，对于不同询问方式的问题，将不同的问题输入至训练后的编码模型后，可以得到表示相同或相似语义的巨向量。

如图5所示，当用户向问答系统提出问题时，用户提出的问题显示在数据显示和接收模块中，并输入至相似问题判别模型中。相似问题判别模型可以先执行本发明实施例的语义分析方法，得到表示用户提出问题语义的句向量，并基于所得的句向量，分析用户所提出问题与预先建立的问答知识库中的问题的相似度，以为用户所提出问题匹配语义相同或相似的个性化问题。当问答知识库中存在某一个性化问题与用户所提出问题的相似度高于预设的阈值时，则相似问题判别模型判定该用户的真实意图是询问该个性化问题。进而，相似问题推荐模块根据匹配到的个性化问题，从与该个性化问题对应的至少一个答案中随机选择一个答案，并将该答案发送给数据显示和接收模块，由数据显示和接收模块向用户显示该答案。

从图5中可以看出，相似问题推荐模块中还包括答案生成模型，以用于相似问题判别模型从问答知识库中未匹配到与用户所提出问题的语义相同或相似的个性化问题时，基于答案生成模型生成与用户所提出问题对应的答案，并将生成的答案反馈给数据显示和接收模块，以向用户显示答案。

为了实现上述实施例，本发明还提出一种语义分析装置。

图6为本发明实施例提供的一种语义分析装置的结构示意图。

如图6所示，该语义分析装置60包括：编码模块610、解码模块620、生成模块630、训练模块640，以及测试模块650。其中，

编码模块610，用于针对对话流中的每一个样本句子，将样本句子中各单词的词向量输入编码器模型，得到表示样本句子语义的句向量。

解码模块620，用于将样本句子的句向量，分别输入样本句子的每个上下文句子对应的第一解码器模型中，以得到对应上下文句子的第一标识，以及将样本句子的句向量，分别输入样本句子的每个单词对应的第二解码器模型中，以得到对应单词的第二标识。

生成模块630，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值；其中，目标函数的取值用于指示样本句子的句向量表示语义的准确程度。

训练模块640，用于根据目标函数的取值，对编码器模型进行参数训练。

测试模块650，用于将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。

进一步地，在本发明实施例一种可能的实现方式中，编码器模型可以采用卷积神经网络模型，第一解码器模型和第二解码器模型均采用深度神经网络模型。当编码器模型采用卷积神经网络模型时，编码模块610具体用于将样本句子中各单词的词向量输入卷积神经网络，以得到卷积神经网络中最后一层输出的样本句子的句向量。

具体地，对于第i组对话流，当样本句子为第i组对话流中的第j个句子时，样本句子的第k个单词的词向量可以表示为

其中，

当第一解码器模型和第二解码器模型均采用深度神经网络模型时，训练模块640具体用于根据目标函数的取值，对编码器模型中，卷积神经网络模型的词向量矩阵、卷积神经网络的权重矩阵和卷积神经网络的偏置向量进行参数训练；以及，根据目标函数的取值，对第一解码器模型和第二解码器模型中，深度神经网络模型的权重矩阵和深度神经网络模型的偏置向量进行参数训练。

进一步地，在本发明实施例一种可能的实现方式中，如图7所示，在如图6所示实施例的基础上，生成模块630可以包括：

第一生成单元631，用于在样本句子为第i组对话流中的第j个句子时，根据输入样本句子的句向量

的概率，计算目标函数的第一项

第二生成单元632，用于根据输入样本句子的句向量

的概率，计算目标函数的第二项

的取值；其中，M为样本句子中的单词总数。

求和单元633，用于对第一项的取值和第二项的取值求和，得到目标函数的取值。

通过根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值，可以降低运算的复杂度。

进一步地，在本发明实施例一种可能的实现方式中，如图8所示，在如图1所示实施例的基础上，该语义分析装置60还可以包括：

输入模块660，用于将用户端输入问题作为测试句子。

查询模块670，用于在得到表示测试句子语义的句向量之后，根据测试句子的句向量，从问题库中查询得到预存问题。

发送模块680，用于向用户端发送预存问题对应的答案。

通过将用户端输入的问题作为测试句子输入至编码器模型中，得到测试句子的句向量，并基于句向量从问题库中查询得到句向量相似的预存问题，向用户端发送预存问题对应的答案，能够提高人机交互过程中答案与问题的匹配程度，提升用户体验。

需要说明的是，前述对语义分析方法实施例的解释说明也适用于该实施例的语义分析装置，其实现原理类似，此处不再赘述。

本实施例的语义分析装置，通过针对对话流中的样本句子，将该样本句子中各单词的词向量输入编码器模型得到表示样本句子语义的句向量，进而将样本句子的句向量，分别输入每个上下文句子对应的第一解码器模型中，得到对应上下文句子的第一标识，以及将该样本句子的句向量，分别输入样本句子的每个单词对应的第二解码器模型中，得到对应单词的第二标识，根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值，进而根据目标函数的取值对编码器模型进行参数训练，将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示测试句子语义的句向量。由于在训练过程中，第一解码器模型用于预测得到上下文句子的标识，因此，仅需要一个时间步骤的计算时长，相较于现有技术中，所采用的需要预测得到句子中每一个单词的方式，在训练过程中，所需的计算时长得到缩短，从句子长度个时间步骤缩短至一个时间步骤，解决了现有技术中训练时长较长所导致的效率较低的技术问题。

为了实现上述实施例，本发明还提出一种计算机设备。

图9为本发明实施例提供的一种计算机设备的结构示意图。如图9所示，该计算机设备90包括：存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机程序903，处理器902执行计算机程序903时，实现如前述实施例所述的语义分析方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述实施例所述的语义分析方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语义分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语义分析方法，其特征在于，所述编码器模型采用卷积神经网络模型，所述针对对话流中的每一个样本句子，将所述样本句子中各单词的词向量输入编码器模型，得到表示所述样本句子语义的句向量，包括：

将所述样本句子中各单词的词向量输入所述卷积神经网络，以得到所述卷积神经网络中最后一层输出的所述样本句子的句向量。

3.根据权利要求2所述的语义分析方法，其特征在于，所述样本句子为第i组对话流中的第j个句子时，所述样本句子的第k个单词的词向量为

其中，

为所述样本句子的第k个单词的第二标识，E_encoder为所述卷积神经网络模型的词向量矩阵。

4.根据权利要求2所述的语义分析方法，其特征在于，所述第一解码器模型和所述第二解码器模型均采用深度神经网络模型，所述根据所述目标函数的取值，对所述编码器模型进行参数训练，包括：

根据所述目标函数的取值，对所述编码器模型中，卷积神经网络模型的词向量矩阵、卷积神经网络的权重矩阵和卷积神经网络的偏置向量进行参数训练；

所述语义分析方法还包括：

根据所述目标函数的取值，对所述第一解码器模型和所述第二解码器模型中，深度神经网络模型的权重矩阵和深度神经网络模型的偏置向量进行参数训练。

5.根据权利要求1所述的语义分析方法，其特征在于，所述根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值，包括：

所述样本句子为第i组对话流中的第j个句子时，根据输入所述样本句子的句向量

的概率，计算所述目标函数的第一项

的取值；其中，q＝1,2,…,Q；N为对话流的总组数，T为第i组对话流所含句子的总个数；

根据输入所述样本句子的句向量

的条件下，每个第二解码器模型输出所述样本句子中对应单词的第二标识

的概率，计算所述目标函数的第二项

的取值；其中，M为所述样本句子中的单词总数；

对所述第一项的取值和所述第二项的取值求和，得到所述目标函数的取值。

6.根据权利要求1-5任一项所述的语义分析方法，其特征在于，所述将测试句子中各单词的词向量输入经过训练的编码器模型中，得到表示所述测试句子语义的句向量之前，还包括：

将用户端输入问题作为所述测试句子；

所述得到表示所述测试句子语义的句向量之后，还包括：

根据所述测试句子的句向量，从问题库中查询得到预存问题；

向所述用户端发送所述预存问题对应的答案。

7.一种语义分析装置，其特征在于，包括：

编码模块，用于针对对话流中的每一个样本句子，将所述样本句子中各单词的词向量输入编码器模型，得到表示所述样本句子语义的句向量；

生成模块，用于根据各第一解码器模型得到对应第一标识的概率，以及各第二解码器模型得到对应第二标识的概率，确定目标函数的取值；其中，所述目标函数的取值用于指示所述样本句子的句向量表示语义的准确程度；

8.根据权利要求7所述的语义分析装置，其特征在于，所述编码器模型采用卷积神经网络模型；

所述编码模块，具体用于将所述样本句子中各单词的词向量输入所述卷积神经网络，以得到所述卷积神经网络中最后一层输出的所述样本句子的句向量。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6中任一项所述的语义分析方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的语义分析方法。