CN112364659A

CN112364659A - 一种无监督的语义表示自动识别方法及装置

Info

Publication number: CN112364659A
Application number: CN202010652905.2A
Authority: CN
Inventors: 闵庆凯; 张岳; 罗彤
Original assignee: Beijing Ronghui Jinxin Information Technology Co ltd; Westlake University
Current assignee: Beijing Ronghui Jinxin Information Technology Co ltd; Westlake University
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2021-02-12
Anticipated expiration: 2040-07-08
Also published as: CN112364659B

Abstract

本发明实施例提供一种无监督的语义表示自动识别方法及装置，方法包括对待处理文本进行候选词提取得到一个及以上的候选词；针对每个候选词，确定与每个候选词对应的独热编码one‑hot向量表示和上下文向量表示；根据每个候选词的独热编码one‑hot向量表示和上下文向量确定待处理文本的整体语义隐变量向量表示，以此来确定待处理文本的领域，然后根据整体语义隐变量向量表示确定每个候选词的隐变量向量表示，以此确定每个候选词的槽位，进而得到待处理文本的语义表示。本发明采用基于隐变量的语义分析方式可以在无监督的情况下得到待处理文本的语义表示，同时不依赖于其他泛化的语义分析框架，从而可以大大节省人力成本以及时间成本。

Description

一种无监督的语义表示自动识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种无监督的语义表示自动识别方法及装置。

背景技术

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理(NaturalLanguageProcessing，NLP)和专家系统等。尤其是NLP领域，成为近年来AI研究的一个重要方向。

在NLP领域中，可以采用神经网络模型对语句进行语义表示，进而基于获取到的语义表示进行NLP的任务处理。一般来说，可以将语义表示定义为能反映说话者含义的一种表示方式。因此，语义表示应该配合一种从文本中提取信息的方法，并可以被人类直接评估。语义表示所要传达的内容一般为一个论证结构：谁对谁做了什么，哪里，何时和为什么，即事件，参与者和他们之间的关系。实际上，论证结构的基本原理已经被语义语言学和NLP中几乎所有的语义学方法所公认。

目前现有的语义表示一般都是基于有监督的模型训练方式，由于该方式需要人工标注大量的训练语料，因此会耗费大量的人力成本，同时该方式还存在如下缺陷：一方面，由于人工标注的错误率较高，因此会影响语义表示的准确度；另一方面，由于人工标注的局限性，因此使得难以迁移到多个不同的领域。

发明内容

针对现有技术中的问题，本发明实施例提供一种无监督的语义表示自动识别方法及装置。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种无监督的语义表示自动识别方法，包括：

对待处理文本进行候选词提取，得到一个及以上的候选词；

针对每个候选词，确定与每个候选词对应的独热编码one-hot向量表示和上下文向量表示；

将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示；

根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域；

针对每个候选词，根据对应的独热编码one-hot向量表示和上下文向量表示以及所述整体语义隐变量向量表示，通过一个神经网络转换器得到该候选词的隐变量向量，将该候选词的隐变量向量作为输入，输入至神经网络模型中与各个槽位分别对应的转换器，得到该候选词在不同槽位的槽位向量表示，并对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布；将该候选词在不同槽位的槽位向量表示作为输入，分别输入至神经网络模型中与各个槽位分别对应的解码器，得到该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和对应上下文向量表示的第二条件概率，将该候选词在不同槽位的概率分布、该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和该候选词在不同槽位对应上下文向量表示的第二条件概率进行求和处理，并将求和结果最大的槽位作为该候选词的槽位；其中，所述神经网络模型通过对损失函数进行优化得到，所述损失函数由编码器的损失和多个解码器的损失确定；

根据所述待处理文本的领域以及各候选词的槽位，得到所述待处理文本的语义表示。

进一步地，将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示，包括：将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至变分编码器模型中，得到所述待处理文本的整体语义表示的多元高斯分布的参数向量μ和σ。

进一步地，根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域，包括：

对所述待处理文本的整体语义表示的多元高斯分布进行重采样，得到所述待处理文本的整体隐变量向量z；

获取各个领域的先验多元高斯分布的参数向量μ₁，...，μ_K和σ₁，...，σ_K，其中，K表示领域的个数；

针对每个领域d，计算p(z|μ_d,σ_d)，并将取值最大的p(z|μ_d,σ_d)对应的领域作为所述待处理文本的领域。

进一步地，所述神经网络模型的优化过程包括：

获取编码器的损失和多个解码器的损失，并根据编码器的损失和多个解码器的损失，建立损失函数；

基于所述损失函数对神经网络模型进行优化处理。

进一步地，获取编码器的损失和多个解码器的损失，并根据编码器的损失和多个解码器的损失，建立损失函数，包括：

确定与各个领域的多元高斯分布的对应的KL散度；

针对每个候选词，确定解码器解码得到的重建的独热编码one-hot向量表示和上下文向量表示，并计算真实的独热编码one-hot向量表示与重建的独热编码one-hot向量表示之间的第一损失，以及真实的上下文向量表示与重建的上下文向量表示之间的第二损失，将第一损失和第二损失之和作为对应候选词的损失；

根据多个候选词的损失之和以及所述KL散度，建立损失函数；

相应地，基于所述损失函数对神经网络模型进行优化处理，包括：

基于所述损失函数，采用ELBO方式对神经网络模型进行优化处理。

进一步地，对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布，包括：

对该候选词在不同槽位的槽位向量表示进行softmax处理，确定该候选词在不同槽位的概率分布。

进一步地，对待处理文本进行候选词提取，得到一个及以上的候选词，包括：

提取待处理文本中的形容词和命名实体，得到一个及以上的候选词。

第二方面，本发明实施例还提供了一种无监督的语义表示自动识别装置，包括：

提取模块，用于对待处理文本进行候选词提取，得到一个及以上的候选词；

第一处理模块，用于针对每个候选词，确定与每个候选词对应的独热编码one-hot向量表示和上下文向量表示；

第二处理模块，用于将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示；

第三处理模块，用于根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域；

第四处理模块，用于针对每个候选词，根据对应的独热编码one-hot向量表示和上下文向量表示以及所述整体语义隐变量向量表示，通过一个神经网络转换器得到该候选词的隐变量向量，将该候选词的隐变量向量作为输入，输入至神经网络模型中与各个槽位分别对应的转换器，得到该候选词在不同槽位的槽位向量表示，并对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布；将该候选词在不同槽位的槽位向量表示作为输入，分别输入至神经网络模型中与各个槽位分别对应的解码器，得到该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和对应上下文向量表示的第二条件概率，将该候选词在不同槽位的概率分布、该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和该候选词在不同槽位对应上下文向量表示的第二条件概率进行求和处理，并将求和结果最大的槽位作为该候选词的槽位；其中，所述神经网络模型通过对损失函数进行优化得到，所述损失函数由编码器的损失和多个解码器的损失确定；

第五处理模块，用于根据所述待处理文本的领域以及各候选词的槽位，得到所述待处理文本的语义表示。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述无监督的语义表示自动识别方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述无监督的语义表示自动识别方法的步骤。

由上面技术方案可知，本发明实施例提供的无监督的语义表示自动识别方法及装置，采用基于隐变量的语义分析方式可以在无监督的情况下得到待处理文本的语义表示，同时不依赖于其他泛化的语义分析框架比如FrameNet，从而可以大大节省人力成本以及时间成本。同时，本实施例采用基于隐变量的语义分析方式使得可以适用于不同领域下的语义表示，从而拓展了使用范围，不再受领域约束。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的无监督的语义表示自动识别方法的流程图；

图2为本发明一实施例提供的无监督的语义表示自动识别方法的实现过程示意图；

图3为本发明一实施例提供的无监督的语义表示自动识别方法的实现原理示意图；

图4为本发明一实施例提供的对0-1向量oh和上下文向量ce通过神经网络进行编码，得到多元高斯分布的参数向量μ和σ的处理过程示意图；

图5为本发明一实施例提供的无监督的语义表示自动识别方法的算法实现示意图；

图6为本发明一实施例提供的无监督的语义表示自动识别方法的优化处理示意图；

图7为本发明一实施例提供的对话生成的下游任务示意图；

图8为本发明一实施例提供的一个语义表示示例的实现过程示意图；

图9为本发明一实施例提供的一个语义表示示例的实现原理示意图；

图10为本发明一实施例提供的无监督的语义表示自动识别装置的结构示意图；

图11为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前现有的语义表示系统基于有监督的模型训练方式，此方式需要人工标注大量的训练语料，而且人工标注的错误率较高，且难以迁移到多个不同的领域，本发明提出的基于隐变量的语义分析模型可以在无监督的情况下得到句子的语义表示，同时不依赖于其他泛化的语义分析框架比如FrameNet，从而可以大大节省人力成本以及时间成本。下面将通过具体实施例对本发明提供的无监督的语义表示自动识别方法进行详细解释和说明。

图1示出了本发明实施例提供的无监督的语义表示自动识别方法的流程图。如图1所示，本发明实施例提供的无监督的语义表示自动识别方法包括如下步骤：

步骤101：对待处理文本进行候选词提取，得到一个及以上的候选词；

步骤102：针对每个候选词，确定与每个候选词对应的独热编码one-hot向量表示和上下文向量表示；

步骤103：将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示；

步骤104：根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域；

步骤105：针对每个候选词，根据对应的独热编码one-hot向量表示和上下文向量表示以及所述整体语义隐变量向量表示，通过一个神经网络转换器得到该候选词的隐变量向量，将该候选词的隐变量向量作为输入，输入至神经网络模型中与各个槽位分别对应的转换器，得到该候选词在不同槽位的槽位向量表示，并对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布；将该候选词在不同槽位的槽位向量表示作为输入，分别输入至神经网络模型中与各个槽位分别对应的解码器，得到该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和对应上下文向量表示的第二条件概率，将该候选词在不同槽位的概率分布、该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和该候选词在不同槽位对应上下文向量表示的第二条件概率进行求和处理，并将求和结果最大的槽位作为该候选词的槽位；其中，所述神经网络模型通过对损失函数进行优化得到，所述损失函数由编码器的损失和多个解码器的损失确定；

步骤106：根据所述待处理文本的领域以及各候选词的槽位，得到所述待处理文本的语义表示。

在本实施例中，如图2所示，整个处理过程主要分为两个步骤，第一个步骤是抽取句子中的形容词和命名实体作为候选词，可以使用自有或者外部的领域词组发现(phrasedetection)、命名实体识别(NER)工具来实现，，第二个步骤是通过一个带有隐变量的无监督神经网络模型来为每一个候选词分配一个合适的领域+槽值位。其中当前句子的整体的语义表示为一个连续型的隐变量z，多个不同的领域表示为一个混合多元高斯模型，每个候选词对应的槽位表示为一个离散型的隐变量s，通过变分推断的方式优化模型中的参数，以此得到所有有效的(领域+槽值位)对作为句子的语义表示。

下面结合图3所示的原理实现示意图对本实施例的处理过程给予较为详细的解释。如图3所示，第一个步骤比较灵活，可以针对不同的任务及数据通过不同的外部工具挑选合适的候选词，重点集中在第二个步骤中。如图3所示，首先，对句子中的每一个候选词通过一个词向量层得到其向量表示，具体表示为一个独热编码0-1向量oh和一个上下文向量ce；接下来这两个向量通过神经网络来进行编码，得到一个多元高斯分布的参数向量μ和σ，如图4所示；根据这个多元高斯分布进行重采样得到当前句子语义的一个整体表示z，假设K个不同的多元高斯分布表示K个不同的领域，其参数向量为μ₁…μ_K,σ₁…σ_K，根据每一个领域d，计算p(z|μ_d,σ_d)，挑选概率最大的领域作为当前句子的领域，这个领域是针对句子中的所有候选词而言的。然后针对每一个候选词，通过一个神经网络得到一个槽位的向量表示s，假设有S个槽位，那么向量s的长度为S，通过对向量s进行softmax操作，得到每一个槽位的概率p(s)，除此之外，针对每一个槽位对应一个解码器，通过不同的解码器，可以分别得到对应当前候选词的两种向量表示的概率p(oh|s)和p(ce|s)，将p(s)、p(oh|s)和p(ce|s)相加，取概率最大的槽位作为当前候选词的对应槽位，遍历每一个候选词进行此操作。得到多个(领域+槽位值)对，作为当前句子的语义表示，算法过程如图5所示。

在本实施例中，需要说明的是，各个领域和槽位的数目是预先给定的，这可以看作是在神经网络训练过程中可以进行调节的超参数，关于每个领域和槽位所对应的具体的语义表示，如flight等需要人工后处理的，比如给1号领域确定一个语义是flight。

在本实施例中，需要说明的是，所述神经网络模型通过对损失函数进行优化得到，所述损失函数由编码器的损失和多个解码器的损失确定。下面结合图6对所述神经网络模型的优化处理过程进行详细说明。

图6中粗线框中表示的是模型需要优化的参数，具体地，在本实施例中，可以通过evidence lower bound(ELBO)的方式来优化，如图6所示，损失函数包含两部分，第一部分是对后验的多元高斯分布和先验的K个多元高斯分布求KL散度，第二部分是针对每一个候选词，通过对应的槽位向量s和S个不同的解码器得到当前候选的重建的oh和ce，即reconstructed oh和reconstructed ce，与当前候选词真实的oh和ce进行对比得到损失，将每一个候选词的损失相加得到第二部分的损失。

在本实施例中，需要说明的是，在第一个步骤中，句子中的每一个候选词表示为一个0-1向量oh(向量长度大小为语料中所有的候选词的个数)和一个上下文向量(针对不同的预训练语言模型，如ELMo和BERT，向量的长度可能为256或768)；在第二个步骤中，不同的领域和槽位为隐式的数字化表示，需要专家对不同的领域和槽位人工进行标注，得到最终的语义表示。由此可见，在本实施例中，需要配合使用的功能部件包括：1)候选词抽取工具；2)神经网络编码器、转换器、S个解码器(参见图4所示)；3)K个领域的多元高斯分布；4)Evidence Lower Bound(ELBO)优化器。

下面结合实验数据来说明本发明的效果。如下表1所示，通过在任务型对话数据集MultiWOZ2.1和SGD上进行的实验结果表示，本实施例达到了40％+的F1-score。

表1

另外，在对话生成的下游任务上(如图7所示)，本实施例通过无监督的方式得到的语义模型相比于无语义表示的对话生成模型取得了明显的提高(见下表2所示)，验证了本实施例的模型可以在非常严格的无监督的实验条件下，得到有效的语义表示。

表2

下面结合图8和图9所示的一个语义表示示例的实现过程和实现原理示意图对本发明提供的无监督的语义表示自动识别方法进行进一步的解释。

如图8和图9所示，假设待处理文本为：I need to take a train out ofChicago，I will be leaving Dallas on Wednesday.

对于该待处理文本，进行第一步处理，也即进行候选词提取后得到：train、Chicago、Dallas和Wednesday.

然后对于上述候选词进行第二步处理，也即对句子中的每一个候选词通过一个词向量层得到其向量表示，具体表示为一个独热编码0-1向量oh和一个上下文向量ce；接下来这两个向量通过神经网络来进行编码，得到一个多元高斯分布的参数向量μ和σ，如图9所示；根据这个多元高斯分布进行重采样得到当前句子语义的一个整体表示z，假设K个不同的多元高斯分布表示K个不同的领域(flight、movie、hotel、train等K个领域)，其参数向量为μ₁...μ_K,σ₁...σ_K，根据每一个领域d，计算p(z|μ_d,σ_d)，挑选概率最大的领域flight作为当前句子的领域，这个领域是针对句子中的所有候选词而言的。需要说明的是，这里的多个槽位是预先设置好的，如departure_city、destination_city、time等。然后针对每一个候选词，通过一个神经网络得到一个槽位的向量表示s，假设有S个槽位，那么向量s的长度为S，通过对向量s进行softmax操作，得到每一个槽位的概率p(s)，除此之外，针对每一个槽位对应一个解码器，通过不同的解码器，可以分别得到对应当前候选词的两种向量表示的概率p(oh|s)和p(ce|s)，将p(s)、p(oh|s)和p(ce|s)相加，取概率最大的槽位作为当前候选词的对应槽位(例如，对于候选词Chicago来说，与其对应的概率最大的槽位为departure_city)，遍历每一个候选词进行此操作，得到多个(领域+槽位值)对，作为当前句子的语义表示。

由上面技术方案可知，本实施例提供的无监督的语义表示自动识别方法，根据每个候选词的独热编码one-hot向量表示和上下文向量确定每个候选词的隐变量向量；根据每个候选词的隐变量向量确定待处理文本的领域以及每个候选词的槽位，进而得到所述待处理文本的语义表示。由此可见，本实施例提供的无监督的语义表示自动识别方法，采用基于隐变量的语义分析方式可以在无监督的情况下得到待处理文本的语义表示，同时不依赖于其他泛化的语义分析框架比如FrameNet，从而可以大大节省人力成本以及时间成本。同时，本实施例采用基于隐变量的语义分析方式使得可以适用于不同领域下的语义表示，从而拓展了使用范围，不再受领域约束。

基于上述各实施例的内容，在本实施例中，将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示，包括：

将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至变分编码器模型，得到所述待处理文本的整体语义表示的多元高斯分布的参数向量μ和σ。

在本实施例中，对句子中的每一个候选词通过一个词向量层得到其向量表示，具体表示为一个独热编码0-1向量oh和一个上下文向量ce；接下来这两个向量通过神经网络来进行编码，得到一个多元高斯分布的参数向量μ和σ，如图4所示，该多元高斯分布可以理解为对应候选词的隐变量向量。

基于上述各实施例的内容，在本实施例中，根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域，包括：

基于上述各实施例的内容，在本实施例中，所述神经网络模型的优化过程包括：

基于所述损失函数对神经网络模型进行优化处理。

基于上述各实施例的内容，在本实施例中，获取编码器的损失和多个解码器的损失，并根据编码器的损失和多个解码器的损失，建立损失函数，包括：

确定与各个领域的多元高斯分布的对应的KL散度；

在本实施例中，可以通过evidence lower bound(ELBO)的方式来优化，如图6所示，损失函数包含两部分，第一部分是对后验的多元高斯分布和先验的K个多元高斯分布求KL散度，第二部分是针对每一个候选词，通过对应的槽位向量s和S个不同的解码器得到当前候选的重建的oh和ce，即reconstructed oh和reconstructed ce，与当前候选词真实的oh和ce进行对比得到损失，将每一个候选词的损失相加得到第二部分的损失。

基于上述各实施例的内容，在本实施例中，对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布，包括：

在本实施例中，可以对该候选词在不同槽位的槽位向量表示进行softmax处理，进而可以较为方便地确定该候选词在不同槽位的概率分布。

基于上述各实施例的内容，在本实施例中，对待处理文本进行候选词提取，得到一个及以上的候选词，包括：

在本实施例中，需要说明的是，由于句子中的形容词和命名实体往往能够准确反映句子语义，因此，本实施例在对待处理文本进行候选词提取时，优选提取待处理文本中的形容词和命名实体。

由此可见，本实施例对待处理文本进行候选词提取得到一个及以上的候选词；针对每个候选词，确定与每个候选词对应的独热编码one-hot向量表示和上下文向量表示；根据每个候选词的独热编码one-hot向量表示和上下文向量确定待处理文本的整体语义隐变量向量表示，以此来确定待处理文本的领域，然后根据整体语义隐变量向量表示确定每个候选词的隐变量向量表示，以此确定每个候选词的槽位，进而得到待处理文本的语义表示。本发明采用基于隐变量的语义分析方式可以在无监督的情况下得到待处理文本的语义表示，同时不依赖于其他泛化的语义分析框架，从而可以大大节省人力成本以及时间成本。

图10示出了本发明实施例提供的无监督的语义表示自动识别装置的结构示意图。如图10所示，本实施例提供的无监督的语义表示自动识别装置，包括：提取模块21、第一处理模块22、第二处理模块23、第三处理模块24、第四处理模块25和第五处理模块26，其中：

提取模块21，用于对待处理文本进行候选词提取，得到一个及以上的候选词；

第一处理模块22，用于针对每个候选词，确定与每个候选词对应的独热编码one-hot向量表示和上下文向量表示；

第二处理模块23，用于将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示；

第三处理模块24，用于根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域；

第四处理模块25，用于针对每个候选词，根据对应的独热编码one-hot向量表示和上下文向量表示以及所述整体语义隐变量向量表示，通过一个神经网络转换器得到该候选词的隐变量向量，将该候选词的隐变量向量作为输入，输入至神经网络模型中与各个槽位分别对应的转换器，得到该候选词在不同槽位的槽位向量表示，并对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布；将该候选词在不同槽位的槽位向量表示作为输入，分别输入至神经网络模型中与各个槽位分别对应的解码器，得到该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和对应上下文向量表示的第二条件概率，将该候选词在不同槽位的概率分布、该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和该候选词在不同槽位对应上下文向量表示的第二条件概率进行求和处理，并将求和结果最大的槽位作为该候选词的槽位；其中，所述神经网络模型通过对损失函数进行优化得到，所述损失函数由编码器的损失和多个解码器的损失确定；

第五处理模块26，用于根据所述待处理文本的领域以及各候选词的槽位，得到所述待处理文本的语义表示。

由于本发明实施例提供的无监督的语义表示自动识别装置，可以用于执行上述实施例所述的无监督的语义表示自动识别方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

在本实施例中，需要说明的是，本发明实施例的装置中的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

基于相同的发明构思，本发明又一实施例提供了一种电子设备，参见图11，所述电子设备具体包括如下内容：处理器301、存储器302、通信接口303和通信总线304；

其中，所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信；

所述处理器301用于调用所述存储器302中的计算机程序，所述处理器执行所述计算机程序时实现上述无监督的语义表示自动识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述过程：对待处理文本进行候选词提取，得到一个及以上的候选词；针对每个候选词，确定与每个候选词对应的独热编码one-hot向量表示和上下文向量表示；将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示；根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域；针对每个候选词，根据对应的独热编码one-hot向量表示和上下文向量表示以及所述整体语义隐变量向量表示，通过一个神经网络转换器得到该候选词的隐变量向量，将该候选词的隐变量向量作为输入，输入至神经网络模型中与各个槽位分别对应的转换器，得到该候选词在不同槽位的槽位向量表示，并对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布；将该候选词在不同槽位的槽位向量表示作为输入，分别输入至神经网络模型中与各个槽位分别对应的解码器，得到该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和对应上下文向量表示的第二条件概率，将该候选词在不同槽位的概率分布、该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和该候选词在不同槽位对应上下文向量表示的第二条件概率进行求和处理，并将求和结果最大的槽位作为该候选词的槽位；其中，所述神经网络模型通过对损失函数进行优化得到，所述损失函数由编码器的损失和多个解码器的损失确定；根据所述待处理文本的领域以及各候选词的槽位，得到所述待处理文本的语义表示。

可以理解的是，所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述无监督的语义表示自动识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述过程：对待处理文本进行候选词提取，得到一个及以上的候选词；针对每个候选词，确定与每个候选词对应的独热编码one-hot向量表示和上下文向量表示；将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示；根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域；针对每个候选词，根据对应的独热编码one-hot向量表示和上下文向量表示以及所述整体语义隐变量向量表示，通过一个神经网络转换器得到该候选词的隐变量向量，将该候选词的隐变量向量作为输入，输入至神经网络模型中与各个槽位分别对应的转换器，得到该候选词在不同槽位的槽位向量表示，并对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布；将该候选词在不同槽位的槽位向量表示作为输入，分别输入至神经网络模型中与各个槽位分别对应的解码器，得到该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和对应上下文向量表示的第二条件概率，将该候选词在不同槽位的概率分布、该候选词在不同槽位对应独热编码one-hot向量表示的第一条件概率和该候选词在不同槽位对应上下文向量表示的第二条件概率进行求和处理，并将求和结果最大的槽位作为该候选词的槽位；其中，所述神经网络模型通过对损失函数进行优化得到，所述损失函数由编码器的损失和多个解码器的损失确定；根据所述待处理文本的领域以及各候选词的槽位，得到所述待处理文本的语义表示。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的无监督的语义表示自动识别方法。

此外，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本发明中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无监督的语义表示自动识别方法，其特征在于，包括：

对待处理文本进行候选词提取，得到一个及以上的候选词；

2.根据权利要求1所述的无监督的语义表示自动识别方法，其特征在于，将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，输入至神经网络模型的编码器，得到所述待处理文本的整体语义隐变量向量表示，包括：

将每个候选词的独热编码one-hot向量表示和上下文向量表示作为输入，分别输入至变分编码器模型中，得到所述待处理文本的整体语义表示的多元高斯分布的参数向量μ和σ。

3.根据权利要求2所述的无监督的语义表示自动识别方法，其特征在于，根据所有领域的先验概率分布和每个领域的先验参数向量，确定针对所述整体语义隐变量向量表示概率最大的领域作为所述待处理文本的领域，包括：

4.根据权利要求3所述的无监督的语义表示自动识别方法，其特征在于，所述神经网络模型的优化过程包括：

基于所述损失函数对神经网络模型进行优化处理。

5.根据权利要求4所述的无监督的语义表示自动识别方法，其特征在于，获取编码器的损失和多个解码器的损失，并根据编码器的损失和多个解码器的损失，建立损失函数，包括：

确定与各个领域的多元高斯分布的对应的KL散度；

6.根据权利要求1所述的无监督的语义表示自动识别方法，其特征在于，对该候选词在不同槽位的槽位向量表示进行处理，确定该候选词在不同槽位的概率分布，包括：

7.根据权利要求1所述的无监督的语义表示自动识别方法，其特征在于，对待处理文本进行候选词提取，得到一个及以上的候选词，包括：

8.一种无监督的语义表示自动识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7任一项所述无监督的语义表示自动识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1～7任一项所述无监督的语义表示自动识别方法的步骤。