CN114936564A

CN114936564A - 一种基于对齐变分自编码的多语言语义匹配方法及系统

Info

Publication number: CN114936564A
Application number: CN202210639491.9A
Authority: CN
Inventors: 白庆春; 肖君; 臧宏
Original assignee: Shanghai open university
Current assignee: Shanghai open university
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-08-23

Abstract

本发明提供一种基于对齐变分自编码的多语言语义匹配方法及系统，所述方法包括：采用变分自编码器分别将两种语言文本映射到低维空间隐向量表示；对自编码神经网络的编码阶段的表示和解码的表示进行交互，由变分自编码器分别进行解码操作；通过约束损失函数，在低维空间下进行文本匹配；组合变分自编码的损失函数和语义匹配的损失函数，联合进行循环迭代训练。本发明能够自动对多语言文本进行语义匹配计算，用户无需关注底层算法逻辑，通过调用本发明中间件，在不修改代码和标注数据的情况下即可分析出文本的匹配度概率，提升了多语言文本匹配的有效性；本发明能够动态建模多语言的隐含表示，为上游意图识别、文本分类等应用服务提供技术支撑。

Description

一种基于对齐变分自编码的多语言语义匹配方法及系统

技术领域

本发明涉及自然语言处理、文本相似度分析、多语言语义计算技术领域，具体而言，涉及一种基于对齐变分自编码的多语言语义匹配方法及系统。

背景技术

在目前的开放教学中，由于学科呈现多样性、知识中蕴含巨大的文化差异。同时，学习者来自多个国家，其知识背景具有多样性、差异性和动态性的特点。对于学习者的意图和行为理解是构建智能化学习平台的基础。而开放教学的跨语言在线学习平台中，多语言语义匹配是语义理解和意图识别的基础。一方面，通过多语言语义匹配能够精准地为用户的查询提供资源检索匹配；另一方面，在智能化学习辅助上，多语言语义匹配能够识别不同语言背景下用户的意图，为下一步的推理做辅助分析。因此，多语言语义匹配计算已经成为当前学术界和工业界研究的重点。

多语言语义匹配计算中，由于不同语言所蕴含的语义和学习者的表示之间存在巨大的语义鸿沟，如何建立模型理解开放教学中知识点的语义和学习者表示之间的关系是一项亟需解决的科学问题。

现有的方法主要是采用深度神经网络模型分别对两种句子进行编码，然后对其表示进行全连接分类操作。但是此类方法存在一些劣势，主要表现在：首先，模型数据需要大量人工标签，即平行语料去对应多语言的语义匹配；其次，该模型对于新涌现的专业词汇感知力度差，造成模型在开放教学中的应用性不强。

发明内容

鉴于此，本发明的目的在于提供一种基于对齐变分自编码的多语言语义匹配算法方法，以至少解决现有开放教学中多语言文本匹配技术中语义匹配困难的问题。

本发明的第二目的在于还提供一种基于对齐变分自编码的多语言语义匹配系统(中间件)，该中间件通过变分自编码递归神经网络来分别建模不同语言，将不同语言映射到低维向量空间并进行匹配，实现基于不同语言文本语义匹配，对给定的不同语言句子对进行语义分析分析，实现基于语义级别的相似匹配效果。

变分自编码神经网络，因其强大的编码解码能力，能够学习到文本在低维空间内更加具有鲁棒性的表示，所有下游的操作均可在此低维空间进行计算，被广泛应用于机器翻译领域。通常变分自编码器由两部分组成，编码器和解码器。编码器通常由双向的循环神经网络表示，文本通过编码得到低维向量表示；解码器是由语言的概率模型构成，通过对编码的向量表示进行还原，重新构建文本。变分自编码器对于模型增加了两项约束，首先模型能够自动还原句子，其次，参数的分布应当遵循先验约束。通过上述约束，变分自编码能够学习到模型的更强鲁棒性表示。虽然上述方法能够取得较好的性能，但是现有的工作主要是关注于借助变分自编码进行无监督翻译，或者图像领域的编码解码任务中，如何将其应用于开放教学多语言语义匹配任务依然是一项需要解决的问题；此外，由于开放教学中文本的新涌现词汇量大，如何对新词汇建模并融入语义匹配计算中依然比较困难，目前还没有相关的一款中间件方案能够解决这一问题。

本发明提供一种基于对齐变分自编码的多语言语义匹配方法，包括以下步骤：

S1、选择开放教学中的两种语言文本分别建立变分自编码器VAE，发送两种语言本文到各自的自编码神经网络中，得到各自语义的向量表示，分别对两种语言文本进行语义建模，利用变分自编码器分别学习两种语言文本的语义表示的操作；所述两种语言文本的语义表示定义为：

μ(x)＝W_μGRU(x)+b_μ

σ(x)＝exp(W_σGRU(x)+b_σ)，

z_x＝μ(x)+σ(x)·ε (1)

式(1)中，μ(x)和σ(x)分别表示两种语言文本的建模的变分自编码器的参数，b表示为权重矩阵，z表示句子在模型进行编码后的隐向量表示，μ(x)和σ(x)两种语言文本的变分自编码器设置为同一网络结构，但是参数不共享分别进行计算；

具体地，两个变分自编码器不共享参数，不同语言的文本可以在映射在低维空间内；

所述变分自编码器为带门控递归单元的双向循环神经网络GRU，定义为：

z_t＝σ(W^(z)x_t+U^(z)h_t-1)

r_t＝σ(W^(r)x_t+U^(r)h_t-1)

h′_t＝tanh(Wx_t+r_t⊙Uh_t-1)

h_t＝z_t⊙h_t-1+(1-z_t)⊙h′_t (2)

式(2)中，z表示更新门，取值范围为0～1；当z接近1表明记忆得越多，反正，遗忘越多；h’表示当前节点信息，h_t表示当前节点的隐含状态，h_t-1表示上一个节点的隐含状态，W、U表示参数矩阵；

S2、对所述自编码神经网络的编码阶段的表示和解码的表示进行交互，根据所述两种语言文本的向量表示由变分自编码器分别进行解码操作，还原原句子，给定语言文本的语义表示z_x，预测生成句子的概率最大似然；

具体的，还原操作由解码器负责还原；

所述解码的表示定义为：

式(3)中，p(x^t|x¹，...，x^t-1，z_x)表示生成单词为x^t的概率分布，采用softmax函数进行归一化；

S3、对两种语言文本的语义表示在低维空间进行语义向量匹配，基于两种语言文本的语义向量来度量它们的语义相似性，训练得到语义匹配模型；

具体的，语义相似性的度量需要在两种语言文本的潜在空间之间建立一些联系；

所述语义向量匹配的定义为：

式(4)中，y_ij表示标签，c_ij、s_ij分别表示两种语言文本；

S4、将两个变分自编码器设定相同的先验，两个变分自编码器的变分后验以相同的方式被约束，将所述语义向量匹配模型融入重构分析中，进行语义相似计算，计算句子相似程度，分析两种语言文本的语义表示的匹配度概率；

具体地，两个变分自编码器的变分后验由KL项进行约束；所述语义相似计算的表达式为：

式(5)中，

和

分别表示两种语言自编码建模的损失函数，所述损失函数包括重构损失、KL损失，所述重构损失表示自编码编码后重新还原的约束，所述KL损失表示隐空间下分布的约束；

具体地，通过计算变分自编码的重构损失和KL损失，为模型的自动梯度计算提供优化指导，最终学习到更强的文本表示；

S5、计算两种语言的变分自编码损失和匹配损失，将变分自编码损失和匹配损失进行联合，计算联合损失，并进行反向梯度传播计算，不断循环迭代更新所述语义匹配模型的参数。

后续将分析后的语义匹配模型考虑模型并发性，并封装成端口，转发给查询模块。

客户端可以将多语言文本数据发送至服务端请求语义匹配计算及推理，并根据后端的语义处理结果返回界面显示。

进一步地，所述S1步骤的所述得到各自语义的向量表示的方法包括：

给定一个输入文本x，变分自编码器VAE将输入文本x映射到低纬度空间，重建映射后的文本x，获得一个潜在向量表示z，z的分布基于变分自编码器的先验约束。

变分自编码器对z有两个约束条件：首先，变分自编码器在映射后重建文本x，其次，其分布不应该远离先验约束(可以看作是模型的正则化)。相比原始的自动编码器(AE)模型，使用VAE的普遍影响是：

(1)产生一个健壮的编码器输入x；

(2)可以丰富隐藏空间h，变分自编码VAE可以将句子编码成潜在的表示，可以作为句子嵌入基于句子编码的匹配模型。

进一步地，所述S1步骤的所述对两种语言文本进行语义建模的方法包括：

对两种语言文本进行特征提取，引入词向量模型，得到句子中每个单词的分布式向量表示，并将单词向量表示拼接成句子的表示。

进一步地，所述S3步骤的所述语义匹配模型的训练方法包括：将两种语言向量表示输入到自编码神经网络中，建模句子序列匹配的表示模型，以半监督的方式联合训练；

具体地，基于变分自编码器的优点，本发明提出使用双结构化的VAE来学习两种语言在各自的潜在空间中的表示，然后通过添加匹配模型，以半监督的方式联合训练。

进一步地，所述S2步骤的所述自编码神经网络的编码阶段的表示和解码的表示进行交互的方法包括：

变分自编码器在编码过程中，采用GRU门控神经网络建模句子，得到句子的隐含表示，在解码过程中，融合句子建模后的句子级别隐向量表示和注意权重参数，预测语言模型中下一个词的概率分布。

本发明还提供一种基于对齐变分自编码的多语言语义匹配系统，执行如上述所述的基于对齐变分自编码的多语言语义匹配方法，包括：

语义建模模块：选择开放教学中的两种语言文本分别建立变分自编码器VAE，发送两种语言本文到各自的自编码神经网络中，得到各自语义的向量表示，分别对两种语言文本进行语义建模，利用变分自编码器分别学习两种语言文本的语义表示的操作；

注意力引入模块：对所述自编码神经网络的编码阶段的表示和解码的表示进行交互，根据所述两种语言文本的向量表示由变分自编码器分别进行解码操作，还原原句子，给定语言文本的语义表示z_x，预测生成句子的概率最大似然；

语义匹配模块：对两种语言文本的语义表示在低维空间进行语义向量匹配，基于两种语言文本的语义向量来度量它们的语义相似性，训练得到语义匹配模型；

重构分析模块：将两个变分自编码器设定相同的先验，两个变分自编码器的变分后验以相同的方式被约束；将所述语义向量匹配模型融入重构分析中，进行语义相似计算，计算句子相似程度，分析两种语言文本的语义表示的匹配度概率；

联合损失和梯度传播模块：计算两种语言的变分自编码损失和匹配损失，将变分自编码损失和匹配损失进行联合，计算联合损失，并进行反向梯度传播计算，不断循环迭代更新所述语义匹配模型的参数。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述所述的基于对齐变分自编码的多语言语义匹配方法的步骤。

本发明还提供一种计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于对齐变分自编码的多语言语义匹配方法的步骤。

与现有技术相比，本发明的有益效果在于：

本发明能够自动对多语言文本进行语义匹配计算，用户无需关注底层算法逻辑，通过调用本发明中间件，在不修改代码和标注数据的情况下即可分析出文本的匹配度概率，提升了多语言文本匹配的有效性；本发明能够动态建模多语言的隐含表示，为上游意图识别、文本分类等应用服务提供技术支撑。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1为本发明一种基于对齐变分自编码的多语言语义匹配方法的流程图；

图2为本发明实施例计算机设备的构成示意图；

图3为本发明实施例基于对齐变分自编码的多语言语义匹配的算法流程图；

图4为本发明实施例基于对齐变分自编码的多语言语义匹配的算法架构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和产品的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图对本发明实施例作进一步详细说明。

本发明实施例针对开放教学的多语言神经自编码器，通过对多语言分别建立神经网络自编码器，以分别建立两种语言的表示，通过在两种语言分别映射的低纬度空间进行匹配，从而增强句子的表示。

本发明实施例提供一种基于对齐变分自编码的多语言语义匹配方法，参见图1所示，包括如下步骤：

S1、选择开放教学中的两种语言文本分别建立变分自编码器VAE，发送两种语言本文到各自的自编码神经网络中，得到各自语义的向量表示，分别对两种语言文本进行语义建模，利用变分自编码器分别学习两种语言文本的语义表示的操作；

所述得到各自语义的向量表示的方法包括：

给定一个输入文本x，变分自编码器VAE将输入文本x映射到低纬度空间，重建映射后的文本x，获得一个潜在向量表示z，z的分布基于变分自编码器的先验约束；

具体地，变分自编码器对z有两个约束条件：首先，变分自编码器在映射后重建文本x，其次，其分布不应该远离先验约束(可以看作是模型的正则化)。相比原始的自动编码器(AE)模型，使用VAE的普遍影响是：

(1)产生一个健壮的编码器输入x；

(2)可以丰富隐藏空间h，变分自编码VAE可以将句子编码成潜在的表示，可以作为句子嵌入基于句子编码的匹配模型；

所述对两种语言文本进行语义建模的方法包括：

对两种语言文本进行特征提取，引入词向量模型，得到句子中每个单词的分布式向量表示，并将单词向量表示拼接成句子的表示；

所述两种语言文本的语义表示定义为：

μ(x)＝W_μGRU(x)+b_μ

σ(x)＝exp(W_σGRU(x)+b_σ)，

z_x＝μ(x)+σ(x)·ε (1)

z_t＝σ(W^(z)x_t+U^(z)h_t-1)

r_t＝σ(W^(r)x_t+U^(r)h_t-1)

h′_t＝tanh(Wx_t+r_t⊙Uh_t-1)

h_t＝z_t⊙h_t-1+(1-z_t)⊙h′_t (2)

具体的，还原操作由解码器负责还原；

所述解码的表示定义为：

所述自编码神经网络的编码阶段的表示和解码的表示进行交互的方法包括：

变分自编码器在编码过程中，采用GRU门控神经网络建模句子，得到句子的隐含表示，在解码过程中，融合句子建模后的句子级别隐向量表示和注意权重参数，预测语言模型中下一个词的概率分布；

所述语义匹配模型的训练方法包括：将两种语言向量表示输入到自编码神经网络中，建模句子序列匹配的表示模型，以半监督的方式联合训练；

具体地，基于变分自编码器的优点，本发明提出使用双结构化的VAE来学习两种语言在各自的潜在空间中的表示，然后通过添加匹配模型，以半监督的方式联合训练；

所述语义向量匹配的定义为：

式(4)中，y_ij表示标签，c_ij、s_ij分别表示两种语言文本；

式(5)中，

和

参见图3所示为本发明实施例基于对齐变分自编码的多语言语义匹配的算法流程；

参见图4所示为本发明实施例基于对齐变分自编码的多语言语义匹配的算法架构。

本发明实施例还提供一种基于对齐变分自编码的多语言语义匹配系统，执行如上述所述的基于对齐变分自编码的多语言语义匹配方法，包括：

本发明实施例能够自动对多语言文本进行语义匹配计算，用户无需关注底层算法逻辑，通过调用本发明中间件，在不修改代码和标注数据的情况下即可分析出文本的匹配度概率，提升了多语言文本匹配的有效性；本发明能够动态建模多语言的隐含表示，为上游意图识别、文本分类等应用服务提供技术支撑。

本发明实施例还提供一种计算机设备，图2是本发明实施例提供的一种计算机设备的结构示意图；参见附图图2所示，该计算机设备包括：输入装置23、输出装置24、存储器22和处理器21；所述存储器22，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器21执行，使得所述一个或多个处理器21实现如上述实施例提供的基于对齐变分自编码的多语言语义匹配方法；其中输入装置23、输出装置24、存储器22和处理器21可以通过总线或者其他方式连接，图2中以通过总线连接为例。

存储器22作为一种计算设备可读写存储介质，可用于存储软件程序、计算机可执行程序，如本发明实施例所述的基于对齐变分自编码的多语言语义匹配方法对应的程序指令；存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等；此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件；在一些实例中，存储器22可进一步包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置23可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入；输出装置24可包括显示屏等显示设备。

处理器21通过运行存储在存储器22中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于对齐变分自编码的多语言语义匹配方法。

上述提供的计算机设备可用于执行上述实施例提供的基于对齐变分自编码的多语言语义匹配方法，具备相应的功能和有益效果。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于对齐变分自编码的多语言语义匹配方法，存储介质是任何的各种类型的存储器设备或存储设备，存储介质包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等；存储介质可以还包括其它类型的存储器或其组合；另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统；第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上实施例所述的基于对齐变分自编码的多语言语义匹配方法，还可以执行本发明任意实施例所提供的基于对齐变分自编码的多语言语义匹配方法中的相关操作。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对齐变分自编码的多语言语义匹配方法，其特征在于，包括以下步骤：

μ(x)＝W_μGRU(x)+b_μ

σ(x)＝exp(W_σGRU(x)+b_σ)，

z_x＝μ(x)+σ(x)·ε (1)

式(1)中，μ(x)和σ(x)分别表示两种语言文本的建模的变分自编码器的参数，b表示为权重矩阵，z表示句子在模型进行编码后的隐向量表示，μ(x)和σ(x)两种语言文本的变分自编码器设置为同一网络结构，参数分别进行计算；

z_t＝σ(W^(z)x_t+U^(z)h_t-1)

r_t＝σ(W^(r)x_t+U^(r)h_t-1)

h′_t＝tanh(Wx_t+r_t⊙Uh_t-1)

h_t＝z_t⊙h_t-1+(1-z_t)⊙h′_t (2)

式(2)中，z表示更新门，取值范围为0～1；h’表示当前节点信息，h_t表示当前节点的隐含状态，h_t-1表示上一个节点的隐含状态，W、U表示参数矩阵；

所述解码的表示定义为：

所述语义向量匹配的定义为：

式(4)中，y_ij表示标签，c_ij、s_ij分别表示两种语言文本；

S4、将两个变分自编码器设定相同的先验，两个变分自编码器的变分后验以相同的方式被约束；将所述语义向量匹配模型融入重构分析中，进行语义相似计算，计算句子相似程度，分析两种语言文本的语义表示的匹配度概率；

所述语义相似计算的表达式为：

式(5)中，

和

2.根据权利要求1所述的基于对齐变分自编码的多语言语义匹配方法，其特征在于，所述S1步骤的所述得到各自语义的向量表示的方法包括：

3.根据权利要求1所述的基于对齐变分自编码的多语言语义匹配方法，其特征在于，所述S1步骤的所述对两种语言文本进行语义建模的方法包括：

4.根据权利要求1所述的基于对齐变分自编码的多语言语义匹配方法，其特征在于，所述S3步骤的所述语义匹配模型的训练方法包括：将两种语言向量表示输入到自编码神经网络中，建模句子序列匹配的表示模型，以半监督的方式联合训练。

5.根据权利要求1所述的基于对齐变分自编码的多语言语义匹配方法，其特征在于，所述S2步骤的所述自编码神经网络的编码阶段的表示和解码的表示进行交互的方法包括：

6.一种基于对齐变分自编码的多语言语义匹配系统，其特征在于，执行权利要求1-5任一项所述的基于对齐变分自编码的多语言语义匹配方法，包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-5任一项所述的基于对齐变分自编码的多语言语义匹配方法的步骤。

8.一种计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于对齐变分自编码的多语言语义匹配方法的步骤。