CN110162612B

CN110162612B - 信息处理方法、装置、可读存储介质和电子设备

Info

Publication number: CN110162612B
Application number: CN201910430538.9A
Authority: CN
Inventors: 林凤绿; 柳泽明; 范红杰; 王东升
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2021-07-09
Anticipated expiration: 2039-05-22
Also published as: CN110162612A

Abstract

本发明公开了一种信息处理方法、装置、可读存储介质和电子设备，所述方法基于神经网络，本发明实施例通过在现有的神经网络中加入门控机制和跨层连接，延长了神经网络对输入信息的记忆时间，同时提高了回复信息的效率和准确率。

Description

信息处理方法、装置、可读存储介质和电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种信息处理方法、装置、可读存储介质和电子设备。

背景技术

目前的个性化任务型机器人拥有基于神经系统的个性化回复策略，即针对不同的用户选择不同的回复策略。当不同的用户输入相同的查询信息时，机器人基于神经网络获取的回复信息不同。例如当用户查询“帮我在中关村定一个餐厅”，如果用户的口味偏好是火锅而且之前也定过火锅，那个性化机器人的回复可以是“请问您今天还要吃火锅吗？”。而在用户未输入过口味偏好或者没有订餐历史的情况下，那得到的回复是“请问您打算订什么类型的餐厅？”。

在上述个性化回复策略中有两部分至关重要：通过神经网络记忆记忆用户信息和聊天内容的上下文以及根据用户信息和聊天内容的上下文进行推理和学习。而在现有技术中，个性化机器人的神经网络记忆和学习方式是采用端到端记忆模型(end-to-end memorynetwork)来进行信息的存储和推理，这导致的问题是记忆并不精准，造成因信息太多发生的遗忘或在文本转换成向量时丢失信息等问题。

发明内容

有鉴于此，本发明实施例提供一种信息处理方法、装置、可读存储介质和电子设备，本发明实施例基于神经网络，旨在延长神经网络对输入信息的记忆时间，提高回复信息的准确率。

第一方面，本发明实施例公开了一种信息处理方法，所述方法基于神经网络，包括：

根据记忆数据与第一嵌入向量的相关度确定记忆向量；

根据第一预设矩阵和第一嵌入向量确定门控向量；

根据第二预设矩阵和第一嵌入向量确定第一概率值，所述第一概率值用于表征所述第一嵌入向量被遗忘的概率；

根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量。

进一步地，所述根据记忆数据与第一嵌入向量的相关度确定记忆向量包括：

根据归一化指数函数判断所述第一嵌入向量和所述记忆数据的相关度；

根据所述相关度的加权和确定、输出记忆向量。

进一步地，所述根据第一预设矩阵和第一嵌入向量确定门控向量包括：

通过计算第一预设矩阵与所述第一嵌入向量的内积确定门控向量。

进一步地，所述根据第二预设矩阵和第一嵌入向量确定第一概率值包括：

根据西格玛函数确定所述第一概率值，所述西格玛函数的输入根据所述第二预设矩阵和第一嵌入向量确定。

进一步地，所述西格玛函数的输入为第一嵌入向量与第二预设矩阵内积后的值与常数项的和。

进一步地，所述根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量包括：

根据所述记忆向量与第二概率值的外积、所述门控向量与第一概率值的外积以及所述第一嵌入向量和预设参数的外积确定，其中所述第一概率值和第二概率值的和为1。

进一步地，所述第二嵌入向量根据函数：U^k+1＝(U^kH)*g+O^k*(1-g)+U^k*λ确定，其中所述U^k+1为第二嵌入向量，所述U^k为第一嵌入向量，所述H为第一预设矩阵，所述g为第一概率值，所述λ为预设参数。

第二方面，本发明实施例公开了一种信息处理装置，所述装置基于神经网络，包括：

第一计算模块，用于根据记忆数据与第一嵌入向量的相关度确定记忆向量。

第二计算模块，用于根据第一预设矩阵和第一嵌入向量确定门控向量。

第三计算模块，用于根据第二预设矩阵和第一嵌入向量确定第一概率值，所述第一概率值用于表征所述第一嵌入向量被遗忘的概率。

第四计算模块，用于根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量。

第三方面，本发明实施例公开了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面任一项所述的方法。

第四方面，本发明实施例公开了一种计算机可读存储介质，用于存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面任一项所述的方法。

本发明实施例通过在现有的神经网络中加入门控机制和跨层连接，延长了神经网络对输入信息的记忆时间，同时提高了回复信息的效率和准确率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为循环神经网络及其展开结构示意图；

图2为本发明实施例的一种信息处理方法的示意图；

图3为本发明实施例的一种信息处理方法的流程图；

图4为本发明实施例一个可选方式的根据记忆数据与第一嵌入向量的相关度确定记忆向量的流程图；

图5为本发明实施例的一种信息处理装置的示意图；

图6为本发明实施例的一种电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1为循环神经网络及其展开结构示意图，如图1所示，所述循环神经网络包括输入数据x_t，隐藏层状态s_t和输出数据o_t，所述U、V、W为三个预设的参数。

具体地，所述输入的数据根据x_t与所述预设参数U计算，转换为向量，经过隐藏层状态s_t以及预设参数V计算后得到输出向量o_t，其中所述隐藏层状态s_t根据当前输入层的输出、预设参数W以及上一步隐藏层的状态s_t-1进行计算。因此可以使隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出，实现每一次的输出不仅与本次输入有关，也与之前的输入联系起来。

进一步的，本发明实施例提供的信息处理方法为所述循环神经网络中隐藏层之间的节点，通过本次输入与上一时刻隐藏层的状态确定本时刻的隐藏层状态。

图2为本发明实施例的一种信息处理方法的示意图，如图2所示，所述信息处理方法通过在神经网络中增加跨层连接、门控单元(GATE)以及键值对记忆模型(key-vaulememory network)对输入的第一嵌入向量进行计算得到第二嵌入向量。所述第一嵌入向量通过所述神经网络输入的信息通过嵌入层转化得到。

具体地，所述第一嵌入向量通过门控单元计算得到门控向量和第一概率值p，其中所述门控向量通过第一预设矩阵H与第一嵌入向量确定，所述第一概率值通过第二预设矩阵K和第一嵌入向量确定，所述第一概率值p用于表征所述第一嵌入向量被遗忘的概率。所述第一嵌入向量通过键值对记忆模型计算得到记忆向量，其中所述键值对记忆模型中的键嵌入(key embedding)模块获取记忆信息，根据归一化指数函数计算所述第一嵌入向量和记忆信息的相关度。所述值嵌入(value embedding)模块根据所述相关度确定输出的记忆向量。所述第一嵌入向量通过跨层连接计算所述第一嵌入向量和预设参数λ的乘积。所述第二嵌入向量通过所述第一嵌入向量和预设参数λ的乘积、所述门控向量和第一概率值g的乘积以及所述记忆向量和所述第二概率值的乘积确定，所述第一概率值和所述第二概率值的和为1，即所述第二概率值为(1-g)，用于表征所述第一嵌入向量被记忆的概率。

所述方法通过在现有的神经网络中加入键值对记忆模型、门控机制和跨层连接，延长了神经网络对输入信息的记忆时间，同时提高了回复信息的准确率。

图3为本发明实施例的一种信息处理方法的流程图，如图3所示，所述信息处理方法包括以下步骤：

步骤S100：根据记忆数据与第一嵌入向量的相关度确定记忆向量。

具体地，所述第一嵌入向量为输入所述神经网络的信息通过嵌入层转换得出的向量，所述记忆数据为所述神经网络已经记忆的数据，包含多个键值对。通过所述第一嵌入向量和所述记忆数据包含的键值对的键转换的向量确定相关度，再根据所述相关度和所述键对应的值转换的向量确定记忆向量。所述记忆数据与所述第一嵌入向量的相关度可以通过神经网络记忆模型计算，例如：端到端记忆模型(end-to-end memory network)或键值对记忆模型。

步骤S200：根据第一预设矩阵和第一嵌入向量确定门控向量。

具体地，所述第一预设矩阵由所述神经网络的信息转换为第一嵌入向量过程中经过的嵌入层设定。通过计算第一预设矩阵与所述第一嵌入向量的内积确定门控向量，即所述门控向量的值为所述第一预设矩阵和第一嵌入向量点乘得到。例如当所述第一嵌入向量为U_k，所述第一预设矩阵为H时，所述门控向量为U_k·H。

步骤S300：根据第二预设矩阵和第一嵌入向量确定第一概率值。

具体地，所述第二矩阵由所述神经网络的信息转换为第一嵌入向量过程中经过的嵌入层设定。所述第一概率值用于表征所述第一嵌入向量被遗忘的概率，所述第一概率值根据西格玛函数确定，其中所述西格玛函数的输入根据所述第二预设矩阵和第一嵌入向量确定。

进一步地，所述西格玛函数的输入为第一嵌入向量与第二预设矩阵内积后的值与常数项的和。即所述西格玛函数的输入为所述第二预设矩阵和第一嵌入向量点乘得到后与常数项相加。例如当所述第一嵌入向量为U_k，第二预设矩阵为K，常数项为b，第一概率值为g时，所述计算第一概率值的公式如下：

g＝σ(U_k·K+b)

步骤S400：根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量。

具体地，所述记忆向量、门控向量和第一概率值分别由上述步骤S100-S300确定，所述第二概率值根据所述第一概率值确定。所述第二嵌入向量根据所述记忆向量与第二概率值的外积、所述门控向量与第一概率值的外积以及所述第一嵌入向量和预设参数的外积确定。其中所述第一概率值和第二概率值的和为1，即所述第二概率值用于表征所述第一嵌入向量被遗忘的概率。

进一步地，所述用于确定第二嵌入向量的函数如下：

U^k+1＝(U^kH)*g+O^k*(1-g)+U^k*λ

其中所述U^k+1为第二嵌入向量，所述U^k为第一嵌入向量，所述H为第一预设矩阵，所述g为第一概率值，所述λ为预设参数。

本发明实施例通过在现有的神经网络中加入门控机制和跨层连接，延长了神经网络对输入信息的记忆时间，同时提高了回复信息的准确率和回复效率。

图4为本发明实施例一个可选方式的根据记忆数据与第一嵌入向量的相关度确定记忆向量的流程图，如图4所示，所述根据记忆数据与第一嵌入向量的相关度确定记忆向量的步骤如下：

步骤S110：根据归一化指数函数判断第一嵌入向量和所述记忆数据的相关度。

具体地，在本发明实施例的一个可选方式中，所述记忆数据与所述第一嵌入向量的相关度通过键值对记忆模型计算。所述键值对记忆模型包含用于寻址的键嵌入模块和用于计算的值嵌入模块。所述记忆数据包含多个键值对。所述第一嵌入向量输入键嵌入，对所述记忆数据进行相关度评分。具体而言，将所述第一嵌入向量和记忆数据中的键向量内积后的值作为归一化指数函数的输入，计算得出一个概率分布。其中的概率值大小就表明了第一嵌入向量和对应的记忆数据之间的相关度。例如当所述第一嵌入向量为U^k，所述记忆数据包含{(K₁,V₁),(K₂,V₂),(K₃,V₃)…(K_n，V_n)}时，所述相关度p_i的值通过如下公式计算：

p_i＝softmax(U^k·Aφ_K(K_i))

步骤S120：根据所述相关度的加权和确定、输出记忆向量。

具体地，通过所述值嵌入模块根据所述步骤S110中计算得出的相关度的加权和确定记忆向量。具体而言，其中每一个相关度的权重为与所述相关度对应键的值向量。例如当所述第一嵌入向量为U^k，所述记忆数据包含{(K₁,V₁),(K₂,V₂),(K₃,V₃)…(K_n，V_n)}时，所述记忆向量O^k通过如下公式计算：

O^k＝∑p_i·Aφ_V(V_i)

所述方法根据与输入的第一嵌入向量的相关程度获取输出的记忆向量，即输出第一嵌入向量所代表的问题数据的标准表达方式。例如：当输入的第一嵌入向量表示的问题为“今天天气怎么样？”时，输出的标准表达方式为“晴，27℃～30℃，东北风3级”，而不是“今天天气很好。”。

本实施例提供的方法通过键值对记忆模型计算得到记忆向量，在寻址阶段和计算阶段使用不同的向量，避免了寻址阶段丢失信息。

图5为本发明实施例的一种信息处理装置的示意图，如图5所示，所述信息处理装置包括第一计算模块51、第二计算模块52、第三计算模块53和第四计算模块54。

具体地，第一计算模块51用于根据记忆数据与第一嵌入向量的相关度确定记忆向量。第二计算模块52用于根据第一预设矩阵和第一嵌入向量确定门控向量。第三计算模块53用于根据第二预设矩阵和第一嵌入向量确定第一概率值，所述第一概率值用于表征所述第一嵌入向量被遗忘的概率。第四计算模块54用于根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量。

图6为本发明实施例的电子设备的示意图，如图6所示，在本实施例中，所述电子设备包括服务器、终端等。如图所示，所述电子设备包括：至少一个处理器62；与至少一个处理器通信连接的存储器61；以及与存储介质通信连接的通信组件63，通信组件63在处理器62的控制下接收和发送数据；其中，存储器61存储有可被至少一个处理器62执行的指令，指令被至少一个处理器62执行以实现上述实施例中的信息处理方法。

具体地，所述存储器61作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器62通过运行存储在存储器61中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述信息处理方法。

存储器61可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器61可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器61中，当被一个或者多个处理62执行时，执行上述任意方法实施例中的信息处理方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明还涉及一种计算机可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息处理方法，所述方法基于神经网络，其特征在于，包括：

根据记忆数据与第一嵌入向量的相关度确定记忆向量，以将所述第一嵌入向量表征的问题数据转换为标准表达方式；

根据第一预设矩阵和第一嵌入向量确定门控向量；

根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量，以对所述第一嵌入向量表征的问题数据进行记忆存储；

所述根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量包括：

根据所述记忆向量与第二概率值的外积、所述门控向量与第一概率值的外积以及所述第一嵌入向量和预设参数的外积确定第二嵌入向量，其中所述第一概率值和第二概率值的和为1。

2.如权利要求1所述的方法，其特征在于，所述根据记忆数据与第一嵌入向量的相关度确定记忆向量包括：

根据所述相关度的加权和确定、输出记忆向量。

3.如权利要求1所述的方法，其特征在于，所述根据第一预设矩阵和第一嵌入向量确定门控向量包括：

4.如权利要求1所述的方法，其特征在于，所述根据第二预设矩阵和第一嵌入向量确定第一概率值包括：

5.如权利要求4所述的方法，其特征在于，所述西格玛函数的输入为第一嵌入向量与第二预设矩阵内积后的值与常数项的和。

6.如权利要求1所述的方法，其特征在于，所述第二嵌入向量根据函数：U^k+1＝(U^kH)*g+O^k*(1-g)+U^k*λ确定，其中所述U^k+1为第二嵌入向量，所述U^k为第一嵌入向量，所述H为第一预设矩阵，所述g为第一概率值，所述λ为预设参数。

7.一种信息处理装置，所述装置基于神经网络，其特征在于，包括：

第一计算模块，用于根据记忆数据与第一嵌入向量的相关度确定记忆向量，以将所述第一嵌入向量表征的问题数据转换为标准表达方式；

第二计算模块，用于根据第一预设矩阵和第一嵌入向量确定门控向量；

第三计算模块，用于根据第二预设矩阵和第一嵌入向量确定第一概率值，所述第一概率值用于表征所述第一嵌入向量被遗忘的概率；

第四计算模块，用于根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量，以对所述第一嵌入向量表征的问题数据进行记忆存储；

其中，所述根据所述第一嵌入向量、记忆向量、门控向量和第一概率值确定第二嵌入向量包括：

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。