CN108962238A - 基于结构化神经网络的对话方法、系统、设备及存储介质 - Google Patents

基于结构化神经网络的对话方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN108962238A
CN108962238A CN201810569168.2A CN201810569168A CN108962238A CN 108962238 A CN108962238 A CN 108962238A CN 201810569168 A CN201810569168 A CN 201810569168A CN 108962238 A CN108962238 A CN 108962238A
Authority
CN
China
Prior art keywords
network node
dialogue
node
state
subdialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810569168.2A
Other languages
English (en)
Other versions
CN108962238B (zh
Inventor
俞凯
陈露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Publication of CN108962238A publication Critical patent/CN108962238A/zh
Application granted granted Critical
Publication of CN108962238B publication Critical patent/CN108962238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

本发明公开一种基于结构化神经网络的对话方法、系统、设备及存储介质,其中,所述方法包括:将接收到的置信对话状态分解成多个子对话状态;所述多个网络结点将所述多个子对话状态转化为对应的多个子对话状态向量;所述多个网络结点中的每一个网络结点分别根据所述多个子对话状态向量确定所述每个网络结点的输出值;根据所述每个网络结点的输出值确定对应于所述置信对话状态的对话动作。本发明由于采用了结构化的神经网络从而使得得到的神经网络对话策略能够更加高效的得到训练,并且仅需要少量的对话交互数据就能够训练得到性能达到较高水平的模型的效果。

Description

基于结构化神经网络的对话方法、系统、设备及存储介质
本发明要求在2018年04月25日提交中国专利局、申请号为201810378993.4、发明名称为“基于深度强化学习的对话策略的自适应方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于结构化神经网络的对话方法、系统、设备及存储介质。
背景技术
面向任务的口语对话系统(Spoken Dialogue System,SDS)是一种可以不断与人交互以完成预定义任务的系统,例如,找到一家餐馆或预订航班。对话管理(DM)是SDS的核心。它有两个任务:一个是跟踪对话状态,另一个是根据对话策略决定如何回复用户。在本发明中,我们重点关注对话策略。
对话策略可以简单地看作是从置信对话状态到对话动作的一套人工设定的规则。这被称为基于规则的策略。然而,在现实世界中,不可预测的用户行为,不可避免的自动语音识别以及口语理解错误使得难以准确地知道真实的对话状态并据此做出决策。因此,近年来,出现了统计对话管理的研究趋势。对此,一个比较好的理论框架是部分可观察的马尔可夫决策过程(POMDP)。在基于POMDP的框架下,在每轮对话中系统会估计出一个可能的状态分布-信念状态b。然后,强化学习(RL)方法自动优化策略π,即,从置信状态b到对话动作的a=π(b)的映射函数。最初,一般采用线性的基于RL的模型,例如,最小二乘策略迭代(LSPI)和自然行动者-评论家(NAC)算法。但是,这些线性模型的表达能力较差,并且受到训练慢的困扰。最近,非参数算法被提出,例如,可以从最少数量的对话中优化策略的高斯过程强化学习(GPRL)。但是,GPRL的计算成本随着数据量的增加而增加。因此,GPRL是否可以扩展以支持大规模的商业应用是值得商榷的。
最近,对话策略采用了深度强化学习(DRL)方法来优化。这些策略通常由全连接的深度神经网络来表示,包括深度Q网络算法(Deep-Q-Networks,DQN)、优势行动者-评论家算法(Advantage Actor-Critic,A2C)。基于DRL的模型往往更具更强的表达能力和更好的计算效率。但是,这些深层模型对于SDS输入模块的错误不鲁棒并且训练不是很高效。因此,最近这方面的进展的重点在于设计改进的RL算法以提高采样效率。
发明人在实现本发明的过程中发现,由于传统对话策略直接用全连接的神经网络表示,没有引入对话任务中特有的结构化信息,训练算法(DQN,A2C)过于简单。因此,训练效率低下,即需要大量的对话交互数据训练才能使模型的性能达到比较好的水平。
发明内容
本发明实施例提供一种基于结构化神经网络的对话方法、系统、设备及存储介质,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种基于结构化神经网络的对话方法,所述结构化神经网络包括多个网络结点,所述方法包括:
将接收到的置信对话状态分解成多个子对话状态;
所述多个网络结点将所述多个子对话状态转化为对应的多个子对话状态向量;
所述多个网络结点中的每一个网络结点分别根据所述多个子对话状态向量确定所述每个网络结点的输出值;
根据所述每个网络结点的输出值确定对应于所述置信对话状态的对话动作。
第二方面,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项基于结构化神经网络的对话方法。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项基于结构化神经网络的对话方法。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项基于结构化神经网络的对话方法。
本发明实施例的有益效果在于:本发明由于采用了结构化的神经网络从而使得得到的神经网络对话策略能够更加高效的得到训练,并且仅需要少量的对话交互数据就能够训练得到性能达到较高水平的模型的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中语义槽无关的结点和语义槽相关的结点所构成的有向图;
图2为本发明的基于结构化神经网络的对话方法的一实施例的流程图;
图3为本发明中的结构化神经网络的结构示意图;
图4本发明的基于结构化神经网络的对话方法的另一实施例的流程图;
图5为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最近,深度强化学习(Deep Reinforcement Learning,DRL)已用于对话策略优化。但是,许多基于DRL的策略的训练并不是很高效,即需要非常多的训练数据才能训练出一个性能比较好的策略。最近的进展集中在改进DRL优化算法以解决这个问题。本发明中,我们从一种全新的角度来解决这个问题,提出了一种结构化的强化学习方法,即设计了一种结构化的神经网络来表示对话策略,能够显著加速策略的优化。所提出的结构化深度强化学习是基于图形结构化神经网络(GNN)的,其由一些子网络组成,每个子网络对应于一个有向图上的结点。该图是根据领域本体定义的,每个结点可以被视为一个子智能体。在决策过程中,这些子智能体在图上的邻居之间进行内部消息交换。
在本发明中,我们设计了更适合对话策略的结构化神经网络架构。这种方法的好处是,新的网络可以很容易地与大多数现有的DRL方法相结合,从而实现结构化深度强化学习。
本文本发明的主要贡献有三个:(1)提出了基于GNN的结构化对话策略。(2)引入了一种新的方法来优化图结构和GNN的参数。(3)提出的框架在PyDial基准测试上取得目前最好的结果。
本领域技术人员往往通过改进训练算法来提升训练效率,包括改变损失函数、改进参数更新方法,例如,用自然梯度下降法替代随机梯度下降法等。这些都主要集中在改进算法方面,究其原因在于强化学习算法已经在游戏、机器人控制等方面得到广泛应用,这些领域里的很多算法改进可以借鉴。
与传统的优化算法的方法不同,申请人的方法并不是通过改进强化学习训练算法,而是用一种结构化的神经网络来代替传统的全连接神经网络,并称这样表示的对话策略为结构化对话策略(SDP,Structured Dialogue Policy)。SDP的训练算法可以用之前的各种算法,包括各种改进的强化学习算法。
本发明提出的SDP和传统的对话策略的输出和输入都是一样的,输入都是置信对话状态b,输出的具体形式和训练算法有关,例如,如果训练算法是深度强化学习,则输出是每个可能回复动作的Q值,如果训练算法是优势行动者-评论家(Advantage Actor Critic,A2C),则输出是每个可能回复动作的概率。
在计算时,从SDP接收到置信对话状态b到得到最终输出的整个计算过程,SDP是基于置信对话状态和对话动作空间的结构化分解。
一般地,置信对话状态b和对话动作集合A都可以分解成语义槽(slot)相关和语义槽无关的两大部分,语义槽相关的部分可以进一步分解到每个具体的语义槽上。具体地,置信状态b可以分解成其中,b0是置信对话状态中与语义槽无关的部分,bi是置信状态中与第i个语义槽相关的部分;可能的对话动作集合A可以分解成A0是可能的对话动作中与语义槽无关的对话动作的集合,Ai是可能的对话动作中与第i个语义槽相关的对话动作的集合。
对话策略的输出一般是一个摘要动作。类似地,摘要动作可以被分成n+1个动作集合,其中包括n个与语义槽相关的动作集合Aj(1≤j≤n),例如,请求语义槽j的值,确认语义槽j的值,选择语义槽j的值,以及一个语义槽无关的动作集A0,例如,重复,通知,请求,再见,重新开始。
以前基于DRL的策略大多没有利用置信对话状态和动作集合的结构。最近这些进展的重点在于设计改进的RL算法。在这里,本发明采取一种替代但互补的方式,主要关注设计更适合对话的结构化神经网络架构。这种方法的好处是,新网络可以很容易地与现有和未来的RL算法相结合。也就是说,本发明提出了一个新的网络,但使用已发布的算法。在本发明中,采用深Q网络(DQN)训练算法。
如图1所示,在上述结构化分解的基础上,可以构建一个有向图,其中,图中有两种类型的结点:语义槽无关的I结点(结点0)和语义槽相关的S结点(结点1~4)。图中的边也有不同的类型,只有两条边的起始点和终点类型都相同时,边的类型才相同,例如,图中有3种类型的边,该图的结构可以人为根据领域知识设置,也可以直接设置为一个全连接的图。
如图2所示,为本发明的基于结构化神经网络的对话方法的一实施例的流程图,所述结构化神经网络包括多个网络结点,所述方法包括:
S11、将接收到的置信对话状态分解成多个子对话状态;
S12、所述多个网络结点将所述多个子对话状态转化为对应的多个子对话状态向量;
S13、所述多个网络结点中的每一个网络结点分别根据所述多个子对话状态向量确定所述每个网络结点的输出值;
S14、根据所述每个网络结点的输出值确定对应于所述置信对话状态的对话动作。
本发明实施例通过将结构化神经网络应用于对话方法,将置信对话状态分解成多个子对话状态实现了对话方法与结构化神经网络的结合,从而引入了对话任务中特有的结构化信息,避免了传统对话策略直接用全连接神经网络表示而导致的训练效率低下的缺陷。
在一些实施例中,所述多个网络结点包括一个语义槽无关结点和n个语义槽相关结点,所述多个子对话状态包括一个语义槽无关状态和n个语义槽相关状态;
所述多个网络结点中的每个网络结点分别根据所述多个子对话状态向量确定所述每个网络结点的输出值包括:
每个网络结点接收其它n个网络结点所发送的信息并进行聚合;
每个网络结点根据所接收到的信息和本网络结点的子对话状态向量确定本网络结点的输出值。
本发明实施例中,各个网络结点之间可以共享参数,从而使得本发明实施例中的结构化神经网络在训练时只需要使用较少的对话数据就能够训练出性能较高的基于结构化神经网络对话策略。并且,可以将一个领域中训练的基于结构化神经网络对话策略快速的迁移到另一个领域中,并进行适应性训练即可,更进一步地,本发明实施例显著提升了对话策略的学习速度,而且有利于对话策略的自适应。
本发明实施例中,采用深度Q网络(DQN)作为DRL训练算法,它将置信状态b映射到在该状态下可能动作a的值Q(b,a;θ),其中θ是神经网络的权向量。对值函数用神经网络进行近似已经进行了长期的研究,然而,这些方法以前相当不稳定。在DQN中,提出了两种技术来克服这种不稳定性,即经验回放和使用目标网络。
在每一轮对话中,由先前置信状态b、先前动作a、相应奖励r和当前状态b′组成的样本τ被存入经验池D中。一旦经验池中的样本数达到其最大容量,最旧的样本将被删除。在训练期间,从经验池中均匀采样一小批样本,即这种方法消除了相邻对话样本之间的强相关性所引起的不稳定性。另外,使用具有权重向量θ的目标网络,这个目标网络与Q网络类似,只不过它的权重只能从Q网络每K步复制一次,并在所有其他步骤中保持不变。Q网络在每次迭代中的损失函数采用以下形式:
其中y=r+γmaxa′Qθ(b′,a′)和γ∈[0,1]是折扣因子。
现有技术采用全连接的深度神经网络来实现Q网络。本发明提出了一种基于结构化神经网络的Q网络的新网络体系结构。
我们提出的结构化神经网络是基于图神经网络(GNN)的,在深入介绍GNN的细节之前,首先介绍相关符号,用结点vi(0≤i≤n)∈V和有向边eij∈E表示图结构为G=(V,E)。Nin(vi)表示结点vi的入度邻居结点,Nout(vi)表示结点vi的出度邻居结点。Z是G的邻接矩阵.当且仅当存在从第i个结点vi到第j个结点vj有向边时,Z的元素zij等于1,否则zij是0。每个结点vi具有对应的结点类型ci。类似地,每个边eij具有边的类型ue,其由结点类型ci和结点类型cj确定,即,当且仅当它们的开始结点类型和它们的结束结点类型都相同时,两个边具有相同类型。在对话策略中,一般有两种类型结点:S结点和I结点,分别表示语义槽相关的结点和语义槽无关的结点。
如图3所示,本发明的结构化神经网络由三个模块组成:输入模块,通信模块和输出模块;图4为基于结构化神经网络的对话方法的流程图;结合图3和图4对本发明的实施例进行详细描述如下:
步骤1:在对话的每一轮,SDP接收对话状态b,将b分解成子状态b0,b1,…,bn
步骤2:在输入模块中,每个结点vi接收一个对应的子状态bi,并将其转化为一个向量表示
其中,是一个对应结点类型ci的函数,在实际中这个函数可以是一个多层感知机(multi-layer perceptron,MLP),相同类型的结点共享同样的参数。
通常,不同的语义槽具有不同数量的候选值,因此两个S结点的输入的维度是不同的。然而,在实践中,对于对话策略来说,每个语义槽的置信度最大的K个值起着更重要的作用。因此,每个语义槽的整个置信状态通常通过排序的最高K个概率来近似。
步骤3:在通信模块中,每个结点vi作为初始输入,不断根据下面三个子步骤进行更新,把状态从更新到
子步骤3.1:(发送消息)每个结点vi向它的所有出度邻居结点vj发送消息
其中,ue是代表vi到vi的有向边的类型,是一个对应边类型ue的函数,即相同的边类型共享同样的函数。的一个实例可以是简单的线性变换,
其中,矩阵是可优化参数。
子步骤3.2:(接收消息)在图中所有结点都发送消息给其邻居后,每个结点vi将邻居发过来的消息聚集起来,得到合并的消息本发明中,我们提出两种通信方式:
Mean-Comm:在实际中,一个简单的消息聚集方式可以将所有邻居发过来的消息进行平均,即
Attention-Comm:在实践中,某些信息比其他信息更重要。受机器翻译的自我关注模型的启发,在这里我们首先在一个统一空间中计算两个状态的相似性,即
然后用softmax标准化它:
子步骤3.3:(更新状态)在每个结点将邻居发过来的消息进行聚集后,则根据聚集后的消息,将状态从更新到
其中,是一个对应结点类型ci的更新函数。这个函数的实例可以是一个非线性层:
其中,σ是一个激活函数,比如ReLU,是可有优化的参数。
上述步骤可以重复L次,得到每个结点对应的的状态
步骤4:在输出模块中,每个结点将作为输入,各自独立结点对应的可能的动作的输出值(即向量qi的每一维对应集合Ai中的一个动作):
其中,oi是结点vi对应的输出函数。其实例可以是MLP。
步骤5:如果训练算法采用的是深度Q网络(DQN),则将步骤4中每个结点的输出qi联结起来作为最终输出;如果训练算法是策略梯度算法,则先将步骤4中每个结点的输出qi联结起来,然后利用软最大化(softmax)进行归一化作为最终输出。
步骤6:根据步骤5中的最终输出选择对话动作,选择动作的方法和传统的基于深度强化学习的对话策略选择对话动作的方式相同。
需要请注意的是,在输入模块和通信模块中,相同类型的结点共享参数,这能够加快学习过程。但是,在输出模块中,为了捕获每个结点的特定特征,它们不共享参数。
在上述实施例中,假设图G的结构,即邻接矩阵Z是已知的。但是,通常在实践中图的结构是未知的,并且假设的结构不能保证是最佳的。因此,最好能够将图的结构和GNN的参数一起进行优化。本发明实施例中假设Z是一个潜变量,并遵循分解的伯努利分布,即每个元素 Z的精确后验分布很难推断,可以通过变分推理得到近似后验等式(1)中的损失函数将被重新表述如下:
其中,p(Z)是先验的,并且也遵循分解的伯努利分布。
如方程所示,损失函数由两个项组成。对应于模型拟合当前数据集的误差损失,而指衡量模型灵活性的复杂度损失。对于均匀的伯努利先验分布,可以写为:
使和先验值之间的KL散度最小化相当于以概率最大化伯努利随机变量的熵,这将使概率趋向0.5。
虽然直接可以利用剃度下降进行优化,但由于Z的离散性质,不能够进行有效的基于梯度的优化。为了获得Q值Qθ(b,a;Z),我们首先需要根据具有参数的分解伯努利分布对离散图结构Z进行采样。因此,损失函数是对不可微。虽然原则上可以使用REINFORCE等分数函数估计器,但它在实践中存在很大的方差。另一种方法是将离散的伯努利分布替换为放松的连续分布,即具体分布(Concrete distribution)。本发明中,不是从离散伯努利分布中随机采样,而是从以下具有一定温度t的具体分布中采样实现:
其中∈ij是从均匀分布采样的噪声,即∈ij~U(0;1)。集中分布将大部分质量集中在区间0和1的边界上。有了伯努利随机变量zij的放松的连续损失函数将被重新参数化如下:
其中,∈ij表示每个都是从均匀分布中独立采样的。的每个元素zij用公式(4)计算。请注意,尽管采样仍然存在,但采样的噪声与参数无关。因此,损失函数是对可微,并且可以直接将其最小化。
注意,根据等式(4)进行采样的过程大致相当于根据概率对每个结点vi的邻居进行采样。它是随机丢弃(Dropout)的一个变种,并在自我注意力模型和图形卷积网络中采用。
基于本发明上述实施例中的基于结构化神经网络的对对话策略,发明人进行了以下实验:
对话管理研究通常在一小组环境中进行评估。最近,剑桥大学对话组发布了一套统一的模拟对话管理环境,它可以测试模型在不同环境中的能力。这些环境在公开的工具包PyDial中实现。通过为所有对话系统模块、用户模拟器和错误模拟模型提供与领域无关的实现,PyDial创建了一组基准测试环境,可以在相同条件下比较不同模型。这个基准环境共包括18个任务,不同任务之间主要来自4个方面的不同。
首先,有三个不同的领域:剑桥(CR)和旧金山(SFR)餐厅的信息搜寻任务和笔记本电脑(LAP)的一般购物任务。它们是基于语义槽的,这意味着对话状态被分解为语义槽。
其次,不同任务之间的语义错误率(semantic error rate,SER)可能不同,用以模拟语音识别和理解模块中的不同噪声水平。
另外,有两种不同的用户。任务env.5的用户模型被定义为不友好的用户,他几乎不向系统提供任何额外信息,而其他任务中的都是正常的用户。
最后,为了测试模型的学习能力,在两个任务env2和env4中没有动作掩码机制,即没有将当前状态下不合法的动作中过滤掉。
我们用对话平均成功率和平均奖励作为衡量指标。成功率定义为成功完成对话的百分比。奖励定义为20×1(D)-T,这里1(D)表示对话如果成功则为1,否则为0,T是对话长度。
我们评估了我们提出的基于结构化DRL的对话策略的四个变体:
·GNN-M:基于GNN的对话策略,具有全连接的图结构。结点之间的通信方法是Mean-Comm。
·GNN-M-C:与GNN-M类似,不同之处在于其图结构和GNN参数共同优化的,等式(5)中的超参数λ是4×10-4
·GNN-A:基于GNN的对话策略,具有全连接的图结构。结点之间的通信方法是Attention-Comm。
·GNN-A-C:与GNN-A类似,但是图结构是与GNN的参数是共同优化的,等式(5)中的超参数λ是4×10-4
这些模型与提出的三个基线进行比较:GP-Sarsa,DQN和eNAC。表1显示了1000/4000次训练对话后18个任务的结果。对于每项任务,结果是10个不同随机种子的平均值。
表1:用1000/4000个对话训练后的奖励和成功率对比表,其中粗斜体结果对应最好的成功率,黑粗体结果对应最好的奖励。
我们可以发现,我们的模型几乎可以在所有任务中取得最佳性能。在两个较复杂的领域(SFR,LAP),性能提升更为明显。对于我们的四个模型,它们的性能没有显着差异,这表明我们提出的框架对这些变体不敏感。但是,通过对这些结果的进一步分析,可以观察到一些有趣的现象。
经过1000次训练对话后,平均而言,两种模式(GNN-A和GNN-A-C)分别实现最佳回报和最佳成功率。这表明,注意力交流可能有利于早期学习阶段的样本效率。潜在的原因是,带有Attention-Comm的模型可以快速调整参数,以更多地关注最重要的消息。
有趣的是观察到两个具有图结构优化的模型比另两个模型(GNN-M-C对GNN-M,GNN-A-C对GNN-A)获得更好的成功率。随机丢弃在神经网络中引入了一些噪音,可以提高DRL的探索。在这里,GNN-A-C和GNN-M-C也做了更多的探索,导致长时间的对话,有更多的成功潜力。
表1:用1000/4000个对话训练后的奖励和成功率对比表
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项基于结构化神经网络的对话方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项基于结构化神经网络的对话方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行基于结构化神经网络的对话方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行基于结构化神经网络的对话方法。
如图5所示,为本申请另一实施例提供的执行基于结构化神经网络的对话方法的电子设备的硬件结构示意图,如图5所示,该设备包括:
一个或多个处理器510以及存储器520,图5中以一个处理器510为例。
执行基于结构化神经网络的对话方法的设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的基于结构化神经网络的对话方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于结构化神经网络的对话方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于结构化神经网络的对话装置的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至基于结构化神经网络的对话装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与基于结构化神经网络的对话装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的基于结构化神经网络的对话方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于结构化神经网络的对话方法,所述结构化神经网络包括多个网络结点,所述方法包括:
将接收到的置信对话状态分解成多个子对话状态;
所述多个网络结点将所述多个子对话状态转化为对应的多个子对话状态向量;
所述多个网络结点中的每一个网络结点分别根据所述多个子对话状态向量确定所述每个网络结点的输出值;
根据所述每个网络结点的输出值确定对应于所述置信对话状态的对话动作。
2.根据权利要求1所述的方法,其中,所述多个网络结点包括一个语义槽无关结点和n个语义槽相关结点,所述多个子对话状态包括一个语义槽无关状态和n个语义槽相关状态;
所述多个网络结点中的每个网络结点分别根据所述多个子对话状态向量确定所述每个网络结点的输出值包括:
每个网络结点接收其它n个网络结点所发送的信息并进行聚合;
每个网络结点根据所接收到的信息和本网络结点的子对话状态向量确定本网络结点的输出值。
3.根据权利要求2所述的方法,其中,所述每个网络结点根据所接收到的信息和本网络结点的子对话状态向量确定本网络结点的输出值包括:
每个网络结点vi向其它n个网络结点vi发送消息其中,ue是代表一个网络结点到另一个网络结点的有向边的类型,是一个对应边类型ue的函数,即相同的边类型共享同样的函数;
每个网络结点vi将其它n个网络结点vj发过来的消息聚集起来,得到合并的消息
根据所述合并的消息和每个网络结点vi的状态从更新到
其中,是一个对应网络结点类型ci的更新函数;
每个网络结点vi为初始状态,重复上述步骤L次,得到每个网络结点的输出值
4.根据权利要求3所述的方法,其中,所述网络结点类型ci的更新函数为一非线性层:
其中,σ是一个激活函数,是可有优化的参数。
5.根据权利要求2-4中任一项所述的方法,其中,
当所述结构化神经网络的训练所采用的是深度Q网络算法时,所述每个网络结点的输出值为对应的可能的对话动作的预测的回报值;
所述根据所述每个网络结点的输出值确定对应于所述置信对话状态的对话动作包括:
确定所述每个网络结点的输出值中的最大输出值所对应可能的对话动作为目标对话动作。
6.根据权利要求5所述的方法,其中,所述对应边类型ue的函数为一线性函数:
其中,矩阵是可优化参数。
7.根据权利要求5所述的方法,其中,所述合并的消息为接收自其它n个网络结点的信息之和的平均值。
8.一种对话系统,采用权利要求1-7中任一项所述基于结构化神经网络的对话方法。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN201810569168.2A 2018-04-25 2018-06-05 基于结构化神经网络的对话方法、系统、设备及存储介质 Active CN108962238B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018103789934 2018-04-25
CN201810378993 2018-04-25

Publications (2)

Publication Number Publication Date
CN108962238A true CN108962238A (zh) 2018-12-07
CN108962238B CN108962238B (zh) 2020-08-07

Family

ID=64144002

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810569168.2A Active CN108962238B (zh) 2018-04-25 2018-06-05 基于结构化神经网络的对话方法、系统、设备及存储介质
CN201810570550.5A Pending CN108829797A (zh) 2018-04-25 2018-06-05 多智能体对话策略系统构建方法及自适应方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201810570550.5A Pending CN108829797A (zh) 2018-04-25 2018-06-05 多智能体对话策略系统构建方法及自适应方法

Country Status (1)

Country Link
CN (2) CN108962238B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263332A (zh) * 2019-05-28 2019-09-20 华东师范大学 一种基于神经网络的自然语言关系抽取方法
CN110443355A (zh) * 2019-08-06 2019-11-12 苏州思必驰信息科技有限公司 应用于复合对话任务的对话方法及系统
CN110751269A (zh) * 2019-10-18 2020-02-04 网易(杭州)网络有限公司 图神经网络训练方法、客户端设备及系统
CN110751275A (zh) * 2019-08-03 2020-02-04 北京达佳互联信息技术有限公司 图训练系统、数据访问方法及装置、电子设备、存储介质
CN111047917A (zh) * 2019-12-18 2020-04-21 四川大学 一种基于改进dqn算法的航班着陆调度方法
CN111400489A (zh) * 2020-04-08 2020-07-10 科大讯飞股份有限公司 对话文本摘要生成方法、装置、电子设备和存储介质
CN111488400A (zh) * 2019-04-28 2020-08-04 北京京东尚科信息技术有限公司 数据分类方法、装置和计算机可读存储介质
CN113392956A (zh) * 2021-05-17 2021-09-14 南湖实验室 用于对话策略学习的基于GP的深度Dyna-Q方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382237B (zh) * 2018-12-27 2024-02-06 北京搜狗科技发展有限公司 一种数据处理方法、装置及任务对话系统
CN110046221B (zh) * 2019-03-01 2023-12-22 平安科技(深圳)有限公司 一种机器对话方法、装置、计算机设备及存储介质
CN110096583B (zh) * 2019-05-09 2021-05-14 思必驰科技股份有限公司 多领域对话管理系统及其构建方法
CN110084323B (zh) * 2019-05-09 2021-04-06 苏州思必驰信息科技有限公司 端到端语义解析系统及训练方法
CN110211572B (zh) * 2019-05-14 2021-12-10 北京来也网络科技有限公司 基于强化学习的对话控制方法及装置
CN111198966B (zh) * 2019-12-22 2023-09-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN112307778B (zh) * 2020-11-17 2023-11-24 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN113592079A (zh) * 2021-08-13 2021-11-02 大连大学 一种面向大规模任务空间的协同多智能体通信方法
CN113704425A (zh) * 2021-08-27 2021-11-26 广东电力信息科技有限公司 一种结合知识增强和深度强化学习的对话策略优化方法
CN114449482A (zh) * 2022-03-11 2022-05-06 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788593A (zh) * 2016-02-29 2016-07-20 中国科学院声学研究所 生成对话策略的方法及系统
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
CN106558309A (zh) * 2015-09-28 2017-04-05 中国科学院声学研究所 一种口语对话策略生成方法及口语对话方法
WO2017083504A1 (en) * 2015-11-12 2017-05-18 Semantic Machines, Inc. Interaction assistant
KR20170090127A (ko) * 2016-01-28 2017-08-07 한국전자통신연구원 음성 언어 이해 장치
CN107342078A (zh) * 2017-06-23 2017-11-10 上海交通大学 对话策略优化的冷启动系统和方法
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
US20170345413A1 (en) * 2009-07-13 2017-11-30 Nuance Communications, Inc. System and method for generating manually designed and automatically optimized spoken dialog systems

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012030838A1 (en) * 2010-08-30 2012-03-08 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN105845137B (zh) * 2016-03-18 2019-08-23 中国科学院声学研究所 一种语音对话管理系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170345413A1 (en) * 2009-07-13 2017-11-30 Nuance Communications, Inc. System and method for generating manually designed and automatically optimized spoken dialog systems
CN106558309A (zh) * 2015-09-28 2017-04-05 中国科学院声学研究所 一种口语对话策略生成方法及口语对话方法
WO2017083504A1 (en) * 2015-11-12 2017-05-18 Semantic Machines, Inc. Interaction assistant
KR20170090127A (ko) * 2016-01-28 2017-08-07 한국전자통신연구원 음성 언어 이해 장치
CN105788593A (zh) * 2016-02-29 2016-07-20 中国科学院声学研究所 生成对话策略的方法及系统
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
CN107342078A (zh) * 2017-06-23 2017-11-10 上海交通大学 对话策略优化的冷启动系统和方法
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KAI YU等: "Constrained Markov Bayesian Polynomial for Efficient Dialogue State Tracking", 《IEEE/ACM TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 *
俞凯等: "任务型人机对话系统中的认知技术—概念、进展及其未来", 《计算机学报》 *
徐梓翔: "任务型对话系统平台的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
熊红凯等: "可解释化、结构化、多模态化的深度神经网络", 《模式识别与人工智能》 *
车万翔等: "人机对话系统综述", 《人工智能》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488400A (zh) * 2019-04-28 2020-08-04 北京京东尚科信息技术有限公司 数据分类方法、装置和计算机可读存储介质
CN110263332A (zh) * 2019-05-28 2019-09-20 华东师范大学 一种基于神经网络的自然语言关系抽取方法
CN110751275A (zh) * 2019-08-03 2020-02-04 北京达佳互联信息技术有限公司 图训练系统、数据访问方法及装置、电子设备、存储介质
CN110751275B (zh) * 2019-08-03 2022-09-02 北京达佳互联信息技术有限公司 图训练系统、数据访问方法及装置、电子设备、存储介质
CN110443355A (zh) * 2019-08-06 2019-11-12 苏州思必驰信息科技有限公司 应用于复合对话任务的对话方法及系统
CN110443355B (zh) * 2019-08-06 2021-11-16 思必驰科技股份有限公司 应用于复合对话任务的对话方法及系统
CN110751269A (zh) * 2019-10-18 2020-02-04 网易(杭州)网络有限公司 图神经网络训练方法、客户端设备及系统
CN111047917A (zh) * 2019-12-18 2020-04-21 四川大学 一种基于改进dqn算法的航班着陆调度方法
CN111400489A (zh) * 2020-04-08 2020-07-10 科大讯飞股份有限公司 对话文本摘要生成方法、装置、电子设备和存储介质
CN111400489B (zh) * 2020-04-08 2022-12-02 科大讯飞股份有限公司 对话文本摘要生成方法、装置、电子设备和存储介质
CN113392956A (zh) * 2021-05-17 2021-09-14 南湖实验室 用于对话策略学习的基于GP的深度Dyna-Q方法
CN113392956B (zh) * 2021-05-17 2022-02-11 南湖实验室 用于对话策略学习的基于GP的深度Dyna-Q方法

Also Published As

Publication number Publication date
CN108962238B (zh) 2020-08-07
CN108829797A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108962238A (zh) 基于结构化神经网络的对话方法、系统、设备及存储介质
Lipton et al. Bbq-networks: Efficient exploration in deep reinforcement learning for task-oriented dialogue systems
TWI698830B (zh) 機器人客服轉人工客服的方法和裝置及其電腦設備與電腦可讀儲存媒體
US8775332B1 (en) Adaptive user interfaces
US8788439B2 (en) Instance weighted learning machine learning model
Wang et al. Adaptive and large-scale service composition based on deep reinforcement learning
Wu et al. A context-aware multiarmed bandit incentive mechanism for mobile crowd sensing systems
CN102075352B (zh) 一种网络用户行为预测的方法和装置
CN109460463A (zh) 基于数据处理的模型训练方法、装置、终端及存储介质
CN110245301A (zh) 一种推荐方法、装置及存储介质
Chen et al. Agentgraph: Toward universal dialogue management with structured deep reinforcement learning
CN108763495B (zh) 人机对话方法、系统、电子设备及存储介质
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
Yang et al. Building a cross-sectoral interorganizational network to advance nonprofits: NGO incubators as relationship brokers in China
van Maanen et al. An agent-based approach to modeling online social influence
CN109472030A (zh) 一种系统回复质量的评价方法及装置
CN109925718A (zh) 一种分发游戏微端地图的系统及方法
CN110472798A (zh) 时间序列数据的预测方法、装置及计算机可读存储介质
CN110443355B (zh) 应用于复合对话任务的对话方法及系统
Liu et al. Deep generative model and its applications in efficient wireless network management: A tutorial and case study
CN112541570A (zh) 一种多模型训练方法、装置、电子设备及存储介质
Hou et al. A corpus-free state2seq user simulator for task-oriented dialogue
Mooney et al. Rethinking npc intelligence: a new reputation system
Efstathiou et al. Efficient multi-objective optimisation of service compositions in mobile ad hoc networks using lightweight surrogate models
Chien et al. Stochastic curiosity maximizing exploration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Co.,Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

Applicant before: SHANGHAI JIAO TONG University

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201027

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Dialogue methods, systems, devices, and storage media based on structured neural networks

Effective date of registration: 20230726

Granted publication date: 20200807

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433