CN113111190A - 一种知识驱动的对话生成方法及装置 - Google Patents

一种知识驱动的对话生成方法及装置 Download PDF

Info

Publication number
CN113111190A
CN113111190A CN202110413536.6A CN202110413536A CN113111190A CN 113111190 A CN113111190 A CN 113111190A CN 202110413536 A CN202110413536 A CN 202110413536A CN 113111190 A CN113111190 A CN 113111190A
Authority
CN
China
Prior art keywords
entity
replied
text
knowledge
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110413536.6A
Other languages
English (en)
Inventor
黄民烈
周昊
朱小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110413536.6A priority Critical patent/CN113111190A/zh
Publication of CN113111190A publication Critical patent/CN113111190A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种知识驱动的对话生成方法及装置,包括:将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。通过本发明的方法,根据待回复文本中的非结构化信息和知识图谱的结构化信息,基于训练好的深度神经网络对话模型,计算出知识图谱中的实体表示,可以更高效地应用知识图谱来生成具有恰当语义和丰富信息量的对话回复。

Description

一种知识驱动的对话生成方法及装置
技术领域
本发明涉及自然语言处理领域,尤其涉及一种知识驱动的对话生成方法及装置。
背景技术
随着社会的飞速发展,现今已经进入信息爆炸时代,人们对于高效的信息处理方式有着更迫切的追求,其中,对话系统受到了越来越多的研究者、厂商和用户的关注,产生了Siri,Google Assistant,小爱同学等对话系统。在对话系统的研究方面,一直以来,生成具有恰当语义和丰富信息量的对话回复,对构造一个成功的拟人化对话系统来说是至关重要的。
由于知识图谱描述了世界上实体和实体之间的关系,蕴含的知识数量非常巨大。为了生成具有恰当语义和丰富信息量的对话回复,一些研究工作尝试将知识图谱引入到对话生成过程中,这类工作被称之为知识驱动的对话模型。然而,这些研究工作都是采用预先训练好的知识嵌入表示、词向量表示或邻接矩阵来对知识图谱中的实体和关系进行建模,这样的方式使得它们不再适用于将大规模的知识图谱融入到对话生成中。
因此,如何更好地实现知识驱动的对话系统,已成为业界关注的研究重点。
发明内容
本发明提供一种知识驱动的对话生成方法及装置,用以更好地实现知识驱动的对话系统。
本发明提供一种知识驱动的对话生成方法,包括:
将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;
其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;
其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
根据本发明提供的一种知识驱动的对话生成方法,在所述将待回复文本序列输入训练好的深度神经网路对话模型的步骤之前,所述方法还包括:
将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示;
根据所述待回复文本样本序列中的头实体,得到所述头实体对应的知识图谱,以从储存的知识图谱实体关系的特征表示数据集中,确定出所述头实体的实体关系特征表示;
将所述待回复文本样本序列的隐式特征表示和所述头实体的实体关系特征表示,输入所述深度神经网路对话模型的知识解释器,得到所述头实体的特征表示和所述头实体对应的尾实体特征表示;
将所述头实体的特征表示、所述头实体对应的尾实体特征表示和预存的词表中通用词的特征表示,输入所述深度神经网路对话模型的解码器,得到所述待回复文本样本序列的回复文本序列。
根据本发明提供的一种知识驱动的对话生成方法,所述将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示的步骤,具体包括:
将占位符替换所述待回复文本样本序列中的头实体,得到去词汇化处理的待回复文本样本序列;
根据所述去词汇化处理的待回复文本样本序列,得到所述待回复文本样本序列的隐式特征表示。
根据本发明提供的一种知识驱动的对话生成方法,所述将所述待回复文本样本序列的隐式特征表示和所述头实体的实体关系特征表示,输入所述深度神经网路对话模型的知识解释器,得到所述头实体的特征表示和所述头实体对应的尾实体特征表示的步骤,具体包括:
根据所述待回复文本样本序列的隐式特征表示,得到所述头实体的特征表示;
根据所述头实体的特征表示和所述头实体的实体关系特征表示,得到所述头实体对应的尾实体特征表示。
根据本发明提供的一种知识驱动的对话生成方法,在所述将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示的步骤之后,所述方法还包括:
在根据所述待回复文本样本序列中的实体,检索不到所述实体对应的知识图谱的情况下,根据预存的知识图谱中任一实体的实体关系特征表示和所述待回复文本样本序列的隐式特征表示,得到所述任一实体的第一特征表示;
根据所述任一实体的第一特征表示,得到所述任一实体的第二特征表示;
将所述任一实体的第一特征表示、所述任一实体的第二特征表示和预存的词表中通用词的特征表示,输入所述深度神经网路对话模型的解码器,得到所述待回复文本样本序列的回复文本序列。
根据本发明提供的一种知识驱动的对话生成方法,在所述将待回复文本序列输入训练好的深度神经网路对话模型的步骤之前,所述方法还包括:
将待回复文本样本序列和所述待回复文本样本序列携带的真实回复文本序列标签作为一组对话训练样本,获取多组对话训练样本;
利用所述多组对话训练样本,对深度神经网络对话模型进行训练。
根据本发明提供的一种知识驱动的对话生成方法,利用所述多组对话训练样本和储存的知识图谱实体关系的特征表示数据集,对深度神经网络对话模型进行训练的步骤,具体包括:
对于任意一组对话训练样本,将所述对话训练样本输入深度神经网络对话模型,输出所述对话训练样本对应的预测概率;
利用预设损失函数,根据所述对话训练样本对应的预测概率和所述对话训练样本中的真实回复文本序列标签计算损失值;
若所述损失值小于预设阈值,则所述深度神经网络对话模型训练完成。
本发明还提供一种知识驱动的对话生成装置,包括:
回复文本生成模块,用于将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;
其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;
其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识驱动的对话生成方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识驱动的对话生成方法的步骤。
本发明提供的一种知识驱动的对话生成方法及装置,根据待回复文本中的非结构化信息和知识图谱的结构化信息,基于训练好的深度神经网络对话模型,计算出知识图谱中的实体表示,可以更高效地应用知识图谱来生成具有恰当语义和丰富信息量的对话回复。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的知识驱动的对话生成方法的流程示意图;
图2是本发明实施例提供的知识驱动的对话模型整体框架示意图;
图3是本发明提供的知识驱动的对话生成装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的语音识别方法的流程示意图,如图1所示,包括:
步骤S1,将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;
其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;
其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
具体地,本发明所描述的待回复文本序列为用户端输入的需要进行回复的文本序列,其包括字符、数字、标点和各种符号等数据形式的非结构化信息。
本发明所描述的待回复文本的回复文本序列指的是待回复文本序列输入到本发明训练好的深度神经网路对话模型后所得到的对应的回复文本序列。
本发明所描述的特征表示指的是对知识图谱中实体和实体关系特征进行参数化表示。
本发明所描述的知识图谱实体关系的特征表示数据集指的是针对常用知识图谱结构化信息中的实体关系特征进行参数化表示而得到的数据集合。
在本发明的实施例中,知识图谱实体关系的特征表示数据集会预先存储在深度神经网路对话模型中,以便后续对该模型进行训练。
本发明所描述的训练好的深度神经网路对话模型是根据训练样本和知识图谱实体关系的特征表示数据集进行训练后得到的,用于对用户端输入的待回复文本序列进行识别,学习知识图谱中实体的泛化性表示,从而输出具有恰当语义和丰富信息量的回复文本序列。
其中,训练样本是由多组携带有真实回复文本序列标签的待回复文本样本序列组成的。
其中,本发明所描述的真实回复文本序列标签是根据待回复文本样本序列预先确定的,并与待回复文本样本序列是一一对应的。也就是说,训练样本中的每一个待回复文本样本序列,都预先设定好携带一个与之对应的回复文本序列作为真实标签。
通过本发明实施例的方法,根据待回复文本中的非结构化信息和知识图谱的结构化信息,基于训练好的深度神经网络对话模型,计算出知识图谱中的实体表示,可以更高效地应用知识图谱来生成具有恰当语义和丰富信息量的对话回复。
基于上述任一实施例,在所述将待回复文本序列输入训练好的深度神经网路对话模型的步骤之前,所述方法还包括:
将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示;
根据所述待回复文本样本序列中的头实体,得到所述头实体对应的知识图谱,以从储存的知识图谱实体关系的特征表示数据集中,确定出所述头实体的实体关系特征表示;
将所述待回复文本样本序列的隐式特征表示和所述头实体的实体关系特征表示,输入所述深度神经网路对话模型的知识解释器,得到所述头实体的特征表示和所述头实体对应的尾实体特征表示;
将所述头实体的特征表示、所述头实体对应的尾实体特征表示和预存的词表中通用词的特征表示,输入所述深度神经网路对话模型的解码器,得到所述待回复文本样本序列的回复文本序列。
具体地,本发明所描述的双向编码器可以根据待回复文本样本序列中知识实体的上下文内容对该知识实体进行上下文两个方向上编码,有利于提升建模的准确性。
本发明所描述的知识解释器可以用于根据待回复文本样本序列的编码结果,通过知识图谱的结构化信息,推理知识图谱中的实体表示。
本发明所描述的解码器可以用于对待回复文本样本序列中实体的特征表示和通用词的特征表示进行解码,生成回复文本序列。
在本发明的实施例中,隐式特征表示即为语义特征表示,指的是对待回复文本样本序列中词汇的语义特征进行参数化表示;储存的知识图谱实体关系的特征表示数据集指的是预先储存在深度神经网路对话模型中的知识图谱实体关系的特征表示数据集;预存的词表中通用词的特征表示指的是预先存储在深度神经网路对话模型中的通用词表里通用词特征的参数化表示。
进一步地,设定待回复文本样本序列为X=(x1,x2,…,xn),知识图谱为G={g1,g2,…,g|G|},可知,模型任务目标是生成一个具有适当语义和知识的对话回复文本序列为Y=(y1,y2,…,ym)。从本质上来讲,通过深度神经网络对话模型得到的回复文本序列生成概率为
Figure BDA0003024939240000081
在本发明的实施例中,知识图谱是根据待回复文本样本序列中的词为查询索引从知识库中检索得到的。待回复文本样本序列中的每一个词都对应G中的一个知识子图gi,每个知识子图由一组知识三元组构成,其表示为
Figure BDA0003024939240000082
每个知识三元组由头实体、关系、尾实体组成,表示为
Figure BDA0003024939240000083
进一步地,将待回复文本样本序列X=(x1,x2,…,xn)输入深度神经网路对话模型的双向编码器,得到待回复文本样本序列的隐式特征表示H=(h1,h2,…,hn)。
根据待回复文本样本序列X=(x1,x2,…,xn)中的实体词,即头实体
Figure BDA0003024939240000084
为查询索引,从知识库中检索到相应的知识图谱gi。其中,每个尾实体
Figure BDA0003024939240000085
可以通过关系
Figure BDA0003024939240000086
与知识图谱的中心实体(头实体)连接。从而根据知识图谱gi,从储存的知识图谱实体关系的特征表示数据集中,确定出头实体
Figure BDA0003024939240000087
的实体关系特征表示
Figure BDA0003024939240000088
进一步地,将上述得到的待回复文本样本序列的隐式特征表示H=(h1,h2,…,hn)和头实体的实体关系特征表示
Figure BDA0003024939240000089
输入深度神经网路对话模型的知识解释器,得到头实体的特征表示
Figure BDA00030249392400000810
和头实体对应的尾实体特征表示
Figure BDA00030249392400000811
进一步地,将头实体的特征表示
Figure BDA00030249392400000812
头实体对应的尾实体特征表示
Figure BDA0003024939240000091
和预存的词表中通用词的特征表示,输入深度神经网路对话模型的解码器,得到待回复文本样本序列的回复文本序列Y=(y1,y2,…,ym)。
在本发明的实施例中,深度神经网路对话模型的解码器gθ是一个单向神经网络,通过采取注意力机制,动态关注待回复文本样本序列的隐式特征表示H,其解码状态计算过程如下:
st=gθ(e(yt-1),s<t,H);
其中,st表示解码器第t步的状态向量,e(yt-1)表示上一步解码的词的词向量,s<t表示解码器t步之前的状态向量,H表示待回复文本样本序列的隐式特征表示。
进一步地,为了生成信息丰富知识相关的对话回复,通过解码器gθ中预设的知识选择器,可以在解码过程中从记忆模块存储的知识实体中选择相关实体生成或者从词表中选择词汇生成。同时,本实施例还引入了覆盖机制参数网络
Figure BDA0003024939240000092
避免解码器gθ产生重复的实体。解码过程的形式化定义如下:
Figure BDA0003024939240000093
Pg(yt=wg)=softmax(Wgst);
Figure BDA0003024939240000094
Figure BDA0003024939240000095
Figure BDA0003024939240000096
Figure BDA0003024939240000097
其中,
Figure BDA0003024939240000098
表示模型参数向量,st表示解码器当前状态,wg表示计算预存词表中的通用词的生成概率的模型参数矩阵,gt∈(0,1)是一个标量,用来平衡实体和通用词之间的选择,We表示计算相关实体生成概率的模型参数矩阵,
Figure BDA0003024939240000101
表示计算过程中的中间变量,
Figure BDA0003024939240000102
表示覆盖机制参数网络,Pg表示通用词的生成概率分布,Pe表示知识实体的生成概率分布,P(yt)是最终的生成概率分布,
Figure BDA0003024939240000103
表示头实体的特证表示,
Figure BDA0003024939240000104
表示尾实体的特证表示,e(wg)表示通用词的特征表示。
需要说明的是,深度神经网络对话模型的编码器、知识解释器和解码器均可以使用通用深度神经网络来实现,在此不作具体限定。
本发明实施例的方法,通过将待回复文本样本序列输入到深度神经网络对话模型,依次经过模型的编码器、知识解释器和解码器,得到待回复文本样本序列的回复文本序列,以此来对深度神经网络对话模型进行训练。
基于上述任一实施例,所述将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示的步骤,具体包括:
将占位符替换所述待回复文本样本序列中的头实体,得到去词汇化处理的待回复文本样本序列;
根据所述去词汇化处理的待回复文本样本序列,得到所述待回复文本样本序列的隐式特征表示。
具体地,本发明所描述的去词汇化处理指的是使用占位符替换待回复文本样本序列中实体词的处理方式,该处理方式的目的是让模型关注在待回复文本样本序列中提到的最新的知识实体上,便于后续模型学习知识图谱中实体的泛化性表示。
进一步地,对于一个待回复文本样本序列X=(x1,x2,…,xn),进行去词汇化处理,使用占位符[MASK-i]替换待回复文本样本序列中的知识实体,其中,i表示待回复文本样本序列的逆序。这样,去词汇化处理过程使得对话模型学到的待回复文本样本序列的隐式特征表示与知识实体的参数化表示无关,对话模型能够扩展应用训练过程中未出现过的实体。
进一步地,在去词汇化处理的步骤之后,将待回复文本样本序列输入到深度神经网路对话模型的一个双向编码器fθ,得到隐式特征表示H=(h1,h2,…,hn)和hX,其形式化定义如下:
H=fθ(X);
hX=pooling(H);
其中,fθ可以由Transformer或门控递归单元(Gated Recurrent Unit;GRU)来实现。
本发明实施例的方法,通过对待回复文本样本序列进行去词汇化处理后,基于深度神经网路对话模型的双向编码器,得到待回复文本样本序列的隐式特征表示。
基于上述任一实施例,所述将所述待回复文本样本序列的隐式特征表示和所述头实体的实体关系特征表示,输入所述深度神经网路对话模型的知识解释器,得到所述头实体的特征表示和所述头实体对应的尾实体特征表示的步骤,具体包括:
根据所述待回复文本样本序列的隐式特征表示,得到所述头实体的特征表示;
根据所述头实体的特征表示和所述头实体的实体关系特征表示,得到所述头实体对应的尾实体特征表示。
具体地,为了保证学到知识图谱中实体的泛化性表示,本发明不为每个实体学习参数化的特征表示,相反,使用待回复文本样本序列的隐式特征,通过MLP参数网络,来表示待回复文本样本序列中提到的知识实体,即得到头实体
Figure BDA0003024939240000111
的特征表示,其计算过程如下:
Figure BDA0003024939240000121
进一步地,通过由知识实体
Figure BDA0003024939240000122
检索到的知识图谱gi的结构信息进行推理,得到头实体对应的尾实体
Figure BDA0003024939240000123
的特征表示,其计算过程如下:
Figure BDA0003024939240000124
Figure BDA0003024939240000125
Figure BDA0003024939240000126
其中,MLP表示多层感知机,GRU表示门控递归单元,hX表示待回复文本样本序列的隐式特征表示,
Figure BDA0003024939240000127
表示头实体的特征表示,
Figure BDA0003024939240000128
表示头实体的实体关系特征表示,
Figure BDA0003024939240000129
表示头实体对应的尾实体特征表示,
Figure BDA00030249392400001210
表示表示计算过程中的中间变量。
本发明实施例的方法,根据所述待回复文本样本序列的隐式特征表示,通过深度神经网路对话模型的知识解释器,得到头实体的特征表示和头实体对应的尾实体特征表示。
基于上述任一实施例,在所述将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示的步骤之后,所述方法还包括:
在根据所述待回复文本样本序列中的实体,检索不到所述实体对应的知识图谱的情况下,根据预存的知识图谱中任一实体的实体关系特征表示和所述待回复文本样本序列的隐式特征表示,得到所述任一实体的第一特征表示;
根据所述任一实体的第一特征表示,得到所述任一实体的第二特征表示;
将所述任一实体的第一特征表示、所述任一实体的第二特征表示和预存的词表中通用词的特征表示,输入所述深度神经网路对话模型的解码器,得到所述待回复文本样本序列的回复文本序列。
具体地,在本发明的实施例中,虽然上述实施例方法能够表示与待回复文本样本序列相关的知识实体,但它不能建模知识图谱中与待回复文本样本序列中提到的实体不存在任何路径连接的实体,即通过待回复文本样本序列中提到的实体词,无法从知识库中的知识图谱里检索到相关知识子图。
为此,在本发明的实施例中,为了能够表示和应用这种与待回复文本样本序列中实体无法关联的知识实体,利用预存的知识图谱,对其中任一实体i,计算与实体i相连的|gi|个关系的特征表示,从而根据待回复文本样本序列的隐式特征表示hX,计算出实体i的第一特征表示
Figure BDA0003024939240000131
进一步地,根据实体i的第一特征表示,通过MLP参数网络,得到实体i的第二特征表示
Figure BDA0003024939240000132
其中,整个实体表示计算的过程都是通过注意力机制进行的,其计算过程如下:
Figure BDA0003024939240000133
Figure BDA0003024939240000134
Figure BDA0003024939240000135
Figure BDA0003024939240000136
其中,hX表示待回复文本样本序列的隐式特征表示,
Figure BDA0003024939240000137
表示与实体i连接的|gi|个关系n的特征表示,
Figure BDA0003024939240000138
表示实体i的第一特征表示,
Figure BDA0003024939240000139
表示实体i的第二特征表示,MLP表示多层感知机,Wh表示模型参数矩阵,αn和βn表示计算过程中的中间变量。
在本发明的实施例中,
Figure BDA0003024939240000141
Figure BDA0003024939240000142
是同一实体i的两种特征表示,其将会在解码过程中发挥不同作用。
进一步地,将实体i的第一特征表示
Figure BDA0003024939240000143
第二特征表示
Figure BDA0003024939240000144
和预存的词表中通用词的特征表示,输入所述深度神经网路对话模型的解码器。
在本发明的实施例中,解码器gθ是一个单向神经网络,通过采取注意力机制,动态关注待回复文本样本序列的隐式特征表示H,其解码状态计算过程如下:
st=gθ(e(yt-1),s<t,H);
其中,st表示解码器第t步的状态向量,e(yt-1)表示上一步解码的词的词向量,s<t表示解码器t步之前的状态向量,H表示待回复文本样本序列的隐式特征表示。
进一步地,为了生成信息丰富知识相关的对话回复,通过解码器gθ中预设的知识选择器,可以在解码过程中从记忆模块存储的知识实体中选择相关实体生成或者从词表中选择词汇生成。同时,本实施例还引入了覆盖机制参数网络
Figure BDA0003024939240000145
避免解码器gθ产生重复的实体。解码过程的形式化定义如下:
Figure BDA0003024939240000146
Pg(yt=wg)=softmax(Wgst);
Figure BDA0003024939240000147
Figure BDA0003024939240000148
Figure BDA0003024939240000149
Figure BDA0003024939240000151
其中,
Figure BDA0003024939240000152
表示模型参数向量,st表示解码器当前状态,wg表示计算预存词表中的通用词的生成概率的模型参数矩阵,gt∈(0,1)是一个标量,用来平衡实体和通用词之间的选择,We表示计算相关实体生成概率的模型参数矩阵,
Figure BDA0003024939240000153
表示计算过程中的中间变量,
Figure BDA0003024939240000154
表示覆盖机制参数网络,Pg表示通用词的生成概率分布,Pe表示知识实体的生成概率分布,P(yt)是最终的生成概率分布,
Figure BDA0003024939240000155
表示实体i的第一特征表示,
Figure BDA0003024939240000156
表示实体i的第二特征表示,e(wg)表示通用词的特征表示。
通过本发明实施例的方法,根据待回复文本样本序列的隐式特征表示和预存的知识图谱中任一实体的实体关系特征表示,基于深度神经网络对话模型,得到所述待回复文本样本序列的回复文本序列,解决了由待回复文本序列中的实体检索不到对应的知识图谱时无法使用知识图谱中的实体表示的技术问题。
基于上述任一实施例,在所述将待回复文本序列输入训练好的深度神经网路对话模型的步骤之前,所述方法还包括:
将待回复文本样本序列和所述待回复文本样本序列携带的真实回复文本序列标签作为一组对话训练样本,获取多组对话训练样本;
利用所述多组对话训练样本,对深度神经网络对话模型进行训练。
具体地,在将待回复文本序列输入训练好的深度神经网路对话模型之前,还需对深度神经网路对话模型进行训练,具体训练过程如下:
将待回复文本样本序列和所述待回复文本样本序列携带的真实回复文本序列标签作为一组对话训练样本,即将每个带有真实回复文本序列标签的待回复文本样本序列作为一组训练样本,由此即可获得多组训练样本。
在本发明的实施例中,待回复文本样本序列与待回复文本样本序列携带的真实回复文本序列标签是一一对应的。
然后,在获得多组训练样本之后,再将多组训练样本依次输入至深度神经网络对话模型,即将每组训练样本中的待回复文本样本序列和真实回复文本序列标签同时输入至深度神经网络对话模型,根据深度神经网络对话模型的每一次输出结果,通过计算损失函数值,对深度神经网络中的模型参数进行调整,最终完成深度神经网络对话模型的训练过程。
通过本发明实施例的方法,将待回复文本样本序列和待回复文本样本序列携带的真实回复文本序列标签作为一组对话训练样本,利用多组训练样本对深度神经网络对话模型进行模型训练。
基于上述任一实施例,利用所述多组对话训练样本和储存的知识图谱实体关系的特征表示数据集,对深度神经网络对话模型进行训练的步骤,具体包括:
对于任意一组对话训练样本,将所述对话训练样本输入深度神经网络对话模型,输出所述对话训练样本对应的预测概率;
利用预设损失函数,根据所述对话训练样本对应的预测概率和所述对话训练样本中的真实回复文本序列标签计算损失值;
若所述损失值小于预设阈值,则所述深度神经网络对话模型训练完成。
具体地,在获得多组训练样本之后,对于任意一组训练样本,将该训练样本中的待回复文本样本序列和真实回复文本序列标签同时输入至深度神经网络对话模型,输出该训练样本对应的预测概率,其中预测概率指的是该训练样本针对不同回复文本序列对应的预测概率。
在本发明的实施例中,预设损失函数指的是预先设置在深度神经网络对话模型里的损失函数,用于模型评估;预设阈值指的是模型预先设置的阈值,用于获得最小损失值,完成模型训练。
在此基础上,利用预设损失函数根据训练样本对应的预测概率和训练样本中的真实回复文本序列标签计算损失值。其中,预设损失函数是训练语料中预测的知识实体或通用词的生成概率分布P(yt)和真实回复文本序列中知识实体或通用词的概率分布pt之间的交叉熵损失。此外,为了指导模型选择正确的知识实体进行生成,本发明还对知识选择器加入了额外的监督信号。
其中,预设损失函数定义为:
Figure BDA0003024939240000171
其中,qt∈{0,1}是真实回复文本序列Y中选择知识实体或通用词的真实标签,用于监督模型学习选择知识实体或通用词的概率;α和β分别表示训练数据中的实体数量和通用词的数量;m表示真实回复文本序列中知识实体和通用词的数量之和;pt表示真实回复文本序列中知识实体或通用词的概率分布;P(yt)表示训练语料中模型预测的知识实体或通用词的生成概率分布;gt表示训练语料中模型预测的知识实体或通用词的选择概率,λ表示人工设置的平衡实体和通用词两部分损失权重的参数。
进一步地,在计算获得损失值之后,本次训练过程结束,再利用随机梯度下降算法(Stochastic Gradient Descent;SGD)更新深度神经网络对话模型中的模型参数,之后再进行下一次训练。在训练的过程中,若针对某组训练样本计算获得的损失值小于预设阈值,则深度神经网络对话模型训练完成。
本发明实施例的方法,通过对深度神经网络对话模型进行训练,将深度神经网络对话模型的损失值控制在预设的范围内,从而有利于提高深度神经网络对话模型输出回复文本的准确性。
图2是本发明实施例提供的知识驱动的对话模型整体框架示意图,如图2所示,本发明的知识驱动的对话模型主要由编码器、知识解释器和解码器三个单元构成的。
如图2所示,待回复文本序列X可以为“What is the next book by ChuckPalahniuk after Pygmy?”,将待回复文本序列X输入深度神经网络对话模型的编码器Encoder,对待回复文本序列进行去词汇化Delexicalization处理,使用占位符[MASK1]覆盖序列倒数第1个实体词Pygmy,占位符[MASK2]覆盖序列倒数第2个实体词ChuckPalahniuk,经过对去词汇化处理的待回复文本序列进行双向编码,得到隐式特征表示H=(h1,h2,…,h10)和hX
进一步地,通过待回复文本序列X中的头实体Chuck Palahniuk,可以从知识库中检索到其对应的知识子图,如图2的左侧所示。将隐式特征表示H=(h1,h2,…,h10)和hX输入深度神经网络对话模型的知识解释器Knowledge Interpreter,隐式特征表示H=(h1,h2,…,h10)经过知识解释器中的MLP网络,计算得到头实体Chuck Palahniuk的特征表示
Figure BDA0003024939240000181
进而,根据隐式特征表示hX和预存实体关系的特征表示
Figure BDA0003024939240000182
通过MLP网络,计算出头实体Chuck Palahniuk对应的尾实体特征表示
Figure BDA0003024939240000183
根据头实体Chuck Palahniuk的特征表示
Figure BDA0003024939240000184
头实体ChuckPalahniuk对应的尾实体特征表示
Figure BDA0003024939240000185
和预存的词表中通用词的特征表示,经过深度神经网络对话模型中解码器Decoder,得到的回复文本序列为“The book is Tell-All”。
通过本发明实施例的方法,可以提供一种基于实体泛化性表示学习(Entity-Agnostic Representation Learning;EARL)的知识驱动的对话模型,能够学习知识图谱中实体的泛化性表示,并且生成具有恰当语义和丰富信息量的对话回复。
图3是本发明提供的知识驱动的对话生成装置的结构示意图,如图3所示,包括:
回复文本生成模块310,用于将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;
其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;
其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
通过本发明的知识驱动的对话生成装置,根据待回复文本中的非结构化信息和知识图谱的结构化信息,基于训练好的深度神经网络对话模型,计算出知识图谱中的实体表示,可以更高效地应用知识图谱来生成具有恰当语义和丰富信息量的对话回复。
本实施例所述的知识驱动的对话生成装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行所述知识驱动的对话生成方法,该方法包括:将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的所述知识驱动的对话生成方法,该方法包括:将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的所述知识驱动的对话生成方法,该方法包括:将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识驱动的对话生成方法,其特征在于,包括:
将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;
其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;
其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
2.根据权利要求1所述的知识驱动的对话生成方法,其特征在于,在所述将待回复文本序列输入训练好的深度神经网路对话模型的步骤之前,所述方法还包括:
将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示;
根据所述待回复文本样本序列中的头实体,得到所述头实体对应的知识图谱,以从储存的知识图谱实体关系的特征表示数据集中,确定出所述头实体的实体关系特征表示;
将所述待回复文本样本序列的隐式特征表示和所述头实体的实体关系特征表示,输入所述深度神经网路对话模型的知识解释器,得到所述头实体的特征表示和所述头实体对应的尾实体特征表示;
将所述头实体的特征表示、所述头实体对应的尾实体特征表示和预存的词表中通用词的特征表示,输入所述深度神经网路对话模型的解码器,得到所述待回复文本样本序列的回复文本序列。
3.根据权利要求2所述的知识驱动的对话生成方法,其特征在于,所述将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示的步骤,具体包括:
将占位符替换所述待回复文本样本序列中的头实体,得到去词汇化处理的待回复文本样本序列;
根据所述去词汇化处理的待回复文本样本序列,得到所述待回复文本样本序列的隐式特征表示。
4.根据权利要求2所述的知识驱动的对话生成方法,其特征在于,所述将所述待回复文本样本序列的隐式特征表示和所述头实体的实体关系特征表示,输入所述深度神经网路对话模型的知识解释器,得到所述头实体的特征表示和所述头实体对应的尾实体特征表示的步骤,具体包括:
根据所述待回复文本样本序列的隐式特征表示,得到所述头实体的特征表示;
根据所述头实体的特征表示和所述头实体的实体关系特征表示,得到所述头实体对应的尾实体特征表示。
5.根据权利要求2所述的知识驱动的对话生成方法,其特征在于,在所述将待回复文本样本序列输入深度神经网路对话模型的双向编码器,得到所述待回复文本样本序列的隐式特征表示的步骤之后,所述方法还包括:
在根据所述待回复文本样本序列中的实体,检索不到所述实体对应的知识图谱的情况下,根据预存的知识图谱中任一实体的实体关系特征表示和所述待回复文本样本序列的隐式特征表示,得到所述任一实体的第一特征表示;
根据所述任一实体的第一特征表示,得到所述任一实体的第二特征表示;
将所述任一实体的第一特征表示、所述任一实体的第二特征表示和预存的词表中通用词的特征表示,输入所述深度神经网路对话模型的解码器,得到所述待回复文本样本序列的回复文本序列。
6.根据权利要求1所述的知识驱动的对话生成方法,其特征在于,在所述将待回复文本序列输入训练好的深度神经网路对话模型的步骤之前,所述方法还包括:
将待回复文本样本序列和所述待回复文本样本序列携带的真实回复文本序列标签作为一组对话训练样本,获取多组对话训练样本;
利用所述多组对话训练样本,对深度神经网络对话模型进行训练。
7.根据权利要求6所述的知识驱动的对话生成方法,其特征在于,利用所述多组对话训练样本和储存的知识图谱实体关系的特征表示数据集,对深度神经网络对话模型进行训练的步骤,具体包括:
对于任意一组对话训练样本,将所述对话训练样本输入深度神经网络对话模型,输出所述对话训练样本对应的预测概率;
利用预设损失函数,根据所述对话训练样本对应的预测概率和所述对话训练样本中的真实回复文本序列标签计算损失值;
若所述损失值小于预设阈值,则所述深度神经网络对话模型训练完成。
8.一种知识驱动的对话生成装置,其特征在于,包括:
回复文本生成模块,用于将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;
其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;
其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述知识驱动的对话生成方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识驱动的对话生成方法的步骤。
CN202110413536.6A 2021-04-16 2021-04-16 一种知识驱动的对话生成方法及装置 Pending CN113111190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110413536.6A CN113111190A (zh) 2021-04-16 2021-04-16 一种知识驱动的对话生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110413536.6A CN113111190A (zh) 2021-04-16 2021-04-16 一种知识驱动的对话生成方法及装置

Publications (1)

Publication Number Publication Date
CN113111190A true CN113111190A (zh) 2021-07-13

Family

ID=76718136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110413536.6A Pending CN113111190A (zh) 2021-04-16 2021-04-16 一种知识驱动的对话生成方法及装置

Country Status (1)

Country Link
CN (1) CN113111190A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN116842109A (zh) * 2023-06-27 2023-10-03 北京大学 信息检索知识图谱嵌入方法、装置和计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN114416941B (zh) * 2021-12-28 2023-09-05 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN116842109A (zh) * 2023-06-27 2023-10-03 北京大学 信息检索知识图谱嵌入方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN113111190A (zh) 一种知识驱动的对话生成方法及装置
CN110737758A (zh) 用于生成模型的方法和装置
CN110210032B (zh) 文本处理方法及装置
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111914067A (zh) 中文文本匹配方法及系统
CN111177325B (zh) 一种自动生成答案的方法和系统
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111027292A (zh) 一种限定采样文本序列生成方法及其系统
CN111324738B (zh) 一种确定文本标签的方法和系统
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN114429122A (zh) 一种基于循环注意力的方面级情感分析系统和方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN112463989A (zh) 一种基于知识图谱的信息获取方法及系统
CN115081430A (zh) 中文拼写检错纠错方法、装置、电子设备及存储介质
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
Reza et al. A customized residual neural network and bi-directional gated recurrent unit-based automatic speech recognition model
CN113779190A (zh) 事件因果关系识别方法、装置、电子设备与存储介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN112364659A (zh) 一种无监督的语义表示自动识别方法及装置
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN113723079B (zh) 针对长距离对话状态追踪的分层建模贡献感知的上下文的方法
CN114547272A (zh) 对话生成模型的训练方法和装置、对话生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination