CN112528005A - 基于知识检索图和预训练模型的中文对话知识检索方法 - Google Patents

基于知识检索图和预训练模型的中文对话知识检索方法 Download PDF

Info

Publication number
CN112528005A
CN112528005A CN202011568524.2A CN202011568524A CN112528005A CN 112528005 A CN112528005 A CN 112528005A CN 202011568524 A CN202011568524 A CN 202011568524A CN 112528005 A CN112528005 A CN 112528005A
Authority
CN
China
Prior art keywords
knowledge
training
retrieval
graph
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011568524.2A
Other languages
English (en)
Other versions
CN112528005B (zh
Inventor
戴斯铭
潘嵘
毛明志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202011568524.2A priority Critical patent/CN112528005B/zh
Publication of CN112528005A publication Critical patent/CN112528005A/zh
Application granted granted Critical
Publication of CN112528005B publication Critical patent/CN112528005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明针对现有技术处理多轮对话之间的话题切换时性能不佳的技术问题,提出了一种基于知识检索图和预训练模型的中文对话知识检索方法,通过利用预训练模型建模了文本语义信息以及利用知识检索图结构信息建模了知识之间的联系,可以更加准确地检索出与当前对话后续回复相关的知识三元组,从而让后续生成的知识对话可以更好的满足多轮对话之间的话题切换,得到更好的对话效果。

Description

基于知识检索图和预训练模型的中文对话知识检索方法
技术领域
本发明涉及自然语言处理的技术领域,具体涉及自然语言处理在人机对话上 的应用,更具体地,涉及一种基于知识检索图和预训练模型的中文对话知识检索 方法、系统、储存介质及计算机设备。
背景技术
自然语言处理技术一直都致力于让机器可以做到像人一样流畅、自如地沟通, 这也是市面上的许多语音助手,如Siri、小度等产品设计出来的初衷;然而,人 们也希望机器在流畅对话的同时,其产出的对话回复能够带有知识的丰富性,而 不仅仅是单纯地响应对话内容。所以,在为机器提供训练语料时,除了提供相应 的历史对话信息,同时也需要提供相应的对话知识,让机器在获取知识的前提下 生成富有知识性的对话回复。
公开时间为2020-07-28,公开号为CN111462749A的中国申请专利:基于对 话状态导向和知识库检索的端到端对话系统及方法,其具有对话状态与知识库两 步检索机制结合的知识库访问结构,以期通过知识库库间检索的方式维护知识库 一致性,从而减少知识库检索错误的问题。但上述专利在内的现有技术在处理多 轮对话之间的话题切换时,由于对话和知识的语义信息变得更加复杂,对话效果 并不好。
发明内容
针对现有技术的局限,本发明提出一种基于知识检索图和预训练模型的中文 对话知识检索方法、系统、储存介质及计算机设备,本发明采用的技术方案是:
一种基于知识检索图和预训练模型的中文对话知识检索方法,包括以下步骤:
创建知识检索数据集;所述知识检索数据集包括样本对数据集以及知识检索 图;所述样本对数据集包括正样本对,所述正样本对由样本对话内容以及与所述 样本对话内容对应的知识三元组构成;所述知识检索图根据所述样本对数据集的 知识三元组构建;
以知识增强语义理解模型构建用于获取特征表示的预训练模型;
通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负 样本对,构建训练数据包,根据所述训练数据包中出现的知识三元组在所述知识 检索图基础上分别构建正、负知识子图;运用所述训练数据包以及正、负知识子 图对所述预训练模型进行训练;
运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表 示;获取待处理对话内容,运用训练后的预训练模型获取所述待处理对话内容的 特征表示;根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检 索出所述待处理对话内容对应的知识三元组。
相较于现有技术,本发明通过利用预训练模型建模了文本语义信息以及利用 知识检索图结构信息建模了知识之间的联系,可以更加准确地检索出与当前对话 后续回复相关的知识三元组,从而让后续生成的知识对话可以更好的满足多轮对 话之间的话题切换,得到更好的对话效果。
作为一种优选方案,创建知识检索数据集包括以下步骤:
以由样本对话内容以及与所述样本对话内容对应的知识三元组构成的正样 本对构建样本对数据集;
根据所述样本对数据集的知识三元组构建知识检索图;
对所述样本对数据集以及知识检索图的数据进行字符级切分,并将切分得到 的字符分别映射为对应的字典ID;
按预设的句子长度阈值对所述样本对数据集以及知识检索图的数据进行截 断;
以经过所述切分、映射以及截断操作的所述样本对数据集以及知识检索图作 为知识检索数据集。
作为一种优选方案,所述预训练模型按以下公式获取样本对话内容或者待处 理对话内容的特征表示:
queryfeature=ERNIE_cls_embedding(query);
其中,query为由样本对话内容或者待处理对话内容构成的查询项,feature 为特征表示,ERNIE_cls_embedding表示利用知识增强语义理解模型获取分类 Token对应的特征表示;
所述预训练模型按以下公式获取知识三元组的特征表示:
itemcls=ERNIE_cls_embedding(item);
itemfeature=[itemcls|Sum(Neighbor(item)];
其中,item为知识三元组构成的检索项;Neighbor(item)为所述检索项在 所述知识检索图或正知识子图或负知识子图中的邻居节点的分类Token对应的 特征表示,Sum为加法聚合操作,[A|B]为“|”将两侧向量相连接的操作。
进一步的,所述预训练模型在所述预训练模型的训练过程中通过预设的优化 器计算、更新所述预训练模型的网络参数,使训练过程中产生的合页损失函数的 值最小化。
更进一步的,所述合页损失函数的值按以下公式计算:
HingeLoss=max(0,Δ-negscore+posscore);
其中,Δ为需要人工调整的超参数,posscore为正样本匹配得分,negscore为 负样本匹配得分;
posscore=∑queryfeature*posfeature
Figure BDA0002861754600000031
其中,posfeature为所述训练数据包的正样本对的知识三元组的特征表示,negfeature为所述训练数据包的负样本对的知识三元组的特征表示,T表示矩阵的 转置。
作为一种可选方案,所述步骤S03中根据所述训练数据包中出现的知识三元 组在所述知识检索图基础上分别构建正、负知识子图,采用GraphSage采样方法 或PinSage采样方法实现。
作为一种优选方案,所述步骤S04中根据所述正检索项的特征表示以及所述 待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组,采用 ANN算法实现。
本发明还提供以下内容:
一种基于知识检索图和预训练模型的中文对话知识检索系统,包括知识检索 数据集创建模块、预训练模型构建模块、预训练模型训练模块以及待处理对话内 容获取检索模块;所述预训练模型训练模块连接所述知识检索数据集创建模块以 及预训练模型构建模块,所述待处理对话内容获取检索模块连接所述检索库创建 模块以及预训练模型训练模块,其中:
所述知识检索数据集创建模块用于创建知识检索数据集;所述知识检索数据 集包括样本对数据集以及知识检索图;所述样本对数据集包括正样本对,所述正 样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成;所述知 识检索图根据所述样本对数据集的知识三元组构建;
所述预训练模型构建模块用于以知识增强语义理解模型构建用于获取特征 表示的;
所述预训练模型训练模块用于通过按预设的批尺寸在所述样本对数据集内 抽取正样本对以及随机构造负样本对,构建训练数据包,根据所述训练数据包中 出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图;运用所述 训练数据包以及正、负知识子图对所述预训练模型进行训练;
所述待处理对话内容获取检索模块用于运用训练后的预训练模型获取所述 样本对数据集的各知识三元组的特征表示;获取待处理对话内容,运用训练后的 预训练模型获取所述待处理对话内容的特征表示;根据所述正检索项的特征表示 以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三 元组。
一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实 现前述的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。
一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被 所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述基于知 识检索图和预训练模型的中文对话知识检索方法的步骤。
附图说明
图1为本发明实施例提供的基于知识检索图和预训练模型的中文对话知识 检索方法的步骤流程图;
图2为本发明实施例提供的子图生成示例;
图3为本发明实施例提供的步骤S01的流程图;
图4为本发明实施例提供的基于知识检索图和预训练模型的中文对话知识 检索系统示意图;
附图标记说明:1、知识检索数据集创建模块;2、预训练模型构建模块;3、 预训练模型训练模块;4、待处理对话内容获取检索模块。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部 的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限 制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一 种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。 还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出 项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或 相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的 所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方 面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、 “第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后 次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言, 可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。 “和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A 和/或B, 可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/” 一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做 进一步的阐述。
为了解决现有技术的局限性,本实施例提供了一种技术方案,下面结合附图 和实施例对本发明的技术方案做进一步的说明。
实施例1
请参考图1,一种基于知识检索图和预训练模型的中文对话知识检索方法, 包括以下步骤:
S01,创建知识检索数据集;所述知识检索数据集包括样本对数据集以及知 识检索图;所述样本对数据集包括正样本对,所述正样本对由样本对话内容以及 与所述样本对话内容对应的知识三元组构成;所述知识检索图根据所述样本对数 据集的知识三元组构建;
S02,以知识增强语义理解模型构建用于获取特征表示的预训练模型;
S03,通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构 造负样本对,构建训练数据包,根据所述训练数据包中出现的知识三元组在所述 知识检索图基础上分别构建正、负知识子图;运用所述训练数据包以及正、负知 识子图对所述预训练模型进行训练;
S04,运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特 征表示;获取待处理对话内容,运用训练后的预训练模型获取所述待处理对话内 容的特征表示;根据所述正检索项的特征表示以及所述待处理对话内容的特征表 示检索出所述待处理对话内容对应的知识三元组。
相较于现有技术,本发明通过利用预训练模型建模了文本语义信息以及利用 知识检索图结构信息建模了知识之间的联系,可以更加准确地检索出与当前对话 后续回复相关的知识三元组,从而让后续生成的知识对话可以更好的满足多轮对 话之间的话题切换,得到更好的对话效果。
具体的,在本实施例中,样本对话内容或者待处理对话内容可以视为查询项, 知识三元组可以视为检索项,本实施例的目的在于通过所述查询项检索到正确的 检索项。例如:
对话信息1:“知道重庆森林这部电影吗?”
对话信息1需要检索出的知识信息:["重庆森林(1994年王家卫执导电影) ","导演","王家卫"]
对话信息2:“知道重庆森林这部电影吗?知道呀,是一部由王家卫导演的 片子。”
对话信息2需要检索出的知识信息:["重庆森林(1994年王家卫执导电影) ","主演","王菲"]
所述样本对数据集可基于给定原始的中文多轮对话数据集KdConv。中文多 轮对话数据集KdConv中对于给定的对话内容,提供了句子级别的知识标注信息。 因此,可以将其原本已提供的对话内容作为样本对话内容,并与数据集KdConv 中已经对应标注好的知识三元组作为正样本对。
知识三元组为包括实体、关系、尾实体的知识信息。在所述构建知识检索图 时,所述知识检索图中的节点分别对应一组知识三元组,存在相同实体的知识三 元组的节点相互之间连边。
所述知识增强语义理解模型指ERNIE(Enhanced Representation throughKnowledge Integration)。ERNIE的模型结构由多层的Transformer结构堆叠而成, 而Transformer结构主要由输入Embedding层、位置编码层、多头自注意力层、 LayerNormalization层以及前馈神经网络等部分构成。在利用ERNIE提取特征 的时候,直接提取输入的CLS token即分类token在最后一层的输出向量即可。 整个ERNIE模型参数在训练阶段仍然是需要更新的。在一种优选实施例中,使 用ERNIE模型,具体使用PaddlePaddle深度学习框架,并且搭配propeller的 实现机制,能够快速搭建整个模型的训练和测试流程。
在所述步骤S03中,所述批尺寸batch_size决定每次从所述样本对数据集内 抽取正样本的数量;所述训练数据包随着训练的进行而更新,在训练时,除了需 要有对话内容与知识三元组正确对应的样本对,即除了正样本对之外,还需要负 样本对。所述负样本对通过边训练边随机构造同等数量的负样本对即可,假设 batch_size的数量为N。在本实施例中,构造负样本对的方法是在当前训练数据 包中选择最后一个正样本对的查询项作为负样本对的查询项,同时在知识检索图 中任意选取N个不同的检索项,构成N个负样本对。而正、负知识子图的构 建目的主要是由于GPU资源的限制,将原有的完整知识检索图一次性输入到 GPU中参与训练将难以进行,因此需要对原来的图进行采样,构建子图。子图 的构造过程可参阅附图2,实线圈数字代表子图的节点,虚线圈代表邻居节点采 样层,箭头连线代表采样方向;假设在当前只有一个检索项,也就是中间的
Figure BDA0002861754600000071
号 节点,它的邻居节点分别为①、②、③、④、⑤号节点。基于邻居采样的方式, 可随机选择②、④、⑤作为采样子图中
Figure BDA0002861754600000072
号节点的邻居节点。如果要继续往下一 层进行邻居采样子图的话,则需要继续沿着②、④、⑤号节点重复进行邻居采样 的步骤,例如对于⑤号节点,它的邻居节点有
Figure BDA0002861754600000073
则采样其中的两个 节点
Figure BDA0002861754600000074
Figure BDA0002861754600000075
作为它在子图中的邻居节点。具体的,邻居节点采样个数和邻居采 样层数为可以调整的超参数。
作为一种优选实施例,请参阅图3,所述步骤S01包括以下步骤:
S011,以由样本对话内容以及与所述样本对话内容对应的知识三元组构成的 正样本对构建样本对数据集;
S012,根据所述样本对数据集的知识三元组构建知识检索图;
S013,对所述样本对数据集以及知识检索图的数据进行字符级切分,并将切 分得到的字符分别映射为对应的字典ID;
S014,按预设的句子长度阈值对所述样本对数据集以及知识检索图的数据进 行截断;
S015,以经过所述切分、映射以及截断操作的所述样本对数据集以及知识检 索图作为知识检索数据集。
具体的,例如其中一个句子,在经过所述步骤S013后将转化为该句子中的 各个字符的ID组成的序列。而在所述步骤S014中,对于对话内容也就是查询项 而言,如果该文本内容超过句子长度阈值,就从右往左截断以此保留更加靠后的 内容;这是由于通常而言,最新的对话信息对于当前查询而言更加重要;而对于 检索项而言,则从左往右进行截断即可。
作为一种优选实施例,所述预训练模型按以下公式获取样本对话内容或者待 处理对话内容的特征表示:
queryfeature=ERNIE_cls_embedding(query);
其中,query为由样本对话内容或者待处理对话内容构成的查询项,feature 为特征表示,ERNIE_cls_embedding表示利用知识增强语义理解模型获取分类 Token对应的特征表示;
所述预训练模型按以下公式获取知识三元组的特征表示:
itemcls=ERNIE_cls_embedding(item);
itemfeature=[itemcls|Sum(Neighbor(item)];
其中,item为知识三元组构成的检索项;Neighbor(item)为所述检索项在 所述知识检索图或正知识子图或负知识子图中的邻居节点的分类Token对应的 特征表示,Sum为加法聚合操作,[A|B]为“|”将两侧向量相连接的操作。
进一步的,所述预训练模型在所述步骤S04的训练过程中通过预设的优化器 计算、更新所述预训练模型的网络参数,使训练过程中产生的合页损失函数的值 最小化。
具体的,所述优化器采用自适应动量(Adaptive momentum,Adam)优化器, 在训练过程中主要通过进行梯度计算和回传来计算、更新所述预训练模型的网络 参数。
更进一步的,所述合页损失函数的值按以下公式计算:
HingeLoss=max(0,Δ-negscore+posscore);
其中,Δ为需要人工调整的超参数,posscore为正样本匹配得分,negscore为 负样本匹配得分;
posscore=∑queryfeature*posfeature
Figure BDA0002861754600000091
其中,posfeature为所述训练数据包的正样本对的知识三元组的特征表示,negfeature为所述训练数据包的负样本对的知识三元组的特征表示,T表示矩阵的 转置。
作为一种可选实施例,所述步骤S03中根据所述训练数据包中出现的知识三 元组在所述知识检索图基础上分别构建正、负知识子图,采用GraphSage采样方 法或PinSage采样方法实现。
具体的,GraphSage(Graph SAmple and aggreGatE)采样方法是一种已经在 工业界得到广泛采纳的图神经网络方法,具有较好的分布式实施特性;而PinSage 采样方法主要通过采样一个节点周围的邻域并从这个采样的邻域动态构造一个 计算图来执行高效的局部卷积。
作为一种优选实施例,所述步骤S04中根据所述正检索项的特征表示以及所 述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组,采 用实现。
具体的,ANN(Approximate Nearest Neighbor)算法为一种近似最近邻搜索 算法,在本实施例中,ANN库可以直接使用python包Annoy来实现,Annoy 是由Spotify开源的高维空间求近似最近邻的库。利用Annoy包计算对话文本 和知识三元组之间的得分,分值越高,则越有可能被检索到。
实施例2
一种基于知识检索图和预训练模型的中文对话知识检索系统,请参阅图4, 包括知识检索数据集创建模块1、预训练模型构建模块2、预训练模型训练模块 3以及待处理对话内容获取检索模块4;所述预训练模型训练模块3连接所述知 识检索数据集创建模块1以及预训练模型构建模块2,所述待处理对话内容获取 检索模块4连接所述检索库创建模块1以及预训练模型训练模块3,其中:
所述知识检索数据集创建模块1用于创建知识检索数据集;所述知识检索数 据集包括样本对数据集以及知识检索图;所述样本对数据集包括正样本对,所述 正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成;所述 知识检索图根据所述样本对数据集的知识三元组构建;
所述预训练模型构建模块2用于以知识增强语义理解模型构建用于获取特 征表示的;
所述预训练模型训练模块3用于通过按预设的批尺寸在所述样本对数据集 内抽取正样本对以及随机构造负样本对,构建训练数据包,根据所述训练数据包 中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图;运用所 述训练数据包以及正、负知识子图对所述预训练模型进行训练;
所述待处理对话内容获取检索模块4用于运用训练后的预训练模型获取所 述样本对数据集的各知识三元组的特征表示;获取待处理对话内容,运用训练后 的预训练模型获取所述待处理对话内容的特征表示;根据所述正检索项的特征表 示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识 三元组。
实施例3
一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实 现实施例1中的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。
实施例4
一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被 所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现实施例1中 的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非 是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明 的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施 方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进 等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于知识检索图和预训练模型的中文对话知识检索方法,其特征在于,包括以下步骤:
S01,创建知识检索数据集;所述知识检索数据集包括样本对数据集以及知识检索图;所述样本对数据集包括正样本对,所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成;所述知识检索图根据所述样本对数据集的知识三元组构建;
S02,以知识增强语义理解模型构建用于获取特征表示的预训练模型;
S03,通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对,构建训练数据包,根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图;运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练;
S04,运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示;获取待处理对话内容,运用训练后的预训练模型获取所述待处理对话内容的特征表示;根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。
2.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法,其特征在于,所述步骤S01包括以下步骤:
S011,以由样本对话内容以及与所述样本对话内容对应的知识三元组构成的正样本对构建样本对数据集;
S012,根据所述样本对数据集的知识三元组构建知识检索图;
S013,对所述样本对数据集以及知识检索图的数据进行字符级切分,并将切分得到的字符分别映射为对应的字典ID;
S014,按预设的句子长度阈值对所述样本对数据集以及知识检索图的数据进行截断;
S015,以经过所述切分、映射以及截断操作的所述样本对数据集以及知识检索图作为知识检索数据集。
3.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法,其特征在于,所述预训练模型按以下公式获取样本对话内容或者待处理对话内容的特征表示:
queryfeature=ERNIE_cls_embedding(query);
其中,query为由样本对话内容或者待处理对话内容构成的查询项,feature为特征表示,ERNIE_cls_embedding表示利用知识增强语义理解模型获取分类Token对应的特征表示;
所述预训练模型按以下公式获取知识三元组的特征表示:
itemcls=ERNIE_cls_embedding(item);
itemfeature=[itemcls|Sum(Neighbor(item)];
其中,item为知识三元组构成的检索项;Neighbor(item)为所述检索项在所述知识检索图或正知识子图或负知识子图中的邻居节点的分类Token对应的特征表示,Sum为加法聚合操作,[A|B]为“|”将两侧向量相连接的操作。
4.根据权利要求3所述的基于知识检索图和预训练模型的中文对话知识检索方法,其特征在于,所述预训练模型在所述步骤S04的训练过程中通过预设的优化器计算、更新所述预训练模型的网络参数,使训练过程中产生的合页损失函数的值最小化。
5.根据权利要求4所述的基于知识检索图和预训练模型的中文对话知识检索方法,其特征在于,所述合页损失函数的值按以下公式计算:
HingeLoss=max(0,Δ-negscore+posscore);
其中,Δ为需要人工调整的超参数,posscore为正样本匹配得分,negscore为负样本匹配得分;
posscore=∑queryfeature*posfeature
Figure FDA0002861754590000021
其中,posfeature为所述训练数据包的正样本对的知识三元组的特征表示,negfeature为所述训练数据包的负样本对的知识三元组的特征表示,T表示矩阵的转置。
6.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法,其特征在于,所述步骤S03中根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图,采用GraphSage采样方法或PinSage采样方法实现。
7.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法,其特征在于,所述步骤S04中根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组,采用ANN算法实现。
8.一种基于知识检索图和预训练模型的中文对话知识检索系统,其特征在于,包括知识检索数据集创建模块(1)、预训练模型构建模块(2)、预训练模型训练模块(3)以及待处理对话内容获取检索模块(4);所述预训练模型训练模块(3)连接所述知识检索数据集创建模块(1)以及预训练模型构建模块(2),所述待处理对话内容获取检索模块(4)连接所述检索库创建模块(1)以及预训练模型训练模块(3),其中:
所述知识检索数据集创建模块(1)用于创建知识检索数据集;所述知识检索数据集包括样本对数据集以及知识检索图;所述样本对数据集包括正样本对,所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成;所述知识检索图根据所述样本对数据集的知识三元组构建;
所述预训练模型构建模块(2)用于以知识增强语义理解模型构建用于获取特征表示的;
所述预训练模型训练模块(3)用于通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对,构建训练数据包,根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图;运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练;
所述待处理对话内容获取检索模块(4)用于运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示;获取待处理对话内容,运用训练后的预训练模型获取所述待处理对话内容的特征表示;根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。
9.一种储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。
10.一种计算机设备,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。
CN202011568524.2A 2020-12-25 2020-12-25 基于知识检索图和预训练模型的中文对话知识检索方法 Active CN112528005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011568524.2A CN112528005B (zh) 2020-12-25 2020-12-25 基于知识检索图和预训练模型的中文对话知识检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011568524.2A CN112528005B (zh) 2020-12-25 2020-12-25 基于知识检索图和预训练模型的中文对话知识检索方法

Publications (2)

Publication Number Publication Date
CN112528005A true CN112528005A (zh) 2021-03-19
CN112528005B CN112528005B (zh) 2022-08-09

Family

ID=74976662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011568524.2A Active CN112528005B (zh) 2020-12-25 2020-12-25 基于知识检索图和预训练模型的中文对话知识检索方法

Country Status (1)

Country Link
CN (1) CN112528005B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113295960A (zh) * 2021-04-16 2021-08-24 国网宁夏电力有限公司电力科学研究院 一种面向cps多维信息的配电网故障辨识方法
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003012681A1 (fr) * 2001-07-19 2003-02-13 France Telecom Procede et systeme d'enrichissement automatique de ressources semantiques a partir d'un systeme electronique temps reel de question-reponse
US20190057145A1 (en) * 2017-08-17 2019-02-21 International Business Machines Corporation Interactive information retrieval using knowledge graphs
CN110147451A (zh) * 2019-05-10 2019-08-20 北京云知声信息技术有限公司 一种基于知识图谱的对话命令理解方法
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN111026857A (zh) * 2019-12-10 2020-04-17 苏州思必驰信息科技有限公司 对话状态跟踪方法、人机对话方法及系统
CN111462749A (zh) * 2020-03-20 2020-07-28 北京邮电大学 基于对话状态导向和知识库检索的端到端对话系统及方法
CN111831813A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 对话生成方法、装置、电子设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003012681A1 (fr) * 2001-07-19 2003-02-13 France Telecom Procede et systeme d'enrichissement automatique de ressources semantiques a partir d'un systeme electronique temps reel de question-reponse
US20190057145A1 (en) * 2017-08-17 2019-02-21 International Business Machines Corporation Interactive information retrieval using knowledge graphs
CN110147451A (zh) * 2019-05-10 2019-08-20 北京云知声信息技术有限公司 一种基于知识图谱的对话命令理解方法
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN111026857A (zh) * 2019-12-10 2020-04-17 苏州思必驰信息科技有限公司 对话状态跟踪方法、人机对话方法及系统
CN111462749A (zh) * 2020-03-20 2020-07-28 北京邮电大学 基于对话状态导向和知识库检索的端到端对话系统及方法
CN111831813A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 对话生成方法、装置、电子设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO ZHOU ET AL.: "KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation", 《COMPUTER SCIENCE》 *
HAO ZHOU ET AL.: "KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation", 《COMPUTER SCIENCE》, 8 April 2020 (2020-04-08), pages 1 - 13 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113295960A (zh) * 2021-04-16 2021-08-24 国网宁夏电力有限公司电力科学研究院 一种面向cps多维信息的配电网故障辨识方法
CN113295960B (zh) * 2021-04-16 2022-06-24 国网宁夏电力有限公司电力科学研究院 一种面向cps多维信息的配电网故障辨识方法
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN114416941B (zh) * 2021-12-28 2023-09-05 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置

Also Published As

Publication number Publication date
CN112528005B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN110309267B (zh) 基于预训练模型的语义检索方法和系统
CN109376249B (zh) 一种基于自适应负采样的知识图谱嵌入方法
US20190377793A1 (en) Method and apparatus for establishing a hierarchical intent system
US20220036127A1 (en) Semantic image manipulation using visual-semantic joint embeddings
CN112528005B (zh) 基于知识检索图和预训练模型的中文对话知识检索方法
CN106547737A (zh) 基于深度学习的自然语言处理中的序列标注方法
CN111930894B (zh) 长文本匹配方法及装置、存储介质、电子设备
CN108038106B (zh) 一种基于上下文语义的细粒度领域术语自学习方法
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
US20200004786A1 (en) Corpus generating method and apparatus, and human-machine interaction processing method and apparatus
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN110889282A (zh) 一种基于深度学习的文本情感分析方法
CN109472019A (zh) 一种基于同义词典的短文本相似度匹配方法及系统
CN116756577B (zh) 模型训练方法、装置、设备及存储介质
CN110147414B (zh) 一种知识图谱的实体表征方法及装置
CN111191036A (zh) 短文本主题聚类方法、装置、设备及介质
Lyu et al. Deep learning for textual entailment recognition
CN112463982B (zh) 一种基于显隐式实体约束的关系抽取方法
CN114595336A (zh) 一种基于高斯混合模型的多关系语义解决模型
Viswanathan et al. Text to image translation using generative adversarial networks
CN114647717A (zh) 一种智能问答方法及装置
Rafi et al. A linear sub-structure with co-variance shift for image captioning
Zhao et al. Generating Textual Adversaries with Minimal Perturbation
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
Sun et al. GCNs-Based Context-Aware Short Text Similarity Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant