CN116136870A - 基于增强实体表示的智能社交对话方法、对话系统 - Google Patents
基于增强实体表示的智能社交对话方法、对话系统 Download PDFInfo
- Publication number
- CN116136870A CN116136870A CN202310145173.1A CN202310145173A CN116136870A CN 116136870 A CN116136870 A CN 116136870A CN 202310145173 A CN202310145173 A CN 202310145173A CN 116136870 A CN116136870 A CN 116136870A
- Authority
- CN
- China
- Prior art keywords
- entity
- representation
- encoder
- knowledge
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000009826 distribution Methods 0.000 claims description 73
- 230000006870 function Effects 0.000 claims description 43
- 230000007246 mechanism Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000003997 social interaction Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明属于社交网络数据信息处理技术领域,公开了基于增强实体表示的智能社交对话方法、对话系统。服务器获取用户在社交平台前端界面输入的话语数据,经过模型处理后,返回系统生成的回复给用户;接收所述话语数据,利用对话生成模型通过查询检索到目标知识,并基于知识生成回复;利用多领域知识库以关系数据库的形式存储了多种类型知识的数据表。本发明提供一种基于增强实体表示的智能社交对话系统,能够理解用户的提问意图并从知识库中提取准确的信息,生成流利的回复,协助用户完成特定任务。该系统基于一种端到端的对话生成模型,能够解决传统管道式模型依赖大量人工标注、分成多个模块单独训练、难以适应新领域任务的问题。
Description
技术领域
本发明属于社交网络数据信息处理技术领域,尤其涉及基于增强实体表示的智能社交对话方法、对话系统。
背景技术
对话系统的构建方法通常有管道方法和端到端方法两类。管道方法通常将对话系统划分为多个模块,并以管道的方式连接所有模块。常见的系统框架包含自然语言理解、对话状态追踪、对话策略、自然语言生成四大模块,除对话策略模块外的其他三个模块独立训练,而对话策略模块在完整的系统中训练。自然语言生成模块通常基于“编码器-解码器”框架进行模型设计,从大量的语料中自动学习特征和知识。有一项研究提出了SC-GPT模型,首先通过自监督的方式在大量通用语料上训练模型,然后利用目标任务的少量标注数据对模型进行微调,以改进在数据稀缺的情况下训练自然语言生成模块的效果。
不同于管道方法,端到端方法支持对系统的所有模块共同训练。端到端对话系统通常以用户的话语作为输入,直接生成系统回复序列或者响应模块的输出,通常在“编码器-解码器”框架的基础上设计模型,并带有一个领域相关的知识库。因此,编码器将用户的输入编码为向量,作为查询向量检索外部知识库,检索到的知识作为解码器的一部分输入,最后生成满足用户目标的系统回复。一些研究提出了无注意力机制和有注意力机制的“序列到序列”模型,以及带复制机制的“序列到序列”模型,能够在生成过程中复制输入序列的词。还有一些研究在模型中融入记忆网络。其中一项研究提出了Mem2Seq模型,采用记忆网络编码对话历史和外部知识库为多个记忆单元,同时结合指针网络在生成对话时直接复制记忆单元的实体。记忆网络的多跳注意力机制有助于提升模型知识推理能力,并将知识融合到对话生成中。另一项研究提出了基于局部和全局的记忆指针网络模型,采用全局记忆编码器和局部记忆解码器的设计将共享的外部知识融入到学习框架中。这些方法都是将知识库的每个元素简单表示成三元组,拼接到对话历史中作为输入序列。
通过上述分析,现有技术存在的问题及缺陷为:现有管道方法数据标注成本高,不同模块需要标注的标签类型不同,通常需要特定领域的专家进行标注;模块之间相互依赖,容易造成误差传播,即中间某一模块出错,识别误差会影响到后续的模块;系统泛化能力差,大多数模块是以特定的领域和槽作为监督信号进行训练,难以扩展到未知领域或迁移已学知识到新的场景。现有的端到端方法在知识编码方面过于依赖实体嵌入作为实体表示,词表规模过大和参数过多,在实际应用场景下模型的泛化性能不足,难以应对“实体在训练语料中出现频次较低”、“用户的输入包含新的实体”、“外部知识库随时间动态更新”的情况。此外,将知识库的实体表示为若干个无序的三元组,并单独对每个实体编码,这种做法容易导致生成的系统回复实体不一致的问题。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了基于增强实体表示的智能社交对话方法、对话系统。
所述技术方案如下:基于增强实体表示的智能社交对话方法,包括以下步骤:
S1,服务器获取用户在社交平台前端界面输入的话语数据,经过对话生成模型处理后,返回系统生成的回复给用户;
S2,接收所述话语数据,利用对话生成模型查询检索到目标知识,并基于目标知识生成回复;
S3,利用多领域知识库以关系数据库的形式存储多种类型知识的数据表。所述多种类型知识包括经济知识、文化知识以及政治知识。
在步骤S1中,经过对话生成模型处理后,返回系统生成的回复给用户包括:
(i)利用社交平台后端服务器提供的接口获取用户提交到社交平台后端的内容,并利用该接口返回系统生成的回复;
(ii)在智能账号页面展示用户提交的内容,并用模拟界面操作的脚本返回系统生成的回复。
在步骤S2中,利用对话生成模型查询检索到目标知识,并基于目标知识生成回复包括:
利用对话历史编码器编码对话历史;
利用实体编码器获取上下文相关的实体表示和结构感知的实体表示;所述相关的实体包括时间、地点、人物、事件;
利用解码器基于对话的上下文表示和实体表示计算词汇分布和实体分布。
在一个实施例中,利用对话历史编码器编码对话历史包括:
将对话历史中的所有句子拼接成由m个词组成的单词序列X=(x1,...,xm),使用一个双向门控循环单元GRU编码单词序列为隐藏状态序列;双向门控循环单元包含一个前向门控循环单元和一个反向门控循环单元按反方向读入序列;定义如下:
两个门控循环单元GRU网络输出的隐藏状态拼接得到上下文相关的单词表示,即其中,表示拼接操作;H=(h1,...,hm)表示对话历史编码器输出的上下文感知的对话表示,其中hi包含第i个单词相对于两个方向上周围单词的信息。
在一个实施例中,利用实体编码器获取上下文相关的实体表示和结构感知的实体表示包括:
实体编码器包含上下文实体编码器和知识库实体编码器,分别获取上下文感知的实体表示和结构感知的实体表示;
利用实体识别的工具检测对话历史的所有实体;令表示对话历史包含的实体,(p1,...,pl)表示在输入序列X中对应的位置,其中l表示实体的数量,对于实体首先将实体嵌入和自身在对话历史编码器计算的隐藏状态拼接,接着传到非线性映射函数,定义如下:
对话历史编码器得到的隐藏状态hpi包含左右两个方向周围单词的信息。
在一个实施例中,利用解码器基于对话的上下文表示和实体表示计算词汇分布和实体分布包括:
st=GRU(E(wt-1),st-1)
其中,st表示第t个隐藏状态序列,GRU(·)表示门控循环单元,wt-1表示第t-1个目标词,st-1表示第t-1个隐藏状态序列,t为目标词的位次;
初始状态s0为fσ(hm);基于编码器(3)计算两种分布:实体分布和词汇分布;实体分布为关于实体在对话历史和外部知识库组成的实体集的概率分布,表示为Pentity;词汇分布为关于常用词在词汇表的概率分布,表示为Pvocab。
在一个实施例中,所述实体分布包括上下文实体分布和知识库实体分布;
上下文实体分布为在对话历史的所有实体,表示为Pc;知识库实体分布为在知识库的所有实体,表示为Pk;在每个时间步,对话生成模型的解码器通过一个匹配函数衡量实体表示和当前隐藏状态的相似性;对于对话历史内的实体:
其中,e表示对话历史和外部知识库组成的实体集;Wc是一种可训练的相似矩阵,用于衡量上下文实体表示与当前隐藏状态的相似性;exp(·)为以e为底的指数函数;T为转置操作;∑(·)为加和操作;i′表示隐藏状态的位次;
知识库实体分布采用分层注意力机制计算每个实体的概率,首先对话生成模型的解码器对同一行的所有实体执行平均池化操作得到行层次的匹配分数,接着计算实体层次的匹配分数:
其中,Wk是一种可训练的相似矩阵,用于衡量知识库实体表示与当前隐藏状态的相似性;是的平均池化,表示第i行的行层次表示;exp(·)为以e为底的指数函数;T为转置操作;∑(·)为加和操作;为隐藏状态序列长度;i、j和j′表示隐藏状态的位次;k为知识库实体标记;为行层次的匹配分数;
知识库实体分布为:
其中,为知识库实体分布;i、j表示实体的位次;利用开关网络融合上下文实体分布和知识库实体分布,开关网络为前向反馈网络后接逻辑斯蒂函数,输出一个0到1的实数表示上下文实体分布与知识库实体分布之间切换的概率;定义为:
gt=sigmoid(Wgst+bg)
其中Wg和bg为模型可训练的参数;sigmoid(·)为非线性激活函数;gt为开关网络输出结果。
在一个实施例中,解码器基于上下文编码器和实体编码器的注意力机制输出来计算词汇表中每个单词的概率大小;
注意力机制计算方法:
αi=softmax(ui)
ui=vTtanh(Ust+Vhi)
其中v,U和V为模型可训练的参数;对于实体编码器的实体表示,沿用开关网络计算的概率gt,用于权衡上下文感知的实体表示和结构感知的实体表示;所有的注意力输出向量与解码器的隐藏状态拼接后,经过线性层映射到词汇表空间后接归一化指数函数进行归一化得到词汇分布,用公式表示为:
其中Wv是模型可训练的参数;
在对话生成模型的参数优化过程中,首先将目标序列Y转化为模板序列Ys;模板序列指的是将目标序列中来自知识库的槽值替换成语义槽的标记后的序列;
解码器的门控循环单元的输入序列是模板序列Ys,在推测阶段,采取贪心解码的策略,每个时间步取中概率最大的词作为预测词;如果当前时刻预测的词是语义槽标记,取实体分布中概率最高的实体作为需要填充到时刻t的槽值;每个时间步生成的单词组合形成回复句子。
本发明的另一目的在于提供一种实现所述基于增强实体表示的智能社交对话方法的对话系统,该对话系统包括:
服务器负责获取用户在社交平台前端界面输入的话语数据,经过模型处理后,返回系统生成的回复给用户;
多领域知识库以关系数据库的形式存储了多种类型知识的数据表;
对话生成模型通过查询检索到目标知识,并基于知识生成回复。
在一个实施例中,所述对话生成模型包括:
对话历史编码器负责编码对话历史;
实体编码器负责获取上下文相关的实体表示和结构感知的实体表示,解码器负责基于对话的上下文表示和实体表示计算词汇分布和实体分布。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果,具体描述如下:
本发明提供一种基于增强实体表示的智能社交对话系统,能够理解用户的提问意图并从知识库中提取准确的信息,生成流利的回复,协助用户完成特定任务。该系统基于一种端到端的对话生成模型,能够解决传统管道式模型依赖大量人工标注、分成多个模块单独训练、难以适应新领域任务的问题,同时该模型使用了一种增强实体表示的方法,能够解决现有模型在知识表示方面依赖实体嵌入作为实体表示导致的泛化能力差、回复实体不一致、词表规模过大、参数过多的问题。
第二、把技术方案看作一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
实验结果表明,基于增强实体表示的对话生成模型能够理解和运用原本不存在于语料库和数据库的生词,生成比其他方法更流畅更准确的对话,并且能够在完成特定任务时生成相关知识实体,具有较强的知识推理能力。本发明所提技术方案具有通用性,可以应用到各类对话场景中,支持各种领域的知识库,具有十分广阔的应用前景。
第三、作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的实例化的软件系统,在简易接入特定领域的知识库后,可实现垂直领域的专家智能问答系统或通用的聊天对话系统,可作为产品进行售卖或提供收费服务,预计收益100万-200万,从而实现商业价值。
(2)本发明基于国内外已有技术进行功能模块的改进、工作流程的设计,从而实现目标功能的优化和性能的提升。
(3)本发明提升了端到端式对话系统生成回复的准确度和流畅度,使人机智能问答算法模型可用度得到显著提高。
(4)本领域技术人员普遍认为实际工程项目中,在生成回复的准确度和流畅度方面,端到端式对话系统构建方法比不上管道式对话系统构建方法,本发明克服了这种技术偏见,将对话生成模型中的编码器和解码器进行端到端的整体训练,最终同样达到项目可用效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;
图1是本发明实施例提供的基于增强实体表示的智能社交对话方法流程图;
图2是本发明实施例提供的基于增强实体表示的智能社交对话系统原理图;
图3是本发明实施例提供的对话生成模型整体框架示意图;
图中:1、服务器;2、多领域知识库;3、对话生成模型;3-1、对话历史编码器;3-2、实体编码器;3-3、解码器。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
一、解释说明实施例:
本发明创新地提出一种基于增强实体表示的智能社交对话方法,并适配性地应用到端到端的对话生成模型3中,有效提升智能社交对话系统生成回复文本的流畅度、准确性和鲁棒性。对话生成模型3使用实体在对话历史中的上下文和实体在外部知识库中的结构信息分别学习实体表示,增强了低频词和未知词实体表示的语义信息,并设计一种开关网络,通过门机制来控制不同实体表示之间的权重,促进解码器3-3融合知识进行对话生成。
具体的,如图1所示,本发明实施例提供的基于增强实体表示的智能社交对话方法包括:
S1,服务器1获取用户在社交平台前端界面输入的话语数据,经过对话生成模型3处理后,返回系统生成的回复给用户;
S2,接收所述话语数据,利用对话生成模型3通过查询检索到目标知识,并基于知识生成回复;
S3,利用多领域知识库2以关系数据库的形式存储了多种类型知识的数据表。所述多种类型知识包括经济知识、文化知识以及政治知识。
在步骤S1中,经过对话生成模型3处理后,返回系统生成的回复给用户包括:(1)利用社交平台后端服务器1提供的接口获取用户提交到社交平台后端的内容,并利用该接口返回系统生成的回复;
(2)获取用户提交输入后在智能账号页面展示的内容,并用模拟界面操作的脚本返回系统生成的回复。前者实时性高于后者。
实施例1
如图2所示,本发明实施例提供的基于增强实体表示的智能社交对话系统包含服务器1、多领域知识库2、对话生成模型3三部分,如图2所示。
服务器1负责获取用户在社交平台前端界面输入的话语数据,经过模型处理后,返回系统生成的回复给用户,主要有两种实现方式:一是利用社交平台后端服务器1提供的接口获取用户提交到社交平台后端的内容,并利用该接口返回系统生成的回复;二是获取用户提交输入后在智能账号页面展示的内容,并用模拟界面操作的脚本返回系统生成的回复。前者实时性高于后者。
多领域知识库2以关系数据库的形式存储了多种类型知识的数据表。
对话生成模型3通过查询检索到目标知识,并基于知识生成回复。在对话系统中,对话生成模型3的功能和性能决定了系统生成回复的质量,具有重要作用。
实施例2
本发明提出的对话生成模型3包含三个模块:对话历史编码器3-1、实体编码器3-2和解码器3-3,如图3所示。其中,对话历史编码器3-1负责编码对话历史,实体编码器3-2负责获取上下文相关的实体表示和结构感知的实体表示,解码器3-3负责基于对话的上下文表示和实体表示计算词汇分布和实体分布。所述相关的实体包括时间、地点、人物、事件。
其中,对话历史编码器3-1首先将对话历史中的所有句子拼接成由m个词组成的单词序列X=(x1,...,xm),接着使用一个双向门控循环单元(Gate Recurrent Unit,GRU)编码单词序列为隐藏状态序列。双向门控循环单元包含一个前向门控循环单元(按从左到右的方向读入序列)和一个反向门控循环单元按反方向读入序列。定义如下:
H=(h1,...,hm)表示对话历史编码器3-1输出的上下文感知的对话表示,其中hi包含第i个单词相对于两个方向上周围单词的信息。
实体编码器3-2包含上下文实体编码器和知识库实体编码器,分别获取上下文感知的实体表示和结构感知的实体表示。下面详细地介绍这两个实体编码器的计算过程,并阐述如何减少对实体嵌入的依赖。
在上下文实体编码器中,首先,本发明利用实体识别的工具检测对话历史的所有实体。令表示对话历史包含的实体,(p1,...,pl)表示在输入序列X中对应的位置,其中l表示实体的数量。对于实体首先将实体嵌入和自身在对话历史编码器3-1计算的隐藏状态拼接,接着传到非线性映射函数,定义如下:
由于对话历史编码器3-1得到的隐藏状态hpi包含左右两个方向周围单词的信息,因此相同内容的实体有不同的上下文敏感表示。基于此实体表示,即使是词表中未登记的实体也具备丰富的语义信息,因为它捕捉了上下文信息。
在知识库实体编码器中,本发明将外部知识库包含的所有槽值都看作是实体。令表示外部知识库包含的实体。为了捕捉实体与对话历史中近似词之间的语义表示,本发明为每个实体引入软对齐的词嵌入表示。首先,本发明定义了一种对齐函数:
这里fσ(·)同样是一个单层前向反馈网络后接ReLU激活函数。接着,拼接实体嵌入和对应的对齐上下文嵌入,传入非线性映射函数:
然而,仅仅使用上面的对齐函数编码每一个实体忽视了知识库内部的结构信息。在知识库中,每个实体属于不同的记录,且同一记录的实体之间存在相关关系。这种相关关系能够赋予实体结构感知的实体表示,对提高知识库的建模性能具有重要意义。因此,本发明将每个实体看作是图的顶点,且每一条记录的各个实体通过两两相连组成一个多关系有向完全图,关系为被指向实体的语义槽。本发明采用多关系图卷积网络获取节点表示:
其中是模型可训练的参数;|Ni,j|是归一化常数,表示第i行记录中除了实体的实体数量;σ(·)表示元素级激活函数,如ReLU函数。对于每个实体,不仅通过W0矩阵进行自线性转化,而且通过关系相关的Wj矩阵聚集邻居节点的其他信息。因此,即使实体拥有相同内容,模型也能够通过不同的关系结构捕捉结构相关的语义信息。
st=GRU(E(wt-1),st-1)
其中,st表示第t个隐藏状态序列,GRU(·)表示门控循环单元,wt-1表示第t-1个目标词,st-1表示第t-1个隐藏状态序列,t为目标词的位次;
其中初始状态s0为fσ(hm)。基于编码器计算两种分布:实体分布和词汇分布。其中,实体分布是关于实体在对话历史和外部知识库组成的实体集的概率分布,表示为Pentity;词汇分布是关于常用词在词汇表的概率分布,表示为Pvocab。下面逐一描述两种分布的计算过程。
实体分布包含两部分,上下文实体分布和知识库实体分布。其中,上下文实体分布仅考虑在对话历史的所有实体,表示为Pc;知识库实体分布仅考虑在知识库的所有实体,表示为Pk。在每个时间步,对话生成模型3的解码器3-3通过一个匹配函数衡量实体表示和当前隐藏状态的相似性。对于对话历史内的实体:
其中,e表示对话历史和外部知识库组成的实体集;Wc是一种可训练的相似矩阵,用于衡量上下文实体表示与当前隐藏状态的相似性;
exp(·)为以e为底的指数函数;T为转置操作;∑(·)为加和操作;i′表示隐藏状态的位次;
对于知识库内的实体,本发明采用一种分层注意力机制计算每个实体的概率。具体来说,首先对话生成模型3的解码器3-3对同一行的所有实体执行平均池化操作得到行层次的匹配分数,接着计算实体层次的匹配分数:
其中,Wk是一种可训练的相似矩阵,用于衡量知识库实体表示与当前隐藏状态的相似性;是的平均池化,表示第i行的行层次表示,为隐藏状态序列长度;exp(·)为以e为底的指数函数;T为转置操作;∑(·)为加和操作;i、j和j′表示隐藏状态的位次;k为知识库实体标记;为行层次的匹配分数;
因此,知识库实体分布为:
其中,为知识库实体分布;i、j表示实体的位次;为了更好地融合上下文实体分布和知识库实体分布,而不是简单地将两者按对应元素相加。本发明提出一个开关网络。开关网络是一个前向反馈网络后接逻辑斯蒂函数(sigmoid函数),输出一个0到1的实数表示上下文实体分布与知识库实体分布之间切换的概率。定义为:
gt=sigmoid(Wgst+bg)
其中Wg和bg为模型可训练的参数;sigmoid(·)为非线性激活函数;gt为开关网络输出结果。
因为注意力机制允许解码器3-3动态地决定上下文表示和实体表示的重要性,所以解码器3-3基于上下文编码器和实体编码器3-2的注意力输出来计算词汇表中每个单词的概率大小。
对于对话历史编码器3-1的上下文表示,本发明使用注意力机制计算方法:
αi=softmax(ui)
ui=vTtanh(Ust+Vhi)
其中v,U和V为模型可训练的参数。对于实体编码器3-2的实体表示,沿用上述开关网络计算的概率gt,用于权衡上下文感知的实体表示和结构感知的实体表示。所有的注意力输出向量与解码器3-3的隐藏状态拼接后,经过线性层映射到词汇表空间后接归一化指数函数(Softmax函数)进行归一化得到词汇分布,用公式表示为:
其中Wv是模型可训练的参数。
在对话生成模型3的参数优化过程中,首先将目标序列Y转化为模板序列Ys。模板序列指的是将目标序列中来自知识库的槽值替换成语义槽的标记后的序列。例如,系统回复“深圳的气温为26度”会转化成“@地点的气温为@温度”,其中“@地点”和“@气温”分别代表任何可能的地点位置和任何可能的温度值。在训练阶段,令表示转化后的模板序列,模型通过最小化词汇分布和实体分布的负对数似然来更新模型参数。其中损失函数定义为:
否则为目标序列中的实体,即另外,解码器3-3的门控循环单元的输入序列是模板序列Ys。在推测阶段,本发明采取贪心解码的策略,即每个时间步取中概率最大的词作为预测词。如果当前时刻预测的词是语义槽标记,那么模型取实体分布中概率最高的实体作为需要填充到时刻t的槽值。每个时间步生成的单词组合形成回复句子。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程。
二、应用实施例:
应用例
本发明实施例提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。
本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。
本发明实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
三、实施例相关效果的证据:
为验证所提技术方案的有效性和先进性,本发明在两个真实的智能社交对话系统应用上进行了大量对比实验和模拟实验。使用常用评估指标BLEU分数和Entity F1分数衡量模型的流畅度和准确度。在对比实验中,将本发明所提的对话生成模型3与其他技术人员提出的3个对话生成模型3在相同环境下使用,对比使用效果。在模拟实验中,本发明进行一种词表外测试,修改了数据集中部分语义槽对应的值,替换成不在词表出现的新词,旨在验证在实际应用情境下本技术方案能否应对词表外的情况。两个实验的结果均表明,本发明所提技术方案获得了最高的BLEU分数和Entity F1分数,当数据集中出现大量新词时,其他模型性能明显下降,而本发明所提技术方案呈现出的性能仅小幅度下降,影响可控。可见,基于增强实体表示的对话生成模型3能够理解和运用原本不存在于语料库和数据库的生词,生成比其他方法更流畅更准确的对话,并且能够在完成特定任务时生成相关知识实体,具有较强的知识推理能力,能有效提高泛化能力,在大型知识库的场景下避免了词表规模过大和模型参数过多问题。本发明所提技术方案具有通用性,可以应用到各类对话场景中,支持各种领域的知识库,具有十分广阔的应用前景。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于增强实体表示的智能社交对话方法,其特征在于,该方法包括以下步骤:
S1,服务器(1)获取用户在社交平台前端界面输入的话语数据,经过对话生成模型(3)处理后,返回系统生成的回复给用户;
S2,接收所述话语数据,利用对话生成模型(3)查询检索到目标知识,并基于目标知识生成回复;
S3,利用多领域知识库(2)以关系数据库的形式存储经济知识类型、文化知识类型以及政治知识类型知识的数据表。
2.根据权利要求1所述的基于增强实体表示的智能社交对话方法,其特征在于,在步骤S1中,经过对话生成模型(3)处理后,返回系统生成的回复给用户包括:
(i)利用社交平台后端服务器提供的接口获取用户提交到社交平台后端的内容,并利用该接口返回系统生成的回复;
(ii)在智能账号页面展示用户提交的内容,并用模拟界面操作的脚本返回系统生成的回复。
3.根据权利要求1所述的基于增强实体表示的智能社交对话方法,其特征在于,在步骤S2中,利用对话生成模型(3)查询检索到目标知识,并基于目标知识生成回复包括:
利用对话历史编码器(3-1)编码对话历史;
利用实体编码器(3-2)获取上下文相关的实体表示和结构感知的实体表示;所述相关的实体包括时间、地点、人物、事件;
利用解码器(3-3)基于对话的上下文表示和实体表示计算词汇分布和实体分布。
4.根据权利要求3所述的基于增强实体表示的智能社交对话方法,其特征在于,利用对话历史编码器(3-1)编码对话历史包括:
将对话历史中的所有句子拼接成由m个词组成的单词序列X=(x1,...,xm),使用一个双向门控循环单元GRU编码单词序列为隐藏状态序列;双向门控循环单元包含一个前向门控循环单元和一个反向门控循环单元按反方向读入序列;定义如下:
5.根据权利要求3所述的基于增强实体表示的智能社交对话方法,其特征在于,利用实体编码器(3-2)获取上下文相关的实体表示和结构感知的实体表示包括:
实体编码器(3-2)包含上下文实体编码器和知识库实体编码器,分别获取上下文感知的实体表示和结构感知的实体表示;
利用实体识别的工具检测对话历史的所有实体;令表示对话历史包含的实体,(p1,...,pl)表示在输入序列X中对应的位置,其中l表示实体的数量,对于实体首先将实体嵌入和自身在对话历史编码器(3-1)计算的隐藏状态拼接,接着传到非线性映射函数,定义如下:
6.根据权利要求3所述的基于增强实体表示的智能社交对话方法,其特征在于,利用解码器(3-3)基于对话的上下文表示和实体表示计算词汇分布和实体分布包括:
st=GRU(E(wt-1),st-1)
其中,st表示第t个隐藏状态序列,GRU(·)表示门控循环单元,wt-1表示第t-1个目标词,st-1表示第t-1个隐藏状态序列,t为目标词的位次;
7.根据权利要求6所述的基于增强实体表示的智能社交对话方法,其特征在于,所述实体分布包括上下文实体分布和知识库实体分布;
上下文实体分布为在对话历史的所有实体,表示为Pc;知识库实体分布为在知识库的所有实体,表示为Pk;在每个时间步,解码器(3-3)通过一个匹配函数衡量实体表示和当前隐藏状态的相似性;对于对话历史内的实体:
其中,e表示对话历史和外部知识库组成的实体集;Wc是一种可训练的相似矩阵,用于衡量上下文实体表示与当前隐藏状态的相似性;exp(·)为以e为底的指数函数;T为转置操作;∑(·)为加和操作;i′表示隐藏状态的位次;
知识库实体分布采用分层注意力机制计算每个实体的概率,首先解码器(3-3)对同一行的所有实体执行平均池化操作得到行层次的匹配分数,接着计算实体层次的匹配分数:
其中,Wk是一种可训练的相似矩阵,用于衡量知识库实体表示与当前隐藏状态的相似性;是的平均池化,表示第i行的行层次表示,为隐藏状态序列长度;exp(·)为以e为底的指数函数;T为转置操作;∑(·)为加和操作;i、j和j′表示隐藏状态的位次;k为知识库实体标记;为行层次的匹配分数;
知识库实体分布为:
其中,为知识库实体分布;i、j表示实体的位次;利用开关网络融合上下文实体分布和知识库实体分布,开关网络为前向反馈网络后接逻辑斯蒂函数,输出一个0到1的实数表示上下文实体分布与知识库实体分布之间切换的概率;定义为:
gt=sigmoid(Wgst+bg)
其中,Wg和bg为模型可训练的参数;sigmoid(·)为非线性激活函数;gt为开关网络输出结果。
8.根据权利要求3所述的基于增强实体表示的智能社交对话方法,其特征在于,解码器(3-3)基于上下文编码器和实体编码器(3-2)的注意力机制输出来计算词汇表中每个单词的概率大小;
注意力机制计算方法:
αi=softmax(ui)
ui=vTtanh(Ust+Vhi)
其中,v,U,V为模型可训练的参数;对于实体编码器(3-2)的实体表示,沿用开关网络计算的概率gt,用于权衡上下文感知的实体表示和结构感知的实体表示;所有的注意力输出向量与解码器(3-3)的隐藏状态拼接后,经过线性层映射到词汇表空间后接归一化指数函数进行归一化得到词汇分布,用公式表示为:
其中Wv是模型可训练的参数;
在对话生成模型(3)的参数优化过程中,首先将目标序列Y转化为模板序列Ys;模板序列指的是将目标序列中来自知识库的槽值替换成语义槽的标记后的序列;
9.一种实现如权利要求1-8任意一项所述基于增强实体表示的智能社交对话方法的对话系统,其特征在于,该对话系统包括:
服务器(1)负责获取用户在社交平台前端界面输入的话语数据,经过模型处理后,返回系统生成的回复给用户;
多领域知识库(2)以关系数据库的形式存储了多种类型知识的数据表;
对话生成模型(3)通过查询检索到目标知识,并基于知识生成回复。
10.根据权利要求9所述的对话系统,其特征在于,所述对话生成模型(3)包括:
对话历史编码器(3-1)负责编码对话历史;
实体编码器(3-2)负责获取上下文相关的实体表示和结构感知的实体表示,
解码器(3-3)负责基于对话的上下文表示和实体表示计算词汇分布和实体分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310145173.1A CN116136870A (zh) | 2023-02-21 | 2023-02-21 | 基于增强实体表示的智能社交对话方法、对话系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310145173.1A CN116136870A (zh) | 2023-02-21 | 2023-02-21 | 基于增强实体表示的智能社交对话方法、对话系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116136870A true CN116136870A (zh) | 2023-05-19 |
Family
ID=86334534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310145173.1A Pending CN116136870A (zh) | 2023-02-21 | 2023-02-21 | 基于增强实体表示的智能社交对话方法、对话系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116136870A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628160A (zh) * | 2023-05-24 | 2023-08-22 | 中南大学 | 一种基于多知识库的任务型对话方法、系统及介质 |
CN117093679A (zh) * | 2023-06-19 | 2023-11-21 | 无码科技(杭州)有限公司 | 一种大语言模型智能问诊对话方法、系统、设备及介质 |
CN118503391A (zh) * | 2024-07-12 | 2024-08-16 | 北京珊瑚礁科技有限公司 | 基于自适应连接的神经网络的对话方法及系统 |
-
2023
- 2023-02-21 CN CN202310145173.1A patent/CN116136870A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628160A (zh) * | 2023-05-24 | 2023-08-22 | 中南大学 | 一种基于多知识库的任务型对话方法、系统及介质 |
CN116628160B (zh) * | 2023-05-24 | 2024-04-19 | 中南大学 | 一种基于多知识库的任务型对话方法、系统及介质 |
CN117093679A (zh) * | 2023-06-19 | 2023-11-21 | 无码科技(杭州)有限公司 | 一种大语言模型智能问诊对话方法、系统、设备及介质 |
CN117093679B (zh) * | 2023-06-19 | 2024-04-02 | 无码科技(杭州)有限公司 | 一种大语言模型智能问诊对话方法、系统、设备及介质 |
CN118503391A (zh) * | 2024-07-12 | 2024-08-16 | 北京珊瑚礁科技有限公司 | 基于自适应连接的神经网络的对话方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN107562792B (zh) | 一种基于深度学习的问答匹配方法 | |
CN110428010B (zh) | 知识追踪方法 | |
CN112069302B (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN112116092B (zh) | 可解释性知识水平追踪方法、系统和存储介质 | |
CN111553479B (zh) | 一种模型蒸馏方法、文本检索方法及装置 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN116136870A (zh) | 基于增强实体表示的智能社交对话方法、对话系统 | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN110457718B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN113486665B (zh) | 隐私保护文本命名实体识别方法、装置、设备及存储介质 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN112084301B (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN112860847B (zh) | 视频问答的交互方法及系统 | |
CN115345169A (zh) | 一种基于知识增强的文本生成模型及其训练方法 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN111368058A (zh) | 一种基于迁移学习的问答匹配方法 | |
CN118261163B (zh) | 基于transformer结构的智能评价报告生成方法及系统 | |
CN115186147B (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN115238691A (zh) | 基于知识融合的嵌入的多意图识别与槽位填充模型 | |
CN114155477B (zh) | 一种基于平均教师模型的半监督视频段落定位方法 | |
CN116662591A (zh) | 一种基于对比学习的鲁棒视觉问答模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |