CN109597876B - 一种基于强化学习的多轮对话答复选择模型及其方法 - Google Patents

一种基于强化学习的多轮对话答复选择模型及其方法 Download PDF

Info

Publication number
CN109597876B
CN109597876B CN201811319709.2A CN201811319709A CN109597876B CN 109597876 B CN109597876 B CN 109597876B CN 201811319709 A CN201811319709 A CN 201811319709A CN 109597876 B CN109597876 B CN 109597876B
Authority
CN
China
Prior art keywords
context
context text
network module
word
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811319709.2A
Other languages
English (en)
Other versions
CN109597876A (zh
Inventor
林键
卓汉逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811319709.2A priority Critical patent/CN109597876B/zh
Publication of CN109597876A publication Critical patent/CN109597876A/zh
Application granted granted Critical
Publication of CN109597876B publication Critical patent/CN109597876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于强化学习的多轮对话答复选择模型及其方法,该模型包括:策略网络模块,采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列,并根据分类网络的分类结果获得延时奖励;上下文文本重构网络,根据所述策略网络模块输出的动作序列,重构出一个新的上下文文本;分类网络模块,将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新所述策略网络模块,本发明不仅能够自动地过滤掉与任务无关的词语,同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。

Description

一种基于强化学习的多轮对话答复选择模型及其方法
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于强化学习的多轮对话答复选择模型及其方法。
背景技术
目前构建闲聊型的聊天机器人的工作主要分类两种,一种是基于生成的聊天机器人,另外一种是基于检索的聊天机器人。而由于基于检索的聊天机器人是从实现定义好的索引中进行搜索,从当前对话中学习并选择回复的句子,因此回答的内容不会存在语法或者语义的错误,因此广受人们关注。
基于检索的聊天机器人的早期研究主要集中于研究单轮对话,而单轮对话只考虑上一个输入的句子,没有完全考虑对话的上下文。近年来,随着闲聊型聊天机器人的普及与深入,基于检索的多轮对话越来越受到人们的关注,如表1所示就是基于检索的多轮对话的一个例子。在多轮对话的答复选择中,将当前的消息和先前的话语作为输入,对话系统选择一个自然地、与对话上下文语义相关的句子作为相应,因此对话系统最重要的是要从之前的话语中找出重要的信息,并恰当地模仿话语之前的关系,以确保谈话的连贯性。
表1基于检索的多轮对话的一个例子
Figure BDA0001857209210000011
Figure BDA0001857209210000021
众所周知,多轮对话的难点在于不仅仅要考虑当前的提出的问题,还需要考虑到前几轮对话的情景以及上下文出现的信息。因此,基于检索的多轮对话的难点主要有两点:第一、如何从上下文中确定用于确定答复的关键信息,包括关键词、关键短语或者关键句等;第二、如何在上下文中模拟多轮对话之间的关系。
目前,基于检索的多轮对话的实现方法有不少,一种比较简单的方法是将上下文的句子拼接起来,然后与候选的答复做匹配,这种方法的缺点是由于对话上下文的冗余信息太多,导致引入很多多余的噪声。因此,多轮对话的关键是识别对话上下文中与答复相关的信息,然后对答句与相关信息之间的关系进行建模,有人提出了一种将答句与上文各个句子分别匹配的序列匹配模型(SMN)。
具体地,给定一个数据集
Figure BDA0001857209210000022
其中
Figure BDA0001857209210000023
表示对话的上下文,
Figure BDA0001857209210000024
表示上下文中的一个句子。ri是一个候选的回答,yi∈{0,1}表示一个类标。当yi=1表示ri是si的一个合理答复,否则yi=0。模型的目标是在数据集D上学习一个匹配模型g(·,·)。g(s,r)能够建模上下文-答复对(s,r)之间的关系。
而所述序列匹配模型SMN就是在建模g(s,r),SMN首先将上下文-答复对匹配问题分解为几个上下文句子-答复对匹配问题,然后使用循环神经网络将句子匹配的结果聚合起来。
SMN模型包含三个部分,第一部分是将候选的回答句子分别于上下文的各个句子进不同粒度(词语和词组级别)的匹配,然后使用一个卷积神经网络(CNN),提取其中包含的匹配信息。第二部分是使用一个门循环单元(GRU)将多个句子的匹配信息聚合起来。第三部分是使用第二部分的GRU中的隐藏状态来计算最后的匹配值。
然而,SMN模型仅仅通过计算两个句子间的不同词语词向量的矩阵乘积的结果来判断当前词语是否对最终的任务有作用,没有考虑到同一个句子中词与词之间的关联性,没有涉及到同一个上下文句子中词语之间的语义相关性。事实上,在上下文中选取的与答复句子相关的词或词语,彼此之间也是存在关联的。而SMN没有很好的考虑这些信息,而只是计算上下文句子单词与候选答复句子单词之间的一个关系。此外,上下文中不同的句子与答复句子的相关性是不同的,SMN模型同样没有考虑该问题。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于强化学习的多轮对话答复选择模型及其方法,以自动地从冗余的多个上下文句子中筛选出与任务相关的词语和词组用于任务后面的语义匹配,不仅能够自动地过滤掉与任务无关的词语,同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。
为达上述及其它目的,本发明提出一种基于强化学习的多轮对话答复选择模型,包括:
策略网络模块,用于采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列,并根据分类网络的分类结果获得延时奖励,以指导策略网络模块更新;
上下文文本重构网络,用于根据所述策略网络模块输出的动作序列,重构出一个新的上下文文本;
分类网络模块,用于将所述上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新所述策略网络模块。
优选地,所述动作包括保留或删除。
优选地,所述随机策略为:
π(at|st;θ)=sig mod(W*[hu,t-1;eu,t;e'u,t]+b)
其中π(at|st;θ)表示选择动作at的概率,θ={W,b}表示策略网络的参数,eu,t为上下文句子u在t状态下输入的词向量,hu,t-1表示上一状态下门循环网络GRU的隐藏状态向量,令
Figure BDA0001857209210000041
候选回答
Figure BDA0001857209210000042
其中er,i表示句子r中的第i个单词,对
Figure BDA0001857209210000043
Figure BDA0001857209210000044
et,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性。
优选地,所述上下文文本重构网络根据所述策略网络模块得到的动作序列,过滤掉冗余的单词,并将过滤后的上下文文本拼接起来,得到重构后的上下文文本。
优选地,所述分类网络模块包括:
双向门循环单元,用于将门循环单元的内部隐藏状态作为文本单词的表示,计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积,得到一个单词-单词的相似性矩阵;
卷积神经网络,用于提取该相似性矩阵中的关键特征;
全连接层,用于根据该关键特征获得最后的分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。
优选地,所述全连接层根据该关键特征获得最后的分类结果,然后通过计算真实分类标签与该分类结果的关系,得到一个奖励值,将该奖励值作为延迟奖励更新所述策略网络模块。
为达到上述目的,本发明还提供一种基于强化学习的多轮对话答复选择方法,包括如下步骤:
步骤S1,利用策略网络模块采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列;
步骤S2,利用上下文文本重构网络根据策略网络模块输出的动作序列,重构出一个新的上下文文本;
步骤S3,利用分类网络模块将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。
优选地,所述随机策略为:
π(at|st;θ)=sigmod(W*[hu,t-1;eu,t;e'u,t]+b)
其中π(at|st;θ)表示选择动作at的概率,θ={W,b}表示策略网络的参数,eu,t为上下文句子u在t状态下输入的词向量,hu,t-1表示上一状态下门循环网络GRU的隐藏状态向量,令
Figure BDA0001857209210000051
候选回答
Figure BDA0001857209210000052
其中er,i表示句子r中的第i个单词,对
Figure BDA0001857209210000054
Figure BDA0001857209210000053
et,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性。
优选地,于步骤S2中,利用所述上下文文本重构网络获得所述策略网络模块得到的动作序列,过滤掉冗余的单词,并将过滤后的上下文文本拼接起来,得到重构后的上下文文本。
优选地,步骤S3进一步包括:
步骤S300,将门循环单元的内部隐藏状态作为文本单词的表示,将重构后的上下文文本和候选回答句子,计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积,得到一个单词-单词的相似性矩阵;
步骤S301,利用卷积神经网络提取该相似性矩阵中的关键特征;
步骤S302,将该关键特征一个全连接层得到最后的分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。
与现有技术相比,本发明一种基于强化学习的多轮对话答复选择模型及其方法通过利用强化学习抽取上下文句子中关键信息,可自动地从冗余的多个上下文句子中筛选出与任务相关的词语和词组用于任务后面的语义匹配,本发明相较SMN模型而言,不仅能够自动地过滤掉与任务无关的词语,同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。
附图说明
图1为本发明一种基于强化学习的多轮对话答复选择模型的架构示意图;
图2为本发明具体实施例中策略网络模块的内部细节图;
图3为本发明具体实施例中分类网络模块的结构示意图;
图4为本发明一种基于强化学习的多轮对话答复选择方法的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
在介绍本发明之前,先对本发明所涉及的缩略语和关键术语定义如下:
深度学习:深度学习是由Hinton等人于2006年提出,是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别图像、文字等数据。
强化学习:强化学习是机器学习的其中一个领域,关注于如何在环境中采取行动,以取得最大化的预期利益,即智能体如何在环境给予的奖励或者惩罚的刺激下,逐步形成的奖励或者惩罚的刺激的预期,产生能获得最大利益的习惯性行为。强化学习和标准的监督学习之间的区别在于,它并不需要出现正确的输入/输出对,它更加强调与在线规划,需要在探索(在未知领域)和遵从(现有知识)之间找到平衡。
门循环单元(Gated recurrent units,GRUs):门循环单元是循环神经网络中的一种门控机制,由Kyunghyun等人在2014年提出,这种神经网络的在复调音乐建模和语音信号建模的性能与长短记忆记忆网络(LSTM)接近。但是,在小规模的数据集上,GRU的性能要比LSTM更好。
图1为本发明一种基于强化学习的多轮对话答复选择模型的架构示意图。如图1所示,本发明一种基于强化学习的多轮对话答复选择模型,包括:
策略网络模块10,用于采用随机策略,在各个状态空间下采样一个动作,从而对整个上下文文本得到一个动作序列,同时,策略网络模块10根据分类网络的分类结果获得延时奖励,以指导策略网络模块更新。也就是说,策略网络模块10采用随机策略,对上下文文本的各句子中的各个单词采样一个动作(保留或者删除),从而对整个上下文文本得到一个动作序列,同时根据分类网络的分类结果获得延时奖励,以指导策略网络模块更新。
在本发明具体实施例中,策略网络模块10采用随机策略π(at|st;θ),在策略网络模块10中,状态、动作、策略和奖励定义如下:
1、状态:当前输入的单词的词向量和该单词之前的上下文向量;
2、动作:定义两者不同的操作,包括保留和删除;
3、策略:如图2所示,使用随机策略对状态t下的动作at进行采样。令eu,t为上下文句子u在t状态下输入的词向量,hu,t-1表示上一状态下门循环网络GRU的隐藏状态向量,候选回答
Figure BDA0001857209210000071
其中er,i表示句子r中的第i个单词。对
Figure BDA0001857209210000072
Figure BDA0001857209210000073
et,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性。令
Figure BDA0001857209210000074
由此,可以定义策略为:
π(at|st;θ)=sigmod(W*[hu,t-1;eu,t;e'u,t]+b)
其中π(at|st;θ)表示选择动作at|的概率,θ={W,b}表示策略网络的参数。
4、奖励:当通过策略网络采样到动作序列后,就可以重构上下文文本,将重构后的上下文文本输入到分类网络模块当中,得到P(y|X),其中,y是类别标签,通过计算真实分类标签与P(y|X)的关系,可以得到一个奖励值。由于必须要得到最后的分类结果才能计算该奖励值,因此这是一个延时奖励,利用该延迟奖励可以指导策略网络模块更新。
上下文文本重构网络20,根据策略网络模块输出的动作序列,重构出一个新的上下文文本。
在本发明具体实施例中,上下文文本重构网络20根据由策略网络模块10得到的动作序列,过滤掉冗余的单词,例如“这”、“为了”等停用词,然后将过滤后的上下文文本拼接起来,得到重构后的上下文文本。
分类网络模块30,用于将上下文文本重构网络20重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块10。
图3为本发明具体实施例中分类网络模块30的结构示意图。在本发明具体实施例中,分类网络模块30包括:
双向门循环单元301,用于获取重构后的上下文文本和候选回答句子,将门循环单元的内部隐藏状态作为文本单词的表示,计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积,得到一个单词-单词的相似性矩阵;
卷积神经网络302,用于提取该相似性矩阵中的关键特征;
全连接层303,用于根据该关键特征获得最后的分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。在本发明具体实施例中,根据该关键特征获得最后的分类结果P(y|X),其中,y是类别标签,然后通过计算真实分类标签与P(y|X)的关系,可以得到一个奖励值,将该奖励值作为延迟奖励更新策略网络模块10。具体地,这里真实分类标签一般人为提供,利用损失函数计算预测分类与真实分类之间的差距得到损失值,奖励值即为损失值的相反数,较佳地,损失函数可使用交叉熵公式。
图4为本发明一种基于强化学习的多轮对话答复选择方法的步骤流程图。如图4所示,本发明一种基于强化学习的多轮对话答复选择方法,包括如下步骤:
步骤S1,利用策略网络模块采用随机策略,在各个状态空间下采样一个动作,从而对整个上下文文本得到一个动作序列。具体地,利用所述策略网络模块采用随机策略,对上下文文本的各句子中的各个单词采样一个动作(保留或者删除),从而对整个上下文文本得到一个动作序列,同时根据分类网络的分类结果获得延时奖励,以指导策略网络模块更新。
在本发明具体实施例中,所述策略网络模块采用随机策略π(at|st;θ),所述状态、动作、策略和奖励定义如下:
1、状态:当前输入的单词的词向量和该单词之前的上下文向量;
2、动作:定义两者不同的操作,包括保留和删除;
3、策略:定义随机策略如下:
π(at|st;θ)=sigmod(W*[hu,t-1;eu,t;e'u,t]+b)
其中π(at|st;θ)表示选择动作at的概率,θ={W,b}表示策略网络的参数,eu,t为上下文句子u在t状态下输入的词向量,hu,t-1表示上一状态下门循环网络GRU的隐藏状态向量,令
Figure BDA0001857209210000091
候选回答
Figure BDA0001857209210000092
其中er,i表示句子r中的第i个单词,对
Figure BDA0001857209210000093
Figure BDA0001857209210000094
et,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性。
4、奖励:当通过策略网络采样到动作序列后,就可以重构上下文文本,将重构后的上下文文本输入到分类网络模块当中,得到P(y|X),其中,y是类别标签,通过计算真实分类标签与P(y|X)的关系,可以得到一个奖励值。由于必须要得到最后的分类结果才能计算该奖励值,因此这是一个延时奖励,利用该延迟奖励可以指导策略网络模块更新。
步骤S2,利用上下文文本重构网络根据策略网络模块输出的动作序列,重构出一个新的上下文文本。
在本发明具体实施李中,可根据由策略网络模块得到的动作序列,过滤掉冗余的单词,比如“这”、“为了”等停用词,然后将过滤后的上下文文本拼接起来,得到重构后的上下文文本。
步骤S3,利用分类网络模块将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。
具体地,步骤S3进一步包括:
步骤S300,将门循环单元的内部隐藏状态作为文本单词的表示,将重构后的上下文文本和候选回答句子,计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积,得到一个单词-单词的相似性矩阵;
步骤S301,利用卷积神经网络提取该相似性矩阵中的关键特征;
步骤S302,将该关键特征一个全连接层得到最后的分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。在本发明具体实施例中,该关键特征经全连接层获得最后的分类结果P(y|X),其中,y为类别标签,最后通过计算真实分类标签与P(y|X)的关系,得到一个奖励值,将该奖励值作为延迟奖励更新策略网络模块。
综上所述,本发明一种基于强化学习的多轮对话答复选择模型及其方法通过利用强化学习抽取上下文句子中关键信息,可自动地从冗余的多个上下文句子中筛选出与任务相关的词语和词组用于任务后面的语义匹配,本发明相较SMN模型而言,不仅能够自动地过滤掉与任务无关的词语,同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (2)

1.一种基于强化学习的多轮对话答复选择方法,包括如下步骤:
步骤S1,利用策略网络模块采用随机策略,在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作,从而对整个上下文文本得到一个动作序列;
步骤S2,利用上下文文本重构网络根据策略网络模块输出的动作序列,重构出一个新的上下文文本;
步骤S3,利用分类网络模块将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配,最后得到分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块;
所述随机策略为:
π(atst;θ)=sigmod(W*[hu,t-1;eu,t;e'u,t]+b)
其中π(atst;θ)表示选择动作at的概率,θ、W、b表示策略网络的参数,且θ={W,b},eu,t为上下文句子u在t状态下输入的词向量,hu,t-1表示上一状态下门循环网络GRU的隐藏状态向量,令
Figure FDA0004044272360000011
候选回答
Figure FDA0004044272360000012
其中er,i表示句子r中的第i个单词,对
Figure FDA0004044272360000013
Figure FDA0004044272360000014
et,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性;
步骤S3进一步包括:
步骤S300,将门循环单元的内部隐藏状态作为文本单词的表示,将重构后的上下文文本和候选回答句子,计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积,得到一个单词-单词的相似性矩阵;
步骤S301,利用卷积神经网络提取该相似性矩阵中的关键特征;
步骤S302,将该关键特征一个全连接层得到最后的分类结果,并根据分类结果计算得到一个损失值,将该损失值作为延迟奖励更新策略网络模块。
2.如权利要求1所述的一种基于强化学习的多轮对话答复选择方法,其特征在于:于步骤S2中,利用所述上下文文本重构网络获得所述策略网络模块得到的动作序列,过滤掉冗余的单词,并将过滤后的上下文文本拼接起来,得到重构后的上下文文本。
CN201811319709.2A 2018-11-07 2018-11-07 一种基于强化学习的多轮对话答复选择模型及其方法 Active CN109597876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811319709.2A CN109597876B (zh) 2018-11-07 2018-11-07 一种基于强化学习的多轮对话答复选择模型及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811319709.2A CN109597876B (zh) 2018-11-07 2018-11-07 一种基于强化学习的多轮对话答复选择模型及其方法

Publications (2)

Publication Number Publication Date
CN109597876A CN109597876A (zh) 2019-04-09
CN109597876B true CN109597876B (zh) 2023-04-11

Family

ID=65957513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811319709.2A Active CN109597876B (zh) 2018-11-07 2018-11-07 一种基于强化学习的多轮对话答复选择模型及其方法

Country Status (1)

Country Link
CN (1) CN109597876B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135472B (zh) * 2019-04-25 2021-02-09 暗物智能科技(广州)有限公司 用于图像描述模型的奖赏的确定方法及电子设备
CN110347833B (zh) * 2019-07-09 2021-08-24 浙江工业大学 一种多轮对话的分类方法
CN110489730A (zh) * 2019-08-14 2019-11-22 腾讯科技(深圳)有限公司 文本处理方法、装置、终端及存储介质
CN110569344B (zh) * 2019-08-22 2023-06-02 创新先进技术有限公司 确定对话文本对应的标准问句的方法和装置
CN110597965B (zh) * 2019-09-29 2024-04-16 深圳市雅阅科技有限公司 文章的情感极性分析方法、装置、电子设备及存储介质
CN110866103B (zh) * 2019-11-08 2023-07-07 中山大学 一种对话系统中的句子多样性生成方法及系统
CN110826334B (zh) * 2019-11-08 2023-04-21 中山大学 一种基于强化学习的中文命名实体识别模型及其训练方法
CN111026848B (zh) * 2019-12-17 2022-08-02 电子科技大学 一种基于相似上下文和强化学习的中文词向量生成方法
CN111309914B (zh) * 2020-03-03 2023-05-09 支付宝(杭州)信息技术有限公司 基于多个模型结果对多轮对话的分类方法和装置
CN111966782B (zh) 2020-06-29 2023-12-12 百度在线网络技术(北京)有限公司 多轮对话的检索方法、装置、存储介质及电子设备
CN112507104B (zh) * 2020-12-18 2022-07-22 北京百度网讯科技有限公司 对话系统获取方法、装置、存储介质及计算机程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7679534B2 (en) * 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7451124B2 (en) * 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
CN108763504B (zh) * 2018-05-30 2020-07-24 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法

Also Published As

Publication number Publication date
CN109597876A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109597876B (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN110827806B (zh) 一种语音关键词检测方法及系统
CN111833853A (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
Xu et al. A comprehensive survey of automated audio captioning
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN117056494B (zh) 开放域问答的方法、装置、电子设备和计算机存储介质
Zelinka Using reinforcement learning to learn how to play text-based games
CN115186071A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN113033664A (zh) 问答模型训练方法、问答方法、装置、设备及存储介质
KR20220066554A (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
Surendran et al. Conversational AI-A retrieval based chatbot
CN112052320B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN116010563A (zh) 一种多轮对话数据分析方法、电子设备和存储介质
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant