CN112084300A - 响应信息输出方法、装置、电子设备及可读存储介质 - Google Patents
响应信息输出方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112084300A CN112084300A CN202010791077.0A CN202010791077A CN112084300A CN 112084300 A CN112084300 A CN 112084300A CN 202010791077 A CN202010791077 A CN 202010791077A CN 112084300 A CN112084300 A CN 112084300A
- Authority
- CN
- China
- Prior art keywords
- node
- model
- preset
- response
- preset model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000004044 response Effects 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 230000002787 reinforcement Effects 0.000 claims abstract description 100
- 238000012549 training Methods 0.000 claims abstract description 84
- 238000012546 transfer Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 14
- 230000009471 action Effects 0.000 description 74
- 230000006399 behavior Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 241000251468 Actinopterygii Species 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 235000015277 pork Nutrition 0.000 description 7
- 239000000796 flavoring agent Substances 0.000 description 5
- 235000019634 flavors Nutrition 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种响应消息输出方法、装置、存储介质和电子设备,所述响应信息输出方法,所述方法包括:获得当前节点的信息;将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;输出所述目标响应节点的信息;其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。在模型针对每次输入而得到的输出结果的基础上,对模型施加即时奖惩,以使模型根据获得的即时奖惩进行迭代更新,从而提高强化学习的效率。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种响应信息输出方法、装置、电子设备及可读存储介质。
背景技术
目前机器学习的学习方法大致可以分为以下三种:监督学习、无监督学习和强化学习。
其中,强化学习(Deep Reinforcement Learning(DRL))是一个通过奖惩来学习正确行为的机制。基于学习过程中是否有模型,强化学习又可以分为基于模型的强化学习和无模型强化学习。
其中,目前的基于模型的强化学习中,模型通常通过以下两种方法获得奖惩:
一、通过人工标注对模型施加奖惩。具体地,通过人工的方式设定统一的评价标准,并基于该评价标准对模型输出的结果进行行为标注,并基于标注结果对模型施加奖惩。这种方法的优点在于人工标注的数据准确率较高,数据噪声小;但这种方法受限于人工所能标注的数据总是有限的,只能适用于实验室中单一化且数据小型化的应用场景,难以适用于工业中多样化且数据大型化(百万量级)的应用场景。
二、延迟奖励机制。具体地,为模型设定期望目标,基于模型最终是否达成期望目标对模型施加奖惩。这种方法总是在模型的最终输出结果上进行决策,以确定该如何对模型施加奖惩,导致模型收敛至期望的最优态的效率较低,进而导致学习时间较为漫长。
发明内容
本申请实施例提供一种响应信息输出方法、装置、电子设备及可读存储介质,以解决相关技术中强化学习效率较低,难以获得适于工业应用的决策预测模型的技术问题。
本申请实施例第一方面提供了一种响应信息输出方法,所述方法包括:
获得当前节点的信息;
将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;
输出所述目标响应节点的信息;
其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
可选地,所述响应节点预测模型是通过以下步骤得到的:
以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点;
其中,在对所述预设模型进行多次强化学习训练的过程中:
根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点;
根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新;
对更新后的预设模型进行下一次强化学习训练。
可选地,每次强化学习训练的奖励值是按照以下方式确定的:
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度大于预设阈值的情况下,确定本次强化学习训练的奖励值为第一奖励值;
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度不大于所述预设阈值的情况下,确定本次强化学习训练的奖励值为第二奖励值;
其中,所述第二奖励值小于所述第一奖励值。
可选地,所述响应节点预测模型是基于任务的响应节点预测模型;所述方法还包括:
在所述预设模型本次预测的响应节点为终止节点时,判断所述终止节点是否携带任务已完成标签;
在所述终止节点携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第一总奖励值;
在所述终止节点未携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第二总奖励值,所述第二总奖励值小于所述第一总奖励值;
根据所述预设模型的总奖励值,对所述预设模型进行更新。
可选地,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,根据所述预设模型多次强化学习训练的奖励值,确定所述预设模型的累计奖励期望值;
根据所述预设模型的累计奖励期望值,对所述预设模型进行更新。
可选地,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,确定所述预设模型每次预测的响应节点与预设期望响应节点之间的差异值,确定所述预设模型的累计差异值;
根据所述预设模型的累计奖励期望值,对所述预设模型进行更新,包括:
根据所述预设模型的累计差异值和所述预设模型的累计奖励期望值,对所述预设模型进行更新。
可选地,所述响应节点预测模型为会话响应消息预测模型;获得当前节点的信息,包括:
获得用户针对本轮对话所输入的待响应对话消息;
对所述待响应对话消息进行意图识别,确定用户意图;
根据所述用户意图,确定关键词;
将所述关键词与预设对话结构中的节点进行匹配,以确定当前节点的信息。
可选地,所述预设对话结构是按照以下步骤生成的:
获得多轮历史对话消息,一轮历史对话消息包括用户输入的对话消息和相应的预设响应消息;
对所述多轮历史对话消息进行解析,以得到包含不同对话消息之间的转移关系的预设对话结构。
本申请实施例第二方面提供一种响应信息输出装置,所述装置包括:
第一信息获取模块,用于获得当前节点的信息;
第一信息输入模块,用于将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;
第一信息输出模块,用于输出所述目标响应节点的信息;
其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
可选地,所述响应节点预测模型是通过以下的单元执行的步骤得到的:
第一信息输入单元,用于以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点;
其中,所述第一信息输入单元包括:
第一确定子单元,用于根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点;
第一更新子单元,用于根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新;
第一循环子单元,用于对更新后的预设模型进行下一次强化学习训练。
可选地,所述第一确定子单元,包括:
第一奖励值确定子单元,用于在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度大于预设阈值的情况下,确定本次强化学习训练的奖励值为第一奖励值;
第二奖励值确定子单元,用于在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度不大于所述预设阈值的情况下,确定本次强化学习训练的奖励值为第二奖励值;
其中,所述第二奖励值小于所述第一奖励值。
可选的,所述响应节点预测模型是基于任务的响应节点预测模型;所述装置还包括:
第一判断模块,用于在所述预设模型本次预测的响应节点为终止节点时,判断所述终止节点是否携带任务已完成标签;
第一总奖励值确定模块,用于在所述终止节点携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第一总奖励值;
第二总奖励值确定模块,用于在所述终止节点未携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第二总奖励值,所述第二总奖励值小于所述第一总奖励值;
第一更新模块,用于根据所述预设模型的总奖励值,对所述预设模型进行更新。
可选地,所述装置还包括:
累计奖励期望值确定模块,用于在对所述预设模型进行多次强化学习训练的过程中,根据所述预设模型多次强化学习训练的奖励值,确定所述预设模型的累计奖励期望值;
第二更新模块,用于根据所述预设模型的累计奖励期望值,对所述预设模型进行更新。
可选地,所述装置还包括:
累计差异值确定模块,用于在对所述预设模型进行多次强化学习训练的过程中,确定所述预设模型每次预测的响应节点与预设期望响应节点之间的差异值,确定所述预设模型的累计差异值;
第二更新模块,还用于根据所述预设模型的累计差异值和所述预设模型的累计奖励期望值,对所述预设模型进行更新。
可选地,所述响应节点预测模型为会话响应消息预测模型;第一信息获取模块包括:
第一信息获取子模块,用于获得用户针对本轮对话所输入的待响应对话消息;
意图识别子模块,用于对所述待响应对话消息进行意图识别,确定用户意图;
第一确定子模块,用于根据所述用户意图,确定关键词;
第二确定子模块,用于将所述关键词与预设对话结构中的节点进行匹配,以确定当前节点的信息。
可选地,所述预设对话结构是按照以下单元执行的步骤生成的:
历史对话消息获得单元,用于获得多轮历史对话消息,一轮历史对话消息包括用户输入的对话消息和相应的预设响应消息;
解析单元,用于对所述多轮历史对话消息进行解析,以得到包含不同对话消息之间的转移关系的预设对话结构。
本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
采用本申请实施例提供的响应信息输出方法,适用于基于模型的强化学习,在模型针对每次输入而得到的输出结果的基础上,即时对每次的输出结果进行评估,并根据即时评估结果对模型施加即时奖惩,以使模型根据获得的即时奖惩进行迭代更新,使得模型获得的奖惩即时而密集,根据即时奖惩地对模型进行即时更新,从而提高强化学习的效率,进而使得模型快速收敛至期望的最优态。相较于人工标注行为的方式,可实施性也更高。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是相关技术中的任务型对话系统的结构示意图;
图2是相关技术中将任务型对话系统应用于智能客服的对话示意图;
图3是本申请一实施例提出的响应信息输出方法的流程图;
图4是外卖领域中售后服务的知识结构图谱的示意图;
图5是本申请另一实施例提出的响应信息输出方法的流程图;
图6是本申请一实施例提出的响应信息输出装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在基于模型的强化学习中,对模型的预测结果进行评估,并基于评估结果对模型施以奖惩的决策,关乎模型是否能收敛至期望的最优态以及模型训练(收敛至期望的最优态)的效率的高低。需要说明,在强化学习中,奖惩是个相对的概念,当模型作出符合期望的动作时,则给予相对较大的奖励值,以示嘉奖;当模型作出不符合期望的动作时,则给予相对较小的奖励值,以示惩戒(后文不再详细解释说明)。
这种形式的强化学习更正式地称为马尔可夫决策过程(Markov DecisionProcess,MDP)。MDP是一个离散时间随机控制的过程,这意味着在每个时间步,在状态n下,决策者可以选择任何可用的行动状态an,这个过程将在下一步(n+1)转态时反应,随机移动到一个新的状态an+1,给决策者一个奖励。进程进入新状态的概率p由所选动作决定。因此,下一个状态取决于当前状态和决策者的行为。给定状态和操作,下一步完全独立于之前的所有状态和操作。
在本申请中,主要以多轮对话模型的训练进行说明,因此下面先对多轮对话模型做简要介绍,并结合对话模型说明当前强化学习中主要存在的一些技术缺陷。本申请中虽然主要以多轮对话模型的强化学习介绍本申请中的响应信息输出方法,但是应当声明的是,并不局限于此,本申请中的响应信息输出方法可以适用于各种基于模型的强化学习中,例如还可以适用于自动控制模型——如机器人的自动控制模型、计算机游戏决策模型、资源调度模型——如市场战略最优化模型以及其他用户交互模型等。也就是说,本申请中虽然主要介绍多轮对话模型的强化学习,但这不应当理解为是对本申请的限制。
在任务型对话系统(一种多轮对话系统;在对话系统中,用户发出提问、系统给出答复的“一问一答”的过程称为“一轮对话”)中,用户以自然语言的形式与任务型对话系统进行交互,以指示任务型对话系统完成用户指定的任务。参考图1,图1是相关技术中的任务型对话系统的结构示意图。任务型对话系统包括:
语音识别模块(ASR):用于对用户输入的自然语音进行语音识别,以将用户输入的自然语音转换成自然语言文本(常记为“用户对话语句Xt”,t为正整数,表示对话节点,也即对话轮次);
自然语言理解模块(NLU):用于对用户输入的自然语音文本Xt或语音识别获得自然语音文本Xt进行语义理解,以提取出用户的用户意图和相应的槽位(常记为“用户动作Ut”)。
对话管理模块(DM):DM又包括对话状态追踪子模块(DST)和对话策略学习子模块(DPL)两个子模块;其中,DST用于对Ut进行追踪,并确定当前的对话状态(常记为“对话状态St”);DPL用于根据DST确定的对话状态St,确定对话策略,根据对话策略决定系统下一步执行的系统动作(常记为“系统动作at+1”)。系统动作与用户意图类似,也由意图和槽位构成。
自然语言生成模块(NLG):用于将DM输出的at+1转换成自然语言文本(常记为“系统对话语句Yt+1”),并反馈给用户。
语音合成模块(TTS):用于将NLG转换得到的Yt+1合成为自然语音并输出。
其中,ASR和TTS并不是系统必备的模块,ASR和TTS主要是用于使任务型对话系统基于语音与用户进行交互,可以根据实际需求设置和执行相应的工作。参考图2,图2是相关技术中将任务型对话系统应用于智能客服的对话示意图。
在本申请中,当利用上述的任务型对话模型进行强化学习时,主要就是对DM进行优化训练,以使DM收敛至期望的最优态,即使得DM对Ut进行识别后,并根据识别结果St而输出的系统动作at+1,与用户动作Ut的用户意图之间的匹配度在期望区间内。
已知强化学习中,最重要的是基于机器的输出结果给予相应的奖惩。在当前的强化学习的方法中,主要通过以下两种方法对机器施加奖惩。
第一种,通过人工对机器输出的结果进行行为标注,并基于标注结果对机器施加奖惩。但是这种方法在工业应用中很难得以实施,因为人工所能标注的数据总是有限的,难以适用于工业中多样化且数据大型化(百万量级)的应用场景。
就以上述示例的应用于智能客服的任务型对话系统而言,在实际应用中,智能客服不可能只处理某一领域内的几项任务,而往往是要处理多种不同领域中的多项任务,人力总是有限的,往往只能对特定领域中的一定数目的任务型对话的行为进行标注,因此导致最终训练得到的智能客服也只能处理人工在特定领域标注的几项任务,而不能处理该领域中的其他任务或其他领域中的其他任务,使得最终训练得到的模型的泛化性能差,甚至根本就没法在工业中得到应用。
第二种,延迟奖励机制。并不急于对模型在中间轮中输出的结果给予奖励,而是为模型设定期望目标,基于模型最终是否达成期望目标对模型施加奖惩。这种方法总是在模型的最终输出结果上进行决策,以确定该如何给予模型奖惩,导致模型收敛至期望的最优态的效率较低,进而导致学习时间较为漫长。
就以上述示例的应用于智能客服的任务型对话系统而言,在对话交互(训练)开始时,就为模型设定一个用户最终意图,当用户与智能客服的对话结束时,判断智能客服最终给出的输出结果是否达成设定的用户最终意图(例如是否解决用户指示的任务,以外卖平台为例,用户需要订购一份餐食,则在对话结束时判断智能客服是否帮助用户完成订餐),若判定预设的用户最终意图达成,则在对话结束时的最后一轮对话时为(智能客服的)任务型对话系统赋予一个相对较大的正值奖励;若判定预设的用户期望目标未达成,则在对话结束时的最后一轮对话时为(智能客服的)任务型对话系统赋予一个相对较小的负值奖励。
很明显,这种方法的奖励是延时的,只是在最终输出结果的基础上决策如何给予奖惩,而不考虑中间每轮对话中的输出状态,导致这种延迟奖励机制的强化学习方法尤其是不适用多轮对话模型的训练,使得最终获得的多轮对话模型仅仅关注用户的最终用户意图是否达成,而中间对话较为死板,不具有人类对话的灵活性(中间每轮对话的输出结果很可能并不符合当前用户意图的期望),且多轮对话模型比较难以训练成功。
基于此,本申请提出一种响应信息输出方法,适用于基于模型的强化学习,在模型每轮的输出结果的基础上,即时对输出结果进行评估,并根据即时评估结果对模型施加即时奖惩,以使模型根据获得的即时奖惩进行迭代更新,从而提高强化学习的效率,进而使得模型快速收敛至期望的最优态。
参考图3,图3是本申请一实施例提出的响应信息输出方法的流程图。如图3所示,该方法包括以下步骤:
S301,获得当前节点的信息。
S302,将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
S303,输出所述目标响应节点的信息。
对于行为预测模型(例如上述示例的自动控制模型、计算机游戏决策模型、资源调度模型、用户交互模型等,也即本申请中所述的响应节点预测模型)而言,期望的最优态就是指行为预测模型在每次获得用户动作Unn后(其中,n为正整数,表示状态节点),作出响应而输出的系统动作an+1与用户动作Un的期望之间的匹配度属于期望区间P=[x,1]或P=(x,1]内,其中0<x≤1。即匹配度通常用概率表示,概率值越趋近1,则表示系统动作an+1与用户动作Un的期望之间的匹配度越优;概率值越趋近0,则表示系统动作an+1与用户动作Un的期望之间的匹配度越差。
在强化学习实践中,可以根据需要设定期望区间P的下界值x的值,以控制期望区间的精度,进而控制训练得到的行为预测模型的预测准确度,显然下界值x越趋近于1,训练所得到的行为预测模型的预测准确度越高,当然收敛至最优态需要的算力资源也就更多,收敛时间更长。
在基于模型的强化学习的过程中,需要预先设定模型的应用领域,并基于设定的应用领域绘制结构化的知识,以生成知识结构图谱,可以看作是一个“有向图”,这种知识结构图谱表示了不同状态节点n(行为或决策)及其之间的转移关系,这种节点与节点之间的转移关系可以看作是经验(或先验)动作Un,表示了经验意图和槽位等,并且当前节点n指向的下一节点(n+1)表示了应当作出的经验动作An+1。参考图4,图4是外卖领域中售后服务的知识结构图谱的示意图,图4中每个判断节点(图中的菱形块)之间的转移关系都可以表示一次用户动作Ut,图4中的转移关系就表示了在专家经验知识中,基于用户动作Ut的意图识别后,应当作出的正确的经验动作At+1。以节点401为例,但判定用户发起售后服务的动作U401是指出“餐品不好吃”时,则基于专家经验知识,应当跳转至节点403,并作出相应的经验动作A403“判断用户发起售后服务的餐品是否已经超过24小时”,而不是跳转至节点402,作出相应的经验动作A402“判断用户发起售后服务的餐品是否购买有放心吃保险”。
强化学习以使机器(计算机)获得对没有学习过的问题做出正确解答的泛化能力为目标;在学习过程中,模型自身对自身的预测结果进行评估,并根据自我评估结果获得奖惩,直至模型收敛至上述的期望的最优态。
对于行为预测模型(或响应节点预测模型)而言,需要根据在任意状态节点n获得的用户动作Un,给出相应的系统动作an+1,并要使得系统动作an+1与用户动作Un的期望的匹配度属于期望区间P。
因此,在获得了上述知识结构图谱后,就可以利用知识结构图谱对选定的种子模型(即本申请所述的预设模型)进行强化学习训练,以使种子模型获得知识结构图谱中的经验知识,最终收敛至期望的最优态,获得能投入工业使用的行为预测模型(或响应节点预测模型)。具体地,在训练过程,从知识结构图谱中的任一节点n出发,将节点n的信息Xn输入种子模型,种子模型将根据输入的节点n的信息Xn,识别节点n的信息Xn表示的节点动作Un,并基于节点动作Un,作出响应输出相应系统动作an+1,比较系统动作an+1与经验动作An+1之间的匹配度;当匹配度属于期望区间P时,则给予种子模型奖励;当匹配度不属于期望区间P时,则给予种子模型惩戒;重复上述步骤,直至种子模型收敛至期望的最优态(不仅从任一节点n出发,模型能输出正确的系统动作an+1,且能在终止态输出的a∑n达成总的期望目标),获得需要的行为预测模型(或响应节点预测模型)。
就以对上述图1示例的任务型对话系统进行强化学习为例,使其能习得图4所示的知识结构图谱中的知识,以解决(或引导用户解决)外卖售后疑问。就是让种子模型,基于图4所示的知识结构图谱与用户进行对话交互,直至种子模型收敛至期望的最优态(从任一节点t出发,模型能输出正确的系统动作at,且能在终止态输出的a∑t能够解决用户的售后疑问)。
具体地,从任一对话节点t出发,模拟节点t处的用户语句Xt,并将其输入种子模型,种子模型将根据输入用户语句Xt,识别用户语句Xt表示的用户动作Ut(包括用户意图和槽位),并基于用户动作Ut,识别对话状态St,以确定当前节点t所处的节点,并根据对话状态St作出对话策略输出相应系统动作at+1(包括系统意图和槽位),比较系统动作at+1与基于用户动作Ut而应当作出的经验动作An+1(包括经验意图和槽位)之间的匹配度;当匹配度属于期望区间P时,则给予种子模型奖励;当匹配度不属于期望区间P时,则给予种子模型惩戒;
例如,用户输入的用户语句X401是“鱼香肉丝不好吃”,则识别用户语句X401的用户动作U401是“准备就鱼香肉丝发起售后服务”,若模型就此输出的系统动作a402是执行了“判断用户语句中的鱼香肉丝的订餐时间是否已经超过24小时”,显然系统动作a402与经验动作A402相匹配,给予模型奖励;模型就此输出的系统动作a402′是执行了“判断用户语句中的鱼香肉丝是否购买了放心吃保险”,显然系统动作a402′实质上是经验动作A403,与经验动作A402不匹配,给予模型惩戒;
重复上述步骤,直至种子模型收敛至期望的最优态。
当种子模型(预设模型)经过强化学习,收敛至期望的最优态,就获得了可以投入应用的行为预测模型(响应节点预测模型)。
当获得了当前节点n的信息Xn(或动作)后,将当前节点n的信息Xn输入训练得到的响应节点预测模型,响应节点预测模型将输出系统动作an+1,此时响应节点预测模型输出系统动作an+1与知识结构图谱中表示的经验动作An+1的匹配度属于期望区间P。
采用上述技术方案,适用于基于模型的强化学习,在模型针对每次输入而得到的输出结果的基础上,即时对每次的输出结果进行评估,并根据即时评估结果对模型施加即时奖惩,以使模型根据获得的即时奖惩进行迭代更新,使得模型获得的奖惩即时而密集,能根据即时奖惩地对模型进行即时更新,从而提高强化学习的效率,进而使得模型快速收敛至期望的最优态。相较于人工标注行为的方式,可实施性也更高。
在一种可选的实施方式中,所述响应节点预测模型是通过以下步骤得到的:
以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点。
将知识结构图谱中的各个节点以及节点之间的经验转移关系变换成样本节点对(An,An+m),其中,节点An+m表示节点An的可能的下一节点,例如图4示例的节点(t401,tt02)或(t401,t403)等,并用所有的样本节点对(An,An+m)构成样本节点对集合{(A0,A1),(A1,A2),(A1,A3),......}。基于得到的该样本点集合,对预设模型进行训练。
其中,在对所述预设模型进行多次强化学习训练的过程中:
根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点。
将样本点对集合中的每个元素组中的前一元素输入预设模型,例如将样本点对(A0,A1)中的样本点A0输入预设模型,预设模型将输出响应节点a1(即系统动作a1),若响应节点a1与样本点A1匹配,则给予模型奖励;若响应节点a1与样本点A1不匹配,则给予模型惩戒。
根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新。
模型在获得奖励时,则对当前的参数进行强化;模型在获得惩戒时,则对当前的参数进行一定的修正。
对更新后的预设模型进行下一次强化学习训练。
然后,再接着基于样本点对集合中的样本点对,如(A1,A2),(A1,A3),等,对预设模型不断地继续进行强化学习,直至预设模型收敛至期望的最优态。
在一种可选的实施方式中,每次强化学习训练的奖励值是按照以下方式确定的:
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度大于预设阈值的情况下,确定本次强化学习训练的奖励值为第一奖励值。
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度不大于所述预设阈值的情况下,确定本次强化学习训练的奖励值为第二奖励值;
其中,所述第二奖励值小于所述第一奖励值。
当从知识结构图谱中的任一节点n出发,将节点n的信息Xn输入种子模型,种子模型将根据输入的节点n的信息Xn,识别节点n的信息Xn表示的节点动作Un,并基于节点动作Un,作出响应输出相应系统动作an+1,比较系统动作an+1与经验动作An+1之间的匹配度;当匹配度属于期望区间P时,即匹配度大于期望区间P的界限x的值,则给予种子模型第一奖励值Z1;当匹配度不属于期望区间P时,即匹配度小于或等于期望区间P的下界限x的值则给予种子模型第二奖励值Z2;且Z1>Z2。其中,期望区间P的下界限x就是用于判断匹配度的阈值。
在一种可选的实施方式中,所述响应节点预测模型是基于任务的响应节点预测模型;例如可以是机器人自动控制模型或任务型多轮对话系统模型,在对预设模型进行训练时,参考图5,图5是本申请另一实施例提出的响应信息输出方法的流程图,所述方法还包括:
S501,在所述预设模型本次预测的响应节点为终止节点时,判断所述终止节点是否携带任务已完成标签。
S502,在所述终止节点携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第一总奖励值。
S503,在所述终止节点未携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第二总奖励值,所述第二总奖励值小于所述第一总奖励值。
S504,根据所述预设模型的总奖励值,对所述预设模型进行更新。
当预设模型本次的预测进入终止态时,即本次预测的响应节点n为终止节点nmax时,就判断此时系统输出的系统动作中是否携带有任务已完成的标签。以上述图4示例的知识图谱,在预设模型在节点t408获得用户动作U408后,输出的响应节点是a410,则判定进入终止节点tmax,且识别终止节点tmax时,系统输出的响应节点是a410携带的是任务已完成标签(因为针对用户发起的售后服务已经通过理赔得到了解决,判定用户意图/任务——就餐品发起售后服务——达成);当用户发起的售后服务最终没有得到解决,则判定用户意图/任务——就餐品发起售后服务——未达成。
在终止节点nmax携带任务已完成标签,就判定预设模型在终止节点完成了指示任务,为预设模型赋予总奖励值Z4;在终止节点nmax未携带任务已完成标签,就判定预设模型在终止节点完成了指示任务,为预设模型赋予总奖励值Z5;且Z4>Z5,且Z4>Z1>Z2。
模型在获得奖励时,则对模型的参数从整体上进行强化;模型在获得惩戒时,则对对模型的参数从整体上进行一定地修正。
在一种可选的实施方式中,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,根据所述预设模型多次强化学习训练的奖励值,确定所述预设模型的累计奖励期望值;
根据所述预设模型的累计奖励期望值,对所述预设模型进行更新。
在每次训练的终止节点nmax,获得此次训练过程中所有的奖励值的累计期望值,并代入如下所示的损失(LOSS)函数:
其中,π代表系统决策策略,an代表在节点n的系统动作,θ代表系统(即模型)需要在强化学习中进行更新的模型参数,rn代表节点n处给予系统的奖励值,λ是是设定的固定值。
如果是在对话模型中,上述损失函数通常定义为:
其中,π代表对话策略,at代表在时刻t的对话状态,θ代表系统(即模型)需要在强化学习中进行更新的模型参数,rt代表时刻t给予系统的奖励值,λ是设定的固定值。
在另一种可选地实施方式中,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,确定所述预设模型每次预测的响应节点与预设期望响应节点之间的差异值,确定所述预设模型的累计差异值;
根据所述预设模型的累计差异值和所述预设模型的累计奖励期望值,对所述预设模型进行更新。
在每次训练的终止节点nmax,获得此次训练过程中所有的奖励值的累计期望值,以及每轮交互(由每次输入得到一次输出,为一轮交互)中,每次预测的响应节点an+1与预设期望响应节点An+1之间的差异,获得此次训练过程中累计差异值,并代入如下所示的损失(LOSS)函数:
其中,π代表系统决策策略,an代表在节点n的系统动作,θ代表系统(即模型)需要在强化学习中进行更新的模型参数,rn代表节点n处给予系统的奖励值,λ是设定的固定值;代表系统应当作出的理想动作an(也即经验动作An)对应的状态向量,代表系统实际作出的实际动作a′n对应的状态向量。
如果是在对话模型中,上述损失函数通常定义为:
其中,π代表对话策略,at代表在时刻t的对话状态,θ代表系统(即模型)需要在强化学习中进行更新的模型参数,rt代表时刻t给予系统的奖励值,λ是设定的固定值;代t系统应当作出的理想对话状态at(也即经验对话状态At)对应的状态向量,代表系统实际作出的实际对话状态a′t对应的状态向量。
在一种可选的实施方式中,所述响应节点预测模型为会话响应消息预测模型;步骤S301包括:
S3011,获得用户针对本轮对话所输入的待响应对话消息。
即获得用户在输入的用户对话语句Xt。例如“鱼香肉丝不好吃”。
S3012,对所述待响应对话消息进行意图识别,确定用户意图。
即对用户对话语句Xt进行意图识别,确定用户意图。例如“鱼香肉丝不好吃”的用户意图是“用户要对餐品发起售后服务”。
S3013,根据所述用户意图,确定关键词。
即,根据用户意图,确定槽位(以及槽位中的槽值),最终确定用户动作Ut。例如确定槽位包括“餐品”,槽值是“鱼香肉丝”。
S3014,将所述关键词与预设对话结构中的节点进行匹配,以确定当前节点的信息。
在会话响应消息预测模型中所使用的知识结构图谱为对话结构,例如图4所示的任务型对话结构。
将槽位(并结合用户意图)与预设对话结构中的节点进行匹配,以确定当前节点的信息。即对用户动作Ut进行追踪,以识别当前所处的对话状态St。例如对于语句“鱼香肉丝不好吃”的进行追踪得到的对话状态是位于图4中的S401(即节点401处)。模型基于追踪的对话状态St输出相应的系统动作an。
在一种可选的实施方式中,所述预设对话结构是按照以下步骤生成的:
获得多轮历史对话消息,一轮历史对话消息包括用户输入的对话消息和相应的预设响应消息。对所述多轮历史对话消息进行解析,以得到包含不同对话消息之间的转移关系的预设对话结构。
例如要想获得对于图4所示的对话结构,可以预先提取出大量的完整的人工客服与用户的对话,用户的一问和人工客服的一答称为一轮对话消息。用户的一问可以作为用户输入的对话消息,人工客服的应答可以作为对应的预设响应消息。
然后对提取的每一次的人工客服和用户的完整对话进行恩熙,进而绘制出图4所示的对话结构,以表示外卖平台中的售后服务的对话消息之间的转移关系。
其他领域的对话结构,也可以采用类似的方法绘制得到,本领域技术人员可以参照上述示例直接、毫无疑义地获得,在此不再赘述。
基于同一发明构思,本申请一实施例提供一种响应信息输出装置。参考图6,图6是本申请一实施例提供的响应信息输出装置的示意图。如图6所示,该装置包括:
第一信息获取模块601,用于获得当前节点的信息;
第一信息输入模块602,用于将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;
第一信息输出模块603,用于输出所述目标响应节点的信息;
其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
可选地,所述响应节点预测模型是通过以下的单元执行的步骤得到的:
第一信息输入单元,用于以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点;
其中,所述第一信息输入单元包括:
第一确定子单元,用于根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点;
第一更新子单元,用于根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新;
第一循环子单元,用于对更新后的预设模型进行下一次强化学习训练。
可选地,所述第一确定子单元,包括:
第一奖励值确定子单元,用于在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度大于预设阈值的情况下,确定本次强化学习训练的奖励值为第一奖励值;
第二奖励值确定子单元,用于在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度不大于所述预设阈值的情况下,确定本次强化学习训练的奖励值为第二奖励值;
其中,所述第二奖励值小于所述第一奖励值。
可选的,所述响应节点预测模型是基于任务的响应节点预测模型;所述装置还包括:
第一判断模块,用于在所述预设模型本次预测的响应节点为终止节点时,判断所述终止节点是否携带任务已完成标签;
第一总奖励值确定模块,用于在所述终止节点携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第一总奖励值;
第二总奖励值确定模块,用于在所述终止节点未携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第二总奖励值,所述第二总奖励值小于所述第一总奖励值;
第一更新模块,用于根据所述预设模型的总奖励值,对所述预设模型进行更新。
可选地,所述装置还包括:
累计奖励期望值确定模块,用于在对所述预设模型进行多次强化学习训练的过程中,根据所述预设模型多次强化学习训练的奖励值,确定所述预设模型的累计奖励期望值;
第二更新模块,用于根据所述预设模型的累计奖励期望值,对所述预设模型进行更新。
可选地,所述装置还包括:
累计差异值确定模块,用于在对所述预设模型进行多次强化学习训练的过程中,确定所述预设模型每次预测的响应节点与预设期望响应节点之间的差异值,确定所述预设模型的累计差异值;
第二更新模块,还用于根据所述预设模型的累计差异值和所述预设模型的累计奖励期望值,对所述预设模型进行更新。
可选地,所述响应节点预测模型为会话响应消息预测模型;第一信息获取模块包括:
第一信息获取子模块,用于获得用户针对本轮对话所输入的待响应对话消息;
意图识别子模块,用于对所述待响应对话消息进行意图识别,确定用户意图;
第一确定子模块,用于根据所述用户意图,确定关键词;
第二确定子模块,用于将所述关键词与预设对话结构中的节点进行匹配,以确定当前节点的信息。
可选地,所述预设对话结构是按照以下单元执行的步骤生成的:
历史对话消息获得单元,用于获得多轮历史对话消息,一轮历史对话消息包括用户输入的对话消息和相应的预设响应消息;
解析单元,用于对所述多轮历史对话消息进行解析,以得到包含不同对话消息之间的转移关系的预设对话结构。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种响应消息输出方法、装置、存储介质和电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种响应信息输出方法,其特征在于,包括:
获得当前节点的信息;
将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;
输出所述目标响应节点的信息;
其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
2.根据权利要求1所述的方法,其特征在于,所述响应节点预测模型是通过以下步骤得到的:
以包含多个样本节点对的集合为输入,对所述预设模型进行多次强化学习训练,得到响应节点预测模型,每个样本节点对包括具有转移关系的两个样本节点;
其中,在对所述预设模型进行多次强化学习训练的过程中:
根据所述预设模型每次预测的响应节点与预设期望响应节点之间的匹配度,确定所述预设模型本次强化学习训练的奖励值,其中,所述预设期望响应节点为样本节点对中除输入所述预设模型的样本节点外剩余的样本节点;
根据所述预设模型本次强化学习训练的奖励值,对所述预设模型进行更新;
对更新后的预设模型进行下一次强化学习训练。
3.根据权利要求1或2所述的方法,其特征在于,每次强化学习训练的奖励值是按照以下方式确定的:
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度大于预设阈值的情况下,确定本次强化学习训练的奖励值为第一奖励值,
在所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度不大于所述预设阈值的情况下,确定本次强化学习训练的奖励值为第二奖励值;
其中,所述第二奖励值小于所述第一奖励值。
4.根据权利要求1所述的方法,其特征在于,所述响应节点预测模型是基于任务的响应节点预测模型;所述方法还包括:
在所述预设模型本次预测的响应节点为终止节点时,判断所述终止节点是否携带任务已完成标签;
在所述终止节点携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第一总奖励值;
在所述终止节点未携带任务已完成标签的情况下,确定所述预设模型的总奖励值为第二总奖励值,所述第二总奖励值小于所述第一总奖励值;
根据所述预设模型的总奖励值,对所述预设模型进行更新。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,根据所述预设模型多次强化学习训练的奖励值,确定所述预设模型的累计奖励期望值;
根据所述预设模型的累计奖励期望值,对所述预设模型进行更新。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在对所述预设模型进行多次强化学习训练的过程中,确定所述预设模型每次预测的响应节点与预设期望响应节点之间的差异值,确定所述预设模型的累计差异值;
根据所述预设模型的累计奖励期望值,对所述预设模型进行更新,包括:
根据所述预设模型的累计差异值和所述预设模型的累计奖励期望值,对所述预设模型进行更新。
7.根据权利要求1-4任一所述的方法,其特征在于,所述响应节点预测模型为会话响应消息预测模型;获得当前节点的信息,包括:
获得用户针对本轮对话所输入的待响应对话消息;
对所述待响应对话消息进行意图识别,确定用户意图;
根据所述用户意图,确定关键词;
将所述关键词与预设对话结构中的节点进行匹配,以确定当前节点的信息。
8.根据权利要求7所述的方法,其特征在于,所述预设对话结构是按照以下步骤生成的:
获得多轮历史对话消息,一轮历史对话消息包括用户输入的对话消息和相应的预设响应消息;
对所述多轮历史对话消息进行解析,以得到包含不同对话消息之间的转移关系的预设对话结构。
9.一种响应信息输出装置,其特征在于,包括:
第一信息获取模块,用于获得当前节点的信息;
第一信息输入模块,用于将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;
第一信息输出模块,用于输出所述目标响应节点的信息;
其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一所述的方法中的步骤。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-8任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010791077.0A CN112084300A (zh) | 2020-08-07 | 2020-08-07 | 响应信息输出方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010791077.0A CN112084300A (zh) | 2020-08-07 | 2020-08-07 | 响应信息输出方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084300A true CN112084300A (zh) | 2020-12-15 |
Family
ID=73735687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010791077.0A Withdrawn CN112084300A (zh) | 2020-08-07 | 2020-08-07 | 响应信息输出方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084300A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115603999A (zh) * | 2022-10-12 | 2023-01-13 | 中国电信股份有限公司(Cn) | 容器安全防护方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273406A (zh) * | 2017-04-27 | 2017-10-20 | 上海奔影网络科技有限公司 | 任务对话系统中的对话处理方法及装置 |
CN110688468A (zh) * | 2019-08-28 | 2020-01-14 | 北京三快在线科技有限公司 | 输出响应消息的方法、装置、电子设备及可读存储介质 |
WO2020060605A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Approximate nearest neighbor searching strategy generating based on reinforcement learning |
CN111177348A (zh) * | 2019-12-20 | 2020-05-19 | 卓尔智联(武汉)研究院有限公司 | 问题生成模型的训练方法、装置、电子设备及存储介质 |
-
2020
- 2020-08-07 CN CN202010791077.0A patent/CN112084300A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273406A (zh) * | 2017-04-27 | 2017-10-20 | 上海奔影网络科技有限公司 | 任务对话系统中的对话处理方法及装置 |
WO2020060605A1 (en) * | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Approximate nearest neighbor searching strategy generating based on reinforcement learning |
CN110688468A (zh) * | 2019-08-28 | 2020-01-14 | 北京三快在线科技有限公司 | 输出响应消息的方法、装置、电子设备及可读存储介质 |
CN111177348A (zh) * | 2019-12-20 | 2020-05-19 | 卓尔智联(武汉)研究院有限公司 | 问题生成模型的训练方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115603999A (zh) * | 2022-10-12 | 2023-01-13 | 中国电信股份有限公司(Cn) | 容器安全防护方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6228260B2 (ja) | 音声対話システムのためのデバイスおよび方法 | |
CN109582793A (zh) | 模型训练方法、客服系统及数据标注系统、可读存储介质 | |
CN108710704B (zh) | 对话状态的确定方法、装置、电子设备及存储介质 | |
CN113961690A (zh) | 一种人机对话装置及其实现人机对话的方法 | |
CN110837548A (zh) | 答案匹配方法、装置、电子设备及存储介质 | |
CN111753076B (zh) | 对话方法、装置、电子设备及可读存储介质 | |
CN112766990B (zh) | 基于多轮对话改进的智能客服辅助系统和方法 | |
CN116303949B (zh) | 一种对话处理方法、系统、存储介质及终端 | |
CN116521850B (zh) | 一种基于强化学习的交互方法及装置 | |
CN111340233B (zh) | 机器学习模型的训练方法及装置、样本处理方法及装置 | |
CN114048301B (zh) | 一种基于满意度的用户模拟方法及系统 | |
CN111400466A (zh) | 一种基于强化学习的智能对话方法及装置 | |
CN112199486A (zh) | 一种办公场景的任务型多轮对话方法及系统 | |
Petukhova et al. | Modelling multi-issue bargaining dialogues: Data collection, annotation design and corpus | |
CN116956116A (zh) | 文本的处理方法和装置、存储介质及电子设备 | |
CN116680385A (zh) | 基于人工智能的对话问答方法、装置、计算机设备及介质 | |
CN118194923A (zh) | 大语言模型的构建方法、装置、设备及计算机可读介质 | |
CN107967304A (zh) | 会话交互处理方法、装置及电子设备 | |
CN112084300A (zh) | 响应信息输出方法、装置、电子设备及可读存储介质 | |
Prommer et al. | Rapid simulation-driven reinforcement learning of multimodal dialog strategies in human-robot interaction. | |
CN114490994B (zh) | 对话管理方法及装置 | |
CN115809669B (zh) | 一种对话管理方法和电子设备 | |
CN115757749A (zh) | 一种对话处理方法、装置、电子设备及存储介质 | |
CN112328774B (zh) | 基于多文档的任务型人机对话任务的实现方法 | |
CN115617975A (zh) | 针对少样本多轮对话的意图识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201215 |
|
WW01 | Invention patent application withdrawn after publication |