CN114201974A - 一种对话处理方法及相关设备 - Google Patents

一种对话处理方法及相关设备 Download PDF

Info

Publication number
CN114201974A
CN114201974A CN202111542344.1A CN202111542344A CN114201974A CN 114201974 A CN114201974 A CN 114201974A CN 202111542344 A CN202111542344 A CN 202111542344A CN 114201974 A CN114201974 A CN 114201974A
Authority
CN
China
Prior art keywords
text
target
replied
reinforcement learning
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111542344.1A
Other languages
English (en)
Inventor
李娜
郝怡
李凯强
李勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Original Assignee
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid E Commerce Co Ltd, State Grid E Commerce Technology Co Ltd filed Critical State Grid E Commerce Co Ltd
Priority to CN202111542344.1A priority Critical patent/CN114201974A/zh
Publication of CN114201974A publication Critical patent/CN114201974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对话处理方法及相关设备,可以获得一句待回复文本,利用训练好的Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理,获得目标强化学习模型输出的与待回复文本相匹配的目标回复文本,目标回复文本有利于推动对话持续进行。本发明可以在进行人机对话时,有效避免万能回复和陷入死循环等问题,有效推动与用户的多轮对话,使得对话可以有效的持续下去。

Description

一种对话处理方法及相关设备
技术领域
本发明涉及计算机科学与技术领域,尤其涉及一种对话处理方法及相关设备。
背景技术
随着计算机科学与技术的发展,机器学习技术不断提高。
Seq2Seq模型为基于循环神经网络生成的机器学习模型,可以用于自然语言处理,进行人机对话。需要说明的是,Seq2Seq模型可以主要包括编码器和解码器两部分。现有技术可以将Seq2Seq模型应用在人机对话生成任务中,对用户询问的问题或者输入的信息生成响应文本并进行回复。
但是,现有技术在与用户进行多轮对话时,容易产生万能回复、陷入死循环等问题,无法有效的与用户进行多轮对话。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的对话处理方法及相关设备,技术方案如下:
一种对话处理方法,包括:
获得一句待回复文本;
利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理,获得所述目标强化学习模型输出的与所述待回复文本相匹配的目标回复文本,所述目标回复文本有利于推动对话持续进行。
可选的,所述利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理,包括:
将所述待回复文本输入至所述Seq2Seq模型;
获得所述Seq2Seq模型输出的第一文本信息;
将所述第一文本信息输入至所述目标强化学习模型进行处理。
可选的,所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文本,对各所述候选回复文本的对话推动收益进行评估,将对话推动收益最大的所述候选回复文本确定为所述目标回复文本。
一种对话处理装置,包括:第一获得单元、第一处理单元和第二获得单元;其中:
所述第一获得单元,用于获得一句待回复文本;
所述第一处理单元,用于利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理;
所述第二获得单元,用于所述目标回复文本有利于推动对话持续进行。
可选的,所述第一处理单元包括:第一输入单元、第三获得单元和第二输入单元;
所述第一输入单元,用于将所述待回复文本输入至所述Seq2Seq模型;
所述第三获得单元,用于获得所述Seq2Seq模型输出的第一文本信息;
所述第二输入单元,用于将所述第一文本信息输入至所述目标强化学习模型进行处理。
可选的,所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文本,对各所述候选回复文本的对话推动收益进行评估,将对话推动收益最大的所述候选回复文本确定为所述目标回复文本。
一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现上述任一对话处理方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时实现上述任一对话处理方法。
一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任一对话处理方法。
本发明提出的对话处理方法及相关设备,可以获得一句待回复文本,利用训练好的Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理,获得目标强化学习模型输出的与待回复文本相匹配的目标回复文本,目标回复文本有利于推动对话持续进行。本发明可以在进行人机对话时,有效避免万能回复、陷入死循环等问题,有效推动与用户的多轮对话,使得对话可以有效的持续下去。
上述说明仅是本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的第一种对话处理方法的流程图;
图2示出了本发明实施例提供的第二种对话处理方法的流程图;
图3示出了本发明实施例提供的一种Seq2Seq模型和目标强化学习的网络结构的结构示意图;
图4示出了本发明实施例提供的第一种对话处理装置的结构示意图;
图5示出了本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本实施例提出了第一种对话处理方法,该方法可以包括以下步骤:
S101、获得一句待回复文本;
需要说明的是,本发明可以应用于目标电子设备,如手机、平板电脑和台式电脑。
其中,待回复文本可以为用户或者机器输入至目标电脑的、需要目标电脑进行回复的文本,比如,“明天的天气怎么样”;再比如,“我想订一个明天的位子”。
S102、利用训练好的Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理;
其中,目标强化学习模型为可以进行多轮对话的强化学习模型。需要说明的是,本发明对于目标强化学习模型的类型不作限定,如Q-Learning 模型和深度Q神经网络(DQN,DeepQ-Network)模型。
具体的,本发明可以在获得待回复文本之后,利用训练好的Seq2Seq 模型和目标强化学习模型对待回复文本进行自然语言处理。
可选的,如图2所示,在本实施例提出的第二种对话处理方法中,步骤S102可以包括步骤201、S202和S203。其中:
S201、将待回复文本输入至Seq2Seq模型;
具体的,本发明可以在获得待回复文本之后,先行将待回复文本输入到Seq2Seq模型中进行处理。
S202、获得Seq2Seq模型输出的第一文本信息;
具体的,本发明可以在将待回复文本输入到Seq2Seq模型中后,获得 Seq2Seq模型对待回复文本进行自然语言处理之后所输出的文本信息,即第一文本信息。
S203、将第一文本信息输入至目标强化学习模型进行处理。
具体的,本发明可以在获得第一文本信息之后,将第一文本信息输入到目标强化学习模型中进行处理。
S103、获得目标强化学习模型输出的与待回复文本相匹配的目标回复文本,目标回复文本有利于推动对话持续进行。
具体的,本发明可以在将第一文本信息输入到目标强化学习模型之后,获得目标强化学习模型输出的用于回复待回复文本的目标回复文本。需要说明的是,目标强化学习模型输出的目标回复文本,可以有利于推动与用户的对话持续进行,而可以有效的与用户进行多轮对话,避免万能回复和死循环等问题。
可选的,目标强化学习模型基于第一文本信息确定至少一条候选回复文本,对各候选回复文本的对话推动收益进行评估,将对话推动收益最大的候选回复文本确定为目标回复文本。
具体的,目标强化学习模型可以基于第一文本信息,确定出相应的至少一条候选回复文本,并分别对各候选回复文本对与用户的未来对话推动收益进行评估,确定收益最大的候选回复文本,并将收益最大的候选回复文本确定为目标回复文本,有效推动与用户的对话持续进行。
需要说明的是,Seq2Seq模型应用在于用户的对话过程中,可以基于编码器-解码器结构,利用编码器先行将用户输入的文本信息编码为一个特征向量,之后再利用解码器根据特征向量解码获得回复文本。Seq2Seq模型可以基于极大似然估计(MaximumLikelihood Estimate,MLE),最大化与输入对应的回复的生成概率,存在着容易产生万能回复、较快陷入死循环和使用单论回复生成模型进行多轮对话,没有考虑未来对话走向的问题。比如下述例1和例2中的基于Seq2Seq模型模拟的多轮对话:
例1:Seq2Seq模型模拟多轮对话1
A:不足够自信凭什么把机会给你
B:有道理!
A:有道理!
B:有道理!
A:有道理!
B:有道理!
例2:seq2seq模拟多轮对话2
A:加菲猫走红
B:真好!
A:有点意思
B:哈哈哈哈哈哈哈哈
A:哈哈哈哈哈哈哈哈
B:哈哈哈哈哈哈哈哈
需要说明的是,本发明可以针对上述问题,引入深度的强化学习模型进行开放域的多轮对话策略学习,该策略可以使得每一轮对用户的回复都更加有利于多轮对话的进行,可以有效减少万能回复的生成以及死循环的产生。
可选的,本发明可以选用DQN模型来作为目标强化学习模型进行与用户的多轮对话。具体的,DQN是强化学习算法Q-Learning的深度学习近似版本。其核心思想是用一个深度神经网络来作为对价值的估计媒介,其参数更新通过对下述公式(1)进行随机梯度下降来完成,其中sj表示状态, aj表示动作,rj表示奖励,Q表示通过深度价值网络对状态-动作对进行估值。其中:
Loss=(yj-Q(sj,aj;θ))2-------------------公式(1);
其中,yi为样本值,于是算法的价值估计通过下式来完成:
Figure RE-GDA0003486020210000061
具体的,如图3所示的Seq2Seq模型和目标强化学习的网络结构,本发明可以将一个待回复文本输入到Seq2Seq模型中,Seq2Seq模型可以从待回复文本的多个字符中获得相关字符,如从ABCWXYZ中获得WXYZ,之后通过定向搜索获得所有句子的相关信息如Sentence1、Sentence2… Sentence N,并将所有句子的相关信息作为动作Action输入到DQN模型中,并通过自动编码器Encoder和解码器Decoder的相关机制将编码进行对话表示嵌入Embedding到DQN模型中的奖赏Reward过程中;之后,DQN模型可以使用独立的深度神经网络结合上述公式(1)对每一句候选回复的未来收益进行评估,从而得到一个有利于多轮对话持续进行的对话策略。具体的,DQN中的环境Environment可以对下一句子NextSentence进行评价,转换成一种可量化的上述Reward反馈给Agent代理中。需要说明的是,图 3中的编码器Encoder和解码器Decoder可以进行信息如X1、X2…Xn的交互。
具体的,如表1所示的分别采用Seq2Seq模型和本发明对话策略,对用户输入的文本进行回复的多轮对话实验。可以理解的是,本发明可以有效提高多轮对话的多样性、平均轮数和对话质量。
表1多轮对话试验表
Figure RE-GDA0003486020210000071
需要说明的是,在能源电商领域,智能客服机器人的应用越来越广泛,流畅的人机对话对解决用户的问题和维护用户的情绪十分重要,这要求机器人必须能够识别何时应当保持倾听,何时应当作出回复。对此,本发明所采用的对话处理技术可以应用大规模的语料数据,如能源电商领域的大规模语料数据对Seq2Seq模型和目标强化学习模型进行机器学习,生成训练好的Seq2Seq模型和目标强化学习模型,有效实现人机对话,推动与用户进行多轮对话,有效解决用户的问题和维护用户的情绪。
可选的,本发明可以应用在能源电商领域的多轮对话。可选的,本发明可以更加贴近人鱼人的多轮对话交流方式。
本实施例提出的对话处理方法,可以获得一句待回复文本,利用训练好的Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理,获得目标强化学习模型输出的与待回复文本相匹配的目标回复文本,目标回复文本有利于推动对话持续进行。本发明可以在进行人机对话时,有效避免万能回复、陷入死循环等问题,有效推动与用户的多轮对话,使得对话可以有效的持续下去。
与图1所示步骤相对应,如图4所示,本实施例提出第一种对话处理装置。该装置可以包括:第一获得单元101、第一处理单元102和第二获得单元103;其中:
第一获得单元101,用于获得一句待回复文本;
第一处理单元102,用于利用训练好的Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理;
第二获得单元103,用于目标回复文本有利于推动对话持续进行。
需要说明的是,第一获得单元101、第一处理单元102和第二获得单元 103的具体处理过程及其带来的技术效果可以分别参考图1中的步骤S101、 S102和S103的相关说明,此处不再赘述。
可选的,第一处理单元102包括:第一输入单元、第三获得单元和第二输入单元;
第一输入单元,用于将待回复文本输入至Seq2Seq模型;
第三获得单元,用于获得Seq2Seq模型输出的第一文本信息;
第二输入单元,用于将第一文本信息输入至目标强化学习模型进行处理。
可选的,目标强化学习模型基于第一文本信息确定至少一条候选回复文本,对各候选回复文本的对话推动收益进行评估,将对话推动收益最大的候选回复文本确定为目标回复文本。
本实施例提出的对话处理装置,可以获得一句待回复文本,利用训练好的Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理,获得目标强化学习模型输出的与待回复文本相匹配的目标回复文本,目标回复文本有利于推动对话持续进行。本发明可以在进行人机对话时,有效避免万能回复、陷入死循环等问题,有效推动与用户的多轮对话,使得对话可以有效的持续下去。
如图5所示,本实施例提出一种实现图1所示方法的电子设备。具体的,电子设备500可以包括处理器501、存储器502、通信接口503、输入单元504、输出单元505和通信总线506。其中,处理器501和存储器502 通过通信总线506彼此相连。通信接口503、输入单元504和输出单元505 也连接至通信总线506。
其中,通信接口503可以为通信模块的接口,如GSM模块的接口。通信接口503可以用于获得其他设备发送的数据或指令。通信接口503还用于将数据或指令发送至其他设备。
在本发明实施例中,处理器501,可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路(application-specific integrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA) 或者其他可编程逻辑器件等。
可选的,存储器502可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如文本展示功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,用户数据、用户访问数据以及文本数据等等。
此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
处理器501可以调用存储器502中存储的程序,具体的,处理器501 可以执行上述任一对话处理方法。
存储器502中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本发明实施例中,存储器502中至少存储有用于实现以下功能的程序:
获得一句待回复文本;
利用训练好的Seq2Seq模型和训练好的目标强化学习模型对待回复文本进行处理,获得目标强化学习模型输出的与待回复文本相匹配的目标回复文本,目标回复文本有利于推动对话持续进行。
在一种可能的实现方式中,电子设备500可以包括:一个或多个处理器501;
存储装置,其上存储有一个或多个程序;
当一个或多个程序被一个或多个处理器501执行时,使得一个或多个处理器501实现以上任一对话处理方法。
本发明还可以包括输入单元504,输入单元504可以包括感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、摄像头、拾音器等设备中的至少一个。
输出单元505可以包括:显示器、扬声器、振动机构、灯等设备中的至少一个。显示器可以包括显示面板,如触摸显示面板等。在一种可能的情况中,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。振动机构在工作时可以使电子设备500发生位移,在一种可能的实现方式中,振动机构包括电动机和偏心振子,电动机带动偏心振子转动从而产生振动。灯的亮度和/或颜色可调,在一种可能的实现方式中,可通过灯的亮灭、亮度、颜色中的至少一个体现不同的信息,如通过灯发出红色光体现报警信息。
当然,图5所示的电子设备500的结构并不构成对本发明实施例中电子设备的限定,在实际应用中电子设备可以包括比图5所示的更多或更少的部件,或者组合某些部件。
本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现以上任一对话处理方法。
本发明实施例提供了一种处理器,该处理器用于运行程序,其中,该程序运行时实现以上任一对话处理方法。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,使得数据处理设备实现以上任一对话处理方法。
其中,本发明的上述实施例提供的电子设备、处理器、计算机可读介质或计算机程序产品可以均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种对话处理方法,其特征在于,包括:
获得一句待回复文本;
利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理,获得所述目标强化学习模型输出的与所述待回复文本相匹配的目标回复文本,所述目标回复文本有利于推动对话持续进行。
2.根据权利要求1所述的对话处理方法,其特征在于,所述利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理,包括:
将所述待回复文本输入至所述Seq2Seq模型;
获得所述Seq2Seq模型输出的第一文本信息;
将所述第一文本信息输入至所述目标强化学习模型进行处理。
3.根据权利要求2所述的对话处理方法,其特征在于,所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文本,对各所述候选回复文本的对话推动收益进行评估,将对话推动收益最大的所述候选回复文本确定为所述目标回复文本。
4.一种对话处理装置,其特征在于,包括:第一获得单元、第一处理单元和第二获得单元;其中:
所述第一获得单元,用于获得一句待回复文本;
所述第一处理单元,用于利用训练好的Seq2Seq模型和训练好的目标强化学习模型对所述待回复文本进行处理;
所述第二获得单元,用于所述目标回复文本有利于推动对话持续进行。
5.根据权利要求4所述的对话处理装置,其特征在于,所述第一处理单元包括:第一输入单元、第三获得单元和第二输入单元;
所述第一输入单元,用于将所述待回复文本输入至所述Seq2Seq模型;
所述第三获得单元,用于获得所述Seq2Seq模型输出的第一文本信息;
所述第二输入单元,用于将所述第一文本信息输入至所述目标强化学习模型进行处理。
6.根据权利要求5所述的对话处理装置,其特征在于,所述目标强化学习模型基于所述第一文本信息确定至少一条候选回复文本,对各所述候选回复文本的对话推动收益进行评估,将对话推动收益最大的所述候选回复文本确定为所述目标回复文本。
7.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-3中任一所述的对话处理方法。
8.一种处理器,所述处理器用于运行程序,其中,所述程序运行时实现如权利要求1-3中任一所述的对话处理方法。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-3中任一所述的对话处理方法。
CN202111542344.1A 2021-12-13 2021-12-13 一种对话处理方法及相关设备 Pending CN114201974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111542344.1A CN114201974A (zh) 2021-12-13 2021-12-13 一种对话处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111542344.1A CN114201974A (zh) 2021-12-13 2021-12-13 一种对话处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN114201974A true CN114201974A (zh) 2022-03-18

Family

ID=80654511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111542344.1A Pending CN114201974A (zh) 2021-12-13 2021-12-13 一种对话处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN114201974A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN108984679A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 对话生成模型的训练方法和装置
CN109460463A (zh) * 2018-11-15 2019-03-12 平安科技(深圳)有限公司 基于数据处理的模型训练方法、装置、终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN108984679A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 对话生成模型的训练方法和装置
CN109460463A (zh) * 2018-11-15 2019-03-12 平安科技(深圳)有限公司 基于数据处理的模型训练方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
US11809824B1 (en) Computing numeric representations of words in a high-dimensional space
US11842253B2 (en) Training encoder model and/or using trained encoder model to determine responsive action(s) for natural language input
CN109885842B (zh) 处理文本神经网络
US20200019609A1 (en) Suggesting a response to a message by selecting a template using a neural network
CN109543200B (zh) 一种文本翻译方法及装置
US11947920B2 (en) Man-machine dialogue method and system, computer device and medium
KR20190113928A (ko) 강화 학습을 통한 디바이스 배치 최적화
CN110678882B (zh) 使用机器学习从电子文档选择回答跨距的方法及系统
US20200327168A1 (en) Segmented sentence recognition method and device for human-machine intelligent question-answer system
KR20160127100A (ko) 머신 러닝에서의 대안 트레이닝 분포 데이터
CN113850078B (zh) 基于机器学习的多意图识别方法、设备及可读存储介质
CN113947095B (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
CN117521625A (zh) 问答方法、装置、电子设备及介质
CN116341564A (zh) 基于语义理解的问题推理方法和装置
CN113742541A (zh) 对话方法、装置、电子设备及计算机可读存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN111506717A (zh) 问题答复方法、装置、设备及存储介质
Zhang et al. XNORCONV: CNNs accelerator implemented on FPGA using a hybrid CNNs structure and an inter‐layer pipeline method
CN114201974A (zh) 一种对话处理方法及相关设备
CN116127925B (zh) 基于对文本进行破坏处理的文本数据增强方法及装置
CN111078848A (zh) 一种用于对话机器人的输入提示方法及装置
CN112990292B (zh) 基于神经网络的对话状态的生成方法及装置
CN112017660B (zh) 一种智能语音机器人的对话策略构建方法、装置及系统
CN115470327A (zh) 基于知识图谱的医疗问答方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination