CN116432665B - 对话模型构建方法、文本生成方法、装置、系统及设备 - Google Patents
对话模型构建方法、文本生成方法、装置、系统及设备 Download PDFInfo
- Publication number
- CN116432665B CN116432665B CN202310708006.3A CN202310708006A CN116432665B CN 116432665 B CN116432665 B CN 116432665B CN 202310708006 A CN202310708006 A CN 202310708006A CN 116432665 B CN116432665 B CN 116432665B
- Authority
- CN
- China
- Prior art keywords
- session
- instruction template
- data
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000010276 construction Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 56
- 239000004973 liquid crystal related substance Substances 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000009966 trimming Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明提供了对话模型构建方法、文本生成方法、装置、系统及设备,涉及自然语言处理技术领域,对话模型构建方法包括:将第一领域的会话样本输入至预配置的指令模板;获取指令模板对会话样本微调而生成的数据集;基于数据集对通用预训练语言模型进行训练,得到第一对话模型,第一对话模型为应用于第一领域的对话模型。通过不同的指令模板对会话样本进行微调,使得会话样本按照对应的指令模板排布以生成数据集,基于不同的指令模板生成的数据集可以用于对通用预训练语言模型进行训练,使得训练得到的第一对话模型能够执行不同的指令模板对应的指令任务。减少了对话系统中布置任务模型的数量,提升模型训练效率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及对话模型构建方法、文本生成方法、装置、系统及设备。
背景技术
自然语言处理(Natural Language Processing,NLP)技术发展迅速。在智能客服对话系统中,利用自然语言理解(Natural Language Understanding,NLU)技术、对话管理(Dialogue Manager,DM)技术和对话生成(Natural Language Generation,NLG)技术,可以生成合适的自然语言对话内容文本。
然而,现有的对话系统中,在会话文本生成的过程,每个节点都有需要构建对应的模型,例如,针对文本意图识别需要构建意图理解模型、针对对话状态跟踪、对话策略需要构建对话状态跟踪模型和对话策略模型等。因此需要针对性的进行数据集的设计和数据标注,并训练对应任务模型,而数据集的设计、标注以及模型的训练费时费力,导致对话系统迭代缓慢。
发明内容
本发明实施例提供一种对话模型构建方法、文本生成方法、装置、系统及设备,以解决现有技术中数据集的设计、标注以及模型的训练费时费力,导致对话系统迭代缓慢的问题。
第一方面,本发明实施例提供了一种对话模型构建方法,所述方法包括:
将第一领域的会话样本输入至预配置的指令模板;
获取所述指令模板对所述会话样本微调而生成的数据集;
基于所述数据集对通用预训练语言模型进行训练,得到第一对话模型,所述第一对话模型为应用于所述第一领域的对话模型。
可选地,所述指令模板包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述数据集包括所述NLU指令模板对所述会话样本微调而生成的第一数据、所述DM指令模板对所述会话样本微调而生成的第二数据以及所述NLG指令模板对所述会话样本微调而生成的第三数据。
可选地,所述将第一领域的会话样本输入至预配置的指令模板,包括:
将第一领域的会话样本输入至所述NLU指令模板;
在获取到所述NLU指令模板对所述会话样本微调而生成的第一数据的情况下,将所述会话样本和第四数据输入至所述DM指令模板,所述第四数据包括所述第一数据的至少部分数据;
在获取到所述DM指令模板对所述会话样本和所述第四数据微调而生成的第二数据的情况下,将所述会话样本和第五数据输入至所述NLG指令模板,所述第五数据包括所述第二数据的至少部分数据。
第二方面,本发明实施例提供了一种文本生成方法,所述方法包括:
将获取的第一会话文本输入至第一对话模型,生成第二会话文本,所述第二会话文本为所述第一会话文本之后的文本,所述第一对话模型为根据第一方面所述的对话模型构建方法得到的第一对话模型。
可选地,所述第一对话模型包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述将获取的第一会话文本输入至第一对话模型,生成第二会话文本,包括:
将获取的第一会话文本输入至所述NLU指令模板,以在意图列表中确定目标意图;
将所述第一会话文本和所述目标意图输入至所述DM指令模板,以在策略列表中确定目标策略;
将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,生成第二会话文本。
可选地,所述将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,生成第二会话文本,包括:
将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,并根据生成要求生成第二会话文本,所述生成要求包括文本排序要求和话术要求中的至少一种。
第三方面,本发明实施例提供了一种对话模型构建装置,所述装置包括:
输入模块,用于将第一领域的会话样本输入至预配置的指令模板;
获取模块,用于获取所述指令模板对所述会话样本微调而生成的数据集;
训练模块,用于基于所述数据集对通用预训练语言模型进行训练,得到第一对话模型,所述第一对话模型为应用于所述第一领域的对话模型。
第四方面,本发明实施例提供了一种会话文本生成装置,所述装置包括:
生成模块,用于将获取的第一会话文本输入至第一对话模型,生成第二会话文本,所述第二会话文本为所述第一会话文本之后的文本,所述第一对话模型为根据第一方面所述的对话模型构建方法得到的第一对话模型。
第五方面,本发明实施例提供了一种对话系统,包括如第一方面所述的对话模型构建方法得到的第一对话模型。
第六方面,本发明实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法,或者,执行如第二方面所述的方法。
第七方面,本发明实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面所述的方法,或者,执行如第二方面所述的方法。
本发明实施例中,通过不同的指令模板对会话样本进行微调,使得会话样本按照对应的指令模板排布以生成数据集,基于不同的指令模板生成的数据集可以用于对通用预训练语言模型进行训练,使得训练得到的第一对话模型能够执行不同的指令模板对应的指令任务。减少了对话系统中布置任务模型的数量,从而减少了针对任务模型的数据集的设计和数据标注,提升模型训练效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种对话模型构建方法的流程图;
图2是本发明实施例提供的一种文本生成方法的流程图之一;
图3是本发明实施例提供的一种文本生成方法的流程图之二;
图4是本发明实施例提供的一种对话模型构建装置的结构图;
图5是本发明实施例提供的一种会话文本生成装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种对话模型构建方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101、将第一领域的会话样本输入至预配置的指令模板;
第一领域的会话样本指的是某一领域(例如汽车领域)的对话预料。会话样本可以是根据收集的客服人员与客户之间的对话形成的文本数据,也可以是基于现有客服问答系统中导出的文本数据。应当理解的是,第一领域还可以其他领域,例如电子产品领域、通信领域等,同样可以达到相同的技术效果,在此不再赘述。
本实施例中,根据第一领域的会话样本的会话特点可以预先配置多种指令模板,进一步通过步骤102对会话样本进行微调以生成训练模型所需的数据集。
在一具体的实施方式中,所述指令模板包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述数据集包括所述NLU指令模板对所述会话样本微调而生成的第一数据、所述DM指令模板对所述会话样本微调而生成的第二数据以及所述NLG指令模板对所述会话样本微调而生成的第三数据。
本实施方式中,可以在对话系统中设置NLU模块、DM模块以及NLG模块,并分别将NLU指令模板、DM指令模板和NLG指令模板配置与对应的模块。NLU模块用于生成意图指令,DM模块用于生成对话策略指令,NLG模块用于生成对话生成指令,对话系统基于对话生成指令输出应答对话文本,以回答输入至对话系统的第一会话文本。
其中,NLU指令模板可以包括第一对象的数据空间、第二对象的数据空间、意图类型的数据空间和目标意图的数据空间。第一对象可以是会话样本中的对话双方中一者,第二对象可以是对话双方中另一者,意图类型可以包括根据第一领域确定至少一种意图,目标意图可以是在至少一种意图中确定的意图。
以第一对象为会话样本中的客服(或称为回复方、机器人(Robot,BOT)),第二对象为会话样本中的客户(或称为提问方、用户(User Equipment,UE))为例,NLU指令模板可以表示为:
第一对象的数据空间:BOT:[X1];
第二对象的数据空间:UE:[X2];
意图类型的数据空间:意图类型:[意图列表(intent_list)];
目标意图的数据空间:答案:[意图(intent)]。
其中,DM指令模板可以包括第一对象的数据空间、第二对象的数据空间、目标意图的数据空间、策略类型的数据空间和目标策略的数据空间。策略类型可以包括根据第一领域和目标意图确定至少一种策略,目标策略可以是在至少一种策略中确定的策略。
DM指令模板可以表示为:
第一对象的数据空间:BOT:[X1];
第二对象的数据空间:UE:[X2];
目标意图的数据空间:答案:[intent];
策略类型的数据空间:策略类型:[策略列表(policy_list)];
目标策略的数据空间:答案:[策略(policy)]。
其中,NLG指令模板可以包括第一对象的数据空间、第二对象的数据空间、目标意图的数据空间、目标策略的数据空间、生成要求的数据空间和目标文本的数据空间。生成要求包括基于目标意图和目标策略的文本排序要求和基于目标意图和目标策略的话术要求中的至少一种,目标文本可以包括基于至少一种生成要求生成的文本。
NLG指令模板可以表示为:
第一对象的数据空间:BOT:[X1];
第二对象的数据空间:UE:[X2];
目标意图的数据空间:答案:[intent];
目标策略的数据空间:答案:[policy];
生成要求的数据空间:生成要求:[信息(infor)];
目标文本的数据空间:答案:[X3]。
会话样本中包括预先标注的目标意图、目标策略和目标文本。根据NLU指令模板、DM指令模板和NLG指令模板对会话样本微调,使得会话样本中对应的X1、X2、intent、policy和X3导入对应指令模板的数据空间,而生成数据集。这样,通过引入指令模板减少了对数据集的设计和数据标注,提升模型训练效率。
步骤102、获取所述指令模板对所述会话样本微调而生成的数据集;
指令模板对会话样本进行微调,使得会话样本中不同的数据进入指令模板中对应位置的数据空间,从而获取根据指令模板微调后生成的数据集。
具体的,根据NLU指令模板中对应位置的数据空间获取NLU指令模板对会话样本微调而生成的第一数据;根据DM指令模板中对应位置的数据空间获取DM指令模板对会话样本微调而生成的第二数据;根据NLG指令模板中对应位置的数据空间获取NLG指令模板对会话样本微调而生成的第三数据。进一步通过步骤103基于数据集对通用预训练语言模型进行训练。
步骤103、基于所述数据集对通用预训练语言模型进行训练,得到第一对话模型,所述第一对话模型为应用于所述第一领域的对话模型。
通用预训练语言模型可以包括GPT、Bert、UniLM、XLNet和BART等模型中的至少一种。基于根据NLU指令模板对会话样本微调而生成的第一数据对通用预训练语言模型进行训练,以提升预训练语言模型的意图识别能力;
基于根据DM指令模板对会话样本微调而生成的第二数据对通用预训练语言模型进行训练,其中,DM指令模板中包括NLU指令模板的目标意图的数据空间,使得获取的第二数据时综合考虑了意图识别任务的结果,从而可以提升预训练语言模型的对话策略生成能力;
基于根据NLG指令模板对会话样本微调而生成的第三数据对通用预训练语言模型进行训练,其中,NLG指令模板中包括NLU指令模板的目标意图的数据空间和DM指令模板的目标策略的数据空间,使得获取的第三数据综合考虑了意图识别任务的结果以及对话策略任务的结果,从而可以提升预训练语言模型的对话生成能力。这样,基于数据集对通用预训练语言模型进行训练,得到的第一对话模型具有更强的会话文本生成能力。
本实施方式中,通过不同的指令模板对会话样本进行微调,使得会话样本按照对应的指令模板排布以生成数据集,基于不同的指令模板生成的数据集可以用于对通用预训练语言模型进行训练,使得训练得到的第一对话模型能够执行不同的指令模板对应的指令任务。减少了对话系统中布置任务模型的数量,从而减少了针对任务模型的数据集的设计和数据标注,提升模型训练效率。
其中,现有对话系统的架构构建,在每个节点,都需要针对不同的任务构建针对性的任务模型。而基于本发明实施例提供的一种对话模型构建方法得到的第一模型,可以解决智能客服对话系统中的多个任务,简化了模型优化的流程,缩短了模型优化的时间、以及模型维护的成本。
可选地,所述将第一领域的会话样本输入至预配置的指令模板,包括:
将第一领域的会话样本输入至所述NLU指令模板;
在获取到所述NLU指令模板对所述会话样本微调而生成的第一数据的情况下,将所述会话样本和第四数据输入至所述DM指令模板,所述第四数据包括所述第一数据的至少部分数据;
在获取到所述DM指令模板对所述会话样本和所述第四数据微调而生成的第二数据的情况下,将所述会话样本和第五数据输入至所述NLG指令模板,所述第五数据包括所述第二数据的至少部分数据。
本实施方式中,针对第一领域的对话任务,获取第一领域的对话预料,即第一领域的会话样本,并构建了NLU指令模板、DM指令模板和NLG指令模板。其中,NLU指令模板可以包括第一对象的数据空间、第二对象的数据空间、意图类型的数据空间和目标意图的数据空间;DM指令模板可以包括第一对象的数据空间、第二对象的数据空间、目标意图的数据空间、策略类型的数据空间和目标策略的数据空间;NLG指令模板可以包括第一对象的数据空间、第二对象的数据空间、目标意图的数据空间、目标策略的数据空间、生成要求的数据空间和目标文本的数据空间。
以面向汽车领域的会话样本为例,将部分会话样本输入至NLU指令模板,可以表示为:
意图理解任务:
BOT:[X1],其中,X1可以是“你好,请问是XX先生么”。
UE:[X2],其中,X2可以是“是的,我是”。
意图类型:[intent_list],其中,intent_list可以包括“肯定、否定”等。应当理解的是,intent_list可以根据具体的第一领域进行调整。
答案:[intent],其中,intent可以是“肯定”。在训练过程中,使用的是会话样本,因此,intent是基于标注的确定的数据;而在应用过程中,intent是根据X1、X2和预设的intent_list进行意图理解预测得到的数据。
在获取到NLU指令模板对上述会话样本微调而生成的第一数据的情况下,将会话样本和第四数据输入至DM指令模板,第四数据包括第一数据的至少部分数据。即,第一数据可以包括X1、X2和intent,第四数据可以是intent。将整个会话样本作为DM指令模板的输入数据可以提升进行对话策略任务时上下文之间的关联性,将第四数据作为DM指令模板的输入数据在进行对话策略任务时综合考虑了特定的意图,提升对话生成的准确性。
其中,将会话样本和第四数据输入至DM指令模板,可以表示为:
对话策略任务:
BOT:[你好,请问是XX先生么];
UE:[是的,我是];
答案:[肯定];
策略类型:[policy_list],其中,policy_list可以包括“产品介绍、劝服、身份核实、询问意向”等。应当理解的是,policy_list可以根据具体的第一领域进行调整。
答案:[policy],其中,policy可以是“询问意向”。在训练过程中,使用的是会话样本,因此,policy是基于标注的确定的数据;而在应用过程中,policy是根据X1、X2、intent和预设的policy_list进行对话策略任务预测得到的数据。
在获取到DM指令模板对会话样本和第四数据微调而生成的第二数据的情况下,将会话样本和第五数据输入至NLG指令模板,第五数据包括第二数据的至少部分数据。即第二数据可以包括X1、X2、intent和policy,第五数据可以包括intent和policy。将整个会话样本作为NLG指令模板的输入数据可以提升进行对话生成任务时上下文之间的关联性,将第五数据作为NLG指令模板的输入数据在进行对话策略任务时综合考虑了特定的意图和特定的策略,提升对话生成的准确性。
其中,将会话样本和第五数据输入至NLG指令模板,可以表示为:
对话生成任务:
BOT:[你好,请问是XX先生么];
UE:[是的,我是];
目标意图的数据空间:答案:[肯定];
目标策略的数据空间:答案:[询问意向];
生成要求:[infor],其中,infor可以包括“客户-XX,产品-XX,话术-询问意向”等,即文本排序要求和话术要求中的至少一种。应当理解的是,infor可以根据具体的第一领域进行调整。
目标文本的数据空间:答案:[X3],其中,X3可以是“XX先生你好,我们是最近退出了一款XXX,您有兴趣了解一下么”。在训练过程中,使用的是会话样本,因此,X3是基于标注的确定的数据;而在应用过程中,X3是根据X1、X2、intent、policy和预设的infor进行对话生成任务预测得到的数据。
这样,通过不同的指令模板对会话样本进行微调,使得会话样本按照对应的指令模板排布以生成数据集,基于不同的指令模板生成的数据集可以用于对通用预训练语言模型进行训练,使得训练得到的第一对话模型能够执行不同的指令模板对应的指令任务。减少了对话系统中布置任务模型的数量,从而减少了针对任务模型的数据集的设计和数据标注,提升模型训练效率。
参见图2,图2是本发明实施例提供的一种文本生成方法的流程图之一,如图2所示,所述方法包括以下步骤:
步骤201、将获取的第一会话文本输入至第一对话模型,生成第二会话文本,所述第二会话文本为所述第一会话文本之后的文本,所述第一对话模型为根据对话模型构建方法得到的第一对话模型。
基于如图1的对话模型构建方法得到的第一对话模型,通过领域数据,针对对话系统中不同任务的特点,设计多个指令模板,生成领域指令微调数据集,对通用预训练语言大模型进行领域微调,生成领域预训练对话大模型。然后利用这一个领域预训练对话大模型,可以完成对话系统中的多个任务。简化了模型优化的流程,缩短了模型优化的时间、以及模型维护的成本。
可选地,所述第一对话模型包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述将获取的第一会话文本输入至第一对话模型,生成第二会话文本,包括:
将获取的第一会话文本输入至所述NLU指令模板,以在意图列表中确定目标意图;
将所述第一会话文本和所述目标意图输入至所述DM指令模板,以在策略列表中确定目标策略;
将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,生成第二会话文本。
可选地,所述将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,生成第二会话文本,包括:
将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,并根据生成要求生成第二会话文本,所述生成要求包括文本排序要求和话术要求中的至少一种。
具体的,如图3所示,在得到第一对话模型后。在汽车领域的客服机器人基于第一对话模型与客户进行对话的应用中:
在接受到客户对话文本(即获取的第一会话文本)时,先根据NLU模块的指令模板将第一会话文本生成对应的对话指令,其中,第一会话文本可以包括基于当前对话的历史会话文本。将对话指令输入第一对话模型,以获得客户的意图。指令例如:
输入(Input):
意图理解任务:
BOT:“你好,请问是XX先生么”。
客户:“是的,我是”。
意图类型:“肯定、否定”。
答案:“空”
模型输出(Modle output):“肯定”
在完成NLU模块任务后,将第一会话文本和NLU模块识别的目标意图(即“肯定”),一起输入到DM模块,根据DM中的指令模板转换成对话策略指令,输入第一对话模型,以获得智能系统的对话应答策略。对话策略指令如下:
Input:
对话策略任务:
BOT:“你好,请问是XX先生么”。
客户:“是的,我是”。
用户意图:“肯定”
策略类型:“产品介绍、劝服、身份核实、询问意向”
答案:“空”
Model output:“询问意向”
在完成DM模块任务后,将第一会话文本,系统参数,NLU模块识别的目标意图(即“肯定”)和DM模块的对话目标策略(即“询问意向”),一起输入到NLG模块,根据NLG中的指令模板转换成对话生成指令,输入第一对话模型,以生成智能系统的对话应答文本。对话生成指令如下:
Input:
对话生成任务:
BOT:“你好,请问是XX先生么”。
客户:“是的,我是”。
生成要求:“客户-XX,产品-XX,话术-询问意向”
答案:“空”
Model output:“XX先生你好,我们是最近退出了一款XXX,您有兴趣了解一下么”。
即第二会话文本为:“XX先生你好,我们是最近退出了一款XXX,您有兴趣了解一下么”。
这样,通过不同的指令模板对会话样本进行微调,使得会话样本按照对应的指令模板排布以生成数据集,基于不同的指令模板生成的数据集可以用于对通用预训练语言模型进行训练,使得训练得到的第一对话模型能够执行不同的指令模板对应的指令任务。减少了对话系统中布置任务模型的数量,从而减少了针对任务模型的数据集的设计和数据标注,提升模型训练效率。同时,在文本生成过程中考虑了客户的意图,并基于特定的意图确定对话策略,然后基于对话策略和生成要求生成第二会话文本,提高了对话生成的准确性。
参见图4,图4是本发明实施例提供的一种对话模型构建装置的结构图,如图4所示,对话模型构建装置400包括:
输入模块401,用于将第一领域的会话样本输入至预配置的指令模板;
获取模块402,用于获取所述指令模板对所述会话样本微调而生成的数据集;
训练模块403,用于基于所述数据集对通用预训练语言模型进行训练,得到第一对话模型,所述第一对话模型为应用于所述第一领域的对话模型。
可选地,所述指令模板包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述数据集包括所述NLU指令模板对所述会话样本微调而生成的第一数据、所述DM指令模板对所述会话样本微调而生成的第二数据以及所述NLG指令模板对所述会话样本微调而生成的第三数据。
可选地,输入模块401包括:
第一输入子模块,用于将第一领域的会话样本输入至所述NLU指令模板;
第二输入子模块,用于在获取到所述NLU指令模板对所述会话样本微调而生成的第一数据的情况下,将所述会话样本和第四数据输入至所述DM指令模板,所述第四数据包括所述第一数据的至少部分数据;
第三输入子模块,用于在获取到所述DM指令模板对所述会话样本和所述第四数据微调而生成的第二数据的情况下,将所述会话样本和第五数据输入至所述NLG指令模板,所述第五数据包括所述第二数据的至少部分数据。
需要说明的是,对话模型构建装置400能实现上述对话模型构建方法的各实施例的各个过程,技术特征一一对应,且能达到相同的技术效果,为避免重复,这里不再赘述。
参见图5,图5是本发明实施例提供的一种会话文本生成装置的结构图,如图5所示,会话文本生成装置500包括:
生成模块501,用于将获取的第一会话文本输入至第一对话模型,生成第二会话文本,所述第二会话文本为所述第一会话文本之后的文本,所述第一对话模型为根据第一方面所述的对话模型构建方法得到的第一对话模型。
可选地,所述第一对话模型包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
生成模块501包括:
第一输入子模块,用于将获取的第一会话文本输入至所述NLU指令模板,以在意图列表中确定目标意图;
第二输入子模块,用于将所述第一会话文本和所述目标意图输入至所述DM指令模板,以在策略列表中确定目标策略;
生成子模块,用于将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,生成第二会话文本。
可选地,所述生成子模块包括:
生成单元,用于将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,并根据生成要求生成第二会话文本,所述生成要求包括文本排序要求和话术要求中的至少一种。
需要说明的是,会话文本生成装置500能实现上述文本生成方法的各实施例的各个过程,技术特征一一对应,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例提供了一种对话系统,包括上述的对话模型构建方法得到的第一对话模型。
需要说明的是,对话系统能实现上述对话模型构建方法的各实施例的各个过程,技术特征一一对应,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的程序,程序被处理器执行时实现上述对话模型构建方法实施例的各个过程,或实现上述文本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述对话模型构建方法的步骤,或者,实现上述文本生成方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限于按所讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (9)
1.一种对话模型构建方法,其特征在于,所述方法包括:
将第一领域的会话样本输入至预配置的指令模板;
获取所述指令模板对所述会话样本微调而生成的数据集;
基于所述数据集对通用预训练语言模型进行训练,得到第一对话模型,所述第一对话模型为应用于所述第一领域的对话模型;
其中,所述指令模板包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述数据集包括所述NLU指令模板对所述会话样本微调而生成的第一数据、所述DM指令模板对所述会话样本微调而生成的第二数据以及所述NLG指令模板对所述会话样本微调而生成的第三数据;
其中,所述将第一领域的会话样本输入至预配置的指令模板,包括:
将第一领域的会话样本输入至所述NLU指令模板;
在获取到所述NLU指令模板对所述会话样本微调而生成的第一数据的情况下,将所述会话样本和第四数据输入至所述DM指令模板,所述第四数据包括所述第一数据的至少部分数据;
在获取到所述DM指令模板对所述会话样本和所述第四数据微调而生成的第二数据的情况下,将所述会话样本和第五数据输入至所述NLG指令模板,所述第五数据包括所述第二数据的至少部分数据。
2.一种文本生成方法,其特征在于,所述方法包括:
将获取的第一会话文本输入至第一对话模型,生成第二会话文本,所述第二会话文本为所述第一会话文本之后的文本,所述第一对话模型为根据权利要求1所述的对话模型构建方法得到的第一对话模型。
3.根据权利要求2所述的方法,其特征在于,所述第一对话模型包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述将获取的第一会话文本输入至第一对话模型,生成第二会话文本,包括:
将获取的第一会话文本输入至所述NLU指令模板,以在意图列表中确定目标意图;
将所述第一会话文本和所述目标意图输入至所述DM指令模板,以在策略列表中确定目标策略;
将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,生成第二会话文本。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,生成第二会话文本,包括:
将所述第一会话文本、所述目标意图和所述目标策略输入至所述NLG指令模板,并根据生成要求生成第二会话文本,所述生成要求包括文本排序要求和话术要求中的至少一种。
5.一种对话模型构建装置,其特征在于,所述装置包括:
输入模块,用于将第一领域的会话样本输入至预配置的指令模板;
获取模块,用于获取所述指令模板对所述会话样本微调而生成的数据集;
训练模块,用于基于所述数据集对通用预训练语言模型进行训练,得到第一对话模型,所述第一对话模型为应用于所述第一领域的对话模型;
其中,所述指令模板包括自然语言理解NLU指令模板、对话管理DM指令模板和对话生成NLG指令模板;
所述数据集包括所述NLU指令模板对所述会话样本微调而生成的第一数据、所述DM指令模板对所述会话样本微调而生成的第二数据以及所述NLG指令模板对所述会话样本微调而生成的第三数据;
其中,所述输入模块包括:
第一输入子模块,用于将第一领域的会话样本输入至所述NLU指令模板;
第二输入子模块,用于在获取到所述NLU指令模板对所述会话样本微调而生成的第一数据的情况下,将所述会话样本和第四数据输入至所述DM指令模板,所述第四数据包括所述第一数据的至少部分数据;
第三输入子模块,用于在获取到所述DM指令模板对所述会话样本和所述第四数据微调而生成的第二数据的情况下,将所述会话样本和第五数据输入至所述NLG指令模板,所述第五数据包括所述第二数据的至少部分数据。
6.一种会话文本生成装置,其特征在于,所述装置包括:
生成模块,用于将获取的第一会话文本输入至第一对话模型,生成第二会话文本,所述第二会话文本为所述第一会话文本之后的文本,所述第一对话模型为根据权利要求1所述的对话模型构建方法得到的第一对话模型。
7.一种对话系统,其特征在于,包括如权利要求1所述的对话模型构建方法得到的第一对话模型。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1所述的方法,或者,执行如权利要求2至4中任一项所述的方法。
9.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如权利要求1所述的方法,或者,执行如权利要求2至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708006.3A CN116432665B (zh) | 2023-06-15 | 2023-06-15 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708006.3A CN116432665B (zh) | 2023-06-15 | 2023-06-15 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432665A CN116432665A (zh) | 2023-07-14 |
CN116432665B true CN116432665B (zh) | 2023-10-10 |
Family
ID=87094760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310708006.3A Active CN116432665B (zh) | 2023-06-15 | 2023-06-15 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432665B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644145B (zh) * | 2023-07-26 | 2023-10-13 | 北京仁科互动网络技术有限公司 | 会话数据处理方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122160A (zh) * | 2017-04-26 | 2017-09-01 | 海信集团有限公司 | 用于语音输入控制指令的显示方法、装置和终端 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
WO2022007823A1 (zh) * | 2020-07-10 | 2022-01-13 | 华为技术有限公司 | 一种文本数据处理方法及装置 |
CN114238606A (zh) * | 2021-12-17 | 2022-03-25 | 北京斗米优聘科技发展有限公司 | 一种智能语音客服机器人对话管理方法及装置 |
CN114970522A (zh) * | 2022-05-20 | 2022-08-30 | 北京百度网讯科技有限公司 | 语言模型的预训练方法、装置、设备、存储介质 |
CN115495568A (zh) * | 2022-11-17 | 2022-12-20 | 苏州浪潮智能科技有限公司 | 一种对话模型的训练方法及装置、对话响应方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369443B (zh) * | 2017-06-29 | 2020-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的对话管理方法及装置 |
US10515155B2 (en) * | 2018-02-09 | 2019-12-24 | Digital Genius Limited | Conversational agent |
US11508360B2 (en) * | 2020-09-15 | 2022-11-22 | Microsoft Technology Licensing, Llc | Synthetic data generation for training of natural language understanding models |
-
2023
- 2023-06-15 CN CN202310708006.3A patent/CN116432665B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122160A (zh) * | 2017-04-26 | 2017-09-01 | 海信集团有限公司 | 用于语音输入控制指令的显示方法、装置和终端 |
WO2022007823A1 (zh) * | 2020-07-10 | 2022-01-13 | 华为技术有限公司 | 一种文本数据处理方法及装置 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN114238606A (zh) * | 2021-12-17 | 2022-03-25 | 北京斗米优聘科技发展有限公司 | 一种智能语音客服机器人对话管理方法及装置 |
CN114970522A (zh) * | 2022-05-20 | 2022-08-30 | 北京百度网讯科技有限公司 | 语言模型的预训练方法、装置、设备、存储介质 |
CN115495568A (zh) * | 2022-11-17 | 2022-12-20 | 苏州浪潮智能科技有限公司 | 一种对话模型的训练方法及装置、对话响应方法及装置 |
Non-Patent Citations (2)
Title |
---|
KdConv:A Chinese Multi-domain dialogue Dataset Towards Multi-turn Knowledge-driven Conversation;Hao Zhou等;arxiv;第1-22页 * |
任务型对话系统研究综述;赵阳洋;王振宇;王佩;杨添;张睿;尹凯;;计算机学报(10);第1862-1896页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116432665A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347863B (zh) | 话术推荐方法和装置及存储介质 | |
CN110659360A (zh) | 一种人机对话方法、装置和系统 | |
CN111309889A (zh) | 用于文本处理的方法和装置 | |
CN116432665B (zh) | 对话模型构建方法、文本生成方法、装置、系统及设备 | |
CN111143525A (zh) | 车辆信息获取方法、装置和智能移车系统 | |
CN116737910B (zh) | 智能对话处理方法、装置、设备及存储介质 | |
Herrera et al. | Building conversational interface for customer support applied to open campus an open online course provider | |
CN112199486A (zh) | 一种办公场景的任务型多轮对话方法及系统 | |
CN105869631B (zh) | 语音预测的方法和装置 | |
CN116739004B (zh) | 一种意图识别方法、装置、设备及可读存储介质 | |
CN113840040A (zh) | 一种人机协作的外呼方法、装置、设备及存储介质 | |
CN116595148B (zh) | 一种利用大型语言模型实现对话流程的方法及系统 | |
CN115658875B (zh) | 基于聊天服务的数据处理方法及相关产品 | |
CN115083412B (zh) | 语音交互方法及相关装置、电子设备、存储介质 | |
CN116561270A (zh) | 问答方法以及问答模型训练方法 | |
CN115934904A (zh) | 文本处理方法以及装置 | |
CN113868396A (zh) | 基于知识图谱的任务类智能对话构建方法及系统 | |
CN111737442B (zh) | 智能客服多轮会话管理的方法和装置 | |
CN111241236B (zh) | 任务导向性问答方法、系统、电子设备、可读存储介质 | |
CN114756668A (zh) | 基于人工智能的对话交互方法、装置、计算机设备及介质 | |
CN114880990A (zh) | 标点符号预测模型训练方法、标点符号预测方法及装置 | |
CN110852799A (zh) | 基于意图标签的用户筛选方法、装置、电子设备及介质 | |
CN111639167B (zh) | 一种任务对话方法及装置 | |
CN115129847B (zh) | 智能回答方法及装置 | |
CN113282708B (zh) | 机器人对话回复的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |