CN114860869A - 一种意图泛化的可控制通用对话模型 - Google Patents

一种意图泛化的可控制通用对话模型 Download PDF

Info

Publication number
CN114860869A
CN114860869A CN202210332832.8A CN202210332832A CN114860869A CN 114860869 A CN114860869 A CN 114860869A CN 202210332832 A CN202210332832 A CN 202210332832A CN 114860869 A CN114860869 A CN 114860869A
Authority
CN
China
Prior art keywords
decoder
dialogue
user
reply
nlu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210332832.8A
Other languages
English (en)
Inventor
胡铮
于长宏
张春红
詹志强
孙琪
付东君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210332832.8A priority Critical patent/CN114860869A/zh
Publication of CN114860869A publication Critical patent/CN114860869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种意图泛化的可控制通用对话模型,属于自然语言处理领域;具体包括由对话编码器、NLU解码器和NLG解码器组成的编码‑解码结构,外接数据库以及对文本风格进行控制的改写器;针对用户的实际对话回合,首先,对话编码器读取对话历史、上轮对话状态和本轮用户输入,进行编码和特征提取,得到隐藏状态,经预处理后输出给NLU解码器和NLG解码器;NLU解码器生成反映了用户意图的序列片段,并根据用户意图映射成数据库的查库语句,通过查询外接数据库,返回匹配结果DB Status;NLG解码器根据匹配结果DB Status生成自然语言形式的回复语句,最终反馈给用户。本发明算法复杂度低,降低了维护成本与扩展成本,预测效率更高。

Description

一种意图泛化的可控制通用对话模型
技术领域
本发明属于自然语言处理领域,涉及对话系统,具体是指一种意图泛化的可控制通用对话模型。
背景技术
人机对话是自然语言处理领域的重要应用,其中任务型对话系统(Task-orientedDialogue System,TOD)与闲聊机器人(Chatbot)吸引了学术与工业界的广泛研究;Chatbot指的是用户不存在明确目的,系统只需要陪伴用户聊天,不需要完成某个具体目标,回合与回合之间往往不存在显式的联系。TOD指的是用户具备明确目的,系统需要通过有限的对话回合,访问外部数据库,引导用户完成任务和实现目的,例如查询天气、推荐景点和预订酒店等。在实际开发中,TOD的相关研究逐渐从单领域向多领域过渡,从追求在人工构建的测试集上提高预测准确率,转向去解决更加复杂的真实会话场景中的挑战迈进。
闲聊机器人一般是全数据驱动的,对话语料容易获取,不需要外部专家知识库或API,需要的监督信号少。相反TOD由于涉及查询数据库以及跟踪任务的完成度,需要在用户与系统侧显式地识别槽值对信息与动作信息,这加大了构建数据集的成本。
经典的TOD算法在处理多轮交互时将系统的工作流程划分为四个模块,分别是自然语言理解(NLU)、对话状态跟踪(DST)、对话策略管理(POL)和自然语言生成(NLG)。NLU模块负责理解用户的意图与行为;DST模块负责从理解的用户语义信息中抽取实体和属性,以跟踪当前任务的完成情况(记为对话状态);POL模块负责系统根据DST的结果查询知识库后,选取合适的动作;最后,NLG模块生成自然语言形式的系统回复,反馈给用户。
早期的多领域TOD模型使用fixed-vocabulary based(基于静态词表)方法,该模型存在依赖预定义本体的全知性以及无法应对unseen slot values的问题。近年来,openvocabulary-based(基于开放词表)的方法逐渐取代了fixed-vocabulary based方法,将意图识别从多标签分类任务转化为了一个阅读理解,极大提升了模型的可扩展性。BERT和GPT2预训练语言模型(Pretrained Language Model,PLM)的出现进一步促进了端到端(End-to-end)框架的发展,学术界利用PLM对通用文本的建模能力,跳过NLU阶段直接作DST,降低了模型的算法复杂度与推理时延。
然而,在实际生活中,对话的过程不局限于单一任务,也不严格遵循预定义的任务完成的流程,而是融合了闲聊(Chitchat)型对话与任务型对话(TOD)的复合过程。显然,在单一类型的语料上学习到的参数化模型无法应对这种通用对话任务;其次,现有任务型对话模型所用语料内的监督信息过于复杂,不仅提升了数据收集和构建的成本,也损害了对话机器人在算法上的可维护性和在领域上的可迁移性。用户期待一个高质量的对话系统,既能反映多样化的个性喜好,又能联系到具体的业务和目标上,分别对应TOD与Chitchat两类模型。传统的对话系统在设计上并不具备这样的通用性。
现有的实现通用功能的工业界系统,大多是各部件无关的,通过独立地训练具有不同功能的对话模型组,然后额外学习一个文本分类器,来决策每一个回合将某一个模型呈递给用户侧作交互。这些对话模型在所使用语料的数据结构、网络的设计、模型参数的训练,都是完全独立的,这意味着异质的对话数据集在异构的网络结构上分别训练,没有一个参数共享机制来学习语料间内在的语义特征与知识;而且模型参数量级非常大,不够轻量和方便迁移学习。
发明内容
本发明基于上述考虑,提出了一种意图泛化的可控制通用对话模型,基于一个共享的语义信息编码器,可以同时支持闲聊和任务型对话等异构对话任务,而不需要对意图分类进行监督,整体摒弃了传统的数据标注方式,大幅降低了模型参数与监督学习的难度,可以轻松地实现领域与任务的迁移,并且降低了模型训练与维护的成本。
所述的可控制通用对话模型,包括编码-解码结构,外接数据库以及对文本风格进行控制的改写器;
编码-解码结构包括对话编码器、用于识别用户意图的解码器和产生系统回复的解码器;用于识别用户意图的解码器在查询外接数据库之前工作,称为NLU解码器;产生系统回复的解码器在查询外接数据库之后工作,称为NLG解码器。
针对用户的实际对话回合,首先,对话编码器读取对话历史、上轮对话状态和本轮用户输入,进行编码和特征提取,得到隐藏状态,经预处理后输出给NLU解码器和NLG解码器;
NLU解码器生成反映了用户意图的序列片段,并根据用户意图映射成数据库的查库语句,通过查询外接数据库,返回匹配结果DB Status;NLG解码器根据匹配结果DBStatus生成自然语言形式的回复语句,最终反馈给用户。
所述NLU解码器在多个维度上平行地生成反映了用户意图的序列片段,其中提供信息Informed Message和询问信息Requested Message是必备的基本维度,因此,NLU解码器的意图分解维度应大于等于2。
所述外接数据库SQL Query,使用提供信息Informed Message来更新上轮对话状态,得到本轮的对话状态;对话状态被表达成一组槽值对,含有3层含义:1、对目前任务的完成进度的度量;2、对用户意图的追踪;3、对数据库query的约束条件。同时,询问信息Requested Message表示本轮查库时用户所关心的目标属性;将提供信息InformedMessage和询问信息Requested Message组合起来,以确定性的方式映射为SQL语句,得到匹配结果。
所述NLG解码器功能是生成无风格的系统回复;根据可控制的标识了策略类型的动作标识符Act Flag,作为解码句子的起始单词,生成一个非词化delexicalized形式的粗略回复Skeleton;
所述改写器为即插即用型,通过指定的文本风格类型对回复进行转译,使得语言更生动多样。首先,粗略回复Skeleton通过填入对话状态belief state和数据库查询结果DB search results中的信息,将自身词汇化为一个人类可读的回复,记为Raw Response;随后,通过指定的文本风格类型,将Raw Response“转译”为最终回复Final Response。
本发明的优点在于:
1、一种意图泛化的可控制通用对话模型,为端到端的通用对话模型,同时支持包括闲聊型与任务型等多个异构下游对话任务;
2、一种意图泛化的可控制通用对话模型,上下文编码器共享知识,学习通用语义特征,对语境的建模能力更强。
3、一种意图泛化的可控制通用对话模型,同构的下游解码模块,实现了复合任务交互,在通用性上具有显著优势。
4、一种意图泛化的可控制通用对话模型,着眼于混合任务的复杂性以及输入的不可预期性,提出了新的问题建模方案,打通不同垂直领域间的壁垒。
5、一种意图泛化的可控制通用对话模型,面向复杂多变、不可预期的对话需求,提升模型的鲁棒性和可扩展性。
6、一种意图泛化的可控制通用对话模型,减少参数优化所需的监督信息,算法复杂度低,降低了维护成本与扩展成本,预测效率更高。
附图说明
图1是本发明意图泛化的可控制通用对话模型的示意图;
图2是本发明NLU解码器中的soft-gated copy机制示意图;
图3是本发明可控制的动作标识符供用户选择的实施例;
图4是本发明改写网络期望Rewriter达成的效果实例图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
现有技术中根据是否涉及对知识库的查询,可以将某回合的人机交互分为查库型和非查库型两类。查库型的特点是在用户输入话语到系统产生回复的过程中,插入查库过程,并匹配出符合任务需求的实体表,基于匹配结果来生成回复。非查库型的主要形式则为闲聊型对话,在理解了用户输入后可以直接生成回复,不需要查询数据库,更加侧重于一个与人类情感的关联。
本申请将非查库型对话看作查库型对话的一种特殊情况,从而把两者统一起来,设计一个支持多轮的通用对话框架。假定第t轮的对话历史(dialogue history)为Ht,对话状态(belief state)为Bt。则每一个回合,对话模型的解码模块在查库之前与查库之后,需要依次执行两个子任务:用户意图识别和对话回复生成。其中,对话回复生成可以进一步嵌入一个风格改写(Rewrite)的任务,以实现将无风格的系统回复转化为具有预定义的某几类风格的回复。
总体而言,本发明的通用对话框架包含三个任务,它们的输入输出对象以及依赖的外部资源如下表所示:
Figure BDA0003573641520000041
本发明所述意图泛化的可控制通用对话模型,如图1所示,包括对话编码器(Dialogue Encoder)、用于识别用户意图的解码器(NLU Decoder)、外接数据库(ExternalDatabase)、产生系统回复的解码器(NLG Decoder)以及对文本风格进行控制的改写器(Controlled Rewriter)。
对话编码器、用于识别用户意图的解码器和产生系统回复的解码器共同组成编码-解码(Encoder-Decoder)结构;
用于识别用户意图的解码器在查询数据库前工作一次,将查库前的过程记为自然语言理解(NLU);产生系统回复的解码器在查询数据库后工作一次,将查库后的过程记为自然语言生成(NLG)。
意图泛化的通用对话模型的工作过程为:
针对用户的实际对话回合,首先,对话编码器(Dialogue Encoder)读取对话历史Ct、上轮对话状态Bt-1和本轮用户输入Ut,进行编码和特征提取,得到隐藏状态Ht,并将隐藏状态经过处理后,输出给用于识别用户意图的解码器和产生系统回复的解码器。
用于识别用户意图的解码器(NLU Decoder)生成反映了用户意图的序列片段,并根据用户意图映射成数据库的查库语句,通过查询外接数据库,返回匹配结果DB Status;用于产生系统回复的解码器(NLG Decoder)根据匹配结果DB Status生成自然语言形式的回复语句,最终反馈给用户。
所述NLU解码器在多个维度上平行地生成反映了用户意图的序列片段,根据模型所期望所能够处理的业务的复杂度,用户意图根据特定的方案,分解成若干个相互平行的维度,例如提供信息(Informed Message)、询问信息(Requested Message)、办理预订信息(Booked Message)、后台编辑信息(Edited Message)等。其中提供信息(InformedMessage)和询问信息(Requested Message)是必备的基本维度,因此,NLU解码器的意图分解维度应大于等于2。
如针对RisaWOZ数据集,意图维度分解为用户提供的信息(Informed Message,简记Inft)与询问的信息(Requested Message,简记Reqt)两个角度;解码时,通过控制GRU隐藏单元的初始输入(initial input),decoder对两个角度的信息平行地预测;使用同一网络的目的是增强复合维度的意图相互间的知识共享。
在本实例中,NLU Decoder利用了soft-copy机制加强的GRU-based decoder,把message视作槽值对(slot-value pairs)的序列化形式,使用生成式方法(GenerativeApproach)来产生序列。两个message的生成共享相同的网络参数,功能则由所使用的起始触发词(<Inf>还是<Req>)来区分,从而有助于两个生成任务的联合学习。
Inft=NLUdecoder(Ht,<Inf>)
Reqt=NLUdecoder(Ht,<Req>)
如果Reqt与Inft均为空,表示用户在本轮对话中与数据库没有任何交互,在NLG阶段,系统将以闲聊(Chichat)的形式予以回复;如图2所示,为NLU解码器中的soft-gatedcopy机制;
soft-gated copy机制(软门限复制机制)加强的GRU-based decoder,别名pointer-generator(指针生成网络),是最早在机器翻译领域提出的解码模型。它可以在解码的每一个time step,使得解码器能够选择是从对话上下文中复制token,还是由生成器由词表生成一个token,从而有助于准确地复制上下文内出现的信息,同时保留通过生成器产生新单词的能力。软门限复制机制的优势是所需的监督更少,提高了灵活性。
Figure BDA0003573641520000051
在解码的第k个time step,GRU的隐藏状态以
Figure BDA0003573641520000052
为初始输入迭代更新,直到生成了终止符[EOS]结束。
Figure BDA0003573641520000053
Figure BDA0003573641520000054
Figure BDA0003573641520000055
Figure BDA0003573641520000056
具体地,分别计算GRU的隐藏状态在Ht与E上的分布。Ht是BERT encoder编码后的隐藏状态矩阵,E是BERT encoder的词嵌入矩阵。两个分布加权求和作为最终的分布
Figure BDA0003573641520000057
来生成the next word。通过合并两个源,decoder可以生成未显式地出现在对话上下文内的词。
Figure BDA0003573641520000061
Figure BDA0003573641520000062
Figure BDA0003573641520000063
NLU阶段生成过程的损失函数是在给定三个输入的情况下,最小化Inft与Reqt的负对数似然分数(negative log-likelihood):
L1=-logp(Inft|Ct-1,Ut,Bt-1)
L2=-logp(Reqt|Ct-1,Ut,Bt-1)
所述外接数据库SQL Query,使用提供信息Info Msg来更新上轮对话状态LastBelief State,得到本轮的对话状态;对话状态被表达成一组槽值对,含有3层含义:1、对目前任务的完成进度的度量;2、对用户意图的追踪;3、对数据库query的约束条件。同时,询问信息Req Msg表示本轮查库时用户所关心的目标属性;将提供信息Info Msg和询问信息ReqMsg组合起来,以确定性的方式映射为SQL语句,得到匹配结果。特别地,如果用户输入为闲聊型话语,则系统匹配结果用一种特别情况表示。
匹配结果分为两部分:匹配实体表(DB Items)和匹配状态(DB Status)。匹配实体表是指当前领域内满足条件的所有具体实体的集合,只决定response内可能出现的槽值信息,而与系统的策略无关;匹配状态则是匹配结果的抽象化,直接影响系统选取什么策略来进行交互。
在本实例中,查询数据库的过程,用如下的确定性映射表示:
Bt=f(Bt-1,Inft)
SQLt=Γ(Bt,Reqt)
DBt=Database(SQLt)
上式中,Inft用于对Last Belief StateBt-1进行修改,以确定性的函数(deterministic function)f。更新了的Bt就是查询数据库时的约束条件(Constraint)。Reqt是查库时的库名及目标字段名,也是用户所关心的领域和槽位名称。Γ代表基于约束条件与目标字段名构建的SQL语句。匹配到的实体结果记为DBt,Info Msg作为新增信息对Last Belief State作更新,得到的Current Belief State作为查库的约束条件(Constraint),Req Msg作为查库的目标字段名,以确定性的方式映射为SQL语句,访问外部数据库后,查库结果用具体的项目表(DB Items)和抽象的“匹配状态”(DB Status)表示。
所述NLG Decoder功能是生成无风格的系统回复;根据可控制的标识了策略类型的动作标识符(Act Flag),作为解码句子的起始单词,生成一个非词化(delexicalized)形式的粗略回复Skeleton;Skeleton通过填入belief state和DB search results中的信息,将delexicalized response词汇化(lexicalized)为一个人类可读的回复。
考虑到实际交互场景中回复策略的多样性,动作标识符是可控制的,如图3所示,可以在同一对话上下文(用户寻找餐厅)的条件下反馈不同的策略,通过标识符进行控制:推荐实体,要求用户添加条件或提供若干个条件供用户选择,提高用户的参与感和交互兴趣。
本实例根据匹配到实体数量与用户所关心的槽位类型,首先将DBt分类为基本策略动作at。基础动作是指由对话状态(belief state)和用户意图(user goal)通过数据库匹配后,反应了系统最核心的回复略。基于动作,从可学习的词表矩阵里访问(look up)一个embedding
Figure BDA0003573641520000071
然后将它作为decoder的起始触发词(Starting Token),生成系统的delexicalized response(非词汇的回复,即Skeletion)
Figure BDA0003573641520000072
Skeleton是指由占位符代替了具体项目值的回复模板,在本算法中,占位符用special token[value_]包裹槽位名(slot name)构成,通过结合查库结果填词化(lexicalize)为raw response。Lexicalize是一个Rule-based的槽值替换过程,例如“给您推荐[value_名称]。”,填词后的结果就是“给您推荐周庄古镇”。所谓的raw response,是指剔除了一切与文风相关的特点,仅蕴含了需要反馈给用户的所有核心关键信息的句子。下一步,可以使用改写器(Rewriter)将raw response转化为最终回复(Final Response)。
Figure BDA0003573641520000073
在本实例中,NLG Decoder是一个Attention机制增强的解码器,在每一步计算encoder隐藏状态Ht,直到生成[EOS]结束符号为止。
Figure BDA0003573641520000074
Figure BDA0003573641520000075
Figure BDA0003573641520000076
Figure BDA0003573641520000077
Figure BDA0003573641520000078
Figure BDA0003573641520000079
NLG阶段生成过程的损失函数是在给定三个输入的情况下,最小化
Figure BDA00035736415200000710
的负对数似然分数(negative log-likelihood):
L3=-logp(Rraw t|Ct-1,Ut,Bt-1)
Encoder-decoder的最终损失函数是上述三个解码任务的Loss的加权和。
Led=αL1+βL2+γL3
所述改写器为即插即用型,与编码-解码模块在训练与部署阶段都相互独立的生成网络。考虑到实际交互场景中回复策略的多样性,通过指定的文本风格类型对回复进行转译,使得语言更生动多样,提高用户的参与感和交互兴趣。此外,为了保证Rewriter的转译功能不影响Encoder-Decoder部分预测的效果,这两个模块使用不同的训练集独立训练。
首先,Skeleton通过填入belief state和DB search results中的信息,词汇化(lexicalized)为一个人类可读的回复,记为Raw Response。随后,通过指定的文本风格类型,将Raw Response“转译”为最终回复Final Response。Final Response相比于RawResponse,与上下文联系共紧密、语言更生动多样、风格更可控。
改写网络是通过个性化构建语料微调后的GPT2语言模型,期望Rewriter达成如图4所示的效果。Skeleton在填充了来自匹配结果的具体的景点名称“同里古镇”后,根据风格类型,可以转译为语义相同而风格不同的新句子。
所述编码-解码结构中,编码器为预训练中文BERT语言模型,框架输入是对话上下文(Dialogue Comtext)Ct-1、上轮对话状态(Last Belief State)Bt-1和本轮用户输入(UserInput)Ut三者的拼接序列。所有子序列通过分隔符[SEP]拼接。[CLS]是BERT编码方法中prepend到每一个句子开头的特殊token,其对应的嵌入向量记为
Figure BDA0003573641520000081
通过一个池化层映射为代表句子特征的句向量
Figure BDA0003573641520000082
Figure BDA0003573641520000083
Ht=Encoder(Xt)
Figure BDA0003573641520000084
Figure BDA0003573641520000085
其中Ht是经过编码和特征提取后的encoder的隐藏状态,I是输入序列长度。
本发明扩展了BERT预训练模型的词嵌入(token embedding)层,增加了一些特殊的token,在编码与解码时从扩展后的词嵌入层访问到对应token的embedding。这些特殊token包括6种基本系统动作<chitchat>,<inform>,<return_one>,<return_multi>,<return_zero>,<not_return>;两个NLU触发词<Inf>,<Req>;一个NLG生成阶段的占位符<value_>,以及一个表征句子终止的符号[EOS]。
本实施例中改写器是一个文本生成网络,将Raw Response“转译”为最终回复Final Response。Final Response相比于Raw Response,与上下文联系共紧密、语言更生动多样、风格更可控。在本文中,Rewriter是通过个性化构建语料微调后的GPT2语言模型实现的,。Rewriter以本轮用户输入Ut及Raw Response共同作prompt,以表征文本风格的control codeyj作为分隔符,以自回归的方式生成Final Response。
Figure BDA0003573641520000086
对于序列长度为L的训练样本,损失函数为自回归的交叉熵损失,其中b<k表示k之前的所有token。
Figure BDA0003573641520000091

Claims (6)

1.一种意图泛化的可控制通用对话模型,其特征在于:包括由NLU解码器,NLG解码器和对话编码器组成的编码-解码结构,外接数据库以及对文本风格进行控制的改写器;
针对用户的实际对话回合,首先,对话编码器读取对话历史、上轮对话状态和本轮用户输入,进行编码和特征提取,得到隐藏状态,经预处理后输出给NLU解码器和NLG解码器;
NLU解码器生成反映了用户意图的序列片段,并根据用户意图映射成数据库的查库语句,通过查询外接数据库,返回匹配结果DB Status;NLG解码器根据匹配结果DB Status生成自然语言形式的回复语句,最终反馈给用户。
2.根据权利要求1所述的一种意图泛化的可控制通用对话模型,其特征在于,所述NLU解码器为用于识别用户意图的解码器,在查询外接数据库之前工作;所述NLG解码器为产生系统回复的解码器,在查询外接数据库之后工作。
3.根据权利要求1所述的一种意图泛化的可控制通用对话模型,其特征在于,所述NLU解码器在多个维度上平行地生成反映了用户意图的序列片段,其中提供信息InformedMessage和询问信息Requested Message是必备的基本维度,因此,NLU解码器的意图分解维度应大于等于2。
4.根据权利要求1所述的一种意图泛化的可控制通用对话模型,其特征在于,所述外接数据库SQL Query,使用提供信息Informed Message来更新上轮对话状态,得到本轮的对话状态;
对话状态被表达成一组槽值对,含有3层含义:1)、对目前任务的完成进度的度量;2)、对用户意图的追踪;3)、对数据库query的约束条件;同时,询问信息Requested Message表示本轮查库时用户所关心的目标属性;将提供信息Informed Message和询问信息Requested Message组合起来,以确定性的方式映射为SQL语句,得到匹配结果。
5.根据权利要求1所述的一种意图泛化的可控制通用对话模型,其特征在于,所述的NLG解码器功能是生成无风格的系统回复;根据可控制的标识了策略类型的动作标识符ActFlag,作为解码句子的起始单词,生成一个非词化delexicalized形式的粗略回复Skeleton。
6.根据权利要求1所述的一种意图泛化的可控制通用对话模型,其特征在于,所述改写器为即插即用型,通过指定的文本风格类型对回复进行转译;
首先,粗略回复Skeleton通过填入对话状态belief state和数据库查询结果DBsearch results中的信息,将自身词汇化为一个人类可读的回复,记为Raw Response;随后,通过指定的文本风格类型,将Raw Response“转译”为最终回复Final Response。
CN202210332832.8A 2022-03-30 2022-03-30 一种意图泛化的可控制通用对话模型 Pending CN114860869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210332832.8A CN114860869A (zh) 2022-03-30 2022-03-30 一种意图泛化的可控制通用对话模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210332832.8A CN114860869A (zh) 2022-03-30 2022-03-30 一种意图泛化的可控制通用对话模型

Publications (1)

Publication Number Publication Date
CN114860869A true CN114860869A (zh) 2022-08-05

Family

ID=82629667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210332832.8A Pending CN114860869A (zh) 2022-03-30 2022-03-30 一种意图泛化的可控制通用对话模型

Country Status (1)

Country Link
CN (1) CN114860869A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561286A (zh) * 2023-07-06 2023-08-08 杭州华鲤智能科技有限公司 一种对话方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561286A (zh) * 2023-07-06 2023-08-08 杭州华鲤智能科技有限公司 一种对话方法及装置
CN116561286B (zh) * 2023-07-06 2023-10-27 杭州华鲤智能科技有限公司 一种对话方法及装置

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN111241245B (zh) 人机交互处理方法、装置及电子设备
US20220130378A1 (en) System and method for communicating with a user with speech processing
CN111368538A (zh) 语音交互方法、系统、终端及计算机可读存储介质
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN116644168A (zh) 一种交互数据构建方法、装置、设备及存储介质
CN114118417A (zh) 一种多模态预训练方法、装置、设备及介质
CN115017919B (zh) 用于支持训练数据快速构建和流程自定义的多场景对话系统及方法
CN114091466A (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN116820429A (zh) 代码处理模型的训练方法、装置、电子设备及存储介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN111399629A (zh) 一种终端设备的操作引导方法、终端设备及存储介质
CN117216212A (zh) 对话处理方法、对话模型训练方法、装置、设备及介质
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN114860869A (zh) 一种意图泛化的可控制通用对话模型
CN114020886A (zh) 语音意图识别方法、装置、设备及存储介质
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN115994522A (zh) 文本处理方法、文章生成方法以及文本处理模型训练方法
CN114036268A (zh) 基于意图门的任务型多轮对话方法及系统
CN114297352A (zh) 对话状态追踪方法、装置、人机对话系统及作业机械
CN115700579A (zh) 广告文本生成方法及其装置、设备、介质
CN114358021A (zh) 基于深度学习的任务型对话语句回复生成方法及存储介质
CN107368473B (zh) 一种语音交互的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination