CN116822605A - 对话状态识别模型训练及对话状态识别方法以及装置 - Google Patents
对话状态识别模型训练及对话状态识别方法以及装置 Download PDFInfo
- Publication number
- CN116822605A CN116822605A CN202310598854.3A CN202310598854A CN116822605A CN 116822605 A CN116822605 A CN 116822605A CN 202310598854 A CN202310598854 A CN 202310598854A CN 116822605 A CN116822605 A CN 116822605A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- sample
- state
- dialog
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 title claims abstract description 70
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008451 emotion Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008904 neural response Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本说明书实施例公开了一种对话状态识别模型训练及对话状态识别方法以及装置。将样本对话数据输入对话状态识别模型,基于编码层对样本对话数据进行编码,生成样本对话数据的样本隐状态;基于解码层对样本隐状态进行解码,生成至少一种预设类型的对话状态槽位对应的样本槽值;根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型。通常对话内容隐状态能够体现对话内容中包含的特征含义,因此对话状态识别模型就能够从中解析到对话内容中包含的对话状态,基于对话内容的准确分析就可以使得对话状态识别模型生成隐含的抽象对话状态。
Description
技术领域
本说明书实施例涉及人工智能技术领域,尤其涉及一种对话状态识别模型训练及对话状态识别方法以及装置。
背景技术
近年来互联网的快速发展,大量服务都支持线上提供。而各类服务需要依托大量的对话交互过程,例如咨询、查询、营销等需要与用户进行对话的交互过程,为了提高对话交互效率,各对话服务中都已经广泛使用智能对话机器人来与用户进行对话。而为了对话机器人能够基于用户的对话信息准确满足用户需求,首先就需要准确识别用户的对话状态,以使得对话机器人能够根据准确的对话状态与用户进行顺利对话交互。
发明内容
本说明书实施例提供一种对话状态识别模型训练及对话状态识别方法以及装置,可以解决相关技术中无法准确识别用户的对话状态的技术问题。
第一方面,本说明书实施例提供一种对话状态识别模型训练方法,该方法包括:
将样本对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述样本对话数据进行编码,生成所述样本对话数据对应的样本隐状态;
基于所述对话状态识别模型的解码层对所述样本隐状态进行解码,生成所述样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;
根据所述样本对话数据对应的标准槽值和所述样本槽值,训练所述对话状态识别模型直至所述对话状态识别模型收敛。
第二方面,本说明书实施例提供一种对话状态识别方法,该方法包括:
将待识别对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述待识别对话数据输进行编码,生成所述待识别对话数据输对应的目标隐状态;
基于所述对话状态识别模型的解码层对所述目标隐状态进行解码,生成所述待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值;
其中,所述对话状态识别模型为上述任一项说明书实施例所述的对话状态识别模型训练方法训练并收敛的对话状态识别模型。
第三方面,本说明书实施例提供一种对话状态识别模型训练装置,该装置包括:
样本编码模块,用于将样本对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述样本对话数据进行编码,生成所述样本对话数据对应的样本隐状态;
样本解码模块,用于基于所述对话状态识别模型的解码层对所述样本隐状态进行解码,生成所述样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;
模型训练模块,用于根据所述样本对话数据对应的标准槽值和所述样本槽值,训练所述对话状态识别模型直至所述对话状态识别模型收敛。
第四方面,本说明书实施例提供一种对话状态识别装置,该装置包括:
目标编码模块,用于将待识别对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述待识别对话数据输进行编码,生成所述待识别对话数据输对应的目标隐状态;
目标解码模块,用于基于所述对话状态识别模型的解码层对所述目标隐状态进行解码,生成所述待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值;
其中,所述对话状态识别模型为上述任一项说明书实施例所述的对话状态识别模型训练方法训练并收敛的对话状态识别模型。
第五方面,本说明书实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行上述的方法的步骤。
第六方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
第七方面,本说明书实施例提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序适于由处理器加载并执行上述的方法的步骤。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
本说明书实施例提供一种对话状态识别模型训练方法,将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态;基于对话状态识别模型的解码层对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。通常对话内容隐状态能够体现对话内容中包含的特征含义,因此训练收敛后的对话状态识别模型对对话数据进行编码得到隐状态后再在隐状态的基础上进行解码,就能够从中解析到对话内容中包含的对话状态,基于对话内容的准确分析就可以使得对话状态识别模型准确生成对话文本中没有出现过的隐含的抽象对话状态,完成从无到有的对话状态生成,得到准确的对话状态用于进一步的智能对话生成场景,提升用户对话体验。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种对话状态识别模型训练方法的示例性系统架构图;
图2为本说明书实施例提供的一种对话状态识别模型训练方法的流程示意图;
图3为本说明书实施例提供的一种对话状态识别模型训练方法的流程示意图;
图4为本说明书实施例提供的一种对话状态识别模型的逻辑流程图;
图5为本说明书实施例提供的一种对话状态识别方法的流程示意图;
图6为本说明书实施例提供的一种对话状态识别模型训练装置的结构框图;
图7为本说明书实施例提供的一种对话状态识别装置的结构框图;
图8为本说明书实施例提供的一种终端的结构示意图。
具体实施方式
为使得本说明书实施例的特征和优点能够更加的明显和易懂,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而非全部实施例。基于本说明书中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书实施例保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书实施例相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本说明书实施例的一些方面相一致的装置和方法的例子。
在通过网络对用户提供交互服务时,为了提升服务效率,减少人工参与和节约人力资源,各服务中已经广泛运用智能对话机器人来进行对话以及答复。在对话过程中,对话内容通常包含丰富的信息量,用户的对话状态在对话中的表现形式多样,可能是显性表现在对话文本中,例如对话目标、用户意图等,也可能隐性表现在对话语气中,例如用户情绪、用户观点等,因此只有准确分析用户对话,得到用户在对话内容中表达的准确意思,才能够掌握用户需求,进而响应用户需求并回复合适的对话。
随着近年来人工智能技术发展,各互联网企业开发了很多对话机器人。工业界,大部分的对话机器人都是任务型机器人,可以帮助用户处理一些简单的日常事务,比如订餐、客服、订飞机等。任务型对话系统的对话管理一个不可缺少的组成部分是对话状态跟踪(Dialogue state tracking,DST)模块,根据用户当前轮问题结合历史对话,DST模块需要识别出当前轮问题中用户提及的状态槽位(slot),一般包括状态槽位和对应槽值(slot-values pairs)。槽一般用于描述所论对象某一方面的属性,那么槽位就是目标对象的各种属性,在对话状态识别场景下为各属性的对话状态,例如金融智能对话场景中的基金名称、用户意图、用户情绪等,槽位的对应槽值就是各槽位的具体数值,例如双数金融智能对话场景中“对话讨论对象=XX基金”、“用户意图=了解XX基金涨跌情况”、“用户情绪=积极”等。
通常对于专业性具有一定要求的任务型对话系统,对话状态识别方案一般采取两种模式:(1)基于固定词表(fixed ontology)的方法,预先定义好一套对话状态的词表,也即固定对话状态槽位和固定槽值,对话状态识别时在固定词表中查询最匹配的对话状态槽位最终输出其对应的固定槽值,然而这类方案该高度依赖一套预定义的词表或者本体库,很难实现复杂数据集,并且在理想情况下对话状态识别模型的规模大小跟词表的大小成线性关系,真实场景下词表都是不断变化的,这就说明这类方案不具备可维护性和可扩展性;(2)槽值(value)从已有对话上下文中抽取标签(span)的方法,这类方案可以保证识别到的用户对话状态与当前对话的相关程度,但基础的模型通常只针对当前对话,当对话出现“上面的”、“持仓的”等具有指代关系的词语时,可能所指代的目标在本层对话中没有,而是出现在历史对话中或者其他数据(例如其他数据库)中的,为了解决指代问题还需要额外引入一个任务类型的task,或者遇到需要判定出yes/no等答案类型的任务也需要额外引入task,这种span value的方案只能对从已有文本中抽取摘要类型(Extractive based)的场景适用,无法解决需要生成的语义抽象类(Abstractive based)场景,例如生成用户情绪、用户意图等。
综上,目前的对话状态识别方案对对话文本进行理解之后,还无法准确以文字来准确表达其中的含义,也就是在识别对话状态以及生成对话状态时还无法生成准确的词语来表达对话中的关注因子,对话状态识别不准就会导致自然语言生成模块生成恢复对话时,不贴合用户真实需求,导致用户体验较差。
因此本说明书实施例提供一种对话状态识别模型训练方法,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态;对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;训练对话状态识别模型直至对话状态识别模型收敛,以解决上述无法准确识别用户的对话状态的技术问题。
请参阅图1,图1为本说明书实施例提供的一种对话状态识别模型训练方法的示例性系统架构图。
如图1所示,系统架构可以包括终端101、网络102和服务器103。网络102用于在终端101和服务器103之间提供通信链路的介质。网络102可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
终端101可以通过网络102与服务器103交互,以接收来自服务器103的消息或向服务器103发送消息,或者终端101可以通过网络102与服务器103交互,进而接收其他用户向服务器103发送的消息或者数据。终端101可以是硬件,也可以是软件。当终端101为硬件时,可以是各种电子设备,包括但不限于智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端101为软件时,可以是安装在上述所列举的电子设备中,其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
在本说明书实施例中,终端101将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态;然后,终端101基于对话状态识别模型的解码层对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;最后,终端101根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。
服务器103可以是提供各种服务的事务服务器。需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
或者,该系统架构还可以不包括服务器103,换言之,服务器103可以为本说明书实施例中可选的设备,即本说明书实施例提供的方法可以应用于仅包括终端101的系统结构中,本说明书实施例对此不做限定。
应理解,图1中的终端、网络以及服务器的数目仅是示意性的,根据实现需要,可以是任意数量的终端、网络以及服务器。
请参阅图2,图2为本说明书实施例提供的一种对话状态识别模型训练方法的流程示意图。本说明书实施例的执行主体可以是执行对话状态识别模型训练的终端,也可以是执行对话状态识别模型训练方法的终端中的处理器,还可以是执行对话状态识别模型训练方法的终端中的对话状态识别模型训练服务。为方便描述,下面以执行主体是终端中的处理器为例,介绍对话状态识别模型训练方法的具体执行过程。
如图2所示,对话状态识别模型训练方法至少可以包括:
S202、将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态。
可选地,对于一些专业性较强的场景,例如保险咨询、金融服务、病情咨询等,服务人员必须具有较强专业性和较高复杂度的学问,而通常这类咨询专业的人工理财顾问花费昂贵,所以目前对专业场景下的智能对话机器人的需求市场很大。当围绕某个专业话题与用户交互,对对话系统的专业性要求通常较高,要能够快速整合大量的信息,通过对话理解用户需求,进而返回用户需要的信息,节约信息获取的时间成本。例如智能理财助理为了进行个性化对话能力建设,定义了各种维度的用户状态信息,包括金融实体类,产品实体,时间实体,金融名词,用户KYC(Know Your Customer),用户焦点,用户情绪及事实因子类等等,此时根据这些状态识别信息以及NLU(自然语言处理)识别结果可以进行智能化的动态响应决策,从而完成个性化对话。
可选地,由于神经网络模型可以模拟生物神经网络,通过对样本数据的学习收集目标特征和目标知识,学习到较好效果后实现自动完成任务,也就说明神经网络模型可以直接基于输入数据、输入数据对应的输出数据以及输入数据对应的标准数据,从而快速获得准确输出数据的知识。因此在对话状态识别场景中,可以训练得到对话状态识别模型,通过对话状态识别模型来识别对话中的用户对话状态,从而提高基于用户对话状态进行对话响应的对话策略的性能。
可选地,在对话状态识别模型的训练过程中,需要通过样本对话数据的学习,来训练模型的对话状态识别性能。样本对话数据是预先准备的一句或一段对话文本,样本对话数据的来源可以是从实际场景中采集的、也可以是对话生成器生成的,对样本对话数据进行筛选预设主题、去除噪声数据等预处理步骤,本说明书实施例不作具体限定。
可选地,在对话状态识别场景中,其最终是通过对话文本生成对话状态,也即由一个句子(或篇章)生成另外一个句子(或篇章),这类问题可以使用编码器-解码器(encoder-decoder)框架的对话状态识别模型进行处理,也称为Seq2Seq模型,由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。对于句子对<Source,Target>,对话状态识别模型的目标是给定输入句子Source,期待通过Encoder-Decoder框架中的编码(Encoder)部分进行编码,将输入序列转化转化成一个固定长度向量,然后通过解码(Decoder)部分将之前生成的固定向量再转化出输出序列,得到目标句子Target。其中,Source和Target可以是同一种语言,也可以是两种不同的语言。
可选地,通常模型通过获取文本的语义特征来理解文本,然后再根据模型所理解到的文本语义来进行下一步输出,而文本的语义特征会体现在其隐状态中,那么在本说明书实施例中,将样本对话数据输入对话状态识别模型之后,对话状态识别模型需要先通过编码层对样本对话数据进行编码,编码层(Encoder)在最终时间步的隐状态作为输入句子表征和编码信息,也即生成样本对话数据对应的样本隐状态。
S204、基于对话状态识别模型的解码层对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值。
可选地,根据对话场景,可能会需要多种类型的对话状态,例如用户意图、领域、用户情绪、用户观点等,每一种类型的对话状态需要设置对应的解码任务,因此预先确定需要的至少一种预设类型的对话状态槽位,对每类对话状态槽位设置一个对应的解码任务。那么得到样本对话数据的样本隐状态之后,对话状态识别模型的解码层(Decoder)在各个时间步中使用输入句子的编码信息和上一个时间步的输出以及隐藏状态作为输入,对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值。本说明书实施例中,不需要设置固定的对话状态词表,也不局限于从已有文本中抽取词语作为对话状态,而是可以准确理解对话文本数据从而生成对话状态对应的槽值,完成从无到有的对话状态生成,得到准确的对话状态用于进一步的智能对话生成场景,提升用户对话体验。
S206、根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。
可选地,在模型训练过程中,通常使用损失函数来计算模型每一轮训练的输出值与样本对应的标准值之间的损失值,模型利用损失值对参数进行调整,趋向于损失值减小的方向拟合,当损失值满足预设目标值时,则说明模型的训练成果已经达到预设目标。基于此,训练对话状态识别模型,首先在准备样本对话数据时,也准备样本对话数据对应的上述预设类型的对话状态槽位的标准槽值,根据样本对话数据对应的标准槽值和样本槽值,可以计算对话状态识别模型在训练中的损失值,训练对话状态识别模型直至对话状态识别模型收敛。其中,损失函数可以使用交叉熵函数,或者其他常见的损失函数,本说明书实施例对此不作限定。
在本说明书实施例中,提供一种对话状态识别模型训练方法,将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态;基于对话状态识别模型的解码层对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。通常对话内容隐状态能够体现对话内容中包含的特征含义,因此训练收敛后的对话状态识别模型对对话数据进行编码得到隐状态后再在隐状态的基础上进行解码,就能够从中解析到对话内容中包含的对话状态,基于对话内容的准确分析就可以使得对话状态识别模型准确生成对话文本中没有出现过的隐含的抽象对话状态,完成从无到有的对话状态生成,得到准确的对话状态用于进一步的智能对话生成场景,提升用户对话体验。
请参阅图3,图3为本说明书实施例提供的一种对话状态识别模型训练方法的流程示意图。
如图3所示,对话状态识别模型训练方法至少可以包括:
S302、将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层提取样本对话数据的语义特征,根据语义特征生成样本对话数据的样本隐状态。
可选地,选择对话状态识别模型时,模型底座可以采用生成式语言模型底座进行输入文本信息表征,输入的样本对话数据不限于一句话,可以是一段对话上下文,同时为了保证模型的编码效率以及最终隐状态的准确性,可将预设轮次数的对话上下文作为标准文本长度。在实际应用场景中就是预设轮次数的对话上下文history+当前用户输入currentutterance,例如选取当前输入语句以及该语句的前五轮历史对话,组成输入语句序列。
其中,在样本对话数据输入时,每个句子前使用特殊字符“<bos>”(begin ofseqence)表示序列开始,在输出对话状态时,在每个句子后使用特殊字符“<eos>”(end ofsequence)以表示序列终止。并且对于出现在对话上下文中的不同对话角色在样本对话数据中使用不同角色表征进行分割,例如一段对话中,用户A:“XX股票又跌了,是不是Y领域不行了?”机器人:“XX股票最近跌了13%……,您是已经有了加仓或者卖出的计划吗?”用户A:“买点吧。”,转化为模型输入时source端表示如下:<bos>+<user>XX股票又跌了,是不是Y领域不行了+<agent>XX股票最近跌了13%……,您是已经有了加仓或者卖出的计划吗?+<user>买点吧<eos>。
可选地,由于是多轮对话场景,可采用对话生成式语言模型DialoGPT,DialoGPT用于应对对话神经响应生成(conversational neural response generation model)遇到的挑战。神经响应生成是文本生成的子问题,任务是迅速生成自然的文本(与训练文本不一致)。人类对话中潜在的响应(回复)更加多样化。因此,相比于其他文本生成的任务,对话模型提出了一个更大的一对多的任务。并且人类的对话通常也不正式,经常包含缩写或错误,这些都是对话生成的挑战。DialoGPT也表示为一个自回归(autoregressive,AR)语言模型,利用多层transformer模型架构。可以捕捉到更细粒度的对话流中的联合概率分布P(Target,Source)。
更进一步地,具体采用了CDial-GPT底座,使用开放的超大规模中文对话数据集对DialoGPT模型进行重训练得到的CDial-GPT模型作为本说明书实施例中对话状态识别模型的sota底座。另外的,除了生成式底座,还可以使用bart、uniLm等融合了AR和AE2种框架的模型底座。
可选地,确定对话状态识别模型的模型底座之后,在CDIal-GPT的基础上,为了提高编码层效果,使用相关领域的对话数据作为样本对话数据进行了领域适应性训练,将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层提取样本对话数据的语义特征,根据语义特征生成样本对话数据的样本隐状态,与场景专业相关的样本对话数据用于训练模型可以极大提高模型在对应场景下的状态识别效果。
S304、基于对话状态识别模型的解码层,按照预设解码任务对样本隐状态进行并行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值。
可选地,根据对话场景,可能会需要多种类型的对话状态,例如用户意图、领域、用户情绪、用户观点等,对每类对话状态槽位设置一个对应的解码任务。那么得到样本对话数据的样本隐状态之后,对话状态识别模型的解码层(Decoder)在各个时间步中使用输入句子的编码信息和上一个时间步的输出以及隐藏状态作为输入,对样本隐状态进行解码。通常解码过程中,各任务是串联解决的,也即后面任务的完成情况会依赖于前面任务的完成情况,当前面任务不准确时,极大影响了后面任务的生成效果。
基于此,本说明书实施例中,可以在对话状态识别模型中按照对话状态槽位的至少一种预设类型对应设置对应的预设解码任务,然后按照预设解码任务对样本隐状态进行并行解码,使得多个预设解码任务之间不存在依赖关系,彼此的准确性不会互相影响,提升模型生成多种对话状态的准确性和稳定性。在简单的对话场景下,也可以直接对所有的对话状态槽位进行拼接,多槽位串联解码,也是可行的。
可选地,为了实现模型的多槽位并行解码,可以采用提示方案(prompt),用于支持并行解码。prompt是为下游任务设计的一种模板或者范式,这种范式能够帮助模型回忆起自己预训练学到的知识,通俗来讲,prompt方案能够根据任务来生成引导词对模型进行提示,引导词相当于任务注释,帮助模型理解任务含义,使得模型更清楚该任务需要的是什么样的输出,提高模型的解码能力。例如,任务对话状态槽位为“基金名称”的引导词为“专有名词”,模型就可以理解基金名称(槽位)对应的槽值(value)应该是一个专有名词;同样的,任务对话状态槽位为“用户情绪”的“引导词”可以是识别对话中隐含用户情绪等。那么基于prompt的引导词性质,对于一些样本对话数据出现较少、资源分布较少的对话状态槽位,也可以使得模型能够仅基于低资源的样本分布输出准确的样本槽值,不仅提高了模型解码准确率还提高了解码效率。
可选地,本说明书实施例中,具体可以按照对话状态槽位的预设类型分别设置各对话状态槽位的槽值引导词,槽值引导词用于对各对话状态槽位对应的样本槽值进行属性说明,这样对话状态识别模型的解码层就可以根据槽值引导词对样本隐状态进行解码。对不同类型的预设解码任务中的对话状态槽位,对应的引导词可以人工设计,也可以使用prompt设计方案。其中输出对话状态槽位对应的槽值时,target端对应表示:prompt word(人工设计或者模型自动学习)+slot_name=slot_value。
可选地,具体请参阅图4,图4为本说明书实施例提供的一种对话状态识别模型的逻辑流程图。如图4所示,在对话状态识别模型中,编码层对于输入的样本对话数据,模型是一个字一个字的进行编码,从第一个字开始提取语义信息之后,将第二个字拼接第一个字的信息作为第二步输入,以此类推,例如,source端输入:<bos>+<user>XX股票又跌了,是不是Y领域不行了+<agent>XX股票最近跌了13%……,您是已经有了加仓或者卖出的计划吗?+<user>买点吧<eos>;在解码层中,解码时预测下一个词之后将该词作为新单词加入原句,作为新的输入,继续预测下一个词,如上举例,target端的任务可以有task1、task2……task6,task1:对话状态槽位为基金名称,对应的槽值为XX股票,那么模型对task1的输出为“基金名称=XX股票”,task6:对话状态槽位为用户情绪,对应的槽值为失望,那么模型对task6的输出为“用户情绪=失望”等。
可选地,在一些对话中,对话原文中可能出现模型没有遇到过的词汇,即OOV(Out-of-vocabulary),意思是有一些词并不在现有的遇到过的词汇vocabulary里,我们就说这些词汇是Out-of-vocabulary,简称OOV,例如人名、用户名等,而在真实对话中,这类词汇在回复中倾向于被重复出来,也就是copy到回复中,即输入序列中的某些片段被选择性地复制到输出序列中,那么此时就可以引入CopyNet机制,来解决模型的复制问题。
具体的,CopyNet机制,就是解码生成时引入判断是否直接copy原文的机制,CopyNet机制会首先判断解码时是否copy原文使用的语句更优于重新生成的语句,依次来决定是否进行copy以及进行copy的片段和放在输出中的位置。那么本说明书实施例中,就是基于对话状态识别模型的解码层,判断预设解码任务能否根据样本对话数据的原始对话词语进行解码,若能够,则生成预设解码任务对应的对话状态槽位的样本槽值,其中,样本槽值中包括原始对话词语;若不能够的,就重新直接生成预设解码任务对应的对话状态槽位的样本槽值。
可选地,本说明书实施例中的对话状态识别模型既可以解决槽值抽取类型槽位,生成式的模型也天然解决槽值是语义抽象类型的槽位,模型能完成的任务大小跟状态规模没有直接大小关系,结构简单并且具有很好的可扩展性,对用户多维度细粒度状态进行很好的识别,为个性化对话能力的建设奠定了良好的基础。在生成状态槽位时,为了提高模型的效率和准确率,可以使用相关领域的限制约束的词表,例如可以将此表范围控制在几千词之内,减少模型的计算时间,节约计算资源。
S306、根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。
关于步骤S306,请参阅步骤S206中的详细记载,此处不再赘述。
在本说明书实施例中,提供一种对话状态识别模型训练方法,通过生成式模型的部署,是的模型生成对话状态时不受固定词表的限制,便于优化和维护;对各类对话状态识别任务的提示方案,能够使得模型使用低资源槽位的生成任务,并且实现多槽位并行解码;同时,模型还会判断输出是否适合直接复制输入序列,使得能够输出更准确、更贴合对话场景的对话状态槽值;对用户多维度细粒度状态进行很好的识别,为个性化对话能力的建设奠定了良好的基础。
请参阅图5,图5为本说明书实施例提供的一种对话状态识别方法的流程示意图。
如图5所示,对话状态识别方法至少可以包括:
S502、将待识别对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对待识别对话数据输进行编码,生成待识别对话数据输对应的目标隐状态。
可选地,在实际对话场景中,部署上述任一说明书实施例中对话状态识别模型训练方法训练并收敛的对话状态识别模型,然后将待识别对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对待识别对话数据输进行编码,生成待识别对话数据输对应的目标隐状态,对话状态识别模型能够对用户多维度细粒度状态进行很好的识别,为个性化对话能力的建设奠定了良好的基础。
S504、基于对话状态识别模型的解码层对目标隐状态进行解码,生成待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值。
同样的,实际场景中,对话状态识别模型中的解码层,对目标隐状态进行解码,生成待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值,具体流程为上述任一说明书实施例中对话状态识别模型训练方法训练并收敛的对话状态识别模型,所训练得到的识别流程,此处不再赘述。
在本说明书实施例中,提供一种对话状态识别方法,将待识别对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对待识别对话数据输进行编码,生成待识别对话数据输对应的目标隐状态;基于对话状态识别模型的解码层对目标隐状态进行解码,生成待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值。对话状态识别模型对对话数据进行编码得到隐状态后再在隐状态的基础上进行解码,就能够从中解析到对话内容中包含的对话状态,基于对话内容的准确分析就可以使得对话状态识别模型准确生成对话文本中没有出现过的隐含的抽象对话状态,完成从无到有的对话状态生成,得到准确的对话状态用于进一步的智能对话生成场景,提升用户对话体验。
请参阅图6,图6为本说明书实施例提供的一种对话状态识别模型训练装置的结构框图。如图6所示,对话状态识别模型训练装置600包括:
样本编码模块610,用于将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态;
样本解码模块620,用于基于对话状态识别模型的解码层对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;
模型训练模块630,用于根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。
可选地,样本编码模块610,还用于基于对话状态识别模型的编码层提取样本对话数据的语义特征,根据语义特征生成样本对话数据的样本隐状态。
可选地,样本解码模块620,还用于按照对话状态槽位的预设类型分别设置各对话状态槽位的槽值引导词,槽值引导词用于对各对话状态槽位对应的样本槽值进行属性说明;基于对话状态识别模型的解码层,根据槽值引导词对样本隐状态进行解码。
可选地,样本解码模块620,还用于基于对话状态识别模型的解码层,按照预设解码任务对样本隐状态进行并行解码;其中,预设解码任务为对话状态识别模型中按照对话状态槽位的至少一种预设类型对应设置。
可选地,样本解码模块620,还用于基于对话状态识别模型的解码层,判断预设解码任务能否根据样本对话数据的原始对话词语进行解码;若能够,则生成预设解码任务对应的对话状态槽位的样本槽值,其中,样本槽值中包括原始对话词语。
可选地,样本对话数据包括预设轮次数的对话上下文,以及出现在对话上下文中的不同对话角色在样本对话数据中使用不同角色表征进行分割。
可选地,样本对话数据为目标属性场景下的对话数据,样本槽值基于目标属性场景对应的预设约束词表库生成。
在本说明书实施例中,提供一种对话状态识别模型训练装置,其中,样本编码模块,用于将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态;样本解码模块,用于基于对话状态识别模型的解码层对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;模型训练模块,用于根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。通常对话内容隐状态能够体现对话内容中包含的特征含义,因此训练收敛后的对话状态识别模型对对话数据进行编码得到隐状态后再在隐状态的基础上进行解码,就能够从中解析到对话内容中包含的对话状态,基于对话内容的准确分析就可以使得对话状态识别模型准确生成对话文本中没有出现过的隐含的抽象对话状态,完成从无到有的对话状态生成,得到准确的对话状态用于进一步的智能对话生成场景,提升用户对话体验。
请参阅图7,图7为本说明书实施例提供的一种对话状态识别装置的结构框图。如图7所示,对话状态识别装置700包括:
目标编码模块710,用于将待识别对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对待识别对话数据输进行编码,生成待识别对话数据输对应的目标隐状态;
目标解码模块720,用于基于对话状态识别模型的解码层对目标隐状态进行解码,生成待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值;
其中,对话状态识别模型为上述任一项说明书实施例的对话状态识别模型训练方法训练并收敛的对话状态识别模型。
在本说明书实施例中,提供一种对话状态识别装置,其中,部署上述任一说明书实施例中对话状态识别模型训练方法训练并收敛的对话状态识别模型,对话状态识别模型中目标编码模块,用于将待识别对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对待识别对话数据输进行编码,生成待识别对话数据输对应的目标隐状态;目标解码模块,用于基于对话状态识别模型的解码层对目标隐状态进行解码,生成待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值。对话状态识别模型对对话数据进行编码得到隐状态后再在隐状态的基础上进行解码,就能够从中解析到对话内容中包含的对话状态,基于对话内容的准确分析就可以使得对话状态识别模型准确生成对话文本中没有出现过的隐含的抽象对话状态,完成从无到有的对话状态生成,得到准确的对话状态用于进一步的智能对话生成场景,提升用户对话体验。
本说明书实施例提供一种包含指令的计算机程序产品,当计算机程序产品在计算机或处理器上运行时,使得计算机或处理器执行上述实施例中任一项的方法的步骤。
本说明书实施例还提供了一种计算机存储介质,计算机存储介质可以存储有多条指令,指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
请参见图8,图8为本说明书实施例提供的一种终端的结构示意图。如图8所示,终端800可以包括:至少一个终端处理器801,至少一个网络接口804,用户接口803,存储器805,至少一个通信总线802。
其中,通信总线802用于实现这些组件之间的连接通信。
其中,用户接口803可以包括显示屏(Display)、摄像头(Camera),可选用户接口803还可以包括标准的有线接口、无线接口。
其中,网络接口804可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,终端处理器801可以包括一个或者多个处理核心。终端处理器801利用各种接口和线路连接整个终端800内的各个部分,通过运行或执行存储在存储器805内的指令、程序、代码集或指令集,以及调用存储在存储器805内的数据,执行终端800的各种功能和处理数据。可选的,终端处理器801可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。终端处理器801可集成中心处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到终端处理器801中,单独通过一块芯片进行实现。
其中,存储器805可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选的,该存储器805包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器805可用于存储指令、程序、代码、代码集或指令集。存储器805可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器805可选的还可以是至少一个位于远离前述终端处理器801的存储装置。如图8所示,作为一种计算机存储介质的存储器805中可以包括操作系统、网络通信模块、用户接口模块、对话状态识别模型训练以及对话状态识别程序。
在图8所示的终端800中,用户接口803主要用于为用户提供输入的接口,获取用户输入的数据;而终端处理器801可以用于调用存储器805中存储的对话状态识别模型训练程序,并具体执行以下操作:
将样本对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态;
基于对话状态识别模型的解码层对样本隐状态进行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;
根据样本对话数据对应的标准槽值和样本槽值,训练对话状态识别模型直至对话状态识别模型收敛。
在一些实施例中,终端处理器801在执行基于对话状态识别模型的编码层对样本对话数据进行编码,生成样本对话数据对应的样本隐状态时,具体执行以下步骤:基于对话状态识别模型的编码层提取样本对话数据的语义特征,根据语义特征生成样本对话数据的样本隐状态。
在一些实施例中,终端处理器801在执行基于对话状态识别模型的解码层对样本隐状态进行解码时,具体执行以下步骤:按照对话状态槽位的预设类型分别设置各对话状态槽位的槽值引导词,槽值引导词用于对各对话状态槽位对应的样本槽值进行属性说明;基于对话状态识别模型的解码层,根据槽值引导词对样本隐状态进行解码。
在一些实施例中,终端处理器801在执行基于对话状态识别模型的解码层对样本隐状态进行解码时,具体执行以下步骤:基于对话状态识别模型的解码层,按照预设解码任务对样本隐状态进行并行解码;其中,预设解码任务为对话状态识别模型中按照对话状态槽位的至少一种预设类型对应设置。
在一些实施例中,终端处理器801在执行基于对话状态识别模型的解码层,按照预设解码任务对样本隐状态进行并行解码,生成样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值时,具体执行以下步骤:基于对话状态识别模型的解码层,判断预设解码任务能否根据样本对话数据的原始对话词语进行解码;若能够,则生成预设解码任务对应的对话状态槽位的样本槽值,其中,样本槽值中包括原始对话词语。
在一些实施例中,样本对话数据包括预设轮次数的对话上下文,以及出现在对话上下文中的不同对话角色在样本对话数据中使用不同角色表征进行分割。
在一些实施例中,样本对话数据为目标属性场景下的对话数据,样本槽值基于目标属性场景对应的预设约束词表库生成。
在图8所示的终端800中,用户接口803主要用于为用户提供输入的接口,获取用户输入的数据;而终端处理器801可以用于调用存储器805中存储的对话状态识别程序,还具体执行以下操作:
将待识别对话数据输入对话状态识别模型,基于对话状态识别模型的编码层对待识别对话数据输进行编码,生成待识别对话数据输对应的目标隐状态;
基于对话状态识别模型的解码层对目标隐状态进行解码,生成待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值;
其中,对话状态识别模型为上述任一项说明书实施例的对话状态识别模型训练方法训练并收敛的对话状态识别模型。
在本说明书所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(DigitalVersatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
另外,需要说明的是,本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本说明书中涉及的对话数据信息等都是在充分授权的情况下获取的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本说明书实施例所提供的一种对话状态识别模型训练及对话状态识别方法以及装置的描述,对于本领域的技术人员,依据本说明书实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本说明书实施例的限制。
Claims (13)
1.一种对话状态识别模型训练方法,所述方法包括:
将样本对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述样本对话数据进行编码,生成所述样本对话数据对应的样本隐状态;
基于所述对话状态识别模型的解码层对所述样本隐状态进行解码,生成所述样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;
根据所述样本对话数据对应的标准槽值和所述样本槽值,训练所述对话状态识别模型直至所述对话状态识别模型收敛。
2.根据权利要求1所述的方法,所述基于所述对话状态识别模型的编码层对所述样本对话数据进行编码,生成所述样本对话数据对应的样本隐状态,包括:
基于所述对话状态识别模型的编码层提取所述样本对话数据的语义特征,根据所述语义特征生成所述样本对话数据的样本隐状态。
3.根据权利要求1所述的方法,所述基于所述对话状态识别模型的解码层对所述样本隐状态进行解码,包括:
按照对话状态槽位的预设类型分别设置各对话状态槽位的槽值引导词,所述槽值引导词用于对各对话状态槽位对应的样本槽值进行属性说明;
基于所述对话状态识别模型的解码层,根据所述槽值引导词对所述样本隐状态进行解码。
4.根据权利要求1所述的方法,所述基于所述对话状态识别模型的解码层对所述样本隐状态进行解码,包括:
基于所述对话状态识别模型的解码层,按照预设解码任务对所述样本隐状态进行并行解码;
其中,所述预设解码任务为所述对话状态识别模型中按照对话状态槽位的至少一种预设类型对应设置。
5.根据权利要求4所述的方法,所述基于所述对话状态识别模型的解码层,按照预设解码任务对所述样本隐状态进行并行解码,生成所述样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值,包括:
基于所述对话状态识别模型的解码层,判断预设解码任务能否根据所述样本对话数据的原始对话词语进行解码;
若能够,则生成所述预设解码任务对应的对话状态槽位的样本槽值,其中,所述样本槽值中包括所述原始对话词语。
6.根据权利要求1所述的方法,所述样本对话数据包括预设轮次数的对话上下文,以及出现在所述对话上下文中的不同对话角色在所述样本对话数据中使用不同角色表征进行分割。
7.根据权利要求1所述的方法,所述样本对话数据为目标属性场景下的对话数据,所述样本槽值基于所述目标属性场景对应的预设约束词表库生成。
8.一种对话状态识别方法,所述方法包括:
将待识别对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述待识别对话数据输进行编码,生成所述待识别对话数据输对应的目标隐状态;
基于所述对话状态识别模型的解码层对所述目标隐状态进行解码,生成所述待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值;
其中,所述对话状态识别模型为权利要求1至7任一项所述的对话状态识别模型训练方法训练并收敛的对话状态识别模型。
9.一种对话状态识别模型训练装置,所述装置包括:
样本编码模块,用于将样本对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述样本对话数据进行编码,生成所述样本对话数据对应的样本隐状态;
样本解码模块,用于基于所述对话状态识别模型的解码层对所述样本隐状态进行解码,生成所述样本对话数据中至少一种预设类型的对话状态槽位对应的样本槽值;
模型训练模块,用于根据所述样本对话数据对应的标准槽值和所述样本槽值,训练所述对话状态识别模型直至所述对话状态识别模型收敛。
10.一种对话状态识别装置,所述装置包括:
目标编码模块,用于将待识别对话数据输入对话状态识别模型,基于所述对话状态识别模型的编码层对所述待识别对话数据输进行编码,生成所述待识别对话数据输对应的目标隐状态;
目标解码模块,用于基于所述对话状态识别模型的解码层对所述目标隐状态进行解码,生成所述待识别对话数据中至少一种预设类型的对话状态槽位对应的目标槽值;
其中,所述对话状态识别模型为权利要求1至7任一项所述的对话状态识别模型训练方法训练并收敛的对话状态识别模型。
11.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行如权利要求1至7或8任意一项所述方法的步骤。
12.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至7或8任意一项的所述方法的步骤。
13.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7或8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598854.3A CN116822605A (zh) | 2023-05-22 | 2023-05-22 | 对话状态识别模型训练及对话状态识别方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598854.3A CN116822605A (zh) | 2023-05-22 | 2023-05-22 | 对话状态识别模型训练及对话状态识别方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116822605A true CN116822605A (zh) | 2023-09-29 |
Family
ID=88126703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310598854.3A Pending CN116822605A (zh) | 2023-05-22 | 2023-05-22 | 对话状态识别模型训练及对话状态识别方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822605A (zh) |
-
2023
- 2023-05-22 CN CN202310598854.3A patent/CN116822605A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
CN111198937B (zh) | 对话生成及装置、计算机可读存储介质、电子设备 | |
US10853421B2 (en) | Segmented sentence recognition method and device for human-machine intelligent question answer system | |
JP2023539532A (ja) | テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN111625634B (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
US11475225B2 (en) | Method, system, electronic device and storage medium for clarification question generation | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN112463942B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN107832300A (zh) | 面向微创医疗领域文本摘要生成方法及装置 | |
CN111813909A (zh) | 一种智能问答方法和装置 | |
CN115309877A (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN114048301B (zh) | 一种基于满意度的用户模拟方法及系统 | |
CN113421551B (zh) | 语音识别方法、装置、计算机可读介质及电子设备 | |
CN115221306B (zh) | 自动应答评价方法及装置 | |
CN110890097A (zh) | 语音处理方法及装置、计算机存储介质、电子设备 | |
CN118378148A (zh) | 多标签分类模型的训练方法、多标签分类方法及相关装置 | |
CN115810068A (zh) | 一种图像描述生成方法、装置、存储介质及电子设备 | |
CN116958738A (zh) | 图片识别模型的训练方法和装置、存储介质及电子设备 | |
CN116561284A (zh) | 智能应答方法、装置、电子设备及介质 | |
CN115905490A (zh) | 人机交互对话方法、装置以及设备 | |
CN116822605A (zh) | 对话状态识别模型训练及对话状态识别方法以及装置 | |
CN111310460B (zh) | 语句的调整方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |