CN116229955B - 基于生成式预训练gpt模型的交互意图信息确定方法 - Google Patents
基于生成式预训练gpt模型的交互意图信息确定方法 Download PDFInfo
- Publication number
- CN116229955B CN116229955B CN202310515860.8A CN202310515860A CN116229955B CN 116229955 B CN116229955 B CN 116229955B CN 202310515860 A CN202310515860 A CN 202310515860A CN 116229955 B CN116229955 B CN 116229955B
- Authority
- CN
- China
- Prior art keywords
- interaction information
- target
- interaction
- training
- encoders
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 68
- 230000003993 interaction Effects 0.000 claims abstract description 461
- 239000013598 vector Substances 0.000 claims abstract description 371
- 238000012545 processing Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 28
- 238000009423 ventilation Methods 0.000 description 20
- 238000010606 normalization Methods 0.000 description 13
- 239000002131 composite material Substances 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 8
- 238000010411 cooking Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 3
- 238000010408 sweeping Methods 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于生成式预训练GPT模型的交互意图信息确定方法,涉及智慧家庭技术领域,该基于生成式预训练GPT模型的交互意图信息确定方法包括:获取目标对象与智能语音设备进行交互时的原始交互信息;将原始交互信息输入至目标生成式预训练GPT模型,并通过目标生成式预训练GPT模型中的N个编码器中的各个编码器对原始交互信息进行编码,得到N个编码特征向量;基于N个编码特征向量,得到合并特征向量;通过目标生成式预训练GPT模型中的解码器对合并特征向量进行解码,得到目标解码结果;根据目标解码结果,确定目标对象的交互意图信息,采用上述技术方案,解决了如何准确识别用户交互意图的技术问题。
Description
技术领域
本申请涉及智慧家庭技术领域,具体而言,涉及一种基于生成式预训练GPT模型的交互意图信息确定方法。
背景技术
目前,随着物联网技术的不断更新迭代,越来越多的联网设备基本都已实现与用户进行交互的功能。随着设备类型和设备数量的激增,用户面对品类丰富的交互设备,也对设备交互的体验感提出了更高的要求,例如用户希望设备能够更准确的识别出用户意图,也即是需要提高意图识别模型的识别能力。但目前的模型结构比较单一,一般是通过消耗大型服务器的算力对意图识别模型进行训练,这种单一模型结构不能在训练过程中灵活调整训练策略,导致模型的识别范畴较小,在多情境下与用户交互时,不能准确识别用户的交互意图。
相关技术中,存在如何解决准确识别用户交互意图的技术问题。
针对相关技术中,如何解决准确识别用户交互意图的技术问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于生成式预训练GPT模型的交互意图信息确定方法,以至少解决相关技术中,如何准确识别用户交互意图的技术问题。
根据本申请实施例的一个实施例,提供了一种基于生成式预训练GPT模型的交互意图信息确定方法,包括:获取目标对象与智能语音设备进行交互时的原始交互信息;将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;对所述N个编码特征向量进行合并,得到合并特征向量;通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;根据所述目标解码结果,确定所述目标对象的交互意图信息。
在一个示例性实施例中,在将所述原始交互信息输入至目标生成式预训练GPT模型之前,所述方法还包括:在所述原始交互信息属于预设交互信息数据库的情况下,从所述预设交互信息数据库中获取所述原始交互信息的交互类型,其中,所述预设交互信息数据库用于存储多个交互类型的交互信息;将与所述原始交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型,其中,不同交互类型对应不同的GPT模型。
在一个示例性实施例中,在将所述原始交互信息输入至目标生成式预训练GPT模型之前,所述方法还包括:在所述原始交互信息不属于预设交互信息数据库的情况下,对所述原始交互信息进行处理,得到目标交互信息;在所述目标交互信息属于所述预设交互信息数据库的情况下,将与所述目标交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型。
在一个示例性实施例中,所述对所述原始交互信息进行处理,得到目标交互信息,包括:获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;提取所述原始交互信息中的目标关键词;在所述目标交互信息集合中确定与所述目标关键词关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息。
在一个示例性实施例中,所述对所述原始交互信息进行处理,得到目标交互信息,包括:获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;提取所述原始交互信息的原始意图信息;在所述目标交互信息集合中确定意图信息与所述原始意图信息关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息;或者,在所述目标交互信息集合中确定意图信息与所述原始意图信息的关联度最高的交互信息,得到所述目标交互信息。
在一个示例性实施例中,通过以下方式对原始GPT模型进行训练,得到所述目标生成式预训练GPT模型:将所述智能语音设备对应的历史交互信息确定为训练样本集合,其中,所述历史交互信息包括i个批次的历史交互语句,所述i个批次的历史交互语句中的每一个批次的历史交互语句均对应于第一类型标签交互语句,和/或第二类型标签交互语句,所述i为正整数;将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第一类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型;和/或,将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第二类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型。
在一个示例性实施例中,通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,包括:从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;根据编码器调整指令调整所述第一编码器的第一编码参数,控制所述第一编码器根据调整后的第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
在一个示例性实施例中,通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,包括:从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;控制所述第一编码器根据第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
在一个示例性实施例中,所述对所述N个编码特征向量进行合并,得到合并特征向量,包括:比较所述N个编码特征向量的每一个编码特征向量的向量维度,确定出具有最大向量维度的第一编码特征向量;在所述N个编码特征向量中存在小于所述最大向量维度的编码特征向量的情况下,将所述小于所述最大向量维度的编码特征向量确定为第二编码特征向量;对所述第二编码特征向量进行线性变换,得到线性变换后的第二编码特征向量,其中,所述第二编码特征向量的向量维度等于所述最大向量维度;对所述第一编码特征向量与第二编码特征向量进行相加,得到所述合并特征向量。
在一个示例性实施例中,所述对所述N个编码特征向量进行合并,得到合并特征向量,包括:对所述N个编码特征向量的每一个编码特征向量进行向量拼接,得到所述合并特征向量,其中,所述合并特征向量的向量维度为所述N个编码特征向量的向量维度的和值。
在一个示例性实施例中,在通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量之前,所述方法还包括:响应编码器调整指令,从所述目标生成式预训练GPT模型中的N个原始编码器中确定出所述编码器调整指令所指示调整的第一组编码器,并根据所述编码器调整指令对所述第一组编码器中的各个编码器的编码参数进行调整,得到第二组编码器;将所述N个原始编码器中的所述第一组编码器替换成所述第二组编码器,得到所述N个编码器。
在一个示例性实施例中,所述从所述目标生成式预训练GPT模型中的N个原始编码器中确定出所述编码器调整指令所指示调整的第一组编码器,包括:从所述编码器调整指令中获取预设的编码向量维度阈值;在所述N个原始编码器中确定编码向量维度小于所述编码向量维度阈值的编码器,得到所述第一组编码器,其中,所述N个原始编码器中的各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量。
在一个示例性实施例中,所述根据所述编码器调整指令对所述第一组编码器中的各个编码器的编码参数进行调整,得到第二组编码器,包括:从所述编码器调整指令中获取预设的调整量,其中,所述调整量用于调整所述第一组编码器中的各个编码器的编码向量维度,其中,所述各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量;根据所述调整量,增加所述第一组编码器中的各个编码器的编码向量维度,得到所述第二组编码器。
在一个示例性实施例中,所述根据所述调整量,增加所述第一组编码器中的各个编码器的编码向量维度,得到所述第二组编码器,包括:将所述第一组编码器中的各个编码器的编码向量维度增加所述调整量,得到所述第二组编码器;或者,将所述第一组编码器中的各个编码器的编码向量维度与所述调整量相乘,得到所述第二组编码器。
在一个示例性实施例中,在从所述编码器调整指令中获取预设的调整量之后,所述方法还包括:将所述第一组编码器中的各个编码器的编码向量维度减小所述调整量,得到所述第二组编码器。
在一个示例性实施例中,所述根据所述目标解码结果,确定所述目标对象的交互意图信息,包括:获取所述目标解码结果包含的意图实体词;确定所述意图实体词对应的多个意图指令,其中,所述多个意图指令均对应有意图指令的执行地点;根据所述目标对象与所述智能语音设备进行交互时的交互地点从所述多个意图指令中确定出目标意图指令,基于所述目标意图指令确定所述目标对象的交互意图信息,其中,所述目标意图指令的执行地点与所述交互地点一致。
根据本申请实施例的另一个实施例,还提供了一种基于生成式预训练GPT模型的交互意图信息确定装置,包括:获取模块,用于获取目标对象与智能语音设备进行交互时的原始交互信息;编码模块,用于将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;合并模块,用于对所述N个编码特征向量进行合并,得到合并特征向量;得到模块,用于通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;确定模块,用于根据所述目标解码结果,确定所述目标对象的交互意图信息。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述基于生成式预训练GPT模型的交互意图信息确定方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的基于生成式预训练GPT模型的交互意图信息确定方法。
在本申请实施例中,获取目标对象与智能语音设备进行交互时的原始交互信息;将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;对所述N个编码特征向量进行合并,得到合并特征向量;通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;根据所述目标解码结果,确定所述目标对象的交互意图信息。采用上述技术方案,解决了如何准确识别用户交互意图的技术问题,进而提高了用户交互意图的识别准确率;并且,这种包含N个编码器的复合编码层还可以进一步实现本地编码器和云端编码器的解耦结构,即将N个编码器分别部署在商用服务器与终端设备本地,或者分别部署在商用的云端服务器和自用的云端服务器上,实现跨平台、跨架构的模型部署,大大提高了模型部署的灵活性和易用性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的一种基于生成式预训练GPT模型的交互意图信息确定方法的硬件环境示意图;
图2是根据本申请实施例的基于生成式预训练GPT模型的交互意图信息确定方法的流程图;
图3是本申请实施例的用于执行基于生成式预训练GPT模型的交互意图信息确定方法的场景示意图;
图4(a)是根据本申请实施例的编码流程的示意图;
图4(b)是根据本申请实施例的解码流程的示意图;
图5是根据本申请实施例的得到合并特征向量的流程示意图;
图6是根据本申请实施例的用于编解码流程的示意图;
图7是根据本申请实施例的一种基于生成式预训练GPT模型的交互意图信息确定装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种基于生成式预训练GPT模型的交互意图信息确定方法。该基于生成式预训练GPT模型的交互意图信息确定方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述基于生成式预训练GPT模型的交互意图信息确定方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
在本实施例中提供了一种基于生成式预训练GPT模型的交互意图信息确定方法,应用于上述终端设备,图2是根据本申请实施例的基于生成式预训练GPT模型的交互意图信息确定方法的流程图,该流程包括如下步骤:
步骤S202,获取目标对象与智能语音设备进行交互时的原始交互信息;
上述智能语音设备可以理解为具备语音交互功能的终端设备,例如具备语音交互功能的智能冰箱、智能烤箱等。
其中,需要说明的是,上述原始交互信息可以对应多种交互场景,例如智慧家庭中的回家场景,做饭场景,娱乐场景等,或者智能车载系统中的语音交互场景中,本申请实施例对此不作限定。
步骤S204,将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;
可以理解的是,上述N个编码器中的每一个编码器独立地对原始交互信息进行编码,得到每一个编码器编码得到的编码特征向量。
其中,上述目标生成式预训练(Generative Pre-Training,简称GPT)GPT模型可以是通过对已有语言生成类的大规模文本预训练模型,例如GPT-4(Generative Pre-trainedTransformer 4,第4代生成式预训练变换模型)、T5(Transfer Text-to-TextTransformer)模型等大规模文本预训练模型进行微调得到的,也可以是自行研发的多模态大语言模型(Multi-modal Large Model,MLLM),本申请对目标生成式预训练GPT模型的获取方式不作限制。
在目标生成式预训练GPT模型中,包括复合编码层以及解码器,其中,复合编码层包含多个编码器,具有多种编码器部署方案,例如分别部署在不同地方。在一些实施方式中,复合编码层中的多个编码器可以分别部署商用的云端服务器和自用的云端服务器上,实现跨平台、跨架构的模型部署;也可以全部部署在商用的云端服务器或者自用的云端服务器上;或者,在终端设备本地具有足够算力资源的情况下,还可以将编码器全部部署在终端设备中;还可以分布部署在商用的云端服务器和终端设备中,本申请实施例对此不作限定。
步骤S206,对所述N个编码特征向量进行合并,得到合并特征向量;
在一些实施例中,合并方式例如可以包括向量融合,向量相加,但不限于此。
步骤S208,通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;
在一些实施例中,目标生成式预训练GPT模型可以包含多层解码器,每一层解码器可以理解为Transformer的解码器,可以利用多层的自注意力机制和前向传播网络对应的前馈层来预测目标词语的概率分布。
在步骤S208内,可以使用目标生成式预训练GPT模型的解码器依次对合并特征向量进行层规范化,MHA(多头注意力)操作,前馈处理等具体操作,得到目标解码结果。
步骤S210,根据所述目标解码结果,确定所述目标对象的交互意图信息。
在步骤S210内,可以先确定目标解码结果包含的意图实体词对应的多个意图指令,对于均含有执行地点的多个意图指令,可以从多个意图指令中确定出执行地点与交互地点一致的目标意图指令,其中,执行地点表示用户与智能语音设备进行交互时的地点。
通过上述步骤,获取目标对象与智能语音设备进行交互时的原始交互信息;将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;对所述N个编码特征向量进行合并,得到合并特征向量;通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;根据所述目标解码结果,确定所述目标对象的交互意图信息,解决了相关技术中,如何解决准确识别用户交互意图的技术问题,进而提高了用户交互意图的识别准确率;并且,这种包含N个编码器的复合编码层还可以进一步实现本地编码器和云端编码器的解耦结构,即将N个编码器分别部署在商用服务器与终端设备本地,或者分别部署在商用的云端服务器和自用的云端服务器上,实现跨平台、跨架构的模型部署,大大提高了模型部署的灵活性和易用性。
在一个示例性实施例中,在执行上述步骤S204将所述原始交互信息输入至目标生成式预训练GPT模型之前,还进一步提出了如何确定出目标生成式预训练GPT模型的方案,包括:方案1、在所述原始交互信息属于预设交互信息数据库的情况下,从所述预设交互信息数据库中获取所述原始交互信息的交互类型,其中,所述预设交互信息数据库用于存储多个交互类型的交互信息;将与所述原始交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型,其中,不同交互类型对应不同的GPT模型。
例如,原始交互信息可以为对应于不同交互场景的交互信息,如果为用户回家时与门锁设备之间的交互信息,并且从预设交互信息数据库确定出对应于回家这一交互类型,那么将与回家类型对应的GPT模型确定为上述目标生成式预训练GPT模型即可。
或者,原始交互信息还可以为对应于不同设备类型的交互信息,如果为热水器的交互信息,则从预设交互信息数据库确定出对应于热水器的交互类型,那么将与热水器的交互类型对应的GPT模型确定为上述目标生成式预训练GPT模型。
方案2、在所述原始交互信息不属于预设交互信息数据库的情况下,对所述原始交互信息进行处理,得到目标交互信息;在所述目标交互信息属于所述预设交互信息数据库的情况下,将与所述目标交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型。
在一个示例性实施例中,进一步对所述原始交互信息进行处理,得到目标交互信息的实现过程进行说明,具体包括:获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;提取所述原始交互信息中的目标关键词;在所述目标交互信息集合中确定与所述目标关键词关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息。
例如,在一个实施例中,上述目标关键词为“唱歌”,那么在目标交互信息集合中确定与“唱歌”关联的交互信息,得到一组交互信息,将这组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息。
在一个示例性实施例中,还提出了其他技术方案来实现对所述原始交互信息进行处理,得到目标交互信息的过程,包括:获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;提取所述原始交互信息的原始意图信息;在所述目标交互信息集合中确定意图信息与所述原始意图信息关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息;或者,在所述目标交互信息集合中确定意图信息与所述原始意图信息的关联度最高的交互信息,得到所述目标交互信息。
例如,在一个实施例中,提取到原始交互信息的原始意图信息为“开个门”,那么在目标交互信息集合中确定意图信息与“开个门”关联的交互信息,得到一组交互信息,例如一组交互信息中的各个交互信息可以包括“打开房门”、“打开冰箱门”、“打开衣柜门”等,如果“打开冰箱门”出现的次数最高,则可以将“打开冰箱门”确定为目标交互信息。或者,如果确定“打开房门”这一意图信息与所述原始意图信息的关联度最高,则将“打开房门”确定为目标交互信息。
或者,如果提取到原始交互信息的原始意图信息为“换气”,那么在目标交互信息集合中确定意图信息与“换气”关联的交互信息,得到一组交互信息,例如一组交互信息中的各个交互信息可以包括“开窗换气”、“开门换气”、“开空调换气”“开净化器换气”等,如果“开净化器换气”出现的次数最高,则可以将“开净化器换气”确定为目标交互信息。或者,如果确定“开窗换气”这一意图信息与所述原始意图信息的关联度最高,则将“开窗换气”确定为目标交互信息。
需要说明的是,上述关联度例如可以基于用户与设备之间的距离大小确定,或者,也可以根据用户与设备之间的交互时间确定。当基于用户与设备之间的距离大小确定关联度时,设备与用户之间的距离越小,则设置设备与用户的交互信息的关联度越高。当基于用户与设备之间的交互时间确定关联度时,设备与用户之间的交互时间越接近当前时间,则设置设备与用户的交互信息的关联度越高。
在一个示例性实施例中,可以通过以下方式对原始GPT模型进行训练,得到所述目标生成式预训练GPT模型:将所述智能语音设备对应的历史交互信息确定为训练样本集合,其中,所述历史交互信息包括i个批次的历史交互语句,所述i个批次的历史交互语句中的每一个批次的历史交互语句均对应于第一类型标签交互语句,和/或第二类型标签交互语句,所述i为正整数;将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第一类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型;和/或,将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第二类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型。
其中,需要说明的是,上述智能语音设备例如可以是支持语音交互功能的家电设备,手机,电脑等等。
在一个示例性实施例中,对于通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量的技术方案,提出以下实现方案:方案1、从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;根据编码器调整指令调整所述第一编码器的第一编码参数,控制所述第一编码器根据调整后的第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
通过方案1,通过实现本地可微调的编码器以及云端服务器上固定不可调的编码器,既可以满足目标生成式预训练GPT模型运行所需的大量算力,又可以满足实时调整模型的需求,通过对本地编码器进行微调,提高了编码器的调整灵活度,还可以在不额外增加过多算力资源的情况下,提高编码器的编码效率。
在一个示例性实施例中,对于通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量的技术方案,提出以下实现方案:方案2、从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;控制所述第一编码器根据第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
通过方案2,可以分别独立控制第一编码器和第二编码器对原始交互信息进行编码,实现第一编码器和第二编码器同时编码,提高了编码速度,进一步提高了编码效率。
在一个示例性实施例中,为了更好的对上述步骤S206中对所述N个编码特征向量进行合并,得到合并特征向量的实现方案进行说明,具体提出以下实现步骤:比较所述N个编码特征向量的每一个编码特征向量的向量维度,确定出具有最大向量维度的第一编码特征向量;在所述N个编码特征向量中存在小于所述最大向量维度的编码特征向量的情况下,将所述小于所述最大向量维度的编码特征向量确定为第二编码特征向量;对所述第二编码特征向量进行线性变换,得到线性变换后的第二编码特征向量,其中,所述第二编码特征向量的向量维度等于所述最大向量维度;对所述第一编码特征向量与第二编码特征向量进行相加,得到所述合并特征向量。
例如,在一个实施例中,N可以为3,N个编码特征向量包括向量A,向量B,和向量C。其中,向量A的向量维度为4,向量B的向量维度为5,向量C(即第一编码特征向量)的向量维度为6,那么可以对向量A和向量B进行线性变换,得到线性变换后的向量F和向量D(即上述第二编码特征向量),其中,向量F和向量D的向量维度等于6,然后,可以对向量C,向量F和向量D进行相加,得到合并特征向量。
在一个示例性实施例中,进一步的,还提出了对所述N个编码特征向量进行合并,得到合并特征向量的其他技术方案,具体包括:对所述N个编码特征向量的每一个编码特征向量进行向量拼接(Vector concatenate),得到所述合并特征向量,其中,所述合并特征向量的向量维度为所述N个编码特征向量的向量维度的和值。
其中,向量拼接的方法可以包括水平拼接和垂直拼接,本实施例以水平拼接为例进行说明。例如,向量a=[1,2,3],向量b=[7,8,9],水平拼接的合并特征向量为[1,2,3,7,8,9]。
进一步的,在实现向量拼接之前,还需确定向量之间的关系为“或”还是“与”。可以通过“交互特征”或者“逻辑回归模型”来确定。例如,将不同向量中的每个特征值逐个相乘,继而相加,得到交互特征的特征值,如果交互特征的特征值大于预设的特征阈值,那么可以确定不同向量之间的关系为“或”,反之,则为“与”。或者,还可以使用多个逻辑回归模型分别学习不同的向量关系,对多个逻辑回归模型的预测结果进行投票,确定出投票结果对应的向量关系。
通过本实施例,可以将N个编码特征向量直接进行向量拼接,可以不考虑N个编码特征向量的向量维度是否一致,实现得到合并特征向量的方法,能够丰富合并特征向量的获取方式。
在一个示例性实施例中,还提出了一种在通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量之前,如何获取N个编码器的技术方案,具体包括如下步骤:响应编码器调整指令,从所述目标生成式预训练GPT模型中的N个原始编码器中确定出所述编码器调整指令所指示调整的第一组编码器,并根据所述编码器调整指令对所述第一组编码器中的各个编码器的编码参数进行调整,得到第二组编码器;将所述N个原始编码器中的所述第一组编码器替换成所述第二组编码器,得到所述N个编码器。
通过本实施例,可以基于编码器调整指令调整第一组编码器的编码参数,实现编码器的实时调整,将编码器的微调过程和编码器的编码过程进行解耦,实现微调和编码的独立工作,这样可以在不中断编码器工作的情况下,直接对编码器进行调整,并使用调整后的编码器继续工作,提高了编码器的编码效率。
在一个示例性实施例中,可以通过以下步骤对从所述目标生成式预训练GPT模型中的N个原始编码器中确定出所述编码器调整指令所指示调整的第一组编码器的过程进行说明:步骤S11,从所述编码器调整指令中获取预设的编码向量维度阈值;步骤S12,在所述N个原始编码器中确定编码向量维度小于所述编码向量维度阈值的编码器,得到所述第一组编码器,其中,所述N个原始编码器中的各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量。
其中,需要说明的是,上述N个原始编码器的编码向量维度均大于0。
在上述实施例中,提供了一种确定出所述编码器调整指令所指示调整的第一组编码器的实现方案,通过比较原始编码器的编码向量维度和预设的编码向量维度阈值,将编码向量维度小于所述编码向量维度阈值的编码器确定为第一组编码器,可以根据编码器的编码向量维度筛选出用于实现本地微调的第一组编码器。例如,预设的编码向量维度阈值为8,可以将N个原始编码器中确定编码向量维度小于8的编码器确定为所述第一组编码器。
在一个示例性实施例中,进而提出根据所述编码器调整指令对所述第一组编码器中的各个编码器的编码参数进行调整,得到第二组编码器的实现步骤,包括:步骤S21,从所述编码器调整指令中获取预设的调整量,其中,所述调整量用于调整所述第一组编码器中的各个编码器的编码向量维度,其中,所述各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量;步骤S22,根据所述调整量,增加所述第一组编码器中的各个编码器的编码向量维度,得到所述第二组编码器。
在一个示例性实施例中,进一步的,对根据所述调整量,增加所述第一组编码器中的各个编码器的编码向量维度,得到所述第二组编码器的过程进行具体说明,包括如下步骤:将所述第一组编码器中的各个编码器的编码向量维度增加所述调整量,得到所述第二组编码器;或者将所述第一组编码器中的各个编码器的编码向量维度与所述调整量相乘,得到所述第二组编码器。
在一个示例性实施例中,在从所述编码器调整指令中获取预设的调整量之后,还可以将所述第一组编码器中的各个编码器的编码向量维度减小所述调整量,得到所述第二组编码器。
通过上述实施例,提供了多种对第一组编码器中的各个编码器的编码参数进行调整的具体实现方案,例如,在上述调整量表示编码器的编码向量维度的情况下,可以直接将调整量与所述第一组编码器中的各个编码器的编码向量维度进行相加。即,调整量表示编码器的编码向量维度为2,第一组编码器中的各个编码器的编码向量维度例如均为10,那么如果编码器调整指令指示调高各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至12。或者,如果编码器调整指令指示调低各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至8。
在其他实施例中,上述调整量还可以表示第一组编码器中的各个编码器的编码向量维度的调整倍数,即在各个编码器的编码向量维度的基础上,将所述第一组编码器中的各个编码器的编码向量维度与所述调整量相乘,得到所述第二组编码器。例如,调整量可以为调整为2倍,那么第一组编码器中的各个编码器的编码向量维度例如均为10,那么如果编码器调整指令指示调高各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至20。或者,如果编码器调整指令指示调低各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至5。
通过上述实施例,消除了编码器调整过程的单一性,丰富了对第一组编码器中的各个编码器的编码向量维度进行调整的调整方式,提供了更多可行的调整方案,具有更加广泛的使用场景,进一步提高了对编码器实现实时调整的复杂性。特别是在加密编码的场景下,可以结合不同的加密算法,灵活调整编码器的调整方法,进一步提高编码器的编码安全性。
在一个示例性实施例中,为了更好的理解上述步骤S210中根据所述目标解码结果,确定所述目标对象的交互意图信息的实现过程,提出以下技术方案:获取所述目标解码结果包含的意图实体词;确定所述意图实体词对应的多个意图指令,其中,所述多个意图指令均对应有意图指令的执行地点;根据所述目标对象与所述智能语音设备进行交互时的交互地点从所述多个意图指令中确定出目标意图指令,基于所述目标意图指令确定所述目标对象的交互意图信息,其中,所述目标意图指令的执行地点与所述交互地点一致。
在本实施例中,例如从目标解码结果获取到的意图实体词为“干活”,那么对于“干活”,对应的多个意图指令例如可以包括“工作”、“洗衣服”、“扫地”、“拖地”、“做饭”、“整理房间”、“扔垃圾”等,而多个意图指令均对应有不同的执行地点,例如“在书房工作”,“在卫生间洗衣服”,“在厨房做饭”“出门扔垃圾”。如果用户与智能语音设备进行交互时的交互地点为“卫生间”,则从所述多个意图指令中确定出用户的交互意图信息为“在卫生间洗衣服”。
为了更好的理解上述基于生成式预训练GPT模型的交互意图信息确定方法的过程,以下再结合可选实施例对上述基于生成式预训练GPT模型的交互意图信息确定的实现方法流程进行说明,但不用于限定本申请实施例的技术方案。
在本实施例中提供了一种基于生成式预训练GPT模型的交互意图信息确定方法,图3是本申请实施例的用于执行基于生成式预训练GPT模型的交互意图信息确定方法的场景示意图,如图3所示,在预训练过程中,一般需要获取大量的智能交互数据(即图3的智能交互信息流,相当于上述原始交互信息),在使用GPT模型作为先验知识语言模型的基础上,对GPT模型进行训练。由于调用GPT模型需要巨大的算力,并且商用GPT资源往往存在数据外流的安全隐患,因此,在本实施例中,使用非商业类GPT资源进行训练。
在一个实施例中,分别结合图4(a)至图4(b)提供了单个编码器的编码流程以及单个编码器的解码流程,以图4(a)的编码流程为例,具体包括如下步骤:
步骤S401、输入原始交互信息;
步骤S402、对原始交互信息进行层规范化;
步骤S403、对层规范化的结果执行MHA(多头注意力操作)操作;
步骤S404、进一步对执行MHA操作的结果进行层规范化;
步骤S405、对上述步骤S404的层规范化结果进行前馈处理;
步骤S406、对前馈处理的结果进行残差连接操作,得到编码特征向量。
对于图4(b)所示的解码流程,与图4(a)的编码流程的处理步骤相似,具体包括:
步骤S407、输入合并特征向量;
步骤S408、对合并特征向量进行层规范化;
步骤S409、对层规范化的结果执行MHA(多头注意力操作)操作;
步骤S410、进一步对执行MHA操作的结果进行层规范化;
步骤S411、对上述步骤S410的层规范化结果进行前馈处理;
步骤S412、将前馈处理的结果输入多层感知神经网络。
步骤S413、得到解码结果。
进一步的,如图5所示,提出另一种编码结构,包括多层编码层(即目标生成式预训练GPT模型中的N个编码器)。对于步骤S501至S506,可以参照上述步骤S401至S406。在步骤S507中,通过对每一编码层的编码特征向量进行合并,得到合并特征向量。其中,对于合并特征向量,例如可以通过图6的第1组编码特征向量和第2组编码特征向量合并得到。
在一个实施例中,对于合并特征向量的获取和解码过程,具体步骤如下:
步骤S601、输入原始交互信息;
步骤S602、层规范化;
步骤S603、执行MHA操作;
步骤S604、层规范化;
步骤S605、前馈处理;
步骤S606、得到第1组编码特征向量(可以理解为上述第一编码特征向量);
步骤S607、得到第2组编码特征向量(可以理解为上述第二编码特征向量)。
其中,对于多个编码器,可同时独立执行步骤S601至步骤S605,得到多个编码特征向量,在本实施例中,以2个编码器为例,可以获得两组编码特征向量。
同时对于上述步骤S601至步骤S605,具体说明可以参照步骤S401至步骤S405,本申请在此不再赘述。
接下来,可以结合步骤S608至步骤S613对解码器的解码过程进行说明,具体如下:
步骤S608、向解码器输入合并特征向量;
步骤S609、对合并特征向量进行层规范化;
步骤S610、对层规范化的结果执行MHA操作;
步骤S611、对MHA操作的结果进行层规范化;
步骤S612、如果存在多次层规范化操作,对最后一次的层规范化结果进行前馈处理;
步骤S613、经过多层感知神经网络实现全连接操作,进行语义空间转换,通过进行softmax(概率归一化)操作,得到各个候选词的预测概率分布;
步骤S614、使用查表操作得到各个候选词的预测概率分布对应的词语,从而得到解码结果。
接下来,可以结合进一步结合以下步骤对解码器的解码过程进行具体说明,步骤如下:
步骤S11:按照以下公式实现初始化:
;
。
其中,表示Decoder的状态值,上标 j 表示Decoder中第 j 层的Transfomer_Block,下标 i 表示生成第 i 个token过程,其中,/>表示生成的前一个词(第 i-1 个词),BPE为词向量的编码方法Byte Pair Encoding, PE表示位置信息编码PositionEncoding,以下所有公式同此。
步骤S12:对输入的query进行第一次层规范化Layer_Norm操作,即:
;
步骤S13:继而进行MHA(多头注意力)操作,并使用残差连接得到,其中,残差连接能够将浮点数向量转化为token:
;
步骤S14:进行第二次Layer_Norm操作:
;
步骤S15:进行前馈处理FeedForward(使用两层全连接实现),并使用残差连接得到新的Decoder状态:
;
步骤S16:对最后一层的Transformer_Block输出进行Layer_Norm操作,并用全连接操作进行语义空间转换,并进行softmax(概率归一化)操作,得到各个候选词的预测概率分布:
;
步骤S17:使用查表操作,得到生成的第 i 个词:
;
其中,Lookup为查表操作,argmax为取最大向量维度对应的索引,VOC表示使用的词典,上述表示Decoder中的所有参数。
通过上述方案,本申请提供了一种更加灵活的模型部署的方案,在使用云端服务器上的编码器的基础上,对本地编码器持续进行监督迭代学习,以及同时实现微调,减少了模型训练时的算力消耗量,大大提高了部署的灵活性。这种复合式的模型结构,能够实现本地编码器和云端编码器的解耦结构,可分别对云端服务器上的编码器与本地编码器进行编码,得到各自的特征编码向量,以词向量合并的方式得到合并特征向量,完成复合式模型的编码层。继而将合并特征向量确定为解码层的输入,并根据解码层输出的解码结果确定出预测的文本序列。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
图7是根据本申请实施例的一种基于生成式预训练GPT模型的交互意图信息确定装置的结构框图;如图7所示,包括:
获取模块7002,用于获取目标对象与智能语音设备进行交互时的原始交互信息;
其中,需要说明的是,上述原始交互信息可以对应多种交互场景,例如回家场景,做饭场景,娱乐场景等。
编码模块7004,用于将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;
可以理解的是,上述N个编码器中的每一个编码器独立地对原始交互信息进行编码,得到每一个编码器编码得到的编码特征向量。
合并模块7006,用于对所述N个编码特征向量进行合并,得到合并特征向量;
其中,合并方式例如可以包括向量融合,向量相加,但不限于此。
得到模块7008,用于通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;
确定模块7010,用于根据所述目标解码结果,确定所述目标对象的交互意图信息。
通过上述装置,获取目标对象与智能语音设备进行交互时的原始交互信息;将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;对所述N个编码特征向量进行合并,得到合并特征向量;通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;根据所述目标解码结果,确定所述目标对象的交互意图信息,解决了相关技术中,如何解决准确识别用户交互意图的技术问题,进而提高了用户交互意图的识别准确率;并且,这种包含N个编码器的复合编码层还可以进一步实现本地编码器和云端编码器的解耦结构,即将N个编码器分别部署在商用服务器与终端设备本地,或者分别部署在商用的云端服务器和自用的云端服务器上,实现跨平台、跨架构的模型部署,大大提高了模型部署的灵活性和易用性。
在一个示例性实施例中,上述基于生成式预训练GPT模型的交互意图信息确定装置还包括第一模型获取模块,用于:在所述原始交互信息属于预设交互信息数据库的情况下,从所述预设交互信息数据库中获取所述原始交互信息的交互类型,其中,所述预设交互信息数据库用于存储多个交互类型的交互信息;将与所述原始交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型,其中,不同交互类型对应不同的GPT模型。
例如,原始交互信息可以为对应于不同交互场景的交互信息,如果为用户回家时与门锁设备之间的交互信息,并且从预设交互信息数据库确定出对应于回家这一交互类型,那么将与回家类型对应的GPT模型确定为上述目标生成式预训练GPT模型即可。
或者,原始交互信息还可以为对应于不同设备类型的交互信息,如果为热水器的交互信息,则从预设交互信息数据库确定出对应于热水器的交互类型,那么将与热水器的交互类型对应的GPT模型确定为上述目标生成式预训练GPT模型。
在一个示例性实施例中,上述基于生成式预训练GPT模型的交互意图信息确定装置还包括第二模型获取模块,用于:在所述原始交互信息不属于预设交互信息数据库的情况下,对所述原始交互信息进行处理,得到目标交互信息;在所述目标交互信息属于所述预设交互信息数据库的情况下,将与所述目标交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型。
在一个示例性实施例中,上述第二模型获取模块还包括第一获取单元,用于:获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;提取所述原始交互信息中的目标关键词;在所述目标交互信息集合中确定与所述目标关键词关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息。
例如,在一个实施例中,上述目标关键词为“唱歌”,那么在目标交互信息集合中确定与“唱歌”关联的交互信息,得到一组交互信息,将这组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息。
在一个示例性实施例中,上述第二模型获取单元还包括第二获取单元,用于:获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;提取所述原始交互信息的原始意图信息;在所述目标交互信息集合中确定意图信息与所述原始意图信息关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息;或者,在所述目标交互信息集合中确定意图信息与所述原始意图信息的关联度最高的交互信息,得到所述目标交互信息。
例如,在一个实施例中,提取到原始交互信息的原始意图信息为“开个门”,那么在目标交互信息集合中确定意图信息与“开个门”关联的交互信息,得到一组交互信息,例如一组交互信息中的各个交互信息可以包括“打开房门”、“打开冰箱门”、“打开衣柜门”等,如果“打开冰箱门”出现的次数最高,则可以将“打开冰箱门”确定为目标交互信息。或者,如果确定“打开房门”这一意图信息与所述原始意图信息的关联度最高,则将“打开房门”确定为目标交互信息。
或者,如果提取到原始交互信息的原始意图信息为“换气”,那么在目标交互信息集合中确定意图信息与“换气”关联的交互信息,得到一组交互信息,例如一组交互信息中的各个交互信息可以包括“开窗换气”、“开门换气”、“开空调换气”“开净化器换气”等,如果“开净化器换气”出现的次数最高,则可以将“开净化器换气”确定为目标交互信息。或者,如果确定“开窗换气”这一意图信息与所述原始意图信息的关联度最高,则将“开窗换气”确定为目标交互信息。
需要说明的是,上述关联度例如可以基于用户与设备之间的距离大小确定,或者,也可以根据用户与设备之间的交互时间确定。当基于用户与设备之间的距离大小确定关联度时,设备与用户之间的距离越小,则设置设备与用户的交互信息的关联度越高。当基于用户与设备之间的交互时间确定关联度时,设备与用户之间的交互时间越接近当前时间,则设置设备与用户的交互信息的关联度越高。
在一个示例性实施例中,上述基于生成式预训练GPT模型的交互意图信息确定装置还包括训练模块,用于:可以通过以下方式对原始GPT模型进行训练,得到所述目标生成式预训练GPT模型:将所述智能语音设备对应的历史交互信息确定为训练样本集合,其中,所述历史交互信息包括i个批次的历史交互语句,所述i个批次的历史交互语句中的每一个批次的历史交互语句均对应于第一类型标签交互语句,和/或第二类型标签交互语句,所述i为正整数;将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第一类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型;和/或,将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第二类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型。
其中,需要说明的是,上述智能语音设备例如可以是支持语音交互功能的家电设备,手机,电脑等等。
在一个示例性实施例中,上述编码模块还包括第一编码单元,用于:从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;根据编码器调整指令调整所述第一编码器的第一编码参数,控制所述第一编码器根据调整后的第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
通过方案1,通过实现本地可微调的编码器以及云端服务器上固定不可调的编码器,既可以满足目标生成式预训练GPT模型运行所需的大量算力,又可以满足实时调整模型的需求,通过对本地编码器进行微调,提高了编码器的调整灵活度,还可以在不额外增加过多算力资源的情况下,提高编码器的编码效率。
在一个示例性实施例中,上述编码模块还包括第二编码单元,用于:从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;控制所述第一编码器根据第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
通过方案2,可以分别独立控制第一编码器和第二编码器对原始交互信息进行编码,实现第一编码器和第二编码器同时编码,提高了编码速度,进一步提高了编码效率。
在一个示例性实施例中,上述合并模块还包括第一合并单元,用于:为了更好的对上述步骤S206中对所述N个编码特征向量进行合并,得到合并特征向量的实现方案进行说明,具体提出以下实现步骤:比较所述N个编码特征向量的每一个编码特征向量的向量维度,确定出具有最大向量维度的第一编码特征向量;在所述N个编码特征向量中存在小于所述最大向量维度的编码特征向量的情况下,将所述小于所述最大向量维度的编码特征向量确定为第二编码特征向量;对所述第二编码特征向量进行线性变换,得到线性变换后的第二编码特征向量,其中,所述第二编码特征向量的向量维度等于所述最大向量维度;对所述第一编码特征向量与第二编码特征向量进行相加,得到所述合并特征向量。
例如,在一个实施例中,N可以为3,N个编码特征向量包括向量A,向量B,和向量C。其中,向量A的向量维度为4,向量B的向量维度为5,向量C(即第一编码特征向量)的向量维度为6,那么可以对向量A和向量B进行线性变换,得到线性变换后的向量F和向量D(即上述第二编码特征向量),其中,向量F和向量D的向量维度等于6,然后,可以对向量C,向量F和向量D进行相加,得到合并特征向量。
在一个示例性实施例中,进一步的,上述合并模块还包括第二合并单元,用于:对所述N个编码特征向量的每一个编码特征向量进行向量拼接,得到所述合并特征向量,其中,所述合并特征向量的向量维度为所述N个编码特征向量的向量维度的和值。
通过本实施例,可以将N个编码特征向量直接进行向量拼接,可以不考虑N个编码特征向量的向量维度是否一致,实现得到合并特征向量的方法,能够丰富合并特征向量的获取方式。
在一个示例性实施例中,上述基于生成式预训练GPT模型的交互意图信息确定装置还包括调整模块,用于:响应编码器调整指令,从所述目标生成式预训练GPT模型中的N个原始编码器中确定出所述编码器调整指令所指示调整的第一组编码器,并根据所述编码器调整指令对所述第一组编码器中的各个编码器的编码参数进行调整,得到第二组编码器;将所述N个原始编码器中的所述第一组编码器替换成所述第二组编码器,得到所述N个编码器。
通过本实施例,可以基于编码器调整指令调整第一组编码器的编码参数,实现编码器的实时调整,将编码器的微调过程和编码器的编码过程进行解耦,实现微调和编码的独立工作,这样可以在不中断编码器工作的情况下,直接对编码器进行调整,并使用调整后的编码器继续工作,提高了编码器的编码效率。
在一个示例性实施例中,上述调整模块还包括:第一编码器得到单元,用于执行以下步骤:步骤S11,从所述编码器调整指令中获取预设的编码向量维度阈值;步骤S12,在所述N个原始编码器中确定编码向量维度小于所述编码向量维度阈值的编码器,得到所述第一组编码器,其中,所述N个原始编码器中的各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量。
其中,需要说明的是,上述N个原始编码器的编码向量维度均大于0。
在上述实施例中,提供了一种确定出所述编码器调整指令所指示调整的第一组编码器的实现方案,通过比较原始编码器的编码向量维度和预设的编码向量维度阈值,将编码向量维度小于所述编码向量维度阈值的编码器确定为第一组编码器,可以根据编码器的编码向量维度筛选出用于实现本地微调的第一组编码器。例如,预设的编码向量维度阈值为8,可以将N个原始编码器中确定编码向量维度小于8的编码器确定为所述第一组编码器。
在一个示例性实施例中,上述调整模块还包括:第二编码器得到单元,用于执行以下步骤:步骤S21,从所述编码器调整指令中获取预设的调整量,其中,所述调整量用于调整所述第一组编码器中的各个编码器的编码向量维度,其中,所述各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量;步骤S22,根据所述调整量,增加所述第一组编码器中的各个编码器的编码向量维度,得到所述第二组编码器。
在一个示例性实施例中,进一步的,上述第二编码器得到单元,还用于:将所述第一组编码器中的各个编码器的编码向量维度增加所述调整量,得到所述第二组编码器;或者将所述第一组编码器中的各个编码器的编码向量维度与所述调整量相乘,得到所述第二组编码器。
在一个示例性实施例中,上述第二编码器得到单元,还用于:将所述第一组编码器中的各个编码器的编码向量维度减小所述调整量,得到所述第二组编码器。
通过上述实施例,提供了多种对第一组编码器中的各个编码器的编码参数进行调整的具体实现方案,例如,在上述调整量表示编码器的编码向量维度的情况下,可以直接将调整量与所述第一组编码器中的各个编码器的编码向量维度进行相加。即,调整量表示编码器的编码向量维度为2,第一组编码器中的各个编码器的编码向量维度例如均为10,那么如果编码器调整指令指示调高各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至12。或者,如果编码器调整指令指示调低各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至8。
在其他实施例中,上述调整量例如还可以表示第一组编码器中的各个编码器的编码向量维度的调整倍数,即在各个编码器的编码向量维度的基础上,将所述第一组编码器中的各个编码器的编码向量维度与所述调整量相乘,得到所述第二组编码器。例如,调整量可以为调整为2倍,那么第一组编码器中的各个编码器的编码向量维度例如均为10,那么如果编码器调整指令指示调高各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至20。或者,如果编码器调整指令指示调低各个编码器的编码向量维度,则可以直接将第一组编码器中的各个编码器的编码向量维度调整至5。
通过上述实施例,消除了编码器调整过程的单一性,丰富了对第一组编码器中的各个编码器的编码向量维度进行调整的调整方式,提供了更多可行的调整方案,具有更加广泛的使用场景,进一步提高了对编码器实现实时调整的复杂性。特别是在加密编码的场景下,可以结合不同的加密算法,灵活调整编码器的调整方法,进一步提高编码器的编码安全性。
在一个示例性实施例中,上述确定模块还用于获取所述目标解码结果包含的意图实体词;确定所述意图实体词对应的多个意图指令,其中,所述多个意图指令均对应有意图指令的执行地点;根据所述目标对象与所述智能语音设备进行交互时的交互地点从所述多个意图指令中确定出目标意图指令,基于所述目标意图指令确定所述目标对象的交互意图信息,其中,所述目标意图指令的执行地点与所述交互地点一致。
在本实施例中,例如从目标解码结果获取到的意图实体词为“干活”,那么对于“干活”,对应的多个意图指令例如可以包括“工作”、“洗衣服”、“扫地”、“拖地”、“做饭”、“整理房间”、“扔垃圾”等,而多个意图指令均对应有不同的执行地点,例如“在书房工作”,“在卫生间洗衣服”,“在厨房做饭”“出门扔垃圾”。如果用户与智能语音设备进行交互时的交互地点为“卫生间”,则从所述多个意图指令中确定出用户的交互意图信息为“在卫生间洗衣服”。
本申请的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,获取目标对象与智能语音设备进行交互时的原始交互信息;
S2,将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;
S3,对所述N个编码特征向量进行合并,得到合并特征向量;
S4,通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;
S5,根据所述目标解码结果,确定所述目标对象的交互意图信息。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取目标对象与智能语音设备进行交互时的原始交互信息;
S2,将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;
S3,对所述N个编码特征向量进行合并,得到合并特征向量;
S4,通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;
S5,根据所述目标解码结果,确定所述目标对象的交互意图信息。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (19)
1.一种基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,包括:
获取目标对象与智能语音设备进行交互时的原始交互信息;
将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;
对所述N个编码特征向量进行合并,得到合并特征向量;
通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;
根据所述目标解码结果,确定所述目标对象的交互意图信息;
所述根据所述目标解码结果,确定所述目标对象的交互意图信息,包括:
获取所述目标解码结果包含的意图实体词;
确定所述意图实体词对应的多个意图指令,其中,所述多个意图指令均对应有意图指令的执行地点;
根据所述目标对象与所述智能语音设备进行交互时的交互地点从所述多个意图指令中确定出目标意图指令,基于所述目标意图指令确定所述目标对象的交互意图信息,其中,所述目标意图指令的执行地点与所述交互地点一致。
2.根据权利要求1所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,在将所述原始交互信息输入至目标生成式预训练GPT模型之前,所述方法还包括:
在所述原始交互信息属于预设交互信息数据库的情况下,从所述预设交互信息数据库中获取所述原始交互信息的交互类型,其中,所述预设交互信息数据库用于存储多个交互类型的交互信息;
将与所述原始交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型,其中,不同交互类型对应不同的GPT模型。
3.根据权利要求1所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,在将所述原始交互信息输入至目标生成式预训练GPT模型之前,所述方法还包括:
在所述原始交互信息不属于预设交互信息数据库的情况下,对所述原始交互信息进行处理,得到目标交互信息;
在所述目标交互信息属于所述预设交互信息数据库的情况下,将与所述目标交互信息的交互类型对应的GPT模型确定为所述目标生成式预训练GPT模型。
4.根据权利要求3所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,所述对所述原始交互信息进行处理,得到目标交互信息,包括:
获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;
提取所述原始交互信息中的目标关键词;
在所述目标交互信息集合中确定与所述目标关键词关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;
将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息。
5.根据权利要求3所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,所述对所述原始交互信息进行处理,得到目标交互信息,包括:
获取与所述原始交互信息的交互类型对应的预设交互信息数据库,其中,所述预设交互信息数据库包括目标交互信息集合;
提取所述原始交互信息的原始意图信息;
在所述目标交互信息集合中确定意图信息与所述原始意图信息关联的交互信息,得到一组交互信息,并获取所述一组交互信息中的各个交互信息在所述预设交互信息数据库中出现的次数;
将所述一组交互信息中出现的所述次数最高的交互信息确定为所述目标交互信息;或者,在所述目标交互信息集合中确定意图信息与所述原始意图信息的关联度最高的交互信息,得到所述目标交互信息。
6.根据权利要求1至5任一项所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,通过以下方式对原始GPT模型进行训练,得到所述目标生成式预训练GPT模型:
将所述智能语音设备对应的历史交互信息确定为训练样本集合,其中,所述历史交互信息包括i个批次的历史交互语句,所述i个批次的历史交互语句中的每一个批次的历史交互语句均对应于第一类型标签交互语句,和/或第二类型标签交互语句,所述i为正整数;
将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第一类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型;和/或,将所述训练样本集合中的第i个批次的历史交互语句输入到第i-1轮迭代训练得到的GPT模型中,并将所述第i个批次的历史交互语句对应的第二类型标签交互语句确定为所述第i-1轮迭代训练得到的GPT模型的输出结果,得到所述目标生成式预训练GPT模型。
7.根据权利要求1所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,包括:
从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;
根据编码器调整指令调整所述第一编码器的第一编码参数,控制所述第一编码器根据调整后的第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
8.根据权利要求1所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,包括:
从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;
控制所述第一编码器根据第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;
其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
9.根据权利要求1所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,所述对所述N个编码特征向量进行合并,得到合并特征向量,包括:
比较所述N个编码特征向量的每一个编码特征向量的向量维度,确定出具有最大向量维度的第一编码特征向量;
在所述N个编码特征向量中存在小于所述最大向量维度的编码特征向量的情况下,将所述小于所述最大向量维度的编码特征向量确定为第二编码特征向量;
对所述第二编码特征向量进行线性变换,得到线性变换后的第二编码特征向量,其中,所述第二编码特征向量的向量维度等于所述最大向量维度;
对所述第一编码特征向量与第二编码特征向量进行相加,得到所述合并特征向量。
10.根据权利要求1所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,所述对所述N个编码特征向量进行合并,得到合并特征向量,包括:
对所述N个编码特征向量的每一个编码特征向量进行向量拼接,得到所述合并特征向量,其中,所述合并特征向量的向量维度为所述N个编码特征向量的向量维度的和值。
11.根据权利要求1所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,在通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量之前,所述方法还包括:
响应编码器调整指令,从所述目标生成式预训练GPT模型中的N个原始编码器中确定出所述编码器调整指令所指示调整的第一组编码器,并根据所述编码器调整指令对所述第一组编码器中的各个编码器的编码参数进行调整,得到第二组编码器;
将所述N个原始编码器中的所述第一组编码器替换成所述第二组编码器,得到所述N个编码器。
12.根据权利要求11所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,所述从所述目标生成式预训练GPT模型中的N个原始编码器中确定出所述编码器调整指令所指示调整的第一组编码器,包括:
从所述编码器调整指令中获取预设的编码向量维度阈值;
在所述N个原始编码器中确定编码向量维度小于所述编码向量维度阈值的编码器,得到所述第一组编码器,其中,所述N个原始编码器中的各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量。
13.根据权利要求11所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,所述根据所述编码器调整指令对所述第一组编码器中的各个编码器的编码参数进行调整,得到第二组编码器,包括:
从所述编码器调整指令中获取预设的调整量,其中,所述调整量用于调整所述第一组编码器中的各个编码器的编码向量维度,其中,所述各个编码器的编码向量维度表示所述各个编码器输出的编码特征向量中的特征的数量;
根据所述调整量,增加所述第一组编码器中的各个编码器的编码向量维度,得到所述第二组编码器。
14.根据权利要求13所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,所述根据所述调整量,增加所述第一组编码器中的各个编码器的编码向量维度,得到所述第二组编码器,包括:
将所述第一组编码器中的各个编码器的编码向量维度增加所述调整量,得到所述第二组编码器;或者,
将所述第一组编码器中的各个编码器的编码向量维度与所述调整量相乘,得到所述第二组编码器。
15.根据权利要求14所述的基于生成式预训练GPT模型的交互意图信息确定方法,其特征在于,在从所述编码器调整指令中获取预设的调整量之后,所述方法还包括:
将所述第一组编码器中的各个编码器的编码向量维度减小所述调整量,得到所述第二组编码器。
16.一种基于生成式预训练GPT模型的交互意图信息确定装置,其特征在于,包括:
获取模块,用于获取目标对象与智能语音设备进行交互时的原始交互信息;
编码模块,用于将所述原始交互信息输入至目标生成式预训练GPT模型,并通过所述目标生成式预训练GPT模型中的N个编码器中的各个编码器对所述原始交互信息进行编码,得到N个编码特征向量,其中,N为大于或等于2的正整数;
合并模块,用于对所述N个编码特征向量进行合并,得到合并特征向量;
得到模块,用于通过所述目标生成式预训练GPT模型中的解码器对所述合并特征向量进行解码,得到目标解码结果;
确定模块,用于根据所述目标解码结果,确定所述目标对象的交互意图信息;
所述确定模块还用于获取所述目标解码结果包含的意图实体词;确定所述意图实体词对应的多个意图指令,其中,所述多个意图指令均对应有意图指令的执行地点;根据所述目标对象与所述智能语音设备进行交互时的交互地点从所述多个意图指令中确定出目标意图指令,基于所述目标意图指令确定所述目标对象的交互意图信息,其中,所述目标意图指令的执行地点与所述交互地点一致。
17.根据权利要求16所述的基于生成式预训练GPT模型的交互意图信息确定装置,其特征在于,所述编码模块,还包括:
第一编码单元,用于从所述目标生成式预训练GPT模型中的N个编码器中分别确定出在本地运行的第一编码器和在服务器上运行的第二编码器;根据所述目标对象的响应编码器调整指令调整所述第一编码器的第一编码参数,控制所述第一编码器根据调整后的第一编码参数对所述原始交互信息进行编码,并控制所述第二编码器按照第二编码参数对所述原始交互信息进行编码,得到所述N个编码特征向量;其中,所述第一编码参数为可调参数,所述第二编码参数为固定参数。
18.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至15任一项中所述的方法。
19.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至15任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310515860.8A CN116229955B (zh) | 2023-05-09 | 2023-05-09 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310515860.8A CN116229955B (zh) | 2023-05-09 | 2023-05-09 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116229955A CN116229955A (zh) | 2023-06-06 |
CN116229955B true CN116229955B (zh) | 2023-08-18 |
Family
ID=86589575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310515860.8A Active CN116229955B (zh) | 2023-05-09 | 2023-05-09 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229955B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701734B (zh) * | 2023-08-07 | 2024-04-02 | 深圳市智慧城市科技发展集团有限公司 | 地址文本的处理方法、设备及计算机可读存储介质 |
CN117018616A (zh) * | 2023-08-25 | 2023-11-10 | 广州市玄武无线科技股份有限公司 | 一种基于gpt的角色与环境交互控制方法 |
CN117524215A (zh) * | 2023-09-26 | 2024-02-06 | 镁佳(北京)科技有限公司 | 语音意图识别方法、装置、计算机设备及存储介质 |
CN117373456B (zh) * | 2023-12-05 | 2024-03-12 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
CN117725423B (zh) * | 2024-02-18 | 2024-05-24 | 青岛海尔科技有限公司 | 基于大模型的反馈信息的生成方法及装置 |
CN117809629B (zh) * | 2024-02-29 | 2024-05-24 | 青岛海尔科技有限公司 | 基于大模型的交互系统更新方法、装置及存储介质 |
CN117807215B (zh) * | 2024-03-01 | 2024-05-24 | 青岛海尔科技有限公司 | 一种基于模型的语句多意图识别方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
CN113435196A (zh) * | 2021-06-22 | 2021-09-24 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及存储介质 |
WO2021218028A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 基于人工智能的面试内容精炼方法、装置、设备及介质 |
JP2022056638A (ja) * | 2020-09-30 | 2022-04-11 | Kddi株式会社 | ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 |
WO2022104967A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN115186062A (zh) * | 2022-07-12 | 2022-10-14 | 平安科技(深圳)有限公司 | 多模态预测方法、装置、设备及存储介质 |
-
2023
- 2023-05-09 CN CN202310515860.8A patent/CN116229955B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021218028A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 基于人工智能的面试内容精炼方法、装置、设备及介质 |
JP2022056638A (ja) * | 2020-09-30 | 2022-04-11 | Kddi株式会社 | ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法 |
WO2022104967A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
CN113435196A (zh) * | 2021-06-22 | 2021-09-24 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及存储介质 |
CN115186062A (zh) * | 2022-07-12 | 2022-10-14 | 平安科技(深圳)有限公司 | 多模态预测方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于混合多头注意力和胶囊网络的特定目标情感分析;王家乾;龚子寒;薛云;庞士冠;古东宏;;中文信息学报(第05期);第104-114页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116229955A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116229955B (zh) | 基于生成式预训练gpt模型的交互意图信息确定方法 | |
Mehri et al. | Structured fusion networks for dialog | |
US20210160130A1 (en) | Method and Apparatus for Determining Target Object, Storage Medium, and Electronic Device | |
CN112051743A (zh) | 设备控制方法、冲突处理方法、相应的装置及电子设备 | |
CN109961041B (zh) | 一种视频识别方法、装置及存储介质 | |
Ding et al. | Product color emotional design considering color layout | |
WO2022141706A1 (zh) | 语音识别方法、装置及存储介质 | |
CN111723910A (zh) | 构建多任务学习模型的方法、装置、电子设备及存储介质 | |
WO2023168838A1 (zh) | 语句文本的识别方法和装置、存储介质及电子装置 | |
CN112766467B (zh) | 基于卷积神经网络模型的图像识别方法 | |
CN111522925A (zh) | 对话状态生成方法和装置 | |
CN115115846A (zh) | 户型布局的自动生成方法、装置、计算机设备及存储介质 | |
WO2022246986A1 (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
WO2023173596A1 (zh) | 语句文本的意图识别方法和装置、存储介质及电子装置 | |
Bayrak et al. | A novel robust fuzzy control of an uncertain system | |
CN115146645A (zh) | 一种语义解析方法以及相关设备 | |
CN117742792B (zh) | 基于大模型的指令执行设备选取方法、装置、设备和介质 | |
CN113011555B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN117706954B (zh) | 一种用于场景生成的方法及装置、存储介质、电子装置 | |
CN117708680B (zh) | 一种用于提升分类模型准确度的方法及装置、存储介质、电子装置 | |
US20240137543A1 (en) | Systems and methods for decoder-side synthesis of video sequences | |
WO2023212993A1 (zh) | 设备控制方法、存储介质及电子装置 | |
CN118349809B (zh) | 基于物联网的信息处理方法及系统 | |
CN117010378A (zh) | 语义转换方法和装置、存储介质及电子装置 | |
CN117650992A (zh) | 基于bp神经网络和层次聚类的服务组合方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |