CN116975654B

CN116975654B - 对象互动方法、装置、电子设备及存储介质

Info

Publication number: CN116975654B
Application number: CN202311055961.8A
Authority: CN
Inventors: 孙中阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2024-01-05
Anticipated expiration: 2043-08-22
Also published as: CN116975654A

Abstract

本申请实施例公开了一种对象互动方法、装置、电子设备及存储介质，可应用于多种互动场景，例如车载场景。该方法包括：从客户端接收互动需求数据；确定互动需求数据匹配的背景数据；对背景数据和互动需求数据进行语义融合处理，生成互动流程数据；利用历史数据调整互动流程数据，得到目标互动流程数据，可使得目标互动流程数据更加贴合实际的互动情况，可避免所有历史数据流入后续处理环节，降低后续的环节数据处理量，再向所述客户端发送所述目标互动流程数据，客户端仅需根据目标互动流程数据生成互动数据和对象互动，所需算力较小，可实现低延迟的对象互动。

Description

对象互动方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种对象互动方法、装置、电子设备及存储介质。

背景技术

近年来，随着人工智能的快速发展，语言模型得到了快速发展，语言模型在经过大量数据的训练后，使得其具备语言理解和语言生成的能力，由此其可以模仿人类之间的互动方式和对象进行互动，例如，可回答对象的问题，或者按照对象给定的要求输出内容等。

然而，这类语言模型对计算资源的需求量大，且其模型自身的参数量庞大，在互动时，涉及大量的数据计算，难以实现低延迟的对象互动。

发明内容

本申请实施例提供一种对象互动方法、装置、电子设备及存储介质，可以降低对象互动时的数据计算量，实现低延迟的对象互动。

本申请实施例提供一种对象互动方法，应用于服务端，该方法包括：

从客户端接收互动需求数据；

确定所述互动需求数据匹配的背景数据；

对所述背景数据和所述互动需求数据进行语义融合处理，生成互动流程数据；

利用历史数据调整所述互动流程数据，得到目标互动流程数据，所述历史数据为所述服务端和所述客户端在当前时刻之前生成的数据；

向所述客户端发送所述目标互动流程数据，以便所述客户端利用所述目标互动流程数据生成互动数据，和对象进行互动。

本申请实施例还提供一种对象互动方法，应用于客户端，该方法包括：

从服务端接收目标互动流程数据；

基于所述目标互动流程数据，生成互动需求数据；

对所述互动需求数据进行语义预测，得到互动数据；

在预测所述互动数据的过程中，检测需求变化数据，所述需求变化数据为所述互动需求数据被更新后得到的数据；

基于所述需求变化数据的检测结果，输出所述互动数据和对象进行互动。

本申请实施例还提供一种对象互动装置，应用于服务端，该装置包括：

需求接收单元，用于从客户端接收互动需求数据；

匹配单元，用于确定所述互动需求数据匹配的背景数据；

语义融合单元，用于对所述背景数据和所述互动需求数据进行语义融合处理，生成互动流程数据；

调整单元，用于利用历史数据调整所述互动流程数据，得到目标互动流程数据，所述历史数据为服务端和所述客户端在当前时刻之前生成的数据；

发送单元，用于向所述客户端发送所述目标互动流程数据，以便所述客户端利用所述目标互动流程数据生成互动数据，和对象进行互动。

本申请实施例还提供一种对象互动装置，应用于客户端，该装置包括：

流程数据接收单元，用于从服务端接收目标互动流程数据；

需求生成单元，用于基于所述目标互动流程数据，生成互动需求数据；

预测单元，用于对所述互动需求数据进行语义预测，得到互动数据；

检测单元，用于在预测所述互动数据的过程中，检测需求变化数据，所述需求变化数据为所述互动需求数据被更新后得到的数据；

互动单元，用于基于所述需求变化数据的检测结果，输出所述互动数据和对象进行互动。

本申请实施例还提供一种电子设备，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种对象互动方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种对象互动方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种对象互动方法中的步骤。

本申请实施例可以从客户端接收互动需求数据，并确定互动需求数据匹配的背景数据，可对背景数据和互动需求数据进行语义融合处理，生成互动流程数据，并基于历史数据对互动流程数据进行调整，得到目标互动流程数据，以便目标互动流程数据更加贴合实际的互动情况，可避免所有历史数据流入后续处理环节，降低后续的环节数据处理量。再将目标互动流程数据发送给客户端，客户端仅需根据目标互动流程数据生成互动数据和对象互动，所需算力较小，可实现低延迟的对象互动。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的对象互动方法的应用场景示意图；

图1b是本申请实施例提供的对象互动方法的流程示意图；

图2a是本申请另一实施例提供的对象互动方法的流程示意图；

图2b是本申请实施例提供的训练互动模型的示意图；

图3a是本申请再一实施例提供的对象互动方法的流程示意图；

图3b是本申请实施例提供的对象互动方法的整体框架示意图；

图4a是本申请实施例提供的对象互动装置的结构示意图；

图4b是本申请另一实施例提供的对象互动装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种对象互动方法、装置、电子设备及存储介质。

其中，该对象互动装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该对象互动装置还可以集成在多个电子设备中，比如，对象互动装置可以集成在多个服务器中，由多个服务器来实现本申请的对象互动方法。

在一些实施例中，服务器也可以以终端的形式来实现。

本申请实施例可集成多个自回归语言模型，基于多个自回归语言模型和对象进行互动。其中，自回归语言模型是一种基于概率的生成式模型，可用来预测一个文本序列的下一词或字符，其基本思想是给定前面的词或字符序列，通过条件概率计算出下一个词或字符的概率分布，并从中选择一个概率最大的词或字符作为预测结果。这类模型的具体结构主要有以RNN为代表的循环神经网络，或者以transformer为代表的编码器-解码器神经网络等。这类自回归语言模型在经过训练后，可模拟人类之间交谈的方式进行互动，例如，回答问题或者按照要求给出对应的内容等，但是目前这类自回归语言模型对算力的需求较大，通常只能部署在服务端，再加上网络的影响，导致互动时容易出现延迟和卡顿。而本申请实施例中，可将算力消耗较大的自回归语言模型部署在服务端，将算力需求较低的自回归语言模型部署在客户端，以实现低时延的互动。

例如，参考图1a，示出了对象互动方法的应用场景示意图。其中，该应用场景中可以包括服务端101和客户端102，其中，服务端101可以是指处于算力充足且网络优良环境中的设备，例如，服务器。客户端102可以是指算力有限且处于网络不稳定的环境中的设备，例如，移动设备，车载设备等。

服务端101和客户端102之间可通过网络进行数据交互，以实现对象互动。例如，可以是服务端从客户端接收互动需求数据；确定互动需求数据匹配的背景数据；对背景数据和互动需求数据进行语义融合处理，生成互动流程数据；利用历史数据调整互动流程数据，得到目标互动流程数据，其中，历史数据为服务端和所述客户端在当前时刻之前生成的数据；向客户端发送目标互动流程数据，以便客户端利用所述目标互动流程数据生成互动数据，和对象进行互动。

客户端可以从服务端获取目标互动流程数据；基于目标互动流程数据，生成互动需求数据；对所述互动需求数据进行语义预测，得到互动数据；在预测互动数据的过程中，检测需求变化数据，需求变化数据为互动需求数据被更新后得到的数据；基于需求变化数据的检测结果，输出互动数据和对象进行互动。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，WavLM, UniSpeech等沿用transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学的人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型（Large Language Model）发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的对象交互方法可以应用于多种不同的场景，例如车载场景、智能问答场景等。该对象交互方法可作为一个虚拟助理单独使用，或者和其他应用程序结合使用。

例如，该虚拟助理可以模拟车载电台，该车载电台的内容、风格等均可定制。又例如，该虚拟助理可以模拟多个对象互相交谈，具体聊天的内容和对象的交谈风格也可被定制，交谈的内容可以是某个品牌的发展历史、娱乐圈的新闻等等。又例如，在车载场景中，虚拟助理可作为小朋友的玩伴，用于安抚小朋友等。

又例如，该虚拟助理可和新闻类应用程序相结合，可以根据对象的需求为对象总结并讲述新闻，其中，该虚拟助理可以是以一个虚拟角色来讲述新闻，也可以是以多个虚拟角色模仿主持人和评论员的角色互相讨论，对象可随时参与其中。

又例如，该虚拟助理可和地图类应用程序相结合，可以按照广播的方式主动给对象播报当前路线。也即可理解为可基于对象从起始地至目的地的行程，定制交通广播，在广播中可以夹杂一些新闻、笑话、本地资讯等。

又例如，该虚拟助理可和阅读类应用程序相结合，该虚拟助理可以模拟多个虚拟角色，假设此处为两个，一个为阅读角色，可阅读书本内容，另一个为评论角色，可对阅读的内容进行评论或内容批注，以便模拟读书会的形式。若对象遇到书本中不理解的内容，可和虚拟助理互动，以便评论角色进行讲解等。

又例如，该虚拟助理可和社交类应用程序相结合，可以帮助对象总结某个会话群组中沟通的内容，或者将对象感兴趣的媒体平台所更新的内容总结一下等。

可以理解的是，在本申请的具体实施方式中，涉及到和对象相关的数据，例如，接入对象所使用的应用程序、对象的会话群组中的内容、采集到的对象的音频、音频数据等，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在本实施例中，提供了一种涉及人工智能的对象交互方法，如图1b所示，该对象交互方法可应用于服务端，该方法的具体流程可以如下：

110、从客户端接收互动需求数据。

互动需求数据是指和对象的互动期望相关的数据，该互动需求数据可以是对互动内容、互动风格等进行限制的数据，使得最终的互动可以符合对象的互动期望。互动需求数据可以包括互动配置数据和实时互动数据中的至少一个，其中，实时互动数据是指和对象互动时最新的互动数据，互动配置数据是指预先配置的对互动主题、互动风格、参与互动的虚拟对象的数量中的至少一个进行限制的数据。

其中，互动主题是指互动的主题，如体育、财经、娱乐、交通等，互动风格可以是指对象互动时的风格，如幽默诙谐的风格、亲切友好的风格、礼貌正式的风格等。参与互动的虚拟对象数量是指在互动时，可出现的虚拟对象的数量，例如，可以是以两个虚拟对象的方式互动，两个虚拟对象可以表现为不同的风格等。实时互动数据是指实时检测到互动数据，例如用户输入的语音，或者是虚拟对象当前互动的数据等。

互动需求数据可以是由客户端发送给服务端的，前述内容中，互动需求数据可包括互动配置数据和实时互动数据，在互动未开始时，客户端可接收到互动配置数据，由客户端将互动配置数据发送给服务端，以便服务端处理后实现互动，在互动的过程中，可以产生实时互动数据，再由客户端按照一定间隔同步给服务端，以便服务端继续处理，使得整个互动更加合理。

120、确定所述互动需求数据匹配的背景数据。

背景数据是指为了进行对象互动所需要的领域知识，例如，互动主题为体育，则背景数据可以包含和体育相关的专业知识，以及最新的体育新闻等。又例如，互动主题为某个电视剧，则背景数据可以包含该电视剧的演员信息、剧情以及创作依据等。

背景数据的来源多种多样，例如，可从指定的数据库中获取、从知识图谱中获取、或者从公共互联网中获取。为了获取到丰富的背景数据，在确定互动需求数据匹配的背景数据时，可以是以互动需求数据，在第一数据库中检索，得到第一子背景数据；以互动需求数据，在第二数据库中检索，得到第二子背景数据；融合所述第一子背景数据和所述第二子背景数据，得到背景数据。

其中，第一数据库是指专门设计的，有专用API的数据库，该数据库可以包括多个领域相关的数据，例如，交通、音乐、体育直播、天气、书籍等。其中，该第一数据库中所能检索到的数据均是为对象互动这一功能特化的，比如，所有的数据都具有固定的格式，如文本格式，以及第一数据库内部的一个系统、程序或组件等具有完整的功能和资源，不需要依赖外部环境或其他组件就可以独立运行。

具体在检索时，可以是将互动需求数据作为检索词，以便获取到第一数据库中和互动需求数据匹配的多个数据，可以直接将多个数据作为第一子背景数据，也可以是选择排序靠前的前n个数据，作为第一子背景数据，具体可根据实际需要进行设置。

第二数据库是指公共互联网，主要包含搜索引擎以及可能以类似黄页方式组织起来的分类网站集合。其中，不同的网站可以被增加有不同标签，例如类型，可行度等，为了实现快速搜索，还可以为每个网站的搜索行为做出定义和规范等。例如，不同的网站对应的检索式有一定的区别，可对检索式的格式要求进行标注，在使用对应网站检索第二子背景数据时，可以先将互动需求数据包装为对应的格式，再输入至对应网站中的，以提升获取第二子背景数据的可行性和有效性。类似的，以互动需求数据为检索词，从第二数据库中可以获取到和互动需求数据匹配的多个数据，可以直接将多个数据作为第二子背景数据，也可以是选择排序靠前的前n个数据，作为第二子背景数据，具体可根据实际需要进行设置。

为了提升后续利用背景数据时的处理效率，可以融合第一子背景数据和第二子背景数据，得到背景数据。例如，将第一子背景数据和第二子背景数据中，语义不完整的数据删除，并合并相同的数据。例如，第一子背景数据和第二子背景数据中均有相同的关于红楼梦的创作者的数据，保留一份对应的数据即可。若第一子背景数据和第二背景数据中关于红楼梦的创作者的数据不同，可以第一子背景数据中的为准，或者以权威网站中的数据为准，并删除另外一份数据。

130、对所述背景数据和所述互动需求数据进行语义融合处理，生成互动流程数据。

其中，互动流程数据是描述对象互动的整个流程的数据，可以包括互动时所需要输出的数据，用于指导整个互动的节奏和流程。例如，以车载电台的形式进行对象互动时，该互动流程数据可以是指电台的台本，又例如，以虚拟助理形式进行对象互动时，该互动流程可以是指互动的大纲，也即通过互动流程数据，可以指导对象互动的整体方向。

为了使得对象互动的过程是满足对象期望且合乎常理的，可以对背景数据和互动需求数据的语义进行融合，以便生成互动流程数据。例如，在生成互动流程数据之前，可以预先训练大语言模型，使得大语言模型所可以模拟人类专家的知识和推理过程，以具备语义理解和自动生成互动流程数据的能力，此处训练完毕的模型可记为专家模型。然后，可将背景数据和互动需求数据输入至专家模型，即可快速得到互动流程数据。

在一些实施方式中，可以是拼接所述背景数据和所述互动需求数据，得到第一待处理数据；对所述第一待处理数据进行编码处理，得到第一向量，所述第一向量包括所述背景数据对应的背景向量以及所述互动需求数据对应的互动需求向量；基于第一转换矩阵，对所述背景向量和所述互动需求向量进行语义融合，得到融合语义向量；利用所述融合语义向量，生成多个第一预测数据对应的概率分布；根据所述第一预测数据对应的概率分布，生成互动流程数据。

其中，大语言模型通常可以包括输入层、注意力层以及前馈层，输入层用于对输入模型的数据进行编码，并传入至注意力层中进行注意力计算，最终通过前馈层计算出概率分布，其中，注意力层可以是transformer模型的解码器，专家模型也具有类似的结构。

其中，为了将背景数据和互动需求数据输入至专家模型中，可以是直接将背景数据和互动需求数据拼接在一起，得到第一待处理数据。由于背景数据和互动需求数据可以是文本，则得到的第一待处理数据也为文本序列。

然后可以通过输入层对第一待处理数据进行编码处理，得到第一待处理数据对应的第一向量。由于第一待处理数据可以是文本序列，则文本序列中的每个词语均具有其对应的位置，由于词语在句子中的位置不同，可以使得句子的语义出现变化，为了更加准确地捕获语义，在编码时，还可以融合每个词语在第一待处理数据中的位置信息。

作为一种实施方式，可以是对第一待处理数据进行分词处理，得到多个词语；将词语转换为对应的文本编码；基于词语在句子中的位置信息，得到词语的位置编码；将词语对应的文本编码和位置编码融合，得到词语对应的第一子向量；所有词语对应的第一子向量构成第一向量。

例如，在分词处理时，可将第一待处理数据划分为一个个离散的标记，然后可将标记映射为低纬度的向量表示，即词语的文本编码。词语在句子中的位置信息也可被编码为向量，即位置编码，通常可使用正弦和余弦函数生成，位置编码的维度可以和文本编码的维度保持一致。然后可通过加法操作，将词语的位置编码与文本编码结合，得到包含位置信息的最终编码表示，即第一子向量，将第一待处理数据中每个词语的第一子向量确定为第一向量。

可以理解的是，第一向量中，可以包含背景数据对应的背景向量，以及互动需求数据对应的互动需求向量。背景向量可由背景数据中每个词语对应的第一子向量组成，互动需求向量则由互动需求数据中每个词语对应的第一子向量组成。

第一转换矩阵是专家模型在训练过程中学习到的一组参数，基于该第一转换矩阵，可以对背景向量和互动需求数据进行语义融合，得到融合语义向量。在一些实施方式中，第一转换矩阵可以是包括请第一求向量参数矩阵W^Q1、第一键向量参数矩阵W^K1以及第一值向量参数矩阵W^V1，基于该第一转换矩阵，可对第一向量进行线性变换，得到第一向量对应的变换向量，即第一请求向量Q₁、第一键向量K₁以及第一值向量V₁。

其中，Q₁包括每个词语对应第一子向量和W^Q1相乘得到的第一子请求向量，K₁包括每个词语对应第一子向量和W^K1相乘得到的第一子键向量，V₁包括每个词语对应第一子向量和W^V1相乘得到的第一子值向量。

基于第一向量对应的第一请求向量，第一键向量以及第一值向量，可计算得到融合语义向量。其具体的计算方式可参照如下公式：

;

其中，表示第一键向量K₁的维度；/>表示第一键向量K₁的转置；/>为融合语义向量。若为多头注意力，则Q₁、K₁以及V₁有多组，可计算得到多个Z₁，拼接多个Z₁即可。

然后，可利用融合语义向量，生成多个第一预测数据对应的概率分布，例如，可以将融合语义向量通过前馈层进行非线性变化和特征提取，再将前馈层的输出进行softmax操作，即可得到第一预测数据的概率分布。其中，第一预测数据可以是指专家模型在训练阶段所学习到的数据，将概率最高的第一预测数据作为输出，通常，第一预测数据仅是某个词语，为了得到完整的互动流程数据，可将当前的输出和之前的输入拼接后，作为新的输入，重复上述过程，直到第一预测数据是一个终止符为止，整个过程中其所有的输出，则为互动流程数据。

在一些实施方式中，专家模型可以是多个，例如，可为每个领域训练一个专家模型，例如财经领域的专家模型，体育领域的专家模型。为每个领域训练一个对应的专家模型，可降低模型训练的难度，也能给出更加专业的输出。在每个领域对应一个专家模型的场景下，在生成互动流程数据时，可先依据互动需求数据确定出互动所属于的领域，例如，财经领域，则可以选择财经领域的专家模型，生成互动流程数据。

140、利用历史数据调整所述互动流程数据，得到目标互动流程数据。

历史数据是指客户端和服务端在当前时刻之前生成的数据，例如，可以包括在当前时刻之前，接收到的互动需求数据、确定出的背景数据、生成的互动流程数据等。

在一些实施方式中，该历史数据可以是指和本次互动相关的数据，例如，其中，一次互动可以包含多轮对话，历史数据可以是在当前时刻之前服务端和客户端生成的和本次对象互动相关的数据。在另一些实施方式中，该历史数据可以是指在当前时刻之前一段时间内，由服务端和客户端生成的数据，该一段时间可根据实际的需要进行设置，例如可以是当前时刻之前的一天内，当前时刻之前的一周内等。

也即在服务端第一次接收到互动需求数据后，可以触发此次互动，在此次互动中产生的所有数据均可被存储下来，成为历史数据。需要说明的是，随着互动的进行，历史数据的数据量也会随之增长。

为了使得互动流程数据更加贴合实际的互动情况，可以利用历史数据调整互动流程数据，得到目标互动流程数据。其中，调整可以包括从互动流程数据中删减部分数据、新增部分历史数据至互动流程数据中。

互动流程数据可用于指导整个互动流程，但是随着互动的进行，有一部分流程是已经执行过的，由此，该部分数据对于当前的互动情况而言是不需要的，则可以从互动流程数据中删除。例如，互动流程数据中的开场白，在开场之后，开场白就不被需要了，由此，可删减掉互动流程数据中不需要的数据，既可节约后续的数据处理量，提升处理效率，也可使得互动流程数据更加贴合当前的互动情况。

又例如，互动流程数据中包含一些具有时效性的数据，如，体育直播、新闻、路况等，也可以基于当前时刻，删除一些过期的数据。例如，在车载场景中，交通路况是实时变化的，某个路段在某个时刻发生拥堵，在当前时刻该路段已经正常通行，则需要删除掉该路段的拥堵的数据。

通常人们在互动的过程中，可能会提起之前聊起的内容。类似的，为了使得互动更加合理，可以从历史数据中新增部分数据至互动流程数据中。例如，在第一轮对话时，包含“今天天气很好，所以A明星的演唱会可以顺利进行”，后续对话则为A明星的电视剧B的剧情。此时，可能再次提及A明星的演唱会相关的内容，但是这部分内容已经从互动流程数据中删除，由此，可以从历史数据中，将之前对话的和A明星的演唱会相关的数据添加至互动流程数据中，以便后续可继续将话题转为A明星的演唱会，使得互动更加合理。又例如，用户对之前的某个新闻提出了问题，此时可以将之前提供过的，有关这个新闻的背景数据添加至互动流程数据中。

需要说明的是，此处将历史数据中的部分数据添加至互动流程数据中，并不会改变历史数据，也即在将数据添加至互动流程数据中时，并不将数据从历史数据中删除。基于历史数据调整互动流程数据，使得目标互动流程数据更加切合实际的互动情况，由于历史数据的数据量巨大，也可避免历史数据全部流入后续处理环节，可降低后续处理环节的数据处理量。

在一些实施方式中，调整互动流程数据生成目标互动流程数据也可以是由预先训练的大语言模型执行的，为了便于描述，后续将其记为清理模型。即可预先训练清理模型，使其具备语言理解的能力，然后可将历史数据和互动流程数据输入至清理模型，即可快速得到目标互动流程数据。

例如，可以是拼接所述历史数据和所述互动流程数据，得到第二待处理数据；将所述第二待处理数据转换为第二向量；基于第二转换矩阵，对所述第二向量进行注意力计算，得到注意力向量；利用所述注意力向量，生成多个第二预测数据对应的概率分布；根据所述第二预测数据对应的概率分布，更新所述互动流程数据，以得到所述目标互动流程数据。

其中，清理模型的结构同前述大语言模型的结构类似，也可包含输入层、注意力层和前馈层。为了将互动流程数据和历史数据输入至清理模型中，可将历史数据和互动流程数据拼接在一起，得到第二待处理数据。由于历史数据和互动流程数据可以是文本，则得到的第二待处理数据也为文本序列。

然后可以通过输入层将第二待处理数据转换为第二向量，和前述对第一待处理数据进行编码的方式类似，可以同时对第二待处理数据中的每个词语以及词语的位置进行编码，得到每个词语对应的第二子向量。第二待处理数据中每个词语的第二子向量即可构成第二向量。具体得到第二向量的方式和前述得到第一向量的方式类似，在此不再赘述。

第二转换矩阵是清理模型在训练过程中学习到的一组参数，基于该第二转换矩阵，可以对第二向量进行注意力计算，以便融合历史数据和互动流程数据的语义，得到第二注意力向量。在一些实施方式中，第二转换矩阵可以包括第二请求向量参数矩阵W^Q2、第二键向量参数矩阵W^K2以及第二值向量参数矩阵W^V2，基于该第二转换矩阵，可对第二向量进行线性变换，得到第二向量对应的变换向量，即第二请求向量Q₂、第二键向量K₂以及第二值向量V₂。

其中，Q₂包括每个词语对应的第二子向量和W^Q2相乘得到的第二子请求向量，K₂包括每个词语对应的第二子向量和W^K2相乘得到的第二子键向量，V₂包括每个词语对应的第二子向量和W^V2相乘得到的第二子值向量。

基于第二向量对应的第二请求向量，第二键向量以及第二值向量，可计算得到注意力向量。

其具体的计算方式可参照如下公式：

;

其中，表示第二键向量K₂的维度；/>表示第二键向量K₂的转置；/>为注意力向量。若为多头注意力，则Q₂、K₂以及V₂有多组，可计算得到多个Z₂，拼接多个Z₂即可。

然后，可利用注意力向量，生成多个第二预测数据对应的概率分布，例如，可以将注意力向量通过前馈层进行非线性变化和特征提取，再将前馈层的输出进行softmax操作，即可得到第二预测数据的概率分布。其中，第二预测数据可以是指清理模型在训练阶段所学习到的数据，将概率最高的第二预测数据作为输出，通常，第二预测数据仅是某个词语，为了得到完整的互动流程数据，可将当前的输出和之前的输入拼接后，作为新的输入，重复上述过程，直到第二预测数据是一个终止符为止，整个过程中其所有的输出，则为目标互动流程数据。

在一些实施例中，可将前述的专家模型和清理模型集成为一个模型，可直接得到目标互动流程数据。

在另一些实施例中，专家模型和清理模型为两个模型，由于历史数据的数据量可随着互动的进行快速增长，互动过程中，服务端需要多次执行上述流程，清理模型的输入为历史数据和互动流程数据，是整个互动处理中，输入的数据量最大的模型，所要求的算力也就越多，但是清理模型的任务简单单一，由此，将其独立为清理模型既可降低训练的复杂度，也可降低模型的计算量，节省算力。

150、向所述客户端发送所述目标互动流程数据，以便所述客户端利用所述目标互动流程数据生成互动数据，和对象进行互动。

服务端可将目标互动流程数据发送至客户端，以便客户端可利用目标互动流程数据生成互动数据，和对象进行互动。其中，对象可以包括用户、AI助手等虚拟对象等。

由于目标互动流程数据相比于互动流程数据而言，删除了不需要的数据可减少后续客户端使用目标互动流程数据生成互动数据的计算量，且引入了需要的数据，可也保证良好的互动体验。其中，客户端的相关处理细节将在后续实施例中说明。

在一些实施方式中，为了降低数据传输量，快速地将目标互动流程数据传输至客户端，可以通过编号的方式简化目标互动流程数据。例如，可以是按照预设单元，将所述目标互动流程数据划分为多个子互动流程数据；获取每个所述子互动流程数据对应的数据编号；以所述子互动流程数据对应的数据编号，对所述目标互动流程数据进行更新，得到待发送互动流程数据；向客户端发送所述待发送互动流程数据。

目标互动流程数据可以是文本序列，预设单元可以是句子或一段话，具体可以根据实际的需要进行设置。基于预设单元，可将目标互动流程数据划分为多个子互动流程数据，即每个子互动流程数据均是一个预设单元。

然后可获取每个子互动流程数据对应的数据编号，其中，数据编号可用于唯一指代某一子互动流程数据。在一些实施方式中，可以是根据子互动流程数据的生成时间，对子互动流程数据进行编号，编号可在生成子互动流程数据时进行，编号后，可将数据编号和对应的子互动流程数据一并作为历史数据。

通过子互动流程数据对应的数据编号，可对目标互动流程数据进行更新，得到待发送互动流程数据。例如，可以是从目标互动流程数据中确定待替换数据，以待替换数据对应的数据编号，替换所述待替换数据，并将剩余的子互动流程数据及对应的数据编号作为待发送互动流程数据。

其中，待替换数据是指客户端没有的新数据，在一些实施方式中，由于服务端可在需要的时候生成目标互动流程数据，由此，服务端可获取到上次生成目标互动流程数据和当前时间的间隔。然后，获取目标互动流程数据中，时间戳在该间隔内的子互动流程数据为待替换数据。例如，服务端上次生成目标互动流程数据为12点整，当前时间12点零5分，由于在对目标互动流程数据中的子互动流程数据进行编号时，会携带其生成时间，由此，可基于数据编号，将生成时间在12点至12点零的5分之间的子互动流程数据确定为待替换数据。

然后，目标互动流程数据中可包含待替换数据和其他子互动流程数据，可以直接使用待替换数据的数据编号替换待替换数据，然后添加其他子互动流程数据对应的数据编号，以得到待发送互动流程数据。例如，目标互动流程数据为“今天天气真好啊。蓝天白云如同一幅宜人的画卷。温暖的阳光洒在大地上，给人一种宁静和舒适的感觉。”其中，“今天天气真好啊”的数据编号为1，“蓝天白云如同一幅宜人的画卷”的数据编号为2，“温暖的阳光洒在大地上，给人一种宁静和舒适的感觉”的数据编号为3。若“今天天气真好啊。蓝天白云如同一幅宜人的画卷。”为待替换数据，则待发送互动流程数据可以是“12温暖的阳光洒在大地上，给人一种宁静和舒适的感觉-3”。

需要说明的是，客户端和服务端存储的数据以及对应的数据编号是一致的。其中，服务端生成的数据由服务端继续进行编号处理，客户端的数据由客户端进行编号处理。为了确保数据编号的唯一性，服务端和客户端均可基于数据的生成时间生成数据编号，但是其具体采用的规则不同，或者说数据编号的格式不同。例如，数据编号包含时间戳和编号，服务端的数据编号的格式为时间戳-编号，客户端的数据编号的格式为编号-时间戳。

然后客户端可基于接收到的目标互动流程数据，生成互动数据和对象互动。需要说明的是，服务端使用的专家模型，清理模型的训练可使用人类反馈强化学习，也即，可以通过人类生成数据训练奖励模型，和用奖励模型给出的输出通过强化学习算法优化目标模型两步，该目标模型则为专家模型和清理模型，奖励模型可根据实际的任务具体设置。

采用本申请实施例提供的对象交互方案，服务端可从客户端接收互动需求数据；确定互动需求数据匹配的背景数据，以便后续生成互动流程数据时，拥有足够的领域知识；对背景数据和互动需求数据进行语义融合，生成互动流程数据；并利用历史数据对互动流程数据进行调整，得到更加符合互动情况的目标互动流程数据，可避免不必要数据流向下一个环节，进而可降低后续互动时的数据处理量，提升互动效率。

由于目标互动流程数据可用于指导整个互动流程，服务端可将目标互动流程数据发送给客户端，以便客户端可自主依据目标互动流程数据，生成互动数据和对象进行互动，无需依赖一问一答的模式。对象互动中，将复杂的数据处理流程放在服务端，服务端为客户端提供必要的数据以支撑其和对象互动，可以降低对客户端的算力需求，使得对象互动的时延较低，进而实现高效合理的对象互动。

在本实施例中，提供了一种涉及人工智能的对象交互方法，如图2a所示，该对象交互方法可应用于客户端，该方法的具体流程可以如下：

210、从服务端接收目标互动流程数据。

目标互动流程数据由服务端生成，由此，客户端可从服务端接收到目标互动流程数据。

在一些实施方式中，若服务端是以待发送互动流程数据的形式，将目标互动流程数据发送至客户端的，客户端可基于数据编号，将待发送互动流程数据还原为目标互动流程数据。

其中，客户端也拥有完整的数据编号以及历史数据，由此，客户端可以基于数据编号，查询到数据编号对应的待替换数据，至于其他子互动流程数据，客户端可将其对应的数据编号和子互动流程数据存储为历史数据，以确保历史数据和数据编号可和服务端保持同步。从而，通过数据编号，客户端可将待发送互动流程数据还原为目标互动流程数据，以供后续处理。

220、基于所述目标互动流程数据，生成互动需求数据。

如前述实施例中所描述的，互动需求数据通常可以包含互动配置数据和实时互动数据。而在客户端接收到目标互动流程数据后，可利用目标互动流程数据更新互动需求数据。也即，互动需求数据在对象互动的过程中是不断迭代的。

例如，在互动未开始时，客户端可以获取到互动配置数据，即对象设置的和互动相关的数据。此时客户端可将互动配置数据作为互动需求数据上传给服务端，以便服务端可生成对应的目标互动流程数据发送给客户端。

客户端在接收到此次目标互动流程数据后，目标互动流程数据也是为了指导整个互动流程，由此，目标互动流程数据可作为新的互动需求数据。并且，在接收到目标互动流程后，可以检测对象的输入，例如，用户说话时，可以检测到对应的语音。此时，对象的输入也可以作为互动需求数据的一部分，也即，互动需求数据本质上是描述互动的一些要求，以便可以按照互动需求数据进行互动。

从而，在生成互动需求数据时，可以是按照第一间隔检测环境数据；若检测到所述环境数据，融合所述环境数据和所述目标互动流程数据，得到互动需求数据，并向所述服务端发送所述互动需求数据；若未检测到所述环境数据，将所述目标互动流程数据作为所述互动需求数据，并按照第二间隔向服务端发送所述互动需求数据。

其中，环境数据是指客户端所处的环境中的音频数据、视频数据、图像数据等。其中，客户端在检测环境数据时，需要获取对应的权限，例如，音频采集权限、视频采集权限等。仅在具有对应的权限时，可采集对应的数据，并且对采集到的音频、视频的使用需要符合法律法规。作为一种实施方式，在互动开始之前，可在客户端输出权限获取的提示信息，例如，“是否开启语音采集权限”，“是否开启视频采集权限”等，该提示信息可以是语音也可以是直接显示在客户端上。对象可提交对应的反馈，以便客户端确定是否开启对应的权限。

当客户端具有对应的数据采集权限时，可按照第一间隔采集环境数据，若检测到环境数据，表明当前对象可能正在进行互动，由此，可融合环境数据和目标互动流程数据，得到互动需求数据，并及时向服务端同步互动需求数据。

环境数据可以包括音频数据、视频数据中的至少一种，在融合环境数据和目标互动流程数据时，需要对环境数据进行对应的转换，使得环境数据的表现形式和目标互动流程数据一致，以便更好的融合。

例如，环境数据包括音频数据时，可以基于语音身份识别技术对音频数据进行识别，以提取出音频数据发出者的身份信息，例如，音频数据发出者的位置信息、音色信息等。例如，在车载场景中，车辆内的位置可分为主驾、副驾以及后排，基于语音身份识别技术，可识别出音频数据的发出者在主驾、副驾还是后排。并将音频数据转换为文本数据，以便更好地融合。

又例如，环境数据包括视频数据或者图像数据时，可以基于图像识别技术，对视频数据中的每帧进行识别，识别出视频数据或者图像数据中的每个对象的肢体动作、表情等。若视频数据中携带音频数据，可按照前述的方式处理，以音频数据转换为文本数据，并结合图像识别出的表情信息等，一并添加至文本数据中。

若视频数据中未携带音频数据，或者音频数据中存在较大的噪声，无法进行语音身份识别时，可以基于识别的肢体动作和表情，将其转换为对应的文本数据，以便更好的融合。例如，肢体动作是为手语时，可将手语转换为文本数据，又例如，可基于口型和表情等，推测文本数据。

然后将环境数据转换得到的文本数据和目标互动流程数据拼接在一起，则可以得到当前的互动需求数据。其中，在检测到环境数据后，可及时将互动需求数据一并上传给服务端，以便服务端及时解答相关的疑问，确保互动的正常进行。

若未检测到环境数据，表明对象并未进行互动，由此，可直接将目标互动流程数据作为互动需求数据，并按照第二间隔向服务端同步互动需求数据。由于并未检测到环境数据，表明互动可按照目标互动流程数据进行，按照第二间隔同步互动需求数据即可。

230、对所述互动需求数据进行语义预测，得到互动数据。

在获取到最新的互动需求数据后，客户端可对互动需求数据进行语义预测，以得到互动数据。其中，语义预测可由预先训练的大语言模型执行，此处将其记为互动模型。也即，将互动需求数据输入互动模型，其可输出预测到的互动数据。

在一些实施方式中，可以是对所述互动需求数据进行编码处理，得到需求向量；基于预设转换矩阵和所述需求向量，对所述互动需求数据进行语义提取，得到需求语义向量；利用所述需求语义向量，生成候选互动数据对应的概率分布；根据所述候选互动数据对应的概率分布，生成互动数据。

其中，互动模型也具有输入层、注意力层以及前馈层。输入层可对互动需求数据进行编码处理，得到需求向量。类似的，互动需求数据可以是文本序列，由此，在编码时，可对互动需求数据中的每个词语进行文本编码，并对每个词语在句子中的位置信息进行编码，得到位置编码。然后每个词语可表示为其对应文本编码和位置编码求和得到的最终编码，互动需求数据中每个词语的最终编码构成需求向量。

预设转换矩阵是互动模型在训练过程中学习到的一组参数，基于该预设转换矩阵和需求向量，可以对互动需求数据进行语义提取，得到需求语义向量。在一些实施方式中，预设转换矩阵可以包括预设请求向量参数矩阵W^Q、预设键向量参数矩阵W^K以及预设值向量参数矩阵W^V，基于该预设转换矩阵，可对需求向量进行线性变换，得到需求向量对应的变换向量，即预设请求向量Q、预设键向量K以及预设值向量V。

其中，Q包括每个词语对应的最终编码和W^Q相乘得到的预设子请求向量，K包括每个词语对应的最终编码和W^K相乘得到的预设子键向量，V包括每个词语对应的最终编码和W^V相乘得到的预设子值向量。

基于需求向量对应的预设请求向量，预设键向量以及预设值向量，可计算得到需求语义向量。其具体的计算方式可参照如下公式：

；

其中，d_K表示预设键向量K的维度；K^T表示预设键向量K的转置；Z为需求语义向量。若为多头注意力，则Q、K以及V有多组，可计算得到多个Z，拼接多个Z即可。

然后，可利用需求语义向量，生成候选互动数据对应的概率分布，例如，可以将需求语义向量通过前馈层进行非线性变化和特征提取，再将前馈层的输出进行softmax操作，即可得到候选互动数据的概率分布。其中，候选互动数据可以是指互动模型在训练阶段所学习到的数据，将概率最高的候选互动数据作为输出，通常，候选互动数据仅是某个词语，为了得到完整的互动数据，可将当前的输出和之前的输入拼接后，作为新的输入，重复上述过程，直到候选互动数据是一个终止符为止，整个过程中其所有的输出，则为互动数据。

240、在预测所述互动数据的过程中，检测需求变化数据，所述需求变化数据为所述互动需求数据被更新后得到的数据。

上述在预测互动数据的过程中，是先得到候选互动数据的概率分布，然后选择概率分布最高的候选互动数据输出，再将预测得到的候选互动数据加入输入中，继续预测。例如，互动需求数据为“今天的”，候选互动数据“天气”的概率分布最高，则将“天气”加入互动需求数据变化为“今天的天气”，继续预测。

由此，在预测互动数据的过程中，互动模型会不断迭代互动需求数据，以便得到互动数据。若在预测互动数据的过程中，互动需求数据发生了变化，则可能影响到最终的互动数据。

其中，需求变化数据是指互动需求数据被更新后得到的数据，更新该互动需求数据的对象可能并非是正在预测互动数据的互动模型。例如，互动模型在预测互动数据的过程中，用户突然说话，此时用户说话的内容可被添加至互动需求数据中，得到需求变化数据。又例如，存在两个互动模型，记为互动模型1和互动模型2，假设这两个互动模型均以互动需求数据为输入，开始预测各自的互动数据，但是互动模型2先输出，则在互动需求数据中添加了其预测出的候选互动数据，此时，对于互动模型1而言，其检测到了需求变化数据。

在一些实施方式中，检测需求变化数据时，可以是在更新互动需求数据时，检测需要被更新的互动需求数据和互动模型的输入是否一致；若一致，判定未检测到需求变化数据；若不一致，判定检测到需求变化数据。

如前述举例中，若输入的互动需求数据为“今天的”，互动模型预测出“天气”，在将“天气”添加到输入中时，可重新获取一次互动需求数据“今天的”，和其输入一致，则未检测到需求变化数据。若重新获取到的互动需求数据为“今天的车辆”，则和其输入“今天的”不一致，可认为检测到需求变化数据。

250、基于所述需求变化数据的检测结果，输出所述互动数据和对象进行互动。

检测结果可以包括检测到需求变化数据或未检测到需求变化数据，不同的检测结果，可影响最终的互动。也即，可根据检测结果，输出互动数据和对象进行互动。其中，输出互动数据时，可以是以文本的形式输出，也可以是以音频的形式输出，当然还可以是以图像的方式输出等等，具体可根据实际的需要进行设置。

在一些实施方式中，若在生成所述互动数据的过程中，未检测到所述需求变化数据，输出所述互动数据和对象进行互动；若在生成所述互动数据的过程中，检测到所述需求变化数据，根据所述需求变化数据，输出所述互动数据和对象进行互动。

若未检测到需求变化数据，可以直接输出互动数据进行互动。若检测到需求变化数据，可根据实际的需求变化数据，输出互动数据进行互动。需要说明的是，若检测到需求变化数据的场景下，类似人类之间交谈时，突然被打断的情况，此时，被打断的一方可以选择继续交谈，也可选择不再交谈。

类似的，若检测到需求变化数据，可检测需求变化数据的语义信息；若所述语义信息满足预设条件，输出所述互动数据和对象进行互动；若所述语义信息不满足预设条件，利用所述需求变化数据迭代所述互动数据。

其中，语义信息是指需求变化数据所包含语义，互动模型可捕获到其语义，其中，预设条件可由互动模型在训练中所学习到的规律决定。其中，在训练互动模型时，可由人工对互动模型是否输出进行标注，其中，可以是基于前面的句子是够语义完整、若续上当前的输出是否语义连贯等来标注的。从而，互动模型经过训练，可以找寻到是否输出的规律，结合需求变化数据的语义，确定是否输出。

也即，其可以是判断需求变化数据是否语义完整，若语义完整，可判定语义信息满足预设条件。还可以是判断需求变化数据和当前预测到的候选互动数据是否语义连贯，若语义连贯，可判定语义信息满足预设条件。当然，也可先判定需求变化数据是否语义完整；若语义完整，直接判定语义信息满足预设条件；若需求变化数据的语义不完整，判定需求变化数据和当前预测到的候选互动数据是否语义连贯；若语义连贯，判定语义信息满足预设条件；若语义不连贯，判定语义信息不满足预设条件。

其中，若语义信息不满足预设条件，可以直接将需求变化数据作为输入，预测对应互动数据。并按照类似的方式判定是否输出该互动数据。

通过上述方式，可以实现互动模型和互动模型之间模拟人类交谈，也可以实现互动模型和对象例如用户之间模拟人类交谈，具有较好的互动效果。其中，互动模型的风格和数量均可由用户设置，例如，两个互动模型，一个为幽默诙谐的风格，一个为正式严肃的风格，这两个互动模型可模拟电台主持人的形式输出互动数据，同时，对象也可随时加入其中进行互动。

其中，互动模型为对大语言模型训练得到的，一个风格可对应训练一个互动模型。互动模型是大语言模型的，这类模型的目标是生成最应该出现的下一个词汇。假设人类用来交流的语言中的词汇其实是现实世界的某种抽象，而词汇与词汇之间的联系则反映出了现实世界中这些对象本质上的关系，比如猫是一个动物，猫是一个宠物，那么就可以建立起动物可能是宠物，宠物可能是动物这些联系。对于大语言模型而言，如果它足够大参数足够多，那么就能将这些词汇抽象为神经网络内的一个包括了这个词汇所涉及的一切概念的状态向量，比如狗这个词汇对应的向量就包含了模型解码器能够解读的其和宠物和动物的联系。而同样是这个模型，如果它足够大参数足够多，那么就能够以最大概率预测这种自回归的方式按照人类能够理解的形式将词与词的组合按照上下文也就是提问的回答或者续写的方式输出给对象，实现对象交互。

在训练互动模型时，可以基于人类反馈的强化学习机制。例如，可以是通过初始互动模型对互动样本数据进行遮挡处理，并计算被遮挡的数据对应的预测概率；利用所述预测概率，更新所述初始互动模型对应的模型参数，得到中间互动模型；基于所述中间互动模型，生成所述互动样本数据对应的多个预测互动数据；使用奖励模型将每个所述预测互动数据映射为互动得分，所述互动得分与所述预测互动数据是否被输出相关；基于所述互动得分，对所述中间互动模型的模型参数进行更新处理，得到互动模型，所述互动模型用于执行对所述互动需求数据进行语义预测，得到互动数据的步骤，至基于所述需求变化数据的检测结果，输出所述互动数据和对象进行互动的步骤。

其中，上述过程也可以参阅图2b，示出了训练互动模型的示意图，人类反馈强化学习是一种将人类主观反馈作为奖励机制纳入强化学习算法以优化模型训练效果的一种方式，一般可分解为通过人类生成数据训练奖励模型，和用奖励模型给出的输出通过强化学习算法优化目标模型两步。

初始互动模型可以是语言模型，互动样本数据是指和对象互动相关的一些数据，可作为初始互动模型的训练数据。其中，初始互动模型同样包括输入层、注意力层和前馈层，在利用互动样本数据训练初始互动模型时，注意力层可以是transformer模型中的解码器，可对互动样本数据进行遮挡处理，再利用前馈层计算出被遮挡的数据对应的预测概率，也即，遮挡其中的部分数据，并以被遮挡的数据为监督信号，以此使得初始互动模型具备预测互动数据，并可和对象交互回答问题的能力。

该部分训练为无监督的预训练，互动样本数据是无标注的文本数据，可记为U，其中U={u₁，u₂，…，u_n}，训练初始互动模型时，可对其参数进行最大似然估计：

;

其中，k是上下文窗口的大小，P为条件概率；θ为条件概率的参数，参数更新采用随机梯度下降。给定u₁,u₂，…，u_k-1和初始互动模型，尝试去预测第k个词出现的概率。把这个过程重复，并将得到的概率的对数相加（取对数后概率本身就相乘，也就是联合概率），就可以得到第一个目标函数。

然后，为了使得其输出固定风格的互动数据，可以对其进行微调，假设携带标签的互动样本数据C的输入X是一个文本序列x¹，x²，…，x^m和标签y。其中，将文本序列x¹，x²，…，x^m输入transformer的解码器，得到最上层最后一个时刻的输出，将其通过softmax层（参数为W_y）进行分类，最后用交叉熵计算损失，从而根据有标签的互动样本数据调整transformer的解码器参数以及softmax的参数。这等价于最大似然估计：

；

表示预测输出时的参数，微调需要最大化以下函数：

。

正常来说，我们应该调整参数使得L₂(C)最大，但是为了提高训练速度和模型的泛化能力，在微调的时候也考虑预训练的损失函数，同时让它最大似然L₁(C)和L₂(C)，也即最终的损失函数为：

；

其中，为权重超参数，这里使用的L₁(C)还是之前语言模型的损失，但是使用的数据不是前面无监督的数据U，而是使用携带标签的样本数据，而且只使用其中的具体数据，而不需要标签。

也即，利用条件概率，即前述的预测概率，更新所述初始互动模型对应的模型参数，直到最终的损失函数最大化时，得到中间互动模型，这个中间互动模型，可以生成所述互动样本数据对应的多个风格化的预测互动数据。该部分对应图2b中的步骤1，图中省略了无监督训练的部分，也即若初始互动模型是已经具备语言生成的模型，则仅需在此基础上使用有监督训练微调。

然后可利用人工标注的数据训练出一个奖励模型，人工标注的数据可以是选择一个互动样本数据输入前述的中间互动模型，以生成多个预测互动数据，然后人工对其打分排序后，输入奖励模型。

这个奖励模型可为每个所述预测互动数据映射为互动得分，以对预测互动数据进行排序。由于有多个互动模型时，可以按照输出的时间顺序进行抢占式输出，则会出现一个模型在输出时输入中出现了别的模型或者人类角色的输入，也即类似人类交谈中的插话情况。为了适应这种情况，互动得分可以是所述预测互动数据是否被输出相关，也即在训练奖励模型时，奖励模型的损失函数和是否继续输出相关，其使用样本互动数据的标签表征不输出。

最后可基于奖励模型的互动得分，对所述中间互动模型的模型参数进行更新处理，得到互动模型，其中，互动得分越高，表明对应的输出更加符合期望。具体可以是基于互动得分对中间互动模型的输出进行排序，结合排序结果和强化学习算法优化中间互动模型，同时中间互动模型更新后，也需对应更新奖励模型，以便更好的敦促中间互动模型优化其表现，直到中间互动模型符合期望为止。

其中，强化学习算法可以是指近端策略优化（Proximal Policy Optimization，PPO）算法，PPO算法可初始化一个策略，使得中间互动模型可以按照该策略输出预测互动数据，然后由奖励模型对其打分，得到互动得分，PPO算法可基于奖励模型的互动得分，调整中间互动模型的生成输出的策略，直到其符合期望，得到互动模型。

本申请实施例提供的对象互动方案可以应用在前述各种场景中。比如，该对象互动方案可以表现为一个智能助理，且可以和其他多种应用程序结合使用或单独使用，具体可参见前述对应部分的描述。

通过本申请实施例提供的方法可以从服务端接收目标互动流程数据，利用目标互动流程数据生成互动需求数据；然后可对互动需求数据进行语义预测，以得到互动数据。由于目标互动流程数据可用于指导整个互动流程，由此，客户端可自主生成互动数据，无需依赖一问一答的模式。在预测互动数据的过程中，可检测需求变化数据，即检测是否被打断，基于对需求变化数据的检测结果，也即根据是否被打断可判定如何输出互动数据和对象进行互动，使得对象交互更加合理。并且客户端仅需依赖目标互动流程数据维持和对象交互，对算力的消耗较低，且不涉及复杂的数据处理，使得对象互动的时延较低。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以在车载场景中定制电台为例，对本申请实施例的方法进行详细说明。

如图3a所示，一种对象互动方法具体流程如下：

310、服务端从客户端接收互动需求数据。

320、服务端确定所述互动需求数据匹配的背景数据。

330、服务端将背景数据和所述互动需求数据输入专家模型，生成互动流程数据。

340、服务端将历史数据和互动流程数据输入清理模型，得到目标互动流程数据。

350、服务端将目标互动流程数据发送给客户端，客户端基于该目标互动流程数据生成互动需求数据。

360、客户端将互动需求数据输入互动模型，生成互动数据。

370、客户端在生成互动数据的过程中，检测需求变化数据，并基于对需求变化数据的检测结果，输出互动数据和对象进行互动。

上述310至370可参考前述实施例对应部分的描述，为了更加清楚地说明该对象互动方法的具体流程，可参阅图3b，示出了对象互动方法的整体框架示意图，下面将结合图3b进行详细说明。

其中，车载电台在启动时，可以由用户对电台进行定制，即用户可对电台的主题、风格、参与电台的虚拟对象的数量等进行设置，该部分数据可作为最初的互动需求数据由客户端发送至服务端。

例如，车辆中通常可以包括一显示器，可基于该显示器提供对电台的设置界面，为了实现更加个性化的电台定制，可以预先训练多个不同风格的互动模型并展示在设置界面中供用户选择。用户可根据需要设置虚拟对象的数量，该虚拟对象的数量即为互动模型的数量，并未每个互动模型选择对应的风格。

作为一种实施方式，为了提供风格更加丰富的互动模型，可提供一模型商店，在该模型商店中可售卖任意用户训练好的互动模型，用户可根据需要购买后添加进电台服务中使用。

服务端在接收到互动需求数据后，可从数据库、公共互联网中查询互动需求数据匹配的背景数据，也即和电台需要播放的内容相关的一些领域知识。进而，可将互动需求数据和背景数据一并输入预先训练好的专家模型中，得到互动流程数据，该互动流程数据类似于电台的台本，其可以包含三个部分的文本序列，对象配置文本、领域知识以及实时交互数据等。再将互动流程数据传递给后面的清理模型。

服务端的清理模型以互动流程数据和历史数据为输入，可将部分需要的历史数据添加至互动流程数据中，并删除互动流程数据中不需要的数据，得到目标互动数据，再将目标互动流程数据发送给客户端。

其中，历史数据是整个互动过程中，客户端和服务端在当前时刻之前生成的数据，为了实现较快的数据传输，服务端可为其生成的数据按照句子或段落等进行编号，在传输数据给客户端时，可将客户端已经有的数据用编号替代，以降低数据传输量，避免在网络不稳定的环境中传输大量的文本数据。其中，客户端生成的数据由客户端编号，编号均是唯一的，且客户端和服务端拥有相同的数据以及对应的数据编号。客户端在接收到目标互动流程数据后，可以捕获到车辆内的环境数据，若检测到环境数据，则可以将其和目标互动流程数据合并作为新的互动需求数据，再将互动需求数据输入至训练好的互动模型中，输出对应风格的互动数据。

此处需要说明的是，若互动模型为一个，在互动模型预测互动数据的过程中，若检测到用户说话，互动模型可选择继续输出或者不输出。若互动模型为两个，且这两个互动模型的风格不同，互动需求数据可同时输入这两个互动模型，这两个互动模型之间可互相打断。

例如，两个互动模型记为互动模型a和互动模型b，输入模型的互动需求数据为input，此时input可同时输入a和b，此时，输出为抢占式，比如，a先输出a1，则input就会变成input+a1。

当变成input+a1后，b可以选择继续输出其预测到的b1，也可以选择不输出其预测到的b1。比如，b选择不输出时，a输出后，b可以将input+a1作为输入，继续预测，然后，可继续判断是否输出其预测到的互动数据。也即类似于b插嘴a正在说的话。

可以理解的是，以电台的形式和对象互动时，输出的互动数据可以是语音，可根据互动模型在训练中所学习到的风格确定语音的音色和音调，实现更加生动合理地互动。

在和对象互动的过程中，若用户提出一些新的问题，这些问题可作为环境数据被检测到，和目标互动流程数据一并作为互动需求数据，并回传给的服务端，以便服务端可对其解答，最后由客户端输出。

由此，可以看出专家模型涉及对用户给出的某个主题的领域知识的搜寻，并生成互动流程数据，其涉及较多的专业知识，其算力要求和数据处理的复杂度均较高，而清理模型的输入数据量巨大，所需的算力也较大，可被部署在服务端。互动模型可直接利用目标互动流程数据生成互动数据和对象互动，也即该互动模型不需要解释程序或者了解专业知识，仅需维持互动即可，其算力需求较小，可实时运行，可被部署在客户端。并且由于用户提问，互动模型无法解答时，该部分内容可作为新的互动需求数据一并传给服务端，由服务端解答后传给客户端。该种部署方式，将涉及专业知识的网络请求放在了服务端，无需每个互动模型都去请求网络，可节约网络资源，既可在车端维持基本的互动，也可通过和服务端通信回答一些问题，可实现低延迟的互动。

并且，服务端是在接收到互动需求数据时才会执行后续步骤，也即服务端的执行频率和客户端是不一致的，客户端需要一直运行互动模型以维持交互，而服务端的专家模型和清理模型仅在接收到互动需求数据时触发运行，服务端中的模型的运行频率更低，在维持对象互动的情况下进一步节约了算力资源。

上述专家模型的输出可作为清理模型的输入，清理模型的输出可作为互动模型的输入，即模型集成是堆叠的方式，可以得到更加准确的预测结果，在处理复杂任务和数据集时，可以利用不同模型的优势，弥补单个模型的不足，从而提升整个互动的性能和效果。

由上可知，本申请实施例提供的对象互动方法，将整个对象互动的数据处理分给多个模型，且在服务端部署算力需求大、请求网络频率较高的模型，例如专家模型和清理模型，在客户端部署算力需求低，请求网络频率低的互动模型，以便维持实时的对象互动。对象互动可被定制，可自主持续生成互动数据，无需依赖一问一答的模式，在算力可控的情况下可实现本地低延迟的对象互动。

为了更好地实施以上方法，本申请实施例还提供一种对象互动装置，该对象互动装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以对象互动装置具体集成在服务器为例，对本申请实施例的方法进行详细说明。

例如，如图4a所示，该对象互动装置可以包括需求接收单元410、匹配单元420、语义融合单元430、调整单元440以及发送单元450，如下：

（一）需求接收单元410

用于从客户端接收互动需求数据。

（二）匹配单元420

用于确定所述互动需求数据匹配的背景数据。

（三）语义融合单元430

用于对所述背景数据和所述互动需求数据进行语义融合处理，生成互动流程数据。

在一些实施方式中，语义融合单元430具体可用于如下步骤：

拼接所述背景数据和所述互动需求数据，得到第一待处理数据；

对所述第一待处理数据进行编码处理，得到第一向量，所述第一向量包括所述背景数据对应的背景向量以及所述互动需求数据对应的互动需求向量；

基于第一转换矩阵，对所述背景向量和所述互动需求向量进行语义融合，得到融合语义向量；

利用所述融合语义向量，生成多个第一预测数据对应的概率分布；

根据所述第一预测数据对应的概率分布，生成互动流程数据。

（四）调整单元440

用于利用历史数据调整所述互动流程数据，得到目标互动流程数据，所述历史数据为所述服务端和所述客户端在当前时刻之前生成的数据。

在一些实施方式中，调整单元440具体可用于如下步骤：

拼接所述历史数据和所述互动流程数据，得到第二待处理数据；

将所述第二待处理数据转换为第二向量；

基于第二转换矩阵，对所述第二向量进行注意力计算，得到注意力向量；

利用所述注意力向量，生成多个第二预测数据对应的概率分布；

根据所述第二预测数据对应的概率分布，更新所述互动流程数据，以得到所述目标互动流程数据。

（五）发送单元450

用于向所述客户端发送所述目标互动流程数据，以便所述客户端利用所述目标互动流程数据生成互动数据，和对象进行互动。

在一些实施方式中，发送单元450具体可用于如下步骤：

按照预设单元，将所述目标互动流程数据划分为多个子互动流程数据；

对每个所述子互动流程数据进行编号处理，得到每个所述子互动流程数据对应的数据编号；

以所述子互动流程数据对应的数据编号，对所述目标互动流程数据进行更新，得到待发送互动流程数据；

向客户端发送所述待发送互动流程数据。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例部署在服务端的对象互动装置可以对背景数据和互动需求数据进行语义融合，生成互动流程数据；并利用历史数据对互动流程数据进行调整，得到更加符合互动情况的目标互动流程数据，可避免不必要数据流向下一个环节，进而可降低后续互动时的数据处理量，提升互动效率。

比如，在本实施例中，将以对象互动装置具体集成在终端为例，对本申请实施例的方法进行详细说明。

例如，如图4b所示，该对象互动装置可以包括流程数据接收单元510、需求生成单元520、预测单元530、检测单元540以及互动单元550，如下：

（一）流程数据接收单元510

用于从服务端接收目标互动流程数据。

（二）需求生成单元520

用于基于所述目标互动流程数据，生成互动需求数据。

在一些实施方式中，需求生成单元520具体可以用于如下步骤：

按照第一间隔检测环境数据；

若检测到所述环境数据，融合所述环境数据和所述目标互动流程数据，得到互动需求数据，并向所述服务端发送所述互动需求数据；

若未检测到所述环境数据，将所述目标互动流程数据作为所述互动需求数据，并按照第二间隔向服务端发送所述互动需求数据。

（三）预测单元530

用于对所述互动需求数据进行语义预测，得到互动数据。

在一些实施方式中，预测单元530具体可以用于如下步骤：

对所述互动需求数据进行编码处理，得到需求向量；

基于预设转换矩阵和所述需求向量，对所述互动需求数据进行语义提取，得到需求语义向量；

利用所述需求语义向量，生成候选互动数据对应的概率分布；

根据所述候选互动数据对应的概率分布，生成互动数据。

（四）检测单元540

用于在预测所述互动数据的过程中，检测需求变化数据，所述需求变化数据为所述互动需求数据被更新后得到的数据。

（五）互动单元550

用于基于所述需求变化数据的检测结果，输出所述互动数据和对象进行互动。

在一些实施方式中，互动单元550具体可以用于如下步骤：

若在预测所述互动数据的过程中，未检测到所述需求变化数据，输出所述互动数据和对象进行互动；

若在预测所述互动数据的过程中，检测到所述需求变化数据，根据所述需求变化数据，输出所述互动数据和对象进行互动。

在一些实施方式中，步骤根据所述需求变化数据，输出所述互动数据和对象进行互动，可以包括如下步骤：

检测所述需求变化数据的语义信息；

若所述语义信息满足预设条件，输出所述互动数据和对象进行互动；

若所述语义信息不满足预设条件，利用所述需求变化数据迭代所述互动数据。

在一些实施例中，对象互动装置还可以包括训练单元，用于：

通过初始互动模型对互动样本数据进行遮挡处理，并计算被遮挡的数据对应的预测概率；

利用所述预测概率，更新所述初始互动模型对应的模型参数，得到中间互动模型；

基于所述中间互动模型，生成所述互动样本数据对应的多个预测互动数据；

使用奖励模型将每个所述预测互动数据映射为互动得分，所述互动得分与所述预测互动数据是否被输出相关；

基于所述互动得分，对所述中间互动模型的模型参数进行更新处理，得到目标互动模型，所述目标互动模型用于执行对所述互动需求数据进行语义预测，得到互动数据的步骤，至基于所述需求变化数据的检测结果，输出所述互动数据和对象进行互动的步骤。

由上可知，本申请实施例部署在客户端的对象互动装置，可以基于目标互动流程数据，自主生成互动数据，无需依赖一问一答的模式，在预测互动数据的过程中，可检测需求变化数据，即检测是否被打断，基于对需求变化数据的检测结果，也即根据是否被打断可判定如何输出互动数据和对象进行互动，使得对象交互更加合理。并且客户端仅需依赖目标互动流程数据维持和对象交互，对算力的消耗较低，且不涉及复杂的数据处理，使得对象互动的时延较低。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

如图5所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器610、一个或一个以上计算机可读存储介质的存储器620、电源630、输入模块640以及通信模块650等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器610是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监测。在一些实施例中，处理器610可包括一个或多个处理核心；在一些实施例中，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

存储器620可用于存储软件程序以及模块，处理器610通过运行存储在存储器620的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器620还可以包括存储器控制器，以提供处理器610对存储器620的访问。

电子设备还包括给各个部件供电的电源630，在一些实施例中，电源630可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源630还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入模块640，该输入模块640可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可包括通信模块650，在一些实施例中通信模块650可以包括无线模块，电子设备可以通过该通信模块650的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块650可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器610会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器620中，并由处理器610来运行存储在存储器620中的应用程序，从而实现各种功能，如下：

从客户端接收互动需求数据；

确定所述互动需求数据匹配的背景数据；

或者，实现如下功能：

从服务端接收目标互动流程数据；

基于所述目标互动流程数据，生成互动需求数据；

对所述互动需求数据进行语义预测，得到互动数据；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例可以将整个对象互动的数据处理分给多个模型，且在服务端部署算力需求大、请求网络频率较高的处理流程，在客户端部署算力需求低，请求网络频率低的处理流程，以便维持实时的对象互动。对象互动可被定制，可自主持续生成互动数据，无需依赖一问一答的模式，在算力可控的情况下可实现本地低延迟的对象互动。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种对象互动方法中的步骤。例如，该指令可以执行如下步骤：

从客户端接收互动需求数据；

确定所述互动需求数据匹配的背景数据；

或者，执行如下步骤：

从服务端接收目标互动流程数据；

基于所述目标互动流程数据，生成互动需求数据；

对所述互动需求数据进行语义预测，得到互动数据；

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例中提供的对象互动方面或者模型训练方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种对象互动方法中的步骤，因此，可以实现本申请实施例所提供的任一种对象互动方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种对象互动方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种对象互动方法，其特征在于，应用于服务端，所述方法包括：

从客户端接收互动需求数据；

确定所述互动需求数据匹配的背景数据；

向所述客户端发送所述目标互动流程数据，以便所述客户端利用目标互动模型以及所述目标互动流程数据生成互动数据，和对象进行互动；

其中，训练所述目标互动模型包括：

基于所述互动得分，对所述中间互动模型的模型参数进行更新处理，得到所述目标互动模型。

2.根据权利要求1所述的方法，其特征在于，所述对所述背景数据和所述互动需求数据进行语义融合处理，生成互动流程数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用历史数据调整所述互动流程数据，得到目标互动流程数据，包括：

将所述第二待处理数据转换为第二向量；

4.根据权利要求1所述的方法，其特征在于，所述向所述客户端发送所述目标互动流程数据，包括：

向客户端发送所述待发送互动流程数据。

5.一种对象互动方法，其特征在于，应用于客户端，所述方法包括：

从服务端接收目标互动流程数据；

基于所述目标互动流程数据，生成互动需求数据；

基于目标互动模型对所述互动需求数据进行语义预测，得到互动数据；

在预测所述互动数据的过程中，基于所述目标互动模型检测需求变化数据，所述需求变化数据为所述互动需求数据被更新后得到的数据；

基于所述需求变化数据的检测结果，所述目标互动模型输出所述互动数据和对象进行互动；

其中，训练所述目标互动模型包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述互动需求数据进行语义预测，得到互动数据，包括：

对所述互动需求数据进行编码处理，得到需求向量；

根据所述候选互动数据对应的概率分布，生成互动数据。

7.根据权利要求5所述的方法，其特征在于，所述基于所述需求变化数据的检测结果，输出所述互动数据和对象进行互动，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述需求变化数据，输出所述互动数据和对象进行互动，包括：

检测所述需求变化数据的语义信息；

9.根据权利要求5所述的方法，其特征在于，所述基于所述目标互动流程数据，生成互动需求数据，包括：

按照第一间隔检测环境数据；

10.一种对象互动装置，其特征在于，应用于服务端，所述装置包括：

需求接收单元，用于从客户端接收互动需求数据；

匹配单元，用于确定所述互动需求数据匹配的背景数据；

发送单元，用于向所述客户端发送所述目标互动流程数据，以便所述客户端利用目标互动模型以及所述目标互动流程数据生成互动数据，和对象进行互动；

其中，训练所述目标互动模型包括：

11.一种对象互动装置，其特征在于，应用于客户端，所述装置包括：

流程数据接收单元，用于从服务端接收目标互动流程数据；

预测单元，用于基于目标互动模型对所述互动需求数据进行语义预测，得到互动数据；

检测单元，用于在预测所述互动数据的过程中，基于所述目标互动模型检测需求变化数据，所述需求变化数据为所述互动需求数据被更新后得到的数据；

互动单元，用于基于所述需求变化数据的检测结果，所述目标互动模型输出所述互动数据和对象进行互动；

其中，训练所述目标互动模型包括：

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1~9任一项所述的对象互动方法中的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1~9任一项所述的对象互动方法中的步骤。