CN116628153B

CN116628153B - 一种人工智能设备对话的控制方法、装置、设备及介质

Info

Publication number: CN116628153B
Application number: CN202310526411.3A
Authority: CN
Inventors: 高德政; 顾宝宝; 尹顺顺; 张璐; 陶明
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2024-03-15
Anticipated expiration: 2043-05-10
Also published as: CN116628153A

Abstract

本申请公开了一种人工智能设备对话的控制方法、装置、设备及介质，涉及人工智能领域。该方法包括：获取用户画像的信息；将用户画像的信息输入至预先建立的对话生成模型中；从得到用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过对话生成模型输出与用户画像的信息相对应的对话内容至用户，以便于通过对话内容主动触及与用户的对话。可见，该方法中，在当前的时间满足预设要求的情况下，通过用户画像的信息生成对话内容主动触及与用户的对话，实现了人工智能设备与用户对话的主动性；此外，由于用户画像的信息至少包括姓名、年龄、用户发帖的信息，因此，人工智能设备与用户的对话更精准、更具有个性化。

Description

一种人工智能设备对话的控制方法、装置、设备及介质

技术领域

本申请涉及人工智能领域，特别是涉及一种人工智能设备对话的控制方法、装置、设备及介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的发展，人工智能设备与用户的对话越来越多。在已有的人工智能设备与用户的智能对话中，只有在用户向人工智能设备发出消息后，人工智能设备才能给出对应的回复，即人工智能设备只会被动回复作答；同时，由于目前人工智能设备在对话过程中，往往依赖预定义的回复模板，导致生成的回复的内容缺乏个性化，降低用户对话体验。

由此可见，如何提高人工智能设备对话的主动性以及个性化，从而提升用户对话体验是本领域人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种人工智能设备对话的控制方法、装置、设备及介质，用于提高人工智能设备对话的主动性以及个性化，从而提升用户对话体验。

为解决上述技术问题，本申请提供一种人工智能设备对话的控制方法，应用于人工智能设备端，所述控制方法包括：

获取用户画像的信息；其中，所述用户画像的信息至少包括姓名、年龄、用户发帖的信息；

将所述用户画像的信息输入至预先建立的对话生成模型中；

从得到所述用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过所述对话生成模型输出与所述用户画像的信息相对应的对话内容至用户，以便于通过所述对话内容主动触及与所述用户的对话。

优选地，所述对话生成模型包括对话场景体系模型和/或多模态生成模型；其中，所述对话场景体系模型根据历史用户画像的信息中的用户属性画像的信息建立；所述多模态生成模型根据所述历史用户画像的信息中的用户行为画像的信息建立。

优选地，在所述通过所述对话生成模型输出与所述用户画像的信息相对应的对话内容至用户之后，还包括：

在接收到所述用户的对话的情况下，将所述用户画像的信息输入至预先建立的基于Prompt的生成模型中；其中，所述基于Prompt的生成模型根据所述历史用户画像的信息中的用户属性画像的信息建立；

通过所述基于Prompt的生成模型输出与所述用户画像的信息相对应的所述对话内容至所述用户。

优选地，建立所述对话场景体系模型包括：

获取不同等级的对话场景；

根据所述历史用户画像的信息中的用户属性画像的信息对各所述对话场景配置多条用于触及所述用户的所述对话内容以形成所述对话场景体系模型；

对应地，通过预先建立的所述对话场景体系模型输出与所述用户画像的信息相对应的所述对话内容至所述用户包括：

根据所述历史用户画像的信息中的用户属性画像的信息从预先建立的所述对话场景体系模型中提取与所述用户画像的信息相匹配的N条所述对话内容；

获取当前主动触及用户的频次；

在所述当前主动触及用户的频次小于或等于阈值的情况下，从N条所述对话内容中随机输出一条所述对话内容，并输出所述对话内容至所述用户。

优选地，训练所述多模态生成模型包括：

获取预设时长内所述用户发出的帖子的内容、各所述帖子对应的评论数据、发出所述帖子的用户的属性信息、评论所述帖子的用户的属性信息；其中，所述帖子的内容中至少包括文本数据和图片数据之一；

在所述帖子的内容包含所述文本数据和所述图片数据的情况下，将所述帖子中的所述图片数据进行编码后获取图片编码token；将所述图片编码token、所述发出帖子的用户的属性信息、所述文本数据、所述评论数据token输入至所述多模态生成模型中进行训练；

在所述帖子的内容包含所述文本数据的情况下，将所述发出帖子的用户的属性信息、所述文本数据、所述评论数据token输入至所述多模态生成模型中进行训练；

对应地，通过预先建立的所述多模态生成模型输出与所述用户画像的信息相对应的所述对话内容至所述用户包括：

在所述帖子通过系统的安全审核以及大众可见的情况下，获取当前主动触及用户的频次；

在所述当前主动触及用户的频次小于或等于阈值的情况下，通过预先建立的所述多模态生成模型输出与所述用户画像的信息相对应的所述对话内容至所述用户。

优选地，在所述将所述帖子中的所述图片数据进行编码后获取图片编码token或在所述将所述发出帖子的用户的属性信息、所述文本数据、所述评论数据token输入至所述多模态生成模型中进行训练之前，还包括：

对所述用户发出的所述帖子的内容进行数据清洗并获取清洗后的文本数据和清洗后的图片数据；

将所述清洗后的文本数据按照所述多模态生成模型的大小进行截取，并获取截取后的文本数据；

将所述清洗后的图片数据按照每个所述帖子对应预设数量的图片数据进行处理并获取处理后的图片数据；

从所述截取后的文本数据、所述处理后的图片数据中筛选满足第一预设要求的目标文本数据和目标图片数据；

对应地，所述将所述帖子中的所述图片数据进行编码后获取图片编码token，将所述图片编码token、所述发出帖子的用户的属性信息、所述文本数据、所述评论数据token输入至所述多模态生成模型中进行训练包括：

将所述帖子中的所述目标图片数据进行编码后获取所述目标图片编码token，将所述目标图片编码token、所述发出帖子的用户的属性信息、所述目标文本数据、所述评论数据token输入至所述多模态生成模型中进行训练；

所述将所述发出帖子的用户的属性信息、所述文本数据、所述评论数据token输入至所述多模态生成模型中进行训练包括：

将所述发出帖子的用户的属性信息、所述目标文本数据、所述评论数据token输入至所述多模态生成模型中进行训练。

优选地，还包括：

在所述多模态生成模型的训练过程中，控制所述评论数据token参与所述多模态生成模型的模型损失计算以及控制所述用户发出的帖子的内容不参与所述多模态生成模型的所述模型损失计算。

为了解决上述技术问题，本申请还提供一种人工智能设备对话的控制装置，应用于人工智能设备端，所述控制装置包括：

获取模块，用于获取用户画像的信息；其中，所述用户画像的信息至少包括姓名、年龄、用户发帖的信息；

输入模块，用于将所述用户画像的信息输入至预先建立的对话生成模型中；

输出模块，用于从得到所述用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过所述对话生成模型输出与所述用户画像的信息相对应的对话内容至用户，以便于通过所述对话内容主动触及与所述用户的对话。

为了解决上述技术问题，本申请还提供一种人工智能设备对话的控制设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述的人工智能设备对话的控制方法的步骤。

为了解决上述技术问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的人工智能设备对话的控制方法的步骤。

本申请所提供的一种人工智能设备对话的控制方法，应用于人工智能设备端，该方法包括：获取用户画像的信息；将用户画像的信息输入至预先建立的对话生成模型中；从得到用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过对话生成模型输出与用户画像的信息相对应的对话内容至用户，以便于通过对话内容主动触及与用户的对话。可见，该方法中，在当前的时间满足预设要求的情况下，通过用户画像的信息生成对话内容主动触及与用户的对话，实现了人工智能设备与用户对话的主动性；并且，相比于之前的人工智能设备依赖预定义的回复模板进行回复的方法，本申请提供的方法中，由于用户画像的信息至少包括姓名、年龄、用户发帖的信息，因此，根据用户画像的信息生成对话内容的方式，使得人工智能设备与用户的对话更精准、更具有个性化。

此外，本申请还提供一种人工智能设备对话的控制装置、人工智能设备对话的控制设备以及计算机可读存储介质，与上述提到的人工智能设备对话的控制方法具有相同或相对应的技术特征，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用于人工智能设备端的人工智能设备对话的控制方法的流程图；

图2为本申请实施例提供的一种主动对话场景体系的示意图；

图3为本申请实施例提供的一种多模态结合方式的示意图；

图4为本申请实施例提供的一种使用多模态生成模型生成主动触及用户的对话内容的方法的流程图；

图5为本申请的一实施例提供的人工智能设备对话的控制装置的结构图；

图6为本申请另一实施例提供的人工智能设备对话的控制设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种人工智能设备对话的控制方法、装置、设备及介质，用于提高人工智能设备对话的主动性以及个性化，从而提升用户对话体验。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。图1为本申请实施例提供的一种应用于人工智能设备端的人工智能设备对话的控制方法的流程图，如图1所示，该控制方法包括：

S10：获取用户画像的信息；

S11：将用户画像的信息输入至预先建立的对话生成模型中；

S12：从得到用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过对话生成模型输出与用户画像的信息相对应的对话内容至用户，以便于通过对话内容主动触及与用户的对话。

为了使生成的对话的内容更具有个性化，本申请实施例中，首先获取用户画像的信息。用户画像是对用户的基本属性、行为、兴趣等信息进行描述和分析的结果，具体地，用户画像的信息包含用户属性画像的信息以及用户行为画像的信息，用户属性画像的信息至少包括姓名、年龄；用户行为画像的信息至少包括用户发帖的信息。对于收集的用户画像的信息不作限定，在实施中，为了能够生成更加准确、更加个性化的对话内容，可以采集较多的用户画像的信息。如采集的用户画像的信息中的用户属性画像的信息中除了包含姓名、年龄，还可以包括性别、家乡、地址、情感状态等。

在获取到用户画像的信息后将用户画像的信息输入至预先建立的对话生成模型中。对于具体的对话生成模型不作限定，只要能生成对话内容即可。由于用户画像的信息中包含用户属性画像的信息以及用户行为画像的信息，因此，优选的实施方式是，对话生成模型包括对话场景体系模型和/或多模态生成模型；其中，对话场景体系模型根据历史用户画像的信息中的用户属性画像的信息建立；多模态生成模型根据历史用户画像的信息中的用户行为画像的信息建立。在将用户画像的信息输入至预先建立的对话生成模型后即可生成个性化的对话内容。需要说明的是，历史用户画像的信息是用于对模型进行训练。在获取到用户画像的信息后，对用户画像的信息进行判断，若用户画像的信息中只包含用户属性画像的信息，则使用对话场景体系模型生成与用户画像的信息相对应的对话内容；若用户画像的信息中只包含用户行为画像的信息，则使用多模态生成模型生成与用户画像的信息相对应的对话内容；若用户画像的信息中既包含用户属性画像的信息，也包含用户行为画像的信息，则可以分别使用对话场景体系模型和多模态生成模型生成与用户画像的信息相对应的对话内容。

在目前的人工智能设备与用户对话的过程中，人工智能设备只会对用户发出的对话做出答复，并不会主动触及用户进行答复，使得人工智能设备对话缺乏主动性以及降低用户与人工智能设备对话的体验感。因此，本实施例中，在人工智能设备得到用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过对话生成模型输出与用户画像的信息相对应的对话内容至用户。需要说明的是，此处的预设要求指的是在人工智能设备得到用户画像的信息开始后，当前的时间内没有接收到用户的对话；或者是当前时间内人工智能设备虽然接收到用户的对话(可以是一轮或多轮对话)后，对话中断，此时可以通过对话生成模型生成的对话内容主动触及与用户的对话。实际中，若频繁触发主动与用户的对话，则可能会降低用户与人工智能设备对话的体验感，故而，实际中，可以根据主动触及用户的次数确定是否继续与用户进行主动对话。

本实施例提供人工智能设备对话的控制方法，应用于人工智能设备端，该方法包括：获取用户画像的信息；将用户画像的信息输入至预先建立的对话生成模型中；从得到用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过对话生成模型输出与用户画像的信息相对应的对话内容至用户，以便于通过对话内容主动触及与用户的对话。可见，该方法中，在当前的时间满足预设要求的情况下，根据用户画像的信息生成对话内容主动触及与用户的对话，实现了人工智能设备与用户对话的主动性；并且，相比于之前的人工智能设备依赖预定义的回复模板进行回复的方法，本申请提供的方法中，由于用户画像的信息至少包括姓名、年龄、用户发帖的信息，因此，根据用户画像的信息生成对话内容的方式，使得人工智能设备与用户的对话更精准、更具有个性化。

上述实施例中通过对话生成模型输出的对话内容主动触及与用户的对话。在触及与用户的对话后，为了使人工智能设备与用户的对话更丰富、更具有个性化，在实施中，优选的实施方式是，在通过对话生成模型输出与用户画像的信息相对应的对话内容至用户之后，还包括：

在接收到用户的对话的情况下，将用户画像的信息输入至预先建立的基于Prompt的生成模型中；其中，基于Prompt的生成模型根据历史用户画像的信息中的用户属性画像的信息建立；

通过基于Prompt的生成模型输出与用户画像的信息相对应的对话内容至用户。

在做基于Prompt的生成模型的模型受控时，本申请实施例中添加受控特征通过token feature方式实现。通过token feature方式实现添加受控特征的后形成的内容如下：“时间：空[SPEAKER1]性别：空，年龄：空，属性：空[SEP]空[SEP]，长度：空[SPEAKER2]性别：男，年龄：空，属性：空[SEP]空[SEP]，长度：短[START][SPEAKER1]你很厉害哎[SYS]很不一样对吧……”。其中，在[START]之前的内容为token feature，在[START]之后的内容为对话内容。feature token和对话内容token拼接在一起放入到模型中，在训练阶段，featuretoken不参与模型loss计算，通过loss mask消除影响；这样添加feature方式可以保持模型预训练和finetune一致性，并且后续feature扩展处理方式相对统一。

用户画像相关属性、内容/长度可以归属于会话和用户维度的feature受控，各种feature token和文本token组装在一起放入到模型中完成finetune训练。

在infer阶段，用户画像各属性特征可根据指令的方式传递给模型即可达到受控效果。

本实施例提供的方法中，基于Prompt技术的自然语言生成，使用Prompt技术来构建生成模型，该技术提供特定的输入来引导模型生成符合特定需求的输出，这为对话系统提供了更高效、更灵活的生成方式；在正常对话过程中，用户固有属性信息，例如性别、年龄、家乡、情感状态等，通过Prompt技术处理成特定的feature token信息与对话内容文本token一起输入到生成模型，输出符合该用户的个性化回复内容进行回复，提高了对话精确度以及个性化。

为了主动触及与用户的对话，本实施例中采用预先建立的对话场景体系模型生成对话内容，在建立对话场景体系模型时，优选的实施方式是，建立对话场景体系模型包括：

获取不同等级的对话场景；

根据历史用户画像的信息中的用户属性画像的信息对各对话场景配置多条用于触及用户的对话内容以形成对话场景体系模型；

对应地，通过预先建立的对话场景体系模型输出与用户画像的信息相对应的对话内容至用户包括：

根据历史用户画像的信息中的用户属性画像的信息从预先建立的对话场景体系模型中提取与用户画像的信息相匹配的N条对话内容；

获取当前主动触及用户的频次；

在当前主动触及用户的频次小于或等于阈值的情况下，从N条对话内容中随机输出一条对话内容，并输出对话内容至用户。

基于用户公开或脱敏数据挖掘获取到用户的画像特征，根据该特征映射到专有的对话场景体系中，并从该体系中提取出符合条件的N条开场白招呼语，在符合固有频率控制的前提下，随机1条招呼语通过主动触及的方式发送给用户，进而为用户提供更加精准和主动的对话服务。其中，挖掘的用户画像特征主要包括：性别、所在城市、职业、爱好、特长等。

图2为本申请实施例提供的一种主动对话场景体系的示意图。主动对话场景体系中主要包括6大一级场景，如图2中的用户特长、用户爱好、用户职业、节日、天气、日常，86个二级场景，如晴天、大风天、天气炎热等，每个细分场景下均配置有特定挖掘的近百条可用开场白招呼语。表1为部分主动对话场景体系对应的开场白招呼语。

表1部分主动对话场景体系对应的开场白招呼语

一级场景	二级场景	适用性别	开场白招呼语
				城市天气	大风天	通用	大风天风到底有多大？
城市天气	大风天	通用	今天这风刮得动你吗？
				日常场景	午饭相关	女	小姐姐，中午饭自己做的吗？
日常场景	午饭相关	男	小哥哥，今天中午吃什么菜呀？
				日常场景	工作日晚上	通用	晚上都忙什么了？
日常场景	工作日晚上	通用	晚上出去玩了吗？

针对同一个用户，人工智能设备主动触及发送消息功能具有专门的频控控制机制，以防止对用户造成过度打扰：同一用户在N天内只会被人工智能设备主动触及一次。

本实施例提供的方法中，基于用户属性画像特征建立的对话场景体系模型，能够为用户提供更加精准和主动的对话服务。

上述实施例中基于用户属性画像特征建立的对话场景体系模型生成主动触及用户的对话内容，本实施例中还提供基于用户行为画像的特征的多模态生成模型生成主动触及用户的对话内容，在实施中，训练多模态生成模型包括：

获取预设时长内用户发出的帖子的内容、各帖子对应的评论数据、发出帖子的用户的属性信息、评论帖子的用户的属性信息；其中，帖子的内容中至少包括文本数据和图片数据之一；

在帖子的内容包含文本数据和图片数据的情况下，将帖子中的图片数据进行编码后获取图片编码token；将图片编码token、发出帖子的用户的属性信息、文本数据、评论数据token输入至多模态生成模型中进行训练；

在帖子的内容包含文本数据的情况下，将发出帖子的用户的属性信息、文本数据、评论数据token输入至多模态生成模型中进行训练；

对应地，通过预先建立的多模态生成模型输出与用户画像的信息相对应的对话内容至用户包括：

在帖子通过系统的安全审核以及大众可见的情况下，获取当前主动触及用户的频次；

在当前主动触及用户的频次小于或等于阈值的情况下，通过预先建立的多模态生成模型输出与用户画像的信息相对应的对话内容至用户。

在将帖子中的图片数据进行编码后获取图片编码token或在将发出帖子的用户的属性信息、文本数据、评论数据token输入至多模态生成模型中进行训练之前，还包括：

对用户发出的帖子的内容进行数据清洗并获取清洗后的文本数据和清洗后的图片数据；

将清洗后的文本数据按照多模态生成模型的大小进行截取，并获取截取后的文本数据；

将清洗后的图片数据按照每个帖子对应预设数量的图片数据进行处理并获取处理后的图片数据；

从截取后的文本数据、处理后的图片数据中筛选满足第一预设要求的目标文本数据和目标图片数据；

对应地，将帖子中的图片数据进行编码后获取图片编码token，将图片编码token、发出帖子的用户的属性信息、文本数据、评论数据token输入至多模态生成模型中进行训练包括：

将帖子中的目标图片数据进行编码后获取目标图片编码token，将目标图片编码token、发出帖子的用户的属性信息、目标文本数据、评论数据token输入至多模态生成模型中进行训练；

将发出帖子的用户的属性信息、文本数据、评论数据token输入至多模态生成模型中进行训练包括：

将发出帖子的用户的属性信息、目标文本数据、评论数据token输入至多模态生成模型中进行训练。

在多模态生成模型的训练过程中，控制评论数据token参与多模态生成模型的模型损失计算以及控制用户发出的帖子的内容不参与多模态生成模型的模型损失计算。

用户行为主要是指用户在软件内的发帖或评论行为，基于此行为人工智能设备使用多模态生成模型自主生成评论消息进行用户主动触及，与用户进行主动互动。下面结合具体的实施例说明根据用户行为画像建立的多模态生成模型的构建以及训练过程。

(一)、数据处理与构建

1、在平台上拉取脱敏后的全年发帖及对应的评论数据(文本和图片类型数据)，对异常数据进行清洗；

2、对清洗完的文本数据按照模型最大长度(512/1024)进行截取，图片数据按照每个发帖最多对应4张图片处理，若不足4张图片，则使用空白默认图片补充，若超过4张图片，则随机选择4张图片放入训练数据中；

3、将训练数据过审核模型，并设定违规的阈值，清洗违规的数据，提升数据安全性；

4、将训练数据分别打上对应的发帖用户属性特征及评论用户属性特征，譬如发帖人性别、年龄、发帖时间、发帖人所在城市；评论人性别、年龄、评论人时间等；

5、通过兴趣实体模型识别或者关键词库匹配或无效数据过滤等手段，扩充高质内容数据占比。

(二)、多模态生成模型的训练

采用的多模态生成模型可以是GPT3，视觉转换器(Vision Transformer，ViT)模型。本实施例中采用的多模态生成模型为ViT模型。

图3为本申请实施例提供的一种多模态结合方式的示意图。如图3所示，模型在训练时，图片编码token和发帖及评论文本token拼接在一起放入到模型中，在训练阶段，图片编码token不参与模型loss计算，通过loss mask消除影响。在使用多模态生成模型生成对话内容时，concat拼接，用户发帖中的图片信息经过ViT模型编码后当做唯一token，通过concat拼接的方式将其放在发帖的文本信息编码前面，作为整体模型的输入，模型的输出则为该发帖对应的评论文本信息。

图4为本申请实施例提供的一种使用多模态生成模型生成主动触及用户的对话内容的方法的流程图。如图4所示，该方法包括：

S13：获取用户发帖内容；

S14：系统对发帖内容进行审核；

S15：判断审核是否通过且可见；若是，则进入步骤S16；若否，则结束；

S16：获取主动触及用户的频次；

S17：判断主动触及用户的频次是否满足条件；若是，则进入步骤S18；若否，则结束；

S18：调用多模态生成模型进行评论回复生成，并将生成的评论推送给用户；

S19：更新主动触及用户的次数。

本实施例提供的方法中，基于用户行为画像特征建立的对话生成模型，能够为用户提供更加精准和主动的对话服务。

在上述实施例中，对于人工智能设备对话的控制方法进行了详细描述，本申请还提供人工智能设备对话的控制装置、人工智能设备对话的控制设备对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件的角度。

图5为本申请的一实施例提供的人工智能设备对话的控制装置的结构图。本实施例基于功能模块的角度，该控制装置包括：

获取模块10，用于获取用户画像的信息；其中，用户画像的信息至少包括姓名、年龄、用户发帖的信息；

输入模块11，用于将用户画像的信息输入至预先建立的对话生成模型中；

输出模块12，用于从得到用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过对话生成模型输出与用户画像的信息相对应的对话内容至用户，以便于通过对话内容主动触及与用户的对话。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。并且具有与上述提到的人工智能设备对话的控制方法相同的有益效果。

图6为本申请另一实施例提供的人工智能设备对话的控制设备的结构图。本实施例基于硬件角度，如图6所示，人工智能设备对话的控制设备包括：

存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例中所提到的人工智能设备对话的控制方法的步骤。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以集成有GPU，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的人工智能设备对话的控制方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于上述所提到的人工智能设备对话的控制方法所涉及到的数据等。

在一些实施例中，人工智能设备对话的控制设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图6中示出的结构并不构成对人工智能设备对话的控制设备的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的人工智能设备对话的控制设备，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：人工智能设备对话的控制方法，效果同上。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请提供的计算机可读存储介质包括上述提到的人工智能设备对话的控制方法，效果同上。

以上对本申请所提供的一种人工智能设备对话的控制方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种人工智能设备对话的控制方法，其特征在于，应用于人工智能设备端，所述控制方法包括：

将所述用户画像的信息输入至预先建立的对话生成模型中；

从得到所述用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过所述对话生成模型输出与所述用户画像的信息相对应的对话内容至用户，以便于通过所述对话内容主动触及与所述用户的对话；

所述对话生成模型包括对话场景体系模型和/或多模态生成模型；

其中，所述对话场景体系模型根据历史用户画像的信息中的用户属性画像的信息建立；所述多模态生成模型根据所述历史用户画像的信息中的用户行为画像的信息建立；

建立所述对话场景体系模型包括：

获取不同等级的对话场景；

获取当前主动触及用户的频次；

在所述当前主动触及用户的频次小于或等于阈值的情况下，从N条所述对话内容中随机输出一条所述对话内容，并输出所述对话内容至所述用户；

训练所述多模态生成模型包括：

2.根据权利要求1所述的人工智能设备对话的控制方法，其特征在于，在所述通过所述对话生成模型输出与所述用户画像的信息相对应的对话内容至用户之后，还包括：

3.根据权利要求1所述的人工智能设备对话的控制方法，其特征在于，在所述将所述帖子中的所述图片数据进行编码后获取图片编码token或在所述将所述发出帖子的用户的属性信息、所述文本数据、所述评论数据token输入至所述多模态生成模型中进行训练之前，还包括：

将所述帖子中的所述目标图片数据进行编码后获取目标图片编码token，将所述目标图片编码token、所述发出帖子的用户的属性信息、所述目标文本数据、所述评论数据token输入至所述多模态生成模型中进行训练；

4.根据权利要求3所述的人工智能设备对话的控制方法，其特征在于，还包括：

5.一种人工智能设备对话的控制装置，其特征在于，应用于人工智能设备端，所述控制装置包括：

输出模块，用于从得到所述用户画像的信息开始后，在当前的时间满足预设要求的情况下，通过所述对话生成模型输出与所述用户画像的信息相对应的对话内容至用户，以便于通过所述对话内容主动触及与所述用户的对话；

建立所述对话场景体系模型包括：

获取不同等级的对话场景；

获取当前主动触及用户的频次；

训练所述多模态生成模型包括：

6.一种人工智能设备对话的控制设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的人工智能设备对话的控制方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的人工智能设备对话的控制方法的步骤。