CN115544237A

CN115544237A - 基于直播场景的对话数据集构建方法及装置

Info

Publication number: CN115544237A
Application number: CN202211534448.2A
Authority: CN
Inventors: 高景盛; 连怡鑫; 王宝元
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2022-12-30

Abstract

本发明实施例提供一种基于直播场景的对话数据集构建方法及装置，该方法包括：基于主播直播视频的用户评论，获取用户评论发表后预设时间内文本格式的主播讲话内容；获取主播讲话内容中与用户评论具有重叠词汇的句子并计算和用户评论间的语义相似度，根据语义相似度获取针对用户评论的主播回复；根据用户评论和主播回复构建对话数据集。本发明实施例基于真实直播场景下大量的主播直播视频和用户评论，通过时间匹配、词汇匹配及相似度判断构建对话数据集，得到了特定人物特征下的大规模真实数据集，有利于训练得到具有丰富人物特征且在泛化性、多样性、相关性方面表现良好的对话系统，有利于真实场景对话系统的效果提升，提升用户体验度。

Description

基于直播场景的对话数据集构建方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种基于直播场景的对话数据集构建方法及装置。

背景技术

现有对话系统主要可以分为任务式对话系统和开放域对话系统，其中以京东/美团/阿里智能客服为代表的任务式对话系统，能够支持基于对话上文和对话状态管理生成一个有任务目标的回复；而EVA2(智源)/PlatoXL(百度)模型为代表的开放域对话系统，能够根据用户的输入生成一个没有域限制的回复。然而这些对话系统的训练语料没有融入说话者的个人特征，因此难以迁移到需要鲜明人物特征的对话场景（如直播）。

现有包含一定人物特征的对话数据集，以2018年谷歌提出的融入人物个人信息的PersonaChat为代表，能够支持开放域对话根据一定的人物形象假定生成一些带有个人特征的对话；2018年facebook提出的Reddit数据集和2019年基于微博对话收集的PersonalDialog为代表，对话数据的规模较大，但是该数据集的人物特征非常稀疏且是人为构造的特征。

此外还有基于网络聊天系统构造的Ubuntu IRC数据集和基于电影电视剧片段构造的对话数据集Friends等，都没有关注讲话者个人的特征。上述的数据集的构造方式都是通过爬取网络对话或者人工扮演对话者的形式来构建数据集中的对话对，通过明确的指向关系来构建其中的对话回复关系。

可见，现有的对话数据集存在如下缺陷：

基于现有对话数据集训练的对话系统，大多数不关注对话场景中人物的个人特征，其中少部分包含有人物特征的数据集一般人物特征都比较稀疏，不足以真实的代表个人特征，无法迁移到需要虚拟人物的应用场景（如直播场景）。此外，包含较多人物信息的对话数据集一般是人工构造的对话数据集，和真实的场景有一定的差异性，且人工构造数据集通常数据量规模较小。现有的对话数据集对话对的构造方法都比较简单，通过人工模拟生成的对话或者获取的网络对话中的每条句子都有明确的回复指向关系，一般适用于普通社交对话场景，无法适用于直播等场景。现有对话系统生成的回复都比较通用，给用户的体验感不强。

因此，构建一个大规模真实的富人物特征的对话数据集有利于真实场景对话系统的效果提升。

发明内容

针对现有技术存在的缺陷，本发明实施例提供一种基于直播场景的对话数据集构建方法及装置。

本发明实施例提供一种基于直播场景的对话数据集构建方法，包括：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；根据所述用户评论和所述主播回复构建对话数据集。

根据本发明实施例提供的一种基于直播场景的对话数据集构建方法，所述根据所述语义相似度获取针对所述用户评论的主播回复，包括：将所述语义相似度介于第一阈值和第二阈值之间且取值最大时对应的所述与所述用户评论具有重叠词汇的句子作为所述主播回复；其中，所述第二阈值大于所述第一阈值。

根据本发明实施例提供的一种基于直播场景的对话数据集构建方法，在所述根据所述语义相似度获取针对所述用户评论的主播回复之前，所述方法还包括：响应于所述与所述用户评论具有重叠词汇的句子中包含预设冗余词汇，计算所述句子去除所述预设冗余词汇后与所述用户评论的语义相似度；响应于所述语义相似度大于所述第二阈值，去除相应所述与所述用户评论具有重叠词汇的句子。

根据本发明实施例提供的一种基于直播场景的对话数据集构建方法，在所述基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容之前，所述方法还包括：获取所述直播场景下的主播直播视频；根据所述主播直播视频得到主播直播音频；通过语音识别模型对所述主播直播音频进行语音识别得到所述文本格式的主播讲话内容。

根据本发明实施例提供的一种基于直播场景的对话数据集构建方法，所述方法还包括：以所述用户评论作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第一对话模型。

根据本发明实施例提供的一种基于直播场景的对话数据集构建方法，所述方法还包括：获取主播的预设基本人物特征及直播场景下的预设直播人物特征，得到主播人物特征；将所述主播人物特征添加到所述对话数据集。

根据本发明实施例提供的一种基于直播场景的对话数据集构建方法，所述预设基本人物特征包括性别、年龄、工作、性格、喜好、习惯中的至少一种；所述预设直播人物特征包括直播风格、直播内容、直播才艺、直播目标、直播间人群中的至少一种。

根据本发明实施例提供的一种基于直播场景的对话数据集构建方法，所述方法还包括：以所述用户评论和所述主播人物特征作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第二对话模型。

本发明实施例还提供一种基于直播场景的对话数据集构建装置，包括：第一获取模块，用于：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；第二获取模块，用于：将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；第三获取模块，用于：计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；构建模块，用于：根据所述用户评论和所述主播回复构建对话数据集。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于直播场景的对话数据集构建方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于直播场景的对话数据集构建方法的步骤。

本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于直播场景的对话数据集构建方法的步骤。

本发明实施例提供的基于直播场景的对话数据集构建方法及装置，通过基于主播直播视频的用户评论，获取用户评论发表后预设时间内文本格式的主播讲话内容，将主播讲话内容中的句子和用户评论进行匹配，获取与用户评论具有重叠词汇的句子，计算与用户评论具有重叠词汇的句子与用户评论之间的语义相似度，根据语义相似度获取针对用户评论的主播回复，根据用户评论和主播回复构建对话数据集，基于真实直播场景下大量的主播直播视频和用户评论，通过时间匹配、词汇匹配及相似度判断构建用户评论和主播回复的对话数据集，得到了特定人物特征下的大规模真实数据集，有利于训练得到具有丰富人物特征且在泛化性、多样性、相关性方面表现良好的对话系统，有利于真实场景对话系统的效果提升，提升用户体验度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于直播场景的对话数据集构建方法的流程示意图之一；

图2是本发明实施例提供的基于直播场景的对话数据集构建方法中主播讲话内容的示意图；

图3是本发明实施例提供的基于直播场景的对话数据集构建方法中文本格式的主播讲话内容的获取流程示意图；

图4是本发明实施例提供的基于直播场景的对话数据集构建方法中第一对话模型的训练过程示意图；

图5是本发明实施例提供的基于直播场景的对话数据集构建方法中第一对话模型的测试或应用过程示意图；

图6是本发明实施例提供的基于直播场景的对话数据集构建方法中第二对话模型的训练过程示意图；

图7是本发明实施例提供的基于直播场景的对话数据集构建方法中第二对话模型的测试或应用过程示意图；

图8是本发明实施例提供的基于直播场景的对话数据集构建方法的流程示意图之二；

图9是本发明实施例提供的基于直播场景的对话数据集构建装置的结构示意图；

图10是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的基于直播场景的对话数据集构建方法的流程示意图之一。如图1所示，该方法包括：

步骤S1、基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容。

训练一个带有一定人物形象的对话系统需要一个大规模的，有丰富的人物特征的，对于单个人物ID的对话回合数大的对话数据集。本发明实施例在直播场景下，收集了大量主播的主播直播视频和对应的用户评论。通过对几百名主播的长时间视频数据获取，得到了几百名主播在数月时间内的直播内容和相应的用户评论，获取的主播直播视频和用户评论的规模非常大。基于获取到的内容，构建出了一个包含100万以上对话回合的大规模对话数据集，平均每主播对话回合数为2500左右，远超现有对话数据集单个ID对话回合数，能够有效的满足单一人物特征下对话回复的多样性。在特定人物特征下的大规模真实对话数据能够有效的代表该人物特征的对话结果，有利于训练一个具有丰富人物特征且在泛化性、多样性、相关性等方面都表现良好的对话系统。同时，因为互联网存在源源不断的公开直播视频数据，本发明实施例数据构建方式可构建的对话数据集规模可持续扩增。

在直播场景中，主播说的每句话没有明确的回复指向标签，因此本发明实施例提出了一种构造主播回复观众评论的对话指向关系的方法。基于此方法，能够在直播场景中构造出一个真实的直播对话数据集。由于直播场景中，主播对于用户评论通常都会及时回复。在获得观众评论和主播直播说话内容的文本信息后，对每一条用户评论，基于主播只会在一小段时间内可能去回复用户评论的规则出发，去检索在这条用户评论后预设时间内主播讲话内容，得到了该用户评论后预设时间内主播说过的所有句子。

因此，对应每个主播直播视频，针对每条用户评论找到一定时间范围内（如1分钟内）主播讲话内容，分别获取到各条用户评论发表后预设时间内文本格式的主播讲话内容。其中，文本格式的主播讲话内容可以根据主播直播视频预先转换得到。

步骤S2、将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子。

因为主播在回复观众时大多数会简要重复一下观众的评论，主要通过直播场景特有的主播回复前一般会重复观众评论内容的这一特征去匹配主播视频所说的内容是否正在回复相应评论内容。因此，对用户评论发表后预设时间内文本格式的主播讲话内容中的每一条句子去匹配是否包含部分用户评论的内容，也即将主播讲话内容中的句子和用户评论进行匹配，获取与用户评论具有重叠词汇的句子。

步骤S3、计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复。

得到与用户评论具有重叠词汇的句子之后，利用预训练语言模型去判断与用户评论具有重叠词汇的句子和用户评论之间的语义相似度来提升匹配效果。计算与用户评论具有重叠词汇的句子与用户评论之间的语义相似度，根据语义相似度获取针对用户评论的主播回复。

可以将与用户评论语义相似度最高的与用户评论具有重叠词汇的句子作为针对用户评论的主播回复。

步骤S4、根据所述用户评论和所述主播回复构建对话数据集。

根据用户评论和主播回复构建对话数据集。其中，将用户评论和对应的主播回复作为一对对话对。在真实的对话场景中，用户的个人特征对对话的回复有着非常重要的作用。主播的回复可以反映每个人的不同特征。可以基于每个主播得到的大量的对话对训练对话模型，训练得到对话模型可以模拟相应的主播。

图2是本发明实施例提供的基于直播场景的对话数据集构建方法中主播讲话内容的示意图。例如在某直播间2022-03-26 09:01:18时，一位名为“异客”的观众发表了一句评论：“你在哪外面下雪了。“由此刻为节点，检索一分钟内文本格式的主播讲话内容，可以得到11条句子，如图2所示。

通过BOW词带模型，可以发现1，3，4都包含有观众评论中的“下雪”，其中3包含了“外面下雪了”，与观众评论重叠的程度最高；这里选取1，3，4三句话以及用户评论输入预训练好的BERT语言模型，通过计算三句话和用户评论在句子层面的语义相似度，得到第3句话和用户评论在句子层面的语义相似度最高。于是，构建出“观众：你在哪外面下雪了。--主播：对呀外面下雪了，我也很惊喜我没想到他会下雪知道吗。”的对话对，可以将该对话对构成该主播在人物特征下的一轮对话回复。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过基于主播直播视频的用户评论，获取用户评论发表后预设时间内文本格式的主播讲话内容，将主播讲话内容中的句子和用户评论进行匹配，获取与用户评论具有重叠词汇的句子，计算与用户评论具有重叠词汇的句子与用户评论之间的语义相似度，根据语义相似度获取针对用户评论的主播回复，根据用户评论和主播回复构建对话数据集，基于真实直播场景下大量的主播直播视频和用户评论，通过时间匹配、词汇匹配及相似度判断构建用户评论和主播回复的对话数据集，得到了特定人物特征下的大规模真实数据集，有利于训练得到具有丰富人物特征且在泛化性、多样性、相关性方面表现良好的对话系统，有利于真实场景对话系统的效果提升，提升用户体验度。

由于有的主播回复中的某个句子可能是完全重复用户评论，这样的回复对于训练对话模型不具有实际意义，为提升对话模型的训练效果，设置第一阈值和第二阈值，其中第二阈值大于第一阈值。作为主播回复的句子与用户评论之间的语义相似度需要介于第一阈值和第二阈值之间。比如，作为主播回复的句子与用户评论之间的语义相似度需要大于第一阈值，也即和用户评论之间需要具有一定的语义相似度，另外需要小于或等于第二阈值，也即和用户评论之间的语义相似度不能过高。比如设置第一阈值为0.60，设置第二阈值为0.95。

如满足与用户评论之间的语义相似度介于第一阈值和第二阈值之间具有多条句子，则选择其中与用户评论的语义相似度最高的句子作为主播回复。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过将语义相似度介于第一阈值和第二阈值之间且取值最大时对应的与用户评论具有重叠词汇的句子作为主播回复，提高了对话数据集的质量。

由于直播场景的特殊性，会出现“欢迎***”和“谢谢***”等比较冗余的主播回复，这种通用的直播回复比较多，会给直播场景的对话数据集带来一定的偏见。因此，得到与用户评论具有重叠词汇的句子后，需要去除主播回复中实质只回复如“欢迎***”和“谢谢***”等冗余词汇的句子。比如，用户评论“你长得好美”，主播回复“我长得好美，谢谢”，这种回复需要去除。再比如，用户评论“你长得好美”，主播回复“我长得好美，因为我化了妆，谢谢”，这种评论则可能需要保留，具体根据与用户评论的相似度的高低确定。

含有上述冗余词汇的句子是否需要去除，需要计算去除这些冗余词汇后的文本是否实质在重复用户评论，若是，则删除。因此若经判断获知与用户评论具有重叠词汇的句子中包含预设冗余词汇，计算句子去除预设冗余词汇后与用户评论的语义相似度，若语义相似度大于第二阈值，去除相应与用户评论具有重叠词汇的句子。

上述处理过程可以在得到与用户评论具有重叠词汇的句子之后、计算与用户评论具有重叠词汇的句子与用户评论之间的语义相似度之前执行，也可以在进行计算与用户评论具有重叠词汇的句子与用户评论之间的语义相似度之后、根据语义相似度获取针对用户评论的主播回复之前执行。

经过过滤后所得到的主播回复-用户评论对话对就构成针对直播场景的对话数据集的一轮对话。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过响应于与用户评论具有重叠词汇的句子中包含预设冗余词汇，计算句子去除预设冗余词汇后与用户评论的语义相似度，响应于语义相似度大于第二阈值，去除相应与用户评论具有重叠词汇的句子，进一步提高了对话数据集的质量。

图3是本发明实施例提供的基于直播场景的对话数据集构建方法中文本格式的主播讲话内容的获取流程示意图。如图3所示，首先将抓取到的直播场景下的主播直播视频进行格式转换，如将flv格式的主播直播视频转换为主播直播音频，然后利用在直播场景进行过预训练的语音识别模型将主播直播音频转换为文本格式的主播讲话内容，其中每句话都有详细的说话时间标注和主播的个人特征信息。其中，主播讲话内容中的句子的讲话时间可以基于主播直播视频的开始时间、主播直播视频的时长及讲到该句子时的视频位置计算获得。

可以理解的，还可以通过其他方式基于主播直播视频得到主播讲话内容。如通过对主播直播视频进行语音信号的提取，再通过语音识别得到文本格式的主播讲话内容。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过获取直播场景下的主播直播视频，根据主播直播视频得到主播直播音频，通过语音识别模型对主播直播音频进行语音识别得到文本格式的主播讲话内容，有利于实现进行主播讲话内容和用户评论的快速匹配。

图4是本发明实施例提供的基于直播场景的对话数据集构建方法中第一对话模型的训练过程示意图。如图4所示，将用户评论作为预训练的语言模型的输入值，以对话对中主播回复作为真实输出值（主播真实回复），模型迭代过程中会有一个实际的输出值，通过预训练的语言模型的输出值和真实值计算损失，通过梯度回传优化迭代训练预训练的语言模型，得到第一对话模型。

图5是本发明实施例提供的基于直播场景的对话数据集构建方法中第一对话模型的测试或应用过程示意图。如图5所示，将用户评论输入到训练好的第一对话模型，得到带有人物风格的回复。

在训练阶段，将用户评论输入预训练的语言模型，得到一个通用的回复，而这个回复通常不包含人物风格特征。因此，将其与真实的主播回复计算一个损失，通过梯度反向传播的方式来更新语言模型。通过数轮在本发明实施例数据集下的训练，就得到了一个参数经过优化的语言模型。在测试或应用时，通过输入一句用户的评论，就能够得到一个带有一定该主播人物特征风格的回复，而这种带有人物风格的回复在一些虚拟人的场景能够给用户带来更好的体验。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过以用户评论作为预训练的语言模型的输入值，以主播回复作为输出的真实值，通过预训练的语言模型的输出值和真实值计算损失，不断迭代训练预训练的语言模型，得到第一对话模型，通过基于真实直播场景得到的具有人物特征的对话数据集训练得到第一对话模型，提高了对话模型在虚拟人等场景的应用效果。

本发明实施例从来源维度上进行更丰富的针对直播场景的富人物特征获取。本发明实施例在直播场景下，不仅能够获得直播场景的语音和用户评论，还通过从其他的网络信息去获取每个主播公开的个人内容，去提取丰富的预设基本人物特征（个人特征）和预设直播人物特征（直播场景的对话特征），得到主播人物特征。其中，主播人物特征包括预设基本人物特征和预设直播人物特征。将主播人物特征添加到对话数据集，将构建出直播场景的具有更丰富人物特征的对话数据集。

通过长时间抓取主播间直播视频和用户评论，再加上网络其他途径抓取的主播人物特征，构建的直播场景的对话数据集每人物ID对话回合数规模非常大，同时每位主播都有丰富的细粒度人物特征标签。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过获取主播的预设基本人物特征及直播场景下的预设直播人物特征，得到主播人物特征，将主播人物特征添加到对话数据集，进一步丰富了训练数据集中的主播人物特征，有利于训练出一个带有人物特征的对话系统，进一步提升对话系统在虚拟人等场景的应用效果。

本发明实施例构建的对话数据集的数据来源方式除了上述抓取主播直播的视频片段和用户的评论内容外，还通过抓取其他的网络信息去获取每个主播公开的个人内容，其中本发明实施例主要通过以下方式获得主播ID富人物特征：

1）个人主页

2）微博

3）互联网搜索相关信息

通过获取网上公开的个人信息，包括性别、年龄、工作、性格、喜好、习惯等一系列信息，可以构建出人物的基本信息。同时针对直播场景，额外加入了直播场景特有的人物直播特征，包括直播风格、直播内容、直播才艺、直播目标、直播间人群构成等一系列特征。基于此细粒度的人物基本特征和直播场景特有的人物特征就构成了直播场景下的主播人物特征。因此，本发明实施例构建的直播场景数据集的数据来源不局限于直播场景的内容，还通过抓取其他的网络信息去匹配丰富人物特征，能够得到一个更具有人物形象风格的对话数据集。

其中，预设基本人物特征可以通过抓取网络公开数据并添加到对话数据集，预设直播人物特征可以通过人工标注添加到对话数据集。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过获取包括性别、年龄、工作、性格、喜好、习惯中的至少一种的预设基本人物特征及包括直播风格、直播内容、直播才艺、直播目标、直播间人群中的至少一种预设直播人物特征，提高了主播人物特征的质量和丰富程度。

图6是本发明实施例提供的基于直播场景的对话数据集构建方法中第二对话模型的训练过程示意图。如图6所示，将用户评论和主播人物特征作为预训练的语言模型的输入值，以对话对中主播回复作为真实输出值（主播真实回复），模型迭代过程中会有一个实际的输出值，通过预训练的语言模型的输出值和真实值计算损失，通过梯度回传优化迭代训练预训练的语言模型，得到第二对话模型。

图7是本发明实施例提供的基于直播场景的对话数据集构建方法中第二对话模型的测试或应用过程示意图。如图7所示，将用户评论和主播人物特征输入到训练好的第二对话模型，得到带有人物风格的回复。

在训练阶段，将用户评论和主播人物特征输入预训练的语言模型，得到一个通用的回复，而这个回复通常不包含人物风格特征。因此，将其与真实的主播回复计算一个损失，通过梯度反向传播的方式来更新语言模型。通过数轮在本发明实施例数据集下的训练，就得到了一个参数经过优化的语言模型。在测试时，通过输入一句用户的评论和主播的特征，就能够得到一个带有一定该主播人物特征风格的回复，而这种带有人物风格的回复在一些虚拟人的场景能够给用户带来更好的体验。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过以用户评论和主播人物特征作为预训练的语言模型的输入值，以主播回复作为输出的真实值，通过预训练的语言模型的输出值和真实值计算损失，不断迭代训练预训练的语言模型，得到第二对话模型，进一步提高了对话模型在虚拟人等场景的应用效果。

图8是本发明实施例提供的基于直播场景的对话数据集构建方法的流程示意图之二。如图8所示，该方法包括：

对于一条用户评论（用户评论），通过时间关系检索到观众评论发表后一段时间内的主播讲话内容（主播说话内容），遍历主播讲话内容中的每条主播句子，判断主播句子是否包含部分评论内容，得到与用户评论具有重叠词汇的句子。计算与用户评论具有重叠词汇的句子和用户评论之间的语义相似度，以及计算去除“谢谢”、“欢迎”等冗余词汇后的句子和用户评论之间的语义相似度，去除语义相似度大于第二阈值的句子，实现了冗余主播句子的过滤，剩下的与用户评论具有重叠词汇的句子中，取大于第一阈值且和用户评论之间的语义相似度最高的句子和用户评论构成对话对。

本发明实施例提供的基于直播场景的对话数据集构建方法，通过抓取直播场景主播的直播视频和用户的评论，提出一种针对直播场景对话回复关系构建的方式，通过判断主播的语音和观众评论的包含关系，以及两者的时间关系判定两者是否能够构成成对的对话关系，加上对直播场景的无效对话对的删除，能够有效的提取出直播场景中的对话内容。

基于本发明实施例构造出的针对直播场景的富人物特征大规模对话数据集，能够用于训练现有的对话模型，有利于训练出一个具有自身特征和特质的对话系统，能够应用到虚拟直播、虚拟主持、虚拟游戏和其他的有对话者特征的类直播对话场景。在优化回复效果的同时，用户与带有人物特征对话系统进行对话的体验也会得到明显的提升。

需要说明的是，本实施例所给出的多个优选实施方式，在逻辑或结构相互不冲突的前提下，可以自由组合，本发明对此不做限定。

下面对本发明实施例提供的基于直播场景的对话数据集构建装置进行描述，下文描述的基于直播场景的对话数据集构建装置与上文描述的基于直播场景的对话数据集构建方法可相互对应参照。

图9是本发明实施例提供的基于直播场景的对话数据集构建装置的结构示意图。如图9所示，该装置包括第一获取模块10、第二获取模块20、第三获取模块30及构建模块40，其中：第一获取模块10用于：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；第二获取模块20用于：将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；第三获取模块30用于：计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；构建模块40用于：根据所述用户评论和所述主播回复构建对话数据集。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过基于主播直播视频的用户评论，获取用户评论发表后预设时间内文本格式的主播讲话内容，将主播讲话内容中的句子和用户评论进行匹配，获取与用户评论具有重叠词汇的句子，计算与用户评论具有重叠词汇的句子与用户评论之间的语义相似度，根据语义相似度获取针对用户评论的主播回复，根据用户评论和主播回复构建对话数据集，基于真实直播场景下大量的主播直播视频和用户评论，通过时间匹配、词汇匹配及相似度判断构建用户评论和主播回复的对话数据集，得到了特定人物特征下的大规模真实数据集，有利于训练得到具有丰富人物特征且在泛化性、多样性、相关性方面表现良好的对话系统，有利于真实场景对话系统的效果提升，提升用户体验度。

根据本发明实施例提供的一种基于直播场景的对话数据集构建装置，第三获取模块30在用于根据所述语义相似度获取针对所述用户评论的主播回复时，具体用于：将所述语义相似度介于第一阈值和第二阈值之间且取值最大时对应的所述与所述用户评论具有重叠词汇的句子作为所述主播回复；其中，所述第二阈值大于所述第一阈值。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过将语义相似度介于第一阈值和第二阈值之间且取值最大时对应的与用户评论具有重叠词汇的句子作为主播回复，提高了对话数据集的质量。

根据本发明实施例提供的一种基于直播场景的对话数据集构建装置，在所述根据所述语义相似度获取针对所述用户评论的主播回复之前，第三获取模块30还用于：响应于所述与所述用户评论具有重叠词汇的句子中包含预设冗余词汇，计算所述句子去除所述预设冗余词汇后与所述用户评论的语义相似度；响应于所述语义相似度大于所述第二阈值，去除相应所述与所述用户评论具有重叠词汇的句子。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过响应于与用户评论具有重叠词汇的句子中包含预设冗余词汇，计算句子去除预设冗余词汇后与用户评论的语义相似度，响应于语义相似度大于第二阈值，去除相应与用户评论具有重叠词汇的句子，进一步提高了对话数据集的质量。

根据本发明实施例提供的一种基于直播场景的对话数据集构建装置，在所述基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容之前，第一获取模块10还用于：获取所述直播场景下的主播直播视频；根据所述主播直播视频得到主播直播音频；通过语音识别模型对所述主播直播音频进行语音识别得到所述文本格式的主播讲话内容。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过获取直播场景下的主播直播视频，根据主播直播视频得到主播直播音频，通过语音识别模型对主播直播音频进行语音识别得到文本格式的主播讲话内容，有利于实现进行主播讲话内容和用户评论的快速匹配。

根据本发明实施例提供的一种基于直播场景的对话数据集构建装置，所述装置还包括第一训练模块，用于：以所述用户评论作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第一对话模型。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过以用户评论作为预训练的语言模型的输入值，以主播回复作为输出的真实值，通过预训练的语言模型的输出值和真实值计算损失，不断迭代训练预训练的语言模型，得到第一对话模型，通过基于真实直播场景得到的具有人物特征的对话数据集训练得到第一对话模型，提高了对话模型在虚拟人等场景的应用效果。

根据本发明实施例提供的一种基于直播场景的对话数据集构建装置，构建模块40还用于：获取主播的预设基本人物特征及直播场景下的预设直播人物特征，得到主播人物特征；将所述主播人物特征添加到所述对话数据集。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过获取主播的预设基本人物特征及直播场景下的预设直播人物特征，得到主播人物特征，将主播人物特征添加到对话数据集，进一步丰富了训练数据集中的主播人物特征，有利于训练出一个带有人物特征的对话系统，进一步提升对话系统在虚拟人等场景的应用效果。

根据本发明实施例提供的一种基于直播场景的对话数据集构建装置，所述预设基本人物特征包括性别、年龄、工作、性格、喜好、习惯中的至少一种；所述预设直播人物特征包括直播风格、直播内容、直播才艺、直播目标、直播间人群中的至少一种。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过获取包括性别、年龄、工作、性格、喜好、习惯中的至少一种的预设基本人物特征及包括直播风格、直播内容、直播才艺、直播目标、直播间人群中的至少一种预设直播人物特征，提高了主播人物特征的质量和丰富程度。

根据本发明实施例提供的一种基于直播场景的对话数据集构建装置，所述装置还包括第二训练模块，用于：以所述用户评论和所述主播人物特征作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第二对话模型。

本发明实施例提供的基于直播场景的对话数据集构建装置，通过以用户评论和主播人物特征作为预训练的语言模型的输入值，以主播回复作为输出的真实值，通过预训练的语言模型的输出值和真实值计算损失，不断迭代训练预训练的语言模型，得到第二对话模型，进一步提高了对话模型在虚拟人等场景的应用效果。

图10是本发明实施例提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行基于直播场景的对话数据集构建方法，该方法包括：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；根据所述用户评论和所述主播回复构建对话数据集。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于直播场景的对话数据集构建方法，该方法包括：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；根据所述用户评论和所述主播回复构建对话数据集。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于直播场景的对话数据集构建方法，该方法包括：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；根据所述用户评论和所述主播回复构建对话数据集。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于直播场景的对话数据集构建方法，其特征在于，包括：

基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；

将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；

计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；

根据所述用户评论和所述主播回复构建对话数据集。

2.根据权利要求1所述的基于直播场景的对话数据集构建方法，其特征在于，所述根据所述语义相似度获取针对所述用户评论的主播回复，包括：

将所述语义相似度介于第一阈值和第二阈值之间且取值最大时对应的所述与所述用户评论具有重叠词汇的句子作为所述主播回复；其中，所述第二阈值大于所述第一阈值。

3.根据权利要求2所述的基于直播场景的对话数据集构建方法，其特征在于，在所述根据所述语义相似度获取针对所述用户评论的主播回复之前，所述方法还包括：

响应于所述与所述用户评论具有重叠词汇的句子中包含预设冗余词汇，计算所述句子去除所述预设冗余词汇后与所述用户评论的语义相似度；

响应于所述语义相似度大于所述第二阈值，去除相应所述与所述用户评论具有重叠词汇的句子。

4.根据权利要求1所述的基于直播场景的对话数据集构建方法，其特征在于，在所述基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容之前，所述方法还包括：

获取所述直播场景下的主播直播视频；

根据所述主播直播视频得到主播直播音频；

通过语音识别模型对所述主播直播音频进行语音识别得到所述文本格式的主播讲话内容。

5.根据权利要求1至4任一所述的基于直播场景的对话数据集构建方法，其特征在于，所述方法还包括：

以所述用户评论作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第一对话模型。

6.根据权利要求1所述的基于直播场景的对话数据集构建方法，其特征在于，所述方法还包括：

获取主播的预设基本人物特征及直播场景下的预设直播人物特征，得到主播人物特征；

将所述主播人物特征添加到所述对话数据集。

7.根据权利要求6所述的基于直播场景的对话数据集构建方法，其特征在于，所述预设基本人物特征包括性别、年龄、工作、性格、喜好、习惯中的至少一种；

所述预设直播人物特征包括直播风格、直播内容、直播才艺、直播目标、直播间人群中的至少一种。

8.根据权利要求6或7所述的基于直播场景的对话数据集构建方法，其特征在于，所述方法还包括：

以所述用户评论和所述主播人物特征作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第二对话模型。

9.一种基于直播场景的对话数据集构建装置，其特征在于，包括：

第一获取模块，用于：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；

第二获取模块，用于：将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；

第三获取模块，用于：计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；

构建模块，用于：根据所述用户评论和所述主播回复构建对话数据集。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于直播场景的对话数据集构建方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于直播场景的对话数据集构建方法的步骤。