CN118113846A

CN118113846A - 对话数据集的生成方法、装置、计算机设备及存储介质

Info

Publication number: CN118113846A
Application number: CN202410282254.0A
Authority: CN
Inventors: 郑杰文
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-05-31

Abstract

本申请实施例公开了一种对话数据集的生成方法、装置、计算机设备及存储介质，包括：从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。本申请实施例可以根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化得到大量具有风格标签的对话数据集，通过大量不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果，有效提高对话数据集的质量，提高了对话数据集的制作效率。

Description

对话数据集的生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种对话数据集的生成方法、装置、计算机设备及存储介质。

背景技术

为了满足人们对精神生活的追求，能够在终端上使用的一些自然语言处理模型应运而生，例如，ChatGPT等训练好的自然语言处理模型，其任务是生成自然流畅的对话。如果想要训练符合自身需求的ChatGPT模型，则需要进行大量的数据收集、预处理、配置训练环境、模型训练、模型评估等过，而在模型训练的过程中，则需要大量的对话数据集来对模型进行训练。

目前，在现存的公共对话数据集中，具有风格标签的对话数据集的数量非常有限，导致用该类对话数据集训练出来的模型同质化程度高，从而导致模型的训练效果较差；并且，现有的风格化数据集中，风格标签的内容较为单一，由于对话数据集中的对象之间区别度不高，对话数据集对应的风格化程度不高，对话数据集的质量较差；同时，目前具有风格标签的对话数据集的制作方式通常为人工制作，从而对话数据集的制作流程复杂麻烦，导致对话数据集的制作效率较低。

发明内容

本申请实施例提供一种对话数据集的生成方法、装置、计算机设备及存储介质，通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

本申请实施例提供了一种对话数据集的生成方法，该方法包括：

从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；

根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；

基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。

相应的，本申请实施例还提供了一种对话数据集的生成装置，该对话数据集的生成装置包括：

处理单元，用于从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；

获取单元，用于根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；

设置单元，用于基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。

相应的，本申请实施例还提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述任一项的对话数据集的生成方法。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述任一项的对话数据集的生成方法。

本申请实施例提供一种对话数据集的生成方法、装置、计算机设备及存储介质，通过从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；然后，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；最后，基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。本申请实施例通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的游戏数据处理系统的结构示意图。

图2是本申请实施例提供的对话数据集的生成方法的一种流程示意图。

图3是本申请实施例提供的对话数据集的生成方法的另一种流程示意图。

图4是本申请实施例提供的对话数据集的生成装置的结构示意图。

图5是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种对话数据集的生成方法、装置、计算机设备及存储介质。具体地，本申请实施例的对话数据集的生成方法可以由计算机设备执行，其中，该计算机设备可以为终端。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备，终端还可以包括客户端，该客户端可以是视频应用客户端、音乐应用客户端、游戏应用客户端、携带有游戏程序的浏览器客户端或即时通信客户端等。

请参阅图1，图1为本申请实施例所提供的对话数据集的生成系统的场景示意图，包括计算机设备，该系统可以包括至少一个终端，至少一个服务器，以及网络。用户持有的终端可以通过网络连接到不同的服务器。终端是具有计算硬件的任何设备，该计算硬件能够支持和执行与检索平台对应的软件产品。另外，终端具有用于感测和获得用户通过在一个或者多个触控显示屏的多个点执行的触摸或者滑动操作的输入的一个或者多个多触敏屏幕。另外，当系统包括多个终端、多个服务器、多个网络时，不同的终端可以通过不同的网络、通过不同的服务器相互连接。网络可以是无线网络或者有线网络，比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外，不同的终端之间也可以使用自身的蓝牙网络或者热点网络连接到其他终端或者连接到服务器等。

其中，计算机设备可以通过从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；然后，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；最后，基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。本申请实施例通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

需要说明的是，图1所示的对话数据集的生成系统的场景示意图仅仅是一个示例，本申请实施例描述的对话数据集的生成系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着对话数据集的生成系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本发明实施例提供一种对话数据集的生成方法、装置、计算机设备及存储介质，该对话数据集的生成方法可以配合终端使用，如智能手机、平板电脑、笔记本电脑或个人计算机等。以下对该对话数据集的生成方法、装置、计算机设备以及存储介质进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

请参阅图2，图2为本申请实施例提供的对话数据集的生成方法的一种流程示意图，该应用于计算机设备，具体流程可以如下步骤101至步骤103：

101，从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识。

其中，多媒体作品可以是影视文化作品、音频作品、文学著作、图画文学作品等，影视文化作品可以为电视剧、电影、网剧、短视频等作品，音频作品可以为广播剧或有声音频等作品，文学著作可以为诗歌、散文、小说等作品，图画文学作品可以为漫画等作品。

在本申请实例中，计算机设备可以从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识，其中，对话参与者为目标对话文本中参与对话的对象，也即说话的对象，参与者标识可以为对话参与者的名称，还可以为对话参与者的昵称等代表对话参与者身份的标识。

例如，本申请实施例可以获取影视文化作品中的一段目标对话视频，获取该目标对话视频的目标对话文本，利用正则匹配获取目标对话文本中的文字内容及对话参与者。具体的，一个使用正则匹配从目标对话文本确定对话参与者的方式如下所示：

Import re

Text＝‘张三：今天去哪吃？李四：你定吧’

Pattern＝r’李四’

Match＝re.search(Pattern，Text)

Match.group结果就是李四

基于上述正则匹配操作即可确定该目标对话文本中的对话参与者为“李四”。

又例如，本申请实施例可以获取文学著作中的一段目标对话文本，利用正则匹配获取目标对话文本中的文字内容及对话参与者。或者，本申请实施例可以获取音频作品中的一段目标音频，对目标音频进行语音识别得到目标对话文本，利用正则匹配获取目标对话文本中的文字内容及对话参与者。又或者，本申请实施例可以获取图画文学作品中的一张图像，通过对图像进行文本识别得到目标对话文本，利用正则匹配获取目标对话文本中的文字内容及对话参与者。

其中，正则匹配是一种用来查找符合特定模式的字符串的方法。正则匹配可以理解为通过正则表达式(regular expression)定义一种规则去匹配符合规则的字符。正则表达式是一个描述字符模式的对象，使用正则表达式可以进行模式匹配、文本检索、以及替换功能。进一步的，正则匹配可以用于多种应用中，例如文本处理、数据提取、字符串验证等。在文本处理中，正则匹配可以用来搜索和替换特定模式的字符串，或者进行字符串的切割和拆分。在数据提取中，可以使用正则匹配从一段文本中提取需要的信息等操作。

具体的，本申请实施例可以将获取的目标对话文本进行主题分割，将相同主题的对话文本分为一组。若对话文本中间的主题有穿插，每次更换主题时，都进行一次主题分割。

例如，在一实施例中，可以基于主题模型对获取的目标对话文本进行主题分割操作，以使相同主题的对话分为一组，例如，目标对话文本为下述对话文本：

第一对话文本为A：我们今天去哪吃饭？(主题：吃饭)

第二对话文本为B：不知道呢你说呗。(主题：吃饭)

第三对话文本为A：对了，突然想起来，明天要考试，你复习了吗？(主题：考试)

第四对话文本为B：没呢，今晚再说。(主题：考试)

采用主题模型对上述目标对话文本进行主题分割，以将相同主题的对话分为一组，此时，第一对话文本和第二对话文本为一组，该组为第一主题的第一组目标对话文本，也即吃饭主题，第三对话文本和第四对话文本为一组，该组为第二主题的第二组目标对话文本，也即考试主题。

又例如，在另一实施例中，可以基于主题模型对获取的目标对话文本进行主题分割操作，以使相同主题的对话分为一组，例如，目标对话文本为下述对话文本：

第一对话文本为A：我们今天去哪吃饭？(主题：吃饭)

第二对话文本为B：不知道呢你说呗。(主题：吃饭)

第四对话文本为B：没呢，今晚再说。(主题：考试)

第五对话文本为A：对哦，先吃饱了再说，咱要不去吃拉面吧？(主题：吃饭)

第六对话文本为B：没问题，刚好我也喜欢吃面食。(主题：吃饭)

采用主题模型对上述目标对话文本进行主题分割，以将相同主题的对话分为一组，此时，第一对话文本和第二对话文本为一组，该组为第一主题的第一组目标对话文本，也即吃饭主题，第三对话文本和第四对话文本为一组，该组为第二主题的第二组目标对话文本，也即考试主题，第五对话文本和第六对话文本为一组，该组为第一主题的第三组目标对话文本，也即吃饭主题。

其中，主题模型可以使用隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)模型，LDA模型可以使用在文本主题分析方面,可以通过LDA模型自动发现文本数据中隐藏的主题结构,可以应用于文本分类、文本聚类、文本推荐等任务。LDA模型是一种常见的主题模型，是一类无监督学习算法，可以使用LDA模型从一份文档中提出文档的主题，以及主题中的词语。LDA模型应用范围很广，例如个性化推荐、商品标签、智能分类等等。

主题分割的目的就是把不同的对话主题放在一个group里面，这样得到的每组对话都有自己单独的主题。例如，吃饭和学习就是两个不同的主题，对话双方可能会先说吃饭再说学习，这两个发言在时序上是挨着的，但是需要分离成两个主题，才能进行后续的使用。因为不同的主题内容，对应不同的性格特征，吃饭的主题，对应的肯定是和性格特征中饮食相关的，学习的主题，对应的是另外的性格特征，只有把对话按照主题分离了，才可以更流畅的进行后续的步骤。

102，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息。

在本申请实施例中，计算机设备可以根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息。例如，参与者标识可以为对话参与者的对象名称，计算机设备可以根据所述对话参与者的对象名称，在百度百科或维基百科等知识库中查询对象名称对应的结构化资料，若可以在百度百科或维基百科等知识库中查询到对象名称对应的结构化资料，则利用正则匹配对结构化资料进行处理，生成对话参与者的风格化资料说明，也即获取所述对话参与者在至少一个对象特征类型下的特征信息。若无法在百度百科或维基百科等知识库中查询到对象名称对应的结构化资料，生成任务描述(prompt)，再将prompt输入至通用文本模型，例如chatgpt模型中，该chatgpt模型的输出即为对话参与者的风格化资料，也即所述对话参与者在至少一个对象特征类型下的特征信息。

103，基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。

具体的，具有风格标签的对话数据集需要具备以下几个要素：一是有参与对话者的对话参与者的特征描述，二是对话数据集中的语言需要体现该对话参与者的风格特征。在本申请实施例中，计算机设备可以将目标对话文本和特征信息相组合，得到带有风格化的对话数据集，具体的，计算机设备基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。

例如，对话参与者A的第一特征信息为“热情”，对话参与者B的第二特征信息为“文静”，第一组目标对话文本包括第一主题的第一对话文本“A：我们今天去哪吃饭？”以及第二对话文本“B：不知道呢你说呗”，此时，可以将第一组目标对话文本中的对话参与者A设置“热情”风格标签，将第一组目标对话文本中的对话参与者B设置“文静”风格标签，从而具有风格标签的第一组目标对话文本，作为第一对话数据集。又或者，第二组目标对话文本包括第二主题的第三对话文本“A：对了，突然想起来，明天要考试，你复习了吗？”以及第四对话文本“B：没呢，今晚再说。”，此时，可以将第二组目标对话文本中的对话参与者A设置“热情”风格标签，将第二组目标对话文本中的对话参与者B设置“文静”风格标签，从而具有风格标签的第二组目标对话文本，作为第二对话数据集。

综上所述，本申请实施例提供一种对话数据集的生成方法，通过从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；然后，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；最后，基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。本申请实施例通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

根据上述介绍的内容，下面将举例来进一步说明本申请的信息输入方法，该信息输入方法的具体实施例如下所述。

在本申请实施例中，步骤“所述根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息”，方法可以包括：

采用目标信息获取工具，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息。

具体的，目标信息获取工具可以为百度百科或维基百科等知识库、或者通用文本模型。对象特征类型可以为性别、年龄、性格特性、用语习惯、职业背景、生活环境、学历程度等类型。

在一实施例中，步骤“所述采用目标信息获取工具，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息”，方法可以包括：

调用预设的目标知识库；

根据所述对话参与者的参与者标识，从所述目标知识库中存储的知识信息中，获取所述对话参与者在至少一个对象特征类型下的特征信息。

进一步的，所述目标知识库中包括多个知识标识，每一知识标识对应设置有知识信息；步骤“所述根据所述对话参与者的参与者标识，从所述目标知识库中存储的知识信息中，获取所述对话参与者在至少一个对象特征类型下的特征信息”，方法可以包括：

根据所述对话参与者的参与者标识，从所述目标知识库的多个知识标识中、筛选出与所述参与者标识匹配的目标知识标识；

获取所述目标知识标识对应的知识信息，从所述知识信息中获取所述对话参与者在至少一个对象特征类型下的特征信息。

具体的，可以根据对话参与者的对象名称(例如对象名字)，在百度百科或维基百科等知识库中查询到对象名称对应的结构化资料，该结构化资料也即百度百科或维基百科对对象名称对应的对象的介绍信息，采用正则匹配对该介绍信息进行处理，可以生成对话参与者的风格化资料说明，也即相应的特征信息。

进一步的，为了提高搜索的准确性，可以确定该对话参与者对应的目标对话文本所属的多媒体作品的作品名称，可以根据对话参与者的对象名称(例如对象名字)和/或多媒体作品的作品名称，在百度百科或维基百科等知识库中查询到对象名称和/或多媒体作品的作品名称对应的结构化资料，该结构化资料也即百度百科或维基百科对对象名称和/或多媒体作品的作品名称对应的介绍信息，采用正则匹配对该介绍信息进行处理，可以生成对话参与者的风格化资料说明，也即相应的特征信息。

例如，该对话参与者的对象名称为“樱木花道”，可以将樱木花道输入百度百科或维基百科的检索接口，从而在百度百科或维基百科等知识库中查询到“樱木花道”对应的结构化资料，该结构化资料也即百度百科或维基百科对对象名称对应的对象的介绍信息，采用正则匹配对该介绍信息进行处理，可以生成对话参与者的风格化资料说明，也即相应的特征信息。

本申请实施例可以利用现有的影视文化作品，例如电影、电视剧、小说等，抓取其中的对话内容，首先通过主题模型，将对话内容进行主题分割，然后获取对话对应角色的风格特征，从而在不用人工参与的情况下，生成带有风格化内容的数据集，从而解决现有的人工方式费时费力，社交平台质量抽取的数据质量偏低的问题。

在另一实施例中，步骤“所述采用目标信息获取工具，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息”，包括：

获取任务描述信息，其中，所述任务描述信息包括所述对话参与者的参与者标识、以及对象特征类型的名称，所述任务描述信息用于指示预设的文本模型查找所述参与者标识对应的对象、在所述对象特征类型下的特征信息；

将所述任务描述信息输入所述文本模型，通过所述文本模型基于所述任务描述信息进行任务处理，得到所述对话参与者在所述对象特征类型下的特征信息。

在本申请实施例中，可以获取任务描述信息，该任务描述信息可以为“按性别、年龄、性格特性、用语习惯、职业背景等方面总结YYYY(参与者标识)的资料”或者“按性别、年龄、性格特性、用语习惯、职业背景等方面总结XXXX(多媒体作品的作品名称)中YYYY(参与者标识)的资料”，然后，将所述任务描述信息输入所述文本模型(例如chatgpt)，通过chatgpt基于所述任务描述信息进行任务处理，得到参与者标识对应的对象的结构化资料，采用正则匹配对该结构化资料进行处理，可以生成对话参与者的风格化资料说明，也即相应的特征信息。

例如，需要生成《灌篮高手》(多媒体作品)中“樱木花道”(参与者标识)对应的风格化资料，则任务描述信息(prompt)可以为：按性别、年龄、性格特性、用语习惯、职业背景等方面总结《灌篮高手》中樱木花道的资料。然后，将该任务描述信息输入所述文本模型(例如chatgpt)，通过chatgpt基于所述任务描述信息进行任务处理，得到“樱木花道”对应的对象的结构化资料，采用正则匹配对该结构化资料进行处理，可以生成对话参与者的风格化资料说明，也即相应的特征信息。

又例如，一些大型文本生成模型，如chatgpt模型，在预训练阶段使用了超级天量的数据，所以对网络上存在的资料，比如名人、文艺作品、艺术人物等各类信息都隐藏在了模型内。因此可以通过输入一个任务描述，要求模型按任务描述生成对应的文本。从而可以得到对象的风格化特征，风格化也即带有人物背景特征，例如性格、性别、年龄、职业背景、兴趣爱好等。

可选的，步骤“所述获取任务描述信息”，方法可以包括：

显示任务创建页面，其中，所述任务创建页面包括信息输入接口；

响应于对所述信息输入接口输入的、用户输入信息的提交操作，基于所述用户输入信息创建任务描述信息。

为了提高任务描述信息的自定义程度，用户可以通过任务创建页面的信息输入接口自行设置任务描述信息，例如，用户可以在信息输入接口自行输入“按性别、年龄、性格特性、用语习惯、职业背景、生活环境等方面总结《家有儿女》中刘星的资料”，从而可以根据用户的实际需求，定制生成所需的特征信息。

进一步的，可以对任务描述信息进行复用，所述方法还包括：

从多媒体作品中提取新的目标对话文本、以及确定所述新的目标对话文本中的至少一个新的对话参与者的、新的参与者标识；

基于所述新的参与者标识对所述任务描述信息进行更新处理，得到新的任务描述信息；

将所述新的任务描述信息输入所述文本模型，通过所述文本模型基于所述新的任务描述信息进行任务处理，得到所述新的对话参与者在所述对象特征类型下的特征信息。

为了可以对任务描述信息进行复用，当检测到新的参与者标识时，可以采用正则匹配，基于新的参与者标识和/或新的参与者标识所属的多媒体作品的作品名称更新任务描述信息，得到新的任务描述信息，然后输入文本模型(例如chatgpt)，通过chatgpt基于新的任务描述信息进行任务处理，得到新的参与者标识对应的对象的结构化资料，采用正则匹配对该结构化资料进行处理，可以生成对话参与者的风格化资料说明，也即相应的特征信息。

例如，任务描述信息(prompt)可以为：按性别、年龄、性格特性、用语习惯、职业背景等方面总结《灌篮高手》中樱木花道的资料。此时，新的参与者标识为“喜羊羊”，该参与者标识所属的多媒体作品的作品名称为“喜羊羊与灰太狼”，可以采用正则匹配，基于新的参与者标识和/或新的参与者标识所属的多媒体作品的作品名称更新任务描述信息，也即得到新的任务描述信息：按性别、年龄、性格特性、用语习惯、职业背景等方面总结《喜羊羊与灰太狼》中喜羊羊的资料。

在一实施例中，在步骤“从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识”之前，方法可以包括：

从多媒体作品中获取目标对话视频，基于所述目标对话视频确定多句对话文本，将所述多句对话文本输入预设的主题模型，以采用预设的主题模型对所述多句对话文本进行主题分割操作，得到多组目标对话文本，每一组目标对话文本对应一对话主题。

在另一实施例中，在步骤“从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识”之前，方法可以包括：

从多媒体作品中获取目标对话音频，基于所述目标对话音频确定多句对话文本，将所述多句对话文本输入预设的主题模型，以采用预设的主题模型对所述多句对话文本进行主题分割操作，得到多组目标对话文本，每一组目标对话文本对应一对话主题。

在又一实施例中，在步骤“从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识”之前，方法可以包括：

从文学著作中获取多句对话文本，将所述多句对话文本输入预设的主题模型，以采用预设的主题模型对所述多句对话文本进行主题分割操作，得到多组目标对话文本，每一组目标对话文本对应一对话主题。

从图画文学作品中获取至少一张目标图片，对所述目标图片进行文本识别操作，得到多句对话文本；

将所述多句对话文本输入预设的主题模型，以采用预设的主题模型对所述多句对话文本进行主题分割操作，得到多组目标对话文本，每一组目标对话文本对应一对话主题。

进一步的，所述方法还包括：

采用自动标注组件，基于所述文本模型输出的特征信息、对所述目标对话文本中的对话参与者进行标注处理，得到具有风格标签的对话数据集。

在本申请实施例中，可以设置一自动标注组件，该自动标注组件与文本模型的输出连接，该自动标注组件用于接收到文本模型输出的特征信息后，自动将文本模型输出的特征信息、对所述目标对话文本中的对话参与者进行标注处理，得到具有风格标签的对话数据集。

综上所述，本申请实施例提供一种对话数据集的生成方法，通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

为了对本申请实施例提供的对话数据集的生成方法进行进一步说明，下面将以对话数据集的生成方法在具体实施场景中的应用为例进行说明，请参阅图3，具体场景如下所述：

(1)获取多媒体作品中的文本内容。具体的，本申请实施例可以获取影视文化作品中的一段目标对话视频，获取该目标对话视频的文本内容及对话参与者。

(2)将文本内容输入主题模型，采用主题模型对文本内容进行分组操作。具体的，可以采用主题模型对文本内容进行主题分割操作得到多组目标对话文本。

(3)获取对话参与者的参与者名称、以及对话参与者所属多媒体作品的作品名称，根据参与者名称及作品名称从知识库中确定是否存在结构化资料。具体的，计算机设备可以根据参与者名称及作品名称，获取所述对话参与者在至少一个对象特征类型下的特征信息。例如，计算机设备可以根据参与者名称及作品名称，在百度百科或维基百科等知识库中查询参与者名称及作品名称对应的结构化资料，若可以在百度百科或维基百科等知识库中查询到参与者名称及作品名称对应的结构化资料，则利用正则匹配对结构化资料进行处理，生成对话参与者的风格化资料说明，也即获取所述对话参与者在至少一个对象特征类型下的特征信息。

(4)若无法在百度百科或维基百科等知识库中查询到对象名称对应的结构化资料，生成任务描述(prompt)，再将prompt输入至通用文本模型，例如chatgpt模型中，该chatgpt模型的输出即为对话参与者的风格化资料，也即所述对话参与者在至少一个对象特征类型下的特征信息。

(5)计算机设备可以基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。

综上所述，本申请实施例通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

为了更好地实施以上方法，本申请实施例还可以提供一种对话数据集的生成装置，该对话数据集的生成装置具体可以集成在计算机设备中，例如可以是终端等计算机设备。

请参阅图4，图4为本申请实施例提供的一种对话数据集的生成装置的结构示意图，该对话数据集的生成装置包括：

处理单元201，用于从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；

获取单元202，用于根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；

设置单元203，用于基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。

在一些实施例中，该对话数据集的生成装置包括：

第一获取子单元，用于采用目标信息获取工具，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息。

在一些实施例中，该对话数据集的生成装置包括：

调用子单元，用于调用预设的目标知识库；

第二获取子单元，用于根据所述对话参与者的参与者标识，从所述目标知识库中存储的知识信息中，获取所述对话参与者在至少一个对象特征类型下的特征信息。

在一些实施例中，该对话数据集的生成装置包括：

筛选子单元，用于根据所述对话参与者的参与者标识，从所述目标知识库的多个知识标识中、筛选出与所述参与者标识匹配的目标知识标识；

第三获取子单元，用于获取所述目标知识标识对应的知识信息，从所述知识信息中获取所述对话参与者在至少一个对象特征类型下的特征信息。

在一些实施例中，该对话数据集的生成装置包括：

第四获取子单元，用于获取任务描述信息，其中，所述任务描述信息包括所述对话参与者的参与者标识、以及对象特征类型的名称，所述任务描述信息用于指示预设的文本模型查找所述参与者标识对应的对象、在所述对象特征类型下的特征信息；

第一处理子单元，用于将所述任务描述信息输入所述文本模型，通过所述文本模型基于所述任务描述信息进行任务处理，得到所述对话参与者在所述对象特征类型下的特征信息。

在一些实施例中，该对话数据集的生成装置包括：

显示子单元，用于显示任务创建页面，其中，所述任务创建页面包括信息输入接口；

响应子单元，用于响应于对所述信息输入接口输入的、用户输入信息的提交操作，基于所述用户输入信息创建任务描述信息。

在一些实施例中，该对话数据集的生成装置包括：

第一确定子单元，用于从多媒体作品中提取新的目标对话文本、以及确定所述新的目标对话文本中的至少一个新的对话参与者的、新的参与者标识；

第二处理子单元，用于基于所述新的参与者标识对所述任务描述信息进行更新处理，得到新的任务描述信息；

第二处理子单元，还用于将所述新的任务描述信息输入所述文本模型，通过所述文本模型基于所述新的任务描述信息进行任务处理，得到所述新的对话参与者在所述对象特征类型下的特征信息。

在一些实施例中，该对话数据集的生成装置包括：

第二确定子单元，用于从多媒体作品中获取目标对话视频，基于所述目标对话视频确定多句对话文本，将所述多句对话文本输入预设的主题模型，以采用预设的主题模型对所述多句对话文本进行主题分割操作，得到多组目标对话文本，每一组目标对话文本对应一对话主题。

在一些实施例中，该对话数据集的生成装置包括：

第三确定子单元，用于从多媒体作品中获取目标对话音频，基于所述目标对话音频确定多句对话文本，将所述多句对话文本输入预设的主题模型，以采用预设的主题模型对所述多句对话文本进行主题分割操作，得到多组目标对话文本，每一组目标对话文本对应一对话主题。

在一些实施例中，该对话数据集的生成装置包括：

第三处理子单元，用于采用自动标注组件，基于所述文本模型输出的特征信息、对所述目标对话文本中的对话参与者进行标注处理，得到具有风格标签的对话数据集。

本申请实施例公开了一种对话数据集的生成装置，可以通过处理单元201从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；获取单元202根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；设置单元203基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。本申请实施例通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图5所示，图5为本申请实施例提供的计算机设备的结构示意图。该计算机设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中，处理器301与存储器302电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器301是计算机设备300的控制中心，利用各种接口和线路连接整个计算机设备300的各个部分，通过运行或加载存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行计算机设备300的各种功能和处理数据，从而对计算机设备300进行整体监控。

在本申请实施例中，计算机设备300中的处理器301会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的应用程序，从而实现各种功能：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图5所示，计算机设备300还包括：触控显示屏303、射频电路304、音频电路305、输入单元306以及电源307。其中，处理器301分别与触控显示屏303、射频电路304、音频电路305、输入单元306以及电源307电性连接。本领域技术人员可以理解，图5中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏303可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏303可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器301，并能接收处理器301发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器301以确定触摸事件的类型，随后处理器301根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏303而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏303也可以作为输入单元306的一部分实现输入功能。

在本申请实施例中，通过处理器301执行应用程序在触控显示屏303上生成图形界面。该触控显示屏303用于呈现图形界面以及接收用户作用于图形界面产生的操作指令。

射频电路304可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路305可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路305可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路305接收后转换为音频数据，再将音频数据输出处理器301处理后，经射频电路304以发送给比如另一计算机设备，或者将音频数据输出至存储器302以便进一步处理。音频电路305还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元306可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源307用于给计算机设备300的各个部件供电。可选的，电源307可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源307还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图5中未示出，计算机设备300还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，通过从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；然后，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；最后，基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。本申请实施例通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种对话数据集的生成方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种对话数据集的生成方法中的步骤，通过从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识；然后，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息；最后，基于所述特征信息为每组所述目标对话文本中的、对话参与者设置风格标签，得到多组具有风格标签的对话数据集。本申请实施例通过从现有的多媒体作品中提取文本信息，提取文本信息中的对话文本后，在利用预设的知识库或通用文本模型获取特征信息，采用特征信息为对话文本中的、对话参与者设置风格标签，从而可以得到大量具有风格标签的对话数据集，通过大量具有不同风格标签的对话数据集对模型进行训练，可以提高模型的训练效果；并且，根据现有的多媒体作品采用预设的知识库或通用文本模型、自动化生成大量具有不同风格标签的对话数据集，对话数据集对应的风格化程度高，可以有效提高对话数据集的质量，自动化的对话数据集生成流程简化了对话数据集的制作流程，可以节省人力物力，有效节省对话数据集的制作成本和制作时间，提高了对话数据集的制作效率。

根据本申请实施例的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的对话数据集的生成方法。

以上对本申请实施例所提供的一种对话数据集的生成方法、装置、计算机设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。

Claims

1.一种对话数据集的生成方法，其特征在于，包括：

2.根据权利要求1所述的对话数据集的生成方法，其特征在于，所述根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息，包括：

3.根据权利要求2所述的对话数据集的生成方法，其特征在于，所述采用目标信息获取工具，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息，包括：

调用预设的目标知识库；

4.根据权利要求3所述的对话数据集的生成方法，其特征在于，所述目标知识库中包括多个知识标识，每一知识标识对应设置有知识信息；

所述根据所述对话参与者的参与者标识，从所述目标知识库中存储的知识信息中，获取所述对话参与者在至少一个对象特征类型下的特征信息，包括：

5.根据权利要求2所述的对话数据集的生成方法，其特征在于，所述采用目标信息获取工具，根据所述对话参与者的参与者标识，获取所述对话参与者在至少一个对象特征类型下的特征信息，包括：

6.根据权利要求5所述的对话数据集的生成方法，其特征在于，所述获取任务描述信息，包括：

7.根据权利要求5所述的对话数据集的生成方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的对话数据集的生成方法，其特征在于，在从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识之前，还包括：

9.根据权利要求1所述的对话数据集的生成方法，其特征在于，在从多媒体作品中提取多组目标对话文本、以及确定每组所述目标对话文本中的至少一个对话参与者的参与者标识之前，还包括：

10.根据权利要求5所述的对话数据集的生成方法，其特征在于，所述方法还包括：

11.一种对话数据集的生成装置，其特征在于，包括：

12.一种计算机设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的对话数据集的生成方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的对话数据集的生成方法。