CN116226358A

CN116226358A - 对话推荐语料生成方法、装置、设备和介质

Info

Publication number: CN116226358A
Application number: CN202210918096.4A
Authority: CN
Inventors: 徐泽坤; 岳文浩
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2023-06-06

Abstract

本公开涉及一种对话推荐语料生成方法、装置、设备和介质，包括：确定目标对象的目标推荐数据组以及目标推荐数据，其中，目标推荐数据组包括多个推荐数据，各推荐数据至少包括一个标签，目标推荐数据组中各推荐数据包括相同的目标标签；确定目标对话线程，其中，目标对话线程包括多个话题节点，目标对话线程的起始话题节点为问候主题，目标对话线程的目标话题节点为目标标签，目标对话线程从知识图谱中确定；基于目标对话线程和目标推荐数据，确定目标对话线程中各话题节点对应的目标候选对话语料；响应于对目标候选对话语料的标注处理，确定目标对话语料，避免了复杂重复的人工标注过程，减少人工标注成本。

Description

对话推荐语料生成方法、装置、设备和介质

技术领域

本公开涉及自然语言处理技术领域，尤其涉及一种对话推荐语料生成方法、装置、电子设备和存储介质。

背景技术

推荐系统是人工智能在实践中最明显的成功案例之一。通常，推荐系统的主要任务是为用户指出感兴趣的潜在主题，它们可以在信息超载的情况下为用户提供合理的推荐内容。而对话推荐系统(Conversational Recommendation System，简称CRS)的应运而生，实现了对用户精准的推荐。

然而，传统的对话推荐方法普遍不智能，主要是基于历史对话数据集，通过人工标注的方式对历史对话数据集进行标注，不可避免由于一些人工因素而导致的偏差，并且无法从定量的角度出发给予对话精确的数据帮助，从而导致传统的对话推荐方法存在准确度较低的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种对话推荐语料生成方法、装置、电子设备和存储介质，减少人工标注成本。

第一方面，本公开实施例提供了对话推荐语料生成方法，包括：

确定目标对象的目标推荐数据组以及目标推荐数据，其中，所述目标推荐数据组包括多个推荐数据，各所述推荐数据至少包括一个标签，所述目标推荐数据组中各所述推荐数据包括相同的目标标签；

确定目标对话线程，其中，所述目标对话线程包括多个话题节点，所述目标对话线程的起始话题节点为问候主题，所述目标对话线程的目标话题节点为所述目标标签，所述目标对话线程从知识图谱中确定；

基于所述目标对话线程和所述目标推荐数据，确定所述目标对话线程中各所述话题节点对应的目标候选对话语料；

响应于对所述目标候选对话语料的标注处理，确定目标对话语料。

作为一种可实施方式，可选的，所述基于所述目标对话线程和所述目标推荐数据，确定所述目标对话线程中各所述话题节点对应的目标候选对话语料，包括：

基于所述目标对话线程和所述目标推荐数据，从数据库中获取每个话题节点对应的候选对话语料；

在所述候选对话语料中确定各所述话题节点对应的目标候选对话语料。

作为一种可实施方式，可选的，所述基于所述目标对话线程和所述目标推荐数据，从数据库中获取每个话题节点对应的候选对话语料，包括：

对于所述目标对话线程的目标话题节点之前的话题节点，基于话题节点，从数据库中获取各所述话题节点对应的候选对话语料；

对于所述目标对话线程的目标话题节点，基于所述目标话题节点以及所述目标推荐数据，从数据库中获取所述目标话题节点对应的候选对话语料。

作为一种可实施方式，可选的，所述在所述候选对话语料中确定各所述话题节点对应的目标候选对话语料，包括：

基于语义相似度模型或者对话检索模型，在所述候选对话语料中选取符合上下文语境的候选对话语料作为目标候选对话语料。

作为一种可实施方式，可选的，所述确定目标对话线程，包括：

以起始话题节点为起点，目标话题节点为终点，遍历所述知识图谱，查找对话线程；

基于深度优先算法选取对话线程路径长度最短的对话线程作为目标对话线程。

作为一种可实施方式，可选的，所述确定目标对话线程之前，还包括：

获取所述目标对象对应的用户画像；

所述基于深度优先算法选取对话线程路径长度最短的对话线程作为目标对话线程，包括：

基于深度优先算法选取对话线程路径最短的对话线程；

确定所述对话线程路径最短的对话线程中各话题节点对应的话题与用户画像的关键字的相似度是否满足预设阈值；

在所述对话线程路径最短的对话线程中存在一个话题节点对应的话题与用户画像的关键字的相似度不满足预设阈值时，选取对话线程路径第二短的对话线程。

作为一种可实施方式，可选的，所述确定目标对象的目标推荐数据组以及目标推荐数据之前，还包括：

基于所述目标对象的历史日志信息，确定推荐数据集；

根据所述推荐数据集中各推荐数据的标签，对所述推荐数据集进行分组得到推荐数据组；

所述获取目标对象的目标推荐数据组以及目标推荐数据，包括：

选取包括目标标签的推荐数据组作为目标推荐数据组；

基于所述目标标签从所述目标推荐数据组中选取目标推荐数据。

第二方面，本公开实施例提供一种对话推荐语料生成装置，包括：

目标推荐数据确定模块，用于确定目标对象的目标推荐数据组以及目标推荐数据，其中，所述目标推荐数据组包括多个推荐数据，各所述推荐数据至少包括一个标签，所述目标推荐数据组中各所述推荐数据包括相同的目标标签；

目标对话线程确定模块，用于确定目标对话线程，其中，所述目标对话线程包括多个话题节点，所述目标对话线程的起始话题节点为问候主题，所述目标对话线程的目标话题节点为所述目标标签，所述目标对话线程从知识图谱中确定；

目标候选对话语料确定模块，用于基于所述目标对话线程和所述目标推荐数据，确定所述目标对话线程中各所述话题节点对应的目标候选对话语料；

目标对话语料确定模块，用于响应于对所述目标候选对话语料的标注处理，确定目标对话语料。

第三方面，本公开实施例提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如第一方面中任一所述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的对话推荐语料生成方法、装置、电子设备和存储介质，在确定目标对象的目标推荐数据组以及目标推荐数据后，首选确定目标对话线程，实现基于确定的目标对话线程自动获取到目标候选语料，减少人工手动筛选目标候选语料，提高对话推荐语料生成的效率，然后基于目标对话线程和目标推荐数据，确定目标对话线程中各话题节点对应的目标候选对话语料；最后响应于对目标候选对话语料的标注处理，确定目标对话语料。本申请实施例提供的对话推荐语料生成方法，标注人员仅仅需要对目标候选对话语料进行标注处理，确定目标对话语料，避免了复杂重复的人工标注过程，减少人工标注成本的同时也保证确定的对话推荐语料的一致性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A是本公开一些实施例中语音交互方法的场景架构图；

图1B是本公开一些实施例中控制设备的硬件配置框图；

图1C是本公开一些实施例中语音交互设备的硬件配置框图；

图1D是本公开一些实施例中语音交互设备中软件配置图；

图2是本公开实施例提供的一种对话推荐语料生成方法的流程示意图；

图3A是本公开实施例提供的另一种对话推荐语料生成方法的流程示意图；

图3B是本公开实施例提供的目标对话线程的结构示意图；

图3C是本公开实施例提供的候选对话语料的示意图；

图3D是本公开实施例提供的目标候选对话语料的示意图；

图3E是本公开实施例提供的目标对话语料的示意图；

图4A是本公开实施例提供的又一种对话推荐语料生成方法的流程示意图；

图4B是本公开实施例提供的又一种对话推荐语料生成方法的流程示意图的流程示意图；

图5A是本公开实施例提供的又一种对话推荐语料生成方法的流程示意图的流程示意图；

图6是本公开实施例提供的一种对话推荐语料生成装置的结构示意图；

图7是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

针对现有技术存在的问题，本公开实施例提供的对话推荐语料生成方法，确定目标对象的目标推荐数据组以及目标推荐数据，其中，目标推荐数据组包括多个推荐数据，各推荐数据至少包括一个标签，目标推荐数据组中各推荐数据包括相同的目标标签；确定目标对话线程，其中，目标对话线程包括多个话题节点，目标对话线程的起始话题节点为问候主题，目标对话线程的目标话题节点为目标标签，所述目标对话线程从知识图谱中确定；基于目标对话线程和目标推荐数据，确定目标对话线程中各话题节点对应的目标候选对话语料；响应于对目标候选对话语料的标注处理，确定目标对话语料，即标注人员仅仅需要对目标候选对话语料进行标注处理，确定目标对话语料，避免了复杂重复的人工标注过程，减少人工标注成本的同时也保证确定的对话推荐语料的一致性。

图1A为本申请实施例提供的对话推荐语料生成方法的场景架构示意图。如图1A所示，本申请实施例提供的场景架构，包括：服务器100和语音交互设备200。

本申请实施例提供的语音交互设备200可以具有多种实施形式，例如，可以是智能音箱、电视、冰箱、洗衣机、空调、智能窗帘、路由器、机顶盒、手机、个人计算机(PersonalComputer，PC)智能电视、激光投影设备、显示器(monitor)、电子白板(electronicbulletin board)、可穿戴设备、车载设备、电子桌面(electronic table)等。

在一些实施例中，语音交互设备200接收到用户的语音指令时，可以与服务器100进行数据通信。可允许语音交互设备200通过局域网(LAN)、无线局域网(WLAN)与服务器100进行通信连接。

服务器100可以是提供各种服务的服务器，例如对语音交互设备200采集的音频数据提供支持的服务器。服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。服务器100可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

语音交互设备200可以是硬件，也可以是软件。当语音交互设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当语音交互设备200为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的对话推荐语料生成方法可以通过服务器100执行，也可以通过语音交互设备200执行，还可以通过服务器100和语音交互设备200共同执行，本申请对此不做限定。

图1B示出了根据示例性实施例中语音交互设备200的硬件配置框图。如图1B所示语音交互设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。语音交互设备200可以通过通信器220服务器100建立控制信号和数据信号的发送和接收。

用户接口280，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。语音交互设备200可以设置至少一个麦克风。在另一些实施例中，语音交互设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，语音交互设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在语音交互设备200上，或者麦克风通过有线或者无线的方式与语音交互设备200相连接。当然，本申请实施例对麦克风在语音交互设备200上的位置不作限定。或者，语音交互设备200可以不包括麦克风，即上述麦克风并未设置于语音交互设备200中。语音交互设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在语音交互设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制语音交互设备200的整体操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些示例中，智能设备的操作系统为Android系统为例，如图1C所示，语音交互设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图1C所示，硬件层可包括图1B所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于语音交互设备200与服务器100的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，语音交互设备200中的语音识别应用启动，语音交互设备200与服务器100建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将语音交互设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图1D对本申请实施例提供的一种语音识别网络架构进行描述。

参见图1D，图1D为本申请实施例提供的一种语音交互网络架构示意图。图1D中，语音交互设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示语音交互设备执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图1D所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图1D所示架构处理输入语音交互设备的信息的过程进行举例描述，以输入语音交互设备的信息为通过语音输入的语音指令为例：

[语音识别]

语音交互设备可在接收到通过语音输入的语音指令后，对语音指令的音频进行降噪处理和特征提取，这里的降噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图，

[业务管理]

语义理解模块根据对语音指令的文本的语义解析结果，向相应的业务管理模块下发执行指令以执行语音指令对应的操作，以及完成用户请求此操作，并对语音指令对应的操作的执行结果进行反馈。

为了更加详细的说明对话推荐语料生成的方案，以下将以示例性的方式结合图2进行说明，可以理解的是，图2中所涉及的步骤在实际实现时可以包括更多的步骤，或者更少的步骤，并且这些步骤之间的顺序也可以不同，以能够实现本申请实施例中提供的对话推荐语料生成方法为准。

图2是本公开实施例提供的一种对话推荐语料生成方法的流程示意图，本实施例方法可由对话推荐语料生成装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于语音交互设备中。

如图2所示，该方法具体包括如下步骤：

S10、确定目标对象的目标推荐数据组以及目标推荐数据。

其中，目标推荐数据组包括多个推荐数据，各推荐数据至少包括一个标签，目标推荐数据组中各推荐数据包括相同的目标标签。

具体的，目标对象包括用户。

本申请实施例中，为模拟真实的推荐场景，首先从对话推荐系统中查找目标对象的用户日志，从用户日志中挖掘该目标对象浏览和/或观看的媒资数据，并基于挖掘的媒资数据对应的标签确定目标推荐数据组，其中，目标推荐数据组中包括多个推荐数据，每个推荐数据至少包括一个标签，目标推荐数据组中各推荐数据包括相同的目标标签，目标标签为从要推荐的目标推荐数据包括的标签中选中的标签。

其中，目标推荐数据为对话推荐系统在下一次对话过程中期望推荐的数据。

各推荐数据对应的标签可以为媒资类型、出演演员、国别或者是从简介或者评论中抽取的高频关键词等，如(爱情，冒险，好莱坞等)。

S20、确定目标对话线程。

其中，目标对话线程包括多个话题节点，目标对话线程的起始话题节点为问候主题，目标对话线程的目标话题节点为目标标签，目标对话线程从知识图谱中确定。

通过构建目标对话线程，基于目标对话线程各个话题节点，从数据库中获取各话题节点对应的目标候选语料，相比较现有技术中，基于人工手动从数据库中获取目标候选语料，本申请实施例提供的对话推荐语料生成方法实现自动获取到目标候选语料，减少人工手动筛选目标候选语料，提高对话推荐语料生成的效率。

此外，由于本申请基于知识图谱确定目标对话线程，因此，可直接在知识图谱中以问候主题为起始话题节点，以目标标签为目标话题节点对应的目标话题线程，相比较现有技术人工手动查找，查找效率较高。

在具体的实施方式中，确定目标对话线程的过程中，从起始话题节点开始，遍历知识图谱，查找以目标标签为目标话题节点的对话线程，在查找的对话线程中确定目标对话线程。

S30、基于目标对话线程和目标推荐数据，确定目标对话线程中各话题节点对应的目标候选对话语料。

在确定目标对话线程后，基于目标对话线程包括的话题节点以及目标推荐数据，确定每个话题节点对应的目标候选对话语料。

在具体的实施方式中，基于目标对话线程包括的话题节点，从数据库中筛选包括该话题节点的候选对话语料，然后从候选对话语料中确定目标候选对话语料，此外，在确定目标对话线程中各话题节点对应的目标候选对话语料的过程中，若已知目标推荐数据，则可以基于目标推荐数据选取与目标推荐数据相关度更高的目标候选对话语料，保证确定的目标候选对话语料与整个对话推荐语料语义的一致性。

S40、响应于对目标候选对话语料的标注处理，确定目标对话语料。

在确定目标候选对话语料后，标注人员通过对目标候选对话语料进行修改以及标注处理，以确保整个对话语义一致性。

本申请实施例提供的对话推荐语料生成方法，在确定目标对象的目标推荐数据组以及目标推荐数据后，首选确定目标对话线程，实现基于确定的目标对话线程自动获取到目标候选语料，减少人工手动筛选目标候选语料，提高对话推荐语料生成的效率，然后基于目标对话线程和目标推荐数据，确定目标对话线程中各话题节点对应的目标候选对话语料；最后响应于对目标候选对话语料的标注处理，确定目标对话语料。本申请实施例提供的对话推荐语料生成方法，标注人员仅仅需要对目标候选对话语料进行标注处理，确定目标对话语料，避免了复杂重复的人工标注过程，减少人工标注成本的同时也保证确定的对话推荐语料的一致性。

图3A是本公开实施例提供的另一种对话推荐语料生成方法的流程示意图，本公开实施例是在上述实施例的基础上，如图3A所示，步骤S30的具体实施方式包括：

S301、基于目标对话线程和目标推荐数据，从数据库中获取每个话题节点对应的候选对话语料。

在具体的实施方式中，对于目标对话线程的目标话题节点之前的话题节点，基于话题节点，从数据库中获取各话题节点对应的候选对话语料；

对于目标对话线程的目标话题节点，基于目标话题节点以及目标推荐数据，从数据库中获取目标话题节点对应的候选对话语料。

对于对话推荐系统，每个对话都从聊天开始，例如：“你在忙什么呢”，现有技术中对话推荐语料生成方法中，标注人员需要根据对话发展线程，从数据库中查找关于话题节点的候选对话语料，比较耗时耗力，且查找到的候选对话语料的准确度较低。为提高查找效率，本申请提供的对话推荐语料生成方法中，首先确定目标对话线程，然后基于目标对话线程包括的话题节点，从开放域对话语料库中或者爬取开放的媒资评论等数据库中检索话题节点相关的句子作为候选对话语料。

在具体的实施方式中，若给定一个话题线程，我们需要为其中的每一个话题节点查找多条对应的候选对话语料。

此外，为保证后期基于目标对话语料训练对话推荐模型的精确度，对于目标对话线程的目标话题节点之前的话题节点，基于话题节点，从数据库中获取各话题节点对应的候选对话语料；对于目标对话线程的目标话题节点，基于目标话题节点以及目标推荐数据，从数据库中获取目标话题节点对应的候选对话语料。

示例性的，结合图3B和图3C，若在步骤S20中确定的目标对话线程为“问候-开车-倒车-...-家庭”，即目标对话线程的起始话题节点为问候话题，目标对话线程的目标话题节点为家庭话题，此时，对应该目标对话线程，首先对应话题节点“问候话题”，从数据库中获取问候话题对应的候选对话语料，例如图3C中的“你在忙什么呢？”“近期在做什么呢？”“你在干什么呢？”，即获取的问候话题对应的候选对话语料包括多条，然后对应话题节点“开车话题”，从数据库中获取开车话题对应的候选对话语料，例如“他打算考驾照呢，会开车真的很方便呢。”“我这会在开车，一会给你回复”“我觉得你开车技术已经很熟练了，可以考虑上路了”，即获取的开车话题对应的候选对话语料包括多条，然后对应话题节点“倒车话题”，从数据库中获取倒车话题对应的候选对话语料，例如“单纯会开车还不行，还得会倒车”“我练倒车已经练了一周了，还是倒不进去”“你有什么倒车技巧给我说一下”。以此类推，依次获取目标话题节点之前的话题节点对应的候选对话语料，即对于目标对话线程的目标话题节点之前的话题节点，基于话题节点，从数据库中获取各话题节点对应的候选对话语料。最后对应话题节点“家庭话题”，根据确定的目标推荐数据以及该话题节点，从数据库中获取家庭话题以及目标推荐数据对应的候选对话语料，例如“直到今天，我还记得英雄和他的父母见面的情景”“能保持最后一个的温暖真是太好了”“我的家当初很小，小孩子总是不可能占有很多物质，但在我当时的心里，那些假的珠宝、漂亮的木头铅笔和橡皮，就是富可敌国”，即对于目标对话线程的目标话题节点，基于目标话题节点以及目标推荐数据，从数据库中获取目标话题节点对应的候选对话语料。

S302、在候选对话语料中确定各话题节点对应的目标候选对话语料。

在具体的实施方式中，在候选对话语料中确定各话题节点对应的目标候选对话语料，包括：

基于语义相似度模型或者对话检索模型，在候选对话语料中选取符合上下文语境的候选对话语料作为目标候选对话语料。

当确定各话题节点对应的候选对话语料后，从候选对话语料中确定各话题节点对应的目标候选对话语料，例如，基于RNN语义相似度模型或者聊天检索模型，在候选对话语料中选取符合上下文语境的候选对话语料作为目标候选对话语料，如图3D所示。

例如，确定的各话题节点对应的目标候选对话语料为“你在忙什么呢？”、“他打算考驾照呢，会开车真的很方便呢。”、“单纯会开车还不行，还得会倒车”、...、“能保持最后一个的温暖真是太好了”。

此时，标注对象通过对目标候选对话语料进行标注处理，确定目标对话语料，即标注处理后的目标对话语料为：“你在忙什么呢？”、“我打算考驾照呢，会开车真的很方便呢。”、“单纯会开车还不行，还得会倒车”、...、“《目标推荐数据》延续了上一部的温暖，家庭与成长”，如图3E所示。

图4A是本公开实施例提供的又一种对话推荐语料生成方法的流程示意图，本公开实施例是在上述实施例的基础上，如图4A所示，步骤S20的一种具体实施方式包括：

S201、以起始话题节点为起点，目标话题节点为终点，遍历知识图谱，查找对话线程。

作为一种具体的实施方式，例如，目标推荐数据为要推荐的电影，通过从要推荐的电影对应的标签中选取目标标签，将问候主题标签与目标标签以有序的方式连接起来。每个对话的初始主题都设置为问候语，目标主题是要推荐的下一部电影的选定标签。为了引导用户在话题间转移，对于创建主题线程，我们从初始主题开始，遍历知识图谱，在知识图谱中查找以问候话题为起点，以选定的下一部要推荐的电影的选定的标签为终点，遍历知识图谱，查找对话线程，此时，查找到的对话线程包括多条。

S202、基于深度优先算法选取对话线程路径长度最短的对话线程作为目标对话线程。

然后使用深度优先搜索(DFS)算法确定的最短主题路径的对话线程作为目标对话线程，遍历到知识图谱节点则为话题线程中某个具体话题。通过多次重复上述过程，直到目标推荐数据组中每个目标推荐数据都可以通过该目标对话线程连接。

作为一种具体的可实施方式，如图4B，对话推荐语料生成方法还包括：

S200、获取目标对象对应的用户画像。

用户画像的本质是用户需求描述，一种刻画用户需求的模型。用户画像在推荐系统、广告系统、商业分析、数据分析、用户增长、用户研究、产品设计、数据化运营、精准营销、量化风控等领域得到广泛应用。在数据召回阶段，用户画像用于过滤数据。

为了保证对话推荐模型训练的精度，进而保证后期用户与对话推荐系统进行对话的过程中，对话推荐系统输出的对话和用户偏好的一致，通过增加了用户画像，如果目标对话线程中对应的各话题节点与用户画像的关键字的相似度是否满足预设阈值，则采用这个话题节点，如果不在，则有一定几率拒绝本话题节点，保证对话一致性和多样性。

此时，步骤S202的具体实施方式包括：

S2020、基于深度优先算法选取对话线程路径最短的对话线程。

S2021、确定对话线程路径最短的对话线程中各话题节点对应的话题与用户画像的关键字的相似度是否满足预设阈值。

S2022、在对话线程路径最短的对话线程中存在一个话题节点对应的话题与用户画像的关键字的相似度不满足预设阈值时，选取对话线程路径第二短的对话线程。

具体的，结合图3B，目标对话线程从问候话题开始，以家庭话题结束，通过遍历知识图谱中所有节点，找到从问候到家庭的最短路径，并且话题转移过程中(例如，从问候话题转移到开车话题)，根据用户画像和当前话题的匹配，有一定概率拒绝本轮话题(即拒绝从问候话题转移到开车话题)，以保证对话话题内容和用户画像的一致性和对话的多样性。示例性的，当从问候话题转移到开车话题，若用户画像的关键字和开车话题的匹配度不满足预设阈值，则选取对话线程路径第二短的对话线程，若用户画像的关键字和开车话题的匹配度满足预设阈值，则继续进行话题转移(例如，从开车话题转移到倒车话题)，再次进行话题匹配度确定，至少对话线程路径最短的对话线程中每个话题节点与用户画像的关键字的相似度满足预设阈值，确定对话线程路径最短的对话线程为目标对话线程，否则选取对话线程路径第二短的对话线程包括的话题节点与用户画像的关键字的相似度进行匹配。

图5A是本公开实施例提供的又一种对话推荐语料生成方法的流程示意图，本公开实施例是在上述实施例的基础上，如图5A所示，步骤S10之前，还包括：

S01、基于目标对象的历史日志信息，确定推荐数据集。

S02、根据推荐数据集中各推荐数据的标签，对推荐数据集进行分组得到推荐数据组。

示例性的，为了模拟真实的推荐场景，首先确定可推荐媒资数据集，并给每个推荐的媒资打上其相关标签，标签可以是媒资类型，出演演员，国别或者是从简介或者评论中抽取的高频关键词等，如(爱情，冒险，好莱坞)。从用户日志中，挖掘目标用户的观影历史，组成关于目标用户的观影序列，并将其拆分成三到五个观影推荐数据组，拆分的原则为：每个推荐数据组的推荐电影都至少包含一个相同标签，每个推荐数据组包含一到五个推荐电影，推荐数据组的电影即为要推荐的电影。例如：目标用户的观影记录共有八部电影，即推荐数据集包括八部电影，可以拆分成多个推荐数据组，其中一个推荐数据组包含三部电影，共同含有[家庭]标签。

此时，步骤S10的具体实施方式包括：

S101、选取包括目标标签的推荐数据组作为目标推荐数据组。

S102、基于目标标签从目标推荐数据组中选取目标推荐数据。

在具体的实施方式中，可以首先从推荐数据集包括的标签中选取目标标签，然后基于目标标签确定目标推荐数据组，即选取包括目标标签的推荐数据组作为目标推荐数据组。然后从目标推荐数据组中依次选取推荐数据作为目标推荐数据。

图6是本公开实施例提供的一种对话推荐语料生成装置的结构示意图，如图6所示，对话推荐语料生成装置包括：

目标推荐数据确定模块610，用于确定目标对象的目标推荐数据组以及目标推荐数据，其中，目标推荐数据组包括多个推荐数据，各推荐数据至少包括一个标签，目标推荐数据组中各推荐数据包括相同的目标标签；

目标对话线程确定模块620，用于确定目标对话线程，其中，目标对话线程包括多个话题节点，目标对话线程的起始话题节点为问候主题，目标对话线程的目标话题节点为所述目标标签，目标对话线程从知识图谱中确定；

目标候选对话语料确定模块630，用于基于目标对话线程和目标推荐数据，确定目标对话线程中各话题节点对应的目标候选对话语料；

目标对话语料确定模块640，用于响应于对目标候选对话语料的标注处理，确定目标对话语料。

本公开实施例提供的对话推荐语料生成装置，确定目标对象的目标推荐数据组以及目标推荐数据，其中，目标推荐数据组包括多个推荐数据，各推荐数据至少包括一个标签，目标推荐数据组中各推荐数据包括相同的目标标签；确定目标对话线程，其中，目标对话线程包括多个话题节点，目标对话线程的起始话题节点为问候主题，目标对话线程的目标话题节点为目标标签，所述目标对话线程从知识图谱中确定；基于目标对话线程和目标推荐数据，确定目标对话线程中各话题节点对应的目标候选对话语料；响应于对目标候选对话语料的标注处理，确定目标对话语料，即标注人员仅仅需要对目标候选对话语料进行标注处理，确定目标对话语料，避免了复杂重复的人工标注过程，减少人工标注成本的同时也保证确定的对话推荐语料的一致性。

作为一种可实施方式，可选的，目标候选对话语料确定模块包括：

候选对话语料确定单元，用于基于目标对话线程和目标推荐数据，从数据库中获取每个话题节点对应的候选对话语料；

目标候选对话语料确定单元，用于在候选对话语料中确定各话题节点对应的目标候选对话语料。

作为一种可实施方式，可选的，候选对话语料确定单元的具体实现方式包括：

对于目标对话线程的目标话题节点之前的话题节点，基于话题节点，从数据库中获取各话题节点对应的候选对话语料；

作为一种可实施方式，可选的，目标候选对话语料确定单元具体实现方式包括：

作为一种可实施方式，可选的，目标对话线程确定模块具体实现方式包括：

以起始话题节点为起点，目标话题节点为终点，遍历知识图谱，查找对话线程；

作为一种可实施方式，可选的，还包括：

用户画像获取模块，用于获取目标对象对应的用户画像。

此时，基于深度优先算法选取对话线程路径长度最短的对话线程作为目标对话线程的具体实现过程包括：

基于深度优先算法选取对话线程路径最短的对话线程；

确定对话线程路径最短的对话线程中各话题节点对应的话题与用户画像的关键字的相似度是否满足预设阈值；

在对话线程路径最短的对话线程中存在一个话题节点对应的话题与用户画像的关键字的相似度不满足预设阈值时，选取对话线程路径第二短的对话线程。

作为一种可实施方式，可选的，还包括：

推荐数据集确定模块，用于基于目标对象的历史日志信息，确定推荐数据集；

推荐数据组确定模块，用于根据推荐数据集中各推荐数据的标签，对推荐数据集进行分组得到推荐数据组；

此时，目标推荐数据确定模块具体实现方式包括：

选取包括目标标签的推荐数据组作为目标推荐数据组；

基于目标标签从目标推荐数据组中选取目标推荐数据。

本发明实施例所提供的装置可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本公开还提供一种电子设备，包括：处理器，所述处理器用于执行存储于存储器的计算机程序，所述计算机程序被处理器执行时实现上述方法实施例的步骤。

图7为本公开提供的一种电子设备的结构示意图，图7示出了适于用来实现本发明实施例实施方式的示例性电子设备的框图。图7显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：一个或者多个处理器810，系统存储器820，连接不同系统组件(包括系统存储器820和处理器)的总线830。

总线830表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备800典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备800访问的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器820可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)840和/或高速缓存存储器850。电子设备800可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统860可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线830相连。系统存储器820可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块870的程序/实用工具880，可以存储在例如系统存储器820中，这样的程序模块870包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块870通常执行本发明实施例所描述的实施例中的功能和/或方法。

处理器810通过运行存储在系统存储器820中的多个程序中的至少一个程序，从而执行各种功能应用以及信息处理，例如实现本发明实施例所提供的方法实施例。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例的步骤。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本公开还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行实现上述方法实施例的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种对话推荐语料生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标对话线程和所述目标推荐数据，确定所述目标对话线程中各所述话题节点对应的目标候选对话语料，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标对话线程和所述目标推荐数据，从数据库中获取每个话题节点对应的候选对话语料，包括：

4.根据权利要求2所述的方法，其特征在于，所述在所述候选对话语料中确定各所述话题节点对应的目标候选对话语料，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定目标对话线程，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定目标对话线程之前，还包括：

获取所述目标对象对应的用户画像；

基于深度优先算法选取对话线程路径最短的对话线程；

7.根据权利要求1所述的方法，其特征在于，所述确定目标对象的目标推荐数据组以及目标推荐数据之前，还包括：

基于所述目标对象的历史日志信息，确定推荐数据集；

选取包括目标标签的推荐数据组作为目标推荐数据组；

8.一种对话推荐语料生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7中任一所述的方法。