CN117009170A

CN117009170A - 训练样本的生成方法、装置、设备及存储介质

Info

Publication number: CN117009170A
Application number: CN202211254727.3A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-11-07

Abstract

本申请公开了一种训练样本的生成方法、装置、设备及存储介质，涉及人工智能领域。方法包括：获取点击日志，点击日志中包含内容的历史点击记录，内容设置有对应的标题以及标签；从点击日志中提取第一点击记录以及第二点击记录，第一点击记录用于表征基于搜索词进行内容搜索后，对搜索得到内容对应标签的点击行为，第二点击记录用于表征基于标签进行内容搜索后，对搜索得到内容的点击行为；基于第一点击记录和第二点击记录构建第三点击记录，第三点击记录用于表征搜索词与内容之间的伪点击行为；基于第三点击记录构建训练样本，训练样本包含第三点击记录中内容对应的标题以及标题对应的词权重。本申请实施例方案在提高了训练样本的生成效率。

Description

训练样本的生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种训练样本的生成方法、装置、设备及存储介质。

背景技术

在各类社交媒体平台中，基于平台用户发布内容通过自然语言处理(NatureLanguage Processing，NPL)确定对应标题中的关键词是保证用户体验的重要环节，例如在实际应用中，标题关键词可以用于自动生成主体标签或是提高内容召回准确度等等。相关技术中，通常利用标题词权重表征各个词与内容的相关度，进而确定其中词权重较高的词为关键词。

现有技术中，平台大多利用词权重计算模型确定标题词权重，该种模型需要基于大量标注数据作为训练样本进行训练，而训练样本往往是采用人工标注方法获得，具有极高的模型训练成本。

发明内容

本申请实施例提供了一种训练样本的生成方法、装置、设备及存储介质，能够提高训练样本的生成效率。所述技术方案如下：

一方面，本申请实施例提供了一种训练样本的生成方法，所述方法包括：

获取点击日志，所述点击日志中包含内容的历史点击记录，所述内容设置有对应的标题以及标签；

从所述点击日志中提取第一点击记录以及第二点击记录，所述第一点击记录用于表征基于搜索词进行内容搜索后，对搜索得到内容对应标签的点击行为，所述第二点击记录用于表征基于标签进行内容搜索后，对搜索得到内容的点击行为；

基于所述第一点击记录和所述第二点击记录构建第三点击记录，所述第三点击记录用于表征搜索词与内容之间的伪点击行为；

基于所述第三点击记录构建训练样本，所述训练样本包含所述第三点击记录中内容对应的标题以及所述标题对应的词权重。

另一方面，本申请实施例提供了一种训练样本的生成装置，所述装置包括：

获取模块，用于获取点击日志，所述点击日志中包含内容的历史点击记录，所述内容设置有对应的标题以及标签；

提取模块，用于从所述点击日志中提取第一点击记录以及第二点击记录，所述第一点击记录用于表征基于搜索词进行内容搜索后，对搜索得到内容对应标签的点击行为，所述第二点击记录用于表征基于标签进行内容搜索后，对搜索得到内容的点击行为；

第一构建模块，用于基于所述第一点击记录和所述第二点击记录构建第三点击记录，所述第三点击记录用于表征搜索词与内容之间的伪点击行为；

第二构建模块，用于基于所述第三点击记录构建训练样本，所述训练样本包含所述第三点击记录中内容对应的标题以及所述标题对应的词权重。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如上述方面所述的训练样本的生成方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段程序，所述至少一条指令由处理器加载并执行以实现如上述方面所述的训练样本的生成方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的训练样本的生成方法。

本申请实施例中，计算机设备在获取点击日志中的第一点击记录以及第二点击记录的基础上，以共同的标签为桥梁，构建第一点击记录中的搜索词和第二点击记录的内容之间的伪点击行为也即第三点击记录，并进一步的基于确定第三点击记录中内容对应标题中各词的词权重，以获取训练样本；基于标签既可以与搜索词之间具有搜索点击关系，也可以与内容之间具有搜索点击关系，计算机设备在点击日志存储数据有限的情况下，以标签为桥梁充分利用有限点击日志，构建大量第三点击记录，进而获取大量训练样本，在提高了训练样本生成效率的基础上，基于上述训练样本的生产方法中以反映用户点击因素的标签为依据，保证了所得训练样本的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的训练样本的生成方法的流程图；

图3示出了本申请一个示例性实施例提供的点击记录的示意图；

图4示出了本申请一个示例性实施例提供的构建第三点击记录的示意图；

图5示出了本申请一个示例性实施例提供的词权重计算模型的示意图；

图6示出了本申请一个示例性实施例提供的训练样本构建方法的流程图；

图7示出了本申请一个示例性实施例提供的分词处理的示意图；

图8示出了本申请另一个示例性实施例提供的训练样本构建方法的示意图；

图9示出了本申请另一个示例性实施例提供的训练样本构建方法的示意图；

图10示出了本申请一个示例性实施例提供的训练样本的生成装置的结构框图；

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

主题标签(Hashtag)是指一种社交媒体平台使用的内容标记方式，通过“#”标记内容中的关键词，以便用户进行对一类具体内容进行检索。通过主题标签，平台对海量内容进行聚类，并进一步将主题标签点击行为引入行为序列，进而提高内容推荐的精确度以及推送效率。

光学字符识别(Optical Character Recognition，OCR)是一种图像处理方法，电子设备通过检查图片中字符的亮暗，确定字符形状，并通过字符识别的方法将其翻译成计算机文字，也即从图片中提取其所显示的文本信息。光学字符识别技术中，包括图像准备预处理、文字识别、文本信息后处理等过程。

其请参考图1，其示出了本申请一个示例性实施例提供的实施环境的示意图。本实施例以训练样本用于训练词权重计算模型为例进行说明，该实施环境中包括计算机设备110和服务器120。其中，计算机设备110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

计算机设备110是具有通过网络实现评论功能的电子设备。该电子设备可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

并且，该词权重计算功能可以应用于论坛、博客中的内容推荐功能、服务类应用程序(比如外卖应用、购物应用、票务应用等等)提供的服务召回功能或内容类应用程序(比如新闻应用、视频应用、短视频应用等等)提供的内容召回功能等等，本申请实施例对此不作限定。

图1中，计算机设备110中安装有服务类或内容类应用程序，且该服务类或内容类应用程序支持确定所发布服务或内容的词权重。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，服务器120为计算机设备110中应用程序的后台服务器，用于为应用程序提供词权重计算模型。

本实施例中，服务器120中设置有词权重计算模型，该词权重计算模型需要通过带有词权重标注的训练样本进行有监督训练，并且经过训练的词权重训练模型具有计算确定内容对应的标题中各个词语的词权重的功能。

如图1所示，计算机设备110首先获取服务器120中的点击日志，进而基于点击日志中的第一点击记录111和第二点击记录112构建伪点击行为，也即第三点击记录113，在基于第三点击记录113构建得到训练样本114的情况下，计算机设备110将所得训练样本114传输至服务器120，用于训练词权重计算模型。

在一种可能的实施方式中，上述训练样本可以由服务器120生成并应用，也可以由计算机生成并应用于服务器120处，本实施例对此不作限定。

为了方便表述，下述各个实施例以训练样本的生成方法由计算机设备执行为例进行说明。

需要进行说明的是，本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参考图2，其示出了本申请一个示例性实施例提出的训练样本的生成方法的流程图。本申请以该方法应用于图1所示的计算机设备进行说明。

步骤201，获取点击日志，点击日志中包含内容的历史点击记录，内容设置有对应的标题以及标签。

其中，历史点击记录中至少包含有用户点击的内容，以及内容所对应的标题和标签。如图3所示，内容对应的标签是指在社交媒体平台中常用于归类内容的以“#”分隔的词语或词语的组合，例如图3示例的内容中的“#旅游攻略”部分，即为该内容的标签；内容对应的标题是指平台发布的内容在展现时所显示的除标签以外的文字部分，例如图3示例的内容中的“假期出游，北国风光7天超全攻略”部分。

步骤202，从点击日志中提取第一点击记录以及第二点击记录，第一点击记录用于表征基于搜索词进行内容搜索后，对搜索得到内容对应标签的点击行为，第二点击记录用于表征基于标签进行内容搜索后，对搜索得到内容的点击行为。

基于内容对应标签多是由人工基于发布内容的核心意思确定，或是由词权重模型基于内容中各个词语的词权重确定，因此标签在一定程度上表征了内容的类型以及内容核心，进而第一点击记录指示了用户在基于特定搜索词进行内容搜索时，所期望得到的内容类型。示意性的，如图3所示，第一点击记录表征了在基于搜索词“旅游”进行内容搜索时，用户在展现内容中点击标签“#摄影”的行为，上述第一点击记录指示了用户在搜索“旅游”时，实际期望为获得与“摄影”相关的内容。

相应的，第二点击记录指示了用户在基于特定标签进行内容搜索时所期望得到的内容，且基于平台的内容展现方式包括展现内容标题，用户对特定内容的点击行为，指示了该内容对应的标题表达了用户所期望获得的内容信息。示意性的，如图3所示，第二点击记录表征了在基于标签“摄影”进行内容搜索时，用户在展现内容中点击对应标题为“用光影留住街边故事”的内容的行为，上述第二点击记录指示了用户在基于标签“#摄影”进行内容搜索时，实际期望为获得的内容，或内容偏好。

可选的，计算机设备可以首先从点击日志中提取第四点击记录，其中，第四点击记录用于表征基于搜索词进行内容搜索后，对搜索得到内容的点击行为。进一步的，在第四点击记录的数据量小于数据量阈值的情况下，从点击日志中提取第一点击记录以及第二点击记录，也即在平台活跃用户数量较少或是用户点击日志中直接基于某一特定搜索词进行内容搜索并点击相应内容的点击行为记录较少时，例如，在点击日志所存有用户基于搜索词“旅游”进行内容搜索，并直接点击内容的点击记录少于100条的情况下，平台可以通过获取上述第一点击记录和第二点击记录间接确定搜索词和内容之间的点击行为，也即计算机设备首先获取基于搜索词“旅游”进行内容搜索时，对于标签的点击行为，以对标签“#旅游攻略”的点击行为为例，进一步的，计算机设备获取基于标签“#旅游攻略”进行内容搜索时的相应点击内容，也即第二点击记录。

需要说明的是，在第四点击记录的数据量大于数据量阈值的情况下，计算机设备无需提取点击日志中的第一点击记录和第二点击记录，仅基于第四点击记录即可通过下述实施例中说明的方式构建训练样本。

步骤203，基于第一点击记录和第二点击记录构建第三点击记录，第三点击记录用于表征搜索词与内容之间的伪点击行为。

其中，第三点击记录是指表征基于搜索词进行内容搜索后，对搜索得到内容的点击行为，计算机设备通过第一点击记录和第二点击记录中所含搜索词信息以及点击内容信息构建一个并未基于用户真正点击行为获得的伪点击行为。

在一种可能的实施方式中，如图4所示，计算机设备以第一点击记录以及第二点击记录中的标签为中间节点，基于第一点击记录中的搜索词以及第二点击记录中的内容构建第三点击记录。示意性的，基于第一点击记录中包含有搜索词“旅游”和标签“#旅游攻略”之间的搜索点击行为，第二点击记录中包含有标签“#旅游攻略”和对应标题为“旅游爱好者一定要自驾去草原”的内容之间的搜索点击行为，计算机设备以标签“#旅游攻略”为中间节点构建一个搜索词“旅游”和对应标题为“旅游爱好者一定要自驾去草原”的内容之间的伪点击行为作为第三点击记录。进而，计算机设备可以基于有限的点击日志获得大量的表征搜索词和内容之间点击行为的点击记录，丰富数据信息。

步骤204，基于第三点击记录构建训练样本，其中，训练样本包含第三点击记录中内容对应的标题以及标题对应的词权重。

在通过设计伪点击行为获得第三点击记录的基础上，本申请实施例通过确定第三点击记录中内容对应的标题中的关键词，并进而标注各个词的词权重，得到训练样本，该训练样本用于训练如图5所示的词权重计算模型。

其中，词权重用于表征词语在内容对应标题中的重要程度。例如，在标题“家乡的肉夹馍很正宗”中，词语“肉夹馍”为标题的核心具有较高词权重，进而在简化情况下，计算机设备可以通过标注“肉夹馍”一词的词权重为1，相应的，完成上述词权重标注的内容对应的标题即为训练样本。

综上所述，在本申请实施例中，计算机设备在获取点击日志中的第一点击记录以及第二点击记录的基础上，以共同的标签为桥梁，构建第一点击记录中的搜索词和第二点击记录的内容之间的伪点击行为也即第三点击记录，并进一步的基于确定第三点击记录中内容对应标题中各词的词权重，以获取训练样本；基于标签既可以与搜索词之间具有搜索点击关系，也可以与内容之间具有搜索点击关系，计算机设备在点击日志存储数据有限的情况下，以标签为桥梁充分利用有限点击日志，构建大量第三点击记录，进而获取大量训练样本，在提高了训练样本生成效率的基础上，基于上述训练样本的生产方法中以反映用户点击因素的标签为依据，保证了所得训练样本的准确度。

在社交内容媒体平台中，基于发布内容确定内容中各个词的词权重进而锁定内容中的关键词是内容推荐、内容召回等环节十分重要的一环。例如，在离线时，计算机设备可以基于内容中的关键词自动生成标签，相较于人工确定内容对应标签的方式，在提高效率的同时节省人力；或是，在基于搜索词进行内容召回时，计算机设备可以基于词权重分档比较搜索词与内容对应标题中词语的相似度进行内容召回，也即更多的考虑词权重高词语之间的相似度，在保证内容召回精确度的同时丰富了召回结果。

相关技术中，在获取对应内容的情况下，计算机设备通常利用词权重计算模型计算确定内容中各个词语的词权重。上述词权重计算模型由bert有监督训练模型训练得到。在有监督训练中，需要大量训练样本作为监督参与。如图5所示，本申请实施例以训练用于确定内容对应的标题中各个词语的词权重的词权重计算模型为例进行说明。

如图5所示，在用于训练该词权重计算模型的bert有监督训练模型中，包括有词嵌入单元501、Transformer单元502、池化单元503以及softmax函数单元504。计算机设备首先对于输入的内容对应标题按字进行切分得到输入词嵌入单元501中的token，例如，对于标题“家乡的肉夹馍很正宗”，进行切分分别得到各个字构成的token。进而以上述token为输入，训练模型通过词嵌入单元501对各个字进行词嵌入处理，得到其词向量。进一步的，训练模型将上述词向量作为Transformer单元502的输入，通过多层Transformer进行特征交叉，学习各个词嵌入向量之家的交叉关系，获得可以表征各个词嵌入向量之间特征关系的词嵌入注意力向量，其中词嵌入注意力向量对应的权重指示了向量间的关联程度。池化单元503基于词嵌入注意力向量进行加权融合，也即将属于同一个词的所有字对应的词嵌入注意力向量进行融合，得到按词切分的内容对应标题的词嵌入表示。

最终，训练模型通过softmax函数单元504，以分类任务的方式预测所得词嵌入表示的词权重，并以训练样本作为预测过程的监督，对词权重计算模型进行训练。在本申请实施例中，计算机设备通过交叉熵函数计算分类过程的损失值，其中，通过交叉熵函数计算损失值得过程可以通过如下公式进行表示：

其中，y_ic指示训练样本词权重i和预测词权重c是否相符，当预测词权重即为训练样本词权重时，也即预测结果准确时，y_ic取1，否则取0，p_ic为预测值，指示训练样本词权重与预测词权重相符的概率。

需要说明的是，在简化情景中，上述softmax函数可以通过执行二分类任务的方式确定词权重，也即softmax函数仅需预测词嵌入表示是否重要，并确定重要的词嵌入表示对应的词权重为1，相应的，不重要的词嵌入表示对应的词权重为0。

需要说明的是，上述训练过程中应用到的词权重计算模型需首先通过预训练获得基础的模型参数。其中，预训练中使用的点击日志可以是本方案所针对的应用平台的点击日志，而在对应平台的数据量较少时，为保证训练样本的数量和质量，点击日志还可以来自于与本方案对应的应用平台生态内容相近的其他媒体平台。

在上述词权重模型的训练方法中，计算机设备需要基于大量已标注词权重的内容作为训练样本对训练过程进行监督，在相关技术中，上述训练样本往往通过人工标注得到，也即需要人工对于随机获得的内容，确定其标题中可以反映该内容核心的关键词，因此训练样本的获得过程将会耗费大量的人力，标注成本高且标注效率低，进而会伴随着在标注为关键词的词语有限的情况下，词权重计算模型的计算结果精确度低的问题。

相较于相关技术中，通过人工标注的方式获取词权重计算模型的训练样本，在本申请实施例中，计算机设备基于存储有海量数据的点击日志自行完成词权重标注生成训练样本，在节省人力的同时提高了训练样本的生成效率。

在一种可能的实施方式中，在第一点击记录表征第一搜索词与第一标签之间的点击行为，且第二点击记录表征第一标签与第一内容之间的点击行为的情况下，基于第一搜索词和第一内容构建第三点击记录，第三点击记录用于表征第一搜索词与第一内容之间的伪点击行为。

进一步的，如图6所示，关于计算机设备基于上述第三点击行为得到训练样本的方法，可以包括以下步骤。

步骤601，计算机设备确定第一点击记录对应的第一点击概率，以及第二点击记录对应的第二点击概率。

基于在点击次数较少的情况下，点击行为对于构建训练样本不具备统计意义。在一种可能的实施方式中，在第一点击记录中标签的点击次数大于第一次数阈值的情况下，计算机设备基于第一点击记录中搜索词的搜索次数以及标签的点击次数，确定第一点击记录对应的第一点击概率。例如，在第一点击记录中，用户基于第一搜索词进行内容搜索后点击第一标签的次数大于100次，则进一步的基于搜索次数和点击次数计算第一点击概率。

其中，第一点击概率即为第一点击记录中标签对应的CTR(Click-Through-Rate，点击通过率)，第一点击概率表征了计算机设备基于第一搜索词进行内容搜索后，用户点击所展现第一标签的概率，也即第一点击概率的计算方式可以表示为：

第一点击概率＝第一点击次数/第一搜索次数

其中，第一搜索次数指示了计算机设备基于第一搜索词进行内容搜索时，展现含有第一标签的内容的次数，第一点击次数指示了在上述情况下，用户点击第一标签的次数。

相应的，在第二点击记录中内容的点击次数大于第二次数阈值的情况下，基于第二点击记录中标签的搜索次数以及内容的点击次数，确定第二点击记录对应的第二点击概率。例如，在第二点击记录中，用户基于第一标签进行内容搜索后点击第一内容的次数大于100次，则进一步的基于第一标签的搜索次数和第一内容的点击次数确定第二点击概率，在点击次数小于100次的情况下，则该第二点击记录不作为构建第三点击记录的依据。

其中，第二点击概率即为第二点击记录中内容对应的CTR，第二点击概率表征了计算机设备基于第一标签进行内容搜索后，用户点击所展现第一内容的概率，也即第二点击概率的计算方式可以表示为：

第二点击概率＝第二点击次数/第二搜索次数

其中，第二搜索次数指示了计算机设备基于第一标签进行内容搜索时，展现含有第一内容的次数，第二点击次数指示了在上述情况下，用户点击第一内容的次数。

步骤602，计算机设备基于第一点击概率和第二点击概率的概率乘积，确定第三点击记录的第三点击概率。

基于第三点击记录为根据第一点击记录和第二点击记录构建的伪点击行为，构建过程以第一标签为中间节点，也即两点击行为在构建过程中呈现递进关系，进而第三点击记录对应的点击概率应为第一点击概率和第二点击概率的乘积。进而确定第三点击概率的计算方式可以表示为：

第三点击概率＝第一点击概率×第二点击概率

步骤603，在第三点击概率大于第一概率阈值的情况下，计算机设备基于第三点击记录构建训练样本。

在第三点击概率较小的情况下，第三点击记录不具备统计意义，进而计算机设备基于设置的第一概率阈值确定可以进一步用于构建训练样本的第三点击记录。关于基于第三点击记录构建训练样本的方法，可以包括以下子步骤：

1、在第三点击概率大于第一概率阈值的情况下，基于第三点击记录中的搜索词以及内容对应的标题，确定第一关键词。

在一种可能的实施方式中，如图7所示，计算机设备对第三点击记录中内容对应的标题进行分词处理，得到标题分词结果。例如，在内容对应的标题为“狂欢西北购物节”时，对该标题进行分词处理后，可以得到标题分词结果为“狂欢”、“西北”、“购物节”。

相应的，计算机设备对第三点击记录中的搜索词进行分词处理，得到搜索词分词结果。例如，在搜索词为“西北购物攻略”时，通过分词处理可以得到搜索词分词结果“西北”、“购物”、“攻略”。

进一步的，计算机设备将标题分词结果与搜索词分词结果中语义相似度大于相似度阈值的词确定为第一关键词。基于用户用于进行内容搜索的搜索词一般精简表达了用户期望内容的核心意思，第三点击记录表征了用户基于搜索词获得内容后对于对应内容的伪点击行为，也即内容与搜索词意思相近，进而内容标题中语义和搜索词语义相近的词即为可以表达对应内容核心意思的关键词。

可选的，计算机设备可以通过正向最大匹配法(Forward Maximum Matchingmethod，FMM)，逆向最大匹配法(Backward Maximum Matching method，BMM)，双向扫描法等方式对搜索词或是标题进行分词处理，本申请对此不作限定。

可选的，计算机设备可以通过确定标题分词结果以及搜索词分词结果中各个词语对应词向量之间的距离确定搜索词分词结果和标题分词结果之间的语义相似度。需要说明的是，上述确定语义相似度的方式仅作说明用，本申请对此不作限定。

2、基于第三点击记录中内容对应的标题以及第一关键词构建训练样本。

基于训练样本即为标注出对应标题中关键词的内容，计算机设备在获取到第三点击记录中的内容以及第一关键词的情况下，对第一关键词进行标注，进而得到训练样本。

3、基于第三点击概率确定训练样本中第一关键词对应的第一词权重。

关于标注第一关键词的方法，可以是计算机设备通过确定标题词权重进行关键词标注。计算机设备可以确定内容对应的标题中各个词语的词权重，并设置词权重阈值，也即确定词权重大于该阈值的词语为标题中的关键词，进而完成标注。

在一种可能的实施方式中，在第三点击概率大于第二概率阈值的情况下，计算机设备确定第一关键词对应的第一词权重为1，其中，第二概率阈值大于第一概率阈值。相应的，在第三点击概率小于第二概率阈值的情况下，确定第一关键词对应的第一词权重为0。

基于第三点击概率即为第三点击记录中内容对应标题的关键词的词权重，计算机设备可以首先判断第三点击概率也即词权重是否大于第二概率阈值，以便判断第一搜索词和第一内容之间的相关度，也即与第一搜索词语义相近的第一关键词与第一内容之间的相关度。在第三点击概率大于第二概率阈值的情况下，第一关键词和内容间具有较高的相关度，进而在简化的情况下，计算机设备可以确定第一关键词的词权重为1，非第一关键词的词权重为0，以便对标题中的各个词语进行标注。

可选的，计算机设备还可以分档表示不同词的重要程度，进而计算机设备可以基于多重权重范围确定标题中词语的词权重，并对关键词进行标注。

需要说明的是，在确定内容对应标题的关键词后，关键词可以用于应用程序在离线状态下自行生成内容对应标签，进而可以丰富标签数据，也即可以进一步丰富如图4所示的点击增强图，构成增强网络提高数据丰富度。

基于上述构建第三点击对的过程是以标签为中间节点进行的，而在应用过程中，用户点击某一内容的行为往往不仅是基于对标签所对应的内容类型进行的，还会在一定程度上受到除去内容对应的标签以及标题外的其他文字信息的影响。例如，在内容以视频形式发布的情况下，视频内容对应的封面帧中包含的文字信息同样会影响用户点击该内容的行为。此时，仅基于标签建立构建用于生成训练样本的第三点击行为，则会造成训练样本内容的局限性，在某个词语在平台中尚未具备对应标签时，基于上述方式构建第三点击内容并进一步确定训练样本时，该词语成为关键词的概率将会偏低甚至为0，上述概率可能并不能准确表征该词语在内容标题中的重要程度，进而影响训练样本的准确度。

在第三点击记录的内容为视频内容，且所设置有对应的视频封面的情况下，如图8所示，基于第三点击记录构建训练样本的方式，可以包括以下步骤：

步骤801，对视频封面进行光学字符识别，得到封面文本。

在以视频形式展现的内容中，视频封面中的文本内容往往较为精简的概括了内容的核心，结合视频内容向用户进行展现的方式为内容对应的标题和视频封面同时展现，用户对某一内容的点击行为不仅受到内容对应的标题中关键词的影响，还会受到视频封面中文本的影响。进而计算机设备可以通过OCR技术，获取视频封面中的文本内容也即封面文本。

步骤802，基于所封面文本，从视频内容对应的标题中确定第二关键词。

在一种可能的实施方式中，计算机设备确定封面文本中的封面关键词。基于封面文本中包含有与内容相关度较低的噪声词，例如：你、我、他等，计算机设备首先对于上述封面文本进行去噪处理。

关于确定去噪词的方式可以是基于传统文本停用词词典，和/或互联网公开词典等获取去噪词，还可以是计算机设备对视频内容的视频帧进行光学字符识别，得到视频帧文本，并对视频帧文本进行词频统计(Term Frequency，TF)，得到去噪词，进而计算机设备基于去噪词对视频帧文本以及封面文本进行去噪处理。在视频内容中常见的噪声词为台标词等，这类噪声词往往在视频内容中的每一视频帧中均会出现，进而计算机设备可以确定视频帧文本中出现频率较高的词语为该类噪声词，进而在基于OCR确定视频中每一视频帧的文本内容的集合也即视频帧文本的情况下，计算机设备计算视频帧文本中各个词的词频，并确定其中词频大于阈值的词语为噪声词。其中，TF表征了词语在视频帧文本以及封面文本中出现的频率，为防止TF与文本长度成正比，从而影响其对于词语重要性的表达能力，在应用中通常对该值进行归一化处理，进而TF的计算公式可以表示为：

n_i,j是指词语t_i在文本d_j中出现的次数，∑_kn_k,j是指文本d_j中所有字词t_k出现次数之和，也即文本总词数。

基于去噪后的视频帧文本以及封面文本，计算机设备确定封面文本中各个词汇的TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆向文件频率)，并将封面文本中TF-IDF大于阈值的词汇确定为封面关键词。计算机设备以去噪后的视频帧文本以及封面文本为计算词频的文档文本，进而计算封面文本中各个词语在该文档文本中出现的频率，相应的，计算机设备计算封面文本在各个视频帧文本以及封面文本集合中的IDF，以确定词语对于文本区别度的贡献。其中，关于IDF的计算方式可以通过以下公式进行表示：

其中，D为文件总数目，{j:t_i∈d_j}表示包含词语t_i的文件数目，也即t_i出现在文件中的次数n_i,j≠0的文件数目。基于IDF由对总文件数目与包含词语文件数目的商取对数得到，也即IDF与包含词语的文件数目成反比，进而IDF可以表征词语的类别区分能力。

在确定词语的词频以及IDF的基础上，计算机设备可以通过以下公式计算确定该词语的TF-IDF，并在TF-IDF大于阈值的情况下确定对应词汇为封面关键词，也即可以指示封面文本核心意思的词语。

TF-IDF＝TF_i,j*IDF_i

进一步的，基于封面关键词，从视频内容对应的标题中确定第二关键词，其中，第二关键词与封面关键词的语义相似。与上述实施例中基于搜索词确定第一关键词相同，计算机设备首先对视频内容对应的标题进行分词处理，得到标题分词结果，对比标题分词结果与封面关键词的语义相似度，并确定标题分词结果中大于语义相似度阈值的词语为第二关键词。计算机设备基于封面文本确定第二关键词可以丰富标题关键词提高训练样本的准确度。

步骤803，基于视频内容对应的标题以及第二关键词构建训练样本。

在确定第二关键词的情况下，计算机设备基于视频内容对应的标题对其中的第二关键词进行标注，进而得到训练样本。其中，标注第二关键词的方法同步骤603，此处不再赘述。

综上所述，对于点击行为对应视频内容的第三点击记录，在基于第三点击记录构建训练样本时还需考虑到视频封面文本对于用户点击行为的影响，并进一步基于视频封面帧中的封面文本对应的封面关键词确定第二关键词，以突破有限标签对关键词范围造成的局限，提高关键词的丰富度，进而提高训练样本的准确度。

基于上述实施例中，依据内容的封面帧中的封面文本丰富关键词的方式仅适用于视频内容，在本申请实施例中，为进一步丰富关键词提高训练样本的准确度，计算机设备可以基于作为中间节点的标签对标题进行集合，并进而丰富与之相关的词语范围。

在一种可能的实施方式中，计算机设备获取第三点击记录对应标签下的标题集合，并对标题集合中的标题进行TF-IDF计算，确定标题关键词。其中，计算机设备基于标题集合确定第三点击记录中内容对应标题中各个词语的词频，并相应的基于标题集合中包含各个词语的标题个数确定词语的IDF。计算机设备可以通过上述步骤802中所含公式确定标题中各个词语的TF-IDF，并确定其中TF-IDF大于阈值的词语为标题关键词。标题关键词指示了在内容中包含了对应标签的情况下，出现概率较大且范颖内容核心的其他词语，扩展了词语范围，可以突破有限标签的局限性。

进一步的，基于标题关键词，计算机设备从第三点击记录中内容对应的标题中确定第三关键词，其中，第三关键词与标题关键词的语义相似。与上述实施例相同，计算机设备首先对内容对应的标题进行分词处理，得到标题分词结果，进而对比标题分词结果与标题关键词的语义相似度，并确定标题分词结果中相似度大于阈值的词语为第三关键词。

进而，计算机设备基于第三点击记录中内容对应的标题以及第三关键词构建训练样本。本方法同步骤603，此处不再赘述。

可选的，在第三点击记录对应内容为视频内容的情况下，计算机设备可以结合本申请实施例所述方法与上述基于封面文本确定训练样本的方法，进一步的丰富关键词，提高训练样本的准确度。

示意性的，如图9所示，对于视频内容，计算机设备在获取视频封面中的封面文本，并基于封面文本确定指示封面文本核心的封面关键词，相应的，计算机设备基于内容对应标签获取标题集合，并进而通过TF-IDF计算确定标题关键词。进一步的，计算机设备对内容对应的标题进行分词处理，得到标题分词结果，并比较标题分词结果与上述封面关键词和标题关键词的相关度。基于所设置阈值，计算机设备确定标题分词结果中与封面关键词和/或标题关键词相关度大于阈值的词语为关键词(下划线标注词)，并进一步的通过确定关键词词权重对内容对应标题进行标注，得到训练样本。

请参考图10，其示出了本申请一个示例性实施例提出的训练样本的生成方法的装置框图。本申请以该装置应用于图1所示的计算机设备进行说明。

获取模块1001，用于获取点击日志，所述点击日志中包含内容的历史点击记录，所述内容设置有对应的标题以及标签；

提取模块1002，用于从所述点击日志中提取第一点击记录以及第二点击记录，所述第一点击记录用于表征基于搜索词进行内容搜索后，对搜索得到内容对应标签的点击行为，所述第二点击记录用于表征基于标签进行内容搜索后，对搜索得到内容的点击行为；

第一构建模块1003，用于基于所述第一点击记录和所述第二点击记录构建第三点击记录，所述第三点击记录用于表征搜索词与内容之间的伪点击行为；

第二构建模块1004，用于基于所述第三点击记录构建训练样本，所述训练样本包含所述第三点击记录中内容对应的标题以及所述标题对应的词权重。

可选的，所述第一构建模块1003，还用于：

以所述第一点击记录以及所述第二点击记录中的标签为中间节点，基于所述第一点击记录中的搜索词以及所述第二点击记录中的内容构建所述第三点击记录。

可选的，所述第一构建模块1003，还用于：

在所述第一点击记录表征第一搜索词与第一标签之间的点击行为，且第二点击记录表征所述第一标签与所述第一内容之间的点击行为的情况下，基于所述第一搜索词和所述第一内容构建所述第三点击记录，所述第三点击记录用于表征所述第一搜索词与所述第一内容之间的伪点击行为。

可选的，所述第一构建模块1003，还用于：

确定所述第一点击记录对应的第一点击概率，以及所述第二点击记录对应的第二点击概率；

基于所述第一点击概率和所述第二点击概率的概率乘积，确定所述第三点击记录的第三点击概率；

所述第二构建模块1004，还用于：

在所述第三点击概率大于第一概率阈值的情况下，基于所述第三点击记录构建所述训练样本。

可选的，在所述确定所述第一点击记录对应的第一点击概率，以及所述第二点击记录对应的第二点击概率的情况下，所述第一构建模块1003，还用于：

在所述第一点击记录中标签的点击次数大于第一次数阈值的情况下，基于所述第一点击记录中搜索词的搜索次数以及标签的点击次数，确定所述第一点击记录对应的所述第一点击概率；

在所述第二点击记录中内容的点击次数大于第二次数阈值的情况下，基于所述第二点击记录中标签的搜索次数以及内容的点击次数，确定所述第二点击记录对应的所述第二点击概率。

可选的，在所述第三点击概率大于第一概率阈值的情况下，基于所述第三点击记录构建所述训练样本的情况下，所述第二构建模块1004，还用于：

在所述第三点击概率大于所述第一概率阈值的情况下，基于所述第三点击记录中的搜索词以及内容对应的标题，确定第一关键词；

基于所述第三点击记录中内容对应的标题以及所述第一关键词构建所述训练样本；

基于所述第三点击概率确定所述训练样本中所述第一关键词对应的第一词权重。

可选的，在所述基于所述第三点击记录中的搜索词以及内容对应的标题，确定第一关键词的情况下，所述第二构建模块1004，还用于：

对所述第三点击记录中内容对应的标题进行分词处理，得到标题分词结果；

对所述搜索词进行分词处理，得到搜索词分词结果；

将所述标题分词结果与所述搜索词分词结果中语义相似度大于相似度阈值的词确定为所述第一关键词。

可选的，在所述基于所述第三点击概率确定所述训练样本中所述第一关键词对应的第一词权重的情况下，所述第二构建模块1004，还用于：

在所述第三点击概率大于第二概率阈值的情况下，确定所述第一关键词对应的所述第一词权重为1，所述第二概率阈值大于所述第一概率阈值；

在所述第三点击概率小于所述第二概率阈值的情况下，确定所述第一关键词对应的所述第一词权重为0。

可选的，在所述第三点击记录的内容为视频内容，且所设置有对应的视频封面的情况下，所述第二构建模块1004，还用于：

对所述视频封面进行光学字符识别，得到封面文本；

基于所述封面文本，从所述视频内容对应的标题中确定第二关键词；

基于所述视频内容对应的标题以及所述第二关键词构建所述训练样本。

可选的，所述第二构建模块1004，还用于：

确定所述封面文本中的封面关键词；

基于所述封面关键词，从所述视频内容对应的标题中确定所述第二关键词，所述第二关键词与所述封面关键词的语义相似。

可选的，所述第二构建模块1004，还用于：

对所述视频内容的视频帧进行光学字符识别，得到视频帧文本；

对所述视频帧文本进行词频统计，得到去噪词；

基于所述去噪词对所述视频帧文本以及所述封面文本进行去噪处理；

基于去噪后的所述视频帧文本以及所述封面文本，确定所述封面文本中各个词汇的TF-IDF；

将所述封面文本中TF-IDF大于阈值的词汇确定为所述封面关键词。

可选的，所述第二构建模块1004，还用于：

获取所述第三点击记录对应标签下的标题集合；

对所述标题集合中的标题进行TF-IDF计算，确定标题关键词；

基于所述标题关键词，从所述第三点击记录中内容对应的标题中确定第三关键词，所述三关键词与所述标题关键词的语义相似；

基于所述第三点击记录中内容对应的标题以及所述第三关键词构建所述训练样本。

可选的，所述提取模块1002，还用于：

从所述点击日志中提取第四点击记录，所述第四点击记录用于表征基于搜索词进行内容搜索后，对搜索得到内容的点击行为；

在所述第四点击记录的数据量小于数据量阈值的情况下，从所述点击日志中提取第一点击记录以及第二点击记录。

综上所述，在本申请实施例中，计算机设备在通过获取模块获取点击日志中的第一点击记录以及第二点击记录的基础上，以共同的标签为桥梁，通过第一构建模块构建第一点击记录中的搜索词和第二点击记录的内容之间的伪点击行为也即第三点击记录，并进一步的基于确定第三点击记录中内容对应标题中各词的词权重，以通过第二构建模块获取训练样本；基于标签既可以与搜索词之间具有搜索点击关系，也可以与内容之间具有搜索点击关系，计算机设备在点击日志存储数据有限的情况下，以标签为桥梁充分利用有限点击日志，构建大量第三点击记录，进而获取大量训练样本，在提高了训练样本生成效率的基础上，基于上述训练样本的生产方法中以反映用户点击因素的标签为依据，保证了所得训练样本的准确度。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备1100的结构框图。

所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器1102和只读存储器1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还可以包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

在一些实施例中，所述基本输入/输出系统1106可以包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供了一种计算机可读存储介质，该存储介质存储有至少一段程序，至少一段程序用于被处理器执行以实现如上述实施例所述的训练样本的生成方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的训练样本的生成方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种训练样本的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一点击记录和所述第二点击记录构建第三点击记录，包括：

3.根据权利要求2所述的方法，其特征在于，所述以所述第一点击记录以及所述第二点击记录中的标签为中间节点，基于所述第一点击记录中的搜索词以及所述第二点击记录中的内容构建所述第三点击记录，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一点击记录和所述第二点击记录构建第三点击记录，还包括：

所述基于所述第三点击记录构建训练样本，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述第一点击记录对应的第一点击概率，以及所述第二点击记录对应的第二点击概率，包括：

6.根据权利要求4所述的方法，其特征在于，所述在所述第三点击概率大于第一概率阈值的情况下，基于所述第三点击记录构建所述训练样本，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第三点击记录中的搜索词以及内容对应的标题，确定第一关键词，包括：

对所述搜索词进行分词处理，得到搜索词分词结果；

8.根据权利要求6所述的方法，其特征在于，所述基于所述第三点击概率确定所述训练样本中所述第一关键词对应的第一词权重，包括：

9.根据权利要求6所述的方法，其特征在于，所述第三点击记录的内容为视频内容，且所设置有对应的视频封面；

所述在所述第三点击概率大于第一概率阈值的情况下，基于所述第三点击记录构建所述训练样本，还包括：

对所述视频封面进行光学字符识别，得到封面文本；

10.根据权利要求9所述的方法，其特征在于，所述基于所述封面文本，从所述第三点击记录中内容对应的标题中确定第二关键词，包括：

确定所述封面文本中的封面关键词；

11.根据权利要求10所述的方法，其特征在于，所述确定所述封面文本中的封面关键词，包括：

对所述视频帧文本进行词频统计，得到去噪词；

12.根据权利要求6所述的方法，其特征在于，所述在所述第三点击概率大于第一概率阈值的情况下，基于所述第三点击记录构建所述训练样本，还包括：

获取所述第三点击记录对应标签下的标题集合；

对所述标题集合中的标题进行TF-IDF计算，确定标题关键词；

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述从所述点击日志中提取第一点击记录以及第二点击记录，包括：

14.一种训练样本的生成装置，其特征在于，所述装置包括：

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至13任一所述的训练样本的生成方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至13任一所述的训练样本的生成方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至13任一所述的训练样本的生成方法。