CN109918653A

CN109918653A - 确定文本数据的关联话题及模型的训练方法、装置和设备

Info

Publication number: CN109918653A
Application number: CN201910129251.2A
Authority: CN
Inventors: 廖梦; 容毅峰; 王志平; 徐进; 颜强; 潘昆豪; 薛通; 陈绍毅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-06-21
Anticipated expiration: 2039-02-21
Also published as: CN109918653B

Abstract

本发明公开了一种确定文本数据的关联话题及模型的训练方法、装置和设备，属于计算机技术领域，用于提升文本数据与话题关联的准确度。该方法包括：获取待关联文本数据；提取待关联文本数据的描述特征；采用预先训练的匹配度确定模型，分别确定待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度，其中：匹配度确定模型是采用多个训练样本训练得到的，每个训练样本包括一条文本数据和至少一个话题，且采用人工标注方式进行了文本数据和话题的关联度的标注处理；每一个话题的描述特征，是从训练样本中与该话题关联的文本数据中提取的；将匹配度满足第一设定条件的话题，确定为与待关联文本数据关联的话题。

Description

确定文本数据的关联话题及模型的训练方法、装置和设备

技术领域

本发明涉及计算机技术领域，特别涉及一种确定文本数据的关联话题及模型的训练方法、装置和设备。

背景技术

目前，互联网每天会涌现出大量新闻，繁杂且无序，如何快速的识别新闻热点事件，并追踪事件后续的报道，帮助用户能更快、更好的了解热点事件是一个值得深入研究的课题。热点事件的识别需要建立在话题识别的基础上，也就是说，在识别出一个话题对应的事件是否为热点事件之前，需要对新出现的文章进行准确的话题识别，以获得该文章所属的话题。

目前的话题识别通常采用single-pass算法，或称单通道法或单遍法，single-pass算法通过传统的夹角余弦公式计算文章与已有话题之间的相似度，如有相似度大于设定的阈值的文章，则将该文章并入已有话题中，否则基于该文章形成新的话题。但是，实质上对于文本而言，很难通过特征向量进行描述，特征描述在一定程度上并不是十分准确，并且该话题识别算法还采用无监督模型，进一步降低了话题识别的准确度，误判率较高。

发明内容

本发明实施例提供一种确定文本数据的关联话题及模型的训练方法、装置和设备，用于提升文本数据与话题关联的准确度。

一方面，提供一种确定文本数据的关联话题的方法，所述方法包括：

获取待关联文本数据；

提取所述待关联文本数据的描述特征；

采用预先训练的匹配度确定模型，分别确定所述待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度，其中：所述匹配度确定模型是采用多个训练样本训练得到的，每个训练样本包括一条文本数据和至少一个话题，且所述每个训练样本采用人工标注方式进行了文本数据和话题的关联度的标注处理；所述每一个话题的描述特征，是从所述多个训练样本中与该话题关联的文本数据中提取的；

将所述匹配度满足第一设定条件的话题，确定为与所述待关联文本数据关联的话题。

一方面，提供一种匹配度确定模型的训练方法，所述方法包括：

获取多个训练样本，每个训练样本包括一条文本数据和至少一个话题，且所述每个训练样本采用人工标注方式进行了文本数据和话题的关联度的标注处理；

分别提取每个训练样本包括的文本数据的描述特征，以及每一个话题的描述特征，所述每一个话题的描述特征，是从所述多个训练样本中与该话题关联的文本数据中提取的；

将每个训练样本包括的文本数据的描述特征以及每一个话题的描述特征输入至初始匹配度确定模型中进行多次训练，以得到训练后的匹配度确定模型；

其中，每一次训练过程包括如下步骤：

获取每一个训练样本包括的文本数据与每一个话题的同一描述特征的相似度，并对所有描述特征进行融合，以获得每一个训练样本包括的文本数据与每一个话题的匹配度；

将每一个训练样本包括的文本数据与每一个话题的匹配度与采用人工标注的关联度进行比较，以获取匹配度确定模型当前的预测误差；

基于所述预测误差对匹配度确定模型的决策规则进行调整，并通过调整后的匹配度确定模型继续进行训练，直至最后一次训练获取的匹配度确定模型的预测误差收敛于固定值。

一方面，提供一种确定文本数据的关联话题的装置，所述装置包括：

文本获取单元，用于获取待关联文本数据；

特征提取单元，用于提取所述待关联文本数据的描述特征；

话题匹配单元，用于采用预先训练的匹配度确定模型，分别确定所述待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度，其中：所述匹配度确定模型是采用多个训练样本训练得到的，每个训练样本包括一条文本数据和至少一个话题，且所述每个训练样本采用人工标注方式进行了文本数据和话题的关联度的标注处理；所述每一个话题的描述特征，是从所述多个训练样本中与该话题关联的文本数据中提取的；

关联单元，用于将所述匹配度满足第一设定条件的话题，确定为与所述待关联文本数据关联的话题。

一方面，提供一种匹配度确定模型的训练装置，所述装置包括：

样本获取单元，用于获取多个训练样本，每个训练样本包括一条文本数据和至少一个话题，且所述每个训练样本采用人工标注方式进行了文本数据和话题的关联度的标注处理；

特征获取单元，用于分别获取每个训练样本包括的文本数据的描述特征，以及每一个话题的描述特征，所述每一个话题的描述特征，是从所述多个训练样本中与该话题关联的文本数据中提取的；

训练单元，用于将每个训练样本包括的文本数据的描述特征以及每一个话题的描述特征输入至初始匹配度确定模型中进行多次训练，以得到训练后的匹配度确定模型；

其中，所述训练单元的每一次训练过程包括如下步骤：

将每一个训练样本包括的文本数据与每一个话题的匹配度与采用人工标注的关联度进行比较，以获取所有训练样本的匹配度与人工标注的关联度之间的误差值；

基于所述误差值对匹配度确定模型的决策规则进行调整，并通过调整后的匹配度确定模型继续进行训练，直至最后一次训练获取的所有训练样本的匹配度与人工标注的关联度之间的误差值收敛于固定值。

一方面，提供一种计算机设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述方面所述的方法。

一方面，提供一种计算机可读存储介质，

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上述方面所述的方法。

本发明实施例中，在获取到待关联文本数据之后，则可以从待关联文本数据中提取描述特征，并通过预先训练完成的匹配度确定模型，来确定待关联文本数据与话题库中话题之间的匹配度，从而确定话题库中是否有与待关联文本数据关联的话题。其中，在进行模型训练时，所采用的训练样本采用人工标注方式进行了文本数据与话题的关联度的标注处理。由于对于文本而言，人工的判断相较于单纯的依靠描述特征来判断，能够更加接近于真实，因而由于训练样本通过人工标注方式标注了文本数据与话题的关联度，进而使得训练得到的模型对于话题的判断能够更加准确，稳定性更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的应用场景示意图；

图2为本发明实施例提供的STTM模型的架构示意图；

图3为本发明实施例提供的模型训练的流程示意图；

图4为本发明实施例提供的确定文本数据的关联话题的方法的流程示意图；

图5为本发明实施例提供的指示标签的显示示意图；

图6为本发明实施例提供的话题的显示界面示意图；

图7为本发明实施例提供的确定文本数据的关联话题的装置的一种结构示意图；

图8为本发明实施例提供的匹配度确定模型的训练装置的一种结构示意图；

图9为本发明实施例提供的计算机设备的一种结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为便于理解本发明实施例提供的技术方案，这里先对本发明实施例使用的一些关键名词进行解释：

文本数据：一般为在网络中发表的包含文本的新闻数据，文本数据可以包括长文本和短文本，长文本一般为发表的文章，例如微信应用中公众号发表的文章、微博应用上发表的长文章或者各大新闻网站上发表的文章等，短文本例如可以为在微博应用上发表的微博等。

语料：即语言材料，一般而言，语料可以简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

目前的话题识别通常采用single-pass算法，single-pass算法通过提取文章中的特征向量，并通过传统的夹角余弦公式计算文章与已有话题的特征向量之间的相似度，如有相似度大于设定的阈值的文章，则将该文章并入已有话题中，否则基于该文章形成新的话题。但是，实质上对于文本而言，很难通过特征向量进行描述，特征描述在一定程度上并不是十分准确，并且该话题识别算法还采用无监督模型，进一步降低了话题识别的准确度，误判率较高。

现有的方法正是由于采用了基于无监督模型的算法，基于无监督模型的算法没有使用经人工标注的语料进行模型训练，而单纯的利用提取的文章以及话题中的特征向量进行匹配，从而使得目前的话题识别的误判率较高，准确率较低。鉴于此，由于对于文本而言，人工的判断的正确率相较上述算法判断的准确率相对更高，因此要想解决上述问题，则需要在算法中加入人工判断的因素。

鉴于上述的分析和考虑，本发明实施例提供一种确定文本数据的关联话题的方法，在该方法中，获取到待关联文本数据之后，则可以从待关联文本数据中提取描述特征，并通过预先训练完成的匹配度确定模型，来确定待关联文本数据与话题库中话题之间的匹配度，从而确定话题库中是否有与待关联文本数据关联的话题。其中，在进行模型训练时，所采用的训练样本采用了人工标注的方式进行了文本数据与话题的关联度的标注处理，由于对于文本而言，人工的判断相较于单纯的依靠描述特征来判断，能够更加接近于真实，因而由于训练样本通过人工标注方式标注了文本数据和话题的关联度，进而使得训练得到的模型对于话题的判断能够更加准确，稳定性更高。

此外，由于事件是不断发展的，原本不关联的话题随着时间以及事件的发展，可能会变得有所关联，那么这两个话题则可能需要进行合并，因此还可以对话题库中的两两话题进行匹配，从而判断两两话题是否匹配，若是则将这两个话题进行合并，从而保持话题库中话题的单一性，避免过多重复的话题，给用户的阅读造成一定的困难。

此外，由于话题识别并不能保证完全的识别正确，因此难免会有某些话题所关联的文本数据并不是与该话题十分匹配，而该匹配度较低的话题的加入可能使得该话题的特征发生较大的变化，从而与原始话题的差别越来越大，最初关联的文本数据则可能与当前的话题并不匹配了，因此，在本发明实施例中，还可以对话题与该话题关联的文本进行匹配，在不匹配的文本数量较多时，则可以从话题库中将该话题删除。

需要说明的是，以下介绍的应用场景仅用于说明本发明实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本发明实施例提供的技术方案。

图1所示为发明实施例中的技术方案能够适用的一种应用场景，在该场景中，可以包括服务器10和用户终端20。

服务器10可以为应用服务器或者网站服务器，应用服务器例如可以为微博应用、微信应用或者今日头条等能够产生文本数据的应用(Application，APP)的后台服务器；网站服务器例如可以为各新闻网站的后台服务器。

用户终端20中可以安装与服务器10对应的应用，或者可以通过用户终端20中的浏览器打开新闻网站的网页。

以服务器10为应用服务器为例，在应用中数据源会不断的发表文本数据，例如微信中的公众号，则服务器10可以对在该应用中发表的文本数据进行话题识别，从而将发表的文本数据聚类到相应的话题中，并根据话题库中各话题的热度对话题进行排序，并为用户推荐热度较高的话题或者文本数据。这样，用户终端20在打开应用服务器10对应的应用时，则可以查看到热度较高的话题。

此外，服务器10还可以根据每个话题关联的文本数据的数量，确定某一话题是否能够成为热点事件，识别到的热点事件可以用于推荐系统的排序，以为用户进行热点事件的推荐。

当然，本发明实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其他可能的应用场景，本发明实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

本发明实施例中，在将文本数据与话题进行匹配之前，首先需要通过训练获取话题追踪模型，因此，在对本发明实施例的确定文本数据的关联话题的方法进行介绍之前，首先进行话题追踪模型训练方法的介绍。请参见图2，为本发明实施例提供的有监督的话题追踪模型(Supervised topic tracking model，STTM)的结构示意图。其中，STTM模型可以包括特征提取模型和匹配度确定模型两部分，特征提取模型具体包括输入层和特征提取层(Feature layer)，匹配度确定模型可以包括交叉计算层(Interaction layer)、特征融合层(stacking layer)以及输出层，对于STTM模型的训练，主要在于对匹配度确定模型的训练。

请参见图3，为本发明实施例提供的模型训练方法的流程示意图。

步骤301：获取多个训练样本。

本发明实施例中，每一个训练样本可以包括一条文本数据和至少一个话题，并且每一个训练样本采用人工标注方式标注了文本数据与话题的关联度。以一个训练样本包括一条文本数据和一个话题为例，可以通过人工标注方式标注该文本数据与话题是否关联，也就是说标注该文本数据是否属于该话题，具体可以通过0/1标签进行标注，例如当该文本数据与话题关联时，则对应训练样本的标签为1，否则训练样本的标签为0，当然，也可以是当该文本数据与话题不关联时，训练样本的标签为0，否则训练样本的标签为1，本发明实施例对此不做限制。

在具体实施时，为保证训练样本的适用性，每个话题可以选择一个或者多个关联的文本数据，不同的话题还可以选择不同数量的文本数据，使得最终训练得到的模型对于1篇文章和多篇文章都适用。

在具体实施时，采集获得经人工标注的训练样本后，则可以统一保存至一预设存储位置，并在进行模型训练时，从预设存储位置进行读取。具体的，训练样本的输入可以通过STTM模型的输入层来完成，输入层可以从预设存储位置读取训练样本，并将训练样本提供给至下一层，在读取训练样本时，可以是逐一进行读取，也可以是每一次读取多个训练样本，本发明实施例对此不做限制。

步骤302：从每个训练样本中提取描述特征。

本发明实施例中，从每个训练样本中提取描述特征可以通过STTM模型所包括的特征提取层来完成。其中，每个训练样本的描述特征可以包括每个训练样本所包括的文本数据的描述特征和话题的描述特征。

具体的，文本数据的描述特征即是从文本数据中直接提取的，而话题的描述特征则是从多个训练样本中该话题所关联的多条文本数据中提取的。实质上，对于一个话题，可以看成是多个文本数据的组合，即为一条较长的文本数据，例如一个话题关联了两篇文章则该话题实质上可以看作为将这个两篇文章组合到一起。

本发明实施例中，描述特征包括以下特征中的至少一种：

(1)关键词特征

关键词特征用于描述文本数据中所包括的词，关键词特征是将每个词看作一个原子符号，相当于给每个词分配一个标识(identity，id)，从而这种特征描述方式使得能够描述文本数据中包括了哪些词，以及这些词出现的次数等特征，而不能展示词与词之间的关系。关键词特征的提取例如可以采用或称独热(one hot)编码。

(2)频繁模式特征

频繁模式特征用于描述文本数据所包括的频繁模式(Frequent Pattern，FP)，频繁模式或可称为频繁项集，是指数据集中频繁出现的项集、序列或子结构等。频繁模式特征的提取例如可以采用FP-growth算法或者关联规则(Apriori)算法等算法进行提取，当然，也可以采用其他可能的算法进行提取，本发明实施例对此不做限制。

(3)事件要素特征

事件要素特征用于描述文本数据所包括的词构成的事件，事件要素一般可以包括主语、谓语、宾语、时间以及地点这五大要素。事件要素特征的提取可以通过事件要素提取算法进行提取。

(4)词向量特征

词向量特征或称Embedding特征，用于描述文本数据所包括的词之间的语义关系，词向量特征的描述思想是通过将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式，词向量特征的提取可以通过深度学习模型进行提取，例如可以采用卷积神经网络(Convolutional Neural Networks，CNN)模型、长短期记忆网络(Long Short-TermMemory，LSTM)模型、循环神经网络(Recurrent Neural Network，RNN)或者Gated CNN(G-CNN)模型等进行提取，当然，也可以采用其他可能的深度学习模型进行提取，本发明实施例对此不做限制。

本发明实施例中，在第一次进行训练时，从文本数据和话题中提取出描述特征之后，可以保存至预定位置，这样在后续训练时，则可以无需再次进行特征的提取，从而提升模型训练的速度。

本发明实施例中，在提取文本数据和话题的描述特征之后，则可以将提取的描述特征输入至预先构建好的匹配度确定模型中进行训练，并在训练过程中不断调整匹配度确定模型的权重参数，直至匹配度确定模型能够达到设定的准确度。

本发明实施例中，匹配度确定模型可以采用梯度迭代回归树(Gradient BoostingDecision Tree，GBDT)算法，思想在于，将匹配度确定模型划分为多个子模型，每个子模型均可以得到文本数据与话题是否匹配的一个子匹配结果，最终基于一定的决策规则来融合多个子匹配结果进行判定，以得到最终的匹配结果。其中，这里的融合也可以采用stacking的方式来进行。当然，也可以采用除GBDT算法之外的其他算法，例如支持向量机(SupportVector Machine，SVM)算法或者逻辑回归(Logistic Regression，LR)算法，或者其他可能的算法，本发明实施例对此不做限制。

具体的，每个子模型为相同的子模型，在进行训练时，采用不同的训练样本进行训练，不同的训练样本所训练得到的子模型的结构虽然相同，但是在权重参数方面会有所差异，最终根据多个子模型的匹配结果判断文本数据和话题是否匹配。例如，所采用的训练样本的数量为10000个，分别划分为10个训练样本集，每个训练样本集包括1000个训练样本，并通过10个训练样本集分别对10个子模型进行训练，并通过每个子模型的子匹配结果，得到最终的匹配结果。

具体的，在每一次训练过程中，可以包括如下步骤303～307的过程。

步骤303：将文本数据和话题的描述特征进行交叉相似度计算。

本发明实施例中，交叉相似度计算对应于匹配度确定模型中的交叉计算层。其中，文本数据和话题所提取的描述特征的类型是相同的，因此可以将相同类型的描述特征进行比较，从而得到相同类型的描述特征的相似度。

例如，对于关键词特征，可以将文本数据中包括的词与话题所关联的文本数据中的词进行比较，以及词出现的次数进行比较，从而根据词类以及词频获取文本数据与话题的关键词特征之间的相似度。当然，由于话题的关键词特征一般是综合了多条关联的文本数据的关键词特征获得的，因而词类以及词频相较单条文本数据而言均是较多的，因此在计算关键词特征的相似度时，可以赋予话题一定的权重进行计算，从而提升最终计算的相似度的真实性以及准确性。

步骤304：将所有描述特征进行融合，得到每一个训练样本包括的文本数据与话题的匹配度。

本发明实施例中，对所有描述特征进行融合对应于匹配度确定模型中的特征融合层。其中，通过将所有描述特征进行融合，以获得每一个训练样本包括的文本数据与每一个话题的匹配度(matching degree)。

具体的，本发明实施例中，所采用的描述特征包括了传统工程特征，也就是关键词特征、频繁模式特征和事件要素特征，以及基于深度学习模型提取的词向量特征，在获取各个描述特征之间的相似度之后，则可以采用stacking的方式将各个特征进行融合，从而得到最终文本数据和话题之间的相似度，也就是匹配度。

本发明实施例中，获取相同类型的描述特征的相似度之后，可以将所有描述特征进行融合，以获得待关联文本数据与话题的匹配度。具体的，每个描述特征均可以对应着相应的权重参数，权重参数具体则是通过模型训练得到的，因此在进行特征融合时，则可以根据权重参数将不同类型的描述特征进行融合，从而得到待关联文本数据与话题整体的匹配度。其中，对所有描述特征进行融合对应于匹配度确定模型中的特征融合层。

本发明实施例中，获取待关联文本数据与话题的匹配度之后，则可以将匹配度输入至输出层进行输出。

步骤305：将每一个训练样本包括的文本数据与每一个话题的匹配度与采用人工标注的关联度进行比较，以获取所有训练样本的匹配度与人工标注的关联度之间的误差值。

本发明实施例中，获取每一个训练样本包括的文本数据与每一个话题的匹配度之后，则可以将匹配度与采用人工标注的关联度进行比较，并计算每一个训练样本的匹配度与人工标注的关联度之间的误差值，并基于每一个训练样本的误差值，获取所有训练样本的误差值。

具体的，匹配度可以采用具体的数值进行表示，例如匹配度为80％或者90％，也可以采用匹配结果进行表示，即是或者否。其中，在采用数值进行表示时，则可以进一步根据匹配度的数值确定匹配结果，当匹配度大于或者等于预设匹配度阈值时，则匹配结果为是，否则为否。那么在模型预测得到文本数据与话题的匹配度之后，则可以与标注的关联度进行比较，从而根据比较结果计算得到当前模型的预测误差。

步骤306：确定预测误差是否收敛于一固定值。

在当前模型的预测误差收敛时，则说明当前模型的预测误差相对较小，当前模型的准确度无法进一步得以提升，那么则可以结束训练，否则，则需要继续调整模型参数进行训练。

步骤307：若步骤306的确定结果为否，则对决策规则进行调整。

具体的，当确定预测误差还未收敛于一固定值时，则还需要继续进行训练，那么可以基于上述获取的预测误差，对匹配度确定模型的决策规则进行调整，并继通过调整后的匹配度确定模型继续进行训练。其中，在对决策规则进行调整时，可以采用梯度下降(Gradient Descent)算法或者反向传播算法等算法获取决策规则的调整梯度，进而基于调整梯度对决策规则进行调整，以使得朝着预测误差减小的方向调整模型的决策规则。

本发明实施例中，在进行模型训练时，所采用的训练样本还可以是为话题与话题的组合，也就是将文本数据替换为话题进行训练，由于训练过程与上述描述相同，因此在此不再过多赘述。

在完成模型的训练之后，则可以将训练得到的模型用于文本数据与话题的识别了，因此，本发明实施例还提供了一种确定文本数据的关联话题的方法，请参见图4，为确定文本数据的关联话题的方法的流程示意图，该方法的流程描述如下：

步骤401：获取待关联文本数据。

本发明实施例中，可以从数据源处获取待关联文本数据，获取的待关联文本数据输入至STTM模型的输入层。数据源例如可以是微信应用中的公众号，微博中的博主或者各个新闻网站的作者等，在数据源发布新的内容时，后台服务器均可获取到新发表的内容，作为待关联文本数据。

以微信应用的公众号为例，当多个公众号发布新的文章之后，这些新的文章均是未与话题进行关联的，则可以按照发表的时间对文章进行排序，从而依次对文章进行话题的匹配。当然，在进行话题匹配时，可以是同时对一个文章进行处理，也可以是同时对多个文章进行处理。

由于对于每条文本数据的处理过程均是相同的，因此后续均以一条文本数据为例进行介绍。

步骤402：提取待关联文本数据的描述特征。

本发明实施例中，输入层获取的待关联文本数据提供给特征提取层进行描述特征的提取。

由于上述对模型训练时已经对描述特征有所介绍，因此对于描述特征以及描述特征的提取可以参考上述相同部分的描述，在此不再过多赘述。

步骤403：采用预先训练的匹配度确定模型，分别确定所述待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度。

本发明实施例中，话题库中的话题的描述特征可以是预先提取完成并存储至预定位置的，那么在需要使用话题的描述特征时，可以直接读取已存储的描述特征，从而无需再次对话题的描述特征进行提取，节省文本数据与话题匹配的时间，从而提升匹配速度。

当然，由于文本数据在发表之后，也可以会发生变化，例如微信应用中的公众号发表文章之后，可能会对已发表的文章有所修改，因此，话题的描述特征的提取也可以是在每一次匹配时均重新提取，以保证描述特征的准确性，从而提升匹配结果的准确性。

具体的，确定待关联文本数据与话题库中的每一个话题的匹配度的过程是相同的，因此下面将以确定待关联文本数据与话题库中的其中一个话题的匹配度的过程为例进行描述。

本发明实施例中，待关联文本数据和话题所提取的描述特征的类型是相同的，因此可以将待关联文本数据和话题的描述特征进行交叉相似度计算，即将相同类型的描述特征进行相似度计算，从而得到相同类型的描述特征的相似度。交叉相似度计算对应于匹配度确定模型中的交叉计算层。

例如，对于关键词特征，可以将待关联文本数据中包括的词与话题关联的待关联文本数据中的词进行比较，以及词出现的次数进行比较，从而根据词类以及词频获取待关联文本数据与话题的关键词特征之间的相似度。

在具体实施时，匹配度确定模型还可以采用GBDT算法，即匹配度确定模型可以包括多个子模型，每个子模型的结构相同，并通过不同的训练样本训练得到时，通过每个子模型均可以得到待关联文本数据与话题之间的匹配度，那么基于一定的决策规则来融合多个子匹配结果进行判定，则可以得到待关联文本数据与话题之间的最终的匹配度，并输出至输出层。其中，在进行模型训练时，可以采用GBDT算法结合stacking的方式进行，即需要进行各个子模型的训练以及整体模型的训练。

步骤404：确定话题库中是否存在与待关联文本数据之间的匹配度满足第一设定条件的话题。

本发明实施例中，第一设定条件例如可以为匹配度大于或者等于预设匹配度阈值，预设匹配阈值具体可以是根据经验设置的。例如，匹配度可以通过数值进行表示，则预设匹配度阈值可以设置为95％，那么当匹配度大于95％时，则确定匹配度满足第一设定条件，否则不满足，或者匹配度可以通过匹配结果进行表示，即是或者否，则预设匹配度阈值可以设置为是，那么当匹配度为是时，则确定匹配度满足第一设定条件，否则不满足。

具体的，在获取待关联文本数据与话题库中的每一个话题之间的匹配度之后，则可以确定出话题库中是否存在与待关联文本数据之间的匹配度满足第一设定条件的话题。

步骤405：若步骤404的确定结果为是，则将匹配度满足第一设定条件的话题，确定为与待关联文本数据关联的话题。

本发明实施例中，若是话题库中存在与关联文本数据之间的匹配度满足第一设定条件的话题，将待关联文本数据与匹配度满足第一设定条件的话题进行关联。

步骤406：若步骤404的确定结果为否，则基于待关联文本数据生成新的话题，并将新生成的话题加入至话题库中。

本发明实施例中，若是话题库中不存在与待关联文本数据之间的匹配度满足第一设定条件的话题，则待关联文本数据中的内容所描述的事件为新出现的事件，那么可以从待关联文本数据中提取出主要事件内容，形成新的话题，加入至话题库中。

本发明实施例中，在基于待关联文本数据生成新的话题之后，则可以将待关联文本数据与新生成的话题关联。

本发明实施例中，在将待关联文本数据与话题进行关联之后，则可以对关联的话题的描述特征进行更新。具体的，可以基于该话题关联的所有文本数据重新提取描述特征，也可以通过待关联文本数据的描述特征对话题的描述特征进行更新，并保存至预设存储位置中，以便后续使用时进行调用。例如，以关键词特征为例，关键词特征主要描述文本数据中包括的词和词频，那么则可以将待关联文本数据中出现的词以及词频更新至关联的话题的关键词特征中。

本发明实施例中，由于话题识别并不能保证完全的识别正确，因此难免会有某些话题所关联的文本数据并不是与该话题十分匹配，这种文本数据可以成为该话题的噪音，噪音的加入可能使得该话题的描述特征发生较大的变化，从而与原始话题的差别越来越大，最初关联的文本数据则可能与当前的话题并不匹配了，因此，在本发明实施例中，还可以对话题与该话题关联的文本数据进行匹配，获取该话题内所有文本数据与该话题之间的匹配度。其中，话题与该话题关联的文本数据进行匹配的过程可以是定时进行的，例如每隔一定时间进行一次，还可以是在每一次话题的描述特征更新之后进行一次。

具体的，当匹配度不满足第一设定条件的文本数据的数量大于或者等于预设数量阈值时，则说明该话题偏离原始话题程度较大，为保证话题表达不发生语义偏移，因此可以从话题库中将该话题删除，从而解决由于话题中噪音的问题导致话题的聚合效果越来越差的问题，提升了话题聚合的稳定性。

本发明实施例中，由于事件是不断发展的，原本不关联的话题随着时间以及事件的发展，可能会变得有所关联，那么这两个话题则可能需要进行合并，因此还可以对话题库中的两两话题进行匹配，从而判断两两话题是否匹配。具体的，上述STTM模型同样可以用于话题与话题的匹配，即在进行训练时，可以将包括话题与话题的训练样本进行训练，从而训练后得到模型同样可以应用于话题与话题的匹配，或者在话题与话题进行匹配时，也可以采用现有技术的余弦夹角相似度计算方法，当然，还可以采用其他可能的相似度计算方法，本发明实施例对此不做限制。

具体的，以话题库中的任意两个不相同的话题为例，例如第一话题与第二话题，根据匹配度确定模型获取第一话题与第二话题之间的匹配度之后，可以确定第一话题与第二话题之间的匹配度是否满足第二设定条件。其中，第二设定条件可以与第一设定条件相同，也可以与第一设定条件不同，例如第一设定条件为匹配度需大于或者等于95％，第二设定条件可以为匹配度需大于或者等于90％。

在确定第一话题与第二话题之间的匹配度满足第二设定条件时，可以将这两个话题进行合并，从而保持话题库中话题的单一性，避免过多重复的话题，给用户的阅读造成一定的困难。其中，在合并时，可以删除其中一个话题，例如删除第一话题，并将第一话题相关联的文本数据与第二话题进行关联；或者，还可以基于第一话题与第二话题生成一个新的话题，并将第一话题与第二话题关联的文本数据与新生成的话题进行关联。

本发明实施例中，为保证话题库中话题的时新性，可以将话题库中未更新时间较长，或者话题讨论量较小的话题删除，以避免出现话题库话题数量较多的问题，提升话题匹配的速度。

本发明实施例中，根据每个话题所关联的文本数据的数量，可以确定该话题是否能够成为一个热点事件，例如话题所关联的文本数据的数量超过一定阈值时，确定该话题为热点事件，并根据所有热点事件的时间以及热度来确定热点事件的推荐排序。热点事件的热度也可以通过话题所关联的文本数据的数量来衡量。

为了给用户更强的话题感知，可以在为文本数据或者话题的推荐页面中，显示出该文本数据或者话题的相关信息。

具体的，可以在文本数据的预览界面和/或详情显示界面，显示指示标签，所述指示标签用于指示与该文本数据关联的话题相同的文本数据的相关信息。请参见图5所示，为一种指示标签的显示示意图，其中，文章名为“超熊洗衣粉、椰林椰汁、粉红雪碧……“3亿人都在拼的拼多多”被他举报了”的预览界面显示了“32个媒体报道”的标签，从而提升用户对该新闻热点的告知。

具体的，还可以将话题的显示界面显示与该话题关联的文本数据的相关信息，例如将话题关联的文本数据均显示在该话题的显示界面中。请参见图6所示，在推荐主页中推荐有热门话题“母亲众筹25万救女被曝有多套房产其女爆粗怼网友”，在用户选择进入该话题之后，则可以进入如右图所示的话题显示界面，在该显示界面上，显示有该话题的名称以及简介，并展示了与该话题相关联的多篇文章，从而用户可以根据不同的文章查看到对该事件的不同观点，以及该事件的事件发展历程。

本发明实施例中，经验证，通过上述的匹配方法有效提高了话题聚合的效果，话题聚合的综合指标F1值相较于传统方法上绝对值提升了15％。在新闻热点识别的实际应用中，热点识别的各个指标值也有所提升，例如热点识别的准确率提高了12％，召回率提升了16％，时新性提升了8％。

综上所述，本发明实施例提供的确定文本数据的关联话题的方法，在获取到待关联文本数据之后，则可以从待关联文本数据中提取描述特征，并通过预先训练完成的匹配度确定模型，来确定待关联文本数据与话题库中话题之间的匹配度，从而确定话题库中是否有与待关联文本数据关联的话题。其中，在进行模型训练时，所采用的训练样本采用人工标注方式进行了文本数据与话题的关联度的标注处理。由于对于文本而言，人工的判断相较于单纯的依靠描述特征来判断，能够更加接近于真实，因而由于训练样本通过人工标注方式标注了文本数据与话题的关联度，进而使得训练得到的模型对于话题的判断能够更加准确，稳定性更高。

请参见图7，基于同一发明构思，本发明实施例还提供了一种确定文本数据的关联话题的装置70，包括：

文本获取单元701，用于获取待关联文本数据；

特征提取单元702，用于提取待关联文本数据的描述特征；

话题匹配单元703，用于采用预先训练的匹配度确定模型，分别确定待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度，其中：匹配度确定模型是采用多个训练样本训练得到的，每个训练样本包括一条文本数据和至少一个话题，且每个训练样本采用人工标注方式进行了文本数据和话题的关联度的标注处理；每一个话题的描述特征，是从多个训练样本中与该话题关联的文本数据中提取的；

关联单元704，用于将匹配度满足第一设定条件的话题，确定为与待关联文本数据关联的话题。

可选的，所述关联单元704，还用于：

若话题库中不存在匹配度满足第一设定条件的话题，则基于待关联文本数据生成新的话题，将待关联文本数据与新生成的话题进行关联；并将新生成的话题加入至话题库中。

可选的，描述特征包括以下特征中的至少一种：

关键词特征，关键词特征用于描述文本数据所包括的词；

频繁模式特征，频繁模式特征用于描述文本数据所包括的频繁项；

事件要素特征，事件要素特征用于描述文本数据所包括的词构成的事件；

词向量特征，词向量特征用于描述文本数据所包括的词之间的语义关系。

可选的，话题匹配单元703，具体用于：

获取待关联文本数据与每一个话题的同一描述特征的相似度，并对所有描述特征进行融合，以获得匹配度。

可选的，所述装置还包括合并单元705；

所述特征提取单元703，还用于获取话题库中的第一话题的描述特征，以及第二话题的描述特征；第一话题与第二话题为话题库中任意两个不相同的话题；

所述话题匹配单元703，还用于采用匹配度确定模型，确定第一话题的描述特征与第二话题的描述特征之间的匹配度；

所述合并单元705，用于在匹配度满足第二设定条件时，将第一话题与第二话题进行合并。

可选的，所述装置还包括更新单元706和删除单元707；

所述更新单元706，用于更新与待关联文本数据关联的话题的描述特征；

所述话题匹配单元703，还用于采用匹配度确定模型，分别确定与更新后的话题的描述特征与该话题关联的每一个文本数据的描述特征之间的匹配度；

所述删除单元707，用于在匹配度不满足第一设定条件的文本数据的数量大于或者等于预设数量阈值时，从话题库中删除话题。

该装置可以用于执行图4～图6所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图3～图6所示的实施例的描述，不多赘述。其中，合并单元705、更新单元706和删除单元707虽然在图7中一并示出，但需要知道的是，合并单元705、更新单元706和删除单元707并不是必选的功能单元，因此在图7中以虚线示出。

请参见图8，基于同一发明构思，本发明实施例还提供了一种匹配度确定模型的训练装置80，包括：

样本获取单元801，用于获取多个训练样本，每个训练样本包括一条文本数据和至少一个话题，且每个训练样本采用人工标注方式进行了文本数据和话题的关联度的标注处理；

特征获取单元802，用于分别获取每个训练样本包括的文本数据的描述特征，以及每一个话题的描述特征，每一个话题的描述特征，是从多个训练样本中与该话题关联的文本数据中提取的；

训练单元803，用于将每个训练样本包括的文本数据的描述特征以及每一个话题的描述特征输入至初始匹配度确定模型中进行多次训练，以得到训练后的匹配度确定模型；

其中，所述训练单元803的每一次训练过程包括如下步骤：

该装置可以用于执行图3所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图3所示的实施例的描述，不多赘述。

请参见图9，基于同一技术构思，本发明实施例还提供了一种计算机设备90，可以包括存储器901和处理器902。

所述存储器901，用于存储处理器902执行的计算机程序。存储器901可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器902，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本发明实施例中不限定上述存储器901和处理器902之间的具体连接介质。本发明实施例在图9中以存储器901和处理器902之间通过总线903连接，总线903在图9中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线903可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器901可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器901也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器901是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器901可以是上述存储器的组合。

处理器902，用于调用所述存储器901中存储的计算机程序时执行如图3～图6中所示的实施例中设备所执行的方法。

在一些可能的实施方式中，本发明提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图3～图6中所示的实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种确定文本数据的关联话题的方法，其特征在于，所述方法包括：

获取待关联文本数据；

提取所述待关联文本数据的描述特征；

2.如权利要求1所述的方法，其特征在于，在所述采用预先训练的匹配度确定模型，分别确定所述待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度之后，所述方法还包括：

若所述话题库中不存在匹配度满足所述第一设定条件的话题，则基于所述待关联文本数据生成新的话题；

将所述待关联文本数据与新生成的话题进行关联；并

将新生成的话题加入至所述话题库中。

3.如权利要求1所述的方法，其特征在于，所述描述特征包括以下特征中的至少一种：

关键词特征，所述关键词特征用于描述文本数据所包括的词；

频繁模式特征，所述频繁模式特征用于描述文本数据所包括的频繁项；

事件要素特征，所述事件要素特征用于描述文本数据所包括的词构成的事件；

词向量特征，所述词向量特征用于描述文本数据所包括的词之间的语义关系。

4.如权利要求3所述的方法，其特征在于，所述采用预先训练的匹配度确定模型，分别确定所述待关联文本数据的描述特征与话题库中的每一个话题的描述特征之间的匹配度，包括：

获取所述待关联文本数据与每一个话题的同一描述特征的相似度，并对所有描述特征进行融合，以获得所述匹配度。

5.如权利要求1～4任一所述的方法，其特征在于，所述方法还包括：

获取所述话题库中的第一话题的描述特征，以及第二话题的描述特征；所述第一话题与第二话题为所述话题库中任意两个不相同的话题；

采用所述匹配度确定模型，确定所述第一话题的描述特征与所述第二话题的描述特征之间的匹配度；

在匹配度满足第二设定条件时，将所述第一话题与所述第二话题进行合并。

6.如权利要求1～4任一所述的方法，其特征在于，在将匹配度满足第一设定条件的话题，确定为与所述待关联文本数据关联的话题之后，所述方法还包括：

更新与所述待关联文本数据关联的话题的描述特征；

采用所述匹配度确定模型，分别确定更新后的所述话题的描述特征与该话题关联的每一个文本数据的描述特征之间的匹配度；

统计所述匹配度不满足所述第一设定条件的文本数据的数量；

当所述文本数据的数量大于或者等于预设数量阈值时，从所述话题库中删除所述话题。

7.一种匹配度确定模型的训练方法，其特征在于，所述方法包括：

分别获取每个训练样本包括的文本数据的描述特征，以及每一个话题的描述特征，所述每一个话题的描述特征，是从所述多个训练样本中与该话题关联的文本数据中提取的；

其中，每一次训练过程包括如下步骤：

8.一种确定文本数据的关联话题的装置，其特征在于，所述装置包括：

文本获取单元，用于获取待关联文本数据；

特征提取单元，用于提取所述待关联文本数据的描述特征；

9.一种匹配度确定模型的训练装置，其特征在于，所述装置包括：

其中，所述训练单元的每一次训练过程包括如下步骤：

10.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6或者7中任一权利要求所述的方法。