CN110472057A

CN110472057A - 话题标签的生成方法及装置

Info

Publication number: CN110472057A
Application number: CN201910775828.7A
Authority: CN
Inventors: 李嘉琛; 付骁弈
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-11-19
Anticipated expiration: 2039-08-21
Also published as: CN110472057B

Abstract

本申请提供了一种话题标签的生成方法及装置，其中，该方法包括：选取发布时间属于预设时间段内的第一文档，为该第一文档打上第一话题标签，提取出该第一文档的第一特征向量，在检测到新增文档时，提取出该新增文档的第二特征向量；通过计算两个特征向量之间的相似度的方式，获取与该第二特征向量的相似度接近的K个该第一特征向量对应的第一文档，依据该K个第一文档的话题标签确定出该新增文档的第二话题标签。采用上述方案，通过计算特征向量的相似度的方式，选择出与新增文档近似的第一文档，依据第一文档的话题标签确定出新增文档的第二话题标签，精确地生成了新增文档的第二话题标签，解决了相关技术中提取文档话题不准确的问题。

Description

话题标签的生成方法及装置

技术领域

本申请涉及但不限于文档处理领域，具体而言，涉及一种话题标签的生成方法及装置。

背景技术

在相关技术中，微博是目前国内活跃用户量最高的社交平台之一，通过对微博文本的收集，可以用于舆情监控，调研群众对热点事件的感情极性；广告投放监控；营销方案指导等等，但针对话题收集数据的方法目前不完善。

针对相关技术中提取文档话题不准确的问题，目前还没有有效的解决方案。

发明内容

本申请实施例提供了一种话题标签的生成方法及装置，以至少解决相关技术中提取文档话题不准确的问题。

根据本申请的一个实施例，提供了一种话题标签的生成方法，包括：选取发布时间属于预设时间段内的第一文档，为所述第一文档打上第一话题标签，使用无监督特征工程算法提取出所述第一文档的第一特征向量，其中，所述发布时间是文档上传至互联网的时刻；在检测到新增文档时，使用所述无监督特征工程算法提取出所述新增文档的第二特征向量；通过计算两个特征向量之间的相似度的方式，获取与所述第二特征向量的相似度接近的K个所述第一特征向量对应的第一文档，其中，所述K为预设值；依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签。

根据本申请的一个实施例，还提供了一种话题标签的生成装置，包括：选取模块，用于选取发布时间属于预设时间段内的第一文档，为所述第一文档打上第一话题标签，使用无监督特征工程算法提取出所述第一文档的第一特征向量，其中，所述发布时间是文档上传至互联网的时刻；提取模块，用于在检测到新增文档时，使用所述无监督特征工程算法提取出所述新增文档的第二特征向量；获取模块，用于通过计算两个特征向量之间的相似度的方式，获取与所述第二特征向量的相似度接近的K个所述第一特征向量对应的第一文档，其中，所述K为预设值；确定模块，用于依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签。

根据本申请的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请，选取发布时间属于预设时间段内的第一文档，为所述第一文档打上第一话题标签，使用无监督特征工程算法提取出所述第一文档的第一特征向量，其中，所述发布时间是文档上传至互联网的时刻；在检测到新增文档时，使用所述无监督特征工程算法提取出所述新增文档的第二特征向量；通过计算两个特征向量之间的相似度的方式，获取与所述第二特征向量的相似度接近的K个所述第一特征向量对应的第一文档，其中，所述K为预设值；依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签。采用上述方案，通过计算特征向量的相似度的方式，选择出与新增文档近似的第一文档，依据第一文档的话题标签确定出新增文档的第二话题标签，精确地生成了新增文档的第二话题标签，解决了相关技术中提取文档话题不准确的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种话题标签的生成方法的计算机设备的硬件结构框图；

图2是根据本申请实施例的话题标签的生成方法的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面对本申请文件中术语进行如下说明：

微博话题，微博话题通常是一个或几个用空格隔开的词语，或者是一个短句，前后加上井号键(例如#大连海关退运近700吨洋垃圾#)的标签，编辑微博内容时，使用标签就可以使这一篇微博被这个话题单独的页面收录。

特征，在机器学习中，特征是用于描述事物的关键性因素。例如，描述人可以从性别、身高、年龄、体重等维度描述，性别、身高、年龄、体重等这些维度都是特征。

分类器，分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个，从而可以应用于数据预测。总之，分类器是数据挖掘中对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

有监督模型/无监督模型，一般训练分类模型时，我们会有训练集和测试集，假设希望能有一个模型来判别一篇微博是否包含广告(例子与本专利无关，只是方便理解)，假如训练集中不仅包含训练数据(一万篇微博)，还有一列标签来标记每一条训练数据的目标分类结果(每一篇微博是否包含广告)，那么这是一个有监督的模型。如果训练集仅仅是训练数据(一万篇微博)，没有标签，那么是一个无监督模型。

LDA算法，LDA算法是一种无监督的模型，认为文章是关于主题的概率分布，主题是关于词汇的概率分布，从大规模的训练文本数据提取文本的特征。

kNN算法，k最邻近算法(k-Nearest Neighbor)可以用作分类模型，找到k个最邻近的训练样本，为测试样本分类。

实施例一

本申请实施例一所提供的方法实施例可以在计算机设备或者类似的运算装置中执行。以运行在计算机设备上为例，图1是本申请实施例的一种话题标签的生成方法的计算机设备的硬件结构框图，如图1所示，计算机设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机设备还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机设备的结构造成限定。例如，计算机设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的话题标签的生成方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述计算机设备的话题标签的生成方法，图2是根据本申请实施例的话题标签的生成方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，选取发布时间属于预设时间段内的第一文档，为所述第一文档打上第一话题标签，使用无监督特征工程算法提取出所述第一文档的第一特征向量，其中，所述发布时间是文档上传至互联网的时刻；

步骤S204，在检测到新增文档时，使用所述无监督特征工程算法提取出所述新增文档的第二特征向量；

步骤S206，通过计算两个特征向量之间的相似度的方式，获取与所述第二特征向量的相似度接近的K个所述第一特征向量对应的第一文档，其中，所述K为预设值；

步骤S208，依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签。

采用上述方案，通过计算特征向量的相似度的方式，选择出与新增文档近似的第一文档，依据第一文档的话题标签确定出新增文档的第二话题标签，精确地生成了新增文档的第二话题标签，解决了相关技术中提取文档话题不准确的问题。

可选地，使用无监督特征工程算法提取出所述第一文档的第一特征向量，包括：将多个第一文档作为文档主题生成(Latent Dirichlet Allocation，简称为LDA)模型的输入，其中，所述LDA模型是预先使用多个训练文档训练出来的，所述LDA模型用于执行聚类算法；将所述LDA模型的输出作为所述第一文档的第一特征向量。采用上述方案，使用LDA可以更为精确地计算出文档的特征向量。

可选地，所述LDA模型是预先使用多个训练集文档训练出来的，包括：所述LDA模型依据所述多个训练文档中包括的词汇来识别出每个训练文档对应的话题；筛选出属于同一个话题的第二文档，使用所述第二文档训练所述LDA模型。

可选地，计算两个特征向量之间的相似度，包括：计算两个特征向量之间的欧式距离，将所述欧式距离作为所述两个特征向量之间的相似度。

可选地，依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签，包括：将所述K个第一文档的话题标签做加权平均，得到所述新增文档的第二话题标签。采用该方案，可以使用k最邻近算法计算出第二话题标签。

下面结合本申请的另一个实施例进行说明。

通常一些流量监控、舆情分析平台目前在收集数据阶段时，使用关键词匹配的方法，通过拆分微博话题词组来匹配包含所有关键词的微博正文和评论。

社交网络中的文本存在用语用词不规范的问题，并且微博限制了文本字数，用户的时评文本非常短，如果不包含话题tag或关键词就无法被识别出。并且现有的数据收集方法多以关键词和话题匹配方式，取得的数据不全面甚至不相关。

例如，我们想要分析微博上所有对#王源抽烟#博文，只使用带有话题标签的微博无法代表全部，而只搜索关键词‘王源’、‘抽烟’和‘王源抽烟’会无法获取准确的数据。以下两条微博都包含话题关键词‘抽烟’，都不包括关键词‘王源’：

1.“我真的觉得抽烟上三十多个热搜没必要，不是说全民禁烟不正确，一直揪着别人的私生活，非要别人活成饭心里的样子就很搞笑了，他的错误就是在“室内吸烟”嘛，重点是室内不是吸烟。”；

2.“忘记了一件很重要的事，其实也没忘，只是不想面对。又开始很紧张很忐忑很想抽烟。所以，早上的话白说了吧，哈哈哈哈哈哈”；

但通过第一条微博中‘三十多个热搜’、‘私生活’、‘饭’(表示明星的粉丝)、‘室内吸烟’等关键信息判断出与#王源抽烟#相关，第二条与此话题显然不相关。

针对上述问题，本申请另一个实施例的方案包括以下步骤：

步骤1.收集训练集：

由于热点事件新闻具有时效性，需要选取一定时间段内的微博，如10天(例如占领华尔街的话题在Facebook活跃度)，以话题标签(两个井号中间的词组)作为分类依据，选取具有话题的微博的正文和评论，按照微博正文的话题标签给正文和评论文本分别打上标签，组成训练集。

步骤2.特征提取：

使用一种无监督的特征工程算法提取文本特征向量，例如LDA模型是一种文档-话题-词汇的三层模型，认为文档是话题的概率分布，话题是词汇的概率分布，选择一个适合的话题数量训练LDA模型，将文本压缩为一个由话题分布组成的特征向量。

步骤3.计算相似度：

选择一种相似度计算函数，例如欧几里得距离，计算无标签文本特征向量与有标签文本特征向量的相似度，用一种分类模型为无标签文本分类，例如k-NN模型用k个最邻近样本的类别为新样本分类。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例二

在本实施例中还提供了一种话题标签的生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

根据本申请的一个实施例，提供了一种话题标签的生成装置，包括：

选取模块，用于选取发布时间属于预设时间段内的第一文档，为所述第一文档打上第一话题标签，使用无监督特征工程算法提取出所述第一文档的第一特征向量，其中，所述发布时间是文档上传至互联网的时刻；

提取模块，用于在检测到新增文档时，使用所述无监督特征工程算法提取出所述新增文档的第二特征向量；

获取模块，用于通过计算两个特征向量之间的相似度的方式，获取与所述第二特征向量的相似度接近的K个所述第一特征向量对应的第一文档，其中，所述K为预设值；

确定模块，用于依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签。

可选地，所述选取模块还用于将多个第一文档作为LDA模型的输入，其中，所述LDA模型是预先使用多个训练文档训练出来的，所述LDA模型用于执行聚类算法；以及用于将所述LDA模型的输出作为所述第一文档的第一特征向量。

可选地，所述LDA模型是通过以下方式训练出来的，包括：所述LDA模型依据所述多个训练文档中包括的词汇来识别出每个训练文档对应的话题；筛选出属于同一个话题的第二文档，使用所述第二文档训练所述LDA模型。

可选地，所述获取模块还用于通过以下方式计算两个特征向量之间的相似度，包括：计算两个特征向量之间的欧式距离，将所述欧式距离作为所述两个特征向量之间的相似度。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例三

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，选取发布时间属于预设时间段内的第一文档，为所述第一文档打上第一话题标签，使用无监督特征工程算法提取出所述第一文档的第一特征向量，其中，所述发布时间是文档上传至互联网的时刻；

S2，在检测到新增文档时，使用所述无监督特征工程算法提取出所述新增文档的第二特征向量；

S3，通过计算两个特征向量之间的相似度的方式，获取与所述第二特征向量的相似度接近的K个所述第一特征向量对应的第一文档，其中，所述K为预设值；

S4，依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输装置以及输入输出设备，其中，该传输装置和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种话题标签的生成方法，其特征在于，包括：

选取发布时间属于预设时间段内的第一文档，为所述第一文档打上第一话题标签，使用无监督特征工程算法提取出所述第一文档的第一特征向量，其中，所述发布时间是文档上传至互联网的时刻；

在检测到新增文档时，使用所述无监督特征工程算法提取出所述新增文档的第二特征向量；

通过计算两个特征向量之间的相似度的方式，获取与所述第二特征向量的相似度接近的K个所述第一特征向量对应的第一文档，其中，所述K为预设值；

依据所述K个第一文档的话题标签确定出所述新增文档的第二话题标签。

2.根据权利要求1所述的方法，其特征在于，使用无监督特征工程算法提取出所述第一文档的第一特征向量，包括：

将多个第一文档作为文档主题生成LDA模型的输入，其中，所述LDA模型是预先使用多个训练文档训练出来的，所述LDA模型用于执行聚类算法；

将所述LDA模型的输出作为所述第一文档的第一特征向量。

3.根据权利要求2所述的方法，其特征在于，所述LDA模型是预先使用多个训练集文档训练出来的，包括：

所述LDA模型依据所述多个训练文档中包括的词汇来识别出每个训练文档对应的话题；

筛选出属于同一个话题的第二文档，使用所述第二文档训练所述LDA模型。

4.根据权利要求1所述的方法，其特征在于，计算两个特征向量之间的相似度，包括：

计算两个特征向量之间的欧式距离，将所述欧式距离作为所述两个特征向量之间的相似度。

5.一种话题标签的生成装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，

所述选取模块还用于将多个第一文档作为LDA模型的输入，其中，所述LDA模型是预先使用多个训练文档训练出来的，所述LDA模型用于执行聚类算法；

以及用于将所述LDA模型的输出作为所述第一文档的第一特征向量。

7.根据权利要求6所述的装置，其特征在于，所述LDA模型是通过以下方式训练出来的，包括：

所述LDA模型依据所述多个训练文档中包括的词汇来识别出每个训练文档对应的话题；筛选出属于同一个话题的第二文档，使用所述第二文档训练所述LDA模型。

8.根据权利要求5所述的装置，其特征在于，所述获取模块还用于通过以下方式计算两个特征向量之间的相似度，包括：计算两个特征向量之间的欧式距离，将所述欧式距离作为所述两个特征向量之间的相似度。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。