CN107894994A - 一种检测热点话题类别的方法和装置 - Google Patents

一种检测热点话题类别的方法和装置 Download PDF

Info

Publication number
CN107894994A
CN107894994A CN201710970732.7A CN201710970732A CN107894994A CN 107894994 A CN107894994 A CN 107894994A CN 201710970732 A CN201710970732 A CN 201710970732A CN 107894994 A CN107894994 A CN 107894994A
Authority
CN
China
Prior art keywords
text
classification
talked
topic
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710970732.7A
Other languages
English (en)
Inventor
李树海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710970732.7A priority Critical patent/CN107894994A/zh
Publication of CN107894994A publication Critical patent/CN107894994A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种检测热点话题类别的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量;对所述多个文本向量进行聚类处理,以确定出一个以上的类别;从所述一个以上的类别中筛选出热点话题类别。该实施方式能够将每个文本数据的语义体现出,解决了现有技术中仅仅根据单个词语来确定出热点话题的问题,提高了确定热点话题的效率以及准确性。

Description

一种检测热点话题类别的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种检测热点话题类别的 方法和装置。
背景技术
社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工 具和平台,现阶段主要包括社交网站、微博、博客、论坛、播客等等, 其已经成为人们获取或发布绝大多数日常话题的最重要的信息载体。由 于社交媒体数据的即时性与互动性,此类数据可以很大程度上反应人们 对于产品、市场或商业活动的讨论情况和观点,这些信息对于很多企业来说都具有很大的参考价值。对于微博、Instagram、Twitter、Facebook 等社交媒体每天产生的大量信息,需检测出社交媒体的文本数据中的热 点话题,即受广大群众关注或欢迎的话题。
现阶段检测热点话题的方法中,主要是通过检测词语出现的频率 并且将出现频率较高的词语确定为热点话题,或者系统人员根据经验或 者数据查看自行设置话题词语。上述检测热点话题的方法不仅效率低, 而且由于词语并不能完全体现出数据本文的语义,所以仅通过词语的频 率而不考虑每个文本的语义,会导致检测出的热点话题不准确。
发明内容
有鉴于此,本发明实施例提供一种检测热点话题类别的方法和装 置,能够根据文本数据的语义更加准确的检测出热点话题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种检 测热点话题类别的方法。
本发明实施例的检测热点话题类别的方法包括:将获取到的多个 文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量; 对所述多个文本向量进行聚类处理,以确定出一个以上的类别;从所述 一个以上的类别中筛选出热点话题类别。
可选地,在将获取到的多个文本数据中的每个文本数据转换为文 本向量之前,还包括:根据预设的检测目标确定一个或几个目标关键词, 以及设置时间段;从社交媒体中获取所述时间段内的包含所述一个或几 个目标关键词的多个文本数据;对获取到的多个文本数据进行过滤处 理。
可选地,从社交媒体中获取所述时间段内的包含所述一个或几个 目标关键词的多个文本数据之后,还包括:获取所述多个文本数据的操 作数据;从所述一个以上的类别中筛选出热点话题类别的步骤包括:对 于所述一个以上的类别中的每个类别,确定该类别包含的文本向量的数 量,以及每个类别中包含的文本向量所对应的文本数据的操作数据;根 据所述每个类别包含的文本向量的数量与文本数据的操作数据,从所述 一个以上的类别中筛选出热点话题类别。
可选地,所述社交媒体为微博,且所述操作数据包括但不局限于 转发数、评论数和点赞数。
可选地,在将获取到的多个文本数据中的每个文本数据转换为文 本向量之前,还包括:对获取到的多个文本数据进行分词处理,以得到 语料库;
将获取到的多个文本数据中的每个文本数据转换为文本向量的步 骤包括:基于所述语料库,通过doc2vec将获取到的多个文本数据中的 每个文本数据转换为对应的文本向量。
可选地,所述对所述文本向量进行聚类处理的步骤包括:
步骤1:设置k值,并从所述文本向量中选出k个文本向量作为k 个聚类中心;
步骤2:对于每个文本向量,计算出该文本向量与当前的k个聚类 中心的余弦相似度,并将该文本向量聚类到最大余弦相似度所对应的聚 类中心,以得到k个新的聚类中心;
步骤3:计算出每个新的聚类中心的均值;
步骤4:根据每个当前的聚类中心与其均值的比较,判断所述k个 当前的聚类中心是否发生变化,以及执行步骤2的次数是否达到预设 值;若发生变化且执行步骤2的次数达到预设值,则执行步骤2;否则, 将所述k个当前的聚类中心分别确定为最终的类别。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种 检测热点话题类别的装置。
本发明实施例的检测热点话题类别的装置包括:转换模块,用于 将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到 多个文本向量;聚类模块,用于对所述多个文本向量进行聚类处理,以 确定出一个以上的类别;筛选模块,用于从所述一个以上的类别中筛选 出热点话题类别。
可选地,还包括获取模块,用于根据预设的检测目标确定一个或 几个目标关键词,以及设置时间段;从社交媒体中获取所述时间段内的 包含所述一个或几个目标关键词的多个文本数据;对获取到的多个文本 数据进行过滤处理。
可选地,所述获取模块还用于获取所述多个文本数据的操作数据; 所述筛选模块还用于,对于所述一个以上的类别中的每个类别,确定该 类别包含的文本向量的数量,以及每个类别中包含的文本向量所对应的 文本数据的操作数据;根据所述每个类别包含的文本向量的数量与文本 数据的操作数据,从所述一个以上的类别中筛选出热点话题类别。
还包括分词模块,用于对获取到的多个文本数据进行分词处理, 以得到语料库;所述转换模块还用于基于所述语料库,通过doc2vec将 获取到的多个文本数据中的每个文本数据转换为对应的文本向量。
可选地,所述聚类模块包括:初始单元,用于设置k值,并从所 述文本向量中选出k个文本向量作为k个聚类中心;处理单元,用于对 于每个文本向量,计算出该文本向量与当前的k个聚类中心的余弦相似 度,并将该文本向量聚类到最大余弦相似度所对应的聚类中心,以得到 k个新的聚类中心;计算单元,用于计算出每个新的聚类中心的均值; 判断单元,用于根据每个当前的聚类中心与其均值的比较,判断所述k 个当前的聚类中心是否发生变化,以及所述处理单元执行的次数是否达 到预设值;若发生变化且执行的次数达到预设值,则所述处理单元执行 操作;否则,将所述k个当前的聚类中心分别确定为最终的类别。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种 检测热点话题类别的服务器。
本发明实施例的检测热点话题类别的服务器包括:一个或多个处 理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被 所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一 项的检测热点话题类别的方法。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种 计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处 理器执行时实现上述任一项的检测热点话题类别的方法。
上述发明中的一个实施例具有如下优点或有益效果:将获取的文 本数据转换为固定维度的文本向量,使得文本相似度的计算更加可靠, 并且通过对文本向量进行聚类处理,以将文本相似度高的文本数据聚为 一类,进而更加准确提取出的热点话题。而且,是将每个文本数据都转 换为文本向量,该方式能够将每个文本数据的语义体现出,解决了现有技术中仅仅根据单个词语来确定出热点话题的问题,提高了确定热点话 题的效率以及准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具 体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的检测热点话题类别的方法的主要流程 的示意图;
图2是根据本发明实施例的检测热点话题类别的装置的主要模块 的示意图;
图3是本发明实施例可以应用于其中的示例性系统架构图;
图4是适于用来实现本发明实施例的终端设备或服务器的计算机 系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发 明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因 此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各 种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简 明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的检测热点话题类别的方法的主要流程 的示意图,如图1所示,本发明实施例的检测热点话题类别的方法的主 要包括:
步骤S101:将获取到的多个文本数据中的每个文本数据转换为文 本向量,从而得到多个文本向量。在该过程之前,还包括获取文本数据 的过程。具体的,根据预设的检测目标确定一个或几个目标关键词,以 及设置时间段;从社交媒体中获取所述时间段内的包含所述一个或几个 目标关键词的多个文本数据;对获取到的多个文本数据进行过滤处理。该社交媒体为微博,且所述操作数据包括但不局限于转发数、评论数和 点赞数。获取文本数据的过程,还获取到多个文本数据的操作数据。通 过上述过程,可有针对性地获取数据,使得分析的过程更加简洁以及分 析结果更加准确。而且,获取的操作数据更有利于分析出热点话题类别。
获取到文本数据之后,对获取到的多个文本数据进行分词处理, 以得到语料库;并且基于所述语料库,通过doc2vec将获取到的多个文 本数据中的每个文本数据转换为对应的文本向量。其中,doc2vec为谷 歌开源的工具,doc2vec将文本转换成向量时会考虑文本的上下文关系, 而且是将文本表示成固定长度的较低维特征向量。该doc2vec模型存在两种方法:Distributed Memory(DM)和Distributed Bag of Words(DBOW)。DM试图在给定上下文和段落向量的情况下预测单词 的概率。在一个句子或者文档的训练过程中,段落ID保持不变,共享 着同一个段落向量。DBOW则在仅给定段落向量的情况下预测段落中 一组随机单词的概率。通过doc2vec可将每个文本数据转换为固定维度 的实数向量,可避免了出现维度灾难的问题。该固定维度可自行设置, 一般为100-200维。该固定维度的实数向量可以更明确地表示文本数据 的语义信息,使得文本相似度的计算更加可靠,进而使得提取出的热点 话题更加准确。例如,调用doc2vec工具将文本“今天我很开心” 转换为对应的文本向量:
rom gensim import models
file_doc_name='doc_tmp.txt'#文件中存储了微博文本语料,每一 行是分词之后的微博文本内容,例如“今天我很开心”。
sentences=models.doc2vec.TaggedLineDocument(file_doc_name)# 将语料文件导入数据结构。
model=models.Doc2Vec(sentences,size=200,window=7, min_count=5,workers=8,iter=32)#对语料进行doc2vec训练。
model.docvecs#存储了每条微博内容对应的向量
步骤S102:对所述多个文本向量进行聚类处理,以确定出一个以 上的类别。本步骤具体包括:步骤1:设置k值,并从文本向量中选出 k个文本向量作为k个聚类中心;步骤2:对于每个文本向量,计算出 该文本向量与当前的k个聚类中心的余弦相似度,并将该文本向量聚类 到最大余弦相似度所对应的聚类中心,以得到k个新的聚类中心;步骤 3:计算出每个新的聚类中心的均值;步骤4:根据每个当前的聚类中 心与其均值的比较,判断k个当前的聚类中心是否发生变化,以及执行 步骤2的次数是否达到预设值;若发生变化且执行步骤2的次数达到预 设值,则执行步骤2;否则,将k个当前的聚类中心分别确定为最终的类别。
步骤S103:从所述一个以上的类别中筛选出热点话题类别。在本 步骤中,对于一个以上的类别中的每个类别,确定该类别包含的文本向 量的数量,以及每个类别中包含的文本向量所对应的文本数据的操作数 据;根据每个类别包含的文本向量的数量与文本数据的操作数据,从一 个以上的类别中筛选出热点话题类别。例如:类别A包含文本数据A,类别B包含文本数据B,类别C包含文本数据C,其中,文本数据A 的转发数为500、评论数为1500、点赞数为10000,文本数据B的转发 数为100、评论数为500、点赞数为5000,文本数据C的转发数为300、 评论数为1000、点赞数为7000。类别A、类别B、类别C包含的文本 向量的数据都是一个,其操作数据如上。如果设置的操作数据的权重分 别为:转发数为1、评论数为0.5、点赞数为0.5,则通过计算得出的类 别A数值为1+500*1+1500*0.5+10000*0.5=6251,同理,类别B、类别 C的数值分别为2851、4301。可通过设置一个预设值,来判断哪些类 别为热点话题类别。对于上述类别A、类别B、类别C的得出的数值, 如果预设值设为3500,则将类别A和类别C为热点话题类别。然后, 通过对热点话题类别内文本数据的内容的查看可得出该类别对应的热 点话题。
在确定热点话题类别包含的热点话题之后,还可通过TextRank算 法提取热点话题类别中包含的文本向量所对应的文本数据的关键字,并 将提取出的关键字设为热点词。TextRank算法基于PageRank,用于为 文本生成关键字和摘要,能准确、有效的将热点话题类别中包含的热点 词提取出。具体通过调用python中的jieba.analyse.extract_tags()函数来 获取输入语料中的关键词。将上节获取的每个热点话题所包含的微博文 本作为该函数输入,可输出每个话题对应的关键词,以完成热点词提取。
本发明实施例提供的一种检测热点话题类别的方法,可通过 doc2vec模型对语料进行训练,将每一条微博内容转换为固定长度的低 维稠密实数向量(稠密向量即为密集向量,由double类型的数组支持), 再通过对文本进行聚类,选取较大的若干类别作为热点话题。具体过程 包括数据获取、数据预处理、热点话题分析、热点词分析等步骤。
在获取微博文本数据的过程中,首先根据要分析的领域指定几个 目标关键词并指定时间段,例如要检测有关京东的热点话题,可指定关 键词为“京东”,再通过调用微博API或采用爬虫技术获取一段时间内 包含目标关键词的待分析微博文本数据,并采用广告和垃圾过滤技术过 滤掉垃圾文本,提取优质微博内容作为进行热点检测的输入数据,以便后续进行自动检测热点话题与热点词。在多数场景下,分析原创微博 (post)比分析转发(repost)的微博更有价值,因为原创微博更能体现该微 博作者的参与度,且原创微博包含转发数、评论数、点赞数等信息,所 以在获取微博文本数据时只获取并分析用户的原创微博。获取数据之后 利用中文分词工具对每一条微博文本进行分词,生成分词之后的微博文本的语料库,作为后续分析的输入。
通过doc2vec将微博语料中的每条微博文本映射成为一个固定维 度的低维稠密向量,并计算出向量之间的余弦相似度,该余弦相似度体 现了文本之间的语义相似度。设文本向量A=(A1,A2,...,An),B= (B1,B2,...,Bn),则其余弦相似度为:
同一个话题所包含的文本内容其语义相似度是比较高的,因此考 虑基于计算文本之间的语义相似度将相似度较高的微博文本聚为一类, 将语义相似度低的文本放在不同的类别。所以,在将微博语料中的每 条文本转换成向量之后,就可以利用聚类算法对其进行聚类。对微博文 本进行聚类之后,聚在同一类别中的微博认为是同一话题,按照类别包 含的微博数量对聚类后的类别进行倒序排列,选取包含微博文本数量较 高并且包含的微博的操作数据较高的类别作为热点话题。其中,数量大 于设置的阈值则可确认为较高。
在检测热点话题完成之后,每个热点话题会包含大量的微博文本, 可以采取TextRank算法从每个话题所包含的文本中提取出关键词作为 热点词。对文本语料进行热点词提取,具体通过调用python中的 jieba.analyse.extract_tags()函数来获取输入语料中的关键词。将上节获取 的每个热点话题所包含的微博文本作为该函数输入,可输出每个话题对 应的关键词,以完成热点词提取。
本发明实施例的检测热点话题类别的方法中,通过doc2vec将文本 转换成向量可以更明确地表示文本的语义信息,使得文本相似度的计算 更加可靠,进而使得提取出的热点话题更加准确。基于此,本发明实施 例还对热点词进行提取,进而本发明实施例的方法还可应用于关注热点 词的场景。此外,通过获取文本数据过程中确定目标关键词,可用于指 定领域或其它维度的热点话题检测。如果用于普遍的热点话题检测,则 在数据获取阶段不设置获取相应领域的数据,即不限定目标关键词。通 过本发明实施例可以检测出在不同时间社交媒体上的热门热点话题与 热点词,并且无须人工浏览大量信息。自动检测出的热点话题可以指导 不同的商业行为,例如通过发现大众的关注点向用户推送相关产品,指导公关措施,或者用于支撑自身的文案撰写以获得共鸣等。
图2是根据本发明实施例的检测热点话题类别的装置的主要模块 的示意图。如图2所示,本发明实施例的检测热点话题类别的装置200 主要包括:转换模块201、聚类模块202和筛选模块203。
转换模块201,用于将获取到的多个文本数据中的每个文本数据转 换为文本向量,从而得到多个文本向量。本发明实施例的检测热点话题 类别的装置200还包括获取模块和分词模块,获取模块用于根据预设的 检测目标确定一个或几个目标关键词,以及设置时间段;从社交媒体中 获取所述时间段内的包含所述一个或几个目标关键词的多个文本数据; 对获取到的多个文本数据进行过滤处理。分词模块用于对过滤后的文本 数据进行分词处理,以得到语料库。则转换模块201该所述语料库,通 过doc2vec将获取到的多个文本数据中的每个文本数据转换为对应的文 本向量。通过doc2vec可将每个文本数据转换为固定维度的实数向量, 该固定维度可自行设置,一般为100-200维。该固定维度的实数向量可 以更明确地表示文本数据的语义信息,使得文本相似度的计算更加可 靠,进而使得提取出的热点话题更加准确。
聚类模块202,用于对所述多个文本向量进行聚类处理,以确定出 一个以上的类别。聚类模块203包括:初始单元,用于设置k值,并从 文本向量中选出k个文本向量作为k个聚类中心;处理单元,用于对于 每个文本向量,计算出该文本向量与当前的k个聚类中心的余弦相似 度,并将该文本向量聚类到最大余弦相似度所对应的聚类中心,以得到 k个新的聚类中心;计算单元,用于计算出每个新的聚类中心的均值; 判断单元,用于根据每个当前的聚类中心与其均值的比较,判断k个当 前的聚类中心是否发生变化,以及处理单元执行的次数是否达到预设 值;若发生变化且执行的次数达到预设值,则处理单元执行操作;否则, 将k个当前的聚类中心分别确定为最终的类别。
筛选模块203,用于从所述一个以上的类别中筛选出热点话题类 别。获取模块从社交媒体中获取到文本数据之后,还获取到多个文本数 据的操作数据,操作数据包括但不局限于:转发数、评论数和点赞数。 筛选模块204还用于,对于一个以上的类别中的每个类别,确定该类别 包含的文本向量的数量,以及每个类别中包含的文本向量所对应的文本数据的操作数据;根据每个类别包含的文本向量的数量与文本数据的操 作数据,从一个以上的类别中筛选出热点话题类别。通过对热点话题类 别中的文本数据的查看,即可确定该热点话题类别所包含的热点话题, 使得确定热点话题的过程更为简洁。
本发明实施例的检测热点话题类别的装置还可通过TextRank算法 提取热点话题类别中包含的文本向量所对应的文本数据的关键字,并将 提取出的关键字设为热点词。
本发明实施例提供的一种检测热点话题类别的方法,可通过 doc2vec模型对语料进行训练,将每一条微博内容转换为固定长度的低 维稠密实数向量,再通过对文本进行聚类,选取较大的若干类别作为热 点话题。其中,通过doc2vec将文本转换成向量可以更明确地表示文本 的语义信息,使得文本相似度的计算更加可靠,进而使得提取出的热点 话题更加准确。通过本发明实施例可以检测出在不同时间社交媒体上的 热门热点话题与热点词,并且无须人工浏览大量信息。自动检测出的热 点话题可以指导不同的商业行为,例如通过发现大众的关注点向用户推 送相关产品,指导公关措施,或者用于支撑自身的文案撰写以获得共鸣 等。
图3示出了可以应用本发明实施例的检测热点话题类别的方法或 检测热点话题类别的装置的示例性系统架构300。
如图3所示,系统架构300可以包括终端设备301、302、303,网 络304和服务器305。网络304用以在终端设备301、302、303和服务 器305之间提供通信链路的介质。网络304可以包括各种连接类型,例 如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305 交互,以接收或发送消息等。终端设备301、302、303上可以安装有各 种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、 即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的 各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机 和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端 设备301、302、303所浏览的购物类网站提供支持的后台管理服务器(仅 为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进 行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的检测热点话题类别的方法 一般由服务器305执行,相应地,检测热点话题类别的装置一般设置于 服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意 性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的终端设备的 计算机系统400的结构示意图。图4示出的终端设备仅仅是一个示例, 不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其 可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408 加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和 处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。 CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出 (I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406; 包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的 输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调 制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特 网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。 可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据 需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被 安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程 可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计 算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算 机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例 中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/ 或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU) 401执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读 信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机 可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、 或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储 介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储 器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便 携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或 者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任 何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者 器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可 以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算 机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不 限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介 质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机 可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件 使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以 用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等, 或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上, 流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部 分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定 的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两 个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相 反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图 中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的 功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计 算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实 现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器 中,例如,可以描述为:一种处理器包括转换模块、聚类模块和筛选模 块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定, 例如,转换模块还可以被描述为“将获取到的多个文本数据中的每个文本数据转换为文本向量的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机 可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存 在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程 序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括: 将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量;对所述多个文本向量进行聚类处理,以确定出一个以上 的类别;从所述一个以上的类别中筛选出热点话题类别。
根据本发明实施例的技术方案,通过doc2vec将文本转换成的向量 可以更明确地表示文本的语义信息,使得文本相似度的计算更加可靠, 进而使得提取出的热点话题更加准确。通过本发明实施例可以检测出在 不同时间社交媒体上的热门热点话题与热点词,并且无须人工浏览大量 信息。自动检测出的热点话题可以指导不同的商业行为,例如通过发现 大众的关注点向用户推送相关产品,指导公关措施,或者用于支撑自身 的文案撰写以获得共鸣等。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域 技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各 样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作 的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (13)

1.一种检测热点话题类别的方法,其特征在于,包括:
将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量;
对所述多个文本向量进行聚类处理,以确定出一个以上的类别;
从所述一个以上的类别中筛选出热点话题类别。
2.根据权利要求1所述的方法,其特征在于,在将获取到的多个文本数据中的每个文本数据转换为文本向量之前,还包括:
根据预设的检测目标确定一个或几个目标关键词,以及设置时间段;
从社交媒体中获取所述时间段内的包含所述一个或几个目标关键词的多个文本数据;
对获取到的多个文本数据进行过滤处理。
3.根据权利要求2所述的方法,其特征在于,
从社交媒体中获取所述时间段内的包含所述一个或几个目标关键词的多个文本数据之后,还包括:获取所述多个文本数据的操作数据;
从所述一个以上的类别中筛选出热点话题类别的步骤包括:对于所述一个以上的类别中的每个类别,确定该类别包含的文本向量的数量,以及每个类别中包含的文本向量所对应的文本数据的操作数据;根据所述每个类别包含的文本向量的数量与文本数据的操作数据,从所述一个以上的类别中筛选出热点话题类别。
4.根据权利要求2所述的方法,其特征在于,所述社交媒体为微博,且所述操作数据包括但不局限于转发数、评论数和点赞数。
5.根据权利要求1所述的方法,其特征在于,
在将获取到的多个文本数据中的每个文本数据转换为文本向量之前,还包括:对获取到的多个文本数据进行分词处理,以得到语料库;
将获取到的多个文本数据中的每个文本数据转换为文本向量的步骤包括:基于所述语料库,通过doc2vec将获取到的多个文本数据中的每个文本数据转换为对应的文本向量。
6.根据权利要求1所述的方法,其特征在于,所述对所述文本向量进行聚类处理的步骤包括:
步骤1:设置k值,并从所述文本向量中选出k个文本向量作为k个聚类中心;
步骤2:对于每个文本向量,计算出该文本向量与当前的k个聚类中心的余弦相似度,并将该文本向量聚类到最大余弦相似度所对应的聚类中心,以得到k个新的聚类中心;
步骤3:计算出每个新的聚类中心的均值;
步骤4:根据每个当前的聚类中心与其均值的比较,判断所述k个当前的聚类中心是否发生变化,以及执行步骤2的次数是否达到预设值;若发生变化且执行步骤2的次数达到预设值,则执行步骤2;否则,将所述k个当前的聚类中心分别确定为最终的类别。
7.一种检测热点话题类别的装置,其特征在于,包括:
转换模块,用于将获取到的多个文本数据中的每个文本数据转换为文本向量,从而得到多个文本向量;
聚类模块,用于对所述多个文本向量进行聚类处理,以确定出一个以上的类别;
筛选模块,用于从所述一个以上的类别中筛选出热点话题类别。
8.根据权利要求7所述的装置,其特征在于,还包括获取模块,用于根据预设的检测目标确定一个或几个目标关键词,以及设置时间段;从社交媒体中获取所述时间段内的包含所述一个或几个目标关键词的多个文本数据;对获取到的多个文本数据进行过滤处理。
9.根据权利要求8所述的装置,其特征在于,所述获取模块还用于获取所述多个文本数据的操作数据;
所述筛选模块还用于,对于所述一个以上的类别中的每个类别,确定该类别包含的文本向量的数量,以及每个类别中包含的文本向量所对应的文本数据的操作数据;根据所述每个类别包含的文本向量的数量与文本数据的操作数据,从所述一个以上的类别中筛选出热点话题类别。
10.根据权利要求7所述的装置,其特征在于,还包括分词模块,用于对获取到的多个文本数据进行分词处理,以得到语料库;
所述转换模块还用于基于所述语料库,通过doc2vec将获取到的多个文本数据中的每个文本数据转换为对应的文本向量。
11.根据权利要求7所述的装置,其特征在于,所述聚类模块包括:
初始单元,用于设置k值,并从所述文本向量中选出k个文本向量作为k个聚类中心;
处理单元,用于对于每个文本向量,计算出该文本向量与当前的k个聚类中心的余弦相似度,并将该文本向量聚类到最大余弦相似度所对应的聚类中心,以得到k个新的聚类中心;
计算单元,用于计算出每个新的聚类中心的均值;
判断单元,用于根据每个当前的聚类中心与其均值的比较,判断所述k个当前的聚类中心是否发生变化,以及所述处理单元执行的次数是否达到预设值;若发生变化且执行的次数达到预设值,则所述处理单元执行操作;否则,将所述k个当前的聚类中心分别确定为最终的类别。
12.一种检测热点话题类别的服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201710970732.7A 2017-10-18 2017-10-18 一种检测热点话题类别的方法和装置 Pending CN107894994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710970732.7A CN107894994A (zh) 2017-10-18 2017-10-18 一种检测热点话题类别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710970732.7A CN107894994A (zh) 2017-10-18 2017-10-18 一种检测热点话题类别的方法和装置

Publications (1)

Publication Number Publication Date
CN107894994A true CN107894994A (zh) 2018-04-10

Family

ID=61802802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710970732.7A Pending CN107894994A (zh) 2017-10-18 2017-10-18 一种检测热点话题类别的方法和装置

Country Status (1)

Country Link
CN (1) CN107894994A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN111241281A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种基于文本相似度的舆情话题跟踪方法
CN113127611A (zh) * 2019-12-31 2021-07-16 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113688310A (zh) * 2021-07-23 2021-11-23 北京中科闻歌科技股份有限公司 一种内容推荐方法、装置、设备及存储介质
CN113987192A (zh) * 2021-12-28 2022-01-28 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN105183765A (zh) * 2015-07-30 2015-12-23 成都鼎智汇科技有限公司 一种基于大数据的话题抽取方法
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN105183765A (zh) * 2015-07-30 2015-12-23 成都鼎智汇科技有限公司 一种基于大数据的话题抽取方法
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈敏: "《认知计算导论》", 31 May 2017, 武汉:华中科技大学出版社 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN109271509A (zh) * 2018-08-23 2019-01-25 武汉斗鱼网络科技有限公司 直播间话题的生成方法、装置、计算机设备和存储介质
CN113127611A (zh) * 2019-12-31 2021-07-16 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
CN113127611B (zh) * 2019-12-31 2024-05-14 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
CN111241281A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种基于文本相似度的舆情话题跟踪方法
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113157857B (zh) * 2021-03-13 2023-06-02 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113688310A (zh) * 2021-07-23 2021-11-23 北京中科闻歌科技股份有限公司 一种内容推荐方法、装置、设备及存储介质
CN113688310B (zh) * 2021-07-23 2023-08-29 北京中科闻歌科技股份有限公司 一种内容推荐方法、装置、设备及存储介质
CN113987192A (zh) * 2021-12-28 2022-01-28 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法
CN113987192B (zh) * 2021-12-28 2022-04-01 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Similar Documents

Publication Publication Date Title
CN107894994A (zh) 一种检测热点话题类别的方法和装置
JP6161679B2 (ja) 検索エンジン及びその実現方法
US20200279017A1 (en) Intelligently summarizing and presenting textual responses with machine learning
US20180232362A1 (en) Method and system relating to sentiment analysis of electronic content
Kang et al. based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach
US9292877B2 (en) Methods and systems for generating concept-based hash tags
JP6224731B2 (ja) 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置
CN107491534A (zh) 信息处理方法和装置
US20140279751A1 (en) Aggregation and analysis of media content information
US20120166428A1 (en) Method and system for improving quality of web content
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN110111167A (zh) 一种确定推荐对象的方法和装置
CN109284367B (zh) 用于处理文本的方法和装置
CN110362815A (zh) 文本向量生成方法和装置
Bhattacharjee et al. Sentiment analysis using cosine similarity measure
CN110347428A (zh) 一种代码相似度的检测方法和装置
CN108228906A (zh) 用于生成信息的方法和装置
US11640420B2 (en) System and method for automatic summarization of content with event based analysis
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN107798622A (zh) 一种识别用户意图的方法和装置
CN109146152A (zh) 一种线上事故等级预测方法和装置
CN107346344A (zh) 文本匹配的方法和装置
Anh et al. Extracting user requirements from online reviews for product design: A supportive framework for designers
US20180315092A1 (en) Server For Providing Internet Content and Computer-Readable Recording Medium Including Implemented Internet Content Providing Method
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180410

RJ01 Rejection of invention patent application after publication