CN110990676A - 一种社交媒体热点主题提取方法与系统 - Google Patents

一种社交媒体热点主题提取方法与系统 Download PDF

Info

Publication number
CN110990676A
CN110990676A CN201911194794.9A CN201911194794A CN110990676A CN 110990676 A CN110990676 A CN 110990676A CN 201911194794 A CN201911194794 A CN 201911194794A CN 110990676 A CN110990676 A CN 110990676A
Authority
CN
China
Prior art keywords
information data
text information
abstract
topic
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911194794.9A
Other languages
English (en)
Inventor
宋立华
王秋琳
梁懿
庄莉
陈睿欣
于灏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Beijing Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Beijing Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Beijing Electric Power Co Ltd, Fujian Yirong Information Technology Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911194794.9A priority Critical patent/CN110990676A/zh
Publication of CN110990676A publication Critical patent/CN110990676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种社交媒体热点主题提取方法与系统。所述热点主题提取方法收集的互联网文本信息数据进行过滤归纳,然后采用文本聚类算法聚集相同主题的互联网数据信息,再把所述互联网数据信息聚类,为所选主题生成文本摘要;所述热点主题提取系统包括了数据筛选计算、主题聚类和主题摘要提取三个模块;所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳;所述主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据;所述主题摘要提取模块,提取模块根据用户所选的主题,将对应的聚类后的互联网文本信息数据生成文本摘要,从而完成热点提取;本发明提升了社交媒体热点主题的提取质量,具有较强的实用价值。

Description

一种社交媒体热点主题提取方法与系统
技术领域
本发明属于数据分析技术领域,涉及一种适用于在各类社交媒体数据中提取热点主题的方法和系统。
背景技术
随着信息技术及互联网的不断纵深发展,包括微博、微信公众号等在内的社交媒体的舆论影响力越来越大,时效性越来越强,成为了解公众观点、态度和品牌舆情的主要渠道。然而,社交媒体的蓬勃发展也导致了相关数据规模的不断增长。以新浪微博为例,其2018年微博月活跃用户4.62亿,连续三年增长7000万+,垂直领域数量扩大至60个,其中月阅读量过百亿领域达32个。如何在海量、高速变化的社交媒体中及时获得与品牌、发展相关的社交媒体信息,成为政府、企业等机构关心的重要课题,这依托于快速的信息采集能力、处理处理,以及从海量数据中聚集、挖掘出主题热点事件等各方面能力。其中,数据采集能力和处理能够由服务提供商(如新浪)统一提供,而与政府部门、企业等机构相关的特定事件的快速发现,具有较强的个性化,很难统一提供,也成为了当前的技术攻关热点。
发明内容
本发明提出一种面向一种社交媒体热点主题提取方法以及系统,从海量数据中提取出与特定机构相关的信息,并聚集形成易于人工阅读、排查的主题,整理出主题摘要,能够为各类机构及时获取社交媒体中与自身相关的热点主题需求提供支撑,能够显著降低社交媒体信息监测人力投入,具有较强的应用价值。
本发明技术方案一
一种社交媒体热点主题提取方法,包括如下步骤:
S10、将收集的互联网文本信息数据进行过滤归纳;
S20、采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据;
S30、所述互联网文本信息数据聚类后,为所选的主题生成文本摘要,从而完成热点提取并且对相应的主题进行展示。
进一步的,所述的一种社交媒体热点主题提取方法,其中所述收集的互联网文本信息数据进行过滤归纳包括以下步骤:
S11、计算获取的互联网文本信息数据的敏感哈希指纹;
S12、利用敏感哈希指纹过滤所收集到的互联网信息数据内的重复部分。
进一步的,所述的一种社交媒体热点主题提取方法,其中所述采用文本聚类算法聚集相同主题的过滤完成的互联网文本信息数据包括以下步骤:
S21、从过滤归纳后的互联网文本信息数据中筛选出与用户指定关键词相关的互联网文本信息数据;
S22、采用分词器对步骤S21中筛选出的互联网文本信息数据进行分词处理;
S23、将S22中完成分词处理的各互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度;
S24、采用聚类算法对所述互联网文本信息数据进行聚类处理,所述聚类算法根据向量匹配程度进行聚类。
进一步的,所述的一种社交媒体热点主题提取方法,其中所述的为所选的主题生成文本摘要包括如下步骤:S31、用户自定义摘要长度以及摘要的句子长度;
S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容,将提取出的内容作为该文本信息数据的文本摘要;
S33、采用TextRank摘要生成算法,从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点,关联所述节点形成权重边,从而形成带权无向图。
本发明还提供一种社交媒体热点主题提取系统。
本发明技术方案二
一种社交媒体热点主题提取系统,包括数据筛选模块,主题聚类模块以及主题摘要提取模块;
所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳;所述的主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据;
所述主题摘要提取模块根据用户所选的主题,将对应的聚类后的互联网文本信息数据生成文本摘要,从而完成热点提取。
进一步的,所述的一种社交媒体热点主题提取系统,其中所述数据筛选模块具体执行如下步骤:
S11、计算获取的互联网文本信息数据的敏感哈希指纹;
S12、利用敏感哈希指纹过滤所收集到的互联网文本信息数据内的重复部分。
进一步的,所述的一种社交媒体热点主题提取系统,其中所述主题聚类模块具体执行如下步骤:
S21、从过滤归纳后的互联网文本信息数据中筛选出与用户指定关键词相关的互联网文本信息数据;
S22、采用分词器对步骤S21中筛选出的互联网文本信息数据进行分词处理;
S23、将S22中完成分词处理的各互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度;
S24、采用聚类算法对所述互联网文本信息数据进行聚类处理,所述聚类算法根据向量匹配程度进行聚类。
进一步的,所述的一种社交媒体热点主题提取系统,其中所述主题摘要提取模块具体执行如下步骤:
S31、用户能自定义摘要长度以及摘要的句子长度;
S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容,将提取出的内容作为该文本信息数据的文本摘要;
S33、采用TextRank摘要生成算法,从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点,关联所述节点形成权重边,从而形成带权无向图。
本发明的有益效果
1.本发明的方法提升了社交媒体热点主题的提取质量;
2.同时显著缩短了计算时长;
3.降低了人工标注数据投入;
4.提升了提取出的主题的可读性。
5.方案整体实施成本较低,能够普遍应用于各类政府、企业机构的互联网监测及分析相关应用中。
附图说明
图1.社交媒体热点主题提取系统框架图;
图2.社交媒体热点主题提取方法过程图;
图3.主题提取结果图。
具体实施方式
实施例一
一种社交媒体热点主题提取方法,参阅图2包括如下步骤:
S10、将收集的互联网文本信息数据进行过滤归纳;
S20、采用文本聚类算法聚集相同主题的过滤完成的互联网信息数据;
S30、所述互联网文本信息数据聚类后,为用户所选的主题生成文本摘要,从而完成热点提取并且对相应的主题进行展示。
所述的一种社交媒体热点主题提取方法,其中所述收集的互联网文本信息数据进行过滤归纳在采集语料的过程中,需要收集到尽可能全面且不同的语料,而同一篇文章常常会转载到多个平台上,以关于Trump的1.5万篇新闻语料为例:内容不同的语料占所有语料的比例仅有:8.5%,而在这仅有的8.5%中,仍有一些文本的内容绝大多数相同,仅有个别字符的差异。直接使用这样的语料进行分析,会导致聚类和摘要的结果中出现大量重复的内容,无法尽可能地展现多样性的观点。因此需要对文本内容进一步去重,高效的过滤掉那些内容上大部分相同,只有个别地方不同的文本。所述互联网文本信息数据进行过滤归纳包括以下步骤:
S11、计算获取的互联网文本信息数据的敏感哈希指纹;这一步骤将一段文本表示成一个64bit的hash code,从而避免在多次、不同范围的主题提取过程中重复计算,能够显著提升主题提取的计算效率。算法的伪代码描述;
Figure BDA0002294420210000091
S12、利用敏感哈希指纹过滤所收集到的互联网文本信息数据内的重复部分;这一步使用hash table的方法冗余存储多份hash code的集合,从而使得两两之间的比较更加快速高效。算法描述;
输入:
k(当两个hash_code存在<=k位不同时,判为重复)
h(query hash code)
H(hash_code set)
算法:
将h均分成k+1块
repeat
将H中的每个hash_code按同样的方式均分成k+1块
建立k+1个hash map:每个的key是上一步分块的第i块内容,value是list of完整的hash_code
until H遍历完毕
用h的每一块去k+1个hash map中查询,命中则对list中的每个hash_code逐一计算xor的位数:d
if d<=k:
判为重复文本
else
判为非重复文本
所述的一种社交媒体热点主题提取方法,其中所述采用文本聚类算法聚集相同主题的过滤完成的互联网文本信息数据采用文本聚类算法,能将同一主题的文档聚集到一起。文本聚类是无监督学习方法,其主要作用是:按照语料自身的话题特性,将谈论相关内容的文本聚集成类。聚类方法的优点是:1.无监督,不需要标注;2.训练速度快。在实践中,能够根据用户是否指定主题数量的需求(例如:用户可指定将文档自动聚集为5个主题,或者不指定需要需要聚集为几个主题而由算法自行确定)。
首先是对互联网文本信息数据全文进行传统方法分词,可以采用主流分词器,如Jieba。而后,针对形成的分词,进一步计算是否可以将相邻的分词替换成词组。这是通过计算相邻分词的“互信息(PMI)”实现的:互信息体现了组成当前词的各个或词之间结合的紧密程度,互信息值越大成词的可能性也越大,计算公式如下:
Figure BDA0002294420210000121
其中p(x)p(y)分别是分词x和分词y单独出现的概率,p(x,y)是分词x和分词y同时出现的概率。
可设置默认的阈值为0.2,当相邻分词的PMI大于0.2时则将其合并为词组,用词组替代分词作为全局字典和向量中的词元素,原有的构成词组的分词则不再使用;当PMI小于0.2时则不作处理,保留原有分词。实际情况中可以根据实验测试结果调整阈值的数值。
上述过程完成了“改进互联网文本信息数据距离度量算法”的核心部分。接下来就可以采用通用的距离算法如“余弦夹角”等实现互联网文本信息数据的向量匹配度量,
所述采用文本聚类算法聚集相同主题的过滤完成的互联网数据信息包括以下步骤:
S21、筛选出与所需主题或非指定主题关键词相关性高的互联网文本信息数据;
S22、利用分词器将获得的所述互联网文本信息数据进行分词处理;在分词过程中,通过将相邻且共同出现次数较多的词组合为词组,该词组替代原有的词作为新的分词;
S23、将S22中完成分词的所述互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度;
S24、采用聚类算法对所述互联网文本信息数据进行聚类处理,所述聚类算法根据向量匹配程度进行聚类;在各类互联网文本信息数据聚类过程中,都需要通过判断互联网文本信息数据之间的“距离”,来实现将互联网文本信息数据(“距离”较短)聚集到同一个类别,所以如何判断“距离”是聚类效果优劣的关键因素之一。目前主流算法通常采用以下步骤实现两篇文章的距离计算:首先是将互联网文本信息数据进行分词,而后将分词后的文档转换成一个向量,其中向量的维度数量与全局词典(即所有文章中出现的所有词)相同,对于每一维而言,如果文章中存在这个词,则记录为0,否则记录为1。最后,通过向量的距离判断算法,例如“余弦夹角”的算法,计算两个向量的匹配程度。本发明对互联网文本信息数据距离度量算法进行了一定的改进。
K-Means聚类算法描述;
随机选择K个点作为初始质心
repeat
将每个点指派到最近的质心,形成K个簇。其中,度量距离的远近基于改进的互联网文本信息数据距离度量算法。
重新计算每个簇的质心
DBSCAN聚类算法与K-Means聚类算法相比需预先指定类的数量,但是需要指定两个超参数参数:(∈,MinPts)用来描述邻域的样本分布紧密程度。其中,∈描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为∈的邻域中样本个数的阈值;训练速度快,具体的DBSCAN聚类算法描述:
将数据集D中的所有对象标记为未处理状态
Repeat对每个未分配的点p
判断p是(噪声点,边界点)或(核心点)。判断过程中度量点之间距离的远近基于改进的互联网文本信息数据距离度量算法
If p是核心点:
以p为核心建立它所在的簇,并且将p邻域内的所有点加入p所在的簇
until簇不发生变化或达到最大迭代次
进一步的,所述的一种社交媒体热点主题提取方法,其中所述的为所选的主题生成文本摘要包括如下步骤:
S31、用户能自定义摘要长度以及摘要的句子长度;
S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容,将提取出的内容作为该文本信息数据的文本摘要;S33、采用TextRank摘要生成算法,从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点,关联所述节点形成权重边,从而形成带权无向图;TextRank摘要生成算法描述:
对句子进行分词,并转化成一个定长向量
Repeat构建图
把过滤后满足长度条件的所有句子作为node添加到graph G上计算两两句子之间的相关程度:s
If s>=threshold
在这两个句子节点之间添加1条edge,权重是s
实施例二
一种社交媒体热点主题提取系统,参照图1其中所述的系统包括数据筛选模块,主题聚类模块和主题摘要提取模块;
所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳;
所述的主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据;
所述主题摘要提取模块根据用户所选的主题,将对应的聚类后的互联网文本信息数据生成文本摘要,从而完成热点提取。
所述的一种社交媒体热点主题提取系统,其中所述数据筛选模块具体执行如下步骤:
S11、计算获取的互联网文本信息数据的敏感哈希指纹;
S12、利用敏感哈希指纹过滤所收集到的互联网文本信息数据内的重复部分。
所述的一种社交媒体热点主题提取系统,其中所述主题聚类模块具体执行如下步骤:
S21、筛选出与用户指定关键词相关的互联网文本信息数据;
S22、采用分词器将步骤S21中筛选出的互联网文本信息数据进行分词处理;
S23、将S22中完成分词的所述互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度;
S24、采用聚类算法对所述互联网文本信息数据进行聚类处理,所述聚类算法根据向量匹配程度进行聚类。
所述的一种社交媒体热点主题提取系统,其中所述主题摘要提取模块具体执行如下步骤:
S31、用户自定义摘要长度以及摘要的句子长度;
S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容,将提取出的内容作为该文本信息数据的文本摘要;
S33、采用TextRank摘要生成算法,从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点,关联所述节点形成权重边,从而形成带权无向图。
实际实施例子如图3所示:8月13日到8月15日三天时间内通过互联网爬虫工具采集到的所有与某大型央企相关的社交媒体数据,包括微信公众号和新浪微博,其中微信公众号2453条,微博263168条;本次实验CPU4核内存、16GB的Linux服务器上运行,主题聚类部分采用策略1,指定聚集为10个主题。执行总耗时3分钟56秒,其中步骤1文本去重耗时21秒,步骤2主题聚类耗时2分11秒,步骤3主题摘要耗时24秒。图3是得到的其中一个主题信息;针对十万级数据的主题提取总共耗时不超过5分钟,显著低于机器学习或深度学习的主题聚类算法;主题提取结果增加了“主题摘要”,显著提升了人工阅读主题内容的用户体验,为进一步开展主题筛选、判断及处置奠定了良好的基础。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的效结构或效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种社交媒体热点主题提取方法,其特征在于, 包括如下步骤:
S10、将收集的互联网文本信息数据进行过滤归纳;
S20、采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据;
S30、所述互联网文本信息数据聚类后,为用户所选的主题生成文本摘要,从而完成热点提取并且对相应的主题进行展示。
2.根据权利要求1所述的一种社交媒体热点主题提取方法,其特征在于,所述收集的互联网文本信息数据进行过滤归纳包括以下步骤:
S11、计算获取的各互联网文本信息数据的敏感哈希指纹;
S12、利用敏感哈希指纹过滤所收集到的互联网文本信息数据内的重复部分。
3.根据权利要求1所述的一种社交媒体热点主题提取方法,其特征在于,所述采用文本聚类算法聚集相同主题的过滤完成的互联网信息数据包括以下步骤:
S21、从过滤归纳后的互联网文本信息数据中筛选出与用户指定关键词相关的互联网文本信息数据;
S22、采用分词器对步骤S21中筛选出的互联网文本信息数据进行分词处理;
S23、将S22中完成分词处理的各互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度;
S24、采用聚类算法对所述互联网文本信息数据进行聚类处理,所述聚类算法根据向量匹配程度进行聚类。
4.根据权利要求1所述的一种社交媒体热点主题提取方法,其特征在于,所述的为所选的主题生成文本摘要包括如下步骤:
S31、用户自定义摘要长度以及摘要的句子长度;
S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容,将提取出的内容作为该文本信息数据的文本摘要;
S33、采用TextRank摘要生成算法,从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点,关联所述节点形成权重边,从而形成带权无向图。
5.一种社交媒体热点主题提取系统,其特征在于,包括数据筛选模块,主题聚类模块以及主题摘要提取模块;
所述数据筛选模块将收集的互联网文本信息数据进行过滤归纳;
所述的主题聚类模块采用文本聚类算法聚集相同主题的过滤完的互联网文本信息数据;
所述主题摘要提取模块根据用户所选的主题,将对应的聚类后的互联网文本信息数据生成文本摘要,从而完成热点提取。
6.根据权利要求5所述的一种社交媒体热点主题提取系统,其特征在于,所述数据筛选模块具体执行如下步骤:
S11、计算获取的互联网文本信息数据的敏感哈希指纹;
S12、利用敏感哈希指纹过滤所收集到的互联网文本信息数据内的重复部分。
7.根据权利要求5所述的一种社交媒体热点主题提取系统,其特征在于,所述主题聚类模块具体执行如下步骤:
S21、从过滤归纳后的互联网文本信息数据中筛选出与用户指定关键词相关的互联网文本信息数据;
S22、采用分词器对步骤S21中筛选出的互联网文本信息数据进行分词处理;
S23、将S22中完成分词处理的各互联网文本信息数据转换成向量然后判断不同的所述互联网文本信息数据间的匹配程度;
S24、采用聚类算法对所述互联网文本信息数据进行聚类处理,所述聚类算法根据向量匹配程度进行聚类。
8.根据权利要求5所述的一种社交媒体热点主题提取系统,其特征在于,所述主题摘要提取模块具体执行如下步骤:
S31、用户自定义摘要长度以及摘要的句子长度;
S32、采用自动摘要生成技术从聚类后的互联网文本信息数据中提取出内容,将提取出的内容作为该文本信息数据的文本摘要;
S33、采用TextRank摘要生成算法,从所述文本摘要中把符合用户自定义摘要句子长度的句子建模成节点,关联所述节点形成权重边,从而形成带权无向图。
CN201911194794.9A 2019-11-28 2019-11-28 一种社交媒体热点主题提取方法与系统 Pending CN110990676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911194794.9A CN110990676A (zh) 2019-11-28 2019-11-28 一种社交媒体热点主题提取方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911194794.9A CN110990676A (zh) 2019-11-28 2019-11-28 一种社交媒体热点主题提取方法与系统

Publications (1)

Publication Number Publication Date
CN110990676A true CN110990676A (zh) 2020-04-10

Family

ID=70087940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911194794.9A Pending CN110990676A (zh) 2019-11-28 2019-11-28 一种社交媒体热点主题提取方法与系统

Country Status (1)

Country Link
CN (1) CN110990676A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084324A (zh) * 2020-08-11 2020-12-15 同济大学 基于bert和dnn模型的交通社交媒体数据处理方法
CN112380342A (zh) * 2020-11-10 2021-02-19 福建亿榕信息技术有限公司 一种电力文档主题提取方法及设备
CN112860906A (zh) * 2021-04-23 2021-05-28 南京汇宁桀信息科技有限公司 基于自然语言处理的市长热线舆情决策支持方法及系统
CN112883716A (zh) * 2021-02-03 2021-06-01 重庆邮电大学 基于主题相关性的推特摘要生成方法
CN112989793A (zh) * 2021-05-17 2021-06-18 北京创新乐知网络技术有限公司 文章检测方法及装置
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN112084324B (zh) * 2020-08-11 2024-06-04 同济大学 基于bert和dnn模型的交通社交媒体数据处理方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150371A1 (en) * 2007-12-05 2009-06-11 Yahoo! Inc. Methods and apparatus for computing graph similarity via signature similarity
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
US20180191764A1 (en) * 2017-01-04 2018-07-05 Synack, Inc. Automatic webpage change detection
JP2018519561A (ja) * 2015-05-29 2018-07-19 インテル・コーポレーション コンテンツの動的な自動発見のための技術
CN109902216A (zh) * 2019-03-04 2019-06-18 桂林电子科技大学 一种基于社交网络的数据采集与分析方法
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和系统
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测系统
CN110399606A (zh) * 2018-12-06 2019-11-01 国网信息通信产业集团有限公司 一种无监督电力文档主题生成方法及系统
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150371A1 (en) * 2007-12-05 2009-06-11 Yahoo! Inc. Methods and apparatus for computing graph similarity via signature similarity
JP2018519561A (ja) * 2015-05-29 2018-07-19 インテル・コーポレーション コンテンツの動的な自動発見のための技術
US20180191764A1 (en) * 2017-01-04 2018-07-05 Synack, Inc. Automatic webpage change detection
CN107103043A (zh) * 2017-03-29 2017-08-29 国信优易数据有限公司 一种文本聚类方法及系统
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN110399606A (zh) * 2018-12-06 2019-11-01 国网信息通信产业集团有限公司 一种无监督电力文档主题生成方法及系统
CN109902216A (zh) * 2019-03-04 2019-06-18 桂林电子科技大学 一种基于社交网络的数据采集与分析方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和系统
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084324A (zh) * 2020-08-11 2020-12-15 同济大学 基于bert和dnn模型的交通社交媒体数据处理方法
CN112084324B (zh) * 2020-08-11 2024-06-04 同济大学 基于bert和dnn模型的交通社交媒体数据处理方法
CN112380342A (zh) * 2020-11-10 2021-02-19 福建亿榕信息技术有限公司 一种电力文档主题提取方法及设备
CN112883716A (zh) * 2021-02-03 2021-06-01 重庆邮电大学 基于主题相关性的推特摘要生成方法
CN113157857A (zh) * 2021-03-13 2021-07-23 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN113157857B (zh) * 2021-03-13 2023-06-02 中国科学院新疆理化技术研究所 面向新闻的热点话题检测方法、装置及设备
CN112860906A (zh) * 2021-04-23 2021-05-28 南京汇宁桀信息科技有限公司 基于自然语言处理的市长热线舆情决策支持方法及系统
CN112860906B (zh) * 2021-04-23 2021-07-16 南京汇宁桀信息科技有限公司 基于自然语言处理的市长热线舆情决策支持方法及系统
CN112989793A (zh) * 2021-05-17 2021-06-18 北京创新乐知网络技术有限公司 文章检测方法及装置

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Vo et al. Where are the facts? searching for fact-checked information to alleviate the spread of fake news
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN103902570B (zh) 一种文本分类特征提取方法、分类方法及装置
WO2017097231A1 (zh) 话题处理方法及装置
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN108509482A (zh) 问题分类方法、装置、计算机设备和存储介质
CN103838798B (zh) 页面分类系统及页面分类方法
CN107122382A (zh) 一种基于说明书的专利分类方法
JP2009093655A (ja) 単語親和度による単語クラスタの識別
CN104361037B (zh) 微博分类方法及装置
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN107291895B (zh) 一种快速的层次化文档查询方法
Asirvatham et al. Web page classification based on document structure
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
US20080140653A1 (en) Identifying Relationships Among Database Records
US8856123B1 (en) Document classification
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
Campbell et al. Content+ context networks for user classification in twitter
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410

RJ01 Rejection of invention patent application after publication