CN107368595A - 网络热点信息挖掘方法及系统 - Google Patents
网络热点信息挖掘方法及系统 Download PDFInfo
- Publication number
- CN107368595A CN107368595A CN201710616793.3A CN201710616793A CN107368595A CN 107368595 A CN107368595 A CN 107368595A CN 201710616793 A CN201710616793 A CN 201710616793A CN 107368595 A CN107368595 A CN 107368595A
- Authority
- CN
- China
- Prior art keywords
- information
- mrow
- pending
- hot
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种网络热点信息挖掘方法及系统。其中,该网络热点信息挖掘方法包括:采用网页抓取技术获取多个待处理信息;对各待处理信息进行分词,得到各待处理词条;计算各待处理词条的TF‑IDF值;根据两个待处理信息分词得到的各待处理词条的TF‑IDF值,计算两个待处理信息的相似度,并根据相似度确定热点信息、与热点信息对应的相似信息以及热点信息的转播数量;按照转播数量由高到低的顺序对获得的各热点信息进行排序;按照时间顺序对与热点信息对应的各相似信息进行排序,确定热点信息的演变动态;显示热点信息及其演变动态。通过上述方法及系统,使得用户在获取热点信息的同时,可以从全局上把握热点信息在时间线上的演化过程。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种网络热点信息挖掘方法及系统。
背景技术
随着互联网的高速发展,越来越多的用户参与到互联网中,且用户可通过便利的信息发布方式和渠道发布信息,使得互联网中的信息数量呈现几何级数增长。大量的文本信息及富文本信息丰富着人们的生活,用户可从中获得所需的固定信息,也可获得希望了解的某些领域中的热门信息。但由于信息数量巨大,给用户在寻找和关注重点热点信息上带来了困扰。因此,需要对网络热点信息(如新闻)进行挖掘分析以满足互联网用户的上述需求。
热点信息的挖掘是对数据获取、数据预处理、数据挖掘与分析技术的一个有机融合。采用何种信息处理流程,各具体步骤中采用何种相关技术以及对技术的相关化定制和可适应调整,都是构造一个网络热点信息挖掘系统需考虑的问题。而现有的信息挖掘方法通常集中在整个流程的某一个方面,忽略了系统整体对结果的影响。这导致了挖掘到的网络热点信息很难满足用户上述需求,为用户挖掘的热点信息存在重复及垃圾信息。并且,现有技术忽略热门信息的时间信息,当用户意图获知某热门信息在时间线上的具体发展趋势及变化过程时,往往很难实现。例如:网络订阅RSS服务(简易信息聚合,亦称聚合内容)、新闻资讯方面信息搜索等方式,不能使用户从全局上把握热门信息的演化过程,并且用户从现有途径获得的信息中仍然含有较多的重复信息及垃圾信息。
发明内容
有鉴于此,本公开提出了一种网络热点信息挖掘方法及系统。
根据本公开的一方面,提供了一种网络热点信息挖掘方法,包括:
采用网页抓取技术获取多个待处理信息;对各所述待处理信息进行分词处理,得到各待处理词条;计算各待处理词条的词频-逆向文件频率TF-IDF值;根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量;按照所述转播数量由高到低的顺序对获得的各热点信息进行排序;按照时间顺序对与所述热点信息对应的各相似信息进行排序,确定所述热点信息的演变动态;显示所述热点信息以及所述热点信息的演变动态。
在一种可能是实现方式中,上述方法还包括:对各所述待处理信息进行预处理,所述预处理包括去重处理和/或过滤乱码处理。
在一种可能是实现方式中,上述方法还包括:根据预先构建的关键词词典,将不包括所述关键词词典中的关键词的待处理信息删除。
在一种可能是实现方式中,上述方法还包括:根据预先构建的停用词词典,删除所述待处理信息分词得到的各待处理词条中的停用词。
在一种可能是实现方式中,计算各待处理词条的词频-逆向文件频率TF-IDF值,包括:
每个所述待处理信息包括多个特征词条,特征词条用ti表示,则特征词条ti的TF-IDF值的计算公式为:
其中,N为特征词条ti在其所在的待处理信息中出现的次数,M为特征词条ti所在待处理信息所包括的待处理词条的总数,|D|为所有待处理信息的总数;待处理信息用dj表示,|{j:ti∈dj}|为出现特征词条ti的待处理信息的数量,i和j为正整数。
在一种可能是实现方式中,上述方法还包括:根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量,包括:
采用余弦距离计算两个所述待处理信息的相似度,计算公式为:
其中,Sim(D1,D2)表示第一待处理信息D1与第二待处理信息D2之间的相似度,w1k、w2k分别表示第一待处理信息D1和第二待处理信息D2中第k个待处理词条的TF-IDF值,n表示待处理词条的总数,n为正整数;
在所述Sim(D1,D2)大于阈值的情况下,将所述第一待处理信息D1标记为所述热点信息,并将所述热点信息的转播数量加1;以及
将所述第二待处理信息D2标记为所述热点信息的相似信息,并将所述第二待处理信息D2从多个待处理信息中删除。
根据本公开的另一方面,提供一种网络热点信息挖掘系统,其包括:
信息抓取单元,用于采用网页抓取技术获取多个待处理信息;分词处理单元,用于对各所述待处理信息进行分词处理,得到各待处理词条;特征计算单元,用于计算各待处理词条的词频-逆向文件频率TF-IDF值;相似度筛选单元,用于根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量;热点信息排序单元,用于按照所述转播数量由高到低的顺序对获得的各热点信息进行排序;演变动态确定单元,用于按照时间顺序对与所述热点信息对应的各相似信息进行排序,确定所述热点信息的演变动态;信息显示单元,用于显示所述热点信息以及所述热点信息的演变动态。
在一种可能的实现方式中,上述系统还包括:预处理单元,用于对各所述待处理信息进行预处理,所述预处理包括去重处理和/或过滤乱码处理。
在一种可能的实现方式中,上述系统还包括:垃圾信息删除单元,用于根据预先构建的关键词词典,将不包括所述关键词词典中的关键词的待处理信息删除。
在一种可能的实现方式中,上述系统还包括:停用词删除单元,用于根据预先构建的停用词词典,删除所述待处理信息分词得到的各待处理词条中的停用词。
在一种可能的实现方式中,每个所述待处理信息包括多个特征词条,特征词条用ti表示,所述特征计算单元还用于采用下式计算特征词条的TF-IDF值:
其中,N为特征词条ti在其所在的待处理信息中出现的次数,M为特征词条ti所在待处理信息的待处理词条的总数,|D|为所有待处理信息的总数;待处理信息用dj表示,|{j:ti∈dj}|为出现特征词条ti的待处理信息的数量,i和j为正整数。
在一种可能的实现方式中,所述相似度筛选单元包括:
相似度计算子单元,用于采用余弦距离计算两个所述待处理信息的相似度,计算公式为:
其中,Sim(D1,D2)表示第一待处理信息D1与第二待处理信息D2之间的相似度,w1k、w2k分别表示第一待处理信息D1和第二待处理信息D2中第k个待处理词条的TF-IDF值,n表示待处理词条的总数,n为正整数;
热点信息标记子单元,用于在所述Sim(D1,D2)大于阈值的情况下,将所述第一待处理信息D1标记为所述热点信息,并将所述热点信息的转播数量加1;以及
相似信息标记子单元,用于将所述第二待处理信息D2标记为所述热点信息的相似信息,并将所述第二待处理信息D2从多个待处理信息中删除。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,当所述存储介质中的指令由终端和/或服务器的处理器执行时,使得终端和/或服务器能够执行一种网络热点信息挖掘方法,所述方法包括:采用网页抓取技术获取多个待处理信息;对各所述待处理信息进行分词处理,得到各待处理词条;计算各待处理词条的词频-逆向文件频率TF-IDF值;根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量;按照所述转播数量由高到低的顺序对获得的各热点信息进行排序;按照时间顺序对与所述热点信息对应的各相似信息进行排序,确定所述热点信息的演变动态;显示所述热点信息以及所述热点信息的演变动态。
通过本公开实施例所提供的网络热点信息挖掘方法及系统,能够在为用户提供固定信息的同时,通过对网页抓取的待处理信息进行处理,为用户提供热点信息以及与热点信息的演变动态,使得用户在获取热点信息的同时,可以从全局上把握热门信息在时间线上的演化过程。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的一种网络热点信息挖掘方法的流程图;
图2示出根据本公开另一实施例的一种网络热点信息挖掘方法的流程图;
图3示出根据本公开一实施例的一种网络热点信息挖掘系统的框图;
图4示出根据本公开一实施例的一种网络热点信息挖掘系统的又一框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
图1示出根据本公开一实施例的一种网络热点信息挖掘方法的流程图,如图1所示,该方法包括步骤11至步骤17。
步骤11,采用网页抓取技术获取多个待处理信息。
在本实施例中,网页抓取技术可以包括网络爬虫技术等可以对网页中的信息进行抓取的技术。待处理信息可以包括在网页中的新闻信息、微博信息、论坛信息等信息。
步骤12,对各所述待处理信息进行分词处理,得到各待处理词条。
在本实施例中,可以使用结巴(Jieba)分词工具实现对待处理信息的分词处理。
步骤13,计算各待处理词条的词频-逆向文件频率TF-IDF值。
在一种可能的实现方式中,每个所述待处理信息包括多个特征词条,特征词条用ti表示,则特征词条ti的TF-IDF值的计算过程可以包括:
计算TF:TF表示词频,TF的计算公式为公式(1):
其中,N表示特征词条ti在其所在的待处理信息中出现的次数,M表示特征词条ti所在待处理信息中待处理词条的总数。
计算IDF:IDF为逆向文件频率,IDF的计算公式为公式(2):
其中,|D|为所有待处理信息的总数;待处理信息用dj表示,|{j:ti∈dj}为出现特征词条ti的待处理信息的数量,i和j为正整数。需要说明的是,分母加1是为了避免分母为0的情况,即所有待处理信息中都不包含该特征词条ti。
计算TF-IDF值:则TF-IDF值可表示为公式(3):
特征词条的TF-IDF值越高,则认为该特征词条具有很好的类别区分能力越好,越重要。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,用以评估一个词条对于一个文件集或一个语料库中的其中一份文件的重要程度。如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。
步骤14,根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量。
步骤15,按照所述转播数量由高到低的顺序对获得的各热点信息进行排序。
步骤16,按照时间顺序对与所述热点信息对应的各相似信息进行排序,确定所述热点信息的演变动态。
步骤17,显示所述热点信息以及所述热点信息的演变动态。
在一种可能的实现方式中,在步骤14中,采用余弦距离计算两个所述待处理信息的相似度,并采用公式(4)进行计算,公式(4)为:
其中,Sim(D1,D2)表示第一待处理信息D1与第二待处理信息D2之间的相似度,w1k、w2k分别表示第一待处理信息D1和第二待处理信息D2中第k个待处理词条的TF-IDF值,n表示待处理词条的总数,n为正整数。
在所述Sim(D1,D2)大于阈值的情况下,将所述第一待处理信息D1标记为所述热点信息,并将所述热点信息的转播数量加1;以及将所述第二待处理信息D2标记为所述热点信息的相似信息,并将所述第二待处理信息D2从多个待处理信息中删除。
在本实施例中,阈值可以为经验值,例如0.7。通常Sim(D1,D2)的值越大,则第一待处理信息D1与第二待处理信息D2之间的相似度越大。将已被标记为相似信息的第二待处理信息D2从多个待处理信息中删除,能够使得相似信息D2可以不再参与后续的相似度计算,可以简化热点信息的确定过程。
下面对步骤14的实现过程进行举例说明:
假设获得的待处理信息为A1、A2和A3,则实现步骤14的过程为:如果计算A1、A2之间的相似度Sim(A1,A2)=0.8>0.7,则将A1标记为热点信息,并将A1的转播数量A’(假设A’为1)加1,将A2标记为A1的相似信息,同时将A2从待处理信息中删除。而后,如果计算A1、A3之间的相似度Sim(A1,A3)=0.76>0.7,A3与A1相似,则将A1的转播数量A’加1,将A3从待处理信息中删除。最后,获得的热点信息为A1,A1的相似信息为A2和A3,A1的转播数量A’=1+1+1=3。
在一种可能是实现方式中,上述方法还包括:对各所述待处理信息进行预处理,所述预处理包括去重处理和/或过滤乱码处理。通过预处理可以将相同的待处理信息、存在问题的待处理信息等删除,加快整个热点信息的挖掘过程。
在一种可能是实现方式中,上述方法还包括:根据预先构建的关键词词典,将不包括所述关键词词典中的关键词的待处理信息删除。通过关键词筛选,可以去除多个待处理信息中的垃圾信息,加快挖掘进度,提升用户体验。
在一种可能是实现方式中,上述方法还包括:根据预先构建的停用词词典,删除所述待处理信息分词得到的各待处理词条中的停用词。通过停用词词典筛选可以删除停用词,从而缩短计算各待处理词条TF-IDF值的时间。
需要说明的是,尽管以上述实施例1作为示例介绍了网络热点信息挖掘方法如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定相关方法步骤,只要符合技术方案的设计思路即可。
通过本公开实施例所提供的网络热点信息挖掘方法,融合中文分词、去停用词、关键词过滤、文本相似等多种方法,能够在为用户提供固定信息的同时,通过对网页抓取的待处理信息进行处理,为用户提供热点信息以及与热点信息的演变动态,使得用户在获取热点信息的同时,可以从全局上把握热门信息在时间线上的演化过程。
实施例2
图2示出根据本公开另一实施例的一种网络热点信息挖掘方法的流程图。如图2所示,以热点新闻挖掘为例,对该网络热点信息挖掘方法进行了进一步的描述。在实施例中,可以利用网络爬虫技术获取某方面新闻构成文档库。对文档库中的新闻进行去重以及乱码去除。构建各条新闻的特征向量计算各新闻间余弦距离Sim(D1,D2)。如果Sim(D1,D2)大于例如0.7,则认为新闻D1与D2相似,新闻D1作为热点新闻,并将该新闻对应转播数量加1,将D2保存为D1的相似新闻,然后从新闻集合中删掉。获得热点新闻集合后,按时间顺序对每条热点新闻的多个相似新闻进行排序。
具体地,如图2所示,对热点新闻进行挖掘的方法可以包括以下步骤:
步骤S201,利用网页抓取技术获取新闻集合。网页抓取技术可以为网络爬虫技术等。新闻集合中包括多个新闻(待处理信息的示例),每个新闻可以以文本数据等形式对新闻的具体内容进行记录。
步骤S202,对新闻集合中每个新闻进行预处理。预处理的方式可以包括但并不限于去重、过滤乱码等。
步骤S203,构建关键词词典,并根据关键词词典过滤垃圾新闻。如果某条新闻中包含关键词典中的任一关键词,保留该条新闻,并继续执行步骤S205,否则执行步骤S204删除该条新闻。
步骤S205,构建自定义切词词典,并根据自定义切词词典利用例如结巴(Jieba)分词工具对每个新闻的文本数据进行切分,获得多个新闻条目(待处理词条的示例)。也就是说,每个新闻在被切分后均获得与之对应的多个新闻条目。
步骤S206,根据预先构建的停用词词典,去除多个新闻条目的中所包含的停用词。
步骤S207,对切分后的新闻条目进行特征提取,提取各新闻条目的TF-IDF值。
其中,TF表示词频,N表示某新闻条目在其所在新闻中出现的次数,M表示某新闻条目所在新闻的总词数,TF可表示为公式(5):
TF=N/M 公式(5)
IDF为逆向文件频率,IDF可表示为公式(6):
其中,|D|表示新闻集合中新闻的总数,|{j:ti∈dj}|表示包含某新闻条目的新闻数量。分母加1是为了避免分母为0的情况,即所有新闻都不包含该新闻条目。则,TF-IDF可表示为公式(7):
TF-IDF=TF×IDF 公式(7)。
本实施例中,TF-IDF值的计算公式中的参数含义可以参照上一实施例中公式(1)至公式(3)的相关描述。
步骤S208,利用余弦距离计算文本间的相似度,过滤重复新闻,即相似度较高的新闻,最终得到热点新闻。具体而言,可以根据TF-IDF值计算新闻之间的余弦距离Sim(D1,D2)(相似度示例),并在完成新闻集合中所有新闻之间的余弦距离计算后,执行步骤211。
例如,假设D1、D2分别表示2条新闻,W1k,W2k分别表示新闻D1和D2中第k个特征项的TI-IDF值,则D1、D2间内容相关度Sim(D1,D2)可表示为公式(8):
其中,Sim(D1,D2)越接近1,表明新闻D1和D2越相似。在一种实现方式中,可以保留D1作为热点新闻,并将该新闻对应转播数量加1。同时,将D2保存为D1的相似新闻,然后从新闻集合中删掉。在另一种实现方式中,也可以保留D2作为热点新闻,并将该新闻对应转播数量加1。将D1保存为D2的相似新闻,然后从新闻集合中删掉。
本实施例中,两条新闻之间的余弦距离计算公式中的参数含义,可以参照上一实施例中公式(4)的相关描述。
步骤S209,判断两个新闻之间的Sim(D1,D2)是否大于阈值Th,在两个新闻之间的余弦距离大于阈值Th的情况下,执行步骤S210。在在两个新闻之间的余弦距离小于或等于阈值Th的情况下,执行步骤S208,继续计算新闻集合中剩余新闻之间的余弦距离。
步骤S210,将新闻D1标记为热点新闻,并将新闻D2标记为D1的相关新闻,也即D1_Sim{}+D2;并将热点新闻的转播数量加1,也即Num(D1)+1;将D2从新闻集合中删除,也即News{}-D2。并在完成动作后,对新闻集合中剩余的新闻继续执行步骤208,直至将新闻集合中所有的新闻筛选分类完成后,执行步骤211。
步骤211,按转播数量由高到低对热点新闻进行排序,得到热点新闻集合。对某条热点新闻,按时间顺序对其相似新闻进行排序,确定热点新闻的演变动态。显示最终的过滤结果,即显示所有热点新闻及各热点新闻的演变动态。
需要说明的是,尽管以上述实施例2中以新闻作为示例介绍了网络热点信息挖掘方法如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定相关方法步骤,只要符合技术方案的设计思路即可。
通过本公开实施例所提供的网络热点信息挖掘方法,融合中文分词、去停用词、关键词过滤、文本相似等多种方法,能够在为用户提供固定信息的同时,通过对网页抓取的待处理信息进行处理,为用户提供热点信息以及与热点信息的演变动态,使得用户在获取热点信息的同时,可以从全局上把握热门信息在时间线上的演化过程。
实施例3
图3示出根据本公开一实施例的一种网络热点信息挖掘系统的框图,如图3所示,该系统可以包括:
信息抓取单元401,用于采用网页抓取技术获取多个待处理信息。
分词处理单元402,用于对各所述待处理信息进行分词处理,得到各待处理词条。
特征计算单元403,用于计算各待处理词条的词频-逆向文件频率TF-IDF值。TF-IDF值计算原理及过程可以参考上述实施例中的步骤13的相关描述。
相似度筛选单元404,用于根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量。相似度筛选过程可以参考上述实施例中的步骤14的相关描述。
热点信息排序单元405,用于按照所述转播数量由高到低的顺序对获得的各热点信息进行排序。
演变动态确定单元406,用于按照时间顺序对与所述热点信息对应的各相似信息进行排序,确定所述热点信息的演变动态。
信息显示单元407,用于显示所述热点信息以及所述热点信息的演变动态。
在一种可能的实现方式中,如图3所示,上述系统还可以包括:预处理单元408,用于对各所述待处理信息进行预处理,所述预处理包括去重处理和/或过滤乱码处理。
在一种可能的实现方式中,如图3所示,上述系统还可以包括:垃圾信息删除单元409,用于根据预先构建的关键词词典,将不包括所述关键词词典中的关键词的待处理信息删除。
在一种可能的实现方式中,如图3所示,上述系统还可以包括:停用词删除单元410,用于根据预先构建的停用词词典,删除所述待处理信息分词得到的各待处理词条中的停用词。
基于图3所示的网络热点信息挖掘系统,图4示出根据本公开一实施例的一种网络热点信息挖掘系统的又一框图。
在一种可能的实现方式中,如图4所示,每个所述待处理信息包括多个特征词条,特征词条用ti表示,所述特征计算单元还用于采用公式(9)计算特征词条ti的TF-IDF值:
其中,N为特征词条ti在其所在的待处理信息中出现的次数,M为特征词条ti所在待处理信息的待处理词条的总数,|D|为所有待处理信息的总数;待处理信息用dj表示,|{j:ti∈dj}|为出现特征词条ti的待处理信息的数量,i和j为正整数。
在一种可能的实现方式中,如图4所示,所述相似度筛选单元404包括:
相似度计算子单元4041,用于采用余弦距离计算两个所述待处理信息的相似度,计算公式为公式(10):
其中,Sim(D1,D2)表示第一待处理信息D1与第二待处理信息D2之间的相似度,w1k、w2k分别表示第一待处理信息D1和第二待处理信息D2中第k个待处理词条的TF-IDF值,n表示待处理词条的总数,n为正整数;
热点信息标记子单元4042,用于在所述Sim(D1,D2)大于阈值的情况下,将所述第一待处理信息D1标记为所述热点信息,并将所述热点信息的转播数量加1;以及
相似信息标记子单元4043,用于将所述第二待处理信息D2标记为所述热点信息的相似信息,并将所述第二待处理信息D2从多个待处理信息中删除。
需要说明的是,尽管以上述实施例3为示例介绍了网络热点信息挖掘系统如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定相关单元,只要符合技术方案的设计思路即可。
通过本公开实施例所提供的网络热点信息挖掘系统,融合中文分词、去停用词、关键词过滤、文本相似等多种方法,能够在为用户提供固定信息的同时,通过对网页抓取的待处理信息进行处理,为用户提供热点信息以及与热点信息的演变动态,使得用户在获取热点信息的同时,可以从全局上把握热门信息在时间线上的演化过程。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (12)
1.一种网络热点信息挖掘方法,其特征在于,包括:
采用网页抓取技术获取多个待处理信息;
对各所述待处理信息进行分词处理,得到各待处理词条;
计算各待处理词条的词频-逆向文件频率TF-IDF值;
根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量;
按照所述转播数量由高到低的顺序对获得的各热点信息进行排序;
按照时间顺序对与所述热点信息对应的各相似信息进行排序,确定所述热点信息的演变动态;
显示所述热点信息以及所述热点信息的演变动态。
2.根据权利要求1所述的方法,其特征在于,还包括:对各所述待处理信息进行预处理,所述预处理包括去重处理和/或过滤乱码处理。
3.根据权利要求1所述的方法,其特征在于,还包括:根据预先构建的关键词词典,将不包括所述关键词词典中的关键词的待处理信息删除。
4.根据权利要求1所述的方法,其特征在于,还包括:根据预先构建的停用词词典,删除所述待处理信息分词得到的各待处理词条中的停用词。
5.根据权利要求1所述的方法,其特征在于,计算各待处理词条的词频-逆向文件频率TF-IDF值,包括:
每个所述待处理信息包括多个特征词条,特征词条用ti表示,则特征词条ti的TF-IDF值的计算公式为:
<mrow>
<mi>T</mi>
<mi>F</mi>
<mo>-</mo>
<mi>I</mi>
<mi>D</mi>
<mi>F</mi>
<mo>=</mo>
<mfrac>
<mi>N</mi>
<mi>M</mi>
</mfrac>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
<mrow>
<mrow>
<mo>|</mo>
<mrow>
<mo>{</mo>
<mi>j</mi>
<mo>:</mo>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
</mrow>
<mo>|</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
其中,N为特征词条ti在其所在的待处理信息中出现的次数,M为特征词条ti所在待处理信息的总词条数,|D|为所有待处理信息的总数;待处理信息用dj表示,|{j:ti∈dj}|为出现特征词条ti的待处理信息的数量,i和j为正整数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量,包括:
采用余弦距离计算两个所述待处理信息的相似度,计算公式为:
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>D</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>D</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>w</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>&times;</mo>
<msub>
<mi>w</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msub>
</mrow>
<msqrt>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>w</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>)</mo>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>w</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
</msqrt>
</mfrac>
</mrow>
其中,Sim(D1,D2)表示第一待处理信息D1与第二待处理信息D2之间的相似度,w1k、w2k分别表示第一待处理信息D1和第二待处理信息D2中第k个待处理词条的TF-IDF值,n表示待处理词条的总数,n为正整数;
在所述Sim(D1,D2)大于阈值的情况下,将所述第一待处理信息D1标记为所述热点信息,并将所述热点信息的转播数量加1;以及
将所述第二待处理信息D2标记为所述热点信息的相似信息,并将所述第二待处理信息D2从多个待处理信息中删除。
7.一种网络热点信息挖掘系统,其特征在于,包括:
信息抓取单元,用于采用网页抓取技术获取多个待处理信息;
分词处理单元,用于对各所述待处理信息进行分词处理,得到各待处理词条;
特征计算单元,用于计算各待处理词条的词频-逆向文件频率TF-IDF值;
相似度筛选单元,用于根据两个所述待处理信息分词得到的各待处理词条的TF-IDF值,计算两个所述待处理信息的相似度,并根据所述相似度确定热点信息、与所述热点信息对应的相似信息以及所述热点信息的转播数量;
热点信息排序单元,用于按照所述转播数量由高到低的顺序对获得的各热点信息进行排序;
演变动态确定单元,用于按照时间顺序对与所述热点信息对应的各相似信息进行排序,确定所述热点信息的演变动态;
信息显示单元,用于显示所述热点信息以及所述热点信息的演变动态。
8.根据权利要求7所述的系统,其特征在于,还包括:
预处理单元,用于对各所述待处理信息进行预处理,所述预处理包括去重处理和/或过滤乱码处理。
9.根据权利要求7所述的系统,其特征在于,还包括:
垃圾信息删除单元,用于根据预先构建的关键词词典,将不包括所述关键词词典中的关键词的待处理信息删除。
10.根据权利要求7所述的系统,其特征在于,还包括:
停用词删除单元,用于根据预先构建的停用词词典,删除所述待处理信息分词得到的各待处理词条中的停用词。
11.根据权利要求7所述的系统,其特征在于,每个所述待处理信息包括多个特征词条,特征词条用ti表示,所述特征计算单元还用于采用下式计算特征词条ti的TF-IDF值:
<mrow>
<mi>T</mi>
<mi>F</mi>
<mo>-</mo>
<mi>I</mi>
<mi>D</mi>
<mi>F</mi>
<mo>=</mo>
<mfrac>
<mi>N</mi>
<mi>M</mi>
</mfrac>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
<mrow>
<mrow>
<mo>|</mo>
<mrow>
<mo>{</mo>
<mi>j</mi>
<mo>:</mo>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
</mrow>
<mo>|</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
其中,N为特征词条ti在其所在的待处理信息中出现的次数,M为特征词条ti所在待处理信息的总词条数,|D|为所有待处理信息的总数;待处理信息用dj表示,|{j:ti∈dj}|为出现特征词条ti的待处理信息的数量,i和j为正整数。
12.根据权利要求7-11所述的系统,其特征在于,所述相似度筛选单元包括:
相似度计算子单元,用于采用余弦距离计算两个所述待处理信息的相似度,计算公式为:
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>D</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>D</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>w</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>&times;</mo>
<msub>
<mi>w</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msub>
</mrow>
<msqrt>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>w</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>)</mo>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>w</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
</msqrt>
</mfrac>
</mrow>
其中,Sim(D1,D2)表示第一待处理信息D1与第二待处理信息D2之间的相似度,w1k、w2k分别表示第一待处理信息D1和第二待处理信息D2中第k个待处理词条的TF-IDF值,n表示待处理词条的总数,n为正整数;
热点信息标记子单元,用于在所述Sim(D1,D2)大于阈值的情况下,将所述第一待处理信息D1标记为所述热点信息,并将所述热点信息的转播数量加1;以及
相似信息标记子单元,用于将所述第二待处理信息D2标记为所述热点信息的相似信息,并将所述第二待处理信息D2从多个待处理信息中删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710616793.3A CN107368595A (zh) | 2017-07-26 | 2017-07-26 | 网络热点信息挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710616793.3A CN107368595A (zh) | 2017-07-26 | 2017-07-26 | 网络热点信息挖掘方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107368595A true CN107368595A (zh) | 2017-11-21 |
Family
ID=60308187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710616793.3A Pending CN107368595A (zh) | 2017-07-26 | 2017-07-26 | 网络热点信息挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368595A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609938A (zh) * | 2019-08-15 | 2019-12-24 | 平安科技(深圳)有限公司 | 文本热点的发现方法、装置及计算机可读存储介质 |
CN114493400A (zh) * | 2021-12-17 | 2022-05-13 | 杭州但丁云科技有限公司 | 一种进销存智能分析系统 |
CN115982370A (zh) * | 2023-03-17 | 2023-04-18 | 中国标准化研究院 | 一种信息处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN104965930A (zh) * | 2015-07-30 | 2015-10-07 | 成都布林特信息技术有限公司 | 一种基于大数据的突发事件演化分析方法 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
-
2017
- 2017-07-26 CN CN201710616793.3A patent/CN107368595A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN104965930A (zh) * | 2015-07-30 | 2015-10-07 | 成都布林特信息技术有限公司 | 一种基于大数据的突发事件演化分析方法 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609938A (zh) * | 2019-08-15 | 2019-12-24 | 平安科技(深圳)有限公司 | 文本热点的发现方法、装置及计算机可读存储介质 |
CN114493400A (zh) * | 2021-12-17 | 2022-05-13 | 杭州但丁云科技有限公司 | 一种进销存智能分析系统 |
CN115982370A (zh) * | 2023-03-17 | 2023-04-18 | 中国标准化研究院 | 一种信息处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10671263B2 (en) | Annotating collaborative content to facilitate mining key content as a runbook | |
CN105095433B (zh) | 实体推荐方法及装置 | |
CN111222030B (zh) | 信息推荐方法、装置及电子设备 | |
CN105488151A (zh) | 参考文档的推荐方法及装置 | |
CN105447179B (zh) | 基于微博社交网络的话题自动推荐方法及其系统 | |
CN107066537A (zh) | 热点新闻生成方法、设备、电子设备 | |
EP3392783A1 (en) | Similar word aggregation method and apparatus | |
CN108897860B (zh) | 信息推送方法、装置、电子设备及计算机可读存储介质 | |
CN107368595A (zh) | 网络热点信息挖掘方法及系统 | |
WO2013022891A1 (en) | Information filtering | |
CN108197243A (zh) | 一种基于用户身份的输入联想推荐方法及装置 | |
CN107203574A (zh) | 数据管理和数据分析的聚合 | |
CN115114395A (zh) | 内容检索及模型训练方法、装置、电子设备和存储介质 | |
CN107944032A (zh) | 用于生成信息的方法和装置 | |
CN108228808A (zh) | 确定热点事件的方法、装置和存储介质以及电子设备 | |
CN106997339A (zh) | 文本特征提取方法、文本分类方法及装置 | |
CN107239447A (zh) | 垃圾信息识别方法及装置、系统 | |
Menezes et al. | Building a massive corpus for named entity recognition using free open data sources | |
CN109447412A (zh) | 构建企业关系图谱的方法、装置、计算机设备和存储介质 | |
CN111782925B (zh) | 物品推荐方法、装置、设备、系统及可读存储介质 | |
Niu et al. | Web scraping tool for newspapers and images data using jsonify | |
Popa et al. | Neural networks for production curve pattern recognition applied to cyclic steam optimization in diatomite reservoirs | |
CN117493671A (zh) | 信息处理方法、装置、电子设备及计算机存储介质 | |
CN111310453B (zh) | 一种基于深度学习的用户主题向量化表示方法和系统 | |
Bui et al. | Twitter Bot Detection using Social Network Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171121 |
|
RJ01 | Rejection of invention patent application after publication |