CN107943816A - 一种网络热点话题的发现方法和系统 - Google Patents

一种网络热点话题的发现方法和系统 Download PDF

Info

Publication number
CN107943816A
CN107943816A CN201710933407.3A CN201710933407A CN107943816A CN 107943816 A CN107943816 A CN 107943816A CN 201710933407 A CN201710933407 A CN 201710933407A CN 107943816 A CN107943816 A CN 107943816A
Authority
CN
China
Prior art keywords
matrix
lexical item
theme
term
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710933407.3A
Other languages
English (en)
Inventor
安振宇
孙亭
李毅
陈思
叶云
沈自然
沈昌力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201710933407.3A priority Critical patent/CN107943816A/zh
Publication of CN107943816A publication Critical patent/CN107943816A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于稀疏矩阵分解和主题模型相结合的网络热点话题发现方法和系统。首先对网络文本构建词共现矩阵,对于网络海量文本,在文档规模达到一定程度时,去除低频词项,此后利用这些词构建词共现矩阵;稀疏非负矩阵分解,通过对共现矩阵进行分解,得到词项‑主题矩阵与文档主题矩阵,作为下一步输入;将矩阵分解获取的两个矩阵作为初始条件,输入主题模型,经过期望最大化算法,得到最优的解,再通过对特定主题的文档数量排序等步骤,最终实现网络热点话题的发现。

Description

一种网络热点话题的发现方法和系统
技术领域
本发明涉及一种网络热点话题发现方法和系统,采用一种稀疏矩 阵分解和主题模型相结合的方法,属于人工智能领域。
背景技术
网络热点话题不仅极大地影响着虚拟社会中各种事件的形成与发 展,同时也影响着现实中人们对事件的看法和判断。为了通过海量的 社交网络数据及时的掌握热点话题和舆情的态势变化,需要对话题进 行提取、追踪和预测,这也使得从网络中获取热点话题成为近年来研 究的热点。传统方法如郭蓝天,李扬,慕德俊等人提出的基于聚类规 则对文本主题词进行相似度的计算和聚类,受限于人工对聚类规则的 制定,对特定文本主题分类效果较好,但难以具有普遍意义。于此同 时,由于网络数据具有长度短、信息量少、高维稀疏等特点,给热点 话题发现任务带来极大的困难。本发明根据网络文本数据特点,提出利用稀疏非负矩阵分解的方法来解决这一问题。
发明内容
本发明提出了一种基于稀疏矩阵分解和主题模型相结合的网络热 点话题发现方法。首先对网络文本构建词共现矩阵、稀疏非负矩阵分 解、主题模型发现、热度排序等步骤,最终实现网络热点话题的发现。 主要包括以下几个步骤:
第一步:构建词共现矩阵。对于网络海量文本,在文档规模达到 一定程度时,去除低频词项后的词量基本保持在20000左右,首先计 算这些常用词的词共现矩阵X。
第二步:对词共现矩阵X进行稀疏非负矩阵分解,得到的分解结 果W与其转置即构成了词项-主题矩阵,作为下一步主题建模的输入。
第三步:将上一步得到的词项-主题矩阵,即W作为输入,利用经 典的pLSA(Probability Latent Semantic Analysis)算法得到文 档-主题分布,这样得到每个文档中的话题簇。统计每个话题涉及的 文档数,即可以对话题进行热点排序,得到最热门的若干话题。
本发明的有益结果为,通过引入稀疏非负矩阵分解,满足了海量 网络文本中主题稀疏的特点,也可以对词共现矩阵进行有效分解,得 到词项-主题分布,作为初始化参数输入pLSA算法中,令得到的分解 结果更有效,同时加快计算速度,对网络舆情监测具有重要意义。
附图说明
图1表示本发明所提出的基于稀疏矩阵分解和主题模型相结合的 网络热点话题发现方法流程图。
图2为非负稀疏矩阵分解原理示意图。
图3为pLSA原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 附图及实施例,对本发明进行进一步详细说明,应当理解,此处所描 述的具体实施例仅用以解释本发明,并不用于限定本发明。
现在将详细参考本发明的实施例,这些实施例的示例在附图中示 出。元件的后缀“模块”和“单元”在此用于方便描述,并且因此可 以可交换地被使用,而且没有任何可区别的意义或功能。
虽然构成本发明的实施例的所有元件或单元被描述为结合到单个 元件中或被操作为单个元件或单元,但是本发明不一定局限于此种实 施例。根据实施例,在本发明的目的和范围内所有的元件可以选择性 地结合到一个或多个元件并且被操作为一个或多个元件。
下面结合附图对本发明的具体实施方式进行详细阐述。图1为本 发明提出的基于稀疏矩阵分解和主题模型相结合的主题发现方法示 意图,主要分为词共现矩阵X构建、稀疏矩阵分解、概率潜在语义分 析三个步骤。
1)构建词共现矩阵。
对于网络海量文本,在文档规模达到一定程度时,去除低频词项, 首先计算这些常用词的词-词共现矩阵X。
在一个实施例中,文档达到的规模优先选择40000篇以上,去除 低频词项后的词量基本保持在20000左右。
所谓低频词项,是指出现频率相对较低的词。比如,对于一个含 有1000个单词的集合,如果某个词A出现100次,则频率为0.1, 如果某个词仅出现1次,则频率为0.001,低频词项就是频率小于一 定程度的单词。低频词项的词频值的设置与系统输入的文档量有关,不宜设置为固定值。在本发明实施例中,优选词频低于0.01的词汇 为低频词汇。
第一步,得到词项ti的分布(Wi,1,Wi,2,...,Wi,m),其中Wi,m表示词ti与tm之 间的互信息。
其中,用于计算互信息;用于计算词项ti与tm之间联合概率密度函数, 函数n(x,x)表示出现次数;ti,tm,tj,tk均为常用词项,其中 tm,tj,tk遍历了整个词库,用于计算;
用于计算ti的概率密度。
第二步,计算任意两个词分布之间的余弦,填入词共现矩阵X,显然 X是一个对称矩阵。
在一个实施例中,计算余弦方法如下:
对于常用词项ti与tj的分布,其分布分别为(Wi,1,Wi,2,...,Wi,m)与 (Wj,1,Wj,2,...,Wj,m),计算余弦的方式为:
对词共现矩阵X,如果其元素为则每一个组成元 素均为上述余弦值,即x11=cos(t1,t1),x12=cos(t1,t2),...
2)非负稀疏矩阵分解,对矩阵X进行分解。X=WWT,W≥0
因为文本的主题是有限个有意义,所以限定W为稀疏矩阵,得到 优化表达式
词共现矩阵的每一个矩阵元素如tij代表对应两词ti与tj之间的相似 度。因此对词共现矩阵进行分解,会得到两个矩阵W与H。其中W代 表词项矩阵,H代表主题矩阵,这里W与H互为转置,即W=HT,通过 如下步骤求解得到W。
i.随机初始化非负矩阵W;
ii.令W=W-μW(WWT-X)W,这里μW为给定的正值常量, 一般较小;优选为0.5或1,对W的每一列进行稀疏 约束,让其每一列的l2范数在稀疏前后都不变,通 过给定的稀疏度s,计算l1范数;
具体过程如下:
(1)初始化矩阵W≥0和H≥o;
(2)迭代:
W←PG(W-μW(WH-V)HT),L2-范数不变,L1-范数设置到既定稀 疏度;H←PG(H-μHWT(WH-V)),归一化L2-范数,L1-范数设置到既 定稀疏度;
这里,PG表示投影函数。
对矩阵X设定稀疏度的操作方式如下:
①设这里,s表示稀疏度,x表述矩 阵X的列
②设Z={}
③迭代:1.设
2.设S=m+α(S-m),α≥0.
如果S中所有元素都是非负,返回2,结束。
3.设Z=Z∪{i,si<0},
4.计算c=(∑si-L1)/(dim(X)-size(Z));
5.设返回到1
④直到X所有列都映射到既定稀疏度。
iii.重复第ii步,直至条件满足。η为一个 极小的正值常量,W为计算得到的值,Wold为已有值。 最终得到的W与其转置即构成了词项-主题矩阵,作 为下一步主题建模的输入。
3)将上一步得到的词项-主题矩阵,即W作为输入,利用经典的 pLSA算法得到文档-主题分布,这样得到每个文档中的话题簇。 统计每个话题涉及的文档数,即可以对话题进行简单的热点排序, 得到最热门的若干话题。
pLSA基本原理见附图3,由于用的是经典的pLSA算法,这里 仅将关键步骤说明如下:将文档-主题矩阵P(D,Z)和词-主题矩 阵P(W,Z)作为初始值输入pLSA,在最小熵意义下,对如下表达 式进行优化
使用最大似然估计来训练隐含变量,通过EM算法具体进行计 算,迭代过程如下:
E步:
M步:
代入最优化函数
经过优化计算得到的文档-主题矩阵P(D,Z),即为所求结果。统计 每个话题涉及的文档数,即可以对话题进行简单的热点排序,得到最 热门的若干话题。
本发明的通过引入稀疏非负矩阵分解,满足了海量网络文本中主 题稀疏的特点,也可以对词共现矩阵进行有效分解,得到词项-主题 分布,作为初始化参数输入pLSA算法中,令得到的分解结果更有效, 同时加快计算速度,对网络舆情监测具有重要意义。
尽管已经示出并描述了本发明实施例的特殊实施例,然而在不背 离本发明实施例的示例性实施例及其更宽广方面的前提下,本领域技 术人员显然可以基于此处的教学做出变化和修改。因此,所附的权利 要求意在将所有这类不背离本发明实施例的示例性实施例的真实精 神和范围的变化和更改包含在其范围之内。

Claims (12)

1.一种网络热点话题发现方法,包括如下步骤:
获取海量网络文本,去除低频词项,计算剩余常用词的词共现矩阵X;
对词共现矩阵X进行稀疏非负矩阵分解,将分解结果W与其转置H构成词项-主题矩阵;
利用pLSA算法对词项-主题矩阵进行计算,得到文档-主题分布;
统计每个话题涉及的文档数并进行热点排序,得到网络热点话题。
2.根据权利要求1所述的网络热点话题发现方法,其特征在于,所述方法中当文本数量大于40000时开始去除低频词项,所述词频低于0.01的词项为低频词项;所述去除低频词项后,剩余常用词量保持在20000左右。
3.根据权利要求1所述的网络热点话题发现方法,其特征在于,所述计算剩余常用词的词共现矩阵X包括:
S101:获得常用词词项ti的分布(Wi,1,Wi,2,...,Wi,m),其中Wi,m表示词ti与tm之间的互信息。
其中,
其中,函数n(x,x)表示常用词项的出现次数,ti、tm、tj、tk为常用词项;
S102:计算任意两个词分布之间的余弦,填入词共现矩阵X。
4.根据权利要求1所述的网络热点话题发现方法,其特征在于,所述对词共现矩阵X进行稀疏非负矩阵分解包括:
S201:对词共现矩阵X进行分解,X=WWT,W≥0.
S202:随机初始化非负矩阵W;
S203:令W=W-μ(WWT-X)W,这里μ为给定的正值常量;对W的每一列进行稀疏约束,让其每一列的12范数在稀疏前后都不变,通过给定的稀疏度s,计算11范数;
S204:重复上一步,直至条件满足;η为一个极小的正值常量,W为计算得到的值,Wold为已有值;最终得到W与其转置H构成了词项-主题矩阵。
5.根据权利要求4所述的网络热点话题发现方法,其特征在于,所述S203步骤具体如下:
(1)初始化矩阵W≥0和H≥0;
(2)迭代:
W←PG(W-μW(WH-V)HT),L2-范数不变,L1-范数设置到既定稀疏度;H←PG(H-μHWT(WH-V)),归一化L2-范数,L1-范数设置到既定稀疏度;
其中,PG表示投影函数;
对矩阵X设定稀疏度的操作方式如下:
(1)设这里,s表示稀疏度,x表述矩阵X的列
(2)设Z={}
(3)迭代:1.设
2.设S=m+α(S-m),α≥0.;
如果S中所有元素都是非负,返回2,结束;
3.设Z=ZU{i,si<0},si=0,
4.计算c=(∑si-L1)/(dim(X)-size(Z));
5.设返回到1;
(4)直到X所有列都映射到既定稀疏度。
6.根据权利要求1所述的网络热点话题发现方法,其特征在于,所述对词共现矩阵X进行稀疏非负矩阵分解包括:
S301:将文档-主题矩阵P(D,Z)和词-主题矩阵P(W,Z)作为初始值输入pLSA,其中,D表示文档,W表示词项与前述W是同一个概念,Z表示隐含的主题;在最小熵意义下,对如下表达式进行优化
其中,p(d,w)代表文档和词项的联合概率密度,n(w,d)代表词项w在文档d中出现的次数,p(w|z)和p(z|d)代表条件概率密度;
迭代过程如下:
E步:
M步:
经过优化计算得到的文档-主题矩阵P(D,Z),即为文档主题分布。
7.一种网络热点话题发现系统,所述系统包括如下部分:
网络文本获取模块,用于获取海量网络文本;
文本预处理模块,用于去除低频词项,将剩余常用词输入到词共现矩阵模块;
词共现矩阵模块,用于计算得到常用词的词共现矩阵X;
稀疏非负矩阵分解模块,用于对词共现矩阵X进行稀疏非负矩阵分解,获得词项-主题矩阵;
pLSA模块,用于利用pLSA算法对词项-主题矩阵进行计算,得到文档-主题分布;
热度排序模块,用于根据文档-主题分布统计每个话题涉及的文档数并进行热点排序,得到网络热点话题。
8.根据权利要求7所述的网络热点话题发现系统,其特征在于,所述文本预处理模块在当文本数量大于40000时开始去除低频词项,所述词频低于0.01的词项为低频词项;所述去除低频词项后,剩余常用词量保持在20000左右。
9.根据权利要求7所述的网络热点话题发现系统,其特征在于,所述词共现矩阵模块用于执行如下步骤:
S101:获得常用词词项ti的分布(Wi,1,Wi,2,...,Wi,m),其中Wi,m表示词ti与tm之间的互信息;
其中,函数n(x,x)表示常用词项的出现次数;ti、tm、tj、tk为常用词项;
S102:计算任意两个词分布之间的余弦,填入词共现矩阵X。
10.根据权利要求7所述的网络热点话题发现系统,其特征在于,所述稀疏非负矩阵分解模块用于执行如下步骤:
S201:对词共现矩阵X进行分解,X=WWT,W≥0;
S202:随机初始化非负矩阵W;
S203:令W=W-μ(WWT-X)W,这里μ为给定的正值常量,一般较小;对W的每一列进行稀疏约束,让其每一列的12范数在稀疏前后都不变,通过给定的稀疏度s,计算11范数;
S204:重复上一步,直至条件满足;η为一个极小的正值常量,W为计算得到的值,Wold为已有值;最终得到W与其转置H构成了词项-主题矩阵。
11.根据权利要求7所述的网络热点话题发现系统,其特征在于,所述S203步骤具体如下:
(1)初始化矩阵W≥0和H≥0;
(2)迭代:
W←PG(W-μW(WH-V)HT),L2-范数不变,L1-范数设置到既定稀疏度;H←PG(H-μHWT(WH-V)),归一化L2-范数,L1-范数设置到既定稀疏度;
其中,PG表示投影函数;
对矩阵X设定稀疏度的操作方式如下:
(1)设这里,s表示稀疏度,x表述矩阵X的列
(2)设Z={}
(3)迭代:1.设
2.设S=m+α(S-m),α≥0.
如果S中所有元素都是非负,返回2,结束;
3.设Z=Z∪{i,si<0},si=0,
4.计算c=(∑si-L1)/(dim(X)-size(Z));
5.设返回到1
(4)直到X所有列都映射到既定稀疏度。
12.根据权利要求7所述的网络热点话题发现系统,其特征在于,所述pLSA模块用于执行如下步骤:
S301:将文档-主题矩阵P(D,Z)和词-主题矩阵P(W,Z)作为初始值输入pLSA,在最小熵意义下,对如下表达式进行优化
使用最大似然估计来训练隐含变量,通过EM算法具体进行计算,迭代过程如下:
E步:
M步:
经过优化计算得到的文档-主题矩阵P(D,Z),即为文档-主题分布。
CN201710933407.3A 2017-10-09 2017-10-09 一种网络热点话题的发现方法和系统 Pending CN107943816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710933407.3A CN107943816A (zh) 2017-10-09 2017-10-09 一种网络热点话题的发现方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710933407.3A CN107943816A (zh) 2017-10-09 2017-10-09 一种网络热点话题的发现方法和系统

Publications (1)

Publication Number Publication Date
CN107943816A true CN107943816A (zh) 2018-04-20

Family

ID=61936096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710933407.3A Pending CN107943816A (zh) 2017-10-09 2017-10-09 一种网络热点话题的发现方法和系统

Country Status (1)

Country Link
CN (1) CN107943816A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069827A (zh) * 2020-07-30 2020-12-11 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246573A1 (en) * 2010-03-31 2011-10-06 Microsoft Corporation Distributed non-negative matrix factorization
CN102270241A (zh) * 2011-08-16 2011-12-07 浙江大学 基于稀疏非负矩阵分解的图像检索方法
CN104732535A (zh) * 2015-03-18 2015-06-24 河海大学 一种约束稀疏的非负矩阵分解方法
CN104462253B (zh) * 2014-11-20 2018-05-18 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246573A1 (en) * 2010-03-31 2011-10-06 Microsoft Corporation Distributed non-negative matrix factorization
CN102270241A (zh) * 2011-08-16 2011-12-07 浙江大学 基于稀疏非负矩阵分解的图像检索方法
CN104462253B (zh) * 2014-11-20 2018-05-18 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN104732535A (zh) * 2015-03-18 2015-06-24 河海大学 一种约束稀疏的非负矩阵分解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PATRIK O.HOYER: ""Non-negative Matrix Factorization with Sparseness Constraints"", 《THE JOURNAL OF MACHINE LEARNING RESEARECH》 *
孙曰昕 等: ""结合互信息和主题模型的微博话题发现方法"", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069827A (zh) * 2020-07-30 2020-12-11 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112069827B (zh) * 2020-07-30 2022-12-09 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法

Similar Documents

Publication Publication Date Title
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
Hu et al. Listening to the crowd: Automated analysis of events via aggregated twitter sentiment.
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN102123172B (zh) 一种基于神经网络聚类优化的Web服务发现的实现方法
CN111460797B (zh) 关键字抽取方法、装置、电子设备及可读存储介质
CN109543017A (zh) 法律问题关键词生成方法及其系统
CN105825269B (zh) 一种基于并行自动编码机的特征学习方法及系统
Gogate et al. Exploiting logical structure in lifted probabilistic inference
Lee et al. You only need one model for open-domain question answering
Pan et al. Unsupervised attributed network embedding via cross fusion
CN113672599A (zh) 通过创建领域知识图谱实现政务信息化项目建设管理的可视化辅助决策方法
CN104834746A (zh) 基于图形处理单元的异构特征时序数据演化聚类方法
Liu et al. Scaling up probabilistic circuits by latent variable distillation
CN110245292B (zh) 一种基于神经网络过滤噪声特征的自然语言关系抽取方法
Wu et al. Infoprompt: Information-theoretic soft prompt tuning for natural language understanding
Wang et al. Generative text convolutional neural network for hierarchical document representation learning
Jiang et al. Latent topic embedding
Li et al. Parallel recursive deep model for sentiment analysis
CN107943816A (zh) 一种网络热点话题的发现方法和系统
Azzam et al. Text-based question routing for question answering communities via deep learning
Feng et al. Wasserstein selective transfer learning for cross-domain text mining
Archambeau et al. Incremental variational inference for latent dirichlet allocation
Peng et al. Bi-link: bridging inductive link predictions from text via contrastive learning of transformers and prompts
Ai et al. Edge-enhanced minimum-margin graph attention network for short text classification
Qin et al. You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420