CN112905751B - 一种结合主题模型和孪生网络模型的话题演化跟踪方法 - Google Patents
一种结合主题模型和孪生网络模型的话题演化跟踪方法 Download PDFInfo
- Publication number
- CN112905751B CN112905751B CN202110295296.4A CN202110295296A CN112905751B CN 112905751 B CN112905751 B CN 112905751B CN 202110295296 A CN202110295296 A CN 202110295296A CN 112905751 B CN112905751 B CN 112905751B
- Authority
- CN
- China
- Prior art keywords
- topic
- similarity
- topics
- timeline
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000002123 temporal effect Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008033 biological extinction Effects 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000002688 persistence Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种结合主题模型和孪生网络模型的话题演化跟踪方法,包括步骤1、数据采集,对社交媒体平台的用户数据进行爬虫提取;步骤2、按照设定的时间间隔把文本进行划分得到需要判别的文本数据;步骤3、采用LDA主题模型提取相邻的时间线内的文本数据主题并计算两者显性相似度;步骤4、采用孪生网络和注意力机制计算相邻的时间线内的文本数据的文本语义间的隐性相似度;步骤5、对显性相似度和隐性相似度进行加权融合得到融合邻近度;步骤6、由融合邻近度与预先设定的阈值比较,确定话题在不同时间线的时态变化。本发明结合LDA主题模型和注意力增强的孪生网络模型对文本进行学习,判断出话题的演化并进行追踪,在短时间内掌握话题的发展。
Description
技术领域
本发明涉及一种话题演化跟踪方法,特别是一种结合主题模型和孪生网络模型的话题演化跟踪方法。
背景技术
社交媒体信息作为一种数据类型具有动态变化性,而这种变化的载体就是话题,话题随着时间的发展而演化,从而反映了事态阶段性变化的过程。从认知学的角度,这样的演化过程符合人们认知事物的一般顺序,当用户关注某个话题时,一般从话题事件产生的原因开始,逐步深入到事情的发展、高潮,最终到话题事件的结束,这个逻辑顺序就是话题的动态演化,是话题随着事件变化的过程。然而随着计算机应用技术的快速发展,每时每刻产生的信息繁多复杂,面对海量的社交媒体信息,需要对离散化的数据进行挖掘与分析,需要准确完整地获取话题在每个阶段的特征,并且以话题为中心将各个阶段的内容整合,完成对话题的动态演化挖掘,使人们能够迅速且清晰地了解和把握住事情发展的过程与脉络。
通过话题检测与追踪,可以帮助人们从海量的网络信息中筛选出感兴趣的话题信息。现有话题检测技术主要分为三类,一是基于主题模型的话题检测,主要是基于主题模型(Latent Dirichlet Allocation)技术的主题模型,或者基于主题模型改进的主题模型,如公开号为CN105760499A的中国专利,先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内;然后依次地处理每个时间窗口上的文档集合,得到不同时间片上的训练结果,把前面语料库的训练结果作为后面语料库训练过程中的先验参数;最后从训练结果中得到各LDA主题模型强度随时间的变化趋势,实现网络舆情的动态分析和预测功能。二是基于改进聚类算法的话题检测,如公开号为CN107679135A的中国专利对中文分词后的文档集构建图模型,根据图模型,构造拉普拉斯矩阵,进行特征分解,获取前k个特征向量,对前k个特征向量所构成的矩阵进行聚类,获取聚类结果,根据预先构建的话题的属性向量和聚类结果,计算话题的概率分布,根据话题的概率分布,判断当前文档是否为新话题或指定话题。以上方法对话题进行追踪演化主要基于主题模型或者传统聚类方法,然而主题模型等主题模型属于概率生成模型,侧重于文本结构,因此在文本语义提取方面表征能力相对薄弱,造成话题演化跟踪准确率不高的问题。
发明内容
针对上述现有技术缺陷,本发明的任务在于提供一种结合主题模型和孪生网络模型的话题演化跟踪方法,针对话题检测与追踪任务中提取文本语义薄弱的问题,在保证效率的同时兼顾检测的准确率。
本发明技术方案如下:一种结合主题模型和孪生网络模型的话题演化跟踪方法,包括以下步骤:步骤1、数据采集,对社交媒体平台的用户数据进行爬虫提取;步骤2、对提取的用户数据进行预处理,按照设定的时间间隔把文本进行划分得到需要判别的文本数据;步骤3、采用LDA主题模型计算相邻的时间线内的文本数据进行主题提取并判断两个主题间的显性相似度;步骤4、采用孪生网络和注意力机制计算相邻的时间线内的文本数据的文本语义间的隐性相似度;步骤5、对所述显性相似度和所述隐性相似度进行加权融合得到文本数据间的融合邻近度;步骤6、由所述步骤5得到的融合邻近度确定话题在不同时间线的时态变化。
进一步地,所述显性相似度和所述隐性相似度的加权融合使用以下公式进行
PX(Tkn,T(k+1)m)=aPα(Tkn,T(k+1)m)+bPβ(Tkn,T(k+1)m)
其中Tkn表示在时间线Tk中第n个主题,T(k+1)m表示时间线Tk+1中第m个主题,Pα表示显性相似度,Pβ表示隐性相似度,a和b分别显性相似度和隐性相似度的权重。优选的,a=0.4,b=0.6。
进一步地,所述显性相似度为余弦相似度,
Pα(Tkn,T(k+1)m)=cosine(Tkn,T(k+1)m)
,所述隐性相似度为
式中Tkn表示在时间线Tk中第n个主题,T(k+1)m表示时间线Tk+1中第m个主题,以及/>分别为主题在向量空间中的表示。
进一步地,所述孪生网络的子网络为双向长短期记忆网络。
进一步地,所述注意力机制采用以下公式计算
公式中其中R表示为向量空间,n表示多头注意力机制中的层数,dk,dv分别表示为注意力索引K与词向量V的维度。
进一步地,所述步骤6中设定阈值θee,θcd,θp,θee<θcd<θp,若第k+1个时间线中第i个主题T(k+1)i与第k个时间线中所有话题的融合邻近度小于阈值θee,为“出现”时态;若有且仅有一个时间线k中话题Tki与时间线k+1中话题T(k+1)j的融合邻近度大于阈值θp,为“持续”时态;若时间线k中至少两个话题Tki与时间线k+1中话题T(k+1)j融合邻近度大于阈值θcd,为“收敛”时态;若一个时间线k中话题Tki与时间线k+1中至少两个话题T(k+1)j融合邻近度大于阈值θcd,为“分离”时态;若时间线k中话题Tki与相邻时间线k+1中所有话题的融合邻近度小于阈值θee,为“消亡”时态。
本发明结合LDA主题模型和注意力增强的孪生网络模型对当前的社交媒体文本进行学习,在提取当前文本的主题以及语义后与相邻时间间隔的文本进行相似计算,判断出两个时间段内话题的演化并进行追踪。本发明采用了人工智能的方法,不需要对社交媒体文本进行要求筛选,具有更为广泛的应用性。
本发明与现有技术相比的优点在于:
1、采用LDA主题模型结合注意力增强的孪生BiLSTM网络模型,在现有对文本结构分析的基础上加入了对于文本语义的提取,加强了对于社交媒体文本之间的相关性判定,使得对于话题间关系判定更加准确;
2、通过融合技术为不同的相似度计算分配了不同的权重,在最终决策时能够充分利用各方法计算相似度的优势,选择最优的结果作为模型的权重比例,有利于对于话题关系间的判定;
3、在文本数据的语义提取部分的孪生网络结构中,对学习到的特征描述进行了增强的注意力机制融合,通过引入注意力机制从全局方面把握对于文本语义的提取,以消除冗余信息和由于文本过长导致前序文本丢失而造成的干扰,同时强化那些最具辨别特性的特征描述;
4、本发明通过网络爬虫在社交媒体平台进行信息爬取作为数据集,可以对话题间的演化分析做出准确的预测,让人在短时间内掌握话题的整体脉络发展,易于使用。
附图说明
图1为结合主题模型和孪生网络模型的话题演化跟踪方法示意图。
图2为本发明使用的具有注意力机制的孪生网络结构示意图。
图3为显性相似度权重对判断结果精确度的影响示意图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。
请结合图1所示,本发明实施例所涉及的一种结合主题模型和孪生网络模型的话题演化跟踪方法,包括以下步骤:
步骤一:数据采集
通过网络爬虫技术在社交网络平台进行信息爬取,确保数据真实性,数据集中可包含用户、时间和社交文本等数据。
步骤二:数据预处理
为了让数据以文本的形式输入网络,本发明将通过爬虫技术提取到的社交媒体文本数据转化为csv文件。首先,通过步骤一所获取的数据是txt的文本格式,给一个用户的信息文本为不确定长度的信息,由于所需要分析的数据为话题演化,因此从步骤一中的数据按照提取到的时间特征进行排序,接着按照设定的时间间隔对文本进行划分。其次由于社交媒体文本存在的非正式性,行为随机性等特点,通过jieba工具将文本进行词句切分并通过筛选停止词,剔除社交媒体文本中的无意义文本数据。接着将本发明将用户,时间与文本数据转化成csv文件格式,并将从csv文件中读取的数据,按照前面设定的时间间隔为整体作为网络模型所需的文本输入数据。
步骤三:使用话题演化追踪模型学习文本特征
本发明的目的是为了根据已有的社交媒体文本进行话题演化分析,本发明将话题的时态分为六个时态依次为:出现,持续,分离,收敛,消亡和潜伏。
传统基于LDA主题模型的方法中存在的缺乏对文本语义提取的缺陷,因此本发明结合了孪生网络对社交文本进行提取。本发明在文本间关系计算中主要分为两个部分:一为对于文本结构中主题词的提取,并将其在词向量空间中计算主题词间的相似度;二为对于文本语义的提取,主要使用注意力增强的孪生双向长短期记忆网络模型对文本间的语义关系进行计算。
将文本间关系计算定义为融合邻近度:
PX(Tkn,T(k+1)m)=aPα(Tkn,T(k+1)m)+bPβ(Tkn,T(k+1)m)
其中Tkn表示在时间线Tk中第n个主题,T(k+1)m表示时间线Tk+1中第m个主题,Pα表示基于文本主题词计算得到的显性相似度,Pβ表示基于文本语义计算得到的隐性相似度,a和b分别表示主题词和语义特征计算的权重。
对于第一部分中主题词的提取,本发明采用David Blei提出的LDA主题模型,将文本表示成一系列话题的集合,生成过程相当于实现了文本的话题聚类和文本的压缩,每个文本根据不同权重被分配到不同话题中。采用LDA方法确定各时间线中的文本的主题,提取相邻时间段内的主题,对于时间线Tk中第n个主题与时间线Tk+1中第m个主题,使用余弦相似度计算Pα作为显性相似度,具体如下式所示:
Pα(Tkn,T(k+1)m)=cosine(Tkn,T(k+1)m)
请结合图2所示,对于第二部分中文本于语义提取部分,本发明采用的核心模型为基于循环神经网络改进的长短期记忆网络,相较侧重于识别跨空间的模式的卷积神经网络,其在检测局部的任务中取得较优的结果而言,循环神经网络侧重于跨时间的模式,对于长程语义的文本中可以得到优异的效果,因此在社交文本数据本身存在的时序性特点前提下,循环神经网络具有更好的表现,而长短期记忆网络作为循环神经网络的改进模型,其模型结构中记忆单元能有效的记录文本时序特征,在解决传统方法中提取文本语义较弱的缺点上能够得到更好的效果。
长短期记忆网络只能通过正向提取文本语义,且存在文本序列过长可能产生丢失前部序列信息的问题,在长短期记忆网络的基础上增加逆向文本的语义信息,在学习文本语义信息的同时加强了对于语义学习的能力,即为Graves提出的双向长短期记忆网络,该模型可以获得更多的文本语义信息。且在该基础上引入了注意力机制解决上述存在的信息丢失问题,从全局考虑文本语义信息,提取全局文本信息进行计算。注意力层的注意力机制的计算公式如下式所示:
公式中其中R表示为向量空间,n表示多头注意力机制中的层数,dk,dv分别表示为注意力索引K与词向量V的维度。激活函数softmax中为三个矩阵相乘,得到一个n×dv的矩阵,可以简单的理解为Attention层把n×dk的序列Q编码为n×dv的新序列。
隐性相似度使用基于孪生双向长短期记忆网络和注意力机制并且使用曼哈顿距离的方法来实现句对之间的相似度度量。两个输入文本经过双向长短期记忆网络得到表征当前词段前后文语义的向量,并通过注意力机制中Q,K,V权重矩阵,对得到的向量进行权重分配,然后经过上述注意力层得到两个向量,该向量表征其对应的输入文本语义,通过曼哈顿函数进行计算得到两者相似度。当计算时间线Tk中的第n个主题和时间线Tk+1中第m个主题的隐性相似度如下公式所示,式中以及/>分别为主题在向量空间中的表示。
其中||||1为1-范式,表示向量元素绝对值之和。
本步骤结合LDA主题模型和注意力增强的孪生双向长短期记忆网络模型能够在现有技术的基础上加入了对于文本语义信息的关注,提高了分辨文本间关系的准确率。本步骤中选择采用网格搜索来确定对于文本结构和文本语义关系的计算权重,即线性相似度和隐性相似度的权重,如图3所示,可以看出当计算两文本之间的关系通过对于其文本结构间的关系可以占据总结果的四成(a=0.4),而对于文本间的语义关系占据总结果的六成(b=0.6),这样的分配比例得出的结果最为优异。
步骤四:话题时态关系判定
时态关系的判定基准由θee,θcd,θp三个阈值与上述PX(Tkn,T(k+1)m)计算的结果比较而确定,θee判定出现和消亡两类事件,θcd判定分离和收敛两类事件,θp判定持续存在类事件。以话题间相关性程度的高低为依据,设定阈值时依照θee<θcd<θp的规则。
若时间线Tk+1中话题T(k+1)i与时间线Tk中所有话题都无法匹配,即第k+1个时间线中第i个主题T(k+1)i与第k个时间线中所有话题的融合邻近度小于阈值θee,话题在时间线中未被讨论,在时间线Tk+1中首次出现,表示一个从无到有的过程,为“出现”时态。
若有且仅有一个时间线k中话题Tki与时间线k+1中话题T(k+1)j的融合邻近度大于阈值θp,则表示话题Tki在时间线k和k+1中持续存在,为“持续”时态。话题的持续在数量上表示一对一的关系,在社交媒体方面代表着话题被长期讨论,用户对加入该话题的兴趣和意向强烈。
若时间线k中至少两个话题Tki与时间线k+1中话题T(k+1)j融合邻近度大于阈值θcd,如用户在时间线T1内子话题T12以及T13与时间线T2内的话题T23融合邻近度大于阈值θcd,则表示T12与T13收敛于T23,即除去话题间单一关系,社交媒体中多个话题经过时间变化后会聚焦于同一话题,为“收敛”时态。
若一个时间线k中话题Tki与时间线k+1中至少两个话题T(k+1)j融合邻近度大于阈值θcd,如用户在时间线T1内子话题T12与时间线T2内子话题T22以及T23融合邻近度大于阈值θcd,则表示话题T12发散到T22与T23,为“分离”时态。体现为话题演化中存在一个话题经过时间演变后分散为多个子话题的现象,即话题分离。由于话题的收敛与分离涉及不同时间线中多个话题,其融合邻近度通常低于话题的持续,因此阈值θcd<θp。
如果时间线Tk中子话题Tki与时间线Tk+1中的所有子话题都无法匹配,即话题Tki与相邻时间线k+1中所有话题的融合邻近度小于阈值θee,简言之,话题Tki在时间线Tk+1中未被讨论,表示一个从有到无的过程,为“消亡”时态。
由于社交媒体中用户行为随机性的特点,若用户在时间线T1内子话题T12与相邻时间线T2中所有子话题的融合邻近度均低于阈值,而在时间线Ti中继续被讨论,为“潜伏”时态,表示话题T12处于潜伏状态。
各个时态转化成的数学计算公式如下表所示
表中E,P,C,D,Ex,FE分别为出现,持续,收敛,分离,消亡,潜伏时态的代称,与分别表示在时间线k与k+1中存在的两个或以上的话题。在上述步骤三中的两个结果,由于存在的时态关系存在六种状态,如表一所示,根据不同的时间间隔以及其中话题间的关系划分为:出现,分离,收敛,持续,消亡,潜伏六种时态,通过综合步骤三中的结果严格按照表一中的计算方式进行判定,由此可以更加精确的判定话题间的演化关系。
Claims (3)
1.一种结合主题模型和孪生网络模型的话题演化跟踪方法,其特征在于,包括以下步骤:步骤1、数据采集,对社交媒体平台的用户数据进行爬虫提取;步骤2、对提取的用户数据进行预处理,按照设定的时间间隔把文本进行划分得到需要判别的文本数据;步骤3、采用LDA主题模型计算相邻的时间线内的文本数据进行主题提取并判断两个主题间的显性相似度;步骤4、采用孪生网络和注意力机制计算相邻的时间线内的文本数据的文本语义间的隐性相似度,所述孪生网络的子网络为双向长短期记忆网络,所述注意力机制采用以下公式计算
公式中其中R表示为向量空间,n表示多头注意力机制中的层数,dk,dv分别表示为注意力索引K与词向量V的维度;步骤5、对所述显性相似度和所述隐性相似度进行加权融合得到文本数据间的融合邻近度,所述显性相似度和所述隐性相似度的加权融合使用以下公式进行
PX(Tkn,T(k+1)m)=aPα(Tkn,T(k+1)m)+bPβ(Tkn,T(k+1)m)
其中Tkn表示在时间线Tk中第n个主题,T(k+1)m表示时间线Tk+1中第m个主题,Pα表示显性相似度,Pβ表示隐性相似度,a和b分别显性相似度和隐性相似度的权重,所述显性相似度为余弦相似度,
Pα(Tkn,T(k+1)m)=cosine(TknT(k+1)m),所述隐性相似度为
式中以及/>分别为主题在向量空间中的表示;步骤6、由所述步骤5得到的融合邻近度与预先设定的阈值比较,确定话题在不同时间线的时态变化。
2.根据权利要求1所述的结合主题模型和孪生网络模型的话题演化跟踪方法,其特征在于,a=0.4,b=0.6。
3.根据权利要求1所述的结合主题模型和孪生网络模型的话题演化跟踪方法,其特征在于,所述步骤6中设定阈值θee,θcd,θp,θee<θcd<θp,若第k+1个时间线中第i个主题T(k+1)i与第k个时间线中所有话题的融合邻近度小于阈值θee,为“出现”时态;若有且仅有一个时间线k中话题Tki与时间线k+1中话题T(k+1)j的融合邻近度大于阈值θp,为“持续”时态;若时间线k中至少两个话题Tki与时间线k+1中话题T(k+1)j融合邻近度大于阈值θcd,为“收敛”时态;若一个时间线k中话题Tki与时间线k+1中至少两个话题T(k+1)j融合邻近度大于阈值θcd,为“分离”时态;若时间线k中话题Tki与相邻时间线k+1中所有话题的融合邻近度小于阈值θee,为“消亡”时态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295296.4A CN112905751B (zh) | 2021-03-19 | 2021-03-19 | 一种结合主题模型和孪生网络模型的话题演化跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110295296.4A CN112905751B (zh) | 2021-03-19 | 2021-03-19 | 一种结合主题模型和孪生网络模型的话题演化跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905751A CN112905751A (zh) | 2021-06-04 |
CN112905751B true CN112905751B (zh) | 2024-03-29 |
Family
ID=76105502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110295296.4A Active CN112905751B (zh) | 2021-03-19 | 2021-03-19 | 一种结合主题模型和孪生网络模型的话题演化跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905751B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807429B (zh) * | 2021-09-14 | 2024-03-29 | 企查查科技股份有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN111090811A (zh) * | 2019-12-24 | 2020-05-01 | 北京理工大学 | 一种海量新闻热点话题提取方法和系统 |
WO2020140633A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置、电子设备及存储介质 |
CN111797898A (zh) * | 2020-06-03 | 2020-10-20 | 武汉大学 | 一种基于深度语义匹配的在线评论自动回复方法 |
-
2021
- 2021-03-19 CN CN202110295296.4A patent/CN112905751B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390051A (zh) * | 2013-07-25 | 2013-11-13 | 南京邮电大学 | 一种基于微博数据的话题发现与追踪方法 |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
WO2020140633A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置、电子设备及存储介质 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN111090811A (zh) * | 2019-12-24 | 2020-05-01 | 北京理工大学 | 一种海量新闻热点话题提取方法和系统 |
CN111797898A (zh) * | 2020-06-03 | 2020-10-20 | 武汉大学 | 一种基于深度语义匹配的在线评论自动回复方法 |
Non-Patent Citations (1)
Title |
---|
陆敬筠等.《情报理论与实践》.2020,第156-161页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112905751A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nallapati et al. | Classify or select: Neural architectures for extractive document summarization | |
Li et al. | News text classification model based on topic model | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN111694958A (zh) | 基于词向量与single-pass融合的微博话题聚类方法 | |
Brigadir et al. | Analyzing discourse communities with distributional semantic models | |
CN110162632A (zh) | 一种新闻专题事件发现的方法 | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
Wang et al. | News recommendation via multi-interest news sequence modelling | |
CN112905751B (zh) | 一种结合主题模型和孪生网络模型的话题演化跟踪方法 | |
CN109344911B (zh) | 一种基于多层lstm模型的并行处理分类方法 | |
Hasan et al. | Using social sensing to discover trends in public emotion | |
CN115329210A (zh) | 一种基于交互图分层池化的虚假新闻检测方法 | |
Bidel et al. | Statistical machine learning for tracking hypermedia user behavior | |
Kamde et al. | A survey on web multimedia mining | |
Li et al. | Variational graph autoencoder with adversarial mutual information learning for network representation learning | |
Chen et al. | Popular topic detection in Chinese micro-blog based on the modified LDA model | |
Sheeba et al. | A fuzzy logic based on sentiment classification | |
CN108228779A (zh) | 一种基于学习社区对话流的成绩预测方法 | |
CN109254993B (zh) | 一种基于文本的性格数据分析方法及系统 | |
Hradiš et al. | Annotating images with suggestions—user study of a tagging system | |
Goel et al. | # visualhashtags: Visual summarization of social media events using mid-level visual elements | |
Parsafard et al. | Text classification based on discriminative-semantic features and variance of fuzzy similarity | |
Gliwa et al. | Incorporating text analysis into evolution of social groups in blogosphere | |
Tesic et al. | Data modeling strategies for imbalanced learning in visual search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |