CN110795533A - 面向长文本的主题检测方法 - Google Patents

面向长文本的主题检测方法 Download PDF

Info

Publication number
CN110795533A
CN110795533A CN201911008635.5A CN201911008635A CN110795533A CN 110795533 A CN110795533 A CN 110795533A CN 201911008635 A CN201911008635 A CN 201911008635A CN 110795533 A CN110795533 A CN 110795533A
Authority
CN
China
Prior art keywords
long
word
distribution
text
long text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911008635.5A
Other languages
English (en)
Inventor
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911008635.5A priority Critical patent/CN110795533A/zh
Publication of CN110795533A publication Critical patent/CN110795533A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种面向长文本的主题检测方法,包括以下步骤:1)对长文本进行结构化处理和文本数据抽象,计算Word2vec&TF‑IDF词向量;进行LDA建模,构成文本‑主题分布,利用Skip‑Gram模型来训练语料库,计算其特征向量,在此基础上计算长文本数据的词向量与特征向量的余弦距离进行加权叠加,得出文本相似度。2)以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块采用Single‑Pass进行聚类分析,再通过HAC进行话题合并,得出最终结果。该方法通过LDA提取文本特征词隐含的主题,Word2vec映射特征词向量,再将二者进行加权融合,引入时间窗口和凝聚式层次聚类,通过Single‑Pass&HAC对长文本主题进行了完整的提取,输出结果准确度高。

Description

面向长文本的主题检测方法
技术领域
本发明涉及网络长文本的数据挖掘技术领域,特别是涉及一种面向长文本的主题检测方法。
背景技术
随着近年来互联网技术的飞速发展,网络长文本信息呈现爆炸式的增长,而长文本信息中一般存在着大量冗余文本数据,其表示又存在着忽略潜在语义和高维稀疏性的问题。同时,网络事件本身还具有快速传播性和突发性,为了帮助用户快速得出长文本的主题信息,对长文本的主题检测方法研究设计具有重要的现实意义。
本方法对长文本进行结构化处理和文本数据抽象,构成文本-主题分布,利用Skip- Gram模型来训练语料库。计算长文本数据的词向量与特征向量的余弦距离,两者相乘相加,计算文本相似度;以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块进行聚类分析,其后的各数据块在前一数据块分好类的基础上,与各分类质心进行相似度计算,选出相似度最大值,从而实现了对长文本主题的完整提取。
发明内容
为解决上述问题,本发明提供了一种面向长文本的主题检测方法,其通过LDA提取文本特征词隐含的主题,Word2vec映射特征词向量,再将二者进行加权融合,引入时间窗口和凝聚式层次聚类,通过Single-Pass&HAC检测出长文本主题。
为此,本发明的技术方案如下:
建立VSM模型,用Q={q1,q2,…,qn,…,qN}表示长文本数据,用Z= {z1,z2,…,zn,…,zN}表示其特征词,用Di={(wi1,z1),(wi2,z2),…,(win,zn),…,(wiN,zN)}表示所有长文档,wiN表示第i篇长文本的特征词的权重。采用词频--反文档频率权重法对权重进行计算,
Figure RE-GDA0002346868190000011
将文本数据进行抽象建立贝叶斯概率模型,进行LDA建模,使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ,δ共有Y个,对长文本qN随机从Dirichlet先验分布
Figure RE-GDA0002346868190000012
中选出相应的文档主题分布
Figure RE-GDA0002346868190000013
Figure RE-GDA0002346868190000014
选定主题
Figure RE-GDA0002346868190000015
再根据主题词的Dirichlet先验分布 [θβ1β2β3,…,θβz]T选出相应的主题词语分布[δβ1β2β3,…,δβz]T,从词库中选出词语
Figure RE-GDA0002346868190000016
构成文本主题分布;
建立Skip-Gram模型,其输入层特征词的N维输入向量为τ1,O维隐含层
Figure RE-GDA0002346868190000017
输出层,第k个分布上的第l个单元的净输入
Figure RE-GDA0002346868190000019
Figure RE-GDA00023468681900000110
其中,W为复制和转置输入层到隐含层的权重矩阵τk,l表示输出层的第k个分布上的第l个特征词,τj,k表示输出上下文词中的第k个词,唯一输入词为τ1,ρk,l表示第k个分布上的第l个单元的输出,ψτl表示隐含层到输出层的权重向量,k=1,2,3,…,K;最终计算计算长文本数据的词向量与特征向量的余弦距离,两者相乘相加,计算文本相似度。
在Single-Pass的算法基础上融入凝聚式层次聚类,以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块进行聚类分析,其后的各数据块在前一数据块分好类的基础上,与各分类质心进行相似度计算,选出相似度最大值,从而检测出长文本的主题。
本发明提供的方法主要针对网络长文本的主题聚类分析。随着互联网技术的飞速发展,网络长文本信息呈现爆炸式的增长,而长文本信息中一般存在着大量冗余文本数据,其表示又存在着忽略潜在语义和高维稀疏性的问题。同时,网络事件本身还具有快速传播性和突发性。
针对以上问题设计出了本方法。有益效果有:
1)Word2vec&LDA两种方法相结合,对其得到的特征向量进行加权融合起到降维和较为完整的表示出文本信息。
2)Single-Pass&HAC两种方法相结合,引入时间窗口和凝聚式层次聚类,提高了聚类分析的精度和效率。
附图说明
图1为本发明提供的面向长文本的主题检测算法流程图
图2为基于时间窗口的Single-Pass聚类流程图
具体实施方式
如图1所示,本发明提供了一种面向长文本的主题检测方法。
首先,采集源文档数据,建立VSM模型,用Q={q1,q2,…,qn,…,qN}表示长文本数据,用Z={z1,z2,…,zn,…,zN}表示其特征词,用Di= {(wi1,z1),(wi2,z2),…,(win,zn),…,(wiN,zN)}表示所有文档,用wiN表示第i篇长文本的特征词的权重,采用词频--反文档频率权重法对权重进行计算。计算Word2vec&TF-IDF词向量,
Figure RE-GDA0002346868190000021
其次,将文本数据进行抽象建立贝叶斯概率模型,进行LDA建模,使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ,
Figure 2
根据主题词的Dirichlet先验分布[θβ1,θβ2,θβ3,…,θβZ]T选出相应的主题词语分布[δβ1β2β3,…,δβZ]T,从词库中选出词语
Figure RE-GDA0002346868190000024
构成文本主题分布;在此基础上计算长文本数据的词向量与特征向量的余弦距离进行加权叠加,得出文本相似度。
以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块采用Single-Pass进行聚类分析,再通过HAC进行话题合并,得出最终结果。,其后的各数据块在前一数据块分好类的基础上,与各分类质心进行相似度计算,选出相似度最大值,得出最终结果。

Claims (6)

1.一种面向长文本的主题检测方法,其特征在于包括如下步骤:
1)建立VSM模型,用Q={q1,q2,...,qn,...,qN}表示长文本数据,用Z={z1,z2,...,zn,...,zN}表示其特征词,用Di={(wi1,z1),(wi2,z2),...,(win,zn),...,(wiN,zN)}表示所有文档,用wiN表示第i篇长文本的特征词的权重,采用词频--反文档频率权重法对权重进行计算,
Figure RE-FDA0002346868180000011
2)将文本数据进行抽象建立贝叶斯概率模型,进行LDA建模,使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ,δ共有Y个,对长文本qN随机从Dirichlet先验分布
Figure RE-FDA0002346868180000012
Figure RE-FDA0002346868180000013
中选出相应的文档主题分布
Figure RE-FDA0002346868180000014
选定主题
Figure RE-FDA0002346868180000016
再根据主题词的Dirichlet先验分布[θβ1,θβ2,θβ3,...,θβZ]T选出相应的主题词语分布[δβ1,δβ2,δβ3,...,δβZ]T,从词库中选出词语
Figure RE-FDA00023468681800000110
构成文本主题分布;
3)建立Skip-Gram模型,其输入层特征词的N维输入向量为τ1,O维隐含层
Figure RE-FDA0002346868180000017
输出层,
Figure RE-FDA0002346868180000018
第k个分布上的第l个单元的净输入其中,W为复制和转置输入层到隐含层的权重矩阵τk,l表示输出层的第k个分布上的第l个特征词,τj,k表示输出上下文词中的第k个词,唯一输入词为τ1,ρk,l表示第k个分布上的第l个单元的输出,表示隐含层到输出层的权重向量,k=1,2,3,…,K;最终计算计算长文本数据的词向量与特征向量的余弦距离,两者相乘相加,计算文本相似度。
4)在Single-Pass的算法基础上融入凝聚式层次聚类,以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块进行聚类分析,其后的各数据块在前一数据块分好类的基础上,与各分类质心进行相似度计算,选出相似度最大值,从而检测出长文本的主题。
2.如权利要求1所述面向长文本的主题检测方法,其特征在于:步骤1)建立VSM模型,用Q={q1,q2,...,qn,...,qN}表示长文本数据,用Z={z1,z2,...,zn,...,zN}表示其特征词,用Di={(wi1,z1),(wi2,z2),...,(win,zn),...,(wiN,zN)}表示所有文档,用wiN表示第i篇长文本的特征词的权重,采用词频--反文档频率权重法对权重进行计算。
3.如权利要求1所述面向长文本的主题检测方法,其特征在于:步骤2)将文本数据进行抽象建立贝叶斯概率模型,进行LDA建模,使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ。
4.如权利要求1所述面向长文本的主题检测方法,其特征在于:步骤2)使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ;
若已知p(yi|y-i)为其函数的条件分布,其中y-i=(y1,y2,...,yi-1,yi+1,...,yn),建立δ和ε的联合分布,然后计算Gibbs采样的条件概率:
p(ε,δ|α,β)=∫θφp(ε,δ,θ,φ|α,β)dθdφ
Figure RE-FDA0002346868180000031
在马尔科夫链平稳之后,给定主题δ,对参数α、β进行设置,即可对矩阵θ、φ的值进行估计。
5.如权利要求1所述面向长文本的主题检测方法,其特征在于:步骤3)包括如下步骤:
①将特征词作为输入层,上下文词语作为输出层,输入层特征词的N维输入向量为τ1,○维隐含层
Figure RE-FDA0002346868180000032
②输出层,
Figure RE-FDA0002346868180000033
其中,W为复制和转置输入层到隐含层的权重矩阵τk,l表示输出层的第k个分布上的第l个特征词,τj,k表示输出上下文词中的第k个词,唯一输入词为τ1,ρk,l表示第k个分布上的第l个单元的输出,表示隐含层到输出层的权重向量,k=1,2,3,…,K;
③第k个分布上的第l个单元的净输入
Figure RE-FDA0002346868180000035
6.如权利要求1所述面向长文本的主题检测方法,其特征在于:步骤4)包括如下步骤:
①长文本的输入顺序为舆情发生的时间顺序;
②按照时间窗口进行切分,单位为h/d/周;
③以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块进行聚类分析,其后的各数据块在前一数据块分好类的基础上,与各分类质心进行相似度计算,选出相似度最大值,低于阈值则创建一个新的话题簇,与之相反则归到相似度最大值的话簇;
④任一时刻均在其上一时刻的基础上计算相似度,重复执行以上步骤,分类完毕以后结束执行;
⑤通过计算长文档集合中两两文本之间的相似度similar(qa,qb),构建聚类分析矩阵;
⑥在⑤的基础上找出最大相似度Max(similar(qa,qb))对应的长文档数据,若其小于预设的阈值则跳到步骤⑨,否则将其归类到新的主题ηk
⑦计算其他长文档主题与ηk的相似程度,对聚类分析矩阵进行更新;
⑧判断是否满足预设的阈值,不满足则跳到步骤⑥;
⑨主题聚类结束。
CN201911008635.5A 2019-10-22 2019-10-22 面向长文本的主题检测方法 Pending CN110795533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911008635.5A CN110795533A (zh) 2019-10-22 2019-10-22 面向长文本的主题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911008635.5A CN110795533A (zh) 2019-10-22 2019-10-22 面向长文本的主题检测方法

Publications (1)

Publication Number Publication Date
CN110795533A true CN110795533A (zh) 2020-02-14

Family

ID=69440970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911008635.5A Pending CN110795533A (zh) 2019-10-22 2019-10-22 面向长文本的主题检测方法

Country Status (1)

Country Link
CN (1) CN110795533A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559862A (zh) * 2020-12-11 2021-03-26 芜湖汽车前瞻技术研究院有限公司 一种基于邻近词相似度的产品特征聚类方法
CN112580355A (zh) * 2020-12-30 2021-03-30 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN113011133A (zh) * 2021-02-23 2021-06-22 吉林大学珠海学院 一种基于自然语言处理的单细胞相关技术数据分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559862A (zh) * 2020-12-11 2021-03-26 芜湖汽车前瞻技术研究院有限公司 一种基于邻近词相似度的产品特征聚类方法
CN112580355A (zh) * 2020-12-30 2021-03-30 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN112580355B (zh) * 2020-12-30 2021-08-31 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN113011133A (zh) * 2021-02-23 2021-06-22 吉林大学珠海学院 一种基于自然语言处理的单细胞相关技术数据分析方法

Similar Documents

Publication Publication Date Title
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
Athiwaratkun et al. Probabilistic fasttext for multi-sense word embeddings
CN106844424B (zh) 一种基于lda的文本分类方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN111177374A (zh) 一种基于主动学习的问答语料情感分类方法及系统
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN102411611B (zh) 一种面向即时交互文本的事件识别与跟踪方法
CN110795533A (zh) 面向长文本的主题检测方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN111198947B (zh) 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN105760499A (zh) 一种基于lda主题模型来分析和预测网络舆情的方法
CN110222172A (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111984791A (zh) 一种基于注意力机制的长文分类方法
Sun et al. Multi-channel CNN based inner-attention for compound sentence relation classification
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN115168580A (zh) 一种基于关键词提取与注意力机制的文本分类方法
Park et al. Pseudo NLP Joint Spam Classification Technique for Big Data Cluster.
CN113191133B (zh) 一种基于Doc2Vec的音频文本对齐方法及系统
CN111104508B (zh) 基于容错粗糙集的词袋模型文本表示方法、系统及介质
Chen et al. Using deep belief nets for Chinese named entity categorization
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm
Leng et al. Audio scene recognition based on audio events and topic model
CN103207893B (zh) 基于向量组映射的两类文本的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200214

WD01 Invention patent application deemed withdrawn after publication