CN106055604B - 基于词网络进行特征扩展的短文本主题模型挖掘方法 - Google Patents

基于词网络进行特征扩展的短文本主题模型挖掘方法 Download PDF

Info

Publication number
CN106055604B
CN106055604B CN201610353388.2A CN201610353388A CN106055604B CN 106055604 B CN106055604 B CN 106055604B CN 201610353388 A CN201610353388 A CN 201610353388A CN 106055604 B CN106055604 B CN 106055604B
Authority
CN
China
Prior art keywords
word
corporations
node
network
short text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610353388.2A
Other languages
English (en)
Other versions
CN106055604A (zh
Inventor
张雷
戴恒宇
蔡洋
王陆霞
陆恒杨
徐鸣
王崇骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201610353388.2A priority Critical patent/CN106055604B/zh
Publication of CN106055604A publication Critical patent/CN106055604A/zh
Application granted granted Critical
Publication of CN106055604B publication Critical patent/CN106055604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于词网络进行特征扩展的短文本主题模型挖掘方法,1)带权词网络构建步骤:2)短文本特征扩展步骤:3)主题挖掘步骤:将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样;采样后获得“中文分词后的文档‑主题”分布和“主题‑带权词网络中的节点是词语词语”分布;结束;计算邻接点加入社团前后的模块度增量,模块度是衡量社团好坏的标准,指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值。

Description

基于词网络进行特征扩展的短文本主题模型挖掘方法
技术领域
本发明涉及短文本文本主题模型及复杂网络分析领域,是一种利用带权词网络进行短文本特征扩展的方法,从而解决LDA主题模型应用于短文本中存在的特征稀疏性问题。
背景技术
短文本的特征非常稀疏,导致诸如LDA这样的基于词语共现关系进行主题建模的生成模型在短文本上表现不佳。而在当前的环境下,短文本相比于长文本具有不可比拟的优势,相比于长文本,短文本表达的语义简练,传递信息的速度快,人们越来越倾向于使用短文本来传递信息,短文本正在成为当今社会最重要的信息载体之一,比如在线广告、短信息和流行的社交媒体如微博、推特等,这些文本具有长度短、非正式并且常常含有噪声的特点。
解决短文本主题模型特征稀疏性的主要策略是寻找一些启发式方法将短文本聚合成长文本已解决短文本的数据稀疏性问题。目前对于微博等短文本的主题模型的研究使用了不同的策略来合并不同的微博,如基于作者信息、标签信息、时间信息,使用现有的主题模型方法来对聚合后的长文本进行主题挖掘,实验表明这种方法比直接在短文本上应用现有的主题模型方法效果要好。另一种短文本的扩展思路是利用搜索引擎或者wiki等资料库,在搜索引擎或wiki等资料库中寻找与当前文本相关的词或句子来对原文本进行扩展,这种方法能够一定程度上解决短文本的数据稀疏性问题,但是一方面外部资料库对扩展结果会产生很大的影响,另一方面,最终的模型质量依赖于扩展策略的好坏。
鉴于短文本在生产生活中出现越来越频繁的情况,急需采取一定的方法来解决短文本主题模型建模中的数据稀疏性问题。
发明内容
本发明所要解决的技术问题是在短文本语料库上建立带权词网络,在该网络上使用模块度增量来对社团进行扩充,以解决短文本特征稀疏性问题,从而使得LDA主题模型取得更理想的效果。
为解决上述问题,本发明的基于复杂基于词网络进行特征扩展的短文本主题模型挖掘方法,包括如下步骤:
1)带权词网络构建步骤:
a)文本预处理,对短文本语料库中的文本进行中文分词,并删除掉停用词;
b)从中文分词后的文档中建立带权词网络,带权词网络中的节点是词语,节点之间的边是两个词语在同一篇文档中的共现关系,边的权重是在整个语料库中两个词语共现的次数;
c)结束;
2)短文本特征扩展步骤:
a)将每条短文本的中文分词后包含的词语节点作为步骤1建立的带权词网络中的一个社团;
b)在带权词网络中寻找与当前社团中的词语节点有边相连且不在社团内部的节点集合,称为社团邻接点;
c)利用模块度函数计算社团邻接点加入当前社团后,词网络的模块度增量;
d)向当前社团中加入模块度增量大于一定阈值的邻接点;
e)结束;
3)主题挖掘步骤:
a)将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样;
b)采样后获得“中文分词后的文档-主题”分布和“主题-词语”分布;
c)结束;
其中步骤1)-a)中所述的文本预处理为使用开源中文分词工具HanLP对短文本语料库中的文本进行中文分词,并去除停用词。
其中步骤1)-b)中所述的建立带权词网络,具体过程如下:
1)步骤1)-a)预处理完成后,每条短文本被表示为词集合Vi,为Vi中的每个词语建立一个节点;
2)为Vi中表示的词节点两两之间赋予一条边,边代表这两个节点在同一个文档中出现过,为每条边赋予权值1;
3)当其它短文本中出现网络中已经存在的节点时,不建立新的节点;当其它短文本中出现网络中已经存在的边时,为该边的权值加1;
4)迭代处理语料库中所有短文本词集合,生成带权词网络图。
其中步骤2)-a)所述的将每条短文本分词后的词集合作为带权词网络中的一个社团,其意义在于社团代表具有某种联系的节点集合,而词集合中的词语本身同时出现在了一个短文本中,说明词语之间存在语义上的联系,可以作为一个社团对待。
步骤2)-b)在带权词网络中寻找社团的邻接点,具体过程如下:
1)当前短文本di对应的社团节点集合为Vi,将Vi中每个节点v的邻接点加入集合Adjacenti中。
2)去除Adjacenti中存在的原社团中的节点,使得Adjacenti中的节点为与Vi中节点相连且不在Vi中的邻接节点集合。
步骤2)-c所述的计算邻接点加入社团前后的模块度增量,模块度是衡量社团好坏的标准,指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值。一个网络中的社团模块度计算公式为:
其中C为算法划分出的社团,Ic为社团c内部所有边的度总和,m为整个网络图中所有边的度总和,Dc为社团c中所有节点的度总和。将词网络中社团C的邻接点w加入社团C之前,w是一个独立社团,w的模块度为:
原社团C的模块度为:
将邻接点w加入社团C后,总的模块度为:
模块度增量为:
步骤2)-d所述的向当前社团中加入模块度增量大于某一阈值的邻接点,具体过程如下:
1)设定模块度增量阈值ε。
2)计算Adjacenti中每个词加入社团前后的模块度增量ΔQ。
3)将ΔQ大于阈值ε的词加入到当前社团中。
步骤3)-a为使用吉布斯采样来对LDA模型中的参数进行估计,该步骤所使用的语料库是经过步骤2完成短文本特征扩展后的语料库。
步骤3)-b所述的采样后获得“文档-主题”分布和“主题-词语”分布,是经过吉布斯采样后得到的“主题-词”分布和“文档-主题”分布θ,这两个分布就是主题模型得到的结果。
本发明的有益效果:提出一种新的方法,引入复杂网络分析领域中的“社团”概念,通过网络中的“词-文档”关系来扩充短文本特征。传统的文本扩充方式如通过词共现频率、搜索引擎等往往只考虑“词-词”之间的联系,而本方法通过将文档建模为社团,并借助社团模块度这一工具,进而能够考虑到词与整个文档之间的关系,能够有效地解决短文本特征稀疏性问题,进而解决LDA主题模型(一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构)在短文本上由于短文本特征稀疏造成的效果不佳的状况。
附图说明
图1为本发明的带权词网络构建的流程图。
图2为本发明的基于社团模块度进行短文本特征扩展的流程图
图3为使用LDA在特征扩展后的语料库上进行主题挖掘的流程图。
图4为LDA主题模型的图模型示意。
图5为本发明流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
如图1所示,本发明在实施之前先要根据训练语料库建立带权词网络图,
步骤0是建立带权词网络图的起始状态。
步骤1是使用开源分词工具将语料库中的文档进行中文分词,将每个文档转换为词的集合形式。
步骤2是对分词的去停用词操作,由于停用词对于主题建模并无任何意义,因此在分词完成后,对照停用词词表去除词集合中的停用词。
步骤3是建立带权词网络中节点,将步骤2去停用词处理后的每个词语在网络中建立一个词节点。
步骤4-5是对每篇文档中的任意两个词w1w2进行判断是否存在边相连。
步骤6-7当同一篇文档中的两个词w1w2不存在边时,新建一条权值为1的边连接w1w2,当w1w2已经存在一条边相连时,将该边的权值加1.
步骤8是建立带权词网络的结束。
如图2所示,构建完带权网络图后,在带权网络图上使用模块度增量来对短文本进行特征扩展。
步骤9是短文本特征扩展阶段的开始。
步骤10是将原始文档对应的词节点作为一个初始社团,作为社团扩充的目标。
步骤11是获取与该初始社团邻接的节点集合,获取的方法为遍历社团中的所有节点,将与该节点之间有边相连且不在初始社团中的节点加入邻接节点集合中。
步骤12是计算邻接节点集合中的节点加入到初始社团前后的模块度增量,计算公式为
步骤13是判断当前模块度增量是否大于实现设定的阈值。
步骤14-15是对判断结果进行处理,若不大于阈值,则放弃将该词加入初始社团中,继续计算下一个邻接词,若大于阈值,将该词加入初识社团中。
步骤16是将扩充后的社团对应的词集合取出,作为新的训练语料。
步骤17是短文本特征扩展阶段的结束。
如图3所示,对短文本进行特征扩展完成后,使用LDA主题模型对特征扩展后的文档集进行主题建模,得到“文档-主题”分布和“主题-词语”分布,图4是LDA主题模型的图模型。
步骤18是主题挖掘阶段的开始。
步骤19使用LDA的吉布斯采样方法对LDA模型中的和θ参数进行估计,直到吉布斯采样收敛。
步骤20当吉布斯采样收敛时,输出文档的“文档-主题”分布θ和“主题-词语”分布
步骤21为主题挖掘阶段的结束。
综上所述,本发明提出的基于带权词网络模块度进行短文本特征扩展方法,能够解决短文本中存在的特征稀疏性问题,进而能够解决LDA主题模型应用于短文本中由于特征稀疏带来的效果不佳的问题,最终能够有效地提高短文本主题模型的准确率。
本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (8)

1.一种基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,包括如下步骤:
1)带权词网络构建步骤:
a)文本预处理,对短文本语料库中的文本进行中文分词,并删除掉停用词;
b)从中文分词后的文档中建立带权词网络,带权词网络中的节点是词语,节点之间的边是两个词语在同一篇文档中的共现关系,边的权重是在整个语料库中两个词语共现的次数;
c)结束;
2)短文本特征扩展步骤:
a)将每条短文本的中文分词后包含的词语节点作为步骤1建立的带权词网络中的一个社团;
b)在带权词网络中寻找与当前社团中的词语节点有边相连且不在社团内部的节点集合,称为社团邻接点;
c)利用模块度函数计算社团邻接点加入当前社团后,词网络的模块度增量;
d)向当前社团中加入模块度增量大于一定阈值的邻接点;
e)结束;
3)主题挖掘步骤:
a)将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样;
b)采样后获得“中文分词后的文档-主题”分布和“主题-带权词网络中的节点是词语词语”分布;
c)结束;
步骤2)-c)所述的计算邻接点加入社团前后的模块度增量,模块度是衡量社团好坏的标准,指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值;将邻接词w加入社团C之前,社团C的模块度为:
其中Ic为社团C内部所有边权重总和,Dc为社团内所有节点的度总和;m为整个网络中所有边的权重总和;w加入社团C之前,w是一个独立社团,w的模块度为:
其中kw为节点w的模块度,记kw,C为词节点w链接到社团C中边的权重总和;将w加入社团C后的模块度为:
词w加入社团C前后的模块度增量为:
2.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,其中步骤1)-a)中所述的文本预处理为使用开源中文分词工具HanLP对短文本语料库中的文本进行中文分词,并去除停用词。
3.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,其中步骤1)-b)中所述的建立带权词网络具体过程如下:
1)步骤1)-a)预处理完成后,每条短文本被表示为词集合Vi,为Vi中的每个词语建立一个节点;
2)为Vi中表示的词节点两两之间赋予一条边,边代表这两个节点在同一个文档中出现过,为每条边赋予权值1;
3)当其它短文本中出现网络中已经存在的节点时,不建立新的节点;当其它短文本中出现网络中已经存在的边时,为该边的权值加1;
4)迭代处理语料库中所有短文本词集合,生成带权词网络图。
4.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,其中步骤2)-a)所述的将每条短文本分词后的词集合作为带权词网络中的一个社团,其意义在于社团代表具有某种联系的节点集合,而词集合中的词语本身同时出现在了一个短文本中,说明词语之间存在语义上的联系,作为一个社团对待。
5.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,其中步骤2)-b)所述的寻找社团邻接点的具体过程如下:
1)当前短文本di对应的社团节点集合为Vi,将Vi中每个节点v的邻接点加入集合Adjacenti中;
2)去除Adjacenti中存在的原社团中的节点,使得Adjacenti中的节点为与Vi中节点相连且不在Vi中的邻接节点集合。
6.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,其中步骤2)-d)所述的向当前社团中加入模块度增量大于某一阈值的邻接点,具体过程如下:
1)设定模块度增量阈值ε;
2)计算Adjacenti中每个词加入社团前后的模块度增量ΔQ;
3)将ΔQ大于阈值ε的词加入到当前社团中。
7.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,其中步骤3)-a)为使用吉布斯采样来对LDA模型中的参数进行估计,该步骤所使用的语料库是经过步骤2)完成短文本特征扩展后的语料库。
8.根据权利要求1所述的基于词网络进行特征扩展的短文本主题模型挖掘方法,其特征在于,其中步骤3)-b)所述的采样后获得“文档-主题”分布和“主题-词语”分布,是经过吉布斯采样后得到的“主题-词”分布和“文档-主题”分布θ,这两个分布就是主题模型得到的结果。
CN201610353388.2A 2016-05-25 2016-05-25 基于词网络进行特征扩展的短文本主题模型挖掘方法 Active CN106055604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610353388.2A CN106055604B (zh) 2016-05-25 2016-05-25 基于词网络进行特征扩展的短文本主题模型挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610353388.2A CN106055604B (zh) 2016-05-25 2016-05-25 基于词网络进行特征扩展的短文本主题模型挖掘方法

Publications (2)

Publication Number Publication Date
CN106055604A CN106055604A (zh) 2016-10-26
CN106055604B true CN106055604B (zh) 2019-08-27

Family

ID=57174555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610353388.2A Active CN106055604B (zh) 2016-05-25 2016-05-25 基于词网络进行特征扩展的短文本主题模型挖掘方法

Country Status (1)

Country Link
CN (1) CN106055604B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844416B (zh) * 2016-11-17 2019-11-29 中国科学院计算技术研究所 一种子话题挖掘方法
CN106844516A (zh) * 2016-12-28 2017-06-13 中央民族大学 一种热点词的提取方法及系统
CN106991127B (zh) * 2017-03-06 2020-01-10 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN107145516B (zh) * 2017-04-07 2021-03-19 北京捷通华声科技股份有限公司 一种文本聚类方法及系统
CN107122494B (zh) * 2017-05-22 2020-06-26 南京大学 基于社团发现的主题模型构建方法
CN107357785A (zh) * 2017-07-05 2017-11-17 浙江工商大学 主题特征词抽取方法及系统、情感极性判断方法及系统
CN107562727B (zh) * 2017-09-12 2020-10-23 云南大学 一种基于贝叶斯网的短文本特征扩展方法
CN107784087B (zh) * 2017-10-09 2020-11-06 东软集团股份有限公司 一种热词确定方法、装置及设备
CN110298026B (zh) * 2018-03-22 2024-04-16 北京京东尚科信息技术有限公司 场景描述词的筛选方法和装置
CN109189936B (zh) * 2018-08-13 2021-07-27 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN110532378B (zh) * 2019-05-13 2021-10-26 南京大学 一种基于主题模型的短文本方面提取方法
CN110134958B (zh) * 2019-05-14 2021-05-18 南京大学 一种基于语义词网络的短文本主题挖掘方法
CN111241846B (zh) * 2020-01-15 2023-05-26 沈阳工业大学 一种主题挖掘模型中主题维度自适应确定方法
CN112241492B (zh) * 2020-10-22 2023-04-07 西安石油大学 一种多源异构在线网络话题早期识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271476B2 (en) * 2007-03-30 2012-09-18 Stuart Donnelly Method of searching text to find user community changes of interest and drug side effect upsurges, and presenting advertisements to users
CN103020302B (zh) * 2012-12-31 2016-03-02 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
CN103778207B (zh) * 2014-01-15 2017-03-01 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN103793501B (zh) * 2014-01-20 2016-03-02 惠州学院 基于社交网络的主题社团发现方法
CN104050302B (zh) * 2014-07-10 2017-05-24 华东师范大学 一种基于图谱模型的话题探测系统
CN104850617B (zh) * 2015-05-15 2018-04-20 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN104933111B (zh) * 2015-06-03 2018-01-12 中南大学 一种基于学术关系网络的专家学术距离评估方法
CN105243593A (zh) * 2015-08-04 2016-01-13 电子科技大学 基于混合测度的加权网络社区聚类方法
CN105550365A (zh) * 2016-01-15 2016-05-04 中国科学院自动化研究所 一种基于文本主题模型的可视化分析系统

Also Published As

Publication number Publication date
CN106055604A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055604B (zh) 基于词网络进行特征扩展的短文本主题模型挖掘方法
Wei et al. Twitter bot detection using bidirectional long short-term memory neural networks and word embeddings
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN109684646A (zh) 一种基于话题影响力的微博话题情感分析方法
CN107346340A (zh) 一种用户意图识别方法及系统
CN104615589A (zh) 训练命名实体识别模型的方法、命名实体识别方法及装置
CN105335349A (zh) 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN109710916A (zh) 一种标签提取方法、装置、电子设备及存储介质
CN106919557A (zh) 一种结合主题模型的文档向量生成方法
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN106294323B (zh) 对短文本进行常识性因果推理的方法
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN105446954B (zh) 一种面向科技大数据的项目查重方法
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
CN105678626B (zh) 重叠社区挖掘方法与装置
CN103984731B (zh) 微博环境下自适应话题追踪方法和装置
CN108595515A (zh) 一种结合微博弱关系的微博情感分析方法
Cai et al. Topic detection and evolution analysis on microblog
Ma et al. Malicious domain name detection based on Doc2Vec and hybrid network
CN106815211B (zh) 一种基于循环聚焦机制进行文档主题建模的方法
Darling et al. Pathsum: A summarization framework based on hierarchical topics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant