CN107423282B - 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 - Google Patents

基于混合特征的文本中语义连贯性主题与词向量并发提取方法 Download PDF

Info

Publication number
CN107423282B
CN107423282B CN201710372958.7A CN201710372958A CN107423282B CN 107423282 B CN107423282 B CN 107423282B CN 201710372958 A CN201710372958 A CN 201710372958A CN 107423282 B CN107423282 B CN 107423282B
Authority
CN
China
Prior art keywords
word
document
distribution
corpus
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710372958.7A
Other languages
English (en)
Other versions
CN107423282A (zh
Inventor
吴骏
张梓雄
康宁
谢俊元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201710372958.7A priority Critical patent/CN107423282B/zh
Publication of CN107423282A publication Critical patent/CN107423282A/zh
Application granted granted Critical
Publication of CN107423282B publication Critical patent/CN107423282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法,从而能够同时解决LDA主题模型中忽略局部上下文信息与词向量中忽略文档与词的互信息的缺陷。包括以下步骤:1)上下文依赖的主题预分配阶段;2)基于主题的词向量重构阶段;3)混合文档生成阶段;本发明基于混合特征的文本中语义连贯性主题与词向量并发提取方法能够在现有的生成式概率主题模型与词嵌入等相关技术的基础上,混合利用文本中的全局文档与词的统计信息以及局部的上下文词序与依赖信息,在提取出语义连贯的主题词分布的同时,为不同文档中的词生成不同的主题相关的词向量,有效解决同一词在不同主题下的歧义问题。

Description

基于混合特征的文本中语义连贯性主题与词向量并发提取 方法
技术领域
本发明涉及无监督文本数据挖掘以及文本主题模型领域,是一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法,能够在提取出语义连贯的主题词分布的同时,为不同文档中的词生成不同的主题相关的词向量,有效解决同一词在不同主题下的歧义问题。此模型还能将LDA中低维的稀疏主题向量推广到分布式连续密集的主题向量,从而可以更方便地衡量主题与主题、主题与词之间的相似度。
背景技术
在这个信息爆炸的大数据时代,人们每天都会以新闻、博客、网页、科学文章、书籍、视频等各种各样的形式阅读浏览大量的内容;在这种鱼龙混杂的情况下,对于有价值的文本检索与关键信息提取变得愈发困难,我们需要依赖于外部的计算工具来组织、搜索以及理解这些繁杂的信息。现在人们对于在线信息的处理往往依赖于搜索引擎与链接,我们习惯于在搜索引擎内按照关键字搜索然后根据返回的文档列表提供的链接导航至不同的信息。而概率主题模型这一系列的算法工具能够从文档中提取出主题词,方便用户进行快速检索与文档分类等操作。同时,概率主题模型还可以看做将文档映射为低维的概率主题向量,从而为下游的文本聚类等自然语言处理任务提供帮助。
在无监督文本数据挖掘中,以LDA为代表的概率主题模型能够被用于提取语料集中文档共享的隐藏主题,为人们提供直观、易于理解的文档主题分布与主题包含的词分布。但是LDA仅依赖于文档与词的全局统计数据,忽略了局部上下文中的词序与共现信息,导致主题包含的多个词之间往往缺乏语义连贯性。另一方面,以Word2Vec为代表的词嵌入技术已经证明了分布式密集向量能够更好地捕获语义与语法规则,更方便地用于衡量词与词之间的相关性;但是其将语料集看做长字符串以致忽略了词与文档的关联信息,只能生成全局唯一的词向量,无法解决一词多义的问题。
鉴于现实工作中我们需要更频繁地在海量文本中进行无监督数据挖掘,快速提取出有效信息或者将本文转化为特征向量等形式以方便下游应用使用,因此急需合适的方法来提取出文本中语义连贯的主题的同时生成词对应的嵌入特征向量。
发明内容
发明目的:本发明在生成式概率主题模型与词嵌入等相关技术的基础上,提出了混合特征的文本中主题与词向量提取模型。此模型能够在提取出语义连贯的主题词分布的同时,为不同文档中的词生成不同的主题相关的词向量,有效解决同一词在不同主题下的歧义问题。此模型还能将LDA中低维的稀疏主题向量推广到分布式连续密集的主题向量,从而可以更方便地衡量主题与主题、主题与词之间的相似度。
技术方案:
基于混合特征的文本中语义连贯性主题与词向量并发提取方法,包括步骤:
步骤1:使用开源分词工具将语料库中的文档进行中文分词并且去除停用词;
步骤2:利用开源工具建立词表与词-文档矩阵;
步骤3:基于固定尺寸的与固定步长的滑动窗口进行文档切分,将步骤2得到的文档切分为多个局部上下文;并抽取出多元词组,每个多元词组包含多个局部上下文中共现的词;
步骤4:对步骤3中抽取出来的多元词组进行吉布斯采样,产生“多元词组-主题”分布与“主题-词”分布;并步骤3生成文档主题分布;
步骤5:进行外部语料集的抓取,并进行预处理;
步骤6:利用开源工具Genism对步骤5预处理之后的语料集进行通用词向量训练;
步骤7:根据步骤4得到的“主题-词”分布,计算每个主题对应的嵌入向量;具体为使用步骤6中生成的通用词向量,将通用词向量按照概率值按权相加得到每个主题对应的嵌入向量;
步骤8:将步骤7中得到的主题嵌入向量与步骤8得到的通用词向量按权相加,得到某个词在某个主题下的特征嵌入向量;将文档中所有主题词嵌入按权相加得到文档向量;
步骤9:根据预设的模型超参数从伯努利分布中采样出随机判别值,并根据判别值是否为零来决定当前词的生成源;如果等于零则从狄利克雷先验的多项式分布中生成,否则从词向量隐特征模块生成;
步骤10:利用吉布斯采样得到当前词的生成主题,然后根据确定的词生成方式采样出当前词;
步骤11:重复步骤10,更新全局词统计信息以及词嵌入值直到收敛;获得最终的“文档-主题”分布和“主题-词”分布以及更新后的词向量。
所述步骤1中使用开源工具Genism对英文语料集进行英文分词操作,使用开源中文分词工具Jieba对中文语料集进行中文分词,并去除停用词。
所述多元词组抽取具体过程如下:
i.预处理完成后,每个文档被表示为词序列Vi,Vi中使用词在词表中的下标表示该词;
ii.根据预设的固定长度的滑动窗口从文档中,即词序列中取出包含多个词的局部上下文词集合;然后将该词集合依照多元语言模型转化为多元词组,即譬如(w1,w2,w3)=>{(w1,w2),(w2,w3),(w1,w3)}
iii.根据预设的滑动步长将滑动窗口移动到下一个局部上下文中,重复上述步骤处理流程;
iv.迭代处理语料集中所有处理后文本,生成多元词组集合。
有益效果:本发明提出一种新的方法,能够在提取出语义连贯的主题词分布的同时,为不同文档中的词生成不同的主题相关的词向量,有效解决同一词在不同主题下的歧义问题。
附图说明
图1为本发明的上下文依赖的主题预分配阶段的流程图。
图2为本发明的基于主题的词向量重构阶段的流程图
图3为混合文档生成阶段的流程图。
图4为多元词组生成模型示意图。
图5为基于Skip-gram模型的主题嵌入向量生成示意图。
图6为混合文档生成模型示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,本发明第一阶段是进行上下文依赖的主题预分配,图4为多元词组生成模型示意图。
步骤0是进行主题预分配的起始状态。
步骤1是使用开源分词工具将语料库中的文档进行中文分词并且去除停用词。由于停用词对于主题建模并无任何意义,因此在分词完成后,对照停用词词表去除词集合中的停用词。使用开源工具Genism对英文语料集进行英文分词操作,使用开源中文分词工具Jieba对中文语料集进行中文分词,并去除停用词;
步骤2是利用开源工具Scikit-learn建立词表与词-文档矩阵,此时语料集中的所有文档都可以表示为词在词表中对应的下标,并且我们使用稀疏矩阵存放语料集中的文档以保证空间利用率。
步骤3是基于固定尺寸的与固定步长的滑动窗口进行文档切分,将步骤2中经过数据预处理之后的文档切分为多个局部上下文。
步骤4是根据多元语言模型从每个滑动窗口切分而来的局部上下文中抽取出多元词组,每个多元词组包含多个局部上下文中共现的词。
多元词组抽取具体过程如下:
v.步骤1)-a)预处理完成后,每个文档被表示为词序列Vi,Vi中使用词在词表中的下标表示该词;
vi.根据预设的固定长度的滑动窗口从文档中,即词序列中取出包含多个词的局部上下文词集合;然后将该词集合依照多元语言模型转化为多元词组,即譬如(w1,w2,w3)=>{(w1,w2),(w2,w3),(w1,w3)}
vii.根据预设的滑动步长将滑动窗口移动到下一个局部上下文中,重复上述步骤2)的处理流程;
viii.迭代处理语料集中所有处理后文本,生成多元词组集合。
步骤5是对步骤4中抽取出来的多元词组进行吉布斯采样,采样之后可以产生“多元词组-主题”分布与“主题-词”分布。首先针对提取出的多元词组,假设每个多元词组由单一主题生成;然后利用吉布斯采样进行多轮迭代推导出每个词的主题分配,最后将隐主题分配矩阵重构为“主题-词”分布;
步骤6是对步骤4中抽取出来的多元词组的主题分配情况并且根据步骤3中多元词组与文档的对应情况,进行文档主题分布的生成。
步骤7是主题预分配阶段的结束。
如图2所示,对于语料集的主题预分配结束之后,我们需要进行基于主题的词向量重构,将原本词表中离散稀疏的词表示为分布式密集的嵌入向量。图5为基于Skip-gram模型的主题嵌入向量生成示意图。
步骤8是基于主题的词向量重构阶段的开始。
步骤9是进行外部语料集的抓取,可以选择Google News或者维基百科的中英文语料集;然后使用步骤1-2中使用的数据预处理技术对于外部语料集进行数据预处理。
步骤10是利用开源工具Genism进行通用词向量训练,这里可以使用Word2Vec中的Skip-gram三层神经网络模型。
步骤11将主题包含词的嵌入向量按权相加得到主题嵌入向量,这里根据步骤6中抽取出的主题词分布,然后使用步骤10中生成的通用词向量,将通用词向量按照概率值按权相加得到主题的嵌入向量。
步骤12是将主题向量与词向量按权相加得到主题词嵌入,这里使用步骤11中得到的主题嵌入向量与步骤10得到的通用词向量,将二者按权相加,得到某个词在某个主题下的特征嵌入向量。根据公式
Figure BDA0001303257100000053
计算得到某个词在所属主题下对应的主题词嵌入,其中
Figure BDA0001303257100000055
表示通用词向量,
Figure BDA0001303257100000054
表示主题嵌入向量;
步骤13是将文档中所有主题词嵌入按权相加得到文档向量,这里根据步骤2得到的文档词表将步骤12得到的主题词嵌入按权相加得到的向量作为文档的特征嵌入向量。
步骤14是基于主题的词向量重构阶段的结束。
如图3所示,获取到主题向量与主题词嵌入之后,我们就可以根据混合文档生成模型进行主题重分配,得到最终的“文档-主题”分布和“主题-词语”分布;图6为混合文档生成模型示意图。
步骤15是混合文档生成阶段的开始。
步骤16根据预设的模型超参数从伯努利分布中采样出随机判别值,其主要步骤是对于文档中的每个词wi,从伯努利分布中采样出随机值si~Ber(λ),si用于决定词wi是由狄利克雷先验的多项分布生成还是由隐特征模块生成;其中λ是模型超参数;
步骤17-18根据判别值是否为零来决定当前词的生成源,即决定其生成主题与词概率分布;如果等于零则从狄利克雷先验的多项式分布中生成,否则从词向量隐特征模块生成。
主要是根据步骤3)-a)中得出的判别值si,利用如下公式:
Figure BDA0001303257100000051
采样生成当前词。其中:
Figure BDA0001303257100000052
步骤19是确定了词的生成方式后,从文档的主题分布中采样得到当前词的生成主题,然后根据确定的词生成方式采样出当前词。
步骤20是基于吉布斯采样重复当前生成步骤,更新全局词统计信息以及词嵌入值直到收敛;采样后获得最终的“文档-主题”分布和“主题-词”分布以及更新后的词向量;
步骤21为混合文档生成阶段的结束。
综上所述,本发明提出的是一种基于混合特征的文本中语义连贯性主题与词向量并发提取方法,能够在提取出语义连贯的主题词分布的同时,为不同文档中的词生成不同的主题相关的词向量,有效解决同一词在不同主题下的歧义问题。此模型还能将LDA中低维的稀疏主题向量推广到分布式连续密集的主题向量,从而可以更方便地衡量主题与主题、主题与词之间的相似度。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.基于混合特征的文本中语义连贯性主题与词向量并发提取方法,其特征在于:包括步骤:
步骤1:使用开源分词工具将语料库中的文档进行中文分词并且去除停用词;
步骤2:利用开源工具建立词表与词-文档矩阵;
步骤3:基于固定尺寸的与固定步长的滑动窗口进行文档切分,将步骤2得到的文档切分为多个局部上下文;并抽取出多元词组,每个多元词组包含多个局部上下文中共现的词;
步骤4:对步骤3中抽取出来的多元词组进行吉布斯采样,产生“多元词组-主题”分布与“主题-词”分布;并根据步骤3中多元词组与文档的对应情况生成文档主题分布;
步骤5:进行外部语料集的抓取,并进行预处理;
步骤6:利用开源工具Genism对步骤5预处理之后的语料集进行通用词向量训练;
步骤7:根据步骤4得到的“主题-词”分布,计算每个主题对应的主题嵌入向量;具体为使用步骤6中生成的通用词向量,将通用词向量按照概率值按权相加得到每个主题对应的嵌入向量;
步骤8:将步骤7中得到的主题嵌入向量与步骤6得到的通用词向量按权相加,得到某个词在某个主题下的特征嵌入向量;将文档中所有主题词嵌入按权相加得到文档向量;
步骤9:根据预设的模型超参数从伯努利分布中采样出随机判别值,并根据判别值是否为零来决定当前词的生成源;如果等于零则从狄利克雷先验的多项式分布中生成,否则从词向量隐特征模块生成;
步骤10:利用吉布斯采样得到当前词的生成主题,然后根据确定的词生成方式采样出当前词;
步骤11:重复步骤10,更新全局词统计信息以及词嵌入值直到收敛;获得最终的文档主题分布和“主题-词”分布以及更新后的通用词向量。
2.根据权利要求1所述的文本中语义连贯性主题与词向量并发提取方法,其特征在于:所述步骤1中使用开源工具Genism对英文语料集进行英文分词操作,使用开源中文分词工具Jieba对中文语料集进行中文分词,并去除停用词。
3.根据权利要求1所述的文本中语义连贯性主题与词向量并发提取方法,其特征在于:所述多元词组抽取具体过程如下:
i.预处理完成后,每个文档被表示为词序列Vi,Vi中使用词在词表中的下标表示该词;
ii.根据预设的固定长度的滑动窗口从文档中,即词序列中取出包含多个词的局部上下文词集合;然后将该词集合依照多元语言模型转化为多元词组,即(w1,w2,w3)=>{(w1,w2),(w2,w3),(w1,w3)};
iii.根据预设的滑动步长将滑动窗口移动到下一个局部上下文中,重复上述步骤ii的处理流程;
iv.迭代处理语料集中所有处理后文本,生成多元词组集合。
CN201710372958.7A 2017-05-24 2017-05-24 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 Active CN107423282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710372958.7A CN107423282B (zh) 2017-05-24 2017-05-24 基于混合特征的文本中语义连贯性主题与词向量并发提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710372958.7A CN107423282B (zh) 2017-05-24 2017-05-24 基于混合特征的文本中语义连贯性主题与词向量并发提取方法

Publications (2)

Publication Number Publication Date
CN107423282A CN107423282A (zh) 2017-12-01
CN107423282B true CN107423282B (zh) 2020-07-28

Family

ID=60428814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710372958.7A Active CN107423282B (zh) 2017-05-24 2017-05-24 基于混合特征的文本中语义连贯性主题与词向量并发提取方法

Country Status (1)

Country Link
CN (1) CN107423282B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121699B (zh) * 2017-12-21 2021-10-22 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108920644B (zh) * 2018-06-29 2021-10-08 北京百度网讯科技有限公司 对话连贯性的判断方法、装置、设备及计算机可读介质
CN108984526B (zh) * 2018-07-10 2021-05-07 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109947936B (zh) * 2018-08-21 2021-03-02 北京大学 一种基于机器学习动态检测垃圾邮件的方法
CN109543191B (zh) * 2018-11-30 2022-12-27 重庆邮电大学 一种基于词语关系能量最大化的词向量学习方法
CN109710759B (zh) * 2018-12-17 2021-06-08 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN109885839A (zh) * 2019-03-04 2019-06-14 中山大学 一种基于主题鉴别权重和采样式重构的并行化主题模型
CN111062214B (zh) * 2019-11-25 2021-11-19 中国科学院计算技术研究所 基于深度学习的集成实体链接方法及系统
CN111507098B (zh) * 2020-04-17 2023-03-21 腾讯科技(深圳)有限公司 多义词识别方法、装置、电子设备及计算机可读存储介质
CN111709224B (zh) * 2020-06-22 2023-04-07 桂林电子科技大学 一种英语短文句子层次主题连贯分析方法
CN112395400B (zh) * 2020-11-17 2022-12-13 贝壳技术有限公司 对话状态获取方法、系统、可读存储介质及电子设备
CN114547290B (zh) * 2020-11-27 2023-07-18 四川大学 一种基于条件共现度的攻击技巧提取方法
CN112632966B (zh) * 2020-12-30 2023-07-21 绿盟科技集团股份有限公司 一种告警信息标记方法、装置、介质和设备
CN113254604B (zh) * 2021-07-15 2021-10-01 山东大学 一种基于参考规范的专业文本生成方法及装置
CN114139524B (zh) * 2021-11-29 2022-09-13 浙江大学 故事文本的预测方法、装置以及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701210A (zh) * 2016-01-13 2016-06-22 福建师范大学 一种基于混杂特征计算的微博主题情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701210A (zh) * 2016-01-13 2016-06-22 福建师范大学 一种基于混杂特征计算的微博主题情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合文本内部特征与外部信息的主题模型研究;刘良选;《中国优秀硕士学位论文全文数据库信息科技辑》;20170315(第3期);第I138-6039页 *

Also Published As

Publication number Publication date
CN107423282A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN107291699B (zh) 一种句子语义相似度计算方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110532328B (zh) 一种文本概念图构造方法
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
Mahata et al. Theme-weighted ranking of keywords from text documents using phrase embeddings
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及系统
CN108038106B (zh) 一种基于上下文语义的细粒度领域术语自学习方法
Yang et al. Ordering-sensitive and semantic-aware topic modeling
CN113051932B (zh) 语义和知识扩展主题模型的网络媒体事件的类别检测方法
CN107315734A (zh) 一种基于时间窗口和语义的变体词规范化的方法和系统
CN113196277A (zh) 用于检索自然语言文档的系统
AU2018226420B2 (en) Voice assisted intelligent searching in mobile documents
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
CN111859950A (zh) 一种自动化生成讲稿的方法
Bekkali et al. Arabic sentiment analysis based on topic modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant