CN106815211A - 一种基于循环聚焦机制进行文档主题建模的方法 - Google Patents

一种基于循环聚焦机制进行文档主题建模的方法 Download PDF

Info

Publication number
CN106815211A
CN106815211A CN201611194573.8A CN201611194573A CN106815211A CN 106815211 A CN106815211 A CN 106815211A CN 201611194573 A CN201611194573 A CN 201611194573A CN 106815211 A CN106815211 A CN 106815211A
Authority
CN
China
Prior art keywords
document
sentence
theme
distribution
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611194573.8A
Other languages
English (en)
Other versions
CN106815211B (zh
Inventor
李双印
潘嵘
杨洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ipin Information Technology Co Ltd
Original Assignee
Shenzhen Ipin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ipin Information Technology Co Ltd filed Critical Shenzhen Ipin Information Technology Co Ltd
Priority to CN201611194573.8A priority Critical patent/CN106815211B/zh
Publication of CN106815211A publication Critical patent/CN106815211A/zh
Application granted granted Critical
Publication of CN106815211B publication Critical patent/CN106815211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于循环聚焦机制进行文档主题建模的方法,通过提供一种能够同时利用文档中单词信息,以及句子之间的序列信息,对文档进行有效建模;并利用聚焦机制对句子语义连贯性进行权重学习,可充分利用句子间主题的加权依赖性,从而学习到更加有效的文本向量。

Description

一种基于循环聚焦机制进行文档主题建模的方法
技术背景
本发明涉及文本建模领域,更具体的,涉及一种基于循环聚焦机制进行文档主题建模的方法。
背景技术
使用贝叶斯方法进行无结构文本建模的主要技术是主题模型。传统主题模型的方法体系是建立在词袋模型的假设下,将文本定义为隐含主题空间上的向量分布,而隐含主题又定义为词典上的向量分布。当使用主题模型时,可以将文档映射到隐含主题空间,使用主题分布作为文档向量,从而进行文本检索、聚类、分类等数据挖掘任务。主题模型通常假设文本中的单词是无序的,即词袋模型假设,这一假设能够帮助大规模的文本进行快速有效的建模。然而,文本是基于词语,句子,甚至段落的序列数据,这些序列特征构成了文本本身复杂的语义和机构信息。有些方法利用了词语的有序性对文本进行建模,例如基于n-gram的贝叶斯技术,以及基于循环神经网络的文本建模技术。
然而上述现有技术存在以下缺点:尽管主题模型被广泛应用于文本建模,但是句子之间的连贯一致性,即句子层面的序列信息,却被忽略。句子间的连贯性,是文本数据中天然存在的结构化信息,能够很好地反映文本中的语义信息。这种现象可以理解为句子之间的语义连贯性,体现在当前某个句子的主题是依赖于它前面的某几个句子。而且,这种主题层面的依赖并不是等同的,是存在一定的权重大小的:即当前句子的主题分布,是加权依赖它前面的若干句子。这就必须提出一套能够同时考虑句子之间这种语义连贯性和其加权依赖性的方法,以确保能够充分利用句子之间丰富的序列信息,从而更加有效计算文本语义向量。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明的目的在于,提供一种基于循环聚焦机制进行文档主题建模的方法,通过提供一种能够同时利用文档中单词信息,以及句子之间的序列信息,对文档进行有效建模;并利用聚焦机制对句子语义连贯性进行权重学习,可充分利用句子间主题的加权依赖性,从而学习到更加有效的文本向量。
为实现上述目的,本发明提供了一种基于循环聚焦机制进行文档主题建模的方法,包括:
步骤一,对于文档di,设置C值,所述C表示当前句子受多少之前句子的影响值;
步骤二,设定文档di的主题分布为θd,文档di在主题空间上的每一维含量为ρk,令θd为RABP(G0,π)中的基础分布G0
步骤三,遍历文档di中的每一个句子
步骤四,遍历文档中的每一个句子与句子中的单词,计算文档di在主题空间上的每一维含量为ρk
步骤五,归一化ρ,从而得到文档di的主题分布θd
更具体的,在步骤一之前还包括:
(1)针对每一个主题k,采样βk~Dir(π),βk为主题k在词典上的分布;
(2)对于每一个文档di,首先采样得到该文档的主题分布θ~Dir(α),其中α为超参数,θ作为基础分布GC
(3)针对文档di中的每一个句子使用RABP(G0,π)采样得到当前句子的主题分布
(4)针对句子中的每一个单词w,使用采样得到当前句子中的每一个单词;
D={d1,...,dM}表示为一个具有M篇文档的文档集合,其中di表示第i篇文档;对于每一篇文档di其中表示文档中的一个句子,r表示句子的个数。对于每一个句子 其中表示一个单词,n为句子中单词的个数。
更具体的,所述步骤三具体为:
求出所对应的聚焦向量∈j中G0所对应的权重分量求出句子中每一个单词wn所赋予的主题标号。
更具体的,所述求出句子中每一个单词wn所赋予的主题标具体为:通过以下公式,求出句子中每一个单词wn所赋予的主题标号:
更具体的,所述步骤四具体为:通过下面的公式计算文档di在主题空间上的每一维含量为ρk
更具体的,所述RABP(G0,π)过程为:
从时刻t=1开始,从G0中采样出样本θ1
对于当前时刻t>1,首先从Dir(π)中采样出样本∈,这里Dir(π)表示狄雷克雷分布,样本∈=(∈1,∈2,...,∈C)T
对于∈i,i∈(1,...,C-1),我们获得t-C+1时刻到t-1时刻的前序分布,令当前时刻的分布为
对于∈C,令当前时刻的分布为θt=∈C·G0
其中,C为过去时间点的时间窗口,即过去时间点的个数,设定多少过去的时间点会影响当前时间点;∈为当前时间点的聚焦向量,用来表示过去时间点的权重信息;在此步骤后,当前时刻t的分布可以表示为:
此循环聚焦贝叶斯过程为RABP(G0,π),其中G0是一个基础分布,π是聚焦超参数。
通过本发明提供的一种基于循环聚焦机制进行文档主题建模的方法,通过提供一种能够同时利用文档中单词信息,以及句子之间的序列信息,对文档进行有效建模;并利用聚焦机制对句子语义连贯性进行权重学习,可充分利用句子间主题的加权依赖性,从而学习到更加有效的文本向量。与现有技术相比,本发明提出的技术方案中,建立了句子间主题分布的连贯性关系,通过句子层面的主题建模,从而弥补传统主题模型无法利用句子序列信息的弱点,从而获得更有效的文档向量模型。
附图说明
图1示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的流程图;
图2示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的计算流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的流程图。
首先,循环聚焦贝叶斯过程是不同于传统贝叶斯过程的数学模型,例如循环狄雷克雷过程和狄雷克雷-霍克斯过程。循环聚焦贝叶斯过程是用来分析时序信息的一种数学模型,它利用动态聚焦机制,充分考虑过去的时间点对当前时间点的影响,从而获得当前时间点的时序积累信息。这个过程我们定义为RABP(G0,π),其中G0是一个基础分布,π是聚焦超参数。本过程的步骤如下:
(1)从时刻t=1开始,从G0中采样出样本θ1
(2)对于当前时刻t>1,首先从Dir(π)中采样出样本∈,这里Dir(π)表示狄雷克雷分布,样本∈=(∈1,∈2,...,∈CT
(3)对于∈i,i∈(1,...,C-1),我们获得t-C+1时刻到t-1时刻的前序分布,令当前时刻的分布为
(4)对于∈C,令当前时刻的分布为θt=∈C·G0
上述步骤中,C为过去时间点的时间窗口,即过去时间点的个数,设定多少过去的时间点会影响当前时间点。∈为当前时间点的聚焦向量,用来表示过去时间点的权重信息。
在此步骤后,当前时刻t的分布可以表示为
此循环聚焦贝叶斯过程我们称之为RABP(G0,π),它主要考虑以往时间点对当前时间点的影响,这个过程可以用于对文档句子的建模。
在本发明的技术方案中,我们定义如下的数学描述方式:D={d1,...,dM}表示为一个具有M篇文档的文档集合,其中di表示第i篇文档。对于每一篇文档di其中表示文档中的一个句子,r表示句子的个数。对于每一个句子 其中表示一个单词,n为句子中单词的个数。
在文档中,一个句子的主题分布往往与它之前的句子关系十分相近,这在语言学里面被称之为语义一致性或连贯性。我们把文档d看成许多句子的序列,本发明旨在捕捉前面一些句子对当前句子主题分布的影响。当然,当前句子(我们记为)的主题分布也受整篇文档d的影响。我们令θ表示句子的主题分布,G0表示一个K维的狄雷克雷分布,K为隐含主题的个数。
如图1所示,本发明提供了一种基于循环聚焦机制进行文档主题建模的方法,包括:
步骤一,对于文档di,设置C值,所述C表示当前句子受多少之前句子的影响值;
步骤二,设定文档di的主题分布为θd,文档di在主题空间上的每一维含量为ρk,令θd为RABP(G0,π)中的基础分布G0
步骤三,遍历文档di中的每一个句子
步骤四,遍历文档中的每一个句子与句子中的单词,计算文档di在主题空间上的每一维含量为ρk
步骤五,归一化ρ,从而得到文档di的主题分布θd
更具体的,在步骤一之前,每一篇文档的生产步骤如下:
(1)针对每一个主题k,采样βk~Dir(π),βk为主题k在词典上的分布;
(2)对于每一个文档di,首先采样得到该文档的主题分布θ~Dir(α),其中α为超参数,θ作为基础分布GC
(3)针对文档di中的每一个句子使用RABP(G0,π)采样得到当前句子的主题分布
(4)针对句子中的每一个单词w,使用采样得到当前句子中的每一个单词。
在这个生成过程中,聚焦向量隐含在RABP(G0,π)中,表示每一个句子的主题分布都受到之前若干句子的加权影响。
图2示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的计算流程图。其具体呈现了通过某些参数得到具体的参数定义。
针对图1所示的一种基于循环聚焦机制进行文档主题建模的方法的流程图,更具体的,本发明中的模型求解过程,可以通过最大后验估计,使用变分推理进行参数求解。求解出参数α,β,π后,针对某一文档di,文档的主题分布可以通过以下过程获得:
步骤一,对于文档di,设置C值,即当前句子受多少之前句子的影响。
步骤二,设定文档di的主题分布为θd,文档di在主题空间上的每一维含量为ρk。令θd为RABP(G0,π)中的基础分布G0
步骤三,遍历文档di中的每一个句子那么
(1)求出所对应的聚焦向量∈j中G0所对应的权重分量
(2)通过以下公式,求出句子中每一个单词wn所赋予的主题标号:
步骤四,遍历文档中的每一个句子与句子中的单词,通过下面的公式计算文档di在主题空间上的每一维含量为ρk
步骤五,归一化ρ,从而得到文档di的主题分布θd
本发明通过利用文档中句子序列的主题连贯性,对文档进行整体建模,使得在求解文档主题分布的时候,充分考虑文档中句子之间的主题一致性和连贯性,从而获得更加准确的文档主题分布。
句子间的主题是连贯的,并且同时通过加权平均的方式影响后续句子的主题分布。因此,本发明的另一关键点是,通过对句子间的聚焦向量的学习,让模型能够获得文档句子中的主题加权特性,从而提升文档主题的学习效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,包括:
步骤一,对于文档di,设置C值,所述C表示当前句子受多少之前句子的影响值;
步骤二,设定文档di的主题分布为θd,文档di在主题空间上的每一维含量为ρk,令θd为RABP(G0,π)中的基础分布G0
步骤三,遍历文档di中的每一个句子
步骤四,遍历文档中的每一个句子与句子中的单词,计算文档di在主题空间上的每一维含量为ρk
步骤五,归一化ρ,从而得到文档di的主题分布θd
2.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,在步骤一之前还包括:
(1)针对每一个主题k,采样βk~Dir(π),βk为主题k在词典上的分布;
(2)对于每一个文档di,首先采样得到该文档的主题分布θ~Dir(α),其中α为超参数,θ作为基础分布GC
(3)针对文档di中的每一个句子使用RSBP(G0,π)采样得到当前句子的主题分布
(4)针对句子中的每一个单词w,使用采样得到当前句子中的每一个单词;
D={d1,...,dM}表示为一个具有M篇文档的文档集合,其中di表示第i篇文档;对于每一篇文档di其中表示文档中的一个句子,r表示句子的个数。对于每一个句子 其中表示一个单词,n为句子中单词的个数。
3.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,所述步骤三具体为:
求出所对应的聚焦向量∈j中G0所对应的权重分量
求出句子中每一个单词wn所赋予的主题标号。
4.根据权利要求3所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,所述求出句子中每一个单词wn所赋予的主题标具体为:通过以下公式,求出句子中每一个单词wn所赋予的主题标号:
γ n = β · exp ( Σ l = 1 C - 1 l o g ( θ l j - C + 1 : j - 1 ) · ∈ l j ) .
5.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,所述步骤四具体为:通过下面的公式计算文档di在主题空间上的每一维含量为ρk
ρ k = α + Σ j = 1 S Σ n = 1 N γ n · ∈ j C .
6.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,所述RABP(G0,π)过程为:
从时刻t=1开始,从G0中采样出样本θ1
对于当前时刻t>1,首先从Dir(π)中采样出样本∈,这里Dir(π)表示狄雷克雷分布,样本∈=(∈1,∈2,...,∈C)T
对于∈i,i∈(1,...,C-1),我们获得t-C+1时刻到t-1时刻的前序分布,令当前时刻的分布为
对于∈C,令当前时刻的分布为θt=∈C·G0
其中,C为过去时间点的时间窗口,即过去时间点的个数,设定多少过去的时间点会影响当前时间点;∈为当前时间点的聚焦向量,用来表示过去时间点的权重信息;在此步骤后,当前时刻t的分布可以表示为:
此循环聚焦贝叶斯过程为RABP(G0,π),其中G0是一个基础分布,π是聚焦超参数。
CN201611194573.8A 2016-12-22 2016-12-22 一种基于循环聚焦机制进行文档主题建模的方法 Active CN106815211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611194573.8A CN106815211B (zh) 2016-12-22 2016-12-22 一种基于循环聚焦机制进行文档主题建模的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611194573.8A CN106815211B (zh) 2016-12-22 2016-12-22 一种基于循环聚焦机制进行文档主题建模的方法

Publications (2)

Publication Number Publication Date
CN106815211A true CN106815211A (zh) 2017-06-09
CN106815211B CN106815211B (zh) 2020-08-07

Family

ID=59109379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611194573.8A Active CN106815211B (zh) 2016-12-22 2016-12-22 一种基于循环聚焦机制进行文档主题建模的方法

Country Status (1)

Country Link
CN (1) CN106815211B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644085A (zh) * 2017-09-22 2018-01-30 百度在线网络技术(北京)有限公司 体育赛事新闻的生成方法和装置
CN108153737A (zh) * 2017-12-30 2018-06-12 北京中关村科金技术有限公司 一种语义分类的方法、系统及对话处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEI TIAN 等: "Sentence Level Recurrent Topic Model: Letting Topics Speak for Themselves", 《HTTPS://ARXIV.ORG/ABS/1604.02038》 *
王振振 等: "基于LDA主题模型的文本相似度计算", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644085A (zh) * 2017-09-22 2018-01-30 百度在线网络技术(北京)有限公司 体育赛事新闻的生成方法和装置
CN107644085B (zh) * 2017-09-22 2020-12-11 百度在线网络技术(北京)有限公司 体育赛事新闻的生成方法和装置
CN108153737A (zh) * 2017-12-30 2018-06-12 北京中关村科金技术有限公司 一种语义分类的方法、系统及对话处理系统

Also Published As

Publication number Publication date
CN106815211B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN106547735B (zh) 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CA3039280C (en) Method for recognizing network text named entity based on neural network probability disambiguation
Alwehaibi et al. Comparison of pre-trained word vectors for arabic text classification using deep learning approach
CN106202044A (zh) 一种基于深度神经网络的实体关系抽取方法
CN110110323B (zh) 一种文本情感分类方法和装置、计算机可读存储介质
CN106650789A (zh) 一种基于深度lstm网络的图像描述生成方法
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN110019843A (zh) 知识图谱的处理方法及装置
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN103984681A (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN113743099B (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN110647919A (zh) 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
EP4116859A3 (en) Document processing method and apparatus and medium
CN111191461B (zh) 一种基于课程学习的远程监督关系抽取方法
Alon et al. Deep-hand: a deep inference vision approach of recognizing a hand sign language using american alphabet
CN106815211A (zh) 一种基于循环聚焦机制进行文档主题建模的方法
Shelke et al. A novel approach for named entity recognition on Hindi language using residual bilstm network
Song An Evaluation Method of English Teaching Ability Based on Deep Learning
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115204300A (zh) 文本和表格语义交互的数据处理方法、装置及存储介质
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
CN112487792A (zh) 一种基于自然语言理解的藏语情感句自动分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant