CN108920449A - 一种基于大规模主题建模的文档模型扩展方法 - Google Patents
一种基于大规模主题建模的文档模型扩展方法 Download PDFInfo
- Publication number
- CN108920449A CN108920449A CN201810503970.1A CN201810503970A CN108920449A CN 108920449 A CN108920449 A CN 108920449A CN 201810503970 A CN201810503970 A CN 201810503970A CN 108920449 A CN108920449 A CN 108920449A
- Authority
- CN
- China
- Prior art keywords
- document
- topic
- distribution
- information
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001035 drying Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息检索模型领域,提供一种基于大规模主题建模的文档模型扩展方法,包括以下步骤:利用基于LightLDA的分布式主题建模技术,构建主题数目为十万或百万级别的大规模主题建模,捕获微博文本中丰富的语义信息,特别是长尾语义信息;利用主题模型的信息对文档模型进行语义平滑,构建语义增强的文档语言模型,一定程度上解决微博数据稀疏问题。本发明文档模型扩展方法能够有效解决文档的数据稀疏性问题。
Description
技术领域
本发明涉及信息检索模型领域,尤其是一种基于大规模主题建模的文档模型扩展方法。
背景技术
随着智能手机的全面普及和移动互联网的快速发展,微博已经成为互联网上一种重要的信息发布和分享平台。和传统的新闻等自然语言文本相比,一方面,微博文档非常简短,在微博检索过程中文档的数据稀疏性问题较为严重;另一方面,在简短的微博文档中,大部分词语只出现一次,传统的信息检索模型将难以有效区分相关和不相关文档。数据稀疏问题造成了现有推荐技术中精度不高,效率低下。如何根据微博的特点,设计高效的面向微博的信息检索模型成为学术界和产业界一个具有挑战性的研究课题。
近几年里,已有部分研究者提出了不同的方法来改进短文本的主题模型构建。基于主题模型的文档扩展方法能够在一点程度上解决文档的数据稀疏性问题,实验表明在传统新闻文档集上能够提高信息检索的效果。然而,在已有的基于主题模型的信息检索方法中,主题的数量通常限制在较小的范围。这类主题建模方法将难以捕获互联网文本中极其丰富的语义信息,特别是难以捕获语义信息的长尾部分。
发明内容
本发明的目的就是为了克服上述现有技术的不足,提供一种基于大规模主题建模的文档模型扩展方法,利用大规模主题建模技术挖掘文本中丰富的语义信息并增强文档的表征,解决文档的数据稀疏性问题。
本发明的目的是通过如下技术措施来实现的。
一种基于大规模主题建模的文档模型扩展方法,该方法包括以下步骤:
(1)语料预处理及索引建立
对数据集中的语料进行预处理,包括无用网页标签、无意义符号、网址和邮箱地址的过滤以及对停用词进行去除、对英语单词进行词干化,使用Lucene对预处理后的数据集建立索引,为后期检索模型提供所需要的词项和文档;
(2)主题信息训练
使用微软开源的LightLDA工具对语料文档进行训练获取主题信息,LightLDA训练完毕,获取主题—词项信息文档—主题信息其中为主题z的词语分布,为文档d的主题分布;
(3)构建语义增强的文档模型
(3-1)结合文档的主题分布信息通过以下公式构建文档语言模型
P(w|θd)=γPLM(w|d)+(1-γ)PLDA(w|d)
其中,d表示文档,θd表示文档d对应的文档语言模型,γ为两个部分的权重系数,γ取0.1或0.2;
(3-2)利用传统的Jelinek-Mercer或Dirichlet背景平滑方法计算PLM(w|d),计算方法如下:
其中,λ和μ为控制两个背景平滑部分权重的系数,λ取0.1,u取1500,C表示整个文本集合,n(w,d)和n(w,C)分别为文档d和文档集C中词语w的频次,|d|和|C|分别为文档d和文档集C中所有词语的总数;
(3-3)利用步骤(2)中得到的文档-主题信息和主题—词项信息计算PLDA(w|d),方法如下
其中,为主题z的词语分布,φd为文档d的主题分布,表示z主题分布下w词出现的概率、P(z|φd,d)表示在文档d中z主题出现的概率。
本发明方法与现有技术相比具有以下优点:第一,利用基于LightLDA的分布式主题建模技术,构建主题数目为十万或百万级别的大规模主题建模,捕获微博文本中丰富的语义信息,特别是长尾语义信息;第二,利用主题模型的信息对文档模型进行语义平滑,构建语义增强的文档语言模型,有效解决微博数据稀疏问题。
附图说明
图1为LightLDA的模型结构示意图。
具体实施方式
本实施例提供一种基于大规模主题建模的文档模型扩展方法,具体实施过程主要分为以下几部分,下面分别具体介绍。
第一部分,语料预处理及索引建立
对数据集中的语料进行预处理,包括无用网页标签、无意义符号、网址和邮箱地址等噪音的过滤以及对停用词进行去除、对英语单词进行词干化,使用Lucene对预处理后的数据集建立索引。为后期检索模型提供所需要的词项和文档。
第二部分,主题信息训练
使用微软开源的LightLDA工具对语料文档进行训练获取主题信息,流程如下
S1,从参数为α的Dirichlet分布中抽样生成文档di的主题多项式分布θi。
S2,从主题的多项式分布θi中抽样生成文档di中第j个词对应的主题zi,j。
S3,从参数为β的Dirichlet分布中抽样生成主题zi,j对应的词分布S4,从词的多项式分布中采样最终生成词项wi,j。
S5,重复上述步骤(2-2)、(2-3)、(2-4)生成文档di中所有的词项。如图1所示,为LightLDA的模型结构示意图。
其中,α、β是超参数,θ是主题的多项式分布,z代表某一个主题,φ是词的多项式分布,K代表主题数目,w表示采样生成的词,Nd表示某文档中含有的词项总个数,N表示语料集中文档的总个数;
α和β采用常用设置,β=0.01。
LightLDA训练完毕之后获取主题—词项信息——z主题分布下w词出现的概率、文档—主题信息P(z|φd,d)——文档d中z主题出现的概率,其中为主题z的词语分布,φd为文档d的主题分布。
第三部分,构建语义增强的文档模型
S1,结合文档的主题分布信息通过以下公式构建文档语言模型
P(w|θd)=γPLM(w|d)+(1-γ)PLDA(w|d)
其中,d表示文档,θd表示文档d对应的文档语言模型,γ为两个部分的权重系数,γ取经验值0.1或0.2。
S2,利用传统的Jelinek-Mercer或Dirichlet背景平滑方法计算PLM(w|d),计算方法如下:
其中,λ和μ为控制两个背景平滑部分权重的系数,λ取0.1,u取1500,C表示整个文本集合,n(w,d)和n(w,C)分别为文档d和文档集C中词语w的频次,|d|和|C|分别为文档d和文档集C中所有词语的总数。
S3,利用大规模主题建模方法得到的文档-主题分布和主题-词项分布计算PLDA(w|d),方法如下
其中,为主题z的词语分布,φd为文档d的主题分布,表示z主题分布下w词出现的概率、P(z|φd,d)表示在文档d中z主题出现的概率。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
本发明的上述实例仅仅为清楚说明本发明所作的举例,而非本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的技术方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (2)
1.一种基于大规模主题建模的文档模型扩展方法,其特征在于该方法包括以下步骤:
(1)语料预处理及索引建立
对数据集中的语料进行预处理,包括无用网页标签、无意义符号、网址和邮箱地址的过滤以及对停用词进行去除、对英语单词进行词干化,使用Lucene对预处理后的数据集建立索引,为后期检索模型提供所需要的词项和文档;
(2)主题信息训练
使用微软开源的LightLDA工具对语料文档进行训练获取主题信息,LightLDA训练完毕,获取主题—词项信息文档—主题信息P(z|φd,d),其中为主题z的词语分布,φd为文档d的主题分布;
(3)构建语义增强的文档模型
(3-1)结合文档的主题分布信息通过以下公式构建文档语言模型
P(w|θd)=γPLM(w|d)+(1-γ)PLDA(w|d)
其中,d表示文档,θd表示文档d对应的文档语言模型,γ为两个部分的权重系数,γ取0.1或0.2;
(3-2)利用传统的Jelinek-Mercer或Dirichlet背景平滑方法计算PLM(w|d),计算方法如下:
其中,λ和μ为控制两个背景平滑部分权重的系数,λ取0.1,u取1500,C表示整个文本集合,n(w,d)和n(w,C)分别为文档d和文档集C中词语w的频次,|d|和|C|分别为文档d和文档集C中所有词语的总数;
(3-3)利用步骤(2)中得到的文档-主题信息和主题—词项信息计算PLDA(w|d),方法如下
其中,为主题z的词语分布,φd为文档d的主题分布,表示z主题分布下w词出现的概率、P(z|φd,d)表示在文档d中z主题出现的概率。
2.根据权利要求1所述的基于大规模主题建模的文档模型扩展方法,其特征在于使用微软开源的LightLDA工具对语料文档进行训练获取主题信息流程如下:
(2-1)从参数为α的Dirichlet分布中抽样生成文档di的主题多项式分布θi;
(2-2)从主题的多项式分布θi中抽样生成文档di中第j个词对应的主题zi,j;
(2-3)从参数为β的Dirichlet分布中抽样生成主题zi,j对应的词分布
(2-4)从词的多项式分布中采样最终生成词项wi,j;
(2-5)重复上述步骤(2-2)、(2-3)、(2-4)生成文档di中所有的词项;
其中,α、β是超参数,θ是主题的多项式分布,z代表某一个主题,φ是词的多项式分布,w表示采样生成的词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810503970.1A CN108920449A (zh) | 2018-05-23 | 2018-05-23 | 一种基于大规模主题建模的文档模型扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810503970.1A CN108920449A (zh) | 2018-05-23 | 2018-05-23 | 一种基于大规模主题建模的文档模型扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108920449A true CN108920449A (zh) | 2018-11-30 |
Family
ID=64404035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810503970.1A Pending CN108920449A (zh) | 2018-05-23 | 2018-05-23 | 一种基于大规模主题建模的文档模型扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920449A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113938745A (zh) * | 2020-07-14 | 2022-01-14 | Tcl科技集团股份有限公司 | 一种视频生成方法、终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132401A1 (en) * | 2011-11-17 | 2013-05-23 | Yahoo! Inc. | Related news articles |
CN107958068A (zh) * | 2017-12-05 | 2018-04-24 | 华中科技大学 | 一种基于实体知识库的语言模型平滑方法 |
-
2018
- 2018-05-23 CN CN201810503970.1A patent/CN108920449A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132401A1 (en) * | 2011-11-17 | 2013-05-23 | Yahoo! Inc. | Related news articles |
CN107958068A (zh) * | 2017-12-05 | 2018-04-24 | 华中科技大学 | 一种基于实体知识库的语言模型平滑方法 |
Non-Patent Citations (2)
Title |
---|
MILES EFRON ET AL.: "Improving Retrieval of Short Texts Through Document Expansion", 《PROCEEDING S OF THE 35TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIVAL》 * |
XING WEI ET AL.: "LDA-Based Document Models for Ad-hoc Retrieval", 《PROCEEDINGS OF THE 29TH ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE OF RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113938745A (zh) * | 2020-07-14 | 2022-01-14 | Tcl科技集团股份有限公司 | 一种视频生成方法、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN111061862B (zh) | 一种基于注意力机制生成摘要的方法 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
Yang et al. | Sentiment analysis of Weibo comment texts based on extended vocabulary and convolutional neural network | |
WO2024036840A1 (zh) | 基于主题增强的开放域对话回复方法及系统 | |
CN107273474A (zh) | 基于潜在语义分析的自动摘要抽取方法及系统 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
Xuanyuan et al. | Sentiment classification algorithm based on multi-modal social media text information | |
CN110674298A (zh) | 一种深度学习的混合主题模型构建方法 | |
Zhou | Research on sentiment analysis model of short text based on deep learning | |
Devika et al. | A semantic graph-based keyword extraction model using ranking method on big social data | |
CN112287240A (zh) | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
Liu et al. | Research on sarcasm detection of news headlines based on Bert-LSTM | |
Chen et al. | Text Classification on Social Network Platforms Based on Deep Learning Models | |
CN107622047B (zh) | 一种设计决策知识的提取和表达方法 | |
CN104217026B (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
Wohlgenannt | Leveraging and balancing heterogeneous sources of evidence in ontology learning | |
Zhong et al. | BERT-KG: a short text classification model based on knowledge graph and deep semantics | |
Li et al. | Review of research on named entity recognition | |
CN108920449A (zh) | 一种基于大规模主题建模的文档模型扩展方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181130 |
|
RJ01 | Rejection of invention patent application after publication |