CN104123336A - 深度玻尔兹曼机模型及短文本主题分类系统和方法 - Google Patents

深度玻尔兹曼机模型及短文本主题分类系统和方法 Download PDF

Info

Publication number
CN104123336A
CN104123336A CN201410215042.7A CN201410215042A CN104123336A CN 104123336 A CN104123336 A CN 104123336A CN 201410215042 A CN201410215042 A CN 201410215042A CN 104123336 A CN104123336 A CN 104123336A
Authority
CN
China
Prior art keywords
short text
training
module
model
boltzmann machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410215042.7A
Other languages
English (en)
Other versions
CN104123336B (zh
Inventor
李超
李昂
赵彩贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Beihang Tianhui Business Incubator Co., Ltd.
Original Assignee
SHENZHEN BEIHANG NEW INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN BEIHANG NEW INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE filed Critical SHENZHEN BEIHANG NEW INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE
Priority to CN201410215042.7A priority Critical patent/CN104123336B/zh
Publication of CN104123336A publication Critical patent/CN104123336A/zh
Application granted granted Critical
Publication of CN104123336B publication Critical patent/CN104123336B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种深度玻尔兹曼机模型及短文本主题分类系统及方法,该模型由一层可见层和两层隐藏层组成,可见层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立;该系统包含短文本预处理模块;短文本的特征表示模块;模型训练模块;获得的文本的向量模型进行主题建模,构建主题分类器,该模块包含预训练和正式训练两个子模块;短文本分类模块;该系统及方法充分利用短文本的潜在语义信息,弥补传统短文本分类方法的不足,降低了对词语相似度的依赖,使该系统应用具有准确度高、易于实现、易于扩展以及无需人工参与的优点。

Description

深度玻尔兹曼机模型及短文本主题分类系统和方法
技术领域
本发明涉及一种深度玻尔兹曼机模型及短文本主题分类系统和方法,属于自然语言处理领域。
背景技术
近年来,在线社交网络平台(SNS)日益成为个人和组织结构的最重要的交流平台之一。在这些平台中,用户不仅仅可以接收到最新的新闻和信息,还可以自由的发表自己的观点和看法,每个用户都成为了所谓的“自媒体”。因此,在线社交网络平台上产生了海量的异构的信息,而这些信息有其独有的特征,最显著的特征是长度短,因此我们称之为短文本。还有其他显著特点,比如内容丰富、表达方式不规范、主题比较突出、实时性强等。
短文本的分类技术是其他与短文本有关的研究的基础,比如事件探测、个性化推荐等。传统的文本分类技术,是以对比文档相似度为基础,仅仅依赖词语表面上的相同,这类方法的明显不足之处在于对同义词或近义词的识别上精确度不够。应用于短文本分类中,受到短文本数据特征稀疏性的影响,效果非常不好
发明内容
本发明的技术解决问题:克服现有技术方案的不足,提供一种基于深度玻尔兹曼机模型和短文本主题分类系统及方法,该系统及方法充分利用挖掘短文本的隐藏语义信息,弥补传统短文本分类技术的不足,降低了对文档表面相似度的依赖,使该系统应用具有准确度高、易于扩展以及实用性强的优点。
本发明通过以下技术手段实现:
一种深度玻尔兹曼机模型,由一层可见层和两层隐藏层组成,可见层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立。
一种基于深度玻尔兹曼机的短文本的主题分类系统,包括:
短文本预处理模块,所述的短文本预处理模块用于采用基于正则表达式的方法将短文本中包含的非文本数据和冗余信息删除;
短文本的特征表示模块,所述的短文本的特征表示模块将短文本数据转换成向量形式;
模型训练模块,所述的模型训练模块采用含有双隐藏层的深度玻尔兹曼机模型对训练集的短文本数据进行建模,构建主题分类器,所述的模型训练模块包含预训练子模块和正式训练子模块;
短文本分类模块,所述的短文本分类模块根据模型训练模块训练所得的分类器,对测试数据集的数据进行分类。
进一步的,所述的短文本的特征表示模块包含以下步骤:
S1,确定一个词典;
S2,对短文本进行分词处理;
S3,将分词后的短文本转换成向量形式,该向量的维数与字典长度相同,元素值为与之对应单词在短文本中出现的次数。
一种深度玻尔兹曼机模型对短文本进行主题挖掘的方法,包含以下步骤:
S1,对短文本进行建模,第一层表示可见的短文本数据,第一隐藏层表示短文本隐藏的主题;
S2,第二隐藏层对第一隐藏层进行优先级控制;
S3,模型训练,所述的模型训练包含预训练与正式训练;所述的模型训练为将训练集中的每个短文本数据看作是模型中的可见层,对文本数据进行训练,学习出相应的模型参数,构建一个主题分类器。
进一步的所述的预训练包含以下步骤:
S301,初始化第二隐藏层;
S302,重构第一隐藏层;
S303,重构可见层;
S304,重构第一隐藏层;
S305,计算对比离散度;
S306,更新参数并返回到文本数据初始位置。
最后,所述的正式训练包含以下步骤:
S311,变分法重构第一隐藏层;
S312,变分法重构第二隐藏层;
S313,MCmC算法计算期望;
S314,更新参数并返回文本数据初始位置。
本发明与现有技术相比的优点在于:
(1)本发明提出了基于含有双隐藏层的深度玻尔兹曼机对短文本进行主题建模的方法。传统的主题模型属于有向概率图模型,其参数推理的算法非常耗时且不精确。此外,传统的主题模型以词语相似度为基础,直接使用传统主题模型对短文本进行主题建模时,会因为短文本的数据稀疏性而导致效果不好。而含有双隐藏层的深度玻尔兹曼机是一种生成式无向概率图模型,采用变分法和马尔科夫链—蒙特卡洛算法进行参数学习,相比于传统的主题模型,其参数推理的效率和准确度更高。而且,含有双隐藏层的深度玻尔兹曼机是直接从短文本自身挖掘潜在主题,不依赖于词语相似度对比,因此能够更好的表达出短文本的潜在语义结构,从而达到更好的主题分类精确度;
(2)本发明摆脱了对人工标注的依赖。传统的主题模型方法属于监督式学习,需要预先给定带有正确标注的训练集,而本发明提出的方法是一种无监督式的特征学习方法,只需要给定词典和语料库,就能够自主的学习出短文本的潜在主题信息。
附图说明
图1是本发明系统的体系结构图;
图2是本发明的模型预训练的具体过程;
图3是本发明的模型正式训练的具体过程。
具体实施方式
下面结合附图对本发明的实施方式进行详细说明,具体步骤如下:
如图1所示,该系统包括如下模块:
短文本预处理模块。社交网络平台上产生了海量的异构短文本数据,这些短文本中包含大量的非文本数据和冗余信息,比如时间戳、用户名、URL信息等,需要将这些无用信息过滤掉,我们采用基于正则表达式的方法将这些信息从每个短文本中删除,只保留纯文本数据。
短文本的特征表示模块。由于计算机无法理解普通文本数据,因此需要将文本数据转化成计算机能够处理的形式。采用向量空间模型,将语料库中的所有短文本数据转换成向量形式。首先确定一个词典,然后对短文本进行分词处理,最后将分词后的每个短文本转换成向量形式。该向量的维数与字典长度相同,元素值为与之对应单词在短文本中出现的次数。
模型训练模块:在短文本的向量模型基础上,将每个短文本视为模型中的可见数据,模型中的第一隐藏层表示短文本的潜在主题结构。通过训练模型,挖掘出短文本的潜在主题信息,进而构建主题分类器。其中包含预训练子模块和正式训练模块:预训练是为了获得一组更加合理的参数初始值,从而缩短正式训练的所花费的时间。在预训练中,采用一步对比离散度算法学习模型参数,在正式训练中,采用平均场变分法和基于马尔科夫链—蒙特卡洛算法对参数进行估计。
短文本分类模块:根据模型训练模块训练所得的分类器,对测试数据集中的数据进行分类。
为了便于比较,我们采用一个公有的Twitter文本数据集,它是由文本检索会议(TREC)提供的Tweet2011数据集,包含了2011年1月23号到2月8号的一部分Twitter文本数据。
一、短文本预处理
在Tweet2011数据集中,包含大量的冗余信息,比如时间戳、用户名、URL信息等,将这些无用信息过滤掉,对文本进行小写化和词根化处理。具体步骤有:(1)去除用户名信息和时间戳信息,采用基于正则表达式的方法;(2)单词小写化;(3)单词词根化;(4)去除重复文本。通过文本预处理,语料库中拥有560万条短文本数据。我们随机的抽取60%的数据作为训练集,剩下的作为测试集。
二、短文本特征表示
在本发明中,采用空间向量模型表示短文本。具体来说,首先选择一个词典,该词典不仅仅包含常用英文单词,而且包含Twitter平台上所特有的语言表达用语,总共计58110个单词。对语料库中的每一个文本,将其转换成一个1×58110的向量。
三、模型训练
在本发明中,模型训练分为两个阶段,即预训练和正式训练。
在预训练过程中,如图2所示,对于每个短文本数据,我们用其初始化第二隐藏层,然后使用一步对比离散度算法,对可见层和第一隐藏层进行重构,然后采用梯度下降法进行参数的更新,从而得到参数的一组初始值。
在正式训练过程中,如图3所示,在之前预训练得到的参数基础上,采用平均场变分法重构第一隐藏层和第二隐藏层,基于马尔科夫链—蒙特卡洛算法(MCMC算法)对参数进行估计,从而构建了一个含有双隐藏层的深度玻尔兹曼机模型。
四、短文本分类
将第四步得到深度玻尔兹曼机模型对测试集中的短文本进行分类。
以上实施例仅用以说明而非限制本发明的技术方案,不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。本发明未详细描述的部分属于本领域公知技术。

Claims (6)

1.一种深度玻尔兹曼机模型,其特征在于:由一层可见层和两层隐藏层组成,可见层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立。
2.一种基于深度玻尔兹曼机的短文本的主题分类系统,其特征在于包括:
短文本预处理模块,所述的短文本预处理模块用于采用基于正则表达式的方法将短文本中包含的非文本数据和冗余信息删除;
短文本的特征表示模块,所述的短文本的特征表示模块将短文本数据转换成向量形式;
模型训练模块,所述的模型训练模块采用含有双隐藏层的深度玻尔兹曼机模型对训练集的短文本数据进行建模,构建主题分类器,所述的模型训练模块包含预训练子模块和正式训练子模块;
短文本分类模块,所述的短文本分类模块根据模型训练模块训练所得的分类器,对测试数据集的数据进行分类。
3.根据权利要求2所述的基于深度玻尔兹曼机的短文本的主题分类系统,其特征在于:所述的短文本的特征表示模块包含以下步骤:
S1,确定一个词典;
S2,对短文本进行分词处理;
S3,将分词后的短文本转换成向量形式,该向量的维数与字典长度相同,元素值为与之对应单词在短文本中出现的次数。
4.根据权利要求1的深度玻尔兹曼机模型对短文本进行主题挖掘的方法,其特征在于包含以下步骤:
S1,对短文本进行建模,第一层表示可见的短文本数据,第一隐藏层表示短文本隐藏的主题;
S2,第二隐藏层对第一隐藏层进行优先级控制;
S3,模型训练,所述的模型训练包含预训练与正式训练;所述的模型训练为将训练集中的每个短文本数据看作是模型中的可见层,对文本数据进行训练,学习出相应的模型参数,构建一个主题分类器。
5.根据权利要求4的深度玻尔兹曼机模型对短文本进行主题挖掘的方法,其特征在于:所述的S3中所述的预训练包含以下步骤:
S301,初始化第二隐藏层;
S302,重构第一隐藏层;
S303,重构可见层;
S304,重构第一隐藏层;
S305,计算对比离散度;
S306,更新参数并返回到文本数据初始位置。
6.根据权利要求4的深度玻尔兹曼机模型对短文本进行主题挖掘的方法,所述的S3中所述的正式训练包含以下步骤:
S311,变分法重构第一隐藏层;
S312,变分法重构第二隐藏层;
S313,MCmC算法计算期望;
S314,更新参数并返回文本数据初始位置。
CN201410215042.7A 2014-05-21 2014-05-21 深度玻尔兹曼机模型及短文本主题分类系统和方法 Expired - Fee Related CN104123336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410215042.7A CN104123336B (zh) 2014-05-21 2014-05-21 深度玻尔兹曼机模型及短文本主题分类系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410215042.7A CN104123336B (zh) 2014-05-21 2014-05-21 深度玻尔兹曼机模型及短文本主题分类系统和方法

Publications (2)

Publication Number Publication Date
CN104123336A true CN104123336A (zh) 2014-10-29
CN104123336B CN104123336B (zh) 2018-04-24

Family

ID=51768747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410215042.7A Expired - Fee Related CN104123336B (zh) 2014-05-21 2014-05-21 深度玻尔兹曼机模型及短文本主题分类系统和方法

Country Status (1)

Country Link
CN (1) CN104123336B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核系统工程有限公司 一种基于knn的文本分类方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106599909A (zh) * 2016-11-30 2017-04-26 清华大学 随机梯度测地线马尔可夫链蒙特卡罗方法及装置
CN106778880A (zh) * 2016-12-23 2017-05-31 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN107122494A (zh) * 2017-05-22 2017-09-01 南京大学 基于社团发现的主题模型构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高常鑫等: "基于深度学习的高分辨率遥感影像目标检测", 《高分辨率对地观测学术年会》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核系统工程有限公司 一种基于knn的文本分类方法
CN105975573B (zh) * 2016-05-04 2019-08-13 北京广利核系统工程有限公司 一种基于knn的文本分类方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106599909A (zh) * 2016-11-30 2017-04-26 清华大学 随机梯度测地线马尔可夫链蒙特卡罗方法及装置
CN106599909B (zh) * 2016-11-30 2020-12-29 清华大学 随机梯度测地线马尔可夫链蒙特卡罗方法及装置
CN106778880A (zh) * 2016-12-23 2017-05-31 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN106778880B (zh) * 2016-12-23 2020-04-07 南开大学 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN107122494A (zh) * 2017-05-22 2017-09-01 南京大学 基于社团发现的主题模型构建方法
CN107122494B (zh) * 2017-05-22 2020-06-26 南京大学 基于社团发现的主题模型构建方法

Also Published As

Publication number Publication date
CN104123336B (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN108363816A (zh) 基于句义结构模型的开放式实体关系抽取方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN106095749A (zh) 一种基于深度学习的文本关键词提取方法
CN107291795A (zh) 一种结合动态词嵌入和词性标注的文本分类方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
Maharjan et al. A multi-task approach to predict likability of books
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN103617290B (zh) 中文机器阅读系统
CN111680488B (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN101599071A (zh) 对话文本主题的自动提取方法
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
CN104123336A (zh) 深度玻尔兹曼机模型及短文本主题分类系统和方法
CN104008092A (zh) 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN110457711A (zh) 一种基于主题词的社交媒体事件主题识别方法
CN111625622B (zh) 领域本体构建方法、装置、电子设备及存储介质
CN110188359B (zh) 一种文本实体抽取方法
CN105787121A (zh) 一种基于多故事线的微博事件摘要提取方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160201

Address after: 518000, room 30, building 3001, Dayun software Town, Longgang District, Shenzhen, Guangdong

Applicant after: Shenzhen Beihang Tianhui Business Incubator Co., Ltd.

Address before: Six, Shenzhen, Nanshan District science and Technology Park, Guangdong science and technology south twelve Road, Changhong science and technology building, building 518000, 602

Applicant before: SHENZHEN BEIHANG NEW INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180424

Termination date: 20200521