CN106326495A - 一种基于话题模型的中文文本自动分类方法 - Google Patents
一种基于话题模型的中文文本自动分类方法 Download PDFInfo
- Publication number
- CN106326495A CN106326495A CN201610855211.2A CN201610855211A CN106326495A CN 106326495 A CN106326495 A CN 106326495A CN 201610855211 A CN201610855211 A CN 201610855211A CN 106326495 A CN106326495 A CN 106326495A
- Authority
- CN
- China
- Prior art keywords
- topic
- text
- word
- corpus
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本发明提供一种基于话题模型的中文文本自动分类方法,涉及自动分类技术,本发明将文本向量表示、向量降维之后,根据已经掌握的样本数据信息,通过LDA算法对已有的语料进行训练,总结出分类规律,建立判别公式和判别规则。在遇到新文本时,根据判别规则来确定文本的相关类别。实现了对海量数据库和海量主题的分析计算。
Description
技术领域
本发明涉及自动分类技术,尤其涉及一种基于话题模型的中文文本自动分类方法。
背景技术
自然语言处理是人工智能领域中的一个重要研究方向,它旨在实现人与计算机之间用自然语言进行有效通信。
文本的自动分类技术是信息处理中一个重要的研究方向,它指的是在给定分类体系和标准的前提之下,根据文本内容自动判别文本类别的过程。
在信息爆炸时代,怎样从海量信息中挖掘出有效的主题信息,分析出内在的语义关联一直自然语言处理方向的一个重要课题。
发明内容
为了解决该问题,本发明提出了一种基于话题模型的中文文本自动分类方法。
本发明利用本发明利用LDA话题模型对语料库进行自动分类打标签,可以广泛应用于搜索引擎、信息检索、文本识别、信息过滤、数字图书馆等诸多领域。
本发明利用LDA话题模型通过训练语料库,得到“文档—主题”信息和“主题—词语”信息,从而得到分类标准,据此标准进行文本的自动分类。
本发明的技术方案:
将文本向量表示、向量降维之后,根据已经掌握的样本数据信息,通过LDA算法对已有的语料进行训练,总结出分类规律,建立判别公式和判别规则;在遇到新文本时,根据判别规则来确定文本的相关类别。
涉及以下主要内容:
(1)采用LDA话题模型进行数据建模,采用通过LDA算法对已有的语料进行训练,总结出分类标准,根据标准对新文本进行自动分类;
(2)采用基于web的分布式云计算架构进行矩阵的分块并行计算,处理海量语料库;
(3)在云端保留了接口,对外提供开放安全可控的API服务。
记文档集合为D,主题集合为T;
第一步:文档集D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词。D中涉及的所有不同单词组成一个大集合,以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理略去不表),D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC),希望训练出的两个结果向量(设聚成k个主题,VOC中共包含m个词)
第二步:在语料库D上进行LDA建模,得到“doc-topic”矩阵θm与“topic-word”矩阵
第三步:根据语料库θm、与的影响结果对语料库D进行LDA建模,取向量θm作为“doc-topic”矩阵θm+1生成过程中的先验参数;取向量作为作为“topic-word”矩阵生成过程中的先验参数;
重复第二步与第三步,直至对每个语料库θm、收敛;
第四步:总结出分类标准,根据标准对新文本进行自动分类。
本发明的有益效果是
(1)社会效果:该专利所使用的技术能从互联网上海量、多样化、非结构化的自然语言描述的文本中抽取出结构化数据,实现新文本自动分类,既是一种技术领域的创新,又有很强的实用性。
(2)技术效果:应用Spark的分布式云计算架构,实现对海量数据库和海量主题的分析计算。
(3)应用效果:LDA话题模型能够自动获取海量文本信息的主题,它是一种非监督的机器学习方法。随着研究的深入,问题的解决,一定会得到广泛的应用。
附图说明
图1是本发明的工作示意图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的技术方案:
记文档集合为D,主题集合为T;
第一步:文档集D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词。D中涉及的所有不同单词组成一个大集合,以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理略去不表),D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC),希望训练出的两个结果向量(设聚成k个主题,VOC中共包含m个词)
第二步:在语料库D上进行LDA建模,得到“doc-topic”矩阵θm与“topic-word”矩阵
第三步:根据语料库θm、与的影响结果对语料库D进行LDA建模,取向量θm作为“doc-topic”矩阵θm+1生成过程中的先验参数;取向量作为作为“topic-word”矩阵生成过程中的先验参数;
重复第二步与第三步,直至对每个语料库θm、收敛;
第四步:总结出分类标准,根据标准对新文本进行自动分类。
本发明利用LDA话题模型训练语料库,得出分类标准,构建分类器,根据文本的内容结合标准自动判别文本类别。本专利对外提供了开放安全可控的API服务。
把时间作为观测变量引入主题模型,可以从训练结果中得到各主题强度随时间的变化趋势,既便于分析之前的情况,可以预测未来走势。
采用了分布式的云计算架构进行矩阵的分块并行计算,从而实现了对处理海量语料库和主题的分析计算。
提供了安全可控的API服务,可以调用本专利提供的API接口进行二次开发,方便的进行应用领域细分化。
Claims (3)
1.一种基于话题模型的中文文本自动分类方法,其特征在于,
将文本向量表示、向量降维之后,根据已经掌握的样本数据信息,通过LDA算法对已有的语料进行训练,总结出分类规律,建立判别公式和判别规则;在遇到新文本时,根据判别规则来确定文本的相关类别。
2.根据权利要求1所述的方法,其特征在于,
涉及以下主要内容:
(1)采用LDA话题模型进行数据建模,采用通过LDA算法对已有的语料进行训练,总结出分类标准,根据标准对新文本进行自动分类;
(2)采用基于web的分布式云计算架构进行矩阵的分块并行计算,处理海量语料库;
(3)在云端保留了接口,对外提供开放安全可控的API服务。
3.根据权利要求2所述的方法,其特征在于,
记文档集合为D,主题集合为T;
第一步:文档集D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词;D中涉及的所有不同单词组成一个大集合,以文档集合D作为输入,D中涉及的所有不同单词组成一个大集合VOCABULARY,希望训练出的两个结果向量;
第二步:在语料库D上进行LDA建模,得到“doc-topic”矩阵θm与“topic-word”矩阵
第三步:根据语料库θm、与的影响结果对语料库D进行LDA建模,取向量θm作为“doc-topic”矩阵θm+1生成过程中的先验参数;取向量作为作为“topic-word”矩阵生成过程中的先验参数;
重复第二步与第三步,直至对每个语料库θm、收敛;
第四步:总结出分类标准,根据标准对新文本进行自动分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610855211.2A CN106326495A (zh) | 2016-09-27 | 2016-09-27 | 一种基于话题模型的中文文本自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610855211.2A CN106326495A (zh) | 2016-09-27 | 2016-09-27 | 一种基于话题模型的中文文本自动分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106326495A true CN106326495A (zh) | 2017-01-11 |
Family
ID=57820795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610855211.2A Pending CN106326495A (zh) | 2016-09-27 | 2016-09-27 | 一种基于话题模型的中文文本自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106326495A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247751A (zh) * | 2017-05-26 | 2017-10-13 | 武汉大学 | 基于lda主题模型的内容推荐方法 |
CN109726286A (zh) * | 2018-12-24 | 2019-05-07 | 杭州东信北邮信息技术有限公司 | 一种基于lda主题模型的图书自动分类方法 |
CN113177595A (zh) * | 2021-04-29 | 2021-07-27 | 北京明朝万达科技股份有限公司 | 文档分类模型构建、训练、测试方法及模型构建系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN101770454A (zh) * | 2010-02-13 | 2010-07-07 | 武汉理工大学 | 短文本特征空间扩展方法 |
KR20140065235A (ko) * | 2012-11-21 | 2014-05-29 | 서울대학교산학협력단 | 트래픽 분류 장치 및 방법 |
CN105760499A (zh) * | 2016-02-22 | 2016-07-13 | 浪潮软件股份有限公司 | 一种基于lda主题模型来分析和预测网络舆情的方法 |
US20180032517A1 (en) * | 2016-08-01 | 2018-02-01 | International Business Machines Corporation | Phenomenological semantic distance from latent dirichlet allocations (lda) classification |
-
2016
- 2016-09-27 CN CN201610855211.2A patent/CN106326495A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN101770454A (zh) * | 2010-02-13 | 2010-07-07 | 武汉理工大学 | 短文本特征空间扩展方法 |
KR20140065235A (ko) * | 2012-11-21 | 2014-05-29 | 서울대학교산학협력단 | 트래픽 분류 장치 및 방법 |
CN105760499A (zh) * | 2016-02-22 | 2016-07-13 | 浪潮软件股份有限公司 | 一种基于lda主题模型来分析和预测网络舆情的方法 |
US20180032517A1 (en) * | 2016-08-01 | 2018-02-01 | International Business Machines Corporation | Phenomenological semantic distance from latent dirichlet allocations (lda) classification |
Non-Patent Citations (1)
Title |
---|
郝洁等: "基于词加权LDA算法的无监督情感分类", 《智能系统学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247751A (zh) * | 2017-05-26 | 2017-10-13 | 武汉大学 | 基于lda主题模型的内容推荐方法 |
CN107247751B (zh) * | 2017-05-26 | 2020-01-14 | 武汉大学 | 基于lda主题模型的内容推荐方法 |
CN109726286A (zh) * | 2018-12-24 | 2019-05-07 | 杭州东信北邮信息技术有限公司 | 一种基于lda主题模型的图书自动分类方法 |
CN109726286B (zh) * | 2018-12-24 | 2020-10-16 | 杭州东信北邮信息技术有限公司 | 一种基于lda主题模型的图书自动分类方法 |
CN113177595A (zh) * | 2021-04-29 | 2021-07-27 | 北京明朝万达科技股份有限公司 | 文档分类模型构建、训练、测试方法及模型构建系统 |
CN113177595B (zh) * | 2021-04-29 | 2022-07-12 | 北京明朝万达科技股份有限公司 | 文档分类模型构建、训练、测试方法及模型构建系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN109299480A (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN103617290B (zh) | 中文机器阅读系统 | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN107704558A (zh) | 一种用户意见抽取方法及系统 | |
ALRashdi et al. | Deep learning and word embeddings for tweet classification for crisis response | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN103678275A (zh) | 一种基于主客观语义的双层次文本相似度计算方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN109697288B (zh) | 一种基于深度学习的实例对齐方法 | |
CN105912524B (zh) | 基于低秩矩阵分解的文章话题关键词提取方法和装置 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN108038106B (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
Pinto et al. | Real time sentiment analysis of political twitter data using machine learning approach | |
CN107220293B (zh) | 基于情绪的文本分类方法 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
CN106326495A (zh) | 一种基于话题模型的中文文本自动分类方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Al-Mahmoud et al. | Arabic text mining a systematic review of the published literature 2002-2014 | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170111 |