CN105354184A - 一种使用优化的向量空间模型实现文档自动分类的方法 - Google Patents

一种使用优化的向量空间模型实现文档自动分类的方法 Download PDF

Info

Publication number
CN105354184A
CN105354184A CN201510707947.0A CN201510707947A CN105354184A CN 105354184 A CN105354184 A CN 105354184A CN 201510707947 A CN201510707947 A CN 201510707947A CN 105354184 A CN105354184 A CN 105354184A
Authority
CN
China
Prior art keywords
keyword
article
weight
main shaft
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510707947.0A
Other languages
English (en)
Other versions
CN105354184B (zh
Inventor
邓剑波
赵京升
刘晓雄
马润宇
倪显见
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gansu Zhicheng Network Technology Co Ltd
Original Assignee
Gansu Zhicheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gansu Zhicheng Network Technology Co Ltd filed Critical Gansu Zhicheng Network Technology Co Ltd
Priority to CN201510707947.0A priority Critical patent/CN105354184B/zh
Publication of CN105354184A publication Critical patent/CN105354184A/zh
Application granted granted Critical
Publication of CN105354184B publication Critical patent/CN105354184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种使用优化的向量空间模型实现文档自动分类的方法,该方法包括以下步骤:⑴对已知文章进行预处理:去除无意义字符并判断标题;⑵对已知文章进行词频优化处理;⑶对已知文章关键词进行关联度优化;⑷获得已知文章的主轴:根据优化后的关键词及其权重得到已知文章的主轴;⑸获得类的主轴:手动整理出多个类的训练文档,对每一篇训练文章按照步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴;⑹对未知文章分类:计算未知文章的主轴与多个类的主轴之间的相似度;ⅱ分类:当相似度大于设定的阈值时,则判定该未知文章属于该多个类中的某个类或某几个类。本发明可对大量文档信息进行分类并剔除一些不准确检索内容。

Description

一种使用优化的向量空间模型实现文档自动分类的方法
技术领域
本发明涉及一种文档自动分类的方法,尤其涉及一种使用优化的向量空间模型实现文档自动分类的方法。
背景技术
随着信息技术的发展,特别是互联网大量普及的今天,人们每天能够获取大量的信息,例如邮件、新闻等等,为了能够高效地处理这些信息,必须实现文档的自动分类。
文档自动分类的关键问题是如何构建一个分类模型,并通过这个模型将文档内容映射到类空间上。分类模型的构造有很多种方法,主要有统计方法、机器学习方法和神经网络方法。在结合统计方法和机器学习方法基础上,向量空间模型和NativeBayes模型是近几年应用最多且效果较好的两种模型。
《基于向量空间模型的文本自动分类系统的研究与实现》(计算机应用研究,庞剑锋等,2001年)中对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并提出了基于向量空间模型的文本分类系统的结构,给出了评估方法和实验结果。
《一种基于向量空间模型的多层次文本分类方法》(中文信息学报,刘少辉等,2001年第16卷第3期)研究和改进了经典的向量空间模型(VSM)的词语权重计算方法,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法,也就是把各类按照一定的层次关系组织成树状结构,并将一个类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类文档之间进行比较;而对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。该方法具有较高的正确率和召回率。
中国专利《一种使用文体进行文本文档自动分类的方法》(专利号201010210107.0)所公开的方法是指:首先,使用带权重的关键词集合表示文本文档的特征信息;然后,使用经过本体消歧和本体扩展处理后的本体来表示分类目录的特征信息,并通过分析本体结构特征将本体被转化为带权重的词义集合;最后,使用EarthMover’sDistance方法计算文本文档的关键词集合和本体权重词义集合之间的语义相似值,并进一步计算文本文档和分类目录之间的相似值,根据文本文档和分类目录之间的相似值来进行文本文档的分类和排序。
但目前已有的基于向量空间模型的文档分类主要侧重于对分类器的处理,而忽略在汉语写作中的一些用词习惯,即,对文档本身的特征提取优化做的不够。
发明内容
本发明所要解决的技术问题是提供一种可对大量文档信息进行分类并剔除一些不准确检索内容的使用优化的向量空间模型实现文档自动分类的方法。
为解决上述问题,本发明所述的一种使用优化的向量空间模型实现文档自动分类的方法,包括以下步骤:
⑴对已知文章进行预处理:
①去除无意义字符:先将已知文章中的标点和换行符替换为自定义的符号,再去除空白字符;
②判断标题:当两个换行符之间字符数量不多,且后一个换行符之前紧邻的字符不是标点,则可判断两换行符之间的内容为标题和子标题;
⑵对已知文章进行词频优化处理:
对于中文使用现有的分词模块对已知文章进行分词,扫描全文,统计全文词频、综合词性信息,使用关键词生成模块选出名词性的高频词,得到关键词;
采用词频词典并运用词频优化模块中的权重因子对所述关键词的权重进行优化,即:降低高频无意义词和低频无意义较长词的权重,增加低频有意义词的权重;
其中:权重因子是指,式中表示词频词典中最大的频率数;n表示词的字节数;表示词的词频;
⑶对已知文章关键词进行关联度优化:
将所述关键词的关联度从关键词关联库中读取,并设定关键词B相对于关键词A的关联度为h21,关键词A相对于关键词B的关联度为h12,即若一个句子中包含关键词A和关键词B,且其原来的权重分别为r1和r2,则计入B相对于A的关键词关联度后A的权重将从r1变到r1+r2×h21,计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12;
⑷获得已知文章的主轴:
根据所述步骤⑵和所述步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴;
⑸获得类的主轴:
手动整理出多个类的训练文档,对每一篇训练文章按照所述步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴;
⑹对未知文章分类:
ⅰ计算未知文章的主轴与所述多个类的主轴之间的相似度:
设定关键词1对应k1,关键词2对应k2,关键词3对应k3,……,关键词n对应kn
未知文章的主轴对应A*,所述多个类的主轴对应T;
关键词1在未知文章中的权重为a1,关键词2在未知文章中的权重为a2,……,关键词n在未知文章中的权重为an
关键词1在所述多个类中的权重为b1,关键词2在所述多个类中的权重为b2,……,关键词n在所述多个类中的权重为bn;……
则令
A*=(a1×k1,a2×k2,a3×k3,……,an×kn);
T=(b1×k1,b2×k2,b3×k3,……,bn×kn);
定义为A*和T的相似度;
ⅱ分类:
当未知文章的主轴与所述多个类的主轴的相似度大于设定的阈值0.15~0.20时,则判定该未知文章属于该多个类中的某个类或某几个类。
本发明与现有技术相比具有以下优点:
1、本发明结合汉语写作的用词习惯首先引入词频词典,用词频优化模块和关联度优化模块对文档的内容主轴做了一系列的优化,目的是剔除一些不准确的检索内容,降低高频无意义词、低频无意义词对文章内容主轴的影响,提高低频有意义词对文章内容主轴的影响。
2、本发明引入关键词关联库,即根据汉语中每个词在关联词词库中的关联度信息去调整文章关键词的权重,从而使得到的文章内容主轴更加准确,使分类结果更加可靠。
3、本发明通过对文章关键字的提取、文章主题的分析,将文章的主题通过一个或者一组向量表示出来,再将该向量或者该组向量分别与类的内容主轴做相似度计算得到与测试文章内容主轴相似度最大的那个类,即文章所属的类,从而实现对大量文档信息的分类整理。
4、本发明通过构建类主轴的方法对未知文档分类,得到它所属的类,并且它与该类的主轴大于设定的阈值时,将该文档的内容主轴加到它所属类的主轴上面,从而在使用中不断优化类的主轴,使分类随着使用次数的增多而越来越准确。
具体实施方式
一种使用优化的向量空间模型实现文档自动分类的方法,包括以下步骤:
⑴对已知文章进行预处理:
①去除无意义字符:先将已知文章中的标点和换行符替换为自定义的符号,再去除空白字符;
②判断标题:当两个换行符之间字符数量不多,且后一个换行符之前紧邻的字符不是标点,则可判断两换行符之间的内容为标题和子标题。
⑵对已知文章进行词频优化处理:
对于中文使用现有的分词模块对已知文章进行分词,扫描全文,统计全文词频、综合词性信息,使用关键词生成模块选出名词性的高频词,得到关键词。
采用词频词典【词频词典是指根据大量文档统计出来的记录一些常用词的词频信息】,运用词频优化模块中的权重因子对关键词的权重进行优化,即:降低高频无意义词和低频无意义较长词的权重,增加低频有意义词的权重。
其中:权重因子是指,式中表示词频词典中最大的频率数;n表示词的字节数;表示词的词频。
在汉语写作中,有一些常用词经常出现,虽然它在文章中词频较高,但是其对于文章主题的影响很小,所以必须降低该词的权重;而在一篇文章中有些词虽然出现次数不多,但是却对整个文章主题影响很大,所以必须提高该词的权重。从公式中可以看出,词频越高的话该权重因子就会越低,甚至小于1。也就是说,对于词频词典中越高词频的词,权重因子会越小,进而其权重就会变小;当词频较小时,该权重因子会比较大,进而达到增加其的目的。同时,在汉语写作中有一些词频较低并且对文章主题没有重要影响的词,比如一些俗语、成语等等,而这些俗语的字节比较长,所以该因子也会比较小,进而使其权重降低,以达到准确的内容主轴。
⑶对已知文章关键词进行关联度优化:
将关键词的关联度从关键词关联库中读取,并设定关键词B相对于关键词A的关联度为h21,关键词A相对于关键词B的关联度为h12,即若一个句子中包含关键词A和关键词B,且其原来的权重分别为r1和r2,则计入B相对于A的关键词关联度后A的权重将从r1变到r1+r2×h21,计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12。
关联词的关联度为一一对应。一般意义下,计算机识别的关键词其意义是相互独立的,引入关键词的关联度优化后,某些关键词之间就建立起了关联。很多关键词自身相互之间所表达的意思也是有一定程度的重合的,即关键词本身并不独立。这样,计算机识别的关键词应该是其本身和与其有关联的关键词的意义的叠加。这将使文章原意的表达更为准确,在理论上文章主题也更加明确。
⑷获得已知文章的主轴:
根据步骤⑵和步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴。
⑸获得类的主轴:
手动整理出多个类的训练文档,对每一篇训练文章按照步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴,从而达到方便实时、快速更新类的内容主轴的目的。
⑹对未知文章分类:
ⅰ计算未知文章的主轴与多个类的主轴之间的相似度:
设定关键词1对应k1,关键词2对应k2,关键词3对应k3,……,关键词n对应kn
未知文章的主轴对应A*,多个类的主轴对应T;
关键词1在未知文章中的权重为a1,关键词2在未知文章中的权重为a2,……,关键词n在未知文章中的权重为an
关键词1在多个类中的权重为b1,关键词2在多个类中的权重为b2,……,关键词n在多个类中的权重为bn;……
则令
A*=(a1×k1,a2×k2,a3×k3,……,an×kn);
T=(b1×k1,b2×k2,b3×k3,……,bn×kn);
定义为A*和T的相似度;
ⅱ分类:
当未知文章的主轴与多个类的主轴的相似度大于设定的阈值0.15~0.20时,则判定该未知文章属于该多个类中的某个类或某几个类。

Claims (1)

1.一种使用优化的向量空间模型实现文档自动分类的方法,包括以下步骤:
⑴对已知文章进行预处理:
①去除无意义字符:先将已知文章中的标点和换行符替换为自定义的符号,再去除空白字符;
②判断标题:当两个换行符之间字符数量不多,且后一个换行符之前紧邻的字符不是标点,则可判断两换行符之间的内容为标题和子标题;
⑵对已知文章进行词频优化处理:
对于中文使用现有的分词模块对已知文章进行分词,扫描全文,统计全文词频、综合词性信息,使用关键词生成模块选出名词性的高频词,得到关键词;
采用词频词典并运用词频优化模块中的权重因子对所述关键词的权重进行优化,即:降低高频无意义词和低频无意义较长词的权重,增加低频有意义词的权重;
其中:权重因子是指,式中表示词频词典中最大的频率数;n表示词的字节数;表示词的词频;
⑶对已知文章关键词进行关联度优化:
将所述关键词的关联度从关键词关联库中读取,并设定关键词B相对于关键词A的关联度为h21,关键词A相对于关键词B的关联度为h12,即若一个句子中包含关键词A和关键词B,且其原来的权重分别为r1和r2,则计入B相对于A的关键词关联度后A的权重将从r1变到r1+r2×h21,计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12;
⑷获得已知文章的主轴:
根据所述步骤⑵和所述步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴;
⑸获得类的主轴:
手动整理出多个类的训练文档,对每一篇训练文章按照所述步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴;
⑹对未知文章分类:
ⅰ计算未知文章的主轴与所述多个类的主轴之间的相似度:
设定关键词1对应k1,关键词2对应k2,关键词3对应k3,…,关键词n对应kn
未知文章的主轴对应A*,所述多个类的主轴对应T;
关键词1在未知文章中的权重为a1,关键词2在未知文章中的权重为a2,……,关键词n在未知文章中的权重为an
关键词1在所述多个类中的权重为b1,关键词2在所述多个类中的权重为b2,……,关键词n在所述多个类中的权重为bn
则令
A*=(a1×k1,a2×k2,a3×k3,……,an×kn);
T=(b1×k1,b2×k2,b3×k3,……,bn×kn);
定义为A*和T的相似度;
ⅱ分类:
当未知文章的主轴与所述多个类的主轴的相似度大于设定的阈值0.15~0.20时,则判定该未知文章属于该多个类中的某个类或某几个类。
CN201510707947.0A 2015-10-28 2015-10-28 一种使用优化的向量空间模型实现文档自动分类的方法 Active CN105354184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510707947.0A CN105354184B (zh) 2015-10-28 2015-10-28 一种使用优化的向量空间模型实现文档自动分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510707947.0A CN105354184B (zh) 2015-10-28 2015-10-28 一种使用优化的向量空间模型实现文档自动分类的方法

Publications (2)

Publication Number Publication Date
CN105354184A true CN105354184A (zh) 2016-02-24
CN105354184B CN105354184B (zh) 2018-04-20

Family

ID=55330158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510707947.0A Active CN105354184B (zh) 2015-10-28 2015-10-28 一种使用优化的向量空间模型实现文档自动分类的方法

Country Status (1)

Country Link
CN (1) CN105354184B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570120A (zh) * 2016-11-02 2017-04-19 四川用联信息技术有限公司 一种改进的关键词优化实现搜索引擎优化技术
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
WO2018040343A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN111145871A (zh) * 2018-11-02 2020-05-12 京东方科技集团股份有限公司 情绪干预方法、装置和系统,以及计算机可读存储介质
CN116341521A (zh) * 2023-05-22 2023-06-27 环球数科集团有限公司 一种基于文本特征的aigc文章辨识系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法
CN102081667A (zh) * 2011-01-23 2011-06-01 浙江大学 基于Base64编码的中文文本分类方法
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
US20150052127A1 (en) * 2013-08-15 2015-02-19 Barnesandnoble.Com Llc Systems and methods for programatically classifying text using category filtration

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法
CN102081667A (zh) * 2011-01-23 2011-06-01 浙江大学 基于Base64编码的中文文本分类方法
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
US20150052127A1 (en) * 2013-08-15 2015-02-19 Barnesandnoble.Com Llc Systems and methods for programatically classifying text using category filtration

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FABRIZIO SEBASTIANI: "Machine learning in automated text categorization", 《ACM COMPUTING SURVEYS》 *
苏力华: "基于向量空间模型的文本分类技术研究", 《中国优秀硕博士学位论文全文数据库(硕士) 信息科技辑》 *
黎刚: "文本分类中词语权重计算方法的改进及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
WO2018040343A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
US11281860B2 (en) 2016-08-31 2022-03-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for recognizing text type
CN106570120A (zh) * 2016-11-02 2017-04-19 四川用联信息技术有限公司 一种改进的关键词优化实现搜索引擎优化技术
CN111145871A (zh) * 2018-11-02 2020-05-12 京东方科技集团股份有限公司 情绪干预方法、装置和系统,以及计算机可读存储介质
US11617526B2 (en) 2018-11-02 2023-04-04 Boe Technology Group Co., Ltd. Emotion intervention method, device and system, and computer-readable storage medium and healing room
CN116341521A (zh) * 2023-05-22 2023-06-27 环球数科集团有限公司 一种基于文本特征的aigc文章辨识系统

Also Published As

Publication number Publication date
CN105354184B (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN108763214B (zh) 一种针对商品评论的情感词典自动构建方法
CN105354184A (zh) 一种使用优化的向量空间模型实现文档自动分类的方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN106886512A (zh) 文章分类方法和装置
CN105868347A (zh) 一种基于多步聚类的重名消歧方法
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN107220293B (zh) 基于情绪的文本分类方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
Háva et al. Supervised two-step feature extraction for structured representation of text data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant