CN105354184B - 一种使用优化的向量空间模型实现文档自动分类的方法 - Google Patents
一种使用优化的向量空间模型实现文档自动分类的方法 Download PDFInfo
- Publication number
- CN105354184B CN105354184B CN201510707947.0A CN201510707947A CN105354184B CN 105354184 B CN105354184 B CN 105354184B CN 201510707947 A CN201510707947 A CN 201510707947A CN 105354184 B CN105354184 B CN 105354184B
- Authority
- CN
- China
- Prior art keywords
- keyword
- article
- main shaft
- weight
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000037396 body weight Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种使用优化的向量空间模型实现文档自动分类的方法,该方法包括以下步骤:⑴对已知文章进行预处理:去除无意义字符并判断标题;⑵对已知文章进行词频优化处理;⑶对已知文章关键词进行关联度优化;⑷获得已知文章的主轴:根据优化后的关键词及其权重得到已知文章的主轴;⑸获得类的主轴:手动整理出多个类的训练文档,对每一篇训练文章按照步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴;⑹对未知文章分类:计算未知文章的主轴与多个类的主轴之间的相似度;ⅱ分类:当相似度大于设定的阈值时,则判定该未知文章属于该多个类中的某个类或某几个类。本发明可对大量文档信息进行分类并剔除一些不准确检索内容。
Description
技术领域
本发明涉及一种文档自动分类的方法,尤其涉及一种使用优化的向量空间模型实现文档自动分类的方法。
背景技术
随着信息技术的发展,特别是互联网大量普及的今天,人们每天能够获取大量的信息,例如邮件、新闻等等,为了能够高效地处理这些信息,必须实现文档的自动分类。
文档自动分类的关键问题是如何构建一个分类模型,并通过这个模型将文档内容映射到类空间上。分类模型的构造有很多种方法,主要有统计方法、机器学习方法和神经网络方法。在结合统计方法和机器学习方法基础上,向量空间模型和Native Bayes模型是近几年应用最多且效果较好的两种模型。
《基于向量空间模型的文本自动分类系统的研究与实现》(计算机应用研究,庞剑锋等,2001年)中对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并提出了基于向量空间模型的文本分类系统的结构,给出了评估方法和实验结果。
《一种基于向量空间模型的多层次文本分类方法》(中文信息学报,刘少辉等,2001年第16卷第3期)研究和改进了经典的向量空间模型(VSM)的词语权重计算方法,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法,也就是把各类按照一定的层次关系组织成树状结构,并将一个类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类文档之间进行比较;而对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。该方法具有较高的正确率和召回率。
中国专利《一种使用文体进行文本文档自动分类的方法》(专利号201010210107.0)所公开的方法是指:首先,使用带权重的关键词集合表示文本文档的特征信息;然后,使用经过本体消歧和本体扩展处理后的本体来表示分类目录的特征信息,并通过分析本体结构特征将本体被转化为带权重的词义集合;最后,使用Earth Mover’sDistance方法计算文本文档的关键词集合和本体权重词义集合之间的语义相似值,并进一步计算文本文档和分类目录之间的相似值,根据文本文档和分类目录之间的相似值来进行文本文档的分类和排序。
但目前已有的基于向量空间模型的文档分类主要侧重于对分类器的处理,而忽略在汉语写作中的一些用词习惯,即,对文档本身的特征提取优化做的不够。
发明内容
本发明所要解决的技术问题是提供一种可对大量文档信息进行分类并剔除一些不准确检索内容的使用优化的向量空间模型实现文档自动分类的方法。
为解决上述问题,本发明所述的一种使用优化的向量空间模型实现文档自动分类的方法,包括以下步骤:
⑴对已知文章进行预处理:
①去除无意义字符:先将已知文章中的标点和换行符替换为自定义的符号,再去除空白字符;
②判断标题:当两个换行符之间字符数量不多,且后一个换行符之前紧邻的字符不是标点,则可判断两换行符之间的内容为标题和子标题;
⑵对已知文章进行词频优化处理:
对于中文使用现有的分词模块对已知文章进行分词,扫描全文,统计全文词频、综合词性信息,使用关键词生成模块选出名词性的高频词,得到关键词;
采用词频词典并运用词频优化模块中的权重因子对所述关键词的权重进行优化,即:降低高频无意义词和低频无意义较长词的权重,增加低频有意义词的权重;
其中:权重因子是指, 式中表示词频词典中最大的频率数;n表示词的字节数;表示词的词频;
⑶对已知文章关键词进行关联度优化:
将所述关键词的关联度从关键词关联库中读取,并设定关键词B相对于关键词A的关联度为h21,关键词 A相对于关键词B的关联度为h12,即若一个句子中包含关键词A和关键词B,且其原来的权重分别为r1和r2,则计入B相对于A的关键词关联度后A的权重将从r1变到 r1+r2×h21,计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12;
⑷获得已知文章的主轴:
根据所述步骤⑵和所述步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴;
⑸获得类的主轴:
手动整理出多个类的训练文档,对每一篇训练文章按照所述步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴;
⑹对未知文章分类:
ⅰ计算未知文章的主轴与所述多个类的主轴之间的相似度:
设定关键词1对应k1,关键词2对应k2,关键词3对应k3,……,关键词n对应kn;
未知文章的主轴对应A*,所述多个类的主轴对应T;
关键词1在未知文章中的权重为a1,关键词2在未知文章中的权重为a2,……,关键词n在未知文章中的权重为an;
关键词1在所述多个类中的权重为b1,关键词2在所述多个类中的权重为b2,……,关键词n在所述多个类中的权重为bn;……
则令
A*=(a1×k1,a2×k2,a3×k3,……,an×kn);
T=(b1×k1,b2×k2,b3×k3,……,bn×kn);
定义为A*和T的相似度;
ⅱ分类:
当未知文章的主轴与所述多个类的主轴的相似度大于设定的阈值0.15~0.20时,则判定该未知文章属于该多个类中的某个类或某几个类。
本发明与现有技术相比具有以下优点:
1、本发明结合汉语写作的用词习惯首先引入词频词典,用词频优化模块和关联度优化模块对文档的内容主轴做了一系列的优化,目的是剔除一些不准确的检索内容,降低高频无意义词、低频无意义词对文章内容主轴的影响,提高低频有意义词对文章内容主轴的影响。
2、本发明引入关键词关联库,即根据汉语中每个词在关联词词库中的关联度信息去调整文章关键词的权重,从而使得到的文章内容主轴更加准确,使分类结果更加可靠。
3、本发明通过对文章关键字的提取、文章主题的分析,将文章的主题通过一个或者一组向量表示出来,再将该向量或者该组向量分别与类的内容主轴做相似度计算得到与测试文章内容主轴相似度最大的那个类,即文章所属的类,从而实现对大量文档信息的分类整理。
4、本发明通过构建类主轴的方法对未知文档分类,得到它所属的类,并且它与该类的主轴大于设定的阈值时,将该文档的内容主轴加到它所属类的主轴上面,从而在使用中不断优化类的主轴,使分类随着使用次数的增多而越来越准确。
具体实施方式
一种使用优化的向量空间模型实现文档自动分类的方法,包括以下步骤:
⑴对已知文章进行预处理:
①去除无意义字符:先将已知文章中的标点和换行符替换为自定义的符号,再去除空白字符;
②判断标题:当两个换行符之间字符数量不多,且后一个换行符之前紧邻的字符不是标点,则可判断两换行符之间的内容为标题和子标题。
⑵对已知文章进行词频优化处理:
对于中文使用现有的分词模块对已知文章进行分词,扫描全文,统计全文词频、综合词性信息,使用关键词生成模块选出名词性的高频词,得到关键词。
采用词频词典【词频词典是指根据大量文档统计出来的记录一些常用词的词频信息】,运用词频优化模块中的权重因子对关键词的权重进行优化,即:降低高频无意义词和低频无意义较长词的权重,增加低频有意义词的权重。
其中:权重因子是指, 式中表示词频词典中最大的频率数;n表示词的字节数;表示词的词频。
在汉语写作中,有一些常用词经常出现,虽然它在文章中词频较高,但是其对于文章主题的影响很小,所以必须降低该词的权重;而在一篇文章中有些词虽然出现次数不多,但是却对整个文章主题影响很大,所以必须提高该词的权重。从公式中可以看出,词频越高的话该权重因子就会越低,甚至小于1。也就是说,对于词频词典中越高词频的词,权重因子会越小,进而其权重就会变小;当词频较小时,该权重因子会比较大,进而达到增加其的目的。同时,在汉语写作中有一些词频较低并且对文章主题没有重要影响的词,比如一些俗语、成语等等,而这些俗语的字节比较长,所以该因子也会比较小,进而使其权重降低,以达到准确的内容主轴。
⑶对已知文章关键词进行关联度优化:
将关键词的关联度从关键词关联库中读取,并设定关键词B相对于关键词A的关联度为h21,关键词 A相对于关键词B的关联度为h12,即若一个句子中包含关键词A和关键词B,且其原来的权重分别为r1和r2,则计入B相对于A的关键词关联度后A的权重将从r1变到r1+r2×h21,计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12。
关联词的关联度为一一对应。一般意义下,计算机识别的关键词其意义是相互独立的,引入关键词的关联度优化后,某些关键词之间就建立起了关联。很多关键词自身相互之间所表达的意思也是有一定程度的重合的,即关键词本身并不独立。这样,计算机识别的关键词应该是其本身和与其有关联的关键词的意义的叠加。这将使文章原意的表达更为准确,在理论上文章主题也更加明确。
⑷获得已知文章的主轴:
根据步骤⑵和步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴。
⑸获得类的主轴:
手动整理出多个类的训练文档,对每一篇训练文章按照步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴,从而达到方便实时、快速更新类的内容主轴的目的。
⑹对未知文章分类:
ⅰ计算未知文章的主轴与多个类的主轴之间的相似度:
设定关键词1对应k1,关键词2对应k2,关键词3对应k3,……,关键词n对应kn;
未知文章的主轴对应A*,多个类的主轴对应T;
关键词1在未知文章中的权重为a1,关键词2在未知文章中的权重为a2,……,关键词n在未知文章中的权重为an;
关键词1在多个类中的权重为b1,关键词2在多个类中的权重为b2,……,关键词n在多个类中的权重为bn;……
则令
A*=(a1×k1,a2×k2,a3×k3,……,an×kn);
T=(b1×k1,b2×k2,b3×k3,……,bn×kn);
定义为A*和T的相似度;
ⅱ分类:
当未知文章的主轴与多个类的主轴的相似度大于设定的阈值0.15~0.20时,则判定该未知文章属于该多个类中的某个类或某几个类。
Claims (1)
1.一种使用优化的向量空间模型实现文档自动分类的方法,包括以下步骤:
⑴对已知文章进行预处理:
①去除无意义字符:先将已知文章中的标点和换行符替换为自定义的符号,再去除空白字符;
②判断标题:当两个换行符之间字符数量不多,且后一个换行符之前紧邻的字符不是标点,则可判断两换行符之间的内容为标题和子标题;
⑵对已知文章进行词频优化处理:
对于中文使用现有的分词模块对已知文章进行分词,扫描全文,统计全文词频、综合词性信息,使用关键词生成模块选出名词性的高频词,得到关键词;
采用词频词典并运用词频优化模块中的权重因子对所述关键词的权重进行优化,即:降低高频无意义词和低频无意义较长词的权重,增加低频有意义词的权重;
其中:权重因子是指, 式中表示词频词典中最大的频率数;n 表示词的字节数;表示词的词频;
⑶对已知文章关键词进行关联度优化:
将所述关键词的关联度从关键词关联库中读取,并设定关键词B相对于关键词A的关联度为h21,关键词 A相对于关键词B的关联度为h12,即若一个句子中包含关键词A和关键词B,且其原来的权重分别为r1和r2,则计入B相对于A的关键词关联度后A的权重将从r1变到r1+r2×h21,计入A相对于B的关键词关联度后B的权重将从r2变为r2+r1×h12;
⑷获得已知文章的主轴:
根据所述步骤⑵和所述步骤⑶所得的优化后的关键词及其权重得到已知文章的主轴;
⑸获得类的主轴:
手动整理出多个类的训练文档,对每一篇训练文章按照所述步骤⑴~⑷获得训练文档的内容主轴,然后按向量的加法将其整理成多个类的主轴;
⑹对未知文章分类:
ⅰ计算未知文章的主轴与所述多个类的主轴之间的相似度:
设定关键词1对应k1,关键词2对应k2,关键词3对应k3,…,关键词n对应kn;
未知文章的主轴对应A*,所述多个类的主轴对应T;
关键词1在未知文章中的权重为a1,关键词2在未知文章中的权重为a2,……,关键词n在未知文章中的权重为an;
关键词1在所述多个类中的权重为b1,关键词2在所述多个类中的权重为b2,……,关键词n在所述多个类中的权重为bn;
则令
A*=(a1×k1,a2×k2,a3×k3,……,an×kn);
T=(b1×k1,b2×k2,b3×k3,……,bn×kn);
定义为A*和T的相似度;
ⅱ分类:
当未知文章的主轴与所述多个类的主轴的相似度大于设定的阈值0.15~0.20时,则判定该未知文章属于该多个类中的某个类或某几个类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510707947.0A CN105354184B (zh) | 2015-10-28 | 2015-10-28 | 一种使用优化的向量空间模型实现文档自动分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510707947.0A CN105354184B (zh) | 2015-10-28 | 2015-10-28 | 一种使用优化的向量空间模型实现文档自动分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105354184A CN105354184A (zh) | 2016-02-24 |
CN105354184B true CN105354184B (zh) | 2018-04-20 |
Family
ID=55330158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510707947.0A Expired - Fee Related CN105354184B (zh) | 2015-10-28 | 2015-10-28 | 一种使用优化的向量空间模型实现文档自动分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105354184B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229939B (zh) * | 2016-03-24 | 2020-12-04 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN107797982B (zh) | 2016-08-31 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
CN106570120A (zh) * | 2016-11-02 | 2017-04-19 | 四川用联信息技术有限公司 | 一种改进的关键词优化实现搜索引擎优化技术 |
CN111145871A (zh) * | 2018-11-02 | 2020-05-12 | 京东方科技集团股份有限公司 | 情绪干预方法、装置和系统,以及计算机可读存储介质 |
CN116341521B (zh) * | 2023-05-22 | 2023-07-28 | 环球数科集团有限公司 | 一种基于文本特征的aigc文章辨识系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9542480B2 (en) * | 2013-08-15 | 2017-01-10 | Nook Digital, Llc | Systems and methods for programatically classifying text using category filtration |
-
2015
- 2015-10-28 CN CN201510707947.0A patent/CN105354184B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
Non-Patent Citations (3)
Title |
---|
Machine learning in automated text categorization;Fabrizio Sebastiani;《ACM Computing Surveys》;20020331;第34卷(第1期);1-47 * |
基于向量空间模型的文本分类技术研究;苏力华;《中国优秀硕博士学位论文全文数据库(硕士) 信息科技辑》;20070215(第02期);I138-830 * |
文本分类中词语权重计算方法的改进及应用;黎刚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080515(第05期);I138-854 * |
Also Published As
Publication number | Publication date |
---|---|
CN105354184A (zh) | 2016-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
CN105354184B (zh) | 一种使用优化的向量空间模型实现文档自动分类的方法 | |
CN108090048B (zh) | 一种基于多元数据分析的高校评价系统 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN108376133A (zh) | 基于情感词扩充的短文本情感分类方法 | |
CN110222172B (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN109033212B (zh) | 一种基于相似度匹配的文本分类方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN108345694B (zh) | 一种基于主题数据库的文献检索方法及系统 | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
CN112214991A (zh) | 一种基于多特征融合加权的微博文本立场检测方法 | |
CN110222250A (zh) | 一种面向微博的突发事件触发词识别方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN107220293A (zh) | 基于情绪的文本分类方法 | |
CN105988978B (zh) | 确定文本焦点的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180420 |
|
CF01 | Termination of patent right due to non-payment of annual fee |