CN102289522B - 一种对于文本智能分类的方法 - Google Patents
一种对于文本智能分类的方法 Download PDFInfo
- Publication number
- CN102289522B CN102289522B CN201110278817.1A CN201110278817A CN102289522B CN 102289522 B CN102289522 B CN 102289522B CN 201110278817 A CN201110278817 A CN 201110278817A CN 102289522 B CN102289522 B CN 102289522B
- Authority
- CN
- China
- Prior art keywords
- text
- training
- participle
- vector
- carried out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种对于文本智能分类的方法。包括步骤:先准备大量的训练文本集,然后对每篇的文本进行文本分词,接着进行特征项提取并存储,然后对于每个特征项进行权重计算,把该文本转换成文本向量并存储到分类器中,最后形成了特征项集合和分类器集合。把需要确定分类的文本进行分词,默认特征项集合里面的特征都是符合待分类文本,然后进行特征项权重计算,不符合的过滤掉,符合的留下作为该文本的特征。将这些特征项转化成为该文本向量。通过相似度算法将该文本向量和分类器中的向量进行比对,根据相似文本向量来确定该文本的分类所属。本发明提供了一套有效的方法来使文本的分类提取更加准确,而且在速度上也优于现有的同类技术。
Description
技术领域
本发明涉及人工智能领域数据挖掘的分类技术,特别涉及应用于互联网产品中对于文本的分类的分类技术。
背景技术
互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高,网络用户越来越多,各种各样的网站中蕴涵着海量的中文信息,这些信息绝大多数是以文本的形式存在着,因此能否准确地对文本进行分类具有非常重要的现实意义。在互联网产品中很多地方也都使用到分类技术,比如在百度知道、天涯知道等产品中都涉及到分类,但是这些产品在使用中都存在分类不准确而且分类速度慢的问题。
发明内容
本发明针对互联网上的产品在文本分类过程中存在分类不准确和分类速度慢等问题,提供一种对于本文的智能分类的方法。
本发明的目的是可以实现自动的将某段文本分到某个特定的类别。
本发明的另一个目的是解决文本分类不够准确的问题和加快提取速度。
为此,本发明公开了一种对于文本智能分类的方法。所述文本智能分类的方法步骤如下:
步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别;
步骤二、对每一件训练文本通过中文分词算法进行分词,并根据分词的特征属性,计算各分词的权重值W;
步骤三、将所有训练文本中的所有分词的权重值统一进行排序,并取权重值位于前N名的N个分词作为特征项,各特征项均具有自己的权重值Wi(i=1~N);
步骤四、将任意一件训练文本中所有分词与上述N个特征项进行比对,形成文本向量{a1,a2,a3…ai…aN},在该文本向量中,未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值B,而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值Wi相关的数值;
步骤五、建立训练文本向量数据库,其中存储有包含各训练文本的识别码、所属类别和文本向量信息;
步骤六、取待分类文本,进行中文算法分词处理,随后根据上述N个特征项形成文本向量;
步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较,找出最相似的训练文本,将待分类文本划入最相似的训练文本所属的类别。
优选的是,所述的对文本进行智能分类的方法中,在所述步骤二中,分词的特征属性包括分词的词性、词频和词长。
优选的是,所述的对文本进行智能分类的方法中,在所述步骤三中,N为1000。
优选的是,所述的对文本进行智能分类的方法中,在所述步骤四中,统一的数值B为0。
优选的是,所述的对文本进行智能分类的方法中,在所述步骤四中,与该第i个特征项的权重值Wi相关的数值为:相匹配的分词在该件训练文本中出现的频率x该第i个特征项的权重值Wi。
优选的是,所述的对文本进行智能分类的方法中,在所述步骤七中,通过余弦相似度算法从训练文本向量数据库中找到最相似的文本向量。
优选的是,所述的对文本进行智能分类的方法中,所有文本向量和分词结果均保存在计算机内存中。
优选的是,所述的对文本进行智能分类的方法中,所有文本保存为TXT格式。
本发明的有益效果是:可以人工进行训练文本分类数据,也可以采用自动采集数据的方式进行分类训练,在处理获取数据和分类数据的时候,可以配合数据挖掘中的其他算法一起使用比如分类算法、聚类算法,可以做到灵活配置。本发明提供了一种针对海量数据进行分类训练的方式,在经过文本搜集、特征提取、文本向量转化等过程后,对于任何一篇文本的分类都能有效的进行分类,应用领域非常广泛。
附图说明
附图1为该方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明,以使本领域普通技术人员参照本说明书后能够据以实施。
如图1所示,本发明的一种对于文本智能分类的方法,包括如下步骤:
步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别,并在系统内存中建立一个文本信息链表LIST<TEXTINFO>m_TextInfoLIst,将所有的文本字符串以TXT格式保存在内存里,其中TEXTINFO数据类型为:
步骤二、在系统中建立分词链表LIST<String>,遍历文本信息链表,对每个文本通过中文分词算法进行分词,并根据分词的词频、词长和词性等属性,计算各分词的权重值W,保存在分词链表中。
步骤三、建立分词权重字典Dictionary<string,double>,将每个分词的权重保存在权重字典里,然后根据权重对字典进行升序排序,取出权重值最大的前1000个作为特征项。
步骤四、将任意一件训练文本中所有分词与上述1000个特征项进行比对,形成文本向量{a1,a2,a3…ai…a1000},在该文本向量中,未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值0,而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值Wi相关的数值。例如文本为“明天去北京出差”,转化成文本向量描述为{3,0,1}。
步骤五、建立训练文本向量数据库,其中存储有包含各训练文本的识别码、所属类别和文本向量信息。
步骤六、取待分类文本,进行中文算法分词处理,随后根据上述1000个特征项进行比对形成文本向量,将这些文本向量保存在数据结构里:
步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较,通过标准的余弦相似度算法从分类器链表中进行遍历匹配,找出最相似的训练文本,将待分类文本划入最相似的训练文本所属的类别。
另一种实现形式是:
步骤一、搜集大量的训练文集,将所有文本保存为TXT格式,预先设定若干分类,将文本分别保存在不同的分类下。
步骤二、在系统内存中建立一个文本信息链表LIST<TEXTINFO>m_TextInfoLIst,其中TEXTINFO数据类型为:
在该链表中将所有的文本字符串加载到内存里。
步骤三、在系统中建立分词链表LIST<String>,遍历文本信息链表,对每个文本通过中文分词算法进行分词,将分词保存在分词链表中。同时建立分词权重字典Dictionary<string,double>,将每个分词的权重保存在权重字典里,然后对字典进行根据权重进行升序排序,取出权重值最大的前1000个作为特征项。
步骤四、遍历文本信息链表,取出每一个文本进行特征维度的1000个维度的描述,对于每个特征项进行权重计算。
步骤五、将每个文本进行进行文本向量转化,形成数字维度权重的描述方式,比如文本为“明天去北京出差”,转化成文本向量描述为{3,0,1}。在数据库中建立一个文本向量表用于存储所有的文本的向量,字段包括
(ID、分类、向量)。
步骤六、以上步骤都进行完后,大量的文本最后形成了特征项集合和分类器集合,对于文本的训练结束。
步骤七、系统接收一文本字符串,并加载到内存的临时变量进行保存。
步骤八、通过中文分词算法对该文本字符串进行中文分词处理。
步骤九、将已经训练好的1000特征取出,保存在内存的特征链表中。
步骤十、在内存中定义数组,将该文本进行1000个维度权重的描述并存储在数组里。
步骤十一、将该文本进行文本向量处理,然后默认特征项集合里面的特征都是符合待分类文本,然后进行特征项权重计算,不符合的过滤掉,符合的留下作为该文本的特征。
步骤十二、在内存中形成数字维度权重的保存形式,存放在如下数据结构里:
步骤十三、通过标准的余弦相似度算法从分类器链表中进行遍历匹配找到最相似的文本向量。
步骤十四、根据文本向量确定分类。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (6)
1.一种对文本进行智能分类的方法,其特征在于,包括以下步骤:
步骤一、准备一定数量的训练文本,并将这些训练文本分成多个类别;
步骤二、对每一件训练文本通过中文分词算法进行分词,并根据分词的特征属性,计算各分词的权重值W;
步骤三、将所有训练文本中的所有分词的权重值统一进行排序,并取权重值位于前N名的N个分词作为特征项,各特征项均具有自己的权重值Wi,其中i=1~N;
步骤四、将任意一件训练文本中所有分词与上述N个特征项进行比对,形成文本向量{a1,a2,a3…ai…aN},在该文本向量中,未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值B,而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值Wi相关的数值;
步骤五、建立训练文本向量数据库,其中存储有包含各训练文本的识别码、所属类别和文本向量信息;
步骤六、取待分类文本,进行中文算法分词处理,随后根据上述N个特征项形成文本向量;
步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较,找出最相似的训练文本,将待分类文本划入最相似的训练文本所属的类别;其中,通过余弦相似度算法从训练文本向量数据库中找到最相似的文本向量。
2.如权利要求1所述的对文本进行智能分类的方法,其特征在于,在所述步骤二中,分词的特征属性包括分词的词性、词频和词长。
3.如权利要求1所述的对文本进行智能分类的方法,其特征在于,在所述步骤三中,N为1000。
4.如权利要求1所述的对文本进行智能分类的方法,其特征在于,在所述步骤四中,统一的数值B为0。
5.如权利要求1所述的对文本进行智能分类的方法,其特征在于,所有文本向量和分词结果均保存在计算机内存中。
6.如权利要求1所述的对文本进行智能分类的方法,其特征在于,所有文本保存为TXT格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110278817.1A CN102289522B (zh) | 2011-09-19 | 2011-09-19 | 一种对于文本智能分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110278817.1A CN102289522B (zh) | 2011-09-19 | 2011-09-19 | 一种对于文本智能分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102289522A CN102289522A (zh) | 2011-12-21 |
CN102289522B true CN102289522B (zh) | 2014-08-13 |
Family
ID=45335948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110278817.1A Active CN102289522B (zh) | 2011-09-19 | 2011-09-19 | 一种对于文本智能分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102289522B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902570B (zh) * | 2012-12-27 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN103914494B (zh) * | 2013-01-09 | 2017-05-17 | 北大方正集团有限公司 | 一种微博用户身份识别方法及系统 |
CN103294798B (zh) * | 2013-05-27 | 2016-08-31 | 北京尚友通达信息技术有限公司 | 基于二元切词和支持向量机的商品自动分类方法 |
CN104978354B (zh) * | 2014-04-10 | 2020-11-06 | 中电长城网际系统应用有限公司 | 文本分类方法和装置 |
CN105512145A (zh) * | 2014-09-26 | 2016-04-20 | 阿里巴巴集团控股有限公司 | 信息分类方法及装置 |
CN106033416B (zh) * | 2015-03-09 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 一种字符串处理方法及装置 |
CN106156163B (zh) * | 2015-04-15 | 2021-06-22 | 株式会社日立制作所 | 文本分类方法以及装置 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN105894747B (zh) * | 2016-03-25 | 2020-05-08 | 国家电网公司 | 一种基于监控专家知识库的告警信号处置决策建议方法 |
CN106095972B (zh) * | 2016-06-17 | 2020-06-19 | 联动优势科技有限公司 | 一种信息分类方法及装置 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN108959329B (zh) * | 2017-05-27 | 2023-05-16 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置、介质及设备 |
CN107562814A (zh) * | 2017-08-14 | 2018-01-09 | 中国农业大学 | 一种地震应急和灾情信息获取分类方法及系统 |
CN107704500B (zh) * | 2017-08-28 | 2021-05-14 | 昆明理工大学 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
CN110019775A (zh) * | 2017-09-04 | 2019-07-16 | 南方电网传媒有限公司 | 一种网络短文本分类的优化系统及方法 |
CN110110035A (zh) * | 2018-01-24 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置以及计算机可读存储介质 |
CN109086271A (zh) * | 2018-08-01 | 2018-12-25 | 昆明理工大学 | 一种基于多重余弦定理的文章相关度计算方法 |
CN110378318B (zh) * | 2019-07-30 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN112307133A (zh) * | 2020-10-29 | 2021-02-02 | 平安普惠企业管理有限公司 | 安全防护方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
-
2011
- 2011-09-19 CN CN201110278817.1A patent/CN102289522B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102289522A (zh) | 2011-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN107944480B (zh) | 一种企业行业分类方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN107480125B (zh) | 一种基于知识图谱的关系链接方法 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN108388651A (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN110059181B (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN109783818A (zh) | 一种企业行业多标签分类方法 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN110297888B (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN109376352A (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |