CN108520030A - 文本分类方法、文本分类系统及计算机装置 - Google Patents

文本分类方法、文本分类系统及计算机装置 Download PDF

Info

Publication number
CN108520030A
CN108520030A CN201810259463.8A CN201810259463A CN108520030A CN 108520030 A CN108520030 A CN 108520030A CN 201810259463 A CN201810259463 A CN 201810259463A CN 108520030 A CN108520030 A CN 108520030A
Authority
CN
China
Prior art keywords
text
sorted
classification
classifier
character dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810259463.8A
Other languages
English (en)
Other versions
CN108520030B (zh
Inventor
欧阳村
欧阳一村
程源泉
蒋铮
杨吉雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN201810259463.8A priority Critical patent/CN108520030B/zh
Publication of CN108520030A publication Critical patent/CN108520030A/zh
Application granted granted Critical
Publication of CN108520030B publication Critical patent/CN108520030B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质,其中文本分类方法包括:建立广义特征词库;调用广义特征词库处理待分类文本;对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。本发明提供的文本分类方法,通过在文本中使用字符向量和广义特征词库,无需事先训练大规模语料库即可有效的在新文本中提高分类器的准确率。

Description

文本分类方法、文本分类系统及计算机装置
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。
背景技术
随着文本分类方法的不断产生,文本分类的效果也变得越来越重要。目前,文本分类的准确率是文本分类器最重要的评判标准之一,而提升文本分类的准确率可以通过分字符、数据清洗、特征提取、模型建立以及训练语料等步骤实现。近年来,文本分类已经出现了很多技术,例如可以通过快速文本分类器模型和卷积神经网络模型在文本中进行分类。快速文本分类器模型本质上就是一个没有非线性的二层全连接神经网络,通过并入了分层回归模型和特征散列等技巧,能够以卷积神经网络模型几个数量级的速度处理输入文本。卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
但是,现有的快速文本分类器模型和卷积神经网络模型在文本分类的过程中仍存在一定的缺陷,它们都需要通过人工的方法去分词,需要花费大量的时间去观察数据的训练,而且准确率不高,所以利用快速文本分类器模型和卷积神经网络模型进行文本分类的计算代价高,耗时长。
因此,提出一种新的文本分类方法,能够在新文本和大量文本中提高分类器准确率已经成为目前亟待解决的问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个方面在于提出了一种文本分类方法。
本发明的另一个方面在于提出了一种文本分类系统。
本发明的再一个方面在于提出了一种计算机装置。
本发明的又一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种文本分类方法,包括:建立广义特征词库;调用广义特征词库处理待分类文本;对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类方法,首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
根据本发明的上述文本分类方法,还可以具有以下技术特征:
在上述技术方案中,优选地,建立广义特征词库的步骤,具体包括:获取语料,清除语料中的同质化数据;对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库。
在该技术方案中,首先从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在上述任一技术方案中,优选地,调用广义特征词库处理待分类文本的步骤,具体包括:对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签。
在该技术方案中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在上述任一技术方案中,优选地,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵的步骤,具体包括:使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵。
在该技术方案中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构(term frequency-inverse document frequency,信息检索数据挖掘的常用加权技术),读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在上述任一技术方案中,优选地,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果的步骤,具体包括:将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该技术方案中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器(Support Vector Machine,支持向量机)中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在上述任一技术方案中,优选地,在将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果的步骤之后,还包括:调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该技术方案中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
根据本发明的另一个方面,提出了一种文本分类系统,包括:第一建立单元,用于建立广义特征词库;处理单元,用于调用广义特征词库处理待分类文本;第二建立单元,用于对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;输出单元,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类系统,包括第一建立单元、处理单元、第二建立单元和输出单元。首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类系统中,不仅能够得到文本分类模型,还能够得到文本分类结果。
根据本发明的上述文本分类系统,还可以具有以下技术特征:
在上述技术方案中,优选地,第一建立单元还包括:获取单元,用于获取语料,清除语料中的同质化数据;存储单元,用于对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库。
在该技术方案中,首先通过获取单元从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在上述任一技术方案中,优选地,处理单元具体用于:对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签。
在该技术方案中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在上述任一技术方案中,优选地,第二建立单元具体用于:使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵。
在该技术方案中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在上述任一技术方案中,优选地,输出单元具体用于:将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该技术方案中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在上述任一技术方案中,优选地,优化单元,用于调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该技术方案中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
根据本发明的再一个方面,提出了一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项中的文本分类方法。
本发明提供的计算机装置,通过处理器执行计算机程序时实现如上述任一项中的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
根据本发明的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项中的文本分类方法。
本发明提供的计算机可读存储介质,通过计算机程序被处理器执行时实现如上述任一项中的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的文本分类方法的流程示意图;
图2示出了本发明的另一个实施例的文本分类方法的流程示意图;
图3示出了本发明的再一个实施例的文本分类方法的流程示意图;
图4示出了本发明的又一个实施例的文本分类方法的流程示意图;
图5示出了本发明的又一个实施例的文本分类方法的流程示意图;
图6示出了本发明的又一个实施例的文本分类方法的流程示意图;
图7a示出了本发明的一个实施例的文本分类系统的示意框图;
图7b示出了本发明的另一个实施例的文本分类系统的示意框图;
图7c示出了本发明的再一个实施例的文本分类系统的示意框图;
图8示出了本发明的一个实施例的计算机装置的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图8描述根据本发明一些实施例所述的文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。
本发明第一方面的实施例,提出一种文本分类方法,图1示出了本发明的一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S102,建立广义特征词库;
步骤S104,调用广义特征词库处理待分类文本;
步骤S106,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S108,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类方法,首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
在本发明的一个实施例中,图2示出了本发明的另一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S202,获取语料,清除语料中的同质化数据;对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库;
步骤S204,调用广义特征词库处理待分类文本;
步骤S206,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S208,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,首先从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在本发明的一个实施例中,图3示出了本发明的再一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S302,建立广义特征词库;
步骤S304,对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签;
步骤S306,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S308,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在本发明的一个实施例中,图4示出了本发明的又一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S402,建立广义特征词库;
步骤S404,对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签;
步骤S406,使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵;
步骤S408,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构,读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在本发明的一个实施例中,图5示出了本发明的又一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S502,建立广义特征词库;
步骤S504,对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签;
步骤S506,使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵;
步骤S508,将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该实施例中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在本发明的一个实施例中,图6示出了本发明的又一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S602,建立广义特征词库;
步骤S604,调用广义特征词库处理待分类文本;
步骤S606,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S608,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果;
步骤S610,调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该实施例中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
本发明第二方面的实施例,提出一种文本分类系统700,图7a示出了本发明的一个实施例的文本分类系统700的示意框图,该系统包括:
第一建立单元702,用于建立广义特征词库;
处理单元704,用于调用广义特征词库处理待分类文本;
第二建立单元706,用于对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
输出单元708,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类系统700,包括第一建立单元702、处理单元704、第二建立单元706和输出单元708。首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类系统中,不仅能够得到文本分类模型,还能够得到文本分类结果。
在本发明的一个实施例中,图7b示出了本发明的另一个实施例的文本分类系统700的示意框图,该系统包括:
第一建立单元702,用于建立广义特征词库,包括获取单元710,用于获取语料,清除语料中的同质化数据;存储单元712,用于对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库;
处理单元704,用于调用广义特征词库处理待分类文本;
第二建立单元706,用于对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
输出单元708,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,首先通过获取单元710从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在本发明的一个实施例中,优选地,处理单元704具体用于:对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签。
在该实施例中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在本发明的一个实施例中,优选地,第二建立单元706具体用于:使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符建立特征向量矩阵。
在该实施例中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在本发明的一个实施例中,优选地,输出单元708具体用于:将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该实施例中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在本发明的一个实施例中,图7c示出了本发明的再一个实施例的文本分类系统700的示意框图,该系统包括:
第一建立单元702,用于建立广义特征词库;
处理单元704,用于调用广义特征词库处理待分类文本;
第二建立单元706,用于对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
输出单元708,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果;
优化单元714,用于调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该实施例中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
本发明第三方面的实施例,提出一种计算机装置800,图8示出了本发明的一个实施例的计算机装置800的示意框图,包括存储器802、处理器804及存储在存储器802上并可在处理器804上运行的计算机程序,处理器804执行计算机程序时实现如上述的文本分类方法。
本发明提供的计算机装置800,通过处理器804执行计算机程序时实现如上述任一项中的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
本发明第四方面的实施例,提出一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器804执行时实现如上述的文本分类方法。
本发明提供的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器804执行时实现如上述的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
在本发明中,术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文本分类方法,其特征在于,包括:
建立广义特征词库;
调用所述广义特征词库处理待分类文本;
对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵;
将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述建立广义特征词库的步骤,具体包括:
获取语料,清除所述语料中的同质化数据;
对清除同质化数据后的所述语料进行分类,采用TopN算法对分类后的所述语料中的数据进行排序,提取排序后的所述语料中的前N个数据,并将所述前N个数据存储在文档中,对所述文档进行处理,以建立所述广义特征词库。
3.根据权利要求1或2所述的文本分类方法,其特征在于,所述调用所述广义特征词库处理待分类文本的步骤,具体包括:
对所述待分类文本进行预处理,并调用所述广义特征词库对预处理后的所述待分类文本进行正则匹配,生成新待分类文本,并得到所述新待分类文本的多分类标签。
4.根据权利要求3所述的文本分类方法,其特征在于,所述对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵的步骤,具体包括:
使用分词工具对所述新待分类文本进行分词,得到文本词集;
对所述文本词集进行分字处理,形成字符,通过TF-IDF算法将所述字符转换成所述特征向量矩阵。
5.根据权利要求4所述的文本分类方法,其特征在于,所述将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果的步骤,具体包括:
将所述特征向量矩阵转换为所述文本分类器的一个输入向量,并将所述多分类标签转换为所述文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成所述文本分类模型,并输出所述待分类文本的分类结果;
其中,所述文本分类器为SVM分类器,所述分类结果为所述待分类文本分类的准确率和TopN排序。
6.根据权利要求1所述的文本分类方法,其特征在于,在所述将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果的步骤之后,还包括:
调整所述文本分类模型中的参数,并调用核函数对所述文本分类模型进行训练,以实现对所述文本分类模型的优化。
7.一种文本分类系统,其特征在于,包括:
第一建立单元,用于建立广义特征词库;
处理单元,用于调用所述广义特征词库处理待分类文本;
第二建立单元,用于对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵;
输出单元,用于将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果。
8.根据权利要求7所述的文本分类系统,其特征在于,所述第一建立单元还包括:
获取单元,用于获取语料,清除所述语料中的同质化数据;
存储单元,用于对清除同质化数据后的所述语料进行分类,采用TopN算法对分类后的所述语料中的数据进行排序,提取排序后的所述语料中的前N个数据,并将所述前N个数据存储在文档中,对所述文档进行处理,以建立所述广义特征词库。
9.根据权利要求7或8所述的文本分类系统,其特征在于,所述处理单元具体用于:
对所述待分类文本进行预处理,并调用所述广义特征词库对预处理后的所述待分类文本进行正则匹配,生成新待分类文本,并得到所述新待分类文本的多分类标签。
10.根据权利要求9所述的文本分类系统,其特征在于,所述第二建立单元具体用于:
使用分词工具对所述新待分类文本进行分词,得到文本词集;
对所述文本词集进行分字处理,形成字符,通过TF-IDF算法将所述字符转换成所述特征向量矩阵。
11.根据权利要求10所述的文本分类系统,其特征在于,所述输出单元具体用于:
将所述特征向量矩阵转换为所述文本分类器的一个输入向量,并将所述多分类标签转换为所述文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成所述文本分类模型,并输出所述待分类文本的分类结果;
其中,所述文本分类器为SVM分类器,所述分类结果为所述待分类文本分类的准确率和TopN排序。
12.根据权利要求7所述的文本分类系统,其特征在于,还包括:
优化单元,用于调整所述文本分类模型中的参数,并调用核函数对所述文本分类模型进行训练,以实现对所述文本分类模型的优化。
13.一种计算机装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文本分类方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本分类方法。
CN201810259463.8A 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置 Expired - Fee Related CN108520030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810259463.8A CN108520030B (zh) 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810259463.8A CN108520030B (zh) 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置

Publications (2)

Publication Number Publication Date
CN108520030A true CN108520030A (zh) 2018-09-11
CN108520030B CN108520030B (zh) 2022-02-11

Family

ID=63434100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810259463.8A Expired - Fee Related CN108520030B (zh) 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置

Country Status (1)

Country Link
CN (1) CN108520030B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241288A (zh) * 2018-10-12 2019-01-18 平安科技(深圳)有限公司 文本分类模型的更新训练方法、装置及设备
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109857868A (zh) * 2019-01-25 2019-06-07 北京奇艺世纪科技有限公司 模型生成方法、文本分类方法、装置及计算机可读存储介质
CN109947941A (zh) * 2019-03-05 2019-06-28 永大电梯设备(中国)有限公司 一种基于电梯客服文本分类的方法和系统
CN111143548A (zh) * 2018-11-02 2020-05-12 北大方正集团有限公司 图书分类方法、装置、设备及计算机可读存储介质
CN111309904A (zh) * 2020-01-20 2020-06-19 上海市大数据中心 一种基于广义特征词库的公共数据分级方法
WO2020207431A1 (zh) * 2019-04-12 2020-10-15 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN111782811A (zh) * 2020-07-03 2020-10-16 湖南大学 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN112307209A (zh) * 2020-11-05 2021-02-02 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112364837A (zh) * 2020-12-09 2021-02-12 四川长虹电器股份有限公司 一种基于目标检测和文本识别的票据信息识别方法
CN113946682A (zh) * 2021-12-21 2022-01-18 北京大学 基于自适应图神经网络的敏感文本检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法
CN104573030A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种文本情绪预测方法及装置
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法
CN104573030A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种文本情绪预测方法及装置
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏小康: "基于维基百科构建语义知识库及其在文本分类领域的应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241288A (zh) * 2018-10-12 2019-01-18 平安科技(深圳)有限公司 文本分类模型的更新训练方法、装置及设备
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
WO2020082569A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN111143548A (zh) * 2018-11-02 2020-05-12 北大方正集团有限公司 图书分类方法、装置、设备及计算机可读存储介质
CN109857868A (zh) * 2019-01-25 2019-06-07 北京奇艺世纪科技有限公司 模型生成方法、文本分类方法、装置及计算机可读存储介质
CN109947941A (zh) * 2019-03-05 2019-06-28 永大电梯设备(中国)有限公司 一种基于电梯客服文本分类的方法和系统
WO2020207431A1 (zh) * 2019-04-12 2020-10-15 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN111309904A (zh) * 2020-01-20 2020-06-19 上海市大数据中心 一种基于广义特征词库的公共数据分级方法
CN111782811A (zh) * 2020-07-03 2020-10-16 湖南大学 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN112307209A (zh) * 2020-11-05 2021-02-02 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112307209B (zh) * 2020-11-05 2024-04-26 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112364837A (zh) * 2020-12-09 2021-02-12 四川长虹电器股份有限公司 一种基于目标检测和文本识别的票据信息识别方法
CN113946682A (zh) * 2021-12-21 2022-01-18 北京大学 基于自适应图神经网络的敏感文本检测方法及系统

Also Published As

Publication number Publication date
CN108520030B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN108520030A (zh) 文本分类方法、文本分类系统及计算机装置
CN107944480A (zh) 一种企业行业分类方法
CN109271521A (zh) 一种文本分类方法及装置
CN106445919A (zh) 一种情感分类方法及装置
CN106294568A (zh) 一种基于bp网络的中文文本分类规则生成方法及系统
Tsai et al. Evolutionary instance selection for text classification
CN107330446A (zh) 一种面向图像分类的深度卷积神经网络的优化方法
Pandey et al. Unsupervised data classification using improved biogeography based optimization
CN105574156B (zh) 文本聚类方法、装置及计算设备
CN106886576A (zh) 一种基于预分类的短文本关键词提取方法及系统
CN104615730A (zh) 一种多标签分类方法及装置
Al-Shboul et al. Voting-based Classification for E-mail Spam Detection.
CN107748898A (zh) 文件分类方法、装置、计算设备及计算机存储介质
CN110704616A (zh) 设备告警工单识别方法及装置
CN110097096A (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN115423603A (zh) 一种基于机器学习的风控模型建立方法、系统及存储介质
Chattopadhyay et al. Curse of dimensionality in adversarial examples
Klasen et al. Image-based automated species identification: can virtual data augmentation overcome problems of insufficient sampling?
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
CN107305640A (zh) 一种不均衡数据分类的方法
CN102411592A (zh) 一种文本分类方法和装置
Özkan et al. Evaluation of convolutional neural network features for malware detection
Davuluri et al. Support vector machine based multi-class classification for oriented instance selection
Huynh et al. An efficient model for copy-move image forgery detection
CN103793714B (zh) 多分类识别器生成装置及其方法、数据识别装置及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220211