CN108520030B - 文本分类方法、文本分类系统及计算机装置 - Google Patents

文本分类方法、文本分类系统及计算机装置 Download PDF

Info

Publication number
CN108520030B
CN108520030B CN201810259463.8A CN201810259463A CN108520030B CN 108520030 B CN108520030 B CN 108520030B CN 201810259463 A CN201810259463 A CN 201810259463A CN 108520030 B CN108520030 B CN 108520030B
Authority
CN
China
Prior art keywords
text
classified
classification
word
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810259463.8A
Other languages
English (en)
Other versions
CN108520030A (zh
Inventor
欧阳一村
程源泉
蒋铮
杨吉雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN201810259463.8A priority Critical patent/CN108520030B/zh
Publication of CN108520030A publication Critical patent/CN108520030A/zh
Application granted granted Critical
Publication of CN108520030B publication Critical patent/CN108520030B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质,其中文本分类方法包括:建立广义特征词库;调用广义特征词库处理待分类文本;对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。本发明提供的文本分类方法,通过在文本中使用字符向量和广义特征词库,无需事先训练大规模语料库即可有效的在新文本中提高分类器的准确率。

Description

文本分类方法、文本分类系统及计算机装置
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。
背景技术
随着文本分类方法的不断产生,文本分类的效果也变得越来越重要。目前,文本分类的准确率是文本分类器最重要的评判标准之一,而提升文本分类的准确率可以通过分字符、数据清洗、特征提取、模型建立以及训练语料等步骤实现。近年来,文本分类已经出现了很多技术,例如可以通过快速文本分类器模型和卷积神经网络模型在文本中进行分类。快速文本分类器模型本质上就是一个没有非线性的二层全连接神经网络,通过并入了分层回归模型和特征散列等技巧,能够以卷积神经网络模型几个数量级的速度处理输入文本。卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
但是,现有的快速文本分类器模型和卷积神经网络模型在文本分类的过程中仍存在一定的缺陷,它们都需要通过人工的方法去分词,需要花费大量的时间去观察数据的训练,而且准确率不高,所以利用快速文本分类器模型和卷积神经网络模型进行文本分类的计算代价高,耗时长。
因此,提出一种新的文本分类方法,能够在新文本和大量文本中提高分类器准确率已经成为目前亟待解决的问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个方面在于提出了一种文本分类方法。
本发明的另一个方面在于提出了一种文本分类系统。
本发明的再一个方面在于提出了一种计算机装置。
本发明的又一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种文本分类方法,包括:建立广义特征词库;调用广义特征词库处理待分类文本;对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类方法,首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
根据本发明的上述文本分类方法,还可以具有以下技术特征:
在上述技术方案中,优选地,建立广义特征词库的步骤,具体包括:获取语料,清除语料中的同质化数据;对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库。
在该技术方案中,首先从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在上述任一技术方案中,优选地,调用广义特征词库处理待分类文本的步骤,具体包括:对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签。
在该技术方案中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在上述任一技术方案中,优选地,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵的步骤,具体包括:使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵。
在该技术方案中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构(term frequency-inverse document frequency,信息检索数据挖掘的常用加权技术),读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在上述任一技术方案中,优选地,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果的步骤,具体包括:将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该技术方案中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器(Support Vector Machine,支持向量机)中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在上述任一技术方案中,优选地,在将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果的步骤之后,还包括:调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该技术方案中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
根据本发明的另一个方面,提出了一种文本分类系统,包括:第一建立单元,用于建立广义特征词库;处理单元,用于调用广义特征词库处理待分类文本;第二建立单元,用于对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;输出单元,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类系统,包括第一建立单元、处理单元、第二建立单元和输出单元。首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类系统中,不仅能够得到文本分类模型,还能够得到文本分类结果。
根据本发明的上述文本分类系统,还可以具有以下技术特征:
在上述技术方案中,优选地,第一建立单元还包括:获取单元,用于获取语料,清除语料中的同质化数据;存储单元,用于对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库。
在该技术方案中,首先通过获取单元从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在上述任一技术方案中,优选地,处理单元具体用于:对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签。
在该技术方案中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在上述任一技术方案中,优选地,第二建立单元具体用于:使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵。
在该技术方案中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在上述任一技术方案中,优选地,输出单元具体用于:将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该技术方案中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在上述任一技术方案中,优选地,优化单元,用于调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该技术方案中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
根据本发明的再一个方面,提出了一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项中的文本分类方法。
本发明提供的计算机装置,通过处理器执行计算机程序时实现如上述任一项中的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
根据本发明的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项中的文本分类方法。
本发明提供的计算机可读存储介质,通过计算机程序被处理器执行时实现如上述任一项中的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的文本分类方法的流程示意图;
图2示出了本发明的另一个实施例的文本分类方法的流程示意图;
图3示出了本发明的再一个实施例的文本分类方法的流程示意图;
图4示出了本发明的又一个实施例的文本分类方法的流程示意图;
图5示出了本发明的又一个实施例的文本分类方法的流程示意图;
图6示出了本发明的又一个实施例的文本分类方法的流程示意图;
图7a示出了本发明的一个实施例的文本分类系统的示意框图;
图7b示出了本发明的另一个实施例的文本分类系统的示意框图;
图7c示出了本发明的再一个实施例的文本分类系统的示意框图;
图8示出了本发明的一个实施例的计算机装置的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图8描述根据本发明一些实施例所述的文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。
本发明第一方面的实施例,提出一种文本分类方法,图1示出了本发明的一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S102,建立广义特征词库;
步骤S104,调用广义特征词库处理待分类文本;
步骤S106,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S108,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类方法,首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
在本发明的一个实施例中,图2示出了本发明的另一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S202,获取语料,清除语料中的同质化数据;对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库;
步骤S204,调用广义特征词库处理待分类文本;
步骤S206,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S208,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,首先从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在本发明的一个实施例中,图3示出了本发明的再一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S302,建立广义特征词库;
步骤S304,对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签;
步骤S306,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S308,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在本发明的一个实施例中,图4示出了本发明的又一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S402,建立广义特征词库;
步骤S404,对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签;
步骤S406,使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵;
步骤S408,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构,读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在本发明的一个实施例中,图5示出了本发明的又一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S502,建立广义特征词库;
步骤S504,对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签;
步骤S506,使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵;
步骤S508,将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该实施例中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在本发明的一个实施例中,图6示出了本发明的又一个实施例的文本分类方法的流程示意图,该方法包括:
步骤S602,建立广义特征词库;
步骤S604,调用广义特征词库处理待分类文本;
步骤S606,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
步骤S608,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果;
步骤S610,调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该实施例中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
本发明第二方面的实施例,提出一种文本分类系统700,图7a示出了本发明的一个实施例的文本分类系统700的示意框图,该系统包括:
第一建立单元702,用于建立广义特征词库;
处理单元704,用于调用广义特征词库处理待分类文本;
第二建立单元706,用于对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
输出单元708,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
本发明提供的文本分类系统700,包括第一建立单元702、处理单元704、第二建立单元706和输出单元708。首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本发明无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类系统中,不仅能够得到文本分类模型,还能够得到文本分类结果。
在本发明的一个实施例中,图7b示出了本发明的另一个实施例的文本分类系统700的示意框图,该系统包括:
第一建立单元702,用于建立广义特征词库,包括获取单元710,用于获取语料,清除语料中的同质化数据;存储单元712,用于对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库;
处理单元704,用于调用广义特征词库处理待分类文本;
第二建立单元706,用于对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
输出单元708,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。
在该实施例中,首先通过获取单元710从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本发明提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。
在本发明的一个实施例中,优选地,处理单元704具体用于:对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签。
在该实施例中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。
在本发明的一个实施例中,优选地,第二建立单元706具体用于:使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符建立特征向量矩阵。
在该实施例中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。
在本发明的一个实施例中,优选地,输出单元708具体用于:将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。
在该实施例中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。
在本发明的一个实施例中,图7c示出了本发明的再一个实施例的文本分类系统700的示意框图,该系统包括:
第一建立单元702,用于建立广义特征词库;
处理单元704,用于调用广义特征词库处理待分类文本;
第二建立单元706,用于对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;
输出单元708,用于将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果;
优化单元714,用于调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。
在该实施例中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。
其中,核函数使用线性核函数效果更佳。
本发明第三方面的实施例,提出一种计算机装置800,图8示出了本发明的一个实施例的计算机装置800的示意框图,包括存储器802、处理器804及存储在存储器802上并可在处理器804上运行的计算机程序,处理器804执行计算机程序时实现如上述的文本分类方法。
本发明提供的计算机装置800,通过处理器804执行计算机程序时实现如上述任一项中的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
本发明第四方面的实施例,提出一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器804执行时实现如上述的文本分类方法。
本发明提供的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器804执行时实现如上述的文本分类方法,实现无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。
在本发明中,术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文本分类方法,其特征在于,包括:
建立广义特征词库;
调用所述广义特征词库处理待分类文本;
对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵;
将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果;
所述建立广义特征词库的步骤,具体包括:
获取语料,清除所述语料中的同质化数据;
对清除同质化数据后的所述语料进行分类,采用TopN算法对分类后的所述语料中的数据进行排序,提取排序后的所述语料中的前N个数据,并将所述前N个数据存储在文档中,对所述文档进行处理,以建立所述广义特征词库;
所述调用所述广义特征词库处理待分类文本的步骤,具体包括:
对所述待分类文本进行预处理,并调用所述广义特征词库对预处理后的所述待分类文本进行正则匹配,生成新待分类文本,并得到所述新待分类文本的多分类标签;
所述对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵的步骤,具体包括:
使用分词工具对所述新待分类文本进行分词,得到文本词集;
对所述文本词集进行分字处理,形成字符,通过TF-IDF算法将所述字符转换成所述特征向量矩阵;
其中,广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语。
2.根据权利要求1所述的文本分类方法,其特征在于,所述将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果的步骤,具体包括:
将所述特征向量矩阵转换为所述文本分类器的一个输入向量,并将所述多分类标签转换为所述文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成所述文本分类模型,并输出所述待分类文本的分类结果;
其中,所述文本分类器为SVM分类器,所述分类结果为所述待分类文本分类的准确率和TopN排序。
3.根据权利要求1所述的文本分类方法,其特征在于,在所述将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果的步骤之后,还包括:
调整所述文本分类模型中的参数,并调用核函数对所述文本分类模型进行训练,以实现对所述文本分类模型的优化。
4.一种文本分类系统,其特征在于,包括:
第一建立单元,用于建立广义特征词库;
处理单元,用于调用所述广义特征词库处理待分类文本;
第二建立单元,用于对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵;
输出单元,用于将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果;
所述第一建立单元还包括:
获取单元,用于获取语料,清除所述语料中的同质化数据;
存储单元,用于对清除同质化数据后的所述语料进行分类,采用TopN算法对分类后的所述语料中的数据进行排序,提取排序后的所述语料中的前N个数据,并将所述前N个数据存储在文档中,对所述文档进行处理,以建立所述广义特征词库;
所述处理单元具体用于:
对所述待分类文本进行预处理,并调用所述广义特征词库对预处理后的所述待分类文本进行正则匹配,生成新待分类文本,并得到所述新待分类文本的多分类标签;
所述第二建立单元具体用于:
使用分词工具对所述新待分类文本进行分词,得到文本词集;
对所述文本词集进行分字处理,形成字符,通过TF-IDF算法将所述字符转换成所述特征向量矩阵;
其中,广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语。
5.根据权利要求4所述的文本分类系统,其特征在于,所述输出单元具体用于:
将所述特征向量矩阵转换为所述文本分类器的一个输入向量,并将所述多分类标签转换为所述文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成所述文本分类模型,并输出所述待分类文本的分类结果;
其中,所述文本分类器为SVM分类器,所述分类结果为所述待分类文本分类的准确率和TopN排序。
6.根据权利要求4所述的文本分类系统,其特征在于,还包括:
优化单元,用于调整所述文本分类模型中的参数,并调用核函数对所述文本分类模型进行训练,以实现对所述文本分类模型的优化。
7.一种计算机装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的文本分类方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的文本分类方法。
CN201810259463.8A 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置 Expired - Fee Related CN108520030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810259463.8A CN108520030B (zh) 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810259463.8A CN108520030B (zh) 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置

Publications (2)

Publication Number Publication Date
CN108520030A CN108520030A (zh) 2018-09-11
CN108520030B true CN108520030B (zh) 2022-02-11

Family

ID=63434100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810259463.8A Expired - Fee Related CN108520030B (zh) 2018-03-27 2018-03-27 文本分类方法、文本分类系统及计算机装置

Country Status (1)

Country Link
CN (1) CN108520030B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241288A (zh) * 2018-10-12 2019-01-18 平安科技(深圳)有限公司 文本分类模型的更新训练方法、装置及设备
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN111143548A (zh) * 2018-11-02 2020-05-12 北大方正集团有限公司 图书分类方法、装置、设备及计算机可读存储介质
CN109857868A (zh) * 2019-01-25 2019-06-07 北京奇艺世纪科技有限公司 模型生成方法、文本分类方法、装置及计算机可读存储介质
CN109947941A (zh) * 2019-03-05 2019-06-28 永大电梯设备(中国)有限公司 一种基于电梯客服文本分类的方法和系统
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN111309904A (zh) * 2020-01-20 2020-06-19 上海市大数据中心 一种基于广义特征词库的公共数据分级方法
CN111782811A (zh) * 2020-07-03 2020-10-16 湖南大学 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN112307209B (zh) * 2020-11-05 2024-04-26 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN112364837A (zh) * 2020-12-09 2021-02-12 四川长虹电器股份有限公司 一种基于目标检测和文本识别的票据信息识别方法
CN113946682B (zh) * 2021-12-21 2022-03-11 北京大学 基于自适应图神经网络的敏感文本检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法
CN104573030A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种文本情绪预测方法及装置
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN107609121B (zh) * 2017-09-14 2021-03-30 暨南大学 基于LDA和word2vec算法的新闻文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法
CN104573030A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种文本情绪预测方法及装置
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于维基百科构建语义知识库及其在文本分类领域的应用研究;苏小康;《中国优秀硕士学位论文全文数据库信息科技辑》;20101015;正文第18页至第40页 *
苏小康.基于维基百科构建语义知识库及其在文本分类领域的应用研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2010, *

Also Published As

Publication number Publication date
CN108520030A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108520030B (zh) 文本分类方法、文本分类系统及计算机装置
Chen et al. Page segmentation of historical document images with convolutional autoencoders
CN113077388B (zh) 一种数据增广的深度半监督超限学习图像分类方法及系统
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
Yang et al. Sentiment analysis of Weibo comment texts based on extended vocabulary and convolutional neural network
Obaidullah et al. Numeral script identification from handwritten document images
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN107862051A (zh) 一种文件分类方法、系统及一种文件分类设备
CN108595426B (zh) 基于汉字字形结构性信息的词向量优化方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
Castellanos et al. Document Analysis of Music Score Images with Selectional Auto-Encoders.
Cheekati et al. Telugu handwritten character recognition using deep residual learning
CN111639185A (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
Suganya et al. Feature selection for an automated ancient Tamil script classification system using machine learning techniques
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
Sudarsan et al. Digitalization of malayalam palmleaf manuscripts based on contrast-based adaptive binarization and convolutional neural networks
CN116561639A (zh) 一种面向开源情报的多模态数据情感分析方法
Choudhary et al. Offline handwritten mathematical expression evaluator using convolutional neural network
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
Soumya et al. Recognition of historical records using Gabor and zonal features
Hegadi Classification of kannada numerals using multi-layer neural network
Bannigidad et al. Historical Kannada handwritten character recognition using machine learning algorithm
CN113297376A (zh) 基于元学习的法律案件风险点识别方法及系统
Vidya et al. Classification of handwritten document image into text and non-text regions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220211

CF01 Termination of patent right due to non-payment of annual fee