CN107346433A - 一种文本数据分类方法及服务器 - Google Patents
一种文本数据分类方法及服务器 Download PDFInfo
- Publication number
- CN107346433A CN107346433A CN201610296812.4A CN201610296812A CN107346433A CN 107346433 A CN107346433 A CN 107346433A CN 201610296812 A CN201610296812 A CN 201610296812A CN 107346433 A CN107346433 A CN 107346433A
- Authority
- CN
- China
- Prior art keywords
- supporting vector
- training set
- feature words
- target
- disaggregated model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 309
- 238000012549 training Methods 0.000 claims abstract description 220
- 238000012360 testing method Methods 0.000 claims abstract description 200
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 238000012706 support-vector machine Methods 0.000 claims abstract description 10
- 239000012141 concentrate Substances 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 235000005911 diet Nutrition 0.000 description 6
- 230000037213 diet Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 125000003118 aryl group Chemical group 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本数据分类方法及服务器,该方法包括:服务器通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试,第一训练集和第一测试集均包含多个支持向量,每个支持向量包含K个与K个特征词对应的权重因子,每个特征因子对应一个特征词;根据目标支持向量的权重因子和第一分类模型中的参数计算K个特征词中每个特征词在目标支持向量中的相对权重;通过SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试,第二训练集和第二测试集中的支持向量均包含K个特征词中的除目标特征词以外的特征词对应的权重因子。采用本发明,能够降低分类模型分类的错误率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本数据分类方法及服务器。
背景技术
支持向量机(英文:Support Vector Machine,简称:SVM)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析等。图1是现有技术中基于SVM算法进行数据分类的流程示意图,具体包括:
分类服务器获取已分类的文本数据并通过预设的分词算法提取该已分类的文本数据中的特征词。计算各个特征词的权重并通过向量分别表示每个特征词的权重。将得到的向量中的一部分向量作为训练集,以及将得到的向量中的另一部分向量作为测试集。通过SVM训练系统对该训练集中的向量进行分析以得到模型文件,通过该模型文件对该测试集中的向量分类。参照预先分类的结果判断通过该分类模型分类的结果的错误率是否在预设范围内,若错误率不在预设范围内,则重新获取训练集并基于获取的新训练集计算模型文件,若错误率在预设范围内,则将该模型文件作为对文本数据进行分类的模型。然后,获取未分类数据并通过预设的分词算法提取该未分类数据中的特征词;计算各个特征词的权重并通过向量表示特征词的权重;通过分类的错误率落入预设范围的模型文件对该向量分类并输出分类结果。
现有技术的缺陷在于,当分类模型分类结果的错误率超出预设范围时,重新获取的训练集具有偶然性,不一定能够降低该模型文件分类的错误率。
发明内容
本发明实施例公开了一种文本数据分类方法及服务器,能够降低分类模型分类的错误率。
第一方面,本发明实施例提供一种文本数据分类方法,该方法包括:
服务器通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试,所述第一训练集和所述第一测试集均包含多个支持向量,每个支持向量包含K个与K个特征词对应的权重因子,每个所述权重因子对应一个特征词,所述权重因子的数值大小与所述权重因子对应的特征词在所述支持向量描述的文本数据中出现的次数成正相关,K为大于1的正整数;
所述服务器根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,所述目标支持向量为所述第一测试集中利用所述第一分类模型得到的分类测试结果与预设分类不相符的支持向量;
所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试,所述第二训练集和所述第二测试集中的支持向量均包含所述K个特征词中的除目标特征词以外的特征词对应的权重因子,所述目标特征词为所述目标支持向量中的相对权重小于第一预设阈值的特征词;如果通过所述第二分类模型分类测试得到的分类错误率不高于目标预设阈值时,确认使用所述第二分类模型对待分类的文本数据进行分类。可选的,特征词在该目标支持向量中的权重与该特征词在该目标支持向量对应的文本数据中的出现的次数成正相关,该权重可以通过权重因子来表示;该特征词在该第一训练集中的权重具体指该特征词在该第一训练集中各个支持向量中的权重进行加权得到的权重,例如,该第一训练集中包含支持向量X1、X2、X3和X4,将特征词1在X1中的权重、特征词1在X2中的权重、特征词1在X3中的权重和特征词1在X3中的权重相加,并将相加得到的值除以4得到的值为该特征词1在该第一训练集中的相对权重。
通过执行上述步骤,服务器基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
结合第一方面,在第一方面的第一种可能的实现方式中,所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述方法还包括:
所述服务器获取目标特征词,所述目标特征词是指在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
所述服务器将所述第一训练集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二测试集。
结合第一方面,在第一方面的第二种可能的实现方式中,所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述方法还包括:
所述服务器根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重;
所述服务器获取目标特征词,所述目标特征词是指在所述第一训练集中的相对权重小于第二预设阈值,且在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
所述服务器将所述第一训练集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二测试集。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述第一训练集中包含N个支持向量;所述服务器根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重包括:
所述服务器通过公式T(i)=θ*(a1*x1i+a2*x2i+…+aN*xNi)计算第i个特征词在所述第一训练集中的相对权重T(i),通过对i取1到K之间的正整数来计算每个特征词在所述第一训练集中的相对权重,其中,aN为所述N个支持向量中的第N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子。
结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述服务器根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重包括:
所述服务器通过公式f(i)=β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i计算第i个特征词在所述目标支持向量中的相对权重f(i),通过对i取1到K之间的正整数来计算每个特征词在所述目标支持向量中的相对权重;其中,aN为所述N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子,y1i为所述第i个特征词在所述目标支持向量中的权重因子。
结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,在第一方面的第五种可能的实现方式中,所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述方法还包括:
所述服务器判断通过所述第一分类模型分类测试得到的分类错误率是否高于所述目标预设阈值;
若高于,则执行所述通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试的步骤。
具体地,在计算出第一分类模型分类的错误率高于目标预设阈值时才从该第一训练集和第一测试集中删除一些特征,而不是在每次计算出第一分类模型就删除特征,降低了服务器的开销。
第二方面,本发明实施例提供一种服务器,所述服务器包括处理器和存储器,其中:
所述存储器用于存储指令和数据;
所述处理器,用于读取所述存储器中存储的指令和数据,执行如下操作:
通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试,所述第一训练集和所述第一测试集均包含多个支持向量,每个支持向量包含K个与K个特征词对应的权重因子,每个所述权重因子对应一个特征词,所述权重因子的数值大小与所述权重因子对应的特征词在所述支持向量描述的文本数据中出现的次数成正相关,K为大于1的正整数;
根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,所述目标支持向量为所述第一测试集中利用所述第一分类模型得到的分类测试结果与预设分类不相符的支持向量;
通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试,当通过所述第二分类模型分类测试得到的分类错误率低于目标预设阈值时,所述第二分类模型用于对文本数据分类;所述第二训练集和所述第二测试集中的支持向量均包含所述K个特征词中的除目标特征词以外的特征词对应的权重因子,所述目标特征词为所述目标支持向量中相对权重小于第一预设阈值的特征词。
通过执行上述操作,服务器基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
结合第二方面,在第二方面的第一种可能的实现方式中,所述处理器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,还用于:
获取目标特征词,所述目标特征词是指在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
将所述第一训练集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二测试集。
结合第二方面,或者第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述处理器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述处理器还用于:
根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重;
获取目标特征词,所述目标特征词是指在所述第一训练集中的相对权重小于第二预设阈值,且在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
将所述第一训练集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二测试集。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述处理器根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重,具体为:
通过公式T(i)=θ*(a1*x1i+a2*x2i+…+aN*xNi)计算第i个特征词在所述第一训练集中的相对权重T(i),通过对i取1到K之间的正整数来计算每个特征词在所述第一训练集中的相对权重,其中,aN为所述N个支持向量中的第N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子。
结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,或者第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现中,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述处理器根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,具体为:
通过公式f(i)=β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i计算第i个特征词在所述目标支持向量中的相对权重f(i),通过对i取1到K之间的正整数来计算每个特征词在所述目标支持向量中的相对权重;其中,aN为所述N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子,y1i为所述第i个特征词在所述目标支持向量中的权重因子。
结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,或者第二方面的第三种可能的实现方式,或者第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现中,所述处理器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述处理器还用于:
判断通过所述第一分类模型分类测试得到的分类错误率是否高于所述目标预设阈值;
若高于,则执行所述通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试的操作。
具体地,在计算出第一分类模型分类的错误率高于目标预设阈值时才从该第一训练集和第一测试集中删除一些特征,而不是在每次计算出第一分类模型就删除特征,降低了服务器的开销。
第三方面,本发明实施例提供一种服务器,所述服务器包括用于执行本发明实施例第一方面任一实现方式的部分或全部步骤的功能单元。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或多个计算机程序,所述服务器通过运行所述一个或多个计算机程序来执行上述第一方面的数据分类方法。
通过实施本发明实施例,服务器基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是现有技术中基于SVM算法进行数据分类的流程示意图;
图2是本发明实施例提供的一种网页分类的场景示意图;
图3是本发明实施例提供的一种获得特征向量的流程示意图;
图4A是本发明实施例提供的一种文本数据分类方法的流程示意图;
图4B是本发明实施例提供的一种网页数据分类的场景示意图;
图4C是本发明实施例提供的又一种网页数据分类的场景示意图;
图4D是本发明实施例提供的又一种网页数据分类的场景示意图;
图5是本发明实施例提供的一种服务器的结构示意图;
图6是本发明实施例提供的又一种服务器的结构示意图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述。本发明实施例可以应用于各种文本数据分类场景,不管哪种场景都需要先将该被分类的文本数据根据其特征量化为特征向量,然后将该特征向量作为SVM的样本集或对该特征向量净化后作为SVM的样本集,并基于该样本集建立分类模型。
请参照图2,图2是本发明实施例提供的一种网页分类的场景示意图,网页分类的场景是本发明实施例的一种可选的应用场景,该场景下包含如下步骤:
步骤一:分类服务器通过爬虫服务器获取大量的超级文本标记语言(英文:HyperText Markup Language,简称:HTML)页面。
步骤二:该分类服务器对大量HTML页面的文本内容进行解析、分词、特征提取、特征权重计算等处理,例如,解析出HTML页面中标题(Title)字段、关键词(Keyword)字段、描述(Description)字段、锚文本字段中的文本内容,通过分词算法将该文本内容拆分成多个单词,形成单词集合;该单词集合中有些单词是描述网页特征的特征词,有些单词是串联不同词语的连接词,需要先提取特征词形成特征词集,再从该特征词集中选择特征词形成特征集;各个特征的重要性可能存在区别,因此需要计算各个特征的权重,例如,根据词频-逆文档频率(英文:term frequency–inverse document frequency,简称TF-IDF)算法计算各个特征的权重,该TF-IDF算法具体通过各个特征出现的次数来衡量各个特征的权重;计算出特征的权重后通过向量将该特征词的权重量化,形成这些特征的特征向量。对大量HTML页面进行处理后即可得到各个HTML页面的特征向量,得到特征向量的流程如图3所示。
步骤三:该分类服务器对得到的大量特征向量进行净化,剔除一些对后续分类作用不大的特征向量,例如,通过K均值(K-means)算法来对该大量特征向量进行净化。净化后的特征向量可以作为输入到SVM中的样本集。
步骤四:该分类服务器通过SVM对样本集进行训练和测试,得到分类模型。
步骤五:该分类服务器通过该分类模型对后续获取的HTML页面进行分类,并将该HTML页面的分类结果以及该HTML的统一资源定位符(英文:UniformResource Locator,简称:URL)关联发送给URL库。
第六步:网关设备接收到终端用户通过浏览器或者互联网(web)代理服务器上网时发到外网的报文,先识别出HTTP Get报文并对HTTP Get报文进行解析以获取主机(HOST)和URL字段;从该URL库查询该URL关联的分类,然后执行分类对应的操作策略,例如,阻断、重定向、推送告警页面等操作。
请参见图4A,图4A是本发明实施例提供的一种文本数据分类方法的流程示意图;无论是网页分类场景下得到的样本集还是其他场景下得到的样本集均可以通过该流程来分类,该流程包含如下步骤:
步骤S401:服务器通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试。
具体的,该服务器即是指分类服务器,该服务器先从输入的样本集中选择一部分支持向量作为训练集,并选择另一部分支持向量作为测试集。为了与后续将描述到的训练集和测试集进行区分,本步骤中该服务器选择的训练集可称为第一训练集,选择的测试集可称为第一测试集。该第一训练集中存在N个支持向量,该第一测试集中存在M个支持向量,该N个支持向量中的每个支持向量以及该M个支持向量中的每个支持向量均由K个特征词对应的权重因子组成,M、N、K均为大于1的正整数;该第一训练集中的N个支持向量如表1所示:
特征词1 | 特征词2 | 特征词3 | … | 特征词K | |
X1 | x11 | x12 | x13 | … | x1K |
X2 | x21 | x22 | x23 | … | x2K |
… | … | … | … | … | |
XN | xN1 | xN2 | xN3 | … | xNK |
表1
在表1中示出了支持向量X1(x11,x12,x13,…,x1K)、支持向量X2(x21,x12,x23,…,x2K)、支持向量XN(xN1,xN2,xN3,…,xNK),每个支持向量均包含了特征词1到特征词K的权重因子。举例来说,该X1、X2、XN分别为第一网页、第二网页、第N网页量化后的特征向量,该权重因子具体指特征词在文本数据中出现的次数,那么权重因子x11为“特征词1”在第一网页中出现的次数,权重因子x12为“特征词2”在第一网页中出现的次数,权重因子x13为“特征词3”在第一网页中出现的次数,权重因子x1K为“特征词K”在第一网页中出现的次数;进一步地,权重因子x21为“特征词1”在第二网页中出现的次数,权重因子x22为“特征词2”在第二网页中出现的次数,权重因子x23为“特征词3”在第二网页中出现的次数,权重因子xNK为“特征词K”在第N网页中出现的次数;表1中的其余参数可以依次类推。
以上对该第一训练集中的支持向量包含K个特征词的权重因子进行了举例说明,该第一测试集中的各个支持向量包该K个特征词的权重因子的情况与该第一训练集中的各个支持向量包含权重因子的情况相同,此处不再赘述。
在本发明实施例中,该第一训练集和第一测试集中的支持向量都预先分类好了,该分类可以由人工标记的方式来分类,也可以由一些设备通过聚类算法来进行分类。例如,在网页归类的场景下,可以先获取的大量的“酒类”和“饮食类”的网页的进行人工归类,通过将“酒类”网页的支持向量标记为1,将“饮食类”网页的支持向量标记为-1来对“酒类”网页和“饮食类”网页分类。
该服务器像现有技术一样通过SVM算法对该第一训练集进行迭代计算,该迭代计算的过程即是归纳同类支持向量的共性以及异类支持向量的区别的过程。该迭代计算会得到第一分类模型文件,该第一分类模型能够体现同类支持向量的共性以及异类支持向量的区别。该第一分类模型包含用于表征各个支持向量在该第一训练集中权重的向量系数,在一种可选的方案中,该第一训练集中各个支持向量的向量系数可以具体为该各个支持向量的拉格朗日系数,假设支持向量X1、X2、X3、….、XN的拉格朗日系数依次为a1、a2、a3、…、aN,那么a1用于表征支持向量X1在该第一训练集的所有支持向量中的权重,a2用于表征支持向量X2在该第一训练集的所有支持向量中的权重,其余同类参数依次类推。
该服务器基于得到的第一分类模型文件对第一测试集中的支持向量进行测试,具体过程包括通过该第一分类模型对该第一测试集中的支持向量分类,得到该第一测试集中各个支持向量的分类结果,然后将该分类结果与该第一测试集中各个支持向量预先分类好的分类结果进行对比,找出通过该第一分类模型分类的分类结果与预先分类的分类结果不一致的支持向量,为了方便后续描述可以称该不一致的支持向量为目标支持向量。
步骤S402:所述服务器根据目标支持向量的权重因子和该第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重。
具体地,本发明实施例不仅要考虑特征词1、特征词2、特征词3、…、特征词K在该目标支持向量中的权重,还要考虑特征词1、特征词2、特征词3、…、特征词K在该第一训练集中的权重;可选的,特征词在该目标支持向量中的权重与该特征词在该目标支持向量描述的文本数据中的出现的次数成正相关,上述权重因子表示的即是该权重;该特征词在该第一训练集中的相对权重具体指该特征词在该第一训练集中各个支持向量中的权重进行加权平均后得到的权重,例如,该第一训练集中包含支持向量X1、X2、X3和X4,将特征词1在X1中的权重、特征词1在X2中的权重、特征词1在X3中的权重和特征词1在X3中的权重相加,并将相加得到的值除以4得到的值为该特征词1在该第一训练集中的相对权重。结合特征词在目标支持向量中的权重和该特征词在第一训练集中的相对权重计算得到的权重为该特征词在该目标支持向量中的相对权重。假设该目标支持向量为Y1(y11,y12,y13,…,y1K),权重因子y11、y12、y13、…、y1K依次表征特征词1、特征词2、特征词3、…、特征词K在该目标支持向量Y1中的权重。
在一种可选的方案中,可以通过公式1-1计算该相对权重,公式1-1如下:
f(i)=β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i 1-1
f(i)为目标支持向量中第i个特征词在所述目标支持向量中的相对权重,通过对i取1到K之间的正整数来计算每个特征词在所述目标支持向量中的相对权重;y1i为特征词i在所述目标支持向量中的权重因子。在该公式中的(a1*x1i+a2*x2i+…+aN*xNi)相当于对该第一训练集中每个支持向量中的特征词i进行加权,能够反映特征词i在该第一训练集中的相对权重;因此β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i能够表征本发明实施例所描述的第i个特征词在该目标支持向量中的相对权重。进一步的,该公式中的β可以为预先设置的固定值或者函数,若未对β进行配置则默认为β=1。
在一种可选的方案中,β可以由公式1-2和公式1-3计算得到,公式1-2和公式1-3如下:
公式1-3中的i依次取1到K的正整数计算出sum(1)、sum(2)、…、sum(K),sum(1)、sum(2)、…、sum(K)中的最大值为公式1-2中的MAX_sum,sum(1)、sum(2)、…、sum(K)中的最小值为公式1-2中的MIN_sum。
在又一种可选的方案中,β可以由公式1-4和1-3计算得到,公式1-4如下:
在又一种可选的方案中,β可以由公式1-5和1-3计算得到,公式1-5如下:
在又一种可选的方案中,当i在公式1-1中取某个值导致f(i)为负数时,对应的f(i)取0。
在又一种可选的方案中,当i在公式1-1中取某个值导致f(i)为正数时,对应的f(i)取0。
所述服务器根据目标支持向量中的权重因子和该第一分类模型中的参数计算出每个特征词在该目标支持向量中的相对权重后,将计算得到的相对权重中相对权重小于第一预设阈值的相对权重对应的特征词的权重因子从该第一训练集和第一测试集中删掉,该第一预设阈值可以为预先设置的固定值或者函数,例如,该预设阈值为计算得到的相对权重从大到小排在倒数第5位的相对权重。
举例来说,当计算出特征词1在该目标支持向量中的相对权重小于第一预设阈值时,将支持向量X1中的x11、支持向量X2中的x21、…、支持向量XN中的xN1删掉,得到的新的支持向量依次为X1(x12,x13,…,x1K)、X2(x12,x23,…,x2K)、…、XN(xN2,xN3,…,xNK),为了方便后续描述可以称该新的支持向量X1、X2、…、XN组成的集合为第二训练集。同样的,第一测试集中用来描述该特征词1的权重因子也删除掉,删除该权重因子后的支持向量组成的集合为第二测试集。
在一种可选的方案中,在从该第一训练集中删除某个特征词的权重因子得到第二训练集以及从该第一测试集中删除该某个特征词的权重因子得到第二测试集之前,该服务器还要判断该特征词在该第一训练集中的相对权重是否小于第二预设阈值,在一种可选的方案中,可以通过公式1-6来计算各个特征词在该第一训练集中的相对权重,公式1-6如下:
T(i)=θ*(a1*x1i+a2*x2i+…+aN*xNi) 1-6
公式1-6中的i可以取1到K之间的任意正整数来计算任意特征词在该第一训练集中的相对权重,例如,i取1可以计算特征词1在该第一训练集中的相对权重,i取2可以计算特征词2在该第一训练集中的相对权重,其余可以依此类推。该第二预设阈值可以为预先设置的固定值或者函数。当某个特征词在该目标支持向量中的相对权重小于第一预设阈值时,通过公式1-6计算该某个特征词在该第一训练集中的相对权重,然后将该某个特征词在该第一训练集中的相对权重与第二预设阈值进行比较。当该某个特征词在该第一训练集中的相对权重也小于该第二预设阈值时,才将该某个特征词的权重因子从该第一训练集中删掉以得到第二训练集,以及将该某个特征词的因子从该第一测试集中删掉以得到第二测试集。
在一种又可选的方案中,i依次取1到K之间的正整数代入到公式1-6中计算得到各个特征词在该第一训练集中的相对权重,然后对各个特征词在该第一训练集中的相对权重排序。如果某个特征词在该目标支持向量中的相对权重小于第一预设阈值,且该某个特征词在该第一训练集中的相对权重在该排序中的排列序号落入预设的序号区间,例如,倒数第5位以内,则将该某个特征词的权重因子从该第一训练集中删掉以得到第二训练集,以及将该某个特征词的权重因子从该第一测试集中删掉以得到第二测试集。
在一种可选的方案中,本发明实施例中的所描述的目标支持向量可能存在多个。当存在多个时,需要根据该多个目标支持向量分别计算出目标特征词,然后从该第一训练集中删除计算出的目标特征词的权重因子以得到第二训练集,以及从该第一测试集中删除计算出的目标特征词的权重因子以得到第二测试集。
在又一种可选的方案中,当该服务器通过计算得到的第一分类模型对该第一测试集中的支持向量进行测试时,若通过该第一分类模型分类的结果与预先的分类结果相比错误率高于目标预设阈值,才执行步骤S402,例如,该目标预设阈值设置为99.5%。
步骤S403:所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试。
具体地,得到第二训练集和第二测试集后,再次通过SVM算法对该第二训练集中的支持进行分析,得到新的分类模型,为了方便后续描述,可称该新的分类模型为第二分类模型,然后基于该第二分类模型来对该第二测试集中的支持向量进行测试。在一种可选的方案中,若测试的错误率还是高于目标预设阈值则按照步骤S402的原理,再次从该第二训练集和第二测试集中删除权重因子,直至错误率不高于该目标预设阈值。
现结合图4B~4D所描述的实例讲述如何基于图4A所示的数据分类方法对网页数据分类。
请参见图4B,先获取描述饮食类网页数据的向量360条和描述酒类网页数据的向量1903条,并对获取的这些向量进行预处理,预处理后的向量的集合为样本集,样本集中的每个向量对应有种类标识,种类标识411等于1用于标识饮食类网页数据,种类标识412等于-1用于标识酒类网页数据;预处理后的每个向量还对应有多个特征编号413,每个特征编号413对应一个权重因子414,在图4B中,每个特征编号413与对应的权重因子之间通过冒号隔开。不同特征之间用空格或对齐符隔开。取该样本集中一部分向量作为训练集,以及取该样本集中的又一部分作为测试集。
请参见图4C,将训练集代入到SVM中训练后生成分类模型文件,该分类模型文件包含各个向量的拉格朗日系数421。可选的,分别计算出每个特征词在该训练集中的相对权重,并对特征词的权重进行排序,图4C中示出了部分饮食类特征词及其在该训练集中的相对权重的排序,以及部分酒类特征词及其在该训练集中的相对权重排序。
请参见图4D,将测试集中的向量代入到该分类模型文件中测试。当测试结果表明该分类模型文件的分类错误率高于目标预设阈值时,获取该测试集中分类出现错误的向量,可称该出现错误的向量为目标支持向量。计算该各个特征词在该目标支持向量中的相对权重。在一种可选的方案中,当某个特征在该目标支持向量中相对权重小于第一预设阈值时,将该特征词从该训练集和该测试集中删除。在又一种可选的方案中,当某个特征在该目标支持向量中相对权重小于第一预设阈值时,且该某个特征在该训练集中的相对权重小于第二预设阈值时,将该特征词从该训练集和该测试集中删除。然后基于删除了该某个特征词后形成的新的训练集计算新的分类模型,并将删除了该某个特征词后形成的新的测试集中的向量代入到该新的分类模型中进行测试,直至最终得到的分类模型文件分类的错误率低于目标预设阈值。可选的,删除那些在目标支持向量中的相对权重的同时,还可以删除掉在每个分类中的权重都较大的特征,例如,特征词“香醇”在训练集中的饮食类和酒类中的相对权重都较大,无法通过“香醇”这个词来体现饮食类和酒类的区别,因此可以将特征词“香醇”对应的特征因子从该测试集和训练集中删掉。
在图4A所描述的方法中,服务器基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小。由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
上述详细阐述了本发明实施例的方法,为了便于更好地实施本发明实施例的上述方案,相应地,下面提供了本发明实施例的装置。
请参见图5,图5是本发明实施例提供的一种服务器50,该服务器50包括处理器501和存储器502,所述处理器501和存储器502通过总线相互连接。
存储器502包括但不限于是随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者快闪存储器)、或便携式只读存储器(CD-ROM),该存储器502用于相关指令及数据。存储器502还用于存储第一训练集、第一测试集,以及存储处理器501得到的第二训练集和第二测试集。
处理器501可以是一个或多个中央处理器(英文:Central Processing Unit,简称:CPU),在处理器501是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
所述服务器50中的处理器501用于读取所述存储器502中存储的程序代码后,执行以下操作:
通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试,所述第一训练集和所述第一测试集均包含多个支持向量,每个支持向量包含K个与K个特征词对应的权重因子,每个所述权重因子对应一个特征词,所述权重因子的数值大小与所述权重因子对应的特征词在所述支持向量描述的文本数据中出现的次数成正相关,K为大于1的正整数;
根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,所述目标支持向量为所述第一测试集中利用所述第一分类模型得到的分类测试结果与预设分类不相符的支持向量;
通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试,所述第二训练集和所述第二测试集中的支持向量均包含所述K个特征词中的除目标特征词以外的特征词对应的权重因子,所述目标特征词为所述目标支持向量中相对权重小于第一预设阈值的特征词;
如果通过所述第二分类模型分类测试得到的分类错误率不高于目标预设阈值时,确认使用所述第二分类模型对待分类的文本数据进行分类。
通过执行上述操作,服务器50基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
在一种可选的方案中,所述处理器501通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,还用于:
获取目标特征词,所述目标特征词是指在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
将所述第一训练集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二测试集。
在又一种可选的方案中,所述处理器501通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述处理器501还用于:
根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重;
获取目标特征词,所述目标特征词是指在所述第一训练集中的相对权重小于第二预设阈值,且在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
将所述第一训练集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二测试集。
在又一种可选的方案中,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述处理器501根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重,具体为:
通过公式T(i)=θ*(a1*x1i+a2*x2i+…+aN*xNi)计算第i个特征词在所述第一训练集中的相对权重T(i),通过对i取1到K之间的正整数来计算每个特征词在所述第一训练集中的相对权重,其中,aN为所述N个支持向量中的第N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子。
在又一种可选的方案中,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述处理器501根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,具体为:
通过公式f(i)=β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i计算第i个特征词在所述目标支持向量中的相对权重f(i),通过对i取1到K之间的正整数来计算每个特征词在所述目标支持向量中的相对权重;其中,aN为所述N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子,y1i为所述第i个特征词在所述目标支持向量中的权重因子。
在又一种可选的方案中,所述处理器501通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述处理器501还用于:
判断通过所述第一分类模型分类测试得到的分类错误率是否高于所述目标预设阈值;
若高于,则执行所述通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试的操作。
具体地,在计算出第一分类模型分类的错误率高于目标预设阈值时才从该第一训练集和第一测试集中删除一些特征,而不是在每次计算出第一分类模型就删除特征,降低了服务器50的开销。
本发明实施例中的服务器50的具体实现还可以对应参照图4所示的方法实施例的相应描述。
在图5所描述的服务器50中,服务器50基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
请参见图6,图6是本发明实施例提供的又一种服务器60的结构示意图,该服务器60可以包括分析单元601和计算单元602,分析单元601和计算单元602的详细描述如下。
分析单元601用于通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试,所述第一训练集和所述第一测试集均包含多个支持向量,每个支持向量包含K个与K个特征词对应的权重因子,每个所述权重因子对应一个特征词,所述权重因子的数值大小与所述权重因子对应的特征词在所述支持向量描述的文本数据中出现的次数成正相关,K为大于1的正整数;
计算单元602用于根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,所述目标支持向量为所述第一测试集中利用所述第一分类模型得到的分类测试结果与预设分类不相符的支持向量;
分析单元601还用于通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试,所述第二训练集和所述第二测试集中的支持向量均包含所述K个特征词中的除目标特征词以外的特征词对应的权重因子,所述目标特征词为所述目标支持向量中相对权重小于第一预设阈值的特征词;
如果通过所述第二分类模型分类测试得到的分类错误率不高于目标预设阈值时,确认使用所述第二分类模型对待分类的文本数据进行分类。
通过运行上述单元,服务器60基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
在一种可选的方案中,所述服务器601还包括获取单元和删除单元;
所述获取单元用于在所述分析单元601通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,获取目标特征词,所述目标特征词是指在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
所述删除单元用于将所述第一训练集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二测试集。
在又一种可选的方案中,所述服务器601还包括获取单元和删除单元;
计算单元602还用于在分析单元601通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重;
所述获取单元用于获取目标特征词,所述目标特征词是指在所述第一训练集中的相对权重小于第二预设阈值,且在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
所述删除单元用于将所述第一训练集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二测试集。
在又一种可选的方案中,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;计算单元602根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重,具体为:
通过公式T(i)=θ*(a1*x1i+a2*x2i+…+aN*xNi)计算第i个特征词在所述第一训练集中的相对权重T(i),通过对i取1到K之间的正整数来计算每个特征词在所述第一训练集中的相对权重,其中,aN为所述N个支持向量中的第N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子。
在又一种可选的方案中,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;计算单元602根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,具体为:
通过公式f(i)=β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i计算第i个特征词在所述目标支持向量中的相对权重f(i),通过对i取1到K之间的正整数来计算每个特征词在所述目标支持向量中的相对权重;其中,aN为所述N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子,y1i为所述第i个特征词在所述目标支持向量中的权重因子。
在又一种可选的方案中,所述服务器60还包括判断单元,判断单元用于在分析单元601通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,判断通过所述第一分类模型分类测试得到的分类错误率是否高于所述目标预设阈值;
若高于,则触发分析单元601执行所述通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试的操作。
具体地,在计算出第一分类模型分类的错误率高于目标预设阈值时才从该第一训练集和第一测试集中删除一些特征,而不是在每次计算出第一分类模型就删除特征,降低了服务器60的开销。
本发明实施例中的服务器60的具体实现还可以对应参照图4所示的方法实施例的相应描述。
在图6所描述的服务器60中,服务器60基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
综上所述,通过实施本发明实施例,服务器基于第一分类模型中的参数和目标支持向量中的权重因子计算各个特征词在该目标支持向量中的相对权重大小,由于相对权重较小的目标特征词不能很好的描述该目标支持向量所表示的文本数据的特征,因此将该目标特征词的权重因子从第一训练集和第一测试集中删除掉,分别得到第二训练集和第二测试集以用于重新计算分类模型,避免了目标特征词的权重因子在计算分类模型时产生的负面影响,能够降低该分类模型分类时的错误率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅揭露了本发明中较佳实施例,不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (12)
1.一种文本数据分类方法,其特征在于,包括:
服务器通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试,所述第一训练集和所述第一测试集均包含多个支持向量,每个支持向量包含K个与K个特征词对应的权重因子,每个所述权重因子对应一个特征词,所述权重因子的数值大小与所述权重因子对应的特征词在所述支持向量描述的文本数据中出现的次数成正相关,K为大于1的正整数;
所述服务器根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,所述目标支持向量为所述第一测试集中利用所述第一分类模型得到的分类测试结果与预设分类不相符的支持向量;
所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试,所述第二训练集和所述第二测试集中的支持向量均包含所述K个特征词中除目标特征词以外的特征词对应的权重因子,所述目标特征词为所述目标支持向量中相对权重小于第一预设阈值的特征词;
如果通过所述第二分类模型分类测试得到的分类错误率不高于目标预设阈值时,确认使用所述第二分类模型对待分类的文本数据进行分类。
2.根据权利要求1所述的方法,其特征在于,所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述方法还包括:
所述服务器获取目标特征词,所述目标特征词是指在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
所述服务器将所述第一训练集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二测试集。
3.根据权利要求1所述的方法,其特征在于,所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述方法还包括:
所述服务器根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重;
所述服务器获取目标特征词,所述目标特征词是指在所述第一训练集中的相对权重小于第二预设阈值,且在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
所述服务器将所述第一训练集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二测试集。
4.根据权利要求3所述的方法,其特征在于,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述服务器根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重包括:
所述服务器通过公式T(i)=θ*(a1*x1i+a2*x2i+…+aN*xNi)计算第i个特征词在所述第一训练集中的相对权重T(i),通过对i取1到K之间的正整数来计算每个特征词在所述第一训练集中的相对权重,其中,aN为所述N个支持向量中的第N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述服务器根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重包括:
所述服务器通过公式f(i)=β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i计算第i个特征词在所述目标支持向量中的相对权重f(i),通过对i取1到K之间的正整数来计算每个特征词在所述目标支持向量中的相对权重;其中,aN为所述N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子,y1i为所述第i个特征词在所述目标支持向量中的权重因子。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述服务器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述方法还包括:
所述服务器判断通过所述第一分类模型分类测试得到的分类错误率是否高于所述目标预设阈值;
若高于,则执行所述通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试的步骤。
7.一种服务器,其特征在于,所述服务器包括处理器和存储器,其中:
所述存储器用于存储指令和数据;
所述处理器,用于读取所述存储器中存储的指令和数据,执行如下操作:
通过支持向量机SVM算法对第一训练集进行分析,并根据分析得到的第一分类模型对第一测试集进行分类测试,所述第一训练集和所述第一测试集均包含多个支持向量,每个支持向量包含K个与K个特征词对应的权重因子,每个所述权重因子对应一个特征词,所述权重因子的数值大小与所述权重因子对应的特征词在所述支持向量描述的文本数据中出现的次数成正相关,K为大于1的正整数;
根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,所述目标支持向量为所述第一测试集中利用所述第一分类模型得到的分类测试结果与预设分类不相符的支持向量;
通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试,所述第二训练集和所述第二测试集中的支持向量均包含所述K个特征词中的除目标特征词以外的特征词对应的权重因子,所述目标特征词为所述目标支持向量中相对权重小于第一预设阈值的特征词;
如果通过所述第二分类模型分类测试得到的分类错误率不高于目标预设阈值时,确认使用所述第二分类模型对待分类的文本数据进行分类。
8.根据权利要求7所述的服务器,其特征在于,所述处理器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述处理器还用于:
获取目标特征词,所述目标特征词是指在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
将所述第一训练集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词的权重因子删掉以得到第二测试集。
9.根据权利要求7所述的服务器,其特征在于,所述处理器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述处理器还用于:
根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重;
获取目标特征词,所述目标特征词是指在所述第一训练集中的相对权重小于第二预设阈值,且在所述目标支持向量中的相对权重小于所述第一预设阈值的特征词;
将所述第一训练集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二训练集,并将所述第一测试集中每个支持向量中的所述目标特征词对应的因子删掉以得到第二测试集。
10.根据权利要求9所述的服务器,其特征在于,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述处理器根据所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述第一训练集中的相对权重,具体为:
通过公式T(i)=θ*(a1*x1i+a2*x2i+…+aN*xNi)计算第i个特征词在所述第一训练集中的相对权重T(i),通过对i取1到K之间的正整数来计算每个特征词在所述第一训练集中的相对权重,其中,aN为所述N个支持向量中的第N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子。
11.根据权利要求7~10任一项所述的服务器,其特征在于,所述第一训练集中包含N个支持向量,所述第一分类模型中的参数包括所述第一训练集中各个支持向量的拉格朗日系数;所述处理器根据目标支持向量的权重因子和所述第一分类模型中的参数计算所述K个特征词中每个特征词在所述目标支持向量中的相对权重,具体为:
通过公式f(i)=β*(a1*x1i+a2*x2i+…+aN*xNi)*y1i计算第i个特征词在所述目标支持向量中的相对权重f(i),通过对i取1到K之间的正整数来计算每个特征词在所述目标支持向量中的相对权重;其中,aN为所述N个支持向量的拉格朗日系数,xNi为所述第i个特征词在所述第N个支持向量中的权重因子,y1i为所述第i个特征词在所述目标支持向量中的权重因子。
12.根据权利要求7~11任一项所述的服务器,其特征在于,所述处理器通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试之前,所述处理器还用于:
判断通过所述第一分类模型分类测试得到的分类错误率是否高于所述目标预设阈值;
若高于,则执行所述通过所述SVM算法对第二训练集进行分析,并根据分析得到的第二分类模型对第二测试集进行分类测试的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610296812.4A CN107346433B (zh) | 2016-05-06 | 2016-05-06 | 一种文本数据分类方法及服务器 |
PCT/CN2017/070464 WO2017190527A1 (zh) | 2016-05-06 | 2017-01-06 | 一种文本数据分类方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610296812.4A CN107346433B (zh) | 2016-05-06 | 2016-05-06 | 一种文本数据分类方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107346433A true CN107346433A (zh) | 2017-11-14 |
CN107346433B CN107346433B (zh) | 2020-09-18 |
Family
ID=60202712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610296812.4A Active CN107346433B (zh) | 2016-05-06 | 2016-05-06 | 一种文本数据分类方法及服务器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107346433B (zh) |
WO (1) | WO2017190527A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800139A (zh) * | 2018-12-18 | 2019-05-24 | 东软集团股份有限公司 | 服务器健康度分析方法,装置,存储介质及电子设备 |
CN110555431A (zh) * | 2019-09-10 | 2019-12-10 | 杭州橙鹰数据技术有限公司 | 一种图像识别的方法和装置 |
CN111625645A (zh) * | 2020-05-14 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 文本生成模型的训练方法、装置和电子设备 |
CN111708888A (zh) * | 2020-06-16 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的分类方法、装置、终端和存储介质 |
CN112037911A (zh) * | 2020-08-28 | 2020-12-04 | 北京万灵盘古科技有限公司 | 基于机器学习的精神评估的筛查系统及其训练方法 |
CN113743425A (zh) * | 2020-05-27 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种生成分类模型的方法和装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908774A (zh) * | 2017-11-30 | 2018-04-13 | 云易天成(北京)安全科技开发有限公司 | 一种文件分类方法、存储介质及设备 |
CN108053251B (zh) * | 2017-12-18 | 2021-03-02 | 北京小度信息科技有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN109284285B (zh) * | 2018-09-07 | 2024-05-28 | 平安科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及计算机可读存储介质 |
CN110929025B (zh) * | 2018-09-17 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 垃圾文本的识别方法、装置、计算设备及可读存储介质 |
CN111611353B (zh) * | 2019-02-25 | 2023-08-18 | 北京嘀嘀无限科技发展有限公司 | 筛选方法、装置、电子设备及计算机可读存储介质 |
CN110377727B (zh) * | 2019-06-06 | 2022-06-17 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于多任务学习的多标签文本分类方法和装置 |
CN112632971B (zh) * | 2020-12-18 | 2023-08-25 | 上海明略人工智能(集团)有限公司 | 一种用于实体匹配的词向量训练方法与系统 |
CN112989761B (zh) * | 2021-05-20 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 文本分类方法及装置 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7707129B2 (en) * | 2006-03-20 | 2010-04-27 | Microsoft Corporation | Text classification by weighted proximal support vector machine based on positive and negative sample sizes and weights |
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN103699523A (zh) * | 2013-12-16 | 2014-04-02 | 深圳先进技术研究院 | 产品分类方法和装置 |
CN104239900A (zh) * | 2014-09-11 | 2014-12-24 | 西安电子科技大学 | 基于k均值和深度svm的极化sar图像分类方法 |
CN104866869A (zh) * | 2015-05-29 | 2015-08-26 | 武汉大学 | 基于分布差异与增量学习的时序sar图像分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1332347C (zh) * | 2005-09-23 | 2007-08-15 | 上海交通大学 | 基于迭代特征选择的快速人脸识别方法 |
CN104834940A (zh) * | 2015-05-12 | 2015-08-12 | 杭州电子科技大学 | 一种基于支持向量机的医疗影像检查疾病分类方法 |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学习的不平衡数据分类方法 |
CN105184316B (zh) * | 2015-08-28 | 2019-05-14 | 国网智能电网研究院 | 一种基于特征权学习的支持向量机电网业务分类方法 |
-
2016
- 2016-05-06 CN CN201610296812.4A patent/CN107346433B/zh active Active
-
2017
- 2017-01-06 WO PCT/CN2017/070464 patent/WO2017190527A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7707129B2 (en) * | 2006-03-20 | 2010-04-27 | Microsoft Corporation | Text classification by weighted proximal support vector machine based on positive and negative sample sizes and weights |
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN103699523A (zh) * | 2013-12-16 | 2014-04-02 | 深圳先进技术研究院 | 产品分类方法和装置 |
CN104239900A (zh) * | 2014-09-11 | 2014-12-24 | 西安电子科技大学 | 基于k均值和深度svm的极化sar图像分类方法 |
CN104866869A (zh) * | 2015-05-29 | 2015-08-26 | 武汉大学 | 基于分布差异与增量学习的时序sar图像分类方法 |
Non-Patent Citations (1)
Title |
---|
KARTICK SUBRAMANIAN等: "Database Independent Human Emotion Recognition with Meta-Cognitive Neuro-Fuzzy Inference System", 《2014 IEEE NINTH INTERNATIONAL CONFERENCE ON INTELLIGENT SENSORS,SENSOR NETWORKS AND INFORMATION PROCESSING》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800139A (zh) * | 2018-12-18 | 2019-05-24 | 东软集团股份有限公司 | 服务器健康度分析方法,装置,存储介质及电子设备 |
CN110555431A (zh) * | 2019-09-10 | 2019-12-10 | 杭州橙鹰数据技术有限公司 | 一种图像识别的方法和装置 |
CN110555431B (zh) * | 2019-09-10 | 2022-12-13 | 杭州橙鹰数据技术有限公司 | 一种图像识别的方法和装置 |
CN111625645A (zh) * | 2020-05-14 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 文本生成模型的训练方法、装置和电子设备 |
CN111625645B (zh) * | 2020-05-14 | 2023-05-23 | 北京字节跳动网络技术有限公司 | 文本生成模型的训练方法、装置和电子设备 |
CN113743425A (zh) * | 2020-05-27 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种生成分类模型的方法和装置 |
CN111708888A (zh) * | 2020-06-16 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的分类方法、装置、终端和存储介质 |
CN111708888B (zh) * | 2020-06-16 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的分类方法、装置、终端和存储介质 |
CN112037911A (zh) * | 2020-08-28 | 2020-12-04 | 北京万灵盘古科技有限公司 | 基于机器学习的精神评估的筛查系统及其训练方法 |
CN112037911B (zh) * | 2020-08-28 | 2024-03-05 | 北京万灵盘古科技有限公司 | 基于机器学习的精神评估的筛查系统及其训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107346433B (zh) | 2020-09-18 |
WO2017190527A1 (zh) | 2017-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107346433A (zh) | 一种文本数据分类方法及服务器 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
US20210042664A1 (en) | Model training and service recommendation | |
WO2014173349A1 (zh) | 网页分类标准获取方法、装置及网页分类方法、装置 | |
JP2019519019A5 (zh) | ||
CN106445954B (zh) | 一种业务对象的展示方法和装置 | |
CN107015961A (zh) | 一种文本相似性比对方法 | |
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN110991171A (zh) | 敏感词检测方法及装置 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN110334268B (zh) | 一种区块链项目热词生成方法以及装置 | |
CN101211368B (zh) | 一种对查询词分类的方法、装置及搜索引擎系统 | |
CN111914159A (zh) | 一种信息推荐方法及终端 | |
CN109992665A (zh) | 一种基于问题目标特征扩展的分类方法 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN108121741B (zh) | 网站质量评估方法及装置 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
US20140372090A1 (en) | Incremental response modeling | |
KR102299525B1 (ko) | 제품 평가 마이닝 방법 및 이를 수행하는 장치 | |
CN111611388A (zh) | 账号分类方法、装置和设备 | |
CN111950265A (zh) | 一种领域词库构建方法和装置 | |
CN114329206A (zh) | 标题生成方法和装置、电子设备、计算机可读介质 | |
CN112417858A (zh) | 一种实体权重评分方法、系统、电子设备及存储介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |