CN102194013A

CN102194013A - 一种基于领域知识的短文本分类方法及文本分类系统

Info

Publication number: CN102194013A
Application number: CN2011101724346A
Authority: CN
Inventors: 陈吕祥; 刘敏
Original assignee: SHANGHAI BIJIA DATA CO Ltd
Current assignee: SHANGHAI BIJIA DATA CO Ltd
Priority date: 2011-06-23
Filing date: 2011-06-23
Publication date: 2011-09-21

Abstract

本发明公开了一种基于领域知识的文本分类系统及文本分类方法，用于信息技术领域，以解决传统文本分类方法不能较好的对短文本进行分类的缺点，并针对短文本描述概念信号比较弱，文本特征严重不足的特点，提出一种适用于像商品网页数据这样的短文本数据的分类方法及文本分类系统，本发明实施例对传统分类器加以改造，注入新的元素和致力于算法和数据的匹配应用，得到分类效果优异的商品分类器。其中新的元素包括：引入了领域词语的概念并将其注入到分类器中，有效的增加了短文本的信息量；其次，对短文本数据特别是网页商品数据做基于不同词项集的语义分析，并将语义分析的结果注入到分类器中，为商品数据信息注入了新的信息，从而提高文本分类的准确率。

Description

一种基于领域知识的短文本分类方法及文本分类系统

技术领域

本发明涉及信息技术领域，尤其涉及一种基于领域知识的文本分类方法及文本分类系统。

背景技术

在信息技术飞速发展的今天，用户可通过多种渠道获得大量的信息。例如，通过浏览网页、利用搜索引擎进行信息检索、接收邮件，但常常出现的问题是，海量数据但有效信息缺乏。

例如，在Baidu、google等网页中检索一关键词时，获得大量的包括该关键词的网页链接，其中，有些网页链接能够体现出其对应的网页具备与该关键词相关的内容，有些网页链接的相关性则较差。当用户由于工程浩大不愿或不能遍历到每条数据时，如何从大量数据中获取有效的数据或潜在有用的数据，又或是排除不必要的数据，获得我们所需要的行业内专、精、深的数据信息，是亟待解决的问题。

当前，大量数据以短文本的形式存在，如短信、邮件、网页检索等，尤其是购物网页的数据，若能够实现对商品数据、短信、邮件名称、网页链接进行内在联系的自动分类，再由用户对感兴趣的类别或内容进行逐条读取，将大幅减少用户在定位有效信息时的时间，总之，缩小用户需要逐条察看的范围，可大幅提高用户的查阅便利性和操作效率，改善用户体验。

因此，出现了垂直搜索引擎的概念。垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

在电子商务领域，为了实现垂直购物搜索，最重要的一步就是web数据结构化， web数据结构化主要是针对网页库中的商品数据进行分类、规整、使数据结构化。对于现在web数据结构化目前业内的做法大多数应用基于数据挖掘算法的智能分类技术，但是也有少许地方应用人工干预的方式进行分类。

现有技术中，存在通过计算文本之间的相似度进行类别区分的方法，其通过对文本用其词频向量(或称为文本词频向量，term-frequency vector)表示，然后计算词频向量间的距离得到文本相似度。

例如，目前业内大多数应用基于数据挖掘算法的web文本分类技术，其主要步骤可以分为预处理、文本表示、特征抽取、信息获取（分类器模型建立）、模型评估和应用五个阶段，如图1所示，为现有技术基于数据挖掘算法的WEB文本分类的处理过程。

（1）文本信息预处理亦即文本信息初始化，主要是对文本数据运用分词算法进行分词，除去其中的一些连词；以及在语义结构分析中，除去一些应该删去的语句段等，使得文本信息初始化为词项集，为文本表示做准备。

（2）文本表示一般都采用向量空间模型表示，在这种表示方法中,每篇文档表示成形如d= < t1 , w1 ; t2 , w2 ; ??; tn , wn >的向量，其中ti表示词项，wi表示ti在文档d中的权值，其权值wi一般采用TF-IDF来进行表示。其计算公式为

Figure 2011101724346100002DEST_PATH_IMAGE002

其中tf(ti,d)表示词项ti在文档d中出现的次数，N为训练文总数，n为出现词项ti的训练文本的总数，m为向量维数。

（3）特征抽取是在初始全特征集基础上提取出一个特征子集的过程，能够起到降低向量空间维度、简化计算、防止过度拟合作用。主要做法是依据特征抽取算法对词项集的重要程度进行排序，然后根据提取阈值或提取比例完成提取。

（4）信息获取（模型建立）主要是根据已标注类标签的训练数据，应用一些机器学习算法，建立分类函数的函数，目前主要应用的一些机器学习算法有KNN算法、朴素贝叶斯分类等。

（5）模型的评估和应用直接反应了建立的分类器能否应用，目前分类器的评估方法有：召回率（recall）P评估、准确率（precision）R评估和F1值评估。这三个值的计算方法如下：

Recall=分类正确的条数/应该分到该类的条数

Precision=分类正确的条数/分入到该类的条数

F1=2 * Recall * Precision/( Recall + Precision)

虽然应用上述方法能够实现商品智能分类，但是分类效果上并不理想，所以在大多数网站的数据展现上，数据分类的准确率和类数据的查全率都比较低，效果不是很好。

这主要是由web商品的数据形式决定的，由于大多数现有的计算文本相似度的方法只适用于长文本，传统的计算长文本相似度方法之所以有效，是因为相似的长文本通常包含了一定数量的相同的词汇，但对于短文本，相似的短文本不一定具有相同的词，自然语言的灵活性使得人们可以通过不同的措辞表达相同的意思，尤其对于待分类的数据，其基本上都是文本长度小于50字的短文本，其特点是：描述概念的信号弱，类属性比较强的数据的文本特征却严重不足。因此导致待分类文本矢量带入到分类器中，标注类的特征信息比较弱，导致分类的错误率大大提升。

发明内容

本发明实施例的目的是针对传统文本分类方法不能较好的对短文本进行分类的缺点，并针对短文本描述概念信号比较弱，文本特征严重不足的特点，提出一种适用于像商品网页数据这样的短文本数据的分类方法及文本分类系统，从而提高文本分类的准确率。

为了达到上述发明目的，本发明实施例提出的一种基于领域知识的文本分类系统是通过以下的技术方案实现的：

一种基于领域知识的文本分类系统，所述文本分类系统包括：

训练数据获取模块，用来获取进行模型训练的数据得到训练知识库；

数据预处理模块，用来进行信息抽取以将无结构化的所述数据处理为结构化数据，得到建立模型或模型应用进行分类的原始数据，并对所述原始数据进行特征信息获取，应用基于字符串匹配的分词算法，对原始数据的字段信息进行分词，并应用知识库进行信息提取，得到单位词项、产品参数信息、特殊字符信息和/或领域词项信息；

知识库，用来根据所述特征信息建立模型或模型应用中用到的词项集，其中，所述词项集包括需进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集；

文本表示模块，用来采用向量空间模型对数据进行数学化表示，所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)，其中，attributej表示数据的第j个属性，ti表示词项,wi表示ti在数据sd中的词项权值，所述权值wi采用频数来表示；

特征抽取模块，用来依据TF-IDF算法对词项集的重要性进行排序，并根据预先设定的阈值，抽取低于阈值的数据，再依据DF值设定权值进行反向筛选，得到每个商品类别下的噪声词集；

模型建立模块，用来根据词项在数据中的属性字段，对每一个词项权值赋予不同的权重，并累加得到类别得分，根据预先设定的分类规则，筛选在规则允许下，类别得分最高的类别作为这条数据的类别标签。

进一步优选地，所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库。

进一步优选地，所述数据预处理模块具体包括：

初始化子模块，用来进行信息抽取以将无结构化的所述数据处理为结构化数据，得到建立模型或模型应用进行分类的原始数据，所述原始数据包含各个文本属性等字段信息；

分词子模块，用来对所述原始数据进行特征信息获取，应用基于字符串匹配的分词算法，对字段信息进行分词；

信息提取子模块，用来应用所述知识库进行信息提取，得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和领域词项。

进一步优选地，所述权值wi的计算公式为：

Figure 2011101724346100002DEST_PATH_IMAGE004

其中，f(wi,j)表示词项ti在类别j下的权重，m为类别数。

进一步优选地，所述词项权值还表现为结合语义本体联系规则，即训练数据中类标签和属性词项集之间特定的语义关系。

进一步优选地，所述领域词具体为在领域出现的比重大于阈值的词项，并作为领域之间互相区别的特征词。

进一步优选地，所述领域词通过特征抽取算法获得领域词语候选集，并对所述领域词语候选集进行人工整理获取。

进一步优选地，所述领域词为文本数据中反序第一个词项出现的特征词。

进一步优选地，所述数据p属于类别c的类别得分的计算公式为：

其中，cj（0<j<=p）表示一个数据属于类别c 的得分，

Figure 2011101724346100002DEST_PATH_IMAGE008

表示对于不同数据属性赋予的权值，

表示对于不同词项集赋予不同的权重。

进一步优选地，所述预先设定的规则包括如下：

(1)最大类别得分和最小类别得分差小于某一个特定的数值；

(2)一个类别标签的类别得分不得小于某一个特定的数值。

进一步优选地，所述文本分类系统还包括：

评估模块，用来计算并评估所述文本分类的准确率、召回率和/或F1评估值。

为了实现前述发明目的，本发明实施例还提出了一种基于领域知识的文本分类方法，所述方法是通过以下技术方案实现的：

一种基于领域知识的文本分类方法，所述方法包括以下步骤：

获取进行模型训练的数据得到学习库；

对所述学习库进行信息抽取以将无结构化的数据处理为结构化数据，得到建立模型或模型应用进行分类的原始数据；

对所述原始数据进行特征信息获取，应用基于字符串匹配的分词算法，对原始数据的字段信息进行分词，应用知识库进行信息提取，得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和/或领域词项；

根据获取的特征信息建立模型或模型应用中用到的词项集，其中，所述词项集包括进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集；

采用向量空间模型对数据进行数学化表示，所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)，其中，attributej表示数据的第j个属性，ti表示词项,wi表示ti在数据sd中的词项权值，所述权值wi采用频数来表示；

依据TF-IDF算法对词项集的重要性进行排序，并根据预先设定的阈值，抽取低于阈值的数据，再依据DF值设定阈值进行反向筛选，得到每个类别下的噪声数据集；

根据所述词项集在数据中的属性字段，对词项集中的每一个词项权值赋予不同的权重，并累加得到类别得分，根据预先设定的分类规则，筛选在规则允许下，类别得分最高的类别作为这条数据的类别标签。

进一步优选地，所述原始数据包含名称name、标题title、类标签class或参数param字段信息。

进一步优选地，所述权值wi的计算公式为：

其中，f(wi,j)表示词项ti在类别j下的权重，m为类别数。

其中，cj（0<j<=p）表示一个数据属于类别c 的得分，

表示对于不同数据属性赋予的权值，

表示对于不同词项集赋予不同的权重。

进一步优选地，所述预先设定的规则包括如下：

(1)最大类别得分和最小类别得分差小于某一个特定的数值；

(2)一个类别标签的类别得分不得小于某一个特定的数值。

进一步优选地，所述方法还包括：

计算并评估所述文本分类的准确率、召回率和/或F1评估值。

与现有技术相比，本发明实施例提供的基于商品领域知识的文本分类方法和文本分类系统，适用于像商品网页数据这样的短文本数据的分类，并考虑短文本描述概念信号比较弱，文本特征严重不足的特点，加强对数据的语义分析和基于领域词语的的信息提高短文本的信息量，以及在特征词整理上，不是一味的采取人工整理方法，而是结合商品名称等文本数据的特点，进行语义分析，并利用分词算法，在不改变语义结构的情况下，采取特定算法反向获取领域词语，再进行人工筛选整理；并在文本表示上采取基于频数的权值计算，以及后期对于文本矢量计算类别利用基于不同词项集不同权重的累加计算方法，对训练数据进行语义分析，得到一些基于不同词项集合的语义规则，并将这些规则数学化，并表示在词项的类别权值上，从而得到不同商品类别的标签，完成数据文本的分类。

附图说明

通过下面结合附图对其示例性实施例进行的描述，本发明上述特征和优点将会变得更加清楚和容易理解。

图1为现有技术基于数据挖掘算法的WEB文本分类的处理过程；

图2为本发明实施例1一种基于领域知识的文本分类系统的组成结构图；

图3为本发明实施例1另一种基于领域知识的文本分类系统的组成结构图；

图4为本发明实施例信息的处理过程示意图；

图5为本发明实施例一种基于领域知识的文本分类方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图2所示，为本发明实施例1一种基于领域知识的文本分类系统，所述文本分类系统包括：

训练数据获取模块，用来获取进行模型训练的数据得到学习库；

训练数据获取模块主要是获取进行模型训练的数据，进一步优选地，所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库，即通过对一些类似于B2C网站的数据类别进行解析，利用网络爬虫技术，获取有类标签的数据。

数据预处理模块，用来进行信息抽取以将无结构化的所述数据处理为结构化数据，得到建立模型或模型应用进行分类的原始数据，并对所述原始数据进行特征信息获取，应用基于字符串匹配的分词算法，对原始数据的字段信息进行分词，并应用知识库进行信息提取，得到特殊字符信息、汉语语义转换信息、单位词项信息和/或领域词项信息，尤其是在商品网页数据方面的产品参数信息，如品牌信息、型号信息等；

如图3所示，进一步优选地，所述数据预处理模块具体包括：

数据结构化子模块，用来进行信息抽取以将无结构化的所述数据处理为结构化数据，得到建立模型或模型应用进行分类的原始数据，所述原始数据包含名称name、标题title、类标签class或参数param字段信息；

信息提取子模块，用来应用所述知识库进行信息提取，得到类似商品数据的产品参数信息如品牌信息和型号信息等，以及单位词项信息、特殊字符信息和/或商品领域词项信息。

针对以web网页的形式B2C数据的特征，首先做信息抽取，将其无结构化的数据变成结构化的数据：即初始化为名称name、标题title、类标签class、参数param等一些字段，得到了建立模型或带入模型进行分类的原始数据，再在这些原始数据的基础上我们进行特征获取，利用基于字符串匹配的分词算法，对这些字段信息进行分词，并利用知识库进行信息提取，得到一些产品参数信息如品牌信息和型号信息等，以及特殊字符信息、领域词项信息等。如图4所示，为信息处理的过程示意图。

知识库，用来根据特征信息建立模型或模型应用中用到的词项集，其中，所述词项集包括需进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、品牌集、单位集和/或领域词项集；

进一步优选地，所述领域词具体为在领域出现的比重大于阈值??的词项，并作为领域之间互相区别的特征词。

知识库主要是指建立模型以及模型应用中用到的一系列词项集，主要有需要进行分词的词项集、做数据预处理涉及到的一些词项集如特殊标识符词项集、汉语语义转换词项集、品牌词项集、单位词项集、领域词项集等等。

尤其对于领域词项集，其词语本体是指在某个领域中最核心、最本质的概念集合，本发明实施例给出这些概念正规明确的表述。高频的领域词项集所描述的概念在其他领域出现的几率很小并且可以唯一确定某个领域。

由于进行文本分类的数据是短文本，短文本具有特征不足，包含的信息量少的特点，因此引入领域词语，在一定程度上对商品文本数据所包含信息量进行了一次有效扩张。该方式以在领域出现的比重大于阈值??的领域词作为领域之间互相区别的特征词，但是阈值??的设定需要根据数据的特点进行，因为如果阈值过大，特征词的领域区别性不好；如果阈值过小，特征词数量有限会使得分类能力降低。因此，为了保证特征词良好的领域区别性并且使得分类能力提高，对领域词语的搜集和整理尤为重要。

本发明实施例根据数据的语义特征进行分析，采用一定的算法进行特征抽取获得领域词语候选集，并在领域词语候选集再进行人工整理，使得获取领域特征词语的效率大大提高。

文本表示模块，文本表示模块，用来采用向量空间模型对数据进行数学化表示，所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)，其中，attributej表示数据的第j个属性，ti表示词项,wi表示ti在数据sd中的词项权值，所述权值wi采用频数来表示；

本发明的实施例中，对于数据做以下处理：

数据库即学习库应用D表示，其中数据表示为Sd=(name;title;…;classes)，其中name等字段信息是短文本，有时是不大于50字的文本，其中属性共有n个。

我们应用向量空间模型来进行文本表示，对于每一个数据Sd，将其表示成Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)，其中，attributej表示数据的第j个属性，ti表示词项,wi表示ti在数据sd中的词项权值，所述权值wi采用频数来表示；例如 (name<t1 , w1 ; t2 , w2 ; ??; tn , wn >;title< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…;classes< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)的形式来表示。

进一步优选地，所述权值wi的计算公式为：

其中，f(wi,j)表示词项ti在类别j下的权重，m为类别数。

现有技术中，对于一般的数据大多数采用TF-IDF作为权值，本发明实施例采用频数来代替TF-IDF值，主要是因为本发明实施例进行分类的文本比较短，一般长度都不超过50字，采用频数作为权值避免了因为数据稀疏带来的不足，另外，如果使用TF-IDF值，基于规则的权值赋值的度量很难掌握。

本发明实施例采用基于知识库的分词算法，因为知识库中的词项很多，许多词项在文本中不出现，则该文本向量的很多维权值为0 ,即该向量极度稀疏。另外，由于在训练文本中，类标注可能错误，导致有少许的分类噪声，因此在文本原始词项向量中，这些词项对分类毫无意义,反而会引入分类噪声,从而降低分类精度。如果不除去这些词项，在一定层度上会造成过度拟合现象。

而特征选择的效果的优劣主要表现在特征选择的算法上，某种意义上，建立一个完全没有噪声的训练数据库的代价是相当巨大的，另外，数据在不断更新，在维护上也是一个不可能完成的任务。

本发明实施例的训练数据通过网络爬虫自动抓取多个B2C网站的数据，必然在一定程度上存在数据噪声，而存在数据噪声的数据库给特征选择带来了一定的难度，再加上短文本数据的特征，这时如果依据传统的特征选择方法很难得到一个比较满意的特征子集。

因此，考虑数据的轻微噪声和短文本的特点，本发明实施例采用基于学习库类别词项的特征选择，一方面考虑与分类器算法的对接，另一方面对因轻微数据噪声带来的词项权值偏差的过滤。基于此，本发明实施例采取的算法是TF-IDF和DF的双重度量筛选。即依据TF-IDF对词项集的重要程度进行排序，并设定阈值，提取值比较低的x%的数据，再依据DF值设定权值进行反向赛选，得到每个类别下的噪声词集。

关于TF-IDF和DF的筛选算法，现有技术亦有说明，本发明实施例的描述里不再一一赘述。

其中，cj（0<j<=p）表示一个数据属于类别c 的得分，

表示对于不同数据属性赋予的权值，

表示对于不同词项集赋予不同的权重。

进一步优选地，所述预先设定的规则包括如下：

(1)最大类别得分和最小类别得分差小于某一个特定的数值；

(2)一个类别标签的类别得分不得小于某一个特定的数值。

模型的建立在一定意义上表现为对对象进行数学函数的表示，本发明实施例对于在文本表示中的词项，其向量权值是从以下三个方面来进行处理的：

(1)一般词项权值是根据训练数据计算在每个类别下的频率得到。（上面已经说明）

(2)类别领域词语在很大程度上能够直接定位到某个类别，但是考虑到B2C网站数据的噪声比较大，给所有类别领域词语赋予适当的权值，在不影响整体的情况下，如果我们的文本中反序第一个词项出现的特征词，来作为这一文本数据的高频领域词语。

(3)语义本体规则联系主要是指通过训练数据中类标签和属性词项集之间特定的语义关系，我们在处理过程中将这种关系数值化，表现在文本表示的词项权值上。

对每一个词项权值，根据词项属于数据中的不同属性字段赋予不同的权重，并累加得到类别得分，这样文本向量得到每个类别下的得分，在得到每个类别的得分后，依据以下规则取得分最高的作为这条商品的类别标签。

规则一、最大类别得分和最小类别得分差小于某一个特定的数值。

规则二、作为一个类别，其得分不得小于某一个特定的数值。

进一步优选地，所述文本分类系统还包括：

本发明实施例的评估模块主要依据黑盒和白盒测试相结合的形式进行：白盒测试主要是针对数据的精准测试，黑盒测试则采用文本分类的评价标准来进行的，主要是依据召回率（recall）R评估、准确率（precision）P评估和F1值评估。

与现有技术相比，本发明实施例提供的基于商品领域知识的文本分类系统，适用于像商品网页数据这样的短文本数据的分类，并考虑短文本描述概念信号比较弱，文本特征严重不足的特点，加强对数据的语义分析和基于领域词语的的信息提高短文本的信息量，以及在特征词整理上，不是一味的采取人工整理方法，而是结合商品名称等文本数据的特点，进行语义分析，并利用分词算法，在不改变语义结构的情况下，采取特定算法反向获取领域词语，再进行人工筛选整理；并在文本表示上采取基于频数的权值计算，以及后期对于文本矢量计算类别利用基于不同词项集不同权重的累加计算方法，对训练数据进行语义分析，得到一些基于不同词项集合的语义规则，并将这些规则数学化，并表示在词项的类别权值上，从而得到不同商品类别的标签，完成数据文本的分类。

实施的结果表明，本发明实施例的文本分类系统使得准确率达到93%以上，召回率达到85%以上，F1值达到90%以上，已经高于行业类标准。

为了实现本发明的发明目的，本发明实施例还提供了一种基于领域知识的文本分类方法，所述方法包括以下步骤：

S101.获取进行模型训练的数据得到学习库；

利用训练数据获取模块获取进行模型训练的数据，进一步优选地，所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库，即通过对一些类似于B2C网站的数据类别进行解析，利用网络爬虫技术，获取带有类标签的数据。

S102.对所述训练数据机进行信息抽取以将无结构化的数据处理为结构化数据，得到建立模型或模型应用进行分类的原始数据；

S103. 对所述原始数据进行特征信息获取，应用基于字符串匹配的分词算法，对原始数据的字段信息进行分词，应用知识库进行信息提取，进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集；

针对以web网页的形式B2C数据的特征，首先做信息抽取，将其无结构化的数据变成结构化的数据：即初始化为名称name、标题title、类标签class、参数param等一些字段，得到了建立模型或带入模型进行分类的原始数据，再在这些原始数据的基础上我们进行特征获取，利用基于字符串匹配的分词算法，对这些字段信息进行分词，并利用知识库进行信息提取，得到一些商品参数信息、型号信息、特殊字符信息、词项信息等。

其中的知识库主要是指建立模型以及模型应用中用到的一系列词项集，主要有需要进行分词的词项集、做数据预处理涉及到的一些词项集如特殊标识符词项集、汉语语义转换词项集、参数信息词项集、单位词项集、领域词项集等等。

尤其对于领域词项集，其词语本体是指在某个领域中最核心、最本质的概念集合，本发明实施例给出这些概念正规明确的表述。高频词项集所描述的概念在其他领域出现的几率很小并且可以唯一确定某个领域。

由于进行文本分类的数据是短文本，短文本具有特征不足，包含的信息量少的特点，因此引入领域词语，在一定程度上对商品文本数据所包含信息量进行了一次有效扩张。该方式以在领域出现的比重大于阈值??的领域词作为领域之间互相区别的特征词，但是阈值??的设定需要根据数据的具体形式进行，因为如果阈值过大，特征词的领域区别性不好；如果阈值过小，特征词数量有限会使得分类能力降低。因此，为了保证特征词良好的领域区别性并且使得分类能力提高，对领域词语的搜集和整理尤为重要。

S104. 根据获取的特征信息建立模型或模型应用中用到的词项集，其中，所述词项集包括进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项；

S105.采用向量空间模型对数据进行数学化表示，所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)，其中，attributej表示数据的第j个属性，ti表示词项,wi表示ti在数据sd中的词项权值，所述权值wi采用频数来表示；

本发明的实施例中，对于数据做以下处理：

数据库即学习库应用D表示，其中数据表示为例如Sd=(name;title;…;classes)，其中name等字段信息是短文本，有时是不大于50字的文本，其中属性共有p个。

相应地，我们应用向量空间模型来进行文本表示，对于每一个数据sd，将其表示成(name<t1 , w1 ; t2 , w2 ; ??; tn , wn >;title< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…;classes< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)的向量模型，其中ti表示词项，wi表示ti 在数据sd中的权值，权值wi采用频数来表示。

进一步优选地，所述权值wi的计算公式为：

其中，f(wi,j)表示词项ti在类别j下的权重，m为类别数。

S106.依据TF-IDF算法对词项集的重要性进行排序，并根据预先设定的阈值，抽取低于阈值的数据，再依据DF值设定权值进行反向筛选，得到每个商品类别下的词项集；

而特征选择的效果的优劣主要表现在特征选择的算法上，某种意义上，建立一个完全没有噪声的学习库的代价是相当巨大的，另外，数据在不断更新，在维护上也是一个不可能完成的任务。

S107.根据所述词项集在数据中的属性字段，对词项集中的每一个词项权值赋予不同的权重，并累加得到类别得分，根据预先设定的分类规则，筛选在规则允许下，类别得分最高的类别作为这条数据的类别标签。

其中，cj（0<j<=p）表示一个数据属于类别c 的得分，

表示对于不同数据属性赋予的权值，

表示对于不同词项集赋予不同的权重。

进一步优选地，所述预先设定的规则包括如下：

(1)最大类别得分和最小类别得分差小于某一个特定的数值；

(2)一个类别标签的类别得分不得小于某一个特定的数值。

进一步优选地，所述方法还包括：

计算并评估所述文本分类的准确率、召回率和/或F1评估值。

本发明实施例的评估主要依据黑盒和白盒测试相结合的形式进行：白盒测试主要是针对数据的精准测试，黑盒测试则采用文本分类的评价标准来进行的，主要是依据召回率（recall）R评估、准确率（precision）P评估和F1值评估。

与现有技术相比，本发明实施例提供的基于商品领域知识的文本分类方法，适用于像商品网页数据这样的短文本数据的分类，并考虑短文本描述概念信号比较弱，文本特征严重不足的特点，加强对数据的语义分析和基于领域词语的的信息提高短文本的信息量，以及在特征词整理上，不是一味的采取人工整理方法，而是结合商品名称等文本数据的特点，进行语义分析，并利用分词算法，在不改变语义结构的情况下，采取特定算法反向获取领域词语，再进行人工筛选整理；并在文本表示上采取基于频数的权值计算，以及后期对于文本矢量计算类别利用基于不同词项集不同权重的累加计算方法，对训练数据进行语义分析，得到一些基于不同词项集合的语义规则，并将这些规则数学化，并表示在词项的类别权值上，从而得到不同商品类别的标签，完成数据文本的分类。

本发明所属领域的一般技术人员可以理解，本发明以上实施例仅为本发明的优选实施例之一，为篇幅限制，这里不能逐一列举所有实施方式，任何体现本发明的技术方案的本发明以上实施例变行或组合，都在本发明的保护范围内。

需要注意的是，以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，在本发明的上述指导下，本领域技术人员可以在上述实施例的基础上进行各种改进和变形，而这些改进或者变形落在本发明的保护范围内。

Claims

1.一种基于领域知识的文本分类系统，其特征在于，所述文本分类系统包括：

数据预处理模块，对所述学习库进行信息抽取以将无结构化的所述数据处理为结构化数据，得到建立模型或模型应用进行分类的原始数据，所述原始数据包含各个文本属性等字段信息，并对所述原始数据进行特征信息获取，应用基于字符串匹配的分词算法，对原始数据的字段信息进行分词，并应用知识库进行信息提取，得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和/或领域词项；

2.根据权利要求1所述的系统，其特征在于，所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到训练知识库。

3.根据权利要求2所述的系统，其特征在于，所述数据预处理模块具体包括：

4.根据权利要求2所述的系统，其特征在于，所述权值wi的计算公式为：