CN102194013A - 一种基于领域知识的短文本分类方法及文本分类系统 - Google Patents
一种基于领域知识的短文本分类方法及文本分类系统 Download PDFInfo
- Publication number
- CN102194013A CN102194013A CN2011101724346A CN201110172434A CN102194013A CN 102194013 A CN102194013 A CN 102194013A CN 2011101724346 A CN2011101724346 A CN 2011101724346A CN 201110172434 A CN201110172434 A CN 201110172434A CN 102194013 A CN102194013 A CN 102194013A
- Authority
- CN
- China
- Prior art keywords
- data
- lexical item
- classification
- field
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种基于领域知识的文本分类系统及文本分类方法,用于信息技术领域,以解决传统文本分类方法不能较好的对短文本进行分类的缺点,并针对短文本描述概念信号比较弱,文本特征严重不足的特点,提出一种适用于像商品网页数据这样的短文本数据的分类方法及文本分类系统,本发明实施例对传统分类器加以改造,注入新的元素和致力于算法和数据的匹配应用,得到分类效果优异的商品分类器。其中新的元素包括:引入了领域词语的概念并将其注入到分类器中,有效的增加了短文本的信息量;其次,对短文本数据特别是网页商品数据做基于不同词项集的语义分析,并将语义分析的结果注入到分类器中,为商品数据信息注入了新的信息,从而提高文本分类的准确率。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于领域知识的文本分类方法及文本分类系统。
背景技术
在信息技术飞速发展的今天,用户可通过多种渠道获得大量的信息。例如,通过浏览网页、利用搜索引擎进行信息检索、接收邮件,但常常出现的问题是,海量数据但有效信息缺乏。
例如,在Baidu、google等网页中检索一关键词时,获得大量的包括该关键词的网页链接,其中,有些网页链接能够体现出其对应的网页具备与该关键词相关的内容,有些网页链接的相关性则较差。当用户由于工程浩大不愿或不能遍历到每条数据时,如何从大量数据中获取有效的数据或潜在有用的数据,又或是排除不必要的数据,获得我们所需要的行业内专、精、深的数据信息,是亟待解决的问题。
当前,大量数据以短文本的形式存在,如短信、邮件、网页检索等,尤其是购物网页的数据,若能够实现对商品数据、短信、邮件名称、网页链接进行内在联系的自动分类,再由用户对感兴趣的类别或内容进行逐条读取,将大幅减少用户在定位有效信息时的时间,总之,缩小用户需要逐条察看的范围,可大幅提高用户的查阅便利性和操作效率,改善用户体验。
因此,出现了垂直搜索引擎的概念。垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
在电子商务领域,为了实现垂直购物搜索,最重要的一步就是web数据结构化, web数据结构化主要是针对网页库中的商品数据进行分类、规整、使数据结构化。对于现在web数据结构化目前业内的做法大多数应用基于数据挖掘算法的智能分类技术,但是也有少许地方应用人工干预的方式进行分类。
现有技术中,存在通过计算文本之间的相似度进行类别区分的方法,其通过对文本用其词频向量(或称为文本词频向量,term-frequency vector)表示,然后计算词频向量间的距离得到文本相似度。
例如,目前业内大多数应用基于数据挖掘算法的web文本分类技术,其主要步骤可以分为预处理、文本表示、特征抽取、信息获取(分类器模型建立)、模型评估和应用五个阶段,如图1所示,为现有技术基于数据挖掘算法的WEB文本分类的处理过程。
(1)文本信息预处理亦即文本信息初始化,主要是对文本数据运用分词算法进行分词,除去其中的一些连词;以及在语义结构分析中,除去一些应该删去的语句段等,使得文本信息初始化为词项集,为文本表示做准备。
(2)文本表示一般都采用向量空间模型表示,在这种表示方法中,每篇文档表示成形如d= < t1 , w1 ; t2 , w2 ; ??; tn , wn >的向量,其中ti表示词项,wi表示ti在文档d中的权值,其权值wi一般采用TF-IDF来进行表示。其计算公式为
其中tf(ti,d)表示词项ti在文档d中出现的次数,N为训练文总数,n为出现词项ti的训练文本的总数,m为向量维数。
(3)特征抽取是在初始全特征集基础上提取出一个特征子集的过程,能够起到降低向量空间维度、简化计算、防止过度拟合作用。主要做法是依据特征抽取算法对词项集的重要程度进行排序,然后根据提取阈值或提取比例完成提取。
(4)信息获取(模型建立)主要是根据已标注类标签的训练数据,应用一些机器学习算法,建立分类函数的函数,目前主要应用的一些机器学习算法有KNN算法、朴素贝叶斯分类等。
(5)模型的评估和应用直接反应了建立的分类器能否应用,目前分类器的评估方法有:召回率(recall)P评估、准确率(precision)R评估和F1值评估。这三个值的计算方法如下:
Recall=分类正确的条数/应该分到该类的条数
Precision=分类正确的条数/分入到该类的条数
F1=2 * Recall * Precision/( Recall + Precision)
虽然应用上述方法能够实现商品智能分类,但是分类效果上并不理想,所以在大多数网站的数据展现上,数据分类的准确率和类数据的查全率都比较低,效果不是很好。
这主要是由web商品的数据形式决定的,由于大多数现有的计算文本相似度的方法只适用于长文本,传统的计算长文本相似度方法之所以有效,是因为相似的长文本通常包含了一定数量的相同的词汇,但对于短文本,相似的短文本不一定具有相同的词,自然语言的灵活性使得人们可以通过不同的措辞表达相同的意思,尤其对于待分类的数据,其基本上都是文本长度小于50字的短文本,其特点是:描述概念的信号弱,类属性比较强的数据的文本特征却严重不足。因此导致待分类文本矢量带入到分类器中,标注类的特征信息比较弱,导致分类的错误率大大提升。
发明内容
本发明实施例的目的是针对传统文本分类方法不能较好的对短文本进行分类的缺点,并针对短文本描述概念信号比较弱,文本特征严重不足的特点,提出一种适用于像商品网页数据这样的短文本数据的分类方法及文本分类系统,从而提高文本分类的准确率。
为了达到上述发明目的,本发明实施例提出的一种基于领域知识的文本分类系统是通过以下的技术方案实现的:
一种基于领域知识的文本分类系统,所述文本分类系统包括:
训练数据获取模块,用来获取进行模型训练的数据得到训练知识库;
数据预处理模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,并对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,并应用知识库进行信息提取,得到单位词项、产品参数信息、特殊字符信息和/或领域词项信息;
知识库,用来根据所述特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括需进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;
文本表示模块,用来采用向量空间模型对数据进行数学化表示,所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;),其中,attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;
特征抽取模块,用来依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定权值进行反向筛选,得到每个商品类别下的噪声词集;
模型建立模块,用来根据词项在数据中的属性字段,对每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
进一步优选地,所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库。
进一步优选地,所述数据预处理模块具体包括:
初始化子模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,所述原始数据包含各个文本属性等字段信息;
分词子模块,用来对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对字段信息进行分词;
信息提取子模块,用来应用所述知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和领域词项。
进一步优选地,所述权值wi的计算公式为:
其中,f(wi,j)表示词项ti在类别j下的权重,m为类别数。
进一步优选地,所述词项权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
进一步优选地,所述领域词具体为在领域出现的比重大于阈值的词项,并作为领域之间互相区别的特征词。
进一步优选地,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
进一步优选地,所述领域词为文本数据中反序第一个词项出现的特征词。
进一步优选地,所述数据p属于类别c的类别得分的计算公式为:
进一步优选地,所述预先设定的规则包括如下:
(1)最大类别得分和最小类别得分差小于某一个特定的数值;
(2)一个类别标签的类别得分不得小于某一个特定的数值。
进一步优选地,所述文本分类系统还包括:
评估模块,用来计算并评估所述文本分类的准确率、召回率和/或F1评估值。
为了实现前述发明目的,本发明实施例还提出了一种基于领域知识的文本分类方法,所述方法是通过以下技术方案实现的:
一种基于领域知识的文本分类方法,所述方法包括以下步骤:
获取进行模型训练的数据得到学习库;
对所述学习库进行信息抽取以将无结构化的数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据;
对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,应用知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和/或领域词项;
根据获取的特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;
采用向量空间模型对数据进行数学化表示,所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;),其中,attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;
依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定阈值进行反向筛选,得到每个类别下的噪声数据集;
根据所述词项集在数据中的属性字段,对词项集中的每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
进一步优选地,所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库。
进一步优选地,所述原始数据包含名称name、标题title、类标签class或参数param字段信息。
进一步优选地,所述权值wi的计算公式为:
其中,f(wi,j)表示词项ti在类别j下的权重,m为类别数。
进一步优选地,所述词项权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
进一步优选地,所述领域词具体为在领域出现的比重大于阈值的词项,并作为领域之间互相区别的特征词。
进一步优选地,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
进一步优选地,所述领域词为文本数据中反序第一个词项出现的特征词。
进一步优选地,所述数据p属于类别c的类别得分的计算公式为:
进一步优选地,所述预先设定的规则包括如下:
(1)最大类别得分和最小类别得分差小于某一个特定的数值;
(2)一个类别标签的类别得分不得小于某一个特定的数值。
进一步优选地,所述方法还包括:
计算并评估所述文本分类的准确率、召回率和/或F1评估值。
与现有技术相比,本发明实施例提供的基于商品领域知识的文本分类方法和文本分类系统,适用于像商品网页数据这样的短文本数据的分类,并考虑短文本描述概念信号比较弱,文本特征严重不足的特点,加强对数据的语义分析和基于领域词语的的信息提高短文本的信息量,以及在特征词整理上,不是一味的采取人工整理方法,而是结合商品名称等文本数据的特点,进行语义分析,并利用分词算法,在不改变语义结构的情况下,采取特定算法反向获取领域词语,再进行人工筛选整理;并在文本表示上采取基于频数的权值计算,以及后期对于文本矢量计算类别利用基于不同词项集不同权重的累加计算方法,对训练数据进行语义分析,得到一些基于不同词项集合的语义规则,并将这些规则数学化,并表示在词项的类别权值上,从而得到不同商品类别的标签,完成数据文本的分类。
附图说明
通过下面结合附图对其示例性实施例进行的描述,本发明上述特征和优点将会变得更加清楚和容易理解。
图1为现有技术基于数据挖掘算法的WEB文本分类的处理过程;
图2为本发明实施例1一种基于领域知识的文本分类系统的组成结构图;
图3为本发明实施例1另一种基于领域知识的文本分类系统的组成结构图;
图4为本发明实施例信息的处理过程示意图;
图5为本发明实施例一种基于领域知识的文本分类方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图2所示,为本发明实施例1一种基于领域知识的文本分类系统,所述文本分类系统包括:
训练数据获取模块,用来获取进行模型训练的数据得到学习库;
训练数据获取模块主要是获取进行模型训练的数据,进一步优选地,所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库,即通过对一些类似于B2C网站的数据类别进行解析,利用网络爬虫技术,获取有类标签的数据。
数据预处理模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,并对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,并应用知识库进行信息提取,得到特殊字符信息、汉语语义转换信息、单位词项信息和/或领域词项信息,尤其是在商品网页数据方面的产品参数信息,如品牌信息、型号信息等;
如图3所示,进一步优选地,所述数据预处理模块具体包括:
数据结构化子模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,所述原始数据包含名称name、标题title、类标签class或参数param字段信息;
分词子模块,用来对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对字段信息进行分词;
信息提取子模块,用来应用所述知识库进行信息提取,得到类似商品数据的产品参数信息如品牌信息和型号信息等,以及单位词项信息、特殊字符信息和/或商品领域词项信息。
针对以web网页的形式B2C数据的特征,首先做信息抽取,将其无结构化的数据变成结构化的数据:即初始化为名称name、标题title、类标签class、参数param等一些字段,得到了建立模型或带入模型进行分类的原始数据,再在这些原始数据的基础上我们进行特征获取,利用基于字符串匹配的分词算法,对这些字段信息进行分词,并利用知识库进行信息提取,得到一些产品参数信息如品牌信息和型号信息等,以及特殊字符信息、领域词项信息等。如图4所示,为信息处理的过程示意图。
知识库,用来根据特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括需进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、品牌集、单位集和/或领域词项集;
进一步优选地,所述领域词具体为在领域出现的比重大于阈值??的词项,并作为领域之间互相区别的特征词。
进一步优选地,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
进一步优选地,所述领域词为文本数据中反序第一个词项出现的特征词。
知识库主要是指建立模型以及模型应用中用到的一系列词项集,主要有需要进行分词的词项集、做数据预处理涉及到的一些词项集如特殊标识符词项集、汉语语义转换词项集、品牌词项集、单位词项集、领域词项集等等。
尤其对于领域词项集,其词语本体是指在某个领域中最核心、最本质的概念集合,本发明实施例给出这些概念正规明确的表述。高频的领域词项集所描述的概念在其他领域出现的几率很小并且可以唯一确定某个领域。
由于进行文本分类的数据是短文本,短文本具有特征不足,包含的信息量少的特点,因此引入领域词语,在一定程度上对商品文本数据所包含信息量进行了一次有效扩张。该方式以在领域出现的比重大于阈值??的领域词作为领域之间互相区别的特征词,但是阈值??的设定需要根据数据的特点进行,因为如果阈值过大,特征词的领域区别性不好;如果阈值过小,特征词数量有限会使得分类能力降低。因此,为了保证特征词良好的领域区别性并且使得分类能力提高,对领域词语的搜集和整理尤为重要。
本发明实施例根据数据的语义特征进行分析,采用一定的算法进行特征抽取获得领域词语候选集,并在领域词语候选集再进行人工整理,使得获取领域特征词语的效率大大提高。
文本表示模块,文本表示模块,用来采用向量空间模型对数据进行数学化表示,所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;),其中,attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;
进一步优选地,所述词项权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
本发明的实施例中,对于数据做以下处理:
数据库即学习库应用D表示,其中数据表示为Sd=(name;title;…;classes),其中name等字段信息是短文本,有时是不大于50字的文本,其中属性共有n个。
我们应用向量空间模型来进行文本表示,对于每一个数据Sd,将其表示成Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;),其中,attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;例如 (name<t1 , w1 ; t2 , w2 ; ??; tn , wn >;title< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…;classes< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)的形式来表示。
进一步优选地,所述权值wi的计算公式为:
其中,f(wi,j)表示词项ti在类别j下的权重,m为类别数。
现有技术中,对于一般的数据大多数采用TF-IDF作为权值,本发明实施例采用频数来代替TF-IDF值,主要是因为本发明实施例进行分类的文本比较短,一般长度都不超过50字,采用频数作为权值避免了因为数据稀疏带来的不足,另外,如果使用TF-IDF值,基于规则的权值赋值的度量很难掌握。
特征抽取模块,用来依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定权值进行反向筛选,得到每个商品类别下的噪声词集;
本发明实施例采用基于知识库的分词算法,因为知识库中的词项很多,许多词项在文本中不出现,则该文本向量的很多维权值为0 ,即该向量极度稀疏。另外,由于在训练文本中,类标注可能错误,导致有少许的分类噪声,因此在文本原始词项向量中,这些词项对分类毫无意义,反而会引入分类噪声,从而降低分类精度。如果不除去这些词项,在一定层度上会造成过度拟合现象。
而特征选择的效果的优劣主要表现在特征选择的算法上,某种意义上,建立一个完全没有噪声的训练数据库的代价是相当巨大的,另外,数据在不断更新,在维护上也是一个不可能完成的任务。
本发明实施例的训练数据通过网络爬虫自动抓取多个B2C网站的数据,必然在一定程度上存在数据噪声,而存在数据噪声的数据库给特征选择带来了一定的难度,再加上短文本数据的特征,这时如果依据传统的特征选择方法很难得到一个比较满意的特征子集。
因此,考虑数据的轻微噪声和短文本的特点,本发明实施例采用基于学习库类别词项的特征选择,一方面考虑与分类器算法的对接,另一方面对因轻微数据噪声带来的词项权值偏差的过滤。基于此,本发明实施例采取的算法是TF-IDF和DF的双重度量筛选。即依据TF-IDF对词项集的重要程度进行排序,并设定阈值,提取值比较低的x%的数据,再依据DF值设定权值进行反向赛选,得到每个类别下的噪声词集。
关于TF-IDF和DF的筛选算法,现有技术亦有说明,本发明实施例的描述里不再一一赘述。
模型建立模块,用来根据词项在数据中的属性字段,对每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
进一步优选地,所述数据p属于类别c的类别得分的计算公式为:
进一步优选地,所述预先设定的规则包括如下:
(1)最大类别得分和最小类别得分差小于某一个特定的数值;
(2)一个类别标签的类别得分不得小于某一个特定的数值。
模型的建立在一定意义上表现为对对象进行数学函数的表示,本发明实施例对于在文本表示中的词项,其向量权值是从以下三个方面来进行处理的:
(1)一般词项权值是根据训练数据计算在每个类别下的频率得到。(上面已经说明)
(2)类别领域词语在很大程度上能够直接定位到某个类别,但是考虑到B2C网站数据的噪声比较大,给所有类别领域词语赋予适当的权值,在不影响整体的情况下,如果我们的文本中反序第一个词项出现的特征词,来作为这一文本数据的高频领域词语。
(3)语义本体规则联系主要是指通过训练数据中类标签和属性词项集之间特定的语义关系,我们在处理过程中将这种关系数值化,表现在文本表示的词项权值上。
对每一个词项权值,根据词项属于数据中的不同属性字段赋予不同的权重,并累加得到类别得分,这样文本向量得到每个类别下的得分,在得到每个类别的得分后,依据以下规则取得分最高的作为这条商品的类别标签。
规则一、最大类别得分和最小类别得分差小于某一个特定的数值。
规则二、作为一个类别,其得分不得小于某一个特定的数值。
进一步优选地,所述文本分类系统还包括:
评估模块,用来计算并评估所述文本分类的准确率、召回率和/或F1评估值。
本发明实施例的评估模块主要依据黑盒和白盒测试相结合的形式进行:白盒测试主要是针对数据的精准测试,黑盒测试则采用文本分类的评价标准来进行的,主要是依据召回率(recall)R评估、准确率(precision)P评估和F1值评估。
与现有技术相比,本发明实施例提供的基于商品领域知识的文本分类系统,适用于像商品网页数据这样的短文本数据的分类,并考虑短文本描述概念信号比较弱,文本特征严重不足的特点,加强对数据的语义分析和基于领域词语的的信息提高短文本的信息量,以及在特征词整理上,不是一味的采取人工整理方法,而是结合商品名称等文本数据的特点,进行语义分析,并利用分词算法,在不改变语义结构的情况下,采取特定算法反向获取领域词语,再进行人工筛选整理;并在文本表示上采取基于频数的权值计算,以及后期对于文本矢量计算类别利用基于不同词项集不同权重的累加计算方法,对训练数据进行语义分析,得到一些基于不同词项集合的语义规则,并将这些规则数学化,并表示在词项的类别权值上,从而得到不同商品类别的标签,完成数据文本的分类。
实施的结果表明,本发明实施例的文本分类系统使得准确率达到93%以上,召回率达到85%以上,F1值达到90%以上,已经高于行业类标准。
为了实现本发明的发明目的,本发明实施例还提供了一种基于领域知识的文本分类方法,所述方法包括以下步骤:
S101.获取进行模型训练的数据得到学习库;
利用训练数据获取模块获取进行模型训练的数据,进一步优选地,所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库,即通过对一些类似于B2C网站的数据类别进行解析,利用网络爬虫技术,获取带有类标签的数据。
S102.对所述训练数据机进行信息抽取以将无结构化的数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据;
S103. 对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,应用知识库进行信息提取,进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;
进一步优选地,所述原始数据包含名称name、标题title、类标签class或参数param字段信息。
针对以web网页的形式B2C数据的特征,首先做信息抽取,将其无结构化的数据变成结构化的数据:即初始化为名称name、标题title、类标签class、参数param等一些字段,得到了建立模型或带入模型进行分类的原始数据,再在这些原始数据的基础上我们进行特征获取,利用基于字符串匹配的分词算法,对这些字段信息进行分词,并利用知识库进行信息提取,得到一些商品参数信息、型号信息、特殊字符信息、词项信息等。
其中的知识库主要是指建立模型以及模型应用中用到的一系列词项集,主要有需要进行分词的词项集、做数据预处理涉及到的一些词项集如特殊标识符词项集、汉语语义转换词项集、参数信息词项集、单位词项集、领域词项集等等。
尤其对于领域词项集,其词语本体是指在某个领域中最核心、最本质的概念集合,本发明实施例给出这些概念正规明确的表述。高频词项集所描述的概念在其他领域出现的几率很小并且可以唯一确定某个领域。
进一步优选地,所述领域词具体为在领域出现的比重大于阈值的词项,并作为领域之间互相区别的特征词。
进一步优选地,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
进一步优选地,所述领域词为文本数据中反序第一个词项出现的特征词。
由于进行文本分类的数据是短文本,短文本具有特征不足,包含的信息量少的特点,因此引入领域词语,在一定程度上对商品文本数据所包含信息量进行了一次有效扩张。该方式以在领域出现的比重大于阈值??的领域词作为领域之间互相区别的特征词,但是阈值??的设定需要根据数据的具体形式进行,因为如果阈值过大,特征词的领域区别性不好;如果阈值过小,特征词数量有限会使得分类能力降低。因此,为了保证特征词良好的领域区别性并且使得分类能力提高,对领域词语的搜集和整理尤为重要。
本发明实施例根据数据的语义特征进行分析,采用一定的算法进行特征抽取获得领域词语候选集,并在领域词语候选集再进行人工整理,使得获取领域特征词语的效率大大提高。
S104. 根据获取的特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项;
S105.采用向量空间模型对数据进行数学化表示,所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;),其中,attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;
进一步优选地,所述词项权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
本发明的实施例中,对于数据做以下处理:
数据库即学习库应用D表示,其中数据表示为例如Sd=(name;title;…;classes),其中name等字段信息是短文本,有时是不大于50字的文本,其中属性共有p个。
相应地,我们应用向量空间模型来进行文本表示,对于每一个数据sd,将其表示成(name<t1 , w1 ; t2 , w2 ; ??; tn , wn >;title< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…;classes< t1 , w1 ; t2 , w2 ; ??; tn , wn >;)的向量模型,其中ti表示词项,wi表示ti 在数据sd中的权值,权值wi采用频数来表示。
进一步优选地,所述权值wi的计算公式为:
其中,f(wi,j)表示词项ti在类别j下的权重,m为类别数。
现有技术中,对于一般的数据大多数采用TF-IDF作为权值,本发明实施例采用频数来代替TF-IDF值,主要是因为本发明实施例进行分类的文本比较短,一般长度都不超过50字,采用频数作为权值避免了因为数据稀疏带来的不足,另外,如果使用TF-IDF值,基于规则的权值赋值的度量很难掌握。
S106.依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定权值进行反向筛选,得到每个商品类别下的词项集;
本发明实施例采用基于知识库的分词算法,因为知识库中的词项很多,许多词项在文本中不出现,则该文本向量的很多维权值为0 ,即该向量极度稀疏。另外,由于在训练文本中,类标注可能错误,导致有少许的分类噪声,因此在文本原始词项向量中,这些词项对分类毫无意义,反而会引入分类噪声,从而降低分类精度。如果不除去这些词项,在一定层度上会造成过度拟合现象。
而特征选择的效果的优劣主要表现在特征选择的算法上,某种意义上,建立一个完全没有噪声的学习库的代价是相当巨大的,另外,数据在不断更新,在维护上也是一个不可能完成的任务。
本发明实施例的训练数据通过网络爬虫自动抓取多个B2C网站的数据,必然在一定程度上存在数据噪声,而存在数据噪声的数据库给特征选择带来了一定的难度,再加上短文本数据的特征,这时如果依据传统的特征选择方法很难得到一个比较满意的特征子集。
因此,考虑数据的轻微噪声和短文本的特点,本发明实施例采用基于学习库类别词项的特征选择,一方面考虑与分类器算法的对接,另一方面对因轻微数据噪声带来的词项权值偏差的过滤。基于此,本发明实施例采取的算法是TF-IDF和DF的双重度量筛选。即依据TF-IDF对词项集的重要程度进行排序,并设定阈值,提取值比较低的x%的数据,再依据DF值设定权值进行反向赛选,得到每个类别下的噪声词集。
关于TF-IDF和DF的筛选算法,现有技术亦有说明,本发明实施例的描述里不再一一赘述。
S107.根据所述词项集在数据中的属性字段,对词项集中的每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
进一步优选地,所述数据p属于类别c的类别得分的计算公式为:
进一步优选地,所述预先设定的规则包括如下:
(1)最大类别得分和最小类别得分差小于某一个特定的数值;
(2)一个类别标签的类别得分不得小于某一个特定的数值。
进一步优选地,所述方法还包括:
计算并评估所述文本分类的准确率、召回率和/或F1评估值。
本发明实施例的评估主要依据黑盒和白盒测试相结合的形式进行:白盒测试主要是针对数据的精准测试,黑盒测试则采用文本分类的评价标准来进行的,主要是依据召回率(recall)R评估、准确率(precision)P评估和F1值评估。
与现有技术相比,本发明实施例提供的基于商品领域知识的文本分类方法,适用于像商品网页数据这样的短文本数据的分类,并考虑短文本描述概念信号比较弱,文本特征严重不足的特点,加强对数据的语义分析和基于领域词语的的信息提高短文本的信息量,以及在特征词整理上,不是一味的采取人工整理方法,而是结合商品名称等文本数据的特点,进行语义分析,并利用分词算法,在不改变语义结构的情况下,采取特定算法反向获取领域词语,再进行人工筛选整理;并在文本表示上采取基于频数的权值计算,以及后期对于文本矢量计算类别利用基于不同词项集不同权重的累加计算方法,对训练数据进行语义分析,得到一些基于不同词项集合的语义规则,并将这些规则数学化,并表示在词项的类别权值上,从而得到不同商品类别的标签,完成数据文本的分类。
本发明所属领域的一般技术人员可以理解,本发明以上实施例仅为本发明的优选实施例之一,为篇幅限制,这里不能逐一列举所有实施方式,任何体现本发明的技术方案的本发明以上实施例变行或组合,都在本发明的保护范围内。
需要注意的是,以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,在本发明的上述指导下,本领域技术人员可以在上述实施例的基础上进行各种改进和变形,而这些改进或者变形落在本发明的保护范围内。
Claims (20)
1.一种基于领域知识的文本分类系统,其特征在于,所述文本分类系统包括:
训练数据获取模块,用来获取进行模型训练的数据得到学习库;
数据预处理模块,对所述学习库进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,所述原始数据包含各个文本属性等字段信息,并对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,并应用知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和/或领域词项;
知识库,用来根据所述特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括需进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;
文本表示模块,用来采用向量空间模型对数据进行数学化表示,所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;),其中,attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;
特征抽取模块,用来依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定权值进行反向筛选,得到每个商品类别下的噪声词集;
模型建立模块,用来根据词项在数据中的属性字段,对每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
2.根据权利要求1所述的系统,其特征在于,所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到训练知识库。
3.根据权利要求2所述的系统,其特征在于,所述数据预处理模块具体包括:
初始化子模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,所述原始数据包含各个文本属性等字段信息;
分词子模块,用来对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对字段信息进行分词;
信息提取子模块,用来应用所述知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和领域词项。
5.根据权利要求4所述的系统,其特征在于,所述词项的权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
6.根据权利要求1至5任意一项所述的系统,其特征在于,所述领域词具体为在领域出现的比重大于阈值的词项,并作为领域之间互相区别的特征词。
7.根据权利要求6所述的系统,其特征在于,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
8.根据权利要求7所述的系统,其特征在于,所述领域词为文本数据中反序第一个词项出现的特征词。
10.根据权利要求9所述的系统,其特征在于,所述预先设定的规则包括如下:
(1)最大类别得分和第二大类别得分差大于某一个特定的数值;
(2)一个类别标签的类别得分不得小于某一个特定的数值。
11.一种基于领域知识的短文本分类方法,其特征在于,所述方法包括以下步骤:
获取进行模型训练的数据得到学习库;
对所述学习库进行信息抽取以将无结构化的数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据;
对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,应用知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和/或领域词项;
根据获取的特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;
采用向量空间模型对数据进行数学化表示,所述数据的向量空间模型为Sd=(attribute1<t1 , w1 ; t2 , w2 ; ??; tn , wn >;attribute2< t1 , w1 ; t2 , w2 ; ??; tn , wn >;…; attributek< t1 , w1 ; t2 , w2 ; ??; tn , wn >;),其中,attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;
依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定阈值进行反向筛选,得到每个类别下的噪声数据集;
根据所述词项集在数据中的属性字段,对词项集中的每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
12.根据权利要求11所述的方法,其特征在于,所述获取进行模型训练的数据得到学习库具体包括:
通过网络爬虫程序获取进行模型训练的数据得到学习库。
13.根据权利要求12所述的方法,其特征在于,所述原始数据包含名称name、标题title、类标签class或参数param字段信息。
14.根据权利要求11至13任意一项所述的方法,其特征在于,所述词项权值wi的计算公式为:
其中,f(wi,j)表示词项ti在类别j下的权重,m为类别数。
15.根据权利要求14所述的方法,其特征在于,所述词项权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
16.根据权利要求11至15任意一项所述的方法,其特征在于,所述领域词具体为在领域出现的比重大于阈值的词项,并作为领域之间互相区别的特征词。
17.根据权利要求16所述的方法,其特征在于,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
18.根据权利要求17所述的方法,其特征在于,所述领域词为文本数据中反序第一个词项出现的特征词。
20.根据权利要求19所述的方法,其特征在于,所述预先设定的规则包括如下:
(1)最大类别得分和最小类别得分差小于某一个特定的数值;
(2)一个类别标签的类别得分不得小于某一个特定的数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101724346A CN102194013A (zh) | 2011-06-23 | 2011-06-23 | 一种基于领域知识的短文本分类方法及文本分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101724346A CN102194013A (zh) | 2011-06-23 | 2011-06-23 | 一种基于领域知识的短文本分类方法及文本分类系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102194013A true CN102194013A (zh) | 2011-09-21 |
Family
ID=44602081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101724346A Pending CN102194013A (zh) | 2011-06-23 | 2011-06-23 | 一种基于领域知识的短文本分类方法及文本分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102194013A (zh) |
Cited By (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622410A (zh) * | 2012-02-17 | 2012-08-01 | 百度在线网络技术(北京)有限公司 | 一种数据资源的引入和调用方法及装置 |
CN102982154A (zh) * | 2012-11-30 | 2013-03-20 | 首都师范大学 | 一种中文网页语义过滤方法 |
CN103049629A (zh) * | 2011-10-17 | 2013-04-17 | 阿里巴巴集团控股有限公司 | 一种检测噪音数据的方法及装置 |
CN103324628A (zh) * | 2012-03-21 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种针对发布文本的行业分类方法和系统 |
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN103678335A (zh) * | 2012-09-05 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 商品标识标签的方法、装置及商品导航的方法 |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN103914551A (zh) * | 2014-04-13 | 2014-07-09 | 北京工业大学 | 一种微博语义信息扩充和特征选取方法 |
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
CN103984700A (zh) * | 2014-04-15 | 2014-08-13 | 厦门产业技术研究院 | 一种用于科技信息垂直搜索的异构数据分析方法 |
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
WO2015032124A1 (zh) * | 2013-09-04 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种电子邮件分类方法及其装置 |
CN104484388A (zh) * | 2014-12-10 | 2015-04-01 | 北京奇虎科技有限公司 | 稀缺信息页面的筛选方法和装置 |
CN104699862A (zh) * | 2015-04-09 | 2015-06-10 | 成都卡莱博尔信息技术有限公司 | 一种知识工程系统 |
CN104715047A (zh) * | 2015-03-26 | 2015-06-17 | 浪潮集团有限公司 | 一种社交网络数据采集与分析系统 |
CN104750841A (zh) * | 2015-04-09 | 2015-07-01 | 成都卡莱博尔信息技术有限公司 | 一种知识存储方法 |
CN104951542A (zh) * | 2015-06-19 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 识别社交短文本类别的方法、分类模型训练方法及装置 |
CN105045909A (zh) * | 2015-08-11 | 2015-11-11 | 北京京东尚科信息技术有限公司 | 从文本中识别商品名称的方法和装置 |
CN105101124A (zh) * | 2015-08-07 | 2015-11-25 | 北京奇虎科技有限公司 | 标注短信类别的方法及装置 |
CN105164672A (zh) * | 2013-05-01 | 2015-12-16 | 惠普发展公司,有限责任合伙企业 | 内容分类 |
CN105302877A (zh) * | 2015-10-09 | 2016-02-03 | 小米科技有限责任公司 | 用于短信领域分类的方法、短信领域识别方法及装置 |
CN105335446A (zh) * | 2014-08-13 | 2016-02-17 | 中国科学院声学研究所 | 一种基于词矢量的短文本分类模型生成方法与分类方法 |
CN105718256A (zh) * | 2014-12-18 | 2016-06-29 | 通用汽车环球科技运作有限责任公司 | 用于通过本体模型的比较进行一致性检查的方法和装置 |
CN105760514A (zh) * | 2016-02-24 | 2016-07-13 | 西安交通大学 | 一种从社区问答网站自动获取知识领域短文本的方法 |
CN105808529A (zh) * | 2016-03-10 | 2016-07-27 | 武汉传神信息技术有限公司 | 一种语料划分领域的方法和装置 |
CN106095845A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 文本分类方法和装置 |
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN106326458A (zh) * | 2016-06-02 | 2017-01-11 | 广西智度信息科技有限公司 | 一种基于文本分类的城市管理案件分类方法 |
CN106372640A (zh) * | 2016-08-19 | 2017-02-01 | 中山大学 | 一种字频文本分类方法 |
CN106484873A (zh) * | 2016-10-13 | 2017-03-08 | 成都东方盛行电子有限责任公司 | 一种大数据分类处理方法 |
CN106528595A (zh) * | 2016-09-23 | 2017-03-22 | 中国农业科学院农业信息研究所 | 基于网站首页内容的领域信息收集和关联方法 |
JP2017084249A (ja) * | 2015-10-30 | 2017-05-18 | 株式会社Ubic | データ分類システム,方法,プログラムおよびその記録媒体 |
CN106897437A (zh) * | 2017-02-28 | 2017-06-27 | 北明智通(北京)科技有限公司 | 一种知识系统的高阶规则多分类方法及其系统 |
CN106970902A (zh) * | 2016-01-13 | 2017-07-21 | 北京国双科技有限公司 | 一种中文分词方法及装置 |
CN103886108B (zh) * | 2014-04-13 | 2017-09-01 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN107220876A (zh) * | 2017-05-26 | 2017-09-29 | 北京三快在线科技有限公司 | 商品信息管理方法、装置及移动终端 |
CN107766394A (zh) * | 2016-08-23 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 业务数据处理方法及其系统 |
CN107844560A (zh) * | 2017-10-30 | 2018-03-27 | 北京锐安科技有限公司 | 一种数据接入的方法、装置、计算机设备和可读存储介质 |
CN107908621A (zh) * | 2017-11-16 | 2018-04-13 | 东华大学 | 基于超声检查报告文本数据的乳腺肿瘤风险性评估系统 |
CN108038245A (zh) * | 2017-12-28 | 2018-05-15 | 中译语通科技(青岛)有限公司 | 一种基于多语言的数据挖掘方法 |
CN108197102A (zh) * | 2017-12-26 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种文本数据统计方法、装置和服务器 |
CN108280206A (zh) * | 2018-01-30 | 2018-07-13 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
CN108415897A (zh) * | 2018-01-18 | 2018-08-17 | 北京百度网讯科技有限公司 | 基于人工智能的类别判别方法、装置及存储介质 |
CN108628873A (zh) * | 2017-03-17 | 2018-10-09 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置和设备 |
CN108664612A (zh) * | 2018-05-11 | 2018-10-16 | 广东电网有限责任公司 | 一种基于关键词计分的长文本数据智能分类方法 |
CN108804408A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 基于领域专家知识体系的信息抽取系统及信息抽取方法 |
CN109684471A (zh) * | 2018-12-29 | 2019-04-26 | 上海晏鼠计算机技术股份有限公司 | 一种创新型ai智能文本处理系统在新零售领域的应用方法 |
CN109766440A (zh) * | 2018-12-17 | 2019-05-17 | 航天信息股份有限公司 | 一种用于为对象文本描述确定默认分类信息的方法及系统 |
CN109783690A (zh) * | 2019-02-18 | 2019-05-21 | 北京奇艺世纪科技有限公司 | 一种视频查询方法及装置 |
CN109816004A (zh) * | 2019-01-17 | 2019-05-28 | 平安城市建设科技(深圳)有限公司 | 房源图片分类方法、装置、设备及存储介质 |
CN110019784A (zh) * | 2017-09-29 | 2019-07-16 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN110110756A (zh) * | 2019-04-09 | 2019-08-09 | 北京中科智营科技发展有限公司 | 一种数据分类优化方法和优化装置 |
US10419269B2 (en) | 2017-02-21 | 2019-09-17 | Entit Software Llc | Anomaly detection |
CN110399487A (zh) * | 2019-07-01 | 2019-11-01 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110443305A (zh) * | 2019-08-06 | 2019-11-12 | 北京明略软件系统有限公司 | 自适应特征处理方法及装置 |
CN110443661A (zh) * | 2018-05-03 | 2019-11-12 | 上海媒科锐奇网络科技有限公司 | 用于购物网页的短文本分类方法、装置、设备及其介质 |
CN110837735A (zh) * | 2019-11-17 | 2020-02-25 | 太原蓝知科技有限公司 | 一种数据智能分析识别方法及系统 |
CN110852059A (zh) * | 2019-11-14 | 2020-02-28 | 中国农业科学院农业信息研究所 | 一种基于分组的文档内容差异对比可视化分析方法 |
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
US10884891B2 (en) | 2014-12-11 | 2021-01-05 | Micro Focus Llc | Interactive detection of system anomalies |
CN112560476A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN113515629A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种文档分类方法、装置、计算机设备及存储介质 |
-
2011
- 2011-06-23 CN CN2011101724346A patent/CN102194013A/zh active Pending
Cited By (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049629A (zh) * | 2011-10-17 | 2013-04-17 | 阿里巴巴集团控股有限公司 | 一种检测噪音数据的方法及装置 |
CN103049629B (zh) * | 2011-10-17 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 一种检测噪音数据的方法及装置 |
CN102622410A (zh) * | 2012-02-17 | 2012-08-01 | 百度在线网络技术(北京)有限公司 | 一种数据资源的引入和调用方法及装置 |
CN103324628B (zh) * | 2012-03-21 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 一种针对发布文本的行业分类方法和系统 |
CN103324628A (zh) * | 2012-03-21 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种针对发布文本的行业分类方法和系统 |
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN103377258B (zh) * | 2012-04-28 | 2018-11-02 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN103678335A (zh) * | 2012-09-05 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 商品标识标签的方法、装置及商品导航的方法 |
CN103678335B (zh) * | 2012-09-05 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 商品标识标签的方法、装置及商品导航的方法 |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN103823809B (zh) * | 2012-11-16 | 2018-06-08 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN102982154A (zh) * | 2012-11-30 | 2013-03-20 | 首都师范大学 | 一种中文网页语义过滤方法 |
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
CN103927302B (zh) * | 2013-01-10 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
CN104111933B (zh) * | 2013-04-17 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN105164672A (zh) * | 2013-05-01 | 2015-12-16 | 惠普发展公司,有限责任合伙企业 | 内容分类 |
WO2015032124A1 (zh) * | 2013-09-04 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种电子邮件分类方法及其装置 |
CN103886108B (zh) * | 2014-04-13 | 2017-09-01 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN103914551A (zh) * | 2014-04-13 | 2014-07-09 | 北京工业大学 | 一种微博语义信息扩充和特征选取方法 |
CN103984700A (zh) * | 2014-04-15 | 2014-08-13 | 厦门产业技术研究院 | 一种用于科技信息垂直搜索的异构数据分析方法 |
CN103984700B (zh) * | 2014-04-15 | 2017-09-26 | 厦门产业技术研究院 | 一种用于科技信息垂直搜索的异构数据分析方法 |
CN105335446A (zh) * | 2014-08-13 | 2016-02-17 | 中国科学院声学研究所 | 一种基于词矢量的短文本分类模型生成方法与分类方法 |
CN104484388A (zh) * | 2014-12-10 | 2015-04-01 | 北京奇虎科技有限公司 | 稀缺信息页面的筛选方法和装置 |
US10884891B2 (en) | 2014-12-11 | 2021-01-05 | Micro Focus Llc | Interactive detection of system anomalies |
CN105718256A (zh) * | 2014-12-18 | 2016-06-29 | 通用汽车环球科技运作有限责任公司 | 用于通过本体模型的比较进行一致性检查的方法和装置 |
CN104715047B (zh) * | 2015-03-26 | 2017-11-21 | 浪潮集团有限公司 | 一种社交网络数据采集与分析系统 |
CN104715047A (zh) * | 2015-03-26 | 2015-06-17 | 浪潮集团有限公司 | 一种社交网络数据采集与分析系统 |
CN106156083B (zh) * | 2015-03-31 | 2020-02-21 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN104750841A (zh) * | 2015-04-09 | 2015-07-01 | 成都卡莱博尔信息技术有限公司 | 一种知识存储方法 |
CN104699862A (zh) * | 2015-04-09 | 2015-06-10 | 成都卡莱博尔信息技术有限公司 | 一种知识工程系统 |
CN104951542A (zh) * | 2015-06-19 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 识别社交短文本类别的方法、分类模型训练方法及装置 |
CN105101124A (zh) * | 2015-08-07 | 2015-11-25 | 北京奇虎科技有限公司 | 标注短信类别的方法及装置 |
CN105045909A (zh) * | 2015-08-11 | 2015-11-11 | 北京京东尚科信息技术有限公司 | 从文本中识别商品名称的方法和装置 |
CN105045909B (zh) * | 2015-08-11 | 2018-04-03 | 北京京东尚科信息技术有限公司 | 从文本中识别商品名称的方法和装置 |
CN105302877B (zh) * | 2015-10-09 | 2019-03-08 | 小米科技有限责任公司 | 用于短信领域分类的方法、短信领域识别方法及装置 |
CN105302877A (zh) * | 2015-10-09 | 2016-02-03 | 小米科技有限责任公司 | 用于短信领域分类的方法、短信领域识别方法及装置 |
JP2017084249A (ja) * | 2015-10-30 | 2017-05-18 | 株式会社Ubic | データ分類システム,方法,プログラムおよびその記録媒体 |
CN106970902A (zh) * | 2016-01-13 | 2017-07-21 | 北京国双科技有限公司 | 一种中文分词方法及装置 |
CN105760514B (zh) * | 2016-02-24 | 2018-12-07 | 西安交通大学 | 一种从社区问答网站自动获取知识领域短文本的方法 |
CN105760514A (zh) * | 2016-02-24 | 2016-07-13 | 西安交通大学 | 一种从社区问答网站自动获取知识领域短文本的方法 |
CN105808529B (zh) * | 2016-03-10 | 2018-06-08 | 语联网(武汉)信息技术有限公司 | 一种语料划分领域的方法和装置 |
CN105808529A (zh) * | 2016-03-10 | 2016-07-27 | 武汉传神信息技术有限公司 | 一种语料划分领域的方法和装置 |
CN106326458A (zh) * | 2016-06-02 | 2017-01-11 | 广西智度信息科技有限公司 | 一种基于文本分类的城市管理案件分类方法 |
CN106095845A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 文本分类方法和装置 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN106372640A (zh) * | 2016-08-19 | 2017-02-01 | 中山大学 | 一种字频文本分类方法 |
CN107766394A (zh) * | 2016-08-23 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 业务数据处理方法及其系统 |
CN107766394B (zh) * | 2016-08-23 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 业务数据处理方法及其系统 |
CN106528595A (zh) * | 2016-09-23 | 2017-03-22 | 中国农业科学院农业信息研究所 | 基于网站首页内容的领域信息收集和关联方法 |
CN106528595B (zh) * | 2016-09-23 | 2019-08-06 | 中国农业科学院农业信息研究所 | 基于网站首页内容的领域信息收集和关联方法 |
CN106484873A (zh) * | 2016-10-13 | 2017-03-08 | 成都东方盛行电子有限责任公司 | 一种大数据分类处理方法 |
US10419269B2 (en) | 2017-02-21 | 2019-09-17 | Entit Software Llc | Anomaly detection |
CN106897437B (zh) * | 2017-02-28 | 2020-04-03 | 北明智通(北京)科技有限公司 | 一种知识系统的高阶规则多分类方法及其系统 |
CN106897437A (zh) * | 2017-02-28 | 2017-06-27 | 北明智通(北京)科技有限公司 | 一种知识系统的高阶规则多分类方法及其系统 |
CN108628873A (zh) * | 2017-03-17 | 2018-10-09 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置和设备 |
CN108628873B (zh) * | 2017-03-17 | 2022-09-27 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置和设备 |
CN108804408A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 基于领域专家知识体系的信息抽取系统及信息抽取方法 |
CN107220876A (zh) * | 2017-05-26 | 2017-09-29 | 北京三快在线科技有限公司 | 商品信息管理方法、装置及移动终端 |
CN107220876B (zh) * | 2017-05-26 | 2023-10-24 | 北京三快在线科技有限公司 | 商品信息管理方法、装置及移动终端 |
CN110019784B (zh) * | 2017-09-29 | 2021-10-15 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN110019784A (zh) * | 2017-09-29 | 2019-07-16 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN107844560A (zh) * | 2017-10-30 | 2018-03-27 | 北京锐安科技有限公司 | 一种数据接入的方法、装置、计算机设备和可读存储介质 |
CN107908621A (zh) * | 2017-11-16 | 2018-04-13 | 东华大学 | 基于超声检查报告文本数据的乳腺肿瘤风险性评估系统 |
US10984031B2 (en) | 2017-12-26 | 2021-04-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Text analyzing method and device, server and computer-readable storage medium |
CN108197102A (zh) * | 2017-12-26 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种文本数据统计方法、装置和服务器 |
CN108038245A (zh) * | 2017-12-28 | 2018-05-15 | 中译语通科技(青岛)有限公司 | 一种基于多语言的数据挖掘方法 |
CN108415897A (zh) * | 2018-01-18 | 2018-08-17 | 北京百度网讯科技有限公司 | 基于人工智能的类别判别方法、装置及存储介质 |
CN108280206A (zh) * | 2018-01-30 | 2018-07-13 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
CN108280206B (zh) * | 2018-01-30 | 2020-05-26 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
CN110443661A (zh) * | 2018-05-03 | 2019-11-12 | 上海媒科锐奇网络科技有限公司 | 用于购物网页的短文本分类方法、装置、设备及其介质 |
CN108664612A (zh) * | 2018-05-11 | 2018-10-16 | 广东电网有限责任公司 | 一种基于关键词计分的长文本数据智能分类方法 |
CN109766440A (zh) * | 2018-12-17 | 2019-05-17 | 航天信息股份有限公司 | 一种用于为对象文本描述确定默认分类信息的方法及系统 |
CN109766440B (zh) * | 2018-12-17 | 2023-09-01 | 航天信息股份有限公司 | 一种用于为对象文本描述确定默认分类信息的方法及系统 |
CN109684471B (zh) * | 2018-12-29 | 2023-08-25 | 上海晏鼠计算机技术股份有限公司 | 一种ai智能文本处理系统在新零售领域的应用方法 |
CN109684471A (zh) * | 2018-12-29 | 2019-04-26 | 上海晏鼠计算机技术股份有限公司 | 一种创新型ai智能文本处理系统在新零售领域的应用方法 |
CN109816004A (zh) * | 2019-01-17 | 2019-05-28 | 平安城市建设科技(深圳)有限公司 | 房源图片分类方法、装置、设备及存储介质 |
CN109783690A (zh) * | 2019-02-18 | 2019-05-21 | 北京奇艺世纪科技有限公司 | 一种视频查询方法及装置 |
CN110110756A (zh) * | 2019-04-09 | 2019-08-09 | 北京中科智营科技发展有限公司 | 一种数据分类优化方法和优化装置 |
CN110399487B (zh) * | 2019-07-01 | 2021-09-28 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110399487A (zh) * | 2019-07-01 | 2019-11-01 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110443305A (zh) * | 2019-08-06 | 2019-11-12 | 北京明略软件系统有限公司 | 自适应特征处理方法及装置 |
CN110852059A (zh) * | 2019-11-14 | 2020-02-28 | 中国农业科学院农业信息研究所 | 一种基于分组的文档内容差异对比可视化分析方法 |
CN110852059B (zh) * | 2019-11-14 | 2023-08-29 | 中国农业科学院农业信息研究所 | 一种基于分组的文档内容差异对比可视化分析方法 |
CN110837735A (zh) * | 2019-11-17 | 2020-02-25 | 太原蓝知科技有限公司 | 一种数据智能分析识别方法及系统 |
CN110837735B (zh) * | 2019-11-17 | 2023-11-03 | 内蒙古中媒互动科技有限公司 | 一种数据智能分析识别方法及系统 |
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
CN112560476A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN113515629A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种文档分类方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102194013A (zh) | 一种基于领域知识的短文本分类方法及文本分类系统 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN102929937B (zh) | 基于文本主题模型的商品分类的数据处理方法 | |
CN101794311B (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
Al Qadi et al. | Arabic text classification of news articles using classical supervised classifiers | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN102332028A (zh) | 一种面向网页的不良Web内容识别方法 | |
CN105302793A (zh) | 一种利用计算机自动评价科技文献新颖性的方法 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN102622373A (zh) | 一种基于tf*idf算法的统计学文本分类系统及方法 | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN102495892A (zh) | 一种网页信息抽取方法 | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
CN107194617A (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN104142960A (zh) | 互联网数据分析系统 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Barua et al. | Multi-class sports news categorization using machine learning techniques: resource creation and evaluation | |
CN113312474A (zh) | 一种基于深度学习的法律文书的相似案件智能检索系统 | |
CN116109373A (zh) | 金融产品的推荐方法、装置、电子设备和介质 | |
Meusel et al. | Towards automatic topical classification of LOD datasets | |
Katumullage et al. | Using neural network models for wine review classification | |
CN103049454B (zh) | 一种基于多标签分类的中英文搜索结果可视化系统 | |
Syn et al. | Using latent semantic analysis to identify quality in use (qu) indicators from user reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110921 |