CN105159972A - 一种评价类型分类方法与系统 - Google Patents
一种评价类型分类方法与系统 Download PDFInfo
- Publication number
- CN105159972A CN105159972A CN201510530886.5A CN201510530886A CN105159972A CN 105159972 A CN105159972 A CN 105159972A CN 201510530886 A CN201510530886 A CN 201510530886A CN 105159972 A CN105159972 A CN 105159972A
- Authority
- CN
- China
- Prior art keywords
- corpus
- language material
- characteristic information
- type
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种评价类型分类方法与系统,获取目标语料的特征信息,将所述特征信息进行融合;将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;将所述可用语料按预设规则分为训练语料与测试语料;将所述训练语料进行训练得到预设数量的评价类型的分类模型;分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果,使用支持向量机模型,充分地利用上下文信息,建立一个统一的概率模型,可以高效准确地对语料进行评价类型分类。
Description
技术领域
本发明涉及信息分类领域,特别是涉及一种评价类型分类方法与系统。
背景技术
随着互联网的高速发展和信息高速公路的兴起,网络信息数据不断增加,大量的信息以电子文本的形式呈现在人们面前,从这些大量的信息中迅速、准确地提取出人们所需求的重要信息变得越发重要。
评价类别是指某段语句中所讨论的主题类别,如评价类别一共分为五个类别,分别为:food、service、price、Ambience、anecdotes/miscellaneous.对于以下语句:Allthemoneywentintotheinteriordecoration,noneofitwenttothechefs.这个语句对应有2个评价类型,分别为ambience、food。目前,评价类型分类方法大多是都是基于机器学习的方法,即使用统计的方法进行研究。主要还是基于全监督的学习方法,这种方法把评价类型判别看成分类问题,选择合适的特征并使用合适的分类器来完成。基于机器学习的方法有效智能,但是却存在不能充分的利用到上下文信息,特征无法全局归一化。
发明内容
有鉴于此,本发明的主要目的在于提供一种评价类型分类方法与系统,可以高效准确地对语料进行评价类型分类。
为实现上述目的,本发明提供了一种评价类型分类方法,包括:
获取目标语料的特征信息;
将所述特征信息进行融合;
将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;
将所述可用语料按预设规则分为训练语料与测试语料;
将所述训练语料进行训练得到预设数量的评价类型的分类模型;
分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果。
优选地,所述特征信息包括词特征、词性特征和评价对象特征。
优选地,使用Stanford工具获取所述词性特征。
优选地,将所述可用语料按预设规则分为训练语料与测试语料包括:
抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试语料。
本发明还提供了一种评价类型分类系统,包括:
特征信息获取模块、特征信息融合模块、语料格式转换模块、语料分类模块、分类模型生成模块和分类模块;
所述特征信息获取模块用于获取目标语料的特征信息;
所述特征信息融合模块用于将所述特征信息进行融合;
所述语料格式转换模块用于将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;
所述语料分类模块用于将所述可用语料按预设规则分为训练语料与测试语料;
所述分类模型生成模块用于将所述训练语料进行训练得到预设数量的评价类型的分类模型;
所述分类模块用于分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果。
优选地,所述特征信息包括词特征、词性特征和评价对象特征。
优选地,使用Stanford工具获取所述词性特征。
优选地,将所述可用语料按预设规则分为训练语料与测试语料包括:
抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试语料。
应用本发明提供的一种评价类型分类方法与系统,获取目标语料的特征信息,将所述特征信息进行融合;将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;将所述可用语料按预设规则分为训练语料与测试语料;将所述训练语料进行训练得到预设数量的评价类型的分类模型;分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果,使用支持向量机模型,充分地利用上下文信息,建立一个统一的概率模型,可以高效准确地对语料进行评价类型分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种评价类型分类方法实施例一的流程图;
图2为本发明一种评价类型分类系统实施例二的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本实施例提供了一种评价类型分类方法,图1示出了本实施例的流程图,包括:
步骤S101:获取目标语料的特征信息;
目标语料的特征信息包括词特征、词性特征和评价对象特征,词性特征通过Stanford工具获取,Stanford工具是一种词性标注工具,例如对以下的英文语句获取特征信息:
语句:Butthestaffwassohorribletous.
词性标注结果:But/CCthe/DTstaff/NNwas/VBDso/RBhorrible/JJto/TOus/PRP./.
评价对象:staff.
步骤S102:将所述特征信息进行融合;
将特征信息即词特征、词性特征与评价对象特征进行融合构建需要的可用语料。
步骤S103:将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;
可用语料的格式需严格按照支持向量机模型要求的格式,即每类特征占一列,支持向量机(SupportVectorMachine,SVM)是AT&TBell实验室的V.Vapnik等人提出的一种新型机器学习算法。到目前为止,支持向量机已应用于孤立手写字符识别6&7、网页或文本自动分类、说话人识别、人脸检测、性别分类、计算机入侵检测、基因分类、遥感图象分析、目标识别、函数回归、估计、函数逼近、密度估计、时间序列预测、数据压缩、文本过滤、数据挖掘及非线性系统控制等各个领域的实际问题中。
SVM的主要思想是针对两类分类问题,寻找一个超平面作为两类训练样本点的分割,以保证最小的分类错误率。在线性可分的情况下,存在一个或多个超平面使得训练样本完全分开,SVM的目标是找到其中的最优超平面,最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面,如下图所示,超平面W是h值最大的最优超平面;对于线性不可分的情况,通过使用核函数(一种非线性映射算法)将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分。
SVM的基本模型设输入模式集合{x[i]}∈Rn由两类点组成,如果x[i]属于第1类,则y[i]=1,如果x[i]属于第2类,则y[i]=-1,那么有训练样本集合{x[i],y[i]},i=1,2,3……n,求最优分类面wx-b=0,满足:y[i](w·x[i]-b)>=1;并使2*h=2/‖w‖最大,即min‖w‖*‖w‖/2;根据对偶理论,可以通过解该问题的对偶问得到最优解,对偶问题为:
max∑α[i]-1/2∑α[i]*α[j]*y[i]*y[j]*x[i]*x[j]
0≤α[i]≤C*∑α[i]*y[i]=0
其中x[i]·x[j]表示这两个向量的内积,当对于线性不可分的情况,用核内积K(x[i],x[j])(通过核函数映射到高维空间中对应向量的内积)代替x[i]·x[j]。根据对偶问题的解,求得w、b,得到最优分类面。
步骤S104:将所述可用语料按预设规则分为训练语料与测试语料;
按预设规则将可用语料分类,例如抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试语料。
步骤S105:将所述训练语料进行训练得到预设数量的评价类型的分类模型,分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果。
如利用训练语料训练五个支持向量机二元分类模型,针对五个类别,使用五个分类模型分别对测试语料进行评价类型分类,并综合五个模型得出的分类结果得出最终分类结果,例如评价类别一共分为五个类别,分别为:food、service、price、Ambience、anecdotes/miscellaneous,语句:Allthemoneywentintotheinteriordecoration,noneofitwenttothechefs.这个语句对应有2个评价类型,分别为ambience、food。所以说在5个分类模型的分类结果中,如果ambience与food对应的分类模型分类结果为1,其余三个分类模型的分类结果为0。
应用本实施例提供的一种评价类型分类方法,获取目标语料的特征信息,将所述特征信息进行融合;将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;将所述可用语料按预设规则分为训练语料与测试语料;将所述训练语料进行训练得到预设数量的评价类型的分类模型;分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果,使用支持向量机模型,充分地利用上下文信息,建立一个统一的概率模型,可以高效准确地对语料进行评价类型分类。
实施例二:
本实施例提供了一种评价类型分类系统,图2示出了本实施例的结构示意图,包括:
特征信息获取模块101、特征信息融合模块102、语料格式转换模块103、语料分类模块104和分类模块105;
所述特征信息获取模块101用于获取目标语料的特征信息;
所述特征信息融合模块102用于将所述特征信息进行融合;
所述语料格式转换模块103用于将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;
所述语料分类模块104用于将所述可用语料按预设规则分为训练语料与测试语料;
所述分类模块105用于将所述训练语料进行训练得到预设数量的评价类型的分类模型,并分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果。
本实施例中所述特征信息包括词特征、词性特征和评价对象特征,使用Stanford工具获取所述词性特征,分类训练语料与测试语料时,抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试语料。
应用本实施例提供的一种评价类型分类系统,获取目标语料的特征信息,将所述特征信息进行融合;将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;将所述可用语料按预设规则分为训练语料与测试语料;将所述训练语料进行训练得到预设数量的评价类型的分类模型;分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果,使用支持向量机模型,充分地利用上下文信息,建立一个统一的概率模型,可以高效准确地对语料进行评价类型分类。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的方法与系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种评价类型分类方法,其特征在于,包括:
获取目标语料的特征信息;
将所述特征信息进行融合;
将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;
将所述可用语料按预设规则分为训练语料与测试语料;
将所述训练语料进行训练得到预设数量的评价类型的分类模型,分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述特征信息包括词特征、词性特征和评价对象特征。
3.根据权利要求2所述的方法,其特征在于,使用Stanford工具获取所述词性特征。
4.根据权利要求1所述的方法,其特征在于,将所述可用语料按预设规则分为训练语料与测试语料包括:
抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试语料。
5.一种评价类型分类系统,其特征在于,包括:
特征信息获取模块、特征信息融合模块、语料格式转换模块、语料分类模块和分类模块;
所述特征信息获取模块用于获取目标语料的特征信息;
所述特征信息融合模块用于将所述特征信息进行融合;
所述语料格式转换模块用于将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;
所述语料分类模块用于将所述可用语料按预设规则分为训练语料与测试语料;
所述分类模块用于将所述训练语料进行训练得到预设数量的评价类型的分类模型,并分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果。
6.根据权利要求5所述的系统,其特征在于,所述特征信息包括词特征、词性特征和评价对象特征。
7.根据权利要求6所述的系统,其特征在于,使用Stanford工具获取所述词性特征。
8.根据权利要求5所述的系统,其特征在于,将所述可用语料按预设规则分为训练语料与测试语料包括:
抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试语料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510530886.5A CN105159972A (zh) | 2015-08-26 | 2015-08-26 | 一种评价类型分类方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510530886.5A CN105159972A (zh) | 2015-08-26 | 2015-08-26 | 一种评价类型分类方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105159972A true CN105159972A (zh) | 2015-12-16 |
Family
ID=54800828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510530886.5A Pending CN105159972A (zh) | 2015-08-26 | 2015-08-26 | 一种评价类型分类方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105159972A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189950A (zh) * | 2018-09-03 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN111783441A (zh) * | 2020-08-08 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种基于支持向量机的对话语句正确性评价方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662930A (zh) * | 2012-04-16 | 2012-09-12 | 乐山师范学院 | 一种语料标注方法及装置 |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
US20140129152A1 (en) * | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
CN104536951A (zh) * | 2014-12-29 | 2015-04-22 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种微博文本规范化及分词和词性标注的方法及系统 |
-
2015
- 2015-08-26 CN CN201510530886.5A patent/CN105159972A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662930A (zh) * | 2012-04-16 | 2012-09-12 | 乐山师范学院 | 一种语料标注方法及装置 |
US20140129152A1 (en) * | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN104536951A (zh) * | 2014-12-29 | 2015-04-22 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种微博文本规范化及分词和词性标注的方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189950A (zh) * | 2018-09-03 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN109189950B (zh) * | 2018-09-03 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN111783441A (zh) * | 2020-08-08 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种基于支持向量机的对话语句正确性评价方法 |
CN111783441B (zh) * | 2020-08-08 | 2024-05-24 | 中国人民解放军国防科技大学 | 一种基于支持向量机的对话语句正确性评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bilbao et al. | Overfitting problem and the over-training in the era of data: Particularly for Artificial Neural Networks | |
CN108182279B (zh) | 基于文本特征的对象分类方法、装置和计算机设备 | |
CN109002834B (zh) | 基于多模态表征的细粒度图像分类方法 | |
CN106408030B (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
Guo et al. | Supplier selection based on hierarchical potential support vector machine | |
CN106339416B (zh) | 基于网格快速搜寻密度峰值的教育数据聚类方法 | |
WO2019108603A1 (en) | Machine learning techniques for evaluating entities | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN109919106B (zh) | 渐进式目标精细识别与描述方法 | |
CN104573715A (zh) | 图像主体区域的识别方法及装置 | |
CN104142960A (zh) | 互联网数据分析系统 | |
CN108241867B (zh) | 一种分类方法及装置 | |
Baier Fuentes et al. | A bibliometric overview of the international journal of interactive multimedia and artificial intelligence | |
Choudhury et al. | Movement epenthesis detection for continuous sign language recognition | |
CN106202391A (zh) | 一种用户社群的自动分类方法及装置 | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
CN105159972A (zh) | 一种评价类型分类方法与系统 | |
CN110110143A (zh) | 一种视频分类方法及装置 | |
Jadon et al. | A BigData approach for sentiment analysis of twitter data using Naive Bayes and SVM Algorithm | |
CN104537392A (zh) | 一种基于判别性语义部件学习的对象检测方法 | |
Zhang et al. | Bayesian classification | |
CN114741483B (zh) | 数据识别的方法和装置 | |
Nagendraswamy et al. | GIST descriptors for sign language recognition: an approach based on symbolic representation | |
Lisjana et al. | Classifying complaint reports using rnn and handling imbalanced dataset | |
Umamaheswari et al. | Opinion mining using hybrid methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151216 |