CN104268134B - 一种主客观分类器构建方法和系统 - Google Patents
一种主客观分类器构建方法和系统 Download PDFInfo
- Publication number
- CN104268134B CN104268134B CN201410508281.1A CN201410508281A CN104268134B CN 104268134 B CN104268134 B CN 104268134B CN 201410508281 A CN201410508281 A CN 201410508281A CN 104268134 B CN104268134 B CN 104268134B
- Authority
- CN
- China
- Prior art keywords
- answer
- classification
- objective
- subjective
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的主客观分类器构建方法和系统,在着眼于对问题进行训练的同时,还着眼于对问题的答案进行训练,分别在问题和答案两类文本上构建基分类器,后续通过对两个基分类器进行融合,得到最终的主客观分类器。可见,本发明在主客观分类中加入了答案分类,通过结合答案特征对问题分类进行补正、校准,实现了基于问题与答案互补的主客观分类,规避了因问题训练样本的歧义性而导致分类器准确率低的弊端,提高了利用主客观分类器对问题进行分类的准确率,进而提升了问答系统的性能。
Description
技术领域
本发明属于自然语言处理及模式识别技术领域,尤其涉及一种主客观分类器构建方法和系统。
背景技术
自动问答技术是自然语言处理领域中的一个研究热点,其一般包括三个主要组成部分:问题分类、信息检索和答案抽取。
问题分类能够有效地减少候选答案的空间,提高自动问答系统返回答案的准确率。其中,主客观分类是实现问题分类的基础,针对用户提出的问题,自动问答系统首先需对其进行主客观分类,后续在主客观分类的基础上对问题的类别进行进一步细分。目前,主流的主客观分类方法是基于机器学习的监督分类方法,该方法实现主客观分类的过程包括:训练过程和分类过程。其中,在训练过程中,人工标注一定数目的主观性问题和客观性问题,作为标注样本,然后利用标注样本和机器学习分类方法(例如,支持向量机分类方法)训练主客观分类器;后续利用训练所得的主客观分类器对未知问题进行分类给出其主客观类别。
可见,现有主客观分类器的构建仅着眼于对问题进行训练,然而,有些问题的类别可能会存在歧义,即其可能会因答案的不同而属于不同的主客观类别,从而导致最终训练所得的主客观分类器的分类准确率较低。
发明内容
有鉴于此,本发明的目的在于提供一种主客观分类器构建方法和系统,以克服现有技术的上述问题,提高主客观分类器的分类准确率,进而提升问答系统的性能。
为此,本发明公开如下技术方案:
一种主客观分类器构建方法,包括:
利用预定个数的问题训练样本对第一预设分类算法进行主、客观分类训练,得到问题基分类器;
利用所述预定个数的答案训练样本对第二预设分类算法进行主、客观分类训练,得到答案基分类器,其中,所述答案训练样本与所述问题训练样本一一对应,且一一对应的问题训练样本与答案训练样本为具有问答关系的问答对;
依据预先设定的融合规则,对所述问题基分类器、答案基分类器进行融合,得到目标主客观分类器。
上述方法,优选的,所述第一预设分类算法及所述第二预设分类算法为支持向量机分类方法,所述融合规则为贝叶斯融合规则。
上述方法,优选的,所述第一预设分类算法利用问题训练样本的一元词特征对问题训练样本进行主客观分类;所述第二预设算法利用答案训练样本的一元词特征对答案训练样本进行主客观分类。
上述方法,优选的,还包括如下的预处理过程:
抓取第一预设数量的问答对;
过滤掉参考价值较低的问答对,其中参考价值较低的问答对包括:人工无法判别问题或答案的主客观类别的问答对和答非所问、答案无效的问答对;
对过滤后所剩余问答对的主客观类别进行人工标注,其中,主观类别问答对的个数与客观类别问答对的个数相同;
从已标注类别的问答对中选取第二预设数量的问答对作为测试样本,其余问答对作为训练样本,其中,测试样本及训练样本中主、客观类别的问答对数目相同。
上述方法,优选的,还包括:
利用所述测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能。
上述方法,优选的,所述利用测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能包括:
利用所述目标主客观分类器,对所述测试样本进行主客观分类;
将利用所述目标主客观分类器分类所得的测试样本的分类类别与所述测试样本的标注类别相比对,并获取分类类别与标注类别相同的测试样本的个数n1;
基于式k=n1/n0,获取所述目标主客观分类器的分类准确率k,其中,n0表示测试样本的总个数;
基于所述分类准确率k评估所述目标主客观分类器的分类性能。
一种主客观分类器构建系统,包括:
第一训练模块,用于利用预定个数的问题训练样本对第一预设分类算法进行主、客观分类训练,得到问题基分类器;
第二训练模块,用于利用所述预定个数的答案训练样本对第二预设分类算法进行主、客观分类训练,得到答案基分类器,其中,所述答案训练样本与所述问题训练样本一一对应,且一一对应的问题训练样本与答案训练样本为具有问答关系的问答对;
融合模块,用于依据预先设定的融合规则,对所述问题基分类器、答案基分类器进行融合,得到目标主客观分类器。
上述系统,优选的,还包括预处理模块,所述预处理模块包括:
抓取单元,用于抓取第一预设数量的问答对;
过滤单元,用于过滤掉参考价值较低的问答对,其中参考价值较低的问答对包括人工无法判别问题或答案的主客观类别的问答对和答非所问、答案无效的问答对;
标注单元,用于对过滤后所剩余问答对的主客观类别进行人工标注,其中,主观类别问答对的个数与客观类别问答对的个数相同;
选取单元,用于从已标注类别的问答对中选取第二预设数量的问答对作为测试样本,其余问答对作为训练样本,其中,测试样本及训练样本中主、客观类别的问答对数目相同。
上述系统,优选的,还包括:
验证和评估模块,用于利用所述测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能。
上述系统,优选的,所述验证和评估模块包括:
分类单元,用于利用所述目标主客观分类器,对所述的测试样本进行主客观分类;
比对单元,用于将利用所述目标主客观分类器分类所得的测试样本的分类类别与所述测试样本的标注类别相比对,并获取分类类别与标注类别相同的测试样本的个数n1;
计算单元,用于基于式k=n1/n0,计算所述目标主客观分类器的分类准确率k,其中,n0表示测试样本的总个数;
评估单元,用于基于所述分类准确率k评估所述目标主客观分类器的分类性能。
由以上方案可知,本发明公开的主客观分类器构建方法和系统,在着眼于对问题进行训练的同时,还着眼于对问题的答案进行训练,分别在问题和答案两类文本上构建基分类器,后续通过对两个基分类器进行融合,得到最终的主客观分类器。可见,本发明在主客观分类中加入了答案分类,通过结合答案特征对问题分类进行补正、校准,实现了基于问题与答案互补的主客观分类,规避了因问题训练样本的歧义性而导致分类器准确率低的弊端,提高了利用主客观分类器对问题进行分类的准确率,进而提升了问答系统的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一公开的主客观分类器构建方法的一种流程图;
图2是本发明实施例一公开的预处理过程流程图;
图3是本发明实施例二公开的主客观分类器构建方法的另一种流程图;
图4是本发明实施例二公开的四种分类器的分类准确率曲线对比图;
图5是本发明实施例三公开的主客观分类器构建系统的一种结构示意图;
图6是本发明实施例三公开的主客观分类器构建系统的另一种结构示意图;
图7是本发明实施例三公开的主客观分类器构建系统的又一种结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
主客观分类:是将文本分为主观性文本或者客观性文本的任务。
主观性文本:是指对于非事实进行描述的文本,在文本中会带有发表者的个人情感倾向。例如,“送怀孕班主任什么礼物好?送康乃馨吧”为主观性文本。
客观性文本:是指作者对于事件、对象等进行基于事实的描述,不带有个人的好恶或偏见等个人情感倾向。例如,“淘宝从什么时候开的?2003年5月10日投资创立”为客观性文本。
一元模型(Unigram):一元词特征,例如“秦羊奶粉怎么认真假”分词成:‘秦’、‘羊’、‘奶粉’、‘怎么’、‘认’、‘真假’。
二元模型(Bigram):二元词特征,将上述一元词特征前后两两结合,例如:‘秦_羊’、‘羊_奶粉’、‘奶粉_怎么’、‘怎么_认’、‘认_真’、‘真_假’。
Unigram+Bigram:在一元词特征的基础上,加入二元词特征,例如“秦羊奶粉怎么认真假”的Unigram+Bigram特征为:‘秦’、‘羊’……‘认’、‘真假’、‘秦_羊’、‘羊_奶粉’……‘认_真假’;“从包装、粉质、颜色来辨别”的Unigram+Bigram特征为:‘从’、‘包装’……‘来’、‘辨别’、‘从_包装’、‘包装_粉质’……‘来_辨别’。
机器学习分类方法(Classification Methods Based on Machine Learning):用于构建分类器的统计学习方法,输入是表示样本的向量,输出是样本的类别标签。根据学习算法的不同,常见的分类方法有朴素贝叶斯、最大熵分类方法、支持向量机等分类方法,本发明采用支持向量机。
TF向量表示法:即文档向量的分量为相应的单词在该文档中出现的频度。
支持向量机分类方法(SVM):是在统计理论基础上发展起来的一种新的通用学习方法,它在结构风险最小化原理的近似实现,因为它同时是最小化经验风险和VC维的界。在主客观分类任务中,这种分类方法得到了很大的应用,相关的研究工作非常多。
基分类器(Base Classifier):在多分类器系统(Multiple Classifier System)中,参与的每个分类器称为基分类器。
融合规则(Combining Rule):用于融合多个分类器结果的方法。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例一公开一种主客观分类器构建方法,参考图1,所述方法可以包括以下步骤:
S101:利用预定个数的问题训练样本对第一预设分类算法进行主、客观分类训练,得到问题基分类器。
参考图2,在执行本发明方法的各个步骤之前,需首先进行如下的预处理过程:
S201:抓取第一预设数量的问答对;
S202:过滤掉参考价值较低的问答对,其中参考价值较低的问答对包括人工无法判别问题或答案的主客观类别的问答对和答非所问、答案无效的问答对;
S203:对过滤后所剩余问答对的主客观类别进行人工标注,其中,主观类别问答对的个数与客观类别问答对的个数相同;
S204:从已标注类别的问答对中选取第二预设数量的问答对作为测试样本,其余问答对作为训练样本,其中,测试样本及训练样本中主、客观类别的问答对数目相同。
具体地,本实施例通过网络爬虫程序从百度知道生活类别中抓取15000对高悬赏的问答对,并基于如下原因过滤掉其中的一些问答对:
a、不少问题的答案太过简短,人工无法判别其主客观类别;
b、许多问题答非所问,导致答案无效;
c、一些问答对的内容抓取不全,导致难以判别其主客观类别。
最终筛选出1300对参考价值较高的问答对,并对其进行主客观类别的人工标注,其中,1300对问答对中,主、客观问答对的数目分别为650对。在此基础上,从1300对问答对中选出1000对作为训练样本(500对主观、500对客观),其中,1000对问答对中的1000条问题用于作为问题训练样本,1000条答案用于作为答案训练样本;而剩余的300对问答对作为测试样本(150对主观、150对客观)。
本实施例中,语料标注具体由两位不同标注者参与。在实际标注过程中,不同的标注者对语料主客观类别的标注可能存在不一致性,即不同标注者可能会对相同语料有不同的标注结果,具体地,诸如受人工失误、理解偏差,或语料的类别本身存在歧义等各种因素的影响,均可导致标注不一致现象的产生,参考表1,表1即提供了不同标注者标注不一致的示例。
表1
基于此,本实施例对语料的标注情况进行一致性分析,并根据Kappa值计算公式,计算所对应的Kappa值为82%,从而本实施例中语料的主客观标注一致性较好,规避了因前期标注的不一致性而易对分类器性能带来不利影响的问题。
在以上预处理的基础上,步骤S101基于采用支持向量机分类方法,使用问题训练样本的一元词特征对问题进行分类,最终实现利用1000条问题训练样本训练得出问题基分类器。
S102:利用所述预定个数的答案训练样本对第二预设分类算法进行主、客观分类训练,得到答案基分类器,其中,所述答案训练样本与所述问题训练样本一一对应,且一一对应的问题训练样本与答案训练样本为具有问答关系的问答对。
本步骤S102基于采用支持向量机分类方法,使用答案训练样本的一元词特征对答案进行分类,最终实现利用1000条答案训练样本训练得出答案基分类器。
即,本发明优选采用支持向量机分类方法来训练得出两个基分类器,且本发明优选使用问题或答案文本(训练样本)的一元词特征对问题或答案进行主客观分类。
S103:依据预先设定的融合规则,对所述问题基分类器、答案基分类器进行融合,得到目标主客观分类器。
在训练出问题基分类器及答案基分类器的基础上,本步骤采用贝叶斯融合规则对两个基分类器进行融合,得到最终的主客观分类器。
其中,贝叶斯融合规则具体是指:
每个基分类器都给待分样本一个分类结果,假设每个基分类器给出的结果相互独立,则样本属于主、客观的后验概率P(csubjective|D)和P(cobjective|D)可以通过贝叶斯公式分别表示为:
其中,Pl(csubjective|D)和Pl(cobjective|D)分别表示第l个基分类器给出的待分样本的主、客观后验概率,P(csubjective)和P(cobjective)分别表示样本属于主、客观的先验概率。
本发明中忽略先验概率的影响,将各先验概率设置为0.5。
本发明中,待分样本所属的主、客观类别依据样本的主、客观后验概率P(csubjective|D)和P(cobjective|D)来判定,具体判定规则如下:
如果P(csubjective|D)>P(cobjective|D),则样本属于主观类别,否则,样本属于客观类别。
基于以上描述可知,本发明优选采用支持向量机分类方法来训练得出两个基分类器,且本发明优选使用问题或答案文本的一元词特征对问题或答案进行主客观分类。
申请人经过大量的前期研究,例如,分别采用TF向量表示法、支持向量机方法等各种机器学习分类方法训练主客观分类器;在此基础上,利用同一组测试样本对基于各个方法训练出的分类器进行测试,并通过最终的测试数据比较基于不同分类方法训练出的分类器的分类性能或分类准确率,最终发现:采用支持向量机方法能够使最终训练所得的主客观分类器具有较高的分类性能或分类准确率,因此本发明优选采用支持向量机方法训练问题及答案两个基分类器。
为了选取分类性能较高的词特征(例如一元词特征、二元词特征等),本实施例在选取了1000个训练样本(问答对)的基础上,还从1000个训练样本中分别选取样本规模个数分别为130,260,520,780的四组样本,其中,每组样本均包含相同数目的主、客观样本,即共选取样本个数分别为130,260,520,780,1000的五组样本为后续基于不同词特征的分类结果提供多数据比对支持。
本实施例利用Unigram(一元词特征),分别对样本个数为130,260,520,780,1000的五组样本进行训练,得到各组样本下的问题分类器和答案分类器;相应地,利用Unigram+Bigram(一元词特征+二元词特征),分别对以上五组样本进行训练,得到各组样本下的问题分类器和答案分类器。
在此基础上利用以上的300个测试样本对两种词特征下由每组样本训练得出的问题分类器及答案分类器进行测试,得到各分类器的分类准确率,参考表2,表2示出了各个分类器的准确率数据。
表2
由表2可知,在Unigram的基础上,加入Bigram特征后,虽然特征空间变大,但各分类器的分类性能并没有得到提高,反而有所降低。例如,在使用1000个训练样本时,问题分类器的准确率从0.84降到了0.81。因此,本发明优选Unigram作为文本的分类特征训练两个基分类器。
同时,由表2还可以看出:较之于问题分类器,答案分类器的准确率较低,导致此现象的主要原因是由于答案有时比较短,缺乏足够的分类信息,即使采用人工判断,也很难分辨其主客观类别。例如,“海尔电热水器”,其问题可以是“哪种热水器比较好?”,该问题前提下,其属于主观类别;其问题也可以是“这是哪种电热水器?”,该问题前提下,其属于客观类别,因此,此类歧义答案的存在导致最终训练出的答案分类器的准确率只能达到5%-70%左右。
由以上方案可知,本发明公开的主客观分类器构建方法,在着眼于对问题进行训练的同时,还着眼于对问题的答案进行训练,分别在问题和答案两类文本上构建基分类器,后续通过对两个基分类器进行融合,得到最终的主客观分类器。可见,本发明在主客观分类中加入了答案分类,通过结合答案特征对问题分类进行补正、校准,实现了基于问题与答案互补的主客观分类,规避了因问题训练样本的歧义性而导致分类器准确率低的弊端。提高了利用主客观分类器对问题进行分类的准确率,进而提升了问答系统的性能。
实施例二
本实施例二中,参考图3,所述主客观分类器构建方法还可以包括以下步骤:
S104:利用所述测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能。
其中,本步骤实现验证和评估的过程包括:
利用所述目标主客观分类器,对所述的测试样本进行主客观分类;
将利用所述目标主客观分类器分类所得的测试样本的分类类别与所述测试样本的标注类别相比对,并获取分类类别与标注类别相同的测试样本的个数n1;
基于式k=n1/n0,获取所述目标主客观分类器的分类准确率k,其中,n0表示测试样本的总个数;
基于所述分类准确率k评估所述目标主客观分类器的分类性能。
具体地,本实施例采用以上选取的300个测试样本对融合所得的目标主客观分类器进行测试,由该主客观分类器给出每个测试样本的主客观类别,在此基础上,将测试样本的标注类别作为参考基准,对比分类器给出的类别与样本的标注类别是否一致,并获取一致样本的个数,最终由一致样本的个数占总测试样本个数(300)的比例确定出该主客观分类器的准确率数值。
为了获知所述准确率数值表征的分类器性能高低与否,本实施例通过将本发明基于问题与答案互补(或融合)的分类器与其他三类方法的分类器进行比对来评估本发明分类器的分类性能,所述其他三类方法的分类器包括:1)问题分类器:仅使用问题文本作为训练集训练支持向量机分类器;2)答案分类器:仅使用答案文本作为训练集训练支持向量机分类器;3)特征叠加分类器:将问题及答案文本进行简单的特征叠加之后作为训练集构建支持向量机分类器。
同时,为了解决仅基于一组训练样本(1000)的测试结果的参考价值较低的问题,针对以上四种分类器,本实施例同时提供了各分类器分别对应于五组训练样本(130,260,520,780,1000)的分类准确率数值,参考图4,图4基于每种分类器分别对应于五组训练样本的准确率数值绘出了每种分类器的准确率曲线。
从图中可以看出:1)特征叠加分类方法在文本数量较少时,准确率有些提升,但是随着文本数量逐渐增多,其与问题分类的准确率趋平。2)在使用不同的训练样本规模时,融合(即本发明)的分类结果稳定提高,且始终高于其他三种分类器。该结果表明本发明基于融合所得的分类器具有较好的稳定性。3)本发明的准确率比特征叠加分类器的准确率平均提升1.5%左右,比问题分类器高2%-4%。该结果说明本发明所提出的基于问题和答案互补的分类方法是有效的,加入答案分类后对主客观分类的准确率有明显提高。
实施例三
本实施例三公开一种主客观分类器构建系统,所述系统与实施例一及实施例二所公开的主客观分类器构建方法相对应。
首先,参考图5,相应于实施例一,所述系统包括第一训练模块100、第二训练模块200和融合模块300。
第一训练模块100,用于利用预定个数的问题训练样本对第一预设分类算法进行主、客观分类训练,得到问题基分类器。
第二训练模块200,用于利用所述预定个数的答案训练样本对第二预设分类算法进行主、客观分类训练,得到答案基分类器,其中,所述答案训练样本与所述问题训练样本一一对应,且一一对应的问题训练样本与答案训练样本为具有问答关系的问答对。
融合模块300,用于依据预先设定的融合规则,对所述问题基分类器、答案基分类器进行融合,得到目标主客观分类器。
其中,以上各模块功能的执行需要建立在相应预处理的基础上,因此,参考图6,所述系统还包括预处理模块400,该模块包括抓取单元、过滤单元、标注单元和选取单元。
抓取单元,用于抓取第一预设数量的问答对;
过滤单元,用于过滤掉参考价值较低的问答对,其中参考价值较低的问答对包括人工无法判别问题或答案的主客观类别的问答对和答非所问、答案无效的问答对;
标注单元,用于对过滤后所剩余问答对的主客观类别进行人工标注,其中,主观类别问答对的个数与客观类别问答对的个数相同;
选取单元,用于从已标注类别的问答对中选取第二预设数量的问答对作为测试样本,其余问答对作为训练样本,其中,测试样本及训练样本中主客观类别的问答对数目相同。
相应于实施例二,参考图7,所述系统还包括验证和评估模块500,该模块用于利用所述测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能。
其中,验证和评估模块500包括分类单元、比对单元、计算单元和评估单元。
分类单元,用于利用所述目标主客观分类器,对所述的测试样本进行主客观分类;
比对单元,用于将利用所述目标主客观分类器分类所得的测试样本的分类类别与所述测试样本的标注类别相比对,并获取分类类别与标注类别相同的测试样本的个数n1;
计算单元,用于基于式k=n1/n0,计算所述目标主客观分类器的分类准确率k,其中,n0表示测试样本的总个数;
评估单元,用于基于所述分类准确率k评估所述目标主客观分类器的分类性能。
对于本发明实施例三公开的主客观分类器构建系统而言,由于其与实施例一和实施例二公开的主客观分类器构建方法相对应,所以描述的比较简单,相关相似之处请参见实施例一和实施例二中主客观分类器构建方法部分的说明即可,此处不再详述
综上所述,本发明在着眼于对问题进行训练的同时,还着眼于对问题的答案进行训练,分别在问题和答案两类文本上构建基分类器,后续通过对两个基分类器进行融合,得到最终的主客观分类器。可见,本发明在主客观分类中加入了答案分类,通过结合答案特征对问题分类结果进行补正、校准,实现了基于问题与答案互补的主客观分类,规避了因问题训练样本的歧义性而导致分类器准确率低的弊端,提高了利用主客观分类器对问题进行分类的准确率,进而提升了问答系统的性能。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种主客观分类器构建方法,其特征在于,包括:
利用预定个数的问题训练样本对支持向量机分类算法进行主、客观分类训练,得到问题基分类器;
利用所述预定个数的答案训练样本对支持向量机分类算法进行主、客观分类训练,得到答案基分类器,其中,所述答案训练样本与所述问题训练样本一一对应,且一一对应的问题训练样本与答案训练样本为具有问答关系的问答对;
依据贝叶斯融合规则,对所述问题基分类器、答案基分类器进行融合,得到目标主客观分类器。
2.根据权利要求1所述的方法,其特征在于,所述第一预设分类算法及所述第二预设分类算法为支持向量机分类方法,所述融合规则为贝叶斯融合规则。
3.根据权利要求2所述的方法,其特征在于,所述第一预设分类算法利用问题训练样本的一元词特征对问题训练样本进行主客观分类;所述第二预设算法利用答案训练样本的一元词特征对答案训练样本进行主客观分类。
4.根据权利要求1所述的方法,其特征在于,还包括如下的预处理过程:
抓取第一预设数量的问答对;
过滤掉参考价值较低的问答对,其中参考价值较低的问答对包括:人工无法判别问题或答案的主客观类别的问答对和答非所问、答案无效的问答对;
对过滤后所剩余问答对的主客观类别进行人工标注,其中,主观类别问答对的个数与客观类别问答对的个数相同;
从已标注类别的问答对中选取第二预设数量的问答对作为测试样本,其余问答对作为训练样本,其中,测试样本及训练样本中主、客观类别的问答对数目相同。
5.根据权利要求4所述的方法,其特征在于,还包括:
利用所述测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能。
6.根据权利要求5所述的方法,其特征在于,所述利用测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能包括:
利用所述目标主客观分类器,对所述测试样本进行主客观分类;
将利用所述目标主客观分类器分类所得的测试样本的分类类别与所述测试样本的标注类别相比对,并获取分类类别与标注类别相同的测试样本的个数n1;
基于式k=n1/n0,获取所述目标主客观分类器的分类准确率k,其中,n0表示测试样本的总个数;
基于所述分类准确率k评估所述目标主客观分类器的分类性能。
7.一种主客观分类器构建系统,其特征在于,包括:
第一训练模块,用于利用预定个数的问题训练样本对支持向量机分类算法进行主、客观分类训练,得到问题基分类器;
第二训练模块,用于利用所述预定个数的答案训练样本对支持向量机分类算法进行主、客观分类训练,得到答案基分类器,其中,所述答案训练样本与所述问题训练样本一一对应,且一一对应的问题训练样本与答案训练样本为具有问答关系的问答对;
融合模块,用于依据贝叶斯融合规则,对所述问题基分类器、答案基分类器进行融合,得到目标主客观分类器。
8.根据权利要求7所述的系统,其特征在于,还包括预处理模块,所述预处理模块包括:
抓取单元,用于抓取第一预设数量的问答对;
过滤单元,用于过滤掉参考价值较低的问答对,其中参考价值较低的问答对包括人工无法判别问题或答案的主客观类别的问答对和答非所问、答案无效的问答对;
标注单元,用于对过滤后所剩余问答对的主客观类别进行人工标注,其中,主观类别问答对的个数与客观类别问答对的个数相同;
选取单元,用于从已标注类别的问答对中选取第二预设数量的问答对作为测试样本,其余问答对作为训练样本,其中,测试样本及训练样本中主、客观类别的问答对数目相同。
9.根据权利要求8所述的系统,其特征在于,还包括:
验证和评估模块,用于利用所述测试样本验证所述目标主客观分类器的分类准确率,并基于所述分类准确率评估所述目标主客观分类器的分类性能。
10.根据权利要求9所述的系统,其特征在于,所述验证和评估模块包括:
分类单元,用于利用所述目标主客观分类器,对所述的测试样本进行主客观分类;
比对单元,用于将利用所述目标主客观分类器分类所得的测试样本的分类类别与所述测试样本的标注类别相比对,并获取分类类别与标注类别相同的测试样本的个数n1;
计算单元,用于基于式k=n1/n0,计算所述目标主客观分类器的分类准确率k,其中,n0表示测试样本的总个数;
评估单元,用于基于所述分类准确率k评估所述目标主客观分类器的分类性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410508281.1A CN104268134B (zh) | 2014-09-28 | 2014-09-28 | 一种主客观分类器构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410508281.1A CN104268134B (zh) | 2014-09-28 | 2014-09-28 | 一种主客观分类器构建方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104268134A CN104268134A (zh) | 2015-01-07 |
CN104268134B true CN104268134B (zh) | 2017-04-19 |
Family
ID=52159656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410508281.1A Active CN104268134B (zh) | 2014-09-28 | 2014-09-28 | 一种主客观分类器构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104268134B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850540A (zh) * | 2015-05-29 | 2015-08-19 | 北京京东尚科信息技术有限公司 | 进行语句识别的方法及装置 |
CN105183808A (zh) * | 2015-08-26 | 2015-12-23 | 苏州大学张家港工业技术研究院 | 一种问题分类方法及装置 |
CN108334488A (zh) * | 2017-01-18 | 2018-07-27 | 中国移动通信集团公司 | 一种工单分类处理方法及服务器 |
CN108846138B (zh) * | 2018-07-10 | 2022-06-07 | 苏州大学 | 一种融合答案信息的问题分类模型构建方法、装置和介质 |
CN113407694B (zh) * | 2018-07-19 | 2023-06-02 | 深圳追一科技有限公司 | 客服机器人知识库歧义检测方法、装置及相关设备 |
CN109460467B (zh) * | 2018-09-28 | 2020-02-14 | 中国科学院电子学研究所苏州研究院 | 一种网络信息分类体系构建方法 |
CN109460453B (zh) * | 2018-10-09 | 2021-08-17 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109800293A (zh) * | 2018-12-20 | 2019-05-24 | 出门问问信息科技有限公司 | 一种基于问题分类获取答案的方法、装置及电子设备 |
CN110647627B (zh) * | 2019-08-06 | 2022-05-27 | 北京百度网讯科技有限公司 | 答案生成方法及装置、计算机设备与可读介质 |
CN111200590B (zh) * | 2019-12-09 | 2022-08-19 | 杭州安恒信息技术股份有限公司 | 多个周期统计数据一致性校验的算法 |
CN111126487A (zh) * | 2019-12-24 | 2020-05-08 | 北京安兔兔科技有限公司 | 设备性能测试方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298646B (zh) * | 2011-09-21 | 2014-04-09 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
US9117194B2 (en) * | 2011-12-06 | 2015-08-25 | Nuance Communications, Inc. | Method and apparatus for operating a frequently asked questions (FAQ)-based system |
CN103810170B (zh) * | 2012-11-06 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 交流平台文本分类方法及装置 |
CN103294798B (zh) * | 2013-05-27 | 2016-08-31 | 北京尚友通达信息技术有限公司 | 基于二元切词和支持向量机的商品自动分类方法 |
CN103902733B (zh) * | 2014-04-18 | 2017-02-01 | 北京大学 | 基于疑问词扩展的信息检索方法 |
-
2014
- 2014-09-28 CN CN201410508281.1A patent/CN104268134B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN104268134A (zh) | 2015-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104268134B (zh) | 一种主客观分类器构建方法和系统 | |
JP6484333B2 (ja) | 記述式問題のための知的採点方法およびシステム | |
CN106897738B (zh) | 一种基于半监督学习的行人检测方法 | |
CN104239485B (zh) | 一种基于统计机器学习的互联网暗链检测方法 | |
CN101915769B (zh) | 一种印刷电路板中带电阻元件的自动光学检测方法 | |
CN105608446A (zh) | 一种视频流异常事件的检测方法及装置 | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN106570109B (zh) | 一种通过文本分析自动生成题库知识点的方法 | |
CN105488142B (zh) | 成绩信息录入方法及系统 | |
CN103064971A (zh) | 一种基于评分和中文情感分析的垃圾评论检测方法 | |
CN104463101A (zh) | 用于文字性试题的答案识别方法及系统 | |
CN103065122A (zh) | 基于面部动作单元组合特征的人脸表情识别方法 | |
CN106354872A (zh) | 文本聚类的方法及系统 | |
CN106649849A (zh) | 文本信息库建立方法和装置、以及搜索方法、装置和系统 | |
CN106570164A (zh) | 一种基于深度学习的集成式食品安全文本分类方法 | |
CN101777060A (zh) | 网页视觉质量的自动评价方法及其系统 | |
CN104517097A (zh) | 一种基于kinect的运动人体姿态识别方法 | |
CN102156871A (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN109271523A (zh) | 一种基于信息检索的政府公文主题分类方法 | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN103679160A (zh) | 一种人脸识别方法和装置 | |
CN108345833A (zh) | 数学公式的识别方法及系统和计算机设备 | |
CN105183808A (zh) | 一种问题分类方法及装置 | |
CN103020249A (zh) | 分类器的构建方法及装置、中文文本情感分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |