CN1804829A - 一种中文问题的语义分类方法 - Google Patents

一种中文问题的语义分类方法 Download PDF

Info

Publication number
CN1804829A
CN1804829A CN 200610041619 CN200610041619A CN1804829A CN 1804829 A CN1804829 A CN 1804829A CN 200610041619 CN200610041619 CN 200610041619 CN 200610041619 A CN200610041619 A CN 200610041619A CN 1804829 A CN1804829 A CN 1804829A
Authority
CN
China
Prior art keywords
class
classification
chinese
semantic
multicategory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610041619
Other languages
English (en)
Inventor
郑庆华
胡云华
孙霞
党海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN 200610041619 priority Critical patent/CN1804829A/zh
Publication of CN1804829A publication Critical patent/CN1804829A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种中文问题的语义分类方法,基于中文问题语义类别体系和中文问题多类分类模型,实现对中文问题语义类别的判断和提问焦点的识别;它由中文问题语义类别体系构造、中文问题的特征向量表示和基于统一损失的中文问题多类分类组成:中文问题语义类别体系构造了一个问题语义类别体系,包括问题所有语义类别的定义和判断方法,对问题分类的结果即为该体系中的一个类别;中文问题的特征向量通过选择问题的一些特征,将问题文本表示成分类模型可以识别的特征向量;基于统一损失的多类分类将输入的问题特征向量映射到问题语义类别体系中的一个类别。该体系能够覆盖所有收集到中文问题,可以覆盖事实性问题,实现的简单直观和分类的高准确率。

Description

一种中文问题的语义分类方法
技术领域
本发明属于计算机软件领域,涉及计算机软件、自然语言处理、机器学习、汉语言学领域,特别涉及一种中文问题的语义分类方法。
背景技术
中文问题的语义分类是通过建立一个语义分类体系,自动地用分类体系中的类别对问题进行标记,进而了解问题的提问意图,为对问题的进一步处理和对问题答案的获取提供有效的信息。问题的语义分类被广泛的运用于问答系统(Question Answering System)、知识获取等领域。
申请人检索出以下相关文献:
(一)国内相关文献(标题、作者或机构、出处)3篇:
1)标题:基于改进贝叶斯模型的问题分类
作者:张宇,刘挺,文勖
机构:哈尔滨工业大学计算机学院信息检索研究室
出处:中文信息学报,第119卷第12期,100-105页
2)标题:智能答疑系统中基于聚类的问题分类研究
作者:酆晓杰,刘亚军
机构:东南大学计算机科学与工程系
出处:微机发展,2005,第15卷第2期,69-72页
3)标题:基于特定问题类别的汉语问答系统查询扩展
作者:余正涛,樊孝忠,宋丽荣
机构:北京理工大学计算机科学工程系
出处:北京理工大学学报,2005,第25卷第10期
(二)国外相关文献(标题、作者、出处)6篇:
TI:Question Classification using Support Vector Machines
AU:Dell Zhang,Wee Sun Lee
SO:SIGIR′03,p 26-32,Association for Computing Machinery
TI:Learning Question Classifiers
AU:Xin Li,Dan Roth
SO:Lecture Notes inArtificial Intelligence,Vol.3339,p 1069-1075
TI:Question Answering in Webclopedia
AU:Eduard Hovy,Laurie Gerber,Ulf Hermjakob,Michael Junk,Chin-Yew Lin
SO:http://trec.nist.gov/pubs/trec9/papers/
TI:A Question/Answer Typology with Surface Text Patterns
AU:Eduard Hovy,Ulf Hermjakob,and Deepak Ravichandran
SO:http://www.cs.brandeis.edu/~cs114/
TI:Question Classification using HDAG Kernel
AU:Jun Suzuki,Hirotoshi Taira,Yutaka Sasaki,and Eisaku Maeda
SO:Workshop on Multilingual Summarization and Question Answering 2003,p 61--68,2003
TI:Question-Answering via Enhanced Understanding of Questions
AU:Dan Roth,Chad Cumby,Xin Li,Paul Morie,Ramya Nagarajan,Nick Rizzolo,KevinSmall,Wen-tau Yih
SO:TREC11,2002
查新结论
经检索,筛选出国内相关文献3篇,国外相关文献6篇,分析如下:
国内相关文献[1]采用了与TREC-QA相似的问题分类体系,包含七个大类。每个大类又进行了进一步的细分,一共形成了六十五个小的类别,这些类别都是针对简单问题进行分类。系统采用贝叶斯分类方法来判断问题所属的类别。
文献[2]针对基于章节目录的简单分类方式的问题,提出了基于关键词聚类的问题模糊分类方法。方法选择了对关键词进行聚类,从而避免了对问题直接聚类可能引起的复杂的高维聚类,且因为关键词的相对稳定性,又可以避免频繁分类。
文献[3]根据问题中出现的与提问内容相关的特征词来判断问题的类型。
国外相关文献[1]使用基于TREC的问题分类体系,采用SVM算法,选用bag-of-words和bag-of-ngrams这两种特征对问题进行分类。
文献[2]基于TREC的问题分类体系,该体系包括六个大类,50个小类,采用SNOW学习模型的层次分类。第一层的分类结果为六大类中的一个,第二层的分类结果为50个小类中的一个类别。选用的特征为词、词性、文本块、命名实体和语义相关词(在特定问题类别中出现频率比较高的词)等特征。
文献[3]介绍了Webclopedia中的问答系统,并说明了该问答系统中的问题类别体系以及问题分类在里边的作用。该问答采用的分类体系是从17,384个简单问题总结得到的一个树状结构,总共包括94个类别节点,其中叶子节点是47个类别。
文献[4]基于ISI(Information Sciences Institute in University of Southern California)的QA分类体系(QuestionAnswering Typology),通过将问题文本同分类体系中各类别的模板进行匹配,用匹配成功的问题类别对问题进行标记,该文章中提到的方法主要针对英文问题的分类。
文献[5]构造了一个拥有150个问题类型的层次问题类型体系,使用1-vs-Rest的多类分类模型对问题进行分类,所用基类分类器均为HDAG-SVM(使用Hierarchical DirectedAcyclic Graph核的支持向量机)分类器。选择的特征包括:词、命名实体和语义特征。
文献[6]构造了一个拥有6大类50小类的问题类型体系,使用一个基于SNoW体系结构的两层层次分类器对问题进行分类,选择的特征包括多种句法和语法特征。
从国内、外数据库检索和文献分析看,对中文问题分类的研究较少,大部分研究集中在QA系统中的问题分类,而目前QA系统所研究的问题基本上都是事实性问题,这种问题的特点是它可以用一个词或者一个限制长度的句子进行回答。但是,现实中存在着大量的非事实性问题,所以这些研究中构造的事实性问题分类体系和分类方法无法涵盖现实中的所有问题。
问题分类是一个典型的多类分类问题,当前对多类分类的研究主要分为两种典型算法。第一种算法直接将待分类问题映射到一个问题类别,例如决策树算法,多类支持向量机算法等。第二种算法的思想是将多类分类问题退化成多个二类分类问题的组合来求解。目前常用的算法有1-vs-rest、1-vs-1(MaxWin,DAG)、DB2以及ECOC等。第一种算法所存在的主要问题是算法实现不直观,训练模型时的时空开销大;对于第二种算法来说,由于它是将多类分类用多个二类分类器的组合来实现,这些二类分类器之间相互独立,学习时均优化各自的目标函数,使得分类时可能存在不可分区域,影响分类的准确率。
发明内容
本发明的目的在于克服上述技术不足,提出一种中文问题的语义分类方法,首先需要建立一个能够覆盖所有中文问题的中文问题语义分类体系,然后探索一种多类分类方法能够准确有效地对中文问题进行分类,能够覆盖所有中文问题的语义分类。
实现上述发明的技术解决方案是:一种中文问题的语义分类方法CQSC,基于中文问题语义类别体系和中文问题多类分类模型,实现对中文问题语义类别的判断和提问焦点的识别;它由中文问题语义类别体系构造、中文问题的特征向量表示和基于统一损失的中文问题多类分类三个部分组成:
其中,中文问题语义类别体系构造确定了一个问题语义类别体系,该体系包括问题所有语义类别的定义和判断方法,CQSC对问题分类的结果即为该体系中的一个类别;
中文问题的特征向量表示通过选择问题的一些特征,将问题文本表示成分类模型可以识别的特征向量;
基于统一损失的多类分类将输入的问题特征向量映射到问题语义类别体系中的一个类别。
所构造的中文问题语义类别体系包括28个语义类别,分别为:目的类、原因类、定义类、方法类、选择类、是非类、分类类、条件类、结构类、关系类、区别类、属性类、实例类、应用类、作用类、数量类、程度类、时间类、地点类、方位类、位置类、人物类、实体类、缩写类、原理类、演化类、观点类、描述类。
中文问题的特征向量表示选择单词、双词、词-词性组合和语义四类特征,用这些特征将每个问题表示成特征向量用于分类。
对问题的多类分类在基于编解码的多类分类模型下,使用基于统一损失的多类分类方法,使用两个以上的二类分类器来完成多类分类,并且使用统一损失的决策函数进行训练和预测,该方法由编码、分类和解码三个模块组成。
本发明通过对从各个渠道收集到的大量的中文问题进行分析和总结,获得了一个中文问题语义类别体系,该体系能够覆盖所有收集到中文问题,不仅仅可以覆盖事实性问题,也可以覆盖其他性质的问题。我们所提出的基于统一损失的中文问题多类分类避免了现有多类分类第一种算法训练时空开销大和第二种算法由于分类时出现不可分区域而影响分类准确率的问题,兼顾了实现的简单直观和分类的高准确率。经过实验验证,分类的准确率可以达到0.765。
附图说明
附图是本发明多类分类模型的统一框架图。
具体实施方式
下面结合附图对本发明的内容作进一步的详细描述。
1.中文问题语义分类方法CQSC的组成
本发明提出的中文问题语义分类方法CQSC是一种基于分类的中文问题分类方法,其目的是自动的为任意一个中文问题标记一个合适的语义类别,进而了解该问题的提问焦点,为问题的后续处理和问题答案的获取提供有用的信息。它由三个部分组成:中文问题语义类别体系的构造、中文问题的特征向量表示、基于统一损失的中文问题多类分类。
中文问题语义类别体系的构造是通过分析和总结中文问题的特征和出现形式,获得一个能够覆盖所有中文问题的类别体系的过程。构造的类别体系中的每个类别能够恰当的表示该类问题的提问意图。本发明中构造的中文问题分类体系包含28个问题语义类别。
中文问题的特征向量表示是通过选择合适的特征,将一个问题表示成一个特征向量,进而用于多类分类中的训练和预测。本发明中选择的特征包括单词、双词、词-词性组合和语义四类特征。
基于统一损失的中文问题多类分类方法是中文问题语义类别分类方法的中心,它针对现有多类分类方法中的不足,在基于编解码的多类分类模型下,提出了一种基于统一损失的中文问题多类分类方法。该方法分为训练和预测两个阶段,训练阶段是将带类别标记的问题送入模型对模型中的参数进行训练,预测阶段是将训练好的模型用于对未知类别的问题进行类别标记。在训练和预测中都使用统一损失的决策函数,避免了现有两种多类分类方法的不足,能够兼顾实现的简单直观和分类的准确率。
2.各部分介绍
2.1中文问题分类体系的构造
本发明通过分析和总结中文问题的特征和出现形式,获得了一个能够覆盖所有中文问题的类别体系。该体系包含28个问题语义类别,这些问题语义类别涵盖了所有现实中的问题。为了得到问题所具有的类别,我们对疑问句的语法现象进行了探讨,分析总结了其语法语义特点;然后,对目前国内外现有的主流问题分类体系作了全面详尽的调研,分析了各种分类体系的特点以及优缺点。最后,我们选择了《计算机网络》课程中出现的问题以及从网上随机抽取的各个领域的问题作为分析数据集,并对数据集进行了细致深入的分析总结。通过大量的统计分析以及综合运用各种知识,最终我们确定了基于语义类型的问句分类体系,该分类体系明确给出了每个类别的定义、判断方法以及正负例。具体内容如下所示:
1)目的类
定义:把询问一件事情或事物的目的或目标的一类问题归类为目的类。
判断方法:
Step1:看是否在问题中出现“什么目的”、“什么目标”、“目的是什么”、“目标是什么”等疑问词和目的类特征词组成的常见固定结构,如果有,则为目的类问题;
Step2:判断句子中是否有疑问词,如“什么”、“哪些”等,如果有疑问词,判断疑问词是否作用在目的类的特征词上,如“目标有哪些”、“有什么主要目的”等,如果是,则为目的类问题。
正例:
Figure A20061004161900081
计算机网络通信安全的目标是什么?
网络安全的目的是什么?
网络分为通信子网和资源子网的目标是什么?
反例:
Figure A20061004161900084
ISDN的特性是什么?(属性类)
Figure A20061004161900085
公平队列算法用在什么地方?(应用类)
为什么窄带ISDN要以电路交换为基础?(原因类)
2)原因类
定义:把询问原因的一类问题归为原因类。
判断方法:
Step1:判断问题中是否出现“为什么”、“为何”,如果有,则是原因类问题;Step2:判断问题中是否出现“原因是什么”、“什么原因”等疑问词和原因类特征词组成的常见固定结构,如果有,则为原因类问题;
Step3:判断问题中是否出现疑问词“什么”、“哪些”等,如果有,则判断疑问词是否作用在原因类问题的特征词上,如“原因有哪些”、“哪些主要原因”、“有哪三大原因”等,如果是,则为原因类问题。
正例:
Figure A20061004161900091
为什么窄带ISDN要以电路交换为基础?
请问在记录保存的时候偶尔会报‘插入的列过大’的错误,一般是什么原因?
反例
网络安全的目的是什么?(目的类)
Figure A20061004161900094
什么是IP电话?(定义类)
3)定义类
定义:把询问概念如名词,术语的定义或含义的一类问题归为定义类:
判断方法:
Step1:判断问题中是否出现“什么是”、“定义是什么”、“什么定义”、“含义是什么”、“什么含义”、“什么意思”、“意思是什么”、“何为”等疑问词和定义类特征词组成的常见搭配,如果有,则判断问句主语是否为概念,如果是,则为定义类问题。
Step2:判断问题中是否有疑问词“什么”、“哪些”、“哪”等,如果有,则判断疑问词是否作用在定义类的特征词上,如“哪些定义”、“哪三种定义”等,如果是,则为定义类问题。
正例
什么是广域网?
Figure A20061004161900096
域名系统是什么?
反例
Figure A20061004161900097
LANE如何工作?(方法类)
Figure A20061004161900098
信元接收的过程是怎样的?(演化类)
他的这个手势是什么意思(描述类)。
备注:
Figure A200610041619000910
定义类的问题询问的是一个名词、术语的定义,如果询问一个动作或一句话的含义则为描述类
4)方法类
定义:把询问完成一件事情的方法和操作的一类问题归为方法类。
判断方法:
Step1:判断问题中是否含有“如何”、“怎么样”、“怎样”、“怎么”等表示问题类的疑问词,如果有,则为方法类问题。
Step2:判断问题中是否含有“方法是什么”、“什么方法”等疑问词和方法类特征词组成的常见搭配,如果有,则为方法类问题。
Step3:判断问题中是否含有疑问词“什么”、“哪些”、“哪”等,如果有,则判断疑问词是否作用在方法类特征词上,如“哪几种方法”,“什么好的方法”等,如果是,则为方法类问题。
正例
Figure A20061004161900101
链路状态路由选择算法中是如何发布链路状态分组的?
Figure A20061004161900102
怎样防止蓝屏攻击?
MPLS交换的操作步骤怎样?
反例
Figure A20061004161900104
云是怎样形成的?(演化类)
5)选择类
定义:希望从一组候选项中找出正确的一项或几项的问题归为选择类
判断方法:
Step1:问题中含有表示选择的词如“......还是......”、“......或是......”等,并且在表示选择性的词两端有不同的答案备选项,则是选择类问题。
正例:
Figure A20061004161900105
洪泛算法属于静态还是动态算法?
地球上先有植物还是先有细菌?
反例:
赤潮是红色的吗?(是非类)
Figure A20061004161900108
在delphi中,有没有延时的语句?(是非类)
备注:
Figure A20061004161900109
选择类和是非类的区别在于:选择类问题要求从多个并列的备选项中选出正确的一个,通常这些备选项都会在问题中出现,如“地球上现有植物还是现有细菌?”,它的两个备选项“植物”和“细菌”都在问题中出现,而且它们是并列关系;而是非类问题要求作出肯定或者否定的答案、即从两个相对的概念中选出一个。
6)是非类
定义:把要求做出肯定或否定回答的问题归为是非类。
判断方法:
Step1:判断问题中是否含有“是不是”、“有没有”、“能不能”等可以表示是非类的疑问词,如果有,则为是非类问题。
Step2:判断问题末尾是否含有“吗”,如果有,则可判断为是非类问题。
正例:
Figure A20061004161900111
赤潮是红色的吗?
连锁虚电路是不是几个虚电路串连起来?
反例:
洪泛算法属于静态还是动态算法?(选择类)
Figure A20061004161900114
同步通信与异步通信有何不同?(区别类)
备注:
Figure A20061004161900115
选择类和是非类的区别在于:选择类问题要求从多个并列的备选项中选出正确的一个,通常这些备选项都会在问题中出现,如“地球上现有植物还是现有细菌?”,它的两个备选项“植物”和“细菌”都在问题中出现,而且它们是并列关系;而是非类问题要求作出肯定或者否定的答案、即从两个相对的概念中选出一个。
7)分类类
定义:询问一个概念、事物的分类的问题归为分类类
判断方法:
Step1:判断问题中是否含有“分为哪几种”、“分为哪几类”等常见固定结构,如果有,则为分类类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”、“哪”等,如果有,则判断疑问词是否作用在分类类特征词上,如“哪三种类型”、“种类有哪些”、“有什么种类”、“有哪些形式”等,如果是,则为分类类问题。
正例:
Figure A20061004161900116
防火墙可以分为哪几类?
Figure A20061004161900117
网络安全性可以分为哪几种?
反例
Figure A20061004161900118
入侵检测由哪几部分组成?(结构类)
MAC子层的主要功能是什么?(作用类)
备注:
Figure A20061004161900121
分类类和结构类的区别是:分类类问题询问某一个事物所包含的类别,如问题“人可以分为哪几类?”,它的每一个答案都应该为人的一种,分类类的问题要求按一定的分类标准对主语进行分类,不同的分类标准会产生不同的类别,如人可以按年龄分类,可以按性别分类;而结构类询问的是一个事物的组成,如问题“桌子是由哪几部分组成的?”,它的每一个答案都为桌子的一部分,结构类问题要求事物的内部组成。
8)结构类
定义:询问一件事物的组成部分或一件事物的内部结构的问题归为结构类
判断方法:
Step1:判断问题中是否含有“什么结构”、“怎么组成”等疑问词何结构类特征词的常见搭配,如果有,则为结构类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”等,如果有,则判断是否含有结构类特征词“结构”、“组成”等,如果有,再判断疑问词是否作用在结构类特征词上,如“怎么组成的”“由哪几部分组成”等,如果是,则为结构类问题。
正例:
Figure A20061004161900122
ATM适配层采用什么样的结构?
Figure A20061004161900123
分组交换的网络结构是怎么样的?
反例:
防火墙可以分为哪几类?(分类类)
Figure A20061004161900125
计算机网络一般分为哪几类?(分类类)
备注:
Figure A20061004161900126
分类类和结构类的区别是:分类类问题询问某一个事物所包含的类别,如问题“人可以分为哪几类?”,它的每一个答案都应该为人的一种,分类类的问题要求按一定的分类标准对主语进行分类,不同的分类标准会产生不同的类别,如人可以按年龄分类,可以按性别分类;而结构类询问的是一个事物的组成,如问题“桌子是由哪几部分组成的?”,它的每一个答案都为桌子的一部分,结构类问题要求事物的内部组成。
9)条件类
定义:
(1)询问一件事情成立的前提或条件的一类问题归为条件类
(2)询问做一件事情所要遵循的原则、准则或标准的一类问题归为条件类
(3)询问做一件事情的依据的一类问题归为条件类
(4)询问做一件事情需要注意和考虑的因素的一类问题归为条件类。
判断方法:
Step1:判断问题中是否含有“在什么情况下”、“有什么要求”、“具备什么条件”、“具备什么素质”等疑问词和条件类特征词的常见搭配,如果有,则为条件类问题。
Step2:判断问题中是否含有疑问词,如果有,则判断疑问词是否作用在条件类特征词上,如“哪些重要条件”、“要求有哪些”等,如果是,则为条件类问题。
正例:
Figure A20061004161900131
夫妻共同居住的公房,在什么情况下,离婚后双方均可承租?
印制公文有什么要求?
Figure A20061004161900133
负责公文处理的文秘人员应当具备什么素质?
Figure A20061004161900134
防火墙的基本准则是什么?
Figure A20061004161900135
ATM提供A类到D类四种服务类型,请说出划分的依据是什么?
计算机网络一般按什么标准分类?
登记公文应注意什么问题?
反例:
Figure A20061004161900138
网络扫描器的功能是什么?(作用类)
IP地址具有什么样的特点?(属性类)
10)关系类
定义:询问几件事情、事物之间关系、联系或相互影响的问题归为关系类
判断方法:
Step1:判断问题中是否含有“什么关系”、“关系是什么”、“什么联系”、“联系是什么”等疑问词和联系类特征词组成的常见结构,如果有,则为联系类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”、“哪”、“何”等,如果有,则判断疑问词是否作用在联系类特征词上,如“哪些主要联系”等,如果是,则为联系类问题。
正例:
Figure A200610041619001310
子网和通信子网有什么联系?
udp协议和tcp协议有什么关系?
天气和人的健康有什么关系?
网络的吞吐量与通信子网负荷有什么关系?
八国联军侵华战争和辛丑条约的签订对中国有什么影响?
理解“三个代表”对于研究和解决执政党建设问题的重要意义?
反例
数据报和虚电路的差错处理和流量控制有什么不同的地方?(区别类)
SMTP通信的三个阶段的过程是什么?(演化类)
备注:
关系类和区别类的区别是:区别类问题询问的是两个事物、概念之间的相同和不同之处,关系类问题询问的是两个事物内部所具有的某种关联,如“父子关系”,“兄弟关系”等。询问事物的影响、意义的问题归为关系类问题。
11)区别类
定义:询问两个或多个事物之间相同或不同之处的问题归为区别类
判断方法:
Step1:判断问题中是否含有“什么区别”、“区别是什么”、“什么不同”、“不同是什么”等疑问词和区别类特征词组成的常见结构,如果有,则为区别类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”、“哪”、“何”等,如果有,则判断疑问词是否作用在特征类疑问词上,如“哪些区别”、“哪些不同”、“哪些异同”等,如果是,则为区别类问题。
正例:
从层次上看,广域网和局域网的区别是什么?
试比较信息网络与计算机网络有何异同?
Figure A200610041619001411
同步通信与异步通信有何不同?
反例
LANE的优点和局限分别是什么?(属性类)
12)属性类
定义:询问事物所具有的特点、属性、优缺点、颜色等自身性质的一类问题归为属性类。
判断方法:
Step1:判断问题中是否含有“什么特点”、“特点是什么”、“什么特征”、“特征是什么”等疑问词何属性类特征词组成的固定结构,如果有,则为属性类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”、“哪”、“何”等疑问词,如果有,则判断疑问词是否作用在属性类特征词上,如“哪些好处”、“什么优点和缺点”,“什么不足”。
正例:
Figure A20061004161900151
虚通路标识符VCI指派和转换方法有什么好处?
Figure A20061004161900152
集中式路由选择好处和缺点各有哪些?
Figure A20061004161900153
赤潮是什么颜色的?
反例:
Figure A20061004161900154
传递有密级的公文有什么要求?(条件类)
TFTP与FTP的主要区别是什么?(区别类)
Figure A20061004161900156
黄河有多长?(数量类)
备注:
Figure A20061004161900157
为了使问题分类体系的类型定义更加明确,使分类变得根据容易,规定把询问尺寸、重量等关于数量的属性归为数量类。
13)实例类
定义:询问满足一定的条件的实际例子或一个实体的问题归为实例类。
判断方法:
Step1:判断问题中是否有“举例说明”、“哪些实例”、“什么实例”等常见搭配,如果有,则是实例类问题。
Step2:判断句子中是否有疑问词,如果有,则判断疑问词是否作用在实例类的特征词上,如果是,则为实例类问句。如“有什么现实的例子”。
正例:
Figure A20061004161900158
请举出一些分布式、集中式和混合式路由选择策略的应用实例?(这个问题属于实例类而不是应用类,原因是问题询问的是关于路由选择策略应用的一个实例,而不是应用本身,应用的实例与应用本身相比更加具体,范围更窄)
反例:
Figure A20061004161900159
草拟公文应遵循哪些基本原则?(条件类)
Figure A200610041619001510
藻毒素有哪几种?(分类类)
14)应用类
定义:询问事物适用的场合或范围的问题归为应用类。
判断方法:
Step1:判断问题中是否出现“用在什么地方”等疑问词和应用类特征词组成的常见固定结构,如果有,则为应用类问题。
Step2:判断问题中是否出现应用类特征词如“应用”、“适用”、“用于”等,再判断问题中是否出现“领域”、“场合”等代表范围的词,如果有,则判断疑问词是否作用再这些代表范围的词,如“应用在什么场合”、“适用于什么范围”等,如果是,则为应用类问题。
正例:
Figure A20061004161900161
列举说明ATM五个服务类型分别适用于什么场合?
IGMP协议有哪些应用?
Figure A20061004161900163
超导技术用于社会哪些领域?
Figure A20061004161900164
公平队列算法用在什么地方?
反例:
Figure A20061004161900165
网桥有哪些用途?(作用类)
备注:
Figure A20061004161900166
应用类问题和作用类问题的区别:作用类问题要求的答案是事物的作用,它是事物自身所具有的特点,强调事物产生的影响。而应用类问题要求的答案为一个领域或概念、事物适合的场所。
15)作用类
定义:询问一个概念,事物的用途,作用,功能的问题归为作用类。
判断方法:
Step1:判断问题中是否含有“什么用途”、“用途是什么”、“什么作用”、“作用是什么”、“什么功能”、“功能是什么”等疑问词和用途类特征词的组合,如果有,则为作用类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”、“何”等,如果有,则判断疑问词是否作用在用途类特征词上,如“有哪两个作用”、“三个作用分别是什么”等,如果是,则为作用类问题。
正例:
传送语法的用途是什么?
邮件分发器的用途是什么?
Figure A20061004161900173
传输层的任务是什么?
运输层要实现哪些功能?
反例:
超导技术用于社会哪些领域。(应用类)
TCP的重发机制的实现步骤是怎样?(演化类)
你这周的工作任务是什么?(实体类)
备注:
应用类问题和作用类问题的区别:作用类问题要求的答案是事物的作用它是事物自身所具有的特点,而应用类问题要求的答案为一个领域或概念、事物适合的场所。
16)数量类
定义:询问具体数字的问题归为数量类
判断方法:
Step1:判断问题中是否出现表示数字的疑问词,如“几”、“多少”等,如果有,则判断疑问词是否作用在可数名词上,即是否询问可数名词的数量,如果是,则为数量类问题。
正例:
ATM网有几种通信类型?
内部网关协议可以分为几类?
反例:
你对森林的破坏了解多少?(程度类)
三峡水库淹没的范围有多大?(程度类)
Figure A200610041619001713
这个程序运行了多少个时钟周期?(时间类)
备注:
数量类问题和程度类问题的区别在于数量类的问题可以用具体的数字回答,而程度类的问题无法用具体数字回答。
数量类的答案为一个数字,它只能用来表示量的多少,这个数字没有具体的含义,如询问电话号码的问题为实体类问题,而不是数量类问题。
把询问尺寸、重量等关于数量的属性归为数量类。
询问关于时间的量,定义为时间类。
17)程度类
定义:询问深浅,大小,多少等表示程度的问题,但又无法定量描述时,把它归为程度类。
判断方法:
Step1:判断问题中是否含有询问程度的疑问词,如“多少”、“多大”等,如果有,则继续判断问题能否用具体的数字回答,如果不能用数字回答,则判断为程度类问题。
正例:
Figure A20061004161900183
你对森林的破坏了解多少?
海资源被破坏有多严重?
反例
Figure A20061004161900185
套接字编程处理模型把应用分为几类?(数量类)
引起赤潮的生物有多少种?(数量类)
备注:
数量类问题和程度类问题的区别在于数量类的问题可以用具体的数字回答,也就是说数量类问题提问的主体是一个可数的名词;而程度类的问题无法用具体数字回答,程度类问题。如果既可以用数字来描述,也可以用程度来描述,则可以同时分到数量类和程度类中。
18)时间类
定义:询问一件事情发生或持续的时间的问题归为时间类。
判断方法
Step1:判断问题中是否含有“什么时间”、“什么时候”、“何时”、“几点”等疑问词何时间类特征词组成的常见搭配,如果有,则为时间类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”、“何”、“几”等,如果有,则判断疑问词是否作用在时间类特征词上,如果是,则为时间类问题。
正例:
Figure A20061004161900188
“西沙之战”是什么时间发生的?
抗美援朝战争中,中朝军队连续举行了五次战役,请说出每次战役的歼敌人数及战争结束时间(数量类/时间类)
Figure A20061004161900192
这件事情你用几天时间完成?(时间类)
反例:
Figure A20061004161900193
电话是谁发明的?(人物类)
Figure A20061004161900194
什么是雷暴?(定义类)
备注:
询问关于时间的量定义为时间类,而不是数量类。
19)地点类
定义:询问事情发生的地点,位置的问题归为地点类
判断方法:
Step1:判断问题中是否有疑问词“哪里”,如果有,则为地点类。
Step2:判断问题中是否含有“什么地点”、“哪些地方”、“哪些地点”等常见的疑问词何地点类特征词的搭配,如果有,则为地点类问题。
Step3:判断问题中是否含有疑问词“哪些”、“什么”、“何”等,如果有,则判断疑问词是否作用在地点类特征词上(即疑问词是否对地点提问),如“哪些凉快的地方”等,如果是,则为地点类问题。
正例:
Figure A20061004161900196
我国赤潮的高发区在哪里?
你现在在哪里?
反例:
Figure A20061004161900198
地球最初的生命是谁给予的?(人物类)
Figure A20061004161900199
计算机网络通信安全的目标是什么?(目的类)
这个程序的错误发生在什么地方?(位置类)
优点在哪里?(属性类)
备注:
Figure A200610041619001912
地点类和应用类的区别在于:地点类问题要求的答案为地点或一个地理范围;应用类问题中虽然也会出现“什么地方”,但它要求的答案不是一个地点,而是一个领域或应用范围。
20)方位类
定义:询问方向的问题归为方位类
判断方法:
Step1:判断问题中是否有“什么方位”、“什么方向”等疑问词和方位类特征词组成的常见结构,如果有则为方位类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”等,如果有,则判断疑问词是否作用在方位类特征词上,如果是,则为方位类问题。
正例:
咸阳在西安的什么方向?
反例:卢沟桥事变发生在什么地方?(地点类)
据悉,李增智老师有个学生投国际会议的论文是抄袭的,已经被发现,估计要被勒令退学了。定义:如果问句询问在某个事物中所处的位置则归为位置类,它和地点类的区别在于地点类问题询问的是地理上的位置或范围,而位置类问题询问的是在某个事物中所处的位置。
判断方法
Step1:判断问句中是否含有疑问词和位置类特征词的组合,如“什么位置”、“什么地点”、“哪一部分”等,如果有,则判断询问的位置是否为一个地理位置,如果不是物理位置,则归为位置类问题。
正例:
这个程序的错误发生在什么地方?
Figure A20061004161900204
数据应该在哪里加密
反例:
公平队列算法用在什么地方(应用类)
Figure A20061004161900206
卢沟桥事变发生在什么地方?(地点类)
21)人物类
定义:询问一个或多个人的名字的问句归为人物类
判断方法:
Step1:判断问题中是否含有疑问词“谁”,如果有,则为人物类问题。
Step2:判断问题中是否含有疑问词“什么”、“哪些”、“何”等,如果有,则判断疑问词是否作用在人物类特征词上,如“什么人”等,如果是,则为人物类问题。
正例
Figure A20061004161900211
是谁第一个踏上了月球?
电话是谁发明的?
这是谁干的好事?(人物类)
反例
帧中继的主要特点是什么?(属性类)
防火墙可以分为哪几类?(分类类)
备注:
严格地说,人物类也属于实体类,它是一种特殊的实体类。因为人物类的问题在实体类中所占的比例很大,因此将人物类问题单独作为一类。
22)实体类
定义:如果问句询问满足条件的具体的或者抽象概念、事物、名称等实体,则把这类问题归为实体类。这里的实体既包括具体的、可以观察的事物,如动物、工具、医药、交通、产品、食物、货币等,也包括抽象的概念,如事件、技术、语言,体育、用户ID、密码、身份证号码、电话号码、邮政编码等。
判断方法:
Step1:判断句子的结构是否是“疑问词+满足的条件”或“满足的条件+疑问词”,如“什么函数返回字符串的长度?”,如果是,则为实例类问题。
正例:
pdf文件用什么打开?
Figure A20061004161900218
什么函数返回字符串的长度?(c#中)
反例:
Figure A20061004161900219
能举出一些分布式、集中式和混合式路由选择策略的应用实例吗?(实例类)
Figure A200610041619002110
玫瑰花是什么颜色?(属性类)
备注:
对于询问缩写或全称的问题,它的答案虽然也为一个概念或名词,但不是实体类,而是缩写类。
23)缩写类
定义:此处的缩写是第三种含义,如果问句询问一个术语的简称或全称,则把它称为缩写类问题。
判断方法:
Step1:判断问句中是否含有“缩写是什么”、“全称是什么”等缩写类特征词和疑问词的常见固定搭配,如果有,则是缩写类问题。
Step2:判断问句中是否含有疑问词,如果有,则判断疑问词是否作用在缩写类特征词上,如果是,则是缩写类问题。
正例:
Figure A20061004161900221
超文本传输协议的简称是什么?
SMTP全称什么?
反例
SMTP是什么(定义类)
24)原理类
定义:询问一个事物的原理、思想、本质的一类问题归为原理类。
判断方法:
Step1:判断问题中是否含有“基本思想是什么”、“原理是什么”等原理类特征词和疑问词的组合,如果有,则为原理类
Step2:判断问题中是否含有疑问词,如果有,则判断疑问词是否作用在原理类特征词上,如果是,则为原理类问题。
正例:
Figure A20061004161900224
洪泛算法的基本思想是什么?
RSA公开密钥密码体制所根据的原理是什么?
Figure A20061004161900226
代理服务器的工作原理怎样?
Figure A20061004161900227
磁场的本质是什么呢?
反例:
Figure A20061004161900228
两条基本加密原则是什么?(条件类)
25)演化类
定义:询问事物的变化过程或事物的进展趋势的一类问题归为发展类。
判断方法:
Step1:判断问题中是否含有“发展过程是什么”、“怎样形成的”等疑问词何演化类特征词组成的常见结构,如果有,则是发展类问题。
Step2:判断问题中是否有疑问词“什么”、“哪些”、“哪”、“何”、“怎么样”等,如果有,则判断疑问词是否作用在演化类特征词上,如“发展是怎么样进行的”、“发展趋势是什么”等,如果是,则是发展类问题。
正例:
Figure A20061004161900231
云是怎样形成的?
人类社会的发展过程是怎样的?
ATM技术的最新发展走向是什么?
网络有怎样的一个发展趋势?
反例:
Figure A20061004161900235
TCP是如何保证传送的可靠性的?
ATM的工作方式是怎样的?
27)观点类
定义:询问某人的看法、观点、感想的一类问题归为观点类。
判断方法:
Step1:问题是否询问某人的想法、看法、观点、感受等,如果是,则为观点类问题。
正例:
Figure A20061004161900237
个人认为有很多优秀作品,关键是您怎么看?
请问秋雨先生,去了那么多国家回来以后最大的感受是什么呢?
这次国际音乐节结束后,你有何考虑?
你觉得这个杯子怎么样?
反例:
Figure A200610041619002311
创建子网的时候应该注意什么?(条件类)
Figure A200610041619002312
ATM网络的基本思想是什么?(原理类)
28)描述类
定义:询问关于一个实体、事物或某件事情的描述、评价、总结、分析的问题称为描述类。
判断方法:
Step1:如果问句要求对一件事物,一个实体或某个人物做出介绍,评价,则为描述类问题。
正例:
Figure A200610041619002313
秦始皇到底是个什么样的人?
我国土壤污染的现状怎么样?
你有过什么样的艺术人生呢?
Figure A20061004161900243
X.25的主要协议内容是什么?
法律对继承权的接受和放弃有什么规定?
Figure A20061004161900245
江泽民视察“神舟”号试验飞船时都有哪些指示?
“三个代表”思想的科学内涵是什么?
Figure A20061004161900247
这篇文章主要讲了什么?
反例:
Figure A20061004161900248
是谁第一个登上了月球?(人物类)
帧中继的主要特点是什么?(属性类)
2.2中文问题的特征向量表示
对于用自然语言描述的中文问题,分类器是无法识别和进行自动分类的。只有选择一些问题的特征并且使用这些特征将问题表示成特征向量才能够用于分类。本发明首先利用我们已有的分词和词性标注工具ChineseParser对问题进行分词和词性标注,然后通过自己编写的特征提取程序进行特征提取。提取的特征包括如下四类:
单词:每一个词作为一个特征;
Figure A200610041619002411
双词:每两个相邻词的组合作为一个特征;
Figure A200610041619002412
词-词性组合:每个词与它相邻词的词性的组合作为一个特征;
Figure A200610041619002413
语义特征:每个词在知网Hownet中的语义作为一个特征。
2.3基于统一损失的中文问题多类分类方法
中文问题分类是一种多类分类问题。本发明使用基于编解码的中文问题多类分类模型,用多个二类分类器完成多类分类,并且用一种基于统一损失的多类分类决策函数对二类分类结果进行衡量,从而获得问题的最终类别。
2.3.1基于编解码的中文问题多类分类模型
1)中文问题多类分类问题的描述
中文问题多类分类问题,可以形式化描述如下:假设给定一组带有问题类别标记的中文问题样本: Z = ( ( x → 1 , y 1 ) , · · · , ( x → k , y k ) ) , 其中
Figure A200610041619002415
是一个中文问题特征向量,且 x → i ∈ R d , i=1,...,k,d是表示问题的特征向量的维度,k是样本的个数,yi是每个样本
Figure A200610041619002417
对应的类别标记且yi∈{1,...,m},m是问题目标类别的个数(在CQSC中m=28)。中文问题多类分类的目的是寻找一个未知函数 使其对未知样本 进行分类的错误损失(或者错误率)尽可能小,即 其中,y是
Figure A20061004161900254
的实际类别, 是函数f对
Figure A20061004161900256
的预测类别, 是样本 的预测损失。
2)基于编解码的中文问题多类分类模型的框架结构
提出了一种基于编解码统一框架的中文问题多类分类模型。该模型利用多个二类分类器来完成多类分类。使用该模型对问题进行分类的第一步是设计码字矩阵。码字矩阵的形式如下:
类别                                         码字
  f1   f2   f3   f4   f5   f6   f7   f8   fn
  C1   M11   M12   M13   M14   M15   M16   M17   M18   M1n
  C2   M21   M22   M23   M24   M25   M26   M27   M28   M2n
  C3   M31   M32   M33   M34   M35   M36   M37   M38   M3n
  C4   M41   M42   M43   M44   M45   M46   M47   M48   M4n
  C5   M51   M52   M53   M54   M55   M56   M57   M58   M5n
  C6   M61   M62   M63   M64   M65   M66   M67   M68   M6n
  …
  Cm   Mm1   Mm2   Mm3   Mm4   Mm5   Mm6   Mm7   Mm8   Mmn
其中Ci(i=1,2,...,m)为问题的目标类别,fj(j=1,2,...n)为二类分类器,Mij(i=1,2,...,m,j=1,2,...n)为二类分类标记,Mij只能取两个值{0,1},当Mij=0时表明二类分类器fj应该将Ci类样例分为负例,当Mij=1时表明二类分类器fj应该把Ci类样例分为正例。令Mi=(Mi1,Mi2,...,Min)称为类Ci的码字,任何两个类的码字不能相等,即任何两个码字之间的距离至少为1。
在训练阶段,输入为带类别标记的问题样例,使用类别标记查询码字矩阵得到该类别的码字,根据码字中每一项的取值分别得到每一个二类分类器的标记值,然后对每个二类分类器进行训练。
在预测阶段,输入为未标记的问题样例,将该样例分别送入每一个二类分类器,将预测结果按顺序组合成输出码字,然后与码字矩阵中每一类的码字进行比较,取与输出码字距离最近的码字所对应的类别作为问题的类别标记。
模型的框架结构如附图所示,该模型分为编码模块、分类模块和解码模块三个部分。
各模块功能分别如下:
编码模块主要功能是读取编码码字,将输入样本分发到各个基类分类器中去。训练时,一个目标类别为Ci的样本被映射成以码字矩阵M∈{0,1}mxn中的第i行。目标类别为y的样本,映射到码字矩阵第j列后,其目标类别将变为Mij∈{0,1}。因此我们只需要分别训练n个二类分类器即可。预测时,直接将输入样本分发到每个二类分类器。
分类模块主要功能是实现每个二类分类器对输入样本的训练和分类,这是框架的核心模块。训练时,训练样例经过编码后,将调用各二类分类器进行训练,从而形成各二类分类模型。预测时,对于待分类样本x,调用二类分类器,产生对应的输出码字 f ( x → ) = ( f 1 ( x → ) , · · · · · · , f n ( x → ) ) . 二类分类算法Bayes、C4.5、CART、AdaBoost、perceptron和SVM等均可作为此处的二类分类器。
解码模块的目的是实现样本目标类别的判别。二类分类器为输入样本x产生对应的输出码字 f ( x → ) = ( f 1 ( x → ) , · · · · · · , f n ( x → ) ) 之后,解码模块需要选择码字矩阵中与之最近的码字(假设为My),把该码字所对应的类别Cy作为输入样本的目标类别,即选取 y = arg min y = 1 m L ( M y , f ( x → ) ) . 其中My为Cy类的码字,L是损失函数。
2.3.2基于统一损失的中文问题多类分类
上述基于编解码的中文问题多类分类模型中,损失函数的确定至关重要,损失函数直接影响到分类的准确率。以前对多类分类的研究中,所有二类分类器之间相互独立,对每个分类器独立进行训练,均优化各自的目标函数,使得分类时可能存在不可分区域,影响分类的准确率。本发明提出一种将二类分类器的损失向多类分类损失转化的方法,使用基于统一损失的多类分类决策函数,避免了上述问题,能够提高分类的准确率。
1)基于统一损失的多类分类决策函数
定义1.对于样本
Figure A20061004161900264
标注的目标类别为yi,多类分类器预测的目标类别为
Figure A20061004161900265
设基类分类器 对于所有训练样本的损失为 Loss s = Σ i = 1 k L ( M y i , s , f s ( x → i ) ) , 其中Myi,s是目标类别为yi的样本
Figure A20061004161900268
在第s个基类分类器中的预测目标编码值;设样本实际的多类分类损失为 Loss ′ = Σ i = 1 k L ′ ( M y , f s ( x → i ) ) , 其中My为类别y对应的编码矩阵中的一行,即
f ( x → 1 ) = ( f 1 ( x → i ) , · · · , f n ( x → i ) ) .
定理1.当且仅当 L ′ ( M y , f ( x → i ) ) = Σ s = 1 n L ( M y , s , f s ( x → i ) ) 时,基类分类的损失和与多类分类损失一致。
证明:训练样本在基类分类器中的总体损失为 Loss = Σ s = 1 n Loss s . 因此,这类分类算法中多类分类器的优化目标为求解一个未知函数 f ( x → ) = arg min f ( x → ) Loss . 显然,只有当 y i ^ = y i 时即预测目标类别与样本实际的类别一致时才能取得最小损失
Loss min = Σ i = 1 k Σ s = 1 n L ( M y i , s , f s ( x → i ) ) .
根据上文分析,训练样本实际的多类分类损失为 Loss ′ = Σ i = 1 k L ′ ( M y , f ( x → i ) ) . 同理,也只有当 y i ^ = y i 时才能取得最小损失 Loss min ′ = Σ i = 1 k L ′ ( M y i , f ( x → i ) ) .
故为使两损失函数等价即Lossmin=Loss′min,当且仅当 L ′ ( M y , f ( x → i ) ) = Σ s = 1 n L ( M y , s , f s ( x → i ) ) , 证毕。
由上述证明看出,只有损失函数满足定理1中的条件,才能实现基类分类器的损失和与多类分类的损失等价性,从而才能获得多类分类的最佳性能。
为满足定理1,我们需要为基类分类器的损失Loss′和多类分类的损失Loss分别寻找合适的函数。推论1.当取 L ′ ( M y , f ( x → i ) ) = - Σ s = 1 n M y , s f s ( x → i ) , L ( M y , s , f s ( x → i ) = - M y , s f s ( x → i ) ) 时,有Losg′=Loss。
证明:所有训练样本在基类分类器中的损失为 Loss = Σ i = 1 k Σ s = 1 n L ( M y , s , f s ( x i ) ) = - Σ i = 1 k Σ s = 1 n M y , s f s ( x i ) ; 同时,训练样本对应的多类分类损失为 Loss ′ = Σ i = 1 k L ′ ( M y , f ( x i ) ) = - Σ i = 1 k Σ s = 1 n M y , s f s ( x i ) . 显然有Loss′=Loss,证毕。
上述分析给出了从各基类分类器的损失到最终多类分类损失的转化,转化后的损失函数为我们统一解决多类分类问题提供了可能。在满足推论1的条件下,假设基类分类器为感知器(Perceptron)时,我们能得到本文提出的多类分类模型的决策函数。具体分析如下:Perceptron的函数表达式为fs(xi)=<ws,xi>+bs,算子 表示两个向量的内积。取<ws,bs>=w′s,<xi,1>=x′i可将fs(xi)进一步简化为:fs(xi)=<w′s,x′i>。为方便起见,下面将重新以ws代替w′s,以xi代替x′i,即定义fs(xi)为fs(xi)=<ws,xi>。此时,我们可得多类分类的损失 Loss &prime; = Loss = - &Sigma; i = 1 k &Sigma; s = 1 n M y , s f s ( x 1 ) = - &Sigma; i = 1 k &Sigma; s = 1 n M y , s &lang; W s , X j &rang; = - &Sigma; i = 1 k &lang; X j , &Sigma; s = 1 n W s M y , s &rang; . &Sigma; s = 1 n w s M y , s = W y , 则有 Loss = - &Sigma; i = 1 k &lang; x i , W y &rang; . 此式中,当y=yi时才能取得最小损失。由此,样本x的目标类别应取 y ^ = arg min y Loss . y ^ = arg min 1 &le; y &le; m - &lang; x , W y &rang; = arg max 1 &le; y &le; m &lang; x , &Sigma; s = 1 n w s M y , s &rang; = arg max 1 &le; y &le; m &lang; x , W y &rang; .
根据以上分析,我们可以写出在本文提出的多类分类模型统一框架下,当解码模块选用线性损失函数,分类模块的基类分类器采用Perceptron时的基于统一损失的决策函数:
F ( x ) = arg max 1 &le; y &le; m &lang; x , W y &rang;
此式从几何角度理解,等价于为每个类关联一个超平面,然后将待预测的点x赋予距超平面有最大距离的一类。输入空间将被分为m个相连的凸区域。此决策函数的思想与多类支持向量机的决策函数思想一致。
2)训练和预测算法的基本流程
针对模型的决策函数,我们给出训练和预测算法。算法具体描述如下:假设: L &prime; ( M y , f ( x &RightArrow; i ) ) = - &Sigma; s = 1 n M y , s f s ( x &RightArrow; i ) , L ( M y , s f s ( x &RightArrow; i ) = - M y , s f s ( x &RightArrow; i ) , 基类分类器采用Perceptron,迭代次数为I∈R+,学习步长为η∈R+,类别间隔为τ∈R+。注意此处的
Figure A20061004161900289
已经被重新定义,即 w &RightArrow; s = ( w &RightArrow; s , b &RightArrow; s ) x &RightArrow; i = ( w &RightArrow; i , 1 ) . 其他假设如上文所述。
算法1.基于多类分类器统一框架的一种判定学习算法Initialization: Set w &RightArrow; s = 0 &RightArrow;
Input:带类别标记的样本集: Z = ( ( x &RightArrow; 1 , y 1 ) , . . . , ( x &RightArrow; k , y k ) ) , 类别个数m,二类分类器个数n,码字矩阵M;
Output:每个Perceptron分类器的权值向量 w &RightArrow; s ( s = 1 , . . . , n ) fort=1...l,i=1...k do
y ^ i = arg max 1 &le; y &le; m &Sigma; s = 1 n M y i , s &CenterDot; &lang; x &RightArrow; i , w &RightArrow; s &rang;
fors=1...n do
if y ^ i &NotEqual; y i
w &RightArrow; s = w &RightArrow; s + &eta; &CenterDot; M y i , s &CenterDot; x &RightArrow; i - &eta; M y ^ i , s &CenterDot; x &RightArrow; i
end ifendforend for
return w &RightArrow; s ( s = 1 , . . . , n )
算法2.基于多类分类器统一框架的预测算法Input:待标记样本
Figure A20061004161900296
每个Perceptron分类器的权值向量 w &RightArrow; s ( s = 1 , . . . , n ) ; Output:输入样本 的类别标记
y i = arg max 1 &le; y &le; m &Sigma; s = 1 n M y i , s &CenterDot; &lang; x &RightArrow; i , w &RightArrow; s &rang;
return yi

Claims (4)

1、一种中文问题的语义分类方法CQSC,其特征在于,基于中文问题语义类别体系和中文问题多类分类模型,实现对中文问题语义类别的判断和提问焦点的识别;它由中文问题语义类别体系构造、中文问题的特征向量表示和基于统一损失的中文问题多类分类三个部分组成:
其中,中文问题语义类别体系构造确定了一个问题语义类别体系,该体系包括问题所有语义类别的定义和判断方法,CQSC对问题分类的结果即为该体系中的一个类别;
中文问题的特征向量表示通过选择问题的一些特征,将问题文本表示成分类模型可以识别的特征向量;
基于统一损失的多类分类将输入的问题特征向量映射到问题语义类别体系中的一个类别。
2.根据权利要求1所述的中文问题的语义分类方法CQSC,其特征在于,所构造的中文问题语义类别体系包括28个语义类别,分别为:目的类、原因类、定义类、方法类、选择类、是非类、分类类、条件类、结构类、关系类、区别类、属性类、实例类、应用类、作用类、数量类、程度类、时间类、地点类、方位类、位置类、人物类、实体类、缩写类、原理类、演化类、观点类、描述类。
3.根据权利要求1所述的中文问题的语义分类方法CQSC,其特征在于,中文问题的特征向量表示选择单词、双词、词-词性组合和语义四类特征,用这些特征将每个问题表示成特征向量用于分类。
4.根据权利要求1所述的中文问题的语义分类方法CQSC,其特征在于,对问题的多类分类在基于编解码的多类分类模型下,使用基于统一损失的多类分类方法,使用多个二类分类器来完成多类分类,并且使用统一损失的决策函数进行训练和预测,该方法由编码、分类和解码三个模块组成。
CN 200610041619 2006-01-10 2006-01-10 一种中文问题的语义分类方法 Pending CN1804829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610041619 CN1804829A (zh) 2006-01-10 2006-01-10 一种中文问题的语义分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610041619 CN1804829A (zh) 2006-01-10 2006-01-10 一种中文问题的语义分类方法

Publications (1)

Publication Number Publication Date
CN1804829A true CN1804829A (zh) 2006-07-19

Family

ID=36866853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610041619 Pending CN1804829A (zh) 2006-01-10 2006-01-10 一种中文问题的语义分类方法

Country Status (1)

Country Link
CN (1) CN1804829A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136377A (zh) * 2013-03-26 2013-06-05 重庆邮电大学 一种基于演化超网络的中文文本分类方法
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN103970731A (zh) * 2014-05-19 2014-08-06 无锡国澳实业有限公司 汉语语义活性识别法
CN105874454A (zh) * 2013-12-31 2016-08-17 谷歌公司 用于基于场境信息生成搜索结果的方法、系统和介质
CN107423438A (zh) * 2017-08-04 2017-12-01 逸途(北京)科技有限公司 一种基于pgm的问题分类方法
CN107908623A (zh) * 2017-12-04 2018-04-13 浪潮金融信息技术有限公司 一种语言处理方法及装置
CN108595713A (zh) * 2018-05-14 2018-09-28 中国科学院计算机网络信息中心 确定对象集合的方法和装置
CN109388706A (zh) * 2017-08-10 2019-02-26 华东师范大学 一种问题细粒度分类方法、系统与装置
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN109918491A (zh) * 2019-03-12 2019-06-21 焦点科技股份有限公司 一种基于知识库自学习的智能客服问句匹配方法
US10448110B2 (en) 2013-12-31 2019-10-15 Google Llc Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US10984038B2 (en) 2015-04-14 2021-04-20 Google Llc Methods, systems, and media for processing queries relating to presented media content

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN103838744B (zh) * 2012-11-22 2019-01-15 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN103136377A (zh) * 2013-03-26 2013-06-05 重庆邮电大学 一种基于演化超网络的中文文本分类方法
US10448110B2 (en) 2013-12-31 2019-10-15 Google Llc Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
CN105874454A (zh) * 2013-12-31 2016-08-17 谷歌公司 用于基于场境信息生成搜索结果的方法、系统和介质
US11941046B2 (en) 2013-12-31 2024-03-26 Google Llc Methods, systems, and media for generating search results based on contextual information
US10997235B2 (en) 2013-12-31 2021-05-04 Google Llc Methods, systems, and media for generating search results based on contextual information
US10992993B2 (en) 2013-12-31 2021-04-27 Google Llc Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
CN103970731A (zh) * 2014-05-19 2014-08-06 无锡国澳实业有限公司 汉语语义活性识别法
CN103970731B (zh) * 2014-05-19 2017-07-04 无锡自然语言智能科技有限公司 汉语语义活性识别法
US10984038B2 (en) 2015-04-14 2021-04-20 Google Llc Methods, systems, and media for processing queries relating to presented media content
CN107423438A (zh) * 2017-08-04 2017-12-01 逸途(北京)科技有限公司 一种基于pgm的问题分类方法
CN109388706A (zh) * 2017-08-10 2019-02-26 华东师范大学 一种问题细粒度分类方法、系统与装置
CN107908623B (zh) * 2017-12-04 2020-12-01 浪潮金融信息技术有限公司 一种语言处理方法及装置
CN107908623A (zh) * 2017-12-04 2018-04-13 浪潮金融信息技术有限公司 一种语言处理方法及装置
CN108595713B (zh) * 2018-05-14 2020-09-29 中国科学院计算机网络信息中心 确定对象集合的方法和装置
CN108595713A (zh) * 2018-05-14 2018-09-28 中国科学院计算机网络信息中心 确定对象集合的方法和装置
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN109918491A (zh) * 2019-03-12 2019-06-21 焦点科技股份有限公司 一种基于知识库自学习的智能客服问句匹配方法
CN109918491B (zh) * 2019-03-12 2022-07-29 焦点科技股份有限公司 一种基于知识库自学习的智能客服问句匹配方法

Similar Documents

Publication Publication Date Title
CN1804829A (zh) 一种中文问题的语义分类方法
CN1155906C (zh) 数据处理方法、系统、处理程序及记录媒体
CN100336071C (zh) 复杂背景图像中鲁棒的眼睛精确定位方法
CN1750003A (zh) 信息处理装置,信息处理方法,和程序
CN1215386C (zh) 根据量子软计算控制过程或处理数据的方法和硬件体系结构
CN1110757C (zh) 处理两种文字对照的数据库的方法与装置
CN1204515C (zh) 自由格式数据处理的方法和设备
CN1095114C (zh) 算术机逻辑单元的运算方法以及算术和逻辑单元
CN101079026A (zh) 文本相似度、词义相似度计算方法和系统及应用系统
CN100347723C (zh) 基于几何代价与语义-识别代价结合的脱机手写汉字字符的切分方法
CN1624696A (zh) 信息处理设备、方法及其程序、信息处理系统及其方法
CN1428033A (zh) 语义信息网络
CN1400539A (zh) 学习支持系统
CN1678992A (zh) Web服务设备和方法
CN1225484A (zh) 地址识别设备和方法
CN1567174A (zh) 对象表示和处理的方法及其装置
CN1447261A (zh) 特定要素、字符串向量生成及相似性计算的装置、方法
CN1726669A (zh) 数据分割方法和使用异或运算的装置
CN1604076A (zh) 文章信息处理装置
CN1266643C (zh) 基于阿拉伯字符集的印刷体字符识别方法
CN1256700C (zh) 基于n元组或随机存取存储器的神经网络分类系统和方法
CN1215678C (zh) 用于证明实体真实性和消息完整性的专用密钥集
CN1066517A (zh) 说明用户接口的方法及运行多用户接口型计算机的编程系统
CN1790323A (zh) 用于对依存关系所给出的映射关系进行合成的系统和方法
CN1680940A (zh) 互联网站站内输入系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication