CN104657463A

CN104657463A - 应用于自动问答系统的问句分类方法及装置

Info

Publication number: CN104657463A
Application number: CN201510070543.5A
Authority: CN
Inventors: 乐娟
Original assignee: Beijing Traditional Opera Art Professional School
Current assignee: Beijing Traditional Opera Art Professional School
Priority date: 2015-02-10
Filing date: 2015-02-10
Publication date: 2015-05-27
Anticipated expiration: 2035-02-10
Also published as: CN104657463B

Abstract

本发明提供了一种应用于自动问答系统的问句分类方法及装置，预置包括名词及疑问代词细粒度词性对照信息的词性对照表，方法包括：调用用于执行词性标注操作的预置接口将接收到的问句划分为多个分词，并根据词性对照表对分词进行细粒度词性标注以得到对应的细粒度词性标注序列；将细粒度词性标注序列与预设一级分类模式匹配以第一次确定问句的类别；若第一次确定的类别不唯一，则将细粒度词性标注序列与预设二级分类模式匹配以第二次确定问句的类别；若第二次确定的类别不唯一，则将细粒度词性标注序列与预设三级分类模式匹配以第三次确定问句的类别，以当第三次确定的类别唯一时，确定该类别为问句的类别。该方法可提高问句分类的效率及准确率。

Description

应用于自动问答系统的问句分类方法及装置

技术领域

本发明涉及人工智能领域，特别涉及一种应用于自动问答系统的问句分类方法及装置。

背景技术

自动问答系统，又称QA(Question Answering)系统，可称为新一代的搜索引擎，用户不需要把自己的问题分解成关键字，可把整个问题直接交给该系统，既能用自然语言句子提问，又能为用户直接返回答案，可更好地满足用户的检索需求。

从知识领域、答案来源等角度对问答系统进行分类，可分为封闭领域自动问答系统及开放领域自动问答系统。其中，开放领域问答系统因具有处理自然语言形式问句的能力而受到越来越多的关注，自然语言处理是目前的研究难点及热点。

开放领域问答系统的工作过程主要包括问句分类、答案搜索及答案抽取三个阶段，其中的问句分类是关键步骤，其主要任务是通过对用户提出的中文问题进行分词、词性标注、去掉停用词等一系列预处理，进而明确问题的意图、确定问题答案的语义类型。如问句：北京理工大学的校长是谁？其答案的语义类型为人名，所以该问句分类为人名问句。问句分类用公式可以表示为f：A→B,其中，A为待分类的问题集合，B为答案的分类体系，f为问题分类的具体方法。

人类凭借自身的经验、知识即可在第一时间确定问题所对应答案的语义类型，但OA系统不具备这个能力，因此，如何准确高效地确定问题答案的语义类型、将用户提出的问题归类到某个具体的类别体系中是需要解决的难点。

目前，解决问句分类的常用方法可包括如下三种：

第一种，基于模式匹配的方法，是指根据问句表面的提问形式来抽取问句中的词语、语义及句法结构等信息手工设计问句分类规则，将问句与事先定义好的规则进行匹配以确定答案类别，该方法的可扩展性较差，针对形式多种多样的问句，无法包含全部的分类规则，因此很难满足实际应用的需求；

第二种，基于机器学习的方法，该方法涉及决策树、SNOW及支持向量机SVM等，其中，支持向量机SVM由于使用不同的核函数在实现问句分类时的效果有所不同且其效果优于决策树及SNOW，但在问句分类的实际应用中也表现欠佳；

第三种，基于句法结构分析的方法，该方法近年来被越来越多地应用于自然语言处理领域且在研究上取得了一定进展，但以往的分析存在仅停留于问句中的词语表面，忽略了词语所标注词性之间的关键依存关系中存在的规律等问题。

因此，如何解决上述现有的问句分类方法存在的问题，成为目前最需要解决的问题。

发明内容

本发明提供了一种应用于自动问答系统的问句分类方法及装置，可解决上述现有问句分类方法中存在的问题，可提高问句分类的效率及准确率，具有更强的可扩展性，更能满足于实际应用的需求。

根据本发明的一方面，本发明提出了一种应用于自动问答系统的问句分类方法，预先设置词性对照表，所述词性对照表中包括名词细粒度词性对照信息及疑问代词细粒度词性对照信息，所述方法包括：

调用用于执行词性标注操作的预置接口，将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列；

将所述细粒度词性标注序列与预设一级分类模式进行匹配以对问句的类别进行第一次确定；

若第一次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定；

若第二次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设三级分类模式进行匹配以对问句的类别进行第三次确定，以便当第三次确定的类别为唯一时，则确定该唯一的类别为所述问句的类别并将所述问句的类别返回，以完成针对所述问句的分类操作；

其中，预设一级分类模式、预设二级分类模式及预设三级分类模式为基于依存句法分析方法抽取问句中的主谓、动宾及定中三种依存句法关系特征而形成的逐级分类模式。

进一步，所述方法还包括：当第三次确定的类别不是唯一的，则确定问句分类操作失败并将问句分类操作失败的结果返回。

进一步的，名词细粒度词性对照信息中的名词包括人称名词、地点名词、组织机构名词、时间名词、数学名词、抽象名词及实体名词；

疑问代词细粒度对照信息中的疑问代词包括人称疑问代词、地点疑问代词、组织机构疑问代词、时间疑问代词、数学疑问代词及谓词疑问代词。

进一步的，所述用于执行词性标注操作的预置接口为基于最大间隔隐马尔夫模型的接口；

其中，定义词性标注集合为T＝{t₁,t₂,…t_n}，其中，t_i表示词性标注，问句为q，问句经过划分形成的分词序列为q＝{w₁,w₂,…w_n}，其中，w_i表示问句中的分词，1≤i≤n；

将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列，包括：

为问句中的每个分词w_i指定一个词性标注，其中对名词和疑问代词根据名词细粒度词性对照信息及疑问代词细粒度对照信息进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列，

其中，对于一个分词序列，其对应的细粒度词性标注序列的条件概率p的最大值的求解公式为：

P * = \underset{P}{\arg \max} p (t_{1} . . . t_{n} | w_{1} . . . w_{n});

条件概率p的求解公式为：

p (t_{1} . . . t_{n} | w_{1} . . . w_{n}) = Π_{i = 1}^{n} p (t_{i} | w_{i}) .

进一步的，所述预设一级分类模式为遵循长距离原则且不强调名词、动词及疑问代词三种词性标注信息在细粒度词性标注序列中紧密相连的宽泛粗分模式；

所述预设二级分类模式为遵循短距离原则且强调名词、动词及疑问代词三种词性标注信息在细粒度词性标注序列中紧密相连的主谓宾紧凑消歧模式；

所述预设三级分类模式为通过疑问代词与其所修饰的名词之间的定中依存关系来判断问句类型的定中紧凑消歧模式。

根据本发明的另一方面，本发明还提出了一种应用于自动问答系统的问句分类装置，预先设置词性对照表，所述词性对照表中包括名词细粒度词性对照信息及疑问代词细粒度词性对照信息，所述装置包括：

调用单元，用于调用用于执行词性标注操作的预置接口，将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列；

第一匹配单元，用于将所述细粒度词性标注序列与预设一级分类模式进行匹配以对问句的类别进行第一次确定；

第二匹配单元，用于若第一次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定；

第三匹配单元，用于若第二次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设三级分类模式进行匹配以对问句的类别进行第三次确定，以便当第三次确定的类别为唯一时，则确定该唯一的类别为所述问句的类别并将所述问句的类别返回，以完成针对所述问句的分类操作；

进一步的，所述第三匹配单元，还用于：当第三次确定的类别不是唯一的，则确定问句分类操作失败并将问句分类操作失败的结果返回。

所述调用单元，具体用于：

P * = \underset{P}{\arg \max} p (t_{1} . . . t_{n} | w_{1} . . . w_{n});

条件概率p的求解公式为：

p (t_{1} . . . t_{n} | w_{1} . . . w_{n}) = Π_{i = 1}^{n} p (t_{i} | w_{i}) .

所述预设三级分类模式为通过疑问代词与其所修饰名词之间的定中依存关系判断问句类型的定中紧凑消歧模式。

在本发明实施例提供的应用于自动问答系统的问句分类方法及装置中，预先设置包括名词及疑问代词细粒度词性对照信息的词性对照表，且定义了基于依存句法分析方法抽取问句中的主谓、动宾及定中三种依存句法关系特征而形成的包括预设一级分类模式、预设二级分类模式及预设三级分类模式的逐级分类模式，通过调用用于执行词性标注操作的预置接口，将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列，然后将所述细粒度词性标注序列与预设一级分类模式进行匹配以对问句的类别进行第一次确定，若第一次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定，若第二次确定的类别不是唯一的，再将所述细粒度词性标注序列与预设三级分类模式进行匹配以对问句的类别进行第三次确定，以便当第三次确定的类别为唯一时，则确定该唯一的类别为所述问句的类别并将所述问句的类别返回，以完成针对所述问句的分类操作。通过基于名词和疑问代词的细粒度词性标注以突出名词和疑问代词对确定问句类别的作用，充分挖掘了问句中心词对确定问句类别的重要作用，通过逐级分类模式的匹配过程解决了问句分类歧义的问题，且避免了现有基于模式匹配方法存在的可扩展性差的问题，可大大提高问句分类的效率及准确率，具有更强的可扩展性，更能满足于实际应用的需求。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的应用于自动问答系统的问句分类方法的流程示意图；

图2-1为本发明实施例提供的应用于自动问答系统的问句分类方法中的名词细粒度词性对照信息示意图；

图2-2为本发明实施例提供的应用于自动问答系统的问句分类方法中的疑问代词细粒度词性对照信息示意图；

图3为本发明实施例提供的应用于自动问答系统的问句分类方法中的依存关系树示意图；

图4为本发明实施例提供的应用于自动问答系统的问句分类方法中抽取细粒度词性标注序列中动词、名词及疑问代词之间的依存关系形成的结构特征的总结及抽取过程示意图；

图5为本发明实施例提供的应用于自动问答系统的问句分类方法中的人名问句、地名问句、组织结构问句中包含的宽泛粗分模式的示意图；

图6为本发明实施例提供的应用于自动问答系统的问句分类方法中的人名问句、地名问句、组织结构问句中包含的主谓宾紧凑消歧模式的示意图；

图7为本发明实施例提供的应用于自动问答系统的问句分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

参看图1，为本发明实施例提供的应用于自动问答系统的问句分类方法的流程示意图。

在本实施例中，所述方法可应用于开放领域的自动问答系统，且预先设置词性对照表，在该词性对照表中包括名词细粒度词性对照信息及疑问代词细粒度词性对照信息，其中，名词细粒度词性对照信息中的名词可细分为人称名词、地点名词、组织机构名词、时间名词、数学名词、抽象名词及实体名词等(可参看图2-1所示)；疑问代词细粒度对照信息中的疑问代词可细分为人称疑问代词、地点疑问代词、组织机构疑问代词、时间疑问代词、数学疑问代词及谓词疑问代词等(可参看图2-2所示)。

所述方法可包括如下步骤：

S101，调用用于执行词性标注操作的预置接口，将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列，作为完成后续逐级匹配以确定问句类别的基础。

比如，该自动问答系统可设置有用于输入问题的输入界面及确定提问的按钮，用户在该输入界面输入了问题(在本实施例中，可为自然语言形式的问句)并确认提问(比如通过触发确认提问的按钮)后，则该自动问答系统为接收到问句。比如，用户在输入界面输入了“谁发现了万有引力定律？”并触发确定提问的按钮，则自动问答系统可接收到该问句。

设置所述名词细粒度词性对照信息及疑问代词细粒度词性对照信息，相当于构建了名词和疑问代词的细粒度词性标注体系。所谓词性标注是指基于词性对照表给问句中的每个分词指派一个适当的词性类别，所述名词和疑问代词的细粒度词性标注则是指对问句中的名词和疑问代词进行更为细粒度的词性类别标注，以更突出名词和疑问代词的语义，比如：{谁/ryr，发现/v，了/uj，万有引力/na，定律/na}，其中疑问代词“谁”的细粒度词性标注为“ryr”，表示其语义是人称疑问代词，名词“万有引力”的标注为“na”，表示其语义是抽象名词。

由于自然语言的无穷性，依靠人工完成问句的词性标注是不可能的，因此我们需要基于机器学习的模型(比如特定的程序)来完成问句的自动词性标注工作，在本实施例中，可通过调用用于执行词性标注操作的预置接口来完成分词的词性标注的操作，其中，所述预置接口可为基于最大间隔隐马尔夫模型的接口。

首先，我们可对细粒度词性标注给予一个定义，假设词性标注标注集合为T＝{t₁,t₂,…t_n}，其中，t_i表示词性标注，问句为q，问句q经过划分形成的分词序列为q＝{w₁,w₂,…w_n}，其中，w_i表示问句中的分词，1≤i≤n。

细粒度词性标注问题即可定义为：基于最大间隔隐马尔夫模型，给问句q中的每个分词w_i指定一个词性标注，其中对名词和疑问代词则根据名词细粒度词性对照信息及疑问代词细粒度对照信息进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列。

P * = \underset{P}{\arg \max} p (t_{1} . . . t_{n} | w_{1} . . . w_{n});

则条件概率p的求解公式为：

p (t_{1} . . . t_{n} | w_{1} . . . w_{n}) = Π_{i = 1}^{n} p (t_{i} | w_{i}) .

比如，一个包含5个分词的问句q＝{公司，的，主席，是，谁}，经过细粒性词性标注，得到一个由每个分词所对应的词性标注组成的序列t＝{nt，uj，nr，v，ryr}，该序列是完成后续逐级匹配以确定问句的类别的基础。

在本实施例中，可基于S101中得到的问句的细粒度词性标注序列及依存关系特征确定问句的分类模式。

首先利用依存句法分析方法分析问句的语义，总结问句中的主语、谓语及宾语之间的依存关系特征，其次基于依存关系特征总结问句的提问形式，最后基于问句的提问形式分级确定问句的分类模式。

句子的语义是指根据句子的句法结构和句中每个实词的词义推导出能够反映句子意义的某种形式化表示。例如对于问句“美国的现任总统是谁？”和“谁是美国的现任总统？”，虽然两个问句的表述形式不同，但其语义形式统一为：“是(总统，谁)”。

句法分析是指遵循某一语法体系分析句子中词语之间的关系以确定句子语义的方法。其中，依存句法分析是法国语言学家特思尼耶尔提出的一种句法分析方法，在依存句法中，句子中的每个单词会以一定的关系依存于并且只能依存于另外一个词或者是根结点(ROOT)，词之间的依存关系通过有向边表示，依存句法的分析结果表示为一棵依存关系树，如图3所示。

图3所示为问句“谁是美国的现任总统”的依存关系树，问句中的每个词都依存于另一个词，动词“是”为根节点(ROOT)，句中的依存关系包括以下几种：疑问代词“谁”依存于动词“是”，形成主谓依存关系(SBV)；名词“总统”依存于动词“是”，形成动宾依存关系(VOB)；名词“总统”依存于名词“美国”，形成定中依存关系(ATT)；名词“美国”依存于助词“的”，形成后附加关系(RAD)。

接下来我们可重点研究问句中由名词、动词及疑问代词之间形成的主谓、动宾及定中三种依存关系，并基于上述三种依存关系将问句分为以下三种情形：

情形1：问句的主语和宾语词义一致，可通过主谓、动宾依存关系判断问句类型。

如“名著《飘》的作者是谁”，该句中“作者是谁”所形成的细粒度词性标注序列为{nr/v/ryr}，其中，名词“作者(nr)”充当的主语和疑问代词“谁(ryr)”充当的宾语词义一致，表明询问人名。

情形2：当问句的主语或宾语之一词义明确，可通过主谓或动宾依存关系判断问句类型。

该类型问句是指问句中的主语或宾语由“什么”，“哪些”等词义不明确的二级疑问代词(ry)充当，无法通过疑问代词的词义确定问句语义，则可以通过由词义明确的名词所充当的另一成分理解问句语义。

如“四大商业银行是什么”，该问句的主语(银行)、宾语(什么)词义不一致，且二级疑问代词(什么)不具有明确的词义。在这种情形下，我们可以通过主语的细粒度词性标注理解问句语义，因为名词“银行”具有确切的词义，表明询问“组织机构”名称。

情形3：主语、宾语词义不一致，通过定中依存关系分析疑问代词所修饰成分的词义确定问句类型。

如“世界上石油存储最多的是哪个地区”，针对此类问句，我们可以通过疑问代词与其所修饰的名词之间形成的定中依存关系理解问句语义，在该问句中，疑问代词“哪个”所修饰的名词是“地区”，表明询问一个地点名称。

基于上述三种问句情形的划分，我们抽取细粒度词性标注序列中动词、名词及疑问代词之间的依存关系形成的结构特征，图4为结构特征的总结及抽取过程示意图。

根据上述分析过程，在本实施例中定义了逐级分类模式以对问句的类别进行确定，包括预设一级分类模式、预设二级分类模式及预设三级分类模式，将在以下步骤中分别说明。

S102，将所述细粒度词性标注序列与预设一级分类模式进行匹配以对问句的类别进行第一次确定。

所述预设一级分类模式，可称为宽泛粗分模式(Loose Matching Patterns，LMP),LMP是指遵循长距离原则且不强调名词、动词及疑问代词三种词性标注信息在词性标注序列中紧密相连的分类模式。

问句中出现的所有名词都有充当主语和宾语的可能性，因此遵循长距离原则定义宽泛粗分模式，如公式(1)所示，其中“POS Tagging”为名词、动词及疑问代词的词性标注，“.*”是匹配指示符，表示不强调上述三类词必须紧密相连，三种词性标注之间可以存在其他类别的词性标注；

P_LMP＝{POS Taggi ng.*POS Tagging.*POS Tagging} (1)。

每类问句均包含六个宽泛粗分模式，如图5所示为人名问句、地名问句及组织机构问句包含的宽泛粗分模式的示意图。

将所述问句的细粒度词性标注序列与预设一级分类模式进行匹配以对问句进行第一次确定，若匹配的结果唯一，则可确定问句的类别并返回结果。比如问句“《白雪公主》的作者是谁”，其细粒度词性标注序列{no/uj/nr/v/ryr}与人名问句(person)的宽泛粗分模式{nr.*v.*ryr}匹配成功且唯一(即无歧义)，则可确定其答案类型为人名问句(person)并返回结果。

S103，若第一次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定。

所述预设二级分类模式，可称为主谓宾紧凑消歧模式(Tight MatchingPatterns，TMP)，TMP是指遵循短距离规则且强调名词、动词及疑问代词三种词性标注信息在词性标注序列中紧密相连的分类模式。

一个紧凑消歧模式定义为公式(2)所示，其中，“/”是匹配指示符，表示名词、动词及疑问代词三种词性标注必须紧密相连；

P_TMP＝{POS Tagging/POS Tagging/POS Tagging} (2)。

问句与宽泛粗分模式匹配后，可能对应多个类别，即存在分类歧义。如问句“马尔他大学的网址是什么”的词性标注序列{ns/nt/uj/ns/v/ryv}与宽泛粗分模式匹配后，对应两个结果：{.*(ns).*(v).*(ryv).*}及.{*(nt).*(v).*(ryv).*}，即对应两个类别：[C1＝地址，C2＝组织]。

该词性标注序列与主谓宾紧凑消歧模式“{(ns)/(v)/(ryv)}”匹配即可消除歧义并可确定问句类别为[C＝地址]，参看图6所示为人名问句、地名问句及组织机构问句包含的的主谓宾紧凑消歧模式的示意图，每类问句均包含六个主谓宾紧凑消歧模式。

若第一次确定的类别不是唯一的(也就是说匹配结果存在歧义)，则再将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定，若匹配结果唯一，则确定问句的语义类别并返回结果。

比如问句“马尔他大学的网址是什么”，其细粒度词性标注序列{ns/nt/uj/ns/v/ry}与组织机构问句(organization)宽泛粗分模式{nt.*v.*ry}匹配成功，同时与地址问句(location)的宽泛粗分模式{ns.*v.*ry}匹配成功，因此匹配结果存在歧义，则进一步将问句的细粒度词性标注序列与主谓宾紧凑消歧模式进行匹配，此时与地址问句的主谓宾紧凑消歧模式{ns/v/ry}匹配成功，则确定问句的类别为地址问句(l ocat i on)，并可返回该结果。

S104,若第二次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设三级分类模式进行匹配以对问句的类别进行第三次确定，以便当第三次确定的类别为唯一时，则确定该唯一的类别为所述问句的类别并将所述问句的类别返回，以完成针对所述问句的分类操作。

所述预设第三级分类模式，可称为定中紧凑消歧模式(ATT Tight MatchingPatterns，ATTTMP),ATTTMP是指通过疑问代词与所修饰名词之间的定中依存关系判断问句类型的消歧模式，定义如公式(3)所示，其中，“/”是匹配指示符，强调疑问代词与名词的标注词性必须紧密相连；

P_ATTTMP＝{POS Tagging/POS Tagging} (3)。

若第二次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设三级分类模式进行匹配以对问句的类别进行第三次确定，比如问句“杨致远是什么大学毕业的？”在经过宽泛粗分模式及主谓宾紧凑消歧模式的匹配后仍然存在歧义，可进一步与定中紧凑消歧模式进行匹配，则可与组织机构问句{ryv/nt}匹配成功并可确定问句类别为组织机构问句，以完成针对所述问句的分类操作。

此外，当第三次确定的类别仍不是唯一的，则确定问句分类操作失败并可将分类操作失败的结果返回。

在本发明实施例提供的应用于自动问答系统的问句分类方法中，预先设置包括名词及疑问代词细粒度词性对照信息的词性对照表，且定义了基于依存句法分析方法抽取问句中的主谓、动宾及定中三种依存句法关系特征而形成的包括预设一级分类模式、预设二级分类模式及预设三级分类模式的逐级分类模式，通过调用用于执行词性标注操作的预置接口，将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列，然后将所述细粒度词性标注序列与预设一级分类模式进行匹配以对问句的类别进行第一次确定，若第一次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定，若第二次确定的类别不是唯一的，再将所述细粒度词性标注序列与预设第三级分类模式进行匹配以对问句的类别进行第三次确定，以便当第三次确定的类别为唯一时，则确定该唯一的类别为所述问句的类别，以完成针对所述问句的分类操作。通过基于名词和疑问代词的细粒度词性标注以突出名词和疑问代词对确定问句类别的作用，充分挖掘了问句中心词对确定问句类别的重要作用，通过逐级分类模式的匹配过程解决了问句分类歧义的问题，且避免了现有基于模式匹配方法存在的可扩展性差的问题，可大大提高问句分类的效率及准确率，具有更强的可扩展性，更能满足于实际应用的需求。

下面将介绍本发明实施例提供的与上述应用于自动问答系统的问句分类方法相对应的问句分类装置。

参看图7所示，是本发明实施例提供的应用于自动问答系统的问句分类装置的结构示意图。

在本实施例中，所述装置可应用于开放领域的自动问答系统，且预先设置词性对照表，在该词性对照表中包括名词细粒度词性对照信息及疑问代词细粒度词性对照信息，其中，名词细粒度词性对照信息中的名词可细分为人称名词、地点名词、组织机构名词、时间名词、数学名词、抽象名词及实体名词等；疑问代词细粒度对照信息中的疑问代词可细分为人称疑问代词、地点疑问代词、组织机构疑问代词、时间疑问代词、数学疑问代词及谓词疑问代词等。

所述装置包括：

调用单元11，可用于调用用于执行词性标注操作的预置接口，将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行词性标注，以得到所述分词序列对应的细粒度词性标注序列。

第一匹配单元12，可用于将所述细粒度词性标注序列与预设一级分类模式进行匹配以对问句的类别进行第一次确定。

第二匹配单元13，可用于若第一次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定。

第三匹配单元14，可用于若第二次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设三级分类模式进行匹配以对问句的类别进行第三次确定，以便当第三次确定的类别为唯一时，则确定该唯一的类别为所述问句的类别并将所述问句的类别返回，以完成针对所述问句的分类操作。

具体的，所述预设一级分类模式，可称为宽泛粗分模式(Loose MatchingPatterns，LMP),LMP是指遵循长距离原则且不强调名词、动词及疑问代词三种词性标注信息在词性标注序列中紧密相连的分类模式；

所述预设二级分类模式，可称为主谓宾紧凑消歧模式(Tight MatchingPatterns，TMP)，TMP是指遵循短距离规则且强调名词、动词及疑问代词三种词性标注信息在词性标注序列中紧密相连的分类模式；

所述预设第三级分类模式，可称为定中紧凑消歧模式(ATT Tight MatchingPatterns，ATTTMP),ATTTMP是指通过疑问代词与所修饰名词之间的定中依存关系判断问句类型的消歧模式。

此外，所述第三匹配单元，还用于：当第三次确定的类别不是唯一的，则确定问句分类操作失败并将问句分类操作失败的结果返回。

其中，名词细粒度词性对照信息中的名词包括人称名词、地点名词、组织机构名词、时间名词、数学名词、抽象名词及实体名词；疑问代词细粒度对照信息中的疑问代词包括人称疑问代词、地点疑问代词、组织机构疑问代词、时间疑问代词、数学疑问代词及谓词疑问代词。

其中，定义词性标注集合为T＝{t₁,t₂,…t_n}，其中，t_i表示词性标注，问句为q，问句经过划分形成的分词序列为q＝{w₁,w₂,…w_n}，其中，w_i表示问句中的分词，1≤i≤n。

所述调用单元11，可具体用于：

P * = \underset{P}{\arg \max} p (t_{1} . . . t_{n} | w_{1} . . . w_{n});

则条件概率p的求解公式为：

p (t_{1} . . . t_{n} | w_{1} . . . w_{n}) = Π_{i = 1}^{n} p (t_{i} | w_{i}) .

在本发明实施例提供的应用于自动问答系统的问句分类装置中，预先设置包括名词及疑问代词细粒度词性对照信息的词性对照表，且定义了基于依存句法分析方法抽取问句中的主谓、动宾及定中三种依存句法关系特征而形成的包括预设一级分类模式、预设二级分类模式及预设三级分类模式的逐级分类模式，通过调用用于执行词性标注操作的预置接口，将接收到的问句划分为多个分词以组成分词序列，并根据所述词性对照表对所述分词序列中的分词进行细粒度词性标注，以得到所述分词序列对应的细粒度词性标注序列，然后将所述细粒度词性标注序列与预设一级分类模式进行匹配以对问句的类别进行第一次确定，若第一次确定的类别不是唯一的，则将所述细粒度词性标注序列与预设二级分类模式进行匹配以对问句的类别进行第二次确定，若第二次确定的类别不是唯一的，再将所述细粒度词性标注序列与预设第三级分类模式进行匹配以对问句的类别进行第三次确定，以便当第三次确定的类别为唯一时，则确定该唯一的类别为所述问句的类别，以完成针对所述问句的分类操作。通过基于名词和疑问代词的细粒度词性标注以突出名词和疑问代词对确定问句类别的作用，充分挖掘了问句中心词对确定问句类别的重要作用，通过逐级分类模式的匹配过程解决了问句分类歧义的问题，且避免了现有基于模式匹配方法存在的可扩展性差的问题，可大大提高问句分类的效率及准确率，具有更强的可扩展性，更能满足于实际应用的需求。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的应用于自动问答系统的问句分类方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种应用于自动问答系统的问句分类方法，其特征在于，预先设置词性对照表，所述词性对照表中包括名词细粒度词性对照信息及疑问代词细粒度词性对照信息，所述方法包括：

2.如权利要求1所述的方法，其特征在于，还包括：当第三次确定的类别不是唯一的，则确定问句分类操作失败并将问句分类操作失败的结果返回。

3.如权利要求2所述的方法，其特征在于，名词细粒度词性对照信息中的名词包括人称名词、地点名词、组织机构名词、时间名词、数学名词、抽象名词及实体名词；

4.如权利要求3所述的方法，其特征在于，所述用于执行词性标注操作的预置接口为基于最大间隔隐马尔夫模型的接口；

P^{*} = \underset{P}{\arg \max} p (t_{1} . . . t_{n} | w_{1} . . . w_{n});

条件概率p的求解公式为：

p (t_{1} . . . t_{n} | w_{1} . . . w_{n}) = Π_{i = 1}^{n} p (t_{i} | w_{i}) .

5.如权利要求4所述的方法，其特征在于，

所述预设一级分类模式为遵循长距离原则且不强调名词、动词及疑问代词三种词性标注信息在细粒度词性标注序列中紧密相连的宽泛粗分模式；

6.一种应用于自动问答系统的问句分类装置，其特征在于，预先设置词性对照表，所述词性对照表中包括名词细粒度词性对照信息及疑问代词细粒度词性对照信息，所述装置包括：

7.如权利要求1所述的装置，其特征在于，所述第三匹配单元，还用于：当第三次确定的类别不是唯一的，则确定问句分类操作失败并将问句分类操作失败的结果返回。

8.如权利要求7所述的装置，其特征在于，名词细粒度词性对照信息中的名词包括人称名词、地点名词、组织机构名词、时间名词、数学名词、抽象名词及实体名词；

9.如权利要求8所述的装置，其特征在于，所述用于执行词性标注操作的预置接口为基于最大间隔隐马尔夫模型的接口；

所述调用单元，具体用于：

P^{*} = \underset{P}{\arg \max} p (t_{1} . . . t_{n} | w_{1} . . . w_{n});

条件概率p的求解公式为：

p (t_{1} . . . t_{n} | w_{1} . . . w_{n}) = Π_{i = 1}^{n} p (t_{i} | w_{i}) .

10.如权利要求9所述的装置，其特征在于，