CN104199811B

CN104199811B - 短句解析模型建立方法及系统

Info

Publication number: CN104199811B
Application number: CN201410459446.0A
Authority: CN
Inventors: 刘新
Original assignee: Shanghai Ctrip Business Co Ltd
Current assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2017-06-16
Anticipated expiration: 2034-09-10
Also published as: CN104199811A

Abstract

本发明公开了一种短句解析模型建立方法及系统。该短句解析模型建立方法，包括以下步骤：获取原始语句；将原始语句切分为词序列；为词序列中的每个词赋予词性；根据各个词及其词性识别命名实体；根据各个词、词性及命名实体识别各个词在原始语句中的语法成分；分析各个语法成分之间的依存关系；根据各个语法成分之间的依存关系，抽取语法成分作为特征；将抽取的特征构建为特征向量，并两两组合形成二元分类的特征组合；将特征向量及二元分类的特征组合存储至模型中。本发明的短句解析模型建立方法及系统能够根据实际数据进行优化，在一定程度上模拟自然语言中局部的约束关系，从而大大提高了对于自然语言短句的识别解析的准确性。

Description

短句解析模型建立方法及系统

技术领域

本发明涉及一种短句解析模型建立方法及系统。

背景技术

在语音信号处理、语音识别、语音合成及自然语言理解等各项技术得到迅猛发展的今天，语音查询具有很高的研究价值，其应用也必将带来很好的社会、经济效益。在语音查询中，短句的自然语言理解与解析是影响语音查询结果的关键。如何针对自然语言实现提高自然语言理解与解析的准确度进而提升语音查询系统准确率是一个重要的问题。

传统的短句的自然语言解析方法通常是基于规则的方法，其核心思想是用文法来描述语言、分析语言。首先确定句子是否符合预先设定的规范，然后在文法规则各种各样的组合方式之中，找出一种可能是该句子文法树结构的组合方式的搜索过程。基于规则的自然语言解析方法在实际的使用场合其表现往往不如基于统计的经验主义方法那样好。因为基于统计的经验主义方法可以根据实际训练数据的情况不断地优化，而基于规则的理性主义方法很难根据实际的数据进行调整。并且基于规则的方法很难模拟语言中局部的约束关系。

然而由于语音识别的特点，用户查询在语音识别过程中就有可能产生识别结果的错误，再将此查询字符串进行基于规则的自然语言理解和解析会使得准确性进一步下降，如何建立基于查询需求的更好的语言模型，将得到结果应用到提升短句的自然语言解析系统是迫切需要解决的问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中的自然语言解析方法很难根据实际数据进行优化，难以模拟语言中局部的约束关系，从而导致对于短句的识别解析的准确性不够高的缺陷，提出一种短句解析模型建立方法及系统。

本发明是通过下述技术方案来解决上述技术问题的：

本发明提供了一种短句解析模型建立方法，其特点在于，包括以下步骤：

S₁、获取原始语句；

S₂、将原始语句切分为词序列；

S₃、根据预存的词性规则为该词序列中的每个词赋予一词性；

S₄、根据各个词及其词性识别命名实体，命名实体包括人名、地名、机构名；

S₅、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分；

S₆、分析各个语法成分之间的依存关系；

S₇、根据各个语法成分之间的依存关系，抽取语法成分作为特征；

S₈、将抽取的特征构建为特征向量，并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合；

S₉、将特征向量及二元分类的特征组合存储至一模型中。

较佳地，该步骤S₄包括以下步骤：

S₄₁、采用底层隐马尔可夫模型识别普通无嵌套的命名实体，并获取若干最佳识别结果；

S₄₂、采用高层隐马尔可夫模型、并利用该若干最佳识别结果，识别具有嵌套结构的命名实体。

较佳地，该步骤S₄₁和S₄₂中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。Viterbi算法(Viterbi algorithm)，亦称维特比算法，属于一种动态规划算法，从普遍意义上来说这一算法可用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列。

较佳地，该步骤S₅还包括：根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义，并根据预存的一词表从各个词中找出有可能充当动词的名词，并进行标识为谓词。

较佳地，该步骤S₈中抽取的特征包括句法成分特征和谓词特征，谓词特征包括谓词原形、谓词语态、子类框架。

本发明的短句解析模型建立方法，其基本原理大体如下：

将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的模型中。首先在词语粗切分的结果集上，采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等，然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。一是每一层隐马尔可夫模型都采用N-Best策略，将产生的最好的若干个结果送到词图中供高层模型使用。二是低层的隐马尔可夫模型通过词语的生成模型为高层隐马尔可夫模型的参数估计提供支持。

基于特征向量的方法具有特征构造灵活，效率和准确率较高的优点。使用基于核的分类器对实例进行二元或者多元的分类，其主要优点是能够将低维线性不可分问题通过对特征进行组合或者分解，映射到高维空间，转化为线性可分问题，同时通过对核函数的计算，隐藏了映射的细节，从而使得时空复杂性降低到可以接受的范围。核方法一般是和支持向量机等线性分类器配合使用的，它将复杂的分类问题分为两个部分，分别是与问题无关的线性分类器，以及与问题相关的核函数。其中核函数的作用是通过对具体分类问题的分析，隐式的将线性不可分问题映射到高维空间，然后使用线性分类器进行分类。

本发明还提供了一种短句解析模型建立系统，其特点在于，包括：

一语句切分模块，用于获取原始语句，并将原始语句切分为词序列；

一词性赋予模块，用于根据预存的词性规则为该词序列中的每个词赋予一词性；

一命名实体识别模块，用于根据各个词及其词性识别命名实体，命名实体包括人名、地名、机构名；

一语法成分识别模块，用于根据各个词、词性及命名实体识别各个词在原始语句中的语法成分；

一依存分析模块，用于分析各个语法成分之间的依存关系，并根据各个语法成分之间的依存关系，抽取语法成分作为特征；

一特征组合模块，用于将该依存分析模块抽取的特征构建为特征向量，并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合；

一存储模块，用于将特征向量及二元分类的特征组合存储至一模型中。

较佳地，该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果，然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。

较佳地，该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。

较佳地，该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义，并根据预存的一词表从各个词中找出有可能充当动词的名词，并进行标识为谓词。

较佳地，该特征组合模块抽取的特征包括句法成分特征和谓词特征，谓词特征包括谓词原形、谓词语态、子类框架。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：

本发明的短句解析模型建立方法及系统能够根据实际数据进行优化，在一定程度上模拟自然语言中局部的约束关系，从而大大提高了对于自然语言短句的识别解析的准确性。

附图说明

图1为本发明实施例1的短句解析模型建立方法的流程图。

图2为本发明实施例2的短句解析模型建立系统的示意图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例的短句解析模型建立方法包括以下步骤：

S₁、获取原始语句；

S₂、将原始语句切分为词序列；

S₆、分析各个语法成分之间的依存关系；

S₉、将特征向量及二元分类的特征组合存储至一模型中。

其中该步骤S₄包括以下步骤：

步骤S₅还包括：根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义，并根据预存的一词表从各个词中找出有可能充当动词的名词，并进行标识为谓词。

并且，该步骤S₄₁和S₄₂中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。该步骤S₈中抽取的特征包括句法成分特征和谓词特征，谓词特征包括谓词原形、谓词语态、子类框架。

实施例2

参考图2所示，本实施例的短句解析模型建立系统，包括一语句切分模块1、一词性赋予模块2、一命名实体识别模块3、一语法成分识别模块4、一依存分析模块5、一特征组合模块6和一存储模块7。

该语句切分模块用于获取原始语句、并将原始语句切分为词序列。该词性赋予模块用于根据预存的词性规则为该词序列中的每个词赋予一词性。该命名实体识别模块用于根据各个词及其词性识别命名实体，命名实体包括人名、地名、机构名。该语法成分识别模块用于根据各个词、词性及命名实体识别各个词在原始语句中的语法成分。该依存分析模块，用于分析各个语法成分之间的依存关系，并根据各个语法成分之间的依存关系，抽取语法成分作为特征。该特征组合模块，用于将该依存分析模块抽取的特征构建为特征向量，并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合。该存储模块用于将特征向量及二元分类的特征组合存储至一模型中。

其中，该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果，然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。

并且，该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义，并根据预存的一词表从各个词中找出有可能充当动词的名词，并进行标识为谓词。

该特征组合模块抽取的特征包括句法成分特征和谓词特征，谓词特征包括谓词原形、谓词语态、子类框架。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种短句解析模型建立方法，其特征在于，包括以下步骤：

S₁、获取原始语句；

S₂、将原始语句切分为词序列；

S₆、分析各个语法成分之间的依存关系；

S₉、将特征向量及二元分类的特征组合存储至一模型中。

2.如权利要求1所述的短句解析模型建立方法，其特征在于，该步骤S₄包括以下步骤：

3.如权利要求2所述的短句解析模型建立方法，其特征在于，该步骤S₄₁和S₄₂中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。

4.如权利要求1-3中任意一项所述的短句解析模型建立方法，其特征在于，该步骤S₅还包括：根据各个词、词性及命名实体识别各个词并标识动词性谓词及其语义，并根据预存的一词表从各个词中找出有可能充当动词的名词，并进行标识为谓词。

5.如权利要求1所述的短句解析模型建立方法，其特征在于，该步骤S₈中抽取的特征包括句法成分特征和谓词特征，谓词特征包括谓词原形、谓词语态、子类框架。

6.一种短句解析模型建立系统，其特征在于，包括：

7.如权利要求6所述的短句解析模型建立系统，其特征在于，该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果，然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。

8.如权利要求7所述的短句解析模型建立系统，其特征在于，该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。

9.如权利要求6-8中任意一项所述的短句解析模型建立系统，其特征在于，该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词并标识动词性谓词及其语义，并根据预存的一词表从各个词中找出有可能充当动词的名词，并进行标识为谓词。

10.如权利要求6所述的短句解析模型建立系统，其特征在于，该特征组合模块抽取的特征包括句法成分特征和谓词特征，谓词特征包括谓词原形、谓词语态、子类框架。