发明内容
本发明要解决的技术问题是为了克服现有技术中的自然语言解析方法很难根据实际数据进行优化,难以模拟语言中局部的约束关系,从而导致对于短句的识别解析的准确性不够高的缺陷,提出一种短句解析模型建立方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种短句解析模型建立方法,其特点在于,包括以下步骤:
S1、获取原始语句;
S2、将原始语句切分为词序列;
S3、根据预存的词性规则为该词序列中的每个词赋予一词性;
S4、根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
S5、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
S6、分析各个语法成分之间的依存关系;
S7、根据各个语法成分之间的依存关系,抽取语法成分作为特征;
S8、将抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
S9、将特征向量及二元分类的特征组合存储至一模型中。
较佳地,该步骤S4包括以下步骤:
S41、采用底层隐马尔可夫模型识别普通无嵌套的命名实体,并获取若干最佳识别结果;
S42、采用高层隐马尔可夫模型、并利用该若干最佳识别结果,识别具有嵌套结构的命名实体。
较佳地,该步骤S41和S42中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。Viterbi算法(Viterbi algorithm),亦称维特比算法,属于一种动态规划算法,从普遍意义上来说这一算法可用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列。
较佳地,该步骤S5还包括:根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
较佳地,该步骤S8中抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
本发明的短句解析模型建立方法,其基本原理大体如下:
将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的模型中。首先在词语粗切分的结果集上,采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。一是每一层隐马尔可夫模型都采用N-Best策略,将产生的最好的若干个结果送到词图中供高层模型使用。二是低层的隐马尔可夫模型通过词语的生成模型为高层隐马尔可夫模型的参数估计提供支持。
基于特征向量的方法具有特征构造灵活,效率和准确率较高的优点。使用基于核的分类器对实例进行二元或者多元的分类,其主要优点是能够将低维线性不可分问题通过对特征进行组合或者分解,映射到高维空间,转化为线性可分问题,同时通过对核函数的计算,隐藏了映射的细节,从而使得时空复杂性降低到可以接受的范围。核方法一般是和支持向量机等线性分类器配合使用的,它将复杂的分类问题分为两个部分,分别是与问题无关的线性分类器,以及与问题相关的核函数。其中核函数的作用是通过对具体分类问题的分析,隐式的将线性不可分问题映射到高维空间,然后使用线性分类器进行分类。
本发明还提供了一种短句解析模型建立系统,其特点在于,包括:
一语句切分模块,用于获取原始语句,并将原始语句切分为词序列;
一词性赋予模块,用于根据预存的词性规则为该词序列中的每个词赋予一词性;
一命名实体识别模块,用于根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
一语法成分识别模块,用于根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
一依存分析模块,用于分析各个语法成分之间的依存关系,并根据各个语法成分之间的依存关系,抽取语法成分作为特征;
一特征组合模块,用于将该依存分析模块抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
一存储模块,用于将特征向量及二元分类的特征组合存储至一模型中。
较佳地,该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果,然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。
较佳地,该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。
较佳地,该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
较佳地,该特征组合模块抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明的短句解析模型建立方法及系统能够根据实际数据进行优化,在一定程度上模拟自然语言中局部的约束关系,从而大大提高了对于自然语言短句的识别解析的准确性。
实施例1
如图1所示,本实施例的短句解析模型建立方法包括以下步骤:
S1、获取原始语句;
S2、将原始语句切分为词序列;
S3、根据预存的词性规则为该词序列中的每个词赋予一词性;
S4、根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名;
S5、根据各个词、词性及命名实体识别各个词在原始语句中的语法成分;
S6、分析各个语法成分之间的依存关系;
S7、根据各个语法成分之间的依存关系,抽取语法成分作为特征;
S8、将抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合;
S9、将特征向量及二元分类的特征组合存储至一模型中。
其中该步骤S4包括以下步骤:
S41、采用底层隐马尔可夫模型识别普通无嵌套的命名实体,并获取若干最佳识别结果;
S42、采用高层隐马尔可夫模型、并利用该若干最佳识别结果,识别具有嵌套结构的命名实体。
步骤S5还包括:根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
并且,该步骤S41和S42中的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。该步骤S8中抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
实施例2
参考图2所示,本实施例的短句解析模型建立系统,包括一语句切分模块1、一词性赋予模块2、一命名实体识别模块3、一语法成分识别模块4、一依存分析模块5、一特征组合模块6和一存储模块7。
该语句切分模块用于获取原始语句、并将原始语句切分为词序列。该词性赋予模块用于根据预存的词性规则为该词序列中的每个词赋予一词性。该命名实体识别模块用于根据各个词及其词性识别命名实体,命名实体包括人名、地名、机构名。该语法成分识别模块用于根据各个词、词性及命名实体识别各个词在原始语句中的语法成分。该依存分析模块,用于分析各个语法成分之间的依存关系,并根据各个语法成分之间的依存关系,抽取语法成分作为特征。该特征组合模块,用于将该依存分析模块抽取的特征构建为特征向量,并使用二次多项式核对特征向量中的特征进行两两组合形成二元分类的特征组合。该存储模块用于将特征向量及二元分类的特征组合存储至一模型中。
其中,该命名实体识别模块用于首先采用底层隐马尔可夫模型识别普通无嵌套的命名实体、并获取若干最佳识别结果,然后采用高层隐马尔可夫模型、并利用该若干最佳识别结果识别具有嵌套结构的命名实体。该命名实体识别模块采用的底层隐马尔可夫模型和高层隐马尔可夫模型都采用Viterbi算法。
并且,该语法成分识别模块还用于根据各个词、词性及命名实体识别各个词标识动词性谓词及其语义,并根据预存的一词表从各个词中找出有可能充当动词的名词,并进行标识为谓词。
该特征组合模块抽取的特征包括句法成分特征和谓词特征,谓词特征包括谓词原形、谓词语态、子类框架。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。