CN103150303B

CN103150303B - 汉语语义格分层识别方法

Info

Publication number: CN103150303B
Application number: CN201310074015.8A
Authority: CN
Inventors: 罗森林; 孟强; 潘丽敏; 魏超; 韩磊
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2016-01-20
Anticipated expiration: 2033-03-08
Also published as: CN103150303A

Abstract

本发明涉及一种基于词法、句法和句义结构特征的汉语语义格分层识别方法，属于计算机科学与自然语言处理技术领域。本发明在增加了句义结构特征的基础上，首先获取最小完整语义单元；进而提取词法、句法和句义结构特征并使用C4.5决策树算法进行汉语语义格的初步识别；然后选择词法、句法和句义特征并使用C4.5决策树算法与最大熵算法相结合的方法实现汉语语义格中基本格的精确识别；最后再次选择词法、句法和句义特征并使用C4.5决策树算法实现汉语语义格中一般格的精确识别。与现有语言分析技术相比，本发明为语义学自动分析自然语言提供了汉语语义格的自动识别，是实现自动语义分析的基础。本发明可实现并行处理，能够提高计算机处理效率。

Description

汉语语义格分层识别方法

技术领域

本发明涉及一种基于词法、句法和句义结构特征的汉语语义格分层识别方法，属于计算机科学与自然语言处理技术领域。

背景技术

汉语语义格是汉语语义学理论中的重要部分，汉语语义学是自然语言处理在语义学层次上分析语言的一个理论，正越来越受到重视。人们通过将各种各样的词语划分为若干个语义格，进而使用分类方法解决识别问题。

自然语言处理研究的问题会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。形态学（morphology）研究词的内部结构，包括屈折变化和构词法两个部分；语法学（syntax）研究句子结构成分之间的互相关系和组成句子系列的规则；语义学（semantics）是一门研究意义，特别是语言意义的学科，其关注的重点是语言单元（如词、词组、句子、篇章等）到底说了什么；语用学（pragmatics）是现代语言学用来指从使用者的角度研究语言，关注的重点在于为什么在特定的上下文中要说这句话。形态学和语法学分析问题早已引起人们的广泛关注，并取得了积极的进展；但是却缺乏对语言的深度理解，不能真正实现机器对语言进行正确理解的目的。语义学层次的研究能使计算机进行深层语义的理解，是计算机对语言进行真正理解的关键。

汉语语义格识别需要解决2个基本问题：1.如何选取代表性强、区分度高的特征来区分不同的语义格；2.采用何种识别准确率高、速度快的识别方法对不同的语义格进行区分。

1.在特征提取方面：

(1)词法特征：对汉语的句子进行分词处理，进而提取词法特征，得到词法特征序列。此类特征是形态学这一层上对语言进行分析处理得到的，只能提供词法方面的信息，不能提供更深层次的信息。

(2)句法特征：对汉语的句子进行句法处理，进而提取句法特征，得到句法特征序列。此类特征是语法学这一层上对语言进行分析处理得到的，只能提供短语方面的信息。

2.在语义格区分方面：

(1)支持向量机（SVM）算法：支持向量机(SupportVectorMachine,SVM)是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力。SVM算法在训练时，需要对核函数、核函数参数不断进行调整以进行优化，因此训练过程往往比较复杂，这是该算法使用中的重要不足；另外，SVM算法是一种两分类算法，对于多种类别的识别，需要对算法做进一步的改进。

(2)Bayes算法：该算法产生的理论背景是Bayes定理，并没有考虑可能存在的依赖关系，具有运算量小、能够快速生成挖掘模型的特点，适合作为探索算法，但是识别准确率不高。

综上所述，对于汉语语义格识别这一应用场景，现有的特征包括词法和句法特征，存在特征有限、代表性不强、无法表达深层意义等不足；同时，分类算法较多，而汉语语义格识别又是新的领域，需要从众多算法中尝试不同的算法，进而选择速度快、识别准确率高的算法。

发明内容

本发明的目的是为解决语义分析中语义格识别问题，提出一种基于词法、句法和句义结构特征的语义格识别方法。

本发明的设计原理为使用词法、句法和句义结构特征和分层次识别的策略实现汉语语义格识别；使用C4.5决策树算法和最大熵算法相结合的方法提升分层次识别的准确度。

句义结构特征：对汉语的句子进行句义处理，进而提取句义结构特征，得到句义结构特征序列。此类特征是语义学这一层次上对语言进行分析处理得到的，能够提供句义方面的信息，相比词法和句法特征，代表性更强。

C4.5决策树算法是ID3的后继，是Quinlan于1993年提出的。相比ID3，C4.5有两点较为重要的改进：1）在属性选择上，C4.5使用信息增益率代替了ID3的信息增益，克服了属性偏倚问题；2）C4.5可以实现对连续值的处理，弥补了ID3只能处理离散值的不足。决策树比较适合探测式的发现，其构造不需要任何领域知识和参数设置；决策树也可以清晰地反映出较为重要的特征有哪些，进而得到影响汉语语义格识别的主要因素；另外，决策树计算较为简单，速度较快，易于转化为分类规则。

分层次识别：根据汉语语义学的理论，汉语句子中的词语可分为三大类：基本格（7种：施事格、遭遇格、主事格、受事格、结果格、说明格、与格）、一般格（范围格、时间格、空间格、工具格、方式格、基准格、根由格、属格、描写格、同位格、否定格、其他格）、非语义格。三个类别中的词语比例大致接近1:1:1，首先进行三个类别的初步识别，可以去除掉大量非语义格，减少待识别词语的数量，达到提高效率的目的；语义格的种类较多，而一般格和基本格的作用和特点都不同，先进行初步识别再进行精确识别有利于调整各自的特征，提高精确识别准确率。

本发明的技术方案是通过如下步骤实现的：

步骤1，为了进行语义学层次的分析，首先对汉语句子进行标注，形成训练测试集A。训练集A中包含的句子数目用m表示。

步骤1.1，使用ICTCLAS对汉语句子进行分词处理，并进行校对，标记句子中的词序X={0,1,2,…k}，其中k为句子中包含词语数目最多时，词的数目。

步骤1.2，在步骤1.1的基础上，对汉语句子进行句法标注，得到比词法更高一级句法单元：短语及短语类型，最终得到树状的句法结构。

步骤1.3，在步骤1.2的基础上，依据汉语语义学理论对汉语句子进行句义结构标注，得到比句法更高一级的句义结构。

步骤2，获取最小完整语义单元，形成训练测试集B，其中训练测试集B中包含有最小语义单元数目用n表示。

首先，给出一个定义。

定义1：各句义结构类型均以简单句义为基础，因此，定义简单句义的句义结构形式为最小完整语义单元，非简单句义可以通过最小完整语义单元扩展而来。

句义结构类型即句义类型，根据汉语句义的实际情况，将句义类型划分为简单句义、复杂句义、复合句义和多重句义四种类型。其中，简单句义是结构最简单的类型，只包含一层句义结构，一般表现为一个命题，通常包括一个谓词（或并列谓词）。

复杂句义是指某些句义成分本身就是一个句义或引出一个句义的情况，即一个句义中又包含着一个句义，被包含的句义称为成分句义。复杂句义中可能包含有多个成分句义，但是每一个成分句义都是简单句义，即整个复杂句义只含有两层句义结构。

复合句义是指两个或两个以上的简单句义，按照某种语义关系紧密地联结在一起，共同表达一个比较复杂的意思，通常具有两个或两个以上的话题。复合句义中的简单句义叫做分句义，它们都是简单句，且处在同一个层次上。

多重句义指某个成分句义自身是一个复杂句义或复合句义，并且因此而含有更多层的句义结构。

步骤2.1，获取句义结构的顶层句义类型标记Y={0,1,2,3}，其中Y=0、1、2、3分别代表该句子为简单句义、复杂句义、复合句义、多重句义；将简单句义类型的句子直接输出，其他句子进入下一步处理。

步骤2.2，对非简单句义类型进行从顶向下搜索，提取出句子中包含的简单句义部分，输出结果，并用一个标示符标记这个简单句义，将其看作一个整体，化简其上层句义结构。

步骤2.3，重复步骤2.2，直到本句的句义结构化简为形如简单句义的一层句义结构形式时，结束对该句的最小完整语义单元的提取工作，输出结果形成训练测试集B。

步骤3，进行汉语语义格初步识别。

步骤3.1，特征选取，具体步骤如下：

步骤3.1.1，综合词法、句法和句义结构特征共P维，利用随机森林算法获取基础特征集。将训练测试集B均分为F等份，然后分别采取随机森林算法进行识别，得到特征（包括词法、句法和句义结构特征，共P维）重要程度的排序信息，最后取F等份排序前N维特征的并集作为语义格初步识别的N1维基础特征集。

步骤3.1.2，首先，在步骤3.1.1得到的N1维特征基础上逐个增加其他特征进行语义格的初步识别，并记录识别准确率；然后对识别结果进行比较，选择识别准确率提高最大的作为新特征加入到基础特征集中。

步骤3.1.3，重复3.1.2直到识别准确率不再提高，最终得到K1维特征。

步骤3.2，根据步骤3.1选取的K1维特征，利用C4.5决策树算法和训练测试集B进行训练，得到识别模型；利用识别模型进行汉语语义格的初步识别。步骤4，进行汉语语义格中基本格的精确识别。

步骤4.1，特征选取，具体步骤如下：

步骤4.1.1，综合词法、句法和句义结构特征共P维，利用随机森林算法获取基础特征集。将训练测试集B均分为F等份，然后分别采取随机森林算法进行识别，得到特征（包括词法特征、句法特征和句义结构特征，共P维）重要程度的排序信息，最后取F等份排序前N维特征的并集作为汉语语义格中基本格精确识别的N2维基础特征集。

步骤4.1.2，首先，在步骤4.1.1得到的N2维特征基础上逐个增加其他特征进行语义格中基本格的精确识别，并记录识别准确率；然后对识别结果进行比较，选择识别准确率提高最大的作为新特征加入到基础特征集中。

步骤4.1.3，重复4.1.2直到识别准确率不再提高，最终得到K2维特征。

步骤4.2，根据步骤4.1选取的K2维特征，采用C4.5决策树算法和最大熵算法和训练测试集B分别进行训练，得到两个识别模型；通过比较识别结果，采用C4.5决策树识别模型和最大熵识别模型相结合的方法进行汉语语义格中基本格的识别。步骤5，汉语语义格中一般格的精确识别。

步骤5.1，特征选取，具体步骤如下：

步骤5.1.1，综合词法、句法和句义结构特征共P维，利用随机森林算法获取基础特征集。将训练测试集B均分为F等份，然后分别采取随机森林算法进行识别，得到特征（包括词法、句法和句义结构特征，共P维）重要程度的排序信息，最后取F等份排序前N维特征的并集作为汉语语义格中一般格精确识别的N3维基础特征集。

步骤5.1.2，首先，在步骤5.1.1得到的N3维特征基础上逐个增加其他特征进行语义格中一般格的精确识别，并记录识别准确率；然后对识别结果进行比较，选择识别准确率提高最大的作为新特征加入到基础特征集中。

步骤5.1.3，重复5.1.2直到识别准确率不再提高，最终得到K3维特征。

步骤5.2，根据步骤5.1选取的K3维特征，采用C4.5决策树算法和带有标记的训练测试集B进行训练，得到一般格识别模型；采用一般格识别模型进行汉语语义格中一般格的精确识别。

有益效果

相比于形态学和语法学只能对语言进行浅层分析，本发明为语义学自动分析提供语义格的自动识别，是语义学自动分析的关键工作，采用的汉语语义格分层次识别方法具有效率高、识别准确率高的特点。

与不进行分层次识别而直接进行汉语语义格识别相比，分层次识别策略具有更高的识别准确率，并且在基本格和一般格的精确识别中可以采用并行处理方式，具有更高的效率。

附图说明

图1为本发明的汉语语义格识别方法原理图；

图2为具体实施方式中汉语语义格初步识别方法的原理图；

图3为具体实施方式中汉语语义格初步识别方法的特征添加实验结果；

图4为具体实施方式中汉语语义格中基本格精确识别方法的原理图；

图5为具体实施方式中汉语语义格中基本格精确识别方法的特征添加实验结果；

图6为具体实施方式中汉语语义格中一般格精确识别方法的原理图；

图7为具体实施方式中汉语语义格中一般格精确识别方法的特征添加实验结果；

图8为具体实施方式中汉语语义格初步识别的准确率；

图9为具体实施方式中汉语语义格中基本格精确识别的准确率；

图10为具体实施方式中汉语语义格中一般格精确识别的准确率。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

以汉语句子为输入，设计并部署1项测试：针对6486个汉语句子的识别测试。

下面对上述测试流程进行说明，所有测试流程均在同一台计算机上完成，具体配置为：Intel（R）Core（TM）2DuoCPU(主频1.97GHz），2.00GB内存，WindowsXPSP3操作系统。

步骤1，为了进行语义学层次的分析，首先对6486个汉语句子进行标注，形成训练测试集A。

步骤1.1，使用ICTCLAS对汉语句子进行分词处理，并进行校对，标记6486个汉语句子中的词序。

步骤1.2，在步骤1.1的基础上，对6486个汉语句子进行句法标注，得到比词法更高一级句法单元：短语及短语类型，最终得到6486个树状的句法结构。

步骤1.3，在步骤1.2的基础上，依据汉语语义学对6486个汉语句子进行句义结构标注，得到6486个比句法更高一级的句义结构。

步骤2，获取最小完整语义单元，形成训练测试集B。

步骤2.1，获取6486个句义结构的顶层句义类型标记，将简单句义类型的句子直接输出，其他句子进入下一步处理。

步骤2.2，对非简单句义句子进行从顶向下搜索，提取出句子中包含的简单句义部分，输出结果，并用一个标示符标记这个简单句义，将其看作一个整体，化简其上层句义结构。

步骤2.3，重复步骤2.2，直到所有句子的句义结构化简为形如简单句义的一层句义结构形式时，输出结果，并结束对最小完整语义单元的提取工作。

通过对6486个汉语句子进行最小完整语义单元的提取工作，共得到包含9045个最小完整语义单元的训练测试集B，其具体句型分布如表1所示。

表1获取最小完整语义单元数目

步骤3，对9045个最小完整语义单元进行汉语语义格初步识别。

步骤3.1，特征选取。

步骤3.1.1，将9045个最小完整语义单元均分为3等份，然后分别采取随机森林算法进行识别，得到特征（包括词法、句法和句义结构特征，共50维）重要程度的排序信息，最后取3等份排序前20维特征的并集作为汉语语义格初步识别的基础特征集，具体特征如表2所示。

表2汉语语义格初步识别的基础特征集

步骤3.1.2，首先，在步骤3.1.1得到的23维特征基础上逐个增加其他特征进行语义格的模型训练和初步识别，并记录识别准确率；然后对识别结果进行比较，选择识别准确率提高最大的作为新特征加入到基础特征集中。

以单个类别的识别准确率、召回率、F值及整体识别准确率作为评价指标。假设类别A，其识别准确率、召回率、F值计算方法如式(1)、(2)、(3)所示。

FScore = \frac{2 \times precision \times recall}{precision + recall} - - - (3)

最后综合所有类别的识别结果，得出整体的识别准确率，如(4)所示。

步骤3.1.3，重复3.1.2直到识别准确率不再提高，最终得到28维特征，具体如表3所示。

表3汉语语义格初步识别特征

步骤3.2，使用步骤3.1选取的28维特征对最小完整语义单元进行汉语语义格的模型训练和初步识别。

步骤3.2.1，将9045个最小完整语义单元分成10份，基于10折交叉法验证对比C4.5决策树算法、SVM算法、Bayes算法和最大熵算法的识别结果，如表4所示。

表4四种算法初步识别结果

步骤3.2.2，基于网格法调整C4.5决策树算法中的参数C和参数M：调节C以0.05为间隔在0.05～0.55的区间变动，M以1为间隔在1～15的区间内变动。实验证明取C为0.5，M为2时，识别效果最好。

步骤3.2.3，使用C4.5决策树算法和步骤3.2.2得到最优参数对9045个最小完整语义单元进行识别。

实验表明，C4.5决策树算法在效率方面和识别准确率方面都优于其他算法，识别准确率达到97.0443%，适合汉语语义格的初步识别。

步骤4，进行汉语语义格中基本格的精确识别。

步骤4.1，特征选取。

步骤4.1.1，将9045个最小完整语义单元均分为3等份，然后分别采取随机森林算法进行识别，得到特征（包括词法、句法和句义结构特征，共50维）重要程度的排序信息，最后取3等份排序前20维特征的并集作为汉语语义格中基本格的精确识别的基础特征集，具体如表5所示。

表5汉语语义格中基本格精确识别的基础特征集

步骤4.1.2，首先，在步骤4.1.1得到的24维特征基础上逐个增加其他特征进行语义格中基本格的模型训练和精确识别，并记录识别准确率；然后对识别结果进行比较，选择识别准确率提高最大的作为新特征加入到基础特征集中。

步骤4.1.3，重复4.1.2直到识别准确率不再提高，最终得到30维特征，具体如表6所示。

表6汉语语义格中基本格精确识别的特征集

步骤4.2，使用步骤4.1选取的30维特征对最小完整语义单元进行汉语语义格中基本格的模型训练和精确识别。

步骤4.2.1，将9045个最小完整语义单元分成10份，基于十折交叉法验证对比C4.5决策树算法和最大熵算法的识别结果，发现当一个事例被C4.5判为施事格并且被最大熵判为主事格的概率大于0.7的时候，那么该事件本应是主事格的情况大约有74%左右。因此，采取C4.5决策树算法和最大熵算法相结合的方法提高识别准确率，将那些被C4.5判为施事格并且被最大熵判为主事格的概率大于0.7的事例改判为主事格。

步骤4.2.2，基于网格法调整C4.5决策树算法中的参数C和参数M：调节C以0.05为间隔在0.05～0.55的区间变动，M以1为间隔在1～15的区间内变动；基于网格法调整最大熵算法中的参数i：调节i以50为间隔在100～600的区间变动。实验证明C4.5决策树算法在取C为0.3，M为3时，识别效果最好；最大熵算法在i取550时，识别效果最好。

步骤4.2.3，使用C4.5决策树算法、最大熵算法和步骤4.2.2得到最优参数对9045个最小完整语义单元进行识别。

实验表明，C4.5决策树算法和最大熵相结合的方法，对汉语语义格中基本格的识别准确率达到82.7123%。

步骤5，汉语语义格中一般格的识别。

步骤5.1，特征选取。

步骤5.1.1，综合词法、句法和句义结构特征共50维，利用随机森林算法获取基础特征集。将9045个最小完整语义单元均分为3等份，然后分别采取随机森林算法进行识别，得到特征（包括词法、句法和句义结构特征，共50维）重要程度的排序信息，最后取3等份排序前20维特征的并集作为汉语语义格中一般格精确识别的基础特征集，具体如表7所示。

表7汉语语义格中一般格精确识别的特征

步骤5.1.2，首先，在步骤5.1.1得到的25维特征基础上逐个增加其他特征进行汉语语义格中一般格的模型训练和精确识别，并记录识别准确率；然后对识别结果进行比较，选择识别准确率提高最大的作为新特征加入到基础特征集中。

步骤5.1.3，重复5.1.2直到识别准确率不再提高，最终得到32维特征，如表8所示。

表8汉语语义格中一般格精确识别的特征

步骤5.2，使用步骤5.1选取的32维特征进行汉语语义格中一般格的精确识别。

步骤5.2.1，将9045个最小完整语义单元分成10份，基于10折交叉法验证对比C4.5决策树算法、SVM和最大熵算法的识别结果。

步骤5.2.2，基于网格法调整C4.5决策树算法中的参数C和参数M：调节C以0.05为间隔在0.05～0.55的区间变动，M以1为间隔在1～15的区间内变动。实验证明C4.5决策树算法在取C为0.25，M为2时，识别效果最好。

步骤5.2.3，使用C4.5决策树算法和步骤5.2.2得到最优参数对9045个最小完整语义单元进行汉语语义格中一般格的精确识别。

以上测试实验表明，本发明具有识别准确率高、效率高的特点。在对6486个汉语句子、9045个最小完整语义单元的10折交叉验证结果显示，汉语语义格初步识别准确率达到97.0%；汉语语义格中基本格的精确识别准确率达到82.7%；汉语语义格中一般格的精确识别准确率达到75.2。

Claims

1.一种汉语语义格分层识别方法，其特征在于，所述方法包括以下步骤：

步骤1，针对已标注句义结构的汉语句子获取其最小完整语义单元，将具有复杂的句义结构的句子转化成多个简单句义结构形式，具体步骤包括：

步骤1.1，获取句义结构的顶层句义类型标记，将简单句义类型的句子直接输出，其它句子进入下一步处理；

步骤1.2，对非简单句义类型进行从顶向下搜索，提取出句子中包含的简单句义结构，输出结果，并用一个标示符标记这个简单句义结构，将其看作一个整体，进而将其上层复杂的句义结构化简成简单句义结构形式；

步骤1.3，重复步骤1.2，直到本句的句义结构化简为形如简单句义的一层句义结构形式时，结束对该句的最小完整语义单元的提取工作；

步骤2，语义格粗分类，利用C4.5决策树算法，识别词或从句在句子中所表现的语义类型，识别结果为非语义格、基本格和一般格三大类；

步骤3，基本格细分类，在步骤2的基础上，对被识别为基本格的词或从句进行细分类；

步骤3.1，利用C4.5决策树算法和最大熵算法分别进行训练，得到两个识别模型；

步骤3.2，利用这两个识别模型分别对测试样本给出判定结果；

步骤3.3，利用最大熵识别模型的判定结果对C4.5识别模型的判断结果进行调节，将被C4.5判为施事格并且被最大熵判为主事格的概率大于0.7的事例改判为主事格，得到最终的基本格细分类结果；

步骤4，一般格细分类，在步骤2的基础上，利用C4.5决策树算法，对被识别为一般格的词或从句进行细分类。

2.根据权利要求1所述的方法，其特征在于，使用了下列句义特征：

步骤3.1，在利用C4.5决策树算法和最大熵算法分别训练基本格精确识别模型的过程中，使用谓从距离特征，包括当前被判定词语或从句与谓词之间的路径长度、相对位置、间隔标点数、和路径上单句的个数；

步骤4，在利用C4.5决策树算法训练一般格精确识别模型的过程中，使用句义类型特征和谓从路径特征，句义类型特征指当前被判定词语或从句所在句义结构的句义类型，谓从路径特征包括当前被判定词语或从句到谓词的路径、路径上单句或复句个数和路径上动词性短语或动词性准短语个数。

3.根据权利要求1所述的方法，其特征在于，步骤2、3、4中，将语义格自动识别的任务分成两层步骤完成，第一层为语义格粗分类，使用C4.5算法将句子中词语或从句识别成非语义格、基本格和一般格；第二层识别为语义格细分类，是对步骤2中识别结果地进一步分析，根据选取的30维特征用C4.5和最大熵算法识别7种基本格，根据选取的32维特征用C4.5算法识别12种一般格。