CN102375808A

CN102375808A - 一种汉语框架网标注时框架排歧方法及装置

Info

Publication number: CN102375808A
Application number: CN201010264377XA
Authority: CN
Inventors: 李茹; 刘海静; 李双红; 高俊杰
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2010-08-20
Filing date: 2010-08-20
Publication date: 2012-03-14
Anticipated expiration: 2030-08-20
Also published as: CN102375808B

Abstract

本发明公开了一种汉语框架网标注汉语句子时的框架排歧方法及装置，该方法包括：选择训练语料，对训练语料中的句子进行依存句法分析；将框架排歧任务作为标注任务，选择树结构条件随机场模型为标注模型，并为建立的标注模型选择特征；根据所述选择的特征利用训练语料对所述标注模型进行训练，得到合适的标注模型；将待识别句子的词性标注信息以及依存句法关系提交训练后的标注模型，得到待识别句子中目标词的所属框架。

Description

一种汉语框架网标注时框架排歧方法及装置

技术领域

本发明涉及中文信息处理技术和语义处理技术领域，特别涉及一种汉语框架网标注汉语句子时的框架排歧的方法及装置。

背景技术

随着中文信息处理技术的不断发展，越来越多的研究人员逐渐从对词法、句法方面的研究过渡到语义方面。汉语框架网(Chinese FrameNet)就是中文语义的探索性研究之一。

利用汉语框架网对一个中文句子进行标时，经常遇到一个目标词可以充当多个不同框架的词元这种问题，这是由于中文词汇的多义现象所致。上述情况导致用户在利用汉语框架网进行中文句子分析时，很难选择合适的框架。

现有技术中虽然提出了框架排歧的概念，即根据上下文语境与各个侯选框架所表示场景的一致程度，为目标词选择一个合适的框架。但是针对以上提到的汉语框架排歧问题，至今还没有一种有效的解决办法。

发明内容

本发明实施例提供一种汉语框架网标注汉语句子时的框架排歧方法及装置，用于解决现有技术中没有合适的方法实现汉语框架排歧的问题。

一种汉语框架网标注汉语句子时框架排歧的方法，当应用汉语框架网标注待识别句子的框架信息时，包括：

选择训练语料，该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例，并且包括每个句子实例的框架语义信息；

对所述句子实例进行依存句法分析，得到每个句子实例的依存句法关系；

选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型，并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练，得到特定参数的标注模型；

对待识别句子进行分词、词性标注及依存句法分析，得到待识别句子的词法信息和依存句法关系；

将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型，得到待识别句子中目标词的所属框架。

根据上述方法本发明还提供一种汉语框架网标注时框架排歧的装置，包括：

训练语料选择模块，用于当应用汉语框架网标注待识别句子的框架信息时，选择训练语料，该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例，并且包括每个句子实例的框架语义信息；

依存句法分析模块，用于对所述句子实例进行依存句法分析，得到每个句子实例的依存句法关系；

标注模型生成模块，用于选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型，并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练，得到特定参数的标注模型；

待识别框架句子处理模块，用于对待识别句子进行分词、词性标注及依存句法分析，得到待识别句子的词法信息和依存句法关系；将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型，得到待识别句子中目标词的所属框架。

应用本发明实施例所提供的方法进行框架排歧时，首先，引入了句子的依存句法关系，由于语义上的歧义在许多情况下可以通过句法信息来区分，因此依存句法关系非常有利于框架排歧的处理。其次，运用了T-CRF模型。T-CRF模型可以与句子的依存句法关系结合，更加合理地利用句子的依存句法关系。

附图说明

图1为本发明实施例一种汉语框架网标注时框架排歧方法的流程图；

图2为现有技术中举例句子进行依存分析的结果示例图；

图3为本发明实施例中处理待识别的句子具体实现流程图；

图4为本发明实施例中得到合适标注模型的方法流程图；

图5为本发明实施例一种汉语框架网标注时框架排歧装置的结构图；

图6为本发明实施例中标注模型生成模块的结构图。

具体实施方式

本发明实施例提供一种语义消岐的方法，具体包括：选择训练语料，该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例，并且包括每个句子实例的框架语义信息；对所述句子实例进行依存句法分析，得到每个句子实例的依存句法关系；选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型，并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练，得到特定参数的标注模型；对待识别句子进行分词、词性标注及依存句法分析，得到待识别句子的词法信息和依存句法关系；将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型，得到待识别句子中目标词的所属框架。

如图1所示，本发明实施例提供一种汉语框架网标注汉语句子时框架排歧的方法，当应用汉语框架网标注待识别句子的框架信息时，具体实现方法包括步骤：

步骤101，选择训练语料。

本发明实施例所提供的方法运用了机器学习方法，因此需要训练语料来训练机器学习模型。

训练语料必须包含待识别句子中出现的所有目标词能够激起的所有框架的句子实例，并且包括每个句子实例的框架语义信息。

如，动词“是”一共可以激起两个框架：[等同]框架和[属性]框架。

因此，如果待识别句子中出现了“是”这个目标词，那么训练语料中必须得有“是”激起[等同]框架的实例，同时也得有“是”激起[属性]框架的实例。

训练语料可以选择经过汉语框架网标注的特定的语料来充当，也可以直接选择汉语框架网的句子库作为训练语料。其中选择汉语框架网的句子库作为训练语料更方便、更合理。因为汉语框架网的句子库有以下几个特点：规模大、语料有代表性、语言现象丰富、标注完整无误。

步骤102，对训练语料中的句子实例进行依存句法分析，得到每个句子实例的依存句法关系。

本发明方法需要运用句子的依存句法关系，因此需要对训练语料进行依存句法分析。依存句法分析一般通过运用现成的工具来实现。

图2则为句子“钱其琛表示同意斯卡尔法罗总统的看法”进行依存分析的结果示例图。

选择依存分析图中的特定依存关系是标注模型完成标注的主要依据。

步骤103，选择树结构条件随机场(T-CRF，tree-structured conditional randomfield)，模型作为框架排歧任务的标注模型。

条件随机场(CRF)是处理序列标注任务的最先进的方法。树结构条件随机场(T-CRF)是一种特殊的CRF模型，它能够对层次结构中的依存关系进行建模，句子的依存图即可用T-CRF来建模。

T-CRF的图形结构为一棵树，它主要包括三种结点关系：父-子，子-父，兄弟。本发明中仅考虑前两种关系，而忽略兄弟关系，因为在一个句子的依存句法树中，同一层次各结点之间的依存关系非常弱。

基上以上考虑，本发明中，T-CRF模型中各种概率分配如下：

p (y | x) = \frac{1}{Z (x)} \exp \underset{v &Element; V}{Σ} {F + G + S}

F = \underset{j}{Σ} λ_{j} f_{j} (v, y (v), x)

G = \underset{k}{Σ} μ_{k} g_{k} (v, y (v), x, v^{'}, y (v^{'}))

S = \underset{l}{Σ} σ_{l} s_{l} (v, y (v), x, v^{*}, y (v^{*}))

上面的F、G、S分别代表当前结点的特征、当前结点父结点的特征、当前结点子结点的特征。

T-CRF模型中的观察序列x对应于句子中的一个词，而标注序列y对应于这个词激起框架的框架名称。因此，如果一个词为句子中的目标词，对应的y为激起框架的名称，若不然，对应的y则为NULL。CRF模型的原理是使标注序列在观察序列上的条件概率最大。

步骤104，利用句子实例的词法信息、依存句法关系和框架语义信息进行T-CRF标注模型的训练，得到特定参数的标注模型。

步骤105，对待识别句子进行分词、词性标注及依存句法分析，得到待识别句子的词法信息和依存句法关系。

如图3所示，本步骤的实现步骤具体包括：

步骤301，针对待识别句子，进行分词、词性标注。

步骤302，针对待识别句子，进行依存句法分析，得到待识别句子的依存句法关系。

步骤106，将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型进行处理，得到句子中目标词的所属框架。

此步骤中的输入为待识别的句子中的词、词性和句子特定依存关系，与步骤104的输入相比，仅差“当前词所属框架”一列。“当前词所属框架”是标注模型的输出信息。

如图4所示，本发明实施例步骤104的具体实现，包括以下步骤：

步骤401，选择所述标注模型的训练特征，该训练特征用于确定在训练所述标注模型时，从句子实例的词法信息、依存句法关系和框架语义信息中提取的具体参数。

所述训练特征主要考虑两种类型，训练语料中的词性标注信息特征和依存句法关系特征：

训练语料中的词性标注信息包括：最基本的词、词性、词与词性的组合；

依存结构树(即依存句法关系)中的特征包括：当前词的父结点、当前词的子结点、结点间的关系，本发明中主要包括主谓关系(简称SBV)、动宾关系(简称VOB)、状中结构(简称ADV)、定中关系(简称ATT)。

步骤402，根据所述训练特征从所述训练语料各句子实例的词法信息、依存句法关系和框架语义信息中提取具体参数对所述标注模型进行训练，得到特定参数的标注模型；使该特定参数的标注模型根据待识别句子词法信息和依存句法确定框架语义信息。

本实施例所选择的训练特征包括：当前词、当前词词性、当前词父结点、当前词与父结点的依存关系、SBV子结点、VOB子结点、ADV子结点、ATT子结点、当前词所属框架。

如“钱其琛表示同意斯卡尔法罗总统的看法”作为训练语料时，最终得到本步骤的输入如表1所示，表中的每一列依次对应于所述选择的特征：

钱其琛

nh

表示

SBV

NULL

表示

v

NULL

HED

钱其琛

同意

NULL

表达

同意

v

表示

VOB

NULL

看法

NULL

斯卡尔法罗

nh

总统

ATT

NULL

总统

n

的

DE

NULL

斯卡尔法罗

NULL

的

u

看法

ATT

NULL

看法

n

同意

VOB

NULL

的

NULL

表1

这里选择第二行数据进行具体说明：“表示”为当前词；“表示”的词性为“v”(动词)；“表示”在句法依存图中没有父结点所以二维表的对应位置为NULL，HED为依存图中最顶结点与父结点的关系(无实际意思，仅指明最高层结点)；“表示”的SBV子结点为“钱其琛”；“表示”的VOB子结点为“同意”；“表示”的ADV子结点为NULL；“表示”的ATT子结点为NULL；在汉语框架标注中，“表示”激起的框架为“表达”。

经过训练语料对T-CRF模型的训练、模型参数的不断调节，便可以得到合适的标注模型，即特定参数的训练模型。

如图5所示，根据上述方法本发明实施例还提供一种汉语框架网标注时框架排歧的装置，包括训练语料选择模块501、依存句法分析模块502、标注模型生成模块503和待识别框架句子处理模块504：

训练语料选择模块501，用于选择训练语料，该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例，并且包括每个句子实例的框架语义信息；

依存句法分析模块502，用于对所述句子实例进行依存句法分析，得到每个句子实例的依存句法关系；

标注模型生成模块503，用于选择树结构条件随机场T-CRF模型作为框架排歧任务的标注模型，并利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练，得到特定参数的标注模型；

待识别句子处理模块504，用于对待识别句子进行分词、词性标注及依存句法分析，得到待识别句子的词法信息和依存句法关系；将待识别句子的词法信息和依存句法关系提交所述特定参数的标注模型，得到待识别句子中目标词的所属框架。

如图6所示，所述标注模型生成模块503包括训练特征选择单元601、训练单元602和输入数据生成单元603：

训练特征选择单元601，用于选择所述标注模型的训练特征，该训练特征用于确定在训练所述标注模型时，从句子实例的词法信息、依存句法关系和框架语义信息中提取的具体参数；

训练单元602，用于根据所述训练特征从所述训练语料各句子实例的词法信息、依存句法关系和框架语义信息中提取具体参数，对所述标注模型进行训练，得到特定参数的标注模型；使该特定参数的标注模型根据待识别句子词法信息和依存句法关系确定框架语义信息。

为了便于所述标注模型对输入数据的识别，所述标注模型生成模块还包括：

输入数据生成单元603，用于将选择的训练特征和具体参数设置为二维表格式作为所述标注模型的输入，其中，所述训练特征作为二维表的列，训练语料中的每个词都生成二维表的一行。

应用本申请所提供的方法和装置进行框架排歧时，首先，引入了句子的依存句法关系，由于语义上的歧义在许多情况下可以通过句法信息来区分，因此依存句法关系非常有利于框架排歧的处理。其次，运用了T-CRF模型。T-CRF模型可以与句子的依存句法关系结合，更加合理地利用句子的依存句法关系。并且本发明所提供的方法经过实验证实，可使多义词元的框架识别的准确率达近85％。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其它的实施方式，同样属于本发明的技术创新范围。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种汉语框架网标注汉语句子时框架排歧的方法，其特征在于，包括：

当应用汉语框架网标注待识别句子的框架信息时，选择训练语料，该训练语料包含待识别句子中出现的目标词激起的所有框架的句子实例，并且包括每个句子实例的框架语义信息；

2.如权利要求1所述的方法，其特征在于，所述训练语料为经过汉语框架网标注的语料。

3.如权利要求1所述的方法，其特征在于，利用所述句子实例的词法信息、依存句法关系和框架语义信息进行标注模型的训练，得到特定参数的标注模型，包括：

选择所述标注模型的训练特征，该训练特征用于确定在训练所述标注模型时，从句子实例的词法信息、依存句法关系和框架语义信息中提取的具体参数；

根据所述训练特征从所述训练语料各句子实例的词法信息、依存句法关系和框架语义信息中提取具体参数对所述标注模型进行训练，得到特定参数的标注模型；使该特定参数的标注模型根据待识别句子词法信息和依存句法关系确定框架语义信息。

4.如权利要求3所述的方法，其特征在于，利用所述训练语料的词法信息、依存句法关系和框架语义信息训练所述标注模型之前，还进一步包括：

根据选择的特征从训练语料中提取词法信息、依存句法关系和框架语义信息的具体参数，并将选择的训练特征和提取的具体参数设置为二维表格式作为所述标注模型的输入，其中，所选择的特征作为二维表的列，训练语料中的每个词都生成二维表的一行。

5.如权利要求3或4所述的方法，其特征在于，所述训练特征包括：当前词、当前词词性、当前词父结点、当前词与父结点的依存关系、主谓关系SBV子结点、动宾关系VOB子结点、状中结构ADV子结点、定中关系ATT子结点、当前词所属框架。

6.一种汉语框架网标注汉语句子时框架排歧的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述标注模型生成模块包括：

训练特征选择单元，用于选择所述标注模型的训练特征，该训练特征用于确定在训练所述标注模型时，从句子实例的词法信息、依存句法关系和框架语义信息中提取的具体参数；

训练单元，用于根据所述训练特征从所述训练语料各句子实例的词法信息、依存句法关系和框架语义信息中提取具体参数，对所述标注模型进行训练，得到特定参数的标注模型；使该特定参数的标注模型根据待识别句子词法信息和依存句法关系确定框架语义信息。

8.如权利要求7所述的装置，其特征在于，所述标注模型生成模块还包括：

输入数据生成单元，用于将选择的训练特征和具体参数设置为二维表格式作为所述标注模型的输入，其中，所述训练特征作为二维表的列，训练语料中的每个词都生成二维表的一行。