CN105446956B

CN105446956B - 一种汉语概念复合块标注库规范化处理方法

Info

Publication number: CN105446956B
Application number: CN201510863734.7A
Authority: CN
Inventors: 吕学强; 周强; 苗琳; 董志安
Original assignee: Tsinghua University; Beijing Information Science and Technology University
Current assignee: Tsinghua University; Beijing Information Science and Technology University
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2018-08-28
Anticipated expiration: 2035-12-02
Also published as: CN105446956A

Abstract

本发明涉及一种汉语概念复合块标注库规范化处理方法，包括：自动调整错误词类标记；自动补充事件句式内部特征标记；时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法，能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理，解决了概念复合块标注不一致，不准确的问题，最终提高了标注的准确率，获得了很好的效果，进一步提高语料库的准确性，可以很好地满足实际应用的需要。

Description

一种汉语概念复合块标注库规范化处理方法

技术领域

本发明属于计算机科学与自然语言处理的句法分析技术领域，具体涉及一种汉语概念复合块标注库规范化处理方法。

背景技术

自然语言是人类交流的主要方式，其不同于如编程语言等为计算机而设的“人造”语言。随着计算机和互联网的广泛应用，计算机需要处理的自然语言文本内容迅速膨胀，面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长，自然语言处理研究受到广泛关注。

句法分析是自然语言理解的一个核心组成部分，是对自然语言进行深层分析的基础技术。句法分析根据一定的语法规则，自动地识别出句子的语法结构及语法关系，将一个线性序列的句子转换成一个结构化的语法树。随着自然语言处理技术应用的日益广泛，句法分析的作用愈加突出，它几乎成为众多自然语言处理应用的关键技术，如机器翻译、信息抽取、问答系统、检索系统等。句法标注则是对语料库中的语料文本进行句法分析和标注，以形成树库语料。目前语料标注的研究成为计算语言学领域的一个重要的研究方向。现在，很多人的研究集中在标注语料资源的开发和构建标准的语料库标注体系上，例如，清华大学TCT语料库在语料标注上采用双标注集的原则，并提出汉语概念复合块，来描述复杂句的句法信息。

TCT语料库采用完整的树形层次结构描述框架，采用双标注集原则，对每个句法树上的非终结结点给出成分标记和关系标记，以尽可能多而详尽地描述汉语句子蕴含的复杂、多变、有组合特性的句法信息。此外，在句法信息描述方面，提出了概念复合块(ConceptCompound Chunk，CCC)这一概念，来中和词语层和小句层的距离。

概念复合块是由2个或2个以上的词语按照一定的关联关系组合形成的信息描述单位。在经过词语切分和词性标注处理之后，通过句法分析，把句子中不同实意词和功能词组合形成的概念复合块标注出来。并通过确定这些CCC的外部成分和内部关系标记，形成了大规模的汉语真实文本概念复合块标注库CCC Bank。

然而目前的标注过程中仍有以下问题：

(1)由于目前标注工具的限制，对一些在标注过程中发现的词类标注错误，无法进行手工调整，只是在相应的CCC成分标记上有所体现。

(2)为了保证概念复合块描述体系的完整性，需要对CCC块中嵌套的事件句式添加内部特征标记。在现有标注版本中，对这些有明显特征的子类标记进行了缺省处理，以提高人工校对效率。

(3)在语料库标注工作中，由于多人多轮校对流程的限制，且不同校对者认识上有差异，导致对时间块和空间块标注不一致的情况。

语料标注是一个庞大的工程，需要消耗大量的人力、物力，且标注质量不一定能够达到人们的要求，尤其是复杂句，较简单句而言，结构复杂，逻辑层次多，并列成分多，因此当前汉语语料库标注块的正确率和规范性还远远不够，不能满足需求。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的汉语概念复合块标注库规范化处理方法。

为了实现上述发明目的，本发明采用的技术方案如下：

一种汉语概念复合块标注库规范化处理方法，包括：自动调整错误词类标记；自动补充事件句式内部特征标记；时间块和空间块标记一致化处理。

进一步地，所述自动调整错误词类标记的过程包括以下四个步骤：

步骤1)对CCC块构建句法二叉树，将句子以二叉树结构表示；

步骤2)搜索所述句法二叉树，确定核心词位置；

步骤3)确定所述核心词的词类；

步骤4)判断所述核心词的词类的标记的正误，纠正错误标记。

进一步地，所述自动补充事件句式内部特征标记的过程包括以下三个步骤：

步骤A：对CCC块构建句法二叉树，将句子以二叉树结构表示；

步骤B：遍历所述句法二叉树，判断该事件句式的结构，确定其内部特征标记类型；

步骤C：对符合条件的CCC块自动添加相应的内部特征标记。

进一步地，所述时间块和空间块标记一致化处理的过程包括以下三个步骤：

步骤一：对CCC块构建句法二叉树，将句子以二叉树结构表示；

步骤二：遍历所述句法二叉树，判断时间块标记类型和空间块标记类型的正误；

步骤三：纠正错误的标记类型。

进一步地，所述步骤4)中纠正错误标记的算法为：先将需处理语料中的CCC块抽出，对每个CCC块构建二叉树，由关系标记定位到实义核心词，再由CCC成分标记判定实义核心词词类标记是否正确，对错误的标记进行相应的纠正。

进一步地，所述步骤2)搜索所述句法二叉树，确定核心词位置所依据的搜索规则如下表所示：

。

进一步地，所述步骤3)确定所述核心词的词类所依据的实义核心词词类标记与概念复合块成分标记之间的映射关系表如下表所示：

。

本发明提供的汉语概念复合块标注库规范化处理方法，能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理，可以进一步提高汉语语料库标注块的正确率和规范性，从而保证和提高了语料库的加工质量；解决了概念复合块标注不一致，不准确的问题，最终提高了标注的准确率，获得了很好的效果，进一步提高语料库的准确性，可以很好地满足实际应用的需要。

附图说明

图1为本发明提供的汉语概念复合块标注库规范化处理方法的框图；

图2为一个句子句法二叉树的表现形式示意图；

图3为示例一的句子的句法二叉树示意图；

图4为示例二的句子的句法二叉树示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种汉语概念复合块标注库规范化处理方法，包括：自动调整错误词类标记；自动补充事件句式内部特征标记；时间块和空间块标记一致化处理。CCC块采用二叉树结构表示(CCC为Concept Compound Chunk的缩写，即概念复合块)。在本发明中，提取CCC标注库中的CCC标注实例，对各CCC块分别构建句法二叉树。遍历二叉树，分析提取实例，对CCC块进行规范化处理。

所述自动调整错误词类标记的过程包括以下四个步骤：

步骤1)对CCC块构建句法二叉树，将句子以二叉树结构表示；

步骤2)搜索所述句法二叉树，确定核心词位置；

其中：

在CCC的词法分析阶段存在一些核心词的词类标记错误，在经过自动标注和人工校对工作后得到成分标记和关系标记准确的CCC标注块，产生了CCC块核心词词类标记与CCC成分标记或关系标记不一致的问题。本发明中，利用准确的CCC成分标记和关系标记，纠正核心词的词类标记错误，以达到词类属性的一致性。词类标记调整方法是，先利用CCC的关系标记，确定核心词的位置，再根据CCC的成分标记与核心词词类标记的映射关系，判断核心词词类标记正误，对错误的词类标记进行纠正。

对于CCC块核心词的位置，主要根据其内部关系标记的语义核心(Head)来确定。表1列出概念复合块所用的主要成分标记和关系标记集合。

表1：概念复合块的成分标记和关系标记描述

在CCC块中，概念复合块的语义主要落实在核心词上。块内的其他成分或者直接依存于该核心，起修饰和补充描述作用，成为概念复合块的附加体(Adjunct)；或者与该核心不发生依存联系，直接体现出不同的句法功能，成为概念复合块的内部附加功能成分(Functional Constitution)；或者是并列关系的核心词。

本发明选择构建句法二叉树的方法，将句子以二叉树结构表示。图2展示了一个句子句法二叉树的表现形式。

表2列出了CCC块基于关系标记通过对句法二叉树查找确定CCC块核心词的搜索规则。

表2：CCC核心词搜索规则

由此，可以很快确定CCC块中的核心词。

步骤3)确定所述核心词的词类；

按照汉语概念复合块标注规范，通过概念复合块成分标记与实义核心词词类标记之间的映射关系确定该核心词相应的词类标记。

表3列出了目前常用的实义词词类标记与CCC成分标记之间的映射关系。

表3：实义核心词词类标记与概念复合块成分标记之间的映射关系表

由CCC块成分标记确定核心词的词类后，即可对错误的词类标记进行纠正。

步骤4)判断所述核心词的词类的标记的正误，纠正错误标记；

错误词类标记自动纠正的算法即为：先将需处理语料中的CCC块抽出，对每个CCC块构建二叉树，由关系标记定位到实义核心词，再由CCC成分标记判定实义核心词词类标记是否正确，对错误的标记进行相应的纠正。

下面，通过一些具体实例对词类标记的纠正算法做更进一步的解释说明：

示例一：[np-AH 记录/nS 工作/v]

如图3所示为该句的句法二叉树。按照关系标记AH，搜索右孩子节点，定位到核心词“工作/v”。其中CCC块的成分标记为np，所以该CCC块为名词块，则该CCC块的核心词词类应该为名词，即词类标记为/n，/rN，/vN，/iN，/rNP。按照该块的成分标记，“工作”的词性应当为名词，则纠正错误标记为“工作/vN”。

示例二：[np-HA 能力/n 强/a]

其句法二叉树如图4所示。因关系标记HA，搜索左孩子节点，得到核心词“能力/n”，又因其CCC块的成分标记为np，则该词性标记正确无误。

在概念复合块标注过程中，需要对CCC块中嵌套的各种事件句式(EventConstruction，EC)结构，增加合适的内部特殊标记进行显示标注，便于进行后续的分类分析处理。

在CCC标注过程中，由于事件句式(EC)内部特征标记特征明显，易自动处理，为提高人工校对效率，将CCC中事件句式内部特征标记进行了缺省处理。考虑到这些特征标记在事件描述小句(Event Description Clause，EDC)内容分析中的重要作用，并为了最终能生成一致化的CCC标注结果，需要将这些缺省的信息进行自动补全处理。本发明中，按照事件句式内部特征标记的特征，制定适合的规则，对EC内部特征标记进行全自动的补充。

所述自动补充事件句式内部特征标记的过程包括以下三个步骤：

步骤A：对CCC块构建句法二叉树，将句子以二叉树结构表示；

目前，事件句式结构与相应的事件句式内部特征标记有如下几类：

EC22：包含结构助词‘的’，中心语为体词块的定语从句变形句式，其中的定语部分主要包括以下成分结构：

单个动词、动词块vp、单句块dj，此时上次标记组合为：v|vp|dj|uJDE np；

更为复杂的复句fj和引句yj成分等，此时需处理为“mec uJDE np”结构；

EC23：修饰主体省略的定语从句变形句式，即省略主体的‘的’字结构，其中的定语部分结构基本类似上面的EC22；

EC24：定语从句中的定语由名词块或介词块充当，大多受处于中心语位置的谓词直接支配。

由以上描述，可以抽象出EC结构与其内部特征标记的映射如表4所示：

表4：EC结构与其内部特征标记映射表

本发明中，为确定事件句式的内部特征标记，先对CCC块构建句法二叉树，通过遍历句法二叉树，判断该事件句式的结构，从而确定其内部特征标记。表5列出了EC结构其句法二叉树的特点以及与其对应的内部特征标记。遍历句法二叉树，由二叉树的结构特点即可确定其内部特征标记。

表5：EC结构及其句法二叉树特点

步骤C：对符合条件的CCC块自动添加相应的内部特征标记；

确定了事件句式的内部特征标记后，对符合条件的CCC块自动添加相应的内部特征标记。

下面，通过具体实例对事件句式内部特征标记的自动补充和完善进一步的解释说明：

1)[np-AH[np-CO 既定/v 的/uJDE][np-AH 预期/vN[np-AH 行为/n 方式/n]]]

该定语从句，定语部分为单个动词v，中心语为名词块np，由其句法结构可判定其内部特征标记为EC22，则应添加标记EC22。

2)但/c 也/d 有/v[np-CO[vp-PO 呈/v[np-AH 东西/n 走向/n]]的/uJDE]

该句为主体省略的定语从句，则其内部特征标记为EC23，应添加标记EC23。

3)也/d 关系/v 到/v[np-AH[np-CO 社会/n 的/uJDE]稳定/a]

该从句中，定语由名词块np充当，中心语是单个形容词，其内部特征标记为EC24，应添加标记EC24。

汉语句子中方位词的基本功能是控制左边的补足语成分，形成一个方位短语块，主要描述事件发生的时空信息。汉语句子中时间表示词“时”的基本功能是控制左边的补足语成分形成一个时间块tp-CO，主要描述事件发生的时点或时段信息。通常，方位词控制块和时间表示词控制块需要通过其反映的时空信息的不同，分别选择成分标记tp(时间块)或sp(空间块)来标注。

当概念复合块中包含方位词时，由于方位词既可以用来描述事件发生的时间信息又可以描述事件的空间信息。在人工标注过程中，标注人员认识上的差异，会造成对时间或空间信息的判断差异，从而导致时间块和空间块的标注不一致。另外，当概念复合块中包含方位词或者时间词时，不同标注人员对块结构的分析不同，易忽视核心词，造成块的成分标记或关系标记不一致。

本发明从语言学角度分析，根据制定的具体规则，按照规则设计算法，对时间块和空间块的标注在语法层面进行标记的一致化处理。

所述时间块和空间块标记一致化处理的过程包括以下三个步骤：

步骤三：纠正错误的标记类型。具体地：

若CCC块中包含时间词，即词类标记为/t或者/nT的为时间块tp。对于实义核心词或时间块tp为核心词的，分析其与左右相邻实义词或者CCC之间的句法语义组合关系，确定概念复合块的内部关系为Head-Adjunct，从而形成tp-AH或者tp-HA。对于功能词核心，分析其控制的补足语的边界位置，并通过分析不同功能词的分布特点，从而形成tp-CO或者tp-OC。特别地，当CCC块结构为动词/v或动词块vp加方位词/f，或者单句块dj加方位词/f时，由于v，vp，dj成分描述的是一个动作发生的过程，相当于描述的是动作进行的时间信息，应当确定为时间块，并标注为tp-CO。

然而，当CCC中包含时间词时，有时会忽略核心词，将该块标注为时间块tp。此时，应正确判断核心词，并选择准确CCC成分标记。

CCC块中包含方位词时，判断方位词所描述的是时间信息还是空间信息，来确定成分标记。通常，CCC中包含表示动作的词或者词类标记为/nT的时间名词时，该块中方位词描述的是时间信息，其成分标记应判定为tp。特别的，当CCC块中包含数量词或者表明数量信息的块mp时，块中方位词描述的是空间信息，其成分标记应判定为sp。

以下实例为时间块和空间块常出现的几种标注差异：

1)[tp-CO 2000/m 南方/f]

该CCC块很明显应该是一个空间块sp。

2)[sp-CO 审美/v 上/f]

该CCC块，在语义上是表示时间，其CCC标记应该为tp-CO。

3)[sp-CO 一生/nT 中/f]

该CCC块核心词为“一生/nT”，其CCC标记应该为tp-CO。

4)[sp-CO[dj-CH-EC1[np-AH 这/rN 场/qV]挑战/v]中/f]

该CCC块中由于dj的成分描述的是一个事件的过程，则应该标记为时间块tp-CO。

5)[tp-CO 1990年/t 时/nT]

该CCC块的核心词为“时/nT”，因此，关系标记应为AH，即该CCC块应该标注为tp-AH。

6)[tp-CO 千年/t 盛典/n]

该CCC块的核心词为实义词“盛典/n”，因此，应该标记为np-AH。

7)[sp-CO 东部/f 地区/n]

该CCC块的核心词为实义词“地区/n”，其CCC标记应该为np-AH。

由以上分析，可以抽象出时间块和空间块标记的规则，表6列出了时间块和空间块的结构与其块标记的映射关系。

表6：时间块和空间块结构与其块标记映射表

对CCC块构建句法二叉树，遍历二叉树，根据上述方法判定CCC块标记，并自动调整块标记。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种汉语概念复合块标注库规范化处理方法，其特征在于，包括：自动调整错误词类标记；自动补充事件句式内部特征标记；时间块和空间块标记一致化处理；

所述自动调整错误词类标记的过程包括以下四个步骤：

步骤1)对CCC块构建句法二叉树，将句子以二叉树结构表示；

步骤2)搜索所述句法二叉树，确定核心词位置；

步骤3)确定所述核心词的词类；

步骤A：对CCC块构建句法二叉树，将句子以二叉树结构表示；

步骤C：对符合条件的CCC块自动添加相应的内部特征标记；

步骤三：纠正错误的标记类型。

2.根据权利要求1所述的汉语概念复合块标注库规范化处理方法，其特征在于，所述步骤4)中纠正错误标记的算法为：先将需处理语料中的CCC块抽出，对每个CCC块构建二叉树，由关系标记定位到实义核心词，再由CCC成分标记判定实义核心词词类标记是否正确，对错误的标记进行相应的纠正。

3.根据权利要求1或2所述的汉语概念复合块标注库规范化处理方法，其特征在于，所述步骤2)搜索所述句法二叉树，确定核心词位置所依据的搜索规则如下表所示：

。

4.根据权利要求1或2所述的汉语概念复合块标注库规范化处理方法，其特征在于，所述步骤3)确定所述核心词的词类所依据的实义核心词词类标记与概念复合块成分标记之间的映射关系表如下表所示：

。