CN105528340B

CN105528340B - 一种多动词汉语概念复合块的动词层次分类的方法

Info

Publication number: CN105528340B
Application number: CN201510863564.2A
Authority: CN
Inventors: 吕学强; 周强; 董志安; 仵永栩
Original assignee: Tsinghua University; Beijing Information Science and Technology University
Current assignee: Tsinghua University; Beijing Information Science and Technology University
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2018-12-21
Anticipated expiration: 2035-12-02
Also published as: CN105528340A

Abstract

本发明涉及一种多动词汉语概念复合块的动词层次分类的方法，包括以下步骤：步骤1)对汉语句子进行词语切分和词性标记；步骤2)将所述句子分割为小句；步骤3)将所述小句中的多个动词进行层次划分；步骤4)将动词分为两类；步骤5)利用改进的CCC分析器对动词进行分析；步骤6)针对多动词的小句进行分析直到队列元素为空。本发明可以减少因动词的层次分析错误而导致的句子整体层次错误，从而提高组块分析的准确性，为后续进行复杂句的句法语义分析打下了很好的基础，可以很好地满足实际应用的需要。

Description

一种多动词汉语概念复合块的动词层次分类的方法

技术领域

本发明属于中文信息处理技术领域，具体涉及一种多动词汉语概念复合块的动词层次分类的方法。

背景技术

句法分析是自然语言深层次处理的关键问题，目前汉语句子的完全句法分析仍处于初级阶段，作为完全句法分析的中间步骤而提出的组块分析成为了现阶段的研究重点。

汉语块的研究经历了一个逐步发展的过程，起初侧重于对基本名词、介词短语等的研究。随着语料库的发展，研究者们提出了各自不同的块描述体系。现阶段的分析与研究只关注句子中相对较简单、功能相对重要的成分，作为词法分析与完全句法分析的一个中间步骤，对于汉语句子中的多动词句子，并列句式以及定语从句，同样需要加以考虑。汉语句子由充当主语、谓语、宾语、状语、补语等成分的内容构成。多动词句子是指在一个汉语描述句子中，包含的动词个数不少于两个，对于结构和句式简单的句子，现有的组块分析器的功能已经可以相对准确的分析出不同成分的词与词之间的关系。但是句子较长，句式结构复杂，包含内容丰富的汉语句子，现阶段的块分析器对其处理效果并不理想。而在汉语句子中，包含两个及两个以上动词的句子占了较大比重，对其进行更深层次的分析与处理已成为句法分析处理的关键。

概念复合块是众多组块描述体系中的一种，在对其研究与分析的基础上发现，现阶段的针对概念复合块的组块分析器在对包含多个动词的句子进行分析处理时，其错误主要存在于各个成分间的边界识别不准确，如原属于主语部分的词语被划分到谓语或状语成分中，原属于宾语的内容被划分到谓语部分等，由于这类情况的存在导致了层次分析错误。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的多动词汉语概念复合块的动词层次分类的方法。

为了实现上述发明目的，本发明采用的技术方案如下：

一种多动词汉语概念复合块的动词层次分类的方法，包括以下步骤：

步骤1)对汉语句子进行词语切分和词性标记；

步骤2)以标点为分割，将所述句子分割为小句；

步骤3)以所述小句为单位，根据动词及词类间的特征，将所述小句中的多个动词进行层次划分；

步骤4)确定所述小句中的动词是处于同一层次还是不同层次，从而将动词分为处于同一层次和处于不同层次的两类动词；

步骤5)利用改进的CCC分析器对动词进行分析；

步骤6)针对多动词的小句进行分析直到队列元素为空为止。

进一步地，所述步骤2)中的标点为句号、问号和感叹号。

进一步地，所述小句的定义为：在一个包含句号、问号、感叹号等结点符号的汉语句子中，由其内部的各个非结点标点符号隔开的句子。

进一步地，所述同一层次的定义为：一个包含多动词的句子中，若动词出现在同一个成分块中，则认为这些动词处于同一层次。

进一步地，所述不同层次的定义为：一个包含多动词的句子中，若各个动词处于不同的成分块中，则认为各个动词属于不同层次。

进一步地，所述改进的CCC分析器以基本的“移进-归约”模型为实现概念复合块的分析器的基础，并将针对于多动词的分析处理模块结合起来形成的。

本发明提供的多动词汉语概念复合块的动词层次分类的方法，可以减少因动词的层次分析错误而导致的句子整体层次错误，从而提高组块分析的准确性，为后续进行复杂句的句法语义分析打下了很好的基础，可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图；

图2为例句的拓扑结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种多动词汉语概念复合块的动词层次分类的方法，包括以下步骤：

步骤1)对汉语句子进行词语切分和词性标记；

步骤2)以标点为分割，将所述句子分割为小句；

步骤5)利用改进的CCC分析器对动词进行分析；

步骤6)针对多动词的小句进行分析直到队列元素为空为止。

具体地：

概念复合块(Concept Compound Chunk，CCC)是由2个或两个以上的词语按照一定的关联关系组合形成的信息描述单位。CCC的自动分析过程为，输入已经过词语切分和词性标注的句子，目标是自动分析出其中的不同实义词和功能词组合形成的概念复合块。CCC的定义与已有的组块分析有较大的区别，每个CCC由成分和关系标记描述其外部句法功能和内部组合关系，将句子切分成可以充当主、谓、宾语等成分，同时对块的内部给出完整的组织结构，并以二叉树的形式表示。针对以下的原始句子：中国是多民族国家，中华民族是50多个民族的总称。

按照CCC描述体系，该句子被标注为：

◆中国/nS 是/v[np-AH[np-AH 多/a 民族/n]国家/n]，/wP[np-AH 中华/nR 民族/n]是/v[np-AH[np-CO[np-AH[mp-AH[mbar-XX 50/m 多/m]个/qN]民族/n]的/uJDE]总称/n]。/wE

每个CCC由成分和关系类型标记描述其外部句法功能和内部组合关系，为简化描述，采用二叉结构树标注。CCC的最外层的边界划分将句子分割成可以充当主、谓、宾语成分，同时对块内部的结构进行了完整表示，上述例句的拓扑结构如图2所示。

多动词汉语概念复合块是指句子中包含的动词个数大于1个，其构成规则与一般的句子也有所不同。例如原始句子：从而遭到来自多方面的抨击。

按照CCC描述体系，该句子应标注为：

◆从而/c 遭到/v[np-AH[np-CO[vp-HC来自/v[np-AH 多/m 方面/n]]的/uJDE]抨击/vN]。/wE

按照CCC描述体系，动词间的组合关系可分为如下几类：

类别1：动词+宾语：典型的谓宾结构句式，如“我/rNP是/v[np-AH 中国/nS 人/n]。/wE”

类别2：名词+动词：构成意思表达完整的句子或小句内容，如“全面/aD贯彻/v[np-AH-EC22[np-CO[dj-CH 会议/n 提出/v]的/uJDE][np-AH 各项/rN 任务/n]]”

类别3：动词+动词/形容词：构成典型的述结式，述趋式，表达一个动作的结果或者一个动作的趋向性，如“不/dN是/v因为/c[np-AH[np-CO 我/rNP 的/uJDE]心/n][vp-DJ变/v 软/a]了/y。/wE”、“[vp-HA涉及/v 到/v][np-AH 许多/m 方面/n]”

类别4：动词+宾语+动词+宾语：构成动宾动宾式连续结构，如兼语动词或者连谓表达形式，由两个动词共同形成动作或者动作发生的顺序。如“[vp-LW[vp-HC 动用/v[np-AH[np-AH 省长/n 基金/n][mp-AH 200万/m 元/qN]]][vp-FH 以/c[vp-HC 解决/v[np-AH[np-CO[np-AH 该/r 项目/n]的/uJDE]急需/vN]]]]。/wE”、“[vp-HC使/v[np-AH 壮丽/a 青春/n][vp-AH 得以/vM 延续/v]]”以上四个类别涵盖了单个或多个动词的构成规则。

在汉语句子中，标点符号对句子的表述起着附加说明以及间隔的作用，同样，在CCC组块分析中，以标点为分割，将句子分割为小句进行具体分析。

CCC的分析工作包括CCC边界界定和CCC的成分和关系标记类型识别。与通常的组块分析方法不同，概念复合块侧重于句子内部的详细信息，需给出块内部的完整结构，常见的其他类型的组块分析器不能满足对概念复合块的分析需求。与完全句法分析相比，概念复合块的分析更关注于局部语境，描述性更强，确定性更好，因而本发明以基本的“移进--归约(Shiff-Reduce，SR)”模型为实现概念复合块的分析器(SR CCC Parser)的基础，并将针对于多动词的分析处理模块结合起来，形成改进的CCC分析器(ISR CCC Parser)，称为Improve-Shift-Reduce，本发明简称ISR，该模型不但能适应概念复合块的局部语境组合分析特点，容易训练，且其包含了对复杂句中的多动词类型句子的分析处理模块，适应性更强，与全局寻优的算法相比，该组合方法分析速度快，更能适应汉语句子复杂应用中的分析需求。

SR CCC Parser在对包含多个动词的句子进行分析处理时，其错误主要存在于各个成分间的边界识别不准确，如原属于主语部分的词语被划分到谓语或状语成分中，原属于宾语的内容被划分到谓语部分等，并因此导致层次分析错误。在句子成分识别过程中，一个重要的特征就是小句的动词所处位置的确定，在包含多个动词的小句中，动词所处成分的位置确定成为了关键所在。如本发明第2节提到的原始句子：从而遭到来自多方面的抨击。

SR CCC Parser分析结果为：

◆从而/c 遭到/v 来自/v[np-AH[np-CO[np-AH 多/m 方面/n]的/uJDE]抨击/vN]。/wE

其中动词“遭到”是句子的谓语，“来自”是宾语的成分内容，现有的分析器分析结果，使得动词的所属层次产生了错误。

根据目前的汉语概念复合块标注库的规范，在对多动词小句进行分析时发现，包含多个动词的小句中，有的动词在同一层次上出现，有的动词在不同层次上出现。上文中提到的小句的概念定义如下：

定义1小句：在一个包含句号、问号、感叹号等结点符号的汉语句子中，由其内部的各个非结点标点符号隔开的句子，称为小句。

非结点符号如逗号、冒号、破折号、分号等内容。

由此句子的构成为Sen＝{clause₁，clause₂，…，clause_n}，其中Sen表示一个完整的汉语句子，n表示由非结点标点符号位分割而分隔开的小句数目。

动词的层次定义如下：

定义2同一层次：一个包含多动词的句子中，若动词出现在同一个成分块中，比如主语块、状语块、谓语块、宾语块等，那么则认为这些动词处于同一层次。

定义3不同层次：一个包含多动词的句子中，若各个动词处于不同的成分块中，比如包含两个动词A、B；其中，A存在于主语成分块内，而B存在于状语或者谓语中，则认为动词A、B属于不同层次。

对于不同的构成内容，由其内部成分及特点，形成同一层次或不同层次结构。

1)充当状语成分的块结构分析

在一个汉语句子中，介词(p)通常引导一个状语从句，通过状语成分内容的分析，将小句的动词层次进行划分。经过试验观察所知，有如下几种类型：

类型1：由介词引导，以方位词、时间词、空间词等结尾，构成p+*+f/s/t形式的类型

●在/p 可以/vM 接受/v 的/uJDE 波动/vN 幅度/n 和/cC 失业/vN 水平/n 等/uO 条件/n 下/f 得到/v 发展/v。/wE

此句中，介词引导的状语部分的动词“接受/v”与动词“得到/v”、“发展/v”处于不同的成分结构中，认为其处于不同层次。

类型2：由介词引导，结尾词不包含明显特征。可根据介词与右临词的词性进行判定，若右临词为动词词性，且介词左边包含动词，则认为是不同层次的结构，即*+v+*+p+v+*结构。若介词左边没有动词，且介词右临动词后续内容中包含结构p+v+*+n+v+*

●从/p 创造/v 财富/n 这/rN 一/m 根本/a 问题/n 入手/v

类型3：由动词与介词构成述结式结构

●用/v 于/p 国家机器/n 运转/v 的/uJDE 需要/vN。/wE

类型4：一些没有介词引导的时间块tp、空间块sp，以方位词或时间词结尾的结构

2)引导宾语从句的动词成分分析

宾语从句是名词性从句的一种。在主从复合句中充当宾语，位于及物动词、介词或复合谓语之后的从句称为宾语从句。宾语从句分为三类：动词的宾语从句，介词的宾语从句和形容词的宾语从句。在汉语树库中，宾语从句是句子中由一个启发性动词引导后续内容形成整个成分内容，通常这类词具有较强的特征分类性，比如：是、即、如、认为、说等词，是一个说明性或者启发性动词引导后续内容。因而在特征分类中，将该类词作为一个重要的分类特征。

相关实例如下示：

●中国/nS 古代/t 法/n 是/v 民/n 刑/n 不/dN 分/v。/wE

●如/v 著/v 《/wLB 温热论/nR》/wRB 的/uJDE 叶天士/nP

由实例可以看出，该类动词与后续动词成分处于不同的结构层次中。通过对已标注的内容进行分析，对可以引导宾语从句的动词进行统计并建立“宾从--动词引导词库”，在分类时，根据词库中的动词来对句子的分类做出评判。

3)定语从句的动词成分分析

在不包含上述特征的基础上，对包含从句信息的定语从句结构进行判定。一般的汉语句子中，存在的从句类型有状从、宾从、定从三种类型。将以上两个类型以进行分析，对于不符合以上特征的句子，先对其中的定语从句筛选出来，筛选规则即根据从句标记“的”、“之”。对从句标记左右的动词排列结构进行统计分析，分为如下几个类型：

类型1：*+v+的+*

类型2：*+v+的+v+*

类型3：*+的+v+*

类型4：*v+的，即以“的”结尾的句子

4)其他动词结构分析

不包含上述特征且动词个数为2个的小句中，有如下类别：

类别1：动词连续出现

A.若其中某一个动词属于趋向动词，则认为该句动词处于同一层次。

B.若不属于趋向动词，则判断第二个动词是否与第一个动词构成vp-DJ句式(其中vp-DJ第二项动词从以往标注库中进行抽取获得)，若构成上述形式，则认为属于同一层次。

类别2：动词不连续出现，则根据构建的vp-LW库中的动词对动词进行判定；另外根据已知的明显的“使、让、为”等特征，利用现有的兼语动词表对构成的事件句式进行统计。

实际操作过程中的分析处理过程的输入包含两个：1、只经过词语切分和词性标记的词语序列。2、该句子中包含的动词序列。通过特征的逐层分析处理，最终输出结果是对该句子中动词所属层次的一个划分结果。

例如输入汉语句子：在/p 可以/vM 接受/v 的/uJDE 波动/vN 幅度/n 和/cC 失业/vN 水平/n 等/uO 条件/n 下/f 得到/v 发展/v。/wE

其输入为该语句内容以及动词序列List＝{接受，得到，发展}，对该句子的特征进行分析后，其动词的层次分类结果为：

同一层次动词集合Sam＝{得到#发展}

不同层次的动词集合Dif＝{接受#得到，接受#发展}

由此可知，动词“得到/v”和“发展/v”处于同一成分中，而动词“接受/v”则与其处于不同层次，通过这种所属关系，对组块分析中块边界的确定提供分析依据。

ISR CCC Parser分析过程采用的数据结构为一个栈(S)和一个队列(Q)，输入的<词，词性标记>对按照顺序存储于队列中，栈中存放分析过程中产生的部分句法分析树。动词的分类关系存储于两个哈希表结构中，第一个表HS1中存储的是同一层次的动词内容，其中同一层次的两个动词对以“#”号为分割存放。第二个表HS2中存储的是不同层次的动词内容，动词对同样以“#”号为分割。若动词分类器无法对当前句子中的动词关系进行分类时，HS1和HS2均为空。

利用支持向量机(Support Vector Machine，SVM)对当前的状态做出动作决策时，分为两条处理子流程，将输入的带有词性标记的词序列分别输入到两条子流程中，其中流程1是动词分类器部分，输出为两个哈希表HS1和HS2。流程2是组块分析流程，在分析的过程中，对节点中的动词内容进行分析，确定其是否属于同一层次或不同层次内容。比如，有两个包含动词的节点，分类器的动作为“Reduce：vp-AH”，此时根据HS1和HS2中内容判定两个节点中的动词的层次关系，若为同一层次，则将两个节点归约为一个以右孩子为语义核心的vp块；若为不同层次，则不进行归约操作。

针对多动词的句子的分析过程将持续到队列元素为空，栈中元素无进一步归约操作，且其中属于同一层次或不同层次的内容已正确组合。此时，分析结果用句法二叉树表示时是一个森林，且各个成分内的动词属于同一层次，成分间动词属于不同层次结构。

在概念复合块(Concept Compound Chunk，CCC)的分析处理过程中，特征的选择对分类器分析的准确度起着至关重要的作用^[10]，CCC的每一步分析产生的每一个动作称为一个事件，由栈和队列中的节点信息来表示该事件的特征集合。根据当前动作决策的各种影响因素，可选择的特征如下：(1)当前词及其词性；(2)CCC的核心词及其词性标记；(3)CCC块标记及其关系标记；(4)分类器的上一步动作决策，即移进或归约；(5)CCC内部成分信息；(6)前一个词及其词性；(7)后一个词及其词性。

已有的句法分析与组块分析方法在搜索组块的核心词时，通常采用规则的方式，而ISR CCC Parser根据CCC关系标记精确搜索每个块的核心词节点，采取自顶向下的分析处理策略，分析到叶子节点时返回，即可得到CCC的核心词节点内容，表1列出了本发明方法对于不同CCC类型的核心词搜索策略。

表1 CCC核心词搜索规则

在对当前的状态做预测时，利用当前词的上下文内容作为其特征，设Si为栈(S)中的第i个节点，Qi为队列(Q)中的第i个节点，采用的特征模板如表2所示。

表2 ISR CCC Parser特征模板

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种多动词汉语概念复合块的动词层次分类的方法，其特征在于，包括以下步骤：

步骤1)对汉语句子进行词语切分和词性标记；

步骤2)以标点为分割，将所述句子分割为小句；

步骤5)以基本的“移进--归约”模型为实现概念复合块的分析器的基础，并将针对于多动词的分析处理模块结合起来，形成改进的CCC分析器；利用改进的CCC分析器对动词进行分析；

步骤6)针对多动词的小句进行分析直到队列元素为空为止。

2.根据权利要求1所述的多动词汉语概念复合块的动词层次分类的方法，其特征在于，所述步骤2)中的标点为句号、问号和感叹号。

3.根据权利要求1所述的多动词汉语概念复合块的动词层次分类的方法，其特征在于，所述小句的定义为：在一个包含句号、问号、感叹号结点符号的汉语句子中，由其内部的各个非结点标点符号隔开的句子。

4.根据权利要求2所述的多动词汉语概念复合块的动词层次分类的方法，其特征在于，所述同一层次的定义为：一个包含多动词的句子中，若动词出现在同一个成分块中，则认为这些动词处于同一层次。

5.根据权利要求3所述的多动词汉语概念复合块的动词层次分类的方法，其特征在于，所述不同层次的定义为：一个包含多动词的句子中，若各个动词处于不同的成分块中，则认为各个动词属于不同层次。