CN101201819A

CN101201819A - 一种树库转化方法及树库转化系统

Info

Publication number: CN101201819A
Application number: CN 200710178308
Authority: CN
Inventors: 李正华; 高立琦; 刘挺; 王海洲
Original assignee: Harbin Institute of Technology; Beijing Kingsoft Software Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Harbin Institute of Technology; Beijing Kingsoft Software Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2007-11-28
Filing date: 2007-11-28
Publication date: 2008-06-18
Anticipated expiration: 2027-11-28
Also published as: CN101201819B

Abstract

本发明公开一种树库的转化方法，包括：将PennChineseTreebank短语结构转化为依存结构；将PennChineseTreebank词性标注集转化为863词性标注集；利用HIT－IR－CDT的句法分析器对PennChineseTreebank中的扁平短语结构分析依存关系；利用预先建立的HIT－IR－CDT树库训练依存关系映射模型，对PennChineseTreebank进行依存关系转化，形成转化后的依存结构树。本发明还公开一种树库转化系统。本发明提供一种树库的转化方法及系统，使得转化后的树库能与原有的HIT－IR－CDT合并，增大树库规模，提高句法分析器的性能。

Description

一种树库转化方法及树库转化系统

技术领域

本发明涉及树库转化，尤指一种汉语短语结构树库的转化方法及系统。

背景技术

句法分析是自然语言处理领域非常重要的研究方向。在基于统计的句法分析方法中，根据所使用的语料不同，可以分为有指导的方法和无指导的方法。有指导的方法需要事先按照一定的语法规范，人工标注好一些句子作为训练数据，然后通过各种概率统计方法或机器学习方法，从训练数据中获取句法分析所需要的知识。无指导的方法则使用没有经过标注的数据进行训练，按照一定的机制，从中自动学习语法规律。

有指导的句法分析是现在的主流方法，目前在英语等语言中已经达到了较高的准确率。在有指导的句法分析中，事先标注的用于训练的句子集叫做树库。目前绝大多数的统计句法分析模型都是利用标注好的树库以有指导学习方式来训练模型的参数。因此，树库建设是一个非常重要的工作，其质量和规模直接关系到句法分析的训练效果。

句法分析首先要遵循某一语法体系，根据该语法体系的语法确定语法树的表示形式。目前，在句法分析中使用比较广泛的有短语结构语法和依存语法。例如：“今年西门子将努力参与中国的三峡工程建设。”其短语结构分析结果如图1a，是类似于树的层层拆分结构。

第一级为“S”即指整个句子“今年西门子将努力参与中国的三峡工程建设。”。第二级分为四个部分，第二级的第一部分“NP”即指名词短语，对应“今年”；第二级的第二部分“NP”即指名词短语，对应“西门子”；第二级的第三部分“VP”即指动词短语，对应“将努力参与中国的三峡工程建设”；第二级的第四部分“PU”即指标点符号，对应“。”。第三级分为三个部分，第三级的第一部分“ADVP”即指状语短语，对应“将”；第三级的第二部分“ADVP”即指状语短语，对应“努力”；第三级的第三部分“VP”即指动词短语，对应“参与中国的三峡工程建设”。第四级分为两个部分，第四级的第一部分“VV”即指动词，对应“参与”；第四级的第二部分“NP”即指名词短语，对应“中国的三峡工程建设”。第五级分为三个部分，第五级的第一部分“DNP”即指定语短语，对应“中国的”；第五级的第二部分“NP”即指名语短语，对应“三峡工程”；第五级的第三部分“NP”即指名词短语，对应“建设”。第六级分为四个部分，第六级的第一部分“NP”即指定语短语，对应“中国”；第六级的第二部分“DEG”即助词短语，对应“的”；第六级的第三部分“NP”即指定语短语，对应“三峡”；第六级的第四部分“NP”即指定语短语，对应“工程”。

利用依存结构分析“中国的三峡工程建设”，结果如图1b。依存结构是利用带方向的弧线标注出各个词之间的关系。依存结构的分析结构比短语结构的分析结构更加直观。

“今年西门子将努力参与中国的三峡工程建设。”的核心节点“VG”对应“参与”，“今年”、“将”和“努力”都是“参与”的“ADV”即状语关系，“西门子”与“参与”是“SBV”关系即主谓关系，“中国”与“的”是“ATT”关系即定语关系，“三峡”与“工程”是“ATT”关系即定语关系，“工程”与“建设”是“ATT”关系即定语关系。“。”后的“EOS”即空节点表示结束。

如何利用图1a所示的短语结构分析结果转化为图1b所示的依存结构，是本领域需要解决的技术问题。

英语句法分析的发展得益于Penn Treebank(佩恩树库)的建立，PennTreebank的规模大，标注质量高，已成为英语句法分析事实上的标准，几乎所有的研究工作都基于该树库进行。同时，将Penn Treebank转换为依存结构的工作也已经成熟。反观汉语方面，树库建设工作还有差距，既缺少统一的依存标注体系，也缺少大规模的依存树库。现存的汉语短语结构树库最著名的有宾夕法尼亚大学的中文树库PCT(Penn Chinese Treebank)、TCT(清华大学的汉语树库)等等。而汉语依存树库则相对比较少，著名的有HIT-IR-CDT(哈工大汉语依存树库)、SDN(清华大学电子系标注的树库)。HIT-IR-CDT是哈尔滨工业大学信息检索研究室标注的汉语依存树库。

将Penn Treebank转换为依存结构的技术已很成熟。相对应于英文依存语法而言，中文短语结构树库转换为依存结构的工作还很不成熟。现有Penn2Malt转化工具中提供了Penn Chinese Treebank转化为依存结构的规则文件，可以将Penn Chinese Treebank转化为依存结构。转化工具Penn2Malt提供的汉语结构转化规则文件包含的规则无法准确的描述各种语言现象，没有能力处理并列关系，以及Penn Chinese Treebank中的扁平结构。

现有将TCT转化为依存结构，完全采用规则的方法。这样就要求对TCT中的语法体系非常熟悉，然后对一种规约形式进行规则转化，包括指定核心节点、指定关系类型。这种将TCT转化为依存结构的做法没有很好的通用性，需要投入相对较大的人力。而且，其依存体系主要集中于跟动词相关的各种关系成分的描述。

上述的工作，都是将短语结构的树库转化为某种依存树库。转化后的依存树库的体系和任何现有的依存树库都不一致，这样不利于有效利用转化后的树库。只能把转化后的树库作为独立的树库，然后使用。

一个树库中不仅包含句法结构信息，还会包含词性信息。各个树库所采用的词性标注集也不尽相同。因此对词性标注集进行转化对于树库转化工作也很必要。上述工作只是将短语结构转化为依存结构，没有对词性标注集进行转化。

树库的规模和质量直接影响句法分析的性能，树库规模越大，质量越好，训练出来的句法分析器的性能必然越好。因此，如何将Penn Chinese Treebank转化为HIT-IR-CDT树库，充分利用Penn Chinese Treebank和HIT-IR-CDT树库的树库规模大，质量好的优势，是本领域技术人员亟需解决的技术问题。

发明内容

为了解决现有转化后的依存树库的体系不统一，以及转化过程中没有考虑词性标注集的转化的问题，本发明提供一种树库的转化方法及系统，将PennChinese Treebank转化为HIT-IR-CDT，转化后的树库可以很方便的和原有的HIT-IR-CDT合并，从而增大树库规模，进而有效地提高句法分析器的性能。

为解决上述问题，本发明提供一种树库的转化方法，包括以下步骤：

A、将Penn Chinese TreeBank宾夕法尼亚大学中文树库的短语结构转化为依存结构；

B、将Penn Chinese Treebank词性标注集转化为863词性标注集；

C、利用HIT-IR-CDT哈工大汉语依存树库的句法分析器对Penn ChineseTreebank中的扁平短语结构分析依存关系；

D、利用预先建立的HIT-IR-CDT树库训练依存关系映射模型，对PennChinese Treebank进行依存关系转化，形成转化后的依存结构树。

优选地，所述步骤A具体为：

根据预先建立的Head核心节点映射表，确定Penn Chinese Treebank的短语结构树库中语法推导的核心节点。

优选地，所述步骤B具体为：

B1、利用HIT-IR-CDT对Penn Chinese Treebank的词语进行词性标注；

B2、利用预先建立的词性映射模型进行所述词性划分，纠正所述步骤B1标注的词性。

优选地，所述词性映射模型使用第一线性对数模型：

t = \max \arg_{t^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (t^{'})

进行所述词性转化；

其中，i＝0，对应pos自身词性特征，

i＝1，对应pos_s pos子节点词性，自身词性特征，

i＝2，对应pos pos_f自身词性特征，父节点词性，

λ₀：对应i＝0时pos特征的权值；

λ₁：对应i＝1时pos_s pos特征的权值；

λ₂：对应i＝2时pos pos_f征的权值。

优选地，所述训练依存关系映射模型的建立包括以下步骤：

1)、利用HIT-IR-CDT树库训练依存关系标注模型；

2)、利用所述依存关系标注模型对Penn Chinese Treebank树库进行依存关系标注；

3)利用Penn Chinese Treebank原有词性和句法信息，纠正所述依存关系标注结果，建立依存关系映射模型。

优选地，所述依存关系标注模型使用第二线性对数模型

r = \max \arg_{r^{'}} - Σ_{i = 0}^{3} λ_{i} \log f_{i} (r^{'})

进行所述依存关系标注；

其中，i＝0，对应word word_f词语，父亲词语特征，

i＝1，对应word pos_f词语，父节点词性特征，

i＝2，对应pos word_f词性特征，

i＝3，对应pos pos_f distance父节点词性特征，

λ₀：对应i＝0时word word_f特征的权值；

λ₁：对应i＝1时word pos_f特征的权值；

λ₂：对应i＝2时pos word_f特征的权值；

λ₃：对应i＝3时pos pos_f distance特征的权值。

优选地，所述依存关系映射模型使用第三线性对数模型

r = \max \arg_{r^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (r^{'})

进行所述依存关系标注；

其中，i＝0，对应phrase自身短语类型特征，

i＝1，对应phrase_s生成自身短语类型特征，

i＝2，对应phrase_f父亲短语类型特征，

λ₀：对应i＝0时phrase特征的权值；

λ₁：对应i＝1时phrase_s特征的权值；

λ₂：对应i＝2时phrase_f特征的权值。

本发明还提供一种树库的转化系统，包括结构转化单元、标注转化单元、分析单元、训练依存关系映射模型单元；

所述结构转化单元，用于将Penn Chinese Treebank的短语结构转化为依存结构；

所述标注转化单元，用于将Penn Chinese Treebank词性标注集转化为863词性标注集；

所述训练依存关系映射模型单元，用于建立的HIT-IR-CDT树库训练依存关系映射模型；

所述分析单元，与所述构转化单元、标注转化单元、和训练依存关系映射模型单元均相连，用于对Penn Chinese Treebank中的扁平短语结构分析依存关系；以及利用所述训练依存关系映射模型，进行依存关系转化，形成转化后的依存结构树。

优选地，所述系统进一步包括Head映射表单元，用于确定Penn ChineseTreebank的短语结构树库中语法推导的核心节点。

优选地，所述系统进一步包括词性映射模型单元，用于对Penn ChineseTreebank的短语进行词性划分。

优选地，所述系统进一步包括依存关系标注模型单元，用于Penn ChineseTreebank树库进行依存关系标注。

与上述现有技术相比，本发明实施例所述树库的转化方法包含将PennChinese Treebank的短语结构转化为依存结构的步骤，和将Penn ChineseTreebank词性标注集转化为863词性标注集的步骤，包含了句法结构和词性标注集的转化，使得转化后的依存树库更准确。本发明实施例所述树库的转化方法将Penn Chinese Treebank转化为HIT-IR-CDT，这样，转化后的树库可以很方便的和原有的HIT-IR-CDT进行合并，从而增大树库规模，进而有效地提高句法分析器的性能。

同时，本发明实施例所述树库的转化方法包含利用HIT-IR-CDT句法分析器对Penn Chinese Treebank中的扁平短语结构分析依存关系的步骤，解决了名词复合短语等扁平短语结构的依存关系确定困难的问题。

附图说明

图1a是现有技术短语结构分析结果图；

图1b是现有技术依存结构分析结果图；

图2是本发明所述树库的转化方法第一实施例流程图；

图3是本发明所述训练依存关系映射模型的建立流程图；

图4a是本发明所述扁平短语结构示意图；

图4b是图4a所述扁平短语结构转化为依存关系结构图；

图5是本发明所述树库的转化方法第二实施例流程图；

图6是本发明所述依存关系示意图；

图7是本发明所述树库的转化系统第一实施例结构图；

图8是本发明所述树库的转化系统第二实施例结构图。

具体实施方式

本发明提供一种树库的转化方法，将Penn Chinese Treebank转化为HIT-IR-CDT，转化后的树库可以很方便的和原有的HIT-IR-CDT合并，从而增大树库规模，进而有效地提高句法分析器的性能。

参见图2和图3，图2为本发明所述树库的转化方法第一实施例流程图；图3是本发明所述训练依存关系映射模型的建立流程图。

本发明第一实施例所述树库的转化方法，包括以下步骤：

S100、将Penn Chinese Treebank的短语结构转化为依存结构。

根据预先建立的Head(核心节点)映射表，确定Penn Chinese Treebank的短语结构树库中语法推导的核心节点。

通过对Penn Chinese Treebank中所有的语法推导进行观察，对Penn2Malt提供的规则文件进行了修正，形成Head映射表，进而对并列等结构进行处理，最终将Penn Chinese Treebank短语结构转化为符合HIT-IR-CDT体系的依存结构。

利用Head映射表将Penn Chinese Treebank的短语结构转化为依存结构。

表1：Head映射表

生成短语类型	规则1		规则2		规则3
生成短语类型	规则1		规则2		规则3	ADJP	r	ADJP JJ AD
ADVP	r	ADVP AD	r			ADJP	r	ADJP JJ AD
ADVP	r	ADVP AD	r			CLP	r	LC NN CLP M	r
CP	r	DEC DEG DNP SP AS VP NPADVP	l	CS CPIP	r	CLP	r	LC NN CLP M	r
CP	r	DEC DEG DNP SP AS VP NPADVP	l	CS CPIP	r	DNP	r
DP	r					DNP	r
DP	r					DVP	r
IP	r	VP IP VV	r			DVP	r
IP	r	VP IP VV	r			LCP	r	LCP LC	r
LST	l	LST CD OD	l			LCP	r	LCP LC	r
LST	l	LST CD OD	l			NP	r	DEG DNP NP NN NT NR QP	r
PP	l	PP P	l			NP	r	DEG DNP NP NN NT NR QP	r
PP	l	PP P	l			PRN	r	NP NN CLP	r
QP	r	QP CLP CP M NP CD OD	r			PRN	r	NP NN CLP	r
QP	r	QP CLP CP M NP CD OD	r			UCP	l
VCD	l					UCP	l
VCD	l					VCP	r
VNV	l					VCP	r
VNV	l					VP	r	VP VA VC VE VV VCD VRDVNV VCP VSB NP	l
VPT	l					VP	r	VP VA VC VE VV VCD VRDVNV VCP VSB NP	l
VPT	l					VRD	l	VA VCD VV	l
VSB	l					VRD	l	VA VCD VV	l
VSB	l					WHNP	r
WHPP	r					WHNP	r

Head映射表用于确定一个语法推导中的核心节点。利用Head映射表确定子节点序列中哪一个为父节点的(Head)核心节点。上表中每一个短语类型都对应一个规则集。Penn Chinese Treebank树库短语结构应用这些规则进行转化。每一个规则包含两方面，方向及核心短语类型。方向为r或l。r表示从右到左扫描子节点序列，l表示从左到右扫描子节点序列。

例如，在Penn Chinese Treebank树库中存在一个短语结构的语法推导：NP＝＝＞ADJP DNP NN NN。“＝＝＞”表示方向，“＝＝＞”左边的NP为父节点，ADJP DNP NN NN为子节点序列。

对NN进行编号以区分，将NP＝＝＞ADJP DNP NN NN标注为NP＝＝＞ADJPDNP NN(1)NN(2)。参见表1Head映射表，确定NP对应的规则集为：

生成短语类型	规则1		规则2		规则3
生成短语类型	规则1		规则2		规则3		NP	r	NP NN NT NR QP	r

首先考察规则1，规则1的方向为r。

从右向左扫描预核心节点序列，发现第一个预核心节点NP没有在子节点序列“ADJP DNP NN(1)NN(2)”出现。继续从右向左重新扫描预核心节点序列，发现第二个预核心节点NN出现在子节点序列“ADJP DNP NN(1)NN(2)”中，由于是从右向左扫描，因此首先发现NN(2)，则确定NN(2)为核心节点，退出。确定其它子节点“ADJP DNP NN(1)”都依存于核心节点NN(2)。

最后一个规则为默认规则。如果前面的规则都没有满足，则使用默认规则。此时如果最后一个规则为r，则最右边的子节点作为核心节点。此时如果最后一个规则为l，则最左边的子节点作为核心节点。

这样就可以根据表1 Head映射表所述确定Penn Chinese Treebank树库短语结构的依存关系。

针对无法采用规则来表达的结构进行特殊的处理。主要针对并列结构。

此类特殊的短语结构数量很大。根据HIT-IR-CDT体系，这种情况需要特殊处理。我们采用基于规则的方法进行归纳，然后特殊处理。

S200、将Penn Chinese Treebank词性标注集转化为863词性标注集。

一个树库中不仅包含句法结构信息，还会包含词性信息。各个树库所采用的词性标注集也不尽相同。因此对词性标注集进行转化对于树库转化工作也很必要。863词性标注集是我国标准词性标注集之一，本发明实施例所述方法将Penn Chinese Treebank词性标注集转化为863词性标注集，这样可以统一树库中词性的标注，提高转化的准确性。

S300、利用HIT-IR-CDT的句法分析器对Penn Chinese Treebank中的扁平短语结构分析依存关系。

参见图4a和图4b，图4a为本发明所述扁平短语结构示意图；图4b为图4a所述扁平短语结构转化为依存关系结构图。

Penn Chinese Treebank的短语结构属于比较扁平的，主要体现在名词复合短语。

例如：Penn Chinese Treebank的短语，“医疗机构药品采购服务中心”，其结构示意图如图4a所示。父节点为：NP(名词短语)，子节点为6个NN(名词)。6个NN分别为“医疗”、“机构”、“药品”、“采购”、“服务”和“中心”。

利用HIT-IR-LTP中的句法分析器对如图4a所示的短语结构进行依存分析，获得其内部依存关系。结果参见图4b。

首先，确定第一级依存关系：“医疗”与“机构”、“药品”与“采购”和“服务”与“中心”三个依存关系。用带箭头或者带方向的弧线表示上述依存关系。即“医疗”通过带箭头或者带方向的弧线指向“机构”；“药品”通过带箭头或者带方向的弧线指向“采购”；“服务”通过带箭头或者带方向的弧线指向“中心”。

然后，确定第二级依存关系，“机构”与“药品”和“采购”与“服务”两个依存关系。用带箭头或者带方向的弧线表示上述依存关系。即“机构”通过带箭头或者带方向的弧线指向“药品”；“采购”通过带箭头或者带方向的弧线指向“服务”。

这样就确定了如图4b所示的依存结构关系。

S400、利用预先建立的HIT-IR-CDT树库训练依存关系映射模型，对PennChinese Treebank进行依存关系转化，形成转化后的依存结构树。

参见图3，所述训练依存关系映射模型的建立包括以下步骤：

S401、利用HIT-IR-CDT树库训练依存关系标注模型。

依存关系标注器的工作是为每一条依存弧标注依存关系。每一条弧两端有两个节点：自身节点和父节点。其中自身节点依存于父节点，父节点支配自身节点，父节点为核心词。如上图中：“医疗-＞机构”构成一条弧，其中“医疗”为自身节点，“机构”为父节点。

这是一个标注问题，采用线性对数模型。采用如下4个特征：

特征	说明	特征	说明
特征	说明	特征	说明	word word_f	词语，父亲词语	word pos_f	词语，父亲词性
pos word_f	词性，父亲词语	pos pos_f distance	词性，父亲词性，距离	word word_f	词语，父亲词语	word pos_f	词语，父亲词性

采用极大似然估计来训练概率，得到模型形式如下：

f0_这种_认识_ATT 1

f1_这种_n_ATT 0.8

f2_r_认识_ATT 0.142857

f3_r_n_1_ATT 0.997324

S402、利用所述依存关系标注模型对Penn Chinese Treebank树库进行依存关系标注。

利用依存关系标注模型对Penn Chinese Treebank进行依存关系标注

r = \max \arg_{r^{'}} - Σ_{i = 0}^{3} λ_{i} \log f_{i} (r^{'})

其中四个特征word word_f、word pos_f、pos word_f、pos pos_f distance的权值分别取0.4，0.2，0.2，0.2。

利用HIT-IR-CDT测试语料测试，依存关系标注模型的准确率为89.7％。

为了利用Penn Chinese Treebank中原有的正确的词性、句法信息，训练了一个依存关系映射模型，对依存关系标注结果进行纠正。

在短语结构转依存结构的时候，记录三个信息，子节点的短语类型，生成短语类型，及父节点的短语类型。

参考图6，该图为本发明所述依存关系示意图。图6表示出“医疗”和“机构”的依存关系记录为“NN-NP-NN”，“医疗”通过带箭头的弧线指向“机构”，在弧线上标注“NN-NP-NN”。

S403、利用Penn Chinese Treebank原有词性和句法信息，纠正所述依存关系标注结果，建立依存关系映射模型。

训练依存关系映射模型时，使用这三个特征参见表2。

表2训练依存关系映射模特征表

特征	说明	特征	说明
特征	说明	特征	说明	phrase	自身短语类型	phrase_s	生成自身短语类型
phrase_f	父亲短语类型			phrase	自身短语类型	phrase_s	生成自身短语类型

采用极大似然估计来训练概率，得到模型形式如下：

f0_NN_ATT 0.734

f1_NP_ATT 0.543

f2_NN_ATT 0.933

利用依存关系映射模型进行依存关系转化

r = \max \arg_{r^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (r^{'})

其中i＝0，phrase特征的权值为0.35；

i＝1，phrase_s特征的权值为0.3；

i＝2，phrase_f特征的权值为0.35。

进行依存关系映射后，结果如下：

词	上海	浦东	开发	与	法制	建设	同步
词	上海	浦东	开发	与	法制	建设	同步	编号	1	2	3	4	5	6	7
依存结构(父节点编号)	2	3	7	6	6	3	0	编号	1	2	3	4	5	6	7
依存结构(父节点编号)	2	3	7	6	6	3	0	句法关系标注器结果	ATT	ATT	SBV	LAD	ATT	ATT	HED
句法关系映射模型结果	ATT	ATT	SBV	LAD	ATT	COO	HED	句法关系标注器结果	ATT	ATT	SBV	LAD	ATT	ATT	HED

参见图3，所述训练依存关系映射模型的建立包括以下步骤：

S10、利用HIT-IR-CDT树库训练依存关系标注模型。

S20、利用所述依存关系标注模型对Penn Chinese Treebank树库进行依存关系标注。

S30、利用Penn Chinese Treebank原有词性和句法信息，纠正所述依存关系标注结果，建立依存关系映射模型。

所述依存关系标注模型使用第二线性对数模型

r = \max \arg_{r^{'}} - Σ_{i = 0}^{3} λ_{i} \log f_{i} (r^{'})

进行所述依存关系标注；

其中，i＝0，对应word word_f词语，父亲词语特征；

i＝1，对应word pos_f词语，父节点词性特征；

i＝2，对应pos word_f词性特征；

i＝3，对应pos pos_f distance父节点词性特征；

λ₀：对应i＝0时word word_f特征的权值；

λ₁：对应i＝1时word pos_f特征的权值；

λ₂：对应i＝2时pos word_f特征的权值；

λ₃：对应i＝2时pos pos_f distance特征的权值。

所述依存关系映射模型使用第三线性对数模型

r = \max \arg_{r^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (r^{'})

进行所述依存关系标注；

其中，i＝0，对应phrase自身短语类型特征；

i＝1，对应phrase_s生成自身短语类型特征；

i＝2，对应phrase_f父亲短语类型特征；

λ₀：对应i＝0时phrase特征的权值；

λ₁：对应i＝1时phrase_s特征的权值；

λ₂：对应i＝2时phrase_f特征的权值。

本发明实施例所述树库的转化方法包含将Penn Chinese Treebank的短语结构转化为依存结构的步骤，和将Penn Chinese Treebank词性标注集转化为863词性标注集的步骤，包含了句法结构和词性标注集的转化，使得转化后的依存树库更准确。本发明实施例所述树库的转化方法将Penn Chinese Treebank转化为HIT-IR-CDT，这样，转化后的树库可以很方便的和原有的HIT-IR-CDT进行合并，从而增大树库规模，进而有效地提高句法分析器的性能。

参见图5，该图为本发明所述树库的转化方法第二实施例流程图。

本发明所述树库的转化方法第二实施例相对第一实施例的区别在于，所述步骤S200由S201和S202两个步骤代替。

本发明第二实施例所述树库的转化方法，包括以下步骤：

S100、将Penn Chinese Treebank的短语结构转化为依存结构。

根据预先建立的Head映射表，确定Penn Chinese Treebank的短语结构树库中语法推导的核心节点。

S201、利用HIT-IR-CDT对Penn Chinese Treebank的词语进行词性标注。

S202、利用预先建立的词性映射模型进行所述词性划分，纠正所述步骤S201标注的词性。

所述词性映射模型使用第一线性对数模型：

t = \max \arg_{t^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (t^{'})

进行所述词性转化；

其中，i＝0，对应pos自身词性特征；

i＝1，对应pos_s pos子节点词性，自身词性特征；

i＝2，对应pos pos_f自身词性特征，父节点词性；

λ₀：对应i＝0时pos特征的权值；

λ₁：对应i＝1时pos_s pos特征的权值；

λ₂：对应i＝2时pos pos_f征的权值。

HIT-IR-LTP是哈尔滨工业大学信息检索研究室开发的语言技术平台，其中包含各种包含很多自然语言处理模块如分词、句法分析等，还有一些语料资源如依存树库HIT-IR-CDT。HIT-IR-LTP现免费向学术界共享。

HIT-IR-LTP中的词性标注模块的精度达到90％。利用HIT-IR-LTP词性标注器对Penn Chinese Treebank进行词性标注。

虽然HIT-IR-LTP词性标注模块的精度比较高，但是不可避免还是会有错误。为了利用Penn Chinese Treebank中原有的正确的词性、句法信息，我们训练了一个词性映射模型，对标注结果进行纠正。

词性映射模型使用线性对数模型，采用三个特征：

特征	说明	特征	说明
特征	说明	特征	说明	pos	词性	pos_s pos	子节点词性，自身词性
pos pos_f	自身词性，父节点词性			pos	词性	pos_s pos	子节点词性，自身词性

参数估计采用极大似然估计，训练出的模型概率如下例。

f0_NN_n＝0.746038，表示NN映射为n的概率；

f0_NN_v＝0.1699158，表示NN映射为v的概率；

f1_VC_NN_n＝0.801055，表示子节点为VC，NN映射为n的概率；

f1_VC_NN_v＝0.121002，表示子节点为VC，NN映射为v的概率；

f2_NN_NN_n＝0.776695，表示父节点为NN，NN映射为n的概率；

f2_NN_NN_v＝0.180412，表示父节点为NN，NN映射为v的概率。

利用下面的词性映射模型的公式进行词性转化：

t = \max \arg_{t^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (t^{'})

λ₀＝0.4，λ₀对应i＝0时pos特征的权值；

λ₁＝0.3，λ₁对应i＝1时pos_s pos特征的权值；

λ₂＝0.3，λ₂对应i＝2时pos pos_f征的权值。

例如下表所示词性映射模型纠正标注错误的对照表

词	上海	浦东	开发	与	法制	建设	同步
词	上海	浦东	开发	与	法制	建设	同步	Penn Chinese Treebank词性	NR	NR	NN	CC	NN	NN	VV
HIT-IR-LTP词性标注结果	ns	ns	v	p	n	vn	vd	Penn Chinese Treebank词性	NR	NR	NN	CC	NN	NN	VV
HIT-IR-LTP词性标注结果	ns	ns	v	p	n	vn	vd	词性映射模型结果	ns	ns	n	p	n	vn	vd

由上可以看出，利用原有Penn Chinese Treebank树库信息，可以有效的纠正某些词性标注错误。

S300、利用HIT-IR-CDT哈工大汉语依存树库的句法分析器对PennChinese Treebank中的扁平短语结构分析依存关系。

训练依存关系映射模型时，使用表中三个特征。

采用极大似然估计来训练概率，得到训练依存关系映射模型形式，利用依存关系映射模型进行依存关系转化。

依存关系映射模型的公式如下：

r = \max \arg_{r^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (r^{'})

其中三个特征phrase、phrase_s、phrase_f的权值分别取0.35，0.3，0.35。进行依存关系映射后，结果如下：

参见图7，该图为本发明所述树库的转化系统第一实施例结构图。

本发明第一实施例所述树库的转化系统，包括结构转化单元12、标注转化单元13、分析单元11、训练依存关系映射模型单元14。

所述结构转化单元12，用于将Penn Chinese Treebank的短语结构转化为依存结构。

所述标注转化单元13，用于将Penn Chinese Treebank词性标注集转化为863词性标注集。

所述训练依存关系映射模型单元14，用于建立的HIT-IR-CDT树库训练依存关系映射模型。

所述分析单元11，与所述构转化单元12、标注转化单元13和训练依存关系映射模型单元14均相连，用于对Penn Chinese Treebank中的扁平短语结构分析依存关系；以及利用所述训练依存关系映射模型，进行依存关系转化，形成转化后的依存结构树。

本发明实施例所述树库的转化系统包含将Penn Chinese Treebank的短语结构转化为依存结构的结构转化单元12，和将Penn Chinese Treebank词性标注集转化为863词性标注集的标注转化单元13，能够实现句法结构和词性标注集的转化，使得转化后的依存树库更准确。本发明实施例所述树库的转化系统能够将Penn Chinese Treebank转化为HIT-IR-CDT，这样，转化后的树库可以很方便的和原有的HIT-IR-CDT进行合并，从而增大树库规模，进而有效地提高句法分析器的性能。

同时，本发明实施例所述树库的转化方法包含所述分析单元11能够利用HIT-IR-CDT句法分析器对Penn Chinese Treebank中的扁平短语结构分析依存关系，解决了名词复合短语等扁平短语结构的依存关系确定困难的问题。

参见图8，该图为本发明所述树库的转化系统第二实施例结构图。

本发明所述树库的转化系统第二实施例相对第一实施例增加了Head映射表单元15。

本发明所述树库的转化系统进一步包括与所述分析单元11相连的Head映射表单元15，用于确定Penn Chinese Treebank的短语结构树库中语法推导的核心节点。Head映射表参见前文所述树库转化方法中的描述。

所述系统进一步还可以包括与所述结构转化单元12相连的词性映射模型单元，用于对Penn Chinese Treebank的短语进行词性划分。

词性映射模型参见前文所述树库转化方法中词性映射模型的描述。

所述系统进一步还可以包括与所述标注转化单元13相连的依存关系标注模型单元，用于Penn Chinese Treebank树库进行依存关系标注。

依存关系标注模型参见前文所述树库转化方法中依存关系标注模型的描述。

以上所述仅为本发明的优选实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种树库的转化方法，其特征在于，包括以下步骤：

B、将Penn Chinese Treebank词性标注集转化为863词性标注集；

2.根据权利要求1所述的树库的转化方法，其特征在于，所述步骤A具体为：

3.根据权利要求1所述的树库的转化方法，其特征在于，所述步骤B具体为：

B1、利用HIT-IR-CDT对Penn Chinese Treebank的词语进行词性标注；

4.根据权利要求3所述的树库的转化方法，其特征在于，所述词性映射模型使用第一线性对数模型：

t = \max \arg_{t^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (t^{'})

进行所述词性转化；

其中，i＝0，对应pos自身词性特征，

i＝1，对应pos_s pos子节点词性，自身词性特征，

i＝2，对应pos pos_f自身词性特征，父节点词性，

λ₀：对应i＝0时pos特征的权值；

λ₁：对应i＝1时pos_s pos特征的权值；

λ₂：对应i＝2时pos pos_f征的权值。

5.根据权利要求1所述的树库的转化方法，其特征在于，所述训练依存关系映射模型的建立包括以下步骤：

1)、利用HIT-IR-CDT树库训练依存关系标注模型；

6.根据权利要求5所述的树库的转化方法，其特征在于，所述依存关系标注模型使用第二线性对数模型

r = \max \arg_{r^{'}} - Σ_{i = 0}^{3} λ_{i} \log f_{i} (r^{'})

进行所述依存关系标注；

其中，i＝0，对应word word_f词语，父亲词语特征，

i＝1，对应word pos_f词语，父节点词性特征，

i＝2，对应pos word_f词性特征，

i＝3，对应pos pos_f distance父节点词性特征，

λ₀：对应i＝0时word word_f特征的权值；

λ₁：对应i＝1时word pos_f特征的权值；

λ₂：对应i＝2时pos word_f特征的权值；

λ₃：对应i＝3时pos pos_f distance特征的权值。

7.根据权利要求5或6所述的树库的转化方法，其特征在于，所述依存关系映射模型使用第三线性对数模型

r = \max \arg_{r^{'}} - Σ_{i = 0}^{2} λ_{i} \log f_{i} (r^{'})

进行所述依存关系标注；

其中，i＝0，对应phrase自身短语类型特征，

i＝1，对应phrase_s生成自身短语类型特征，

i＝2，对应phrase_f父亲短语类型特征，

λ₀：对应i＝0时phrase特征的权值；

λ₁：对应i＝1时phrase_s特征的权值；

λ₂：对应i＝2时phrase_f特征的权值。

8.一种树库的转化系统，其特征在于，包括结构转化单元、标注转化单元、分析单元、训练依存关系映射模型单元；

9.根据权利要求8所述的树库的转化系统，其特征在于，所述系统进一步包括Head映射表单元，用于确定Penn Chinese Treebank的短语结构树库中语法推导的核心节点。

10.根据权利要求8所述的树库的转化系统，其特征在于，所述系统进一步包括词性映射模型单元，用于对Penn Chinese Treebank的短语进行词性划分。

11.根据权利要求8所述的树库的转化系统，其特征在于，所述系统进一步包括依存关系标注模型单元，用于Penn Chinese Treebank树库进行依存关系标注。