CN106708800A

CN106708800A - 一种基于句本位语法构建汉语树库的形式化方案

Info

Publication number: CN106708800A
Application number: CN201611032144.0A
Authority: CN
Inventors: 彭炜明; 宋继华; 王宁; 宋天宝; 郭冬冬; 杨天心; 赵敏
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2017-05-24

Abstract

本发明公开了一种基于句本位语法构建汉语树库的形式化方案，涉及语料库语言学和自然语言处理领域。该形式化方案，以汉语传统教学语法中的句本位语法为原型，设计过程中引入了语言学界对“动态词”的研究成果。采用该形式化方案构建汉语树库将有利于提高树库构建的准确性及效率，同时也有利于信息处理、语法研究以及教学实践三个领域的沟通与融合。

Description

一种基于句本位语法构建汉语树库的形式化方案

技术领域

本发明涉及语料库语言学和自然语言处理领域，尤其涉及一种基于句本位语法构建汉语树库的形式化方案。

背景技术

树库是基于某种特定语法体系对句法结构信息进行了标注的深加工语料库，是语料库语言学和自然语言处理技术发展到相对成熟阶段的产物。目前应用于树库构建的语法体系中，短语结构语法和依存语法占主导地位。短语结构语法溯源于Chomsky形式文法理论，其中的上下文无关文法被广泛应用于自然语言处理中，它是根据一定的语法产生式规则，将若干“词/词类”结点规约为短语，并进一步参与下一次规约，最终得到一个句子节点的分析方法。依存语法由Tesniere提出，它认为动词是句子中支配其他成分的中心，并通过依存弧直接描述词与词之间的支配与从属关系来进行句法分析。

短语结构语法采用逐层二分的方式对句子进行结构分析，导致句子的层次切分过于机械与繁琐；依存语法围绕中心词分析句子结构，在一定程度上避免了短语结构语法中存在的问题，但利用依存弧实现的扁平化呈现形式模糊了句子的层次性；两种语法体系均在一定程度上与人对句子语法的认知方式不符，因此对标注者的要求较高，容易带来标注的不一致性。

句本位语法是汉语传统语法中最重要的一个流派，以黎锦熙先生在《新著国语文法》一书中建立的黎氏语法体系为代表。句本位图解法在句本位语法理论研究和教学实践中贯彻始终，既被当作语法教学的工具，同时也作为阐述理论的必要手段，与黎氏语法体系融为一体。该语法体系曾被广泛应用于语法教学中，与人对句子语法的认知方式高度一致。

“动态词”是在汉语语言学界中备受关注的一个客观存在的语言现象，而短语结构语法和依存语法对其结构的分析混同于自由的句法组合，缺少表达这种语言现象的特殊机制。

发明内容

本发明的目的在于提供一种基于句本位语法构建汉语树库的形式化方案，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于句本位语法构建汉语树库的形式化方案，包括：句本位汉语树库句法系统的形式化方案和句本位汉语树库词法系统的形式化方案；

所述句本位汉语树库句法系统的形式化方案包括：

Sa1，根据汉语语法教学由浅入深的规律，设计“基本句式”、“扩展句式”、“复杂句式”三类基础句式；所述“基本句式”指句子仅包含三个主干成分的句式，主干成分包括主语、谓语、宾语，其中谓语为核心,简称“谓核”；所述“扩展句式”指句子主干不打破“主+谓+宾”即单谓语核心的基本格局，但带有定语、状语、补语、独立语附加成分，或进行了双宾、并列、同位结构扩展而产生的句式；所述“复杂句式”指句子主干打破了单谓语核心基本格局的句式，包括合成谓语句、联合谓语句、主谓谓语句、兼语句、连动句以及复句；

Sa2，为所述各类基础句式设计图解公式；所述图解公式中用一条长横线上下分隔主干成分，主干成分包括主语、谓语、宾语，附加成分包括定语、状语、补语、独立语；设计所述主干成分的图解样式，以特定分隔符作为成分类别标识，置于长横线上；设计所述附加成分的图解样式，以可扩展的横线为基础，延伸出不同类型的折线连接于长横线的下方；设计“复杂句式”中不同类型句式的图解样式，以特定的分隔符间隔相邻的“谓核部分”，包括谓核及其所辖宾语；

Sa3，利用所述图解公式进行句法图解，采用如下方法进行实施：将句子的文本逐步切分至相当于“词”一级的最小造句单位，实词置于各个句法成分对应图解样式的横线上方，虚词在句法成分旁边占据特定的“虚词位”，以不同标识符号标记，作为其图解样式，得到句子的图解句式；

Sa4，将所述图解句式采用XML数据格式进行存储，根据句式中的句法成分及其之间的关系设计XML的节点标记、属性标记及其结构层级，图解句式与XML数据格式之间可以进行信息无损的双向转换。

所述句本位汉语树库词法系统的形式化方案包括：

Sb1，构建词汇知识库；

Sb2，对句法图解得到的所述最小造句单位进行词法标注，所述最小造句单位包括所述词汇知识库中收录的词以及动态词；所述动态词指所述词汇知识库中未收录，但在句法分析时又不适宜做进一步句法成分切分的造句单位；

Sb3，进行词法标注时，对所述词汇知识库中收录的词直接标注词类和义项；对所述动态词进行内部词素的线性拆分，使得拆分后得到的词素能够在所述词汇知识库中找到相应的义项，对所述词素标注词素类和义项；对所述动态词标注整体词类，设计所述动态词内部词素之间的结构关系，根据所述整体词类与结构关系标注所述动态词的结构模式；得到标注词；

Sb4，将所述标注词采用XML数据格式进行存储，分别设计所述词汇知识库中收录的词及所述动态词的XML存储格式。

优选地，Sa2中，所述各类基础句式的图解公式具体为：

“基本句式”的图解公式为：“主||谓|宾”，即在长横线上分别以双竖线和单竖线分隔主语、谓语和宾语；“扩展句式”的图解公式为：定语、状语、补语和独立语以折线连接于主干横线的下方，定语、状语折向左，补语、独立语折向右，定语采用三折线，独立语采用虚线连接，双宾结构用两条单竖线分别引出两个宾语，并列和同位结构分别用“…”和“＝”间隔；“复杂句式”中，合成谓语句、联合谓语句、兼语句、连动句的图解公式分别为：“主‖谓∶谓∣ 宾”、“主‖谓∣宾……谓∣宾”、“主‖谓∣宾∥谓∣宾”、“主‖谓∣宾∣谓∣宾”，即分别以“∶”、“……”、“∥”和“/”间隔两个谓核部分；主谓谓语句的图解公式为：采用支架将作谓语的主谓结构顶起；复句的图解公式为：将其中每个分句上下排列并在左侧以虚线连接。

Sa2和Sa3中，所述句法成分与所述虚词位的图解样式具体为：

所述“基本句式”的图解公式中提供了主语、谓语、宾语的图解样式；所述“扩展句式”的图解公式中提供了定语、状语、补语以及并列结构、同位结构的图解样式；所述“复杂句式”的图解公式提供了合成谓语句、联合谓语句、主谓谓语句、兼语句、连动句和复句的图解样式；虚词位的图解样式为：介词位“∧”、连词位“…”、附NP助词位“△”和附VP助词位“▽”和方位词位“□”，标记于横线下方；定语、状语、补语的连接助词“的、地、得”标示在定、状、补折线的连接线旁边。

所述各句法成分的图解样式具有如下切分限制：

主语和宾语占据的图解位置默认为体词性成分NP，谓语占据的图解位置默认为谓词性成分VP；对NP切分的限定为：只能切分出定语、并列结构、同位结构、介词位、方位词位、附NP助词位；对VP切分的限定为：只能切分出状语、补语、宾语、连词位、附VP助词位以及多谓核结构，单个谓核最多只能切出两个宾语、一个补语；定语、状语和补语的图解位置初始时不限定NP或VP性质，而由其所切分出的成分类型根据上述限定规则来进一步确定；NP成分切分若超出上述限制，则需突破其原来所在图解样式的横线，用支架顶起形成新的句式层次，在新的句式层次中继续依据图解公式进行切分；句首状语虽然与谓语隔着主语，句末补语虽然与谓语隔着宾语，但是均需从谓语所在的图解位置切出，分别连接于长横线的最左端和最右端。

优选地，Sa4中，所述XML节点标记、属性标记及其结构层级具体为：

以句子ju为根节点，句子之下包含若干小句节点xj；小句之下设置主语sbj、谓语prd、宾语obj、状语adv和补语cmp成分节点；成分内部若又包含新的谓核结构，例如主谓、谓宾、状中、述宾、述补以及复杂谓语中的多核结构，则在其下设置新的谓语节点及相关非谓节点；成分内部若不包含新的谓核结构，则在其下设置中心词节点；定语att节点与其所修饰的中心词节点位于同一层次；谓语节点上设置属性@scp记录单个谓语核心及其所辖宾、补语的分布情况，所述分布情况具体包括：V、VO、VC、VOO、VCO、VOC，其中的V、O、C分别代表谓核、宾语、补语；设置介词位pp、连词位cc、连接定、状、补语之“的”、“地”、“得”助词位uu、附NP助词位un、附VP助词位uv、方位词位ff几类虚词位节点参与XML构造，虚词位节点与其所连接或附加的中心词或成分节点同一层次；连词位上设置属性@fun标示其所连接的两部分之间的结合关系，所述结合关系具体包括：并列COO、同位APP、合成谓语SYN、联合谓语UNI、兼语谓语PVT、连动谓语SER；独立语ind位于小句节点或各成分节点之下。

优选地，Sb1中，所述词汇知识库可以通过对《现代汉语词典·第6版》按义项整理得到，每个词项赋予一个三位数字组成的义项码。

优选地，Sb3中，动态词内部词素之间的结构关系包括：并列、定中、状中、述补、动宾、主谓、重叠以及其他。

优选地，Sb4中，所述词汇知识库中收录的词的XML存储格式为：每个词对应XML中的一个节点，以词类作为节点标记，所述词类节点上设置属性@sen记录该词在所述词汇知识库中的义项码；

所述动态词的XML存储格式为：每个动态词对应XML中的一个节点，以词类作为节点标记，所述词类节点上设置属性@mod记录该动态词的结构模式，所述动态词内部的各个词素作为该动态词节点的孩子节点，词素节点的存储格式同上述词汇知识库中收录的词。

优选地，所述动态词的结构模式具体为：

<动态词结构模式>::＝<词素信息>[<结构关系符><词素信息>]+，

其中，<词素信息>::＝<词素类><词素音节数>。

所述词类及词素类包括名词n、时间词t、方位词f、数词m、量词q、代词r、动词v、形容词a、副词d、介词p、连词c、助词u、叹词e、拟声词o。

优选地，所述结构关系符包括并列“…”、定中“↗”、状中“→”、述补“←”、动宾“|”、主谓“‖”、重叠“·”、其他“-”。

优选地，Sa3和/或Sb3采用可视化的图解标注工具进行实施，所述可视化的图解标注工具包括：

句法图解模块，用于对句子进行句法图解切分；

词法标注模块，用于对句法图解中得到的造句单位进行词法标注；

XML数据存储模块，用于对句法及词法的图解及标注结果进行自动存储，保证图解标注结果和数据存储之间可以进行信息无损的双向转换；

图解标注规范限制模块，用于约束句法和词法的图解及标注过程，保证句法和词法图解标注的一致性和准确性；

词汇知识库模块，用于为词汇的词类及义项的标注提供数据库；

动态词结构模式知识库模块，用于为动态词结构模式的标注提供数据库。

本发明的有益效果是：本发明以汉语传统教学语法中的句本位语法为原型，改造设计出一套构建汉语树库的形式化方案，设计过程中引入了语言学界对“动态词”的研究成果。句本位语法体系曾被广泛应用于语法教学中，与人对句子语法结构的认知方式高度一致。“动态词”是在汉语语言学界中备受关注的一个客观存在的语言现象。因此，采用该发明构建汉语树库将有利于提高树库构建的准确性及效率，同时也有利于信息处理、语法研究以及教学实践三个领域的沟通与融合。具体体现在：

一、句本位语法理论以句子成分和句法格局为主要特征，强调句式在语言研究和语言教学中的核心作用，以此为指导的汉语树库将有助于打破以短语结构和依存结构等基于结构主义语法理论的汉语树库在句法分析研究中造成的思维定式，为中文信息处理的句法分析、语义分析、信息抽取等研究提供一种新的思路。

二、基于句本位语法的汉语树库不仅能为现有的语法理论研究以及语法教学实践提供来自句式、短语、词汇等多层面的实证数据，同时，大规模的析句实践也将引起诸如“构式-词义互动”、“动态构词”等更多新的理论思考，促进语法理论创新。

附图说明

图1是句式图解公式及图解示例图；

图2是虚词位图解示例图；

图3是句式分层图解示意图；

图4是基本句式图解及XML结构示例图；

图5是扩展句式图解及XML结构示例图；

图6是复杂句式图解及XML结构示例图；

图7是词汇知识库内容片段示例图；

图8是词法标注结果和XML结构示例图；

图9是句本位图解标注工具总界面示意图；

图10是图解标注模式(划分主干格局)示意图；

图11是图解标注模式(切分附加成分)示意图；

图12是图解标注模式(词法分析标注)示意图；

图13是动态词结构模式提示信息示意图；

图14是图解标注模式(虚词成分切分)示意图；

图15是图解标注模式(VP或小句名物化)示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

树库是基于某种特定语法体系对句法结构信息进行了标注的深加工语料库，是语料库语言学和自然语言处理技术发展到相对成熟阶段的产物。句本位语法是汉语传统语法中最重要的一个流派，以黎锦熙先生在《新著国语文法》一书中建立的黎氏语法体系为代表。它以讲句子成分和句法格局为主要特征，强调汉语语法分析应以句子为本位。句本位图解法在句本位语法理论研究和教学实践中贯彻始终，既被当作语法教学的工具，同时也作为阐述理论的必要手段，与黎氏语法体系融为一体。

将句本位语法思想引入中文信息处理，并以黎氏语法体系及其图解析句法为原型，本发明实施例提供了一种基于句本位语法构建汉语树库的形式化方案，包括：句本位汉语树库句法系统的形式化方案和句本位汉语树库词法系统的形式化方案；

所述句本位汉语树库句法系统的形式化方案包括：

Sa1，根据汉语语法教学由浅入深的规律，设计“基本句式”、“扩展句式”、“复杂句式”三类基础句式；所述“基本句式”指句子仅包含三个主干成分(主语+谓语+宾语)的句式，其中谓语为核心，简称“谓核”；所述“扩展句式”指句子主干不打破“主+谓+宾”即单谓语核心的基本格局，但带有定语、状语、补语、独立语等附加成分，或进行了双宾、并列、同位等结构扩展而产生的句式；所述“复杂句式”指句子主干打破了单谓语核心基本格局的句式，包括合成谓语句(“助动词+动词”双谓核结构的句式)、联合谓语句、主谓谓语句、兼语句、连动句以及复句等类型；

Sa2，为所述各类基础句式设计图解公式；所述图解公式中用一条长横线上下分隔主干成分(主语、谓语、宾语)和附加成分(定语、状语、补语、独立语)；设计所述主干成分的图解样式，以特定分隔符作为成分类别标识，置于长横线上；设计所述附加成分的图解样式，以可扩展的横线为基础，延伸出不同类型的折线连接于长横线的下方；设计“复杂句式”中不同类型句式的图解样式，以特定的分隔符间隔相邻的“谓核部分”(包括谓核及其所辖宾语)；

Sa3，进行句法图解时，将句子的文本逐步切分至相当于“词”一级的最小造句单位，实词置于各个句法成分对应图解样式的横线上方，虚词在句法成分旁边占据特定的“虚词位”，以不同标识符号标记，作为其图解样式；得到句子的图解句式；

Sa4，将所述图解句式采用XML数据格式进行存储，根据句式中的句法成分及其之间的关系设计XML的节点标记、属性标记及其结构层级。图解句式与XML数据格式之间可以进行信息无损的双向转换。

所述句本位汉语树库词法系统的形式化方案包括：

Sb1，选取词汇知识库；

其中，Sa2中，所述各类基础句式的图解公式具体为：

Sa2和Sa3中，所述句法成分与所述虚词位的图解样式具体为：

所述“基本句式”的图解公式中提供了主语、谓语、宾语的图解样式；所述“扩展句式”的图解公式中提供了定语、状语、补语以及并列结构、同位结构的图解样式；所述“复杂句式”的图解公式提供了合成谓语句、联合谓语句、主谓谓语句、兼语句、连动句和复句的图解样式；虚词位的图解样式为：介词位“∧”、连词位“…”、助词位“△”和“∣”(区别附NP和附VP两类)和方位词位“□”，标记于横线下方；定语、状语、补语的连接助词“的、地、得”标示在定、状、补折线的连接线旁边。

上述图解公式示意图如图1、图2所示。

所述各句法成分的图解样式具有如下切分限制：主语和宾语占据的图解位置默认为体词性成分(NP)，谓语占据的图解位置默认为谓词性成分(VP)。对NP切分的限定为：只能切分出定语、并列结构、同位结构、介词位、方位词位、助词位(附NP)；对VP切分的限定为：只能切分出状语、补语、宾语、连词位、助词位(附VP)以及多谓核结构，单个谓核最多只能切出两个宾语、一个补语。定语、状语和补语的图解位置初始时不限定NP或VP性质，而由其所切分出的成分类型根据上述限定规则来进一步确定。NP成分切分若超出上述限制，则需突破其原来所在图解样式的横线，用支架顶起形成新的句式层次，在新的句式层次中继续依据图解公式进行切分，如图3所示；句首状语(与谓语隔着主语)和句末补语(与谓语隔着宾语)，均需从谓语所在的图解位置切出，但分别连接于长横线的最左端和最右端。

Sa4中，所述XML节点标记、属性标记及其结构层级具体为：

以句子(ju)为根节点，句子之下包含若干小句节点(xj)；小句之下设置主语(sbj)、谓语(prd)、宾语(obj)、状语(adv)和补语(cmp)等成分节点；成分内部若又包含新的谓核结构(主谓、谓宾、状中、述宾、述补以及复杂谓语中的多核结构)，则在其下设置新的谓语节点及相关非谓节点；成分内部若不包含新的谓核结构，则在其下设置中心词节点；定语(att)节点与其所修饰的中心词节点位于同一层次；谓语节点上设置属性@scp记录单个谓语核心及其所辖宾、补语的分布情况，所述分布情况具体包括：单个动词(含形容词)(V)、动词+宾语(VO)、动词+补语(VC)、动词+双宾(VOO)、动词+补语+宾语(VCO)、动词+宾语+补语(VOC)等；设置介词位(pp)、连词位(cc)、助词位(连接定、状、补语之“的”、“地”、“得”)(uu)、助词位(附NP)(un)、助词位(附VP)(uv)、方位词位(ff)等几类虚词位节点参与XML构造，虚词位节点与其所连接或附加的中心词或成分节点同一层次；连词位上设置属性@fun标示其所连接的两部分之间的结合关系，所述结合关系具体包括：并列(COO)、同位(APP)、合成谓语(SYN)、联合谓语(UNI)、兼语谓语(PVT)、连动谓语(SER)；独立语(ind)位于小句节点或各成分节点之下。

Sb1中，所述词汇知识库可以通过对《现代汉语词典·第6版》按义项整理得到，每个词项赋予一个三位数字组成的义项码。

Sb3中，动态词内部词素之间的结构关系包括：并列、定中、状中、述补、动宾、主谓、重叠以及其他。

Sb4中，所述词汇知识库中收录的词的XML存储格式为：每个词对应XML中的一个节点，以词类作为节点标记，所述词类节点上设置属性@sen记录该词在所述词汇知识库中的义项码。

所述动态词的XML存储格式为：每个动态词对应XML中的一个节点，以词类作为节点标记，所述词类节点上设置属性@mod记录该动态词的结构模式，所述动态词内部的各个词素作为该动态词节点的孩子节点，词素节点的存储格式同上述词汇知识库中收录的词；所述动态词的结构模式具体为：

<动态词结构模式>::＝<词素信息>[<结构关系符><内部词素信息>]+，

其中，<词素信息>::＝<词素类><词素音节数>。

所述词类及词素类包括名词(n)、时间词(t)、方位词(f)、数词(m)、量词(q)、代词(r)、动词(v)、形容词(a)、副词(d)、介词(p)、连词(c)、助词(u)、叹词(e)、拟声词(o)。

所述结构关系符包括“…”(并列)、“↗”(定中)、“→”(状中)、“←”(述补)、“|”(动宾)、“‖”(主谓)、“·”(重叠)、“-”(其他)。

在本发明的一个优选实施例中，Sa3和/或Sb3采用可视化的图解标注工具进行实施，所述可视化的图解标注工具包括：

句法图解模块，用于对句子进行句法图解切分；

具体实施例：

本发明实施例提供了一种以黎氏语法体系及其图解析句法为原型，改造设计出的构建句本位汉语树库的形式化方案。

本实施例中，句本位汉语树库构建中的句法系统形式化方案为：

根据汉语语法教学由浅入深的规律，设计“基本句式”、“扩展句式”、“复杂句式”三类基础句式。“基本句式”指句子仅包含三个主干成分(主语+谓语+宾语)的句式，谓语为核心；“扩展句式”指句子主干不打破“主+谓+宾”即单谓语核心的基本格局，但带有定语、状语、补语、独立语等附加成分，或进行了双宾、并列、同位等结构扩展而产生的句式；“复杂句式”指句子主干打破了单谓语核心基本格局的句式，包括合成谓语句(“助动词+动词”双谓核结构的句式)、联合谓语句、主谓谓语句、兼语句、连动句以及复句等类型。

为各类基础句式设计图解公式。图解公式中用一条长横线分隔主干成分(主语、谓语、宾语)和附加成分(定语、状语、补语、独立语)；设计主干成分的图解样式，以特定分隔符作为成分类别标识，置于长横线上；设计附加成分的图解样式，以可扩展的横线为基础，延伸出不同类型的折线连接于长横线的下方；设计“复杂句式”中不同类型句式的图解样式，以特定的分隔符间隔相邻的“谓核部分”(包括谓语核心及其所辖宾语)。

“基本句式”的图解公式为：“主||谓|宾”，即在长横线上分别以双竖线和单竖线分隔主语、谓语和宾语；“扩展句式”的图解公式为：定语、状语、补语和独立语以折线连接于长横线的下方，定语、状语折向左，补语、独立语折向右，定语采用三折线，独立语采用虚线连接，双宾结构用两条单竖线分别引出两个宾语，并列和同位结构分别用“…”和“＝”间隔；“复杂句式”中，合成谓语句、联合谓语句、兼语句、连动句的图解公式分别为：“主‖谓∶谓∣ 宾”、“主‖谓∣宾……谓∣宾”、“主‖谓∣宾∥谓∣宾”、“主‖谓∣宾∣谓∣宾”，即分别以“∶”、“……”、“∥”和“/”间隔两个谓核部分；主谓谓语句的图解公式为：采用支架将作谓语的主谓结构顶起；复句的图解公式为：将其中每个分句上下排列并在左侧以虚线连接。

“基本句式”的图解公式中提供了主语、谓语、宾语的图解样式；“扩展句式”的图解公式中提供了定语、状语、补语以及并列结构、同位结构的图解样式；“复杂句式”的图解公式提供了合成谓语句、联合谓语句、主谓谓语句、兼语句、连动句和复句的图解样式。

虚词位的图解样式为：介词位“∧”、连词位“…”、助词位“△”和“∣”(区别附NP和附VP两类)和方位词位“□”，标记于横线下方；定语、状语、补语的连接助词“的、地、得”标示在定、状、补折线的连接线旁边。

上述图解公式示意图如图1、图2所示。

各句法成分的图解样式具有如下切分限制：主语和宾语占据的图解位置默认为体词性成分(NP)，谓语占据的图解位置默认为谓词性成分(VP)。对NP切分的限定为：只能切分出定语、并列结构、同位结构、介词位、方位词位、助词位(附NP)；对VP切分的限定为：只能切分出状语、补语、宾语、连词位、助词位(附VP)以及多谓核结构，单个谓核最多只能切出两个宾语、一个补语。定语、状语和补语的图解位置初始时不限定NP或VP性质，而由其所切分出的成分类型根据上述限定规则来进一步确定。NP成分切分若超出上述限制，则需突破其原来所在图解样式的横线，用支架顶起形成新的句式层次，在新的句式层次中继续依据图解公式进行切分，如图3所示；句首状语(与谓语隔着主语)和句末补语(与谓语隔着宾语)，均需从谓语所在的图解位置切出，但分别连接于长横线的最左端和最右端。

将图解句式采用XML数据格式进行存储，根据句式中的句法成分及其之间的关系设计XML的节点标记、属性标记及其结构层级。图解句式与XML数据格式之间可以进行信息无损的双向转换。图解句式的XML节点及属性标记集如表1所示。层级关系为：以句子(ju)为根节点，句子之下包含若干小句节点(xj)；小句之下设置主语(sbj)、谓语(prd)、宾语(obj)、状语(adv)和补语(cmp)等成分节点；成分内部若又包含新的谓核结构(主谓、谓宾、状中、述宾、述补以及复杂谓语中的多核结构)，则在其下设置新的谓语节点及相关非谓节点；成分内部若不包含新的谓核结构，则在其下设置中心词节点；定语(att)节点与其所修饰的中心词节点位于同一层次；谓语节点上设置属性@scp记录单个谓语核心及其所辖宾、补语的分布情况，所述分布情况具体包括：单个动词(含形容词)(V)、动词+宾语(VO)、动词+补语(VC)、动词+双宾(VOO)、动词+补语+宾语(VCO)、动词+宾语+补语(VOC)等；设置介词位(pp)、连词位(cc)、助词位(连接定、状、补语之“的”、“地”、“得”)(uu)、助词位(附NP)(un)、助词位(附VP)(uv)、方位词位(ff)等几类虚词位节点参与XML构造，虚词位节点与其所连接或附加的中心词或成分节点同一层次；连词位上设置属性@fun标示其所连接的两部分之间的结合关系，所述结合关系具体包括：并列(COO)、同位(APP)、合成谓语(SYN)、联合谓语(UNI)、兼语谓语(PVT)、连动谓语(SER)；独立语(ind)位于小句节点或各成分节点之下。

表1图解句式的XML节点及属性标记集

进行句法图解时，将句子的文本逐步切分至相当于“词”一级的最小造句单位，并选择特定的图解样式进行图解，得到句子的图解句式。图解句式及对应的XML结构示意如图4、图5、图6所示。

本实施例中，句本位汉语树库构建中的词法系统形式化方案为：

构建词汇知识库，本实施例中通过对《现代汉语词典·第6版》按义项整理得到词汇知识库。词汇知识库中的字段说明如表2所示，词汇知识库的内容片段如图7所示。

表2词汇知识库字段说明

对句法图解得到的最小造句单位进行词法标注。最小造句单位包括词汇知识库中收录的词以及动态词。动态词指词汇知识库中未收录，但在句法分析时又不适宜做进一步句法成分切分的造句单位。

进行词法标注时，对词汇知识库中收录的词直接标注词类和义项。对动态词进行内部词素的线性拆分，使得拆分后得到的词素能够在词汇知识库中找到相应的义项，对词素标注词素类和义项；对动态词标注整体词类，设计动态词内部词素之间的结构关系，根据整体词类与结构关系标注动态词的结构模式。动态词内部词素之间的结构关系包括：并列、定中、状中、述补、动宾、主谓、重叠以及其他。

将词法标注结果采用XML数据格式进行存储，设计词汇知识库中收录的词及所述动态词的XML存储格式。

词汇知识库中收录的词的XML存储格式为：每个词对应XML中的一个节点，以词类作为节点标记，词类节点设置属性@sen记录该词在所述词汇知识库中的义项码。

动态词的XML存储格式为：每个动态词对应XML中的一个节点，以词类作为节点标记，词类节点上设置属性@mod记录该动态词的结构模式，动态词内部的各个词素作为该动态词节点的孩子节点，词素节点的存储格式同上述词汇知识库中收录的词。动态词的结构关系模式具体为：

<动态词结构模式>::＝<词素信息>[<结构关系符><词素信息>]+，

其中，<词素信息>::＝<词素类><词素音节数>。

词类及词素类包括名词(n)、时间词(t)、方位词(f)、数词(m)、量词(q)、代词(r)、动词(v)、形容词(a)、副词(d)、介词(p)、连词(c)、助词(u)、叹词(e)、拟声词(o)。

结构关系符及示例如表3所示，动态词的XML结构示例如表4所示。

表3动态词内部词素结构关系符集

表4动态词结构模式示例

动态词	结构模式	动态词	结构模式
				木桥	<n mod＝“n↗n”>	看清	<v mod＝“v←a”>
爱国心	<n mod＝“v2↗n”>	城市化	<v mod＝“n2-u”>
				小白兔	<n mod＝“a↗a↗n”>	听了听	<v mod＝“v·u·v”>
铁路工人	<n mod＝“n2↗n2”>	翩然而至	<v mod＝“a2-c-v”>

词法标注结果和XML结构示例如图8所示。

在词法标注过程中构建并逐步更新动态词结构模式知识库，该知识库又被用于辅助人工标注，二者不断迭代。动态词结构模式知识库结构见表5。

表5动态词结构模式知识库结构

属性字段	说明
		id	编号
model	动态词结构模式
		example	动态词样例
pos	动态词整体词类
		syllable	动态词音节数
xml_mod	动态词XML结构中的mod属性
		sequence	动态词内部成分词类和音节数序列
rule	动态词满足的正则表达式规则
		freq	树库中与model对应的动态词频次

在本发明实施例中，可以采用可视化的图解标注工具进行句法图解和词法标注，所述可视化的图解标注工具的总界面如图9所示。该工具由句法标注区、词类标注区、图解样式区、义项标注区等部分组成，集成了多项功能模块：

句法图解模块，用于对句子进行句法图解切分；

XML数据存储模块，用于对句法及词法的图解及标注结果进行自动存储，保证图解结果和数据存储之间可以进行信息无损的双向转换；

下面以“勤劳的铁路工人准备了修建天桥的材料。”一句的图解过程为例说明图解标注的基本操作模式：

第一步，首先将原句文本置入默认基本句式的核心——谓语文本框，然后划分主干格局，即通过句法标注区中的热区按钮将主语部分和宾语部分分别切出，如图10所示。

第二步，将主干上的附加成分切出，如果附加成分内部还需句法图解，如法炮制。如图11所示。

第三步，进行各图解位置上的词法标注，如图12所示。当焦点文本框(光标所在处，图中显示红边框、黄背景)中的文本切分至可匹配词汇知识库中词语的细粒度时，该处词语就会出现在义项标注区顶部的文本框中，同时在列表中列出其在词汇知识库中的所有义项信息，包括拼音、词类、义项码、释义和用例等。标注人员通过点击选择列表中的某一项，对应的词类和义项码就被标注在该词语的文本框下方。为了提高树库标注效率，工具会实时统计树库中同形词的义项分布信息，并以阴影条的方式显示该义项在所有同形词义项分布中的百分比。同时，若当前文本框中焦点词(光标所在处的词，图中通过其词类标记的下划线格式突显)为单义词或者其多义项中有某一常用义项的分布比率占绝对优势(系统中的阈值设置为80％)时，该单义项或常用义项即被默认标记。

对于动态词，标注人员首先通过在文本框中输入空格将其拆分为若干词素，拆分粒度至能够在词汇知识库找到相应的词或语素为止。在完成词素拆分以及词素类标注之后，标注工具自动获取各词素的词素类标记与音节数并将它们与动态词结构模式知识库中的符号序列进行匹配，若相同，则提示对应动态词结构模式，如图13所示。标注者选择对应的动态词结构模式，标注工具会自动完成所标注词语整体词类和内部结构关系的标注。

此外，如果遇到词汇知识库中没有对应义项或者词类信息与句中词不符合时，可通过点击词类标注区中的16个热区按钮来设置或修改(“x”为缺省的词类标记，“w”为标点符号的词类标记)。介词、连词、助词、方位词等有相应虚词位的词类热区以特殊标记突显，可以用来切分虚词位。具体切分模式是：Ctrl键+点击相应词类热区，如图14所示。名词性成分若由谓核结构，其图解形式是以支架顶起形成新的句式层次，具体标注模式：Ctrl键+点击相应的切分热区，如图15所示。

为了方便标注人员操作，提高标注效率，图解工具中还集成了若干辅助性功能，例如：图解成分的拖曳删除和拖曳交换，NP、VP和小句三类单位的复制和粘贴，图解切分操作的撤销和重做等。

总结以上，图解标注工具具有下述典型特点：

①工具将图解公式置于界面的最顶部，既为标注人员提供公式参考，同时本身也是图解标注的热区按钮，与快捷键配合，使得图解标注过程更加形象、直观、简便；

②工具对图解标注规范进行了支持，通过限制某些操作的进行，保证图解标注一致性，避免不合法结构的出现。

③工具集成词汇知识库，图解标注过程中标注人员可通过光标控制焦点词实现与词汇知识库进行实时互动；

④工具集成动态词结构模式知识库，辅助标注人员进行词法标注，同时根据标注结果可对动态词结构模式知识库进行更新补充。

本发明实施例提供的方案，目前已经在实际中应用，已构建了568058字(31638句)基于对外汉语教材语料的句本位汉语树库。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明以汉语传统教学语法中的句本位语法为原型，改造设计出一套构建汉语树库的形式化方案，设计过程中引入了语言学界对“动态词”的研究成果。句本位语法体系曾被广泛应用于语法教学中，与人对句子语法结构的认知方式高度一致。“动态词”是在汉语语言学界中备受关注的一个客观存在的语言现象。因此，采用该发明构建汉语树库将有利于提高树库构建的准确性及效率，同时也有利于信息处理、语法研究以及教学实践三个领域的沟通与融合。具体体现在：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是，上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整，也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，例如：个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，例如：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于句本位语法构建汉语树库的形式化方案，其特征在于，包括：句本位汉语树库句法系统的形式化方案和句本位汉语树库词法系统的形式化方案；

所述句本位汉语树库句法系统的形式化方案包括：

所述句本位汉语树库词法系统的形式化方案包括：

Sb1，构建词汇知识库；

2.根据权利要求1所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，Sa2中，所述各类基础句式的图解公式具体为：

“基本句式”的图解公式为：“主||谓|宾”，即在长横线上分别以双竖线和单竖线分隔主语、谓语和宾语；“扩展句式”的图解公式为：定语、状语、补语和独立语以折线连接于主干横线的下方，定语、状语折向左，补语、独立语折向右，定语采用三折线，独立语采用虚线连接，双宾结构用两条单竖线分别引出两个宾语，并列和同位结构分别用“…”和“＝”间隔；“复杂句式”中，合成谓语句、联合谓语句、兼语句、连动句的图解公式分别为：“主‖谓∶谓∣宾”、“主‖谓∣宾……谓∣宾”、“主‖谓∣宾∥谓∣宾”、“主‖谓∣宾∣谓∣宾”，即分别以“∶”、“……”、“∥”和“/”间隔两个谓核部分；主谓谓语句的图解公式为：采用支架将作谓语的主谓结构顶起；复句的图解公式为：将其中每个分句上下排列并在左侧以虚线连接。

Sa2和Sa3中，所述句法成分与所述虚词位的图解样式具体为：

所述各句法成分的图解样式具有如下切分限制：

3.根据权利要求1所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，Sa4中，所述XML节点标记、属性标记及其结构层级具体为：

4.根据权利要求1所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，Sb1中，所述词汇知识库可以通过对《现代汉语词典·第6版》按义项整理得到，每个词项赋予一个三位数字组成的义项码。

5.根据权利要求1所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，Sb3中，动态词内部词素之间的结构关系包括：并列、定中、状中、述补、动宾、主谓、重叠以及其他。

6.根据权利要求1所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，Sb4中，所述词汇知识库中收录的词的XML存储格式为：每个词对应XML中的一个节点，以词类作为节点标记，所述词类节点上设置属性@sen记录该词在所述词汇知识库中的义项码；

7.根据权利要求6所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，所述动态词的结构模式具体为：

<动态词结构模式>::＝<词素信息>[<结构关系符><词素信息>]+，

其中，<词素信息>::＝<词素类><词素音节数>。

8.根据权利要求7所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，所述结构关系符包括并列“…”、定中“↗”、状中“→”、述补“←”、动宾“|”、主谓“‖”、重叠“·”、其他“-”。

9.根据权利要求1所述的基于句本位语法构建汉语树库的形式化方案，其特征在于，Sa3和/或Sb3采用可视化的图解标注工具进行实施，所述可视化的图解标注工具包括：

句法图解模块，用于对句子进行句法图解切分；