CN111428469B

CN111428469B - 面向句式结构图解分析的交互式标注方法和系统

Info

Publication number: CN111428469B
Application number: CN202010123672.7A
Authority: CN
Inventors: 宋继华; 彭炜明; 管世昱; 郭冬冬; 宋天宝
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-06-16
Anticipated expiration: 2040-02-27
Also published as: CN111428469A

Abstract

本发明提供一种面向句式结构图解分析的交互式标注方法和系统，方法包括：对传统正则表达式进行扩展，得到新型正则表达式；使用新型正则表达式构建句式规则集；对待标注文本进行分词和词性标注，生成词对象序列；使用句式规则集，对词对象序列进行单层句式结构分析，将分析结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内。本发明提供的一种面向句式结构图解分析的交互式标注方法和系统，构建交互式标注环境，语料标注采用逐层分析、逐层标注的模式，且在系统分析结果正确的情况下，所有单层成分的切分可以通过一次鼠标操作完成，因此，提高标注效率。

Description

面向句式结构图解分析的交互式标注方法和系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种面向句式结构图解分析的交互式标注方法和系统。

背景技术

在理论语言学与计算语言学的研究中，树库是一种十分重要的资源。在理论语言学中，树库为语言学家提供了大量基于真实语言的数据，为完善和验证传统的语言学理论奠定了坚实的基础。在计算语言学中，自动句法分析以及各种上层应用都依赖于树库的规模与质量。

主流的树库主要是基于短语结构语法体系和依存结构语法体系进行构建的。经过多年的研究，两种语法体系下的自动句法分析算法的准确率已经能够达到90％左右。所以，树库的建设可以采用首先进行计算机自动分析，然后进行人工校正的方式，进而提高效率。

但是，短语结构语法和依存结构语法都不是教学语法，难以直接应用于汉语语法教学中。目前而言，语法教学研究与中文信息处理之间存在一道很深的信息鸿沟。基于这一事实，有学者从研究服务于语言习得的汉语文本分析技术的角度出发，提出了基于句本位思想的句式结构语法体系(Peng et al.,2015)。与主流的语法体系不同，句式结构语法体系不再局限于探究句子中的二元关系，而是从整体上把握句子的结构：划分句子成分，分析句子成分的排列方式。显然，句式结构语法体系与教学语法十分契合，能够直接应用于汉语语法教学。

目前，依据句式结构语法体系的句法和词法标准，已经开发完成一个句式结构图解标注平台(杨天心,2014；赵敏,2014)用于语料标注。利用该平台，通过人工标注的方式已经建立了约十万句规模的树库。但是，纯人工的标注方式存在两个主要问题：(1)二分的标注过程与句本位思想不符，反而更接近短语结构的思想；(2)句子成分需要逐个切分，标注效率太低。

发明内容

针对现有技术存在的缺陷，本发明提供一种面向句式结构图解分析的交互式标注方法和系统，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种面向句式结构图解分析的交互式标注方法，包括以下步骤：

步骤S1，对传统正则表达式进行扩展，得到新型正则表达式；所述新型正则表达式支持词对象序列的正则匹配；

步骤S2，使用所述新型正则表达式构建句式规则集；具体的，通过句子成分的词形特征和词性特征建立句式规则集，所述句式规则集中的每个句式规则使用所述新型正则表达式表示；其中，所述词性特征为长度为1的英文字母，所述词形特征为长度大于等于1的中文字符串；其中，所述句子成分包括：主语、谓语、宾语、定语、状语和补语；

所述句式规则具体为：

1)获得单层句式结构中各种句子成分的结构规律；

2)根据所述句子成分的结构规律，使用所述新型正则表达式表示每种句子成分；然后，根据句式结构特点，将各个所述句子成分组合在一起，构建得到一条完整的句式规则；

步骤S3，对待标注文本进行分词和词性标注，生成词对象序列；

步骤S4，使用步骤S2构建的所述句式规则集，对步骤S3生成的词对象序列进行正则匹配，将匹配结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内。

优选的，步骤S1具体包括以下步骤：

步骤S101，对传统正则表达式的匹配机制进行改造，使所述新型正则表达式支持匹配所述词对象序列；

具体的，所述新型正则表达式的输入为所述词对象序列，所述新型正则表达式的内部定义的比较操作指令为：使所述词对象序列中当前词对象的任一属性与所述新型正则表达式中当前字符集或词汇集进行比较操作；其中，所述词对象序列包括多个词对象；每个所述词对象是面向对象编程语言中的对象，具有词形属性、词性属性、前标点属性和后标点属性；

步骤S102，对传统正则表达式的基本语法进行扩展，使所述新型正则表达式体现词汇的概念；

具体的，对于所述新型正则表达式，首先定义一种表示词汇集合的词汇语法；所述词汇语法为：使用“[#”和“]”包裹一个词汇集合，形式为：“[#词汇集合]”，所述词汇集合特点为：在中括号内部以符号“#”开始，符号“#”作用为：使正则树生成器识别到符号“#”后面为词汇集合；所述词汇集合包括多个词汇，相邻词汇之间使用符号“|”分隔；

然后，扩展所述新型正则表达式内正则树的节点类型以及操作指令类型，添加词汇集合到正则树再到操作指令的转换程序。

优选的，步骤S2中，所述句式规则更具体为：

针对不同句式结构总结得到每种句子成分所有可能的词形或词性或短语结构，并采用所述新型正则表达式进行表示；

对各种句子成分对应的所述新型正则表达式进行分组，并根据句子成分类别，对分组命名，以便将正则匹配结果表示为句式结构表达式时能够提取到各分组对应的句子成分类型。

优选的，步骤S3具体包括以下步骤：

步骤S301，将待标注文本输入到交互式标注平台；所述交互式标注平台对输入的文本进行分词处理，得到多个词语；

步骤S302，对于分词所得词语进行词性标注，方法为：

采用基于统计的方法进行词性标注，即：计算被标注的词语的每个词性在句式结构语料库中出现的频率；预先设定阈值，将低于阈值的词性全部舍去，将高于阈值的多个词性连接成字符串作为当前词语的备选词性；

步骤S303，对于待标注文本，包含标点和词语两种信息；将每一个非标点的词语转换成一个词对象，将词本身写入所述词对象的词形属性，将词性写入所述词对象的词性属性；将标点分为前标点和后标点，其中，所述前标点包括左单引号、左双引号、左小括号和左书名号，其余标点为所述后标点；将所述前标点写入其后紧邻所述词对象的前标点属性中，将所述后标点写入其前紧邻所述词对象的后标点属性中；

所有所述词对象按照在文本中出现的顺序构成一个所述词对象序列。

优选的，步骤S4具体包括以下步骤：

步骤S401，将所述词对象序列作为输入，依次与所述句式规则集中的句式规则进行正则匹配，如果匹配成功，则继续步骤S402；如果匹配失败，则重新尝试匹配所述句式规则集中的其他句式规则；

步骤S402，遍历所述句式规则集中的新型正则表达式的各个分组，对每个分组捕获到的新型正则表达式进行处理：由新型正则表达式的词形属性、前标点属性以及后标点属性构成字符串，并根据分组的名字加入句式结构表达式中定义的句子成分标识符；

将各字符串按照捕获的索引值由小到大的顺序连接起来，形成一个完整的所述句式结构表达式，将该句式结构表达式作为句式结构分析的最终输出结果。

本发明还提供一种面向句式结构图解分析的交互式标注系统，包括：

新型正则表达式构建模块，用于对传统正则表达式进行扩展，得到新型正则表达式；所述新型正则表达式支持词对象序列的正则匹配；

句式规则集构建模块，用于使用所述新型正则表达式构建句式规则集；具体的，通过句子成分的词形特征和词性特征建立句式规则集，所述句式规则集中的每个句式规则使用所述新型正则表达式表示；其中，所述词性特征为长度为1的英文字母，所述词形特征为长度大于等于1的中文字符串；其中，所述句子成分包括：主语、谓语、宾语、定语、状语和补语；

所述句式规则具体为：

1)获得单层句式结构中各种句子成分的结构规律；

词对象序列生成模块，用于对待标注文本进行分词和词性标注，生成词对象序列；

分析标注模块，用于使用所述句式规则集，对词对象序列进行正则匹配，将匹配结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内。

本发明提供的面向句式结构图解分析的交互式标注方法和系统具有以下优点：

本发明提供的一种面向句式结构图解分析的交互式标注方法和系统，构建交互式标注环境，语料标注采用逐层分析、逐层标注的模式，且在系统分析结果正确的情况下，所有单层成分的切分可以通过一次鼠标操作完成，因此，提高标注效率。

附图说明

图1为本发明提供的面向句式结构图解分析的交互式标注方法的流程示意图；

图2为基于词性信息的句式结构分析过程示意图；

图3为本发明中由分词和词性标注结果转换成词对象序列的过程示意图；

图4为本发明中文本单层句式结构的分析过程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为解决现有技术存在的问题，需要探索句式结构语法体系下的自动句法分析方法。但需要注意的是，只要自动句法分析的准确率无法达到100％，将其用于语料标注时，人工校正的环节就必不可少。对于依存结构来说，完全分析之后再进行校正，只需要调整其中错误的二元关系即可，操作便捷。但对于句式结构来说，校正低层的标注错误需要将高层的标注结果全部推倒重来。显然，逐层分析、逐层标注的模式是最优的。因此，本发明提供一种面向句式结构图解分析的交互式标注方法和系统，是一种单层句式结构的分析方法，并将该方法应用于图解标注平台，最终构建一个面向句式结构图解分析的交互式标注环境。

本发明提供的一种面向句式结构图解分析的交互式标注方法和系统，构建交互式标注环境，语料标注采用逐层分析、逐层标注的模式，且在系统分析结果正确的情况下，所有单层成分的切分可以通过一次鼠标操作完成。与现有标注平台中通过二分法逐一划分句子成分的标注模式相比，本发明新的标注模式更加符合句本位思想，即从整体上分析句子结构。

本发明在标注平台中加入了自动句法分析功能，系统能够提供当前文本的单层句式结构分析结果。当分析结果正确时，标注者能够点击分析结果实现单层句式结构的一键标注。因此，本发明能够提高语料标注的效率，加快树库建设的速度。

如图1-图4，本发明提供一种面向句式结构图解分析的交互式标注方法，最终目的是构建一个面向句式结构图解分析的交互式标注环境，为达到这一目的，首先需要研究文本的单层句式结构分析方法，然后将分析方法加入现有标注平台中，设计一种交互式标注模式。包括以下步骤：

本发明拟通过句子成分的词形和词性特征建立句式规则集，句式规则集中的句式规则使用正则表达式进行表示，然后通过基于句式规则的方法分析文本的单层句式结构。为达到这一目的，首先需要对传统正则表达式进行扩展，使扩展后的新型正则表达式能够支持词对象序列的正则匹配。

本发明定义的词对象是面向对象的编程语言中的对象，该对象包含词形、词性、前标点、后标点等属性。实现词对象序列的正则匹配需要解决两个问题：

其一，传统正则表达式以字符串作为输入，匹配过程中需要不断判断文本中的字符是否等于正则表达式中的字符或属于正则表达式中的字符集。而本发明需要以词对象序列作为输入，一个词对象与正则表达式中字符或字符集匹配的条件是词对象中某一属性等于正则表达式中的字符或属于正则表达式中的字符集。

其二，传统正则表达式以字符为单位，无法体现词的概念。若用正则表达式表示基于词形和词性信息的句式结构规则，词性都是长度为1的字符，但词形的长度却可能超过1。比如正则表达式“可以”，代表的是两个字符“可”和“以”。如果用它来匹配词对象序列，则需要匹配一个词形为“可”的词对象和一个词形为“以”的词对象。但真实的需求是只匹配一个词形为“可以”的词对象。

现有图解标注平台的后端由C#语言编写，因此为解决上述两个问题，本发明对C#中正则表达式的匹配机制和基本语法进行了扩展。

在C#正则表达式的底层库Regex中，正则表达式从声明到匹配在底层实际经历了从正则表达式到正则树再到操作指令序列的转换过程。对正则匹配机制的改造不需要改变正则表达式的语法规则，因此正则树的节点类型、构造方法和操作指令的类型、生成方法都不需要改变。需要改变的只有输入的数据格式和每条非功能性指令下的具体行为。本发明将正则匹配的输入由字符串修改为词对象序列，将所有非功能性指令中判断字符是否相等的操作修改为判断词对象中任一属性与正则表达式中当前字符是否相等的操作，将所有非功能性指令中判断字符是否属于字符集的操作修改为判断词对象中任一属性是否属于字符集或词汇集的操作。表1展示了新型正则表达式与传统正则表达式匹配机制的区别。

表1新型正则表达式与传统正则表达式匹配机制的区别

为了在正则表达式中体现词的概念，需要对正则表达式的基本语法进行扩展。语法的扩展必然会导致正则树的节点类型以及操作指令类型的增加。

首先在语法上定义一种表示词汇集合的形式：“[#词汇集合]”。词汇集合与自定义字符集的区别在于中括号内部以“#”开头，该符号用于告知正则树生成器接下来的是一个词汇集合而不是一个普通的字符集。词汇集合可以包含一个或多个词，多个词之间用“|”分隔，如“[#词汇1|词汇2|词汇3]”。

然后在程序实现方面需要扩展正则树的节点类型以及操作指令类型，添加词汇集合到正则树再到操作指令的转换程序。这一部分涉及具体编码，本说明书不详细展开，编码思路可参考传统正则表达式中字符集对应的节点类型、操作指令类型以及转换程序。表2展示了新型正则表达式中词汇集合语法的应用。

表2新型正则表达式中词汇集合语法的应用

具体的，针对传统正则表达式只能够匹配字符串的局限性，本发明对传统正则表达式的匹配机制进行改造，使所述新型正则表达式能够匹配所述词对象序列；

步骤S1具体包括以下步骤：

具体的，由于各种编程语言对正则表达式的支持程度以及实现方式都不一样，且所述现有图解标注平台的后端由C#语言编写，所以本发明对C#中的正则表达式进行扩展。

C#中正则表达式从声明到匹配在内部经历了从正则表达式到正则树再到操作指令序列的转换过程。本发明将正则匹配的输入由字符串修改为所述词对象序列，并将所有内部定义的操作指令中的字符比较操作修改为所述词对象序列中当前词对象的任一属性与正则表达式中当前单元的比较操作。

所述词对象是一个在程序中定义的包含词形、词性、前标点、后标点等属性的对象，其中词形属性和词性属性用于句式结构分析，前标点和后标点用于记录文本中的标点符号。所述词对象的属性可以根据需要任意地扩展。

所述新型正则表达式的输入为所述词对象序列，所述新型正则表达式的内部定义的比较操作指令为：使所述词对象序列中当前词对象的任一属性与所述新型正则表达式中当前字符集或词汇集进行比较操作；其中，所述词对象序列包括多个词对象；每个所述词对象是面向对象的编程语言中的类，具有词形属性、词性属性、前标点属性和后标点属性；

针对传统正则表达式以字符为单位而无法表示词的局限性，本发明对传统正则表达式的基本语法进行扩展，使所述新型正则表达式能够体现词的概念。

传统的正则匹配以字符为单位。在句式结构语法体系中，词性使用单个英文字母表示，但词形的长度可以超过1，因此传统正则表达式无法用于表达词形与词性信息混合的句式规则。

为了在正则表达式中体现词的概念，本发明定义了一种新的语法，使用“[#”和“]”包裹一个词汇集合，词之间使用“|”分隔。如“[#词汇1|词汇2|词汇3]”，该正则表达式需要一个词形为“词汇1”或“词汇2”或“词汇3”的所述词对象与之匹配。

句式结构分析就是在句式的约束下，从句子中找出各种句子成分。汉语句子主要包括六大句子成分：主语、谓语、宾语、定语、状语和补语。当句子成分不存在层次嵌套时，即句子成分为词典词或动态词时，根据大量的语料标注经验，各种句子成分具有一定的词性倾向：

1、主语和宾语：名词、代词。

2、谓语：动词、形容词。当谓语为形容词时，句子没有宾语。

3、定语：形容词、数量词、名词、指示代词、动词。

4、状语：副词、时间词。

5、补语：数量词。

根据上述认识，便可以基于词性信息使用正则表达式来分别描述各种句子成分，然后根据常见的句式结构将各成分按顺序组合在一起，构建完整的句式规则。如下是一条简单的基于词性信息的双宾语句式规则：

·(mq|[anrv]u？)*[nr]v[nr](mq|[anrv]u？)*[nr]

进行句式结构分析时，将分词后的词性序列字符串作为输入与规则进行正则匹配。为了记录各部分的成分信息及其匹配的子序列，实际规则使用了“命名分组”。匹配成功后，根据捕获内容的成分信息为对应的文本加上成分分隔符即可得到结果句式结构表达式。因此，实际的基于词性信息的双宾语句式规则如下：

·(？<att>mq|[anrv]u？)*(？<sbj>[nr])(？<prd>v)(？<obj>[nr])

(？<att>mq|[anrv]u？)*(？<obj>[nr])

在实际应用中发现，大部分的句式规则可以只依据词性信息，但在一些特殊句式中，仅依靠词性信息很容易出现歧义。如图2所示，展示了一个句子被误分析成双宾语句式的实例。

歧义出现的原因是：对于双宾语句式规则，仅限制谓语的动词词性不够严谨。双宾语动词有其相对明确的范围，一般带有授予义或教示义。因而需要在正则表达式中限定特定成分的具体词形。在复杂句式的规则表达中这种情况尤为明显：

1、合成谓语句：谓语为“助动词/系动词+动词”。

2、兼语句：谓语动词主要分为表使令义和表认定义两类，如：“请”、“让”、“称”。

3、联合谓语句：两个动词性短语之间的某些关联词语，如“而”、“越……越……”。

4、连动句：第一个谓语动词为“来”、“去”等表趋向的动词。

从已标注的大规模语料中将上述特定位置的词分别抽取出来，经过人工筛选后构成词汇集合。在复杂句式规则中，对于这些关键成分，用词汇集合替代词性。此时，一条完整的句式规则将是基于词形和词性信息构建的，因而规则匹配的输入也应该由词性序列变成包含词形和词性信息的词对象序列，这就是步骤一对传统正则表达式进行扩展的原因。

基于词形和词性信息的句式结构规则同样采用由小及大的思路进行构建，即先构建各种成分的规则，然后再由不同成分的规则组合出完整的句式规则。表罗列了规则集中的部分最小规则单元，其中包括主、谓、宾、定、状、补六大句子成分的句式规则，还包括同位、并列、助词等其它成分的句式规则。表中列举的规则是系统中实际使用的规则，考虑较为周全，部分成分的规则中还考虑了简单的介词结构，且规则中一些特殊的助词位也使用了词形进行表示。

表3最小规则单元

名称	正则表达式	说明
			sbj	(？<sbj>[nr])	主语
prd	(？<prd>[va][了着过]？？)	谓语
			obj	(？<obj>[nr])	宾语
att	(？<att>[rm]m？q？\|[antr]f？的？\|v的)	定语
			adv	(？<adv>[vad]地？\|t+\|p[ntr][fu]？)	状语
cmp	(？<cmp>[得p].+？\|[#来\|去]\|mq)	补语
			app	(？<app>[#即])	同位连词，如“我即自己”
coo	(？<coo>[#和\|与\|以及])	并列连词，如“我和他”
			un	(？<un>u+)	名词性短语助词
uv	(？<uv>u+)	动词性短语助词
			cc	(？<cc>c+)	一般连词

将表3中的规则进行组合便可以构成短语规则，比如将att与sbj进行组合能够构成一条名词性短语规则。多个名词性短语规则通过app进行连接就构成了一条同位结构的规则。prd与obj进行组合能够构成一条动词性短语规则。这些短语规则能够用于分析交互式标注过程中产生的短语结构。

完整的句式规则按照句式结构语法体系中句式的分类来制定。扩展句式只是在基本句式的基础上加入了定、状、补等修饰成分，而这些修饰成分在正则表达式中都可以表达成出现次数至少为零的结构。因此，可以将基本句式和扩展句式合二为一，用一条规则表示。根据常见扩展句式中可能出现的成分以及这些成分可能出现的位置，将各成分的正则表达式拼接在一起就能够得到如下所示的扩展句式规则：

·cc+adv+att+sbj+cc+adv+prd+cmp+att+obj+uv

这是一个考虑较为全面的句式规则，能够覆盖大部分的扩展句式。其中，主语和宾语部分的名词性短语可以使用coo或app连接多个，规则中为节约篇幅进行了省略。定、状、补等修饰成分可以有连续的多个，只需在相应的正则表达式后加上“*”即可。规则中的主干成分及其修饰成分都可以缺失，从而使得同一条规则既可以分析完整的句子也可以分析人工切分了部分成分后的不完整句子。

上述扩展句式的规则并未包括双宾语句式。在规则集中，双宾语句式因其谓语动词的特殊性作为一条单独的规则存在。以下是一个完整的双宾语句式规则：

·cc+adv+att+sbj+cc+adv+vooPrd+att+obj+att+obj+

uv

其中vooPrd＝双宾语动词集(vooWords)+“[了着过]？？”，即：[#告诉|供给|建议|授予|提醒|答应|给与|给予|谢谢|赋予|赔偿|请教|通知|问|骂|谓|赠|还|送|递|考|讲|说|给|买|交|付|收|敬|欠|留|看|当|打|找|借|分|包|去|发|叫|喂|回|塞|夸|寄|带|帮][了着过]？？

接下来是四种复杂句式的句式规则：

1、合成谓语句句式规则：

·cc+adv+att+sbj+cc+adv+synWords+adv+prd+cmp+

att+obj+uv

其中synWords为助动词与系动词词汇集合：[#不好意思|不至于|免不了|来不及|来得及|恨不得|禁不住|需要|阴谋|难于|难以|难免|须要|预备|不可|算是|继续|能够|自愿|至于|被迫|要求|计划|设法|试图|足以|进行|渴望|理应|甘心|甘愿|着手|梦想|欢喜|愿意|懒得|打算|持续|放手|应当|应该|开始|值得|先行|得以|忍心|急于|敢于|无力|无法|易于|显得|有待|有意|决定|决心|决计|准备|力争|力图|力求|加以|加紧|动手|勇于|不致|不许|不配|主张|乐于|乐意|习惯|予以|争取|企图|不宜|不屑|不得|不惜|不敢|不暇|容易|希望|并非|可以|可能|可谓|善于|喜欢|图谋|坚持|妄想|学会|宜|应|会|去|可|来|当|得|敢|欲|爱|想|愿|配|该|要|肯|能|需|须|算|是|有]。

2、兼语句句式规则：

·cc+adv+att+sbj+cc+adv+pvtPrd+att+obj+adv+prd+

cmp+att+obj+uv

其中pvtPrd＝pvtWords+“[了着过]？？”，pvtWords为兼语句谓语动词词汇集合：[#允许|帮助|引导|欢迎|没有|要求|让|请|令|任|使|祝|称|给|要|教|有|劝|叫|听]。

3、联合谓语句句式规则：

·cc+adv+att+sbj+cc+adv+prd+cmp+att+obj+

uniWords+adv+prd+cmp+att+obj+uv

其中uniWords为联合谓语句关联词词汇集合：[#而]。

4、连动句句式规则：

·cc+adv+att+sbj+cc+adv+serPrd+cmp+att+obj+adv+

prd+cmp+att+obj+uv

其中serPrd＝serWords+“[了着过]？？”，serWords为连动句第一个谓语动词词汇集合：[#去|来|到|上|有]。

本发明称上述列举的规则为确定性规则。这些规则建立在一个重要假设之上：句子的成分不存在嵌套现象，所有的成分都是一个词。但事实上，中文句子里成分嵌套的现象十分普遍。六种句子成分中，除谓语以外的其它成分都可能存在层次嵌套。为了真正实现句子的单层句式结构分析，本发明在规则集中针对主语、宾语、定语和状语制定了模糊规则，用于匹配存在层次嵌套的部分，补语情况较复杂，本发明暂未考虑。所谓模糊规则就是利用正则表达式“.*”、“.*？”或者“.+”、“.+？”来匹配任意长度的字符串。但是要想在句式规则中使用这样的表示，成分必须具备明确的开始标识和结束标识。

句子或动词性短语作为主语是一种常见的主语部分存在层次嵌套的情况，如句子“送花是西方人的习惯。”。通过统计已标注语料中这类主语之后的谓语发现，谓语动词通常为“是”和“有”。因此在规则集中加入一条模糊规则：当谓语动词为“是”或“有”时，将前面的全部本文分析成主语。

句子或动词性短语也能够作为宾语，如句子“我觉得这件事是对的。”。统计已标注语料中这类宾语之前的谓语并将高频的谓语动词筛选出来便可得到如下词汇集合：

·[#是|说|觉得|知道|认为|以为|希望|有|看|看见|发现|喜欢|想|怕|要求|在于|见|像|听说|记得|决定|相信]

有了这个谓语动词集合后，就可以在句式规则集中加入一条模糊规则：当谓语动词在上述谓词集合中时，将后面的全部文本分析成宾语。

名词性短语和动词性短语都可以充当定语成分，当定语是一个短语结构时，连接定语和中心语的助词“的”往往不能省略。因此，考虑以“的”作为定语部分的结束标识，可以得到如下定语的模糊规则：

·(？<att>.+？的)

其中“.+？”用于匹配层次嵌套的部分。在句式结构的单层分析中，无需知道其中的具体结构，而只需要知道匹配到的整体是定语即可。

状语分为句首状语和句中状语。两者在确定性规则中可以一视同仁，但在定义模糊规则时，根据常见形式以及边界标识的不同，需要分开制定规则。

句首状语位于句子的开头，因此模糊规则中只需要具备结束标识即可。常见的存在层次嵌套且具备结束标识的句首状语主要有以下三种形式：

1、以介词开头并以名词结尾的状语，如“对这个问题”。

2、以方位词结尾的状语，如“明天上午以后”。

3、以“时候”或“时”结尾的状语，如“明天上午放学时”。

根据上述三种形式便可以写出句首状语的模糊规则如下：

·(？<adv>p.*？n|.+？f|.+？[#时候|时])

句中状语因其前后都有其他句子成分，所以模糊规则必须同时具备开始标识和结束标识。常见的具备标识的句中状语主要有以下两种形式：

1、以介词开头并以名词结尾的状语，如“对这个问题”。

2、以介词开头并以方位词结尾的状语，如“除这个问题以外”。

根据上述两种形式便可以写出句中状语的模糊规则如下：

·(？<adv>p.+？f|p.*n)

使用确定性的规则只能够分析单层的句子，而引入模糊规则后，现在的规则集便可以对存在层次嵌套的句子进行单层结构分析。但这样做也会导致规则数目的指数增长，随之而来的是分析结果数目的增长。以扩展句式为例，主宾语前的两处定语都可以为确定性规则或模糊规则。所以，在仅考虑定语的情况下1条确定性扩展句式规则可以延伸出4条规则。若再考虑其它成分，则规则会更多。输入文本产生的词对象序列需依次和所有句式规则进行匹配，只要匹配成功，就会生成一条分析结果。

具体的，根据汉语语法基本常识、专家经验以及大量的语料标注经验，总结各种句子成分的一般规律；根据所述各种句子成分的一般规律，使用所述新型正则表达式表示各种句子成分，并根据常见的句式结构将各成分组合在一起，构建完整的句式规则，进而构建所述句式规则集。

所述句式规则具体为：

1)获得单层句式结构中各种句子成分的结构规律；

步骤S2中，所述句式规则更具体为：

根据常见的句式结构将各种句子成分组合起来，构建完整的句式规则。所有的句式规则构成所述句式规则集，规则集的规模直接影响句式结构分析的性能。

构建完规则集后，便可以通过基于规则的方法分析文本的单层句式结构。首先需要对输入的文本进行分词和词性标注。本发明中分词采用的是最大正向匹配算法，词性标注采用的是一种简单的基于统计的方法。经过多年的标注积累，已标注的语料中记录了词典中每个词的不同词性出现的次数。对于待标注的词，计算出各种词性出现的频率，预先设定好一个阈值，将低于阈值的词性全部舍去，将高于阈值的词性连接成字符串作为待标注词的词性。进行规则匹配时，只要词性字符串中的任意词性与正则表达式中的字符或字符集匹配成功，就认为当前词对象的词性属性与正则表达式中的字符或字符集匹配成功。考虑到句式结构语法体系中的动态词问题以及最大正向匹配分词可能出现的歧义问题等，本发明还在上述分词和词性标注结果的基础上制定了后处理规则，用于修正结果，提高准确率。另外，本发明在句式结构分析时不把标点当作与词同级的概念对待，而将标点作为其紧邻词的属性保存。根据标点出现的位置将其分为前标点和后标点两类，其中前标点包括左单引号、左双引号、左小括号以及左书名号，其余标点为后标点。将前标点保存在其后紧邻词对象的前标点属性中，将后标点保存在其前紧邻词对象的后标点属性中。以句子“你是谁？”为例展示了由分词和词性标注结果转换成词对象序列的过程。这样既可以在句式结构分析时忽略文本中的标点，降低规则的复杂度，又可以在结果呈现时重新在文本中加入标点。

步骤S3具体包括以下步骤：

步骤S301，将待标注文本输入到交互式标注平台；所述交互式标注平台采用最大正向匹配算法对输入的文本进行分词处理，得到多个词语；

步骤S302，对于分词所得词语进行词性标注，方法为：

采用基于统计的方法进行词性标注，即：对于每一个词语，计算被标注的词语的每个词性在句式结构语料库中出现的频率；预先设定阈值，将低于阈值的词性全部舍去，将高于阈值的多个词性连接成字符串作为当前词语的备选词性；

根据专家经验和大量的语料标注经验，制定一系列后处理规则对分词和词性标注的结果进行修正，提高分词和词性标注的准确率；

步骤S4，将单层句式结构分析功能加入图解标注平台中，构建一个交互式标注环境。

对输入文本进行分词和词性标注后得到所述词对象序列，以所述词对象序列作为输入，通过所述新型正则表达式下的正则匹配过程分析文本的单层句式结构，结果以句式结构表达式的形式输出。

使用步骤S2构建的所述句式规则集，对步骤S3生成的词对象序列进行正则匹配，将匹配结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内。

图4以句子“他给我十块钱。”为例，说明了上述分析过程。句式结构分析的输入是文本，输出是句式结构表达式。之所以使用句式结构表达式来表示分析结果是因为标注者能够通过句式结构表达式迅速地判断结果是否正确。

句式结构表达式定义的句子成分标识符具体如下：

1、定、状、补语分别以小括号()、中括号[]和尖括号＜＞括起；对于存在层次嵌套的成分(比如主、宾语由动词短语构成，或谓语为主谓结构)，以大括号{}括起。

2、主语、谓语、宾语以及多个谓核部分之间以分隔符间隔，具体字符如下：

·主‖谓动|宾

·兼语句谓语：VP1∥VP2 连动句谓语：VP1/VP2

·联合谓语：VP1……VP2 合成谓语：VP1∶VP2

3、虚词位中的虚词也作为中心词，分别按如下方式连接：介词∧、□方位词、

▲助词，连词情况分三种：¨连词¨(并列结构)、＝连词＝(同位结构)、…连词…(联合谓语之间)。

步骤S4具体包括以下步骤：

本发明中，图解标注平台仅对当前文本进行单层句式结构分析，既能够对完整的句子进行分析也能够对标注过程中产生的短语进行分析；对于一个输入文本，系统提供零个、一个或多个分析结果；分析结果以所述句式结构表达式的形式呈现，标注者可通过点击分析结果进行一键标注。

以句子“勤劳的工人准备修建天桥的材料。”为例，经试验，，在传统标注平台中，句法标注需要不断地进行定位光标、切分成分操作。虽然句式结构语法体系讲求句本位的思想，但在标注过程中，仍然采用的是二分操作，一次操作只能切分出一种句子成分，导致标注效率极其低下。

本发明将单层句式结构分析功能加入现有标注平台中，构建了一个交互式标注环境。在该交互式标注环境中，一次交互式标注过程如下：

1、系统对待标注的文本进行分词和词性标注，生成词对象序列。

2、利用句式规则集对词对象序列进行单层句式结构分析，如果得到分析结果，则将分析结果以句式结构表达式的形式提示在待分析文本旁边的悬浮框内。

3、标注者查看悬浮框内是否存在正确的分析结果，如果存在则点击该结果完成单层句式结构的一键标注，如果不存在则忽略系统分析结果进行人工标注。

然而，系统不总是能够提供正确的分析结果。当系统提供的分析结果中存在正确选项时，标注者点击该选项完成当前文本的单层句式结构标注。当系统提供的分析结果中不存在正确选项时，标注者仍需采用手工的方式进行标注。但在系统中，只要某一文本框获得焦点，系统就会对其中的文本进行单层句式结构分析。所以即使当前文本只能够手工开始标注，但标注过程中产生的短语仍有可能通过系统分析的结果进行一键标注。

综上，本发明对“交互式”的定义主要体现在两个方面：逐层分析、逐层标注；计算机能分析时计算机标注，不能分析时人工标注。因此，任何一个句子的标注都是由标注者和计算机共同完成的。从“交互式”的定义出发，本发明构建的以人为主、机器为辅的交互式环境具有以下三大主要特点：

特点1、仅对当前文本进行单层句式结构分析，既能够对完整的句子进行分析，也能够对标注过程中产生的短语进行分析。

特点2、对于一个输入文本，系统提供零个、一个或多个分析结果。

特点3、分析结果以句式结构表达式的形式呈现，标注者可通过点击分析结果进行一键标注。

特点1保证了逐层分析、逐层标注的标注模式，计算机分析将渗透到标注的整个过程中。特点2中，零个结果说明系统无法分析当前文本。多个结果是因为文本在分词阶段可能产生多种分词结果，而一个分词结果也可能匹配到多条规则，那么此时系统就会提供多种结果供标注者选择。标注者需要自己判断其中是否有正确的结果，若没有，则依旧进行人工标注。这说明了本发明构建的环境虽然摒弃了纯人工的标注方式，但依旧是以人为主，机器为辅的。特点3是该交互式标注环境能够体现句本位思想并提高标注效率的本质所在，当分析结果正确时，用户只需点击一次就可以完成所有成分的标注。

所述句式规则具体为：

1)获得单层句式结构中各种句子成分的结构规律；

本发明属于自然语言处理领域，具体构建了一个面向句式结构图解分析的交互式标注方法和系统，旨在改进现有句式结构图解标注平台的语料标注模式。本发明构建了一个面向句式结构图解分析的交互式标注环境，具体包括扩展传统正则表达式，使得新型正则表达式能够支持词对象序列的正则匹配；使用新型正则表达式构建句式规则，通过基于规则的方法分析文本的单层句式结构；将单层句式结构分析功能加入到现有图解标注平台中，构建一个交互式标注环境。基于上述步骤，本发明构建的交互式标注环境能够改进现有的语料标注模式，提高标注效率。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过与计算机程序指令相关的硬件来完成的，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM：Read-Only Memory)或随机存储记忆体(RAM：RandomAccess Memory)等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种面向句式结构图解分析的交互式标注方法，其特征在于，包括以下步骤：

步骤S1，对传统正则表达式进行扩展，得到新型正则表达式；所述新型正则表达式支持词对象序列的正则匹配；其中，传统正则表达式以字符串作为输入，以字符为单位匹配，匹配过程中需要不断判断文本中的字符是否等于正则表达式中的字符或属于正则表达式中的字符集；

所述句式规则具体为：

1)获得单层句式结构中各种句子成分的结构规律；

步骤S4，使用步骤S2构建的所述句式规则集，对步骤S3生成的词对象序列进行正则匹配，将匹配结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内；

其中，步骤S1具体包括以下步骤：

2.根据权利要求1所述的面向句式结构图解分析的交互式标注方法，其特征在于，步骤S2中，所述句式规则更具体为：

3.根据权利要求1所述的面向句式结构图解分析的交互式标注方法，其特征在于，步骤S3具体包括以下步骤：

步骤S302，对于分词所得词语进行词性标注，方法为：

4.根据权利要求1所述的面向句式结构图解分析的交互式标注方法，其特征在于，步骤S4具体包括以下步骤：

5.一种面向句式结构图解分析的交互式标注系统，其特征在于，包括：

新型正则表达式构建模块，用于对传统正则表达式进行扩展，得到新型正则表达式；所述新型正则表达式支持词对象序列的正则匹配；其中，传统正则表达式以字符串作为输入，以字符为单位匹配，匹配过程中需要不断判断文本中的字符是否等于正则表达式中的字符或属于正则表达式中的字符集；

具体包括：对传统正则表达式的匹配机制进行改造，使所述新型正则表达式支持匹配所述词对象序列；

对传统正则表达式的基本语法进行扩展，使所述新型正则表达式体现词汇的概念；

然后，扩展所述新型正则表达式内正则树的节点类型以及操作指令类型，添加词汇集合到正则树再到操作指令的转换程序；

所述句式规则具体为：

1)获得单层句式结构中各种句子成分的结构规律；