CN112949286A

CN112949286A - 一种基于句式结构的汉语自动句法分析器

Info

Publication number: CN112949286A
Application number: CN202110256750.5A
Authority: CN
Inventors: 赵敏; 彭炜明; 宋继华; 王宁; 陈晨; 管世昱
Original assignee: Beijing Hanya Tiancheng Education Technology Co ltd
Current assignee: Beijing Hanya Tiancheng Education Technology Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-11
Anticipated expiration: 2041-03-09
Also published as: CN112949286B

Abstract

本发明提供一种基于句式结构的汉语自动句法分析器，包括S1，扩展正则表达式的语法模式，实现基于多元词特征序列的扩展正则表达式语法；S2，使用S1得到的所述扩展正则表达式语法，构建句法规则库；S3，构建与S2构建的所述句法规则库配套的词汇知识库和词法知识库；S4，基于S3构建的词汇知识库和词法知识库，采用词法、句法一体化分析算法进行句式结构的汉语自动句法分析。本发明的有益效果是：本发明实现了基于句式结构体系的汉语自动句法分析功能，提升了大规模句本位语法树库的构建效率，为形式化的图解析句与中文信息处理下游应用的衔接铺平了道路。

Description

一种基于句式结构的汉语自动句法分析器

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于句式结构的汉语自动句法分析器。

背景技术

汉语自动句法分析是指：根据给定的语法体系，自动推导出句子的语法结构，分析句子所包含的语法单元和这些语法单元之间的关系。句法分析作为自然语言处理领域关键技术之一，其一方面可以为后续语义分析提供技术支撑，另一方面可以对机器翻译、信息抽取、问答系统、语料自动处理等诸多上层应用提供帮助。

主流的基于短语结构语法体系和依存结构语法体系的自动句法分析算法的准确率已经能够达到90％左右，但这两种语法体系都不是教学语法，难以直接应用到汉语教学中。而句式结构语法与教学语法十分契合，基于句式结构语法体系的自动句法分析也能够在汉语教学领域有更深层次的应用。目前，自然语言处理领域还缺少一种基于句式结构的汉语自动句法分析器。

发明内容

本发明的目的在于提供一种基于句式结构的汉语自动句法分析器，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

本发明提供一种基于句式结构的汉语自动句法分析器，包括如下步骤：

S1，扩展正则表达式的语法模式，实现基于多元词特征序列的扩展正则表达式语法；

S2，使用S1得到的所述扩展正则表达式语法，构建句法规则库；

S3，构建与S2构建的所述句法规则库配套的词汇知识库和词法知识库；

S4，基于S3构建的词汇知识库和词法知识库，采用词法、句法一体化分析算法进行句式结构的汉语自动句法分析，具体步骤为：

使用逗号标点“，”将输入句子切分为多个标点句；

采用S3构建的所述词汇知识库和词法知识库，对每个标点句进行词法分析，生成词特征序列候选集；

采用S2构建的所述句法规则库，对所述词特征序列候选集进行句法分析，输出句式结构表达式，完成句式结构的汉语自动句法分析。

优选的，S1中，采用以下方法，扩展正则表达式的语法模式：

S101，扩展正则表达式的匹配基元为词特征，包括：从词形特征、词类特征、子类特征和所附标点特征中选择其一，词类特征或子类特征后以字符为单位进一步限制词长；扩展正则表达式与输入词特征序列的匹配过程称为扩展正则匹配；

S102，词形特征为连续的中文字符串，词类特征为单个ASCII小写英文字母，子类特征为词类特征字母后加上①～

的组合形式，所附标点特征包括前标点特征和后标点特征两类，前标点特征包括左单引号特征、左双引号特征、左括号特征和左书名号特征，其余为后标点特征；

S103，扩展正则表达式最终表示形式为字符串，其中基元解析法则为：连续中文字符作为一个词形特征，若想表达连续的两个词形特征，两个词形特征各采用小括号括起来作为两个正则分组；前标点特征转化为正则表达式中的正向预查模式，后标点特征转化为正则表达式中的逆向预查模式，得到最终的扩展正则表达式的语法模式。

优选的，S2中，所述构建句法规则库的步骤为：

S201，按照句式结构的成分格局，推导单层句式结构的成分序列组合模式，采用形式文法表示如下：

小句句式::＝连？状*定*主连？谓语部分助？

谓语部分::＝单核谓语|合成谓语|联合谓语

|连动谓语|兼语谓语|主谓谓语

单核谓语::＝状*谓定*宾

|状*谓

|状*谓定*宾定*宾

|状*谓补

|状*谓定*宾补

|状*谓补定*宾

合成谓语::＝状*谓谓语部分

联合谓语::＝单核谓语连？谓语部分

连动谓语::＝单核谓语谓语部分

兼语谓语::＝状*谓(定*宾){1,2}谓语部分

主谓谓语::＝小句句式

其中，主、谓、宾、定、状、补表示六种句子成分，连、助表示句式结构中的连词位和助词位；上述推导表示成最终的扩展正则表达式时，句子成分采用“(？<xxx>)”的命名分组形式，xxx对应编码为：主语/sbj、谓语/prd、宾语/obj、定语/att、状语/adv、补语/cmp、独立语/ind，虚词位采用“(？<xx>)”的命名分组形式，xx对应编码为：连词位/cc、助词位/uu、介词位/pp、方位词位/ff；

S202，按照句本位语法的成分和词类对应关系，推导句子成分的词特征序列组合模式，采用形式文法表示如下：

1)主::＝NP

2)宾::＝NP

3)NP::＝NP(c？NP)*|n|t|r①|m①|.+？的|.+？f

4)谓::＝v|a|r②

5)定::＝n|a|r③|m|.+的

6)状::＝d|a|t|n①|r③|m②|.+地|.+？f|PP

7)补::＝d|a|m②|得.+|PP

8)PP::＝p.+？(f|u⑧)？

9)独::＝(e|NP)，

上述推导表示成最终的扩展正则表达式时，其中虚词词类采用S201中所述的虚词位形式；

S203，补充S201、S202之外的标点句模式，如下：

句前模式::＝连？(状|独)+，

谓前模式::＝连？(状|独)*主，

|连？(状|独)*主连？(状|独)+，

连名模式::＝连NP，

S204，为S201、S202、S203的模式建立句法规则，数据库字段包括：id、模式名称、模式表达式、标点句类型、频次、句法选用概率；其中，标点句类型字段取值为：xj、np、vp、jq、wq、null，与S201、S202的形式文法中产生式的对应关系为：小句句式/xj，谓语部分/vp，NP和连名模式/np，句前模式/jq，谓前模式/wq，其它/null；所述句法选用概率的计算公式为：

其中，句法规则的使用频次、模式表达式的匹配次数均从句本位语法树库中统计得到。

优选的，S3中，词汇知识库和词法知识库具体为：

S301，词汇知识库的数据库字段包括：id、词形、词类、子类、释义、用例、频次、是否组合歧义；其中，词类的字母编码为：名词/n、时间词/t、方位词/f、数词/m、量词/q、代词/r、动词/v、形容词/a、副词/d、介词/p、连词/c、助词/u、叹词/e、拟声词/o、标点/w；

子类编码如下：

n①：时空类名词

n②：中国人名之姓氏

n③：中国人名

v①：不及物动词

v②：及物动词

v③：双宾动词

v④：引出兼语谓语的动词

v⑤：引出合成谓语的动词

v⑥：由动词短语或小句充当宾语的动词

v⑦：趋向动词

v⑧：引出连动谓语的动词

v⑨：可作结果补语的动词

v⑩：可以独立充当状语的动词

a①：属性词

a②：状态词

a⑨：可作结果补语的形容词

m①：数词与名量词组合的数量词

m②：数词与动量词或时量词组合的数量词

q①：名量词

q②：动量词或时量词

r①：代名词

r②：代谓词

r③：代饰词

c①：连接小句的连词

c②：连接并列NP的连词

c③：连接同位语的连词

c④：连接联合谓语的连词

u①：语气助词

u②：动态助词

u③：连接定、状、补的结构助词

u④：用于句末的结构助词

u⑤：用于NP后的结构助词

u⑥：用于VP前的结构助词

u⑦：用于句首的结构助词

u⑧：框式结构中的结构助词

S302，词法知识库存储句式结构中的动态词结构模式，其数据库字段包括：id、模式名、结构属性、词法正则表达式、词类、子类、示例、频次、词法选用概率；

其中，结构属性对应句式结构体系XML中的@mod属性；词法正则表达式采用扩展正则表达式形式，用于匹配动态词内部的词素特征序列；词类取值同S301中词类的字母编码；子类有两种取值方式，一种是取S301中子类编码，另一种是：用“\n”形式，其中n代表一个数字，表示动态词的子类特征由内部第n个词素的子类特征决定；

词法选用概率的计算公式为：

其中，动态词结构模式的使用频次、词法正则表达式的匹配次数均从句本位语法树库中统计得到。

优选的，S4中，词法、句法一体化分析算法中的词法分析流程为：

S401，针对S301所述词汇知识库的所有词条构建Trie树，在树节点中增设“候选词类”和“候选子类”属性，记录某一词形在S301所述词汇知识库中所有词条的特征信息；

S402，利用S401构建的所述Trie树，采用最大正向匹配算法对输入句子进行分词，分词结果表示为词序列，为每个词配置词形、词长、词类、子类和所附标点特征，其中词类和子类取自S401所述Trie树的候选词类和候选子类属性；

S403，用窗口法截取S402所述的词序列，与S302所述词法知识库中的词法正则表达式匹配；若匹配成功，则生成一个新的动态词节点，并根据S302所述词法知识库中的词类和子类属性为其设置词特征；汇总动态词节点与S402所述分词的节点，构建有向无环图DAG；

S404，分别处理所述DAG中的交集型和组合型两类分词歧义；

S405，输出所述DAG中的所有节点路径，每条路径对应一个词特征序列。

优选的，S4中，所述词法、句法一体化分析算法中的句法分析流程为：

S406，取S204所述“标点句类型”字段值不为null的句法规则，对其模式表达式中所含的子模式名称进行递归的模式表达式替换，得到最终的扩展正则表达式；

对S405所述词特征序列进行扩展正则匹配，根据命名分组生成句式结构表达式，方法为：将各命名分组依次生成相应的表达式后拼接，每个命名分组的表达式为“左符号+捕获内容+右符号”，其中左符号或右符号可以为空，命名分组的左、右符号对应为：sbj‖、|obj、﹙att﹚、﹝adv﹞、﹤cmp﹥、〖ind〗、﹛spp﹜、_··coo_·、：＝app＝：、syn∶、··uni·、pvt//、ser/、^··cc^·、pp∧、□ff、△un、▽uv、

uua、

uuc；

若句法规则中包含“.+”、“.+？”、“.*”、“.*？”四类通配形式，则对其匹配内容按如下方式递归调用句法规则进行扩展正则匹配：若通配部分的成分性质为NP，而句法规则的标点句类型为xj或vp，则递归调用生成的句式结构表达式加上“﹛﹜”后替换通配部分；否则，直接替换；将递归的最外层句法规则的标点句类型作为最终句式结构表达式的标点句类型；

S407，根据S406所述句式结构表达式的标点句类型，按如下步骤转换或归并标点句：

1)依次归并符合NP复式结构条件的np类型标点句至其相邻标点句成分；

2)合并小句范围内的标点句序列；

3)将剩余未合并的np类型标点句转化为独立语，再次进行2)；

4)将剩余未合并的独立语恢复为np类型标点句，转化为独词句；在vp类型标点句的句式结构表达式之前补上“×‖”，转化为xj类型；

S408，针对S407生成的多条句式结构表达式分别计算权重，公式如下：

其中：

expr：表示句式结构表达式；

ju：表示待分析的句子；

xj：表示ju中的小句；

bdj：表示xj中的标点句；

Weight_lex：表示词法权重；

Weight_syn：表示句法权重；

Weight(expr)：表示句式结构表达式的权重；

αⁱ：α表示取值大于1的加权因子，i表示第i层递归；

path(expr)：表示生成expr的递归路径，其中元素为扩展正则表达式及其递归深度；

WordList：表示扩展正则匹配的输入词序列；

Weight_w(w)：表示词w的权重；

lexicon：表示S201所述词汇知识库；

p(w)：表示S302所述动态词w的词法选用概率；

Weight_syn(regex)：表示regex的句法权重；

syn：表示句法；

p(regex)：表示S204所述句法规则regex的句法选用概率；

λ为加权值；

取Weight(expr)值最小的expr作为最终输出结果。

本发明的有益效果是：本发明实现了基于句式结构体系的汉语自动句法分析功能，提升了大规模句本位语法树库的构建效率，为形式化的图解析句与中文信息处理下游应用的衔接铺平了道路。

附图说明

图1是本发明提供的基于句式结构的汉语自动句法分析流程图；

图2是本发明提供的标点句动态词识别后的有向无环图示例图；

图3是本发明提供的具体实施例一的分析过程及其最终图解结果；

图4是本发明提供的具体实施例二分析结果的图解形式。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供一种基于句式结构的汉语自动句法分析器，包括如下步骤：

S2，使用S1得到的所述扩展正则表达式语法构建句法规则库；

使用逗号标点“，”将输入句子切分为多个“标点句”；

采用S2构建的所述的句法规则库，对所述词特征序列候选集进行句法分析，输出句式结构表达式，完成句式结构的汉语自动句法分析。

S1具体包括以下步骤：

S101，扩展正则表达式的匹配基元为词特征，可以从词形特征、词类特征、子类特征和所附标点特征中选择其一，词类特征或子类特征后还可以字符为单位进一步限制词长；扩展正则表达式与输入词特征序列的匹配过程称为扩展正则匹配；

的组合形式，所附标点特征分为前标点特征和后标点特征两类，左单引号、左双引号、左括号和左书名号为前标点特征，其余为后标点特征。

扩展正则表达式词特征的具体示例如下表所示：

本发明技术上采用了C#语言，定义一个Word类来表示一个多元词特征，其中定义5个String类型的属性：word、pos、pos2、prepunc、postpunc，分别表示词形、词类、子类、前标点、后标点特征，使用一个List<Word>对象表示一个多元词特征序列。

对.Net Framework正则表达式库System.Text.RegularExpressions.Regex进行扩展，使其能够满足扩展正则匹配的需求。首先，为了能够解读词形、词类、子类、词长等特征，本发明在Regex原有枚举类型RegexCode中新增两个枚举值：

1)RegexCode.Lex：对应的规则模式为小写英文字母后接数字或①～

其整体对一个输入词特征进行解析，表示在词类匹配的情况下，同时又增加子类和词长的限制。

2)RegexCode.CnWord：对应的规则模式为连续的汉字字符，其整体对一个输入词特征进行解析，表示对词特征的词形去进行匹配。

其次，本发明对Regex中匹配模块的代码逻辑进行扩展，将正则表达式的匹配基元由字符修改为多元词特征，将其内部指令中字符比较的操作逻辑修改为：根据正则表达式中的当前基元的RegexCode属性要求，比较输入Word与当前基元相应的词特征。

S2具体包括以下步骤：

小句句式::＝连？状*定*主连？谓语部分助？

谓语部分::＝单核谓语|合成谓语|联合谓语

|连动谓语|兼语谓语|主谓谓语

单核谓语::＝状*谓定*宾

|状*谓

|状*谓定*宾定*宾

|状*谓补

|状*谓定*宾补

|状*谓补定*宾

合成谓语::＝状*谓谓语部分

联合谓语::＝单核谓语连？谓语部分

连动谓语::＝单核谓语谓语部分

兼语谓语::＝状*谓(定*宾){1,2}谓语部分

主谓谓语::＝小句句式

1)主::＝NP

2)宾::＝NP

3)NP::＝NP(c？NP)*|n|t|r①|m①|.+？的|.+？f

4)谓::＝v|a|r②

5)定::＝n|a|r③|m|.+的

6)状::＝d|a|t|n①|r③|m②|.+地|.+？f|PP

7)补::＝d|a|m②|得.+|PP

8)PP::＝p.+？(f|u⑧)？

9)独::＝(e|NP)，

其中词类特征和子类特征的具体解释参见S301；

上述推导表示成最终的扩展正则表达式时，其中虚词词类需采用如S201中所述的虚词位形式；

S203，补充S201、S202模式之外的标点句模式，如下：

句前模式::＝连？(状|独)+，

谓前模式::＝连？(状|独)*主，

|连？(状|独)*主连？(状|独)+，

连名模式::＝连NP，

S204，为S201、S202、S203的模式建立句法规则，数据库字段包括：id、模式名称、模式表达式、标点句类型、频次、句法选用概率；其中，所述标点句类型字段取值为：xj、np、vp、jq、wq、null，与S201、S202的形式文法中产生式的对应关系为：小句句式/xj，谓语部分/vp，NP和连名模式/np，句前模式/jq，谓前模式/wq，其它/null；所述句法选用概率的计算公式为：

句法规则库主要部分示例如下表：

S3所述词汇知识库和词法知识库具体为：

S301，词汇知识库的数据库字段包括：id、词形、词类、子类、释义、用例、频次、是否组合歧义；其中，词类的字母编码为：名词/n、时间词/t、方位词/f、数词/m、量词/q、代词/r、动词/v、形容词/a、副词/d、介词/p、连词/c、助词/u、叹词/e、拟声词/o、标点/w；子类编码如下：

n①：时空类名词，例如：期间、路上、年来……

n②：中国人名之姓氏，例如：张、赵、南宫……

n③：中国人名，例如：巴金、贾宝玉、鲁智深……

v①：不及物动词，例如：游泳、坐、走……

v②：及物动词，例如：吃、玩、讨论……

v③：双宾动词，例如：给、送、递……

v④：引出兼语谓语的动词，例如：让、使、令……

v⑤：引出合成谓语的动词，例如：不敢、甘愿、应当……

v⑥：由动词短语或小句充当宾语的动词，例如：承认、听说、感觉……

v⑦：趋向动词，例如：过去、出来、来……

v⑧：引出连动谓语的动词，例如：前来、到、伸手……

v⑨：可作结果补语的动词，例如：定、懂、完……

v⑩：可以独立充当状语的动词，例如：不知不觉、想来、看来……

a①：属性词，例如：定期、必然、低等……

a②：状态词，例如：笔直、碧绿、白皑皑……

a⑨：可作结果补语的形容词，例如：多、错、饱……

m①：数词与名量词组合的数量词，例如：八成、片刻、好些……

m②：数词与动量词或时量词组合的数量词，例如：百般、一辈子、万年……

q①：名量词，例如：袋、根、个……

q②：动量词或时量词，例如：回、秒、遍……

r①：代名词，例如：此、大家、彼……

r②：代谓词，例如：那样、如此、为什么……

r③：代饰词，例如：哪、怎么、那么……

c①：连接小句的连词，例如：不管、不但、虽然……

c②：连接并列NP的连词，例如：跟、及、与……

c③：连接同位语的连词，例如：即、兼、包括……

c④：连接联合谓语的连词，例如：而、或者、进而……

u①：语气助词，例如：啊、吧、呢……

u②：动态助词，例如：着、了、过……

u③：连接定、状、补的结构助词，例如：的、地、得……

u④：用于句末的结构助词，例如：的、者……

u⑤：用于NP后的结构助词，例如：的、等、什么的……

u⑥：用于VP前的结构助词，例如：所、给、被……

u⑦：用于句首的结构助词，例如：夫、若夫、惟……

u⑧：框式结构中的结构助词，例如：似的、一样、般……

本发明中采用《现代汉语词典》(以下简称《现汉》)作为词汇知识库中词形、词类、释义、用例的信息来源；子类信息一部分来源于《现汉》，一部分根据树库标注过程动态添加。

其中，结构属性对应句式结构体系XML中的@mod属性；词法正则表达式采用扩展正则表达式形式，用于匹配动态词内部的词素特征序列；词类取值同S301中词类的字母编码。

子类有两种取值方式，一种是取S301中所列的固定值，即：子类编码，另一种是用“\n”形式，其中n代表一个数字，表示动态词的子类特征由内部第n个词素的子类特征决定：比如，“v:v-着”模式的子类字段值为“\1”，则动态词的子类继承自其中词素v的子类；“m:m-q”模式的子类字段值为“\2”，则动态词的子类由词素q决定，按“q①＝>m①,q②＝>m②”规则映射。

词法选用概率的计算公式为：

结构属性具体为：

<结构属性>::＝<词素信息>[<结构关系符><词素信息>]+，

<词素信息>::＝<词素类><词素字数>。

其中，词素类采用和词类相同的标记，并且词缀的标记同助词(u)，词素字数为1个阿拉伯数字，结构关系符如下表：

词法知识库部分示例如下表：

S4所述词法、句法一体化分析算法中的词法分析流程为：

S401，针对S301所述词汇知识库的所有词条构建Trie树，在树节点中增设哈希类型的“候选词类”和集合类型的“候选子类”属性，记录某一词形在S301所述词汇知识库中所有词条的特征信息；

只有当节点为Trie树终止节点时，取值非空；“候选词类”的“键/值”为当前节点对应词形在S301所述词汇知识库中所有词条的“词类/总频次”；“候选子类”为当前节点对应词形在S301所述词汇知识库中所有词条子类特征的并集；

S403，用长度为5以内的窗口截取S402所述的输入词序列，与S302所述词法知识库中的词法正则表达式匹配；若匹配成功，则生成一个新的动态词节点，并根据S302所述词法知识库中的词类和子类属性为其设置词特征；汇总动态词节点与S402所述分词节点，构建有向无环图DAG；

S404，分别处理所述DAG中的交集型和组合型两类分词歧义；

处理如下两类分词歧义字段：

1)交集歧义：遍历DAG中所有多字节点，判断其首字以外子串与后续节点能否组合成词，若能，则生成一个新节点插入DAG；

2)组合歧义：遍历DAG中所有多字节点，查询S301所述词汇知识库“是否组合歧义”字段，若为真，则将其拆分为单字节点插入DAG；

S4所述词法、句法一体化分析算法中的句法分析流程为：

uua、

uuc；

如下表所示，其中“-”表示空字符串：

S407，根据S406所述句式结构表达式的标点句类型，按如下步骤合并：1)依次归并符合NP复式结构条件的np类型标点句至其相邻标点句成分；

2)合并小句范围内的标点句序列；

3)将剩余未合并的np类型标点句转化为独立语，再次进行2)；

具体合并方法为：

1)遍历np类型的标点句，判断其中心词与上一标点句末尾成分或下一标点句起始成分的中心词能否构成并列或同位关系；若能，则删除当前标点句，将其合并至所述末尾成分或起始成分中；

2)首先，合并如下标点句类型的序列模式，将“→”左侧标点句序列的句式结构表达式拼接，作为“→”右侧新生成标点句的句式结构表达式：

a)np vp→xj

b)jq+xj→xj

c)jq+vp→vp

d)wq vp→xj

其次，针对前后相邻的np类型和xj类型标点句，判断是否符合主谓谓语句的结构条件，若能，则将它们合并成一个新的xj类型标点句，句式结构表达式为“np‖﹛xj﹜”；

3)将标点句序列中剩余的np类型标点句转化成jq类型标点句，句式结构表达式为“〖np〗”，再尝试2)中b)、c)模式合并；

其中：

expr：表示句式结构表达式；

ju：表示待分析的句子；

xj：表示ju中的小句；

bdj：表示xj中的标点句；

Weight_lex：表示词法权重；

Weight_syn：表示句法权重；

Weight(expr)：表示句式结构表达式的权重；

αⁱ：α表示取值大于1的加权因子，i表示第i层递归；

WordList：表示扩展正则匹配的输入词序列；

Weight_w(w)：表示词w的权重；

lexicon：表示S201所述词汇知识库；

p(w)：表示S302所述动态词w的词法选用概率；

Weight_syn(regex)：表示regex的句法权重；

syn：表示句法；

p(regex)：表示S204所述句法规则regex的句法选用概率；

λ为加权值；

取Weight(expr)值最小的expr作为最终输出结果。

下面列举本发明两个具体实施例：

具体实施例一

以句子“此时，勤劳的工人在道路旁，已经备好了修建这条铁路的材料。”为例，标点句切分与最大正向匹配分词结果如下：

标点句1：此时，

标点句2：勤劳的工人在道路旁，

标点句3：已经备好了修建这条铁路的材料。

以标点句3为例，经过S403动态词识别后的有向无环图DAG如图2所示，其中涉及的动态词及其模式如下：

1)备好：v:v←a

2)好了：v:a-u

3)备好了：v:v←a-u

4)这条：m:m-q

S405输出的分词路径及其权重如下：

已经备好了修建这条铁路的材料。#词法权重：5.89

已经备好了修建这条铁路的材料。#词法权重：6.99

已经备好了修建这条铁路的材料。#词法权重：7.08

已经备好了修建这条铁路的材料。#词法权重：7.67

已经备好了修建这条铁路的材料。#词法权重：8.22

已经备好了修建这条铁路的材料。#词法权重：8.77

已经备好了修建这条铁路的材料。#词法权重：8.86

已经备好了修建这条铁路的材料。#词法权重：10

S406、S407的主要输出结果如图3所示，其中标点句的结构表达式只展示了权重排序靠前的几条，其扩展正则匹配的步骤如下：

表中最后两行为标点句3的两层递归调用，替换之后的最终句式结构表达式见图3。

具体实施例二

以句子“像贾家的大观园里，可以住着姑表林黛玉，姨表薛宝钗，后来更多了，什么宝琴，岫云，凡是拉得上亲戚的，都包容得下。”为例，此处省略标点句的内部分析过程，只展示S407的实施过程，具体如下：

步骤1)np类型标点句归并复式结构的结果如下：

步骤2)标点句归并成xj的结果的如下：

至此，序列中不存在np类型标点句，因此最终结果为3个小句，句式结构表达式如下：

﹝像∧﹙贾家

的﹚大观园□里，﹞×║可以∶住着│﹙姑表﹚林黛玉，...﹙姨表﹚薛宝钗，

×║﹝后来﹞﹝更﹞多▽了，

﹙什么﹚宝琴，...岫云，：＝＝：﹛﹝凡是﹞拉得上│亲戚▽的，﹜║﹝都﹞包容得下。

相应的图解形式如图4。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是，上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整，也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，例如：个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，例如：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于句式结构的汉语自动句法分析器，其特征在于，包括如下步骤：

使用逗号标点“，”将输入句子切分为多个标点句；

2.根据权利要求1所述的基于句式结构的汉语自动句法分析器，其特征在于，S1中，采用以下方法，扩展正则表达式的语法模式：

S102，词形特征为连续的中文字符串，词类特征为单个ASCII小写英文字母，子类特征为词类特征字母后加上

3.根据权利要求1所述的基于句式结构的汉语自动句法分析器，其特征在于，S2中，所述构建句法规则库的步骤为：

小句句式::＝连？状*定*主连？谓语部分助？

谓语部分::＝单核谓语|合成谓语|联合谓语

|连动谓语|兼语谓语|主谓谓语

单核谓语::＝状*谓定*宾

|状*谓

|状*谓定*宾定*宾

|状*谓补

|状*谓定*宾补

|状*谓补定*宾

合成谓语::＝状*谓谓语部分

联合谓语::＝单核谓语连？谓语部分

连动谓语::＝单核谓语谓语部分

兼语谓语::＝状*谓(定*宾){1,2}谓语部分

主谓谓语::＝小句句式

1)主::＝NP

2)宾::＝NP

3)NP::＝NP(c？NP)*|n|t|r①|m①|.+？的|.+？f

4)谓::＝v|a|r②

5)定::＝n|a|r③|m|.+的

6)状::＝d|a|t|n①|r③|m②|.+地|.+？f|PP

7)补::＝d|a|m②|得.+|PP

8)PP::＝p.+？(f|u⑧)？

9)独::＝(e|NP)，

S203，补充S201、S202之外的标点句模式，如下：

句前模式::＝连？(状|独)+，

谓前模式::＝连？(状|独)*主，

|连？(状|独)*主连？(状|独)+，

连名模式::＝连NP，

4.根据权利要求3所述的基于句式结构的汉语自动句法分析器，其特征在于，S3中，词汇知识库和词法知识库具体为：

子类编码如下：

n①：时空类名词

n②：中国人名之姓氏

n③：中国人名

v①：不及物动词

v②：及物动词

v③：双宾动词

v④：引出兼语谓语的动词

v⑤：引出合成谓语的动词

v⑥：由动词短语或小句充当宾语的动词

v⑦：趋向动词

v⑧：引出连动谓语的动词

v⑨：可作结果补语的动词

v⑩：可以独立充当状语的动词

a①：属性词

a②：状态词

a⑨：可作结果补语的形容词

m①：数词与名量词组合的数量词

m②：数词与动量词或时量词组合的数量词

q①：名量词

q②：动量词或时量词

r①：代名词

r②：代谓词

r③：代饰词

c①：连接小句的连词

c②：连接并列NP的连词

c③：连接同位语的连词

c④：连接联合谓语的连词

u①：语气助词

u②：动态助词

u③：连接定、状、补的结构助词

u④：用于句末的结构助词

u⑤：用于NP后的结构助词

u⑥：用于VP前的结构助词

u⑦：用于句首的结构助词

u⑧：框式结构中的结构助词

词法选用概率的计算公式为：

5.根据权利要求4所述的基于句式结构的汉语自动句法分析器，其特征在于，S4中，词法、句法一体化分析算法中的词法分析流程为：

S404，分别处理所述DAG中的交集型和组合型两类分词歧义；

6.根据权利要求5所述的基于句式结构的汉语自动句法分析器，其特征在于，S4中，所述词法、句法一体化分析算法中的句法分析流程为：

对S405所述词特征序列进行扩展正则匹配，根据命名分组生成句式结构表达式，方法为：将各命名分组依次生成相应的表达式后拼接，每个命名分组的表达式为“左符号+捕获内容+右符号”，其中左符号或右符号可以为空，命名分组的左、右符号对应为：sbj‖、|obj、﹙att﹚、﹝adv﹞、﹤cmp﹥、〖ind〗、﹛spp﹜、..coo.、：＝app＝：、syn∶、^··uni^·、pvt//、ser/、^··cc^·、pp∧、□ff、△un、