CN108549625B

CN108549625B - 一种基于句法宾语聚类的中文篇章表现主题分析方法

Info

Publication number: CN108549625B
Application number: CN201810167673.4A
Authority: CN
Inventors: 周建设; 佟悦; 张文彦; 刘小力; 李太豪; 刘燕辉
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2020-11-17
Anticipated expiration: 2038-02-28
Also published as: CN108549625A

Abstract

本发明提供了一种基于句法宾语聚类的中文篇章表现主题分析方法，自然语言处理应用技术领域。包括以下步骤：首先获取待分析的目标篇章，将每一篇章进行异常过滤后分别进行段落划分和小句划分并数据化标记，然后进行篇章宾语总数提取和有效筛选宾语并均进行编码式标记，再根据筛选获得的有效宾语结合词语的相关性和语义格信息构建宾语语义聚类网络，从而获得若干宾语聚类子集和聚类集合，最终则根据聚类子集词语与篇章的分布范围、密集程度等判定篇章主题。本发明的分析方法，可对篇章中的宾语进行有效提取和聚类分析，并快速得出宾语聚类的篇章表现主题，可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。

Description

一种基于句法宾语聚类的中文篇章表现主题分析方法

技术领域

本发明属于自然语言处理应用技术领域，具体涉及一种基于句法宾语聚类的中文篇章表现主题分析方法。

背景技术

篇章主题信息提取是自然语言处理中的一项重要任务。周建设(2012)教授通过对先秦语义学、汉语语义学、现代哲学逻辑等学科进行多年研究，提出了篇章主题聚合度理论。篇章主题聚合度理论是通过分析篇章、段落、句群、复句、句子、词语六个层面的语义关联，将其与主题语义网络或者知识库进行分析比对，从外延角度以数量思想计算主题聚合度。主题聚合度分析的设计目标，在于用语言智能的手段实现篇章理解和评判的自动化；主题聚合度的分析价值，在于为作文提供科学、准确、快速、规范的评价核心指标，为提高人类语言的能力服务。

从国内外研究现状来看，鲜有通过语言学本体句法成分理论分析篇章主题的方法。研究表明，本体领域中句法成分——句法主语、句法谓语和句法宾语等均对篇章主题具有表现作用。在篇章中，篇章主题表达作者提出的新观点、新信息，而句法宾语是承载句子新信息的句法成分，若能从宾语角度分析、提取主题，必然会增加篇章主题提取的全面性和准确性。

发明内容

本发明目的是提供一种基于句法宾语聚类的中文篇章主题表现力的分析方法，通过分析句法宾语的聚类，快速准确地得出记叙文类型的中文篇章表现主题。

为解决上述技术问题，本发明所采用的技术方案为：

1、一种基于句法宾语聚类的中文篇章主题表现力分析方法，其特征在于，该方法包括以下步骤：

一、语料集获取：获取待分析的目标篇章，并依次判定篇章语言主体为中文和表达类型为记叙文后，以一篇待分析的篇章为一个语料集M；

二、语料集预处理：对所述语料集M中的内容依次执行下述规则后，得语料集T：

规则1：过滤纯非中文句子；

规则2：扫描错别字、修正；

规则3：对经规则1和规则2处理后的语料集T的段落进行标记，确定段落数量，并依次标记为A1、A2、...、An；

规则4：对每一段落A中的小句进行划分标记，确定小句数量，依次标记为AnT1、AnT2、...AnTs；

三、宾语提取：对所述语料集T中所有已标记的小句分别执行下述规则提取宾语，归集为宾语集S；

规则1：识别小句为动宾结构，采用预置的动宾句宾语骨干模型执行宾语提取，提取的宾语归集为子集S1；

规则2：识别小句中具有介宾结构，采用预置的介宾结构宾语骨干模型执行宾语提取，提取的宾语归集为子集S2；

规则3：识别小句中具有名词性成分，采用预置的句末宾语骨干模型执行宾语提取，提取的宾语归集为子集S3；

规则4：所述规则1-规则3中同一小句重复识别并判定的宾语仅取一；

合并所述子集S1、子集S2和子集S3为宾语集S；

四、语义角色分类：遍历宾语集S中的所有词语，与预置的语义角色分类库一一对照，执行下述规则：

规则1：拟对照宾语所在小句为动宾结构的，参照该宾语对应的动词，判定该宾语的语义格类型；

规则2：拟对照宾语所在小句为介宾结构结构的，参照该宾语对应的介词，判定该宾语的语义格类型；

五、有效宾语筛选：遍历宾语集S中的所有词语，执行下述筛选规则：

规则1：识别小句为比喻句、拟人句、否定句、虚拟句的，该小句中的宾语归集为过滤宾语集P；

规则2：识别宾语于所在小句为谓词性结构的，该宾语为过滤宾语集P；

规则3：将过滤宾语集P于所述宾语集S中过滤，所得集合归集为有效宾语集C；

规则4：分别对有效宾语集C的宾语赋予唯一的编码；

六、宾语语义聚类网络构建：遍历有效宾语集合C的各词语编码，基于上述步骤四判定的语义格信息，匹配字词义库，执行下述规则：

规则1：分别将词语匹配字词义库，匹配词语为多义字词的，根据语义格信息，判定语义；

规则2：根据规则1得出的各词语词义，根据语义相似度构建由核心词为主干的若干语义关联网络；

规则3：同一语义关联网络分别归集为聚类子集Z1、聚类子集Z2...、聚类子集Zn，并均归集为聚类集合Z；

规则4：分别展开各聚类子集，构建构建篇章宾语聚类网络，统计聚类子集的词数；

规则5：标注所述规则4中展开各词所在段落的段号数和所在小句的句号数；

七、宾语聚类主题表现力判定，执行下述规则，分析结果为宾语聚类的表现主题：

规则1：将各所述聚类子集Zn按集合内词语数量依次排列；

规则2：过滤集合内词语数量低于3的所述聚类子集；

规则3：若集合内词语数量最多的聚类子集，同时所在段号数最多，该聚类子集Zn的核心词判定为宾语聚类的表现主题；

规则4：若集合内词语数量最多的聚类子集，与所在段号数最多的聚类子集非同一聚类子集，则转由人工判定。

所述动宾句宾语骨干模型采用下述方式训练：

—提取样本小句中的动宾结构；

—对该动宾结构进行切词，划分后的各字词匹配词字义库；

—识别字词为动词的，则提取该动宾结构中位于动词后的名词，将该名词标注为可归集宾语。

所述介宾结构宾语骨干模型采用下述方式训练：

—提取样本小句中的介宾结构结构；

—对该介宾结构结构进行切词，划分后的各字词匹配词字义库；

—识别字词为介词的，则提取该介宾结构结构中位于介词后的名词，将该名词标注为可归集宾语。

所述句末宾语骨干模型采用下述方式训练：

—提取样本中的小句；

—对该小句结构进行切词，划分后的各字词匹配词字义库；

—识别句尾字词为名词的，则获取该名词标注为可归集宾语。

所述语义角色分类库包括：施事、当事、系事、受事、与事、对象、伴随、关涉、工具、凭借、依据、样式、原因、结果、目的、时间、处所、情况。

所述编码为五位数或以上的编码，居同一聚类子集的编码前二位相同。

本发明的分析方法，可对篇章中的宾语进行有效提取和聚类分析，并快速得出宾语聚类的篇章表现主题，可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。

附图说明

图1为本发明的方法流程图；

图2为本发明实施例中《记金华的双龙洞》的篇章主题语义网络图；

图3为本发明实施例中《黄果树瀑布》的篇章主题语义网络图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

宾语用来指称句子的新信息，主题用来指称篇章的主要信息，宾语和主题具有相同的指称特征，通过提取和分析宾语语义可得到篇章主题信息本申请可用于众多记叙类篇章的评阅环境中。例如：学生记叙类作文智能化分解评阅等，可快速分析作文是否紧扣主题，提高评阅效率，可作为作文评分的重要参考依据。

步骤一、语料集获取：获取一篇或若干篇待分析的目标篇章，并依次判定各篇章的语言主体为中文和文体形式为记叙文后，判定形式可为人工判定或通过比对文体库自动判定，分别标注为语料集M1、语料集M2...、语料集MN(N为对应篇章的编号)。

步骤二、语料集预处理：分别对每一篇的语料集M中的每一个句子依次执行下述规则后，得语料集NT(N为对应篇章的编号)：

规则1：过滤纯非中文句子；

规则2：扫描错别字、修正；

规则3：对经规则1和规则2处理后的语料集T的段落进行标记，确定段落数量，并依次标记为1A1、2A2、...、NAn；(N为对应篇章的编号，n为对应段落的号数)；

规则4：对每一段落A中的小句进行划分标记，确定小句数量，依次标记为1AnT1、2AnT2、...NAnTs，所述小句的划分单位为除顿号外，以句中或句间所有停顿标点符号为标记划出的单位(N为对应篇章的编号，An为所在段落号，s为所在句数号)。

步骤三、宾语提取：对所述语料集T中所有已标记的小句分别执行下述规则提取宾语，归集为宾语集NS；

规则1：识别小句为动宾结构，采用预置的动宾句宾语骨干模型执行宾语提取，提取的宾语归集为子集NS1；

规则2：识别小句中具有介宾结构，采用预置的介宾结构宾语骨干模型执行宾语提取，提取的宾语归集为子集NS2；

规则3：识别小句中具有名词性成分，采用预置的句末宾语骨干模型执行宾语提取，提取的宾语归集为子集NS3；

动词与宾语的关系错综复杂，而决定这些关系的关键是动词(吴锡根，1996)。对动词进行识别，从不同角度分析动词的类别——及物动词、不及物动词，体宾动词、谓宾动词，等等，借助动词识别其后是否为宾语成分。故本步骤中，动宾句宾语骨干模型采用下述方式训练：

—提取样本小句中的动宾结构；

—对该动宾结构进行切词，划分后的各字词匹配词字义库；

—识别字词为动词的，则提取该动宾结构中位于动词后的名词，将该名词标注为可归集宾语，进入子集NS1。

介词后指称性成分常传递时间、地点、工具等重要信息，因此，介词也将作为分析宾语语义格的辅助成分。故介宾结构宾语骨干模型采用下述方式训练：

—提取样本小句中的介宾结构结构；

—识别字词为介词的，则提取该介宾结构结构中位于介词后的名词，将该名词标注为可归集宾语，进入子集NS2。

汉语被看作是中心语居后型语言，即背景信息、旧信息常位于句首，焦点信息、新信息常位于句末。句末是焦点槽的无标记位置，承载句子信息量较大，句中的背景信息、预设信息可省略，但焦点信息不可省略，宾语的无标记位置便是句末，因而提取句末宾语尤为重要。故句末宾语骨干模型采用下述方式训练：

—提取样本中的小句；

—对该小句结构进行切词，划分后的各字词匹配词字义库；

—识别句尾字词为名词的，则获取该名词标注为可归集宾语，进入子集NS3。

合并子集NS1、子集NS2和子集NS3为宾语集NS。

步骤四、语义角色分类：遍历宾语集S中的所有词语，与预置的语义角色分类库一一对照，执行下述规则：

规则2：拟对照宾语所在小句为介宾结构结构的，参照该宾语对应的介词，判定该宾语的语义格类型。

本步骤中，语义角色分类库包括：施事、当事、系事、受事、与事、对象、伴随、关涉、工具、凭借、依据、样式、原因、结果、目的、时间、处所、情况。

步骤五、有效宾语筛选：遍历宾语集S中的所有词语，执行下述筛选规则：

规则4：分别对有效宾语集C的宾语赋予唯一的编码，该编码配合下述聚类使用，为五位数或以上的编码，居同一聚类子集的编码前二位相同。

若宾语前后出现非现实句，是借以识别宾语的标记词中的非现实成分，不针对宾语成分，不考虑该句中的宾语成分。非现实句包括：比喻、拟人等修辞句，否定句，虚拟句等。过滤词库中包括“像”(“好像”)、“似”(“好似”、“似的”)、“如”、“不”、“没”、“非”等标识非现实意义的词语。故需通过本步骤中规则1筛选。

有些宾语并没有指称具体实体，只是起到篇章衔接作用，如指示代词。因此这类宾语将不被计入宾语识别的有效范围内，被认为是无效宾语。无效宾语包括：“这”、“那”(“这儿”、“那儿”、“这里”、“哪里”)等。由于本次语义聚类是由宾语构成，以体词性为主，但有些宾语并非体词性成分(谓词性成分)，在进行语义聚类时谓词性成分不能充分发挥作用，甚至会扰乱原本体词性宾语的正确性，因此，将谓词性宾语作为无效宾语划入语义聚类范围外。故需通过本步骤中规则2筛选。

步骤六、宾语语义聚类网络构建：遍历有效宾语集合C的各词语编码，基于上述步骤四判定的语义格信息，匹配字词义库，执行下述规则：

规则3：同一语义关联网络分别归集为聚类子集Z1、聚类子集Z2...、聚类子集Zn(n为聚类类数)，并均归集为聚类集合Z；

步骤七、宾语聚类主题表现力判定，执行下述规则，分析结果为宾语聚类的表现主题：

规则1：将各所述聚类子集Zn按集合内词语数量依次排列；

规则2：过滤集合内词语数量低于3的所述聚类子集；

实施例1：《记金华的双龙洞》篇章主题分析

1.《记金华的双龙洞》的句法宾语提取

选取语文教材课文《记金华的双龙洞》作为样文。在词库中标注词语的语义格信息，对课文中各词语进行切词，以主要动词为参照点，找出与动词相关的名词成分的语义信息，然后分析句末位置名词性成分、动词与介词及其相关名词之间的语义关系，提取出句末宾语、动词宾语和介词宾语，并将课文中宾语所在句中词汇在词库中进行语义格信息匹配。

下文表1、表2、表3中宾语后小括号内的数字表示该宾语在文中出现超过一次以上的次数，若宾语只出现一次，不另行备注。

表1《记金华的双龙洞》篇章中句法宾语分析表

2.《记金华的双龙洞》篇章主题的宾语语义聚类网络构建

根据表1中提取的句法宾语，将所有宾语进行语义聚合度计算。得出如附图2所示。附图2根据语义聚合度的相似值排列组合，将语义相似度较近的宾语排成一个序列。语义聚类中词语之间的相似度并非相同，相似度是一个程度问题，有些相似度较高，有些相似度较低。一篇文章的语义聚类通常可以再分为若干较小的二级、三级语义聚类，篇章主题存在于相似度较高的语义聚类中。

宾语语义聚类网络中，不仅有线连接的词语间有语义关系，在语义较聚集的词集中，没有连接的横向词语间也存在语义关联关系，语义词集中不论是纵向排列还是横向排列的词语，词语之间都存在着家族相似的语义特征。

课文《记金华的双龙洞》共有有效宾语78个。

《记金华的双龙洞》中主要宾语的语义特征：

我：[生物]{[生命][人]}f{[由……组成][头][额角][鼻子][后脑][肩背][臀部][脚跟]}

山：[景物]{[山上][植物][+阳光直射]}f{[由……组成][映山红][杜鹃][溪流][山石]}

洞：[景物]{[洞穴][石头][-阳光直射]}f{[由……组成][内洞][外洞][双龙洞]}

根据附图2可以得出，该语义聚类以“我”“观赏”(此处为感事宾语)和“景物”为脉络主线。句末宾语“观赏”作为谓宾动词“值得”的宾语，此处借用其动词性质，连接施事“我”和受事“景物”。图1一级聚类中包含两个二级语义聚类，分别为：“我”“山”。课文中多次出现描写人物身体部位的宾语，但根据语义特征分析，发现聚类“我”与聚类“山”关联甚小，并且根据位置扫描分析，聚类“我”中大部分宾语只出现在《记金华的双龙洞》课文第5段的一句话中，分布范围小而集中，未能囊括全文范围，因此，不将聚类“我”计入主题参考范围。在语义聚类“山”中，又包含语义聚类“洞”。从分布的密集程度和分布范围来看，聚类“洞”中的宾语语义相似度最高，语义最为凝聚，并且在课文中分布范围最广，因此，通过对课文《记金华的双龙洞》句法宾语的分析，得出该课文的主题是“洞。”

实施例2：《黄果树瀑布》篇章主题分析

1.《黄果树瀑布》的句法宾语提取

下文为《黄果树瀑布》篇章中句法宾语分析表，其中包括课文中出现的全部句法宾语及与其搭配的动词和介词以及具有宾语特征的深层语义格，如表2所示。

表2《黄果树瀑布》篇章中句法宾语分析表

2.《黄果树瀑布》篇章主题的语义网络构建

《黄果树瀑布》篇章中共有41个有效宾语。

《黄果树瀑布》中主要宾语的语义特征：

游记：[书籍]{[作者][旅游]}

黄果树小镇：[居住地]{[居民][景区]}

瀑布：[景物]{[水][岩石][落差]}

如附图3所示，根据附图3得出的语义聚类可知，课文《黄果树瀑布》主要对“黄果树风景区”进行叙述，描写黄果树风景区内各种景观，并且运用大篇幅着重描写景区的瀑布。在“黄果树风景区”聚类下包含“游记”“黄果树小镇”和“瀑布”三个二级聚类。需要特别说明的是，“徐霞客”是否定动词“不如”的宾语，由于其在课文中出现频率为2次，并且语义特征包括[旅行家]，与风景高度相关，因此保留“不如”的宾语“徐霞客”。“声浪”“音响”“圆形乐池”虽然为喻体宾语，但由于它们与“水声”等包含语义特征[水]的宾语高度相关，因此被纳入主题语义聚类中。附图3以“瀑布”聚类中的宾语数量最多、语义聚合度最高、语义关联最为紧密，在文中分布范围最广，因此得出，《黄果树瀑布》的主题为“瀑布”。

以上对本申请所提供的分析方法进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于句法宾语聚类的中文篇章主题表现力分析方法，其特征在于，该方法包括以下步骤：

规则1：过滤纯非中文句子；

规则2：扫描错别字、修正；

合并所述子集S1、子集S2和子集S3为宾语集S；

规则2：拟对照宾语所在小句为介宾结构的，参照该宾语对应的介词，判定该宾语的语义格类型；

规则4：分别对有效宾语集C的宾语赋予唯一的编码；

规则4：分别展开各聚类子集，构建篇章宾语聚类网络，统计聚类子集的词数；

规则5：标注展开各词所在段落的段号数和所在小句的句号数；

规则1：将各所述聚类子集Zn按集合内词语数量依次排列；

规则2：过滤集合内词语数量低于3的所述聚类子集；

规则4：若集合内词语数量最多的聚类子集，与所在段号数最多的聚类子集非同一聚类子集，则转由人工判定；

所述动宾句宾语骨干模型采用下述方式训练：

—提取样本小句中的动宾结构；

—对该动宾结构进行切词，划分后的各字词匹配词字义库；

—识别字词为动词的，则提取该动宾结构中位于动词后的名词，将该名词标注为可归集宾语；

所述介宾结构宾语骨干模型采用下述方式训练：

—提取样本小句中的介宾结构；

—对该介宾结构进行切词，划分后的各字词匹配词字义库；

—识别字词为介词的，则提取该介宾结构中位于介词后的名词，将该名词标注为可归集宾语。

2.根据权利要求1所述的一种基于句法宾语聚类的中文篇章主题表现力分析方法，其特征在于，所述句末宾语骨干模型采用下述方式训练：

—提取样本中的小句；

—对该小句结构进行切词，划分后的各字词匹配词字义库；

3.根据权利要求1所述的一种基于句法宾语聚类的中文篇章主题表现力分析方法，其特征在于，所述语义角色分类库包括：施事、当事、系事、受事、与事、对象、伴随、关涉、工具、凭借、依据、样式、原因、结果、目的、时间、处所、情况。

4.根据权利要求1所述的一种基于句法宾语聚类的中文篇章主题表现力分析方法，其特征在于，所述编码为五位数或以上的编码，居同一聚类子集的编码前二位相同。