CN108564106B - 一种基于句法主语聚类的中文篇章主题表现力分析方法 - Google Patents

一种基于句法主语聚类的中文篇章主题表现力分析方法 Download PDF

Info

Publication number
CN108564106B
CN108564106B CN201810166125.XA CN201810166125A CN108564106B CN 108564106 B CN108564106 B CN 108564106B CN 201810166125 A CN201810166125 A CN 201810166125A CN 108564106 B CN108564106 B CN 108564106B
Authority
CN
China
Prior art keywords
subject
words
subset
rule
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810166125.XA
Other languages
English (en)
Other versions
CN108564106A (zh
Inventor
周建设
罗茵
陈炳哲
杨曲
娜仁图雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN201810166125.XA priority Critical patent/CN108564106B/zh
Publication of CN108564106A publication Critical patent/CN108564106A/zh
Application granted granted Critical
Publication of CN108564106B publication Critical patent/CN108564106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明设计一种基于句法主语聚类的中文篇章主题表现力分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后进行小句划分并数据化标记,然后进行句子主语总数提取和有效筛选并均根据预置的同义词词库进行编码式标记,再根据筛选获得的有效主语进行主语聚类,以及筛选获得的各有效主语的编码进行层次划分,从而根据方程得出主题表现力值并完成计算工作。本发明的计算方法,可对篇章中的主语进行清晰有效地分析,并计算得出篇章主题表现力值,可作为篇章主题表现力的有效支撑数据,与篇章最终的评分分数正相关,提高记叙文的中文篇章主题聚合度评价的精准性。

Description

一种基于句法主语聚类的中文篇章主题表现力分析方法
技术领域
本发明涉及自然语言处理应用技术领域,具体涉及一种基于句法主语聚类的中文篇章主题表现力分析方法。
背景技术
在篇章理解中,句法主语一般被视为无标记的话题(石毓智,2001),想要贯彻篇章分析和理解,从已经取得了更加系统而丰富研究成果的句法成分角度来入手,是一个值得开辟的新思路。
在句子层面,主语是被陈述的对象,是已知信息;在篇章层面,主语作为观察视角的源点,由所指称的对象为载体引导新信息的展开;当叙述的关注点转移了,主语必然随之切换,从而引起后续陈述内容的一系列反应。篇章词汇量大,结构复杂多变,由此产生庞杂的信息极大干扰了对篇章主题的理解和把握。如果能把各小句的主语作为一个集中观察的视窗,将提纲挈领了解文中被陈述对象的变化转移过程,从而得以迅速地把握篇章主题。
周建设(2012)指出,面向自然语言处理的人工分析,语言学家的核心工作之一是建设“语法语义网络”。他随后又提出了以主题聚合度为核心概念的主题、主题表现力等系列概念。主题聚合度是指篇章中的语言形式所展示出主题的外延之间的紧密程度。主题聚合度是篇章主题评价的综合指标,通过计算多种主题表现力来共同完成。主题聚合度评价的维度分为篇章级、段落级、句群级、复句级和词语级等等级。主题聚合度的提出,从人类认知角度说,旨在更多了解脑的神经机制运作方式解决人的语言认知困惑;从人工智能角度说,旨在借助机器的技术手段减轻人的言语负担。主题聚合度计算的设计目标,在于用语言智能的手段实现篇章理解和评判的自动化;主题聚合度的计算价值,在于为作文提供科学、准确、快速、规范的评价核心指标,为提高人类语言的能力服务。
主题表现力是实现主题聚合度评价的重要形式化指标之一,是指语言符号载体与主题表现之间的语义关系。主题表现力可以实现为千变万化的语义关系,想要快速准确地识别出篇章的主题表现力效果,必须细化篇章的类型,从较为同类的篇章材料中总结该类篇章的主题表现力的规律,并从不同的篇章类型中不断获得不同的规律。
发明内容
本发明目的是提供一种基于句法主语聚类的中文篇章主题表现力的计算方法,通过分析句法主语的主题表现力,快速准确地量化出记叙文类型的中文篇章主题表现力。
为解决上述技术问题,本发明所采用的技术方案为:
一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:
一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;
二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:
规则1:过滤纯非中文句子;
规则2:扫描错别字、修正;
规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;
四、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;
规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;
规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;
所述子集S1与所述子集S2合并为主语集S;
四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:
规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集C5;不重复的词,归集为子集C1;
规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;
规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为有效主语集合C;
经筛选后的登陆词语赋予唯一的编码,所述编码为五级或以上的若干位数编码,并进入有效主语集合C,即有效主语集合C中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;
五、主语聚类获取:遍历集合C的各词语编码,执行下述规则,获得主语聚类数:
规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;
规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合Z,集合Z为大于0的自然数;
六、主语聚类的层次提取:分别比对有效主语集合C内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:
规则1:第1级编码与其他任何词均不相同的词语,归集为子集C1,上述步骤四规则1中得到的子集C1与本规则的子集C1为同一子集,所述子集C1为大于0的自然数;
规则2:仅有第1级编码相同的词语,归集为子集C2,所述子集C2为大于0的自然数;
规则3:仅有第1、2级编码相同的词语,归集为子集C3,所述子集C3为大于等于0的自然数;
规则4:仅有第1、2、3级编码相同的词语,归集为子集C4,所述子集C4为大于等于0的自然数;
规则5:仅有第1、2、3、4级编码相同的词语,归集为子集C5,前述步骤4规则1中得到的子集C5与本规则的子集C5是同一子集,所述子集C5为大于等于0的自然数;
七、主语聚类主题表现力计算,执行下列多元回归方程,所得值为主语聚类的主题表现力量化值:
F(x)=α+β1Z+β2C1+β3C2+β4C3+β5C4+β6C5
其中α为常数,βj(j=1,2,…,6)为回归系数。
所述主谓句主语骨干模型采用下述方式训练:
—提取样本主谓句的主语结构;
—获取主语结构为光杆体词、谓词,句首的时间名词,将获取的词语标注为可归集主语;
—主语结构为偏正短语的中心词语,将获取的词语标注为可归集主语;
—主语结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;
—主语结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。
所述非主谓句主语骨干模型采用下述方式训练:
—提取样本名词性非主谓句结构;
—获取所述结构为词,将获取的词语标注为可归集主语;
—获取所述结构为偏正短语,提取中心词语,将获取的中心词语标注为可归集主语;
—获取所述结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;
—获取的结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。
所述子集S1为大于0的自然数,所述子集S2为大于等于0的自然数,所述主语集S中为大于0的自然数;所述集合S与子集S1和S2的关系是:
Figure GDA0002652395660000041
Figure GDA0002652395660000042
其中S2可以是空集。
所述同义词词库为《哈工大信息检索研究室同义词词林扩展版》词典。
所述编码为五级编码,所述编码位数为八位数。
所述编码各级与所述编码各位数对应关系为:第1级对应编码第1位、第2级对应编码第2位、第3级对应编码第3位和第4位、第4级对应编码第5位、第5级对应编码第6位和第7位、第6级对应编码第8位。
本发明的计算方法,可对篇章中的主语进行有效提取、聚类和分层,并快速得出主语聚类主题表现力值,所得值可作为篇章主题表现力的部分支撑数据,与篇章最终的评分分数正相关,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。
附图说明
图1为本发明的方法流程图;
图2为本发明实施例中样本得分最高的2#作文主语语义聚类图;
图3为本发明实施例中样本得分最高的9#作文主语语义聚类图;
图4为本发明实施例中样本中13#作文主语语义聚类图;
图5为本发明实施例中样本中16#作文主语语义聚类图;
图6为本发明实施例中反应指标4和指标5之间的线性关系图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多记叙类篇章的评阅环境中。例如:学生记叙类作文智能化分解评阅、新闻报道内容智能化分解评阅等。
本实施例所采用的分析样本为某中学为本研究提供的初一同题记叙文38篇,题目为《我为他(们)点赞》。下面进行下列步骤,对样本进行分析并得出主语主题表现力值。
步骤一、语料集获取:获取一篇或若干篇待分析的目标篇章,并依次判定各篇章的语言主体为中文和文体形式为记叙文后,判定形式可为人工判定或通过比对文体库自动判定,分别标注为语料集M1、语料集M2...、语料集MN(N为对应篇章的编号)。
步骤二、语料集预处理:分别对每一篇的语料集M中的每一个句子依次执行下述规则后,得语料集NT(N为对应篇章的编号):
规则1:过滤纯非中文句子;
规则2:扫描错别字、修正;
规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为1T1、2T2、3T3...、NTn(N为对应篇章的编号);所述小句的划分单位为除顿号外,以句中或句间所有停顿标点符号为标记划出的单位。
步骤三、主语提取:分别对各语料集NT中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集NS;
规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集NS1;
规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集NS2;
子集NS1与所述子集NS2合并为主语集NS。
本步骤中,主谓句主语骨干模型采用下述方式训练:
—提取样本主谓句的主语结构;
—获取主语结构为光杆体词、谓词,句首的时间名词,将获取的词语标注为可归集主语;
—主语结构为偏正短语的中心词语,将获取的词语标注为可归集主语;
—主语结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;
—主语结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。
本步骤中,非主谓句主语骨干模型采用下述方式训练:
—提取样本名词性非主谓句结构;
—获取所述结构为词,将获取的词语标注为可归集主语;
—获取所述结构为偏正短语,提取中心词语,将获取的中心词语标注为可归集主语;
—获取所述结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;
—获取的结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。
需要说明的是,本实施例的样本篇章均为记叙文,记叙文必然会出现较多的主谓句,能从中提取出相应的主语,但不一定出现符合非主谓句提取模型的主语。故而,子集S1为大于0的自然数。子集S2为大于等于0的自然数。主语集S为大于0的自然数。故而,集合S与子集S1和S2的关系是:
Figure GDA0002652395660000061
其中S2可以为空集。
步骤四、有效主语筛选:遍历各主语集NS中的所有词语,与预置的《哈工大信息检索研究室同义词词林扩展版》(以下简称《词林(扩)》)词典内的词语一一对照匹配,执行下述筛选规则:
规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型的未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集NC5;不重复的词,归集为子集NC1;
规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;
规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为有效主语集合NC;
经筛选后的登陆词语赋予唯一的编码,并进入有效主语集合NC,即有效主语集合NC中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;
《词林(扩)》词表包含77492条词语,共分为12个大类,94个中类,1428个小类,小类下再以同义原则划分词群,最细的级别为原子词群。每一条词语都由一个8位数的编码构成,这8位编码共分为5级,分别对应该词语所属的类别关系。比如有具体三组词分别表示为:
Ad03A03@家里人
Bp27D02#货架书架报架支架脚手架
Da15B02=一差二错阴差阳错阴错阳差误会言差语错
其代号和层级如表1所示。
表1《哈工大信息检索研究室同义词词林扩展版》编码说明
Figure GDA0002652395660000071
每个词语的代码位按照从左到右编制。第1级(第1位)用大写的英文字母A~L分别表示“人、物、时间与空间、抽象事物、特征、动作、心理活动、活动、现象与状态、助语”12个大类;第2级(第2位)、第3级(第3、4位)、第4级(第5位)、第5级(第6、7位)分别用小写英文字母、二位十进制整数、大写英文字母、二位十进制整数编号;第6级(第8位)标记该词语性质,即“=”代表“相等”“同义”;“#”代表“不等”“同类”;“@”代表“自我封闭”“独立”。
《词林(扩)》中所收的词语不仅包括狭义的同义词,还包含一定数量的同类词,即广义的相关词,这在相当大程度上实现了对汉语常用词语语义系统性的分类和定位,弥补了汉语语义分类(如语义场分类)仅仅停留在举例性说明的不足。《词林(扩)》不同级别的分类结果可以为自然语言处理提供不同颗粒度的语义类别信息,其编码的层级性为下述步骤五的主语语义聚类和步骤六的分层提供了较为客观的标准,有利于各项指标的建设和数据收集。
步骤五、主语聚类获取:遍历集合NC的各词语编码,执行下述规则,获得主语聚类数集合NZ:
规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;
规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合NZ。需要说明的是,一篇完整的记叙文篇章中,必然会出现多种主语聚类,故而主语聚类数集合NZ为大于等于1的自然数。
六、主语聚类的层次提取:分别比对集合NC内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:
规则1:第1级编码与其他任何词均不相同的词语,归集为子集NC1,上述步骤四规则1中得到的主语聚类层次子集NC1与本规则的主语聚类层次子集NC1为同一子集,所述主语聚类层次子集NC1为大于0的自然数;
规则2:仅有第1级编码相同的词语,归集为主语聚类层次子集NC2,所述主语聚类层次子集NC2为大于0的自然数;
规则3:仅有第1、2级编码相同的词语,归集为主语聚类层次子集NC3,所述主语聚类层次子集NC3为大于等于0的自然数;
规则4:仅有第1、2、3级编码相同的词语,归集为主语聚类层次子集NC4,所述主语聚类层次子集NC4为大于等于0的自然数;
规则5:仅有第1、2、3、4级编码相同的词语,归集为主语聚类层次子集NC5,前述步骤4规则1中得到的主语聚类层次子集NC5与本规则的主语聚类层次子集NC5是同一子集,所述主语聚类层次子集NC5为大于等于0的自然数。
七、主语聚类主题表现力计算,执行下列多元回归方程,所得值为主语聚类的主题表现力值:
F(N)=α+β1Z+β2C1+β3C2+β4C3+β5C4+β6C5
本申请可应用在中文作文自动评分系统,为作文的专家人工评分或系统最终评分均可提供正相关的参考依据。各作文自动评分系统中的评价指标总体可以分为非文本性指标和文本性指标两类。文本性指标是指能对作文内容有所反映的指标,是作文自动评分系统的重要参考指标之一。为使上述分析方法的步骤及最终的分析值有直观的体现,本申请针对作文内容基于上述分析方法的步骤设置5项文本性指标,如表2所示。
表2主语语义聚类文本性指标说明
Figure GDA0002652395660000091
指标1:参与聚类的主语数。
本指标是参与主语聚类的主语数量集合,通过上述步骤四获得的有效主语集合NC实现。由于词语丰富程度往往与作文分数相关,故而指标1假设与专家评分(指标4)有正相关。
指标2:实现的聚类种类数。
本指标是参与主语聚类的种类数集合,通过上述步骤五获得的主语聚类数集合NZ实现。本指标的假设是:聚类主语数量增多,聚类的种类数也相应增多;在参与聚类的主语数量相对比较稳定的情况下,聚类的种类数越多,作文质量越好。
指标3:聚类类内的层次性情况。
本指标是在指标1基础上形成,是聚类内部词的横向集合的层次性体现,反映的是主题表现力的丰富程度,通过上述步骤六获得的主语聚类层次子集NC1—子集NC5实现。本指标的假设是:位于不同层级的词语体现了语义的亲疏远近关系。位于高层级的词越多,词义间关系越近,整个聚类语义越紧凑。假设高层词越多,作文水平越好。
指标4:专家评分
即作文分数。该指标由作文指导教师给出。样本作文分数满分为40分。
指标5:主语主题的表现力效果
本项指标由指标2和指标3建立多元回归模型,获得多元回归函数。
F(N)=α+β1Z+β2C1+β3C2+β4C3+β5C4+β6C5
通过计算得到预测值。该值可以视为本文的主语主题表现力效果值。本指标的假设是:指标2和指标3的综合值能较好反映作文的质量,与指标4中专家评分呈现正相关关系。
本实施例选取了某中学为本申请提供的初一同题记叙文38篇,题目为《我为他(们)点赞》,将作文依次编号为1#~39#。在执行步骤二预处理过程中发现作文编号为11#、15#、25#、28#、30#的作文数据异常,做了剔除,剩下33篇作文执行后续处理。其基础数据说明如表3所示。
表3句法主语主题表现力检测作文基础数据说明(33篇)
Figure GDA0002652395660000101
测试证明,依上述步骤得到的主语语义聚类图能较为直观地展示作文的主题表现力效果。
如附图2和附图3,分别所展示的是样本中得分最高的2#作文与得分最低的9#作文主语聚类的结果。
其中附图2的2#作文评分38分,有24个聚类主语,其中未登陆词为“讲读(2个)”;
其中附图3的9#作文评分20分,有11个聚类主语,其中未登陆词为“让人意想不到的”。
2#和9#作文聚类图对比显示,当作文水平差异明显时,可以非常直观地看出聚类在数量上和质量上的不同。2#作文主语词汇丰富,指标1的有效主语集合2#C达24个词语,在聚类的横向(指标2)和纵向(指标3)上都形成了整齐匀称的聚类组群,疏密得当。不仅在A类“人”中,还在B类“物”、C类“时间和空间”、D类“抽象事物”、H类“活动”都形成了聚类群,展示出作文在表现作文主题外延时用词覆盖面广和对不同种类词较好的驾驭能力。
而9#作文的指标1有效主语集合9#C仅有11个词,聚类矩阵稀疏,指标2主语聚类数集合9#Z仅为2。其中A类“人”中形成了一个有指标3中层次性的聚类,甚至达到了最深的第5层(“母亲”“父母”),但是在C类中仅有达到第2层的2个词,聚类显得很不均衡,反映了作文主题表现力的贫乏。
为了进一步说明主语聚类所能展示出的作文主题表现力的细节效果,附图4、附图5显示的是指标1有效主语集合NC相同(21个)的2篇作文——13#(指指标4评分30分,有效主语集合13#C为21,未登陆词为“各个样的、什么样的、飞毛脚(人名)、大胖子(人名)、小短子(人名)、拽男(人名)、娘娘腔(人名)”)、16#(指标4评分30分,有效主语集合16#C为21,未登陆词为“点赞、痘痘、妹妹们”)作文聚类的情况。
得分相同的13#与16#作文聚类图显示两篇作文的语义聚类矩阵的疏密程度相近。相较16#,13#的指标3主语聚类数集合13#Z虽然少了1类,但其指标3主语聚类层达到了最高的主语聚类层次子集13#C5,另外,13#的主语聚类层次子集13#C2、13#C3、13#C4的各层数量较为平均,而16#的低层词的数量要略高于高层词的数量。总体来看,二者聚类的效果相近,与两文专家评分相同的情况基本吻合。
3.主语语义聚类的主题表现力的效果验证
(1)对指标1有效主语集合NC与指标4专家评分值的相关性计算
在统计学中,皮尔逊积矩相关系数常用于度量两个变量是否线性相关。皮尔逊相关系数计算公式:
Figure GDA0002652395660000111
r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。我们设指标1的有效主语集合NC值为x,指标4为y,根据上述公式,计算得到二者的相关系数为0.75,说明两项指标具有一定的正相关性。基本符合该指标设计的假设。
(2)对指标5主语主题的表现力效果的验证
设指标5为因变量z,其中参与计算的指标2主语聚类数集合NZ的值为自变量z1,指标3所包括的第1~5层的主语聚类层次子集NC1—子集NC5分别表示为自变量z2、z3、z4、z5、z6。经计算得到指标5和指标4相关性系数0.8229,说明指标5数值确实与作文分数呈现出明显正相关性,具有一定的主题表现力效果。指标5的回归统计结果如表4所示。
表4指标5回归统计结果
Figure GDA0002652395660000121
方差分析
Figure GDA0002652395660000122
Figure GDA0002652395660000123
由此建立多元线性回归模型:
f(z)=0.2×z1+0.5×z2+0.6×z3+1.1×z4+0.1×z5+0.7×z6+15
其中15为常数。多元线性回归模型中指标2、3的各个变量被赋予的权重不同。尤其以自变量z4所占权重最高,达到1.1;z6为0.7;而z5的占比却成了最低。可见当作文内容数据化处理后,不一定还能与人的主观感受一一对应。上述回归分析的标准误差为2.9668,F检验结果为1.59,远远小于显著性水平0.05,表示该回归方程的回归效果显著。由此得到指标5主语主题表现力效果(作文的预测得分值)与指标4作文的专家评分的差距在正负5分之内的有27篇,占81%,可见指标5的计算设计对作文分数有一定预测性。附图6反映的是指标4和指标5之间的关系。
以上对本申请所提供的分析方法进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (7)

1.一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:
一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;
二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:
规则1:过滤纯非中文句子;
规则2:扫描错别字、修正;
规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;
三、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;
规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;
规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;
所述子集S1与所述子集S2合并为主语集S;
四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:
规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型的未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集C5;不重复的词,归集为子集C1;
规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;
规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为集合C;
经筛选后的登陆词语赋予唯一的编码,所述编码为五级或以上的若干位数编码,并进入集合C,即集合C中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;
五、主语聚类获取:遍历集合C的各词语编码,执行下述规则,获得主语聚类数:
规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;
规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合Z,集合Z为大于0的自然数;
六、主语聚类的层次提取:分别比对集合C内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:
规则1:第1级编码与其他任何词均不相同的词语,归集为子集C1,上述步骤四规则1中得到的子集C1与本规则的子集C1为同一子集,所述子集C1为大于0的自然数;
规则2:仅有第1级编码相同的词语,归集为子集C2,所述子集C2为大于0的自然数;
规则3:仅有第1、2级编码相同的词语,归集为子集C3,所述子集C3为大于等于0的自然数;
规则4:仅有第1、2、3级编码相同的词语,归集为子集C4,所述子集C4为大于等于0的自然数;
规则5:仅有第1、2、3、4级编码相同的词语,归集为子集C5,前述步骤四规则1中得到的子集C5与本规则的子集C5是同一子集,所述子集C5为大于等于0的自然数;
七、主语聚类主题表现力计算,执行下列多元回归函数,所得值为主语聚类的主题表现力值:
F(x)=α+β1Z+β2C1+β3C2+β4C3+β5C4+β6C5
其中α为常数,βj为回归系数,j=1,2,…,6。
2.根据权利要求1所述的一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于所述主谓句主语骨干模型采用下述方式训练:
—提取样本主谓句的主语结构;
—获取主语结构为光杆体词、谓词,句首的时间名词,将获取的词语标注为可归集主语;
—主语结构为偏正短语的中心词语,将获取的词语标注为可归集主语;
—主语结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;
—主语结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。
3.根据权利要求1所述的一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于所述非主谓句主语骨干模型采用下述方式训练:
—提取样本名词性非主谓句结构;
—获取所述结构为词,将获取的词语标注为可归集主语;
—获取所述结构为偏正短语,提取中心词语,将获取的中心词语标注为可归集主语;
—获取所述结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;
—获取的结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。
4.根据权利要求1所述的一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于,所述子集S1为大于0的自然数,所述子集S2为大于等于0的自然数,所述主语集S中为大于0的自然数;所述集合S与子集S1和S2的关系是:
Figure FDA0002652395650000031
其中S2可以是空集。
5.根据权利要求1所述的一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于,所述同义词词库为《哈工大信息检索研究室同义词词林扩展版》词典。
6.根据权利要求1所述的一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于所述编码为五级编码,所述编码位数为八位数。
7.根据权利要求6所述的一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于,所述编码各级与所述编码各位数对应关系为:第1级对应编码第1位、第2级对应编码第2位、第3级对应编码第3位和第4位、第4级对应编码第5位、第5级对应编码第6位和第7位、第6级对应编码第8位。
CN201810166125.XA 2018-02-28 2018-02-28 一种基于句法主语聚类的中文篇章主题表现力分析方法 Active CN108564106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810166125.XA CN108564106B (zh) 2018-02-28 2018-02-28 一种基于句法主语聚类的中文篇章主题表现力分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810166125.XA CN108564106B (zh) 2018-02-28 2018-02-28 一种基于句法主语聚类的中文篇章主题表现力分析方法

Publications (2)

Publication Number Publication Date
CN108564106A CN108564106A (zh) 2018-09-21
CN108564106B true CN108564106B (zh) 2020-10-20

Family

ID=63531324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810166125.XA Active CN108564106B (zh) 2018-02-28 2018-02-28 一种基于句法主语聚类的中文篇章主题表现力分析方法

Country Status (1)

Country Link
CN (1) CN108564106B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436442A (zh) * 2011-11-03 2012-05-02 中国科学技术信息研究所 一种基于上下文语境的词的语义相关性度量方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN106371700A (zh) * 2016-08-31 2017-02-01 维沃移动通信有限公司 一种界面显示内容确定方法及移动终端
CN106372056A (zh) * 2016-08-25 2017-02-01 久远谦长(北京)技术服务有限公司 一种基于自然语言的主题与关键词的提取方法和系统
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107291689A (zh) * 2017-05-31 2017-10-24 温州市鹿城区中津先进科技研究院 一种基于大数据中文网络评论语句主题语义倾向的分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436442A (zh) * 2011-11-03 2012-05-02 中国科学技术信息研究所 一种基于上下文语境的词的语义相关性度量方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN106372056A (zh) * 2016-08-25 2017-02-01 久远谦长(北京)技术服务有限公司 一种基于自然语言的主题与关键词的提取方法和系统
CN106371700A (zh) * 2016-08-31 2017-02-01 维沃移动通信有限公司 一种界面显示内容确定方法及移动终端
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107291689A (zh) * 2017-05-31 2017-10-24 温州市鹿城区中津先进科技研究院 一种基于大数据中文网络评论语句主题语义倾向的分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于共现词卡方值的关键词提取算法;时永宾等;《计算机工程》;20160630;第42卷(第6期);全文 *

Also Published As

Publication number Publication date
CN108564106A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN108287822B (zh) 一种中文相似问题生成系统与方法
Rigau et al. Combining unsupervised lexical knowledge methods for word sense disambiguation
Bharadiya A comprehensive survey of deep learning techniques natural language processing
JP2640793B2 (ja) 共起辞書構築装置及びこの共起辞書を用いた文解析装置
CN109460552A (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
Kshirsagar et al. A review on application of deep learning in natural language processing
CN108460018B (zh) 一种基于句法谓词聚类的中文篇章主题表现力分析方法
Forti et al. MALT-IT2: A New Resource to Measure Text Difficulty in light of CEFR levels for Italian L2 learning
Mezghanni et al. CrimAr: A criminal Arabic ontology for a benchmark based evaluation
Hirao et al. Automated essay scoring system for nonnative japanese learners
Yan et al. Implicit emotional tendency recognition based on disconnected recurrent neural networks
Montalvo et al. Bilingual news clustering using named entities and fuzzy similarity
CN108564106B (zh) 一种基于句法主语聚类的中文篇章主题表现力分析方法
Zhu et al. YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text.
Kim et al. CNN based sentence classification with semantic features using word clustering
Angelina et al. All-words word sense disambiguation for Russian using automatically generated text collection
Smeaton et al. Using morpho-syntactic language analysis in phrase matching
Ghasemi et al. FarSick: A Persian Semantic Textual Similarity And Natural Language Inference Dataset
McCauley et al. Multiword Units Predict Non-inversion Errors in Children's Wh-questions:“What Corpus Data Can Tell Us?”
Elema Developing Amharic Question Answering Model Over Unstructured Data Source Using Deep Learning Approach
Akhter et al. A Study of Implementation of Deep Learning Techniques for Text Summarization
Ehsani et al. Designing a Persian question answering system based on rhetorical structure theory
CN109670184B (zh) 一种英文文章质量评估方法及系统
Mišić et al. AN OPEN DATABASE OF SENSES FOR SERBIAN POLYSEMOUS NOUNS, VERBS, AND ADJECTIVES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant