CN109508460B - 基于主题聚类的无监督作文跑题检测方法及系统 - Google Patents

基于主题聚类的无监督作文跑题检测方法及系统 Download PDF

Info

Publication number
CN109508460B
CN109508460B CN201811473179.7A CN201811473179A CN109508460B CN 109508460 B CN109508460 B CN 109508460B CN 201811473179 A CN201811473179 A CN 201811473179A CN 109508460 B CN109508460 B CN 109508460B
Authority
CN
China
Prior art keywords
composition
topic
cluster
clustering
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811473179.7A
Other languages
English (en)
Other versions
CN109508460A (zh
Inventor
李霞
温启帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201811473179.7A priority Critical patent/CN109508460B/zh
Publication of CN109508460A publication Critical patent/CN109508460A/zh
Application granted granted Critical
Publication of CN109508460B publication Critical patent/CN109508460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于主题聚类的无监督作文跑题检测方法及系统,方法包括:对待测作文进行关键词提取,生成第一关键词集合;对作文题目进行关键词提取,生成第二关键词集合;根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;根据生成的多个聚类簇生成切分阈值;根据切分阈值将多个聚类簇切分为切题簇和跑题簇;根据切题簇和跑题簇确认切题作文和跑题作文。本发明大大提高了作文跑题检测的准确性,可广泛应用于文字处理技术领域。

Description

基于主题聚类的无监督作文跑题检测方法及系统
技术领域
本发明涉及文字处理技术领域,尤其是基于主题聚类的无监督作文跑题检测方法及系统。
背景技术
无监督学习是指根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,由于在现实生活中常常因为缺乏足够的先验知识,而以人工标注类别或进行人工类别标注的成本太高,因此提出了无监督学习技术来通过计算机完成这些工作。
现有的无监督作文跑题检测研究将每篇待测作文看成一个样本,通过计算每篇待测作文与题目的主题相关度分值,并找出合适的切分阈值最终识别离题作文和切题作文。由于跑题作文的主题可能多种多样,因此跑题作文的主题发散度通常很大。而切题作文之间虽然因为语法错误或语句衔接等差异使得作文之间的分数有所不同,但他们与作文题目的主题一致性通常较高。因此,如果等同看待和处理每一篇作文,将会忽略切题作文之间主题更为一致而跑题作文之间主题更为发散这一事实。
另外,现有的无监督作文跑题检测方法通过计算每一篇待测作文与作文题目的主题一致性,然后根据一定的阈值检测该待测作文是否为跑题作文,这种方法为了尽可能的让切题作文划分出来,可能会将边界周围的离题作文也划分到切题作文上,不够准确。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种准确度高的基于主题聚类的无监督作文跑题检测方法及系统。
本发明一方面所采取的技术方案为:
基于主题聚类的无监督作文跑题检测方法,包括以下步骤:
对待测作文进行关键词提取,生成第一关键词集合;
对作文题目进行关键词提取,生成第二关键词集合;
根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
根据生成的多个聚类簇生成切分阈值;
根据切分阈值将多个聚类簇切分为切题簇和跑题簇;
根据切题簇和跑题簇确认切题作文和跑题作文。
进一步,所述对待测作文进行关键词提取,生成第一关键词集合这一步骤,其具体为:通过TextRank关键词提取算法对待测作文进行关键词提取,生成第一关键词集合。
进一步,所述对作文题目进行关键词提取,生成第二关键词集合这一步骤,包括以下步骤:
通过TextRank关键词提取算法对作文题目进行关键词提取;
采用基于词向量模型的余弦相似度计算方法,对提取到的关键词进行扩充,生成第二关键词集合。
进一步,所述根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度这一步骤,包括以下步骤:
逐一选取第一关键词集合中的作文关键词;
分别计算选取的作文关键词与第二关键词集合中每一题目关键词之间的语义相似度,并将计算得到的最高语义相似度作为该作文关键词与作文题目之间的主题相似度;
计算第一关键词集合中所有作文关键词的主题相似度的平均值,并将所述平均值作为待测作文与作文题目之间的主题相关度。
进一步,所述根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇这一步骤,包括以下步骤:
计算任意两个待测作文之间的主题相关度,得到主题相关度集合;
计算所述主题相关度集合中所有主题相关度的截断均值,并将所述截断均值作为第一阈值;
选取任一待测作文作为初始作文,并根据所述初始作文对聚类簇进行初始化,生成初始聚类簇;
选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值,若是,则将当前作文加入初始聚类簇,并更新初始聚类簇的质心;反之,则根据当前作文生成新的聚类簇;
判断所有待测作文是否均完成聚类处理,若是,则输出所有聚类簇;反之,则返回执行选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值这一步骤,直至所有待测作文均完成聚类处理。
进一步,所述根据生成的多个聚类簇生成切分阈值这一步骤,包括以下步骤:
计算聚类簇的质心与作文题目之间的主题相关度;
根据质心与作文题目之间的主题相关度,计算质心的分布密度;
对质心的分布密度进行排序;
根据质心的分布密度的排序结果,计算聚类簇的权重;
根据聚类簇的权重,计算质心的加权密度;
选取加权密度最大的两个质心,分别将所述两个质心与作文题目之间的主题相关度作为切题簇的平均切题度和跑题簇的平均切题度;
计算切题簇的平均切题度与跑题簇的平均切题度的平均值,并将所述平均值作为切分阈值。
进一步,还包括以下步骤:
获取同一聚类簇中的所有待测作文的作文关键词;
根据作文关键词的出现词频,对作文关键词进行排序;
根据排序结果,选取预定个数的作文关键词作为所述聚类簇的质心;
根据质心计算待测作文与聚类簇之间的主题相关度。
本发明另一方面所采取的技术方案是:
基于主题聚类的无监督作文跑题检测系统,包括:
第一生成模块,用于对待测作文进行关键词提取,生成第一关键词集合;
第二生成模块,用于对作文题目进行关键词提取,生成第二关键词集合;
计算模块,用于根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
聚类模块,用于根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
第三生成模块,用于根据生成的多个聚类簇生成切分阈值;
切分模块,用于根据切分阈值将多个聚类簇切分为切题簇和跑题簇;
确认模块,用于根据切题簇和跑题簇确认切题作文和跑题作文。
本发明另一方面所采取的技术方案是:
基于主题聚类的无监督作文跑题检测系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的基于主题聚类的无监督作文跑题检测方法。
本发明的有益效果是:本发明基于关键词提取技术和主题相关度的计算方法,对待测作文进行聚类处理,并根据聚类处理的结果最终确认切题作文和跑题作文,相较于现有技术单独处理每一篇作文的方法,本发明大大提高了作文跑题检测的准确性。
附图说明
图1为本发明实施例的步骤流程图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明实施例提供了一种基于主题聚类的无监督作文跑题检测方法,包括以下步骤:
对待测作文进行关键词提取,生成第一关键词集合;
对作文题目进行关键词提取,生成第二关键词集合;
根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
根据生成的多个聚类簇生成切分阈值;
根据切分阈值将多个聚类簇切分为切题簇和跑题簇;
根据切题簇和跑题簇确认切题作文和跑题作文。
进一步作为优选的实施方式,所述对待测作文进行关键词提取,生成第一关键词集合这一步骤,其具体为:通过TextRank关键词提取算法对待测作文进行关键词提取,生成第一关键词集合。
进一步作为优选的实施方式,所述对作文题目进行关键词提取,生成第二关键词集合这一步骤,包括以下步骤:
通过TextRank关键词提取算法对作文题目进行关键词提取;
采用基于词向量模型的余弦相似度计算方法,对提取到的关键词进行扩充,生成第二关键词集合。
进一步作为优选的实施方式,所述根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度这一步骤,包括以下步骤:
逐一选取第一关键词集合中的作文关键词;
分别计算选取的作文关键词与第二关键词集合中每一题目关键词之间的语义相似度,并将计算得到的最高语义相似度作为该作文关键词与作文题目之间的主题相似度;
计算第一关键词集合中所有作文关键词的主题相似度的平均值,并将所述平均值作为待测作文与作文题目之间的主题相关度。
进一步作为优选的实施方式,所述根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇这一步骤,包括以下步骤:
计算任意两个待测作文之间的主题相关度,得到主题相关度集合;
计算所述主题相关度集合中所有主题相关度的截断均值,并将所述截断均值作为第一阈值;
选取任一待测作文作为初始作文,并根据所述初始作文对聚类簇进行初始化,生成初始聚类簇;
选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值,若是,则将当前作文加入初始聚类簇,并更新初始聚类簇的质心;反之,则根据当前作文生成新的聚类簇;
判断所有待测作文是否均完成聚类处理,若是,则输出所有聚类簇;反之,则返回执行选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值这一步骤,直至所有待测作文均完成聚类处理。
进一步作为优选的实施方式,所述根据生成的多个聚类簇生成切分阈值这一步骤,包括以下步骤:
计算聚类簇的质心与作文题目之间的主题相关度;
根据质心与作文题目之间的主题相关度,计算质心的分布密度;
对质心的分布密度进行排序;
根据质心的分布密度的排序结果,计算聚类簇的权重;
根据聚类簇的权重,计算质心的加权密度;
选取加权密度最大的两个质心,分别将所述两个质心与作文题目之间的主题相关度作为切题簇的平均切题度和跑题簇的平均切题度;
计算切题簇的平均切题度与跑题簇的平均切题度的平均值,并将所述平均值作为切分阈值。
进一步作为优选的实施方式,还包括以下步骤:
获取同一聚类簇中的所有待测作文的作文关键词;
根据作文关键词的出现词频,对作文关键词进行排序;
根据排序结果,选取预定个数的作文关键词作为所述聚类簇的质心;
根据质心计算待测作文与聚类簇之间的主题相关度。
与图1的方法相对应,本发明实施例还提供了一种基于主题聚类的无监督作文跑题检测系统,包括:
第一生成模块,用于对待测作文进行关键词提取,生成第一关键词集合;
第二生成模块,用于对作文题目进行关键词提取,生成第二关键词集合;
计算模块,用于根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
聚类模块,用于根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
第三生成模块,用于根据生成的多个聚类簇生成切分阈值;
切分模块,用于根据切分阈值将多个聚类簇切分为切题簇和跑题簇;
确认模块,用于根据切题簇和跑题簇确认切题作文和跑题作文。
与图1的方法相对应,本发明实施例还提供了一种基于主题聚类的无监督作文跑题检测系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的基于主题聚类的无监督作文跑题检测方法。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
下面详细描述本发明基于主题聚类的无监督作文跑题检测方法的具体实施步骤:
S1、对待测作文进行关键词提取,生成第一关键词集合;
传统作文跑题检测任务中,将作文文本表示为一个空间向量模型,并使用词语的TF*IDF值作为词的特征权重,若取作文的全部单词作为向量特征,在计算作文和题目之间的主题相关度时,会因为作文中的无关词所带来的噪音导致计算得到的作文与主题之间的主题相关度不够准确。为此,本实施例将每篇作文表示为该篇作文的关键词列表,去除那些与主题无关的词语。
具体地,本发明使用TextRank关键词提取算法对待测作文进行关键词提取,使用所抽取的关键词来表示作文的主题内容。
TextRank算法是一种用于文本的排序算法,其思想是认为文本中词汇的重要度取决于其邻接词的数量以及这些邻接词汇的重要度。对给定的一篇文本,通过给定的上下文窗口大小绘制出以单词为节点、是否邻接为边的词汇链接图和初始链接矩阵H,并构建H的平稳矩阵I并迭代至收敛,最后根据平稳矩阵I计算出文本中各词汇的重要程度,通常选取前n个词汇作为文本的关键词。本实施例将窗口大小设置为2,每篇作文选取分值最高的30个关键词来表示作文的主题内容,当所设定的阈值使得抽取的参数不足30个时则取出全部关键词。表1展示了使用TextRank用于作文内容词抽取的过程。
表1
Figure BDA0001891517200000071
如表1所示,本实施例从Prompt#6和Prompt#1中任意选取1篇作文分别使用TextRank抽取得到的作文关键词列表。从表1可以看出,所抽取的关键词较好的表达了作文的内容信息,去除了不相关或不重要的噪音信息,因此使得作文的主题相关度计算以及簇质心的主题相关度计算分值更为精准。
S2、对作文题目进行关键词提取,生成第二关键词集合;
作文跑题检测任务的核心是判断一篇作文是否在与题目给定的主题信息一致,因此需要计算作文与题目之间的主题相关度。本实施例采用如步骤S1所述的TextRank关键词提取算法将所抽取的关键词集合来表示作文的主题信息。对于作文而言,作文词数一般在150~500之间,足够抽取相应的关键词;但是,对于作文的题目来说,由于所描述的题目文字信息有限,于是,本实施例对作文的关键词使用基于词向量模型的余弦相似度值最高的近义词进行了扩充,在本实施例中,题目中每个单词使用了10个扩展词对其进行扩充
S3、根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
具体地,任意一篇作文和题目之间的主题相关度被定义为作文中所包含的关键词与题目中的原始及扩展词集合的相似度。对于任意一篇作文的第一关键词集合ei={wi1,wi2,…,wim}和扩展后的题目的第二关键词集合title={wt1,wt2,…,wtn},其中wi1,wi2,…,wim表示待测作文ei的m个关键词、wt1,wt2,…,wtn表示作文题目title扩展后的n个关键词。
具体的计算方法是:对于ei中的关键词wi1,首先分别计算关键词wi1与题目中每个关键词的语义相似度,然后取最大相似度值作为单词wi1与题目之间的主题相似度;采用同样的方法计算第2个单词wi2与题目之间的主题相似度;
最后取ei中所有单词与题目之间的主题相似度的均值作为作文ei和题目之间的主题相关度值sim(ei,title),所述主题相关度sim(ei,title)的计算公式为:
Figure BDA0001891517200000081
另外,本实施例还能计算任意两个待测作文之间的主题相关度,仅需将上述相关度sim(ei,title)中的title换成另外一篇作文ej={wj1,wj2,…,wjn},即,两个待测作文ei,ej之间的主题相关度sim(ei,ej)的计算公式为:
Figure BDA0001891517200000082
S4、根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
本实施例将作文依据其主题相关程度聚类成不同的聚类簇,具体地,对某个簇Ci={e1,e2,…,en1},其表示为作文e1,e2,…,en1被聚类到同一个簇Ci中,这表明作文e1,e2,…,en1的内容主题更为接近。在簇质心的表示上,本实施例并没有使用传统聚类算法中基于向量均值的方法,这是因为聚类簇中的每篇作文是由关键词来表示的,将聚类簇中所有作文的关键词全部打开就组合成了该聚类簇的关键词列表。由于同一个簇中的不同作文可能包含相同的关键词,这些关键词被认为是权重最高的关键词,在剩下的关键词中依据关键词的词频进行排序,最后抽取簇中前有限个关键词作为该簇的质心,优选地,本实施例抽取了前50个关键词作为簇的质心。表示方法上,定义簇Ci的质心为:
Cicenter={wci1,wci2,…,wci50}。
另外,在本实施例中,待测作文ei={wi1,wi2,…,wim}和聚类簇Ci={e1,e2,…,en1}之间的主题相关度被定义为作文ei和聚类簇Ci质心Cicenter={wci1,wci2,…,wci50}之间的主题相关度,其计算公式为:
Figure BDA0001891517200000091
在实际应用中,由于跑题作文往往与切题作文的主题差异较大,而不同的跑题作文之间的主题发散性也很大,单独对作文进行分析处理,无法很好的避免主题发散度高的问题。为此,本发明提出了基于聚类的思想,将每篇作文表示为作文的关键词,聚类时依据作文之间的主题相关度对那些主题相近的作文进行聚类,而那些主题不相关的作文自动聚类到其他单独簇中。将每个聚类簇中的作文关键词展开汇集,则每个聚类簇可以看成是“一篇更大一些的主题作文”,这样的聚类结果使得那些原始发散度高的作文转为了更为集中的主题聚类簇,进而提升跑题检测的最终结果。详细聚类算法实现过程如下:
(1)随机抽取2篇待测作文ei和ej,并计算这两篇作文的主题相关度,其中,所述两篇作文之间的主题相关度的计算公式为:
Figure BDA0001891517200000092
(2)循环执行步骤(1)一定次数后,取所有结果的截断均值作为聚类算法的阈值r;
(3)从所有待测作文集合中读入第1篇作文e1,并以该作文初始化簇C1,即:C1={e1};
(4)循环执行以下步骤:
1)、选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值,若是,则将当前作文加入初始聚类簇,并更新初始聚类簇的质心;反之,则根据当前作文生成新的聚类簇;
2)、判断所有待测作文是否均完成聚类处理,若是,则输出所有聚类簇;反之,则返回执行步骤1),直至所有待测作文均完成聚类处理。
上述循环执行的步骤1)和2)用伪代码表示如下:
Fori=2to N1:
读入作文ei,计算作文ei与已有聚类簇的主题相关度,假定最大主题相关度为rmax
对应的簇为Cmax
Ifrmax≥r:
将作文ei归类为簇Cmax,并更新簇Cmax的质心;
Else:
以该作文ei生成一个新的聚类簇;
(5)最后输出聚类得到簇列表C={C1,C2,C3,...,CN2}。
综上,本发明的聚类算法通过输入待测作文集合E={e1,e2,...,eN1},其中,ei为第i篇作文,N1为待测作文的总数;最终输出聚类得到的簇列表C={C1,C2,C3,...,CN2}。
S5、根据生成的多个聚类簇生成切分阈值;根据切分阈值将多个聚类簇切分为切题簇和跑题簇;根据切题簇和跑题簇确认切题作文和跑题作文。
具体地,在跑题检测任务中,理论上切题簇与题目之间的内容相关度会大于跑题簇与题目之间的内容相关度,本发明将该相关度定义为作文的切题度。若能找出切题簇和跑题簇的边界阈值,则可以划分各个簇为切题簇或跑题簇。基于这个想法,本发明提出在切题度这一维度上将作文簇的各个质心划分成跑题质心集合和切题质心集合,进而将每个质心对应的簇划分为切题簇和跑题簇,将那些落在跑题簇中的作文判定为跑题作文。
本实施例的基本思路是定义簇质心的分布密度,并找出那些密度排序靠前的2个簇,然后将切分阈值r设定为这两个簇的均值位置。当定义好切分阈值r后,剩余的簇的类别定义规则为:若聚类后的簇质心切题度大于r,则该簇被划分为切题簇,簇中作文被划分为切题作文;否则,该簇被划分为跑题簇,簇中作文为跑题作文。详细的切分算法实现过程如下:
(1)计算各个簇的质心与题目之间的切题度,即sim(ci,title),其中title为题目扩展后的题目的关键词集合;待测作文的聚类簇的质心集合为C={c1,c2,c3,...,ck},ci代表第i个簇的质心,k代表聚类个数;
(2)计算各个簇Ci的密度δi如下:
Figure BDA0001891517200000101
其中,sim(ci)表示簇Ci质心与题目的主题相关度分值;
(3)依据各个簇的密度值进行排序;
(4)计算各个簇Ci的权重wi如下:
wi=|sim(ci)-sim(cj)|
其中,若簇Ci的密度最大,则cj为排序后密度最小的簇的质心;否则,cj为密度大于Ci并且密度最接近的簇Cj的质心。
(5)计算各个质心的加权密度γi=ωi×δi
(6)选择加权密度最大的两个质心的切题度sim(cx)和sim(cy)分别代表切题簇和跑题簇的平均切题度;
(7)计算两个切题度的均值(sim(cx)+sim(cy))/2;并将计算得到的均值作为切分阈值r。
下面通过具体实验来分析本发明基于主题聚类的无监督作文跑题检测方法及系统的优点。
实验过程如下:
本实施例分别选取了以英语为母语的学习者和以英语为二语的中国英语学习者所写的两个不同类型作文语料库下的9个主题作文进行测试,文中将这9个作文题目分别标号Prompt#1~Prompt#9,其中Prompt#1~Prompt#4来自kaggle的作文评分比赛数据集,Prompt#5~Prompt#8来自中国英语学习者语料库CLEC作文数据集,CLEC(Chinese LearnerEnglish Corpus)语料库包含了大学英语四级和大学英语六级考试作文,Prompt#9来自2005年广东省高考英语作文考试作文数据,该作文数据集的主题为看图写作题,题目为描述“守株待兔”的故事或寓意,由于原始作文的题目为中文题目,为此本实施例对该作文题目分别设定了详细和简略两个版本的英文题目描述,其中简略题目为“The story andmoral of idioms"sit back and wait"”,详细解释守株待兔成语的题目为“Farmer waitevery day under the tree,in the hope that a hare would kill itself bycrashing into a trunk.wait for gains without pains”,并分别定义为Prompt#9-A和Prompt#9-B。以上所有9个主题作文中的离题作文均来自该主题以外三个主题作文中随机抽取过来的作文以及当前主题作文中低分作文人工识别出来的离题作文。该9个数据集的详细数据分布情况如表2所示。
表2
Figure BDA0001891517200000111
本实施例采用信息检索中常用的检测正确率(P)、检测召回率(R)和F1度量值作为评测指标。同时本实施例也采用了FP(False Positive)和FN(False Negative)两个指标作为辅助评价指标,相应的5个指标公式描述如下:
Figure BDA0001891517200000121
Figure BDA0001891517200000122
Figure BDA0001891517200000123
Figure BDA0001891517200000124
Figure BDA0001891517200000125
本实施例采用了两个基准比较算法,即传统基于作文内容向量表示的方法(以tf*idf方法来命名),另一个是现有的基于局部密度选择的跑题检测方法。本实施例中使用的词向量是在维基百科数据上训练得到的词向量模型,词向量维度为50维;使用TextRank抽取作文的关键词时抽取的数量为30,窗口设置为2;聚类算法中对所有主题作文均为随机计算10,000次任意两个作文之间相关度的截断均值作为最终的聚类相似度阈值,截断均值使用了10%。
首先,本实施例分别使用2个baseline方法以及本发明方法在9个作文数据集上进行跑题检测,实验结果如表3所示。
表3
Figure BDA0001891517200000126
表3的实验结果表明,相比于传统的基于tf*idf权重向量的文本表示模式和基于局部密度的方法,本发明提出的基于主题聚类的无监督作文跑题检测方法在不同数据集上均取得相近似或更好的跑题检测结果。例如在Prompt#1作文数据上,本发明基于聚类的方法取得了73.10%的F1度量值,分别比传统方法提升了16.66个百分点和8.19个百分点。例如在Prompt#7作文数据上,本发明提出的基于聚类的方法取得了88.89%的F1度量值,相比传统方法分别提升了19.33个百分点和16.17个百分点。
总体而言,在9个作文数据集上本发明所提出的基于聚类的无监督跑题检测方法相比传统方法和基于局部密度的方法均有较好的提升。实验中,Prompt#9-A题目的结果显著好于Prompt#9-B题目的结果,说明对于看图作文,如何取作文题目对于跑题检测结果具有一定的影响。例如,Prompt#9-A的题目更为详细,提供了更加丰富的语义信息,因此使得本发明算法在跑题检测上提升较为显著,在Prompt#9-A上,本发明方法分别比前两个基准方法提升了41.02和42.6个百分点。而Prompt#9-B的题目相对简短,提供的语义信息相对较少,因此尽管本发明方法相比两个基准方法提升显著,但总体检测的F度量值不是太高。
实验结果还表明,使用聚类方法后,可以更好的将离题作文划分开来,因而总体上可以取得更好的检测效果。在一共9个数据集上的平均F1值上,本发明方法为73.74%,相比两个基准方法的61.79%和66.87%,本发明方法分别提升了11.95和6.87个百分点。
另外,本实施例也同时对两个指标FN(False Negative)和FP(False Positive)值进行了实验对比,并且分别和两个基准算法进行了比较分析,结果如表4所示。
表4
Figure BDA0001891517200000131
从表4可以看出,在所有9个作文数据集上,本发明方法相比针对作文单独计算主题相关度分值来识别离题作文的方法均有一定的提升,例如使用拼写纠错前,在9个作文数据集上,本发明方法相比两个基准方法的F1值分别提升了11.95和6.87个百分点。
同时为了便于更好的发现母语学习者作文和以英语为第二语言的中国英语学习者作文在跑题检测结果上的差异,本实施例将两部分作文数据集进行了分开统计,结果如表5所示。
表5
Figure BDA0001891517200000141
从表5可以看出,本发明提出的基于聚类的跑题检测方法相比传统的tf*idf方法在平均F1值和平均FN值以及平均FP值上均有较大的提升,而相比于基于局部密度的方法,本发明方法在以汉语为母语的学习者的作文数据上表现更为明显,平均F1值高出14.44和6.15个百分点。
综上所述,本发明提出了一种基于主题聚类的无监督作文跑题检测方法及系统,与单独处理每篇作文的方法不同,本发明将作文聚类成簇,并将作文和簇质心使用内容关键词来表示,从而方便计算簇与簇、簇与题目之间的主题一致性。由于主题相关的作文被聚类为一个簇,而簇作为一个整体其与题目的主题相关度分值将提升,从而更好的划分出离题簇和切题簇,最后将那些离题簇中的作文识别为离题作文,切题簇中的作文识别为切题作文。本发明在9个主题作文数据集上进行了实验,并与传统基于单篇作文检测的方法进行了对比,结果表明,本发明方法相比基准方法具有较好的提升,尤其在经过拼写纠错后的母语为汉语的作文数据集上检测结果提升明显。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种基于主题聚类的无监督作文跑题检测方法,其特征在于:包括以下步骤:
对待测作文进行关键词提取,生成第一关键词集合;
对作文题目进行关键词提取,生成第二关键词集合;
根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
根据生成的多个聚类簇生成切分阈值;
根据切分阈值将多个聚类簇切分为切题簇和跑题簇;
根据切题簇和跑题簇确认切题作文和跑题作文;
所述根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇这一步骤,包括以下步骤:
计算任意两个待测作文之间的主题相关度,得到主题相关度集合;
计算所述主题相关度集合中所有主题相关度的截断均值,并将所述截断均值作为第一阈值;
选取任一待测作文作为初始作文,并根据所述初始作文对聚类簇进行初始化,生成初始聚类簇;
选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值,若是,则将当前作文加入初始聚类簇,并更新初始聚类簇的质心;反之,则根据当前作文生成新的聚类簇;
判断所有待测作文是否均完成聚类处理,若是,则输出所有聚类簇;反之,则返回执行选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值这一步骤,直至所有待测作文均完成聚类处理;
所述根据生成的多个聚类簇生成切分阈值这一步骤,包括以下步骤:
计算聚类簇的质心与作文题目之间的主题相关度;
根据质心与作文题目之间的主题相关度,计算质心的分布密度;
对质心的分布密度进行排序;
根据质心的分布密度的排序结果,计算聚类簇的权重;
根据聚类簇的权重,计算质心的加权密度;
选取加权密度最大的两个质心,分别将所述两个质心与作文题目之间的主题相关度作为切题簇的平均切题度和跑题簇的平均切题度;
计算切题簇的平均切题度与跑题簇的平均切题度的平均值,并将所述平均值作为切分阈值。
2.根据权利要求1所述的基于主题聚类的无监督作文跑题检测方法,其特征在于:所述对待测作文进行关键词提取,生成第一关键词集合这一步骤,其具体为:通过TextRank关键词提取算法对待测作文进行关键词提取,生成第一关键词集合。
3.根据权利要求1所述的基于主题聚类的无监督作文跑题检测方法,其特征在于:所述对作文题目进行关键词提取,生成第二关键词集合这一步骤,包括以下步骤:
通过TextRank关键词提取算法对作文题目进行关键词提取;
采用基于词向量模型的余弦相似度计算方法,对提取到的关键词进行扩充,生成第二关键词集合。
4.根据权利要求1所述的基于主题聚类的无监督作文跑题检测方法,其特征在于:所述根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度这一步骤,包括以下步骤:
逐一选取第一关键词集合中的作文关键词;
分别计算选取的作文关键词与第二关键词集合中每一题目关键词之间的语义相似度,并将计算得到的最高语义相似度作为该作文关键词与作文题目之间的主题相似度;
计算第一关键词集合中所有作文关键词的主题相似度的平均值,并将所述平均值作为待测作文与作文题目之间的主题相关度。
5.根据权利要求1所述的基于主题聚类的无监督作文跑题检测方法,其特征在于:还包括以下步骤:
获取同一聚类簇中的所有待测作文的作文关键词;
根据作文关键词的出现词频,对作文关键词进行排序;
根据排序结果,选取预定个数的作文关键词作为所述聚类簇的质心;
根据质心计算待测作文与聚类簇之间的主题相关度。
6.一种基于主题聚类的无监督作文跑题检测系统,其特征在于:包括:
第一生成模块,用于对待测作文进行关键词提取,生成第一关键词集合;
第二生成模块,用于对作文题目进行关键词提取,生成第二关键词集合;
计算模块,用于根据第一关键词集合和第二关键词集合,计算待测作文与作文题目之间的主题相关度;
聚类模块,用于根据计算得到的主题相关度,对待测作文进行聚类处理,生成多个聚类簇;
第三生成模块,用于根据生成的多个聚类簇生成切分阈值;
切分模块,用于根据切分阈值将多个聚类簇切分为切题簇和跑题簇;
确认模块,用于根据切题簇和跑题簇确认切题作文和跑题作文;
其中,所述聚类模块具体执行以下步骤:
计算任意两个待测作文之间的主题相关度,得到主题相关度集合;
计算所述主题相关度集合中所有主题相关度的截断均值,并将所述截断均值作为第一阈值;
选取任一待测作文作为初始作文,并根据所述初始作文对聚类簇进行初始化,生成初始聚类簇;
选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值,若是,则将当前作文加入初始聚类簇,并更新初始聚类簇的质心;反之,则根据当前作文生成新的聚类簇;
判断所有待测作文是否均完成聚类处理,若是,则输出所有聚类簇;反之,则返回执行选取初始作文之外的待测作文作为当前作文,计算当前作文与初始聚类簇之间的主题相关度,并判断该主题相关度是否大于或等于第一阈值这一步骤,直至所有待测作文均完成聚类处理;
所述第三生成模块具体执行以下步骤:
计算聚类簇的质心与作文题目之间的主题相关度;
根据质心与作文题目之间的主题相关度,计算质心的分布密度;
对质心的分布密度进行排序;
根据质心的分布密度的排序结果,计算聚类簇的权重;
根据聚类簇的权重,计算质心的加权密度;
选取加权密度最大的两个质心,分别将所述两个质心与作文题目之间的主题相关度作为切题簇的平均切题度和跑题簇的平均切题度;
计算切题簇的平均切题度与跑题簇的平均切题度的平均值,并将所述平均值作为切分阈值。
7.一种基于主题聚类的无监督作文跑题检测系统,其特征在于:包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的基于主题聚类的无监督作文跑题检测方法。
CN201811473179.7A 2018-12-04 2018-12-04 基于主题聚类的无监督作文跑题检测方法及系统 Active CN109508460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811473179.7A CN109508460B (zh) 2018-12-04 2018-12-04 基于主题聚类的无监督作文跑题检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811473179.7A CN109508460B (zh) 2018-12-04 2018-12-04 基于主题聚类的无监督作文跑题检测方法及系统

Publications (2)

Publication Number Publication Date
CN109508460A CN109508460A (zh) 2019-03-22
CN109508460B true CN109508460B (zh) 2020-03-24

Family

ID=65751400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811473179.7A Active CN109508460B (zh) 2018-12-04 2018-12-04 基于主题聚类的无监督作文跑题检测方法及系统

Country Status (1)

Country Link
CN (1) CN109508460B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222334B (zh) * 2019-05-21 2023-04-18 平安国际智慧城市科技股份有限公司 一种主题相关性确定方法、装置、存储介质及终端设备
CN110287291B (zh) * 2019-07-03 2021-11-02 桂林电子科技大学 一种无监督的英语短文句子跑题分析方法
CN111160463A (zh) * 2019-12-30 2020-05-15 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN112784878B (zh) * 2020-12-31 2024-10-15 北京华图宏阳网络科技有限公司 一种中文议论文智能批改方法及系统
CN114357142A (zh) * 2022-01-12 2022-04-15 南京题麦壳斯信息科技有限公司 一种无监督的英文写作切题评估方法及其系统和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8891847B2 (en) * 2012-01-23 2014-11-18 Medtronic Navigation, Inc. Automatic implant detection from image artifacts
CN104778160B (zh) * 2015-04-27 2017-10-24 桂林电子科技大学 一种英语作文内容切题分析方法
CN106126613A (zh) * 2016-06-22 2016-11-16 苏州大学 一种跑题作文确定方法及装置
CN107301169B (zh) * 2017-06-16 2021-02-05 科大讯飞股份有限公司 离题作文检测方法、装置和终端设备

Also Published As

Publication number Publication date
CN109508460A (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN109508460B (zh) 基于主题聚类的无监督作文跑题检测方法及系统
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN110309305B (zh) 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Al-Hashemi Text Summarization Extraction System (TSES) Using Extracted Keywords.
JP5356197B2 (ja) 単語意味関係抽出装置
CN108763213A (zh) 主题特征文本关键词提取方法
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
JP2005158010A (ja) 分類評価装置・方法及びプログラム
Layton et al. Recentred local profiles for authorship attribution
CN109582704A (zh) 招聘信息和求职简历匹配的方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN109766547B (zh) 一种句子相似度计算方法
CN107977368A (zh) 信息提取方法及系统
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN108491375B (zh) 基于CN-DBpedia的实体识别与链接系统和方法
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
CN110705306B (zh) 一种作文文题一致性的测评方法
Hakkani-Tur et al. Statistical sentence extraction for information distillation
Lao et al. Style Change Detection Based On Bert And Conv1d.
Charoenpornsawat et al. Feature-based thai unknown word boundary identification using winnow
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant