CN106126613A - 一种跑题作文确定方法及装置 - Google Patents
一种跑题作文确定方法及装置 Download PDFInfo
- Publication number
- CN106126613A CN106126613A CN201610457062.4A CN201610457062A CN106126613A CN 106126613 A CN106126613 A CN 106126613A CN 201610457062 A CN201610457062 A CN 201610457062A CN 106126613 A CN106126613 A CN 106126613A
- Authority
- CN
- China
- Prior art keywords
- composition
- divergence
- document
- similarity
- exercise question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种跑题作文确定方法及装置。一种跑题作文确定方法,可以包括以下步骤:获得目标题目下的作文集合;根据作文集合中作文之间的文本相似度,确定作文集合的文档发散度;根据文档发散度,确定相似度阈值;针对作文集合中的每一篇作文,计算该作文与预先确定的目标题目的范文的文本相似度,如果该作文与范文的文本相似度小于相似度阈值,则确定该篇作文为跑题作文。应用本发明实施例所提供的技术方案,可以快速有效地确定出作文集合中的跑题作文,为作文自动评分系统提供有效参考,提高作文评分的准确率。
Description
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种跑题作文确定方法及装置。
背景技术
跑题作文,是指作文内容偏离了预先给定的主题。比如,针对题目“on foodsafety”,其主题是关于食品安全的,如果某篇作文的内容是关于读书或者关于大学生活的,则其与食品安全主题毫不相关,这篇作文就是跑题作文。
随着计算机应用技术的快速发展,越来越多的工作可以通过计算机自动完成,这样可以节省较多的人工成本,提高工作效率。比如对于作文的自动评分。目前作文自动评分系统多是对作文质量的评分。但是,作文的质量和是否跑题没有必然联系,一篇跑题作文即使质量再高,也不应该得到较高分数,使得作文评分准确率低。
在作文自动评分系统运行过程中,怎样确定作文是否跑题,提高作文评分准确率,是当前亟需解决的技术问题。
发明内容
为解决上述技术问题,本发明提供一种跑题作文确定方法及装置。
一种跑题作文确定方法,包括:
获得目标题目下的作文集合;
根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度;
根据所述文档发散度,确定相似度阈值;
针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,如果该作文与所述范文的文本相似度小于所述相似度阈值,则确定该篇作文为跑题作文。
在本发明的一种具体实施方式中,所述针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,包括:
针对所述作文集合中的每一篇作文,提取该作文的第一文本单词集合;
针对所述第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
确定所述第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,所述第二文本单词扩展集合为:对预先确定的所述目标题目的范文的第二文本单词集合进行扩展后获得的集合;
将确定的文本相似度确定为该作文与所述范文的文本相似度。
在本发明的一种具体实施方式中,所述根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度,包括:
计算所述作文集合中两两作文之间的文本相似度;
将计算得到的所有文本相似度的均值确定为所述作文集合的文档发散度。
在本发明的一种具体实施方式中,所述根据所述文档发散度,确定相似度阈值,包括:
将所述文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与所述文档发散度对应的相似度阈值。
在本发明的一种具体实施方式中,通过以下步骤预先确定所述目标题目的范文:
基于向量空间模型,分别将所述作文集合中的每篇作文表示成向量;
将所有向量的均值确定为中心向量;
将与所述中心向量的距离最近的向量对应的作文确定为所述目标题目的范文。
一种跑题作文确定装置,包括:
作文集合获得模块,用于获得目标题目下的作文集合;
文档发散度确定模块,用于根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度;
相似度阈值确定模块,用于根据所述文档发散度,确定相似度阈值;
文本相似度计算模块,用于针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,如果该作文与所述范文的文本相似度小于所述相似度阈值,则触发跑题作文确定模块;
所述跑题作文确定模块,用于确定与所述范文的文本相似度小于所述相似度阈值的作文为跑题作文。
在本发明的一种具体实施方式中,所述文本相似度计算模块,具体用于:
针对所述作文集合中的每一篇作文,提取该作文的第一文本单词集合;
针对所述第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
确定所述第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,所述第二文本单词扩展集合为:对预先确定的所述目标题目的范文的第二文本单词集合进行扩展后获得的集合;
将确定的文本相似度确定为该作文与所述范文的文本相似度。
在本发明的一种具体实施方式中,所述文档发散度确定模块,具体用于:
计算所述作文集合中两两作文之间的文本相似度;
将计算得到的所有文本相似度的均值确定为所述作文集合的文档发散度。
在本发明的一种具体实施方式中,所述相似度阈值确定模块,具体用于:
将所述文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与所述文档发散度对应的相似度阈值。
在本发明的一种具体实施方式中,所述装置还包括范文确定模块,用于通过以下步骤预先确定所述目标题目的范文:
基于向量空间模型,分别将所述作文集合中的每篇作文表示成向量;
将所有向量的均值确定为中心向量;
将与所述中心向量的距离最近的向量对应的作文确定为所述目标题目的范文。
应用本发明实施例所提供的技术方案,确定出目标题目下的作文集合的文档发散度后,可以根据该文档发散度,确定相似度阈值,针对作文集合中的每一篇作文,可以计算该作文与预先确定的目标题目的范文的文本相似度,并将该文本相似度与相似度阈值进行比较,如果小于相似度阈值,则可以确定该作文为跑题作文。这样,可以快速有效地确定出作文集合中的跑题作文,为作文自动评分系统提供有效参考,提高作文评分的准确率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种跑题作文确定方法的实施流程图;
图2为本发明实施例中文档发散度值与跑题作文比例的关系示意图;
图3为本发明实施例中文档发散度值与F1值的关系示意图;
图4为本发明实施例中一种跑题作文确定装置的结构示意图。
具体实施方式
本发明实施例的核心是提供一种跑题作文确定方法,针对目标题目,不同的写作者可以创作出不同内容的作文,构成该目标题目的作文集合。针对该目标题目的作文集合中的每篇作文,基于该作文集合的文档发散度,可以快速有效地确定该作文是否为跑题作文,即该作文的内容是否偏离了目标题目所设定的主题,为作文自动评分系统提供有效参考。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,为本发明实施例所提供的一种跑题作文确定方法的实施流程图,该方法可以包括以下步骤:
S110:获得目标题目下的作文集合。
对于设定的目标题目,可以获得该目标题目下的作文集合,该作文集合中的每篇作文的内容不同。
S120:根据作文集合中作文之间的文本相似度,确定作文集合的文档发散度。
在步骤S110获得了目标题目下的作文集合,该作文集合中至少包含两篇作文。
文档发散度,是指某一题目下作文集合的发散程度。
举例而言,假设有两个题目:“一场足球赛”和“一次难忘的经历”。每个题目分别对应一个作文集合。“一次难忘的经历”题目所对应的作文集合中的作文的内容更多样,比如,有关于参加或观看足球赛经历的内容,有关于旅游经历的内容,有关于做料理或者品尝料理经历的内容等。
相较于“一场足球赛”题目所对应的作文集合,“一次难忘的经历”题目所对应的作文集合中的作文没有统一的主题,但可能并没有跑题,该作文集合中的作文的内容之间没有太多相似性,可以认为这个题目下的文档发散度较高,这样的题目也可称为发散性题目。
在本发明实施例中,可以根据作文集合中作文之间的文本相似度,确定该作文集合的文档发散度。
在本发明的一种具体实施方式中,步骤S120可以包括以下步骤:
步骤一:计算作文集合中两两作文之间的文本相似度;
步骤二:将计算得到的所有文本相似度的均值确定为作文集合的文档发散度。
为便于描述,将上述两个步骤结合起来进行说明。
针对作文集合中任意两篇作文而言,文本相似度表示这两篇作文内容之间的相似程度。
对于文本相似度的计算,可以通过向量空间模型(Vector Space Model,VSM)进行。向量空间模型的基本思想是用向量形式来表示一篇作文的文本:Vd=[w1,w2,w3,…,wn],其中,wi是第i个目标词,其权重可以用词的TF-IDF值表示,TF-IDF值表示该词对于文本的重要程度,由词频和逆文档频率构成:
词频(Term Frequency,TF),即一个目标词在一篇作文的文本中出现的次数。某个目标词在一篇作文的文本中出现的次数越多,表示其对这篇作文越重要,与这篇作文的主题的相关性越高。在实际应用中,可以将具有实际意义的词作为目标词,目标词不包括停用词(stop words),停用词如中文中的“的”、“了”,英文中的“a”、“the”等,因为停用词在文本中出现的次数会比较多,但其不能反映作文的主题,所以在确定目标词时可以将停用词过滤掉。
逆文档频率(Inverse Document Frequency,IDF),是对目标词普遍性和重要性的度量。某个目标词在作文集合包含的作文的文本中出现的次数越多,说明该目标词的区分能力越低,越不能反映作文的特性;反之,如果某个目标词在作文集合包含的作文的文本中出现的次数越少,那么其越能够反映作文的特性。例如,作文集合包含100篇作文,目标词A只在其中1篇作文的文本中出现过,而目标词B在100篇作文的文本中都出现过,那么,目标词A比目标词B更能反映作文的特性。
在实际应用中,可以通过公式(1)计算目标词wi的TF-IDF值:
TFIDF(wi)=tf(wi)×idf(wi) (1)
其中,TFIDF(wi)表示目标词wi的TF-IDF值,tf(wi)表示目标词wi的词频,其等于该目标词在一篇作文的文本出现的次数除以该文本的总词数,idf(wi)表示目标词wi的逆文档频率,可以根据公式(2)计算得到:
在公式(2)中,N表示作文集合包含的作文的总数,df(wi)是包含目标词wi的作文的总数,加1是可以保证分母大于0。
对于任意两篇作文的文本D1和D2,基于向量空间模型,分别将其表示为向量后,可以使用余弦公式计算向量间的相似度,以此衡量文本之间的相似度,即可以通过公式(3)计算这两篇作文的文本相似度。
其中,n表示目标词的个数,a1k表示文本D1中目标词的TF-IDF值,a2k表示文本D2中目标词的TF-IDF值。
根据公式(3)分别计算作文集合中两两作文之间的文本相似度,将计算得到的所有文本相似度的均值确定为作文集合的文档发散度,具体可以根据公式(4)进行确定:
其中,Num为计算得到的文本相似度的个数,Sim(Di,Dj)表示作文集合中任意两篇作文的文本相似度。
目标题目下作文集合的文档发散度值div越低,表示该作文集合包含的作文的内容的发散程度越高。
S130:根据文档发散度,确定相似度阈值。
因为不同题目下的作文集合的发散程度不同,所以,很难选取一个固定的值作为相似度阈值。在本发明实施例中,可以根据文档发散度,针对不同的题目确定不同的相似度阈值。在实际应用中,可以预先获得文档发散度和相似度阈值的对应关系,确定文档发散度后,根据该对应关系,确定相似度阈值。
在本发明的一种具体实施方式中,步骤S130可以包括以下步骤:
将文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与文档发散度对应的相似度阈值。
通过对训练样本数据进行分析,可以获知,发散程度较高的题目,其作文集合的文档发散度值较低,同样,发散程度较低的题目,其作文集合的文档发散度值较高,即相似度阈值和文档发散度之间具有一定的联系,存在线性关系,据此可以构建线性回归模型,如公式(5)所示:
thresholder=a×div+b 公式(5)
其中,thresholder表示针对某题目的相似度阈值,div表示该题目下作文集合的文档发散度值,a和b为构建的线性回归模型的参数。
在步骤S120确定了作文集合的文档发散度,将该文档发散度值代入公式(5)中,可以获得相应的相似度阈值。如果文档发散度较高,将获得较大的相似度阈值,如果文档发散度较低,将获得较小的相似度阈值。
S140:针对作文集合中的每一篇作文,计算该作文与预先确定的目标题目的范文的相似度,如果该作文与范文的文本相似度小于相似度阈值,则确定该篇作文为跑题作文。
在本发明实施例中,可以人工选取范文,还可以通过以下步骤预先确定该目标题目的范文:
第一个步骤:基于向量空间模型,分别将作文集合中的每篇作文表示成向量;
第二个步骤:将所有向量的均值确定为中心向量;
第三个步骤:将与中心向量的距离最近的向量对应的作文确定为目标题目的范文。
为便于描述,将上述三个步骤结合起来进行说明。
基于向量空间模型,可以分别将作文集合中的每篇作文表示成向量。假设作文集合中共有m篇作文,确定的目标词有n个,每篇作文可以表示成如下向量形式:
V(D1)=[a11,a12,a13,…,a1n]
V(D2)=[a21,a22,a23,…,a2n]
……
V(Dm)=[am1,am2,am3,…,amn]
其中,上述等号左侧V(Dm)表示第m篇作文的向量形式,等号右侧为向量的具体表示,共n维,每一维都是相应目标词的TF-IDF值。
确定所有向量的均值,将该均值确定为中心向量,如公式(6)所示:
在实际应用中,可以将一篇作文的向量看做向量空间中的一个点,中心向量为这些点的中心,将与中心向量的距离最近的向量对应的作文确定为目标题目的范文,即如公式(7)所示:
针对作文集合中的每一篇作文,可以计算该作文与范文的文本相似度。具体的,该文本相似度可以根据公式(3)计算,还可以考虑词与词之间的语义相似度,基于词扩展方法计算。
在本发明的一种具体实施方式中,文本相似度的计算可以通过以下步骤进行:
步骤一:针对作文集合中的每一篇作文,提取该作文的第一文本单词集合;
步骤二:针对第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
步骤三:确定第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,第二文本单词扩展集合为:对预先确定的目标题目的范文的第二文本单词集合进行扩展后获得的集合;
步骤四:将确定的文本相似度确定为该作文与范文的文本相似度。
为便于描述,将上述四个步骤结合起来进行说明。
针对作文集合中的每一篇作文,可以提取该作文的第一文本单词集合,第一文本单词集合中包含多个具有实际意义的单词,这些单词也可称为目标词。
可以理解的是,不同的单词其语义可能是相近的,比如,“笔记本”和“手提电脑”,这两个单词具有相同语义,在进行文本相似度的计算时,应该加以考虑,以提高检测准确率。
针对第一文本单词集合中的每一个单词,可以确定与该单词语义相近的单词集合,这样,可以获得该作文的第一文本单词扩展集合。
相应的,对于目标题目的范文,也可以按照上述方法,提取该范文的第二文本单词集合,并对该范文的第二文本单词集合进行扩展,获得该范文的第二文本单词扩展集合。
基于第一文本单词扩展集合和第二文本单词扩展集合,确定其文本相似度,该文本相似度的计算可以通过TF-IDF方法进行,并将该文本相似度确定为该作文与范文的文本相似度。
在对第一文本单词集合或者第二文本单词集合进行扩展后,针对每个扩展后的集合,可以进行去重处理。这样,可以减小计算量,提高检测速率。
基于词扩展的文本相似度的计算更为准确。
应用本发明实施例所提供的方法,确定出目标题目下的作文集合的文档发散度后,可以根据该文档发散度,确定相似度阈值,针对作文集合中的每一篇作文,可以计算该作文与预先确定的目标题目的范文的文本相似度,并将该文本相似度与相似度阈值进行比较,如果小于相似度阈值,则可以确定该作文为跑题作文。这样,可以快速有效地确定出作文集合中的跑题作文,为作文自动评分系统提供有效参考,提高作文评分的准确率。
下面以具体实验数据说明应用本发明实施例所提供的方法进行跑题作文的检测的效果。
在本实验中,共收集30111篇内容不同的作文,一共400个不同的题目,平均每个题目约对应75篇作文。通过人工标注方法对每个题目下的作文进行标注,查找出跑题文章。每个题目下作文集合的文档发散度值与跑题作文比例的关系如图2所示。
从图2中可以看出,如果作文集合的文档发散度较强或者较弱,即处于图2中横轴的两端,这些作文集合中跑题作文的比例不高,而文档发散度处于中等水平,如0.2-0.3左右的作文集合中跑题作文占的比例相对较高。
该实验使用了word2vec工具包,这个工具包可以根据给定的语料库,通过训练后的模型将词表示成向量形式,并能找出与某个词语义上相近的词。另外收集了3209128篇作文作为word2vec的训练语料。同时,这3209128篇作文还可以用来生成包含目标词的词表,以及训练单词的idf值。在生成词表的时候,可以过滤滤掉出现次数低于5次的单词,主要是为了过滤掉拼写错误的单词。
为了学习每个题目下相似度阈值和文档发散度的关系,需要一个训练集。该训练集中每个训练实例为一个题目下的文档发散度和相似度阈值,文档发散度可以根据作文集合中作文之间的文本相似度计算得到,相似度阈值根据人工标注的结果来选取。对题目下所有作文按照系统得分从低到高排序,将得分最高的跑题作文的得分和它下一篇非跑题作文的得分的均值作为相似度阈值。例如,一个题目下,跑题作文中得分最高的作文的得分为0.1,它下一篇作文为非跑题文章,得分为0.2,那么相似度阈值等于0.15。
利用准确率(Precision)、召回率(Recall)和综合度量标准F1值作为评价指标。将400个题目,分为10份,做10倍交叉验证。每次取其中的1份作为测试集,其余9份作为训练集,训练出相似度阈值和文档发散度的线性回归模型。测试时,首先计算每个题目下的文档发散度,然后根据学习好的线性回归模型得到相似度阈值,找出系统评分小于相似度阈值的作文,假设有N篇,其中K个是正确的判断,即和人工判断结果一致,设这个题目下人工标注的所有跑题作文的数量为M,则:
P=K/N;
R=K/M;
F1=2/(1/P+1/R)。
P表示准确率,R表示召回率,F1为综合考虑准确率和召回率的度量标准。如果M=0,K=0,则说明题目下没有跑题作文,如果预测结果也是没有跑题作文,那么R=1;如果N=0,则说明预测的相似度阈值比作文的最低得分还要低,此时P=1。每一次测试都计算出测试集的准确率、召回率和F1值,最后将10次实验的结果做平均,得出总体的平均准确率、平均召回率和平均F1值。
作为对比,可以进行另外两个实验:
对比实验一:设定一个固定的相似度阈值,即使用训练集选取固定的相似度阈值。具体做法为:首先用中心向量法找出每个题目的范文;针对每个题目,用词扩展方法计算出该题目对应的每篇作文与范文的文本相似度,作为系统评分;按照系统评分对所有作文排序,从得分低的作文开始选取,构造一个预测集,分别得到召回率为0.1,0.2,0.3,...,1.0时的预测集,计算预测集的准确率和F1值。F1值最大时说明系统性能最好,取此时预测集中跑题作文得分的最大值作为相似度阈值。对测试集中所有作文使用此相似度阈值来判断。
对比实验二:同样是基于文档发散度和相似度阈值的线性关系,设定动态相似度阈值。不同点在于训练时没有通过人工标注来获得每个题目的跑题作文,而是采用一种估计的方法判断作文是否跑题。首先,标注一部分题目,比如20个,得到这些题目对应的作文中跑题作文的集合,计算出跑题作文占这些题目对应的作文的比例,比如0.01。假设所有题目下跑题作文都适用该比例,计算出题目下跑题作文的数量,以此估计出跑题作文。比如题目下有100篇作文,估计有100×0.01=1篇作文跑题,即可以将系统得分最低的1篇作文确认为跑题作文。然后训练出相似度阈值与文档发散度的关系曲线,在测试集上进行测试。
通过上述实验,可以得到表1所示的实验结果。在所有实验中,词扩展的数目为3。
P(准确率) | R(召回率) | F1值 | |
本发明方案 | 0.856 | 0.867 | 0.862 |
对比实验一 | 0.863 | 0.846 | 0.854 |
对比实验二 | 0.826 | 0.860 | 0.843 |
表1
从表1中可以看到,本发明方案的总体效果最好。对比实验中效果较好的是采用固定相似度阈值的对比实验一,10次实验的相似度阈值平均在0.1左右。对比实验二训练时采用估计的方法得到相似度阈值,每次实验时用训练集中所有的数据计算跑题作文所占的比例,平均在0.02左右。
在计算准确率的时候,如果预测的相似度阈值比作文最低得分低,则可以令P=1,但此时系统其实并没有进行有效的判断。考虑到这种情况,可以统计不同实验所对应的有效判断百分比,如表2所示:
本发明方案 | 对比实验一 | 对比实验二 | |
有效判断百分比 | 69.50% | 67.50% | 76.25% |
表2
通过表2,可以看出对比实验二的有效判断百分比最高,这是因为估计的相似度阈值比较大。相较于对比实验一,本发明方案的有效判断更多。
如果只测试有跑题作文的题目,而不考虑没有跑题作文的题目,可得到表3所示的结果:
P(准确率) | R(召回率) | F1值 | |
本发明方案 | 0.919 | 0.776 | 0.842 |
对比实验一 | 0.924 | 0.726 | 0.814 |
对比实验二 | 0.895 | 0.764 | 0.824 |
表3
从表3中可以看出,只考虑有跑题作文的题目时,本发明方案的F1值要比对比实验一的F1值高出3个百分点,效果最好。
结合表1和表3还可以看出,基于固定阈值法的对比实验一的结果变化幅度较大,F1值降低了4个百分点;而基于文档发散度的本发明方案和对比实验二的结果变化不大。这说明基于文档发散度的方法有着较好的稳定性,尤其是在判断有跑题作文的题目时,该方法性能要优于固定阈值法。
将所有题目按照文档发散度值由低到高排序,然后分为5份,每份80篇作文,第1份到第5份的平均文档发散度值依次增高。计算每份的平均F1值,结果如图3所示。
从图3中可以看出,在面对发散性较强的题目时基于文档发散度的方法比基于固定阈值的方法的性能好。随着题目发散性逐渐变弱,对比实验二的F1值逐步下降,其他两种方法的F1值都不断上升。总体来看,对于发散性较强和较弱的两种题目,基于文档发散度的方法的效果要好于基于固定阈值的方法的效果,而对于发散性一般的题目,两类方法差距并不明显。
综上,本发明方案的效果最好,可以做出更多的有效判断,处理有跑题作文的题目时,该方法明显好于基于固定阈值的方法。尤其是面对发散性较强的题目时,该方法性能也要优于基于固定阈值的方法。
相应于上面的方法实施例,本发明实施例还提供了一种跑题作文确定装置。下面对本发明实施例提供的跑题作文确定装置进行介绍,下文描述的跑题作文确定装置与上文描述的跑题作文确定方法可相互对应参照。
参见图4所示,为本发明实施例提供的一种跑题作文确定装置的结构示意图,该装置可以包括:
作文集合获得模块410,用于获得目标题目下的作文集合;
文档发散度确定模块420,用于根据作文集合中作文之间的文本相似度,确定作文集合的文档发散度;
相似度阈值确定模块430,用于根据文档发散度,确定相似度阈值;
文本相似度计算模块440,用于针对作文集合中的每一篇作文,计算该作文与预先确定的目标题目的范文的文本相似度,如果该作文与范文的文本相似度小于相似度阈值,则触发跑题作文确定模块450;
跑题作文确定模块450,用于确定与范文的文本相似度小于相似度阈值的作文为跑题作文。
应用本发明实施例所提供的装置,确定出目标题目下的作文集合的文档发散度后,可以根据该文档发散度,确定相似度阈值,针对作文集合中的每一篇作文,可以计算该作文与预先确定的目标题目的范文的文本相似度,并将该文本相似度与相似度阈值进行比较,如果小于相似度阈值,则可以确定该作文为跑题作文。这样,可以快速有效地确定出作文集合中的跑题作文,为作文自动评分系统提供有效参考,提高作文评分的准确率。
在本发明的一种具体实施方式中,文本相似度计算模块440,具体用于:
针对作文集合中的每一篇作文,提取该作文的第一文本单词集合;
针对第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
确定第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,第二文本单词扩展集合为:对预先确定的目标题目的范文的第二文本单词集合进行扩展后获得的集合;
将确定的文本相似度确定为该作文与范文的文本相似度。
在本发明的一种具体实施方式中,文档发散度确定模块420,具体用于:
计算作文集合中两两作文之间的文本相似度;
将计算得到的所有文本相似度的均值确定为作文集合的文档发散度。
在本发明的一种具体实施方式中,相似度阈值确定模块430,具体用于:
将文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与文档发散度对应的相似度阈值。
在本发明的一种具体实施方式中,该装置还包括范文确定模块,用于通过以下步骤预先确定目标题目的范文:
基于向量空间模型,分别将作文集合中的每篇作文表示成向量;
将所有向量的均值确定为中心向量;
将与中心向量的距离最近的向量对应的作文确定为目标题目的范文。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种跑题作文确定方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种跑题作文确定方法,其特征在于,包括:
获得目标题目下的作文集合;
根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度;
根据所述文档发散度,确定相似度阈值;
针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,如果该作文与所述范文的文本相似度小于所述相似度阈值,则确定该篇作文为跑题作文。
2.根据权利要求1所述的方法,其特征在于,所述针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,包括:
针对所述作文集合中的每一篇作文,提取该作文的第一文本单词集合;
针对所述第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
确定所述第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,所述第二文本单词扩展集合为:对预先确定的所述目标题目的范文的第二文本单词集合进行扩展后获得的集合;
将确定的文本相似度确定为该作文与所述范文的文本相似度。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度,包括:
计算所述作文集合中两两作文之间的文本相似度;
将计算得到的所有文本相似度的均值确定为所述作文集合的文档发散度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文档发散度,确定相似度阈值,包括:
将所述文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与所述文档发散度对应的相似度阈值。
5.根据权利要求1、2或4任一项所述的方法,其特征在于,通过以下步骤预先确定所述目标题目的范文:
基于向量空间模型,分别将所述作文集合中的每篇作文表示成向量;
将所有向量的均值确定为中心向量;
将与所述中心向量的距离最近的向量对应的作文确定为所述目标题目的范文。
6.一种跑题作文确定装置,其特征在于,包括:
作文集合获得模块,用于获得目标题目下的作文集合;
文档发散度确定模块,用于根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度;
相似度阈值确定模块,用于根据所述文档发散度,确定相似度阈值;
文本相似度计算模块,用于针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,如果该作文与所述范文的文本相似度小于所述相似度阈值,则触发跑题作文确定模块;
所述跑题作文确定模块,用于确定与所述范文的文本相似度小于所述相似度阈值的作文为跑题作文。
7.根据权利要求6所述的装置,其特征在于,所述文本相似度计算模块,具体用于:
针对所述作文集合中的每一篇作文,提取该作文的第一文本单词集合;
针对所述第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
确定所述第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,所述第二文本单词扩展集合为:对预先确定的所述目标题目的范文的第二文本单词集合进行扩展后获得的集合;
将确定的文本相似度确定为该作文与所述范文的文本相似度。
8.根据权利要求6或7所述的装置,其特征在于,所述文档发散度确定模块,具体用于:
计算所述作文集合中两两作文之间的文本相似度;
将计算得到的所有文本相似度的均值确定为所述作文集合的文档发散度。
9.根据权利要求6所述的装置,其特征在于,所述相似度阈值确定模块,具体用于:
将所述文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与所述文档发散度对应的相似度阈值。
10.根据权利要求6、7或9任一项所述的装置,其特征在于,所述装置还包括范文确定模块,用于通过以下步骤预先确定所述目标题目的范文:
基于向量空间模型,分别将所述作文集合中的每篇作文表示成向量;
将所有向量的均值确定为中心向量;
将与所述中心向量的距离最近的向量对应的作文确定为所述目标题目的范文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610457062.4A CN106126613A (zh) | 2016-06-22 | 2016-06-22 | 一种跑题作文确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610457062.4A CN106126613A (zh) | 2016-06-22 | 2016-06-22 | 一种跑题作文确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126613A true CN106126613A (zh) | 2016-11-16 |
Family
ID=57267901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610457062.4A Pending CN106126613A (zh) | 2016-06-22 | 2016-06-22 | 一种跑题作文确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126613A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256210A (zh) * | 2017-06-09 | 2017-10-17 | 姜龙 | 基于深度语义分析的学生英语写作人工智能系统 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN107301169A (zh) * | 2017-06-16 | 2017-10-27 | 科大讯飞股份有限公司 | 离题作文检测方法、装置和终端设备 |
CN107315736A (zh) * | 2017-06-22 | 2017-11-03 | 云天弈(北京)信息技术有限公司 | 一种辅助写作系统及方法 |
CN109492954A (zh) * | 2019-01-04 | 2019-03-19 | 王睿琪 | 评估方法、装置、服务器、存储介质及系统 |
CN109508460A (zh) * | 2018-12-04 | 2019-03-22 | 广东外语外贸大学 | 基于主题聚类的无监督作文跑题检测方法及系统 |
CN109635087A (zh) * | 2018-12-12 | 2019-04-16 | 广东小天才科技有限公司 | 一种作文评分方法及家教设备 |
CN110287291A (zh) * | 2019-07-03 | 2019-09-27 | 桂林电子科技大学 | 一种无监督的英语短文句子跑题分析方法 |
CN110390032A (zh) * | 2019-07-26 | 2019-10-29 | 江苏曲速教育科技有限公司 | 一种手写作文的批阅方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867006A (zh) * | 2011-07-07 | 2013-01-09 | 富士通株式会社 | 一种分批聚类方法和系统 |
CN103885985A (zh) * | 2012-12-24 | 2014-06-25 | 北京大学 | 微博实时检索方法和装置 |
CN104572617A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 一种口语考试偏题检测方法及装置 |
-
2016
- 2016-06-22 CN CN201610457062.4A patent/CN106126613A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867006A (zh) * | 2011-07-07 | 2013-01-09 | 富士通株式会社 | 一种分批聚类方法和系统 |
CN103885985A (zh) * | 2012-12-24 | 2014-06-25 | 北京大学 | 微博实时检索方法和装置 |
CN104572617A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 一种口语考试偏题检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈志鹏: "利用词的分布式表示改进作文跑题检测", 《中文信息学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256210A (zh) * | 2017-06-09 | 2017-10-17 | 姜龙 | 基于深度语义分析的学生英语写作人工智能系统 |
CN107301169A (zh) * | 2017-06-16 | 2017-10-27 | 科大讯飞股份有限公司 | 离题作文检测方法、装置和终端设备 |
CN107315736A (zh) * | 2017-06-22 | 2017-11-03 | 云天弈(北京)信息技术有限公司 | 一种辅助写作系统及方法 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN109508460A (zh) * | 2018-12-04 | 2019-03-22 | 广东外语外贸大学 | 基于主题聚类的无监督作文跑题检测方法及系统 |
CN109635087A (zh) * | 2018-12-12 | 2019-04-16 | 广东小天才科技有限公司 | 一种作文评分方法及家教设备 |
CN109492954A (zh) * | 2019-01-04 | 2019-03-19 | 王睿琪 | 评估方法、装置、服务器、存储介质及系统 |
CN110287291A (zh) * | 2019-07-03 | 2019-09-27 | 桂林电子科技大学 | 一种无监督的英语短文句子跑题分析方法 |
CN110287291B (zh) * | 2019-07-03 | 2021-11-02 | 桂林电子科技大学 | 一种无监督的英语短文句子跑题分析方法 |
CN110390032A (zh) * | 2019-07-26 | 2019-10-29 | 江苏曲速教育科技有限公司 | 一种手写作文的批阅方法及系统 |
CN110390032B (zh) * | 2019-07-26 | 2021-08-17 | 江苏曲速教育科技有限公司 | 一种手写作文的批阅方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126613A (zh) | 一种跑题作文确定方法及装置 | |
Rudner | Expected classification accuracy | |
CN103810264B (zh) | 基于特征选择的网页文本分类方法 | |
CN104572877A (zh) | 游戏舆情的检测方法及系统 | |
CN103106275A (zh) | 基于特征分布信息的文本分类特征筛选方法 | |
Akour et al. | Empirical Investigation of the Stability of IRT Item-Parameters Estimation. | |
CN105701076A (zh) | 一种论文抄袭检测方法及系统 | |
CN105955957A (zh) | 一种商家总体评论中方面评分的确定方法及装置 | |
CN109766547A (zh) | 一种句子相似度计算方法 | |
CN106528111A (zh) | 一种数据结构作业程序相似性度量方法 | |
CN108717459A (zh) | 一种面向用户评论信息的移动应用缺陷定位方法 | |
CN105701085A (zh) | 一种网络查重方法及系统 | |
CN105701086A (zh) | 一种滑动窗口文献检测方法及系统 | |
CN102915315A (zh) | 一种对网页进行分类的方法和系统 | |
CN107766419A (zh) | 一种基于阈值去噪的TextRank文档摘要方法及装置 | |
CN104090918B (zh) | 一种基于信息量的句子相似度计算方法 | |
CN103793478A (zh) | 基于主题遗传的在线主题建模方法 | |
CN105677641A (zh) | 一种论文自检方法及系统 | |
Cetintas et al. | Probabilistic latent class models for predicting student performance | |
CN110163498B (zh) | 课件原创度评分方法、装置、存储介质及处理器 | |
CN105868394A (zh) | 一种基于web和日志信息的app分类方法及其装置 | |
CN104850603A (zh) | 电影评分预测方法 | |
CN110069783A (zh) | 一种答题内容评测方法及装置 | |
Singh et al. | Ranking summaries for informativeness and coherence without reference summaries | |
CN107329999A (zh) | 文档分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Chen Wenliang Inventor after: Chen Zhipeng Inventor after: Zhang Min Inventor before: Chen Zhipeng Inventor before: Chen Wenliang |
|
CB03 | Change of inventor or designer information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161116 |
|
RJ01 | Rejection of invention patent application after publication |