CN110096708B - 一种定标集确定方法及装置 - Google Patents
一种定标集确定方法及装置 Download PDFInfo
- Publication number
- CN110096708B CN110096708B CN201910361757.6A CN201910361757A CN110096708B CN 110096708 B CN110096708 B CN 110096708B CN 201910361757 A CN201910361757 A CN 201910361757A CN 110096708 B CN110096708 B CN 110096708B
- Authority
- CN
- China
- Prior art keywords
- answer
- similarity
- determining
- contents
- answer content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 287
- 238000012549 training Methods 0.000 claims description 48
- 230000005856 abnormality Effects 0.000 claims description 45
- 238000001514 detection method Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013210 evaluation model Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 23
- 238000012935 Averaging Methods 0.000 description 17
- 238000013145 classification model Methods 0.000 description 11
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011524 similarity measure Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种定标集确定方法及装置,本方法首先获取各答题对象对目标题目的答题内容,然后根据各所述答题内容间的属性差别,对各答题内容进行聚类,通过聚类可以将属性相近的答题内容聚集到一个聚类簇中,由此得到至少两个聚类簇,其中,从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大。进一步,从每个聚类簇中抽取答题内容,由抽取的答题内容组成定标集。综上可见,本申请抽取的定标集包含了各个聚类簇中的答题内容,也即覆盖了各属性的答题内容,保证了定标集的均衡性。进一步,基于本申请抽取的定标集训练的自动评测模型,其评测准确度也会更高。
Description
技术领域
本申请涉及自然语言处理领域,更具体地说,涉及一种定标集确定方法及装置。
背景技术
当今社会各行各业都存在对用户的考评,且考试的种类越来越多,考试过程需要对答题者提交的答题内容进行评测,以对答题者的水平进行衡量。评测过程可以采用有定标评测方法,即自动评测前,需要预先抽取一部分答题内容进行人工评测,人工评测后的答题内容可以作为自动评测模型的定标集。
目前,定标集的抽取方法为在所有答题内容中随机抽取一定数量的答题内容。可以理解的是,由于答题者的水平参差不齐,所以答题内容间也存在差别。按照现有的随机抽取法抽取的定标集,可能无法均匀的覆盖各水平答题者的答题内容,由此造成定标集的不均衡,基于该定标集训练后的自动评测模型的准确度也会降低。
发明内容
有鉴于此,本申请提供了一种定标集确定方法及装置,以解决现有定标集确定方法中抽取的定标集不均衡的缺点。
为了实现上述目的,现提出的方案如下:
一种定标集确定方法,包括:
获取各答题对象对目标题目的答题内容;
根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
优选地,根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,包括:
确定每两条答题内容的相似度,所述相似度表征了该两条答题内容的属性差别;
根据所述每两条答题内容的相似度,对各所述答题内容进行聚类。
优选地,确定每两条答题内容的相似度,包括:
确定每两条答题内容的相似度特征向量;
根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度。
优选地,确定每两条答题内容的相似度特征向量,包括:
确定每一所述答题内容的聚类特征;
针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量。
优选地,根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度,包括:
确定所述目标题目所属的目标题型;
确定与所述目标题型对应的权重向量,所述权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重;
基于所述权重向量,对所述每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
优选地,确定与所述目标题型对应的权重向量,包括:
查询预设的题型与权重向量的对应关系,确定所述目标题型对应的权重向量;
或,
以所述目标题型下题目样本的每两条答题内容样本的相似度特征向量为输入训练样本,若训练样本对应的两条答题内容样本的人工评测结果相同,则以模型输出为1为训练目标,若训练样本对应的两条答题内容样本的人工评测结果不相同,则以模型输出为0为训练目标,训练权重预测模型;
将训练后的权重预测模型的多元回归参数组成的与相似度特征向量相同维度的向量归一化,得到所述目标题型对应的权重向量。
优选地,确定每一所述答题内容的聚类特征,包括:
确定每一所述答题内容的文本特征,作为聚类特征;
和/或,
确定每一所述答题内容与所述目标题目的参考答案的相似度特征,作为聚类特征。
优选地,针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量,包括:
确定每两条答题内容的聚类特征间的特征相似度;
基于每两条答题内容的特征相似度,确定每两条答题内容的相似度特征向量。
优选地,确定每两条答题内容的相似度特征向量,包括:
针对每两条答题内容,根据该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
优选地,确定每两条答题内容的相似度特征向量,包括:
确定每一所述答题内容的聚类特征;
针对每两条答题内容,根据该两条答题内容各自的聚类特征,以及,该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
优选地,在所述对各所述答题内容进行聚类之前,该方法还包括:
对每一所述答题内容进行异常检测,得到异常检测结果;
所述对各所述答题内容进行聚类,包括:
对异常检测结果表示非异常的答题内容进行聚类。
优选地,对每一所述答题内容进行异常检测,包括:
以每一所述答题内容为目标对象,确定所述目标对象在所有答题内容中的出现概率;
基于所述目标对象的出现概率,确定所述目标对象的异常检测结果。
一种定标集确定装置,包括:
答题内容获取单元,用于获取各答题对象对目标题目的答题内容;
聚类簇获取单元,用于根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
定标集抽取单元,用于从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
优选地,聚类簇获取单元包括:
相似度确定单元,用于确定每两条答题内容的相似度,所述相似度表征了该两条答题内容的属性差别;
聚类单元,用于根据所述每两条答题内容的相似度,对各所述答题内容进行聚类。
优选地,相似度确定单元包括:
相似度特征向量确定单元,用于确定每两条答题内容的相似度特征向量;
相似度特征向量参考单元,用于根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度。
优选地,相似度特征向量确定单元包括:
聚类特征确定单元,用于确定每一所述答题内容的聚类特征;
聚类特征参考单元,用于针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量。
优选地,相似度特征向量参考单元包括:
目标题型确定单元,用于确定所述目标题目所属的目标题型;
权重向量确定单元,用于确定与所述目标题型对应的权重向量,所述权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重。
加权计算单元,用于基于所述权重向量,对所述每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
优选地,权重向量确定单元包括:
第一权重向量确定子单元,用于查询预设的题型与权重向量的对应关系,确定所述目标题型对应的权重向量;
或,
第二权重向量确定子单元,用于以所述目标题型下题目样本的每两条答题内容样本的相似度特征向量为输入训练样本,若训练样本对应的两条答题内容样本的人工评测结果相同,则以模型输出为1为训练目标,若训练样本对应的两条答题内容样本的人工评测结果不相同,则以模型输出为0为训练目标,训练权重预测模型;
第三权重向量确定子单元,用于将训练后的权重预测模型的多元回归参数组成的与相似度特征向量相同维度的向量归一化,得到所述目标题型对应的权重向量。
优选地,聚类特征确定单元包括:
第一聚类特征确定子单元,用于确定每一所述答题内容的文本特征,作为聚类特征;
和/或,
第二聚类特征确定子单元,用于确定每一所述答题内容与所述目标题目的参考答案的相似度特征,作为聚类特征。
优选地,聚类特征参考单元包括:
第一聚类特征参考单元子单元,用于确定每两条答题内容的聚类特征间的特征相似度;
第二聚类特征参考单元子单元,用于基于每两条答题内容的特征相似度,确定每两条答题内容的相似度特征向量。
优选地,相似度特征向量确定单元,包括:
文本统计特征参考单元,用于针对每两条答题内容,根据该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
优选地,相似度特征向量确定单元,包括:
聚类特征确定单元,用于确定每一所述答题内容的聚类特征;
聚类特征及文本统计特征参考单元,用于针对每两条答题内容,根据该两条答题内容各自的聚类特征,以及,该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
优选地,该装置还包括:
异常检测单元,用于对每一所述答题内容进行异常检测,得到异常检测结果;
聚类簇获取单元具体用于:对异常检测结果表示非异常的答题内容进行聚类。
优选地,异常检测单元,包括:
第一异常检测子单元,用于以每一所述答题内容为目标对象,确定所述目标对象在所有答题内容中的出现概率;
第二异常检测子单元,基于所述目标对象的出现概率,确定所述目标对象的异常检测结果。
一种定标集确定设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的定标集确定方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的定标集确定方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的定标集确定方法首先根据各答题内容间的属性差别,对各答题内容进行聚类,得到至少两个聚类簇,可以理解的是,通过聚类可以将属性相近的答题内容聚集到一个聚类簇中,也即从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大。在此基础上,本申请从每个聚类簇中抽取答题内容,由抽取的答题内容组成定标集。由此可知,本申请抽取的定标集包含了各个聚类簇中的答题内容,也即覆盖了各属性的答题内容,保证了定标集的均衡性。进一步,基于本申请抽取的定标集训练的自动评测模型,其评测准确度也会更高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种定标集确定方法流程图;
图2为本申请实施例公开的一种定标集确定装置结构示意图;
图3为本申请实施例公开的一种定标集确定设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的方法,可以适用于需要针对数据内容确定定标集的场景,具体地,可以应用于在答题内容评测过程中对答题内容进行定标集确定的场景,例如,对学生作答的试卷进行评分的过程中,需要在所有学生作答中抽取一部分作为定标集提交至人工进行评分,以便基于人工评分后的定标集训练智能评分模型等。本申请提供了一种定标集的确定方法。
进一步的,本申请方案可以应用于智能设备,例如电脑、平板或智能手机。另外本方案也可以应用于服务器。接下来,结合附图1对本申请定标集确定方法进行介绍,如图1示例了一种定标集确定方法流程图,该方法详细包括:
步骤S100、获取各答题对象对目标题目的答题内容。
具体地,答题对象为考试过程中对考试题目进行作答的对象,答题对象可以是考生等。其中答题对象针对考试题目进行作答后提交答题内容。可以理解的是,试卷中可能包括一个或多个题目,评测过程中需要逐个对各个题目进行评测,本步骤中将当前需要针对答题内容确定定标集的题目定义为目标题目。
例如,语文考试中,一共有100名学生针对试卷的5道主观题进行了作答,并将作答内容提交,若当前待评测的题目为第五题,则该第五题即为目标题目,本步骤将获取所有学生针对第五题的作答内容,作为答题对象对目标题目的答题内容。
一般的,考试试卷可以分为纸质试卷或者电子试卷,本实施例中可以直接获取答题对象提交的电子试卷中的答题内容,或者,可以将答题对象提交的纸质试卷中的答题内容图片经过扫描识别,利用OCR(OpticalCharacter Recognition,光学字符识别)技术转换成电子文本,并获取转换后的电子文本作为答题内容。
步骤S110、根据各所述答题内容间的属性差别,对各答题内容进行聚类,得到至少两个聚类簇。
具体地,聚类过程可以为对答题内容按照属性差别进行分类的过程,可以将属性相近的答题内容聚集到一个聚类簇中,由此得到至少两个聚类簇。其中,每个聚类簇包括至少一条答题内容,且,从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大。
例如,对上述100名学生答题内容进行聚类,可以按照属性差别进行聚类得到三个聚类簇,其中,聚类簇1中包括10条答题内容;聚类簇2中包括60条答题内容;聚类簇3中包括30条答题内容。假设,答题内容A0和答题内容A1从属于聚类簇1,答题内容A2从属于聚类簇2,可以理解的是,答题内容A0和答题内容A1的属性差别小于答题内容A0和答题内容A2的属性差别。
步骤S120、从每个聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
具体地,每个聚类簇中可以包括一条或多条答题内容。本步骤可以分别从每个聚类簇中抽取答题内容,由抽取的答题内容组成定标集,该定标集可以用于提交至人工评测得到评测结果。由于定标集包含了各个聚类簇中的答题内容,因此该定标集覆盖了各属性的答题内容。
例如,本步骤可以对上述100名学生答题内容聚类后获得的三个聚类簇进行抽取,按照本方案的抽取方法,可以从聚类簇1、聚类簇2、聚类簇3中分别抽取答题内容,由抽取答题内容组成定标集,可见,该定标集中一定会包括从属于聚类簇1的答题内容,和从属于聚类簇2的答题内容,和从属于聚类簇3的答题内容。
可以理解的是,当从至少一个聚类簇中抽取的答题内容数量大于1时,该定标集中既包括从属于相同聚类簇的答题内容,也包括从属于不同聚类簇的答题内容。
从上述的技术方案可以看出,本申请实施例提供的定标集确定方法首先根据各答题内容间的属性差别,对各答题内容进行聚类,得到至少两个聚类簇,可以理解的是,通过聚类可以将属性相近的答题内容聚集到一个聚类簇中,也即从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大。在此基础上,本申请从每个聚类簇中抽取答题内容,由抽取的答题内容组成定标集。由此可知,本申请抽取的定标集包含了各个聚类簇中的答题内容,也即覆盖了各属性的答题内容,保证了定标集的均衡性。进一步,基于本申请抽取的定标集训练的自动评测模型,其评测准确度也会更高。
接下来提出本申请实施例对上述步骤S120,从每个聚类簇中抽取答题内容的具体实施方式进行介绍。
具体地,将定标集中的答题内容定义为定标答题内容,一般情况下,定标答题内容为需要提交至人工进行评测的答题内容,所以可以按照需求预先确定定标答题内容的数量,其中,该数量可以根据针对目标题目的所有答题内容总个数确定,或者根据聚类簇的个数确定等。可以理解的是,从每个聚类簇中抽取答题内容的方法可以包括多种,接下来本实施例介绍其中可选的三种抽取方法。
第一种,从每个聚类簇中抽取相同数量的答题内容。
具体地,每一聚类簇中包括一个或多条答题内容,可以将预先确定的定标答题内容个数平均分配给各个聚类簇,假设预先确定的定标答题内容数量为R,聚类簇的个数为r,则,从每个聚类簇中一次性抽取R/r条答题内容,作为定标答题内容。
可以理解的是,可能存在聚类簇中的答题内容数量少于R/r个的情况,此时可以直接抽取该聚类簇中所有答题内容。
第二种,循环地依次从每个聚类簇中抽取答题内容,其中,每个聚类簇一次只抽取一条答题内容。
具体地,首先可以将所有聚类簇随机排序,然后按照排序顺序循环地依次从每一个聚类簇中抽取一条答题内容,直至抽取出的答题内容数量达到预先确定的定标答题内容数量后停止抽取。
需要说明的是,如果抽取过程中,某一聚类簇中的答题内容剩余数量为0,则跳过该聚类簇,继续从剩余的聚类簇中循环地抽取答题内容,直至抽取出的答题内容数量达到定标答题内容数量后停止抽取。
第三种,按比例从每个聚类簇中抽取答题内容。
具体地,每个聚类簇中包括的答题内容数量可能不同,可以首先根据每个聚类簇中的答题内容数量确定抽取比例,并按照该比例以及预先确定的定标答题内容数量,确定从每个聚类簇中抽取答题内容的数量。
例如,针对目标题目共有100条答题内容,经过聚类获得三个聚类簇,三个聚类簇分别包括50条,25条,25条答题内容,则从三个聚类簇分别抽取答题内容,抽取的比例为2:1:1,若预先确定的定标答题内容数量为20,那么从三个聚类簇分别抽取的答题内容数量分别为10条、5条、5条。
基于上述任一种抽取方法,抽取答题内容组成的定标集包括各个聚类簇中的答题内容,由于聚类过程中,将属性相近的答题内容聚集到一个聚类簇中,且从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大,所以,该定标集覆盖了各属性的答题内容。
提出本申请的一个实施例对步骤S110,根据各所述答题内容间的属性差别,对各答题内容进行聚类的过程进行介绍。本实施例对各答题内容进行聚类,将属性相近的答题内容聚集到一个聚类簇中,由此得到至少两个聚类簇。具体可以包括:
A1、确定每两条答题内容的相似度。
具体地,由于答题对象对目标题目的理解程度不同或答题水平参差不齐等原因,答题内容间存在属性差别,该属性差别的大小可以由答题内容间的相似程度表示。其中,每两条答题内容间的相似程度可以由该两条答题内容的相似度表征,即,本步骤中确定的每两条答题内容的相似度可以表征每两条答题内容之间的属性差别。
可选地,每两条答题内容的相似度确定方法可以包括多种。
例如,可以获取大量针对目标题目的已知评分的答题样本,作为训练样本训练神经网络模型,将相似度设为相似度数值或相似度等级,例如高、中、低三个等级。当两条答题内容的分差小于等于第一阈值时,目标输出为低,当两条答题内容的分差大于第一阈值且小于第二阈值时,目标输出为中,当两条答题内容的分差大于等于第二阈值时,目标输出为高。进一步,将每两个答题内容输入至上述训练好的训练神经网络模型,可能输出的相似度值为相似度等级值高、中或低。
再例如,确定相似度的方法还可以包括以下方法:
A11,确定每两条答题内容的相似度特征向量。
具体地,答题内容的属性可以包括多项,例如长度属性,语法属性或句法属性等,则,每两条答题内容的属性差别可以体现在该两条答题内容的多项属性间的相近程度。基于此,本方法可以确定每两条答题内容的相似度特征向量,其中,相似度特征向量的可以为n维向量,其中的每一维度都可以征两条答题内容一项属性间的相近程度。
A12,根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度。
具体地,每两条答题内容的相似度特征向量的维度n可以为任意整数,该n个维度都可以表征该两条答题内容间的属相差别的大小,即可以表征该两条答题内容的相似程度,所以综合考虑各个维度,可以基于该相似度特征向量,将其转化为相似度。可以理解的是,由相似度特征向量转化得到的相似度可以表征每两条答题内容间的相似程度,即,可以表征每两条答题内容间的属性差别大小。
可以理解的是,每两条答题内容可以获得一个相似度,假设答题内容的个数为Y,则针对所有答题内容可以获得Y×Y的相似度矩阵。
A2、根据所述每两条答题内容的相似度,对各所述答题内容进行聚类。
具体地,若两条答题内容的相似度大,则该两条答题内容的相似程度高,即属性差别小。若两条答题内容的相似度小,则该两条答题内容的相似程度低,即属性差别大。
由上述可知,本方案将属性相近的答题内容聚集到一个聚类簇中,且根据每两条答题内容的相似度可以判断两条答题内容的相近程度,所以可以根据上述获得的Y×Y的相似度矩阵,对所有答题内容进行聚类。
可选的聚类方法可以包括利用k-means(K均值聚类算法)或k-medoids(K中心点聚类算法)等聚类算法对上述Y×Y的相似度矩阵进行聚类,由此,获得至少两个聚类簇,每个聚类簇包括至少一条答题内容,且,同一聚类簇的答题内容间属性相近,即,从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大。
需要说明的是,上述A11提及的确定每两条答题内容的相似度特征向量的方法可以包括多种,其中可选的三种确定方法可以包括:第一种,针对每两条答题内容,根据该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量;第二种,针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量;第三种,针对每两条答题内容,根据该两条答题内容间的文本统计特征,以及该两条答题内容各自的聚类特征确定该两条答题内容的相似度特征向量。
接下来提出本申请实施例对上述第一种确定每两条答题内容的相似度特征向量的方法进行介绍。具体可以包括:
B1、首先计算每两条答题内容的文本统计特征。
具体地,文本统计特征为针对大于两条的文本数据确定的,且可以表征文本数据间属性差别的特征,可选地,文本统计特征可以包括多项,例如,编辑距离特征、最长公共子序列特征、字级字符重合度特征、字向量加和平均之后的余弦距离特征、字向量TF-IDF(termfrequency–inverse document frequency,词频-逆向文档频率)加权平均后的余弦距离特征、字级的词移距离特征、词级字符重合度特征、词向量加和平均之后的余弦距离特征、词向量TF-IDF加权平均后的余弦距离特征或词级的词移距离特征等。
可以理解的是,上述任一文本统计特征都可以表征对应的多条文本数据之间的属性差别,即可以表征该多条文本数据之间的相似程度的大小,并且,文本数据的个数可以为大于等于2的任意整数。本申请实施例仅以文本数据的个数为2对上述各个文本统计特征进行介绍。定义两条文本数据分别为文本数据T1和文本数据T2,且假设T1的字符级长度为a,T2的字符级长度为b。
上述编辑距离特征的计算方法可以参考下述介绍:
计算T1与T2的编辑距离特征δ1=e/((a+b)/2),其中,e为编辑距离,且e=|a-b|。
上述最长公共子序列特征的计算方法可以参考下述介绍:
T1与T2的最长公共子序列特征δ2=l/((a+b)/2),其中,l为T1与T2的最长公共子序列长度。
上述字级字符重合度特征的计算方法可以参考下述介绍:
首先获取T1的字符集合并去重得到集合1,且获取T2的字符集合并去重得到集合2,然后计算上述集合1和集合2的交集的大小c和并集大小d,进一步计算字级字符重合度特征δ3=c/d。
上述字向量加和平均之后的余弦距离的计算方法可以参考下述介绍:
首先将T1与T2中的每个字符都转换为字向量表示,然后将T1中包含的a个字向量加和取平均,得到T1对应的加和平均后的字向量,且,将T2中包含的b个字向量加和取平均,得到T2对应的加和平均后字向量,最后计算上述两个加和平均后的字向量之间的余弦距离,得到字向量加和平均之后的余弦距离特征δ4。
上述字向量TF-IDF加权平均后的余弦距离特征的计算方法可以参考下述介绍:
首先获取文本数据库,统计T1与T2中包含的字符在文本数据库中的IDF(InverseDocument Frequency,逆向文档频率)值,然后将T1与T2中的每个字符都转换为字向量表示,进一步,将T1中包含的a个字向量加权取平均,得到T1对应的加权平均后的字向量,且,将T2中包含的b个字向量加权取平均,得到T2对应的加权平均后字向量,最后计算上述两个加权平均后的字向量之间的余弦距离,得到字向量TF-IDF加权平均之后的余弦距离特征δ5。
上述字级的词移距离特征的计算方法可以参考下述介绍:
首先将T1与T2中的每个字符都转换为字向量表示,得到T1对应的字向量集合以及T2对应的字向量集合,进一步计算上述两个字向量集合间的词移距离作为字级的词移距离特征δ6。
需要说明的是,上述词级字符重合度特征δ7、词向量加和平均之后的余弦距离特征δ8、词向量TFIDF加权平均后的余弦距离特征δ9、词级的词移距离特征δ10的计算方法与分别上述计算δ3、δ4、δ5、δ6的计算方法相似,本申请实施例在此不作赘述。
可以理解的是,上述每个文本统计特征都可以表征T1与T2之间相似程度的大小,例如,编辑距离特征表征了T1与T2的字符长度相近程度,所以本步骤可以将每两条答题内容分别作为T1和T2,并利用上述方法,计算每两条答题内容的文本统计特征中的一项或多项。
B2、针对每两条答题内容,根据该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
具体地,针对每两条答题内容,可以在获取一项或多项文本统计特征后,将所有文本统计特征组成一个向量表示,该向量表示即为每两条答题内容的相似度特征向量。例如,针对每两条答题内容,可以计算上述提及的十种文本统计特征组成每两条答题内容的相似度特征向量,该向量的维度为10,即为{δ1,δ2,δ3,δ4,δ5,δ6,δ7,δ8,δ9,δ10}。
可以理解的是,相似度特征向量中的每一维对应一项文本统计特征,每一文本统计特征都可以表征两条答题内容属性间属性差别大小,即,可以表征该两条答题内容的相似程度。
进一步地提出本申请实施例,对上述第二种确定每两条答题内容的相似度特征向量的方法进行介绍。具体可以包括:
C1、确定每一答题内容的聚类特征。
具体地,每一答题内容的属性可以利用特征进行定量的表示,本步骤可以获取每一答题内容的一项或多项特征,并将该特征定义为聚类特征。可见,每一聚类特征可以表征一项答题内容属性,即每两条答题内容的聚类特征间的相似程度可以作为判断答题内容间属性是否相近或属性差别大小的依据。
C2、针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量。
具体地,针对每两条答题内容,可以获取该两条答题内容的同一项聚类特征的相似度衡量,该相似度衡量可以包括数值或等级,所以,针对所有答题内容获取聚类特征后,可以获取每两条答题内容各个聚类特征对应的相似度衡量,并由相似度衡量组成向量表示,该向量表示即为每两条答题内容的相似度特征向量。
接下来,提出本申请实施对上述C1,确定每一答题内容的聚类特征的具体实施方式进行说明。可选地,聚类特征的种类可以包括多类,接下来分别介绍其中可选的两类聚类特征。
第一类、聚类特征为文本特征,其表征了答题内容自身的特征属性。
具体地,文本特征可以包括字符级N元语法特征(N可以为大于等于1的任意整数,通常可以取N=1,2,3)、词级M元语法特征(M可以为大于等于1的任意整数,通常可以取M=1,2,3)、篇章特征或主题特征,其中,每一文本特征的表示方法可以包括文本特征值表示,或者文本特征向量表示。
接下来针对任一条答题内容,对确定该条答题内容对应的上述多种文本特征的过程进行介绍。
上述字符级N元语法特征的确定方法可以参考下述介绍:
首先,收集所有在目标题目题干中出现的字符级N元语法,N取值一般为1,或2,或3。
然后,收集所有答题内容中出现的字符级N元语法,并统计每个N元语法对应出现的次数,然后去除与题干重复的部分,且去除出现次数低于次数阈值的部分,其中,该次数阈值根据历史经验值预先设置。由此,得到字符级N元语法组,该字符级N元语法组中包括一个或多个字符级N元语法。
最后,针对一条答题内容,判断获得的字符级N元语法组中的每个字符级N元语法是否出现在该条答题内容中,若是则记为1,若否则记为0。基于此,获得当前作答的字符级N元语法特征向量。
例如,N=1时,获取字符级一元语法特征的方法为:
首先从所有答题内容中统计字频表,然后去除字频表里在题干中出现过或出现次数低于预设阈值的字,获得包括x个字的字频表。针对一条答题内容,判断上述字频表中的每个字是否出现在该答题内容中,若是则记为1,若否则记为0。基于此,获得该答题内容的字符级一元语法特征向量,其中,该字符级一元语法特征向量的维度为x。
进一步,当N=2或N=3时,参照上述方法,可以确定该答题内容的字符级二元语法特征向量或字符级三元语法特征向量。
上述词级M元语法特征的确定方法可以参考下述介绍:
首先,分别对目标题目题干内容和该答题内容进行分词,其中分词可以利用现有的分词方法,然后以词为单位获取M元语法特征。
进一步,可以参照上述字符级N元语法特征的确定方法,分别获取当M=1、M=2或M=3时的词级M元语法特征向量。
上述篇章级特征确定方法可以参考下述介绍:
分别统计该答题内容包括的字数、词数、句子数和段落数,并计算该答题内容与题干内容的字符级重合度特征和词级重合度特征,由此,获得一个6维的篇章级特征向量。
其中,字符级重合度特征和词级重合度特征的计算方法可以参照上述步骤B1中介绍的计算方法,在此不作赘述。
上述主题特征确定方法可以参考下述介绍:
将该答题内容输入至主题模型,该主题模型可以输出该答题内容属于某个主题的概率,当主题数大于1时,可以输出该答题内容属于多个主题的概率分布,其中,可选的一种主题模型为LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)。
例如,主题数目为y,将答题内容输入至LDA,可以输出该答题内容对应的y维主题概率分布向量,该向量中的元素代表该答题内容属于各个主题的概率。基于此,可以将LDA模型的输出的主题概率分布向量作为该答题内容的主题特征向量。
需要说明的是,具体实施过程中可以参照上述方法,针对所有答题内容确定文本特征中的一项或多项作为答题内容的聚类特征。
综上可知,第一类聚类特征都是基于答题内容自身确定的特征。另外,还可以将答题内容与参考答案的相似度特征作为第二类聚类特征,以下对该第二类聚类特征的确定方法进行介绍,如下:
第二类、聚类特征为与参考答案的相似度特征,其表征了每一答题内容与目标题目参考答案的相似度属性。
具体地,答题内容与参考答案间的相似度特征可以包括与参考答案的余弦相似度特征或与参考答案的文本统计特征。接下来针对任一条答题内容,对确定该答题内容对应的上述两种与参考答案间的相似度特征的过程进行介绍。
第一种,答题内容与参考答案的文本统计特征的确定方法可以参考下述介绍:
具体地,可以参照上述实施例中步骤B1介绍的计算每两条答题内容的文本统计特征。具体地,可以将答题内容作为文本数据T1,且将参考答案作为文本数据T2,由此可以得到答题内容与参考答案的编辑距离特征、最长公共子序列特征、字级字符重合度特征、字向量加和平均之后的余弦距离特征、字向量TF-IDF加权平均后的余弦距离特征、字级的词移距离特征、词级字符重合度特征、词向量加和平均之后的余弦距离特征、词向量TF-IDF加权平均后的余弦距离特征或词级的词移距离特征中的一项或多项组成的文本统计特征向量,本申请以获取上述所有文本特征为例进行说明,即,针对任一答题内容可以获得维度为10的与参考答案的文本统计特征向量。
第二种,答题内容与参考答案的余弦相似度特征的确定方法可以参考下述介绍:
具体地,首先,分别确定参考答案和该答题内容的文本特征,例如,分别确定参考答案和该答题内容的字符级N元语法特征向量(取N=1,2,3)、词级M元语法特征向量(M=1,2,3)、篇章特征向量和主题特征向量中的一项或多项,本申请实施例以获取上述介绍的全部文本特征为例进行说明,即,分别获取参考答案和该答题内容对应的8个文本特征向量。
进一步,针对任一项文本特征,计算参考答案的文本特征向量与该答题内容的文本特征向量的余弦值,由所有余弦值组成一个向量表示,该向量表示即为答题内容与参考答案的余弦相似度特征向量,其中,该答题内容与参考答案的余弦相似度特征向量维度为8。
需要说明的是,具体实施过程中可以确定上述答题内容与参考答案间的余弦相似度特征向量或与参考答案间的文本统计特征向量中的一项或两项。本申请实施例以同时确定与参考答案间的余弦相似度特征向量和与参考答案间的文本统计特征向量为例,针对每一答题内容,获取答题内容与参考答案的相似度特征向量,该向量的维度为18。
可以理解的是,在实际应用中,可以只确定答题内容的文本特征作为聚类特征,或只确定答题内容的与参考答案间的相似度特征作为聚类特征,或同时确定文本特征和与参考答案间的相似度特征作为聚类特征。
其中,每条答题内容的聚类特征可以表征自身的文本属性或者可以表征与参考答案的相似程度属性。基于此,提出本申请的另一个实施例对上述C2,根据每两条答题内容的聚类特征,确定每两条答题内容的相似度特征向量的过程进行说明。具体可以包括:
C21、确定每两条答题内容的聚类特征间的特征相似度。
具体地,每条答题内容的聚类特征可以包括文本特征、与参考答案余弦相似度特征或与参考答案统计特征中的一项或多项,针对每一项聚类特征,确定两条答题内容该项聚类特征间的特征相似度,可选的,该特征相似度可以为两个特征向量的余弦值。
例如,聚类特征可以包括上述8组文本特征,分别为字符级N元语法特征向量(N=1,2,3)、词级M元语法特征向量(M=1,2,3)、篇章特征向量和主题特征向量;以及,维度为18的与参考答案相似度特征向量。基于此,假设两条答题内容为O1和O2,可以获取O1和O2对应的上述每一特征向量的余弦值,由此得到9个特征相似度。
C22、基于每两条答题内容的特征相似度,确定每两条答题内容的相似度特征向量。
具体地,每条答题内容的聚类特征可以表征该答题内容的属性,所以基于聚类特征获得的每两条答题内容的特征相似度可以表征该两条答题内容的属性相近程度,即,可以表征该两条答题内容的相似程度。基于此,将每两条答题内容的特征相似度组合得到一个向量表示,该向量表示即为两条答题内容的相似度特征向量。
例如上述得到9个特征相似度后,由该9个特征相似度组成两条答题内容的相似度特征向量,该相似度特征向量的维度为9。
需要说明的是,基于上述各实施例介绍的两种确定每两条答题内容的相似度特征向量的方法,本申请实施例进一步介绍第三种确定每两条答题内容的相似度特征向量的具体实施方式。具体可以包括:
首先,可以参照上述步骤C1介绍的确定聚类特征的方法,确定每一答题内容的聚类特征。
然后,可以参照上述步骤B1介绍的确定文本统计特征的方法,确定每两条答题内容的文本统计特征。
进一步,针对每两条答题内容,根据该两条答题内容各自的聚类特征,以及,该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
具体地,针对每两条答题内容,首先基于该两条答题内容的文本统计特征可以确定每两条答题内容的第一相似度特征向量。可选地,该第一相似度特征向量的维度n可以为10。
然后,基于该两条答题内容各自的聚类特征可以确定该两条答题内容的第二相似度特征向量。可选地,该第二相似度特征向量的维度n可以为9。
可选地,将第一相似度特征向量以及第二相似度特征向量合并,并将合并后的向量确定为该两条答题内容的相似度特征向量。显然,该相似度特征向量的维度n可以为10+9=19。
需要说明的是,确定第一相似度特征向量的方法可以参照上述实施例中步骤B2介绍的根据两条答题内容间的文本统计特征,确定两条答题内容的相似度特征向量的方法。确定第二相似度特征向量的方法可以参照上述实施例中步骤C2介绍的根据两条答题内容各自的聚类特征,确定两条答题内容的相似度特征向量的方法。对此本申请实施例不作赘述。
可以理解的是,基于上述任一种实施方式确定的每两条答题内容间的相似度特征向量中,每一维度都可以表征该两条答题内容间的属性差别,即,可以表征该两条答题内容间的相似程度。所以进一步,提出本申请实施例,对上述A12,根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度的过程进行介绍。具体可以包括:
A121、确定目标题目所属的目标题型。
具体地,目标题目可能所属的题目类型包括古文翻译、分析概括、建议举例、仿写补全、开放题、其他等,本步骤将目标题目的题目类型定义为目标题型。目标题型的不同可能对该目标题型的两条答题内容的相似度特征向量对应的相似度值的确定产生影响。所以首先确定目标题目所属的目标题型。可选地,确定目标题型的方法包括多种,本申请实施例介绍其中两种目标题型确定方法,如下:
第一种目标题型确定方法可以包括:基于对应关系确定目标题型。
具体地,根据题干内容的不同,可以存在多个题目,每一个题目都对应于一种题目类型,而一种题目类型包括多个题目,例如,题目的题干内容分别为“请说明此项措施的好处”和“请说一说这么做的优点”的两个题目,显然该两个题目均对应于分析概括题。基于此,查询预设的题目与所属题型的对应关系,确定目标题目所属的目标题型。其中,对应关系可以为通过分析大量已知题型的题目,预先设定好题目与其所属的题型之间的对应关系。
第二种目标题型确定方法可以包括:基于题型分类模型确定目标题型。
具体地,可以将目标题目的题干和/或参考答案输入预置的题型分类模型,得到题型分类模型输出的目标题目所属的目标题型。
需要说明的是,题型分类模型为,以题目样本的题干和/或参考答案为训练样本,以标注的题目样本所属的题型为样本标签训练得到。其中,训练过程中,题型分类模型的输入为题目样本的题干和/或参考答案,目标输出为题目样本所属的题型。基于此,训练题型分类模型的各个模型参数得到预置的题型分类模型。可选地,该题型分类模型可以为传统机器学习分类模型,也可以为神经网络分类模型,本案对此不做限定。
进一步,训练完成的题型分类模型以目标题目为输入,可以输出其对应的目标题型。
A122、确定与目标题型对应的权重向量。
具体地,权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重。以确定的每两条答题内容的相似度特征向量维度为19为例,该19个维度对相似度值的影响比重可能不同,将该影响比重表示为权重值,则,权重向量为包括19个权重值的向量,即,该权重向量的维度与相似度特征向量的维度相同。目标题型的不同可能对该目标题型的两条答题内容的相似度特征向量中各个维度对相似度值的影响比重产生影响,即,目标题型的不同可能对权重向量产生影响,所以本步骤可以基于目标题型确定与其对应的权重向量。
可选地,权重向量的确定方法可以包括多种,本申请实施例分别对其中的两种确定方法进行介绍。
第一种权重向量的确定方法可以包括:基于对应关系确定权重向量。
具体地,题型与权重向量存在对应关系,即,一种题型对应于一个权重向量,不同的题型可以对应于不同的权重向量,也可以对应于相同的权重向量。可以将题型与权重向量的对应关系预设,得到每一题型对应的权重向量。基于此,获取目标题型之后,可以查询预设的题型与权重向量的对应关系,确定目标题型对应的权重向量。
第二种权重向量的确定方法可以包括:基于权重预测模型确定权重向量。
具体地,首先,以目标题型下题目样本的每两条答题内容样本的相似度特征向量为输入训练样本,若训练样本对应的两条答题内容样本的人工评测结果相同,则以模型输出为1为训练目标,若训练样本对应的两条答题内容样本的人工评测结果不相同,则以模型输出为0为训练目标,训练权重预测模型。
其中,每种题目类型下可以包括多个题目样本,可以分别获取目标题目下的多个题目样本的多条答题内容。针对任一题目样本,获取其对应的每两条答题内容间的相似度特征向量。例如,题目样本对应的答题内容数量为I,则可以得到I×I个相似度特征向量,假设每个相似度特征向量的维度为19。则,训练过程中以该I×I个19维相似度特征向量为训练样本输入至权重预测模型,当相似度特征向量对应的两条答题内容的人工评测结果相同时,模型的目标输出为1,当相似度特征向量对应的两条答题内容的人工评测结果不同时,模型的目标输出为0。
分别针对每个题目样本进行上述训练过程对模型进行训练,得到训练后的权重预测模型。
进一步地,将训练后的权重预测模型的多元回归参数组成的与相似度特征向量相同维度的向量归一化。其中,多元回归参数为训练好的模型参数,该参数的数量与相似度特征向量的维度相同,由该多元回归参数组成的向量的维度与相似度特征向量的维度相同。可以将多元回归参数组成的向量进行归一化,得到归一化的多元回归参数向量。由该归一化的多元回归参数向量作为目标题型对应的权重向量。例如,上述以19维相似度特征向量为输入训练样本训练模型,得到训练后的权重向量预测模型,将权重向量预测模型的多元回归参数归一化,并组合得到一个19维权重向量。
需要说明的是,上述输入训练样本还可以为针对目标题目的所有答题内容中抽取小部分答题内容预先进行人工评测,将该部分答题内容定义为预定标答题内容。其中,预定标答题内容可以根据定标集中答题内容个数进行抽取。例如,定标集中答题内容个数为500个,则可以预先抽取50个预定标答题内容进行人工评测得到评测结果。进一步,将每两条预定标答题内容样本的相似度特征向量作为输入训练样本,并参照上述训练方法训练权重向量预测模型,得到权重向量。
A123、基于权重向量,对每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
具体地,权重向量中的各个元素表示每两条答题内容的相似度特征向量中各个元素对相似度值的影响比重,所以,获取权重向量后,进一步基于权重向量,以及每两条答题内容的相似度特征向量,得到每两条答题内容的相似度值。
其中,针对每两条答题内容,确定该两条答题内容相似度值的方法可以包括:
第一种、将该两条答题内容的相似度特征向量与其对应的权重向量做点乘得到加权求和值,并将该值作为相似度值。
第二种、将该两条答题内容的相似度特征向量与其对应的权重向量做加权平均,并将该加权平均值作为相似度值。
由上述各实施例可知,步骤S110中介绍的聚类过程是针对步骤S100获取的目标题目对应的所有答题内容进行的。但是实际情况下,答题内容中可能存在异常答题的情况。所以进一步地,需要对每一答题内容进行异常检测,得到异常检测结果。
基于此,提出本申请实施例对上述步骤S110对答题内容进行聚类的之前还可以包括的步骤进行介绍。
具体地,对每一答题内容进行异常检测,得到异常检测结果的具体实施方式很多,本申请实施例介绍其中一种可选的异常检测方法。具体可以包括:
D1、以每一答题内容为目标对象,确定目标对象在所有答题内容中的出现概率。
首先,可以将每一答题内容作为目标对象输入预先训练好的K元语言模型,其中,该K元语言模型的训练样本为所有答题内容,其中,K的取值为大于等于1的整数。
当K=1时,将目标对象输入至一元语言模型,输出为目标对象中每个词在答题内容中包括的所有词中出现的概率。
当K大于等于2时,将目标对象输入至K元语言模型,输出为目标对象中每个词在其前K-1个词出现时出现的概率,一般的,K应取值小于等于3。
以K=2为例进行介绍,首先对二元语言模型的训练过程进行介绍,训练样本为答题内容中的所有词,将答题内容中的所有词输入至二元语言模型,经过训练获得的语言模型的输出为:
上式中,wj和wj-1为所有答题内容包括的两个词,C(wj-1wj)为wj和wj-1这两个词在所有答题内容连续出现的次数,C(wj-1)为wj-1在所有答题内容中出现的总次数。即,P(wj|wj-1)表示在答题内容包括的所有词中,wj在wj-1出现后出现的概率。
可以理解的是,将目标对象输入上述训练好的二元语言模型后,该二元语言模型可以依次输出每一目标对象中包括的词出现的条件概率,其中,条件概率为目标对象包括的每一词在前一个词出现的条件下出现的概率,可以表示为P(wq|wq-1),其中,wq为目标对象中的第q个词,wq-1为目标对象中wq的前一词。
进一步,计算该目标对象对应的所有条件概率的乘积,确定目标对象在所有答题内容中的出现概率,若目标对象包含的总词数为Q,则目标对象对应的条件概率个数为Q-1,目标对象在所有答题内容中的出现概率可以表示为:
接下来举例对上述确定目标对象在所有答题内容中的出现概率的过程进行说明,例如,目标对象包括五个词,即Q=5,语言模型的输出分别为条件概率P(w2|w1),P(w3|w2),P(w4|w3),P(w5|w4),其中,P(w2|w1)表示该目标对象中的第二个词在第一个词出现的情况下出现的概率,P(w3|w2)表示该目标对象中的第三个词在第二个词出现的情况下出现的概率,P(w4|w3)表示该目标对象中的第四个词在第三个词出现的情况下出现的概率,P(w5|w4)表示该目标对象中的第五个词在第四个词出现的情况下出现的概率,则,可以确定该目标对象在所有答题内容中的出现概率为该目标对象所有条件概率的乘积:
P(w2|w1)·P(w3|w2)·P(w4|w3)·P(w5|w4)
需要说明的是,M还可以根据需要取值为大于2的任意整数,本实施例仅以M=1和M=2为例进行说明。
D2、基于目标对象的出现概率,确定目标对象的异常检测结果。
具体地,步骤D1已经确定每一目标对象对应的出现概率,该出现概率表征在所有答题内容中,该目标对象出现的可能性,可以理解的是,出现概率越大则该目标对象出现的可能性越大。基于此,确定目标对象是否通过异常检测,将不通过异常检测的目标对象作为异常答题内容排除。
其中,确定目标对象的异常检测结果的几种可选实施方式,分别如下:
第一种、将出现概率小于设定阈值的目标对象判定为异常答题内容,例如,设定阈值为0.3,则将所有出现概率小于0.3的目标对象作为异常答题内容排除。
第二种、将所有目标对象按照出现概率从大到小排序之后,将固定比例排序最靠后的目标对象作为异常答题内容排除,例如将20个目标对象按照出现概率从大到小排序后,将排序在最后五个的目标对象作为异常答题内容排除。
第三种、计算所有目标对象出现概率的平均值μ和标准差σ,参照正态分布的标准差原则,将出现概率小于μ-λσ学生作答判定为异常答题内容排除,一般的,λ为大于2的整数。
本步骤可以确定目标对象的异常检测结果,即得到未通过异常检测的异常答题内容,以及通过异常检测的非异常答题内容。其中,对于异常答题内容可以进入相应的异常处理流程。
进一步,对于异常检测结果表示非异常的答题内容,可以提交至步骤S110进行聚类。即,各非异常答题内容进行聚类,得到至少两个聚类簇,其中每个聚类簇中包括一条或多条非异常答题内容。
具体地,聚类过程可参见上述各申请实施例所述,本申请实施例不作赘述。
下面对本申请实施例提供的定标集确定装置进行描述,下文描述的定标集确定装置与上文描述的定标集确定方法可相互对应参照。
参见图2,图2为本申请实施例公开的一种定标集确定装置结构示意图。
如图2所示,该装置可以包括:
答题内容获取单元11,用于获取各答题对象对目标题目的答题内容;
聚类簇获取单元12,用于根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
定标集抽取单元13,用于从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
可选地,提出本申请实施例对上述聚类簇获取单元12包括的结构进行说明,具体可以包括:
相似度确定单元,用于确定每两条答题内容的相似度,所述相似度表征了该两条答题内容的属性差别;
聚类单元,用于根据所述每两条答题内容的相似度,对各所述答题内容进行聚类。
可选地,上述相似度确定单元的结构可以包括多种,其中,可选的一种相似度确定单元可以包括:
相似度特征向量确定单元,用于确定每两条答题内容的相似度特征向量;
相似度特征向量参考单元,用于根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度。
可选地,确定相似度特征向量的方法包括多种,相应的,相似度特征向量确定单元可以包括多种结构,本申请实施例对其中三种结构进行介绍。
第一种,相似度特征向量确定单元可以包括:
文本统计特征参考单元,用于根据每两条答题内容的文本统计特征,确定每两条答题内容的相似度特征向量。
第二种,相似度特征向量确定单元可以包括:
聚类特征确定单元,用于确定每一所述答题内容的聚类特征;
聚类特征参考单元,用于根据每两条答题内容的聚类特征,确定每两条答题内容的相似度特征向量。
第三种,相似度特征向量确定单元可以包括:
聚类特征确定单元,用于确定每一所述答题内容的聚类特征;
聚类特征及文本统计特征参考单元,用于针对每两条答题内容,根据该两条答题内容各自的聚类特征,以及,该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
可选地,上述聚类特征确定单元可以包括多种,具体可以包括:
第一聚类特征确定子单元,用于确定每一所述答题内容的文本特征,作为聚类特征;
和/或,
第二聚类特征确定子单元,用于确定每一所述答题内容与所述目标题目的参考答案的相似度特征,作为聚类特征。
可选地,聚类特征参考单元可以包括:
第一聚类特征参考单元子单元,用于确定每两条答题内容的聚类特征间的特征相似度;
第二聚类特征参考单元子单元,用于基于每两条答题内容的特征相似度,确定每两条答题内容的相似度特征向量。
可选地,提出本申请实施例对上述相似度特征向量参考单元包括的结构进行介绍,具体可以包括:
目标题型确定单元,用于确定所述目标题目所属的目标题型;
权重向量确定单元,用于确定与所述目标题型对应的权重向量,所述权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重;所述权重向量的维度与所述相似度特征向量的维度相同;
加权计算单元,用于基于所述权重向量,对所述每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
可选地,上述权重向量确定单元可以包括:
第一权重向量确定子单元,用于查询预设的题型与权重向量的对应关系,确定所述目标题型对应的权重向量;
或,
第二权重向量确定子单元,用于以所述目标题型下题目样本的每两条答题内容样本的相似度特征向量为输入训练样本,若训练样本对应的两条答题内容样本的人工评测结果相同,则以模型输出为1为训练目标,若训练样本对应的两条答题内容样本的人工评测结果不相同,则以模型输出为0为训练目标,训练权重预测模型;
第三权重向量确定子单元,用于将训练后的权重预测模型的多元回归参数组成的与相似度特征向量相同维度的向量归一化,得到所述目标题型对应的权重向量。
可选地,本申请的定标集确定装置还可以包括:
异常检测单元,用于在聚类簇获取单元实施之前,对每一所述答题内容进行异常检测,得到异常检测结果。
进一步,聚类簇获取单元具体可以用于对异常检测结果表示非异常的答题内容进行聚类。
可选地,上述异常检测单元可以包括:
第一异常检测子单元,用于以每一所述答题内容为目标对象,确定所述目标对象在所有答题内容中的出现概率;
第二异常检测子单元,基于所述目标对象的出现概率,确定所述目标对象的异常检测结果。
本申请实施例提供的定标集确定装置可应用于定标集确定设备,如PC终端、云平台、服务器及服务器集群等。可选地,图3示出了定标集确定设备的硬件结构框图,参照图3,定标集确定设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取各答题对象对目标题目的答题内容;
根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
可选地,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取各答题对象对目标题目的答题内容;
根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
可选地,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种定标集确定方法,其特征在于,包括:
获取各答题对象对目标题目的答题内容;
根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集;
所述根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,包括:
确定每两条答题内容的相似度,所述相似度表征了该两条答题内容的属性差别;
根据所述每两条答题内容的相似度,对各所述答题内容进行聚类;
所述确定每两条答题内容的相似度,包括:
确定每两条答题内容的相似度特征向量;
确定所述目标题目所属的目标题型;
确定与所述目标题型对应的权重向量,所述权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重;
基于所述权重向量,对所述每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
2.根据权利要求1所述的方法,其特征在于,所述确定每两条答题内容的相似度特征向量,包括:
确定每一所述答题内容的聚类特征;
针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述目标题型对应的权重向量,包括:
查询预设的题型与权重向量的对应关系,确定所述目标题型对应的权重向量;
或,
以所述目标题型下题目样本的每两条答题内容样本的相似度特征向量为输入训练样本,若训练样本对应的两条答题内容样本的人工评测结果相同,则以模型输出为1为训练目标,若训练样本对应的两条答题内容样本的人工评测结果不相同,则以模型输出为0为训练目标,训练权重预测模型;
将训练后的权重预测模型的多元回归参数组成的与相似度特征向量相同维度的向量归一化,得到所述目标题型对应的权重向量。
4.根据权利要求2所述的方法,其特征在于,所述确定每一所述答题内容的聚类特征,包括:
确定每一所述答题内容的文本特征,作为聚类特征;
和/或,
确定每一所述答题内容与所述目标题目的参考答案的相似度特征,作为聚类特征。
5.根据权利要求2所述的方法,其特征在于,所述针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量,包括:
确定每两条答题内容的聚类特征间的特征相似度;
基于每两条答题内容的特征相似度,确定每两条答题内容的相似度特征向量。
6.根据权利要求1所述的方法,其特征在于,所述确定每两条答题内容的相似度特征向量,包括:
针对每两条答题内容,根据该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
7.根据权利要求1所述的方法,其特征在于,所述确定每两条答题内容的相似度特征向量,包括:
针对每两条答题内容,根据该两条答题内容各自的聚类特征,以及,该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
8.根据权利要求1所述的方法,其特征在于,在所述对各所述答题内容进行聚类之前,该方法还包括:
对每一所述答题内容进行异常检测,得到异常检测结果;
所述对各所述答题内容进行聚类,包括:
对异常检测结果表示非异常的答题内容进行聚类。
9.根据权利要求8所述的方法,其特征在于,所述对每一所述答题内容进行异常检测,包括:
以每一所述答题内容为目标对象,确定所述目标对象在所有答题内容中的出现概率;
基于所述目标对象的出现概率,确定所述目标对象的异常检测结果。
10.一种定标集确定装置,包括:
答题内容获取单元,用于获取各答题对象对目标题目的答题内容;
聚类簇获取单元,用于根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
定标集抽取单元,用于从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集;
所述聚类簇获取单元包括:
相似度确定单元,用于确定每两条答题内容的相似度,所述相似度表征了该两条答题内容的属性差别;
聚类单元,用于根据所述每两条答题内容的相似度,对各所述答题内容进行聚类;
所述相似度确定单元包括:
相似度特征向量确定单元,用于确定每两条答题内容的相似度特征向量;
相似度特征向量参考单元,用于确定所述目标题目所属的目标题型;确定与所述目标题型对应的权重向量,所述权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重;基于所述权重向量,对所述每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361757.6A CN110096708B (zh) | 2019-04-30 | 2019-04-30 | 一种定标集确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361757.6A CN110096708B (zh) | 2019-04-30 | 2019-04-30 | 一种定标集确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110096708A CN110096708A (zh) | 2019-08-06 |
CN110096708B true CN110096708B (zh) | 2023-12-01 |
Family
ID=67446608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910361757.6A Active CN110096708B (zh) | 2019-04-30 | 2019-04-30 | 一种定标集确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096708B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443320A (zh) * | 2019-08-13 | 2019-11-12 | 北京明略软件系统有限公司 | 事件相似度的确定方法及装置 |
CN113780997A (zh) * | 2021-09-16 | 2021-12-10 | 湖北天天数链技术有限公司 | 一种人岗匹配的测评方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN108363687A (zh) * | 2018-01-16 | 2018-08-03 | 深圳市脑洞科技有限公司 | 主观题评分及其模型的构建方法、电子设备及存储介质 |
WO2019075820A1 (zh) * | 2017-10-20 | 2019-04-25 | 深圳市鹰硕技术有限公司 | 一种试卷批阅系统 |
-
2019
- 2019-04-30 CN CN201910361757.6A patent/CN110096708B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
WO2019075820A1 (zh) * | 2017-10-20 | 2019-04-25 | 深圳市鹰硕技术有限公司 | 一种试卷批阅系统 |
CN108363687A (zh) * | 2018-01-16 | 2018-08-03 | 深圳市脑洞科技有限公司 | 主观题评分及其模型的构建方法、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于词语关联的散文阅读理解问题答案获取方法;乔霈等;《中文信息学报》;20180315(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110096708A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
WO2018120899A1 (zh) | 一种商标查询结果近似度评价和排序方法、装置 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN106294863A (zh) | 一种针对海量文本快速理解的文摘方法 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN110263854A (zh) | 直播标签确定方法、装置及存储介质 | |
CN112329460A (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
Halvani et al. | Authorship verification based on compression-models | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN110659352A (zh) | 试题考点识别方法及其系统 | |
CN110096708B (zh) | 一种定标集确定方法及装置 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN109960730B (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
CN110110143A (zh) | 一种视频分类方法及装置 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN117633639A (zh) | 一种自动识别考题的难易程度的方法及装置 | |
CN112700203B (zh) | 智能阅卷方法及装置 | |
CN113807096A (zh) | 文本数据的处理方法、装置、计算机设备和存储介质 | |
CN110069783B (zh) | 一种答题内容评测方法及装置 | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
CN113569024A (zh) | 卡片类别的识别方法、装置、电子设备和计算机存储介质 | |
JP2008282111A (ja) | 類似文書検索方法、プログラムおよび装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |