CN113095071A

CN113095071A - 将英文视频或文本难度对标至国内年级的系统和方法

Info

Publication number: CN113095071A
Application number: CN202110471002.9A
Authority: CN
Inventors: 张丽萍; 陈晓燕; 倪巧; 张姗姗; 曹魏; 王翼; 陈巧燕; 洪来君
Original assignee: Hangzhou Feizhu Technology Co ltd
Current assignee: Hangzhou Feizhu Technology Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-09

Abstract

本发明公开了一种将英文视频或文本难度对标至国内年级的系统和方法，通过多分类逻辑回归模型，将CEFR体系下的难度分级自动对标至国内年级，可为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。

Description

将英文视频或文本难度对标至国内年级的系统和方法

技术领域

本发明涉及英文视频难度分级，尤其涉及一种将英文视频难度对标至国内年级的系统和方法。

背景技术

现有技术中有国内外英文学习软件可将英文文本的难度对标到CEFR的各难度级别。CEFR全称为Common European Framework of Reference for Language，即欧洲共同语言参考标准，是欧洲委员会在2001年11月通过的一套建议标准，用于描述外语学习者语言能力程度的标准体系，成为全球通用的语言能力分级的重要参考依据，被全球各类教育机构、企业及政府部门广泛认可及使用，为各国开展语言设计、语言测试及教材编纂工作提供指导依据。但是，针对中国教育体制内，如从高中到大学，将视频难度定级到体制内年级，这种分级和对标的方法目前国内尚属空白。国内各年级学生选取适合的学习材料时，缺乏类似的难度分级、对标的方法和工具为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。

而且，文本定级工具只能测量文本的难度，在阅读文本的过程中，读者可快可慢，完全可以自己掌控节奏，而看视频的过程只能跟着视频的节奏去理解内容，所以用文本难度定级工具对于视频内容难度定级方式有些单薄，缺乏对于视频形式内容考量例如视频语速，语音语调等也会造成学习者的理解难度上升。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种可将英文视频或文本难度对标至国内年级的系统和方法。

为实现上述目的，本发明在第一方面提供了一种将英文视频或文本难度对标至国内年级的方法，包括步骤：

(1)选取变量：设年级为因变量y；自变量包括：去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级；

(2)建立模型：采用多分类逻辑回归模型：

其中，P为各年级的概率值；Y表示总体的年级；χ表示自变量向量；ω为系数向量；K表示因变量的取值个数；e为自然常数；

(3)通过人工标定法生成训练样本库，并用训练样本库对模型进行回归训练，得到回归模型；

(4)根据回归模型对英文视频进行分析，得到各年级的预测概率值；

(5)将预测概率中最大值对应的年级为模型预测的年级。

进一步地，步骤(3)中，从视频库里随机挑选CEFR难度为B1、B2或C1的视频，由人工标定年级，对应年级范围为10-16，剔除无效样本后得到有效样本，采用分层法，将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。进一步地，步骤(3)中，得到各年级的预测概率公式为：

其中，

G10＝16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed＝1,1,0)+18.409*IF(speed＝2,1,0)+5.296*IF(speed＝3,1,0)+2.556*IF(speed＝4,1,0)+17.109*IF(y0＝11,1,0)+30.943*IF(y0＝13,1,0)；

G11＝11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed＝1,1,0)+18.73*IF(speed＝2,1,0)+5.006*IF(speed＝3,1,0)+2.564*IF(speed＝4,1,0)+20.547*IF(y0＝11,1,0)+36.685*IF(y0＝13,1,0)；

G12＝4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed＝1,1,0)+15.635*IF(speed＝2,1,0)+2.06*IF(speed＝3,1,0)+1.641*IF(speed＝4,1,0)+20.686*IF(y0＝11,1,0)+39.951*IF(y0＝13,1,0)；

G13＝5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed＝1,1,0)+17.506*IF(speed＝2,1,0)+2.204*IF(speed＝3,1,0)+2.478*IF(speed＝4,1,0)+17.363*IF(y0＝11,1,0)+38.759*IF(y0＝13,1,0)；

G14＝1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed＝1,1,0)+16.328*IF(speed＝2,1,0)+1.756*IF(speed＝3,1,0)+1.868*IF(speed＝4,1,0)+13.794*IF(y0＝11,1,0)+37.352*IF(y0＝13,1,0)；

G15＝6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed＝1,1,0)+15.826*IF(speed＝2,1,0)+0.562*IF(speed＝3,1,0)+1.268*IF(speed＝4,1,0)+11.549*IF(y0＝11,1,0)+35.405*IF(y0＝13,1,0)；

G16＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0。

其中，words为去重单词数；mls为句子净长度；mlt为T-unit的长度；mlc为从句的净长度；vp_t为T-unit的动词短语数量；dc_c为每个从句的从句数量；t_s为每个句子的T-unit数量；ct_t为复杂T-unit的数量；cp_c每个从句的并列短语数量；cn_t每个T-unit的复合名词数量；cn_c每个从句的复合名词数量；smog为SMOG指数；Automated为AutomatedReadability指数；Dale_Chall为Dale-Chall Final Score；Lix为Lix指数；sentences为句子数；complex_words为复杂单词数；syllables平均每单词音节数；speed为语速；y0为初始年级。

本发明在第二方面提供了一种将英文视频或文本难度对标至国内年级的系统，包括：

自变量输入模块，用于输入表征英文视频或文本难度的自变量，包括：去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级；

对标模型模块，用于根据输入的自变量，通过多分类逻辑回归模型对各年级的概率进行计算：

因变量输出模块，用于将预测概率中最大值对应的年级作为模型预测的年级y输出。

进一步地，对标模型模块是通过人工标定法生成训练样本库，并用训练样本库对模型进行回归训练而得到的。

进一步地，训练样本是按照如下方式得到的：从视频库里随机挑选CEFR难度为B1、B2或C1的视频，由人工标定年级，对应年级范围为10-16，剔除无效样本后得到有效样本，采用分层法，将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。

进一步地，对标模型模块中的各年级的预测概率公式为：

其中，

G16＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0。

本发明的技术效果：

1)在衡量英语内容难度方面，打通国外CEFR和国内年级，由国外英语内容难度体系对标到中国体制内的大纲和年级；

2)对于视频难度判断量化到国内年级，不需人工干预，可直接由这套算法计算出任意落在高中和大学难度的视频具体的年级值；

3)该算法不仅适用于视频难度对标，任意文本形式都可使用因为该算法很多因变量和维度也正好切中文本难度定级；

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例中的部分训练样本数据表；

图2是本发明的一个较佳实施例中的自变量的共线性诊断结果表；

图3是本发明的一个较佳实施例中的多分类逻辑回归模型的部分输出结果表；

图4是本发明的一个较佳实施例中利用spss统计软件对实际难度等级与预测难度等级生成交叉表；

图5是本发明的一个较佳实施例中模型应用到测试样本得到预测的年级y与预测年级的交叉表。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在根据本发明的一个具体实施方式中，首先为了得到能够判断视频难度的计算公式，本发明选取了相关变量，具体如下表：

因变量y即年级为多分类变量，故选取多分类逻辑回归模型：

其中，Y表示总体的年级(y表示样本的年级)，χ表示自变量向量，ω为系数向量，K表示因变量的取值个数，此处K＝7。目标是先求系数向量ω，再计算各年级的概率值，最后根据概率值大小判断视频的年级。

从视频库里随机挑选一批CEFR难度为B1、B2或C1的视频，由人工判断出准确年级(年级范围为10-16)，剔除无效样本后有效样本数为815个。采用分层法，将每个层(年级)的样本随机按7:3的比例划分为训练样本和测试样本。最终训练样本和测试样本分布如下表：

年级	总样本量	训练样本量	测试样本量
				10	31	22	9
11	94	66	28
				12	108	75	33
13	146	104	42
				14	177	124	53
15	184	129	55
				16	75	52	23
合计	815	572	243

部分训练样本数据图1所示。

用spss统计软件自变量之间的多重共线性进行检验，当共线性检验的统计量VIF＞10时，说明自变量间存在共线性，此时剔除VIF较大的变量再做多重共线性检验，直到所有变量的VIF均小于10。上述过程剔除的变量为：c_t、dc_t、FKRE、cp_t、c_s、FKGL、Coleman，最终的共线性诊断结果如图2所示：所有变量的VIF均小于10，此时自变量间不存在共线性。

由此得到最终进入模型的变量如下表所示：

利用spss建立多分类逻辑回归模型，部分输出结果如图3所示。

利用spss统计软件对实际难度等级与预测难度等级生成交叉表，结果如图4所示。预测的难度等级与实际难度等级一致或相差一个等级认为是准确的，计算模型的准确度：

预测一致的样本量：6+37+45+47+70+85+27＝317

向上一级预测的样本量：9+23+9+26+30+11＝108

向下一级预测的样本量：2+13+17+18+28+25＝103

模型准确度：(317+108+103)/572*100％＝92.3％

根据图3中spss输出结果(“参数估计值”中的B列)，整理难度等级计算公式。因公式较复杂，为便于处理，先计算中间变量，再根据中间变量计算各难度等级的概率值，概率值最大的等级即预测的年级。

(1)中间变量

G16＝0。

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0。

(2)预测概率值

其中，e为自然常数，值取为2.718281828459。

P10表示将视频年级为10的概率。

P11表示将视频年级为11的概率。

P12–P16分别表示将视频年级预测为12-16的概率。

(3)预测结果

P10,P11,P12,P13,P14,P15,P16中的最大值对应的年级为模型预测的年级，例如：

MAX(P10,P11,P12,P13,P14,P15,P16)＝P10则预测的年级为10。

为验证模型的有效性，将模型应用到测试样本得到预测的年级(PredictedValue)，y与预测年级的交叉表如图5所示。

其中，预测一致的样本量：1+13+12+16+19+38+8＝107；

向上一级预测的样本量：4+6+5+13+16+9＝53；

向下一级预测的样本量：2+12+8+13+6+14＝55；

模型准确度：(107+53+55)/243*100％＝88.5％；

得到模型应用到测试样本的准确度为88.5％。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种将英文视频或文本难度对标至国内年级的方法，其特征在于，包括步骤：

(2)建立模型：采用多分类逻辑回归模型：

(5)将预测概率中最大值对应的年级为模型预测的年级。

2.如权利要求1所述的将英文视频或文本难度对标至国内年级的方法，其中，步骤(3)中，从视频库里随机挑选CEFR难度为B1、B2或C1的视频，由人工标定年级，对应年级范围为10-16，剔除无效样本后得到有效样本，采用分层法，将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。

3.如权利要求2所述的将英文视频或文本难度对标至国内年级的方法，其中，步骤(3)中，得到各年级的预测概率公式为：

其中，

G10＝

16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed＝1,1,0)+18.409*IF(speed＝2,1,0)+5.296*IF(speed＝3,1,0)+2.556*IF(speed＝4,1,0)+17.109*IF(y0＝11,1,0)+30.943*IF(y0＝13,1,0)；

G11＝

11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed＝1,1,0)+18.73*IF(speed＝2,1,0)+5.006*IF(speed＝3,1,0)+2.564*IF(speed＝4,1,0)+20.547*IF(y0＝11,1,0)+36.685*IF(y0＝13,1,0)；

G12＝

4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed＝1,1,0)+15.635*IF(speed＝2,1,0)+2.06*IF(speed＝3,1,0)+1.641*IF(speed＝4,1,0)+20.686*IF(y0＝11,1,0)+39.951*IF(y0＝13,1,0)；

G13＝

5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed＝1,1,0)+17.506*IF(speed＝2,1,0)+2.204*IF(speed＝3,1,0)+2.478*IF(speed＝4,1,0)+17.363*IF(y0＝11,1,0)+38.759*IF(y0＝13,1,0)；

G14＝

1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed＝1,1,0)+16.328*IF(speed＝2,1,0)+1.756*IF(speed＝3,1,0)+1.868*IF(speed＝4,1,0)+13.794*IF(y0＝11,1,0)+37.352*IF(y0＝13,1,0)；

G15＝

6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed＝1,1,0)+15.826*IF(speed＝2,1,0)+0.562*IF(speed＝3,1,0)+1.268*IF(speed＝4,1,0)+11.549*IF(y0＝11,1,0)+35.405*IF(y0＝13,1,0)；

G16＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0；

4.一种将英文视频或文本难度对标至国内年级的系统，其特征在于，包括：

5.如权利要求4所述的将英文视频或文本难度对标至国内年级的系统，其中，对标模型模块是通过人工标定法生成训练样本库，并用训练样本库对模型进行回归训练而得到的。

6.如权利要求5所述的将英文视频或文本难度对标至国内年级的系统，其中，训练样本库是按照如下方式得到的：从视频库里随机挑选CEFR难度为B1、B2或C1的视频，由人工标定年级，对应年级范围为10-16，剔除无效样本后得到有效样本，采用分层法，将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。

7.如权利要求6所述的将英文视频或文本难度对标至国内年级的系统，其中，对标模型模块中的各年级的预测概率公式为：

其中，

G10＝

G11＝

G12＝

G13＝

G14＝

G15＝

G16＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0；