CN113761898A

CN113761898A - 将英文视频或文本难度对标至国内1-9年级的方法和系统

Info

Publication number: CN113761898A
Application number: CN202111001113.XA
Authority: CN
Inventors: 曹魏; 洪来君; 倪巧; 张珊珊
Original assignee: Hangzhou Feizhu Technology Co ltd
Current assignee: Hangzhou Feizhu Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-07

Abstract

本发明公开了一种将英文视频或文本难度对标至国内1‑9年级的系统和方法，通过多分类逻辑回归模型，将CEFR体系下的难度分级自动对标至国内年级，可为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。

Description

将英文视频或文本难度对标至国内1-9年级的方法和系统

技术领域

本发明涉及英文视频难度分级，尤其涉及一种将英文视频难度对标至国内年级的系统和方法。

背景技术

现有技术中有国内外英文学习软件可将英文文本的难度对标到CEFR的各难度级别。CEFR全称为Common European Framework of Reference for Language，即欧洲共同语言参考标准，是欧洲委员会在2001年11月通过的一套建议标准，用于描述外语学习者语言能力程度的标准体系，成为全球通用的语言能力分级的重要参考依据，被全球各类教育机构、企业及政府部门广泛认可及使用，为各国开展语言设计、语言测试及教材编纂工作提供指导依据。但是，针对中国教育体制内，如从高中到大学，将视频难度定级到体制内年级，这种分级和对标的方法目前国内尚属空白。国内各年级学生选取适合的学习材料时，缺乏类似的难度分级、对标的方法和工具为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。

而且，文本定级工具只能测量文本的难度，在阅读文本的过程中，读者可快可慢，完全可以自己掌控节奏，而看视频的过程只能跟着视频的节奏去理解内容，所以用文本难度定级工具对于视频内容难度定级方式有些单薄，缺乏对于视频形式内容考量例如视频语速，语音语调等也会造成学习者的理解难度上升。

进一步地，对于CEFR体系下视频/文本难度为PreA1、A1、A2对标至国内1-9年级的英文视频，由于较低年级的英语口语类视频语法结构难量化以及口语语料和文本语料有区别，口语类更复杂等原因，目前市面上能精准将英语视频定位到年级的内容主要是按照教材的具体年级将视频分类；或者根据英语老师的经验，人为判断并归类适合的英语视频内容，而对于非教材类的内容无法判断所属年级，应用领域没有扩展到视频；目前也无成熟的算法给视频判定所属年级。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是将如何较低年级的英语口语类视频对标至国内年纪。

为实现上述目的，本发明首先提供了一种可将英文视频或文本难度对标至国内1-9年级的方法，包括步骤：

(1)选取变量：设年级为因变量y；自变量包括：语速、去重单词数、句子净长度；T-unit的长度；从句的净长度；T-unit的动词短语数量；每个T-unit的从句数量；每个从句的从句数量；每个句子的T-unit数量；每个从句的并列短语；每个T-unit的复合名词数量；每个从句的复合名词；Dale-Chall Final Score；Lix指数；SMOG指数；句子数；复杂单词数；平均每单词音节数和初始年级；

(2)建立模型：采用多分类逻辑回归模型：

其中，P为各年级的概率值；Y表示总体的年级；χ表示自变量向量；ω为系数向量；K表示因变量的取值个数；e为自然常数；

(3)通过人工标定法生成训练样本库，并用训练样本库对模型进行回归训练，得到回归模型；

(4)根据回归模型对英文视频进行分析，得到各年级的预测概率值；

(5)将预测概率中最大值对应的年级为模型预测的年级。

进一步地，步骤(3)中，将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。

进一步地，步骤(3)中，得到各年级的预测概率公式为：

其中，

G1＝＝

30.868-0.606*words+0.433*mls+0.961*mlt-1.025*mlc+2.456*vp_t-4.832*c_t-32.697*dc_c+3.948*t_s+8.067*cp_c-8.859*cn_t+10.375*cn_c+0.054*lix-0.433*complex_words-1.253*smog+0.223*sentences-4.586*syllables-0.116*Dale_Chall-8.688*IF(y0＝2,1,0)-7.859*IF(y0＝5,1,0)-37.75*IF(y0＝8,1,0)+22.599*IF(speed＝1,1,0)+19.187*IF(speed＝2,1,0)+10.978*IF(speed＝3,1,0)+6.09*IF(speed＝4,1,0)；

G2＝＝

20.574-0.334*words+0.642*mls-0.079*mlt-0.427*mlc+2.439*vp_t-1.165*c_t-134.456*dc_c+3.861*t_s+6.729*cp_c-6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words-1.72*smog+0.072*sentences-1.978*syllables-0.249*Dale_Chall+3.871*IF(y0＝2,1,0)+4.423*IF(y0＝5,1,0)-20.39*IF(y0＝8,1,0)+13.356*IF(speed＝1,1,0)+9.44*IF(speed＝2,1,0)+1.439*IF(speed＝3,1,0)-3.449*IF(speed＝4,1,0)；

G3＝＝

17.385-0.179*words+0.669*mls+0.585*mlt-0.885*mlc+4.432*vp_t-6.648*c_t-19.448*dc_c+4.125*t_s+6.587*cp_c-8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words-1.41*smog-0.081*sentences-1.827*syllables-0.134*Dale_Chall+6.186*IF(y0＝2,1,0)+11.125*IF(y0＝5,1,0)-19.607*IF(y0＝8,1,0)+10.135*IF(speed＝1,1,0)+6.488*IF(speed＝2,1,0)-0.992*IF(speed＝3,1,0)-4.787*IF(speed＝4,1,0)；

G4＝＝

9.384-0.123*words+0.482*mls+0.336*mlt-0.616*mlc+4.752*vp_t-4.257*c_t-18.139*dc_c+3.224*t_s+4.379*cp_c-10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words-1.295*smog-0.168*sentences-2.325*syllables-0.114*Dale_Chall-7.526*IF(y0＝2,1,0)+7.533*IF(y0＝5,1,0)-3.475*IF(y0＝8,1,0)+21.019*IF(speed＝1,1,0)+16.461*IF(speed＝2,1,0)+8.124*IF(speed＝3,1,0)+5.528*IF(speed＝4,1,0)；

G5＝＝

5.536-0.097*words+0.389*mls+0.461*mlt-0.642*mlc+4.015*vp_t-4.184*c_t-15.03*dc_c+4.929*t_s+6.921*cp_c-7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words-1.731*smog-0.178*sentences-1.315*syllables-0.211*Dale_Chall-4.322*IF(y0＝2,1,0)+8.285*IF(y0＝5,1,0)-2.026*IF(y0＝8,1,0)+19.732*IF(speed＝1,1,0)+16.188*IF(speed＝2,1,0)+7.261*IF(speed＝3,1,0)+4.512*IF(speed＝4,1,0)；

G6＝＝

1.713-0.073*words+0.604*mls+0.768*mlt-0.803*mlc+2.102*vp_t-4.457*c_t-11.419*dc_c+4.874*t_s+4.934*cp_c-10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words-1.507*smog-0.151*sentences+1.983*syllables+0.047*Dale_Chall-6.355*IF(y0＝2,1,0)+10.132*IF(y0＝5,1,0)-2.494*IF(y0＝8,1,0)-4.753*IF(speed＝1,1,0)+14.116*IF(speed＝2,1,0)+5.056*IF(speed＝3,1,0)+2.479*IF(speed＝4,1,0)；

G7＝＝

20.009-0.103*words+0.172*mls+0.75*mlt-0.617*mlc-1.009*vp_t-6.231*c_t-7.857*dc_c+0.411*t_s+2.131*cp_c-9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words-2.066*smog-0.121*sentences+0.13*syllables-0.379*Dale_Chall+5.83*IF(y0＝2,1,0)+0.753*IF(y0＝5,1,0)-1.787*IF(y0＝8,1,0)+17.253*IF(speed＝1,1,0)+13.987*IF(speed＝2,1,0)+3.263*IF(speed＝3,1,0)+2.166*IF(speed＝4,1,0)；

G8＝＝

23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0＝2,1,0)-9.958*IF(y0＝5,1,0)-19.968*IF(y0＝8,1,0)-18.54*IF(speed＝1,1,0)+2.141*IF(speed＝2,1,0)+0.936*IF(sp eed＝3,1,0)+0.082*IF(speed＝4,1,0)；

G9＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0；

其中，speed为语速；words为去重单词数；mls为句子净长度；mlt为T-unit的长度；mlc为从句的净长度；vp_t为T-unit的动词短语数量；dc_c为每个从句的从句数量；t_s为每个句子的T-unit数量；ct_t为复杂T-unit的数量；cp_c

每个从句的并列短语数量；cn_t每个T-unit的复合名词数量；cn_c每个从句的复合名词数量；smog为SMOG指数；Automated为Automated Readability指数；

Dale_Chall为Dale-Chall Final Score；Lix为Lix指数；sentences为句子数；

complex_words为复杂单词数；syllables平均每单词音节数；y0为初始年级。

本发明在第二方面提供了一种将英文视频或文本难度对标至国内1-9年级的系统，包括：

自变量输入模块，用于输入表征英文视频或文本难度的自变量，包括：语速、去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数和初始年级；

对标模型模块，用于根据输入的自变量，通过多分类逻辑回归模型对各年级的概率进行计算：

因变量输出模块，用于将预测概率中最大值对应的年级作为模型预测的年级y输出。

进一步地，对标模型模块是通过人工标定法生成训练样本库，并用训练样本库对模型进行回归训练而得到的。

进一步地，训练样本库是按照如下方式得到的：将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。

进一步地，对标模型模块中的各年级的预测概率公式为：

其中，

G1＝＝

G2＝＝

G3＝＝

G4＝＝

G5＝＝

G6＝＝

G7＝＝

G8＝＝

23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0＝2,1,0)-9.958*IF(y0＝5,1,0)-19.968*IF(y0＝8,1,0)-18.54*IF(speed＝1,1,0)+2.141*IF(speed＝2,1,0)+0.936*IF(speed＝3,1,0)+0.082*IF(speed＝4,1,0)；

G9＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0；

其中，speed为语速；words为去重单词数；mls为句子净长度；mlt为T-unit的长度；mlc为从句的净长度；vp_t为T-unit的动词短语数量；dc_c为每个从句的从句数量；t_s为每个句子的T-unit数量；ct_t为复杂T-unit的数量；cp_c每个从句的并列短语数量；cn_t每个T-unit的复合名词数量；cn_c每个从句的复合名词数量；smog为SMOG指数；Automated为Automated Readability指数；Dale_Chall为Dale-Chall Final Score；Lix为Lix指数；sentences为句子数；complex_words为复杂单词数；syllables平均每单词音节数；y0为初始年级。

本发明的技术效果：

1)在衡量英语内容难度方面，打通国外CEFR和国内年级，由国外英语内容难度体系对标到中国体制内的大纲和年级；

2)对于视频难度判断量化到国内年级，不需人工干预，可直接由这套算法计算出任意落在高中和大学难度的视频具体的年级值；

3)该算法不仅适用于视频难度对标，任意文本形式都可使用因为该算法很多因变量和维度也正好切中文本难度定级；

4)为适应较低年级的视频难度对标，不同于较高年级的对标，本发明分类的依据主要是按照当前年级下需要熟悉的主题进行视频主题的匹配，对词汇和语法的难度没有特别关注。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例中的部分训练样本数据表；

图2是本发明的一个较佳实施例中的自变量的共线性诊断结果表；

图3是本发明的一个较佳实施例中的多分类逻辑回归模型的部分输出结果表；

图4是本发明的一个较佳实施例中利用spss统计软件对实际难度等级与预测难度等级生成交叉表；

图5是本发明的一个较佳实施例中模型应用到测试样本得到预测的年级y与预测年级的交叉表。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

本发明首先提供了一种方法，该方法在已知视频/文本难度为PreA1、A1、A2难度时，用算法量化对应视频/文本难度到国内的年级。

在根据本发明的一个具体实施方式中，为得到能够量化视频年级的算法公式，首先选取了一批反映视频年级水平的变量本发明选取了相关变量，具体如下表：

因变量y即年级为多分类变量，故选取多分类逻辑回归模型：

其中，Y表示总体的年级(y表示样本的年级)，χ表示自变量向量，ω为系数向量，K表示因变量的取值个数，此处K＝9。目标是先求系数向量ω，再计算各年级的概率值，最后根据概率值大小判断视频的年级。

从视频库里选取人教新起点教材(1-6年级)视频和人教初中教材(7-9年级)视频共2122个，采用按年级分层法，将各年级样本随机按7:3的比例划分为训练样本和测试样本，划分后样本分布如下：

部分训练样本数据图1所示。

用spss统计软件自变量之间的多重共线性进行检验，当共线性检验的统计量VIF＞10时，说明自变量间存在共线性，此时剔除VIF较大的变量再做多重共线性检验，直到所有变量的VIF均小于10。上述过程剔除的变量为：FKRE、FKGL、Automated、cp_t、dc_t、c_s、ct_t、Coleman，最终的共线性诊断结果如图2所示：所有变量的VIF均小于10，此时自变量间不存在共线性。

由此得到最终进入模型的变量如下表所示：

利用spss建立多分类逻辑回归模型，部分输出结果如图3所示。

利用spss统计软件对实际难度等级与预测难度等级生成交叉表，结果如图4所示。

预测年级与实际年级一致或相差一个年级认为是准确的，计算模型的准确度：

预测一致的样本量：104+79+142+75+80+104+131+117+86＝918

向上一级预测的样本量：32+38+1+35+12+10+2+22＝152

向下一级预测的样本量：39+32+39+36+20+1+7+12＝186

模型准确度：(918+152+186)/1490*100％＝84.3％

根据图3中spss输出结果(“参数估计值”中的B列)，整理难度等级计算公式。因公式较复杂，为便于处理，先计算中间变量，再根据中间变量计算各难度等级的概率值，概率值最大的等级即预测的年级。

(1)中间变量

G1＝＝

G2＝＝

G3＝＝

G4＝＝

G5＝＝

G6＝＝

G7＝＝

G8＝＝

G9＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0。

(2)预测概率值

其中，e为自然常数，值取为2.718281828459。

Pn表示将视频年级预测为n的概率，n的取值范围是1-9。

(3)预测结果

P1,P2,P3,P4,P5,P6,P7,P8,P9中最大值对应的年级为模型预测的年级，例如：

MAX(P1,P2,P3,P4,P5,P6,P7,P8,P9)＝P1则预测的年级为1

为验证模型的有效性，将模型应用到测试样本得到预测的年级(PredictedValue)，y与预测年级的交叉表如图5所示。

预测一致的样本量：32+37+59+21+34+49+48+44+32＝356

向上一级预测的样本量：23+13+4+17+3+7+2+11＝80

向下一级预测的样本量：15+12+23+14+6+2+1+7＝80

模型准确度：(356+80+80)/632*100％＝81.6％

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种将英文视频或文本难度对标至国内1-9年级的方法，其特征在于，包括步骤：

(1)选取变量：设年级为因变量y；自变量包括：语速、去重单词数、句子净长度；T-unit的长度；从句的净长度；T-unit的动词短语数量；每个T-unit的从句数量；每个从句的从句数量；每个句子的T-unit数量；每个从句的并列短语；每个T-unit的复合名词数量；每个从句的复合名词；Dale-ChallFinal Score；Lix指数；SMOG指数；句子数；复杂单词数；平均每单词音节数和初始年级；

(2)建立模型：采用多分类逻辑回归模型：

(5)将预测概率中最大值对应的年级为模型预测的年级。

2.如权利要求1所述的将英文视频或文本难度对标至国内1-9年级的方法，其中，步骤(3)中，将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。

3.如权利要求2所述的将英文视频或文本难度对标至国内1-9年级的方法，其中，步骤(3)中，得到各年级的预测概率公式为：

其中，

G1＝＝30.868-0.606*words+0.433*mls+0.961*mlt-1.025*mlc+2.456*vp_t-4.832*c_t-32.697*dc_c+3.948*t_s+8.067*cp_c-8.859*cn_t+10.375*cn_c+0.054*lix-0.433*complex_words-1.253*smog+0.223*sentences-4.586*syllables-0.116*Dale_Chall-8.688*IF(y0＝2,1,0)-7.859*IF(y0＝5,1,0)-37.75*IF(y0＝8,1,0)+22.599*IF(speed＝1,1,0)+19.187*IF(speed＝2,1,0)+10.978*IF(speed＝3,1,0)+6.09*IF(speed＝4,1,0)；

G2＝＝20.574-0.334*words+0.642*mls-0.079*mlt-0.427*mlc+2.439*vp_t-1.165*c_t-134.456*dc_c+3.861*t_s+6.729*cp_c-6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words-1.72*smog+0.072*sentences-1.978*syllables-0.249*Dale_Chall+3.871*IF(y0＝2,1,0)+4.423*IF(y0＝5,1,0)-20.39*IF(y0＝8,1,0)+13.356*IF(speed＝1,1,0)+9.44*IF(speed＝2,1,0)+1.439*IF(speed＝3,1,0)-3.449*IF(speed＝4,1,0)；

G3＝＝17.385-0.179*words+0.669*mls+0.585*mlt-0.885*mlc+4.432*vp_t-6.648*c_t-19.448*dc_c+4.125*t_s+6.587*cp_c-8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words-1.41*smog-0.081*sentences-1.827*syllables-0.134*Dale_Chall+6.186*IF(y0＝2,1,0)+11.125*IF(y0＝5,1,0)-19.607*IF(y0＝8,1,0)+10.135*IF(speed＝1,1,0)+6.488*IF(speed＝2,1,0)-0.992*IF(speed＝3,1,0)-4.787*IF(speed＝4,1,0)；

G4＝＝9.384-0.123*words+0.482*mls+0.336*mlt-0.616*mlc+4.752*vp_t-4.257*c_t-18.139*dc_c+3.224*t_s+4.379*cp_c-10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words-1.295*smog-0.168*sentences-2.325*syllables-0.114*Dale_Chall-7.526*IF(y0＝2,1,0)+7.533*IF(y0＝5,1,0)-3.475*IF(y0＝8,1,0)+21.019*IF(speed＝1,1,0)+16.461*IF(speed＝2,1,0)+8.124*IF(speed＝3,1,0)+5.528*IF(speed＝4,1,0)；

G5＝＝5.536-0.097*words+0.389*mls+0.461*mlt-0.642*mlc+4.015*vp_t-4.184*c_t-15.03*dc_c+4.929*t_s+6.921*cp_c-7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words-1.731*smog-0.178*sentences-1.315*syllables-0.211*Dale_Chall-4.322*IF(y0＝2,1,0)+8.285*IF(y0＝5,1,0)-2.026*IF(y0＝8,1,0)+19.732*IF(speed＝1,1,0)+16.188*IF(speed＝2,1,0)+7.261*IF(speed＝3,1,0)+4.512*IF(speed＝4,1,0)；

G6＝＝1.713-0.073*words+0.604*mls+0.768*mlt-0.803*mlc+2.102*vp_t-4.457*c_t-11.419*dc_c+4.874*t_s+4.934*cp_c-10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words-1.507*smog-0.151*sentences+1.983*syllables+0.047*Dale_Chall-6.355*IF(y0＝2,1,0)+10.132*IF(y0＝5,1,0)-2.494*IF(y0＝8,1,0)-4.753*IF(speed＝1,1,0)+14.116*IF(speed＝2,1,0)+5.056*IF(speed＝3,1,0)+2.479*IF(speed＝4,1,0)；

G7＝＝20.009-0.103*words+0.172*mls+0.75*mlt-0.617*mlc-1.009*vp_t-6.231*c_t-7.857*dc_c+0.411*t_s+2.131*cp_c-9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words-2.066*smog-0.121*sentences+0.13*syllables-0.379*Dale_Chall+5.83*IF(y0＝2,1,0)+0.753*IF(y0＝5,1,0)-1.787*IF(y0＝8,1,0)+17.253*IF(speed＝1,1,0)+13.987*IF(speed＝2,1,0)+3.263*IF(speed＝3,1,0)+2.166*IF(speed＝4,1,0)；

G8＝＝23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0＝2,1,0)-9.958*IF(y0＝5,1,0)-19.968*IF(y0＝8,1,0)-18.54*IF(speed＝1,1,0)+2.141*IF(speed＝2,1,0)+0.936*IF(speed＝3,1,0)+0.082*IF(speed＝4,1,0)；

G9＝0；

其中，IF(speed＝1,1,0)表示speed＝1时取1，否则取0；

4.一种将英文视频或文本难度对标至国内1-9年级的系统，其特征在于，包括：