CN113095071A - 将英文视频或文本难度对标至国内年级的系统和方法 - Google Patents
将英文视频或文本难度对标至国内年级的系统和方法 Download PDFInfo
- Publication number
- CN113095071A CN113095071A CN202110471002.9A CN202110471002A CN113095071A CN 113095071 A CN113095071 A CN 113095071A CN 202110471002 A CN202110471002 A CN 202110471002A CN 113095071 A CN113095071 A CN 113095071A
- Authority
- CN
- China
- Prior art keywords
- speed
- words
- grade
- complex
- lix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000007477 logistic regression Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 23
- 150000001875 compounds Chemical class 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 11
- 102220010640 c.42C>T Human genes 0.000 claims description 5
- 102220012974 rs139794370 Human genes 0.000 claims description 5
- 102220012970 rs199742269 Human genes 0.000 claims description 5
- 102220041722 rs587780706 Human genes 0.000 claims description 5
- 102220053186 rs727504614 Human genes 0.000 claims description 5
- 102220097828 rs876660012 Human genes 0.000 claims description 5
- 102220095194 rs876660470 Human genes 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 239000000463 material Substances 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种将英文视频或文本难度对标至国内年级的系统和方法,通过多分类逻辑回归模型,将CEFR体系下的难度分级自动对标至国内年级,可为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。
Description
技术领域
本发明涉及英文视频难度分级,尤其涉及一种将英文视频难度对标至国内年级的系统和方法。
背景技术
现有技术中有国内外英文学习软件可将英文文本的难度对标到CEFR的各难度级别。CEFR全称为Common European Framework of Reference for Language,即欧洲共同语言参考标准,是欧洲委员会在2001年11月通过的一套建议标准,用于描述外语学习者语言能力程度的标准体系,成为全球通用的语言能力分级的重要参考依据,被全球各类教育机构、企业及政府部门广泛认可及使用,为各国开展语言设计、语言测试及教材编纂工作提供指导依据。但是,针对中国教育体制内,如从高中到大学,将视频难度定级到体制内年级,这种分级和对标的方法目前国内尚属空白。国内各年级学生选取适合的学习材料时,缺乏类似的难度分级、对标的方法和工具为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。
而且,文本定级工具只能测量文本的难度,在阅读文本的过程中,读者可快可慢,完全可以自己掌控节奏,而看视频的过程只能跟着视频的节奏去理解内容,所以用文本难度定级工具对于视频内容难度定级方式有些单薄,缺乏对于视频形式内容考量例如视频语速,语音语调等也会造成学习者的理解难度上升。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种可将英文视频或文本难度对标至国内年级的系统和方法。
为实现上述目的,本发明在第一方面提供了一种将英文视频或文本难度对标至国内年级的方法,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
进一步地,步骤(3)中,从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。进一步地,步骤(3)中,得到各年级的预测概率公式为:
其中,
G10=16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0。
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
本发明在第二方面提供了一种将英文视频或文本难度对标至国内年级的系统,包括:
自变量输入模块,用于输入表征英文视频或文本难度的自变量,包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
对标模型模块,用于根据输入的自变量,通过多分类逻辑回归模型对各年级的概率进行计算:
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
因变量输出模块,用于将预测概率中最大值对应的年级作为模型预测的年级y输出。
进一步地,对标模型模块是通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练而得到的。
进一步地,训练样本是按照如下方式得到的:从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
进一步地,对标模型模块中的各年级的预测概率公式为:
其中,
G10=16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0。
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
本发明的技术效果:
1)在衡量英语内容难度方面,打通国外CEFR和国内年级,由国外英语内容难度体系对标到中国体制内的大纲和年级;
2)对于视频难度判断量化到国内年级,不需人工干预,可直接由这套算法计算出任意落在高中和大学难度的视频具体的年级值;
3)该算法不仅适用于视频难度对标,任意文本形式都可使用因为该算法很多因变量和维度也正好切中文本难度定级;
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例中的部分训练样本数据表;
图2是本发明的一个较佳实施例中的自变量的共线性诊断结果表;
图3是本发明的一个较佳实施例中的多分类逻辑回归模型的部分输出结果表;
图4是本发明的一个较佳实施例中利用spss统计软件对实际难度等级与预测难度等级生成交叉表;
图5是本发明的一个较佳实施例中模型应用到测试样本得到预测的年级y与预测年级的交叉表。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在根据本发明的一个具体实施方式中,首先为了得到能够判断视频难度的计算公式,本发明选取了相关变量,具体如下表:
因变量y即年级为多分类变量,故选取多分类逻辑回归模型:
其中,Y表示总体的年级(y表示样本的年级),χ表示自变量向量,ω为系数向量,K表示因变量的取值个数,此处K=7。目标是先求系数向量ω,再计算各年级的概率值,最后根据概率值大小判断视频的年级。
从视频库里随机挑选一批CEFR难度为B1、B2或C1的视频,由人工判断出准确年级(年级范围为10-16),剔除无效样本后有效样本数为815个。采用分层法,将每个层(年级)的样本随机按7:3的比例划分为训练样本和测试样本。最终训练样本和测试样本分布如下表:
年级 | 总样本量 | 训练样本量 | 测试样本量 |
10 | 31 | 22 | 9 |
11 | 94 | 66 | 28 |
12 | 108 | 75 | 33 |
13 | 146 | 104 | 42 |
14 | 177 | 124 | 53 |
15 | 184 | 129 | 55 |
16 | 75 | 52 | 23 |
合计 | 815 | 572 | 243 |
部分训练样本数据图1所示。
用spss统计软件自变量之间的多重共线性进行检验,当共线性检验的统计量VIF>10时,说明自变量间存在共线性,此时剔除VIF较大的变量再做多重共线性检验,直到所有变量的VIF均小于10。上述过程剔除的变量为:c_t、dc_t、FKRE、cp_t、c_s、FKGL、Coleman,最终的共线性诊断结果如图2所示:所有变量的VIF均小于10,此时自变量间不存在共线性。
由此得到最终进入模型的变量如下表所示:
利用spss建立多分类逻辑回归模型,部分输出结果如图3所示。
利用spss统计软件对实际难度等级与预测难度等级生成交叉表,结果如图4所示。预测的难度等级与实际难度等级一致或相差一个等级认为是准确的,计算模型的准确度:
预测一致的样本量:6+37+45+47+70+85+27=317
向上一级预测的样本量:9+23+9+26+30+11=108
向下一级预测的样本量:2+13+17+18+28+25=103
模型准确度:(317+108+103)/572*100%=92.3%
根据图3中spss输出结果(“参数估计值”中的B列),整理难度等级计算公式。因公式较复杂,为便于处理,先计算中间变量,再根据中间变量计算各难度等级的概率值,概率值最大的等级即预测的年级。
(1)中间变量
G10=16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0。
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0。
(2)预测概率值
其中,e为自然常数,值取为2.718281828459。
P10表示将视频年级为10的概率。
P11表示将视频年级为11的概率。
P12–P16分别表示将视频年级预测为12-16的概率。
(3)预测结果
P10,P11,P12,P13,P14,P15,P16中的最大值对应的年级为模型预测的年级,例如:
MAX(P10,P11,P12,P13,P14,P15,P16)=P10则预测的年级为10。
为验证模型的有效性,将模型应用到测试样本得到预测的年级(PredictedValue),y与预测年级的交叉表如图5所示。
其中,预测一致的样本量:1+13+12+16+19+38+8=107;
向上一级预测的样本量:4+6+5+13+16+9=53;
向下一级预测的样本量:2+12+8+13+6+14=55;
模型准确度:(107+53+55)/243*100%=88.5%;
得到模型应用到测试样本的准确度为88.5%。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (7)
1.一种将英文视频或文本难度对标至国内年级的方法,其特征在于,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
2.如权利要求1所述的将英文视频或文本难度对标至国内年级的方法,其中,步骤(3)中,从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
3.如权利要求2所述的将英文视频或文本难度对标至国内年级的方法,其中,步骤(3)中,得到各年级的预测概率公式为:
其中,
G10=
16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=
11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=
4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=
5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=
1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=
6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
4.一种将英文视频或文本难度对标至国内年级的系统,其特征在于,包括:
自变量输入模块,用于输入表征英文视频或文本难度的自变量,包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
对标模型模块,用于根据输入的自变量,通过多分类逻辑回归模型对各年级的概率进行计算:
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
因变量输出模块,用于将预测概率中最大值对应的年级作为模型预测的年级y输出。
5.如权利要求4所述的将英文视频或文本难度对标至国内年级的系统,其中,对标模型模块是通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练而得到的。
6.如权利要求5所述的将英文视频或文本难度对标至国内年级的系统,其中,训练样本库是按照如下方式得到的:从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
7.如权利要求6所述的将英文视频或文本难度对标至国内年级的系统,其中,对标模型模块中的各年级的预测概率公式为:
其中,
G10=
16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=
11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=
4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=
5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=
1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=
6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110471002.9A CN113095071A (zh) | 2021-04-28 | 2021-04-28 | 将英文视频或文本难度对标至国内年级的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110471002.9A CN113095071A (zh) | 2021-04-28 | 2021-04-28 | 将英文视频或文本难度对标至国内年级的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095071A true CN113095071A (zh) | 2021-07-09 |
Family
ID=76681013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110471002.9A Pending CN113095071A (zh) | 2021-04-28 | 2021-04-28 | 将英文视频或文本难度对标至国内年级的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095071A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761898A (zh) * | 2021-08-30 | 2021-12-07 | 杭州菲助科技有限公司 | 将英文视频或文本难度对标至国内1-9年级的方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109254991A (zh) * | 2018-10-23 | 2019-01-22 | 北京语言大学 | 一种语言学习方法及装置 |
CN109376355A (zh) * | 2018-10-08 | 2019-02-22 | 上海起作业信息科技有限公司 | 英文单词和语句筛选方法、装置、存储介质及电子设备 |
CN111462553A (zh) * | 2020-04-17 | 2020-07-28 | 杭州菲助科技有限公司 | 一种基于视频配音和纠音训练的语言学习方法及系统 |
CN112651356A (zh) * | 2020-12-30 | 2021-04-13 | 杭州菲助科技有限公司 | 视频难度定级模型获取方法及视频难度定级方法 |
-
2021
- 2021-04-28 CN CN202110471002.9A patent/CN113095071A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376355A (zh) * | 2018-10-08 | 2019-02-22 | 上海起作业信息科技有限公司 | 英文单词和语句筛选方法、装置、存储介质及电子设备 |
CN109254991A (zh) * | 2018-10-23 | 2019-01-22 | 北京语言大学 | 一种语言学习方法及装置 |
CN111462553A (zh) * | 2020-04-17 | 2020-07-28 | 杭州菲助科技有限公司 | 一种基于视频配音和纠音训练的语言学习方法及系统 |
CN112651356A (zh) * | 2020-12-30 | 2021-04-13 | 杭州菲助科技有限公司 | 视频难度定级模型获取方法及视频难度定级方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761898A (zh) * | 2021-08-30 | 2021-12-07 | 杭州菲助科技有限公司 | 将英文视频或文本难度对标至国内1-9年级的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10134297B2 (en) | Systems and methods for determining text complexity | |
CN109933668B (zh) | 简体汉语文本可读性的分级评估建模方法 | |
CN106951406B (zh) | 一种基于文本语言变量的汉语阅读能力的分级方法 | |
CN112035846A (zh) | 一种基于文本分析的未知漏洞风险评估方法 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN110046789B (zh) | 一种学生信息素养测评试卷的自动生成方法及系统 | |
CN112667776B (zh) | 一种智能教学评估与分析方法 | |
KR102484007B1 (ko) | 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템 | |
US11049409B1 (en) | Systems and methods for treatment of aberrant responses | |
CN116542260A (zh) | 一种基于自然语言大模型的翻译文本质量评估方法及系统 | |
CN113095071A (zh) | 将英文视频或文本难度对标至国内年级的系统和方法 | |
US20130004931A1 (en) | Computer-Implemented Systems and Methods for Determining Content Analysis Metrics for Constructed Responses | |
CN113836894B (zh) | 多维度英语作文评分方法、装置及可读存储介质 | |
CN112528011A (zh) | 多数据源驱动的开放式数学作业批改方法、系统及设备 | |
CN111369140A (zh) | 一种教学评价系统及方法 | |
CN108920428B (zh) | 一种基于联合模糊扩张原理的模糊距离判别方法 | |
CN103699675B (zh) | 一种译员分级索引的方法 | |
CN115436342A (zh) | 降低多批次样本间libs检测不确定性的方法及装置 | |
CN113761898A (zh) | 将英文视频或文本难度对标至国内1-9年级的方法和系统 | |
Rüdian et al. | Automatic Feedback for Open Writing Tasks: Is this text appropriate for this lecture? | |
CN107845047A (zh) | 一种动态评分系统、方法以及计算机可读存储介质 | |
CN107436863A (zh) | 英语语篇易读度的评测方法及装置 | |
Colman et al. | Refining the PIE method (Preselected Items Evaluation) in translator training | |
CN107885730A (zh) | 多译员模式下翻译知识有效性判别方法 | |
CN112163975A (zh) | 智能学习指引和提示方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |