CN113095071A - 将英文视频或文本难度对标至国内年级的系统和方法 - Google Patents

将英文视频或文本难度对标至国内年级的系统和方法 Download PDF

Info

Publication number
CN113095071A
CN113095071A CN202110471002.9A CN202110471002A CN113095071A CN 113095071 A CN113095071 A CN 113095071A CN 202110471002 A CN202110471002 A CN 202110471002A CN 113095071 A CN113095071 A CN 113095071A
Authority
CN
China
Prior art keywords
speed
words
grade
complex
lix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110471002.9A
Other languages
English (en)
Inventor
张丽萍
陈晓燕
倪巧
张姗姗
曹魏
王翼
陈巧燕
洪来君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Feizhu Technology Co ltd
Original Assignee
Hangzhou Feizhu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Feizhu Technology Co ltd filed Critical Hangzhou Feizhu Technology Co ltd
Priority to CN202110471002.9A priority Critical patent/CN113095071A/zh
Publication of CN113095071A publication Critical patent/CN113095071A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种将英文视频或文本难度对标至国内年级的系统和方法,通过多分类逻辑回归模型,将CEFR体系下的难度分级自动对标至国内年级,可为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。

Description

将英文视频或文本难度对标至国内年级的系统和方法
技术领域
本发明涉及英文视频难度分级,尤其涉及一种将英文视频难度对标至国内年级的系统和方法。
背景技术
现有技术中有国内外英文学习软件可将英文文本的难度对标到CEFR的各难度级别。CEFR全称为Common European Framework of Reference for Language,即欧洲共同语言参考标准,是欧洲委员会在2001年11月通过的一套建议标准,用于描述外语学习者语言能力程度的标准体系,成为全球通用的语言能力分级的重要参考依据,被全球各类教育机构、企业及政府部门广泛认可及使用,为各国开展语言设计、语言测试及教材编纂工作提供指导依据。但是,针对中国教育体制内,如从高中到大学,将视频难度定级到体制内年级,这种分级和对标的方法目前国内尚属空白。国内各年级学生选取适合的学习材料时,缺乏类似的难度分级、对标的方法和工具为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。
而且,文本定级工具只能测量文本的难度,在阅读文本的过程中,读者可快可慢,完全可以自己掌控节奏,而看视频的过程只能跟着视频的节奏去理解内容,所以用文本难度定级工具对于视频内容难度定级方式有些单薄,缺乏对于视频形式内容考量例如视频语速,语音语调等也会造成学习者的理解难度上升。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种可将英文视频或文本难度对标至国内年级的系统和方法。
为实现上述目的,本发明在第一方面提供了一种将英文视频或文本难度对标至国内年级的方法,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
Figure BDA0003044623600000011
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
进一步地,步骤(3)中,从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。进一步地,步骤(3)中,得到各年级的预测概率公式为:
Figure BDA0003044623600000021
其中,
G10=16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0。
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
本发明在第二方面提供了一种将英文视频或文本难度对标至国内年级的系统,包括:
自变量输入模块,用于输入表征英文视频或文本难度的自变量,包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
对标模型模块,用于根据输入的自变量,通过多分类逻辑回归模型对各年级的概率进行计算:
Figure BDA0003044623600000041
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
因变量输出模块,用于将预测概率中最大值对应的年级作为模型预测的年级y输出。
进一步地,对标模型模块是通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练而得到的。
进一步地,训练样本是按照如下方式得到的:从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
进一步地,对标模型模块中的各年级的预测概率公式为:
Figure BDA0003044623600000051
其中,
G10=16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0。
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
本发明的技术效果:
1)在衡量英语内容难度方面,打通国外CEFR和国内年级,由国外英语内容难度体系对标到中国体制内的大纲和年级;
2)对于视频难度判断量化到国内年级,不需人工干预,可直接由这套算法计算出任意落在高中和大学难度的视频具体的年级值;
3)该算法不仅适用于视频难度对标,任意文本形式都可使用因为该算法很多因变量和维度也正好切中文本难度定级;
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例中的部分训练样本数据表;
图2是本发明的一个较佳实施例中的自变量的共线性诊断结果表;
图3是本发明的一个较佳实施例中的多分类逻辑回归模型的部分输出结果表;
图4是本发明的一个较佳实施例中利用spss统计软件对实际难度等级与预测难度等级生成交叉表;
图5是本发明的一个较佳实施例中模型应用到测试样本得到预测的年级y与预测年级的交叉表。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在根据本发明的一个具体实施方式中,首先为了得到能够判断视频难度的计算公式,本发明选取了相关变量,具体如下表:
Figure BDA0003044623600000071
Figure BDA0003044623600000081
Figure BDA0003044623600000091
因变量y即年级为多分类变量,故选取多分类逻辑回归模型:
Figure BDA0003044623600000092
其中,Y表示总体的年级(y表示样本的年级),χ表示自变量向量,ω为系数向量,K表示因变量的取值个数,此处K=7。目标是先求系数向量ω,再计算各年级的概率值,最后根据概率值大小判断视频的年级。
从视频库里随机挑选一批CEFR难度为B1、B2或C1的视频,由人工判断出准确年级(年级范围为10-16),剔除无效样本后有效样本数为815个。采用分层法,将每个层(年级)的样本随机按7:3的比例划分为训练样本和测试样本。最终训练样本和测试样本分布如下表:
年级 总样本量 训练样本量 测试样本量
10 31 22 9
11 94 66 28
12 108 75 33
13 146 104 42
14 177 124 53
15 184 129 55
16 75 52 23
合计 815 572 243
部分训练样本数据图1所示。
用spss统计软件自变量之间的多重共线性进行检验,当共线性检验的统计量VIF>10时,说明自变量间存在共线性,此时剔除VIF较大的变量再做多重共线性检验,直到所有变量的VIF均小于10。上述过程剔除的变量为:c_t、dc_t、FKRE、cp_t、c_s、FKGL、Coleman,最终的共线性诊断结果如图2所示:所有变量的VIF均小于10,此时自变量间不存在共线性。
由此得到最终进入模型的变量如下表所示:
Figure BDA0003044623600000093
Figure BDA0003044623600000101
利用spss建立多分类逻辑回归模型,部分输出结果如图3所示。
利用spss统计软件对实际难度等级与预测难度等级生成交叉表,结果如图4所示。预测的难度等级与实际难度等级一致或相差一个等级认为是准确的,计算模型的准确度:
预测一致的样本量:6+37+45+47+70+85+27=317
向上一级预测的样本量:9+23+9+26+30+11=108
向下一级预测的样本量:2+13+17+18+28+25=103
模型准确度:(317+108+103)/572*100%=92.3%
根据图3中spss输出结果(“参数估计值”中的B列),整理难度等级计算公式。因公式较复杂,为便于处理,先计算中间变量,再根据中间变量计算各难度等级的概率值,概率值最大的等级即预测的年级。
(1)中间变量
G10=16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0。
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0。
(2)预测概率值
Figure BDA0003044623600000121
Figure BDA0003044623600000122
Figure BDA0003044623600000123
Figure BDA0003044623600000124
Figure BDA0003044623600000125
Figure BDA0003044623600000126
Figure BDA0003044623600000127
其中,e为自然常数,值取为2.718281828459。
P10表示将视频年级为10的概率。
P11表示将视频年级为11的概率。
P12–P16分别表示将视频年级预测为12-16的概率。
(3)预测结果
P10,P11,P12,P13,P14,P15,P16中的最大值对应的年级为模型预测的年级,例如:
MAX(P10,P11,P12,P13,P14,P15,P16)=P10则预测的年级为10。
为验证模型的有效性,将模型应用到测试样本得到预测的年级(PredictedValue),y与预测年级的交叉表如图5所示。
其中,预测一致的样本量:1+13+12+16+19+38+8=107;
向上一级预测的样本量:4+6+5+13+16+9=53;
向下一级预测的样本量:2+12+8+13+6+14=55;
模型准确度:(107+53+55)/243*100%=88.5%;
得到模型应用到测试样本的准确度为88.5%。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种将英文视频或文本难度对标至国内年级的方法,其特征在于,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
Figure FDA0003044623590000011
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
2.如权利要求1所述的将英文视频或文本难度对标至国内年级的方法,其中,步骤(3)中,从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
3.如权利要求2所述的将英文视频或文本难度对标至国内年级的方法,其中,步骤(3)中,得到各年级的预测概率公式为:
Figure FDA0003044623590000012
其中,
G10=
16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=
11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=
4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=
5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=
1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=
6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
4.一种将英文视频或文本难度对标至国内年级的系统,其特征在于,包括:
自变量输入模块,用于输入表征英文视频或文本难度的自变量,包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
对标模型模块,用于根据输入的自变量,通过多分类逻辑回归模型对各年级的概率进行计算:
Figure FDA0003044623590000031
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
因变量输出模块,用于将预测概率中最大值对应的年级作为模型预测的年级y输出。
5.如权利要求4所述的将英文视频或文本难度对标至国内年级的系统,其中,对标模型模块是通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练而得到的。
6.如权利要求5所述的将英文视频或文本难度对标至国内年级的系统,其中,训练样本库是按照如下方式得到的:从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
7.如权利要求6所述的将英文视频或文本难度对标至国内年级的系统,其中,对标模型模块中的各年级的预测概率公式为:
Figure FDA0003044623590000041
其中,
G10=
16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=
11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=
4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=
5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=
1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=
6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
CN202110471002.9A 2021-04-28 2021-04-28 将英文视频或文本难度对标至国内年级的系统和方法 Pending CN113095071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110471002.9A CN113095071A (zh) 2021-04-28 2021-04-28 将英文视频或文本难度对标至国内年级的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110471002.9A CN113095071A (zh) 2021-04-28 2021-04-28 将英文视频或文本难度对标至国内年级的系统和方法

Publications (1)

Publication Number Publication Date
CN113095071A true CN113095071A (zh) 2021-07-09

Family

ID=76681013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110471002.9A Pending CN113095071A (zh) 2021-04-28 2021-04-28 将英文视频或文本难度对标至国内年级的系统和方法

Country Status (1)

Country Link
CN (1) CN113095071A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761898A (zh) * 2021-08-30 2021-12-07 杭州菲助科技有限公司 将英文视频或文本难度对标至国内1-9年级的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254991A (zh) * 2018-10-23 2019-01-22 北京语言大学 一种语言学习方法及装置
CN109376355A (zh) * 2018-10-08 2019-02-22 上海起作业信息科技有限公司 英文单词和语句筛选方法、装置、存储介质及电子设备
CN111462553A (zh) * 2020-04-17 2020-07-28 杭州菲助科技有限公司 一种基于视频配音和纠音训练的语言学习方法及系统
CN112651356A (zh) * 2020-12-30 2021-04-13 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376355A (zh) * 2018-10-08 2019-02-22 上海起作业信息科技有限公司 英文单词和语句筛选方法、装置、存储介质及电子设备
CN109254991A (zh) * 2018-10-23 2019-01-22 北京语言大学 一种语言学习方法及装置
CN111462553A (zh) * 2020-04-17 2020-07-28 杭州菲助科技有限公司 一种基于视频配音和纠音训练的语言学习方法及系统
CN112651356A (zh) * 2020-12-30 2021-04-13 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761898A (zh) * 2021-08-30 2021-12-07 杭州菲助科技有限公司 将英文视频或文本难度对标至国内1-9年级的方法和系统

Similar Documents

Publication Publication Date Title
US10134297B2 (en) Systems and methods for determining text complexity
CN109933668B (zh) 简体汉语文本可读性的分级评估建模方法
CN106951406B (zh) 一种基于文本语言变量的汉语阅读能力的分级方法
CN112035846A (zh) 一种基于文本分析的未知漏洞风险评估方法
CN108280065B (zh) 一种外文文本评价方法及装置
CN110046789B (zh) 一种学生信息素养测评试卷的自动生成方法及系统
CN112667776B (zh) 一种智能教学评估与分析方法
KR102484007B1 (ko) 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
US11049409B1 (en) Systems and methods for treatment of aberrant responses
CN116542260A (zh) 一种基于自然语言大模型的翻译文本质量评估方法及系统
CN113095071A (zh) 将英文视频或文本难度对标至国内年级的系统和方法
US20130004931A1 (en) Computer-Implemented Systems and Methods for Determining Content Analysis Metrics for Constructed Responses
CN113836894B (zh) 多维度英语作文评分方法、装置及可读存储介质
CN112528011A (zh) 多数据源驱动的开放式数学作业批改方法、系统及设备
CN111369140A (zh) 一种教学评价系统及方法
CN108920428B (zh) 一种基于联合模糊扩张原理的模糊距离判别方法
CN103699675B (zh) 一种译员分级索引的方法
CN115436342A (zh) 降低多批次样本间libs检测不确定性的方法及装置
CN113761898A (zh) 将英文视频或文本难度对标至国内1-9年级的方法和系统
Rüdian et al. Automatic Feedback for Open Writing Tasks: Is this text appropriate for this lecture?
CN107845047A (zh) 一种动态评分系统、方法以及计算机可读存储介质
CN107436863A (zh) 英语语篇易读度的评测方法及装置
Colman et al. Refining the PIE method (Preselected Items Evaluation) in translator training
CN107885730A (zh) 多译员模式下翻译知识有效性判别方法
CN112163975A (zh) 智能学习指引和提示方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination