CN113761898A - 将英文视频或文本难度对标至国内1-9年级的方法和系统 - Google Patents

将英文视频或文本难度对标至国内1-9年级的方法和系统 Download PDF

Info

Publication number
CN113761898A
CN113761898A CN202111001113.XA CN202111001113A CN113761898A CN 113761898 A CN113761898 A CN 113761898A CN 202111001113 A CN202111001113 A CN 202111001113A CN 113761898 A CN113761898 A CN 113761898A
Authority
CN
China
Prior art keywords
speed
words
complex
lix
dale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111001113.XA
Other languages
English (en)
Inventor
曹魏
洪来君
倪巧
张珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Feizhu Technology Co ltd
Original Assignee
Hangzhou Feizhu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Feizhu Technology Co ltd filed Critical Hangzhou Feizhu Technology Co ltd
Priority to CN202111001113.XA priority Critical patent/CN113761898A/zh
Publication of CN113761898A publication Critical patent/CN113761898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种将英文视频或文本难度对标至国内1‑9年级的系统和方法,通过多分类逻辑回归模型,将CEFR体系下的难度分级自动对标至国内年级,可为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。

Description

将英文视频或文本难度对标至国内1-9年级的方法和系统
技术领域
本发明涉及英文视频难度分级,尤其涉及一种将英文视频难度对标至国内年级的系统和方法。
背景技术
现有技术中有国内外英文学习软件可将英文文本的难度对标到CEFR的各难度级别。CEFR全称为Common European Framework of Reference for Language,即欧洲共同语言参考标准,是欧洲委员会在2001年11月通过的一套建议标准,用于描述外语学习者语言能力程度的标准体系,成为全球通用的语言能力分级的重要参考依据,被全球各类教育机构、企业及政府部门广泛认可及使用,为各国开展语言设计、语言测试及教材编纂工作提供指导依据。但是,针对中国教育体制内,如从高中到大学,将视频难度定级到体制内年级,这种分级和对标的方法目前国内尚属空白。国内各年级学生选取适合的学习材料时,缺乏类似的难度分级、对标的方法和工具为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。
而且,文本定级工具只能测量文本的难度,在阅读文本的过程中,读者可快可慢,完全可以自己掌控节奏,而看视频的过程只能跟着视频的节奏去理解内容,所以用文本难度定级工具对于视频内容难度定级方式有些单薄,缺乏对于视频形式内容考量例如视频语速,语音语调等也会造成学习者的理解难度上升。
进一步地,对于CEFR体系下视频/文本难度为PreA1、A1、A2对标至国内1-9年级的英文视频,由于较低年级的英语口语类视频语法结构难量化以及口语语料和文本语料有区别,口语类更复杂等原因,目前市面上能精准将英语视频定位到年级的内容主要是按照教材的具体年级将视频分类;或者根据英语老师的经验,人为判断并归类适合的英语视频内容,而对于非教材类的内容无法判断所属年级,应用领域没有扩展到视频;目前也无成熟的算法给视频判定所属年级。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是将如何较低年级的英语口语类视频对标至国内年纪。
为实现上述目的,本发明首先提供了一种可将英文视频或文本难度对标至国内1-9年级的方法,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:语速、去重单词数、句子净长度;T-unit的长度;从句的净长度;T-unit的动词短语数量;每个T-unit的从句数量;每个从句的从句数量;每个句子的T-unit数量;每个从句的并列短语;每个T-unit的复合名词数量;每个从句的复合名词;Dale-Chall Final Score;Lix指数;SMOG指数;句子数;复杂单词数;平均每单词音节数和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
Figure BDA0003235391990000021
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
进一步地,步骤(3)中,将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
进一步地,步骤(3)中,得到各年级的预测概率公式为:
Figure BDA0003235391990000031
Figure BDA0003235391990000032
Figure BDA0003235391990000033
Figure BDA0003235391990000034
Figure BDA0003235391990000035
Figure BDA0003235391990000036
Figure BDA0003235391990000037
Figure BDA0003235391990000038
Figure BDA0003235391990000039
其中,
G1==
30.868-0.606*words+0.433*mls+0.961*mlt-1.025*mlc+2.456*vp_t-4.832*c_t-32.697*dc_c+3.948*t_s+8.067*cp_c-8.859*cn_t+10.375*cn_c+0.054*lix-0.433*complex_words-1.253*smog+0.223*sentences-4.586*syllables-0.116*Dale_Chall-8.688*IF(y0=2,1,0)-7.859*IF(y0=5,1,0)-37.75*IF(y0=8,1,0)+22.599*IF(speed=1,1,0)+19.187*IF(speed=2,1,0)+10.978*IF(speed=3,1,0)+6.09*IF(speed=4,1,0);
G2==
20.574-0.334*words+0.642*mls-0.079*mlt-0.427*mlc+2.439*vp_t-1.165*c_t-134.456*dc_c+3.861*t_s+6.729*cp_c-6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words-1.72*smog+0.072*sentences-1.978*syllables-0.249*Dale_Chall+3.871*IF(y0=2,1,0)+4.423*IF(y0=5,1,0)-20.39*IF(y0=8,1,0)+13.356*IF(speed=1,1,0)+9.44*IF(speed=2,1,0)+1.439*IF(speed=3,1,0)-3.449*IF(speed=4,1,0);
G3==
17.385-0.179*words+0.669*mls+0.585*mlt-0.885*mlc+4.432*vp_t-6.648*c_t-19.448*dc_c+4.125*t_s+6.587*cp_c-8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words-1.41*smog-0.081*sentences-1.827*syllables-0.134*Dale_Chall+6.186*IF(y0=2,1,0)+11.125*IF(y0=5,1,0)-19.607*IF(y0=8,1,0)+10.135*IF(speed=1,1,0)+6.488*IF(speed=2,1,0)-0.992*IF(speed=3,1,0)-4.787*IF(speed=4,1,0);
G4==
9.384-0.123*words+0.482*mls+0.336*mlt-0.616*mlc+4.752*vp_t-4.257*c_t-18.139*dc_c+3.224*t_s+4.379*cp_c-10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words-1.295*smog-0.168*sentences-2.325*syllables-0.114*Dale_Chall-7.526*IF(y0=2,1,0)+7.533*IF(y0=5,1,0)-3.475*IF(y0=8,1,0)+21.019*IF(speed=1,1,0)+16.461*IF(speed=2,1,0)+8.124*IF(speed=3,1,0)+5.528*IF(speed=4,1,0);
G5==
5.536-0.097*words+0.389*mls+0.461*mlt-0.642*mlc+4.015*vp_t-4.184*c_t-15.03*dc_c+4.929*t_s+6.921*cp_c-7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words-1.731*smog-0.178*sentences-1.315*syllables-0.211*Dale_Chall-4.322*IF(y0=2,1,0)+8.285*IF(y0=5,1,0)-2.026*IF(y0=8,1,0)+19.732*IF(speed=1,1,0)+16.188*IF(speed=2,1,0)+7.261*IF(speed=3,1,0)+4.512*IF(speed=4,1,0);
G6==
1.713-0.073*words+0.604*mls+0.768*mlt-0.803*mlc+2.102*vp_t-4.457*c_t-11.419*dc_c+4.874*t_s+4.934*cp_c-10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words-1.507*smog-0.151*sentences+1.983*syllables+0.047*Dale_Chall-6.355*IF(y0=2,1,0)+10.132*IF(y0=5,1,0)-2.494*IF(y0=8,1,0)-4.753*IF(speed=1,1,0)+14.116*IF(speed=2,1,0)+5.056*IF(speed=3,1,0)+2.479*IF(speed=4,1,0);
G7==
20.009-0.103*words+0.172*mls+0.75*mlt-0.617*mlc-1.009*vp_t-6.231*c_t-7.857*dc_c+0.411*t_s+2.131*cp_c-9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words-2.066*smog-0.121*sentences+0.13*syllables-0.379*Dale_Chall+5.83*IF(y0=2,1,0)+0.753*IF(y0=5,1,0)-1.787*IF(y0=8,1,0)+17.253*IF(speed=1,1,0)+13.987*IF(speed=2,1,0)+3.263*IF(speed=3,1,0)+2.166*IF(speed=4,1,0);
G8==
23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0=2,1,0)-9.958*IF(y0=5,1,0)-19.968*IF(y0=8,1,0)-18.54*IF(speed=1,1,0)+2.141*IF(speed=2,1,0)+0.936*IF(sp eed=3,1,0)+0.082*IF(speed=4,1,0);
G9=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,speed为语速;words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c
每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为Automated Readability指数;
Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;
complex_words为复杂单词数;syllables平均每单词音节数;y0为初始年级。
本发明在第二方面提供了一种将英文视频或文本难度对标至国内1-9年级的系统,包括:
自变量输入模块,用于输入表征英文视频或文本难度的自变量,包括:语速、去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数和初始年级;
对标模型模块,用于根据输入的自变量,通过多分类逻辑回归模型对各年级的概率进行计算:
Figure BDA0003235391990000051
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
因变量输出模块,用于将预测概率中最大值对应的年级作为模型预测的年级y输出。
进一步地,对标模型模块是通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练而得到的。
进一步地,训练样本库是按照如下方式得到的:将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
进一步地,对标模型模块中的各年级的预测概率公式为:
Figure BDA0003235391990000061
Figure BDA0003235391990000062
Figure BDA0003235391990000063
Figure BDA0003235391990000064
Figure BDA0003235391990000065
Figure BDA0003235391990000066
Figure BDA0003235391990000067
Figure BDA0003235391990000068
Figure BDA0003235391990000069
其中,
G1==
30.868-0.606*words+0.433*mls+0.961*mlt-1.025*mlc+2.456*vp_t-4.832*c_t-32.697*dc_c+3.948*t_s+8.067*cp_c-8.859*cn_t+10.375*cn_c+0.054*lix-0.433*complex_words-1.253*smog+0.223*sentences-4.586*syllables-0.116*Dale_Chall-8.688*IF(y0=2,1,0)-7.859*IF(y0=5,1,0)-37.75*IF(y0=8,1,0)+22.599*IF(speed=1,1,0)+19.187*IF(speed=2,1,0)+10.978*IF(speed=3,1,0)+6.09*IF(speed=4,1,0);
G2==
20.574-0.334*words+0.642*mls-0.079*mlt-0.427*mlc+2.439*vp_t-1.165*c_t-134.456*dc_c+3.861*t_s+6.729*cp_c-6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words-1.72*smog+0.072*sentences-1.978*syllables-0.249*Dale_Chall+3.871*IF(y0=2,1,0)+4.423*IF(y0=5,1,0)-20.39*IF(y0=8,1,0)+13.356*IF(speed=1,1,0)+9.44*IF(speed=2,1,0)+1.439*IF(speed=3,1,0)-3.449*IF(speed=4,1,0);
G3==
17.385-0.179*words+0.669*mls+0.585*mlt-0.885*mlc+4.432*vp_t-6.648*c_t-19.448*dc_c+4.125*t_s+6.587*cp_c-8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words-1.41*smog-0.081*sentences-1.827*syllables-0.134*Dale_Chall+6.186*IF(y0=2,1,0)+11.125*IF(y0=5,1,0)-19.607*IF(y0=8,1,0)+10.135*IF(speed=1,1,0)+6.488*IF(speed=2,1,0)-0.992*IF(speed=3,1,0)-4.787*IF(speed=4,1,0);
G4==
9.384-0.123*words+0.482*mls+0.336*mlt-0.616*mlc+4.752*vp_t-4.257*c_t-18.139*dc_c+3.224*t_s+4.379*cp_c-10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words-1.295*smog-0.168*sentences-2.325*syllables-0.114*Dale_Chall-7.526*IF(y0=2,1,0)+7.533*IF(y0=5,1,0)-3.475*IF(y0=8,1,0)+21.019*IF(speed=1,1,0)+16.461*IF(speed=2,1,0)+8.124*IF(speed=3,1,0)+5.528*IF(speed=4,1,0);
G5==
5.536-0.097*words+0.389*mls+0.461*mlt-0.642*mlc+4.015*vp_t-4.184*c_t-15.03*dc_c+4.929*t_s+6.921*cp_c-7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words-1.731*smog-0.178*sentences-1.315*syllables-0.211*Dale_Chall-4.322*IF(y0=2,1,0)+8.285*IF(y0=5,1,0)-2.026*IF(y0=8,1,0)+19.732*IF(speed=1,1,0)+16.188*IF(speed=2,1,0)+7.261*IF(speed=3,1,0)+4.512*IF(speed=4,1,0);
G6==
1.713-0.073*words+0.604*mls+0.768*mlt-0.803*mlc+2.102*vp_t-4.457*c_t-11.419*dc_c+4.874*t_s+4.934*cp_c-10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words-1.507*smog-0.151*sentences+1.983*syllables+0.047*Dale_Chall-6.355*IF(y0=2,1,0)+10.132*IF(y0=5,1,0)-2.494*IF(y0=8,1,0)-4.753*IF(speed=1,1,0)+14.116*IF(speed=2,1,0)+5.056*IF(speed=3,1,0)+2.479*IF(speed=4,1,0);
G7==
20.009-0.103*words+0.172*mls+0.75*mlt-0.617*mlc-1.009*vp_t-6.231*c_t-7.857*dc_c+0.411*t_s+2.131*cp_c-9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words-2.066*smog-0.121*sentences+0.13*syllables-0.379*Dale_Chall+5.83*IF(y0=2,1,0)+0.753*IF(y0=5,1,0)-1.787*IF(y0=8,1,0)+17.253*IF(speed=1,1,0)+13.987*IF(speed=2,1,0)+3.263*IF(speed=3,1,0)+2.166*IF(speed=4,1,0);
G8==
23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0=2,1,0)-9.958*IF(y0=5,1,0)-19.968*IF(y0=8,1,0)-18.54*IF(speed=1,1,0)+2.141*IF(speed=2,1,0)+0.936*IF(speed=3,1,0)+0.082*IF(speed=4,1,0);
G9=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,speed为语速;words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为Automated Readability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;y0为初始年级。
本发明的技术效果:
1)在衡量英语内容难度方面,打通国外CEFR和国内年级,由国外英语内容难度体系对标到中国体制内的大纲和年级;
2)对于视频难度判断量化到国内年级,不需人工干预,可直接由这套算法计算出任意落在高中和大学难度的视频具体的年级值;
3)该算法不仅适用于视频难度对标,任意文本形式都可使用因为该算法很多因变量和维度也正好切中文本难度定级;
4)为适应较低年级的视频难度对标,不同于较高年级的对标,本发明分类的依据主要是按照当前年级下需要熟悉的主题进行视频主题的匹配,对词汇和语法的难度没有特别关注。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例中的部分训练样本数据表;
图2是本发明的一个较佳实施例中的自变量的共线性诊断结果表;
图3是本发明的一个较佳实施例中的多分类逻辑回归模型的部分输出结果表;
图4是本发明的一个较佳实施例中利用spss统计软件对实际难度等级与预测难度等级生成交叉表;
图5是本发明的一个较佳实施例中模型应用到测试样本得到预测的年级y与预测年级的交叉表。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
本发明首先提供了一种方法,该方法在已知视频/文本难度为PreA1、A1、A2难度时,用算法量化对应视频/文本难度到国内的年级。
在根据本发明的一个具体实施方式中,为得到能够量化视频年级的算法公式,首先选取了一批反映视频年级水平的变量本发明选取了相关变量,具体如下表:
Figure BDA0003235391990000091
Figure BDA0003235391990000101
Figure BDA0003235391990000111
Figure BDA0003235391990000121
因变量y即年级为多分类变量,故选取多分类逻辑回归模型:
Figure BDA0003235391990000122
其中,Y表示总体的年级(y表示样本的年级),χ表示自变量向量,ω为系数向量,K表示因变量的取值个数,此处K=9。目标是先求系数向量ω,再计算各年级的概率值,最后根据概率值大小判断视频的年级。
从视频库里选取人教新起点教材(1-6年级)视频和人教初中教材(7-9年级)视频共2122个,采用按年级分层法,将各年级样本随机按7:3的比例划分为训练样本和测试样本,划分后样本分布如下:
Figure BDA0003235391990000123
部分训练样本数据图1所示。
用spss统计软件自变量之间的多重共线性进行检验,当共线性检验的统计量VIF>10时,说明自变量间存在共线性,此时剔除VIF较大的变量再做多重共线性检验,直到所有变量的VIF均小于10。上述过程剔除的变量为:FKRE、FKGL、Automated、cp_t、dc_t、c_s、ct_t、Coleman,最终的共线性诊断结果如图2所示:所有变量的VIF均小于10,此时自变量间不存在共线性。
由此得到最终进入模型的变量如下表所示:
Figure BDA0003235391990000131
利用spss建立多分类逻辑回归模型,部分输出结果如图3所示。
利用spss统计软件对实际难度等级与预测难度等级生成交叉表,结果如图4所示。
预测年级与实际年级一致或相差一个年级认为是准确的,计算模型的准确度:
预测一致的样本量:104+79+142+75+80+104+131+117+86=918
向上一级预测的样本量:32+38+1+35+12+10+2+22=152
向下一级预测的样本量:39+32+39+36+20+1+7+12=186
模型准确度:(918+152+186)/1490*100%=84.3%
根据图3中spss输出结果(“参数估计值”中的B列),整理难度等级计算公式。因公式较复杂,为便于处理,先计算中间变量,再根据中间变量计算各难度等级的概率值,概率值最大的等级即预测的年级。
(1)中间变量
G1==
30.868-0.606*words+0.433*mls+0.961*mlt-1.025*mlc+2.456*vp_t-4.832*c_t-32.697*dc_c+3.948*t_s+8.067*cp_c-8.859*cn_t+10.375*cn_c+0.054*lix-0.433*complex_words-1.253*smog+0.223*sentences-4.586*syllables-0.116*Dale_Chall-8.688*IF(y0=2,1,0)-7.859*IF(y0=5,1,0)-37.75*IF(y0=8,1,0)+22.599*IF(speed=1,1,0)+19.187*IF(speed=2,1,0)+10.978*IF(speed=3,1,0)+6.09*IF(speed=4,1,0);
G2==
20.574-0.334*words+0.642*mls-0.079*mlt-0.427*mlc+2.439*vp_t-1.165*c_t-134.456*dc_c+3.861*t_s+6.729*cp_c-6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words-1.72*smog+0.072*sentences-1.978*syllables-0.249*Dale_Chall+3.871*IF(y0=2,1,0)+4.423*IF(y0=5,1,0)-20.39*IF(y0=8,1,0)+13.356*IF(speed=1,1,0)+9.44*IF(speed=2,1,0)+1.439*IF(speed=3,1,0)-3.449*IF(speed=4,1,0);
G3==
17.385-0.179*words+0.669*mls+0.585*mlt-0.885*mlc+4.432*vp_t-6.648*c_t-19.448*dc_c+4.125*t_s+6.587*cp_c-8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words-1.41*smog-0.081*sentences-1.827*syllables-0.134*Dale_Chall+6.186*IF(y0=2,1,0)+11.125*IF(y0=5,1,0)-19.607*IF(y0=8,1,0)+10.135*IF(speed=1,1,0)+6.488*IF(speed=2,1,0)-0.992*IF(speed=3,1,0)-4.787*IF(speed=4,1,0);
G4==
9.384-0.123*words+0.482*mls+0.336*mlt-0.616*mlc+4.752*vp_t-4.257*c_t-18.139*dc_c+3.224*t_s+4.379*cp_c-10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words-1.295*smog-0.168*sentences-2.325*syllables-0.114*Dale_Chall-7.526*IF(y0=2,1,0)+7.533*IF(y0=5,1,0)-3.475*IF(y0=8,1,0)+21.019*IF(speed=1,1,0)+16.461*IF(speed=2,1,0)+8.124*IF(speed=3,1,0)+5.528*IF(speed=4,1,0);
G5==
5.536-0.097*words+0.389*mls+0.461*mlt-0.642*mlc+4.015*vp_t-4.184*c_t-15.03*dc_c+4.929*t_s+6.921*cp_c-7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words-1.731*smog-0.178*sentences-1.315*syllables-0.211*Dale_Chall-4.322*IF(y0=2,1,0)+8.285*IF(y0=5,1,0)-2.026*IF(y0=8,1,0)+19.732*IF(speed=1,1,0)+16.188*IF(speed=2,1,0)+7.261*IF(speed=3,1,0)+4.512*IF(speed=4,1,0);
G6==
1.713-0.073*words+0.604*mls+0.768*mlt-0.803*mlc+2.102*vp_t-4.457*c_t-11.419*dc_c+4.874*t_s+4.934*cp_c-10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words-1.507*smog-0.151*sentences+1.983*syllables+0.047*Dale_Chall-6.355*IF(y0=2,1,0)+10.132*IF(y0=5,1,0)-2.494*IF(y0=8,1,0)-4.753*IF(speed=1,1,0)+14.116*IF(speed=2,1,0)+5.056*IF(speed=3,1,0)+2.479*IF(speed=4,1,0);
G7==
20.009-0.103*words+0.172*mls+0.75*mlt-0.617*mlc-1.009*vp_t-6.231*c_t-7.857*dc_c+0.411*t_s+2.131*cp_c-9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words-2.066*smog-0.121*sentences+0.13*syllables-0.379*Dale_Chall+5.83*IF(y0=2,1,0)+0.753*IF(y0=5,1,0)-1.787*IF(y0=8,1,0)+17.253*IF(speed=1,1,0)+13.987*IF(speed=2,1,0)+3.263*IF(speed=3,1,0)+2.166*IF(speed=4,1,0);
G8==
23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0=2,1,0)-9.958*IF(y0=5,1,0)-19.968*IF(y0=8,1,0)-18.54*IF(speed=1,1,0)+2.141*IF(speed=2,1,0)+0.936*IF(speed=3,1,0)+0.082*IF(speed=4,1,0);
G9=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0。
(2)预测概率值
Figure BDA0003235391990000161
Figure BDA0003235391990000162
Figure BDA0003235391990000163
Figure BDA0003235391990000164
Figure BDA0003235391990000165
Figure BDA0003235391990000166
Figure BDA0003235391990000167
Figure BDA0003235391990000168
Figure BDA0003235391990000169
其中,e为自然常数,值取为2.718281828459。
Pn表示将视频年级预测为n的概率,n的取值范围是1-9。
(3)预测结果
P1,P2,P3,P4,P5,P6,P7,P8,P9中最大值对应的年级为模型预测的年级,例如:
MAX(P1,P2,P3,P4,P5,P6,P7,P8,P9)=P1则预测的年级为1
为验证模型的有效性,将模型应用到测试样本得到预测的年级(PredictedValue),y与预测年级的交叉表如图5所示。
预测一致的样本量:32+37+59+21+34+49+48+44+32=356
向上一级预测的样本量:23+13+4+17+3+7+2+11=80
向下一级预测的样本量:15+12+23+14+6+2+1+7=80
模型准确度:(356+80+80)/632*100%=81.6%
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种将英文视频或文本难度对标至国内1-9年级的方法,其特征在于,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:语速、去重单词数、句子净长度;T-unit的长度;从句的净长度;T-unit的动词短语数量;每个T-unit的从句数量;每个从句的从句数量;每个句子的T-unit数量;每个从句的并列短语;每个T-unit的复合名词数量;每个从句的复合名词;Dale-ChallFinal Score;Lix指数;SMOG指数;句子数;复杂单词数;平均每单词音节数和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
Figure FDA0003235391980000011
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
2.如权利要求1所述的将英文视频或文本难度对标至国内1-9年级的方法,其中,步骤(3)中,将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
3.如权利要求2所述的将英文视频或文本难度对标至国内1-9年级的方法,其中,步骤(3)中,得到各年级的预测概率公式为:
Figure FDA0003235391980000021
Figure FDA0003235391980000022
Figure FDA0003235391980000023
Figure FDA0003235391980000024
Figure FDA0003235391980000025
Figure FDA0003235391980000026
Figure FDA0003235391980000027
Figure FDA0003235391980000028
Figure FDA0003235391980000029
其中,
G1==30.868-0.606*words+0.433*mls+0.961*mlt-1.025*mlc+2.456*vp_t-4.832*c_t-32.697*dc_c+3.948*t_s+8.067*cp_c-8.859*cn_t+10.375*cn_c+0.054*lix-0.433*complex_words-1.253*smog+0.223*sentences-4.586*syllables-0.116*Dale_Chall-8.688*IF(y0=2,1,0)-7.859*IF(y0=5,1,0)-37.75*IF(y0=8,1,0)+22.599*IF(speed=1,1,0)+19.187*IF(speed=2,1,0)+10.978*IF(speed=3,1,0)+6.09*IF(speed=4,1,0);
G2==20.574-0.334*words+0.642*mls-0.079*mlt-0.427*mlc+2.439*vp_t-1.165*c_t-134.456*dc_c+3.861*t_s+6.729*cp_c-6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words-1.72*smog+0.072*sentences-1.978*syllables-0.249*Dale_Chall+3.871*IF(y0=2,1,0)+4.423*IF(y0=5,1,0)-20.39*IF(y0=8,1,0)+13.356*IF(speed=1,1,0)+9.44*IF(speed=2,1,0)+1.439*IF(speed=3,1,0)-3.449*IF(speed=4,1,0);
G3==17.385-0.179*words+0.669*mls+0.585*mlt-0.885*mlc+4.432*vp_t-6.648*c_t-19.448*dc_c+4.125*t_s+6.587*cp_c-8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words-1.41*smog-0.081*sentences-1.827*syllables-0.134*Dale_Chall+6.186*IF(y0=2,1,0)+11.125*IF(y0=5,1,0)-19.607*IF(y0=8,1,0)+10.135*IF(speed=1,1,0)+6.488*IF(speed=2,1,0)-0.992*IF(speed=3,1,0)-4.787*IF(speed=4,1,0);
G4==9.384-0.123*words+0.482*mls+0.336*mlt-0.616*mlc+4.752*vp_t-4.257*c_t-18.139*dc_c+3.224*t_s+4.379*cp_c-10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words-1.295*smog-0.168*sentences-2.325*syllables-0.114*Dale_Chall-7.526*IF(y0=2,1,0)+7.533*IF(y0=5,1,0)-3.475*IF(y0=8,1,0)+21.019*IF(speed=1,1,0)+16.461*IF(speed=2,1,0)+8.124*IF(speed=3,1,0)+5.528*IF(speed=4,1,0);
G5==5.536-0.097*words+0.389*mls+0.461*mlt-0.642*mlc+4.015*vp_t-4.184*c_t-15.03*dc_c+4.929*t_s+6.921*cp_c-7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words-1.731*smog-0.178*sentences-1.315*syllables-0.211*Dale_Chall-4.322*IF(y0=2,1,0)+8.285*IF(y0=5,1,0)-2.026*IF(y0=8,1,0)+19.732*IF(speed=1,1,0)+16.188*IF(speed=2,1,0)+7.261*IF(speed=3,1,0)+4.512*IF(speed=4,1,0);
G6==1.713-0.073*words+0.604*mls+0.768*mlt-0.803*mlc+2.102*vp_t-4.457*c_t-11.419*dc_c+4.874*t_s+4.934*cp_c-10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words-1.507*smog-0.151*sentences+1.983*syllables+0.047*Dale_Chall-6.355*IF(y0=2,1,0)+10.132*IF(y0=5,1,0)-2.494*IF(y0=8,1,0)-4.753*IF(speed=1,1,0)+14.116*IF(speed=2,1,0)+5.056*IF(speed=3,1,0)+2.479*IF(speed=4,1,0);
G7==20.009-0.103*words+0.172*mls+0.75*mlt-0.617*mlc-1.009*vp_t-6.231*c_t-7.857*dc_c+0.411*t_s+2.131*cp_c-9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words-2.066*smog-0.121*sentences+0.13*syllables-0.379*Dale_Chall+5.83*IF(y0=2,1,0)+0.753*IF(y0=5,1,0)-1.787*IF(y0=8,1,0)+17.253*IF(speed=1,1,0)+13.987*IF(speed=2,1,0)+3.263*IF(speed=3,1,0)+2.166*IF(speed=4,1,0);
G8==23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0=2,1,0)-9.958*IF(y0=5,1,0)-19.968*IF(y0=8,1,0)-18.54*IF(speed=1,1,0)+2.141*IF(speed=2,1,0)+0.936*IF(speed=3,1,0)+0.082*IF(speed=4,1,0);
G9=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,speed为语速;words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为Automated Readability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;y0为初始年级。
4.一种将英文视频或文本难度对标至国内1-9年级的系统,其特征在于,包括:
自变量输入模块,用于输入表征英文视频或文本难度的自变量,包括:语速、去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数和初始年级;
对标模型模块,用于根据输入的自变量,通过多分类逻辑回归模型对各年级的概率进行计算:
Figure FDA0003235391980000041
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
因变量输出模块,用于将预测概率中最大值对应的年级作为模型预测的年级y输出。
5.如权利要求4所述的将英文视频或文本难度对标至国内1-9年级的系统,其中,对标模型模块是通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练而得到的。
6.如权利要求5所述的将英文视频或文本难度对标至国内1-9年级的系统,其中,训练样本库是按照如下方式得到的:将人工标定后的视频采用分层法将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
7.如权利要求6所述的将英文视频或文本难度对标至国内1-9年级的系统,其中,对标模型模块中的各年级的预测概率公式为:
Figure FDA0003235391980000051
Figure FDA0003235391980000052
Figure FDA0003235391980000053
Figure FDA0003235391980000054
Figure FDA0003235391980000055
Figure FDA0003235391980000056
Figure FDA0003235391980000057
Figure FDA0003235391980000058
Figure FDA0003235391980000059
其中,
G1==30.868-0.606*words+0.433*mls+0.961*mlt-1.025*mlc+2.456*vp_t-4.832*c_t-32.697*dc_c+3.948*t_s+8.067*cp_c-8.859*cn_t+10.375*cn_c+0.054*lix-0.433*complex_words-1.253*smog+0.223*sentences-4.586*syllables-0.116*Dale_Chall-8.688*IF(y0=2,1,0)-7.859*IF(y0=5,1,0)-37.75*IF(y0=8,1,0)+22.599*IF(speed=1,1,0)+19.187*IF(speed=2,1,0)+10.978*IF(speed=3,1,0)+6.09*IF(speed=4,1,0);
G2==20.574-0.334*words+0.642*mls-0.079*mlt-0.427*mlc+2.439*vp_t-1.165*c_t-134.456*dc_c+3.861*t_s+6.729*cp_c-6.537*cn_t+9.737*cn_c+0.05*lix+0.223*complex_words-1.72*smog+0.072*sentences-1.978*syllables-0.249*Dale_Chall+3.871*IF(y0=2,1,0)+4.423*IF(y0=5,1,0)-20.39*IF(y0=8,1,0)+13.356*IF(speed=1,1,0)+9.44*IF(speed=2,1,0)+1.439*IF(speed=3,1,0)-3.449*IF(speed=4,1,0);
G3==17.385-0.179*words+0.669*mls+0.585*mlt-0.885*mlc+4.432*vp_t-6.648*c_t-19.448*dc_c+4.125*t_s+6.587*cp_c-8.252*cn_t+8.442*cn_c+0.059*lix+0.05*complex_words-1.41*smog-0.081*sentences-1.827*syllables-0.134*Dale_Chall+6.186*IF(y0=2,1,0)+11.125*IF(y0=5,1,0)-19.607*IF(y0=8,1,0)+10.135*IF(speed=1,1,0)+6.488*IF(speed=2,1,0)-0.992*IF(speed=3,1,0)-4.787*IF(speed=4,1,0);
G4==9.384-0.123*words+0.482*mls+0.336*mlt-0.616*mlc+4.752*vp_t-4.257*c_t-18.139*dc_c+3.224*t_s+4.379*cp_c-10.16*cn_t+10.568*cn_c+0.033*lix+0.079*complex_words-1.295*smog-0.168*sentences-2.325*syllables-0.114*Dale_Chall-7.526*IF(y0=2,1,0)+7.533*IF(y0=5,1,0)-3.475*IF(y0=8,1,0)+21.019*IF(speed=1,1,0)+16.461*IF(speed=2,1,0)+8.124*IF(speed=3,1,0)+5.528*IF(speed=4,1,0);
G5==5.536-0.097*words+0.389*mls+0.461*mlt-0.642*mlc+4.015*vp_t-4.184*c_t-15.03*dc_c+4.929*t_s+6.921*cp_c-7.353*cn_t+10.035*cn_c+0.031*lix+0.288*complex_words-1.731*smog-0.178*sentences-1.315*syllables-0.211*Dale_Chall-4.322*IF(y0=2,1,0)+8.285*IF(y0=5,1,0)-2.026*IF(y0=8,1,0)+19.732*IF(speed=1,1,0)+16.188*IF(speed=2,1,0)+7.261*IF(speed=3,1,0)+4.512*IF(speed=4,1,0);
G6==1.713-0.073*words+0.604*mls+0.768*mlt-0.803*mlc+2.102*vp_t-4.457*c_t-11.419*dc_c+4.874*t_s+4.934*cp_c-10.983*cn_t+12.753*cn_c+0.005*lix+0.117*complex_words-1.507*smog-0.151*sentences+1.983*syllables+0.047*Dale_Chall-6.355*IF(y0=2,1,0)+10.132*IF(y0=5,1,0)-2.494*IF(y0=8,1,0)-4.753*IF(speed=1,1,0)+14.116*IF(speed=2,1,0)+5.056*IF(speed=3,1,0)+2.479*IF(speed=4,1,0);
G7==20.009-0.103*words+0.172*mls+0.75*mlt-0.617*mlc-1.009*vp_t-6.231*c_t-7.857*dc_c+0.411*t_s+2.131*cp_c-9.61*cn_t+9.945*cn_c+0.029*lix+0.259*complex_words-2.066*smog-0.121*sentences+0.13*syllables-0.379*Dale_Chall+5.83*IF(y0=2,1,0)+0.753*IF(y0=5,1,0)-1.787*IF(y0=8,1,0)+17.253*IF(speed=1,1,0)+13.987*IF(speed=2,1,0)+3.263*IF(speed=3,1,0)+2.166*IF(speed=4,1,0);
G8==23.876-0.023*words+0.677*mls-1.156*mlt+0.748*mlc+2.135*vp_t+1.692*c_t-9.51*dc_c-3.392*t_s+1.945*cp_c+3.216*cn_t-4.418*cn_c+0.039*lix+0.33*complex_words-1.783*smog-0.184*sentences+1.966*syllables-0.035*Dale_Chall-13.891*IF(y0=2,1,0)-9.958*IF(y0=5,1,0)-19.968*IF(y0=8,1,0)-18.54*IF(speed=1,1,0)+2.141*IF(speed=2,1,0)+0.936*IF(speed=3,1,0)+0.082*IF(speed=4,1,0);
G9=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,speed为语速;words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为Automated Readability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;y0为初始年级。
CN202111001113.XA 2021-08-30 2021-08-30 将英文视频或文本难度对标至国内1-9年级的方法和系统 Pending CN113761898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111001113.XA CN113761898A (zh) 2021-08-30 2021-08-30 将英文视频或文本难度对标至国内1-9年级的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111001113.XA CN113761898A (zh) 2021-08-30 2021-08-30 将英文视频或文本难度对标至国内1-9年级的方法和系统

Publications (1)

Publication Number Publication Date
CN113761898A true CN113761898A (zh) 2021-12-07

Family

ID=78791782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111001113.XA Pending CN113761898A (zh) 2021-08-30 2021-08-30 将英文视频或文本难度对标至国内1-9年级的方法和系统

Country Status (1)

Country Link
CN (1) CN113761898A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436863A (zh) * 2017-08-03 2017-12-05 任骥恺 英语语篇易读度的评测方法及装置
CN107506346A (zh) * 2017-07-10 2017-12-22 北京享阅教育科技有限公司 一种基于机器学习的中文阅读难度分级方法及系统
CN107977362A (zh) * 2017-12-11 2018-05-01 中山大学 一种用于中文文本定级以及计算中文文本难度评分的方法
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN110889570A (zh) * 2018-09-10 2020-03-17 周刚 一种英语文本难度指数的计算方法
CN112651356A (zh) * 2020-12-30 2021-04-13 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法
CN113095071A (zh) * 2021-04-28 2021-07-09 杭州菲助科技有限公司 将英文视频或文本难度对标至国内年级的系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506346A (zh) * 2017-07-10 2017-12-22 北京享阅教育科技有限公司 一种基于机器学习的中文阅读难度分级方法及系统
CN107436863A (zh) * 2017-08-03 2017-12-05 任骥恺 英语语篇易读度的评测方法及装置
CN107977362A (zh) * 2017-12-11 2018-05-01 中山大学 一种用于中文文本定级以及计算中文文本难度评分的方法
CN110889570A (zh) * 2018-09-10 2020-03-17 周刚 一种英语文本难度指数的计算方法
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN112651356A (zh) * 2020-12-30 2021-04-13 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法
CN113095071A (zh) * 2021-04-28 2021-07-09 杭州菲助科技有限公司 将英文视频或文本难度对标至国内年级的系统和方法

Similar Documents

Publication Publication Date Title
CN107977362B (zh) 一种用于中文文本定级以及计算中文文本难度评分的方法
CN103594087B (zh) 提高口语评测性能的方法及系统
CN108280065B (zh) 一种外文文本评价方法及装置
CN110705312B (zh) 一种基于语义分析快速开发工业机理模型的开发系统
KR102484007B1 (ko) 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
CN112667776B (zh) 一种智能教学评估与分析方法
Sabtan et al. Teaching Arabic machine translation to EFL student translators: A case study of Omani translation undergraduates
Vidhiasi et al. The implementation of Grammarly in error analysis implementasi Grammarly dalam error analysis
Masrai Lexical knowledge and L2 general language proficiency: collocational competence and vocabulary size as determinants of lexical knowledge
CN113095071A (zh) 将英文视频或文本难度对标至国内年级的系统和方法
CN113761898A (zh) 将英文视频或文本难度对标至国内1-9年级的方法和系统
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
Duan et al. Automatically build corpora for chinese spelling check based on the input method
CN115438624A (zh) 数学题目出题意图识别方法、系统、存储介质及设备
Hoang et al. A comparative analysis of multiword units in the reading and listening input of English textbooks
Rüdian et al. Automatic Feedback for Open Writing Tasks: Is this text appropriate for this lecture?
CN110674871B (zh) 面向翻译译文的自动评分方法及自动评分系统
Chipere et al. Using a corpus of school children’s writing to investigate the development of vocabulary diversity
Luong et al. Building a corpus for vietnamese text readability assessment in the literature domain
Proença et al. Automatic Evaluation of Children Reading Aloud on Sentences and Pseudowords.
Cetin et al. Assisting tool for essay grading for Turkish language instructors
KR20070106491A (ko) 영어교과서의 난이도측정 방법
Knill et al. Annotation of L2 English Speech for Developing and Evaluating End-to-End Spoken Grammatical Error Correction
Navoda et al. Automated spelling and grammar checker tool for sinhala
CN108389450A (zh) 一种微课教学系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211207