CN112906376B - 一种自适应匹配的用户英语学习文本推送系统和方法 - Google Patents
一种自适应匹配的用户英语学习文本推送系统和方法 Download PDFInfo
- Publication number
- CN112906376B CN112906376B CN202110315017.6A CN202110315017A CN112906376B CN 112906376 B CN112906376 B CN 112906376B CN 202110315017 A CN202110315017 A CN 202110315017A CN 112906376 B CN112906376 B CN 112906376B
- Authority
- CN
- China
- Prior art keywords
- text
- user
- difficulty
- word
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 56
- 230000001186 cumulative effect Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种自适应匹配的用户英语学习文本推送系统和方法,包括客户端和服务端;客户端包括:登录模块,用户在客户端输入用户名和密码进行登录验证;用户阅读等级设定模块,用于设定用户的初始等级,用户首次使用本系统时,需要对用户阅读水平进行评估。所述服务端包括:用户阅读等级确定模块,用于确定用户阅读等级,进一步包括文本预处理模块、文本词汇难度计算模块、语料库词频信息统计模块、基于词汇的目标文本难度计算模块、基于语料库的文本难度分级模块、目标文本自动识别分级模块;自适应阅读推荐模块,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
Description
技术领域
本发明属于在线教育、英文信息处理领域,涉及文本分级与文本筛选、英语文本难度分析、学生词汇能力评估等相关技术领域,特别涉及一种自适应匹配的用户英语学习文本推送系统和方法。
技术背景
目前,互联网上80%信息都是以英文为载体的。这为英语学习提供了丰富的语料,但也给人工筛选英文文本造成了巨大的负担。随着互联网上英文语料的飞速增加,人们对英文文本自动化筛选以及学生阅读能力的评级等需求不断增加。为了满足这些需求,需要实现一个对海量英文文本的自动分级和推荐系统,为用户自适应推算匹配的英文文本和学习内容。
学习者在掌握英语基本语法之后,决定英文文本阅读难度的主要因素是文本中的词汇难度。因此,本发明基于英文文本的词汇难度,提出一种基于词汇难度的自适应匹配的用户英语学习文本推送系统和方法。该技术的实现,首先,能够促使教学资料的编撰更加自动化、科学化:提高教材编撰效率,促进资料收集处理流程的科学化;第二,有利于优化英语学习过程:学习者可以根据自身英语能力筛选适合自身难度的阅读语料,实现以学习者为中心的个性化学习;最后,该技术能更好地利用互联网丰富的学习资源:该系统可以和网络爬虫技术结合,实现网络英文文本自动爬取,并将原本繁杂、无序的网络文本转化为有组织的、适合学习者学习的资源,为编撰教材和扩充题库带来便利。
自适应匹配的英语学习文本推送系统与方法的核心是对英文文本难度的刻画。现有基于词汇的文本难度识别方法大致可以分为三类:基于文本词语平均字母数量、基于文本词语平均音节数量、基于文本词汇的平均信息量。
基于文本词语的平均字母数量和基于文本词语的平均音节数量是从词语记忆的难度来刻画文本难度的,这两种刻画方法是基于词语的形式表达和记忆,而非词语的使用和语义表达。这类方法操作简单,能够在一定程度上反映文本词汇的复杂程度。但其完全基于词语的形式表达,与理解的关联性不大。
基于文本词汇的平均信息量的方法在给定语料库中统计各种词汇的出现频率,然后借助信息量这一概念来刻画单个词语的难度。由于统计信息在一定程度上反映了词语使用的语义信息,相对于平均字母数和平均音节数更能反映词汇的语义特性。但由于词频分布具有Ziph法则等,基础词汇在文本中出现的比例是类似的,这会导致该方法获得的文本难度差异不大。特别的,由于短文本的词汇出现带有很大的偶然性,该方法会导致判断短文本难度出现误差较大的情况。实际上,词汇在目标文本中展现的特征也会影响文本阅读的难度,而上述方法都未考量确定词语出现次数对文本难度的影响。因此,现有的基于词汇的文本难度识别方法及学习系统都不能十分准确地刻画文本难度,进而也难以根据用户特征以及文本的特征自适应的推送合适学习者的阅读文本。
发明内容
为了解决上述技术问题,提供一种自适应匹配的用户英语学习文本推送系统和方法,该系统以一定规模的英文文本语料库为基础,自动实现对语料库的词频统计分析、词汇难度计算、文本难度评估与文本难度分级等工作;并通过文本预处理、文本词汇难度计算、语料库词频信息统计、基于词汇的目标文本难度计算、基于语料库的文本难度分级为用户推荐合适的阅读文本。
本发明以文本中词语的语料库频率为基础,借助信息量概念考量单个词语的难度;然后,通过百分位截断来获得单个词语在指定文本中的难度;最后,对于给定文本,本发明获取文本中一定比例规模的“最难”词语,以这些词语的累积文本难度来衡量指定文本的难度。在具体文本难度分级上,本发明以基于词汇的文本难度计算为基础,先计算语料库中所有文本基于词汇的文本难度,再根据分级数量K,按照等篇或难度值等差的原则划分难度分级区间,进而确定系统整体的难度分级指标,实现对任意英文文本的难度分级,为用户匹配和推送合适的阅读文本。
该系统能够快速、有效、准确的判别英文阅读文本的词汇难度,为进一步的主题筛选、篇幅筛选提供具有精准词汇难度分级的语料,降低人工处理的劳动强度和时间开销,实现对用户英语学习文本的准确推送。该发明在英语教学、在线教育、英文信息处理等方面具有重要的应用价值。
本发明的技术方案如下:一种自适应匹配的用户英语学习文本推送系统,包括客户端和服务端;客户端包括:
登录模块,用户在客户端输入用户名和密码,由客户端经安全加密处理后发送给服务端;如果服务器验证通过,客户端提示登录成功;否则,提示用户核对用户名与密码,再次尝试;
用户阅读等级设定模块,用于设定用户的初始等级;用户首次使用本系统时,需要对用户阅读水平进行评估;
用户阅读模块,接收服务器发送的文本并为用户提供展示,用于用户阅读推荐文本。
所述服务端包括:
登录验证模块,服务端对收到客户端发送的登录数据做解密等相应安全处理,获得用户名和密码,并在用户名-密码库中比对:如果收到的用户名与密码与服务端存储的某一用户名-密码匹配,则根据用户学习数据提供相应服务;否则,提示用户核对用户名与密码,让用户再次尝试;
用户阅读等级确定模块,用于确定用户阅读等级;所述用户阅读等级确定模块进一步包括:文本预处理模块、文本词汇难度计算模块、语料库词频信息统计模块、基于词汇的目标文本难度计算模块、基于语料库的文本难度分级模块;
自适应阅读推荐模块,确定阅读等级后,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
进一步的,所述用户阅读等级确定模块,提供两种方式确定用户当前的阅读等级,具体为:
方式一:用户在初次登录后,选择自行上传n篇符合自身当前阅读能力的英文文档;服务端根据目标文本难度分级方法分别计算这n篇文本的难度数值SD或ASD,比较文本难度数值的平均值与分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级;
方式二:如果用户无法向服务端提供样例文本,服务端从语料库中选择文本为用户提供试读标注,确定用户当前英文文本阅读等级。
进一步的,所述方式二具体包括如下步骤:
步骤B.1、选择K个连续级别,L(i),...,L(i+K);在每个级别,从语料库随机选择a篇文本,K和a为自然数,K常取1到5之间的自然数,a常取2或3,i为等级范围内的任意自然数;将这些文本发送给客户端,供用户标注,转步骤B.2;
步骤B.2、用户试读后根据自身体验对每篇文本标注,从“容易”、“适中”、“困难”三种选择中的一种标注;转步骤B.3;
步骤B.3、如果用户标注的都是“容易”,则从i+K+1级别开始,向后选择共K个连续级别,在每个级别从语料库随机选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.4;
步骤B.4、如果用户标注的都是“困难”,则从i-1级别开始,向前选择K个连续级别,在每个级别从语料库随机选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.5;
步骤B.5、如果用户标注的只有“容易”和“困难”,则重新在这K个级别中,各重新选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.6;
步骤B.6、如果用户标注的有“适中”,则计算所有标注为“适中”文本的难度数值SD或ASD,比较这些难度数值平均值与预先确定的分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级。
进一步的,服务端中的用户阅读等级确定模块还会包括:文本预处理模块:用于对文本进行文本预处理,统计一篇英文文本中所有出现单词对应的原形及其在文本中出现的数量;
文本词汇难度计算模块,用于基于词汇自身特征以及考虑词汇在文本中的特征,根据α概率分位数来计算某一单词在文本中的难度;
语料库词频信息统计模块,用于对语料库Corpus的词频信息统计,提供文本词汇难度计算和文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti);
基于词汇的目标文本难度计算模块,用于基于语料库提供的词频信息Prop(w),根据目标文本的词汇特征计算该目标文本难度SD或ASD;
基于语料库的文本难度分级模块,用于首先对语料库中各篇文本的进行难度计算,按照等难度间隔或等文本数量间隔原则,划分语料库难度级别并计算分级难度阈值,得到分级标准L(j);
目标文本自动分级模块,用于基于目标文本难度SD或ASD,比较SD或ASD与分级标准L(j)的大小关系确定目标文本具体分级,对文本实现基于词汇难度的自动分级。
进一步的,所述文本预处理模块具体如下:其用于消除缩写、所有格、大小写、词汇变形因素对词汇数量统计的影响,对于英文文本text输入,返回该文本中各个词汇出现的次数textFreq(w)和该文本总词量textCount,其中w为在该英文文本中出现词汇的单词原形;以PROCESS(text)表示对text的文本预处理,其具体实现如下:
步骤1.1将文本text按照空格和非单引号“’”的标点符号分割字符串,并将所有分割结果按分割次序存储在字符串链表strList中;
步骤1.2按照字符串比对,统计strList中各互异字符串的数量,并用临时存储mapFreq(str)记录每一个字符串元素str及其在strList出现的次数;
步骤1.3将mapFreq中所有带有单引号“’”的字符串做分拆处理,并累记其分拆后字符串所对应的次数;
步骤1.4再次令str为mapFreq中的第一个字符串,用strCount临时记录str对应的次数,即strCount=mapFreq(str);
步骤1.5如果str只有首字母大写,则将str的首字母变为小写;转步骤1.6;
步骤1.6通过查询函数WordInflection(str)判断str是否为某一个单词的变形:如果str是某一个单词的变形,则将str变为其所对应的单词原形,即str=WordInflection(str),转步骤1.7;否则,转步骤1.8;
步骤1.7将str及其对应的次数strCount存入到textFreq中,如果textFreq有str,直接令textFreq(str)=textFreq(str)+strCount;否则,直接在textFreq添加str及其次数strCount;
步骤1.8如果如果str不是mapFreq中最后一个元素,则将str后移一个元素,strCount=mapFreq(str),转步骤1.5;否则,转步骤1.9;
步骤1.9此时textFreq中存储text中各单词原形及其对应的次数textFreq(w),并累加所有单词原形的次数并存入textCount,结束。
进一步的,文本词汇难度计算模块:根据语料库统计获得的词频信息以及目标词语w与目标文本text的相关特征,计算w在text中的难度值textDif(w,text);该模块被用于目标文本整体的难度计算;
假设给定词汇w在一篇包含N个词语的文本text中出现k次的概率近似由参数为N*Prop(w)的泊松分布刻画,即:
其中,λ=N*Prop(w),N为文本text的总词汇数,Prop(w)为词语w在语料库中整体的出现概率。那么,词汇w在包含N个词语的文本text中出现n次的α概率分位数为:在text中w出现的条件下,w出现次数小于等于n次的概率累加,即:
而单词w在文本text中的难度由其在语料库中的信息量I(w)=-lg(Prop(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成,即textDif(w,text)=α(w,n)I(w),其计算需要知道单词w在语料库中的出现概率Prop(w)、文本text包含总词数N、单词w在text出现的次数n。
进一步的,所述文本词汇难度计算模块以LOCALWDIFF(w,text)表示在文本text中词汇w的难度计算,其具体实现步骤方法如下:
步骤2.1根据输入单词w在语料库中的出现概率Prop(w)、文本text包含总词数N,计算λ=N*Prop(w),转步骤2.2;
步骤2.2根据下述公式计算单词w在文本text中出现n次的α概率分位数α(w,n,N),
转步骤2.3;
步骤2.3计算单词w在文本text中的难度textDif(w,text)=α(w,n)I(w),其中I(w)=-lg(Prop(w)),结束本模块。
进一步的,语料库词频信息统计模块:语料库Corpus包括M篇文本texti,1<=i<=M,对语料库Corpus的词频信息统计将提供文本词汇难度计算和目标文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti),具体的,语料库词频信息统计模块的实现步骤如下:
步骤3.1令i=1,totalCount=0,转步骤3.2;
步骤3.2调用文本预处理模块PROCESS(texti),计算Freq(w,texti)=textFreq(w)、Count(texti)=textCount,转步骤3.3;
步骤3.3如果i<M,i=i+1,转步骤3.2;否则,转步骤3.4;
步骤3.4对Corpus中出现的所有单词w,按公式(4)和公式(5)分别统计该单词在语料库中出现的总次数tempFreq(w)和语料库总词量totalCount,转步骤3.5;
步骤3.5计算语料库中每个词语w的概率信息Prop(w)=tempFreq(w)/totalCount,结束本模块。
进一步的,基于词汇的文本难度计算模块,基于语料库提供的词频信息Prop(w),根据文本text的词汇特征计算该文本难度,以TEXTDIFF(text)表示基于词汇的文本难度计算,其具体实现步骤如下:
步骤4.1获取步骤1中文本预处理PROCESS(text)对text进行预处理得到的text的总词量N=textCount、text中各互异词语原形wi及其在text中出现次数n(wi)=textFreq(wi),1<=i<=C,C为textFreq(w)中互异词语原形的数量;
步骤4.2令i=1,转步骤4.3;
步骤4.3基于Prop(wi)、n(wi)和N,调用LOCALWDIFF(wi,text),计算text中词汇wi难度textDif(wi,text),转步骤4.4;
步骤4.4如果i<C,令i=i+1,转步骤4.3;否则,转步骤,4.5;
步骤4.5将文本text中各词汇wi按词汇文本难度textDif(wi,text)从大到小的顺序排序,不妨设其对应的词汇排序结果为d1、d2、...,则d1为文本text中最难的词语、d2为文本Text中次难的词语,依次类推;转步骤4.6;
步骤4.6令难词累积数量DN=0、文本累积难度SD=0、累积指标i=1;转步骤4.7;
步骤4.7令DN=DN+n(di),SD=SD+textDif(di,text);转步骤4.8;
步骤4.8如果DN/N≥β,转步骤4.9;否则,i=i+1,转步骤4.7;
在步骤4.8中,β是难词累积百分比,取1%到50%之间的任意数值;
步骤4.9令SD为文本text基于词汇的文本累积词汇难度,d1到di为文本text前β百分位的难词;或计算文本text基于词汇的文本平均难度ASD=SD/i。
进一步的,基于语料库的文本难度分级模块,对语料库中各篇文本的难度计算,并根据语料库中各篇文本的难度划分难度级别并计算各级别的难度阈值;基于语料库的文本难度分级具体实现步骤如下:
步骤5.1对语料库Corpus中的每一篇文本texti,1<=i<=M,调用基于词汇的文本难度计算模块TEXTDIFF(texti)计算第i篇文本基于词汇的累积难度SDi,或基于词汇的文本平均难度ASDi,转步骤5.2;
步骤5.2将各篇文本的累积难度SDi或基于词汇的文本平均难度ASDi按从小到大的顺序排序,不妨设其排序结果为SDi1,SDi2,...,SDiM或ASDi1,ASDi2,...,ASDiM,转步骤5.3;
步骤5.3选定文本难度的分级数量K,K取大于2的任意正整数,转步骤5.4;
步骤5.4按等难度值原则计算每一分级难度阈值L(j)=SDi1+j*(SDiM-SDi1),j=1,...,K;L(0)强行设为0;此时,L(j-1)和L(j)就构成了第j级文本难度的分级;
步骤5.5在语料库中,确定每一个级别所应包含的文本数量KN,KN取任意正整数,或KN取大于等于M/K的最小整数;每一等级的分级阈值L(j)=SDi(k*j),j=1,...,K;L(0)强行设为0;此时,L(j-1)和L(j)就构成了第j级文本难度的分级;
进一步的,目标文本自动分级模块,对目标文本基于词汇的目标文本难度计算,并根据语料库中文本的难度级别及阈值确定目标文本的自动分级;目标文本难度级别的自动识别步骤的实现步骤如下:
步骤6.1调用基于词汇的目标文本难度计算步骤TEXTDIFF计算目标文本text的文本难度数值SD或ASD,令j=1,转步骤6.2;
步骤6.2如果j>K,则输出目标文本的难度为K+1级;否则,转步骤6.3;
步骤6.3如果SD或ASD小于等于L(j),则输出目标文本的难度为K级;否则,j=j+1,转步骤6.2。
本发明还提供一种自适应匹配的用户英语学习内容推送方法,包括如下步骤:
步骤A:用户登录客户端,用户在客户端输入用户名和密码,由客户端经安全加密处理后发送给服务端;服务端对收到数据做解密等相应安全处理,获得用户名和密码,并在库中比对:如果收到的用户名与密码与服务端存储的某一用户名-密码匹配,则根据用户学习数据提供相应服务;否则,提示用户核对用户名与密码,让用户再次尝试;
步骤B:用户设定阅读等级,用户首次使用本系统时,需要对用户阅读水平进行评估;提供两种方式确定用户当前的阅读等级,具体为:
方式一:用户在初次登录后,选择自行上传n篇符合自身当前阅读能力的英文文档;服务端根据目标文本难度分级方法分别计算这n篇文本的难度数值SD或ASD,比较文本难度数值的平均值与分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级;
方式二:如果用户无法向服务端提供样例文本,服务端从语料库中选择文本为用户提供试读标注,确定用户当前英文文本阅读等级;
步骤C:自适应阅读推荐,确定阅读等级后,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
进一步的,所述步骤B中,服务端所使用的目标文本难度分级方法具体包括如下步骤:
步骤1、对语料库或者目标文本进行文本预处理,统计一篇英文文本中所有出现单词对应的原形及其在文本中出现的数量;
步骤2、语料库词频信息统计,对语料库Corpus的词频信息统计,提供文本词汇难度计算和文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti);
步骤3、对目标文本进行文本词汇难度计算,基于词汇自身特征以及考虑词汇在文本中的特征,其中,根据α概率分位数来计算某一单词在文本中的难度;
步骤4、对目标文本进行基于词汇的文本难度计算,基于语料库提供的词频信息Prop(w),根据目标文本的词汇特征计算该目标文本难度SD或ASD;
步骤5、基于语料库的文本难度分级:首先对语料库中各篇文本的进行难度计算,按照等难度间隔或等文本数量间隔原则,划分语料库难度级别并计算分级难度阈值,得到分级标准L(j);
步骤6、基于步骤4得到目标文本难度SD或ASD,比较SD或ASD与分级标准L(j)的大小关系确定目标文本具体分级,对文本实现基于词汇难度的自动分级。
具体地,本发明具有如下有益效果:
首先,考量了词语在目标文本中出现次数对阅读难度的影响,该方法可以避免因单纯考虑语料库差异而忽略词汇在目标文本中出现次数差异而导致的阅读难度区分度差的问题,更为精细的刻画了词语在具体文本中出现次数对文本难度的影响;
第二,在文本难度的计算上,没有使用现有常见的“平均”方法,而是采用文本中一定百分比的难词难度来刻画文本难度,该方法消除了基础词汇对平均量的影响,使得难度区分度更大,误差更小。
第三,整体上,该方法具有良好的区分效果,难度分级更为准确。与类似方法相比,本方法具有简单、高效、准确等特点,适用于计算各种英文文本的词汇难度分级,能够极大程度的降低人工劳力的投入。
附图说明
图1为本发明的实现流程图;
图2为本发明的文本预处理流程图;
图3为本发明的文本词汇难度计算流程图;
图4为本发明的语料库词频信息统计流程图;
图5为本发明的基于词汇的目标文本难度计算流程图;
图6为本发明的基于语料库的文本难度分级流程图;
图7为本发明的目标文本自动识别分级流程图;
图8为本发明的用户英语学习文本推送系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明具体是通过以下技术方案实现的:参见图1,根据本发明的一个实施例,提出一种自适应匹配的用户英语学习文本推送系统与方法;所述推送系统包括客户端和服务端。如图8所示,客户端包括:
登录模块,用户在客户端输入用户名和密码,由客户端经安全加密处理后发送给服务端;如果服务器验证通过,客户端提示登录成功;否则,提示用户核对用户名与密码,再次尝试;
用户阅读等级设定模块,用于设定用户等级;用户首次使用本系统时,需要对用户阅读水平进行评估;
用户阅读模块,接收服务器发送的文本并为用户提供展示,用于用户阅读推荐文本。
所述服务端包括:
登录验证模块,服务端对收到客户端发送的登录数据做解密等相应安全处理,获得用户名和密码,并在用户名-密码库中比对:如果收到的用户名与密码与服务端存储的某一用户名-密码匹配,则根据用户学习数据提供相应服务;否则,提示用户核对用户名与密码,让用户再次尝试;
用户阅读等级确定模块,用于确定用户阅读等级;所述用户阅读等级确定模块进一步包括:文本预处理模块、文本词汇难度计算模块、语料库词频信息统计模块、基于词汇的目标文本难度计算模块、基于语料库的文本难度分级模块、目标文本自动识别分级模块;
自适应阅读推荐模块,确定阅读等级后,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
本系统还包括两套额外的查询模块ShortForm(str)和WordInflection(str)。ShortForm(str)用于检测某个字符串是否是若干单词的缩写。例如,字符串“I’m”是“I am”的缩写,“can’t”是“can not”的缩写;利用查询模块ShortForm查询“I’m”,ShortForm(I’m)将返回字符串“I am”;利用查询模块ShortForm查询“can’t”,ShortForm(can’t)将返回字符串“can not”。查询模块WordInflection(str)被用于查询动词、名词、形容词、副词等各种词性的词汇变形与其原形的对应。这些对应关系包括:动词的单三形式、现在分词、过去分词、过去式与动词原形的对应,名词复数与名词单数的对应,形容词、副词比较级最高级与其原形的对应。如果str是某个词汇的变形,则WordInflection(str)会返回该词汇的原形。
根据本发明的一个实施例,所述客户端可以是Web网页,也可以是手机APP。客户端的主要作用在于:为用户登录提供界面,并在用户登录后提供自适应的英文学习内容推送等服务。
根据本发明的一个实施例,所述服务端被用于验证用户登录、存储英文文本及相关数据信息、根据用户学习情况推送相关英语学习文本。服务器存储的数据信息主要包括:1)语料库文本及其难度信息;2)各用户的身份信息及密码;3)用户当所处阅读级别及其已阅读文本的记录。
根据本发明的一个实施例,用户使用该系统进行自适应匹配的用户英语学习文本推送的方法,主要包括以下步骤:
步骤A:用户登录。用户在客户端输入用户名和密码,由客户端经安全加密处理(如可以使用AES算法和自身秘钥对自身秘钥进行加密,使用SHA算法和自身秘钥对用户名签名)后发送给服务端。服务端对收到数据做解密等相应安全处理,获得用户名和密码,并在库中比对:如果收到的用户名与密码与服务端存储的某一用户名-密码匹配,则根据用户学习数据提供相应服务;否则,提示用户核对用户名与密码,再次尝试。
步骤B:用户阅读等级设定。用户首次使用本装置时,需要对用户阅读水平进行评估;本装置提供两种方式确定用户当前的阅读等级。
方式一:用户在初次登录后,可选择自行上传n篇符合自身当前阅读能力的英文文档(n可取任意自然数,常取3到10之间的自然数);服务端分别计算这n篇文本的难度数值SD或ASD,比较这K篇文本难度数值的平均值与分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级。
方式二:如果用户无法向服务端提供样例文本,服务端可从语料库中选择文本为用户提供试读标注。这一方式的具体步骤如下:
步骤B.1、选择K个连续级别,如L(i),...,L(i+K);在每个级别,从语料库随机选择a篇文本(K和a为自然数,K常取1到5之间的自然数,a常取2或3,i为等级范围内的任意自然数);将这些文本发送给客户端,供用户标注,转步骤B.2;
步骤B.2、用户试读后根据自身体验对每篇文本标注,从“容易”、“适中”、“困难”三种选择中的一种标注;转步骤B.3;
步骤B.3、如果用户标注的都是“容易”,则从i+K+1级别开始,向后选择共K个连续级别,在每个级别从语料库随机选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.4;
步骤B.4、如果用户标注的都是“困难”,则从i-1级别开始,向前选择共K个连续级别,在每个级别从语料库随机选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.5;
步骤B.5、如果用户标注的只有“容易”和“困难”,则重新在这K个级别中,各重新选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.6;
步骤B.6、如果用户标注的有“适中”,则计算所有标注为“适中”文本的难度数值SD或ASD,比较这些难度数值平均值与预先确定的分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级。
步骤C:自适应阅读推荐。确定阅读等级后,本发明装置将根据用户的当前等级及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
具体的,本装置在服务端会记录用户的当前阅读等级,阅读历史记录及用户标注。服务端会在用户使用该装置时,根据用户当前等级,随机从当前等级语料库中选择一篇用户尚未阅读文本推送给用户阅读。在用户阅读完成后,提交反馈“容易”、“适中”、“困难”其中一种(如不选择,则默认为“适中”)。在用户的使用阶段,如果用户最近连续N1次提交“容易”,则服务端会将用户当前阅读难度等级上调一级;如果用户最近连续N2次提交“困难”,则服务端会将用户当前阅读难度等级下调一级;其他情况,如果用户已经在当前难度等级阅读了N3篇文本,则服务端发送提示,询问用户是否上调等级:如果用户选择上调,则当前等级上调一级;否则,当前等级保持不变(N1、N2、N3取自然数,N1、N2常取3到10之间的自然数,N3常取10到50之间的自然数)。
基于上述步骤的自适应匹配的用户英语学习文本推送系统与方法能够根据用户自身的学习情况科学合理的实现阅读内容的自动推送和提示。有效提升文本筛选和推荐的效率。下面对系统各个模块进行详细描述。
文本预处理模块:本发明的预处理的目的是统计一篇英文文本中所有出现单词对应的原形及其在文本中出现的数量。其需要消除缩写、所有格、大小写、词汇变形等因素对词汇数量统计的影响。这一模块以一篇确定的英文文本text为输入,返回该文本中各个词汇出现的次数textFreq(w)和该文本总词量textCount,其中w为在该文本中出现词汇的单词原形。本发明以PROCESS(text)表示对text的文本预处理,其具体实现步骤方法如下:
步骤1.1将文本text按照空格和非单引号“’”的标点符号分割字符串,并将所有分割结果按分割次序存储在字符串链表strList中;转步骤1.2;
由于text是按照空格和非单引号“’”的标点符号分割的,故strList中的元素要么是英文或数字字符串,要么是带有“’”的英文或数字字符串;
步骤1.2按照字符串比对,统计strList中各互异字符串的数量,并用临时存储mapFreq(str)记录每一个字符串元素str及其在strList出现的次数;转步骤1.3;
步骤1.3将mapFreq中所有带有单引号“’”的字符串做分拆处理,并累记其分拆后字符串所对应的次数,步骤1.3具执行如下操作:
步骤1.3.1令str为mapFreq中存储的第一个字符串,转步骤1.3.2;
步骤1.3.2如果str是带有单引号“’”的字符串,转步骤1.3.3;否则,转步骤1.3.5;
步骤1.3.3通过查询模块ShortForm(str)判定str是否为若干单词的缩写:如果str是某些单词的缩写(如“I’m”),则将其囊括的每个单词(如“I”和“am”)以及其在str中出现次数依次累加到mapFreq的对应位置,并将str从mapFreq中删除,转步骤1.3.5;否则,转步骤1.3.4;
在步骤1.3.3中,“每个缩写单词(如“I”和“am”)以及其在str中出现次数依次累加到mapFreq的对应位置”指的是:如果某一单词(如“I”)已经在mapFreq中出现,则mapFreq(I)记录”I”的次数,并对mapFreq(I)增加该单词在str中出现的次数;否则,将该单词及其在str中出现次数加入到mapFreq的尾部;
步骤1.3.4此时str不是缩写形式,如果str是所有格形式,即其具有形式X’s或Xs’,则将“’”及其后的“s”删除,将X或Xs与其在str中出现的次数累加到mapFreq的对应位置,并将str从mapFreq中删除,转步骤1.3.5;
步骤1.3.5如果str不是mapFreq中最后一个元素,则将str后移一个元素,转步骤1.3.2;否则,结束步骤1.3;
步骤1.3的作用在于将mapFreq中所有带单引号“’”的字符串分拆和统计,其结果是mapFreq中不再具有含有单引号“’”的字符串;步骤1.3结束后,转步骤1.4;
步骤1.4再次令str为mapFreq中的第一个字符串,用strCount临时记录str对应的次数,即strCount=mapFreq(str),转步骤1.5;
步骤1.5如果str只有首字母大写,则将str的首字母变为小写,转步骤1.6;否则,转步骤1.6;
步骤1.6通过查询模块WordInflection(str)判断str是否为某一个单词的变形:如果str是某一个单词的变形,则将str变为其所对应的单词原形,即str=WordInflection(str),转步骤1.7;否则,转步骤1.8;
步骤1.7将str及其对应的次数strCount存入到textFreq中,如果textFreq有str,直接令textFreq(str)=textFreq(str)+strCount;否则,直接在textFreq添加str及其次数strCount;转步骤1.8;
步骤1.8如果如果str不是mapFreq中最后一个元素,则将str后移一个元素,strCount=mapFreq(str),转步骤1.5;否则,转步骤1.9;
步骤1.9此时textFreq中存储text中各单词原形及其对应的次数textFreq(w),并累加所有单词原形的次数并存入textCount,结束本模块。
文本预处理模块将被用于语料库整体词频信息的统计和目标文本词频信息的统计,其以文本text为输入,以与该文本对应的词频统计textFreq(w)和textCount为输出。
文本词汇难度计算模块:现有词汇难度的计算多以字母数量、音节数量、语料库词频信息直接计算。这些方法并未能够考虑词汇在文本中的使用特征。本发明认为,文本中词汇难度的度量不应仅与词汇自身特征关联,还应该充分考虑词汇在文本中的特征。例如,语料库词频类似的两个词A和B在一篇包含1万词的文本中分别出现10次和1次,很显然只出现1次的B并不会对文本的理解产生重大影响,而出现10次的A则不然。为此,本发明引入α概率分位数来刻画某一单词在文本中的难度。
本发明假设给定词汇w在一篇包含N个词语的文本text中出现k次的概率可近似由参数为N*Prop(w)的泊松分布刻画,即:
其中,λ=N*Prop(w),N为文本text的总词汇数,Prop(w)为词语w在语料库中整体的出现概率。那么,词汇w在包含N个词语的文本text中出现n次的α概率分位数为:在text中w出现的条件下,w出现次数小于等于n次的概率累加,即:
而单词w在文本text中的难度由其在语料库中的信息量I(w)=-lg(Prop(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成,即textDif(w,text)=α(w,n)I(w),其计算需要知道单词w在语料库中的出现概率Prop(w)、文本text包含总词数N、单词w在text出现的次数n。
本发明以LOCALWDIFF(w,text)表示在文本text中词汇w的难度计算,其具体实现步骤方法如下
步骤2.1根据输入单词w在语料库中的出现概率Prop(w)、文本text包含总词数N,计算λ=N*Prop(w),转步骤2.2;
步骤2.2根据下述公式计算单词w在文本text中出现n次的α概率分位数α(w,n,N),
转步骤2.3;
步骤2.3计算单词w在文本text中的难度textDif(w,text)=α(w,n)I(w),其中I(w)=-lg(Prop(w)),结束本模块。
文本词汇难度计算模块根据语料库统计获得的词频信息以及目标词语w与目标文本text的相关特征,计算w在text中的难度值textDif(w,text)。该模块被用于目标文本整体的难度计算。
语料库词频信息统计模块:语料库Corpus是基于词汇文本分级的基础,其包括M篇文本texti,1<=i<=M。对语料库Corpus的词频信息统计将提供文本词汇难度计算和目标文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti)。具体的,语料库词频信息统计模块的实现步骤如下:
步骤3.1令i=1,totalCount=0,转步骤3.2;
步骤3.2调用文本预处理模块PROCESS(texti),计算Freq(w,texti)=textFreq(w)、Count(texti)=textCount,转步骤3.3;
步骤3.3如果i<M,i=i+1,转步骤3.2;否则,转步骤3.4;
步骤3.4对Corpus中出现的所有单词w,按公式(4)和公式(5)分别统计该单词在语料库中出现的总次数tempFreq(w)和语料库总词量totalCount,转步骤3.5;
步骤3.5计算语料库中每个词语w的概率信息Prop(w)=tempFreq(w)/totalCount,结束本模块。
基于词汇的目标文本难度计算模块:基于语料库提供的词频信息Prop(w),就可根据目标文本text的词汇特征计算该文本难度。本发明以TEXTDIFF(text)表示基于词汇的目标文本难度计算,其具体实现步骤如下:
步骤4.1调用文本预处理模块PROCESS(text)对text进行预处理,得到text的总词量N=textCount、text中各互异词语原形wi(1<=i<=C,C为textFreq(w)中互异词语原形的数量),及其在text中出现次数n(wi)=textFreq(wi);
步骤4.2令i=1,转步骤4.3;
步骤4.3基于Prop(wi)、n(wi)和N,调用LOCALWDIFF(wi,text),计算text中词汇wi难度textDif(wi,text),转步骤4.4;
步骤4.4如果i<C,令i=i+1,转步骤4.3;否则,转步骤4.5;
步骤4.5将文本text中各词汇wi按词汇文本难度textDif(wi,text)从大到小的顺序排序,不妨设其对应的词汇排序结果为d1、d2、...,则d1为文本text中最难的词语、d2为文本Text中次难的词语,依次类推;转步骤4.6;
步骤4.6令难词累积数量DN=0、文本累积难度SD=0、累积指标i=1;转步骤4.7;
步骤4.7令DN=DN+n(di),SD=SD+textDif(di,text);转步骤4.8;
步骤4.8如果DN/N≥β,转步骤4.9;否则,i=i+1,转步骤4.7;
在步骤4.8中,β是难词累积百分比,可以取1%到50%之间的任意数值,实际使用常取5%、10%、15%、20%等数值;
步骤4.9令SD为文本text基于词汇的文本累积词汇难度,d1到di为文本text前β百分位的难词;也可计算文本text基于词汇的文本平均难度ASD=SD/i;结束本模块。
基于语料库的文本难度分级步骤:本模块主要完成对语料库中各篇文本的难度计算,并根据语料库中各篇文本的难度划分难度级别并计算各级别的难度阈值,即得到分级标准L(j)。参见图6,基于语料库的文本难度分级步骤的实现步骤如下:
步骤5.1对语料库Corpus中的每一篇文本texti,1<=i<=M,调用基于词汇的文本难度计算模块TEXTDIFF(texti)计算第i篇文本基于词汇的累积难度SDi或基于词汇的文本平均难度ASDi,转步骤5.2;
步骤5.2将各篇文本的累积难度SDi或基于词汇的文本平均难度ASDi按从小到大的顺序排序,不妨设其排序结果为SDi1,SDi2,...,SDiM或ASDi1,ASDi2,...,ASDiM,转步骤5.3;
步骤5.3选定文本难度的分级数量K,K可取大于2的任意正整数,实际使用K常取3到20间的整数。转步骤5.4;
步骤5.4按等难度值原则计算每一分级难度阈值L(j)=SDi1+j*(SDiM-SDi1),j=1,...,K;L(0)强行设为0;此时,L(j-1)和L(j)就构成了第j级文本难度的分级;
这里,步骤5.4也可以采用按照篇幅数量为标准的分级方式,如步骤5.5:
步骤5.5在语料库中,确定每一个级别所应包含的文本数量KN,KN可取任意正整数,通常KN取大于等于M/K的最小整数;每一等级的分级阈值L(j)=SDi(k*j),j=1,...,K;L(0)强行设为0;此时,L(j-1)和L(j)就构成了第j级文本难度的分级。
目标文本自动识别分级模块:本模块主要完成对目标文本基于词汇的目标文本难度计算,并根据语料库中文本的难度级别及阈值确定目标文本的自动分级。参见图7,目标文本难度级别的自动识别步骤的实现步骤如下:
步骤6.1调用基于词汇的目标文本难度计算步骤TEXTDIFF计算目标文本text的文本难度数值SD或ASD,令j=1,转步骤6.2;
步骤6.2如果j>K,则输出目标文本的难度为K+1级;否则,转步骤6.3;
步骤6.3如果SD或ASD小于等于L(j),则输出目标文本的难度为K级;否则,j=j+1,转步骤6.2。
根据本发明的另一方面,还提出本发明还提供一种自适应匹配的用户英语学习内容推送方法,包括如下步骤:
步骤A:用户登录客户端,用户在客户端输入用户名和密码,由客户端经安全加密处理后发送给服务端;服务端对收到数据做解密等相应安全处理,获得用户名和密码,并在库中比对:如果收到的用户名与密码与服务端存储的某一用户名-密码匹配,则根据用户学习数据提供相应服务;否则,提示用户核对用户名与密码,再次尝试;
步骤B:用户设定阅读等级,用户首次使用本系统时,需要对用户阅读水平评估;提供两种方式确定用户当前的阅读等级,具体为:
方式一:用户在初次登录后,选择自行上传n篇符合自身当前阅读能力的英文文档;服务端根据目标文本难度分级方法分别计算这n篇文本的难度数值SD或ASD,比较本难度数值的平均值与分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级;
方式二:如果用户无法向服务端提供样例文本,服务端从语料库中选择文本为用户提供试读标注,确定用户当前英文文本阅读等级;
步骤C:自适应阅读推荐,确定阅读等级后,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
进一步的,所述步骤B中,服务端所使用的目标文本难度分级方法具体包括如下步骤:
步骤1、对语料库或者目标文本进行文本预处理,统计一篇英文文本中所有出现单词对应的原形及其在文本中出现的数量;
步骤2、语料库词频信息统计,对语料库Corpus的词频信息统计,提供文本词汇难度计算和文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti);
步骤3、对目标文本进行文本词汇难度计算,基于词汇自身特征以及考虑词汇在文本中的特征,其中,根据α概率分位数来计算某一单词在文本中的难度;
步骤4、对目标文本进行基于词汇的文本难度计算,基于语料库提供的词频信息Prop(w),根据目标文本的词汇特征计算该目标文本难度SD或ASD;
步骤5、基于语料库的文本难度分级:首先对语料库中各篇文本的进行难度计算,按照等难度间隔或等文本数量间隔原则,划分语料库难度级别并计算分级难度阈值,得到分级标准L(j);
步骤6、基于步骤4得到目标文本难度SD或ASD,比较SD或ASD与分级标准L(j)的大小关系确定目标文本具体分级,对文本实现基于词汇难度的自动分级。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (11)
1.一种自适应匹配的用户英语学习文本推送系统,包括客户端和服务端;其特征在于,客户端包括:
登录模块,用户在客户端输入用户名和密码,由客户端经安全加密处理后发送给服务端;如果服务器验证通过,客户端提示登录成功;否则,提示用户核对用户名与密码,再次尝试;
用户阅读等级设定模块,用于设定用户的初始等级;用户首次使用本系统时,需要对用户阅读水平进行评估;
用户阅读模块,接收服务器发送的文本并为用户提供展示,用于用户阅读推荐文本;
所述服务端包括:
登录验证模块,服务端对收到客户端发送的登录数据做解密等相应安全处理,获得用户名和密码,并在用户名-密码库中比对:如果收到的用户名与密码与服务端存储的某一用户名-密码匹配,则根据用户学习数据提供相应服务;否则,提示用户核对用户名与密码,让用户再次尝试;
用户阅读等级确定模块,用于确定用户阅读等级;所述用户阅读等级确定模块进一步包括:文本预处理模块、文本词汇难度计算模块、语料库词频信息统计模块、基于词汇的目标文本难度计算模块、基于语料库的文本难度分级模块、目标文本自动识别分级模块;
文本预处理模块:用于对文本进行预处理,统计一篇英文文本中所有出现单词对应的原形及其在文本中出现的数量;
文本词汇难度计算模块,用于计算词汇在文本中的难度,基于词汇自身特征以及词汇在文本中的特征,根据α概率分位数来计算某一单词在文本中的难度;
语料库词频信息统计模块,用于对语料库Corpus的词频信息统计,提供文本词汇难度计算和文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti);
基于词汇的目标文本难度计算模块,基于语料库提供的词频信息Prop(w),根据目标文本的词汇特征计算该目标文本难度SD或ASD;
基于语料库的文本难度分级模块,首先对语料库中各篇文本的进行难度计算,按照等难度间隔或等文本数量间隔原则,划分语料库难度级别并计算分级难度阈值,得到分级标准L(j);
目标文本自动识别分级模块,基于目标文本难度SD或ASD,比较SD或ASD与分级标准L(j)的大小关系确定目标文本具体分级,用于对文本实现基于词汇难度的自动分级;
自适应阅读推荐模块,确定阅读等级后,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐。
2.根据权利要求1所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,所述用户阅读等级确定模块,提供两种方式确定用户当前的阅读等级,具体为:
方式一:用户在初次登录后,选择自行上传n篇符合自身当前阅读能力的英文文档;服务端根据目标文本难度分级方法分别计算这n篇文本的难度数值SD或ASD,比较文本难度数值的平均值与分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级;
方式二:如果用户无法向服务端提供样例文本,服务端从语料库中选择文本为用户提供试读标注,确定用户当前英文文本阅读等级。
3.根据权利要求2所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,所述方式二具体包括如下步骤:
步骤B.1、选择K个连续级别,L(i),...,L(i+K);在每个级别,从语料库随机选择a篇文本,K和a为自然数,K常取1到5之间的自然数,a常取2或3,i为等级范围内的任意自然数;将这些文本发送给客户端,供用户标注,转步骤B.2;
步骤B.2、用户试读后根据自身体验对每篇文本标注,从“容易”、“适中”、“困难”三种选择中的一种标注;转步骤B.3;
步骤B.3、如果用户标注的都是“容易”,则从i+K+1级别开始,向后选择共K个连续级别,在每个级别从语料库随机选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.4;
步骤B.4、如果用户标注的都是“困难”,则从i-1级别开始,向前选择共K个连续级别,在每个级别从语料库随机选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.5;
步骤B.5、如果用户标注的只有“容易”和“困难”,则重新在这K个级别中,各重新选择a篇文本,供用户标注,转步骤B.2;否则,转步骤B.6;
步骤B.6、如果用户标注的有“适中”,则计算所有标注为“适中”文本的难度数值SD或ASD,比较这些难度数值平均值与预先确定的分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级。
4.根据权利要求1所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,所述文本预处理模块具体如下:
其用于消除缩写、所有格、大小写、词汇变形因素对词汇数量统计的影响,对于英文文本text输入,返回该文本中各个词汇出现的次数textFreq(w)和该文本总词量textCount,其中w为在该英文文本中出现词汇的单词原形;以PROCESS(text)表示对text的文本预处理,其具体实现如下:
步骤1.1将文本text按照空格和非单引号“’”的标点符号分割字符串,并将所有分割结果按分割次序存储在字符串链表strList中;转步骤1.2;
步骤1.2按照字符串比对,统计strList中各互异字符串的数量,并用临时存储mapFreq(str)记录每一个字符串元素str及其在strList出现的次数;转步骤1.3;
步骤1.3将mapFreq中所有带有单引号“’”的字符串做分拆处理,并累记其分拆后字符串所对应的次数,存入mapFreq(str)相应位置;转步骤1.4;
步骤1.4再次令str为mapFreq中的第一个字符串,用strCount临时记录str对应的次数,即strCount=mapFreq(str);转步骤1.5;
步骤1.5如果str只有首字母大写,则将str的首字母变为小写;转步骤1.6;
步骤1.6通过查询函数WordInflection(str)判断str是否为某一个单词的变形:如果str是某一个单词的变形,则将str变为其所对应的单词原形,即str=WordInflection(str),转步骤1.7;否则,转步骤1.8;
步骤1.7将str及其对应的次数strCount存入到textFreq中,如果textFreq有str,直接令textFreq(str)=textFreq(str)+strCount;否则,直接在textFreq添加str及其次数strCount;转步骤1.8;
步骤1.8如果如果str不是mapFreq中最后一个元素,则将str后移一个元素,strCount=mapFreq(str),转步骤1.5;否则,转步骤1.9;
步骤1.9此时textFreq中存储text中各单词原形及其对应的次数textFreq(w),并累加所有单词原形的次数并存入textCount,结束。
5.根据权利要求1所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,
文本词汇难度计算模块:根据语料库统计获得的词频信息以及目标词语w与目标文本text的相关特征,计算w在text中的难度值textDif(w,text);该模块被用于目标文本整体的难度计算;
假设给定词汇w在一篇包含N个词语的文本text中出现k次的概率近似由参数为N*Prop(w)的泊松分布刻画,即:
其中,λ=N*Prop(w),N为文本text的总词汇数,Prop(w)为词语w在语料库中整体的出现概率;那么,词汇w在包含N个词语的文本text中出现n次的α概率分位数为:在text中w出现的条件下,w出现次数小于等于n次的概率累加,即:
而单词w在文本text中的难度由其在语料库中的信息量I(w)=-lg(Prop(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成,即textDif(w,text)=α(w,n)I(w),其计算需要知道单词w在语料库中的出现概率Prop(w)、文本text包含总词数N、单词w在text出现的次数n。
7.根据权利要求1所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,
语料库词频信息统计模块:语料库Corpus包括M篇文本texti,1<=i<=M,对语料库Corpus的词频信息统计将提供文本词汇难度计算和目标文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti),具体的,语料库词频信息统计模块的实现步骤如下:
步骤3.1令i=1,totalCount=0,转步骤3.2;
步骤3.2调用文本预处理模块PROCESS(texti),计算Freq(w,texti)=textFreq(w)、Count(texti)=textCount,转步骤3.3;
步骤3.3如果i<M,i=i+1,转步骤3.2;否则,转步骤3.4;
步骤3.4对Corpus中出现的所有单词w,按公式(4)和公式(5)分别统计该单词在语料库中出现的总次数tempFreq(w)和语料库总词量totalCount,转步骤3.5;
步骤3.5计算语料库中每个词语w的概率信息Prop(w)=tempFreq(w)/totalCount,结束本模块。
8.根据权利要求1所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,基于词汇的目标文本难度计算模块,基于语料库提供的词频信息Prop(w),根据文本text的词汇特征计算该文本难度,以TEXTDIFF(text)表示基于词汇的文本难度计算,其具体实现步骤如下:
步骤4.1获取步骤1中文本预处理PROCESS(text)对text进行预处理得到的text的总词量N=textCount、text中各互异词语原形wi及其在text中出现次数n(wi)=textFreq(wi),1<=i<=C,C为textFreq(w)中互异词语原形的数量;
步骤4.2令i=1,转步骤4.3;
步骤4.3基于Prop(wi)、n(wi)和N,调用LOCALWDIFF(wi,text),计算text中词汇wi难度textDif(wi,text),转步骤4.4;
步骤4.4如果i<C,令i=i+1,转步骤4.3;否则,转步骤4.5;
步骤4.5将文本text中各词汇wi按词汇文本难度textDif(wi,text)从大到小的顺序排序,不妨设其对应的词汇排序结果为d1、d2、...,则d1为文本text中最难的词语、d2为文本Text中次难的词语,依次类推;转步骤4.6;
步骤4.6令难词累积数量DN=0、文本累积难度SD=0、累积指标i=1;转步骤4.7;
步骤4.7令DN=DN+n(di),SD=SD+textDif(di,text);转步骤4.8;
步骤4.8如果DN/N≥β,转步骤4.9;否则,i=i+1,转步骤4.7;
在步骤4.8中,β是难词累积百分比,取1%到50%之间的任意数值;
步骤4.9令SD为文本text基于词汇的文本累积词汇难度,d1到di为文本text前β百分位的难词;或计算文本text基于词汇的文本平均难度ASD=SD/i。
9.根据权利要求1所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,基于语料库的文本难度分级模块,对语料库中各篇文本的难度计算,并根据语料库中各篇文本的难度划分难度级别并计算各级别的难度阈值;基于语料库的文本难度分级具体实现步骤如下:
步骤5.1对语料库Corpus中的每一篇文本texti,1<=i<=M,调用基于词汇的文本难度计算模块TEXTDIFF(texti)计算第i篇文本基于词汇的累积难度SDi,或基于词汇的文本平均难度ASDi,转步骤5.2;
步骤5.2将各篇文本的累积难度SDi或基于词汇的文本平均难度ASDi按从小到大的顺序排序,不妨设其排序结果为SDi1,SDi2,...,SDiM,或ASDi1,ASDi2,...,ASDiM,转步骤5.3;
步骤5.3选定文本难度的分级数量K,K取大于2的任意正整数,转步骤5.4;
步骤5.4按等难度值原则计算每一分级难度阈值L(j)=SDi1+j*(SDiM-SDi1),j=1,...,K;L(0)强行设为0;此时,L(j-1)和L(j)就构成了第j级文本难度的分级;
步骤5.5在语料库中,确定每一个级别所应包含的文本数量KN,KN取任意正整数,或KN取大于等于M/K的最小整数;每一等级的分级阈值L(j)=SDi(k*j),j=1,...,K;L(0)强行设为0;此时,L(j-1)和L(j)就构成了第j级文本难度的分级。
10.根据权利要求1所述的一种自适应匹配的用户英语学习文本推送系统,其特征在于,目标文本自动分级模块,对目标文本基于词汇的目标文本难度计算,并根据语料库中文本的难度级别及阈值确定目标文本的自动分级;目标文本难度级别的自动识别步骤的实现步骤如下:
步骤6.1调用基于词汇的目标文本难度计算步骤TEXTDIFF计算目标文本text的文本难度数值SD或ASD,令j=1,转步骤6.2;
步骤6.2如果j>K,则输出目标文本的难度为K+1级;否则,转步骤6.3;
步骤6.3如果SD或ASD小于等于L(j),则输出目标文本的难度为K级;否则,j=j+1,转步骤6.2。
11.一种自适应匹配的用户英语学习文本推送方法,其特征在于,包括如下步骤:
步骤A:用户登录客户端,用户在客户端输入用户名和密码,由客户端经安全加密处理后发送给服务端;服务端对收到数据做解密等相应安全处理,获得用户名和密码,并在库中比对:如果收到的用户名与密码与服务端存储的某一用户名-密码匹配,则根据用户学习数据提供相应服务;否则,提示用户核对用户名与密码,让用户再次尝试;
步骤B:用户设定阅读等级,用户首次使用时,需要对用户阅读水平进行评估;提供两种方式确定用户当前的阅读等级,具体为:
方式一:用户在初次登录后,选择自行上传n篇符合自身当前阅读能力的英文文档;服务端根据目标文本难度分级方法分别计算这n篇文本的难度数值SD或ASD,比较文本难度数值的平均值与分级标准L(j)的大小关系,确定该用户当前的英文文本阅读等级;
方式二:如果用户无法向服务端提供样例文本,服务端从语料库中选择文本为用户提供试读标注,确定用户当前英文文本阅读等级;
步骤C:自适应阅读推荐,确定阅读等级后,服务端根据用户的当前英文文本阅读等级,及历史阅读记录推送英文阅读文本,并根据用户历史记录及意愿动态调整用户所处等级,实现自适应阅读推荐;
所述步骤B中,服务端所使用的目标文本难度分级方法具体包括如下步骤:
步骤1、对语料库或者目标文本进行文本预处理,统计一篇英文文本中所有出现单词对应的原形及其在文本中出现的数量;
步骤2、语料库词频信息统计,对语料库Corpus的词频信息统计,提供文本词汇难度计算和文本分级所需的词语概率信息Prop(w)、各篇语料库文本中各个单词的词频信息Freq(w,texti),以及各篇语料库文本总词量信息Count(texti);
步骤3、对目标文本进行文本词汇难度计算,基于词汇自身特征以及考虑词汇在文本中的特征,其中,根据α概率分位数来计算某一单词在文本中的难度;
步骤4、对目标文本进行基于词汇的文本难度计算,基于语料库提供的词频信息Prop(w),根据目标文本的词汇特征计算该目标文本难度SD或ASD;
步骤5、基于语料库的文本难度分级:首先对语料库中各篇文本的进行难度计算,按照等难度间隔或等文本数量间隔原则,划分语料库难度级别并计算分级难度阈值,得到分级标准L(j);
步骤6、基于步骤4得到目标文本难度SD或ASD,比较SD或ASD与分级标准L(j)的大小关系确定目标文本具体分级,对文本实现基于词汇难度的自动分级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110315017.6A CN112906376B (zh) | 2021-03-24 | 2021-03-24 | 一种自适应匹配的用户英语学习文本推送系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110315017.6A CN112906376B (zh) | 2021-03-24 | 2021-03-24 | 一种自适应匹配的用户英语学习文本推送系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906376A CN112906376A (zh) | 2021-06-04 |
CN112906376B true CN112906376B (zh) | 2023-07-11 |
Family
ID=76106645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110315017.6A Active CN112906376B (zh) | 2021-03-24 | 2021-03-24 | 一种自适应匹配的用户英语学习文本推送系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906376B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420213A (zh) * | 2021-06-23 | 2021-09-21 | 洪恩完美(北京)教育科技发展有限公司 | 儿童英语绘本的阅读推荐方法、设备及存储介质 |
CN114547154B (zh) * | 2022-04-26 | 2022-08-26 | 成都迈杰世教育咨询有限公司 | 一种智能交互式英语训练方法、系统及计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914541A (zh) * | 2014-04-03 | 2014-07-09 | 小米科技有限责任公司 | 信息搜索的方法及装置 |
CN107506346A (zh) * | 2017-07-10 | 2017-12-22 | 北京享阅教育科技有限公司 | 一种基于机器学习的中文阅读难度分级方法及系统 |
CN110209797A (zh) * | 2019-06-17 | 2019-09-06 | 北京学格科技有限公司 | 英语分级阅读材料自动推荐方法及装置 |
CN110889570A (zh) * | 2018-09-10 | 2020-03-17 | 周刚 | 一种英语文本难度指数的计算方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8517738B2 (en) * | 2008-01-31 | 2013-08-27 | Educational Testing Service | Reading level assessment method, system, and computer program product for high-stakes testing applications |
US20150248398A1 (en) * | 2014-02-28 | 2015-09-03 | Choosito! Inc. | Adaptive reading level assessment for personalized search |
-
2021
- 2021-03-24 CN CN202110315017.6A patent/CN112906376B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914541A (zh) * | 2014-04-03 | 2014-07-09 | 小米科技有限责任公司 | 信息搜索的方法及装置 |
CN107506346A (zh) * | 2017-07-10 | 2017-12-22 | 北京享阅教育科技有限公司 | 一种基于机器学习的中文阅读难度分级方法及系统 |
CN110889570A (zh) * | 2018-09-10 | 2020-03-17 | 周刚 | 一种英语文本难度指数的计算方法 |
CN110209797A (zh) * | 2019-06-17 | 2019-09-06 | 北京学格科技有限公司 | 英语分级阅读材料自动推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112906376A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rauh | Validating a sentiment dictionary for German political language—a workbench note | |
US20210157984A1 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
US20200250375A1 (en) | Predicting style breaches within textual content | |
CN111324728A (zh) | 文本事件摘要的生成方法、装置、电子设备及存储介质 | |
CN112084334B (zh) | 语料的标签分类方法、装置、计算机设备及存储介质 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
JP3682529B2 (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
US20090063132A1 (en) | Information Processing Apparatus, Information Processing Method, and Program | |
CN112906376B (zh) | 一种自适应匹配的用户英语学习文本推送系统和方法 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
KR102552811B1 (ko) | 클라우드 기반 문법 교정 서비스 제공 시스템 | |
Pérez-Sancho et al. | Genre classification using chords and stochastic language models | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN112395391B (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
JP2018163660A (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
CN115510326A (zh) | 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN113836941B (zh) | 一种合同导航方法及装置 | |
CN113064986B (zh) | 模型的生成方法、系统、计算机设备和存储介质 | |
CN115455152A (zh) | 写作素材的推荐方法、装置、电子设备及存储介质 | |
CN110245331A (zh) | 一种语句转换方法、装置、服务器及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |