CN105068993B - 一种评估文本难度的方法 - Google Patents
一种评估文本难度的方法 Download PDFInfo
- Publication number
- CN105068993B CN105068993B CN201510467535.4A CN201510467535A CN105068993B CN 105068993 B CN105068993 B CN 105068993B CN 201510467535 A CN201510467535 A CN 201510467535A CN 105068993 B CN105068993 B CN 105068993B
- Authority
- CN
- China
- Prior art keywords
- difficulty
- word
- sentence
- grade
- assessed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及文本难度分析技术领域,公开了一种评估文本难度的方法。所述评估文本难度的方法,通过结合统计学原理和中文实际难度特点对阅读文本进行难度评估,可简化评估算法结构,利于计算机实现,从而快速得到难度评估结果,并确保评估结果的准确度,进而提升用户体验和实用性。
Description
技术领域
本发明涉及文本难度分析技术领域,具体地,涉及一种评估文本难度的方法。
背景技术
随着在线教育的兴起,通过诸如平板电脑、手机等电子化平台进行文字阅读的应用逐渐普及,其中的分级阅读应用也逐渐市场化。所述分级阅读应用是指在阅读之前,先通过一种评估算法对待阅读文本进行难度评估,然后根据难度评估值进行分级处理,将待阅读文本推荐给阅读能力与其文本难度评估值匹配的阅读人群,例如根据阅读文本的难度评估值向不同年级的学生推荐适合的阅读书籍,从而有助于学生阅读能力或考试成绩的提高。
目前所采用的文本难度评估算法主要存在如下问题:(1)现有评估算法结构复杂,包含了语法分析和语义分析,甚至还有句子之间的逻辑分析,难以通过计算机技术实现;(2)现有评估算法的应用对象多为外文文本,由于中文与外文的文化差异性,其对中文文本的评估结果具有一定的误差。
针对目前文本难度评估算法的问题,有必要设计一种新的文本难度评估方法,可结合统计学原理和中文实际难度特点对阅读文本进行难度评估,从而可简化评估算法结构,利于计算机实现,快速得到难度评估结果,同时还可确保评估结果的准确度,进而提升用户体验和实用性。
发明内容
针对前述文本难度评估算法的问题,本发明提供了一种评估文本难度的方法,可结合统计学原理和中文实际难度特点对阅读文本进行难度评估,从而可简化评估算法结构,利于计算机实现,快速得到难度评估结果,还可确保评估结果的准确度,进而提升用户体验和实用性。
本发明采用的技术方案,提供了一种评估文本难度的方法,包括如下步骤:S101.读取待测评内容;S102.通过数学统计的方式获取所述待测评内容的文字难度系数、词语难度系数、句子难度系数和段落难度系数中的任意一种或它们的任意组合;S103.将获取的、唯一维度的所述难度系数作为所述待测评内容的文本难度评估值,或者将获取的、多维度的所述难度系数的算术平均结果作为所述待测评内容的文本难度评估值。根据中文的实际难度特点,待测评内容的文本难度可以但不限于从文字、词语、句子和段落等维度中任意一种或它们的任意组合去评估,同时在所述评估方法中,通过数学统计方式获取各个维度的所述难度系数以及对多个维度的所述难度系数进行综合考量,可简化算法结构,利于计算机实现,从而使所述评估文本难度的方法具有准确度高、易于实现和计算量小的特点,能够在适于评估中文文本的基础上,快速得到难度评估结果,进而提升用户体验和实用性。
具体的,在所述通过数学统计的方式获取所述待测评内容的文字难度系数的步骤中还包括如下步骤:S201.获取所述待测评内容中出现的各个文字;S202.统计各个文字在所述待测评内容中的出现频率;S203.查找各个文字在文字难度等级表中对应的文字难度等级;S204.按照如下公式计算所述待测评内容的文字难度系数ZD:
式中,n为所述待测评内容中不同文字的个数,ZXi为第i个文字在所述文字难度等级表中对应的文字难度等级,ZRi为第i个文字在所述待测评内容中的出现频率。所述文字难度等级表包括各个文字和基于中文实际难度特点得到的、对应的文字难度等级,因此根据步骤S201至S204所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在文字维度上的文字难度系数ZD。
进一步具体的,所述文字难度等级表的建立过程包括如下步骤:S601.选取M种版本的N个学习阶段的教材;S602.按照如下方式确定各个文字在第X种版本教材中的文字难度等级ZXX:对于在第Y个学习阶段的教材中首次出现的文字,按照如下公式确定对应的文字难度等级ZXX:
ZXX=(Y-1)*(ZXMax-ZXMin)/N+ZXMin
式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;对于未在所有学习阶段的教材中出现的文字,按照如下公式确定对应的文字难度等级ZXX:
ZXX=ZXMax
式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;S603.针对每个文字,对多版本的所述文字难度等级进行算术平均计算,得到各个文字的平均文字难度等级;S604.将各个文字及对应的平均文字难度等级记录在所述文字难度等级表中。前述建立所述文字难度等级表的步骤提供了一种量化文字难度的标准化机制,可进一步利于计算机实现,同时由于各个学习阶段的教材是根据中文实际难度特点和学生的阅读能力而特别编辑的,因此依托目前使用的各个版本、各个学习阶段的教材,确定的文字难度等级表具有准确度高的特点,利于后续得到高准确度的文字难度系数。
具体的,在所述通过数学统计的方式获取所述待测评内容的词语难度系数的步骤中还包括如下步骤:S301.获取所述待测评内容中出现的各个词语;S302.统计各个词语在所述待测评内容中的出现频率;S303.查找各个词语在词语难度等级表中对应的词语难度等级;S304.按照如下公式计算所述待测评内容的词语难度系数CD:
式中,m为所述待测评内容中不同词语的个数,CXi为第i个词语在所述词语难度等级表中对应的词语难度等级,CRi为第i个词语在所述待测评内容中的出现频率。所述词语难度等级表包括各个词语和基于中文实际难度特点得到的、对应的词语难度等级,因此根据步骤S301至S304所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在词语维度上的词语难度系数CD。
进一步具体的,所述词语难度等级表的建立过程包括如下步骤:S701.从互联网中随机抓取词汇量不少于第二数值的第一文字内容,所述第二数值不小于1亿;S702.获取在所述第一文字内容中出现的各个词语;S703.统计各个词语在所述第一文字内容中的出现频率;S704.按照如下方式确定各个词语的词语难度等级:
式中,CXi为第i个词语的词语难度等级,CXMax为最高词语难度等级,CXMin为最低词语难度等级,Ri为第i个词语在所述第一文字内容中的出现频率;S705.将各个词语及对应的词语难度等级记录在所述词语难度等级表中。前述建立所述词语难度等级表的步骤提供了一种量化词语难度的标准化机制,可进一步利于计算机实现,同时由于针对词语的中文实际难度特点是在日常使用过程中,词语出现的频率越高,相应的词语难度越低,因此根据步骤S701至S705所描述的方法,确定的词语难度等级表具有准确度高的特点,利于后续得到高准确度的词语难度系数。
具体的,在所述通过数学统计的方式获取所述待测评内容的句子难度系数的步骤中还包括如下步骤:S401.获取所述待测评内容中出现的各个句子;S402.以词汇量为度量标尺确定各个句子的句子长度;S403.根据句子长度查找各个句子在句子难度等级表中对应的句子难度等级;S404.按照如下公式计算所述待测评内容的句子难度系数SD:
式中,k为所述待测评内容中句子的总数,SXi为第i个句子根据句子长度在所述句子难度等级表中对应的句子难度等级;或者,当所述句子为分句时,按照如下公式计算所述待测评内容的句子难度系数SD:
式中,q为所述待测评内容中复句的总数,p为第j个复句中分句的总数,SXij为第j个复句中第i个分句根据句子长度在所述句子难度等级表中对应的句子难度等级。所述句子难度等级表包括具有各种句子长度的句子和基于中文实际难度特点得到的、对应的句子难度等级,因此根据步骤S401至S404所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在句子维度上的句子难度系数SD。
进一步具体的,所述句子难度等级表的建立过程包括如下步骤:S801.从互联网中随机抓取词汇量不少于第三数值的第二文字内容,所述第二数值不小于1亿;S802.获取在所述第二文字内容中出现的各个句子;S803.以词汇量为度量标尺确定各个句子的句子长度;S804.获取具有各种句子长度的句子在所述第二内容中的出现频率;S805.按照如下公式确定具有各种句子长度的句子的句子难度等级:
式中,SXi为具有第i种句子长度的句子的句子难度等级,SXMax为最高句子难度等级,SXMin为最低句子难度等级,STi为具有第i种句子长度的句子的词汇量,Qi为具有第i种句子长度的句子在所述第二文字内容中的出现频率,L为不小于20的第四数值;S806.将具有各种句子长度的句子及对应的句子难度等级记录在所述句子难度等级表中。前述建立所述句子难度等级表的步骤提供了一种量化句子难度的标准化机制,可进一步利于计算机实现,同时由于针对句子的中文实际难度特点是在日常使用过程中,具有某种句子长度的句子出现频率越高,相应的句子难度越低,因此根据步骤S801至S806所描述的方法确定的句子难度等级具有准确度高的特点,利于后续得到高准确度的句子难度系数。
具体的,在所述通过数学统计的方式获取所述待测评内容的段落难度系数的步骤中还包括如下步骤:S501.获取所述待测评内容中出现的各个段落;S502.以词汇量为度量标尺确定各个段落的段落长度;S503.按照如下公式计算各个段落的段落难度等级:
式中,PDi为第i个段落的段落难度等级,PXMax为最高段落难度等级,PXMin为最低段落难度等级,K为不小于20的第一数值,PTi为第i个段落的词汇量;S504.对多个段落的所述段落难度等级进行算术平均计算,最终得到所述待测评内容的段落难度系数PD。由于针对段落的中文实际难度特点是在段落的词汇量越多,相应的段落难度越高,因此根据步骤S501至S504所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在段落维度上的段落难度系数PD。
具体的,统计待评估对象的文字个数,如果待评估对象的文字个数不超过第五数值,则将待评估对象的全部文字内容作为所述待测评内容,然后执行一次S101至S103的步骤,最终将步骤S103得到的所述文本难度评估值作为待评估对象的文本难度评估值,否则按照每分片的文字个数为第六数值的方式将待评估对象切分为若干个分片,再从各个分片中随机抽取一个片段作为所述待测评内容,然后针对一个片段执行一次S101至S103的步骤,然后将在步骤S103得到的、多个片段的所述文本难度评估值的算术平均结果作为所述待评估对象的文本难度评估值,所述第五数值不小于1000,所述第六数值不小于500。所述待评估对象为完整的、待评估的阅读材料,因此前述方法提供了一种针对文字过多情况下的简化处理方法,可减小计算量,进一步快速的得到文本难度评估结果。
具体的,统计待评估对象的文字个数,如果待评估对象的文字个数不超过第七数值,则将待评估对象的全部文字内容作为所述待测评内容,否则按照每分片的文字个数为第八数值的方式将待评估对象切分为若干个分片,再从各个分片中随机抽取一个片段组合成所述待测评内容,然后执行一次S101至S103的步骤,最终将步骤S104得到的所述文本难度评估值作为待评估对象的文本难度评估值,所述第七数值不小于1000,所述第八数值不小于500。所述待评估对象为完整的、待评估的阅读材料,因此前述方法提供了另一种针对文字过多情况下的简化处理方法,在减小计算量的基础上,进一步优化了评估算法结构,能够更快的得到文本难度评估结果。
综上,采用本发明所提供的评估文本难度的方法,具有如下有益效果:(1)在评估过程中结合了统计学原理和算术平均算法,可简化评估算法的结构,利于计算机实现;(2)在评估过程中结合中文实际难度特点,可得到文字、词语、句子和段落等多个维度的、高准确度的难度系数,进而可确保最终评估结果的准确度;(3)结合中文实际难度特点,提供了一套标准化的机制来量化文字、词语和句子等的难度等级,进一步利于计算机实现;(4)针对文字过多情况,提供了简化处理方法,以便减小计算量,优化评估算法结构,从而方便快速得到文本难度评估结果,提升了用户体验和实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的第一种评估文本难度的方法流程图。
图2是本发明提供的通过数学统计的方式获取文字难度系数的流程图。
图3是本发明提供的建立文字难度等级表的流程图。
图4是本发明提供的通过数学统计的方式获取词语难度系数的流程图。
图5是本发明提供的建立词语难度等级表的流程图。
图6是本发明提供的通过数学统计的方式获取句子难度系数的流程图。
图7是本发明提供的建立句子难度等级表的流程图。
图8是本发明提供的通过数学统计的方式获取段落难度系数的流程图。
具体实施方式
以下将参照附图,通过实施例方式详细地描述本发明提供的评估文本难度的方法。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
本文中描述的各种技术可以用于但不限于文本难度分析技术领域,还可以用于其它类似领域。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
实施例一
图1示出了本发明提供的第一种评估文本难度的方法流程图。所述评估文本难度的方法,包括如下步骤。
S101.读取待测评内容。
S102.通过数学统计的方式获取所述待测评内容的文字难度系数、词语难度系数、句子难度系数和段落难度系数中的任意一种或它们的任意组合。
S103.将获取的、唯一维度的所述难度系数作为所述待测评内容的文本难度评估值,或者将获取的、多维度的所述难度系数的算术平均结果作为所述待测评内容的文本难度评估值。
在上述评估文本难度的方法中,所述待测评内容可以是完整的待评估材料,也可以是待评估材料中的一个片段,例如一部小说中的一个章节。根据中文的实际难度特点,待测评内容的文本难度可以但不限于从文字、词语、句子和段落等维度中任意一种或它们的任意组合去评估,同时在所述评估方法中,通过数学统计方式获取各个维度的所述难度系数以及对多个维度的所述难度系数进行综合考量,可简化算法结构,利于计算机实现,从而使所述评估文本难度的方法具有准确度高、易于实现和计算量小的特点,能够在适于评估中文文本的基础上,快速得到难度评估结果,进而提升用户体验和实用性。
实施例二
图2示出了本发明提供的通过数学统计的方式获取文字难度系数的流程图,图3示出了本发明提供的建立文字难度等级表的流程图,图4示出了本发明提供的通过数学统计的方式获取词语难度系数的流程图,图5示出了本发明提供的建立词语难度等级表的流程图,图6示出了本发明提供的通过数学统计的方式获取句子难度系数的流程图,图7示出了本发明提供的建立句子难度等级表的流程图,图8示出了本发明提供的通过数学统计的方式获取段落难度系数的流程图。实施例二作为实施例一的一种细化方案,下面对实施例一中的各个步骤进行详细描述。
S101.读取待测评内容。
S102.通过数学统计的方式获取所述待测评内容的文字难度系数、词语难度系数、句子难度系数和段落难度系数中的任意一种或它们的任意组合。
在步骤S102中,具体的,在所述通过数学统计的方式获取所述待测评内容的文字难度系数的步骤中还包括如下步骤:S201.获取所述待测评内容中出现的各个文字;S202.统计各个文字在所述待测评内容中的出现频率;S203.查找各个文字在文字难度等级表中对应的文字难度等级;S204.按照如下公式计算所述待测评内容的文字难度系数ZD:
式中,n为所述待测评内容中不同文字的个数,ZXi为第i个文字在所述文字难度等级表中对应的文字难度等级,ZRi为第i个文字在所述待测评内容中的出现频率。
如图2所示,在步骤S201至S204中,对于未在所述文字难度等级表中查找到的文字,确定对应的文字难度等级为所述文字难度等级表中的最高文字难度等级。所述文字难度等级表包括各个文字和基于中文实际难度特点得到的、对应的文字难度等级,因此根据步骤S201至S204所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在文字维度上的文字难度系数ZD。进一步具体的,所述文字难度等级表的建立过程包括如下步骤:S601.选取M种版本的N个学习阶段的教材;S602.按照如下方式确定各个文字在第X种版本教材中的文字难度等级ZXX:对于在第Y个学习阶段的教材中首次出现的文字,按照如下公式确定对应的文字难度等级ZXX:
ZXX=(Y-1)*(ZXMax-ZXMin)/N+ZXMin
式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;对于未在所有学习阶段的教材中出现的文字,按照如下公式确定对应的文字难度等级ZXX:
ZXX=ZXMax
式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;S603.针对每个文字,对多版本的所述文字难度等级进行算术平均计算,得到各个文字的平均文字难度等级;S604.将各个文字及对应的平均文字难度等级记录在所述文字难度等级表中。
如图6所示,在步骤S601至S604中,提供了一种量化文字难度的标准化机制,可进一步利于计算机实现。下面举例描述量化文字难度的过程:首先选取目前使用范围最广的5种版本、12个学期的中小学教材;然后按照步骤S602的方式确定所有汉字的难度等级,例如“坤”字在第2种版本、第7学期的教材中首次出现,则确定“坤”字的在第2种版本教材中的难度等级为7(最低文字难度等级设定为1,最高文字难度等级设定为13);最后针对每个文字,对5个版本的所述文字难度等级进行算术平均计算,即可得到各个文字的平均难度等级。由于各个学习阶段的教材是根据中文实际难度特点和学生的阅读能力而特别编辑的,因此依托目前使用的各个版本、各个学习阶段的教材,确定的文字难度等级具有准确度高的特点,利于后续得到高准确度的文字难度系数。此外,为了能够使步骤S203正常执行,所述文字难度等级表的建立过程必须在步骤S203之前完成,因此作为优化的,所述步骤S601至S604可以但不限于在步骤S101之前完成。
在步骤S102中,具体的,在所述通过数学统计的方式获取所述待测评内容的词语难度系数的步骤中还包括如下步骤:S301.获取所述待测评内容中出现的各个词语;S302.统计各个词语在所述待测评内容中的出现频率;S303.查找各个词语在词语难度等级表中对应的词语难度等级;S304.按照如下公式计算所述待测评内容的词语难度系数CD:
式中,m为所述待测评内容中不同词语的个数,CXi为第i个词语在所述词语难度等级表中对应的词语难度等级,CRi为第i个词语在所述待测评内容中的出现频率。
如图3所示,在步骤S301至S304中,可以通过现有的、三种分词算法(基于字典或词库匹配的分词算法,基于知识理解的分词算法和基于词频统计的分词算法)中的任意一种算法对所述待测评内容进行分词处理,从而获取所述待测评内容中出现的各个词语,同时,对于未在所述词语难度等级表中查找到的词语,确定对应的词语难度等级为所述词语难度等级表中的最高词语难度等级。所述词语难度等级表包括各个词语和基于中文实际难度特点得到的、对应的词语难度等级,因此根据步骤S301至S304所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在词语维度上的词语难度系数CD。进一步具体的,所述词语难度等级表的建立过程包括如下步骤:S701.从互联网中随机抓取词汇量不少于第二数值的第一文字内容,所述第二数值不小于1亿;S702.获取在所述第一文字内容中出现的各个词语;S703.统计各个词语在所述第一文字内容中的出现频率;S704.按照如下方式确定各个词语的词语难度等级:
式中,CXi为第i个词语的词语难度等级,CXMax为最高词语难度等级,CXMin为最低词语难度等级,Ri为第i个词语在所述第一文字内容中的出现频率;S705.将各个词语及对应的词语难度等级记录在所述词语难度等级表中。
如图7所示,在步骤S701至S705中,提供了一种量化词语难度的标准化机制,可进一步利于计算机实现。下面举例描述量化词语难度的过程:首先从互联网中随机抓取词汇量不少于1亿的第一文字内容;然后利用分词算法从第一文字内容提取出各个词语,并统计各个词语的出现概率,然后按照步骤S704的方式确定各个词语的难度等级,例如“长征”一词在第一文字内容中的出现频率为10-6(即第一文字内容的词汇量为1亿,“长征”一词在第一文字内容中出现了103次),则确定“长征”一词的难度等级为6(最低文字难度等级设定为1,最高文字难度等级设定为9)。由于针对词语的中文实际难度特点是在日常使用过程中,词语出现的频率越高,相应的词语难度越低,因此根据步骤S701至S705所描述的方法,确定的词语难度等级表具有准确度高的特点,利于后续得到高准确度的词语难度系数。此外,为了能够使步骤S303正常执行,所述词语难度等级表的建立过程必须在步骤S303之前完成,因此作为优化的,所述步骤S701至S705可以但不限于在步骤S101之前完成。
在步骤S102中,具体的,在所述通过数学统计的方式获取所述待测评内容的句子难度系数的步骤中还包括如下步骤:S401.获取所述待测评内容中出现的各个句子;S402.以词汇量为度量标尺确定各个句子的句子长度;S403.根据句子长度查找各个句子在句子难度等级表中对应的句子难度等级;S404.按照如下公式计算所述待测评内容的句子难度系数SD:
式中,k为所述待测评内容中句子的总数,SXi为第i个句子根据句子长度在所述句子难度等级表中对应的句子难度等级;或者,当所述句子为分句时,按照如下公式计算所述待测评内容的句子难度系数SD:
式中,q为所述待测评内容中复句的总数,p为第j个复句中分句的总数,SXij为第j个复句中第i个分句根据句子长度在所述句子难度等级表中对应的句子难度等级。
如图4所示,在步骤S401至S404中,所述句子为分句或复句,可以通过判断诸如逗号、句号或分号等特殊字符的方式对所述待测评内容进行分句处理,从而获取所述待测评内容中出现的各个词语,然后通过现有的、三种分词算法(基于字典或词库匹配的分词算法,基于知识理解的分词算法和基于词频统计的分词算法)中的任意一种算法对各个句子进行分词处理,统计各个句子的词汇量,然后以词汇量为度量标尺确定各个句子的句子长度。所述句子难度等级表包括具有各种句子长度的句子和基于中文实际难度特点得到的、对应的句子难度等级,因此根据步骤S401至S404所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在句子维度上的句子难度系数SD。进一步具体的,所述句子难度等级表的建立过程包括如下步骤:S801.从互联网中随机抓取词汇量不少于第三数值的第二文字内容,所述第二数值不小于1亿;S802.获取在所述第二文字内容中出现的各个句子;S803.以词汇量为度量标尺确定各个句子的句子长度;S804.获取具有各种句子长度的句子在所述第二内容中的出现频率;S805.按照如下公式确定具有各种句子长度的句子的句子难度等级:
式中,SXi为具有第i种句子长度的句子的句子难度等级,SXMax为最高句子难度等级,SXMin为最低句子难度等级,STi为具有第i种句子长度的句子的词汇量,Qi为具有第i种句子长度的句子在所述第二文字内容中的出现频率,L为不小于20的第四数值;S806.将具有各种句子长度的句子及对应的句子难度等级记录在所述句子难度等级表中。
如图8所示,在步骤S801至S802中,提供了一种量化句子难度的标准化机制,可进一步利于计算机实现。下面举例描述量化句子难度的过程:首先从互联网中随机抓取词汇量不少于10亿的第二文字内容;然后利用分句算法(即基于判断诸如逗号、句号或分号等特殊字符的分句处理方式)从所述第二文字内容中提取出各个句子,再利用分词算法分离各个句子的词语,并统计各个句子的词汇量,再统计获取具有各种句子长度的句子在所述第二内容中出现的出现频率,最后按照步骤S805的方式确定具有各种句子长度的句子的难度等级,例如句子长度为20(即词汇量为20)的句子在所述第二文字内容中的出现频率为10-6(即在第二文字内容中,句子的平均词汇量为10,句子长度为20的句子在所述第二文字内容中出现了103次),则确定句子长度为20的句子的难度等级为6(最低句子难度等级设定为1,最高句子难度等级设定为9,第八数值为30)。由于针对句子的中文实际难度特点是在日常使用过程中,具有某种句子长度的句子出现频率越高,相应的句子难度越低,因此根据步骤S801至S806所描述的方法,确定的句子难度等级具有准确度高的特点,利于后续得到高准确度的句子难度系数。
在步骤S102中,具体的,在所述通过数学统计的方式获取所述待测评内容的段落难度系数的步骤中还包括如下步骤:S501.获取所述待测评内容中出现的各个段落;S502.以词汇量为度量标尺确定各个段落的段落长度;S503.按照如下公式计算各个段落的段落难度等级:
式中,PDi为第i个段落的段落难度等级,PXMax为最高段落难度等级,PXMin为最低段落难度等级,K为不小于20的第一数值,PTi为第i个段落的词汇量;S504.对多个段落的所述段落难度等级进行算术平均计算,最终得到所述待测评内容的段落难度系数PD。
如图5所示,在步骤S501至S504中,可以通过判断诸如句号和换行等方式对所述待测评内容进行分段处理,从而获取所述待测评内容中出现的各个段落,然后通过现有的、三种分词算法(基于字典或词库匹配的分词算法,基于知识理解的分词算法和基于词频统计的分词算法)中的任意一种算法对各个段落进行分词处理,统计各个段落的词汇量,然后以词汇量为度量标尺确定各个段落的句子长度。由于针对段落的中文实际难度特点是在段落的词汇量越多,相应的段落难度越高,因此根据步骤S501至S504所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在段落维度上的段落难度系数PD。
S103.将获取的、唯一维度的所述难度系数作为所述待测评内容的文本难度评估值,或者将获取的、多维度的所述难度系数的算术平均结果作为所述待测评内容的文本难度评估值。
在步骤S103中,如果在步骤S102中只从唯一维度获取到对应的所述难度系数(例如只从文字维度进行文本的难度评估,得到对应的文字难度系数),则将获取的、唯一维度的所述难度系数作为所述待测评内容的文本难度评估值,或者对获取的、唯一维度的所述难度系数进行有目标的等比缩放处理(例如等比缩放至[100,1000]的目标范围),然后再将等比缩放处理结果作为所述待测评内容的文本难度评估值;如果在步骤S102中从多个维度获取到对应的所述难度系数(例如分别从文字、词语、句子和段落等四个维度进行文本的难度评估,得到对应的文字难度系数、词语难度系数、句子难度系数和段落难度系数),则先对获取的、各个维度对应的所述难度系数进行有目标的等比缩放处理(例如均等比缩放至[100,1000]的目标范围),然后再对多维度的等比缩放处理结果进行算术平均计算,最终将算术平均结果作为所述待测评内容的文本难度评估值。通过前述方法,可以解决多维度的难度等级范围不一致的问题。
上述实施例二详细提供的所述评估文本难度的方法,具有如下技术效果:(1)在评估过程中结合了统计学原理和算术平均算法,可简化评估算法的结构,利于计算机实现;(2)在评估过程中结合中文实际难度特点,可得到文字、词语、句子和段落等多个维度的、高准确度的难度系数,进而可确保最终评估结果的准确度;(3)结合中文实际难度特点,提供了一套标准化的机制来量化文字、词语和句子等的难度等级,进一步利于计算机实现;(4)所述方法的计算量小,可快速得到文本难度评估结果,提升用户体验和实用性。
实施例三
实施例三作为实施例一或实施例二的一种优化方案,其提供的评估文本难度的方法与实施例一或实施例二提供的评估文本难度的方法的不同之处在于:具体的,统计待评估对象的文字个数,如果待评估对象的文字个数不超过第五数值,则将待评估对象的全部文字内容作为所述待测评内容,然后执行一次S101至S103的步骤,最终将步骤S103得到的所述文本难度评估值作为待评估对象的文本难度评估值,否则按照每分片的文字个数为第六数值的方式将待评估对象切分为若干个分片,再从各个分片中随机抽取一个片段作为所述待测评内容,然后针对一个片段执行一次S101至S103的步骤,然后将在步骤S103得到的、多个片段的所述文本难度评估值的算术平均结果作为所述待评估对象的文本难度评估值,所述第五数值不小于1000,所述第六数值不小于500。
所述待评估对象为完整的、待评估的阅读材料,因此前述方法提供了一种针对文字过多情况下的简化处理方法,可减小计算量,进一步快速的得到文本难度评估结果。
在实施例一或实施例二的技术效果的基础上,实施例三所提供的评估文本难度的方法还具有如下效果:(1)针对文字过多情况,提供了简化处理方法,以减小计算量,从而方便快速得到文本难度评估结果,进一步提升用户体验和实用性。
实施例四
实施例四作为实施例一或实施例二的另一种优化方案,其提供的评估文本难度的方法与实施例一或实施例二提供的评估文本难度的方法的不同之处在于:具体的,统计待评估对象的文字个数,如果待评估对象的文字个数不超过第七数值,则将待评估对象的全部文字内容作为所述待测评内容,否则按照每分片的文字个数为第八数值的方式将待评估对象切分为若干个分片,再从各个分片中随机抽取一个片段组合成所述待测评内容,然后执行一次S101至S103的步骤,最终将步骤S104得到的所述文本难度评估值作为待评估对象的文本难度评估值,所述第七数值不小于1000,所述第八数值不小于500。
所述待评估对象为完整的、待评估的阅读材料,因此上述方法提供了另一种针对文字过多情况下的简化处理方法,在减小计算量的基础上,进一步优化了评估算法结构,能够更快的得到文本难度评估结果。
在实施例一或实施例二的技术效果的基础上,实施例四所述提供的评估文本难度的方法还具有如下效果:(1)在减小计算量的基础上,进一步优化了评估算法结构,能够更快的得到文本难度评估结果。
如上所述,可较好的实现本发明。对于本领域的技术人员而言,根据本发明的教导,设计出不同形式的评估文本难度的方法并不需要创造性的劳动。在不脱离本发明的原理和精神的情况下对这些实施例进行变化、修改、替换、整合和变型仍落入本发明的保护范围内。
Claims (9)
1.一种评估文本难度的方法,其特征在于,包括如下步骤:
S101.读取待测评内容;
S102.通过数学统计的方式获取所述待测评内容的文字难度系数、词语难度系数、句子难度系数和段落难度系数中的任意一种或它们的任意组合,其中,按照如下步骤S501~S504获取所述待测评内容的段落难度系数:
S501.获取所述待测评内容中出现的各个段落;
S502.以词汇量为度量标尺确定各个段落的段落长度;
S503.按照如下公式计算各个段落的段落难度等级:
式中,PDi为第i个段落的段落难度等级,PXMax为最高段落难度等级,PXMin为最低段落难度等级,K为不小于20的第一数值,PTi为第i个段落的词汇量;
S504.对多个段落的所述段落难度等级进行算术平均计算,最终得到所述待测评内容的段落难度系数PD;
S103.将获取的段落难度系数作为所述待测评内容的文本难度评估值,或者将获取的文字难度系数、词语难度系数和句子难度系数中的三者之一或者任意组合与段落难度系数的算术平均结果作为所述待测评内容的文本难度评估值。
2.如权利要求1所述的一种评估文本难度的方法,其特征在于,在所述通过数学统计的方式获取所述待测评内容的文字难度系数的步骤中还包括如下步骤:
S201.获取所述待测评内容中出现的各个文字;
S202.统计各个文字在所述待测评内容中的出现频率;
S203.查找各个文字在文字难度等级表中对应的文字难度等级;
S204.按照如下公式计算所述待测评内容的文字难度系数ZD:
式中,n为所述待测评内容中不同文字的个数,ZXi为第i个文字在所述文字难度等级表中对应的文字难度等级,ZRi为第i个文字在所述待测评内容中的出现频率。
3.如权利要求1所述的一种评估文本难度的方法,其特征在于,在所述通过数学统计的方式获取所述待测评内容的词语难度系数的步骤中还包括如下步骤:
S301.获取所述待测评内容中出现的各个词语;
S302.统计各个词语在所述待测评内容中的出现频率;
S303.查找各个词语在词语难度等级表中对应的词语难度等级;
S304.按照如下公式计算所述待测评内容的词语难度系数CD:
式中,m为所述待测评内容中不同词语的个数,CXi为第i个词语在所述词语难度等级表中对应的词语难度等级,CRi为第i个词语在所述待测评内容中的出现频率。
4.如权利要求1所述的一种评估文本难度的方法,其特征在于,在所述通过数学统计的方式获取所述待测评内容的句子难度系数的步骤中还包括如下步骤:
S401.获取所述待测评内容中出现的各个句子;
S402.以词汇量为度量标尺确定各个句子的句子长度;
S403.根据句子长度查找各个句子在句子难度等级表中对应的句子难度等级;
S404.按照如下公式计算所述待测评内容的句子难度系数SD:
式中,k为所述待测评内容中句子的总数,SXi为第i个句子根据句子长度在所述句子难度等级表中对应的句子难度等级;
或者,当所述句子为分句时,按照如下公式计算所述待测评内容的句子难度系数SD:
式中,q为所述待测评内容中复句的总数,p为第j个复句中分句的总数,SXij为第j个复句中第i个分句根据句子长度在所述句子难度等级表中对应的句子难度等级。
5.如权利要求2所述的一种评估文本难度的方法,其特征在于,所述文字难度等级表的建立过程包括如下步骤:
S601.选取M种版本的N个学习阶段的教材;
S602.按照如下方式确定各个文字在第X种版本教材中的文字难度等级ZXX:
对于在第Y个学习阶段的教材中首次出现的文字,按照如下公式确定对应的文字难度等级ZXX:
ZXX=(Y-1)*(ZXMax-ZXMin)/N+ZXMin
式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;
对于未在所有学习阶段的教材中出现的文字,按照如下公式确定对应的文字难度等级ZXX:
ZXX=ZXMax
式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;
S603.针对每个文字,对多版本的所述文字难度等级进行算术平均计算,得到各个文字的平均文字难度等级;
S604.将各个文字及对应的平均文字难度等级记录在所述文字难度等级表中。
6.如权利要求3所述的一种评估文本难度的方法,其特征在于,所述词语难度等级表的建立过程包括如下步骤:
S701.从互联网中随机抓取词汇量不少于第二数值的第一文字内容,所述第二数值不小于1亿;
S702.获取在所述第一文字内容中出现的各个词语;
S703.统计各个词语在所述第一文字内容中的出现频率;
S704.按照如下方式确定各个词语的词语难度等级:
式中,CXi为第i个词语的词语难度等级,CXMax为最高词语难度等级,CXMin为最低词语难度等级,Ri为第i个词语在所述第一文字内容中的出现频率;
S705.将各个词语及对应的词语难度等级记录在所述词语难度等级表中。
7.如权利要求4所述的一种评估文本难度的方法,其特征在于,所述句子难度等级表的建立过程包括如下步骤:
S801.从互联网中随机抓取词汇量不少于第三数值的第二文字内容,所述第三数值不小于1亿;
S802.获取在所述第二文字内容中出现的各个句子;
S803.以词汇量为度量标尺确定各个句子的句子长度;
S804.获取具有各种句子长度的句子在所述第二文字内容中的出现频率;
S805.按照如下公式确定具有各种句子长度的句子的句子难度等级:
式中,SXi为具有第i种句子长度的句子的句子难度等级,SXMax为最高句子难度等级,SXMin为最低句子难度等级,STi为具有第i种句子长度的句子的词汇量,Qi为具有第i种句子长度的句子在所述第二文字内容中的出现频率,L为不小于20的第四数值;
S806.将具有各种句子长度的句子及对应的句子难度等级记录在所述句子难度等级表中。
8.如权利要求1所述的一种评估文本难度的方法,其特征在于:
统计待评估对象的文字个数,如果待评估对象的文字个数不超过第五数值,则将待评估对象的全部文字内容作为所述待测评内容,然后执行一次S101至S103的步骤,最终将步骤S103得到的所述文本难度评估值作为待评估对象的文本难度评估值,否则按照每分片的文字个数为第六数值的方式将待评估对象切分为若干个分片,再从各个分片中随机抽取一个片段作为所述待测评内容,然后针对一个片段执行一次S101至S103的步骤,然后将在步骤S103得到的、多个片段的所述文本难度评估值的算术平均结果作为所述待评估对象的文本难度评估值,所述第五数值不小于1000,所述第六数值不小于500。
9.如权利要求1所述的一种评估文本难度的方法,其特征在于:
统计待评估对象的文字个数,如果待评估对象的文字个数不超过第七数值,则将待评估对象的全部文字内容作为所述待测评内容,否则按照每分片的文字个数为第八数值的方式将待评估对象切分为若干个分片,再从各个分片中随机抽取一个片段组合成所述待测评内容,然后执行一次S101至S103的步骤,最终将步骤S103得到的所述文本难度评估值作为待评估对象的文本难度评估值,所述第七数值不小于1000,所述第八数值不小于500。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510467535.4A CN105068993B (zh) | 2015-07-31 | 2015-07-31 | 一种评估文本难度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510467535.4A CN105068993B (zh) | 2015-07-31 | 2015-07-31 | 一种评估文本难度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105068993A CN105068993A (zh) | 2015-11-18 |
CN105068993B true CN105068993B (zh) | 2018-08-07 |
Family
ID=54498367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510467535.4A Expired - Fee Related CN105068993B (zh) | 2015-07-31 | 2015-07-31 | 一种评估文本难度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105068993B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126621A (zh) * | 2016-06-22 | 2016-11-16 | 腾讯科技(深圳)有限公司 | 文章推荐方法和装置 |
CN107784109A (zh) * | 2017-10-31 | 2018-03-09 | 浠绘旦 | 一种网络小说商业价值的评估方法及系统 |
CN107977362B (zh) * | 2017-12-11 | 2021-05-04 | 中山大学 | 一种用于中文文本定级以及计算中文文本难度评分的方法 |
CN108491451B (zh) * | 2018-02-27 | 2021-09-17 | 北京云知学科技有限公司 | 一种英文阅读文章推荐方法、装置、电子设备及存储介质 |
CN108984531A (zh) * | 2018-07-23 | 2018-12-11 | 深圳市悦好教育科技有限公司 | 基于语文教材的图书阅读难度方法及系统 |
CN110889570B (zh) * | 2018-09-10 | 2023-04-25 | 周刚 | 一种英语文本难度指数的计算方法 |
CN109933668B (zh) * | 2019-03-19 | 2021-03-26 | 北京师范大学 | 简体汉语文本可读性的分级评估建模方法 |
CN109977408A (zh) * | 2019-03-27 | 2019-07-05 | 西安电子科技大学 | 基于深度学习的英语阅读分级和读物推荐系统的实现方法 |
CN112541344B (zh) * | 2019-09-23 | 2024-07-26 | 北京国双科技有限公司 | 目标段落的确定方法、装置、存储介质及设备 |
CN111078874B (zh) * | 2019-11-29 | 2023-04-07 | 华中师范大学 | 基于随机子空间的决策树分类的对外汉语难度评估方法 |
CN111603751B (zh) * | 2020-06-01 | 2022-02-18 | 李广武 | 一种速度性运动测评方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520773A (zh) * | 2009-03-26 | 2009-09-02 | 上海大学 | 文本认知难度的度量方法 |
CN101814066A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 文本阅读难度判断设备及其方法 |
JP2012230652A (ja) * | 2011-04-27 | 2012-11-22 | Isuzu Motors Ltd | 可読性評価方法、可読性評価装置及び可読性評価プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249755A (ja) * | 2006-03-17 | 2007-09-27 | Ibm Japan Ltd | ドキュメントを理解する難易度を評価するシステムおよびその方法 |
-
2015
- 2015-07-31 CN CN201510467535.4A patent/CN105068993B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814066A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 文本阅读难度判断设备及其方法 |
CN101520773A (zh) * | 2009-03-26 | 2009-09-02 | 上海大学 | 文本认知难度的度量方法 |
JP2012230652A (ja) * | 2011-04-27 | 2012-11-22 | Isuzu Motors Ltd | 可読性評価方法、可読性評価装置及び可読性評価プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN105068993A (zh) | 2015-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105068993B (zh) | 一种评估文本难度的方法 | |
US11288444B2 (en) | Optimization techniques for artificial intelligence | |
CN108921398B (zh) | 店铺质量评价方法及装置 | |
CN105260362A (zh) | 新词提取方法和装置 | |
CN106250438A (zh) | 基于随机游走模型的零引用文章推荐方法及系统 | |
CN109165529B (zh) | 一种暗链篡改检测方法、装置和计算机可读存储介质 | |
KR101541306B1 (ko) | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 | |
CN109992676B (zh) | 一种跨媒体资源检索方法及检索系统 | |
CN105787662A (zh) | 基于属性的移动应用软件性能预测方法 | |
CN109145085A (zh) | 语义相似度的计算方法及系统 | |
CN112699283A (zh) | 试卷生成方法及装置 | |
CN104850537A (zh) | 对文本内容进行筛选的方法及装置 | |
CN106469187A (zh) | 关键词的提取方法及装置 | |
CN105243053B (zh) | 提取文档关键句的方法及装置 | |
KR101555039B1 (ko) | 감정 사전 구축 장치 및 감정 사전 구축 방법 | |
CN110134945A (zh) | 习题考点识别方法、装置、设备和存储介质 | |
CN107369066B (zh) | 一种评论对象之间的特征比较方法及装置 | |
KR101542417B1 (ko) | 사용자 선호도 학습 방법 및 장치 | |
CN103279549A (zh) | 一种目标对象的目标数据的获取方法及装置 | |
CN104933097B (zh) | 一种用于检索的数据处理方法和装置 | |
CN110674632A (zh) | 一种确定安全级别的方法及装置、存储介质和设备 | |
CN112749316B (zh) | 翻译质量的确定方法、装置、存储介质和处理器 | |
CN108733702A (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
CN104298704B (zh) | 在博客上实现文本推送的方法和系统 | |
CN113657766A (zh) | 一种基于游客多元数据的旅游景区欢乐指数的计量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180807 Termination date: 20210731 |
|
CF01 | Termination of patent right due to non-payment of annual fee |