CN1673996A - 一种识别语言文本难易度的系统及其方法 - Google Patents

一种识别语言文本难易度的系统及其方法 Download PDF

Info

Publication number
CN1673996A
CN1673996A CN 200410029572 CN200410029572A CN1673996A CN 1673996 A CN1673996 A CN 1673996A CN 200410029572 CN200410029572 CN 200410029572 CN 200410029572 A CN200410029572 A CN 200410029572A CN 1673996 A CN1673996 A CN 1673996A
Authority
CN
China
Prior art keywords
difficulty
text
language text
classification
individual character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410029572
Other languages
English (en)
Inventor
陈建安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Besta Co Ltd
Original Assignee
Inventec Besta Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Co Ltd filed Critical Inventec Besta Co Ltd
Priority to CN 200410029572 priority Critical patent/CN1673996A/zh
Publication of CN1673996A publication Critical patent/CN1673996A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明还公开了一种辨识语言文本难易度的系统及其方法,依据所加载的文本的总字数、单字的难易度、文本中子句的比率及长句的比率这几个解析规则分析整篇文本,并将分析所得的结果与一难易度分级标准进行对比,以判别此语言文本的难易程度。

Description

一种识别语言文本难易度的系统及其方法
技术领域
本发明涉及一种应用于语言文本的分级处理系统及其方法,尤其是涉及一种识别语言文本难易度的系统及其方法。
背景技术
英语是目前世界上通用的国际语言,面对全球国际化的趋势,若是人们能够以流利的英文与其它不同语言系统的人们进行对谈,将有助于与其它语系人民的沟通与往来。
一般而言,语言的学习大致分为听、说、读、写四个部分,听与说是语言学习的重要基础,但其实当人们从小学到大学甚至是研究所整个求学的过程中,在学校阶段所学习到的英文多是偏重于读及写这两个部分。这是由于对非英语作为母语的人们而言毕竟是外语,且中国人所处的大环境仍是以中文为主要沟通语言的环境,而非以英文为主要沟通语言的环境。
在网络与电子邮件广泛应用的今天,对于这些非英语系国家的人民而言,英文的读与写往往比听与说成为更常用的重要技能。
而阅读英文文章在人们语言学习的过程中,实在占有极重要的地位。这是因为在阅读文章的同时,人们也可以学习到一些新的单字、句子的文法结构、如何流畅且简洁地写出欲表达的句子…等等,将有助于日后能够以更适当的单字或是句型成说出或是写出欲表达的意思。
如孔子所提倡的因材施教的观念,在语言学习的过程中,其实需依据不同使用者的程度而给予合适的教材,以慢慢地提升使用者的语言程度,且保持使用者对于语言学习的兴趣。
因为,对于一个语言的初学者而言,若在刚开始学习语言的阶段即给予内容艰涩的教材,可能会抹煞其对于语言学习的乐趣,进而降低其学习语言的兴致。或是对于一个学习英文的老手而言,太过于简单的学习教材亦无法有效地提升其英文程度。
目前市面上教学用的语言教材多会在其封面或是内容处标示出其适用的语言程度,例如:以小学、国中、高中、大学程度作为区别,或是以全民英语检测的初级、中级、中高级及高级程度作为区别。而使用者可依据自己的语言程度选择适当的教材作为自行进修语言的材料,以加强自己的英文程度。
然而,对于目前刊登于报章杂志上或是在网络上张贴的英文文章,其实并没有一种有效的程度分级方法,以帮助使用者在刚开始看到一篇英文文章时即可大约了解这篇文章是否符合自己的语言程度,再开始阅读这篇文章。
因此,使用者往往是看到这篇文章中一半左右的内容后,才大致了解其实这篇文章中的文法或单字太难,而放弃阅读这篇文章。然而,此时可能已花费使用者很多的时间在查阅文章中的单字或文法等。
发明内容
本发明所要解决的技术问题是提供一种能自动识别语言文本难易程度的系统及其方法,并在显示装置上相应显示出难易级别,以便于使用者选择阅读。
为了实现上述目的,本发明提供了一种识别语言文本难易度的系统,其特点在于,包含有:一数据库,用以储存一难易度分级标准及一字汇分级字表;一文本分析模块,依据一解析规则分析组成一文本的多个句子、多个单字及该文本中子句与长句的比率,并根据该字汇分级字表判别各该单字的难易度分级;及一对比模块,依据该文本的全文总字数、各单字所对应的难易度分级、该文本中子句的比率、长句的比率及与该难易度分级标准进行对比,以判别该文本的一难易度分级。该系统可用以识别一语言文本的难易度分级,使用者可将网络上张贴的英文文本直接转换为文字文件(.txt),或是将刊登于报章杂志上的英文文本先经过扫描仪扫描后,再以文字识别软件转换为文字文件;之后,再将此文本的文字文件加载于此识别语言文本难易度的系统中,即可依据一解析规则(文本的总字数、单字的难易度、文本中子句的比率及长句的比率)分析整篇文本。
之后,将分析所得的结果与一难易度分级标准进行对比,以判别此英文文本的难易程度(在以下说明中,将文本及单字的难易度划分为四个等级:初级、中级、中高级、高级,以作说明),让使用者在刚开始看到这篇文本时,即可大约了解整篇文本对他的语言程度而言是太难、太简单或是程度相符,以决定是否要继续研读。
此外,当本系统判别完一篇文本的难易程度之后,会将文本中不同程度的单字分别以不同颜色标示出来,例如:若判定某一篇文本的难易度是属于中级程度时,可将文本中属于初级、中高级、高级的单字分别以蓝色、红色、紫色标示出来,以方便使用者在刚看到一篇文本时,即可大略地了解各个单字的难易度。
下面结合附图和实施例进一步使对本发明的目的、构造特征及其功能详细说明如下:
附图说明
图1为本发明的识别语言文本难易度系统的系统架构图;
图2为字汇分级字表的示意图;
图3为难易度分级标准的示意图;及
图4为本发明的识别语言文本难易度的方法流程图。
其中,附图标记
10-数据库,20-文本分析模块,30-对比模块,40-标示模块
步骤51,加载一文本;
步骤52,依据一解析规则分析组成该文本的句子、单字及文本中子句与长句的比率,并依据一字汇分级字表判别各单字的难易度分级;
步骤53,依据此文本的全文总字数、各个单字所对应之难易度分级、文本中子句的比率、长句的比率;
步骤54,标示该文本中不属于此难易度分级的单字。
具体实施方式
请参考图1所示,为本发明的识别语言文本难易度系统的系统架构图,该系统包含有:数据库10、文本分析模块20、对比模块30及标示模块40。该系统可以设立在任意一种具有运算处理功能的硬件平台上,如PC机、电脑笔记本、PDA、多功能手机等等。
数据库10用以储存一字汇分级字表与一难易度分级标准。请参考图2所示,为字汇分级字表的示意图,由于该字汇是影响测验难易度的变量之一,因此,即可依据此字汇分级字表将所加载的英文文本中的单字进行分级。此字汇分级字表包含字汇、词性及其相对应的难易度分级。
在图2中所示的字汇分级字表采用国内大考中心全民英语检测所提供的参考字表,以对每个单字进行分级。除了采用全国英语检测所提供的参考字表外,亦可采用国际上一些权威机构所提供的字表,例如:Heinemann GuidedReaders使用的分级系统是Beginner level(600个字)、Elementary level(1100个字)、Intermediate level(1600个字)、Upper level(2200个字)…等,以建构不同的单字其对应的难易度分级。
请参考图3所示,为难易度分级标准的示意图,由于组成一篇英文文本的元素有很多,例如:句子、单字、文法…等,因此,本发明归纳出下列几个解析规则:文本的总字数、单字的难易度、文本中子句的比率及长句的比率,以借助这些规则来判别一篇英文文本的难易度。
文本中出现子句的比率的计算方式是将所有的子句数目除以总句数再乘上100%而得,而子句的判别方式依据文本中关系代名词与关系副词(例如:who、where、which…等)二者的总数而定。
文本中出现长句的比率的计算方式则是将文本中长句的句子数目除以总句数再乘上100%而得,而长句的判别方式则是将每一个句子的总字数与一预设字数(例如:设定预设字数为15个字)相比较,当句子的总字数大于该预设字数时则判定此句子是属于长句。
当文本分析模块20接收到欲进行难易度分析的英文文本的文字文件之后,依据上述的解析规则(文本的总字数、单字的难易度、文本中子句的比率及长句的比率)分析组成此英文文本的每个句子、组成每个句子的单字及文本中子句与长句的比率,并依据储存于数据库10中的字汇分级字表判别各个单字所对应的难易度分级。
最后,对比模块30会将文本分析模块20分析文本所得的全文总字数、各个单字的难易度分级、文本中子句的比率及长句的比率与数据库10中所储存的难易度分级标准进行对比,以判别该文本的难易度分级,即判别此文本的程度是属于初级、中级、中高级或是高级。
举例而言,若某一个文本在文本分析模块20分析后所得到的结果为:总字数255个字、29个子句、子句6句、长句3句、70%的单字符合初级、25%的单字符合中级、3%的单字符合中高级与1%的单字符合高级。之后,对比模块30会将文本分析模块20分析后所得的结果与图3中所示的难易度分级标准进行对比,即可得知该文本是属于中级的语言程度。
此外,标示模块40用以标示此文本中不属于其难易度分级的单字。例如:当某一个文本经过对比后被判别为中级程度时,则文本中其它不属于中级程度的单字(初级、中高级、高级),即可以不同颜色的字体标示出来,以方便使用者识别,而加以学习。
请参考图4所示,为本发明的识别语言文本难易度的方法流程图,而在该方法的运作过程中提及系统运作架构的部分请参阅图1所示,说明如下:首先,加载一文本(步骤51),将欲进行难易度分析的英文文本的文字文件加载于文本分析模块20中;接着,依据一解析规则分析组成此文本的句子、单字及文本中子句与长句的比率,并依据一字汇分级字表判别各单字之难易度分级(步骤52),文本分析模块20会依据文本的总字数、单字的难易度、文本中子句的比率及长句的比率这四个因素,分析组成此英文文本的每个句子、组成每个句子的单字及文本中子句与长句的比率,并依据储存于数据库10中的字汇分级字表判别各个单字所对应的难易度分级。
之后,依据此文本的全文总字数、各个单字所对应的难易度分级、文本中子句的比率、长句的比率及与难易度分级标准进行对比,以判别此文本的难易度分级(步骤53),对比模块30会将文本分析模块20分析文本所得的全文总字数、各个单字的难易度分级、文本中子句的比率及长句的比率与数据库10中所储存的难易度分级标准进行对比,以判别此文本的难易度分级。而进行到该步骤时即已判别出文本的难易度分级。
最后,标示此文本中不属于此难易度分级的单字(步骤54),例如:当某一个文本经过对比后被判别为中级程度时,则标示模块40会将文本中其它不属于中级程度的单字(初级、中高级、高级)以不同颜色的字体标示出来,以方便使用者识别,而加以学习。
以上所述内容,仅为本发明其中的较佳实施例而已,并非用来限定本发明的实施范围;即凡依本发明主要的构思所作的等同变化与修饰,皆为本发明保护范围所涵盖。

Claims (15)

1、一种识别语言文本难易度的系统,其特征在于,包含有:
一数据库,用以储存一难易度分级标准及一字汇分级字表;
一文本分析模块,依据一解析规则分析组成一文本的多个句子、多个单字及该文本中子句与长句的比率,并根据该字汇分级字表判别各该单字的难易度分级;及
一对比模块,依据该文本的全文总字数、各单字所对应的难易度分级、该文本中子句的比率、长句的比率及与该难易度分级标准进行对比,以判别该文本的一难易度分级。
2、如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据该语言文本的总字数判别该语言文本的难易度。
3、如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据各单字的难易度分级判别该语言文本的难易度。
4、如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据各句子中子句使用的多寡判别该语言文本的难易度。
5、如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据该语言文本中长句使用的比率判别该语言文本的难易度。
6、如权利要求1所述的识别语言文本难易度的系统,其特征在于,该字汇分级字表包含多个字汇及其相对应的难易度分级。
7、如权利要求1所述的识别语言文本难易度的系统,其特征在于,该解析规则设定一预设字数,当该句子的字数大于该预设字数时,则判定该句子为长句。
8、如权利要求1所述的识别语言文本难易度的系统,其特征在于,更包含一标示模块,以标示该文本中非难易度分级的单字。
9、一种识别语言文本难易度的方法,其特征在于,包含有下列步骤:
加载一文本;
依据一解析规则分析组成该文本的多个句子、多个单字及该文本中子句与长句的比率,并依据一字汇分级字表判别各单字的难易度分级;及
依据该文本的全文长度、该文本中子句的比率、长句的比率及该文本中各单字所对应的难易度分级与一难易度分级标准进行对比,以判别该文本的一难易度分级。
10、如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据该语言文本的总字数判别该语言文本的难易度。
11、如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据各单字的难易度分级判别该语言文本的难易度。
12、如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据各句子中子句使用的多寡判别该语言文本的难易度。
13、如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据该语言文本中长句使用的比率判别该语言文本的难易度。
14、如权利要求9所述的识别语言文本难易度的方法,其特征在于,该解析规则设定一预设字数,当该句子的字数大于该预设字数时,则判定该句子为长句。
15、如权利要求9所述的识别语言文本难易度的方法,其特征在于,依据该文本的全文长度、该文本中子句的比率、长句的比率及该文本中各单字所对应的难易度分级与一难易度分级标准进行对比,以判别该文本的一难易度分级的步骤之后,更包含标示该文本中非该难易度分级的单字。
CN 200410029572 2004-03-24 2004-03-24 一种识别语言文本难易度的系统及其方法 Pending CN1673996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410029572 CN1673996A (zh) 2004-03-24 2004-03-24 一种识别语言文本难易度的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410029572 CN1673996A (zh) 2004-03-24 2004-03-24 一种识别语言文本难易度的系统及其方法

Publications (1)

Publication Number Publication Date
CN1673996A true CN1673996A (zh) 2005-09-28

Family

ID=35046546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410029572 Pending CN1673996A (zh) 2004-03-24 2004-03-24 一种识别语言文本难易度的系统及其方法

Country Status (1)

Country Link
CN (1) CN1673996A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214164A (zh) * 2010-04-01 2011-10-12 英业达股份有限公司 外语文章分析系统及其方法
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN102929859A (zh) * 2012-09-27 2013-02-13 东莞宇龙通信科技有限公司 辅助阅读的方法及装置
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN106776533A (zh) * 2015-11-20 2017-05-31 衍利行资产有限公司 用于分析一段文本的方法和系统
CN107590126A (zh) * 2017-09-10 2018-01-16 深圳市悦好教育科技有限公司 图书分级方法及系统
CN109035919A (zh) * 2018-08-31 2018-12-18 广东小天才科技有限公司 一种协助用户解决问题的智能装置及系统
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN113254815A (zh) * 2020-02-08 2021-08-13 钉钉控股(开曼)有限公司 文档处理、页面处理方法及设备

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214164A (zh) * 2010-04-01 2011-10-12 英业达股份有限公司 外语文章分析系统及其方法
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN102214246B (zh) * 2011-07-18 2013-01-23 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
CN102929859A (zh) * 2012-09-27 2013-02-13 东莞宇龙通信科技有限公司 辅助阅读的方法及装置
CN102929859B (zh) * 2012-09-27 2015-07-08 东莞宇龙通信科技有限公司 辅助阅读的方法及装置
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN105224524B (zh) * 2015-09-02 2022-01-25 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN106776533B (zh) * 2015-11-20 2021-05-07 衍利行资产有限公司 用于分析一段文本的方法和系统
CN106776533A (zh) * 2015-11-20 2017-05-31 衍利行资产有限公司 用于分析一段文本的方法和系统
CN107590126A (zh) * 2017-09-10 2018-01-16 深圳市悦好教育科技有限公司 图书分级方法及系统
CN109035919A (zh) * 2018-08-31 2018-12-18 广东小天才科技有限公司 一种协助用户解决问题的智能装置及系统
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN110727796B (zh) * 2019-09-17 2020-12-22 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN113254815A (zh) * 2020-02-08 2021-08-13 钉钉控股(开曼)有限公司 文档处理、页面处理方法及设备
CN113254815B (zh) * 2020-02-08 2023-11-10 钉钉控股(开曼)有限公司 文档处理、页面处理方法及设备

Similar Documents

Publication Publication Date Title
CN107291694B (zh) 一种自动评阅作文的方法和装置、存储介质及终端
CN1673996A (zh) 一种识别语言文本难易度的系统及其方法
CN110059636A (zh) 一种检查纠正学生的学习作业的方法及系统
Cavalli-Sforza et al. Arabic readability research: current state and future directions
Cortes Lexical bundles in EAP
Kamal et al. Towards Kurdish text to sign translation
CN1424665A (zh) 具有听写测验及自动评分功能的装置及其操作方法
Guo Verbs in the written English of Chinese learners: A corpus-based comparison between non-native speakers and native speakers
CN112182210B (zh) 基于作文论据特征分类器的语言生成模型及写作支持方法
CN1275174C (zh) 具有语音辨识辅助功能的中文输入方法及其系统
Barus et al. THE The Correlation Between Vocabulary Mastery and Writing Skill a Meta-Analysis
Santos Jr et al. Impacts of analysts' cognitive styles on the analytic process
Dazdarevic et al. Corpus approach to analysing gerund vs infinitive
CN116562278B (zh) 一种词语相似性检测方法及系统
Davoodi et al. On the Influence of Contextual Features for the Identification of Complex Words
Gong et al. On the semantic relations and functional properties of noun-noun compounds in Mandarin
Smitterberg Using Very Large Corpora to Teach Modern English (1500–1945)
Chen et al. A novel frequency-range analysis (FRA) method for determining critical words among English high-stakes tests
Sari et al. Structure of Lexical Bundles in Articles Published by Journal of Cultural Heritage Vol. 55 (Scopus Q1)
Feng Abstract Extraction Algorithm on Account of Parallel Corpus in English Teaching
TWI281147B (en) System and method for recognizing difficulty of language literature
Rubio Lexical complexity, writing proficiency, and task effects in Spanish Dual Language Immersion Erin Schnur, Cambly
ROY CHAPTER SEVEN HONG KONG ENGLISH: THE SITUATION AND ITS FUTURE CHAN KA LONG ROY
Bérešová The use of corpora in english language teaching
Horiba et al. Breadth and Depth of Vocabulary Knowledge in a Second Language: A Developmental Perspective

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication