CN105224664B - 一种数字出版物词汇抽取、显示方法和系统 - Google Patents

一种数字出版物词汇抽取、显示方法和系统 Download PDF

Info

Publication number
CN105224664B
CN105224664B CN201510645332.XA CN201510645332A CN105224664B CN 105224664 B CN105224664 B CN 105224664B CN 201510645332 A CN201510645332 A CN 201510645332A CN 105224664 B CN105224664 B CN 105224664B
Authority
CN
China
Prior art keywords
vocabulary
word frequency
frequency section
word
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510645332.XA
Other languages
English (en)
Other versions
CN105224664A (zh
Inventor
孙继兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510645332.XA priority Critical patent/CN105224664B/zh
Publication of CN105224664A publication Critical patent/CN105224664A/zh
Application granted granted Critical
Publication of CN105224664B publication Critical patent/CN105224664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种数字出版物词汇抽取、显示方法和系统,包括:输入数字出版物;统计数字出版物中的词汇总量以及每一个词汇的词频,将数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在数字出版物中抽取相应的词汇,得到总词汇表和相关数据表;根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习。本发明能够减少阅读中由于生词造成的语言障碍,改善阅读质量和提高词汇学习效率。

Description

一种数字出版物词汇抽取、显示方法和系统
技术领域
本发明涉及一种数字出版物词汇抽取、显示系统和方法。
背景技术
人类已经进入数字出版时代,由于数字出版平台和电子读物自身的数字化特点,使利用各种现代技术为读者提供各种包括娱乐和辅助学习功能的新型有效服务成为可能。目前,利用现代技术为人类阅读提供语言方面服务存在以下问题:
1)读物语言难度信息缺乏
为实现成功阅读,读者在选择读物时需要考虑语言难度方面的因素,在外文阅读中就更显重要。因为,如果语言难度过大,词汇和语法会超出读者所能理解范围,读者很难看懂内容,由此产生的阅读障碍将使阅读无法进行和持续。
目前数字出版中已经提供的文本难度(文本易读性)服务,或称为阅读分级服务,较好地了解决这个问题,但阅读分级服务主要体现在儿童阅读方面,对于成人和外文阅读方面还没有涉及。
2)阅读文本中的生词无法预知
在目前提供的语言服务中,对于阅读,无论是多媒体阅读还是文本阅读,无论是文本难度服务、屏幕取词和翻译服务,都还没有解决人类几千年来无法克服的问题,即没有办法提前知道阅读内容中可能遇到的词汇方面的困难。
同样,在观看外文动漫和电影时,也无法知道其中可能面临的词汇,只能在观看过程中以笔记的方式进行人工记录,即影响观看效果,同时由于人类短时记忆的限制,对词汇的记忆也很有限。如果能提前知道所要阅读文本内容中的生词,以将要阅读的章节为单位,进行预习;预先知道所要观看的外文影片中几个不熟悉的词或俚语,提前进行读写和听力练习,则可以大大改善阅读和观看质量。
对有些读者或观看者,所涉及的词汇、难句、俚语的数量可能较多,对其他的人,则可能比较少,有时甚至是很少的,但通过预习都会产生积极影响。
3)返回原语境复习知识点困难
在目前对各种数字出版物提供的语言服务中,包括书籍电影等,除了无法预知可能遇到的生词外,另一个问题就是不容易返回原语境复习。例如,在读书时遇到一个生词,用笔记录下来,有的读者把生词和查到的解释记录到书上(如果读的是纸质书),有的读者记录到笔记本上(包括电子笔记本),但不是所有人在记录一个生词或难句时,都把其对应的页码记录下来,这就产生了返回原语境复习的困难。但在语言学习时,在上下相关语境中的学习非常重要,外语学习中更是如此。
4)语言学研究成果在服务中难以体现
随着人类语言学研究的发展,对于语言本身的规律有了进一步的了解,积累了很多语言研究成果,但很少和难以在数字出版语言服务中应用。
例如词频统计结果显示,一种语言中,尽管词汇很多,但在人们的实际生活和书籍中,常用词占了绝大部分,充分利用词频分布会对阅读产生很大帮助。
目前,词频规律被普遍应用于教材和外语测试中的词汇确定等,但在数字出版方面的语言服务中,除了阅读分级中的文本难度测量,还没有发现直接的应用。如屏幕取词服务就没有提供这种词频信息,即使提供了,意义也不大,因为屏幕取词是随机性的,和文本总体词汇分布及读者自身语言水平没有直接的相关性。
5)不能提供对减少屏幕或网络阅读副作用的帮助
目前数字出版服务提供的语言服务中,除了电子书阅读器中的内置词典,其它“屏”阅读中的词汇服务,如屏幕取词、朗读和例句显示等,大部分都是网络在线环境实现的,如何帮助人们在离开网络,在绿树阴下、小溪河旁享受传统的纸质书阅读时也能获得与“在网”时一样的语言服务,即利用现代技术的帮助,同时又恢复人类被“网”所束缚的自由是具有非常积极意义的探索。
词汇是语言学习的基础,语言学家研究结论是:初次呈现新单词最好是使用脱离上下文的单词表;高水平的学习者通过上下文有可能学到词汇,但初学者也许更加得益于带有翻译词义的词汇表;利用单词表模式比利用语境模式学习单词效果更好;在语言学习、特别是外语学习中,即使对于语言水平已经达到了一定程度的学习者而言,通过单词表来提高词汇量仍然不失为一种有效的办法。目前研究证明,学习者必须在一个时间段内(如半年)接触同一个单词至少7-10次才能记住这个单词。如果一个学习者要想在半年之内通过阅读文章的方法来学习并记住1000个新单词,那么就意味着这1000个单词必须在他半年内所阅读的文字材料中都出现7-10次。诸多关于词汇频率的研究表明,这显然是不可能的。因此,如果要想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆新单词应该是较好的、也是最直接的办法。
发明内容
本发明所要解决的技术问题是提供一种数字出版物词汇抽取、显示系统和方法,能够减少阅读中由于生词造成的语言障碍,改善阅读质量和提高词汇学习效率。
本发明解决上述技术问题的技术方案如下:一种数字出版物词汇抽取显示方法,包括以下步骤:
步骤1,输入数字出版物;
步骤2,统计数字出版物中的词汇总量以及每一个词汇的词频,将所述数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;
或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表中记录所有的词汇以及词汇信息,所述相关数据表中记录所有词汇的相关信息;
步骤3,根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;
步骤4,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习。
本发明的有益效果是:将数字出版物中的词汇以按照词频词典中的词频大小排序后的顺序或按照数字出版物中词汇词频大小排序后的顺序依次抽取,并划分成不同的词频段,然后读者可以提前打包下载学习,这样就能够减少阅读中由于生词太多所造成的语言障碍,达到改善阅读质量和提高词汇学习效率效果。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,所述步骤3中词频段的个数及各个词频段包括的词汇数量照以下方法计算:
当满足第一判断条件时,词频段数p=int(j/m),得到p个词频段,p取正整数;前p个词频段每个词频段加入m个词汇;当剩余词汇s1=j-int(j/m)×m大于或等于m/2时,则在p个词频段的基础上增加一个词频段将剩余的词汇添加至该词频段,当剩余词汇小于m/2时,则将剩余的词汇添加至第p个词频段当中;j为所述总词汇表中的总词汇量,m取值为与j为相同数量级的最小数;int为取整函数;所述第一判断条件指所述总词汇表中的词汇数量小于或等于第一预设值;
当满足第二判断条件时,按照所述词频段顺序从第一个词频段开始将大于第一预设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预设值部分的词汇量为i,当i小于1000时,则将所述i个词汇加入满足第一判断条件时已存在的最后一个词频段中,当i大于或等于1000时,则按照词频段的顺序依次在每个已存在的词频段中增加k个词汇,剩余的词汇s2=i-int(i/k)×k添加至最后一个词频段中,k取与i数量级相同的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或等于第二预设值;所述第二预设值为所述第一预设值的二倍;
当满足第三判断条件时,则采用满足第二判断条件时的添加规则,将大于第二预设值的部分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所述第三判断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值为所述第一预设值的三倍;
当满足第四判断条件时,则采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,,所述第四判断条件指总词汇量大于第三预设值。
采用上述进一步方案的有益效果是:通过将数字出版物当中的所有词汇分成多个词频段,每个词频段中包括一定的词汇量,并且所有的词汇按照词频段的顺序排序,这样读者就可以有目的性地进行下载学习,从而减少阅读中由于生词太多而造成的语言障碍,提高阅读质量。
进一步,所述采用高低频分段方法划分词频段以及确定每个词频段中所包括的词汇量,具体为:
计算高频段和低频段的预分界点f:f=int(j/2);
判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;
若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量为低频段的词频段个数为x,x不大于5;
若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取使f+a为与f最接近的d的正整数倍的数值;所述高频段的词频段个数为d/1000,每个词频段中包括的词汇量为:低频段的总词汇量为j-f-a,低频段的词频段个数为x,x不大于5,a大于0;所述低频段的词频段数量及低频段的每个词频段包括的词汇数量按照以下方法确定:
当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应为:x=int{(j-f-a)/1000},每个低频段的词频段容纳量基数为1000,将余数部分词汇量:j-f-a-int{(j-f-a)/1000}*1000放入最后一个词频段中;
当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段的词频段中。
进一步,所述步骤2中的词汇信息包括词汇原型、词汇释义、词汇外语释义、词汇音标和备注;所述相关信息包括该词汇所出现的章号和页码,以及该词汇在该章中首次出现的页码和在该章中出现的总次数,所述词汇外语释义包括一种或多种语言的外语释义。
采用上述进一步方案的有益效果是:通过添加词汇释义和词汇外语释义以及词汇音标,能够帮助读者学习;而相关信息可以使读者回到语境中进行学习,提高阅读质量。
进一步,数据包为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息,以及包括与每一页对应的所有词汇的词汇信息。
采用上述进一步方案的有益效果是:将词汇按照词频大小以章或页进行显示,能够使读者更加清楚地了解每一章或每一页的词汇量,从而进行有针对性地下载学习。
为解决上述问题,本发明还提出了一种数字出版物词汇抽取、显示系统,包括:
输入模块,用于输入数字出版物;
词汇抽取模块,用于统计数字出版物中的词汇总量以及每一个词汇的词频,将所述数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;
或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表中记录所有的词汇以及词汇信息,所述相关数据表中记录所有词汇的相关信息;
词频段划分模块,用于根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;
数据包组成模块,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习。
在上述技术方案的基础上,本发明还可以作如下改进:
进一步,所述词频段划分模块包括:
第一词频段单元,用于当满足第一判断条件时,词频段数p=int(j/m),得到p个词频段,p取正整数;前p个词频段每个词频段加入m个词汇;当剩余词汇s1=j-int(j/m)×m大于或等于m/2时,则在p个词频段的基础上增加一个词频段将剩余的词汇添加至该词频段,当剩余词汇小于m/2时,则将剩余的词汇添加至第p个词频段当中;j为所述总词汇表中的总词汇量,m取值为与j为相同数量级的最小数;int为取整函数;所述第一判断条件指所述总词汇表中的词汇数量小于或等于第一预设值;
第二词频段单元,用于当满足第二判断条件时,按照所述词频段顺序从第一个词频段开始将大于第一预设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预设值部分的词汇量为i,当i小于1000时,则将所述i个词汇加入满足第一判断条件时已存在的最后一个词频段中,当i大于或等于1000时,则按照词频段的顺序依次在每个已存在的词频段中增加k个词汇,剩余的词汇s2=i-int(i/k)×k添加至最后一个词频段中,k取与i数量级相同的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或等于第二预设值;所述第二预设值为所述第一预设值的二倍;
第三词频段单元,用于则采用满足第二判断条件时的添加规则,将大于第二预设值的部分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所述第三判断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值为所述第一预设值的三倍;
第四词频段单元,用于当满足第四判断条件时,则采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,所述第四判断条件指总词汇量大于第三预设值。
进一步,所述第四词频段单元采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,具体为:
计算高频段和低频段的预分界点f:f=int(j/2);
判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;
若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量为低频段的词频段个数为x,x不大于5;
若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取使f+a为与f最接近的d的正整数倍的数值;所述高频段的词频段个数为d/1000,每个词频段中包括的词汇量为:低频段的总词汇量为j-f-a,低频段的词频段个数为x,x不大于5,a大于0;所述低频段的词频段数量及每个低频段的词频段包括的词汇数量按照以下方法确定:
当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应为:x=int{(j-f-a)/1000},每个低频段的词频段容纳量基数为1000,将余数部分词汇量:j-f-a-int{(j-f-a)/1000}*1000放入最后一个词频段中;
当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段的词频段中。
进一步,所述词汇抽取模块包括总词汇表计数器、章内词汇出现次数计数器、词频词典取词计数器;
所述词频词典取词计数器,用于依次在排序后的词频词典中提取词汇;
所述总词汇表计数器,用于根据所述词频词典取词计数器提取出来的词汇在所述数字出版物中抽取该词汇;或统计数字出版物中的词汇总量以及每一个词汇的词频;
所述章内词汇出现次数计数器,用于记录总词汇表计数器抽取出来的词汇在每一章中出现的次数。
进一步,所述数据包组成模块为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息,以及包括与每一页对应的所有词汇的词汇信息。
本发明的有益效果是:通过词汇抽取模块将数字出版物中的词汇以按照词频词典中的词频大小排序后的顺序依次抽取或直接对数字出版物中的词汇和词频进行统计排序,并使用词频段划分模块划分成不同的词频段,然后读者可以在数据包组成模块中提前打包下载学习,这样就能够减少阅读中由于生词太多所造成的语言障碍,达到改善阅读质量和提高词汇学习效率的效果。
附图说明
图1为本发明一种数字出版物词汇抽取、显示方法的流程示意图;
图2为本发明一种数字出版物词汇抽取、显示系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明所基于的原理是:因为一个读者的语言水平越高,所认识的难词、或者说低频词就越多,那么如果把一种语言的词汇按词频分段,语言水平高的读者生词少且趋于低频词段;语言水平较低的读者生词较多,词频段跨度较大,因此,可以通过采用不同的词汇抽取策略提供不同频段的词汇表来满足不同语言水平读者的需要。
如图1所示,一种数字出版物词汇抽取、显示方法,包括以下步骤:
步骤1,输入数字出版物;
步骤2,统计数字出版物中的词汇总量以及每一个词汇的词频,将所述数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;其中,统计数字出版物中每一个词汇的词频指的是统计每一个词汇在该数字出版物当中出现的总次数;
或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表中记录所有的词汇以及词汇信息,所述相关数据表中记录所有词汇的相关信息;其中,将词频词典中的词汇按照词频大小进行排序,指将词频词典中的所有词汇按照其在词频词典中记录的频次排序;
词汇信息包括词汇原型、词汇释义、词汇外语释义、词汇音标和备注;备注用于根据读物类型和语言类型添加各种文本或多媒体信息。如儿童感兴趣的图片,汉字的字理解释和汉字书写笔画的动画显示;所述词汇外语释义包括一种或多种语言的外语释义;
相关信息包括该词汇所出现的章号和页码,以及该词汇在该章中首次出现的页码和在该章中出现的总次数;相关数据表具体按照以下方法建立:
建立章相关数据表,用来记录每个词汇所出现的章号;
建立页相关数据表,用来记录每个词汇所出现的页码;
建立首页码相关数据表,用来记录每个词汇首次出现的页码;
建立总次数相关数据表,用来记录每个词汇在该章中出现的总次数;
为了方便其他国家读者阅读非母语的数字出版物,可以在总词汇表当中添加其他国家读者的母语释义,例如:为了方便英语为母语的读者阅读汉语的数字出版物,可以通过汉英词典在总词汇表中添加英语释义。
如果是基于双解词频词典或多语种词频词典,则词汇表中不仅有母语和某一门外语的释义,还同时提供对应多种语言的词汇外语释义,能同时形成服务于母语读者和其他国家以该母语为目标语言的读者所用的总词汇表。
步骤3,根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;
其中,词频段的个数及各个词频段包括的词汇数量按照以下方法计算:
当满足第一判断条件时,词频段数p=int(j/m),得到p个词频段,p取正整数;前p个词频段每个词频段加入m个词汇;当剩余词汇s1=j-int(j/m)×m大于或等于m/2时,则在p个词频段的基础上增加一个词频段将剩余的词汇添加至该词频段,当剩余词汇小于m/2时,则将剩余的词汇添加至第p个词频段当中;j为所述总词汇表中的总词汇量,m取值为与j为相同数量级的最小数;int为取整函数;所述第一判断条件指所述总词汇表中的词汇数量小于或等于第一预设值;第一预设值取值为7000;
当满足第二判断条件时,按照所述词频段顺序从第一个词频段开始将大于第一预设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预设值部分的词汇量为i,则按照词频段的顺序依次在每个已存在的词频段中增加k个词汇,剩余的词汇s2=i-int(i/k)×k添加至最后一个词频段中,k取与j数量级相同的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或等于第二预设值;所述第二预设值为所述第一预设值的二倍;
当满足第三判断条件时,则采用满足第二判断条件时的添加规则,并按照所述词频段顺序从第一个词频段开始将大于第二预设值的部分的词汇添加至已存在的词频段中;所述第三判断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值为所述第一预设值的三倍;
由于所使用的词频词典是按照词频进行排序的,或按照数字出版物中词汇的词频排序,所以总词汇表中词汇的词频也是按照升序或降序排序的。例如:总词汇表中的第5个词汇的词频就会高于或低于第6个词汇的词频,因此,划分之后的词频段也是按照从高频到低频的顺序或从低频到高频的顺序进行排序,这样有助于读者进行更有针对性的学习,方便读者学习。
下面通过举例对上述词频段的划分方法进行说明:
当总词汇数小于或等于7000时,词频段数p=int(j/1000),各个词频段内词汇数按照从前到后的顺序,每个词频段中词汇数取整数1000,最后一个词频段中词汇数取余数,例如:如果总词汇数为2300,则总词频段数=int(2300/1000),得到2个词频段,这2个词频段中分别加入1000个词汇,剩余词汇为300,由于300小于1000/2,因此,将剩余的300个词汇添加至第二个词频段中,两个词频段中包括的词汇数量为:第一个词频段中词汇数取1000,第二个词频段中词汇取1300;
例如:当总词汇量j为6500时,词频段数=int(6500/1000),得到6个词频段,这6个词频段分别加入1000个词汇,剩余的词汇s1=6500-int(6500/1000)×1000=500,由于500等于1000/2,因此增加1个词频段,将这500个词汇加入该词频段;
当总词汇数大于7000且小于或等于14000时,总词频段数设置为7个,但最居前的词频段词汇数目根据需要进行增加,例如:总词汇数为7500时,则最后一个词频段中的词汇数变为1500,其余词频段中的词汇数仍然为1000;当总词汇数为8600时,则第一个词频段中的词汇数变为原来的两倍,即2000,最后一个词频段中词汇量为1600,其余词频段的词汇数仍然为1000,依次类推,直到总词汇数达到14000时,7个词频段中每个词频段的词汇数均为2000;当总词汇量为12500时,则词频段数为7,每个词频段中包括的词汇数量为2000、2000、2000、20000、20000、1000、1500。
当总词汇数大于14000小于21000时,总词频段的个数依然为7个,然后按照上述总词汇数大于7000时的规则进行划分,但这时最居前的词频段中词汇数变为原来的三倍,直到总词汇数达到21000时,每个词频段中的词汇数均为3000。
这时,随着词汇总量的增多,每个词频段中包括的词汇数量也相应增多,因此,采用高低频分段的方法划分词频段以确定每个词频段中所包括的词汇量,高低频段分段方法划分词频段以及确定每个词频段中所包括的词汇量,具体为:
所述采用高低频分段方法划分词频段以及确定每个词频段中所包括的词汇量,具体为:
计算高频段和低频段的预分界点f:f=int(j/2);
判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;
若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量为低频段的词频段个数为x,x不大于5;
若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取使f+a为与f最接近的d的正整数倍的数值;所述高频段的词频段个数为d/1000,每个词频段中包括的词汇量为:低频段的总词汇量为j-f-a,低频段的词频段个数为x,x不大于5,a大于0;所述低频段的词频段数量及每个低频段的词频段包括的词汇数量按照以下方法确定:
当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应为:x=int{(j-f-a)/1000},低频段的每个词频段容纳量基数为1000,将余数部分词汇量:j-f-a-int{(j-f-a)/1000}*1000放入最后一个词频段中;
当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段的词频段中,即首先用j-f-a除以5000,得到商和余数,记商为y,余数为c。若余数c为0,则低频段的每个词频段中所包括的词汇量为y*1000;否则,在低频段的每个词频段中都放入y*1000个词汇后,余数部分的词汇量c按顺序依次放入低频段的词频段中,每次放入的词汇量不超过低频段的每个词频段容纳量基数。
例如:当j为38000时,预分界点为19000,由于f不是d的正整数倍,因此,从低频段补入2000个单词,使高频段的词汇总量为与19000最接近的d的正整数倍,高频段的词频段个数为7,每个词频段中词汇量为3000,低频段的总词汇量为17000,由于17000超过了各低频词频段容纳量基数总和,因此,用17000除以5000,得到商y为3,余数c为2000,则首先在低频段的每个词频段当中放入y*3个词汇,即3000个词汇,然后把余数c的2000个词汇依次放入第一个和第二个词频段当中,最终,低频段的每个词频段当中所包括的词汇量为:4000,4000,3000,3000,3000。
优选地,可以将所有的低频词频段放在一个词频段当中,以二级词频段显示,这样可以避免读者一次接触太多词频段和词汇量产生负担。
如果数字出版物为儿童读物,由于总词汇量较少,一般会小于7000,因此,适用小于第一预设值时的情况。
步骤4,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习。
所述数据包组成模块为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息,以及包括与每一页对应的所有词汇的词汇信息。
APP数据显示包按章显示时,主要是对本章词汇的预览,所以提供词汇释义和起始页码及本章出现次数;按页显示时,对词汇本身可以更深入了解,所以提供了词汇释义和发音并备注字段。
如图2所示,为一种数字出版物词汇抽取、显示系统,包括:
输入模块,用于输入数字出版物;
词汇抽取模块,用于统计数字出版物中的词汇总量以及每一个词汇的词频,将所述数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;
或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表中记录所有的词汇以及词汇信息,所述相关数据表中记录所有词汇的相关信息;
词频段划分模块,用于根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;
数据包组成模块,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习。
其中,所述词频段划分模块包括:
第一词频段单元,用于当满足第一判断条件时,词频段数p=int(j/m),得到p个词频段,p取正整数;前p个词频段每个词频段加入m个词汇;当剩余词汇s1=j-int(j/m)×m大于或等于m/2时,则在p个词频段的基础上增加一个词频段将剩余的词汇添加至该词频段,当剩余词汇小于m/2时,则将剩余的词汇添加至第p个词频段当中;j为所述总词汇表中的总词汇量,m取值为与j为相同数量级的最小数;int为取整函数;所述第一判断条件指所述总词汇表中的词汇数量小于或等于第一预设值;
第二词频段单元,用于当满足第二判断条件时,按照所述词频段顺序从第一个词频段开始将大于第一预设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预设值部分的词汇量为i,当i小于1000时,则将所述i个词汇加入满足第一判断条件时已存在的最后一个词频段中,当i大于或等于1000时,则按照词频段的顺序依次在每个已存在的词频段中增加k个词汇,剩余的词汇s2=i-int(i/k)×k添加至最后一个词频段中,k取与i数量级相同的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或等于第二预设值;所述第二预设值为所述第一预设值的二倍;
第三词频段单元,用于采用满足第二判断条件时的添加规则,将大于第二预设值的部分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所述第三判断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值为所述第一预设值的三倍;
第四词频段单元,当满足第四判断条件时,则采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,所述第四判断条件指总词汇量大于第三预设值,具体为:
计算高频段和低频段的预分界点f:f=int(j/2);
判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;
若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量为低频段的词频段个数为x,x不大于5;
若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取值为使f+a与f为最接近的d的正整数倍的数值;则高频段的词频段个数为d/1000,每个词频段中包括的词汇量为:低频段的总词汇量为j-f-a,低频段的词频段个数为x,x不大于5;
当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应为:x=int{(j-f-a)/1000},每个低频段的词频段容纳量基数为1000,将余数部分词汇量:j-f-a-int{(j-f-a)/1000}*1000放入最后一个词频段中;
当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段的词频段中。
其中,所述词汇抽取模块包括总词汇表计数器、章内词汇出现次数计数器、词频词典取词计数器;
所述词频词典取词计数器,用于依次在排序后的词频词典中提取词汇;
所述总词汇表计数器,用于根据所述词频词典取词计数器提取出来的词汇在所述数字出版物中抽取该词汇;或统计数字出版物中的词汇总量以及每一个词汇的词频;
所述章内词汇出现次数计数器,用于记录总词汇表计数器抽取出来的词汇在每一章中出现的次数。
其中,所述数据包组成模块为APP数据显示包,包括章显示数据包组成单元和页显示数据包组成单元。
在确定显示界面的主元素时,可通过章号和词频段同时选择显示该章内属于该词频段的词汇表;也可通过页码和词频段同时选择显示指定页码中属于某一词频段的词汇;因此,所述数据包组成模块为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息,以及包括与每一页对应的所有词汇的的词汇信息。
本发明的词汇抽取是在服务器上进行的,抽取完成后的词汇表采用应用程序打包的方法放在服务器上,读者下载后,解压缩就可以直接查看词汇表。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数字出版物词汇抽取、显示方法,其特征在于,包括以下步骤:
步骤1,输入数字出版物;
步骤2,统计数字出版物中的词汇总量以及每一个词汇的词频,将所述数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;
或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表中记录所有的词汇以及词汇信息,所述相关数据表中记录所有词汇的相关信息;
步骤3,根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;
步骤4,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习;
所述步骤3中词频段的个数及各个词频段包括的词汇数量照以下方法计算:
当满足第一判断条件时,词频段数p=int(j/m),得到p个词频段,p取正整数;前p个词频段每个词频段加入m个词汇;当剩余词汇s1=j-int(j/m)×m大于或等于m/2时,则在p个词频段的基础上增加一个词频段将剩余的词汇添加至该词频段,当剩余词汇小于m/2时,则将剩余的词汇添加至第p个词频段当中;j为所述总词汇表中的总词汇量,m取值为与j为相同数量级的最小数;int为取整函数;所述第一判断条件指所述总词汇表中的词汇数量小于或等于第一预设值;
当满足第二判断条件时,按照所述词频段顺序从第一个词频段开始将大于第一预设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预设值部分的词汇量为i,当i小于1000时,将所述i个词汇加入满足第一判断条件时已存在的最后一个词频段中;当i大于或等于1000时,按照词频段的顺序依次在满足第一判断条件时已存在的每个词频段中增加k个词汇,剩余的词汇s2=i-int(i/k)×k添加至满足第一判断条件时已存在的最后一个词频段中,k取与i数量级相同的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或等于第二预设值;所述第二预设值为所述第一预设值的二倍;
当满足第三判断条件时,则采用满足第二判断条件时的添加规则,将大于第二预设值的部分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所述第三判断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值为所述第一预设值的三倍;
当满足第四判断条件时,则采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,所述第四判断条件指总词汇量大于第三预设值。
2.根据权利要求1所述一种数字出版物词汇抽取、显示方法,其特征在于,所述采用高低频分段方法划分词频段以及确定每个词频段中所包括的词汇量,具体为:
计算高频段和低频段的预分界点f:f=int(j/2);
判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;
若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量为低频段的词频段个数为x,x不大于5;
若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取使f+a为与f最接近的d的正整数倍的数值;所述高频段的词频段个数为d/1000,每个词频段中包括的词汇量为:低频段的总词汇量为j-f-a,低频段的词频段个数为x,x不大于5,a大于0;所述低频段的词频段数量及每个低频段的词频段包括的词汇数量按照以下方法确定:
当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应为:x=int{(j-f-a)/1000},低频段的每个词频段容纳量基数为1000,将余数部分词汇量:j-f-a-int{(j-f-a)/1000}*1000放入最后一个词频段中;
当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段的词频段中。
3.根据权利要求1所述一种数字出版物词汇抽取、显示方法,其特征在于,所述步骤2中的词汇信息包括词汇原型、词汇释义、词汇外语释义、词汇音标和备注;所述相关信息包括该词汇所出现的章号和页码,以及该词汇在该章中首次出现的页码和在该章中出现的总次数,所述词汇外语释义包括一种或多种语言的外语释义。
4.根据权利要求3所述一种数字出版物词汇抽取、显示方法,其特征在于,所述步骤4中的数据包为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息,以及包括与每一页对应的所有词汇的词汇信息。
5.一种数字出版物词汇抽取、显示系统,其特征在于,包括:
输入模块,用于输入数字出版物;
词汇抽取模块,用于统计数字出版物中的词汇总量以及每一个词汇的词频,将所述数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;
或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表中记录所有的词汇以及词汇信息,所述相关数据表中记录所有词汇的相关信息;
词频段划分模块,用于根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;
数据包组成模块,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习;
所述词频段划分模块包括:
第一词频段单元,用于当满足第一判断条件时,词频段数p=int(j/m),得到p个词频段,p取正整数;前p个词频段每个词频段加入m个词汇;当剩余词汇s1=j-int(j/m)×m大于或等于m/2时,则在p个词频段的基础上增加一个词频段将剩余的词汇添加至该词频段,当剩余词汇小于m/2时,则将剩余的词汇添加至第p个词频段当中;j为所述总词汇表中的总词汇量,m取值为与j为相同数量级的最小数;int为取整函数;所述第一判断条件指所述总词汇表中的词汇数量小于或等于第一预设值;
第二词频段单元,用于当满足第二判断条件时,按照所述词频段顺序从第一个词频段开始将大于第一预设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预设值部分的词汇量为i,当i小于1000时,则将所述i个词汇加入满足第一判断条件时已存在的最后一个词频段中,当i大于或等于1000时,则按照词频段的顺序依次在每个已存在的词频段中增加k个词汇,剩余的词汇s2=i-int(i/k)×k添加至最后一个词频段中,k取与i数量级相同的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或等于第二预设值;所述第二预设值为所述第一预设值的二倍;
第三词频段单元,用于当满足第三判断条件时,则采用满足第二判断条件时的添加规则,将大于第二预设值的部分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所述第三判断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值为所述第一预设值的三倍;
第四词频段单元,当满足第四判断条件时,则采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,所述第四判断条件指总词汇量大于第三预设值。
6.根据权利要求5所述一种数字出版物词汇抽取、显示系统,其特征在于,所述第四词频段单元采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,具体为:
计算高频段和低频段的预分界点f:f=int(j/2);
判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;
若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量为低频段的词频段个数为x,x不大于5;
若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取使f+a为与f最接近的d的正整数倍的数值;所述高频段的词频段个数为d/1000,每个词频段中包括的词汇量为:低频段的总词汇量为j-f-a,低频段的词频段个数为x,x不大于5,a大于0;所述低频段的词频段数量及每个低频段的词频段包括的词汇数量按照以下方法确定:
当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应为:x=int{(j-f-a)/1000},低频段的每个词频段容纳量基数为1000,将余数部分词汇量:j-f-a-int{(j-f-a)/1000}*1000放入最后一个词频段中;
当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段的词频段中。
7.根据权利要求5所述一种数字出版物词汇抽取、显示系统,其特征在于,所述词汇抽取模块包括总词汇表计数器、章内词汇出现次数计数器、词频词典取词计数器;
所述词频词典取词计数器,用于依次在排序后的词频词典中提取词汇;
所述总词汇表计数器,用于根据所述词频词典取词计数器提取出来的词汇在所述数字出版物中抽取该词汇;或统计数字出版物中的词汇总量以及每一个词汇的词频;
所述章内词汇出现次数计数器,用于记录总词汇表计数器抽取或统计的词汇在每一章中出现的次数。
8.根据权利要求6或7所述一种数字出版物词汇抽取、显示系统,其特征在于,所述数据包组成模块为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息,以及包括与每一页对应的所有词汇的词汇信息。
CN201510645332.XA 2015-10-08 2015-10-08 一种数字出版物词汇抽取、显示方法和系统 Active CN105224664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510645332.XA CN105224664B (zh) 2015-10-08 2015-10-08 一种数字出版物词汇抽取、显示方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510645332.XA CN105224664B (zh) 2015-10-08 2015-10-08 一种数字出版物词汇抽取、显示方法和系统

Publications (2)

Publication Number Publication Date
CN105224664A CN105224664A (zh) 2016-01-06
CN105224664B true CN105224664B (zh) 2019-02-05

Family

ID=54993632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510645332.XA Active CN105224664B (zh) 2015-10-08 2015-10-08 一种数字出版物词汇抽取、显示方法和系统

Country Status (1)

Country Link
CN (1) CN105224664B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679037B (zh) * 2017-10-11 2021-01-15 北京工商大学 一种基于词频的数字出版物词汇抽取方法
CN107784096B (zh) * 2017-10-19 2021-11-26 王守刚 一种阅读辅助系统及方法
CN107765949B (zh) * 2017-10-30 2019-08-30 广东小天才科技有限公司 一种单词释义框的显示方法及电子设备
CN112334975A (zh) * 2018-06-29 2021-02-05 索尼公司 信息处理设备、信息处理方法和程序
CN110334215B (zh) * 2019-07-10 2021-08-10 北京麒才教育科技有限公司 词汇学习框架的构建方法、装置、电子设备及存储介质
CN110321404B (zh) * 2019-07-10 2021-08-10 北京麒才教育科技有限公司 词汇学习的词条选取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053974A (zh) * 2009-11-03 2011-05-11 新浪网技术(中国)有限公司 一种汉字输入方法和装置
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN103678620A (zh) * 2013-12-18 2014-03-26 国家电网公司 一种基于用户历史行为特征的知识文档推荐方法
CN103942190A (zh) * 2014-04-16 2014-07-23 安徽科大讯飞信息科技股份有限公司 文本分词方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053974A (zh) * 2009-11-03 2011-05-11 新浪网技术(中国)有限公司 一种汉字输入方法和装置
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN103678620A (zh) * 2013-12-18 2014-03-26 国家电网公司 一种基于用户历史行为特征的知识文档推荐方法
CN103942190A (zh) * 2014-04-16 2014-07-23 安徽科大讯飞信息科技股份有限公司 文本分词方法及系统

Also Published As

Publication number Publication date
CN105224664A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN105224664B (zh) 一种数字出版物词汇抽取、显示方法和系统
Monaghan et al. A cultural approach to interpersonal communication: Essential readings
Gottlieb Japan: Language policy and planning in transition
CN106649819A (zh) 一种提取实体词和上位词的方法及装置
Kroier Music, global history, and postcoloniality
Fitria An analysis of derivational and inflectional morpheme in selected news from tempo. co
Zhang A learner corpus study of L2 lexical development of Chinese resultative verb compounds
Al Khalil et al. A large-scale leveled readability lexicon for Standard Arabic
Waller Graphic literacies for a digital age
CN101122895A (zh) 一种计算机辅助外语阅读训练系统及其方法
Lüpke The writing’s on the wall: Spaces for language-independent and language-based literacies
Piotti et al. A cognitive, socio-semiotic, linguistic, and discursive approach to popularisation strategies in infographics
El Kah et al. Application of Arabic language processing in language learning
Pearman et al. Constructions of English in a teacher training video: configuring global and local resources for the creation of an EAL community in Angola
Sawaguchi et al. Exploring the use of make+ noun collocations by Japanese EFL learners through a bilingual essay corpus
Laarmann-Quante et al. The Litkey Corpus: A richly annotated longitudinal corpus of German texts written by primary school children
Percy et al. Prescription and tradition: Establishing standards across time and space
Lixian Developing an Art Design Courseware Based on Visual Communication Technology and Computer Aided Instruction Technology.
Zhong et al. A systemic functional semiotic investigation of illustrations in Chinese poem books: an ontogenetic perspective
Li Multimodal Teaching of College English Based on Similarity
Xiao et al. Corpus-based research on English word recognition rates in primary school and word selection strategy
Otundo Exploring Ethnically-Marked Varieties of Kenyan English: Intonation and Associated Attitudes
Nesvet Teaching Penny Bloods and Dreadfuls
Walmsley Learner modelling for individualised reading in a second language
Seidel The usage and integration of English loanwords in German a corpus-based study of anglicisms in Der Spiegel magazine from 1990–2010

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant