CN107357768A - 一种进行生词标注的方法及系统 - Google Patents

一种进行生词标注的方法及系统 Download PDF

Info

Publication number
CN107357768A
CN107357768A CN201710620639.3A CN201710620639A CN107357768A CN 107357768 A CN107357768 A CN 107357768A CN 201710620639 A CN201710620639 A CN 201710620639A CN 107357768 A CN107357768 A CN 107357768A
Authority
CN
China
Prior art keywords
vocabulary
user
word
content
new word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710620639.3A
Other languages
English (en)
Inventor
王�华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710620639.3A priority Critical patent/CN107357768A/zh
Publication of CN107357768A publication Critical patent/CN107357768A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及了利用计算机进行文本处理的一种辅助技术,具体为一种进行生词标注的方法及系统,该方法的步骤包括:S01. 建立词汇及其对应的标注内容的数据清单;S02. 对需进行生词标注的内容的文本进行分析,明确该内容包含哪些词汇;S03. 对用户进行基于词汇清单的排查,得到其具体掌握的词汇的详细清单,并记录到该用户的名为“熟词本”的数据清单中;S04. 将S01、S02、S03中的数据进行对比、运算,然后进行生词标注并输出该用户的个性化的内容。所述系统,具体包括用户熟词本建立模块、语言文本分析处理模块、词汇及其标注内容模块、用户的个性化内容的运算和输出模块。本发明较好地解决了生词标注缺乏针对性、不准确的问题。

Description

一种进行生词标注的方法及系统
技术领域
本发明涉及计算机辅助进行语言文本处理的领域,特别涉及如何准确进行个性化的生词标注的一种方法。
背景技术
在阅读由文字组成的内容的时候,可能会遇到生词,传统上,在标注生词的时候,假若是一本书,编写者会基于循序渐进的方式,假设前面课程的生词已经全部掌握,进而标注新出现的词汇为生词,最终每个用户所得到的生词表是一模一样的,这一般是对教材的生词进行标注的方法;另一种对其他阅读材料进行标注的方法是,依据编写者的经验,把其认为比较难的,超过目标读者的水平的词汇的含义标注出来。而且多数标注是采用脚注的方式,即标注在页面的最下面,而在生词难词的位置处写上索引序号。关于标注的内容的格式,随着计算机技术和互联网技术的发展变得多元化,有的已经进化到视频了。亚马逊发明kindle后推出了一种阅读外文作品的时候的生词标注的方法,有二个特征:(1)书籍按照其一定的算法,将其认为较难的生词做成词汇及注释的文件;(2)读者在kindle上阅读带有生词标注功能的书的时候,可以左右滑动一个滑块来选择生词标注的相对多少,是多标点还是少标点;(3)将生词的含义标注于生词的正上方,位置和汉语拼音的标示位置等同。还有一种做法与亚马逊的方法本质上是一样的,但是第二点略有不同,该方法首先将所有的词汇分类,分成若干个等级比如分成九个等级,一开始会对用户进行词汇抽样测试,然后根据算法确定这个用户所在的等级,然后在生词标注的时候,会标注比这个用户的等级高的所有词汇,而等于或低于这个等级的词汇哪怕其实也有很多生词也不会标;这种方法相当于将所有的用户分成了九种不同的用户,每一种用户的生词没有差别。中国专利公告号为CN102054044 B,公告日期为2013年10月23日的发明专利公开了一种个性化文件的生成方法、系统及设备,但其存在类似的问题,该发明对用户的水平进行了模糊的分类,导致所进行的标注的对具体用户的针对性很差。
综上所述,现有技术的问题主要体现是:生词标注的针对性很差,用户认识的词标出来了,而不认识的词却没有标出来。针对要标注哪些词,目前技术虽可用滑动条来调节显示词汇的标注的多少或者把用户分成若干种而把所有人归到这若干种之中,然而每一个人的水平不一样,分成若干个大类太粗线条,因为归到同一个等级的人其真实词汇量也是很不一样的,而且假设所在等级以下等级的词汇都是熟词也是不真实不准确的。
发明内容
为克服现有生词标注的方法的缺陷,本发明提出了一种进行生词标注的方法及系统,较好地解决上述现有技术所存在的问题。
本发明所涉及的方法的技术方案的核心是针对特定用户只对其不认识的词汇(生词)进行标注,而此所述生词是基于熟词本的基础上的,而熟词表囊括了用户已经掌握的所有该特定语言的词汇。所谓标注,包括对特定对象进行的注释、解说、内容扩展等等。
该技术方案是一种进行生词标注的方法,包含如下步骤:
S01. 建立词汇及其对应的标注内容的数据清单;
S02. 对需进行生词标注的内容的文本进行分析,明确该内容包含哪些词汇及其词频;
S03. 对用户进行基于词汇清单的排查,得到其具体掌握的词汇的详细清单,并记录到该用户的名为“熟词本”的数据清单中;
S04. 将S01、S02、S03中的数据进行对比、运算,找出某特定用户针对某特定文本内容的生词及其对应的标注,然后按照一定的规则进行生词标注并输出该用户的个性化的内容;
其中步骤S01,S02,S03并没有严格的先后顺序,只要此三步在S04之前完成即可,其中词汇指构成文本的基本单位,包括字、词、词组、短语、略语等等。
生词标注的本质是对不认识的词汇进行标注,以便于流畅阅读或欣赏作品,而不认识的词汇存在的场景多种多样,包括但不限于下列格式的一种或多种:文本格式、图形格式、音频格式、视频格式、多媒体格式或其他格式。
生词标注传统上标注在脚注、尾注、生词的上方或下方,为了提高阅读的流畅度,还可以选择标注在生词的右侧,在标注内容为文本的情况下,为了便于与被标注内容区分,可以用括号或者其他符号进行分割,还可以选择与被标注内容不同的字号、字体或颜色进行标注。如果标注内容和被标注内容分别是字母文字或非字母文字,比如用汉语标注英文,由于他们外形完全不同,因此可以不用符号隔开。标注内容的语言跟被标注对象不同或相同,比如可用中文标注英文,也可用英文标注英文。
作为基础词库的清单是指海量词库,应该尽可能包括最多的词汇,以确保可以涵盖需要标注的内容中所包含的词汇。所述词库包括通用词库或专门词库,且是根据需要滚动变化的,通常会不断增加,但也可能减少或进行修正。所述专门词库,是为了在一词多义中选定准确的含义而根据词汇在对应材料中的具体含义而编辑制作而成的,比如一个词有很多种含义,而在具体的语境中只有一个含义,那么可以将这些具体的含义挑出来形成专门词库。
被标注的文本指包括但不限于文本格式的文本、电子书中的文本、音频、视频字幕或歌词文本等等为代表的含有可识别字符的内容。
在对所要标注的文本内容进行标注之前,势必要通过分析这个被标注的对象里面包含有哪些词汇,因此需要对这个文本进行分析。分析出具体的词汇后,如果该语种的词汇涉及到单复数变化、时态变化或其他变化,则有必要将至还原为词的原形(lemmatization),但像中文词汇没有单复数变化、时态变化就没有必要了,比如英文的将gone还原为go,将dogs还原为dog,将bigger还原为big,将doing还原为do等等。
要知道哪些词汇对于特定的用户是生词,那么自然需要知道此用户掌握了哪些熟词,因此需要采取措施获得用户熟悉的所有词汇的清单,这个清单被称为“熟词本”。熟词本的概念鲜有人提及,即便被提及也是指某个词汇表已经掌握的词,比如四级单词词汇表中已经掌握的词,而不是这个特定用户所掌握的所有的词,概念的内涵和外延不同,一个不完整的熟词清单是没有多少用处的,本发明所述熟词本指用户所掌握的所有词汇的集合。熟词本的内容是因人而异的,是可更新的,也即可将新掌握的词汇加入此熟词本,已掌握的词汇变生疏了也支持从清单中移除或移出,此所述“加入”、“移除”、“移出”,可以是物理可见地进行“加入”、“移除”、“移出”,也可以是进行标记,比如用1表示熟词,0表示生词。
用户的“熟词本”的建立过程包括以下方法或其组合:(1)基于词汇清单的题目的测试,答对了加入熟词本,(2)不需要测试,让用户在词汇清单上直接勾选确认其所熟悉的词汇,(3)将用户在阅读过程中认识的新的词汇加入清单,(5)采用人工智能的方法基于少量测试进行推断出用户所具体掌握的词汇的具体清单,(4)其他有助于获取用户确切掌握的词汇的方法。
所述词汇清单指一个词汇表或多个词汇表的并集,也即选用多个词汇表的时候,在多个词汇表的词汇有重复的情况下,只选一个词汇,提高效率。
最后将用户的熟词表、需要标注的文本的内容所含词汇以及海量词库进行对比之后,输出该特定用户的个性化的内容,并以多种载体之一或其组合的方式提供给用户,包括但不限于以纸质书的形式、以电子数据的形式如通过网页、电子书、电子书阅读器或放在软件、光盘、磁盘、各种存储器中等等;所输出的用户的个性化的内容采用但不限于下列格式的一种或多种:文本格式、图形格式、音频格式、视频格式、多媒体格式或其他格式。所输出的内容包含但不限于下列之一或其组合:(1)原始内容带标注,(2)单纯的生词及其标注,(3)生词、标注及其所在的语境的句子,(4)其他利用所得到的各种数据进行运算可以生成的文档,包括交叉分析数据,(5)各种统计数据,包括但不限于作品用词数量、熟词数量、生词数量、生词占篇幅的比例、词频数等等。
本发明所涉及的一种对生词进行标注的系统,包括
用户熟词本建立模块,其功能在于收集用户具体掌握的词汇清单;
语言文本分析处理模块,其功能在于将对所需被标注的文本进行分析,弄清楚其中包含哪些词汇,如果所涉及语言有衍生词,则考虑将衍生词进行词形还原操作;
词汇及其标注内容模块,其功能在于添加、减少、修订、储存词汇及其标注内容,并且接受来自系统其它模块的对比请求的模块;
个性化内容的运算和输出模块,其功能在于将上述三个模块产生的内容进行比较、运算,进而输出用户所需带个性化标注的内容。
所涉及的生词标注系统中的熟词本建立模块采用的方法包括:(1)按照词汇清单让用户一个一个地确认其所掌握的词汇,方法包括测试题或非测试题 ,(2)进行基于少量词汇对用户进行测试或让用户自行确认,进而利用人工智能技术推断出用户所掌握的词汇清单。
通过上述方法和系统,可以解决生词标注缺乏针对性的问题,可以生成每个用户都不一样的熟词表以及带标注的个性化的内容,用户所看到的带标注的内容是自己不掌握的生词的标注,不需要翻字典,也不会出现本来就认识的标出来了,不认识的却没有标出来的困扰,可以较好地方便用户对作品的阅读和欣赏。
附图说明
下面结合附图对本发明的优选实施方式做进一步详细说明,其中
图1是本发明所述方法的流程图。
图2 词汇表并集的示意图
图3是本发明所述系统的结构图。
具体实施方式
在本发明的一种实施例中,首先要明确图1的几个步骤的目的之一是为了了给用户提供个性化的生词标注,避免提供给每个人的“生词”都是一样的,避免无的放矢、千篇一律,本发明要做到由于每个人理论上所掌握的词汇不同,则对于同一份材料,每一个人的真正的生词的数量和生词清单理论上是不一样的,本发明的实施例的目的就是要通过本发明的方法和系统将这些不同找出来,进而形成并输出各种适宜用户使用的带个性化标注的材料,帮助他们高效率地达成其学习、工作或欣赏的目的。
基于上述目的,必须要有一些有步骤的方法,即图1所示的方法。
要对生词做标注,首先必须掌握大量的词汇及其标注,这种标注包括对词汇进行注释,最直观的例子就是各种词典,而词典的内容一般包括词汇、注释、例句、用法、音标等等。随着计算机技术的发展,电子词典还增加了有声的读音,图画、动画甚至视频讲解,在增强现实技术(AR)领域还涉及到利用虚拟现实等方式进行标注。
要对生词做标注,其次需要对待被标注的内容进行分析,需要知道它由哪些基本单元构成,简单地说就是由哪些字词构成,而不论待分析的内容是以何种格式存在,最终都可以抽离出可识别的文本,而文本可以进行文本分析,最终得到构成此待分析内容的词汇清单,这个清单去重后就是构成该内容的词汇表,这个清单如果是类似于英语的语言,可能有大量的词的变形,涉及到单复数变化、时态变化或其他变化,则有必要将之还原为词的原形(lemmatization),这种词性还原的工作可以根据所涉及语言的语法规则来进行操作。
要对生词做标注,最后需要知道的最关键的数据是特定用户掌握了哪些词汇,被掌握的词汇本发明将之称为“熟词”,以与“生词”相对应。这三个步骤的顺序没有严格的先后顺序,但是通常来说S01和S02可以先做,因为这是本发明所能运作的重要基础数据,而且这些数据是对所有用户皆有效的。
先具体说S01步骤,海量词库的具体来源是各种词典,包括纸质词典、电子词典,也可以根据需要制作多媒体的标注。
再说S02步骤,文本分析。文本分析指对待标注的对象进行所含的文本内容的分析,以弄清楚该文本由哪些词汇构成。比如一本英语小说,那么经过分析需要知道具体的每一行,每一段,每一个章节由哪些词汇构成,如果词汇有各种变形,则需要进行词形还原,将词语变成其原形,再跟用户的熟词本进行对比输出。词形还原的主要思想是基于其词汇变形规律,比如英语的比较级一般是在后面加er或est,名称复数一般加s,特殊情况加es。文本分析的时机至少有三种,第一种是事先筛选出一些作品,比如一系列小说,则自然可以实现对之做分析并将结果存入数据库或数据清单中,比如在数据库中可以储存好经过分析的500种小说的数据,那么有用户需要使用甚至做交叉分析的时候,可以马上调用;另一种是临时分析,比如要分析当日某外文网站的文章,有较强的时效性,那么可以每日进行分析,然后尽快提供给用户,按照这种逻辑,可以搭建每天将最新的外文网站的新闻经过分析后,加上标注,推送给订阅的用户;第三种是可以设计为接受用户提供的文件进行分析,也就是用户将其想阅读的文章上传服务器,服务器经过分析后反馈给用户,比如用户想读某专业论文的时候。
最后回到步骤S03,作为一个优选的实施例,首先建立一系列词汇表,以英语为例,比如我们可以按照中国的习惯将之分为中学英语词汇、高考大纲词汇、大学四级词汇、大学六级词汇、托福词汇、雅思词汇、托福词汇、研究生联考词汇,以及其他各种分类方法所得到的词表。这些词汇表所包含的词汇有多有少,它们之间可能有或多或少重叠的词汇,比如大学四六级词汇多半包含小学词汇、中学词汇的绝大多数。系统还可以根据一些参数智能推荐一些词表出来作为测试用户的熟词的词表,具体参数包括年龄、学历等等,也可以将词表列出,让用户根据自己的学习的历史进行选择,比如曾经准备过托福考试,则可以选择托福词汇。图2示出了这种取词汇表并集的逻辑,比如一个大学毕业曾经准备过托福考试的用户,就可以将中学、大学四六级和托福的词汇全部选上。选中的这些词表,单纯累加起来可能有好几万,但是由于中间有大量的词汇重叠(图2中的交集部分),因此系统将会把这些词汇表做一个并集运算,最后列出一个待测试词汇表,由于重复的词汇只保留一个,因此最后列出的词汇表可能有1万多个词汇。关于并集,举例:比如多个词表都有tennis这个词,那么在求并集的时候,只保留一个tennis。为了得到该特定的用户的熟词清单,基本的方法有二大类,第一大类是用类似于穷尽式的方法,将整个清单展示在用户面前,由他来告诉系统哪些词他熟悉,哪些词不熟悉,可以采用出题目对之进行测试,而这种题目包括用文字、图形或视频的选择题,也可以直接列出清单让该特定用户自己勾选他的熟词,比如认识的词挑勾,不认识的空着,系统获取这些数据后,在系统中对其掌握的词汇进行标记,比如标1表示是熟词,标0表示是生词但曾经做过测试,没有标的表示没有做测试而且很可能是生词;第二大类的方法是利用人工智能的方法来对用户进行测试,这种方法相比第一种方法的好处是测试的词汇数比第一种少,不需要用穷尽式的方法,准确性远高于目前亚马逊等采取的技术,但是准确性略低于第一大类方法,在此列举一种人工智能的思路:比如英语,该语言是由大量的基本词汇和衍生词汇组成,那么首先可以将最基本的词汇找出来作为核心词汇,而每个基础词汇都链接到一系列衍生词上,那么首先测试第一个核心词,如果某特定用户认识它,则再测试其中一个衍生词,如果仍然认识,可以根据需要选择是否需要测试另一个衍生词,然后根据系统的逻辑可以在测试到某一个衍生词的时候发现这个用户都能答对,则可以认为该用户对该核心词掌握得好,可以认为其认识该核心词所派生的所有衍生词,如果在衍生词抽样测试中发现有不认识的,则可以将所有的衍生词进行逐个穷尽式的测试,第一个核心词及其衍生词测试完毕后,进行第二个核心词及其衍生词的测试。人工智能仍处于发展之中,这是一个有前景的方向。通过前述方法,可以准确特定用户的“熟词表”。而该熟词表是动态的,也就是掌握了生词后,该生词将被标注为熟词,或者熟词生疏后可再标注为生词。用户在完成前述词汇测试后,一段时间后,若其打算测试其他更高等级的词汇表,比如GRE词汇,那么这时如果选择GRE词汇表,则系统将会把之前测试过的词汇与GRE词汇表重复的部分从清单中剔除。在很多不同用户进行上述“熟词表”的建立的情况下,将得到他们的准确的熟词清单。随着时间的推移,由于不断增加所认识的词汇,则其掌握的熟词会日渐增多,并发挥越来越重要的作用。
在拥有海量词库、待分析文本的词汇分析数据、用户的熟词本后,通过比较运算,自然可以生成该用户需要的准确的个性化的生词标注及其衍生产品。比如某用户在建立好熟词本后,希望学习某本英文小说的内容,则在选定此小说后,系统会自动计算该小说由哪些词汇构成,哪些词汇是该用户独有的生词,这些生词的释义是什么,这些生词有没有多媒体注释,然后根据需要生成对该用户有用的学习材料,大体有以下几方面:
(1)首先可以生成原文和生词标注合体的小说文本,该注释如位于生词的右侧, 比如某用户如果打算读《gone with the wind》这部书,则该书第一章第一段加上准确的个性化标注后是这样的:
”SCARLETT O’HARA was not beautiful, but men seldom realized it whencaught by her charm as the Tarleton twins were.In her face were too sharplyblended the delicate features of her mother, a Coast aristocrat贵族 of Frenchdescent, and the heavy ones of her florid炫耀的 绚丽的 Irish father.But itwas an arresting face, pointed of chin, square of jaw. Her eyes were palegreen without a touch of hazel, starred with bristly具刚毛的 black lashes andslightly tilted at the ends.Above them, her thick black brows slanted倾斜upward, cutting a startling oblique倾斜的 line in her magnolia木兰-whiteskin—that skin so prized by Southern women and so carefully guarded withbonnets, veils and mittens手套 against hot Georgia suns. “
这种标注也可以用其他语言如英语、法语、德语标注,道理浅显易懂,在此不举例;标注格式自然也可多元,比如也可以采用其他格式,包括图形格式、音频格式、视频格式、多媒体格式,在采用文本和图形格式的时候,也可以将之印刷到纸质书上,当采用音视频及多媒体格式的时候一般是在电子设备上在线显示或下载到本地显示,比如点一下原文边上的一个标记,就可以播放作为注释的音频、视频、动画等等;其中的标注文本的字体大小、颜色等也可与正文不同,由于道理浅显易懂,在此不举例;标注的位置根据需要自然可以继续合理改变,比如脚注、尾注、生词的上方或下方;此带标注的文本可以以多种载体提供给用户,可以纸质书的形式、以电子数据的形式如通过网页、电子书、电子书阅读器或放在软件、光盘、磁盘、各种存储器中等进行提供。
(2)同时可生成生词表,便于集中学习复习,按照上述内容将有7个生词,而其对应的标注内容可以选择文本,也可以采用其他格式,比如图形格式、音频格式、视频格式、多媒体格式或其他格式;以上述例子举一个用文本进行注释的例子:生词:aristocrat贵族,florid炫耀的 绚丽的,例子:In her face were too sharply blended the delicatefeatures of her mother, a Coast aristocrat贵族 of French descent, and theheavy ones of her florid炫耀的 绚丽的 Irish father. 自然也可以配上音视频或多媒体的信息。
(3)还可生成生词、注释、生词所在句子的内容,便于用户在语境中学习记忆生词,针对这些词汇句子,自然也可以配上音视频或多媒体的信息;举例如下:
生词:aristocrat贵族,florid炫耀的 绚丽的,例子:In her face were too sharplyblended the delicate features of her mother, a Coast aristocrat贵族 of Frenchdescent, and the heavy ones of her florid炫耀的 绚丽的 Irish father.
(4)可以生成其他数据,包括交叉分析数据。某用户针对某本一个系列的生词,可以配上其他小说里面的例句,基于所掌握的数据可以做出很多合理的运算并且得到有意义的结果;例句里面的生词其他生词也可以进行标注;比如某用户希望采用harry porter的小说原文中的句子来学习他的四六级生词,则可能得到类似于如下的输出:
bargain 契约,讨价还价,句子:Perhaps Uncle Vernon was worried that Harrymight forget their bargain; in any case, he changed the subject abruptly迅速地.
bark 吠 咆哮,例句:Comb your hair! he barked, by way of a morninggreeting.
barn谷仓 畜棚,例句:A low, soft hooting came from a dark shop with a signsaying Eeylops Owl Emporium -- Tawny, Screech, Barn, Brown, and Snowy.
再举几个利用gone with the wind的例句来匹配六级生词的例子如下:
distinct清楚的 明显的,句子:The green eyes in the carefully sweet facewere turbulent, willful, lusty with life, distinctly at variance with herdecorous demeanor.
accurate正确的 精确的,句子:His clear hand, his accurate figures and hisshrewd ability in bargaining won their respect, where a knowledge ofliterature文学 and a fine appreciation of music, had young Gerald possessedthem, would have moved them to snorts of contempt.
(5)各种统计数据,包括但不限于作品用词数量、熟词数量、生词数量、生词占篇幅的比例、词频数等等。以上输出的结果可以充分利用计算机的分析功能;举例如下:
比如某用户熟词数量10135个,针对great expectation这部小说是用词9494个不同的词写成的,该用户这本书的生词数量为2523个(根据需要,可以根据上述第(4)列出生词表以及相应的句子,音视频等,正文附带生词标注并输出)。
(6)以及其他有价值的输出结果。只要有数据,可以进行各种运算、分析、数据挖掘、自然可以生成各种有用的结果。但只要基本满足独立权利要求1的方法均属于本发明技术方案的范围内。
还可以将每日的最新文章、新闻等内容经过本发明的技术处理后,推送给用户,使用户不但可以学习语言还可以阅读最新的咨询、文章。比如向某用户推送BBC网站的一篇新闻文章《Russia sanctions: EU vows to retaliate over US measures》,该文章根据该用户的生词情况进行了标注,以下为前半部分:
The European Union has expressed concern about US plans to impose freshsanctions制裁;批准;处罚;约束on Russia, amid在…过程中concern they could hurtenergy companies.
The EU Commission sounded the alarm after the US House of Representativesvoted in favour of the measures, despite opposition from Donald Trump.
The bill is likely to complicate the US president's hopes of improvingrelations with Russia.
It aims to punish Russia for alleged有嫌疑的interference in the 2016 USelection.
In a statement, the Commission President Jean-Claude Juncker said: "TheEU is fully committed to the Russia sanctions regime."
But he warned of "unintended unilateral effects that impact the EU'senergy security interests".
Several European nations, including Germany, are angry because the newlaw could penalise惩罚;处罚;处以刑罚;(体育运动中)判罚companies working onpipelines from Russia, for example by limiting their access to US banks.
The legislation, which also includes sanctions against Iran and NorthKorea over ballistic missile tests, still needs to be passed through the USSenate before it can be sent on to the president to be signed.
It is unclear whether the president will veto it.
通过上述准确的生词标注,该用户可以非常流畅地完成外文新闻文章的阅读,既学习了英语,又了解了时事,做到学用结合。同时这些生词可以被置入该用户的生词表。
还可以搭建一套针对本发明所述生词标注的系统,该系统包括四个模块,如图3所述。
图3的M1模块示出了海量词汇及其标注内容模块,其功能在于添加、减少、修订、储存词汇及其标注内容,并且接受来自系统其它模块的对比请求的模块。建立此模块一般包含数据整理和数据创造的内容,比如可以把一些词典数据放到这个模块中,还可以为了更形象的效果需要,制作音视频或多媒体的内容,然后和词汇进行链接。当这个模块打造好了后,系统的其他模块需要数据的时候,可以发送请求到这个模块进行数据的提取。
图3的M2模块示出了用户熟词本建立模块,其功能在于收集用户具体掌握的词汇清单,此模块包括词库和用户基础数据,因此首先要建立公共词库,比如将各种考试词汇的词库、各种教材的词汇的词库、或者其他词库放到此模块内部,然后可以接受用户的熟词本测试的请求,生成待测试的并集的词汇清单,让用户经过测试或勾选将其所熟悉的全部词汇找出来,进而生成该用户专属的”熟词本“,自然还可以利用大数据或人工智能的方法在所损失的准确性可以接受的前提下来获取特定用户的”熟词本“的具体清单。
图3的M3模块示出了语言文本分析处理模块,其功能在于将对所需被标注的文本进行分析,弄清楚其中包含哪些词汇,以及词频信息,如果所涉及语言有衍生词,则考虑将衍生词进行词形还原操作;这基本上是文本处理,其方式也要考虑到文本的数据源,如果数据源是普通文本,则相对容易处理,如果是视频字母等则需要先获取视频字母的内容。然而,最终得到的处理结果都是类似的,目的是要知道其中包含哪些词汇和词频信息,词频指出现了多少次,甚至在哪些地方出现也可以进行分析记录。
图3的M4模块示出了用户的个性化内容的运算和输出模块,其功能在于将上述三个模块产生的内容进行比较、运算,进而输出用户所需内容,只要是上述模块1到模块3所包含的内容,而计算法则允许的情况下,都可以生成所需的数据并以各种被期望的方式呈现给用户。
以上所述,仅是本发明的实施例而已,并非对本发明做任何形式上的限制,故凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实例所作的任何修改、等同变化与修饰,仍属于本发明技术方案的范围内。

Claims (12)

1.一种进行生词标注的方法,其特征在于,包含如下步骤:
S01. 建立词汇及其对应的标注内容的数据清单,此清单指包含尽可能多的词汇的海量词库;
S02. 对需进行生词标注的内容的文本进行分析,明确该内容包含哪些词汇;
S03. 对用户进行基于词汇清单的排查,得到其具体掌握的词汇的详细清单,并记录到该用户的名为“熟词本”的数据清单中;
S04. 将S01、S02、S03中的数据进行对比、运算,找出某特定用户针对某特定文本内容的生词及其对应的标注,然后按照一定的规则进行生词标注并输出该用户的个性化的内容;
其中步骤S01,S02,S03并没有严格的先后顺序,只要此三步在S04之前完成即可,其中词汇指构成文本的基本单位,包括字、词、词组、短语、略语等等。
2.如权利要求1所述的一种进行生词标注的方法,其特征是:S01中所述标注内容采用但不限于下列格式的一种或多种:文本格式、图形格式、音频格式、视频格式、多媒体格式或其他格式。
3.如权利要求1或2中所述的一种进行生词标注的方法,其特征是:(1)标注内容为文本的情况下,标注于词汇的以下部位的一种或多种:其右侧,其正上方,其正下方,尾注,脚注,标注在其右侧时如有必要可用括号或其他符号将标注内容与被标注内容隔开以示区分,非字母文字和字母文字之间由于其外观差异很明显可不隔开;(2)标注内容的语言跟被标注对象不同或相同;(3)标注内容的字号、字体、颜色与被标注的内容相同或不同。
4.如权利要求1所述的一种进行生词标注的方法,其特征在于,所述词库包括通用词库或专门词库,所述专门词库,是为了在一词多义的情况下明确其在特定上下文中的准确的含义而编辑而制作的,所述词库允许根据需要进行更新,即进行增加或减少或修订的操作。
5.如权利要求1所述的一种进行生词标注的方法,其特征在于,S02中所述文本指包括但不限于文本格式的文本、电子书的文本、音频、视频字幕或歌词文本等等为代表的含有可识别字符的内容。
6.如权利要求1所述的一种进行生词标注的方法,其特征在于,如有必要,S02所分析出的词汇基于词形还原,将之还原为词汇的原形。
7.如权利要求1所述的一种进行生词标注的方法,其特征在于,S03中所述“熟词本”是基于用户所掌握的词汇,且是可更新的,也即可将新掌握的词汇加入此熟词本,已掌握的词汇变生疏了也支持从清单中移除或移出,此所述“加入”、“移除”、“移出”,可以是物理可见地进行“加入”、“移除”、“移出”,也可以是进行标记,然后根据变化更新标记,比如用1表示熟词,0表示生词。
8.如权利要求7所述的一种进行生词标注的方法,其特征在于,所述的用户的“熟词本”的建立过程包括以下方法之一或其组合:(1)基于词汇清单的题目的测试,(2)让用户在词汇清单上直接勾选确认其所熟悉的词汇,(3)将用户在阅读过程中认识的新的词汇加入清单,(5)采用人工智能的方法基于少量测试进行推断出用户所具体掌握的词汇的具体清单,(4)其他有助于获取用户确切掌握的词汇的方法。
9.如权利要求8所述的一种进行生词标注的方法,其特征在于,所述词汇清单指一个词汇表或多个词汇表的并集。
10.如权利要求1到9中任一项所述的一种进行生词标注的方法,其特征在于,(1)所述输出的用户的个性化的内容,以多种载体之一或其组合的方式提供给用户,包括但不限于以纸质书的形式、以电子数据的形式如通过网页、电子书、电子书阅读器或放在软件、光盘、磁盘、各种存储器中等等;(2)所述输出的用户的个性化的内容采用但不限于下列格式的一种或多种:文本格式、图形格式、音频格式、视频格式、多媒体格式或其他格式;(3)所输出的内容包含但不限于下列之一或其组合:(1)原始内容带标注,(2)单纯的生词及其标注,(3)生词、标注及其所在的语境的句子,(4)其它利用所得到的各种数据进行运算而生成的文档,包括交叉分析数据,(5)各种统计数据,包括但不限于作品采用的不重复词汇的用词数量、熟词数量、生词数量、生词占篇幅的比例、词频数等等。
11.一种对生词进行标注的系统,包括
海量词汇及其标注内容模块M1,其功能在于添加、减少、修订、储存词汇及其标注内容,并且接受来自系统其它模块的对比请求的模块;
用户熟词本建立模块M2,其功能包括收集用户具体掌握的词汇清单、词频信息;
语言文本分析处理模块M3,其功能在于将对所需被标注的文本进行分析,弄清楚其中包含哪些词汇,如果所涉及语言有衍生词,则考虑将衍生词进行词形还原操作;
用户的个性化内容的运算和输出模块M4,其功能在于将上述三个模块产生的内容进行比较、运算,进而输出用户所需内容。
12.如权利要求12所述的对生词进行标注的系统,其特征在于,所述用户熟词本建立模块采用的方法包括但不限于下列之一或其组合:(1)按照词汇清单让用户一个一个地确认其所掌握的词汇,方法包括测试题或非测试题 ,(2)进行基于少量词汇对用户进行测试或让用户自行确认,进而利用人工智能技术推断出用户所掌握的词汇清单。
CN201710620639.3A 2017-07-26 2017-07-26 一种进行生词标注的方法及系统 Pending CN107357768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710620639.3A CN107357768A (zh) 2017-07-26 2017-07-26 一种进行生词标注的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710620639.3A CN107357768A (zh) 2017-07-26 2017-07-26 一种进行生词标注的方法及系统

Publications (1)

Publication Number Publication Date
CN107357768A true CN107357768A (zh) 2017-11-17

Family

ID=60285879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710620639.3A Pending CN107357768A (zh) 2017-07-26 2017-07-26 一种进行生词标注的方法及系统

Country Status (1)

Country Link
CN (1) CN107357768A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808559A (zh) * 2017-11-06 2018-03-16 鲍增彬 一种智能外语学习方法和系统
CN108650543A (zh) * 2018-06-20 2018-10-12 北京优酷科技有限公司 视频的字幕编辑方法及装置
CN108847076A (zh) * 2018-07-11 2018-11-20 北京美高森教育科技有限公司 语言学习机的测评方法
CN108846082A (zh) * 2018-06-11 2018-11-20 掌阅科技股份有限公司 电子书阅读器的词句库生成方法、装置及计算设备
CN108875181A (zh) * 2018-06-07 2018-11-23 南京骐骏软件有限公司 一种三维模型的三维标注修订变更追踪方法
CN108961847A (zh) * 2018-08-07 2018-12-07 广东小天才科技有限公司 一种基于家教设备的学习方法及家教设备
CN109712445A (zh) * 2018-07-11 2019-05-03 北京美高森教育科技有限公司 一种语言教学方法
CN109727495A (zh) * 2018-07-11 2019-05-07 北京美高森教育科技有限公司 一种语言教学设备
CN109741641A (zh) * 2018-07-11 2019-05-10 北京美高森教育科技有限公司 基于生词检测的语言学习系统
CN110620960A (zh) * 2018-06-20 2019-12-27 北京优酷科技有限公司 视频的字幕处理方法及装置
CN111541904A (zh) * 2020-04-15 2020-08-14 腾讯科技(深圳)有限公司 直播过程中的信息提示方法、装置、设备及存储介质
CN112037618A (zh) * 2020-08-31 2020-12-04 维沃移动通信有限公司 信息显示方法、装置和电子设备
CN112307859A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种用户语言等级确定方法、装置、电子设备及介质
CN112306316A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 点读方法、点读设备及存储介质
WO2021017302A1 (zh) * 2019-07-31 2021-02-04 平安科技(深圳)有限公司 一种数据提取方法、装置、计算机系统及可读存储介质
CN112949259A (zh) * 2021-03-24 2021-06-11 北京林业大学 一种自适应的基于词汇文本难度的生词标注系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196874A (zh) * 2007-12-28 2008-06-11 宇龙计算机通信科技(深圳)有限公司 一种机器辅助阅读的方法和装置
CN102054044A (zh) * 2010-12-31 2011-05-11 深圳市华伯通讯设备有限公司 一种个性化资源文件的生成方法、装置及电子设备
CN104866470A (zh) * 2015-05-28 2015-08-26 西安交通大学 一种基于用户眼球的单词查询方法
CN106681642A (zh) * 2016-12-23 2017-05-17 努比亚技术有限公司 移动终端及移动终端控制方法
CN106856066A (zh) * 2016-12-20 2017-06-16 杨燕 单词拆分记忆学习系统
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196874A (zh) * 2007-12-28 2008-06-11 宇龙计算机通信科技(深圳)有限公司 一种机器辅助阅读的方法和装置
CN102054044A (zh) * 2010-12-31 2011-05-11 深圳市华伯通讯设备有限公司 一种个性化资源文件的生成方法、装置及电子设备
CN104866470A (zh) * 2015-05-28 2015-08-26 西安交通大学 一种基于用户眼球的单词查询方法
CN106856066A (zh) * 2016-12-20 2017-06-16 杨燕 单词拆分记忆学习系统
CN106681642A (zh) * 2016-12-23 2017-05-17 努比亚技术有限公司 移动终端及移动终端控制方法
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808559A (zh) * 2017-11-06 2018-03-16 鲍增彬 一种智能外语学习方法和系统
CN108875181A (zh) * 2018-06-07 2018-11-23 南京骐骏软件有限公司 一种三维模型的三维标注修订变更追踪方法
CN108846082A (zh) * 2018-06-11 2018-11-20 掌阅科技股份有限公司 电子书阅读器的词句库生成方法、装置及计算设备
CN110620960A (zh) * 2018-06-20 2019-12-27 北京优酷科技有限公司 视频的字幕处理方法及装置
CN110620960B (zh) * 2018-06-20 2022-01-25 阿里巴巴(中国)有限公司 视频的字幕处理方法及装置
CN108650543A (zh) * 2018-06-20 2018-10-12 北京优酷科技有限公司 视频的字幕编辑方法及装置
CN108847076A (zh) * 2018-07-11 2018-11-20 北京美高森教育科技有限公司 语言学习机的测评方法
CN109712445A (zh) * 2018-07-11 2019-05-03 北京美高森教育科技有限公司 一种语言教学方法
CN109727495A (zh) * 2018-07-11 2019-05-07 北京美高森教育科技有限公司 一种语言教学设备
CN109741641A (zh) * 2018-07-11 2019-05-10 北京美高森教育科技有限公司 基于生词检测的语言学习系统
CN108961847A (zh) * 2018-08-07 2018-12-07 广东小天才科技有限公司 一种基于家教设备的学习方法及家教设备
WO2021017302A1 (zh) * 2019-07-31 2021-02-04 平安科技(深圳)有限公司 一种数据提取方法、装置、计算机系统及可读存储介质
CN112306316B (zh) * 2019-08-30 2022-06-24 北京字节跳动网络技术有限公司 点读方法、点读设备及存储介质
CN112307859A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种用户语言等级确定方法、装置、电子设备及介质
CN112306316A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 点读方法、点读设备及存储介质
CN111541904A (zh) * 2020-04-15 2020-08-14 腾讯科技(深圳)有限公司 直播过程中的信息提示方法、装置、设备及存储介质
CN111541904B (zh) * 2020-04-15 2024-03-22 腾讯科技(深圳)有限公司 直播过程中的信息提示方法、装置、设备及存储介质
CN112037618A (zh) * 2020-08-31 2020-12-04 维沃移动通信有限公司 信息显示方法、装置和电子设备
CN112949259A (zh) * 2021-03-24 2021-06-11 北京林业大学 一种自适应的基于词汇文本难度的生词标注系统及方法
CN112949259B (zh) * 2021-03-24 2023-08-08 北京林业大学 一种自适应的基于词汇文本难度的生词标注系统及方法

Similar Documents

Publication Publication Date Title
CN107357768A (zh) 一种进行生词标注的方法及系统
Louis et al. What makes writing great? First experiments on article quality prediction in the science journalism domain
Kang et al. Corpus-based Stylistic Analysis of Tourism English.
CN104504023B (zh) 一种基于领域本体的高准确率主观题计算机自动阅卷方法
CN101599071A (zh) 对话文本主题的自动提取方法
Shaoul et al. N-gram probability effects in a cloze task
CN109859544A (zh) 一种智能学习方法、设备及存储介质
Amador-Moreno How can corpora be used to explore literary speech representation?
Sethi et al. Automated title generation in English language using NLP
Bertsch et al. Detection of puffery on the english wikipedia
CN109657043A (zh) 自动生成文章的方法、装置、设备及存储介质
Nanni et al. Semi-supervised textual analysis and historical research helping each other: Some thoughts and observations
Kjellander Ambiguity at work: lexical blends in an American English web news context
Odijk et al. Supporting exploration of historical perspectives across collections
Alexander Bulgarian Dialectology as Living Tradition: A Digital Resource of Dialect Speech.
Pokorny Automatic subject indexing and classification using text recognition and computer-based analysis of tables of contents
Demuth Exploiting corpora for language acquisition research
Ebrahimi et al. Manifestation of theme as a point of departure in the result and discussion section of academic research articles
CN110516069A (zh) 一种基于FastText-CRF的引文元数据抽取方法
Cohen NER of Citations and Fine-Grained Classification of Responsa.
Baunvig et al. Emotional Imprints: Exclamation Marks in NFS Grundtvig's Writings
CN103119585A (zh) 知识获取装置及方法
KR102542268B1 (ko) 키워드 이미지 대입을 이용한 목차 암기 학습 시스템
Zhang et al. The Construction And Application Of The Multimedia Corpus Of Bisu Language: Taking The Study On Measure Words As An Example
Rao et al. A statistical model for gist generation: A case study on hindi news article

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171117