CN114547281B

CN114547281B - 一种基于词汇和语法的英文文本筛选方法及系统

Info

Publication number: CN114547281B
Application number: CN202210169435.3A
Authority: CN
Inventors: 蒋东辰; 李萍; 牛颖; 康家瑞; 隗艳萍; 孙艳
Original assignee: Guangzhou Moyi Information Technology Co ltd; Beijing Forestry University
Current assignee: Guangzhou Moyi Information Technology Co ltd; Beijing Forestry University
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2024-07-05
Anticipated expiration: 2042-02-23
Also published as: CN114547281A

Abstract

本发明涉及一种基于词汇和语法的英文文本筛选方法及系统，其方法包括：步骤S1：用户登录文本筛选系统，选择文本筛选标准，文本筛选标准包括：文本筛选系统预定义的系统标准，用户定义的用户标准，以及由文本筛选系统基于用户上传的文本所定义的综合标准；步骤S2：用户输入待筛选本文，基于文本筛选标准进行筛选，获得筛选结果。本发明提供的方法，具有简单、高效以及筛选结果更为准确的特点，实现了针对不同学习阶段学习者的适合英语教学文本的筛选，极大程度的降低了人工劳力的投入。

Description

一种基于词汇和语法的英文文本筛选方法及系统

技术领域

本发明涉及英语教学和英文信息处理领域，具体涉及一种基于词汇和语法的英文文本筛选方法及系统。

背景技术

词汇和语法是英语教学的两个重要方面，在英语教学中，常常通过对目标词汇和语法的设定来筛选适合学生学习的语料。英语教师通常根据个人经验，判断文本中所包含的单词和语法点是否符合当前的教学进度；如果现有语料找不到适合当前学生水平的文本，就进一步需要教师对文本进行单词替换、长难句语法改写等工作，这些工作耗时耗力。

当前，互联网上有着海量的英文文本，如果有效筛选使用，将会对英语教学和英语学习提供丰富的资源，但这依赖于对语料难度的准确评判和分级。面对互联网上的海量英文文本，如果全部由人工筛选，工作量巨大。这一方面将无形中增加教师的工作量；另一方面，人工的筛选会受到筛选人英语水平、经验的影响，当需要构建大量语料库时，基于多人的文本筛选容易造成文本质量的不统一等问题。

发明内容

为了解决上述技术问题，本发明提供一种基于词汇和语法的英文文本筛选方法及系统。

本发明技术解决方案为：一种基于词汇和语法的英文文本筛选方法，包括：

步骤S1：用户登录文本筛选系统，选择文本筛选标准，所述文本筛选标准包括：所述文本筛选系统预定义的系统标准，所述用户定义的用户标准，以及由所述文本筛选系统基于所述用户上传的文本所定义的综合标准；

步骤S2：所述用户输入待筛选本文，基于所述文本筛选标准进行筛选，获得筛选结果。

本发明与现有技术相比，具有以下优点：

1、本发明公开了一种基于词汇和语法的英文文本筛选方法，将词汇和语法作为文本筛选标准，该方法消除了现有筛选文本方法不适用于筛选教学文本的问题，更为精细的刻画了筛选文本时词汇和语法对文本的影响。

2、本发明提供的方法可根据用户的个人需求，进行英文文本筛选标准的调整，解决了因采用单一标准进行筛选文本带来的无法满足用户需求的问题。

3、本发明提供的方法具有良好的筛选效果，筛选结果更为准确。与类似方法相比具有简单、高效、准确等特点，实现了针对不同学习阶段学习者的适合英语教学文本的筛选，极大程度的降低了人工劳力的投入。

附图说明

图1为本发明实施例中一种基于词汇和语法的英文文本筛选方法的流程图；

图2为本发明实施例中一种基于词汇和语法的英文文本筛选方法中步骤S11：用户上传n篇符合其筛选标准的文本，利用文本预处理模块，获取文本中所有单词对应的原形，由此构建词汇的筛选标准的流程图；

图3为本发明实施例中步骤S12中识别英文句子中所有谓语和非谓语动词组的流程示意图；

图4为本发明实施例中的动词组识别自动机VPA示意图；

图5为本发明实施例中步骤S1206中输出List<vpList>，供动词组识别自动机VPA识别谓语和非谓语动词组的流程图；

图6为本发明实施例中英文句子句法解析树示意图；

图7为本发明实施例中步骤S12中识别介词短语的流程示意图；

图8为本发明实施例中步骤S12中识别从句的流程示意图；

图9为本发明实施例中步骤S21：基于文本筛选标准，根据文本超纲语法点统计模块，获取待筛选本文中的每一文本的超纲语法点信息的流程示意图；

图10为本发明实施例中步骤S22：基于文本筛选标准，根据文本超纲词统计模块，获取待筛选本文中的每一文本的超纲词信息的流程示意图；

图11为本发明实施例中步骤S23：基于预设的超纲词阈值α和超纲语法点阈值β，以及超纲词信息和超纲语法点信息，从待筛选本文中筛选出符合需求的文本的流程示意图；

图12为本发明实施例中一种基于词汇和语法的英文文本筛选系统的结构框图。

具体实施方式

本发明提供了一种基于词汇和语法的英文文本筛选方法，具有简单、高效以及筛选结果更为准确的特点，实现了针对不同学习阶段学习者的适合英语教学文本的筛选，极大程度的降低了人工劳力的投入。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于词汇和语法的英文文本筛选方法，包括下述步骤：

步骤S1：用户登录文本筛选系统，选择文本筛选标准，文本筛选标准包括：文本筛选系统预定义的系统标准，用户定义的用户标准，以及由文本筛选系统基于用户上传的文本所定义的综合标准；

其中，文本筛选系统预定义的系统标准是指文本筛选系统预定义的词汇和语法标准。系统标准基于现有教学大纲提供的不同年级应掌握的词汇量以及语法点：比如筛选标准为一年级，则对应一年级教学大纲中的词汇和语法点，若筛选标准为二年级，则其对应的二年级教学大纲中的词汇和语法点。此外，用户还可在系统标准的基础上进行修改操作，假如用户选择二年级的筛选标准，但是根据当前的教学进度无法将二年级所有的词汇和语法点都教授完成，用户可基于自己需求，删除尚未学习的词汇和语法点。

用户定义的用户标准是指用户直接定义其希望考察的词汇和语法点。

综合标准是指用户可上传n篇符合其筛选标准的文本，文本筛选系统对其进行词汇和语法点的统计和分析，获取其中的词汇和语法点。

步骤S2：用户输入待筛选本文，基于文本筛选标准进行筛选，获得筛选结果。

在一个实施例中，上述步骤S1：由文本筛选系统基于用户上传的文本所定义的综合标准，具体包括：

步骤S11：用户上传n篇符合其筛选标准的文本，利用文本预处理模块PROCESS(text)，获取文本中所有单词对应的原形，由此构建词汇的筛选标准，如图2所示，具体包括：

步骤S111：将文本text按照空格和非单引号的标点符号分割字符串，并将所有分割结果按照分割次序存储在字符串链表strList中，转至步骤S112；

步骤S112：按照字符串比对，对strList中的所有字符串进行去重操作，并将结果存入到新的字符串链表newStrList中，转至步骤S113；

步骤S113：令word为newStrList中存储的第一个字符串，转至步骤S114；

步骤S114：若word不是单词原形，对其进行词性还原和单词展开操作后，获取word对应的原形并更新word，转至步骤S115；

步骤S115：若WordTable中没有word，将其存入WordTable中；否则，转至步骤S116；

步骤S116：若word不是newStrList中的最后一个字符串，令word为newStrList中的下一个字符串，转至步骤S114；否则，输出文本的所有互异单词原形表WordTable，及其包含的单词数量N，基于WordTable构建词汇的筛选标准；

步骤S12：利用语法点识别模块，识别文本中英文句子所包含语法点，包括：识别英文句子中谓语和非谓语动词组、介词短语和从句，由此构建语法点筛选标准。

本发明实施例中语法点识别模块是实现对英文句子所包含语法点的识别。基于此，本发明实施例从日常学习英语的角度，选取了四种较难识别、且对语法影响较大的语法点进行识别，分别是谓语动词组、非谓语动词组、介词短语、从句。语法点识别模块设置四张表：谓语动词结构表Predicate(pre)、非谓语动词结构表NonPredicate(nonPre)、介词短语类型表PP_TYPE(pp)、从句类型表SBAR_TYPE(sbar)，它们分别存储识别出的四类语法点结果。由于谓语动词组和非谓语动词组的识别方法具有类似性，在具体实现时，本发明将对谓语动词组及非谓语动词组同时进行识别，并以IDENTIFY_GRAMMAR(sentence)表示对英文句子的语法点的识别。

本发明实施例中语法点识别模块可识别谓语和非谓语动词组。英文句子中出现的单个动词或者动词词组(为了便于描述，后续表述将单个动词也归为动词词组，用VP表示)在句子中的功能可以分为两类：第一类是谓语动词，其构成从句的谓语部分，除感叹句可以省略谓语动词外，所有的英文句子(从句)都必须有谓语动词；第二类是非谓语动词，非谓语动词在句子中充当除谓语以外的句子成分，常为状语或定语，一个英文句子可以没有非谓语动词也可以有多套非谓语动词。故我们可能会在英文句子中提取出多套动词词组，本模块先提取出英文句子中的所有动词词组，进一步对出现在英文句子中的所有动词词组进行识别，即区分出动词词组的分类情况(谓语动词或非谓语动词)，也识别出动词词组的具体结构(如时态、语态等)。

在一个实施例中，上述步骤S12中识别英文句子中所有谓语和非谓语动词组，如图3所示，具体包括：

步骤S1201：调用斯坦福自然语言处理工具Stanford CoreNLP对输入的英文句子进行词性标注，获得带有词性标注的单词列表wordList，统计其包含的单词数量记为N，令i＝1，转至步骤S1202；

步骤S1202：取出wordList中的单词word_i，1<＝i<N，转至步骤S1203；

步骤S1203：若word_i的词性不是动词，i+1，转至步骤S1202；若word_i的词性是动词，转至步骤S1204；

步骤S1204：从i+1继续向后判断wordList中单词的词性，若找到标志词markWord，记录其位置为j；否则，说明英文句子中只有一套动词词组，令j＝N，转至步骤S1205；其中，标志词包括：名词、介词、冠词、基数词和形容词；

步骤S1205：此时wordList中的一套动词词组已找到，提取出wordList中i到j位置上词性为动词的单词，其一起作为一组动词词组存入List<vpList>中，转至步骤S1206；

步骤S1206：若wordList中j+1的位置仍有单词，令i＝j+1，转至步骤S1202；否则，输出List<vpList>，供动词组识别自动机VPA识别谓语和非谓语动词组。

在提取到出现在英文句子中的所有动词词组后，需要使用如图4所示的动词组识别自动机VPA对提取出的所有动词词组进行识别。

自动机的输入为动词词组VP，其为句子中动词或其各种变形的序列。在初始情况下，其当前动词词动词词组VP的第一个动词或其变形。在VPA中，q0_start、q0_NPre、q0_TD、q0_VBG、q0_VBN、q1_MD、q1_NPre、q1_start、qa表示对自动机VPA状态的变换：其中，带有不同下标的q0类状态代表VPA停留在动词词组中的当前动词，其需要对当前动词的的类型进行具体判断，下标代表其需要做哪类判断，其并不改变VPA所处的当前位置；带有不同下标的q1类状态表示VPA需要跳转到动词词组中当前动词的下一个动词，下标代表其需要跳转进入的路径，并根据跳转后的当前动词做判断和跳转；qa状态表示识别结束。其中跳转条件均为当前位置动词的具体类型或变形，其包括：助动词：情态助动词MD、have类型的助动词HAVE_V、be类型的助动词BE_V；实义动词NATIONAL_V：动词原形VB、动词第三人称单数VBZ、动词过去式VBD；非谓语动词：动词不定式TODO、过去分词VBG、现在分词VBN。

在一个实施例中，上述步骤S1206中输出List<vpList>，供动词组识别自动机VPA识别谓语和非谓语动词组，如图5所示，具体包括：

步骤S12061：令动词词组序列VP＝vpList，将VP输入到自动机VPA中，此时自动机VPA位于VP的第一个动词上；设置临时存储装置VerbStructure，用于存储识别出的VP结构，并设置flag标志记录VP属于谓语动词还是非谓语动词，设置flag初始值为false，转至步骤S12062；

步骤S12062：VPA识别VP当前位置动词的类型：若其是情态助动词MD，转至步骤S12063；若其是have类型的助动词HAVE_V，转至步骤S12064；若其是be类型的助动词BE_V，转至步骤S12065；若其是实义动词NATIONAL_V，转至步骤S12066；若其是非谓语动词，令非谓语动词标志flag为true，转至步骤S12067；

步骤S12063：将MD存入到VerbStructure中，将自动机VPA跳转到VP的下一个动词，VPA识别VP当前位置动词的类型；若当前位置动词为have，转至步骤S12064；若当前位置动词为be，转至步骤S12065；若当前位置动词为实义动词的原形，转至步骤S12066；

步骤S12064：判断HAVE_V的具体类型是HAVE、HAD、HAS中的哪一个，将其具体类型存入到VerbStructure中；若VP还有下一个动词，自动机VPA跳转到VP的下一个动词，转至步骤S12067；否则，转至步骤S120611；

步骤S12065：判断BE_V的具体类型是AM、IS、ARE、WAS、WERE、BE、BEEN、BEING中的哪一个，将其具体类型存入到VerbStructure中；若VP还有下一个动词，自动机VPA跳转到VP的下一个动词，转至步骤S12067；否则，转至步骤S120611；

步骤S12066：判断实义动词的具体形态类型是动词原形VB、动词第三人称单数VBZ、过去式VBD、现在分词VBN、过去分词VBG中的哪一个，按照其具体形态类型存入到VerbStructure中；若VP还有下一个动词，自动机VPA跳转到VP的下一个动词，转至步骤S12067；否则，转至步骤S120611；

步骤S12067：若非谓语动词的类型是动词不定式，转至步骤S12068；若非谓语动词的类型是现在分词，转至步骤S12069；若非谓语动词的类型是过去分词，转至步骤S120610；

步骤S12068：将TO存入VerbStructure，继续判断to后面跟的动词类型，若动词不定式的to后跟的是have，转至步骤S12064；若to后跟的是be，转至步骤S12065；若to后跟的是其他实义动词原型，转至步骤S12066；

步骤S12069：判断现在分词的具体类型，若其是being，转至步骤S12065；若其是实义动词的现在分词形式，转至步骤S12066；

步骤S120610：判断过去分词的具体类型，若其是had，转至步骤S12064；若其是been，转至步骤S12065；若其是实义动词的过去分词形式，转至步骤S12066；

步骤S120611：此时已判断完VP中包含的各个动词的具体类型，若flag为true，说明VP为非谓语动词，将VerbStructure存入到NonPredicate(nonPre)表中；若flag为false，说明VP为谓语动词，将VerbStructure存入到Predicate(pre)表中。

本发明实施例中语法点识别模块可识别介词短语。介词短语是以介词为中心词的词组，在介词短语中介词是重点，标注时仅标注该介词短语是以什么样介词作为中心词即可。本发明实施例借助了斯坦福自然语言处理工具Stanford CoreNLP，对句子进行了句法结构解析，其生成了句法解析树，如图6所示，其中PP结点即代表介词短语，其孩子结点IN代表介词，找到IN下的叶子结点便可获得介词短语使用的具体介词类型。

在一个实施例中，上述步骤S12中利用语法点识别模块，识别介词短语，如图7所示，具体包括：

步骤S1211：对用户上传的文本中英文句子sentence调用Stanford CoreNLP中的句法解析工具，获得sentence的句法树syntaxTree，转至步骤S1212；

步骤S1212：若syntaxTree中能够查找到介词短语，即PP结点，说明sentence含有介词短语，则依次遍历syntaxTree中的所有PP节点，转至步骤S1213；否则，转至步骤S1215；

步骤S1213：对syntaxTree中当前的PP节点，通过该PP结点的孩子结点IN获得该介词短语中介词的具体类型，记为ppStr，并将ppStr存入到PP_TYPE(pp)表中，转至步骤S1214；

步骤S1214：若syntaxTree还有其他的PP结点，继续遍历，转至步骤S1213；否则，输出PP_TYPE(pp)表，转至步骤S1215；

步骤S1215：结束。

本发明实施例中语法点识别模块还可识别从句及其类型。带有从句的英文句子叫做复合句，其可分为两大类：并列句和复杂句，其中复杂句又分为三大类：状语从句、定语从句、名词性从句，语法点识别模块可以识别出复合句中从句的具体类型。具体来说，并列句的识别，采取识别其句法结构的方法来实现。复杂句的识别就较为复杂一点，其中，大部分状语从句仅凭其特有的引导词就能够识别出，还有一小部分的状语从句引导词同时可引导其他类型的从句，此时需要进一步结合名词性从句和定语从句的句法结构来进行更精准的识别。需要说明的是，名词性从句和定语从句的识别未采用判别引导词的方式来识别，因为这两类从句的引导词高度交叉，直接通过其句法结构来进行识别更精准。

现有的句法解析工具，仅能标注出句子中有从句，但识别不出从句的具体类型。故要获得从句的句法结构，还需要人工的从句子的句法解析结果中分析出从句的句法结构。本发明实施例利用斯坦福的自然语言处理工具Stanford CoreNLP对句子进行句法结构解析，其会输出一颗句法树syntaxTree，各从句的句法结构就展现在syntaxTree包含的一颗子树上，具体的识别标准如下：

syntaxTree的结点都有其具体的含义，在判别从句句法结构时用到的结点：S-句子、SBAR-从句、NP-名词短语、VP-动词短语、VB-动词原形、VBZ-动词第三人称单数、VBD-动词过去式、VBG-现在分词、VBN-过去分词、IN-介词、JJ-形容词、CC-并列连接词。

1)并列句：并列句的句法特征就是由并列连词将两个或两个以上的简单句连在一起，体现在syntaxTree中，就是判断S或SBAR的孩子结点是否同时包含CC和SBAR结点。

2)定语从句：定语从句的句法特征是定语从句位于其修饰的先行词之后，体现在syntaxTree中，就是判断NP的孩子结点是否同时包括NP和SBAR结点，且SBAR结点在NP结点的右边。

3)名词性从句的识别标准如下：

①主语从句：主语从句的句法特征是其在复杂句中充当句子的主语，且其在主句的谓语动词之前。体现在syntaxTree中，就是判断S的孩子结点是否同时包括SBAR和VP结点，且SBAR结点在VP结点的左边。

②宾语从句：宾语从句的句法结构是其在复杂句中充当宾语，位于及物动词、介词或部分形容词之后。体现在syntaxTree中，就是判断VP结点的孩子结点是否同时包含VB/VBZ/VBP/VBD/VBG/IN/JJ和SBAR结点，且SBAR结点在VB/VBZ/VBP/VBD/VBG/IN的右边。

③表语从句：表语从句的句法结构是其在复杂句中充当表语，位于系动词之后，体现在syntaxTree中，就是判断VP结点的孩子结点是否同时包含VB/VBZ/VBP/VBD/VBG和SBAR结点，且SBAR结点在右边，由此可以看出在syntaxTree中表语从句的句法结构和宾语从句的句法结构无法区分开，故此时需进一步判断谓语动词的类型，当谓语动词是系动词时说明该从句是表语从句。

在一个实施例中，上述步骤S12中利用语法点识别模块，识别从句，如图8所示，具体包括：

步骤S1221：对用户上传的文本中英文句子sentence调用Stanford CoreNLP中的句法解析工具，获得sentence的句法树syntaxTree，转至步骤S1222；

步骤S1222：若syntaxTree含有代表从句的SBAR结点，说明sentence含有从句，依次遍历syntaxTree中的所有SBAR结点，设置sbarStr临时记录从句信息，转至步骤S1223，否则，转至步骤S1227；

步骤S1223：在syntaxTree中通过SBAR结点查找到从句引导词guideWord，将其和状语从句的所有引导词进行比较，若guideWord是仅引导状语从句的引导词，令sbarStr为状语从句，转至步骤S1226；若guideWord除了引导状语从句引导外还可引导名词性从句或定语从句，转至步骤S1224；若guideWord不是状语从句引导词，转至步骤S1225；

步骤S1224：根据名词性从句和定语从句的句法结构识别标准进行判定，若从句符合其中某一类从句的句法结构，令sbarStr为对应的从句类型；若都不符合，则令sbarStr为状语从句；转至步骤S1226；

步骤S1225：根据并列从句、名词性从句和定语从句的句法结构识别标准进行判定，若从句符合其中一类从句的句法结构，令sbarStr为对应的从句类型；若都不符合，则将其输出，人工总结出其句法结构，进行一个从句句法结构的补充以便之后更精准的识别，转至步骤S1226；

步骤S1226：将sbarStr存入到SBAR_TYPE(sbar)表中，继续查找syntaxTree中是否有未被判定过的SBAR结点，如果还有未被判定过的，转至步骤S1223；否则，输出SBAR_TYPE(sbar)表，转至步骤S1227；

步骤S1227：结束。

经过上述步骤确定了文本筛选标准，即确定希望考察的词汇和语法点的范围，用户可以基于此标准，输入待筛选本文进行筛选，得到符合标准的筛选文本。

在一个实施例中上述步骤S2：用户输入待筛选本文，基于文本筛选标准进行筛选，获得筛选结果，具体包括：

步骤S21：基于文本筛选标准，根据文本超纲语法点统计模块，获取待筛选本文中的每一文本的超纲语法点信息；

步骤S22：基于文本筛选标准，根据文本超纲词统计模块，获取待筛选本文中的每一文本的超纲词信息；

步骤S23：基于预设的超纲词阈值α和超纲语法点阈值β，以及超纲词信息和超纲语法点信息，从待筛选本文中筛选出符合需求的文本。

在英文教学中，随着学习年级的增长，教授的语法点知识也是在不断增加的，教师在筛选英文教学文本时要充分的考虑到文本中涉及到的语法点是否过难或者过于简单。本发明实施例根据用户所确定的文本筛选标准，可以获取一张语法点表GrammarPointTable(GP)，其包含了用户希望筛选文本时包含到的语法点。由于待筛选文本撰写时的不可控性，从语法的角度筛选到完全符合用户需求文本的难度很高，可能需要教师进行语法改写操作。基于此本发明实施例除了记录基于GrammarPointTable(GP)的文本超纲语法点占比，还将超纲语法点记录下来，便于用户进行进一步改写操作。

在一个实施例中，上步骤S21：基于文本筛选标准，根据文本超纲语法点统计模块，获取待筛选本文中的每一文本的超纲语法点信息，如图9所示，具体包括：

步骤S211：根据文本text，按照其句子结束标志进行分句，并将所有分句结果按照分割次序存储在句子链表sentenceList中，统计句子数量记为N，令i＝1，转至步骤S212；

步骤S212：取出sentence_i，1<＝i<＝N，利用语法点识别模块，获得sentence_i的所有语法点gp，存入textGP(gp)中，转至步骤S213；

步骤S213：若sentence_i不是sentenceList中的最后一个句子，令i+1，转至步骤S212；否则，统计textGP(gp)中包含的语法点数量记为M，设置newGPCount记录text的超纲语法点数量，令j＝1，转至步骤S214；

步骤S214：取出textGP(gp)中的语法点gp_j，1<＝j<＝M，将gp_j与从文本筛选标准中获取的语法点表GrammarPointTable(GP)中的语法点进行比对，转至步骤S215；

步骤S215：若gp_j不在GrammarPointTable(GP)中，令newGPCount+1，并将gp_j存入到text对应的超纲语法点列表中newGPList(gp)；否则，不做任何操作，转至步骤S216；

步骤S216：若gp_j不是textGP(gp)中的最后一个语法点，令j+1，转至步骤S214；否则，转至步骤S217；

步骤S217：输出text的超纲语法点占比：newGPCount/M，及text的超纲语法点表newGPList(gp)。

此外，在英语教学中，基于词汇筛选英文教学文本时，教师需要考虑学生的词汇掌握情况，本发明实施例根据用户所确定的文本筛选标准，可以获取一张词汇表Vocabulary(word)，其记录了在当前学习进度下学生应该掌握的所有词汇。在大量的待筛选文本中筛选完全符合要求的文本也是有难度的。基于此本发明实施例除了记录基于Vocabulary(word)的超纲词占比，还将超纲词记录下来。

在一个实施例中，上述步骤S22：基于文本筛选标准，根据文本超纲词统计模块，获取待筛选本文中的每一文本的超纲词信息，如图10所示，具体包括：

步骤S221：根据文本text，利用文本预处理模块PROCESS(text)，获得text包含的所有互异单词原形表WordTable，及WordTable包含的单词数量N，设置count记录超纲词数量，转至步骤S222；

步骤S222：取出WordTable中的单词word_i，1<＝i<＝N，和Vocabulary(word)中的单词进行对比，若word_i不在Vocabulary(word)中，令count+1，并将word_i加入newWordList中；否则，转至步骤S223；

步骤S223：若word_i不是WordTable中的最后一个单词，令i+1，转至步骤S222；否则，转至步骤S224；

步骤S224：计算text中的超纲词的占比：newWordProp＝count/N，并输出text的超纲词表newWordList。

针对待筛选文本Corpus中包含的M篇英文文本，本发明实施例从词汇和语法角度出发最大限度筛选出符合用户需求的英文文本。其中，英文文本的筛选允许出现一定占比的超纲词和朝纲语法点，其程度可由用户自己设定。假若部分文本仅单方面符合用户需求，用户可自行选择是否根据本系统提供的超纲语法点或者超纲词汇进行语法改写、单词替换等操作。

在一个实施例中，上述步骤S23：基于预设的超纲词阈值α和超纲语法点阈值β，以及超纲词信息和超纲语法点信息，从待筛选本文中筛选出符合需求的文本，具体包括：

步骤S231：取出待筛选本文Corpus中的一篇文本text_i，1<＝i<＝M，设置一张表textForm用于记录Corpus中所有文本经处理后的相关信息，转至步骤S232；

步骤S232：利用文本超纲词统计模块，获得text_i的超纲词占比a和其超纲词记录表newWordList；利用文本超纲语法点统计模块，获得text_i的超纲语法点占比b和其超纲语法点记录表newGPList。将text_i及其这四类信息存入textForm中，转至步骤S233；

步骤S233：若text_i不是Corpus中的最后一篇文本，令i+1，转至步骤S232；否则，转至步骤S234；

步骤S234：用户设定超纲词阈值α和超纲语法点阈值β，转至步骤S235；

步骤S235:根据α、β以及textForm中每一篇文本text的超纲词占比a和超纲语法点占比b，计算并判断textForm中每一篇文本和用户需求的符合程度：

若a<＝α且b<＝β，则说明文本符合用户的需求，转至步骤S236；

若a<＝α、b>β，则说明文本的词汇符合筛选标准，若用户想进行语法改写操作，则向用户提供超纲语法点记录表newGPList；若用户不想进行语法改写操作，则将该文本废弃，转至步骤S236；

若a>α、b<＝β，则说明文本的语法符合用户筛选标准，若用户想进行词汇改写操作，则向用户提供超纲词汇记录表newWordList；若用户不想进行词汇改写操作，则将该文本废弃，转至步骤S236；

若a>α、b>β，则说明文本的语法和词汇均不符合用户的需求，直接将该文本废弃，转至步骤S236；

步骤S236：输出Corpus中满足用户需求的所有文本。

本发明公开了一种基于词汇和语法的英文文本筛选方法，将词汇和语法作为文本筛选标准，该方法消除了现有筛选文本方法不适用于筛选教学文本的问题，更为精细的刻画了筛选文本时词汇和语法对文本的影响。本发明提供的方法可根据用户的个人需求，进行英文文本筛选标准的调整，解决了因采用单一标准进行筛选文本带来的无法满足用户需求的问题。本发明提供的方法具有良好的筛选效果，筛选结果更为准确。与类似方法相比具有简单、高效、准确等特点，实现了针对不同学习阶段学习者的适合英语教学文本的筛选，极大程度的降低了人工劳力的投入。

实施例二

如图12所示，本发明实施例提供了一种基于词汇和语法的英文文本筛选系统，包括下述模块：

确定文本筛选标准模块31，用于用户登录文本筛选系统，选择文本筛选标准，文本筛选标准包括：文本筛选系统预定义的系统标准，用户定义的用户标准，以及由文本筛选系统基于用户上传的文本所定义的综合标准；

文本筛选模块32，用于用户输入待筛选本文，基于文本筛选标准进行筛选，获得筛选结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于词汇和语法的英文文本筛选方法，其特征在于，包括：

步骤S1：用户登录文本筛选系统，选择文本筛选标准，所述文本筛选标准包括：所述文本筛选系统预定义的系统标准，用户定义的用户标准，以及由所述文本筛选系统基于所述用户上传的文本所定义的综合标准；

步骤S2：所述用户输入待筛选本文，基于所述文本筛选标准进行筛选，获得筛选结果，具体包括：

步骤S21：基于所述文本筛选标准，根据文本超纲语法点统计模块，获取所述待筛选本文中的每一文本的超纲语法点信息；

步骤S22：基于所述文本筛选标准，根据文本超纲词统计模块，获取所述待筛选本文中的每一文本的超纲词信息；

步骤S23：基于预设的超纲词阈值α和超纲语法点阈值β，以及所述超纲词信息和所述超纲语法点信息，从所述待筛选本文中筛选出符合需求的文本，具体包括：

步骤S231：取出所述待筛选本文Corpus中的一篇文本text_i，1<=i<=M，设置一张表textForm用于记录Corpus中所有文本经处理后的相关信息，转至步骤S232；

步骤S232：利用所述文本超纲词统计模块，获得text_i的超纲词占比a和其超纲词记录表newWordList；利用所述文本超纲语法点统计模块，获得text_i的超纲语法点占比b和其超纲语法点记录表newGPList；将text_i及其这四类信息存入textForm中，转至步骤S233；

步骤S234：所述用户设定所述超纲词阈值α和所述超纲语法点阈值β，转至步骤S235；

步骤S235：根据α、β以及textForm中每一篇文本text的超纲词占比a和超纲语法点占比b，计算并判断textForm中每一篇文本和所述用户需求的符合程度：

若a<=α且b<=β，则说明所述文本符合所述用户的需求，转至步骤S236；

若a<=α、b>β，则说明所述文本的词汇符合筛选标准，若用户想进行语法改写操作，则向用户提供超纲语法点记录表newGPList；若用户不想进行语法改写操作，则将该文本废弃，转至步骤S236；

若a>α、b<=β，则说明所述文本的语法符所述合用户筛选标准，若所述用户想进行词汇改写操作，则向所述用户提供超纲词汇记录表newWordList；若所述用户不想进行词汇改写操作，则将该文本废弃，转至步骤S236；

步骤S236：输出Corpus中满足所述用户需求的所有文本。

2.根据权利要求1所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S1：由所述文本筛选系统基于所述用户上传的文本所定义的综合标准，具体包括：

步骤S11：所述用户上传n篇符合其筛选标准的文本，利用文本预处理模块，获取所述文本中所有单词对应的原形，由此构建词汇的筛选标准；

步骤S12：利用语法点识别模块，识别所述文本中英文句子所包含语法点，包括：识别所述英文句子中谓语和非谓语动词组、介词短语和从句，由此构建语法点筛选标准。

3.根据权利要求2所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S11：所述用户上传n篇符合其筛选标准的文本，利用文本预处理模块，获取所述文本中所有单词对应的原形，由此构建词汇的筛选标准，具体包括：

步骤S111：将所述文本按照空格和非单引号的标点符号分割字符串，并将所有分割结果按照分割次序存储在字符串链表strList中，转至步骤S112；

步骤S116：若word不是newStrList中的最后一个字符串，令word为newStrList中的下一个字符串，转至步骤S114；否则，输出所述文本的所有互异单词原形表WordTable，及其包含的单词数量N，基于WordTable构建词汇的筛选标准。

4.根据权利要求2所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S12中识别所述英文句子中所有谓语和非谓语动词组，具体包括：

步骤S1201：调用斯坦福自然语言处理工具Stanford CoreNLP对输入的英文句子进行词性标注，获得带有词性标注的单词列表wordList，统计其包含的单词数量记为N，令i=1，转至步骤S1202；

步骤S1202：取出wordList中的单词word_i，1<=i<N，转至步骤S1203；

步骤S1204：从i+1继续向后判断wordList中单词的词性，若找到标志词markWord，记录其位置为j；否则，说明所述英文句子中只有一套动词词组，令j=N，转至步骤S1205；其中，所述标志词包括：名词、介词、冠词、基数词和形容词；

步骤S1206：若wordList中j+1的位置仍有单词，令i=j+1，转至步骤S1202；否则，输出List<vpList>，供动词组识别自动机VPA识别谓语和非谓语动词组。

5.根据权利要求4所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S1206中输出List<vpList>，供动词组识别自动机VPA识别谓语和非谓语动词组，具体包括：

步骤S12061：令动词词组序列VP = vpList，将VP输入到自动机VPA中，此时自动机VPA位于VP的第一个动词上；设置临时存储装置VerbStructure，用于存储识别出的VP结构，并设置flag标志记录VP属于谓语动词还是非谓语动词，设置flag初始值为false，转至步骤S12062；

步骤S120611：此时已判断完VP中包含的各个动词的具体类型，若flag为true，说明VP为非谓语动词，将VerbStructure存入到NonPredicate表中；若flag为false，说明VP为谓语动词，将VerbStructure存入到Predicate表中。

6.根据权利要求2所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S12中利用语法点识别模块，识别介词短语，具体包括：

步骤S1211：对所述用户上传的文本中英文句子sentence调用Stanford CoreNLP中的句法解析工具，获得sentence的句法树syntaxTree，转至步骤S1212；

步骤S1215：结束。

7.根据权利要求2所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S12中利用语法点识别模块，识别从句，具体包括：

步骤S1221：对所述用户上传的文本中英文句子sentence调用Stanford CoreNLP中的句法解析工具，获得sentence的句法树syntaxTree，转至步骤S1222；

步骤S1227：结束。

8.根据权利要求1所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S21：基于所述文本筛选标准，根据文本超纲语法点统计模块，获取所述待筛选本文中的每一文本的超纲语法点信息，具体包括：

步骤S211：根据所述文本text，按照其句子结束标志进行分句，并将所有分句结果按照分割次序存储在句子链表sentenceList中，统计句子数量记为N，令i=1，转至步骤S212；

步骤S212：取出sentence_i，1<=i<=N，利用所述语法点识别模块，获得sentence_i的所有语法点gp，存入textGP(gp)中，转至步骤S213；

步骤S213：若sentence_i不是sentenceList中的最后一个句子，令i+1，转至步骤S212；否则，统计textGP(gp)中包含的语法点数量记为M，设置newGPCount记录text的超纲语法点数量，令j=1，转至步骤S214；

步骤S214：取出textGP(gp)中的语法点gp_j，1<=j<=M，将gp_j与从所述文本筛选标准中获取的语法点表GrammarPointTable(GP)中的语法点进行比对，转至步骤S215；

9.根据权利要求1所述的基于词汇和语法的英文文本筛选方法，其特征在于，所述步骤S22：基于所述文本筛选标准，根据文本超纲词统计模块，获取所述待筛选本文中的每一文本的超纲词信息，具体包括：

步骤S221：根据所述文本text，利用所述文本预处理模块，获得text包含的所有互异单词原形表WordTable，及WordTable包含的单词数量N，设置count记录超纲词数量，转至步骤S222；

步骤S222：取出WordTable中的单词word_i，1<=i<=N，和Vocabulary(word)中的单词进行对比，若word_i不在Vocabulary(word)中，令count+1，并将word_i加入newWordList中；否则，转至步骤S223；

步骤S224：计算text中的超纲词的占比：newWordProp=count/N，并输出text的超纲词表newWordList。

10.一种基于词汇和语法的英文文本筛选系统，其特征在于，包括下述模块：

确定文本筛选标准模块，用于用户登录文本筛选系统，选择文本筛选标准，所述文本筛选标准包括：所述文本筛选系统预定义的系统标准，所述用户定义的用户标准，以及由所述文本筛选系统基于所述用户上传的文本所定义的综合标准；

文本筛选模块，用于所述用户输入待筛选本文，基于所述文本筛选标准进行筛选，获得筛选结果，具体包括：

步骤S236：输出Corpus中满足所述用户需求的所有文本。