CN112101017B

CN112101017B - 一种为快速表达力测试生成题目的方法

Info

Publication number: CN112101017B
Application number: CN202010254294.6A
Authority: CN
Inventors: 马徐骏; 刘嘉; 詹晨; 孟磊; 王浩宇; 褚东宇; 汤大业; 王磊
Original assignee: Shanghai Mien Network Technology Co ltd
Current assignee: Shanghai Haoxuan Education Technology Co.,Ltd.
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2022-09-06
Anticipated expiration: 2040-04-02
Also published as: CN112101017A

Abstract

本发明涉及机器学习技术领域，尤其为一种为快速表达力测试生成题目的方法，目前表达能力测试人工命题效率低下，存在人为因素偏差，且准备一次测试题目往往需要耗费较大的人力和时间成本。针对这一问题，本发明提出了一种在表达能力测试中可以使用的快速题目生成技术，结合时下流行的网络爬虫技术与表达力评测语言材料的基本特征，利用自然语言处理技术，快速提取文本有效信息，有效地帮助专家生成正式使用的表达力评测题目。

Description

一种为快速表达力测试生成题目的方法

技术领域

本发明涉及机器学习技术领域，尤其是一种为快速表达力测试生成题目的方法。

背景技术

快速表达力测试是一种新型口语测试模式，相较于传统汉语言测试，快速表达力测试有应用面广、测试快捷、评测客观的优点。但目前快速表达力测试的题目仍由人工命题，该方法效率较低，准备一次测试题目往往需要耗费较大的人力和时间成本。

发明内容

本发明的一个目的是通过提出一种为快速表达力测试生成题目的方法，以解决上述背景技术中提出的当前快速表达力测试的题目完全由人工命题，效率较低，并且带有较大的出题者主观因素的缺陷。

本发明采用的技术方案如下：使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：

S1：使用爬虫技术从网络自动取得大量语言材料，然后对这些语言材料进行过滤和分类以实现分词的目的，并存储在数据仓库中；

S2：在S1取得的分词后的语言材料中，进行词频统计和词性提取工作；

S3：使用TextRank算法对S1得到的每个语言材料进行自动摘要操作，该操作得到列表B，包含按TextRank数值重新排序的句子及其对应的TextRank数值；

S4：对S3得到的列表B，提取排序在前50％的句子，作为其语言材料的主旨句，将主旨句拼接得到主旨句文本C；

S5：对S4得到的主旨句文本C，使用TF-IDF算法从中提取关键词，并从关键词中取出普通名词和形容词词性的词语组成集合D；该步选择关键词的数量取TF-IDF数值排序靠前的E个词，得到题目的初始主旨词集合R2；

S6：对R2进行同义词扩充，即：对于R2中每个词语W，取其同义词与W组成一组同义词，W2，使用W2替换R2中的W，最后得到题目的主旨词列表TZZ，并给TZZ中每组词语赋予相同的分数权重；

S7：根据S1得到的分词列表F，从中选择时间名词、地点名词和数量词，组成新的分词结果集合，即题目的初始细节词集合R3；

S8：使用与S6相同的方法步骤，对初始细节词集合R3进行扩充得到题目的细节词列表TXJ；

S9：汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ，即为新生成的题目T。

作为本发明的一种优选技术方案：所述S1中还可以手动录入语言材料资源。

作为本发明的一种优选技术方案：所述S1中的过滤和分类操作方式，需要依赖于预先制定的违规词的词库，在对语言材料进行分词操作的基础上，由程序统计违规词在每个语言材料的出现的频率，若违规词出现频率超过人工设定的规定值，则认为该语言材料为违规材料，进行丢弃。

作为本发明的一种优选技术方案：所述S1中得到分词结果组成列表F，F包含语言材料切分后的词语和每个词语对应的词性。

作为本发明的一种优选技术方案：所述S1对得到的语言材料可按给定的字数或句子数目进行切割，以取得在规定长度内的语言材料，该语言材料作为生成题目的题目正文TZW。

作为本发明的一种优选技术方案：还可由人工对生成的题目正文TZW进行调整。

作为本发明的一种优选技术方案：所述S2还可由开源分词工具或商用接口完成。

作为本发明的一种优选技术方案：所述S4中的主旨句可以由人工重新选取。

作为本发明的一种优选技术方案：所述S5中E默认为语言材料长度的1/20或由人工按需重新指定，集合R2可以由人工介入，新增删除或修改。

本发明的有益效果是：

1、本发明使用了网络爬虫技术，从网络资源中爬取语言材料，这使得语言材料来源具有多样性，避免了出题专家主观因素的影响。

2、本发明使用了自然语言处理技术，从语言材料中获取了大量的关键词，这给出题专家提供了足够的词库提示。结合这两个主要特点，本发明可以减少快速表达力测试出题过程中的人工劳动，降低人工劳动的难度，在很大程度上提高了出题效率。

附图说明

图1为本发明的步骤示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

参照图1，本发明优选实施例提供了一种为快速表达力测试生成题目的方法，使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：

S1：使用爬虫技术从网络自动取得大量语言材料，然后对这些语言材料进行过滤和分类以实现分词的目的，并存储在数据仓库中；具体的，上述过程所涉及到的过滤和分类操作，目的是过滤掉内容不适合作为测试题目的语言材料。

S7：根据S1得到的分词列表F，从中选择时间名词、地点名词和数量词等，组成新的分词结果集合，即题目的初始细节词集合R3；

本实施例中：S1中爬虫技术获取资料的原始网站，选用各类百科网站等知识性较强的网站。

本实施例中：S1中的过滤和分类操作方式，需要依赖于预先制定的违规词的词库，在对语言材料进行分词操作的基础上，由程序统计违规词在每个语言材料的出现的频率，若违规词出现频率超过人工设定的规定值，则认为该语言材料为违规材料，进行丢弃。

本实施例中：S1中得到分词结果组成列表F，F包含语言材料切分后的词语和每个词语对应的词性。

本实施例中：S1对得到的语言材料可按给定的字数或句子数目进行切割，以取得在规定长度内的语言材料，该语言材料作为生成题目的题目正文TZW。

本实施例中：S5中E默认为语言材料长度的1/20。

实施例2：

本发明优选实施例提供了一种为快速表达力测试生成题目的方法，使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：

本实施例中：S1中爬虫技术获取资料由手动录入语言材料资源。

本实施例中：S5中E默认为语言材料长度的1/20。

实施例3：

本实施例中：S1中由人工对生成的题目正文TZW进行调整。

本实施例中：S5中E默认为语言材料长度的1/20。

实施例4：

S2：在S1取得的分词后的语言材料中，由开源分词工具或商用接口完成词频统计和词性提取工作；具体的，可采用开源的jieba等分词工具，当然也可选用其他商用分词接口，本实施例中优选使用jieba等开源工具分词的过程中可以加载自定义的词库，提高分词准确性。

本实施例中：S5中E默认为语言材料长度的1/20。

实施例5：

S4：对S3得到的列表B，主旨句由人工重新选取得到主旨句文本C；

本实施例中：S5中E默认为语言材料长度的1/20。

实施例6：

本实施例中：S5中E由人工按需指定，集合R2可以由人工介入，新增删除或修改。

需要补充的是，上述各个实施例中使用Textrank算法对语言材料进行自动摘要处理，该步操作可选用LexRank算法以取得更快的速度。

作为公开，本发明中涉及到的取同义词过程使用开源的同义词词库synonyms进行，也可选用其他可用方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种为快速表达力测试生成题目的方法，其特征在于：使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：

S1：使用爬虫技术从网络自动取得大量语言材料，然后对这些语言材料进行过滤和分类，并存储在数据仓库中，过滤和分类操作方式需要依赖于预先制定的违规词的词库，在对语言材料进行分词操作的基础上，由程序统计违规词在每个语言材料的出现的频率，若违规词出现频率超过人工设定的规定值，则认为该语言材料为违规材料，进行丢弃，分词结果组成列表F，列表F包含语言材料切分后的词语和每个词语对应的词性，得到的语言材料按给定的字数或句子数目进行切割，以取得在规定长度内的语言材料，该语言材料作为生成题目的题目正文TZW；

S3：使用TextRank算法对S1得到的每个语言材料进行自动摘要操作，该操作得到列表B，包含按TextRank数值重新排序的句子及其对应的Text Rank数值；

S5：对S4得到的主旨句文本C，使用TF-IDF算法从中提取关键词，并从关键词中取出普通名词和形容词词性的词语组成集合D；选择关键词的数量取TF-IDF数值排序靠前的E个词，得到题目的初始主旨词集合R2；

2.根据权利要求1所述的为快速表达力测试生成题目的方法，其特征在于：所述S1中还可以手动录入语言材料资源。

3.根据权利要求1所述的为快速表达力测试生成题目的方法，其特征在于：由人工对生成的题目正文TZW进行调整。

4.根据权利要求1所述的为快速表达力测试生成题目的方法，其特征在于：所述S2由开源分词工具或商用接口完成。

5.根据权利要求1所述的为快速表达力测试生成题目的方法，其特征在于：所述S4中的主旨句由人工重新选取。

6.根据权利要求1所述的为快速表达力测试生成题目的方法，其特征在于：所述S5中E默认为语言材料长度的1/20或由人工按需重新指定，集合R2由人工介入，新增删除或修改。