CN112101005B

CN112101005B - 一种快速表达力测试题目生成和动态调整方法

Info

Publication number: CN112101005B
Application number: CN202010254155.3A
Authority: CN
Inventors: 马徐骏; 刘嘉; 詹晨; 孟磊; 王浩宇; 褚东宇; 汤大业; 王磊
Original assignee: Shanghai Mien Network Technology Co ltd
Current assignee: Shanghai Haoxuan Education Technology Co.,Ltd.
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2022-08-30
Anticipated expiration: 2040-04-02
Also published as: CN112101005A

Abstract

本发明涉及机器学习技术领域，尤其为一种快速表达力测试题目生成和动态调整方法，目前快速表达力测试的题目仍由人工命题，该方法效率较低，准备一次测试题目往往需要耗费较大的人力和时间成本，且题目的词库无法动态调整，题目的区分度不能随着测试数据的积累而提高。针对这些不足，本发明提供了一种快速表达力测试的语言评测题目生成方法，使用机器学习和自然语言处理技术，基于计算机软件生成快速表达力测试的题目，可以较大程度地节省人力与时间成本，且可使用机器学习技术对生成题目的词库进行动态调整，使题目在使用过程中随测试数据的积累更具有区分度。

Description

一种快速表达力测试题目生成和动态调整方法

技术领域

本发明涉及机器学习技术领域，尤其是一种快速表达力测试题目生成和动态调整方法。

背景技术

快速表达力测试是一种新型口语测试模式，相较于传统汉语言测试，快速表达力测试有应用面广、测试快捷、评测客观的优点。但目前快速表达力测试的题目仍由人工命题，该方法效率较低，准备一次测试题目往往需要耗费较大的人力和时间成本。

发明内容

本发明的一个目的是通过提出一种快速表达力测试题目生成和动态调整方法，以解决上述背景技术中提出的当前快速表达力测试的题目完全由人工命题，效率较低，并且带有较大的出题者主观因素的缺陷。

本发明采用的技术方案如下：使用机器学习和自然语言处理技术，基于计算机软件生成快速表达力测试的题目，且可使用机器学习技术对生成题目的词库进行动态调整；该方法的步骤如下：

S1：找到可供参考的语言材料，使用人工录入方法录入已有语言材料，然后对这些语言材料进行过滤和分类以实现分词的目的，并存储在数据仓库中；

S2：在S1取得的分词后的语言材料中，进行词频统计和词性提取工作；

S3：使用TextRank算法对S1得到的每个语言材料进行自动摘要操作，该操作得到列表B，包含按TextRank数值重新排序的句子及其对应的TextRank数值；

S4：对S3得到的列表B，提取排序在前50％的句子，作为其语言材料的主旨句，将主旨句拼接得到主旨句文本C；

S5：对S4得到的主旨句文本C，使用TF-IDF算法从中提取关键词，并从关键词中取出普通名词和形容词词性的词语组成集合D；选择关键词的数量取TF-IDF数值排序靠前的E个词，得到题目的初始主旨词集合R2；

S6：对R2进行同义词扩充，即：对于R2中每个词语W，取其同义词与W组成一组同义词，W2，使用W2替换R2中的W，最后得到题目的主旨词列表TZZ，并给TZZ中每组词语赋予相同的分数权重；

S7：根据S1得到的分词列表F，从中选择时间名词、地点名词和数量词等，组成新的分词结果集合，即题目的初始细节词集合R3；

S8：使用与S6相同的方法步骤，对初始细节词集合R3进行扩充得到题目的细节词列表TXJ；

S9：汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ，即为新生成的题目T；

S10：在题目T生成之后，经人工筛选投放到题库，当题目使用次数达到预期值时，对该题每个答题者的答案，使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2，统计所有答题者的词库H1中所有词语得到H，对H中每个词语W，计算答案中包含W的回答者占所有回答者的比例HR1，若HR1>0.8则认为词语W区分度较低，若W存在于原主旨词集合TZZ，则降低词语W所在组的分数权重，若HR1<0.3则认为词语W较为生僻，若W存在于原主旨词集合TZZ，同样需要降低W所在组的分数权重。若HR1在0.5和0.85之间，则认为词语W有较好的区分度且不生僻，若W不在原主旨词集合TZZ，则将W及其同义词加入，并赋予该组词语初始分数权重，按同样方法对细节词集合TXJ进行调整。

作为本发明的一种优选技术方案：所述S1中使用人工录入方法录入已有语言材料还可替换为采用爬虫技术获取资料，爬虫技术获取资料的原始网站，可选用各类百科网站等知识性强的网站。

作为本发明的一种优选技术方案：所述S1中的过滤和分类操作方式，需要依赖于预先制定的违规词的词库，在对语言材料进行分词操作的基础上，由程序统计违规词在每个语言材料的出现的频率，若违规词出现频率超过人工设定的规定值，则认为该语言材料为违规材料，进行丢弃。

作为本发明的一种优选技术方案：所述S1中得到分词结果组成列表F，F包含语言材料切分后的词语和每个词语对应的词性。

作为本发明的一种优选技术方案：所述S1对得到的语言材料可按给定的字数或句子数目进行切割，以取得在规定长度内的语言材料，该语言材料作为生成题目的题目正文TZW。

作为本发明的一种优选技术方案：还可由人工对生成的题目正文TZW进行调整。

作为本发明的一种优选技术方案：所述S2还可由开源分词工具或商用接口完成。

作为本发明的一种优选技术方案：所述S4中的主旨句可以由人工重新选取。

作为本发明的一种优选技术方案：所述S5中E默认为语言材料长度的1/20或由人工按需重新指定，集合R2可以由人工介入，新增删除或修改。

作为本发明的一种优选技术方案：所述S10中的步骤可多次进行。

本发明的有益效果是：

1、本发明使用了机器学习和自然语言处理技术。

2、本发明生成的题目词库可以随着测试数据的积累进行动态调整词库。结合这两个主要特点，本发明可以减少快速表达力测试出题过程中的人工劳动，降低人工劳动的难度，在很大程度上提高了出题效率，且可以动态调整词库和词语的分数权重，让题目在使用过程中随着测试数据的积累更具有区分度。

附图说明

图1为本发明的步骤示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

参照图1，本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法，使用机器学习和自然语言处理技术，基于计算机软件生成快速表达力测试的题目，且可使用机器学习技术对生成题目的词库进行动态调整；该方法的步骤如下：

本实施例中：S1中的过滤和分类操作方式，需要依赖于预先制定的违规词的词库，在对语言材料进行分词操作的基础上，由程序统计违规词在每个语言材料的出现的频率，若违规词出现频率超过人工设定的规定值，则认为该语言材料为违规材料，进行丢弃。

本实施例中：S1中得到分词结果组成列表F，F包含语言材料切分后的词语和每个词语对应的词性。

本实施例中：S1对得到的语言材料可按给定的字数或句子数目进行切割，以取得在规定长度内的语言材料，该语言材料作为生成题目的题目正文TZW。

本实施例中：S5中E默认为语言材料长度的1/20。

本实施例中：S10中的步骤可多次进行。

实施例2：

本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法，使用机器学习和自然语言处理技术，基于计算机软件生成快速表达力测试的题目，且可使用机器学习技术对生成题目的词库进行动态调整；该方法的步骤如下：

S1：采用爬虫技术获取资料，爬虫技术获取资料的原始网站，可选用各类百科网站等知识性强的网站，然后对这些语言材料进行过滤和分类以实现分词的目的，并存储在数据仓库中；

S5：对S4得到的主旨句文本C，使用TF-IDF算法从中提取关键词，并从关键词中取出普通名词和形容词词性的词语组成集合D；该步选择关键词的数量取TF-IDF数值排序靠前的E个词，得到题目的初始主旨词集合R2；

本实施例中：S5中E默认为语言材料长度的1/20。

所述S10中的步骤可多次进行。

实施例3：

本实施例中：S1中爬虫技术获取资料的原始网站，选用各类百科网站等知识性强的网站。

本实施例中：S1中由人工对生成的题目正文TZW进行调整。

本实施例中：S5中E默认为语言材料长度的1/20。

本实施例中：S10中的步骤可多次进行。

实施例4：

本实施例中：S5中E默认为语言材料长度的1/20。

本实施例中：S10中的步骤可多次进行。

实施例5：

本实施例中：S5中E默认为语言材料长度的1/20。

本实施例中：S10中的步骤可多次进行。

实施例6：

本发明优选实施例提供了一种快速表达力测试题目生成和动态调整方法，使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：

使用机器学习和自然语言处理技术，基于计算机软件生成快速表达力测试的题目，且可使用机器学习技术对生成题目的词库进行动态调整；该方法的步骤如下：

本实施例中：S5中E由人工按需指定，集合R2可以由人工介入，新增删除或修改。

本实施例中：S10中的步骤可多次进行。

需要补充的是，上述各个实施例中使用Textrank算法对语言材料进行自动摘要处理，该步操作可选用LexRank算法以取得更快的速度。

作为公开，本发明中涉及到的取同义词过程使用开源的同义词词库synonyms进行，也可选用其他可用方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种快速表达力测试题目生成和动态调整方法，其特征在于：使用机器学习和自然语言处理技术，基于计算机软件生成快速表达力测试的题目，且可使用机器学习技术对生成题目的词库进行动态调整；该方法的步骤如下：

S7：根据S1得到的分词列表F，从中选择时间名词、地点名词和数量词，组成新的分词结果集合，即题目的初始细节词集合R3；

S10：在题目T生成之后，经人工筛选投放到题库，当题目使用次数达到预期值时，对该题每个答题者的答案，使用上述相同方法得到新的主旨词词库H1和新的细节词词库H2，统计所有答题者的词库H1中所有词语得到H，对H中每个词语W，计算答案中包含W的回答者占所有回答者的比例HR1，若HR1>0.8则认为词语W区分度较低，若W存在于原主旨词集合TZZ，则降低词语W所在组的分数权重，若HR1<0.3则认为词语W较为生僻，若W存在于原主旨词集合TZZ，同样需要降低W所在组的分数权重，若HR1在0.5和0.85之间，则认为词语W有较好的区分度且不生僻，若W不在原主旨词集合TZZ，则将W及其同义词加入，并赋予该组词语初始分数权重，按同样方法对细节词集合TXJ进行调整。

2.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S1中使用人工录入方法录入已有语言材料还可替换为采用爬虫技术获取资料。

3.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S1中的过滤和分类操作方式，需要依赖于预先制定的违规词的词库，在对语言材料进行分词操作的基础上，由程序统计违规词在每个语言材料的出现的频率，若违规词出现频率超过人工设定的规定值，则认为该语言材料为违规材料，进行丢弃。

4.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S1中得到分词结果组成列表F，F包含语言材料切分后的词语和每个词语对应的词性。

5.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S1对得到的语言材料可按给定的字数或句子数目进行切割，以取得在规定长度内的语言材料，该语言材料作为生成题目的题目正文TZW。

6.根据权利要求5所述的快速表达力测试题目生成和动态调整方法，其特征在于：还可由人工对生成的题目正文TZW进行调整。

7.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S2还可由开源分词工具或商用接口完成。

8.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S4中的主旨句可以由人工重新选取。

9.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S5中E默认为语言材料长度的1/20或由人工按需重新指定，集合R2可以由人工介入，新增删除或修改。

10.根据权利要求1所述的快速表达力测试题目生成和动态调整方法，其特征在于：所述S10中的步骤可多次进行。