CN112686025B

CN112686025B - 一种基于自由文本的中文选择题干扰项生成方法

Info

Publication number: CN112686025B
Application number: CN202110113550.4A
Authority: CN
Inventors: 戴剑锋; 吴梦莹; 董黎刚; 蒋献
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2023-09-19
Anticipated expiration: 2041-01-27
Also published as: CN112686025A

Abstract

本发明公开了一种基于自由文本的中文选择题干扰项生成方法，步骤包括：1‑1）对文本进行预处理，解析出核心关键词；1‑2）选择信息句；1‑3）生成正确答案；1‑4）生成问题题干；1‑5）扩展正确答案；1‑6）生成干扰项：基于向量空间模型进行扩展词向量化，使用TF‑IDF方法计算各个扩展词在向量空间里的权重；利用LSI模型将文本用“词语‑文本”矩阵表示，利用奇异值分解将高维稀疏的矩阵转换成低维的文本向量和单词向量，结合扩展词向量空间权重，用余弦相似度方法计算扩展词与知识图谱中三元组的语义相似度；筛选出干扰项；1‑7）结合题干和干扰项生成选择题。本发明生成速度快，占用资源少，难度高，适用于标准化教学和机器学习。

Description

一种基于自由文本的中文选择题干扰项生成方法

技术领域

本发明涉及自然语言处理领域，尤其是一种基于自由文本的中文选择题干扰项生成方法。

背景技术

虽然目前对问题生成的研究较多，但是对选择题生成的研究较少。国内外对选择题自动生成技术的研究大部分都是针对英文的词汇和语法。选择题作为考试题型中最常出现、占比很大的一种题型，在教育评价和主动学习中都起着重要作用。如果能根据输入的文本自动生成选择题，那么对学生的学习和机器学习有着很大的帮助。试卷中传统的选择题生成方法是由人工构造试题库，再从试题库中随机抽取题目，人工生成选择题是一项非常耗费人力和时间的任务，并且需要专业领域的相关知识。因此如果能根据输入的文本自动生成选择题，学生在学习完一段文本后就能快速获得相关的问题，并对自己的知识掌握能力进行测试。所以选择题的自动生成不仅对教师出题有很大的帮助，对学生的学习效率也有很大的提升。

选择题的三要素是：问题题干、正确答案和干扰项。这三个关键点中往往最重要的就是干扰项的生成，干扰项的难度直接决定了选择题的难度。如何生成一个好的干扰项，对选择题的研究有着重要意义。生成更高质量的干扰项的含义是使干扰项能更接近于正确答案，对做题者产生更高的迷惑性。

目前大部分干扰项都是针对英文问题生成的，主要是采用计算语义相似度的方法，目前采用的相似度计算方法有基于本体的，基于语料库的方法和基于图的方法。在基于语料库的方法中，根据文本的上下文信息来计算相似度，有学者研发的系统基于潜在语义分析模型（LSA），使用文本中的上下文词语来计算相似度。LSA是一种通过应用于语料库的统计计算来提取和表示词义的理论和方法，在许多教育应用中取得了不错的成果。基于图形的方法使用HowNet、WordNet、同义词库和领域知识库等知识资源库来计算以图形表示的词汇知识库中两个概念或单词之间的语义距离。除了语义相似计算方法外，还有其他研究者提出利用词频和词性信息来产生干扰项。然而，这些方法都是针对英文选择题生成的。

Mitkov等人研究了几种不同的相似性度量方法，旨在确定哪些相似性度量能产生更好的选择题干扰项。Liu等人提出了一种混合相似度策略，利用统计回归模型生成中文选择题的干扰项，并将混合策略与其他三种常见的干扰源生成策略，即正字法策略、语义策略和语音策略进行了比较。其中一个重要的发现表明，混合策略在分心有效性方面显著优于其他三种策略，并且具有最高的辨别力。Jiang等人首次研究了汉语学习中自动生成填空题干扰项，使用的语义相似性度量是基于word2vec模型的。评估表明，基于word2vec模型的语义相似性度量比只考虑词性和词频的基线有了显著的改进，并且与人工产生的选项相比更具有竞争力。

基于这些启发式特征，2017年，Liang等人提出了一个从训练生成性对抗网络（GANs）中学习的生成模型来创建有效的干扰项。他们把干扰项生成看作一个多类分类问题，该方法只利用上下文信息，不使用正确答案。2018年Liang等人又提出了两种模型：基于特征的模型和基于NN的模型，在SciQ数据集和MCQL数据集上进行了实验，对两种模型进行了实证研究。实验结果表明，基于特征的集成学习方法（随机森林Random Forest和LambdaMART）都优于基于神经网络的方法和无监督的自学习方法。Welbl等人使用随机森林。然而，对于已报道的二元分类指标，顶部产生的干扰源的质量没有得到定量评估。Takuya等人提出了一种将概念图转换为选择题的方法。Yeung等人引入了干扰项排名作为一种新的干扰项生成评估框架。首次将BERT应用于干扰项排序任务中。实验结果表明，该方法在与人类对干扰项可信性判断的相关性以及干扰项准确性方面都优于语义相似性度量的方法。

发明内容

为了提高选择题干扰项的质量，利用深度学习，本发明提供了一种基于自由文本的中文选择题干扰项生成方法，相比现有的模型所生成的干扰项，本发明干扰项难度较高、迷惑性较大，能够较好地用于中文选择题的生成。

一种基于自由文本的中文选择题干扰项生成方法，包括如下步骤：

1-1）输入文本，对文本进行预处理：对一段输入的自由文本进行依存句法分析（Dependency Parsing, DP），分析语句成分之间的依存关系揭示其句法结构，解析出自由文本中的核心关键词；

1-2）选择信息句：将解析出的核心关键词放入知识图谱中进行搜索，选取核心关键词在知识图谱中匹配到的最多的句子作为信息句；

1-3）生成正确答案：对信息句进行实体抽取，提取出实体对，再进行实体关系识别，得到实体对之间的关系，将由自然语言表述的信息句转化为三元组结构化的语句：三元组（实体1，实体关系，实体2），实体1即核心关键词，实体2选择为正确答案；

1-4）生成问题题干：将1-2）所述的信息句与1-3）所述的正确答案结合，生成选择题的问题题干；

1-5）扩展正确答案：使用Word2vec模型对1-3）所述的正确答案进行词向量扩展，将正确答案用词向量表示，然后根据语义相似度选择相似度高的词语作为扩展词；

1-6）生成干扰项：基于向量空间模型进行扩展词向量化，使用TF-IDF（TermFrequency- Inverse Document Frequency，词频-逆文档频率）方法计算各个扩展词在向量空间里的权重；

利用LSI模型将文本用“词语-文本”矩阵表示，利用奇异值分解（Singular ValueDecomposition，SVD）将高维稀疏的矩阵转换成低维的文本向量和单词向量，结合扩展词向量空间权重，用余弦相似度方法计算扩展词与知识图谱中三元组的语义相似度；

结合题干内容，根据语义相似度，筛选出三个符合题意且语义相似度较高的干扰项；

1-7）结合题干和干扰项生成选择题。

在所述的步骤1-1）中，解析核心关键词的方法步骤如下：

2-1）标记自由文本语句各个部分之间的依存关系，依存关系包括但不限于“主谓关系”、“动宾关系”、“定中关系”、“核心关系”；

2-2）分析语句中存在的“核心关系”，以“谓语”中的动词作为整个语句的中心成分Root，与Root具有核心关系的支配词为语句的核心关键词。

在所述的步骤1-6）中，相似度计算的方法步骤如下：

3-1）利用TF-IDF权重计算方法，将每个扩展词的词频与逆文档频率相乘，得到扩展词的TF-IDF权重值；

3-2）基于TF-IDF权重，语句可以用向量表示，语句相似度引申为向量的夹角大小并用余弦相似值，余弦相似值通过测量两个向量的夹角的余弦值来度量它们之间的相似性。两个向量的余弦值越接近于1，夹角趋于0，说明两个向量越相似，若余弦值接近于0，夹角趋于90度，则说明它们相似性越低。

本发明具有如下有益效果：

现有的选择题干扰项主要是基于N-gram模型、基于Jaccard模型、基于VSM模型、基于LDA模型和基于LSI模型生成的。从生成问题的难度等级数量分布、生成问题的难度系数和生成问题中优质问题的百分比这三个方面来衡量各个方法生成干扰项的优劣。基于N-gram模型和基于Jaccard模型生成的问题最简单，高难度问题数量最少，说明基于字符串的相似度计算方法浮于句子的表面，没有很深层次地考虑到词语间、句子间语义关系。而向量空间模型（VSM）和LSI模型生成的问题难度水平比较接近。本发明采用的基于向量空间模型和LSI模型的干扰项生成方法，生成的高难度、高质量问题数量最多，容易问题的数量最少。在干扰项生成中具有较为明显的优势，能够提高中文选择题的难度系数以及迷惑性。

其次，采用本发明方法生成选择题干扰项的生成速度远高于人工生成，并且能够批量生成问题，能够大大节约时间，减少人力资源的占用，可以很好代替人工来完成繁琐的工作。在人工智能领域，可以应用本发明来进行自动问答，适用于标准化教学和机器学习。

附图说明

图1是一种基于自由文本的中文选择题干扰项生成流程图；

图2是选择题题干生成流程图；

图3是选择题干扰项生成功能流程图；

图4是依存句法分析的示意图；

图5是双向长短期记忆网络的示意图；

图6是CBOW模型与Skip-gram模型的示意图；

图7是实体抽取功能流程图。

具体实施方法

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1-4所示，一种基于自由文本的中文选择题干扰项生成方法，生成中文选择题题干以及干扰项，包括如下步骤：

1）输入文本，对文本进行预处理：对一段输入的自由文本进行依存句法分析（Dependency Parsing, DP），分析语句成分之间的依存关系揭示其句法结构，解析出文本中的核心关键词；

2）选择信息句：将解析出的核心关键词放入知识图谱中进行搜索，选取核心关键词在知识图谱中匹配到的最多的句子作为信息句

3）生成正确答案：对信息句进行实体抽取，提取出实体对，再进行实体关系识别，得到实体对之间的关系，将由自然语言表述的信息句转化为三元组结构化的语句：三元组（实体1，实体关系，实体2），实体1即核心关键词，实体2选择为正确答案；

4）生成选择题题干：将提取出的信息句与正确答案结合，生成选择题的问题题干；

5）扩展正确答案：使用Word2vec模型对核心关键词进行词扩展，将核心关键词用词向量表示，然后根据词语相似度选择相似度高的词语作为扩展词；

6）生成干扰项基于向量空间模型进行扩展词向量化，使用TF-IDF（TermFrequency- Inverse Document Frequency，词频-逆文档频率）方法计算各个词语在向量空间里的权重；利用LSI模型将文本用“词语-文本”矩阵表示，利用奇异值分解（SingularValue Decomposition，SVD）将高维稀疏的矩阵转换成低维的文本向量和单词向量，结合词语向量空间权重，用余弦相似度方法计算关键词与知识图谱中三元组的语义相似度。结合题干内容，基于语义相似度，筛选出三个符合题意且语义相似度较高的干扰项。

7）结合题干和干扰项生成选择题。

所述的步骤1）中，依存句法分析的方法步骤如下：

1-1）标记语句各个部分之间的依存关系，依存关系包括但不限于“主谓关系”、“动宾关系”、“定中关系”、“核心关系”；

1-2）分析语句中存在的“核心关系”，以“谓语”中的动词作为整个语句的中心成分Root，与Root具有核心关系的支配词为语句的核心关键词；

所述的步骤3）中，实体抽取的方法步骤如下：

3-1）利用双向长短期记忆网络对语句进行无监督学习，提取上下文信息；

3-2）利用条件随机场对元素进行分类；

所述的步骤6）中，对相似度进行计算的步骤如下：

6-1）利用TF-IDF权重计算方法，将每个特征项的词频与逆文档频率相乘，得到特征项词语的TF-IDF权重值，TF-IDF权重值越高，说明特征值越能代表语句的主要内容；

6-2）基于特征项权重，语句可用向量表示，语句相似度可引申为向量的夹角大小并用余弦相似值。余弦相似值通过测量两个向量的夹角的余弦值来度量它们之间的相似性。两个向量的余弦值越接近于1，夹角趋于0，说明两个向量越相似，若余弦值接近于0，夹角趋于90度，则说明它们相似性越低。

实施例

为了便于本领域一般技术人员理解和实现本发明，现给出一种本发明所述方法的具体实施案例。利用自由文本生成中文选择题的核心思想是，通过提取自由文本中的核心关键词进行扩展。并将扩展词向量化计算，把自然语言用数字化的方法进行表示。利用语义相似度模型计算正确答案和知识三元组的语义相似度,筛选出和正确答案相近的干扰项，和正确答案一起组成选择题的选项，提高了生成选择题的难度和质量。

本实施例的算法采用Python 3.5实现，Python的开发环境采用Anaconda3（4.2.0）集成安装及管理，Anaconda是用于数据分析的Python发现版本，包含了Python、Conda等大量科学包及其依赖包，并且这些安装包的应用范围包含自然语言处理、深度学习等，可以根据不同的应用需求方便得安装、更新相应的依赖包。如图7所示，实体抽取功能和实体关系识别功能的实现均采用了深度学习框架Tensorfow（1.12.0）。

本实施例采用jieba（0.39）分词工具对输入文本进行分词处理，利用自然语言处理工具库Pyltp（0.2.0）对语句进行依存句法分析，利用自然语言处理工具包Gensim（3.4.0）来构建向量空间以及训练Word2vec模型。

本实施例将分别使用三个部分的数据源来构建知识图谱：第一部分使用数据结构教材内容构建知识图谱；第二部分是使用网络上的问题集合构建知识图谱；第三部分使用自然语言处理与中文计算机会议（The Conference on Natural Language Processingand Chinese Computing，NLPCC）提供的数据集NLPCC-KBQA构建知识图谱。本实例选取了100个数据结构相关的短文本。

下面用一个案例来描述本发明。

输入一段与数据结构领域相关的文本内容：“四大逻辑结构包括集合结构，线性结构，树形结构和图状结构。集合结构是指结构中的数据元素除了同属于一个集合这个关系以外，再无其他关系。而数学中的‘集合’概念要求集合中元素不一样，数据结构中的‘集合’结构并没有这个限制。”利用依存句法分析提取语句的核心关键词。依存句法分析是通过分析语言单位内成分之间的依存关系揭示其句法结构，如图4所示。依存句法认为：“谓语”中的动词是整个语句的中心成分，和其他成分产生直接或间接联系。所有依存关系都主张语句中的核心词是支配其他成分的中心成分，且不受其他成分的支配。依存句法关系的标注类型有多种，部分依存关系标签说明如表3所示，分析语句中存在的“核心关系”，以语句中的谓语作为整个语句的中心成分Root。与Root具有核心关系的支配词代表了整个语句的核心，经过依存句法分析得出输入文本中具有核心关系的词语是“包括”、“是”、“要求”，即为文本核心关键词。

表1 部分依存关系标签

关系类型	标签
		主谓关系	SBV
动宾关系	VOB
		定中关系	ATT
状中关系	ADV
		左附加关系	LAD
右附加关系	RAD
		并列关系	COO
核心关系	HED

将提取出的核心关键词在数据结构领域的知识图谱中进行搜索，匹配知识图谱中的三元组。关键词匹配的原则是：一条语句中的核心关键词在知识图谱中出现的次数越多，则说明该语句包含更多的知识点，更适合将其用于选择题题干的生成。选取关键词在知识图谱中匹配到最多的句子为信息句。使用关键词匹配方法后，选择的用于生成题干的信息句为：“四大逻辑结构包括集合结构，线性结构，树形结构和图状结构。”该选择是符合信息句挑选的原则的，因为选择的信息句中的核心关键词“包括”在知识图谱中出现的次数最多。

前文已生成的信息句都会包含一个或多个知识三元组的实体，因此首先对信息句进行实体抽取，提取出语句中的实体对。实体抽取的目的是识别出一个语句中具有特定意义的实体，并将主要划分为人名、地名、时间、专有名词等。本实例采用实体抽取方法是先用双向长短期记忆网络对语句进行无监督学习，提取上下文信息，双向记忆网络结构如图5所示，然后用条件随机场对信息进行分类。经过实体抽取之后得到的是一组没有关系的、离散的单个实体，因此要进行实体关系识别，得到实体间的语义关系。从而将一条由自然语言表述的信息句转化为结构化的语句：三元组（实体1，实体关系，实体2），如表4所示。

表2三元组格式

问题	逻辑结构的概念是什么
		三元组	（逻辑结构，解释关系，数据之间的逻辑关系）
答案	数据之间的逻辑关系

将实体2选择为正确答案。例如对于之前选择出的信息句：“四大逻辑结构包括集合结构，线性结构，树形结构和图状结构。”经过实体抽取和实体关系识别后，该信息句转化为四条三元组（四大逻辑结构，上下位关系，集合结构）、（四大逻辑结构，上下位关系，线性结构）、（四大逻辑结构，上下位关系，树形结构）和（四大逻辑结构，上下位关系，图状结构）。其中含有四个实体2：集合结构、线性结构、树形结构和图状结构。从中随机选取一个实体2当成问题的正确答案，本实例选取“集合结构”作为正确答案。

结合生成的信息句和正确答案，得出选择题题干：四大逻辑结构有（集合结构）、线性结构、树形结构、图状结构。

采用基于CBOW模型与Skip-Gram模型生成的Word2vec模型训练得到正确答案上下文相关的词向量，如图6所示。CBOW模型根据上下文预测目标词，Skip-Gram模型则相反，根据当前的目标词/>预测该词的上下文。Word2vec模型同时基于以上两种模型，对语料库训练得到高质量的词向量，计算出与正确答案的语义相似度，选择相似度高度词语作为正确答案的扩展词。经过Word2vec模型训练并计算得出相似度最高的三个选项：逻辑结构、顺序结构、链式结构。

基于向量空间模型进行扩展词向量化，该模型将句子看成是若干词语的组合，词语之间是相互独立的，句子的向量表示就是句中若干词语的矢量和。考虑到句子中各个词语对句子含义的影响程度不同，想要更加准确地表述语句信息，需要先根据重要程度为句中各个词语设置影响因子，也就是权重，最后用这些词向量的加权和作为句子的最终向量表示结果。本实例采用TF-IDF方法计算词向量权重，将每个扩展词的词频（TF）与逆文档频率（IDF）相乘，得到各个扩展词在向量空间里面的TF-IDF权重值。TF-IDF权重值越高，说明特征值越能代表扩展词的主要内容。具体公式如下：

其中TF表示词语在文本中出现的频率。词语在文本中出现的次数越多，那么它的词频值也就越大。与TF相反，词语的IDF值和它在文本中出现的频率成反比，即词语在文本中出现的次数越少，它的IDF就越大，就认为这类词对文本的区分度就越大。

利用LSI模型将文本在潜在语义空间表示为“词语-文本”矩阵，用奇异值分解方法对高维稀疏的矩阵进行降维处理，将“词语-文本”矩阵A拆成以下形式：

其中U和V分别是m阶和n阶的单位正交矩阵，是一个除了对角线上有值，其他位置元素均为0的矩阵，对角线上的值称为奇异值。/>的一般形式如下：

为了降低矩阵的维度到k，通常取矩阵的前k个奇异值，此时公式变成了：

此时上述公式中的m代表文本中词语的个数，n表示文档的个数，即表示第j份文档中的第i个词语的特征值，/>的值通常用标准化的TF-IDF值。利用SVD算法降维，上述公式中的k就是我们假设的文档主题个数，通常k<n，矩阵/>中的/>值表示文本第i个词语和第l个词义的相关度，矩阵/>中的/>值表示第j份文档和第r个主题的相关度，矩阵/>中的/>即为第l个词义和第r个主题的相关度。这样，利用LSI模型就得到了词语和词义的相关度、主题和文档的相关度以及词义和主题的相关度。将高维的“词语-文本”向量转换成低维的文本向量和单词向量，在可以接受的损失下，去除文本的冗余信息。通过LSI模型得到的文本主题矩阵可以用来计算文本相似度，通常采用余弦相似度算法，具体公式如下：

其中j表示文本的个数，r表示主题的个数。基于该文本语料利用“gensim”包中的TF-IDF和LSI模块联合构建向量空间。计算得出的文本相似度为[(逻辑结构,0.9438570737838745), (顺序结构, 0.5477073788642883), (链式结构,0.3545892834663391)]。

为了更好地比较本发明与其他主流模型生成问题的质量，测试了若干个不同模型生成问题的难度系数，结果如表3、表4所示。可见本发明方法生成的问题比其他主流模型的质量更高、难度更大，体现了较大优越性。

结合题干内容，根据计算得出的语义相似度，筛选出三个符合题意且语义相似度较高的干扰项。实例中的正确答案为集合结构，生成的干扰项为逻辑结构、顺序结构和链式结构。本实例还选取了其他若干个与数据结构相关的短文本，生成的选择题内容参见下表5：

表5基于自由文本的选择题生成实例

。/>

Claims

1.一种基于自由文本的中文选择题干扰项生成方法，其特征在于，包括如下步骤：

1-7）结合题干和干扰项生成选择题。

2.根据权利要求1所述的一种基于自由文本的中文选择题干扰项生成方法，其特征在于，在所述的步骤1-1）中，解析核心关键词的方法步骤如下：

3.根据权利要求1所述的一种基于自由文本的中文选择题干扰项生成方法，其特征在于，在所述的步骤1-6）中，相似度计算的方法步骤如下：

3-2）基于TF-IDF权重，语句可以用向量表示，语句相似度引申为向量的夹角大小并用余弦相似值，余弦相似值通过测量两个向量的夹角的余弦值来度量它们之间的相似性。