CN116720503A

CN116720503A - 一种基于树状解析编码的在线学习系统答案判别方法

Info

Publication number: CN116720503A
Application number: CN202310234176.2A
Authority: CN
Inventors: 王井胤; 张帅; 周惠清; 王海瑶
Original assignee: Jilin Yuanqi Technology Co ltd
Current assignee: Jilin Yuanqi Technology Co ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-09-08

Abstract

本发明公开了一种基于树状解析编码的在线学习系统答案判别方法，通过树状解析编码+孪生LSTM神经网络的方法，实现了输入内容式试题答案的计算机算法判断，具有较高的准确度和即时的判断响应速度，从而帮助在线学习系统的试题形式能够更加贴近真实线下练习场景，帮助使用者获得更好的学习效果。同时本发明采用的方法具有不断迭代以逼近全覆盖的精准应对某个应用场景的优化能力，从而有力支持在线学习系统提供优质的学习辅助服务。与现有的发送答题数据给人工审核的方式相比，响应速度更及时，成本更低。与现有的将内容输入式习题改为选择形式习题，以及仅能通过简单形式判断结果的方式相比，能够适应更为广泛的习题形式。

Description

一种基于树状解析编码的在线学习系统答案判别方法

技术领域

本发明涉及数理学科在线学习系统技术领域，尤其涉及一种基于树状解析编码的在线学习系统答案判别方法。

背景技术

随着各种在线学习系统的日渐兴起，对于系统使用者所提交的练习题答案进行精准判断成为一项关键技术。自然语言处理问题中，一般都会基于较多的语料数据，通过无监督的算法来获得词向量和句向量，进而判断语义的相似度。但是数理学科答案表达式的特点，使得其无法通过语料来无监督的获得包含语义的词句向量。同时，自然语言处理问题中，无论是中文还是英文，均可以分别通过分词算法或空格，将一个句子在单一层内拆分为最细的处理单元，但是理学科答案表达式往往具有较为立体复杂的表达结构，其难点在于数理学科输入内容式(如填空题)的习题答案并非唯一，比如某数学题的答案之一可以描述为“a(b-c)”，则诸如“ab-ac”“-ac+ab”也可作为该题目的正确答案，答案形式往往难以穷举，从而为计算机系统判断带来较大难度。

目前有些产品(如“大力智能学习灯”)通过将使用者答案发送给人工审核来解决该问题。通过将使用者答案发送给人工审核来解决该问题的方法，一方面需要审核者具有一定判定能力，另一方面人工方法过于依赖审核者的时间及精力情况，无法实现及时反馈以保证使用者的连续性学习。另外一些产品(如“乐学100”)将难以判断的试题转为选择题形式或将只有唯一答案表达形式的试题采用输入内容式的习题形式。还有的产品(如“科大讯飞AI学习机”)更注重对于使用者手写内容的图像识别，但是对于正确答案的多种表达方式则没有很好地判断。将难以判断的试题转为选择题形式或将只有唯一答案表达形式的试题采用输入内容式的习题形式的方法，将很大程度上减弱使用者的学习效果，比如有些习题如果采用选择题的形式，则由于试题答案的显性展示，无法让使用者进行充分的思考。

鉴于目前还没有针对诸如数理学科习题结果输入内容的多样性进行准确的智能判断的学习系统，因此需要开发一种可以引发使用者充分思考、增强学习效果的习题答案判别方法。

发明内容

本发明针对现有技术的不足，提出一种基于树状解析编码的在线学习系统答案判别方法，实现对于输入内容式的多样性进行准确的智能判断，从而强化在线学习系统的功能效果。

为了实现上述目的，本发明提供如下技术方案：

本发明提供一种基于树状解析编码的在线学习系统答案判别方法，包括以下步骤：

步骤一：将数学科目的答案形式进行收集并形成初始数据集，将初始数据集分为训练数据集和测试数据集，训练数据和测试数据均包括比较项和被比较项，为比较项和被比较项标注是否为相同含义，相同为1，不相同为0；

步骤二：将数据集所有比较项和被比较项的表达式进行树状解构及编码，所述树状解构指的是树状路径信息中包含了该比较项或被比较项位置信息，所述编码则是指将树状解构结果的末端节点的路径、节点类型、本身数值表示为一串已经拆分的编码数据，从而将所需比较的数据转化为神经网络所能处理的输入数据格式；

步骤三：根据步骤二中的编码结果，应用孪生LSTM神经网络进行训练数据的学习过程；

步骤四：从训练数据集中随机获取5％作为验证数据集，保存训练过程中验证集上效果最好的参数，最终对测试数据集进行预测；

步骤五：在测试用户使用过程中，如果遇到有错误的判断结果，则将该数据类型下的数据按照步骤一的标注方法补充到训练数据集及测试数据集；

步骤六：利用补充后的数据集按照步骤一到步骤五进行算法模型的迭代更新。

进一步地，步骤一中初始数据集数据量为5500条，其中训练数据和测试数据数量比例为10:1。

进一步地，步骤二中末端节点的路径为元素本身或元素经过运算所形成。

进一步地，步骤三中孪生LSTM神经网络采用两个相同结构的网络LSTM_a和LSTM_b，将输入的数据块长度固定为30个，不足部分通过数字0补齐。

进一步地，步骤三中孪生LSTM神经网络的过程为：对句子进行编码后，首先定义embedding_layer作为输入层和LSTM层的映射层，将输入的句子编码映射为数据块向量列表作为LSTM层的输入；两个LSTM的输出拼接后作为全连接层的输入，经过Dropout和BatchNormalization正则化，最终输出结果进行训练。

进一步地，训练采用nAdam算法以及EarlyStopping算法。

与现有技术相比，本发明的有益效果为：

本发明提出的基于树状解析编码的在线学习系统答案判别方法，通过树状解析编码+孪生LSTM神经网络的方法，实现了输入内容式试题答案的计算机算法判断，具有较高的准确度和即时的判断响应速度，从而帮助在线学习系统的试题形式能够更加贴近真实线下练习场景，帮助使用者获得更好的学习效果。同时本发明采用的方法具有不断迭代以逼近全覆盖的精准应对某个应用场景的优化能力，从而有力支持在线学习系统提供优质的学习辅助服务。与现有的发送答题数据给人工审核的方式相比，响应速度更及时，成本更低。与现有的将内容输入式习题改为选择形式习题，以及仅能通过简单形式判断结果的方式相比，能够适应更为广泛的习题形式。当前在数学、物理等偏理科学习场景下，可实现98％的判断准确性，结合该场景的字符串含义确定性，以及本发明所具备的不断优化的框架设计，未来预计可以达到准确度高于99.8％。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于树状解析编码的在线学习系统答案判别方法的算法流程图。

图2为本发明实施例提供的树状编码表达。

图3为本发明实施例提供的树状解构及编码结果。

图4为本发明实施例提供的孪生LSTM神经网络。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明所解决的问题场景与自然语言处理中的语义相似度判别比较类似，但是同时二者之间也有很多不同之处，具体表现为：

(1)自然语言处理问题中，一般都会基于较多的语料数据，通过无监督的算法来获得词向量和句向量，进而判断语义的相似度。但是数理学科答案表达式的特点，使得其无法通过语料来无监督的获得包含语义的词句向量，因此本发明通过经过标注的数据来进行有监督的算法学习。

(2)自然语言处理问题中，无论是中文还是英文，均可以分别通过分词算法或空格，将一个句子在单一层内拆分为最细的处理单元，但是理学科答案表达式往往具有较为立体复杂的表达结构，需要进行多层的结构拆分和表达，才能准确表示其含义，因此本发明采取树状编码表达，如图1所示。

本实施例提供的基于树状解析编码的在线学习系统答案判别方法，如图2所示，包括以下步骤：

步骤一：根据所要解决的问题场景确定算法训练数据和测试数据，所谓问题场景指的是如果所要解决的是数学科目的输入内容是试题的答案判断，那么就将该类题目的典型数据形式进行收集并形成初步的数据集，典型数据形式是指收集归纳到的一些该学科的答案形式，为其标注是否为相同含义，相同为1，不相同为0，具体如表1所示：

表1数学科目的数据样例

比较项	被比较项	标签
			a(b+c)	ab+ac	1
a-b	b-a	0

初始数据集数据量约为5500条，其中训练数据和测试数据数量比例为10:1，该数据集将会帮助算法实现实际应用准确率不低于90％，该数据后期可以通过用户在使用过程中发现的少量判断错误情况进行数据补充和神经网络迭代训练，从而逐步涵盖场景应用需求。

步骤二：对数据集计算所有比较项和被比较项(包括训练数据和测试数据)的树状编码(如图1所示)，该方法会将所有比较项和被比较项的表达式进行树状解构及编码。所谓解构指的是树状路径信息中包含了该比较项或被比较项位置信息，比如图1中第一层有三个元素，则路径信息分别为1、2、3，其中第一层第三项会因为开方运算带来的表达结构，导致需要拆分为第二层，则第二层的路径信息分别为31、32，其中31项又因为平方结构带来了第三层中的311、312。所谓编码则是指将树状解构结果的末端节点的路径、节点类型、本身数值表示为一串已经拆分的编码数据，如图3所示，从而将所需比较的数据转化为神经网络所能处理的输入数据格式。

举例来说，图3中第三项的含义为：该项数值为a，路径信息为311，该路径为分别经过开方(sq)及平方所形成。

综上可知，该树状解构及编码方法会完整保留答案表达式的结构及数值信息，从而为神经网络的精准训练提供扎实数据基础。

步骤三：根据步骤二中的编码结果，应用孪生LSTM神经网络，进行训练数据的学习过程，之所以采用LSTM主要是为了神经网络能够学习到本发明所关注的问题场景中的数据顺序及不相邻数据之间关联特征，从而可以实现不同试题答案表达方式的判断。本发明所采用的LSTM神经网络结构如下图4所示。

该孪生LSTM神经网络采用以下做法：

(1)采用两个相同结构的网络LSTM_a和LSTM_b，为了应对不同长度的比较项和被比较项，将输入的数据块长度固定为30个，不足部分通过数字0补齐。

(2)在按照图2所示对句子进行编码后，首先定义embedding_layer作为输入层和LSTM层的映射层，将输入的句子编码映射为数据块向量列表作为LSTM层的输入。两个LSTM的输出拼接后作为全连接层的输入，经过Dropout和BatchNormalization正则化，最终输出结果进行训练。

步骤四：步骤三中神经网络模型的学习能力需要与测试数据进行配合，训练采用nAdam以及EarlyStopping，训练集中随机获取5％作为验证数据集，保存训练过程中验证集上效果最好的参数。最终对测试集进行预测，从而避免过拟合等情况的发生。

步骤五：在测试用户使用过程中，如果遇到有错误的判断结果，则将该数据类型下的数据按照表1所示方法补充到训练数据集及测试数据集，从而帮助数据集能够越来越完整的涵盖各种数据情况。

步骤六：利用补充后的数据集按照步骤一到五进行算法模型的迭代更新，从而帮助其表现的越来越好。

综上，本发明通过树状解析编码+孪生LSTM神经网络的方法，实现了输入内容式试题答案的计算机算法判断，具有较高的准确度和即时的判断响应速度，从而帮助在线学习系统的试题形式能够更加贴近真实线下练习场景，帮助使用者获得更好的学习效果。

此外，本发明采用的方法系统具有不断迭代以逼近全覆盖的精准应对某个应用场景的优化能力，从而有力支持在线学习系统提供优质的学习辅助服务。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于树状解析编码的在线学习系统答案判别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于树状解析编码的在线学习系统答案判别方法，其特征在于，步骤一中初始数据集数据量为5500条，其中训练数据和测试数据数量比例为10:1。

3.根据权利要求1所述的基于树状解析编码的在线学习系统答案判别方法，其特征在于，步骤二中末端节点的路径为元素本身或元素经过运算所形成。

4.根据权利要求1所述的基于树状解析编码的在线学习系统答案判别方法，其特征在于，步骤三中孪生LSTM神经网络采用两个相同结构的网络LSTM_a和LSTM_b，将输入的数据块长度固定为30个，不足部分通过数字0补齐。

5.根据权利要求1所述的基于树状解析编码的在线学习系统答案判别方法，其特征在于，步骤三中孪生LSTM神经网络的过程为：对句子进行编码后，首先定义embedding_layer作为输入层和LSTM层的映射层，将输入的句子编码映射为数据块向量列表作为LSTM层的输入；两个LSTM的输出拼接后作为全连接层的输入，经过Dropout和BatchNormalization正则化，最终输出结果进行训练。

6.根据权利要求5所述的基于树状解析编码的在线学习系统答案判别方法，其特征在于，训练采用nAdam算法以及EarlyStopping算法。