CN112989784A

CN112989784A - 基于孪生神经网络的文本自动评分方法、装置及电子设备

Info

Publication number: CN112989784A
Application number: CN202110242778.3A
Authority: CN
Inventors: 李添财
Original assignee: Guangzhou Huicai Chuangzhi Technology Co ltd
Current assignee: Guangzhou Huicai Chuangzhi Technology Co ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-18

Abstract

本申请公开了一种基于孪生神经网络的文本自动评分方法、装置及电子设备，所述方法包括：将待评价文本、参考文本进行切分，然后对切分得到的句子进行预处理得到句子的词汇集合，并确定词汇集合的词向量集合，将待评价文本句子和参考文本句子组成句子对，分别输入句子对的词向量至孪生神经网络子网络训练，得到句向量，确定两个句向量差后将句向量差转换为句子之间的相似度，根据句子之间的相似度，匹配与参考句子相对应的待评价句子，根据匹配结果，进行评分。该方法相较现有技术，可提高主观题的自动阅卷的准确度。

Description

基于孪生神经网络的文本自动评分方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，特别涉及一种基于孪生神经网络的文本自动评分方法、装置及电子设备。

背景技术

智能阅卷是指通过计算机对学生作答的试题答案进行自动阅卷。智能阅卷能大大减轻老师人工阅卷的工作量，在一定程度上提高了评卷的公平性。在现有的智能阅卷方法中，多通过分析字数、词数等表面特征以及分析长文本的上下文连贯性进行自动评分，然而，受到答案文本长度的限制，能从类似主观题的短文本中获取的上下文信息有限，因此增加语篇连贯性的指标并不能有效地提升评分的准确度。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种基于孪生神经网络的文本自动评分方法，提高短文本自动阅卷的准确度。

本申请实施例提供一种基于孪生神经网络的文本自动评分方法，包括：

分别对待评价文本和参考文本进行切分，得到待评价句子集合和参考句子集合；

将所述待评价句子集合和所述参考句子集合分别进行预处理，得到每个句子的词汇集合，并确定每个所述词汇集合的词向量集合；

将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对，并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络，训练得到两个长度一致的句向量；

根据曼哈顿距离确定两个所述句向量的向量差，并将所述向量差转换为所述句子对的相似度；

根据所述相似度，确定与所述参考句子相匹配的所述待评价句子，记录匹配结果，所述匹配结果包括匹配成功的句子之间的相似度，以及未匹配成功的所述参考句子；

根据所述匹配结果，计算待评价文本的评分。

进一步的，所述根据所述相似度，确定与所述参考句子相匹配的所述待评价句子包括：

将所述相似度按照大小进行排列；

将所述相似度最大的句子对所对应的两个句子作为所述匹配成功的句子，并记录所述相似度最大的句子对的相似度；

将未匹配成功的句子组成的句子对作为待匹配的句子对，再次按照待匹配的句子的相似度大小进行排列，并记录，直至不存在句子对为止；

记录所述参考句子集合中未匹配成功的所述参考句子的信息。

进一步的，所述预处理包括：分词处理、去除标点符号、去除空白字符和去除停用词。

进一步的，本方法还包括：

对所述待评价句子集合和所述参考句子集合进行所述分词处理，并去除标点符号和空白字符，得到每个句子的第一词汇集合，提取所述第一词汇集合的第一词法特征，所述第一特征为词汇字数总和和错别字字数；

去除所述第一词汇集合中的停用词，得到第二词汇集合，提取所述第二词汇集合的第二词法特征，所述第二特征为去除停用词后的词汇字数总和；

根据所述匹配结果、所述第一词法特征和所述第二词法特征，计算待评价文本的评分。

进一步的，还所述将所述向量差转换为所述句子对之间的相似度包括：

判断所述向量差是否满足预设阈值，若所述向量差大于所述预设阈值，则所述句子相似度为0；若所述向量差小于预设阈值，则所述句子相似度满足公式

其中，所述C为相似度，所述S为所述向量差，所述M为预设阈值。

进一步的，包括以下步骤训练所述孪生神经网络子网络：

分别将训练模板的两个词向量集合输入至孪生神经网络子网络进行训练，得到训练模板的两个句向量；

根据曼哈顿距离确定所述训练模板的两个句向量的向量差；

所述训练模板两个句向量的向量差经全连接层、softmax层处理得到预测结果，所述预测结果为二维向量；

确定所述预测结果和所述训练模板真实结果的向量差，得到神经网络的损失，所述训练模板真实结果为二维向量；

根据反向传播算法调整所述孪生神经网络子网络的权重。

进一步的，还包括：

分别对所述待评价句子集合和所述参考句子集合中的句子进行编号；

对所述词汇集合进行标记，所述标记为所述词汇集合所属的句子编号。

进一步的，还提供了一种基于孪生神经网络的文本自动评分装置，其特征在于，包括：

文本切分单元，用于对待评价文本和参考文本进行切分，得到待评价句子集合和参考句子集合；

预处理单元，用于将所述待评价句子集合和所述参考句子集合分别进行预处理，得到每个句子的词汇集合，并确定每个所述词汇集合的词向量集合；

词向量训练单元，用于将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对，并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络，训练得到两个长度一致的句向量；

转换单元，用于根据曼哈顿距离确定两个所述句向量的向量差，并将所述向量差转换为所述句子对的相似度；

句子匹配单元，用于根据所述相似度，确定与所述参考句子相匹配的所述待评价句子，记录匹配结果，所述匹配结果包括匹配成功的句子之间的相似度，以及未匹配成功的所述参考句子；

计算单元，用于根据所述匹配结果，计算待评价文本的评分。

进一步的，本申请实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述实施例所述的基于孪生神经网络的文本自动评分方法。

进一步的，本申请实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的基于孪生神经网络的文本自动评分方法。

相比于现有技术，上述实施例通过分别待评价文本和参考文本的句子进行预处理后确定句子的词向量集合，通过孪生神经网络确定每个待评价文本的句子和每个参考文本的句子之间的相似度，根据句子之间的相似度，为参考文本的句子匹配相对应的待评价文本的句子，根据匹配结果计算评分。本方法将短文本的主观题从句子词义层面进行比较，再将句子进行匹配以从段落完整度上进行比较，有效地提高了主观题自动阅卷的准确度。

附图说明

下面结合附图和实施例对本申请进一步地说明；

图1为本发明实施例提供的一种基于孪生神经网络的文本自动评分方法的步骤流程图；

图2为本发明实施例提供的一种基于孪生神经网络的文本自动评分装置的结构示意图。

具体实施方式

本部分将详细描述本申请的具体实施例，本申请之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案，但其不能理解为对本申请保护范围的限制。

本发明实施例提供了一种基于孪生神经网络的文本自动评分方法，如图1所示，该方法包括：

S101、分别对待评价文本和参考文本进行切分，得到待评价句子集合和参考句子集合；

其中，对待评价文本进行句子切分后得到待评价句子集合，对参考文本句子进行切分后得到参考句子集合。待评价文本可以是学生的答卷文本，参考文本可以是答案文本。

S102、将所述待评价句子集合和所述参考句子集合分别进行预处理，得到每个句子的词汇集合，并确定每个所述词汇集合的词向量集合；

具体地，预处理包括分词处理、去除标点符号、去除空白字符和去除停用词。可利用分词工具“jieba分词”将句子分割成一个个的词汇，然后通过对照标点符号表去除句子中的标点符号，再通过对照空白字符表去除句子中的空白字符，最后通过比对停用词表去除句子中的停用词。

在一实施例中，分别对所述待评价句子集合和所述参考句子集合中的句子进行编号。如将待评价文本记录为文本A，参考文本记录为文本B，则可将待评价句子的第一个句子记录为A1，第二个句子记录为A2，参考句子中的第一个句子记录为B1，以此类推。对所述词汇集合进行标记，所述标记为所述词汇集合所属的句子编号，将经过预处理得到的句子词汇集合标记其所属的句子编号。

S103、将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对，并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络，训练得到两个长度一致的句向量；

其中，将待评价句子集合中每个待评价句子和参考句子集合中每个参考句子组成句子对，是指将待评价句子集合中的每一个句子和参考句子集合中的每一句话分别组成句子对，每个句子对中包括两个句子，两个句子分别来自待评价文本和参考文本。如待评价句子集合中含有句子A1、A2，参考句子集合中含有句子B1、B2，则将句子A1与句子B1、句子B2分别组成句子对，句子A2与句子B1、句子B2分别组成句子对，即可组成A1B1、A1B2、A2B1、A2B2四个句子对。

具体地，孪生神经网络子网络需要提前训练，在一实施例中，训练孪生神经网络子网络包括以下步骤：分别将训练模板的两个词向量集合输入至孪生神经网络子网络进行训练，得到训练模板的两个句向量；根据曼哈顿距离确定所述训练模板的两个句向量的向量差；所述训练模板两个句向量的向量差经全连接层、softmax层处理得到预测结果，所述预测结果为二维向量；确定所述预测结果和所述训练模板真实结果的向量差，得到神经网络的损失，所述训练模板真实结果为二维向量；根据反向传播算法调整所述孪生神经网络子网络的权重。

其中，训练模板的数据包括训练模板中两个句子对应的词向量集合，以及训练模板中两个句子之间是否相似的真实结果，真实结果为二维向量。预测结果中的两个元素，分别表示经过神经网络预测，训练模板中的两个句子相似的概率以及不相似的概率，两个元素的值可为0、1以及位于0～1之间的数值。如将二维向量中的第一个元素表示为训练模板中的两个句子相似的概率，第二个元素表示为训练模板中的两个句子不相似的概率，当训练模板中的句子相似，则真实结果为[1，0]，而预测结果为[0.01，0.99]，则真实结果和预测结果两个二维向量的向量差表示孪生神经网络子网络的损失，即

利用反向传播算法，将损失反向传递到孪生神经网络子网络中，调整孪生神经网络子网络中神经元的权重。

S104、根据曼哈顿距离确定两个句向量的向量差，并将向量差转换为所述句子对的相似度；

其中，两个句向量指句子对中两个句子的词向量集合经过训练得到的两个句子的句向量，根据曼哈顿距离确定两个句向量的向量差。两个n维向量a(x₁₁,x₁₂,...,x_1n)与b(x₂₁,x₂₂,...,x_2n)的曼哈顿距离为

其中d_ab表示向量a与向量b之间的曼哈顿距离。两个句向量的向量差为非负数。

具体地，将向量差转换为所述句子对的相似度包括：判断向量差是否满足预设阈值，若向量差大于预设阈值，则句子相似度为0；若向量差小于预设阈值，则句子相似度满足公式

需要说明的是，曼哈顿距离确定两个句向量的向量差为0时，表示两个句子之间的差别为0，即两个句子完全相似，该句子对的相似度为1。向量差超过预设阈值，表示两个句子之间完全不相似，该句子对的相似度为0。

S105、根据所述句子对的相似度，确定与所述参考句子相匹配的所述待评价句子，记录匹配结果，所述匹配结果包括匹配成功的句子之间的相似度，以及未匹配成功的所述参考句子；

具体地，根据所述相似度，确定与所述参考句子相匹配的所述待评价句子，包括：将所述相似度按照大小进行排列；将所述相似度最大的句子对所对应的两个句子作为所述匹配成功的句子，并记录所述相似度最大的句子对的相似度；将未匹配成功的句子组成的句子对作为待匹配的句子对，再次按照待匹配的句子的相似度大小进行排列，并记录，直至不存在句子对为止；记录所述参考句子集合中未匹配成功的所述参考句子的信息。

相似度按照大小进行排列可如表1所示，表1中第二列为待评价文本A的句子编号，第三列为参考文本B的句子编号，此时，相似度的最大值为0.998，对应的句子对为句子A5和句子B2组成的句子对，则将句子A5和句子B2组成的句子对作为匹配成功的句子对，句子A5和句子B2是匹配成功的句子，记录匹配成功的句子对的相似度0.998。由于句子A5和句子B2已经是匹配成功的句子，则删除表1中的第1行、第4行、第6行、第7行，以及其他有句子A5或句子B2参与组成的句子对和句子对对应的相似度，对剩下未匹配成功的句子组成的句子对，按照相似度大小进行排列，并再次匹配记录，直至不存在句子对，即待评价句子集合中的句子与参考句子集合中的句子一一匹配，或剩余未匹配成功的参考句子。记录未匹配成功的参考句子的句子数量。

表1相似度按照大小进行排列

S106、根据所述匹配结果，计算待评价文本的评分。

示例地，可根据匹配成功的句子对的相似度，确定待评价文本和参考文本的相似度。将匹配成功的句子对的相似度求平均值S1，未匹配成功的参考句子占参考句子集合的比例为S2，则待评价文本和参考文本的相似度S＝S₁×(1-S₂)。待评价文本和参考文本的相似度S与总分的乘积为待评价文本的评分。

本实施例所提供的基于孪生神经网络的文本自动评分方法，通过将待评价文本参考文本进行切分，然后对切分得到的句子进行预处理得到句子分词，并确定分词的词向量，将待评价文本句子和参考文本句子组成句子对，分别输入句子对的词向量至孪生神经网络子网络训练，得到句子对中两个句子的句向量，确定句向量差后将句向量差转换为句子之间的相似度，根据句子之间的相似度，匹配与参考句子相对应的待评价句子，根据匹配结果，进行评分。利用孪生神经网络子网络和曼哈顿距离对短文本的主观题从句子词义层面进行比较，再将待评价句子和参考句子进行匹配以从待评价文本的完整度上进行比较，有效地提高了主观题自动阅卷的准确度。

在一实施例中，基于孪生神经网络的文本自动评分方法还包括：对所述待评价句子集合和所述参考句子集合进行所述分词处理，并去除标点符号和空白字符，得到每个句子的第一词汇集合，提取所述第一词汇集合的第一词法特征，所述第一特征为词汇字数总和和错别字字数；去除所述第一词汇集合中的停用词，得到第二词汇集合，提取所述第二词汇集合的第二词法特征，所述第二特征为去除停用词后的词汇字数总和；根据所述匹配结果、所述第一词法特征和所述第二词法特征，计算待评价文本的评分。

获取前述第一词法特征和第二词法特征后，可进一步确定错别字占句子词汇字数总和的比例，以及去除停用词后的词汇字数总和占句子词汇字数总和的比例。并根据各比例在评分分值中的权重，调整得分。

本发明实施例，可通过神经网络提取词汇的特征，获取句子中的错别字数量，句子总字数以及去除停用词之后的字数，并将字数等句子表面特征与句子词义层面的相似度进行结合，更准确地对主观题进行阅卷。

在一实施例中，如图2所示，提供了一种基于孪生神经网络的文本自动评分装置，包括：

文本切分单元201，用于对待评价文本和参考文本进行切分，得到待评价句子集合和参考句子集合；

预处理单元202，用于将所述待评价句子集合和所述参考句子集合分别进行预处理，得到每个句子的词汇集合，并确定每个所述词汇集合的词向量集合；

词向量训练单元203，用于将所述待评价句子集合中每个待评价句子和所述参考句子集合中每个参考句子组成句子对，并分别输入所述句子对的两个所述词向量集合至孪生神经网络子网络，训练得到两个长度一致的句向量；

转换单元204，用于根据曼哈顿距离确定两个所述句向量的向量差，并将所述向量差转换为所述句子对的相似度；

句子匹配单元205，用于根据所述相似度，确定与所述参考句子相匹配的所述待评价句子，记录匹配结果，所述匹配结果包括匹配成功的句子之间的相似度，以及未匹配成功的所述参考句子；

计算单元206，用于根据所述匹配结果，计算待评价文本的评分。

在一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述基于孪生神经网络的文本自动评分方法的步骤。此处基于孪生神经网络的文本自动评分方法的步骤可以是上述各个实施例的基于孪生神经网络的文本自动评分方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述基于孪生神经网络的文本自动评分方法的步骤。此处基于孪生神经网络的文本自动评分方法的步骤可以是上述各个实施例的基于孪生神经网络的文本自动评分方法中的步骤。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种基于孪生神经网络的文本自动评分方法，其特征在于，包括：

根据所述匹配结果，计算待评价文本的评分。

2.如权利要求1所述的基于孪生神经网络的文本自动评分方法，其特征在于，根据所述相似度，确定与所述参考句子相匹配的所述待评价句子，包括：

将所述相似度按照大小进行排列；

将未匹配成功的句子组成的句子对作为待匹配的句子对，再次按照待匹配的句子的相似度大小进行排列，匹配并记录，直至不存在句子对为止；

3.如权利要求1所述的基于孪生神经网络的文本自动评分方法，其特征在于，所述预处理包括：

分词处理、去除标点符号、去除空白字符和去除停用词。

4.如权利要求3所述的基于孪生神经网络的文本自动评分方法，其特征在于，还包括：

5.如权利要求1所述的基于孪生神经网络的文本自动评分方法，其特征在于，将所述向量差转换为所述句子对之间的相似度，包括：

6.如权利要求1所述的基于孪生神经网络的文本自动评分方法，其特征在于，还包括以下步骤训练所述孪生神经网络子网络：

根据曼哈顿距离确定所述训练模板的两个句向量的向量差；

根据反向传播算法调整所述孪生神经网络子网络的权重。

7.如权利要求1所述的基于孪生神经网络的文本自动评分方法，其特征在于，还包括：

8.一种基于孪生神经网络的文本自动评分装置，其特征在于，包括：

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～7任意一项所述的基于孪生神经网络的文本自动评分方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该程序被处理器执行时实现权利要求1～7任意一项所述的基于孪生神经网络的文本自动评分方法。