CN115859008A

CN115859008A - 解题模型的训练方法及装置

Info

Publication number: CN115859008A
Application number: CN202111124546.4A
Authority: CN
Inventors: 魏琢钰; 刘洋; 赵薇; 柳景明
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2023-03-28

Abstract

本发明公开了一种解题模型的训练方法及装置，涉及人工智能技术领域，主要为解决目前解题模型的训练过程中训练得到的解析模型的准确性较差的问题。该方法为：当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；通过所述第二训练数据及待训练模型，获取第一关系矩阵；修改所述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，所述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系；基于所述第二关系矩阵对所述待训练模型进行训练。

Description

解题模型的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种解题模型的训练方法及装置。

背景技术

当使用机器学习或深度学习模型来对试题进行解析的过程中，往往会基于机器模型学习到的“经验”将题干解析成对应的数学表达式，从而实现试题的解题功能。由于在利用机器模型进行解题的过程摆脱了对人工的依赖，因此解题模型的准确性将直接影响解题结果的准确性。

目前，在利用解题模型进行解题的过程中，由于解题模型也需要预先进行训练，以获取后续解题时所需的“经验”。但在实际应用中，训练过程中的某些存在相同字符的训练数据也会对解析模型造成一定的干扰，例如，某训练数据的题干为“一个圆柱体的底面直径为6cm，它的高为6cm，请求出它的体积”，数学表达式为

时，由于试题中存在相同的数字6，这就会使解题模型在训练时受到影响，从而导致当另一个试题为“一个圆柱体的底面直径为6cm，它的高为9cm，请求出它的体积”时，则由于之前训练过程中两个数字6导致学习到的对应关系混淆，例如，如果解题模型误认为数学表达式中的第一个6和第二个6代表的均是圆柱体底面直径，会解析出错误的预测结果为/>

如果解题模型误认为数学表达式中的第一个6代表圆柱体的高，第二个6代表的均是圆柱体底面直径，则会解析出错误的预测结果为/>

从而导致现有的解题模型训练过程往往因上述存在相同字符的训练数据的干扰，从而影响了训练出的解题模型的准确性。

发明内容

鉴于上述问题，本发明提供一种解题模型的训练方法及装置，主要目的在于解决目前解题模型的训练过程中训练得到的解析模型的准确性较差的问题。

为解决上述技术问题，第一方面，本发明提供了一种解题模型的训练方法，该方法包括：

当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；

通过所述第二训练数据及待训练模型，获取第一关系矩阵；

修改所述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，所述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系；

基于所述第二关系矩阵对所述待训练模型进行训练。

可选的，所述第一关系矩阵是注意力矩阵基于过筛选操作后得到的下三角矩阵，所述注意力矩阵用于以注意力参数表征各个预测结果之间关联关系；

所述修改所述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，包括：

修改所述第一关系矩阵的每个所述替换符之间的关联关系；

修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系。

可选的，所述修改所述第一关系矩阵的每个所述替换符之间的关联关系，包括：

从所述第一关系矩阵中确定第一目标区域矩阵，其中，所述第一目标区域矩阵为所述第一关系矩阵中的用于表征多个所述替换符之间关联关系的区域；

将所述第一目标区域矩阵从三角矩阵重表示为对角矩阵，其中，所述对角矩阵的对角趋势与所述下三角矩阵相同。

可选的，所述修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系，包括：

从所述第一关系矩阵中确定第二目标区域矩阵，其中，所述第二目标区域矩阵用于表征所述替换符与后续位置的预测结果之间的关联关系；

在所述第二目标区域矩阵中，将每行对应所述后续位置的预测结果的多个关联关系中保留一个所述关联关系。

可选的，所述在所述第二目标区域矩阵中，将每行对应所述后续位置的预测结果的多个关联关系中保留一个所述关联关系，包括：

获取对应所述第一关系矩阵的所述注意力矩阵，所述注意力矩阵是所述第二训练数据基于所述待训练模型计算获得的；

从所述注意力矩阵中获取对应所述第二目标区域矩阵的多个目标注意力参数，得到参数矩阵，所述目标注意力参数用于表征每个所述替换符与所述后续位置的预测结果之间的关联关系，所述参数矩阵中的注意力参数的分布方式与所述第二目标区域矩阵中的关联关系相对应；

根据预设选择公式，在所述参数矩阵中的每行对应的多个注意力参数中保留最大的所述注意力参数对应的关联关系，并将每行其余的所述注意参数对应的关联关系清零。

可选的，还包括：

通过预设损失函数调整所述待训练模型，所述预设损失函数包括第一损失函数及第二损失函数，所述第一损失函数用于使所述待训练模型在预测时，基于多个待选取参数中预测概率之和的最大值选取待选取参数组合，所述第二损失函数用于从待选取组合中选取预测概率最大的一个所述待选取参数作为所述预测结果。

可选的，所述第一损失函数为最大化似然损失函数；所述第二损失函数为硬期望最大化损失函数。

第二方面，本发明实施例还提供了一种解题模型的训练装置，包括：

替换单元，用于当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；

获取单元，用于通过所述第二训练数据及待训练模型，获取第一关系矩阵；

修改单元，用于修改所述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，所述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系；

训练单元，用于基于所述第二关系矩阵对所述待训练模型进行训练。

所述修改单元，包括：

第一修改模块，用于修改所述第一关系矩阵的每个所述替换符之间的关联关系；

第二修改模块，用于修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系。

可选的，所述第一修改模块，包括：

确定子模块，用于从所述第一关系矩阵中确定第一目标区域矩阵，其中，所述第一目标区域矩阵为所述第一关系矩阵中的用于表征多个所述替换符之间关联关系的区域；

重表示子模块，用于将所述第一目标区域矩阵从三角矩阵重表示为对角矩阵，其中，所述对角矩阵的对角趋势与所述下三角矩阵相同。

可选的，所述第二修改模块，包括：

确定子模块，用于从所述第一关系矩阵中确定第二目标区域矩阵，其中，所述第二目标区域矩阵用于表征所述替换符与后续位置的预测结果之间的关联关系；

保留子模块，用于在所述第二目标区域矩阵中，将每行对应所述后续位置的预测结果的多个关联关系中保留一个所述关联关系。

可选的，所述保留子模块，还用于：

可选的，还包括：

调整模块，用于通过预设损失函数调整所述待训练模型，所述预设损失函数包括第一损失函数及第二损失函数，所述第一损失函数用于使所述待训练模型在预测时，基于多个待选取参数中预测概率之和的最大值选取待选取参数组合，所述第二损失函数用于从待选取组合中选取预测概率最大的一个所述待选取参数作为所述预测结果。

为了实现上述目的，根据本发明的第三方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述第一方面中任一项所述的解题模型的训练方法。

为了实现上述目的，根据本发明的第四方面，提供了一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器；其中，所述处理器用于调用所述存储器中的程序指令，执行如第一方面中任一项所述的解题模型的训练方法。

借由上述技术方案，本发明提供的解题模型的训练方法及装置，对于目前解题模型的训练过程中训练得到的解析模型的准确性较差的问题，本发明在当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；然后通过上述第二训练数据及上述待训练模型，获取第一关系矩阵，并修改上述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，上述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系，从而实现基于上述第二关系矩阵对所述待训练模型进行训练。在上述方案中，由于，对根据相同数字出现的次数选取对应数量的不同代替符替换，得到能够区分公式中不同位置的相同数字的第二训练数据。并且为了避免当相同字符被不同的代替符代替后，预测时彼此之间的影响，对基于第二训练数据及待训练模型，获取第一关系矩阵进行修改，使得第二关系矩阵中所述后续位置的预测结果与多个所述替换符之间仅与其中一个具有关联关系，能够避免当相同字符被不同的代替符代替后，预测时彼此之间的影响，特别是多个代替符共同出现才能预测出后续预测结果的问题，从而提高了训练出的预测模型的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种解题模型的训练方法流程图；

图2-A至图2-F分别示出了本发明实施例提供的一种解题模型的训练方法执行时过程中具体步骤的示意图；

图3示出了本发明实施例提供的一种解题模型的训练装置的组成框图；

图4示出了本发明实施例提供的一种用于解题模型的训练的设备的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了解决目前解题模型的训练过程中训练得到的解析模型的准确性较差的问题，本发明实施例提供了一种解题模型的训练方法，如图1所示，该方法包括：

101、当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据。

由于题干中出现相同的数字会使解题模型在训练的过程中混淆相同数字对应的位置的实际含义，这就使得后续在利用这个解题模型进行解题时，预测出的表达式中某个位置的预测结果受到训练时错误“经验”的干扰而预测错误。因此，在本实施例中，在训练解题模型时，当发现存在相同数字的训练数据时，即第一训练数据，这时就需要将相同数字用不同的代替符代替，从而得到替换后的第二训练数据。例如，当第一训练数据为“一个圆柱体的底面直径为6cm，它的高为6cm，请求出它的体积”时，则根据本实施例的方法可以首先确定该第一训练数据中存在的相同的数字6，以及出现的次数两次，确定利用两个不同的代替符进行替换，其中，替换后得到的第二训练数据可以为“一个圆柱体的底面直径为d1cm，它的高为d2cm，请求出它的体积”。

102、通过所述第二训练数据及待训练模型，获取第一关系矩阵。

示例性的，可以基于待训练模型中的注意力算法模块计算第二训练数据中，公式中各位置预测结果之间的关联关系，以获取第一关系矩阵。

103、修改所述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵。

其中，第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系。

例如，在transformer模型在预测过程中，各个位置的预测结果之间是存在关联关系的，而由于本实施例利用了不同的替换符替换了相同数字，且这些替换符之间设置了相同的位置，那么为进行预测的过程中，为了避免各个替换符之间互相干扰，影响预测结果，以及避免模型训练过程中学习到这些替换符之间的关联关系。在本实施例中，需要在待训练模型对应的常规的关系矩阵中将替换符与后续位置的预测结果之间的关联关系进行修改，也就是说在实际应用中后续位置的预测结果实际上仅与其中任意一个替换符具有关联关系即可，也就是说需要将后续位置的预测结果与多个所述替换符之间仅与其中一个具有关联关系，其余的关联关系进行清除。

这样在修改后得到第二关系矩阵后，由于与替换符相邻后续位置的预测结果仅与多个替换符之间的一个具有关联关系，这样得到的预测模型就能够在预测是多个替换符中的任意一个后就能够进行后续其他元素的预测，避免了训练过程中解题模型误学到替换符之间的关联关系，也能避免模型学习到需全部预测出所有的替换符后才能够进行后续的预测的问题，提高了解题模型的准确性。

基于上述方案中可知，对于目前解题模型的训练过程中训练得到的解析模型的准确性较差的问题，本发明在当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；然后通过上述第二训练数据及上述待训练模型，获取第一关系矩阵，并修改上述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，上述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系，从而实现基于上述第二关系矩阵对所述待训练模型进行训练。在上述方案中，由于，对根据相同数字出现的次数选取对应数量的不同代替符替换，得到能够区分公式中不同位置的相同数字的第二训练数据。并且为了避免当相同字符被不同的代替符代替后，预测时彼此之间的影响，对基于第二训练数据及待训练模型，获取第一关系矩阵进行修改，使得第二关系矩阵中所述后续位置的预测结果与多个所述替换符之间仅与其中一个具有关联关系，能够避免当相同字符被不同的代替符代替后，预测时彼此之间的影响，特别是多个代替符共同出现才能预测出后续预测结果的问题，从而提高了训练出的预测模型的准确性。

在一种可选的实施例中，所述第一关系矩阵是注意力矩阵基于过筛选操作后得到的下三角矩阵，所述注意力矩阵用于以注意力参数表征各个预测结果之间关联关系；

修改所述第一关系矩阵的每个所述替换符之间的关联关系；

在本实施例中，所述第二数据具体为可以包括：题干“一个圆柱体的底面直径为d1cm，它的高为d2cm，请求出它的体积”，对应的表达式和常规transformer模型得到的第一关系矩阵可以如图2-A所示。在这个第一关系矩阵中可以看出，分别代表相同数字的d1和d2之间的关联关系都为1，也就是说在预测过程中需要将d1预测出后，对应的会预测出d2，但实际上d1和d2都代表一个数字，因此预测结果是错误的。另外，对于符合÷而言，由于其与d1、d2的关联关系都是1，那么也就是说需要d1和d2都被预测出之后，才能预测出÷，而实际上仅预测出d1、d2中的一个就可以预测÷了，因此，由上述示例可以得出，若按照当前的关系矩阵的方式进行预测，则解题模型的预测结果是错误的。因此，在本实施例中需要修改所述第一关系矩阵的每个所述替换符之间的关联关系，并且还需要修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系，从而更新关系矩阵中各个预测结果与替换符之间的关系。

需要说明的是，在本实施例中，各个元素(即预测结果)之间的关联关系均是利用注意力矩阵计算得到的注意力参数经过选择函数过滤后得到的，该选择函数用于将较小的注意力参数清零，较大的直接赋予为1。

由此，通过上述方法修改所述第一关系矩阵的每个所述替换符之间的关联关系，以及修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系能够确保避免模型利用原始的第一关系矩阵进行预测导致的后续预测结果准确性受到影响的问题，可以提高准确性。

在一种可选的实施例中，所述修改所述第一关系矩阵的每个所述替换符之间的关联关系，包括：

从所述第一关系矩阵中确定第一目标区域矩阵，其中，所述第一目标区域矩阵为所述第一关系矩阵中的用于表征多个所述替换符之间关联关系的区域。如前述实施例所示，所述第一目标区域矩阵具体可以如图2-B中方框标识的位置所示，由于在该示例中存在两个相同数字，因此存在两处同时表征相同数字的两个d1、d2关联关系的第一目标区域。

将所述第一目标区域矩阵从三角矩阵重表示为对角矩阵，其中，所述对角矩阵的对角趋势与所述下三角矩阵相同，其中，以前述示例为例，将第一目标区域矩阵从三角矩阵重表示为对角矩阵的形式可以如图2-C所示。

由于本实施例中的第一关系矩阵是下三角矩阵，因此在将第一目标区域矩阵中的关联关系进行修改时，同样需要考虑其对角趋势。另外，由于实际上两个替换符之间的关系是不需要模型学习的，因此，在本实施例中二者之间的关系应该进行调整，即其中任意一个存在时，另一个是无需被预测的，因此，可以将该区域的下三角矩阵修改为对角矩阵，由于对角矩阵能够清晰表明d1与d2之间关联关系是0，那么在解析模型也就不会误学到替换符之间的存在关联关系的情况(值为1的情况)，从而可以使解题模型更为准确。

在一种可选的实施例中，所述修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系，包括：

从所述第一关系矩阵中确定第二目标区域矩阵，其中，所述第二目标区域矩阵用于表征所述替换符与后续位置的预测结果之间的关联关系。具体的，基于前述实施例的示例，在本步骤中确定第二目标区域矩阵的过程可以如图2-D所示；

在所述第二目标区域矩阵中，将每行对应所述后续位置的预测结果的多个关联关系中保留一个所述关联关系。在实际应用中，替换符中任意一个被预测出来后，即可对后续的其余位置的预测结果进行预测，而无需将所有的替换符都被预测出再预测其余位置的预测结果。也就是说，多个替换符中有一个与后续其余位置的预测结果存在关联关系(关系矩阵中是值为1)即可，因此，在确定第二目标区域矩阵后，则可以将该矩阵内部的关联关系进行修改，具体的可以如图2-E所示，将其中每行中两个参数值1中的一个修改为0。这样，就可以确保每行对应所述后续位置的预测结果的多个关联关系仅保留一个关联关系。

在一种可选的实施例中，所述在所述第二目标区域矩阵中，将每行对应所述后续位置的预测结果的多个关联关系中保留一个所述关联关系，包括：

具体的执行方式可以如图2-F所示。其中由于本实施例中代表各个预测结果之间关联关系是基于注意力矩阵按照注意力算法得到的注意力参数在过滤后得到的，也就是说0和1都有对应的实际值，也就是注意力参数，只不过是经过过滤后将较小的一部分清零，将较大的一部分赋值为1了。也就是说虽然在第二目标区域矩阵中每个关联关系都为1，但实际上在过滤之前的注意力参数很可能是不同的，只不过关联关系为1的注意力参数值都比过滤时的门槛值高而已，那么在本实施例中，为了将这每行中两个替换符d1、d2中具体哪个与后续预测结果的关联关系保留，在本实施例中可以首先获取第二目标区域矩阵对应的参数矩阵，也就是过滤之前以注意力参数表征关系的矩阵。然后，再利用预设选择公式，在每行中的两个注意力参数中进行筛选，较大的保留，较小的则清零，那么得到了选择后的矩阵，该矩阵中就能够表征每个替换符均只有一个与后续其余的预测结果之间存在关联关系。

具体的，在本实施例中，所述预设选择函数可以为argmax函数，该函数的主要特点是比较两个数值，较大的一个赋予1，较小的则清零。例如，通过argmax函数对两个注意参数(0.25，0.33)进行选择时，0.25较小则清零，0.33较大则赋予1，得到结果是(0，1)。

这样按照本实施例中的方法，就能够依照注意力参数的大小实现了对关联关系的调整，是调整第二目标矩阵中关联关系的方式更符合注意力参数大小的规律。此外，需要说明的是，在某些情况下，可能还存在注意力参数相等的情况，在此则可以基于随机选择方式，选取其中一个为0，另一个为1即可。

在一些示例中，上述方法还包括通过预设损失函数调整所述待训练模型，所述预设损失函数包括第一损失函数及第二损失函数，所述第一损失函数用于使所述待训练模型在预测时，基于多个待选取参数中预测概率之和的最大值选取待选取参数组合，所述第二损失函数用于从待选取组合中选取预测概率最大的一个所述待选取参数作为所述预测结果。

需要说明的是，上述待训练模型可以为transformer模型，该模型主要是基于前后位置之间的关联关系进行后续位置的预测结果的预测模型。也就是说，该模型主要是基于每个预测位置对应的坐标，以及各个位置之间需要被预测出的元素之间的关系来依次预测出每个位置的元素是什么，从而得到由多个预测结果组合后的表达式。例如，当需要预测的表达式为a-b×(1+x)时，在预测到b时，可以基于b预测与之相邻的后续位置的符号×，再预测出符号*之后，则可以基于符号*预测与之相邻的后续位置的符号(。

基于前述步骤的实施例可知，在本实施例中需要将相同数字6利用不同代替符进行替换，虽然在题干中是不同的替换符d1和d2，但实际上这两个替换符表征的数字都是6，也就是说预测过程中预测出d1还是d2都是可以的，所以这里d1和d2的标签均为1，其他字符的标签均为0。但由于常规的待训练模型是transformer模型，该模型在预测过程中主要利用交叉熵损失函数对预测结果进行控制，该函数的特点是倾向于只优化一个目标，因此，如果表达式中的某一个位置具有可以作为目标的多个元素时，该位置处目标的预测概率的计算方式是计算每个标签为1的元素被预测的概率之积来确定预测结果，这对于可以作为目标的多个元素不同时，是可以的，比如某一个位置具有可以作为目标的2个元素，c1和c2，这里c1和c2的标签均为1，其他字符的标签均为0，c1表征的数字5概率是0.8，c2表征的数字7概率是0.9，那么这个位置在作为一个目标优化时，即这个位置具的目标既可以是5又可以是7的概率就是0.8与0.9的乘积0.72。但是对于本方案的情况来说，实际上这两个替换符d1和d2表征的数字都是6，那么某一个位置具有可以作为目标的d1和d2两个元素，即在作为一个目标优化时，由于d1和d2的概率均小于1，反而使概率相乘的结果也即数字6作为目标的概率变的更小了，从而存在预测结果不准确的情况，继而使模型不准确。因此，在本实施例中可以利用预设损失函数来代替常规的交叉熵损失函数来作为控制预测过程的目标函数。另外，在本实施例中，损失函数的特点是能够利用元素发生的概率之和进行分析，从而控制预测结果，也就是说由于不同的替换符均代表一个数字，那么多个替换符之间的概率之和就能使预测过程中选取这个数字作为预测结果的概率大大提高，从而使基于该预设损失函数作为目标函数调整待训练模型后，得到的调整后的模型预测的结果更为准确。

具体的，所述第一损失函数为最大化似然损失函数；所述第二损失函数为硬期望最大化损失函数。

由于本实施例中用不同的代替符代替相同的数字，也就是说需要为不同的代替符设置相同的位置坐标，其中，位置坐标是transformer模型进行预测时所必须的，而不同的代替符设置在相同的位置坐标情况下在被预测时，其预测的概率必然是与一个符号对应一个位置坐标的几率不同。为此，为了解决这种以一个位置“隐态”叠加的预测问题，在本实施例中利用MML(Maximum LikelihoodLoss，最大化似然损失)函数和HardEM(HardExpectation Maximization硬期望最大化)损失函数来代替常规的交叉熵损失函数作为预测过程控制的目标函数。

其中，最大话似然损失与硬(HardEM)损失替换交叉熵损失，用来解决同一位置多标签问题，下述两个公式分别为MML和HardEM损失函数具体形式：

其中，V是解码器的词表，l_i是i词的目标标签。

从MML函数的公式能够看出，其作用是在从目标函数的词表中选取预测结果时，可以从所述词表中多个待选取参数中预测概率之和的最大值选取待选取参数组合。也就是说能够基于同一位置中的多个替换符的概率和来确定这个位置被预测为替换符中的概率。相当于将多个替换符的概率在一个位置叠加。而基于HardEM函数的公式能够看出，其作用是从待选取组合中选取预测概率最大一个所述待选取参数作为所述预测结果。也就是说当确定某个位置被预测到替换符组合后，具体选取哪一个替换符作为该位置的预测结果则可以基于这几个替换符的预测概率进行筛选，从而得到具体占据该位置的替换符是哪一个。例如，当基于MML函数能够确定位置3中替换符组合d1、d2是该位置的预测结果，那么根据HardEM函数则可以基于这两个替换符d1的预测概率和d2的预测概率确定较大的一个为该位置的预测结果，假设d1的预测概率为0.34，d2的预测概率为0.57，则最后确定该位置3的预测结果为d2。

通过上述方案可知，由于MML函数和HardEM函数在确定预测结果的过程中，不会如常规的交叉熵函数只优化出一个预测结果，而是能够先基于替换符组合的概率确定整体是否属于哪个位置的预测结果，再进行筛选，从而确保了替换符作为相同位置“隐态”叠加情况下，被正常预测出来，从而使模型能够学习到叠加位置的多个替换符的预测方式，使解题模型更为准确。

进一步的，作为对上述图1所示方法的实现，本发明实施例还提供了一种解题模型的训练装置，用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示，该装置包括：替换单元31、获取单元32、修改单元33以及训练单元34，其中

替换单元31，用于当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；

获取单元32，用于通过所述第二训练数据及待训练模型，获取第一关系矩阵；

修改单元33，用于修改所述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，所述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系；

训练单元34，用于基于所述第二关系矩阵对所述待训练模型进行训练。

进一步的，所述第一关系矩阵是注意力矩阵基于过筛选操作后得到的下三角矩阵，所述注意力矩阵用于以注意力参数表征各个预测结果之间关联关系；

所述修改单元，包括：

进一步的，所述第一修改模块，包括：

进一步的，所述第二修改模块，包括：

进一步的，所述保留子模块，还用于：

进一步的，还包括：调整模块，用于通过预设损失函数调整所述待训练模型，所述预设损失函数包括第一损失函数及第二损失函数，所述第一损失函数用于使所述待训练模型在预测时，基于多个待选取参数中预测概率之和的最大值选取待选取参数组合，所述第二损失函数用于从待选取组合中选取预测概率最大的一个所述待选取参数作为所述预测结果。

进一步的，所述第一损失函数为最大化似然损失函数；所述第二损失函数为硬期望最大化损失函数。

借由上述技术方案，本发明实施例提供一种解题模型的训练方法及装置，对于目前解题模型的训练过程中训练得到的解析模型的准确性较差的问题，本发明在当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；然后通过上述第二训练数据及上述待训练模型，获取第一关系矩阵，并修改上述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，上述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系，从而实现基于上述第二关系矩阵对所述待训练模型进行训练。在上述方案中，由于，对根据相同数字出现的次数选取对应数量的不同代替符替换，得到能够区分公式中不同位置的相同数字的第二训练数据。并且为了避免当相同字符被不同的代替符代替后，预测时彼此之间的影响，对基于第二训练数据及待训练模型，获取第一关系矩阵进行修改，使得第二关系矩阵中所述后续位置的预测结果与多个所述替换符之间仅与其中一个具有关联关系，能够避免当相同字符被不同的代替符代替后，预测时彼此之间的影响，特别是多个代替符共同出现才能预测出后续预测结果的问题，从而提高了训练出的预测模型的准确性。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决目前解题模型的训练过程中训练得到的解析模型的准确性较差的问题。

本发明实施例提供了一种存储介质，上述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任一技术方案的解题模型的训练方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述解题模型的训练方法。

本发明实施例提供了一种设备40，如图4所示，设备包括至少一个处理器401、以及与处理器连接的至少一个存储器402、总线403；其中，处理器401、存储器402通过总线403完成相互间的通信；处理器401用于调用存储器中的程序指令，以执行上述的解题模型的训练方法。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在流程管理设备上执行时，适于执行初始化有如下方法步骤的程序：

当第一训练数据中存在相同的数字时，根据所述数字出现的次数选取对应所述次数的数量的不同代替符替换，得到第二训练数据；通过所述第二训练数据及待训练模型，获取第一关系矩阵；修改所述第一关系矩阵中所述替换符与后续位置的预测结果之间的关联关系，得到第二关系矩阵，其中，所述第二关系矩阵中所述后续位置的预测结果仅与多个所述替换符中的一个具有关联关系；基于所述第二关系矩阵对所述待训练模型进行训练。

修改所述第一关系矩阵的每个所述替换符之间的关联关系；

进一步的，所述修改所述第一关系矩阵的每个所述替换符之间的关联关系，包括：

进一步的，所述修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系，包括：

进一步的，所述在所述第二目标区域矩阵中，将每行对应所述后续位置的预测结果的多个关联关系中保留一个所述关联关系，包括：

进一步的，还包括：通过预设损失函数调整所述待训练模型，所述预设损失函数包括第一损失函数及第二损失函数，所述第一损失函数用于使所述待训练模型在预测时，基于多个待选取参数中预测概率之和的最大值选取待选取参数组合，所述第二损失函数用于从待选取组合中选取预测概率最大的一个所述待选取参数作为所述预测结果。

进一步的，所述第一损失函数为MML最大化似然损失函数；所述第二损失函数为HardEM硬损失函数。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程流程管理设备的处理器以产生一个机器，使得通过计算机或其他可编程流程管理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种解题模型的训练方法，其特征在于，包括：

通过所述第二训练数据及待训练模型，获取第一关系矩阵；

基于所述第二关系矩阵对所述待训练模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述第一关系矩阵是注意力矩阵基于过筛选操作后得到的下三角矩阵，所述注意力矩阵用于以注意力参数表征各个预测结果之间关联关系；

修改所述第一关系矩阵的每个所述替换符之间的关联关系；

3.根据权利要求2所述的方法，其特征在于，所述修改所述第一关系矩阵的每个所述替换符之间的关联关系，包括：

4.根据权利要求2所述的方法，其特征在于，所述修改所述第一关系矩阵的所述后续位置的预测结果与所述替换符之间的关联关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述第二目标区域矩阵中，将每行对应所述后续位置的预测结果的多个关联关系中保留一个所述关联关系，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述第一损失函数为最大化似然损失函数；所述第二损失函数为硬期望最大化损失函数。

8.一种解题模型的训练装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1至权利要求7中任一项所述的解题模型的训练方法。

10.一种设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器；其中，所述处理器用于调用所述存储器中的程序指令，执行如权利要求1至权利要求7中任一项所述的解题模型的训练方法。