CN112765936B

CN112765936B - 一种基于语言模型进行运算的训练方法及装置

Info

Publication number: CN112765936B
Application number: CN202011621097.XA
Authority: CN
Inventors: 张旭; 雷欣; 李志飞
Original assignee: Go Out And Ask Wuhan Information Technology Co ltd
Current assignee: Go Out And Ask Wuhan Information Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-02-23
Anticipated expiration: 2040-12-31
Also published as: CN112765936A

Abstract

本发明公开了一种基于语言模型进行算术运算的训练方法及装置，该方法包括在算式文本中每个字符前添加空格字符，生成准算式文本；对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；利用语言模型对所述训练样本数据进行运算训练，生成算术模型。由此，通过添加空格字符和分词处理的方式对算式文本进行预处理，从而使得算式文本中每一个字符作为单独的词输入语言模型，语言模型能够对算式文本的每个字符和每个字符的数位信息进行学习，进而实现了在对语言模型采用少量训练样本训练后便可以有效提高训练后算术模型计算的准确率。

Description

一种基于语言模型进行运算的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语言模型进行运算的训练方法及装置。

背景技术

在最新研究中，由于巨型语言模型GPT-3通过小样本学习的方式可以不经训练直接进行算术运算，因此在算术运算任务中发挥不俗。但是对于较小型的语言模型，如Bert、GPT-2等，使用小样本学习后进行算术运算时准确率几乎为0，基本没有任何实际利用价值。

目前，对于较小型的语言模型来说，大部分采用了“预训练+微调”的方式进行模型训练。在这种训练方法下以GPT-2为例，模型训练后生成的算术模型虽然能算对一些算术运算，但是需要大量的训练数据，如两位数加两位数的算术运算，GPT-2就需要超过3200个算式的训练集才能勉强达到10％的准确率，而对于更复杂的三位数加法计算，则需要更加庞大的训练数据集。由此可知，传统的训练方法对于较小型的语言模型的训练是不适宜的。

发明内容

为了解决上述现有技术存在的问题，本发明实施例提供一种基于语言模型进行运算的训练方法及装置，能够实现在对语言模型采用少量训练样本训练后就可以有效提高训练后生成的算术模型计算的准确率。

为实现上述目的，根据本发明实施例第一方面，提供一种基于语言模型进行算术运算的训练方法，该方法包括：在算式文本中每个字符前添加空格字符，生成准算式文本；对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；利用语言模型对所述训练样本数据进行运算训练，生成算术模型。

可选的，所述在算式文本中的每个字符前添加空格字符，生成准算式文本，包括：获取算式文本，其中，所述算式文本包括多个数字和运算字符，所述数字包括一个或多个数字字符；在算式文本中每个字符前添加空格字符，生成预算式文本；针对所述预算式文本中的任一所述数字：获取所述数字中所有数字字符的数位顺序，对所述数字的数位顺序进行转置处理，生成准算式文本。

可选的，所述训练样本数据包括：一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。

可选的，所述语言模型为自回归模型或者自编码模型。

可选的，所述的方法还包括：获取待计算算式文本，其中，所述待计算算式文本包括算式；利用所述算术模型对所述待计算算式文本进行运算处理，得到运算结果；若所述运算结果满足预设条件，则确定所述待计算算式文本通过了测试。

为实现上述目的，根据本发明实施例第二方面，提供一种基于语言模型进行算术运算的训练装置，该装置包括：添加模块，用于在算式文本中的每个字符前添加空格字符，生成准算式文本；分词处理模块，用于对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；样本模块，用于将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；训练模块，用于利用语言模型对所述训练样本数据进行运算训练，生成算术模型。

可选的，所述添加模块包括：获取单元，用于获取算式文本，其中，所述算式文本包括多个数字和运算字符，所述数字包括一个或多个数字字符；添加单元，用于在算式文本中每个字符前添加空格字符，生成预算式文本；转置单元，用于针对所述预算式文本中的任一所述数字，获取所述数字中所有数字字符的数位顺序，对所述数字的数位顺序进行转置处理，生成准算式文本。

可选的，所述的装置还包括：获取模块，用于获取待计算算式文本；运算处理模块，用于利用算术模型对所述待计算算式文本进行运算处理，得到运算结果；确定模块，用于若所述运算结果满足预设条件，则确定所述待计算算式文本通过了测试。

为实现上述目的，根据本发明实施例第三方面，还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述的训练方法。

与现有技术相比，本发明实施例提供的一种基于语言模型进行算术运算的训练方法及装置，该方法包括在算式文本中每个字符前添加空格字符，生成准算式文本；并对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表；之后将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；利用语言模型对所述训练样本数据进行运算训练，生成算术模型。由此，通过添加空格字符的方式和分词处理对算式文本进行预处理，从而使得算式文本中每一个字符作为单独的词输入语言模型，语言模型能够对算式文本的每个字符和每个字符的数位信息进行学习，进而实现了在对语言模型采用少量训练样本训练后便可以有效提高训练后算术模型计算的准确率。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明一实施例基于语言模型进行算术运算的训练方法的示意性流程图；

图2为本发明另一实施例基于语音模型进行算术运算的训练方法的示意性流程图；

图3为本发明再一实施例基于语言模型进行算术运算的训练方法的示意性流程图；

图4为本发明一实施例基于语言模型进行算术运算的训练装置的示意性框图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本发明一实施例基于语言模型进行算术运算的训练方法的示意性流程图。一种基于语言模型进行算术运算的训练方法，该方法至少包括如下操作流程：S101，在算式文本中每个字符前添加空格字符，生成准算式文本；S102，对准算式文本进行分词处理，得到与准算式文本对应的列表，列表中包括多个词；S103，将与准算式文本对应的列表作为训练样本，得到训练样本数据；S104，利用语言模型对训练样本数据进行运算训练，生成算术模型。

在S101中，例如，算式文本为“10+20＝30”，在算式文本中每个字符前添加空格字符后生成的准算式文本为“@1@0@+@2@0@＝@3@0”，也就是说每个字符前具有一个空格字符。

在S102中，利用分词器对准算式文本进行分词处理，例如对于算式文本“10+20＝30”，经由分词器分词处理后将返回[“10”,“+”,“20”,“＝”,“30”]的词列表；而对于准算式文本“@1@0@+@2@0@＝@3@0”，经由分词器分词处理后将返回[“1”,“0”,“+”,“2”,“0”,“＝”,“3”,“0”]的列表。由此可知，通过对算式文本中每个字符前添加空格字符，并进行分词处理，能够将准算式文本中的每一个字符作为一个单独的词输入语言模型，从而使得语言模型能够对训练样本中每一个字符，以及字符对应的数位信息进行学习，进而提高了语言模型对算式文本计算的准确率。

在S103中，训练样本数据包括：一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。由此，本发明实施例将一位数的准算式文本和二位数的准算式文本均作为训练样本，从而使得语言模型能够有效学习进位的数学规律，而非用死记硬背的方式去学习，进而能够提高语言模型学习的能力。

在S103中，语音模型进行运算训练的过程如下所述：对训练样本进行处理，生成与训练样本中字符对应的词向量；获取训练样本中每个词向量对应的位置向量，利用算法对训练样本对应的所有词向量和所有位置向量进行运算训练，生成算术模型。例如数字“11”，在添加空格字符后，得到两个字符“1”，虽然它们的词向量是相同的，但是位置向量是不同的。因此运算训练实际上是对训练样本中不同数位信息进行学习，并将学习的数位信息和数位上的数字字符建立联系，从而能够获得运算性能优异的算术模型，提高算术模型的计算能力。

需要说明的是，本实施例的语言模型为基于Transformer的自回归模型或者自编码模型，其中自回归模型可以是GPT-2语言模型，也可以是Bert语言模型。

本发明实施例通过对常规的算式文本添加空格字符并进行分词处理，能够使得语言模型将算式文本中数位信息和数位上的数字字符建立联系，从而提高了语言模型对准算式文本的学习能力。通过将低位数的算式文本和高位数的算式文本作为训练样本，从而使得语言模型能够有效学习进位的数学规律，进而提高了算术模型计算的准确率。

在这里，低位数的算式文本为一位数的算式文本，高位数的算式文本为大于一位数的算式文本，大于一位数的算式文本为两位数的算式文本或者大于两位数的算式文本，或者两位数的算式文本和大于两位数的算式文本混合后组成的。一位数的算式文本例如“9+1＝10”等，两位数的算式文本例如“10+10＝20”等。

如图2所示，本发明另一实施例基于语音模型进行算术运算的训练方法的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。一种基于语言模型进行算术运算的训练方法，该方法至少包括如下操作流程：S201，获取算式文本，算式文本包括多个数字和运算字符，数字包括一个或多个数字字符。S202，在算式文本中的每个字符前添加空格字符，生成预算式文本。S203，针对预算式文本中的任一数字，获取数字中所有数字字符的数位顺序。S204，将数字的数位顺序进行转置处理，生成准算式文本。S205，将与准算式文本对应的列表作为训练样本，得到训练样本数据。S206，利用语言模型对训练样本数据进行运算训练，生成算术模型。

其中，S201、S202、S205和S206的具体实现过程与图1所示实施例中S101、S102以及S103的具体实现过程相类似，这里不再赘述。

在S203和S204中，例如，预算式文本为“@1@0@+@9@0@＝@1@0@0”；针对预算式文本中数字“@1@0”，获取数字“@1@0”中“1”的数位是十位，以及“0”的数位是个位；将数字“@1@0”对应的数字字符的数位顺序为十位>个位。对数字的数位顺序进行转置处理是指将个位上的数字字符和十位上的数字字符进行交换，即转置后数字“@1@0”对应的数字字符的数位顺序为个位＞十位。将预算式文本进行转置处理后生成的准算式文本为“@0@1@+@0@9@＝@0@0@1”。由此，对预算式文本进行转置处理是为了让语言模型模仿人类做运算时的习惯，即先对低位数上的数字字符进行计算，并记下它是否进位，之后再做高位数的运算，从而使得语言模型能够有效学习数字运算中的进位规律。在这里，@表示空格字符。

本发明实施例通过先对算式文本进行添加空格字符处理，生成预算式文本；之后对预算式文本中的数字进行转置处理，由此能够使得语言模型对数字运算中的进位规律进行学习，从而解决了现有模型死记硬背的学习方式，提高了算术模型计算的准确率。

如图3所示，本发明再一实施例基于语言模型进行算术运算的训练方法的示意性流程图。本实施例是在基于前述实施例训练好的算术模型进行运算处理。一种基于语言模型进行算术运算的训练方法，该方法至少包括如下操作流程：S301，获取待计算算式文本；S302，利用算术模型对待计算算式文本进行运算处理，得到运算结果；S303，若运算结果满足预设条件，则确定待计算算式文本通过了测试。

具体地，计算算式文本为“10+20”等。在这里，预设条件可以设置为正确答案。在得到运算结果后判断运算结果是否与正确答案一致，若是，则确定待计算算式文本通过了测试，若否，则确定待计算算式文本没有通过测试。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

训练测试结果如下：使用不做任何处理的算式文本作为训练样本，得到训练样本数据。第一训练样本数据包括800个两位数的加法算式文本，第二训练样本数据包括1600个两位数的加法算式文本，第三训练样本数据包括3200个两位数的加法算式文本。利用语言模型分别对第一训练样本数据、第二训练样本数据和第三训练样本数据，进行运算训练，生成第一算术模型、第二算术模型和第三算术模型。采用500个两位数的加法预计算算式文本作为测试集，之后采用第一算术模型、第二算术模型和第三算术模型分别对测试集进行运算处理。根据结算结果统计，第一算术模型、第二算术模型和第三算术模型的计算准确率均未达到10％。

对上述第一训练样本数据、第二训练样本数据和第三训练样本数据中每个训练样本进行添加空格字符和分词处理，并对测试集中的预计算算式文本同样进行添加空格字符和分词处理。采用与上述同样的语言模型进行运算训练，经研究发现，第一算术模型在测试集中达到了76％的准确率，第二算术模型在测试集中达到了88％，第三算术模型在测试集中达到了98％。

对上述第一训练样本数据、第二训练样本数据和第三训练样本数据中的每个训练样本进行添加空格字符、分词处理以及转置处理，并对测试集中的预计算算式文本同样进行添加空格字符、分词处理以及转置处理。采用与上述同样的语言模型进行运算训练，经研究发现，第一算术模型在测试集中达到了85％的准确率，第二算术模型在测试集中达到了100％准确率，第三算术模型在测试集中达到了100％准确率。

对第四训练样本数据、第五训练样本数据和第六训练样本数据，以及测试集中每个样本分别进行添加空格字符、分词处理以及转置处理。第四训练样本数据包括1600个三位数的加法算式文本，第五训练样本数据包括3200个三位数的加法算式文本，第六训练样本数据包括6400个三位数的加法算式文本。利用语言模型分别对第四训练样本数据、第五训练样本数据和第六训练样本数据，进行运算训练，生成第四算术模型、第五算术模型和第六算术模型。采用500个两位数的加法的预计算算式文本作为测试集，之后采用第四算术模型、第五算术模型和第六算术模型分别对测试集进行运算处理，根据结算结果统计，第四算术模型在测试集中达到了1％的准确率，第五算术模型在测试集中达到了16％的准确率，第六算术模型在测试集中达到了30％的准确率。相比于只使用三位数加法算术的训练集训练的模型，在第四训练样本数据、第五训练样本数据和第六训练样本数据中分别混合了两位数的加法算式文本，其准确率得到了明显提高，例如第四训练样本数据包括800个两位数的加法算式文本和800个三位数的加法算式文本；并且在不断增加训练样本数据中两位数加法算式文本的数目，是可以对其准确率得到提高的。另外，在此基础上混入了一位数的加法算式文本，其准确率进一步得到提高，例如第四训练样本数据包括100个一位数的加法算式文本、700个两位数的加法算式文本和800个三位数的加法算式文本。

如图4所示，本发明一实施例基于语言模型进行算术运算的训练装置的示意性框图。一种基于语言模型进行算术运算的训练装置，该装置400包括：添加模块401，用于在算式文本中每个字符前添加空格字符，生成准算式文本；分词处理模块402，用于对准算式文本进行分词处理，得到与准算式文本对应的列表，列表中包括多个词；样本模块403，用于将与准算式文本对应的列表作为训练样本，得到训练样本数据；训练模块404，用于利用语言模型对训练样本数据进行运算训练，生成算术模型。

在可选的实施例中，所述添加模块包括：第一获取单元，用于获取算式文本，其中，所述算式文本包括多个数字和运算字符，所述数字包括一个或多个数字字符；添加单元，用于在算式文本中的每个字符前添加空格字符，生成预算式文本；转置单元，用于针对所述预算式文本中的任一所述数字，获取所述数字中所有数字字符的数位顺序，对所述数字的数位顺序进行转置处理，生成准算式文本。

在可选的实施例中，所述训练样本数据包括：一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。

在可选的实施例中，所述的装置还包括：获取模块，用于获取待计算算式文本；运算处理模块，用于利用算术模型对所述待计算算式文本进行运算处理，得到运算结果；确定模块，用于若所述运算结果满足预设条件，则确定所述待计算算式文本通过了测试。

在可选的实施例中，所述语言模型为自回归模型或者自编码模型。

这里需要指出的是：以上对基于语言模型进行算术运算的训练装置实施例的描述，与前述图1所示的方法实施例的描述是类似的，具有同前述图1所示的方法实施例相似的有益效果，因此不做赘述。对于本发明对基于语言模型进行算术运算的训练装置中未披露的技术细节，请参照本发明前述图1所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于运算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个运算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该运算机软件产品存储在一个存储介质中，包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于语言模型进行算术运算的训练方法，其特征在于，包括：

在算式文本中每个字符前添加空格字符，生成准算式文本；

对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；

将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；

利用语言模型对所述训练样本数据进行运算训练，生成算术模型；

所述在算式文本中每个字符前添加空格字符，生成准算式文本，包括：

获取算式文本，其中，所述算式文本包括多个数字和运算字符，所述数字包括一个或多个数字字符；

在算式文本中每个字符前添加空格字符，生成预算式文本；

针对所述预算式文本中的任一所述数字：获取所述数字中所有数字字符的数位顺序，对所述数字的数位顺序进行转置处理，生成准算式文本，所述转置处理用于将所述数字的数位顺序的大小进行颠倒。

2.根据权利要求1所述的方法，其特征在于，所述训练样本数据包括：一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。

3.根据权利要求1所述的方法，其特征在于，所述语言模型为自回归模型或者自编码模型。

4.根据权利要求1所述的方法，其特征在于，还包括：

获取待计算算式文本；

利用所述算术模型对所述待计算算式文本进行运算处理，得到运算结果；

若所述运算结果满足预设条件，则确定所述待计算算式文本通过了测试。

5.一种基于语言模型进行算术运算的训练装置，其特征在于，包括：

添加模块，用于在算式文本中的每个字符前添加空格字符，生成准算式文本；

分词处理模块，用于对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；

样本模块，用于将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；

训练模块，用于利用语言模型对所述训练样本数据进行运算训练，生成算术模型；

所述添加模块包括：

获取单元，用于获取算式文本，其中，所述算式文本包括多个数字和运算字符，所述数字包括一个或多个数字字符；

添加单元，用于在算式文本中每个字符前添加空格字符，生成预算式文本；

转置单元，用于针对所述预算式文本中的任一所述数字，获取所述数字中所有数字字符的数位顺序，对所述数字的数位顺序进行转置处理，生成准算式文本，所述转置处理用于将所述数字的数位顺序的大小进行颠倒。

6.根据权利要求5所述的装置，其特征在于，所述训练样本数据包括：一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。

7.根据权利要求5所述的装置，其特征在于，还包括：

获取模块，用于获取待计算算式文本；

运算处理模块，用于利用算术模型对所述待计算算式文本进行运算处理，得到运算结果；

确定模块，用于若所述运算结果满足预设条件，则确定所述待计算算式文本通过了测试。

8.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-4中任一项所述的训练方法。