CN111931020B

CN111931020B - 公式的标注方法、装置、设备及存储介质

Info

Publication number: CN111931020B
Application number: CN202011081425.1A
Authority: CN
Inventors: 岳祥; 陈柯锦; 彭守业; 季云英; 项莹莹
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-29
Anticipated expiration: 2040-10-12
Also published as: CN111931020A

Abstract

本发明实施例提供一种公式的标注方法、装置、设备及存储介质，包括：获取待标注公式；调用公式标注模型，所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上，通过公式标注数据训练得到；其中，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签；根据所述公式标注模型，预测所述待标注公式的标签；本发明实施例实现对公式的准确标注，提高公式标注的准确率和全面性。

Description

公式的标注方法、装置、设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及公式的标注方法、装置、设备及存储介质。

背景技术

目前，采用自然语言处理技术可以对文本进行多种任务处理，例如，对文本中的数据进行标注、分类、生成摘要等任务处理；其中，对文本中的数据进行标注，可使得文本中的数据对应有标注的标签，以便于通过标注的标签对文本中的数据实现有效搜索，同时通过标注的标签也可更好的理解文本中数据的含义。

在对文本中的数据进行标注的实际工作中，文本中的数据存在着一些公式，由于公式的复杂性，如何准确、全面的为公式进行标注，一直是本领域技术人员研究的问题。

发明内容

有鉴于此，本发明实施例提供了公式的标注方法、装置、设备及存储介质，能够实现对公式的准确标注，提高公式标注的准确率和全面性。

为实现上述目的，本发明实施例提供如下技术方案：

一种公式的标注方法，包括：

获取待标注公式；

调用公式标注模型，所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上，通过公式标注数据训练得到；其中，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签；

根据所述公式标注模型，预测所述待标注公式的标签。

本发明实施例还提供一种公式的标注装置，包括：

获取公式模块，用于获取待标注公式；

公式标注模块，用于调用公式标注模型，所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上，通过公式标注数据训练得到；其中，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签；

预测标签模块，用于根据所述公式标注模型，预测所述待标注公式的标签。

本发明实施例还提供一种电子设备，包括至少一个存储器和至少一个处理器；所述存储器存储计算机指令，所述处理器调用所述计算机指令，所述计算机指令用于执行上述公式的标注方法。

本发明实施例还提供一种存储介质，所述存储介质存储有执行上述的公式的标注方法的计算机指令。

与现有技术相比，本发明实施例中的公式的标注方法、装置、设备和存储介质，其中，所述公式标注模型基于目标语言表征模型得到，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，本发明实施例中扩展所述公式相关学科的词汇，用于增加所述学科中出现的高频词汇量，则所述待标注公式匹配所述学科中出现的高频词汇的概率增高，提高准确为待标注公式预测合适的标签的概率。

在本发明实施例进一步的可选实现中，还可以基于匹配数据确定预处理后的字符串是否成功匹配标签，所述预处理后的字符串至少经过归一化处理和数字泛化处理，所述归一化处理至少包括字符归一化处理和表达式归一化处理，所述数字泛化处理用于将字符串中不具有特殊含义的数字进行泛化扩展，本发明实施例能够进一步丰富所述待标注公式字符串的数量，提高待标注公式字符串的匹配概率，提高为公式进行标注的准确性和全面性。

可选的，在进一步的可选实现中，所述匹配数据包括：字典匹配数据，字典匹配数据时，还可以对字符串进行同义词扩充处理，确定所述同义词扩充字符串数据，所述同义词扩充字符串数据能够在字典匹配数据进行匹配的时候，提高预处理的字符串的匹配概率，提高为公式进行标注的准确性和全面性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的公式的标注方法的一种流程图；

图2为本发明实施例提供的公式的标注方法另一种可选的流程图；

图3为本发明实施例提供的得到预处理后的字符串的一种可选的实施方式；

图4为本发明实施例提供的基于正则表达式匹配数据确定匹配标签是否成功的流程图；

图5为本发明实施例提供的得到预处理后的字符串的一流程图；

图6为本发明实施例提供的基于字典匹配数据确定匹配标签是否成功的一流程图；

图7为本发明实施例提供的基于字典匹配数据和正则表达式匹配数据确定匹配标签是否成功一流程图；

图8为本发明实施例提供的确定目标语言表征模型的一种可选的实施方式；

图9为本发明实施例提供的确定样本公式数据的一流程图；

图10为本发明实施例提供的公式的标注装置的一种可选框图；

图11为本发明实施例提供的公式的标注设备的结构图。

具体实施方式

由背景技术可知，为了更好的处理文本任务数据，通常通过自然语言处理各种文本任务数据，为文本数据中的公式数据添加相应的标注，实现对数据公式的分类，实现更有效的检索。例如：通过分类标注，使得标注的文本数据的分类更加明确，使得在检索过程中，能够基于标注进行检索。为此，如何准确、全面的为公式进行标注是十分必要的。

基于此，本发明实施例提供的公式的标注方法，通过获取待标注公式；调用公式标注模型，所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上，通过公式标注数据训练得到；其中，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签；根据所述公式标注模型，预测所述待标注公式的标签。

基于上述思路，本发明实施例提供公式的标注方法、装置、设备及存储介质，能够实现对公式的准确标注，提高公式标注的准确率和全面性。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一种可选实现中，图1示出了本发明实施例提供的公式的标注方法的流程图，如图1所示，该流程图可以包括：

步骤S11，获取待标注公式。

所述待标注公式的具体内容可以根据实际应用需求定制，如可以为试题、课本内容中的待标注公式等。

需要说明的是，如果是公式图片内容，则可以通过OCR(Optical CharacterRecognition，光学字符识别)技术，将公式图片内容的数据识别为待标注数据对应的文本数据，进而确定所述待标注公式。

步骤S12，调用公式标注模型。所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上，通过公式标注数据训练得到；

其中，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签。

步骤S13，根据所述公式标注模型，预测所述待标注公式的标签。

所述公式标注模型可以预先收集大量公式标注数据对具有公式相关学科对应的目标语言表征模型训练得到，所述公式标注数据至少包括样本公式及样本公式对应的标签。

需要详细说明的是，所述目标语言表征模型为对所述基础语言表征模型的词汇数据进行扩展所述公式相关学科的词汇得到。具体的，基于所述基础语言表征模型本身不具有的基础词汇数据，对所述对基础语言表征模型进行词汇扩展，添加基础词汇数据以及相关的学科词汇表和公式相关学科对应的词典数据得到所述目标语言表征模型。通过对所述目标语言表征模型进行训练得到公式标注模型；将所述待标注公式输入到所述公式标注模型，则所述公式标注模型预测与所述待标注公式对应的标签。

可选的，在所述公式标注数据充足的情况下，本发明实施例能够基于所述公式标注模型有效的预测所述待标注公式对应的标签，在本发明实施例中的其他可选实现方式中，还可以通过匹配数据确定待标注公式对应的预处理后的字符串是否成功匹配标签。

具体的，参考图2，本发明实施例在所述调用公式标注模型之前，还包括：

步骤S21，提取待标注公式中的字符串。

所述字符串为对所述待标注公式进行处理以后易于匹配数据的字符串，所述字符串可以为LaTex字符串，这里不做任何限定。

步骤S22，对所述字符串进行预处理，得到预处理后的字符串。

所述预处理可以是对所述字符串进行扩充处理，确定具有与该字符串相同或者相近特征的预处理后的字符串。

步骤S23，基于匹配数据确定预处理后的字符串是否成功匹配标签。

若匹配失败，步骤S24，进入执行所述调用公式标注模型的步骤；

若匹配成功，步骤S25，取消执行所述调用公式标注模型的步骤。

具体的，所述匹配数据可以用于确定所述预处理后的字符串是否成功匹配标签，若所述匹配数据中记录是否能够与所述预处理后的字符串相匹配的字符串，若是，则确定所述预处理后的字符串匹配标签成功，取消执行所述调用公式标注模型的步骤，若否，则确定所述预处理后的字符串匹配标签失败，进入执行所述调用公式标注模型的步骤。

在本发明一种可选的实施例中，可以是通过正则表达式匹配数据的方式确定预处理后的字符串是否成功匹配标签。具体的，所述匹配数据包括：正则表达式匹配数据。

所述正则表达式的方式中的正则表达式匹配数据记录各预设字符串对应的标签，其中，所述各预设字符串可以根据实际使用情况包含字符串中简单公式字符串以及对应公式字符串的标签，所述正则表达式的方式可以针对所述字符串中简单并大量出现的字符串在正则表达式匹配数据中进行匹配，若有，则确定所述预处理后的字符串匹配标签成功。

例如，正则表达式的方式中预设设置有“数与式>代数式>代数式中不含字母>整式中不含字母”这一预设字符串，且“数与式>代数式>代数式中不含字母>整式中不含字母”对应的标签为“数的加减乘除”，则若字符串为“数与式”命中上述“数与式”，则确定所述预处理后的字符串匹配标签成功，也就是确定所述“数与式”对应的标签为“数的加减乘除”。

为了基于正则表达式匹配数据确定预处理后的字符串是否成功匹配标签，需要对字符串进行预处理，参考图3，对所述字符串进行预处理，得到预处理后的字符串包括：

步骤S31，去除所述字符串中的停用词，得到字符串停用数据。

所述停用词是指信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，例如字符串中的停用词用于表示控制大小、样式、控制颜色显示等。

例如，当\frac{\Large{a}}{3}与\frac{a}{3}均是表示a/3的含义，其中Large属于控制大小的停用词，则在本实施例中去除停用词\Large，不会对\frac{\Large{a}}{3}产生明显的歧义，则确定所述\frac{a}{3}为本实施例中的字符串停用数据。

本实施例去除停用词，得到的停用公式数据，有利于缩小待标注公式数据的范围，能够提高为待标注公式的标注效率。

步骤S32，对所述字符串停用数据进行归一化处理，得到归一化字符串数据，其中，所述归一化处理至少包括字符归一化处理和表达式归一化处理。

具体的，所述字符归一化处理用于将所述字符串停用数据中的表示相同含义的字符处理为相同表现形式的字符串；所述表达式归一化处理用于将字符串停用数据中标识相同含义的表达式字符串处理为相同表现形式的表达式字符串。

所述字符归一化处理在处理自然语言数据时，对于表达含义相同的字符进行归一化处理。比如\ge，≥，\geq，\geqslant，⩾，>=等在公式表达中均是表达同样的意思，在可选实施例中，2⩾1与2\ge1可以进行字符归一化处理，得到2⩾12⩾1。

所述表达式归一化处理在处理自然语言数据时，对于表达含义相同的表达式进行归一化处理。比如，比如\sin^{-1}和\arcsin表达了同样的含义，\cos^{-1}和\arccos表达相同的含义，\tan^{-1}与\arctan表达相同的含义，则对其进行表达式归一化处理，则归一化字符串数据可以是\sin^{-1}\sin^{-1}，\arccos和\arctan的归一化处理步骤可参见前述\arcsin的表达式归一化处理，这里不再赘述。

具体的，所述字符归一化处理和表达式归一化处理对所述字符串停用数据处理的优先顺序可以根据实际需要设置，所述字符归一化处理可以先于表达式归一化处理对所述符串停用数据进行字符归一化处理，所述字符归一化处理也可以在表达式归一化处理对所述符串停用数据进行表达式归一化处理之后执行，这里不做限定。

步骤S33，对所述归一化字符串数据进行数字泛化处理，得到泛化字符串数据，确定所述泛化字符串数据为预处理后的字符串。

所述泛化处理用于将字符串中不具有特殊含义的数字进行泛化扩展，也就是将归一化字符串数据中的数字进行泛化扩展。

需要进行详细说明的是，数字泛化处理仅是对满足一定的形式要求，且在公式计算中数字泛化处理不影响整体的表达含义，当数字表达具有特殊含义的时候则不能进行数字泛化处理。例如：A+1与A+2中的数字进行泛化后，不影响整体的表达含义，则可以进行数字泛化处理；而a²与a³进行数字泛化后，表达含义不相同，影响整体的表达含义，则不能进行数字泛化处理。

基于预处理后的字符串，确定预处理后的字符串是否成功匹配标签，参考图4，包括：

步骤S41，基于所述正则表达式匹配数据记录的各预设字符串对应的标签，确定预处理后的字符串在所述正则表达式匹配数据中是否具有对应的预设字符串；

若是，则执行步骤S42，确定所述预处理后的字符串匹配标签成功；若否，则执行步骤S43，确定所述预处理后的字符串匹配标签失败。

可选的，在所述正则表达式匹配数据中查询所述各预设字符串是否有对应的标签，所述预处理后的字符串若在正则表达式匹配数据有对应的预设字符串，则确定所述预处理后的字符串匹配标签成功，所述预处理后的字符串若在正则表达式匹配数据没有对应的预设字符串，则确定所述预处理后的字符串匹配标签失败。

在本发明另一种可选的实施例中，可以是字典匹配数据的方式确定预处理后的字符串是否成功匹配标签。具体的，所述匹配数据包括：字典匹配数据。

所述字典匹配数据的方式中的字典匹配数据记录各公式的整体字符串对应的标签，其中，所述各公式的整体字符串可以根据实际使用情况经过人工标注的公式的整体字符串以及公式的整体字符串对应的标签，所述字典匹配数据的方式可以针对所述字符串中部分公式的整体字符串在字典匹配数据中进行匹配，若有，则确定所述预处理后的字符串匹配标签成功。

为了基于字典匹配数据确定预处理后的字符串是否成功匹配标签，也需要对字符串进行预处理，参考图5，对所述字符串进行预处理，得到预处理后的字符串包括：

步骤S51，去除所述字符串中的停用词，得到字符串停用数据。

所述停用词是指信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，具体所述停用词的描述参见前文，这里不再赘述。

步骤S52，对所述字符串停用数据进行归一化处理，得到归一化字符串数据，其中，所述归一化处理至少包括字符归一化处理和表达式归一化处理。

具体的，所述字符归一化处理和所述表达式归一化处理的描述参见前文，这里不再赘述。

步骤S53，对所述归一化字符串数据进行同义词扩充处理，确定同义词扩充字符串数据。

所述同义词拓展处理用于将所述归一化字符串数据进行同义词扩展，得到具有相同含义且表现形式不同的同义词扩充字符串数据。

可选的，所述同义词扩充处理字符串满足交换律，加法、乘法等运算的字符串进行相应的同义词扩充，得到同义词扩充字符串数据，

步骤S54，对所述同义词扩充字符串数据进行数字泛化处理，得到泛化字符串数据，确定所述泛化字符串数据为预处理后的字符串。

所述泛化处理用于将字符串中不具有特殊含义的数字进行泛化扩展，所述泛化处理的具体实现方式参见前文，这里不再赘述。

基于预处理后的字符串，确定预处理后的字符串是否成功匹配标签，参考图6，包括：

步骤S61，基于字典匹配数据记录的各公式的整体字符串对应的标签，查找预处理后的字符串在所述字典匹配数据中是否具有完全匹配的整体字符串；

若是，则执行步骤S62，确定所述预处理后的字符串匹配标签成功；若否，则执行步骤S63，确定所述预处理后的字符串匹配标签失败。

具体的，本实施例中，确定预处理后的字符串是否成功匹配标签，所述预处理后的字符串经过上述处理，确定预处理后的字符串是否成功匹配标签可以是：

例如“1 + 2 \times 3”代表的含义是计算1+2*3这一公式，且所述字典匹配数据存在中“1 + 2 \times 3”对应的标签是“混合计算”，由于“1+2*3”满足交换律，则本实施例中对“1 + 2 \times 3”进行扩展可以生成“3 \\times 2 + 1”, “2 \\times 3 + 1”, “1+ 2 \\times 3”, “1 + 3 \\times 2”等同义词扩充，则后续输入的字符串是“3 \\times2 + 1”，查询所述字典匹配数据中公式的整体字符串“1 + 2 \times 3”对应的标签是“混合计算”，由于所述“3 \\times 2 + 1”是所述“1 + 2 \times 3”扩展生成的，则可以确定“3 \\times 2 + 1”对应的标签是“混合计算，也就是预处理后的字符串成功匹配标签。

在本发明再一种可选的实施例中，可以是字典匹配数据的方式和正则表达式匹配数据的方式确定预处理后的字符串是否成功匹配标签。所述匹配数据包括：正则表达式匹配数据和字典匹配数据。

其中，所述正则表达式匹配数据记录的各预设字符串对应的标签；所述字典匹配数据记录的各公式的整体字符串对应的标签。

为了基于正则表达式匹配数据和字典匹配数据确定预处理后的字符串是否成功匹配标签，需要对字符串进行预处理，对所述字符串进行预处理，得到预处理后的字符串包括：

去除所述字符串中的停用词，得到字符串停用数据；

对所述字符串停用数据进行归一化处理，得到归一化字符串数据，其中，所述归一化处理至少包括字符归一化处理和表达式归一化处理；

对所述归一化字符串数据进行同义词扩充处理，确定同义词扩充字符串数据；

对所述同义词扩充字符串数据进行数字泛化处理，得到泛化字符串数据，确定所述泛化字符串数据为处理后的字符串。

基于预处理后的字符串，确定预处理后的字符串是否成功匹配标签，参考图7，包括：

步骤S71，基于所述正则表达式匹配数据记录的各预设字符串对应的标签，确定预处理后的字符串在所述正则表达式匹配数据中是否具有对应的预设字符串；

若是，则执行步骤S72，确定所述预处理后的字符串匹配标签成功；

若否，则执行步骤S73，基于字典匹配数据记录的各公式的整体字符串对应的标签，查找预处理后的字符串在所述字典匹配数据中是否具有完全匹配的整体字符串，若是，则执行步骤S72，确定所述预处理后的字符串匹配标签成功，若否，则执行步骤S74，确定所述预处理后的字符串匹配标签失败。

若匹配失败，进入执行所述调用公式标注模型的步骤，在调用所述公式标注模型进行预测时，参考图8，所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上，通过公式标注数据训练得到，确定所述目标语言表征模型的步骤可以是：

步骤S81，获取所述基础语言表征模型。

所述基础语言表征模型用于为后续识别所述待标注公式对应的标签提供基础模型基础。

可选的，所述基础语言表征模型可以为BERT（Bidirectional EncoderRepresentation from Transformers）模型，BERT模型是一种“MASK”词向量训练方法的模型，不仅可以根据词语在上下文中的含义对其进行编码而且可以有效捕捉文本数据中的词语之间的关系，能较好地适应文本数据中对文本进行分类的需要。

在可选的实施例中，将所述BERT模型作为基础语言表征模型，能够根据待标注公式在上下文中的含义对其进行编码而且可以有效捕捉待标记公式之间的关系，为此能够有效识别待标注公式之间的关系，能较好地适应待标注公式中进行分类的需要。

步骤S82，为所述基础语言表征模型添加与所述公式相关学科对应的基础词汇数据，得到第一语言表征模型。

所述第一语言表征模型的词汇数据至少包括公式相关学科对应的基础词汇数据。

步骤S83，基于所述公式相关学科的学科文本数据以及学科词典数据，为所述第一语言表征模型覆盖与所述公式相关学科的词汇，得到所述目标语言表征模型。

可以进行详细说明的是，所述第一语言表征模型的词汇数据至少包括公式相关学科对应的基础词汇数据，对所述第一语言表征模型进行第一扩展处理和第二扩展处理，所述第一扩展处理为学科文本扩充处理，对所述第一语言表征模型进行词汇表的扩充处理，为所述基础词汇数据中添加学科中具有特殊的命令类词汇的学科文本数据；所述第二扩展处理，实现为第一扩展处理后第一语言表征模型进行词典数据的扩充处理，为所述学科文本数据的词汇数据添加学科词典数据。

具体的，例如，第一语言表征模型的词汇数据中不包含学科中代表特殊的命令类词汇，如\And代表对公式进行和处理，可直接通过添加\And这一命令类词汇，实现对词汇数据的扩充，第一扩展处理后第一语言表征模型的可直接识别“\And”对待标注公式进行“和处理”这一指令实现对词汇数据的识别与处理。

所述学科词典数据用于实现对所述语言表征模型的词汇数据的进一步丰富，以增加相关的词汇数据。

所述第二扩展处理可以是全词掩盖（Whole Word Masking）处理。具体的，所述全词掩盖（Whole Word Masking）处理用于处理语言表征模型，使得第一扩展处理后第一语言表征模型进一步经过第二扩展处理，得到所述目标语言表征模型，所述目标语言表征模型不仅能够识别所述待处理公式相关的基础词汇，还能识别所述公式相关学科的学科文本数据以及学科词典数据中与所述公式相关学科的全部词汇。

具体的，所述学科词典数据可以诸如命令类词汇，题目类词汇等。其中，命令类词汇可以是“\cos”、“\arctan”等词汇，其中题目类词汇可以是“一元一次不等式组”、“取值范围”等词汇。

具体的，全词掩盖处理（Whole Word Masking）需要首先对语料进行分词，然后对同属于一个词的每个字符进行掩盖处理。这样一来，目标语言表征模型并非预测被掩盖处理的单个字符，而是预测同一个词中的每一个被掩盖处理的字符。

具体的，所述全词掩盖处理（Whole Word Masking）能够实现基于根据句子的语义分出完整的公式数据时，这种技术先随机选取若干需要掩盖的公式，再把它们切分成的子公式全部掩盖。例如，现有的题目数据为“已知函数f(x)的定义域为(-1, 0)”，先根据语义切分为[“已知”，“函数”，“f(x)”，“的”“定义域”，“为”，“(-1, 0)”]，在选择公式掩盖后，最后得到“已知函数[MASK] [MASK] [MASK] [MASK]的[MASK] [MASK] [MASK]为(-1, 0)”。在保持被掩盖的子公式的整体性的同时，目标语言表征模型能够对“f(x)”这一公式的整体以及“定义域”这一文本的整体性进行学习，从而更好地提升语义表达能力，实现更好的公式标注。

基于得到所述目标语言表征模型，还需要基于样本公式数据进一步确定所述公式标注模型，还包括：

获取样本公式数据及样本公式数据对应的标签。

所述样本公式数据为一组具有相同特征的公式数据，基于所述相同特征的公式数据对所述目标语言表征模型进行训练，优化后续公式标注模型为其预测标签的功能。

在获取样本公式数据及样本公式数据对应的标签中，具体可以是从文本数据中提取样本公式数据，并确定所述样本公式数据对应的标签。

可选的，所述样本公式数据是包含待标注公式的文本对应的文本数据，例如：所述文本标注数据为“已知函数$f(x)$的定义域是$（-1,1）$”。

从文本数据中提取样本公式数据，参考图9，可以具体包括

步骤S91，从文本数据中提取公式以及公式的上下文。

步骤S92，将提取的公式以及公式的上下文进行拼接，得到样本公式数据。

具体的，所述从文本数据中提取公式可以包括根据所述公式的特征信息提取公式，提取公式的上下文可以是根据所述公式的上下文模式特征信息从文本数据中识别公式的语义信息。

本发明实施例中所述公式的特征信息，为了防止公式识别时出现错误，影响标注结果，可以用当前公式及其前后一个或多个字符的特征信息来表征该当前公式的特征信息。

例如：所述文本数据为“已知函数$f(x)$的定义域是$（-1,1）$”，从所述文本数据中识别公式，可以是通过识别“$”这一特征信息，实现提取“f(x)”以及“（-1,1）”的公式，提取“f(x)”以及“（-1,1）”的公式。

本发明实施例中所述上下文模式特征信息用于从文本数据中识别公式的语义信息，具体的，所述文本数据中识别公式的语义信息可以是上下文中特定的字符串模式对识别结果的影响，所述特定的字符串模式指满足一定正则匹配模式的字符串，如以左括号和右括号为开始和结尾字符的公式“(-1,1)”，如果当前字符为“,”，则当前公式前文中的数字是没有准确含义的，则当前字符是公式字符的可能性大。

具体的，在步骤S92中，将提取的公式以及公式的上下文进行拼接，得到样本公式数据，可以具体包括：

将提取的公式以及公式的上下文，结合所述基础语言表征模型的固有规范进行拼接，得到样本公式数据；

其中，所述基础语言表征模型的固有规范，包括：

在提取的公式之前添加用于分类预测的第一字符，和/或，在提取的公式之间添加用于分割的第二字符，和/或，在拼接后的样本公式数据添加用于补位的第三字符。

所述基础语言表征模型的固有规范是用于指示为了提高为公式预测标签的效率，满足所述基础语言表征模型特有的特殊格式要求。例如所述特殊格式要求可以为统一待标注输入公式数据的预设长度。

例如当所述基础语言表征模型为BERT模型的相关模型时，且需要统一待标注公式数据的预设长度。则BERT模型中存在特殊标识就是实现分类预测的第一字符，所述第一字符可以是[CLS]（classifier token）、进行分割的第二字符，所述第二字符可以是[SEP]（separator token）、以及补充长度的第三字符，所述第三字符可以是[PAD]（paddingtoken）等特殊标识用于修改所述提取的公式，使得所述样本公式数据满足BERT模型的固有规范。

具体的，当所述基础语言表征模型为BERT模型时，本发明实施例中在输入前添加[CLS]用于分类预测；将公式数据用[SEP]符号进行分割；[PAD]用于占位，均用于将文本数据调整到同样的长度。当所述目标语言表征模型对公式数据要求统一待标注输入公式数据的预设长度，若未达到预设长度，在公式的后面补充[PAD]，若拼接后的长度超过预设长度，则对后面部分[PAD]进行截断处理，以满足目标语言表征模型的固有规范。

具体的，基于上述基础语言表征模型的固有规范，可以进行适当举例的是：基于前述识别到“f(x)”以及“(-1,1)”等公式，以及结合所述基础语言表征模型的固有模范，可以得到[CLS] f(x)[SEP]已知函数$f(x)$的定义域是$（-1,1）$[SEP] [PAD] [PAD][PAD]作为公式标注数据，所述样本公式数据为同一公式长度的公式数据实现对所述目标语言表征模型的训练。

基于获取到的所述样本公式数据，将所述样本公式数据及样本公式数据对应的标签作为训练数据，对所述目标语言表征模型进行训练，得到训练的所述公式标注模型。

具体的，将所述样本公式数据及样本公式数据对应的标签作为训练数据，对所述目标语言表征模型进行训练，以使得训练得到的公式标注模型中各个标签的参数值达到各个标签对应的参数阈值，所述公式标注模型配置有为公式进行标注的多个标签。

其中，所述各个标签对应同一参数阈值，或，所述各个标签中的各标签对应不同的参数阈值。

所述标签可以对应同一个参数阈值，所述同一个参数阈值可以用于指示公式标注模型的性能，所述同一个参数阈值可以是0.5；在本发明其他可选的实施例中，所述各个标签中的任一个标签均对应一个参数阈值，例如所述参数阈值可以为0.8、0.6等不同的参数，所述参数阈值的取值范围以不超过1为准。

所述训练数据用于训练所述目标语言表征模型，所述训练数据包括所述样本公式数据及样本公式数据对应的标签，为此，所述训练数据应当尽可能的充足，使得训练后的目标语言表征模型性能更加优异，也就是所述公式标注模型的预测性能表现的更加优异。

可见，在本发明实施例的训练数据足够充分的时候，所述公式标注模型的预测性能会更加优异。若公式训练数据较少的情况下，在本申请的其他可选实现中，还可以包括通过匹配数据确定待标注公式对应的预处理后的字符串是否成功匹配标签。

本发明实施例中的公式的标注方法用于实现对公式的标注，其中，所述公式标注模型基于目标语言表征模型得到，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，本发明实施例中扩展所述公式相关学科的词汇，用于增加所述学科中出现的高频词汇量，则所述待标注公式匹配所述学科中出现的高频词汇的概率增高，提高准确为待标注公式预测合适的标签的概率。

本发明实施例通过模型、预测所述待标注公式数据的样本结果有如下实验数据：

模型	Precision	Recall	F1-score
				基础语言表征模型	0.8612	0.8665	0.8638
目标语言表征模型	0.8615	0.8756	0.8685
				公式标注模型	0.8628	0.8854	0.8740

所述Precision为对待标注公式数据标注的精确度，Recall为对待标注公式数据标注的召回率，F1-score为待标注公式数据标注的F1分数。

上表中：F1-Score = (2 * Precision * Recall) / (Precision + Recall)。

当然，上述的公式的标注方法判定不仅应用到本发明实施例提供的数学公式标注领域，本发明实施例也可以在诸如化学方程式等其他场景下应用。

上文描述了本发明实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本发明实施例披露、公开的实施例方案。

下面对本发明实施例提供的公式的标注装置进行介绍，下文描述的公式的标注装置可以认为是为实现本发明实施例提供的公式的标注方法所需设置的功能模块，下文描述的公式的标注装置的内容可与上文描述的公式的标注方法的内容相互对应参照。

作为一种可选实现，图10示出了本发明实施例提供的公式的标注装置的一种可选框图；该公式的标注装置可以包括：

获取公式模块100，用于获取待标注公式。

公式标注模块110，用于调用公式标注模型，所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上，通过公式标注数据训练得到；其中，所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到，所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签；

预测标签模块120，用于根据所述公式标注模型，预测所述待标注公式的标签。

本发明实施例中所述公式标注装置中的所述公式标注模块110，还用于：

获取所述基础语言表征模型；

为所述基础语言表征模型添加与所述公式相关学科对应的基础词汇数据，得到第一语言表征模型；

基于所述公式相关学科的学科文本数据以及学科词典数据，为所述第一语言表征模型覆盖与所述公式相关学科的全部词汇，得到所述目标语言表征模型。

其中，基础语言表征模型为BERT模型。

本发明实施例中所述公式标注装置中的所述公式标注模块110，还包括：

获取样本公式数据及样本公式数据对应的标签；

将所述样本公式数据及样本公式数据对应的标签作为训练数据，对所述目标语言表征模型进行训练，得到训练的所述公式标注模型。

本发明实施例中所述公式标注装置中的所述公式标注模块110，用于所述获取样本公式数据及样本公式数据对应的标签，包括：

从文本数据中提取样本公式数据，并确定所述样本公式数据对应的标签。

本发明实施例中所述公式标注装置中的所述公式标注模块110，用于所述从文本数据中提取样本公式数据包括：

从文本数据中提取公式以及公式的上下文；

将提取的公式以及公式的上下文进行拼接，得到样本公式数据。

本发明实施例中所述公式标注装置中的所述公式标注模块110，用于所述将提取的公式以及公式的上下文进行拼接，得到样本公式数据，包括：

所述基础语言表征模型的固有规范，包括：

本发明实施例中所述公式标注装置中的所述公式标注模块110，用于所述将所述样本公式数据及样本公式数据对应的标签作为训练数据，对所述目标语言表征模型进行训练，得到训练的所述公式标注模型包括：

将所述样本公式数据及样本公式数据对应的标签作为训练数据，对所述目标语言表征模型进行训练，以使得训练得到的公式标注模型中各个标签的参数值达到各个标签对应的参数阈值，所述公式标注模型配置有为公式进行标注的多个标签。

本发明实施例中所述公式标注装置中的所述公式标注模块110，用于所述公式标注模型配置有为公式进行标注的多个标签，其中，所述各个标签对应同一参数阈值，或，所述各个标签中的各标签对应不同的参数阈值。

所述获取公式模块100和所述公式标注模块110之间，还包括:

提取字符串模块210，用于提取待标注公式中的字符串；

处理字符串模块220，用于对所述字符串进行预处理，得到预处理后的字符串；

确定标签模块230，用于基于匹配数据确定预处理后的字符串是否成功匹配标签；

若匹配失败，进入执行所述调用公式标注模型的步骤；

若匹配成功，取消执行所述调用公式标注模型的步骤。

本发明实施例中所述公式标注装置中的确定标签模块230中，所述匹配数据包括：正则表达式匹配数据。

本发明实施例中所述公式标注装置中的处理字符串模块220，用于对所述字符串进行预处理，得到预处理后的字符串包括：

去除所述字符串中的停用词，得到字符串停用数据；

对所述归一化字符串数据进行数字泛化处理，得到泛化字符串数据，所述泛化字符串数据为预处理后的字符串。

本发明实施例中所述公式标注装置中的确定标签模块230，用于基于匹配数据确定预处理后的字符串是否成功匹配标签，包括：

基于所述正则表达式匹配数据记录的各预设字符串对应的标签，确定预处理后的字符串在所述正则表达式匹配数据中是否具有对应的预设字符串；

若是，则确定所述预处理后的字符串匹配标签成功；若否，则确定所述预处理后的字符串匹配标签失败。

本发明实施例中所述公式标注装置中的确定标签模块230中，所述匹配数据包括：字典匹配数据；

去除所述字符串中的停用词，得到字符串停用数据；

对所述同义词扩充字符串数据进行数字泛化处理，得到泛化字符串数据，所述泛化字符串数据为处理后的字符串。

本发明实施例中所述公式标注装置中的确定标签模块230中，用于基于匹配数据确定预处理后的字符串是否成功匹配标签包括：

基于字典匹配数据记录的各公式的整体字符串对应的标签，查找预处理后的字符串在所述字典匹配数据中是否具有完全匹配的整体字符串；

本发明实施例中所述公式标注装置中的确定标签模块230中，所述匹配数据包括：正则表达式匹配数据和字典匹配数据；

本发明实施例中所述公式标注装置中的处理字符串模块220，用于基于匹配数据确定预处理后的字符串是否成功匹配标签包括：

若是，则确定所述预处理后的字符串匹配标签成功；

若否，基于字典匹配数据记录的各公式的整体字符串对应的标签，查找预处理后的字符串在所述字典匹配数据中是否具有完全匹配的整体字符串，若是，则确定所述预处理后的字符串匹配标签成功，若否，则确定所述预处理后的字符串匹配标签失败。

本发明实施例中所述公式标注装置中的确定标签模块230，用于对所述字符串进行预处理，包括：

去除所述字符串中的停用词，得到字符串停用数据；

本发明实施例还提供一种公式的标注设备，该公式的标注设备可通过装载上述公式的标注装置，以实现本发明实施例提供的公式的标注方法。可选的，该公式的标注设备的一种可选硬件结构可以如图11所示，图11为本发明实施例提供的一种于公式的标注设备的结构图，包括：至少一个处理器01，至少一个通信接口02，至少一个存储器03和至少一个通信总线04；

在本发明实施例中，处理器01、通信接口02、存储器03通过通信总线04完成相互间的通信；

处理器01可能是中央处理器CPU，或者是特定集成电路ASIC（Application

Specific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器03可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

其中，存储器03存储有程序，处理器01调用存储器03所存储的程序，执行本发明实施例提供的公式的标注方法。

本发明实施例还提供一种存储介质，该存储介质可以存储执行本发明实施

例提供的公式的标注方法的程序。

可选的，所述程序可具体用于：

获取待标注公式；

根据所述公式标注模型，预测所述待标注公式的标签。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种公式的标注方法，其特征在于，包括：

获取待标注公式；

根据所述公式标注模型，预测所述待标注公式的标签；

其中，所述目标语言表征模型的确定步骤包括：

获取所述基础语言表征模型；

基于所述公式相关学科的学科文本数据以及学科词典数据，为所述第一语言表征模型覆盖与所述公式相关学科的词汇，得到所述目标语言表征模型；

其中，所述根据所述公式标注模型，预测所述待标注公式的标签，包括：将所述待标注公式输入到所述公式标注模型，以使所述公式标注模型预测与所述待标注公式对应的标签。

2.如权利要求1所述的公式的标注方法，其特征在于，所述基础语言表征模型为BERT模型。

3.如权利要求1-2任一项所述的公式的标注方法，其特征在于，还包括：

获取样本公式数据及样本公式数据对应的标签；

4.如权利要求3所述的公式的标注方法，其特征在于，所述获取样本公式数据及样本公式数据对应的标签，包括：

5.如权利要求4所述的公式的标注方法，其特征在于，所述从文本数据中提取样本公式数据包括：

从文本数据中提取公式以及公式的上下文；

6.如权利要求5所述的公式的标注方法，其特征在于，所述将提取的公式以及公式的上下文进行拼接，得到样本公式数据，包括：

所述基础语言表征模型的固有规范，包括：

7.如权利要求6所述的公式的标注方法，其特征在于，所述将所述样本公式数据及样本公式数据对应的标签作为训练数据，对所述目标语言表征模型进行训练，得到训练的所述公式标注模型包括：

8.如权利要求7所述的公式的标注方法，其特征在于，所述公式标注模型配置有为公式进行标注的多个标签，其中，所述各个标签对应同一参数阈值，或，所述各个标签中的各标签对应不同的参数阈值。

9.如权利要求1所述的公式的标注方法，其特征在于，在所述调用公式标注模型之前，还包括：

提取待标注公式中的字符串；

对所述字符串进行预处理，得到预处理后的字符串；

基于匹配数据确定预处理后的字符串是否成功匹配标签；

若匹配失败，进入执行所述调用公式标注模型的步骤；

若匹配成功，取消执行所述调用公式标注模型的步骤。

10.如权利要求9所述的公式的标注方法，其特征在于，所述匹配数据包括：正则表达式匹配数据；

所述对所述字符串进行预处理，得到预处理后的字符串包括：

去除所述字符串中的停用词，得到字符串停用数据；

11.如权利要求10所述的公式的标注方法，其特征在于，所述基于匹配数据确定预处理后的字符串是否成功匹配标签，包括：

12.如权利要求9所述的公式的标注方法，其特征在于，所述匹配数据包括：字典匹配数据；

去除所述字符串中的停用词，得到字符串停用数据；

13.如权利要求12所述的公式的标注方法，其特征在于，所述基于匹配数据确定预处理后的字符串是否成功匹配标签包括：

14.如权利要求9所述的公式的标注方法，其特征在于，所述匹配数据包括：正则表达式匹配数据和字典匹配数据；

所述基于匹配数据确定预处理后的字符串是否成功匹配标签包括：

若是，则确定所述预处理后的字符串匹配标签成功；

15.如权利要求14所述的公式的标注方法，其特征在于，所述对所述字符串进行预处理，包括：

去除所述字符串中的停用词，得到字符串停用数据；

16.一种公式的标注装置，其特征在于，包括：

获取公式模块，用于获取待标注公式；

预测标签模块，用于根据所述公式标注模型，预测所述待标注公式的标签；

其中，所述目标语言表征模型的确定步骤包括：

获取所述基础语言表征模型；

其中，所述预测标签模块，用于根据所述公式标注模型，预测所述待标注公式的标签，包括：将所述待标注公式输入到所述公式标注模型，以使所述公式标注模型预测与所述待标注公式对应的标签。

17.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储计算机指令，所述处理器调用所述计算机指令，以执行权利要求1-15任一项所述公式的标注方法。

18.一种存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令用于执行权利要求1-15任一项所述公式的标注方法。