CN112580361A

CN112580361A - 基于统一注意力机制的公式及文字识别模型方法

Info

Publication number: CN112580361A
Application number: CN202011505069.1A
Authority: CN
Inventors: 余海涛; 陈明
Original assignee: Lanking Information Technology Nanjing Co ltd
Current assignee: Lanking Information Technology Nanjing Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-30

Abstract

本发明提供基于统一注意力机制的公式及文字识别模型方法，包括识别prensentation latex或content latex并获得识别结果，对结果进行latex语义树解析，并对语义树进行遍历；使用统计分词方法对latex序列进行分词，使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词，形成分词序列；对分词序列进行神经网络编码并输出，完成从变长分词序列到定长隐空间表征转化，使用前馈神经网络完成知识点的输出映射，完成对知识点的标注。本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升，该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题，有效提升标注准确率。

Description

基于统一注意力机制的公式及文字识别模型方法

技术领域

本发明涉及辅助教育教学系统技术领域，具体为基于统一注意力机制的公式及文字识别模型方法。

背景技术

现有数学学科知识点标注技术主要基于传统统计机器学习方法或循环神经网络等方法，由于模型本身特点，会由于过度泛化造成中间层信息丢失，并且在循环神经网络基础上的方法会因为模型本身特点导致训练过程中梯度消失问题无法根本解决从而导致较长的题干识别能力差，总体识别准确率较低；对于数学公式和中文英文文字混排以往采用一致性或传统分词方式，这些方法对于混排以及公式本身的表征学习能力较差。

发明内容

本发明目的在于提供基于统一注意力机制的公式及文字识别模型方法，解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升，该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题，有效提升标注准确率。

为达成上述目的，本发明提出如下技术方案：基于统一注意力机制的公式及文字识别模型方法，包括

识别prensentation latex或content latex并获得识别结果，对结果进行latex语义树解析，并对语义树进行遍历；

使用统计分词方法对latex序列进行分词，使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词，形成分词序列；

对分词序列进行神经网络编码并输出，完成从变长分词序列到定长隐空间表征转化；

使用前馈神经网络完成知识点的输出映射，完成对知识点的标注。

进一步的，在本发明中，对分词序列进行神经网络编码时，分词序列输入后进行查询(Q)，键(K)和值(V)的隐空间转化，并使用注意力算法对以上三项映射成为输出；

进一步的，在本发明中，对转化后得到的隐空间使用缩放模块进行缩放。

进一步的，在本发明中，利用multi-head进行并行学习，有效学习到不同层面的表征。

有益效果，本申请的技术方案具备如下技术效果：

本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升，该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题，有效提升标注准确率。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本发明缩放点积注意力模型的结构示意图。

图2为多头注意力模型的结构示意图。

图3为本发明前馈神经网络的映射效果示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

基于统一注意力机制的公式及文字识别模型方法，包括

识别prensentation latex或content latex并获得识别结果，使用latex种类识别模块来识别prensentation latex或content latex，使用latex种类识别模块对结果进行latex语义树解析，并对语义树进行遍历，从而完成从抽象latex到1维序列的转化；

使用统计分词方法对latex序列进行分词，使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词，形成分词序列，整体数学题目文档部分完成整体分词并形成最终分词序列；

利用注意力模型编码器模块对分词序列进行神经网络编码并输出，完成从变长分词序列到定长隐空间表征转化；注意力模型编码器模块包括注意力模型、缩放点积注意力模型、多头注意力模型和整合模型。

其中注意力模型使用注意力算法，注意力算法设计基于神经网络的编码器子模块设计，对输入进行查询(Q)，键(K)和值(V)的隐空间转化，并利用注意力算法对以上三项映射成为输出；

如图1所示缩放点积注意力模型是在基本注意力模型上增加缩放模块用于适配不同隐空间的大小(dk)从而有效缩短机器学习过程，减少训练时间；

如图2所示，利用多头注意力模型(multi-head)对缩放注意力模型进行并行学习，有效学习到不同层面的表征，例如，其中一个头模块学习到题干内语法方面的含义，另一个学习到知识点层面的含义，另一个学习到公式层面的含义等；

整合模型利用以上子模块的设计整合神经网络的链接和配比完成从分词序列到定长输出的映射。

如图3所示，使用前馈神经网络完成知识点的输出映射，完成对知识点的标注。

本实施例还给出基于统一注意力机制的公式及文字识别模型的装置，包括：

识别单元，识别prensentation latex或content latex并获得识别结果，使用latex种类识别模块来识别prensentation latex或content latex，使用latex种类识别模块对结果进行latex语义树解析，并对语义树进行遍历，从而完成从抽象latex到1维序列的转化；

分词单元，使用统计分词方法对latex序列进行分词，使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词，形成分词序列，整体数学题目文档部分完成整体分词并形成最终分词序列；

转化单元，利用注意力模型编码器模块对分词序列进行神经网络编码并输出，完成从变长分词序列到定长隐空间表征转化；注意力模型编码器模块包括注意力模型、缩放点积注意力模型、多头注意力模型和整合模型。

整合模型利用以上子模块的设计整合神经网络的链接和配比完成从分词序列到定长输出的映射；

标注单元，如图3所示，使用前馈神经网络完成知识点的输出映射，完成对知识点的标注。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.基于统一注意力机制的公式及文字识别模型方法，其特征在于：包括

2.根据权利要求1所述的基于统一注意力机制的公式及文字识别模型方法，其特征在于：对分词序列进行神经网络编码时，分词序列输入后进行查询(Q)，键(K)和值(V)的隐空间转化，并使用注意力算法对以上三项映射成为输出；

3.根据权利要求2所述的基于统一注意力机制的公式及文字识别模型方法，其特征在于：对转化后得到的隐空间使用缩放模块进行缩放。

4.根据权利要求3所述的基于统一注意力机制的公式及文字识别模型方法，其特征在于：利用multi-head进行并行学习，有效学习到不同层面的表征。