CN112580361A - 基于统一注意力机制的公式及文字识别模型方法 - Google Patents

基于统一注意力机制的公式及文字识别模型方法 Download PDF

Info

Publication number
CN112580361A
CN112580361A CN202011505069.1A CN202011505069A CN112580361A CN 112580361 A CN112580361 A CN 112580361A CN 202011505069 A CN202011505069 A CN 202011505069A CN 112580361 A CN112580361 A CN 112580361A
Authority
CN
China
Prior art keywords
word segmentation
sequence
latex
unified
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011505069.1A
Other languages
English (en)
Inventor
余海涛
陈明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanking Information Technology Nanjing Co ltd
Original Assignee
Lanking Information Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanking Information Technology Nanjing Co ltd filed Critical Lanking Information Technology Nanjing Co ltd
Priority to CN202011505069.1A priority Critical patent/CN112580361A/zh
Publication of CN112580361A publication Critical patent/CN112580361A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于统一注意力机制的公式及文字识别模型方法,包括识别prensentation latex或content latex并获得识别结果,对结果进行latex语义树解析,并对语义树进行遍历;使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列;对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化,使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升,该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题,有效提升标注准确率。

Description

基于统一注意力机制的公式及文字识别模型方法
技术领域
本发明涉及辅助教育教学系统技术领域,具体为基于统一注意力机制的公式及文字识别模型方法。
背景技术
现有数学学科知识点标注技术主要基于传统统计机器学习方法或循环神经网络等方法,由于模型本身特点,会由于过度泛化造成中间层信息丢失,并且在循环神经网络基础上的方法会因为模型本身特点导致训练过程中梯度消失问题无法根本解决从而导致较长的题干识别能力差,总体识别准确率较低;对于数学公式和中文英文文字混排以往采用一致性或传统分词方式,这些方法对于混排以及公式本身的表征学习能力较差。
发明内容
本发明目的在于提供基于统一注意力机制的公式及文字识别模型方法,解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升,该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题,有效提升标注准确率。
为达成上述目的,本发明提出如下技术方案:基于统一注意力机制的公式及文字识别模型方法,包括
识别prensentation latex或content latex并获得识别结果,对结果进行latex语义树解析,并对语义树进行遍历;
使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列;
对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化;
使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。
进一步的,在本发明中,对分词序列进行神经网络编码时,分词序列输入后进行查询(Q),键(K)和值(V)的隐空间转化,并使用注意力算法对以上三项映射成为输出;
Figure BDA0002844654240000021
进一步的,在本发明中,对转化后得到的隐空间使用缩放模块进行缩放。
进一步的,在本发明中,利用multi-head进行并行学习,有效学习到不同层面的表征。
有益效果,本申请的技术方案具备如下技术效果:
本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升,该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题,有效提升标注准确率。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1为本发明缩放点积注意力模型的结构示意图。
图2为多头注意力模型的结构示意图。
图3为本发明前馈神经网络的映射效果示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
基于统一注意力机制的公式及文字识别模型方法,包括
识别prensentation latex或content latex并获得识别结果,使用latex种类识别模块来识别prensentation latex或content latex,使用latex种类识别模块对结果进行latex语义树解析,并对语义树进行遍历,从而完成从抽象latex到1维序列的转化;
使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列,整体数学题目文档部分完成整体分词并形成最终分词序列;
利用注意力模型编码器模块对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化;注意力模型编码器模块包括注意力模型、缩放点积注意力模型、多头注意力模型和整合模型。
其中注意力模型使用注意力算法,注意力算法设计基于神经网络的编码器子模块设计,对输入进行查询(Q),键(K)和值(V)的隐空间转化,并利用注意力算法对以上三项映射成为输出;
Figure BDA0002844654240000041
如图1所示缩放点积注意力模型是在基本注意力模型上增加缩放模块用于适配不同隐空间的大小(dk)从而有效缩短机器学习过程,减少训练时间;
如图2所示,利用多头注意力模型(multi-head)对缩放注意力模型进行并行学习,有效学习到不同层面的表征,例如,其中一个头模块学习到题干内语法方面的含义,另一个学习到知识点层面的含义,另一个学习到公式层面的含义等;
整合模型利用以上子模块的设计整合神经网络的链接和配比完成从分词序列到定长输出的映射。
如图3所示,使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。
本实施例还给出基于统一注意力机制的公式及文字识别模型的装置,包括:
识别单元,识别prensentation latex或content latex并获得识别结果,使用latex种类识别模块来识别prensentation latex或content latex,使用latex种类识别模块对结果进行latex语义树解析,并对语义树进行遍历,从而完成从抽象latex到1维序列的转化;
分词单元,使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列,整体数学题目文档部分完成整体分词并形成最终分词序列;
转化单元,利用注意力模型编码器模块对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化;注意力模型编码器模块包括注意力模型、缩放点积注意力模型、多头注意力模型和整合模型。
其中注意力模型使用注意力算法,注意力算法设计基于神经网络的编码器子模块设计,对输入进行查询(Q),键(K)和值(V)的隐空间转化,并利用注意力算法对以上三项映射成为输出;
Figure BDA0002844654240000061
如图1所示缩放点积注意力模型是在基本注意力模型上增加缩放模块用于适配不同隐空间的大小(dk)从而有效缩短机器学习过程,减少训练时间;
如图2所示,利用多头注意力模型(multi-head)对缩放注意力模型进行并行学习,有效学习到不同层面的表征,例如,其中一个头模块学习到题干内语法方面的含义,另一个学习到知识点层面的含义,另一个学习到公式层面的含义等;
整合模型利用以上子模块的设计整合神经网络的链接和配比完成从分词序列到定长输出的映射;
标注单元,如图3所示,使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。
本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升,该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题,有效提升标注准确率。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (4)

1.基于统一注意力机制的公式及文字识别模型方法,其特征在于:包括
识别prensentation latex或content latex并获得识别结果,对结果进行latex语义树解析,并对语义树进行遍历;
使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列;
对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化;
使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。
2.根据权利要求1所述的基于统一注意力机制的公式及文字识别模型方法,其特征在于:对分词序列进行神经网络编码时,分词序列输入后进行查询(Q),键(K)和值(V)的隐空间转化,并使用注意力算法对以上三项映射成为输出;
Figure FDA0002844654230000011
3.根据权利要求2所述的基于统一注意力机制的公式及文字识别模型方法,其特征在于:对转化后得到的隐空间使用缩放模块进行缩放。
4.根据权利要求3所述的基于统一注意力机制的公式及文字识别模型方法,其特征在于:利用multi-head进行并行学习,有效学习到不同层面的表征。
CN202011505069.1A 2020-12-18 2020-12-18 基于统一注意力机制的公式及文字识别模型方法 Pending CN112580361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011505069.1A CN112580361A (zh) 2020-12-18 2020-12-18 基于统一注意力机制的公式及文字识别模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011505069.1A CN112580361A (zh) 2020-12-18 2020-12-18 基于统一注意力机制的公式及文字识别模型方法

Publications (1)

Publication Number Publication Date
CN112580361A true CN112580361A (zh) 2021-03-30

Family

ID=75136054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011505069.1A Pending CN112580361A (zh) 2020-12-18 2020-12-18 基于统一注意力机制的公式及文字识别模型方法

Country Status (1)

Country Link
CN (1) CN112580361A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474014A (zh) * 2023-12-27 2024-01-30 广东信聚丰科技股份有限公司 基于大数据分析的知识点拆解方法及系统
CN117473096A (zh) * 2023-12-28 2024-01-30 江西师范大学 一种融合latex标签的知识点标注方法及其模型

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111401353A (zh) * 2020-03-17 2020-07-10 重庆邮电大学 一种数学公式的识别方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111401353A (zh) * 2020-03-17 2020-07-10 重庆邮电大学 一种数学公式的识别方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张秋颖;傅洛伊;王新兵;: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 计算机应用研究, no. 1, 30 June 2020 (2020-06-30), pages 57 - 59 *
肖文斌: "基于编码器—解码器和注意力机制神经网络的数学公式识别方法", 中国优秀硕士学位论文全文数据库, 15 July 2020 (2020-07-15), pages 1 - 79 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474014A (zh) * 2023-12-27 2024-01-30 广东信聚丰科技股份有限公司 基于大数据分析的知识点拆解方法及系统
CN117474014B (zh) * 2023-12-27 2024-03-08 广东信聚丰科技股份有限公司 基于大数据分析的知识点拆解方法及系统
CN117473096A (zh) * 2023-12-28 2024-01-30 江西师范大学 一种融合latex标签的知识点标注方法及其模型
CN117473096B (zh) * 2023-12-28 2024-03-15 江西师范大学 一种融合latex标签的知识点标注方法及其模型

Similar Documents

Publication Publication Date Title
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
WO2021022816A1 (zh) 一种基于深度学习网络的意图识别方法
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN110413783B (zh) 一种基于注意力机制的司法文本分类方法及系统
CN109933801A (zh) 基于预测位置注意力的双向lstm命名实体识别方法
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN110276052B (zh) 一种古汉语自动分词及词性标注一体化方法及装置
CN110362820B (zh) 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN112580361A (zh) 基于统一注意力机制的公式及文字识别模型方法
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN111368087B (zh) 基于多输入注意力网络的中文文本分类方法
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112699679A (zh) 情绪识别方法、装置、电子设备及存储介质
CN115497107B (zh) 一种基于笔画和部首分解的零样本汉字识别方法
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法
CN106919556A (zh) 一种采用稀疏编码的自然语言语义深度解析算法
CN113988074A (zh) 一种动态融合词典信息的中文命名实体识别方法和装置
CN113420548A (zh) 一种基于知识蒸馏和pu学习的实体抽取采样方法
CN110175330A (zh) 一种基于注意力机制的命名实体识别方法
CN114529908A (zh) 一种离线手写化学反应式图像识别技术
CN111967265B (zh) 一种数据集自动生成的中文分词与实体识别联合学习方法
CN116484848B (zh) 一种基于nlp的文本实体识别方法
CN117350378A (zh) 一种基于语义匹配和知识图谱的自然语言理解算法
CN117113094A (zh) 一种基于语义递进融合的长文本相似度计算方法及装置
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination