CN116071759B - 一种融合gpt2预训练大模型的光学字符识别方法 - Google Patents

一种融合gpt2预训练大模型的光学字符识别方法 Download PDF

Info

Publication number
CN116071759B
CN116071759B CN202310202217.XA CN202310202217A CN116071759B CN 116071759 B CN116071759 B CN 116071759B CN 202310202217 A CN202310202217 A CN 202310202217A CN 116071759 B CN116071759 B CN 116071759B
Authority
CN
China
Prior art keywords
text
text image
model
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310202217.XA
Other languages
English (en)
Other versions
CN116071759A (zh
Inventor
刘学亮
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Yunxi Quantum Technology Co ltd
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202310202217.XA priority Critical patent/CN116071759B/zh
Publication of CN116071759A publication Critical patent/CN116071759A/zh
Application granted granted Critical
Publication of CN116071759B publication Critical patent/CN116071759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,得到与文本图像对应的文本;光学字符识别模型的训练方法包括:对文本数据进行预处理后,将文本转化为文本图像,对文本图像进行数据增广,得到文本图像数据集;抽取文本图像的特征矢量:将特征矢量输入到基于预训练的GPT‑2模型的文本解码模块,预测生成相应的文本;将GPT‑2模型的参数冻结,利用CTC损失函数优化文本图像编码模块的参数,再对光学字符识别模型的参数进行微调;本发明能够利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。

Description

一种融合GPT2预训练大模型的光学字符识别方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种融合GPT2预训练大模型的光学字符识别方法。
背景技术
光学字符识别是利用光学技术和计算机视觉技术把文本图像转换为机器可读文本格式的过程,它是计算机视觉领域的重要应用方向之一。目前常用的光学字符识别算法是把文本图像采用深度神经网络算法的进行编码,再通过分类模块将每个字符的编码预测出来。尽管在文本编码过程算法会引入LSTM、transformer等模型来对字符图像之间的关系进行建模,但是这些算法并没有对字符文本之间的相关性进行充分地考虑,只是单纯地通过识别每个单字符以实现对文本图像的整体识别。然而,在中文自然语言处理中,一段文本中每个字符之间有较强的相关性。比如,“徽”和“微”是OCR容易识别错误的字,但是,“安徽”这个词出现的概率会远远大于“安微”,通过对字符相关性进行建模,就会大大地减少将“安徽”识别成“安微”的概率。
本发明提出一种基于GPT2预训练大模型的光学字符识别方法,能够利用GPT2对于文本相关性的建模能力提高OCR识别的准确率。
发明内容
为解决上述技术问题,本发明提供一种融合GPT2预训练大模型的光学字符识别方法。
为解决上述技术问题,本发明采用如下技术方案:
一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,得到与文本图像对应的文本;
光学字符识别模型的训练方法包括以下步骤:
步骤一:对收集的文本数据进行预处理后,将文本转化为文本图像,对文本图像进行数据增广,得到文本图像数据集,/>为通过文本/>生成的文本图像,n为文本图像数据集中文本图像的个数;
步骤二、通过文本图像编码模块抽取文本图像的特征矢量:
对文本图像进行特征提取,得到文本图像特征表示;通过长短期记忆人工神经网络对文本图像特征表示进行序列建模,输出与文本图像特征表示具有相同特征维度的文本图像潜在特征,利用多层感知器网络将文本图像潜在特征映射为特征矢量;
步骤三:将特征矢量输入到基于预训练的GPT-2模型的文本解码模块,预测生成相应的文本
步骤四:将GPT-2模型的参数冻结,利用CTC损失函数优化文本图像编码模块的参数,即最小化目标函数
通过最小化目标函数,对光学字符识别模型的参数进行微调:
其中,为CTC损失函数,/>为平衡参数,/>表示条件概率。
具体地,每个文本为一个句子;步骤一中对文本进行预处理时,将句子的字符数设定为固定值N;如果句子长度大于N个字符,则仅保留句子中的前N个字符;如果句子长度小于N个字符,则在句子后用空格填充,使句子长度达到N个字符。
具体地,文本图像编码模块包括文本特征提取模块、图像序列建模模块和特征映射模块;
以网络模型ResNet-18为基础构建文本特征提取模块,通过文本特征提取模块对文本图像进行特征提取,生成文本图像特征表示;
图像序列建模模块利用长短期记忆人工神经网络对文本图像特征表示进行序列建模,输出与文本图像特征表示具有相同特征维度的文本图像潜在特征;
特征映射模块利用两层的多层感知器网络,将序列建模后的文本图像潜在特征映射为特征矢量。
具体地,文本解码模块采用预训练的GPT-2-small模型,然后通过文本图像数据集对GPT-2-small模型进行微调,具体包括:
文档分词:利用BPE分词算法对数据集中的每个文本/>进行分词,得到文本数据集/>,其中,每个文本/>为一个由词向量构成的句子,/>,/>表示文本/>中的第/>个单词,/>表示文本/>中的单词总数;
GPT-2-small模型的参数通过优化目标函数/>进行求解:
其中,表示采用GPT-2-small模型对/>进行建模的条件概率。
与现有技术相比,本发明的有益技术效果是:
本发明中光学字符识别方法,并非单纯地通过识别每个单字符以实现对文本图像的识别,而是对文本图像特征表示进行序列建模,并利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。
附图说明
图1为本发明光学字符识别方法的流程图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,能够得到与文本图像对应的文本。
光学字符识别模型的训练方法,包括以下步骤:
S1、文本图像数据集构建:
S11:文本数据收集。每个文本是一个句子,句子长度固定为100个中文字符,长度超过100个字符的句子保留前面100个中文字符,长度不足100个字符的句子采用空格进行填充。
S12:用文图转换工具将步骤S11得到的文本数据,基于文档常用的宋体、仿宋、黑体等字体,转化成文本图像。每个字符大小固定为32像素×32像素,相应的,每个句子图像大小为32像素×3200像素。
S13:对步骤S12中得到的文本图像,利用高斯噪声、椒盐噪声、形态学操作等方法,进行数据增广。增广后的文本图像数据集记为,其中/>为文本生成的图像,/>为相应的文本。
S2:文本图像编码模块实现从文本图像抽取特征矢量的过程。文本图像编码模块包括文本特征提取模块、图像序列建模模块和特征映射模块。
文本特征提取模块:以文本图像为输入,生成文本图像特征表示。文本特征提取模块以经典网络模型ResNet-18为基础,为了适应文本图像具有固定高度特点,将ResNet-18中池化操作水平方向的步长设置2、垂直方向的步长设置为1。将文本图像输入文本特征提取模块,得到固定长度的文本图像特征表示。
图像序列建模模块:考虑到文本图像内容为一个文本序列,本发明利用长短期记忆人工神经网络(LSTM)对文本图像特征表示进行建模,以便有效利用字符之间的联系,从而提高识别的准确率。将文本特征提取模块得到的文本图像特征表示变形为[200,512],即一个长度为200的512维矢量,作为LSTM模型的输入,输出文本图像潜在特征,文本图像潜在特征的向量维度和输入的向量维度相同。
特征映射模块:该模块实现将序列建模后得到的文本图像潜在特征,映射为步骤S3中文本解码模块的输入的过程。特征映射模块利用两层的多层感知器网络,将文本图像潜在特征映射为200×768维度的特征矢量。
S3:将特征矢量输入到基于GPT-2模型的文本解码模块,预测生成相应的文本
S31:本实施例中,文本解码模块采用GPT-2-small模型,GPT-2-small模型为12个transformer层搭建的神经网络解码器。GPT-2-small模型是GPT-2模型的一个小型版本,具有约357万个参数,比GPT-2模型小约8倍。GPT-2-small模型的网络结构是一个多层的双向循环神经网络,每层都包含一个多头注意力机制,用于捕捉长度较长的依赖关系,可以用来处理各种自然语言处理任务,如语言建模、文本生成、机器翻译等。
S32:GPT-2-small模型参数较多,难以从头进行训练。为了使得GPT-2-small模型在文本图像数据集上得到较好性能,需要利用文本图像数据集/>对GPT-2-small模型进行微调。将预训练模型导入GPT-2-small模型完成模型的初始化,然后利用步骤S11收集的文本数据,对GPT-2-small模型进行微调,以便GPT-2-small模型更好的拟合步骤S11中的文本数据。
主要包括以下两个步骤:
S321、文档分词:利用BPE分词算法对文本图像数据集中的每个文本进行分词;最后得到文本数据集/>,其中,每个文本/>为一个由词向量构成的句子,,/>表示文本/>中的第/>个单词,/>表示文本/>中的单词总数。
S322:GPT-2-small模型的参数通过优化目标函数/>进行求解:
其中,为GPT-2-small模型的的参数,/>表示采用GPT-2-small模型对/>进行建模的条件概率。
S4、模型整体训练:
对于给定的文本图像数据集,光学字符识别模型的最终目标为将文本图像/>,解码为相应的文本/>,该过程可以等价于最大化以下目标函数:
;(1)
考虑到GPT-2-small模型已经进行过预训练,优化式(1)中的目标函数,分两步进行:
将GPT-2-small模型的参数冻结,对于输入图像,利用文本图像编码模块提取特征,并输入GPT-2-small模型,记其输出为/>,利用CTC损失函数优化文本图像编码模块的参数,即最小化如下目标函数:
为了获得更好的分类准确率,对经过目标函数调整过的光学字符识别模型进行微调,即最小化如下目标函数:
用来平衡两个损失,优化过程中,/>
对于待识别的文本图像,将其大小缩放为32像素×3200像素,输入训练好的光学字符识别模型,即可得到相应的文本。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,得到与文本图像对应的文本;
光学字符识别模型的训练方法包括以下步骤:
步骤一:对收集的文本数据进行预处理后,将文本转化为文本图像,对文本图像进行数据增广,得到文本图像数据集,/>为通过文本/>生成的文本图像,n为文本图像数据集中文本图像的个数;
步骤二、通过文本图像编码模块抽取文本图像的特征矢量:
对文本图像进行特征提取,得到文本图像特征表示;通过长短期记忆人工神经网络对文本图像特征表示进行序列建模,输出与文本图像特征表示具有相同特征维度的文本图像潜在特征,利用多层感知器网络将文本图像潜在特征映射为特征矢量;
步骤三:将特征矢量输入到基于预训练的GPT-2模型的文本解码模块,预测生成相应的文本
步骤四:将GPT-2模型的参数冻结,利用CTC损失函数优化文本图像编码模块的参数,即最小化目标函数
通过最小化目标函数,对光学字符识别模型的参数进行微调:
其中,为CTC损失函数,/>为平衡参数,/>表示条件概率。
2.根据权利要求1所述的融合GPT2预训练大模型的光学字符识别方法,其特征在于,每个文本为一个句子;步骤一中对文本进行预处理时,将句子的字符数设定为固定值N;如果句子长度大于N个字符,则仅保留句子中的前N个字符;如果句子长度小于N个字符,则在句子后用空格填充,使句子长度达到N个字符。
3.根据权利要求1所述的融合GPT2预训练大模型的光学字符识别方法,其特征在于,文本图像编码模块包括文本特征提取模块、图像序列建模模块和特征映射模块;
以网络模型ResNet-18为基础构建文本特征提取模块,通过文本特征提取模块对文本图像进行特征提取,生成文本图像特征表示;
图像序列建模模块利用长短期记忆人工神经网络对文本图像特征表示进行序列建模,输出与文本图像特征表示具有相同特征维度的文本图像潜在特征;
特征映射模块利用两层的多层感知器网络,将序列建模后的文本图像潜在特征映射为特征矢量。
4.根据权利要求1所述的融合GPT2预训练大模型的光学字符识别方法,其特征在于,文本解码模块采用预训练的GPT-2-small模型,然后通过文本图像数据集对GPT-2-small模型进行微调,具体包括:
文档分词:利用BPE分词算法对数据集中的每个文本/>进行分词,得到文本数据集,其中,每个文本/>为一个由词向量构成的句子,/>,/>表示文本/>中的第/>个单词,/>表示文本/>中的单词总数;
GPT-2-small模型的参数通过优化目标函数/>进行求解:
其中,表示采用GPT-2-small模型对/>进行建模的条件概率。
CN202310202217.XA 2023-03-06 2023-03-06 一种融合gpt2预训练大模型的光学字符识别方法 Active CN116071759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310202217.XA CN116071759B (zh) 2023-03-06 2023-03-06 一种融合gpt2预训练大模型的光学字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310202217.XA CN116071759B (zh) 2023-03-06 2023-03-06 一种融合gpt2预训练大模型的光学字符识别方法

Publications (2)

Publication Number Publication Date
CN116071759A CN116071759A (zh) 2023-05-05
CN116071759B true CN116071759B (zh) 2023-07-18

Family

ID=86182143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310202217.XA Active CN116071759B (zh) 2023-03-06 2023-03-06 一种融合gpt2预训练大模型的光学字符识别方法

Country Status (1)

Country Link
CN (1) CN116071759B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4089059A (en) * 1975-07-21 1978-05-09 Hewlett-Packard Company Programmable calculator employing a read-write memory having a movable boundary between program and data storage sections thereof
CN111062376A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 基于光学字符识别与纠错紧耦合处理的文本识别方法
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN111738251A (zh) * 2020-08-26 2020-10-02 北京智源人工智能研究院 一种融合语言模型的光学字符识别方法、装置和电子设备
CN111860348A (zh) * 2020-07-21 2020-10-30 国网山东省电力公司青岛供电公司 基于深度学习的弱监督电力图纸ocr识别方法
CN112036406A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种图像文档的文本抽取方法、装置及电子设备
CN112905753A (zh) * 2019-12-04 2021-06-04 北京沃东天骏信息技术有限公司 一种判别文本信息的方法和装置
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN113592416A (zh) * 2021-02-23 2021-11-02 腾讯科技(深圳)有限公司 一种邮件识别方法、装置、设备及计算机可读存储介质
WO2022017245A1 (zh) * 2020-07-24 2022-01-27 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
CN115100659A (zh) * 2022-06-13 2022-09-23 深圳市星桐科技有限公司 文本识别方法、装置、电子设备和存储介质
CN115393692A (zh) * 2022-09-08 2022-11-25 南京邮电大学 基于生成式预训练语言模型的联想文本到图像生成方法
CN115731552A (zh) * 2022-11-30 2023-03-03 中国工商银行股份有限公司 印章文字识别方法、装置、处理器及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037010B2 (en) * 2019-01-11 2021-06-15 Microsoft Technology Licensing, Llc Compositional model for text recognition
US11568138B2 (en) * 2020-08-25 2023-01-31 Beijing Wodong Tianjun Information Technology Co., Ltd. System for entity and evidence-guided relation prediction and method of using the same
RU2768211C1 (ru) * 2020-11-23 2022-03-23 Общество с ограниченной ответственностью "Аби Продакшн" Оптическое распознавание символов посредством комбинации моделей нейронных сетей

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4089059A (en) * 1975-07-21 1978-05-09 Hewlett-Packard Company Programmable calculator employing a read-write memory having a movable boundary between program and data storage sections thereof
CN112905753A (zh) * 2019-12-04 2021-06-04 北京沃东天骏信息技术有限公司 一种判别文本信息的方法和装置
CN111062376A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 基于光学字符识别与纠错紧耦合处理的文本识别方法
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111860348A (zh) * 2020-07-21 2020-10-30 国网山东省电力公司青岛供电公司 基于深度学习的弱监督电力图纸ocr识别方法
WO2022017245A1 (zh) * 2020-07-24 2022-01-27 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
CN111738251A (zh) * 2020-08-26 2020-10-02 北京智源人工智能研究院 一种融合语言模型的光学字符识别方法、装置和电子设备
CN112036406A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种图像文档的文本抽取方法、装置及电子设备
CN113592416A (zh) * 2021-02-23 2021-11-02 腾讯科技(深圳)有限公司 一种邮件识别方法、装置、设备及计算机可读存储介质
CN115100659A (zh) * 2022-06-13 2022-09-23 深圳市星桐科技有限公司 文本识别方法、装置、电子设备和存储介质
CN115393692A (zh) * 2022-09-08 2022-11-25 南京邮电大学 基于生成式预训练语言模型的联想文本到图像生成方法
CN115731552A (zh) * 2022-11-30 2023-03-03 中国工商银行股份有限公司 印章文字识别方法、装置、处理器及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LadRa-Net: Locally Aware Dynamic Reread Attention Net for Sentence Semantic Matching;Kun Zhang 等;《IEEE Transactions on Neural Networks and Learning Systems》;第34卷(第2期);853 - 866 *
基于BERT-BiLSTM-CRF模型的中文实体识别;谢腾;杨俊安;刘辉;;计算机系统应用(第07期);48-55 *

Also Published As

Publication number Publication date
CN116071759A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN108596265B (zh) 基于文本描述信息和生成对抗网络的视频生成模型
CN107526785B (zh) 文本分类方法及装置
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
CN113657124A (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN110704606B (zh) 一种基于图文融合的生成式摘要生成方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN110033008A (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN115203442B (zh) 基于联合注意力的跨模态深度哈希检索方法、系统及介质
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN117058266B (zh) 一种基于骨架和轮廓的书法字生成方法
CN113516152A (zh) 一种基于复合图像语义的图像描述方法
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN116310339A (zh) 基于矩阵分解增强全局特征的遥感图像分割方法
CN112784831B (zh) 融合多层特征增强注意力机制的文字识别方法
CN111666375B (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116071759B (zh) 一种融合gpt2预训练大模型的光学字符识别方法
CN112528989A (zh) 一种图像语义细粒度的描述生成方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN113673325B (zh) 一种多特征人物情绪识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240612

Address after: Room 204-a10, embedded R & D building, future center, Institute of advanced technology, University of science and technology of China

Patentee after: Anhui Yunxi Quantum Technology Co.,Ltd.

Country or region after: China

Address before: 230000 future center of Institute of advanced technology, University of science and technology of China, No. 5089, Wangjiang West Road, high tech Zone, Hefei, Anhui b1205-b1208

Patentee before: Artificial Intelligence Research Institute of Hefei comprehensive national science center (Artificial Intelligence Laboratory of Anhui Province)

Country or region before: China