CN110852331B - 一种结合bert模型的图像描述生成方法 - Google Patents

一种结合bert模型的图像描述生成方法 Download PDF

Info

Publication number
CN110852331B
CN110852331B CN201911025320.1A CN201911025320A CN110852331B CN 110852331 B CN110852331 B CN 110852331B CN 201911025320 A CN201911025320 A CN 201911025320A CN 110852331 B CN110852331 B CN 110852331B
Authority
CN
China
Prior art keywords
image
image description
dictionary
bert model
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911025320.1A
Other languages
English (en)
Other versions
CN110852331A (zh
Inventor
宋荣伟
刘汪洋
曹扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN201911025320.1A priority Critical patent/CN110852331B/zh
Publication of CN110852331A publication Critical patent/CN110852331A/zh
Application granted granted Critical
Publication of CN110852331B publication Critical patent/CN110852331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。本发明通过对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义;利用基于端到端并加入注意力机制的图像描述生成模型生成弱语义图像描述语句,同时对于词汇不足的问题采用应用外部语料数据扩充词典的方式,增强语义含义,使所生成的图像描述能更准确的表征图像的内容,具有更丰富的语义。

Description

一种结合BERT模型的图像描述生成方法
技术领域
本发明涉及一种结合BERT模型的图像描述生成方法,属于图像处理技术领域。
背景技术
图像具有直观、形象的特点,便于人们接受,但随着智能手机及网络技术的发展,网络上有大量的图片产生,庞大的信息使得人们在进行图像检索阅读时花费大量时间。因此,如何通过自动化的方法快速生成图像的描述,并对其进行筛选过滤成为一个迫切需求,图像描述生成技术是一个合理有效的解决方案。此外,生成图像的描述语句还能帮助盲人理解图像内容。
在现有技术中,随着深度学习的发展,图像描述生成技术主要是采用深度学习方法,使用机器来自动生成对图像关键信息的自然语言描述语句,但这些方法由于训练数据集有限,无法涵盖所有领域的图像信息,因此生成的图像描述语句存在词语缺失以及语义信息不足等问题,无法得到很好的效果。
发明内容
为解决上述技术问题,本发明提供了一种结合BERT模型的图像描述生成方法,该结合BERT模型的图像描述生成方法相对于传统的基于端到端并加入注意力机制的图像描述生成方法,解决了图像描述生成语句语义信息不足的问题,并针对生成语句词汇不足的情况进行了补充,从而能够更准确的描述图像数据的语义含义。
本发明通过以下技术方案得以实现。
本发明提供的一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。
基于一种结合BERT模型的图像描述生成方法,包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,然后对维度进行扩充;
③词典扩充:通过外部语料数据对图像描述生成模型所用的词典进行扩充;
④生成式图像描述模型:将特征向量和词典输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义描述语句A;
⑤结合BERT模型进行语义调整:通过BERT模型的上下文预测功能,对弱语义描述语句A中的语义表达进行调整;
⑥图像描述语句:获取完整的图像描述生成语句。
所述步骤①中,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维。
所述步骤②中,将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量。
所述步骤③中,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充。
所述步骤④中,图像描述生成模型由Seq2Seq+Attention机制的编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重。
所述步骤③分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
(3.4)完成词典扩充。
采用Embedding方式将原始提取的2048维图像特征向量压缩为128维。
所述步骤④分为以下步骤:
(4.1)将特征向量和词典输入Seq2Seq+Attention机制的编码器,作为输出向量;
(4.2)在第一时刻输入步骤(4.1)中的输出向量,之后每个时刻输入的数据由前一时刻的输出组成,再通过单向LSTM解码器,获取弱语义描述语句A。
所述步骤⑤分为以下步骤:
(5.1)通过BERT模型判断弱语义描述语句A中,词语的词性;
(5.2)若词性为动词,将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),获取完整的图像描述生成语句。
本发明的有益效果在于:通过图像特征提取模型提取出图像数据的特征向量,对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义;利用基于端到端并加入注意力机制的图像描述生成模型生成弱语义图像描述语句,同时对于词汇不足的问题采用应用外部语料数据扩充词典的方式;结合BERT模型对弱语义图像描述语句进行语义调整,增强语义含义,使所生成的图像描述能更准确的表征图像的内容,具有更丰富的语义。
附图说明
图1是本发明编码器、解码器以及图像描述生成模型的结构示意图;
图2是本发明的流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1和2所示,一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。
基于一种结合BERT模型的图像描述生成方法,包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
进一步地,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,然后对维度进行扩充;
进一步地,将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量;
优选的,采用Embedding方式将原始提取的2048维图像特征向量压缩为128维;
③词典扩充:通过外部语料数据对图像描述生成模型所用的词典进行扩充;
优选的,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充;
具体分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
(3.4)完成词典扩充;
④生成式图像描述模型:将特征向量和词典输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义描述语句A;
进一步地,图像描述生成模型由Seq2Seq+Attention机制的编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重;
具体的,分为以下步骤:
(4.1)将特征向量和词典输入Seq2Seq+Attention机制的编码器,作为输出向量;
(4.2)在第一时刻输入步骤(4.1)中的输出向量,之后每个时刻输入的数据由前一时刻的输出组成,再通过单向LSTM解码器,获取弱语义描述语句A;
⑤结合BERT模型进行语义调整:通过BERT模型的上下文预测功能,对弱语义描述语句A中的语义表达进行调整;
具体的,分为以下步骤:
(5.1)通过BERT模型判断弱语义描述语句A中,词语的词性;
(5.2)若词性为动词,将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),获取完整的图像描述生成语句;
⑥图像描述语句:获取完整的图像描述生成语句。
实施例
如上所述,一种结合BERT模型的图像描述生成方法,首先输入图像(image)数据,提取图像的特征向量,对特征向量进行压缩、维度扩充,应用外部语料数据扩充词典,解决生成语句词汇不足问题,然后采用基于端到端并加入注意力机制的图像描述生成模型(image features)初步生成弱语义描述语句A,并结合BERT模型对生成的语句A进行语义调整,增强语义含义,最后得到完整的图像描述语句。
具体包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,同时将维度扩充为合适的大小,以满足基于端到端结合注意力机制的图像描述生成模型的输入;
③词典扩充:应用外部语料对图像描述生成模型所用的词典进行扩充,增加词典种词语的数量与领域范围;
④生成式图像描述模型:将压缩、维度扩充后的图像特征向量输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义的图像描述语句A;
⑤结合BERT模型进行语义调整:对弱语义的图像描述语句A,通过BERT模型的上下文预测功能,对A中的语义表达进行调整,使图像描述语句更加具有逻辑性与语义相关性;
⑥图像描述语句:将步骤⑤中语义调整后的图像描述语句作为最终的图像描述生成语句。
进一步地,所述步骤①中,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维。
进一步地,所述步骤②中,特征向量压缩将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量。
进一步地,所述步骤③中,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充。
进一步地,所述步骤④中,生成式图像描述模型采用基于Seq2Seq+Attention机制的方法生成图像描述语句。
进一步地,所述生成式图像描述模型由编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重。
进一步地,所述步骤⑤中,结合BERT模型对生成的弱语义语句进行语义调整,通过上下文关联,替换不合逻辑词语,增强语句的语义相关性。
进一步地,所述步骤②分为以下步骤:
(2.1)采用Embedding方式将原始提取的2048维图像特征向量压缩为128维;
(2.2)将压缩后的特征向量扩充为(None,1,128)的特征张量;
进一步地,所述步骤③分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
进一步地,所述步骤④分为以下步骤:
(4.1)采用步骤①及步骤②的方法对图像数据进行特征提取,作为Seq2Seq+Attention机制的编码器输出向量;
(4.2)解码器采用单向LSTM网络模型,在第一时刻输入步骤(4.1)中得到的特征向量,之后每个时刻输入的数据由前一时刻的输出组成(组成为图像描述语句序列yn),然后由LSTM输出弱语义的图像描述语句;
进一步地,所述步骤⑤分为以下步骤:
(5.1)对步骤(4.2)每个时刻生成词语,判断其词性;
(5.2)若词性为动词,则将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),最后生成完整的图像描述语句。
综上所述,本发明针对传统基于深度学习的图像描述生成模型所生成的描述语句语义信息不足问题,通过将BERT模型与基于深度学习的图像描述生成方法相结合,对弱语义图像描述语句进行语义调整,增强语义含义,使用图像特征提取模型提取出图像数据的特征向量,对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义,同时对于词汇不足的问题,采用应用外部语料数据扩充词典的方式,解决词汇不足问题,得到语义含义更丰富,描述更准确的图像描述语句。

Claims (9)

1.一种结合BERT模型的图像描述生成方法,其特征在于:首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句;
包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,然后对维度进行扩充;
③词典扩充:通过外部语料数据对图像描述生成模型所用的词典进行扩充;
④生成式图像描述模型:将特征向量和词典输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义描述语句A;
⑤结合BERT模型进行语义调整:通过BERT模型的上下文预测功能,对弱语义描述语句A中的语义表达进行调整;
⑥图像描述语句:获取完整的图像描述生成语句。
2.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤①中,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维。
3.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤②中,将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量。
4.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤③中,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充。
5.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤④中,图像描述生成模型由Seq2Seq+Attention机制的编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重。
6.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤③分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
(3.4)完成词典扩充。
7.如权利要求3所述的结合BERT模型的图像描述生成方法,其特征在于:采用Embedding方式将原始提取的2048维图像特征向量压缩为128维。
8.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤④分为以下步骤:
(4.1)将特征向量和词典输入Seq2Seq+Attention机制的编码器,作为输出向量;
(4.2)在第一时刻输入步骤(4.1)中的输出向量,之后每个时刻输入的数据由前一时刻的输出组成,再通过单向LSTM解码器,获取弱语义描述语句A。
9.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤⑤分为以下步骤:
(5.1)通过BERT模型判断弱语义描述语句A中,词语的词性;
(5.2)若词性为动词,将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),获取完整的图像描述生成语句。
CN201911025320.1A 2019-10-25 2019-10-25 一种结合bert模型的图像描述生成方法 Active CN110852331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911025320.1A CN110852331B (zh) 2019-10-25 2019-10-25 一种结合bert模型的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911025320.1A CN110852331B (zh) 2019-10-25 2019-10-25 一种结合bert模型的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN110852331A CN110852331A (zh) 2020-02-28
CN110852331B true CN110852331B (zh) 2023-09-08

Family

ID=69598095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911025320.1A Active CN110852331B (zh) 2019-10-25 2019-10-25 一种结合bert模型的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN110852331B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520802B (zh) * 2024-01-08 2024-05-24 国网山东省电力公司东营供电公司 一种电力工程现场轻量级审计事件识别方法、系统及设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102449660A (zh) * 2009-04-01 2012-05-09 I-切塔纳私人有限公司 用于数据检测的系统和方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
KR20160124948A (ko) * 2015-04-20 2016-10-31 전남대학교산학협력단 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기
CN109740168A (zh) * 2019-01-09 2019-05-10 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN110188202A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 语义关系识别模型的训练方法、装置及终端
CN110188360A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 模型训练方法和装置
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN110209784A (zh) * 2019-04-26 2019-09-06 腾讯科技(深圳)有限公司 消息交互方法、计算机设备及存储介质
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN114492772A (zh) * 2021-11-16 2022-05-13 阿里云计算有限公司 神经网络张量形状追踪方法和计算平台

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102449660A (zh) * 2009-04-01 2012-05-09 I-切塔纳私人有限公司 用于数据检测的系统和方法
KR20160124948A (ko) * 2015-04-20 2016-10-31 전남대학교산학협력단 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN109740168A (zh) * 2019-01-09 2019-05-10 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN110209784A (zh) * 2019-04-26 2019-09-06 腾讯科技(深圳)有限公司 消息交互方法、计算机设备及存储介质
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN110188202A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 语义关系识别模型的训练方法、装置及终端
CN110188360A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 模型训练方法和装置
CN114492772A (zh) * 2021-11-16 2022-05-13 阿里云计算有限公司 神经网络张量形状追踪方法和计算平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨楠 ; 南琳 ; 张丁一 ; 库涛 ; .基于深度学习的图像描述研究.红外与激光工程.2018,(02),18-25. *

Also Published As

Publication number Publication date
CN110852331A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN109508400B (zh) 图文摘要生成方法
CN110428820B (zh) 一种中英文混合语音识别方法及装置
CN110570845B (zh) 一种基于域不变特征的语音识别方法
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN109241330A (zh) 用于识别音频中的关键短语的方法、装置、设备和介质
CN112183058B (zh) 基于bert句子向量输入的诗词生成方法及装置
CN111061861A (zh) 一种基于XLNet的文本摘要自动生成方法
CN113609285A (zh) 一种基于依赖门控融合机制的多模态文本摘要系统
CN112328782B (zh) 一种融合图像过滤器的多模态摘要生成方法
CN116628186B (zh) 文本摘要生成方法及系统
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN115238029A (zh) 一种电力故障知识图谱的构建方法和装置
CN115952263A (zh) 一种融合机器阅读理解的问答方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN110852331B (zh) 一种结合bert模型的图像描述生成方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN112528642B (zh) 一种隐式篇章关系自动识别方法及系统
Calvin et al. Image captioning using convolutional neural networks and recurrent neural network
CN112949284A (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN112287640B (zh) 一种基于中文字符结构的序列标注方法
CN115169368A (zh) 基于多文档的机器阅读理解方法及装置
CN115995225A (zh) 模型训练方法和装置、语音合成方法、设备及存储介质
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant