CN110852331A - 一种结合bert模型的图像描述生成方法 - Google Patents
一种结合bert模型的图像描述生成方法 Download PDFInfo
- Publication number
- CN110852331A CN110852331A CN201911025320.1A CN201911025320A CN110852331A CN 110852331 A CN110852331 A CN 110852331A CN 201911025320 A CN201911025320 A CN 201911025320A CN 110852331 A CN110852331 A CN 110852331A
- Authority
- CN
- China
- Prior art keywords
- image
- image description
- dictionary
- model
- bert model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。本发明通过对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义;利用基于端到端并加入注意力机制的图像描述生成模型生成弱语义图像描述语句,同时对于词汇不足的问题采用应用外部语料数据扩充词典的方式,增强语义含义,使所生成的图像描述能更准确的表征图像的内容,具有更丰富的语义。
Description
技术领域
本发明涉及一种结合BERT模型的图像描述生成方法,属于图像处理技术领域。
背景技术
图像具有直观、形象的特点,便于人们接受,但随着智能手机及网络技术的发展,网络上有大量的图片产生,庞大的信息使得人们在进行图像检索阅读时花费大量时间。因此,如何通过自动化的方法快速生成图像的描述,并对其进行筛选过滤成为一个迫切需求,图像描述生成技术是一个合理有效的解决方案。此外,生成图像的描述语句还能帮助盲人理解图像内容。
在现有技术中,随着深度学习的发展,图像描述生成技术主要是采用深度学习方法,使用机器来自动生成对图像关键信息的自然语言描述语句,但这些方法由于训练数据集有限,无法涵盖所有领域的图像信息,因此生成的图像描述语句存在词语缺失以及语义信息不足等问题,无法得到很好的效果。
发明内容
为解决上述技术问题,本发明提供了一种结合BERT模型的图像描述生成方法,该结合BERT模型的图像描述生成方法相对于传统的基于端到端并加入注意力机制的图像描述生成方法,解决了图像描述生成语句语义信息不足的问题,并针对生成语句词汇不足的情况进行了补充,从而能够更准确的描述图像数据的语义含义。
本发明通过以下技术方案得以实现。
本发明提供的一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。
基于一种结合BERT模型的图像描述生成方法,包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,然后对维度进行扩充;
③词典扩充:通过外部语料数据对图像描述生成模型所用的词典进行扩充;
④生成式图像描述模型:将特征向量和词典输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义描述语句A;
⑤结合BERT模型进行语义调整:通过BERT模型的上下文预测功能,对弱语义描述语句A中的语义表达进行调整;
⑥图像描述语句:获取完整的图像描述生成语句。
所述步骤①中,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维。
所述步骤②中,将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量。
所述步骤③中,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充。
所述步骤④中,图像描述生成模型由Seq2Seq+Attention机制的编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重。
所述步骤③分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
(3.4)完成词典扩充。
采用Embedding方式将原始提取的2048维图像特征向量压缩为128维。
所述步骤④分为以下步骤:
(4.1)将特征向量和词典输入Seq2Seq+Attention机制的编码器,作为输出向量;
(4.2)在第一时刻输入步骤(4.1)中的输出向量,之后每个时刻输入的数据由前一时刻的输出组成,再通过单向LSTM解码器,获取弱语义描述语句A。
所述步骤⑤分为以下步骤:
(5.1)通过BERT模型判断弱语义描述语句A中,词语的词性;
(5.2)若词性为动词,将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),获取完整的图像描述生成语句。
本发明的有益效果在于:通过图像特征提取模型提取出图像数据的特征向量,对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义;利用基于端到端并加入注意力机制的图像描述生成模型生成弱语义图像描述语句,同时对于词汇不足的问题采用应用外部语料数据扩充词典的方式;结合BERT模型对弱语义图像描述语句进行语义调整,增强语义含义,使所生成的图像描述能更准确的表征图像的内容,具有更丰富的语义。
附图说明
图1是本发明编码器、解码器以及图像描述生成模型的结构示意图;
图2是本发明的流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1和2所示,一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。
基于一种结合BERT模型的图像描述生成方法,包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
进一步地,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,然后对维度进行扩充;
进一步地,将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量;
优选的,采用Embedding方式将原始提取的2048维图像特征向量压缩为128维;
③词典扩充:通过外部语料数据对图像描述生成模型所用的词典进行扩充;
优选的,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充;
具体分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
(3.4)完成词典扩充;
④生成式图像描述模型:将特征向量和词典输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义描述语句A;
进一步地,图像描述生成模型由Seq2Seq+Attention机制的编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重;
具体的,分为以下步骤:
(4.1)将特征向量和词典输入Seq2Seq+Attention机制的编码器,作为输出向量;
(4.2)在第一时刻输入步骤(4.1)中的输出向量,之后每个时刻输入的数据由前一时刻的输出组成,再通过单向LSTM解码器,获取弱语义描述语句A;
⑤结合BERT模型进行语义调整:通过BERT模型的上下文预测功能,对弱语义描述语句A中的语义表达进行调整;
具体的,分为以下步骤:
(5.1)通过BERT模型判断弱语义描述语句A中,词语的词性;
(5.2)若词性为动词,将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),获取完整的图像描述生成语句;
⑥图像描述语句:获取完整的图像描述生成语句。
实施例
如上所述,一种结合BERT模型的图像描述生成方法,首先输入图像(image)数据,提取图像的特征向量,对特征向量进行压缩、维度扩充,应用外部语料数据扩充词典,解决生成语句词汇不足问题,然后采用基于端到端并加入注意力机制的图像描述生成模型(image features)初步生成弱语义描述语句A,并结合BERT模型对生成的语句A进行语义调整,增强语义含义,最后得到完整的图像描述语句。
具体包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,同时将维度扩充为合适的大小,以满足基于端到端结合注意力机制的图像描述生成模型的输入;
③词典扩充:应用外部语料对图像描述生成模型所用的词典进行扩充,增加词典种词语的数量与领域范围;
④生成式图像描述模型:将压缩、维度扩充后的图像特征向量输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义的图像描述语句A;
⑤结合BERT模型进行语义调整:对弱语义的图像描述语句A,通过BERT模型的上下文预测功能,对A中的语义表达进行调整,使图像描述语句更加具有逻辑性与语义相关性;
⑥图像描述语句:将步骤⑤中语义调整后的图像描述语句作为最终的图像描述生成语句。
进一步地,所述步骤①中,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维。
进一步地,所述步骤②中,特征向量压缩将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量。
进一步地,所述步骤③中,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充。
进一步地,所述步骤④中,生成式图像描述模型采用基于Seq2Seq+Attention机制的方法生成图像描述语句。
进一步地,所述生成式图像描述模型由编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重。
进一步地,所述步骤⑤中,结合BERT模型对生成的弱语义语句进行语义调整,通过上下文关联,替换不合逻辑词语,增强语句的语义相关性。
进一步地,所述步骤②分为以下步骤:
(2.1)采用Embedding方式将原始提取的2048维图像特征向量压缩为128维;
(2.2)将压缩后的特征向量扩充为(None,1,128)的特征张量;
进一步地,所述步骤③分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
进一步地,所述步骤④分为以下步骤:
(4.1)采用步骤①及步骤②的方法对图像数据进行特征提取,作为Seq2Seq+Attention机制的编码器输出向量;
(4.2)解码器采用单向LSTM网络模型,在第一时刻输入步骤(4.1)中得到的特征向量,之后每个时刻输入的数据由前一时刻的输出组成(组成为图像描述语句序列yn),然后由LSTM输出弱语义的图像描述语句;
进一步地,所述步骤⑤分为以下步骤:
(5.1)对步骤(4.2)每个时刻生成词语,判断其词性;
(5.2)若词性为动词,则将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),最后生成完整的图像描述语句。
综上所述,本发明针对传统基于深度学习的图像描述生成模型所生成的描述语句语义信息不足问题,通过将BERT模型与基于深度学习的图像描述生成方法相结合,对弱语义图像描述语句进行语义调整,增强语义含义,使用图像特征提取模型提取出图像数据的特征向量,对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义,同时对于词汇不足的问题,采用应用外部语料数据扩充词典的方式,解决词汇不足问题,得到语义含义更丰富,描述更准确的图像描述语句。
Claims (10)
1.一种结合BERT模型的图像描述生成方法,其特征在于:首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。
2.如权利要求1所述的结合BERT模型的图像描述生成方法,其特征在于:包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,然后对维度进行扩充;
③词典扩充:通过外部语料数据对图像描述生成模型所用的词典进行扩充;
④生成式图像描述模型:将特征向量和词典输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义描述语句A;
⑤结合BERT模型进行语义调整:通过BERT模型的上下文预测功能,对弱语义描述语句A中的语义表达进行调整;
⑥图像描述语句:获取完整的图像描述生成语句。
3.如权利要求2所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤①中,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维。
4.如权利要求2所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤②中,将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量。
5.如权利要求2所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤③中,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充。
6.如权利要求2所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤④中,图像描述生成模型由Seq2Seq+Attention机制的编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重。
7.如权利要求2所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤③分为以下步骤:
(3.1)采集各领域的维基百科文本数据;
(3.2)对文本数据进行分词,去除停用词处理;
(3.3)将分完词的词语加入到词典中,去除重复词语,并对每个词语进行编号;
(3.4)完成词典扩充。
8.如权利要求4所述的结合BERT模型的图像描述生成方法,其特征在于:采用Embedding方式将原始提取的2048维图像特征向量压缩为128维。
9.如权利要求2所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤④分为以下步骤:
(4.1)将特征向量和词典输入Seq2Seq+Attention机制的编码器,作为输出向量;
(4.2)在第一时刻输入步骤(4.1)中的输出向量,之后每个时刻输入的数据由前一时刻的输出组成,再通过单向LSTM解码器,获取弱语义描述语句A。
10.如权利要求2所述的结合BERT模型的图像描述生成方法,其特征在于:所述步骤⑤分为以下步骤:
(5.1)通过BERT模型判断弱语义描述语句A中,词语的词性;
(5.2)若词性为动词,将当前词语所在的语句输入BERT模型中,预测接下来的词语,描述生成的词语采用BERT模型预测的词语;
(5.3)若词性为非动词,描述生成的词语采用解码器输出的词语;
(5.4)循环执行(5.1)~(5.3),获取完整的图像描述生成语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025320.1A CN110852331B (zh) | 2019-10-25 | 2019-10-25 | 一种结合bert模型的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025320.1A CN110852331B (zh) | 2019-10-25 | 2019-10-25 | 一种结合bert模型的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852331A true CN110852331A (zh) | 2020-02-28 |
CN110852331B CN110852331B (zh) | 2023-09-08 |
Family
ID=69598095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911025320.1A Active CN110852331B (zh) | 2019-10-25 | 2019-10-25 | 一种结合bert模型的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852331B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520802A (zh) * | 2024-01-08 | 2024-02-06 | 国网山东省电力公司东营供电公司 | 一种电力工程现场轻量级审计事件识别方法、系统及设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449660A (zh) * | 2009-04-01 | 2012-05-09 | I-切塔纳私人有限公司 | 用于数据检测的系统和方法 |
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
KR20160124948A (ko) * | 2015-04-20 | 2016-10-31 | 전남대학교산학협력단 | 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기 |
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110163220A (zh) * | 2019-04-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图片特征提取模型训练方法、装置和计算机设备 |
CN110188202A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 语义关系识别模型的训练方法、装置及终端 |
CN110188360A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110209784A (zh) * | 2019-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 消息交互方法、计算机设备及存储介质 |
CN110309280A (zh) * | 2019-05-27 | 2019-10-08 | 重庆小雨点小额贷款有限公司 | 一种语料扩容方法及相关设备 |
CN114492772A (zh) * | 2021-11-16 | 2022-05-13 | 阿里云计算有限公司 | 神经网络张量形状追踪方法和计算平台 |
-
2019
- 2019-10-25 CN CN201911025320.1A patent/CN110852331B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449660A (zh) * | 2009-04-01 | 2012-05-09 | I-切塔纳私人有限公司 | 用于数据检测的系统和方法 |
KR20160124948A (ko) * | 2015-04-20 | 2016-10-31 | 전남대학교산학협력단 | 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기 |
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110163220A (zh) * | 2019-04-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图片特征提取模型训练方法、装置和计算机设备 |
CN110209784A (zh) * | 2019-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 消息交互方法、计算机设备及存储介质 |
CN110309280A (zh) * | 2019-05-27 | 2019-10-08 | 重庆小雨点小额贷款有限公司 | 一种语料扩容方法及相关设备 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110188202A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 语义关系识别模型的训练方法、装置及终端 |
CN110188360A (zh) * | 2019-06-06 | 2019-08-30 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN114492772A (zh) * | 2021-11-16 | 2022-05-13 | 阿里云计算有限公司 | 神经网络张量形状追踪方法和计算平台 |
Non-Patent Citations (7)
Title |
---|
KELVIN XU: "Show,attend and tell: Neural image caption generation with visual attention", 《PROCEEDINGS OF THE 32ND INTERNATIONAL CONFERENCE ON INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, pages 2048 - 2057 * |
XU KELVIN: "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention", INTERNATIONAL CONFERENCE ON MACHINE LEARNING, vol. 37, pages 2048 - 2057 * |
杨楠;南琳;张丁一;库涛;: "基于深度学习的图像描述研究", 红外与激光工程, no. 02, pages 18 - 25 * |
楼佳珍: "基于深度学习的图像描述生成", 《中国优秀硕士学位论文全文数据库》, pages 23 - 24 * |
王悦林: "基于BERT的对AI理解语言方式的研究", 《科技视界》, pages 89 * |
黄友文;游亚东;赵朋;: "融合卷积注意力机制的图像描述生成模型", 计算机应用, no. 01, pages 23 - 27 * |
黄天: "基于深度学习的图像描述算法研究", 《中国优秀硕士论文全文数据库》, pages 138 - 1168 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520802A (zh) * | 2024-01-08 | 2024-02-06 | 国网山东省电力公司东营供电公司 | 一种电力工程现场轻量级审计事件识别方法、系统及设备 |
CN117520802B (zh) * | 2024-01-08 | 2024-05-24 | 国网山东省电力公司东营供电公司 | 一种电力工程现场轻量级审计事件识别方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110852331B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11194972B1 (en) | Semantic sentiment analysis method fusing in-depth features and time sequence models | |
CN109885673A (zh) | 一种基于预训练语言模型的自动文本摘要方法 | |
CN109710929A (zh) | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 | |
CN110119444B (zh) | 一种抽取式与生成式相结合的公文摘要生成模型 | |
CN111382580A (zh) | 一种面向神经机器翻译的编码器-解码器框架预训练方法 | |
WO2021179910A1 (zh) | 文本语音的前端转换方法、装置、设备和存储介质 | |
CN103902525B (zh) | 维吾尔语词性标注方法 | |
CN110428820A (zh) | 一种中英文混合语音识别方法及装置 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN113609285A (zh) | 一种基于依赖门控融合机制的多模态文本摘要系统 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN114880461A (zh) | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 | |
CN113344036A (zh) | 一种基于动态词嵌入的多模态Transformer的图像描述方法 | |
CN114708474A (zh) | 一种融合局部和全局特征的图像语义理解算法 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN115033753A (zh) | 训练语料集构建方法、文本处理方法及装置 | |
CN114757184A (zh) | 实现航空领域知识问答的方法和系统 | |
CN112528642B (zh) | 一种隐式篇章关系自动识别方法及系统 | |
CN110852331B (zh) | 一种结合bert模型的图像描述生成方法 | |
CN112395891A (zh) | 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
CN112287640B (zh) | 一种基于中文字符结构的序列标注方法 | |
CN112528680B (zh) | 语料扩充方法及系统 | |
CN112015891A (zh) | 基于深度神经网络的网络问政平台留言分类的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |