CN113628288A - 一种基于编-解码器结构的可控图像字幕生成优化方法 - Google Patents
一种基于编-解码器结构的可控图像字幕生成优化方法 Download PDFInfo
- Publication number
- CN113628288A CN113628288A CN202110761130.7A CN202110761130A CN113628288A CN 113628288 A CN113628288 A CN 113628288A CN 202110761130 A CN202110761130 A CN 202110761130A CN 113628288 A CN113628288 A CN 113628288A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- evaluation index
- caption
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005457 optimization Methods 0.000 title abstract description 4
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 238000011156 evaluation Methods 0.000 claims description 37
- 230000004913 activation Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 238000013519 translation Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 4
- 235000013599 spices Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000019987 cider Nutrition 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于编‑解码器结构的可控图像字幕生成优化方法,该方法包括:构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;采用排序网络对目标区域进行排序;构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。与现有技术相比,本发明字幕生成可控性高,生成的字幕的描述更具有多样性,能够应用到复杂的场景中。
Description
技术领域
本发明涉及一种图像字幕生成方法,尤其是涉及一种基于编-解码器结构的可控图像字幕生成优化方法。
背景技术
随着信息技术与人类生产生活的交汇融合,互联网在人类日常生活中得到快速普及,越来越多的数据在互联网终端产生,全球数据呈现爆炸式增长。图像和文本作为数据重要的表达方式,图像生动形象,能够给人留下形象深刻的印象,而文本概括性高,能够以简练的形式描绘并传递信息,这两者也分别代表了深度学习的两大领域,计算机视觉和自然语言处理。而图像字幕生成很好地建立了计算机视觉领域和自然语言处理领域的桥梁,使用自然语言对图像进行描述,实现图像的语义理解。
近几年,随着机器翻译以及大数据的兴起,已经出现了图像字幕生成的热潮,它的主流方法是基于编码器-解码器结构的深度学习,利用编码器提取图像特征,利用解码器来生成图像对应的描述文本。然而现有的绝大部分研究方法仍缺乏可控性和可解释性。在实际应用情景中,我们需要能够根据目标和上下文,用多种不同的方式来描述同一张图像。
因此,如何增加生成过程的可控性,根据需要生成相应的描述成为图像字幕的一个新的研究方向。而且该方向明显具有更大的应用潜力和实用价值。不仅可以实现更好的交互性、可解释性,同时也使得生成的描述更具有多样性,能够应用到复杂的场景中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于编-解码器结构的可控图像字幕生成优化方法。
本发明的目的可以通过以下技术方案来实现:
一种基于编-解码器结构的可控图像字幕生成优化方法,该方法包括:
构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
采用排序网络对目标区域进行排序;
构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
优选地,所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。
优选地,所述的第一网络包括Faster R-CNN网络。
优选地,所述的第二网络包括VC R-CNN网络。
优选地,所述的图像解码器采用改进激活函数的LSTM神经网络,改进的激活函数为m-Tanh激活函数,表示为:
其中,x为输入,H(x)为输出,m为常数
优选地,利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:
其中,xt为t时刻输入的目标区域的特征向量,ht-1为t-1时刻隐藏层的状态,Wc、分别表示网络的权重和偏差参数,ft、it分别表示t时刻的遗忘门向量和输入门向量,Ct-1、Ct分别表示t-1时刻、t时刻的细胞状态更新向量,分别表示t-1时刻、t时刻的细胞状态初始向量。
优选地,利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为:
其中,ht为t时刻隐藏层的状态,ot为t时刻输出门向量。
优选地,当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
优选地,多分枝决策输出算法具体为:
对各情况下输出的图像字幕进行评价获取评价指标向量;
基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
优选地,对图像字幕两两比对的具体方式为:
对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
与现有技术相比,本发明具有如下优点:
(1)本发明对图像编码器进行改进,将两种网络进行融合,分别提取图像一般性特征和图像视觉常识性特征,这两种特征具有互补的作用,可以很好地实现对图像信息的提取,由于图像字幕的生成主要依赖于提取的图像特征,因此采用改进后的图像编码器可以得到描述更为准确的图像字幕;
(2)本发明采用排序网络对目标区域进行排序,从而可以实现对图像区域描述顺序的控制,提高图像字幕的准确性;
(3)本发明对图像解码器进行改进,采用m-Tanh激活函数更新LSTM神经网络细胞状态以及隐藏层状态,此种方式使得图像解码器相比传统的采用LSTM神经网络的解码器,在训练时具有更快的收敛速度,且可以有效地缓解梯度消失问题,从而使得生成的图像字幕准确性更高且控制性能更好;
(4)本发明设计多分枝决策输出算法优选图像字幕,从而能根据不同场景获取最优的图像字幕,具有可控性。
附图说明
图1为本发明一种基于编-解码器结构的可控图像字幕生成优化方法的实施流程框图;
图2为本发明采用改进激活函数的LSTM神经网络的结构示意图;
图3为本发明多分枝决策输出算法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
如图1所示,本实施例提供一种基于编-解码器结构的可控图像字幕生成优化方法,该方法包括:
构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
采用排序网络对目标区域进行排序;
构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。其中,第一网络包括Faster R-CNN网络,第二网络包括VC R-CNN网络。两个网络分别提取了图像的2048维的一般性特征和1024维的常识性特征后,再将其进行拼接得到3072维的图像特征,并检测到一组目标区域R=[r0,r1,...,rN]。
排序网络采用现有的网络结构,将FVC R-CNN输出的目标特征表示,对每个区域类别的嵌入,归一化之后的目标框的位置和大小进行拼接,再通过全连接层进行处理映射得到一个3维的描述向量,当对所有的region进行处理之后,就得到了一个3*3的矩阵,接下来就可以通过Sinkhorn操作将其转化为一个“soft”排列矩阵P,具体就是执行L(在我们的实验中L=20)次连续的行归一化和列归一化。当经过L次处理之后,通过Hungarian算法将结果转换为排列矩阵,就得到了排好序的区域表示,并将其作为解码器的输入。
图像解码器采用改进激活函数的LSTM神经网络,具体结构如图2所示,改进的激活函数为m-Tanh激活函数,表示为:
其中,x为输入,H(x)为输出,m为常数
利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:
其中,xt为t时刻输入的目标区域的特征向量,ht-1为t-1时刻隐藏层的状态,Wc、分别表示网络的权重和偏差参数,ft、it分别表示t时刻的遗忘门向量和输入门向量,Ct-1、Ct分别表示t-1时刻、t时刻的细胞状态更新向量,分别表示t-1时刻、t时刻的细胞状态初始向量。
利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为:
其中,ht为t时刻隐藏层的状态,ot为t时刻输出门向量。
在编码器部分使用两层的MT-LSTM神经网络模型来生成可控的图像字幕y=[y0,y1,...,yN]。为了使生成的句子更好的与检测到的图像区域相对应,我们将一个句子分解成不同的名词块序列,每个名词块对应一个图像区域。此外,使用块移位门来预测块的结束,然后采用带有视觉哨兵的自适应注意机制来区分视觉词和文本词,块移位门模型与自适应注意力模型共同作用将生成的名词块与图像区域建立联系。其中,块移位门表示为:
当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
多分枝决策输出算法具体为:
对各情况下输出的图像字幕进行评价获取评价指标向量;
基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
对图像字幕两两比对的具体方式为:
对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
具体地,如图3所示,本实施例中评价指标包括Bleu_4,ROUGE,METEOR,Cider,SPICE,NW,各个评价指标Bleu_4,ROUGE,METEOR,Cider,SPICE,NW一起作为一个向量,即V=[Bleu_4,ROUGE,METEOR,Cider,SPICE,NW]。其中,Bleu_4表示译文和参考译文之间n组词的相似的一个占比;ROUGE基于字的对应表示参考译文和待测译文的共现概率,与Bleu_4类似;METEOR基于顺序表示参考译文和待测译文的共现统计;Cider表示得到的候选句子和参考句子的相似度;SPICE表示使用基于图的语义表示来编码字幕中的目标分布和关系;NW表示描述内容与区域序列的一致性。
然后,针对模型改进前后两种情况,我们可以得到向量V1和V2,分别代表了模型改进前后的评价指标结果向量,如果V1中的每个元素都小于V2,则选择第二种情况;如果V1中的每个元素都大于V2,则选择第一种情况。否则,我们令V1=[v11,v12,v13,v14,v15,v16],V2=[v21,v22,v23,v24,v25,v26],根据每个评价指标重要程度的不同分别设置不同的权重,最后分别计算V1和V2的最终得分,即:
如果sum1>=sum2,选择第一种情况,否则,选择第二种情况。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (10)
1.一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,该方法包括:
构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
采用排序网络对目标区域进行排序;
构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
2.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。
3.根据权利要求2所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第一网络包括Faster R-CNN网络。
4.根据权利要求2所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第二网络包括VC R-CNN网络。
8.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
9.根据权利要求8所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,多分枝决策输出算法具体为:
对各情况下输出的图像字幕进行评价获取评价指标向量;
基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
10.根据权利要求9所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,对图像字幕两两比对的具体方式为:
对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761130.7A CN113628288B (zh) | 2021-07-06 | 一种基于编-解码器结构的可控图像字幕生成优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761130.7A CN113628288B (zh) | 2021-07-06 | 一种基于编-解码器结构的可控图像字幕生成优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628288A true CN113628288A (zh) | 2021-11-09 |
CN113628288B CN113628288B (zh) | 2024-05-31 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612365A (zh) * | 2023-06-09 | 2023-08-18 | 匀熵智能科技(无锡)有限公司 | 基于目标检测和自然语言处理的图像字幕生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
US20180143966A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial Attention Model for Image Captioning |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN111753078A (zh) * | 2019-07-12 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像段落描述生成方法、装置、介质及电子设备 |
CN112560454A (zh) * | 2020-12-22 | 2021-03-26 | 广东工业大学 | 双语图像字幕生成方法、系统、储存介质及计算机设备 |
CN113052090A (zh) * | 2021-03-30 | 2021-06-29 | 京东数字科技控股股份有限公司 | 用于生成字幕器以及输出字幕的方法和装置 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180143966A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial Attention Model for Image Captioning |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN111753078A (zh) * | 2019-07-12 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像段落描述生成方法、装置、介质及电子设备 |
CN112560454A (zh) * | 2020-12-22 | 2021-03-26 | 广东工业大学 | 双语图像字幕生成方法、系统、储存介质及计算机设备 |
CN113052090A (zh) * | 2021-03-30 | 2021-06-29 | 京东数字科技控股股份有限公司 | 用于生成字幕器以及输出字幕的方法和装置 |
Non-Patent Citations (1)
Title |
---|
王振: "基于图深度学习的图像描述技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, 15 February 2021 (2021-02-15), pages 3 - 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612365A (zh) * | 2023-06-09 | 2023-08-18 | 匀熵智能科技(无锡)有限公司 | 基于目标检测和自然语言处理的图像字幕生成方法 |
CN116612365B (zh) * | 2023-06-09 | 2024-01-23 | 匀熵智能科技(无锡)有限公司 | 基于目标检测和自然语言处理的图像字幕生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
CN108009148B (zh) | 基于深度学习的文本情感分类表示方法 | |
CN109508377A (zh) | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 | |
CN106844442A (zh) | 基于fcn特征提取的多模态循环神经网络图像描述方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
Zheng et al. | An improved sign language translation model with explainable adaptations for processing long sign sentences | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN113190656B (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112784604A (zh) | 一种基于实体边界网络的实体链接方法 | |
CN110084297A (zh) | 一种面向小样本的影像语义对齐结构 | |
Zhang et al. | A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN115292463A (zh) | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN107562729B (zh) | 基于神经网络和主题强化的党建文本表示方法 | |
CN113987129A (zh) | 基于变分自动编码器的数字媒体保护文本隐写方法 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |