CN112528883A - 一种基于反思网络的教学场景视频描述生成方法 - Google Patents

一种基于反思网络的教学场景视频描述生成方法 Download PDF

Info

Publication number
CN112528883A
CN112528883A CN202011483140.0A CN202011483140A CN112528883A CN 112528883 A CN112528883 A CN 112528883A CN 202011483140 A CN202011483140 A CN 202011483140A CN 112528883 A CN112528883 A CN 112528883A
Authority
CN
China
Prior art keywords
stage
video
network
backstepping
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011483140.0A
Other languages
English (en)
Inventor
于长斌
段晨瑞
朱铭健
孙晓彤
靳伟
于凤敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd
Hangzhou Yishun Technology Co ltd
Original Assignee
Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd
Hangzhou Yishun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd, Hangzhou Yishun Technology Co ltd filed Critical Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd
Priority to CN202011483140.0A priority Critical patent/CN112528883A/zh
Publication of CN112528883A publication Critical patent/CN112528883A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于反思网络的教学场景视频描述生成方法,包括如下步骤:步骤1)视频图像预处理阶段;步骤2)图像特征抽取阶段;步骤3)数据集标注预处理阶段;步骤4)图像特征编码阶段;步骤5)文本解码阶段。本发明具有的有益效果是:是能够很好地针对常见教学视频生成高质量、精细化的描述性句子。提出将反思网络应用于教学场景的视频描述任务,使得网络通过一个两阶段解码器的反思过程,就可在序列解码过程中同时检查前后的内容,从而可以利用全局信息生成描述。

Description

一种基于反思网络的教学场景视频描述生成方法
技术领域
本发明涉及计算机视觉与人工智能技术领域,尤其涉及一种基于反思网络的教学场景视频描述生成方法。
背景技术
近年来,教学问题获得大量学校师生及家长的关注,三方共同致力于探索如何有效提高教育教学各个环节的实施步骤,从而更有助于学生个人成长的问题.众多高校研究者提出,要合理利用现代化教学手段,通过多媒体和网络促进师生交流,提高师生间的互动,引导师生之间启发式、互动式的课堂教学氛围.而如何监管师生上课过程,更好地把师生的互动过程反馈给教师,使其能够及时掌握学情,改订后续教学任务,更大程度地提高教育教学成果,也成为了众多高校教师期待解决的问题之一.
随着网络监管的日益完善,很自然的想到,可以通过观看师生上课视频来达到实时了解课堂互动效果,提高课堂效率的目的.但是,这样的监管太过耗费人力物力,并且如若直接把教学视频上传网络供家校双方查看,会耗费大量的数据传输和存储空间,并且也会导致一定的隐私安全问题.为解决这些问题,我们可以将拍摄的视频输入到视频描述模型中,生成以自然语言描述的师生互动的教学情况,以此来代替前期的数据传输和后期的纯人力的查看工作.而视频描述任务能够捕捉到视频中的语义信息,并在视频理解的结果中引入更多的细节和推理,可以更直观地记录课堂师生互动行为,分析评级师生互动质量,也符合人们对于视频理解辅助指导教育教学领域进一步发展的设想和期望。
视频描述生成技术在现实生活中有极大的应用价值。例如,在体育解说领域,更细粒度地描述个体运动员动作和团队之间互动协作场景.在辅助残障人士方面,视频描述生成技术结合文本转语音技术,可帮助盲人理解电影内容。但是,在教育教学领域,视频描述生成的应用场景目前还未有相关工作进行探索开发。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于反思网络技术的教学场景视频描述生成方法。
本发明的技术方案如下:
一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:利用已有的视频抽帧技术对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;
步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;
步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况.根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;
步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;
步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句.两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤1)中一个视频等间隔抽取的帧数为10帧。每一帧经过尺寸变化后,转变为通道数为3,高、宽均为224像素的图片;再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;每次抽一个视频的图像帧进行上述处理后保存到电脑内存中,然后执行步骤2);当下一个视频到来时,再次执行步骤1)和步骤2)。
所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络(CNN)模型可采用AlexNet,VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为(视频个数,每个视频抽取的帧数,每个视频的特征),然后将生成的特征向量输入到步骤4)中作为编码器的输入部分。
所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤3)中将视频数据集划分为训练集,验证集和测试集,其个数比例为4:1:1;使用NLTK工具将标注的文本进行单词划分,然后略去出现次数小于3的单词,并将每一个单词标好序,加入词汇表中;将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;如果句子长度超过10词,那么截取前10词;如果长度少于10词,那么就用<pad>补充;在训练阶段,为识别处理不同长度的句子,在句子开头加入<BOS>,句子最后加入<EOS>符号作为结束标志.在测试阶段,在解码器解码的第一个时间步时,输入<BOS>作为起始信号,不断生成下一个单词,直至遇到<EOS>结束标志。
所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤4)中采用门控循环单元网络(GRU)对步骤2)中已抽取的视觉特征进行编码;在每个时间步输入视觉特征并生成表达;门控循环单元网络的隐状态表达长度为1024;在训练阶段初始学习率为3e-4,采用Adam优化器进行训练。
所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤5)中采用门控循环单元网络(GRU)对步骤4)中已编码的视觉特征进行文本解码;此解码器分为两个阶段,其中第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程对第一阶段生成的原始语句进行打磨和润色。由于第二阶段反思解码器具有第一阶段解码器生成的语句这一全局信息,因此它能通过从第一阶段的原始语句中观察未来的单词而产生描述更加精细化的序列。
本发明与现有技术相比,具有的有益效果是能够很好地针对常见教学视频生成高质量、精细化的描述性句子;提出将反思网络应用于教学场景的视频描述任务,使得网络通过一个两阶段解码器的反思过程,就可在序列解码过程中同时检查前后的内容,从而可以利用全局信息生成描述。
附图说明
图1为本发明专利的总体流程示意图;
图2为本发明专利的特征抽取视频图像预处理及特征抽取流程示意图;
图3为本发明专利的模型框架示意图;
图4为本发明专利的效果图。
具体实施方式
以下结合附图进一步说明本发明的具体实施方法。
参见图1,本发明的总体步骤如下:
采用我们建立的教学场景下的视频描述生成数据集进行训练和测试。训练阶段,将训练集中的视频及对应人工标注的句子标签送入模型进行训练。测试阶段,只将视频输入模型,然后模型将生成描述视频的句子。训练阶段和测试阶段对于下述步骤1)至步骤4)都是一样的。
1)视频帧抽取:对数据集中每一个视频,首先将所有图像帧都抽取出来,然后等间隔选择10帧进入下一步。
2)图像特征抽取及保存:采用预训练好的卷积神经网络模型抽取图像特征并保存到硬盘。
3)文本标注预处理:使用NLTK自然语言处理工具包将人工标注的句子进行单词的划分。然后略去出现次数小于3的词,并用剩余的词构建词典。构建词典的方法是将剩余的词按照从0到词数减一进行标号。
4)图像特征编码:门控循环单元网络(GRU)常常用于编码序列。对于一个GRU单元(CELL),输入为上一个隐状态(hidden state),上一个单元格状态(cell state)和当前帧特征,输出为当前隐状态(hidden state),当前单元格状态(cell state)和当前帧特征;由于之前步骤将一个视频抽取了10帧,并对这10帧抽取保留了特征,此处将这些帧按照时间步输入GRU单元进行计算并保存生成的每一个隐状态。
5)训练阶段:模型的训练是按批(batch)输入的,批大小为32;对训练中一个批中所有的视频,损失函数是用交叉熵损失函数对生成的句子与标注的句子差异进行计算。
6)测试阶段:对所有视频,采用第二阶段解码器生成的文本作为最终生成的语句描述。
参见图2,进行特征抽取视频图像预处理及特征抽取。
首先对图像进行尺寸变换,将其变为高和宽分别为224的图像。然后一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换。采用在Imagenet数据集上训练好的卷积神经网络如ResNet,VGG,Google Inception Net抽取每一个图像帧的特征并保存。
参见图3,反思网络包含三个组件:编码器和两个解码器构成。视频特征首先由编码器处理,将输入的视频特征编码为隐状态(hidden state),再输入到第一阶段解码器中生成原始语句.在第一阶段解码器生成句子之后,句子和视频特征都送入第二阶段解码器以生成利用全局信息、描述更加精细化的句子。两种解码器都采用门控循环单元网络(GRU)进行解码。GRU的输入为前一个隐状态和当前帧特征,输出为当前隐状态。每一个隐状态都可通过线性变换方式,给出词汇表中每个词的概率。选择词汇表中概率最大的词作为当前时间步所预测的词。
参见图3,为本发明专利的模型框架示意图,图中的草案解码器和反思解码器分别对应文中提到的第一阶段解码器、第二阶段解码器。
图4为本发明在我们新建的教学场景视频描述生成数据集上的实际效果,其中图4中每个视频对应的第一条语句为人工标注的句子,第二条语句为我们的反思模型生成的句子。
相比于之前的视频描述生成方法,本方法提出反思网络,并有以下三点创新:1)在解码阶段提出了两阶段解码器,第一阶段解码器生成一个原始序列,然后再使用一个第二阶段解码器来润色这个原始序列,生成最终结果。2)首次将视频描述任务应用到教育教学领域,观测课堂教学的活跃度和互动度,引导师生之间启发式、互动式的课堂教学氛围,从而更大程度地提高教育教学成果.3)我们创建了一个用于教学场景视频描述的数据集,每个片段手工标注一个句子,用来描述师生课堂的互动情况。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的包含范围之内。

Claims (6)

1.一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;
步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;
步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况;根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;
步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;
步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句;两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
2.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤1)中一个视频等间隔抽取的帧数为10帧,每一帧经过尺寸变化后,转变为通道数为3,高、宽均为224像素的图片;再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;每次抽一个视频的图像帧进行上述处理后保存到电脑内存中,然后执行步骤2);当下一个视频到来时,再次执行步骤1)和步骤2)。
3.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络CNN模型可采用AlexNet,VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为(视频个数,每个视频抽取的帧数,每个视频的特征),然后将生成的特征向量输入到步骤4)中作为编码器的输入部分。
4.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤3)中将视频数据集划分为训练集,验证集和测试集,其个数比例为4:1:1;使用NLTK工具将标注的文本进行单词划分,然后略去出现次数小于3的单词,并将每一个单词标好序,加入词汇表中;将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;如果句子长度超过10词,那么截取前10词;如果长度少于10词,那么就用<pad>补充;在训练阶段,为识别处理不同长度的句子,在句子开头加入<BOS>,句子最后加入<EOS>符号作为结束标志;在测试阶段,在解码器解码的第一个时间步时,输入<BOS>作为起始信号,不断生成下一个单词,直至遇到<EOS>结束标志。
5.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤4)中采用门控循环单元网络GRU对步骤2)中已抽取的视觉特征进行编码;在每个时间步输入视觉特征并生成表达;门控循环单元网络的隐状态表达长度为1024;在训练阶段初始学习率为3e-4,采用Adam优化器进行训练。
6.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤5)中采用门控循环单元网络GRU对步骤4)中已编码的视觉特征进行文本解码;此解码器分为两个阶段,其中第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程对第一阶段生成的原始语句进行打磨和润色;由于第二阶段反思解码器具有第一阶段解码器生成的语句这一全局信息,因此它能通过从第一阶段的原始语句中观察未来的单词而产生描述更加精细化的序列。
CN202011483140.0A 2020-12-15 2020-12-15 一种基于反思网络的教学场景视频描述生成方法 Withdrawn CN112528883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011483140.0A CN112528883A (zh) 2020-12-15 2020-12-15 一种基于反思网络的教学场景视频描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011483140.0A CN112528883A (zh) 2020-12-15 2020-12-15 一种基于反思网络的教学场景视频描述生成方法

Publications (1)

Publication Number Publication Date
CN112528883A true CN112528883A (zh) 2021-03-19

Family

ID=75000504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011483140.0A Withdrawn CN112528883A (zh) 2020-12-15 2020-12-15 一种基于反思网络的教学场景视频描述生成方法

Country Status (1)

Country Link
CN (1) CN112528883A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113784199A (zh) * 2021-09-10 2021-12-10 中国科学院计算技术研究所 一种用于生成视频描述文本的系统和方法
CN115249062A (zh) * 2022-09-22 2022-10-28 武汉大学 一种文本生成视频的网络模型、方法及装置
CN117521602A (zh) * 2024-01-04 2024-02-06 深圳大数信科技术有限公司 基于rpa+nlp的多模态文字转换方法、系统及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109874029A (zh) * 2019-04-22 2019-06-11 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN110418163A (zh) * 2019-08-27 2019-11-05 北京百度网讯科技有限公司 视频帧采样方法、装置、电子设备及存储介质
US20200304822A1 (en) * 2018-03-05 2020-09-24 Tencent Technology (Shenzhen) Company Limited Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置
US20200304822A1 (en) * 2018-03-05 2020-09-24 Tencent Technology (Shenzhen) Company Limited Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN109874029A (zh) * 2019-04-22 2019-06-11 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN110418163A (zh) * 2019-08-27 2019-11-05 北京百度网讯科技有限公司 视频帧采样方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113784199A (zh) * 2021-09-10 2021-12-10 中国科学院计算技术研究所 一种用于生成视频描述文本的系统和方法
CN113784199B (zh) * 2021-09-10 2022-09-13 中国科学院计算技术研究所 一种用于生成视频描述文本的系统、方法、存储介质与电子设备
CN115249062A (zh) * 2022-09-22 2022-10-28 武汉大学 一种文本生成视频的网络模型、方法及装置
CN115249062B (zh) * 2022-09-22 2023-02-03 武汉大学 一种文本生成视频的网络模型、方法及装置
CN117521602A (zh) * 2024-01-04 2024-02-06 深圳大数信科技术有限公司 基于rpa+nlp的多模态文字转换方法、系统及介质
CN117521602B (zh) * 2024-01-04 2024-03-22 深圳大数信科技术有限公司 基于rpa+nlp的多模态文字转换方法、系统及介质

Similar Documents

Publication Publication Date Title
CN112528883A (zh) 一种基于反思网络的教学场景视频描述生成方法
CN110418210B (zh) 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN111178094B (zh) 一种基于预训练的稀缺资源神经机器翻译训练方法
CN107239801A (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN112417092B (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN108563622B (zh) 一种具有风格多样性的绝句生成方法及装置
CN110555213B (zh) 文本翻译模型的训练方法、文本翻译方法及装置
CN111783423A (zh) 解题模型的训练方法及装置、解题方法及装置
CN110750630A (zh) 一种生成式机器阅读理解方法、装置、设备及存储介质
CN107291701A (zh) 一种机器语言生成方法及装置
CN117121015A (zh) 利用冻结语言模型的多模态少发式学习
CN111259785A (zh) 基于时间偏移残差网络的唇语识别方法
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN111666385A (zh) 一种基于深度学习的客服问答系统及实现方法
CN113887251A (zh) 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN114218936A (zh) 一种媒体领域的优质评论自动生成算法
CN117291232A (zh) 一种基于扩散模型的图像生成方法与装置
CN112135200B (zh) 一种针对压缩视频的视频描述生成方法
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及系统
CN114139535A (zh) 一种关键词造句方法、装置、计算机设备及可读介质
CN115617959A (zh) 问题解答方法及装置
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
CN111883136A (zh) 一种基于人工智能的快速写作方法和装置
Wang et al. Autolv: Automatic lecture video generator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210319

WW01 Invention patent application withdrawn after publication