CN113792183B - 一种文本生成方法、装置及计算设备 - Google Patents

一种文本生成方法、装置及计算设备 Download PDF

Info

Publication number
CN113792183B
CN113792183B CN202111091840.XA CN202111091840A CN113792183B CN 113792183 B CN113792183 B CN 113792183B CN 202111091840 A CN202111091840 A CN 202111091840A CN 113792183 B CN113792183 B CN 113792183B
Authority
CN
China
Prior art keywords
video
feature vector
processed
text
competition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111091840.XA
Other languages
English (en)
Other versions
CN113792183A (zh
Inventor
吴志勇
裴兴
史佳慧
周晨
骆世顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Digital Media Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Digital Media Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Digital Media Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111091840.XA priority Critical patent/CN113792183B/zh
Publication of CN113792183A publication Critical patent/CN113792183A/zh
Application granted granted Critical
Publication of CN113792183B publication Critical patent/CN113792183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种文本生成方法、装置及计算设备。方法包括:对待处理视频的各视频帧图像进行特征处理,得到视频特征向量;基于视频特征向量,获取任一视频帧图像与待处理视频中的其他视频帧图像的关联关系,根据关联关系提取待处理视频对应的视频核心内容特征向量;获取与待处理视频关联的衍生数据、比赛统计数据,对衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到待处理视频对应的文本内容,提升了文本内容生成的准确性和可靠性,解决了生成成本高的问题。

Description

一种文本生成方法、装置及计算设备
技术领域
本发明涉及计算机技术领域,具体涉及一种文本生成方法、装置及计算设备。
背景技术
当前的比赛赛报新闻稿分体育编辑撰写和机器生成两种方法。体育新闻编辑撰写新闻稿的大致方式是赛前写出多个版本,然后结合比赛的赛况及事件来修改新闻稿,繁重的赛报撰写工作和重复的模板使用输出给体育新闻编辑工作带来了巨大的挑战。基于机器生成赛报新闻稿的方法为基于RNN-LSTM从文字直播中获取比赛的主要信息,进而生成赛报新闻稿。
现有技术中,体育新闻编辑直接撰写赛报的方式是最直接、可靠性较高的一种模式,但是该方法成本高,且工作量大;基于RNN-LSTM技术从直播中提取比赛主要信息,进而生成赛报新闻稿的方法,从某种程度上替代了手动撰写球类赛报新闻,但RNN-LSTM方法在处理较长的视频帧序列信息时存在很大的局限性,很容易出现信息丢失现象。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的文本生成方法、装置及计算设备。
根据本发明实施例的一个方面,提供了一种文本生成方法,包括:
对待处理视频的各视频帧图像进行特征处理,得到视频特征向量;
基于视频特征向量,获取任一视频帧图像与待处理视频中的其他视频帧图像的关联关系,根据关联关系提取待处理视频对应的视频核心内容特征向量;
获取与待处理视频关联的衍生数据、比赛统计数据,对衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到待处理视频对应的文本内容。
根据本发明实施例的另一方面,提供了一种文本生成装置,包括:
特征处理模块,适于对待处理视频的各视频帧图像进行特征处理,得到视频特征向量;
提取模块,适于基于视频特征向量,获取任一视频帧图像与待处理视频中的其他视频帧图像的关联关系,根据关联关系提取待处理视频对应的视频核心内容特征向量;
向量化处理模块,适于获取与待处理视频关联的衍生数据、比赛统计数据,对衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
解码模块,适于对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到待处理视频对应的文本内容。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述文本生成方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述文本生成方法对应的操作。
本发明提供的方案,能够基于竞技比赛的视频信息,结合比赛项目发展历史信息、比赛球队信息、球员信息等衍生数据及比赛统计数据,及时而高效的生成比赛新闻稿,提升了赛报生成的准确性和可靠性,保证了比赛新闻稿的时效性,解决球类新闻编辑撰写赛报新闻成本高的问题及基于RNN-LSTM方法生成结果信息丢失的问题,为球类赛报新闻及时高效的发布提供可靠的支撑。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1A示出了本发明实施例提供的文本生成方法流程图;
图1B为多头多层自注意力文本生成模型训练的示意图;
图2示出了本发明实施例提供的文本生成装置的结构示意图;
图3示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1A示出了本发明实施例提供的文本生成方法的流程图。如图1A所示,该方法包括以下步骤:
步骤S101,对待处理视频的各视频帧图像进行特征处理,得到视频特征向量。
本实施例中的待处理视频可以是竞技场上体育比赛的比赛视频或是比赛结束后所录制的完整比赛的比赛视频,例如,体育比赛是冰球比赛、篮球比赛、乒乓球比赛等,那么待处理视频可以是冰球比赛、篮球比赛、乒乓球比赛等比赛结束后的视频。
本实施例的目的是针对已经完结的比赛生成文本内容,例如,生成比赛视频对应的比赛新闻稿、视频内容简介等。因此,这里是对待处理视频整体进行处理,具体地,可以基于3D卷积神经网络来获取待处理视频的各视频帧图像的视频特征,例如,将待处理视频的各视频帧图像输入至3D卷积神经网络中,3D卷积神经网络来提取各视频帧图像对应的视频帧特征,所有视频帧特征组合得到待处理视频的视频特征。
步骤S102,基于视频特征向量,获取任一视频帧图像与待处理视频中的其他视频帧图像的关联关系,根据关联关系提取待处理视频对应的视频核心内容特征向量。
为了保证所生成的比赛视频对应的文本内容的准确率,在得到视频特征向量之后,获取某个时刻视频帧图像和全量视频间的关联关系,例如,可以经多头多层自注意力机制来获取某个时刻视频帧图像和全量视频间的关联关系,当然还可以通过其他机制来获取,这里不做具体限定。需要强调的是,这里是针对待处理视频中的每一视频帧图像,都执行获取该视频帧图像与其他视频帧图像的关联关系的处理流程,以保证能够准确地提取比赛视频的核心内容。在确定任一视频帧图像与待处理视频中的其他视频帧图像的关联关系之后,根据关联关系提取待处理视频对应的视频核心内容特征向量。
其中,视频核心内容是整个比赛视频的精彩内容、关键内容,基于比赛视频的核心内容所生成的文本内容能够准确地反映比赛情况,保证了文本内容的可靠性。视频核心内容特征向量是视频核心内容对应的特征向量。
步骤S103,获取与待处理视频关联的衍生数据、比赛统计数据,对衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量。
衍生数据是与视频相关的数据,例如,衍生数据包括但不限于以下信息:运动员信息、比赛项目发展历史信息、赛前新闻信息、参赛球队历史信息、交战历史信息。衍生数据涉及了比赛的一些背景知识、实时场景变换等,衍生数据作为视频的先验知识,起到补充说明作用。
本步骤获取与视频关联的衍生数据,在得到衍生数据后,对衍生数据进行向量化处理,得到衍生数据特征向量,其中,衍生数据的数据量可能是多个,因此,可以单独对每个衍生数据进行向量化处理,得到多个衍生数据特征向量,然后,再将多个衍生数据特征向量进行融合处理。
比赛统计数据是反映球员在竞技场上表现情况的数据,例如,可以是比赛的比分数据、球员得分数据、犯规数据、效率值等。比赛统计数据起到补充说明作用,用于提升文本内容的的准确性和可靠性。
需要说明的是,本实施例并不限定步骤S101-步骤S102与步骤S103的执行顺序。
步骤S104,对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到待处理视频对应的文本内容。
在确定了视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量之后,对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,这里的解码处理是指进行翻译学习、排列等,最终形成完整的文本内容,例如,可以通过多头多层注意力机制对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理。在完成解码处理后,得到待处理视频对应的文本内容。其中,文本内容可以是待处理视频对应的比赛新闻稿、视频内容简介等。
以文本内容是比赛新闻稿为例,本实施例是通过对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行学习,生成对应的比赛赛报的新闻内容和新闻标题,进而实现比赛新闻稿的生成。
优先地,可以先对编码特征向量、衍生数据特征向量进行向量相加,得到处理后的视频核心内容特征向量,然后,利用预先训练的文本生成模型的解码网络对处理后的视频核心内容特征向量进行解码处理,得到所述待处理视频对应的文本内容。
在本发明一种可选实施方式中,文本生成模型训练过程包括:
获取样本视频及该样本视频对应的标注样本文本内容,对样本视频进行特征处理,得到样本视频特征向量;
获取与样本视频关联的衍生数据、比赛统计数据,对衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
根据样本视频特征向量对文本生成模型的编码网络进行训练,得到任一视频帧图像与样本视频中的其他视频帧图像的关联关系,根据关联关系从视频特征向量中提取视频核心内容特征向量;
基于视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量对文本生成模型的解码网络进行训练,得到样本视频对应的文本内容结果;
根据样本视频对应的文本内容结果与标注样本文本内容之间的文本损失,得到文本生成模型损失函数,根据文本生成模型损失函数更新编码网络权重参数及解码网络权重参数;
迭代执行上述步骤,直至满足预定收敛条件。
需要指出的是,文本生成模型具体可以为多头多层自注意力文本生成模型,上一层多头注意力的输出和输入合并作为下一层多头注意力的输入。
为了便于理解,这里以视频为冰球比赛视频,生成冰球比赛视频的比赛新闻稿为例,说明文本生成模型训练过程,图1B为多头多层自注意力文本生成模型训练的示意图,图1B中所列举的多头注意力层数仅是示意性说明,不具有任何限定作用:
步骤1:通过数据收集获取冰球比赛视频集,作为样本视频,收集各球队信息数据集、比赛球员信息数据集、赛前新闻数据集、比赛统计数据集和冰球比赛视频对应的新闻稿,对各球队信息数据集、比赛球员信息数据集、赛前新闻数据集、比赛统计数据集和冰球比赛视频对应的比赛新闻稿等数据进行清洗并预处理上述数据,这里主要是剔除一些无效数据。
步骤2:对球队信息、球员信息、赛前新闻等衍生数据、比赛新闻稿和比赛统计数据进行向量化处理。记球队信息、球员信息、赛前新闻等衍生数据经向量化处理后所得到的衍生数据特征向量为p,记比赛统计数据经向量化处理后的比赛统计数据特征向量g,记比赛新闻稿经向量化处理后的比赛新文稿特征向量为n,比赛新文稿作为标注样本比赛新闻稿。
步骤3:对冰球比赛视频进行编码,通过多层注意力机制模型获取当前视频帧图像在全局视频图像(完整的冰球比赛视频)中的权重,进而建立当前视频帧图像和其它帧视频图像的关联性,同时获取当前帧视频的关键特征,即区分出当前视频帧图像不同位置的重要度分布。使用3DCNN算法获取整个冰球比赛视频的序列视频特征信息,记为t,t是时间序列的视频特征向量,具体表示如公式(1)所示,其中,ti表示不同播放时段的单帧图像特征向量,T为冰球比赛视频的总时长。
t=[t1,t2,…,tT]T (1)
将视频特征向量输入多头多层self-attention自注意力层网络。基于multi-headAttention多头注意力的方法,参数Q、K和V有:
Qi=t×Wi Q (2)
Ki=t×Wi K (3)
Vi=t×Wi V (4)
其中,Wi Q∈Rd×d,Wi K∈Rd×d,Wi V∈Rd×d是attention注意力层query、key和value的权重向量,i为self-attention自注意力的头数。取多层multi-head attention的输出为z,z=concat(z1,z2,…,zi,w),有:
其中,w为不同头self-attention间的点乘值,w=[w1,w2,…,wi]T,用于挖掘视频中各位置间的相关性信息,有:
其中,为第i头的尺度标度,用于防止其结果过大,具体取值基于特定情况而定。在编码部分,上一层多头注意力multi-head attention多头注意力的输出和输入相加合并后输出一归一化层,归一化后的数据经一前馈神经网络学习后作为下一层多头注意力multi-head attention多头注意力的输入,以此类推,进而实现冰球比赛视频的核心内容的挖掘,视频核心内容特征向量是一个高阶语义向量,记为m。在样本视频编码完成执行下一步,否则循环执行步骤3。
步骤4:视频核心内容特征向量加入衍生数据、比赛统计数据。将球队信息、球员信息、赛前新闻等衍生数据经向量化处理后的衍生数据特征向量p和比赛统计数据经向量化处理embedding处理后的比赛统计数据特征向量g融入视频核心内容特征向量中,记加入衍生数据特征向量和比赛统计数据特征向量后的视频核心内容特征向量为E
E=concat((m+p)+g) (7)
步骤5:比赛新闻稿生成训练。冰球比赛的新闻稿经向量化embedding处理后,比赛新闻稿特征向量为n=[n1,n2,…,nl]T,其中l表示比赛新闻稿的信息量,比赛新闻稿生成部分,以经向量化融合处理处理后的视频核心内容特征向量为输入,逐条预测新闻稿的信息,未预测的信息经mask处理以掩饰后验数据对整体解码结果的影响。取已训练预测的信息为其中τ<<l。待预测的比赛新闻稿为/>比赛新闻稿生成训练时,还将已训练得到的比赛新闻稿作为新闻稿生成训练的输入/>其中τ<<l。/>经一多头注意力multi-head attention的处理,参数Q*、K*和V*有:
其中,是attention层query、key和value的权重向量,i为self-attention的头数。取多层multi-head attention的输出为Ψ,ψ=concat(ψ12,…,ψτ,θ),有:
其中,θ为不同头self-attention间的点乘值,θ=[θ12,…,θi]T,用于挖掘视频中各位置间的相关性信息,有:
其中,为第i头的尺度标度,用于防止其结果过大,具体取值基于特定情况而定。记β=Ψ+E,E为步骤4的输出,Ψ为多层multi-head attention的输出,β经归一化后输入一前馈神经网络,前馈神经网络的输出作为下一个multi-head attention的输入,记新闻稿生成部分的输出向量为/>在图1B中,编码网络输出的视频核心内容特征向量通过两路输入至解码网络,第一路输入是为了获取比赛新闻稿和视频核心内容的关系,第二路输入是解决处理过程视频核心内容特征丢失的问题。
解码网络训练时,为了提升训练的准确性,还需要考虑比赛新闻稿的位置编码,比赛新闻稿的位置编码用于说明解比赛新闻稿中相应文本所在位置信息,通过该位置编码能够提升训练预测的准确性。
步骤6:比赛新闻稿训练预测。基于步骤5的解码信息经一线性函数和softmax函数后,预测下一个信息/>
其中f为线性函数。循环执行上述步骤直至满足预定收敛条件,最终得到多头多层注意力文本生成模型。
本发明提供的方案,能够基于竞技比赛的视频信息,结合比赛项目发展历史信息、比赛球队信息、球员信息等衍生数据及比赛统计数据,及时而高效的生成比赛新闻稿,提升了赛报生成的准确性和可靠性,保证了比赛新闻稿的时效性,解决球类新闻编辑撰写赛报新闻成本高的问题及基于RNN-LSTM方法生成结果信息丢失的问题,为球类赛报新闻及时高效的发布提供可靠的支撑。
图2示出了本发明实施例提供的文本生成装置的结构示意图。如图2所示,该装置包括:特征处理模块201、提取模块202、向量化处理模块203、解码模块204。
特征处理模块201,适于对待处理视频的各视频帧图像进行特征处理,得到视频特征向量;
提取模块202,适于基于视频特征向量,获取任一视频帧图像与待处理视频中的其他视频帧图像的关联关系,根据关联关系提取待处理视频对应的视频核心内容特征向量;
向量化处理模块203,适于获取与待处理视频关联的衍生数据、比赛统计数据,对衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
解码模块204,适于对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到待处理视频对应的文本内容。
可选地,解码模块进一步适于:对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行向量相加,得到处理后的视频核心内容特征向量;
利用预先训练的文本生成模型的解码网络对处理后的视频核心内容特征向量进行解码处理,得到待处理视频对应的文本内容。
可选地,提取模块进一步适于:将视频特征向量输入至预先训练的文本生成模型的编码网络,获取任一视频帧图像与待处理视频中的其他视频帧图像的关联关系,根据关联关系从视频特征向量中提取视频核心内容特征向量。
可选地,装置还包括:文本生成模型训练模块,适于获取样本视频及该样本视频对应的标注样本文本内容,对样本视频进行特征处理,得到样本视频特征向量;
获取与样本视频关联的衍生数据、比赛统计数据,对衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
根据样本视频特征向量对文本生成模型的编码网络进行训练,得到任一视频帧图像与样本视频中的其他视频帧图像的关联关系,根据关联关系从视频特征向量中提取视频核心内容特征向量;
基于视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量对文本生成模型的解码网络进行训练,得到样本视频对应的文本内容结果;
根据样本视频对应的文本内容结果与标注样本文本内容之间的文本损失,得到文本生成模型损失函数,根据文本生成模型损失函数更新编码网络权重参数及解码网络权重参数;
迭代执行上述步骤,直至满足预定收敛条件。
可选地,文本生成模型为多头多层自注意力文本生成模型;上一层多头注意力的输出和输入合并作为下一层多头注意力的输入。
可选地,衍生数据包括:运动员信息、教练员信息、裁判员信息、比赛项目历史信息、比赛场地信息、赛前新闻信息、参赛球队历史信息。
本发明提供的方案,能够基于竞技比赛的视频信息,结合比赛项目发展历史信息、比赛球队信息、球员信息等衍生数据及比赛统计数据,及时而高效的生成比赛新闻稿,提升了赛报生成的准确性和可靠性,保证了比赛新闻稿的时效性,解决球类新闻编辑撰写赛报新闻成本高的问题及基于RNN-LSTM方法生成结果信息丢失的问题,为球类赛报新闻及时高效的发布提供可靠的支撑。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本生成方法。
图3示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的文本生成方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的文本生成方法。程序中各步骤的具体实现可以参见上述文本生成实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种文本生成方法,包括:
对待处理视频的各视频帧图像进行特征处理,得到视频特征向量;
基于所述视频特征向量,获取任一视频帧图像与所述待处理视频中的其他视频帧图像的关联关系,根据所述关联关系提取所述待处理视频对应的视频核心内容特征向量;
获取与所述待处理视频关联的衍生数据、比赛统计数据,对所述衍生数据、所述比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到所述待处理视频对应的文本内容。
2.根据权利要求1所述的方法,其中,所述对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到所述待处理视频对应的文本内容进一步包括:
对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行向量相加,得到处理后的视频核心内容特征向量;
利用预先训练的文本生成模型的解码网络对处理后的视频核心内容特征向量进行解码处理,得到所述待处理视频对应的文本内容。
3.根据权利要求2所述的方法,其中,基于所述视频特征向量,获取任一视频帧图像与所述待处理视频中的其他视频帧图像的关联关系,根据所述关联关系从所述视频特征向量中提取视频核心内容特征向量进一步包括:
将所述视频特征向量输入至预先训练的文本生成模型的编码网络,获取任一视频帧图像与所述待处理视频中的其他视频帧图像的关联关系,根据所述关联关系从所述视频特征向量中提取视频核心内容特征向量。
4.根据权利要求2所述的方法,其中,文本生成模型训练过程包括:
获取样本视频及该样本视频对应的标注样本文本内容,对样本视频进行特征处理,得到样本视频特征向量;
获取与所述样本视频关联的衍生数据、比赛统计数据,对所述衍生数据、比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
根据样本视频特征向量对文本生成模型的编码网络进行训练,得到任一视频帧图像与所述样本视频中的其他视频帧图像的关联关系,根据所述关联关系从所述视频特征向量中提取视频核心内容特征向量;
基于视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量对文本生成模型的解码网络进行训练,得到样本视频对应的文本内容结果;
根据所述样本视频对应的文本内容结果与标注样本文本内容之间的文本损失,得到文本生成模型损失函数,根据所述文本生成模型损失函数更新所述编码网络权重参数及解码网络权重参数;
迭代执行上述步骤,直至满足预定收敛条件。
5.根据权利要求4所述的方法,其中,所述文本生成模型为多头多层自注意力文本生成模型;上一层多头注意力的输出和输入合并作为下一层多头注意力的输入。
6.根据权利要求1或2所述的方法,其中,所述衍生数据包括:运动员信息、教练员信息、裁判员信息、比赛项目历史信息、比赛场地信息、赛前新闻信息、参赛球队历史信息。
7.一种文本生成装置,包括:
特征处理模块,适于对待处理视频的各视频帧图像进行特征处理,得到视频特征向量;
提取模块,适于基于所述视频特征向量,通过获取任一视频帧图像与所述待处理视频中的其他视频帧图像的关联关系,根据所述关联关系提取所述待处理视频对应的视频核心内容特征向量;
向量化处理模块,适于获取与所述待处理视频关联的衍生数据、比赛统计数据,对所述衍生数据、所述比赛统计数据进行向量化处理,得到衍生数据特征向量、比赛统计数据特征向量;
解码模块,适于对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行解码处理,得到所述待处理视频对应的文本内容。
8.根据权利要求7所述的装置,其中,所述解码模块进一步适于:对视频核心内容特征向量、衍生数据特征向量、比赛统计数据特征向量进行向量相加,得到处理后的视频核心内容特征向量;
利用预先训练的文本生成模型的解码网络对处理后的视频核心内容特征向量进行解码处理,得到所述待处理视频对应的文本内容。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的文本生成方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的文本生成方法对应的操作。
CN202111091840.XA 2021-09-17 2021-09-17 一种文本生成方法、装置及计算设备 Active CN113792183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111091840.XA CN113792183B (zh) 2021-09-17 2021-09-17 一种文本生成方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111091840.XA CN113792183B (zh) 2021-09-17 2021-09-17 一种文本生成方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN113792183A CN113792183A (zh) 2021-12-14
CN113792183B true CN113792183B (zh) 2023-09-08

Family

ID=79183811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111091840.XA Active CN113792183B (zh) 2021-09-17 2021-09-17 一种文本生成方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN113792183B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996514A (zh) * 2022-05-31 2022-09-02 北京达佳互联信息技术有限公司 文本生成方法、装置、计算机设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423274A (zh) * 2017-06-07 2017-12-01 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN110866510A (zh) * 2019-11-21 2020-03-06 山东浪潮人工智能研究院有限公司 一种基于关键帧检测的视频描述系统和方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111372116A (zh) * 2020-03-27 2020-07-03 咪咕文化科技有限公司 视频播放提示信息处理方法、装置、电子设备及存储介质
CN112948626A (zh) * 2021-05-14 2021-06-11 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089133B (zh) * 2018-08-07 2020-08-11 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
US11163777B2 (en) * 2018-10-18 2021-11-02 Oracle International Corporation Smart content recommendations for content authors
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423274A (zh) * 2017-06-07 2017-12-01 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN110866510A (zh) * 2019-11-21 2020-03-06 山东浪潮人工智能研究院有限公司 一种基于关键帧检测的视频描述系统和方法
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111372116A (zh) * 2020-03-27 2020-07-03 咪咕文化科技有限公司 视频播放提示信息处理方法、装置、电子设备及存储介质
CN112948626A (zh) * 2021-05-14 2021-06-11 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于HMM的足球视频语义分析研究;彭利民;;计算机工程与设计(第19期);全文 *

Also Published As

Publication number Publication date
CN113792183A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
Huang et al. Attention on attention for image captioning
CN107423274B (zh) 基于人工智能的比赛解说内容生成方法、装置及存储介质
Kim et al. Image captioning with very scarce supervised data: Adversarial semi-supervised learning approach
Lu et al. Multiple spatio-temporal feature learning for video-based emotion recognition in the wild
Wang et al. Image captioning with deep bidirectional LSTMs
Gan et al. Semantic compositional networks for visual captioning
EP3473016B1 (en) Method and system for automatically producing video highlights
Jiang et al. Soccerdb: A large-scale database for comprehensive video understanding
Chen et al. Structcap: Structured semantic embedding for image captioning
CN109740123A (zh) 使用实时数据生成体育赛事战报的方法
Hessel et al. Unsupervised discovery of multimodal links in multi-image, multi-sentence documents
CN113792183B (zh) 一种文本生成方法、装置及计算设备
CN116186246A (zh) 基于pegasus与实体链的舆情文本摘要生成方法及相关装置
Ustalov et al. Toloka visual question answering benchmark
Gao et al. Improving image captioning via enhancing dual-side context awareness
Yao et al. Oracle performance for visual captioning
CN113810730B (zh) 基于视频的实时文本生成方法、装置及计算设备
He et al. Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception
Pan et al. Auto-Encoding Morph-Tokens for Multimodal LLM
Liu et al. Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding
CN110610001A (zh) 短文本完整性识别方法、装置、存储介质及计算机设备
CN107220390A (zh) 一种创建中文名称索引的方法及装置
Bianco et al. Image captioning using pretrained language models and image segmentation
Su et al. FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings
Singh Using Deep Learning to Predict the Path of a Shuttlecock in Badminton

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant