CN116152711B - 基于多模态的导播方法和系统以及计算机程序产品 - Google Patents

基于多模态的导播方法和系统以及计算机程序产品 Download PDF

Info

Publication number
CN116152711B
CN116152711B CN202310097823.XA CN202310097823A CN116152711B CN 116152711 B CN116152711 B CN 116152711B CN 202310097823 A CN202310097823 A CN 202310097823A CN 116152711 B CN116152711 B CN 116152711B
Authority
CN
China
Prior art keywords
keywords
guide
vectors
script
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310097823.XA
Other languages
English (en)
Other versions
CN116152711A (zh
Inventor
余刚
刘建宏
贾艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kailishi Technology Co ltd
Original Assignee
Beijing Kailishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kailishi Technology Co ltd filed Critical Beijing Kailishi Technology Co ltd
Priority to CN202310097823.XA priority Critical patent/CN116152711B/zh
Publication of CN116152711A publication Critical patent/CN116152711A/zh
Application granted granted Critical
Publication of CN116152711B publication Critical patent/CN116152711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

提供一种基于多模态的导播方法和系统以及计算机程序产品,涉及人工智能导播领域,用以解决自动生成导播脚本命令。该导播方法包括:从基于导播场景中的同一事件或过程产生的多模态数据分别识别对应该导播场景预设的导播关键词表中的关键词;将识别出的关键词输入基于机器学习的作为导播脚本识别模型的序列模型,利用该序列模型从输入的关键词组成的文本序列预测用于导播的脚本命令的文本序列输出以生成导播脚本命令。通过该导播方法,不但可以自动生成脚本命令从而完成自动导播,还能实现脚本命令生成的高正确率。

Description

基于多模态的导播方法和系统以及计算机程序产品
本申请为申请号202211023488.0、申请日2022年08月25日、发明名称“基于多模态的导播方法和系统以及计算机程序产品”的分案申请。
技术领域
本发明涉及人工智能导播领域,特别涉及基于多模态的导播方法和系统以及计算机程序产品。
背景技术
以往的直播活动中,常布设多个摄像头拍摄视频,由导播人员对多路实时采集的视频信号以及提前准备好的素材、字幕、特效模板进行现场信号制作,按照一定的导播规则以及导播对现场状态的理解进行剪辑播出。这时,往往需要导播、编辑、摄像师等众多人员协作才能完成,并且不可避免人工操作疏忽导致的错误。
目前存在一些自动化导播方式,但基本停留于在获得脚本后按照已有的脚本命令,或者按照预设的规则,例如专利文献1,自动合成视频和/或控制机位的方案,虽然代替了部分人工工作,对脚本的生成仍依赖于人力。
专利文献2提成一种导播切换方法,通过搭建神经网络学习音视频的匹配度,从而实现基于训练好的识别模型,自动切换与现场统一的音频相匹配的视频信号。但这种方法仅能完成一般的镜头切换任务,对于更复杂的例如回放、特写跟踪、切入画中画、声音叠加等多任务导播,完全没有办法。并且,这种方法依赖于活跃音频对象与包含该对象的画面的匹配,实际上限制了切换导播的规则。
为实现更复杂的自动导播任务,有提出智能识别场景的做法,这种做法直接对视频图像进行内容识别,通过场景标注和训练给出模型。这种方法标注难度大,训练难度也大,从实际效果看识别正确率很低。还有提出动作识别的方案,但由于不同场景里类似动作很多,会导致大量的误判。
因此,现有技术中亟待一种可以全智能化、适应于各种导播规则并且正确率高的智能导播方案。
专利文献1:中国专利公开CN110166651A
专利文献2:中国专利公开CN110996021A
发明内容
本发明鉴于以上问题进行了研发,目的在于提供一种能够自动生成脚本命令的导播方法。
本发明第一方面提供一种基于多模态的导播方法,该导播方法包括:将识别出的关键词输入基于机器学习的作为导播脚本识别模型的序列模型,利用该序列模型从输入的关键词组成的文本序列预测用于导播的脚本命令的文本序列输出以生成导播脚本命令。
根据本发明提供的导播方法,从可能存在不同形式的多模态数据识别统一的词文本输入序列模型,能够以关键词的文本形式为中介为序列模型赋以多模态数据的融合功能。
不同模态数据识别出的关键词存在一定的误率,根据本发明提供的导播方法,具有多模态融合能力的序列模型利用多模态数据间的一致性和补充性,提高预测结果的准确性。
本发明的导播方法仅将含在预设导播关键词表中的关键词识别结果作为序列模型的输入,可以节约计算资源,在此导播关键词表为复杂稀疏的背景样本提供了语义窗口,并能够根据场景改变窗口规模。
关键词本身来源于上一层的识别预测,即使出现相同的文本序列也只能代表关键词的概率相同,根据本发明的导播方法,基于来源于更复杂数据背景的概率结果进行多模态融合,能够更好地利用复杂背景数据中的小概率特征。
当各模态关键词的识别途径确定下来的情况下,结合这些确定的途径,当进行序列模型的训练和预测时,可以使序列模型反映出前后整个系统的模型融合效果。
进一步地,所述基于机器学习的序列模型通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令。
优选地,输入序列模型的关键词和训练样本中的关键词都以按照一定规则排序的结构化数据提供,由此可以为输入关键词组赋予语句特性。
进一步优选地,输入序列模型的关键词和训练样本中的关键词都按照多模态的固定顺序进行排序,由此可以使序列模型理解多模态之间的影响。
进一步地,所述基于机器学习的序列模型是transformer模型。
这种情况下,将识别出的关键词分别转换为词向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和词向量相加得到各关键词的词特征向量,将各关键词的词特征向量通过transformer模型进行编码解码以预测出导播脚本命令。
transformer模型可以很好的完成文本任务,将多模态信息统一成文本特征后可以很好的起到多模态融合作用,但是transformer模型受于句长的限制,不能更好的捕捉长距离文本的关联性。本发明将关键词设计和transformer结合,缩短了背景数据中特征间的距离,transformer可以更好捕捉远距离关联信息的影响。
优选地,输入序列模型的关键词和训练样本中的关键词按照多模态的固定顺序进行排序,并且所述transformer模型的多头注意力层采用12头结构,transform encoder层和transform decoder层分别采用8层结构。
当关键词按照多模态的固定顺序进行排序的情况下,会使关键词组合成的语句在反映意外特征的能力上出现惰性。将transformer模型的注意力头提高到12头,容易保证离群头的出现频率,从而提高模型的冗余性。另外还将transformer模型的编码层和解码层都提高到8层,从而耗尽离群头的出现机率。
优选地,所述将识别出的关键词输入基于机器学习的序列模型以生成导播脚本命令包括:所述基于机器学习的序列模型采用transformer模型;将识别出的关键词分别转换为词向量,将关键词的词向量分别乘以对应的导播系数生成风格加权向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和风格加权向量相加得到各关键词的词特征向量;将各关键词的词特征向量通过所述transformer模型进行编码解码以预测出导播脚本命令。
所述导播系数通过下式计算:
k=KeywordType×DirectorTypeT
其中,k是导播系数,KeywordType是表示当前关键词导播风格的导播风格向量,DirectorType是表示当前导播阶段导播风格的导播风格向量,所述导播风格向量是根据导播风格预设的多维向量,向量的各维数值用来表示不同导播风格的程度。
根据本发明,通过将关键词的词向量乘以各自对应的导播系数,可以丰富模型输入文本的语义特征,并且使输入的数据序列更富有结构化特性,从而进一步提高脚本生成的正确率。
优选地,所述导播风格向量的各维数值是[0,1]之间的浮点数。
进一步地,所述导播方法还包括将所述导播脚本命令输出给导播台用以完成导播操作。
并且在上述导播系数的优选实施中,进一步地,输入序列模型的关键词和训练样本中的关键词按照多模态的固定顺序进行排序,并且所述transformer模型的多头注意力层采用12头结构,transform encoder层和transform decoder层分别采用8层结构。
本发明第二方面提供一种基于多模态的导播系统,该导播系统包括:处理器;存储器;和存储在所述存储器中的计算机程序指令,在所述计算机程序指令被所述处理器运行时执行上述任一项所述的导播方法。
本发明第三方面提供一种计算机程序产品,包括计算机可读存储介质,在所述计算机可读存储介质上存储了计算机程序指令,所述计算机程序指令在被计算机运行时执行上述任一项所述的导播方法。
本发明第四方面提供一种基于多模态的导播方法,该导播方法包括:对基于导播场景中的同一事件或过程产生的多模态数据分别预测顺次表示对应该导播场景预设的导播关键词表中的各关键词的概率的关键词概率向量;将各关键词概率向量输入训练好的transformer模型以生成导播脚本命令。
进一步地,所述训练好的transformer模型通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别预测的顺次表示对应该导播场景预设的导播关键词表中的各关键词的概率的关键词概率向量和对应该同一事件或过程的真实导播脚本命令。
进一步地,所述导播关键词表包括多个对应各模态设置的子表,所述预测顺次表示对应该导播场景预设的导播关键词表中的各关键词的概率的关键词概率向量包括:预测各所述子表对应的概率子向量以及将概率子向量拼接成关键词概率向量。
进一步地,各所述子表中仅包含专属于该子表的关键字。
进一步地,所述transformer模型的多头注意力层采用12头结构,transformencoder层和transform decoder层分别采用8层结构。
进一步地,所述将各关键词概率向量输入训练好的transformer模型以生成导播脚本命令包括:将各关键词概率向量分别乘以对应的导播系数生成风格加权特征向量;将各风格加权特征向量直接输入训练好的transformer模型的第一层transform encoder层。
进一步地,优选所述导播系数通过下式计算:
k=KeywordType×DirectorTypeT,
其中,k是导播系数,KeywordType是表示当前关键词导播风格的导播风格向量,DirectorType是表示当前导播阶段导播风格的导播风格向量,所述导播风格向量是根据导播风格预设的多维向量,向量的各维数值用来表示不同导播风格的程度,其中,以所述关键词概率向量中概率最高的维度对应的关键词表中的关键词为当前关键词。
进一步地,优选所述导播风格向量的各维数值是[0,1]之间的浮点数。
Transformer模型缺乏归纳偏置能力,例如并不具备CNN那样的平移不变性和局部性,因此需要对Transformer模型的输入向量进行位置编码。本发明利用关键词在关键词表中的固定位置和对应的概率得分生成可以直接输入Transformer模型的特征向量。
通过设置子表和专属关键词,简化关键词与模态之间的对应关系,根据实验结果,并没有影响基于互补性和一致性的多模态的融合效果,推测是导播场景的结构化所致。
附图说明
图1是图示本发明实施例的基于多模态的导播方法的流程图。
图2是图示本发明实施例的导播方法中序列模型的一具体实施例的构成示意图。
图3是图示本发明实施例的导播方法中利用transformer模型处理输入关键词的流程图。
图4是图示本发明实施例的导播方法中利用transformer模型处理输入关键词的优选实施例的流程图。
图5是图示本发明实施例的导播系统的功能性框图。
图6是图示本发明实施例采用的transformer模型的训练设备的结构示意图。
图7是图示本发明实施例的导播系统的示意性框图。
图8是图示本发明的基于多模态的导播方法的变形例的流程图。
具体实施方式
本发明的具体实施方式用于为本领域技术人员充分理解本发明提供必要公开,并旨在对本发明的权利要求进行有效的支持。同时该部分将涉及对本发明技术方案的特征和术语的解释或定义,本领域技术人员应当结合说明书中对具体特征和术语的阐释来理解本发明权利要求的限定范围,而不应任意曲解本发明的特征和术语代表的真实内涵。
必须理解的是,在任何涉及本发明权利要求范围的界定工作中,本发明所提供的具体实施例,可供充分支持由此归纳的同等或上位的适当的方案概括,而绝不应将权利要求的范围理解成不超越示例本身。同样必须理解的是,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,在本领域技术人员不做任何创造性劳动的范围内也将同样适用,而不应将本发明的保护范围局限在本发明具体实施方式记载的示例内。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等序号表示功能在于区别类似的对象,而不必用于描述特定的顺序或先后次序,除非有特别指出。应该理解,这样使用的序号用语在适当情况下可以互换。另外,术语“包括”和“具有”以及任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下,将结合说明书附图对本发明的具体实施方式进行展开描述。
本发明所提供的导播方法涉及人工智能的应用领域,人工智能的特征在于具有自我理解问题的能力,从而区别于一般的机器智能或自动化控制。但人工智能仍然应被认为属于专利法保护的对象,是因为该领域的技术革新仍属于人类的创新活动。例如在模型构建上以及特征提取等问题上,算法的改变尚未脱离人类的设计。虽然人工智能具有模拟人的智能的色彩,但由于人工智能和人类智力的计算元件上的差异,主要在于人工智能的底层是单向控制的逻辑门,而人类的脑神经元是多对多联络以及策略调度,使得人工智能的算法并非大脑的一般复制且具有极大的挑战。
本发明所提供的导播方法特别是涉及人工智能的认知领域,具有基于多模态的特征。人工智能正在经历从感知计算向认知计算的进步,这种新领域受到人类认知环境的方式的影响,例如人类基于多种感官的信息收集作出认知判断。多模态融合技术就是受到这种启发,为计算器提供更接近于人类感知的场景。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。在多模态机器学习领域中,每一种信息的来源或者形式,都可以称为一种模态。
导播是根据对直播现场的状况的理解,依照一定的导播规则对实时采集的一路或多路视频信号进行编辑播出。所述编辑包括但不限于对不同视频流之间的切换、对视频流的一定时间段的剪辑、利用准备的素材、字幕、特效模板等对现场信号进行效果制作。所述特效模板包括但不限于慢动作回放、画中画合成、视频拼接、叠加现场声等。所述导播规则包括但不限于触发条件和脚本命令。所述脚本命令对应于所述编辑操作,通过接收脚本命令自动执行对应的编辑,并将编辑后的视频信号进行播出。
所述触发条件不在本发明之限,可以设置在本发明的识别方法之前,也可以设置在脚本命令产生后,触发条件可以采用一定规则的时间条件,还可以通过在脚本命令中包含不改变导播指令来实现触发与非触发,本发明着眼于脚本命令的获取。
下面,参照图1说明本发明所提供的基于多模态的导播方法的一个实施例。
在步骤S101中,从基于导播场景中的同一事件或过程产生的多模态数据分别识别对应该导播场景预设的导播关键词表中的关键词。
本发明的导播方法可以应用于多种导播场景,该导播场景包括体育赛事、文艺活动、综艺节目、音乐会等多种直播活动。事件或过程是直播活动中的一个节段,例如可以影响导播基本决策的人物动作,也可以单纯是经过一个时间段。基于某一导播场景的同一事件或过程产生的的多模态数据存在内在的语义联系。
多模态数据包括对导播场景中的同一事件或过程进行一种或多种路径的视频采集、音频采集、图像采集、文字采集等所获得的不同来源或不同形式的多种数据。
多模态数据既可以包括来源的多模态,也可以包括形式的多模态。可以包括来自相同采集通道的不同形式的数据,也包括来自不同采集通道的相同形式的数据。例如可以是从同一视频流中采集到的图像数据和音频数据,也可以是来自不同机位拍摄的不同视频数据。根据形式分类,多模态数据包括对同一导播场景采集的视频、音频、图像、文本等多模态的数据信息。基于同一事件的多模态数据的采集可以不对齐时间,基于同一过程的多模态数据的采集可以简单选择时间对齐的数据,但是不必进行绝对限定。
针对不同的导播场景,存在各自预设的导播关键词表。以乒乓球比赛之场景为例,关键词可以包括:发球、击球、捡球、休息、违例、教练指导、得分、失误、观众花絮等,由这些关键词组成乒乓球比赛场景的关键词表。
根据不同模态数据的特点,关键词还可以包含多个分类。作为一个实施例,可以预设多个关键词表,例如可以对应不同模态预设各自的关键词表,多个关键词表之间可以存在重叠关键词。分设多个关键词表可以方便每个模态下的关键词提取,本发明并不排除全部模态为一个通用的关键词表。
有多种方式可以从不同的模态数据中识别出场景关键词,例如根据裁判员的声音表示“net”,从而识别出关键词“擦网”。但是更多情况下,不同形式的模态数据需要通过深度学习进行分类获得。例如根据动作识别模型对运动员的动作进行识别,计算获得关键词“击球”。但是根据统计学数理,导播关键词表中不必须排除包含与场景特征关系度小的语义,作为一个优选实施例,关键词表可以全部由场景关键词构成。所谓场景关键词是指能够反映场景特征的人为设定的关键词。关于从不同的模态数据中识别出场景关键词,将在后文中更详细论述。
在步骤S102中,将识别出的关键词输入基于机器学习的序列模型以生成导播脚本命令。
序列模型(Sequence Model)用于完成序列转换,通过学习训练序列与标注序列之间的规律和表现而构建,基于学习结果能够从序列输入预测序列输出。本发明特别适用序列模型的文本预测能力。例如包括循环神经网络(RNN,Recurrent Neural Network)、长短期记忆网络(LSTM,Long Short-Term Memory)、序列到序列(Seq2Seq,Sequence toSequence)模型、门控循环单元(GRU,Gate Recurrent Unit)、注意力模型(AttentionModel)、Transformer模型等及其变形或集成。
利用训练好的序列模型,从输入的关键词组成的文本序列预测用于导播的脚本命令的文本序列输出。一般来讲,序列模型不排除能够完成单个语素(token,单词或词语)的输入和输出之间的预测,也不排除根据输入序列预测结果为单个语素的情形。但是作为本发明的用意,来自多模态数据的关键词限定了输入的多token性质,但是导播脚本命令仍然可以以一个token结束。
导播脚本命令例如包括切换-全景镜头、切换-特写镜头、切换-观众镜头、跟随-特写镜头、跟随-观众镜头、回放-特写镜头-时间、回放-全景镜头-时间、画中画-镜头ID、声音-叠加现场声、镜头ID-预置位ID(镜头的推拉摇移等操作)等。
所述基于机器学习的序列模型通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令。
对于关键词样本的来源,不限于所有模态的数据都一定有识别结果,例如对一段解说词的识别结果是未出现导播关键词表中的关键词。这时,该模态下的识别关键词也可以为“Null”或“无”。
由于关键词的识别本身也可能进一步涉及模型识别和预测,因此样本可以有两种来源形式。可以提供多模态数据直接作为样本单元,并标记对应脚本命令标签,在此,多模态数据被分别输入各自训练好的关键词识别模型,将识别结果作为序列模型的训练样本。也可以提供经识别或预测好的关键词组成序列模型的训练样本,并标记对应脚本命令标签,但是关键词样本的产生不能是随意的,需基于共同事件背景下产生。
根据本发明所提供的导播方法,从基于同一导播场景中的同一事件或过程产生的多模态数据分别识别对应该场景预设的导播关键词表中的关键词,将识别出的关键词输入基于机器学习的序列模型以生成导播脚本命令,在此,序列模型构成用于导播预测的导播脚本识别模型。
通过该导播方法,不但可以自动识别脚本命令从而完成自动导播,还能大幅提高脚本命令识别的正确率。
多模态数据可能存在不同数据形式,通过识别得到统一的词文本形式后,再进一步输入序列模型,从而能够以关键词的文本形式为中介给序列模型带来多模态数据的融合功能。
不同模态数据识别出的关键词存在一定的误率,但具有多模态融合功能的序列模型可以利用多模态数据之间的一致性和补充性,得到更准确的预测结果。
包括transformer在内的各种模型中,每个输入token分配的计算资源是相同的,但有些词语相对更重要一些,而有些并没有太多意义。通过仅将包含在预设的导播关键词表中的关键词的识别结果作为序列模型的输入,可以节约计算资源。导播关键词表为复杂的稀疏背景样本提供了一个语义聚焦窗口,并且能够根据场景改变窗口规模。
当语料库缩小时,预测样本如果出现非常接近训练样本中的文本序列,得出准确的预测结果并非难事。但本发明特别之处在于,关键词本身也是来源于上一层的识别预测,即使出现相同的文本序列也只能代表关键词的概率相同,根据本发明的导播方法,可以基于来源于更复杂数据背景的概率结果进行多模态融合,从而能够更好地利用复杂背景数据中的小概率特征实现纠错机制。
当各模态关键词的识别途径确定下来的情况下,结合这些确定的途径,当进行序列模型的训练和预测时,可以使序列模型反映出前后整个系统的模型融合效果。
下面,在上述实施例的基础上,提供关于输入输出数据的优选例。
在该例中,输入序列模型的关键词和训练样本中的关键词都以按照一定规则排序的结构化数据提供。
以表1所示乒乓球双打比赛场景中的关键词和脚本命令为例进行说明。
表1
2S-FAV-A:以一人为主的双人镜头
Null:无关键词
表1中,关键词和脚本命令从上到下构成输入和输出的文本序列,可以看出,关键词序列中的语素按照多模态的固定顺序进行排序,脚本命令中的语素按照动作顺序进行排序。
所谓结构化数据是指有规则的数据集,而非零散的随机的数据。从多模态数据获得的原始关键词是一个词袋,缺少上下文关系,通过以具有一定规则排序的结构化数据提供关键词,可以为输入关键词组赋以语句特性。
作为进一步优选例,输入序列模型的关键词和训练样本中的关键词都按照多模态的固定顺序进行排序。由此,可以使序列模型理解多模态之间的影响。例如,多模态的固定顺序可以是由整体到局部、由图像到声音的顺序。
另外,从某一模态数据获得的关键词有时可以是多个,这种情况下,按照多模态分类将同一类的关键词放入相应的顺次。另外例如解说词这种来源的模态,有时会获得过多数量的关键词,这时可以给这样的模态设置一个数量阈,仅截取倒序时间的前几个关键词。
用于标记的真实导播脚本命令也优选按照动作顺序排序,不但符合真实的语言习惯和导播程序,并且可以促使序列模型的训练中寻找两类语料之间文本先后关系上的内在联系。
下面,参照图2说明上述实施例中的序列模型的具体实施例。
该实施例中,基于机器学习的序列模型采用transformer模型200。transformer模型是一种应用自注意力机制和encorde-decorde注意力机制的序列模型。本实施例的transformer模型200采用根据场景种类训练好的模型,也可以是预训练或者训练后经微调的模型。
关于transformer模型的具体构成,本发明在此引用论文《Attention is All YouNeed》(出处:https://arxiv.org/abs/1706.03762)的全部内容。
transformer模型200同样通过针对导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令。
如图2所示,transformer模型200包括输入嵌入(input embedding)层210in、输入位置编码(positional encoding)层220in、transform encoder层230、transform decoder层240、输出嵌入(output embedding)层210out、输出位置编码层220out、全连接层250以及归一层260。
在transformer模型中,输入嵌入层将输入文本进行词向量转换,转换后的词向量具有预设的维度。本实施例中,输入嵌入层210in使用word2vector将关键词输入转换成词向量。需要注意的是,由于本发明基于预设关键词机制,因此不需要对文本进行切词。
输入位置编码层220in根据关键词在输入中的位置为各关键词生成位置向量。位置向量可以表示关键词在输入中的绝对位置,也可以表示关键词之间的相对位置。位置向量具有与词向量相同的维度。进而,输入位置编码层220in将生成的关键词的位置向量和词向量相加,得到关键词的词特征向量。多个词特征向量可表示为所述预设维度的嵌入矩阵,输入transform encoder层230。
作为一个具体实施例,位置编码可以在中心位置分成了两半,左半部分的值由正弦函数生成,右半部分由余弦函数生成,将两边连接起来形成了每个位置的编码向量。由于三角函数有着非常方便的和差化积公式,使用这种编码方式能够很好的编码两个词之间的位置关系,但是不必限定于此。
如图2所示,transform encoder层230和transform decoder层240分别重复8层。
多层transform encoder层230对输入的嵌入矩阵进行编码,生成编码与解码之间的隐层矩阵。各层transform encoder层230依次包括多头注意力(multi-head attention)层231、第一相加归一(add&normalize)层232、前馈神经网络(FFNN,Feed Forward NeuralNetwork)层233和第二相加归一层234。
多头注意力层231用于提取语义级别的信息,从上一层获得多个输入向量(第一层transform encoder层的情况下,从输入位置编码层220in获得词特征向量),以任一输入向量为中心,基于预设的注意力窗口范围内的各个输入向量与该任一输入向量之间的关联度,得到该任一输入向量对应的中间向量。如此,确定出多个输入向量对应的多个中间向量。
多头注意力层231应用自注意力(self-attention)机制,基于向量间的关联度对各个向量进行变换。多头注意力层231包含多个并行的自注意力层,每个自注意力层被称为一个头(Head1、Head2、...、Head12)。每个头中,利用WQ(Query)、WK(Key)和WV(Value)3个变换矩阵将输入矩阵进行映射,通过将映射Q和K作为一个支路进行点乘确定关联度,再作为加权因子与另一个支路的映射V加权组合,从而确定每一头的输出矩阵。将多个注意力头的输出拼接后输入最后一个线性层利用变换矩阵W进行整合得到最后的输出矩阵。经典地,在上述注意力机制计算中,Q和K的点乘结果通常还可以除以一常数,然后进行softmax运算,将运算结果作为所述关联度,但是本发明不限定于此。
前馈神经网络层233包括输入层、中间层(intermediate layer)和输出层(省略图示),在各时序上对输入特征进行非线性变换,提高网络表达能力。各层以及各个位置的前馈神经网络可以是相同的。
第一和第二相加归一层232、234分别连接在多头注意力层231和前馈神经网络层233之后,用于进行残差连接与标准化。各相加归一层包括相加(Add)层和归一(Normalize)层(省略图示)。相加层对应残差连接,利用Shortcut技术,解决深层网络训练时的退化。归一(Normalize)对应标准化计算,用于提高网络的训练速度,防止过拟合。在某些实施例中还可以在第二相加归一层234后面增加池化层,但是本发明为了保留冗余信息,并未增加池化层。
每个transform decoder层240依次包括多头注意力层241、第一相加归一层242、前馈神经网络层243和第二相加归一层244。transform decoder层240与transformencoder层230结构相同,除了在第一层的transform decoder层之前增加了掩码多头注意力(masked multi-head attention)层241mask,由掩码多头注意力层241mask的输出作为多头注意力层241的WQ变换矩阵的输入,多头注意力层241的WV和WK变换矩阵的输入由transform decoder层230输出的隐层矩阵提供。多头注意力层241、第一相加归一层242、前馈神经网络层243和第二相加归一层244的结构由于与多头注意力层231、第一相加归一层232、前馈神经网络层233和第二相加归一层234相同,在此不再赘述。在掩码多头注意力层241mask之后还可以加入掩码相加归一层242mask。
transform decoder层240用于对多个transform encoder层230输出的隐层矩阵进行解码,每个时间步解码输出的预测矩阵输入全连接层250和归一层260,获得该时间步的预测脚本语素概率。重复该解码过程,直到输出一个结束符,得到全部脚本命令。
本实施例中,全连接层250采用多层感知机(MLP,Multilayer Perceptron),通过全连接神经网络融合多向量特征,将预测矩阵包含的向量映射为一个更长的logits向量,即为语素的分类向量。归一层260采用softmax函数,logits向量经softmax函数后回归表示概率的浮点数,从而获得输出脚本语素。在一个变形例中,归一层260也可以省略。
从归一层260输出的脚本语素反馈给输出嵌入层210out转换为词向量,之后由输出位置编码层220out进行位置编码得到词特征向量,输入给掩码多头注意力层241mask。输出嵌入层210out和输出位置编码层220out与输入嵌入层210out和输入位置编码层220out构成相同,在此省略说明。
掩码多头注意力层241mask也包含多个并行的自注意力层,每个自注意力层被称为一个头(Head1、Head2、...、Head12),不同于多头注意力层231或241,该层每个头中,利用WQ(Query)、WK(Key)和WM(Mask)3个变换矩阵将输入矩阵进行映射,通过将映射Q和K作为一个支路进行点乘确定关联度,再作为加权因子与另一个支路的映射M加权组合,从而确定每一头的输出矩阵。WM变换矩阵是一个下三角屏蔽矩阵。将要屏蔽的单元格设置为负无穷大或非常大的负数。将多个注意力头的输出拼接后输入最后一个线性层进行整合得到最后的输出矩阵。经过掩码多头注意力层241mask得到的输出矩阵作为多头注意力层241的WQ变换矩阵的输入,因此掩码多头注意力层241mask实际上是多头注意力层241的一个子层。从而多头注意力层241层可以实现编码-解码双注意力机制encode-decode attention。
以上是一个transformer层结构的示例,多层transform encoder层和多层transform decoder层构成transformer层。本发明不限于该示例,根据实际需要可以改变transformer结构的尺寸信息。在一种可能的实现中,尺寸信息可以包括transformer模型的宽度尺寸和深度尺寸。具体地,宽度尺寸信息可以包括transformer模型中各个transformer层包括的注意力头的数量以及前馈神经网络层中的中间层包括的神经元的数量,深度尺寸信息可以包括transformer模型包括的transform encoder层和transformdecoder层的数量。
transformer模型问世以来,不断出现大量的改进形态,不论其何种变形,只要呈现self-attention和encode-decode attention性质的模型,都应当被认为本发明transformer层包含的范围内。
下面,参照图3说明利用图2中transformer模型200根据输入关键词预测脚本命令的具体实施例。
在步骤S301中,将识别出的关键词分别转换为词向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和词向量相加得到各关键词的词特征向量。
本实施例中,来自多模态数据的关键词在输入嵌入层210in中使用word2vector转换成词向量。在基于关键词表构建语料的情况下,也可以使词向量的维度等于导播关键词表中关键词的数量的方式搭建新的词向量转换通路。
并且,由输入位置编码层220in根据关键词在输入中的位置为各关键词生成位置向量。
在本实施例中,利用正弦函数PE(pos,2i)=sin(pos/100002i/dmodel)和余弦函数PE(pos,2i+1)=cos(pos/100002i/dmodel)分左右两部分生成编码,两部分连接后生成每个位置的位置向量。其中,pos表示位置,i表示尺寸。
位置向量具有与词向量相同的维度,将生成的关键词的位置向量和词向量相加,得到关键词的词特征向量<X1,X2,...,XN>。X表示输入向量,N表示输入关键词的序列长度。
在步骤S302中,将各关键词的词特征向量通过transformer模型进行编码解码以预测出导播脚本命令。
通过transformer模型进行编码解码以生成出导播脚本命令包括:将各关键词的词特征向量由transform encoder层编码得到隐层向量,将隐层向量由transform decoder层解码得到输出向量,再将输出向量由全连接层特征融合得到脚本语素的分类向量。
通过transformer模型进行编码解码以生成出导播脚本命令进一步还包括:根据脚本语素的分类向量得到脚本语素,将每一步得到的脚本语素反馈给transform decoder层。
通过transformer模型进行编码解码以生成出导播脚本命令进一步还包括:将每一步得到的脚本语素反馈给transform decoder层之前,将每一步得到的脚本语素转换为词向量,并根据脚本语素在脚本命令中的位置为该脚本语素生成位置向量,将该位置向量和词向量相加,得到该反馈的脚本语素的词特征向量。
从步骤S301获得的词特征向量<X1,X2,...,XN>被输入第一层的transformencoder层230的多头注意力层231。词特征向量<X1,X2,...,XN>被自动在前后位补增开始向量Xbegin和结束向量Xend,分别代表语句的开始和结束,补增后的输入向量以下简写成<X1,X2,...,XN>。
多头注意力层231的每个注意力头head分别采用Query变换矩阵WQ,Key变换矩阵WK和Value变换矩阵WV对N个输入向量<X1,X2,...,XN>中各个输入向量Xi进行变换,得到各个输入向量对应的Query中间向量(q向量),Key中间向量(k向量)和Value中间向量(v向量)。
在操作上,可分别用Query变换矩阵WQ、Key变换矩阵WK和Value变换矩阵WV对N个输入向量构成的输入矩阵X进行线性变换,得到输入矩阵X的Q矩阵、K矩阵和V矩阵,再分别对矩阵进行拆分,即可得到各个输入向量对应的q向量、k向量和v向量。
其中,对于N个输入向量中任意的第i输入向量Xi,基于该第i输入向量对应的Query中间向量qi与各个输入向量Xj对应的各个Key中间向量kj的点乘操作,确定该第i输入向量Xi与各个输入向量Xj的各个关联度。经典地也可以将点乘结果除以一个常数dk,然后进行softmax运算,将运算结果作为输入向量Xi与Xj的关联度,即:
式1
以该第i输入向量Xi与各个输入向量Xj的各个关联度αi,j作为权重因子,对各个输入向量Xj对应的Value中间向量vj进行加权组合,得到该第i输入向量Xi对应的第i组合向量Ci:
式2
多头注意力层231维护12套上述的各变换矩阵,从而并行地进行上述操作,得到12个组合向量序列,之后将12个组合向量序列进行拼接操作(concat),得到拼接矩阵。再之后,通过变换矩阵W对该拼接矩阵进行变换,得到最终的注意力输出矩阵Z。将该矩阵Z拆分即对应于N个注意力输出向量<Z1,Z2,...,ZN>。
注意力输出向量<Z1,Z2,...,ZN>进一步经第一相加归一层232、前馈神经网络层233和第二相加归一层234进行处理,并重复8层的transform encoder层后,得到隐层向量<H1,H2,...,HN>。其中,前馈神经网络层233c在本实施例中采用双层网络。对于上述不同层的操作本发明不做详细论述,可以参照一般的Add&Norm与FNN操作来实现。
获得的隐层向量<H1,H2,...,HN>进一步经过多层transform decoder层240进行解码,除第一层以外,每一层的操作与上文介绍的transform encoder层230一样,在此不做重复介绍。
在第一层的transform decoder层240的第一步预测中,掩码多头注意力层241mask可以输入任意预设维度的向量,例如输入最初的输入向量<X1,X2,...,XN>中的向量,由于受到掩码矩阵WM变换矩阵的遮挡,不会注意该步的反馈特征。
隐层向量<H1,H2,...,HN>经过多层transform decoder层240后得到输出向量<Y1,Y2,...,YN>,transform decoder层240中的具体处理步骤参照transformer模型200中的介绍,在此不做重复论述。
获得输出向量<Y1,Y2,...,YN>后,经过全连接层250和归一层260处理后,分步预测出完成的脚本语素的分类向量<F1,F2,...,FN>,由此获得导播脚本命令。
根据该具体实施方式,基于机器学习的序列模型采用transformer模型。将识别出的关键词分别转换为词向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和词向量相加得到各关键词的词特征向量,将各关键词的词特征向量通过transformer模型进行编码解码以生成导播脚本命令。
transformer模型可以很好的完成文本任务,将多模态信息统一成文本特征后可以很好的起到多模态融合作用,但是transformer模型受于句长的限制,往往不能更好的捕捉长距离文本的关联性。当将关键词设计和transformer模型结合起来,可缩短背景数据中特征的距离,使transformer更好的捕捉远距离关联信息的影响。
优选地,关键词按照多模态的固定顺序进行排序,并且多头注意力层采用12头结构,transform encoder层和transform decoder层采用8层结构。由此可以改善多模态结构化的关键词排列带来的惰性,更多地活效化离群信息。
当关键词按照多模态的固定顺序进行排序的情况下,会使关键词组合成的语句在反映离群特征的能力上出现惰性。将采用多头注意力机制的transformer和关键词结合起来,适当地增加注意力头的个数可以提高模型的冗余性。
根据发明人的理解,即使是独立计算的注意力头,大概率关注的点还是一致的,所以那些仅有很少部分的相对离群的注意力头,能够使得模型进一步优化。但是这些离群的头出现的概率并不高,因此需要通过提高头的基数,来保证这些离群头的出现频率。本发明将注意力头提高到12头,以改善多模态结构化得关键词排列带来的惰性。
在将注意力头提高到12头的基础上,本发明还将transformer模型的编码层和解码层都提高到8层。根据发明人的观察,同一层中不同的头之间的差距会随着所在层数变大而减少,即层数越高,头越趋同。将transformer层提高到8层,可以尽量耗尽离群头的出现机率。
下面,仍然参照图2说明上述实施例中的序列模型的一个优选实施例。
该优选实施例中,在输入嵌入层210in和输入位置编码层220in之间增加了导播风格嵌入层215。该导播风格嵌入层215将从输入嵌入层210in输出的词向量乘以对应的导播系数后输入给输入位置编码层220in。其中,导播系数k通过下式算得:
式3
k=KeywordType×DirectorTypeT
其中,KeywordType是表示当前关键词导播风格的导播风格向量,DirectorType是表示当前导播阶段导播风格的导播风格向量。
导播风格向量是根据导播风格预设的多维向量,向量的各维数值用来表示不同导播风格的程度。例如可以是5维向量T(t1,...,t5),各维元素分别用来表达严肃程度、全景程度、镜头速度、精彩程度和花絮程度。
根据不同关键词和不同导播阶段预设对应的关键词导播风格向量和阶段导播风格向量,关键词和导播阶段的导播风格向量维度相同。其中,阶段导播风格向量可以是直播活动的某一阶段也可以是整个直播过程。关键词在每增加一个关键词分类时预设该关键词的导播风格向量,各个导播阶段也预设相应的导播阶段的导播风格向量。
作为一个优选例,导播风格向量T(t1,..,tn)的各数值ti是[0,1]之间的浮点数。
相应地,参照图4说明利用图2中transformer模型200根据输入关键词预测脚本命令的优选实施例。
在步骤S401中,将识别出的关键词分别转换为词向量,将关键词的词向量乘以对应的导播系数生成风格加权向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和风格加权向量相加得到各关键词的词特征向量。
在步骤S402中,将各关键词的词特征向量通过transformer模型进行编码解码以预测出导播脚本命令。
该优选实施例的其他内容与图3的实施例相同,在此省略详细论述。
根据本发明,通过将关键词的词向量乘以对应的导播系数,可以丰富输入transformer模型的文本的语义特征,并且可以使输入的数据序列更加富有结构化特征,从而更好地使transformer模型预测出准确的脚本命令。
下面,参照图5进一步描述用来执行上述导播方法的导播系统。
如图5所示,本发明实施例的基于多模态的导播系统50包括关键词识别模块51和导播脚本命令预测模块52。例如可以由诸如硬件(服务器、专用计算机等)、软固件及它们的任意可行的组合配置。
所述关键词识别模块51用于从基于导播场景中的同一事件或过程产生的多模态数据分别识别对应该导播场景预设的导播关键词表中的关键词。所述关键词识别模块51可以用于执行上述步骤S101部分记载的动作,对此不做重复论述。
所述关键词识别模块51具体还可以包括从各种模态数据识别关键词的多个关键词识别模块。
在本实施例中,关键词识别模块51包括场景关键词识别模块511、姿态动作关键词识别模块512、人物特写关键词识别模块513、现场事件关键词识别模块514和解说关键词识别模块515。
场景关键词识别模块511用于接收视频图像输入,通过Resnet50进行特征提取,将提取特征输入MLP,识别得到场景分类关键词。例如足球全景、篮球半景、人物特写。
姿态动作关键词识别模块512用于接收视频图像输入,通过Yolo进行运动员目标识别,通过Vgg进行特征提取,将提取特征分别经过Openpose和ST-GCNs识别得到姿态动作关键词。例如发球得分、捡球、教练指导。
人物特写关键词识别模块513用于接收视频图像输入,通过Yolo进行人脸检测后,通过Resnet进行人脸特征提取,与人员数据库(例如球员数据库)和名人数据库进行人脸对比,识别得到特写类型关键词。例如亲属匹配、名人匹配。
现场事件关键词识别模块514用于接收现场音频输入,通过Bert语音识别模型识别得到现场事件关键词。例如基于裁判播报识别关键词擦网。
解说关键词识别模块515用于接收场外解说音频,通过通过Bert语音识别模型识别得到现场事件关键词。解说关键词可以包括现场事态描述,例如得分和犯规,也可以包括其他信息有关的关键词,对此可以根据具体场景进行设定。
所述关键词识别模块51还可以包含或更换为基于其他模态的关键词识别模块,或者基于其他识别方式的关键词识别模块,本发明对此不做限制。
所述导播脚本命令预测模块52采用基于机器学习的序列模型,输入识别出的关键词并生成导播脚本命令。所述导播脚本命令预测模块52可以用于执行上述步骤S102部分记载的动作,对此不做重复论述。
导播脚本命令预测模块52通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令。
优选地,导播脚本命令预测模块52采用transformer模型,进一步优选输入序列模型的关键词和训练样本中的关键词按照多模态的固定顺序进行排序,并且所述transformer模型的多头注意力层采用12头结构,transform encoder层和transformdecoder层分别采用8层结构。
所述导播脚本命令预测模块52包括词特征向量生成模块521和编码解码模块522。词特征向量生成模块521用于将识别出的关键词分别转换为词向量,将关键词的词向量分别乘以对应的导播系数生成风格加权向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和风格加权向量相加得到各关键词的词特征向量。编码解码模块522用于获取transformer模型,并将各关键词的词特征向量通过该transformer模型进行编码解码以生成出导播脚本命令。
依据本发明的导播系统在完成不同导播场景的自动导播任务中,如表2所示,都能获得良好的脚本生成正确率。
表2
场景 正确率(%) 场景 正确率(%)
乒乓球单打 94.1 交响乐 96.2
羽毛球双打 92.1 舞蹈综艺 90.7
下面,参照图6说明本发明实施例采用的transformer模型200的训练设备60的实施例。训练设备60用于通过针对导播场景预先构建的训练样本集训练生成transformer模型200,包括获取模块61、数据处理模块62和模型训练模块63。
所述获取模块61用于获取并存储初始transformer模型。所述模型训练模块63用于控制获取模块61获取的初始transformer模型根据训练样本集和真实导播脚本命令进行深度学习训练,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令。所述数据处理模块62用于处理模型训练模块63训练中的逻辑运算并输出反馈给模型训练模块63。
图7是图示根据本发明实施例的导播系统的示意性框图。如图7所示,根据本发明实施例,导播系统70包括:处理器71、存储器72、以及在所述存储器72的中存储的计算机程序指令73。
所述计算机程序指令73在所述处理器71运行时可以实现根据本发明实施例的导播方法的各个功能模块的功能,并且/或者可以执行根据本发明实施例的导播方法的各个步骤。
根据本发明实施例的客流统计系统中的各模块可以通过根据本发明实施例的客流统计系统中的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合,例如一个计算机可读存储介质包含用于随机地生成动作指令序列的计算机可读的程序代码,另一个计算机可读存储介质包含用于进行目标识别的计算机可读的程序代码。
计算机可读存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。
本发明还提供上述实施方式的基于多模态的导播方法的变形例,除非本变形例特别指出,其他未详细说明的构成和方法应依据上述实施方式的具体公开实现。
如图8所示,在步骤S801中,对基于导播场景中的同一事件或过程产生的多模态数据分别预测顺次表示对应该导播场景预设的导播关键词表中的各关键词的概率的关键词概率向量。
导播关键词表中的关键词在各模态下的分类识别中会获得一个分类结果向量,该分类结果向量的每个数值对应关键词表中顺次排列的关键词的分类结果概率,从而获得顺次表示对应该导播场景预设的导播关键词表中的各关键词的概率的关键词概率向量。
在步骤S802中,将各关键词概率向量直接输入训练好的transformer模型以生成导播脚本命令。
Transformer模型缺乏归纳偏置能力,例如并不具备CNN那样的平移不变性和局部性,因此需要对Transformer模型的输入向量进行位置编码。本发明利用关键词在关键词表中的固定位置和对应的概率得分生成可以直接输入Transformer模型的特征向量。
作为训练好的transformer模型可以通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别预测的顺次表示对应该导播场景预设的导播关键词表中的各关键词的概率的关键词概率向量和对应该同一事件或过程的真实导播脚本命令。
作为一个优选方式,所述导播关键词表包括多个对应各模态设置的子表,所述预测顺次表示对应该导播场景预设的导播关键词表中的各关键词的概率的关键词概率向量包括:预测各所述子表对应的概率子向量以及将概率子向量拼接成关键词概率向量。
通过设置子表和专属关键词,简化关键词与模态之间的对应关系,根据实验结果,并没有影响基于互补性和一致性的多模态的融合效果,推测是导播场景的结构化所致。
进一步地,各所述子表中可以仅包含专属于该子表的关键字。
另外,本变形例中所述transformer模型的多头注意力层采用12头结构,transform encoder层和transform decoder层分别采用8层结构。
另外,所述将各关键词概率向量输入训练好的transformer模型以生成导播脚本命令包括:将各关键词概率向量分别乘以对应的导播系数生成风格加权特征向量;将各风格加权特征向量直接输入训练好的transformer模型的第一层transform encoder层。
进一步地,优选所述导播系数通过下式计算:
k=KeywordType×DirectorTypeT,
其中,k是导播系数,KeywordType是表示当前关键词导播风格的导播风格向量,DirectorType是表示当前导播阶段导播风格的导播风格向量,所述导播风格向量是根据导播风格预设的多维向量,向量的各维数值用来表示不同导播风格的程度,其中,以所述关键词概率向量中概率最高的维度对应的关键词表中的关键词为当前关键词。进一步地,优选所述导播风格向量的各维数值是[0,1]之间的浮点数。

Claims (9)

1.一种基于多模态的导播方法,其特征在于,该导播方法包括:
从基于导播场景中的同一事件或过程产生的多模态数据分别识别对应该导播场景预设的导播关键词表中的关键词,
所述多模态数据包括对该导播场景中的同一事件或过程采集获得的不同来源或不同形式的多种数据;
将识别出的关键词分别转换为词向量,输入基于机器学习的作为导播脚本识别模型的transformer模型,
该transformer模型通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令,
输入该transformer模型的关键词和训练样本中的关键词都以按照一定规则排序的结构化数据提供,
该transformer模型包括应用自注意力机制的transform encoder层和应用编码-解码双注意力机制的transform decoder层,
利用该transformer模型从输入的关键词组成的文本序列预测用于导播的脚本命令的文本序列输出以生成导播脚本命令。
2.如权利要求1所述的导播方法,其中,
所述从基于导播场景中的同一事件或过程产生的多模态数据分别识别对应该导播场景预设的导播关键词表中的关键词包括:
接收视频图像输入,识别得到场景分类关键词;
接收视频图像输入,识别得到姿态动作关键词;
接收视频图像输入,识别得到特写类型关键词;
接收现场音频输入,识别得到现场事件关键词;
接收场外解说音频,识别得到现场事件关键词。
3.如权利要求2所述的导播方法,其中,
所述导播场景为体育赛事。
4.如权利要求1所述的导播方法,其中,
输入序列模型的关键词和训练样本中的关键词按照多模态的固定顺序进行排序,并且所述transformer模型的多头注意力层采用12头结构,transform encoder层和transformdecoder层分别采用8层结构。
5.如权利要求1所述的导播方法,其中,
所述将识别出的关键词分别转换为词向量,输入基于机器学习的作为导播脚本识别模型的transformer模型包括:
将关键词的词向量分别乘以对应的导播系数生成风格加权向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和风格加权向量相加得到各关键词的词特征向量;
将各关键词的词特征向量通过所述transformer模型进行编码解码以生成导播脚本命令,
所述通过transformer模型进行编码解码以生成出导播脚本命令包括:
将各关键词的词特征向量由transform encoder层编码得到隐层向量,将隐层向量由transform decoder层解码得到输出向量,再将输出向量由全连接层特征融合得到脚本语素的分类向量;
根据脚本语素的分类向量得到脚本语素,将每一步得到的脚本语素反馈给transformdecoder层;
将每一步得到的脚本语素反馈给transform decoder层之前,将每一步得到的脚本语素转换为词向量,并根据脚本语素在脚本命令中的位置为该脚本语素生成位置向量,将该位置向量和词向量相加,得到该反馈的脚本语素的词特征向量。
6.如权利要求5所述的导播方法,其中,
所述导播系数通过下式计算:
k=KeywordType×DirectorTypeT
其中,
k是导播系数,
KeywordType是表示当前关键词导播风格的导播风格向量,
DirectorType是表示当前导播阶段导播风格的导播风格向量,
所述导播风格向量是根据导播风格预设的多维向量,向量的各维数值用来表示不同导播风格的程度。
7.如权利要求6所述的导播方法,其中,
所述导播风格向量的各维数值是[0,1]之间的浮点数。
8.一种基于多模态的导播系统,其特征在于,该导播系统包括:
处理器;
存储器;和存储在所述存储器中的计算机程序指令,在所述计算机程序指令被所述处理器运行时执行权利要求1~7任一项所述的导播方法。
9.一种计算机程序产品,其特征在于,包括计算机可读存储介质,在所述计算机可读存储介质上存储了计算机程序指令,所述计算机程序指令在被计算机运行时执行权利要求1~7任一项所述的导播方法。
CN202310097823.XA 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品 Active CN116152711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310097823.XA CN116152711B (zh) 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310097823.XA CN116152711B (zh) 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品
CN202211023488.0A CN115115994A (zh) 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202211023488.0A Division CN115115994A (zh) 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品

Publications (2)

Publication Number Publication Date
CN116152711A CN116152711A (zh) 2023-05-23
CN116152711B true CN116152711B (zh) 2024-03-22

Family

ID=83335946

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211023488.0A Pending CN115115994A (zh) 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品
CN202310097823.XA Active CN116152711B (zh) 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211023488.0A Pending CN115115994A (zh) 2022-08-25 2022-08-25 基于多模态的导播方法和系统以及计算机程序产品

Country Status (1)

Country Link
CN (2) CN115115994A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521340A (zh) * 2011-12-08 2012-06-27 中国科学院自动化研究所 一种基于角色的电视剧视频分析方法
WO2014126497A1 (ru) * 2013-02-14 2014-08-21 Ооо "Базелевс Инновации" Автоматическая съемка и монтаж видеоролика
CN106803890A (zh) * 2017-03-09 2017-06-06 阔地教育科技有限公司 一种自动导播方法及装置
CN109104639A (zh) * 2017-06-20 2018-12-28 阿里巴巴集团控股有限公司 直播系统、确定直播视频主题的方法、装置以及电子设备
CN109213841A (zh) * 2017-06-29 2019-01-15 武汉斗鱼网络科技有限公司 直播主题样本提取方法、存储介质、电子设备及系统
CN110166651A (zh) * 2019-05-23 2019-08-23 软通智慧科技有限公司 一种导播方法、装置、终端设备及存储介质
CN110738026A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备
CN111787243A (zh) * 2019-07-31 2020-10-16 北京沃东天骏信息技术有限公司 导播方法、装置及计算机可读存储介质
CN112597966A (zh) * 2021-01-05 2021-04-02 武汉球之道科技有限公司 一种基于比赛视频的动作自动识别方法
CN112861540A (zh) * 2021-04-25 2021-05-28 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻关键词自动抽取方法
CN113282977A (zh) * 2021-03-19 2021-08-20 广州天越电子科技有限公司 一种基于NLP技术bert模型的CAD中文输入快捷命令方法
CN114550067A (zh) * 2022-02-28 2022-05-27 新华智云科技有限公司 一种体育赛事自动直播与导播方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872786B (zh) * 2016-05-31 2019-06-14 无锡天脉聚源传媒科技有限公司 一种在节目中通过弹幕投放广告的方法及装置
CN106547908B (zh) * 2016-11-25 2020-03-17 三星电子(中国)研发中心 一种信息推送方法和系统
CN109788345B (zh) * 2019-03-29 2020-03-10 广州虎牙信息科技有限公司 直播控制方法、装置、直播设备及可读存储介质
US11158349B2 (en) * 2019-04-29 2021-10-26 Vineet Gandhi Methods and systems of automatically generating video content from scripts/text
CN212588503U (zh) * 2020-04-20 2021-02-23 南京西觉硕信息科技有限公司 一种嵌入式音频播放装置
WO2021225608A1 (en) * 2020-05-08 2021-11-11 WeMovie Technologies Fully automated post-production editing for movies, tv shows and multimedia contents
CN111625649A (zh) * 2020-05-28 2020-09-04 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112911324B (zh) * 2021-01-29 2022-10-28 北京达佳互联信息技术有限公司 直播间的内容展示方法、装置、服务器以及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521340A (zh) * 2011-12-08 2012-06-27 中国科学院自动化研究所 一种基于角色的电视剧视频分析方法
WO2014126497A1 (ru) * 2013-02-14 2014-08-21 Ооо "Базелевс Инновации" Автоматическая съемка и монтаж видеоролика
CN106803890A (zh) * 2017-03-09 2017-06-06 阔地教育科技有限公司 一种自动导播方法及装置
CN109104639A (zh) * 2017-06-20 2018-12-28 阿里巴巴集团控股有限公司 直播系统、确定直播视频主题的方法、装置以及电子设备
CN109213841A (zh) * 2017-06-29 2019-01-15 武汉斗鱼网络科技有限公司 直播主题样本提取方法、存储介质、电子设备及系统
CN110166651A (zh) * 2019-05-23 2019-08-23 软通智慧科技有限公司 一种导播方法、装置、终端设备及存储介质
CN111787243A (zh) * 2019-07-31 2020-10-16 北京沃东天骏信息技术有限公司 导播方法、装置及计算机可读存储介质
CN110738026A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备
CN112597966A (zh) * 2021-01-05 2021-04-02 武汉球之道科技有限公司 一种基于比赛视频的动作自动识别方法
CN113282977A (zh) * 2021-03-19 2021-08-20 广州天越电子科技有限公司 一种基于NLP技术bert模型的CAD中文输入快捷命令方法
CN112861540A (zh) * 2021-04-25 2021-05-28 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻关键词自动抽取方法
CN114550067A (zh) * 2022-02-28 2022-05-27 新华智云科技有限公司 一种体育赛事自动直播与导播方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN116152711A (zh) 2023-05-23
CN115115994A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
Cheng et al. Fully convolutional networks for continuous sign language recognition
Iashin et al. Multi-modal dense video captioning
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
Prudviraj et al. AAP-MIT: Attentive Atrous Pyramid Network and Memory Incorporated Transformer for Multisentence Video Description
Wang et al. Watch, listen, and describe: Globally and locally aligned cross-modal attentions for video captioning
Zhang et al. Learning affective features with a hybrid deep model for audio–visual emotion recognition
Baltrušaitis et al. Multimodal machine learning: A survey and taxonomy
Chung et al. Lip reading in the wild
CN108986186A (zh) 文字转化视频的方法和系统
Dilawari et al. ASoVS: abstractive summarization of video sequences
Paraskevopoulos et al. Multiresolution and multimodal speech recognition with transformers
Liu et al. Multistage fusion with forget gate for multimodal summarization in open-domain videos
US11790271B2 (en) Automated evaluation of acting performance using cloud services
El Khoury et al. Audiovisual diarization of people in video content
Xu et al. Ava-avd: Audio-visual speaker diarization in the wild
Bull et al. Aligning subtitles in sign language videos
Sheng et al. Deep learning for visual speech analysis: A survey
Ma et al. Unpaired image-to-speech synthesis with multimodal information bottleneck
Papalampidi et al. Movie summarization via sparse graph construction
Hori et al. Multimodal attention for fusion of audio and spatiotemporal features for video description
Tian et al. An attempt towards interpretable audio-visual video captioning
Oghbaie et al. Advances and challenges in deep lip reading
Chang et al. Event-centric multi-modal fusion method for dense video captioning
CN113609922A (zh) 基于模态匹配的连续手语语句识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant