CN104199933B - 一种多模态信息融合的足球视频事件检测与语义标注方法 - Google Patents

一种多模态信息融合的足球视频事件检测与语义标注方法 Download PDF

Info

Publication number
CN104199933B
CN104199933B CN201410449960.6A CN201410449960A CN104199933B CN 104199933 B CN104199933 B CN 104199933B CN 201410449960 A CN201410449960 A CN 201410449960A CN 104199933 B CN104199933 B CN 104199933B
Authority
CN
China
Prior art keywords
event
video
semantic
football
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410449960.6A
Other languages
English (en)
Other versions
CN104199933A (zh
Inventor
于俊清
王赠凯
何云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410449960.6A priority Critical patent/CN104199933B/zh
Publication of CN104199933A publication Critical patent/CN104199933A/zh
Application granted granted Critical
Publication of CN104199933B publication Critical patent/CN104199933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames

Abstract

本发明公开一种多模态信息融合的足球视频事件检测与语义标注方法,包括:利用潜在语义分析方法检测互联网赛况报道文本描述语句的事件类型;检测足球视频中级语义对象,划分场地区域并进行攻防转换分析,确定视频事件片段的边界;根据中圈和哨声检测结果确定比赛开始时间,利用贝叶斯网络实现攻防片段的初始语义分类;在文本描述中的粗粒度时间信息的约束下,根据文本和视频片段的语义同步文本描述和视频事件,实现足球视频事件的语义标注。本发明方法融合互联网文本信息和视频内在视听特征分析足球视频,提高了视频事件及其边界检测的准确率,实现了足球视频内容的富语义标注,为建立基于语义的视频索引机制打下坚实的基础。

Description

一种多模态信息融合的足球视频事件检测与语义标注方法
技术领域
本发明属于基于内容的视频检索领域,具体涉及一种多模态信息融合的足球视频事件检测和语义标注方法。
背景技术
随着计算机技术,存储技术和网络技术的高速发展以及各种数码终端和移动设备的不断更新,视频数据量以爆炸式的速度不断增长。同时,由于获取信息的时间、地点和方式逐渐不受限制,使得人们对于视频检索的需求大大增加。如何使人们快速从海量的视频数据中找到自己感兴趣的视频片段已成为一种迫切的需求,能够满足这一需求的技术便是目前人们普遍关注的基于内容的视频检索(CBVR,Content Based Video Retrieval)技术。视频标注是CBVR领域的关键技术,也称为视频概念检测或者高层语义分析,是指根据视频所体现的内容按概念对其赋予标识和语义。视频标注是建立视频索引,实现基于内容的视频检索的基础。从手工标注、半自动标注到自动标注,视频标注已经成为CBVR领域的研究难点和热点,视频标注的准确性和语义丰富性是视频检索质量的关键因素,也是基于内容的视频检索系统成败的关键。由于视频数据本身的复杂性、不确定性和现有的条件所限,针对通用视频的自动标注很难实现,目前人们还无法利用通用的特征或方法对不同类型内容的视频进行分析。体育视频分析是近几年非常受关注的视频类型,而足球运动作为世界上最流行的体育运动,有着非常广泛的受众群体和巨大的商业价值。以足球视频为研究对象来研究如何从大量的足球视频找到用户感兴趣的视频内容,并能对其进行详细的语义描述,满足广大用户的需求,具有很高学术价值和应用前景。
针对足球视频事件检测和标注的研究吸引国内外学术界和工业界的众多研究人员和研究机构重视,也涌现出许多好的研究成果。从基于单一模态的听觉、视觉等特征的足球视频分析,到基于多模态特征的足球视频分析;从利用启发式规则的事件检测方法,到利用各种机器学习模型的事件检测方法,研究人员提出了许多方法,在一定程度上推动了足球视频检索技术的发展。然而,受限于人工智能和机器视觉领域的发展,视频分析领域存在众所周知的“语义鸿沟”(Semantic Gap)问题,即视频底层特征和高层语义之间存在着语义隔阂,如何有效地填补“语义鸿沟”从而提高语义级视频检索效率和服务质量已经成为CBVR的研究难点和最为关键的问题。例如,在足球比赛视频中,目前通过音视频分析,可以初步确定一些典型事件(射门、进球、犯规、角球等)的位置,但无法确定是哪位球员通过何种方式射门或者进球。现有的研究表明,“语义鸿沟”的存在导致单纯依靠视频数据本身内在的音视频特征分析,很难准确地检测出视频中的事件,并自动标注视频事件的语义,视频标注结果的粒度和准确性无法满足实际的需求,已经成为阻碍视频搜索引擎实用化的瓶颈。
为了实现视频事件的检测和语义标注,研究人员寻求利用视频外部资源来辅助视频内容的分析。目前所利用的视频外部资源主要有转录字幕和网络直播文本。转录字幕是通过语音识别技术转录生成的文字,如新闻解说和场景对话等。但转录字幕的输出质量依赖于视频的质量和语音识别技术,并且转录字幕包含大量与视频事件无关的描述,很难得到有效利用。网络直播文本是在体育比赛进行时,专业的体育网站在其页面上进行的同步文字直播,具有较强的实时性。现有的研究工作主要基于具有精确时间信息的网络直播文本,通过对视频内时钟的识别来建立文本描述和视频内容的对应关系。然而,第一,大多数网络直播文本的时间信息并不精确,一般是分钟级的时间信息;第二,体育网站只对国际上的重要或著名赛事进行网络文字直播,还有许多赛事只进行赛后的新闻报道,也就是说网络直播文本的通用性不强;第三,由于视频时间条存在透明、位置变化、风格变化、时隐时现、分辨率不高等不利因素,视频时钟的精确识别还面临较大的挑战。
发明内容
为了解决上述技术问题,本发明提供一种多模态信息融合的足球视频事件检测与语义标注方法,其目的在于充分利用视频内在视听特征,并结合视频外部文本信息,解决足球视频事件的检测和富语义标注问题,为实现基于内容的足球视频检索打下坚实的基础。
实现本发明目的所采用的具体技术方案如下:
一种多模态信息融合的足球视频事件检测与语义标注方法,通过对互联网文本和视频内在视听特征等多模态信息的综合利用,实现足球视频事件的检测和富语义标注,包括以下步骤:
(1)从互联网上爬取足球比赛对应的赛况报道文本,利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;
(2)检测足球比赛对应视频中的多种中级语义对象,所述中级语义对象包括球门、球场标志线、中圈以及哨声;并划分场地区域;
(3)根据场地区域划分结果进行攻防转换分析,确定视频事件片段的边界;
(4)根据中圈和哨声检测结果确定比赛开始时间,利用贝叶斯网络实现攻防视频事件片段的初始语义分类;
(5)在文本描述中的粗粒度时间信息的约束下,根据步骤(1)中得到的文本事件类型和步骤(4)中得到攻防视频事件片段的初始语义分类同步文本描述和视频事件片段,实现足球视频事件的富语义标注。
本发明对互联网上赛况报道文本进行分析,改进足球视频多种中级语义对象的提取方法,利用攻防转换分析和事件时域转换模式有效确定事件边界,在文本描述中粗粒度时间信息的约束下同步文本事件描述和视频事件片段,实现足球视频内容的富语义标注。具体步骤如下:
(1)互联网文本的获取和分析
利用网络爬虫和Web信息抽取技术获取比赛对应的赛况报道文本;对赛况报道文本进行分词、无关词过滤和语句分割处理;利用预先建立的LSA模型计算语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;利用正则表达式提取语句的时间、相关球员、球员所属队伍、和事件语义描述,加上前述的事件类别共获取五种文本元数据。
(2)足球视频中级语义对象检测
利用马尔科夫随机场模型检测足球视频比赛场地;利用支持向量机检测球门;采用基于直方图的快速中圈检测方法检测中圈;从图像处理的角度利用Hough变换检测足球比赛音频中的哨声。
(3)足球视频事件及边界检测
在对足球视频进行镜头分割和分类后,根据比赛-暂停结构分析理论把足球视频划分成连续的比赛-暂停(Play break,PB)结构片段;根据场地区域划分方法对PB结构片段远镜头进行攻防转换分析;检测PB结构片段中的攻防转换点,结合视频事件时域转换模式将PB片段中最后一个攻防转换点到最后一个特写镜头或回放镜头的片段作为视频事件的起止边界。
(4)足球视频事件语义标注
根据中圈和哨声检测结果确定视频中比赛起始时间;提取攻防片段中的回放场景持续时间(RPD),精彩度(EXC),远镜头比率(FVR),球门比率(GMR),哨声(WHS)和标题条(CAP)共六个特征,利用贝叶斯网络将攻防片段分类为进球、射门和犯规三种类型;在文本事件描述中的粗粒度时间信息(分钟级时间)的约束下,根据文本事件和视频事件的类型同步文本描述和视频事件片段,实现足球视频事件的语义标注。
本发明对足球比赛视频内容进行分析,改进了多个中级语义对象检测方法的性能,提高了视频事件检测的准确率和事件边界准确率,结合互联网上赛况报道文本的分析,在不精确时间信息约束条件下,根据文本描述和视频事件的语义类型同步文本和视频事件,实现了足球视频事件的富语义标注,为基于内容的视频检索打下良好的基础。具体而言,本发明具有以下优点:
(1)结合足球视频的特点,提出了一种快速准确的足球视频中圈检测方法。
(2)提出了一种基于Hough变换的哨声检测方法,提高了哨声检测的准确率。有别于传统的基于音频特征分析的哨声检测方法,本发明根据哨声频率的特点,从图像处理的角度分析音频语谱图,采用Hough变换检测足球视频中的哨声,提高了哨声检测的准确率。
(3)提高了视频事件边界检测的准确率。本发明对足球视频PB结构片段进行攻防转换分析,结合视频事件时域转换模式确定视频事件边界,提高了足球视频事件边界检测的准确率。
(4)解决了利用具有非精确时间信息的网络文本,实现文本和视频事件同步的问题。本发明在非精确时间信息的约束下,首先检测比赛起始时间,然后根据文本事件和视频事件的语义类型实现文本和视频事件的同步。
(5)实现了足球视频事件的富语义标注。本发明利用互联网上语义描述内容丰富的赛况报道文本来实现足球视频事件的语义标注,相比网络直播文本,赛况报道文本对精彩事件的描述更加具体,内容更加丰富。
附图说明
图1为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的总体流程示意图;
图2为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的足球视频事件时域转换模式示意图;
图3为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的赛况报道文本分析过程示意图;
图4为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的哨声检测流程图;
图5为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的球场区域划分流程图;
图6为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的攻防转换分析示意图;
图7为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的贝叶斯网络结构示意图;
图8为本发明提供的一种多模态信息融合的足球视频事件检测与语义标注方法的文本-视频事件同步过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明一种多模态信息融合的足球视频事件检测与语义标注方法的总体流程示意图,主要包括三个阶段:文本分析阶段,训练LSA分类模型,检测文本描述语句的事件类型,提取文本事件元数据;视频分析阶段,提取足球视频中级语义对象,对PB结构片段进行攻防转换分析,结合事件时域转换模式(图2)确定视频事件的边界;文本-视频事件同步阶段,在文本描述中的不精确时间信息的约束条件下,根据文本事件和视频事件的类型同步文本事件描述和视频事件,实现足球视频事件的富语义标注。具体包括如下步骤:
(1)互联网文本的获取和分析
利用网络爬虫从体育网站如sports.people.com.cn,sports.sina.com.cn,sports.sohu.com,sports.qq.com等爬取比赛对应的赛况报道文本;对赛况报道文本进行分词、无关词过滤和语句分割处理;利用预先建立的潜在语义分析(Latent SemanticAnalysis,LSA)模型计算语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;利用正则表达式提取语句的时间、相关球员及球员所属队伍。检测到的文本事件可以表示为一个四元组TE(t,c,p,d),t表示事件发生时间,c表示文本事件的类型,p表示事件涉及的球员及球员所属队伍信息,d表示事件的文本描述。如图3所示,其中利用LSA进行文本事件类型检测包括模型训练和语句分类两个阶段,LSA训练阶段步骤如下:
步骤1:将互联网上爬取的赛况报道文本作为训练语料,对所有的训练语料进行分词;
步骤2:去除训练语料中的无关词汇,包括停词、球员和球队名词等;
步骤3:构建词条-文档矩阵Xm×n。其中矩阵Xm×n的行对应词条,列对应事件文档,即m表示词条的数目,n为语料库中事件类型的数目,一般地,m>n。Xm×n中每个元素为词条在其对应事件类型中的tf-idf权重。这里tf表示词条在相应事件训练语料中出现的频次,idf为词条的倒排文档频率;
步骤4:利用下式对词条-文档矩阵Xm×n进行奇异值分解;
式中,T为列正交矩阵,T中的每一列称为左奇异向量;S为对角矩阵,其对角线上的元素为由大到小降序排列的非负奇异值;D为正交矩阵;
步骤5:选取矩阵Sn×n的前k(k<n)个最大奇异值(前k个奇异值之和占所有奇异值之和的比率大于80%),并选取前k个最大奇异值分别对应于矩阵Tm×n和矩阵Dn×n中的列向量,通过下式计算词条-文档矩阵Xm×n的低阶近似矩阵
步骤6:构建训练语料事件集的潜在语义矩阵En×k如下:
En×k=Dn×k×Sk×k
En×k的每一行即表示相应类型的事件在潜在语义空间中的坐标。
文本事件分类阶段步骤如下:
步骤1:对输入的赛况报道文本进行事件描述语句分割(Event DescriptionSentence Segmentation,EDSS)。通常,在赛况报道中每一个句子用来描述一个事件,这里根据中文句子的结束标记即句号、感叹号来实现EDSS;
步骤2:把每个事件描述语句看做一个查询文档,根据训练阶段建立的词条-文档矩阵Xm×n中词条的排序构建该查询文档的查询向量Xq,Xq的每个元素为相应词条在该查询文档中出现的频次;
步骤3:将查询向量Xq映射到潜在语义空间,得到其潜在语义表达向量Dq
步骤4:计算Dq和第i类事件Ei的相似度sim(Dq,Ei):
式中,Ei为潜在语义矩阵En×k第i行的行向量,即第i类事件在潜在语义空间的表示。j为向量Dq和Ei相应位置元素的下标;
步骤5:选择和查询向量Dq具有最大相似度的潜在语义事件向量并将Dq归类为对应的事件类型,表示为
(2)足球视频中级语义对象检测
该步骤主要是对足球视频内在的视听特征进行分析,以辅助其后的视频事件检测、视频事件边界确定和视频事件分类。利用OpenCV机器视觉库提取足球视频中的球门、球场标志线、中圈和哨声等中级语义对象。其中,球门、球场标志线和中圈用来划分场地区域,球门和哨声作为视频事件分类时的特征。球门和球场标志线的检测可以采用现有的方法,如文献于俊清和张强等,“利用回放场景和情感激励检测足球视频精彩镜头,计算机学报,2014,37(6):1268-1280”中描述的方法。中圈的检测步骤如下:
步骤1:在检测到的球场线中选取角度在[80°,100°],长度大于H/3的直线作为球场中垂线HL,这里H为输入图像帧F的高度。
步骤2:旋转图像帧F使得HL垂直,旋转后的图像表示为Fr。根据直线检测结果,可以检测到椭圆的上下候选水平切线,设一共检测到m对候选水平切线。对于第i对候选水平切线TLup,i、TLdown,i与中垂线HL的交点分别为pup,i(xup,i,yup,i),pdown,i(xdown,i,ydown,i),则圆心(xc,i,yc,i)和短半轴bi可以计算如下:
xc,i=(xup,i+xdown,i)/2
yc,i=(yup,i+ydown,i)/2
bi=(ydown,i-yup,i)/2
步骤3:图像帧中椭圆的长轴ai和短轴bi之间满足比例关系α和β分别长短轴比率的下限和上限,这里α和β分别设置为2和5。设椭圆Eα,i(xc,i,yc,i,aα,i,bα,i)和Eβ,i(xc,i,yc,i,aβ,i,bβ,i),其中aα,i=α×bi,aβ,i=β×bi,bα,i=bi-δ,bβ,i=bi+δ。对于如果d(p,Eα,i)>0&d(p,Eβ,i)<0,则p∈Si,Si={si,1,si,2,si,3,…,si,n}表示采集的候选样本点集合,n为样本点的个数。
步骤4:对于每个样本点s∈Si,计算其对应的长半轴的值,则得到椭圆长半轴ai的解空间为Ai={ai,1,ai,2,ai,3,…,ai,n}。设ai,max=max(Ai),ai,min=min(Ai),在区间[ai,min,ai,max]上以σ(经验值)等间隔统计累积直方图HTi。设j表示直方图HTi中间隔的下标,indexi=arg maxj(HTi),则长半轴ai计算如下:
步骤5:经过上述步骤估计出的椭圆表示为Ei(xc,i,yc,i,ai,bi),统计Ei在图像Fr上的可见部分的弧长Li。根据测度函数M(E)对估计椭圆Ei进行校验,M(E)定义如下:
其中,椭圆Ein,i(xc,i,yc,i,ai-δ,bi-δ)和Eout,i(xc,i,yc,i,ai+δ,bi+δ)分别为Ei的内椭圆和外椭圆。设i*=arg maxi(Mi(Ei)),如果即为检测到的椭圆,否则没有检测到椭圆。考虑到足球视频图像帧中白色椭圆线具有一定的像素宽度,这里δ设置为8。
利用如FFmpeg等音视频解码器将音频信号从足球视频中分离出来,再对音频信号进行处理,以检测哨声。图4给出了哨声检测的流程图,具体步骤如下:
步骤1:设置音频帧长FrameLen和帧移FrameInc参数;
步骤2:读入音频片段进行预加重处理,以减少尖锐噪声影响,提升高频信号;
步骤3:将音频片段分帧,以利用音频信号短时平稳的特性,并对音频帧加汉明窗,以减少频谱泄露;
步骤4:根据下式对音频信号进行短时傅里叶变换,得到其语谱图。式中,x(m)为音频信号序列,w(n)为实数窗序列;
步骤5:基于Ostu自适应阈值对音频片段语谱图二值化;
步骤6:利用Hough变换检测二值图像中的直线段;
步骤7:遍历检测到的所有直线段,如果在3000Hz至4500Hz频率之间存在持续时间超过0.1秒的直线段,则认为该音频片段为哨声片段;否则为非哨声片段。
(3)足球视频事件及边界检测
利用OpenCV对解码出来的足球视频帧进行镜头分割,并判断其镜头类型。镜头分割可利用文献张玉珍和王建宇等,“基于自适应双阈值和主色率的足球视频镜头的分割”,南京理工大学学报(自然科学版),2009,33(4):432-437中的方法。镜头分类可以利用文献于俊清和王宁,“基于子窗口区域的足球视频镜头分类”中国图象图形学报,2008,13(7):1347-1352中的方法。对于远镜头,根据球场标志线、球门和中圈进行区域划分,图5给出了球场区域划分流程图。根据球门前两条平行线的斜率、中圈和球门三个特征,采用决策树划分场地区域,将场地划分为左边球门区LGZ,左边角球区LCZ,右边球门区RGZ,右边角球区RCZ,中圈区域MCZ和其他区域OZ。根据球场区域划分结果进行攻防转换分析,从而进一步确定足球视频事件边界。图6给出了攻防转换分析示意图,其中F表示远镜头,M表示中镜头,C表示特写镜头,O表示观众镜头,R表示回放镜头。根据前述对球场区域的划分结果,当摄像机拍摄区域从一个半场越过中场移动到另一个半场时,即认为发生了攻防转换,“*”标记的位置为攻防转换点。当前PB结构片段中最后一个攻防转换点被认为是事件的起始边界,最后一个特写镜头或回放镜头结束位置被认为是事件的终止边界。
(4)确定比赛开始时间,利用贝叶斯网络实现攻防片段的初始语义分类
该步骤的主要任务是在文本事件描述和视频事件之间建立对应关系。由于视频的开始时间不一定是比赛的开始时间,所以需要首先检测比赛起始时间。在足球视频的开始时间段内,如果有中圈持续出现一段时间,并且随后有长哨声被检测到,则认为哨声被检测到的时间就是比赛起始时间GST。接下来,采用贝叶斯网络对视频事件片段进行语义分类。图7给出了用于视频事件片段语义分类的贝叶斯网络结构,所使用的特征包括回放场景持续时间(RPD),精彩度(EXC),远镜头比率(FVR),球门比率(GMR),哨声(WHS)和标题条(CAP)。贝叶斯网络理论为可以参考文献Friedman,N.,D.Geiger,and M.Goldszmidt,“Bayesiannetwork classifiers”Machine Learning,1997,29(2-3):131-163。
(5)足球视频事件语义标注
最后,在文本中粗粒度时间信息的约束条件下,根据文本事件类型和视频事件类型实现文本-视频事件的同步。图8给出了文本-视频事件同步过程示意图,具体步骤如下:
步骤1:对于第k个文本事件TEk(tk,ck,pk,dk),根据下式计算该文本事件在视频中的参考帧索引rfk
rfk=GST+tk×60×fr
其中,GST为步骤(4)中检测到的比赛起始时间,fr为视频的帧率;
步骤2:从参考帧rfk分别向前和向后查找3个攻防片段作为候选视频事件片段。
步骤3:对于第i个候选视频事件片段,提取观察值Oi,作为贝叶斯网络的输入证据,计算第i个候选视频事件片段属于ck的概率pi(ck|Oi))。
步骤4:根据下式从候选视频事件片段中选取和TEk事件类型一致的,具有最大概率的视频片段作为最佳匹配事件片段。
式中,i*表示和TEk最匹配的攻防片段。
步骤5:在文本事件TEk和视频事件片段i*之间建立对应关系,得到语义标注结果,表示为Ak(tk,sfk,efk,ck,pk,dk),其中

Claims (9)

1.一种多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,包括以下步骤:
(1)从互联网上爬取足球比赛对应的赛况报道文本,利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;
所述步骤(1)中利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量,具体包括:
步骤(1.1.1):将互联网上爬取的赛况报道文本作为训练语料,对所有的训练语料进行分词;
步骤(1.1.2):去除训练语料中的无关词汇,包括停词、球员和球队名词;
步骤(1.1.3):构建词条-文档矩阵Xm×n;其中矩阵Xm×n的行对应词条,列对应事件文档,即m表示词条的数目,n为语料库中事件类型的数目,Xm×n中每个元素为词条在其对应事件类型中的tf-idf权重,tf表示词条在相应事件训练语料中出现的频次,idf为词条的倒排文档频率;
步骤(1.1.4):利用下式对词条-文档矩阵Xm×n进行奇异值分解;
X m × n = T m × n × S n × n × D n × n T
式中,T为列正交矩阵,T中的每一列称为左奇异向量;S为对角矩阵,其对角线上的元素为由大到小降序排列的非负奇异值;D为正交矩阵;
步骤(1.1.5):选取矩阵Sn×n的前k个最大奇异值,k<n,并选取前k个最大奇异值分别对应于矩阵Tm×n和矩阵Dn×n中的列向量,通过下式计算词条-文档矩阵Xm×n的低阶近似矩阵
X ^ m × n = T m × k × S k × k × D n × k T
步骤(1.1.6):构建训练语料事件集的潜在语义矩阵En×k如下:
En×k=Dn×k×Sk×k
En×k的每一行即表示相应类型的事件在潜在语义空间中的坐标;
(2)检测足球比赛对应视频中的多种中级语义对象,所述中级语义对象包括球门、球场标志线、中圈以及哨声;并划分场地区域;
(3)根据场地区域划分结果进行攻防转换分析,确定视频事件片段的边界;
(4)根据中圈和哨声检测结果确定比赛开始时间,利用贝叶斯网络实现攻防视频事件片段的初始语义分类;
(5)在文本描述中的粗粒度时间信息的约束下,根据步骤(1)中得到的文本事件类型和步骤(4)中得到攻防视频事件片段的初始语义分类同步文本描述和视频事件片段,实现足球视频事件的富语义标注。
2.根据权利要求1所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(1)中计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别,具体包括:
步骤(1.2.1):对输入的赛况报道文本进行事件描述语句分割(Event DescriptionSentence Segmentation,EDSS),在赛况报道中每一个句子用来描述一个事件,这里根据中文句子的结束标记即句号、感叹号来实现EDSS;
步骤(1.2.2):把每个事件描述语句看做一个查询文档,根据训练阶段建立的词条-文档矩阵Xm×n中词条的排序构建该查询文档的查询向量Xq,Xq的每个元素为相应词条在该查询文档中出现的频次;
步骤(1.2.3):将查询向量Xq映射到潜在语义空间,得到其潜在语义表达向量Dq
D q = X q T × T m × k × S n × n - 1
步骤(1.2.4):计算Dq和第i类事件Ei的相似度sim(Dq,Ei):
s i m ( D q , E i ) = Σ j D q , j × E i , j Σ j D q , j 2 × Σ j E i , j 2
式中,Ei为矩阵En×k第i行的行向量,即第i类事件在潜在语义空间的表示;j为向量Dq和Ei相应位置元素的下标;
步骤(1.2.5):选择和查询向量Dq具有最大相似度的潜在语义事件向量Ei*,并将Dq归类为Ei*对应的事件类型,表示为
i*=arg max1≤i≤n(sim(Dq,Ei))。
3.根据权利要求1至2任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(2)中检测中圈的步骤包括:
步骤(2.1.1):在检测到的球场线中选取角度在[80°,100°],长度大于H/3的直线作为球场中垂线HL,这里H为输入图像帧F的高度;
步骤(2.1.2):旋转图像帧F使得HL垂直,旋转后的图像表示为Fr;根据直线检测结果,可以检测到椭圆的上下候选水平切线,设一共检测到m对候选水平切线;对于第i对候选水平切线TLup,i、TLdown,i与中垂线HL的交点分别为pup,i(xup,i,yup,i),pdown,i(xdown,i,ydown,i),则圆心(xc,i,yc,i)和短半轴bi可以计算如下:
xc,i=(xup,i+xdown,i)/2
yc,i=(yup,i+ydown,i)/2
bi=(ydown,i-yup,i)/2
步骤(2.1.3):图像帧中椭圆的长轴ai和短轴bi之间满足比例关系α和β分别长短轴比率的下限和上限;设椭圆Eα,i(xc,i,yc,i,aα,i,bα,i)和Eβ,i(xc,i,yc,i,aβ,i,bβ,i),其中aα,i=α×bi,aβ,i=β×bi,bα,i=bi-δ,bβ,i=bi+δ;对于如果d(p,Eα,i)>0&d(p,Eβ,i)<0,则p∈Si,Si={si,1,si,2,si,3,…,si,n}表示候选样本点集合,n为样本点的个数;
步骤(2.1.4):对于每个样本点s∈Si,计算其对应的长半轴的值,则得到椭圆长半轴ai的解空间为Ai={ai,1,ai,2,ai,3,…,ai,n};设ai,max=max(Ai),ai,min=min(Ai),在区间[ai,min,ai,max]上以σ等间隔统计累积直方图HTi,σ为经验值;设j表示直方图HTi中间隔的下标,indexi=arg maxj(HTi),则长半轴ai计算如下:
步骤(2.1.5):经过上述步骤估计出的椭圆表示为Ei(xc,i,yc,i,ai,bi),统计Ei在图像Fr上的可见部分的弧长Li;根据测度函数M(E)对估计椭圆Ei进行校验,M(E)定义如下:
M i ( E i ) = ( Σ s ∈ S i ψ ( s ) ) / L i
&psi; i ( s ) = 1 i f d ( s , E i n , i ) > 0 a n d d ( s , E o u t , i ) ) < 0 0 o t h e r w i s e
其中,椭圆Ein,i(xc,i,yc,i,ai-δ,bi-δ)和Eout,i(xc,i,yc,i,ai+δ,bi+δ)分别为Ei的内椭圆和外椭圆;设i*=arg maxi(Mi(Ei)),如果Mi*(Ei*)>t,则Ei*即为检测到的椭圆,否则没有检测到椭圆。
4.根据权利要求1至2任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(2)中的检测哨声的步骤包括:
步骤(2.2.1):设置音频帧长FrameLen和帧移FrameInc参数;
步骤(2.2.2):读入音频片段进行预加重处理,以减少尖锐噪声影响,提升高频信号;
步骤(2.2.3):将音频片段分帧,以利用音频信号短时平稳的特性,并对音频帧加汉明窗,以减少频谱泄露;
步骤(2.2.4):根据下式对音频信号进行短时傅里叶变换,得到其语谱图;式中,x(m)为音频信号序列,w(n)为实数窗序列;
X n ( e j &omega; ) = &Sigma; m = - &infin; &infin; x ( m ) w ( n - m ) e - j &omega; m
步骤(2.2.5):基于Ostu自适应阈值对音频片段语谱图二值化;
步骤(2.2.6):利用Hough变换检测二值图像中的直线段;
步骤(2.2.7):遍历检测到的所有直线段,如果在3000Hz至4500Hz频率之间存在持续时间超过0.1秒的直线段,则认为该音频片段为哨声片段;否则为非哨声片段。
5.根据权利要求1至2任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(2)中划分场地区域具体包括:
采用决策树划分场地区域,将场地划分为左边球门区LGZ,左边角球区LCZ,右边球门区RGZ,右边角球区RCZ,中圈区域MCZ和其他区域OZ。
6.根据权利要求1至2任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(3)中视频事件边界通过攻防转换分析和事件时域转换模式来确定,视频事件边界起始于PB片段最后一个攻防转换点,结束于特写镜头或回放镜头。
7.根据权利要求1至2任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(4)根据中圈和哨声确定比赛起始时间:
在足球视频的开始时间段内,如果有中圈持续出现一段时间,并且随后有长哨声被检测到,则认为哨声被检测到的时间就是比赛起始时间。
8.根据权利要求1至2任一项所述的多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(4)中利用贝叶斯网络实现攻防片段的初始语义分类,具体包括:
根据下述特征:回放场景持续时间(RPD),精彩度(EXC),远镜头比率(FVR),球门比率(GMR),哨声(WHS)和标题条(CAP),利用贝叶斯网络将足球视频攻防片段分类为进球、射门和犯规三种类型。
9.根据权利要求1至2任一项所述的一种多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,所述步骤(5)中根据文本和视频片段的语义同步文本和视频事件,具体包括如下步骤:
步骤(5.1):对于第k个文本事件TEk(tk,ck,pk,dk),其中,tk表示第k个文本事件的时间,ck表示第k个文本事件的类型,pk表示第k个文本事件相关的球员及球员所属队伍信息,dk表示第k个文本事件的语义描述,根据下式计算该文本事件在视频中的参考帧索引rfk
rfk=GST+tk×60×fr
其中,GST为步骤(4)中检测到的比赛起始时间,fr为视频的帧率;
步骤(5.2):从参考帧rfk分别向前和向后查找3个攻防片段作为候选视频事件片段;
步骤(5.3):对于第i个候选视频事件片段,提取观察值Oi,作为贝叶斯网络的输入证据,计算第i个候选视频事件片段属于ck的概率pi(ck|Oi));
步骤(5.4):根据下式从候选视频事件片段中选取和TEk事件类型一致的,具有最大概率的视频片段作为最佳匹配事件片段;
i * = arg max i ( p i )
式中,i*表示和TEk最匹配的攻防片段;
步骤(5.5):在文本事件TEk和视频事件片段i*之间建立对应关系,得到语义标注结果,表示为Ak(tk,sfk,efk,ck,pk,dk),其中sfk=sfi*,efk=efi*
CN201410449960.6A 2014-09-04 2014-09-04 一种多模态信息融合的足球视频事件检测与语义标注方法 Active CN104199933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410449960.6A CN104199933B (zh) 2014-09-04 2014-09-04 一种多模态信息融合的足球视频事件检测与语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410449960.6A CN104199933B (zh) 2014-09-04 2014-09-04 一种多模态信息融合的足球视频事件检测与语义标注方法

Publications (2)

Publication Number Publication Date
CN104199933A CN104199933A (zh) 2014-12-10
CN104199933B true CN104199933B (zh) 2017-07-07

Family

ID=52085226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410449960.6A Active CN104199933B (zh) 2014-09-04 2014-09-04 一种多模态信息融合的足球视频事件检测与语义标注方法

Country Status (1)

Country Link
CN (1) CN104199933B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470363B (zh) * 2015-08-18 2019-09-13 阿里巴巴集团控股有限公司 对比赛进行文字直播的方法及装置
US20170083623A1 (en) * 2015-09-21 2017-03-23 Qualcomm Incorporated Semantic multisensory embeddings for video search by text
TWI553494B (zh) * 2015-11-04 2016-10-11 創意引晴股份有限公司 基於多模態融合之智能高容錯視頻識別系統及其識別方法
CN107203570B (zh) * 2016-03-18 2020-02-07 北京京东尚科信息技术有限公司 搜索关键字频度解析方法、装置、电子设备及介质
CN105913072A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 视频分类模型的训练方法和视频分类方法
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
WO2017193263A1 (zh) * 2016-05-09 2017-11-16 华为技术有限公司 数据查询方法、数据查询系统确定方法和装置
US9886621B2 (en) * 2016-05-11 2018-02-06 Microsoft Technology Licensing, Llc Segmenting scenes into sematic components using neurological readings
CN107454437B (zh) * 2016-06-01 2020-04-14 深圳市妙思创想教育科技有限公司 一种视频标注方法及其装置、服务器
EP3473016B1 (en) * 2016-06-20 2024-01-24 Pixellot Ltd. Method and system for automatically producing video highlights
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN106570196B (zh) * 2016-11-18 2020-06-05 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN106708929B (zh) * 2016-11-18 2020-06-26 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN106649713B (zh) * 2016-12-21 2020-05-12 中山大学 一种基于内容的电影可视化处理方法及其系统
CN107247942B (zh) * 2017-06-23 2019-12-20 华中科技大学 一种融合多模态特征的网球视频事件检测方法
CN107577799A (zh) * 2017-09-21 2018-01-12 合肥集知网知识产权运营有限公司 一种基于潜在语义检索模型的大数据专利检索方法
CN109726726B (zh) * 2017-10-27 2023-06-20 北京邮电大学 视频中的事件检测方法及装置
CN110019922B (zh) * 2017-12-07 2021-06-15 北京雷石天地电子技术有限公司 一种音频高潮识别方法和装置
CN108364662B (zh) * 2017-12-29 2021-01-05 中国科学院自动化研究所 基于成对鉴别任务的语音情感识别方法与系统
CN108427951B (zh) * 2018-02-08 2023-08-04 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN108984159B (zh) * 2018-06-15 2021-06-15 浙江网新恒天软件有限公司 一种基于马尔可夫语言模型的缩略词组扩展方法
CN108833969A (zh) * 2018-06-28 2018-11-16 腾讯科技(深圳)有限公司 一种直播流的剪辑方法、装置以及设备
CN109189989B (zh) * 2018-07-23 2020-11-03 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN109710806A (zh) * 2018-12-06 2019-05-03 苏宁体育文化传媒(北京)有限公司 足球比赛数据的可视化方法及系统
CN110188237B (zh) * 2019-06-04 2023-07-25 成都索贝数码科技股份有限公司 一种用于赛事智能制作的数据汇聚系统及方法
CN113869230A (zh) * 2019-08-13 2021-12-31 新华智云科技有限公司 足球进球类型识别方法、装置、系统及存储介质
CN111031330A (zh) * 2019-10-29 2020-04-17 中国科学院大学 一种基于多模态融合的网络直播内容分析方法
CN110796085B (zh) * 2019-10-29 2022-04-22 新华智云科技有限公司 一种基于深度学习物体检测算法的篮球进球片段ab队自动区分的方法
CN110996178B (zh) * 2019-12-05 2020-10-20 浙江大学 一种乒乓球比赛视频的智能交互数据采集系统
CN111209287A (zh) * 2019-12-25 2020-05-29 杭州威佩网络科技有限公司 一种比赛赛程更新方法、装置、电子设备及存储介质
CN113128261A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法及装置、视频处理方法及装置
CN111223026B (zh) * 2020-01-03 2024-03-01 武汉理工大学 垃圾危机转化智能管理方法
CN111259851B (zh) * 2020-01-23 2021-04-23 清华大学 一种多模态事件检测方法及装置
CN112464814A (zh) * 2020-11-27 2021-03-09 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及存储介质
CN112784085A (zh) * 2021-01-19 2021-05-11 杭州睿胜软件有限公司 利用共享图片生成文件的方法、服务器端及可读存储介质
CN113255461B (zh) * 2021-04-29 2023-08-11 嘉兴学院 基于双模深度网络的视频事件检测与语义标注方法及装置
CN113537052B (zh) * 2021-07-14 2023-07-28 北京百度网讯科技有限公司 一种视频片段抽取方法、装置、设备及存储介质
CN113533962B (zh) * 2021-07-29 2022-08-12 上海交通大学 基于多物理信号传感器决策融合的感应电机健康诊断系统
CN113490049B (zh) * 2021-08-10 2023-04-21 深圳市前海动竞体育科技有限公司 一种基于人工智能的体育赛事视频剪辑方法和系统
CN113407660B (zh) * 2021-08-16 2021-12-14 中国科学院自动化研究所 非结构化文本事件抽取方法
CN114417021B (zh) * 2022-01-24 2023-08-25 中国电子科技集团公司第五十四研究所 一种基于时、空、义多约束融合的语义信息精准分发方法
CN116468214B (zh) * 2023-03-07 2023-12-15 德联易控科技(北京)有限公司 一种基于故障事件处理过程的证据电子化方法及电子设备
CN116188821B (zh) * 2023-04-25 2023-08-01 青岛尘元科技信息有限公司 版权检测方法、系统、电子设备和存储介质
CN116402062B (zh) * 2023-06-08 2023-09-15 之江实验室 一种基于多模态感知数据的文本生成方法及装置
CN117556276A (zh) * 2024-01-11 2024-02-13 支付宝(杭州)信息技术有限公司 用于确定文本和视频之间的相似度的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127866A (zh) * 2007-08-10 2008-02-20 西安交通大学 一种检测足球比赛视频精彩片段的方法
CN101650722A (zh) * 2009-06-01 2010-02-17 南京理工大学 基于音视频融合的足球视频精彩事件检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003265318A1 (en) * 2002-08-02 2004-02-23 University Of Rochester Automatic soccer video analysis and summarization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127866A (zh) * 2007-08-10 2008-02-20 西安交通大学 一种检测足球比赛视频精彩片段的方法
CN101650722A (zh) * 2009-06-01 2010-02-17 南京理工大学 基于音视频融合的足球视频精彩事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Event Boundary Determination Based on Attack-defense Transition Analysis in Soccer Video;Zengkai Wang et al;《International conference on digital signal processing》;20140823;第321-326页 *
Live Sports Event Detection Based on Broadcast Video and Web-casting Text;Changsheng Xu et al;《Proceedings of the 14th annual ACM international conference on Multimedia》;20061231;第221-230页 *

Also Published As

Publication number Publication date
CN104199933A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104199933B (zh) 一种多模态信息融合的足球视频事件检测与语义标注方法
Awad et al. Trecvid 2019: An evaluation campaign to benchmark video activity detection, video captioning and matching, and video search & retrieval
Lanagan et al. Using Twitter to detect and tag important events in sports media
CN106921891B (zh) 一种视频特征信息的展示方法和装置
Yang et al. Content based lecture video retrieval using speech and video text information
CN110245259B (zh) 基于知识图谱的视频打标签方法及装置、计算机可读介质
CN103761284B (zh) 一种视频检索方法和系统
Habibian et al. Recommendations for video event recognition using concept vocabularies
US9008489B2 (en) Keyword-tagging of scenes of interest within video content
CN102110399B (zh) 一种辅助解说的方法、装置及其系统
US10652592B2 (en) Named entity disambiguation for providing TV content enrichment
WO2007073349A1 (en) Method and system for event detection in a video stream
CN102427507A (zh) 一种基于事件模型的足球视频集锦自动合成方法
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN102081642A (zh) 搜索引擎检索结果聚类的中文标签提取方法
CN105183849A (zh) 一种斯诺克比赛视频事件检测与语义标注方法
US20180352280A1 (en) Apparatus and method for programming advertisement
Zhao et al. A novel system for visual navigation of educational videos using multimodal cues
Tjondronegoro et al. Multi-modal summarization of key events and top players in sports tournament videos
Kraaij et al. Trecvid 2004-an overview
Baidya et al. LectureKhoj: automatic tagging and semantic segmentation of online lecture videos
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
CN109446399A (zh) 一种影视实体搜索方法
CN106446051A (zh) Eagle媒资深度搜索方法
CN110287376B (zh) 一种基于剧本和字幕分析的抽取重要电影片段的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant