CN111078943A - 一种视频文本摘要生成方法及装置 - Google Patents

一种视频文本摘要生成方法及装置 Download PDF

Info

Publication number
CN111078943A
CN111078943A CN201811216586.XA CN201811216586A CN111078943A CN 111078943 A CN111078943 A CN 111078943A CN 201811216586 A CN201811216586 A CN 201811216586A CN 111078943 A CN111078943 A CN 111078943A
Authority
CN
China
Prior art keywords
video
text
shot
frame
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811216586.XA
Other languages
English (en)
Other versions
CN111078943B (zh
Inventor
韩世范
刘耀
帅远华
黄毅
曹妍
武建才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Medical Journal
Original Assignee
Shanxi Medical Journal
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Medical Journal filed Critical Shanxi Medical Journal
Priority to CN201811216586.XA priority Critical patent/CN111078943B/zh
Publication of CN111078943A publication Critical patent/CN111078943A/zh
Application granted granted Critical
Publication of CN111078943B publication Critical patent/CN111078943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种视频文本摘要生成方法及装置,该方法包括:对视频进行分段处理,计算视频帧差值,滤除不包含镜头边界的视频片段,然后比较视频帧差值与阈值,检测视频镜头边界;对视频帧进行图像信息熵计算及角点检测,得到视频帧显著性值,选取镜头内显著性值最高的视频帧作为视频关键帧;利用领域本体对镜头文本进行主题划分,得到视频主题单元;计算视频主题单元中句子的权重,按照句子权重从高到低选取一定比例的句子生成视频文本摘要。本发明生成的视频文本摘要能够更为全面地覆盖视频主要信息,帮助用户快速浏览视频内容,节省时间以及提高效率。

Description

一种视频文本摘要生成方法及装置
技术领域
本发明属于视频处理技术领域,具体涉及一种视频文本摘要生成方法及装置。
背景技术
随着互联网和多媒体设备的快速发展,视频数据已渗透到我们生活的众多方面,如交通、零售、医疗、教育以及公共安全等领域。视频数量在不断快速增长,用户需要从众多视频中快速查询到想要的视频,判断视频是否满足需求或者快速获取视频主要内容,因此便需要视频摘要技术。
另外,现有技术中对视频摘要技术的研究多为视频关键帧以及缩略视频的研究,较为缺少视频文本摘要的研究。视频文本摘要具有较大应用潜力,特别对于包含丰富文本信息的视频类型,尤其是教育类视频。文献1(赵树娟.基于多模态融合的讲座类视频摘要提取的方法设计与研究[D].北京:北京大学,2014.)利用词汇TFIDF值计算句子重要度,用于生成视频文本摘要,其不足之处在于缺乏对视频的结构化分析和语义分析,只单纯利用视频文本的统计特征,容易造成视频文本摘要的内容覆盖面不全。文献2(Sah S,Kulhare S,Gray A,et al.Semantic Text Summarization of Long Videos[C]//Applications ofComputer Vision.IEEE,2017:989-997.)利用Image Caption深度学习技术对关键帧生成一段语言描述,但是该方法只适用于第一人称的视频类型。综合上述分析,现有视频摘要系统和相关研究中较为缺乏视频文本摘要的发明和研究,并且存在视频文本摘要内容覆盖面不全的问题。
发明内容
有鉴于此,本发明的目的在于提供一种视频文本摘要方法及装置,避免视频文本摘要内容覆盖面不全的问题,帮助用户快速获取视频主要信息,节省时间和提高效率。
为了实现上述发明目的,本发明提供的技术方案如下:
一种视频文本摘要生成方法,包括以下步骤:
步骤1:对视频进行分段处理,计算视频帧差值,滤除不包含镜头边界的视频片段,然后比较视频帧差值与阈值,检测视频镜头边界;
步骤2:对视频帧进行图像信息熵计算及角点检测,得到视频帧显著性值,选取镜头内显著性值最高的视频帧作为视频关键帧;
步骤3:利用领域本体对镜头文本进行主题划分,得到视频主题单元;
步骤4:计算视频主题单元中句子的权重,按照句子权重从高到低选取一定比例的句子生成视频文本摘要。
进一步地,步骤1具体为:
将视频划分为连续视频片段,根据视频帧HSV颜色直方图计算视频片段起始帧和结束帧的帧差值,帧差值计算公式如下:
Figure BDA0001833696790000021
其中,Di是视频片段起始帧和结束帧的帧差值,m表示视频帧中心区域的块数,G为颜色值分级后的等级总数,bj(m,n)表示第j个视频帧在第m区域第n颜色等级上的值;将帧差值Di与阈值T进行比较,如果大于阈值T保留视频片段,否则删除视频片段;
设定一个高阈值Th和低阈值Tl,如果帧差值Di满足
Di>Th,且Di=max(Dall),且
Figure BDA0001833696790000022
则视频帧判定为切变,其中Di表示候选区域第i帧与其后一帧的帧差值,Dall为候选片段内所有帧差值,max(Dl)表示当前候选片段所有相邻帧的帧差值最大值;如果连续帧差值Di大于阈值Tl,且帧差值累加值大于高阈值Th,则视频帧判定为渐变。
进一步地,步骤2具体为:
对每个镜头依次执行:从镜头边界起始帧开始,每隔一帧读入视频帧,直到镜头结束帧为止,对每一视频帧进行图像信息熵计算以及FAST角点检测,将图像信息熵值与角点数值归一化后进行线性加权求和,得到视频帧显著性值;
比较镜头内所有视频帧的显著性值,选取镜头内显著性值最大的视频帧作为视频关键帧。
进一步地,对每一视频帧进行图像信息熵计算的公式为:
Figure BDA0001833696790000023
其中p(k)表示视频帧每一灰度级出现的概率灰度值;
对每一视频帧进行FAST角点检测的算法为:如果像素点p的圆形窗口上存在N个连续像素的颜色强度大于阈值Ip+t或小于阈值Ip-t,则认为该像素点为角点,其中,Ip代表像素点p的灰度值,t代表阈值调节因子,N为正整数。
进一步地,步骤3具体为:
通过视频字幕文本获取镜头文本,如果不存在字幕文本,使用语音识别技术将镜头语音转录为文本,作为镜头文本;通过光学字符识别技术提取视频关键帧文本,加入镜头文本中;
加载领域词典和停用词词典对标题和镜头文本进行分词、去停用词和词性标注,保留名词和动词词汇;然后使用领域本体中的概念、属性及属性值域词汇对镜头文本进行语义标注;
如果语义标注得分SemanticScore大于特定阈值Q,并且镜头文本中同时出现概念、属性和属性值域三者,则镜头文本标注为“概念-属性”语义标签;
对拥有相同语义标签的镜头文本进行聚类,将未分类镜头文本与其他所有镜头文本计算文本相似度,如果相似度大于阈值Q1,得到待归类镜头文本集合,从待归类镜头文本集合中取相似度最大的镜头文本聚为一类,如果相似度小于阈值Q1,单独聚为一类,每一个聚类即为视频主题单元。
进一步地,进行语义标注的规则包括:
规则1:如果视频标题中出现概念,则该概念的所有属性语义标注分数加0.5,否则为0,计算公式如下:
Figure BDA0001833696790000031
其中,count(c,title)表示概念出现在视频标题的次数;
规则2:判断镜头文本中出现概念、属性或者属性值域词汇数量,概念的属性语义标注分数计算公式如下:
Figure BDA0001833696790000032
其中,count(c,text),count(p,text)以及count(pw,text)分别表示概念、属性或者属性值域词汇出现在镜头文本中的次数,count_word(text)表示镜头文本分词、去停用词后的词数;
规则3:判断镜头文本中出现的某属性的属性值域词汇的种类数,概念的属性语义标注分数计算公式如下:
Figure BDA0001833696790000041
其中kind(pw,text)表示镜头文本中出现的某属性下的属性值域词汇的种类数,count_word(pw)表示该属性值域词汇包含的总词数。
进一步地,所述语义标注得分SemanticScore计算公式为:
SemanticScore=α*A+β*B+γ*C
其中,α、β和γ分别表示A、B和C的权重因子。
进一步地,步骤4具体如下:
对领域文本分句、分词和去停用词处理,利用领域文本训练Word2Vec模型;加载领域词典对视频主题单元的文本分句、分词,然后去停用词以及词性标注,保留名词、动词、副词和形容词;通过Word2Vec模型得到句子向量,通过句子向量计算视频主题单元所有句子间的相似度;
将每个视频主题单元文本的句子表示为节点集合,通过节点以及节点的相似关系构造无向图,使用TextRank算法迭代计算每个节点的权重直至收敛,节点权重即为句子权重;
将视频标题、视频主题单元语义标签共同组成文本集合,通过加载领域词典分词,并且只保留领域词典中存在的词汇作为该视频主题单元的核心术语,通过观察视频文本总结并构建线索词语;
对包含上述视频核心术语以及线索词语的句子权重进行优化,具体优化公式为p=1+n*e,该式中的e用于调整句子权重,n表示句子中包含线索词语或核心术语的个数;
按照视频主题单元字数占视频文本总字数比例,从每个视频主题单元选取相应比例的句子;按照调整权重后的句子权重从大到小选取句子,小于6字的句子以及以问号结尾的疑问句排除,否则将其加入摘要句集合;将摘要句集合按照视频句子原始顺序排列,得到视频文本摘要。
进一步地,计算每个节点的权重的公式为:
Figure BDA0001833696790000042
其中,d为阻尼系数(0≤d≤1),表示图中某一节点跳转到其他任意节点的概率;In(Si)表示指向节点Si所有的节点集合,Out(Sj)代表节点Sj指向的节点集合。
一种视频文本摘要生成装置,包括:
视频镜头边界检测模块,用于计算视频帧差值,通过视频帧差值与阈值的比较检测视频镜头切变和渐变边界;
视频关键帧提取模块,用于计算视频帧的图像信息熵和角点特征,通过线性融合计算视频帧显著性值,选取镜头内显著性值最大的视频帧作为视频关键帧;
视频主题单元划分模块,利用领域本体对视频镜头文本进行语义标注,基于镜头文本语义标签和文本相似度得到视频主题单元;
视频文本摘要生成模块,用于计算视频主题单元中句子的权重,按照句子权重从高至低选取一定比例的句子生成视频文本摘要。
本发明提供的视频文本摘要方法及装置能达到的有益效果:本发明提出的视频文本摘要方法,通过结合图像处理和自然语言处理技术将长时间的视频内容精简成一段文本描述呈现给用户,可以帮助用户快速浏览视频内容,判断视频是否符合自身需求,节省时间和提高效率;此外,通过在视频主题单元划分基础上抽取摘要句,可以提高视频文本摘要的主题覆盖率,视频文本摘要内容覆盖面全,生成的视频文本摘要能够更为全面地传达视频主要内容,可以很好地满足实际应用的需要。
附图说明
图1是本发明的视频文本摘要方法的流程图;
图2是本发明的视频文本摘要装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种视频文本摘要生成方法,用于视频文本摘要生成装置中。如图1所示,视频文本摘要生成方法具体包括以下步骤:
步骤1:对视频进行分段处理,计算视频帧差值,滤除不包含镜头边界的视频片段,然后比较视频帧差值与阈值,检测视频镜头边界。
在实施中,将视频划分为连续视频片段,每个视频片段包含21帧或者合适的帧数,前一片段的结束帧为后一片段的起始帧,每一帧划分为相同大小的4个区域。对HSV颜色空间采用非均匀量化,将色调H非等间隔划分为8份,饱和度S以及亮度V非等间隔划分为3份,根据视频帧HSV颜色直方图计算视频帧差值,帧差值计算公式如下:
Figure BDA0001833696790000061
其中,Di是片段首尾帧的颜色直方图帧差值,m表示视频帧中心区域的块数,G为颜色值分级后的等级总数,本实施例中取G为72,bj(m,n)表示第j个视频帧在第m区域第n颜色等级上的值。
进一步地,将帧差值Di与阈值T进行比较,阈值T通过统计所有视频片段起始帧和结束帧的帧差值进行自适应确定,用公式表示为T=τμ+σ,μ和σ分别表示所有视频片段起始帧和结束帧的平均值和标准差,τ为阈值因子,通过实验分析,在本实施例中τ取为7,如果大于阈值T则保留视频片段,否则删除视频片段。
进一步地,设定一个高阈值Th和低阈值Tl对镜头切变进行检测,结合所有镜头候选片段起始帧和结束帧的帧差值平均值μall及当前检测的视频片段帧差值的平均值μcurrent,将高阈值设置为Th=α×(μallcurrent)/2,低阈值设置为Tl=β×(μallcurrent)/2,在本实施例中阈值因子α和β分别取为18和10,如果帧差值Di满足如下条件,则视频帧判定为切变:
Di>Th,且Di=max(Dall),且
Figure BDA0001833696790000062
其中,Di表示候选视频片段第i帧与其后一帧的帧差值,Dall为候选视频片段内所有帧差值,max(Dl)表示当前候选视频片段所有相邻帧差异值的最大值。
进一步地,如果连续的帧差值Di大于阈值Tl,且帧差值累加后大于阈值Th,则视频帧判定为渐变。
步骤2:对视频帧进行图像信息熵计算及角点检测,得到视频帧显著性值,选取镜头内显著性值最高的视频帧作为视频关键帧。
在实施中,为了提取符合用户视觉感知并且内容更为丰富的关键帧,对每个镜头依次执行:从镜头边界起始帧开始,每隔一帧提取视频帧,直到镜头结束帧为止,依次对每一帧进行图像信息熵计算以及角点检测,将信息熵值与角点数值归一化后进行线性加权求和,二者权重分别设为0.5;比较镜头内所有视频帧的显著性值,选择镜头内显著性值最大的视频帧作为视频关键帧。
具体地,视频帧的图像信息熵值计算公式为
Figure BDA0001833696790000071
Figure BDA0001833696790000072
其中p(k)表示视频帧每一灰度级出现的概率灰度值,取值范围为[0,255]。视频帧角点检测采用FAST角点检测算法,通过计算机视觉工具OpenCV实现,该算法主要思路是如果像素点p的圆形窗口上存在N个连续像素的颜色强度大于阈值Ip+t或小于阈值Ip-t,则认为该像素点为角点,其中N为整数,且N的取值范围为[3,12],在本实施例中取N为12,Ip代表像素点p的灰度值,t代表阈值调节因子,本实施例中取t为50。
步骤3:利用领域本体对镜头文本进行主题划分,得到视频主题单元。
在实施中,通过视频字幕文本获取镜头文本。如果不存在字幕文本,使用FFmpeg工具从镜头文本中提取音频,通过语音识别技术将镜头语音转录为文本,作为镜头文本。通过光学字符识别技术提取视频关键帧文本,加入镜头文本。
进一步地,利用领域本体中的概念、属性及属性值域词汇对镜头文本语义标注。镜头语义标注的输入是领域本体以及本体概念和属性的同义词集,镜头文本集合以及视频标题文本;输出是镜头文本及其语义标签。
具体地,首先使用HanLP工具加载领域词典和停用词词典对标题和镜头文本进行分词、去停用词和词性标注预处理,保留名词和动词等内容词汇。然后使用<概念,<属性,属性值域词>>Map集合以及同义词集对镜头文本进行语义标注,概念以及属性的同义词如果匹配到镜头词汇,则累计到该概念或属性出现频次。具体语义标注规则如下:
规则1:如果视频标题中出现概念,则该概念的所有属性语义标注分数加0.5,否则为0,计算公式如下:
Figure BDA0001833696790000081
其中,count(c,title)表示概念出现在视频标题的次数。
规则2:如果镜头文本中出现概念及其属性和属性值域词汇,出现次数越多则该概念和其属性越能表现该镜头的主题信息。判断镜头文本中出现概念、属性或者属性值域词汇数量,概念的属性语义标注分数计算公式如下:
Figure BDA0001833696790000082
其中,count(c,text),count(p,text)以及count(pw,text)分别表示概念、属性以及属性值域词汇出现在镜头文本中的次数,count_word(text)表示镜头文本分词、去停用词后的词数。
规则3:如果镜头文本中出现的属性下的属性值域词汇的种类数更多,则该属性更能表现该镜头主题信息,概念的属性语义标注分数计算公式如下:
Figure BDA0001833696790000083
其中kind(pw,text)表示镜头文本中出现的某属性下的属性值域词汇的种类数,count_word(pw)表示该属性值域词汇包含的总词数。
对A、B和C进行线性加权求和得到最后的语义标注分数SemanticScore,计算公式为:SemanticScore=α*A+γ*B+γ*C,
其中,α、β和γ分别表示A、B和C的权重因子。通过实验观察分析,考虑到镜头文本中出现的属性值域词汇种类能够更加突出反映该镜头文本的属性情况,因此本实施例将该式中权重因子α和β设置为经验值1,γ设置为1.5。如果语义标注得分SemanticScore大于特定阈值Q,本实施例中取特定阈值Q为0.90,并且镜头文本中同时出现概念、属性和属性值域三者,则镜头文本可以标注为“概念-属性”语义标签。
进一步地,对拥有相同语义标签的镜头文本进行聚类,将未分类镜头文本与其他所有镜头文本计算文本相似度,如果相似度大于阈值Q1,得到待归类镜头文本集合,从待归类镜头文本集合中取相似度最大的镜头文本聚为一类,如果相似度小于阈值Q1,单独聚为一类,每一个聚类即为视频主题单元。其中,本实施例中阈值Q1取0.55,
步骤4:计算视频主题单元中句子的权重,按照句子权重从高到低选取一定比例的句子(通常选取前10%~20%的句子)生成视频文本摘要。
在实施中,首先对领域文本分句、分词和去停用词处理,使用Dl4J工具训练Word2Vec模型。加载领域词典对视频主题单元的文本分句、分词,然后去停用词以及词性标注,保留名词、动词、副词和形容词。通过Word2Vec模型得到句子向量,具体通过词向量求平均值或者加权求平均;使用句子向量计算主题单元所有句子的相似度,相似度计算采用余弦函数来计算。
进一步地,将教育视频主题单元文本的句子表示为节点集合V={V1,V2,V3,…,Vn},其中n代表节点个数,通过节点以及节点的相似关系构造一个无向图G=(V,E,W),其中V为节点集合,E为节点之间所有边的集合,W表示边权值集合,边权值即为句子相似度。使用TextRank算法迭代计算每个节点的权重直至收敛,节点的权重计算公式如下:
Figure BDA0001833696790000091
该式中,d为阻尼系数(0≤d≤1),表示图中某一节点跳转到其他任意节点的概率,取值为0.85。In(Si)表示指向节点Si所有的节点集合,Out(Sj)代表节点Sj指向的节点集合。节点初始权重设置为1,迭代后的收敛阈值取0.0001,即图中任意一节点的误差率小于该值时,达到收敛,停止迭代,得到节点权重,节点权重即为句子权重。
进一步地,视频文本中包含的核心术语或者线索词语能在一定程度上体现句子的重要程度,因此通过核心术语和线索词语进一步调节句子节点权重。
具体地,将视频标题、视频主题单元语义标签共同组成文本集合,通过加载领域词典分词,并且只保留领域词典中存在的词汇作为该视频主题单元的核心术语;通过观察视频文本构建线索词语,线索词语根据不同类型视频文本的特点进行构建,本实施例中分析教育类视频的线索词语,其中包含:本讲、本节、本课、这节、这讲、这课、这一节、这一讲、这节课、这门课、主要内容、主要讲、主要介绍、主要讲述、主要学习、该课程、该讲、该节、重点、关键。
对包含上述视频核心术语以及线索词语的句子调整权重,具体加权函数公式为p=1+n*e,该式中的e用于调整句子权重,对于包含核心术语和线索词语的句子分别取值为0.1和为0.2,该加权函数公式中的n代表句子中包含线索词语或核心术语的个数。
按照视频主题单元字数占视频文本总字数比例,从每个视频主题单元选取相应比例的句子;按照调整权重后的句子权重从大到小选取句子,小于6字的句子以及以问号结尾的疑问句排除,否则将其加入摘要句集合;将摘要句集合按照视频句子原始顺序排列,得到视频文本摘要。
为了证明本发明在传统TextRank算法上加入句子向量,句子权重优化以及在视频主题单元划分的基础上选取摘要句等策略能提高摘要效果,采用传统TextRank,TextRank加入句子向量,TextRank加句子向量后进行句子权重优化,以及本发明在主题单元划分的基础上加入句子向量和句子权重优化这四种方法进行对比,其中固定摘要部分字数设定为300字,每种方法提取的摘要句子按照视频句子原始顺序进行组合得到最后视频文本摘要。实验结果如表1所示:
表1
Figure BDA0001833696790000101
Figure BDA0001833696790000111
从实验结果中可以看出,本发明在TextRank方法的基础上利用句子向量计算句子相似度以及加入线索词语和核心术语对句子权重优化能够有效提高视频文本摘要评价结果的准确率、召回率和F1值,一定程度上表明摘要效果更接近人工摘要。另外,在视频主题单元划分的基础上选择视频文本摘要句子可以进一步提高ROUGE-1和ROUGE-2的评价值。如果不在视频主题单元划分的基础上直接利用TextRank方法,容易造成选取的摘要句子都来源于同一个大主题,造成其他主题句子的遗漏。而通过在视频主题单元划分基础上抽取摘要句子,可以提高视频文本摘要的主题覆盖率,更全面的传达视频信息,对于包含多主题的教育视频而言效果更为明显。
本发明还提供一种视频文本摘要生成装置,如图2所示,所述装置具体包括:
视频镜头边界检测模块,用于计算视频帧差值,通过视频帧差值与阈值的比较检测视频镜头切变和渐变边界;
视频关键帧提取模块,用于计算视频帧的图像信息熵和角点特征,通过线性融合计算视频帧显著性值,选取镜头内显著性值最大的视频帧作为视频关键帧;
视频主题单元划分模块,利用领域本体对视频镜头文本进行语义标注,基于镜头文本语义标签和文本相似度获取视频主题单元;
视频文本摘要生成模块,用于计算视频主题单元中句子的权重,按照句子权重从高至低选取一定比例的句子生成视频文本摘要。
本实施例提供了一种视频文本摘要生成装置,通过视频帧差值与阈值的比较检测视频镜头切变和渐变边界。进一步地,通过视频关键帧检测模块计算视频帧的图像信息熵和角点特征,得到视频帧显著性值,选取镜头内显著性最大的视频帧作为视频关键帧。进一步地,通过视频主题单元划分模块对视频镜头文本进行主题划分,将表达相同主题信息的镜头文本聚为一类,得到视频主题单元。进一步地,通过视频文本摘要模块计算视频主题单元中句子的权重,按照权重大小从高至低选择相应比例的句子生成视频文本摘要。
本发明提供的视频文本摘要方法,包括视频镜头边界检测、视频关键帧提取、视频主题单元划分和视频文本摘要生成的步骤,本发明生成的视频文本摘要能够更为全面地传达视频主要内容,从而帮助用户快速了解视频内容,进一步促进视频的高效检索、浏览和内容获取。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种视频文本摘要生成方法,其特征在于,包括以下步骤:
步骤1:对视频进行分段处理,计算视频帧差值,滤除不包含镜头边界的视频片段,然后比较视频帧差值与阈值,检测视频镜头边界;
步骤2:对视频帧进行图像信息熵计算及角点检测,得到视频帧显著性值,选取镜头内显著性值最高的视频帧作为视频关键帧;
步骤3:利用领域本体对镜头文本进行主题划分,得到视频主题单元;
步骤4:计算视频主题单元中句子的权重,按照句子权重从高到低选取一定比例的句子生成视频文本摘要。
2.根据权利要求1所述的视频文本摘要生成方法,其特征在于,步骤1具体为:
将视频划分为连续视频片段,根据视频帧HSV颜色直方图计算视频片段起始帧和结束帧的帧差值,帧差值计算公式如下:
Figure FDA0001833696780000011
其中,Di是视频片段起始帧和结束帧的帧差值,m表示视频帧中心区域的块数,G为颜色值分级后的等级总数,bj(m,n)表示第j个视频帧在第m区域第n颜色等级上的值;将帧差值Di与阈值T进行比较,如果大于阈值T保留视频片段,否则删除视频片段;
设定一个高阈值Th和低阈值Tl,如果帧差值Di满足
Di>Th,且Di=max(Dall),且
Figure FDA0001833696780000012
则视频帧判定为切变,其中Di表示候选区域第i帧与其后一帧的帧差值,Dall为候选片段内所有帧差值,max(Dl)表示当前候选片段所有相邻帧的帧差值最大值;如果连续帧差值Di大于阈值Tl,且帧差值累加值大于高阈值Th,则视频帧判定为渐变。
3.根据权利要求1-2所述的视频文本摘要生成方法,其特征在于,步骤2具体为:
对每个镜头依次执行:从镜头边界起始帧开始,每隔一帧读入视频帧,直到镜头结束帧为止,对每一视频帧进行图像信息熵计算以及FAST角点检测,将图像信息熵值与角点数值归一化后进行线性加权求和,得到视频帧显著性值;
比较镜头内所有视频帧的显著性值,选取镜头内显著性值最大的视频帧作为视频关键帧。
4.根据权利要求1-3所述的视频文本摘要生成方法,其特征在于,对每一视频帧进行图像信息熵计算的公式为:
Figure FDA0001833696780000021
其中p(k)表示视频帧每一灰度级出现的概率灰度值;
对每一视频帧进行FAST角点检测的算法为:如果像素点p的圆形窗口上存在N个连续像素的颜色强度大于阈值Ip+t或小于阈值Ip-t,则认为该像素点为角点,其中,Ip代表像素点p的灰度值,t代表阈值调节因子,N为正整数。
5.根据权利要求1-4所述的视频文本摘要生成方法,其特征在于,步骤3具体为:
通过视频字幕文本获取镜头文本,如果不存在字幕文本,使用语音识别技术将镜头语音转录为文本,作为镜头文本;通过光学字符识别技术提取视频关键帧文本,加入镜头文本中;
加载领域词典和停用词词典对标题和镜头文本进行分词、去停用词和词性标注,保留名词和动词词汇;然后使用领域本体中的概念、属性及属性值域词汇对镜头文本进行语义标注;
如果语义标注得分SemanticScore大于特定阈值Q,并且镜头文本中同时出现概念、属性和属性值域三者,则镜头文本标注为“概念-属性”语义标签;
对拥有相同语义标签的镜头文本进行聚类,将未分类镜头文本与其他所有镜头文本计算文本相似度,如果相似度大于阈值Q1,得到待归类镜头文本集合,从待归类镜头文本集合中取相似度最大的镜头文本聚为一类,如果相似度小于阈值Q1,单独聚为一类,每一个聚类即为视频主题单元。
6.根据权利要求1-5所述的视频文本摘要生成方法,其特征在于,进行语义标注的规则包括:
规则1:如果视频标题中出现概念,则该概念的所有属性语义标注分数加0.5,否则为0,计算公式如下:
Figure FDA0001833696780000031
其中,count(c,title)表示概念出现在视频标题的次数;
规则2:判断镜头文本中出现概念、属性或者属性值域词汇数量,概念的属性语义标注分数计算公式如下:
Figure FDA0001833696780000032
其中,count(c,text),count(p,text)以及count(pw,text)分别表示概念、属性或者属性值域词汇出现在镜头文本中的次数,count_word(text)表示镜头文本分词、去停用词后的词数;
规则3:判断镜头文本中出现的某属性的属性值域词汇的种类数,概念的属性语义标注分数计算公式如下:
Figure FDA0001833696780000033
其中kind(pw,text)表示镜头文本中出现的某属性下的属性值域词汇的种类数,count_word(pw)表示该属性值域词汇包含的总词数。
7.根据权利要求1-5所述的视频文本摘要生成方法,其特征在于,所述语义标注得分SemanticScore计算公式为:
SemanticScore=α*A+β*B+γ*C
其中,α、β和γ分别表示A、B和C的权重因子。
8.根据权利要求1-7所述的视频文本摘要生成方法,其特征在于,步骤4具体如下:
对领域文本分句、分词和去停用词处理,利用领域文本训练Word2Vec模型;加载领域词典对视频主题单元的文本分句、分词,然后去停用词以及词性标注,保留名词、动词、副词和形容词;通过Word2Vec模型得到句子向量,通过句子向量计算视频主题单元所有句子间的相似度;
将每个视频主题单元文本的句子表示为节点集合,通过节点以及节点的相似关系构造无向图,使用TextRank算法迭代计算每个节点的权重直至收敛,节点权重即为句子权重;
将视频标题、视频主题单元语义标签共同组成文本集合,通过加载领域词典分词,并且只保留领域词典中存在的词汇作为该视频主题单元的核心术语,通过观察视频文本总结并构建线索词语;
对包含上述视频核心术语以及线索词语的句子权重进行优化,具体优化公式为p=1+n*e,该式中的e用于调整句子权重,n表示句子中包含线索词语或核心术语的个数;
按照视频主题单元字数占视频文本总字数比例,从每个视频主题单元选取相应比例的句子;按照调整权重后的句子权重从大到小选取句子,小于6字的句子以及以问号结尾的疑问句排除,否则将其加入摘要句集合;将摘要句集合按照视频句子原始顺序排列,得到视频文本摘要。
9.根据权利要求1-8所述的视频文本摘要生成方法,其特征在于,计算每个节点的权重的公式为:
Figure FDA0001833696780000041
其中,d为阻尼系数(0≤d≤1),表示图中某一节点跳转到其他任意节点的概率;In(Si)表示指向节点Si所有的节点集合,Out(Sj)代表节点Sj指向的节点集合。
10.一种视频文本摘要生成装置,其特征在于,包括:
视频镜头边界检测模块,用于计算视频帧差值,通过视频帧差值与阈值的比较检测视频镜头切变和渐变边界;
视频关键帧提取模块,用于计算视频帧的图像信息熵和角点特征,通过线性融合计算视频帧显著性值,选取镜头内显著性值最大的视频帧作为视频关键帧;
视频主题单元划分模块,利用领域本体对视频镜头文本进行语义标注,基于镜头文本语义标签和文本相似度得到视频主题单元;
视频文本摘要生成模块,用于计算视频主题单元中句子的权重,按照句子权重从高至低选取一定比例的句子生成视频文本摘要。
CN201811216586.XA 2018-10-18 2018-10-18 一种视频文本摘要生成方法及装置 Active CN111078943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811216586.XA CN111078943B (zh) 2018-10-18 2018-10-18 一种视频文本摘要生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811216586.XA CN111078943B (zh) 2018-10-18 2018-10-18 一种视频文本摘要生成方法及装置

Publications (2)

Publication Number Publication Date
CN111078943A true CN111078943A (zh) 2020-04-28
CN111078943B CN111078943B (zh) 2023-07-04

Family

ID=70309003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811216586.XA Active CN111078943B (zh) 2018-10-18 2018-10-18 一种视频文本摘要生成方法及装置

Country Status (1)

Country Link
CN (1) CN111078943B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111510792A (zh) * 2020-05-22 2020-08-07 山东师范大学 基于自适应加权图差异分析的视频摘要生成方法及系统
CN111625683A (zh) * 2020-05-07 2020-09-04 山东师范大学 基于图结构差异分析的视频摘要自动生成方法及系统
CN111694984A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 视频搜索方法、装置、电子设备及可读存储介质
CN112347303A (zh) * 2020-11-27 2021-02-09 上海科江电子信息技术有限公司 媒体视听信息流监测监管数据样本及其标注方法
CN113112519A (zh) * 2021-04-23 2021-07-13 电子科技大学 基于感兴趣目标分布的关键帧筛选方法
CN113343026A (zh) * 2021-06-17 2021-09-03 中国科学技术大学 在线视频课程内容概要生成方法
CN113392245A (zh) * 2021-06-16 2021-09-14 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN114359810A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质
CN115311885A (zh) * 2022-07-29 2022-11-08 上海商汤临港智能科技有限公司 一种评测方法、系统、电子设备及存储介质
CN115495615A (zh) * 2022-11-15 2022-12-20 浪潮电子信息产业股份有限公司 视频与文本的互检方法、装置、设备、存储介质及终端

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020051077A1 (en) * 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
US20020175932A1 (en) * 2001-05-22 2002-11-28 Lg Electronics, Inc. Method for summarizing news video stream using synthetic key frame based upon video text
CN102663015A (zh) * 2012-03-21 2012-09-12 上海大学 基于特征袋模型和监督学习的视频语义标注方法
CN103210651A (zh) * 2010-11-15 2013-07-17 华为技术有限公司 用于视频概要的方法和系统
CN103761284A (zh) * 2014-01-13 2014-04-30 中国农业大学 一种视频检索方法和系统
US20150293905A1 (en) * 2012-10-26 2015-10-15 Lei Wang Summarization of a Document
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN106851437A (zh) * 2017-01-17 2017-06-13 南通同洲电子有限责任公司 一种提取视频摘要的方法
CN106997387A (zh) * 2017-03-28 2017-08-01 中国科学院自动化研究所 基于文本‑图像匹配的多模态自动文摘方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020051077A1 (en) * 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
US20020175932A1 (en) * 2001-05-22 2002-11-28 Lg Electronics, Inc. Method for summarizing news video stream using synthetic key frame based upon video text
CN103210651A (zh) * 2010-11-15 2013-07-17 华为技术有限公司 用于视频概要的方法和系统
CN102663015A (zh) * 2012-03-21 2012-09-12 上海大学 基于特征袋模型和监督学习的视频语义标注方法
US20150293905A1 (en) * 2012-10-26 2015-10-15 Lei Wang Summarization of a Document
CN103761284A (zh) * 2014-01-13 2014-04-30 中国农业大学 一种视频检索方法和系统
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN106851437A (zh) * 2017-01-17 2017-06-13 南通同洲电子有限责任公司 一种提取视频摘要的方法
CN106997387A (zh) * 2017-03-28 2017-08-01 中国科学院自动化研究所 基于文本‑图像匹配的多模态自动文摘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C. TOWN等: ""Ontological query language for content based image retrieval"", 《PROCEEDINGS IEEE WORKSHOP ON CONTENT-BASED ACCESS OF IMAGE AND VIDEO LIBRARIES (CBAIVL 2001)》 *
刘耀等: ""基于领域本体的文本分割方法研究"", 《计算机科学》 *
欧阳建权: ""压缩域体育视频摘要技术研究"", 《中国博士学位论文全文数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625683A (zh) * 2020-05-07 2020-09-04 山东师范大学 基于图结构差异分析的视频摘要自动生成方法及系统
CN111510792A (zh) * 2020-05-22 2020-08-07 山东师范大学 基于自适应加权图差异分析的视频摘要生成方法及系统
CN111510792B (zh) * 2020-05-22 2022-04-15 山东师范大学 基于自适应加权图差异分析的视频摘要生成方法及系统
CN111694984A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 视频搜索方法、装置、电子设备及可读存储介质
CN112347303A (zh) * 2020-11-27 2021-02-09 上海科江电子信息技术有限公司 媒体视听信息流监测监管数据样本及其标注方法
CN113112519A (zh) * 2021-04-23 2021-07-13 电子科技大学 基于感兴趣目标分布的关键帧筛选方法
CN113392245A (zh) * 2021-06-16 2021-09-14 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113392245B (zh) * 2021-06-16 2023-12-26 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113343026A (zh) * 2021-06-17 2021-09-03 中国科学技术大学 在线视频课程内容概要生成方法
CN113343026B (zh) * 2021-06-17 2022-07-15 中国科学技术大学 在线视频课程内容概要生成方法
CN114359810A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质
CN115311885A (zh) * 2022-07-29 2022-11-08 上海商汤临港智能科技有限公司 一种评测方法、系统、电子设备及存储介质
CN115311885B (zh) * 2022-07-29 2024-04-12 上海商汤临港智能科技有限公司 一种评测方法、系统、电子设备及存储介质
CN115495615A (zh) * 2022-11-15 2022-12-20 浪潮电子信息产业股份有限公司 视频与文本的互检方法、装置、设备、存储介质及终端
CN115495615B (zh) * 2022-11-15 2023-02-28 浪潮电子信息产业股份有限公司 视频与文本的互检方法、装置、设备、存储介质及终端

Also Published As

Publication number Publication date
CN111078943B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111078943B (zh) 一种视频文本摘要生成方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
US10878035B2 (en) Interactive method and apparatus based on deep question and answer
US20150074112A1 (en) Multimedia Question Answering System and Method
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN109902289B (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN106446109A (zh) 语音文件摘要的获取方法和装置
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN107577663B (zh) 一种关键短语抽取方法和装置
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN103198057A (zh) 一种自动给文档添加标签的方法和装置
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN108038099B (zh) 基于词聚类的低频关键词识别方法
KR101377114B1 (ko) 뉴스 요약문 생성 시스템 및 방법
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
CN111199151A (zh) 数据处理方法、及数据处理装置
CN111104437A (zh) 基于对象模型的试验数据统一检索方法和系统
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
TW201039149A (en) Robust algorithms for video text information extraction and question-answer retrieval
CN111680493B (zh) 英语文本分析方法、装置、可读存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant