CN111078943A

CN111078943A - 一种视频文本摘要生成方法及装置

Info

Publication number: CN111078943A
Application number: CN201811216586.XA
Authority: CN
Inventors: 韩世范; 刘耀; 帅远华; 黄毅; 曹妍; 武建才
Original assignee: Shanxi Medical Journal
Current assignee: Shanxi Medical Journal
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2020-04-28
Anticipated expiration: 2038-10-18
Also published as: CN111078943B

Abstract

本发明涉及一种视频文本摘要生成方法及装置，该方法包括：对视频进行分段处理，计算视频帧差值，滤除不包含镜头边界的视频片段，然后比较视频帧差值与阈值，检测视频镜头边界；对视频帧进行图像信息熵计算及角点检测，得到视频帧显著性值，选取镜头内显著性值最高的视频帧作为视频关键帧；利用领域本体对镜头文本进行主题划分，得到视频主题单元；计算视频主题单元中句子的权重，按照句子权重从高到低选取一定比例的句子生成视频文本摘要。本发明生成的视频文本摘要能够更为全面地覆盖视频主要信息，帮助用户快速浏览视频内容，节省时间以及提高效率。

Description

一种视频文本摘要生成方法及装置

技术领域

本发明属于视频处理技术领域，具体涉及一种视频文本摘要生成方法及装置。

背景技术

随着互联网和多媒体设备的快速发展，视频数据已渗透到我们生活的众多方面，如交通、零售、医疗、教育以及公共安全等领域。视频数量在不断快速增长，用户需要从众多视频中快速查询到想要的视频，判断视频是否满足需求或者快速获取视频主要内容，因此便需要视频摘要技术。

另外，现有技术中对视频摘要技术的研究多为视频关键帧以及缩略视频的研究，较为缺少视频文本摘要的研究。视频文本摘要具有较大应用潜力，特别对于包含丰富文本信息的视频类型，尤其是教育类视频。文献1(赵树娟.基于多模态融合的讲座类视频摘要提取的方法设计与研究[D].北京:北京大学,2014.)利用词汇TFIDF值计算句子重要度，用于生成视频文本摘要，其不足之处在于缺乏对视频的结构化分析和语义分析，只单纯利用视频文本的统计特征，容易造成视频文本摘要的内容覆盖面不全。文献2(Sah S,Kulhare S,Gray A,et al.Semantic Text Summarization of Long Videos[C]//Applications ofComputer Vision.IEEE,2017:989-997.)利用Image Caption深度学习技术对关键帧生成一段语言描述，但是该方法只适用于第一人称的视频类型。综合上述分析，现有视频摘要系统和相关研究中较为缺乏视频文本摘要的发明和研究，并且存在视频文本摘要内容覆盖面不全的问题。

发明内容

有鉴于此，本发明的目的在于提供一种视频文本摘要方法及装置，避免视频文本摘要内容覆盖面不全的问题，帮助用户快速获取视频主要信息，节省时间和提高效率。

为了实现上述发明目的，本发明提供的技术方案如下：

一种视频文本摘要生成方法，包括以下步骤：

步骤1：对视频进行分段处理，计算视频帧差值，滤除不包含镜头边界的视频片段，然后比较视频帧差值与阈值，检测视频镜头边界；

步骤2：对视频帧进行图像信息熵计算及角点检测，得到视频帧显著性值，选取镜头内显著性值最高的视频帧作为视频关键帧；

步骤3：利用领域本体对镜头文本进行主题划分，得到视频主题单元；

步骤4：计算视频主题单元中句子的权重，按照句子权重从高到低选取一定比例的句子生成视频文本摘要。

进一步地，步骤1具体为：

将视频划分为连续视频片段，根据视频帧HSV颜色直方图计算视频片段起始帧和结束帧的帧差值，帧差值计算公式如下：

其中，D_i是视频片段起始帧和结束帧的帧差值，m表示视频帧中心区域的块数，G为颜色值分级后的等级总数，b_j(m,n)表示第j个视频帧在第m区域第n颜色等级上的值；将帧差值D_i与阈值T进行比较，如果大于阈值T保留视频片段，否则删除视频片段；

设定一个高阈值T_h和低阈值T_l，如果帧差值D_i满足

D_i>T_h，且D_i＝max(D_all)，且

则视频帧判定为切变，其中D_i表示候选区域第i帧与其后一帧的帧差值，D_all为候选片段内所有帧差值，max(D_l)表示当前候选片段所有相邻帧的帧差值最大值；如果连续帧差值D_i大于阈值T_l，且帧差值累加值大于高阈值T_h，则视频帧判定为渐变。

进一步地，步骤2具体为：

对每个镜头依次执行：从镜头边界起始帧开始，每隔一帧读入视频帧，直到镜头结束帧为止，对每一视频帧进行图像信息熵计算以及FAST角点检测，将图像信息熵值与角点数值归一化后进行线性加权求和，得到视频帧显著性值；

比较镜头内所有视频帧的显著性值，选取镜头内显著性值最大的视频帧作为视频关键帧。

进一步地，对每一视频帧进行图像信息熵计算的公式为：

其中p(k)表示视频帧每一灰度级出现的概率灰度值；

对每一视频帧进行FAST角点检测的算法为：如果像素点p的圆形窗口上存在N个连续像素的颜色强度大于阈值I_p+t或小于阈值I_p-t，则认为该像素点为角点，其中，I_p代表像素点p的灰度值，t代表阈值调节因子，N为正整数。

进一步地，步骤3具体为：

通过视频字幕文本获取镜头文本，如果不存在字幕文本，使用语音识别技术将镜头语音转录为文本，作为镜头文本；通过光学字符识别技术提取视频关键帧文本，加入镜头文本中；

加载领域词典和停用词词典对标题和镜头文本进行分词、去停用词和词性标注，保留名词和动词词汇；然后使用领域本体中的概念、属性及属性值域词汇对镜头文本进行语义标注；

如果语义标注得分SemanticScore大于特定阈值Q，并且镜头文本中同时出现概念、属性和属性值域三者，则镜头文本标注为“概念-属性”语义标签；

对拥有相同语义标签的镜头文本进行聚类，将未分类镜头文本与其他所有镜头文本计算文本相似度，如果相似度大于阈值Q₁，得到待归类镜头文本集合，从待归类镜头文本集合中取相似度最大的镜头文本聚为一类，如果相似度小于阈值Q₁，单独聚为一类，每一个聚类即为视频主题单元。

进一步地，进行语义标注的规则包括：

规则1：如果视频标题中出现概念，则该概念的所有属性语义标注分数加0.5，否则为0，计算公式如下：

其中，count(c,title)表示概念出现在视频标题的次数；

规则2：判断镜头文本中出现概念、属性或者属性值域词汇数量，概念的属性语义标注分数计算公式如下：

其中，count(c,text),count(p,text)以及count(pw,text)分别表示概念、属性或者属性值域词汇出现在镜头文本中的次数，count_word(text)表示镜头文本分词、去停用词后的词数；

规则3：判断镜头文本中出现的某属性的属性值域词汇的种类数，概念的属性语义标注分数计算公式如下：

其中kind(pw,text)表示镜头文本中出现的某属性下的属性值域词汇的种类数，count_word(pw)表示该属性值域词汇包含的总词数。

进一步地，所述语义标注得分SemanticScore计算公式为：

SemanticScore＝α*A+β*B+γ*C

其中，α、β和γ分别表示A、B和C的权重因子。

进一步地，步骤4具体如下：

对领域文本分句、分词和去停用词处理，利用领域文本训练Word2Vec模型；加载领域词典对视频主题单元的文本分句、分词，然后去停用词以及词性标注，保留名词、动词、副词和形容词；通过Word2Vec模型得到句子向量，通过句子向量计算视频主题单元所有句子间的相似度；

将每个视频主题单元文本的句子表示为节点集合，通过节点以及节点的相似关系构造无向图，使用TextRank算法迭代计算每个节点的权重直至收敛，节点权重即为句子权重；

将视频标题、视频主题单元语义标签共同组成文本集合，通过加载领域词典分词，并且只保留领域词典中存在的词汇作为该视频主题单元的核心术语，通过观察视频文本总结并构建线索词语；

对包含上述视频核心术语以及线索词语的句子权重进行优化，具体优化公式为p＝1+n*e，该式中的e用于调整句子权重，n表示句子中包含线索词语或核心术语的个数；

按照视频主题单元字数占视频文本总字数比例，从每个视频主题单元选取相应比例的句子；按照调整权重后的句子权重从大到小选取句子，小于6字的句子以及以问号结尾的疑问句排除，否则将其加入摘要句集合；将摘要句集合按照视频句子原始顺序排列，得到视频文本摘要。

进一步地，计算每个节点的权重的公式为：

其中，d为阻尼系数(0≤d≤1)，表示图中某一节点跳转到其他任意节点的概率；In(S_i)表示指向节点S_i所有的节点集合，Out(S_j)代表节点S_j指向的节点集合。

一种视频文本摘要生成装置，包括：

视频镜头边界检测模块，用于计算视频帧差值，通过视频帧差值与阈值的比较检测视频镜头切变和渐变边界；

视频关键帧提取模块，用于计算视频帧的图像信息熵和角点特征，通过线性融合计算视频帧显著性值，选取镜头内显著性值最大的视频帧作为视频关键帧；

视频主题单元划分模块，利用领域本体对视频镜头文本进行语义标注，基于镜头文本语义标签和文本相似度得到视频主题单元；

视频文本摘要生成模块，用于计算视频主题单元中句子的权重，按照句子权重从高至低选取一定比例的句子生成视频文本摘要。

本发明提供的视频文本摘要方法及装置能达到的有益效果：本发明提出的视频文本摘要方法，通过结合图像处理和自然语言处理技术将长时间的视频内容精简成一段文本描述呈现给用户，可以帮助用户快速浏览视频内容，判断视频是否符合自身需求，节省时间和提高效率；此外，通过在视频主题单元划分基础上抽取摘要句，可以提高视频文本摘要的主题覆盖率，视频文本摘要内容覆盖面全，生成的视频文本摘要能够更为全面地传达视频主要内容，可以很好地满足实际应用的需要。

附图说明

图1是本发明的视频文本摘要方法的流程图；

图2是本发明的视频文本摘要装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种视频文本摘要生成方法，用于视频文本摘要生成装置中。如图1所示，视频文本摘要生成方法具体包括以下步骤：

步骤1：对视频进行分段处理，计算视频帧差值，滤除不包含镜头边界的视频片段，然后比较视频帧差值与阈值，检测视频镜头边界。

在实施中，将视频划分为连续视频片段，每个视频片段包含21帧或者合适的帧数，前一片段的结束帧为后一片段的起始帧，每一帧划分为相同大小的4个区域。对HSV颜色空间采用非均匀量化，将色调H非等间隔划分为8份，饱和度S以及亮度V非等间隔划分为3份，根据视频帧HSV颜色直方图计算视频帧差值，帧差值计算公式如下：

其中，D_i是片段首尾帧的颜色直方图帧差值，m表示视频帧中心区域的块数，G为颜色值分级后的等级总数，本实施例中取G为72，b_j(m,n)表示第j个视频帧在第m区域第n颜色等级上的值。

进一步地，将帧差值D_i与阈值T进行比较，阈值T通过统计所有视频片段起始帧和结束帧的帧差值进行自适应确定，用公式表示为T＝τμ+σ,μ和σ分别表示所有视频片段起始帧和结束帧的平均值和标准差，τ为阈值因子，通过实验分析，在本实施例中τ取为7，如果大于阈值T则保留视频片段，否则删除视频片段。

进一步地，设定一个高阈值T_h和低阈值T_l对镜头切变进行检测，结合所有镜头候选片段起始帧和结束帧的帧差值平均值μ_all及当前检测的视频片段帧差值的平均值μ_current，将高阈值设置为T_h＝α×(μ_all+μ_current)/2，低阈值设置为T_l＝β×(μ_all+μ_current)/2，在本实施例中阈值因子α和β分别取为18和10，如果帧差值D_i满足如下条件，则视频帧判定为切变：

D_i>T_h，且D_i＝max(D_all)，且

其中，D_i表示候选视频片段第i帧与其后一帧的帧差值，D_all为候选视频片段内所有帧差值，max(D_l)表示当前候选视频片段所有相邻帧差异值的最大值。

进一步地，如果连续的帧差值D_i大于阈值T_l，且帧差值累加后大于阈值T_h，则视频帧判定为渐变。

步骤2：对视频帧进行图像信息熵计算及角点检测，得到视频帧显著性值，选取镜头内显著性值最高的视频帧作为视频关键帧。

在实施中，为了提取符合用户视觉感知并且内容更为丰富的关键帧，对每个镜头依次执行：从镜头边界起始帧开始，每隔一帧提取视频帧，直到镜头结束帧为止，依次对每一帧进行图像信息熵计算以及角点检测，将信息熵值与角点数值归一化后进行线性加权求和，二者权重分别设为0.5；比较镜头内所有视频帧的显著性值，选择镜头内显著性值最大的视频帧作为视频关键帧。

具体地，视频帧的图像信息熵值计算公式为

其中p(k)表示视频帧每一灰度级出现的概率灰度值，取值范围为[0,255]。视频帧角点检测采用FAST角点检测算法，通过计算机视觉工具OpenCV实现，该算法主要思路是如果像素点p的圆形窗口上存在N个连续像素的颜色强度大于阈值I_p+t或小于阈值I_p-t，则认为该像素点为角点，其中N为整数，且N的取值范围为[3,12]，在本实施例中取N为12，I_p代表像素点p的灰度值，t代表阈值调节因子，本实施例中取t为50。

步骤3：利用领域本体对镜头文本进行主题划分，得到视频主题单元。

在实施中，通过视频字幕文本获取镜头文本。如果不存在字幕文本，使用FFmpeg工具从镜头文本中提取音频，通过语音识别技术将镜头语音转录为文本，作为镜头文本。通过光学字符识别技术提取视频关键帧文本，加入镜头文本。

进一步地，利用领域本体中的概念、属性及属性值域词汇对镜头文本语义标注。镜头语义标注的输入是领域本体以及本体概念和属性的同义词集，镜头文本集合以及视频标题文本；输出是镜头文本及其语义标签。

具体地，首先使用HanLP工具加载领域词典和停用词词典对标题和镜头文本进行分词、去停用词和词性标注预处理，保留名词和动词等内容词汇。然后使用<概念,<属性,属性值域词>>Map集合以及同义词集对镜头文本进行语义标注，概念以及属性的同义词如果匹配到镜头词汇，则累计到该概念或属性出现频次。具体语义标注规则如下：

其中，count(c,title)表示概念出现在视频标题的次数。

规则2：如果镜头文本中出现概念及其属性和属性值域词汇，出现次数越多则该概念和其属性越能表现该镜头的主题信息。判断镜头文本中出现概念、属性或者属性值域词汇数量，概念的属性语义标注分数计算公式如下：

其中，count(c,text),count(p,text)以及count(pw,text)分别表示概念、属性以及属性值域词汇出现在镜头文本中的次数，count_word(text)表示镜头文本分词、去停用词后的词数。

规则3：如果镜头文本中出现的属性下的属性值域词汇的种类数更多，则该属性更能表现该镜头主题信息，概念的属性语义标注分数计算公式如下：

对A、B和C进行线性加权求和得到最后的语义标注分数SemanticScore，计算公式为：SemanticScore＝α*A+γ*B+γ*C，

其中，α、β和γ分别表示A、B和C的权重因子。通过实验观察分析，考虑到镜头文本中出现的属性值域词汇种类能够更加突出反映该镜头文本的属性情况，因此本实施例将该式中权重因子α和β设置为经验值1，γ设置为1.5。如果语义标注得分SemanticScore大于特定阈值Q，本实施例中取特定阈值Q为0.90，并且镜头文本中同时出现概念、属性和属性值域三者，则镜头文本可以标注为“概念-属性”语义标签。

进一步地，对拥有相同语义标签的镜头文本进行聚类，将未分类镜头文本与其他所有镜头文本计算文本相似度，如果相似度大于阈值Q₁，得到待归类镜头文本集合，从待归类镜头文本集合中取相似度最大的镜头文本聚为一类，如果相似度小于阈值Q₁，单独聚为一类，每一个聚类即为视频主题单元。其中，本实施例中阈值Q₁取0.55，

步骤4：计算视频主题单元中句子的权重，按照句子权重从高到低选取一定比例的句子(通常选取前10％～20％的句子)生成视频文本摘要。

在实施中，首先对领域文本分句、分词和去停用词处理，使用Dl4J工具训练Word2Vec模型。加载领域词典对视频主题单元的文本分句、分词，然后去停用词以及词性标注，保留名词、动词、副词和形容词。通过Word2Vec模型得到句子向量，具体通过词向量求平均值或者加权求平均；使用句子向量计算主题单元所有句子的相似度，相似度计算采用余弦函数来计算。

进一步地，将教育视频主题单元文本的句子表示为节点集合V＝{V₁,V₂,V₃,…,V_n}，其中n代表节点个数，通过节点以及节点的相似关系构造一个无向图G＝(V,E,W)，其中V为节点集合，E为节点之间所有边的集合，W表示边权值集合，边权值即为句子相似度。使用TextRank算法迭代计算每个节点的权重直至收敛，节点的权重计算公式如下：

该式中，d为阻尼系数(0≤d≤1)，表示图中某一节点跳转到其他任意节点的概率，取值为0.85。In(S_i)表示指向节点S_i所有的节点集合,Out(S_j)代表节点S_j指向的节点集合。节点初始权重设置为1，迭代后的收敛阈值取0.0001，即图中任意一节点的误差率小于该值时，达到收敛，停止迭代，得到节点权重，节点权重即为句子权重。

进一步地，视频文本中包含的核心术语或者线索词语能在一定程度上体现句子的重要程度，因此通过核心术语和线索词语进一步调节句子节点权重。

具体地，将视频标题、视频主题单元语义标签共同组成文本集合，通过加载领域词典分词，并且只保留领域词典中存在的词汇作为该视频主题单元的核心术语；通过观察视频文本构建线索词语，线索词语根据不同类型视频文本的特点进行构建，本实施例中分析教育类视频的线索词语，其中包含：本讲、本节、本课、这节、这讲、这课、这一节、这一讲、这节课、这门课、主要内容、主要讲、主要介绍、主要讲述、主要学习、该课程、该讲、该节、重点、关键。

对包含上述视频核心术语以及线索词语的句子调整权重，具体加权函数公式为p＝1+n*e，该式中的e用于调整句子权重，对于包含核心术语和线索词语的句子分别取值为0.1和为0.2，该加权函数公式中的n代表句子中包含线索词语或核心术语的个数。

为了证明本发明在传统TextRank算法上加入句子向量，句子权重优化以及在视频主题单元划分的基础上选取摘要句等策略能提高摘要效果，采用传统TextRank，TextRank加入句子向量，TextRank加句子向量后进行句子权重优化，以及本发明在主题单元划分的基础上加入句子向量和句子权重优化这四种方法进行对比，其中固定摘要部分字数设定为300字，每种方法提取的摘要句子按照视频句子原始顺序进行组合得到最后视频文本摘要。实验结果如表1所示：

表1

从实验结果中可以看出，本发明在TextRank方法的基础上利用句子向量计算句子相似度以及加入线索词语和核心术语对句子权重优化能够有效提高视频文本摘要评价结果的准确率、召回率和F1值，一定程度上表明摘要效果更接近人工摘要。另外，在视频主题单元划分的基础上选择视频文本摘要句子可以进一步提高ROUGE-1和ROUGE-2的评价值。如果不在视频主题单元划分的基础上直接利用TextRank方法，容易造成选取的摘要句子都来源于同一个大主题，造成其他主题句子的遗漏。而通过在视频主题单元划分基础上抽取摘要句子，可以提高视频文本摘要的主题覆盖率，更全面的传达视频信息，对于包含多主题的教育视频而言效果更为明显。

本发明还提供一种视频文本摘要生成装置，如图2所示，所述装置具体包括：

视频主题单元划分模块，利用领域本体对视频镜头文本进行语义标注，基于镜头文本语义标签和文本相似度获取视频主题单元；

本实施例提供了一种视频文本摘要生成装置，通过视频帧差值与阈值的比较检测视频镜头切变和渐变边界。进一步地，通过视频关键帧检测模块计算视频帧的图像信息熵和角点特征，得到视频帧显著性值，选取镜头内显著性最大的视频帧作为视频关键帧。进一步地，通过视频主题单元划分模块对视频镜头文本进行主题划分，将表达相同主题信息的镜头文本聚为一类，得到视频主题单元。进一步地，通过视频文本摘要模块计算视频主题单元中句子的权重，按照权重大小从高至低选择相应比例的句子生成视频文本摘要。

本发明提供的视频文本摘要方法，包括视频镜头边界检测、视频关键帧提取、视频主题单元划分和视频文本摘要生成的步骤，本发明生成的视频文本摘要能够更为全面地传达视频主要内容，从而帮助用户快速了解视频内容，进一步促进视频的高效检索、浏览和内容获取。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。