CN113343026A - 在线视频课程内容概要生成方法 - Google Patents

在线视频课程内容概要生成方法 Download PDF

Info

Publication number
CN113343026A
CN113343026A CN202110675318.XA CN202110675318A CN113343026A CN 113343026 A CN113343026 A CN 113343026A CN 202110675318 A CN202110675318 A CN 202110675318A CN 113343026 A CN113343026 A CN 113343026A
Authority
CN
China
Prior art keywords
text
frame
video
bit
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110675318.XA
Other languages
English (en)
Other versions
CN113343026B (zh
Inventor
张兰
张忆楠
李向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110675318.XA priority Critical patent/CN113343026B/zh
Publication of CN113343026A publication Critical patent/CN113343026A/zh
Application granted granted Critical
Publication of CN113343026B publication Critical patent/CN113343026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种在线视频课程内容概要生成方法,通过综合提取分析图像和音频多模态的视频课程信息,克服了多模态资源中主体对象检测和识别困难的问题,在保证准确度和丰富度的前提下,在更丰富的维度上来概括课程类视频的内容,所述方法包括:在线视频课程关键帧抽取,提取文本;分离课程视频的语音信息,转化文本;基于音形码修正对音频文本转化结果,得到修正文本;从所述修正文本中提取出视频的主要内容概要。

Description

在线视频课程内容概要生成方法
技术领域
本发明涉及图像识别、视频分析、自然语言处理领域,尤其涉及一种抽取式内容概要生成的方法。
背景技术
在线视频逐渐成为学生自主学习和学校教学的重要资源。面对大量的在线教学视频,用户快速了解视频课程内容概要的需求日益增长,但是目前普遍存在课程发布者提供的课程简介信息不足等问题。因此,如何高效提取出正确、完善的视频课程摘要是当今在线教育亟需且具有挑战性的课题。
现有的方法集中在单模态信息抽取上,对于特定类型的信息,比如文本信息,能够在保证一定的F1-Score的情况下从原始文本中抽取出基本概括了文本段落大意的多条语句组成的文本。但是现有方法仍存在如下局限性:
1.主体对象检测和识别困难;当前的视频处理和视频摘要方法主要面向人员、动物、物品的易检测、易追踪的对象。而课程视频中的主体更多是ppt内容、字幕、板书等文字和符号类信息,此类信息更难实现检测和追踪,同时老师和学生等人物对象往往成为“干扰”信息;
2.多模态信息融合困难,并且专业术语多:课程视频的主要信息来源不仅包含图像,还包含对应的音频,因此需要充分利用音频信息,并有效融合音视频信息。此外课程视频往往包含大量专业词汇,会导致现有音频识别方法出现大量错误识别(如谐音词)。
3.目前常见的文本摘要方法多面向英文,而如何对视频课程中的中文文本进行有效的摘要提取依然是个具有挑战性的课题。
发明内容
有鉴于此,本发明的主要目的在于提供一种在线视频课程内容概要生成方法,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,本发明提供了一种在线视频课程内容概要生成方法,通过综合提取分析图像和音频多模态的视频课程信息,克服了多模态资源中主体对象检测和识别困难的问题,在保证准确度和丰富度的前提下,在更丰富的维度上来概括课程类视频的内容,所述方法包括:
在线视频课程关键帧抽取,提取文本;
分离课程视频的语音信息,转化文本;
基于音形码修正对音频文本转化结果,得到修正文本;
从所述修正文本中提取出视频的主要内容概要。
其中,所述在线视频课程关键帧抽取是通过帧间差分法实现的。
其中,通过帧间差分法实现的在线视频课程关键帧抽取具体包括:
逐帧读取视频,对于每一帧进行人像识别,直到检测出人像的第一帧,确定人像所在的坐标矩形框;
对于每一帧,创建与该帧的长度和宽度相同的图像掩码,将掩码中在矩形框中的像素值全部设置为255,其他像素值设置为0;将掩码覆盖到图像帧上;
将当前帧和前序帧两帧做差,取得绝对值,除以像素数量得到平均帧差;
对所有的帧差值进行汉宁窗口平滑;
取平滑后帧差最大的帧作为最终的关键帧。
其中,从语音中提取文本是通过调用讯飞的语音识别API实现的。
其中,所述基于音形码修正对音频文本转化结果,得到修正文本的步骤包括:
将词汇中每个单词发音映射到音形码4位字符位,即第一、二、三、四字符位仍然分别代表韵母位、声母位、韵母辅音位、声调位,将声母按照发音相似进行分类,通过声母所处的类别,计算音形码的相似度,将声母位的相似度平滑为一个在0到1之间的小数,再将每一个字符位相似度逐位加权计算,得到两个词汇的音形码的最终相似度;
将语音识别出的原始文本中的每个词语的音形码与正确词库中的每个词语的音形码比对,替换成正确的词汇。
其中,从所述修正文本中提取出视频的主要内容概要包括:
结合图像中识别出的文本和经过修正后的音频文本,建立抽取式模型生成文本的内容概要;其中,抽取式概要是指在原始文本中抽取出一个语句子集,子集中的每一条语句都来自于原始文本,子集能够最全面的概括原始文本的主要内容。
其中,所述结合图像中识别出的文本和经过修正后的音频文本,建立抽取式模型生成文本的内容概要包括:
微调BERT预训练模型,在BERT特征提取器后接入线性分类器作为摘要层,该层会输出一个向量,向量中的第i个位置的小数表示第i条语句是否被选为摘要的概率;摘要层设置为sigmoid函数;最后选择出概率最高的k条语句作为最终的内容概要。
基于上述技术方案可知,本发明的在线视频课程内容概要生成方法相对于现有技术至少具有如下有益效果的一部分:
本发明克服了多模态资源中主体对象检测和识别的困难,在保证准确度和丰富度的前提下,综合考虑图像和音频等多个因素,在更丰富的维度上来概括课程类视频的内容,生成能很好概括课程视频的内容概要。
附图说明
图1为本发明实施例提供的在线视频课程内容概要生成方法的流程示意图;
图2为本发明实施例提供的人像掩码的帧差平滑曲线图;
图3为本发明实施例提供的改进的音形码结构图;
图4为本发明实施例提供的微调BERT中文文本摘要模型结构图。
具体实施方式
针对现有方法所存在的问题,本发明的目的是提供一种适合抽取在线视频类课程内容概要的方法,能够综合在线视频课程的视频、音频两种模态的信息,抽取出课程内容的概要。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如图1所示,本发明实施方式提供一种在线视频课程内容概要生成方法,通过综合提取分析图像和音频等多模态的视频课程信息,克服了多模态资源中主体对象检测和识别困难的问题,在保证准确度和丰富度的前提下,在更丰富的维度上来概括课程类视频的内容,方法包括:
步骤1.1,在线视频课程关键帧抽取,提取文本;
步骤1.2,分离课程视频的语音信息,转化文本;
步骤2,基于音形码修正对音频文本转化结果;
步骤3,从修正文本中提取出视频的主要内容概要。
上述方法步骤1.1中,关键帧抽取的目的是减少处理图像单元的冗余,提升处理视频的效率。因为视频的内容较大,由于视频的动态效果,一个视频往往包含成千上万帧,而这些帧序列里也包含了许多的冗余信息。综合考虑算法在时间和空间上的效率,不可能也没必要对视频进行逐帧处理。所以从视频中抽取出包含信息更多的关键帧序列为后续获取图像中的文本至关重要。主要思路是一般情况下,视频中的同一动作的连续两帧差别不会很大,若出现变化非常大的连续两帧,那么这两帧很大可能作为关键帧。而在课程类视频中,直接的帧间差分法并不适用,因为该场景下关键帧的变化应当主要受背景PPT的变化影响,而视频中如果有人物出现,那么帧差值很容易受到人物动作的影响,所以在抽取关键帧时,要尽可能减小人物动作的影响。
上述方法步骤1.2中,从语音中提取的文本对内容概要的影响最大。这与现实情况符合。例如,在一段课程类视频中,教师所说的话是课程内容中的主体,对这些内容抽取概要可以更好的概括一节课中的内容。
上述方法步骤2中,由于某个课程视频的语料库不足或是一些中英文夹杂的复杂语言场景下,有些在日常生活中使用较少的学科领域专业词汇经常会出现识别出错的情况。所以需要对这些识别出错的地方进行修正。音形码是一组描述词汇发音的字符串编码,通过计算两个词汇的音形码相似度刻画出两个词汇是否相似,进而把可能在语音提取文本时识别错误的词汇找到,并修改为正确的课程专业词汇。
上述方法步骤3中,结合图像中识别出的文本和经过修正后的音频文本,建立抽取式模型生成文本的内容概要。抽取式概要是指在原始文本中抽取出一个语句子集,子集中的每一条语句都来自于原始文本,子集能够最全面的概括原始文本的主要内容。
本发明的方法,通过结合音频和图像两个不同模态的信息对在线视频课程提取内容概要,不但适用于在线课程类的视频,还可以被广泛应用于其他主体变化明显,音频内容丰富和语言采用中文的视频摘要场景。
其中,各步骤具体如下:
步骤1.1,基于帧间差分法实现关键帧抽取。
1)逐帧读取视频,对于每一帧进行人像识别,直到检测出人像的第一帧,确定人像所在的坐标矩形框(X1,X2,Y1,Y2),其中X1,Y1分别代表掩码矩形框左上角的坐标,X2,Y2分别代表掩码矩形框右下角的坐标。
2)对于每一帧,创建与该帧的长度和宽度相同的图像掩码,将掩码中在矩形框中的像素值全部设置为255,其他像素值设置为0。将掩码覆盖到图像帧上。
3)将当前帧和前序帧两帧做差,取得绝对值,除以像素数量得到平均帧差。
4)对所有的帧查值进行汉宁窗口平滑。减小突变等偶然因素的干扰。如图2所示,为人像掩码的帧差平滑曲线图。
5)取平滑后帧差最大的X帧作为最终的关键帧。(X可指定)
步骤1.2,从语音中提取文本通过调用讯飞的语音识别API实现。
步骤2,通过音形码修正语音识别错误的词汇。
1)将词汇中每个单词发音映射到音形码4位字符位,即第一、二、三、四字符位仍然分别代表韵母位、声母位、韵母辅音位、声调位,将声母按照发音相似进行分类,通过声母所处的类别,计算音形码的相似度,将声母位的相似度平滑为一个在0到1之间的小数,再将每一个字符位相似度逐位加权计算,得到两个词汇的音形码的最终相似度。如图3所示,为改进的音形码结构图。
2)将语音识别出的原始文本中的每个词语的音形码与正确词库中的每个词语的音形码比对,替换成正确的词汇。
步骤3,微调BERT预训练模型,在BERT特征提取器后接入线性分类器作为摘要层,该层会输出一个向量,向量中的第i个位置的小数表示第i条语句是否被选为摘要的概率。摘要层设置为sigmoid函数,即
Figure BDA0003118936310000061
其中
Figure BDA0003118936310000062
为第i个句子的预测得分,Ti表示第i个句子经过BERT算后的向量,σ为Sigmoid函数。最后选择出概率最高的k条语句作为最终的内容概要。如图4所示,为微调BERT中文文本摘要模型结构图。
由于利用了信息更丰富的语音信息,本发明提出的方法不但适用于在线课程类的视频,还可以被广泛应用于其他主体变化明显,音频内容丰富和语言采用中文的视频摘要场景。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种在线视频课程内容概要生成方法,其特征在于,通过综合提取分析图像和音频多模态的视频课程信息,克服了多模态资源中主体对象检测和识别困难的问题,在保证准确度和丰富度的前提下,在更丰富的维度上来概括课程类视频的内容,所述方法包括:
在线视频课程关键帧抽取,提取文本;
分离课程视频的语音信息,转化文本;
基于音形码修正对音频文本转化结果,得到修正文本;
从所述修正文本中提取出视频的主要内容概要。
2.根据权利要求1所述的方法,其特征在于,所述在线视频课程关键帧抽取是通过帧间差分法实现的。
3.根据权利要求2所述的方法,其特征在于,通过帧间差分法实现的在线视频课程关键帧抽取具体包括:
逐帧读取视频,对于每一帧进行人像识别,直到检测出入像的第一帧,确定人像所在的坐标矩形框;
对于每一帧,创建与该帧的长度和宽度相同的图像掩码,将掩码中在矩形框中的像素值全部设置为255,其他像素值设置为0;将掩码覆盖到图像帧上;
将当前帧和前序帧两帧做差,取得绝对值,除以像素数量得到平均帧差;
对所有的帧差值进行汉宁窗口平滑;
取平滑后帧差最大的帧作为最终的关键帧。
4.根据权利要求1所述的方法,其特征在于,从语音中提取文本是通过调用讯飞的语音识别API实现的。
5.根据权利要求1所述的方法,其特征在于,所述基于音形码修正对音频文本转化结果,得到修正文本的步骤包括:
将词汇中每个单词发音映射到音形码4位字符位,即第一、二、三、四字符位仍然分别代表韵母位、声母位、韵母辅音位、声调位,将声母按照发音相似进行分类,通过声母所处的类别,计算音形码的相似度,将声母位的相似度平滑为一个在0到1之间的小数,再将每一个字符位相似度逐位加权计算,得到两个词汇的音形码的最终相似度;
将语音识别出的原始文本中的每个词语的音形码与正确词库中的每个词语的音形码比对,替换成正确的词汇。
6.根据权利要求1的方法,其特征在于,从所述修正文本中提取出视频的主要内容概要包括:
结合图像中识别出的文本和经过修正后的音频文本,建立抽取式模型生成文本的内容概要;其中,抽取式概要是指在原始文本中抽取出一个语句子集,子集中的每一条语句都来自于原始文本,子集能够最全面的概括原始文本的主要内容。
7.根据权利要求6的方法,其特征在于,所述结合图像中识别出的文本和经过修正后的音频文本,建立抽取式模型生成文本的内容概要包括:
微调BERT预训练模型,在BERT特征提取器后接入线性分类器作为摘要层,该层会输出一个向量,向量中的第i个位置的小数表示第i条语句是否被选为摘要的概率;摘要层设置为sigmoid函数;最后选择出概率最高的k条语句作为最终的内容概要。
CN202110675318.XA 2021-06-17 2021-06-17 在线视频课程内容概要生成方法 Active CN113343026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110675318.XA CN113343026B (zh) 2021-06-17 2021-06-17 在线视频课程内容概要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110675318.XA CN113343026B (zh) 2021-06-17 2021-06-17 在线视频课程内容概要生成方法

Publications (2)

Publication Number Publication Date
CN113343026A true CN113343026A (zh) 2021-09-03
CN113343026B CN113343026B (zh) 2022-07-15

Family

ID=77476151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110675318.XA Active CN113343026B (zh) 2021-06-17 2021-06-17 在线视频课程内容概要生成方法

Country Status (1)

Country Link
CN (1) CN113343026B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100104261A1 (en) * 2008-10-24 2010-04-29 Zhu Liu Brief and high-interest video summary generation
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN111078943A (zh) * 2018-10-18 2020-04-28 山西医学期刊社 一种视频文本摘要生成方法及装置
CN111898441A (zh) * 2020-06-30 2020-11-06 华中师范大学 一种在线课程视频资源内容识别与评估方法及智能系统
CN112004164A (zh) * 2020-07-02 2020-11-27 中山大学 一种视频海报自动生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100104261A1 (en) * 2008-10-24 2010-04-29 Zhu Liu Brief and high-interest video summary generation
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN111078943A (zh) * 2018-10-18 2020-04-28 山西医学期刊社 一种视频文本摘要生成方法及装置
CN111898441A (zh) * 2020-06-30 2020-11-06 华中师范大学 一种在线课程视频资源内容识别与评估方法及智能系统
CN112004164A (zh) * 2020-07-02 2020-11-27 中山大学 一种视频海报自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BELLE L.TSENG等: "Personalized video summary using visual semantic annotations and automatic speech transcriptions", 《IEEE》 *
滑蕊等: "融合语义信息的视频摘要生成", 《北京航空航天大学学报》 *

Also Published As

Publication number Publication date
CN113343026B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Cheng et al. Fully convolutional networks for continuous sign language recognition
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
CN106980624B (zh) 一种文本数据的处理方法和装置
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
WO2009084554A1 (ja) テキスト分割装置とテキスト分割方法およびプログラム
CN111723791A (zh) 文字纠错方法、装置、设备及存储介质
Vinnarasu et al. Speech to text conversion and summarization for effective understanding and documentation
CN112784581A (zh) 文本纠错方法、装置、介质及电子设备
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
De Coster et al. Machine translation from signed to spoken languages: State of the art and challenges
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN114065738B (zh) 基于多任务学习的中文拼写纠错方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
AlMousa et al. Nlp-enriched automatic video segmentation
CN113343026B (zh) 在线视频课程内容概要生成方法
CN117219067A (zh) 一种基于语音理解的短视频自动生成字幕的方法及系统
CN110750669A (zh) 一种图像字幕生成的方法及系统
CN114241279A (zh) 图文联合纠错方法、装置、存储介质及计算机设备
CN115186683A (zh) 一种基于跨模态翻译的属性级多模态情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant