CN114925239B - 基于人工智能的智慧教育目标视频大数据检索方法及系统 - Google Patents

基于人工智能的智慧教育目标视频大数据检索方法及系统 Download PDF

Info

Publication number
CN114925239B
CN114925239B CN202210850340.8A CN202210850340A CN114925239B CN 114925239 B CN114925239 B CN 114925239B CN 202210850340 A CN202210850340 A CN 202210850340A CN 114925239 B CN114925239 B CN 114925239B
Authority
CN
China
Prior art keywords
detected
video
key frame
voice
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210850340.8A
Other languages
English (en)
Other versions
CN114925239A (zh
Inventor
吴昊
武秀萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Priority to CN202210850340.8A priority Critical patent/CN114925239B/zh
Publication of CN114925239A publication Critical patent/CN114925239A/zh
Application granted granted Critical
Publication of CN114925239B publication Critical patent/CN114925239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于人工智能的智慧教育目标视频大数据检索方法及系统,涉及数据处理技术领域。该方法包括:获取基准视频;筛选得到基准语音高频词汇、基准标题高频词汇和基准关键帧图像;获取待检测视频,筛选得到语音高频词汇;判断语音高频词汇与基准语音高频词汇是否存在重合,若是,则对各段待检测视频的首页和末页进行识别;判断标题词汇与基准标题高频词汇是否存在重合,若是,则进行关键帧提取,计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频。本发明结合多种人工智能算法进行多个维度的数据处理,进而进行高效且精准的目标视频检索。

Description

基于人工智能的智慧教育目标视频大数据检索方法及系统
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于人工智能的智慧教育目标视频大数据检索方法及系统。
背景技术
随着教育事业的蓬勃发展和数字媒体技术的快速更新,越来越多的教育视频出现在互联网上,给民众提供了更多的学习选择。然而,随着教育视频数量的急剧增多,如何从海量的教育视频中检索到所需的目标视频成为民众重点关注的问题。尽管传统的视频检索、视频分类等方法已经应用到目标视频的检索中,但仍然无法精准地检索到目标视频,民众在视频选择的过程中仍然需要消耗大量的时间和精力,无法高效且精准的获取到民众所需的目标视频,现有技术无法很好的满足民众视频检索需求。
近几年,随着人工智能领域中的多项技术不断更新换代,其可为智慧教育目标视频的精准检索提供直接的支持。因此,如何结合人工智能技术提高智慧教育目标视频检索的精准度,更好的满足民众的视频检索需求成为一个新的问题。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种基于人工智能的智慧教育目标视频大数据检索方法及系统,结合多种人工智能算法进行多个维度的数据处理,进而进行高效且精准的目标视频检索,大大提高了目标视频检索精度,更好的满足用户视频检索需求。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供一种基于人工智能的智慧教育目标视频大数据检索方法,包括以下步骤:
S1、获取并将目标用户选取的多段教育视频作为基准视频;
S2、对各段基准视频的音频信号进行提取,并利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别,以筛选得到基准语音高频词汇;
S3、利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇;
S4、对所有基准视频进行关键帧提取,以得到初始关键帧图像,并利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像;
S5、获取网络教育视频库中的各段待检测视频,并利用基于音频深度去噪的多识别模型互验方法对各段待检测视频的音频信号进行识别,以筛选得到各段待检测视频对应的语音高频词汇;
S6、分别判断各段待检测视频的语音高频词汇与基准语音高频词汇是否存在重合,若是,则进入步骤S7;若否,则将对应的待检测视频认定为非目标视频;
S7、利用多OCR技术互验方法对各段待检测视频的首页和末页进行识别,以得到各段待检测视频对应的标题词汇;
S8、分别判断各段待检测视频的标题词汇与基准标题高频词汇是否存在重合,若是,则进入步骤S9;若否,则将对应的待检测视频认定为非目标视频;
S9、对各段待检测视频进行关键帧提取,以得到对应的待检测关键帧图像,基于显著性检测的差异性权重相似度计算方法计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频,生成判定结果;
S10、根据判定结果将所有目标视频推送给目标用户。
为了解决现有技术中无法高效且精准的获取到民众所需的目标视频,无法很好的满足民众视频检索需求的技术问题,本发明利用基于音频深度去噪的多识别模型互验方法对语音信号进行识别,显著地提升了语音识别的精度;利用多OCR技术互验方法对文字进行识别,显著地提升了文字识别的精度;利用基于稀疏编码的深度匹配选取方法挑选出最具代表性的关键帧图像,并将其作为基准关键帧图像,显著地提升了基准关键帧图像的挑选质量,为后续提供更为精准的参考图像;利用基于显著性检测的差异性权重相似度计算方法,更加精准地计算出任意一个关键帧图像和任意一个基准关键帧图像的相似度,为更加精准地检测到目标视频提供了直接支持。本发明通过语音识别、文字识别、关键帧间相似度检测等多个维度相互配合,来实现目标视频检索,显著地提升了目标视频检索的精度,更好的满足用户视频检索需求。
基于第一方面,在本发明的一些实施例中,上述利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别的方法包括以下步骤:
对提取的音频信号进行去噪处理;
采用多个语音识别模型分别对去噪后的音频信号进行语音识别,以得到多个识别结果。
基于第一方面,在本发明的一些实施例中,上述筛选得到基准语音高频词汇的方法包括以下步骤:
统计并根据各个语音识别模型识别的识别结果确定基准语音词汇;
根据预置的语音词汇频率在基准语音词汇中进行筛选,以得到基准语音高频词汇。
基于第一方面,在本发明的一些实施例中,上述利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇的方法包括以下步骤:
采用多个OCR识别模型分别对所有基准视频的首页和末页进行文字识别,以得到多个文字识别结果;
统计并根据各个OCR识别模型的文字识别结果确定对应的标题词汇;
根据预置的标题词汇频率在标题词汇中进行筛选,以得到基准标题高频词汇。
基于第一方面,在本发明的一些实施例中,上述利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像的方法包括以下步骤:
对各个初始关键帧图像进行稀疏编码,以得到对应的图像编码;
基于各个图像编码根据欧式距离计算并根据各个初始关键帧图像的相似度确定基准关键帧图像。
基于第一方面,在本发明的一些实施例中,上述基于显著性检测的差异性权重相似度计算方法计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频的方法包括以下步骤:
分别对任意一个待检测关键帧图像和任意一个基准关键帧图像进行显著性检测,以得到对应的待检测显著性区域图像和基准显著性区域图像;
选取多个待检测显著性区域图像、基准显著性区域图像、待检测关键帧图像和基准关键帧图像作为判定图像集;上述选取的待检测显著性区域图像和基准显著性区域图像的数量至少为待检测关键帧图像和基准关键帧图像的数量的两倍;
分别对判定图像集中的待检测显著性区域图像和基准显著性区域图像进行自编码,并利用欧式距离计算对应的待检测显著性区域图像和基准显著性区域图像的相似度,生成第一相似度结果;
分别对判定图像集中的待检测关键帧图像和基准关键帧图像进行自编码,并利用欧式距离计算对应的待检测关键帧图像和基准关键帧图像的相似度,生成第二相似度结果;
根据第一相似度结果和第二相似度结果判定对应的待检测视频是否目标视频。
第二方面,本发明实施例提供一种基于人工智能的智慧教育目标视频大数据检索系统,包括:基准视频获取模块、基准语音模块、基准标题模块、基准关键帧模块、语音识别模块、语音对比模块、标题词汇识别模块、标题对比模块、目标视频评定模块以及视频推送模块,其中:
基准视频获取模块,用于获取并将目标用户选取的多段教育视频作为基准视频;
基准语音模块,用于对各段基准视频的音频信号进行提取,并利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别,以筛选得到基准语音高频词汇;
基准标题模块,用于利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇;
基准关键帧模块,用于对所有基准视频进行关键帧提取,以得到初始关键帧图像,并利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像;
语音识别模块,用于获取网络教育视频库中的各段待检测视频,并利用基于音频深度去噪的多识别模型互验方法对各段待检测视频的音频信号进行识别,以筛选得到各段待检测视频对应的语音高频词汇;
语音对比模块,用于分别判断各段待检测视频的语音高频词汇与基准语音高频词汇是否存在重合,若是,则标题词汇识别模块运行;若否,则将对应的待检测视频认定为非目标视频;
标题词汇识别模块,用于利用多OCR技术互验方法对各段待检测视频的首页和末页进行识别,以得到各段待检测视频对应的标题词汇;
标题对比模块,用于分别判断各段待检测视频的标题词汇与基准标题高频词汇是否存在重合,若是,则目标视频评定模块运行;若否,则将对应的待检测视频认定为非目标视频;
目标视频评定模块,用于对各段待检测视频进行关键帧提取,以得到对应的待检测关键帧图像,基于显著性检测的差异性权重相似度计算方法计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频,生成判定结果;
视频推送模块,用于根据判定结果将所有目标视频推送给目标用户。
为了解决现有技术中无法高效且精准的获取到民众所需的目标视频,无法很好的满足民众视频检索需求的技术问题,本系统通过基准视频获取模块、基准语音模块、基准标题模块、基准关键帧模块、语音识别模块、语音对比模块、标题词汇识别模块、标题对比模块、目标视频评定模块以及视频推送模块等多个模块的配合,利用基于音频深度去噪的多识别模型互验方法对语音信号进行识别,显著地提升了语音识别的精度;利用多OCR技术互验方法对文字进行识别,显著地提升了文字识别的精度;利用基于稀疏编码的深度匹配选取方法挑选出最具代表性的关键帧图像,并将其作为基准关键帧图像,显著地提升了基准关键帧图像的挑选质量,为后续提供更为精准的参考图像;利用基于显著性检测的差异性权重相似度计算方法,更加精准地计算出任意一个关键帧图像和任意一个基准关键帧图像的相似度,为更加精准地检测到目标视频提供了直接支持。本发明通过语音识别、文字识别、关键帧间相似度检测等多个维度相互配合,来实现目标视频检索,显著地提升了目标视频检索的精度,更好的满足用户视频检索需求。
基于第二方面,在本发明的一些实施例中,上述基准语音模块包括去噪子模块和识别子模块,其中:
去噪子模块,用于对提取的音频信号进行去噪处理;
识别子模块,用于采用多个语音识别模型分别对去噪后的音频信号进行语音识别,以得到多个识别结果。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
本发明实施例至少具有如下优点或有益效果:
本发明实施例提供一种基于人工智能的智慧教育目标视频大数据检索方法及系统,解决了现有技术中无法高效且精准的获取到民众所需的目标视频,无法很好的满足民众视频检索需求的技术问题。本发明利用基于音频深度去噪的多识别模型互验方法对语音信号进行识别,显著地提升了语音识别的精度;利用多OCR技术互验方法对文字进行识别,显著地提升了文字识别的精度;利用基于稀疏编码的深度匹配选取方法挑选出最具代表性的关键帧图像,并将其作为基准关键帧图像,显著地提升了基准关键帧图像的挑选质量,为后续提供更为精准的参考图像;利用基于显著性检测的差异性权重相似度计算方法,更加精准地计算出任意一个关键帧图像和任意一个基准关键帧图像的相似度,为更加精准地检测到目标视频提供了直接支持。本发明通过语音识别、文字识别、关键帧间相似度检测等多个维度相互配合,来实现目标视频检索,显著地提升了目标视频检索的精度,更好的满足用户视频检索需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一种基于人工智能的智慧教育目标视频大数据检索方法的流程图;
图2为本发明实施例一种基于人工智能的智慧教育目标视频大数据检索方法中步骤S2的具体流程图;
图3为本发明实施例一种基于人工智能的智慧教育目标视频大数据检索方法中步骤S3的具体流程图;
图4为本发明实施例一种基于人工智能的智慧教育目标视频大数据检索系统的原理框图;
图5为本发明实施例提供的一种电子设备的结构框图。
附图标记说明:100、基准视频获取模块;200、基准语音模块;300、基准标题模块;400、基准关键帧模块;500、语音识别模块;600、语音对比模块;700、标题词汇识别模块;800、标题对比模块;900、目标视频评定模块;1000、视频推送模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实施例:
如图1-图3所示,第一方面,本发明实施例提供一种基于人工智能的智慧教育目标视频大数据检索方法,包括以下步骤:
S1、获取并将目标用户选取的多段教育视频作为基准视频;
S2、对各段基准视频的音频信号进行提取,并利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别,以筛选得到基准语音高频词汇;
进一步地,如图2所示,包括:
S21、对提取的音频信号进行去噪处理;
S22、采用多个语音识别模型分别对去噪后的音频信号进行语音识别,以得到多个识别结果。
进一步地,统计并根据各个语音识别模型识别的识别结果确定基准语音词汇;根据预置的语音词汇频率在基准语音词汇中进行筛选,以得到基准语音高频词汇。
在本发明的一些实施例中,用户挑选出自己喜欢的部分教育视频(大约20-30部即可),作为基准视频。对每一段视频的音频信号进行提取,利用基于音频深度去噪的多识别模型互验方法对语音进行识别,找到语音高频词汇(例如,‘深度学习’词汇多次出现,大于预设的语音词汇频率,认定为语音高频词汇之一),作为基准语音高频词汇;假设多数语音识别模型将某语音信号识别为‘南京’,少数语音识别技术将某语音信号识别为‘南宁’,最终将该语音信号识别为‘南京’,例如:采用5个语音识别模型进行识别,若其中至少有3个语音识别模型识别结果为‘南京’,则最终将该语音信号识别为‘南京’。上述语音识别模型包括隐马尔可夫模型、基于动态时间规整(Dynamic Time Warping)的算法、基于非参数模型的矢量量化算法等,上述语音识别模型均为现有常规语音识别模型,在此不做赘述。
S3、利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇;
进一步地,如图3所示,包括:
S31、采用多个OCR识别模型分别对所有基准视频的首页和末页进行文字识别,以得到多个文字识别结果;
S32、统计并根据各个OCR识别模型的文字识别结果确定对应的标题词汇;
S33、根据预置的标题词汇频率在标题词汇中进行筛选,以得到基准标题高频词汇。
在本发明的一些实施例中,利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,统计出其中的标题高频词汇(例如,‘人工智能’出现了多次,大于预置的标题词汇频率,认定为高频标题词汇之一)作为基准标题高频词汇。多OCR技术互验方法是利用多种OCR技术分别对文字进行识别,假设多数OCR技术识别出特定文字为‘未’,少数OCR技术识别出特定文字为‘末’,以少数服从多数的原则,将特定文字识别为‘未’。上述OCR识别模型包括EAST模型、CRNN+CTC模型、CNN+LSTM+CTC架构等,上述OCR识别模型均采用现有常规识别模型,在此不做赘述。
S4、对所有基准视频进行关键帧提取,以得到初始关键帧图像,并利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像;
进一步地,对各个初始关键帧图像进行稀疏编码,以得到对应的图像编码;基于各个图像编码根据欧式距离计算并根据各个初始关键帧图像的相似度确定基准关键帧图像。
在本发明的一些实施例中,对所有基准视频的关键帧进行检测,并利用基于稀疏编码的深度匹配选取方法找到最具代表性的关键帧图像,作为基准关键帧图像,为后续提供更为精准的参考图像。基于稀疏编码的深度匹配选取方法如下:
对所有基准视频的关键帧图像进行稀疏编码;然后利用欧式距离,计算它们之间的相似度;当若干个关键帧图像的欧式距离较近时(小于预置的距离阈值),我们认为它们高度相似,仅保留其中一个即可;经过多次欧式距离的计算,筛选出一批差异性较大的关键帧图像,作为基准关键帧图像。
S5、获取网络教育视频库中的各段待检测视频,并利用基于音频深度去噪的多识别模型互验方法对各段待检测视频的音频信号进行识别,以筛选得到各段待检测视频对应的语音高频词汇;
S6、分别判断各段待检测视频的语音高频词汇与基准语音高频词汇是否存在重合,若是,则进入步骤S7;若否,则将对应的待检测视频认定为非目标视频;
对于海量教育视频库中的任意一段待检测视频,先利用基于音频深度去噪的多识别模型互验方法对语音进行识别,识别出语音高频词汇。在此基础上,检验语音高频词汇和基准语音高频词汇是否出现了重合。如果语音高频词汇和基准语音高频词汇没有出现重合,直接将该待检测视频认定为非目标视频;否则,继续进行下一步,进行标题词汇检测对比。假设多数语音识别技术将某语音信号识别为‘南京’,少数语音识别技术将某语音信号识别为‘南宁’,最终将该语音信号识别为‘南京’。
S7、利用多OCR技术互验方法对各段待检测视频的首页和末页进行识别,以得到各段待检测视频对应的标题词汇;
S8、分别判断各段待检测视频的标题词汇与基准标题高频词汇是否存在重合,若是,则进入步骤S9;若否,则将对应的待检测视频认定为非目标视频;
利用多OCR技术互验方法对该待检测视频的首页和末页进行识别,识别出所有的标题词汇。如果所有的标题词汇和基准标题高频词汇都没有重合,直接将该待检测视频认定为非目标视频;否则,继续进行下一步,进行视频图像关键帧提取并对比;多OCR技术互验方法是利用多种OCR技术分别对文字进行识别,假设多数OCR技术识别出特定文字为‘未’,少数OCR技术识别出特定文字为‘末’,以少数服从多数的原则,将特定文字识别为‘未’。
S9、对各段待检测视频进行关键帧提取,以得到对应的待检测关键帧图像,基于显著性检测的差异性权重相似度计算方法计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频,生成判定结果;
进一步地,分别对任意一个待检测关键帧图像和任意一个基准关键帧图像进行显著性检测,以得到对应的待检测显著性区域图像和基准显著性区域图像;选取多个待检测显著性区域图像、基准显著性区域图像、待检测关键帧图像和基准关键帧图像作为判定图像集;上述选取的待检测显著性区域图像和基准显著性区域图像的数量至少为待检测关键帧图像和基准关键帧图像的数量的两倍;分别对判定图像集中的待检测显著性区域图像和基准显著性区域图像进行自编码,并利用欧式距离计算对应的待检测显著性区域图像和基准显著性区域图像的相似度,生成第一相似度结果;分别对判定图像集中的待检测关键帧图像和基准关键帧图像进行自编码,并利用欧式距离计算对应的待检测关键帧图像和基准关键帧图像的相似度,生成第二相似度结果;根据第一相似度结果和第二相似度结果判定对应的待检测视频是否目标视频。
在本发明的一些实施例中,对该待检测视频进行关键帧提取,利用基于显著性检测的差异性权重相似度计算方法,计算任意一个关键帧图像和任意一个基准关键帧图像的相似度,如果任意一个关键帧图像和任意一个基准关键帧图像的相似度较高,认定该待检测视频为目标视频。否则,认定该待检测视频为非目标视频。
基于显著性检测的差异性权重相似度计算方法:采用显著性检测技术对待检测关键帧图像和基准关键帧图像进行显著性检测提取,然后对任意一个关键帧图像和任意一个基准关键帧图像,分别对二者进行自编码,并利用欧式距离计算它们之间的相似度。并对判定图像集中的待检测显著性区域图像和基准显著性区域图像进行自编码,并利用欧式距离计算对应的待检测显著性区域图像和基准显著性区域图像的相似度。在计算相似度的过程中,显著性区域占更高的权重(通常2倍以上)。根据显著性区域的相似度对比结果和完整的图像的相似度对比结果确定最终对应的待检测视频是否是目标视频。
利用上述方法,对海量教育视频库中的每一段待检测视频进行检测,检索出到所有的目标视频。
S10、根据判定结果将所有目标视频推送给目标用户。
为了解决现有技术中无法高效且精准的获取到民众所需的目标视频,无法很好的满足民众视频检索需求的技术问题,本发明利用基于音频深度去噪的多识别模型互验方法对语音信号进行识别,显著地提升了语音识别的精度;利用多OCR技术互验方法对文字进行识别,显著地提升了文字识别的精度;利用基于稀疏编码的深度匹配选取方法挑选出最具代表性的关键帧图像,并将其作为基准关键帧图像,显著地提升了基准关键帧图像的挑选质量,为后续提供更为精准的参考图像;利用基于显著性检测的差异性权重相似度计算方法,更加精准地计算出任意一个关键帧图像和任意一个基准关键帧图像的相似度,为更加精准地检测到目标视频提供了直接支持。本发明通过语音识别、文字识别、关键帧间相似度检测等多个维度相互配合,来实现目标视频检索,显著地提升了目标视频检索的精度,更好的满足用户视频检索需求。
如图4所示,第二方面,本发明实施例提供一种基于人工智能的智慧教育目标视频大数据检索系统,包括:基准视频获取模块100、基准语音模块200、基准标题模块300、基准关键帧模块400、语音识别模块500、语音对比模块600、标题词汇识别模块700、标题对比模块800、目标视频评定模块900以及视频推送模块1000,其中:
基准视频获取模块100,用于获取并将目标用户选取的多段教育视频作为基准视频;
基准语音模块200,用于对各段基准视频的音频信号进行提取,并利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别,以筛选得到基准语音高频词汇;
基准标题模块300,用于利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇;
基准关键帧模块400,用于对所有基准视频进行关键帧提取,以得到初始关键帧图像,并利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像;
语音识别模块500,用于获取网络教育视频库中的各段待检测视频,并利用基于音频深度去噪的多识别模型互验方法对各段待检测视频的音频信号进行识别,以筛选得到各段待检测视频对应的语音高频词汇;
语音对比模块600,用于分别判断各段待检测视频的语音高频词汇与基准语音高频词汇是否存在重合,若是,则标题词汇识别模块700运行;若否,则将对应的待检测视频认定为非目标视频;
标题词汇识别模块700,用于利用多OCR技术互验方法对各段待检测视频的首页和末页进行识别,以得到各段待检测视频对应的标题词汇;
标题对比模块800,用于分别判断各段待检测视频的标题词汇与基准标题高频词汇是否存在重合,若是,则目标视频评定模块900运行;若否,则将对应的待检测视频认定为非目标视频;
目标视频评定模块900,用于对各段待检测视频进行关键帧提取,以得到对应的待检测关键帧图像,基于显著性检测的差异性权重相似度计算方法计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频,生成判定结果;
视频推送模块1000,用于根据判定结果将所有目标视频推送给目标用户。
为了解决现有技术中无法高效且精准的获取到民众所需的目标视频,无法很好的满足民众视频检索需求的技术问题,本系统通过基准视频获取模块100、基准语音模块200、基准标题模块300、基准关键帧模块400、语音识别模块500、语音对比模块600、标题词汇识别模块700、标题对比模块800、目标视频评定模块900以及视频推送模块1000等多个模块的配合,利用基于音频深度去噪的多识别模型互验方法对语音信号进行识别,显著地提升了语音识别的精度;利用多OCR技术互验方法对文字进行识别,显著地提升了文字识别的精度;利用基于稀疏编码的深度匹配选取方法挑选出最具代表性的关键帧图像,并将其作为基准关键帧图像,显著地提升了基准关键帧图像的挑选质量,为后续提供更为精准的参考图像;利用基于显著性检测的差异性权重相似度计算方法,更加精准地计算出任意一个关键帧图像和任意一个基准关键帧图像的相似度,为更加精准地检测到目标视频提供了直接支持。本发明通过语音识别、文字识别、关键帧间相似度检测等多个维度相互配合,来实现目标视频检索,显著地提升了目标视频检索的精度,更好的满足用户视频检索需求。
基于第二方面,在本发明的一些实施例中,上述基准语音模块包括去噪子模块和识别子模块,其中:
去噪子模块,用于对提取的音频信号进行去噪处理;
识别子模块,用于采用多个语音识别模型分别对去噪后的音频信号进行语音识别,以得到多个识别结果。
对音频信号进行去噪处理,大大提高了音频的精准度,为后续识别分析提供更为精准的音频信号;然后采用多个语音识别模型分别对去噪后的音频信号进行语音识别,通过对多个模型的识别结果进行统计,得到更为精准的语音词汇。
如图5所示,第三方面,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及系统和方法,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.一种基于人工智能的智慧教育目标视频大数据检索方法,其特征在于,包括以下步骤:
S1、获取并将目标用户选取的多段教育视频作为基准视频;
S2、对各段基准视频的音频信号进行提取,并利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别,以筛选得到基准语音高频词汇;
S3、利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇;
S4、对所有基准视频进行关键帧提取,以得到初始关键帧图像,并利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像;
S5、获取网络教育视频库中的各段待检测视频,并利用基于音频深度去噪的多识别模型互验方法对各段待检测视频的音频信号进行识别,以筛选得到各段待检测视频对应的语音高频词汇;
S6、分别判断各段待检测视频的语音高频词汇与基准语音高频词汇是否存在重合,若是,则进入步骤S7;若否,则将对应的待检测视频认定为非目标视频;
S7、利用多OCR技术互验方法对各段待检测视频的首页和末页进行识别,以得到各段待检测视频对应的标题词汇;
S8、分别判断各段待检测视频的标题词汇与基准标题高频词汇是否存在重合,若是,则进入步骤S9;若否,则将对应的待检测视频认定为非目标视频;
S9、对各段待检测视频进行关键帧提取,以得到对应的待检测关键帧图像,基于显著性检测的差异性权重相似度计算方法计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频,生成判定结果;包括:分别对任意一个待检测关键帧图像和任意一个基准关键帧图像进行显著性检测,以得到对应的待检测显著性区域图像和基准显著性区域图像;选取多个待检测显著性区域图像、基准显著性区域图像、待检测关键帧图像和基准关键帧图像作为判定图像集;所述选取的待检测显著性区域图像和基准显著性区域图像的数量至少为待检测关键帧图像和基准关键帧图像的数量的两倍;分别对判定图像集中的待检测显著性区域图像和基准显著性区域图像进行自编码,并利用欧式距离计算对应的待检测显著性区域图像和基准显著性区域图像的相似度,生成第一相似度结果;分别对判定图像集中的待检测关键帧图像和基准关键帧图像进行自编码,并利用欧式距离计算对应的待检测关键帧图像和基准关键帧图像的相似度,生成第二相似度结果;根据第一相似度结果和第二相似度结果判定对应的待检测视频是否目标视频;
S10、根据判定结果将所有目标视频推送给目标用户。
2.根据权利要求1所述的一种基于人工智能的智慧教育目标视频大数据检索方法,其特征在于,所述利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别的方法包括以下步骤:
对提取的音频信号进行去噪处理;
采用多个语音识别模型分别对去噪后的音频信号进行语音识别,以得到多个识别结果。
3.根据权利要求2所述的一种基于人工智能的智慧教育目标视频大数据检索方法,其特征在于,所述筛选得到基准语音高频词汇的方法包括以下步骤:
统计并根据各个语音识别模型识别的识别结果确定基准语音词汇;
根据预置的语音词汇频率在基准语音词汇中进行筛选,以得到基准语音高频词汇。
4.根据权利要求1所述的一种基于人工智能的智慧教育目标视频大数据检索方法,其特征在于,所述利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇的方法包括以下步骤:
采用多个OCR识别模型分别对所有基准视频的首页和末页进行文字识别,以得到多个文字识别结果;
统计并根据各个OCR识别模型的文字识别结果确定对应的标题词汇;
根据预置的标题词汇频率在标题词汇中进行筛选,以得到基准标题高频词汇。
5.根据权利要求1所述的一种基于人工智能的智慧教育目标视频大数据检索方法,其特征在于,所述利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像的方法包括以下步骤:
对各个初始关键帧图像进行稀疏编码,以得到对应的图像编码;
基于各个图像编码根据欧式距离计算并根据各个初始关键帧图像的相似度确定基准关键帧图像。
6.一种基于人工智能的智慧教育目标视频大数据检索系统,其特征在于,包括:基准视频获取模块、基准语音模块、基准标题模块、基准关键帧模块、语音识别模块、语音对比模块、标题词汇识别模块、标题对比模块、目标视频评定模块以及视频推送模块,其中:
基准视频获取模块,用于获取并将目标用户选取的多段教育视频作为基准视频;
基准语音模块,用于对各段基准视频的音频信号进行提取,并利用基于音频深度去噪的多识别模型互验方法对提取的音频信号进行识别,以筛选得到基准语音高频词汇;
基准标题模块,用于利用多OCR技术互验方法对所有基准视频的首页和末页进行文字识别,以筛选得到基准标题高频词汇;
基准关键帧模块,用于对所有基准视频进行关键帧提取,以得到初始关键帧图像,并利用基于稀疏编码的深度匹配选取方法对初始关键帧图像进行筛选,以得到基准关键帧图像;
语音识别模块,用于获取网络教育视频库中的各段待检测视频,并利用基于音频深度去噪的多识别模型互验方法对各段待检测视频的音频信号进行识别,以筛选得到各段待检测视频对应的语音高频词汇;
语音对比模块,用于分别判断各段待检测视频的语音高频词汇与基准语音高频词汇是否存在重合,若是,则标题词汇识别模块运行;若否,则将对应的待检测视频认定为非目标视频;
标题词汇识别模块,用于利用多OCR技术互验方法对各段待检测视频的首页和末页进行识别,以得到各段待检测视频对应的标题词汇;
标题对比模块,用于分别判断各段待检测视频的标题词汇与基准标题高频词汇是否存在重合,若是,则目标视频评定模块运行;若否,则将对应的待检测视频认定为非目标视频;
目标视频评定模块,用于对各段待检测视频进行关键帧提取,以得到对应的待检测关键帧图像,基于显著性检测的差异性权重相似度计算方法计算并根据任意一个待检测关键帧图像和任意一个基准关键帧图像的相似度判定对应的待检测视频是否目标视频,生成判定结果;包括:分别对任意一个待检测关键帧图像和任意一个基准关键帧图像进行显著性检测,以得到对应的待检测显著性区域图像和基准显著性区域图像;选取多个待检测显著性区域图像、基准显著性区域图像、待检测关键帧图像和基准关键帧图像作为判定图像集;所述选取的待检测显著性区域图像和基准显著性区域图像的数量至少为待检测关键帧图像和基准关键帧图像的数量的两倍;分别对判定图像集中的待检测显著性区域图像和基准显著性区域图像进行自编码,并利用欧式距离计算对应的待检测显著性区域图像和基准显著性区域图像的相似度,生成第一相似度结果;分别对判定图像集中的待检测关键帧图像和基准关键帧图像进行自编码,并利用欧式距离计算对应的待检测关键帧图像和基准关键帧图像的相似度,生成第二相似度结果;根据第一相似度结果和第二相似度结果判定对应的待检测视频是否目标视频;
视频推送模块,用于根据判定结果将所有目标视频推送给目标用户。
7.根据权利要求6所述的一种基于人工智能的智慧教育目标视频大数据检索系统,其特征在于,所述基准语音模块包括去噪子模块和识别子模块,其中:
去噪子模块,用于对提取的音频信号进行去噪处理;
识别子模块,用于采用多个语音识别模型分别对去噪后的音频信号进行语音识别,以得到多个识别结果。
8.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-5中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202210850340.8A 2022-07-20 2022-07-20 基于人工智能的智慧教育目标视频大数据检索方法及系统 Active CN114925239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210850340.8A CN114925239B (zh) 2022-07-20 2022-07-20 基于人工智能的智慧教育目标视频大数据检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210850340.8A CN114925239B (zh) 2022-07-20 2022-07-20 基于人工智能的智慧教育目标视频大数据检索方法及系统

Publications (2)

Publication Number Publication Date
CN114925239A CN114925239A (zh) 2022-08-19
CN114925239B true CN114925239B (zh) 2022-10-21

Family

ID=82816241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210850340.8A Active CN114925239B (zh) 2022-07-20 2022-07-20 基于人工智能的智慧教育目标视频大数据检索方法及系统

Country Status (1)

Country Link
CN (1) CN114925239B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661784B (zh) * 2022-10-12 2023-08-22 北京惠朗时代科技有限公司 一种面向智慧交通的交通标志图像大数据识别方法与系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050022252A1 (en) * 2002-06-04 2005-01-27 Tong Shen System for multimedia recognition, analysis, and indexing, using text, audio, and digital video
US9244924B2 (en) * 2012-04-23 2016-01-26 Sri International Classification, search, and retrieval of complex video events
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN113779308B (zh) * 2021-11-12 2022-02-25 冠传网络科技(南京)有限公司 一种短视频检测和多分类方法、装置及存储介质
CN114494982B (zh) * 2022-04-08 2022-12-20 华夏文广传媒集团股份有限公司 一种基于人工智能的直播视频大数据精准推荐方法及系统

Also Published As

Publication number Publication date
CN114925239A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
US10402627B2 (en) Method and apparatus for determining identity identifier of face in face image, and terminal
CN106328147B (zh) 语音识别方法和装置
Chen et al. Text detection and recognition in images and video frames
Ji et al. DMRA: Depth-induced multi-scale recurrent attention network for RGB-D saliency detection
CN111126069A (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN114494982B (zh) 一种基于人工智能的直播视频大数据精准推荐方法及系统
CN111460961A (zh) 一种基于cdvs的相似图聚类的静态视频摘要方法
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
Zhang et al. Automatic discrimination of text and non-text natural images
Liu et al. A fine-grained spatial-temporal attention model for video captioning
Radha Video retrieval using speech and text in video
CN114925239B (zh) 基于人工智能的智慧教育目标视频大数据检索方法及系统
CN112733666A (zh) 一种难例图像的搜集、及模型训练方法、设备及存储介质
Lan et al. MiniCrack: A simple but efficient convolutional neural network for pixel-level narrow crack detection
Feng et al. A new general framework for shot boundary detection and key-frame extraction
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
Choudhury et al. An adaptive thresholding-based movement epenthesis detection technique using hybrid feature set for continuous fingerspelling recognition
Li et al. Review network for scene text recognition
CN116740607A (zh) 视频处理方法及装置、电子设备和存储介质
CN114299944B (zh) 视频处理方法、系统、装置及存储介质
Sowmyayani et al. STHARNet: Spatio-temporal human action recognition network in content based video retrieval
CN107766373B (zh) 图片所属类目的确定方法及其系统
Feng et al. Multi-modal information fusion for news story segmentation in broadcast video
Chen Text detection and recognition in images and video sequences
CN107092875B (zh) 一种新的场景识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant