CN113779308A - 一种短视频检测和多分类方法、装置及存储介质 - Google Patents

一种短视频检测和多分类方法、装置及存储介质 Download PDF

Info

Publication number
CN113779308A
CN113779308A CN202111335783.5A CN202111335783A CN113779308A CN 113779308 A CN113779308 A CN 113779308A CN 202111335783 A CN202111335783 A CN 202111335783A CN 113779308 A CN113779308 A CN 113779308A
Authority
CN
China
Prior art keywords
short video
short
video
early warning
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111335783.5A
Other languages
English (en)
Other versions
CN113779308B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guanchuan Network Technology Nanjing Co ltd
Original Assignee
Guanchuan Network Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guanchuan Network Technology Nanjing Co ltd filed Critical Guanchuan Network Technology Nanjing Co ltd
Priority to CN202111335783.5A priority Critical patent/CN113779308B/zh
Publication of CN113779308A publication Critical patent/CN113779308A/zh
Application granted granted Critical
Publication of CN113779308B publication Critical patent/CN113779308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种短视频检测和多分类方法,接收用户发送的短视频获取请求,从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息,利用图像关键帧执行目标短视频检测和识别,构建多领域预警关键词库,利用两级关键词匹配实现预警短视频分类供用户查看。本发明利用图像处理技术和文本处理技术能够准确提取短视频中的蕴含的有效信息,提高短视频识别的准确度;并利用短视频中的图像帧、文字信息和语音信息对短视频进行检测,根据图像帧中蕴含的图像信息可检测出目标短视频,利用短视频中的多种文字信息实现多类型的突发预警短视频检测分类,并运用两级关键词匹配规则实现突发预警短视频的分类,提高了短视频的分类多样性和准确性。

Description

一种短视频检测和多分类方法、装置及存储介质
技术领域
本发明涉及短视频检测与分类领域,特别涉及一种短视频检测和分类方法、装置及计算机存储介质。
背景技术
随着互联网通信技术和多媒体技术的迅速发展,数字视频已广泛传播于大量用户之间,尤其是各大短视频平台的出现,短视频已经成为人们获取娱乐和新闻的重要来源之一。然而,有些短视频属于异常短视频。因此如果对短视频不加以分类管理,不提前进行提醒,那么会存在一定影响。因此,如何对短视频内容的检测、监测、分类、提醒是本领域中迫切需求解决的技术难题。
如何对短视频内容检测涉及多种技术的交叉,其涉及短视频编解码技术、图像处理技术、语音处理技术、文本处理技术、数据库存储技术等等。而现有技术中,通常只涉及利用单一的技术对短视频内容进行简单粗分类,例如可利用图像识别技术将目标短视频分类、利用关键词识别的手段将预警短视频分类等等,很显然上述技术方案不能适应多种类型的短视频分类,同时由于检测手段的单一会导致准确度较低。因此,迫切需要一种针对短视频,进行检测和分类的技术,其不仅能对短视频进行多类型的检测分类,同时通过融合多种短视频中的信息提高短视频分类的准确度。
发明内容
有鉴于此,本发明提供了一种短视频检测和分类方法,可将短视频分类为目标视频和突发预警视频。一方面利用图像处理技术和文本处理技术能够准确提取短视频中的蕴含的有效信息,为短视频的分类提供多种图像信息和文本信息,提高短视频识别的准确度。另一方面充分利用短视频中的图像帧、文字信息和语音信息检测出异常视频,利用图像帧中蕴含的图像信息可检测出目标短视频,利用短视频中的多种文字信息,可实现多类型的突发预警短视频检测分类,并具体利用两级关键词匹配规则实现突发预警短视频的分类,提高了短视频的分类多样性和准确性。
本发明的一种短视频检测和分类方法,具体包括如下过程:
步骤1:接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;
步骤2:从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;
在提取视频图像帧之后,还包括执行如下步骤:将获取的每个短视频划分为多个片段,从每个片段中提取一个非边缘帧作为视频图像关键帧;将提取的多个视频图像关键帧构成该短视频的图像关键帧序列,并作为该短视频的图像帧对应保存到数据库,同时将对应的语音文件也对应保存到数据库,并可设置查询索引;
步骤3:执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频,具体包括如下过程:
步骤3.1:人体肤色区域检测和肤色特征提取:利用人体肤色统计模型得到人体肤色区域;根据所述肤色区域,从所述肤色区域中提取多个特征值作为特征向量,其中特征值包括:肤色占整个图像的比例、肤色连通区域的个数;最大连通区域占整个图像的比例;
步骤3.2:人体姿态检测和特征提取:计算连续两帧图像的帧差图像,获取运动特征,并且与人体异常姿态特征库进行对比,得到最接近的人体姿态,并且将对应的直方图特征作为人体姿态特征:
其中所述人体异常姿态特征库采用如下方式构建:根据多个目标动作短视频片段样本,计算连续两帧图像相减即得帧差图像,得到运动变化的像素,统计该像素直方图特征,将所述直方图特征构建为目标短视频动作特征库;
步骤3.3:将上述提取的人体肤色区域特征和人体姿态特征进行多特征融合,并利用分类器进行识别,得到该图像关键帧是否为目标帧图像,并进行0和1的标识,标识1表示该图像关键帧为目标帧图像;
步骤3.4:对每个短视频的多个图像关键帧执行上述过程,并将识别结果与每个视频对应保存;
步骤3.5:根据短视频的所有图像关键帧的识别结果来最终确定短视频的异常性,具体包括如下过程:
根据短视频的时间连续性,若短视频的图像关键帧被标记为1,则将该图像关键帧及与其前后相邻的若干短视频图像关键帧表示成张量数据的形式,通过分析提取张量数据的相关性,当相关性较大时,确定待检测短视频为目标短视频,并结束对待检测短视频的检测过程;否则,提取下一个短视频图像关键帧,并重复执行上述过程,直到确定待检测短视频为目标短视频,或者,对所有短视频图像关键帧都进行了判断,并确定待检测短视频中不为目标短视频;
步骤4:对剔除了目标短视频的剩余短视频执行文字信息的识别流程,包括文本区域检测定位和字符识别流程,采用基于 Gabor 纹理特征和深度学习神经网络的两级文本区域检测定位方式,具体包括:
步骤4.1:对短视频图像关键帧进行网格化处理,具体为使用固定尺寸的网格分割关键帧,网格的大小取决于对特征图像的细化程度以及计算的实时性要求,采用 N×N 个像素的网格对特征区域进行网格化,每个网格的中心点作为 Gabor 特征的采样点;
步骤4.2:构建Gabor滤波器组,利用不同方向和尺度下的 Gabor 特征来描述图像关键帧中文字区域的方向性纹理,实现文字区域的初步检测;
步骤4.3:将文字区域和非文字区域的 Gabor 特征输入到深度学习神经网络训练文字区域分类器,将上述训练好的分类器用于图像关键帧文本区域的检测。
在检测到文本区域后,接着就是对文字区域进行字符识别,并保存为文本信息,其中字符识别方式,具体包括:
步骤4.4:构建基于CRNN结合CTC-loss的文字识别模型,并基于该模型对上述文本区域结果进行文字识别,获取有效的文字信息。其中CRNN结合CTC-loss的文字识别模型采用本领域中通用的模型算法;
步骤4.5:在得到每个视频的多个图像关键帧的文字识别结果后,将所有识别的文字结果进行去重合并后,作为每个短视频的文本信息,对应保存。
步骤5:构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,其中多领域关键词库对应多种短视频预警类别;
步骤6:将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,利用基于两级关键词匹配识别算法,即先利用文本关键词分词结果的哈希相似度比对,再利用基于机器学习的关键词语义比对,执行预警短视频分类,具体包括如下步骤:
步骤6.1:获取上述保存的每个短视频的目标文本信息;
步骤6.2:获取上述目标文本信息的分词集合;
步骤6.3:计算所述分词集合中的各个分词的哈希值,根据所述分词集合中的分词的哈希值生成与所述多领域预警关键词库中的关键词的相似度;
步骤6.4:在所述相似度小于阈值时,进行语义识别,根据预设的机器学习概率模型提取文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型计算所述文本信息的置信度对所述文本信息进行语义分析;
步骤6.5:根据所述置信度判定所述文本信息是否为预警信息。其中,文本信息的文本特征可包括TF-IDF特征。可预先输入预警信息的样本进行机器学习,从而服务器建立机器学习概率模型;
步骤7:对上述分类视频的短视频进行展示。
本发明还提供一种短视频检测和多分类装置,所述装置包括:获取模块、视频语音分离模块、目标短视频检测和识别模块、图像文字检测和识别模块、多领域预警关键词库构建模块、预警短视频分类模块;
所述获取模块:具体用于接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;
所述视频语音分离模块:具体用于从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;
所述目标短视频检测和识别模块:具体用于执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频;
所述图像文字检测和识别模块:具体用于对剔除了目标短视频的剩余短视频执行文字信息识别流程;
所述多领域预警关键词库构建模块:具体用于构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,且该多领域关键词库对应多种短视频预警类别;
所述预警短视频分类模块:具体用于将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,匹配多领域预警关键词库,利用文本关键词分词结果的哈希相似度比对结合基于机器学习的语义比对,执行预警短视频分类;
所述分类结果展示模块:具体用于对上述分类短视频进行展示。
与现有技术相比,本发明的有益效果为:1、利用多层次的分类规则能对短视频进行多类别的分类,提高了短视频的分类多样性和准确度。2、在进行目标短视频识别时,利用关键帧减少了短视频帧图像的处理数据,同时融合了多种目标特征进行目标视频识别。3、通过图像处理技术和文本处理技术能够准确提取短视频中的蕴含的有效信息,实现了对短视频中的嵌入文字和标注文字的检测和识别。4、在进行预警短视频分类时,为了克服信息变种的问题,引入了相似度识别结合机器语义识别的两层识别模型。
附图说明
结合附图并参考以下详细说明,本公开的各实施例的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本公开的若干实施例,在附图中:
图1是本发明一种短视频检测和多分类装置一实施例结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面说明本发明实施例的一种短视频检测和多分类装置,如图1所示,所述装置包括:获取模块、视频语音分离模块、目标短视频检测和识别模块、图像文字检测和识别模块、多领域预警关键词库构建模块、预警短视频分类模块、分类结果展示模块;其中,异常短视频为带有用户定义的异常元素的短视频,其包括目标短视频和预警短视频,目标短视频为包含预定寻找目标传播内容的信息的短视频,预警短视频为包含突发的预警信息的短视频。
所述获取模块:具体用于接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;
所述视频语音分离模块:具体用于从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;
所述目标短视频检测和识别模块:具体用于执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频;
所述图像文字检测和识别模块:具体用于对剔除了目标短视频的剩余短视频执行文字信息识别流程;
所述多领域预警关键词库构建模块:具体用于构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,且该多领域关键词库对应多种短视频预警类别;
所述预警短视频分类模块:具体用于将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,匹配多领域预警关键词库,利用文本关键词分词结果的哈希相似度比对结合基于机器学习的语义比对,执行预警短视频分类;
所述分类结果展示模块:具体用于对分类短视频进行展示。
综上,本发明的实施例利用多层次的分类规则能对短视频进行多类别的分类,可将短视频分类为目标视频和突发预警视频,一方面利用图像处理技术和文本处理技术能够准确提取短视频中的蕴含的有效信息,进而可以实现短视频的多类型粗分类。另一方面可实现突发预警视频的细分类,能充分融合视频中的多种文字信息,并利用两级分类规则实现突发预警视频的分类,提高了短视频的分类多样性和准确性。
本发明的实施例还提供了一种短视频检测和多分类方法,具体包括如下步骤:
步骤1:接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;
步骤2:从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;
优先地,在该实施例中,本领域技术人员可以采用短视频编辑软件分离待检测短视频文件中的多个图像帧信息和语音信息,例如,将待检测的短视频文件导入短视频轨(时间轴),然后将语音数据分割出来,即将云和短视频图像帧分割开来,然后将语音保存为音频格式对应的文件即可得到语音信息,将短视频图像帧保存为图像文件,得到短视频的多帧图像;
优选地,本实施例中为了后续减少图像帧的处理工作量,可以利用图像关键帧技术减少每个短视频对应保存的视频图像帧,具体可采用如下步骤:将获取的每个短视频划分为多个片段,从每个片段中提取一个非边缘帧作为视频图像关键帧;将提取的多个视频图像关键帧构成该短视频的图像关键帧序列,并作为该短视频的图像帧对应保存到数据库,同时将对应的语音文件也对应保存到数据库,并可设置查询索引。
在该实施例中,由于图像关键帧支持对整个短视频内容的快速查询,其可以提高对异常短视频的检测效率。同时,选取的图像关键帧代表了短视频中的异常信息,能够为异常短视频的快速识别提供良好的基础。
在目标短视频中,其主要涉及的是动态的人物的表演和/或静态的人物图片的展示的目标视频,因此目标视频通常具有某种特征,例如其通常包括人脸图像,并且人脸图像的数量通常有限的。因此为了减少后续目标短视频的图像数据处理数据量,本申请优选地对短视频中的图像关键帧进行人脸检测和识别,并标记每个图像关键帧的人脸数量,在人脸数量满足一定的阈值条件(例如1到3个)时,才执行目标短视频的检测过程。其中,人脸检测和识别算法在本领域中已经较为成熟,可以采用现有技术中已有的算法。
步骤3:执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频,具体包括如下步骤:
步骤3.1:人体肤色区域检测和肤色特征提取:利用人体肤色统计模型得到人体肤色区域;根据所述肤色区域,从所述肤色区域中提取多个特征值作为特征向量,其中特征值包括:肤色占整个图像的比例、肤色连通区域的个数;最大连通区域占整个图像的比例;
其中利用人体肤色统计模型得到人体肤色区域,具体包括如下执行过程:
人体肤色统计模型构建如下:将RGB颜色空间转换到HSV空间,通过计算大量样本肤色图片的H,S,V分量,统计出H,S,V各分量平均值的分布范围及关系:
h1<H<h2;s1<S<s2;v1<V<v2;其中h1,h2,s1,s2,v1,v2为各分量上的阈值;其中,h1,h2,s1,s2,v1,v2例如分别为7,20,28,256,50,256。
人体肤色区域检测:满足上述人体肤色统计模型的像素标记为1,否则为0,并获取人体肤色连通区域,其中肤色连通区域的检测手段可采用现有技术中已知的算法。
步骤3.2:人体姿态检测和特征提取:计算连续两帧图像的帧差图像,获取运动特征,并且与人体异常姿态特征库进行对比,得到最接近的人体姿态,并且将对应的直方图特征作为人体姿态特征:
其中所述人体异常姿态特征库采用如下方式构建:根据多个目标动作短视频片段样本,计算连续两帧图像相减即得帧差图像,得到运动变化的像素,统计该像素直方图特征,将所述直方图特征构建为目标短视频动作特征库。
步骤3.3:将上述提取的人体肤色区域特征和人体姿态特征进行多特征融合,并利用分类器进行识别,得到该图像关键帧是否为目标帧图像,并进行0和1的标识。
步骤3.4:对每个短视频的多个图像关键帧执行上述过程,并将识别结果与每个视频对应保存;
在该实施例中,由于该短视频中包括多个图像关键帧,因此,某张短视频图像关键帧的检测结果不能完全代表整段短视频的异常性。因此,本实施例中采用如下过程根据短视频的所有图像关键帧的识别结果来最终确定短视频的异常性。
根据短视频的时间连续性,若短视频的图像关键帧被标记为1,则将该图像关键帧及与其前后相邻的若干短视频图像关键帧表示成张量数据的形式,通过分析提取张量数据的相关性,当相关性较大时,确定待检测短视频为目标短视频,并结束对待检测短视频的检测过程;否则,提取下一个短视频图像关键帧,并重复执行上述过程,直到确定待检测短视频为目标短视频,或者,对所有短视频图像关键帧都进行了判断,并确定待检测短视频中不为目标短视频。
步骤4:对剔除了目标短视频的剩余短视频执行文字信息的识别流程;
在预警事件视频特点中,申请人研究发现,在突发预警事件中,预警事件的短视频场景中通常会有嵌有相应的文字背景,即背景文字,文字报道或者相应的短视频标题摘要等语音和文字,即附加文字。这些背景文字的目的性也呈现多样化,可以帮助人们理解图像的信息,比如地名地标、路标路牌、商店招牌等;有些文字却是故意传播的文字,比如横幅标语等。这些背景文字的隐蔽性检测识别是我们关注的重点。附加文字是使图像或短视频内容更加容易理解,或者是为相关多媒体提供补充信息内容。
而由于视频图像中文字的复杂性,其会受到拍摄设备像素、拍摄角度、拍摄光照、拍摄抖动等因素的影响,诸多因素使得图像中的文本区域定位变得非常困难。
优选地、在文本区域检测和定位方面,本申请利用文字区域纹理的方向性,采用基于 Gabor 纹理特征和深度学习神经网络的两级文本区域检测定位方式,具体包括:
步骤4.1:对短视频图像关键帧进行网格化处理,具体为使用固定尺寸的网格分割文字子图像,网格的大小取决于对特征图像的细化程度以及计算的实时性要求,采用 N×N个像素的网格对特征区域进行网格化,每个网格的中心点作为 Gabor 特征的采样点;
步骤4.2:构建Gabor滤波器组,利用不同方向和尺度下的 Gabor 特征来描述图像关键帧中文字区域的方向性纹理,实现文字区域的初步检测;
步骤4.3:将文字区域和非文字区域的 Gabor 特征输入到深度学习神经网络训练文字区域分类器,将上述训练好的分类器用于图像关键帧文本区域的检测。
在检测到文本区域后,接着就是对文字区域进行字符识别,并保存为文本信息,其中字符识别采用如下方案:
步骤4.4:构建基于CRNN结合CTC-loss的文字识别模型,并基于该模型对上述文本区域结果进行文字识别,获取有效的文字信息。其中CRNN结合CTC-loss的文字识别模型采用本领域中通用的模型算法。
步骤4.5:在得到每个视频的多个图像关键帧的文字识别结果后,将所有识别的文字结果进行去重合并后,作为每个短视频的文本信息,对应保存。
步骤5:构建多领域预警关键词库,该多领域预警关键词库是基于预先采集的多领域语料进行训练得到的,其中,训练语料通过采集多领域的历史预警信息,包括新闻短视频、新闻文本,经过自然语言处理,包括语料清洗、分词、关键词识别、机器学习,识别分类后得到的领域标准关键词库,其中多领域关键词库对应多种短视频预警类别,同时,该构建的多领域关键词库由管理员维护,并且随着需求定时或实时更新。
步骤6:将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,利用基于两级关键词匹配识别算法,即先利用文本关键词分词结果的哈希相似度比对,再利用基于机器学习的关键词语义比对,具体包括如下步骤:
步骤6.1:获取上述保存的每个短视频的目标文本信息;
步骤6.2:获取上述目标文本信息的分词集合;
步骤6.3:计算所述分词集合中的各个分词的哈希值,根据所述分词集合中的分词的哈希值生成与所述多领域预警关键词库中的关键词的相似度;具体为:计算所述分词集合中,与预设多领域预警关键词库中关键词的哈希值匹配的分词在所述分词集合中所占的比例;根据所述比例生成所述目标文本信息与领域预警关键词的相似度;判断相似度是否大于阈值,若是,即可判定该文本信息为该领域预警关键词,并且将该短视频分类到对应的预警类别。
在该实施例中,对于计算得到哈希相似度较低的目标文本信息,由于该多领域预警关键词库实时性不足,且包括的预警关键词不完备,以及文本存在语义变种、同义词/近义词的替换等,因此可能存在虽然某个文本信息与已存的预警信息的相似度均较低,而且分词结果的差异也较大,但仍然为预警信息的可能,因此仍然存在漏识别的风险,为此,可继续进行识别,提高识别准确度。具体包括如下步骤:
步骤6.4:在所述相似度小于阈值时,进行语义识别,根据预设的机器学习概率模型提取文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型计算所述文本信息的置信度对所述文本信息进行语义分析;
步骤6.5:根据所述置信度判定所述文本信息是否为预警信息。其中,文本信息的文本特征可包括TF-IDF特征。可预先输入预警信息的样本进行机器学习,从而服务器建立机器学习概率模型,在该机器学习概率模型训练完毕后,则可将提取的文本特征输入到该机器学习概率模型中计算置信度,当置信度大于阈值时,则表示机器识别成功,从而可判定目标文本信息为预警信息,并且将该短视频分类到对应的预警类别;否则,判定该目标文本信息为非预警信息。
步骤7:对分类短视频进行展示。
综上,本发明可以实现如下技术效果:1)、利用多层次的分类规则能对短视频进行多类别的分类,提高了短视频的分类多样性和准确度。2)、在进行目标短视频识别时,利用关键帧减少了短视频帧图像的处理数据,同时融合了多种目标特征进行目标视频识别。3)、通过图像处理技术和文本处理技术能够准确提取短视频中的蕴含的有效信息,实现了对短视频中的嵌入文字和标注文字的检测和识别。4)、在进行预警短视频分类时,为了克服信息变种的问题,引入了相似度识别结合机器语义识别的两层识别模型。
上文所描述的各种方法,在一些实施例中,可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由ROM 和/或通信单元而被载入和/或安装到设备上。当计算机程序被加载到RAM 并由CPU 执行时,可以执行上文描述的方法中的一个或多个动作或步骤。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。
以上所述仅为本公开的实施例可选实施例,并不用于限制本公开的实施例,对于本领域的技术人员来说,本公开的实施例可以有各种更改和变化。凡在本公开的实施例的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的实施例的保护范围之内。

Claims (10)

1.一种短视频检测和多分类装置,所述装置包括:获取模块、视频语音分离模块、目标短视频检测和识别模块、图像文字检测和识别模块、多领域预警关键词库构建模块、预警短视频分类模块、分类结果展示模块;
所述获取模块:具体用于接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;
所述视频语音分离模块:具体用于从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;
所述目标短视频检测和识别模块:具体用于执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频;
所述图像文字检测和识别模块:具体用于对剔除了目标短视频的剩余短视频执行文字信息识别;
所述多领域预警关键词库构建模块:具体用于构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,且该多领域关键词库对应多种短视频预警类别;
所述预警短视频分类模块:具体用于将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,匹配多领域预警关键词库,利用文本关键词分词结果的哈希相似度比对结合基于机器学习的语义比对,执行预警短视频分类;
所述分类结果展示模块:具体用于对上述分类短视频进行展示。
2.一种利用权利要求1所述的装置实现的短视频检测和多分类方法,包括如下步骤:
步骤1:接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;
步骤2:从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;
在提取视频图像帧之后,还包括执行如下步骤:
步骤2.1:将获取的每个短视频划分为多个片段,从每个片段中提取一个非边缘帧作为视频图像关键帧;
步骤2.2:将提取的多个视频图像关键帧构成该短视频的图像关键帧序列,并作为该短视频的图像帧对应保存到数据库,同时将对应的语音文件也对应保存到数据库,并设置查询索引;
步骤3:执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频;
步骤4:对剔除了目标短视频的剩余短视频执行文字信息的识别流程,包括文本区域检测定位和字符识别流程;
步骤5:构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,其中多领域关键词库对应多种短视频预警类别;
步骤6:将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,利用基于两级关键词匹配识别算法,即先利用文本关键词分词结果的哈希相似度比对,再利用基于机器学习的关键词语义比对,执行预警短视频分类;
步骤7:对上述分类短视频进行展示。
3.如权利要求2所述的短视频检测和多分类方法,其特征在于:其中,所述利用图像关键帧的多种特征信息判断该短视频是否为目标短视频,具体包括如下过程:
步骤3.1:人体肤色区域检测和肤色特征提取:利用人体肤色统计模型得到人体肤色区域;根据所述肤色区域,从所述肤色区域中提取多个特征值作为特征向量,其中特征值包括:肤色占整个图像的比例、肤色连通区域的个数;最大连通区域占整个图像的比例;
步骤3.2:人体姿态检测和特征提取:计算连续两帧图像的帧差图像,获取运动特征,并且与人体异常姿态特征库进行对比,得到最接近的人体姿态,并且将对应的直方图特征作为人体姿态特征;
其中所述人体异常姿态特征库采用如下方式构建:根据多个目标动作短视频片段样本,计算连续两帧图像相减即得帧差图像,得到运动变化的像素,统计该像素直方图特征,将所述直方图特征构建为目标短视频动作特征库;
步骤3.3:将上述提取的人体肤色区域特征和人体姿态特征进行多特征融合,并利用分类器进行识别,得到该图像关键帧是否为目标的帧图像,并进行0和1的标识;
步骤3.4:对每个短视频的多个图像关键帧执行上述过程,并将识别结果与每个视频对应保存;
步骤3.5:根据短视频的所有图像关键帧的识别结果来最终确定短视频的异常性。
4.如权利要求3所述的短视频检测和多分类方法,其特征在于:其中,所述利用人体肤色统计模型得到人体肤色区域,包括如下过程:
人体肤色统计模型构建如下:将RGB颜色空间转换到HSV空间,通过计算大量样本肤色图片的H,S,V分量,统计出H,S,V各分量平均值的分布范围及关系:
h1<H<h2;s1<S<s2;v1<V<v2;其中h1,h2,s1,s2,v1,v2为各分量上的阈值;
人体肤色区域检测:满足上述人体肤色统计模型的像素标记为1,否则为0,并获取人体肤色连通区域。
5.如权利要求3所述的短视频检测和多分类方法,其特征在于:其中,所述根据短视频的所有图像关键帧的识别结果来最终确定短视频的异常性,包括如下步骤:
步骤3.5.1:根据短视频的时间连续性,若短视频的图像关键帧被标记为1,则将该图像关键帧及与其前后相邻的若干短视频图像关键帧表示成张量数据的形式;
步骤3.5.2:通过分析提取张量数据的相关性,当相关性较大时,确定待检测短视频为目标短视频,并结束对待检测短视频的检测过程;否则,提取下一个短视频图像关键帧,并重复执行上述过程,直到确定待检测短视频为目标短视频,或者,对所有短视频图像关键帧都进行了判断,并确定待检测短视频中不为目标短视频 。
6.如权利要求2所述的短视频检测和多分类方法,其特征在于:所述文本区域检测定位为基于 Gabor 纹理特征和深度学习神经网络的两级文本区域检测定位方式,具体包括:
步骤4.1:对短视频图像关键帧进行网格化处理,具体为使用固定尺寸的网格分割文字子图像,网格的大小取决于对特征图像的细化程度以及计算的实时性要求,采用 N×N 个像素的网格对特征区域进行网格化,每个网格的中心点作为 Gabor 特征的采样点;
步骤4.2:构建Gabor滤波器组,利用不同方向和尺度下的 Gabor 特征来描述图像关键帧中文字区域的方向性纹理,实现文字区域的初步检测;
步骤4.3:将文字区域和非文字区域的 Gabor 特征输入到深度学习神经网络训练文字区域分类器,将上述训练好的分类器用于图像关键帧文本区域的检测;
在检测到文本区域后,对文字区域进行字符识别,并保存为文本信息,其中字符识别方式,具体包括:
步骤4.4:构建基于CRNN结合CTC-loss的文字识别模型,并基于该模型对上述文本区域结果进行文字识别,获取有效的文字信息;
步骤4.5:在得到每个视频的多个图像关键帧的文字识别结果后,将所有识别的文字结果进行去重合并后,作为每个短视频的文本信息,对应保存。
7.如权利要求2所述的短视频检测和多分类方法,其特征在于:该多领域预警关键词库是基于预先采集的多领域语料进行训练得到的,其中,训练语料通过采集多领域的历史预警信息;该构建的多领域关键词库由管理员维护,并且随着需求定时或实时更新。
8.如权利要求2所述的短视频检测和多分类方法,其特征在于:其中,所述先利用文本关键词分词结果的哈希相似度比对,再利用基于机器学习的语义比对,具体包括如下步骤:
步骤6.1:获取上述保存的每个短视频的目标文本信息;
步骤6.2:获取上述目标文本信息的分词集合;
步骤6.3:计算所述分词集合中的各个分词的哈希值,根据所述分词集合中的分词的哈希值生成与所述多领域预警关键词库中的关键词的相似度;
步骤6.4:在所述相似度小于阈值时,进行语义识别,根据预设的机器学习概率模型提取文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型计算所述文本信息的置信度对所述文本信息进行语义分析;
步骤6.5:根据所述置信度判定所述文本信息是否为预警信息,进而实现该短视频的预警类别判断。
9.如权利要求8所述的短视频检测和多分类方法,其特征在于:其中,所述根据所述置信度判定所述文本信息是否为预警信息文本信息的文本特征,具体为:预先输入预警信息的样本进行机器学习,从而服务器建立机器学习概率模型,在该机器学习概率模型训练完毕后,则将提取的文本特征输入到该机器学习概率模型中计算置信度,当置信度大于阈值时,则表示机器识别成功,从而判定目标文本信息为预警信息,并且将该短视频分类到对应的预警类别;否则,判定该目标文本信息为非预警信息;文本特征包括TF-IDF特征。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求2-9任一项所述方法的步骤。
CN202111335783.5A 2021-11-12 2021-11-12 一种短视频检测和多分类方法、装置及存储介质 Active CN113779308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111335783.5A CN113779308B (zh) 2021-11-12 2021-11-12 一种短视频检测和多分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111335783.5A CN113779308B (zh) 2021-11-12 2021-11-12 一种短视频检测和多分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113779308A true CN113779308A (zh) 2021-12-10
CN113779308B CN113779308B (zh) 2022-02-25

Family

ID=78957041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111335783.5A Active CN113779308B (zh) 2021-11-12 2021-11-12 一种短视频检测和多分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113779308B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283851A (zh) * 2021-12-21 2022-04-05 天翼爱音乐文化科技有限公司 基于视频彩铃识别客户的方法、系统、装置及存储介质
CN114612839A (zh) * 2022-03-18 2022-06-10 壹加艺术(武汉)文化有限公司 一种短视频分析处理方法、系统及计算机存储介质
CN114697761A (zh) * 2022-04-07 2022-07-01 脸萌有限公司 一种处理方法、装置、终端设备及介质
CN114782879A (zh) * 2022-06-20 2022-07-22 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质
CN114925239A (zh) * 2022-07-20 2022-08-19 北京师范大学 基于人工智能的智慧教育目标视频大数据检索方法及系统
CN116150221A (zh) * 2022-10-09 2023-05-23 浙江博观瑞思科技有限公司 服务于企业电商运营管理的信息交互方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051344A (zh) * 2006-04-04 2007-10-10 上海阿帝凡思信息技术有限公司 基于光流方向直方图和肤色流形变分的敏感视频识别方法
CN102073841A (zh) * 2009-11-20 2011-05-25 中国移动通信集团广东有限公司 一种不良视频检测方法及装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN107896335A (zh) * 2017-12-06 2018-04-10 任明和 基于大数据技术的视频检测和评级方法
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110688526A (zh) * 2019-11-07 2020-01-14 山东舜网传媒股份有限公司 基于关键帧识别和音频文本化的短视频推荐方法及系统
CN112668559A (zh) * 2021-03-15 2021-04-16 冠传网络科技(南京)有限公司 一种多模态信息融合的短视频情感判定装置及方法
CN112836484A (zh) * 2021-04-20 2021-05-25 北京妙医佳健康科技集团有限公司 一种文本对齐方法、装置、电子设备、计算机可读存储介质
CN113537206A (zh) * 2020-07-31 2021-10-22 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN113536032A (zh) * 2020-04-10 2021-10-22 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种视频序列信息挖掘系统、方法及其应用

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051344A (zh) * 2006-04-04 2007-10-10 上海阿帝凡思信息技术有限公司 基于光流方向直方图和肤色流形变分的敏感视频识别方法
CN102073841A (zh) * 2009-11-20 2011-05-25 中国移动通信集团广东有限公司 一种不良视频检测方法及装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN107896335A (zh) * 2017-12-06 2018-04-10 任明和 基于大数据技术的视频检测和评级方法
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110688526A (zh) * 2019-11-07 2020-01-14 山东舜网传媒股份有限公司 基于关键帧识别和音频文本化的短视频推荐方法及系统
CN113536032A (zh) * 2020-04-10 2021-10-22 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种视频序列信息挖掘系统、方法及其应用
CN113537206A (zh) * 2020-07-31 2021-10-22 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN112668559A (zh) * 2021-03-15 2021-04-16 冠传网络科技(南京)有限公司 一种多模态信息融合的短视频情感判定装置及方法
CN112836484A (zh) * 2021-04-20 2021-05-25 北京妙医佳健康科技集团有限公司 一种文本对齐方法、装置、电子设备、计算机可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘树春等: "《深度实践OCR 基于深度学习的文字识别》", 31 May 2020, 机械工业出版社 *
刘赏等: "《 计算机图像和视频处理实验教程》", 30 September 2014, 中国铁道出版社 *
熊晶等: "《甲骨学知识图谱构建方法研究》", 30 January 2019, 科学技术文献出版社 *
秦学勇等: "两级相似度计算在主观题机器阅卷中的应用", 《计算机工程》 *
罗万伯等: "《现代多媒体技术应用教程,高等教育出版社》", 30 November 2004, 高等教育出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283851A (zh) * 2021-12-21 2022-04-05 天翼爱音乐文化科技有限公司 基于视频彩铃识别客户的方法、系统、装置及存储介质
CN114283851B (zh) * 2021-12-21 2023-03-14 天翼爱音乐文化科技有限公司 基于视频彩铃识别客户的方法、系统、装置及存储介质
CN114612839A (zh) * 2022-03-18 2022-06-10 壹加艺术(武汉)文化有限公司 一种短视频分析处理方法、系统及计算机存储介质
CN114612839B (zh) * 2022-03-18 2023-10-31 壹加艺术(武汉)文化有限公司 一种短视频分析处理方法、系统及计算机存储介质
CN114697761A (zh) * 2022-04-07 2022-07-01 脸萌有限公司 一种处理方法、装置、终端设备及介质
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质
CN114782879A (zh) * 2022-06-20 2022-07-22 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质
CN114782879B (zh) * 2022-06-20 2022-08-23 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质
CN114925239A (zh) * 2022-07-20 2022-08-19 北京师范大学 基于人工智能的智慧教育目标视频大数据检索方法及系统
CN116150221A (zh) * 2022-10-09 2023-05-23 浙江博观瑞思科技有限公司 服务于企业电商运营管理的信息交互方法及系统

Also Published As

Publication number Publication date
CN113779308B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN113779308B (zh) 一种短视频检测和多分类方法、装置及存储介质
CN109117777B (zh) 生成信息的方法和装置
CN107169049B (zh) 应用的标签信息生成方法及装置
CN105426356B (zh) 一种目标信息识别方法和装置
CN110704682B (zh) 一种基于视频多维特征智能推荐背景音乐的方法及系统
CN103824053B (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
EP2785058A1 (en) Video advertisement broadcasting method, device and system
CN111212303B (zh) 视频推荐方法、服务器和计算机可读存储介质
CN111191695A (zh) 一种基于深度学习的网站图片篡改检测方法
US11386897B2 (en) Method and system for extraction of key-terms and synonyms for the key-terms
CN112001282A (zh) 一种图像识别方法
CN112188306B (zh) 一种标签生成方法、装置、设备及存储介质
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
CN111178146A (zh) 基于人脸特征识别主播的方法及装置
CN115512259A (zh) 一种基于多模态的短视频审核方法
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
Mancas Relative influence of bottom-up and top-down attention
CN113850178A (zh) 一种视频词云的生成方法及装置、存储介质及电子设备
CN113705310A (zh) 特征学习的方法、目标物体的识别方法和对应装置
CN113537206B (zh) 推送数据检测方法、装置、计算机设备和存储介质
CN113255501A (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN111753642B (zh) 一种确定关键帧的方法及装置
Kavati et al. Signboard text translator: a guide to tourist
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant