CN114842385A - 学科教培视频审核方法、装置、设备及介质 - Google Patents
学科教培视频审核方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114842385A CN114842385A CN202210482557.8A CN202210482557A CN114842385A CN 114842385 A CN114842385 A CN 114842385A CN 202210482557 A CN202210482557 A CN 202210482557A CN 114842385 A CN114842385 A CN 114842385A
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- audited
- text
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000012550 audit Methods 0.000 claims description 19
- 238000012552 review Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 abstract description 20
- 230000008569 process Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000007726 management method Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请涉及计算机技术领域,提供一种学科教培视频审核方法、装置、设备及介质。本申请的方法包括:提取待审核视频的图像特征、音频特征和文本特征;分别将上述特征输入至学科教培视频分类模型中,学科教培视频分类模型包括对图像特征处理的图像模态子模型、对音频特征处理的音频模态子模型和对文本特征处理的文本模态子模型以及特征融合子模型,特征融合子模型能够对图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,并且根据融合后的特征输出分类结果,以确定待审核视频的类别;根据待审核视频的类别输出审核结果。本申请的方法通过多模态的分类模型对视频进行分类,提高了学科类教育培训视频审核的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种学科教培视频审核方法、装置、设备及介质。
背景技术
随着互联网技术的发展和社会的进步,线上教育越来越普及,尤其是中小学线上教育。但是随着“双减”政策的发布,中小学线上教育受到极大的限制,学科类教育培训视频的审核变得至关重要。
现有技术中审核学科类教育培训视频时主要有两种方法,第一种,视频审核装置提取待审核视频的图像,将图像输入到图像检测模型中,得到该图像对应的图像类型,并且根据图像类型判断待审核视频是否为学科类教育培训视频。第二种,视频审核装置提取待审核视频的音频,利用语音识别技术将音频转换为文本后将文本输入到文本检测模型中,得到该音频对应的音频类型,并且根据音频类型判断待审核视频是否为学科类教育培训视频。
但是,现有的视频审核方法在审核学科类教育培训视频时准确性并不高,差错率较大。
发明内容
本申请提供一种学科教培视频审核方法、装置、设备及介质,用以解决现有的视频审核方法在审核学科类教育培训视频时准确性并不高,差错率较大的问题。
第一方面,本申请提供一种学科教培视频审核方法,包括:
提取待审核视频的图像特征、音频特征和文本特征;
分别将所述图像特征、音频特征和文本特征输入至学科教培视频分类模型中,所述学科教培视频分类模型包括对图像特征处理的图像模态子模型、对音频特征处理的音频模态子模型和对文本特征处理的文本模态子模型以及特征融合子模型,所述特征融合子模型能够对所述图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,并且根据融合后的特征输出分类结果,以确定所述待审核视频的类别;
根据所述待审核视频的类别输出审核结果。
在一种可能的实施方式中,提取待审核视频的文本特征,具体包括:
确定所述待审核视频中的文本;
根据预设的学科特征词库提取所述文本中的特征词,
根据所述特征词对应的词向量确定所述待审核视频的文本特征。
在一种可能的实施方式中,所述确定所述待审核视频中的文本,具体包括:
提取所述待审核视频中的音频;利用语音识别技术将所述音频转换为文本;
或者;
提取所述待审核视频中的第一文本;提取所述待审核视频中的音频;利用语音识别技术将所述音频转换为第二文本;对所述第一文本和所述第二文本进行拼接以生成所述待审核视频的文本。
在一种可能的实施方式中,在所述提取所述待审核视频中的音频之后,还包括:
对所述音频进行降噪处理,以获取降噪后的音频。
在一种可能的实施方式中,所述根据所述待审核视频的类别输出审核结果,具体包括:
当所述待审核视频的类别是学科教培类视频时,向用户输出审核不通过提示信息,所述审核不通过提示信息包括所述待审核视频的类别;
当所述待审核视频的类别不是学科教培类视频时,向用户输出审核通过提示信息。
在一种可能的实施方式中,提取待审核视频的图像特征,具体包括:
获取所述待审核视频的各个图像帧;
确定所述图像帧中不重复的关键图像帧;
对所述关键图像帧进行预处理以生成第一预设格式的图像数据;
提取每一所述图像数据对应的图像特征。
在一种可能的实施方式中,提取待审核视频的音频特征,具体包括:
获取所述待审核视频的音频文件,并将所述音频文件分割成预设大小的音频片段;
对所述音频片段进行预处理以生成第二预设格式的音频数据;
提取每一所述音频数据对应的音频特征。
第二方面,本申请提供一种学科教培视频审核装置,包括:
特征提取模块,用于提取待审核视频的图像特征、音频特征和文本特征;
类别确定模块,用于分别将所述图像特征、音频特征和文本特征输入至学科教培视频分类模型中,所述学科教培视频分类模型包括对图像特征处理的图像模态子模型、对音频特征处理的音频模态子模型和对文本特征处理的文本模态子模型以及特征融合子模型,所述特征融合子模型能够对所述图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,并且根据融合后的特征输出分类结果,以确定所述待审核视频的类别;
结果输出模块,用于根据所述待审核视频的类别输出审核结果。
第三方面,本申请提供一种学科教培视频审核设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现上述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述的方法。
本申请提供的学科教培视频审核方法,可以提取待审核视频的图像特征、音频特征和文本特征;分别将图像特征、音频特征和文本特征输入至学科教培视频分类模型中。学科教培视频分类模型的图像模态子模型可以对待审核视频的图像特征处理,音频模态子模型可以对待审核视频的音频特征处理,文本模态子模型可以对待审核视频的文本特征处理,以分别生成不同模态的单模态特征向量。学科教培视频分类模型的特征融合子模型能够对图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,融合后的特征可以建立图像、音频和文本三种模态之间的关联。利用融合后的特征进行视频分类,就可以根据图像、音频和文本这三种互相关联的模态对待审核视频进行分类,从而精确地确定待审核视频的类别。多模态的学科教培视频分类模型可以建立图像、音频和文本这三种模态之间的关联,通过多模态的学科教培视频分类模型对待审核视频进行分类,提高了待审核视频类别确定的准确性。进一步,通过更加精准的视频分类,也提高了学科类教育培训视频审核的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请一实施例的学科教培视频审核方法的流程图;
图2为本申请一实施例的学科教培视频分类模型的结构示意图;
图3为本申请另一实施例的学科教培视频审核方法的流程图;
图4为本申请一实施例的学科教培视频审核装置的结构示意图;
图5为本申请一实施例的学科教培视频审核设备的结构示意图。
附图标记:21、图像模态子模型;22、音频模态子模型;23、文本模态子模型;24、特征融合子模型;41、特征提取模块;42、类别确定模块;43、结果输出模块。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
模态(modality):在本申请实施例中,每一种信息的形式,都可以称为一种模态。对于视频而言,视频信息的媒介可以包括:音频、图像以及文本,那么每一种媒介的表现形式都可以称为视频的一种模态,即音频模态、图像模态以及文本模态。
视频网站中都设置有审核机制,用于对用户上传的视频进行审核。随着“双减”政策的发布,中小学线上教育受到极大的限制,学科类教育培训视频也不再允许上传和分享。因此,视频网站对上传的视频进行审核时,不仅需要审核色情、暴力、低俗等违规视频,还需要对学科类教育培训视频进行审核。
现有技术中通常利用集成有视频审核装置的计算机对待审核视频进行审核。视频审核装置审核视频时,首先提取待审核视频的图像,然后将提取到的图像输入到图像检测模型中,以获得该图像对应的图像类型。最后,根据图像类型判断待审核视频是否为学科类教育培训视频,若是,则审核不通过。当然,视频审核装置也可以提取待审核视频的音频,并且利用语音识别技术将音频转换为文本。然后,将文本输入到文本检测模型中,以获得该音频对应的音频类型。最后,根据音频类型判断待审核视频是否为学科类教育培训视频,若是,则审核不通过。
但是,上述的图像检测模型和文本检测模型均是单模态的分类模型,仅能根据一种模态对视频进行分类。然而,视频通常具有图像、音频和文本这三种模态。现有的视频审核方法仅利用单模态的分类模型对视频进行分类,导致视频分类的准确性不高,从而使得根据分类结果进行视频审核的准确性也不高,差错率较大。
本申请提供的学科教培视频审核方法,旨在解决现有技术的如上技术问题。该方法可以提取待审核视频的图像特征、音频特征和文本特征;分别将图像特征、音频特征和文本特征输入至学科教培视频分类模型中。学科教培视频分类模型的图像模态子模型可以对待审核视频的图像特征处理,音频模态子模型可以对待审核视频的音频特征处理,文本模态子模型可以对待审核视频的文本特征处理,以分别生成不同模态的单模态特征向量。学科教培视频分类模型的特征融合子模型能够对图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,融合后的特征可以建立图像、音频和文本三种模态之间的关联。利用融合后的特征进行视频分类,就可以根据图像、音频和文本这三种互相关联的模态对待审核视频进行分类,从而精确地确定待审核视频的类别。多模态的学科教培视频分类模型可以建立图像、音频和文本这三种模态之间的关联,通过多模态的学科教培视频分类模型对待审核视频进行分类,提高了待审核视频类别确定的准确性。进一步,通过更加精准的视频分类,也提高了学科类教育培训视频审核的准确性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
图1是本申请一实施例提供的学科教培视频审核方法的流程图,本申请实施例提供的学科教培视频审核方法的执行主体可以是学科教培视频审核装置,也可以是集成了学科教培视频审核装置的计算机,本实施例以执行主体为集成了学科教培视频审核装置的计算机(以下简称:计算机)对该学科教培视频审核方法进行说明。如图1所示,该学科教培视频审核方法可以包括以下步骤:
S101:提取待审核视频的图像特征、音频特征和文本特征。
在本实施例中,可以提取待审核视频的图像特征、音频特征和文本特征,以便后续综合根据图像特征、音频特征和文本特征对待审核视频进行分类,以提高视频分类的准确性。
在本实施例中,待审核视频的图像特征可以包括但不限于:颜色特征、纹理特征、形状特征和空间关系特征。其中,颜色特征可以用像素值、灰度值等表示。具体的图像特征本领域技术人员可以灵活设置,只要图像特征能够表征待审核视频的图像即可,在此不作限制。
在本实施例中,待审核视频的音频特征可以包括但不限于:梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)、如频率、振幅、节拍(bpm)、过零率、短时能量。具体的音频特征本领域技术人员可以灵活设置,只要音频特征能够表征待审核视频的音频即可,在此不作限制。
在一个可能的实施方式中,上述步骤S101中提取待审核视频的图像特征,可以包括:获取待审核视频的各个图像帧;确定图像帧中不重复的关键图像帧;对关键图像帧进行预处理以生成第一预设格式的图像数据;提取每一图像数据对应的图像特征。
在本实施方式中,可以以预设时长为间隔周期地获取待审核视频的各个图像帧,例如,以1s为周期,周期地获取待审核视频的各个图像帧。在本实施方式中,可以利用计算图像相似度的方式对重复图像进行筛选,如果某两张图像帧的相似度大于预设阈值,则认为这两张图像帧重复,可以删除任意一张图像帧。当然,也可以利用其他方式对重复图像进行筛选,在此不做任何限制。
在本实施方式中,对关键图像帧进行预处理可以是对关键图像帧进行图像大小的统一,当然,也可以是对关键图像帧进行进行灰度处理,本领域技术人员可以根据实际需求灵活设置,只要能够使关键图像帧在某个方面一致即可,以使提取到的图像特征维度一致,在此不做任何限制。
在本实施方式中,可以利用现有的相关技术提取每一图像数据对应的图像特征,在此不做赘述。
在本实施方式中,获取图像帧之后,为了避免冗余,提高工作效率,可以删除重复的图像帧,从而获取能够包含待审核视频主要内容的关键图像帧。此外,还可以对关键图像帧进行预处理以生成统一格式的图像数据,使得根据图像数据提取到的图像特征维度一致,便于后续模型对图像特征的处理。
在一个可能的实施方式中,上述步骤S101中提取待审核视频的音频特征,可以包括:获取待审核视频的音频文件,并将音频文件分割成预设大小的音频片段;对音频片段进行预处理以生成第二预设格式的音频数据;提取每一音频数据对应的音频特征。
在本实施方式中,获取到待审核视频的音频文件后,可以以预设的音频时长对音频文件进行分割,以获取大小一致的音频片段。例如,以10s为间隔对音频文件进行分割,使得音频片段的时长均为10s。音频片段的预设大小本领域技术人员可以根据实际灵活设置,在此不做任何限制。
在本实施方式中,不同的视频中提取到的音频的格式可能不同,因此,在获取到音频片段之后,需要对音频的格式进行统一,统一成标准的音频格式,以便于后续音频特征的提取。例如,工作人员设置的标准的音频格式是WAV,提取到的音频A的格式是MP3,则需要将音频A处理成标准的WAV格式。
在本实施方式中,第二预设格式包括但不限于:WAVE(WAV)、AIFF、AU、MP3、MPEG、MPEG-4、MIDI、WMA、RealAudio、VQF、OggVorbis、AAC、APE等各种音频格式。具体的音频格式本领域技术人员可以根据实际灵活设置,在此不做任何限制。
在本实施方式中,可以利用现有的相关技术提取每一音频数据对应的音频特征,在此不做赘述。
在本实施方式中,在获取到待审核视频的音频文件后,可以对音频文件进行分割以及格式统一,使得预处理后的音频数据格式、大小均相同,以使根据音频数据提取到的音频特征维度一致,便于后续模型对音频特征的处理。
在本实施例中,上述步骤S101中提取待审核视频的文本特征的具体方式请详见实施例二。
S102:分别将图像特征、音频特征和文本特征输入至学科教培视频分类模型中,学科教培视频分类模型包括对图像特征处理的图像模态子模型、对音频特征处理的音频模态子模型和对文本特征处理的文本模态子模型以及特征融合子模型,特征融合子模型能够对图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,并且根据融合后的特征输出分类结果,以确定待审核视频的类别。
在本实施例中,图2是本申请一实施例的学科教培视频分类模型的结构示意图,如图2所示,学科教培视频分类模型包括图像模态子模型21、音频模态子模型22、文本模态子模型23和特征融合子模型24。图像模态子模型21可以对输入的图像特征进行处理,据此生成图像模态特征向量,并将图像模态特征向量输入至特征融合子模型24。音频模态子模型22可以对输入的音频特征进行处理,据此生成音频模态特征向量,并将音频模态特征向量输入至特征融合子模型24。文本模态子模型23可以对输入的文本特征进行处理,据此生成文本模态特征向量,并将文本模态特征向量输入至特征融合子模型24。
特征融合子模型24能够对图像模态特征向量、音频模态特征向量以及文本模态特征向量进行特征融合,融合后的特征即可以表征待审核视频图像、音频和文本这三种模态之间的关联。特征融合子模型24还可以利用融合后的特征对视频进行分类,输出待审核视频的类别。
在本实施例中,学科教培视频分类模型可以建立图像、音频和文本这三种模态之间的关联,并据此对待审核视频进行分类,从而精确地确定待审核视频的类别,提高了待审核视频类别确定的准确性。
S103:根据待审核视频的类别输出审核结果。
在一个可能的实施方式中,上述步骤S103根据待审核视频的类别输出审核结果,可以包括:当待审核视频的类别是学科教培类视频时,向用户输出审核不通过提示信息,审核不通过提示信息包括待审核视频的类别;当待审核视频的类别不是学科教培类视频时,向用户输出审核通过提示信息。
在本实施方式中,学科教培视频分类模型可以将待审核视频分为学科教培类视频和非学科教培类视频。当待审核视频的类别是学科教培类视频时,可以输出审核不通过提示信息,该审核不通过提示信息可以包括待审核视频的类别,以提示审核人员待审核视频的类别是学科教培类视频,不需要进行修改,可以直接下架。当待审核视频的类别不是学科教培类视频时,可以输出审核通过提示信息,以提示审核人员将该视频上架或者进行下一步的审核。通过更加精准的视频分类,提高了学科类教育培训视频审核的准确性。
在本实施例中,学科教培类视频的审核有别于传统的视频审核,由于有关政策的发布,只要是中小学的学科教培类视频就不能在视频网站上架。因此,在审核学科教培类视频时,可以确定待审核视频的类别,只根据视频类别进行审核,不需要进行具体内容是否违规的审核。因此,待审核视频类别的确定尤为重要。
本申请的方法,可以提取待审核视频的图像特征、音频特征和文本特征;分别将图像特征、音频特征和文本特征输入至学科教培视频分类模型中。学科教培视频分类模型的图像模态子模型可以对待审核视频的图像特征处理,音频模态子模型可以对待审核视频的音频特征处理,文本模态子模型可以对待审核视频的文本特征处理,以分别生成不同模态的单模态特征向量。学科教培视频分类模型的特征融合子模型能够对图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,融合后的特征可以建立图像、音频和文本三种模态之间的关联。利用融合后的特征进行视频分类,就可以根据图像、音频和文本这三种互相关联的模态对待审核视频进行分类,从而精确地确定待审核视频的类别。多模态的学科教培视频分类模型可以建立图像、音频和文本这三种模态之间的关联,通过多模态的学科教培视频分类模型对待审核视频进行分类,提高了待审核视频类别确定的准确性。进一步,通过更加精准的视频分类,也提高了学科类教育培训视频审核的准确性。
下面以实施例二对实施例一的步骤S101中提取待审核视频的文本特征的具体内容进行详细的阐述。
实施例二
图3是本申请一实施例提供的学科教培视频审核方法的流程图,本申请实施例提供的学科教培视频审核方法的执行主体可以是学科教培视频审核装置,也可以是集成了学科教培视频审核装置的计算机,本实施例以执行主体为集成了学科教培视频审核装置的计算机(以下简称:计算机)对该学科教培视频审核方法进行说明。如图3所示,该学科教培视频审核方法可以包括以下步骤:
S201:确定待审核视频中的文本。
在一个可能的实施方式中,上述步骤S201确定待审核视频中的文本,可以包括:提取待审核视频中的音频;利用语音识别技术将音频转换为文本。
在本实施方式中,为了便于理解和提高趣味性,视频中通常包括解说性质的音频,通过音频就可以明确视频的主题和所传播的主要内容。因此,可以利用语音识别技术将待审核视频中的音频转换为文本,该文本即可包括视频的主题和所传播的主要内容,从而简单便捷地确定待审核视频中的文本。
可替代的,上述步骤S201确定待审核视频中的文本,还可以包括:提取待审核视频中的第一文本;提取待审核视频中的音频;利用语音识别技术将音频转换为第二文本;对第一文本和第二文本进行拼接以生成待审核视频的文本。
在本实施方式中,学科教培类视频一般是为了教育培训,因此视频中通常包括解说性的文字,例如字幕或者PPT文件等。因此,在得到根据音频转换的第二文本之外,还可以提取待审核视频中的第一文本,对第一文本和第二文本进行拼接以生成待审核视频的文本。通过这样的设置,扩大了文本获取的范围,使得生成的文本可以更加准确地表征待审核视频。
在本实施方式中,可以利用现有的语音识别技术将音频转换为文本,在此不做赘述。也可以利用现有的相关技术,例如OCR(Optical Character Recognition,光学字符识别)技术,提取待审核视频中的第一文本,在此不做赘述。
在一个可能的实施方式中,在提取待审核视频中的音频之后,还可以包括:对音频进行降噪处理,以获取降噪后的音频。
在本实施方式中,从待审核视频中提取到的音频可能含有噪声,因此可以对音频进行降噪处理,提高了后续根据音频提取音频特征的简便性和准确性。
S202:根据预设的学科特征词库提取文本中的特征词。
在本实施例中,本申请是为了审核学科教培类视频,因此,预设的学科特征词库中可以包括中小学九大学科的学科特征词。每一学科的学科特征词本领域技术人员可以灵活设置,在此不做任何限制。例如,语文的学科特征词可以是“阅读理解”、“文言文”、“诗词鉴赏”等具有语文学科特色的特征词。化学的学科特征词可以是“烧杯”、“试剂”、“催化剂”等具有化学学科特色的特征词。
S203:根据特征词对应的词向量确定待审核视频的文本特征。
在本实施例中,可以根据提取到的特征词生成对应的词向量,该词向量即为待审核视频的文本特征。
在本实施例中,由于学科教培类视频一般是为了教育培训,其文本中通常包括学科特征词。因此,可以在确定待审核视频中的文本后,根据预设的学科特征词库提取文本中的特征词,使得利用该特征词对应的词向量确定的文本特征可以更加简单而有针对性地表征视频的类别,同时也使文本特征更加符合应用实际。
下面以一个具体的实施例对本申请的学科教培视频审核方法进行阐述。
实施例三
在一个具体的实施例中,某视频网站的审核人员需要对某用户上传的视频A进行审核,首先需要审核该视频是否为学科教培类视频,具体的审核过程如下:
第一步,该审核人员将待审核的视频A输入至计算机的视频审核程序中,该视频审核程序集成了学科教培视频审核装置,学科教培视频审核装置中加载有学科教培视频分类模型。
第二步,学科教培视频审核装置提取视频A的图像特征:以1s为周期,周期地获取视频A的各个图像帧。确定图像帧中不重复的关键图像帧;将关键图像帧处理成大小一致的图像数据;提取每一图像数据对应的图像特征。
第三步,学科教培视频审核装置提取视频A的音频特征:获取视频A的音频文件,并将音频文件分割成时长均为10s的音频片段;将音频片段统一处理成WAV格式的音频数据;提取每一音频数据对应的音频特征。
第四步,学科教培视频审核装置提取视频A的文本特征:提取视频A中的音频;对音频进行降噪处理;利用语音识别技术将降噪后的音频转换为文本;根据预设的学科特征词库提取文本中的特征词;根据特征词对应的词向量确定待审核视频的文本特征。
第五步,学科教培视频审核装置分别将提取到的图像特征、音频特征和文本特征输入至学科教培视频分类模型中,学科教培视频分类模型的图像模态子模型对输入的图像特征进行处理,据此生成图像模态特征向量;音频模态子模型对输入的音频特征进行处理,据此生成音频模态特征向量;文本模态子模型对输入的文本特征进行处理,据此生成文本模态特征向量;特征融合子模型对图像模态特征向量、音频模态特征向量以及文本模态特征向量进行特征融合,并且根据融合后的特征输出分类结果。
第六步,学科教培视频分类模型输出视频A的类别是学科教培类视频,学科教培视频审核装置向审核人员输出审核不通过提示信息,该审核不通过提示信息包括待审核视频的类别,以提示用户审核人员视频A是学科教培类视频,审核不通过,视频A不能上架。
图4为本申请一实施例的学科教培视频审核装置的结构示意图,如图4所示,该学科教培视频审核装置包括:特征提取模块41、类别确定模块42以及结果输出模块43。其中,特征提取模块41用于提取待审核视频的图像特征、音频特征和文本特征。类别确定模块42用于分别将图像特征、音频特征和文本特征输入至学科教培视频分类模型中,学科教培视频分类模型包括对图像特征处理的图像模态子模型、对音频特征处理的音频模态子模型和对文本特征处理的文本模态子模型以及特征融合子模型,特征融合子模型能够对图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,并且根据融合后的特征输出分类结果,以确定待审核视频的类别。结果输出模块43用于根据待审核视频的类别输出审核结果。一个实施方式中,学科教培视频审核装置具体实现功能的描述可以参见实施例一中的步骤S101-S103,在此不做赘述。
图5为本申请一实施例的学科教培视频审核设备的结构示意图,如图5所示,该学科教培视频审核设备包括:处理器101,以及与处理器101通信连接的存储器102;存储器102存储计算机执行指令;处理器101执行存储器102存储的计算机执行指令,实现上述各方法实施例中学科教培视频审核方法的步骤。
该学科教培视频审核设备可以是独立的,也可以是计算机的一部分,该处理器101和存储器102可以采用计算机现有的硬件。
在上述学科教培视频审核设备中,存储器102和处理器101之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器102中存储有实现数据访问控制方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器102中的软件功能模块,处理器101通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器102可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,简称:EEPROM)等。其中,存储器102用于存储程序,处理器101在接收到执行指令后,执行程序。进一步地,上述存储器102内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器101可以是一种集成电路芯片,具有信号的处理能力。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(Network Processor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请的一实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现本申请各方法实施例的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (10)
1.一种学科教培视频审核方法,其特征在于,包括:
提取待审核视频的图像特征、音频特征和文本特征;
分别将所述图像特征、音频特征和文本特征输入至学科教培视频分类模型中,所述学科教培视频分类模型包括对图像特征处理的图像模态子模型、对音频特征处理的音频模态子模型和对文本特征处理的文本模态子模型以及特征融合子模型,所述特征融合子模型能够对所述图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,并且根据融合后的特征输出分类结果,以确定所述待审核视频的类别;
根据所述待审核视频的类别输出审核结果。
2.根据权利要求1所述的方法,其特征在于,提取待审核视频的文本特征,具体包括:
确定所述待审核视频中的文本;
根据预设的学科特征词库提取所述文本中的特征词,
根据所述特征词对应的词向量确定所述待审核视频的文本特征。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待审核视频中的文本,具体包括:
提取所述待审核视频中的音频;利用语音识别技术将所述音频转换为文本;
或者;
提取所述待审核视频中的第一文本;提取所述待审核视频中的音频;利用语音识别技术将所述音频转换为第二文本;对所述第一文本和所述第二文本进行拼接以生成所述待审核视频的文本。
4.根据权利要求3所述的方法,其特征在于,在所述提取所述待审核视频中的音频之后,还包括:
对所述音频进行降噪处理,以获取降噪后的音频。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述待审核视频的类别输出审核结果,具体包括:
当所述待审核视频的类别是学科教培类视频时,向用户输出审核不通过提示信息,所述审核不通过提示信息包括所述待审核视频的类别;
当所述待审核视频的类别不是学科教培类视频时,向用户输出审核通过提示信息。
6.根据权利要求1-4中任一项所述的方法,其特征在于,提取待审核视频的图像特征,具体包括:
获取所述待审核视频的各个图像帧;
确定所述图像帧中不重复的关键图像帧;
对所述关键图像帧进行预处理以生成第一预设格式的图像数据;
提取每一所述图像数据对应的图像特征。
7.根据权利要求6所述的方法,其特征在于,提取待审核视频的音频特征,具体包括:
获取所述待审核视频的音频文件,并将所述音频文件分割成预设大小的音频片段;
对所述音频片段进行预处理以生成第二预设格式的音频数据;
提取每一所述音频数据对应的音频特征。
8.一种学科教培视频审核装置,包括:
特征提取模块,用于提取待审核视频的图像特征、音频特征和文本特征;
类别确定模块,用于分别将所述图像特征、音频特征和文本特征输入至学科教培视频分类模型中,所述学科教培视频分类模型包括对图像特征处理的图像模态子模型、对音频特征处理的音频模态子模型和对文本特征处理的文本模态子模型以及特征融合子模型,所述特征融合子模型能够对所述图像模态子模型、音频模态子模型和文本模态子模型输出的单模态特征向量进行特征融合,并且根据融合后的特征输出分类结果,以确定所述待审核视频的类别;
结果输出模块,用于根据所述待审核视频的类别输出审核结果。
9.一种学科教培视频审核设备,包括处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210482557.8A CN114842385A (zh) | 2022-05-05 | 2022-05-05 | 学科教培视频审核方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210482557.8A CN114842385A (zh) | 2022-05-05 | 2022-05-05 | 学科教培视频审核方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842385A true CN114842385A (zh) | 2022-08-02 |
Family
ID=82567095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210482557.8A Pending CN114842385A (zh) | 2022-05-05 | 2022-05-05 | 学科教培视频审核方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842385A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834935A (zh) * | 2022-12-21 | 2023-03-21 | 阿里云计算有限公司 | 多媒体信息审核方法、广告审核方法、设备及存储介质 |
-
2022
- 2022-05-05 CN CN202210482557.8A patent/CN114842385A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834935A (zh) * | 2022-12-21 | 2023-03-21 | 阿里云计算有限公司 | 多媒体信息审核方法、广告审核方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597964A (zh) | 一种双录质检语义分析方法、装置及双录质检系统 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN110569502A (zh) | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN116415017B (zh) | 基于人工智能的广告敏感内容审核方法及系统 | |
US11829875B2 (en) | Information processing device, information processing method and computer readable storage medium | |
US20230244878A1 (en) | Extracting conversational relationships based on speaker prediction and trigger word prediction | |
CN117556010A (zh) | 基于知识库与大模型的文档生成系统、方法、设备及介质 | |
CN112464927A (zh) | 一种信息提取方法、装置及系统 | |
CN113918710A (zh) | 文本数据处理方法、装置、电子设备和可读存储介质 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN116563006A (zh) | 业务风险预警方法、设备、存储介质及装置 | |
CN114842385A (zh) | 学科教培视频审核方法、装置、设备及介质 | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN112116181B (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN117312562A (zh) | 内容审核模型的训练方法、装置、设备及存储介质 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN116580698A (zh) | 基于人工智能的语音合成方法、装置、计算机设备及介质 | |
CN116402056A (zh) | 文档信息的处理方法、装置及电子设备 | |
CN113704452B (zh) | 基于Bert模型的数据推荐方法、装置、设备及介质 | |
CN112687296B (zh) | 音频不流利的识别方法、装置、设备及可读存储介质 | |
CN115393094A (zh) | 预测模型的训练方法、数据分析方法、装置以及介质 | |
CN112951274A (zh) | 语音相似度确定方法及设备、程序产品 | |
CN112131378A (zh) | 用于识别民生问题类别的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |