CN108307205A - 融合视听觉特征的视频表现力识别方法、终端及存储介质 - Google Patents

融合视听觉特征的视频表现力识别方法、终端及存储介质 Download PDF

Info

Publication number
CN108307205A
CN108307205A CN201711275404.1A CN201711275404A CN108307205A CN 108307205 A CN108307205 A CN 108307205A CN 201711275404 A CN201711275404 A CN 201711275404A CN 108307205 A CN108307205 A CN 108307205A
Authority
CN
China
Prior art keywords
video
expressive force
audio
frequency characteristics
true value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711275404.1A
Other languages
English (en)
Inventor
仝小敏
李鹏
吉祥
吴鸽鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Technology Group Corp CETC
Electronic Science Research Institute of CTEC
Original Assignee
China Electronics Technology Group Corp CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Technology Group Corp CETC filed Critical China Electronics Technology Group Corp CETC
Priority to CN201711275404.1A priority Critical patent/CN108307205A/zh
Publication of CN108307205A publication Critical patent/CN108307205A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合视听觉特征的视频表现力识别方法、终端及计算机可读存储介质,本发明通过根据预设视频的访问量和上传时长得到视频表现力真值,并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练,得到视频表现力识别模型,后续将待测视频的视觉特征和音频特征带入所述模型,从而快速且准确的得到所述待测视频的视频表现力真值,从而有效解决现有技术中不能对视频表现力客观准确定性的问题。

Description

融合视听觉特征的视频表现力识别方法、终端及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种融合视听觉特征的视频表现力识别方法、终端及计算机可读存储介质。
背景技术
互联网和智能终端的飞速发展,使得互联网上的视频数量急剧增长,视频广告作为与商业直接相关的数据近年来发展迅速,其制作数量与日俱增,各大厂商花费巨资打造视频广告,以提高品牌的影响力和产品的销售额,广告视频的表现力强,会迅速给观众留下深刻的印象,提升产品的知名度,给厂家带来丰厚的利润,反之,对产品的销售提升则没有太多帮助。
视频的表现力识别目前尚未得到深入的研究,视频广告的表现力通常取决于广告的构思和设计,凭借主观经验决定,缺少客观的、定量的分析,而视频的颜色等视觉特征和视频中的音频特征等往往可以客观反映视频本身的表现力,但是并未被充分挖掘应用于分析视频的表现力。
发明内容
鉴于上述的分析,本发明旨在提供一种融合视听觉特征的视频表现力识别方法、终端及计算机可读存储介质,用以解决现有技术中不能客观准确的对视频表现力进行定性的问题。
为解决上述问题,本发明主要是通过以下技术方案实现的:
本发明提供了一种融合视听觉特征的视频表现力识别方法,该方法包括:
根据预设视频的访问量和上传时长得到视频表现力真值,提取所述视频的视觉特征和音频特征,并将所述视频的视觉特征、音频特征以及该视频对应的视频表现力真值进行训练,得到视频表现力识别模型;
提取待测视频的视觉特征,并提取待测视频的音频特征,将所述视觉特征和音频特征,带入所述视频表现力识别模型得到所述待测视频的视频表现力真值。
进一步地,所述预设视频为互联网上的视频广告。
进一步地,将所述视频和该视频对应的视频表现力真值进行训练,得到视频表现力识别模型,具体包括:将所述视频和该视频对应的视频表现力真值带入支持向量机SVM进行SVM训练,得到视频表现力识别模型。
进一步地,所述视觉特征包括以下中的一种或多种:BoW特征、GIST特征、颜色矩特征和颜色直方图特征。
进一步地,提取待测视频的音频特征,具体包括:将待测视频转化为音频格式的音频文件,并对音频文件提取音频特征。
进一步地,对音频文件提取音频特征,具体包括:提取音频文件中的节奏、音调、音量和音色信息。
另一方面,本发明还提供一种服务器,所述服务器包括处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的计算机指令,以实现上述任一种所述的融合视听觉特征的视频表现力识别方法。
再一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一种所述的融合视听觉特征的视频表现力识别方法。
本发明有益效果如下:
本发明通过根据预设视频的访问量和上传时长得到视频表现力真值,并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练,得到视频表现力识别模型,后续将待测视频的视觉特征和音频特征带入所述模型,从而快速且准确的得到所述待测视频的视频表现力真值,从而有效解决现有技术中不能对视频表现力客观准确定性的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明实施例的一种融合视听觉特征的视频表现力识别方法的流程示意图;
图2是本发明实施例的一种融合视听觉特征的视频表现力识别方法的流程示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。为了清楚和简化目的,当其可能使本发明的主题模糊不清时,将省略本文所描述的器件中已知功能和结构的详细具体说明。
本发明通过根据预设视频的访问量和上传时长得到视频表现力真值,并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练,得到视频表现力识别模型,后续将待测视频的视觉特征和音频特征带入所述模型,从而快速且准确的得到所述待测视频的视频表现力真值,从而有效解决现有技术中不能对视频表现力客观准确定性的问题。以下结合附图以及几个实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明实施例提供了一种融合视听觉特征的视频表现力识别方法,参见图1,该方法包括:
S101、根据预设视频的访问量和上传时长得到视频表现力真值,提取所述视频的视觉特征和音频特征,并将所述视频的视觉特征、音频特征以及该视频对应的视频表现力真值进行训练,得到视频表现力识别模型;
S102、提取待测视频的视觉特征,并提取待测视频的音频特征,将所述视觉特征和音频特征,带入所述视频表现力识别模型得到所述待测视频的视频表现力真值。
也就是说,本发明通过根据预设视频的访问量和上传时长得到视频表现力真值,并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练,得到视频表现力识别模型,后续将待测视频的视觉特征和音频特征带入所述模型,从而快速且准确的得到所述待测视频的视频表现力真值,从而有效解决现有技术中不能对视频表现力客观准确定性的问题。
需要说明的是,本发明实施例所述预设视频为互联网上的视频广告。
进一步地,本发明实施例中,将所述视频和该视频对应的视频表现力真值进行训练,得到视频表现力识别模型,具体包括:将所述视频和该视频对应的视频表现力真值带入支持向量机SVM进行SVM训练,得到视频表现力识别模型。
进一步地,本发明实施例中,所述视觉特征包括以下中的一种或多种:BoW特征、GIST特征、颜色矩特征和颜色直方图特征。
具体实施时,本发明实施例所述提取待测视频的音频特征,具体包括:
将待测视频转化为音频格式的音频文件,并对音频文件提取音频特征。
本发明实施例所述对音频文件提取音频特征,具体包括:提取音频文件中的节奏、音调、音量和音色信息。
图2是本发明实施例的一种融合视听觉特征的视频表现力识别方法的流程示意图,下面将结合图2对本发明所述的方法进行详细的解释和说明:
为了自动、量化的让计算机识别广告视频的表现力,本发明提出一种利用视音频特征对视频广告表现力进行识别的方法,通过融合BoW、GIST、颜色矩特征、颜色直方图和音频特征,利用多源特征之间的互补冗余,得到视频广告表现力的自动定量识别结果,同时验证多种特征的融合识别率要高于单独使用一种特征。
具体来说,本发明利用视频本身具有的视音频特征来识别视频的表现力。首先,从互联网上收集视频广告作为数据库,将这些视频的点击率和上传时长进行处理得到视频表现力的真值,把这些视频分为训练集和测试集;其次,提取视频的视觉特征和音频特征;第三,融合训练视频的视音频特征和真值进行SVM训练,得到训练模型;最后,利用训练好的模型预测测试样本的视频表现力,将预测得到的视频表现力与真值进行比较,得到视频广告识别准确率。
本发明实施例所述的时间特征包括:
BoW特征:BoW特征全称为Bag ofWords(词袋)模型,是目前应用最广泛的视觉特征之一,本发明采用基于SIFT(尺度不变特征变换)算子的BoW特征,SIFT特征为图像中的兴趣点,在图像缩放和旋转时候具有不变性,另外,对光照和噪声等也具有相当的鲁棒性,所以在计算机视觉中应用广泛。
GIST特征:GIST特征是图像的全局描述特征,可以表示图像的一些重要统计信息。该特征可以编码图像中垂直和水平线条的数量和强度,这些信息可以用于图像匹配中,一般是通过在几个不同方向和尺度上的对图像卷积一个定向滤波器实现。
颜色矩特征:颜色是彩色图像最重要的特征之一,颜色矩特征不需要颜色空间量化,是一种简单有效的颜色表示方法,由于颜色分布信息主要集中在低阶矩中,所以本发明采用颜色的一阶矩(mean)、二阶矩(variance)来表示该特征。
颜色直方图特征:提取视频中每帧图像RGB三通道上的颜色信息,获取三通道的颜色直方图作为颜色信息向量,然后将三个通道颜色信息向量首尾串联起来得到该帧的直方图向量特征。
本发明实施例所述支持向量机(support vector machine,SVM)训练分类技术是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
本发明提出的融合视听觉特征的视频表现力识别技术实现方案主要包括以下步骤:
(1)建立视频广告数据库
从互联网上选择了103个视频广告作为实验数据库,这些视频包括汽车广告、食品广告、饮料广告、首饰广告、酒类广告和公益广告等多个种类。其中50个视频作为训练样本,构成训练集,其余53个作为测试样本,构成测试集。同时采集了每个视频截止到某一天的访问量和上传时长,将每天的平均访问量作为该广告视频表现力的指标,将大于110次点击率/天指标的视频广告标签置为1,表示视频的表现力较高,将小于等于110次点击率/天指标的视频广告标签置为-1,表示视频的表现力较低。
(2)提取视觉特征
本发明对视频广告库中视频的视觉特征进行了提取,这些特征包括BoW特征、GIST特征、颜色矩特征和颜色直方图特征。
BoW特征:本发明采用基于SIFT算子的BoW特征。在提取SIFT特征时候,第一,对图像进行高斯平滑滤波,高斯核宽参数为0.5,对滤波得到的图像进行卷积,得到图像金字塔,其次,对金字塔进行差分,得到图像显著点,并将其周围区域称为显著区域,由此我们可以得到一系列的显著点。第三,将图像显著点的显著区域按照主方向和垂直方向分成16个区域,在每个区域中统计方向直方图,将每个方向直方图的数值量化到0到255之间,这样就得到一个SIFT描述向量。然后,利用K-means算法对所有视频的SIFT特征进行聚类,统计每个图像拥有的SIFT特征属于每个类别个数,将这些个数排列为一个向量作为该BoW特征。
GIST特征:通过在几个不同方向和尺度上对图像卷积Gabor滤波器,提取每个视频中图像的GIST特征,然后对这些特征在所有图像上进行平均得到该视频的GIST特征。
颜色矩特征:本发明提取每一帧图像颜色的一阶矩、二阶矩,将每一帧的矩特征求平均作为视频颜色矩特征。
颜色直方图特征:提取视频中每帧图像直方图向量,将所有帧的颜色直方图向量平均值作为该视频的颜色直方图特征。
(3)提取音频特征
视频中也包含音频信息,为了提取音频特征,我们首先将视频转化为音频格式的文件,然后利用MIR工具箱[8]对音频文件提取了音频特征。这些音频特征可以表示音频文件中的节奏、音调、音量、音色等信息。
(4)融合视音频特征对广告视频进行识别
在获得视频的视觉和音频特征后,将这些特征的首尾相接,作为融合后的视音频特征用于视频表现力训练中。首先利用训练集中视频的视音频特征和真值标签输入到SVM中训练分类器,然后将测试集中视频的视音频特征输入到训练好的模型中,得到预测标签,将预测得到的标签与测试视频的真值对比,计算得到准确率。
总体来说,本发明提出一种新颖的融合视觉和音频特征进行视频广告表现力识别的方法,该方法模型经过视音频特征和表现力标签的训练后,可以很好的对测试广告视频的表现力进行预测,为广告视频表现力的识别提供了定量、客观的方法,同时,多种视音频特征融合识别可以从不同方面描述视频广告的表现力,得到了比单独使用一种特征更高的识别率。
本发明有效性验证涉及总共103个视频广告,这些视频包括酒类广告、汽车广告、食品广告、饮料广告、公益广告等种类,其中,50个视频为训练集,53个视频为测试视频。实验分为两个阶段,第一个阶段是训练阶段,利用SVM对训练视频的视音频特征和视频表现力标签进行训练,得到分类模型,SVM采用LibSVM程序进行测试。第二个阶段是测试阶段,利用训练好的SVM模型对测试视频的视音频特征进行分类,得到测试视频的预测标签,将预测标签和测试视频的真值进行比较,获得视频表现力的识别准确率,融合视音频特征的识别准确率达79.25%。相比于分别单独采用Bow特征、GIST特征、颜色矩特征、颜色直方图特征、音频特征进行了SVM训练和测试,融合视音频特征进行视频广告表现力识别的准确率有显著提高,同时也表明,计算机利用视频广告自身的特征可以很好的广告的表现力进行识别。
相应的,本发明的实施例还提供一种终端,所述终端包括处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的计算机指令,以实现上述任一种所述的融合视听觉特征的视频表现力识别方法,并达到相应的技术效果。
相应的,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种所述的融合视听觉特征的视频表现力识别方法,因此也能实现相应的技术效果,相关部分可参照方法实施例进行理解,在此不再详细赘述。
需要说明的是,本发明实施例所述的计算机可读存储介质与存储介质是同一介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种融合视听觉特征的视频表现力识别方法,其特征在于,包括:
根据预设视频的访问量和上传时长得到视频表现力真值,提取所述视频的视觉特征和音频特征,并将所述视频的视觉特征、音频特征以及该视频对应的视频表现力真值进行训练,得到视频表现力识别模型;
提取待测视频的视觉特征,并提取待测视频的音频特征,将所述视觉特征和音频特征,带入所述视频表现力识别模型得到所述待测视频的视频表现力真值。
2.根据权利要求1所述的方法,其特征在于,
所述预设视频为互联网上的视频广告。
3.根据权利要求1所述的方法,其特征在于,将所述视频和该视频对应的视频表现力真值进行训练,得到视频表现力识别模型,具体包括:
将所述视频和该视频对应的视频表现力真值带入支持向量机SVM进行SVM训练,得到视频表现力识别模型。
4.根据权利要求1所述的方法,其特征在于,
所述视觉特征包括以下中的一种或多种:BoW特征、GIST特征、颜色矩特征和颜色直方图特征。
5.根据权利要求1所述的方法,其特征在于,提取待测视频的音频特征,具体包括:
将待测视频转化为音频格式的音频文件,并对音频文件提取音频特征。
6.根据权利要求5所述的方法,其特征在于,对音频文件提取音频特征,具体包括:
提取音频文件中的节奏、音调、音量和音色信息。
7.一种终端,其特征在于,所述终端包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的计算机指令,以实现权利要求1至6中任一项所述的融合视听觉特征的视频表现力识别方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至6中的任一项所述的融合视听觉特征的视频表现力识别方法。
CN201711275404.1A 2017-12-06 2017-12-06 融合视听觉特征的视频表现力识别方法、终端及存储介质 Pending CN108307205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711275404.1A CN108307205A (zh) 2017-12-06 2017-12-06 融合视听觉特征的视频表现力识别方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711275404.1A CN108307205A (zh) 2017-12-06 2017-12-06 融合视听觉特征的视频表现力识别方法、终端及存储介质

Publications (1)

Publication Number Publication Date
CN108307205A true CN108307205A (zh) 2018-07-20

Family

ID=62869710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711275404.1A Pending CN108307205A (zh) 2017-12-06 2017-12-06 融合视听觉特征的视频表现力识别方法、终端及存储介质

Country Status (1)

Country Link
CN (1) CN108307205A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522450A (zh) * 2018-11-29 2019-03-26 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090099439A (ko) * 2008-03-17 2009-09-22 강민수 멀티미디어 콘텐츠 정보에 포함된 메타 정보 기반 키워드광고 서비스 방법 및 그 서비스를 위한 시스템
CN103458279A (zh) * 2013-08-27 2013-12-18 西北工业大学 一种基于广告视频图像数据的吸引力判定方法
CN104050589A (zh) * 2014-06-03 2014-09-17 南京市海聚信息科技有限公司 一种社交公众平台广告点击转化率评估的方法及系统
CN104851023A (zh) * 2015-05-07 2015-08-19 容一飞 一种实时竞价在线反馈控制方法及系统
CN105184303A (zh) * 2015-04-23 2015-12-23 南京邮电大学 一种基于多模态深度学习的图像标注方法
CN106384254A (zh) * 2016-09-30 2017-02-08 北京奇虎科技有限公司 一种广告展示方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090099439A (ko) * 2008-03-17 2009-09-22 강민수 멀티미디어 콘텐츠 정보에 포함된 메타 정보 기반 키워드광고 서비스 방법 및 그 서비스를 위한 시스템
CN103458279A (zh) * 2013-08-27 2013-12-18 西北工业大学 一种基于广告视频图像数据的吸引力判定方法
CN104050589A (zh) * 2014-06-03 2014-09-17 南京市海聚信息科技有限公司 一种社交公众平台广告点击转化率评估的方法及系统
CN105184303A (zh) * 2015-04-23 2015-12-23 南京邮电大学 一种基于多模态深度学习的图像标注方法
CN104851023A (zh) * 2015-05-07 2015-08-19 容一飞 一种实时竞价在线反馈控制方法及系统
CN106384254A (zh) * 2016-09-30 2017-02-08 北京奇虎科技有限公司 一种广告展示方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522450A (zh) * 2018-11-29 2019-03-26 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
US11741711B2 (en) 2018-11-29 2023-08-29 Tencent Technology (Shenzhen) Company Limited Video classification method and server

Similar Documents

Publication Publication Date Title
US10522186B2 (en) Apparatus, systems, and methods for integrating digital media content
US10671853B2 (en) Machine learning for identification of candidate video insertion object types
CN109740670B (zh) 视频分类的方法及装置
WO2018157746A1 (zh) 一种视频数据的推荐方法和装置
CN107229932B (zh) 一种图像文本的识别方法和装置
CN108509465A (zh) 一种视频数据的推荐方法、装置和服务器
CN109522531B (zh) 文案生成方法和装置、存储介质及电子装置
CN105320705B (zh) 相似车辆的检索方法及装置
CN104298682A (zh) 一种基于人脸表情图像的信息推荐效果的评价方法及手机
CN107545271B (zh) 图像识别方法、装置和系统
CN103988232A (zh) 使用运动流形来改进图像匹配
CN101477633B (zh) 自动估计图像和视频的视觉显著度的方法
CN103093216B (zh) 基于人脸图像的性别分类方法及系统
CN102436483A (zh) 一种基于显式共享子空间的视频广告检测方法
Lee et al. Style classification and visualization of art painting’s genre using self-organizing maps
CN108615532B (zh) 一种应用于声场景的分类方法及装置
JP6751816B2 (ja) 新規学習データセット生成方法および新規学習データセット生成装置
US10592733B1 (en) Computer-implemented systems and methods for evaluating speech dialog system engagement via video
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN116415017A (zh) 基于人工智能的广告敏感内容审核方法及系统
CN107203638A (zh) 监控视频处理方法、装置及系统
CN108307205A (zh) 融合视听觉特征的视频表现力识别方法、终端及存储介质
CN116824274A (zh) 小样本细粒度图像分类方法及系统
Ju et al. Gapnet: Generic-attribute-pose network for fine-grained visual categorization using multi-attribute attention module
David et al. Authentication of Vincent van Gogh’s work

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180720