CN104809218A - 一种ugc视频分类方法及装置 - Google Patents

一种ugc视频分类方法及装置 Download PDF

Info

Publication number
CN104809218A
CN104809218A CN201510217107.6A CN201510217107A CN104809218A CN 104809218 A CN104809218 A CN 104809218A CN 201510217107 A CN201510217107 A CN 201510217107A CN 104809218 A CN104809218 A CN 104809218A
Authority
CN
China
Prior art keywords
video
ugc
video information
ppc
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510217107.6A
Other languages
English (en)
Other versions
CN104809218B (zh
Inventor
宋华
周燕红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510217107.6A priority Critical patent/CN104809218B/zh
Publication of CN104809218A publication Critical patent/CN104809218A/zh
Application granted granted Critical
Publication of CN104809218B publication Critical patent/CN104809218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种UGC视频分类方法及装置,其中,方法包括:获取视频网站中的UGC视频信息;其中,UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;按照预设方式,获取UGC视频信息的特征;将UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;训练模型是对PPC视频信息训练样本的特征进行训练获得的;在视频网站显示UGC视频分类结果。与现有技术相比,本发明的技术方案实现了对UGC视频的分类,并将UGC视频分类结果显示在视频网站中,由于UGC视频在视频网站中分类显示便于用户根据分类结果查看UGC视频,所以本发明的技术方案提高了UGC视频的利用率。

Description

一种UGC视频分类方法及装置
技术领域
本发明涉及视频分类技术领域,特别是涉及一种UGC视频分类方法及装置。
背景技术
随着互联网的发展,网络上的内容除了专业人员制作外,用户也可以制作,为加以区分,网络上的内容被分为专业生产内容(Professionally-producedContent,简称PPC)和用户生产内容(User Generated Content,简称UGC)。相应地,视频网站上的视频也被分为PPC视频和UGC视频。
其中,对于UGC视频来说,由于每个用户都可以生成或制作UGC视频,所以视频网站中存在大量的UGC视频。目前,各类视频网站中的UGC视频虽然内容丰富,但UGC视频杂乱无章的显示于视频网站中,所以UGC视频的利用率不高。
发明内容
本发明实施例的目的在于提供一种UGC视频分类方法及装置,以实现对UGC视频进行分类,提高UGC视频的利用率。具体技术方案如下:
一种UGC视频分类方法,应用于电子设备,包括:
获取视频网站中的UGC视频信息;其中,所述UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;
按照预设方式,获取所述UGC视频信息的特征;
将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;所述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
在视频网站显示UGC视频分类结果。
在本发明的一种具体实施方式中,所述按照预设方式,获取所述UGC视频信息的特征的步骤包括:
将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
在本发明的一种具体实施方式中,所述训练模型获得的过程包括:
获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中;
按照所述预设方式,获取PPC视频信息训练样本的特征;
利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型。
在本发明的一种具体实施方式中,所述获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中的步骤包括:
获取PPC视频信息;其中,所述PPC视频信息包含频道信息和视频题目、描述信息中的一种或多种;
获取每一PPC视频信息对应的片花视频信息;其中,所述片花视频信息包含片花视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种;
将每一片花视频信息引入到对应的PPC视频信息中,得到第一类PPC视频信息训练样本;
爬取网络中的PPC视频信息,得到第二类PPC视频信息训练样本;其中,所述网络中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种;
整合所述第一类PPC视频信息训练样本和所述第二类PPC视频信息训练样本,得到PPC视频信息训练样本;
将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
在本发明的一种具体实施方式中,
所述按照所述预设方式,获取PPC视频信息训练样本的特征的步骤包括:
针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本;
获取每一视频频道的正样本和负样本的特征;
所述利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型的步骤包括:
采用朴素贝叶斯分类算法,对所述每一视频频道的正样本和负样本的特征进行训练,得到多个训练模型;其中,每一视频频道对应一个训练模型;
所述将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤包括:
将所述UGC视频信息的特征输入到每一训练模型中,针对每一训练模型,分别得到正样本UGC视频分类参数和负样本UGC视频分类参数,若正样本UGC视频分类参数较大,则所述UGC视频信息对应的UGC视频属于该视频频道,若负样本UGC视频分类参数较大,则所述UGC视频信息对应UGC视频不属于该视频频道,其中,同一UGC视频可以同时属于不同的视频频道。
在本发明的一种具体实施方式中,所述针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本的步骤包括:
统计每一视频频道的正样本的数量;其中,每一视频频道的所有PPC视频信息训练样本为该视频频道的正样本;
从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的负样本;其中,所述负样本的数量=[正样本的数量/频道总数量]。
在本发明的一种具体实施方式中,所述获取每一视频频道的正样本和负样本的特征的步骤包括:
将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的正样本和负样本进行分词处理,将处理正样本获得的一个或多个分词作为正样本的特征,将处理负样本获得的一个或多个分词作为负样本的特征。
在本发明的一种具体实施方式中,
所述按照所述预设方式,获取PPC视频信息训练样本的特征的步骤包括:
获取每一视频频道的PPC视频信息训练样本的特征;
所述利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型的步骤包括:
采用朴素贝叶斯分类算法,对所述PPC视频信息训练样本的特征进行训练,得到一个训练模型;
所述将所述UGC视频的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤包括:
将所述UGC视频的特征输入到得到的一个训练模型中,先针对每一视频频道,分别得到一个UGC视频分类参数,再将得到的各个UGC视频分类参数进行对比,得到其中最大的UGC视频分类参数,所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对应的视频频道。
在本发明的一种具体实施方式中,所述获取每一视频频道的PPC视频信息训练样本的特征的步骤包括:
将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理,将获得的一个或多个分词作为该PPC视频信息训练样本的特征。
在本发明的一种具体实施方式中,还包括:
获取UGC视频的时长、题目长度和描述长度信息;
根据获取的UGC视频的时长、题目长度和描述长度信息,采用决策树算法对所述UGC视频分类结果进行再次分类,得到UGC视频再次分类结果;
进一步地,所述在视频网站显示UGC视频分类结果的步骤包括:
在视频网站显示所述UGC视频再次分类结果。
本发明实施例还提供一种UGC视频分类装置,应用于电子设备,包括:
UGC视频信息获取单元:用于获取视频网站中的UGC视频信息;其中,所述UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;
第一特征获取单元:用于按照预设方式,获取所述UGC视频信息的特征;
UGC视频分类单元:用于将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;所述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
UGC视频分类结果显示单元:用于在视频网站显示UGC视频分类结果。
在本发明的一种具体实施方式中,所述第一特征获取单元包括:
第一格式转换子单元:用于将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式;
UGC视频信息特征获取子单元:用于应用所述分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
在本发明的一种具体实施方式中,所述训练模型,由模型训练单元实现,所述模型训练单元包括:
PPC视频信息训练样本获取单元:用于获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中;
第二特征获取单元:用于按照所述预设方式,获取PPC视频信息训练样本的特征;
训练模型获取单元:用于利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型。
在本发明的一种具体实施方式中,所述PPC视频信息训练样本获取单元包括:
PPC视频信息获取子单元:用于获取PPC视频信息;其中,所述PPC视频信息包含频道信息和视频题目、描述信息中的一种或多种;
片花视频信息获取子单元:用于获取每一PPC视频信息对应的片花视频信息;其中,所述片花视频信息包含片花视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种;
第一类PPC视频信息训练样本获取子单元:用于将每一片花视频信息引入到对应的PPC视频信息中,得到第一类PPC视频信息训练样本;
第二类PPC视频信息训练样本获取子单元:用于爬取网络中的PPC视频信息,得到第二类PPC视频信息训练样本;其中,所述网络中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种;
PPC视频信息训练样本获取子单元:用于整合所述PPC视频的训练样本和所述网络中的PPC视频信息,得到PPC视频信息训练样本;
PPC视频信息训练样本分类子单元:用于将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
在本发明的一种具体实施方式中,
所述第二特征获取单元包括:
正样本和负样本生成子单元:用于针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本;
第二特征第一获取子单元:用于获取每一视频频道的正样本和负样本的特征;
所述训练模型获取单元包括:
训练模型第一获取子单元:用于采用朴素贝叶斯分类算法,对所述每一视频频道的正样本和负样本的特征进行训练,得到多个训练模型;其中,每一视频频道对应一个训练模型;
所述UGC视频分类单元包括:
UGC视频第一分类子单元:用于将所述UGC视频的特征输入到每一训练模型中,针对每一训练模型,分别得到正样本UGC视频分类参数和负样本UGC视频分类参数,若正样本UGC视频分类参数较大,则所述UGC视频信息对应的UGC视频属于该视频频道,若负样本UGC视频分类参数较大,则所述UGC视频信息对应UGC视频不属于该视频频道,其中,同一UGC视频可以同时属于不同的视频频道。
在本发明的一种具体实施方式中,所述正样本和负样本生成子单元包括:
正样本获取子单元:用于统计每一视频频道的正样本的数量;其中,每一视频频道的所有PPC视频信息训练样本为该视频频道的正样本;
负样本获取子单元:用于从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的负样本;其中,所述负样本的数量=[正样本的数量/频道总数量]。
在本发明的一种具体实施方式中,所述第二特征第一获取子单元包括:
第二格式转换子单元:用于将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式;
正样本和负样本特征获取子单元:用于应用所述分词系统对格式转换后的正样本和负样本进行分词处理,将处理正样本获得的一个或多个分词作为正样本的特征,将处理负样本获得的一个或多个分词作为负样本的特征。
在本发明的一种具体实施方式中,
所述第二特征获取单元包括:
第二特征第二获取子单元:用于获取每一视频频道的PPC视频信息训练样本的特征;
所述训练模型获取单元包括:
训练模型第二获取子单元:用于采用朴素贝叶斯分类算法,对所述PPC视频信息训练样本的特征进行训练,得到一个训练模型;
所述UGC视频分类单元包括:
UGC视频第二分类子单元:用于将所述UGC视频的特征输入到得到的一个训练模型中,然后先针对每一视频频道,分别得到一个UGC视频分类参数,再将得到的各个UGC视频分类参数进行对比,得到其中最大的UGC视频分类参数,所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对应的视频频道。
在本发明的一种具体实施方式中,所述第二特征第二获取子单元包括:
第三格式转换子单元:用于将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式;
PPC视频信息训练样本特征获取子单元:应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理,将获得的一个或多个分词作为该PPC视频信息训练样本的特征。
在本发明的一种具体实施方式中,还包括:
信息获取单元:用于获取UGC视频的时长、题目长度和描述长度信息;
UGC视频再次分类单元:用于根据获取的UGC视频的时长、题目长度和描述长度信息,采用决策树算法对所述UGC视频分类结果进行再次分类,得到UGC视频再次分类结果;
进一步地,所述UGC视频分类结果显示单元,具体用于在视频网站显示所述UGC视频再次分类结果。
本发明实施例所提供的技术方案,首先获取视频网站中的UGC视频信息,并按照预设方式,获取UGC视频信息的特征。进一步地,将该特征输入到预设的训练模型中,得到UGC视频分类结果,并在视频网站中显示得到的UGC视频分类结果。与现有技术相比,本发明的技术方案实现了对UGC视频的分类,并将UGC视频分类结果显示在视频网站中,由于UGC视频在视频网站中分类显示便于用户根据分类结果查看UGC视频,所以本发明的技术方案提高了UGC视频的利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种UGC视频分类方法的实施流程图;
图2为本发明实施例预设的训练模型获得的过程的一种流程图;
图3为本发明实施例一种UGC视频分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种UGC视频分类方法,应用于电子设备,该方法可以包括:
步骤S101,获取视频网站中的UGC视频信息;其中,所述UGC视频信息包含与所述UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;
下面对本发明的技术方案的实施过程做一下具体的说明。首先,电子设备获取视频网站中的UGC视频信息。其中,UGC视频信息中包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种。
步骤S102,按照预设方式,获取所述UGC视频信息的特征;
在获取视频网站中的UGC视频信息后,进一步地,按照预设方式,获取UGC视频信息的特征。具体地,在本发明具体实施过程中,步骤S102可以包括:
将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
首先,将步骤S101获取的UGC视频信息的格式转换为符合预设的分词系统的数据格式。其中,预设的分词系统为能对格式转换后的UGC视频信息进行分词处理的系统,在本发明具体实施中,本发明中的预设的分词系统可以是NLPIR汉语分词系统、PHP分词系统等分词系统。在将步骤S101获取的UGC视频信息的格式转换为符合预设的分词系统的数据格式后,进一步地,应用预设的分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
步骤S103,将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;所述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
在通过步骤S102获取UGC视频信息的特征后,进一步地,将UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果。其中,预设的训练模型是对PPC视频信息训练样本的特征进行训练获得的。
步骤S104,在视频网站显示UGC视频分类结果。
本发明在视频网站显示UGC视频时(即用户上传的视频)不再像现有技术那样,将所有用户上传的视频显示在一个用户视频频道中。而是将用户上传的视频分类显示在各个分类后的用户视频频道中,如:用于显示用户上传的影视类视频的用户影视频道、用于显示用户上传的新闻类视频的用户新闻频道等等。
在本发明的一种具体实施方式中,上述UGC视频分类方法还可以包括:
获取UGC视频的时长、题目长度和描述长度信息;
根据获取的UGC视频的时长、题目长度和描述长度信息,采用决策树算法对所述UGC视频分类结果进行再次分类,得到UGC视频再次分类结果;
进一步地,所述在视频网站显示UGC视频分类结果的步骤可以包括:
在视频网站显示所述UGC视频再次分类结果。
例如,视频正片的时长时间相对较长,而片花的描述长度信息相对较多等等,据此,我们可以根据决策树算法,对片花视频、视频整片进行更精细的分类。其中,决策树算法为现有技术,这里不再赘述。
在本发明具体实施的过程中,步骤S103中所提到的预设的训练模型获得的过程,参见图2所示,可以包括:
步骤S201,获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中;
步骤S202,按照所述预设方式,获取PPC视频信息训练样本的特征;
步骤S203,利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型。
下面,对预设的训练模型获得的过程进行详细说明。
在获取预设的训练模型的过程中,首先,执行步骤S201。具体地,在本发明的一种具体实施方式中,上述步骤S201可以包括:
获取PPC视频信息;其中,所述PPC视频信息包含频道信息和视频题目、描述信息中的一种或多种;
获取每一PPC视频信息对应的片花视频信息;其中,所述片花视频信息包含片花视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种;
将每一片花视频信息引入到对应的PPC视频信息中,得到第一类PPC视频信息训练样本;
爬取网络中的PPC视频信息,得到第二类PPC视频信息训练样本;其中,所述网络中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种;
整合所述第一类PPC视频信息训练样本和所述第二类PPC视频信息训练样本,得到PPC视频信息训练样本;
将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
需要说明的是:PPC视频信息、片花视频信息和网络中的PPC视频信息除包含频道信息和视频题目、描述信息中的一种或多种之外,还可以包括其他信息,例如可以包含演员名字、导演名字等信息。进一步地,可以理解的是,上述UGC视频信息与PPC视频信息、片花视频信息和网络中的PPC视频信息对应,即上述视频信息所包含的信息类型应该一致。
执行上述步骤S201之后,执行步骤S202,步骤S202的实施方式有两种。在本发明的一种具体实施方式中,步骤S202可以包括:
获取每一视频频道的PPC视频信息训练样本的特征;
相应地,本发明中的利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型的步骤可以包括:
采用朴素贝叶斯分类算法,对所述PPC视频信息训练样本的特征进行训练,得到一个训练模型;
本发明中的将所述UGC视频的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤可以包括:
将所述UGC视频的特征输入到得到的一个训练模型中,先针对每一视频频道,分别得到一个UGC视频分类参数,再将得到的各个UGC视频分类参数进行对比,得到其中最大的UGC视频分类参数,所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对应的视频频道。
其中,可以理解的是:上述PPC视频信息训练样本的特征与上述UGC视频信息的特征的获取方式是一样的。另外,在本发明的一种具体实施方式中,也可以采用相似度算法,对所述PPC视频信息训练样本的特征进行训练,得到一个训练模型。进一步地,将所述UGC视频的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤可以包括:
将所述UGC视频的特征输入到得到的一个训练模型中,若输入到所述训练模型中的UGC视频信息的特征与所述训练模型中的某一视频频道的PPC视频信息训练样本的特征相似度最高,则对应的UGC视频属于该视频频道,其中,同一UGC视频仅属于一个视频频道。其中相似度算法为现有技术,这里不再赘述。
进一步地,为使本发明的技术方案更加完整,对朴素贝叶斯分类算法做一下简单的介绍。朴素贝叶斯分类算法得到的训练模型具体如下:
c max = arg max c ∈ N [ log P ( c ) + Σ 1 ≤ k ≤ n log P ( t k | c ) ]
对应于本发明,上述公式中各个符号的含义为:其中c为PPC视频信息训练样本的分类结果中某一频道,N为PPC视频信息训练样本的分类结果中的所有频道,P(c)为频道为c时的概率,n为获取的特征数量,P(tk|c)为频道为c时特征tk出现的概率,cmax为视频分类结果的频道信息。
在本发明的一种具体实施方式中,上述获取每一视频频道的PPC视频信息训练样本的特征的步骤可以包括:
将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理,将获得的一个或多个分词作为该PPC视频信息训练样本的特征。
其中,可以理解的是:该步骤中预设的分词系统与转换UGC视频信息时的预设的分词系统为同一分词系统。
在本发明的另一种具体实施方式中,步骤S202可以包括:
针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本;
获取每一视频频道的正样本和负样本的特征;
相应地,本发明中的利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型的步骤可以包括:
采用朴素贝叶斯分类算法,对所述每一视频频道的正样本和负样本的特征进行训练,得到多个训练模型;其中,每一视频频道对应一个训练模型;
本发明中的将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤可以包括:
将所述UGC视频信息的特征输入到每一训练模型中,针对每一训练模型,分别得到正样本UGC视频分类参数和负样本UGC视频分类参数,若正样本UGC视频分类参数较大,则所述UGC视频信息对应的UGC视频属于该视频频道,若负样本UGC视频分类参数较大,则所述UGC视频信息对应UGC视频不属于该视频频道,其中,同一UGC视频可以同时属于不同的视频频道。
其中,可以理解的是:上述正样本和负样本的特征与上述UGC视频信息的特征的获取方式是一样的。另外,在本发明的一种具体实施方式中,也可以采用相似度算法,对所述每一视频频道的正样本和负样本的特征进行训练,得到多个训练模型。进一步地,将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤可以包括:
将所述UGC视频的特征输入到每一训练模型中,若输入到某一训练模型中的UGC视频信息的特征与该训练模型中正样本的特征相似度较高,则对应的UGC视频属于该视频频道,若输入到某一训练模型中的UGC视频信息的特征与该训练模型中负样本的特征相似度较高,则对应的UGC视频信息对应UGC视频不属于该视频频道,其中,同一UGC视频可以同时属于不同的视频频道。
在本发明的一种具体实施方式中,上述针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本的步骤可以包括:
统计每一视频频道的正样本的数量;其中,每一视频频道的所有PPC视频信息训练样本为该视频频道的正样本;
从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的负样本;其中,所述负样本的数量=[正样本的数量/频道总数量]。
其中,上述其他视频频道的意义在于:若将某一视频频道的所有PPC视频信息训练样本作为该视频频道的正样本,则PPC视频信息训练样本的分类结果中除去该视频频道外的视频频道为其他视频频道。
在本发明的一种具体实施方式中,上述获取每一视频频道的正样本和负样本的特征的步骤可以包括:
将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的正样本和负样本进行分词处理,将处理正样本获得的一个或多个分词作为正样本的特征,将处理负样本获得的一个或多个分词作为负样本的特征。
其中,可以理解的是:该步骤中预设的分词系统与转换UGC视频信息时的预设的分词系统为同一分词系统。
本发明实施例所提供的技术方案,首先获取视频网站中的UGC视频信息,并按照预设方式,获取UGC视频信息的特征。进一步地,将该特征输入到预设的训练模型中,得到UGC视频分类结果,并在视频网站中显示得到的UGC视频分类结果。与现有技术相比,本发明的技术方案实现了对UGC视频的分类,并将UGC视频分类结果显示在视频网站中,由于UGC视频在视频网站中分类显示便于用户根据分类结果查看UGC视频,所以本发明的技术方案提高了UGC视频的利用率。
相对于上面的方法实施例,本发明还提供一种UGC视频分类装置,参见图2所示,应用于电子设备,该装置可以包括:
UGC视频信息获取单元301:用于获取视频网站中的UGC视频信息;其中,所述UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;
第一特征获取单元302:用于按照预设方式,获取所述UGC视频信息的特征;
UGC视频分类单元303:用于将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;所述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
UGC视频分类结果显示单元304:用于在视频网站显示UGC视频分类结果。
在本发明的一种具体实施方式中,所述第一特征获取单元302可以包括:
第一格式转换子单元:用于将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式;
UGC视频信息特征获取子单元:用于应用所述分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
在本发明的一种具体实施方式中,所述训练模型,由模型训练单元实现,所述模型训练单元可以包括:
PPC视频信息训练样本获取单元:用于获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中;
第二特征获取单元:用于按照所述预设方式,获取PPC视频信息训练样本的特征;
训练模型获取单元:用于利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型。
在本发明的一种具体实施方式中,所述PPC视频信息训练样本获取单元可以包括:
PPC视频信息获取子单元:用于获取PPC视频信息;其中,所述PPC视频信息包含频道信息和视频题目、描述信息中的一种或多种;
片花视频信息获取子单元:用于获取每一PPC视频信息对应的片花视频信息;其中,所述片花视频信息包含片花视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种;
第一类PPC视频信息训练样本获取子单元:用于将每一片花视频信息引入到对应的PPC视频信息中,得到第一类PPC视频信息训练样本;
第二类PPC视频信息训练样本获取子单元:用于爬取网络中的PPC视频信息,得到第二类PPC视频信息训练样本;其中,所述网络中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种;
PPC视频信息训练样本获取子单元:用于整合所述PPC视频的训练样本和所述网络中的PPC视频信息,得到PPC视频信息训练样本;
PPC视频信息训练样本分类子单元:用于将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
在本发明的一种具体实施方式中,
所述第二特征获取单元可以包括:
正样本和负样本生成子单元:用于针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本;
第二特征第一获取子单元:用于获取每一视频频道的正样本和负样本的特征;
所述训练模型获取单元可以包括:
训练模型第一获取子单元:用于采用朴素贝叶斯分类算法,对所述每一视频频道的正样本和负样本的特征进行训练,得到多个训练模型;其中,每一视频频道对应一个训练模型;
所述UGC视频分类单元303可以包括:
UGC视频第一分类子单元:用于将所述UGC视频的特征输入到每一训练模型中,针对每一训练模型,分别得到正样本UGC视频分类参数和负样本UGC视频分类参数,若正样本UGC视频分类参数较大,则所述UGC视频信息对应的UGC视频属于该视频频道,若负样本UGC视频分类参数较大,则所述UGC视频信息对应UGC视频不属于该视频频道,其中,同一UGC视频可以同时属于不同的视频频道。
在本发明的一种具体实施方式中,所述正样本和负样本生成子单元可以包括:
正样本获取子单元:用于统计每一视频频道的正样本的数量;其中,每一视频频道的所有PPC视频信息训练样本为该视频频道的正样本;
负样本获取子单元:用于从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的负样本;其中,所述负样本的数量=[正样本的数量/频道总数量]。
在本发明的一种具体实施方式中,所述第二特征第一获取子单元可以包括:
第二格式转换子单元:用于将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式;
正样本和负样本特征获取子单元:用于应用所述分词系统对格式转换后的正样本和负样本进行分词处理,将处理正样本获得的一个或多个分词作为正样本的特征,将处理负样本获得的一个或多个分词作为负样本的特征。
在本发明的一种具体实施方式中,
所第二特征获取单元可以包括:
第二特征第二获取子单元:用于获取每一视频频道的PPC视频信息训练样本的特征;
所述训练模型获取单元可以包括:
训练模型第二获取子单元:用于采用朴素贝叶斯分类算法,对所述PPC视频信息训练样本的特征进行训练,得到一个训练模型;
所述UGC视频分类单元303可以包括:
UGC视频第二分类子单元:用于将所述UGC视频的特征输入到得到的一个训练模型中,然后先针对每一视频频道,分别得到一个UGC视频分类参数,再将得到的各个UGC视频分类参数进行对比,得到其中最大的UGC视频分类参数,所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对应的视频频道。
在本发明的一种具体实施方式中,所述第二特征第二获取子单元包括:
第三格式转换子单元:用于将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式;
PPC视频信息训练样本特征获取子单元:应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理,将获得的一个或多个分词作为该PPC视频信息训练样本的特征。
在本发明的一种具体实施方式中,上述UGC视频分类装置还可以包括:
信息获取单元:用于获取UGC视频的时长、题目长度和描述长度信息;
UGC视频再次分类单元:用于根据获取的UGC视频的时长、题目长度和描述长度信息,采用决策树算法对所述UGC视频分类结果进行再次分类,得到UGC视频再次分类结果;
进一步地,所述UGC视频分类结果显示单元304,具体用于在视频网站显示所述UGC视频再次分类结果。
本发明实施例所提供的技术方案,首先获取视频网站中的UGC视频信息,并按照预设方式,获取UGC视频信息的特征。进一步地,将该特征输入到预设的训练模型中,得到UGC视频分类结果,并在视频网站中显示得到的UGC视频分类结果。与现有技术相比,本发明的技术方案实现了对UGC视频的分类,并将UGC视频分类结果显示在视频网站中,由于UGC视频在视频网站中分类显示便于用户根据分类结果查看UGC视频,所以本发明的技术方案提高了UGC视频的利用率。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (20)

1.一种UGC视频分类方法,其特征在于,应用于电子设备,包括:
获取视频网站中的UGC视频信息;其中,所述UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;
按照预设方式,获取所述UGC视频信息的特征;
将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;所述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
在视频网站显示UGC视频分类结果。
2.根据权利要求1所述的方法,其特征在于,所述按照预设方式,获取所述UGC视频信息的特征的步骤包括:
将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
3.根据权利要求1所述的方法,其特征在于,所述训练模型获得的过程包括:
获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中;
按照所述预设方式,获取PPC视频信息训练样本的特征;
利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型。
4.根据权利要求3所述的方法,其特征在于,所述获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中的步骤包括:
获取PPC视频信息;其中,所述PPC视频信息包含频道信息和视频题目、描述信息中的一种或多种;
获取每一PPC视频信息对应的片花视频信息;其中,所述片花视频信息包含片花视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种;
将每一片花视频信息引入到对应的PPC视频信息中,得到第一类PPC视频信息训练样本;
爬取网络中的PPC视频信息,得到第二类PPC视频信息训练样本;其中,所述网络中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种;
整合所述第一类PPC视频信息训练样本和所述第二类PPC视频信息训练样本,得到PPC视频信息训练样本;
将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
5.根据权利要求3或4任一项所述的方法,其特征在于,
所述按照所述预设方式,获取PPC视频信息训练样本的特征的步骤包括:
针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本;
获取每一视频频道的正样本和负样本的特征;
所述利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型的步骤包括:
采用朴素贝叶斯分类算法,对所述每一视频频道的正样本和负样本的特征进行训练,得到多个训练模型;其中,每一视频频道对应一个训练模型;
所述将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤包括:
将所述UGC视频信息的特征输入到每一训练模型中,针对每一训练模型,分别得到正样本UGC视频分类参数和负样本UGC视频分类参数,若正样本UGC视频分类参数较大,则所述UGC视频信息对应的UGC视频属于该视频频道,若负样本UGC视频分类参数较大,则所述UGC视频信息对应UGC视频不属于该视频频道,其中,同一UGC视频可以同时属于不同的视频频道。
6.根据权利要求5所述的方法,其特征在于,所述针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本的步骤包括:
统计每一视频频道的正样本的数量;其中,每一视频频道的所有PPC视频信息训练样本为该视频频道的正样本;
从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的负样本;其中,所述负样本的数量=[正样本的数量/频道总数量]。
7.根据权利要求5所述的方法,其特征在于,所述获取每一视频频道的正样本和负样本的特征的步骤包括:
将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的正样本和负样本进行分词处理,将处理正样本获得的一个或多个分词作为正样本的特征,将处理负样本获得的一个或多个分词作为负样本的特征。
8.根据权利要求3或4任一项所述的方法,其特征在于,
所述按照所述预设方式,获取PPC视频信息训练样本的特征的步骤包括:
获取每一视频频道的PPC视频信息训练样本的特征;
所述利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型的步骤包括:
采用朴素贝叶斯分类算法,对所述PPC视频信息训练样本的特征进行训练,得到一个训练模型;
所述将所述UGC视频的特征输入到预设的训练模型中,得到UGC视频分类结果的步骤包括:
将所述UGC视频的特征输入到得到的一个训练模型中,先针对每一视频频道,分别得到一个UGC视频分类参数,再将得到的各个UGC视频分类参数进行对比,得到其中最大的UGC视频分类参数,所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对应的视频频道。
9.根据权利要求8所述的方法,其特征在于,所述获取每一视频频道的PPC视频信息训练样本的特征的步骤包括:
将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式;
应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理,将获得的一个或多个分词作为该PPC视频信息训练样本的特征。
10.根据权利要求1所述的方法,其特征在于,还包括:
获取UGC视频的时长、题目长度和描述长度信息;
根据获取的UGC视频的时长、题目长度和描述长度信息,采用决策树算法对所述UGC视频分类结果进行再次分类,得到UGC视频再次分类结果;
进一步地,所述在视频网站显示UGC视频分类结果的步骤包括:
在视频网站显示所述UGC视频再次分类结果。
11.一种UGC视频分类装置,其特征在于,应用于电子设备,包括:
UGC视频信息获取单元:用于获取视频网站中的UGC视频信息;其中,所述UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;
第一特征获取单元:用于按照预设方式,获取所述UGC视频信息的特征;
UGC视频分类单元:用于将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;所述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
UGC视频分类结果显示单元:用于在视频网站显示UGC视频分类结果。
12.根据权利要求11所述的装置,其特征在于,所述第一特征获取单元包括:
第一格式转换子单元:用于将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式;
UGC视频信息特征获取子单元:用于应用所述分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
13.根据权利要求11所述的装置,其特征在于,所述训练模型,由模型训练单元实现,所述模型训练单元包括:
PPC视频信息训练样本获取单元:用于获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中;
第二特征获取单元:用于按照所述预设方式,获取PPC视频信息训练样本的特征;
训练模型获取单元:用于利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型。
14.根据权利要求13所述的装置,其特征在于,所述PPC视频信息训练样本获取单元包括:
PPC视频信息获取子单元:用于获取PPC视频信息;其中,所述PPC视频信息包含频道信息和视频题目、描述信息中的一种或多种;
片花视频信息获取子单元:用于获取每一PPC视频信息对应的片花视频信息;其中,所述片花视频信息包含片花视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种;
第一类PPC视频信息训练样本获取子单元:用于将每一片花视频信息引入到对应的PPC视频信息中,得到第一类PPC视频信息训练样本;
第二类PPC视频信息训练样本获取子单元:用于爬取网络中的PPC视频信息,得到第二类PPC视频信息训练样本;其中,所述网络中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种;
PPC视频信息训练样本获取子单元:用于整合所述PPC视频的训练样本和所述网络中的PPC视频信息,得到PPC视频信息训练样本;
PPC视频信息训练样本分类子单元:用于将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
15.根据权利要求13或14任一项所述的装置,其特征在于,
所述第二特征获取单元包括:
正样本和负样本生成子单元:用于针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本;
第二特征第一获取子单元:用于获取每一视频频道的正样本和负样本的特征;
所述训练模型获取单元包括:
训练模型第一获取子单元:用于采用朴素贝叶斯分类算法,对所述每一视频频道的正样本和负样本的特征进行训练,得到多个训练模型;其中,每一视频频道对应一个训练模型;
所述UGC视频分类单元包括:
UGC视频第一分类子单元:用于将所述UGC视频的特征输入到每一训练模型中,针对每一训练模型,分别得到正样本UGC视频分类参数和负样本UGC视频分类参数,若正样本UGC视频分类参数较大,则所述UGC视频信息对应的UGC视频属于该视频频道,若负样本UGC视频分类参数较大,则所述UGC视频信息对应UGC视频不属于该视频频道,其中,同一UGC视频可以同时属于不同的视频频道。
16.根据权利要求15所述的装置,其特征在于,所述正样本和负样本生成子单元包括:
正样本获取子单元:用于统计每一视频频道的正样本的数量;其中,每一视频频道的所有PPC视频信息训练样本为该视频频道的正样本;
负样本获取子单元:用于从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的负样本;其中,所述负样本的数量=[正样本的数量/频道总数量]。
17.根据权利要求15所述的装置,其特征在于,所述第二特征第一获取子单元包括:
第二格式转换子单元:用于将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式;
正样本和负样本特征获取子单元:用于应用所述分词系统对格式转换后的正样本和负样本进行分词处理,将处理正样本获得的一个或多个分词作为正样本的特征,将处理负样本获得的一个或多个分词作为负样本的特征。
18.根据权利要求13或14所述的装置,其特征在于,
所述第二特征获取单元包括:
第二特征第二获取子单元:用于获取每一视频频道的PPC视频信息训练样本的特征;
所述训练模型获取单元包括:
训练模型第二获取子单元:用于采用朴素贝叶斯分类算法,对所述PPC视频信息训练样本的特征进行训练,得到一个训练模型;
所述UGC视频分类单元包括:
UGC视频第二分类子单元:用于将所述UGC视频的特征输入到得到的一个训练模型中,然后先针对每一视频频道,分别得到一个UGC视频分类参数,再将得到的各个UGC视频分类参数进行对比,得到其中最大的UGC视频分类参数,所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对应的视频频道。
19.根据权利要求18所述的装置,其特征在于,所述第二特征第二获取子单元包括:
第三格式转换子单元:用于将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式;
PPC视频信息训练样本特征获取子单元:应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理,将获得的一个或多个分词作为该PPC视频信息训练样本的特征。
20.根据权利要求11所述的装置,其特征在于,还包括:
信息获取单元:用于获取UGC视频的时长、题目长度和描述长度信息;
UGC视频再次分类单元:用于根据获取的UGC视频的时长、题目长度和描述长度信息,采用决策树算法对所述UGC视频分类结果进行再次分类,得到UGC视频再次分类结果;
进一步地,所述UGC视频分类结果显示单元,具体用于在视频网站显示所述UGC视频再次分类结果。
CN201510217107.6A 2015-04-30 2015-04-30 一种ugc视频分类方法及装置 Active CN104809218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510217107.6A CN104809218B (zh) 2015-04-30 2015-04-30 一种ugc视频分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510217107.6A CN104809218B (zh) 2015-04-30 2015-04-30 一种ugc视频分类方法及装置

Publications (2)

Publication Number Publication Date
CN104809218A true CN104809218A (zh) 2015-07-29
CN104809218B CN104809218B (zh) 2018-09-28

Family

ID=53694040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510217107.6A Active CN104809218B (zh) 2015-04-30 2015-04-30 一种ugc视频分类方法及装置

Country Status (1)

Country Link
CN (1) CN104809218B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105554519A (zh) * 2015-12-24 2016-05-04 北京酷云互动科技有限公司 Epg信息解析方法及系统
CN105631033A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种视频数据的挖掘方法和装置
CN108460122A (zh) * 2018-02-23 2018-08-28 武汉斗鱼网络科技有限公司 基于深度学习的视频搜索方法、存储介质、设备及系统
CN108632639A (zh) * 2017-03-23 2018-10-09 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN111046233A (zh) * 2019-12-24 2020-04-21 浙江大学 一种基于视频评论文本的视频标签确定方法
CN111131899A (zh) * 2018-10-31 2020-05-08 中国移动通信集团浙江有限公司 一种多站点的视频播放记录整合方法和装置
CN111291688A (zh) * 2020-02-12 2020-06-16 咪咕文化科技有限公司 视频标签的获取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
CN102567512A (zh) * 2011-12-27 2012-07-11 深信服网络科技(深圳)有限公司 网页视频分类控制的方法和装置
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN104199896A (zh) * 2014-08-26 2014-12-10 海信集团有限公司 基于特征分类的视频相似度确定及视频推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
CN102567512A (zh) * 2011-12-27 2012-07-11 深信服网络科技(深圳)有限公司 网页视频分类控制的方法和装置
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN104199896A (zh) * 2014-08-26 2014-12-10 海信集团有限公司 基于特征分类的视频相似度确定及视频推荐方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105554519A (zh) * 2015-12-24 2016-05-04 北京酷云互动科技有限公司 Epg信息解析方法及系统
CN105631033A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种视频数据的挖掘方法和装置
CN108632639A (zh) * 2017-03-23 2018-10-09 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN108460122A (zh) * 2018-02-23 2018-08-28 武汉斗鱼网络科技有限公司 基于深度学习的视频搜索方法、存储介质、设备及系统
CN111131899A (zh) * 2018-10-31 2020-05-08 中国移动通信集团浙江有限公司 一种多站点的视频播放记录整合方法和装置
CN111046233A (zh) * 2019-12-24 2020-04-21 浙江大学 一种基于视频评论文本的视频标签确定方法
CN111046233B (zh) * 2019-12-24 2022-05-13 浙江大学 一种基于视频评论文本的视频标签确定方法
CN111291688A (zh) * 2020-02-12 2020-06-16 咪咕文化科技有限公司 视频标签的获取方法及装置
CN111291688B (zh) * 2020-02-12 2023-07-14 咪咕文化科技有限公司 视频标签的获取方法及装置

Also Published As

Publication number Publication date
CN104809218B (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN104809218A (zh) 一种ugc视频分类方法及装置
CN104462573B (zh) 一种视频搜索结果展示方法及装置
CN111222030B (zh) 信息推荐方法、装置及电子设备
US8463000B1 (en) Content identification based on a search of a fingerprint database
US10430420B2 (en) Weighting sentiment information
CN106055617A (zh) 一种数据推送方法及装置
CN107864405B (zh) 一种收视行为类型的预测方法、装置及计算机可读介质
CN104008139B (zh) 视频索引表的创建方法和装置,视频的推荐方法和装置
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
Kanoje et al. User profiling for university recommender system using automatic information retrieval
CN109214374A (zh) 视频分类方法、装置、服务器及计算机可读存储介质
CN105574045A (zh) 一种视频推荐方法和服务器
US20170193531A1 (en) Intelligent Digital Media Content Creator Influence Assessment
CN106227873A (zh) 搜索方法及装置
CN103077254A (zh) 网页获取方法和装置
CN104933135A (zh) 一种多媒体数据的聚类方法及装置
CN109348261A (zh) 一种直播中数据统计方法、装置及电子设备
CN106991090A (zh) 舆情事件实体的分析方法及装置
CN104102733A (zh) 搜索内容提供方法和搜索引擎
CN110019827B (zh) 一种语料库生成方法、装置、设备和计算机存储介质
CN104408193B (zh) 数据可视化模型的处理方法及装置
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN108228869B (zh) 一种文本分类模型的建立方法及装置
CN103475532A (zh) 硬件检测方法和系统
CN106603653A (zh) 一种新闻推送方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant