CN104699844B - 为广告确定视频标签的方法及装置 - Google Patents

为广告确定视频标签的方法及装置 Download PDF

Info

Publication number
CN104699844B
CN104699844B CN201510150299.3A CN201510150299A CN104699844B CN 104699844 B CN104699844 B CN 104699844B CN 201510150299 A CN201510150299 A CN 201510150299A CN 104699844 B CN104699844 B CN 104699844B
Authority
CN
China
Prior art keywords
vector
video
target
text
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510150299.3A
Other languages
English (en)
Other versions
CN104699844A (zh
Inventor
童明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510150299.3A priority Critical patent/CN104699844B/zh
Publication of CN104699844A publication Critical patent/CN104699844A/zh
Application granted granted Critical
Publication of CN104699844B publication Critical patent/CN104699844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本发明实施例提供了一种为广告确定视频标签的方法及装置。该方法中,获得目标广告的目标描述文本;对目标描述文本进行分词处理,以得到目标广告的目标分词;基于目标广告所对应的目标分词,确定目标广告的目标一元词特征向量;基于预设的句子连续特征向量形成模型和目标描述文本,确定目标广告所对应的目标句子连续特征向量;将目标一元词特征向量和目标句子连续特征向量合并处理以形成目标广告的目标输入向量;基于目标输入向量和预设的高斯核的支持向量机模型,确定预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度;将置信度满足预定条件的视频标签确定为目标广告的目标视频标签。本方案可以有效确定广告所需对应的视频标签。

Description

为广告确定视频标签的方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种为广告确定视频标签的方法及装置。
背景技术
为了更好地投放广告,视频门户网站通常需要将广告投放到合适的视频中,以使得广告与视频的相关性较大,从而提高广告的点击提升度。
现有技术中,广告投放到视频中时,广告与视频的匹配方法是针对于视频的描述文本与广告的描述文本的简易的语义匹配,其中,所谓简易的语义匹配即描述文本之间的词语是否存在重叠。但是,由于广告的描述文本是关于产品的描述,而大部分视频的描述文本是关于节目的描述,不涉及具体产品,因此,利用现有的简易的匹配方法会使得非常多的广告与视频无法得到有效匹配。
而申请人发现,如果为广告打上视频标签,并且将具有相同视频标签的广告与视频能够匹配到一起,能够使得广告与视频的相关性较大,最终提高广告的点击提升度。那么,如何有效确定广告所需对应的视频标签则是一个亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种为广告确定视频标签的方法及装置,以实现广告所需对应的视频标签的确定。具体技术方案如下:
第一方面,本发明实施例提供了一种为广告确定视频标签的方法,包括:
获得目标广告的目标描述文本;
对所述目标描述文本进行分词处理,以得到所述目标广告所对应的目标分词;
基于所述目标广告所对应的目标分词,确定所述目标广告所对应的目标一元词特征向量;其中,所述目标一元词特征向量用于表征所述目标描述文本的分词特征;
基于预设的句子连续特征向量形成模型和所述目标描述文本,确定所述目标广告所对应的目标句子连续特征向量;其中,所述目标句子连续特征向量用于表征所述目标描述文本的语句特征;
将所述目标一元词特征向量和所述目标句子连续特征向量合并处理以形成所述目标广告所对应的目标输入向量;
基于所述目标输入向量和预设的高斯核的支持向量机模型,确定所述预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度;其中,所述高斯核的支持向量机模型为基于视频的输入向量与所述视频所对应视频标签所构建的、关于输入向量与视频标签的置信度映射关系的模型,所述视频的输入向量由所述视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;
将置信度满足预定条件的视频标签确定为所述目标广告所对应的目标视频标签。
可选的,本发明实施例所提供的方法还包括:
将所述目标广告的标签属性设置为所确定出的目标视频标签。
可选的,所述获得目标广告的目标描述文本,包括:
获得所述目标广告的简介内容和/或着陆页面文本。
可选的,所述预设的高斯核的支持向量机模型的构建过程,包括:
获得多个第一类视频样本各自对应的第一类描述文本样本;其中,每个第一类视频样本均具有视频标签;
分别对各个第一类描述文本样本进行分词处理,以得到所述多个第一类视频样本各自所对应的第一类分词;
基于所述多个第一类视频样本各自所对应的第一类分词,确定所述多个第一类视频样本各自所对应的第一类一元词特征向量;其中,所述第一类一元词特征向量用于表征相应第一类描述文本样本的分词特征;
基于预设的句子连续特征向量形成模型和各个第一类描述文本样本,确定所述多个第一类视频样本各自所对应的第一类句子连续特征向量;其中,所述第一类句子连续特征向量用于表征相应第一类描述文本样本的语句特征;
分别将各个第一类一元词特征向量和所对应的第一类句子连续特征向量合并处理以形成所述多个第一类视频样本各自所对应的第一类输入向量;
通过所述第一类输入向量和相应的视频标签,利用高斯核的支持向量机模型的训练方法,生成关于第一类输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型。
可选的,所述预设的句子连续特征向量形成模型的构建过程,包括:
获得多个第二类视频样本的第二类描述文本样本、多个广告样本的第三类描述文本样本和多个外部语料;
基于所获得第二类视频样本的第二类描述文本样本、广告样本的第三类描述文本样本和外部语料,利用句子连续特征向量的训练方法,生成句子连续特征向量形成模型,其中,所述句子连续特征向量形成模型为句子作为输入而预定维数的向量作为输出的模型。
第二方面,本发明实施例还提供了一种为广告确定视频标签的装置,包括:
目标描述文本获得模块,用于获得目标广告的目标描述文本;
目标分词获得模块,用于对所述目标描述文本进行分词处理,以得到所述目标广告所对应的目标分词;
目标一元词特征向量确定模块,用于基于所述目标广告所对应的目标分词,确定所述目标广告所对应的目标一元词特征向量;其中,所述目标一元词特征向量用于表征所述目标描述文本的分词特征;
目标句子连续特征向量确定模块,用于基于预设的句子连续特征向量形成模型和所述目标描述文本,确定所述目标广告所对应的目标句子连续特征向量;其中,所述目标句子连续特征向量用于表征所述目标描述文本的语句特征;
目标输入向量确定模块,用于将所述目标一元词特征向量和所述目标句子连续特征向量合并处理以形成所述目标广告所对应的目标输入向量;
视频标签置信度确定模块,用于基于所述目标输入向量和预设的高斯核的支持向量机模型,确定所述预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度;其中,所述高斯核的支持向量机模型为基于视频的输入向量与所述视频所对应视频标签所构建的、关于输入向量与视频标签的置信度映射关系的模型,所述视频的输入向量由所述视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;
目标视频标签确定模块,用于将置信度满足预定条件的视频标签确定为所述目标广告所对应的目标视频标签。
可选的,本发明实施例所提供的装置还包括:
标签设置模块,用于将所述目标广告的标签属性设置为所确定出的目标视频标签。
可选的,所述目标描述文本获得模块,具体用于:
获得所述目标广告的简介内容和/或着陆页面文本。
可选的,所述预设的高斯核的支持向量机模型通过向量机构建模块构建,所述向量机构建模块,包括:
描述文本样本获得单元,用于获得多个第一类视频样本各自对应的第一类描述文本样本;其中,每个第一类视频样本均具有视频标签;
第一类分词确定单元,用于分别对各个第一类描述文本样本进行分词处理,以得到所述多个第一类视频样本各自所对应的第一类分词;
第一类一元词特征向量确定单元,用于基于所述多个第一类视频样本各自所对应的第一类分词,确定所述多个第一类视频样本各自所对应的第一类一元词特征向量;其中,所述第一类一元词特征向量用于表征相应第一类描述文本样本的分词特征;
第一类句子连续特征向量确定单元,用于基于预设的句子连续特征向量形成模型和各个第一类描述文本样本,确定所述多个第一类视频样本各自所对应的第一类句子连续特征向量;其中,所述第一类句子连续特征向量用于表征相应第一类描述文本样本的语句特征;
第一类输入向量确定单元,用于分别将各个第一类一元词特征向量和所对应的第一类句子连续特征向量合并处理以形成所述多个第一类视频样本各自所对应的第一类输入向量;
向量机模型生成单元,用于通过所述第一类输入向量和相应的视频标签,利用高斯核的支持向量机模型的训练方法,生成关于第一类输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型。
可选的,所述预设的句子连续特征向量形成模型通过句子连续特征向量构建模块构建,所述句子连续特征向量构建模块,包括:
样本内容获得单元,用于获得多个第二类视频样本的第二类描述文本样本、多个广告样本的第三类描述文本样本和多个外部语料;
句子连续特征向量模型生成单元,用于基于所获得第二类视频样本的第二类描述文本样本、广告样本的第三类描述文本样本和外部语料,利用句子连续特征向量的训练方法,生成句子连续特征向量形成模型,其中,所述句子连续特征向量形成模型为句子作为输入而预定维数的向量作为输出的模型。
本方案中,预先基于视频的描述文本与视频所对应视频标签来构建关于输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型,其中,视频的输入向量由视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;在为目标广告确定视频标签时,通过广告的描述文本所确定出的一元词特征向量和句子连续特征向量来构成输入向量,利用该模型,最终确定出该广告的各类视频标签的置信度,选择置信度符合条件的视频标签确定为该广告的视频标签,以此实现了有效确定广告所需对应的视频标签。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种为广告确定视频标签的方法的流程图。
图2为本发明实施例所提供的构建预设的高斯核的支持向量机模型的方法的流程图;
图3为本发明实施例所提供的一种为广告确定视频标签的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现广告所需对应的视频标签的确定,本发明实施例提供了一种为广告确定视频标签的方法及装置。
下面首先对本发明实施例所提供的一种为广告确定视频标签的方法进行介绍。
需要说明的是,本发明实施例所提供的一种为广告确定视频标签的方法的执行主体可以为一种为广告确定视频标签的装置,该装置可以位于电子设备内。
如图1所示,本发明实施例所提供的一种为广告确定视频标签的方法,可以包括如下步骤:
S101,获得目标广告的目标描述文本;
其中,在为目标广告确定其所对应的视频标签时,可以首先获得该目标广告所对应的目标描述文本,进而基于该目标描述文本执行后续的操作。该目标描述文本能够体现该目标广告所包含的内容或所涉及的内容。
具体的,所述获得目标广告的目标描述文本,可以包括:
获得该目标广告的简介内容和/或着陆页面文本。
其中,对于广告的简介内容而言,其涵盖信息可以包括但不局限于:该广告所涉及产品的名称、类型、生产商、广告语、代言人等信息;而对于广告的着陆页面文本而言,其为该广告的着陆页内的文本内容,着陆页为用户利用搜索引擎或点击引导标签后所显示的包含该广告的页面。
S102,对该目标描述文本进行分词处理,以得到该目标广告所对应的目标分词;
为了有效地为广告匹配视频标签,本实施例并不是采用简单的词语语义匹配方式,而是将目标广告的目标描述文本进行数学特征化处理,生成目标广告所对应的目标一元词特征向量和目标句子连续特征向量两类特征向量,进而基于该两类特征向量实现匹配。
基于上述思想,在获得目标广告的目标描述文本后,可以利用现有技术中的分词方法,对目标描述文本进行分词处理,以得到该目标广告所对应的目标分词。举例而言:对于一段描述“爱奇艺将加大力度支持原创剧”而言,其所对应的分词可以为(爱奇艺、力度、支持、原创剧)。
其中,对目标描述文本进行分词处理所利用的分词方法可以包括但不局限于现有技术中的:字符串匹配的分词方法(如正向最大匹配法、反向最大匹配法、最短路径分词法或双向最大匹配法等)、基于统计的分词方法,等等。
S103,基于该目标广告所对应的目标分词,确定该目标广告所对应的目标一元词特征向量;
其中,该述目标一元词特征向量用于表征该目标描述文本的分词特征。
其中,在确定出该目标广告所对应的目标分词后,可以基于目标分词确定该目标广告所对应的一元词特征向量。
其中,可以采用现有技术来确定该目标广告所对应的一元词特征向量。现有技术中一种确定一元词特征向量的方法可以包括:
获得预先构建的多维词典,其中,该多维词典的每一维对应有特定词语,不同的维度对应不同的词语;
将该目标广告所对应的目标分词与该多维词典进行匹配;
确定与目标分词所相同的特定词语所在的目标维度;
形成该目标广告所对应的维数与多维词典相同的一元词特征向量,该一元词特征向量中,与目标维度相同的维度所对应的值为1,其余为0。
上述的一元词特征向量的确定方法仅仅作为示例,并不应该构成对本发明实施例的限定。
S104,基于预设的句子连续特征向量形成模型和该目标描述文本,确定该目标广告所对应的目标句子连续特征向量;
在获得目标广告的目标描述文本之后,可以基于预设的句子连续特征向量形成模型和该目标描述文本,确定该目标广告所对应的目标句子连续特征向量。其中,该目标句子连续特征向量用于表征该目标描述文本的语句特征。需要说明的是,无论该目标描述文本实际由多少句内容(一个句号表征存在一句内容)构成,本发明实施例中,在确定目标句子连续特征向量时,该目标描述文本均可作为一个较长的句子来处理,即无需确定该目标描述文本的各句内容分别所对应的目标句子连续特征向量,而是确定该目标描述文本整个段落内容所对应的目标句子连续特征向量。
具体的,所述预设的句子连续特征向量形成模型的构建过程,可以包括:
获得多个第二类视频样本的第二类描述文本样本、多个广告样本的第三类描述文本样本和多个外部语料;
基于所获得第二类视频样本的第二类描述文本样本、广告样本的第三类描述文本样本和外部语料,利用句子连续特征向量的训练方法,生成句子连续特征向量形成模型,其中,该句子连续特征向量形成模型为句子作为输入而预定维数的向量作为输出的模型。其中,所述句子连续特征向量的训练方法可以采用现有技术,例如:Quoc Le所提供的句子连续特征向量的训练方法,基本原理如下:利用目标内容的第i,i+1,i+2,…i+m-1个词及该目标内容所对应的标识,去预测该目标内容的第i+m个词,为了使得预测的准确性增加,先将该目标内容和其第i,i+1,…i+m-1个词分别映射为n维连续空间向量,然后,利用现有技术中的反向传播算法调整n维连续空间向量,从而使得预测结果更好,最终将该调整后的n维连续空间向量作为该目标内容的句子连续特征向量;其中,该目标内容可以为一个段落或一个句子(一个句号表征存在一句内容),所谓一个段落由至少两个句子构成;该目标内容所对应的标识可以为由预定的标识确定规则来确定出且能够唯一确定该目标内容;该n维连续空间向量的维数可变。
其中,第二类视频样本的第二类描述文本样本可以包括:该第二类视频样本的简介内容和/或着陆页面文本;广告样本的第三类描述文本样本可以包括:广告样本的简介内容和/或着陆页面文本;外部语料可以包括:从百科网站等第三方网站中所提取的广告样本所涉及商品的描述和/或与第二类视频样本相关的描述。
需要说明的是,S102和S103必须在S101之后,S104必须在S101之后,但是,S102和S103、S104不存在严格的执行顺序,例如:在执行S102或S103的同时执行S104,在执行S104之后执行S102或S103,等等,这都是合理的。
S105,将该目标一元词特征向量和该目标句子连续特征向量合并处理以形成该目标广告所对应的目标输入向量;
为了获得后续的预设的高斯核的支持向量机模型的输入值,从而得到该输入值所对应的各类视频标签的置信度,在确定出目标一元词特征向量和目标句子连续特征向量后,可以将该目标一元词特征向量和该目标句子连续特征向量合并处理,从而形成该目标广告所对应的目标输入向量。
其中,目标输入向量的维度值等于目标一元词特征向量的维度值与目标句子连续特征向量的维度值之和。并且,合并处理的具体方式可以为:目标一元词特征向量在前而目标句子连续特征向量在后,或者,目标句子连续特征向量在前而目标一元词特征向量在后。
S106,基于该目标输入向量和预设的高斯核的支持向量机模型,确定该预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度;
其中,该高斯核的支持向量机模型为基于视频的输入向量与该视频所对应视频标签所构建的、关于输入向量与视频标签的置信度映射关系的模型,该视频的输入向量由该视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成。
由于该预设的高斯核的支持向量机模型为关于输入向量与视频标签的置信度映射关系的模型,因此,在确定出该目标广告的目标输入向量后,可以将该目标输入向量作为预设的高斯核的支持向量机模型的输入值,从而得到针对于该预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度。
为了布局清楚起见,后续介绍预设的高斯核的支持向量机模型的构建过程。
S107,将置信度满足预定条件的视频标签确定为该目标广告所对应的目标视频标签。
在确定出该预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度后,为了对目标广告确定较为精准的视频标签,并不是将所有的视频标签作为该目标广告所对应的目标视频标签,而是判断各类视频标签所对应的置信度是否符合预定条件,并将置信度满足预定条件的视频标签确定为该目标广告所对应的目标视频标签,从而完成了对该目标广告所需的视频标签的确定过程。
其中,判断各类视频标签所对应的置信度是否符合预定条件,可以包括:
判断各类视频标签所对应的置信度是否大于预定值,如果大于,表明该类视频标签所对应的置信度符合预定条件;
或者,
判断各类视频标签所对应的置信度是否在预定取值范围内,如果是,表明该类视频标签所对应的置信度符合预定条件。
上述的预定值和预定取值范围可以根据实际应用场景进行设定,在此不做赘述。并且,上述的判断各类视频标签是否符合预定条件的具体实现方式仅仅作为示例,并不应该构成对本发明实施例的限定。
本方案中,预先基于视频的描述文本与视频所对应视频标签来构建关于输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型,其中,视频的输入向量由视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;在为目标广告确定视频标签时,通过广告的描述文本所确定出的一元词特征向量和句子连续特征向量来构成输入向量,利用该模型,最终确定出该广告的各类视频标签的置信度,选择置信度符合条件的视频标签确定为该广告的视频标签,以此实现了有效确定广告所需对应的视频标签。
下面介绍所述预设的高斯核的支持向量机模型的构建过程。
如图2所示,所述预设的高斯核的支持向量机模型的构建过程,可以包括:
S201,获得多个第一类视频样本各自对应的第一类描述文本样本;其中,每个第一类视频样本均具有视频标签;
其中,第一类视频样本所对应的第一类描述文本样本可以包括:第一类视频样本的简介内容和/或着陆页面文本;并且,视频标签可以包括:喜剧类、悬疑类、剧情类、战争类等中的一种或多种。
S202,分别对各个第一类描述文本样本进行分词处理,以得到多个第一类视频样本各自所对应的第一类分词;
其中,对第一类描述文本进行分词处理所采用的方式可以参照上述的对目标描述文本进行分词处理的方式,在此不做赘述。
S203,基于多个第一类视频样本各自所对应的第一类分词,确定多个第一类视频样本各自所对应的第一类一元词特征向量;
其中,第一类一元词特征向量用于表征相应第一类描述文本样本的分词特征。
其中,确定多个第一类视频样本各自所对应的第一类一元词特征向量的具体实现方式可以参照上述的确定目标广告所对应的目标一元词特征性向量的实现方式,在此不做赘述。
S204,基于预设的句子连续特征向量形成模型和各个第一类描述文本样本,确定多个第一类视频样本各自所对应的第一类句子连续特征向量;
其中,第一类句子连续特征向量用于表征相应第一类描述文本样本的语句特征。
其中,预设的句子连续特征向量形成模型的构建方式如上述所述的方式。并且,第一类句子连续特征向量的确定方式可以参照目标视频样本所对应的目标句子连续特征向量的确定方式,在此不做赘述。
S205,分别将各个第一类一元词特征向量和所对应的第一类句子连续特征向量合并处理以形成多个第一类视频样本各自所对应的第一类输入向量;
其中,第一类输入向量的形成方式可以参照目标输入向量的形成方式,在此不做赘述。
S206,通过第一类输入向量和相应的视频标签,利用高斯核的支持向量机模型的训练方法,生成关于第一类输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型。
通过第一类输入向量和相应的视频标签,利用高斯核的支持向量机模型的训练方法,生成关于第一类输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型的具体实现方式可以采用现有的实现方式,在此不做赘述。
上述的第一类视频样本中的“第一类”和第二类视频样本中的“第二类”仅仅用于从名称上区分不同模型构建过程中的视频样本,并不具有任何限定意义;第一类描述文本样本中的“第一类”和第二类描述文本样本中的“第二类”仅仅用于从名称区分不同模型构建过程所利用的各类视频样本的描述文本样本,并不具有任何限定意义;第三类描述文本样本中的“第三类”仅仅从名称上区分外部语料和各类视频样本的描述文本,并不具有任何限定意义;第一类输入向量、第一类分词、第一类一元词特征向量和第一类句子连续特征向量中的“第一类”仅仅用于从名称上分别于目标输入向量、目标分词、目标一元词特征向量和目标句子连续特征向量进行区分,并不具有任何限定意义。
相应于上述方法实施例,本发明实施例还提供了一种为广告确定视频标签的装置,如图3所示,该装置可以包括:
目标描述文本获得模块310,用于获得目标广告的目标描述文本;
目标分词获得模块320,用于对所述目标描述文本进行分词处理,以得到所述目标广告所对应的目标分词;
目标一元词特征向量确定模块330,用于基于所述目标广告所对应的目标分词,确定所述目标广告所对应的目标一元词特征向量;其中,所述目标一元词特征向量用于表征所述目标描述文本的分词特征;
目标句子连续特征向量确定模块340,用于基于预设的句子连续特征向量形成模型和所述目标描述文本,确定所述目标广告所对应的目标句子连续特征向量;其中,所述目标句子连续特征向量用于表征所述目标描述文本的语句特征;
目标输入向量确定模块350,用于将所述目标一元词特征向量和所述目标句子连续特征向量合并处理以形成所述目标广告所对应的目标输入向量;
视频标签置信度确定模块360,用于基于所述目标输入向量和预设的高斯核的支持向量机模型,确定所述预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度;其中,所述高斯核的支持向量机模型为基于视频的输入向量与所述视频所对应视频标签所构建的、关于输入向量与视频标签的置信度映射关系的模型,所述视频的输入向量由所述视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;
目标视频标签确定模块370,用于将置信度满足预定条件的视频标签确定为所述目标广告所对应的目标视频标签。
本方案中,预先基于视频的描述文本与视频所对应视频标签来构建关于输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型,其中,视频的输入向量由视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;在为目标广告确定视频标签时,通过广告的描述文本所确定出的一元词特征向量和句子连续特征向量来构成输入向量,利用该模型,最终确定出该广告的各类视频标签的置信度,选择置信度符合条件的视频标签确定为该广告的视频标签,以此实现了有效确定广告所需对应的视频标签。
更进一步的,本发明实施例所提供的一种为广告确定视频标签的装置,还可以包括:
标签设置模块,用于将所述目标广告的标签属性设置为所确定出的目标视频标签。
更进一步的,所述目标描述文本获得模块310,具体用于:
获得所述目标广告的简介内容和/或着陆页面文本。
更进一步的,所述预设的高斯核的支持向量机模型通过向量机构建模块构建,所述向量机构建模块,可以包括:
描述文本样本获得单元,用于获得多个第一类视频样本各自对应的第一类描述文本样本;其中,每个第一类视频样本均具有视频标签;
第一类分词确定单元,用于分别对各个第一类描述文本样本进行分词处理,以得到所述多个第一类视频样本各自所对应的第一类分词;
第一类一元词特征向量确定单元,用于基于所述多个第一类视频样本各自所对应的第一类分词,确定所述多个第一类视频样本各自所对应的第一类一元词特征向量;其中,所述第一类一元词特征向量用于表征相应第一类描述文本样本的分词特征;
第一类句子连续特征向量确定单元,用于基于预设的句子连续特征向量形成模型和各个第一类描述文本样本,确定所述多个第一类视频样本各自所对应的第一类句子连续特征向量;其中,所述第一类句子连续特征向量用于表征相应第一类描述文本样本的语句特征;
第一类输入向量确定单元,用于分别将各个第一类一元词特征向量和所对应的第一类句子连续特征向量合并处理以形成所述多个第一类视频样本各自所对应的第一类输入向量;
向量机模型生成单元,用于通过所述第一类输入向量和相应的视频标签,利用高斯核的支持向量机模型的训练方法,生成关于第一类输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型。
更进一步的,所述预设的句子连续特征向量形成模型通过句子连续特征向量构建模块构建,所述句子连续特征向量构建模块,可以包括:
样本内容获得单元,用于获得多个第二类视频样本的第二类描述文本样本、多个广告样本的第三类描述文本样本和多个外部语料;
句子连续特征向量模型生成单元,用于基于所获得第二类视频样本的第二类描述文本样本、广告样本的第三类描述文本样本和外部语料,利用句子连续特征向量的训练方法,生成句子连续特征向量形成模型,其中,所述句子连续特征向量形成模型为句子作为输入而预定维数的向量作为输出的模型。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种为广告确定视频标签的方法,其特征在于,包括:
获得目标广告的目标描述文本;
对所述目标描述文本进行分词处理,以得到所述目标广告所对应的目标分词;
基于所述目标广告所对应的目标分词,确定所述目标广告所对应的目标一元词特征向量;其中,所述目标一元词特征向量用于表征所述目标描述文本的分词特征;
基于预设的句子连续特征向量形成模型和所述目标描述文本,确定所述目标广告所对应的目标句子连续特征向量;其中,所述目标句子连续特征向量用于表征所述目标描述文本的语句特征;
将所述目标一元词特征向量和所述目标句子连续特征向量合并处理以形成所述目标广告所对应的目标输入向量;
基于所述目标输入向量和预设的高斯核的支持向量机模型,确定所述预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度;其中,所述高斯核的支持向量机模型为基于视频的输入向量与所述视频所对应视频标签所构建的、关于输入向量与视频标签的置信度映射关系的模型,所述视频的输入向量由所述视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;
将置信度满足预定条件的视频标签确定为所述目标广告所对应的目标视频标签;
所述预设的句子连续特征向量形成模型的构建过程包括:
获得多个第二类视频样本的第二类描述文本样本、多个广告样本的第三类描述文本样本和多个外部语料;
基于所获得第二类视频样本的第二类描述文本样本、广告样本的第三类描述文本样本和外部语料,利用句子连续特征向量的训练方法,生成句子连续特征向量形成模型,其中,所述句子连续特征向量形成模型为句子作为输入而预定维数的向量作为输出的模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述目标广告的标签属性设置为所确定出的目标视频标签。
3.根据权利要求1或2所述的方法,其特征在于,所述获得目标广告的目标描述文本,包括:
获得所述目标广告的简介内容和/或着陆页面文本。
4.根据权利要求1或2所述的方法,其特征在于,所述预设的高斯核的支持向量机模型的构建过程,包括:
获得多个第一类视频样本各自对应的第一类描述文本样本;其中,每个第一类视频样本均具有视频标签;
分别对各个第一类描述文本样本进行分词处理,以得到所述多个第一类视频样本各自所对应的第一类分词;
基于所述多个第一类视频样本各自所对应的第一类分词,确定所述多个第一类视频样本各自所对应的第一类一元词特征向量;其中,所述第一类一元词特征向量用于表征相应第一类描述文本样本的分词特征;
基于预设的句子连续特征向量形成模型和各个第一类描述文本样本,确定所述多个第一类视频样本各自所对应的第一类句子连续特征向量;其中,所述第一类句子连续特征向量用于表征相应第一类描述文本样本的语句特征;
分别将各个第一类一元词特征向量和所对应的第一类句子连续特征向量合并处理以形成所述多个第一类视频样本各自所对应的第一类输入向量;
通过所述第一类输入向量和相应的视频标签,利用高斯核的支持向量机模型的训练方法,生成关于第一类输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型。
5.一种为广告确定视频标签的装置,其特征在于,包括:
目标描述文本获得模块,用于获得目标广告的目标描述文本;
目标分词获得模块,用于对所述目标描述文本进行分词处理,以得到所述目标广告所对应的目标分词;
目标一元词特征向量确定模块,用于基于所述目标广告所对应的目标分词,确定所述目标广告所对应的目标一元词特征向量;其中,所述目标一元词特征向量用于表征所述目标描述文本的分词特征;
目标句子连续特征向量确定模块,用于基于预设的句子连续特征向量形成模型和所述目标描述文本,确定所述目标广告所对应的目标句子连续特征向量;其中,所述目标句子连续特征向量用于表征所述目标描述文本的语句特征;
目标输入向量确定模块,用于将所述目标一元词特征向量和所述目标句子连续特征向量合并处理以形成所述目标广告所对应的目标输入向量;
视频标签置信度确定模块,用于基于所述目标输入向量和预设的高斯核的支持向量机模型,确定所述预设的高斯核的支持向量机模型所涵盖的各类视频标签的置信度;其中,所述高斯核的支持向量机模型为基于视频的输入向量与所述视频所对应视频标签所构建的、关于输入向量与视频标签的置信度映射关系的模型,所述视频的输入向量由所述视频的描述文本所对应的一元词特征向量和句子连续特征向量所构成;
目标视频标签确定模块,用于将置信度满足预定条件的视频标签确定为所述目标广告所对应的目标视频标签;
所述目标句子连续特征向量确定模块包括:
样本内容获得单元,用于获得多个第二类视频样本的第二类描述文本样本、多个广告样本的第三类描述文本样本和多个外部语料;
句子连续特征向量模型生成单元,用于基于所获得第二类视频样本的第二类描述文本样本、广告样本的第三类描述文本样本和外部语料,利用句子连续特征向量的训练方法,生成句子连续特征向量形成模型,其中,所述句子连续特征向量形成模型为句子作为输入而预定维数的向量作为输出的模型。
6.根据权利要求5所述的装置,其特征在于,还包括:
标签设置模块,用于将所述目标广告的标签属性设置为所确定出的目标视频标签。
7.根据权利要求5或6所述的装置,其特征在于,所述目标描述文本获得模块,具体用于:
获得所述目标广告的简介内容和/或着陆页面文本。
8.根据权利要求5或6所述的装置,其特征在于,所述预设的高斯核的支持向量机模型通过向量机构建模块构建,所述向量机构建模块,包括:
描述文本样本获得单元,用于获得多个第一类视频样本各自对应的第一类描述文本样本;其中,每个第一类视频样本均具有视频标签;
第一类分词确定单元,用于分别对各个第一类描述文本样本进行分词处理,以得到所述多个第一类视频样本各自所对应的第一类分词;
第一类一元词特征向量确定单元,用于基于所述多个第一类视频样本各自所对应的第一类分词,确定所述多个第一类视频样本各自所对应的第一类一元词特征向量;其中,所述第一类一元词特征向量用于表征相应第一类描述文本样本的分词特征;
第一类句子连续特征向量确定单元,用于基于预设的句子连续特征向量形成模型和各个第一类描述文本样本,确定所述多个第一类视频样本各自所对应的第一类句子连续特征向量;其中,所述第一类句子连续特征向量用于表征相应第一类描述文本样本的语句特征;
第一类输入向量确定单元,用于分别将各个第一类一元词特征向量和所对应的第一类句子连续特征向量合并处理以形成所述多个第一类视频样本各自所对应的第一类输入向量;
向量机模型生成单元,用于通过所述第一类输入向量和相应的视频标签,利用高斯核的支持向量机模型的训练方法,生成关于第一类输入向量与视频标签的置信度映射关系的高斯核的支持向量机模型。
CN201510150299.3A 2015-03-31 2015-03-31 为广告确定视频标签的方法及装置 Active CN104699844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510150299.3A CN104699844B (zh) 2015-03-31 2015-03-31 为广告确定视频标签的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510150299.3A CN104699844B (zh) 2015-03-31 2015-03-31 为广告确定视频标签的方法及装置

Publications (2)

Publication Number Publication Date
CN104699844A CN104699844A (zh) 2015-06-10
CN104699844B true CN104699844B (zh) 2019-03-15

Family

ID=53346964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510150299.3A Active CN104699844B (zh) 2015-03-31 2015-03-31 为广告确定视频标签的方法及装置

Country Status (1)

Country Link
CN (1) CN104699844B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871244B (zh) * 2016-09-28 2021-08-20 腾讯科技(深圳)有限公司 一种广告效果的检测方法和装置
CN107463552A (zh) * 2017-07-20 2017-12-12 北京奇艺世纪科技有限公司 一种生成视频主题名称的方法和装置
CN109660865B (zh) * 2018-12-17 2021-09-21 杭州柚子街信息科技有限公司 为视频自动打视频标签的方法及装置、介质和电子设备
CN110162620B (zh) * 2019-01-10 2023-08-18 腾讯科技(深圳)有限公司 黑产广告的检测方法、装置、服务器及存储介质
CN110378732B (zh) * 2019-07-18 2023-01-06 腾讯科技(深圳)有限公司 信息显示方法、信息关联方法、装置、设备及存储介质
CN115545020B (zh) * 2022-12-01 2023-05-23 浙江出海云技术有限公司 一种基于大数据的广告引流效果分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
CN103559196A (zh) * 2013-09-23 2014-02-05 浙江大学 一种基于多核典型相关分析的视频检索方法
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
CN103559196A (zh) * 2013-09-23 2014-02-05 浙江大学 一种基于多核典型相关分析的视频检索方法
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于增强语义和随机游走的分类算法研究;郑伟;《中国优秀硕士学位论文全文数据库(电子期刊)》;20130115;参见第3章

Also Published As

Publication number Publication date
CN104699844A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
CN104699844B (zh) 为广告确定视频标签的方法及装置
CN110175325B (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN107944629B (zh) 一种基于异质信息网络表示的推荐方法及装置
JP6515624B2 (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN103914546B (zh) 数据更新方法及其装置
CN109460512B (zh) 推荐信息处理方法、装置、设备及存储介质
CN107220386A (zh) 信息推送方法和装置
US11264006B2 (en) Voice synthesis method, device and apparatus, as well as non-volatile storage medium
US10402479B2 (en) Method, server, browser, and system for recommending text information
JP2015204103A (ja) 対話型の検索及び推奨方法並びにその装置
CN110969012A (zh) 文本纠错方法、装置、存储介质及电子设备
CN104156454B (zh) 搜索词的纠错方法和装置
CN107241260A (zh) 基于人工智能的新闻推送的方法和装置
CN103593373A (zh) 一种用于搜索结果排序的方法与设备
CN106095766A (zh) 使用选择性重新讲话来校正话音识别
CN104572855A (zh) 一种新闻推荐方法及装置
CN108255999A (zh) 内容推荐方法及装置
CN103559313B (zh) 搜索方法及装置
CN105302880A (zh) 内容关联推荐方法及装置
CN105809478A (zh) 一种广告标签的标注方法及系统
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
US11120362B2 (en) Identifying a product in a document
CN109901835B (zh) 布局元素的方法、装置、设备及存储介质
CN105183843B (zh) 列表页识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant