CN104994424B - 一种构建音视频标准数据集的方法和装置 - Google Patents
一种构建音视频标准数据集的方法和装置 Download PDFInfo
- Publication number
- CN104994424B CN104994424B CN201510377910.6A CN201510377910A CN104994424B CN 104994424 B CN104994424 B CN 104994424B CN 201510377910 A CN201510377910 A CN 201510377910A CN 104994424 B CN104994424 B CN 104994424B
- Authority
- CN
- China
- Prior art keywords
- video
- audio frequency
- query word
- click
- under
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012163 sequencing technique Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims description 4
- 230000000284 resting effect Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种构建音视频标准数据集的方法和装置,构建音视频标准数据集的方法包括:记录用户搜索的至少一个查询词、每个查询词下用户点击的音视频以及每个查询词下用户浏览的音视频至搜索点击日志;根据搜索点击日志统计每个查询词在预设时间内的搜索次数,并输出搜索次数大于预设次数的查询词;接收查询词,根据搜索点击日志对查询词下每个音视频进行标注打分,并以第一预设格式输出查询词下每个音视频的标注分数;以第二预设格式保存查询词下每个音视频对应的标注分数和至少一个排序特征分数。本发明实施例基于用户的搜索点击日志,自动准确的构建标准数据集,极大地降低了人力、时间和经济成本。
Description
技术领域
本发明涉及音视频排序技术领域,特别是涉及一种构建音视频标准数据集的方法和一种构建音视频标准数据集的装置。
背景技术
传统的视频搜索排序模型,一般通过人工的方法设定或者调整模型参数。但是,目前影响视频排序的特征已达百种之多,采用人工方式调整参数越来越困难。最近几年兴起的排序学习算法(learning to rank)将搜索排序问题转换为传统的机器学习问题,该算法能够自动学习视频搜索排序模型的参数,优化搜索结果的排序。其中,标准数据集的质量是影响排序学习算法性能的关键因素。
现有技术中,绝大多数的标准数据集(包括微软和雅虎公开的数据集)都是通过人工标注的方式进行构建。而人工标注的过程需要耗费大量人力、物力和财力;另外,随着时间的推移,标准标注也会发生变化。因此,自动地获得标准数据集对于排序学习算法至关重要,该课题已成为学术界和工业界的一个热点和难点。
发明内容
本发明实施例所要解决的技术问题是提供一种构建音视频标准数据集的方法,该方法能够自动准确的构建标准数据集,极大地降低了人力成本、时间成本和经济成本。
相应的,本发明实施例还提供了一种构建音视频标准数据集的装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种构建音视频标准数据集的方法,包括以下步骤:记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数;以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。
优选地,所述根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,具体包括以下步骤:S11,统计在所述预设时间内,所述查询词下所述当前音视频的点击数;S12,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;S13,根据所述查询词下所述当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;S14,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数;S15,调整所述当前音视频为下一个音视频;S16,重复执行S11-S15,直至完成对所述查询词下每个音视频进行标注打分。
优选地,根据以下公式计算所述查询词下所述当前音视频的真实点击率:
real_ctr=video_click/video_impression
其中,video_click为所述查询词下所述当前音视频的点击数,video_impression为所述查询词下所述当前音视频的浏览次数。
优选地,根据以下公式计算所述当前音视频的标注分数:
label_score=real_ctr-click_bias(i)
其中,real_ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。
优选地,所述当前音视频排序位置处的点击偏置值根据以下步骤获取:随机打乱搜索引擎返回结果的排序;统计当前音视频排序位置处的位置点击率;根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。
优选地,根据以下公式计算所述当前音视频排序位置处的点击偏置值:
click_bias(i)=α×pos_ctr_bias(i)
其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。
与现有技术相比,本发明实施例包括以下优点:
第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;
第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;
第三,由于用户点击受到音视频排序位置的影响,提出了一种测定点击偏置值的方法,并利用点击偏置值减小了点击偏置对音视频标注分数的影响。
为了解决上述问题,本发明公开了一种构建音视频标准数据集的装置,包括:搜索日志数据库,记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;查询词筛选模块,根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;标注打分器,接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数;标准数据集文件库,以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。
优选地,所述标注打分器包括:点击数统计单元,统计在所述预设时间内,所述查询词下所述当前音视频的点击数;浏览次数统计单元,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;真实点击率计算单元,根据所述查询词下所述当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;标注分数计算单元,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数;调整单元,调整所述当前音视频为下一个音视频。
优选地,所述真实点击率计算单元根据以下公式计算所述查询词下所述当前音视频的真实点击率:
real_ctr=video_click/video_impression
其中,video_click为所述查询词下所述当前音视频的点击数,video_impression为所述查询词下所述当前音视频的浏览次数。
优选地,所述标注分数计算单元根据以下公式计算所述当前音视频的标注分数:
label_score=real_ctr-click_bias(i)
其中,real_ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。
优选地,构建音视频标准数据集的装置还包括点击偏置值获取模块,所述点击偏置值获取模块包括:排序随机打乱单元,随机打乱搜索引擎返回结果的排序;位置点击率统计单元,统计当前音视频排序位置处的位置点击率;点击偏置值计算单元,根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。
优选地,所述点击偏置值计算单元根据以下公式计算所述当前音视频排序位置处的点击偏置值:
click_bias(i)=α×pos_ctr_bias(i)
其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。
与现有技术相比,本发明实施例包括以下优点:
第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;
第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;
第三,由于用户点击受到音视频排序位置的影响,提出了一种测定点击偏置值的方法,并利用点击偏置值减小了点击偏置对音视频标注分数的影响。
附图说明
图1是本发明的一种构建音视频标准数据集的方法实施例的步骤流程图;
图2是本发明的一种构建音视频标准数据集的方法实施例的根据搜索点击日志对查询词下每个音视频进行标注打分的步骤流程图;
图3是本发明的一种构建音视频标准数据集的方法实施例的获取当前音视频排序位置处的点击偏置值的步骤流程图;
图4是本发明的一种构建音视频标准数据集的装置实施例的结构框图;
图5是本发明的另一种构建音视频标准数据集的装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
首先,需要说明的是,标准数据集由三部分组成:1)查询词以及对应的音视频;2)查询词与音视频之间相关度的标注分数;3)音视频对应的排序特征。其中,任何影响音视频排序的特征都可以作为排序特征,例如查询词与音视频的标题之间的相关度是影响音视频排序的一个重要特征。具体地,音视频对应的排序特征还包括音视频的标题、音视频的简介、音视频的时长、音视频的码率、音视频的上线时间、音视频的类型、查询词与音视频的标题的相关度、音视频的点击数、音视频的点击率(音视频的点击数/音视频的搜索次数)、音视频的搜索次数、查询词下音视频的点击数、查询词下音视频的点击率、查询词下音视频的搜索次数、音视频的相对观看时长(用户的平均观看时长/音视频的时长)。本发明公开的标准数据集的排序特征包括但不仅限于上述排序特征。
本发明实施例的核心构思之一在于,通过音视频搜索引擎,基于用户的搜索点击日志,自动准确的构建用于排序学习的标准数据集,从而降低人力、时间和经济成本。
参照图1,示出了本发明的一种构建音视频标准数据集的方法实施例的步骤流程图,具体可以包括以下步骤:
S1,记录用户搜索的至少一个查询词、每个查询词下用户点击的音视频以及每个查询词下用户浏览的音视频至搜索点击日志。
其中,音视频为音频、视频。
S2,根据搜索点击日志统计每个查询词在预设时间内的搜索次数,并输出搜索次数大于预设次数的查询词。
其中,预设时间可以为一天或一周或一个月等。优选的,在本发明的一个实施例中,预设次数可以取值为100。
S3,接收查询词,根据搜索点击日志对查询词下每个音视频进行标注打分,并以第一预设格式输出查询词下每个音视频的标注分数。
在本发明的一个实施例中,参照图2,步骤S3中根据搜索点击日志对查询词下每个音视频进行标注打分,具体可以包括以下步骤:
S11,统计在预设时间内,查询词下当前音视频的点击数。
一般而言,用户查看搜索结果时都是按照从上往下的方式浏览,如果音视频的图片、标题以及简介等符合用户的搜索意图,用户会点击该音视频。
S12,统计在预设时间内,查询词下当前音视频的浏览次数。
需要注意的是,在统计查询词下音视频的浏览次数时,由于搜索结果都是按页展示,且一般情况下用户从上往下进行浏览,用户可能在点击某个音视频之后离开本次会话,而未浏览排序位置在被点击音视频之后的其它音视频。因此,可以假定排序位置在被点击音视频之前的音视频被用户浏览过,而排序位置在被点击音视频之后的音视频没有被用户浏览,由此可以统计音视频在查询词下的浏览次数。
优选地,在本发明的一个实施例中,统计查询词下音视频的浏览次数具体可以为:如果一次搜索行为种,用户未点击任何音视频,则假定搜索结果页中每一个音视频都被用户浏览1次;如果用户在一次搜索行为中产生一次或者多次点击,则假定排序位置在被点击音视频之前的每一个音视频都被用户浏览1次。由此可以统计在预设时间内,查询词下每一个视频的浏览次数。
S13,根据查询词下当前音视频的点击数和查询词下当前音视频的浏览次数计算查询词下当前音视频的真实点击率。
需要说明的是,对于长尾查询词或者查询词的搜索次数较小时,步骤S13计算出的音视频的真实点击率并无统计意义,因此,在步骤S2中仅输出搜索次数大于预设次数的查询词。
优选地,在本发明的一个实施例中,可以根据以下公式计算查询词下当前音视频的真实点击率:
real_ctr=video_click/video_impression
其中,video_click为查询词下当前音视频的点击数,video_impression为查询词下当前音视频的浏览次数。
S14,根据当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算当前音视频的标注分数。
需要说明的是,由于用户的点击行为受到音视频排序位置的影响,在音视频质量相同的情况下,用户更倾向于点击排序位置靠前的音视频,该现象称之为点击偏置(clickbias),点击偏置值是与排序位置相关的一组数值。
优选地,在本发明的一个实施例中,参照图3,当前音视频排序位置处的点击偏置值可以根据以下步骤获取:
S141,随机打乱搜索引擎返回结果的排序。
S142,统计当前音视频排序位置处的位置点击率。
S143,根据当前音视频排序位置处的位置点击率计算当前音视频排序位置处的点击偏置值。
在实际应用中,每个音视频排序位置处的点击偏置值还可以为根据步骤S141至步骤S143预先计算出的值,该值相对比较固定,因此,可以根据当前音视频排序位置确定当前音视频排序位置处的点击偏置值。
具体地,在本发明的一个实施例中,可以根据以下公式计算当前音视频排序位置处的点击偏置值:
click_bias(i)=α×pos_ctr_bias(i)
其中,i为当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为当前音视频排序位置处的位置点击率,当前音视频排序位置处的位置点击率为当前音视频排序位置处的音视频在查询词下的点击数与查询词在预设时间内的搜索次数的比值。优选地,在本发明的一个实施例中,α的取值可以为0.1。
在估计音视频的标注分数时,应该抵消点击偏置的影响。优选地,在本发明的一个实施例中,可以根据以下公式计算当前音视频的标注分数:
label_score=real_ctr-click_bias(i)
其中,real_ctr为当前音视频的真实点击率,i为当前音视频排序位置,click_bias(i)为当前音视频排序位置处的点击偏置值。从上式可以发现,音视频的真实点击率是音视频的标注分数的一个重要参考值,上式可以减小或消除点击偏置对音视频的标注分数的影响。
S15,调整当前音视频为下一个音视频。
S16,重复执行S11-S15,直至完成对查询词下每个音视频进行标注打分。
S4,以第二预设格式保存查询词下每个音视频对应的标注分数和至少一个排序特征分数。
在实际应用中,以第二预设格式保存查询词下每个音视频对应的标注分数和至少一个排序特征分数后所形成的标准数据集,可以用于训练机器学习音视频搜索排序模型的参数。
进一步地,在本发明的一个实施例中,在步骤S4之前,构建音视频标准数据集的方法还可以包括以下步骤:
保存每个音视频对应的排序特征至查询音视频信息数据库。
在本发明的一个实施例中,音视频信息数据库可以保存每个音视频的元数据(排序特征)和用户行为元数据等。其中,例如音视频的元数据可以包括音视频的标题、音视频的简介、音视频的时长等音视频属性元数据,用户行为元数据可以包括音视频的点击数、音视频的搜索次数、查询词下音视频的点击数、查询词下音视频的搜索次数等用户行为相关元数据。进一步地,在本发明的一个实施例中,可以保存每个音视频对应的排序特征的id(IDentity的缩写,身份标识号码)至音视频信息数据库。
接收查询词下每个音视频的标注分数,查询音视频信息数据库以抽取每个音视频对应的至少一个排序特征,分别计算每个排序特征对应的排序特征分数,并以第二预设格式输出查询词下每个音视频对应的标注分数和至少一个排序特征分数。
所谓抽取音视频对应的排序特征是指从音视频信息数据库中提取音视频相应的元数据,比如为计算查询词与音视频的标题之间的相关度,需要从音视频信息数据库中提取音视频的标题,然后采用经典的匹配算法(比如BM25)即可以直接计算得到相关度。
优选地,在本发明的一个实施例中,在以第二预设格式输出查询词下每个音视频对应的标注分数和至少一个排序特征分数之前,可以对每个排序特征分数进行归一化处理至预设范围内。具体地,在本发明的一个实施例中,预设范围可以为[0,1]。
需要说明的是,在本发明的一个实施例中,步骤S1可以记录用户搜索的至少一个查询词的id、每个查询词下用户点击的音视频的id以及每个查询词下用户浏览的音视频的id至搜索点击日志。具体地,在本发明的一个实施例中,第一预设格式可以为:
label_score\t queryid\t videoid
其中,\t为字段之间的分隔符,label_score为音视频的标注分数,queryid为查询词的id,videoid为音视频的id。
优选地,在本发明的一个实施例中,第二预设格式可以为:
label_score\t queryid\t featureid1:value1\t featureid2:value2\t...
其中,\t为字段之间的分隔符,label_score为音视频的标注分数,queryid为查询词的id,featureid1、featureid2......为至少一个排序特征的id,value1、value2......为至少一个排序特征分数,featureid1:value1、featureid2:value 2......为至少一个排序特征对应的排序特征分数。
与现有技术相比,本发明实施例的构建音视频标准数据集的方法包括以下优点:
第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;
第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;
第三,由于用户点击受到音视频排序位置的影响,提出了一种测定点击偏置值的方法,并利用点击偏置值减小了点击偏置对音视频标注分数的影响。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明一种构建音视频标准数据集的装置实施例的结构框图,具体可以包括如下模块:搜索日志数据库10、查询词筛选模块20、标注打分器30以及标准数据集文件库40。
其中,搜索日志数据库10记录用户搜索的至少一个查询词、每个查询词下用户点击的音视频以及每个查询词下用户浏览的音视频至搜索点击日志。查询词筛选模块20根据搜索点击日志统计每个查询词在预设时间内的搜索次数,并输出搜索次数大于预设次数的查询词。标注打分器30接收查询词,根据搜索点击日志对查询词下每个音视频进行标注打分,并以第一预设格式输出查询词下每个音视频的标注分数。标准数据集文件库40以第二预设格式保存查询词下每个音视频对应的标注分数和至少一个排序特征分数。
进一步地,在本发明的一个实施例中,标注打分器30可以包括:点击数统计单元、浏览次数统计单元、真实点击率计算单元、标注分数计算单元以及调整单元。
其中,点击数统计单元统计在预设时间内,查询词下当前音视频的点击数。浏览次数统计单元统计在预设时间内,查询词下当前音视频的浏览次数。真实点击率计算单元根据查询词下当前音视频的点击数和查询词下当前音视频的浏览次数计算查询词下当前音视频的真实点击率。标注分数计算单元根据当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算当前音视频的标注分数。调整单元调整当前音视频为下一个音视频。
优选地,在本发明的一个实施例中,真实点击率计算单元可以根据以下公式计算查询词下当前音视频的真实点击率:
real_ctr=video_click/video_impression
其中,video_click为查询词下当前音视频的点击数,video_impression为查询词下当前音视频的浏览次数。
优选地,在本发明的一个实施例中,标注分数计算单元可以根据以下公式计算当前音视频的标注分数:
label_score=real_ctr-click_bias(i)
其中,real_ctr为当前音视频的真实点击率,i为当前音视频排序位置,click_bias(i)为当前音视频排序位置处的点击偏置值。
进一步地,在本发明的一个实施例中,构建音视频标准数据集的装置还可以包括点击偏置值获取模块,点击偏置值获取模块可以包括排序随机打乱单元、位置点击率统计单元以及点击偏置值计算单元。
其中,排序随机打乱单元随机打乱搜索引擎返回结果的排序。位置点击率统计单元统计当前音视频排序位置处的位置点击率。点击偏置值计算单元根据当前音视频排序位置处的位置点击率计算当前音视频排序位置处的点击偏置值。
优选地,在本发明的一个实施例中,点击偏置值计算单元可以根据以下公式计算当前音视频排序位置处的点击偏置值:
click_bias(i)=α×pos_ctr_bias(i)
其中,i为当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为当前音视频排序位置处的位置点击率,当前音视频排序位置处的位置点击率为当前音视频排序位置处的音视频在查询词下的点击数与查询词在预设时间内的搜索次数的比值。
进一步地,在本发明的另一个实施例中,参照图5,构建音视频标准数据集的装置还可以包括音视频信息数据库50和特征抽取模块60。
其中,音视频信息数据库50保存每个音视频对应的排序特征。特征抽取模块60接收查询词下每个音视频的标注分数,查询音视频信息数据库50以抽取每个音视频对应的至少一个排序特征,分别计算每个排序特征对应的排序特征分数,并以第二预设格式输出查询词下每个音视频对应的标注分数和至少一个排序特征分数。
与现有技术相比,本发明实施例的构建音视频标准数据集的装置包括以下优点:
第一,基于用户的搜索点击日志自动构建用于排序学习算法的标准数据集,极大地降低了人力成本、时间成本和经济成本;
第二,将预设时间内音视频的真实点击率作为音视频的标注分数的一个重要参考,因此,相对于人工标注的方式,数据更加准确;
第三,由于用户点击受到音视频排序位置的影响,提出了一种测定点击偏置值的方法,并利用点击偏置值减小了点击偏置对音视频标注分数的影响。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种构建音视频标准数据集的方法和一种构建音视频标准数据集的装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种构建音视频标准数据集的方法,其特征在于,包括以下步骤:
记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;
根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;
接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数,其中所述根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,具体包括以下步骤包括:
S11,统计在所述预设时间内,所述查询词下当前音视频的点击数;
S12,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;
S13,根据所述查询词下当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;
S14,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数,其中在音视频质量相同的情况下,用户更倾向于点击排序位置靠前的音视频的现象,该现象称之为点击偏置,点击偏置值是与排序位置相关的一组数值;
S15,调整所述当前音视频为下一个音视频;
S16,重复执行S11-S15,直至完成对所述查询词下每个音视频进行标注打分;
以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。
2.根据权利要求1所述的方法,其特征在于,根据以下公式计算所述查询词下所述当前音视频的真实点击率:
real_ctr=video_click/video_impression
其中,video_click为所述查询词下所述当前音视频的点击数,video_impression为所述查询词下所述当前音视频的浏览次数。
3.根据权利要求1所述的方法,其特征在于,根据以下公式计算所述当前音视频的标注分数:
label_score=real_ctr-click_bias(i)
其中,real_ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。
4.根据权利要求1所述的方法,其特征在于,所述当前音视频排序位置处的点击偏置值根据以下步骤获取:
随机打乱搜索引擎返回结果的排序;
统计当前音视频排序位置处的位置点击率;
根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。
5.根据权利要求4所述的方法,其特征在于,根据以下公式计算所述当前音视频排序位置处的点击偏置值:
click_bias(i)=α×pos_ctr_bias(i)
其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。
6.一种构建音视频标准数据集的装置,其特征在于,包括:
搜索日志数据库,记录用户搜索的至少一个查询词、每个所述查询词下用户点击的音视频以及每个所述查询词下用户浏览的音视频至搜索点击日志;
查询词筛选模块,根据所述搜索点击日志统计每个所述查询词在预设时间内的搜索次数,并输出所述搜索次数大于预设次数的所述查询词;
标注打分器,接收所述查询词,根据所述搜索点击日志对所述查询词下每个音视频进行标注打分,并以第一预设格式输出所述查询词下每个所述音视频的标注分数,其中包括:
点击数统计单元,统计在所述预设时间内,所述查询词下当前音视频的点击数;
浏览次数统计单元,统计在所述预设时间内,所述查询词下所述当前音视频的浏览次数;
真实点击率计算单元,根据所述查询词下当前音视频的点击数和所述查询词下所述当前音视频的浏览次数计算所述查询词下所述当前音视频的真实点击率;
标注分数计算单元,根据所述当前音视频的真实点击率和当前音视频排序位置处的点击偏置值计算所述当前音视频的标注分数,其中其中在音视频质量相同的情况下,用户更倾向于点击排序位置靠前的音视频的现象,该现象称之为点击偏置,点击偏置值是与排序位置相关的一组数值;
调整单元,调整所述当前音视频为下一个音视频;
标准数据集文件库,以第二预设格式保存所述查询词下每个所述音视频对应的所述标注分数和至少一个排序特征分数。
7.根据权利要求6所述的装置,其特征在于,所述真实点击率计算单元根据以下公式计算所述查询词下所述当前音视频的真实点击率:
real_ctr=video_click/video_impression
其中,video_click为所述查询词下所述当前音视频的点击数,video_impression为所述查询词下所述当前音视频的浏览次数。
8.根据权利要求6所述的装置,其特征在于,所述标注分数计算单元根据以下公式计算所述当前音视频的标注分数:
label_score=real_ctr-click_bias(i)
其中,real_ctr为所述当前音视频的真实点击率,i为所述当前音视频排序位置,click_bias(i)为所述当前音视频排序位置处的点击偏置值。
9.根据权利要求6所述的装置,其特征在于,还包括点击偏置值获取模块,所述点击偏置值获取模块包括:
排序随机打乱单元,随机打乱搜索引擎返回结果的排序;
位置点击率统计单元,统计当前音视频排序位置处的位置点击率;
点击偏置值计算单元,根据所述当前音视频排序位置处的位置点击率计算所述当前音视频排序位置处的点击偏置值。
10.根据权利要求9所述的装置,其特征在于,所述点击偏置值计算单元根据以下公式计算所述当前音视频排序位置处的点击偏置值:
click_bias(i)=α×pos_ctr_bias(i)
其中,i为所述当前音视频排序位置,α为经验偏置系数,pos_ctr_bias(i)为所述当前音视频排序位置处的位置点击率,所述当前音视频排序位置处的位置点击率为所述当前音视频排序位置处的音视频在所述查询词下的点击数与所述查询词在所述预设时间内的搜索次数的比值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377910.6A CN104994424B (zh) | 2015-06-30 | 2015-06-30 | 一种构建音视频标准数据集的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377910.6A CN104994424B (zh) | 2015-06-30 | 2015-06-30 | 一种构建音视频标准数据集的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104994424A CN104994424A (zh) | 2015-10-21 |
CN104994424B true CN104994424B (zh) | 2018-03-20 |
Family
ID=54306162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510377910.6A Active CN104994424B (zh) | 2015-06-30 | 2015-06-30 | 一种构建音视频标准数据集的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104994424B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447087B (zh) * | 2015-11-06 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种视频推荐方法及装置 |
WO2017128362A1 (zh) * | 2016-01-30 | 2017-08-03 | 深圳市博信诺达经贸咨询有限公司 | 基于大数据的搜索方法及系统 |
US10636075B2 (en) * | 2016-03-09 | 2020-04-28 | Ebay Inc. | Methods and apparatus for querying a database for tail queries |
CN107577707B (zh) * | 2017-07-31 | 2021-06-18 | 北京奇艺世纪科技有限公司 | 一种目标数据集生成方法、装置及电子设备 |
CN108460085A (zh) * | 2018-01-19 | 2018-08-28 | 北京奇艺世纪科技有限公司 | 一种基于用户日志的视频搜索排序训练集构建方法及装置 |
CN109885726B (zh) * | 2019-02-28 | 2021-11-26 | 北京奇艺世纪科技有限公司 | 一种生成视频元信息的方法和装置 |
CN110674400B (zh) * | 2019-09-18 | 2022-05-10 | 北京字节跳动网络技术有限公司 | 排序方法、装置、电子设备及计算机可读存储介质 |
CN111191620B (zh) * | 2020-01-03 | 2022-03-22 | 西安电子科技大学 | 一种人-物交互检测数据集的构建方法 |
CN113204667B (zh) * | 2021-04-13 | 2024-03-22 | 北京百度网讯科技有限公司 | 音频标注模型的训练与音频标注的方法、装置 |
CN113688280B (zh) * | 2021-07-19 | 2024-04-05 | 广州荔支网络技术有限公司 | 一种排序方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682132A (zh) * | 2012-05-18 | 2012-09-19 | 合一网络技术(北京)有限公司 | 一种基于词频、播放量和创建时间检索信息的方法及系统 |
CN101719167B (zh) * | 2010-01-15 | 2012-12-26 | 北京暴风科技股份有限公司 | 一种可互动的影视搜索方法 |
CN103383685A (zh) * | 2012-05-02 | 2013-11-06 | 腾讯科技(深圳)有限公司 | 一种基于用户点击数据的关键词属性量化方法及装置 |
CN103970796A (zh) * | 2013-02-04 | 2014-08-06 | 深圳市世纪光速信息技术有限公司 | 查询偏好排序方法和装置 |
-
2015
- 2015-06-30 CN CN201510377910.6A patent/CN104994424B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719167B (zh) * | 2010-01-15 | 2012-12-26 | 北京暴风科技股份有限公司 | 一种可互动的影视搜索方法 |
CN103383685A (zh) * | 2012-05-02 | 2013-11-06 | 腾讯科技(深圳)有限公司 | 一种基于用户点击数据的关键词属性量化方法及装置 |
CN102682132A (zh) * | 2012-05-18 | 2012-09-19 | 合一网络技术(北京)有限公司 | 一种基于词频、播放量和创建时间检索信息的方法及系统 |
CN103970796A (zh) * | 2013-02-04 | 2014-08-06 | 深圳市世纪光速信息技术有限公司 | 查询偏好排序方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104994424A (zh) | 2015-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104994424B (zh) | 一种构建音视频标准数据集的方法和装置 | |
CN106021364B (zh) | 图片搜索相关性预测模型的建立、图片搜索方法和装置 | |
CN102364473B (zh) | 融合地理信息与视觉信息的网络新闻检索系统及方法 | |
TWI591556B (zh) | Search engine results sorting method and system | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
US9009146B1 (en) | Ranking search results based on similar queries | |
US11514242B2 (en) | Method for automatically summarizing internet web page and text information | |
CN103870505B (zh) | 一种查询词推荐方法和查询词推荐系统 | |
CN107944035B (zh) | 一种融合视觉特征和用户评分的图像推荐方法 | |
CN110532351B (zh) | 推荐词展示方法、装置、设备及计算机可读存储介质 | |
CN105975596A (zh) | 一种搜索引擎查询扩展的方法及系统 | |
CN106372249A (zh) | 一种点击率预估方法、装置及电子设备 | |
US20110191336A1 (en) | Contextual image search | |
CN104021140B (zh) | 一种网络视频的处理方法及装置 | |
CN111061954B (zh) | 搜索结果排序方法、装置及存储介质 | |
CN104268142B (zh) | 基于可拒绝策略的元搜索结果排序方法 | |
EP3035210A1 (en) | Method and device for obtaining web page category standards, and method and device for categorizing web page categories | |
CN105069086A (zh) | 一种优化电子商务商品搜索的方法及系统 | |
CN104636407B (zh) | 参数取值训练及搜索请求处理方法和装置 | |
EP3358473A1 (en) | Resource combination processing method, apparatus, equipment and computer storage medium | |
CN103279504A (zh) | 一种基于歧义消解的搜索方法及装置 | |
CN102637179B (zh) | 词项加权函数确定及基于该函数进行搜索的方法及装置 | |
US20190065611A1 (en) | Search method and apparatus | |
CN106777282A (zh) | 相关搜索的排序方法和装置 | |
CN105574199A (zh) | 搜索引擎的虚假搜索行为的识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |