CN107193893A - 处理视频资源的方法及装置 - Google Patents

处理视频资源的方法及装置 Download PDF

Info

Publication number
CN107193893A
CN107193893A CN201710304612.3A CN201710304612A CN107193893A CN 107193893 A CN107193893 A CN 107193893A CN 201710304612 A CN201710304612 A CN 201710304612A CN 107193893 A CN107193893 A CN 107193893A
Authority
CN
China
Prior art keywords
video resource
similarity
title
video
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710304612.3A
Other languages
English (en)
Inventor
隋雪芹
徐钊
于芝涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Poly Polytron Technologies Inc
Juhaokan Technology Co Ltd
Original Assignee
Poly Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Poly Polytron Technologies Inc filed Critical Poly Polytron Technologies Inc
Priority to CN201710304612.3A priority Critical patent/CN107193893A/zh
Publication of CN107193893A publication Critical patent/CN107193893A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开揭示了一种处理视频资源的方法及装置。所述方法包括:视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据视频资源名称确定视频资源两两之间的名称相似度;融合名称相似度和页面相似度,获得视频资源两两之间的相似度;根据相似度识别两两视频资源是否匹配。由上述方法可知,通过视频资源两两之间确定所在网页页面之间的页面相似度,并根据视频资源名称确定视频资源两两之间的名称相似度后,融合名称相似度和页面相似度,获得视频资源两两之间的相似度,根据相似度识别两两视频资源是否匹配,解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。

Description

处理视频资源的方法及装置
技术领域
本公开涉及互联网技术应用领域,特别涉及一种处理视频资源的方法及装置。
背景技术
在视频资源的处理过程中,大家基本在处理相同视频时都采用的视频资源名称相同,或者视频资源名称去掉国语,粤语等,使视频资源名称硬匹配相同,才认为视频资源为同一部视频。
在上述视频资源的处理方法可知,该视频资源的处理方法存在同一部视频有多个名字,如星际迷航2和星际迷航2:暗黑无界,导致视频资源之间无法匹配的问题。
发明内容
为了解决相关技术中存在的同一部视频有多个名字,导致视频资源之间无法匹配的问题,本公开提供了一种处理视频资源的方法及装置。
一种处理视频资源的方法,所述方法包括:
视频资源两两之间确定所在网页页面之间的页面相似度;
提取所在网页页面中视频资源的名称标签,获得视频资源名称;
根据所述视频资源名称确定所述视频资源两两之间的名称相似度;
融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;
根据所述相似度识别所述两两视频资源是否匹配。
一种处理视频资源的装置,所述装置包括:
页面相似度确定模块,用于视频资源两两之间确定所在网页页面之间的页面相似度;
视频资源名称获取模块,用于提取所在网页页面中视频资源的名称标签,获得视频资源名称;
名称相似度获取模块,用于根据所述视频资源名称确定所述视频资源两两之间的名称相似度;
融合模块,用于融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;
识别模块,用于根据所述相似度识别所述两两视频资源是否匹配。
本公开的实施例提供的技术方案可以包括以下有益效果:
视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据视频资源名称确定视频资源两两之间的名称相似度;融合名称相似度和页面相似度,获得视频资源两两之间的相似度;根据相似度识别两两视频资源是否匹配。由上述方法可知,通过视频资源两两之间确定所在网页页面之间的页面相似度,并根据视频资源名称确定视频资源两两之间的名称相似度后,融合名称相似度和页面相似度,获得视频资源两两之间的相似度,根据相似度识别两两视频资源是否匹配,解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种处理视频资源的方法的流程图;
图2是图1对应实施例的视频资源两两之间确定所在网页页面之间的页面相似度在一个实施例的流程图;
图3是图1对应实施例的融合名称相似度和页面相似度,获得视频资源两两之间的相似度在一个实施例的流程图;
图4是图1对应实施例的根据相似度识别两两视频资源是否匹配在一个实施例的流程图;
图5是根据一示例性实施例示出的一种处理视频资源的装置框图;
图6是图5对应实施例的页面相似度确定模块在一个实施例的框图;
图7是图5对应实施例的融合模块在一个实施例的框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种处理视频资源的方法的流程图。如图1所示,该处理视频资源的方法可以包括以下步骤。
在步骤110中,视频资源两两之间确定所在网页页面之间的页面相似度。
其中,视频资源所在网页页面为包含着视频资源信息的网页页面。在一个示例性实施例中,该视频资源信息可以包括视频资源的:名称,国家地区,导演,演员,语言和摘要等信息。
确定所在网页页面之间的页面相似度通过计算出视频资源所在网页页面的哈希字符串,并根据视频资源所在网页页面的哈希字符串,确定视频资源所在网页页面之间的页面相似度。
在步骤130中,提取所在网页页面中视频资源的名称标签,获得视频资源名称。
其中,视频资源所在的网页页面中包含着视频资源信息,视频资源信息中包含该视频资源的名称。从视频资源所在网页页面中,提取存储的视频资源信息,从视频资源信息中,提取视频资源的名称标签,从而根据视频资源的名称标签,获得视频资源名称。
在步骤150中,根据视频资源名称确定视频资源两两之间的名称相似度。
在一个示例性实施例中,可采用编辑距离的方式,计算视频资源两两之间的名称相似度。
首先定义这样一个函数——edit(i,j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。其中i和j代表两个视频资源的视频资源名称转化成字符串形式的字符串长度。
if i=0且j=0,edit(i,j)=0
if i=0且j>0,edit(i,j)=j
if i>0且j=0,edit(i,j)=i
if i≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},
当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i,j)=1,否则,f(i,j)=0。
根据上述步骤得出数据矩阵,并根据该数据矩阵计算出两个视频间的编辑距离。根据编辑距离计算出两个视频资源的名称相似度,公式如下。
其中,sim2(A,B)为两个视频的名称相似度,editA,B为两个视频间的编辑距离。根据该公式确定视频资源两两之间的名称相似度。对于本发明,此方法仅供参考,实际实现方法并不局限于此。
在步骤170中,融合名称相似度和页面相似度,获得视频资源两两之间的相似度。
其中,融合名称相似度和页面相似度即通过计算获取的名称相似度和页面相似度,得到视频资源两两之间的相似度。该相似度用于表明视频资源之间是否相匹配。
在步骤190中,根据相似度识别两两视频资源是否匹配。
其中,通过比较预先配置的相似度阈值和获取的相似度,从而识别两两视频资源是否匹配,若两两视频匹配,则该两两视频资源为相同的视频,若两两视频资源不匹配,则该两两视频资源为不相同的视频。
此实施例解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。
图2是根据一示例性实施例示出的对步骤110的细节进行描述。如图2所示,该步骤110可包括以下步骤。
在步骤111中,分别计算视频资源所在网页页面的哈希字符串。
在一个示例性实施例中,将视频资源所在页面中包含的视频资源信息中的视频资源的名称,国家地区,导演,演员,语言和摘要等信息进行合并分词,通过Hash算法把每个词变成Hash值,并将该Hash值按照在视频资源所在网页页面的出现频率,形成加权字符串。将各个Hash值形成的加权字符串进行累加,得到一个序列串。将得到的序列串变成只含有0和1的字符串,即为得到的视频资源所在网页页面的哈希字符串。对于本发明,此方法仅供参考,实际实现方法并不局限于此。
在步骤113中,根据哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。
其中,得到视频资源所在网页页面的哈希字符串simHash(A)和simHash(B),并根据哈希字符串simHash(A)和simHash(B),来使视频资源两两之间确定所在网页页面之间的页面相似度。公式如下。
其中,sim1(A,B)即为视频资源两两之间确定的所在网页页面之间的页面相似度。
此实施例实现了视频资源两两之间确定所在网页页面之间的页面相似度。
图3是根据一示例性实施例示出的对步骤170的细节进行描述。如图3所示,该步骤170可包括以下步骤。
在步骤171中,获取预先配置的相似度权重。
其中,预先配置的相似度权重用于表示在相似度计算中名称相似度或页面相似度所占的权重比例。获取预先配置的相似度权重,从而根据相似度权重,计算视频资源两两之间的相似度。
在步骤173中,根据相似度权重,融合名称相似度和页面相似度,获得视频资源两两之间的相似度。
其中,融合名称相似度和页面相似度,获得视频资源两两之间的相似度的公式如下。
其中,sim(A,B)为视频资源两两之间的相似度,sim1(A,B)为页面相似度,sim2(A,B)为名称相似度,为代表页面相似度的相似度权重。
此实施例实现了融合名称相似度和页面相似度,获得视频资源两两之间的相似度的步骤。
图4是根据一示例性实施例示出的对步骤190的细节进行描述。如图4所示,该步骤190可包括以下步骤。
在步骤191中,判断相似度是否大于预先配置的相似度阈值。
其中,相似度阈值为预先配置的表明视频资源两两之间是否匹配的数值。通过比较相似度和相似度阈值,来判断视频资源两两之间是否匹配。
在步骤193中,若相似度大于预先配置的相似度阈值,则识别两两视频资源匹配。
当视频资源两两之间的相似度大于预先配置的相似度阈值时,即代表视频资源两两之间相似度高,识别到该两两视频资源相匹配。
在步骤195中,若相似度不大于预先配置的相似度阈值,则识别两两视频资源不匹配。
当视频资源两两之间的相似度不大于预先配置的相似度阈值时,即代表视频资源两两之间相似度不高,识别到该两两视频资源不匹配。
此实施例实现了识别两两视频资源是否匹配。
在一个示例性实施例中,在根据相似度识别两两视频资源是否匹配步骤之后,该处理视频资源的方法还包括。
在根据相似度识别两两视频资源匹配之后,两两合并视频资源。
其中,当根据相似度识别两两视频资源匹配之后,即该两两视频资源相同,此时合并该视频资源。
在一个示例性实施例的具体实现中,在实现推荐视频资源时,将匹配的视频资源合并的视频资源推荐给用户,从而避免向用户推荐重复的视频资源。
此实施例实现了两两合并匹配的视频资源。
图5是根据一示例性实施例示出的一种处理视频资源的装置框图。该装置执行图1任一所示的处理视频资源的方法的全部或者部分步骤。如图5所示,该装置包括但不限于:页面相似度确定模块210,视频资源名称获取模块230,名称相似度获取模块250,融合模块270和识别模块290。
页面相似度确定模块210用于视频资源两两之间确定所在网页页面之间的页面相似度。
视频资源名称获取模块230用于提取所在网页页面中视频资源的名称标签,获得视频资源名称。
名称相似度获取模块250用于根据视频资源名称确定视频资源两两之间的名称相似度。
融合模块270用于融合名称相似度和页面相似度,获得视频资源两两之间的相似度。
识别模块290用于根据相似度识别两两视频资源是否匹配。
图6是图5对应实施例的页面相似度确定模块在一个实施例的框图。如图6所示,页面相似度确定模块210包括但不限于:计算单元211和确定单元213。
计算单元211用于分别计算视频资源所在网页页面的哈希字符串。
确定单元213用于根据哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。
图7是图5对应实施例的融合模块在一个实施例的框图。如图7所示,该融合模块270包括但不限于:权重获取单元271和相似度计算单元273。
权重获取单元271用于获取预先配置的相似度权重。
相似度计算单元273用于根据相似度权重,融合名称相似度和所述页面相似度,获得视频资源两两之间的相似度。
在一个示例性实施例中,图5对应实施例的识别模块290包括但不限于:判断单元。
判断单元,用于判断相似度是否大于预先配置的相似度阈值,若为是,则两两视频资源匹配,若为否,则
两两视频资源不匹配。
在一个示例性实施例中,该处理视频资源的装置还可以包括但不限于:合并模块。
合并模块,用于在根据相似度识别两两视频资源匹配之后,两两合并视频资源。
上述装置中各个模块的功能和作用的实现过程详见上述处理视频资源的方法中对应步骤的实现过程,在此不再赘述。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种处理视频资源的方法,其特征在于,所述方法包括:
视频资源两两之间确定所在网页页面之间的页面相似度;
提取所在网页页面中视频资源的名称标签,获得视频资源名称;
根据所述视频资源名称确定所述视频资源两两之间的名称相似度;
融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;
根据所述相似度识别所述两两视频资源是否匹配。
2.根据权利要求1所述的方法,其特征在于,所述视频资源两两之间确定所在网页页面之间的页面相似度步骤包括:
分别计算所述视频资源所在网页页面的哈希字符串;
根据所述哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。
3.根据权利要求1所述的方法,其特征在于,所述融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度步骤包括:
获取预先配置的相似度权重;
根据所述相似度权重,融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述相似度识别所述两两视频资源是否匹配步骤包括:
判断所述相似度是否大于预先配置的相似度阈值,若为是,则识别所述两两视频资源匹配,若为否,则
识别所述两两视频资源不匹配。
5.根据权利要求1所述的方法,其特征在于,所述根据所述相似度识别所述两两视频资源是否匹配之后,所述方法还包括:
在根据所述相似度识别所述两两视频资源匹配之后,两两合并所述视频资源。
6.一种处理视频资源的装置,其特征在于,所述装置包括:
页面相似度确定模块,用于视频资源两两之间确定所在网页页面之间的页面相似度;
视频资源名称获取模块,用于提取所在网页页面中视频资源的名称标签,获得视频资源名称;
名称相似度获取模块,用于根据所述视频资源名称确定所述视频资源两两之间的名称相似度;
融合模块,用于融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;
识别模块,用于根据所述相似度识别所述两两视频资源是否匹配。
7.根据权利要求6所述的装置,其特征在于,所述页面相似度确定模块包括:
计算单元,用于分别计算所述视频资源所在网页页面的哈希字符串;
确定单元,用于根据所述哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。
8.根据权利要求6所述的装置,其特征在于,所述融合模块包括:
权重获取单元,用于获取预先配置的相似度权重;
相似度计算单元,用于根据所述相似度权重,融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度。
9.根据权利要求6所述的装置,其特征在于,所述识别模块包括:
判断单元,用于判断所述相似度是否大于预先配置的相似度阈值,若为是,则识别所述两两视频资源匹配,若为否,则
识别所述两两视频资源不匹配。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
合并模块,用于在根据所述相似度识别所述两两视频资源匹配之后,两两合并所述视频资源。
CN201710304612.3A 2017-05-03 2017-05-03 处理视频资源的方法及装置 Pending CN107193893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710304612.3A CN107193893A (zh) 2017-05-03 2017-05-03 处理视频资源的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710304612.3A CN107193893A (zh) 2017-05-03 2017-05-03 处理视频资源的方法及装置

Publications (1)

Publication Number Publication Date
CN107193893A true CN107193893A (zh) 2017-09-22

Family

ID=59873477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710304612.3A Pending CN107193893A (zh) 2017-05-03 2017-05-03 处理视频资源的方法及装置

Country Status (1)

Country Link
CN (1) CN107193893A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932819A (zh) * 2006-09-25 2007-03-21 北京搜狗科技发展有限公司 一种互联网音频文件的聚类方法、搜索方法及系统
CN104199896A (zh) * 2014-08-26 2014-12-10 海信集团有限公司 基于特征分类的视频相似度确定及视频推荐方法
CN104216925A (zh) * 2013-06-05 2014-12-17 中国科学院声学研究所 一种视频内容去重的处理方法
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932819A (zh) * 2006-09-25 2007-03-21 北京搜狗科技发展有限公司 一种互联网音频文件的聚类方法、搜索方法及系统
CN104216925A (zh) * 2013-06-05 2014-12-17 中国科学院声学研究所 一种视频内容去重的处理方法
CN104199896A (zh) * 2014-08-26 2014-12-10 海信集团有限公司 基于特征分类的视频相似度确定及视频推荐方法
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置

Similar Documents

Publication Publication Date Title
CN110175325B (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN110348214B (zh) 对恶意代码检测的方法及系统
CN104182770B (zh) 用于一个或多个图像处理算法的自动选择的方法和系统
CN106383875B (zh) 基于人工智能的人机交互方法和装置
CN108764226A (zh) 图像文本识别方法、装置、设备及其存储介质
CN111259215A (zh) 基于多模态的主题分类方法、装置、设备、以及存储介质
CN109961068A (zh) 图像识别、训练、搜索方法和装置及设备、介质
SG194442A1 (en) In-video product annotation with web information mining
WO2007059033A1 (en) Method and apparatus for identifying data of interest in a database
CN112182166A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN109598265B (zh) 一种文字识别方法、系统、设备、计算机可读存储介质
McCool et al. Session variability modelling for face authentication
CN109213862B (zh) 物体识别方法和装置、计算机可读存储介质
CN114245203B (zh) 基于剧本的视频剪辑方法、装置、设备及介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN109033427B (zh) 股票的筛选方法及装置、计算机设备及可读存储介质
CN107102993A (zh) 一种用户诉求分析方法和装置
CN110909224A (zh) 一种基于人工智能的敏感数据自动分类识别方法及系统
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
US11537636B2 (en) System and method for using multimedia content as search queries
CN108717436B (zh) 一种基于显著性检测的商品目标快速检索方法
CN111026910A (zh) 视频推荐方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922

RJ01 Rejection of invention patent application after publication