CN112714033B - 视频集的特征信息确定方法及装置 - Google Patents

视频集的特征信息确定方法及装置 Download PDF

Info

Publication number
CN112714033B
CN112714033B CN201911026083.0A CN201911026083A CN112714033B CN 112714033 B CN112714033 B CN 112714033B CN 201911026083 A CN201911026083 A CN 201911026083A CN 112714033 B CN112714033 B CN 112714033B
Authority
CN
China
Prior art keywords
video
sub
query
uri
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911026083.0A
Other languages
English (en)
Other versions
CN112714033A (zh
Inventor
郑辉
唐蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Hebei Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Hebei Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Hebei Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911026083.0A priority Critical patent/CN112714033B/zh
Publication of CN112714033A publication Critical patent/CN112714033A/zh
Application granted granted Critical
Publication of CN112714033B publication Critical patent/CN112714033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频集的特征信息确定方法及装置。方法包括:从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;针对于任一URI,对该URI进行分割,以获得该URI中的查询参数字段;获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;将与该子视频的相似系数最高的查询值确定为该子视频的特征码。采用本方案,能够实现对视频业务的细粒度识别,具有较高的识别精度,有利于后续对用户视频浏览行为的细粒度统计分析;并且,本方案依赖于视频浏览数据中的URI信息,从而适于大范围的应用场景中,便于大规模应用与实施。

Description

视频集的特征信息确定方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种视频集的特征信息确定方法及装置。
背景技术
随着科技及社会的不断发展,各类视频业务的出现极大地丰富了人们的生活。与此同时,各网络运营商为了便于统计用户浏览视频所消耗的时间、流量等数据,通常需对用户浏览的视频进行识别。
现有技术中,网络运营商在对用户浏览的视频进行识别过程中,通常采用两种识别方式:其一为,基于DPI(Deep Packet Inspection,基于数据包的深度检测)的大小类业务识别,即通过DPI硬件对IP包载荷信息进行准实时读取并识别,并在短时间内对用户访问视频资源的记录配置相应的业务标签;其二为,基于域名-ICP资源库匹配识别的方式,即构建域名与ICP的对应关系资源表,从而根据域名与ICP的对应关系资源表对视频业务进行识别。
然而,发明人在实施过程中发现,现有技术中存在如下缺陷:现有技术中采用基于DPI的大小类业务识别,仅仅能够确定出视频业务的流量大小;而基于域名-ICP资源库匹配识别的方式仅能确定出视频业务的ICP信息,从而,采用现有技术中的视频识别方式仅能粗略地对视频业务进行识别,识别精度低,从而不利于对视频业务的消耗时间、流量等信息的精准统计;并且,现有技术中的视频识别方式依赖于ICP等信息的积累,无法适用于广泛的业务场景中。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频集的特征信息确定方法及装置。
根据本发明的一个方面,提供了一种视频集的特征信息确定方法,包括:
从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;
针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值;
获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;
将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
可选的,在所述计算该子视频名称与至少一个查询值的相似系数之前,所述方法还包括:
针对于任一URI,生成与该URI相对应的至少一个样本集合;其中,任一样本集合中,包含有该样本集合所对应的子视频名称,该样本集合所对应的URI,该样本集合所对应的URI中的域名、该样本集合所对应的URI中的一对查询关键字及查询值。
可选的,在所述生成与该URI相对应的至少一个样本集合之后,所述计算该子视频名称与至少一个查询值的相似系数之前,所述方法还包括:对生成的样本集合进行过滤处理;
所述针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数进一步包括:
针对于过滤处理后的样本集合,计算任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。
可选的,所述对生成的样本集合进行过滤处理进一步包括:
利用私有词典过滤器,对生成的样本集合进行过滤处理;其中,所述私有词典过滤器中包含过滤词典;所述过滤词典中包含有至少一个过滤词;
和/或,利用控制变量过滤器,对生成的样本集合进行过滤处理,以使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同。
可选的,在所述针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数之后,所述方法还包括:
根据相似系数计算结果,更新所述过滤词典。
可选的,所述相似系数为Jaccard相似系数。
可选的,所述将与该子视频的相似系数最高的查询值确定为该子视频的特征码之后,所述方法还包括:
将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
根据本发明的另一方面,提供了一种视频集的特征信息确定装置,包括:
URI提取模块,适于从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;
URI分割模块,适于针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值;
相似系数确定模块,适于获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;
特征码定位模块,适于将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
可选的,所述装置还包括:样本集合生成模块,适于在所述计算该子视频名称与至少一个查询值的相似系数之前,针对于任一URI,生成与该URI相对应的至少一个样本集合;其中,任一样本集合中,包含有该样本集合所对应的子视频名称,该样本集合所对应的URI,该样本集合所对应的URI中的域名、该样本集合所对应的URI中的一对查询关键字及查询值。
可选的,所述装置还包括:过滤模块,适于在所述生成与该URI相对应的至少一个样本集合之后,所述计算该子视频名称与至少一个查询值的相似系数之前,所述方法还包括:对生成的样本集合进行过滤处理;
所述相似系数确定模块进一步适于:针对于过滤处理后的样本集合,计算任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。
可选的,所述过滤模块进一步适于:
利用私有词典过滤器,对生成的样本集合进行过滤处理;其中,所述私有词典过滤器中包含过滤词典;所述过滤词典中包含有至少一个过滤词;
和/或,利用控制变量过滤器,对生成的样本集合进行过滤处理,以使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同。
可选的,所述装置还包括:更新模块,适于在所述针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数之后,根据相似系数计算结果,更新所述过滤词典。
可选的,所述相似系数为Jaccard相似系数。
可选的,装置还包括:特征关键字确定模块,适于所述将与该子视频的相似系数最高的查询值确定为该子视频的特征码之后,将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述视频集的特征信息确定方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述视频集的特征信息确定方法对应的操作。
根据本发明提供的视频集的特征信息确定方法及装置,从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;针对于任一URI,对该URI进行分割,以获得该URI中的查询参数字段;获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;将与该子视频的相似系数最高的查询值确定为该子视频的特征码。本方案中,通过对URI数据的分析,能够准确提取出URI所对应的查询关键字及查询值,进而通过计算子视频名称与查询值的相似系数,来最终确定出视频集中各个子视频所对应的特征码,从而实现对视频业务的细粒度识别,有利于后续对用户视频流量行为的细粒度统计;并且,本方案依赖于视频浏览数据中均存在的URI信息,从而适于大范围的应用场景中,便于大规模应用与实施。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例一提供的一种视频集的特征信息确定方法的流程示意图;
图2示出了根据本发明实施例二提供的一种视频集的特征信息确定方法的流程示意图;
图3示出了根据本发明实施例三提供的一种视频集的特征信息确定装置的结构示意图;
图4示出了根据本发明实施例五提供的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
图1示出了根据本发明实施例一提供的一种视频集的特征信息确定方法的流程示意图。其中,本实施例所提供的视频集的特征信息确定方法能够应用于需对视频业务进行识别的场景中。其中,本方案能够应用于多种计算设备中,本实施例对计算设备的具体类型等不作限定。例如,该计算设备可以为具有计算能力的移动终端(如平板电脑、手机、便携设备等);也可以应用于服务端(如各类计算服务器中)等等。
如图1所示,该方法包括:
步骤S110,从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频。
本实施例中,预先获取有针对于视频集的浏览数据。其中,任一个视频集中包含有至少一个子视频。例如,该视频集可以为电视剧,则电视剧中的各集视频即为该视频集中的子视频;又或者,该视频集可以为综艺节目,则该综艺节目中各期视频即为该视频集中的子视频,总之,本实施例对视频集的具体内容等不作限定。
可选的,为了能够快速准确地获得针对于视频集的浏览数据,本实施例中可基于DPI探针报文解析及话单的合成功能,采用相应的获取工具来获得浏览视频集时所产生的报文数据。
进一步地,可采用相应的提取方式,从针对于视频集的浏览数据中提取出至少一条URI(Universal Resource Identifier,统一资源标志符)。在具体的实施过程中,可从浏览视频集时所产生的报文数据中提取出相应的URI。URI为一个用于标识某一互联网资源名称的字符串,该字符串中包含有多种信息,如协议信息、域名信息、路径信息、查询参数信息等等,则本实施例中对视频业务的识别便建立在该获得的URI数据上,从而进一步地提升了本方案的适用范围。
步骤S120,针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值。
待步骤S110提取出URI数据之后,本步骤对URI数据进行进一步地处理。
首先,针对于任一URI,对该URI进行分割处理。由上述步骤S110中描述可知,一条URI中通常包含多类信息,则本步骤可针对于任一URI对其进行分割,以获得URI的至少一类信息。
可选的,本实施例具体是基于URI的格式特征对URI进行分割:一条URI的格式通常为[scheme:][//authority][path][?query][#fragment],例如,URI格式为:协议://域名/目录a/目录b/文件c?查询参数d&查询参数e#分片f。则可通过相应的特定符号(如‘:’、‘/’、‘.’、‘-’、‘?’、‘&’等符号)对URI进行分割。
进一步地,基于对URI的分割结果,可提取出该URI中的至少一个查询参数字段。其中,任一查询参数字段中包含有一个查询关键字(即query参数中的key),以及与该查询关键字相对应的查询值(即query参数中的key对应的value)。其中,该查询关键字可以为与视频业务相关的信息,如视频长度、视频清晰度、及视频平台等等。
可选的,还可进一步地基于对URI的分割结果,提取该URI中包含的域名信息。
步骤S130,获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数。
为实现对视频业务的细粒度识别,本步骤中进一步获取有任一视频集中至少一个子视频的子视频名称。例如,针对于视频集“电视剧三国演义”,获取“电视剧三国演义”中各集视频的视频名称(如“三国演义第一集”、“三国演义第二集”…)。
进一步地,针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数,以获得该子视频与各个查询值的相关程度。其中,子视频名称与查询值得相似系数越高,则表明该子视频与该查询值的相关程序越高;反之,子视频名称与查询值得相似系数越低,则表明该子视频与该查询值的相关程序越低。
步骤S140,将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
基于步骤S130中子视频名称与查询值的相似系数的计算结果,确定出与各个子视频最相关的查询值。即针对于任一子视频,将与该子视频名称的相似系数最高的查询值确定为该子视频的特征码。即本实施例中,每个子视频均对应有与其相关程度最高的特征码,并且,该子视频与对应的特征码为一一对应关系,从而在后续对用户的视频业务统计分析过程中,能够通过特征码快速准确地确定出用户浏览的子视频。
由此可见,本实施例通过对URI数据的分析,能够准确提取出URI所对应的查询关键字及查询值,进而通过计算子视频名称与查询值的相似系数,来最终确定出视频集中各个子视频所对应的特征码,从而实现对视频业务的细粒度识别,有利于后续对用户视频流量行为的细粒度统计,并提升后续的视频业务统计分析效率;并且,本方案依赖于视频浏览数据中均存在的URI信息,从而适于大范围的应用场景中,便于大规模应用与实施。
实施例二
图2示出了根据本发明实施例二提供的一种视频集的特征信息确定方法的流程示意图。其中,本实施例所提供的视频集的特征信息确定方法能够应用于需对视频业务进行识别的场景中。其中,本方案能够应用于多种计算设备中,本实施例对计算设备的具体类型等不作限定。例如,该计算设备可以为具有计算能力的移动终端(如平板电脑、手机、便携设备等);也可以应用于服务端(如各类计算服务器中)等等。本实施例所提供的视频集的特征信息确定方法是针对于实施例一种方法的进一步优化。
如图2所示,该方法包括:
步骤S210,从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频。
其中,本步骤的具体实施过程可参照步骤S110中相应部分的描述,本步骤在此不做赘述。
步骤S220,针对于任一URI,对该URI进行分割处理,并生成与该URI相对应的至少一个样本集合。
其中,在对该URI进行分割处理之前,为进一步节省计算资源,提升处理效率,本实施例中可预先对提取出至少一条URI进行初步的筛选,以过滤掉不包含查询字段的URI。
针对于筛选后的任一URI,可基于URI的格式特征,对该URI进行分割处理,以获得该URI中的域名信息及查询参数字段。其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值。例如,对10条URI(URI_1至URI_10)进行分割处理后获得的处理结果如表1中所示,即针对于URI_1,其对应的域名为host_1,其包含查询关键字key_1、key_2及key_3,key_1、key_2及key_3分别对应的查询值为value_1、value_2及value_3。
表1
Figure BDA0002248652270000091
进一步地,获取该视频集中至少一个子视频的子视频名称,结合对URI的分割处理结果,生成至少一个样本集合。在具体的实施过程中,针对于任一URI,根据该URI所对应的子视频名称,生成与该URI相对应的至少一个样本集合。其中,任一样本集合中,包含有该样本集合所对应的子视频名称,该样本集合所对应的URI,该样本集合所对应的URI中的域名、该样本集合所对应的URI中的一对查询关键字及查询值。
举例来说,生成的样本集合中包含五个维度数据,该五个维度数据分别为,子视频名称,URI,域名、查询关键字及查询关键字对应的查询值。即一个样本集合可以表示为<ti,hk,um,kj,vl>,其中,ti为该样本集合所对应的子视频名称,hk为该样本集合所对应的URI中的域名,um为该样本集合所对应的URI,kj为该样本集合所对应的URI中的一个查询关键字,vl为该样本集合所对应的URI中kj对应的查询值。所有子视频名称的全域为T={t1,…ti,…};所有域名的全域为H={h1,…hk,…};所有URI组成的集合为U={u1,…um,…};所有的查询关键字全域表示为K={k1,…,kj,…},所有的查询值全域表示为V={v1,…,vl,…}。
从中可看出,一个URI可对应于至少一个样本集合,而一个URI对应的样本集合的数目与该URI中查询关键字的数目有关。如针对于表1中的URI_1,若URI_1对应的子视频名称为视频剧集A,则该URI_1对应的样本集合可以包括:样本集合1<视频剧集A,host_1,URI_1,key_1,value_1>、样本集合2<视频剧集A,host_1,URI_1,key_2,value_2>、样本集合3<视频剧集A,host_1,URI_1,key_3,value_3>。
步骤S230,对生成的样本集合进行过滤处理。
为了便于后续快速准确地确定出子视频的特征信息,减少后续的数据处理量,提升本方法的整体实施效率。本实施例中对生成的样本集合进行过滤处理。其中,对样本集合的过滤处理方式可采用以下两种方式中的一种或多种的结合。
过滤方式一,利用私有词典过滤器,对生成的样本集合进行过滤处理。具体地,该私有词典过滤器中通常包含有相应的过滤词典,该过滤词典中包含有至少一个过滤词,该过滤词与子视频名称关联度较低。例如,该过滤词可以为关于查询关键字的过滤词,如“qd_index”、“qd_vipdyn”,也可以为关于查询值的过滤词,如“CMNET-HeBei”、“iqiyi.com”、“baiducdn_cmnet”。其中,本实施例中的过滤词典能够动态更新,例如,可根据后续相似系数计算结果,更新该过滤词典,如将与子视频的相似系数较低的查询值,或该查询值对应的查询关键字添加至该过滤词典中。
过滤方式二,利用控制变量过滤器,对生成的样本集合进行过滤处理,以使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同。在具体的实施过程中,可首先针对于同一视频集的样本集合,以域名为分组标准,对该样本集合进行分组,每个分组中的域名相同。针对于任一分组,统计不同的子视频名称中,任一子视频名称所对应的各个查询值的比例,筛选出与该子视频名称对应的查询值比例较高(超出预设阈值)的样本集合;进一步地,在筛选出的集合中,控制查询关键字相同,若不同的子视频名称对应的查询值中至少两个查询值相同,则剔除包含该查询关键字的集合,从而使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同,以使得针对于同一关键字,不同的查询值对应于不同的子视频名称,进一步保障子视频与查询值的一一对应关系。
步骤S240,针对于过滤处理后的样本集合,计算任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。
通过步骤S230的过滤处理,后续进行相似系数计算的样本集合数目大幅降低,从而节约计算资源,提升整体的处理效率。
在具体的实施过程中,针对于过滤处理后的样本集合,可计算样本集合所包含的任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。其中,该相似系数具体为Jaccard相似系数。其中,子视频与查询值相关度越高,其对应的Jaccard相似系数越接近于1;反之,子视频与查询值相关度越低,其对应的Jaccard相似系数越接近于0。
具体地,在计算一个子视频名称与一个查询值的相似系数时,可通过子视频名称与该查询值的联合概率、该子视频名称的全局概率、该查询值的全局概率进行计算,即根据如下公式2-1计算子视频名称ti与查询值vl的相似系数:
Figure BDA0002248652270000111
其中,Jaccard_cof(ti,vl)为子视频名称ti与查询值vl的相似系数;P(ti,vl)为子视频名称ti与查询值vl的联合概率;P(ti)为子视频名称ti的全局概率;P(vl)为查询值vl的全局概率。
进一步地,P(ti,vl)表示在过滤处理后的样本集合中,同时包含ti,vl的样本集合的数量,与全部的过滤处理后的样本集合的数量的比值;P(ti)表示在过滤处理后的样本集合中,包含ti的样本集合的数量,与全部的过滤处理后的样本集合的数量的比值;P(vl)表示在过滤处理后的样本集合中,包含vl的样本集合的数量,与全部的过滤处理后的样本集合的数量的比值。
步骤S250,将与该子视频的相似系数最高的查询值确定为该子视频的特征码;以及,将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
根据步骤S240的计算结果,将与该子视频的相似系数最高的查询值确定为该子视频的特征码;并进一步地,将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
在确定出子视频相对应的特征码及特征关键字之后,可对关于用户的视频业务进行快速准确的细粒度分析。例如,可通过特征关键字对用户浏览数据中的URI进行提取,根据特征关键字对应的的特征码能够准确快速地确定用户浏览的子视频名称,从而能够以子视频名称为维度,对用户视频业务进行精准的统计。例如,应用于某运营商中,可通过统一DPI探针采集到的报文,输送给采集服务器,合成话单数据,即用户上网记录(其包含用户访问资源域名信息和URI信息,上下行流量以及其他质量指标相关数据)。再将话单数据输送给hadoop大数据处理平台,利用MapReduce计算模型,过滤出用户访问视频资源的话单记录,并根据特征关键字提取视频资源话单记录中URI的视频资源特征码信息,以实现视频资源的深度识别等。
由此可见,本实施例通过对URI数据的分析,能够准确提取出URI所对应的查询关键字及查询值,进而通过计算子视频名称与查询值的相似系数,来最终确定出视频集中各个子视频所对应的特征码,从而实现对视频业务的细粒度识别,有利于后续对用户视频流量行为的细粒度统计,并提升后续的视频业务统计分析效率;并且,本方案依赖于视频浏览数据中均存在的URI信息,从而适于大范围的应用场景中,便于大规模应用与实施;并且,本实施例中通过对样本集合的过滤处理,能够进一步地降低数据处理量,提升整体处理效率。
实施例三
图3示出了根据本发明实施例三提供的一种视频集的特征信息确定装置的结构示意图。如图3所示,该装置包括:URI提取模块31、URI分割模块32、相似系数确定模块33、以及特征码定位模块34。
URI提取模块31,适于从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;
URI分割模块32,适于针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值;
相似系数确定模块33,适于获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;
特征码定位模块34,适于将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
可选的,所述装置还包括:样本集合生成模块(图中未示出),适于在所述计算该子视频名称与至少一个查询值的相似系数之前,针对于任一URI,生成与该URI相对应的至少一个样本集合;其中,任一样本集合中,包含有该样本集合所对应的子视频名称,该样本集合所对应的URI,该样本集合所对应的URI中的域名、该样本集合所对应的URI中的一对查询关键字及查询值。
可选的,所述装置还包括:过滤模块(图中未示出),适于在所述生成与该URI相对应的至少一个样本集合之后,所述计算该子视频名称与至少一个查询值的相似系数之前,所述方法还包括:对生成的样本集合进行过滤处理;
所述相似系数确定模块进一步适于:针对于过滤处理后的样本集合,计算任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。
可选的,所述过滤模块(图中未示出)进一步适于:
利用私有词典过滤器,对生成的样本集合进行过滤处理;其中,所述私有词典过滤器中包含过滤词典;所述过滤词典中包含有至少一个过滤词;
和/或,利用控制变量过滤器,对生成的样本集合进行过滤处理,以使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同。
可选的,所述装置还包括:更新模块(图中未示出),适于在所述针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数之后,根据相似系数计算结果,更新所述过滤词典。
可选的,所述相似系数为Jaccard相似系数。
可选的,装置还包括:特征关键字确定模块(图中未示出),适于所述将与该子视频的相似系数最高的查询值确定为该子视频的特征码之后,将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
其中,本实施例中各模块的具体实施过程可参照实施例一和/或实施例二中相应部分描述,本实施例在此不做赘述。
由此可见,本实施例通过对URI数据的分析,能够准确提取出URI所对应的查询关键字及查询值,进而通过计算子视频名称与查询值的相似系数,来最终确定出视频集中各个子视频所对应的特征码,从而实现对视频业务的细粒度识别,有利于后续对用户视频流量行为的细粒度统计,并提升后续的视频业务统计分析效率;并且,本方案依赖于视频浏览数据中均存在的URI信息,从而适于大范围的应用场景中,便于大规模应用与实施。
实施例四
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的视频集的特征信息确定方法。
可执行指令具体可以用于使得处理器执行以下操作:
从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;
针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值;
获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;
将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
针对于任一URI,生成与该URI相对应的至少一个样本集合;其中,任一样本集合中,包含有该样本集合所对应的子视频名称,该样本集合所对应的URI,该样本集合所对应的URI中的域名、该样本集合所对应的URI中的一对查询关键字及查询值。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
对生成的样本集合进行过滤处理;
针对于过滤处理后的样本集合,计算任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
利用私有词典过滤器,对生成的样本集合进行过滤处理;其中,所述私有词典过滤器中包含过滤词典;所述过滤词典中包含有至少一个过滤词;
和/或,利用控制变量过滤器,对生成的样本集合进行过滤处理,以使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
根据相似系数计算结果,更新所述过滤词典。
在一种可选的实施方式中,所述相似系数为Jaccard相似系数。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
由此可见,本实施例通过对URI数据的分析,能够准确提取出URI所对应的查询关键字及查询值,进而通过计算子视频名称与查询值的相似系数,来最终确定出视频集中各个子视频所对应的特征码,从而实现对视频业务的细粒度识别,有利于后续对用户视频流量行为的细粒度统计,并提升后续的视频业务统计分析效率;并且,本方案依赖于视频浏览数据中均存在的URI信息,从而适于大范围的应用场景中,便于大规模应用与实施。
实施例五
图4示出了根据本发明实施例五提供的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于视频集的特征信息确定方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;
针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值;
获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;
将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
针对于任一URI,生成与该URI相对应的至少一个样本集合;其中,任一样本集合中,包含有该样本集合所对应的子视频名称,该样本集合所对应的URI,该样本集合所对应的URI中的域名、该样本集合所对应的URI中的一对查询关键字及查询值。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
对生成的样本集合进行过滤处理;
针对于过滤处理后的样本集合,计算任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
利用私有词典过滤器,对生成的样本集合进行过滤处理;其中,所述私有词典过滤器中包含过滤词典;所述过滤词典中包含有至少一个过滤词;
和/或,利用控制变量过滤器,对生成的样本集合进行过滤处理,以使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
根据相似系数计算结果,更新所述过滤词典。
在一种可选的实施方式中,所述相似系数为Jaccard相似系数。
在一种可选的实施方式中,程序410具体可以用于使得处理器402执行以下操作:
将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
由此可见,本实施例通过对URI数据的分析,能够准确提取出URI所对应的查询关键字及查询值,进而通过计算子视频名称与查询值的相似系数,来最终确定出视频集中各个子视频所对应的特征码,从而实现对视频业务的细粒度识别,有利于后续对用户视频流量行为的细粒度统计,并提升后续的视频业务统计分析效率;并且,本方案依赖于视频浏览数据中均存在的URI信息,从而适于大范围的应用场景中,便于大规模应用与实施。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种视频集的特征信息确定方法,其特征在于,包括:
从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;
针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值;
获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;其中,相似系数=(子视频名称与查询值的联合概率)/(子视频名称的全局概率+查询值的全局概率-子视频名称与查询值的联合概率);将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
2.根据权利要求1所述的方法,其特征在于,在所述计算该子视频名称与至少一个查询值的相似系数之前,所述方法还包括:
针对于任一URI,生成与该URI相对应的至少一个样本集合;其中,任一样本集合中,包含有该样本集合所对应的子视频名称,该样本集合所对应的URI,该样本集合所对应的URI中的域名,以及,该样本集合所对应的URI中的一对查询关键字及查询值。
3.根据权利要求2所述的方法,其特征在于,在所述生成与该URI相对应的至少一个样本集合之后,所述计算该子视频名称与至少一个查询值的相似系数之前,所述方法还包括:对生成的样本集合进行过滤处理;
所述针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数进一步包括:
针对于过滤处理后的样本集合,计算任一子视频名称与过滤处理后的样本集合中包含的至少一个查询值的相似系数。
4.根据权利要求3所述的方法,其特征在于,所述对生成的样本集合进行过滤处理进一步包括:
利用私有词典过滤器,对生成的样本集合进行过滤处理;其中,所述私有词典过滤器中包含过滤词典;所述过滤词典中包含有至少一个过滤词;
和/或,利用控制变量过滤器,对生成的样本集合进行过滤处理,以使得过滤处理后的样本集合中,针对于同一查询关键字,不同的的子视频名称对应的查询值不同。
5.根据权利要求4所述的方法,其特征在于,在所述针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数之后,所述方法还包括:
根据相似系数计算结果,更新所述过滤词典。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述相似系数为Jaccard相似系数。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述将与该子视频的相似系数最高的查询值确定为该子视频的特征码之后,所述方法还包括:
将子视频的特征码所对应的查询关键字,确定为该子视频的特征关键字。
8.一种视频集的特征信息确定装置,其特征在于,包括:
URI提取模块,适于从针对于视频集的浏览数据中提取出至少一条URI;其中,任一视频集中包含有至少一个子视频;
URI分割模块,适于针对于任一URI,对该URI进行分割处理,以获得该URI中的查询参数字段;其中,任一查询参数字段包含有查询关键字以及与该查询关键字对应的查询值;其中,相似系数=(子视频名称与查询值的联合概率)/(子视频名称的全局概率+查询值的全局概率-子视频名称与查询值的联合概率);
相似系数确定模块,适于获取该视频集中至少一个子视频的子视频名称,并针对于任一子视频名称,计算该子视频名称与至少一个查询值的相似系数;
特征码定位模块,适于将与该子视频的相似系数最高的查询值确定为该子视频的特征码。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的视频集的特征信息确定方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的视频集的特征信息确定方法对应的操作。
CN201911026083.0A 2019-10-25 2019-10-25 视频集的特征信息确定方法及装置 Active CN112714033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911026083.0A CN112714033B (zh) 2019-10-25 2019-10-25 视频集的特征信息确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911026083.0A CN112714033B (zh) 2019-10-25 2019-10-25 视频集的特征信息确定方法及装置

Publications (2)

Publication Number Publication Date
CN112714033A CN112714033A (zh) 2021-04-27
CN112714033B true CN112714033B (zh) 2022-07-01

Family

ID=75540959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911026083.0A Active CN112714033B (zh) 2019-10-25 2019-10-25 视频集的特征信息确定方法及装置

Country Status (1)

Country Link
CN (1) CN112714033B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001053966A1 (en) * 2000-01-20 2001-07-26 Interactual Technologies, Inc. System, method, and article of manufacture for embedded keywords in video
CN103959795A (zh) * 2011-10-04 2014-07-30 谷歌公司 用于获得视频流的系统和方法
CN106407445A (zh) * 2016-09-29 2017-02-15 重庆邮电大学 一种基于url的非结构化数据资源标识和定位方法
CN107851114A (zh) * 2015-10-12 2018-03-27 谷歌有限责任公司 自动信息检索
CN108390788A (zh) * 2018-03-05 2018-08-10 北京奇艺世纪科技有限公司 用户识别方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001053966A1 (en) * 2000-01-20 2001-07-26 Interactual Technologies, Inc. System, method, and article of manufacture for embedded keywords in video
CN103959795A (zh) * 2011-10-04 2014-07-30 谷歌公司 用于获得视频流的系统和方法
CN107851114A (zh) * 2015-10-12 2018-03-27 谷歌有限责任公司 自动信息检索
CN106407445A (zh) * 2016-09-29 2017-02-15 重庆邮电大学 一种基于url的非结构化数据资源标识和定位方法
CN108390788A (zh) * 2018-03-05 2018-08-10 北京奇艺世纪科技有限公司 用户识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN112714033A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
JP6196316B2 (ja) ユーザ投稿に基づいたコンテンツの配信の調整
WO2017097231A1 (zh) 话题处理方法及装置
US11816172B2 (en) Data processing method, server, and computer storage medium
US8666985B2 (en) Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN106528894B (zh) 设置标签信息的方法及装置
WO2019169978A1 (zh) 资源推荐方法及装置
CN103248677B (zh) 互联网行为分析系统及其工作方法
US11423096B2 (en) Method and apparatus for outputting information
JP6932360B2 (ja) オブジェクト検索方法、装置およびサーバ
CN111368227B (zh) 一种url处理方法以及装置
CN111198806B (zh) 基于服务开放平台的服务调用数据统计分析方法及系统
CN112714033B (zh) 视频集的特征信息确定方法及装置
CN113779403A (zh) 书籍资讯的获取方法、展示方法、服务端以及用户终端
CN112532414B (zh) 确定isp归属的方法、装置、设备及计算机存储介质
CN110209853B (zh) 车辆的图片搜索方法、装置和设备
CN111970327A (zh) 一种基于大数据处理的新闻传播方法及系统
CN108009171B (zh) 一种提取内容数据的方法和装置
CN111104528A (zh) 图片获取方法、装置及客户端
KR101984773B1 (ko) 스파스 토픽들을 위한 분류자 리콜 추정
JP2005122683A (ja) 情報提供方法及びシステム及び情報提供プログラム
CN115757049B (zh) 多业务模块日志记录方法、系统、电子设备及存储介质
CN109241428B (zh) 用户性别的确定方法、装置、服务器及存储介质
CN109885739B (zh) 一种数据处理方法、系统及存储介质
CN108268552B (zh) 网站信息的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant