CN112395527B - 一种网页连接识别方法、装置及存储介质 - Google Patents

一种网页连接识别方法、装置及存储介质 Download PDF

Info

Publication number
CN112395527B
CN112395527B CN201910743292.0A CN201910743292A CN112395527B CN 112395527 B CN112395527 B CN 112395527B CN 201910743292 A CN201910743292 A CN 201910743292A CN 112395527 B CN112395527 B CN 112395527B
Authority
CN
China
Prior art keywords
information
multimedia
webpage
web page
connection interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910743292.0A
Other languages
English (en)
Other versions
CN112395527A (zh
Inventor
汪景福
吴晶晶
万明月
冯少伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Wuhan Co Ltd
Original Assignee
Tencent Technology Wuhan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Wuhan Co Ltd filed Critical Tencent Technology Wuhan Co Ltd
Priority to CN201910743292.0A priority Critical patent/CN112395527B/zh
Publication of CN112395527A publication Critical patent/CN112395527A/zh
Application granted granted Critical
Publication of CN112395527B publication Critical patent/CN112395527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种网页连接识别方法、装置及存储介质,应用于信息处理技术领域。网页连接识别装置会根据目标多媒体的信息及多媒体站点的信息,获取多媒体站点提供的基于目标多媒体的网页中,待识别的网页连接接口的结构布局信息,并提取结构布局信息的第一特征信息,最后再根据第一特征信息及预置的特征模型,对待识别的网页连接接口中用于展示目标多媒体的网页连接接口进行识别。这样通过网页连接接口的结构布局信息的第一特征信息与预置的特征模型,即可识别出特定网页中,用于展示目标多媒体的网页连接接口,实践证明,本发明实施例的识别方法的识别准确较高。

Description

一种网页连接识别方法、装置及存储介质
技术领域
本发明涉及信息处理技术领域,特别涉及一种网页连接识别方法、装置及存储介质。
背景技术
通常视频终端显示的视频界面中可以包括多个基于视频的网页连接接口,这样,当用户操作某一网页连接接口时,视频终端会根据相应的网页地址信息显示相应的视频网页。因此,在视频界面的详情信息中会包括多个网页连接接口分别对应的网页地址信息,比如,该视频界面中特定视频的统一资源定位符(Uniform Resource Locator,URL),与特定视频相关的推荐视频的URL,热门视频的URL及导航URL等,这样,可以从这些网页地址信息中识别出特定视频的的网页地址信息,进而对各个网站提供的特定视频进行监控。
现有的一种网页连接识别方法,主要是将视频界面中的各个网页连接接口的信息进行关键词匹配,比如,将视频界面对应的URL所在的a标签中的文本内容与预置关键词进行匹配,其中预置关键词可以为“第n集”、“高清”或“立即播放”等。但是,这种方式很容易出现误匹配和漏匹配的问题。
现有的另一种网页连接识别方法,主要是采用机器分类器从多个网页地址信息中识别出特定视频的网页地址信息,这种方法识别的准确率较高,但是,需要事先对大量的样本进行人工标注,并通过标注后的样本训练机器分类器,这样,人工成本过高。
发明内容
本发明实施例提供一种网页连接识别方法、装置及存储介质,实现了根据网页连接接口的结构布局信息的第一特征信息进行识别用于展示目标多媒体的网页连接接口。
本发明实施例第一方面提供一种网页连接识别方法,包括:
获取目标多媒体的信息及多媒体站点的信息;
根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;
提取所述结构布局信息的第一特征信息;
根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
本发明实施例第二方面提供一种网页连接识别装置,包括:
信息获取单元,用于获取目标多媒体的信息及多媒体站点的信息;
布局获取单元,用于根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;
特征提取单元,用于提取所述结构布局信息的第一特征信息;
识别单元,用于根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
本发明实施例第三方面提供一种存储介质,包括:所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的网页连接识别方法。
本发明实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本发明实施例第一方面所述的网页连接识别方法。
可见,在本实施例的方法中,网页连接识别装置会根据目标多媒体的信息及多媒体站点的信息,获取多媒体站点提供的基于目标多媒体的网页中,待识别的网页连接接口的结构布局信息,并提取结构布局信息的第一特征信息,最后再根据第一特征信息及预置的特征模型,对待识别的网页连接接口中用于展示目标多媒体的网页连接接口进行识别。由于在同一多媒体站点提供的基于一种类型多媒体的网页中,用于展示该类型多媒体的网页连接接口的布局都类似,这样通过网页连接接口的结构布局信息的第一特征信息与预置的特征模型,即可识别出特定网页中,用于展示目标多媒体的网页连接接口,实践证明,本发明实施例的识别方法的识别准确较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网页连接识别方法的示意图;
图2是本发明一个实施例提供的一种网页连接识别方法的流程图;
图3a是本发明一个实施例中网页连接识别装置显示的用户输入接口的示意图;
图3b是本发明一个实施例中网页连接识别装置搜索到的基于目标多媒体的网页的示意图;
图4a是本发明一个实施例中训练特征模型的方法流程图;
图4b是本发明一个实施例中剧集类多媒体的网页的示意图;
图5是本发明应用实施例中盗版运营系统的结构示意图;
图6是本发明应用实施例提供的网页连接识别方法的示意图;
图7是本发明实施例提供的一种网页连接识别装置的结构示意图;
图8是本发明实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种网页连接识别方法,参考图1所示,主要由网页连接识别装置通过如下步骤来进行识别:
获取目标多媒体的信息及多媒体站点的信息;根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;提取所述结构布局信息的第一特征信息;根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
由于在同一多媒体站点提供的基于一种类型多媒体的网页中,用于展示该类型多媒体的网页连接接口的布局都类似,这样通过网页连接接口的结构布局信息的第一特征信息与预置特征模型,即可识别出特定网页中,用于展示目标多媒体的网页连接接口,实践证明,本发明实施例的识别方法的识别准确较高。
本发明实施例提供一种网页连接识别方法,主要是网页连接识别装置所执行的方法,流程图如图2所示,包括:
步骤101,获取目标多媒体的信息及多媒体站点的信息。
可以理解,用户可以操作网页连接识别装置,使得网页连接识别装置显示用户输入接口,这样,用户可以通过用户输入接口输入目标多媒体的信息及多媒体站点的信息,网页连接识别装置即可从用户输入接口接收到用户输入的信息,并发起本实施例的识别流程。其中,用户可以通过用户输入接口输入至少一组信息,每一组信息可以包括一个或多个目标多媒体的信息,及一个或多个多媒体站点的信息。
例如图3a所示为网页连接识别装置显示的用户输入接口,具体包括3组用户输入接口,具体为信息数据框,每组用户输入接口包括输入目标多媒体信息的接口,及输入多媒体站点信息的接口,还有“提交”按钮,这样,当用户通过用户输入接口输入相应的信息,并点击“提交”按钮,则网页连接识别装置发起本实施例的流程。
这里,一个目标多媒体的信息可以包括目标多媒体的标识等信息,比如,某一视频的名称;多媒体站点的信息可以包括多媒体站点的地址信息,或标识信息等,比如某一视频网站的地址信息等。
步骤102,根据上述步骤101获取的信息,获取多媒体站点提供的基于目标多媒体的网页中,待识别的网页连接接口的结构布局信息。
可以理解,在一个网页中可以包括多个网页连接接口,每个网页连接接口对应一个网页地址信息,比如URL等,当用户操作一个网页连接接口时,网页连接识别装置可以根据对应的网页地址信息获取到相应网页的信息,并显示网页。
具体地,网页连接识别装置在执行本步骤102时,可以先调用根据上述获取的多媒体站点的信息,调用多媒体站点提供的搜索接口,并通过搜索接口搜索目标多媒体的信息,获取到多媒体站点提供的基于目标多媒体的网页信息;且从基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息。这里,网页连接接口的结构布局信息是指网页连接接口布局在基于目标多媒体的网页中的信息,比如位置信息,形状信息和大小信息等;待识别的网页连接接口包括多个网页连接接口,需要提取到各个网页连接接口的结构布局信息。
其中,网页连接识别装置在从基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息时,具体可以先从基于目标多媒体的网页信息中提取所有的网页连接接口的结构布局信息,然后对所有的网页连接接口的结构布局信息进行过滤,将过滤后的网页连接接口的结构布局信息作为待识别的网页连接接口的结构布局信息。其中,在进行过滤处理时,可以将明显不是用于展示所述目标多媒体的网页连接接口的结构布局信息进行过滤,比如广告连接接口等。
例如图3b所示为网页连接识别装置通过搜索接口搜索到的基于目标多媒体的网页,在该网页中包括某一电影(即目标多媒体)的名称、详情介绍、封面及“立即播放”的按钮,与该电影相关的其它视频的名称及封面,则网页连接识别装置提取的待识别的网页连接接口的结构布局信息包括:某一电影的名称和封面处分别对应的结构布局信息,某一电影“立即播放”的按钮的结构布局信息,与该电影相关的其它视频的名称及封面处分别对应的结构布局信息等。
步骤103,提取结构布局信息的第一特征信息。
具体地,网页连接识别装置可以对结构布局信息进行特征量化,得到特征向量,即为第一特征信息。
步骤104,根据第一特征信息及预置的特征模型,对待识别的网页连接接口中用于展示目标多媒体的网页连接接口进行识别。
可以理解,在网页连接识别装置中会预置多个多媒体站点对应的特征模型,每个多媒体站点对应的特征模型包括多媒体站点提供的基于目标多媒体的网页中,用于展示目标多媒体的网页连接接口的特征,例如,上述图3b所示的网页中,某一电影的名称、封面及“立即播放”的按钮,为展示该电影的网页连接接口。即当用户操作这些网页连接接口时,网页连接识别装置会显示某一网页,并在该网页上展示该目标多媒体。
这样,网页连接识别装置在执行本步骤104时,可以计算第一特征信息与上述多媒体站点对应的特征模型之间的相似度,如果某个待识别的网页连接接口的结构布局信息的第一特征信息与多媒体站点对应的特征模型之间的相似度大于某一阈值,则确定该待识别的网页连接接口为用于展示目标多媒体的网页连接接口。
进一步地,如果网页连接识别装置根据识别出某一待识别的网页连接接口为用于展示目标多媒体的网页连接接口,则网页连接识别装置还可以将某一待识别的网页连接接口的结构布局信息的第一特征信息,与预置的多媒体站点对应的特征模型进行融合,将形成的融合后的多媒体站点对应的特征模型作为新的特征模型预置到网页连接识别装置中,即储存融合后的多媒体站点对应的特征模型。其中,在融合第一特征信息与特征模型时,可以将第一特征信息与特征模型进行加权平均。
这样,根据实际对待识别的网页连接接口的识别,不断地对网页连接识别装置中预置的特征模型进行更新,使得预置的特征模型更能准确地描述用于展示上述目标多媒体的网页连接接口。
可见,在本实施例的方法中,网页连接识别装置会根据目标多媒体的信息及多媒体站点的信息,获取多媒体站点提供的基于目标多媒体的网页中,待识别的网页连接接口的结构布局信息,并提取结构布局信息的第一特征信息,最后再根据第一特征信息及预置的特征模型,对待识别的网页连接接口中用于展示目标多媒体的网页连接接口进行识别。由于在同一多媒体站点提供的基于一种类型多媒体的网页中,用于展示该类型多媒体的网页连接接口的布局都类似,这样通过网页连接接口的结构布局信息的第一特征信息与预置的特征模型,即可识别出特定网页中,用于展示目标多媒体的网页连接接口,实践证明,本发明实施例的识别方法的识别准确较高。
需要说明的是,上述网页连接识别装置中预置的特征模型可以通过一定的方法训练得到,且每个多媒体站点对应的特征模型都需要通过如下步骤201到204的方法训练得到,主要是无监督地学习方法,这样可以省去训练过程中的人工消耗。具体在训练多媒体站点对应的特征模型的过程中,网页连接识别装置可以通过如下的步骤来实现,流程如图4a所示,包括:
步骤201,获取多媒体站点提供的基于多个样本多媒体的网页中,多个样本网页连接接口的结构布局信息。
具体地,网页连接识别装置可以调用多媒体站点提供的搜索接口,并通过搜索接口搜索各个样本多媒体的信息,进而获取到多媒体站点提供的基于各个样本多媒体的网页信息,然后即可从基于各个样本多媒体的网页信息中提取多个样本网页连接接口的结构布局信息。
步骤202,提取多个样本网页连接接口的结构布局信息分别对应的第一样本特征信息。
具体地,将各个样本网页连接接口的结构布局信息进行特征量化,即可得到对应的第一样本特征信息。
步骤203,根据第一样本特征信息进行聚类。
具体地,网页连接识别装置可以进一步地提取多个样本网页连接接口的网页地址信息分别对应的第二样本特征信息,并将各个第一样本特征信息与相应的第二样本特征信息进行拼接,形成多个拼接后样本特征,然后对拼接后样本特征进行聚类,将较相似的多个拼接后样本特征聚集为同一聚类,具体可以采用密度聚类算法等进行聚类。
步骤204,根据上述聚类得到的结果确定多媒体站点的特征模型。
具体地,当某一聚类的拼接后样本特征符合预置策略,则某一聚类的拼接后样本特征即为用于展示目标多媒体的网页连接接口对应的特征,网页连接识别装置则根据某一聚类的拼接后样本特征确定多媒体站点的特征模型。
上述预置策略可以包括一个聚类内的特征信息的数量大于阈值,且一个聚类内的各个特征信息之间的重合度最高等。
需要说明的是,在具体的应用中,可以取基于多个样本多媒体的网页具体为:展示剧集类多媒体(比如电视剧等)的网页,例如图4b所示的基于剧集类多媒体的网页中,包括电视剧名称,封面,详情介绍,及每集电视剧的按钮,其中,每集电视剧的按钮记为剧集类多媒体的网页连接接口。
可见,对于样本多媒体的网页为剧集类多媒体的网页,用于展示样本多媒体的各个网页连接接口的结构布局信息都一样,而各个网页连接接口对应的网页地址信息则相似,因此,得到的各个网页连接接口的第一样本特征信息相同,而第二样本特征信息相似,这样,通过将第一样本特征信息与第二样本特征信息进行拼接后,再进行聚类,即可将这些网页连接接口对应的拼接后样本特征聚集到同一聚类,从而实现了对特征模型的训练。但是在偶然情况下也有出现干扰的异常聚类,为了增加特征模型的信任度,可以通过最大概率的原则(即特征信息之间的重合度高)来确定最终的特征模型。
进一步地,在训练了特征模型后,可以通过测试集对训练的特征模型进行测试,通过对测试集的测试,计算该训练的特征模型识别用于展示多媒体的网页连接接口的准确率,如果准确率低,可以调整在之后训练特征模型过程中的参数,比如上述预置策略同一聚类中特征信息的数量的阈值等,比如调高该阈值。
这样,在训练各个多媒体站点对应的特征模型的过程,是无监督学习过程,省去了人工消耗,简化了在网页连接识别装置中预置特征模型的过程。
以下一个具体的应用实例来说明本发明中网页连接识别方法,在本实施例中,目标多媒体为目标视频,多媒体站点为视频站点,本实施例的方法主要应用于盗版运营系统,即上述的网页连接识别装置。如图5所示,盗版运营系统可以包括:数据收集反馈模块、在线计算模块和离线计算模块,其中:
数据收集反馈模块,用于接收用户输入的目标视频的信息,及视频站点的信息;当在线计算模块识别出展示目标视频的网页连接接口,并向用户反馈识别出的网页连接接口为盗版链接。
在线计算模块,用于根据数据收集反馈模块接收的用户输入的目标视频的信息和视频站点的信息,获取到视频站点提供的基于目标视频的网页信息;从获取的基于目标视频的网页信息中,获取待识别的网页连接接口的结构布局信息,并提取结构布局信息的第一特征信息;然后再根据第一特征信息与离线计算模块预置的上述视频站点对应的特征信息,对待识别的网页连接接口进行识别,识别的过程主要是相似度计算过程。
离线计算模块,用于在盗版运营系统中预置各个视频站点的特征模型,具体地,将上述在线计算模块获取的基于目标视频的网页信息经过规则过滤后,得到过滤后的基于目标视频的网页信息,并从网页信息中提取得到的多个样本网页连接接口的结构布局信息分别对应的第一样本特征信息;且获取多个样本网页连接接口分别对应的网页地址信息的第二样本特征信息,将第一样本特征信息与相应的第二样本特征信息进行拼接,得到拼接后样本特征;最后将拼接后样本特征进行聚类,得到上述视频站点对应的特征模型。
其中,离线计算模块对基于目标视频的网页信息的规则过滤,主要是过滤基于非剧集类视频的网页信息,比如电影或单片视频等的网页信息。
参考图6所示,本实施例的盗版运营系统可以按照如下步骤实现对视频网页连接接口进行识别,具体包括:
步骤301,用户操作盗版运营系统,使得盗版运营系统中的数据收集反馈模块显示用户输入接口,可以如上图3a所示,这样,数据收集反馈模块接收到用户从用户输入接口输入的目标视频的信息和视频站点的信息,并传送给在线计算模块。
步骤302,在线计算模块根据目标视频的信息和视频站点的信息,调用视频站点的搜索接口,通过搜索接口搜索目标视频的信息,这样,获取到了视频站点提供的基于目标视频的网页信息。
步骤303,在线计算模块从上述获取到的基于目标视频的网页信息中提取到待识别的网页连接接口(具体为网页链接)的结构布局信息,并提取结构布局信息的第一特征信息。
具体地,由于在一个网页的网页信息中,是通过a标签来定义网页中的网页链接,a标签的属性包括多个,包括网页链接对应的网页地址信息,网页连接在网页中所在的位置等,这样,在线计算模块在获取待识别的网页连接接口的结构布局信息时,可以从基于目标视频的网页信息中提取所有a标签的属性的属性值,及a标签的兄弟节点和父节点的属性的属性值。
在提取结构布局信息的第一特征信息时,可以采用词袋(word-of-bag)方法等将结构布局信息进行向量化,得到特征向量。
步骤304,在线计算模块根据第一特征信息与预置的视频站点对应的特征模型,对待识别的网页连接接口中用于展示目标视频的网页连接接口进行识别。
具体地,在线计算模块可以先计算第一特征信息与预置的特征模型之间的相似度,如果某一待识别的网页连接接口的结构布局信息的第一特征信息与特征模型之间的相似度大于某一阈值,则确定该待识别的网页连接接口为展示目标视频的网页连接接口。
例如,可以采用如下公式1所示的余弦距离来计算相似度,其中,vmodelA为特征模型,vurlA为第一特征信息:
Figure BDA0002164718610000101
步骤305,在线计算模块将识别出的网页连接接口,作为盗版链接,即该目标视频在视频站点的展示为非法展示,则在线计算模块发送其信息给数据收集反馈模块,由数据收集反馈模块反馈给用户。
通过上述步骤301到305,对用于展示目标视频的网页连接接口的识别的准确性,比现有技术中采用关键词匹配的识别方法的准确性有所提高,从从93.3%提升到97.5%。
本发明实施例还提供一种网页连接识别装置,其结构示意图如图7所示,具体可以包括:
信息获取单元10,用于获取目标多媒体的信息及多媒体站点的信息;
布局获取单元11,用于根据所述信息获取单元10获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息。
该布局获取单元11,具体用于根据所述多媒体站点的信息,调用所述多媒体站点提供的搜索接口;通过所述搜索接口搜索所述目标多媒体的信息,获取所述多媒体站点提供的基于目标多媒体的网页信息;从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息。这里,所述结构布局信息包括所述网页连接接口在所述基于目标多媒体的网页中的位置信息。
其中,布局获取单元11在从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息时,具体用于从所述基于目标多媒体的网页信息中提取所有的网页连接接口的结构布局信息;对所述所有的网页连接接口的结构布局信息进行过滤,将过滤后的网页连接接口的结构布局信息作为待识别的网页连接接口的结构布局信息。
特征提取单元12,用于提取所述布局获取单元10获取的结构布局信息的第一特征信息。
识别单元13,用于根据所述特征提取单元12提取的第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
进一步地,网页连接识别装置还可以包括:模型单元14,用于获取所述多媒体站点提供的多个样本多媒体的网页中,多个样本网页连接接口的结构布局信息;提取所述多个样本网页连接接口的结构布局信息分别对应的第一样本特征信息;根据所述第一样本特征信息进行聚类;根据所述聚类的结果确定所述多媒体站点的特征模型。这样,上述识别单元13会根据模型单元14得到的特征模型及第一特征信息,对待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别。
具体地,所述多个样本多媒体的网页为剧集类多媒体的网页。因此,模型单元14在根据第一样本特征信息进行聚类时,提取所述多个样本网页连接接口对应的网页地址信息的第二样本特征信息;将所述第一样本特征信息与相应的第二样本特征信息进行拼接后,得到拼接后样本特征;对所述拼接后样本特征信息进行聚类。
该模型单元14,还用于如果识别单元13根据所述第一特征信息及预置的特征模型,识别出某一待识别的网页连接接口为用于展示目标多媒体的网页连接接口,则将所述某一待识别的网页连接接口的结构布局信息的第一特征信息,与预置的所述多媒体站点对应的特征模型进行融合,形成融合后的多媒体站点对应的特征模型;储存所述融合后的多媒体站点对应的特征模型。
可见,在本实施例的网页连接识别装置中,布局获取单元11会根据目标多媒体的信息及多媒体站点的信息,获取多媒体站点提供的基于目标多媒体的网页中,待识别的网页连接接口的结构布局信息,特征提取单元12提取结构布局信息的第一特征信息,最后识别单元13再根据第一特征信息及预置的特征模型,对待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别。由于在同一多媒体站点提供的基于一种类型多媒体的网页中,用于展示该类型多媒体的网页连接接口的布局都类似,这样通过网页连接接口的结构布局信息的第一特征信息与预置的特征模型,即可识别出特定网页中,用于展示目标多媒体的网页连接接口,实践证明,本发明实施例中装置的识别方法的识别准确较高。
本发明实施例还提供一种终端设备,其结构示意图如图8所示,该终端设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对终端设备中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在终端设备上执行存储介质22中的一系列指令操作。
具体地,在存储介质22中储存的应用程序221包括网页连接识别的应用程序,且该程序可以包括上述网页连接识别装置中的信息获取单元10,布局获取单元11,特征提取单元12,识别单元13和模型单元14,在此不进行赘述。更进一步地,中央处理器20可以设置为与存储介质22通信,在终端设备上执行存储介质22中储存的网页连接识别的应用程序对应的一系列操作。
终端设备还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述方法实施例中所述的由网页连接识别装置所执行的步骤可以基于该图8所示的终端设备的结构。
本发明实施例还提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如上述网页连接识别装置所执行的网页连接识别方法。
本发明实施例还提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如上述网页连接识别装置所执行的网页连接识别方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的网页连接识别方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种网页连接识别方法,其特征在于,包括:
获取目标多媒体的信息及多媒体站点的信息;
根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;
提取所述结构布局信息的第一特征信息;
根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
2.如权利要求1所述的方法,其特征在于,所述根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息,具体包括:
根据所述多媒体站点的信息,调用所述多媒体站点提供的搜索接口;
通过所述搜索接口搜索所述目标多媒体的信息,获取所述多媒体站点提供的基于目标多媒体的网页信息;
从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息。
3.如权利要求2所述的方法,其特征在于,所述结构布局信息包括所述网页连接接口在所述基于目标多媒体的网页中的位置信息。
4.如权利要求2所述的方法,其特征在于,所述从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息,具体包括:
从所述基于目标多媒体的网页信息中提取所有的网页连接接口的结构布局信息;
对所述所有的网页连接接口的结构布局信息进行过滤,将过滤后的网页连接接口的结构布局信息作为待识别的网页连接接口的结构布局信息。
5.如权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,具体包括:
计算所述第一特征信息与所述多媒体站点对应的特征模型之间的相似度,如果某一待识别的网页连接接口的结构布局信息的第一特征信息,与所述多媒体站点对应的特征模型之间的相似度大于某一阈值,确定所述某一待识别的网页连接接口为用于展示所述目标多媒体的网页连接接口。
6.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
如果某一待识别的网页连接接口为用于展示所述目标多媒体的网页连接接口,则将所述某一待识别的网页连接接口的结构布局信息的第一特征信息,与预置的所述多媒体站点对应的特征模型进行融合,形成融合后的多媒体站点对应的特征模型。
7.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
获取所述多媒体站点提供的多个样本多媒体的网页中,多个样本网页连接接口的结构布局信息;
提取所述多个样本网页连接接口的结构布局信息分别对应的第一样本特征信息;
根据所述第一样本特征信息进行聚类;
根据所述聚类的结果确定所述多媒体站点的特征模型。
8.如权利要求7所述的方法,其特征在于,所述多个样本多媒体的网页为剧集类多媒体的网页。
9.如权利要求8所述的方法,其特征在于,所述根据所述第一样本特征信息进行聚类,具体包括:
提取所述多个样本网页连接接口对应的网页地址信息的第二样本特征信息;将所述第一样本特征信息与相应的第二样本特征信息进行拼接后,得到拼接后样本特征;
对所述拼接后样本特征信息进行聚类。
10.一种网页连接识别装置,其特征在于,包括:
信息获取单元,用于获取目标多媒体的信息及多媒体站点的信息;
布局获取单元,用于根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;
特征提取单元,用于提取所述结构布局信息的第一特征信息;
识别单元,用于根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
11.一种存储介质,其特征在于,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如权利要求1至9任一项所述的网页连接识别方法。
12.一种终端设备,其特征在于,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如权利要求1至9任一项所述的网页连接识别方法。
CN201910743292.0A 2019-08-13 2019-08-13 一种网页连接识别方法、装置及存储介质 Active CN112395527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910743292.0A CN112395527B (zh) 2019-08-13 2019-08-13 一种网页连接识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910743292.0A CN112395527B (zh) 2019-08-13 2019-08-13 一种网页连接识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112395527A CN112395527A (zh) 2021-02-23
CN112395527B true CN112395527B (zh) 2022-07-08

Family

ID=74602499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910743292.0A Active CN112395527B (zh) 2019-08-13 2019-08-13 一种网页连接识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112395527B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742136A (zh) * 2008-11-18 2010-06-16 中兴通讯股份有限公司 一种基于多媒体终端的自适应显示方法
CN104238721A (zh) * 2013-06-06 2014-12-24 由田新技股份有限公司 可编辑媒体互动装置及媒体互动平台的接口编辑方法
CN106570032A (zh) * 2015-10-13 2017-04-19 阿里巴巴集团控股有限公司 一种控制网页页面的方法及装置
CN108804469A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页识别方法以及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012155147A2 (en) * 2011-05-12 2012-11-15 Webtrends, Inc. Graphical-user-interface-based method and system for designing and configuring web-site testing and analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742136A (zh) * 2008-11-18 2010-06-16 中兴通讯股份有限公司 一种基于多媒体终端的自适应显示方法
CN104238721A (zh) * 2013-06-06 2014-12-24 由田新技股份有限公司 可编辑媒体互动装置及媒体互动平台的接口编辑方法
CN106570032A (zh) * 2015-10-13 2017-04-19 阿里巴巴集团控股有限公司 一种控制网页页面的方法及装置
CN108804469A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页识别方法以及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Web查询接口识别与抽取技术研究;杨柳;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20130415;全文 *

Also Published As

Publication number Publication date
CN112395527A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
US20230297581A1 (en) Method and system for ranking search content
US9489401B1 (en) Methods and systems for object recognition
CN110019943B (zh) 视频推荐方法、装置、电子设备和存储介质
US11550856B2 (en) Artificial intelligence for product data extraction
CN113656582B (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
CN113382279B (zh) 直播推荐方法、装置、设备、存储介质以及计算机程序产品
US11741094B2 (en) Method and system for identifying core product terms
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN110796204A (zh) 视频标签确定方法、装置和服务器
CN106844685A (zh) 用于识别网站的方法、装置及服务器
CN110414581B (zh) 图片检测方法和装置、存储介质及电子装置
CN106708829B (zh) 一种数据推荐方法及推荐系统
US20130191368A1 (en) System and method for using multimedia content as search queries
US20200226152A1 (en) System and method for using multimedia content as search queries
CN106021319A (zh) 语音交互方法、装置及系统
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN112395527B (zh) 一种网页连接识别方法、装置及存储介质
CN116451175A (zh) 一种多模态数据处理方法、装置、电子设备及存储介质
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
CN115576789A (zh) 流失用户识别方法和系统
CN114299295A (zh) 一种数据处理方法及相关装置
CN114443904A (zh) 视频查询方法、装置、计算机设备及计算机可读存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN111506754A (zh) 图片检索方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038316

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant