CN109726320A - 一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统 - Google Patents

一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统 Download PDF

Info

Publication number
CN109726320A
CN109726320A CN201811648204.0A CN201811648204A CN109726320A CN 109726320 A CN109726320 A CN 109726320A CN 201811648204 A CN201811648204 A CN 201811648204A CN 109726320 A CN109726320 A CN 109726320A
Authority
CN
China
Prior art keywords
page
video
correlation values
video page
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811648204.0A
Other languages
English (en)
Other versions
CN109726320B (zh
Inventor
王惠峰
张峰
张德
张昆
王子玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201811648204.0A priority Critical patent/CN109726320B/zh
Publication of CN109726320A publication Critical patent/CN109726320A/zh
Application granted granted Critical
Publication of CN109726320B publication Critical patent/CN109726320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统,该方法、系统及搜索系统,根据用户输入的检索信息获取初始视频页面,并提取每个初始视频页面的页面信息,页面信息中至少包括页面内含有的视频页面的URL、页面文字以及页面图片。利用页面信息内包含的多源信息获取初始视频页面与检索信息之间的相关性数值,进一步根据初始视频页面与检索信息之间的相关性数值,确定最终展示给用户的结果视频页面,以快速、准确、全面地获取用户所需视频页面。

Description

一种基于多源信息融合的互联网视频爬虫方法、系统及搜索 系统
技术领域
本发明涉及互联网视频爬虫技术领域,特别是涉及一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统。
背景技术
目前,随着计算机硬件处理能力的不断增强以及网络带宽的逐年扩容,通过互联网在线观看视频已经成为常态。然而,互联网视频数据量巨大,要在其中快速检索到符合需求的视频并非易事,由此,网络爬虫技术应运而生。
网络爬虫技术能够按照一定的规则,自动地抓取万维网信息,被广泛应用于互联网搜索系统。通常情况下,网页中除包含供用户阅读的文字信息外,还附有超链接信息,网络爬虫技术通过网页中的超链接信息不断获取网络上的其它网页,以此为搜索系统提供数据来源。当前,基于网络爬虫技术检索视频的方式主要包括以下两种:1、根据视频名称、视频中出现的关键人物、视频来源等关键词检索;2、根据视频的分类目录检索。
第1种方法本质上基于关键词的匹配,采用该方法所获得的检索结果,往往包含大量视频页面,且视频的内容差异较大,很难满足用户的特定需求,因此,用户不得不花费时间进行二次鉴别,用户体验铰差。
第2种方法适用于有限范围内视频的检索,例如,在已为视频进行过分类处理的专业视频网站中,对某一种类视频的检索。但面对互联网的海量视频,将所有视频进行分类处理并不现实,且类别的数量有限,导致该方法的灵活性较差。
为此,亟需一种新型互联网视频爬虫方法,能够降低检索成本,提高检索效率,帮助用户快速、简便地获得所需视频页面。
发明内容
本发明实施例中提供了一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统,以解决现有互联网视频爬虫方法检索效率低、检索成本大及灵活性差的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
一种基于多源信息融合的互联网视频爬虫方法,包括:
根据用户输入的检索信息获取初始视频页面;
提取每个初始视频页面的页面信息,所述页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片;
利用所述页面信息获取初始视频页面与检索信息之间的相关性数值;
根据所述相关性数值确定最终展示给用户的结果视频页面。
可选的,根据用户输入的检索信息获取初始视频页面,包括:
获取用户输入的检索信息;
利用互联网搜索系统或视频网站,获取与所述检索信息相匹配的视频页面,作为初始视频页面。
可选的,所述根据所述相关性数值确定最终展示给用户的结果视频页面,包括:
判断是否存在相关性数值符合预设筛选条件的初始视频页面,
如果存在,将相关性数值符合预设筛选条件的初始视频页面确定为结果视频页面。
可选的,所述利用所述页面信息获取初始视频页面与检索信息之间的相关性数值,包括:
判断数据库中是否存储初始视频页面与检索信息之间的相关性数值,
如果是,获取数据库中存储的所述相关性数值;
如果否,利用所述页面信息计算初始视频页面与检索信息之间的相关性数值,并将所述相关性数值存储在数据库中。
可选的,在执行所述利用所述页面信息获取初始视频页面与检索信息之间的相关性数值步骤之前,还包括:
判断是否存在符合预设获取条件的初始视频页面,
如果是,对符合预设获取条件的初始视频页面执行获取相关性数值的步骤。
可选的,所述利用所述页面信息获取初始视频页面与检索信息之间的相关性数值,包括:
获取页面中含有的视频页面URL的数量;
获取页面文字中与检索信息相匹配的文字出现的次数;
获取页面图片中与检索信息相匹配的文字出现的次数;
根据页面中含有的视频页面URL的数量,页面文字中与检索信息相匹配的文字出现的次数,以及,页面图片中与检索信息相匹配的文字出现的次数,计算初始视频页面与检索信息之间的相关性数值。
可选的,所述根据页面中含有的视频页面URL的数量,页面文字中与检索信息相匹配的文字出现的次数,以及,页面图片中与检索信息相匹配的文字出现的次数,计算视频页面与检索信息之间的相关性数值,包括:
根据以下公式计算相关性数值:
F(p)=a*numFilelink*FactorLink+b*numKeyWord*FactorWord+
c*numImage*FactorImage+d*FactorFusion
其中,F(p)为相关性数值;
numFileLink为页面中含有的视频页面URL的数量;
FactorLink为根据numFileLink计算得到的URL积分因子;
numKeyWord为页面文字中与检索信息相匹配的文字出现的次数;
FactorWord为根据numKeyWord计算得到的文字积分因子;
numImage为页面图片中与检索信息相匹配的文字出现的次数;
FactorImage为根据numImage计算得到的图片积分因子;
FactorFusion为根据numFileLink、numKeyWord和numKeyWord计算得到的多源信息融合积分因子;
其中,a,b,c,d为权重因子,且a+b+c+d=1。
一种基于多源信息融合的互联网视频爬虫系统,包括初始视频页面获取模块、页面信息提取模块、相关性数值获取模块以及结果视频页面确定模块,其中,
所述初始视频页面获取模块与输入设备相连接,用于根据用户输入的检索信息获取初始视频页面;
所述页面信息提取模块与初始视频页面获取模块相连接,用于提取每个初始视频页面的页面信息,所述页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片;
所述相关性数值获取模块与页面信息提取模块相连接,用于利用所述页面信息获取初始视频页面与检索信息之间的相关性数值;
所述结果视频页面确定模块与相关性数值获取模块相连接,用于根据所述相关性数值确定最终展示给用户的结果视频页面。
可选的,所述结果视频页面确定模块包括判断子模块和确定子模块,其中,
所述判断子模块与相关性数值获取模块相连接,用于判断是否存在相关性数值符合预设筛选条件的初始视频页面;
所述确定子模块与判断子模块相连接,用于当存在相关性数值符合预设筛选条件的初始视频页面时,将所述初始视频页面确定为结果视频页面。
一种搜索系统,包括索引系统和与索引系统相连接的检索系统,还包括与索引系统相连接的爬虫系统,所述爬虫系统包括初始视频页面获取模块、页面信息提取模块、相关性数值获取模块以及结果视频页面确定模块,其中,
所述初始视频页面获取模块与输入设备相连接,用于根据用户输入的检索信息获取初始视频页面;
所述页面信息提取模块与初始视频页面获取模块相连接,用于提取每个初始视频页面的页面信息,所述页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片;
所述相关性数值获取模块与页面信息提取模块相连接,用于利用所述页面信息获取初始视频页面与检索信息之间的相关性数值;
所述结果视频页面确定模块与相关性数值获取模块相连接,用于根据所述相关性数值确定最终展示给用户的结果视频页面。
由以上技术方案可见,本发明实施例提供的一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统,根据用户输入的检索信息获取最初选择的初始视频页面,通常,初始视频页面的数量较多,本发明所公开的实施例可在大量的初始视频页面中,筛选出符合用户需求的结果视频页面。
在获取初始视频页面后,提取每个初始视频页面的页面信息,该页面信息中至少包括页面内含有的视频页面的URL、页面文字以及页面图片,除此之外,页面信息中还可包含其他类型的信息,从而能够利用多源信息获取初始视频页面与检索信息之间的相关性数值,该相关性数值代表初始视频页面与检索信息之间的相关性程度。因此,可进一步根据初始视频页面与检索信息之间的相关性数值,确定最终展示给用户的结果视频页面,以快速、准确、全面地获取用户所需视频页面。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多源信息融合的互联网视频爬虫方法的流程示意图;
图2为本发明实施例提供的一种图1中步骤S101的流程示意图;
图3为本发明实施例提供的一种图1中步骤S104的流程示意图;
图4为本发明实施例提供的一种图1中步骤S103的流程示意图;
图5为本发明实施例提供的另一种图1中步骤S103的流程示意图;
图6为本发明实施例提供的一种基于多源信息融合的互联网视频爬虫系统的结构示意图;
图7为本发明实施例提供的一种搜索系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1为本发明实施例提供的一种基于多源信息融合的互联网视频爬虫方法流程示意图,该方法能够根据用户需求在互联网中检索目标视频网页。如图1所示,包括以下步骤。
步骤S101:根据用户输入的检索信息获取初始视频页面。
用户期望搜索特定内容的视频时,可向计算机、手机或平板电脑等能够连接互联网的设备,输入与该特定内容相关的检索信息。例如,用户想要搜索2018年春节联欢晚会的完整视频时,可向计算机输入“2018春晚”关键词,这个关键词即为检索信息。计算机根据用户输入的检索信息获取与该检索信息相匹配的视频页面,并将相匹配的视频页面作为最初选择的初始视频页面。
在本发明公开的实施例中,步骤S101根据用户输入的检索信息获取初始视频页面,如图2所示,包括以下步骤。
步骤S1011:获取用户输入的检索信息。
在用户根据需求输入检索数据后,获取该检索数据并作为后续步骤中使用的检索信息。
用户可通过多种方式向计算机、手机或平板电脑等能够连接互联网的设备输入检索数据,例如,用户输入关键词的文本数据,或者对设备说出含有关键词一段话,或者输入一张图片。上述设备在接收到检索数据之后,判断该检索数据是否为预先指定的数据类型,若是,则将该检索数据作为检索信息;若否,则将该检索数据转换为预先指定的数据类型,并提取转换后数据中的重要内容作为检索信息。
例如,预先指定的数据类型为文本类型,若用户手动输入文本数据,则将该文本数据作为检索信息;若用户语音输入音频数据,则将音频数据转换为文本数据,并提取转换后文本数据中的重要内容作为检索信息;若用户输入图片,则解析该图片中的文本数据,并提取解析后文本数据中的重要内容作为检索信息。
本发明中获取用户输入检索信息的方式包括但不局限于上述具体实施例。
步骤S1012:利用互联网搜索系统或视频网站,获取与检索信息相匹配的视频页面,作为初始视频页面。
在获取用户输入的检索信息之后,利用现有的互联网搜索引擎网站或视频网站,获取与检索信息相匹配的视频页面。例如,用户想要检索2018年春节晚会的完整视频,可以借助某视频网站,按照该网站的检索方式,输入“2018春晚”的关键词,获取该网站提供的与“2018春晚”相匹配的视频页面,这些相匹配的视频页面即为最初选择的初始视频页面。
在本发明公开的实施例中,利用互联网搜索系统或视频网站检索得到的结果可以为,由代表与检索信息相匹配的初始视频页面构成的视频列表,该视频列表中的每个元素均对应一个与检索信息相匹配的初始视频网页,不同元素对应不同的初始视频页面,视频列表中所有元素对应的视频网页即为全部初始视频页面。例如,视频列表中的元素为视频页面自身的URL,每个URL均唯一指向一个根据检索信息检索得到的初始视频页面。
步骤S102:提取每个初始视频页面的页面信息,页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片。
采用现有解析技术提取每一个初始视频页面的页面信息,页面信息至少包括页面中含有的视频页面的URL、视频文字描述信息、图片。通常一个视频页面中含有多个其他相关类型视频页面,例如,电影视频页面中推荐观看的与电影相关的电影片段、电影主题曲等其他视频,每一个视频均对应一个视频页面URL。
另外,页面信息还可以包括用户评论、视频点赞数量等视频评价信息。当然,页面信息还可以包括更多内容,在本发明公开的具体实施例中以上述几个方面进行解释说明,但不仅限于此,本发明实施例涉及的页面信息还可以包括其他类型的信息。
例如,基于某电影视频页面提取出的页面信息为:与电影视频相关的电影片段的视频页面URL,电影简介,电影海报图片,观影人的文字评价以及点赞数量等评价信息。
步骤S103:利用页面信息获取初始视频页面与检索信息之间的相关性数值。
在获得视频页面的页面信息之后,采用现有技术分析页面信息中各类型信息所包含的深层内容。以前述某电影视频页面提取的页面信息为例,在本发明公开的具体实施例中,利用人工智能方法,由电影简介分析获取电影上映时间、主演姓名及所饰演人物姓名、制片人姓名、制片公司以及电影情节等文本内容;由电影海报图片分析获取电影姓名、主演姓名、导演姓名、电影上映日期等内容;由观影人的文字评价分析视频内容与页面标题是否匹配、视频内容是否完整以及视频文字介绍是否有误等评价信息,由点赞数量分析视频内容是否受用户肯定等评价信息。
在深入分析页面信息中各类型信息之后,利用获知的视频情况确定所初始视频页面与检索信息之间的相关程度。在本发明公开的实施例中,以相关性数值表示初始视频页面与检索信息之间的相关程度,二者相关程度越大,初始视频页面与用户期望搜索的视频内容越接近。关于获取初始视频页面与检索信息之间相关性数值的详细过程,将在后续实施例中说明。
步骤S104:根据相关性数值确定最终展示给用户的结果视频页面。
在本发明公开的一个具体实施例中,采用1-100的数字表达相关性数值,数值越大说明初始视频页面的内容与用户的期望越接近,反之,数值越小说明初始视频页面的内容与用户的期望偏差越大。
在本发明公开的一个实施例中,步骤S104根据相关性数值确定最终展示给用户的结果视频页面,如图3所示,包括以下步骤。
步骤S1041:判断是否存在相关性数值符合预设筛选条件的视频页面。
预先设定一个阈值作为筛选结果视频页面的条件,例如,阈值为70,若某视频页面的相关性数值大于70,确定该视频页面的相关性数值符合筛选条件,则将该视频页面作为最终展示给用户的结果视频页面;若某视频页面的相关性数值小于70,确定该视频页面的相关性数值不符合筛选条件,则说明该视频页面的内容不满足用户的检索需求,不作为结果视频页面。
在预先设定筛选条件的阈值时,既要考虑结果视频页面的数量,也要保证视频页面满足用户需求的程度,若阈值设置较大,则最终选择的结果视频页面的数量必然较少,这样有可能丢弃了用户真正想要检索的视频页面,若阈值设置较大,则最终选择的结果视频页面的数量又过多,这样很有可能保留了很多与用户需求相关性较小的视频页面,导致用户必须对最终选择的结果视频页面进行二次筛选,大大降低检索效率。因此,需要根据用户需求及实际情况设置阈值。
如果存在相关性数值符合预设筛选条件的视频页面,执行步骤S1042。
步骤S1042:将相关性数值符合预设筛选条件的初始视频页面确定为结果视频页面。
如果不存在相关性数值符合预设筛选条件的视频页面,提示用户未检索到相关视频页面。
在获取每一个初始视频页面与检索信息之间的相关性数值之后,逐个判断每一个初始视频页面对应的相关性数值是否满足上述预设筛选条件,将满足预设筛选条件的初始视频页面作为最终选择的结果视频页面,这些结果视频页面中的视频内容较符合用户期望的。
在本发明公开的具体实施例中,可建立一个视频页面列表,列表中每个元素均对应一个结果视频页面,不同元素对应不同的结果视频页面,根据该视频页面列表将最终选择的结果视频页面展示给用户。
在本发明公开的一个具体实施例中,可预先设定多个以相关性数值的数值范围作为划分依据的集合,在获得初始视频页面与检索信息之间的相关性数值之后,根据相关性数值将初始视频页面归入所属的集合。例如,将相关性数值大于90的初始视频页面划分为第一优先级集合,将相关性数值大于80且小于等于90的初始视频页面划分为第二优先级集合,将相关性数值大于70且小于等于80的初始视频页面划分为第三优先级集合,将相关性数值小于等于70的初始视频页面划分为第四优先级集合。将初始视频页面归类处理后,可在最终选取结果视频页面时,根据预先设定的阈值方便快捷地瞄准符合筛选条件的优先级集合,从而进一步缩短检索时间、提高检索效率。
在本发明公开的另一个实施例中,前述实施例中的步骤S103利用页面信息获取初始视频页面与检索信息之间的相关性数值,如图4所示,还包括以下步骤。
步骤S1031:判断数据库中是否存储初始视频页面与检索信息之间的相关性数值。
采用本发明公开的实施例,在某用户输入检索信息后,都会获取视频页面与检索信息之间的相关性数值,若另一用户输入相同的检索信息,重新计算同一个视频页面与相同检索信息之间的相关性数值会产生重复工作,不仅浪费检索时间,而且也降低检索效率。
在本发明公开的实施例中,在获取过某视频页面与一个检索信息之间的相关性数值后,则将该相关性数值的具体信息保存在数据库中,具体信息至少包括检索信息、视频页面自身的URL以及视频页面与检索信息之间的相关性数值。
如果存在,执行步骤S1032。
步骤S1032:获取数据库中存储的相关性数值。
在获取初始视频页面与检索信息之间的相关性数值时,若数据库中存储有该初始视频页面与该检索信息之间的相关性数值,则直接获取该相关性数值作为本次检索时该初始视频页面与该检索信息之间的相关性数值。
如果否,执行步骤S1033。
步骤S1033:利用页面信息计算初始视频页面与检索信息之间的相关性数值,并将相关性数值存储在数据库中。
若数据库中未存储有初始视频页面与检索信息之间的相关性数值,说明该初始视频页面与该检索信息为首次分析相关性程度,则利用页面信息计算初始视频页面与检索信息之间的相关性数值,具体计算方式可参见下述实施例。将计算得到的相关性数值存储在数据库中,以使再次利用相关的检索信息检索时,能够由数据库中直接获取该视频页面与该检索信息之间的相关性数值。
在本发明公开的另一个实施例中,在执行前述实施例中的步骤S103利用页面信息获取初始视频页面与检索信息之间的相关性数值之前,还包括以下步骤。
1)判断是否存在符合预设获取条件的初始视频页面。
在本发明公开的一个具体实施例中,预设获取条件可以为视频页面来源,例如,预设获取条件为视频页面来源于较大的视频网站。通过视频页面自身的URL可确定该视频页面来源于哪个视频网站,因此,在本发明公开的具体实施例中,可根据初始视频页面的URL,判断视频页面是否来源于规定的视频网站。
在本发明公开的另一个实施例中,预设获取条件还可以为视频页面的评价信息,如点赞数量和评价数量,视频页面中的点赞数量及评价数量越多,说明浏览该视频页面的用户较多,该视频页面的视频信息较符合大众需求。例如,预设获取条件为点赞数量超过100个,若某初始视频页面中的点赞数量超过100个,则确定该初始视频页面符合预设获取条件。
如果是,对符合预设获取条件的初始视频页面执行获取相关性数值的步骤。
若某初始视频页面符合预设获取条件,则对该初始视频页面执行步骤S103,获取该初始视频页面与检索信息之间的相关性数值。
如果否,舍弃不符合预设获取条件的初始视频页面。
若初始视频页面不符合预设获取条件,则不获取该初始视频页面与检索信息之间的相关性数值,直接舍弃该视频页面。
在本发明公开的一个实施例中,前述实施例中的步骤S103利用页面信息获取初始视频页面与检索信息之间的相关性数值,如图5所示,可包括以下步骤:
步骤S301:获取页面中含有的视频页面URL的数量;
步骤S302:获取页面文字中与检索信息相匹配的文字出现的次数。
步骤S303:获取页面图片中与检索信息相匹配的文字出现的次数。
在获取页面信息后,采用人工智能等方式解析页面信息的内容,从而得到上述步骤S301、步骤S302、步骤S393中需要获取的内容。
步骤S304:根据页面中含有的视频页面URL的数量,页面文字中与检索信息相匹配的文字出现的次数,以及,页面图片中与检索信息相匹配的文字出现的次数,计算初始视频页面与检索信息之间的相关性数值。
在本发明公开的一个具体实施例中,根据以下公式计算相关性数值:
F(p)=a*numFilelink*FactorLink+b*numKeyWord*FactorWord+
c*numImage*FactorImage+d*FactorFusion
其中,F(p)为相关性数值;
numFileLink为页面中含有的视频页面URL的数量;
FactorLink为根据numFileLink计算得到的URL积分因子;
numKeyWord为页面文字中与检索信息相匹配的文字出现的次数;
FactorWord为根据numKeyWord计算得到的文字积分因子;
numImage为页面图片中与检索信息相匹配的文字出现的次数;
FactorImage为根据numImage计算得到的图片积分因子;
FactorFusion为根据numFileLink、numKeyWord和numKeyWord计算得到的多源信息融合积分因子;
其中,a,b,c,d为权重因子,且a+b+c+d=1。
a,b,c,d的数值可预先设置,例如,认定文本信息的影响较大时,将a设置为较大数值,b,c,d的设置类似,只要最终a+b+c+d的总和为1即可。
在获取页面中含有的视频页面URL的数量,页面文字中与检索信息相匹配的文字出现的次数,以及,页面图片中与检索信息相匹配的文字出现的次数之后,计算得到FactorLink、FactorWord、FactorImage和FactorFusion的值,在本发明公开的一个具体实施例中,可采用以下方式。
如下表1所示,参与计算的视频页面数量为三个,获取每个视频页面的numFileLink、numKeyWord、numImage,并分别计算三个视频页面numFileLink、numKeyWord、numImage的总数,
表1
视频页面序号 numFileLink numKeyWord numImage
1 10 1 8
2 20 4 10
3 20 5 2
合计 50 10 20
FactorLink为numFileLink的总数、numKeyWord的总数与numImage的总数之和除以numFileLink的总数,即FactorLink=(50+10+20)/50。
FactorWord为numFileLink的总数、numKeyWord的总数与numImage的总数之和除以numKeyWord的总数,即FactorWord=(50+10+20)/10。
FactorImage为numFileLink的总数、numKeyWord的总数与numImage的总数之和除以numImage的总数,即FactorImage=(50+10+20)/20。
FactorFusion为numFileLink的总数、numKeyWord的总数与numImage的总数之和除以numKeyWord的总数与numImage的总数之和,即FactorFusion=(50+10+20)/(10+20)。
本发明公开的实施例中,并非仅能够以上述公式获得视频页面与检索信息之间的相关性数值,还可以引进其他类型的信息参与相关性数值的计算,例如,可在公式中增加评论信息相关项,共同计算相关性数值。
图6为本发明实施例提供的一种基于多源信息融合的互联网视频爬虫系统的结构示意图,如图6所示,该系统包括初始视频页面获取模块11、页面信息提取模块12、相关性数值获取模块13以及结果视频页面确定模块14,其中,
初始视频页面获取模块11与输入设备相连接,被配置为根据用户输入的检索信息获取初始视频页面。
页面信息提取模块12与初始视频页面获取模块11相连接,被配置为提取每个初始视频页面的页面信息,其中,页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片。
相关性数值获取模块13与页面信息提取模块12相连接,被配置为利用页面信息获取初始视频页面与检索信息之间的相关性数值。
结果视频页面确定模块14与相关性数值获取模块13相连接,被配置为根据相关性数值确定最终展示给用户的结果视频页面。
在本发明公开的一个实施例中,前述实施例中的结果视频页面确定模块14包括判断子模块和确定子模块,其中,
判断子模块与相关性数值获取模块相连接,被配置为判断是否存在相关性数值符合预设筛选条件的初始视频页面。
确定子模块与判断子模块相连接,被配置为当存在相关性数值符合预设筛选条件的初始视频页面时,将初始视频页面确定为结果视频页面。
图7为本发明实施例提供的一种搜索系统的结构示意图,该系统包括索引系统1和与索引系统1相连接的检索系统2,还包括与索引系统1相连接的爬虫系统3,其中,爬虫系统3包括初始视频页面获取模块31、页面信息提取模块32、相关性数值获取模块33以及结果视频页面确定模块34。
初始视频页面获取模块31与输入设备相连接,被配置为根据用户输入的检索信息获取初始视频页面;
页面信息提取模块32与初始视频页面获取模块31相连接,被配置为提取每个初始视频页面的页面信息,页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片。
相关性数值获取模块33与页面信息提取模块32相连接,被配置为利用页面信息获取初始视频页面与检索信息之间的相关性数值。
结果视频页面确定模块34与相关性数值获取模块33相连接,被配置为根据相关性数值确定最终展示给用户的结果视频页面。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于多源信息融合的互联网视频爬虫方法,其特征在于,包括:
根据用户输入的检索信息获取初始视频页面;
提取每个初始视频页面的页面信息,所述页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片;
利用所述页面信息获取初始视频页面与检索信息之间的相关性数值;
根据所述相关性数值确定最终展示给用户的结果视频页面。
2.根据权利要求1所述的方法,其特征在于,根据用户输入的检索信息获取初始视频页面,包括:
获取用户输入的检索信息;
利用互联网搜索系统或视频网站,获取与所述检索信息相匹配的视频页面,作为初始视频页面。
3.根据权利要求1所述的方法,其特征在于,所述根据所述相关性数值确定最终展示给用户的结果视频页面,包括:
判断是否存在相关性数值符合预设筛选条件的初始视频页面,
如果存在,将相关性数值符合预设筛选条件的初始视频页面确定为结果视频页面。
4.根据权利要求1所述的方法,其特征在于,所述利用所述页面信息获取初始视频页面与检索信息之间的相关性数值,包括:
判断数据库中是否存储初始视频页面与检索信息之间的相关性数值,
如果是,获取数据库中存储的所述相关性数值;
如果否,利用所述页面信息计算初始视频页面与检索信息之间的相关性数值,并将所述相关性数值存储在数据库中。
5.根据权利要求1所述的方法,其特征在于,在执行所述利用所述页面信息获取初始视频页面与检索信息之间的相关性数值步骤之前,还包括:
判断是否存在符合预设获取条件的初始视频页面,
如果是,对符合预设获取条件的初始视频页面执行获取相关性数值的步骤。
6.根据权利要求1所述的方法,其特征在于,所述利用所述页面信息获取初始视频页面与检索信息之间的相关性数值,包括:
获取页面中含有的视频页面URL的数量;
获取页面文字中与检索信息相匹配的文字出现的次数;
获取页面图片中与检索信息相匹配的文字出现的次数;
根据页面中含有的视频页面URL的数量,页面文字中与检索信息相匹配的文字出现的次数,以及,页面图片中与检索信息相匹配的文字出现的次数,计算初始视频页面与检索信息之间的相关性数值。
7.根据权利要求6所述的方法,其特征在于,所述根据页面中含有的视频页面URL的数量,页面文字中与检索信息相匹配的文字出现的次数,以及,页面图片中与检索信息相匹配的文字出现的次数,计算视频页面与检索信息之间的相关性数值,包括:
根据以下公式计算相关性数值:
F(p)=a*numFilelink*FactorLink+b*numKeyWord*FactorWord+
c*numImage*FactorImage+d*FactorFusion
其中,F(p)为相关性数值;
numFileLink为页面中含有的视频页面URL的数量;
FactorLink为根据numFileLink计算得到的URL积分因子;
numKeyWord为页面文字中与检索信息相匹配的文字出现的次数;
FactorWord为根据numKeyWord计算得到的文字积分因子;
numImage为页面图片中与检索信息相匹配的文字出现的次数;
FactorImage为根据numImage计算得到的图片积分因子;
FactorFusion为根据numFileLink、numKeyWord和numKeyWord计算得到的多源信息融合积分因子;
其中,a,b,c,d为权重因子,且a+b+c+d=1。
8.一种基于多源信息融合的互联网视频爬虫系统,其特征在于,包括初始视频页面获取模块、页面信息提取模块、相关性数值获取模块以及结果视频页面确定模块,其中,
所述初始视频页面获取模块与输入设备相连接,用于根据用户输入的检索信息获取初始视频页面;
所述页面信息提取模块与初始视频页面获取模块相连接,用于提取每个初始视频页面的页面信息,所述页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片;
所述相关性数值获取模块与页面信息提取模块相连接,用于利用所述页面信息获取初始视频页面与检索信息之间的相关性数值;
所述结果视频页面确定模块与相关性数值获取模块相连接,用于根据所述相关性数值确定最终展示给用户的结果视频页面。
9.根据权利要求8所述的系统,其特征在于,所述结果视频页面确定模块包括判断子模块和确定子模块,其中,
所述判断子模块与相关性数值获取模块相连接,用于判断是否存在相关性数值符合预设筛选条件的初始视频页面;
所述确定子模块与判断子模块相连接,用于当存在相关性数值符合预设筛选条件的初始视频页面时,将所述初始视频页面确定为结果视频页面。
10.一种搜索系统,包括索引系统和与索引系统相连接的检索系统,其特征在于,还包括与索引系统相连接的爬虫系统,所述爬虫系统包括初始视频页面获取模块、页面信息提取模块、相关性数值获取模块以及结果视频页面确定模块,其中,
所述初始视频页面获取模块与输入设备相连接,用于根据用户输入的检索信息获取初始视频页面;
所述页面信息提取模块与初始视频页面获取模块相连接,用于提取每个初始视频页面的页面信息,所述页面信息至少包括页面内含有的视频页面的统一资源定位符URL、页面文字以及页面图片;
所述相关性数值获取模块与页面信息提取模块相连接,用于利用所述页面信息获取初始视频页面与检索信息之间的相关性数值;
所述结果视频页面确定模块与相关性数值获取模块相连接,用于根据所述相关性数值确定最终展示给用户的结果视频页面。
CN201811648204.0A 2018-12-30 2018-12-30 一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统 Active CN109726320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811648204.0A CN109726320B (zh) 2018-12-30 2018-12-30 一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811648204.0A CN109726320B (zh) 2018-12-30 2018-12-30 一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统

Publications (2)

Publication Number Publication Date
CN109726320A true CN109726320A (zh) 2019-05-07
CN109726320B CN109726320B (zh) 2021-10-08

Family

ID=66298599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811648204.0A Active CN109726320B (zh) 2018-12-30 2018-12-30 一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统

Country Status (1)

Country Link
CN (1) CN109726320B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN103763358A (zh) * 2014-01-08 2014-04-30 北京奇虎科技有限公司 一种信息的推送方法和装置
CN104036018A (zh) * 2014-06-25 2014-09-10 百度在线网络技术(北京)有限公司 视频获取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN103763358A (zh) * 2014-01-08 2014-04-30 北京奇虎科技有限公司 一种信息的推送方法和装置
CN104036018A (zh) * 2014-06-25 2014-09-10 百度在线网络技术(北京)有限公司 视频获取方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143584A (zh) * 2019-12-20 2020-05-12 三盟科技股份有限公司 一种视听内容检索方法及系统

Also Published As

Publication number Publication date
CN109726320B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
US9600533B2 (en) Matching and recommending relevant videos and media to individual search engine results
US8135669B2 (en) Information access with usage-driven metadata feedback
Szomszor et al. Semantic modelling of user interests based on cross-folksonomy analysis
Ben-David et al. Web archive search as research: Methodological and theoretical implications
CN102959542B (zh) 用于管理视频内容的方法和装置
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
US20140372451A1 (en) Discovering and scoring relationships extracted from human generated lists
KR101252670B1 (ko) 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
Voorbij The value of LibraryThing tags for academic libraries
US20190082236A1 (en) Determining Representative Content to be Used in Representing a Video
US20130262462A1 (en) Identifying video files of a video file storage system having relevance to a first file
KR20040017824A (ko) 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
GB2592884A (en) System and method for enabling a search platform to users
CN109726320A (zh) 一种基于多源信息融合的互联网视频爬虫方法、系统及搜索系统
Kolli et al. A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed
KR100900467B1 (ko) 개인 미디어 검색 서비스 시스템 및 방법
CN116431895A (zh) 安全生产知识个性化推荐方法及系统
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
Canale et al. From teaching books to educational videos and vice versa: a cross-media content retrieval experience
Hoxha et al. Towards a modular recommender system for research papers written in albanian
Shrimali et al. Content based Video Recommendation System
Pisal et al. AskUs: An opinion search engine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant