CN104881428B - 一种信息图网页的信息图提取、检索方法和装置 - Google Patents

一种信息图网页的信息图提取、检索方法和装置 Download PDF

Info

Publication number
CN104881428B
CN104881428B CN201510155832.5A CN201510155832A CN104881428B CN 104881428 B CN104881428 B CN 104881428B CN 201510155832 A CN201510155832 A CN 201510155832A CN 104881428 B CN104881428 B CN 104881428B
Authority
CN
China
Prior art keywords
webpage
hum pattern
text
hum
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510155832.5A
Other languages
English (en)
Other versions
CN104881428A (zh
Inventor
万明成
王刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201510155832.5A priority Critical patent/CN104881428B/zh
Publication of CN104881428A publication Critical patent/CN104881428A/zh
Application granted granted Critical
Publication of CN104881428B publication Critical patent/CN104881428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息图网页的信息图提取、检索方法和装置,该信息图网页检索方法包括:服务器根据网页是否满足预定特征识别包含信息图的网页;其中,该预定特征包括以下四类特征中的至少一种:表示信息图关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页统一资源定位符URL模式为信息图网页的第四类特征;以及提取识别出的该包含信息图的网页的结构化信息和信息图的特征信息,得到该网页中包含的信息图特征。利用本发明,能够根据用户的检索需求准确地提取并检索到信息图网页。

Description

一种信息图网页的信息图提取、检索方法和装置
技术领域
本发明涉及网页信息识别技术领域,特别是涉及一种网页的信息图特征提取方法、装置以及一种信息图网页的检索方法、装置。
背景技术
随着互联网技术的快速发展,各种信息呈现出爆炸式的增长,大量信息混杂在一起,使用户不得不花费大量时间从大量网络信息中筛选出对其有价值的信息。由于通过文本呈现信息的方式不够直接,便产生了通过信息图呈现信息的方式,将数据、信息、知识、实体间关系以可视化的图形形式直观地呈现给用户,能够将复杂的信息脉络以信息图的形式简单明了地展现给用户。同时,信息图大多表现为一张静态图片,可以方便上传、下载、编辑和分享,因此,信息图在网络中的应用越来越广泛。
然而,在信息图网页中,由于要呈现的大部分内容都包含在了图片中,通常仅有少量的文本信息。并且,在传统的网页检索过程中,主要依赖文本信息进行召回和排序,显然信息图网页由于所含文本信息较少而难以被召回。因此,尽管信息图有利于用户快速理解信息,但却不利于用户进行信息检索。而传统的图像检索技术,一般抽取图像周围的描述信息作为检索字段,再结合文本匹配和文本相关性技术进行召回和排序处理。如对信息图不加以区分,采用上述方式进行检索和排序,那么信息图中大量信息则不会被有效利用。即使少量信息图网页被召回,按照传统的文本摘要方式展现信息图网页也必然会影响用户体验。
发明内容
本发明主要解决的技术问题是提供一种网页的信息图特征提取方法、装置以及一种信息图网页的检索方法、装置,能够识别并提取网页中包含的信息图特征,以及能够根据用户的检索需求准确地检索到信息图网页,从而方便用户对信息图网页的检索。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种网页的信息图特征提取方法,所述方法包括:服务器根据网页是否满足预定特征识别包含信息图的网页;其中,所述预定特征包括以下四类特征中的至少一种:表示信息图关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页统一资源定位符URL模式为信息图网页的第四类特征;以及提取识别出的所述包含信息图的网页的结构化信息和信息图特征信息。
其中,所述提取识别出的包含信息图的网页的结构化信息的步骤包括:对识别出的所述包含信息图的网页进行解析,识别出所述网页的正文和标题字段,并提取所述信息图图像周围的文字信息;根据所述网页的链接关系获取链接到所述网页的锚文本,并获取所述网页正文中的图像链接以抓取图像文件;以及保存获取到的所述正文、标题、图像链接、图像周围的文字信息、网页的锚文本以及图像文件信息。
其中,所述信息图的特征信息包括图像属性特征、图像颜色特征、图像内容特征的至少一种特征信息。
其中,所述服务器根据网页是否满足预定特征识别包含信息图的网页的步骤具体为:服务器根据所述预定特征,采用机器学习算法识别包含信息图的网页。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种信息图网页的检索方法,所述方法包括如上任意一项所述的网页的信息图特征提取方法;以及分别对每个所述包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数;以及将相关性分数符合条件的信息图网页作为检索到的信息图网页输出。
其中,所述分别对每个所述包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数的步骤具体为:分别对每个所述包含信息图的网页与接收到的用户查询语句,进行所述结构化信息和/或所述特征信息与所述用户查询语句之间的相关性分数的计算。
其中,所述将相关性分数符合条件的信息图网页作为检索到的信息图网页输出的步骤具体为:将相关性分数符合条件的信息图网页作为检索到的信息图网页,动态生成对应的缩略图,并输出所述缩略图。
其中,所述分别对每个所述包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数的步骤包括:根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页;以及对所述结构化信息和/或所述特征信息与所述用户查询语句进行相关性计算而得到相关性分数,以得到每个所述包含信息图的网页与所述用户查询语句两者之间的相关性分数。
其中,所述根据所述结构化信息和/或所述特征信息计算用户查询语句与所述候选网页的相关性分数的步骤之后,所述方法还包括:根据所述候选网页的权重对应调整其相关性分数;以及根据所述候选网页的信息图特征信息对应调整其相关性分数,以得到每个所述包含信息图的网页与所述用户查询语句两者之间的相关性分数。
其中,所述根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页的步骤之前,所述述方法还包括:将所述结构化信息中的文本信息与所述信息图特性信息中的文本信息建立倒排索引;所述根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页的步骤具体为:利用所述倒排索引确定所述结构化信息中包含所述用户查询语句中的关键词的信息图网页作为所述候选网页。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种网页信息图特征提取装置,所述装置包括:识别模块,用于根据网页是否满足预定特征识别包含信息图的网页;其中,所述预定特征包括以下四类特征中的至少一种:表示信息图关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页统一资源定位符URL模式为信息图网页的第四类特征;以及网页处理模块,用于提取所述识别模块识别出的所述包含信息图的网页的结构化信息和信息图特征信息。
其中,所述网页处理模块用于对识别出的所述包含信息图的网页进行解析,识别出所述网页的正文和标题字段,并提取所述信息图图像周围的文字信息;根据所述网页的链接关系获取链接到所述网页的锚文本,并获取所述网页正文中的图像链接以抓取图像文件;以及保存获取到的所述正文、标题、图像链接、图像周围的文字信息、网页的锚文本以及图像文件信息。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种信息图网页的检索装置,所述装置包括如上任意一项所述的网页信息图特征提取装置,以及检索模块,用于分别对每个所述包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数;以及执行模块,用于将所述检索模块得到的相关性分数符合条件的信息图网页作为检索到的信息图网页输出。
其中,所述执行模块还用于将所述检索模块得到的相关性分数符合条件的信息图网页作为检索到的信息图网页,动态生成对应的缩略图,并输出所述缩略图。
其中,所述检索模块包括:关键词提取子模块,用于根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页;计算子模块,用于对所述结构化信息和/或所述特征信息与所述用户查询语句进行相关性计算而得到相关性分数;调整子模块,用于根据所述候选网页的权重调整其相关性分数,以及根据所述候选网页的信息图特征信息对应调整其相关性分数,以最终确定每个所述包含信息图的网页与所述用户查询语句两者之间的相关性分数。
本发明的有益效果是:本发明提供一种信息图网页的信息图提取、检索方法和装置,根据网页是否满足预定特征以识别包含信息图的网页,并提取信息图网页的结构化信息和信息图特征信息,当接收到用户查询语句时,对每个信息图网页与用户查询语句进行结构化信息和/或该特征信息与该用户查询语句之间的相关性分数的计算,以输出相关性分数符合条件的信息图网页,从而实现根据用户的检索需求准确地提取并检索信息图网页,方便用户对信息图网页的检索。
附图说明
图1是本发明实施方式中一种网页的信息图特征提取方法的流程图;
图2是本发明实施方式中提取结构化信息的方法的流程图;
图3是本发明实施方式中一种信息图网页的检索方法的流程图;
图4是本发明一实施方式中相关性分数计算方法的流程图;
图5是本发明另一实施方式中相关性分数计算方法的流程图;
图6是本发明实施方式中一种网页的信息图特征提取装置的结构示意图;
图7是本发明实施方式中一种信息图网页的检索装置的结构示意图;
图8是本发明实施方式中检索模块的结构示意图。
具体实施方式
首先对本发明中出现的现有技术名词进行解释说明。
倒排索引:Inverted index,也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,不是由记录来确定属性值,而是由属性值来确定记录的位置。
机器学习算法:Machine Learning,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
下面结合附图和实施方式对本发明进行详细说明。
请参阅图1,为本发明实施方式中一种网页的信息图特征提取方法流程图,该方法包括:
步骤S10,服务器根据网页是否满足预定特征识别包含信息图的网页。
其中,该预定特征包括以下四类特征中的至少一种:表示信息图相关联的关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页URL模式为信息图网页的第四类特征。
在互联网上,根据网页包含的主要内容不同而存在各式各样的网页,例如,视频网页、图片网页、文本网页、信息图网页。服务器需要从各式各样的网页中将包含信息图的网页识别出来。
具体地,首先,服务器从多个网页的网页标题中提取关键词,并将提取出的信息图关键词形成关键词组列表。其中,信息图关键词可以包括:“图解”、“图说”、“一张图看懂”、“一张图教会”、“一张图学会”、“信息图”等。通过对大量网页进行如上所述的关键词分析,提取出上述信息图关键词,并将该信息图关键词作为识别信息图网页的第一类特征。
其次,由于信息图网页的正文中必定含有一张且一般只含有一张图片,因此提取网页的正文,将网页正文中的图像数量是否为一作为识别信息图网页的第二类特征。
第三,由于信息图网页大部分内容由信息图来承载,可以得到信息图网页的正文中的文本信息通常比其他类型的网页少,因此将网页的正文文本长短作为识别信息图网页的第三类特征。通常设定一阈值,将网页的正文文本长度是否小于该阈值作为识别信息图网页的第三类特征。
然后,提取网页的URL模式,将网页的URL模式作为识别信息图网页的第四类特征。将网页的URL模式作为识别信息图网页的第四类特征,这是由于随着信息图的快速发展,涌现出大量网站以子频道或专题的形式来专门展现信息图网页,甚至有部分网站全站均为信息图网页,因此可以提取这些网站的URL的模式作为识别信息图网页的特征。
最后,服务器结合如上所述的四类特征,采用机器学习算法就可以快速识别出网页是否为信息图网页。
在本实施方式中,服务器在获取到一个网页时,依次判断该网页是否满足第一、二、三、四类特征,以判断该网页是否为信息图网页。在其他实施方式中,服务器在获取到一个网页时,还可以判断该网页是否满足四类特征中的至少一个特征以判断该网页是否为信息图网页,例如,服务器判断网页同时满足第一、三类特征,则确定该网页为信息图网页。
步骤S11,对识别出的包含信息图的网页进行结构化处理以提取结构化信息,并解析网页中包含的信息图以提取信息图特征信息。
利用本发明实施方式,根据网页是否满足预定特征以识别包含信息图的网页,并提取信息图网页的结构化信息和信息图特征信息,为用户检索提供依据,从而能够准确地提取网页的信息图特征。
请同时参阅图2,步骤S11,即,对识别出的包含信息图的网页进行结构化处理以提取结构化信息的步骤具体通过如下步骤实现:
步骤S20,对识别出的包含信息图的网页的源码进行解析,识别出网页的正文和标题字段,并提取信息图图像周围的文字信息。
步骤S21,根据该网页的链接关系获取链接到该网页的锚文本,并获取该网页正文中的图像链接以抓取图像文件。
步骤S22,保存获取到的正文、标题、图像链接、图像周围的文字信息、网页的锚文本以及图像文件信息。
具体地,将获取到的正文、标题、图像链接、图像周围的文字信息、网页的锚文本以及图像文件信息全部保存到数据库中,该数据库为网页检索提供依据,具体内容详见下文的相关内容。
进一步地,信息图的特征信息包括如下内容:
(1)图像属性特征,包括图像的长、宽、长宽比、图像的格式、图像文件大小。一般信息图制作者都会考虑适合显示与复制传播这两个因素,因此图像宽度一般不大,但长度较长,以承载更多信息。为便于网络传播,一般选择压缩比比较高的图像格式,且图像文件的大小与风景图像的文件大小相比较小。也就是说,信息图的图像属性特征为宽度较小、长度较长、压缩比较高、文件大小较小。因此,图像属性特征可以作为一类较好的区分特征。
(2)图像颜色特征,包括色饱和度、颜色数量、主色覆盖范围、主色数量、连续出现的颜色数量等特征。由于信息图一般为计算机生成的图像,与自然图像(例如照片)相比,其颜色差异较大,通常仅有几种主要的颜色组成,且其色饱和度也与自然图像存在差异。
(3)图像内容特征,信息图中含有大量文字,因此是否包含文字信息是信息图的一个重要特征。对图像内容进行分析,并检测图像是否含有文字,然后采用光学文字识别技术(Optical Character Recognition,OCR)提取图像中含有的文字,将文字数量作为一类重要特征来识别信息图。
同样地,将获取到的如上所述的信息图特征信息保存到数据库中。
提取信息图的特征信息,不仅可以用于进一步筛选信息图,还可以为排序提供依据,详见下文所述。
请参阅图3,为本发明实施方式中一种信息图网页的检索方法的流程图,该方法包括:
步骤S30,服务器根据网页是否满足预定特征识别包含信息图的网页。
其中,该预定特征包括以下四类特征中的至少一种:表示信息图相关联的关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页URL模式为信息图网页的第四类特征。
步骤S31,对识别出的包含信息图的网页进行结构化处理以提取结构化信息,并解析网页中包含的信息图以提取信息图的特征信息。
步骤S32,分别对每个包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数。
其中,相关性计算具体为计算该结构化信息和/或该特征信息与查询语句之间的相关性分数。
请参阅图4,步骤S32,即,分别对每个包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数的步骤具体通过如下步骤实现:
步骤S40,根据该结构化信息获取包含用户查询语句中的关键词的信息图网页作为候选网页。
具体地,由于该结构化信息和该特征信息已经预先保存在数据库中,当接收到用户输入的查询语句时,根据查询语句中的关键词从该数据库中保存的信息直接查找和获取包含该关键词的信息图网页。
步骤S41,对该结构化信息和/或该特征信息与该用户查询语句进行相关性计算而得到相关性分数。
步骤S42,根据候选网页的权重调整其相关性分数。
其中,网页被预先添加权重标签,即,影响页面权重或者相关性的html标签。在本实施方式中,如步骤S41所述计算得到的相关性分数后,还要进一步地考虑网页权重,从而相应地调整相关性分数。
步骤S43,根据候选网页的信息图特征信息对应调整其相关性分数,以最终确定每个包含信息图的网页与用户查询语句两者之间的相关性分数。
例如,当用户查询语句为“计算机-工作流程图”,则能够确定所需查找的信息图特征应该是图像颜色特征为颜色数量较少、饱和度交底、差异较小,内容特征为含有大量文字。因此,当得到相关性分数后,还要结合候选网页的信息图特征(包括图像属性、颜色、内容)对相关性分数进行调整,即,候选网页中特想特征越接近上述特征的,其相关性分数越高,反之则越低。从而,实现根据候选网页的信息图特征信息调整相关性分数。
如上所述,当接收到用户输入的查询语句时,首先计算该查询语句与检索字段(包含结构化信息和/或特征信息)的匹配程度,然后再结合网页权重、网站权重、以及点击信息等,计算信息图网页最终的相关性分数。
步骤S33,将相关性分数符合条件的信息图网页作为检索到的信息图网页输出。
在本实施方式中,相关性分数条件具体为相关性分数最高,具体地,根据计算得到的查询语句与各个信息图网页的相关性分数的高低对信息图网页进行排序,找出相关性分数最高的N个网页输出给用户。
在其他实施方式中,相关性分数符合条件还可以是相关性分数按照从高到低排列后位于前M个位置的相关性。
其中,N或M是不为0的自然数,且根据用户的查看请求和翻页数量预先设定。
进一步地,由于传统的文本型网页在展示搜索结果时,通常选取网页中与查询语句最相关的一段文本作为摘要展现给用户。但是,信息图网页不同于传统的文本型网页,信息图网页含有文本信息较少,主要内容在信息图中展现,因此在本发明实施方式中根据用户的网络环境、手机屏幕大小等参数,将检索结果动态生成信息图的缩略图,然后展示给用户,以提升用户体验。
利用本发明实施方式,根据网页是否满足预定特征以识别包含信息图的网页,并提取信息图网页的结构化信息和信息图特征信息,当接收到用户查询语句时,对每个信息图网页与用户查询语句进行结构化信息和/或该特征信息与该用户查询语句之间的相关性分数的计算,以输出相关性分数符合条件的信息图网页,从而实现根据用户的检索需求准确地提取并检索信息图网页,方便用户对信息图网页的检索。
请参阅图5,在步骤S40之前,即,根据该结构化信息获取包含用户查询语句中的关键词的信息图网页作为候选网页的步骤之前,该方法还包括:
步骤S50,将结构化信息中的文本信息与信息图特性信息中的文本信息建立倒排索引。
进一步地,步骤S40还可以具体通过如下步骤实现:
步骤S51,利用该倒排索引确定该结构化信息中包含用户查询语句中的关键词的信息图网页作为该候选图网页。
图5中的其他步骤请参见图4及对应的文字说明。
请参阅图6,为本发明实施方式中的一种网页的信息图特征提取装置的结构示意图,该装置60包括识别模块61和网页处理模块62。
该识别模块61用于根据网页是否满足预定特征识别包含信息图的网页。其中,该预定特征包括以下四类特征中的至少一种:表示信息图相关联的关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页URL模式为信息图网页的第四类特征。
该网页处理模块62用于对识别出的包含信息图的网页进行结构化处理以提取结构化信息,并解析网页中包含的信息图以提取信息图特征信息。
具体地,首先,该识别模块61从多个网页的网页标题中提取关键词,并将提取出的信息图关键词形成关键词组列表。其中,信息图关键词可以包括:“图解”、“图说”、“一张图看懂”、“一张图教会”、“一张图学会”、“信息图”等。通过对大量网页进行如上所述的关键词分析,提取出上述信息图关键词,并将该信息图关键词作为识别信息图网页的第一类特征。
其次,由于信息图网页的正文中必定含有一张且一般只含有一张图片,因此提取网页的正文,将网页正文中的图像数量是否为一作为识别信息图网页的第二类特征。
第三,由于信息图网页大部分内容由信息图来承载,可以得到信息图网页的正文中的文本信息通常比其他类型的网页少,因此将网页的正文文本长短作为识别信息图网页的第三类特征。通常设定一阈值,将网页的正文文本长度是否小于该阈值作为识别信息图网页的第三类特征。
然后,该识别模块61提取网页的URL模式,将网页的URL模式作为识别信息图网页的第四类特征。
最后,该识别模块61结合如上所述的四类特征,采用机器学习算法就可以快速识别出网页是否为信息图网页。
在本实施方式中,该识别模块61在获取到一个网页时,依次判断该网页是否满足第一、二、三、四类特征,以判断该网页是否为信息图网页。在其他实施方式中,该识别模块61在获取到一个网页时,还可以判断该网页是否满足四类特征中的至少一个特征以判断该网页是否为信息图网页,例如,该识别模块61判断网页同时满足第一、三类特征,则确定该网页为信息图网页。
该网页处理模块62用于对该识别模块61识别出的包含信息图的网页进行结构化处理以提取结构化信息,并解析网页中包含的信息图以提取信息图的特征信息。
具体地,该网页处理模块62对识别出的包含信息图的网页的源码进行解析,识别出网页的正文和标题字段,并提取信息图图像周围的文字信息;根据该网页的链接关系获取链接到该网页的锚文本,并获取该网页正文中的图像链接以抓取图像文件;以及保存获取到的正文、标题、图像链接、图像周围的文字信息、网页的锚文本以及图像文件信息。
进一步地,信息图的特征信息包括如下内容:
(1)图像属性特征,包括图像的长、宽、长宽比、图像的格式、图像文件大小。一般信息图制作者都会考虑适合显示与复制传播这两个因素,因此图像宽度一般不大,但长度较长,以承载更多信息。为便于网络传播,一般选择压缩比比较高的图像格式,且图像文件的大小与风景图像的文件大小相比较小。也就是说,信息图的图像属性特征为宽度较小、长度较长、压缩比较高、文件大小较小。因此,图像属性特征可以作为一类较好的区分特征。
(2)图像颜色特征,包括色饱和度、颜色数量、主色覆盖范围、主色数量、连续出现的颜色数量等特征。由于信息图一般为计算机生成的图像,与自然图像(例如照片)相比,其颜色差异较大,通常仅有几种主要的颜色组成,且其色饱和度也与自然图像存在差异。
(3)图像内容特征,信息图中含有大量文字,因此是否包含文字信息是信息图的一个重要特征。对图像内容进行分析,并检测图像是否含有文字,然后采用光学文字识别技术(Optical Character Recognition,OCR)提取图像中含有的文字,将文字数量作为一类重要特征来识别信息图。
请参阅图7,为本发明实施方式中一种信息图网页的检索装置的结构示意图,该装置70包括网页的信息图特征提取装置71以及检索模块72、执行模块73。其中,该网页的信息图特征提取装置71包括识别模块710和网页处理模块711,其功能请参见图6及对应的文字说明,在此不加赘述。
进一步地,该检索模块72用于分别对每个包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数。其中,相关性计算具体为计算该结构化信息和/或该特征信息与查询语句之间的相关性分数。
该执行模块73用于将该检索模块72得到的相关性分数符合条件的信息图网页作为检索到的信息图网页输出。
请同时参阅图8,该检索模块72包括:
关键词提取子模块721,用于根据该结构化信息获取包含用户查询语句中的关键词的信息图网页作为候选网页。
计算子模块722,用于对该结构化信息和/或该特征信息与该用户查询语句进行相关性计算而得到相关性分数。
调整子模块723,用于根据候选网页的权重调整其相关性分数,以及根据候选网页的信息图特征信息对应调整其相关性分数,以最终确定每个包含信息图的网页与用户查询语句两者之间的相关性分数。
在本实施方式中,相关性分数条件具体为相关性分数最高,具体地,根据计算得到的查询语句与各个信息图网页的相关性分数的高低对信息图网页进行排序,找出相关性分数最高的N个网页输出给用户。
在其他实施方式中,相关性分数符合条件还可以是相关性分数按照从高到低排列后位于前M个位置的相关性。
其中,N或M是不为0的自然数,且根据用户的查看请求和翻页数量预先设定。
进一步地,由于传统的文本型网页在展示搜索结果时,通常选取网页中与查询语句最相关的一段文本作为摘要展现给用户。但是,信息图网页不同于传统的文本型网页,信息图网页含有文本信息较少,主要内容在信息图中展现,因此在本发明实施方式中根据用户的网络环境、手机屏幕大小等参数,将检索结果动态生成信息图的缩略图,然后展示给用户,以提升用户体验。
进一步地,该关键词提取子模块721还用于将结构化信息中的文本信息与信息图特性信息中的文本信息建立倒排索引,然后再利用该倒排索引确定该结构化信息中包含用户查询语句中的关键词的信息图网页作为该候选图网页。
本发明提供的一种信息图网页的信息图提取、检索方法和装置,根据网页是否满足预定特征以识别包含信息图的网页,并提取信息图网页的结构化信息和信息图特征信息,当接收到用户查询语句时,对每个信息图网页与用户查询语句进行结构化信息和/或该特征信息与该用户查询语句之间的相关性分数的计算,以输出相关性分数符合条件的信息图网页,从而实现根据用户的检索需求准确地提取并检索信息图网页,方便用户对信息图网页的检索。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (12)

1.一种网页的信息图特征提取方法,其特征在于,所述方法包括:
服务器根据网页是否满足预定特征识别包含信息图的网页;其中,所述预定特征包括以下四类特征中的至少一种:表示信息图关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页统一资源定位符URL模式为信息图网页的第四类特征;以及
提取识别出的所述包含信息图的网页的结构化信息和信息图特征信息,包括:
对识别出的所述包含信息图的网页进行解析,识别出所述网页的正文和标题字段,并提取所述信息图图像周围的文字信息;
根据所述网页的链接关系获取链接到所述网页的锚文本,并获取所述网页正文中的图像链接以抓取图像文件;以及
保存获取到的所述正文、标题、图像链接、图像周围的文字信息、网页的锚文本以及图像文件信息。
2.根据权利要求1所述的网页的信息图特征提取方法,其特征在于,所述信息图的特征信息包括图像属性特征、图像颜色特征、图像内容特征的至少一种特征信息。
3.根据权利要求1所述的网页的信息图特征提取方法,其特征在于,所述服务器根据网页是否满足预定特征识别包含信息图的网页的步骤具体为:
服务器根据所述预定特征,采用机器学习算法识别包含信息图的网页。
4.一种信息图网页的检索方法,其特征在于,所述方法包括如权利要求1-3任意一项所述的网页的信息图特征提取方法;以及
分别对每个所述包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数;以及
将相关性分数符合条件的信息图网页作为检索到的信息图网页输出。
5.根据权利要求4所述的信息图网页的检索方法,其特征在于,所述将相关性分数符合条件的信息图网页作为检索到的信息图网页输出的步骤具体为:
将相关性分数符合条件的信息图网页作为检索到的信息图网页,动态生成对应的缩略图,并输出所述缩略图。
6.根据权利要求5所述的信息图网页的检索方法,其特征在于,所述分别对每个所述包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数的步骤包括:
根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页;以及
对所述结构化信息和/或所述特征信息与所述用户查询语句进行相关性计算而得到相关性分数,以得到每个所述包含信息图的网页与所述用户查询语句两者之间的相关性分数。
7.根据权利要求6所述的信息图网页的检索方法,其特征在于,所述根据所述结构化信息和/或所述特征信息计算用户查询语句与所述候选网页的相关性分数的步骤之后,所述方法还包括:
根据所述候选网页的权重对应调整其相关性分数;以及
根据所述候选网页的信息图特征信息对应调整其相关性分数,以得到每个所述包含信息图的网页与所述用户查询语句两者之间的相关性分数。
8.根据权利要求6所述的信息图网页的检索方法,其特征在于,所述根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页的步骤之前,所述述方法还包括:
将所述结构化信息中的文本信息与所述信息图特性信息中的文本信息建立倒排索引;
所述根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页的步骤具体为:
利用所述倒排索引确定所述结构化信息中包含所述用户查询语句中的关键词的信息图网页作为所述候选网页。
9.一种网页信息图特征提取装置,其特征在于,所述装置包括:
识别模块,用于根据网页是否满足预定特征识别包含信息图的网页;其中,所述预定特征包括以下四类特征中的至少一种:表示信息图关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页统一资源定位符URL模式为信息图网页的第四类特征;以及
网页处理模块,用于提取所述识别模块识别出的所述包含信息图的网页的结构化信息和信息图特征信息,包括:
对识别出的所述包含信息图的网页进行解析,识别出所述网页的正文和标题字段,并提取所述信息图图像周围的文字信息;根据所述网页的链接关系获取链接到所述网页的锚文本,并获取所述网页正文中的图像链接以抓取图像文件;以及保存获取到的所述正文、标题、图像链接、图像周围的文字信息、网页的锚文本以及图像文件信息。
10.一种信息图网页的检索装置,其特征在于,所述装置包括如权利要求9所述的网页信息图特征提取装置,以及
检索模块,用于分别对每个所述包含信息图的网页与接收到的用户查询语句进行相关性计算以得到两者之间的相关性分数;以及
执行模块,用于将所述检索模块得到的相关性分数符合条件的信息图网页作为检索到的信息图网页输出。
11.根据权利要求10所述的信息图网页的检索装置,其特征在于,所述执行模块还用于将所述检索模块得到的相关性分数符合条件的信息图网页作为检索到的信息图网页,动态生成对应的缩略图,并输出所述缩略图。
12.根据权利要求10所述的信息图网页的检索装置,其特征在于,所述检索模块包括:
关键词提取子模块,用于根据所述结构化信息获取包含所述用户查询语句中的关键词的信息图网页作为候选网页;
计算子模块,用于对所述结构化信息和/或所述特征信息与所述用户查询语句进行相关性计算而得到相关性分数;
调整子模块,用于根据所述候选网页的权重调整其相关性分数,以及根据所述候选网页的信息图特征信息对应调整其相关性分数,以最终确定每个所述包含信息图的网页与所述用户查询语句两者之间的相关性分数。
CN201510155832.5A 2015-04-02 2015-04-02 一种信息图网页的信息图提取、检索方法和装置 Active CN104881428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510155832.5A CN104881428B (zh) 2015-04-02 2015-04-02 一种信息图网页的信息图提取、检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510155832.5A CN104881428B (zh) 2015-04-02 2015-04-02 一种信息图网页的信息图提取、检索方法和装置

Publications (2)

Publication Number Publication Date
CN104881428A CN104881428A (zh) 2015-09-02
CN104881428B true CN104881428B (zh) 2019-03-29

Family

ID=53948922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510155832.5A Active CN104881428B (zh) 2015-04-02 2015-04-02 一种信息图网页的信息图提取、检索方法和装置

Country Status (1)

Country Link
CN (1) CN104881428B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599155B (zh) * 2016-12-07 2020-05-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN106897267B (zh) * 2017-02-27 2020-06-02 广州阿里巴巴文学信息技术有限公司 文章缩略文意生成方法、装置及服务器
CN110083754A (zh) * 2019-04-23 2019-08-02 重庆紫光华山智安科技有限公司 结构变化网页的自适应数据抽取方法
CN111831885B (zh) * 2020-07-14 2021-03-16 深圳市众创达企业咨询策划有限公司 一种互联网信息检索系统与方法
CN113434802A (zh) * 2021-08-25 2021-09-24 北京鼎天宏盛科技有限公司 一种企业管理咨询服务系统及方法
CN115037739B (zh) * 2022-06-13 2024-02-23 深圳乐播科技有限公司 文件传输方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246502A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种在网络上搜索图片的方法及系统
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN104281629A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 从网页中提取图片的方法、装置及客户端设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123363B (zh) * 2014-07-21 2018-07-13 北京奇虎科技有限公司 网页主图提取方法及装置
CN104239461A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 提取图片摘要的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246502A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种在网络上搜索图片的方法及系统
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN103425644A (zh) * 2012-05-14 2013-12-04 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN104281629A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 从网页中提取图片的方法、装置及客户端设备

Also Published As

Publication number Publication date
CN104881428A (zh) 2015-09-02

Similar Documents

Publication Publication Date Title
CN104881428B (zh) 一种信息图网页的信息图提取、检索方法和装置
US9514216B2 (en) Automatic classification of segmented portions of web pages
US10198506B2 (en) System and method of sentiment data generation
US9594730B2 (en) Annotating HTML segments with functional labels
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
CN106649778B (zh) 基于深度问答的交互方法和装置
JP2017138985A (ja) 人工知能に基づくモバイル検索方法及び装置
US10311113B2 (en) System and method of sentiment data use
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
US8572087B1 (en) Content identification
CN109582945A (zh) 文章生成方法、装置及存储介质
CN111753104A (zh) 对多媒体内容进行的场境搜索
CN104376114B (zh) 一种搜索结果展示方法及装置
CN103473369A (zh) 基于语义的信息采集方法及系统
CN110489649B (zh) 标签关联内容的方法及装置
US20150100877A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
US20230214423A1 (en) Video generation
CN114896417A (zh) 一种基于知识图谱构建计算机教育知识图谱的方法
WO2021111400A1 (en) System and method for enabling a search platform to users
CN113435213B (zh) 针对用户问题和知识库返回答案的方法和装置
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN114818639A (zh) 演示文稿生成方法、装置、设备及存储介质
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
CN112507105A (zh) 一种基于微信公众号的多模智能问答系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200525

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510000 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.