CN100392656C - Web搜索中的图文协同方法 - Google Patents
Web搜索中的图文协同方法 Download PDFInfo
- Publication number
- CN100392656C CN100392656C CNB2006100401568A CN200610040156A CN100392656C CN 100392656 C CN100392656 C CN 100392656C CN B2006100401568 A CNB2006100401568 A CN B2006100401568A CN 200610040156 A CN200610040156 A CN 200610040156A CN 100392656 C CN100392656 C CN 100392656C
- Authority
- CN
- China
- Prior art keywords
- webpage
- image
- inquiry
- sigma
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 6
- 239000004744 fabric Substances 0.000 claims description 19
- 239000000463 material Substances 0.000 claims description 12
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种Web搜索的图文协同方法,其特征是该方法包括以下步骤:(1)网页处理装置接受用户提交的由关键字、词组成的查询,获取初始搜索产生的网页;(2)利用图文协同方法改善搜索效果;(3)根据不同信息产生的网页序列生成最终的搜索结果;(4)结束。本发明结合网页中相关文本描述和图像视觉内容的技术,通过有效地利用网页中的图像内容辅助来提高Web搜索的性能。
Description
一、技术领域
本发明涉及一种网页处理装置,特别涉及一种应用于Web搜索的图文协同方法。
二、背景技术
随着多媒体技术和互联网络的迅速发展,Web逐渐成为人们最重要和快捷的信息来源以及最常用的信息交互平台。由于Web本身的信息量巨大并且内容复杂,用户从互联网上寻找信息非常困难,因此,设计有效的Web搜索技术成为一项重要的工作。目前的Web搜索技术大多使用的是网页中的文本内容信息,或者是网页之间的链接包含的信息,没有考虑网页包含的图像等信息内容,其检索性能有待进一步提高。
三、发明内容
1、发明目的:本发明的主要目的是针对目前Web搜索技术没有很好地利用网页中的图像内容这一问题,提供一种结合网页中相关文本描述和图像视觉内容的技术,通过有效地利用网页中的图像内容辅助提高Web搜索的性能。
2、技术方案:为实现本发明所述目的,本发明所述的一种应用于Web搜索的图文协同方法,包括以下步骤:(1)获取初始搜索产生的网页;(2)基于网页中文本描述初步搜索网页中与查询相关的图像;(3)通过对获得图像的视觉内容的分析,产生查询的图像特征表示;(4)基于网页中图像内容的相关度对网页重新排序;(5)结合根据不同信息产生的网页序列生成最终的搜索结果;(6)结束。
下面将结合附图对最佳实施例进行详细说明。
四、附图说明
图1是网页处理装置工作流程图。
图2是本发明方法的流程图。
图3是产生查询的图像特征表示的流程图。
图4是根据网页中图像内容对网页排序的流程图。
图5是生成最终的搜索结果的流程图。
五、具体实施方式
如图1所示,网页处理装置接受用户提交的由关键字、词组成的查询,使用经典的基于关键词的Web搜索技术对Web进行搜索,产生初始搜索结果。假设初始搜索的结果中包含了M个网页的链接,结合对应网页中的文本描述和图像内容,使用图2中的图文协同技术改善搜索效果,最后将最终搜索结果返回给用户。
本发明的技术如图2所示。步骤10是初始动作。步骤11获取初始搜索结果中M个链接对应的网页。步骤12利用网页中与图像相关的文本描述,使用基于文本的Web图像搜索技术从获得的网页中搜索与查询相关的图像。这里的基于文本的Web图像搜索是通过对图像所在网页中文本的分析,基于与图像相关的文本描述,搜索网页中与查询相关的图像,可以使用现有的基于文本的Web图像搜索技术。假设初步搜索共获得N幅相关图像,组成图像集合C。步骤13通过对获得图像的视觉内容的分析,产生查询的图像特征表示,该步骤将在后面的部分结合图3进行具体介绍。步骤15利用获得的查询的特征表示,基于网页中图像的内容对网页重新排序。该步骤将在后面的部分结合图4进行具体介绍。步骤17同时考虑初始搜索产生的网页序列和重新排序后获得的网页序列,结合两种根据不同信息产生的网页序列,生成最终的网页序列。该步骤将在后面的部分结合图5进行具体介绍。步骤18是图2的结束状态。
图3详细说明了图2中的步骤13,其作用是生成查询的图像特征表示。步骤130是初始动作。步骤131生成获得的N幅图像对应的N个图像特征表示并组成集合I,可以使用数字图像处理教科书中的经典方法生成适用的图像特征,例如颜色、纹理、形状等特征,这样,每幅图像由一个特征向量表示,因此可以看成是特征空间中的一个点。步骤132判断I中剩余的图像是否超过20幅,是则执行步骤133,否则转步骤139。步骤133将图像计数参数i置为1。步骤134判断i是否不大于N,是则执行步骤135,否则转到步骤137。步骤135计算特征空间中第i幅图像对应特征位置的密度,计算方式如下:
其中xi表示I中的第i幅图像对应的特征表示,xij表示I中的第i幅图像在第j个特征上的取值。步骤136将图像计数参数i加1,然后转到步骤134。步骤137使用得到的密度对I中的图像排序,因为与查询相关的图像都包含了用户感兴趣的内容,具有相似的特征,将密集分布于特征空间中,在特征空间中对应位置处具有较大的密度;而不相关的图像由于具有歧义等原因,包含的内容各不相同,将散布于特征空间中,在特征空间中对应位置处密度较小。因此,将按密度排序时密度较小而排在后面的一半图像特征从I中去除,I中保留的是更为相关的图像。图3的步骤138将I中的图像数N设为原来的一半,然后转到步骤132。步骤139获得的是I中剩余的密度最大的一些图像,它们最可能与查询相似,因此计算它们的中心作为查询的图像特征表示,计算方式如下:
其中qj表示查询在第j个特征上的取值。使用每一特征的标准差的倒数作为衡量特征重要程度的权值,标准差σj的计算方式如下:
步骤140是图3的结束状态。
图4详细说明了图2的步骤15,其作用是基于获得的查询的图像特征表示,根据网页中的图像内容与查询的相似度对网页重新排序。步骤150是初始动作。步骤151将网页计数参数u置为1。步骤152判断u是否不大于网页总数M,是则执行步骤153,否则转到步骤160。步骤153取出初始检索获得的第u张网页中包含于C的Nu幅图像,并生成对应的特征。步骤154将网页中图像计数参数v置为1。步骤155判断v是否不大于Nu,是则执行步骤156,否则转到步骤158。步骤156基于图像特征计算网页中第v幅图像与查询间的加权欧氏距离作为图像和查询的相似度,加权欧氏距离的计算式为:
其中符号的含义与前面各式相同。
步骤157将网页中图像汁数参数v加1,然后转到步骤155。步骤158从第u张网页包含的Nu幅图像与查询的相似度中选择最高的相似度,作为网页与查询的相似度。对于Nu为0,即不包含C中图像的网页,相似度设为0。网页的这个相似度是基于包含图像的内容的相似性所作的评价。步骤159将网页计数参数u加1,然后转到步骤152。步骤160根据获得的各网页与查询的相似度对网页排序,对于相似度为0的网页,相互之间按初始的网页序列中的顺序排列。这是基于网页中图像的视觉内容信息产生的网页序列。步骤161是图4的结束状态。
图5详细说明了图2的步骤17,其作用是根据不同信息产生的网页序列分别计算网页的相关度,并结合两者生成网页的最终序列。步骤170是初始动作。步骤171获取网页的初始序列和基于图像内容产生的序列。步骤172将网页计数参数u置为1。步骤173判断u是否不大于网页总数M,是则执行步骤174和步骤175,否则转到步骤178。步骤174根据第u张网页在初始序列中的位置计算网页的相关度,计算方式如下:
其中n1u为第u张网页在初始序列中的位置,R1u为计算获得的网页相关度。T1是计算时使用的参数,可以根据需要将其设置为一个具体的整数值,例如780,Z1是规范化因子,使得
步骤175根据第u张网页在基于图像内容产生的序列中的位置计算网页的相关度,计算方式如下:
其中n2u为第u张网页在基于图像内容产生的序列中的位置,R2u为计算获得的网页相关度。T2是计算时使用的参数,可以根据需要将其设置为一个具体的整数值,例如720,Z2是规范化因子,使得
步骤176将根据不同信息获得的网页的两个相关度求均值,作为网页最终的相关度。例如对第u张网页,其最终的相关度为
步骤177将网页计数参数u加1,然后转到步骤173。步骤178根据获得的所有网页的最终相关度对网页排序,获得网页的最终序列。步骤179是图5的结束状态。
熟知本领域的人士将理解,虽然这里为例便于解释已描述了具体实施例,但是可在不背离本发明精神和范围的情况下作出各种改变。因此,除了所附权利要求之外不能用于限制本发明。
Claims (4)
1.一种Web搜索的图文协同方法,该方法在获取初始搜索产生的网页后通过协同利用网页中相关文本描述和图像视觉内容来改善搜索效果,该方法包括以下步骤:
(11)获取初始搜索结果中M个链接对应的网页;
(12)利用网页中与图像相关的文本描述,使用基于文本的Web图像搜索技术从获得的网页中搜索与查询相关的图像,假设获得了N幅相关图像,组成图像集合G;
(13)通过对获得图像的视觉内容的分析,产生查询的图像特征表示;
(15)用获得的查询的特征表示,基于网页中图像的内容对网页重新排序;
(17)同时考虑初始搜索产生的网页序列和重新排序后获得的网页序列,结合两种根据不同信息产生的网页序列,生成最终的网页序列;
(18)结束。
2.根据权利要求1所述的Web搜索的图文协同方法,其特征是步骤(13)包括以下步骤:
(131)生成获得的N幅图像对应的N个图像特征表示并组成集合I;
(132)判断I中剩余的图像是否超过20幅,是则执行(133),否则转(139);
(133)将图像计数参数i置为1;
(134)判断i是否不大于N,是则执行(135),否则转到(137);
(135)计算特征空间中第i幅图像对应特征位置的密度,计算方式如下:
其中xi表示I中的第i幅图像对应的特征表示,xij表示I中的第i幅图像在第j个特征上的取值;
(136)将图像计数参数i加1,转到(134);
(137)使用得到的密度对I中的图像排序;
(138)将按密度排序时密度较小而排在后面的一半图像特征从I中去除,I中保留的是更为相关的图像,将I中的图像数N设为原来的一半,转到(132);
(139)获得的是I中剩余的密度最大的一些图像,它们最可能与查询相似,因此计算它们的中心作为查询的图像特征表示,计算方式如下:
其中qj表示查询在第j个特征上的取值,使用每一特征的标准差的倒数作为衡量特征重要程度的权值,标准差σj的计算方式如下:
(140)结束。
3.根据权利要求1所述的Web搜索的图文协同方法,其特征是步骤(15)包括以下步骤:
(151)将网页计数参数u置为1;
(152)判断u是否不大于网页总数M,是则执行(153),否则转到(160);
(153)取出初始检索获得的第u张网页中包含于C的Nu幅图像,并生成对应的特征;
(154)将网页中图像计数参数v置为1;
(155)判断v是否不大于Nu,是则执行(156),否则转到(158);
(156)基于图像特征计算网页中第v幅图像与查询间的加权欧氏距离作为图像和查询的相似度,加权欧氏距离的计算式为:
(157)将网页中图像计数参数v加1,转到(155);
(158)从第u张网页包含的Nu幅图像与查询的相似度中选择最高的相似度,作为网页与查询的相似度;
(159)将网页计数参数u加1,转到(152);
(160)根据获得的各网页与查询的相似度对网页排序;
(161)结束。
4.根据权利要求1所述的Web搜索的图文协同方法,其特征是步骤(17)包括以下步骤:
(171)获取网页的初始序列和基于图像内容产生的序列;
(172)将网页计数参数u置为1;
(173)判断u是否不大于网页总数M,是则执行(174)和(175),否则转到(178);
(174)根据第u张网页在初始序列中的位置计算网页的相关度,计算方式如下:
其中n1u为第u张网页在初始序列中的位置,R1u为计算获得的网页相关度,T1是计算时使用的参数,Z1是规范化因子,使得
(175)根据第u张网页在基于图像内容产生的序列中的位置计算网页的相关度,计算方式如下:
其中n2u为第u张网页在基于图像内容产生的序列中的位置,R2u为计算获得的网页相关度,T2是计算时使用的参数,Z2是规范化因子,使得
(176)将根据不同信息获得的网页的两个相关度求均值,作为网页最终的相关度;
(177)将网页计数参数u加1,转到(173);
(178)根据获得的所有网页的最终相关度对网页排序,获得网页的最终序列;
(179)结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100401568A CN100392656C (zh) | 2006-05-10 | 2006-05-10 | Web搜索中的图文协同方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100401568A CN100392656C (zh) | 2006-05-10 | 2006-05-10 | Web搜索中的图文协同方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1881212A CN1881212A (zh) | 2006-12-20 |
CN100392656C true CN100392656C (zh) | 2008-06-04 |
Family
ID=37519416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100401568A Expired - Fee Related CN100392656C (zh) | 2006-05-10 | 2006-05-10 | Web搜索中的图文协同方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100392656C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262670A (zh) * | 2011-07-29 | 2011-11-30 | 中山大学 | 一种基于移动可视设备的跨媒体信息检索系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1271134A (zh) * | 1999-04-15 | 2000-10-25 | 伊塞公司 | 网络系统的动态回馈及查询方法 |
CN1389811A (zh) * | 2002-02-06 | 2003-01-08 | 北京造极人工智能技术有限公司 | 搜索引擎的智能化搜索方法 |
CN1493044A (zh) * | 2000-10-03 | 2004-04-28 | ���ɵ¡�N���ʸ��� | 通过利用可视图像定位网页的方法 |
CN1694102A (zh) * | 2004-04-29 | 2005-11-09 | 微软公司 | 用于使用链接和页面的布局分析来识别图像相关度的方法和系统 |
-
2006
- 2006-05-10 CN CNB2006100401568A patent/CN100392656C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1271134A (zh) * | 1999-04-15 | 2000-10-25 | 伊塞公司 | 网络系统的动态回馈及查询方法 |
CN1493044A (zh) * | 2000-10-03 | 2004-04-28 | ���ɵ¡�N���ʸ��� | 通过利用可视图像定位网页的方法 |
CN1389811A (zh) * | 2002-02-06 | 2003-01-08 | 北京造极人工智能技术有限公司 | 搜索引擎的智能化搜索方法 |
CN1694102A (zh) * | 2004-04-29 | 2005-11-09 | 微软公司 | 用于使用链接和页面的布局分析来识别图像相关度的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN1881212A (zh) | 2006-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102495860B (zh) | 基于语言模型的专家推荐方法 | |
CN103577423B (zh) | 关键词分类方法及系统 | |
CN103329126B (zh) | 利用联合图像-音频查询的搜索 | |
US8768919B2 (en) | Web searching | |
CN103810299B (zh) | 基于多特征融合的图像检索方法 | |
CN102122295B (zh) | 用于执行文档搜索的方法、服务器设备和系统 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
CN105975984B (zh) | 基于证据理论的网络质量评价方法 | |
CN103345528B (zh) | 一种基于关联分析和knn的文本分类方法 | |
CN107291699A (zh) | 一种句子语义相似度计算方法 | |
CN106504011A (zh) | 一种业务对象的展示方法和装置 | |
CN102567326B (zh) | 一种信息搜索、及信息搜索排序装置和方法 | |
CN110674407A (zh) | 基于图卷积神经网络的混合推荐方法 | |
CN102789449B (zh) | 对评论文本进行评价的方法和装置 | |
KR20080048149A (ko) | 카테고리 광고 시스템 및 방법 | |
CN106777282B (zh) | 相关搜索的排序方法和装置 | |
Yang et al. | Collecting high quality overlapping labels at low cost | |
CN110059220A (zh) | 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法 | |
CN106294535A (zh) | 网站的识别方法和装置 | |
CN109446393B (zh) | 一种网络社区话题分类方法及装置 | |
CN107133282A (zh) | 一种改进的基于双向传播的评价对象识别方法 | |
CN106326338A (zh) | 基于搜索引擎的服务提供方法和装置 | |
CN108595546A (zh) | 基于半监督的跨媒体特征学习检索方法 | |
CN105956010A (zh) | 基于分布式表征和局部排序的分布式信息检索集合选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080604 Termination date: 20120510 |