CN103106282B - 一种网页搜索与展示的方法 - Google Patents
一种网页搜索与展示的方法 Download PDFInfo
- Publication number
- CN103106282B CN103106282B CN201310061099.1A CN201310061099A CN103106282B CN 103106282 B CN103106282 B CN 103106282B CN 201310061099 A CN201310061099 A CN 201310061099A CN 103106282 B CN103106282 B CN 103106282B
- Authority
- CN
- China
- Prior art keywords
- search
- title list
- user
- webpage
- target information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 150000001875 compounds Chemical class 0.000 claims abstract description 13
- 239000002131 composite material Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 229930000044 secondary metabolite Natural products 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 235000010724 Wisteria floribunda Nutrition 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000011453 Vigna umbellata Nutrition 0.000 description 1
- 240000001417 Vigna umbellata Species 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明适用于网络资讯智能获取技术领域,提供了一种网页搜索与展示的方法。针对已知网站通过输入URL及关键词直接搜索,针对未知网站输入语义导向检索词,进行二次或三次复合搜索,并通过扩展查询、用户反馈来进一步提高资源获取效率和精度,通过网页摘要关键词提取和排序来进一步为用户直观展示检索词与网页主题之间的关联关系,提高了用户体验。
Description
技术领域
本发明涉及数据搜索和数据分析领域,具体地,涉及一种网页搜索与展示的方法。
背景技术
由于当前谷歌、百度、有道、即刻等网络搜索引擎搜则有,不搜则无,网站、文本等一起海量出现、各种资讯网站的不断涌现和频繁更新,“信息大爆炸”时代到来等,致使网络目标资讯获取的时间成本逐渐增高,时效性严重滞后,资讯认知范围的片面性日益加剧。信息对称程度愈加低下导致了大量的机会损失和发展损失。
同时,现有的各种搜索引擎并不能针对海量信息数据,以一种精简有效的搜索方式,来真正的针对用户的不同搜索需求,进行不同模式下的有效搜索;并且,用户在进行搜索时,也并没有真正的能够有效的参考之前的用户的搜索历史信息,对于一个用户来说,他通过搜索获得的网页列表在很多时候排在前面的并不一定是最符合他需要的网页;并且,用户在很多时候也很难从搜索获得的网页列表中一目了然的看出他使用的搜索词与网页列表之间的关联关系。
发明内容
本发明的发明目的在于解决上述搜索引擎的机械性、静态性、低效性和不直观性,以及用户对资讯认知范围的片面性所导致的目标资讯获取缺陷。
具体技术方案如下:
一种网页搜索与展示的方法,其特征在于,所述方法包括下述步骤:
用户终端判断待搜索的网页是否为可访问的已知网站,
针对已知网站,通过输入其URL地址、一个或多个检索词,进行定时或实时匹配搜索,生成目标资讯标题列表;
针对未知网站,通过输入一个或多个第一语义导向检索词,进行定时或实时穷尽式匹配搜索网络中的资讯信息,生成供浏览的资源化海量资讯标题列表,并通过输入一个或多个第二语义导向检索词,在资源化海量资讯标题列表对应的网页中进行二次复合搜索,生成目标资讯标题列表;
将上述生成的目标资讯标题列表发送至用户终端,进行定时或实时展示。
作为本发明的进一步改进,在针对已知网站生成目标资讯标题列表时,凡同时含有多个检索词其中一部分的资讯标题,视为目标资讯标题,直接生成目标资讯标题列表。
作为本发明的进一步改进,在针对未知网站生成目标资讯标题列表时,所述第一语义导向检索词代表特定资讯领域或方向。
作为本发明的进一步改进,在针对未知网站,输入一个或多个第一语义导向检索词,进行定时或实时穷尽式匹配搜索网络中的资讯信息时,对第一语义导向检索词进行检索词汇扩展,获取与第一语义导向检索词具有相似含义的关联词汇,并根据关联词汇进行扩展搜索查询。
作为本发明的进一步改进,分别获得第一语义导向检索词对应的网页搜索集合和关联词汇扩展搜索获得的网页搜索集合,并计算两个集合的网页相似度,根据相似度进行两个集合的合并,并生成供浏览的资源化海量资讯标题列表。
作为本发明的进一步改进,通过如下方式进行相似度的计算: 其中w1代表第一语义导向检索词对应的网页搜索集合,w2代表关联词汇扩展搜索获得的网页搜索集合,w1∩w2代表两个集合中共有的网页,|w1|,|w2|,|w1∩w2|分别是计算w1,w2,w1∩w2所包含的网页数目。
作为本发明的进一步改进,通过如下方式进行相似度的计算: 其中w1代表第一语义导向检索词对应的网页搜索集合,w2代表关联词汇扩展搜索获得的网页搜索集合,w1∩w2代表两个集合中共有的网页,|w1|,|w2|,|w1∩w2|分别是计算w1,w2,w1∩w2所包含的网页数目,max{}是取最大值的含义。
作为本发明的进一步改进,将相似度的值和预定阈值进行比较,当相似度的值小于预定阈值时,将扩展搜索查询结果调整到原始查询结果的后面;当相似度的值大于预定阈值时,对第一语义导向检索词对应的网页搜索集合和扩展对应的网页搜索集合进行合并。
作为本发明的进一步改进,接收终端通过接收目标资讯标题列表、资源化海量资讯标题列表来获得搜索结果的展示信息,用户针对接收到的目标资讯标题列表、资源化海量资讯标题列表相关的展示信息能够进行反馈,并由独立于网页之外的应用程序对相关网页的用户个性化反馈信息进行收集,基于该反馈信息来进一步调整和优化这两个列表中的网页顺序,并根据排序结果进行列表的进一步展现。
作为本发明的进一步改进,基于用户针对各网页的反馈信息数目,计算获得各网页的排序因子,当排序因子大于一预先设定的阈值时,认为该排序因子有效并进行排序因子更新,并根据最终更新后的排序因子来对各个网页进行排序。
作为本发明的进一步改进,基于以下方式计算获得各网页的排序因子:基于收集到用户针对各网页的反馈信息分别计算各网页的推荐数目,推荐数目高的对应网页的排序因子大;或,基于收集到用户针对各网页的反馈信息分别计算各网页的网页评分,通过进一步计算评分的平均值来根据评分确定排序因子。
作为本发明的进一步改进,用户在对展示信息进行反馈之前,需要先接收相应的验证信息,验证匹配通过之后才能有权限进行反馈。
作为本发明的进一步改进,用户提交反馈信息后,先由独立于网页之外的应用程序判断用户反馈是否符合规定,若用户反馈符合规定,则存储相应的反馈信息;若不符合规定,则向用户发送相应的提示信息。
作为本发明的进一步改进,对用户反馈中不符合规定的次数进行统计,若次数超过阈值,则发送警告信息。
作为本发明的进一步改进,仅仅存储用户最后一次提交的反馈信息。
作为本发明的进一步改进,在根据已知网站或未知网站生成目标资讯标题列表后,进一步通过对目标资讯标题列表中的页面进行分析,抽取摘要关键词,得到与检索词对应的摘要关键词集合,并对集合中的各摘要关键词分别进行加权,
根据权值对摘要关键词进行排序。
作为本发明的进一步改进,将加权排序后的前M个摘要关键词作为与检索词对应的检索结果属性信息,作为目标资讯标题列表中的网页的备注信息进行进一步展示。
作为本发明的进一步改进,基于以下方式进行加权值的计算: 其中att是摘要关键词集合中的某个摘要关键词,query是已知网站中的检索词或者未知网站中的第二语义检索词,att-all是在目标资讯标题列表中的各页面中所有与query共现的词语,frei(att,query)是att与query在目标资讯标题列表中的各页面中共同出现的次数,∑frei(att-all、query)是目标资讯标题列表中的各页面中att-all与query出现的总次数。
作为本发明的进一步改进,基于以下方式进行加权值的计算: 其中c1是某个摘要关键词att在搜索结果中出现的次数,c2是att在语料库中出现的总次数,N是摘要关键词集合中各摘要关键词在语料库中出现次数的最大值。
作为本发明的进一步改进,所述对目标资讯标题列表中的页面进行分析,抽取摘要关键词,得到与检索词对应的摘要关键词集合具体实现为:
对网页数据进行分析,并对网页内容进行字符串处理,抽取出指定部分的结构化数据;
对上述结构化数据进行分词,提取出相应的词汇,构成摘要关键词集合。
作为本发明的进一步改进,对于加权排序后的前M个摘要关键词,进一步进行摘要关键词相似度分析以及合并,再将合并后的摘要关键词作为与检索词对应的检索结果属性信息,作为目标资讯标题列表中的网页的备注信息进行进一步展示。
作为本发明的进一步改进,使用如下方式进行摘要关键词相似度分析及合并:
对于摘要关键词C1,C2,判断两者之间是否存在包含关系:若C1已经完全包含在C2之中,且1≤TF(C1)/TF(C2)<1.1,则将C2保留,将C1删除;若
TF(C1)/TF(C2)>>1,则将C1保留,将C2删除;当TF(C1)/TF(C2)的范围在其它区间时,不做合并处理;
若C2已经完全包含在了C1之中,且1≤TF(C2)/TF(C1)<1.1,则将C1保留,将C2删除;若TF(C2)/TF(C1)>>1,则将C2保留,将C1删除;当TF(C2)/TF(C1)的范围在其它区间时,不做合并处理;
若C1和C2之间不存在完全包含关系,则不做合并处理;
其中TF(C1)和TF(C2)分别表示C1,C2在目标资讯标题列表中的网页中出现的次数。
作为本发明的进一步改进,在进行二次复合搜索,生成目标资讯标题列表之后,能够通过进一步输入一个或多个第三语义导向检索词,在目标资讯标题列表对应的网页中进行第三次复合搜索,生成终极目标资讯标题列表;
将上述生成的终极目标资讯标题列表发送至用户终端,进行定时或实时展示。
作为本发明的进一步改进,在进行第三次复合搜索,生成终极目标资讯标题列表之后,用户能够回退到二次复合搜索中的目标资讯标题列表中的网站信息,重新输入新的第三语义导向检索词来进行第三次复合搜索。
作为本发明的进一步改进,用户也能够在回退到二次复合搜索中的目标资讯标题列表中的网站信息后,进一步回退到使用第一语义导向检索词搜索得到的资源化海量资讯标题列表中,重新输入新的第二语义导向检索词来进行二次复合搜索。
作为本发明的进一步改进,在进行二次复合搜索,生成目标资讯标题列表之后,用户能够回退到使用第一语义导向检索词搜索得到的资源化海量资讯标题列表中,重新输入新的第二语义导向检索词来进行二次复合搜索。
由以上技术方案可以看出,本发明不仅能够针对用户是否熟知相关的搜索网站来向用户提供不同的搜索模式,帮助用户精准高效的进行搜索,而且还能够通过二次复合搜索、三次搜索等方式来让用户更快速的找到其所希望浏览到的网页,同时,用户通过提交反馈信息又能够帮助其它用户进行相关领域的搜索;同时,通过对搜索列表中的网页属性进行的有效分析和关键词提取也能够让用户直观的发现搜索词与最终网页之间的关联,增强了用户体验。
附图说明
图1是本发明的网页搜索方法与展示方法的主体工作流程图;
图2是本发明的扩展搜索查询的工作流程图;
图3是本发明的用户反馈的工作流程图;
图4是本发明的针对检索到的网站信息进行摘要关键词提取和展示的工作流程图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
图1所示的是本发明的网页搜索方法与展示方法的主体工作流程图。本实施方式中,具体步骤为:S101)用户终端判断待搜索网页是否为可访问的已知网站;
S102)若针对的是已知网站,通过输入其URL地址、一个或多个检索词,进行定时或实时匹配搜索,生成目标资讯标题列表;若针对的是未知网站,通过输入一个或多个第一语义导向检索词,进行定时或实时穷尽式匹配搜索网络中的资讯信息,生成供浏览的资源化海量资讯标题列表,并通过输入一个或多个第二语义导向检索词,在资源化海量资讯标题列表对应的网页中进行二次复合搜索,生成目标资讯标题列表;
S103)将上述生成的目标资讯标题列表发送至用户终端,进行定时或实时展示。
其中,已知网站是指这样的网站,例如对于一个数据挖掘领域的教师想进行“聚类算法”方面的文献研究检索,他肯定会熟知在IEEE,ACM等网站上面能够很方便的进行“聚类算法”相关文献的浏览和检索,这时候IEEE,ACM就是本发明中的已知网站。因此,用户可以直接通过键入已知网站的URL地址以及待检索的关键词“聚类”、“KMEANS”等,来进行相关领域的检索。本发明在具体实现时,可以通过在主搜索界面上提供复选框来由用户选择是否已知这些网站,如果他选择已经知道这些网站,则进一步在主搜索界面提供一个新的URL地址栏和/或关键词输入框,来提供在该URL地址提供的已知网站上的关键词(如“聚类”、“KMEANS”等)检索,此时检索到的标题含有“聚类”、“KMEANS”两者或之一的即为目标资讯标题,相应的网站列表为目标资讯标题列表。
与之对应的是,未知网站是指这样的网站,例如对于一个对摄影感兴趣的入门者,他可能想学习相关的摄影技巧,但是却不知道在哪些网站上面能很好的发现这些资源。因此,这些与摄影相关的热门网站对于他来说都是未知的网站。此时,他可以通过试着先输入“摄影”这样的词汇,得到符合他初步要求的一个初步网站匹配,此时他所输入的“摄影”就是第一语义导向检索词,这是一个初步的领域或者方向。该初步的搜索结果可以通过资源化海量资讯标题列表的形式进行展示,让该用户对于“摄影”领域有一个初步的认识和了解。在具体实现时,当用户在主搜索界面的复选框中选择不知道这些网站时,可以进一步通过输入框等形式来让用户进行检索词的输入,再由网络爬虫等后台工具进行网站搜索和提供,网络爬虫等进行的网站搜索已经是现有技术。
当然,资源化海量资讯标题列表所展示的网站信息是不能完全符合该用户的要求的,因为他无法从这么大数据量的网页信息中发现哪些是比较好的网站,哪些网站才是自己真正想要的想浏览的网站,因此,为了让用户能够精准的发现他自己最想访问的网站信息,有必要进行二次复合搜索。
当用户初步浏览了资源化海量资讯标题列表所展示的网站信息后,他可能会觉得自己对摄影器材最感兴趣,因为他很可能需要先购买一台合适的相机。在本发明中,他可以在资源化海量资讯标题列表中获得的初步搜索信息来进行二次复合搜索,这次搜索完全基于资源化海量资讯标题列表中获得的网站信息来进行,同时,还需要用户键入新的关键词,例如“器材”或“装备”或“相机”等等,这就是本发明中的第二语义导向检索词。此时已经不用在将“摄影”作为检索词了。因为资源化海量资讯标题列表中获得的网站信息都已经和“摄影”相关。在具体实现时,可以将网络爬出等工具搜索得到的资源化海量资讯标题列表中获得的网站信息存储在一个临时数据库中,通过在包含资源化海量资讯标题列表中的网站信息的展示页面中进行一个二次复合搜索导向,来针对用户输入的新的检索词在该临时数据库中所存储的网站进行进一步检索,并将检索获得的新的网站信息以目标资讯标题列表向用户进行展示。
最终,用户在能够浏览到与“摄影器材“相关的网站信息,并在这些网站上很容易的浏览和获取相关信息。
但是用户在进一步浏览目标资讯标题列表中的网站信息时,他可能会发现这些网站的噪音还是比较大,例如:他通过进一步浏览发现了佳能、尼康相机是制造精良,性能优异的相机(这里假设他在初步检索之前并不了解佳能、尼康相机是很好的相机),他现在最需要的是先购买到一台佳能或者尼康相机,但是在目标资讯标题列表不仅仅列出了佳能、尼康相机的购置推荐和购置指南,也可能列出了其他品牌的相机购置推荐,并且,目标资讯标题列表还可能包含了大量关于“摄影器材“的拍摄使用技巧的网站信息,这些可能都是用户暂时不需要的。因此,他很有可能还需要进行第三次复合搜索。
与二次复合搜索类似,用户可以进一步键入新的检索词,例如“佳能、尼康”和“购置指南”等等,这就是本发明中的第三语义导向检索词。类似的,“器材”或“装备”或“相机”也不必再作为检索词了。具体实现时,可以将网络爬出等工具二次复合搜索得到的目标资讯标题列表中的网站信息存储在一个另外一个临时数据库中,通过在包含目标资讯标题列表中的网站信息的展示页面中进行一个第三次复合搜索导向,来针对用户输入的新的检索词在第二个临时数据库中所存储的网站进行进一步检索,并将检索获得的新的网站信息以终极目标资讯标题列表向用户进行展示。
当然,用户在进行了第三次复合搜索,并浏览了终极目标资讯标题列表中的网站信息后,他可能发现购买一台佳能或尼康相机不是一个好的打算,因为他可能觉得佳能、尼康相机虽然性能优异,但是价格不菲,这时他不想再买佳能、尼康相机了。于是他打算购买一台相对便宜但是性能过得去的普通相机,此时他可以回退到二次复合搜索中的目标资讯标题列表中的网站信息,发现也有很多人在使用富士相机,价格上比佳能、尼康还便宜了许多。于是,他可以在包含目标资讯标题列表中的网站信息的展示页面中重新进行一个第三次复合搜索导向,来针对用户输入的新的检索词“富士”和“购置指南”在第二个临时数据库中所存储的网站进行进一步检索,并将检索获得的新的网站信息以终极目标资讯标题列表向用户进行展示。具体实现时,仅仅需要在第一次进行第三次复合搜索获得的展示页面上加上一个回退按钮,即可回退到第二次复合搜索获得的展示页面上,来让用户方便的再进行一次第三次复合搜索,并重新生成终极目标资讯标题列表,并重新进行展示。当然,也可以在第二次复合搜索获得的展示页面上同样加上一个回退按钮,来让用户方便的再进行一次第二次复合搜索,并重新生成目标资讯标题列表,并重新进行展示。当用户由第二次复合搜索展示页面上回退到第一次搜索结果页面时,可以清空第二个临时数据库中的数据以释放存储空间,当用户重新开始新的第一次搜索时,将第一、第二临时数据库均进行数据删除。
图2所示的是本发明的扩展搜索查询的工作流程图。接着上面的例子,对于一个摄影领域的新手,在进行初步的第一次搜索时,他很可能只会输入“摄影”这样的词汇进行搜索,但是实际上很多摄影网站上可能只字未提“摄影”,而以“照片”、“拍照”这样的词汇出现。于是,需要对搜索方法进行改进,由搜索工具来进行扩展搜索查询,帮助用户进一步发现他需要的网站信息。
本发明中可以通过预先构建一个扩展词汇库,其中包含了相应的词汇扩展,例如“摄影”和“照片”、“拍照”等进行对应。当用户在输入“摄影”进行搜索时,后台程序在扩展词汇库中查询到相关的扩展词,并由后台程序根据扩展词进行一次对应的扩展搜索查询。
记w1代表第一次检索时,使用第一语义导向检索词对应的网页搜索集合,w2代表扩展词汇扩展搜索获得的网页搜索集合,可以通过计算两个集合的网页相似度,根据相似度进行两个集合的合并,并生成供浏览的资源化海量资讯标题列表。
通过如下方式进行相似度的计算:w1∩w2代表两个集合中共有的网页,|w1|,|w2|,|w1∩w2|分别是计算w1,w2,w1∩w2所包含的网页数目。
或者:其中w1代表第一语义导向检索词对应的网页搜索集合,w2代表关联词汇扩展搜索获得的网页搜索集合,w1∩w2代表两个集合中共有的网页,|w1|,|w2|,|w1∩w2|分别是计算w1,w2,w1∩w2所包含的网页数目,max{}是取最大值的含义。
然后,再将相似度的值和预定阈值进行比较,当相似度的值小于预定阈值时,说明扩展搜索查询得到的网页集合信息不太理想,此时可以将扩展搜索查询结果调整到原始查询结果的最后面,也可以忽略扩展搜索查询的结果并不予进一步相关的显示;当重合度的值大于预定阈值时,说明扩展搜索查询得到的网页信息也是比较准确的网页信息,此时可以对第一语义导向检索词对应的网页搜索集合和扩展对应的网页搜索集合进行合并。阈值设定多大,可以根据实际需要进行实际的调整,阈值设置较低则噪音比较大,但是扩展网页数目较多;阈值设置较高则比较精准,但是扩展的网页数目又不会太多。
在具体实现时,仍然可以通过复选框的形式,让用户选择仅仅通过“一般查询”按钮进行非扩展搜索查询,也可以选择“扩展搜索查询”,来启动后台程序进行扩展搜索查询,并按照上述实现方式将扩展搜索查询的结果由后台程序自动分析后,和使用第一语义导向关键词对应的原始查询网页集合进行合并。
通过使用扩展搜索查询,能够帮助用户发现更多的相关网站,方便用户的信息获取。当然,用户在使用第二语义导向检索词、第三语义导向检索词分别进行二次复合搜索、第三次复合搜索时,也可以按照和以上的第一次搜索时类似的方式使用扩展搜索查询,分别根据使用第二语义导向检索词、第三语义导向检索词搜索对应的网页搜索集合与扩展搜索查询对应的网页搜索集合的相似度与阈值的判断关系来进行对应的网页集合合并,相似度的计算方法也与上相同。
图3所示的是本发明的用户反馈的工作流程图。接收终端通过接收终极目标资讯标题列表、目标资讯标题列表、资源化海量资讯标题列表来获得搜索结果的展示信息,用户还能够针对接收到的终极目标资讯标题列表、目标资讯标题列表、资源化海量资讯标题列表相关的展示信息进行反馈,并由独立于网页之外的应用程序对相关网页的用户个性化反馈信息进行收集,基于该反馈信息来进一步调整和优化这两个列表中的网页顺序,并根据排序结果进行列表的进一步展现。
基于用户针对各网页的反馈信息数目,获得各网页的排序因子,当排序因子大于一预先设定的阈值时,认为该排序因子有效并进行排序因子更新,并根据最终更新后的排序因子来对各个网页进行排序,其中阈值的设定可以根据实际需要来决定。基于以下方式获得各网页的排序因子:基于收集到用户针对各网页的反馈信息分别计算各网页的推荐数目,推荐数目高的对应网页的排序因子大;或,基于收集到用户针对各网页的反馈信息分别计算各网页的网页评分,通过进一步计算评分的平均值来根据评分确定排序因子。
用户在对展示信息进行反馈之前,还可以先接收相应的验证信息,验证匹配通过之后才能有权限进行反馈。在提交反馈信息后,先由独立于网页之外的应用程序判断用户反馈是否符合规定,若用户反馈符合规定,则存储相应的反馈信息;若不符合规定,则向用户发送相应的提示信息。对用户反馈中不符合规定的次数进行统计,若次数超过阈值,则发送警告信息。仅仅存储用户最后一次提交的反馈信息。
图4所示的是本发明的针对检索到的网站信息进行摘要关键词提取和展示的工作流程图。
在根据已知网站或未知网站,生成目标资讯标题列表或者终极目标资讯标题列表后,进一步通过对列表中的各页面进行分析,得到与检索词对应页面的摘要关键词集合,并对集合中的各页面摘要关键词分别进行加权,根据权值对摘要关键词进行排序,并将加权排序后的前M个摘要关键词(M为大于1的整数,可根据需要自行设定)作为与检索词对应的检索结果属性信息,作为终极目标资讯标题列表或者目标资讯标题列表中的各网页的备注信息进行进一步展示。
其中在对列表中的各页面进行分析,得到与检索词对应页面的摘要关键词集合具体实现为:对网页数据进行分析,并对网页内容进行字符串处理,抽取出指定部分的结构化数据;对上述结构化数据进行分词,提取出相应的摘要关键词集合。其中指定部分是指网页中的特定部分,例如摘要,文章首尾等等。
基于以下方式进行加权值的计算: 其中att是摘要关键词集合中的某个摘要关键词,query是已知网站中的检索词或者未知网站中的第二或第三语义检索词,att-all是在终极目标资讯标题列表或目标资讯标题列表中的各页面中所有与query共现的词语,frei(att、query)是att与query在终极目标资讯标题列表或目标资讯标题列表中的各页面中共同出现的次数,∑frei(att-all,query)是终极目标资讯标题列表或目标资讯标题列表中的各页面中att-all与query共同出现的总次数。
或者,其中c1是某个摘要关键词att在搜索结果(终极目标资讯标题列表或目标资讯标题列表中的各页面)中出现的次数,c2是att在语料库中出现的总次数,N是摘要关键词集合中各关键词在语料库中出现次数的最大值,其中的语料库是一个大规模语料库,用于存储常见的网页信息中的关键词词汇信息,以及其相应的出现频率和次数等属性信息,该大规模语料库可以预先训练获得。该公式一方面用于鼓励在当前搜索结果中出现次数多的词语,另一方面惩罚在大规模语料库中出现的总次数多的词语。
例如,用户通过“流行歌曲”和“王菲”进行二次搜索得到了目标资讯标题列表后,对列表中的各页面进行分析,得到了与检索词对应页面的摘要关键词集合,一个摘要关键词集合的例子为{专辑,微博,演唱会,李亚鹏,红豆,…},通过进一步计算分析上述摘要关键词集合中的各个词的权值,再通过排序即确定出前M个摘要关键词,并将其作为“流行歌曲”和“王菲”的检索结果属性信息,提供给用户进行进一步展示。用户通过该展示信息即可直观的发现“王菲”与哪些主题词之间的关系最密切。
可选的,对于加权排序后的前M个摘要关键词,进一步进行摘要关键词相似度分析以及合并,再将合并后的摘要关键词作为与检索词对应的检索结果属性信息,作为终极目标资讯标题列表或目标资讯标题列表中的网页的备注信息进行进一步展示,这样做的目的是为了使得最终提供给用户的摘要关键词集合中的摘要关键词是最为精准有效的关键词。例如:如果摘要关键词集合中包括“院士,中科院院士,中科院资深院士”,或者“搜狗音乐,搜狗音”这样的词汇时,是有必要进行合并的。
据此,本发明通过以下方式进行词汇的合并:
记TF(C1)和TF(C2)分别表示摘要关键词C1,C2在目标资讯标题列表或终极目标资讯标题列表中的网页中出现的次数,对于C1,C2,判断两者之间是否存在包含关系:若C1已经完全包含在C2之中,且1≤TF(C1)/TF(C2)<1.1(该判断的含义是两者在网页中出现的次数相差不多),则将C2保留,将C1删除;若TF(C1)/TF(C2)>>1(>>是远大于的含义,下同,该判断的含义是C1出现的次数要远远大于C2出现的次数),则将C1保留,将C2删除;当TF(C1)/TF(C2)的范围在其它区间时,不做合并处理,以避免错误的进行词汇删除;
若C2已经完全包含在了C1之中,且1≤TF(C2)/TF(C1)<1.1,则将C1保留,将C2删除;若TF(C2)/TF(C1)>>1,则将C2保留,将C1删除;当TF(C2)/TF(C1)的范围在其它区间时,不做合并处理;
若C1和C2之间不存在完全包含关系,则本方法中不认为这两者存在相似性,不做合并处理。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种网页搜索与展示的方法,其特征在于,所述方法包括下述步骤:
用户终端判断待搜索的网页是否为可访问的已知网站,
针对已知网站,通过输入其URL地址、一个或多个检索词,进行定时或实时匹配搜索,生成目标资讯标题列表;
针对未知网站,通过输入一个或多个第一语义导向检索词,进行定时或实时穷尽式匹配搜索网络中的资讯信息,生成供浏览的资源化海量资讯标题列表,并通过输入一个或多个第二语义导向检索词,在资源化海量资讯标题列表对应的网页中进行二次复合搜索,生成目标资讯标题列表;
将上述生成的目标资讯标题列表发送至用户终端,进行定时或实时展示;
其中接收终端通过接收目标资讯标题列表、资源化海量资讯标题列表来获得搜索结果的展示信息,用户针对接收到的目标资讯标题列表、资源化海量资讯标题列表相关的展示信息能够进行反馈,并由独立于网页之外的应用程序对相关网页的用户个性化反馈信息进行收集,基于该反馈信息来进一步调整和优化这两个列表中的网页顺序,并根据排序结果进行列表的进一步展现;并基于用户针对各网页的反馈信息数目,计算获得各网页的排序因子,当排序因子大于一预先设定的阈值时,认为该排序因子有效并进行排序因子更新,并根据最终更新后的排序因子来对各个网页进行排序。
2.如权利要求1所述的网页搜索与展示的方法,其特征在于,在针对已知网站生成目标资讯标题列表时,凡同时含有多个检索词其中一部分的资讯标题,视为目标资讯标题,直接生成目标资讯标题列表。
3.如权利要求1所述的网页搜索与展示的方法,其特征在于,在针对未知网站生成目标资讯标题列表时,所述第一语义导向检索词代表特定资讯领域或方向。
4.如权利要求1所述的网页搜索与展示的方法,其特征在于,在针对未知网站,输入一个或多个第一语义导向检索词,进行定时或实时穷尽式匹配搜索网络中的资讯信息时,对第一语义导向检索词进行检索词汇扩展,获取与第一语义导向检索词具有相似含义的关联词汇,并根据关联词汇进行扩展搜索查询。
5.如权利要求4所述的网页搜索与展示的方法,其特征在于,其进一步包括:分别获得第一语义导向检索词对应的网页搜索集合和关联词汇扩展搜索获得的网页搜索集合,并计算两个集合的网页相似度,根据相似度进行两个集合的合并,并生成供浏览的资源化海量资讯标题列表。
6.如权利要求5所述的网页搜索与展示的方法,其特征在于,通过如下方式进行相似度的计算:其中w1代表第一语义导向检索词对应的网页搜索集合,w2代表关联词汇扩展搜索获得的网页搜索集合,w1∩w2代表两个集合中共有的网页,|w1|,|w2|,|w1∩w2|分别是计算w1,w2,w1∩w2所包含的网页数目。
7.如权利要求5所述的网页搜索与展示的方法,其特征在于,通过如下方式进行相似度的计算:其中w1代表第一语义导向检索词对应的网页搜索集合,w2代表关联词汇扩展搜索获得的网页搜索集合,w1∩w2代表两个集合中共有的网页,|w1|,|w2|,|w1∩w2|分别是计算w1,w2,w1∩w2所包含的网页数目,max{}是取最大值的含义。
8.如权利要求6或7所述的网页搜索与展示的方法,其特征在于,将相似度的值和预定阈值进行比较,当相似度的值小于预定阈值时,将扩展查询结果调整到原始查询结果的后面;当相似度的值大于预定阈值时,对第一语义导向检索词对应的网页搜索集合和扩展对应的网页搜索集合进行合并。
9.如权利要求1所述的网页搜索与展示的方法,其特征在于,基于以下方式计算获得各网页的排序因子:基于收集到用户针对各网页的反馈信息分别计算各网页的推荐数目,推荐数目高的对应网页的排序因子大;或,基于收集到用户针对各网页的反馈信息分别计算各网页的网页评分,通过进一步计算评分的平均值来根据评分确定排序因子。
10.如权利要求1所述的网页搜索与展示的方法,其特征在于,用户在对展示信息进行反馈之前,需要先接收相应的验证信息,验证匹配通过之后才能有权限进行反馈。
11.如权利要求10所述的网页搜索与展示的方法,其特征在于,用户提交反馈信息后,先由独立于网页之外的应用程序判断用户反馈是否符合规定,若用户反馈符合规定,则存储相应的反馈信息;若不符合规定,则向用户发送相应的提示信息。
12.如权利要求11所述的网页搜索与展示的方法,其特征在于,对用户反馈中不符合规定的次数进行统计,若次数超过阈值,则发送警告信息。
13.如权利要求12所述的网页搜索与展示的方法,其特征在于,仅仅存储用户最后一次提交的反馈信息。
14.如权利要求1所述的网页搜索与展示的方法,其特征在于,在根据已知网站或未知网站生成目标资讯标题列表后,进一步通过对目标资讯标题列表中的页面进行分析,抽取摘要关键词,得到与检索词对应的摘要关键词集合,并对集合中的各摘要关键词分别进行加权,根据权值对摘要关键词进行排序。
15.如权利要求14所述的网页搜索与展示的方法,其特征在于,将加权排序后的前M个摘要关键词作为与检索词对应的检索结果属性信息,作为目标资讯标题列表中的网页的备注信息进行进一步展示。
16.如权利要求14所述的网页搜索与展示的方法,其特征在于,基于以下方式进行加权值的计算: 其中att是摘要关键词集合中的某个摘要关键词,query是已知网站中的检索词或者未知网站中的第二语义检索词,att-all是在目标资讯标题列表中的各页面中所有与query共现的词语,frei(att,query)是att与query在目标资讯标题列表中的各页面中共同出现的次数,∑frei(att-all,query)是目标资讯标题列表中的各页面中att-all与query出现的总次数。
17.如权利要求14所述的网页搜索与展示的方法,其特征在于,基于以下方式进行加权值的计算:其中c1是某个摘要关键词att在搜索结果中出现的次数,c2是att在语料库中出现的总次数,N是摘要关键词集合中各摘要关键词在语料库中出现次数的最大值。
18.如权利要求14所述的网页搜索与展示的方法,其特征在于,所述对目标资讯标题列表中的页面进行分析,抽取摘要关键词,得到与检索词对应的摘要关键词集合具体实现为:
对网页数据进行分析,并对网页内容进行字符串处理,抽取出指定部分的结构化数据;
对上述结构化数据进行分词,提取出相应的词汇,构成摘要关键词集合。
19.如权利要求15所述的网页搜索与展示的方法,其特征在于,对于加权排序后的前M个摘要关键词,进一步进行摘要关键词相似度分析以及合并,再将合并后的摘要关键词作为与检索词对应的检索结果属性信息,作为目标资讯标题列表中的网页的备注信息进行进一步展示。
20.如权利要求19所述的网页搜索与展示的方法,其特征在于,使用如下方式进行摘要关键词相似度分析及合并:
对于摘要关键词C1,C2,判断两者之间是否存在包含关系:若C1已经完全包含在C2之中,且1≤TF(C1)/TF(C2)<1.1,则将C2保留,将C1删除;若TF(C1)/TF(C2)>>1,则将C1保留,将C2删除;当TF(C1)/TF(C2)的范围在其它区间时,不做合并处理;
若C2已经完全包含在了C1之中,且1≤TF(C2)/TF(C1)<1.1,则将C1保留,将C2删除;若TF(C2)/TF(C1)>>1,则将C2保留,将C1删除;当TF(C2)/TF(C1)的范围在其它区间时,不做合并处理;
若C1和C2之间不存在完全包含关系,则不做合并处理;
其中TF(C1)和TF(C2)分别表示C1,C2在目标资讯标题列表中的网页中出现的次数。
21.如权利要求1所述的网页搜索与展示的方法,其特征在于,在进行二次复合搜索,生成目标资讯标题列表之后,能够通过进一步输入一个或多个第三语义导向检索词,在目标资讯标题列表对应的网页中进行第三次复合搜索,生成终极目标资讯标题列表;
将上述生成的终极目标资讯标题列表发送至用户终端,进行定时或实时展示。
22.如权利要求21所述的网页搜索与展示的方法,其特征在于,在进行第三次复合搜索,生成终极目标资讯标题列表之后,用户能够回退到二次复合搜索中的目标资讯标题列表中的网站信息,重新输入新的第三语义导向检索词来进行第三次复合搜索。
23.如权利要求22所述的网页搜索与展示的方法,其特征在于,用户也能够在回退到二次复合搜索中的目标资讯标题列表中的网站信息后,进一步回退到使用第一语义导向检索词搜索得到的资源化海量资讯标题列表中,重新输入新的第二语义导向检索词来进行二次复合搜索。
24.如权利要求1所述的网页搜索与展示的方法,其特征在于,在进行二次复合搜索,生成目标资讯标题列表之后,用户能够回退到使用第一语义导向检索词搜索得到的资源化海量资讯标题列表中,重新输入新的第二语义导向检索词来进行二次复合搜索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310061099.1A CN103106282B (zh) | 2013-02-27 | 2013-02-27 | 一种网页搜索与展示的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310061099.1A CN103106282B (zh) | 2013-02-27 | 2013-02-27 | 一种网页搜索与展示的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103106282A CN103106282A (zh) | 2013-05-15 |
CN103106282B true CN103106282B (zh) | 2016-01-13 |
Family
ID=48314137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310061099.1A Active CN103106282B (zh) | 2013-02-27 | 2013-02-27 | 一种网页搜索与展示的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106282B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678597A (zh) * | 2013-12-13 | 2014-03-26 | 北京奇虎科技有限公司 | 一种范文网页数据库的优化方法和装置 |
US9679076B2 (en) | 2014-03-24 | 2017-06-13 | Xiaomi Inc. | Method and device for controlling page rollback |
CN103914523A (zh) * | 2014-03-24 | 2014-07-09 | 小米科技有限责任公司 | 页面回退控制方法及装置 |
CN103984740B (zh) * | 2014-05-23 | 2016-01-06 | 合一网络技术(北京)有限公司 | 基于组合标签的检索页显示的方法和系统 |
CN104063824B (zh) * | 2014-06-24 | 2018-03-30 | 厦门美柚信息科技有限公司 | 健康指导信息的生成方法及装置 |
CN105447048A (zh) * | 2014-09-02 | 2016-03-30 | 步步高教育电子有限公司 | 一种应用搜索方法及系统 |
CN104268265B (zh) * | 2014-10-11 | 2017-12-01 | 时之我代信息科技(上海)有限公司 | 一种信息搜索方法及装置 |
CN105243132B (zh) * | 2015-09-30 | 2018-12-21 | 北京奇虎科技有限公司 | 一种搜索记录控制方法及电子设备 |
CN105183905A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种官方网站网址的查询词挖掘方法和装置 |
CN112597374B (zh) * | 2016-05-24 | 2024-03-22 | 创新先进技术有限公司 | 一种互联网信息资源的分配方法及装置 |
CN106227714A (zh) * | 2016-07-14 | 2016-12-14 | 北京百度网讯科技有限公司 | 一种基于人工智能的获取生成诗词的关键词的方法和装置 |
CN108121727B (zh) * | 2016-11-28 | 2021-08-24 | 北京国双科技有限公司 | 一种着陆页url检查方法和装置 |
CN107798091B (zh) * | 2017-10-23 | 2021-05-18 | 金蝶软件(中国)有限公司 | 一种数据爬取的方法及其相关设备 |
CN108932218B (zh) * | 2018-06-29 | 2022-09-30 | 北京百度网讯科技有限公司 | 一种实例扩展方法、装置、设备和介质 |
CN110929019B (zh) * | 2018-08-30 | 2022-06-10 | 北京蓝灯鱼智能科技有限公司 | 信息的展示方法和装置、存储介质、电子装置 |
WO2020237511A1 (zh) * | 2019-05-28 | 2020-12-03 | 华为技术有限公司 | 相似性搜索方法、装置、服务器及存储介质 |
CN110334280A (zh) * | 2019-07-10 | 2019-10-15 | 中国民航信息网络股份有限公司 | 一种发现保密信息泄露的方法及装置 |
CN111523019B (zh) * | 2020-04-23 | 2023-05-09 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN112000783B (zh) * | 2020-08-03 | 2022-09-27 | 北京大学 | 基于文本相似性分析的专利推荐方法、装置、设备及存储介质 |
CN112650914A (zh) | 2020-12-30 | 2021-04-13 | 深圳市世强元件网络有限公司 | 一种长尾关键词识别方法、关键词搜索方法及计算机设备 |
CN114741626B (zh) * | 2022-04-28 | 2024-09-24 | 北京字跳网络技术有限公司 | 一种搜索结果展示方法、装置、设备及介质 |
CN115630154B (zh) * | 2022-12-19 | 2023-05-05 | 竞速信息技术(廊坊)有限公司 | 一种面向大数据环境的动态摘要信息构建方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178728A (zh) * | 2007-11-21 | 2008-05-14 | 北京搜狗科技发展有限公司 | 一种网址导航的方法和系统 |
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN101916294A (zh) * | 2010-08-27 | 2010-12-15 | 黄斌 | 一种利用语义分析实现精确搜索的方法 |
CN102880625A (zh) * | 2012-04-11 | 2013-01-16 | 佳都新太科技股份有限公司 | 一种基于族性检索的通用数据库检索新方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010000681A (ko) * | 2000-10-12 | 2001-01-05 | 이한승 | 인터넷 주소체계의 경로를 이용한 2단계 검색서비스 방법 |
-
2013
- 2013-02-27 CN CN201310061099.1A patent/CN103106282B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178728A (zh) * | 2007-11-21 | 2008-05-14 | 北京搜狗科技发展有限公司 | 一种网址导航的方法和系统 |
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN101916294A (zh) * | 2010-08-27 | 2010-12-15 | 黄斌 | 一种利用语义分析实现精确搜索的方法 |
CN102880625A (zh) * | 2012-04-11 | 2013-01-16 | 佳都新太科技股份有限公司 | 一种基于族性检索的通用数据库检索新方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103106282A (zh) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106282B (zh) | 一种网页搜索与展示的方法 | |
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
US8868539B2 (en) | Search equalizer | |
US9378247B1 (en) | Generating query refinements from user preference data | |
US8359309B1 (en) | Modifying search result ranking based on corpus search statistics | |
CN107092615B (zh) | 来自文档的查询建议 | |
US8615514B1 (en) | Evaluating website properties by partitioning user feedback | |
US8185526B2 (en) | Dynamic keyword suggestion and image-search re-ranking | |
US9262532B2 (en) | Ranking entity facets using user-click feedback | |
US7962487B2 (en) | Ranking oriented query clustering and applications | |
US7483885B2 (en) | System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries | |
CN102945237B (zh) | 基于原始用户输入建议和细分用户输入的系统和方法 | |
US8171043B2 (en) | Methods for improving the diversity of image search results | |
US20080215550A1 (en) | Search support apparatus, computer program product, and search support system | |
US20110191336A1 (en) | Contextual image search | |
US20070022085A1 (en) | Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web | |
KR101393839B1 (ko) | 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템 | |
CN102722501B (zh) | 搜索引擎及其实现方法 | |
JP2010541074A (ja) | 検索結果ページ上に対話要素を含めるためのシステム及び方法 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
CN105912662A (zh) | 基于Coreseek的垂直搜索引擎研究与优化的方法 | |
US20140280086A1 (en) | Method and apparatus for document representation enhancement via social information integration in information retrieval systems | |
US8380722B2 (en) | Using anchor text with hyperlink structures for web searches | |
US9286405B2 (en) | Index-side synonym generation | |
US20150339387A1 (en) | Method of and system for furnishing a user of a client device with a network resource |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Wang Yidong Document name: the First Notification of an Office Action |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |