CN101308507B - 互联网信息发布和搜索方法 - Google Patents

互联网信息发布和搜索方法 Download PDF

Info

Publication number
CN101308507B
CN101308507B CN2008101146880A CN200810114688A CN101308507B CN 101308507 B CN101308507 B CN 101308507B CN 2008101146880 A CN2008101146880 A CN 2008101146880A CN 200810114688 A CN200810114688 A CN 200810114688A CN 101308507 B CN101308507 B CN 101308507B
Authority
CN
China
Prior art keywords
information
quality
search
database
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101146880A
Other languages
English (en)
Other versions
CN101308507A (zh
Inventor
余德光
申威
彭婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing The9 livable Property Co.,Ltd.
Guangdong Fanzai Wireless RFID Public Technology Support Co.,Ltd.
Original Assignee
BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd filed Critical BEIJING NINETOWNS INTERNET TECHNOLOGY Co Ltd
Priority to CN2008101146880A priority Critical patent/CN101308507B/zh
Publication of CN101308507A publication Critical patent/CN101308507A/zh
Application granted granted Critical
Publication of CN101308507B publication Critical patent/CN101308507B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种互联网信息发布和搜索方法,其中:该方法通过包括信息发布器、信息数据库、文本索引器、文本索引数据库、信息质量指标提取器、信息质量指标数据库、信息质量评级器、用户搜索器、关联信息提取器、关联信息数据库组成的搜索系统,执行分类信息的搜索。本发明互联网信息发布和搜索方法可以更好的对信息的质量进行评估。另外,本发明互联网信息发布和搜索方法还提供了一种快速查找信息的方法,此方法使得信息的查找者只要查找到了一条符合他搜索意图的信息,那么他就可以通过这条信息用此方法找到更多他想要的信息,以上两点就为用户提供了更好的用户体验。

Description

互联网信息发布和搜索方法
技术领域
本发明涉及一种互联网信息搜索方法,特别涉及一种互联网信息平台上的信息发布和搜索方法。
背景技术
随着网络的快速发展,越来越多的人选择通过互联网来发布和搜索信息,而信息发布及展示平台(以下简称信息发布平台)则是其中一个非常重要的渠道。
信息发布平台是基于网络的为用户提供信息发布和展示的平台。其主要功能是:信息的发布者可以通过此类平台发布各类信息,信息的查找者则可以根据自己的需求,在此类平台上找到符合自己需求的信息。
信息发布平台包括但不限于Craigslist.org、kijiji.com、koubei.com等分类信息平台;Amazon.com、dangdang.com、redbaby.com.cn等B2C电子商务平台;Ebay.com、Taobao.com、Paipai.com等C2C平台等等;Alibaba.com、Globalsources.com、Made-in-china.com、Chemnet.com等B2B电子商务平台。下文主要以B2B电子商务平台为例进行说明。
目前信息发布平台的总体构架大致如图1所示,整个系统中主要有三个角色,分别是信息发布者、互联网分类信息平台与信息查找者。
此系统中各角色的功能主要包括:信息发布者通过互联网或其它相关途径在互联网分类信息平台上根据一定规则发布相关信息;信息查找者则通过互联网或其它相关途径在互联网分类信息平台上查找相关信息;互联网分类信息平台则一方面存储信息发布者发布的相关信息,另一方面根据信息查找者的搜索请求返回搜索结果。
整个系统中最重要的组成部分为信息发布器、信息处理和存储模块、用户搜索器,如图1所示。一方面,信息发布者通过信息发布器发布相关信息,信息处理和存储模块处理和存储相关信息;另一方面信息查找者通过用户搜索器向系统发出搜索请求,信息处理和存储模块将搜索结果通过用户搜索器的显示界面返回给信息查找者。
目前,三个部分的基本构成或处理流程如下:
信息发布器的信息的发布流程:
图2为现有一个典型的分类信息平台的信息发布流程图,整个信息的发布包括如下步骤:
步骤1:信息发布者登录系统;
步骤2:进入信息发布器;
步骤3:填写相关分类信息;
步骤4:填写完成的基本信息被存储入信息数据库。
信息处理和存储模块:
如图1所示,其处理流程按照如下流程:
一方面:
步骤1:文本索引器把信息数据库中的相关文本信息进行文本索引;
步骤2:索引之后的文本存入文本索引数据库;
另一方面:
步骤1:信息质量指标提取器从信息数据库中提取与评估信息质量相关的指标信息;
步骤2:相关指标信息被存储入信息质量指标数据库;
步骤3:信息质量评级器根据事先定义好的信息质量评级方法对信息质量指标数据库中的信息进行评级;
步骤4:信息质量评级之后,各信息的质量相关信息被存储入信息质量数据库;
用户搜索器的信息搜索流程:
步骤1:信息查找者通过用户搜索器在文本索引数据库中进行查询,得到“信息和查询的相关性”;
步骤2:信息查找者通过用户搜索器在信息质量数据库中进行查询,得到“信息质量”;
步骤3:在得到“信息和查询的相关性”以及“信息质量”之后,再综合这两方面的因素得到“信息的综合排名”。那么给定一个查询,对于任意的一条信息的A,它的综合排名大致由信息与查询的相关性和信息质量的乘积决定,见公式1。
信息的综合排名(A)=信息和查询的相关性(A)×信息质量(A)  (公式1)
在以上过程中,对于信息质量的评估模块,目前普遍采用的方法为针对每一类信息事先建立一套信息质量评估模型,模型中包含针对此类信息用户关心的各类指标,然后用这些指标对各类信息进行一一评估。
用户搜索器的信息展示流程:
对于信息的查找者而言,其在互联网分类信息平台上的主要操作为查找各类信息。目前用户在各类互联网分类信息平台上查找其所需要的信息,一般是采用如图2所示的信息查找流程:
用户首先发出一个搜索请求501,系统则根据此请求返回一个“搜索列表页502”,用户通过根据此搜索列表页可以到达“信息展示页503”或者“其它搜索条件下的搜索列表页502”,然后如此循环。
用户在到达“信息的展示页503”之后,也有可能到达“与此信息相关的某搜索条件下的搜索结果页502”,然后如此循环。
其中,无论是直接通过搜索得到的“搜索结果列表页502”还是从一个“搜索结果列表页”到达的“其它搜索条件下的搜索结果列表页502”,或从“信息展示页503”到达的“搜索结果列表页502”中,其“搜索结果列表页502”基本都是基于“关键词搜索”、“类目搜索”或“关键词加类目搜索”而得到的。
在互联网分类信息平台上,信息的查找者一般都采用关键词搜索的方式查找自己想要的信息,而系统则主要靠传统的信息检索方法来确定搜索结果与查询的相关性。
这种方法只能确定搜索结果的“字面”是否与搜索意图符合。比如用户想要查找打电话用的“手机”,则它会输入关键词“手机”进行搜索,系统则返回一大堆信息内容包含“手机”的搜索结果。
但是,面对海量的信息时,对于一个查询,搜索引擎动辄返回几十万、几百万条信息,用户不得不在结果中筛选,而实际上人们往往只愿意察看结果中的前十几个。所以这就要求搜索引擎返回的结果不仅要与其搜索意图相关,而且还要求搜索结果质量好。所以此时,对信息质量的评估变得非常重要。
而对于信息质量的评估,有相当多的平台甚至没有对这一块进行考虑。而对于对这部分有所考虑的平台,目前普遍采用的方法为针对每一类信息事先建立一套信息质量评估模型,模型中包含针对此类信息用户关心的各类指标,然后用这些指标对各类信息进行一一评估。
比如以B2B电子商务平台为例,比如对于在B2B电子商务平台上的一条“苹果”相关的信息的评估,就可能会有平均果重、果径、果形指数、硬度、固形物含量、农药残留量等等指标。而这仅仅是针对“苹果”本身的一些技术指标,而在贸易中,买家还会关心“苹果”的提供者的诸如生产,供货,交付等各方面的能力。也就是说多方面的因素最终决定了一个产品的质量(竞争力)。
采用此方法理论上的确可以获得比较好的结果,但是实际上这套体系运作起来非常困难,其难点在于:
一方面,对于每一类信息,用户关注的点是不尽相同的,而面对种类繁多的信息类别,系统的运营商很难对每一类信息都有所了解,所以也就很难针对每类信息都建立一套适合这类信息的信息质量评估模型;而即使能建立这么一套模型,其建立的模型往往也仅能展现信息的某个方面而非全部;尤其是在面对新产生的信息种类时,信息的运营商就更难即时的建立一套符合要求的信息质量评估模型了,这里存在很严重的滞后性。
而另一方面,即使系统的运营商能够针对每类信息都建立一套相对客观公正的质量评估模型,而信息的发布者也很难把这套模型中的各项指标都填写完整;而即使是填写完整,其系统的运营商也很难对其信息的真实性进行评估。
以上两方面的问题就导致在目前的互联网分类信息平台(比较典型的是B2B电子商务平台)的运营商很难对信息的质量进行评估,进而就导致很难把搜索结果按质量排序。比较现实的情况是,在找不到好的信息质量评估方式的情况下,大多数互联网分类信息平台只能按信息是否是付费信息进行排序,付费的信息排前面,非付费的信息排后面,在同为付费信息或同为非付费信息的时候就只能随机排序。
由此可见,导致在目前的互联网分类信息平台的运营商很难对信息的质量进行评估的原因是因为互联网分类信息平台的运营商对信息本身缺乏了解导致的,也就是说他们之间存在比较严重的信息不对称问题。
实际上,信息的发布者之间的信息不对称程度是非常低的。以B2B电子商务平台为例,比如以生产手机的某厂商为例,他对自己的竞争对手都有哪些,这些竞争对手中谁更强,谁更弱等都是非常了解的,他甚至能很容易把本行业的竞争对手按其竞争力从高到低进行排序。
正是鉴于以上原因,如果能把信息发布者的这种能力挖掘出来,则能相对更容易对信息的质量进行评估。
综上所述,现有的互联网分类信息平台上对信息的质量评估效果不理想,进而也导致其搜索功能不理想,其搜索结果难以按信息的质量排序。
发明内容
为解决上述问题,本发明提供一种能提高信息的质量评估效果的互联网信息发布和搜索方法。
本发明互联网信息发布和搜索方法,该方法通过包括信息发布器、信息数据库、文本索引器、文本索引数据库、信息质量指标提取器、信息质量指标数据库、信息质量评级器、用户搜索器组成的搜索系统,执行分类信息的搜索的步骤如下;
通过信息发布器发布分类信息,信息被存储入信息数据库;
文本索引器把信息数据库中的相关文本信息进行文本索引;
索引之后的文本存入文本索引数据库;
信息质量指标提取器从信息数据库中提取与评估信息质量相关的指标信息;
相关指标信息被存储入信息质量指标数据库;
信息质量评级器根据事先定义好的信息质量评级方法对信息质量指标数据库中的信息进行评级;
信息质量评级之后,各信息的质量相关信息被存储入信息质量数据库;
信息查找者通过用户搜索器在文本索引数据库中进行查询,得到“信息和查询的相关性”;
用户搜索器在信息质量数据库中进行查询,得到“信息质量”;
用户搜索器根据“信息质量”排序并显示在文本索引数据库中查询到的相关信息;
其中:将信息的关联质量作为一个信息质量评级指标的步骤如下:
A、使用信息发布器发布信息,具体步骤如下:
A1、填写相关分类信息;
A2、填写完成的基本信息被存储入信息数据库;
A3、搜索与此信息同类的其他信息;
A4、从搜索到的信息中挑选若干同类信息进行关联;
A5、对已关联的信息进行排序;
B、使用关联信息提取器从信息数据库中提取关联信息并将关联信息存储入关联信息数据库;
C、信息质量评级器从关联信息数据库提取关联信息,然后根据这些信息间的关联情况计算出信息的关联质量,并将信息的关联质量作为一个信息质量评级指标。
本发明互联网信息发布和搜索方法,其中:特定信息的信息质量分别与Q(A)和QR(A)正相关。
本发明互联网信息发布和搜索方法,其中:特定信息的信息质量由公式Q(A)+QR(A)确定。
本发明互联网信息发布和搜索方法,其中:特定信息的关联质量与特定信息的关联得分正相关,特定信息的关联得分由特定信息的主动关联得分AR(A)与特定信息的被动关联得分PR(A)构成。
本发明互联网信息发布和搜索方法,其中:特定信息的主动关联得分与特定信息向其它信息发出关联的次数正相关。
本发明互联网信息发布和搜索方法,其中:特定信息的主动关联得分计算方式为: AR ( A ) = α × Σ i = 1 o A u i AR ( A ) = α × Σ i = 1 o A U i .
本发明互联网信息发布和搜索方法,其中:特定信息的被动关联得分与特定信息被其它信息关联的次数以及在被其它信息关联时赋予的权重正相关。
本发明互联网信息发布和搜索方法,其中:特定信息的被动关联得分计算方式为: PR ( A ) = β × Σ i = 1 p A v i PR ( A ) = β × Σ i = 1 p A V i .
本发明互联网信息发布和搜索方法,其中:使用用户搜索器进行分类信息搜索的具体步骤如下:
D1、使用“关键词搜索”、“类目搜索”或“关键词加类目搜索”发出搜索请求;
D2、用户搜索器搜索文本索引数据库,并返回搜索结果列表页;
D3、在搜索结果列表页中找到某条符合搜索意图的信息;
D4、通过上述符合搜索意图的信息进入与此特定信息对应的‘过渡页’,‘过渡页’的内容包括曾向此特定信息发出过直接或间接关联的信息;
本发明互联网信息发布和搜索方法,其中:步骤D4中,从符合搜索意图的信息进入‘过渡页’的方法为以下方法之一:
D41,在搜索结果列表页中的特定信息条目中增加如“同类产品”字符串的链接,信息查找者点击此链接即可到达与此特定信息对应的‘过渡页’;
D42,点击搜索结果列表页中的特定信息直接到达与此特定信息对应的‘过渡页’;
D43,通过搜索结果列表页到达信息展示页之后,在信息展示页增加如“同类产品”字符串的链接,信息查找者点击此链接即可到达与此特定信息对应的‘过渡页’。
本发明互联网信息发布和搜索方法可以更好的对信息的质量进行评估。
另外,本发明互联网信息发布和搜索方法还提供了一种快速查找信息的方法,此方法使得信息的查找者只要查找到了一条符合他搜索意图的信息,那么他就可以通过这条信息用此方法找到更多他想要的信息,以上两点就为用户提供了更好的用户体验。
附图说明
图1是现有的信息发布平台的总体构架;
图2是现有用户搜索器中信息搜索展示的基本流程;
图3是本发明互联网信息发布和搜索方法涉及的用户搜索器中信息搜索展示的基本流程;
图4是本发明互联网信息发布和搜索方法涉及的信息发布平台的总体构架;
图5是本发明互联网信息发布和搜索方法涉及的信息发布器中“查找同类信息”的一个页面演示,是以“手机”为例进行的说明;
图6是本发明互联网信息发布和搜索方法涉及的信息发布器中“与同类信息进行关联”的一个页面演示,是以“手机”为例进行的说明;
图7是本发明互联网信息发布和搜索方法涉及的信息发布器中“已关联信息列表页”的一个页面演示,是以“手机”为例进行的说明;
图8是“算法1:与搜索主题无关的信息QR值算法”中,集合t、u、v与信息A的关系;
图9是“算法2:与搜索主题相关的信息QR值算法”中,集合T、U、V与信息A的关系;
图10是信息间的关联关系的一个示意图;
图11是信息间的关联关系的一个示意图,它示出了从一条信息沿着关联关系到达另一条信息的一条路径。
具体实施方式
下面结合说明书附图对本发明互联网信息发布和搜索方法作进一步说明。
参见图4,本发明互联网信息发布和搜索方法,其基本结构与现有技术基本相同,下面将与现有技术不同的部分加以详细描述:
一、新的信息发布器
新的信息发布器的信息发布流程包括两个阶段,每个阶段又分为若干步骤,其中:
第一阶段为基本信息的发布阶段,包含如下步骤:
步骤1:信息发布者登录系统;
步骤2:进入信息发布器;
步骤3:填写相关分类信息;
步骤4:填写完成的基本信息被存储入信息数据库。
与旧的信息发布流程相比,新的信息发布流程将增加同类信息间关联这一阶段,它包含如下步骤:
步骤5:搜索与此信息同类的其他信息;
步骤6:从搜索到的信息中挑选若干同类信息进行关联;
步骤7:对关联的信息进行排序;
步骤8:完成信息最终发布;
其中:
步骤5中,在完成信息发布之后进入到信息发布器的“查找同类信息页面”,此页面为新增页面。一般在信息发布者在信息发布器的“查找同类信息页面”中采用关键词搜索的方式找到与此信息同类的竞争对手的信息。
比如以B2B电子商务平台为例,对于信息发布者,以一家生产手机的企业为例,他在B2B平台上发布一条手机相关的产品(信息),此时,他可以采用他发布的产品的名称,比如“手机”在信息发布器的“查找同类信息页面”进行搜索,如图5所示。系统则从信息数据库中找到搜索关键词相关的产品,并返回搜索结果,如图6所示。
步骤6中,一般情况下,通过步骤5可以获得大量“字面”符合搜索意图的信息,这些信息出现在用户发布信息模块的“搜索结果页面”,此页面也为新增页面。在这些信息中,信息的发布者可以从中挑选与自己发布的信息最相关的信息并与之关联,此时这些关联的结果将被存储入信息数据库中,其关联的结果主要包含关联了那些信息以及被关联信息的排名,这个排名一般为:如被关联的信息被同时关联,则其排名为原有搜索结果列表的排名;若被关联的信息按时间前后分几次被关联,则排名按时间先后排名。
比如以上述案例为例,此时,信息发布者采用“手机”作为关键词在信息发布器的“查找同类信息页面”进行搜索。在点击“搜索”指按钮之后,从而得到大量的“字面”包含“手机”的信息,这些信息就比如“手机链”,“干手机”,“手机”,“CDMA手机”,“A88手机”等等。显然,“手机链”,“干手机”与信息发布者发布的信息不为同类信息,此时它就可以挑选诸如“手机”,“A88手机”等并与之关联。如图6所示。
而对于“关联”这个动作,一般可以采取在搜索结果页面中在符合条件的信息上打勾,然后再点击诸如“与选中的信息进行关联”之类的按钮实现。如图6所示。而对于“关联”这个动作要达到的目的是让信息发布者找出他的主要竞争对手都有哪些。比如一家生产手机的厂商,当他发布过一条手机相关的信息之后,他就可以在相应的信息发布平台上找到他的主要竞争对手的相关产品。
在步骤6中,在信息发布者挑选出同类信息并与之关联之后,比如以上述案例(见图6)中,在信息发布者在勾选第1页的第3条“供应A88”手机,第5条“供应手机”并点击“与选择的信息进行关联”按钮之后,即可进入“已关联信息列表页”,此页面为新增页面。如图7所示。
在进入“已关联信息列表页”后,即可对已关联的信息进行排序,即进入步骤7。在此页面可对已关联的信息进行重新排序。其排序方法为点击如图7所示的上下箭头符号,点击向上箭头符合则此信息的排名向上移动,点击向下箭头符号则此信息的排名向下移动。完成此步骤后,相关排名信息将被存储入信息数据库中。
在上述过程中,对已关联的信息,信息发布者还可执行删除等操作,而且其“关联”的动作可以分多次完成等等。
而为了让信息发布者愿意按以上方式发布信息,则需要建立一套针对信息发布者的有效的激励机制,这套激励机制使得如果按此新方法发布信息,他就将获得更多的收益。
从另一个角度来看,如果把整个系统看成一个博弈平台,参与人:存在于信息发布平台上的信息发布者,表示为i=1,2,3,...,n,n为参与人总数。此博弈记为:G={s1,...,sn;u1,...,un}。面对此博弈,我们的目的是针对博弈建立一套博弈规则,此规则使得此博弈中参与人(信息发布者)的最优策略是选择采用新的信息发布方式发布信息,即此策略为Nash均衡策略。
具体来讲,这套规则使得采用新的信息发布方法发布的信息的收益包括但不限于:
收益1:按此新方法发布的信息在其对应的搜索结果中搜索排名将相对靠前,从而被查看的机率将更高,其收益增大。
收益2:按此新方法发布的信息会出现在被其关联过的信息的同类信息搜索列表页(其定义见:信息的同类信息搜索结果列表页的定义)中,从而被查看的机率也将更高,其收益增大。
收益3:在信息的查找者向某特定信息发送询盘时,系统会向其推荐曾向此特定信息发出直接或间接关联的信息,此时信息的查找者在发询盘时存在很大的可能性也同时向此类信息发送询盘,即此时按此新方法发布信息的信息收益将增大。
而为了实现以上目的,系统规定按此新方法发布的信息以及被此信息关联的信息都将获得相应的QR值积分。而信息的QR值积分又与搜索排名息息相关,QR值积分越高的信息在其对应的搜索结果中搜索排名相对靠前。
信息的QR值积分定义:
对于信息发布平台上的任意一条信息,若它曾向系统中的其它信息发出过关联,且其排序是根据它与其它各信息间关联程度从高到低排序,则通过此类关联,发出关联的信息本身以及被关联的信息都可获得相应QR值积分,其QR值积分在增加情况如下:
发出关联的信息将从与相关信息的关联中分别获得K1、K2、K3、…、Kn的得分。收到关联的信息也分别将从这个动作中获得K1、K2、K3、…、Kn的得分。其中K1、K2、K3、…、Kn的分值分别为事先定义好的一系列常数,均大于零,并呈递减关系。
特别的,对于任意的发出关联的信息为X,收到关联的信息为Y,则发出关联的信息X与收到关联信息Y因此关联而得到的分数可记为XY,显然XY∈{K1,K2,K3,…,Kn}。
二、新的信息处理和存储模块:
图4包含了新的信息处理和存储模块,其处理流程与现有流程相比,增加的步骤如下:
B、使用关联信息提取器从信息数据库中提取关联信息并将关联信息存储入关联信息数据库;
C、信息质量评级器从关联信息数据库提取关联信息,将信息与其他信息的关联质量作为一个信息质量评级指标。
在新的信息处理和存储模块中,对于信息质量的评估,分别采用了两种方法。第一种方法为传统的信息质量评估方法,针对每一类信息事先建立一套信息质量评估模型,模型中包含针对此类信息用户关心的各类指标,然后用这些指标对各类信息进行一一评估,最后得到一个分值。第二种方法为采用超链分析技术对信息进行质量评估,最后得到一个分值。两个分值加起来就为这条信息最终的信息质量的分值。
若对于任意的一条信息A,在基于传统的信息质量评估方式下其信息质量用Q(A)表示,基于超链分析的信息质量评估方式下其信息质量用QR(A)表示,则A信息的质量可用如下方式表示:
信息质量(A)=Q(A)+QR(A)    (公式2)
其中:
对于信息质量QR(A)的计算可以有多种方法,但是归根结底,它的理论基础是:一条信息被关联的次数越多,则它可能是更重要的;一条信息在被关联时被赋予更大的权重,则它可能是更重要的。它的分析方法与学术上的引文分析技术非常类似。
以下列出几种通过此思想计算信息QR值的方法。
算法1:与搜索主题无关的信息QR值算法
信息发布平台上的所有信息用集合t来表示,t={t1,t2,t3,…,tn}。
若A是信息发布平台上的一条信息,即A∈t,集合t内所有被信息A关联的信息用集合u表示,u={u1,u2,u3,…,uo),其数目用o表示;集合t内向信息A发出过关联的所有信息用集合v表示,v={v1,v2,v3,…,vp),其数目用p表示。
集合u、v一般情况下会有交集,集合t、u、v及信息A的关系如图8所示。
则对于任意的一条信息A,其QR(Quality Rank)值的计算方式定义如下:
QR ( A ) = α × AR ( A ) + β × PR ( A ) = α × Σ i = 1 o Au i + β × Σ i = 1 p A v i (公式3)
它表示:信息A的QR值由两部分组成,分别是主动关联得分(Active Rank)与被动关联得分(Passive Rank)。其意义在于:如果信息A向集合t内的其它信息发出的关联越多,则信息A将获得更高的QR值;如果信息A被集合t内的信息关联的次数越多,并被赋予更高的权重,则信息A也将获得更高的QR值。
其中:
AR(A)表示信息A因向t内其它信息发出主动关联而获得的分数;
PR(A)表示信息A因被向t内其它信息关联而获得的分数;
这里α,β被用来调节主动关联得分与被动关联得分对QR值的影响程度。
其中:
主动关联得分的计算方式为: AR ( A ) = Σ i = 1 o A u i , 它表示信息A的主动关联得分是由信息A因向对集合u内各信息发出关联而获得的分数之和。Aui为事先定义好的常数,其定义见:信息的QR值积分定义
被动关联得分的计算方式为: PR ( A ) = Σ i = 1 p A v i , 它表示信息A的被动关联得分等于在集合v内为信息A关联的信息为其贡献的分值之和。Avi为事先定义好的常数,其定义见:信息的QR值积分定义
算法2:与搜索主题相关的信息QR值算法
用户在信息发布平台上发出一个查询,系统采用传统的搜索算法得到n条信息,则这些搜索结果用集合T来表现,T={T1,T2,T3,…,Tn}。
若A是集合T中的一条信息,则对于集合T中的任意一条信息A,则对于信息A,集合T内所有被信息A关联的信息用集合U表示,U={U1,U2,U3,…,Uo},其数目用o表示;集合T内向信息A发出过关联的所有信息用集合V表示,V={V1,V2,V3,…,Vp},其数目用p表示。
集合U、V一般情况下会有交集,集合T、U、V及信息A的关系如图9所示:
则对于任意的一条信息A,其QR(Quality Rank)值的计算方式定义如下:
QR ( A ) = α × AR ( A ) + β × PR ( A ) = α × Σ i = 1 o AU i + β × Σ i = 1 p A V i (公式4)
它表示:信息A的QR值由两部分组成,分别是主动关联得分(Active Rank)与被动关联得分(Passive Rank)。其意义在于:如果信息A关向集合T内的其它信息发出的关联越多,则信息A将获得更高的QR值;如果信息A被集合T内的信息关联的次数越多,并被赋予更高的权重,则信息A获得更高的QR值。
其中:
AR(A)表示信息A因向T内其它信息发出主动关联而获得的分数;
PR(A)表示信息A因被向T内其它信息关联而获得的分数;
这里α,β被用来调节主动关联得分与被动关联得分对QR值的影响程度。
其中:
主动关联得分的计算方式为: AR ( A ) = Σ i = 1 o AU i , 它表示信息A的主动关联得分是由信息A因向对集合U内各信息发出关联而获得的分数之和。AUi为事先定义好的常数,其定义见:信息的QR值积分定义
被动关联得分的计算方式为: PR ( A ) = Σ i = 1 p AVi , 它表示信息A的被动关联得分等于在集合V内为信息A关联的信息为其贡献的分值之和。AVi为事先定义好的常数,其定义见:信息的QR值积分定义
相关算法的异同及总结:
以上仅为两种计算信息QR值的计算方式。两种方法总体思路基本相同,都是计算信息的主动关联得分与被动关联得分,然后再相加。
不同之处在于,第一种计算方式计算出来的信息的QR值与查询无关,而第二种计算方式计算出来的信息的QR值则与查询息息相关。第一种算法可事先把计算结果存储起来,计算代价相对较小,第二种算法一般情况下要求在线计算,计算代价较大。但第二种方法可获得相对较优的计算结果。两种计算方式的异同类似于搜索引擎算法中的PageRank算法与HITS算法的差异。
除以上两种计算方式以外,还可以有其它更多的计算方式,比如以上计算方式中都是没有考虑类似于PageRank算法与HITS算法的收敛问题的,而如果把此问题考虑进去则其算法就更类似于PageRank算法与HITS算法了,但是这样也增加了计算代价。
关于信息的QR值与信息质量之间的关系:
需要说明的是,信息的质量并不一定与信息的QR值成正比。从信息QR值的计算方式可以看出,信息的QR值由两部分组成,分别是主动关联得分(Active Rank)与被动关联得分(Passive Rank),其中只有被动关联得分是与信息质量相关,信息的主动关联得分与信息质量没有直接的相关性。
所以,在初期,在只有一部分信息是按新的信息发布方法发布的时候,这部分信息虽可在其对应的搜索结果中排名靠前,即拥有相对较高的QR值,但此时其搜索排名高的信息并不一定是质量好的信息。而只有在经过一定阶段之后,当所有的信息都按新的信息发布方法发布之后,则可实现质量好的信息排名相对靠前,此时,QR值高的信息就是质量相对较好的信息。
三、新的用户搜索器:
在新的用户搜索器中,在原有的信息搜索展示方式的基础上增加一种新的方法,这种方法使得信息的查找者只要在查找到一条符合他搜索意图的信息,那么他就可以沿着这条信息通过此方法找到更多他想要的信息。如图3所示。
这种方法包含以下步骤:
步骤1:用户发出搜索请求1301;
步骤2:系统返回搜索结果列表页1302;
步骤3:用户采搜索结果列表页中找到某条符合搜索意图的信息1303;
步骤4:通过上述符合搜索意图的特定信息通过1步、2步或多步可到达“与此特定信息对应的‘过渡页’”,此页面是由曾向此符合搜索意图的特定信息发出过直接或间接关联的信息以及其它信息(比如此符合搜索意图的特定信息本身)组成的搜索结果列表页。其中,组成此搜索结果列表页的信息条目的获取方法是根据信息间相关度计算而获得的,而非传统的根据“关键词搜索”、“类目搜索”或“关键词加类目搜索”得到的。然后还可回到步骤3,如此循环;
其中:
在步骤2中,在此搜索结果列表页中,此列表页中很可能会出现一些与搜索意图不相关的结果。比如用户输入“手机”这个关键词,系统返回的可能是“干手机”,“手机链”,“手机电池”等类别的产品。所以需要进入步骤3。
在步骤3中,在步骤2所得的搜索结果列表页中,一般情况下会有一部分产品是符合用户搜索需求的,此时用户只需要找到其中的某条符合搜索需求的信息;
在步骤4中,从搜索结果列表页到达“与此特定信息对应的‘过渡页’”的方法可以有多种,它包括但不限于:方法1,在搜索结果列表页中的特定信息条目中增加诸如“同类产品”链接,信息查找者点击此链接即可到达“与此特定信息对应的‘过渡页’”;方法2,点击搜索结果列表页中的特定信息直接到达“与此特定信息对应的‘过渡页’”,而不是此特定信息的信息展示页。方法3,在通过搜索结果列表页到达信息展示页之后,在信息展示页的适当位置增加诸如“同类产品”链接,信息查找者点击此链接即可到达“与此特定信息对应的‘过渡页’”。
特定信息对应的过渡页的定义:
特定信息对应的过渡页是由曾向此特定信息发出过直接或间接关联的信息以及其它信息(比如此符合搜索意图的特定信息本身)组成的一个或多个搜索结果列表页。此搜索结果列表根据相关信息与特定信息间的相关度从高到低对相关信息条目进行排序。比如先展示向此特定信息发出过直接关联的信息,再展示向此特定信息发出过间接关联的信息。
其中,对于特定信息与相关信息间相关度的算法可以有多种,以下为其中一种:
若A是信息发布平台上的一条信息,S1、S2、S3、...Sn是向信息A直接或间接发出过关联的信息,如图10所示。即沿着S1、S2、S3、...Sn发出过关联的路径最终可以到达信息A。其中,向A发出过直接关联的信息就比如图10中的S1、S2、S3,向A发出过间接关联的信息就比如图10中的S4、S5、S6、S7,如此类推。显然,此时A、S1、S2、S3、...Sn以及它们之间的关系构成一个有向网络。如图10所示。
则任意的一条信息Si其相对于信息A的相关度表示为:
R(SiA)=max(R(Si,...,A))=max((MnA+QR(Si))/Kn)    (公式5)
其中:
(Si,...,A)表示从Si到达A的各种有可能的路径。在上述有向网络中,从一个点到达另外一个点可能1条,2条,甚至有多条路径,比如从S5到达A就可能会有(S5,S1,A),(S5,S2,A)等。若Si与A之间有n个节点,这些节点依次是M1,M2,M3,...,Mn表示。如图11所示:
则:
R(Si,...,A)=(MnA+QR(Si))/Kn  (公式6)
其中:
K为大于K1的常数。
SiM1表示Si因向M1发出关联而得到的分数,特别的当Si与A是直接关联时SiM1即为SiA,SiM1的定义见:信息的QR值积分定义
R(SiA)的含义是:对于所有的与信息A直接或间接关联的信息,先展示直接关联的,然后再展示2级关联的,再展示3级关联的,如此类推。在同一级别的关联中,优先展示信息Si与信息A最短路径中得分最高的信息,如果得分相同,则优先展示信息本身QR值高的。如果上述分值都相同,则随机排序。
综上所述,本发明互联网信息发布和搜索方法可以更好的对信息的质量进行评估。
另外,本发明互联网信息发布和搜索方法还提供了一种快速查找信息的方法,此方法使得信息的查找者只要查找到了一条符合他搜索意图的信息,那么他就可以通过这条信息用此方法找到更多他想要的信息,以上两点就为用户提供了更好的用户体验。
此外,本发明所属技术领域人员根据说明书的上述内容,可以想到本发明互联网信息发布和搜索方法可以不经任何创造性劳动应用于各种企业网(Intranet)、局域网、城域网、广域网等。
以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (10)

1.一种互联网信息发布和搜索方法,该方法通过包括信息发布器、信息数据库、文本索引器、文本索引数据库、信息质量指标提取器、信息质量指标数据库、信息质量评级器、用户搜索器组成的搜索系统,执行分类信息的搜索,其特征在于,步骤包括:
A、使用信息发布器发布分类信息,具体步骤如下:
A1、填写相关分类信息;
A2、填写完成的基本信息被存储入信息数据库;
A3、搜索与此基本信息同类的其他信息;
A4、从搜索到的信息中挑选若干同类信息进行关联;
A5、对已关联的信息进行排序;
使用文本索引器进行文本索引,具体步骤如下:
文本索引器把信息数据库中的相关文本信息进行文本索引;
索引之后的文本存入文本索引数据库;
对信息数据库中的信息进行评级,具体步骤如下:
信息质量指标提取器从信息数据库中提取与评估信息质量相关的指标信息;
相关指标信息被存储入信息质量指标数据库;
信息质量评级器根据事先定义好的信息质量评级方法对信息质量指标数据库中的信息进行评级;
信息质量评级之后,该信息质量指标数据库中的各信息的质量相关信息被存储入信息质量数据库;
B、使用关联信息提取器从信息数据库中提取关联信息并将关联信息存储入关联信息数据库;
C、信息质量评级器从关联信息数据库提取关联信息,然后根据基本信息和关联信息间的关联情况计算出信息的关联质量,并将信息的关联质量作为一个信息质量评级指标;
E、使用用户搜索器进行分类信息搜索,具体步骤如下:
信息查找者通过用户搜索器在文本索引数据库中进行查询,得到信息和查询的相关性;
用户搜索器在信息质量数据库中进行查询,得到信息质量;
用户搜索器根据信息质量排序并显示在文本索引数据库中查询到的相关信息。
2.根据权利要求1所述的互联网信息发布和搜索方法,其特征在于:任意一条信息的信息质量分别与Q(A)和QR(A)正相关,基于传统的信息质量评估方式下其信息质量用Q(A)表示,基于超链分析的信息质量评估方式下其信息质量用QR(A)表示。
3.根据权利要求2所述的互联网信息发布和搜索方法,其特征在于:该任意一条信息的信息质量由公式Q(A)+QR(A)确定。
4.根据权利要求1所述的互联网信息发布和搜索方法,其特征在于:任意一条信息的关联质量与该任意一条信息的关联得分正相关,该任意一条信息的关联得分由该任意一条信息的主动关联得分AR(A)与该任意一条信息的被动关联得分PR(A)构成。
5.根据权利要求4所述的互联网信息发布和搜索方法,其特征在于:该任意一条信息的主动关联得分与该任意一条信息向其它信息发出关联的次数正相关。
6.根据权利要求5所述的互联网信息发布和搜索方法,其特征在于:该任意一条信息的主动关联得分计算方式为: AR ( A ) = α × Σ i = 1 o Au i AR ( A ) = α × Σ i = 1 o AU i , 其中Aui和AUi为常数,o表示所有被信息A关联的信息的数目,α用来调节主动关联得分对QR(A)值的影响程度,基于超链分析的信息质量评估方式下该任意一条信息的信息质量用QR(A)表示。
7.根据权利要求6所述的互联网信息发布和搜索方法,其特征在于:该任意一条信息的被动关联得分与该任意一条信息被其它信息关联的次数以及在被其它信息关联时赋予的权重正相关。
8.根据权利要求7所述的互联网信息发布和搜索方法,其特征在于:该任意一条信息的被动关联得分计算方式为: PR ( A ) = β × Σ i = 1 p Av i PR ( A ) = β × Σ i = 1 p AV i , 其中
Avi和AVi为常数,p表示所有向信息A发出过关联的信息的数目,β用来调节被动关联得分对QR(A)值的影响程度。
9.根据权利要求1至8之一所述的互联网信息发布和搜索方法,其特征在于:
步骤E、使用用户搜索器进行分类信息搜索的具体步骤替换为:
D1、使用“关键词搜索”、“类目搜索”或“关键词加类目搜索”发出搜索请求;
D2、用户搜索器搜索文本索引数据库,并返回搜索结果列表页;
D3、在搜索结果列表页中找到某条符合搜索意图的信息;
D4、通过上述符合搜索意图的信息进入与上述符合搜索意图的信息对应的‘过渡页’,‘过渡页’的内容包括曾向此符合搜索意图的信息发出过直接或间接关联的信息。
10.根据权利要求9所述的互联网信息发布和搜索方法,其特征在于:步骤D4中,从符合搜索意图的信息进入‘过渡页’的方法为以下方法之一:
D41,在搜索结果列表页中的信息条目中增加“同类产品”字符串的链接,信息查找者点击此链接,到达与此符合搜索意图的信息对应的‘过渡页’;
D42,点击搜索结果列表页中的该符合搜索意图的信息直接到达与此符合搜索意图的信息对应的‘过渡页’;
D43,通过搜索结果列表页到达信息展示页之后,在信息展示页增加“同类产品”字符串的链接,信息查找者点击此链接,到达与此符合搜索意图的信息对应的‘过渡页’。
CN2008101146880A 2008-06-06 2008-06-06 互联网信息发布和搜索方法 Expired - Fee Related CN101308507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101146880A CN101308507B (zh) 2008-06-06 2008-06-06 互联网信息发布和搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101146880A CN101308507B (zh) 2008-06-06 2008-06-06 互联网信息发布和搜索方法

Publications (2)

Publication Number Publication Date
CN101308507A CN101308507A (zh) 2008-11-19
CN101308507B true CN101308507B (zh) 2010-07-21

Family

ID=40124961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101146880A Expired - Fee Related CN101308507B (zh) 2008-06-06 2008-06-06 互联网信息发布和搜索方法

Country Status (1)

Country Link
CN (1) CN101308507B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339417A (zh) * 2010-07-20 2012-02-01 百度在线网络技术(北京)有限公司 账户结构自动优化的设备、方法和系统
CN102411577A (zh) * 2010-09-25 2012-04-11 百度在线网络技术(北京)有限公司 一种用于基于标杆对推广关键词进行分析的方法与设备
CN102110170B (zh) * 2011-03-18 2013-07-31 北京百度网讯科技有限公司 一种具有信息发布和搜索功能的系统及信息发布方法
CN102402565A (zh) * 2011-08-09 2012-04-04 戴冲 综合信息汇编方法
CN102722835A (zh) * 2012-05-22 2012-10-10 山西优府信息技术开发有限公司 网络营销拓展系统
CN104375985A (zh) * 2014-11-25 2015-02-25 苏州迪云信息科技有限公司 一种从文本中提取物品信息的方法和装置
US20190042656A1 (en) * 2016-02-03 2019-02-07 Dennis Mark Germishuys Scoring of internet presence

Also Published As

Publication number Publication date
CN101308507A (zh) 2008-11-19

Similar Documents

Publication Publication Date Title
CN101308507B (zh) 互联网信息发布和搜索方法
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN104063523B (zh) 一种电子商务搜索评分与排名的方法及系统
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN102866990B (zh) 一种主题对话方法和装置
CN103218719B (zh) 一种电子商务网站导航方法及系统
US20100057717A1 (en) System And Method For Generating A Search Ranking Score For A Web Page
WO2008109485A1 (en) Personalized shopping recommendation based on search units
CN108647276B (zh) 一种搜索方法
JP2013525921A (ja) 垂直検索に基づいたクエリの方法、システム、および装置
CN103226618B (zh) 基于数据集市挖掘的相关词提取方法及系统
CN105138690B (zh) 确定关键词的方法和装置
CN105653671A (zh) 相似信息推荐方法及系统
EP1121651A1 (en) Internet site searching and listing service based on monetary ranking of site listings
CN101151607A (zh) 用于提供产品评论的方法、系统和图形用户界面
CN106339383A (zh) 一种搜索排序方法及系统
CN106682145A (zh) 一种企业信息的处理方法、服务器及客户端
CN107180078A (zh) 一种基于用户兴趣学习的垂直搜索方法
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN103365904A (zh) 一种广告信息搜索方法和系统
CN103226609A (zh) 一种web聚焦搜索系统的搜索方法
CN110321471A (zh) 一种基于政策性资源汇聚的互联网科技金融智能匹配方法
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN101388025A (zh) 一种基于Pagerank的语义网对象排序方法
CN107766229A (zh) 一种利用蜕变测试评价商品搜索系统正确性的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NINETOWNS INTERNET TECHNOLOGY GROUP COMPANY LIMITE

Free format text: FORMER OWNER: BEIJING JIUCHENG YIJU TENANCY CO., LTD.

Effective date: 20120417

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: BEIJING JIUCHENG YIJU TENANCY CO., LTD.

Free format text: FORMER NAME: BEIJING NINETOWNS INTERNET TECHNOLOGY CO., LTD.

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100070 FENGTAI, BEIJING TO: 100020 CHAOYANG, BEIJING

CP01 Change in the name or title of a patent holder

Address after: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee after: Beijing The9 livable Property Co.,Ltd.

Address before: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee before: BEIJING NINETOWNS INTERNET TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20120417

Address after: 100020 Beijing City, Chaoyang District Road No. 20, building 1, 22 storey International Building Report

Patentee after: Guangdong Fanzai Wireless RFID Public Technology Support Co.,Ltd.

Address before: 100070, Beijing, Fengtai District, South Fourth Ring Road, No. 7, 188 District, 14 floor

Patentee before: Beijing The9 livable Property Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100721

Termination date: 20160606