CN1996280A - 共建搜索引擎的方法 - Google Patents

共建搜索引擎的方法 Download PDF

Info

Publication number
CN1996280A
CN1996280A CN 200510130892 CN200510130892A CN1996280A CN 1996280 A CN1996280 A CN 1996280A CN 200510130892 CN200510130892 CN 200510130892 CN 200510130892 A CN200510130892 A CN 200510130892A CN 1996280 A CN1996280 A CN 1996280A
Authority
CN
China
Prior art keywords
webpage
classification
user
analysis
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510130892
Other languages
English (en)
Inventor
宋亚民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 200510130892 priority Critical patent/CN1996280A/zh
Publication of CN1996280A publication Critical patent/CN1996280A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种的搜索引擎方法和系统。通过采用查询用户的认同度百分比来评价网页的相关度;搜索结果的呈现方式其有分区域循环性,实行动态调整;通过采用定单定制分类辅以关键词聚类的方式进行查询,实现个性化搜索服务;通过对用户查询结果处理数据反馈来进一步评价网页的相关度。本发明具有给高投票率的网站以地位更给后来的高质量网站以机会,体现了互联网络乃至搜索引擎的公平性特点。本发明的本质就是共建的搜索引擎把网页投票的PageRank变成了用户(查询者)投票的Colony Rank,具有民主共建的特征。

Description

共建搜索引擎的方法
技术领域
本发明属于互联网络技术,特别涉及搜索引擎的方法和系统。
背景技术
随着网络的日益普及,上网已经越来越保存了一种人们的日常习惯同时,网络搜索引擎的使用也越来越普遍,代表性的有google、yahoo、msn以及中国的baidu.搜索引擎的发展也经理了查全导向到查准导向的阶段,随着数据库容量的不断扩大,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。
智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。
目前的提供智能化搜索引擎的解决方案围绕相关度技术展开、基本包括以下三个方面:
权值调整技术
2005年10月27日公开了Google公司的美国专利申请号为20050240580名称为《Personalization of placed content ordering in search results》译做“搜索结果内容排序的个性化”的专利,内容基本是利用用户描述文档,对搜索结果进行个性化排序,用以修正PageRank,提高相关度。
2005年3月公开了Google的申请号20050071741名称《Information retrieval basedon historical data》的专利“基于历史数据的信息检索”,则是针对网页文献的历史数据,如用户如何存取该文献、用户是否将其加入书签、用户在该页面的停留时间等等,生成该网页文献的分值,对搜索结果进行调整。
尽管从个性化排序角度和吸取历史数据角度已经对网页权值做了很大改进,但是Pagerank排名仍然显现出诸多弊端.
Pagerank链接分析的基本假设是“如果网页A链接到网页B,,Google就人为A投了一票给B”这样的话,有些很有价值的资料网页因为没有制作链接,永远不能被投票,不能进入高权值范围被注意而永远落后在几十万页以后,也就是沉睡在互联网的深处,这是有偏颇的、不合理的。
另外、很容易作弊:所谓的SEO(搜索引擎优化师)是指一些小网站,权值低的网站的管理人员,专门针对搜索引擎的结果排名进行优化乃至作弊的职位,人为从技巧上就可以提高Pagerank权值,而不是从内容上被用户认可,说明Pagerank的机制有极大欠缺。
同时,搜索引擎页在同这样的作弊行为进行着旷日持久的斗争,可见左侧的排名变成了利益的战场,这样对使用者是不公平的。
商业气息浓厚:左侧的结果排序和右侧的赞助广告,几乎全部是为了搜索引擎的商业行为提供的。商业行为是未可厚非的,但是,更多的应该是为了用户的使用着想。
Pagerank权值为1到10,比较粗泛。
不公正:固定的排列,没有轮换的筛选机制,对后加入的网页来说明显不公平,他们很可能被淹没在一个关键词的后几十万名单里面,尽管他们可能很有价值,但是,基于Pagerank的基本假设,他们没有被引用,被链接,所以,没有提到前列。
点击率仍然是不可信赖的评价网页的方式,其理由就是一个人可以多次乃至上千次点击,用以维持网页的认可度。
Pagerank链接分析的根本是网页给网页投票,没有完全实现用户给网页投票,没有本质上的改变。
结果呈现技术
Yahoo研究实验室的网站Yahoo Next上发布了Mindset,Mindset可以重新对搜索结果进行排列、分类。Mindset基于两种不同类型的科技,一种叫文本分类一种叫机器学习。前者根据主题对文件进行自动分类,后者通过一些运算法则可以使计算机更多次数的执行某个任务。机器学习能力可以使Mindset对搜索结果进行打分,确定它们属于“非常商业化内容”还是“非常不商业化(学术性)内容”等等。
元搜索引擎Vivisimo(Http://vivisimo.com)可以调用AltaVista、MSN、Nctscapc、Lycos、Looksmart、FindWhat等搜索引擎的结果(用户在它的高级检索中可以选择具体调用那一个或者那一些搜索引擎),对它们进行自动聚类后返回给用户。,
Yahoo的分类技术和Vivisimo自动聚类技术代表了搜索引擎结果排列的发展趋势,但是仍然属于系统单方面的智能化分类技术,没有实现与用户的交互共享。
无论机器学习有多么接近自然语言,始终无法实现哪怕与一个个体的用户的99%的接近,因为,作为分类标准本身有个体化特征,比如对“人”的分类。按地区、性别、身高、职业、年纪、学历、肤色有很多种公共分类方法,而且特定的人群还有不同分类标准,医生可以把人分为健康人和病人;学校分为老师、学生、后勤人员;企业把人分为技术人员、销售人员、管理人员、生产人员等等。个人的偏好、想象力和创造性是机器无法学习的,所以,无论在分类的深度上,还是在多维广度上以及针对性的侧重上,以上两种搜索引擎都有很大的局限性。
虽然具备了机器学习性,但是缺少群体化搜索特征描述的改进还不具备用户自我学习性,和搜索引擎间有了一定交互性,缺少用户间的共享性。
分类的方法和标准是固定的,没有与用户的交互共享,出现的结果不能体现个性化特点。交互共享技术
Yahoo!Search开发的My Web 2.0,其注册用户能保存搜索结果,并共享给好友或任何人。这是Yahoo!搜索个性化和社区化(社会化)的特性。在搜索结果页面,每个结果的描述下面,显示有该结果页面被保存的次数。在一定程度上,这些也能体现出各个结果的重要性。
其不足是容易作弊:没有保存位置限制并且保存次数而不是用户数,没有机器标记,可以被重复保存、删除,明显可能被机器作弊利用而失去客观公正性。
申请日2001.6.X申请号01122023。优先权[32]2000.6.23[33]US[31)09/602,490[71)国际商业机器公司的发明名称《基于万维网共享搜索引擎查询的系统和方法》的专利公开了一种在通过网络连接到众多信息处理部件的中枢处理部件中共享查询的方法,基于该信息处理部件的方法包括以下步骤:从用户处接收字符串;确定该字符串是否为查询,如果该字符串为查询,则执行以下子步骤:将该查询存储到信息处理部件中;以及当用户选择用于共享的查询时,将该查询转发到中枢处理部件
该发明主要共享了查询的关键词,没有对查询结果的反馈共享,是其局限性。
本发明就是针对搜索引擎存在的不足,提出共建搜索引擎的技术。属于一种具备交互性、群体共享性,循环呈现搜索结果并且可以定制的搜索引擎。
发明内容
本发明的第一方面,提出一种搜索引擎结果循环呈现的方法,这个方法基于一种新的网页分析和排列技术,用以取代此前通用的超链接分析技术和固定线性排序技术。
技术方案是用认同度Colony Rank取代超链接分析技术PageRank。认同度Colony Rank定义为关注某类关键词或者某类细分领域的群体对该类别查询返回结果网页的认同百分率,单位是%。认同度Colony Rank的计算依据是查询用户行为的反馈数据,例如:关闭、浏览、收藏、下载、类别整理、添加网页、移动、更新、删除等用户操作。认同度Colony Rank的获取前提是设定入围区的网页链接以循环的方式呈现给查询者,用以全面接受评介反馈,民主投票给网页,从而实现共建的搜索引擎。
认同度Colony Rank的计算实现需要初始化评介和后续完善,属于一种动态的过程。网页的老化陈旧体现在一定时期的认同度%上,而后来者的被接纳也体现在认同度的上升之中。
具体实现手段是设立循环呈现服务器部分取代原有搜索引擎的排序服务器,循环呈现服务器包括网页分析装置用来分析网站网页结构、链接分析和用户反馈数据和识别用户对网页的评介数据的反馈识别装置;以及循环排列装置用来计算认同度以及选环排列网页所需要的其他差参数,即根据用户反馈数据调整网页相关度;确定根据入围点计算入围网页数量,根据查询频率确定入围网页循环频率;最后由页面生成装置,根据预先设置的网页模版,接收循环排列装置指令,形成具有选环排列特征的查询结果网页链接,并且实时动态更新,
服务器的工作流程包括以下步骤:a)、初始化循环展示搜索结果;b)、接收查询用户反馈数据;c)、根据接收查询用户反馈数据计算认同度;d)、根据认同度分布设定入围第一循环数;e)、根据网页数量设定第二循环数;f)、根据查询频率确定循环周期;g)、通过网页模版循环排列查询结果目录和链接;h)、统合查询用户反馈;i)、根据调整查询用户反馈认同度;j)、根据调整后的认同度增减入围网页和循环数;
本发明的第二方面,提出一种搜索引擎定制查询的方法,该方法采用自动归类的预先分类的定单体系,结合基于关键词专业词典的自动聚类技术,兼顾了个性化的需求又体现了具备学习特征的群体化交互共享定单。
定单定制的方式避免了固定分类呈现所产生的多余信息,可以想见的是搜索引擎的一切努力的结果都是一个目的;让客户得到最想得到的信息。个性化的体现不应该仅仅限于结果排列(Google的美国专利申请号为20050240580名称为《Personalization of placed contentordering in search results》译做“搜索结果内容排序的个性化”的专利)上,更应该体现在查询开始的出发点和侧重目标上。因为搜索引擎已经经历了查准率取代查全率了跳跃,即将面临查对率取代查准率的进程。定单定制的方式给出一个更接近目标的开始步骤。
定单本身是多层次的,基本按相关领域和关键词的分类标准进行多维分类,提交给用户进行具体选择,共享机制实现了基于个体化统合群体化定单。
采用的技术方案是增加一个定单服务器:定单服务器包括用于在根据分类标准进行网页分析归类的网页分类装置,还有用于在归类分析的基础上根据关键词进行聚合分类的网页聚类装置,用于在归类分析的基础上根据关键词进行聚合分类;分类索引数据库,用于储存网页分类索引;定单生成装置,用于识别关键词和分类定单;定单数据库,用于储存定单分类索引数据并根据定单反馈数据调整定单分类目录;定单反馈识别装置用来识别用户对定单本身的调整,这其中包括对保存目录的整理信息(见交互部分),
查询基本步骤鼻包括下达查询定单、分类搜索查询、搜索引擎服务器循环呈现查询结果,接收用户处理的反馈数据调整分类方法和分类项目形成新定单。
人为设计查询定单类型可以包括:商务、知识、政务、人文、生活、健康、休闲、娱乐、社会:并且在资源索引数据库中建立相关体系,这些可以实现相对规范化查询和建立搜索秩序,同时使得用户得到学习、参与了定单共建。
定制查询的过程更多的利用了现有的自动归类技术和自动聚类技术内容,上述分类技术已经广泛应用在数据库挖掘领域、并且产生了很多优秀的算法体系,不再赘述。
本发明的第三方面,提出一种搜索引擎信息共享的方法,同样以认同度为核心,基于定单搜索,共享的范围涵盖了分类技术本身,统合了各种分类标准。本发明共享的是查询用户的先期输入行为和后期对结果的处理行为,而且对反馈数据的处理是基于统计学意义的认同度而不是单纯对网页PageRank值的调整。
技术方案是增加一个共享服务器,包括网页分析器,用于分析网页归类和链接特征,纳入网页索引数据库;用户分析器,用于分析查询关键词、查询频率、分类设置;搜索引擎分析器,用于分析其他搜索引擎的分类分析和网页权值计算结果;分类分析装置,用于分析关键词分类标准、分类方法和用户更新定单分类行为;认同度统计装置,用于统台用户关闭、浏览、收藏、下载、类别整理、添加网页、移动、更新、删除等用户操作,计算统计认同度%;更新装置,用于新入围网页更新通知、分类方式更新通知。
包括以下步骤:a)、网页分析,分析网页归类和链接特征,纳入网页索引数据库;b)、搜索引擎计算分析,分析其他引擎搜索对网页的权值评介,参考结果并纳入认同度计算体系;c)、用户群体评介分析,分析统合来自查询用户的反馈数据;d)、分类分析,分析网页归类和聚类特征,提取数据纳入分类数据库;e)认同度计算,根据分类分析和群体分析结果计算网页认同度%;f)、结果呈现,按预先设置的网页模版显示搜索结果的目录和链接;g)、用户反馈,识别用户反馈数据;
有益效果
用Colony Rank取代PageRank作为网页的权值更多的体现了搜索引擎的面向用户的特征,而技术手段也更多了面向用户行为的识别,包括自相矛盾的欺骗性反馈的识别。PageRank作为超链分析显然是面向网站和网页的。本发明的搜索引擎是属于循环动态的,由用户筛选评价的。具有循环特征的Colony Rank给高投票率的网站以地位更给后来的高质量网站以机会,体现了互联网络乃至搜索引擎的公平性特点。本发明的本质就是共建的搜索引擎把网页投票的PageRank变成了用户(查询者)投票的Colony Rank
下面结合附图对本发明做进一步说明。
附图说明
图1为共建的搜索引擎系统结构图。
图2为循环呈现服务器结构图
图3为网页循环呈现流程图
图4为循环呈现机制示意图
图5为搜索结果循环呈现原理示意图
图6为定单服务器结构图
图7为定制查询流程图
图8为分类查询流程图
图9为用户交互服务器结构图
图10为用户交互服务流程
图11为用户保存定制查询结果示意图
图12为商务型查询定单界面示意图
图13为知识型查询定单界面示意图
图14为雷同网页呈现方式示意图
具体实施方式
图1中,示出了一种共建的搜索引擎系统,网页分析子系统是一种循环呈现服务器101,用于评介网页级别和网页评介计算评介点和入围网页数量,并接收查询反馈接纳新入围网页调整评介点和入围网页数量;查询检索子系统还包括定单服务器102,进行网页的归类和聚合分类分析、制定查询定单、接收用户分类反馈调整分类标准;用户交互服务器104,根据和搜索结果分析在呈现模版上排列查询定单所定制的返回结果,通过搜索引擎查询服务器103经由互联网络105,呈现在用户端106,接受查询评介反馈给网页分析系统和定单服务器。
图2中,示出了循环呈现服务器。网页分析装置202对搜索引擎数据库201中的网页进行分类分析,根据网站网页、链接分析和用户反馈数据确定相关度计算基准;反馈识别装置205识别用户对网页的评介数据;并且传输给循环排列装置203,循环排列装置203参照网页链接根据用户反馈数据调整网页相关度;确定根据入围点计算入围网页数量,根据查询频率确定入围网页循环频率;相关数据指令给页面生成装置204,页面生成装置204根据预先设置的网页模版,接收循环排列装置指令,形成具有选环排列特征的查询结果网页链接,并且实时动态更新。
图3中,示出了搜索引擎结果呈现的方法,包括以下步骤:a)、初始化循环展示搜索结果301,b)、接收查询用户反馈数据302,c)、根据接收查询用户反馈数据计算认同度303,d)、根据认同度分布设定入围第一循环数304,e)、根据网页数量设定第二循环数305,f)、根据查询频率确定循环周期306,g)、通过网页模版循环排列查询结果目录和链接307,h)、统合查询用户反馈308,根据调整查询用户反馈认同度,根据调整后的认同度增减入围网页和循环数,
图4中,示出了认同度计算方法,a)、识别用户查询行为,根据用户关闭、浏览、收藏、下载、整理、添加、移动、更新、删除等统计数据,确定网页群体认同度(Colony Rank)402;网页群体认同度(Colony Rank)为一百分比数,选取高认同度与低认同度之间的急剧下降的肩部位403为越升点(Rise Point),分割第一循环区A404和第二循环区B405,越升点(RisePoint)的认同度402一般在50以上。
图5中,示出了循环排列示意图,第一循环501呈现在搜索结果的前列,数量可以是0,或者多达1000个,随着循环和反馈的持续,第一循环的认同度下降者如下降到越升点502以下,将下降到第二循环503区,也可以称做待投票区,次此区的网页认同度远低于第一循环区,同样,第二循环区也会受到查询者关注,如果某些网页的认同度超越了越升点502的认同度,图中给出的例子是80%,这个网页将越升到第一循环中去。跌落认同度0%以下的网页也可以被链接504,这里有最新的网页和涉嫌作弊的网页,以及被查询者投诉的网页,他们仍然有机会加入第二循环,例如,通过广告推广而不是作弊得到一定认同。
循环的周期可以根据关键词或者分类区间查询频率来设定,查询频率高的循环加快,反之可以低些。应该指出的是,循环区的设定有人为经验因素,可以分两个区也可以分更多的区。
图6中,示出了定单服务器的构成,包括:网页分类装置602用于在根据分类标准对网页数据库601进行网页分析灯类;同时、网页聚类装置604在归类分析的基础上根据关键词进行聚合分类;网页分类装置602和网页聚类装置604建立相关的分类索引数据库603,用于储存网页分类索引;定单生成装置605接收用户608传送的定单并且识别关键词和分类定单给分类索引数据库603和定单数据库606,定单数据库606储存定单分类索引数据并根据定单反馈识别装置607提交的定单反馈数据调整定单分类目录。
图7中,示出了定制查询的方法,包括步骤:
下达查询定单701,可以是商务、知识、政务、人文、生活、健康、休闲、娱乐、社会等各种类型:之后搜索器进行分类搜索查询702,由搜索引擎服务器循环呈现查询结果703,并且接收用户处理的反馈数据704。在设计查询定单前需要构建关键词聚合数据库和关键词分类数据库,以及按定单级别分层的定单分类索引数据库。
图8中,示出了定制查询的方法,首先、分解识别定单,基于关键词进行聚类查询801,之后,基于定单目录归类802,再综合聚类和归类结果803给循环呈现服务器呈现查询结果804,识别用户是否处理调整805,得到肯定的结果后反馈接受数据805,提交另外相同的查询参考。
图9中,示出了共建的搜索引擎系统的一种用户交互服务器,包括网页分析装置908,用于分类分析网页结构和内容分类属性,用户分析器906分析查询关键词、查询频率、分类设置;搜索引擎分析器907,分析其他搜索引擎的分类分析和网页权值计算结果;来自以上三个装置的分析结果,将根据分析项目的不同分别输入网页本题的分类分析装置902和用户评介的认同度分析装置904,分类分析装置902,用于分析关键词分类标准、分类方法和用户更新定单分类行为;认同度统计装置904,用于统合用户关闭、浏览、收藏、下载、类别整理、添加网页、移动、更新、删除等用户操作,计算统计认同度%;分类分析装置902和用户评介的认同度分析装置904的分析结果将会同新更新的网页数据库901内容,传达给更新装置903,用以新入围网页的更新通知、分类方式的更新通知。
图10中,示出了用户交互服务的方法,包括以下步骤:网页分析1001,分析网页归类和链接特征,纳入网页索引数据库;搜索引擎计算分析1002,分析其他引擎搜索对网页的权值评介,参考结果并纳入认同度计算体系;用户群体评介分析1003,分析统合来自查询用户的反馈数据;分类分析1004,分析网页归类和聚类特征,提取数据纳入分类数据库;认同度计算1005,根据分类分析和群体分析结果计算网页认同度%;结果呈现1006,按预先设置的网页模版显示搜索结果的目录和链接;用户反馈1007,识别用户反馈数据:
图11中,示出了收藏夹示意图,在用户的浏览器收藏夹1101内,是搜索引擎www服务器根据用户选择自动生成的,其中定单1102分八种:人文定单、商务定单、生活定单、休闲定单、娱乐定单、政务定单、知识定单和健康定单。定单之后是关键词1103设定,根据相应的定单,用户参照基本栏目可以多重选择分类栏目1104,图中的商务定单列出了;产业链、管理信息、技术信息、人才信息、商品信息、生产厂家、市场信息、投资信息,而在技术信息下又分了7个细类1105:标准、技术动态、技术引进、技术转让、开发单位、新产品、专利技术。之后就是在这些细类下面的网页链接1106。
以上仅仅是对用户的保存网页行为做的反馈,反馈识别系统将自动识别固定路径下的保存状况,而且,基于专家分类体系和众多优秀查询者经验集中的分类和查询共享将给用户带来更多学习机会和查询体验,定单的设置本身就显示出查询的持续性和重要性,尤其对于商务定单和知识定单而言,持续的查询和更新是必须的,因而,尽管定单的保存是可选项,对于上述两种定单查询者来说会更多被选中保存,从而配合搜索引擎的查询反馈,有益于认同度计算统计,
应该指出的是,用户的查询行为还包括目录浏览、网页浏览、本地下载、分类调整、添加网页、网页推荐、作弊申诉,所有这些都将被统计下来,作为网页认同度的计算参考依据。
图12中,示出了商务订单1202范例,有关键词输入框1202,有标准的行业分类1203体系,订单至少分8大类1204,各类栏目和相应分支1205,定单前栏目内有选择框,包括:
A、企业信息:名称 地址 经营范围 电话 传真 网址电邮 行业协会 关联企业
B、商品信息:新产品 展览 采购 销售 易货 闲置资产 地区资讯
C、技术信息:技术动态 相关专利 技术标准 技术转让学术会议 技术报告 论著专业杂志
D、市场信息:价格 国际贸易 地方政策 销售渠道相关工程 相关服务
E、投资信息;投资 招商 股票 期货 创新基金风险投资
F、管理信息:生产管理、市场管理、开发管理财务管理人事管理 管理软件
G、人才信息:经理人 技术人才 营销人才 生产管理人才技术工游,同行:
H、环境信息:统计信息 法律法规 基础科学 法律
图13中,示出了知识订单1301范例,有关键词输入框1302,有标准的专业分类1303体系,订单至少分8大类1304,各类栏目和相应分支1305,定单前栏目内有选择框,订单的栏目和相应分支包括
A、国际信息 美国 日本 德国 英国 法国 意大利 加拿大 俄罗斯
B、机构信息 幼儿园 小学 初中 高中 中专 大学 研究生院 研究所 科学院
C、书籍信息 图书馆藏书 书店 出版社 个人藏书 网上书店
D、人员信息 小学生 学生 中专生 大学生 研究生 研究员
E、文字信息 网页标题 文章标题 内容摘要 正文 网站标题 文字链接 图片 音频 视频
F、成果信息 1研究 2教学 基础科学 边缘学科 交叉学科 智力开发 职业素养教育
G、文献信息 杂志 报纸 教材 学术论文 学位论文 著作 国外教育
H、网络信息 论坛 博客 研究站点 学校站点 机构站点 新闻 个人网站
图14中,示出了原创,转载乃至抄袭、剽窃的雷同网页呈现方式显示依次为:含有关键词的标题名称1401、摘抄该文章的网站标题目录1402,,按搜索引擎收录时间先后顺序排列。
以此实现本发明的目的。

Claims (10)

1、一种搜索引擎结果呈现的方法,其特征在于至少包括以下步骤:
a)初始化循环展示搜索结果;
b)接收查询用户反馈数据;
c)根据接收查询用户反馈数据计算认同度;
d)根据认同度分布设定入围第一循环数;
e)根据网页数量设定第二循环数;
f)根据查询频率确定循环周期;
g)通过网页模版循环排列查询结果目录和链接;
h)统合查询用户反馈;
i)根据调整查询用户反馈认同度;
j)根据调整后的认同度增减入围网页和循环数。
2、如权利要求1所述的一种搜索引擎结果呈现的方法,其特征在于所述的认同度计算方法至少包括以下步骤:
a)识别用户查询行为,包括关闭、浏览、收藏、下载、整理、添加、移动、更新、删除;
b)计算网页认同度%
c)设定越升点和循环周期,
d)接收反馈数据,
e)调整认同度。
3、一种搜索引擎定制查询的方法,至少包括以下步骤:
a)下达查询定单
b)分类搜索查询
c)搜索引擎服务器循环呈现查询结果,
d)接收用户处理的反馈数据。
4、如权利要求3所述的一种搜索引擎定制查询的方法,其特征在于所述的分类查询至少包括以下步骤:
a)基于关键词聚类;
b)基于定单目录归类;
c)综合聚类和归类结果;
d)循环呈现查询结果;
e)用户是否处理调整;
f)反馈接受。
5、一种搜索引擎信息共享的方法,其特征在于至少包括以下步骤:
a)网页分析,分析网页归类和链接特征,纳入网页索引数据库;
b)搜索引擎计算分析,分析其他引擎搜索对网页的权值评介,参考结果并纳入认同度计算体系;
c)用户群体评介分析,分析统合来自查询用户的反馈数据;
d)分类分析,分析网页归类和聚类特征,提取数据纳入分类数据库;
e)认同度计算,根据分类分析和群体分析结果计算网页认同度%;
f)结果呈现,按预先设置的网页模版显示搜索结果的目录和链接;
g)用户反馈,识别用户反馈数据。
6、如权利要求5所述的一种搜索引擎信息共享的方法,其特征在于所述的用户群体评介分析阶段至少包括以下步骤:
a)目录浏览统计;
b)网页浏览统计;
c)收藏保存统计;
d)本地下载统计;
e)分类调整统计;
f)添加网页统计;
g)网页推荐统计;
h)作弊申诉统计。
7、一种共建的搜索引擎系统,由存取分析子搜索系统,网页数据库子系统、索引数据库子系统、查询检索子系统、网页分析子系统和www查询服务子系统包括组成,其特征在于:还包括
循环呈现服务器,用于评介网页级别和网页评介计算评介点和入围网页数量,并接收查询反馈接纳新入围网页调整评介点和入围网页数量;
定单服务器,进行网页的归类和聚合分类分析、制定查询定单、接收用户分类反馈调整分类标准;
用户交互服务器,根据和搜索结果分析在呈现模版上排列查询定单所定制的返回结果,接受查询评介反馈给网页分析系统和定单服务器。
8、如权利要求7所述的一种共建的搜索引擎系统,其特征在于所述的循环呈现服务器包括:
网页分析装置,根据网站网页、链接分析和用户反馈数据确定相关度计算基准;
反馈识别装置,识别用户对网页的评介数据;
循环排列装置,参照网页链接计算权值,根据用户反馈数据调整网页相关度;确定根据入围点计算入围网页数量,根据查询频率确定入围网页循环频率;
页面生成装置,根据预先设置的网页模版,接收循环排列装置指令,形成具有选环排列特征的查询结果网页链接,并且实时动态更新。
9、如权利要求7所述的一种共建的搜索引擎系统,其特征在于所述的定单服务器包括:
网页分类装置,用于在根据分类标准进行网页分析归类;
网页聚类装置,用于在归类分析的基础上根据关键词进行聚合分类:
分类索引数据库,用于储存网页分类索引;
定单生成装置,用于识别关键词和分类定单;
定单数据库,用于储存定单分类索引数据并根据定单反馈数据调整定单分类目录;
定单反馈识别装置,用于识别用户接收到查询结果后的操作行为反馈。
10、如权利要求7所述的一种共建的搜索引擎系统,其特征在于所述的共享服务器
网页分析器,用于分析网页结构和内容类属;
用户分析器,用于分析查询关键词、查询频率、分类设置;
搜索引擎分析器,用于分析其他搜索引擎的分类分析和网页权值计算结果;
分类分析装置,用于分析关键词分类标准、分类方法和用户更新定单分类行为;
认同度统计装置,用于统合用户关闭、浏览、收藏、下载、类别整理、添加网页、移动、更新、删除等用户操作,计算统计认同度%;
更新装置,用于新入围网页更新通知、分类方式更新通知。
CN 200510130892 2005-12-28 2005-12-28 共建搜索引擎的方法 Pending CN1996280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510130892 CN1996280A (zh) 2005-12-28 2005-12-28 共建搜索引擎的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510130892 CN1996280A (zh) 2005-12-28 2005-12-28 共建搜索引擎的方法

Publications (1)

Publication Number Publication Date
CN1996280A true CN1996280A (zh) 2007-07-11

Family

ID=38251375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510130892 Pending CN1996280A (zh) 2005-12-28 2005-12-28 共建搜索引擎的方法

Country Status (1)

Country Link
CN (1) CN1996280A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740143A (zh) * 2012-07-03 2012-10-17 合一网络技术(北京)有限公司 一种基于用户行为的网络视频榜单生成系统及其方法
CN102945272A (zh) * 2012-11-01 2013-02-27 北京奇虎科技有限公司 收藏信息的处理方法、设备及服务器
CN102053960B (zh) * 2009-11-04 2013-09-18 孙红临 依群需特征构建物联互联双网快准搜索引擎的方法及系统
CN103577429A (zh) * 2012-07-25 2014-02-12 阿里巴巴集团控股有限公司 数据分析、数据查询方法及装置
US20220318854A1 (en) * 2019-08-30 2022-10-06 Datascientist Inc. Content arrangement program, content arrangement device, and content arrangement method, website construction support program, website construction support device, and website construction support method, and economic scale output program, economic scale output device, and economic scale output method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053960B (zh) * 2009-11-04 2013-09-18 孙红临 依群需特征构建物联互联双网快准搜索引擎的方法及系统
CN102740143A (zh) * 2012-07-03 2012-10-17 合一网络技术(北京)有限公司 一种基于用户行为的网络视频榜单生成系统及其方法
CN102740143B (zh) * 2012-07-03 2014-08-20 合一网络技术(北京)有限公司 一种基于用户行为的网络视频榜单生成系统及其方法
CN103577429A (zh) * 2012-07-25 2014-02-12 阿里巴巴集团控股有限公司 数据分析、数据查询方法及装置
CN102945272A (zh) * 2012-11-01 2013-02-27 北京奇虎科技有限公司 收藏信息的处理方法、设备及服务器
CN102945272B (zh) * 2012-11-01 2016-06-01 北京奇虎科技有限公司 收藏信息的处理方法、设备及服务器
US20220318854A1 (en) * 2019-08-30 2022-10-06 Datascientist Inc. Content arrangement program, content arrangement device, and content arrangement method, website construction support program, website construction support device, and website construction support method, and economic scale output program, economic scale output device, and economic scale output method
US11756082B2 (en) * 2019-08-30 2023-09-12 Datascientist Inc. Content arrangement program, content arrangement device, and content arrangement method, website construction support program, website construction support device, and website construction support method, and economic scale output program, economic scale output device, and economic scale output method

Similar Documents

Publication Publication Date Title
CN1702654B (zh) 计算显示页面中块的重要度的方法和系统
CN102982042B (zh) 一种个性化内容推荐方法、平台以及系统
CN104268292B (zh) 画像系统的标签词库更新方法
Chen et al. Combining factorization model and additive forest for collaborative followee recommendation
CN106062730A (zh) 用于主动构成内容以便在连续社交通信中使用的系统和方法
CN103473354A (zh) 基于电子商务平台的保险推荐系统框架及保险推荐方法
CN101019118A (zh) 搜索结果中放置内容排序的个性化
CN103020164A (zh) 一种基于多语义分析和个性化排序的语义检索方法
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN102160329A (zh) 使用与信息关联的语义语境便于协作搜索
CN103593425A (zh) 基于偏好的智能检索方法及系统
US20140229487A1 (en) System and method for user preference augmentation through social network inner-circle knowledge discovery
CN109918563A (zh) 一种基于公开数据的图书推荐的方法
CN112231593B (zh) 一种金融资讯智能推荐系统
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
CN1996280A (zh) 共建搜索引擎的方法
Yang et al. A model for book inquiry history analysis and book-acquisition recommendation of libraries
CN113515699A (zh) 信息推荐方法及装置、计算机可读存储介质、处理器
CN115860283B (zh) 基于知识工作者画像的贡献度预测方法及装置
US20160342599A1 (en) Automated Content Selection
Guseva et al. Scientific and educational recommender systems
Tong et al. A document exploring system on LDA topic model for Wikipedia articles
Yang An active recommendation approach to improve book-acquisition process
Kardan et al. Learner clustering and association rule mining for content recommendation in self-regulated learning
Liang et al. Mining Users' Opinions Based on Item Folksonomy and Taxonomy for Personalized Recommender Systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Song Yamin

Document name: Notice of publication of application for patent for invention

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Song Yamin

Document name: Notification before expiration of term

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Song Yamin

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication