CN101520784B

CN101520784B - 信息发布系统和信息发布方法

Info

Publication number: CN101520784B
Application number: CN2008100809542A
Authority: CN
Inventors: 夏迎炬; 于浩; 邹纲
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-02-29
Filing date: 2008-02-29
Publication date: 2011-09-28
Anticipated expiration: 2028-02-29
Also published as: JP2009211697A; CN101520784A; US20090234825A1

Abstract

本发明涉及信息发布服务的系统和方法。所述系统包括：查询条件确定组件，根据用户输入和用户模型构建查询条件，所述用户模型可用于确定用户的特征；搜索组件，用于基于所述查询条件进行查询；查询结果处理组件，对所述搜索组件所得到的查询结果进行处理，向用户提供处理过的信息；以及发布组件，对用户编辑完成的要发布的信息进行发布。

Description

信息发布系统和信息发布方法

技术领域

本发明涉及个性化信息服务领域，具体而言，涉及为用户提供可以进行个性化信息发布的系统和方法。

背景技术

随着网络应用日益丰富，网民需求不断升级，网民产生了以自我为中心来重新整合内容、娱乐、商务、通信及其它种种个人应用，以最大程度地满足个性化的需求。在WEB 2.0时代，个体用户的价值得到了最大的体现，众多的网民既是信息创造者和信息传播渠道，同时也是信息的受众。网民主动地选择信息，信息主动去寻找合适的用户。昔日上网或许只偏重单向撷取信息，但随着Web 2.0时代来临，网民在网络上做双向沟通的机会也将大幅增加。但是目前现有的个性化的服务多是倾向于为用户提供个性化的信息检索服务。比如google的个性化的网页排序技术；yahoo web2.0、Rollyo和MSN的社会搜索服务；Yahoo Answers、iAsk、Baidu knows的社区问答服务；vivisimo、looksmart和kooxoo提供的信息聚合与分类技术。

有很多关于个性化信息检索的文献：

“Personalized information retrieval using user-defined profile”，美国专利号：5,761,662；

“ System and method for generating personalized user profiles and for utilizing the generated user pro

“System and method for personalized information filtering and alert generation”，美国专利号：6,381,594；

“Personalized information service system”，美国专利号：5,694,459；

“Personalized search methods”，美国专利号：6,539,377；

“System and method for personalized search，information filtering，and for generating recommendations utilizing statistical latent class models”，美国专利号：915,755；

“通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法”，中国专利申请公开号：CN1664819；

“用于文档浏览的个性化分类处理方法及系统”，中国专利申请公开号：CN1667607；

“用于提供个性化新闻的方法和系统”，中国专利申请公开号：CN1647527；

“提供个性化为特定语言的搜索结果的国际搜索和传送系统”，中国专利申请公开号：CN1503163；

“以电子方式创建个性化文档的系统和方法”，中国专利申请公开号：CN1319817；

“基于个性化信息的搜索系统及搜索方法”，中国专利申请公开号：CN1811780；

“个性化网络浏览过滤器”，中国专利申请公开号：CN1529863；

“基于链接分析的个性化搜索引擎方法”，中国专利申请公开号：CN1710560；

“一种提供即时个性化动态专题服务的方法”，中国专利申请公开号：CN1499401；

“一种基于行业供求关系提供个性化信息的方法”，中国专利申请公开号：CN1870026；

“用于创建用户个性化页面的方法”，中国专利申请公开号：CN1932871；以及

“个性化提示信息系统及其方法”，中国专利申请公开号：CN1602029。

还有一些是关于个性化服务的文献：

“Method and apparatus for distributing personalized e-mail”，美国专利号：6,044,395；

“Systems and methods for distributing personalized information over a communications system”，美国专利号：7,110,994；

“System and method for automatic，real-time delivery of personalized informational and transactional data to users via high throughput content delivery device”，美国专利号：6,671,715；

“System for personalized information distribution”，美国专利号：7,159,029；

“提供个性化服务的系统”，中国专利申请公开号：CN1302503；

“用于提供个性化客户支持的系统和方法”，中国专利申请公开号：CN1630859；

“在使用用户档案web门户的电信网中用于服务和应用个性化的方法和装置”，中国专利申请公开号：CN1656482；

“用于基于万维网的个性化与电子商务管理的系统与方法”，中国专利申请公开号：CN1537282。

通过引用，将以上文献并入本文中。

但是目前没有为用户提供个性化信息发布的应用。

发明内容

为了顺应网络用户快速增长的信息发布的需求，本发明提出了个性化信息发布系统和方法。帮助网民创建、编辑信息并将其发布到适合的网站。

为了实现上述目的，本申请提供了以下发明。

发明1.一种查询系统，其特征在于，所述查询系统包括：用户模型组件，用以创建用户模型，确定用户的特征；查询条件确定组件，根据用户输入和所述用户模型组件创建的用户模型构建查询条件。

发明2.如发明1所述的系统，其特征在于，用户模型组件通过显式和隐式的方式获得用于创建用户模型的信息；显式的方式是指用户的注册信息以及在系统运行的过程中要求用户输入的信息；隐式的方式是指通过非交互方式收集的用户常用的查询词、经常浏览的网页、上网时间、上网地点和/或阅读习惯信息。

发明3.如发明1所述的系统，其特征在于，所述用户模型组件根据用户反馈、查询结果、用户编辑结果、所选发布网站以及信息发布跟踪结果对用户模型进行调整和更新。

发明4.如发明1所述的系统，其特征在于，所述系统还包括一个或更多个搜索引擎，用于基于所述样例查询条件进行查询。

发明5.如发明1所述的系统，其特征在于，所述查询条件确定组件根据查询结果更改所述查询条件。

发明6、一种信息发布系统，其特征在于，所述系统包括：

查询条件确定组件，根据用户输入和用户模型构建查询条件，所述用户模型可用于确定用户的特征；

搜索组件，用于基于所述查询条件进行查询；

查询结果处理组件，对所述搜索组件所得到的查询结果进行处理，向用户提供处理过的信息；

发布组件，对用户编辑完成的要发布的信息进行发布，所述搜索组件查询样例，所述查询结果处理组件根据查询出的样例的回帖数量、查看次数和/或帖子所属网站的权威度，对查询所得到的样例进行排序，将排序后的样例提供给用户供用户选择编辑。

发明7.如发明6所述的系统，其特征在于，所述查询结果处理组件还根据相关性或时间、或根据所述用户模型对查询所得到的样例进行排序，将排序后的样例提供给用户供用户选择编辑。

发明8.如发明6所述的系统，其特征在于，所述查询结果处理组件对样例进行聚类，并在聚类的基础上生成发布模板，将所述发布模板提供给用户供用户选择编辑。

发明9.如发明6所述的系统，其特征在于，其中聚类包括篇章级的聚类和/或句子级的聚类。

发明10.如发明6所述的系统，其特征在于，所述查询结果处理组件对样例搜索结果进行聚类，并在聚类的基础上为用户提供经排序的候选的句子、词汇供用户选用。

发明11.如发明6所述的系统，其特征在于，所述搜索引擎查询可以进行信息发布的网站，所述查询结果处理组件对所查询出的网站进行排序，将排序后的网站列表提供给用户。

发明12.如发明11所述的系统，其特征在于，所述搜索引擎处理组件根据用户模型或网站的权威度、热门程度、用户数和/或地域属性对所查询出的网站进行排序。

发明13.如发明11所述的系统，其特征在于，所述查询结果处理组件在进行排序之前进行网页类型识别，仅保留可以代表网站的网页。

发明14.如发明6所述的系统，其特征在于，所述系统还包括信息跟踪组件，所述信息跟踪组件跟踪用户发布信息以后的效果，将各网站上对用户所发信息的回复和/或评论馈送给用户。

发明15.如发明14所述的系统，其特征在于，所述信息跟踪组件通过RSS方式、email和/或在线显示方式将跟踪信息发送给用户。

发明16.如发明14所述的系统，其特征在于，所述信息跟踪组件对垃圾信息进行过滤，垃圾信息包括无内容的回复和无意义的回复。

发明17.一种查询方法，其特征在于，所述查询方法包括以下步骤：用户查询输入步骤，接收用户输入的查询条件；查询条件修改步骤，根据用户模型修改所接收的查询条件，所述用户模型可确定用户的特征。

发明18.如发明17所述的方法，其特征在于，所述方法还包括：模板用信息收集步骤，通过显式和/或隐式的方式获得用于创建用户模型的信息，显式的方式是指用户的注册信息以及在系统运行的过程中要求用户输入的信息；隐式的方式是指通过非交互方式收集的用户常用的查询词、经常浏览的网页、上网时间、上网地点和/或阅读习惯信息；模板创建步骤，根据所收集的模板用信息，创建用户模型。

发明19.如发明17所述的方法，其特征在于，所述方法还包括模板更新步骤，根据用户反馈、查询结果、用户编辑结果、所选发布网站以及信息发布跟踪结果对用户模型进行调整和更新。

发明20.如发明17-19任一项所述的方法，其特征在于，还包括查询步骤，根据修改后的查询条件，进行查询。

发明21、一种信息发布方法，其特征在于，所述步骤包括：

查询条件确定步骤，根据用户输入和用户模型构建查询条件，所述用户模型可用于确定用户的特征；

搜索步骤，用于基于所述查询条件进行查询；

查询结果处理步骤，对所述搜索步骤所得到的查询结果进行处理。向用户提供处理过的信息；

发布步骤，对用户编辑完成的要发布的信息进行发布，其中，所述搜索步骤查询样例，所述查询结果处理步骤根据查询出的样例的回帖数量、查看次数和/或帖子所属网站的权威度，对查询所得到的样例进行排序，将排序后的样例搜索结果提供给用户供用户选择编辑。

发明22.如发明21所述的方法，其特征在于，所述查询结果处理步骤还根据相关性或时间或根据所述用户模型对查询所得到的样例进行排序，将排序后的样例搜索结果提供给用户供用户选择编辑。

发明23.如发明21所述的方法，其特征在于，所述查询结果处理步骤对样例搜索结果进行聚类，并在聚类的基础上生成发布模板，将所述发布模板提供给用户供用户选择编辑。

发明24.如发明21所述的方法，其特征在于，其中聚类包括篇章级的聚类和/或句子级的聚类。

发明25.如发明21所述的方法，其特征在于，所述查询结果处理组件对样例搜索结果进行聚类，并在聚类的基础上为用户提供经排序的候选的句子和/或词汇供用户选用。

发明26.如发明21所述的方法，其特征在于，所述搜索步骤查询可以进行信息发布的网站，所述查询结果处理步骤对所查询出的网站进行排序，将排序后的网站列表提供给用户。

发明27.如发明21所述的方法，其特征在于，所述查询结果处理步骤根据用户模型或网站的权威度、热门程度、用户数、地域属性对所查询出的网站进行排序。

发明28.如发明21所述的方法，其特征在于，所述查询结果处理步骤在进行排序之前进行网页类型识别，仅保留可以代表网站的网页。

发明29.如发明21所述的方法，其特征在于，所述方法还包括信息跟踪步骤，所述信息跟踪组件跟踪用户发布信息以后的效果，将各网站上对用户所发信息的回复和/或评论馈送给用户。

发明30.如发明29所述的方法，其特征在于，所述信息跟踪步骤通过RSS方式、email和/或在线显示方式将跟踪信息发送给用户。

发明31.如发明29或30所述的方法，其特征在于，所述信息跟踪组件对垃圾信息进行过滤，垃圾信息包括：无内容的回复和无意义的回复。

本发明还包括计算机程序，所述计算机程序被计算机或逻辑部件执行时，可以使计算机或逻辑部件实现以上的方法，或者使计算机或逻辑部件可以作为以上的装置或组件使用。

本发明还包括计算机可读存储介质，用于存储以上计算机程序。所述计算机可读存储介质可以为DVD、软盘、CD、磁带、flash闪存、硬盘等。

使用本发明的有益效果是，极大地缩短了用户的信息创建、编辑时间以及信息搜索时间。在用户发布了信息以后，以多种方式将反馈信息馈送给用户并对其中的垃圾信息进行滤除。使用户可以快速及时地得到反馈信息，用户不必花费时间在各个网站浏览发布信息以后的回复。节省了用户的等待反馈时间。

附图说明

结合下面的附图阅读本发明的文字说明，可以更好地理解本发明的以上及其它目的、特征和优点。

图1是根据本发明一种实施方式的信息发布的系统示意框图；

图2是根据本发明一种实施方式的用户模型示意框图；

图3是根据本发明一种实施方式的样例、模板检索示意框图；

图4是根据本发明一种实施方式的网站检索示意框图；

图5是根据本发明一种实施方式的信息发布示意框图；以及

图6是根据本发明一种实施方式的信息跟踪示意框图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细的描述，这些实施方式都是示例性的，不应解释成是对本发明的限制。

图1给出了根据本发明一种实施方式的信息发布系统的结构图。如图1所示，依据本发明的信息发布系统包括用户模型组件122、查询组件121、发布组件123和信息跟踪组件124。

用户模型组件122根据用户的个人信息构建用户模型。构建好的用户模型应能够反映用户的特征和兴趣，并且能够随用户兴趣的变化而变化。图2是示出了依据本发明一种实施方式的用户模型组件122建立用户模型的处理的流程图。后文将参照图2对用户模型组件122进行详细的描述。

查询组件121用于根据用户输入的查询条件和用户模型组件122构建的用户模型确定最终的查询条件，进行检索，为用户提供可供发布信息的网站或用于发布的样例和/或模板供用户编辑修改。查询组件121可包括查询条件确定组件125、搜索组件126、以及查询结果处理组件127。

查询条件确定组件125接收用户110输入的查询条件，根据用户模型对用户输入的查询条件进行扩充或修改，从而确定最终的查询条件。

所述搜索组件126例如可以是一个或更多个搜索引擎。另外，搜索组件可以使用外部的搜索工具，如google、yahoo等公司提供的搜索工具。在这种情况下，搜索组件可以是调用这些外部搜索工具、并利用这些搜索工具从本机或网络130获得查询结果的部件。查询组件121可以查询样例和网站。查询样例是指查询已发布的样例。例如在要发布租房信息时，其它人发布的租房信息的样例。网站查询组件用于查询可供信息发布的网站。

查询结果处理组件127对搜索组件126所查询出的结果进行处理，向用户提供信息。所述处理可以包括排序(可见步骤350、470)、网页识别(可参见步骤450)、聚类(见步骤370)等。图3给出了依据本发明一种实施方式的样例查询组件的处理及模板生成的处理的流程图。图4示出了依据本发明一种实施方式的网站检索过程。后文将参照图3和图4对查询组件121和查询结果处理组件127的处理进行详细的描述。

信息发布组件123是在检索的基础上辅助用户完成信息发布的组件。图5示出了依据本发明一种实施方式的信息发布组件123的系统框图。后文将参照图5对信息发布组件123进行详细的描述。

在信息发布以后，由于信息往往是发布在若干个网站上的。通常，为了查看回帖信息，用户需要不断访问其所发帖的网站才能得到最新的回复信息。这样的做法耗费了用户的大量的时间和精力。为了解决这个问题，本发明提供了信息跟踪组件124。信息跟踪组件124自动对用户的回帖进行跟踪。图6示出了依据本发明的一种实施方式的信息跟踪组件124的框图。后文将参照图6对信息跟踪组件124进行详细说明。

下面参照图2对本发明的用户模型组件122所进行的处理进行详细描述。

如图2所示，首先在步骤210，用户模型组件创建用户帐户，用以区分各个用户。用户帐户是用户的模板的一个标识，对注册帐户而言，每一个用户帐户对应于一个用户，该用户帐户对应的用户模型用于对该用户提供个性化的信息服务。而对于匿名用户而言，用户帐户则对应于一种类型的用户。比如，可以根据用户的地域创建不同的用户帐户。用户的性别、年龄等都可以对应于一个用户帐户。可以以各种方式创建用户帐户。例如可以简单地为该用户帐户创建一个数据库。

随后，在步骤220中，收集用户的用户信息260，即用于创建用户模型的信息。用户模型组件122可以通过显式和/或隐式的方式获得用于创建用户模型的信息。显式的方式获得的信息是指用户的注册信息以及在系统运行的过程中要求用户输入的信息；隐式的方式获得的信息是指系统通过非交互方式收集的诸如用户常用的查询词、经常浏览的网页、上网时间、上网地点、阅读习惯等信息。用户信息260包括但不限于：

个人信息261：如地址、电话、年龄、性别、工作、教育程度、收入、爱好等；

用户描述262是用户提供的有助于优化检索结果、表达检索目的的进一步的详细信息，用户描述可以有多种形式，用户可以对自己的整体的兴趣进行一个详细的叙述、也可以给出与自己兴趣相关的网页和网址。在用户的某个检索行为中，用户也可以提供比关键词更详细的描述，这也是一种形式的用户描述，比如，当用户输入关键词“苹果”以后，可以加入一段描述：“我想了解最新苹果PC电脑产品的型号、报价、参数、评测、图片等信息，以及苹果PC电脑新闻资讯、行情、评测、经销商”，或者给出一些与之相关的网址或样例文档，比如http://www.apple.com.cn/getamac/whichmac.html用以表明用户的兴趣是“苹果电脑”，而不是服饰或水果品牌。

用户的检索历史/日志263，其包括：使用的关键词、对检索结果的访问记录等。

交互信息264，包括：用户的直接反馈、用户对某次信息发布过程的详细描述等。用户的交互信息264是修改用户模型、提供更精确的个性化服务的关键信息。用户的交互信息分为显式的和隐式的。显式的用户交互是指用户对某次信息服务过程中，对检索或发布的结果进行直接的反馈。通知系统哪些结果更符合用户的需求。这样的反馈可被直接用于修改用户模型优化系统。隐式的交互信息比如是用户在选择样例或模板的过程中，对样例的点击和阅读时间。

用户组信息265，用户组是在某种分类体系下，相似的用户形成的一个集合。用户组信息是对用户组的信息进行综合以后得到的信息，这样的信息体现了该用户组中用户的一些共性的信息。用户组信息265可以对用户模型起到补充和修正的作用。

相似的用户可以形成一个用户组，这里需要澄清一个概念，“用户兴趣”的概念是话题、或者说用户在某时或某个阶段感兴趣的话题，而非兴趣爱好意义上的“兴趣”。比如用户关注“2008奥运会”，在用户使用系统进行查询的过程中，系统会建立一个“2008奥运会”的话题来表明用户当前关注的一个兴趣点。在奥运会结束以后，该用户可能再也不查询“2008奥运会”有关的内容了，这时这个“兴趣”或“话题”就消失了。在用户查询“2008奥运会”这个“兴趣”或“话题”的时候，系统可以在现有的用户中查找是否有人进行了这方面的查询，然后根据现有的进行了这方面查询的用户的数据对当前用户的查询进行优化。这里可以使用用户组的信息，也可以使用用户的单独信息，如果关注这个兴趣的用户足够多的话，也可以根据该兴趣形成一个用户组。

应该注意，上述列举的用户信息只是示例性的，本领域的技术人员可以根据具体的应用收集具体的信息。

随后，在步骤230，在收集得到的用户信息260的基础上构建用户模型。构建好的用户模型应能反映用户的特征和兴趣并且能维护用户兴趣的变化。

可以使用推理机方法、空间向量模型方法、语言模型方法、本体技术以及直接提取的方法建立用户模型。关于推理机方法可以参见文献：《Data & Knowledge Engineering》Studer R Fensel D Fensel D 1998/25/1-2；RACER System Description，University of Hamburg，Computer Science Department，Volker Haarslev；Jena2.2(beta).released，http://jena.sourceforge.net/；关于向量空间模型可以参见文献：Salton，G，theSMART Retrieval System-Experiments in Automatic Document Processing.Prentice-Hall，Englewood.Cliffs，New Jersey，1971.，Salton，G.，Dynamic Information and Library process-ing.Prentice-Hall，Englewood Cliffs，New Jer-sey，1983；关于语言模型可以参见文献：Jay M.Ponte and W.Bruce Croft.A language modeling approach to information retrieval.In Proceedings of SIGIR，pages 275-281，1998，Hugo Zaragoza，Djoerd Hiemstra，and Michael Tipping.Bayesian extension to the language model for ad hoc information retrieval.In Proceedings of SIGIR，pages 4-9，2003。在本发明的一种实施方式中，将用户模型分为两个层次，第一个层次是用户的通用模型UMg，在此基础上可以针对用户的不同的兴趣建立各自的用户兴趣模型UMs。即建立两类模型，一类是通用模型，一类是兴趣模型。

用户通用模型是指包含用户的通用信息的模型，比如可以通过提取用户的个人信息261(例如地址、电话、年龄、性别、工作、教育程度、收入、爱好)中的信息或对用户描述进行推理机分析或向量分析来获得。

用户的通用模型基本上以RDF三元组(资源、属性、声明或属性值)的形式存在，比如对地址、电话、年龄、性别、工作、教育程度、收入、爱好等属性分别填入属性值。下面的具体的示例给出了一个简化的用户模型描述。用户通用模型可由属性列表来描述。属性列表是用户模型的一种形式化的描述，其中的属性和属性值将被用来在个性化检索中用作推理的判据。

<USER_NAME>userl</USER_NAME>

<USER_AGE>26</USER_AGE>

<USER_SEX>female</USER_SEX>

<USER_OCCUPATION>Business Manager</USER_OCCUPATION>

<USER_EMAIL>userl@gmail.com</USER_EMAIL>

<USER_CATEGORY>individual</USER_CATEGORY>

<USER_QUERY WORDS>toyota；car</USER_QUERY_WORDS>

<USER_HOBBY>sport</USER_HOBBY>

……

</UMg>

上面的用户模型对用户1(userl)进行了描述。从中可以看出，该用户(userl)是26岁的女性商务经理(Business manager)，喜好运动(sport)，经常检索丰田汽车(Toyota car)。

在该通用模型中，Hobby(兴趣)是用户的整体的hobby，而不是针对某个话题的，比如用户喜欢“运动”和用户的当前的对“2008奥运会”的关注是两种不同类型的兴趣。

用户兴趣模型UMs是对用户某一特定的信息需求而建立的模型，比如租房、买车等特定的需求。由于不同的信息需求之间的差异比较大，无法使用一个统一的模型来表示，而且对于某些信息需求，往往随着时间的推移，用户的兴趣点也会改变。这就需要针对每一个信息需求建立特定的用户兴趣模型，并随着用户的兴趣漂移不断地修正模型。当用户提出一个信息请求(查询请求)的时候(比如用户提交查询“苹果”时)，系统会根据用户提出的具体的信息需求构建兴趣模型(这时这个用户兴趣模型就是根据用户的查询请求“苹果”建立的)。在已经存在该兴趣模型时，可以根据用户对该信息请求的提出而更改该兴趣模型。用户兴趣模型UMs的构建是基于用户通用模型UMg以及用户的检索词、描述、用户提供的正例文档等。即，兴趣模型的建立不但要利用个人信息261、用户描述262、检索历史/日志263、交互信息264、用户组信息265等，还要用到用户通用模型。用户的兴趣模型构建过程中，会根据用户的通用模型进行调整。比如对用户的“苹果”的兴趣模型，会根据用户的通用模型中的用户对电脑感兴趣以及查询历史中有苹果笔记本的查询结果等信息将“笔记本”、“电脑”等信息填入用户的兴趣模型。

一个示例的用户兴趣模型如下：(每一个词后面所示的是其在本兴趣模型中的权重)

苹果 0.92

笔记本 0.91

电脑 0.9

资讯 0.89

行情 0.88

评测 0.88

经销商 0.86

台式机 0.78

配置 0.76

内存 0.75

硬盘 0.75

主频 0.73

显卡 0.72

价格 0.68

新品 0.66

型号 0.65

鼠标 0.56

显示器 0.55

软件 0.52

操作系统 0.52

信息 0.5

该模型可以以表格的形式保存。该模型也可以以如下的形式保存。

<USER_QUERY_WORDS>苹果</USER_QUERY_WORDS>

……

<USER_QUERY_WORDS>信息</USER_QUERY_WORDS>

在具体的建模过程中，例如可以采用关键词提取法从个人信息261中提取建模用信息，例如可根据关键词“性别”获取上述模型中的女性。

用户描述262也是构建用户模型的关键信息。例如，用户提供的样例文档(如上所述，用户提供的样例文档是一种类型的用户描述，用户可以使用输入文本的方式来提交自己的描述，也可以使用提交样例文档或网址的形式来提交)可被用来抽取关键词(例如可使用向量空间模型来抽取)，用以表征用户的兴趣(向量空间模型中的每个项的权重)。

向量空间模型是用户兴趣模型UMs的一种描述方式。而向量空间模型是由文档向量得来的。比如在向量空间模型下，文档向量W(ti)可被定义为：

W(ti)＝log(TF(ti，d)+1)×log((N/DF(ti，d))+1)

其中词频TF(ti，d)为项ti在文档d中的出现频度，文档频率DF(ti，d)为ti在其中至少出现一次的文档的数目，N为总文档数。log为对数运算，可以是常用对数、自然对数等。

对于搜索历史/日志263的利用，在具体的实例中，可以对搜索历史中的关键词按词频排序，并在具体的检索过程中作为推理机的触发条件。比如，在用户的检索历史中大量出现有关计算机、个人电脑等领域的信息，可以断定用户的兴趣在计算机领域，则在用户输入一个有二义性的检索词的时候，系统将根据此信息进行调整。比如该用户输入关键词“苹果”，系统通过推理可以得知该用户的检索倾向是计算机领域的“苹果”品牌。

也可以将搜索历史中的关键词进行分类，对每一类建立一个向量，其中向量的每个项的权重可以使用词频进行计算。在一个具体的实施例中使用的计算公式如下：

Ti＝log(1+tfi)，

其中Ti为该项的权重，即向量空间模型的权重，tfi为该项的出现的频度。

用户的交互264可以用来建立和修改用户模型、提供更精确的个性化服务。可以将用户反馈得到的正例文档和反例文档用于建立和修改用户的向量空间模型。而将用户反馈得到的关键词添加到用户的用户模型(例如可以采用信息列表的形式)中。

用户组信息265可以对用户模型起到补充和修正的作用，用户组是在某种分类体系下，相似的用户形成的一个集合。使用用户组信息可以对当前用户模型进行修正。在建立用户模型的过程中，可以通过协作过滤的方法在用户群中找到与指定用户的兴趣相同或相似的用户，综合这些相同或相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。

在建立模型之前或之后，可以采用本体技术对每一个属性的各个属性值人工构建或者通过机器学习的方法自动构建分类词表。比如对于职业(occupation)属性建立分类词表，将属于某个职业常用的词汇收入词表，在实践中，IT行业常用的词汇就和金融行业的常用词汇有很大的区别，这样的分类词表可用于查询扩展或者以向量的形式参与检索结果的重排序和过滤。比如“计算机”可以扩展成“电脑”、“笔记本”、“台式机”、“服务器”等。

“本体论”在工程技术中，是作为一种概念化的说明，是对客观存在的概念和关系的描述。它是通用意义上的“概念定义集”，是关于“种类”和“关系”的词汇表。

对于用户提供的信息如年龄、性别、工作、教育程度等信息，系统可以通过现有的本体或对大量用户进行统计后得到的本体进行扩展，比如对于不同职业的用户的常用词汇、关注的热点等信息建立本体，并对具体的用户根据此本体进行扩展。

另外，需要注意的是，以上的步骤220是反复进行的。也就是说，在系统的运行期间不停地收集用户信息260，并进行学习处理(步骤250)，从而对用户模型进行更新(步骤240)。

下面参照图3来描述依据本发明的一种实施方式的查询组件121的样例查询的处理。查询组件121根据用户的查询词以及用户模型组件建立的用户模型提供个性化的信息检索。查询包括对样例进行查询和对网站进行查询。本发明的查询组件还具有模板生成的功能。

如图3所示，首先在步骤320，用户输入查询词(查询条件)。随后，系统对查询进行修改(步骤330)。系统首先根据用户模型310对查询进行扩展。比如用户输入查询词“苹果”，系统会根据用户模板进行查询扩展。其中的<USER_QUERY_WORDS>字段表明用户的曾使用的查询词。系统会使用该字段中的词进行扩展。如果该用户模型中的<USER_QUERY_WORDS>字段有“计算机”这样的查询词，如存在<USER_QUERY_WORDS>计算机</USER_QUERY_WORDS>。则表明该用户常用的查询词集中在计算机领域，该查询词将被加入扩展词“电脑，笔记本”等。应该注意，查询扩展这个过程是可以回退的，通过对检索结果数量的判断，系统可以自动增加或减少查询词以确保检索到足够数量的文档。通过这样的过程，系统将对查询进行扩展。

随后，根据修改后的查询条件进行检索(步骤340)。在修改后的查询条件的基础上，系统在本地数据库391以及网络392上进行检索，得到初步的检索结果。

以上的步骤320、330以及340可以由查询组件(样例查询组件)完成。

在该检索结果的基础上，系统根据用户模型对检索结果进行过滤和重排序(步骤350)。这个过程有很多的方法可以使用。比如在一个具体的实施例中，可以将用户模型做成向量空间模型的形式，然后可以使用检索结果和用户模型(向量空间模型形式)之间的文档相似度的方法来对检索结果文档进行排序。具体的做法就是将两篇文档之间的相似度用向量空间模型的夹角来表示：

Sim (D_{1}, D_{2}) = \cos θ = \frac{Σ_{k = 1}^{N} (w_{1 k} \times w_{2 k})}{\sqrt{(Σ_{k = 1}^{N} {w_{1 k}}^{2}) (Σ_{k = 1}^{N} {w_{2 k}}^{2})}}

其中，sim(D₁，D₂)是两篇文档之间的相似度。W_1k是文档1中的各项的权重。W_2k是文档2中的各项的权重。N是文档1和2中总的项的个数。

在此基础上再通过对该网页的查看数量、回复数量、回复中的垃圾信息比例、被引用次数并综合网站的权威度、规模、影响力等因素对网页进行排序。将最符合用户检索需求的网页排在前面。这样的经过滤和重排序以后的检索结果可以作为样例供用户选择。用户可以通过浏览检索结果并选定其中之一进行编辑。

简言之，在以上的方法中，使用了文档相似度的方法，权重低于阈值的被过滤掉，权重高于阈值的根据相似度的大小进行重排序。

系统同时还提供另外一项服务，就是在检索得到的样例的基础上，通过进行聚类和文摘(步骤370)将若干样例聚合成一个写作模板。用户可以选择在该模板上进行编辑。由于该模板是在大量的样例基础上综合而成的。其格式及用词也是众多的样例中最常用和最吸引用户注意力的。用户在此基础上进行修改，可以节省大量的时间并能保证发帖的质量。

在用户进行编辑的同时，系统可以提供热门的词汇和热门的句子供用户选用。这里的热门词汇和热门句子同样也需要使用聚类的技术来实现。

以上的步骤350、370可以由查询结果处理组件完成。在本发明的一种实施方式中，查询结果处理组件例如包括：过滤单元，用于对查询单元获得的检索结果进行过滤；排序单元，对过滤后的检索结果进行排序；聚类单元，对排序后的检索结果360进行聚类，生成模板列表382、热门候选词汇383、热门候选句子381。

另外，在检索过程中，系统可以通过显式的或隐式的方式得到用户的反馈，并利用反馈对用户模型进行修正，在一个具体的实施例中，对模型进行修正时，我们采用了伪相关反馈算法。伪相关反馈算法是一种机器自学习算法，基于Rocchio在1971年提出的一种反馈的方法：

由于返回的结果数可能很多，在真实的应用环境下，用户不可能对结果一一反馈。在这种情况下，我们真正能获得的用户对结果的评价样本可能会很稀疏。为克服这一问题，我们假定在用户未作反馈的文档中，与模型相似度较低，结果也是不相关的，但这种“不相关”与用户真正标记为“不相关”的结果有时不能等量齐观，因此我们把Rocchio公式调整为：

P^{'} = P_{0} + α * \underset{D_{i} &Element; T_{rel}}{Σ} D_{i} + α^{'} * \underset{D_{j} &Element; T_{part_rel}}{Σ} D_{j} - β * \underset{D_{k} &Element; T_{irrel}}{Σ} D_{k} - β^{'} * \underset{D_{l} &Element; T_{part_irrel}}{Σ} D_{l} - β^{''} * \underset{D_{m} &Element; T_{un \det}}{Σ} D_{m}

其中T_rel，T_{part_rel}，T_irrel，T_{part_irrel}，T_undet分别表示相关文档集、部分相关文档集、不相关文档集、部分不相关文档集和未判定文档集。α、α′、β、β′和β″分别表示其权重。P₀为调整前的系数，p′为调整后的系数。相关文档集是表示与用户的查询相关的文档的集合，在与用户进行交互的过程中，可以列出一些查询结果来让用户判断是“相关”、“部分相关”、“不相关”、还是“部分不相关”，相关就是用户认为该文档符合自己的查询要求，而“部分相关”就是用户认为该文档与自己的查询要求并不是完全符合，但在某种程度上也可以相关。也就是说“相关”、“部分相关”、“不相关”、“部分不相关”是用户对文档的相关程度的判断，因为能得到用户反馈的机会以及文档很少，那么大部分的文档是没有得到用户反馈的，这类文档就是“未判定”。与Rocchio公式相比，我们将部分相关文档集、部分不相关文档集和未判定文档集包含进公式中，并使用系数α′、β′和β″来表示其权重。公式中的参数例如可设置为α＝1.0，α’＝0.5，β＝1.8，β’＝0.5，β”＝1.8。

个性化检索过程还包括对网站的检索，图4示出了一种实施方式的网站检索过程。该过程与模板检索类似，该过程中，用户模型的作用也是用于查询扩展、限定查询的领域，如前面的例子，如果用户输入“苹果”这样的查询，通过用户模型对其扩展以后成“苹果、电脑、笔记本”，在网站的检索过程中就可以只对计算机相关的网站进行检索。所不同的是，在网站检索中，需要对检索的结果进行网页类型识别(步骤450)来区分是否为网站的主页或索引页面。通过网页类型识别，仅保留网站的主页、索引页面、子索引页面，而丢弃该网站的其它页面。

在得到所需的页面以后，系统需要对网站进行评估排序(步骤470)。评估的过程例如可以包括：首先，收集网站的各种信息，包括权威度、规模、影响力、用户数量、访问量、平均用户浏览页面次数等。然后计算各个信息的加权平均，如下式所示：w＝∑w_ip_i，其中p_i是进行网站评估的各项指标，w_i是对应的权重。最终得到的w为网站的评估结果。对w排序后可以作为发布信息的优先级并作为推荐的网站列表推荐(480)给用户。应该注意，对网站的评估可以是预先完成的，并可以定时更新。因而在本发明的一个实施例中，步骤470可以仅仅是进行相关网站的排序。

以上的步骤450、470可以由查询结果处理组件完成。在本发明的一种实施方式中，查询结果处理组件126例如包括：网页类型识别单元，用于对查询单元获得的检索结果进行网页类型识别，仅保留需要的能够代表网站的网页；网站评估单元，对识别出的网站进行评估；网站排序单元，根据评估结果对网站进行排序。如上所述，可以省略网站评估单元。可以用存储单元保存预先的评估结果，网站排序单元在进行网站排序时，可以查阅该存储单元存储的评估结果。

下面参照图5来说明本发明的发布组件123。信息发布组件123是在检索的基础上辅助用户完成信息发布的部件。一个具体实施例的系统框图见图5。在此过程中，系统将提供多种方式引导用户完成信息发布的过程，如图5所示，在具体的实施方式中，将检索的结果排序后(也即样例列表)(561)呈现给用户，用户可以在该检索结果的基础上，对列出的样例进行判断并选择其中一个模板作为范文(步骤510)，在该范文基础上进行修改(步骤520)。在用户完成修改过程以后，系统将针对用户的检索推荐可供发布信息的网站(步骤550)供用户选择，在用户选择好要发布信息的网站(步骤530)后，系统将用户的消息自动发布在其选定的网站上(步骤540)，从而完成了信息发布过程。发布的过程有很多种实现的方法，比如可以通过分析论坛的表单，然后系统通过程序模拟提交。

在另一种具体的实施方式中，系统根据检索的结果采用聚类和自动文摘的技术将不同的文档综合起来形成若干不同风格的写作的模板(模板列表)(步骤562)。

应该注意，本发明的以上说明是示例性的，而不是排他性的，例如用户可以不必选择信息所要发布到的网站，而由发布组件将信息发布到所有的可以进行信息发布的网站上。在这种情况下，可以将发布的情况(例如发布到的网站、发布结果等)告知用户。另一方面，也可以仅发布在前若干个网站上，例如只发布在前10个网站上。

一个具体的实例中的聚类方法如下，我们以BBS上的消息为例来说明具体的聚类方法：为了说明问题的方便，我们首先对部分名词做个定义：

消息：指的是一个作者就某个主题发布的一篇文章，其同义词包括帖子、Message、Post。消息分为两类，起始消息(Start)和回复消息(Reply)。前者是线索内的第一条消息，后者则是线索内某条消息的回复。

线索：由一条起始消息和多条回复消息构成的一组讨论，其同义词包括讨论、主题、topic、discussion、subject等。

讨论区：BBS上围绕某个领域设置的一个版面。其同义词包括论坛、版面、Message Board、Forum。

作者：发布消息的人，同义词包括Author、Poster。

读者：看消息的人，同义词包括Reader、Viewer。

在聚类开始的时候，首先对消息进行特征词的选取，将高频特征词(在实际操作中即词频＞＝2)作为VSM(向量空间模型)中的各项，并且对于出现在起始消息标题和起始消息内容中的特征词赋予较高的权重。具体权重赋值算法采用tf×idf公式，即词tk的权重为tf_k×idf_k，其中tf_k表示词tk在某消息集合中的频数，idf_k表示词tk的反比文档频数，idf_k＝log(N/n_k)，N表示某类消息的消息总数，nk表示词tk所出现的消息数目。

经过特征项的选取后，建立起向量矩阵，矩阵中的行表示第i棵树(记为Treei)，列表示第j个项(记为Termj)，矩阵的元素记为Value(i，j)，按下列公式计算：

其中fij表示项Termj在树Treei中出现的频数。对起始消息中出现的项赋予较大的权重，是因为认为这些项更重要。

用n表示向量维数，m表示线索树的数目，k表示聚类的数目，X＝{x_i，i＝1，2，...，m}表示线索树的集合，N表示最大迭代次数。基本的K-Means聚类算法如下。

输出：

●Y_j，j＝1，2，...，k-最终的聚类中心，用向量表示

●K_j，j＝1，2，...，k-最终的聚类集合(由多棵线索树组成的森林集合)步骤：

●第一步：随机选取K个聚类中心：Y₁，...，Y_j...，Y_K；K_j＝φ，j＝1，2，...k

●第二步：计算x_i(i＝1，2，...，m)和每个聚类中心的相似度，然后将x_i放入最相似的类别K_j中，即：K_j＝K_j∪{i}，相似度按余弦公式计算：

Sim (x_{i}, Y_{j}) = \frac{Σ_{l = 1}^{n} x_{il} * y_{jl}}{\sqrt{(Σ_{l = 1}^{n} {x_{il}}^{2}) (Σ_{l = 1}^{n} {y_{jl}}^{2})}};

●第三步：重新计算聚类中心：

(n_j为聚类的大小)

●第四步：若聚类未改变或变化很少，或者迭代次数已为N，则终止，否则转第二步。

K-Means算法的一个关键问题是K的选择，这直接关系到聚出的候选话题的数目。我们用ThreadNum表示线索数目，并按下列公式确定k的数量：

if(ThreadNum＜＝10)

if((ThreadNum＞10)&&(ThreadNum＜＝100))

if((ThreadNum＞100)&&(ThreadNum＜＝1000))

if(ThreadNum＞1000)

这样聚类的结果是系统得到了k个聚类集合，每一类集合都代表着相似的内容的帖子。下一步的工作就是在每一类的基础上通过自动文摘的方法获得一个写作模板。在本实施方式中，采用基于聚类的多文档文摘方法，对每一个帖子进行分段，在分段的结果上进行聚类，每一类选取其与聚类中心最近的一个作为核心段，将所有的核心段组合起来作为最终的模板。

用户可以在该模板的基础上进行编辑，由于模板是在大量的样例基础上综合而成的。其格式及用词也是众多的样例中最常用和最吸引用户注意力的。用户在此基础上进行修改，可以节省大量的时间并能保证发帖的质量。在编辑的过程中，系统会提供热门词汇(564)、热门句子(563)供用户选用。

信息跟踪组件124是在信息发布以后提供跟踪服务的，由于信息往往是发布在若干个网站上的。为了查看回帖信息，用户需要不断地访问其所发帖的网站才能得到最新的回复信息。这样的做法耗费了用户的大量的时间和精力。在有些情况下，比如用户为了租房而在各个租房网站上发布求租信息，由于不能及时查看用户的回复，会导致错过重要的信息。为了节省用户的时间，系统提供了自动对用户的回帖进行跟踪的功能，其具体的框图见图6，系统在获知用户的帖子信息以及发帖的网站等必要信息以后，通过定期检查(610)这些网站并跟踪用户发帖的回复，定期将新的回复收集回来(620)，并以用户选择的方式推送(640)给用户(推送的方式包括但不限于：email、RSS、短信、系统提供的集中查看站点等)。

对用户回复的另一个问题就是，回复中通常会有很多垃圾信息，比如毫无意义的回复、广告帖等，将这样的信息推送给用户也会浪费用户很多时间。为解决这个问题，系统提供了对回复的内容过滤功能(630)，将回复中的垃圾信息去掉，而仅仅将对用户有用的信息推送给用户。过滤垃圾信息的方法有很多种，现有的分类方法都可以用于垃圾信息过滤。在一个具体的实施例中，我们采用朴素贝叶斯分类器来完成这个任务：具体的步骤如下：

●训练阶段

在训练阶段，首先需要的是确定类别的个数，比如可以分成：有价值的消息、中性的消息、垃圾消息三类。当然也可以根据需要细分成更多的类别或者仅仅是两类(垃圾信息、非垃圾信息)

i.消息的预处理，包括去禁用词，抽词干，切句等。

ii.收集训练集中所有单词，得到词汇表。

iii.计算每一类别vj的先验概率：

iv.计算条件概率：

说明：w_i表示词汇表中第i个单词，v_j是分类类别，n_i是w_i在v_j类消息中的出现次数，n为v_j类消息中所有单词个数，N是词汇表中的词汇个数。我们用加一法估计未现事件的概率。

●分类阶段

i.对消息预处理，进行去禁用词、抽词干等预处理工作。

ii.根据下式计算消息的目标值，得到每条消息的类别：

v = \underset{v_{j} &Element; V}{\arg \max} P (v_{j}) \underset{w_{i} &Element; msg}{Π} P (w_{i} | v_{j}) .

本发明涉及采用用户模型根据与相应用户特征相关的信息来提供个性化的信息发布服务的系统和方法。

应该注意，上述说明只是示例性的。例如在上面的说明中，样例模板、热门候选语句以及热门候选词汇等的生成在样例查询组件中完成。但也可以在信息发布模块中完成。

当用于本申请时，术语“组件”、“服务”、“模型”和“系统”旨在指计算机相关实体：硬件、硬件和软件的组合、软件、或执行中的软件。例如，组件可以是，但不限于是，运行于处理器上的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。作为说明，运行于服务器上的应用和服务器都是组件。一个或多个组件可驻留于执行的过程和/或线程中，且组件可在一台计算机上本地化和/或分布在两台或多台计算机之间。

Claims

1.一种信息发布系统，其特征在于，所述系统包括：

搜索组件，用于基于所述查询条件进行查询；

查询结果处理组件，对所述搜索组件所得到的查询结果进行处理，向用户提供处理过的信息；以及

发布组件，对用户编辑完成的要发布的信息进行发布，

其中，所述搜索组件查询样例，所述查询结果处理组件根据查询出的样例的回帖数量、查看次数和/或帖子所属网站的权威度，对查询所得到的样例进行排序，将排序后的样例搜索结果提供给用户供用户选择编辑，并且

其中，所述查询结果处理组件对样例搜索结果进行聚类，并在聚类的基础上生成发布模板、候选句子和候选词汇，将所述发布模板、候选句子、和候选词汇提供给用户供用户选择编辑。

2.如权利要求1所述的系统，其特征在于，所述系统还包括用户模型组件，所述用户模型组件通过显式和隐式的方式获得用于创建用户模型的信息，并根据所获得的信息创建或更新所述用户模型；显式的方式获得的信息是指用户的注册信息以及在系统运行的过程中要求用户输入的信息；隐式的方式获得的信息是指通过非交互方式收集的用户常用的查询词、经常浏览的网页、上网时间、上网地点和/或阅读习惯信息。

3.如权利要求2所述的系统，其特征在于，所述用户模型组件根据用户反馈、查询结果、用户编辑结果、所选发布网站和/或信息发布跟踪结果对用户模型进行调整和更新。

4.如权利要求1所述的系统，其特征在于，所述查询结果处理组件还根据相关性、或根据时间、或根据所述用户模型，对查询所得到的样例进行排序，将排序后的样例搜索结果提供给用户供用户选择编辑。

5.如权利要求1所述的系统，其特征在于，所述搜索组件查询可以进行信息发布的网站，所述查询结果处理组件根据用户模型或网站的权威度、热门程度、用户数和/或地域属性对所查询出的网站进行排序。

6.如权利要求5所述的系统，其特征在于，所述查询结果处理组件在进行排序之前进行网页类型识别，仅保留可以代表网站的网页。

7.如权利要求5所述的系统，其特征在于，所述系统还包括信息跟踪组件，所述信息跟踪组件跟踪用户发布信息以后的效果，将各网站上对用户所发信息的回复和/或评论馈送给用户，所述信息跟踪组件通过RSS方式、email和/或在线显示方式将跟踪信息发送给用户。

8.如权利要求7所述的系统，其特征在于，所述用户模型包括用户通用模型和用户兴趣模型。

9.一种信息发布方法，其特征在于，所述方法包括：

搜索步骤，用于基于所述查询条件进行查询；

查询结果处理步骤，对所述搜索步骤所得到的查询结果进行处理，向用户提供处理过的信息；以及

发布步骤，对用户编辑完成的要发布的信息进行发布，

其中，所述搜索步骤查询样例，所述查询结果处理步骤根据查询出的样例的回帖数量、查看次数和/或帖子所属网站的权威度，对查询所得到的样例进行排序，将排序后的样例搜索结果提供给用户供用户选择编辑，并且，在所述查询结果处理步骤中还对样例搜索结果进行聚类，并在聚类的基础上生成发布模板、候选句子和候选词汇，将所述发布模板、候选句子、和候选词汇提供给用户供用户选择编辑。