CN100504869C - 用于管理电子信息的信息共享系统和方法 - Google Patents

用于管理电子信息的信息共享系统和方法 Download PDF

Info

Publication number
CN100504869C
CN100504869C CNB2006101107887A CN200610110788A CN100504869C CN 100504869 C CN100504869 C CN 100504869C CN B2006101107887 A CNB2006101107887 A CN B2006101107887A CN 200610110788 A CN200610110788 A CN 200610110788A CN 100504869 C CN100504869 C CN 100504869C
Authority
CN
China
Prior art keywords
user
information
file
repository
automatically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006101107887A
Other languages
English (en)
Other versions
CN1916903A (zh
Inventor
约马·M.·尼贝
尼古拉斯·C.·富勒
尤素福·得利希
达比·M.·苏
尤恩·F.·阿古埃罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1916903A publication Critical patent/CN1916903A/zh
Application granted granted Critical
Publication of CN100504869C publication Critical patent/CN100504869C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了用于构造并且实现基于本体的信息资源的系统和方法。更具体地说,提供了用于构造基于本体的信息资源的多用户合作的、半自动的系统和方法,其中所述基于本体的信息资源由用户团体共享,其中,本体类别基于由用户团体指定的归类规则、以及从作为多用户交互和归类判定的结果而获得的知识中自动学习的归类规则,随时间而演化。

Description

用于管理电子信息的信息共享系统和方法
技术领域
本发明总体上涉及用于构造并且实现基于本体的(ontology-based)信息资源的系统和方法。更具体地说,本发明涉及用于构造基于本体的信息资源的多用户合作的、半自动的系统和方法,其中所述基于本体的信息资源由用户团体共享,其中,本体类别基于由用户团体指定的归类(categorization)规则以及从作为多用户交互和归类判定的结果而获得的知识中自动学习的归类规则,随时间而演化。
背景技术
由于计算机处理和联网方面的技术的不断革新以及更高密度的存储器设备的开发,存储在电子存储库(repository)中的电子信息量以指数速率不断增长。举例来说,实际上存在巨大数量的电子信息,这些电子信息存储在例如数百万公众可访问的电子图书馆(electroniclibrary)中以及位于万维网上的其它数据源中。
虽然这种可电子访问的信息提供了巨大的、可以从中提取所希望的知识的信息源,但是重要的是,实现用于允许个人有效地定位所期望的信息并且提取用户感兴趣的相关知识的方法。使用“关键字”搜索的常规方法因各种原因会出现效率低并且不精确的情况,所述各种原因诸如是术语方面的偏差等。此外,有效地管理从这种电子信息中获得的知识也是十分重要的。例如,当用户继续构造从Web获得的电子信息的本地电子图书馆时,非常合乎需要的是例如利用这样一种管理系统,所述管理系统可以有效地组织并分类本地电子图书馆中的信息,由此便于从存储库中识别和访问相关信息。
发明内容
本发明的示例性实施例总体上包括用于构造并且实现基于本体的信息资源的系统和方法。更具体地说,本发明的示例性实施例包括用于构造基于本体的信息资源的多用户合作的、半自动的系统和方法,其中所述基于本体的信息资源由用户团体共享,其中,本体类别基于由用户团体指定的归类规则以及从作为多用户交互和归类判定的结果而获得的知识中自动学习的归类规则,随时间而演化。
在本发明的一个示例性实施例中,提供了一种信息共享系统,其包括:用于向用户提供帮助以便与系统交互的信息管理系统;具有依照本体归类的电子文件的共享信息存储库;归类规则存储库,其中所述归类规则由信息管理系统使用以便自动地归类待存储在共享信息存储库中的电子文件;以及学习机,用于基于从与所述系统的多用户交互中获得的知识,来自动地产生或者更新所述归类规则存储库中的归类规则。
所述信息管理系统在共享信息存储库中存储电子文件方面向用户提供帮助。所述电子文件例如可以是PDF文件、字处理文件、演示文件、图像文件、电影文件等。所述电子文件可以被存储在一个或多个用户指定的本体类别下,或者存储在由所述信息管理系统自动确定和建议的本体类别下。在另一示例性的实施例中,所述信息管理系统允许电子文件的一个或多个部分被独立地归类以便存储在共享信息存储库中。
在本发明的另一示例性实施例中,所述信息管理系统监控用户与外部信息源的交互,并且当用户从外部信息源访问电子文件时,自动地向用户提示用于在共享信息存储库中存储电子文件的选项。
在本发明的又一个示例性实施例中,所述信息管理系统记录在一时间段内的用户交互历史,其中所述用户交互包括用户搜索模式。所述系统还包括搜索历史存储库,其用于存储通过处理所记录的用户交互历史而自动推导出的搜索历史数据。例如,所述系统将记录并且存储在一时间段内的一个或多个用户的搜索历史,然后把最常用的搜索合并到搜索历史存储库中。在本发明的另一个实施例中,然后能够访问并且利用所述搜索历史数据,以便制定更加集中并且有效的搜索。
在本发明的另一示例性实施例中,所述信息管理系统处理搜索历史数据,以便确定一个或多个用户感兴趣的信息的优选主题,然后把感兴趣的信息的优选主题存储在用户兴趣索引中。
在本发明的又一个示例性实施例中,所述系统包括发布和预订代理系统,其使用用户兴趣索引中的感兴趣信息的优选主题来自动地跟踪并识别一个或多个外部信息源中最新发布的电子文件,所述电子文件对应于一个或多个用户感兴趣的信息的优选主题。所述系统将自动地向一个或多个用户通知最新发布的电子文件。在另一示例性实施例中,所述信息管理系统把最新发布的电子文件自动存储在共享信息存储库中。
根据以下结合附图来阅读的对示例性实施例的详细描述,本发明的这些以及其它示例性实施例、特征和优点将被描述或者变得更加明显。
附图说明
图1举例说明了依照本发明示例性实施例的用于构造并实现基于本体的信息资源的系统。
图2举例说明了依照本发明示例性实施例的共享信息资源的本体表示。
图3举例说明了依照本发明示例性实施例的用于归类电子信息以便填充(populate)本体的方法。
图4举例说明了依照本发明示例性实施例的用于使用共享的搜索历史信息来对电子信息进行多用户合作的搜索和访问的方法。
图5举例说明了依照本发明示例性实施例的用于标记电子文件的一个或多个独立部分以便使独立的部分可被独立地搜索和归类的方法。
图6举例说明了依照本发明示例性实施例的、用于自动预订外部数据源以便跟踪对应于用户感兴趣的主题领域的当前发布的电子信息并且向终端用户自动通知这种当前信息的方法。
具体实施方式
现在将参考示例性的附图来更加详细地描述用于构造并且实现由用户团体共享的基于本体的信息资源的示例性系统和方法,在所述附图中,相同的参考标记表示相同或者类似的元件。应该理解的是,此处所述的依照本发明的示例性系统和方法可以依照各种形式的硬件、软件、固件、专用处理器或者其组合来实现。特别是,在一个示例性的实施例中,本发明的系统和方法是依照软件实现的,其中所述软件包括有形地包含在一个或多个程序存储设备(例如,硬盘、磁软盘、RAM、CD ROM、DVD、ROM和闪存)上的程序指令,并且该程序指令可由包括适当结构的任何设备或机器来执行。
此外,还将理解的是,由于在附图中描述的系统模块和方法步骤可以依照软件来实现,所以系统组件之间的实际连接(或者处理步骤的流程)可以根据对应用程序进行编程的方式而有所不同。考虑到此处的教导,所属领域的普通技术人员将能设想出本发明的这些以及类似的实现方式或配置。
图1举例说明了依照本发明示例性实施例的用于构造并实现基于本体的信息资源的系统。更具体地说,图1举例说明了一种多用户合作的系统(100),其允许用户团体(110)用从一个或多个外部数据源(120)访问的、与一个或多个感兴趣领域有关的电子信息(例如,电子文件、文档等)构造并且填充基于本体的共享信息资源(102)。一般说来,所述系统(100)实现半自动的功能,以便向用户提供帮助从而使用本体模型来分类并管理电子信息,其中所述本体模型是基于用户团体(110)对系统(100)的使用而随时间逐渐构建/修改的,这样做考虑到了本体分类/类别之间的意义和关系可以随时间演化。更具体地说,正如下面更加详细地解释的那样,所述系统(100)支持合作的、半自动的用于构造下述这种本体的方法,其中所述本体具有用户指定的本体分类,以及基于从用户归类判定以及其它用户与系统(100)的交互和用户对系统(100)的利用而获得的知识而自动学习的本体分类。另外,所述系统(100)实现了这样的功能,所述功能可由共享信息资源本体支持,以便为一个或多个感兴趣的领域提供集中于领域的(domain-focused)对电子信息的搜索与检取。
在图1的示例性实施例中,所述系统(100)包括文档管理器模块(101)(或者信息管理系统)、共享信息存储库(102)(或者本地数据库)、归类规则存储库(103)、学习机(104)、用户搜索历史存储库(105)、发布/预订模块(106)和用户兴趣索引(107)。一般说来,所述文档管理器模块(101)是允许终端用户(110)与系统(100)进行交互的用户代理。所述文档管理器模块(101)处理用户查询,以便帮助用户归类电子信息(例如,电子文档)并且把其存储在共享信息存储库(102)中。下面将参考例如图2、3和5来论述依照本发明示例性实施例的用于归类和存储电子信息的方法。
在另一示例性实施例中,所述文档管理器模块(101)还向用户提供帮助以便搜索并且访问共享信息存储库(102)和/或一个或多个外部数据源(120)中的电子信息。将参考例如图4、5和6的示例性实施例来论述用于对用户期望的电子文件提供集中于领域的搜索和快速访问的方法。
所述共享信息存储库(102)实质上是由用户团体(110)共享的感兴趣的一个或多个领域的信息知识库。更具体地说,所述共享信息存储库(102)用于依照一个或多个本体模型、使用电子信息的结构化表示来存储和管理多个终端用户的共享知识。依照本发明的示例性实施例,本体包括本体模型/结构,其中各种本体分类(感兴趣领域、类别等)依照分类学分级结构进行指定/定义和设置,并且利用具有与一个或多个本体领域/类别有关的内容的电子文件来填充。
将会理解的是,可以使用各种技术在共享文档存储库(102)中表示所述本体分类。例如,图2举例说明了依照本发明示例性实施例的共享信息资源(102)的本体表示(200)。特别的是,所述示例性本体(200)实现多级树归类方法,其中模型(200)的第一级对应于一个或多个感兴趣的领域(201)(“感兴趣领域”)(例如,信息理论、博弈论),并且其中模型(200)的第二级定义了相应感兴趣领域(201)内的一个或多个类别(202)(例如,信息理论下的信源编码定理、博弈论下的纳什平衡等)。在其它示例性实施例中,所述类别(202)可以根据所期望的信息粒度由子类别等来进行进一步精炼。
在一个或多个感兴趣的领域(201)内,树的叶子(类别(202)、子类别等)包含被分类在一个或多个类别(202)下的电子文件(203)。所述电子文件例如可以是PDF文件、字处理文件、演示文件、图像文件、电影文件等,其具有与本体(200)的一个或多个领域/类别有关的内容。所述电子文件被标记有分类标记,以便表明所述文件被分配并且被存储在共享信息存储库中的分类。
将会理解的是,本体(200)的本体分类(201,202)将基于用户指定的分类和/或自动学习的分类而随时间演化并且动态地修改。例如,当添加新的分类、除去旧的分类、组合并且重命名各个分类时,或者当本体模型的粒度另外被精炼时,或者当新的本体概念被自动学习或者由终端用户指定等时,所述本体(200)将随时间进行演化。
在本发明的另一个实施例中,电子文件(203)可以与附加的元数据(204)相关联地存储,其中所述附加的元数据与添加到普通分类标记上的、用户在电子文件中特定的并且也许是唯一的兴趣(称为“唯一的优选兴趣(UPI)”)相关联。所述UPI不会被用户共享,但是用来便于用户基于各个用户的兴趣来搜索共享存储库(102)中的文档。
返回参考图1,所述归类规则存储库(103)包括由所述文档管理器模块(101)使用以便帮助终端用户归类待存储在共享信息存储库(102)中的电子文件的归类规则。所述文档管理器(101)使用归类规则(103)来自动地处理并且向待存储在共享信息存储库(102)中的电子文件分配一个或多个本体分类。所述归类规则(103)可以包括用户指定的规则和/或机器学习的规则,其中所述机器学习的规则是根据与系统(100)的多用户交互的历史记录来学习的。
特别的是,举例来说,所述学习机(104)实现用于挖掘(mine)共享信息存储库(102)以便提取信息的方法,其中所述信息可用于训练存储在归类规则存储库(103)中的新的分类/归类模块/规则,或者动态地更新先前训练的分类/归类模块/规则,其中该先前训练的分类/归类模块/规则由文档管理器模块(101)实现,以便帮助归类电子文件并且在共享信息存储库(102)中存储电子文件。在本发明的一个示例性实施例中,所述学习机(104)实现本领域普通技术人员所熟知的方法,该方法用于挖掘共享信息存储库(102),以便基于所存储的电子文件的用户指定分类的历史模式来提取归类模式,或者从所存储的用于精炼现有本体分类或者发现新的本体分类的电子文件中提取信息。
将会理解的是,使用机器学习技术来生成/更新归类规则(103),允许本体随时间逐渐地被构造并且开发,由此改善并且优化相关的电子信息的分类。在本发明的一个示例性的实施例中,可以使用分批方法来生成/更新所述归类规则(103),借此学习机(104)定期地挖掘整个存储库(102),并且生成新的归类规则或者更新存储在归类规则存储库(103)中的现有归类规则。在本发明的另一示例性实施例中,采用了增量法,借此在每次把新的电子文件添加到共享信息存储库(102)中时,启动学习机(104)。此外,采用此方法,所述学习机(104)可以在归类规则存储库(103)中添加新的规则,或者更新存储库(103)中的现有规则的统计信息。
所述搜索历史存储库(105)包括在一时间段上从一个或多个用户搜索模式推导出的组合搜索历史数据。更具体地说,在本发明的一个示例性实施例中,所述文档管理器模块(101)包括用于监控、记录并且编译在一时间段上一个或多个终端用户的搜索历史的方法,其中最常用的搜索被合并到搜索历史存储库(105)中。例如,正如下面将参考图4解释的那样,组合的搜索历史数据可以由终端用户访问,以便制定有效的文档搜索查询。
所述文档管理器(101)基于存储在搜索历史存储库(105)中的搜索历史信息来生成用户兴趣索引(107)。特别的是,所述文档管理器(101)将定期地分析搜索历史数据库(105)中的搜索历史数据,以便基于下述关键字/短语和主题领域来为一个或多个终端用户确定用户感兴趣的一个或多个优选主题,其中所述关键字/短语和主题领域是由用户从一个或多个外部数据源(120)访问的电子文件中最经常出现的。所述文档管理器(101)然后将为特定用户生成/更新用户兴趣索引(107),其用于识别与为特定用户确定的感兴趣的优选主题相对应的特定类型的文档。存储在用户兴趣索引(107)中的信息可由学习机(104)使用,以便更新共享信息存储库(102)的本体模型和归类规则存储库(103)中的归类规则。
所述发布/预订中间件(middleware)模块(106)实现用于自动预订一个或多个外部数据源(120)以便跟踪当前发布的电子信息并且自动地向终端用户通知这种当前信息的方法,其中所述当前发布的电子信息对应于用户感兴趣的主题领域。特别的是,所述发布/预订模块(106)包括这样的方法,其用于处理用户兴趣索引(107),以便识别用户感兴趣的特定主题,并且向外部数据源(120)注册触发,以便识别具有用户感兴趣的特定主题的电子文件。每当在给定通道中发布新的电子信息(例如,电子文档)时,所述发布/预订模块(106)把这种最新发布的信息通知给向该特定通道信道进行注册的终端用户,并且还通知用于在共享存储库(102)中存储新文档的选项。此功能提供了对感兴趣的信息通道的自动用户预订,以便允许向终端用户(110)自动报告在感兴趣的优选主题领域中的当前参考文献/文档。
将会理解的是,图1的所述合作系统(100)可以在各种计算环境中实现。例如,所述系统(100)可以作为独立的应用程序来实现,其中所述应用程序可以在个人计算机平台上执行,所述个人计算机平台可由用户团体使用。在本发明的另一示例性实施例中,系统(100)例如可以在客户端/服务器网络环境下实现,借此所述系统(100)经由应用服务器或者web服务器来执行,其中该应用服务器或者web服务器可由用户团体(110)通过网络(例如,外联网、内联网、互联网)经由客户端访问设备(例如,执行GUI浏览器的个人计算机)来访问。所述系统(100)的模块可以分布在不同的网络节点上。
此外,在本发明的另一示例性实施例中,所述系统(100)可以由终端用户访问,以便处理、分类和存储预先访问的电子文件。在另一个实施例中,所述系统(100)可以作为代表终端用户的代理来操作,终端用户可以通过该代理来浏览/导航外部数据源(120)中的电子信息。在其它示例性的实施例中,所述系统(100)可以是由第三方服务供应商操作的服务,终端用户团体依照一个或多个商业模型向所述第三方服务供应商支付服务费。
图3举例说明了依照本发明示例性实施例的用于归类电子信息以便填充本体的方法。更具体地讲,举例来说,图3描述了由所述文档管理器(101)实现的、用于支持并且提供用户帮助以便对电子信息进行分类的方法。在这方面,将进一步参考图1的系统(100)来论述图3的示例性方法。参考图3,在本发明的一个示例性实施例中,其中系统(100)作为后台代理来操作,而用户浏览(步骤300)一个或多个远程外部数据源(120)(例如,Google、SciFinder、Web of Knowledge、IEEE等)中的信息,所述文档管理器(101)将自动监控用户交互(例如,文档搜索和检取)(步骤301)。
当用户从外部数据源访问(打开、下载等)任何类型的电子文件(例如,PDF文件)时,所述系统(100)将经由所述文档管理器(101)进行“标记”,并且所述文档管理器(101)将自动地向用户提示用于在共享文档存储库(102)中存储所访问的电子文件的选项(步骤302)。在这种情况下,所述用户将选择用于存储文件(在步骤303中是肯定结果)或者不存储文件(在步骤303中是否定的结果)的选项。在本发明的另一示例性实施例中,其中所述系统(100)不作为后台代理进行操作,用户可以启动与所述文档管理器模块(101)的交互,以便请求对于归类并且存储用户先前访问的电子文件予以帮助(步骤305)。
在用户请求帮助(步骤305)或者当由文档管理器自动提示时选择帮助(在步骤303中是肯定结果)的环境下,所述文档管理器(101)将使用相关的归类规则来自动处理所述电子文件,以便确定用于存储所述电子文件的本体模型的一个或多个潜在类别(步骤304)。所述文档管理器(101)然后将向用户提示用于依照一个或多个建议的分类(步骤307)或者依照用户指定的分类(步骤308)来存储电子文件的选项。在任何一种情况下,电子文件的整个版本将依照用户指定的分类和/或系统建议的分类存储在共享存储库中(步骤309)。
在本发明的一个示例性实施例中,把所述电子文件与一个或多个预定义的信息标记相关联地存储,其中所述信息标记具有在处理电子文件期间提取的信息。例如,采用电子文档,所述预定义的标记可以包括从文档中提取的信息,以及文档中包含的一个或多个相关的关键字(其是使用已知的文档处理方法自动确定的,或者是从包括由一个或多个作者识别的相关关键字列表的、预先指定的文档部分中提取的),其中所述从文档中提取的信息包括文档标题、作者姓名、作者联络信息(例如,电子邮件)。所述预定义的标记可以用于快速并且有效地搜索和访问存储在共享信息存储库中的电子文件。应该理解的是,要实现的信息标记的数量和类型将根据所存储的电子文件的类型和可以从特定电子文件中提取的信息类型而有所变化。与预定义的信息标记相关联的信息可以在用户团体中共享,并且可由学习机使用以便获得用于逐渐构造本体的知识。
另外,所述文档管理器(101)允许用户指定唯一的、与所述电子文件相关联地存储的元数据(步骤310)。所述唯一的元数据对应于电子文件中用户的特定并且也许是唯一的兴趣(被称为唯一的优选兴趣(UPI)),并且可以使用与电子文件相关联地存储在共享存储库中的UPI标记来指定。给定用户所定义的UPI标记内包含的元数据可以用来制定搜索查询,以便允许用户快速地搜索并且访问共享信息存储库中的、具有相应UPI标记的相关电子文件。UPI标记内包含的信息不会在用户团体当中共享,并且不用于逐渐地构造本体。
如上参考图1所述,所述系统(100)可以自动监控并且记录终端用户的搜索模式和归类模式。例如,当用户团体(110)内的用户随时间的过去而执行不同的搜索时,所述系统(100)将跟踪搜索并且把最常用的搜索合并到搜索历史存储库(105)中。通过记录用户团体的搜索活动,可以由各个用户来查看并且平衡所述搜索历史(105),以便改进他们的搜索效率。举例来说,图4举例说明了依照本发明示例性实施例的、用于使用共享的搜索历史信息来对电子信息进行多用户合作的搜索和访问的方法。图4举例说明了允许用户访问共享搜索历史存储库(105)内的搜索历史数据(400)的方法。特别的是,当一个或多个终端用户(110)希望使用搜索历史数据(400)来搜索电子文件时,用户向所述文档管理器(101)提交请求,并且指定将搜索结果集合(例如,401或者402)返回给用户的时间间隔。搜索结果集合(401)、(402)的大小将与用户指定的持续时间成比例。在给定的结果集合(401)、(402)内,所述用户可以查看来自其它用户的搜索实例(403),并且利用这种实例(403)来经由所述文档管理器(101)提交新的并且更加集中的关键字、短语和/或主题搜索。
在本发明的另一示例性实施例中,可以把电子文件(例如,电子文档)划分为由特定标记限定的部分。在这方面,每一部分可以被视作独立的文档,其可以按照意思被标记和归类,以便易于集中搜索所期望的信息。例如,图5举例说明了依照本发明示例性实施例的、用于标记电子文件的一个或多个独立部分以便使独立的部分可被独立地搜索和归类的方法。如图5中所描绘的那样,示出了电子文档(500)包括多个部分(501,502,503和504)。每一部分均由一特定标记来限定(例如,文档部分(501)被描述为由标记(501a)来限定)。当向所述文档管理器(101)发送请求时,用户(110)通过指定相应的部分标记,可以限制他/她对文档部分的搜索。在示例性的实施例中,每一部分(501~504)可以作为独立的文档被查看,并且可以从双亲文档(500)继承属性,诸如关键字和分类数据。每一部分均可由学习机(104)独立地处理,就好像每一部分均为独立的文件一样,以便提取用于更新/生成归类规则的知识。
在另一示例性的实施例中,如上所述,所述合作系统(100)提供发布/预订功能,其中所述发布/预订模块(106)通过向一个或多个外部数据源(120)注册触发,来识别各种各样的感兴趣的主题。每当在给定通道中发布新的电子信息时,所述发布/预订模块(106)可以自动地向终端用户(已向给定通道注册过的)提供最新发布的电子信息的通知。举例来讲,图6举例说明了依照本发明示例性实施例的、可由所述发布/预订模块(106)实现的方法,其中该方法用于自动地预订外部数据源,以便跟踪与用户感兴趣的主题领域相对应的当前发布的电子信息并且自动地向终端用户通知这种当前信息。
参考图6,所述文档管理器(101)将监控并且记录用户与系统(100)的交互,所述交互包括用户搜索模式的历史和从一个或多个外部数据源(120)普遍访问的文档的类型(步骤600)。如上所述,对所记录的搜索历史进行处理,以便生成搜索历史数据,所述搜索历史数据被存储在搜索历史数据库(105)中。所述文档管理器(101)将定期地利用搜索历史数据库(105)中的搜索历史数据,以便基于关键字/短语和主题领域来为给定的终端用户确定用户感兴趣的一个或多个主题,其中所述关键字/短语和主题领域是在由用户访问的电子文件中最经常出现的(步骤601)。
所述文档管理器(101)然后将为用户生成/更新用户优选主题列表(602a),其用于识别与为给定用户确定的感兴趣的主题相对应的特定类型的文档(步骤602)。例如,图6描述了示例性的用户优选主题列表(602a),其包括一个在一列(C1)中列出多个主题并且在第二列(C2)中列出相应的条目编号(在给定行中)的表。用户优选主题列表(602a)是图1中描述的用户兴趣索引(107)的示例性实施例。
由于用户访问的电子文件来源于一个或多个外部数据源(120),所以系统(100)可以跟踪并且识别向外部数据源(120)发布的最新电子文件,其包含在用户优选主题列表中排名较高的关键字/短语和主题领域(步骤603)。当在一给定通道中发布感兴趣的电子文件时,将自动地向所述用户通知该一个或多个新的电子文件(步骤604)。这样做允许向用户通报涉及特定优选主题领域的最近的信息。在一个实施例中,向用户提供最新发布的电子文件的通知,留给用户访问电子文件并且在共享信息存储库(102)中存储电子文件的选项。在另一示例性的实施例中,无论有或者没有涉及分类和存储等的用户确认,所述系统都将会自动地访问并且分类新的电子文件,然后把电子文件存储在共享存储库中。
虽然此处已经参考附图描述了本发明的说明性的实施例,但是应该理解的是,本发明不局限于那些确切的实施例,而且本领域普通技术人员在不脱离本发明的范围或者精神的情况下,可以对其做出各种其它改变和修改。所有这种改变和修改都被视为包括在本发明的范围内,其中本发明的范围由所附权利要求书来限定。

Claims (22)

1.一种信息共享系统,包括:
用于向用户提供帮助以便与所述信息共享系统交互的信息管理系统;
具有依照本体归类的电子文件的共享信息存储库;
归类规则存储库,所述归类规则由信息管理系统使用,以便自动地归类待存储在共享信息存储库中的电子文件;以及
学习机,用于基于从与所述信息共享系统的多用户交互中获得的知识,来自动地产生或者更新所述归类规则存储库中的归类规则;
其中,所述信息管理系统向用户提供帮助,以便在共享信息存储库中在用户指定的一个或多个本体类别下或者在由信息管理系统所建议的本体类别下存储电子文件。
2.如权利要求1所述的系统,其中,所述信息管理系统监控与外部信息源的用户交互。
3.如权利要求2所述的系统,其中,当用户从所述外部信息源访问电子文件时,所述信息管理系统自动地向用户提示用于在共享信息存储库中存储从所述外部信息源访问的所述电子文件的选项。
4.如权利要求2所述的系统,其中,所述信息管理系统记录一时间段内的与外部信息源的用户交互历史,其中所述与外部信息源的用户交互包括用户搜索模式。
5.如权利要求4所述的系统,其中,所述信息共享系统还包括搜索历史存储库,其包括搜索历史数据,所述搜索历史数据是通过处理所记录的用户交互历史而被自动推导出来的。
6.如权利要求5所述的系统,其中,所述信息管理系统处理搜索历史数据,以便确定一个或多个用户的感兴趣信息的优选主题,并且在用户兴趣索引中存储感兴趣信息的优选主题。
7.如权利要求6所述的系统,还包括:发布和预订代理系统,其使用所述用户兴趣索引中的感兴趣信息的优选主题来识别一个或多个外部信息源中最新发布的电子文件,其中所述电子文件对应于一个或多个用户的感兴趣信息的优选主题。
8.如权利要求7所述的系统,其中,所述信息管理系统自动地向一个或多个用户通知所述最新发布的电子文件。
9.如权利要求7所述的系统,其中,所述信息管理系统自动把所述最新发布的电子文件存储在共享信息存储库中。
10.如权利要求1所述的系统,其中,所述信息管理系统允许用户把唯一的用户元数据关联至存储在共享信息存储库中的一个或多个电子文件。
11.如权利要求1所述的系统,其中,所述信息管理系统允许电子文件的一个或多个部分被独立地归类以便存储在共享信息存储库中。
12.一种用于管理电子信息的方法,包括:
在由用户团体共享的共享信息存储库中存储电子文件,其中所述电子文件依照本体来归类;并且
基于由用户团体指定的归类规则、以及从作为多用户归类判定的结果而获得的知识中自动学习的归类规则,随时间来逐渐地修改所述本体。
13.如权利要求12所述的方法,还包括:
维护归类规则存储库,其中所述归类规则用于自动地归类待存储在共享信息存储库中的电子文件;
应用机器学习方法,以产生新的归类规则或者更新所述归类规则存储库中现有的归类规则。
14.如权利要求12所述的方法,还包括:
接收来自用户的、用于把未归类的电子文件存储在共享信息存储库中的请求;并且
向用户提示用于依照一个或多个建议的本体类别或者依照用户指定的一个或多个本体类别来存储电子文件的选项。
15.如权利要求14所述的方法,还包括:自动地监控与外部信息源的用户交互。
16.如权利要求15所述的方法,还包括:自动地向用户提示用于存储并归类从外部信息源访问的电子文件的选项。
17.如权利要求15所述的方法,还包括:在搜索历史存储库中存储用户搜索模式。
18.如权利要求17所述的方法,还包括:
基于存储在搜索历史存储库中的信息,确定一个或多个用户的感兴趣信息的优选主题;并且
使用所述感兴趣信息的优选主题来识别一个或多个外部信息源中的最新发布的电子文件。
19.如权利要求18所述的方法,还包括:自动地向用户通知对应于用户感兴趣的优选主题的最新发布的电子文件。
20.如权利要求18所述的方法,还包括:把所述最新发布的电子文件自动存储在共享信息存储库中。
21.如权利要求12所述的方法,其中,在共享信息存储库中存储电子文件的步骤还包括:允许用户把唯一的元数据关联至存储在共享信息存储库中的一个或多个电子文件。
22.如权利要求12所述的方法,其中,在共享信息存储库中存储电子文件的步骤还包括:独立地归类电子文件的一个或多个部分以便存储在共享信息存储库中。
CNB2006101107887A 2005-08-16 2006-08-08 用于管理电子信息的信息共享系统和方法 Active CN100504869C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/204,726 US7739218B2 (en) 2005-08-16 2005-08-16 Systems and methods for building and implementing ontology-based information resources
US11/204,726 2005-08-16

Publications (2)

Publication Number Publication Date
CN1916903A CN1916903A (zh) 2007-02-21
CN100504869C true CN100504869C (zh) 2009-06-24

Family

ID=37737901

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101107887A Active CN100504869C (zh) 2005-08-16 2006-08-08 用于管理电子信息的信息共享系统和方法

Country Status (2)

Country Link
US (1) US7739218B2 (zh)
CN (1) CN100504869C (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756750B2 (en) 2003-09-02 2010-07-13 Vinimaya, Inc. Method and system for providing online procurement between a buyer and suppliers over a network
US7590649B2 (en) 2005-12-20 2009-09-15 At&T Intellectual Property, I,L.P. Methods, systems, and computer program products for implementing intelligent agent services
US7627661B2 (en) * 2005-12-20 2009-12-01 At&T Intellectual Property, I, L.P. Methods, systems, and computer program products for implementing ontological domain services
US8239367B1 (en) * 2006-01-09 2012-08-07 Google Inc. Bookmarks
JP5248867B2 (ja) * 2006-01-31 2013-07-31 本田技研工業株式会社 会話システムおよび会話ソフトウェア
US8112324B2 (en) 2006-03-03 2012-02-07 Amazon Technologies, Inc. Collaborative structured tagging for item encyclopedias
US8402022B2 (en) * 2006-03-03 2013-03-19 Martin R. Frank Convergence of terms within a collaborative tagging environment
US20080091548A1 (en) * 2006-09-29 2008-04-17 Kotas Paul A Tag-Driven Concept-Centric Electronic Marketplace
US8484083B2 (en) * 2007-02-01 2013-07-09 Sri International Method and apparatus for targeting messages to users in a social network
WO2008102727A1 (ja) * 2007-02-21 2008-08-28 Nec Corporation インデックス生成装置・システム・プログラム・方法、検索装置・システム・プログラム・方法
US7941387B2 (en) * 2007-11-05 2011-05-10 International Business Machines Corporation Method and system for predicting resource usage of reusable stream processing elements
WO2009065682A1 (en) * 2007-11-19 2009-05-28 International Business Machines Corporation Method, system and computer program for storing information with a description logic file system
US8412516B2 (en) * 2007-11-27 2013-04-02 Accenture Global Services Limited Document analysis, commenting, and reporting system
US8125984B2 (en) * 2008-03-21 2012-02-28 International Business Machines Corporation Method, system, and computer program product for implementing stream processing using a reconfigurable optical switch
US8943509B2 (en) * 2008-03-21 2015-01-27 International Business Machines Corporation Method, apparatus, and computer program product for scheduling work in a stream-oriented computer system with configurable networks
US8682819B2 (en) * 2008-06-19 2014-03-25 Microsoft Corporation Machine-based learning for automatically categorizing data on per-user basis
US7856544B2 (en) * 2008-08-18 2010-12-21 International Business Machines Corporation Stream processing in super node clusters of processors assigned with stream computation graph kernels and coupled by stream traffic optical links
US10007729B1 (en) 2009-01-23 2018-06-26 Zakta, LLC Collaboratively finding, organizing and/or accessing information
US10191982B1 (en) 2009-01-23 2019-01-29 Zakata, LLC Topical search portal
US9607324B1 (en) 2009-01-23 2017-03-28 Zakta, LLC Topical trust network
CN102804176A (zh) * 2009-06-26 2012-11-28 瑞典爱立信有限公司 通信网络中的方法和装置
US8713078B2 (en) * 2009-08-13 2014-04-29 Samsung Electronics Co., Ltd. Method for building taxonomy of topics and categorizing videos
US10229191B2 (en) 2009-09-09 2019-03-12 Varonis Systems Ltd. Enterprise level data management
EP2476052A4 (en) 2009-09-09 2016-05-11 Varonis Systems Inc DATA MANAGEMENT AT ENTERPRISE LEVEL
WO2011039322A1 (de) * 2009-09-30 2011-04-07 Technische Universität Dresden Verfahren zur erzeugung und verwendung einer ontologie, datenverarbeitungssystem
US20110179049A1 (en) * 2010-01-19 2011-07-21 Microsoft Corporation Automatic Aggregation Across Data Stores and Content Types
CN101894152B (zh) * 2010-06-29 2012-07-04 华中师范大学 一种基于资源包的学习内容生成方法
US8589349B2 (en) * 2010-06-30 2013-11-19 International Business Machines Corporation Tracking and viewing revision history on a section-by-section basis
US8417710B2 (en) * 2010-09-20 2013-04-09 International Business Machines Corporation Public relations and reputation mining via semantic analytics
US10068266B2 (en) 2010-12-02 2018-09-04 Vinimaya Inc. Methods and systems to maintain, check, report, and audit contract and historical pricing in electronic procurement
US9158775B1 (en) 2010-12-18 2015-10-13 Google Inc. Scoring stream items in real time
CN102243649B (zh) * 2011-06-07 2013-01-09 上海交通大学 本体半自动信息抽取处理装置
US20120317091A1 (en) * 2011-06-09 2012-12-13 Luping Li System and method for users to get newly updates
US9406018B2 (en) * 2012-01-31 2016-08-02 Infosys Limited Systems and methods for semantic data integration
US9262535B2 (en) * 2012-06-19 2016-02-16 Bublup Technologies, Inc. Systems and methods for semantic overlay for a searchable space
US10127271B2 (en) * 2012-09-06 2018-11-13 Koninklijke Philips N.V. Generating a query
US8725774B2 (en) * 2012-10-05 2014-05-13 Xerox Corporation Enforcing policies over linked XML resources
USD802609S1 (en) 2013-06-04 2017-11-14 Abbyy Production Llc Display screen with graphical user interface
USD805535S1 (en) 2013-06-04 2017-12-19 Abbyy Production Llc Display screen or portion thereof with a transitional graphical user interface
RU2665239C2 (ru) 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
US9569728B2 (en) 2014-11-14 2017-02-14 Bublup Technologies, Inc. Deriving semantic relationships based on empirical organization of content by users
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
RU2610241C2 (ru) 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US10643178B1 (en) 2017-06-16 2020-05-05 Coupa Software Incorporated Asynchronous real-time procurement system
KR102420280B1 (ko) * 2017-10-30 2022-07-13 엘지전자 주식회사 이동 단말기
US11443144B2 (en) 2020-03-17 2022-09-13 Microsoft Technology Licensing, Llc Storage and automated metadata extraction using machine teaching
US11443239B2 (en) 2020-03-17 2022-09-13 Microsoft Technology Licensing, Llc Interface for machine teaching modeling
FR3127305A3 (fr) * 2021-09-22 2023-03-24 Silo Procédé et système de réalisation automatique d’un traitement à au moins un fichier informatique

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
CN1339756A (zh) * 2000-08-23 2002-03-13 松下电器产业株式会社 文档检索和分类方法及其装置
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913061A (en) * 1997-01-08 1999-06-15 Crossroads Software, Inc. Modular application collaboration
US6158044A (en) * 1997-05-21 2000-12-05 Epropose, Inc. Proposal based architecture system
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
CN1339756A (zh) * 2000-08-23 2002-03-13 松下电器产业株式会社 文档检索和分类方法及其装置
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统

Also Published As

Publication number Publication date
CN1916903A (zh) 2007-02-21
US20070043742A1 (en) 2007-02-22
US7739218B2 (en) 2010-06-15

Similar Documents

Publication Publication Date Title
CN100504869C (zh) 用于管理电子信息的信息共享系统和方法
Belém et al. A survey on tag recommendation methods
Martella et al. Practical graph analytics with apache giraph
CN100458777C (zh) 向用户提供集成帮助信息的系统和方法
Hernández et al. Deep Web crawling: a survey
Wu et al. A multilevel index model to expedite web service discovery and composition in large-scale service repositories
CA2805870C (en) Systems and methods for generating issue libraries within a document corpus
US11734365B1 (en) Knowledge-enriched item set expansion system and method
Jones et al. Building and managing software libraries
d'Aquin et al. What can be done with the Semantic Web? An Overview of Watson-based Applications
JP2005316699A (ja) コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム
KR20140135100A (ko) 시맨틱 매쉬업 기술을 이용한 프로그램 제공 방법
Kumar et al. Classification of Mobile Applications with rich information
Schlitter et al. DenGraph‐HO: a density‐based hierarchical graph clustering algorithm
Simov et al. Accessing linked open data via a common ontology
Shi et al. Ontology-based code snippets management in a cloud environment
CN113360496A (zh) 一种构建元数据标签库的方法及装置
Jayalakshmi et al. Webpage recommendation system using interesting subgraphs and laplace based k-nearest neighbor
Abela et al. Behaviour mining for automatic task-keeping and visualisations for task-refinding
Laxmi Lydia et al. Challenging Data Models and Data Confidentiality Through “Pay-As-You-Go” Approach Entity Resolution
US20240086467A1 (en) Control system for controlling management and tagging of digital cards stored in decentralized content storage
Khan et al. PredictionMiner: mining the latest individual behavioral rules for personalized contextual pattern predictions
Kamath et al. A bio-inspired, incremental clustering algorithm for semantics-based web service discovery
Jamous et al. Web services non-functional classification to enhance discovery speed
Reformat et al. Updating user profile using ontology-based semantic similarity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant