CN1192320C - 具有自动预过滤和路径选择的协作式主题服务器 - Google Patents

具有自动预过滤和路径选择的协作式主题服务器 Download PDF

Info

Publication number
CN1192320C
CN1192320C CNB998054771A CN99805477A CN1192320C CN 1192320 C CN1192320 C CN 1192320C CN B998054771 A CNB998054771 A CN B998054771A CN 99805477 A CN99805477 A CN 99805477A CN 1192320 C CN1192320 C CN 1192320C
Authority
CN
China
Prior art keywords
theme
file
search
server
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB998054771A
Other languages
English (en)
Other versions
CN1307704A (zh
Inventor
程以宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Corey Technology Solutions Ltd
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1307704A publication Critical patent/CN1307704A/zh
Application granted granted Critical
Publication of CN1192320C publication Critical patent/CN1192320C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99946Object-oriented database structure network

Abstract

公开了一种基于主题内容的信息组织和获取系统,它有效地组织文件,目的在于快速而高效地搜索和获取。这种信息组织和获取系统经过完善,仅组织和获取那些相关于给定的预定义的一组主题的文件。如果该文件不具有这套给定主题中的主题,它将被排除在所提供的服务之外。与此相似,如果该文件具有某个被所提供服务特别禁止的主题,它也将被排除在外。正是以这种模式,提供者有目的地限制了所提供的搜索和获取服务的范围,可是这样做提供了一种针对用户需求的更有效的服务。这种信息组织和获取系统也支持上下文敏感搜索和获取技术,包括使用预先定义或用户定义的意图,以及使用用户专门词汇。在一种优选实施方案中,所选的这套主题组织成有多个重叠的分层结构,并有一种分布的软件结构用来支持这些基于主题的信息组织、路径选择和获取服务。文件可以与一个或多个主题相关,并通过由信息服务器维护的主题结构与每个主题联系在一起。

Description

具有自动预过滤 和路径选择的协作式主题服务器
技术领域
本发明涉及数据处理和交换领域,特别是文件的存储、组织和获取领域。
背景技术
可供访问的信息量在不断增加,并且信息量的增加速率也在加大。这种不断增加的信息增长,导致了用来存储、组织和获取信息的不断膨胀的资源。
传统的搜索引擎,例如因特网上用来查找文件的搜索引擎,使用了各种技术响应用户查询以快速找到用户要求的文件。其中的一种技术便是建立一个对应于万维网上文件的索引数据库。通过找出用户请求和索引数据库中信息的某种联系,完成用户请求的处理,而不是真的到万维网上去找来响应用户请求。传统的搜索引擎使用一种“爬行器(crawler)”来定位文件或更新文件。一旦一个新的或是更新的文件被定位,搜索引擎便生成一个对应于该文件的目录,其中包括比如文件中最常见单词和词组的列表。还存在一些可以代替以上步骤的技术,即让文件的创建者在文件中直接增添一些关键词或词组,而这些词或词组用来给文件编制索引。为了方便起见,下文中的关键字一词就指文件索引中包含的某个词,而不管将其放置在索引中的方法。当用户输入一个查询,搜索结果依据用户查询中的词和文件索引中的关键词的匹配。本领域的技术人员可以理解一个文件的目录可能较大,万维网上基本上所有文件的索引数据库实际上极其庞大,而且将以不断增长的速率继续增加。1998年,因特网上每天约增加150万页,并且每天增速预计将继续扩大。除了增加了的存储资源的代价外,随着数据库的扩张数据库查找技术的性能在下降。
随着包含某个关键词的文件越来越多,依据关键词查找的文件获取效率越来越低,也越来越不可行。在因特网上一次关键词查找返回成千上万与此关键词相关的文件不足为奇,而其中的很多和用户的查询并无关联。为了减少对于关键词被识别文件的数目,用户必须增加提供额外的关键词或词组来增加搜索参数。可是这样做,如果用户没有选择文件中的相同词语,与用户请求有关的文件又可能被排除在外。搜索引擎可以通过在用户查询自动增加同义词从而增强性能,不过如此增加又将加剧所识别文件与用户查询无关的问题,尽管这些文件也包含了这些关键词。
主题式分类为查找与用户请求相关的文件提供了一种选择更精细的方法,因为那些与用户请求具有相同主题的文件要比那些仅仅包含匹配单词集合的文件更具备相同的信息。不过,确定文件的一个或多个主题比确定文件包含的词更复杂。传统上,主题的确定是一项人工密集的任务,需要很多人阅读和分类每个文件。信息科学领域中,基于统计学的算法和神经网,以及基于遗传学的算法,和自动分类相似文件的研究方面不断取得进展。主题分类也为一般的浏览提供了一种高效的方法,用户既可以选择感兴趣的主题又可以选取不感兴趣的主题控制浏览过程。
对于可以通过主题分类的文件,那种基于关键词的文件组织、存储和获取技术并不理想或令人满意。仅仅用主题词组代替关键词的搜索引擎,并不能为不断增加的信息量提供所需的搜索和存储上的改进。传统的方式是建立越来越大的引擎和对应与网上每个文件的索引数据库,这种索引是基于单词或词组在文件中出现的频率,这种方法对于组织和获取基于主题的文件可能完全不可行。主题决定技术的一个不加选择的应用,举例来说,也许仅仅是建立一个甚至更大的词汇集,用户必须使用这些词汇来筛选相关文件,其固有的危险是用户可能选择不同与文件索引中的词或词组。因为大多数文件包含多个主题,额外主题信息加进已有索引实质上也将增加存放这些信息的数据库的大小。
发明内容
本发明的一个目的是提供一种信息组织和获取系统,以有效组织文件从而基于主题内容快速和高效的查找、获取。本发明进一步的目的是提供一种可以增强的信息组织和获取系统。本发明另一个目的是提供一种支持上下文敏感搜索和获取技术的信息组织和获取系统。本发明还有一个目的,即提供这样一种信息组织和获取系统,它允许用户使用不同于用来组织这些信息的单词。
这些目标即其他目标的达到,是通过提供一种信息组织和获取系统,该系统优化为仅获取那些与给定的一组主题相关的文件。本发明提供了一种方法和设备,通过协作式主题信息服务器网络,完成文件的自动预筛选和路径选择。信息服务器用来根据所选主题组组织和获取文件。所选的该组主题组织成具有多个重叠的分层结构,和一个分布式软件结构用来支持基于主题的信息组织、路径选择和获取服务。文件被自动预筛选以确定它们是否与所选主题组相关,只有相关的文件才被确认以供以后的获取。文件可能和一个或多个主题相关,它通过由信息服务器支持的主题分层结构与每个主题联系在一起。
在一个优选实施方案中,通过提供一种支持使用基于用户正在其中查找的上下文而增加查找准则的预定义或用户定义视图从而增强获取处理的方法和设备。
本发明中的组织和获取处理也通过使用内部一致的主题词汇而得到增强。文件作者或搜索文件的用户使用的用语和词组,都被翻译成通用的内部词汇,因此在允许单词和词组的多种选择的同时,提供了增强了的组织和搜索能力。
附图说明
以下以举例的方式参考附图详细说明本发明,其中:
图1示出根据本发明的一种信息处理系统的示例性方块图。
图2示出在根据本发明的一种信息处理系统中,文件和多个主题节点的联系的示例。
图3是通过根据本发明的一种信息处理系统来组织、搜索和获取文件的流程图示例。
具体实施方式
根据本发明,文件是通过主题分类和组织的。单独的服务器的网络用来识别和获取文件。通过设计,每个服务器负责一个主题或多个主题的独立的选定组。主题由服务网络的提供者选择,例如,基于预计的用户对特定主题范围的请求。当每个新的主题被确认需要加入,把它加在一个已有的服务器上,或者加入另外一个新增加的服务器上。这样,主题的范围就控制住了,并且通过增加网络上的服务器仍然保持其可扩展性。如果某个文件不具有网络主题所包含的主题,它将被排除在提供的服务之外。相似的,如果某个文件包含所提供服务特地禁止的主题,它也被排除在外。在这个模型中,提供者有目的性的限制了所提供搜索和获取的范围,但是这样做也提供了一种针对预期用户请求的更有效的服务。随着请求的增加,提供额外的主题和服务器,因此允许了所提供服务扩展。
图1描述了根据本发明的信息处理系统一个例子。信息处理系统100包括主题服务器110,120,130,140组成的网络。方便起见,把主题服务器网称作一个联合100。每个主题服务器负责所述的一组主题,这个联合中服务器主题组的集合称作联合主题。确认和某个主题相关的文件与包含该主题的主题服务器中的主题相关。通过提供一个服务器网络,每个服务器负责所选的一组主题,与组织和搜索文件有关的工作量分配给服务器。
在一个优选实施方案中,进一步分配工作量,某个服务器还负责指定的客户机和指定的文件源。如图1所示,主题服务器110具有指定的客户机111、112,和指定的文件源116、117。指定的客户机111、112比如说是万维网浏览器,用户用它与系统100相交互。文件源116、117比如说是因特网上的存储设施。为了理解方便,文件一词这里指一段信息,比如一页或多页文本,也可能是其它形式的信息,例如视频和音频片断,图形,图画,计算机程序和其它。
和传统的搜索引擎一致的是,主题服务器110,周期性地发送网络爬行器给文件源116、117,收集新的或更新的文件。服务器110扫描爬行器发现的文件,确定每个文件的主题。和传统搜索引擎不同的是,只有文件的一个或多个主题包含在联合主题中,服务系统100才选择该文件以供识别。如下文所述,可以用自动装置来确定主题,比如使用语义处理,试探学,基于知识的系统,机器学习,和其它类似的装置。还可以通过附加在文件后的信息确定主题。例如视频“文件”可能具有相关的摘要,音频文件可以根据风格或作者存储在文件源116、117中,如此等等。用相似的方法,可以把手工确定的主题结果和文件存在一起,然后服务器110具此确定文件的主题为系统100所用。正如如下所述,这样一个问题对本领域的技术人员是显然的,因为可能的主题事先定义好,相比与盲目的寻找定位文件的所有可能主题,决定某个文件与某一个主题相关的能力提高了。服务器110和联合中包含有一个或多个联合主题服务器120、130、140交换与文件相关的标识符和文件主题。同样对于本领域的技术人员显然的是,存储与联合主题的预确定主题组相关的文件标识符可望比在传统搜索引擎这存储如前所述通常的关键词索引或类似内容消耗少得多的资源。
通过把文件和其所包含的联合主题中的每一个主题连系在一起形成文件库。每个服务器根据服务器覆盖的主题,通过文件标识符组织文件。在一个优选实施方案中,主题组织成树节点,往树根方向的节点具有越来越一般性的概念,往树叶方向的节点具有越来越具体的概念。一个所选文件和一个或多个主题节点,每个节点指向零个或多个文件。图2所示为服务器110中的一棵树210和服务器120中的一棵树220的结构示例。树210是对应于艺术的一棵分级树,树220是对应于工程的一棵分级树。如图所示一般性主题艺术21,具有更具体的枝节点文艺复兴时期211和现代212。和传统树术语一致的是,分支文艺复兴211和现代212的全名是艺术。文艺复兴时期211和艺术.现代212。艺术.文艺复兴时期节点211包含分支艺术文艺复兴时期.油画2111,艺术。文艺复兴时期。绘画2112,艺术.文艺复兴时期。雕刻2113,和艺术.文艺复兴时期.表演2114。同样,工程节点22包括分支工程。电子221和工程.航空222。工程.航空节点222包括分支工程.航空.固定机翼2221和工程.航空.旋转机翼2222。
在图2的例子里,服务器110的爬行器已经在文件源116中找到了文件201。比如文件201包含的信息与达芬奇的素描画直升飞机和油画蒙娜丽莎有关。依据文件201的内容,服务器110从文件201中提取出主题,其中包括艺术.文艺复兴时期(和达芬奇相关),艺术.文艺复兴时期.油画(和蒙娜丽莎相关),艺文.艺复兴时期.素描(和直升飞机相关)以及工程.航空.旋转机翼(也是和直升飞机相关)。请注意,由于主题是预先定义的,服务器110可以经过组织从而优化主题提取过程。例如,每个主题有一组相关的关键词和词组,一种传统的加权和阈值处理是根据关键词和词组在文件中出现的频率,可以据此确定一个文件是否与某个主题相关。在一个优选实施方案中,传统的技术通过基于词组在文件特定位置的启发式方法得到提高,比如标题,或词组的字体(粗体、斜体等),单词和词组存在于元标记里,等等。使用预先定义的主题也为改进了的组织技术的使用提供了便利。比如,在一个优选实施方案里,采用了机器学习技术来增强服务器确定文件主题的能力。典型地,决定一个给定主题是否包含在文件里是依据许多独立的和非独立的决策。在一个训练模式下,根据确定每个主题的正确性,主题提取器得到一些反馈。反馈用来调整主题提取器以后的确认,比如使用基于每个确定的正确性调整与每个确定元素相关的相似因子的贝利斯网络。正确的确认增大与每个决策元素相关的相似性因子,而错误的确认则减小因子。同样,机器学习技术可以用来依据可见的文件主题聚类和其它一些因素建立或修改主题的分层组织结构。这些及其它一些文件组织分类技术,比如基于认知的系统,机器学习,模糊逻辑,及与此类似的技术在已有技术中是很常见的。
在一个优选实施方案里,服务器110找出爬行器找到的每个文件中的每一个联合主题。或者,因为可以优化使每个服务器提取其所负责的每个主题,如此联合100可以组织成每个爬行器找到的每个文件由某个服务器独立处理。在图2的最佳实施例的例子里,服务器110把文件201的一个标识符传给服务器120,告诉它文件201含有工程.航空.旋转机翼这一主题。文件201的标识符可以是,比如文件201的网络地址,或者其它可以唯一定位文件201的标识。根据本发明,文件201和树210及220的211,2111,2112和2222分支连系在一起,比如通过把文件201的标识符加进每个节点的相关文件表中。
图2显示的是一个传统的树结构。这方面,常见的其它数据组织结构也是可行的。在优选实施方案里,分层结构,比如树,是首选的,因为它允许了现有与人类组织信息方法适应的搜索技术。重叠的,和“缠结的”树结构被应用在优选实施方案里,使用户通过多种搜索途径到达某个给定节点。比如,一棵包含物理主题的树可能具有节点物理.飞行.直升飞机,它与前述工程.航空.旋转机翼是同一个主题。与此类似,优选实施方案中还具有姊妹节点间的联系,比如图2中,让文艺复兴时期的素描2111和油画联系在一起。
图3描述了对应本发明的一个信息处理系统流程图示例。该流程图显示了,例如,由服务器提供者提供的以实现基于主题内容的组织、查找和获取的信息的资源,和这些元件之间数据的传输。在优选实施方案里,为了方便,每个服务器都具有图3中任一个功能块,尽管这些功能块可以分布在联合中。主题提取模块310提取出文件301的主题词语和词组。主题提取模块310和文件选择分类模块320一起完成这项工作,如前所述,在使用预先定义主题的基础上,分类模块320增强了提取过程。而词语映射服务模块340,通过执行比如把提取出的词语和词组翻译成联合中所用的词和词组一类的操作,协作这一过程。举例来说,“直升飞机”一词转化成“旋转翼飞行器”,方便确定包含主题“直升飞机”的文件是否和表达为“旋转翼飞行器”的主题相关,而不是“直升飞机”。因为使用了选择的主题,同义词和词组的正确辨认相比于独立主题的翻译实际上可以得到改进。
如果主题提取模块310可以找到文件301中的一个联合主题,文件301将被文件选择分类模块320选中并分类,文件的标识和主题被送往文件路径选择模块330。文件路径选择模块330把这些信息送往数据库335,因为所找到的文件主题属于该联合。数据库335包含图2讨论过的基于主题的数据。在优选实施方案里,数据库335根据和每个服务器相连的主题分布在联合中。同样如上所述,在优选实施方案里,每个服务器包含图3所示模块。为了便于参考,“客户-服务器”一词,用来指包含一个给定模块的服务器。文件路径选择模块330直接更新数据库335与它的客户-服务器相关的每个主题,并把文件的标识和主题送给其它含有该文件主题的服务器里的路径选择模块。那些其它的文件路径选择模块更新数据库335的相应客户-服务器主题。相应地,文件路径选择模块330应设定成可以从其它服务器接收文件标识和主题,直接更新数据库335每个与它的服务器相关的主题。也就是,举例来说,如果文件路径选择模块330位于图2的服务器120中,该文件路径选择模块330为更新与服务器120相关的数据库,与工程22相关的所有文件标识,当文件主题包含艺术21时,它会把文件标识和主题送往服务器110上的文件路径选择模块。同样,当服务器110上的文件路径选择模块发现其找到的文件包含主题工程22,它会把文件的标识和主题送往服务器120上的文件路径选择模块。
图3示出了一个任选的外部联合模块360和一个任选的代理服务模块370,它们实现信息处理系统内部的多个联合的结合。在优选实施方案里,多个联合用来提供每个联合内的一定专门化程度。相关的主题放在一个联合里,而不相关主题放在不同的联合里。这样,在联合的特殊领域内,每个联合可以根据用户的反馈进行控制和扩展,以提供高效的获取。多个联合代理服务也用来访问其它提供者的资源,从而使得服务提供者为用户提供更广泛的主题,而无需服务提供者为如此广泛的主题分类所有的文件。代理服务模块370调节其本机联合资源的访问程度。比如,在同一个提供者的各个联合间,当文件主题包含一个或多个别的联合的主题时,文件标识和主题将从一个联合转发至另一个联合。在不同的提供者的联合之间,代理服务模块370会允许搜索别的联合和获取文件,但可能禁止本机联合的文件选择分类模块320确认得文件标识和主题送往别的联合。
在优选实施方案里,多个联合结构中的每个联合的一个服务器被用作代理服务器,用于与其它联合的对应代理服务器接口。代理服务器总结与本联合相关的信息,使用代理服务模块370把这些信息适当地送往其它联合,并且从其它联合各自的代理服务器接收相关信息。代理服务模块370还影响词语映射服务模块340和文件选择分类模块320的更新处理,从而实现确认和选择文件301中外部联合主题。如果发现文件301含有外部联合主题,文件路径选择模块330把文件标识和主题送往外部联合主题/视图服务模块360。如果得到代理服务模块370的同意,如上所述,外部联合主题/视图服务模块360把文件标识和主题提供给每个包含一个或多个该文件主题的外部联合。
管理服务模块380,提供管理信息处理系统的服务,包括主题的建立和修改,服务器的增加和去除,代理服务区的建立,和其它类似的服务。
图3还介绍了文件搜索和获取得流程示例。一个用户通过客户设备305与该系统交互。查询/结果服务模块390处理用户请求以确定搜索主题。对于文件选择分割模块320的处理,词语映射服务模块340把用户的查询转换和增加为信息处理系统所使用的术语,从而帮助查询处理。由于使用预先定义的主题,在优选实施方案里的查询/结果服务模块390,可以通过把查询词汇处理成与联合主题及主题层次结构相一致,从而优化搜索主题的确定。
使用预先定义的主题和主题分层结构提供传统基于关键词的搜索引擎无法实现的优点。例如,在优选实施方案里,通过让系统提出顺着主题分层结构调整查询词语的意见,引导用户完成查询词语的规范表述。以图2为例,当用户选择“艺术”作为查询时,提供树210的图形表述;之后,用户沿着树210不断前进,使用键盘,鼠标,或其它输入设备,比如语音识别系统。当用户到达树210的每个节点时,与该节点相关的文件介绍就显示出来,然后用户选择,获取一个和多个发现的文件或浏览其它与这一主题有联系但相关性较小的其它文件,或者继续搜索。在优选方案里,和子节点及姊妹节点相关的文件,也包含在认为与主题相关的文件集合里。由于在优选方案里,主题组织成分层结构,随着用户沿着分层结构走下去,相关文件的范围逐步缩小,从而提高了搜索的性能和效率。
请注意,以上的过程提供了传统关键词搜索引擎没有的附加优点。比如,分层结构的显示让用户深入了解系统内部文件是如何组织的,并让用户据此调整他和她的搜索方法。显示的内容还给了用户即使得反馈,告知用户的术语用于是否合适于系统的辨别。在优选实施方案里,词语映射服务模块340,允许用户增加与系统所用词语相关的词语或词组,从而允许个人化的搜索词汇。
根据本发明的一个方面,查询/结果服务模块390,通过将查询公式化为上下文敏感查询或视图而提高了用户查询的质量。比如,用户查询的上下文可能依据用户是在家里或在办公室而不同。比如,如果用户在正常工作时间提交有关餐馆的查询,搜索过程可以侧重商业方面,如果在别的时间提交这种查询,搜索可以侧重家庭方面。在优选实施方案里,查询/结果模块390还依据特定用户的爱好,并利用用户的偏好使搜索结果个人化。与主题提取中一样,在优选实施方案里,使用机器学习和其它的技术,根据可见的用户行为提供更有效的搜索方式。这里引用这样的一个应用实例作为参考,由Chandra Dharap于1998年6月25日提交的“基于上下文和用户个性驱动的信息获取”,律师备案目录表PHA 23,422,序列号09/104,491,该申请使用一种方法和设备在用户访问数据库时,根据用户之前的查询增添查询条件。仍然使用餐馆的例子,如果用户提交有关餐馆的查询后,总是打开法国餐馆文件并且总是忽略快餐馆文件,查询/结果服务模块390会给包含法国餐馆的文件以更大的选择加权,而给包含烧烤食品主题的文件以更少的加权。这一申请还允许其它形式的搜索输入,比如一个形状和图案的画,代表一段音乐的曲调或节奏,等等。因为使用了本发明的预先定义的主题,所以这种任选形式可以根据每个主题而设。比如,负责电路主题的服务器可以做成接收电路图作为用户查询输入,然后处理该图以查找对应相似电路的成员主题。或者,用户可以指向电路中某个元件,而服务器提供列有此种设备零售商的文件。在这一方面,对于依据本发明的这些或其它一些具体应用对于本领域的技术人员是容易理解的。
在优选实施方案里,其它一些学习技术被用来为那些具有不同含义的查询确定适合的搜索路径。比如,词语“card”,可以指贺卡、扑克牌、信用卡,印刷电路板卡,怪人等。在优选实施方案里,查询/结果服务模块390根据所提供的用户个人信息或词语的通常用法为查询词选择某一个主题。如果,对于所选的主题,用户修改了查询词以查找单词“card”可能对应的其它主题中的一个,则查询/结果服务模块390将根据用户对“card”一词的新的用法侧重选择其它的主题。考虑本发明阐述的内容,这些及其它一些基于经验和预先定义主题的使用来改进用户查询词语的方法对于这方面的某个普通技术是来说是容易理解的。比如,对应于一个查询的多个可能主题可以显示给用户选择,用户可以选择让查询/结果服务模块390对于类似查询总是选择被选主题,或每次都显示多个主题来选择。
在优选实施方案里,和关键词搜索系统中多个关键词的使用相似,查询/结果服务模块390也允许用户同时使用多个查询词来改进搜索请求,还可以使用布尔符号和模糊逻辑术语来组合主题。比如,用户可以选择搜索与主题政府。美国和医学研究。实验性的。动物相关的文件,但是排除与主题大学.医学相关的文件。每个包含一个或多个所选主题的服务器,把与每个主题相关的文件引用,通过本地-联合-主题/视图-服务模块350送往查询/结果服务模块390,或者,外部联合主题/视图服务模块360。查询/结构服务模块390根据上述的用户偏好和上下文,过去的经验,组合逻辑用语等,来整理这些文件引用显示给用户。
请注意,根据预先定义的主题和分层结构来组织文件可以大大地节省搜索定位文件的时间和资源。通过根据主题组织文件,响应查询而显示给用户的与查询无关的文件数也大大减少。通过提供上下文敏感的用户查询,把查询转换成预先定义的主题和分层结构中使用的词汇,将为用户给出一个合适节点的速度提高了很多。通过基于机器学习技术,动态地调整主题提取过程和用户查询处理本发明的信息处理方案的效果和效率不断提高。
上述内容只是阐述了发明的原理。因此,本领域的技术人员可以理解可以设计出各种各样的装置,这些装置虽然没有在这里直接描述或显示,但包含了本发明的原理,所以也属于本分明的本质和范围。比如,词语映射服务模块340可以借助现有的和未来的语言处理技术得到改进,包括在多种语言间的翻译能力。图中显示的结构只是示例性的,其它类似的结构也属于本发明的本质和范围。比如,联合中的前述服务器,可以单独用来组织和获取文件,而别的设备用来和客户机打交道。对于本领域的技术人员,这种可选的功能性划分是容易做到的。

Claims (16)

1.一种信息处理系统(100),包括:
服务器(110),拥有一组相关的服务器主题(21,211,212),
主题提取器(310),被配置成从源文件(201,301)中提取文件主题(211),
文件选取器(320),与文件提取器(310)运行连接,被配置成依据文件主题(211)是否是服务器(110)的一组相关服务器主题(21,211,212)的成员主题(211)确定源文件(201,301)作为被选中文件,
文件路径选择器(330),与文件选取器(320)运行连接,使被选中文件与成员主题(211)相关联。
2.根据权利要求1所述的信息处理系统(100),其中,
服务器(110)是多个服务器(110,120)中的一个,多个服务器(110,120)的每个服务器拥有一组相关的服务器主题(21,211,212;22,221,2222),
主题提取器(310)被进一步配置成从源文件(201,301)中提取多个文件主题(211,2111,2112,2222),
文件选取器(320)进一步设定为确定包括多个文件主题(211,2111,2112,2222)的至少一个的多个文件服务器(110,120)的服务器主题(21,211,212;22,221,2222)的相关组的多个成员主题中每一个,
文件路径选择器(330)被进一步设定来将被选中文件与所说的多个成员主题的每一个主题相关联。
3.根据权利要求1所述的信息处理系统(100),其中,
主题提取器(310)包括一个词语映射装置(340),将源文件(201,301)中的词语转化便于文件主题(211)的提取。
4.根据权利要求1所述的信息处理系统(100),进一步包括:
查询服务设备(390),当搜索主题包括成员主题(211)时,它确定被选中文件作为找到文件,和
文件获取器(350),与查询服务设备(390)运行连接,它被配置成,当搜索主题包括成员主题(211)时,实现搜索文件的获取。
5.根据权利要求4所述的信息处理系统(100),其中,
查询服务设备(390)包括一个词语映射装置(340),依据用户询问和用户上下文确定搜索主题。
6.一种创建文件库(335)的方法,包括以下步骤:
定义多个主题(21,211,22,22),
创建数据结构(210,220),它具有多个节点,其中每一个节点分别与多个主题(21,211,22,221)的各一个主题相对应,
扫描文件(201)以查找包含在多个主题(21,211,22,221)里的成员主题(211),
将文件(201)与对应成员主题(211)的节点相关联。
7.根据权利要求6所述的方法,进一步包括以下步骤:
将带有多个主题(21,211,22,221)中相应的一组主题(21,211;22,221)分配给多个服务器(110,120)中相应的一个。
8.根据权利要求6所述的方法,进一步包括以下步骤
创建词语的转化映射(340),
和其中扫描文件查找成员主题的步骤中包括步骤:
基于词语转化映射(340)转化文件(201)
9.根据权利要求6所述的方法,其中,数据结构(210,220)是分层的数据结构。
10.根据权利要求6所述的方法,其中,扫描文件(201)查找成员主题(211)的步骤是依据至少一个另一文件的成员主题(211)的先前的确定。
11.一种实现文件(201)确定的方法,包括以下步骤:
实现用户查询的接收,
实现基于用户查询确定搜索主题,搜索主题是多个预先确定主题中的一个,
实现对应于搜索主题的数据结构(210,220)上的主题节点的确定,
实现基于文件(201)与主题节点之间的相关性确定文件(201)。
12.根据权利要求11所述的方法,其中,实现确定搜索主题的步骤包括
实现确定用户上下文的步骤,
其中搜索主题的确定进一步依据用户上下文。
13.根据权利要求12所述的方法,其中,实现确定搜索主题的步骤包括以下步骤,
依据词语映射实现用户查询的转化,从而实现搜索主题的确定。
14.根据权利要求12所述的方法,其中,
数据结构(210,220)是一种分层的结构,和
搜索主题的确定进一步依赖于这种分层结构。
15.根据权利要求12所述的方法,其中,
多个预先确定的主题分配给多个服务器(110,120),搜索主题与多个服务器(110,120)中的一个相联系,
主题节点的确定包括确定所说的多个服务器(110,120)中的一个。
16.根据权利要求12所述的方法,其中,搜索主题的确定依赖于至少一个先前另一个用户查询的搜索主题的确定。
CNB998054771A 1998-12-28 1999-12-15 具有自动预过滤和路径选择的协作式主题服务器 Expired - Fee Related CN1192320C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/221,951 1998-12-28
US09/221951 1998-12-28
US09/221,951 US6349307B1 (en) 1998-12-28 1998-12-28 Cooperative topical servers with automatic prefiltering and routing

Publications (2)

Publication Number Publication Date
CN1307704A CN1307704A (zh) 2001-08-08
CN1192320C true CN1192320C (zh) 2005-03-09

Family

ID=22830120

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998054771A Expired - Fee Related CN1192320C (zh) 1998-12-28 1999-12-15 具有自动预过滤和路径选择的协作式主题服务器

Country Status (5)

Country Link
US (1) US6349307B1 (zh)
EP (1) EP1057127A1 (zh)
JP (1) JP2003528359A (zh)
CN (1) CN1192320C (zh)
WO (1) WO2000039708A1 (zh)

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
JP2002528819A (ja) 1998-10-28 2002-09-03 バーティカルワン コーポレイション 自動集合の装置および方法、電子パーソナルインフォメーションあるいはデータを送達する装置および方法、ならびに電子パーソナルインフォメーションあるいはデータを含むトランザクション
US7085997B1 (en) 1998-12-08 2006-08-01 Yodlee.Com Network-based bookmark management and web-summary system
US7200804B1 (en) * 1998-12-08 2007-04-03 Yodlee.Com, Inc. Method and apparatus for providing automation to an internet navigation application
US8069407B1 (en) 1998-12-08 2011-11-29 Yodlee.Com, Inc. Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes
US6802042B2 (en) * 1999-06-01 2004-10-05 Yodlee.Com, Inc. Method and apparatus for providing calculated and solution-oriented personalized summary-reports to a user through a single user-interface
US7672879B1 (en) 1998-12-08 2010-03-02 Yodlee.Com, Inc. Interactive activity interface for managing personal data and performing transactions over a data packet network
US6513046B1 (en) 1999-12-15 2003-01-28 Tangis Corporation Storing and recalling information to augment human memories
US8181113B2 (en) * 1998-12-18 2012-05-15 Microsoft Corporation Mediating conflicts in computer users context data
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US8225214B2 (en) 1998-12-18 2012-07-17 Microsoft Corporation Supplying enhanced computer user's context data
US6920616B1 (en) 1998-12-18 2005-07-19 Tangis Corporation Interface for exchanging context data
US6791580B1 (en) * 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US9183306B2 (en) 1998-12-18 2015-11-10 Microsoft Technology Licensing, Llc Automated selection of appropriate information based on a computer user's context
US7225229B1 (en) 1998-12-18 2007-05-29 Tangis Corporation Automated pushing of computer user's context data to clients
US7779015B2 (en) 1998-12-18 2010-08-17 Microsoft Corporation Logging and analyzing context attributes
US7231439B1 (en) 2000-04-02 2007-06-12 Tangis Corporation Dynamically swapping modules for determining a computer user's context
US6801223B1 (en) 1998-12-18 2004-10-05 Tangis Corporation Managing interactions between computer users' context models
US7046263B1 (en) 1998-12-18 2006-05-16 Tangis Corporation Requesting computer user's context data
US9268748B2 (en) 1999-05-21 2016-02-23 E-Numerate Solutions, Inc. System, method, and computer program product for outputting markup language documents
US9262383B2 (en) 1999-05-21 2016-02-16 E-Numerate Solutions, Inc. System, method, and computer program product for processing a markup document
US6920608B1 (en) 1999-05-21 2005-07-19 E Numerate Solutions, Inc. Chart view for reusable data markup language
US9262384B2 (en) 1999-05-21 2016-02-16 E-Numerate Solutions, Inc. Markup language system, method, and computer program product
US7249328B1 (en) 1999-05-21 2007-07-24 E-Numerate Solutions, Inc. Tree view for reusable data markup language
US7421648B1 (en) 1999-05-21 2008-09-02 E-Numerate Solutions, Inc. Reusable data markup language
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US20040078423A1 (en) * 2002-03-22 2004-04-22 Ramakrishna Satyavolu Method and apparatus for controlled establishment of a turnkey system providing a centralized data aggregation and summary capability to third party entities
US7752535B2 (en) 1999-06-01 2010-07-06 Yodlec.com, Inc. Categorization of summarized information
US9977831B1 (en) 1999-08-16 2018-05-22 Dise Technologies, Llc Targeting users' interests with a dynamic index and search engine server
US7613992B1 (en) * 1999-08-16 2009-11-03 Raichur Arvind A Dynamic index and search engine server
US8504554B2 (en) * 1999-08-16 2013-08-06 Raichur Revocable Trust, Arvind A. and Becky D. Raichur Dynamic index and search engine server
US9195756B1 (en) 1999-08-16 2015-11-24 Dise Technologies, Llc Building a master topical index of information
US7020717B1 (en) * 1999-09-29 2006-03-28 Harris-Exigent, Inc. System and method for resynchronizing interprocess communications connection between consumer and publisher applications by using a shared state memory among message topic server and message routers
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6823332B2 (en) * 1999-12-23 2004-11-23 Larry L Russell Information storage and retrieval device
US20070260974A1 (en) * 1999-12-27 2007-11-08 Hauser Carl H System and method for assigning a disposition to a document through information flow knowledge
US8019757B2 (en) * 2000-01-14 2011-09-13 Thinkstream, Inc. Distributed globally accessible information network implemented to maintain universal accessibility
ES2329008T3 (es) * 2000-01-14 2009-11-20 Thinkstream, Inc. Red de informacion dsitribuida accessible de forma global.
US6571240B1 (en) * 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
AU2001241564A1 (en) * 2000-02-17 2001-08-27 E-Numerate Solutions, Inc. Rdl search engine
US7085766B2 (en) * 2000-03-09 2006-08-01 The Web Access, Inc. Method and apparatus for organizing data by overlaying a searchable database with a directory tree structure
WO2001075676A2 (en) * 2000-04-02 2001-10-11 Tangis Corporation Soliciting information based on a computer user's context
US7464153B1 (en) * 2000-04-02 2008-12-09 Microsoft Corporation Generating and supplying user context data
GB2361329A (en) * 2000-04-12 2001-10-17 Gordon Ross Delivery of information and transaction content across differentiated media channels in a managed and co-ordinated manner
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US7379963B1 (en) * 2000-07-14 2008-05-27 Knownow-Delaware Delivery of any type of information to anyone anytime anywhere
US20020054130A1 (en) * 2000-10-16 2002-05-09 Abbott Kenneth H. Dynamically displaying current status of tasks
US20030014414A1 (en) * 2000-12-07 2003-01-16 Newman Bruce D. Personcast - customized end-user briefing
US6594670B1 (en) 2000-12-22 2003-07-15 Mathias Genser System and method for organizing search criteria match results
US9600842B2 (en) * 2001-01-24 2017-03-21 E-Numerate Solutions, Inc. RDX enhancement of system and method for implementing reusable data markup language (RDL)
US20020133535A1 (en) * 2001-03-14 2002-09-19 Microsoft Corporation Identity-centric data access
US7539747B2 (en) * 2001-03-14 2009-05-26 Microsoft Corporation Schema-based context service
US7284271B2 (en) 2001-03-14 2007-10-16 Microsoft Corporation Authorizing a requesting entity to operate upon data structures
US7302634B2 (en) * 2001-03-14 2007-11-27 Microsoft Corporation Schema-based services for identity-based data access
US7024662B2 (en) * 2001-03-14 2006-04-04 Microsoft Corporation Executing dynamically assigned functions while providing services
US6895083B1 (en) * 2001-05-02 2005-05-17 Verizon Corporate Services Group Inc. System and method for maximum benefit routing
US6558400B2 (en) 2001-05-30 2003-05-06 Satiety, Inc. Obesity treatment tools and methods
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6826572B2 (en) * 2001-11-13 2004-11-30 Overture Services, Inc. System and method allowing advertisers to manage search listings in a pay for placement search system using grouping
US7287064B1 (en) * 2001-11-20 2007-10-23 Sprint Spectrum L.P. Method and system for determining an internet user's interest level
US10255362B2 (en) * 2001-11-28 2019-04-09 Benjamin Rodefer Method for performing a search, and computer program product and user interface for same
US20030128236A1 (en) * 2002-01-10 2003-07-10 Chen Meng Chang Method and system for a self-adaptive personal view agent
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US7949648B2 (en) * 2002-02-26 2011-05-24 Soren Alain Mortensen Compiling and accessing subject-specific information from a computer network
US8166185B2 (en) * 2002-03-05 2012-04-24 Hewlett-Packard Development Company, L.P. System and method for enterprise software distribution
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7693830B2 (en) * 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US20030225722A1 (en) * 2002-05-30 2003-12-04 International Business Machines Corporation Method and apparatus for providing multiple views of virtual documents
US9886309B2 (en) 2002-06-28 2018-02-06 Microsoft Technology Licensing, Llc Identity-based distributed computing for device resources
US8335779B2 (en) * 2002-08-16 2012-12-18 Gamroe Applications, Llc Method and apparatus for gathering, categorizing and parameterizing data
US7214233B2 (en) 2002-08-30 2007-05-08 Satiety, Inc. Methods and devices for maintaining a space occupying device in a relatively fixed location within a stomach
EP1411443A1 (en) * 2002-10-18 2004-04-21 Hewlett Packard Company, a Delaware Corporation Context filter
US7220237B2 (en) 2002-10-23 2007-05-22 Satiety, Inc. Method and device for use in endoscopic organ procedures
US20050171948A1 (en) * 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US7315982B2 (en) * 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
US7175638B2 (en) 2003-04-16 2007-02-13 Satiety, Inc. Method and devices for modifying the function of a body organ
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US9525566B2 (en) * 2003-07-31 2016-12-20 Cloudsoft Corporation Limited Self-managed mediated information flow
WO2005026987A1 (en) * 2003-09-12 2005-03-24 Koninklijke Philips Electronics N.V. Database creation by searching the web for enumerations
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US7165119B2 (en) * 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
US7640232B2 (en) 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
US20050177176A1 (en) 2004-02-05 2005-08-11 Craig Gerbi Single-fold system for tissue approximation and fixation
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
CA2556228C (en) 2004-02-13 2014-05-13 Satiety, Inc. Methods for reducing hollow organ volume
US8449560B2 (en) 2004-03-09 2013-05-28 Satiety, Inc. Devices and methods for placement of partitions within a hollow body organ
EP1747548A4 (en) 2004-05-17 2009-08-05 Visible Path Corp SYSTEM AND PROCEDURE FOR ENFORCING PRIVACY IN SOCIAL NETWORKS
US7565630B1 (en) 2004-06-15 2009-07-21 Google Inc. Customization of search results for search queries received from third party sites
US7877266B2 (en) * 2004-07-28 2011-01-25 Dun & Bradstreet, Inc. System and method for using social networks to facilitate business processes
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
US7404151B2 (en) * 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7356777B2 (en) * 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US20060179051A1 (en) * 2005-02-09 2006-08-10 Battelle Memorial Institute Methods and apparatus for steering the analyses of collections of documents
US20060218140A1 (en) * 2005-02-09 2006-09-28 Battelle Memorial Institute Method and apparatus for labeling in steered visual analysis of collections of documents
US7480669B2 (en) 2005-02-15 2009-01-20 Infomato Crosslink data structure, crosslink database, and system and method of organizing and retrieving information
TW200636511A (en) * 2005-02-15 2006-10-16 Infomato Crosslink data structure, crosslink database, and system and method of organizing and retrieving information
US20060195461A1 (en) * 2005-02-15 2006-08-31 Infomato Method of operating crosslink data structure, crosslink database, and system and method of organizing and retrieving information
US7636887B1 (en) * 2005-03-04 2009-12-22 The Mathworks, Inc. Adaptive document-based online help system
US20060212443A1 (en) * 2005-03-18 2006-09-21 Oyarce Guillermo A Contextual interactive support system
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US7765212B2 (en) * 2005-12-29 2010-07-27 Microsoft Corporation Automatic organization of documents through email clustering
US7925649B2 (en) * 2005-12-30 2011-04-12 Google Inc. Method, system, and graphical user interface for alerting a computer user to new results for a prior search
US9443022B2 (en) 2006-06-05 2016-09-13 Google Inc. Method, system, and graphical user interface for providing personalized recommendations of popular search queries
JP4972358B2 (ja) * 2006-07-19 2012-07-11 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
US9323867B2 (en) * 2006-08-03 2016-04-26 Microsoft Technology Licensing, Llc Search tool using multiple different search engine types across different data sets
US7606752B2 (en) 2006-09-07 2009-10-20 Yodlee Inc. Host exchange in bill paying services
US20080201434A1 (en) * 2007-02-16 2008-08-21 Microsoft Corporation Context-Sensitive Searches and Functionality for Instant Messaging Applications
US8949214B1 (en) 2007-04-24 2015-02-03 Wal-Mart Stores, Inc. Mashup platform
US20080270375A1 (en) * 2007-04-27 2008-10-30 France Telecom Local news search engine
US20080313117A1 (en) * 2007-06-12 2008-12-18 Brian Galvin Methods and Systems for Creating a Behavioral WEB Graph
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US7877344B2 (en) * 2007-10-10 2011-01-25 Northern Light Group, Llc Method and apparatus for extracting meaning from documents using a meaning taxonomy comprising syntactic structures
US8261334B2 (en) 2008-04-25 2012-09-04 Yodlee Inc. System for performing web authentication of a user by proxy
US8555359B2 (en) * 2009-02-26 2013-10-08 Yodlee, Inc. System and methods for automatically accessing a web site on behalf of a client
US8713018B2 (en) 2009-07-28 2014-04-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion
US8612446B2 (en) * 2009-08-24 2013-12-17 Fti Consulting, Inc. System and method for generating a reference set for use during document review
US9323426B2 (en) 2009-10-05 2016-04-26 Google Inc. System and method for selecting information for display based on past user interactions
US8356045B2 (en) * 2009-12-09 2013-01-15 International Business Machines Corporation Method to identify common structures in formatted text documents
US8463790B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event naming
US8805840B1 (en) 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
CN102737057B (zh) 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
US9436726B2 (en) 2011-06-23 2016-09-06 BCM International Regulatory Analytics LLC System, method and computer program product for a behavioral database providing quantitative analysis of cross border policy process and related search capabilities
US8458192B1 (en) 2012-01-31 2013-06-04 Google Inc. System and method for determining topic interest
US8458194B1 (en) 2012-01-31 2013-06-04 Google Inc. System and method for content-based document organization and filing
US8458197B1 (en) 2012-01-31 2013-06-04 Google Inc. System and method for determining similar topics
US8756236B1 (en) 2012-01-31 2014-06-17 Google Inc. System and method for indexing documents
US8458193B1 (en) 2012-01-31 2013-06-04 Google Inc. System and method for determining active topics
US8886648B1 (en) 2012-01-31 2014-11-11 Google Inc. System and method for computation of document similarity
US8458196B1 (en) 2012-01-31 2013-06-04 Google Inc. System and method for determining topic authority
US8458195B1 (en) 2012-01-31 2013-06-04 Google Inc. System and method for determining similar users
US8977613B1 (en) 2012-06-12 2015-03-10 Firstrain, Inc. Generation of recurring searches
US9135345B1 (en) * 2012-12-14 2015-09-15 Google Inc. Generating and updating online content using standardized tagged data
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US20140279821A1 (en) * 2013-03-15 2014-09-18 Xperscore, Inc. System and method for tracking knowledge and expertise
US10073837B2 (en) 2014-07-31 2018-09-11 Oracle International Corporation Method and system for implementing alerts in semantic analysis technology
US9607043B2 (en) * 2014-08-28 2017-03-28 Red Hat, Inc. Peak data federation multizone splitting
US9575961B2 (en) 2014-08-28 2017-02-21 Northern Light Group, Llc Systems and methods for analyzing document coverage
US10755294B1 (en) 2015-04-28 2020-08-25 Intuit Inc. Method and system for increasing use of mobile devices to provide answer content in a question and answer based customer support system
US10475044B1 (en) 2015-07-29 2019-11-12 Intuit Inc. Method and system for question prioritization based on analysis of the question content and predicted asker engagement before answer content is generated
US11544306B2 (en) 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
US11886477B2 (en) 2015-09-22 2024-01-30 Northern Light Group, Llc System and method for quote-based search summaries
US11226946B2 (en) 2016-04-13 2022-01-18 Northern Light Group, Llc Systems and methods for automatically determining a performance index
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
US10733677B2 (en) 2016-10-18 2020-08-04 Intuit Inc. Method and system for providing domain-specific and dynamic type ahead suggestions for search query terms with a customer self-service system for a tax return preparation system
US10552843B1 (en) 2016-12-05 2020-02-04 Intuit Inc. Method and system for improving search results by recency boosting customer support content for a customer self-help system associated with one or more financial management systems
US10748157B1 (en) 2017-01-12 2020-08-18 Intuit Inc. Method and system for determining levels of search sophistication for users of a customer self-help system to personalize a content search user experience provided to the users and to increase a likelihood of user satisfaction with the search experience
US10922367B2 (en) 2017-07-14 2021-02-16 Intuit Inc. Method and system for providing real time search preview personalization in data management systems
US11093951B1 (en) 2017-09-25 2021-08-17 Intuit Inc. System and method for responding to search queries using customer self-help systems associated with a plurality of data management systems
US10467640B2 (en) * 2017-11-29 2019-11-05 Qualtrics, Llc Collecting and analyzing electronic survey responses including user-composed text
US11436642B1 (en) 2018-01-29 2022-09-06 Intuit Inc. Method and system for generating real-time personalized advertisements in data management self-help systems
US11269665B1 (en) * 2018-03-28 2022-03-08 Intuit Inc. Method and system for user experience personalization in data management systems using machine learning

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158985A (ja) * 1991-12-05 1993-06-25 Nec Corp 電子ファイリングシステムにおける登録文書選択方式
JP3441500B2 (ja) * 1993-05-17 2003-09-02 株式会社リコー 文書分類装置
JPH0785102A (ja) * 1993-09-20 1995-03-31 Hitachi Ltd 文書検索方法
JP3053153B2 (ja) * 1993-09-20 2000-06-19 株式会社日立製作所 文書管理システムのアプリケーション起動方法
US5659766A (en) * 1994-09-16 1997-08-19 Xerox Corporation Method and apparatus for inferring the topical content of a document based upon its lexical content without supervision
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JP3603392B2 (ja) * 1995-07-06 2004-12-22 株式会社日立製作所 文書分類支援方法および装置
JPH10222409A (ja) * 1997-01-31 1998-08-21 Mitsubishi Electric Corp 分散データ管理システム
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US5899995A (en) * 1997-06-30 1999-05-04 Intel Corporation Method and apparatus for automatically organizing information
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US5953718A (en) * 1997-11-12 1999-09-14 Oracle Corporation Research mode for a knowledge base search and retrieval system
US6067539A (en) * 1998-03-02 2000-05-23 Vigil, Inc. Intelligent information retrieval system
US6101503A (en) * 1998-03-02 2000-08-08 International Business Machines Corp. Active markup--a system and method for navigating through text collections

Also Published As

Publication number Publication date
JP2003528359A (ja) 2003-09-24
WO2000039708A1 (en) 2000-07-06
CN1307704A (zh) 2001-08-08
US6349307B1 (en) 2002-02-19
EP1057127A1 (en) 2000-12-06

Similar Documents

Publication Publication Date Title
CN1192320C (zh) 具有自动预过滤和路径选择的协作式主题服务器
US6321228B1 (en) Internet search system for retrieving selected results from a previous search
US7257577B2 (en) System, method and service for ranking search results using a modular scoring system
US7428533B2 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
Paliwal et al. Semantics-based automated service discovery
US7552109B2 (en) System, method, and service for collaborative focused crawling of documents on a network
US6772141B1 (en) Method and apparatus for organizing and using indexes utilizing a search decision table
US7062488B1 (en) Task/domain segmentation in applying feedback to command control
US6647381B1 (en) Method of defining and utilizing logical domains to partition and to reorganize physical domains
US20080263022A1 (en) System and method for searching and displaying text-based information contained within documents on a database
EP1627296A2 (en) Search engine supplemented with url's that provide access to the search results from predefined search queries
KR19980701598A (ko) 정보 액세스 방법 및 시스템(methods and/or systems for acessing informatiom)
JP2000276494A (ja) 個別化ナビゲーション・ツリー構築方法
WO2001016807A1 (en) An internet search system for tracking and ranking selected records from a previous search
WO2008117041A1 (en) Electronic document retrieval system
Kao et al. Entropy-based link analysis for mining web informative structures
Choi Knowledge Engineering the Web
JP3632354B2 (ja) 情報検索装置
ADCOCK et al. Modeling information to support value-adding: Edna online
Sabri New Approach Exploring Unclear Weighted Association Rules Using Weighted Support and Trust Framework by using Data Mining
Kando et al. Retrieval of web resources using a fusion of ontology-based and content-based retrieval with the RS vector space model on a portal for Japanese universities and academic institutes
Kushwaha et al. A Comparative study of Algorithms in SEO & approach for Optimizing the search engine results using Hybrid of Query Recommendation and Document clustering, Genetic algorithm
de Souza et al. Organizing information for the agribusiness sector: Embrapa’s Information Agency
JP4223756B2 (ja) 文書検索方法、文書検索プログラム及び文書検索システム
Eller et al. An Associative Repository for the Administration of Course Modules

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IPG ELECTRONICS 503 CO., LTD.

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD.

Effective date: 20090904

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090904

Address after: British Channel Islands

Patentee after: Koninkl Philips Electronics NV

Address before: Holland Ian Deho Finn

Patentee before: Koninklike Philips Electronics N. V.

ASS Succession or assignment of patent right

Owner name: KERUI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: IPG ELECTRONICS 503 LIMITED

Effective date: 20120524

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120524

Address after: Delaware

Patentee after: Corey Technology Solutions Ltd

Address before: British Channel Islands

Patentee before: Koninkl Philips Electronics NV

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050309

Termination date: 20131215