CN1539112A - 汇总与聚合以将文件就概念分类 - Google Patents

汇总与聚合以将文件就概念分类 Download PDF

Info

Publication number
CN1539112A
CN1539112A CNA028155602A CN02815560A CN1539112A CN 1539112 A CN1539112 A CN 1539112A CN A028155602 A CNA028155602 A CN A028155602A CN 02815560 A CN02815560 A CN 02815560A CN 1539112 A CN1539112 A CN 1539112A
Authority
CN
China
Prior art keywords
classification
search
file
user
present
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028155602A
Other languages
English (en)
Other versions
CN1288583C (zh
Inventor
���ס�W����
埃米·W·乔
J
迈克尔·J·丹克
J��Ƥ���ض�
朱莉·J·皮特尔扎克
L
拉里·L·普罗克特
爱德华·L·斯米尔查克
K
特里·K·图利斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1539112A publication Critical patent/CN1539112A/zh
Application granted granted Critical
Publication of CN1288583C publication Critical patent/CN1288583C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用来使用网络爬行器来搜索包含文件的数据库(100)的计算机网络的方法。在搜索之前,向所述网络爬行器提供概念性指导。本发明汇总来源内容(300),并且在汇总(304)上进行文本聚合(31)以产生分类(330)。使用基于所述概念性指导的种子进行所述文本聚合。然后,通过用户界面(510)向用户提供(34)所述分类以及查询输入,用来搜索所述分类,将所述用户引向所述分类的一个或更多个,以使所述用户被引向所述分类(以及到这些文件的链接),并且不向该用户提供所述文件本身。

Description

汇总与聚合以将文件就概念分类
技术领域
一般地,本发明有关于用来提供信息的系统与方法,更具体地说,有关于一种根据先前分类的数据资源将链接分类的改进的索引。
背景技术
设计本发明是为了处理电子商务策略与设计咨询员在为其外部客户开发电子商务策略时在收集供评定与分析的信息中所具有的问题。例如,可能有很大一部分的工作时间被消耗在收集数据上,而不是评定与分析数据上。
一般地,收据数据的过程在本质上一直十分特别;咨询员会仔细查看万维网、专门的研究报告、内部数据库,并且利用个人联系来收集与其需要有关的可靠信息。迄今还没有一种方法或通用工具来作为到达这些资源的单一进入点,也还没有对收集这些数据的高效率的最优方法的清楚理解。另外,也不清楚可以把什么信息(当被发现时)应用到“可交付物”(deliverable)的领域。“可交付物”为客户所要求的最终文件或产品。因此咨询员找到自己的收集信息的方法,并且使用自己最喜爱的搜索工具与自己的组织能力来帮助把信息传递给项目组。
因此,需要一种系统与方法,用来组织电子商务策略与设计咨询员可用的资源,从而减少这些咨询员花费在收集信息上的时间,也提供一种系统,用来提供当前资源的最新形式。下面所述的发明处理该问题,并且提供了一种新型系统与方法,用来减少花费在收集信息上的时间。
发明内容
本发明具有几个目标,包括向用户提供对重要数据启动关键速度的工具,提供为电子商务战略工作收集信息的标准方法/处理,提供到相关的、最近的可靠文件与适用于电子商务战略工作的数据的单一进入点,通过将搜索标准组织在标准企业方法与客户可交付物周围,为研究收集处理增加价值,支咨询员用智能软件对准其搜索过程,并且向咨询团队提供网络化空间,以维护让人感兴趣的文件直至这些文件适用于其分析。
根据一个实施例,本发明包括一种使用网络爬行器来搜索包含文件的数据库计算机网络的方法。在搜索之前,向所述网络爬行器提供概念性指导。本发明汇总来源内容,并且在汇总上进行文本聚合以产生分类。使用基于所述概念性指导的种子进行所述文本聚合。然后,本发明通过用户界面向用户提供所述分类以及查询输入,用来搜索所述分类,并且(响应于该查询输入)将所述用户引向所述分类的一个或更多个,以使所述用户被引向所述分类(以及到这些文件的链接),并且不向该用户提供所述文件本身。
替代提供所述文件,本发明超链接到所述文件。所述汇总基于与所述文件关联的可扩展标记语言。每一所述文件的链接可能出现在所述分类的至少两个类别中。本发明确定每个都对应于用户搜索的多个类别的交叉。这些交叉表示不同类别的发生,响应于所述用户搜索,这些类别分离地返回到单一文件的链接。所述概念性指导改进所述搜索与所述文本聚合,从而将所述分类引向特定结果。
在咨询员使用本发明(此处有时被称为“中心内容管理工具”、“HCMT”、或简称为“中心”)时还有其他好处,包括提供到当前若以个人身份购买还十分昂贵的专有研究资源的访问,紧密结合电子商务战略方法原则以清晰了解正在被研究内容以及需要获取哪些内容,提供数据的自动化分类表示以促进在搜索过程中的发现,而如果不如此将需要成千上万小时的认真阅读,并且最后存储到文件的链接而不是整个文件本身,从而使用户确信访问了原始来源而不是本系统管理员认为正确的最近信息。
这些优点构成了最大的好处,即通过本发明中所使用的技术,具体地围绕咨询员的工作方式组织并向用户呈现信息,大幅度降低了寻找高品质信息的时间。
附图说明
通过以下参照附图地对本发明优选实施例的详细描述可以更好地理解上面的以及其他的目的、方面以及优点,其中:
图1为本发明系统实施例的示意图;
图2是显示根据本发明实施例地处理信息的流程图;
图3为图2中所示的实施例的分解图;
图4为用于运行本发明的硬件实施例的示意图。
具体实施方式
本发明包括完整的内容收集、汇总、索引、分类、搜索、以及呈现应用。现有的搜索与检索系统包括关键词搜索应用,其一般被用于文本HTML(超文本标记语言)或者万维网搜索,其中使用在该文件内容中出现的关键词来检索该文件。另一种现有的应用为SQL(结构化查询语言),并且其一般用于数字数据库(诸如财务信息)--其中使用专门的语言来检索特定的数字数据。另一公知的应用被称为自然语言,并且其一般用于文本搜索,其中该系统分析该问题,以试图解释其意思,并且在此基础上检索有关文件。
战略性情报系统中心系统(Hub for Strategic Intelligence system)与上述系统的不同之处在于:该系统使用文本聚合(text clustering)来帮助咨询员生成商务驱动的数据分类,并且该系统呈现这些分类以支持命中列表的显示。
如图1所示,对于战略咨询员存在大量的内容来源100。例如,这些资源可能包括公开或私有数据库(有些是基于收费的)、公共或私有网络(诸如因特网或企业网络)。这些资源表现为多种技术格式,包括代理文件(proxydocument)110、Lotus Notes 120、存档和/或镜像站点130、以及因特网140。在优选实施例中,本发明提前做一些选择,以确保本发明所搜扒(crawl)的来源对该商务咨询员有关。例如,在该预选择阶段,本发明为咨询员(用户)提供了界面,以输入条件/类别,该咨询员知道这些条件/类别将与特定客户或客户组有关,从而帮助网络爬行器(crawler)的活动。对某些数据库可能需要取得许可证。
项200表示该工具使用中的收集阶段。此处,搜扒相关资源并将其转换到该文本聚合工具可以接受的格式。在优选实施例中,使用网络爬行器来搜索因特网来寻找咨询员可能感兴趣的文件。此类网络搜扒与随后的索引转换十分常见,例如,本发明可以使用Grand Central Station(GCS)(来自International Business Machines Corporation,Armonk,NY,USA),这个工具用来搜扒指定来源的站点或数据库(例如Lotus Notes)以从可用资源抽取文本。因此,项220表示可替换的内容交付,而项210表示GCS内容交付。基于文章文本,爬行器生成该这些文件的摘要(例如汇总)。本发明的一个重要方面是:其基于这些汇总生成分类,这要比只读取元标签(mega tag)要可靠的多。另外,本发明将每一文件中的段落与小节分别分类,以更彻底地分类每一文件。此过程更可靠是因为万维网开发人员可以把任何形式的信息放入元标签之中,即使这些信息与该文件内容无关。然后,来自所有内容来源的具有摘要的文本的组合或总体就可用于分类过程。
项300表示内容汇总、索引、以及分类过程。在内容汇总器310中汇总由网络爬行器如上所收集的摘要。更具体地说,内容汇总器提炼这些摘要,从而消除与内容无关的冗余的词/短语(例如副词、形容词、小品词等等)。然后经提炼的摘要(汇总)被导入分类(文本聚合)应用,诸如eClassifier 320(来自International Business Machines Corporation,Armonk,NY,USA),其使用数学算法来形成质心(centroid)、或者完美/理想概念,并且自动将所搜扒文件与这些质心相关联。这种关系被称为分类,咨询员就工作的实用性衡量这些分类。
本发明使咨询员能够控制该文本聚合应用。这使咨询员不仅能够观察确定了哪些类别,而且能够使用在过去电子商务战略工作中有用的额外的类别题目/主题,并且使用该文本聚合应用的功能来形成这些质心。由此,本发明不同于为聚合应用使用随机开始点(种子)的现有技术,并且这使本发明能够确定尽可能分离的一系列类别。咨询员的一个目标是通过在数据空间中选择远远分离的点,来生成明晰的分组,而这一目标通过本发明实现。本发明通过允许咨询员基于该咨询员认为有用的商务概念输入类别的开始点,以生成分类。具有类似词/概念的文件聚合在一起。换言之,本发明在适合于该咨询员及咨询兴趣的超平面上聚合文件。通过用户界面,本发明允许咨询员使用多种方法来达到最优聚合,从而生成有用的类别。这些包括允许咨询员一开始使用“关键词”作为生成初始分类的方法,并且使用训练文件子集来生成自然的咨询员驱动的分类,然后将这一分类扩展到更大的数据集合上,并且在文本聚合算法后调整分类。这一方法导致对同一数据集合具有多个同样有效的分类。
通过仔细构造开始种子位置,使用本发明的咨询员可以产生与现有方法相比的显著改进。开始点依赖于咨询员对待分类题目的了解。对于咨询员不熟悉的概念领域,可是使用自然分类以促进总体理解,随后基于客户的方法与咨询兴趣生成分类。对于本应用的目的,分类是该文本聚合程序组织数据的一种方法。“自然”分类来自于文本从随机开始点开始聚合,并且依赖于文件总体。“咨询员驱动”分类来自于咨询员引导的文本聚合。分类也可能是“自然”与“咨询员驱动”聚合的组合。对于本应用的目的,名词“内容”可以包括许多不同类型的文件,包括研究报告、新闻文章、分析报告、代理文件等等。
最后,如果本发明生成了不太相关的文件,则咨询员可以使用本发明手工将文章(以及对应的数据点)从聚合中移动。项400表示的万维网应用包括本发明430(战略性情报中心万维网应用)中的搜索引擎410、应用引擎420。该万维网应用采用分类过程的结果,并且通过项500中的万维网浏览器界面510将该结果呈现给咨询员。
由本发明产生的分类表示从不同视角的同一数据集合,并且这使咨询员能够通过使用本发明以“叠加”类别,迅速对准其需要的概念(例如观察这些不同视角的交叉)。本发明的重要特征在于:每一文件可以在不同的类别中出现。因为每一文章在每一分类中出现在至少一个类别中,索引文件可能在两个或更多的类别中出现,这突破了现有的聚合分析。例如,有关移动电话的文章可能在“无线”分类中出现在“接入设备”类别下。其他的类别可能是“基础设施”或“协议”。同一文章可能在“电子消费品”分类中出现在“移动电话”类别下。其他类别可能包括“立体声”或“MP3播放器”。同一文章可能在“消费者行为”分类中出现在“购买行为”类别下。其他类别可能包括“品牌忠诚度”或“引用的使用”。由此,本发明超越了通过将使用文本聚合所生成的分类交叉而交叉分类的概念。
本发明的该特征被称为“叠加分类”,或更准确地称为“叠加类别”。使用上面的例子,咨询员也许希望找到与喜爱其移动电话的消费者有关的文章。在现有搜索引擎上,这可是困难的搜索,因为实际上重要的是概念,而不是确切的词。在这种情况下,咨询员可以选择以下类别(其由上述发明的聚合过程所产生)“消费者行为:品牌忠诚度”以及“电子消费品:移动电话”。本发明的另一特征在于:其不返回整个文件(甚或整个文件汇总),而只返回与两个概念都有关的文章的超链接。因为这两个类别以不同方式看待同一文章的集合,所以它们的交叉将是非常有价值的。使用本发明,花费在应咨询员请求的搜索上的时间大体下降四分之三(75%)。
另外,用户界面向咨询员提供了每一分类中最常见的词的清单。通过显示由上述自动汇总过程所确定的相关概念集合,一个称为“探索分类”的用户界面区域520在搜索过程中帮助咨询员。
除文本界面之外,本发明还使用被称为“思路图”(mindmap)的特征来表示分类。这一面向视觉的界面将分类(而不是命中表)呈现为探索的方法。思路图显示了咨询员所输入的概念(或关键词)与本发明所生成的类别之间的关系的强度(例如,通过部位、颜色、亮度等等)。
项510表示用户界面,其在万维网浏览器上访问。本发明比较用户的关键词以查询本发明分类中的类别,并且返回最相关的类别。由此,本发明响应于查询,而呈现分类(而非命中表)。另外,类别或分类中的每一个都不包括从引用中复制的数据,而是只包含到该引用的超链接。本发明将用户从一个分类中的类别转移到另一分类中的最近的类别(数学地确定)上。
项600表示万维网OLAP(在线分析处理)服务器,其具有OLAP引擎620以及结构化数据610。存在许多标准方法来通过万维网访问数据。在这种情况下,本发明具有访问万维网OLAP引擎620以检索某些结构化的非文本数据610的万维网界面510的一般化表示。存在不包含任何文本的文件610,并且作为结果,这些文件不能放在其他文本文件的数据集合中。本发明通过以下解决这个问题:将代理文件格式化为XML(可扩展标记语言)衍生物(称为HubML),以帮助数据分类。
汇总为XML汇总。XML为开放标准,用来定义网页与商务到商务文件的数据元素。其使用与HTML类似的标签结构;然而,HTML定义如何显示元素,而XML定义这些元素依严格规则所包含的内容。HTML使用预定的标签,但XML允许由该页的开发人员定义标签。通过提供用来指定数据的公用方法,XML支持商务到商务的交易。本发明设置HubML,使用了包含在该XML中的元数据。因为HubML文件基于文本,所以其支持数字数据,并且使本发明可以分类并在结果中包括“不可搜扒”文件。另外,本发明使用调查问题(用来形成XML标签)以使咨询员能够在这些调查问题上搜索,如同在汇总上搜索一样。
每一HubML文件为手工生成,使用了来自多种来源的信息。在当前实施例中,这些手工创建的HubML(不同于爬行器所生成的文件)从描述“方块”(cube)的不同来源提取信息。方块与电子表格类似,但结构更复杂。伴随文件描述在该电子表格(方块)上有什么。由此,HubML伴随文件包含了大量信息,其有关该中心(在哪找到样式表);方块本身(在其被生成时的标题、摘要、文件名称、文件大小);调查(当收集数据时所使用的问题与文本,等等);以及该调查所覆盖的标题的概念。
这种“概念”可能是在搜索过程中得到的想法。例如,某人可能对特定标题“乘游轮”感兴趣,所以包含词“乘游轮”的HubML文件将是直接命中。本发明的重要特征在于:其不仅找到直接命中,而且还找到基于概念分类的附近命中。例如,某人可能对“旅行”感兴趣。旅行在该概念段中并没有被显示地列出,但因为乘游轮与旅行经常在同一文章中出现,所以使用上述的分类方案,这些概念将落入同一类别。由此,虽然特定的HubML文件之中不具有词“旅行”,但在“旅行”上搜索的咨询员很可能在其结果中发现该文件。
有各种服务提供访问数据源的门户,然而,这些服务要求付费或者限制到数据库的访问。在研究其他服务时,对此问题的大部分解决方案是通过以下实现的:将数据库编辑在一起,以提供(例如)“公司特定的”或“市场情报”信息。虽然在本发明中,门户方面被认为提供了到许多来源的单一的进入点,但在本发明的这一部分还有其他价值。更具体地说,本发明使咨询员能够按客户可交付物进行搜索。其例子如客户是消费产品公司,其对进入“无线空间”感兴趣。咨询员希望迅速进入情况。本发明的其他优点包括大幅降低的搜索时间、大幅降低的生成分类的时间、对题目的更全面的覆盖、以及通过在“接近”但不一定精确匹配关键词的文章中发现题目而引起的额外的想法生成与时间节省。
本发明也可以在其他环境中收益,包括公司战略监视、路标监视(signpostmonitoring)、公司内知识管理、电子学习环境、通用公共搜索引擎,以及任何使用聚合分析的数据。
开始点依赖于咨询员对待分类题目的了解。选择“好的”开始点涉及很高的技巧。
本发明简化并统一了使用网络技术以集成和利用网络爬行器与搜索引擎的功能的复杂过程。图2与3以流程图的形式示出本发明的主要处理点,并且从不同的角度示出了本发明,从而更清晰地展示本发明的其他特征。在图2中,本发明首先在项30收集信息,在31处理信息,在32将信息打包,在33分类信息,以及在项34部署该信息。下面参照图3更详细地描述这些功能。
如图3中所示,在收集功能30中,本发明通过以下方式从来源305(元数据)收集内容:从来源305获取文本,将其汇总304,并且将这些汇总超链接回原始来源位置。所指定的来源305可以是任意形式,诸如GCS Notes汇总301、GCS HTML汇总302、或者HCMT汇总303。
对于处理功能31,本发明使用文本聚合程序来执行所有必须的操作以产生搜索分类器所需要的所有数据集合组件。该处理包括按分类器的内容存储来组织数据,以指定文本、日期、存储等等的内容,并且指定事务数据、到来源位置的链接、以及内容的其他方面。由此,本发明执行XSL翻译313以及上面的“中心”处理311,从而产生数据集合组件312。
对于打包功能32,本发明以各种组合组织内容,以供不同应用中使用。打包321的处理为:采用分类器与中心两者的处理数据,以允许从同一收集与处理操作以不同格式交付来的内容的“混合与匹配”,从而产生战略性情报中心数据集合322。
在分类器操作33中,本发明依靠文本聚合应用321,使用了由咨询员所定制的种子(如上所述),以根据最终用户的需要组织内容,从而产生战略性情报中心分类330。如上所述,该分类由清楚客户需要的主题内容专家(咨询员)作出,从而为用户提供待搜索内容的清晰条理的展示。随着新内容被打包,现有的咨询意见被自动更新。最后,在“部署”操作34,所形成的分类341与所计算的关键词索引340在具有下拉式菜单与概念搜索路径的界面上被呈现给用户。
图4中描绘了用来实现本发明的代表性的硬件环境,该图示出了根据本发明的信息处理/计算机系统的典型硬件配置,具有至少一个处理器或中央处理单元(CPU)10。CPU10借助系统总线12连接到随机访问存储器(RAM)14、只读存储器(ROM)16、输入/输出(I/O)适配器18用来将外围设备(诸如磁盘单元11与磁带驱动器13)连接到总线12、用户接口适配器19用将来将键盘15、鼠标17、扬声器103、麦克风104和/或诸如触摸屏幕(未显示)的其他用户接口设备连接到总线12、通信适配器105用来将该信息处理系统连接到数据处理网络、以及显示适配器101用来将总线12连接到显示设备102。使用磁盘或磁带单元可读的程序存储设备来载入指令。
工业实用性
如上所述,本发明可以用于咨询行业,在收集与处理信息来为客户开发电子商务战略时具有优势。本发明提供到研究来源的访问,紧密结合电子商务战略方法原则以清晰了解正在被研究内容以及需要获取哪些内容,提供数据的自动化分类表示以促进在搜索过程中的发现,而如果不如此将需要成千上万小时的认真阅读,并且最后存储到文件的链接而不是整个文件本身,从而使用户确信访问了原始来源而不是本系统管理员认为正确的最近信息。这些优点构成了最大的好处,即通过本发明中所使用的技术,具体地围绕咨询员的工作方式组织并向用户呈现信息,大幅度降低了寻找高品质信息的时间。
虽然本发明就优选实施例进行了描述,但本领域的技术人员应该理解在权利要求的精神与范围之间的修改可以实现本发明。

Claims (8)

1.一种搜索数据库的方法,包括以下步骤:
使用网络爬行器,搜索(200)包含文件的数据库(100)的计算机网络,其中在所述搜索之前,向所述网络爬行器提供概念性指导,并且所述搜索产生搜索结果;
汇总(300)所述搜索结果以产生汇总(304);
在所述汇总上进行文本聚合(31)以产生分类(330),使用基于所述概念性指导的种子进行所述文本聚合;以及
通过用户界面(510)提供(34)所述分类以及用来搜索所述分类的查询输入。
2.如权利要求1所述的方法,进一步包括:替代提供所述文件,提供到所述文件的超链接。
3.如权利要求1所述的方法,其中所述汇总基于与所述文件关联的可扩展标记语言。
4.如权利要求1所述的方法,其中到每一所述文件的链接可能出现在所述分类的至少两个类别中。
5.如权利要求4所述的方法,进一步包括:确定对应于在所述查询输入中的用户搜索的多个类别的交叉。
6.如权利要求5所述的方法,其中所述交叉表示不同类别的发生,响应于所述用户搜索,这些类别分离地返回到单一文件的链接。
7.如权利要求1所述的方法,其中所述概念性指导改进所述搜索与所述文本聚合,从而将所述分类引向特定结果。
8.如前面权利要求任何一项所述的方法,进一步包括:响应于所述查询输入,将用户引向所述分类的一个或更多个,以使所述用户被引向所述分类而不是到所述文件。
CNB028155602A 2001-08-13 2002-08-13 汇总与聚合以将文件就概念分类 Expired - Fee Related CN1288583C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/928,743 US6609124B2 (en) 2001-08-13 2001-08-13 Hub for strategic intelligence
US09/928,743 2001-08-13

Publications (2)

Publication Number Publication Date
CN1539112A true CN1539112A (zh) 2004-10-20
CN1288583C CN1288583C (zh) 2006-12-06

Family

ID=25456674

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028155602A Expired - Fee Related CN1288583C (zh) 2001-08-13 2002-08-13 汇总与聚合以将文件就概念分类

Country Status (8)

Country Link
US (1) US6609124B2 (zh)
EP (1) EP1423801A4 (zh)
JP (1) JP2005500624A (zh)
KR (1) KR100601578B1 (zh)
CN (1) CN1288583C (zh)
CA (1) CA2451693A1 (zh)
IL (1) IL160072A0 (zh)
WO (1) WO2003017142A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100514323C (zh) * 2005-10-25 2009-07-15 国际商业机器公司 用于自动提取副标题信息的系统和方法
CN101340463B (zh) * 2008-08-22 2012-04-25 深圳市迅雷网络技术有限公司 一种确定网络资源类型的方法和装置
US8938451B2 (en) 2005-05-24 2015-01-20 International Business Machines Corporation Method, apparatus and system for linking documents
CN107103027A (zh) * 2005-10-04 2017-08-29 汤姆森路透社全球资源公司 用于识别相关法律文件的系统、方法、和软件

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2324856C (en) * 1999-11-15 2007-05-29 Lucent Technologies Inc. Method and apparatus for remote audiovisual signal recording
US7003517B1 (en) 2000-05-24 2006-02-21 Inetprofit, Inc. Web-based system and method for archiving and searching participant-based internet text sources for customer lead data
US7120629B1 (en) 2000-05-24 2006-10-10 Reachforce, Inc. Prospects harvester system for providing contact data about customers of product or service offered by business enterprise extracting text documents selected from newsgroups, discussion forums, mailing lists, querying such data to provide customers who confirm to business profile data
US7096220B1 (en) 2000-05-24 2006-08-22 Reachforce, Inc. Web-based customer prospects harvester system
US7082427B1 (en) 2000-05-24 2006-07-25 Reachforce, Inc. Text indexing system to index, query the archive database document by keyword data representing the content of the documents and by contact data associated with the participant who generated the document
US7330850B1 (en) 2000-10-04 2008-02-12 Reachforce, Inc. Text mining system for web-based business intelligence applied to web site server logs
US7043531B1 (en) 2000-10-04 2006-05-09 Inetprofit, Inc. Web-based customer lead generator system with pre-emptive profiling
US7155668B2 (en) * 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US20060248570A1 (en) * 2002-11-15 2006-11-02 Humanizing Technologies, Inc. Customized media presentation
US20060244768A1 (en) * 2002-11-15 2006-11-02 Humanizing Technologies, Inc. Enhanced personalized portal page
US7266559B2 (en) * 2002-12-05 2007-09-04 Microsoft Corporation Method and apparatus for adapting a search classifier based on user queries
US7523095B2 (en) * 2003-04-29 2009-04-21 International Business Machines Corporation System and method for generating refinement categories for a set of search results
US7392474B2 (en) 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US9047388B2 (en) * 2004-07-01 2015-06-02 Mindjet Llc System, method, and software application for displaying data from a web service in a visual map
US20090228447A1 (en) * 2004-07-01 2009-09-10 Creekbaum William J System, method, and solfware application for enabling a user to search an external domain within a visual mapping interface
US9038001B2 (en) * 2004-07-01 2015-05-19 Mindjet Llc System and method for graphically illustrating external data source information in the form of a visual hierarchy in an electronic workspace
US7409393B2 (en) * 2004-07-28 2008-08-05 Mybizintel Inc. Data gathering and distribution system
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US20070050445A1 (en) * 2005-08-31 2007-03-01 Hugh Hyndman Internet content analysis
KR100736768B1 (ko) 2005-11-07 2007-07-09 (주)윕스 데이터 분류체계 관리 방법
US20070143122A1 (en) * 2005-12-06 2007-06-21 Holloway Lane T Business method for correlating product reviews published on the world wide Web to provide an overall value assessment of the product being reviewed
KR100775852B1 (ko) 2006-01-18 2007-11-13 포스데이타 주식회사 응용 프로그램의 자원 검색 시스템 및 방법
US8103703B1 (en) 2006-06-29 2012-01-24 Mindjet Llc System and method for providing content-specific topics in a mind mapping system
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US20090077639A1 (en) * 2007-09-13 2009-03-19 James Williams System and method of processing an authoring assignment
US7877368B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information with support for add-on applications
US7877369B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information
US20090132953A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in local search system with vertical search results and an interactive map
US20090132505A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Transformation in a system and method for conducting a search
US20090132512A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Search system and method for conducting a local search
US7921108B2 (en) * 2007-11-16 2011-04-05 Iac Search & Media, Inc. User interface and method in a local search system with automatic expansion
US20090132513A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Correlation of data in a system and method for conducting a search
US20090132486A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in local search system with results that can be reproduced
US8090714B2 (en) * 2007-11-16 2012-01-03 Iac Search & Media, Inc. User interface and method in a local search system with location identification in a request
US20090132514A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. method and system for building text descriptions in a search database
US20090132927A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method for making additions to a map
US7809721B2 (en) * 2007-11-16 2010-10-05 Iac Search & Media, Inc. Ranking of objects using semantic and nonsemantic features in a system and method for conducting a search
US20090132929A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method for a boundary display on a map
US20090132572A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with profile page
US8732155B2 (en) 2007-11-16 2014-05-20 Iac Search & Media, Inc. Categorization in a system and method for conducting a search
US20090132484A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system having vertical context
US20090132573A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with search results restricted by drawn figure elements
US8145703B2 (en) * 2007-11-16 2012-03-27 Iac Search & Media, Inc. User interface and method in a local search system with related search results
US20090132646A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with static location markers
US20090132643A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Persistent local search interface and method
US20090132485A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system that calculates driving directions without losing search results
US20090157616A1 (en) * 2007-12-12 2009-06-18 Richard Barber System and method for enabling a user to search and retrieve individual topics in a visual mapping system
US20090157801A1 (en) * 2007-12-12 2009-06-18 Richard Barber System and method for integrating external system data in a visual mapping system
US8161396B2 (en) * 2007-12-20 2012-04-17 Mindjet Llc System and method for facilitating collaboration and communication in a visual mapping system by tracking user presence in individual topics
US20100070891A1 (en) * 2008-09-18 2010-03-18 Creekbaum William J System and method for configuring an application via a visual map interface
US9396455B2 (en) * 2008-11-10 2016-07-19 Mindjet Llc System, method, and software application for enabling a user to view and interact with a visual map in an external application
GB2470563A (en) * 2009-05-26 2010-12-01 John Robinson Populating a database
US8392267B1 (en) 2009-06-30 2013-03-05 Mindjet Llc System, method, and software application for dynamically generating a link to an online procurement site within a software application
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US11367295B1 (en) 2010-03-23 2022-06-21 Aurea Software, Inc. Graphical user interface for presentation of events
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US9292505B1 (en) 2012-06-12 2016-03-22 Firstrain, Inc. Graphical user interface for recurring searches
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US9275291B2 (en) 2013-06-17 2016-03-01 Texifter, LLC System and method of classifier ranking for incorporation into enhanced machine learning
US9875218B2 (en) 2014-01-28 2018-01-23 International Business Machines Corporation Document summarization
EP3230892A4 (en) * 2015-04-29 2018-05-23 Hewlett-Packard Development Company, L.P. Topic identification based on functional summarization
US20160321346A1 (en) * 2015-05-01 2016-11-03 Kevin A. Li Clustering Search Results
US20170099342A1 (en) * 2015-10-04 2017-04-06 Anthony Ko-Ping Chien Dynamically Served Content
WO2022133178A1 (en) * 2020-12-18 2022-06-23 Northwestern University Systems and methods for knowledge distillation using artificial intelligence
KR102661438B1 (ko) * 2023-11-14 2024-04-29 (주)미래융합정보기술 인터넷 기사 크롤링, 글로벌 가치 사슬에 영향을 주는 이슈 기사의 요약 서비스를 제공하는 웹크롤러 시스템

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05128157A (ja) * 1991-11-08 1993-05-25 Ricoh Co Ltd 文書検索装置
JP3053153B2 (ja) * 1993-09-20 2000-06-19 株式会社日立製作所 文書管理システムのアプリケーション起動方法
US5873056A (en) 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5708825A (en) 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5787422A (en) 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
JPH09259138A (ja) * 1996-03-21 1997-10-03 N T T Data Tsushin Kk 分類情報表示方法及び情報検索装置
JP2000508450A (ja) * 1996-04-10 2000-07-04 エイ・ティ・アンド・ティ・コーポレーション インターネットから検索される情報を知識ベース表現を使用して編成する方法
US6148289A (en) 1996-05-10 2000-11-14 Localeyes Corporation System and method for geographically organizing and classifying businesses on the world-wide web
US6101515A (en) 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US6038561A (en) 1996-10-15 2000-03-14 Manning & Napier Information Services Management and analysis of document information text
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US5895470A (en) 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
US6131091A (en) 1998-05-14 2000-10-10 Intel Corporation System and method for high-performance data evaluation
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6167370A (en) 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
JP3760057B2 (ja) 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
US6189002B1 (en) 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
JP2001101207A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 文書要約装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8938451B2 (en) 2005-05-24 2015-01-20 International Business Machines Corporation Method, apparatus and system for linking documents
CN107103027A (zh) * 2005-10-04 2017-08-29 汤姆森路透社全球资源公司 用于识别相关法律文件的系统、方法、和软件
CN100514323C (zh) * 2005-10-25 2009-07-15 国际商业机器公司 用于自动提取副标题信息的系统和方法
CN101340463B (zh) * 2008-08-22 2012-04-25 深圳市迅雷网络技术有限公司 一种确定网络资源类型的方法和装置

Also Published As

Publication number Publication date
EP1423801A1 (en) 2004-06-02
IL160072A0 (en) 2004-06-20
EP1423801A4 (en) 2007-11-21
CN1288583C (zh) 2006-12-06
KR100601578B1 (ko) 2006-07-14
WO2003017142A8 (en) 2004-09-30
KR20040020954A (ko) 2004-03-09
US20030033274A1 (en) 2003-02-13
US6609124B2 (en) 2003-08-19
CA2451693A1 (en) 2003-02-27
WO2003017142A1 (en) 2003-02-27
JP2005500624A (ja) 2005-01-06

Similar Documents

Publication Publication Date Title
CN1288583C (zh) 汇总与聚合以将文件就概念分类
US6463430B1 (en) Devices and methods for generating and managing a database
US10474686B2 (en) Information theory based result merging for searching hierarchical entities across heterogeneous data sources
US6836768B1 (en) Method and apparatus for improved information representation
US7882115B2 (en) Method and apparatus for improved information representation
US20030120653A1 (en) Trainable internet search engine and methods of using
US7185001B1 (en) Systems and methods for document searching and organizing
US7315858B2 (en) Method for gathering and summarizing internet information
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
US8037061B2 (en) System and computer readable medium for generating refinement categories for a set of search results
US9305100B2 (en) Object oriented data and metadata based search
US20020065857A1 (en) System and method for analysis and clustering of documents for search engine
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US20030163454A1 (en) Subject specific search engine
WO2007087561A2 (en) System for searching
JP2001522496A (ja) データベースのデータを検索するための方法と装置
US7013300B1 (en) Locating, filtering, matching macro-context from indexed database for searching context where micro-context relevant to textual input by user
Chan et al. Automated online news classification with personalization
Bakar et al. A survey: Framework to develop retrieval algorithms of indexing techniques on learning material
Morariu et al. Contributions to automatic knowledge extraction from unstructured data
MORARIU et al. Web Information Retrieval
Agarwal et al. INFOQUEST-A META SEARCH ENGINE FOR USER FRIENDLY INTELLIGENT INFORMATION RETRIEVAL FROM THE WEB
AU2002356042A1 (en) Summarizing and clustering to classify documents conceptually
Du A Web Meta-Search Engine
CHAN et al. Automated online news classification with personalization.(2001)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20061206

Termination date: 20100813