CN1539112A - 汇总与聚合以将文件就概念分类 - Google Patents
汇总与聚合以将文件就概念分类 Download PDFInfo
- Publication number
- CN1539112A CN1539112A CNA028155602A CN02815560A CN1539112A CN 1539112 A CN1539112 A CN 1539112A CN A028155602 A CNA028155602 A CN A028155602A CN 02815560 A CN02815560 A CN 02815560A CN 1539112 A CN1539112 A CN 1539112A
- Authority
- CN
- China
- Prior art keywords
- classification
- search
- file
- user
- present
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000006116 polymerization reaction Methods 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 230000008901 benefit Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 241001597008 Nomeidae Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用来使用网络爬行器来搜索包含文件的数据库(100)的计算机网络的方法。在搜索之前,向所述网络爬行器提供概念性指导。本发明汇总来源内容(300),并且在汇总(304)上进行文本聚合(31)以产生分类(330)。使用基于所述概念性指导的种子进行所述文本聚合。然后,通过用户界面(510)向用户提供(34)所述分类以及查询输入,用来搜索所述分类,将所述用户引向所述分类的一个或更多个,以使所述用户被引向所述分类(以及到这些文件的链接),并且不向该用户提供所述文件本身。
Description
技术领域
一般地,本发明有关于用来提供信息的系统与方法,更具体地说,有关于一种根据先前分类的数据资源将链接分类的改进的索引。
背景技术
设计本发明是为了处理电子商务策略与设计咨询员在为其外部客户开发电子商务策略时在收集供评定与分析的信息中所具有的问题。例如,可能有很大一部分的工作时间被消耗在收集数据上,而不是评定与分析数据上。
一般地,收据数据的过程在本质上一直十分特别;咨询员会仔细查看万维网、专门的研究报告、内部数据库,并且利用个人联系来收集与其需要有关的可靠信息。迄今还没有一种方法或通用工具来作为到达这些资源的单一进入点,也还没有对收集这些数据的高效率的最优方法的清楚理解。另外,也不清楚可以把什么信息(当被发现时)应用到“可交付物”(deliverable)的领域。“可交付物”为客户所要求的最终文件或产品。因此咨询员找到自己的收集信息的方法,并且使用自己最喜爱的搜索工具与自己的组织能力来帮助把信息传递给项目组。
因此,需要一种系统与方法,用来组织电子商务策略与设计咨询员可用的资源,从而减少这些咨询员花费在收集信息上的时间,也提供一种系统,用来提供当前资源的最新形式。下面所述的发明处理该问题,并且提供了一种新型系统与方法,用来减少花费在收集信息上的时间。
发明内容
本发明具有几个目标,包括向用户提供对重要数据启动关键速度的工具,提供为电子商务战略工作收集信息的标准方法/处理,提供到相关的、最近的可靠文件与适用于电子商务战略工作的数据的单一进入点,通过将搜索标准组织在标准企业方法与客户可交付物周围,为研究收集处理增加价值,支咨询员用智能软件对准其搜索过程,并且向咨询团队提供网络化空间,以维护让人感兴趣的文件直至这些文件适用于其分析。
根据一个实施例,本发明包括一种使用网络爬行器来搜索包含文件的数据库计算机网络的方法。在搜索之前,向所述网络爬行器提供概念性指导。本发明汇总来源内容,并且在汇总上进行文本聚合以产生分类。使用基于所述概念性指导的种子进行所述文本聚合。然后,本发明通过用户界面向用户提供所述分类以及查询输入,用来搜索所述分类,并且(响应于该查询输入)将所述用户引向所述分类的一个或更多个,以使所述用户被引向所述分类(以及到这些文件的链接),并且不向该用户提供所述文件本身。
替代提供所述文件,本发明超链接到所述文件。所述汇总基于与所述文件关联的可扩展标记语言。每一所述文件的链接可能出现在所述分类的至少两个类别中。本发明确定每个都对应于用户搜索的多个类别的交叉。这些交叉表示不同类别的发生,响应于所述用户搜索,这些类别分离地返回到单一文件的链接。所述概念性指导改进所述搜索与所述文本聚合,从而将所述分类引向特定结果。
在咨询员使用本发明(此处有时被称为“中心内容管理工具”、“HCMT”、或简称为“中心”)时还有其他好处,包括提供到当前若以个人身份购买还十分昂贵的专有研究资源的访问,紧密结合电子商务战略方法原则以清晰了解正在被研究内容以及需要获取哪些内容,提供数据的自动化分类表示以促进在搜索过程中的发现,而如果不如此将需要成千上万小时的认真阅读,并且最后存储到文件的链接而不是整个文件本身,从而使用户确信访问了原始来源而不是本系统管理员认为正确的最近信息。
这些优点构成了最大的好处,即通过本发明中所使用的技术,具体地围绕咨询员的工作方式组织并向用户呈现信息,大幅度降低了寻找高品质信息的时间。
附图说明
通过以下参照附图地对本发明优选实施例的详细描述可以更好地理解上面的以及其他的目的、方面以及优点,其中:
图1为本发明系统实施例的示意图;
图2是显示根据本发明实施例地处理信息的流程图;
图3为图2中所示的实施例的分解图;
图4为用于运行本发明的硬件实施例的示意图。
具体实施方式
本发明包括完整的内容收集、汇总、索引、分类、搜索、以及呈现应用。现有的搜索与检索系统包括关键词搜索应用,其一般被用于文本HTML(超文本标记语言)或者万维网搜索,其中使用在该文件内容中出现的关键词来检索该文件。另一种现有的应用为SQL(结构化查询语言),并且其一般用于数字数据库(诸如财务信息)--其中使用专门的语言来检索特定的数字数据。另一公知的应用被称为自然语言,并且其一般用于文本搜索,其中该系统分析该问题,以试图解释其意思,并且在此基础上检索有关文件。
战略性情报系统中心系统(Hub for Strategic Intelligence system)与上述系统的不同之处在于:该系统使用文本聚合(text clustering)来帮助咨询员生成商务驱动的数据分类,并且该系统呈现这些分类以支持命中列表的显示。
如图1所示,对于战略咨询员存在大量的内容来源100。例如,这些资源可能包括公开或私有数据库(有些是基于收费的)、公共或私有网络(诸如因特网或企业网络)。这些资源表现为多种技术格式,包括代理文件(proxydocument)110、Lotus Notes 120、存档和/或镜像站点130、以及因特网140。在优选实施例中,本发明提前做一些选择,以确保本发明所搜扒(crawl)的来源对该商务咨询员有关。例如,在该预选择阶段,本发明为咨询员(用户)提供了界面,以输入条件/类别,该咨询员知道这些条件/类别将与特定客户或客户组有关,从而帮助网络爬行器(crawler)的活动。对某些数据库可能需要取得许可证。
项200表示该工具使用中的收集阶段。此处,搜扒相关资源并将其转换到该文本聚合工具可以接受的格式。在优选实施例中,使用网络爬行器来搜索因特网来寻找咨询员可能感兴趣的文件。此类网络搜扒与随后的索引转换十分常见,例如,本发明可以使用Grand Central Station(GCS)(来自International Business Machines Corporation,Armonk,NY,USA),这个工具用来搜扒指定来源的站点或数据库(例如Lotus Notes)以从可用资源抽取文本。因此,项220表示可替换的内容交付,而项210表示GCS内容交付。基于文章文本,爬行器生成该这些文件的摘要(例如汇总)。本发明的一个重要方面是:其基于这些汇总生成分类,这要比只读取元标签(mega tag)要可靠的多。另外,本发明将每一文件中的段落与小节分别分类,以更彻底地分类每一文件。此过程更可靠是因为万维网开发人员可以把任何形式的信息放入元标签之中,即使这些信息与该文件内容无关。然后,来自所有内容来源的具有摘要的文本的组合或总体就可用于分类过程。
项300表示内容汇总、索引、以及分类过程。在内容汇总器310中汇总由网络爬行器如上所收集的摘要。更具体地说,内容汇总器提炼这些摘要,从而消除与内容无关的冗余的词/短语(例如副词、形容词、小品词等等)。然后经提炼的摘要(汇总)被导入分类(文本聚合)应用,诸如eClassifier 320(来自International Business Machines Corporation,Armonk,NY,USA),其使用数学算法来形成质心(centroid)、或者完美/理想概念,并且自动将所搜扒文件与这些质心相关联。这种关系被称为分类,咨询员就工作的实用性衡量这些分类。
本发明使咨询员能够控制该文本聚合应用。这使咨询员不仅能够观察确定了哪些类别,而且能够使用在过去电子商务战略工作中有用的额外的类别题目/主题,并且使用该文本聚合应用的功能来形成这些质心。由此,本发明不同于为聚合应用使用随机开始点(种子)的现有技术,并且这使本发明能够确定尽可能分离的一系列类别。咨询员的一个目标是通过在数据空间中选择远远分离的点,来生成明晰的分组,而这一目标通过本发明实现。本发明通过允许咨询员基于该咨询员认为有用的商务概念输入类别的开始点,以生成分类。具有类似词/概念的文件聚合在一起。换言之,本发明在适合于该咨询员及咨询兴趣的超平面上聚合文件。通过用户界面,本发明允许咨询员使用多种方法来达到最优聚合,从而生成有用的类别。这些包括允许咨询员一开始使用“关键词”作为生成初始分类的方法,并且使用训练文件子集来生成自然的咨询员驱动的分类,然后将这一分类扩展到更大的数据集合上,并且在文本聚合算法后调整分类。这一方法导致对同一数据集合具有多个同样有效的分类。
通过仔细构造开始种子位置,使用本发明的咨询员可以产生与现有方法相比的显著改进。开始点依赖于咨询员对待分类题目的了解。对于咨询员不熟悉的概念领域,可是使用自然分类以促进总体理解,随后基于客户的方法与咨询兴趣生成分类。对于本应用的目的,分类是该文本聚合程序组织数据的一种方法。“自然”分类来自于文本从随机开始点开始聚合,并且依赖于文件总体。“咨询员驱动”分类来自于咨询员引导的文本聚合。分类也可能是“自然”与“咨询员驱动”聚合的组合。对于本应用的目的,名词“内容”可以包括许多不同类型的文件,包括研究报告、新闻文章、分析报告、代理文件等等。
最后,如果本发明生成了不太相关的文件,则咨询员可以使用本发明手工将文章(以及对应的数据点)从聚合中移动。项400表示的万维网应用包括本发明430(战略性情报中心万维网应用)中的搜索引擎410、应用引擎420。该万维网应用采用分类过程的结果,并且通过项500中的万维网浏览器界面510将该结果呈现给咨询员。
由本发明产生的分类表示从不同视角的同一数据集合,并且这使咨询员能够通过使用本发明以“叠加”类别,迅速对准其需要的概念(例如观察这些不同视角的交叉)。本发明的重要特征在于:每一文件可以在不同的类别中出现。因为每一文章在每一分类中出现在至少一个类别中,索引文件可能在两个或更多的类别中出现,这突破了现有的聚合分析。例如,有关移动电话的文章可能在“无线”分类中出现在“接入设备”类别下。其他的类别可能是“基础设施”或“协议”。同一文章可能在“电子消费品”分类中出现在“移动电话”类别下。其他类别可能包括“立体声”或“MP3播放器”。同一文章可能在“消费者行为”分类中出现在“购买行为”类别下。其他类别可能包括“品牌忠诚度”或“引用的使用”。由此,本发明超越了通过将使用文本聚合所生成的分类交叉而交叉分类的概念。
本发明的该特征被称为“叠加分类”,或更准确地称为“叠加类别”。使用上面的例子,咨询员也许希望找到与喜爱其移动电话的消费者有关的文章。在现有搜索引擎上,这可是困难的搜索,因为实际上重要的是概念,而不是确切的词。在这种情况下,咨询员可以选择以下类别(其由上述发明的聚合过程所产生)“消费者行为:品牌忠诚度”以及“电子消费品:移动电话”。本发明的另一特征在于:其不返回整个文件(甚或整个文件汇总),而只返回与两个概念都有关的文章的超链接。因为这两个类别以不同方式看待同一文章的集合,所以它们的交叉将是非常有价值的。使用本发明,花费在应咨询员请求的搜索上的时间大体下降四分之三(75%)。
另外,用户界面向咨询员提供了每一分类中最常见的词的清单。通过显示由上述自动汇总过程所确定的相关概念集合,一个称为“探索分类”的用户界面区域520在搜索过程中帮助咨询员。
除文本界面之外,本发明还使用被称为“思路图”(mindmap)的特征来表示分类。这一面向视觉的界面将分类(而不是命中表)呈现为探索的方法。思路图显示了咨询员所输入的概念(或关键词)与本发明所生成的类别之间的关系的强度(例如,通过部位、颜色、亮度等等)。
项510表示用户界面,其在万维网浏览器上访问。本发明比较用户的关键词以查询本发明分类中的类别,并且返回最相关的类别。由此,本发明响应于查询,而呈现分类(而非命中表)。另外,类别或分类中的每一个都不包括从引用中复制的数据,而是只包含到该引用的超链接。本发明将用户从一个分类中的类别转移到另一分类中的最近的类别(数学地确定)上。
项600表示万维网OLAP(在线分析处理)服务器,其具有OLAP引擎620以及结构化数据610。存在许多标准方法来通过万维网访问数据。在这种情况下,本发明具有访问万维网OLAP引擎620以检索某些结构化的非文本数据610的万维网界面510的一般化表示。存在不包含任何文本的文件610,并且作为结果,这些文件不能放在其他文本文件的数据集合中。本发明通过以下解决这个问题:将代理文件格式化为XML(可扩展标记语言)衍生物(称为HubML),以帮助数据分类。
汇总为XML汇总。XML为开放标准,用来定义网页与商务到商务文件的数据元素。其使用与HTML类似的标签结构;然而,HTML定义如何显示元素,而XML定义这些元素依严格规则所包含的内容。HTML使用预定的标签,但XML允许由该页的开发人员定义标签。通过提供用来指定数据的公用方法,XML支持商务到商务的交易。本发明设置HubML,使用了包含在该XML中的元数据。因为HubML文件基于文本,所以其支持数字数据,并且使本发明可以分类并在结果中包括“不可搜扒”文件。另外,本发明使用调查问题(用来形成XML标签)以使咨询员能够在这些调查问题上搜索,如同在汇总上搜索一样。
每一HubML文件为手工生成,使用了来自多种来源的信息。在当前实施例中,这些手工创建的HubML(不同于爬行器所生成的文件)从描述“方块”(cube)的不同来源提取信息。方块与电子表格类似,但结构更复杂。伴随文件描述在该电子表格(方块)上有什么。由此,HubML伴随文件包含了大量信息,其有关该中心(在哪找到样式表);方块本身(在其被生成时的标题、摘要、文件名称、文件大小);调查(当收集数据时所使用的问题与文本,等等);以及该调查所覆盖的标题的概念。
这种“概念”可能是在搜索过程中得到的想法。例如,某人可能对特定标题“乘游轮”感兴趣,所以包含词“乘游轮”的HubML文件将是直接命中。本发明的重要特征在于:其不仅找到直接命中,而且还找到基于概念分类的附近命中。例如,某人可能对“旅行”感兴趣。旅行在该概念段中并没有被显示地列出,但因为乘游轮与旅行经常在同一文章中出现,所以使用上述的分类方案,这些概念将落入同一类别。由此,虽然特定的HubML文件之中不具有词“旅行”,但在“旅行”上搜索的咨询员很可能在其结果中发现该文件。
有各种服务提供访问数据源的门户,然而,这些服务要求付费或者限制到数据库的访问。在研究其他服务时,对此问题的大部分解决方案是通过以下实现的:将数据库编辑在一起,以提供(例如)“公司特定的”或“市场情报”信息。虽然在本发明中,门户方面被认为提供了到许多来源的单一的进入点,但在本发明的这一部分还有其他价值。更具体地说,本发明使咨询员能够按客户可交付物进行搜索。其例子如客户是消费产品公司,其对进入“无线空间”感兴趣。咨询员希望迅速进入情况。本发明的其他优点包括大幅降低的搜索时间、大幅降低的生成分类的时间、对题目的更全面的覆盖、以及通过在“接近”但不一定精确匹配关键词的文章中发现题目而引起的额外的想法生成与时间节省。
本发明也可以在其他环境中收益,包括公司战略监视、路标监视(signpostmonitoring)、公司内知识管理、电子学习环境、通用公共搜索引擎,以及任何使用聚合分析的数据。
开始点依赖于咨询员对待分类题目的了解。选择“好的”开始点涉及很高的技巧。
本发明简化并统一了使用网络技术以集成和利用网络爬行器与搜索引擎的功能的复杂过程。图2与3以流程图的形式示出本发明的主要处理点,并且从不同的角度示出了本发明,从而更清晰地展示本发明的其他特征。在图2中,本发明首先在项30收集信息,在31处理信息,在32将信息打包,在33分类信息,以及在项34部署该信息。下面参照图3更详细地描述这些功能。
如图3中所示,在收集功能30中,本发明通过以下方式从来源305(元数据)收集内容:从来源305获取文本,将其汇总304,并且将这些汇总超链接回原始来源位置。所指定的来源305可以是任意形式,诸如GCS Notes汇总301、GCS HTML汇总302、或者HCMT汇总303。
对于处理功能31,本发明使用文本聚合程序来执行所有必须的操作以产生搜索分类器所需要的所有数据集合组件。该处理包括按分类器的内容存储来组织数据,以指定文本、日期、存储等等的内容,并且指定事务数据、到来源位置的链接、以及内容的其他方面。由此,本发明执行XSL翻译313以及上面的“中心”处理311,从而产生数据集合组件312。
对于打包功能32,本发明以各种组合组织内容,以供不同应用中使用。打包321的处理为:采用分类器与中心两者的处理数据,以允许从同一收集与处理操作以不同格式交付来的内容的“混合与匹配”,从而产生战略性情报中心数据集合322。
在分类器操作33中,本发明依靠文本聚合应用321,使用了由咨询员所定制的种子(如上所述),以根据最终用户的需要组织内容,从而产生战略性情报中心分类330。如上所述,该分类由清楚客户需要的主题内容专家(咨询员)作出,从而为用户提供待搜索内容的清晰条理的展示。随着新内容被打包,现有的咨询意见被自动更新。最后,在“部署”操作34,所形成的分类341与所计算的关键词索引340在具有下拉式菜单与概念搜索路径的界面上被呈现给用户。
图4中描绘了用来实现本发明的代表性的硬件环境,该图示出了根据本发明的信息处理/计算机系统的典型硬件配置,具有至少一个处理器或中央处理单元(CPU)10。CPU10借助系统总线12连接到随机访问存储器(RAM)14、只读存储器(ROM)16、输入/输出(I/O)适配器18用来将外围设备(诸如磁盘单元11与磁带驱动器13)连接到总线12、用户接口适配器19用将来将键盘15、鼠标17、扬声器103、麦克风104和/或诸如触摸屏幕(未显示)的其他用户接口设备连接到总线12、通信适配器105用来将该信息处理系统连接到数据处理网络、以及显示适配器101用来将总线12连接到显示设备102。使用磁盘或磁带单元可读的程序存储设备来载入指令。
工业实用性
如上所述,本发明可以用于咨询行业,在收集与处理信息来为客户开发电子商务战略时具有优势。本发明提供到研究来源的访问,紧密结合电子商务战略方法原则以清晰了解正在被研究内容以及需要获取哪些内容,提供数据的自动化分类表示以促进在搜索过程中的发现,而如果不如此将需要成千上万小时的认真阅读,并且最后存储到文件的链接而不是整个文件本身,从而使用户确信访问了原始来源而不是本系统管理员认为正确的最近信息。这些优点构成了最大的好处,即通过本发明中所使用的技术,具体地围绕咨询员的工作方式组织并向用户呈现信息,大幅度降低了寻找高品质信息的时间。
虽然本发明就优选实施例进行了描述,但本领域的技术人员应该理解在权利要求的精神与范围之间的修改可以实现本发明。
Claims (8)
1.一种搜索数据库的方法,包括以下步骤:
使用网络爬行器,搜索(200)包含文件的数据库(100)的计算机网络,其中在所述搜索之前,向所述网络爬行器提供概念性指导,并且所述搜索产生搜索结果;
汇总(300)所述搜索结果以产生汇总(304);
在所述汇总上进行文本聚合(31)以产生分类(330),使用基于所述概念性指导的种子进行所述文本聚合;以及
通过用户界面(510)提供(34)所述分类以及用来搜索所述分类的查询输入。
2.如权利要求1所述的方法,进一步包括:替代提供所述文件,提供到所述文件的超链接。
3.如权利要求1所述的方法,其中所述汇总基于与所述文件关联的可扩展标记语言。
4.如权利要求1所述的方法,其中到每一所述文件的链接可能出现在所述分类的至少两个类别中。
5.如权利要求4所述的方法,进一步包括:确定对应于在所述查询输入中的用户搜索的多个类别的交叉。
6.如权利要求5所述的方法,其中所述交叉表示不同类别的发生,响应于所述用户搜索,这些类别分离地返回到单一文件的链接。
7.如权利要求1所述的方法,其中所述概念性指导改进所述搜索与所述文本聚合,从而将所述分类引向特定结果。
8.如前面权利要求任何一项所述的方法,进一步包括:响应于所述查询输入,将用户引向所述分类的一个或更多个,以使所述用户被引向所述分类而不是到所述文件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/928,743 US6609124B2 (en) | 2001-08-13 | 2001-08-13 | Hub for strategic intelligence |
US09/928,743 | 2001-08-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1539112A true CN1539112A (zh) | 2004-10-20 |
CN1288583C CN1288583C (zh) | 2006-12-06 |
Family
ID=25456674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028155602A Expired - Fee Related CN1288583C (zh) | 2001-08-13 | 2002-08-13 | 汇总与聚合以将文件就概念分类 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6609124B2 (zh) |
EP (1) | EP1423801A4 (zh) |
JP (1) | JP2005500624A (zh) |
KR (1) | KR100601578B1 (zh) |
CN (1) | CN1288583C (zh) |
CA (1) | CA2451693A1 (zh) |
IL (1) | IL160072A0 (zh) |
WO (1) | WO2003017142A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100514323C (zh) * | 2005-10-25 | 2009-07-15 | 国际商业机器公司 | 用于自动提取副标题信息的系统和方法 |
CN101340463B (zh) * | 2008-08-22 | 2012-04-25 | 深圳市迅雷网络技术有限公司 | 一种确定网络资源类型的方法和装置 |
US8938451B2 (en) | 2005-05-24 | 2015-01-20 | International Business Machines Corporation | Method, apparatus and system for linking documents |
CN107103027A (zh) * | 2005-10-04 | 2017-08-29 | 汤姆森路透社全球资源公司 | 用于识别相关法律文件的系统、方法、和软件 |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2324856C (en) * | 1999-11-15 | 2007-05-29 | Lucent Technologies Inc. | Method and apparatus for remote audiovisual signal recording |
US7003517B1 (en) | 2000-05-24 | 2006-02-21 | Inetprofit, Inc. | Web-based system and method for archiving and searching participant-based internet text sources for customer lead data |
US7120629B1 (en) | 2000-05-24 | 2006-10-10 | Reachforce, Inc. | Prospects harvester system for providing contact data about customers of product or service offered by business enterprise extracting text documents selected from newsgroups, discussion forums, mailing lists, querying such data to provide customers who confirm to business profile data |
US7096220B1 (en) | 2000-05-24 | 2006-08-22 | Reachforce, Inc. | Web-based customer prospects harvester system |
US7082427B1 (en) | 2000-05-24 | 2006-07-25 | Reachforce, Inc. | Text indexing system to index, query the archive database document by keyword data representing the content of the documents and by contact data associated with the participant who generated the document |
US7330850B1 (en) | 2000-10-04 | 2008-02-12 | Reachforce, Inc. | Text mining system for web-based business intelligence applied to web site server logs |
US7043531B1 (en) | 2000-10-04 | 2006-05-09 | Inetprofit, Inc. | Web-based customer lead generator system with pre-emptive profiling |
US7155668B2 (en) * | 2001-04-19 | 2006-12-26 | International Business Machines Corporation | Method and system for identifying relationships between text documents and structured variables pertaining to the text documents |
US20060248570A1 (en) * | 2002-11-15 | 2006-11-02 | Humanizing Technologies, Inc. | Customized media presentation |
US20060244768A1 (en) * | 2002-11-15 | 2006-11-02 | Humanizing Technologies, Inc. | Enhanced personalized portal page |
US7266559B2 (en) * | 2002-12-05 | 2007-09-04 | Microsoft Corporation | Method and apparatus for adapting a search classifier based on user queries |
US7523095B2 (en) * | 2003-04-29 | 2009-04-21 | International Business Machines Corporation | System and method for generating refinement categories for a set of search results |
US7392474B2 (en) | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
US9047388B2 (en) * | 2004-07-01 | 2015-06-02 | Mindjet Llc | System, method, and software application for displaying data from a web service in a visual map |
US20090228447A1 (en) * | 2004-07-01 | 2009-09-10 | Creekbaum William J | System, method, and solfware application for enabling a user to search an external domain within a visual mapping interface |
US9038001B2 (en) * | 2004-07-01 | 2015-05-19 | Mindjet Llc | System and method for graphically illustrating external data source information in the form of a visual hierarchy in an electronic workspace |
US7409393B2 (en) * | 2004-07-28 | 2008-08-05 | Mybizintel Inc. | Data gathering and distribution system |
US20060167930A1 (en) * | 2004-10-08 | 2006-07-27 | George Witwer | Self-organized concept search and data storage method |
US20070050445A1 (en) * | 2005-08-31 | 2007-03-01 | Hugh Hyndman | Internet content analysis |
KR100736768B1 (ko) | 2005-11-07 | 2007-07-09 | (주)윕스 | 데이터 분류체계 관리 방법 |
US20070143122A1 (en) * | 2005-12-06 | 2007-06-21 | Holloway Lane T | Business method for correlating product reviews published on the world wide Web to provide an overall value assessment of the product being reviewed |
KR100775852B1 (ko) | 2006-01-18 | 2007-11-13 | 포스데이타 주식회사 | 응용 프로그램의 자원 검색 시스템 및 방법 |
US8103703B1 (en) | 2006-06-29 | 2012-01-24 | Mindjet Llc | System and method for providing content-specific topics in a mind mapping system |
US20090055368A1 (en) * | 2007-08-24 | 2009-02-26 | Gaurav Rewari | Content classification and extraction apparatus, systems, and methods |
US20090055242A1 (en) * | 2007-08-24 | 2009-02-26 | Gaurav Rewari | Content identification and classification apparatus, systems, and methods |
US20090077639A1 (en) * | 2007-09-13 | 2009-03-19 | James Williams | System and method of processing an authoring assignment |
US7877368B2 (en) * | 2007-11-02 | 2011-01-25 | Paglo Labs, Inc. | Hosted searching of private local area network information with support for add-on applications |
US7877369B2 (en) * | 2007-11-02 | 2011-01-25 | Paglo Labs, Inc. | Hosted searching of private local area network information |
US20090132953A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in local search system with vertical search results and an interactive map |
US20090132505A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Transformation in a system and method for conducting a search |
US20090132512A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Search system and method for conducting a local search |
US7921108B2 (en) * | 2007-11-16 | 2011-04-05 | Iac Search & Media, Inc. | User interface and method in a local search system with automatic expansion |
US20090132513A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Correlation of data in a system and method for conducting a search |
US20090132486A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in local search system with results that can be reproduced |
US8090714B2 (en) * | 2007-11-16 | 2012-01-03 | Iac Search & Media, Inc. | User interface and method in a local search system with location identification in a request |
US20090132514A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | method and system for building text descriptions in a search database |
US20090132927A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method for making additions to a map |
US7809721B2 (en) * | 2007-11-16 | 2010-10-05 | Iac Search & Media, Inc. | Ranking of objects using semantic and nonsemantic features in a system and method for conducting a search |
US20090132929A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method for a boundary display on a map |
US20090132572A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system with profile page |
US8732155B2 (en) | 2007-11-16 | 2014-05-20 | Iac Search & Media, Inc. | Categorization in a system and method for conducting a search |
US20090132484A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system having vertical context |
US20090132573A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system with search results restricted by drawn figure elements |
US8145703B2 (en) * | 2007-11-16 | 2012-03-27 | Iac Search & Media, Inc. | User interface and method in a local search system with related search results |
US20090132646A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system with static location markers |
US20090132643A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Persistent local search interface and method |
US20090132485A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system that calculates driving directions without losing search results |
US20090157616A1 (en) * | 2007-12-12 | 2009-06-18 | Richard Barber | System and method for enabling a user to search and retrieve individual topics in a visual mapping system |
US20090157801A1 (en) * | 2007-12-12 | 2009-06-18 | Richard Barber | System and method for integrating external system data in a visual mapping system |
US8161396B2 (en) * | 2007-12-20 | 2012-04-17 | Mindjet Llc | System and method for facilitating collaboration and communication in a visual mapping system by tracking user presence in individual topics |
US20100070891A1 (en) * | 2008-09-18 | 2010-03-18 | Creekbaum William J | System and method for configuring an application via a visual map interface |
US9396455B2 (en) * | 2008-11-10 | 2016-07-19 | Mindjet Llc | System, method, and software application for enabling a user to view and interact with a visual map in an external application |
GB2470563A (en) * | 2009-05-26 | 2010-12-01 | John Robinson | Populating a database |
US8392267B1 (en) | 2009-06-30 | 2013-03-05 | Mindjet Llc | System, method, and software application for dynamically generating a link to an online procurement site within a software application |
US10643227B1 (en) | 2010-03-23 | 2020-05-05 | Aurea Software, Inc. | Business lines |
US9760634B1 (en) | 2010-03-23 | 2017-09-12 | Firstrain, Inc. | Models for classifying documents |
US10546311B1 (en) | 2010-03-23 | 2020-01-28 | Aurea Software, Inc. | Identifying competitors of companies |
US11367295B1 (en) | 2010-03-23 | 2022-06-21 | Aurea Software, Inc. | Graphical user interface for presentation of events |
US8782042B1 (en) | 2011-10-14 | 2014-07-15 | Firstrain, Inc. | Method and system for identifying entities |
US9292505B1 (en) | 2012-06-12 | 2016-03-22 | Firstrain, Inc. | Graphical user interface for recurring searches |
US10592480B1 (en) | 2012-12-30 | 2020-03-17 | Aurea Software, Inc. | Affinity scoring |
US9275291B2 (en) | 2013-06-17 | 2016-03-01 | Texifter, LLC | System and method of classifier ranking for incorporation into enhanced machine learning |
US9875218B2 (en) | 2014-01-28 | 2018-01-23 | International Business Machines Corporation | Document summarization |
EP3230892A4 (en) * | 2015-04-29 | 2018-05-23 | Hewlett-Packard Development Company, L.P. | Topic identification based on functional summarization |
US20160321346A1 (en) * | 2015-05-01 | 2016-11-03 | Kevin A. Li | Clustering Search Results |
US20170099342A1 (en) * | 2015-10-04 | 2017-04-06 | Anthony Ko-Ping Chien | Dynamically Served Content |
WO2022133178A1 (en) * | 2020-12-18 | 2022-06-23 | Northwestern University | Systems and methods for knowledge distillation using artificial intelligence |
KR102661438B1 (ko) * | 2023-11-14 | 2024-04-29 | (주)미래융합정보기술 | 인터넷 기사 크롤링, 글로벌 가치 사슬에 영향을 주는 이슈 기사의 요약 서비스를 제공하는 웹크롤러 시스템 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128157A (ja) * | 1991-11-08 | 1993-05-25 | Ricoh Co Ltd | 文書検索装置 |
JP3053153B2 (ja) * | 1993-09-20 | 2000-06-19 | 株式会社日立製作所 | 文書管理システムのアプリケーション起動方法 |
US5873056A (en) | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5642502A (en) | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5708825A (en) | 1995-05-26 | 1998-01-13 | Iconovex Corporation | Automatic summary page creation and hyperlink generation |
US6026388A (en) | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US5787422A (en) | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
US6076088A (en) | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
JPH09259138A (ja) * | 1996-03-21 | 1997-10-03 | N T T Data Tsushin Kk | 分類情報表示方法及び情報検索装置 |
JP2000508450A (ja) * | 1996-04-10 | 2000-07-04 | エイ・ティ・アンド・ティ・コーポレーション | インターネットから検索される情報を知識ベース表現を使用して編成する方法 |
US6148289A (en) | 1996-05-10 | 2000-11-14 | Localeyes Corporation | System and method for geographically organizing and classifying businesses on the world-wide web |
US6101515A (en) | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
US6038561A (en) | 1996-10-15 | 2000-03-14 | Manning & Napier Information Services | Management and analysis of document information text |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US5895470A (en) | 1997-04-09 | 1999-04-20 | Xerox Corporation | System for categorizing documents in a linked collection of documents |
US6233575B1 (en) | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
JPH11120183A (ja) * | 1997-10-08 | 1999-04-30 | Ntt Data Corp | キーワード抽出方法及び装置 |
US6131091A (en) | 1998-05-14 | 2000-10-10 | Intel Corporation | System and method for high-performance data evaluation |
US6192360B1 (en) | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6167370A (en) | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
JP3760057B2 (ja) | 1998-11-19 | 2006-03-29 | 株式会社日立製作所 | 複数文書データベースを対象とした文書検索方法および文書検索サービス |
US6189002B1 (en) | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6304864B1 (en) | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
JP2001101207A (ja) * | 1999-09-30 | 2001-04-13 | Oki Electric Ind Co Ltd | 文書要約装置 |
-
2001
- 2001-08-13 US US09/928,743 patent/US6609124B2/en not_active Expired - Lifetime
-
2002
- 2002-08-13 EP EP02752830A patent/EP1423801A4/en not_active Withdrawn
- 2002-08-13 KR KR1020037017262A patent/KR100601578B1/ko not_active IP Right Cessation
- 2002-08-13 CA CA002451693A patent/CA2451693A1/en not_active Abandoned
- 2002-08-13 IL IL16007202A patent/IL160072A0/xx unknown
- 2002-08-13 WO PCT/US2002/025736 patent/WO2003017142A1/en active Application Filing
- 2002-08-13 CN CNB028155602A patent/CN1288583C/zh not_active Expired - Fee Related
- 2002-08-13 JP JP2003521980A patent/JP2005500624A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8938451B2 (en) | 2005-05-24 | 2015-01-20 | International Business Machines Corporation | Method, apparatus and system for linking documents |
CN107103027A (zh) * | 2005-10-04 | 2017-08-29 | 汤姆森路透社全球资源公司 | 用于识别相关法律文件的系统、方法、和软件 |
CN100514323C (zh) * | 2005-10-25 | 2009-07-15 | 国际商业机器公司 | 用于自动提取副标题信息的系统和方法 |
CN101340463B (zh) * | 2008-08-22 | 2012-04-25 | 深圳市迅雷网络技术有限公司 | 一种确定网络资源类型的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1423801A1 (en) | 2004-06-02 |
IL160072A0 (en) | 2004-06-20 |
EP1423801A4 (en) | 2007-11-21 |
CN1288583C (zh) | 2006-12-06 |
KR100601578B1 (ko) | 2006-07-14 |
WO2003017142A8 (en) | 2004-09-30 |
KR20040020954A (ko) | 2004-03-09 |
US20030033274A1 (en) | 2003-02-13 |
US6609124B2 (en) | 2003-08-19 |
CA2451693A1 (en) | 2003-02-27 |
WO2003017142A1 (en) | 2003-02-27 |
JP2005500624A (ja) | 2005-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1288583C (zh) | 汇总与聚合以将文件就概念分类 | |
US6463430B1 (en) | Devices and methods for generating and managing a database | |
US10474686B2 (en) | Information theory based result merging for searching hierarchical entities across heterogeneous data sources | |
US6836768B1 (en) | Method and apparatus for improved information representation | |
US7882115B2 (en) | Method and apparatus for improved information representation | |
US20030120653A1 (en) | Trainable internet search engine and methods of using | |
US7185001B1 (en) | Systems and methods for document searching and organizing | |
US7315858B2 (en) | Method for gathering and summarizing internet information | |
US6725217B2 (en) | Method and system for knowledge repository exploration and visualization | |
US8037061B2 (en) | System and computer readable medium for generating refinement categories for a set of search results | |
US9305100B2 (en) | Object oriented data and metadata based search | |
US20020065857A1 (en) | System and method for analysis and clustering of documents for search engine | |
US20050060290A1 (en) | Automatic query routing and rank configuration for search queries in an information retrieval system | |
US20030163454A1 (en) | Subject specific search engine | |
WO2007087561A2 (en) | System for searching | |
JP2001522496A (ja) | データベースのデータを検索するための方法と装置 | |
US7013300B1 (en) | Locating, filtering, matching macro-context from indexed database for searching context where micro-context relevant to textual input by user | |
Chan et al. | Automated online news classification with personalization | |
Bakar et al. | A survey: Framework to develop retrieval algorithms of indexing techniques on learning material | |
Morariu et al. | Contributions to automatic knowledge extraction from unstructured data | |
MORARIU et al. | Web Information Retrieval | |
Agarwal et al. | INFOQUEST-A META SEARCH ENGINE FOR USER FRIENDLY INTELLIGENT INFORMATION RETRIEVAL FROM THE WEB | |
AU2002356042A1 (en) | Summarizing and clustering to classify documents conceptually | |
Du | A Web Meta-Search Engine | |
CHAN et al. | Automated online news classification with personalization.(2001) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20061206 Termination date: 20100813 |