CN102075560A - 一种基于系统耦合的福富企业搜索引擎技术 - Google Patents

一种基于系统耦合的福富企业搜索引擎技术 Download PDF

Info

Publication number
CN102075560A
CN102075560A CN2010105507762A CN201010550776A CN102075560A CN 102075560 A CN102075560 A CN 102075560A CN 2010105507762 A CN2010105507762 A CN 2010105507762A CN 201010550776 A CN201010550776 A CN 201010550776A CN 102075560 A CN102075560 A CN 102075560A
Authority
CN
China
Prior art keywords
data
search
interface
enterprise
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105507762A
Other languages
English (en)
Inventor
黄震奇
江勇
林乐然
罗志伟
陈华光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Fujitsu Communication Software Co Ltd
Original Assignee
Fujian Fujitsu Communication Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Fujitsu Communication Software Co Ltd filed Critical Fujian Fujitsu Communication Software Co Ltd
Priority to CN2010105507762A priority Critical patent/CN102075560A/zh
Publication of CN102075560A publication Critical patent/CN102075560A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于系统耦合的福富企业搜索引擎将企业内部、外部数据统一于同一平台,使系统支持不同来源地数据信息,包括结构化数据(各种关系型数据库,如Oracle、Mysql、SQL Server等)、非结构化数据(如word、excel、ppt、pdf等)和半结构化数据(如xml等)。首先使用不同的数据采集方式搜集各类信息,对于采集到的信息对象,先要进行一定的智能处理,然后再建立索引,之后,将在搜索引擎的中心数据库中进行统一的存储管理。系统将不同类型的数据采用耦合的方式同一于同一平台,在同一门户中集成系统管理Portlet和综合搜索平台的使用窗口,该Portlet只允许系统管理员使用。系统管理员通过该Portlet对综合搜索平台进行统一管理,包括数据采集、数据分类、权重管理、词库管理、用户管理等;在综合搜索平台的使用窗口界面,用户在登陆前后都可以通过该搜索栏进行搜索。搜索结果在门户页面上展示。

Description

一种基于系统耦合的福富企业搜索引擎技术 
技术领域
福富搜索引擎系统引进了多数据源技术,为了将信息简明方便的传递给用户,本发明提出了系统耦合技术,主要研究如何在复杂的应用系统环境下,对企业知识资产进行统一管理规划,本发明属于企业管理自动化领域。 
技术背景
随着企业信息化的逐步普及,企业拥有越来越多的、各式各样的电子文件和数据信息,面临“信息爆炸”的挑战,搜索引擎方便了人们的生活,计算机操作人员若要找到所需资料,首先想到的是去网上找,目前最常用的搜索引擎为百度、Google等几家搜索引擎,对于企业员工而言,若要找企业内部的信息,则需要搜索多种资料,包括数据库中的结构化信息,邮件、网页、文档中的非结构化信息。 
然而,传统的搜索引擎显示单一的搜索内容,不利于信息的提取和整合,本发明中的系统耦合技术很好的解决了这一问题。 
发明内容
技术问题:本发明的目的是建立一种显示来自不同数据源的信息的平台,福富企业搜索引擎支持各种数据源和应用系统,包括企业内和企业外的数据。对于这些企业内的数据,经过和业务系统的耦合,可以通过简单的系统配置和一定的数据更新策略来完成数据的采集和建立索引工作;对于企业外的数据搜索处理,通过页面抓取技术将目标网页抓取,解析页面内容并索引处理,经过处理后的Internet数据和企业内的数据一起进行分类。 
对于企业内和企业外(Internet)的不同数据源,采用不同的信息采集和处理手段后,实现统一的搜索平台功能,建立企业级的信息搜索平台,实现跨系统、跨平台的综合搜索。 
技术方案: 
综合搜索平台系统框架设计 
福富企业搜索引擎的业务框架可以分为三层,分别是数据采集、综合搜索以及业务展示。 整个系统的业务结构如说明书附图1所示: 
其中综合搜索位于整个业务结构中的中间层。它负责采集各中数据源的数据,经过索引处理后将数据保存到中心数据库,并通过搜索功能和智能处理模块帮助用户精准的定位所需数据。 
如说明书附图2所示,整个搜索引擎系统包含为7大部分: 
●数据源 
●数据采集层 
●数据索引层 
●中心数据库 
●数据检索层 
●智能管理模块 
●应用展示接口 
根据数据来源可以将数据分为三大类:关系型数据库数据、网页数据和文件系统数据。对于不同的数据类型,针对性的采用不同的技术来实现数据的采集。 
数据采集 
1)关系型数据库:引入了数据网关来实现各类关系数据库与搜索引擎中心数据库之间的数据关联和同步,数据网关包含文档格式分析和文档格式标签过滤模块,该模块对关系型数据库中中的文件内容进行分析并存储到中心数据库。因此数据网关可以对各种关系型数据库中的格式化文档进行全文检索 
2)网页数据采集:对于互联网或企业内部的网页,我们可以把每一个网页当作一个节点,把那些超链接(Hyperlinks)当作连接网页的弧。我们可以从其中一个节点出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。 
3)文件数据:把WORD、EXCEL、POWERPOINT、PDF、HTML、XML、TXT等不同类型的文件进行文本抽取,并装载到中心数据库中;从模板直接创建对应的中心数据库,进行快速应用。 
数据索引 
数据采集结束后,搜索引擎根据预先设置的索引策略对这些数据进行索引,以便在后续提供高效、准确的全文检索服务。 
对于采集到的网页等信息对象,先要进行一定的智能处理,然后再建立索引。福富企业搜索支持按字索引、按词索引、按关键词索引等索引策略,能够适应不同应用环境的需求。在存储空间方面,福富企业搜索实现了高效的数据和索引压缩,实现了低空间膨胀率(一般介于-0.2~1.0之间)。 
数据耦合 
企业内数据包括各种企业应用系统的数据源,如关系型数据库、公司内部网(Web页面)、门户系统、员工论坛、OA系统(Domino数据库)、文件系统(PDF、Word、Excel等)等应用系统。 
在复杂的应用系统环境下,对企业知识资产进行统一管理规划,并对企业知识资产进行有效管理;提高企业知识的搜索的准确性、时效性、搜索性能。因此需要与其他业务系统进行耦合。知识管理系统与各业务系统的数据融合将采用几种方式,其结构如附图3所示: 
●界面层耦合:包括主动或被动方式的界面直接调用 
●业务层耦合:通过各种业务接口,如:SOAP,API等 
●数据层耦合:通过数据网关进行耦合 
经过和业务系统的耦合,对于这些企业内的数据,可以通过简单的系统配置和一定的数据更新策略来完成数据的采集和建立索引工作。 
企业外的数据主要是来自Internet相关行业网站的新闻、评论、公告。企业外数据的主要数据类型是以Web页面。 
对于企业外的数据搜索处理,通过页面抓取技术将目标网页抓取,解析页面内容并索引处理,经过处理后的Internet数据和企业内的数据一起进行分类。当企业员工使用搜索查询相关信息时,可以同时得到企业内和企业外的相关数据,通过定时抓取网页更新索引数据,保证企业员工获得最新的数据。 
综合考虑企业内和企业外的数据,可以将所需处理的数据归纳为结构化数据(各种关系型数据库)和非结构化数据(Domino文件系统、Web网页、邮件系统、TXT文本、OFFICE文档、PDF文档等)。对于这两大类型的数据,福富企业搜索引擎都可以很好的支持。 
应用接口实现 
搜索引擎通过对网站等数据信息的处理,将信息收集在检索数据库中,为用户提供智能 化检索服务。同时,对于企业现用或新建的系统,如MIS系统提供耦合接口,实现对数据资源的挖掘,供门户网站或其它应用系统使用。 
福富企业搜索引擎提供三种不同的耦合方式来实现与企业应用系统的耦合:界面层耦合、业务层耦合以及数据层耦合。 
界面层耦合 
界面层的耦合即界面的直接调用包括主动和被动的方式。 
在搜索系统中,有两个位置的接口表现为URL接口,一个位置为搜索系统的前端信息采集部分,搜索系统通过各个网站的URL地址取得与网站的联系,提取网站发布的信息,这种形式可以理解为URL接口。另一个URL接口为搜索系统提供的URL接口,通过这个接口,搜索系统为网民和网站编辑提供智能化的信息和服务的检索服务。 
对于网页形式的数据源,如企业员工论坛,中国电信网上大学,北研情报网等可以采用页面抓取的方式,将目标网页嵌入统一门户中,供用户直接使用。 
业务层耦合 
搜索系统采集到的信息需要进行过滤、排重、分类等处理,根据前面功能设计中的阐述,搜索系统在进行数据加工的处理时,调用公用的数据加工工具包,该数据包不仅提供搜索系统的数据加工之用,整合系统、内容管理系统在需要进行数据加工处理时,都会调用这个工具包。该工具包提供Web Services的接口供系统调用,因此说,搜索系统和外部有Web Services的接口。另外,为了便于搜索系统与其他系统的集成,搜索系统提供标准的WebServices接口,供其他系统调用服务。 
API接口 
搜索系统不仅提供信息和服务的检索,还实现对资源的数据挖掘。在本方案中,这部分的实现设计为全文数据库服务器提供API函数供其它系统(如内容管理系统)调用,其它系统利用API开发应用,用于访问提取搜索系统加工完成的数据,对搜索系统处理过的数据信息加以利用。 
福富企业搜索引擎提供统一的的C/C++API、COM组件、JavaBeans组件应用开发接口,支持VC、VB、Delphi、ASP、JSP等主流开发工具,支持Web,C/S和桌面应用开发,可以很方便的开发基于主流平台的特色应用或与其它系统集成。 
应用编程接口的体系结构图如附图4所示: 
福富企业搜索的JavaBeans是基于Java组件技术开发的,具有良好的跨平台特性。用户应用的界面可以是基于浏览器的JSP或Java Applet,也可以是独立的Java应用程序,全文检索服务器JavaBeans为它们提供了统一的接口。 
全文检索服务器JavaBeans基本覆盖了全文检索服务器的全部功能,包括系统控制、对象管理、权限管理、检索和取结果、数据库的维护等。用户可以开发各种灵活的应用。 
同时该开发接口可以应用于任何支持Java的平台,易于维护和移植。在任一环境下开发的应用程序,程序编码不需改动和重新编译便可在多种硬件平台和操作系统上运行。 
全文检索服务器JavaBeans中加入了连接缓冲池,使得在Web应用中建立到全文检索数据库的连接时间大大缩短。同时还具备并行检索的功能,即将大数据分散到多个较小的数据库中,对多个小数据库的检索同时进行,然后在进行结果集的合并,从而大大提高了检索的性能。 
统一门户集成 
对于统一门户和搜索平台之间的集成,需要综合考虑以下几个方面的内容: 
页面集成 
●在统一门户的页面上,集成一个综合搜索平台的使用窗口(搜索栏),用户在登陆前后都可以通过该搜索栏进行搜索。搜索结果在门户页面上展示。 
●在统一门户中,集成一个系统管理Portlet,该Portlet只允许系统管理员使用。系统管理员通过该Portlet对综合搜索平台进行统一管理,包括数据采集、数据分类、权重管理、词库管理、用户管理等。 
内容推送 
统一门户对于不同的热点、专题生成专门的Portlet,对该专题进行展示。企业员工通过选择添加不同的Portlet来保持对其关注的领域保持关注。 
其他个性化服务 
除了以上功能,还可以根据用户的使用习惯提供动态的个性化跟踪服务,系统在后台自动监控用户的行为以及经常浏览的文档,通过挖掘文本内容来分析用户的兴趣与工作热点,从而在用户下一次搜索时,提供与其兴趣或工作热点相近的内容。
附图说明
图1是整体系统业务结构图; 
图2是抽象后的业务结构图; 
图3是系统耦合结构; 
图4是API接口。 

Claims (1)

1.一种基于多数据源、系统耦合方式的福富企业搜索引擎,其特征在于在统一门户的页面上,集成一个综合搜索平台的使用窗口(搜索栏),用户在登陆前后都可以通过该搜索栏进行搜索,结果在门户页面上展示。
1)复杂的应用系统环境下,企业内部数据知识管理系统与各业务系统的数据融合将采用几种方式:
●界面层耦合:包括主动或被动方式的界面直接调用
●业务层耦合:通过各种业务接口,如:SOAP,API等
●数据层耦合:通过数据网关进行耦合
经过和业务系统的耦合,对于这些企业内的数据,可以通过简单的系统配置和一定的数据更新策略来完成数据的采集和建立索引工作。
对于企业外的数据搜索处理,通过页面抓取技术将目标网页抓取,解析页面内容并索引处理,经过处理后的Internet数据和企业内的数据一起进行分类。
2)具体特征是:
界面层耦合
界面层的耦合即界面的直接调用包括主动和被动的方式。
在搜索系统中,有两个位置的接口表现为URL接口,一个位置为搜索系统的前端信息采集部分,搜索系统通过各个网站的URL地址取得与网站的联系,提取网站发布的信息,这种形式可以理解为URL接口。另一个URL接口为搜索系统提供的URL接口,通过这个接口,搜索系统为网民和网站编辑提供智能化的信息和服务的检索服务。
业务层耦合
搜索系统采集到的信息需要进行过滤、排重、分类等处理,根据前面功能设计中的阐述,搜索系统在进行数据加工的处理时,调用公用的数据加工工具包,该数据包不仅提供搜索系统的数据加工之用,整合系统、内容管理系统在需要进行数据加工处理时,都会调用这个工具包。该工具包提供Web Services的接口供系统调用,因此说,搜索系统和外部有Web Services的接口。另外,为了便于搜索系统与其他系统的集成,搜索系统提供标准的Web Services接口,供其他系统调用服务。
API接口
搜索系统不仅提供信息和服务的检索,还实现对资源的数据挖掘。在本方案中,这部分的实现设计为全文数据库服务器提供API函数供其它系统(如内容管理系统)调用,其它系统利用API开发应用,用于访问提取搜索系统加工完成的数据,对搜索系统处理过的数据信息加以利用。
福富企业搜索引擎提供统一的的C/C++API、COM组件、JavaBeans组件应用开发接口,支持VC、VB、Delphi、ASP、JSP等主流开发工具,支持Web,C/S和桌面应用开发,可以很方便的开发基于主流平台的特色应用或与其它系统集成。
应用编程接口的体系结构图如附图3所示:
福富企业搜索的JavaBeans是基于Java组件技术开发的,具有良好的跨平台特性。用户应用的界面可以是基于浏览器的JSP或Java Applet,也可以是独立的Java应用程序,全文检索服务器JavaBeans为它们提供了统一的接口。
全文检索服务器JavaBeans基本覆盖了全文检索服务器的全部功能,包括系统控制、对象管理、权限管理、检索和取结果、数据库的维护等。用户可以开发各种灵活的应用。
同时该开发接口可以应用于任何支持Java的平台,易于维护和移植。在任一环境下开发的应用程序,程序编码不需改动和重新编译便可在多种硬件平台和操作系统上运行。
全文检索服务器JavaBeans中加入了连接缓冲池,使得在Web应用中建立到全文检索数据库的连接时间大大缩短。同时还具备并行检索的功能,即将大数据分散到多个较小的数据库中,对多个小数据库的检索同时进行,然后在进行结果集的合并,从而大大提高了检索的性能。
CN2010105507762A 2010-11-19 2010-11-19 一种基于系统耦合的福富企业搜索引擎技术 Pending CN102075560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105507762A CN102075560A (zh) 2010-11-19 2010-11-19 一种基于系统耦合的福富企业搜索引擎技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105507762A CN102075560A (zh) 2010-11-19 2010-11-19 一种基于系统耦合的福富企业搜索引擎技术

Publications (1)

Publication Number Publication Date
CN102075560A true CN102075560A (zh) 2011-05-25

Family

ID=44033901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105507762A Pending CN102075560A (zh) 2010-11-19 2010-11-19 一种基于系统耦合的福富企业搜索引擎技术

Country Status (1)

Country Link
CN (1) CN102075560A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929888A (zh) * 2011-08-11 2013-02-13 句容今太科技园有限公司 一种基于Web的数据挖掘方法
CN103116620A (zh) * 2013-01-29 2013-05-22 中国电力科学研究院 基于策略的非结构化数据安全过滤方法
CN103631572A (zh) * 2012-08-24 2014-03-12 曙光信息产业(北京)有限公司 一种集中式事件处理系统及其处理方法
WO2017024772A1 (zh) * 2015-08-10 2017-02-16 刘挺 个性化分布式数据挖掘系统
CN106603292A (zh) * 2016-12-19 2017-04-26 国云科技股份有限公司 一种网络资源数据采集系统及其实现方法
CN106656551A (zh) * 2016-10-08 2017-05-10 中国船舶重工集团公司第七�三研究所 一种网络服务系统
CN108270840A (zh) * 2017-01-04 2018-07-10 阿里巴巴集团控股有限公司 一种业务监控、业务数据的搜索方法、装置和电子设备
CN109542292A (zh) * 2018-10-22 2019-03-29 平安医疗健康管理股份有限公司 一种门户集成方法及计算机设备
CN110168495A (zh) * 2016-01-27 2019-08-23 伯尼塞艾公司 可被复用、重新配置和重组为人工智能模型的经训练的人工智能对象
CN110555152A (zh) * 2018-03-31 2019-12-10 甘肃万维信息技术有限责任公司 基于Elasticsearch框架的分布式搜索系统
CN111460078A (zh) * 2020-03-02 2020-07-28 广州高新工程顾问有限公司 一种基于流程的工程监理企业知识库管理系统
CN112269913A (zh) * 2020-10-28 2021-01-26 福建正孚软件有限公司 一种企业级全量数据智能搜索实现方法及系统
CN112965987A (zh) * 2021-03-31 2021-06-15 华申数科(北京)信息科技有限责任公司 一种数字新治理业务的带权限高效模糊检索的方法及应用
US11775850B2 (en) 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model
US11836650B2 (en) 2016-01-27 2023-12-05 Microsoft Technology Licensing, Llc Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models
US11841789B2 (en) 2016-01-27 2023-12-12 Microsoft Technology Licensing, Llc Visual aids for debugging
US11868896B2 (en) 2016-01-27 2024-01-09 Microsoft Technology Licensing, Llc Interface for working with simulations on premises

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080016098A1 (en) * 2006-07-14 2008-01-17 Bea Systems, Inc. Using Tags in an Enterprise Search System
CN101145217A (zh) * 2006-09-13 2008-03-19 鸿富锦精密工业(深圳)有限公司 流程表单处理系统及方法
CN201114128Y (zh) * 2007-09-12 2008-09-10 福建富士通信息软件有限公司 企业搜索引擎装置
CN101583952A (zh) * 2007-01-10 2009-11-18 微软公司 集成企业搜索系统与自定义访问控制应用程序编程接口

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080016098A1 (en) * 2006-07-14 2008-01-17 Bea Systems, Inc. Using Tags in an Enterprise Search System
CN101145217A (zh) * 2006-09-13 2008-03-19 鸿富锦精密工业(深圳)有限公司 流程表单处理系统及方法
CN101583952A (zh) * 2007-01-10 2009-11-18 微软公司 集成企业搜索系统与自定义访问控制应用程序编程接口
CN201114128Y (zh) * 2007-09-12 2008-09-10 福建富士通信息软件有限公司 企业搜索引擎装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴学义: "基于web service的企业搜索引擎的架构及优化", 《科技信息辑》 *
李武装: "基于语义的企业搜索引擎的研究与实现", 《电脑知识与技术》 *
谢文洁等: "企业搜索引擎在供电行业的研究和应用", 《办公自动化》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929888A (zh) * 2011-08-11 2013-02-13 句容今太科技园有限公司 一种基于Web的数据挖掘方法
CN103631572A (zh) * 2012-08-24 2014-03-12 曙光信息产业(北京)有限公司 一种集中式事件处理系统及其处理方法
CN103116620A (zh) * 2013-01-29 2013-05-22 中国电力科学研究院 基于策略的非结构化数据安全过滤方法
CN103116620B (zh) * 2013-01-29 2016-01-20 国家电网公司 基于策略的非结构化数据安全过滤方法
WO2017024772A1 (zh) * 2015-08-10 2017-02-16 刘挺 个性化分布式数据挖掘系统
US11842172B2 (en) 2016-01-27 2023-12-12 Microsoft Technology Licensing, Llc Graphical user interface to an artificial intelligence engine utilized to generate one or more trained artificial intelligence models
US11868896B2 (en) 2016-01-27 2024-01-09 Microsoft Technology Licensing, Llc Interface for working with simulations on premises
US11762635B2 (en) 2016-01-27 2023-09-19 Microsoft Technology Licensing, Llc Artificial intelligence engine with enhanced computing hardware throughput
CN110168495A (zh) * 2016-01-27 2019-08-23 伯尼塞艾公司 可被复用、重新配置和重组为人工智能模型的经训练的人工智能对象
US11841789B2 (en) 2016-01-27 2023-12-12 Microsoft Technology Licensing, Llc Visual aids for debugging
US11836650B2 (en) 2016-01-27 2023-12-05 Microsoft Technology Licensing, Llc Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models
CN110168495B (zh) * 2016-01-27 2023-11-10 微软技术许可有限责任公司 经训练的人工智能对象的可搜索数据库
US11775850B2 (en) 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model
CN106656551A (zh) * 2016-10-08 2017-05-10 中国船舶重工集团公司第七�三研究所 一种网络服务系统
CN106603292B (zh) * 2016-12-19 2019-12-10 国云科技股份有限公司 一种网络资源数据采集系统及其实现方法
CN106603292A (zh) * 2016-12-19 2017-04-26 国云科技股份有限公司 一种网络资源数据采集系统及其实现方法
CN108270840B (zh) * 2017-01-04 2021-08-31 阿里巴巴集团控股有限公司 一种业务监控、业务数据的搜索方法、装置和电子设备
CN108270840A (zh) * 2017-01-04 2018-07-10 阿里巴巴集团控股有限公司 一种业务监控、业务数据的搜索方法、装置和电子设备
CN110555152A (zh) * 2018-03-31 2019-12-10 甘肃万维信息技术有限责任公司 基于Elasticsearch框架的分布式搜索系统
CN109542292A (zh) * 2018-10-22 2019-03-29 平安医疗健康管理股份有限公司 一种门户集成方法及计算机设备
CN111460078A (zh) * 2020-03-02 2020-07-28 广州高新工程顾问有限公司 一种基于流程的工程监理企业知识库管理系统
CN112269913A (zh) * 2020-10-28 2021-01-26 福建正孚软件有限公司 一种企业级全量数据智能搜索实现方法及系统
CN112965987A (zh) * 2021-03-31 2021-06-15 华申数科(北京)信息科技有限责任公司 一种数字新治理业务的带权限高效模糊检索的方法及应用

Similar Documents

Publication Publication Date Title
CN102075560A (zh) 一种基于系统耦合的福富企业搜索引擎技术
CN102033910A (zh) 一种基于多数据源的企业搜索引擎技术
Binding et al. Semantic interoperability in archaeological datasets: Data mapping and extraction via the CIDOC CRM
US8473473B2 (en) Object oriented data and metadata based search
US20030120639A1 (en) Method for gathering and summarizing internet information
Achsan et al. A fast distributed focused-web crawling
Spertus et al. Squeal: a structured query language for the Web
EP2043009A1 (en) Method for building semantic referential gathering semantic service descriptions
Nattrass et al. The total synthesis of the annonaceous acetogenin 10-hydroxyasimicin.
Bukhari et al. Ontology-assisted automatic precise information extractor for visually impaired inhabitants
Rai et al. Comparative features of integrated library management software systems available in Delhi
Alkalbani et al. Design and implementation of the hadoop-based crawler for saas service discovery
Albrand et al. The ATLAS metadata interface
Dixit et al. Design of an ontology based adaptive crawler for hidden web
Dai et al. Search Engine System Based on Ontology of Technological Resources.
Chang et al. The design of a web-based decision support system for the sustainable management of an urban river system
Joshi et al. A novel approach towards integration of semantic web mining with link analysis to improve the effectiveness of the personalized web
Treloar et al. Access to data for eResearch: Designing the Australian national data service discovery services
Kumar et al. Web data mining using xML and agent framework
Vissamsetti et al. Twitter Data Analysis for Live Streaming by Using Flume Technology
Arnoux et al. Automatic clustering for the web usage mining
Yu et al. SSTDE: an open source semantic spatiotemporal data engine for sensor web
Bute et al. Evaluating search effectiveness of some selected search engines
CN103514256A (zh) 一种合理化建议全文检索系统
Agrawal et al. Deep web crawler: a review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110525