CN101241506A - 一种多维检索方法和装置以及系统 - Google Patents
一种多维检索方法和装置以及系统 Download PDFInfo
- Publication number
- CN101241506A CN101241506A CNA2008100546299A CN200810054629A CN101241506A CN 101241506 A CN101241506 A CN 101241506A CN A2008100546299 A CNA2008100546299 A CN A2008100546299A CN 200810054629 A CN200810054629 A CN 200810054629A CN 101241506 A CN101241506 A CN 101241506A
- Authority
- CN
- China
- Prior art keywords
- dimensional address
- data
- multidimensional
- resource
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开创建了一种多维检索方法和装置以及系统,包括搜集数据、对数据进行预处理、用户请求检索、对用户的查询请求进行解析以及提供检索结果的过程,包括:在至少一个过程中用多维地址规范对数据进行处理。
Description
技术领域
本发明涉及信息检索领域,特别涉及一种多维检索方法和装置以及系统。
背景技术
目前的搜索引擎通过对互联网上海量信息进行收集整理,然后接受用户的检索,并向用户提供与检索要素相关的结果,其主要过程包括数据的搜集过程、预处理过程和提供服务的过程,现在的检索主要是通过关键词、关键字的匹配来实现。用关键词、关键字的匹配方法进行检索的机器,它并不能理解用户的真实的检索目的和意图,机器只提供包含有关键词、关键字的文档,并不能提供于用户提供的检索要素的目的或/和语义相同或相关的检索结果。目前的搜索引擎检索结果的质量取决于对检索要素设置的准确性,设置检索要素对检索质量有着重大的影响,这取决于用户对所要检索信息的理解,确定合理的检索策略。但我们并不能要求每个用户都是专家,现在的情况是往往用户输入一个检索词,所得到的海量结果和我们想要达到的目的相去甚远。一方面由于搜索引擎只对用户提供的检索词,进行检索,而无法对用户提供的检索要素的目的或/和语义相同或相关的检索,使检索的广度和深度受到影响,另一方面搜索引擎又向用户交付出海量的包含有用户提供的关键词的结果。这个海量的结果通常超过几万个条目,里面包含有大量的与用户目的无关的文档,用户无法知道在这几万个条目中哪个是对自己有用的。
本公开是与我们在先公开《构建多维地址的方法、装置以及系统》中国专利申请号是200710139245.2的专利;以及《一种多维地址编址的方法和装置以及系统》中国专利申请号是200710139252.2的专利;以及《一种多维超链接的通讯方法和装置以及系统》中国专利申请号是200710139315.4的专利是相互交叉关联的。《一种生成、部署和运行多维地址可扩展关联标记语言的方法和装置以及系统》中国专利申请号是200810054516.9的专利;以及《一种知识产权保护的方法和装置以及系统》中国专利申请号是200710139620.3的专利是相互交叉关联的。
发明内容
本公开是创建一种多维检索方法和装置以及系统。所述的一种多维检索方法和装置以及系统。是构建在我们在先发明的多维地址的基础之上的。本公开包括构建用多维地址规范构建的资源数据库,在该数据库中用多维地址标识资源,用多维地址定义资源的属性、逻辑结构和属性的相互关联,用多维地址建立检索要素(关键词、关键字)与相关服务的关联,用多维地址建立检索要素(关键词、关键字)与相关语义的关联。在该数据库中包括资源和多维地址的映射列表。在列表中包括语种表项,用该表项定义用多维地址所标识资源是何种语言。用多维地址标识资源包括(关键字、关键词、服务、语义等),通过多维地址的相互关联定义资源之间的相互关联及空间结构,通过对多维地址的检索扩大检索的范围的广度和深度。还包括构建多维地址规范索引数据库,以多维地址索引项来反映用多维地址标识数据的语义;用多维地址标识资源提供的服务;用多维地址标识字;用多维地址标识词;用多维地址标识短句等等。在检索过程中包括用多维地址的蕴涵或外延的层次级别确定数据资源的关联值,距离目标数据资源的层次越近其关联值越高,匹配度越高;距离目标数据资源的层次越远其关联值越低,匹配度越低用多维地址的序位定义数据资源的服务偏好值。
本发明的技术方案是:创建一种多维检索方法,包括搜集数据过程、对数据进行预处理过程、用户请求检索过程、对用户的查询请求进行解析过程以及提供检索结果的过程,包括:在至少一个过程中用多维地址规范对数据进行处理。
本发明的另一方面是创建一种多维检索的装置,包括用于搜集数据的装置、用于对数据进行预处理的装置、用于用户请求检索的装置、用于对用户的查询请求进行解析以及提供检索结果的装置,包括:在至少一个装置中包含有用于多维地址规范对数据进行处理的装置。
本发明的另一方面是创建一种多维检索的系统,包括用于搜集数据的系统、用于对数据进行预处理的系统、用于用户请求检索的系统、用于对用户的查询请求进行解析以及提供检索结果的系统,该系统包括:处理器:可执行用于检索的实用程序;存储装置:与处理器相连,存储用于检索的数据;接口:用于将检索的系统连接于网络;包括在至少一个系统中包含有用于多维地址规范对数据进行处理的系统。
与现有技术相比本发明的有益效果是:
通过用多维地址建立检索要素与相关服务的关联、通过用多维地址建立检索要素与相关语义的关联;提高检索范围的广度和深度、提高返回给用户的检索结果的准确度。本公开用多维地址表示所有数据,通过多维地址可以把网络中关联的或不关联的信息数据联系起来,如将日历、旅馆和某种计划联系起来,将一个街道和地图联系等起来。诸如此类。通过本公开可以建立所有数据无缝连接及检索。
附图说明
图1示出的是本发明应用的一种网络系统的高层的概念性图解
图2示出的是本发明应用的公知的通用计算机环境
图3示出的是本发明应用的多维地址的格式
图4示出的是目前网络中各种资源无规律表述状态的示图
图5示出的是本发明应用多维地址的结构的示图
图6示出的是本发明的用多维地址标识资源的示图
图7示出的是本发明的用多维地址空间结构表示资源的相互关联的示图
图8示出的是本发明的多维地址与资源映射列表
图9示出的是本发明的多维地址与服务映射列表、
图10示出的是本发明的多维地址与字映射列表
图11示出的是本发明的多维地址与词映射列表
图12示出的是本发明的多维地址与短句映射列表
图13示出的是本发明的多维地址与语义映射列表
图14示出的是本发明的搜索引擎的示图
图15示出的是本发明的多维检索的步骤框图
图16示出的是本发明的多维检索的又一实施例步骤框图
具体实施方式
下面结合附图与具体实施方式对本发明进行进一步详细描述:
本公开所述的网络至少包括多维地址协议网络,又称为多维统一网,包括用多维地址协议定义的物理网络以及覆盖在该物理网络上的用多维地址及多维地址协议定义的逻辑网络。
在本发明中图1例示的是本公开的一种多维检索方法和装置以及系统的使用环境,是多维地址协议网络系统我们称这种网络为多维统一网系统,100示出的是该网络的高层的概念性图解,作为例子该网络包括但不限于用多维地址协议定义、进行控数据传输及控制,网络中的各种资源作为例子包括但不限于用多维地址进行标识、定位;图中的101、102、103、104、105、106均为以多维地址标识的资源,作为例子包括但不限于使用或/和遵循多维地址协议规范,其中101为传输介质,102通常为多维统一网高速路由器,103为多维统一网接入节点其通常也是路由器,其用多维地址协议在102多维统一网高速路由器和其它网络之间路由数据分组,多维统一网节点103连接有多个多维统一网高速路由器102以提供一定的冗余,104、105、106均为以多维地址标识的资源,其中105是104的下级别多维地址标识的资源,106是105的下级别多维地址标识的资源,各级别资源的级别是逻辑上的上下级关系,其可能位于不同的网络并通过不同的接入节点103进行数据传输,或直接连接102多维统一网高速路由器进行数据分组传输,所述下级别的多维地址来源于上级别多维地址标识的资源的分配或来源于多维地址管理资源的分配或第三方资源的分配,多个资源通过多维地址的相互关联构成一个多维虚拟网络,各资源维护其关联资源的路由表。多维统一网可以包含有各种拓扑结构的网络,其可以通过增加新的资源,诸如:结点、链路进行无限的扩展,在本发明中的所述的资源是指所有能够通过多维统一网使用的实体,其包括:物理资源、逻辑资源、可移动资源、不可移动资源,作为例子包括但不限于,诸如:节点、连接到网络的接口、计算机群、并行计算机、计算机池、大型数据库、多处理器系统、基于微处理器的系统、可嵌入计算机、个人计算机、手持或膝上型便携式设备、可编程消费电子产品、基于光交换技术的高速交换设备、各种计算机功能部件的集合体、主干网中的管理资源、高速路由器、主干网的接入接点、(路由器)、网关、交换机、域名服务器、通讯设备、精密仪器、传感器、存储器、CPU、ROM、RAM、CPU群集合体、DRAM群集合体、输入/输出接口、计算机软件包括系统软件、应用软件、应用程序、文件、数据实例、数据、元素、信息、电子货币、虚拟人、虚拟动物、虚拟植物、虚拟地球、虚拟城市、虚拟物体,文本文件、音频文件/视频文件、数据、数据实例的数据文件等等。所述多维统一网还包括:由其中的逻辑资源构成的多维虚拟网,多维统一网中主干网部分包含有多个多维统一网高速路由器,这些多维统一网高速路由器接收数据分组,并向网络中的其它节点传递这些数据分组,每个多维统一网高速路由器具有多个到其它多维统一网高速路由器和/或因特网高速路由器的连接并且这些连接具有高数据容量,多维统一网中的资源依靠多维地址协议完成数据通讯,资源中驻留有多维地址协议的其中一个或多个协议软件模块。所示多维统一网100是用通信(传输)介质101以及图中未示出的接口将资源,102、103、104、105、106,可通讯的连接起来并依靠多维地址协议实现数据的传输及应用,图1中100多维统一网系统中的各资源之间的连接可以是任何拓扑结构的连接,包括可以是总线形拓扑结构,环形拓扑结构,星形拓扑结构和这些形状混合构成的混合拓扑结构,以及其它形状的拓扑结构,其总体结构可以通过增加新节点和链路获得无限扩展,其中每个资源节点可以具有多个将其连接到其它资源节点的链路。这些实现多维统一网各系统的物理基础网络即是以通信介质101构成的使数字设备(节点)相互之间具有多个链路进行连接的异构的网络,这些异构的网络包括:以太网、局域网(LAN)、广域网(WAN)、城域网(MAN)、Local Talk、X,25、令牌环局域网,数字数据网(DDN)综合业务数字网(ISDN)、全光网、基于先进的交换和光纤传输技术即ATM和SONET的超高带宽网络服务(vBNS)、ATM、SDH/SONET、基于波分多路复用WDM的光传输技术的传输系统、WDM、DWDM、以光交叉连接OXC/光分插复用OADM设备为主体的光交换系统、3T(Tb/s传输、Tb/s交换、Tb/s路由)光网络、混合光纤同轴电缆网HFC、非对称数字用户线ADSL、WLAN、LMDS(本地多点分配业务)、GSM、GPRS或、3G、HiperLAN、HomeRF、蓝牙、IR(红外)、UWB(超宽带)、JTRs(联合战术无线电系统)、3G(第三代移动通信)、WiMAX、GPRS(通用分组无线电业务)或EDGE(全球演进的增强型数据速率)中的无线电标准等等其它网络及其通信介质。多维统一网系统100可以与互联网(因特网)电视网,通信网等相互共用其由通信介质构成的网络,在多维统一网系统中,因特网,万维网,电视网,通信网以及各种专用网及其资源也可以成为资源,即通过一种设备装置或/和软件(多维地址协议)可以是因特网,万维网,电视网,通信网及各种专用网包括上述各网的资源,成为一种资源。通过此种设备装置或/和软件(多维地址协议)也可以使多维统一网系统的资源成为基于IPV4,IPV6,IPV9地址的系统的资源,此种设备,装置或/和软件包含有多维地址协议,通过多维地址协议的诸如:多维地址配置、标识、路由、管理、控制等实现上述功能,这也是我们发明的一种实施例,其也是一种多维统一网服务管理装置。
图1所示多维统一网系统100中的资源,103、104、105、106也可以是区域的多维统一网服务管理装置、通讯设备或/和路由器、区域(本地)域名服务器、交换机、智能集线器等多维统一网服务管理资源。虽然图1中所示出了各资源102、103、104、105、106及通信介质101,但应当理解这些资源的实际数量和类型可以有所不同,其实际数量可以远大于图1中所示出的数量。在本发明中,在多维统一网络的主干部分分布有大量的专用局域多维统一网服务管理装置(多维统一网路由资源多维统一网/因特网路由资源),这些专用的多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器)具有两个或两个以上的多维统一网、因特网(含以太网)网络接口用于连接不同的网络,其协议至少实现到多维统一网多维地址协议,诸如:多维地址协议中的各种协议包括、,理解多维地址协议、IPV4、IPV6、IPV9等协议,可进行多维统一网/网络层通信,支持两种以上的子网协议(异种网),可进行存储、转发、寻径、并具有一组路由协议。专用的多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器),其用于连接多个逻辑上分开的多维统一网网络和/或因特网网络。当数据从一个子网传输到另一个子网时可通过专用的多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器)来实现。专用的多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器),可以判断多维地址、IP地址(包括IPV4、IPV6、IPV9地址)和选择路径、以及在多维统一网、以及因特网的网络互联环境中建立灵活有效的连接,可完成不同数据分组和介质的访问方法,去连接各种子网,这些专用的多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器)接收数据分组,并向多维统一网、因特网中其它节电传递这些数据,其任何单独的专用多维统一网服务管理装置(多维统一网路由器多维统一网/因特网路由器)可以不必知道所有的多维统一网或/和因特网的最终目的地。传递远程地址的数据分组会被路由到最近的专用多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器)能够进一步细化地址,诸如此类,直到数据分组到达其最终目的地。通常每个专用多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器)具有多个到其它专用多维统一网服务管理装置的连接,并且这些连接具有高数据容量,其通常使用光纤链路。
图1例示中的101是通信介质,其可以是有线介质或无线介质,它们包括但不限于铜导线、同轴电缆、光缆、无线电波、微波、FR(射频)红外线、声音等对本发明而言,图1中的资源102、103、104、105、106可使用任意公知的技术来实现。例如可以使用硬件逻辑组件来实现,如一个或多个ASIC(特定应用的集成电路),或者它可以作为一个或多个处理器执行的一组指令以软件的形式来实现。所述软件包括但不限于程序模块以及实现本发明的特定抽象数据类型的例程、程序、组件数据结构等,它们在多维统一网计算环境中通常位于本地、远程资源和多维服务管理装置以及包括存储器设备在内的计算机存储介质中。图2示出的是200形式的公知的通用计算机环境,该计算机包含但不限于本发明的计算环境。在图2中其210处理器CPU在各种存储单元,如:221只读存储器ROM、222随机存取存储器RAM和高速缓存的支持下运行与多维地址协议相关的软件,包括诸如:包含有生成、或/和识别、或/和应用多维地址协议和关于本公开的多维检索系统软件,即关于多维地址协议和关于本公开的多维检索系统软件,但不限于关于多维地址协议和关于本公开的多维检索系统的软件。关于多维地址协议和关于本公开的多维检索系统的软件或/和其它软件存储在ROM中,称为ROM映像,这个映像中包括,但不限于,关于多维地址协议和关于本公开的多维检索系统软件、还包括其它软件的引导程序、初始化数据、初始屏幕显示或者系统状态的字符串、系统执行的多任务程序以及实时操作系统(RTOS)内核。ROM中存储的ROM映像包含最终设计的代码。RAM存储的包括,但不限于,关于多维地址协议和关于本公开的多维检索系统的软件、还包括其它软件的程序执行过程中变量和堆栈的临时值。高速缓存提前存储来自于外部存储器的指令和数据副本,并在快速处理过程中临时存储结果。关于多维地址协议和关于本公开的多维检索的软件通常嵌入在只读存储器(ROM)中。 图2中的220是用于存储信息和处理器所执行的指令的与总线230相互连接的存储器,它是用于存储数据和程序的随机访问半导体存储器,它可以用以存储关于多维地址协议和关于本公开的多维检索系统但不限于此系统的数据和程序以及临时变量或其它中间信息,存储器220,包括:易失性和/或非易失性存储器形式的计算机存储介质,诸如221只读存储器ROM和222随机存取存储器RAM,ROM中一般存储关于多维地址协议和关于本公开的多维检索系统但不限于多维地址协议和关于本公开的多维检索系统的系统启动程序和参数表,也用来存放RAM中一般存储包括数据和/或程序模块,可由处理单元210立即访问和/或当即操作。常驻内存的监控程序或者操作系统的常驻内存部分,甚至也可用来存放字库或者某些语言的编译程序及解释程序。在图2中示出的220是概念性的存储器,但是应当理解存储器220经常被组织成为高速缓存层次结构的具有高速缓存存储器(cache)的存储器或其它存储设备。CPU210是与系统总线相连接的执行存储器220中存储的指令的通用可编程处理器即是一个集中取指和处理一组通用指令的单元,其可以取指和控制一个给定命令或指令的顺序执行,并与系统的其余部分进行通讯,以及进行对字节或字的算术和逻辑操作。图2中示出的是单独的CPU然而应当理解资源包括:多维统一网服务管理装置(服务器)、请求资源(客户)、调用资源(第三方资源)它们可以是具有多个CPU的计算系统。图2中示例的资源(装置)中还包括:将存储器220在内的各种计算机组件和/或功能单元连接到CPU 210和使功能单元和/或组件之间相互连接的系统总线230,系统总线230可以是任何几种类型的总线结构,包括有:存储器总线、使用任何各种各样总线结构的局部总线、作为例子,但不限于,这样的总线结构:工业标准总线(ISA)、微通道总线(MCA)、扩充的工业标准总线(EISA)、局部总线(PCI)、AGP总线、通用串行总线(USB)视频电子标准协会局部总线(VESA)、基于光波导的短距离光互联总线、在可嵌入式计算机中应用的I2C总线、CAN总线、先进的串行高速总线、PCI-X(扩展PCI)总线、CompactPCI总线(cPCI)、PXI总线、IEEE1394总线、UART总线、以及CoreConnect总线标准、AMBA总线标准、Wishbone总线标准、AHB总线、ASB总线、APB总线等等。图2、中例示的资源(装置)200、中还包括其它的易失性的/非易失性的、可移动的/不可移动的计算机存储介质。图2、示出的计算机200中例示了可读写不可移动的非易失性的磁介质的旋转磁性硬盘驱动单元241其通过不可移动的非易失性存储器接口240连接到系统总线230。200中还包括:磁盘驱动器251、光盘驱动器252、其通过可移动的非易失性存储器接口250连接至系统总线230,磁盘驱动器251、光盘驱动器252可分别装入使用诸如:读写可移动的非易失性磁盘、读写可移动的非易失性光盘,可以在示例的资源(装置)环境中使用其它的可移动的/不可移动的、易失性的/非易失性的计算机存储介质,其还包括,但不限于磁带、磁带存储器、快闪存储器、数字通用盘、数字视频带、移动存储设备、硬盘驱动器、U盘、移动硬盘、固态ROM、固态RAM等等。上述的驱动单元241、251、252及其相关的计算机存储介质,是用于存储关于多维地址协议和本公开多维检索系统的但不限于该系统的计算机可读指令、数据结构、程序模块、数据实例或其它数据。图2中示出的201是终端接口,其可以通过任意的方式或为单个或多个终端提供连接,连接到系统总线230。应当理解,其通常通过在一个或多个电子电路卡上的终端接口I/O处理器支持多个终端的直接连接附接,包括终端可通过局域网络连接到终端接口201也可以是其它方式。
图2中示出的与系统总线230连接的202例示的是应用多维地址协议和关于本公开的多维检索系统的网络和/或互联网接口,它是针对应用多维地址的网络和/或互联网260的数据传输提供物理的连接,可通过多维统一网/互联网接口202发送消息并接收数据,包括程序代码。图2中200形式的公知的通用计算机,示例图中各单元组件及其组合并不是想要对任何关于本发明的用途或功能范围进行任何的限制,也不应该将所例示的各种环境中的单元、组建的一个或组合解释为具有相关的依赖性要求,其单元组件在不影响本发明的实质的情况下可进行任意的增加和/或组合其它未示出的单元、组件,也可以缩减所例示出的单元、组件或/和组合,任何不影响本发明实质的改变都应是视作本发明的等同物范围。
图3示出的是多维地址的格式301是多维地址的信息维部,302是多维地址的空间结构部。在多维地址的信息维中以特定的位和值定义多维地址所标识的资源,诸如定义多维地址是用于标识语义;或是用于标识服务;或是用于标识字;或是用于标识词;或是用于标识短句等等。用多维地址空间结构部302定义多维地址所标识资源的相互关联。还包括用多维地址逻辑结构和关联关系定义数据资源的蕴涵;用多维地址定义数据资源的外延;用多维地址的蕴涵或外延的层次级别确定数据资源的关联值,距离目标数据资源的层次越近其关联值越高,匹配度越高;距离目标数据资源的层次越远其关联值越低,匹配度越低用多维地址的序位定义数据资源的服务偏好值。
图4示出的是目前网络中各种资源无规律表述状态示图,该示图中的各种资源虽然都有各自唯一的标识,但我们无法通过其标识得到其相互关联的解读。其原因是标识符1至10标识符没有定义其相互关联。可以将图4中示出的资源1至资源10可以理解为是不同的关键词、或将图4中示出的资源1至资源10可以理解各种语义的词、或将图4中示出的资源1至资源10可以理解为是各种资源提供的服务。
图5示出的是多维地址的结构,在该示图中可以看出多维地址相互之间具有的关联关系。
图6示出的是用多维地址标识资源的示图,用多维地址标识资源,通过多维地址的相互关联定义资源1至资源10之间的相互关联及空间结构。
图7示出的是用多维地址空间结构表示资源的相互关联的示图,在本示例中示出的是用多维地址定义动植物的分类关系,应当理解多维地址可以表示任何的资源。在本示例中是用多维地址的从高级别到底级别的关系依次定义动植物的分类关系诸如:门、纲、目、科、属、种,即通过多维地址就可以确定用多维地址所标识的资源的属性,门、纲、目、科、属、种,得到和其它资源之间的关系图。本公开包括构建用多维地址规范构建的资源数据库,该数据库中包括资源和多维地址的映射列表。在列表中包括语种表项,用该表项定义用多维地址所标识资源是何种语言。
图8示出的是多维地址与资源映射列表、该表包括列表名称、多维地址表项和多维地址所对应的资源表项、语种表项1至语种表项N。
图9示出的是多维地址与服务映射列表、该表包括列表名称、多维地址表项和多维地址所对应的服务表项、语种表项1至语种表项N。
图10示出的是多维地址与字映射列表、该表包括列表名称、多维地址表项和多维地址所对应的字表项、语种表项1至语种表项N。
图11示出的是多维地址与词映射列表、该表包括列表名称、多维地址表项和多维地址所对应的词表项、语种表项1至语种表项N。
图12示出的是多维地址与短句映射列表、该表包括列表名称、多维地址表项和多维地址所对应的短句表项、语种表项1至语种表项N。
图13示出的是多维地址与语义映射列表、该表包括列表名称、多维地址表项和多维地址所对应的语义表项、语种表项1至语种表项N。本公开的一种多维检索方法中包括搜集数据的过程、对数据进行预处理的过程、用户请求检索的过程、对用户的查询请求进行解析的过程以及提供检索结果的过程,或还包括通过搜索引擎甄别权利数据信息并处理权利数据的过程;
,本公开包括:在上述至少一个过程中用多维地址规范对数据进行处理。所述处理包括用多维地址的属性和数据的属性关联,用多维地址的相互关联定义数据之间的相互关联;在所述一个或多个过程中用多维地址规范对数据进行处理;包括:构建多维地址规范资源数据库,即用多维地址标识数据库中的数源资源;所述数据库包括位于请求端或服务器端;
本公开所述的多维地址规范资源数据库包括建立多维地址规范资源可扩展关联数据库,所述多维地址规范资源可扩展关联数据库,是指在该数据库中用多维地址标识资源,用多维地址定义资源的属性、逻辑结构和属性相互关联,用多维地址建立检索要素(关键词、关键字)与相关服务的关联,用多维地址建立检索要素(关键词、关键字)与相关语义的关联。
所述建立多维地址规范资源可扩展关联数据库,包括建立资源的可扩展关联语义数据库,所述多维地址规范资源的可扩展关联语义数据库是指在该数据库中包括用多维地址标识资源的语义,用多维地址定义资源语义的属性、逻辑结构和属性相互关联。还包括建立资源服务的可扩展关联服务数据库,所述资源服务的可扩展关联服务数据库是指在该数据库中包括用多维地址标识资源提供的服务,用多维地址定义资源服务的属性、逻辑结构和属性相互关联。还包括用多维地址建立检索要素(关键词、关键字)与相关服务的关联的数据库,用多维地址建立检索要素(关键词、关键字)与相关语义的关联的数据库。
图14示出的是搜索引擎的示图,该搜索引擎1400通过搜索器1402在网络1401中漫游,发现和搜集信息,包括:从一个起始的多维地址集合开始依据多维地址的逻辑关联,以宽度优先或深度优先或启发式方式循环的在网络中搜集信息。还包括从一个起始的多维统一资源定位器集合开始顺着超链接以宽度优先或深度优先或启发式方式循环的在网络中搜集信息。还包括从一个起始的统一资源定位器(URL)以宽度优先或深度优先或启发式方式循环的在网络中搜集信息。所述网络1401包括多维地址协议网(多维统一网)、互联网等。用控制器1403控制搜索器在单位时间内对一个网站抓取的数量、控制处于分布状态的搜索器协调工作、包括控制分布的信息获取和计算以及对其进行的数据统一、控制网页的重复抓取、控制分布状态数据库1405的数据存储、包括数据处理后的分布存储和管理,包括资源的定位、更新、增加、删除以及移动机制,还包括控制处理大规模并发请求时的分发机制。1404多维地址规范处理模块;对搜索器抓取的资源进行处理,用多维地址规范对预先搜集的数据进行数据预处理;包括:包括用多维地址的属性和数据的属性相关联,用多维地址的相互关联定义数据之间的相互关联;用多维地址建立检索要素(关键词、关键字等)与相关服务的关联,用多维地址建立检索要素(关键词、关键字等)与相关语义的关联,诸如:用多维地址标识数据的语义;用多维地址标识资源提供的服务;用多维地址标识字;用多维地址标识词;用多维地址标识短句等等。用数据库1405存储压缩的用搜集器抓取来的网页,包括原始数据库和用多维规范进行处理后的资源数据库;所述数据库包括多种语言的数据库诸如:汉文(包括简体和繁体)、英文、日文、法文、德文、西班牙文、意大利文、希伯来文、葡萄牙文、俄文、朝鲜文、阿拉伯文等世界各国的文字语言的数据库,还包括藏文、蒙文、维吾尔文等民族语言数据库。索引系统1406包括:索引器、多维地址规范索引数据库、原始数据索引数据库、索引器的功能是理解搜索器所搜索的信息,从中抽取出包含有多维地址的索引项,用于表示文档以及生成文档库的索引表。所述索引项包括有多维地址索引、客观索引项和内容索引等。多维地址索引项是用来反映用多维地址标识数据的语义;用多维地址标识资源提供的服务;用多维地址标识字;用多维地址标识词;用多维地址标识短句等等。所述客观索引项包括反映与文档的语意内容无关,如作者名、URL、权利信息、更新时间、编码、长度、链接流行度等等。所述内容索引项包括用来反映文档内容,如关键词及其权重、短语、单字等等。所述内容索引项和多维地址索引可以分为单索引项和多索引项或称短语索引项,所述单索引项就是各种语汇的单词或切分词语,或多维地址标识的各种语汇的单词或切分词语。包括:给单索引项赋予一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。包括用统计法、信息论法和概率法,短语索引项的提取方法有统计法、概率法、和语言学法。构建的索引表一般使用某种形式的倒排表(inversionlist),即由索引项查找相应的文档。索引表还包括记录索引项在文档中出现的位置,使检索器用于计算索引项之间的相邻或接近关系(proximity)。所述索引器包括使用集中式索引算法或分布式索引算法,包括进行即时索引(instantindexing)。索引器索引的资源包括索引网页、索引各种媒体,包括文字、动画、音频、视频、服务及其他特殊资源(如PDF、XML等)。
多维地址规范索引数据库,是存储用多维地址索引的相关信息的数据库。原始数据索引数据库,是存储用关键词、字、权重等索引的相关信息的数据库。
用户接口1408是接受用户1407所输入的查询要素,如查询字、词、查询的服务、短语等,接口还向用户1407显示查询的结果在显示结果的同时还向用户显示用多维地址规范处理的与用户所输入的检索要素相关的服务或/和语义列表或结构树,使用户可选择更准确的检索要素,以得到更精确的检索范围,使检索的结果与检索目的密切相关。搜索引擎还包括建立用户行为日志数据库1409用于存储和记录用户的查询日志和点击日志,记录查询/点击的时间、查询/点击要素等用户信息,查询要素包括,诸如:提交时间、用户多维地址、页号、查询字、查询词、查询的服务、查询短语等;点击要素包括:点击时间、用户多维地址、点击要素、点击的多维统一资源定位器、URL、权利信息、点击页面的排序等等。通过日志分析器1410对用户的查询行为/点击行为进行统计和分析,包括:用户查询要素的分布情况、雷同查询要素的衰减统计、相邻N项查询项的偏差分析、用户点击多维地址、多维统一资源定位器、URL的分布情况、用户在输出结果中的翻页情况、是否在高速缓存中等。检索器1411用于根据用户的查询条件在索引库1406中检索出相关文档,包括:通过特定的检索模型对文档与查询的要素进行相关度的评价以及对所要输出的结果排序,所述检索模型包括,诸如:集合理论模型、代数模型、概率模型、混合模型。检索器包括对用户的检索条件多维地址规范处理模块1412,用于对用户输入的检索要素进行多维地址规范处理,用多维地址规范对用户提交的查询数据进行数据处理,包括:包括用多维地址的属性和检索要素数据的属性相关联,用多维地址的相互关联定义数据之间的相互关联;用多维地址建立检索要素(关键词、关键字)与相关服务的关联,用多维地址建立检索要素(关键词、关键字)与相关语义的关联,诸如:用多维地址标识数据的语义;用多维地址标识资源提供的服务;用多维地址标识字;用多维地址标识词;用多维地址标识短句等等,以实现用多维地址进行数据检索。
图15示出的是本公开的多维检索的步骤的实施例包括步骤1500开始;1501、用户输入检索要素、1502接受用户提交的查询元素;1503将用户提交的查询元素与数据库中的数据元素进行匹配;1504将查询元素解析为多维地址;1505用多维地址定义的属性、关联关系确定查询元素的匹配信息;1506返回一个和用户查询匹配的信息列表;所述列表中的每一个条目包括:明示的权利信息部分;标题部分;网址连接部分,包括经过绑定的数据的访问地址和服务统计地址部分:通过该部分使用户在点击权利数据的访问地址(URL、多维URL等)访问该权利数据时,还建立与第三资源的连接,使第三资源通过该连接获得提供该链接信息的搜索引擎的地址信息,或还包括用户访问权力数据的时间信息;数据内容的摘要部分;所述条目的排序要素包括:匹配度、时间、竞价,还包括向用户显示用多维地址规范处理的与用户所输入的检索要素相关的服务或/和语义列表或结构树或分布图,使用户可选择更准确的检索要素;1507用户确定是否用新的检索要素进行检索,如果不需要进入步骤1508结束。如果步骤1507确定用新的检索要素进行检索,以得到更精确的检索范围;步骤1509用户确定新的检索要素点击、跳至步骤1502
图16示出的是本公开的多维检索的步骤的又一实施例包括步骤1600开始;1601、用户输入检索要素1602接受用户提交的查询元素;1603将用户提交的查询元素与数据库中的数据元素进行匹配;1604将查询元素解析为多维地址;1605用多维地址定义的属性、关联关系确定查询元素的匹配信息;1606从数据库中检索与搜索信息对应的资源,并获取该资源的多维地址,1607根据多维地址的相互关联确定搜索资源的关联资源;1608将资源及其关联资源信息在搜索服务器的资源数据库中进行匹配,1609将匹配得到的即时结果返回用户本地程序或脚本程序包括返回一个和用户查询匹配的信息列表;所述列表中的每一个条目包括:明示的权利信息部分;标题部分;网址连接部分,包括经过绑定的数据的访问地址和服务统计地址部分:通过该部分使用户在点击权利数据的访问地址(URL、多维URL等)访问该权利数据时,还建立与第三资源的连接,使第三资源通过该连接获得提供该链接信息的搜索引擎的地址信息,或还包括用户访问权力数据的时间信息;数据内容的摘要部分;所述条目的排序要素包括:匹配度、时间、竞价。在当前的搜索页面上的第一显示栏中显示所搜索资源的直接结果;第二显示栏中显示所搜索资源的关联结果;还包括向用户显示用多维地址规范处理的与用户所输入的检索要素相关的服务或/和语义列表或结构树或分布图,使用户可选择更准确的检索要素;1610用户确定是否用新的检索要素进行检索,如果不需要进入步骤1611结束。如果步骤1509确定用新的检索要素进行检索,以得到更精确的检索范围;步骤1612用户确定新的检索要素点击、跳至步骤1602
上述所有实施例的描述中示出的是作为本发明的较佳实施例,本发明还可以有其它的实施例,即在不脱离本发明范围的情况下可进行修改,应当理解这里公开的是优选的实施例,上述的方法步骤中,可以存在除了这里所例示的以外还可以有许多变化,具体的应当理解到,可以改变执行某些步骤的顺序,某些步骤是可选的,或者可以按照与这里描述的不同的方式被执行,并且某些步骤可以被组合。应当理解各实施例只是示范性的不应当作为对我们发明范围的限制,而是应视为凡是落入权利要求范围和其等同物的范围和精神内的所有实施例都是我们的发明。
Claims (8)
1一种多维检索方法,包括搜集数据过程、对数据进行预处理过程、用户请求检索过程、对用户的查询请求进行解析过程以及提供检索结果的过程,其特征在于,包括:在至少一个过程中用多维地址规范对数据进行处理。
2如权利要求1所述的一种多维检索方法,其特征在于,所述在至少一个过程中用多维地址规范对数据进行处理;包括用多维地址的属性和数据的属性相关联,用多维地址的相互关联定义数据之间的相互关联;包括
用多维地址建立检索要素与相关服务的关联;
用多维地址建立检索要素与相关语义的关联。
3如权利要求2所述的一种多维检索方法,其特征在于,在所述一个或多个过程中用多维地址规范对数据进行处理;包括:构建多维地址规范资源数据库,用多维地址标识数据库中的数源资源;
所述数据库包括位于请求端或服务器端。
4如权利要求1所述的一种多维检索方法,其特征在于,所述用多维地址规范对数据进行处理;包括
用多维地址规范对预先搜集的数据进行数据预处理;或
用多维地址规范对用户提交的查询数据进行数据处理。
5如权利要求1所述的一种多维检索方法,其特征在于,所述用多维地址规范对数据进行处理;包括
-接受用户提交的查询元素;
-将用户提交的查询元素与数据库中的数据元素进行匹配;
-将查询元素解析为多维地址;
-用多维地址定义的属性、关联关系确定查询元素的匹配信息;
-返回一个和用户查询匹配的信息列表;
所述列表中的每一个条目包括:标题、网址链接、摘要、权利信息部分;
所述条目的排序要素包括:匹配度、时间、竞价。
6如权利要求5所述的一种多维检索方法,其特征在于,所述:将用户提交的查询元素与数据库中的数据元素进行匹配;包括
对标识资源的多维地址匹配、关键字匹配、关键词匹配、服务匹配、语义匹配;
7一种多维检索的装置,包括用于搜集数据的装置、用于对数据进行预处理的装置、用于用户请求检索的装置、用于对用户的查询请求进行解析过程以及提供检索结果的装置,其特征在于,包括:在至少一个装置中包含有用于多维地址规范对数据进行处理的装置。
8一种多维检索的系统,包括用于搜集数据的系统、用于对数据进行预处理的系统、用于用户请求检索的系统、用于对用户的查询请求进行解析的以及提供检索结果的系统,其特征在于该系统包括:
处理器:可执行用于检索的实用程序;
存储装置:与处理器相连,存储用于检索的数据;
接口:用于将检索的系统连接于网络;包括
在至少一个系统中包含有用于多维地址规范对数据进行处理的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100546299A CN101241506A (zh) | 2008-03-17 | 2008-03-17 | 一种多维检索方法和装置以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100546299A CN101241506A (zh) | 2008-03-17 | 2008-03-17 | 一种多维检索方法和装置以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101241506A true CN101241506A (zh) | 2008-08-13 |
Family
ID=39933039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100546299A Pending CN101241506A (zh) | 2008-03-17 | 2008-03-17 | 一种多维检索方法和装置以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101241506A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102571936A (zh) * | 2011-12-23 | 2012-07-11 | 华为技术有限公司 | 数据查找的方法、装置及系统 |
CN101719155B (zh) * | 2009-12-29 | 2012-11-21 | 北京航空航天大学 | 一种支持分布式多集群计算环境的多维属性范围查询的方法 |
CN101872349B (zh) * | 2009-04-23 | 2013-06-19 | 国际商业机器公司 | 处理自然语言问题的方法和装置 |
CN103269342A (zh) * | 2013-05-10 | 2013-08-28 | 南通大学 | 一种基于ipv6的高维大规模包匹配方法 |
CN104111967A (zh) * | 2013-04-16 | 2014-10-22 | Arm有限公司 | 用于微处理器系统中的多维索引的方法和设备 |
CN105225141A (zh) * | 2014-06-18 | 2016-01-06 | 林淑贞 | 房屋对象配对系统及方法 |
CN105488048A (zh) * | 2014-09-16 | 2016-04-13 | 中兴通讯股份有限公司 | 一种数据查询的方法及装置 |
CN105894341A (zh) * | 2014-08-21 | 2016-08-24 | 林淑贞 | 整合式房屋对象配对系统及方法 |
CN107515866A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种数据操作方法、装置和系统 |
CN110704548A (zh) * | 2019-09-30 | 2020-01-17 | 北京元年科技股份有限公司 | 用于多维数据库的筛选有效计算数据的系统和方法 |
-
2008
- 2008-03-17 CN CNA2008100546299A patent/CN101241506A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872349B (zh) * | 2009-04-23 | 2013-06-19 | 国际商业机器公司 | 处理自然语言问题的方法和装置 |
CN101719155B (zh) * | 2009-12-29 | 2012-11-21 | 北京航空航天大学 | 一种支持分布式多集群计算环境的多维属性范围查询的方法 |
CN102571936B (zh) * | 2011-12-23 | 2015-07-08 | 华为技术有限公司 | 数据查找的方法、装置及系统 |
CN102571936A (zh) * | 2011-12-23 | 2012-07-11 | 华为技术有限公司 | 数据查找的方法、装置及系统 |
CN104111967B (zh) * | 2013-04-16 | 2019-06-07 | Arm有限公司 | 处理内核调用的方法、系统、处理器和计算机可读介质 |
CN104111967A (zh) * | 2013-04-16 | 2014-10-22 | Arm有限公司 | 用于微处理器系统中的多维索引的方法和设备 |
CN103269342A (zh) * | 2013-05-10 | 2013-08-28 | 南通大学 | 一种基于ipv6的高维大规模包匹配方法 |
CN103269342B (zh) * | 2013-05-10 | 2016-03-02 | 南通大学 | 一种基于ipv6的高维大规模包匹配方法 |
CN105225141A (zh) * | 2014-06-18 | 2016-01-06 | 林淑贞 | 房屋对象配对系统及方法 |
CN105894341A (zh) * | 2014-08-21 | 2016-08-24 | 林淑贞 | 整合式房屋对象配对系统及方法 |
CN105488048A (zh) * | 2014-09-16 | 2016-04-13 | 中兴通讯股份有限公司 | 一种数据查询的方法及装置 |
CN107515866A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种数据操作方法、装置和系统 |
CN107515866B (zh) * | 2016-06-15 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 一种数据操作方法、装置和系统 |
CN110704548A (zh) * | 2019-09-30 | 2020-01-17 | 北京元年科技股份有限公司 | 用于多维数据库的筛选有效计算数据的系统和方法 |
CN110704548B (zh) * | 2019-09-30 | 2021-12-10 | 北京元年科技股份有限公司 | 用于多维数据库的筛选有效计算数据的系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101241506A (zh) | 一种多维检索方法和装置以及系统 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
US6490579B1 (en) | Search engine system and method utilizing context of heterogeneous information resources | |
US7499965B1 (en) | Software agent for locating and analyzing virtual communities on the world wide web | |
US7092938B2 (en) | Universal search management over one or more networks | |
US20010047353A1 (en) | Methods and systems for enabling efficient search and retrieval of records from a collection of biological data | |
CN100462969C (zh) | 利用互联网为公众提供和查询信息的方法 | |
US20130013616A1 (en) | Systems and Methods for Natural Language Searching of Structured Data | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
CN101201843A (zh) | 用于搜索的方法和计算机系统 | |
CN104375992A (zh) | 一种地址匹配的方法和装置 | |
KR20100068532A (ko) | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 | |
CN1794239A (zh) | 具有搜索功能的模板式网站自动生成系统及其方法 | |
CN102722499A (zh) | 搜索引擎及其实现方法 | |
Kao et al. | Entropy-based link analysis for mining web informative structures | |
CN102063454A (zh) | 一种搜索与应用相结合的方法和设备 | |
CN1589444A (zh) | 信息搜索支持系统,计算机程序和程序存储媒体 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
Kumar et al. | Web structure mining: Exploring hyperlinks and algorithms for information retrieval | |
CN102214182A (zh) | 一种根据ip地址进行精确查询的搜索方法 | |
KR100379635B1 (ko) | 월드와이드 웹페이지를 검색하기 위한 시스템과, 이검색결과를 저장하고, 뷰잉하고, 활용하는 방법 | |
JP2000508450A (ja) | インターネットから検索される情報を知識ベース表現を使用して編成する方法 | |
Duhan et al. | A novel approach for organizing web search results using ranking and clustering | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN102222067A (zh) | 一种根据关键字ip地址进行精确查询的搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20080813 |