CN103412933A - 一种云搜索平台 - Google Patents

一种云搜索平台 Download PDF

Info

Publication number
CN103412933A
CN103412933A CN2013103627585A CN201310362758A CN103412933A CN 103412933 A CN103412933 A CN 103412933A CN 2013103627585 A CN2013103627585 A CN 2013103627585A CN 201310362758 A CN201310362758 A CN 201310362758A CN 103412933 A CN103412933 A CN 103412933A
Authority
CN
China
Prior art keywords
data
index
module
retrieval
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103627585A
Other languages
English (en)
Inventor
岳嘉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING INSTITUTE OF INTERNET OF THINGS APPLICATION Co Ltd
Original Assignee
NANJING INSTITUTE OF INTERNET OF THINGS APPLICATION Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING INSTITUTE OF INTERNET OF THINGS APPLICATION Co Ltd filed Critical NANJING INSTITUTE OF INTERNET OF THINGS APPLICATION Co Ltd
Priority to CN2013103627585A priority Critical patent/CN103412933A/zh
Publication of CN103412933A publication Critical patent/CN103412933A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云搜索平台,包括:用户权限系统,第二表示层,其特征在于:还包括依次双向数据通信的基础数据层、数据持久层、JAVA应用支撑层和第一表示层,所述用户权限系统分别与所述基础数据层、数据持久层、JAVA应用支撑层和第一表示层双向数据通信,所述第二表示层与所述基础数据层双向数据通信。本发明提供的一种云搜索平台,具有全方位搜索、高可靠性、高存储量、低延迟等特点,为企业或政府提供了一种更为先进、易用、响应和分析速度快的云搜索平台。

Description

一种云搜索平台
技术领域
    本发明涉及一种云搜索平台,属于互联网搜索引擎技术领域。
背景技术
当前的搜索平台基本以网站的方式来提供,可以将不同来源的数据进行提炼、整合,并充分利用已有的技术及应用资源,建成一个供搜索的平台,由于现有搜索平台的数据来源有限且现有数据集成工具具有技术瓶颈,导致无法提供全方位的搜索,搜索结果不可靠,无说服力;并且,现有搜索平台无法提供动态索引,不能够实时提供检索服务;可靠性亦不高,当出现异常故障时无法运行,不能提供不间断服务;另外,随着检索存储数据的不断累积增加,存储空间受限成为一个亟待解决的问题。
发明内容
本发明所要解决的技术问题是,提供一种全方位搜索、高可靠性、高存储量、低延迟的云搜索平台。
为解决上述技术问题,本发明采用的技术方案为:
一种云搜索平台,包括:用户权限系统,第二表示层,其特征在于:还包括依次双向数据通信的基础数据层、数据持久层、JAVA应用支撑层和第一表示层,所述用户权限系统分别与所述基础数据层、数据持久层、JAVA应用支撑层和第一表示层双向数据通信,所述第二表示层与所述基础数据层双向数据通信;
所述基础数据层的数据来源包括以下模块:
数据库模块:所述数据库模块为数据持久层提供基础数据来源,所述数据库模块的数据来源为各个专业型数据库;
文档模块:所述文档模块将基础数据层中的全部文档进行统一的存储,所述文档模块的数据来源为自制文档和网页文档;
应用数据源模块:所述应用数据源模块为第二表示层提供数据源支撑,所述应用数据源模块的数据来源为为网站、门户、OA、MIS应用的编程文件;
所述数据持久层包括索引数据结构模块,所述索引数据结构模块包括以下组件:
索引系统组件:具有Searcher和Indexer应用入口,输入查询语句后,查询分析器分析,将查询语句转换成精确查询的组合,通过所述基础数据层读取数据并用打分器给查询结果打分排序,形成索引,实时提供检索服务,数据增删改时快速同步更新索引,实现动态索引;
数据抽取引擎组件:根据所述索引系统组件形成的索引,由所述基础数据层抽取索引到所述数据持久层,所述抽取是使用ETL技术进行数据抽取; 
数据采集组件:实现由所述数据抽取引擎组件抽取的索引的清洗转换和加载,所述清洗转换和加载是使用ETL技术实现的; 
中文语言处理组件:实现经所述数据采集组件清洗转换和加载的索引的中文转化;
检索服务组件:实现经所述中文语言处理组件中文转化的索引的检索服务;
所述JAVA应用支撑层为服务总线,包括数据处理组件、逻辑检索组件和概念检索组件,所述JAVA应用支撑层具有逻辑检索服务功能、关键字抽取功能、自动摘要功能和中文分词功能,所述逻辑检索组件采用Elasticsearch分布式搜索引擎;
所述第一表示层具有检索模块、统计分析模块和数据维护模块,各模块的功能如下:
检索模块:提供全方位检索手段,包括被检索对象外部特征和正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索和对检索结果按与检索表达式的相关性程度排序,实现精确计算,报告准确的检索记录数,并支持中英文的混合检索,支持日、韩、法、藏、维多语系;
统计分析模块:支持对检索结果的各种排序,包括基于正文内容与检索表达式的相关度计算的相关性排序和基于一个或多个外部特征的字段排序;
数据维护模块:支持多种数据来源的数据的全文索引,自动将关系型数据库中的数据导入全文索引并自动保持同步更新,具备完善的非结构化数据管理功能,所述关系型数据库包括有 DB2、Oracle、SQLServer、MySQL、sybase、Informix、Postgresql,所述关系型数据库属于基础数据层的数据库模块。
所述索引系统组件为Lucene全文检索引擎。
所述JAVA应用支撑层使用的编辑语言为JAVA语言,所述JAVA语言包含JSP技术规范、SERVERLET技术规范、JAVAMAIL技术规范、JNI技术规范、JAVABEANS技术规范和JMS技术规范。
所述Elasticsearch分布式搜索引擎包括全文检索模块、系统设置模块、创建检索菜单和日志管理模块,所述Elasticsearch分布式搜索引擎查询时间不超过210毫秒,所述Elasticsearch分布式搜索引擎具有以下存储空间:存储在基础数据层、存储在数据持久层、存储在亚马逊的s3云平台和存储在hadoop的hdfs云存储系统。
所述系统设置模块中设置有索引方式子模块、是否分索引存储文件子模块和分索引存储文件规则子模块,通过所述创建检索模块创建索引的分布情况和占用空间文件,并进行索引管理,当一台机器出现故障时,所述Elasticsearch分布式搜索引擎将故障机器的索引重新分配,分配至运行正常的机器上;当故障机器恢复正常后,又将索引重新配回。
所述数据维护模块包括自动冗余重建子模块,所述自动冗余重建子模块的功能为:自动设置索引的副本,所述副本的作用一是恢复索引功能,当索引的某个节点、某个分片损坏或丢失时从副本中恢复,二是负载均衡功能,当索引有节点加入或退出时根据机器的负载对索引节点进行重新分配,所述节点为索引的检索结果的某一条,所述分片为某一条检索结果的某一片段。
本发明所达到的有益效果:
(1)提供全方位搜索,因为基础数据层为分布式数据库,数据来源广,包括数据库源、文档源和应用数据源,涵盖了各种来源的数据,同时数据持久层提供的分布式索引和JAVA应用支撑层提供的分布式搜索,可提供全方位搜索,使搜索结果准确无误,有说服力;
(2)检索结果可靠性高,因为数据维护模块可实现高度的可靠性数据容错;
(3)高存储量,具有分布式文件存储的特点,可以存储在基础数据层、存储在数据持久层、存储在亚马逊的s3云平台和存储在hadoop的hdfs云存储系统这4种存储空间,存储量接近于无限;
(4)查询搜索速度快,低延迟,Elasticsearch分布式搜索引擎查询时间不超过210毫秒,既使是第二次检索也不会由于缓存和io阻塞的原因导致检索延迟,因为Elasticsearch分布式搜索引擎先把索引保存在内存中,当内存不够时再把索引持久化到硬盘中,同时它还有一个队列,是在系统空闲时自动把索引写到硬盘中;
(5)本云搜索平台服务7×24小时不间断,采用先进的编解码容错技术,可根据数据可靠性要求设置适当的冗余编解码策略进行部署,可以以极小的磁盘和硬件冗余度,实现高度的可靠性数据容错;即便当一台机器出现故障时,所述Elasticsearch分布式搜索引擎将故障机器的索引进行重新分配,分配至运行正常的机器上;当故障机器恢复正常后,又将索引重新配回,从而提供不间断服务;
(6)提供动态索引,能够实时提供检索服务,即数据增删改时快速同步更新索引,而不需重建整个索引也无需局部重建索引;
(7)支持对检索结果的各种排序:基于文章内容与检索表达式的相关度计算的相关性排序;基于一个或多个特征属性的字段排序;
(8)支持检索结果的统计和浏览;
(9)支持按词索引、按字索引和字词混合索引,即适应不同应用环境的需求;
(10)支持多种数据源数据的全文索引,可自动将关系型数据库中的数据导入全文数据库,如DB2、Oracle、SQLServer、MySQL、sybase、Informix和Postgresql,并自动保持同步更新,具备完善的非结构化数据管理;
(11)支持的文件格式有:Office文件(Word、PowerPoint、Excel等文件)、PDF、XML、文本文件(TXT、INI等各种后缀的纯文本文件)、网页文件(HTML、HTM、MHT等),支持FTP采集脚本;
(12)集成先进的中文自然语言处理技术,实现自然语言及智能扩展检索,如同义词检索、概念检索、拼音检索;
(13)支持中英文的混合检索,支持日、韩、法、藏、维多语系;
(14)允许使用文中的任意字、词、短语、句和片段进行检索;
(15)支持结构化数据和非结构化数据的混合检索。
附图说明
  图1为本发明的结构示意图;
图2为本发明的技术结构示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1-2所示,一种云搜索平台,包括:用户权限系统,第二表示层,其特征在于:还包括依次双向数据通信的基础数据层、数据持久层、JAVA应用支撑层和第一表示层,所述用户权限系统分别与所述基础数据层、数据持久层、JAVA应用支撑层和第一表示层双向数据通信,所述第二表示层与所述基础数据层双向数据通信;
所述基础数据层的数据来源包括以下模块:
数据库模块:所述数据库模块为数据持久层提供基础数据来源,所述数据库模块的数据来源为各个专业型数据库;
文档模块:所述文档模块将基础数据层中的全部文档进行统一的存储,所述文档模块的数据来源为自制文档和网页文档;
应用数据源模块:所述应用数据源模块为第二表示层提供数据源支撑,所述应用数据源模块的数据来源为为网站、门户、OA、MIS应用的编程文件;
所述数据持久层包括索引数据结构模块,所述索引数据结构模块包括以下组件:
索引系统组件:具有Searcher和Indexer应用入口,输入查询语句后,查询分析器分析,将查询语句转换成精确查询的组合,通过所述基础数据层读取数据并用打分器给查询结果打分排序,形成索引,实时提供检索服务,数据增删改时快速同步更新索引,实现动态索引;
数据抽取引擎组件:根据所述索引系统组件形成的索引,由所述基础数据层抽取索引到所述数据持久层,所述抽取是使用ETL技术进行数据抽取; 
数据采集组件:实现由所述数据抽取引擎组件抽取的索引的清洗转换和加载,所述清洗转换和加载是使用ETL技术实现的; 
中文语言处理组件:实现经所述数据采集组件清洗转换和加载的索引的中文转化;
检索服务组件:实现经所述中文语言处理组件中文转化的索引的检索服务;
所述JAVA应用支撑层为服务总线,包括数据处理组件、逻辑检索组件和概念检索组件,所述JAVA应用支撑层具有逻辑检索服务功能、关键字抽取功能、自动摘要功能和中文分词功能,所述逻辑检索组件采用Elasticsearch分布式搜索引擎;
所述第一表示层具有检索模块、统计分析模块和数据维护模块,各模块的功能如下:
检索模块:提供全方位检索手段,包括被检索对象外部特征和正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索和对检索结果按与检索表达式的相关性程度排序,实现精确计算,报告准确的检索记录数,并支持中英文的混合检索,支持日、韩、法、藏、维多语系;
统计分析模块:支持对检索结果的各种排序,包括基于正文内容与检索表达式的相关度计算的相关性排序和基于一个或多个外部特征的字段排序;
数据维护模块:支持多种数据来源的数据的全文索引,自动将关系型数据库中的数据导入全文索引并自动保持同步更新,具备完善的非结构化数据管理功能,所述关系型数据库包括有 DB2、Oracle、SQLServer、MySQL、sybase、Informix、Postgresql,所述关系型数据库属于基础数据层的数据库模块。
所述索引系统组件为Lucene全文检索引擎。
所述JAVA应用支撑层使用的编辑语言为JAVA语言,所述JAVA语言包含JSP技术规范、SERVERLET技术规范、JAVAMAIL技术规范、JNI技术规范、JAVABEANS技术规范和JMS技术规范。
所述Elasticsearch分布式搜索引擎具有全文检索模块、系统设置模块、创建检索模块和日志管理模块,所述Elasticsearch分布式搜索引擎查询时间不超过210毫秒,所述Elasticsearch分布式搜索引擎具有以下存储空间:存储在基础数据层、存储在数据持久层、存储在亚马逊的s3云平台和存储在hadoop的hdfs云存储系统。
所述系统设置模块中包括索引方式子模块、是否分索引存储文件子模块和分索引存储文件规则子模块,通过所述创建检索模块创建索引的分布情况和占用空间文件,并进行索引管理,当一台机器出现故障时,所述Elasticsearch分布式搜索引擎将故障机器的索引进行重新分配,分配至运行正常的机器上;当故障机器恢复正常后,又将索引重新配回。
所述数据维护模块包括自动冗余重建子模块,所述自动冗余重建子模块的功能为:自动设置索引的副本,所述副本的作用一是恢复索引功能,当索引的某个节点、某个分片损坏或丢失时从副本中恢复,二是负载均衡功能,当索引有节点加入或退出时根据机器的负载对索引节点进行重新分配,所述节点为索引的检索结果的某一条,所述分片为某一条检索结果的某一片段。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种云搜索平台,包括:用户权限系统,第二表示层,其特征在于:还包括依次双向数据通信的基础数据层、数据持久层、JAVA应用支撑层和第一表示层,所述用户权限系统分别与所述基础数据层、数据持久层、JAVA应用支撑层和第一表示层双向数据通信,所述第二表示层与所述基础数据层双向数据通信;
所述基础数据层的数据来源包括以下模块:
数据库模块:所述数据库模块为数据持久层提供基础数据来源,所述数据库模块的数据来源为各个专业型数据库;
文档模块:所述文档模块将基础数据层中的全部文档进行统一的存储,所述文档模块的数据来源为自制文档和网页文档;
应用数据源模块:所述应用数据源模块为第二表示层提供数据源支撑,所述应用数据源模块的数据来源为网站、门户、OA、MIS应用的编程文件;
所述数据持久层包括索引数据结构模块,所述索引数据结构模块包括以下组件:
索引系统组件:具有Searcher和Indexer应用入口,输入查询语句后,查询分析器分析,将查询语句转换成精确查询的组合,通过所述基础数据层读取数据并用打分器给查询结果打分排序,形成索引,实时提供检索服务,数据增删改时快速同步更新索引,实现动态索引;
数据抽取引擎组件:根据所述索引系统组件形成的索引,由所述基础数据层抽取索引到所述数据持久层,所述抽取是使用ETL技术进行数据抽取; 
数据采集组件:实现由所述数据抽取引擎组件抽取的索引的清洗转换和加载,所述清洗转换和加载是使用ETL技术实现的; 
中文语言处理组件:实现经所述数据采集组件清洗转换和加载的索引的中文转化;
检索服务组件:实现经所述中文语言处理组件中文转化的索引的检索服务;
所述JAVA应用支撑层包括数据处理组件、逻辑检索组件和概念检索组件,所述JAVA应用支撑层具有逻辑检索服务功能、关键字抽取功能、自动摘要功能和中文分词功能,所述逻辑检索组件采用Elasticsearch分布式搜索引擎;
所述第一表示层具有检索模块、统计分析模块和数据维护模块,各模块的功能如下:
检索模块:提供全方位检索手段,包括被检索对象外部特征和正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索和对检索结果按与检索表达式的相关性程度排序,实现精确计算,报告准确的检索记录数,并支持中英文的混合检索,支持日、韩、法、藏、维多语系;
统计分析模块:支持对检索结果的各种排序,包括基于正文内容与检索表达式的相关度计算的相关性排序和基于一个或多个外部特征的字段排序;
数据维护模块:支持多种数据来源的数据的全文索引,自动将关系型数据库中的数据导入全文索引并自动保持同步更新,具备完善的非结构化数据管理功能,所述关系型数据库包括有 DB2、Oracle、SQLServer、MySQL、sybase、Informix、Postgresql,所述关系型数据库属于基础数据层的数据库模块。
2.根据权利要求1所述的一种云搜索平台,其特征在于:所述索引系统组件为Lucene全文检索引擎。
3.根据权利要求1所述的一种云搜索平台,其特征在于:所述Elasticsearch分布式搜索引擎包括创建检索模块,所述创建检索模块的功能为:创建索引的分布情况和占用空间文件,并进行索引管理,当一台机器出现故障时,所述Elasticsearch分布式搜索引擎将故障机器的索引重新分配,分配至运行正常的机器上;当故障机器恢复正常后,又将索引重新配回。
4.根据权利要求1所述的一种云搜索平台,其特征在于:所述数据维护模块包括自动冗余重建子模块,所述自动冗余重建子模块的功能为:自动设置索引的副本,所述副本的作用一是恢复索引功能,当索引的某个节点、某个分片损坏或丢失时从副本中恢复,二是负载均衡功能,当索引有节点加入或退出时根据机器的负载对索引节点进行重新分配,所述节点为索引的检索结果的某一条,所述分片为某一条检索结果的某一片段。
CN2013103627585A 2013-08-20 2013-08-20 一种云搜索平台 Pending CN103412933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103627585A CN103412933A (zh) 2013-08-20 2013-08-20 一种云搜索平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103627585A CN103412933A (zh) 2013-08-20 2013-08-20 一种云搜索平台

Publications (1)

Publication Number Publication Date
CN103412933A true CN103412933A (zh) 2013-11-27

Family

ID=49605945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103627585A Pending CN103412933A (zh) 2013-08-20 2013-08-20 一种云搜索平台

Country Status (1)

Country Link
CN (1) CN103412933A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631930A (zh) * 2013-12-06 2014-03-12 北京京东尚科信息技术有限公司 一种搜索引擎空间占用统计方法及系统
CN104166666A (zh) * 2014-05-15 2014-11-26 杭州斯凯网络科技有限公司 PostgreSQL高并发流式大数据多维度准实时统计的方法
CN104331421A (zh) * 2014-10-14 2015-02-04 安徽四创电子股份有限公司 一种大数据的高效处理方法及系统
CN106156304A (zh) * 2016-07-01 2016-11-23 中国南方电网有限责任公司 一种用于电力系统的数据检索和排序方法
CN106354759A (zh) * 2016-08-18 2017-01-25 北京百迈客云科技有限公司 基于生物云平台的文章和数据的检索和自动下载系统
CN106503274A (zh) * 2016-12-22 2017-03-15 北京览群智数据科技有限责任公司 一种数据整合与搜索方法及服务器
CN106599294A (zh) * 2016-12-27 2017-04-26 山东开创云软件有限公司 一种分布式、多租户web网页操作搜索引擎构建平台
CN106649386A (zh) * 2015-11-03 2017-05-10 圆通速递有限公司 一种客户信息搜索云系统
CN106997354A (zh) * 2016-01-25 2017-08-01 北京四维图新科技股份有限公司 一种poi数据检索方法及装置
CN107180042A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 搜索引擎的流量统计方法、装置及系统
CN107220347A (zh) * 2017-05-27 2017-09-29 国家计算机网络与信息安全管理中心 一种基于Lucene的支持表达式的自定义相关度排序算法
CN108021592A (zh) * 2016-11-04 2018-05-11 上海大学 一种用于影视素材领域的非结构化数据管理方法
CN108062329A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种数据导入方法及装置
CN108270752A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 网络请求处理的方法及装置
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN108959538A (zh) * 2018-06-29 2018-12-07 新华三大数据技术有限公司 全文检索系统及方法
CN110555152A (zh) * 2018-03-31 2019-12-10 甘肃万维信息技术有限责任公司 基于Elasticsearch框架的分布式搜索系统
CN110647667A (zh) * 2019-09-24 2020-01-03 北京华顺信安科技有限公司 一种用于资产检索的dsl语句转换与查询方法及装置
CN111339421A (zh) * 2020-02-28 2020-06-26 腾讯科技(深圳)有限公司 基于云技术的信息搜索的方法、装置、设备及存储介质
CN112380276A (zh) * 2021-01-15 2021-02-19 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN112965987A (zh) * 2021-03-31 2021-06-15 华申数科(北京)信息科技有限责任公司 一种数字新治理业务的带权限高效模糊检索的方法及应用
CN113157850A (zh) * 2020-11-06 2021-07-23 中科金审(北京)科技有限公司 海量数据多维快速智能搜索方法
CN117591631A (zh) * 2023-11-23 2024-02-23 知学云(北京)科技股份有限公司 基于AI PaaS平台的Elasticsearch文本向量化搜索系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102609769A (zh) * 2011-01-19 2012-07-25 上海中信信息发展股份有限公司 数据采集工具及数据采集方法
CN102663024A (zh) * 2012-03-22 2012-09-12 北京英孚斯迈特信息技术有限公司 一种用于企业数据统一平台的数据门户系统
CN102779134A (zh) * 2011-05-12 2012-11-14 苏州同程旅游网络科技有限公司 基于Lucene的分布式搜索方法
CN102955792A (zh) * 2011-08-23 2013-03-06 崔春明 一种实时全文搜索引擎事务处理的实现方法
US20130191362A1 (en) * 2008-06-13 2013-07-25 News Distribution Network, Inc. Searching, sorting, and displaying video clips and sound files by relevance

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191362A1 (en) * 2008-06-13 2013-07-25 News Distribution Network, Inc. Searching, sorting, and displaying video clips and sound files by relevance
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102609769A (zh) * 2011-01-19 2012-07-25 上海中信信息发展股份有限公司 数据采集工具及数据采集方法
CN102779134A (zh) * 2011-05-12 2012-11-14 苏州同程旅游网络科技有限公司 基于Lucene的分布式搜索方法
CN102955792A (zh) * 2011-08-23 2013-03-06 崔春明 一种实时全文搜索引擎事务处理的实现方法
CN102663024A (zh) * 2012-03-22 2012-09-12 北京英孚斯迈特信息技术有限公司 一种用于企业数据统一平台的数据门户系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁艳 等: "基于solr的异构数据融合检索技术", 《无线互联科技》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631930A (zh) * 2013-12-06 2014-03-12 北京京东尚科信息技术有限公司 一种搜索引擎空间占用统计方法及系统
CN104166666A (zh) * 2014-05-15 2014-11-26 杭州斯凯网络科技有限公司 PostgreSQL高并发流式大数据多维度准实时统计的方法
CN104166666B (zh) * 2014-05-15 2017-03-08 杭州斯凯网络科技有限公司 PostgreSQL高并发流式大数据多维度准实时统计的方法
CN104331421A (zh) * 2014-10-14 2015-02-04 安徽四创电子股份有限公司 一种大数据的高效处理方法及系统
CN106649386A (zh) * 2015-11-03 2017-05-10 圆通速递有限公司 一种客户信息搜索云系统
CN106997354A (zh) * 2016-01-25 2017-08-01 北京四维图新科技股份有限公司 一种poi数据检索方法及装置
CN107180042A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 搜索引擎的流量统计方法、装置及系统
CN107180042B (zh) * 2016-03-09 2020-12-15 创新先进技术有限公司 搜索引擎的流量统计方法、装置及系统
CN106156304A (zh) * 2016-07-01 2016-11-23 中国南方电网有限责任公司 一种用于电力系统的数据检索和排序方法
CN106354759A (zh) * 2016-08-18 2017-01-25 北京百迈客云科技有限公司 基于生物云平台的文章和数据的检索和自动下载系统
CN106354759B (zh) * 2016-08-18 2019-07-12 北京百迈客云科技有限公司 基于生物云平台的文章和数据的检索和自动下载系统
CN108021592B (zh) * 2016-11-04 2021-11-02 上海大学 一种用于影视素材领域的非结构化数据管理方法
CN108021592A (zh) * 2016-11-04 2018-05-11 上海大学 一种用于影视素材领域的非结构化数据管理方法
CN108062329A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种数据导入方法及装置
CN106503274A (zh) * 2016-12-22 2017-03-15 北京览群智数据科技有限责任公司 一种数据整合与搜索方法及服务器
CN106599294A (zh) * 2016-12-27 2017-04-26 山东开创云软件有限公司 一种分布式、多租户web网页操作搜索引擎构建平台
CN108270752A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 网络请求处理的方法及装置
CN108270752B (zh) * 2016-12-30 2021-05-14 北京国双科技有限公司 网络请求处理的方法及装置
CN107220347A (zh) * 2017-05-27 2017-09-29 国家计算机网络与信息安全管理中心 一种基于Lucene的支持表达式的自定义相关度排序算法
CN107220347B (zh) * 2017-05-27 2020-07-03 国家计算机网络与信息安全管理中心 一种基于Lucene的支持表达式的自定义相关度排序算法
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN110555152A (zh) * 2018-03-31 2019-12-10 甘肃万维信息技术有限责任公司 基于Elasticsearch框架的分布式搜索系统
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN108959538B (zh) * 2018-06-29 2021-03-02 新华三大数据技术有限公司 全文检索系统及方法
CN108959538A (zh) * 2018-06-29 2018-12-07 新华三大数据技术有限公司 全文检索系统及方法
CN110647667A (zh) * 2019-09-24 2020-01-03 北京华顺信安科技有限公司 一种用于资产检索的dsl语句转换与查询方法及装置
CN111339421A (zh) * 2020-02-28 2020-06-26 腾讯科技(深圳)有限公司 基于云技术的信息搜索的方法、装置、设备及存储介质
CN111339421B (zh) * 2020-02-28 2023-02-28 腾讯科技(深圳)有限公司 基于云技术的信息搜索的方法、装置、设备及存储介质
CN113157850A (zh) * 2020-11-06 2021-07-23 中科金审(北京)科技有限公司 海量数据多维快速智能搜索方法
CN112380276A (zh) * 2021-01-15 2021-02-19 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN112380276B (zh) * 2021-01-15 2021-09-07 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN112965987A (zh) * 2021-03-31 2021-06-15 华申数科(北京)信息科技有限责任公司 一种数字新治理业务的带权限高效模糊检索的方法及应用
CN117591631A (zh) * 2023-11-23 2024-02-23 知学云(北京)科技股份有限公司 基于AI PaaS平台的Elasticsearch文本向量化搜索系统

Similar Documents

Publication Publication Date Title
CN103412933A (zh) 一种云搜索平台
Dong et al. Indexing dataspaces
US20120059823A1 (en) Index partition maintenance over monotonically addressed document sequences
CN107180113B (zh) 一种大数据检索平台
CN102033910A (zh) 一种基于多数据源的企业搜索引擎技术
CN106250552B (zh) 在搜索引擎结果页面上聚集web页面
CN104239377A (zh) 跨平台的数据检索方法及装置
US10360229B2 (en) Systems and methods for enterprise data search and analysis
Xu et al. Wikipedia‐based topic clustering for microblogs
US11321336B2 (en) Systems and methods for enterprise data search and analysis
CN102004775A (zh) 一种基于智能搜索的福富企业搜索引擎技术
CN106682148A (zh) 一种基于Solr数据搜索的方法及装置
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
Huiping Information Retrieval and the semantic web
CN104252537B (zh) 基于邮件特征的索引分片方法
El-gayar et al. Efficient proposed framework for semantic search engine using new semantic ranking algorithm
CN102637268A (zh) 数字档案馆系统
CN116578609A (zh) 一种基于倒排索引的分布式搜索方法及装置
Fafalios et al. Scalable, flexible and generic instant overview search
Tiepmar CTS text miner–text mining framework based on the canonical text service protocol
CN111723262A (zh) 一种批量合并网络新闻标题、摘要、正文的系统和方法
Raj et al. Malayalam text summarization: Minimum spanning tree based graph reduction approach
Sato et al. The effect of a website directory when employed in browsing the results of a search engine
Vissamsetti et al. Twitter Data Analysis for Live Streaming by Using Flume Technology
Yu Design of network public opinion management system based on big data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131127

RJ01 Rejection of invention patent application after publication