CN102004775A - 一种基于智能搜索的福富企业搜索引擎技术 - Google Patents
一种基于智能搜索的福富企业搜索引擎技术 Download PDFInfo
- Publication number
- CN102004775A CN102004775A CN2010105507866A CN201010550786A CN102004775A CN 102004775 A CN102004775 A CN 102004775A CN 2010105507866 A CN2010105507866 A CN 2010105507866A CN 201010550786 A CN201010550786 A CN 201010550786A CN 102004775 A CN102004775 A CN 102004775A
- Authority
- CN
- China
- Prior art keywords
- search
- data
- search engine
- dictionary
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于智能搜索的福富企业搜索引擎技术将企业内部、外部数据统一于同一平台,搜索不同来源地数据信息,支持结构化数据和半结构化数据。首先使用不同的数据采集方式搜集各类信息,对于采集到的信息对象,先要进行一定的智能处理,然后再建立索引;之后,将在搜索引擎的中心数据库中进行统一的存储管理,该系统具备强大的结构化、非结构化和半结构化信息的处理和检索能力,它是整个搜索引擎的数据仓储中心,也是整个搜索引擎的检索动力核心。系统根据用户输入的关键词,采用基于词库的中文分词技术,根据其适用领域设计了一个混合型正向最大匹配算法,来处理分词中的歧义,为加快分词过程中词的查找速度,按首字索引结构对词典进行了组织。搜索结果根据预先设定的权重进行排序,包含高权重分词的结果排在低权重分词结果的前面,为企业提供高效的搜索信息功能。
Description
技术领域
针对传统的信息检索方式存在的不足,本发明提供多种搜索策略,实现高效、准确的搜索功能。系统既支持传统搜索技术,又支持诸如概念搜索、精炼搜索、多语种混合检索等功能。实现企业信息管理的自动化。
技术背景
随着企业信息化的逐步普及,企业拥有越来越多的、各式各样的电子文件和数据信息,面临“信息爆炸”的挑战,交易中的数据每年增长的速度达到61%,而其他各种相关信息的每年增长率甚至超过92%。在过去十年里,磁盘阵列上存储的信息年复合增长速度达到了60%,而且这个速度预计将持续到2010年。2006年所创建、存储及复制的数字信息总量达到了1610亿GB,相当于有史以来全部书籍信息量的300万倍。预计到2010年,这个数字将增长到9880亿GB。如何将这些信息成为企业业务发展甚至是战略决策的好帮手,是CIO们正在思考的问题。而企业搜索技术就提供了一种有效的方式,来帮助企业处理这些日益增长的数据和信息。
然而,目前的搜索系统相对独立,个系统之间资源不能共享,这成为企业管理信息化建设进一步发展所面临的巨大挑战,福富企业搜索引擎实现了不同平台间资源共享的功能,而智能搜索技术是实现这一功能的关键。
发明内容
技术问题:本发明是在各业务系统基础上,实现统一的搜索平台功能,建立企业级的信息搜索平台,实现跨系统、跨平台的综合搜索。根据企业管理者及员工关注热点主动搜索,并能将搜索结果按不同来源和类型在系统上展现。该平台须具备模糊查询、高级搜索、支持中文语义分词等智能搜索功能。
技术方案:
综合搜索平台系统框架设计
福富企业搜索引擎的业务框架可以分为三层,分别是数据采集、综合搜索以及业务展示。整个系统的业务结构如说明书附图1所示:
其中综合搜索位于整个业务结构中的中间层。它负责采集各中数据源的数据,经过索引处理后将数据保存到中心数据库,并通过搜索功能和智能处理模块帮助用户精准的定位所需数据。
如说明书附图2所示,整个搜索引擎系统包含为7大部分:
●数据源
●数据采集层
●数据索引层
●中心数据库
●数据检索层
●智能管理模块
●应用展示接口
根据数据来源可以将数据分为三大类:关系型数据库数据、网页数据和文件系统数据。对于不同的数据类型,针对性的采用不同的技术来实现数据的采集。
数据索引
数据采集结束后,搜索引擎根据预先设置的索引策略对这些数据进行索引,以便在后续提供高效、准确的全文检索服务。
对于采集到的网页等信息对象,先要进行一定的智能处理,然后再建立索引。
数据整合
●正文内容提取
通过结构分析的方法确定信息对象的正文、图片以及表格内容,自动剔除广告、导航信息等与主体信息无关的信息。
●格式自动转换
自动将HTML等格式转换为TEXT文件,方便再加工
●属性自动标引
对信息对象分析出单位名称、系统名称、标题、版次、日期、作者、栏目、分类等属性,分析并标注这些属性信息(元数据自动提取)
●内码自动转换
对于网页等信息对象中可能会包含的多种中文内码(比如繁体Big5,简体GB2312、GBK,Unicode等),转换成统一的中文内码,以便统一管理
中文分词
分词系统是实现中文智能检索的基础,是全文数据库和其他模块功能实现的重要基础。福富企业搜索引擎采用先进的中文分词技术,基于内嵌汉语自动分词系统分词词典,实现信息检索领域领先的分词效果。
建立索引
随着所采集的数据集的增大,索引就成为一种关键的工具。索引是通往数据的快捷路径。通过为每一个要建索引的列值生成一个惟一或者半惟一的键,并将之存储起来。然后在内部将这些键组织到一棵树中,以便尽可能地减少查找某一特定键和特定行时所需的步骤。
福富企业搜索支持按字索引、按词索引、按关键词索引等索引策略,能够适应不同应用环境的需求。在存储空间方面,福富企业搜索实现了高效的数据和索引压缩,实现了低空间膨胀率(一般介于-0.2~1.0之间)。数据索引主要有以下几部分实现内容:
按词索引
按词索引是实现智能概念检索的基础。由于所有辅助知识词典(如主题词典、同义词典、反义词典等)都是基于词的,而不是基于字的,所以只有按词索引,才能进行概念检索。
使用按词索引策略的方法是:为数据库指定相应的分词词典(全字词典除外)、附加分词词典,或者一部稀疏词典。
按字索引
如果数据是文言文或数据库规模很小,可采用按字索引策略。按字索引策略的主要优点是:
●不需要自动分词系统,实现相对简单。
●没有自动分词的错误,查全率较高。
除非需要百分之百的查全率,而不惜牺牲查准率,一般情况下不使用按字索引策略。由于传统意义上的按字索引策略的查询速度太慢,通常实际会采用二元组索引策略。
按关键词索引
按关键词索引实际上是一种抽词索引技术,是在按词索引策略的基础上只抽取其中的某些词进行索引。所有需要索引的关键词构成一部稀疏词典。一般对专用领域的文献可采用这种索引策略。
按关键词索引策略兼有按词索引策略的优点,并且具有更低的空间膨胀率和更快的检索速度。但由于按关键词索引策略只对“关键词”进行了索引,这样就不能象按词索引策略那样可以用任意的自由词进行全文检索,而只能对“关键词”进行检索。
智能管理
采集系统管理控制台
搜索系统采集提供基于浏览器的完善的管理功能。能够对系统运行状态、系统硬件资源的使用情况、对服务器进程的启、停等进行监控。
系统管理控制台提供管理、维护和控制界面,使用户可以协调、控制系统运行,进行参数设置,设定采集策略。
重要的参数设置包括:
●采集源(如网站)、采集频道/栏目、采集深度等。
●并发采集的多线程数目。
●采集策略,包括定义用检索逻辑关系来定位内容的方式。
●网络访问的各项超时参数。
●定时执行周期设置。
另外,管理控制台提供实用方便的用户管理和查询界面的维护、修改工具,便于用户管理人员查询网页信息和管理系统,以便用户管理人员自行对页面增、删、改,便于用户管理人员查询网页信息和管理系统。
词典管理
福富企业搜索引擎可通过全文数据库提供的管理员工具对全文数据库中的检索词典进行维护。
根据实际的使用情况,可以有如下词典的组织:
●主题词词典
●同义词词典
●近义词词典
●查询热点词词典
●限制词词典
系统提供词典维护工具,搜索系统管理人员通过该工具可以对词典进行编制。可以根据行业的特点建立专门的行业类词典,以便有效对行业性较强的信息进行分词索引,提高搜索引擎的查准率和查全率。另外,还提供计算机能识别的词语生成规则,系统将根据这些规则自动生成词典。
搜索结果
集成一个综合搜索平台的使用窗口(搜索栏),用户在登陆前后都可以通过该搜索栏进行搜索。搜索结果在门户页面上展示。
Claims (1)
1.一种基于智能搜索的福富企业搜索引擎技术,其特征在于:
1)福富企业搜索引擎引入了数据网关来实现各类关系数据库与搜索引擎中心数据库之间的数据关联和同步。数据网关包含文档格式分析和文档格式标签过滤模块,该模块对关系型数据库中的文件内容进行分析并存储到中心数据库。
2)数据采集结束后,搜索引擎根据预先设置的索引策略对这些数据进行索引,以便在后续提供高效、准确的全文检索服务;对于采集到的网页等信息对象,先要进行一定的智能处理,然后再建立索引。
3)采用基于词库的中文分词技术,设计一个混合型正向最大匹配算法,该算法利用规则及字频信息来处理分词中的歧义,按首字索引结构对词典进行了组织,加快分词过程中词的查找速度。
4)建立中心数据库,中心数据库在这一阶段的工作可以分为以下几个主要步骤:
●中心数据库的创建和配置
●数据的装入及控制
5)智能管理,搜索系统采集提供基于浏览器的完善的管理功能。能够对系统运行状态、系统硬件资源的使用情况、对服务器进程的启、停等进行监控。同时可通过词典管理对全文数据库中的检索词典进行维护。
6)对于企业现用或新建的系统,如MIS系统提供耦合接口,实现对数据资源的挖掘,供门户网站或其它应用系统使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105507866A CN102004775A (zh) | 2010-11-19 | 2010-11-19 | 一种基于智能搜索的福富企业搜索引擎技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105507866A CN102004775A (zh) | 2010-11-19 | 2010-11-19 | 一种基于智能搜索的福富企业搜索引擎技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102004775A true CN102004775A (zh) | 2011-04-06 |
Family
ID=43812137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105507866A Pending CN102004775A (zh) | 2010-11-19 | 2010-11-19 | 一种基于智能搜索的福富企业搜索引擎技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102004775A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968494A (zh) * | 2012-11-28 | 2013-03-13 | 青岛海信网络科技股份有限公司 | 通过微博采集交通信息的系统及方法 |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
WO2014044167A1 (en) * | 2012-09-18 | 2014-03-27 | Orcastras Technology International Co., Ltd. | Method and computer for indexing and searching structures |
CN104281702A (zh) * | 2014-10-22 | 2015-01-14 | 国家电网公司 | 基于电力关键词分词的数据检索方法及装置 |
CN105183774A (zh) * | 2015-08-07 | 2015-12-23 | 北京思特奇信息技术股份有限公司 | 一种智能查询方法及系统 |
CN107193922A (zh) * | 2017-05-16 | 2017-09-22 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及装置 |
CN108073692A (zh) * | 2017-12-06 | 2018-05-25 | 国云科技股份有限公司 | 一种企业排名系统及其实现方法 |
CN109086458A (zh) * | 2018-09-12 | 2018-12-25 | 杭州格原信息技术有限公司 | 一种应用于勘察设计行业的搜索引擎系统 |
CN110019637A (zh) * | 2017-07-17 | 2019-07-16 | 江苏省质量和标准化研究院 | 一种标准文献检索的排序算法 |
CN111026951A (zh) * | 2019-12-05 | 2020-04-17 | 武汉国贸通大数据有限公司 | 一种国际贸易智能商务信息搜索系统 |
CN111125322A (zh) * | 2019-11-19 | 2020-05-08 | 北京金堤科技有限公司 | 信息搜索方法和装置、电子设备和存储介质 |
CN113342844A (zh) * | 2021-08-09 | 2021-09-03 | 北京能科瑞元数字技术有限公司 | 工业智能搜索系统 |
CN114491253A (zh) * | 2022-01-21 | 2022-05-13 | 北京百度网讯科技有限公司 | 观测信息处理方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845104A (zh) * | 2006-05-22 | 2006-10-11 | 赵开灏 | 信息智能检索加工的系统和方法 |
-
2010
- 2010-11-19 CN CN2010105507866A patent/CN102004775A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845104A (zh) * | 2006-05-22 | 2006-10-11 | 赵开灏 | 信息智能检索加工的系统和方法 |
Non-Patent Citations (1)
Title |
---|
江娟: "《垂直搜索引擎数据分析技术的研究与实现》", 《CNKI中国优秀硕士学位论文全文数据库(电子期刊)》, 28 February 2009 (2009-02-28) * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014044167A1 (en) * | 2012-09-18 | 2014-03-27 | Orcastras Technology International Co., Ltd. | Method and computer for indexing and searching structures |
CN102968494B (zh) * | 2012-11-28 | 2016-09-21 | 青岛海信网络科技股份有限公司 | 通过微博采集交通信息的系统及方法 |
CN102968494A (zh) * | 2012-11-28 | 2013-03-13 | 青岛海信网络科技股份有限公司 | 通过微博采集交通信息的系统及方法 |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
CN104281702A (zh) * | 2014-10-22 | 2015-01-14 | 国家电网公司 | 基于电力关键词分词的数据检索方法及装置 |
CN104281702B (zh) * | 2014-10-22 | 2017-07-11 | 国家电网公司 | 基于电力关键词分词的数据检索方法及装置 |
CN105183774A (zh) * | 2015-08-07 | 2015-12-23 | 北京思特奇信息技术股份有限公司 | 一种智能查询方法及系统 |
CN107193922A (zh) * | 2017-05-16 | 2017-09-22 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及装置 |
CN110019637A (zh) * | 2017-07-17 | 2019-07-16 | 江苏省质量和标准化研究院 | 一种标准文献检索的排序算法 |
CN110019637B (zh) * | 2017-07-17 | 2022-09-23 | 江苏省质量和标准化研究院 | 一种标准文献检索的排序算法 |
CN108073692A (zh) * | 2017-12-06 | 2018-05-25 | 国云科技股份有限公司 | 一种企业排名系统及其实现方法 |
CN108073692B (zh) * | 2017-12-06 | 2021-09-21 | 国云科技股份有限公司 | 一种企业排名系统的实现方法 |
CN109086458A (zh) * | 2018-09-12 | 2018-12-25 | 杭州格原信息技术有限公司 | 一种应用于勘察设计行业的搜索引擎系统 |
CN111125322A (zh) * | 2019-11-19 | 2020-05-08 | 北京金堤科技有限公司 | 信息搜索方法和装置、电子设备和存储介质 |
CN111125322B (zh) * | 2019-11-19 | 2021-02-12 | 北京金堤科技有限公司 | 信息搜索方法和装置、电子设备和存储介质 |
CN111026951A (zh) * | 2019-12-05 | 2020-04-17 | 武汉国贸通大数据有限公司 | 一种国际贸易智能商务信息搜索系统 |
CN113342844A (zh) * | 2021-08-09 | 2021-09-03 | 北京能科瑞元数字技术有限公司 | 工业智能搜索系统 |
CN114491253A (zh) * | 2022-01-21 | 2022-05-13 | 北京百度网讯科技有限公司 | 观测信息处理方法、装置、电子设备及存储介质 |
CN114491253B (zh) * | 2022-01-21 | 2023-09-26 | 北京百度网讯科技有限公司 | 观测信息处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102004775A (zh) | 一种基于智能搜索的福富企业搜索引擎技术 | |
CN107122443B (zh) | 一种基于Spark SQL的分布式全文检索系统及方法 | |
CN102982076B (zh) | 基于语义标签库的多维度内容标注方法 | |
Balakrishnan et al. | Applying webtables in practice | |
CN104021198B (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN105069560A (zh) | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 | |
CN112000773B (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN101894143A (zh) | 一种联邦检索及检索结果集成展现方法及系统 | |
CN106611053A (zh) | 一种数据清理、索引方法 | |
CN102789464A (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
Yafooz et al. | Managing unstructured data in relational databases | |
CN104915405A (zh) | 一种基于多层次的微博查询扩展方法 | |
CN107330111A (zh) | 基于通用形式化本体的领域本体的检索方法及装置 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
KR20100066919A (ko) | 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템 | |
CN103064847A (zh) | 索引装置、索引方法、检索装置、检索方法和检索系统 | |
CN116821376A (zh) | 煤矿安全生产领域的知识图谱构建方法及系统 | |
Jin et al. | Tise: A temporal search engine for web contents | |
Shi et al. | An optimized full-text retrieval system based on lucene in oracle database | |
Lou et al. | Semantic change analysis of Korean verbs based on massive culture corpus data | |
Yafooz et al. | Model for automatic textual data clustering in relational databases schema | |
Romanello et al. | The World of Thucydides: From Texts to Artefacts and Back | |
Jin et al. | Indexing temporal information for web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110406 |