CN102298594A - 一种适用于大信息量网站的搜索处理方法及装置 - Google Patents

一种适用于大信息量网站的搜索处理方法及装置 Download PDF

Info

Publication number
CN102298594A
CN102298594A CN2010102133866A CN201010213386A CN102298594A CN 102298594 A CN102298594 A CN 102298594A CN 2010102133866 A CN2010102133866 A CN 2010102133866A CN 201010213386 A CN201010213386 A CN 201010213386A CN 102298594 A CN102298594 A CN 102298594A
Authority
CN
China
Prior art keywords
search
keyword
processing method
large information
search processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102133866A
Other languages
English (en)
Inventor
苏宸琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lvwen Business Consulting Co Ltd
Original Assignee
Shanghai Lvwen Business Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lvwen Business Consulting Co Ltd filed Critical Shanghai Lvwen Business Consulting Co Ltd
Priority to CN2010102133866A priority Critical patent/CN102298594A/zh
Publication of CN102298594A publication Critical patent/CN102298594A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种适用于大信息量网站的搜索处理方法及装置,其中装置包括服务器群、电信机房、主干网络出口端、通信网络、终端群,所述的服务器群、电信机房、主干网络出口端、通信网络、终端群依次连接,其中方法包括1)关键词冗余部分预处理等步骤。与现有技术相比,本发明具有开发成本低、运行环境成本低、再次开发性和传播性良好等优点。

Description

一种适用于大信息量网站的搜索处理方法及装置
技术领域
本发明涉及一种搜索方法及装置,尤其是涉及一种适用于大信息量网站的搜索处理方法及装置。
背景技术
一、搜索引擎:
谷歌、百度、雅虎等一批先进技术领导的搜索引擎进入国内市场,对中文类网站的搜索效果已日渐成熟。基于中文搜索引擎内的搜索技术分为三部分:分词、搜索、排序。
分词:中文分词,是将一句话分成若干个关键词。该技术目前有2种方法:1)积累词库,该方法比较常用,且能随着词库的增加而更加完善程序本身功能。但缺点是,刚涉足搜索领域与企业内部软件没有足够的条件建立庞大的词库。2)智能分词技术,该技术仅存在于技术文献中,目前尚属于理论阶段。
搜索:搜索结果的有效程度,取决于分词的效果的完善程度。一个完善的分词功能,能够将一句复杂的中国话分离成几个正确的关键词进行搜索,极大的提高搜索效率。
排序:根据关键词在全文中的权重,通过复杂算法规避权重作弊,在搜索结果中的排序。经过时间的积累,计算搜索结果的准确率,微调关键词的权重。
二、站内模糊搜索:
站内模糊搜索,基于对用户输入的关键词,在数据库中进行“包含”的判断,来搜索数据内容,搜索结果按照已有元素排序。
搜索引擎的搜索技术,开发成本偏高,配置要求较高,对企业或个人用户往往很难将现有的搜索技术运用到自己的网站上做站内搜索。而站内搜索基于原理与算法的简单,但缺乏了搜索引擎关键词输入的自由度,同时忽略了搜索结果的排序。站内模糊搜索虽然可以普及,但对于数据量日趋庞大,站内搜索也将渐渐力不从心。
如上所述,互联网的搜索技术,处于二个分化的状态,一个高高在上,一个日趋淘汰。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种开发成本低、运行环境成本低、再次开发性和传播性良好的适用于大信息量网站的搜索处理方法及装置。
本发明的目的可以通过以下技术方案来实现:
一种适用于大信息量网站的搜索处理方法,其特征在于,包括以下步骤:
1)关键词冗余部分预处理;
2)关键词提取词库词语处理;
3)关键词分割处理,将助词作为基本分割词,分割成若干伪词语;
4)若步骤2)和步骤3)都未能处理的时,将关键词分割成一个一个的文字;
5)提交数据库进行内容查询,生成与关键词匹配的相关搜索结果;
6)内容筛选后,列出预处理查询结果,加亮匹配的文字;
7)计算权重,根据匹配文字的并列程度或根据关键词在文中的密度来计算;
8)根据权重排序;
9)将排序结果输出,分辨词语并加以记录;
10)根据最终用户选定的内容,微调搜索结果的排序。
一种适用于大信息量网站的搜索处理装置,其特征在于,包括服务器群、电信机房、主干网络出口端、通信网络、终端群,所述的服务器群、电信机房、主干网络出口端、通信网络、终端群依次连接。
所述的服务器群包括主控服务器、INTNET信息服务器、数据库服务器。
与现有技术相比,本发明具有以下优点:
1)开发成本低;
2)运行环境成本低;
3)采用软件基础技术作为载体,具有良好的再次开发性;
4)采用最常用的开发语言与数据库结构,可以方便的移植为各语言版本,具有良好的传播性。
附图说明
图1为本发明的流程图;
图2为本发明的硬件结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种适用于大信息量网站的搜索处理方法,包括以下步骤:
1.关键词冗余部分预处理,去除对搜索没用帮助的空格等元素;
2.关键词提取词库词语处理;
3.关键词分割处理,将助词作为基本分割词,分割成若干伪词语;
4.在步骤2和步骤3都未能处理的时候,将关键词分割成一个一个的文字;
5.提交数据库进行内容查询,生成与关键词匹配的相关搜索结果;
6.内容筛选后,列出预处理查询结果,加亮匹配的文字;
7.计算权重,根据匹配文字的并列程度或根据关键词在文中的密度来计算;
8.根据权重排序;
9.将排序结果输出,分辨词语并加以记录;
30.根据最终用户选定的内容,微调搜索结果的排序。
如图2所示,一种适用于大信息量网站的搜索处理装置,包括服务器群1、电信机房2、主干网络出口端3、通信网络4、终端群5,所述的服务器群1、电信机房2、主干网络出口端3、通信网络4、终端群5依次连接。所述的服务器群1包括主控服务器11、INTNET信息服务器12、数据库服务器13。无需复杂的网络拓扑,只需在流量增大时,同时增加网络带宽与服务器物理性能。
本发明的软件环境要求:1)主控服务器11的操作系统,可以使用WINDOWSSEVER。2)INTNET信息服务器12,可以使用与WINDOWS SEVER配套的IIS。3)数据库服务器13,目前兼容ACCESS、SQLSEVER等主流数据库服务器。

Claims (3)

1.一种适用于大信息量网站的搜索处理方法,其特征在于,包括以下步骤:
1)关键词冗余部分预处理;
2)关键词提取词库词语处理;
3)关键词分割处理,将助词作为基本分割词,分割成若干伪词语;
4)若步骤2)和步骤3)都未能处理的时,将关键词分割成一个一个的文字;
5)提交数据库进行内容查询,生成与关键词匹配的相关搜索结果;
6)内容筛选后,列出预处理查询结果,加亮匹配的文字;
7)计算权重,根据匹配文字的并列程度或根据关键词在文中的密度来计算;
8)根据权重排序;
9)将排序结果输出,分辨词语并加以记录;
10)根据最终用户选定的内容,微调搜索结果的排序。
2.一种适用于大信息量网站的搜索处理装置,其特征在于,包括服务器群、电信机房、主干网络出口端、通信网络、终端群,所述的服务器群、电信机房、主干网络出口端、通信网络、终端群依次连接。
3.根据权利要求2所述的一种适用于大信息量网站的搜索处理装置,其特征在于,所述的服务器群包括主控服务器、INTNET信息服务器、数据库服务器。
CN2010102133866A 2010-06-28 2010-06-28 一种适用于大信息量网站的搜索处理方法及装置 Pending CN102298594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102133866A CN102298594A (zh) 2010-06-28 2010-06-28 一种适用于大信息量网站的搜索处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102133866A CN102298594A (zh) 2010-06-28 2010-06-28 一种适用于大信息量网站的搜索处理方法及装置

Publications (1)

Publication Number Publication Date
CN102298594A true CN102298594A (zh) 2011-12-28

Family

ID=45359015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102133866A Pending CN102298594A (zh) 2010-06-28 2010-06-28 一种适用于大信息量网站的搜索处理方法及装置

Country Status (1)

Country Link
CN (1) CN102298594A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368967A (zh) * 2017-07-20 2017-11-21 北京建工土木工程有限公司 基于互联网的工程安全质量巡检智能管理方法
WO2020019565A1 (zh) * 2018-07-27 2020-01-30 天津字节跳动科技有限公司 搜索排序方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1250187A (zh) * 1999-10-15 2000-04-12 林沧 计算机多媒体宽带接入网络系统
CN1647487A (zh) * 2002-04-09 2005-07-27 法国电信有限公司 经因特网型的主干网络和连接有电缆的终端提供与地理相关的通信发送的电信系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1250187A (zh) * 1999-10-15 2000-04-12 林沧 计算机多媒体宽带接入网络系统
CN1647487A (zh) * 2002-04-09 2005-07-27 法国电信有限公司 经因特网型的主干网络和连接有电缆的终端提供与地理相关的通信发送的电信系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368967A (zh) * 2017-07-20 2017-11-21 北京建工土木工程有限公司 基于互联网的工程安全质量巡检智能管理方法
WO2020019565A1 (zh) * 2018-07-27 2020-01-30 天津字节跳动科技有限公司 搜索排序方法、装置、电子设备和存储介质
US11481402B2 (en) 2018-07-27 2022-10-25 Tianjin Bytedance Technology Co., Ltd. Search ranking method and apparatus, electronic device and storage medium

Similar Documents

Publication Publication Date Title
US11475319B2 (en) Extracting facts from unstructured information
CN100405371C (zh) 一种提取新词的方法和系统
CN101876981B (zh) 一种构建知识库的方法及装置
US20180032930A1 (en) System and method to Generate Queries for a Business Database
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
US20170330054A1 (en) Method And Apparatus Of Establishing Image Search Relevance Prediction Model, And Image Search Method And Apparatus
US8560513B2 (en) Searching for information based on generic attributes of the query
CN105045875B (zh) 个性化信息检索方法及装置
CN106844640B (zh) 一种网页数据分析处理方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
JP6355840B2 (ja) ストップワード識別方法および装置
CN102591948B (zh) 一种基于用户行为分析的搜索结果改进的方法及其系统
CN101477554A (zh) 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
KR20150036117A (ko) 쿼리 확장
CN109829045A (zh) 一种问答方法和装置
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN103226601A (zh) 一种图片搜索的方法和装置
CN103488741A (zh) 一种基于url的中文多语义名词的在线语义挖掘系统
CN108509449B (zh) 一种信息处理的方法及服务器
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN102298594A (zh) 一种适用于大信息量网站的搜索处理方法及装置
CN108932327A (zh) 一种页面信息提取系统及提取方法
CN103544167A (zh) 一种基于中文检索的逆向分词方法及装置
CN111723201A (zh) 一种用于文本数据聚类的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111228