CN100462969C - 利用互联网为公众提供和查询信息的方法 - Google Patents
利用互联网为公众提供和查询信息的方法 Download PDFInfo
- Publication number
- CN100462969C CN100462969C CNB2006100623756A CN200610062375A CN100462969C CN 100462969 C CN100462969 C CN 100462969C CN B2006100623756 A CNB2006100623756 A CN B2006100623756A CN 200610062375 A CN200610062375 A CN 200610062375A CN 100462969 C CN100462969 C CN 100462969C
- Authority
- CN
- China
- Prior art keywords
- public
- query
- record
- calculation element
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种利用互联网为公众提供和查询信息的方法,要解决的技术问题是提高公众查询字与查询结果间的准确度与相关度,本发明的方法,具有浏览器和服务器结构,所述浏览器包括发布装置,搜索装置,服务器包括存储装置,主记录数据库,计算装置,反馈装置,分词装置,词汇数据库,与现有技术相比,利用本发明的方法构建的搜索引擎网络,公众针对信息内容的搜索,搜索结果更加准确,查询字与搜索结果间的相关度也更高,将用户体验与信息存储、分类和检索结合在一起,无须了解该信息在科学中的严谨分类,针对公众填写的关键词进行检索,大大提高了网络系统的检索性能。
Description
技术领域
本发明涉及一种利用互联网为公众提供信息、存储信息并查询信息的方法,特别是一种在互联网上使用搜索引擎查询信息的方法。
背景技术
搜索引擎是目前互联网上最常用的网络应用工具,目前常用的搜索引擎有谷歌Google、百度、雅虎Yahoo、一搜、中搜和Alltheweb等等,人们在互联网上通过搜索引擎获取各种信息。根据搜索引擎研究报告显示,目前常用搜索引擎大多采用链接对应文章中是否包含公众使用的查询关键词,此类搜索引擎的最大缺陷是,搜索结果的内容与查询字之间的相关度不够高,查询结果不够准确;此类搜索引擎并不是真正意义上的针对链接内容的搜索,搜索结果页中大量充斥着与查询者搜索目标无关的信息。例如,百科全书页中几乎包含了所有的查询关键字,无论查询者使用哪个关键字,目前的搜索引擎大多都会搜索出该页,但实际上,大多数情况,人们仅仅希望在使用“百科全书”这类查询字时才搜索出该页。另外,有不少网页发布者利用此缺陷,故意在网页中设置大量的公众常用的关键字,诱引公众访问其页面,达到各种不良之目的,如增加点击量,让查询者计算机中毒等,进一步让目前此类搜索引擎使用起来变得更为困难。
发明内容
本发明的目的是提供一种利用互联网为公众提供和查询信息的方法,要解决的技术问题是提高公众查询字与查询结果间的准确度与相关度,让公众查询信息的效率更高。
本发明采用以下技术方案:一种利用互联网为公众提供和查询信息的方法,具有浏览器和服务器结构,所述浏览器包括用于向服务器的存储装置传送信息内容的发布装置,用于向服务器的计算装置发送查询内容的搜索装置;服务器包括用于将发布装置传送来的信息内容记录在主记录数据库中的存储装置,用于存储数据的主记录数据库,用于根据搜索装置发来的查询内容,从主记录数据库中提取记录、汇总、将汇总结果进行排序并发送的计算装置,用于接收计算装置传送来的记录集,发送给浏览器界面的反馈装置,用于将发布装置和搜索装置传送来的信息内容和查询内容,与词汇数据库中存储的规范词,匹配记录进行比较,从而提取有效路径分别发送至存储装置和计算装置的分词装置,所述分词装置连接有词汇数据库。
本发明的词汇数据库以路径表的结构形式,包括路径序列号、路径名、点击数、屏蔽路径。
本发明的信息内容包括链接、评分等级及评分依据;查询内容为查询字。
本发明的存储装置将发布装置传送来的链接、评分等级,分词装置传送来的评分依据,作为一条记录,记录在主记录数据库中。
本发明的计算装置将分词装置发来的分词结果,从主记录数据库中提取包含查询字的所有记录,将链接、评分依据两个字段的内容都相同的记录的评分值累积相加,并将汇总结果以评分值进行排序。
本发明的反馈装置接收计算装置传送来的记录集,分页发送给查询者的浏览器界面。
本发明的主记录数据库以列表的形式存储信息的链接、查询路径、评分结果,包括:资源表、资源评分记录表和评分路径表。
本发明的资源表包括:资源名称、资源序列号、链接地址、资源分类号、描述、发布时间、用户序列号;资源评分记录表包括:评分序列号、资源序列号、评分等级;评分路径表包括:资源评分记录序列号、路径序列号。
一种利用互联网为公众提供和查询信息的方法,具有客户机和服务器结构,其特征在于:所述客户机包括用于向服务器的存储装置传送信息内容的发布装置,用于向服务器的计算装置发送查询内容的搜索装置;服务器包括用于将发布装置传送来的信息内容记录在主记录数据库中的存储装置,用于存储数据的主记录数据库,用于根据搜索装置发来的查询内容,从主记录数据库中提取记录、汇总、将汇总结果进行排序并发送的计算装置,用于接收计算装置传送来的记录集,发送给客户机界面的反馈装置,用于将发布装置和搜索装置传送来的信息内容和查询内容,与词汇数据库中存储的规范词,匹配记录进行比较,从而提取有效路径分别发送至存储装置和计算装置的分词装置,所述分词装置连接有词汇数据库。
本发明与现有技术相比,利用发布装置、搜索装置、存储装置、主记录数据库、计算装置及反馈装置构成的搜索引擎网络,针对信息内容的搜索,搜索结果更加准确,查询字与搜索结果间的相关度也更高,公众对信息体验后加以整理,有机地将用户体验与信息存储、分类和检索结合在一起,无须了解该信息在科学中的严谨分类,按自己的理解进行分类,而其他公众也是以此理解加以搜索,达到信息分类保存与人类认识框架有机结合之效果,针对公众填写的关键词进行检索,大大提高了网络系统的检索性能。
附图说明
图1是本发明实施例的网络拓朴图。
图2是本发明实施例的搜索引擎内部结构图。
图3是本发明实施例的流程图。
图4是本发明实施例的评分操作界面图。
图5是本发明实施例的查询结果界面图。
图6是本发明实施例的直接发布界面图。
图7是本发明实施例的嵌入代码发布界面图。
图8是本发明实施例的插件发布界面图。
图9是本发明实施例的词汇数据库结构图。
图10是本发明实施例的主记录数据库结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细的说明。本发明的利用互联网为公众提供、存储和查询信息的方法,采用评分、汇总和检索的步骤,为公众提供一种高效的信息分类与检索的方法。我们知道,搜索引擎理想的方法是,让熟悉目标信息知识及社会知识体系架构的知识工作者查看互联网中每个新增链接所对应的信息的内容,并将信息摆放到合适的分类中去;而公众也需要了解社会知识体系架构,依次展开分类,到达目标分类,获取目标信息。但这种方法会消耗大量人力,目前还没有一个政府、组织或机构愿意花费如此巨大资源来完成这样一个公益事业;同时此类搜索引擎需要公众依次展开静态分类,使用效率较低。正因如此,不少搜索引擎的开发者想利用计算机的人工智能来完成此项工作,但现有技术的人工智能的自然语言的语义分析水平还不足以实现此目标。
如图1所示,本发明的方法采用浏览器和服务器结构B/S搜索引擎网络,利用公众在浏览器的界面反馈的信息,通过互联网传递给服务器来完成信息的分类,进行数据库存储,供其他公众来搜索。
如图2所示,本发明的利用互联网为公众提供、存储和查询信息的方法,由发布装置、搜索装置、分词装置、词汇数据库、存储装置、主记录数据库、计算装置及反馈装置构成。
浏览器一端的发布装置用于公众通过浏览器向服务器一端的存储装置传送链接、评分等级,以及向服务器一端的分词装置传送评分依据,此过程在本发明中被称为发布,如:“www.bnb88.com;免费电影下载;5”,其中,“www.bnb88.com”为发布链接,“免费电影下载”为评分依据或查询路径,“5”为评分结果;存储装置将发布装置传送过来的链接、评分等级,以及分词装置传送过来的已经规范了的评分依据,作为一条记录,即“www.bnb88.com;免费/电影/下载;5”的形式存储在服务器的主记录数据库中。
如图10所示,主记录数据库以列表的形式存储信息的链接、查询路径、评分结果,主记录数据库的资源表resource包括:资源名称res_name,用以保存资源名称,如“BNB88免费电影”,资源序列号id,用以保存链接的序列号,如“1806”,链接地址linked_address,用以保存链接值,如“www.bnb88.com”,资源分类号res_category_id,用以保存资源类型序列号,其值为“网站、页面、文件”之一,描述description,用以保存资源描述,发布时间upload_time,用以保存资源发布时间,用户序列号user_id,用以保存发布用户的序列号;主记录数据库的资源评分记录表res_graded_record包括:评分序列号id,用以保存评分记录的序列号,资源序列号res_id,为关联表资源表resource的主序列号,评分等级scorce,用以保存评分等级;主记录数据库的评分路径表graded_path包括:资源评分记录序列号res_graded_record_id,为资源评分记录表的主序列号,路径序列号path_id,保存评分路径。主记录数据库以资源表resource保存链接,以资源评分记录表res_graded_record保存评分等级,以评分路径表graded_path保存查询路径。当多个用户使用以上步骤对该链接进行评分时,可能得到以下多条记录:“www.bnb88.com;免费/电影/下载/动画;5”,“www.bnb88.com;免费/电影/下载;3”,“www.bnb88.com;免费/电影/下载;3”,“www.bnb88.com;免费/电影/在线/观看;5”。本实例中,存储装置可以是由Java语言编写的程序,利用数据库存储过程或是直接调用数据库SQL语言将链接、评分依据与评分等级写入到主记录数据库的相应表中。
浏览器一端的搜索装置用于公众通过浏览器向服务器的分词装置发送查询字,如:“免费电影下载”;分词装置将搜索装置传送来的查询字加以规范,然后将规范后的分词结果传送给服务器端的计算装置,如:“免费/电影/下载”。
计算装置将分词装置发来的分词结果,从主记录数据库中提取包含查询字的所有记录,接着将所得记录的评分结果进行汇总,即将链接、评分依据两个字段的内容都相同的记录的评分值累积相加,最后将汇总结果以评分值进行排序,排序结果传送给反馈装置。具体举例为,若分词装置传送来的最终分词结果为“免费/电影/下载”,计算装置首先在主记录数据库中搜寻所有包含“免费”、“电影”、“下载”这三个路径的记录,将相符合记录的链接、有效路径与评分一并提出,结果分别为:“www.bnb88.com;免费/电影/下载;5”,“www.bnb88.com;免费/电影/下载/动画;5”,“www.bnb88.com;免费/电影/下载;3”,“www.bnb88.com;免费/电影/下载;3”。可用以下程序语言完成:
BEGIN
DECLARE a,b CHAR(20);
DECLARE c int;
DECLARE cur1 CURSOR FOR select a.`res_graded_record_id`,
GROUP_CONCAT(
a.`path_id`)as paths from graded_path a GROUP by
a.`res_graded_record_id`;
DECLARE Confiltered=1;OPEN cur1;
REPEAT
FETCH cur1 INTO a,b;
IF b like paths THEN
INSERT INTO`resource_temp`
select *
from`resource`t
where t.`id`=
(select r.`res_id` from
`res_graded_record`r where r.`id`=a
);
ENDIF;
UNTIL c=1 END REPEAT;
CLOSE cur1;
END
select a.`res_name`,a.`l inked_address`,b.`score`from
`resource_temp` a,`res_graded_record` b where
a.`id`=b.`res_id`;
汇总过程为,将链接为“www.bnb88.com”,评分依据为“免费/电影/下载”的所有记录的评分值累加起来,即5+3+3=11,最终结果为:“www.bnb88.com;免费/电影/下载;11”,“www.bnb88.com;免费/电影/下载/动画;5”。排序过程为,排序的第一依据是得分总值,第二依据是链接字母顺序。排序结果为:“www.bnb88.com;免费/电影/下载;11”,“www.bnb88.com;免费/电影/下载/动画;5”。最后,计算装置将计算结果传送给反馈装置。由Java语言编写的程序通过程序间的调用将结果传送给反馈装置,如可用以下程序语言完成:
select a.`res_name`,a.`linked_address`,MAX(b.`score`)from `resource_temp` a,`res_graded_record` b wherea.`id`=b.`res_id` group by a.`res_name`。
反馈装置接收计算装置传送来的记录集,分页发送给查询者的浏览器界面,例如,利用JSP语言编写的反馈装置view.jsp,将计算装置传送来的结果,如“www.bnb88.com;免费/电影/下载;11”和“www.bnb88.com;免费/电影/下载/动画;5”,在页面上显示给公众,若结果集内记录数大于反馈装置页面显示阀值时,查询结果分页显示。查询者可以点击“1 2 3 4 5 6 7 8 9 10下一页最后页第页”链接,查看查询结果的更多具体内容。
分词装置用于规范从存储装置传来的评分依据,和从搜索装置传来的查询字。分词装置将评分依据或查询字,与词汇数据库中存储的规范词,如“……免费;免费生;免官;免冠;免开尊口;免礼;免票;……”,匹配记录进行比较,即将评分依据或查询字中非词汇数据库中的词屏蔽掉,从而提取有效路径分别发送至存储装置或计算装置。
如图9所示,词汇数据库结构以路径表path的结构形式,包括:路径序列号id,用以保存路径的序列号值,如“1925”,路径名path_name,用以保存路径的内容,如“免费”,点击数clicked_count,用以保存路径的查询次数,如“25223”,屏蔽路径is_shield_path,用以保存该路径是否为屏蔽路径,如“Y”。
本发明的利用互联网为公众提供、存储和查询信息的方法,公众和或搜索引擎网站工作人员利用发布装置发布信息的方式包括:通过搜索结果页面浏览链接时发布,在评分操作界面直接发布,在其他站点内嵌入代码发布,浏览链接时点击插件按钮发布。
如图4所示,通过搜索结果页面浏览链接时发布,公众在由本发明的方法创建的搜索引擎的搜索结果页面中打开其感兴趣的某个链接,通过打开该链接,搜索结果页的表单向位于服务器端的发布装置传送链接地址。打开该链接后进入评分操作界面,页面的正中位置内嵌显示目标链接页面的具体内容,其余部位包括上、下、左、右、悬浮、弹出显示发布代码,公众在此填写评分依据及评分等级,评分操作界面利用输入框接收公众评分依据,与信息内容相关的一个或以上的关键词,利用下拉框或单选框接收公众评分等级,以优、良、中、差、劣或5、4、3、2、1五个等级。公众选择提交后,评分操作界面的表单向服务器端的存储装置传送链接和评分等级,同时向服务器端的分词装置传送评分依据。具体为,位于客户端的发布装置的网页的表单语句向服务器端的以JSP语言编写的存储装置和分词装置传送参数来实现。例如,公众在浏览器中浏览搜索引擎搜索结果页面,打开感兴趣的链接,该链接所指向的链接地址举例为“www.tell7.com/view?url=http://www.bnb88.com”,搜索结果页的表单向服务器端的以JSP语言编写的发布装置view.jsp传送链接地址,被传送的链接为“www.bnb88.com”。打开该链接地址后进入评分操作界面,页面中部显示“www.bnb88.com”的具体内容,页面上部显示发布代码,公众在此填写评分依据及评分等级,评分操作界面利用输入框接收公众评分依据,如“下载电影免费讯雷”,利用下拉框接收公众评分等级,如“优”。公众点击“Go”按钮后,评分操作界面通过表单向服务器端的存储装置传送链接与评分等级,如“www.bnb88.com”、“优”,同时向服务器端的分词装置传送评分依据,如“下载电影免费讯雷”。需要指出的是,公众在进行信息发布时,必须同时指定评分依据与评分等级,提交时,发布装置将进行查空检查,即,表单判断接收评分依据的输入框内容是否为空,不为空则提交,为空则提示公众输入。该步骤可以采用页面脚本语言来实现,如JavaScript,具体程序语言:
<SCRIPT LANGUAGE=″JavaScript″>
<!--
function check()
{
if(document.issue.path.value.length!=0)
{
}
else
{
alert(″评分依据不能为空!″);
return false;
}
return false;
}
//-->
</SCRIPT>”
如图5所示,公众在浏览器上搜索时,输入查询字后点击发送,如“免费电影下载”,搜索装置将公众输入的信息通过互联网向分词装置传送该信息,分词装置接收搜索装置传来的查询字,规范查询字后将结果传送给计算装置,如“免费/电影/下载”,计算装置从主记录数据库中提取资源评分记录表res_graded_recor包含了规范查询字的所有记录,接着将链接、评分依据两个字段的内容都相同的记录的评分值累积相加,最后将汇总结果以评分值进行排序,排序结果传送给反馈装置,反馈装置最终将结果在浏览器中分页显示。这样找出来的信息是查询者关心的且是大多数网民认为最好的,提高了检索的有效性。如:公众在浏览器上访问搜索引擎网址,进入搜索装置页面,在输入框中输入一组查询关键词,如“免费电影下载”,点击“搜索”按钮,位于浏览器端的搜索装置将此查询关键词传递给位于服务器端的分词装置,使用的执行语言举例为“www.tell7.com/find?hl=zh-CN&q=%E5%85%8D%E8%B4%B9+%E7%94%B5%E5%BD%B1+%E4%B8%8B%E8%BD%BD&lr=”。
如图6所示,在评分操作界面直接发布,公众登录搜索引擎,点击链接进入直接发布界面,用键盘或鼠标输入发布目标链接、评分依据与评分等级,点击“提交”或“Go”按钮,直接发布界面的表单向服务器端的存储装置传送链接和评分等级,同时向服务器端的分词装置传送评分依据。传送过程是,位于客户端的发布装置的网页的表单语句向服务器端的以JSP语言编写的存储装置和分词装置传送参数来实现。具体举例为,公众登录搜索引擎网站,点击“发布”链接,链接位于服务器端的JSP语言编写的发布装置,对应链接地址举例为“www.tell7.com/dirview.jsp”,浏览器打开该路径显示dirview.jsp文件,进入发布装置的发布页面,dirview.jsp文件的表单的输入框接收公众将要发布的链接,如“www.bnb88.com”,点击“Go”按钮,dirview.jsp文件的表单向服务器端的发布装置中的JSP语言编写的评价pj.jsp文件传送此链接,进入pj.jsp文件页面;公众在pj.jsp文件页面的输入框中输入评分依据,如“下载电影免费卡通精典国外”,利用单选框确定评分等级,如“5”,点击“Go”按钮,pj.jsp文件将链接“www.bnb88.com;5”与评分等级“5”传送给存储装置,将评分依据“下载电影免费卡通精典国外”传送给分词装置。当评分依据为空时,pj.jsp文件页面弹出对话框,要求公众填写。
如图7所示,在其他站点内嵌入代码发布,一般地,其他网站的经营者为提高其网站在本发明的方法创建的搜索引擎搜索结果页中的排位,会在其自身站点中设置由本发明的方法创建的搜索引擎的发布代码,当公众访问这个内嵌了发布代码的页面时,公众可在此页面的输入框中填写评分依据,利用下拉框或单选框确定评分等级,点击提交按钮后,内嵌了发布代码的页面的表单向服务器端的存储装置传送链接和评分等级,同时向服务器端的分词装置传送评分依据。具体举例为,公众在浏览器中访问内嵌了发布代码的页面,该页面的访问链接举例为“www.bnb88.com/movie/index.htm”。该页面内嵌发布代码的具体程序语句举例为“<script language=javascriptsrc=″http://www.tell7.com/issue.js″></script>”。此代码调用位于服务器端的一个脚本语言程序,如issue.js。公众在浏览器中打开内嵌了发布代码的网页时,内嵌的发布代码执行该脚本程序issue.js,脚本程序issue.js从服务器发布装置获取包含评分依据输入框,评分等级单选框,以及链接传送代码。公众在此填写评分依据、评分等级,点击提交按钮后,脚本程序issue.js将链接和评分等级传送给位于服务器端的存储装置,如“www.bnb88.com;5”,同时将评分依据传送给分词装置,如“下载电影免费卡通精典国外”。
如图8所示,浏览链接时点击插件按钮发布,公众在其本地计算机的浏览器中安装根据本发明的方法设定的搜索引擎插件,当在安装了该插件的浏览器中访问某链接时,可以点击对应插件按钮,浏览器运行该插件,弹出发布窗口,公众在此页面的输入框中填写评分依据,利用下拉框或单选框确定评分等级,点击提交按钮后,本窗口的表单向服务器端的存储装置传送链接和评分等级,同时向服务器端的分词装置传送评分依据。具体举例为:公众在本搜索引擎网站上下载发布插件并安装到其本地计算机上,在安装了该插件的浏览器中访问任一网页,点击位于标准工具栏的“Tell7”插件按钮,弹出发布窗口,公众在此页面的输入框中填写评分依据,如“下载电影免费卡通精典国外”,利用单选框确定评分等级,如“5”,点击提交按钮后,窗口的表单向服务器端的存储装置传送链接和评分等级,如“www.bnb88.com;5”,同时向服务器端的分词装置传送评分依据,如“下载电影免费卡通精典国外”。
由于公众数量巨大,填写的评分依据及查询字各式各样,为了有效规范公众的评分依据与查询字,需要对评分依据与查询字的输入做分词处理,提取公众评分依据与查询字中的有效路径。分词处理的具体步骤是:(1)、创建原始词汇数据库,原始词汇数据库作为基础数据库,为临时库,其具体结构与词汇数据库相同,来源有多种,可以直接从社会获取现有的电子词库,也可以由搜索引擎经营公司人员依照目前纸质词典构建,或从网上获取电子词库,并将其中的词汇直接利用数据库查询语言SQL,纸质词典写入到数据库中,或是利用对应数据库的批量数据导入工作将原始词汇数据库内的数据导入到词汇数据库中。如:利用互联网上下载的用于MySQL 5.0数据库的批量数据导入工具文本数据导入大师text2db1.01。词汇数据库内的词汇举例为“……免费;免费生;免官;免冠;免开尊口;免礼;免票;……”。还可以采用甲骨文Oracle、DB2、Sybase、SQL Server。(2)、屏蔽词属性设置:将原始词汇数据库中的部分词汇对应的屏蔽属性设置为屏蔽,即设置屏蔽词。本实例中,将路径表path的屏蔽路径字段is_shield_path设置为屏蔽,即设置其值为“Y”。由本搜索引擎经营公司内部人员使用数据库的管理页面如MySQL 5.0的MySQL数据库查询浏览器MySQL Query Browser人工将屏蔽路径字段is_shield_path设置为屏蔽,即“Y”,缺省为“N”,也可使用数据库语言SQL将此字段的属性设置为“Y”。屏蔽词包括大部分代词、助词、副词、标点符号以及政策限制的词,如“我、我们、这、的、得、好、能、可以、性”等等。(3)、屏蔽词与分词:分词装置从公众评分依据或查询字,由前向后依次逐个取字,构成新词,然后查看新词是否在词汇数据库中,若否,舍弃该新词,从下一个字开始,重复以上步骤,构成新词,查看新词是否在词汇数据库中,若是,即在词汇数据库中有此词,查看新词在词汇数据库中的屏蔽属性,若为屏蔽,则屏蔽该词,若不为屏蔽,即取出了第一个有效词。依此类推重复以上步骤,直至将评分依据或查询字中的所有有效词取出。具体举例为,评分依据或查询字为“我认为这是最好的免费电影下载网站”,分词装置从中读取第一个字,得到“我”,查看在词汇数据库中是否含有这个字,若无,则说明目前取得的这个字不是词汇数据库中的词,屏蔽掉这个字;若有,继续取第二个字,得到“我认”,查看在词汇数据库中是否有这个词;若无,说明词汇数据库包含前面所取的词,“我”,而再加一个字“认”则不含;分解出第一个词,“我”,同时查看该词是否为屏蔽词,即在词汇数据库中该词的屏蔽属性is_shield_path是否为“Y”,该属性为“Y”,表示此词为屏蔽词,分词装置屏蔽掉该词;若“我认”的屏蔽属性is_shield_path为“N”,表示该词为有效词,则继续取下一个字,依此类推,重复以上操作,直到找到第N个字,在词库中无法找到该词,则说明到N-1个字皆为一个有效词。依此类推重复以上步骤,直到将评分依据,分解为以下词汇:“我”、“认为”、“这是”、“最好”、“的”、“免费”、“电影”、“下载”、“网站”。其中“我”、“认为”、“这是”、“最好”、“的”、“网站”被屏蔽掉,最终的分词结果为“免费”、“电影”、“下载”。以上操作方法可采用Java程序语言由计算机实现分词。当分词装置取新词碰到空格时,分词装置认为目前本步取词操作结束,查看取出的词是否为屏蔽词,接着继续开始空格后的分词操作。分词结束后,分词装置将分词最终结果传送给存储装置或计算装置。
如图3所示,本发明的利用互联网为公众提供、存储和查询信息的方法包括以下具体操作步骤:
一、公众在浏览器如IE、Netscape中输入链接地址,浏览相应内容,链接指向的是网站或网页或多媒体文件,其目的在于让公众了解被评目标链接的具体内容,公众在了解链接对应信息的内容的情况下,可以跳过这一步,直接进行发布。
二、公众填写评分依据后进行评分,该过程我们称其为“发布”,是指公众将链接、评分依据、评分等级一同提交给发布装置或分词装置的过程。评分依据,由一个和或以上的关键词构成,中间可以用分隔符分隔,分隔符包括空格、斜杠等等,本发明方法中称其为“路径”,这组关键词将作为对应链接的存储与查询路径。评分是公众在了解链接对应内容的基础上,针对路径打分。
三、分词装置规范公众评分依据,并将结果发送给存储装置,存储装置将评分依据作为路径存储在主记录数据库,同时存储对应链接与评分等级。主记录数据库,可详细记录公众的评分要素,包括用户ID、级别、IP地址、发布时间、链接、评分依据、评分等级。本实施例主记录数据库的存储记录包含的主要字段有:链接、路径、评分等级。如,“www.bnb88.com、免费/电影/下载、5”。
四、基于B/S架构,公众在Web端输入查询路径;如果基于客户机/服务器结构C/S,则公众在客户端输入查询路径。搜索装置用于接收公众查询路径,查询路径可以是由分隔符分隔的一组关键字,也可以是由自然语言书写的一段话。
五、分词装置规范公众查询字,并将结果发送给计算装置,如“免费/电影/下载”。计算装置根据查询路径,从主记录数据库中提取包含查询字的所有记录。例如,数据库内含有以下记录:“免费电影下载;http://www.5see.com/;优”、“免费电影下载在线观看;http://www.dguo.com/;优”、“免费电影下载;http://www.zzip.com.cn/;优”、“免费电影下载在线;http://www.cnvv.cn/;优”,当公众查询路径为“免费/电影/下载”时,即是从数据库中提取所有包含此查询路径的记录,以上记录都将搜索出,当公众查询路径为“免费/电影/下载/在线/观看”时,仅搜索出其中一条记录,即“免费电影下载在线观看;http://www.dguo.com/;优”。所谓“包含”是指含查询路径里所有关键字的记录,当满足搜索表达式的记录为0条时,搜索结果页中显示“您所查找的信息没有找到,请重新调整路径后查找”。
六、计算装置将根据查询路径搜索出的满足搜索表达式的所有记录的得分相加汇总,针对某一链接的记录可以为一条或多条,作为该信息针对该路径的最后得分,例如,链接“http://www.dguo.com/”对应记录有两条“免费电影下载在线观看;优”,则其关于“免费电影下载在线观看”路径的得分为10分;只有一条“免费电影下载”记录,则其关于“免费电影下载”路径的得分为5分,汇总后得到一条或一条以上新记录,这些记录指明每条链接对应的路径总得分的情况,例如,“免费电影下载;http://www.5see.com/;2989”、“免费电影下载在线观看;http://www.dguo.com/;3209”、“免费电影下载;http://www.zzip.com.cn/;892”、“免费电影下载在线;;http://www.cnvv.cn/;1228”。计算装置将以上记录集按评分汇总结果从高到低排序,并将排序结果记录集传送给反馈装置。
七、反馈装置将计算装置传送来的记录集,以文本形式分页显示,例如,搜索结果有1000条,显示结果页面的设置为反馈10条,则反馈结果的显示顺序是:“免费电影下载在线观看;http://www.dguo.com/;3209”、“免费电影下载;http://www.5see.com/;2989”、“免费电影下载在线;http://www.cnvv.cn/;1228”、“免费电影下载;http://www.zzip.com.cn/;892”。至此,公众提交查询路径后,得到了所有包含此路径的所有记录,并且根据记录得分从高到低浏览,分页显示,每页显示结果以5至30为宜。
本发明的利用互联网为公众提供、存储和查询信息的方法,公众所用计算机软硬件环境,满足上网条件即可,中央处理器CPU为P2以上,内存为64M以上,磁盘自由空间为50M以上,操作系统为微软Win98以上、Unix 7.0以上或Linux 2.2以上,浏览器为IE 5.0以上、Netscape 4.0以上或火狐Firefox 1.0以上,网卡为10M以上,带宽为56K以上。服务器计算机软硬件参数:操作系统为红帽子Red HatEnterprise Linux 4U2,加装Tomcat 5.5,数据库为MySQL 5.0,6.0G双核CPU,1G内存,120G硬盘,100M网卡,2M带宽。网络通讯协议为HTTP1.0。应用开发环境参数:Eclipse 3.1;JDK 1.5;JDBC 3.1。
利用本发明的方法,可以构建基于C/S、B/S架构的搜索引擎。本实施例为基于B/S架构。所用技术环境为:Tomcat、JSP、Javabean、MySQL,所用通讯协议为HTTP。
Claims (9)
1.一种利用互联网为公众提供和查询信息的方法,具有浏览器和服务器结构,其特征在于:所述浏览器包括用于向服务器的存储装置传送信息内容的发布装置,用于向服务器的计算装置发送查询内容的搜索装置;服务器包括用于将发布装置传送来的信息内容记录在主记录数据库中的存储装置,用于存储数据的主记录数据库,用于根据搜索装置发来的查询内容,从主记录数据库中提取记录、汇总、将汇总结果进行排序并发送的计算装置,用于接收计算装置传送来的记录集,发送给浏览器界面的反馈装置,用于将发布装置和搜索装置传送来的信息内容和查询内容,与词汇数据库中存储的规范词,匹配记录进行比较,从而提取有效路径分别发送至存储装置和计算装置的分词装置,所述分词装置连接有词汇数据库。
2.根据权利要求1所述的利用互联网为公众提供和查询信息的方法,其特征在于:所述词汇数据库以路径表的结构形式,包括路径序列号、路径名、点击数、屏蔽路径。
3.根据权利要求2所述的利用互联网为公众提供和查询信息的方法,其特征在于:所述信息内容包括链接、评分等级及评分依据;查询内容为查询字。
4.根据权利要求3所述的利用互联网为公众提供和查询信息的方法,其特征在于:所述存储装置将发布装置传送来的链接、评分等级,分词装置传送来的评分依据,作为一条记录,记录在主记录数据库中。
5.根据权利要求4所述的利用互联网为公众提供和查询信息的方法,其特征在于:所述计算装置将分词装置发来的分词结果,从主记录数据库中提取包含查询字的所有记录,将链接、评分依据两个字段的内容都相同的记录的评分值累积相加,并将汇总结果以评分值进行排序。
6.根据权利要求5所述的利用互联网为公众提供和查询信息的方法,其特征在于:所述反馈装置接收计算装置传送来的记录集,分页发送给查询者的浏览器界面。
7.根据权利要求6所述的利用互联网为公众提供和查询信息的方法,其特征在于:所述主记录数据库以列表的形式存储信息的链接、查询路径、评分结果,包括:资源表、资源评分记录表和评分路径表。
8.根据权利要求7所述的利用互联网为公众提供和查询信息的方法,其特征在于:所述资源表包括:资源名称、资源序列号、链接地址、资源分类号、描述、发布时间、用户序列号;资源评分记录表包括:评分序列号、资源序列号、评分等级;评分路径表包括:资源评分记录序列号、路径序列号。
9.一种利用互联网为公众提供和查询信息的方法,具有客户机和服务器结构,其特征在于:所述客户机包括用于向服务器的存储装置传送信息内容的发布装置,用于向服务器的计算装置发送查询内容的搜索装置;服务器包括用于将发布装置传送来的信息内容记录在主记录数据库中的存储装置,用于存储数据的主记录数据库,用于根据搜索装置发来的查询内容,从主记录数据库中提取记录、汇总、将汇总结果进行排序并发送的计算装置,用于接收计算装置传送来的记录集,发送给客户机界面的反馈装置,用于将发布装置和搜索装置传送来的信息内容和查询内容,与词汇数据库中存储的规范词,匹配记录进行比较,从而提取有效路径分别发送至存储装置和计算装置的分词装置,所述分词装置连接有词汇数据库。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100623756A CN100462969C (zh) | 2006-08-29 | 2006-08-29 | 利用互联网为公众提供和查询信息的方法 |
PCT/CN2007/002259 WO2008028395A1 (fr) | 2006-08-29 | 2007-07-25 | Procédé de génération et de recherche d'informations pour le public à l'aide d'internet |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100623756A CN100462969C (zh) | 2006-08-29 | 2006-08-29 | 利用互联网为公众提供和查询信息的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101000611A CN101000611A (zh) | 2007-07-18 |
CN100462969C true CN100462969C (zh) | 2009-02-18 |
Family
ID=38692586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100623756A Expired - Fee Related CN100462969C (zh) | 2006-08-29 | 2006-08-29 | 利用互联网为公众提供和查询信息的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN100462969C (zh) |
WO (1) | WO2008028395A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5325159B2 (ja) | 2010-05-12 | 2013-10-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ファイルリストを抽出してクライアントにて表示するファイルサーバ、クライアントにて表示する方法及びファイルサーバで実行することが可能なコンピュータプログラム |
US8768861B2 (en) * | 2010-05-31 | 2014-07-01 | Yahoo! Inc. | Research mission identification |
CN102314435A (zh) * | 2010-06-30 | 2012-01-11 | 腾讯科技(深圳)有限公司 | 搜索网页内容的方法及系统 |
CN102467367B (zh) * | 2010-11-03 | 2015-09-02 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 设备控制软件的帮助系统及其实现方法 |
CN103020253A (zh) * | 2012-12-20 | 2013-04-03 | 北京奇虎科技有限公司 | 应用搜索方法和设备 |
CN103336784B (zh) * | 2013-06-04 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 一种用于确定资源的优选资源描述信息的方法与设备 |
CN107305574A (zh) * | 2016-04-25 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 对象搜索方法及装置 |
CN106503225A (zh) * | 2016-11-04 | 2017-03-15 | 奇异牛科技(深圳)有限公司 | 一种碎片化需求和碎片化服务资源的整合平台及整合方法 |
CN108279835B (zh) * | 2017-01-05 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 窗口显示控制方法和装置 |
CN107273508B (zh) * | 2017-06-20 | 2020-07-10 | 北京百度网讯科技有限公司 | 基于人工智能的信息处理方法和装置 |
CN107679077B (zh) * | 2017-08-28 | 2020-03-24 | 平安科技(深圳)有限公司 | 分页的实现方法、装置、计算机设备及存储介质 |
CN110020045B (zh) * | 2017-09-25 | 2021-07-27 | 北京国双科技有限公司 | 关键词路径分析方法及装置 |
CN111223533B (zh) * | 2019-12-24 | 2024-02-13 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10327189A (ja) * | 1997-05-27 | 1998-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 評価サービス提供システム |
JPH11312177A (ja) * | 1998-04-28 | 1999-11-09 | Victor Co Of Japan Ltd | ホームページ嗜好評価装置 |
CN1418344A (zh) * | 2000-12-06 | 2003-05-14 | 索尼公司 | 信息处理装置 |
KR20040006515A (ko) * | 2002-07-12 | 2004-01-24 | 주식회사 네오위즈 | 사용자가 입력하는 정보와 행동로그의 분석을 이용하여정보 서비스 체계 및 검색 결과를 제공하는 정보 서비스시스템 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1462003A (zh) * | 2002-05-28 | 2003-12-17 | 百度在线网络技术(北京)有限公司 | 一种利用搜索引擎发布信息并按竞价排名的方法 |
US20060074843A1 (en) * | 2004-09-30 | 2006-04-06 | Pereira Luis C | World wide web directory for providing live links |
CN1818908A (zh) * | 2006-03-16 | 2006-08-16 | 董崇军 | 一种在搜索引擎中应用搜索者反馈信息的方法 |
-
2006
- 2006-08-29 CN CNB2006100623756A patent/CN100462969C/zh not_active Expired - Fee Related
-
2007
- 2007-07-25 WO PCT/CN2007/002259 patent/WO2008028395A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10327189A (ja) * | 1997-05-27 | 1998-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 評価サービス提供システム |
JPH11312177A (ja) * | 1998-04-28 | 1999-11-09 | Victor Co Of Japan Ltd | ホームページ嗜好評価装置 |
CN1418344A (zh) * | 2000-12-06 | 2003-05-14 | 索尼公司 | 信息处理装置 |
KR20040006515A (ko) * | 2002-07-12 | 2004-01-24 | 주식회사 네오위즈 | 사용자가 입력하는 정보와 행동로그의 분석을 이용하여정보 서비스 체계 및 검색 결과를 제공하는 정보 서비스시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2008028395A1 (fr) | 2008-03-13 |
CN101000611A (zh) | 2007-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100462969C (zh) | 利用互联网为公众提供和查询信息的方法 | |
US7370061B2 (en) | Method for querying XML documents using a weighted navigational index | |
US10755179B2 (en) | Methods and apparatus for identifying concepts corresponding to input information | |
RU2377645C2 (ru) | Способ и система для классификации дисплейных страниц с помощью рефератов | |
Pu et al. | Subject categorization of query terms for exploring Web users' search interests | |
CN103136360B (zh) | 一种互联网行为标注引擎及对应该引擎的行为标注方法 | |
US11803582B2 (en) | Methods and apparatuses for content preparation and/or selection | |
US20070078889A1 (en) | Method and system for automated knowledge extraction and organization | |
EP1587009A2 (en) | Content propagation for enhanced document retrieval | |
EP2729886A1 (en) | Systems and methods for natural language searching of structured data | |
CN103874994A (zh) | 用于自动概括电子文档的内容的方法和装置 | |
Biancalana et al. | Social tagging in query expansion: A new way for personalized web search | |
KR20020075359A (ko) | 디지털 소스로부터 정보를 포착하고 관리하기 위한 시스템및 방법 | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
US20140164342A1 (en) | Human threading search engine | |
Alghamdi et al. | Extended user preference based weighted page ranking algorithm | |
Croft et al. | Search engines | |
US9530094B2 (en) | Jabba-type contextual tagger | |
Xu et al. | Method of deep web collection for mobile application store based on category keyword searching | |
Fathy et al. | A Personalized Approach for Re-ranking Search Results Using User Preferences. | |
Lai et al. | A University Portrait System Incorporating Academic Social Network | |
Desikan et al. | Link Analysis in Web Mining: Techniques and Applications | |
Cheng et al. | GOOSE: An Object-oriented Search Algorithm with Graph-based Database | |
Kathmandu | “News Clustering System for Nepali Text using K-Means Algorithm” A Project Report | |
Mishra et al. | Web Mining Using Topic Sensitive Weighted PageRank |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090218 Termination date: 20170829 |