CN1822005A - 基于网站自动生成和搜索引擎的信息推送系统及方法 - Google Patents

基于网站自动生成和搜索引擎的信息推送系统及方法 Download PDF

Info

Publication number
CN1822005A
CN1822005A CN 200610072706 CN200610072706A CN1822005A CN 1822005 A CN1822005 A CN 1822005A CN 200610072706 CN200610072706 CN 200610072706 CN 200610072706 A CN200610072706 A CN 200610072706A CN 1822005 A CN1822005 A CN 1822005A
Authority
CN
China
Prior art keywords
information
server
index
website
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610072706
Other languages
English (en)
Inventor
张天山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 200610072706 priority Critical patent/CN1822005A/zh
Publication of CN1822005A publication Critical patent/CN1822005A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于网站自动生成和搜索引擎的信息推送系统及方法。本发明包括:计算机或移动设备通过互联网及路由器与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送系统相连接;模板式网站自动生成系统,它包括:用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统、搜索竞价排名系统;专业搜索引擎系统,它包括:网页收集系统、海量存储系统、网页索引系统、索引检索系统;智能信息推送系统,它包括:专家知识库、信息匹配及推送、订阅管理系统、文章及信息分类。本发明使拥有搜索引擎技术与虚拟主机经营业务及网站建立业务三者统一为一体,它实现了“搜索引擎”技术的“信息推进”(Push)方法。

Description

基于网站自动生成和搜索引擎的信息推送系统及方法
技术领域
本发明涉及一种互联网通讯信息技术领域,特别是指一种基于网站自动生成和搜索引擎的信息推送系统及方法。
背景技术
目前,互联网以及相关技术的应用与普及,已经在全世界范围内从根本上改变了人们的生活。人们从信息、通讯、娱乐和工作等各个方面已经对这种新型的媒介形成了强大的依赖。在互联网的诞生地美国,几乎所有的企业都建立了自己的网站,越来越多的营销活动在网上进行,越来越多的人利用网络寻求商业信息,或直接在网上购物。互联网已经从通讯,娱乐等领域步入了人们的日常活动中。互联网在中国国内也得到了迅猛发展。根据最新统计,中国的上网人口总数已经超过一亿,网民数量超过美国,成为世界第一的互联网大国已经指日可待。
互联网的广泛使用与搜索引擎的技术和应用有着密切的关系。当今世界上所有的搜索引擎技术,包括美国的Google、中国的百度,以及其他服务商的搜索引擎,所提供的应用方式主要是“信息求取”(Get),即搜索引擎服务商在他们自己的网站上显示搜索框,搜索者在搜索引擎公司网站上的搜索框中输入关键字,搜索引擎根据搜索者的请求抓取相关数据,并将其作为结果呈现给搜索者。其中搜索者为主动,搜索引擎为被动。
此外,当今世界上所有的搜索引擎所使用的技术都包括以下三大功能模块:(1)爬网;(2)分词索引;(3)搜索。其中,爬网是将全世界的网站网页尽可能多的“抓”到自己的服务器中存起来,然后用一定的方法进行分词检索,最后还要有大量的服务器阵列来应对大量的搜索请求。这三大功能模块也是搜索引擎技术的“信息求取”(Get)应用方式所必不可少的。
发明内容
本发明的目的在于提出一种基于网站自动生成和搜索引擎的信息推送系统及方法。
传统的搜索引擎技术应用方式为“信息求取”(Get),其中用户为主动,搜索引擎为被动。本发明所提出的搜索引擎技术应用方式为“信息推进”(Push),其中搜索引擎为主动,用户为被动。
本发明是利用搜索引擎的分词技术,通过用户使用本发明所提供的“网站自动生成系统”生成的网站,从中发现用户的需求,尤其关注供求链中的上、下游关系。根据这些需求,本发明的搜索引擎就可从数据库中搜索到提供相应服务的企业,并可主动将该信息推送给用户。
本发明的技术方案是:
一种基于网站自动生成和搜索引擎的信息推送系统,其特征在于:它包括:计算机或移动设备通过互联网及路由器与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送系统相连接;模板式网站自动生成系统,它包括:用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统、搜索竞价排名系统;专业搜索引擎系统,它包括:网页收集系统、海量存储系统、网页索引系统、索引检索系统;智能信息推送系统,它包括:专家知识库、信息匹配及推送、订阅管理系统、文章及信息分类。
其中,所述的模板式网站自动生成系统,它包括:用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统;
A)、用户信息管理子系统:负责收集用户信息;用户自管理功能;用户可以凭用户名密码登录到管理界面中增加,修改或删除用户信息。
B)、网页模板维护子系统:它设有不同的网站设计模板,包括不同的行业,如计算机、IT、电子、时尚、服装、服饰、金融、投资、保险等;并且每一个模板还设有搜索功能框;
C)、网站自动生成子系统:
1)、用户注册,然后进入网站自动生成向导系统;
2)、用户选择网站模板,系统提供几十个行业,上千个事先设计好的模板供用户选择;
3)、用户选择网站栏目链接选:如公司简介、业务或产品介绍、产品展示、联系方式等等;
4)、用户输入网页信息:编辑器允许用户输入不同形式的网页内容,它包括普通文字,或文字链接,或表格式文档;且编辑器还可允许用户改变文字字体、颜色、背景颜色;
5)、如果用户选择了产品展示,则上传产品图片及输入关于产品的说明文字;
6)、网站发布:用户可即时看到系统自动生成的真实网站,任何人在世界任何地方可即时访问。
其中,所述的网站自动生成系统,它还包括:
1)、客户留言:允许网站的访问者输入留言和对公司服务与所销售产品的咨询,网站管理员可登录到管理界面中查询、管理留言;其中包括回复留言和将留言显示在网页上;
2)、人才招聘:它允许用户发布和随时更新招聘信息;并允许网站管理员登录到管理界面中查看应聘人员简历;在所述的管理系统中查询、浏览、响应所发布招聘职位的应聘简历,并与应聘人员取得联系。
D)、网站管理子系统:用户可随时到管理界面中管理网站,包括
1)、允许用户在线删除和修改已经建成的网页内容或增加新的网页内容,并可随时发布浏览;管理系统允许用户随时增加、删除和修改包括产品图片在内的产品信息;
2)、域名管理:允许用户在线注册域名或转移域名,并将其与所选用的模板式网站绑定;
3)、邮箱管理:允许用户在线设立增加新邮箱;改变已有邮箱大小;设置邮件转发;改变邮箱密码或找回邮箱密码;
所述的专业搜索引擎系统,是本发明与用户外部使用界面,由索引检索系统接收用户查询请求,然后经广播/汇集器发送到检索服务阵列中进行同步查询;每一个检索服务器所使用的索引段又是由网页索引系统生成;被索引的网页则来自于网页搜集系统;这样各部分协同工作,构成一个搜索引擎整体。它包括:网页收集系统,海量存储系统;网页索引系统;索引检索系统,其中,
A)、所述的网页收集子系统,它是一个并行工作的爬虫系统,从互联网中并行高速地抓取网页,得到网页内容后由并行网页分析器对其进行内容分析,提取新的网页链接,存入链接管理器以备抓取所用;经过一段时间的收集后,子系统内就会收集并维护一份互联网全部网页的地址;包括:
(1)、链接管理器:它是网页收集系统的处理起点,初始时,网页链接器内需要注入一个初始的链接集合,然后根据这些初始链接指挥具体的网页抓取器进行爬网,同时链接管理器接收链接分析器的输出结果(经过网页内容分析后所得的新链接集);这样经过几轮的爬网→分析→提取链接→入库→再爬网的循环,链接管理器内最终收录互联网的全部链接(无限逼近),每个链接的相关信息也都进入链接管理器内进行维护;
(2)网页抓取器:链接管理器根据平衡、高效的原则把所有已知链接分割成数个链接子集,每个链接子集交给一个网页抓取器,多个网页抓取器并行工作,把各自的链接集合内的网页内容抓取回来,存放在本地的网页池内,供后续的链接分析器工作之用。网页抓取器的工作原理于网页浏览器相似,它针对不同协议的链接类型,采取不同协议模块,利用从网页链接管理器中所提取的链接相关信息,处理各种复杂的情况(认证,https,加密,javascript等),把网页内容抓取到本地;
(3)链接分析器:它是一个高效率的html语言解析器,它读入html流,根据html标准分析,提取所有的链接,然后根据这些链接更新链接管理器内的链接;所有的链接分析器并行工作,可以随网页抓取的速度动态调整负载,实现高效率网页分析;再把分析过的网页内容存入海量存贮系统内,以备后续的网页索引系统使用。
B)、海量存储子系统:它是一个分布式的,具有良好可伸缩性的,高效率的网络文件系统,它特别针对搜索引擎的存储特性所设计,采用压缩文件集存储的方式,利用块索引节点服务器加数据节点服务器的方法,把海量信息以文件集为单位,均匀的分布在各个数据节点上,同时每个文件集都同时保存在2个以上的数据节点中,提供有效的数据备份能力;在文件提取时,文件使用端首先从块索引节点上查询到相应的文件所在的目标数据节点服务器,然后从目标数据节点服务器中直接提取文件,实现了海量存储的高效率,高可用性;包括
1)、块索引节点服务器(Master):在海量存储系统中,文件被压缩到文件集中,再以32M为一块来进行存储;由块索引节点服务器来维护所有数据节点和所有数据快的对应数据,同时,服务器还动态的维护一个可用服务器列表,当有文件需要存储时,它首先找到一个在线的有空间的数据节点,然后将数据块写入,同时记录数据块的位置信息,当有三个以上的数据节点可用时,块索引节点还负责在把块数据的2份备份数据块复制到另外的2个数据节点上,实现数据的冗余保护;当客户端需要提取数据块时,服务器先查找该数据块存放在哪一台在线服务器中,然后把节点号返回给客户,由客户端直接与节点通讯,取得目标数据块;
2)、数据节点服务器(Chunkserver):它是海量存储系统的实际数据存放服务器,它建立在普通的Linux文件系统之上;以文件形式存放32M的块数据;当数据节点服务器启动后,会自动在块索引服务器上进行登记,然后等待接收块索引服务器存放数据块,同时,数据节点服务器还监听客户的数据请求,发现有客户请求数据时,服务器会从本地文件系统中提取相应的数据,发送给客户端;
C)、网页全文索引子系统:建立网页的全文索引是提供搜索功能的前提,商务搜网页全文索引系统采用并行处理方式,各个索引服务器并行的从海量存储系统中批量的读取已经抓取回来的网页,利用中文分词功能,把网页内容分割成词序列,再根据词序列建立逆序索引结构,即按词→网页的顺序索引。同时将词汇出现在网页中的位置和次数等信息记录在索引结构中;批量网页的索引工作完成后,由索引数据管理器负责对并行索引结果进行合并,整合,统一存贮在海量存贮系统中;再把统一的网页索引按照可控的固定大小进行分割,发送到索引查询集群中,为实际的搜索提供搜索基;包括
1)、中文分词:
词汇是构成语言的基本单位,英语类语言由于天然的使用空格作为分隔符,所以英语几乎不存在分词问题,只有词汇识别问题,但中文则不同,中文的句子是由汉字一个接一个的连在一起构成的,并无天然的分割,人要读懂一句话,大脑所要做的必不可少的一项工作就是要先分析出句子中词汇的构成。建立中文的全文索引同样也有这个问题。要针对词汇进行索引就必须先把句子分割成一个个的词汇,然后才能对每个词汇进行逆序索引,这就是中文的分词问题。商务搜的中文分词采用字典匹配(最大匹配)算法,同时结合2元分词算法来构造。字典是按照统计学的原理对数亿字节的中文进行词频统计后所得出的词汇表,加上人们日常用语中的词汇等各个渠道所能汇集的词汇而得来。力求能够覆盖中文中99.9%的使用词汇。同时对于不能使用查词典方式来处理的句子则使用二元分词方式处理,例如“乒乓球拍卖完了”这样的二义性的句子采用词典分词会有两种不同的结果,如果采用二元分词则两种意义都会覆盖。两种方式协同工作,可以保证最大限度的提高分词的准确度和可用性。
2)、全文索引引擎:
全文索引引擎是实现网页内容索引的核心处理模块,经过这个引擎的处理,网页内的词汇一一被索引可以直接检索的索引结构。引擎首先使用中文分词功能对网页内容进行处理,生成一个个的词汇列表,然后统计各个词汇在网页内的出现位置,频度等信息,根据这些信息建立词汇到网页的逆向索引序,存入索引文件。全文索引引擎并行工作,可以同时对数百网页进行索引。
3)、索引数据管理:
网页经过全文索引引擎索引后,生成的索引文件是分散的,不利于统一使用和查询,索引数据管理器负责把各个分散的索引文件进行合并及优化,然后统一存放在海量存贮系统内,同时,管理器会根据设定触发条件对所有的索引内容进行定长分割,并将分割后的索引段发送至各个索引检索服务器,由索引检索服务器缓存在内存中,再由检索阵列来实现高速,并行的查询功能。
D)、索引检索子系统:索引查询系统是用户直接使用的前端系统,它由数百到数万台索引检索服务器组成的检索阵列及查询广播/合并系统和web集群系统构成;包括
1)、检索服务器阵列:网页经过索引后所生成的索引文件是随网页量的增长而不断增长的,到目前为止,全世界网页的数量已经超过200亿,以每个网页平均10K计算,全世界的网所生成的索引量至少在100TB以上,在如此巨大的索引集中做一次查询,不采用并行处理技术是不可想象的。检索服务器阵列由数百至数万台小型服务器组成,每台服务器上都分配一段几个G的索引子集,当接到查询请求时,所有的服务器并行工作,可以在几十个毫秒内完成各自索引子集的查询,然后上报查询结果。
2)、查询广播/合并系统:查询广播/合并系统指挥数百至数万台服务器协同工作:把每个查询请求发送到检索阵列中的每一台服务器中,同时迅速地把查询结果汇集起来,再把查询结果发送回相应地网络服务器。所有的操作加起来不能超过一秒钟。该子系统使用动态可伸缩架构,可以根据系统负载情况增减阵列内的服务器。不同的查询被均衡的发布到阵列之中,指派其中一台服务器负责某一个查询,各个服务器使用UDP广播功能及UDP定点发送功能进行查询广播和结果收集,结果汇集后在发送给前端的网络服务器。
3)、网页服务器(WebServer)集群:
搜索引擎为了能够达到每天处理上亿次查询的能力,不仅后台系统使用阵列,集群系统,在网页服务器端同样使用可扩充的负载均衡的集群系统,前置服务器由一台高性能服务器充当负载均衡器,几台至数十台服务器作为实际的网页服务器,每一台实际的网页服务器都定时把负载情况通报给均衡器。当有查询请求通过http协议到达时,前置服务器根据当时各个网页服务器的负载情况,将该请求转发到较空闲的某一台服务器中,然后继续处理下一次请求。高峰时系统可以处理每秒6000次请求。全天可以处理5亿次以上查询请求。
一种基于网站自动生成和搜索引擎的信息推送方法,它包括:
1)、通过用户注册收集用户基本信息:填入信息资料,如:姓名、地址、电话、用户名和密码以及行业等信息,该数据将被存入系统数据库中,此时用户注册成功;
2)、进入网站自动生成向导系统:
A)、用户选择模板:用户可在系统预先设置的若干个网站模板中根据其需求来进行选择;
B)、选择栏目链接:用户可以从系统所设置的列表中进行拦目选择,或自行输入链接文字;
C)、信息填写:利用全屏编辑器,输入各栏目的信息资料,该信息将是网站上被浏览的信息。本发明所述的搜索引擎技术将利用这些资料,分析用户可能感兴趣的其他信息,以便在今后向其推送此用户感兴趣的相关信息。
D)、用户产品展示:发布产品图片及各种文字信息;
F)、网站预览:用户可以预览系统自动生成的网页;并可回到前面步骤去修改、增加、删除已输入的信息;
G)、搜索功能框自动生成:上述各种信息被搜索引擎自动收录;
H)、网站发布:用户选择直接发布网站,可在浏览器地址栏输入主页网址,则网站发布成功;
I)、用户如果要更改和维护网站内容,则进入“会员登录”,可在网站管理界面中进行修改、增加、删除已输入的网站信息;
K)、用户可根据需求选择“留言管理”:它可直接删除和回复客户的留言;
L)、用户可根据需求选择“域名管理”:它可进行网站注册、转入和绑定国际域名;
M)、用户可根据需求选择“邮箱管理”:设置带用户自己域名后缀的邮箱。
本发明所述的“信息推进”(Push)方法,主要利用搜索引擎技术中的“网页全文索引子系统”。当用户利用所述的“网站自动生成系统”输入信息后,所填写的信息资料会被存入数据库。同时,或在今后任何时候,所述的搜索引擎的全文索引子系统会读取用户网页信息,利用中文分词功能,把网页内容分割成词序列,同时将词汇出现在网页中的位置和次数等信息汇录在索引结构中。由索引数据管理器负责对索引结果进行分析整合,统一存储在数据库中。
这种利用搜索引擎技术对用户网页进行分词索引的结果可以有多种应用。
对于一个企业用户,可以从他所输入的网页信息中分析出,他的企业是在什么行业中的,他的产品是什么,他的企业的规模,所在地区等信息。而与这些信息相关的第三方信息,就可以被推送到这个用户面前。
例如,所述“信息推进”(Push)方法在“网站自动生成系统”中的“人才招聘子系统”的应用是:当企业输入人才招聘的信息时,所述的搜索引擎会立刻分析企业招聘要求,需要什么行业的人才,所在地区、经验、学历及其他要求。将分析结果与人才简历库中的简历进行比对,即时将合适的人才简历推送到招聘企业用户面前。这一应用的效应是,当企业输入招聘信息后,点击“提交”按钮,所需人才的简历就自动出现在用户面前。从而实现了招聘系统平台的智能化。
本发明还可与人工智能化的关键词数据库相连接,可达到“信息推送”(Push)的另一智能效果。例如:当通过搜索引擎技术的分析,知道某家企业是生产显象管的,如果我们同时又能够建立起产业链供求关系的关键词数据词,知道生产显象管的企业有可能存在电子元器件;或闪光涂料的上游需求;以及电视机生产企业的下游需求,本发明就可以将这些上下游企业相关信息推送到生产显象管的企业面前,从而实现了电子商务平台的智能化。
本发明的优点在于:
1.本发明所述的“信息推进”(Push)方法是基于“网站自动生成系统”和“搜索引擎”技术之上的,它将原来相互独立的两项互联网技术有机的结合起来。同时,“搜索引擎”技术的“信息推进”(Push)方法也只有在“网站自动生成系统”配合下,才能变的有的放矢。
2.由于本发明所述的“信息推进”(Push)方法是在利用所述的“搜索引擎”技术,分析用户使用所述的“网站自动生成系统”生成的网页之后,针对用户推送其最可能感兴趣、最可能存在需求的信息,故本发明可在更大程度上满足用户的需求。此外,对用户网页资料的分析,导致了对用户全面深入的了解,有可能产生多种潜在应用。
3.本发明所述的“信息推进”(Push)方法,将使电子商务平台智能化。用户使用所述的“网站自动生成系统”建立网站,我们的电子商务平台利用所述的“搜索引擎”技术对用户的网页资料进行分析,经过这些步骤之后,我们的电子商务平台已经对用户有了深入的了解,因此,也就可能在用户主动提出请求之前,利用“信息推进”(Push)方法,向用户推荐其最感兴趣,最需要的服务。
4.本发明所述的“信息推进”(Push)方法,将使人才招聘系统智能化。用户输入“人才招聘”信息及对所招聘人员的需求,点击“提交”后,本发明“搜索引擎”技术将会对输入信息进行读取分析,并根据需求,在用户提出请求之前,自动即时地将所需人才的简历及其相关信息送到企业用户面前。
5、本发明使拥有搜索引擎技术与虚拟主机经营业务及网站建立业务三者统一为一体,它实现了“搜索引擎”技术的“信息推进”(Push)方法。
附图说明
图1是本发明的系统方框图。
图2是本发明的专业搜索引擎系统流程方框图。
图3是本发明的网页收集子系统流程方框图。
图4是本发明的海量存储子系统流程方框图。
图5是本发明的的网页全文索引子系统流程方框图。
图6是本发明的的索引检索子系统流程方框图。
图7是本发明的网站自动生成系统流程图。
图8是本发明的智能信息推送系统的处理流程方框图。
具体实施方式
下面将结合附图及实施例对本发明作进一步说明。
本发明系统方框图,如图1所示。本发明网站自动生成和搜索引擎的信息推送系统,它包括:计算机10或移动设备65通过互联网11及路由器12与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送子系统相联接。其中,所述的模板式网站自动生成系统,它包括:用户信息管理子系统1、网页模板维护子系统2、网站自动生成子系统3、网站管理子系统4、搜索竞价排名系统5;所述的专业搜索引擎系统,它包括:网页收集系统6、海量存储系统7、网页索引系统8、索引检索系统9;所述的智能信息推送系统,它包括:专家知识库48、信息匹配及推送49、订阅管理系统50、文章及信息分类51。
本发明的专业搜索引擎系统流程方框图,如图2所示:信息数据由网页获取服务器13获取,将其存放到缓存池14中;网页全文索引服务器15处理缓存池14中的数据,并生成全文索引,存放在索引存储池16中;检索服务器17从全文索引存储池16中读取索引数据;然后接收查询/汇集服务器18的查询请求,生成查询结果;然后把查询结果返回;web访问服务器19是最先接收用户查询请求的节点,用户请求经预处理后,发送至查询/汇集服务器18;再由查询/汇集服务器18负责把查询请求分解,广播到各个检索服务器17中,并负责把查询结果汇集;然后再返回至web访问服务器19,由web访问服务器19发送回用户浏览器端。
本发明的网页收集子系统流程方框图,如图3所示:链接注入22接受域名集合20和其他外部链接集21;注入中央链接数据库23;然后由链接分割24把中央链接数据库23内的数据分割成一个个的链接子集25;每一个链接子集由一个网页爬虫26负责把子集内每一个链接抓取回来;写入本地文件系统27;链接分析器28定时启动,对存放在本地文件系统27内的网页进行分析,一方面把分析出来的新的链接回存到中央链接数据库23中,同时负责把分析过的网页写入网络存储池29中。
本发明的海量存储子系统方框图,如图4所示:它特别针对搜索引擎的存储特性所设计,它采用分布式可伸缩结构,对文件集压缩存储。利用块索引服务器31加块服务器33的方法,把海量信息以压缩文件集为单位,均匀的分布在各个数据节点的文件系统34上,它是搜索引擎系统的主要存储功能单元。当客户端30需要读写数据时,首先到块索引服务器31上查询可用数据服务器;块索引服务器31根据索引数据32从可用的块服务器群中找出一个可用的块服务器33;把该服务器编号返回给客户端30;客户端30根据这个编号直接与目标块服务器33通信;块服务器33根据客户端30的请求,对文件系统34进行相应的数据读写操作,然后把读写结果再返回给客户端30。
本发明的的网页索引系统流程方框图,如图5所示:全文索引引擎15参考中文分词库35对网页存储池14中的网页进行全文索引,生成索引文件36;然后发送给索引数据管理37,由索引数据管理37负责将各个索引文件36合并,存入网页全文索引存储池16中;同时对网页全文索引存储池16中的数据进行分割,生成后序所需的一个个索引段38。
本发明的索引检索系统流程方框图,如图6所示:检索服务器17读入索引段38,等待查询/汇集服务器18的检索请求;网络服务器19接收到用户的查询请求后,将请求进行预处理,然后发送该请求至查询/汇集服务器18中;由查询/汇集服务器18负责把请求广播到检索服务器17中;检索服务器17完成检索后,把结果再返回到查询/汇集服务器18;由查询/汇集服务器18对各个检索服务器17的所有结果进行汇集,排序等工作后,再统一发送回网络服务器19;由网络服务器19再将搜索结果返回到用户浏览器端。
本发明的网站自动生成系统流程图,如图7所示:用户首先进行注册39,注册完成后进入网站自动生成向导系统40;向导完成后进入选择模板41过程;然后进行选择栏目42;信息填写43;产品发布44;发布预览45;当用户对预览满意后,进入搜索框自动生成46操作;网站发布47。从选择模板41到网站预览45,中问过程可以随时返回上一步进行修改,方便用户提高效率。
本发明的智能信息推送系统流程方框图,如图8所示:信息推送的信息来源于互联网54,它由搜索引擎57提供;经过海量信息自动分类处理60后,供信息匹配及推送49使用;网站用户52负责用户网站的内容维护55;网站内容会提交给文章及信息分类51进行分类处理;会员53使用商机订阅56的功能对自己所关注的商机信息进行订阅;其订阅信息由订阅管理系统50进行管理;信息匹配及推送49根据文章及信息分类51和订阅管理系统50所提供的信息,参照专家知识库48,进行信息相关度运算,将匹配成功的信息提取出来;然后,根据用户预定的推送渠道进行推送,如果推送终点是在互联网上,则交给互联网渠道信息推送63处理;如果是推送终点是移动设备,则交给移动终端信息推送64处理。

Claims (13)

1、一种基于网站自动生成和搜索引擎的信息推送系统,其特征在于:它包括:计算机或移动设备通过互联网及路由器与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送系统相联接;其中,模板式网站自动生成系统,它包括:用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统、搜索竞价排名系统;专业搜索引擎系统,它包括:网页收集系统、海量存储系统、网页索引系统、索引检索系统。
2、根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:
A)、所述的用户信息管理子系统:负责收集用户信息;用户自管理功能;用
户可以凭用户名密码登录到管理界面中增加,修改或删除用户信息;
B)、所述的网页模板维护子系统:它设有不同的网站设计模板,包括不同的行业;并且每一个模板设有搜索功能框;
C)、所述的网站自动生成子系统:它包括
1)、用户注册,然后进入网站自动生成向导系统;
2)、用户根据其需求选择网站模板;
3)、用户选择网站栏目链接选;
4)、用户输入网页信息:
5)、如果用户选择了产品展示,则上传产品图片及输入关于产品的说明文字;
6)、网站发布:
D)、所述的网站管理子系统:用户可随时到管理界面中管理网站,包括在线修改网页内容,随时发布浏览。
3、根据权利要求2所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:所述的网站管理子系统,它还包括;域名管理或邮箱管理。
4、根据权利要求1或2所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:所述的网站自动生成系统,它还包括:搜索竞价排名系统,可对某些关键词进行竞价,使用户网站在相应搜索结果中排名靠前。
5、根据权利要求1或2所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:所述的网站自动生成系统,它还包括:
A)、客户留言:允许网站的访问者输入留言和对公司服务与所销售产品的咨询,网站管理员可登录到管理界面中查询、管理留言;其中包括回复留言和将留言显示在网页上;
B)、人才招聘:发布和随时更新招聘信息;网站管理员登录到管理界面中查看应聘人员简历;在所述的管理系统中查询、浏览、响应所发布招聘职位的应聘简历,并与应聘人员取得联系。
6、根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:所述的网页收集系统,它是一个并行工作的爬虫系统,从互联网中并行高速地抓取网页,得到网页内容后由并行网页分析器对其进行内容分析,提取新的网页链接,存入链接管理器以备抓取所用;经过一段时间的收集后,子系统内就会收集并维护一份互联网全部网页的地址;包括:
A)、链接管理器:它是网页收集系统的处理起点,初始时,网页链接器内需要注入一个初始的链接集合,然后根据这些初始链接指挥具体的网页抓取器进行爬网,同时链接管理器接收链接分析器的输出结果;
B)网页抓取器:链接管理器根据平衡、高效的原则把所有已知链接分割成数个链接子集,每个链接子集交给一个网页抓取器,多个网页抓取器并行工作,把各自的链接集合内的网页内容抓取回来,存放在本地的网页池内,供后续的链接分析器工作之用。网页抓取器的工作原理于网页浏览器相似,它针对不同协议的链接类型,采取不同协议模块,利用从网页链接管理器中所提取的链接相关信息,处理各种复杂的情况,把网页内容抓取到本地;
C)链接分析器:它是一个高效率的html语言解析器,它读入html流,根据html标准分析,提取所有的链接,然后根据这些链接更新链接管理器内的链接;所有的链接分析器并行工作,可以随网页抓取的速度动态调整负载,实现高效率网页分析;再把分析过的网页内容存入海量存贮系统内,以备后续的网页索引系统使用。
7、根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:所述的海量存储系统:它采用压缩文件集存储的方式,利用块索引节点服务器加数据节点服务器的方法,把海量信息以文件集为单位,均匀的分布在各个数据节点上,同时每个文件集都同时保存在至少2个以上的数据节点中,提供有效的数据备份能力;在文件提取时,文件使用端首先从块索引节点上查询到相应的文件所在的目标数据节点服务器,然后从目标数据节点服务器中直接提取文件,实现了海量存储的高效率,高可用性;包括
A)、块索引节点服务器:在海量存储系统中,文件被压缩到文件集中,再以32M为一块来进行存储;由块索引节点服务器来维护所有数据节点和所有数据快的对应数据,同时,服务器还动态的维护一个可用服务器列表,当有文件需要存储时,它首先找到一个在线的有空间的数据节点,然后将数据块写入,同时记录数据块的位置信息,当有三个以上的数据节点可用时,块索引节点还负责在把块数据的2份备份数据块复制到另外的2个数据节点上,实现数据的冗余保护;当客户端需要提取数据块时,服务器先查找该数据块存放在哪一台在线服务器中,然后把节点号返回给客户,由客户端直接与节点通讯,取得目标数据块;
B)、数据节点服务器:它是海量存储系统的实际数据存放服务器,它建立在普通的Linux文件系统之上;以文件形式存放32M的块数据;当数据节点服务器启动后,会自动在块索引服务器上进行登记,然后等待接收块索引服务器存放数据块,同时,数据节点服务器还监听客户的数据请求,发现有客户请求数据时,服务器会从本地文件系统中提取相应的数据,发送给客户端。
8、根据权利要求1所述的模板式网站自动生成系统,其特征在于:所述的网页全文索引系统:建立网页的全文索引是提供搜索功能的前提,搜网页全文索引系统采用并行处理方式,各个索引服务器并行的从海量存储系统中批量的读取已经抓取回来的网页,利用中文分词功能,把网页内容分割成词序列,再根据词序列建立逆序索引结构,即按词→网页的顺序索引;同时将词汇出现在网页中的位置和次数等信息记录在索引结构中;批量网页的索引工作完成后,由索引数据管理器负责对并行索引结果进行合并,整合,统一存贮在海量存贮系统中;再把统一的网页索引按照可控的固定大小进行分割,发送到索引查询集群中,为实际的搜索提供搜索基;包括
A)、中文分词:
B)、全文索引引擎:它使用中文分词功能对网页内容进行处理,生成词汇列表,然后统计各个词汇在网页内的出现位置,频度信息;根据这些信息建立词汇到网页的逆向索引序,存入索引文件;全文索引引擎并行工作,可以同时对网页进行索引;
C)、索引数据管理:负责把各个分散的索引文件进行合并及优化,然后统一存放在海量存贮系统内,同时,管理器会根据设定触发条件对所有的索引内容进行定长分割,并将分割后的索引段发送至各个索引检索服务器,由索引检索服务器缓存在内存中,再由检索阵列来实现高速,并行的查询功能。
9、根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:所述的索引检索子系统是用户直接使用的前端系统,它由若干个索引检索服务器组成的检索阵列及查询广播/合并系统和web集群系统构成;包括
A)、检索服务器阵列:每台服务器上分配若干个索引子集;当接到查询请求时,所有的服务器并行工作,可在几十个毫秒内完成各自索引子集的查询;然后上报查询结果;
B)、查询广播/合并系统:它指挥若干个服务器协同工作:把每个查询请求发送到检索阵列中的每一台服务器中,同时迅速地把查询结果汇集起来,再把查询结果发送回相应地网络服务器;所有的操作完成不超过1秒钟;它使用动态可伸缩架构,可以根据系统负载情况增减阵列内的服务器;不同的查询被均衡的发布到阵列之中,指派其中一台服务器负责某一个查询;各个服务器使用UDP广播功能及UDP定点发送功能进行查询广播和结果收集;再将结果汇集后在发送给前端的网络服务器;
C)、网页服务器集群:前置服务器由高性能服务器充当负载均衡器;若干个台服务器作为实际的网页服务器,每个网页服务器定时把负载情况通报给均衡器;当有查询请求通过http协议到达时,前置服务器根据当时各个网页服务器的负载情况,将该请求转发到较空闲的某一台服务器中,然后继续处理下一次请求。
10、根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于:所述的智能信息推送系统,它包括:专家知识库、信息匹配及推送、订阅管理系统、文章及信息分类。
11、一种基于网站自动生成和搜索引擎的信息推送方法,它包括:
1)、通过用户注册收集其基本信息:包括:姓名、地址、电活、用户名和密码以及行业信息,该数据将被存入系统数据库中,此时用户注册成功;
2)、进入网站自动生成向导系统:它包括
A)、用户根据其需求选择模板:
B)、选择栏目链接:用户进行拦目选择或自行输入链接文字;
C)、输入各栏目的信息资料,该信息将是网站上被浏览的信息。
12、根据权利要求11所述的模板式网站自动生成系统方法,其特征在于:它还包括:
D)、用户产品展示:发布产品图片及各种文字信息;
F)、网站预览:用户可以预览系统自动生成的网页;并可回到前面步骤去修改、增加、删除已输入的信息;
G)、搜索功能框自动生成:上述各种信息被搜索引擎自动收录;
H)、网站发布:用户选择直接发布网站,可在浏览器地址栏输入主页网址,则网站发布成功;
I)、用户如果要更改和维护网站内容,则进入“会员登录”,可在网站管理界面中进行修改、增加、删除已输入的网站信息;
K)、用户可根据需求选择“留言管理”:它可直接删除和回复客户的留言;
L)、用户可根据需求选择“域名管理”:它可进行网站注册、转入和绑定国际域名;
M)、用户可根据需求选择“邮箱管理”:设置带用户自己域名后缀的邮箱。
13、根据权利要求11所述的模板式网站自动生成系统方法,其特征在于:它包括:信息推送的信息来源于互联网,它由搜索引擎提供;经过海量信息自动分类处理后,供信息匹配及推送使用;网站用户负责用户网站的内容维护;网站内容会提交给文章及信息分类进行分类处理;会员使用商机订阅的功能对自己所关注的商机信息进行订阅;其订阅信息由订阅管理系统进行管理;信息匹配及推送可根据文章及信息分类和订阅管理系统所提供的信息,并参照专家知识库,进行信息相关度运算,将匹配成功的信息提取出来;然后,根据用户预定的推送渠道进行推送;如果推送终点是在互联网上,则交给互联网渠道信息推送处理;如果是推送终点是移动设备,则交给移动终端信息推送处理。
CN 200610072706 2006-04-07 2006-04-07 基于网站自动生成和搜索引擎的信息推送系统及方法 Pending CN1822005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610072706 CN1822005A (zh) 2006-04-07 2006-04-07 基于网站自动生成和搜索引擎的信息推送系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610072706 CN1822005A (zh) 2006-04-07 2006-04-07 基于网站自动生成和搜索引擎的信息推送系统及方法

Publications (1)

Publication Number Publication Date
CN1822005A true CN1822005A (zh) 2006-08-23

Family

ID=36923369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610072706 Pending CN1822005A (zh) 2006-04-07 2006-04-07 基于网站自动生成和搜索引擎的信息推送系统及方法

Country Status (1)

Country Link
CN (1) CN1822005A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887417A (zh) * 2009-05-13 2010-11-17 上海即略网络信息科技有限公司 一种搜索方法
CN102868555A (zh) * 2012-08-31 2013-01-09 浪潮电子信息产业股份有限公司 一种基于网络自动管理计算机的方法
CN103310017A (zh) * 2013-07-03 2013-09-18 百度在线网络技术(北京)有限公司 服务搜索方法、系统和搜索服务器
WO2014183249A1 (en) * 2013-05-13 2014-11-20 Nokia Corporation Methods, apparatuses, and computer program products for modification of webpage based on device data
CN104202348A (zh) * 2014-02-24 2014-12-10 无锡天脉聚源传媒科技有限公司 一种推送信息的方法、装置及系统
CN104239012A (zh) * 2013-06-17 2014-12-24 腾讯科技(深圳)有限公司 一种推送网页应用消息的方法和装置
CN106062731A (zh) * 2013-10-09 2016-10-26 莫柏尔技术有限公司 使用空间和时间分析以将数据源和移动设备关联的系统和方法
CN107092639A (zh) * 2017-02-23 2017-08-25 武汉智寻天下科技有限公司 一种搜索引擎系统
CN107451289A (zh) * 2017-08-14 2017-12-08 四川汇源吉迅数码科技有限公司 基于垂直搜索引擎的数字内容查询系统
CN107463630A (zh) * 2017-07-14 2017-12-12 太仓诚泽网络科技有限公司 多端网页控制系统
CN108268552A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 网站信息的处理方法及装置
CN108549707A (zh) * 2018-04-18 2018-09-18 安徽智网信息科技有限公司 一种基于行为感知的大数据提取系统及方法
CN108958709A (zh) * 2018-06-11 2018-12-07 武汉般若互动科技有限公司 一种大型企业网站建设方案
CN109408763A (zh) * 2018-11-06 2019-03-01 深圳市东宝信息技术有限公司 一种对不同模板的简历进行管理的方法及系统
CN109711948A (zh) * 2019-01-09 2019-05-03 广州视源电子科技股份有限公司 物品推荐方法、装置、设备及存储介质
US10687174B1 (en) 2019-09-25 2020-06-16 Mobile Technology, LLC Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
CN112269913A (zh) * 2020-10-28 2021-01-26 福建正孚软件有限公司 一种企业级全量数据智能搜索实现方法及系统
CN113553376A (zh) * 2021-07-19 2021-10-26 建信金融科技有限责任公司 基于分布式架构的财险产品发布与检索方法、装置及系统
CN113590584A (zh) * 2021-07-23 2021-11-02 无锡海创智慧谷科技有限公司 一种基于大数据的人才库构建方法
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统
US11392987B2 (en) 2013-10-09 2022-07-19 Mobile Technology Corporation Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
CN115314506A (zh) * 2022-07-05 2022-11-08 中电万维信息技术有限责任公司 一种软件信息采集处理系统
CN115426203A (zh) * 2022-11-04 2022-12-02 北京珞安科技有限责任公司 一种工业防火墙及其防护方法
TWI809962B (zh) * 2022-07-04 2023-07-21 廖俊雄 可供輔助提升網路搜尋引擎檢索排名之網站製作平台

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887417A (zh) * 2009-05-13 2010-11-17 上海即略网络信息科技有限公司 一种搜索方法
CN102868555A (zh) * 2012-08-31 2013-01-09 浪潮电子信息产业股份有限公司 一种基于网络自动管理计算机的方法
WO2014183249A1 (en) * 2013-05-13 2014-11-20 Nokia Corporation Methods, apparatuses, and computer program products for modification of webpage based on device data
CN104239012A (zh) * 2013-06-17 2014-12-24 腾讯科技(深圳)有限公司 一种推送网页应用消息的方法和装置
CN103310017A (zh) * 2013-07-03 2013-09-18 百度在线网络技术(北京)有限公司 服务搜索方法、系统和搜索服务器
US11568444B2 (en) 2013-10-09 2023-01-31 Mobile Technology Corporation Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
CN106062731A (zh) * 2013-10-09 2016-10-26 莫柏尔技术有限公司 使用空间和时间分析以将数据源和移动设备关联的系统和方法
US11783372B2 (en) 2013-10-09 2023-10-10 Mobile Technology Corporation Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
US10719852B2 (en) 2013-10-09 2020-07-21 Mobile Technology, LLC Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
US11392987B2 (en) 2013-10-09 2022-07-19 Mobile Technology Corporation Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
US11049145B2 (en) 2013-10-09 2021-06-29 Mobile Technology, LLC Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
CN106062731B (zh) * 2013-10-09 2019-07-02 莫柏尔技术有限公司 使用空间和时间分析以将数据源和移动设备关联的系统和方法
US10402860B2 (en) 2013-10-09 2019-09-03 Mobile Technology Corporation, LLC Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
CN104202348A (zh) * 2014-02-24 2014-12-10 无锡天脉聚源传媒科技有限公司 一种推送信息的方法、装置及系统
CN108268552A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 网站信息的处理方法及装置
CN108268552B (zh) * 2016-12-30 2020-08-11 北京国双科技有限公司 网站信息的处理方法及装置
CN107092639A (zh) * 2017-02-23 2017-08-25 武汉智寻天下科技有限公司 一种搜索引擎系统
CN107463630A (zh) * 2017-07-14 2017-12-12 太仓诚泽网络科技有限公司 多端网页控制系统
CN107451289A (zh) * 2017-08-14 2017-12-08 四川汇源吉迅数码科技有限公司 基于垂直搜索引擎的数字内容查询系统
CN108549707A (zh) * 2018-04-18 2018-09-18 安徽智网信息科技有限公司 一种基于行为感知的大数据提取系统及方法
CN108958709A (zh) * 2018-06-11 2018-12-07 武汉般若互动科技有限公司 一种大型企业网站建设方案
CN109408763A (zh) * 2018-11-06 2019-03-01 深圳市东宝信息技术有限公司 一种对不同模板的简历进行管理的方法及系统
CN109711948A (zh) * 2019-01-09 2019-05-03 广州视源电子科技股份有限公司 物品推荐方法、装置、设备及存储介质
US10687174B1 (en) 2019-09-25 2020-06-16 Mobile Technology, LLC Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
US11356808B2 (en) 2019-09-25 2022-06-07 Mobile Technology Corporation Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
US12028779B2 (en) 2019-09-25 2024-07-02 Mobile Technology Corporation Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
CN112269913A (zh) * 2020-10-28 2021-01-26 福建正孚软件有限公司 一种企业级全量数据智能搜索实现方法及系统
CN113553376A (zh) * 2021-07-19 2021-10-26 建信金融科技有限责任公司 基于分布式架构的财险产品发布与检索方法、装置及系统
CN113590584A (zh) * 2021-07-23 2021-11-02 无锡海创智慧谷科技有限公司 一种基于大数据的人才库构建方法
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统
CN113704589B (zh) * 2021-09-03 2023-10-13 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统
TWI809962B (zh) * 2022-07-04 2023-07-21 廖俊雄 可供輔助提升網路搜尋引擎檢索排名之網站製作平台
CN115314506A (zh) * 2022-07-05 2022-11-08 中电万维信息技术有限责任公司 一种软件信息采集处理系统
CN115426203B (zh) * 2022-11-04 2023-03-24 北京珞安科技有限责任公司 一种工业防火墙及其防护方法
CN115426203A (zh) * 2022-11-04 2022-12-02 北京珞安科技有限责任公司 一种工业防火墙及其防护方法

Similar Documents

Publication Publication Date Title
CN1822005A (zh) 基于网站自动生成和搜索引擎的信息推送系统及方法
CN1794239A (zh) 具有搜索功能的模板式网站自动生成系统及其方法
CN1151457C (zh) 基于万维网共享搜索引擎查询的系统和方法
CN110597981B (zh) 一种采用多策略自动生成摘要的网络新闻概要系统
CN107563725B (zh) 一种优化繁琐人才招聘过程的招聘系统
US8745039B2 (en) Method and system for user guided search navigation
CN102521337B (zh) 一种基于海量知识网络的学术社区系统
US20100057719A1 (en) System And Method For Generating Training Data For Function Approximation Of An Unknown Process Such As A Search Engine Ranking Algorithm
CN1858733A (zh) 信息检索系统和检索方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN1818909A (zh) 一种互联网用户相互搜索方法及其搜索引擎
CN1809804A (zh) 补充有提供对来自预定义搜索查询的搜索结果的访问的url的搜索引擎
CN105022827A (zh) 一种面向领域主题的Web新闻动态聚合方法
CN101079063A (zh) 一种基于场景信息推送广告的方法、系统及设备
CN104838413A (zh) 基于用户提交来调整内容递送
CN101042699A (zh) 基于访问控制的安全搜索引擎系统
CN102446225A (zh) 一种实时搜索的方法、装置和系统
CN1825308A (zh) 网络搜寻系统及方法
CN102063488A (zh) 一种基于语义的代码搜索方法
CN101079064A (zh) 一种网页排序方法及装置
CN101075259A (zh) 使用公众网站获取元数据
CN1909522A (zh) 获取网页关键字的方法及其应用系统
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
CN105069112A (zh) 一种行业垂直搜索引擎系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication