CN101470752A - 基于关键词解析调度的搜索引擎方法 - Google Patents

基于关键词解析调度的搜索引擎方法 Download PDF

Info

Publication number
CN101470752A
CN101470752A CNA2007103084668A CN200710308466A CN101470752A CN 101470752 A CN101470752 A CN 101470752A CN A2007103084668 A CNA2007103084668 A CN A2007103084668A CN 200710308466 A CN200710308466 A CN 200710308466A CN 101470752 A CN101470752 A CN 101470752A
Authority
CN
China
Prior art keywords
file
page
keyword
search engine
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007103084668A
Other languages
English (en)
Inventor
李治平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Finger Point (beijing) Technology Co Ltd
Original Assignee
Finger Point (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Finger Point (beijing) Technology Co Ltd filed Critical Finger Point (beijing) Technology Co Ltd
Priority to CNA2007103084668A priority Critical patent/CN101470752A/zh
Publication of CN101470752A publication Critical patent/CN101470752A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及移动终端网络中基于关键词解析调度的搜索引擎方法。该方法包含数据库建立步骤和用户网页搜索步骤,数据库建立步骤为:1.遍历所有的URL连接;2.从URL连接的网页中提取文本文件;3.文件进行结构化信息抽取存入存储器;4.提取结构化信息结构文件中基于关键词的中文分词;5.文档排重,产生一个文件指纹向量值;6.创建含有指纹向量值的文件页索引。本发明对比现有技术的优点是:1.提高了搜索引擎搜索的快速和准确性;2.数据文件页或摘要文件页短小精炼特别适合于移动终端用户显示屏幕;3.信息数据库中建立的结构化的数据文件页或摘要文件页短小精炼节省了大量的硬件资源或者说扩大了信息的存储量。

Description

基于关键词解析调度的搜索引擎方法
技术领域
本发明涉及网络领域,特别涉及移动终端网络中基于关键词解析调度的搜索引擎方法。
背景技术
搜索引擎因其能在几乎无限的网络资源中搜索到用户所需要的信息而备受重视,目前的搜索引擎大都是网页搜索引擎,它是将网页作为最小单位,采用的是链接分析的方法为用户找到需要的信息;其中,太多的无用信息也会伴随着用户需要信息产生出来,影响用户有用信息的查询速度和准确性;而目前的移动终端用户由于终端显示屏幕较小,网络带宽窄,其信息的搜索更偏重于行业性和专业性;采用传统的搜索引擎,大量的无用信息影响了移动终端用户的信息搜索;申请号为2004100266745的中国发明专利申请公开了“一种基于关键字搜索的移动互联网智能信息搜索引擎”,该项专利申请说明书第3页第2-5段表达了形成搜索引擎完整的搜索规则,其过程是要“利用系统自动分析目标网站结构,采用相应的具有相似布局的html网页信息,自动生成内容表达式,并根据人工决策,生成确切定位的目标网元的内容匹配表达式,以及通过内容匹配表达式获得的目标网元,以及目标网元和栏目分类的映射关系,形成一个网元映射图,生成一个内容获取表达式构成搜索规则“。说明书第2页倒数第1段,第3页第6段叙述了根据上述搜索规则建立的全文索引信息库,其中,搜索规则和全文索引信息库的建立繁琐复杂。
该专利关键字针对的是搜索引擎的使用,并是基于因特网上无限大的网络资源进行搜索,其结果是有大量的不必要的信息影响搜索结果的排序和显示效果、影响精确度、部分页面无法抓取到、用户对搜索范围和内容以及体现的结果无法精确控制、速度慢,消耗大量的硬件资源,无法满足移动终端用户更偏重于行业性和专业性信息搜索的需要。
发明内容
本发明的目的是对行业性和专业性信息搜索而提出的基于关键词解析调度的搜索引擎方法,本发明在信息文件索引库的建立上,采用了基于关键词的中文分词创建含有指纹向量值的文件页索引,提高了搜索引擎搜索的快速和准确性。
为了实现上述目的,本发明的一种基于关键词解析调度的搜索引擎方法,该方法是在网络服务器中分为三层设置的一种搜索引擎结构下实现的,该搜索引擎的三层设置结构是:
一)用于输入搜索信息的通讯层,所述通讯层是一个网络通信协议管理包;该网络通信协议管理包含有WAP、Web、MMS、MSN、SGIP、CMPP网络通信协议;该管理包将上述协议进行统一的二次封装,实现系统内数据结构的统一处理;
二)用于处理搜索信息的解析调度层,该调度解析层包括行业关键词库、行业上下文关联库、自然语言拆词解析模块和调度控制管理模块;
三)用于数据处理的垂直(分类)查询数据库层,该数据库层包括均衡负载服务器、数据分类服务器和数据索引服务器;其特点是,在所述的数据分类服务器中设有结构化信息结构文件数据库,所述的数据索引服务器包含有用户内容索引建立接口、用户内容分词接口和用户数据搜索接口。
输入的搜索信息通过网络通信协议管理进入处理搜索信息的调度解析层,在该解析层运用自然语言拆词解析模块和调度控制管理模块找出一个关键词,在行业关键词库或行业上下文关联库中查找出对应行业的行业关键词;将行业关键词送入垂直查询数据库层,运用均衡负载服务器、数据分类服务器和数据索引服务器,在结构化信息结构文件数据库中将所需的专业数据返回到用户的显示界面。
该方法包含数据库建立步骤和用户网页搜索步骤,其中用户网页搜索步骤为:
1.接收用户搜索词,提取基于关键词的中文分词;
2.根据提取的中文分词在网页索引中找到文件页入口;
3.提取该文件页内容或网页摘要到移动终端用户显示屏幕;
数据库建立步骤为:
1.遍历所有的URL连接;
2.从URL连接的网页中提取文本文件(Html)以及Windows文件格式的文件;
3.对网页文本文件(Html)以及Windows文件格式的文件进行结构化信息抽取、分类,形成结构化信息结构文件存入存储器;
4.提取结构化信息结构文件中基于关键词的中文分词;其中,关键词是在词库中已建立的单字方式、二元覆盖方式、地名、名词性词组成的词库;
5.文档排重,产生一个文件指纹向量值,具体步骤为:
a,将每个文件页的中文分词表示成基于中文分词的特征向量,使用TF*IDF公式推算出的值作为每个特征项的权值;
b,将特征项按照此权值排序;
c,选取前n个特征项,然后重新按照字符排序(否则找不到对应关系了);
d,调用MD5算法,将每个特征项串转化为一个128比特的串,作为该文件页的指纹向量值;
6.创建含有指纹向量值的文件页索引。
本发明对比现有技术的优点是:
1.在信息库中将搜索到的信息通过关键词解析分门别类,建立了针对行业性和专业性的文档或网页摘要信息数据库,提高了搜索引擎搜索的快速和准确性;
2.信息数据库中建立的是一种结构化的数据文件页或摘要文件页短小精炼特别适合于移动终端用户显示屏幕;
3.信息数据库中建立的结构化的数据文件页或摘要文件页短小精炼节省了大量的硬件资源或者说扩大了信息的存储量。
下面结合附图和实施例对本实用新型作一详细描述。
附图说明
图1基于关键词解析调度的搜索引擎结构示意图;
图2基于关键词解析调度的搜索引擎方法的用户网页搜索步骤流程图;
图3基于关键词解析调度的搜索引擎方法的数据库建立步骤流程图。
具体实施方式
实施例1,
参见图1、图2和图3,本发明用于实现基于关键词解析调度的搜索引擎方法是根据在网络服务器中分为三层设置的一种搜索引擎结构实现的,该搜索引擎结构包括:
一)用于输入搜索信息的通讯层1,所述通讯层是一个网络通信协议管理包;该网络通信协议管理包含有WAP、Web、MMS、MSN、SGIP、CMPP网络通信协议;该管理包将上述协议进行统一的二次封装,实现系统内数据结构的统一处理;
二)用于处理搜索信息的解析调度层2,该调度解析层包括行业关键词库、行业上下文关联库、自然语言拆词解析模块和调度控制管理模块;
三)用于数据处理的垂直(分类)查询数据库层3,该数据库层包括均衡负载服务器、数据分类服务器和数据索引服务器;其特点是,在所述的数据分类服务器中设有结构化信息结构文件数据库,所述的数据索引服务器包含有用户内容索引建立接口、用户内容分词接口和用户数据搜索接口。
输入的搜索信息通过网络通信协议管理进入处理搜索信息的调度解析层,在该解析层运用自然语言拆词解析模块和调度控制管理模块找出一个关键词,在行业关键词库或行业上下文关联库中查找出对应行业的行业关键词;将行业关键词送入垂直查询数据库层,运用均衡负载服务器、数据分类服务器和数据索引服务器,在结构化信息结构文件数据库中将所需的专业数据返回到用户的显示界面。
在用于数据处理的垂直查询数据库层中所设的用户内容索引建立接口、用户内容分词接口和用户数据搜索接口是公共接口;为第三方的应用提供了方便,只要按照为用户提供的专用IP地址,按下列引导词输入相应的数据就能为用户建立专用的搜索引擎,引导词包括:
Indexclass,索引类,提供索引接口;
Keywordclass,关键词类,根据关键词进行数据索引;
Pointclass,指向类,重建新的索引;
Tcclass,简体繁体转换类;
Lucceneclass,索引类,建立索引分布式数据索引库;
以及
Industries keyword class,行业关键词库类;
Industries context,行业上下文关联库类;
Naturallanguage word Segmentation and analysis class,自然语言拆次解析类。
基于上述搜索引擎结构:一种基于关键词解析调度的搜索引擎方法,该方法包含数据库建立步骤和用户网页搜索步骤,其中用户网页搜索步骤为:
201.接收用户搜索词,提取基于关键词的中文分词;
202.根据提取的中文分词在网页索引中找到文件页入口;
203.提取该文件页内容或网页摘要到移动终端用户显示屏幕;数据库建立步骤为:
301.遍历所有的URL连接;
302.从URL连接的网页中提取文本文件(Html)以及Windows文件格式的文件;
303.对网页文本文件(Html)以及Windows文件格式的文件进行结构化信息抽取、分类,形成结构化信息结构文件存入存储器;
304.提取结构化信息结构文件中基于关键词的中文分词;其中,关键词是在词库中已建立的单字方式、二元覆盖方式、地名、名词性词组成的词库;
305.文档排重,用语义指纹生成法生成指纹(唯一)向量值;
306.创建含有指纹(唯一)向量值的文件页索引。
所述的语义指纹生成法生成指纹(唯一)向量值;具体步骤为:
a,将每个文件页的中文分词表示成基于中文分词的特征向量,使用TF*IDF公式推算出的值作为每个特征项的权值;
b,将特征项按照此权值排序;
c,选取前n个特征项,然后重新按照字符排序(否则找不到对应关系了);
d,调用MD5算法,将每个特征项串转化为一个128比特的串,作为该文件页的指纹向量值;
所述的提取基于关键词的中文分词的方法:
首先建立关键词提取训练库:训练文件(X.txt)和对应的关键词文件(x.key);
利用TF*IDF公式:统计词频和词在所有文档中出现的总次数;
利用位置信息:开始和结束位置的词往往更可能是关键词;
利用词性信息:关键词往往是名词或者名词结尾的词,而介词,副词,动词结尾的词一般不能组成词组;
利用词或者字的互信息:I(x,y)=log2(P(x,y)/(P(x)P(y)))
需要去除StopWords
利用标点符号:《》和“”之间的文字,例如:“汉芯一号”造假案;
标题中出现的词往往更重要。
所述数据库建立步骤3,网页文本文件(Html)以及Windows文件格式的文件进行结构化信息抽取、分类;其中,网页文本文件(Html)文件格式的文件进行结构化信息抽取、分类采用了Htmlparser文件解析程序库;网页Windows文件格式的文件进行结构化信息抽取、分类采用了其它相应的文件解析程序库,例如用PDFBox来解析PDF文件,PDFBox它是一个开源软件,可以到http://sourceforge.net/projects/pdfbox/下载;
使用Htmlparser文件解析程序库可以完成对非规范的HTML文件解析;HtmlParser主要靠Node、AbstractNode和Tag来表达Html,Node是形成树结构表示Html的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应Html文本的方法,定义了该节点对应的起止位置,定义了过滤方法,定义了Visitor访问机制。
AbstractNode是Node的一种具体的类实现,起到构成树形结构的作用,除了同具体Node相关的accetp方法,toString,toHtml,toPlainTextString方法以外,AbstractNode实现了大多基本的方法,使得它的子类,不用理会具体的树操作。
Tag是具体分析的主要内容,Tag分成composite的Tag和不能包含其他Tag的简单Tag两类,其中前者的基类是CompositeTag,其子类包含BodyTag,Div,FrameSetTag,OptionTag,等27个子类;而简单Tag有BaseHrefTag、DoctypeTag,FrameTag,ImageTag,InputTag,JspTag,MetaTag,ProcessingInstructionTag这八类。
步骤4中的单字方式、二元覆盖方式:以“咬死猎人的狗”为例;
单字方式:(咬)(死)(猎)(人)(的)(狗);
二元覆盖方式:(咬死)(死猎)(猎人)(人的)(的狗);
步骤5中使用TF*IDF公式推算出的值作为每个特征项的权值是这样实现的:KKi,Di=FKi,Dix(Log2N/(NK,D+1))其中,FKi,Di为中文分词Ki在文件Di中出现的次数,N为文件集总数,NK,D为文件集中至少出现一次的中文分词Ki的文件数;
步骤5中使用MD5算法,将每个特征项串转化为一个128比特的串;MD5(全称是message-digest algorithm 5)是一个公知的技术,它的作用是让大容量信息在用数字签名软件签署私人密匙前被“压缩”为一种保密的格式。它的典型应用是对一段信息(message)产生信息摘要(message-digest),以防止被篡改。通俗地说MD5码就是个验证码,就像我们的个人身份证一样,每个人的都是不一样的。MD5码是每个文件的唯一校验码(MD5不区分大小写,但由于MD5码有128位之多,所以任意信息之间具有相同MD5码的可能性非常之低,通常被认为是不可能的),凭借此特性常被用于密码的加密存储、数字签名及文件完整性验证等功能。通过MD5验证即可检查文件的正确性,例如可以校验出下载文件中是否被捆绑有其它第三方软件或木马、后门(若是校验结果不正确就说明原文件已被人擅自篡改)。本步骤中使用MD5算法,只是将特征项转换成唯一编码串,标识网页或文件,不是为了加密。

Claims (4)

1.基于关键词解析调度的搜索引擎方法,该方法包含数据库建立步骤和用户网页搜索步骤,其中用户网页搜索步骤为:
A.接收用户搜索词,解析关键词提取中文分词;
B.根据提取的中文分词在网页索引中找到文件页入口;
C.提取该文件页内容或网页摘要到移动终端用户显示屏幕;
其特征在于,所述数据库建立步骤为:
A.遍历所有的URL连接;
B.从URL连接的网页中提取文本文件(Html)以及Windows文件格式的文件;
C.对网页文本文件(Html)以及Windows文件格式的文件进行结构化信息抽取、分类,形成结构化信息结构文件存入存储器;
D.提取结构化信息结构文件中基于关键词的中文分词;其中,关键词是在词库中已建立的单字方式、二元覆盖方式、地名、名词性词组成的词库;
E.文档排重,产生一个文件指纹向量值;具体步骤为:
a,将每个文件页的中文分词表示成基于中文分词的特征向量,使用TF*IDF公式推算出的值作为每个特征项的权值;
b,将特征项按照此权值排序;
c,选取前n个特征项,然后重新按照字符排序;
d,调用MD5算法,将每个特征项串转化为一个128比特的串,作为该文件页的指纹向量值;
F.创建含有指纹向量值的文件页索引。
2.根据权利要求1所述的基于关键词解析调度的搜索引擎方法,其特征在于,所述数据库建立步骤C,网页文本文件(Html)文件格式的文件进行结构化信息抽取、分类采用了Htmlparser文件解析程序库。
3.根据权利要求1所述的基于关键词解析调度的搜索引擎方法,其特征在于,所述数据库建立步骤C,Windows文件格式的文件进行结构化信息抽取、分类采用了PDFBox来解析PDF文件。
4.根据权利要求1所述的基于关键词解析调度的搜索引擎方法,其特征在于,所述数据库建立步骤E,使用TF*IDF公式推算出的值作为每个特征项的权值的具体方法是:KKi,Di=FKi,Dix(Log2N/(NK,D+1)),其中,FKi,Di为中文分词Ki在文件Di中出现的次数,N为文件集总数,NK,D为文件集中至少出现一次的中文分词Ki的文件数。
CNA2007103084668A 2007-12-29 2007-12-29 基于关键词解析调度的搜索引擎方法 Pending CN101470752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007103084668A CN101470752A (zh) 2007-12-29 2007-12-29 基于关键词解析调度的搜索引擎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007103084668A CN101470752A (zh) 2007-12-29 2007-12-29 基于关键词解析调度的搜索引擎方法

Publications (1)

Publication Number Publication Date
CN101470752A true CN101470752A (zh) 2009-07-01

Family

ID=40828228

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007103084668A Pending CN101470752A (zh) 2007-12-29 2007-12-29 基于关键词解析调度的搜索引擎方法

Country Status (1)

Country Link
CN (1) CN101470752A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011017929A1 (zh) * 2009-08-11 2011-02-17 中兴通讯股份有限公司 手机浏览器快速定位有效信息的方法与装置
CN102163199A (zh) * 2010-02-24 2011-08-24 富士通株式会社 构造索引库的方法和设备以及查询方法
CN102375813A (zh) * 2010-08-09 2012-03-14 腾讯科技(深圳)有限公司 搜索引擎排重系统及方法
CN103955537A (zh) * 2014-05-16 2014-07-30 福州大学 一种语义模糊可搜索加密云盘设计方法及系统
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
CN104731909A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于heritrix和htmlparser商品信息提取方法
CN107145603A (zh) * 2017-06-08 2017-09-08 上海德衡数据科技有限公司 一种针对关键词的网络文档搜索引擎框架
CN110414251A (zh) * 2019-07-31 2019-11-05 北京明朝万达科技股份有限公司 数据监测方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011017929A1 (zh) * 2009-08-11 2011-02-17 中兴通讯股份有限公司 手机浏览器快速定位有效信息的方法与装置
CN102163199A (zh) * 2010-02-24 2011-08-24 富士通株式会社 构造索引库的方法和设备以及查询方法
CN102375813A (zh) * 2010-08-09 2012-03-14 腾讯科技(深圳)有限公司 搜索引擎排重系统及方法
CN102375813B (zh) * 2010-08-09 2016-12-21 深圳市世纪光速信息技术有限公司 搜索引擎排重系统及方法
CN104216931A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 实时推荐系统及方法
CN103955537A (zh) * 2014-05-16 2014-07-30 福州大学 一种语义模糊可搜索加密云盘设计方法及系统
CN104731909A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于heritrix和htmlparser商品信息提取方法
CN107145603A (zh) * 2017-06-08 2017-09-08 上海德衡数据科技有限公司 一种针对关键词的网络文档搜索引擎框架
CN110414251A (zh) * 2019-07-31 2019-11-05 北京明朝万达科技股份有限公司 数据监测方法和装置

Similar Documents

Publication Publication Date Title
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN109948911B (zh) 一种计算网络产品信息安全风险的评估方法
Ratkiewicz et al. Truthy: mapping the spread of astroturf in microblog streams
CN101470752A (zh) 基于关键词解析调度的搜索引擎方法
US10423649B2 (en) Natural question generation from query data using natural language processing system
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
Chen et al. SMS-based web search for low-end mobile devices
US20050267915A1 (en) Method and apparatus for recognizing specific type of information files
CN110377900A (zh) 网络内容发布的审核方法、装置、计算机设备及存储介质
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN111597803B (zh) 一种要素提取方法、装置、电子设备及存储介质
CN102622443A (zh) 一种面向微博的定制化筛选系统及方法
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN107633081A (zh) 一种失信用户信息的查询方法及系统
CN112148701A (zh) 一种文件检索的方法及设备
CN109508458A (zh) 法律实体的识别方法及装置
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
CN106933380B (zh) 一种词库的更新方法和装置
Sun et al. Design and Application of an AI‐Based Text Content Moderation System
CN104965902A (zh) 一种富集化url的识别方法和装置
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
US20130282759A1 (en) Method and system for processing search queries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090701