CN101162472A

CN101162472A - 用于农业复杂自适应搜索引擎系统的控制方法

Info

Publication number: CN101162472A
Application number: CNA2007101939572A
Authority: CN
Inventors: 王儒敬; 黄河; 张晓明; 孙丙宇; 魏圆圆
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2007-11-21
Filing date: 2007-11-21
Publication date: 2008-04-16
Anticipated expiration: 2027-11-21
Also published as: CN100483422C

Abstract

本发明涉及用于农业复杂自适应搜索引擎系统的控制方法，包括采用搜集子系统、索引子系统、日志挖掘子系统和原始信息数据库，通过系统控制器采用分层式多主体联盟。通过多个主体协作组进入多主体分类联盟，建立农业信息采集、分类、清洗和服务的农业知识平台。农业知识平台中的采集主体能够根据用户的不同需要和兴趣自适应调整采集意向，分类主体协作组、清洗主体协作组和服务主体协作组通过相互间的通信与采集主体协作组相互通信，进行自适应调整，包括原始信息数据库的内容更新，最终提供给用户满意的搜索结果和服务。本发明提高搜索引擎对用户与网络环境的动态适应能力，解决农业信息服务“信息过载”问题。

Description

用于农业复杂自适应搜索引擎系统的控制方法

技术领域本发明涉及计算机和人工智能应用领域，特别涉及用于农业复杂自适应搜索引擎系统的控制方法。

背景技术国内外学者对个性化、专业化以及自适应搜索模式的研究做了大量有价值的工作。比如，唐晨辉设计的“一种互联网用户相互搜索方法及其搜索引擎”，提供一种互联网用户之间相互搜索的方法和搜索引擎。互联网用户之间可以根据彼此使用搜索引擎时的搜索记录(采用的关键字和搜索时间)而找到对方；GROSS WILLIAM等人设计的“SEARCH ENGINE USING USERINTENT”，提出了一种基于历史搜索用户行为属性的搜索结果排序方法。这些属性为搜索查询要求与链、文件或与其相关的其他资源的相关度提供了一个评测标准。

但是，由于Internet的结构无组织、多模式特点；信息源动态性、异地分布性特点；信息量日新月异地增加，致使保存的信息是变化的、模糊的甚至是不完整的；这些特点使得这些搜索模型无法适应复杂网络环境的动态变化，信息更新速度缓慢；专业化信息获取困难，网页抓取的采全率、采准率无法得到保证；个性化搜索模型与自适应搜索模型仅仅建立了用户兴趣与搜索服务的适应与协作关系，如何把用户兴趣模式用于校准专业信息采集意向，如何进一步提高专业信息分类精度，如何净化分类信息进一步提高信息质量，都是新一代专业化、个性化、高度智能化搜索引擎面临的核心问题。

正如戴汝为院士指出的：互联网是一个以不确定的形式、不确定的时间进行着不确定内容的动态交互作用形成的动态系统，这个系统完全具备了开放的巨复杂系统的动力学特征。

经查新检索，现有技术中的情报杂志2 4卷7期介绍了《多Agent协作的智能搜索引擎系统的设计与实现》论文。论文主要技术内容是：设计了一种基于多Agent协作的智能搜索引擎系统模型，结合人工智能的Agent技术与元搜索引擎技术来共同执行检索任务，实现基于用户兴趣的智能化与个性化。该现有技术论文所述的多Agent协作的智能搜索引擎系统综合考虑了用户个性化的特点，以Agent之间的通信与协作完成信息检索，具有良好的灵活性和扩展性，为用户检索所需的信息提供了较好的解决方案。

但是该系统的不足之处是：多Agent协作的智能搜索引擎系统是一种元搜索引擎系统，存在着搜索效率较低，受到成员搜索引擎功能的限制，对于一些行业的专业化搜索引擎的需要，如农业方面的搜索，则查全率与查准率还不够。

发明内容本发明的目的是：针对互联网开放性、层次性、演化性、巨量性等本质特性，在提高查全率与查准率等重要指标的同时，提出一种用于农业复杂自适应搜索引擎系统的控制方法。该方法能够提高搜索引擎对用户与网络环境的动态适应能力，为我国广大农业协会、企业、大户以及农技人员提供农业市场、技术以及政策、新闻等智能化、个性化专业化服务，有效解决农业信息服务“信息过载”问题。同时，该方法对建立其它行业的专业化搜索引擎也具有指导意义。

本发明的技术方案是：一种用于农业复杂自适应搜索引擎系统的控制方法，包括采用搜集子系统、索引子系统、日志挖掘子系统和采集信息数据库，通过系统控制器采用分层式多主体联盟，其中：

搜集子系统包括基于知识模板的采集主体与互联网和系统控制器的交互，，它从系统控制器中获得需要搜集的网页地址，然后根据HTTP协议，和对应的网页地址所在的网络服务器建立连接，在每个系统控制器上设一个以上分布接口，使用于农业复杂自适应搜索引擎系统向搜集子系统进行扩展；

索引子系统包括索引器和索引数据库，索引器包括词典、一级网页索引、二级网页索引和网页描述；

日志挖掘子系统包括日志分析器和用户行为日志数据库；

特别是：用于农业复杂自适应搜索引擎系统建立采集信息数据库的原始信息数据库，实现农业信息的形式化表达，该方法的执行步骤是：

将与执行任务的顺序控制或伺服控制程序存入系统的程序存储器；

启动该用于农业复杂自适应搜索引擎系统工作，CPU按系统的程序存储器内容读取指令、执行操作，并根据所执行指令的内容更新程序计数器；

当所执行的指令为打开指令时，程序计数器更新与通用计算机相同，通过多个主体协作组进入多主体分类联盟，建立农业信息采集、分类、清洗和服务的农业知识平台；

当所执行的指令为工作指令时，所述的用于农业复杂自适应搜索引擎采用搜集节点、索引节点、查询主体和用户；

设定搜集到的网页存在于一个搜集节点上，每个索引节点对应搜集节点搜集的网页；

查询主体通过多播向所有索引节点发送查询命令，等待搜集到全部索引节点返回的检索结果后，对所有结果依据相关度排序，并缓存一定数量的结果，最后向用户返回结果的首页；

当所执行的指令为农业知识平台中的采集主体指令时，用于农业复杂自适应搜索引擎采用搜集子系统、索引子系统和日志挖掘子系统三个子系统；

设定在搜集子系统中采集主体利用知识模板从互联网上不断的采集信息，经过系统控制器将信息存储在原始信息数据库中；

将原始信息数据库中的数据通过多主体分类联盟进行信息分类，然后通过索引器的分析，建立索引数据库；

同时将原始信息数据库中的数据通过多主体分类联盟分类和日志分析器的分析，建立索引数据库，通过检索器建立用户接口，方便用户查询检索信息，将用户的行为记录在用户行为日志数据库中，作为日志分析器的依据；

农业知识平台中的采集主体能够根据用户的不同需要和兴趣自适应调整采集意向，分类主体协作组、清洗主体协作组和服务主体协作组通过相互间的通信以及跟采集主体协作组的相互通信，也进行自适应调整，包括原始信息数据库的背景知识，索引节点的网页索引、检索式、结果排序，最终提供给用户满意的搜索结果和服务。

作为对现有技术的进一步改进，原始信息数据库包括数据库、文本库、图片库、知识库，知识库为农业分类本体知识库。

多个主体协作组进入多主体分类联盟，其中，多个主体协作组为四个，包括服务主体协作组、清洗主体协作组、分类主体协作组、和采集主体协作组，多主体分类联盟为四个，包括采集联盟、分类联盟、清洗联盟、服务联盟。

采集联盟，以星型结构建立多主体采集联盟，采用知识模板技术，根据农业种植、养殖分类标准定义主体的信息采集意向，实现大量农业技术、农业市场、农业新闻信息的分类采集，建立网络信息的采集主体。

分类联盟以星型结构建立多主体分类联盟，针对种植、养殖的品种技术、施肥技术、病虫害诊断与防治技术以及粮食作物、经济作物、瓜果蔬菜分类本体为背景知识，采用基于支持向量机的半监督聚类方法对采集的网络信息建立支持向量机分类主体。

清洗联盟以星型结构建立多主体清洗联盟，设有数据清洗、文本清洗、图片清洗，采用时间序列插值、空间序列插值方法建立数据缺损、矛盾、冗余探测与清洗主体；采用基于背景知识的半监督聚类方法建立网页信息奇异点探测主体，采用基于矢量空间模型相似度计算方法建立冗余网页信息探测与清洗主体。

服务联盟建立多主体服务联盟，利用广大用户注册信息作为背景知识，结合网络用户日志挖掘技术，基于农业分类本体的信息扩张技术，实现用户需求逐步聚焦，针对农业协会、农业企业、农民大户建立服务主体。

本发明的有益效果是：

现有技术论文中的多Agent协作的智能搜索引擎系统是一种元搜索引擎系统，直接利用成员搜索引擎进行搜索，获得结果，不需要对网络原始信息进行采集，没有利用知识表达方法对信息进行形式化表达，不存在原始信息数据库。

本发明方法中：建立原始信息数据库，实现农业信息的形式化表达，采集主体利用知识模板从互联网上不断的采集信息，经过系统控制器，将信息存储在原始信息数据库中。原始信息数据库中的数据通过多主体分类联盟进行信息分类，然后通过索引器的分析，建立索引数据库。用户通过用户接口，利用检索器查询索引数据库中的信息，同时用户的行为会记录在用户行为日志数据库中，作为日志分析器的依据。日志分析器的结果会反馈到原始信息数据库和索引数据库，对原始信息数据库中的内容做相应的调整。农业知识平台中的采集主体能够根据用户的不同需要和兴趣自适应调整采集意向，分类主体协作组、清洗主体协作组和服务主体协作组通过相互间的通信以及跟采集主体协作组的相互通信，也进行自适应调整，包括原始信息数据库的背景知识，索引节点的网页索引、检索式、结果排序，最终提供给用户满意的搜索结果和服务。

本专利申请中的用于农业复杂自适应搜索引擎系统是一种基于网络信息采集器的搜索引擎，利用采集主体联盟和知识模板直接在互联网上采集信息，不存在对外界搜索引擎的依赖，并且利用知识表达方法对信息进行形式化表达，建立系统的原始信息数据库，而且本系统利用复杂适应系统的思想，建立具有学习机制和进化机制的多智能体，不但注重主体(agent)间的交互，还强调主体与外界环境的交互和影响，与传统的多主体系统有所不同。

本发明针对互联网开放性、层次性、演化性、巨量性等本质特性，从复杂适应系统这一全新的角度，以农业搜索服务为应用背景，建立专业信息采集、分类、清洗与服务主体联盟，并组成多主体联盟实验环境。

本发明对文化程度以及计算机操作水平相对较低的涉农用户将有更加迫切的需求。目前国内农业专业搜索引擎，特别是个性化、自适应的农业搜索引擎还处于技术突破的前沿，因此用于农业复杂自适应搜索引擎系统的控制方法为我国蓬勃发展的农业企业、农业协会、农民大户以及广大农业技术人员提供农业市场、农业技术以及政策新闻等个性化服务。有效缓解农业信息服务“信息过载”问题，对促进我国农业与农村信息化建设也将起到关键作用。同时，该方法对建立其它行业的专业化搜索引擎也具有指导意义。

附图说明

图1是本发明的农业知识平台示意图。

图2是用于农业复杂自适应搜索引擎设计示意图。

图3是用于农业复杂自适应搜索引擎系统的控制方法实施方框图。

图4是用于农业复杂自适应搜索引擎系统的控制方法的流程图。

具体实施方式下面结合附图和实施例对本发明作进一步解释

图1是本发明的农业知识平台示意图。在图1中：

多个主体协作组为四个，包括服务主体协作组、清洗主体协作组、分类主体协作组、和采集主体协作组；

多主体分类联盟为四个，包括采集联盟、分类联盟、清洗联盟、服务联盟。其中：

采集联盟，由农业技术采集主体、农业市场采集主体、农业新闻采集主体等组成采集联盟。以星型结构建立多主体采集联盟，采用知识模板技术，根据农业种植、养殖分类标准定义主体的信息采集意向，实现大量农业技术、农业市场、农业新闻信息的分类采集，建立网络信息的采集主体。

分类联盟，由种植业分类主体、养殖业分类主体、林业分类主体等组成分类联盟。以星型结构建立多主体分类联盟，针对种植、养殖的品种技术、施肥技术、病虫害诊断与防治技术以及粮食作物、经济作物、瓜果蔬菜分类本体为背景知识，采用基于支持向量机的半监督聚类方法对采集的网络信息建立支持向量机分类主体。

清洗联盟，由数据清洗主体、文本清洗主体、图片清洗主体等组成清洗联盟。以星型结构建立多主体清洗联盟，设有数据清洗、文本清洗、图片清洗，采用时间序列插值、空间序列插值方法建立数据缺损、矛盾、冗余探测与清洗主体；采用基于背景知识的半监督聚类方法建立网页信息奇异点探测主体，采用基于矢量空间模型相似度计算方法建立冗余网页信息探测与清洗主体。

服务联盟，由农业协会服务主体、农业企业服务主体、农民大户服务主体等组成服务联盟。建立多主体服务联盟，利用广大用户注册信息作为背景知识，结合网络用户日志挖掘技术，基于农业分类本体的信息扩张技术，实现用户需求逐步聚焦，针对农业协会、农业企业、农民大户建立服务主体。

多个主体协作组进入多主体分类联盟，并以原始信息数据库为交互平台、按层次式组织结构最终形成农业复杂自适应多主体联盟系统，即农业知识平台。

随着用户兴趣模式的变化，索引节点的网页索引、检索式、结果排序，采集主体采集意向，清洗联盟与分类联盟学习的背景知识都在进行与之适应的演变。用户能够采用农业知识平台观察多主体协助组和多主体分类联盟之间及其与用户环境、网络环境之间交互、学习、适应、进化的结果，进行自适应搜索模型的查全率、查准率在宏观上的演化规律的研究。

图2是用于农业复杂自适应搜索引擎设计示意图。搜集节点之间相互协调，分配URL，保证每个网络主机的全部网页只能存在于一个搜集节点上。每个索引节点对应搜集节点搜集的网页，查询主体通过多播向所有索引节点发送查询命令，等待搜集到全部索引节点返回的检索结果后，对所有结果依据相关度排序，并缓存一定数量的结果，最后向用户返回结果的首页。用户的后续查询(翻页)，将会在缓存命中，不必再次启动后面的网络查询，这将大大减少查询的响应时间，降低后面查询系统的负载，从而提高查询系统的性能。

首先采集主体利用知识模板从互联网上不断的采集信息，经过系统控制器，将信息存储在原始信息数据库中。原始信息数据库中的数据通过多主体分类联盟进行信息分类，然后通过索引器的分析，主要包括利用字典实现原始信息特征项和URL的编码，通过编码建立一级网页索引和二级网页索引，最后是网页描述，建立索引数据库。用户通过用户接口，利用检索器查询索引数据库中的信息，同时用户的行为会记录在用户行为日志数据库中，作为日志分析器的依据。日志分析器的结果会反馈到原始信息数据库和索引数据库，对数据库中的内容做相应的调整。

从图3可以看出，从功能模块上划分，用于农业复杂自适应搜索引擎系统由搜集子系统、索引子系统和日志挖掘子系统三个子系统构成。

搜集子系统包括基于知识模板的采集主体与互联网和系统控制器的交互，它从系统控制器中获得需要搜集的网页地址，然后根据HTTP协议，和对应的网页地址所在的网络服务器建立连接。

索引子系统包括索引器和索引数据库，索引器包括如下四部分：

一、词典：词典是实现特征项、URL和其对应编码的工具。对于搜索引擎而言，特征项和URL是中文或英文的不定长字符串。显然这不利于系统的存储和运算。通过词典，将这些不定长的数据转换成系统唯一的整型编码，能够节省系统的存储空间，同时提高了检索中最常用的运算——比较运算的运行效率。

二、一级网页索引：通过词典，一个特征项被翻译为系统唯一的编码。利用这个编码，可以找到这个特征项对应的网页的一级索引的入口。一级索引中包含两个数据，一是该特征项对应的二级网页索引的入口地址偏移量，二是二级索引项的个数。

三、二级网页索引：二级索引是一个索引项列表，它通过一级索引获得。二级索引表中每一项代表检索特征项对应的一个结果网页概要描述，包括该网页的编码，特征项与该网页的相关度权值以及用户的评价权值。

四、网页描述：这就是检索到的信息，用户通过网页编码获得它。它的对应域基本上和网页分析时产生的网页描述相同，只有一个域——链接权值，是在索引生成时通过对已搜集网页的链接关系生成。

日志挖掘子系统是包括用户行为日志数据库和日志分析器。系统控制器除了按照启发式算法优先选择重要的URL并分派给各个采集主体外，还完成站点过滤、实现采集主体协议及域名解析高速缓存功能。采集主体按照HTTP协议负责从网络上抓取网页，为提高网页搜集速度，通常可以启动上百个采集主体同时工作。采集主体同时对搜集回来的网页内容进行分析处理。

系统控制器由主控接口、网页处理模块、超链提取模块三部分构成。其中：主控接口负责和采集主体的通信，以及和系统控制器内部网页处理模块和超链提取模块的通信。主控接口将采集主体提交的信息转送给网页处理模块和超链提取模块，同时将超链提取模块选出的待抓取的URL分配给采集主体。

网页处理模块主要的功能主要是将网页的文本及相关信息，如网页大小、网页的最后更新日期等，进行提取分析，然后保存到原始信息数据库中的网页数据库。

超链提取模块分析网页的文本内容，从中提取指向其它网页的链接，将它们保存到原始信息数据库中的链接数据库中。超链提取模块的选择是按照一定的算法，从超链数据库中提取优先级最高的网页，将它们分配给采集主体进行搜集。在用于农业复杂自适应搜索引擎系统的设计里，在每一个系统控制器上多设了一个分布接口，使原有系统向子系统进行扩展。

用于农业复杂自适应搜索引擎系统的控制方法执行步骤是：

当所执行的指令为工作指令时，搜索引擎采用搜集节点、索引节点、查询主体和用户；

当所执行的指令为农业知识平台中的采集主体指令时，搜索引擎采用搜集子系统、索引子系统和日志挖掘子系统三个子系统；

将原始信息数据库中的数据通过多主体分类联盟分类和日志分析器的分析，建立索引数据库，通过检索器建立用户接口，方便用户查询检索信息，将用户的行为记录在用户行为日志数据库中，作为日志分析器的依据；

索引器将原始信息数据库的内容重新组织，建立索引数据库，以提高检索效率。调用切词软件以提取关键词和摘要，提取URL超链接，记录网页的元信息，如作者、修改日期、长度等，并将这些内容存入原始信息数据库。

用户接口在截取用户的查询请求后，将它转发给检索器，检索器根据查询项和索引数据库的内容，找到匹配的网页后，进行相关度计算并排序，然后通过用户接口返回给用户。另外，用户接口程序还将用户行为信息，包括用户查询项、用户点击的URL、用户翻页情况等，记录到用户行为日志数据库中。日志分析器用于跟踪用户行为，能够学习新词来动态更新词典内容，以提高搜索引擎的服务质量。

农业复杂自适应搜索引擎开始启动(步骤100)，搜索引擎系统初始化(步骤110)，然后，采集主体联盟开始采集网络信息(步骤120)，对获得的网络原始信息进行网络信息处理，对网页的文本及相关信息进行提取分析(步骤130)，并从中提取指向其它网页的超链接(步骤140)，将分析后的网络信息保存到原始信息数据库(步骤150)，对原始信息建立信息索引(步骤160)，建立索引数据库(步骤170)，用户对索引数据库进行信息检索(步骤180)，系统返回给用户相应的检索结果即作为结果网页(190)，同时系统保存用户日志行为(步骤200)，用户日志行为分析器对用户日志行为进行分析(步骤210)，修改原始信息采集策略和索引策略(步骤220)。如果还有新的检索要求，用户继续检索信息(步骤230)，则重复步骤180至步骤220，若否，则检索结束(步骤240)。

Claims

1.一种用于农业复杂自适应搜索引擎系统的控制方法，包括采用搜集子系统、索引子系统、日志挖掘子系统和采集信息数据库，通过系统控制器采用分层式多主体联盟，其中：

所述的搜集子系统包括基于知识模板的采集主体与互联网和系统控制器的交互，它从系统控制器中获得需要搜集的网页地址，然后根据HTTP协议，和对应的网页地址所在的网络服务器建立连接，在每个系统控制器上设一个以上分布接口，使用于农业复杂自适应搜索引擎系统向搜集子系统进行扩展；

所述的索引子系统包括索引器和索引数据库，索引器包括词典、一级网页索引、二级网页索引和网页描述；

所述的日志挖掘子系统包括日志分析器和用户行为日志数据库；

其特征在于：用于农业复杂自适应搜索引擎系统建立采集信息数据库的原始信息数据库，实现农业信息的形式化表达，该方法的执行步骤是：

设定在所述的搜集子系统中采集主体利用知识模板从互联网上不断的采集信息，经过系统控制器将信息存储在所述的原始信息数据库中；

将所述的原始信息数据库中的数据通过多主体分类联盟进行信息分类，然后通过所述的索引器的分析，建立索引数据库；

同时将所述的原始信息数据库中的数据通过多主体分类联盟分类和日志分析器的分析，建立索引数据库，通过检索器建立用户接口，方便用户查询检索信息，将用户的行为记录在用户行为日志数据库中，作为日志分析器的依据；

所述的农业知识平台中的采集主体能够根据用户的不同需要和兴趣自适应调整采集意向，分类主体协作组、清洗主体协作组和服务主体协作组通过相互间的通信与采集主体协作组相互通信，进行自适应调整，包括所述的原始信息数据库的背景知识，索引节点的网页索引、检索式、结果排序，最终提供给用户满意的搜索结果和服务。

2.根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方法，其特征是：所述的原始信息数据库包括数据库、文本库、图片库、知识库，所述的知识库为农业分类本体知识库。

3.根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方法，其特征是：所述的多个主体协作组进入多主体分类联盟，其中，所述的多个主体协作组为四个，包括服务主体协作组、清洗主体协作组、分类主体协作组、和采集主体协作组，所述的多主体分类联盟为四个，包括采集联盟、分类联盟、清洗联盟、服务联盟。

4.根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方法，其特征是：所述的采集联盟，以星型结构建立多主体采集联盟，采用知识模板技术，根据农业种植、养殖分类标准定义主体的信息采集意向，实现大量农业技术、农业市场、农业新闻信息的分类采集，建立网络信息的采集主体。

5.根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方法，其特征是：所述的分类联盟以星型结构建立多主体分类联盟，针对种植、养殖的品种技术、施肥技术、病虫害诊断与防治技术以及粮食作物、经济作物、瓜果蔬菜分类本体为背景知识，采用基于支持向量机的半监督聚类方法对采集的网络信息建立支持向量机分类主体。

6.根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方法，其特征是：所述的清洗联盟，以星型结构建立多主体清洗联盟，设有数据清洗、文本清洗、图片清洗，采用时间序列插值、空间序列插值方法建立数据缺损、矛盾、冗余探测与清洗主体，采用基于背景知识的半监督聚类方法建立网页信息奇异点探测主体，采用基于矢量空间模型相似度计算方法建立冗余网页信息探测与清洗主体。

7.根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方法，其特征是：所述的服务联盟，建立多主体服务联盟，利用广大用户注册信息作为背景知识，结合网络用户日志挖掘技术，基于农业分类本体的信息扩张技术，实现用户需求逐步聚焦，针对农业协会、农业企业、农民大户建立服务主体。