CN102063488A

CN102063488A - 一种基于语义的代码搜索方法

Info

Publication number: CN102063488A
Application number: CN2010106121016A
Authority: CN
Inventors: 钱巨; 黄志球; 刘通; 洪宏
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2010-12-29
Filing date: 2010-12-29
Publication date: 2011-05-18

Abstract

本发明公开了一种基于语义的代码搜索方法，其采用的系统分为数据收集、分析、排序、用户交互四大模块；数据收集模块中的爬虫工具JoBo可以在配置文件中预先设定一些网站地址，再从预先设定的论坛和博客上抓取代码源，达到最快最有效的抓取网页；爬虫工具JoBo抓取到的代码源，采用开源工具JDT中的抽象语法树AST框架来进行语义分析；数据排序模块根据用户输入的关键字匹配，分析得到相应的搜索结果后，综合考虑五方面的因素，通过数据排序将搜索结果按照分值从高到底依次排列展现给用户。本发明在利用现有最好搜索引擎的基础上，对语义信息识别、排序做了相应的扩展，通过配置爬虫定义搜索范围，提高了搜索效率和查准精度并可以考虑用户喜好。

Description

一种基于语义的代码搜索方法

技术领域

本发明涉及一种代码搜索方法，尤其涉及一种基于语义的代码搜索方法。

背景技术

目前的代码搜索引擎例如Google code search、Koders主要是对网络中的一些开源项目的文件进行检索，忽略了大型blog或论坛中的代码片段，导致搜索的范围比较狭隘。它们主要采用全文索引技术对公开发布的代码文件进行索引，从而对所搜索的代码进行快速定位，但是他们没有对代码的结构化信息进行识别，不能精确的定位类名、方法名、变量等描述信息，使得搜索结果不够准确。

当前一些主流的搜索引擎存在以下缺陷：1、代码搜索范围小，仅对网络中一些开源项目的文件进行检索；2、搜索结果不准确，因为检索的方式是全文检索，无法利用代码的结构化信息(如类名、方法名、变量名)进行检索。因此现有搜索技术存在着仅依赖关键字、搜索范围局限等不足。

发明内容

为了解决上述问题中的不足之处，本发明提供了一种基于语义的代码搜索方法。

为解决以上技术问题，本发明采用的技术方案是：一种基于语义的代码搜索方法，方法的实现所采用的系统分为数据收集模块、数据分析模块、数据排序模块、用户交互模块；

数据收集模块中的爬虫工具JoBo可以在配置文件中预先设定一些网站地址，爬虫工具JoBo再从预先设定的论坛和博客上抓取代码源，达到最快最有效的抓取网页；

爬虫工具JoBo抓取到的代码源，采用开源工具JDT中的抽象语法树AST框架来进行语义分析；

数据排序模块可以根据用户输入的关键字匹配、分析得到相应的搜索结果后，综合考虑五方面的因素：关键字在代码中出现的次数、注释部分在代码中所占的比例、代码长度是否在上下界之内、是否提供了代码出处的链接、与用户喜好的匹配程度；每一因素的取值乘上相应的权重后求和得出代码的综合评分，通过数据排序将搜索结果按照分值从高到底依次排列展现给用户。

本发明一方面调用主流的代码搜索引擎获得排名靠前的搜索结果，另一方面利用网络爬虫从大型的blog或论坛中抓取代码片段，增加了代码的搜索量，使得搜索结果更加丰富；而对于网络爬虫爬出来的文件应用Java开发工具(JDT)中的抽象语法树(AST)进行解析，给代码标注上了类名、方法名、变量等语义信息，使得用户可以针对这些描述信息进行搜索，提高了搜索结果的查准率；对于最后展现出来的搜索结果用户可以进行投票、添加标签等操作，这将有利于搜索结果排序的优化。

本发明利用了现有最好的Google code、Koders等搜索引擎，并在此基础上做了相应的扩展，如语义信息识别、排序等；通过配置爬虫定义搜索范围，由此提高搜索的效率和查准的精度；考虑用户喜好，依照代码质量若干因素的综合评分对搜索结果进行排序。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明的系统结构示意图。

图2为SearchCall类图。

图3为DataAnalysis类图。

图4为ResultItem类图。

图5为JoBo网页爬虫搜索流程图。

ICS：ICodeSearch，代码搜索引擎软件。

JoBo：爬虫程序的一种。

JDT Java：开发工具(Java development tools)，用于解析java文件的结构。

Ontology：本体，是共享概念模型的形式化规范说明

具体实施方式

本发明所采用的系统分为四大模块：数据收集模块(Data Collection)、数据分析模块(Data Analysis)、数据排序模块(Data Sort)、用户交互模块(User Interact ion)。

下面分别阐述每一模块的实现方案：

1、数据收集模块

ICS数据源的获取有两个途径：一是调用目前市场主流的代码搜索引擎Google Code Search和Koders，根据用户输入的关键字获取前10页的搜索结果(为了提高搜索效率，在对查准率影响不大的前提下系统截取前十页作为搜索结果)；二是利用爬虫工具JoBo，在配置文件中预先设定一些网站地址，例如CSDN、CVS知识库、Subversion知识库等，在系统空闲的时刻爬虫会自动搜寻该网站下的代码源上传至服务器。

搜索调用(SearchCall)部分就是实现了调用主流的搜索引擎获得相应的搜索结果。调用原理是采用java.net.HttpURLConnection对象，根据GoogleCode Search和Koders的搜索链接，获取相应的响应内容(xml格式的数据)。图2是该功能实现的类图：其中两个方法：getResultOfGoogle和getResut1OfKoders分别用于获取两个代码搜索引擎的搜索结果。

爬虫(Crawler)部分是利用爬虫工具JoBo从预先设定的论坛和博客上抓取代码源，Jobo是一个基于Java的开源的爬虫工具，它采用IP搜索策略和深度优先搜索策略进行搜索，以达到最快最有效的抓取网页的效果。

2、数据分析模块

在数据收集模块获取到数据源之后，需要对形式各样、结构不一的数据进行再次处理，统一成同一结构的数据，方便后期的用户查询，这一功能是通过数据分析模块实现的。因为数据源来自两个途径，所以分析过程也分为两个部分，一是对外部搜索引擎搜索结果的分析；二是对爬虫抓取的代码源的分析。

调用外部引擎返回的结果为xml文本文件，我们采用开源工具htmlparser在xml文件中提取系统需要的信息。类org.htmlparser.NodeFilter利用xml中的tag标签，进行文本内容划分，类org.htmlparser.NodeList储存划分后提取到的信息，划分的过程可以进行多次，直至找到满足需要的信息。图3为该功能实现的类图：其中两个方法：getResultItemOfGoogle和getResutlItemOfKoders分别用于对Google、Koders两个代码搜索引擎的搜索结果进行分析，返回我们自定义的ResultItem结构的数据列表。

ResultItem的类图如图4所示，包含文件名称(fileName)、文件链接(fileLink)、预览区域的文本内容(codePreview)、预览文本的链接(codePreviewLink)、代码源的文本内容(codeSource)、代码源的链接(codeSourceLink)、代码源的主域名(codeSourcePage)、代码协议(codeLicense)、代码协议的链接(codeLicenseLink)、代码语言(codeLanguage)等信息。

而对于爬虫工具JoBo抓取到的代码源，我们采用开源工具JDT(JavaDevelopment Tools)中的抽象语法树AST(Abstract Syntax Tree)框架来进行语义分析。AST理解语言元素之间的关系。它可以识别象局部变量、实例变量、表达式以及if语句等六十多种不同的语言元素。我们通过AST可以获取到每一个Java文件中的import列表、方法列表、变量列表、包名、类名、注释信息等等。这些信息都以entity对象的形式存入到数据库中。

3、数据排序模块

根据用户输入的关键字匹配、分析得到相应的搜索结果后，需要以怎么的顺序排列呈现给用户？这部分功能通过数据排序(DataSort)实现，数据排序综合考虑五方面的因素：关键字在代码中出现的次数、注释部分在代码中所占的比例、代码长度是否在上、下界之内、是否提供了代码出处的链接、与用户喜好的匹配程度。每一因素的取值乘上相应的权重后求和就是代码的综合评分，我们将搜索结果按照分值从高到底依次排列展现给用户。

4、用户交互模块

用户交互模块我们提供了注册、登陆、上传代码范例、投票、打标签等功能。

一、Eclipse JDT(Java Development Tools)相关技术介绍

Eclipse平台本身是构建工具和应用程序的基础。插入到平台中的插件提供了特殊的能力，使它适合于开发特定类型的应用程序。这一部分是一个真实工具的案例，Java开发工具(JDT)，它向平台添加了Java程序开发的能力。JDT包含在Eclipse SDK中。JDT向Eclipse平台添加了Java IDE的能力。

JDT作为Eclipse的Java开发工具，提供了解析Java源文件，编译为中间代码的AST(Abstract Syntax Tree)的结构，可以在更高层次上修改代码，比如Eclipse中的Refactor就可以高度智能话的修改代码。JDT实际上是将Java代码构建成一个基于DOM结构的抽象语法树AST(Abstract Syntax Tree)。代码中的每个部分都对应一个节点ASTNode，许多的ASTNode就构成了这个抽象的语法树。Java Class一般对应Compilation Unit node，该节点也是AST树上的顶点。我们也可以使用AST动态生成代码或修改代码。

主要过程入下：

(a)得到java源文件或是他对应的compilationUint(CU)，然后由AST.setSource()设定，再由AST.create()创建一个AST树，返回根节点，ASTNode.

(b)使用ASTRewrite修改源文件，将结果保存在TextEditor对象中

(c)使用apply()方法实现这些修改。

二、JoBo爬虫技术简介

本发明所采用的技术手段是利用JoBo爬虫。JoBo爬虫是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。由于JoBo爬虫程序简单、轻量级且易于集成等特征，我们的搜索引擎采用它作为代码搜索的爬虫程序，它是以java实现的。

JoBo网页爬虫采用的搜索策略为IP搜索策略加上深度优先搜索策略的结合策略。具体流程如图5所示。

Claims

1.一种基于语义的代码搜索方法，其特征在于：方法的实现所采用的系统分为数据收集模块、数据分析模块、数据排序模块、用户交互模块；

所述数据收集模块中的爬虫工具JoBo可以在配置文件中预先设定一些网站地址，爬虫工具JoBo再从预先设定的论坛和博客上抓取代码源，达到最快最有效的抓取网页；

所述爬虫工具JoBo抓取到的代码源，采用开源工具JDT中的抽象语法树AST框架来进行语义分析；

所述数据排序模块可以根据用户输入的关键字匹配、分析得到相应的搜索结果后，综合考虑五方面的因素：关键字在代码中出现的次数、注释部分在代码中所占的比例、代码长度是否在上下界之内、是否提供了代码出处的链接、与用户喜好的匹配程度；每一因素的取值乘上相应的权重后求和得出代码的综合评分，通过数据排序将搜索结果按照分值从高到底依次排列展现给用户。