CN103838785A

CN103838785A - 一种专利领域的垂直搜索引擎

Info

Publication number: CN103838785A
Application number: CN201210490948.0A
Authority: CN
Inventors: 苏晓华; 刘立堂
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04

Abstract

本发明设计并实现了一种专利领域的垂直搜索引擎。专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术，面向互联网中为数不多的专利权威网站，对它们的专利信息资源进行抓取、分析、整合，最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利信息绝大部分集中在少数几个专利站点，所以只需要对这些特定的专利站点进行采集，就能满足绝大多数用户的需求。采集对象的有限性和针对性，可以很好的提高采集的效率和准确率，而且信息的及时更新也可以得到保证。对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息，了解数据之间的相互关系及发展趋势，从更高的层次对数据进行更深入的观察和分析。

Description

一种专利领域的垂直搜索引擎

技术领域

本发明涉及搜索引擎技术，特别是一种针对专利领域的垂直搜索引擎。

背景技术

随着Internet的迅猛发展和Web信息的增加，从海量级的网络信息资源中快速准确地获取信息就显得越来越困难，也变得越来越重要。搜索引擎就是在这样的背景下出现的技术，它整合了互联网上的网页资源，并提供信息导航和信息查询服务，在很大程度上解决了人们在互联网上查找和定位信息的瓶颈问题。但是，目前的通用搜索引擎在使用中也面临着许多问题。

Web上的信息量十分庞大，通用搜索引擎试图对Web进行整体信息的抓取，在硬件资源和网络资源方面的代价将是十分巨大的。而事实上，许多页面的使用几率很小，这就存在着一个极大的信息资源的存储浪费问题。另外，Web页面的动态变化使得网页数据在抓取到的那一刻起就面临着过时的风险，为了降低这种风险，需要不停地对己提取的Web信息重新提取以保持对数据的更新。随着Web信息规模上的急剧增长，面向整体Web信息提取中的刷新问题变得异常的尖锐。尽管可以通过不断地提高单机性能，使用分布式计算技术增加系统的并行能力，设计新型算法以优化刷新策略，但是Web信息的刷新问题的解决还远不能令人满意，许多大型通用搜索引擎刷新一次Web数据需要几周甚至几个月的时间。

垂直搜索引擎正是针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式。垂直搜索在Web信息采集过程中根据主题性决定页面的取舍，使绝大部分与主题无关的页面被舍弃掉，这样做的目的使得采集到的页面有着较高的利用率，也极大地节省了资源的消耗。另外，对于垂直搜索的Web信息提取而言，Web信息的刷新问题相对容易处理。随着提取页面数量的大幅度降低，就可以缩短页面的刷新周期，从而使得数据过时的风险也随之降低。

专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术，面向互联网中为数不多的专利权威网站，对它们的专利信息资源进行抓取、分析、整合，最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利工作者的主要需求有：一是可以按不同的专利字段搜索专利信息；二是可以根据不同字段的组合关系检索满足条件的专利，如and、or关系；三是可以对专利检索结果动态聚类，以方便从整体上对专利进行挖掘分析。

发明内容

为更好的满足用户的要求，本发明要设计并实现一种针对专利领域的垂直搜索引擎。

为了实现上述目的，本发明的技术方案如下：一种专利领域的垂直搜索引擎，包括以下步骤：

A、专利信息采集

信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地。垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块。

A1、主题确定

主题确定模块主要解决初始种子URL的选取及主题特征的提取。初始种子URL，并通过程序收集一定数目的专利网页作为训练集合，经中文分词处理后，确定相应的主题特征词，用于后续的主题相关度分析。

A2、网页采集

网络蜘蛛采用多线程技术，从URL队列中获取输入数据，向该URL对应的Web服务器发出下载请求，采集到的页面由后续模块做进一步的处理。

A3、链接分析

对于采集到的网页，分析并尽可能多地提取出其中的链接。页面链接的URL一般是多种格式的，可能是完整路径，也可能是相对路径，必须对它们进行处理转换得到统一标准格式的完整URL，然后调用相关性分析模块决定URL的取舍，对于满足条件的URL插入到URL队列中。

A4、内容分析

对于采集到的网页，分析网页文本信息，包括过滤HTML标签、网页内容文本提取、切词，提取其中的特征项。

A5、相关性分析

主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间的相似度。以此决定网页的取舍以及URL在候选队列中的优先级顺序。

B、专利信息抽取

首先，对目标网页进行分析，确定待抽取的元数据并分析其对应的HTML代码特点。然后，根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则，抽取规则的制定要保证对待抽取数据匹配的唯一性。最后，对抽取后的结构化数据进行整合处理，确保数据库中专利信息的一致性和完整性。

C、专利信息检索

C1、建立索引文件

通过接口调用Lucene的索引模块，实现对数据库中的信息建立索引。首先从数据库中提取出要索引的文本，将文本组织成一个Document类型的对象。由分析器对文本进行分析，针对中文文本主要需要实现的是中文分词。文本分析后，索引生成模块把预处理后的文档加入到索引文件中，包括统计每个词在文档中出现的次数、出现的位置等相关信息，将这些信息存储在索引文件中。

C2、专利搜索

首先对用户输入的搜索关键词进行切词，然后从索引文件中查找包含切分出的每个词的文档并对这些文档集进行汇总，得到最终的结果集。如果结果集中的文档数大于零，则对检索结果按照相关度排序，并对首页显示的结果进行关键词高亮显示后返回给用户，并对当前的检索结果进行缓存处理。

D、聚类可视化

首先对检索模块返回的搜索结果进行数据预处理，主要是去除中文停用词和非词的标记，然后对处理后的文本字符串生成一颗后缀树，通过后缀树识别短语类进行聚类，对短语类处理合并后生成最终的聚类结果，最后对聚类结果进行可视化表示。

与现有技术相比，本发明具有以下有益效果：

1、专利信息绝大部分集中在少数几个专利站点，所以只需要对这些特定的专利站点进行采集，就能满足绝大多数用户的需求。采集对象的有限性和针对性，可以很好的提高采集的效率和准确率，而且信息的及时更新也可以得到保证。

2、对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息，了解数据之间的相互关系及发展趋势，从更高的层次对数据进行更深入的观察和分析。

具体实施方式

A、专利信息采集

以中华人民共和国国家知识产权局站点作为初始种子URL，其中包含着大量的专利信息资源，但是通过分析发现该站点的专利数据是动态生成的，而且采用的是Javascript分页方式，导致不同专利数据页面的URL相同，因此一般的网络蜘蛛抓取不到分页后的专利页面。针对这种分页方式的Web站点，本专利通过分析该站点的HTML代码，采用网络蜘蛛模拟填写表单并自动提交的方式抓取分页后的专利数据信息。

B、专利信息抽取

首先，通过分析抓取的中华人民共和国国家知识产权局的专利网页，确定抽取的元数据包括专利申请号、申请日、名称、公开号、公开日、分类号、申请人、发明人、专利代理机构、代理人、摘要等信息。

然后，针对中华人民共和国国家知识产权局站点中的专利网页，为待抽取元数据编写的正则表达式规则。

最后，本专利在数据库中以专利申请号作为专利信息的标识属性，作为区分不同专利信息的依据。

C、专利信息检索

C1、建立索引

本专利实现的索引模块负责对数据库中的结构化数据建立索引，生成的索引文件为检索模块提供服务。Lucene提供了非常简单的建立索引的方法，可以对大量数据进行批量索引，还提供了增量索引技术。本专利通过系统接口调用Lucene的索引模块，实现对数据库中的信息建立索引。

首先从数据库中提取出要索引的文本，将文本组织成一个Document类型的对象，因为只有符合Lucene.Document要求的文档才能使用Lucene对其建索引。Lucene的文档是由多个字段组成的，因此可以控制哪些字段需要进行索引，哪些字段不需要索引，索引的字段是否需要分词等等。接下来由分析器对文本进行分析，针对中文文本主要需要实现的是中文分词。文本分析后，索引生成模块把预处理后的文档加入到索引文件中，包括统计每个词在文档中出现的次数、出现的位置等相关信息，这些信息都会被存储在索引文件中，最后生成的索引文件就可以被检索模块进行调用。

建立好的索引文件是不可读的，要想查看索引信息，以及对索引进行一些特殊操作，可以使用第三方工具包Luke进行操作。Luke的功能十分强大，不仅可以显示Lucene所建立的索引文件的内部结构，而且还可以监视和修改索引文件。

D、聚类可视化

利用GIS技术，用可视化地图的形式表示聚类结果。GIS中的数据分为两类：一类主要是和空间位置、空间关系有关的数据，称为空间数据；一类是地理元素中非空间的属性信息，称为属性数据。因此，可以通过空间数据定位聚类后每个类别的位置，而属性数据则可以表现每个类的不同特征。针对一次查询结果生成的聚类可视化地图。

Claims

1.一种专利领域的垂直搜索引擎，其特征在于：包括以下步骤：

A、专利信息采集

信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储到本地；垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和相关性分析五个模块；

A1、主题确定

主题确定模块主要解决初始种子URL的选取及主题特征的提取；初始种子URL，并通过程序收集一定数目的专利网页作为训练集合，经中文分词处理后，确定相应的主题特征词，用于后续的主题相关度分析；

A2、网页采集

网络蜘蛛采用多线程技术，从URL队列中获取输入数据，向该URL对应的Web服务器发出下载请求，采集到的页面由后续模块做进一步的处理；

A3、链接分析

对于采集到的网页，分析并尽可能多地提取出其中的链接；页面链接的URL一般是多种格式的，可能是完整路径，也可能是相对路径，必须对它们进行处理转换得到统一标准格式的完整URL，然后调用相关性分析模块决定URL的取舍，对于满足条件的URL插入到URL队列中；

A4、内容分析

对于采集到的网页，分析网页文本信息，包括过滤HTML标签、网页内容文本提取、切词，提取其中的特征项；

A5、相关性分析

主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间的相似度；以此决定网页的取舍以及URL在候选队列中的优先级顺序；

B、专利信息抽取

首先，对目标网页进行分析，确定待抽取的元数据并分析其对应的HTML代码特点；然后，根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则，抽取规则的制定要保证对待抽取数据匹配的唯一性；最后，对抽取后的结构化数据进行整合处理，确保数据库中专利信息的一致性和完整性；

C、专利信息检索

C1、建立索引文件

通过接口调用Lucene的索引模块，实现对数据库中的信息建立索引；首先从数据库中提取出要索引的文本，将文本组织成一个Document类型的对象；由分析器对文本进行分析，针对中文文本主要需要实现的是中文分词；文本分析后，索引生成模块把预处理后的文档加入到索引文件中，包括统计每个词在文档中出现的次数、出现的位置等相关信息，将这些信息存储在索引文件中；

C2、专利搜索

首先对用户输入的搜索关键词进行切词，然后从索引文件中查找包含切分出的每个词的文档并对这些文档集进行汇总，得到最终的结果集；如果结果集中的文档数大于零，则对检索结果按照相关度排序，并对首页显示的结果进行关键词高亮显示后返回给用户，并对当前的检索结果进行缓存处理；

D、聚类可视化