CN103886020B

CN103886020B - 一种房地产信息快速搜索方法

Info

Publication number: CN103886020B
Application number: CN201410060697.1A
Authority: CN
Inventors: 袁友伟; 李勇; 俞东进; 鄢腊梅; 杨威
Original assignee: Hangzhou Dianzi University
Current assignee: Chongqing Rui Yun Technology Co Ltd
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2017-04-05
Anticipated expiration: 2034-02-21
Also published as: CN103886020A

Abstract

该发明公开了一种房地产信息快速搜索方法。本发明首先将链接聚类与隧道技术应用到Shark‑Search算法中实现聚焦网络爬虫。其次对页面信息进行处理，将网页从半结构化变成结构化信息后。然后对房地产信息进行中文分词处理并对中文分词后的信息进行索引。最后由用户检索模块对用户查询内容进行响应。本发明具有搜索响应速度快，信息准确率高，稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。

Description

一种房地产信息快速搜索方法

技术领域

本发明属于搜索引擎技术领域，特别涉及一种基于垂直搜索引擎的房地产信息快速搜索方法。

背景技术

由于互联网的信息急剧增长，截至2013年10月，我国共有294万个网站，而网页数量则超过1000亿。在如此浩瀚的数据海洋中，人们发现如果获取自己想要的信息就有点心有余而力不足。而搜索引擎的出现，无疑给用户带来很大的便利，用户想要了解什么信息，只要通过搜索引擎，输入关键字，就能获得大量的自己所需要的信息。但是，通用搜索引擎对于数据量剧增的互联网来说，用户体验越来越差，理由有两方面：一方面是因为通用搜索引擎返回的结果很多，有时甚至超过1亿个结果，用户不可能将1亿个结果全都查看，只可能看排名靠前的几个结果；另一方面，现阶段的通用搜索引擎覆盖面广，搜索范围包含整个互联网的很大一部分信息，从而使得信息更新不及时。

房价过高问题是民生的重中之重。最近几年来，房价越来越高，而且没有一点下降的趋势。正因如此，房地产领域近年来已经成为人们重点关注的热门话题，该领域关系到老百姓的切身利益，也是国家的重点关注对象。由于这些问题的出现，万维网中出现了大量的关于房地产方面的信息，其规模与日俱增。就目前万维网中存在海量信息的情形来说，用户要想从这些数据中找到自己想要的信息非常困难。为此，很有必要通过垂直搜索引擎技术建立一个房地产信息快速搜索系统。

发明内容

本发明目的在于：针对现有通用搜索引擎不足，提出了一种基于垂直搜索引擎技术的房地产信息搜索方法。本发明的具体步骤如下：

第一步，将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫。通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取，然后将抓取的信息存储至本地的文件系统。

第二步，对页面信息进行处理。通过聚焦网络爬虫抓取的网页保存在本地的文件系统后并不能直接使用，需要经过一定的处理操作。由于HTML是一种半结构化文件，因此需要进行预处理。所谓半结构化，就是类似HTML文件的标签及标签包含的内容，具有一定的结构性，但是其结构却不太明确，如<title>垂直搜索引擎的应用研究</title>，表示titile为“垂直搜索引擎的应用研究”的HTML网页。而结构化就是像关系型数据库那样，有字段名和字段值相对应的格式。将网页从半结构化变成结构化信息后，还需要进行噪音信息的处理，噪音信息即一些与主题内容无关的信息，如与主题无关的广告内容、链接、图片等信息。之后将有用的信息进行抽取，保存为结构化信息。

第三步，对房地产信息进行中文分词处理。中文分词主要在两个方面进行处理：第一，对于从数据库中获取的文本数据需要进行中文分词操作；第二，对于用户输入的关键字进行中文分词操作，以便于搜索操作。这两个方面处理的中文分词必须采用同一个中文分词系统，本发明主要是利用HMM结合词性标注增加了对房地产命名识别的功能，从而为后续的用户搜索提供了更好的结果排序集。

第四步，对中文分词后的信息进行索引。为了便于搜索，在文本信息进行中文分词操作后，需要建立索引。由于本发明使用Hibernate进行持久层操作，因此采用Hibernate-Search对中文分词后的信息进行索引操作。而Hibernate-Search底层采用优秀的全文检索工具Lucene实现的，在索引方面具有很强的处理能力。

第五步，由用户检索模块对用户查询内容进行响应。查询需要用户在查询文本框中输入搜索关键字，然后系统对用户输入的字符串进行中文分词操作，将系统返回的结果进行排序操作。结果排序操作由Hibernate-Search实现，由于Lucene具有优秀的评分策略，因此能够返回令用户满意的搜索结果。用户界面的好坏直接影响到用户的使用体验，本发明采用富客户端应用框架Flex实现用户界面，用户可以在搜索文本框中输入需要搜索的关键字进行搜索操作。

本发明共涉及到五个模块：聚焦网络爬虫模块、页面处理模块、中文分词模块、索引模块以及用户检索模块。

本发明具有的有益效果是：利用该方法形成具有搜索响应速度快，信息准确率高，稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。

具体实施方式

图1是系统的总体架构。

图2是加入链接聚类和隧道技术后的Shark-Search算法流程图。

具体实施方式

图1为本发明系统的总体架构图，系统分为：聚焦网络爬虫、页面处理、中文分词、信息索引和用户检索五个模块。

1.对于聚焦网络爬虫的基本设计方法如下：

(1)将网页中的信息转化成文档对象模型树，然后再将树中的节点按照层次遍历进行编号，最后链接所对应的编号路径提取出来。

(2)把网页中的链接按照提取出来的顺序放入队列中，找出满足任意两个节点间的路径大于等于2的最大匹配字串，将该字串中的所有元素从队列中取出，归并入相应的类中。依此不断进行，直到满足条件的所有链接归入类中。

(3)令L：所有待分类链接集合；G_i：属于类别i的链接集合；class_num：当前类别编号；flag：标记。

a)初始化：设置L={u₁,u₂,…,u_n};G₁,G₂,…G_n=Φ；class_num=1;flag=1。

b)当L集合非空并且flag=1时，设置flag=0。

c)遍历L中的每个链接u_i，如果有与u_i路径相同的最大路径值大于1，则将u_i放入相应的Gclass_num中，将class_num加1，设置flag=0。

d)继续进行步骤b)，直到flag=0或者L为空。

(4)根据步骤(3)可得每个类别所包含的链接数为|Gi|，令cluster_url_num为总类别数，anchor_score(url)为锚文本的相似度评分,则cluster_url_num=Max(class_num)，计算类别得分class_score的公式如下：

(5)用class_score替换Shark-Search算法中的anchor_context_score(锚文本上下文的相似度评分)，新的相邻链接评分neighborhood_score如下所示：

neighborhood_score(url)＝β*anchor_score(url)+(1-β)*class_score(url)

由上述5个步骤可以得出改进后的Shark-Search的主题预测值potential_score(url)。

对于聚焦爬虫来说，为了尽最大的努力防止抓取非主题相关网页，必须对网页的主题进行预测，以便提高抓取效率。然而，在网页的主题预测过程中不可能百分百地预测出其正确的主题。为了防止对网页进行主题预测时疏忽潜在的主题相关网页，本发明引进隧道技术。将加入链接聚类算法后的Shark-Search算法中的URL等候队列分成两个：主题相关队列relevant_Queue(主题相关的URL队列，其主题预测值高于某一阈值)和irrelevant_Queue(主题不相关的URL队列，其主题预测值低于某一阈值)。同时，设置两个阈值δ和μ：阈值δ(δ<1由用户自定义)用来决定URL进入哪一个队列，阈值μ(μ>1由用户自定义)用来决定irrelevant_Queue队列中的URL需要继续爬行的深度。

由上述的5个步骤得出主题的预测值potential_score后，根据其值来确定等待抓取页面的URL应该放入哪个URL等候队列中：当一个页面的主题预测值大于等于δ则进入relevant_Queue队列，否则，进入irrelevant_Queue队列。对于在relevant_Queue队列中的URL，可以直接抓取对应的网页。而在irrelevant_Queue队列中的URL，由于预测值小于δ，被定为主题不相关URL，所以需要继续爬行其子孙节点。当爬行深度D大于等于μ时，则表示已经连续爬行了μ个非主题相关的网页，停止继续沿该路径进行爬行，反之继续搜索，参见图2。

2.页面处理模块。

页面处理模块采用HtmlParser工具包对HTML进行信息抽取操作。HtmlParser将网页转化成一个个串联的Node，HtmlParser将网页的Node分成三类：

(1)RemarkNode：表示HTML中的注释节点。

(2)TagNode：表示标签节点，TagNode是一个拥有多个子类的超类，是类型最多的节点类型，HTML中所有具体节点类都是TagNode的实现。

(3)TextNode：文本节点，即两个首尾标签之间的文本信息。

主要提取房地产网页的楼盘名称、单价、总价、面积、当前楼层、总楼层、开发商、开盘时间、地址、户型、建造时间等结构化信息，其他信息如广告信息、脚本信息等全都过滤掉。所有结构化信息最后保存至.txt文本文件中。然后通过程序读取.txt，并将文本文件中的结构化信息通过Hibernate框架进行持久化存入Oracle数据库中。

3.中文分词识别房地产命名实体模块

本发明使用HMM结合词性标注对房地产命名实体进行识别，主要识别两个方面的词汇：第一，对于从数据库中获取的文本数据；第二，对于用户输入的关键词。识别过程是：给定一个句子序列W=w₁w₂w₃…w_n，需要找到一个最佳的类型序列C=c₁c₂c₃…c_n，使得P(C|W)的值最大。由贝叶斯公式可知P(C|W)=P(C,W)/P(W)，对于一个给定的句子来说，P(W)是固定不变的，因此只要使P(C,W)最大就能得出P(C|W)的最大值。将房地产命名的识别设置成4种状态：开始状态、中间状态、结束状态和其他状态，即状态集合S={s₁,s₂,s₃,s₄}中的4个元素分别对应前面4种状态。

计算HMM五元组中的A，B，π前，需要对语料库进行预处理：

(1)从网络上抓取房地产相关新闻的文本。

(2)对抓取的文本进行预处理，进行简单的分词操作，词性标注。

(3)人工进行房地产命名的标注，在命名的第一个词前面加上“[”，在最后一个词后面加上“]FC”，其他词则用“[]”包围然后在后面添加“Z”。

(4)把房地产命名分成四种状态，FB,FM,FE,FO分别代表命名的开始、中间、结束和其他状态。

上述四步操作结束后接下来进行A，B，π这三个参数的计算。采用最大似然估计法求解，A，B，π的求解分别如式（1-2）所示。

式(1)中的C(S_i,S_j)为从状态S_i转移到S_j的次数，S_i,S_j为FB,FM,FE,FO中的一种。式（2）中的V_k表示词性，O_j(V_k)表示状态S_j中出现V_k的次数，S代表所有状态。式(3)中的N表示句子总数。

使用维特比算法实现训练集的自动标注，即从所有可能的标注序列中选择概率最大的作为最终标注结果。对于给定的W=w₁w₂w₃…w_n，C=c₁c₂c₃…c_n为可能的标注序列，C^#为概率最大的标注序列，C^#如式(4)所示。

由贝叶斯公式可知，P(C|W)=P(W|C)P(C)/P(W)，将w_i视为观察序列，C为W后的隐状态序列，则通过HMM可以计算P(W|C)P(C)，计算如式(5)所示。

因此C^#就转化成式(6)。

为了方便计算，对式(6)取负对数，如式(7)所示。

因此训练集的自动标注就转化为式(7)的求解问题，维特比算法是解决该问题的典型算法。对于式(7)中的p(w_i|c_i)和p(c_i|c_i+1)求解，根据大数定理可以得出式(8-9)。

p(w_i|c_i)≈C(w_i,c_i)/C(c_i) (8)

p(c_i|c_i+1)≈C(c_i,c_i+1)/C(c_i) (9)

通过上述公式计算C^#后，可以识别出房地产命名实体以及一般的命名实体。

4.信息索引模块

信息索引是通过Hibernate-Search建立的，索引模块对中文分词切分后的词汇进行索引操作。索引操作一共分为以下几个部分。

(1)索引的配置

由于使用Hibernate-Search建立索引，因此配置工作是必不可少的，配置主要在实体类和Hibernate的配置文件中添加。

(2)索引的初始化

所有的索引对象都需要进行索引初始化操作，初始化索引通常是在系统刚加载到Web服务器时执行的，在indexFiles文件夹中创建segments.gen和segments_1这两个文件，这两个文件主要存放索引段。

(3)索引的建立

当索引建立时，在索引目录中会生成.fdt、.fdx、.frq、.nrm、.prx、.tis等6种后缀的文件，这六种的存储的信息分别如下。

a).fdt。为FieldData的缩写，主要保存域数据信息。

b).fdx。为FieldDataIndex的缩写，主要保存域数据的索引信息。

c).frq。为Frequencies的缩写，主要保存项(Term)出现的频率信息。

d).nrm。为Norm的缩写，主要保存Norms调节因子信息。

e).prx。为Positions的缩写，主要保存项的位置信息。

f).tis。为TermInfo的缩写，主要保存词典信息。

5.用户检索模块

用户检索模块使用Adobe公司的富客户端框架Flex实现。用户检索模块主要包括三种界面：第一种是初始界面，为用户最初访问的界面。第二种是搜索结果界面，主要显示用户的搜索结果。第三种为详细界面，主要负责显示用户选中的某条记录的详细信息。

用户可以在初始界面中输入关键字，点击“搜索”按钮进行搜索操作。搜索结果界面为用户搜索的结果显示界面，在该界面中，用户也可以输入关键字进行搜索操作，搜索的结果会显示在同一个页面。搜索结果界面主要以列表的形式展现房地产信息，显示的主要信息有：小区名称、户型、价格、面积等主要信息。详细界面主要显示用户选中的列表项中的详情。

Claims

1.一种房地产信息快速搜索方法，其特征在于该方法包括以下步骤：

第一步，将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫，通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取，然后将抓取的信息存储至本地的文件系统；

所述的聚焦网络爬虫其实现方法如下：

(1)将网页中的信息转化成文档对象模型树，然后再将树中的节点按照层次遍历进行编号，将链接所对应的编号路径提取出来；

(2)把网页中的链接按照提取出来的顺序放入队列中，找出满足任意两个节点间的路径大于等于2的最大匹配字串，将该字串中的所有元素从队列中取出，归并入相应的类中；依此不断进行，直到满足条件的所有链接归入类中；

(3)令L为所有待分类链接集合；G_i为属于类别i的链接集合；class_num为当前类别编号；flag为标记；执行以下操作：

a)初始化：设置L＝{u₁,u₂,…,u_n}；G₁,G₂,…G_n＝Φ；class_num＝1；flag＝1；

b)当L集合非空并且flag＝1时，设置flag＝0；

c)遍历L中的每个链接u_i，如果有与u_i路径相同的最大路径值大于1，则将u_i放入相应的Gclass_num中，将class_num加1，设置flag＝0；

d)继续进行步骤b)，直到flag＝0或者L为空；

(4)根据(3)可得每个类别所包含的链接数为|Gi|，令cluster_url_num为总类别数，anchor_score(url)为锚文本的相似度评分,则cluster_url_num＝Max(class_num)，计算类别得分class_score的公式如下：

c l a s s_s c o r e = \frac{\underset{c l u s t e r_u r l_n u m}{Σ} a n c h o r_s c o r e (u r l)}{c l u s t e r_u r l_n u m}

(5)用class_score替换Shark-Search算法中的anchor_context_score，新的相邻链接评分neighborhood_score如下所示：

neighborhood_score(url)＝β*anchor_score(url)+(1-β)*class_score(url)，0≤β≤1；

由(1)-(5)得出改进后的Shark-Search的主题预测值potential_score(url)；

对于聚焦爬虫来说，为了尽最大的努力防止抓取非主题相关网页，必须对网页的主题进行预测，以便提高抓取效率；然而，在网页的主题预测过程中不可能百分百地预测出其正确的主题；为了防止对网页进行主题预测时疏忽潜在的主题相关网页，引进隧道技术，具体是：将加入链接聚类算法后的Shark-Search算法中的URL等候队列分成两个：主题相关队列relevant_Queue和主题不相关队列irrelevant_Queue；同时，设置两个阈值δ和μ：阈值δ用来决定URL进入哪一个队列，阈值μ用来决定irrelevant_Queue队列中的URL需要继续爬行的深度，δ<1，μ>1；

得出主题的预测值potential_score后，根据其值来确定等待抓取页面的URL应该放入哪个URL等候队列中：当一个页面的主题预测值大于等于δ则进入relevant_Queue队列，否则，进入irrelevant_Queue队列；对于在relevant_Queue队列中的URL，可以直接抓取对应的网页；而在irrelevant_Queue队列中的URL，由于预测值小于δ，被定为主题不相关URL，所以需要继续爬行其子孙节点；当爬行深度D大于等于μ时，则表示已经连续爬行了μ个非主题相关的网页，停止继续沿该路径进行爬行，反之继续搜索；

第二步，对页面信息进行处理，具体是：将网页从半结构化变成结构化信息，再进行噪音信息的处理，之后将有用的信息进行抽取，保存为结构化信息；

第三步，对房地产信息进行中文分词处理；中文分词主要在两个方面进行处理：第一，对于从数据库中获取的文本数据进行中文分词操作；第二，对于用户输入的关键字进行中文分词操作，以便于搜索操作；这两个方面处理的中文分词采用同一个中文分词系统，利用隐马尔可夫模型HMM结合词性标注增加对房地产命名识别的功能，从而为后续的用户搜索提供了更好的结果排序集；

其中利用HMM结合词性标注对房地产命名识别具体是：主要识别两个方面的词汇：第一，对于从数据库中获取的文本数据；第二，对于用户输入的关键词；识别过程是：给定一个句子序列W＝w₁w₂w₃…w_n，找到一个最佳的类型序列C＝c₁c₂c₃…c_n，使得P(C|W)的值最大；由贝叶斯公式可知P(C|W)＝P(C,W)/P(W)，对于一个给定的句子来说，P(W)是固定不变的，因此只要使P(C,W)最大就能得出P(C|W)的最大值；将房地产命名的识别设置成4种状态：开始状态、中间状态、结束状态和其他状态，即状态集合S＝{s₁,s₂,s₃,s₄}中的4个元素分别对应前面4种状态；

在计算HMM五元组中的隐含状态转移概率矩阵A、观测状态转移概率矩阵B、初始状态概率矩阵π前，需要对语料库进行预处理：

(1)从网络上抓取房地产相关新闻的文本；

(2)对抓取的文本进行预处理，进行简单的分词操作，词性标注；

(3)人工进行房地产命名的标注，在命名的第一个词前面加上“[”，在最后一个词后面加上“]FC”，其他词则用“[]”包围并且在后面添加“Z”；

(4)把房地产命名分成四种状态，FB,FM,FE,FO分别代表命名的开始、中间、结束和其他状态；

上述四步操作结束后接下来进行A，B，π这三个参数的计算；采用最大似然估计法求解，A，B，π的求解分别如式(1)-(3)所示；

a_{i j} = \frac{C (S_{i}, S_{j})}{C (S_{i}, S)} - - - (1)

b_{j} (k) = \frac{O_{j} (V_{k})}{C (S_{i}, S)} - - - (2)

π_{i} = \frac{S_{i}}{N} - - - (3)

式(1)-(3)中的S表示所有状态，C(S_i,S)为从S_i转移到其他所有状态的次数；C(S_i,S_j)为从状态S_i转移到S_j的次数，S_i,S_j为FB,FM,FE,FO中的一种；V_k表示词性，O_j(V_k)表示状态S_j中出现V_k的次数；N表示句子总数；

使用维特比算法实现训练集的自动标注，即从所有可能的标注序列中选择概率最大的作为最终标注结果；对于给定的W＝w₁w₂w₃…w_n，C＝c₁c₂c₃…c_n为可能的标注序列，C^#为概率最大的标注序列，C^#如式(4)所示；

C^{#} = \arg \underset{C}{m a x} P (C | W) - - - (4)

由贝叶斯公式可知，P(C|W)＝P(W|C)P(C)/P(W)，将w_i视为观察序列，C为W后的隐状态序列，则通过HMM可以计算P(W|C)P(C)，计算如式(5)所示；

P (W | C) P (C) \approx Π_{i = 1}^{m} p (w_{i} | c_{i}) p (c_{i} | c_{i + 1}) - - - (5)

因此C^#就转化成式(6)；

C^{#} = \arg \underset{C}{m a x} Π_{i = 1}^{m} p (w_{i} | c_{i}) p (c_{i} | c_{i + 1}) - - - (6)

为了方便计算，对式(6)取负对数，如式(7)所示；

C^{#} = \arg \underset{C}{m i n} {- Σ_{i = 1}^{m} [\ln p (w_{i} | c_{i}) + \ln p (c_{i} | c_{i + 1})]} - - - (7)

因此训练集的自动标注就转化为式(7)的求解问题，维特比算法是解决该问题的典型算法；对于式(7)中的p(w_i|c_i)和p(c_i|c_i+1)求解，根据大数定理可以得出式(8-9)；

p(w_i|c_i)≈C(w_i,c_i)/C(c_i) (8)

p(c_i|c_i+1)≈C(c_i,c_i+1)/C(c_i) (9)

通过上述公式计算C^#后，识别出房地产命名实体以及一般的命名实体；

第四步，采用Hibernate-Search对中文分词后的信息进行索引操作；

第五步，由用户检索模块对用户查询内容进行响应；查询需要用户在查询文本框中输入搜索关键字，然后系统对用户输入的字符串进行中文分词操作，将系统返回的结果进行排序操作；结果排序操作由Hibernate-Search实现。

2.根据权利要求1所述的一种房地产信息快速搜索方法，其特征在于：采用富客户端应用框架Flex实现用户界面，用户可以在搜索文本框中输入需要搜索的关键字进行搜索操作。