CN108536825A

CN108536825A - 一种识别房源数据是否重复的方法

Info

Publication number: CN108536825A
Application number: CN201810316155.4A
Authority: CN
Inventors: 金智辉
Original assignee: Suzhou Zhong Di Xing Information Technology Co Ltd
Current assignee: Suzhou Zhong Di Xing Information Technology Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-14

Abstract

本发明公开了一种识别房源数据是否重复的方法，包括以下步骤：S1：搜集训练数据；S2：建立训练模型，每个房源数据对应一个LSTM层，每个房源数据包括描述信息和属性信息，抽取N％相同房源数据和1‑N％的不同房源数据，对描述信息、属性信息进行分词映射得到第一词向量和第二词向量，将第一词向量和第二词向量排序后输入对应LSTM层并合并至向量合并层中，进而将向量合并层中的数据输入至全连接层得到相似概率值，比较后调整参数值以得到训练模型，S3：使用训练模型，将抽取的房源数据输入所述训练模型，得到相似概率值。本发明至少具有以下优点：能够对房源数据的描述信息进行语义上的识别，准确判断是否为同一套房源，大大提高了房源的查准率和查全率。

Description

一种识别房源数据是否重复的方法

技术领域

本发明涉及计算机技术领域，具体涉及一种识别房源数据是否重复的方法。

背景技术

互联网上有着海量的房源数据，采集并研究这些数据，是利用大数据研究不动产行业的先决条件。但是互联网上的房源数据因为房地产经纪人重复在各个网站发布、或者不同房地产经纪人发布同一套房源、亦或者房地产经纪人为了业绩重复发布相似的房源数据，导致采集后的房源数据有着大量重复相同或相似的数据，利用上述采集到的数据直接对不动产行业进行研究，对研究成果产生非常不利的影响。如何识别上述数据中哪些是相同或相似的房源，然后清洗掉这些数据，成为不动产研究领域中非常关注的问题。

目前，一般采取对房源数据中的描述信息进行先分词，再采用词频统计的方法计算特征向量，然后再加上其他信息(如：小区名称、房产面积、楼层等信息)，通过计算各信息的特征向量之间的距离进行判断。另一种方式为在分词后，对各个分词计算哈希值，再根据分词权重进行加权计算并合并，然后对哈希值进行降维，在计算降维后的哈希值之间的距离。上述两种方法都无法解决语义相似度上的识别难题，对一些语义上是同一套、但是表述的词语不一样的房源，上述两种方法均无法识别。

发明内容

本发明要解决的技术问题是提供一种识别房源数据是否重复的方法，其能够对房源数据的描述信息进行语义上的识别，准确判断是否为同一套房源，大大提高了房源的查准率和查全率。

为了解决上述技术问题，本发明提供了一种识别房源数据是否重复的方法，包括以下步骤：

-S1：搜集训练数据，包括采集网络上的房源数据，人工判断是否为相同房源数据，并对相同房源数据进行标记，形成包括多个相同房源数据和不同房源数据的训练数据；

-S2：建立训练模型，每个所述房源数据对应一个LSTM层，每个所述房源数据包括描述信息和属性信息，S21：抽取N％上述相同房源数据和1-N％的不同房源数据，分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量；其中N为小于100的正整数；S22：分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量；S23：将上述的第一词向量和第二词向量排序后输入对应的LSTM层；S24：将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中，并将向量合并层中的数据输入至全连接层得到相似概率值；S25：将输出的所述相似概率值与预设值进行比较，调整参数值以得到训练模型；

-S3：使用训练模型，抽取至少2组房源数据，并将各抽取的房源数据输入所述训练模型，得到相似概率值。

进一步地，所述步骤S1中包括：利用网络爬虫技术采集网络上的房源数据，并写入数据库中。

进一步地，所述步骤S21中，所述相同房源数据抽取量为50％，所述不同房源数据抽取量为50％。

进一步地，所述步骤S2中，所述属性信息包括：小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价。

进一步地，所述步骤S23中，所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。

进一步地，所述步骤S25中，包括根据反向传播算法以调整参数值。

进一步地，所述LSTM层具有一定的语义识别功能。

结合上述公开的技术方案，本发明至少具有以下优点：能够对房源数据的描述信息进行语义上的识别，准确判断是否为同一套房源，大大提高了房源数据的查准率和查全率；且本发明是相对与现有技术，不在去统计词频，在计算词向量或哈希值，嫩够有效地提高房源数据的查询速度。

附图说明

为了更清楚的说明本发明实施例技术中的技术方案，下面将对实施例技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1为本发明的整体方法流程图；

图2为本发明的建立数据模型的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本实用型中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

参照图1和图2所示，本发明公开了一种识别房源数据是否重复的方法，包括以下步骤：

-S1：搜集训练数据，包括利用网络爬虫技术采集网络上大量的房源数据，并写入数据库中，人工判断是否为相同房源数据，并对相同房源数据进行标记，形成包括多个相同房源数据和不同房源数据的训练数据。

-S2：建立训练模型，每个所述房源数据对应一个LSTM层，每个所述房源数据包括描述信息和属性信息；本发明中，所述属性信息包括：小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价；本发明中，优选地由于收集大量的房源数据，LSTM层经过对此训练后，具有语义识别功能，能够识别类似“价格可商议”和“可议价”等房地产领域的词汇。

S21：抽取N％上述相同房源数据和1-N％的不同房源数据，分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量；其中N为小于100的正整数；本发明中，优选的N取值为50；即：所述相同房源数据抽取量为50％，所述不同房源数据抽取量为50％。

S22：分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量。

S23：将上述的第一词向量和第二词向量排序后输入对应的LSTM层；本发明中，优选地所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。

S24：将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中，并将向量合并层中的数据输入至全连接层得到相似概率值。

S25：将输出的所述相似概率值与预设值进行比较，根据反向传播算法调整参数值以得到训练模型；

本发明能够对房源数据的描述信息进行语义上的识别，准确判断是否为同一套房源，大大提高了房源数据的查准率和查全率；且本发明是相对与现有技术，不在去统计词频，在计算词向量或哈希值，嫩够有效地提高房源数据的查询速度。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理能够在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖点相一致的最宽的范围。

Claims

1.一种识别房源数据是否重复的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的识别房源数据是否重复的方法，其特征在于，所述步骤S1中包括：利用网络爬虫技术采集网络上的房源数据，并写入数据库中。

3.如权利要求1所述的识别房源数据是否重复的方法，其特征在于，所述步骤S21中，所述相同房源数据抽取量为50％，所述不同房源数据抽取量为50％。

4.如权利要求1所述的识别房源数据是否重复的方法，其特征在于，所述步骤S2中，所述属性信息包括：小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价。

5.如权利要求4所述的识别房源数据是否重复的方法，其特征在于，所述步骤S23中，所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。

6.如权利要求1所述的识别房源数据是否重复的方法，其特征在于，所述步骤S25中，包括根据反向传播算法以调整参数值。

7.如权利要求1所述的识别房源数据是否重复的方法，其特征在于，所述LSTM层具有一定的语义识别功能。