CN108536825A - 一种识别房源数据是否重复的方法 - Google Patents

一种识别房源数据是否重复的方法 Download PDF

Info

Publication number
CN108536825A
CN108536825A CN201810316155.4A CN201810316155A CN108536825A CN 108536825 A CN108536825 A CN 108536825A CN 201810316155 A CN201810316155 A CN 201810316155A CN 108536825 A CN108536825 A CN 108536825A
Authority
CN
China
Prior art keywords
source
houses data
data
houses
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810316155.4A
Other languages
English (en)
Inventor
金智辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhong Di Xing Information Technology Co Ltd
Original Assignee
Suzhou Zhong Di Xing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhong Di Xing Information Technology Co Ltd filed Critical Suzhou Zhong Di Xing Information Technology Co Ltd
Priority to CN201810316155.4A priority Critical patent/CN108536825A/zh
Publication of CN108536825A publication Critical patent/CN108536825A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种识别房源数据是否重复的方法,包括以下步骤:S1:搜集训练数据;S2:建立训练模型,每个房源数据对应一个LSTM层,每个房源数据包括描述信息和属性信息,抽取N%相同房源数据和1‑N%的不同房源数据,对描述信息、属性信息进行分词映射得到第一词向量和第二词向量,将第一词向量和第二词向量排序后输入对应LSTM层并合并至向量合并层中,进而将向量合并层中的数据输入至全连接层得到相似概率值,比较后调整参数值以得到训练模型,S3:使用训练模型,将抽取的房源数据输入所述训练模型,得到相似概率值。本发明至少具有以下优点:能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源的查准率和查全率。

Description

一种识别房源数据是否重复的方法
技术领域
本发明涉及计算机技术领域,具体涉及一种识别房源数据是否重复的方法。
背景技术
互联网上有着海量的房源数据,采集并研究这些数据,是利用大数据研究不动产行业的先决条件。但是互联网上的房源数据因为房地产经纪人重复在各个网站发布、或者不同房地产经纪人发布同一套房源、亦或者房地产经纪人为了业绩重复发布相似的房源数据,导致采集后的房源数据有着大量重复相同或相似的数据,利用上述采集到的数据直接对不动产行业进行研究,对研究成果产生非常不利的影响。如何识别上述数据中哪些是相同或相似的房源,然后清洗掉这些数据,成为不动产研究领域中非常关注的问题。
目前,一般采取对房源数据中的描述信息进行先分词,再采用词频统计的方法计算特征向量,然后再加上其他信息(如:小区名称、房产面积、楼层等信息),通过计算各信息的特征向量之间的距离进行判断。另一种方式为在分词后,对各个分词计算哈希值,再根据分词权重进行加权计算并合并,然后对哈希值进行降维,在计算降维后的哈希值之间的距离。上述两种方法都无法解决语义相似度上的识别难题,对一些语义上是同一套、但是表述的词语不一样的房源,上述两种方法均无法识别。
发明内容
本发明要解决的技术问题是提供一种识别房源数据是否重复的方法,其能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源的查准率和查全率。
为了解决上述技术问题,本发明提供了一种识别房源数据是否重复的方法,包括以下步骤:
-S1:搜集训练数据,包括采集网络上的房源数据,人工判断是否为相同房源数据,并对相同房源数据进行标记,形成包括多个相同房源数据和不同房源数据的训练数据;
-S2:建立训练模型,每个所述房源数据对应一个LSTM层,每个所述房源数据包括描述信息和属性信息,S21:抽取N%上述相同房源数据和1-N%的不同房源数据,分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量;其中N为小于100的正整数;S22:分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量;S23:将上述的第一词向量和第二词向量排序后输入对应的LSTM层;S24:将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中,并将向量合并层中的数据输入至全连接层得到相似概率值;S25:将输出的所述相似概率值与预设值进行比较,调整参数值以得到训练模型;
-S3:使用训练模型,抽取至少2组房源数据,并将各抽取的房源数据输入所述训练模型,得到相似概率值。
进一步地,所述步骤S1中包括:利用网络爬虫技术采集网络上的房源数据,并写入数据库中。
进一步地,所述步骤S21中,所述相同房源数据抽取量为50%,所述不同房源数据抽取量为50%。
进一步地,所述步骤S2中,所述属性信息包括:小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价。
进一步地,所述步骤S23中,所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。
进一步地,所述步骤S25中,包括根据反向传播算法以调整参数值。
进一步地,所述LSTM层具有一定的语义识别功能。
结合上述公开的技术方案,本发明至少具有以下优点:能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源数据的查准率和查全率;且本发明是相对与现有技术,不在去统计词频,在计算词向量或哈希值,嫩够有效地提高房源数据的查询速度。
附图说明
为了更清楚的说明本发明实施例技术中的技术方案,下面将对实施例技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1为本发明的整体方法流程图;
图2为本发明的建立数据模型的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本实用型中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
参照图1和图2所示,本发明公开了一种识别房源数据是否重复的方法,包括以下步骤:
-S1:搜集训练数据,包括利用网络爬虫技术采集网络上大量的房源数据,并写入数据库中,人工判断是否为相同房源数据,并对相同房源数据进行标记,形成包括多个相同房源数据和不同房源数据的训练数据。
-S2:建立训练模型,每个所述房源数据对应一个LSTM层,每个所述房源数据包括描述信息和属性信息;本发明中,所述属性信息包括:小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价;本发明中,优选地由于收集大量的房源数据,LSTM层经过对此训练后,具有语义识别功能,能够识别类似“价格可商议”和“可议价”等房地产领域的词汇。
S21:抽取N%上述相同房源数据和1-N%的不同房源数据,分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量;其中N为小于100的正整数;本发明中,优选的N取值为50;即:所述相同房源数据抽取量为50%,所述不同房源数据抽取量为50%。
S22:分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量。
S23:将上述的第一词向量和第二词向量排序后输入对应的LSTM层;本发明中,优选地所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。
S24:将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中,并将向量合并层中的数据输入至全连接层得到相似概率值。
S25:将输出的所述相似概率值与预设值进行比较,根据反向传播算法调整参数值以得到训练模型;
-S3:使用训练模型,抽取至少2组房源数据,并将各抽取的房源数据输入所述训练模型,得到相似概率值。
本发明能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源数据的查准率和查全率;且本发明是相对与现有技术,不在去统计词频,在计算词向量或哈希值,嫩够有效地提高房源数据的查询速度。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理能够在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖点相一致的最宽的范围。

Claims (7)

1.一种识别房源数据是否重复的方法,其特征在于,包括以下步骤:
-S1:搜集训练数据,包括采集网络上的房源数据,人工判断是否为相同房源数据,并对相同房源数据进行标记,形成包括多个相同房源数据和不同房源数据的训练数据;
-S2:建立训练模型,每个所述房源数据对应一个LSTM层,每个所述房源数据包括描述信息和属性信息,S21:抽取N%上述相同房源数据和1-N%的不同房源数据,分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量;其中N为小于100的正整数;S22:分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量;S23:将上述的第一词向量和第二词向量排序后输入对应的LSTM层;S24:将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中,并将向量合并层中的数据输入至全连接层得到相似概率值;S25:将输出的所述相似概率值与预设值进行比较,调整参数值以得到训练模型;
-S3:使用训练模型,抽取至少2组房源数据,并将各抽取的房源数据输入所述训练模型,得到相似概率值。
2.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S1中包括:利用网络爬虫技术采集网络上的房源数据,并写入数据库中。
3.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S21中,所述相同房源数据抽取量为50%,所述不同房源数据抽取量为50%。
4.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S2中,所述属性信息包括:小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价。
5.如权利要求4所述的识别房源数据是否重复的方法,其特征在于,所述步骤S23中,所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。
6.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S25中,包括根据反向传播算法以调整参数值。
7.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述LSTM层具有一定的语义识别功能。
CN201810316155.4A 2018-04-10 2018-04-10 一种识别房源数据是否重复的方法 Pending CN108536825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810316155.4A CN108536825A (zh) 2018-04-10 2018-04-10 一种识别房源数据是否重复的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810316155.4A CN108536825A (zh) 2018-04-10 2018-04-10 一种识别房源数据是否重复的方法

Publications (1)

Publication Number Publication Date
CN108536825A true CN108536825A (zh) 2018-09-14

Family

ID=63479861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810316155.4A Pending CN108536825A (zh) 2018-04-10 2018-04-10 一种识别房源数据是否重复的方法

Country Status (1)

Country Link
CN (1) CN108536825A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858024A (zh) * 2019-01-04 2019-06-07 中山大学 一种基于word2vec的房源词向量训练方法及装置
CN109977287A (zh) * 2019-03-28 2019-07-05 国家计算机网络与信息安全管理中心 一种不同信息源的房产数据同一性判别方法
CN110618982A (zh) * 2018-12-26 2019-12-27 北京时光荏苒科技有限公司 一种多源异构数据的处理方法、装置、介质及电子设备
CN110633726A (zh) * 2018-12-25 2019-12-31 北京时光荏苒科技有限公司 一种房源识别方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463732A (zh) * 2014-11-17 2015-03-25 中润博远(北京)科技有限公司 房源管理系统及其房源数据处理方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN107491433A (zh) * 2017-07-24 2017-12-19 成都知数科技有限公司 基于深度学习的电商异常金融商品识别方法
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463732A (zh) * 2014-11-17 2015-03-25 中润博远(北京)科技有限公司 房源管理系统及其房源数据处理方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107491433A (zh) * 2017-07-24 2017-12-19 成都知数科技有限公司 基于深度学习的电商异常金融商品识别方法
CN107491541A (zh) * 2017-08-24 2017-12-19 北京丁牛科技有限公司 文本分类方法及装置
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633726A (zh) * 2018-12-25 2019-12-31 北京时光荏苒科技有限公司 一种房源识别方法、装置、存储介质及电子设备
CN110618982A (zh) * 2018-12-26 2019-12-27 北京时光荏苒科技有限公司 一种多源异构数据的处理方法、装置、介质及电子设备
CN110618982B (zh) * 2018-12-26 2022-09-30 北京时光荏苒科技有限公司 一种多源异构数据的处理方法、装置、介质及电子设备
CN109858024A (zh) * 2019-01-04 2019-06-07 中山大学 一种基于word2vec的房源词向量训练方法及装置
CN109977287A (zh) * 2019-03-28 2019-07-05 国家计算机网络与信息安全管理中心 一种不同信息源的房产数据同一性判别方法

Similar Documents

Publication Publication Date Title
CN104699818B (zh) 一种多源异构的多属性poi融合方法
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
CN108536825A (zh) 一种识别房源数据是否重复的方法
CN104199832B (zh) 基于信息熵的金融网络异常交易社区发现方法
CN110413707A (zh) 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN101187927B (zh) 一种刑事案件的串并案智能分析方法
CN101692224B (zh) 融合空间关系语义的高分辨率遥感图像检索方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN103778227A (zh) 从检索图像中筛选有用图像的方法
CN108920678A (zh) 一种基于谱聚类与模糊集的重叠社区发现方法
CN106960006A (zh) 一种不同轨迹间相似度度量系统及其度量方法
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN104200206B (zh) 一种基于双角度排序优化的行人重识别方法
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN101877007A (zh) 融合空间方位关系语义的遥感图像检索方法
CN104462199A (zh) 一种网络环境下的近似重复图像搜索方法
CN107092929A (zh) 基于聚类技术的刑事犯罪案件关联串并方法及系统
CN109344263A (zh) 一种地址匹配方法
CN107918657A (zh) 一种数据源的匹配方法和装置
CN111429977A (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN105825430A (zh) 一种基于异构社会网络的检测方法
CN110704694A (zh) 一种基于网络表示学习的组织层级划分方法及其应用
CN109637128A (zh) 一种基于Markov的灰色Verhulst短时交通流预测方法及系统
CN106997373A (zh) 一种基于深度置信网络的链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914