CN108536825A - 一种识别房源数据是否重复的方法 - Google Patents
一种识别房源数据是否重复的方法 Download PDFInfo
- Publication number
- CN108536825A CN108536825A CN201810316155.4A CN201810316155A CN108536825A CN 108536825 A CN108536825 A CN 108536825A CN 201810316155 A CN201810316155 A CN 201810316155A CN 108536825 A CN108536825 A CN 108536825A
- Authority
- CN
- China
- Prior art keywords
- source
- houses data
- data
- houses
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000001568 sexual effect Effects 0.000 claims 1
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种识别房源数据是否重复的方法,包括以下步骤:S1:搜集训练数据;S2:建立训练模型,每个房源数据对应一个LSTM层,每个房源数据包括描述信息和属性信息,抽取N%相同房源数据和1‑N%的不同房源数据,对描述信息、属性信息进行分词映射得到第一词向量和第二词向量,将第一词向量和第二词向量排序后输入对应LSTM层并合并至向量合并层中,进而将向量合并层中的数据输入至全连接层得到相似概率值,比较后调整参数值以得到训练模型,S3:使用训练模型,将抽取的房源数据输入所述训练模型,得到相似概率值。本发明至少具有以下优点:能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源的查准率和查全率。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种识别房源数据是否重复的方法。
背景技术
互联网上有着海量的房源数据,采集并研究这些数据,是利用大数据研究不动产行业的先决条件。但是互联网上的房源数据因为房地产经纪人重复在各个网站发布、或者不同房地产经纪人发布同一套房源、亦或者房地产经纪人为了业绩重复发布相似的房源数据,导致采集后的房源数据有着大量重复相同或相似的数据,利用上述采集到的数据直接对不动产行业进行研究,对研究成果产生非常不利的影响。如何识别上述数据中哪些是相同或相似的房源,然后清洗掉这些数据,成为不动产研究领域中非常关注的问题。
目前,一般采取对房源数据中的描述信息进行先分词,再采用词频统计的方法计算特征向量,然后再加上其他信息(如:小区名称、房产面积、楼层等信息),通过计算各信息的特征向量之间的距离进行判断。另一种方式为在分词后,对各个分词计算哈希值,再根据分词权重进行加权计算并合并,然后对哈希值进行降维,在计算降维后的哈希值之间的距离。上述两种方法都无法解决语义相似度上的识别难题,对一些语义上是同一套、但是表述的词语不一样的房源,上述两种方法均无法识别。
发明内容
本发明要解决的技术问题是提供一种识别房源数据是否重复的方法,其能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源的查准率和查全率。
为了解决上述技术问题,本发明提供了一种识别房源数据是否重复的方法,包括以下步骤:
-S1:搜集训练数据,包括采集网络上的房源数据,人工判断是否为相同房源数据,并对相同房源数据进行标记,形成包括多个相同房源数据和不同房源数据的训练数据;
-S2:建立训练模型,每个所述房源数据对应一个LSTM层,每个所述房源数据包括描述信息和属性信息,S21:抽取N%上述相同房源数据和1-N%的不同房源数据,分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量;其中N为小于100的正整数;S22:分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量;S23:将上述的第一词向量和第二词向量排序后输入对应的LSTM层;S24:将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中,并将向量合并层中的数据输入至全连接层得到相似概率值;S25:将输出的所述相似概率值与预设值进行比较,调整参数值以得到训练模型;
-S3:使用训练模型,抽取至少2组房源数据,并将各抽取的房源数据输入所述训练模型,得到相似概率值。
进一步地,所述步骤S1中包括:利用网络爬虫技术采集网络上的房源数据,并写入数据库中。
进一步地,所述步骤S21中,所述相同房源数据抽取量为50%,所述不同房源数据抽取量为50%。
进一步地,所述步骤S2中,所述属性信息包括:小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价。
进一步地,所述步骤S23中,所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。
进一步地,所述步骤S25中,包括根据反向传播算法以调整参数值。
进一步地,所述LSTM层具有一定的语义识别功能。
结合上述公开的技术方案,本发明至少具有以下优点:能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源数据的查准率和查全率;且本发明是相对与现有技术,不在去统计词频,在计算词向量或哈希值,嫩够有效地提高房源数据的查询速度。
附图说明
为了更清楚的说明本发明实施例技术中的技术方案,下面将对实施例技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1为本发明的整体方法流程图;
图2为本发明的建立数据模型的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本实用型中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
参照图1和图2所示,本发明公开了一种识别房源数据是否重复的方法,包括以下步骤:
-S1:搜集训练数据,包括利用网络爬虫技术采集网络上大量的房源数据,并写入数据库中,人工判断是否为相同房源数据,并对相同房源数据进行标记,形成包括多个相同房源数据和不同房源数据的训练数据。
-S2:建立训练模型,每个所述房源数据对应一个LSTM层,每个所述房源数据包括描述信息和属性信息;本发明中,所述属性信息包括:小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价;本发明中,优选地由于收集大量的房源数据,LSTM层经过对此训练后,具有语义识别功能,能够识别类似“价格可商议”和“可议价”等房地产领域的词汇。
S21:抽取N%上述相同房源数据和1-N%的不同房源数据,分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量;其中N为小于100的正整数;本发明中,优选的N取值为50;即:所述相同房源数据抽取量为50%,所述不同房源数据抽取量为50%。
S22:分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量。
S23:将上述的第一词向量和第二词向量排序后输入对应的LSTM层;本发明中,优选地所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。
S24:将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中,并将向量合并层中的数据输入至全连接层得到相似概率值。
S25:将输出的所述相似概率值与预设值进行比较,根据反向传播算法调整参数值以得到训练模型;
-S3:使用训练模型,抽取至少2组房源数据,并将各抽取的房源数据输入所述训练模型,得到相似概率值。
本发明能够对房源数据的描述信息进行语义上的识别,准确判断是否为同一套房源,大大提高了房源数据的查准率和查全率;且本发明是相对与现有技术,不在去统计词频,在计算词向量或哈希值,嫩够有效地提高房源数据的查询速度。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理能够在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖点相一致的最宽的范围。
Claims (7)
1.一种识别房源数据是否重复的方法,其特征在于,包括以下步骤:
-S1:搜集训练数据,包括采集网络上的房源数据,人工判断是否为相同房源数据,并对相同房源数据进行标记,形成包括多个相同房源数据和不同房源数据的训练数据;
-S2:建立训练模型,每个所述房源数据对应一个LSTM层,每个所述房源数据包括描述信息和属性信息,S21:抽取N%上述相同房源数据和1-N%的不同房源数据,分别对相同房源数据和不同房源数据中的描述信息进行分词、并将多个所述分词映射以得到第一词向量;其中N为小于100的正整数;S22:分别对上述相同房源数据和不同房源数据中的属性信息编码后映射以得到第二词向量;S23:将上述的第一词向量和第二词向量排序后输入对应的LSTM层;S24:将多个LSTM层中的第一词向量和第二词向量合并至向量合并层中,并将向量合并层中的数据输入至全连接层得到相似概率值;S25:将输出的所述相似概率值与预设值进行比较,调整参数值以得到训练模型;
-S3:使用训练模型,抽取至少2组房源数据,并将各抽取的房源数据输入所述训练模型,得到相似概率值。
2.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S1中包括:利用网络爬虫技术采集网络上的房源数据,并写入数据库中。
3.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S21中,所述相同房源数据抽取量为50%,所述不同房源数据抽取量为50%。
4.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S2中,所述属性信息包括:小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价。
5.如权利要求4所述的识别房源数据是否重复的方法,其特征在于,所述步骤S23中,所述排序方式从前之后依次为小区名字、地理位置、户型、房屋类型、装修程度、建筑面积、建筑年代、朝向、楼层、房屋单价、描述信息。
6.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述步骤S25中,包括根据反向传播算法以调整参数值。
7.如权利要求1所述的识别房源数据是否重复的方法,其特征在于,所述LSTM层具有一定的语义识别功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810316155.4A CN108536825A (zh) | 2018-04-10 | 2018-04-10 | 一种识别房源数据是否重复的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810316155.4A CN108536825A (zh) | 2018-04-10 | 2018-04-10 | 一种识别房源数据是否重复的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108536825A true CN108536825A (zh) | 2018-09-14 |
Family
ID=63479861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810316155.4A Pending CN108536825A (zh) | 2018-04-10 | 2018-04-10 | 一种识别房源数据是否重复的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536825A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858024A (zh) * | 2019-01-04 | 2019-06-07 | 中山大学 | 一种基于word2vec的房源词向量训练方法及装置 |
CN109977287A (zh) * | 2019-03-28 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 一种不同信息源的房产数据同一性判别方法 |
CN110618982A (zh) * | 2018-12-26 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN110633726A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种房源识别方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463732A (zh) * | 2014-11-17 | 2015-03-25 | 中润博远(北京)科技有限公司 | 房源管理系统及其房源数据处理方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
CN107491433A (zh) * | 2017-07-24 | 2017-12-19 | 成都知数科技有限公司 | 基于深度学习的电商异常金融商品识别方法 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
-
2018
- 2018-04-10 CN CN201810316155.4A patent/CN108536825A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463732A (zh) * | 2014-11-17 | 2015-03-25 | 中润博远(北京)科技有限公司 | 房源管理系统及其房源数据处理方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107491433A (zh) * | 2017-07-24 | 2017-12-19 | 成都知数科技有限公司 | 基于深度学习的电商异常金融商品识别方法 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633726A (zh) * | 2018-12-25 | 2019-12-31 | 北京时光荏苒科技有限公司 | 一种房源识别方法、装置、存储介质及电子设备 |
CN110618982A (zh) * | 2018-12-26 | 2019-12-27 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN110618982B (zh) * | 2018-12-26 | 2022-09-30 | 北京时光荏苒科技有限公司 | 一种多源异构数据的处理方法、装置、介质及电子设备 |
CN109858024A (zh) * | 2019-01-04 | 2019-06-07 | 中山大学 | 一种基于word2vec的房源词向量训练方法及装置 |
CN109977287A (zh) * | 2019-03-28 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 一种不同信息源的房产数据同一性判别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699818B (zh) | 一种多源异构的多属性poi融合方法 | |
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN108536825A (zh) | 一种识别房源数据是否重复的方法 | |
CN104199832B (zh) | 基于信息熵的金融网络异常交易社区发现方法 | |
CN110413707A (zh) | 互联网中欺诈团伙关系的挖掘与排查方法及其系统 | |
CN101187927B (zh) | 一种刑事案件的串并案智能分析方法 | |
CN101692224B (zh) | 融合空间关系语义的高分辨率遥感图像检索方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN108920678A (zh) | 一种基于谱聚类与模糊集的重叠社区发现方法 | |
CN106960006A (zh) | 一种不同轨迹间相似度度量系统及其度量方法 | |
CN106909643A (zh) | 基于知识图谱的社交媒体大数据主题发现方法 | |
CN107679462A (zh) | 一种基于小波的深度多特征融合分类方法 | |
CN104200206B (zh) | 一种基于双角度排序优化的行人重识别方法 | |
CN104615687A (zh) | 一种面向知识库更新的实体细粒度分类方法与系统 | |
CN101877007A (zh) | 融合空间方位关系语义的遥感图像检索方法 | |
CN104462199A (zh) | 一种网络环境下的近似重复图像搜索方法 | |
CN107092929A (zh) | 基于聚类技术的刑事犯罪案件关联串并方法及系统 | |
CN109344263A (zh) | 一种地址匹配方法 | |
CN107918657A (zh) | 一种数据源的匹配方法和装置 | |
CN111429977A (zh) | 一种新的基于图结构注意力的分子相似性搜索算法 | |
CN105825430A (zh) | 一种基于异构社会网络的检测方法 | |
CN110704694A (zh) | 一种基于网络表示学习的组织层级划分方法及其应用 | |
CN109637128A (zh) | 一种基于Markov的灰色Verhulst短时交通流预测方法及系统 | |
CN106997373A (zh) | 一种基于深度置信网络的链路预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180914 |