CN116955668A - 一种时空数据库批量构建方法 - Google Patents
一种时空数据库批量构建方法 Download PDFInfo
- Publication number
- CN116955668A CN116955668A CN202311083168.9A CN202311083168A CN116955668A CN 116955668 A CN116955668 A CN 116955668A CN 202311083168 A CN202311083168 A CN 202311083168A CN 116955668 A CN116955668 A CN 116955668A
- Authority
- CN
- China
- Prior art keywords
- data
- space
- gray
- building
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000013075 data extraction Methods 0.000 claims abstract description 5
- 238000011160 research Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000005192 partition Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000013011 mating Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000003860 storage Methods 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 67
- 238000011835 investigation Methods 0.000 description 25
- 238000007726 management method Methods 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 9
- 238000010224 classification analysis Methods 0.000 description 8
- 238000005034 decoration Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012876 topography Methods 0.000 description 6
- 238000012854 evaluation process Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 238000013439 planning Methods 0.000 description 5
- 238000013480 data collection Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000002689 soil Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- AGVAZMGAQJOSFJ-WZHZPDAFSA-M cobalt(2+);[(2r,3s,4r,5s)-5-(5,6-dimethylbenzimidazol-1-yl)-4-hydroxy-2-(hydroxymethyl)oxolan-3-yl] [(2r)-1-[3-[(1r,2r,3r,4z,7s,9z,12s,13s,14z,17s,18s,19r)-2,13,18-tris(2-amino-2-oxoethyl)-7,12,17-tris(3-amino-3-oxopropyl)-3,5,8,8,13,15,18,19-octamethyl-2 Chemical compound [Co+2].N#[C-].[N-]([C@@H]1[C@H](CC(N)=O)[C@@]2(C)CCC(=O)NC[C@@H](C)OP(O)(=O)O[C@H]3[C@H]([C@H](O[C@@H]3CO)N3C4=CC(C)=C(C)C=C4N=C3)O)\C2=C(C)/C([C@H](C\2(C)C)CCC(N)=O)=N/C/2=C\C([C@H]([C@@]/2(CC(N)=O)C)CCC(N)=O)=N\C\2=C(C)/C2=N[C@]1(C)[C@@](C)(CC(N)=O)[C@@H]2CCC(N)=O AGVAZMGAQJOSFJ-WZHZPDAFSA-M 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种时空数据库批量构建方法,包括:对研究区进行异构特征多源批量数据提取,得到时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据和其他相关数据;对时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据和其他相关数据进行数据预处理,得到预处理数据集;根据预设标准规范和预处理数据集中的数据进行标准制定,得到数据标准;根据数据标准对预处理数据集进行数据标准化处理,得到标准数据集;根据标准数据集构建时空数据库。本发明通过异构特征多源批量数据的提取,提高获取数据的完整程度,并对异构特征多源批量数据进行数据格式的统一,从而提高对数据进行批量、统一地处理、分析和存储的效率。
Description
技术领域
本发明涉及时空数据处理技术领域,特别是涉及一种时空数据库批量构建方法。
背景技术
时空数据库,即包括时间和空间要素在内的数据库系统。在数据收集阶段,根据数据分类分析、特征评估与精准应用的需要,需要通过各种数据源来收集各种类型的数据,这些数据来源广泛,既包括原始积累的数据,也包括开展数据调查获得的调查数据,这直接导致了数据格式不一、精度不一以及互相之间没有关联等问题,难以在实际评估当中使用。
由于数据库的构建是一个浩大的工程,需要一个较长的周期才能完成,所以真正进行并实现时空数据库的构建的实践并不多,特别是能够实现异构特征多源批量数据的用于房地产数据管理的时空数据库还未曾见到。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种时空数据库批量构建方法。
为实现上述目的,本发明提供了如下方案:
一种时空数据库批量构建方法,包括:
对研究区进行异构特征多源批量数据提取,得到时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据和其他相关数据;
对所述时空强关联多级行政区位综合治理数据、所述特征属性数据、所述租赁价格数据和所述其他相关数据进行数据预处理,得到预处理数据集;
根据预设标准规范和所述预处理数据集中的数据进行标准制定,得到数据标准;
根据数据标准对所述预处理数据集进行数据标准化处理,得到标准数据集;
根据所述标准数据集构建时空数据库。
优选地,所述时空强关联多级行政区位综合治理数据包括空天地一体化遥感影像数据、三维几何重构物业数据、建筑物普查数据、土地空间数据、标准分区数据、多级行政区划数据、城市道路数据、城市交通数据、点状POI数据、线状空间数据、面状空间配套数据、边界图层数据和其他数据;所述特征属性数据包括:土地属性数据、楼盘属性数据、楼栋属性数据和房屋属性数据。
优选地,对所述空天地一体化遥感影像数据进行预处理的步骤具体包括:
对所述空天地一体化遥感影像数据进行图像预处理和数据增强,并将处理后的数据划分为训练集、测试集和验证集;
分别构建空间信息编码器、语义编码器、双注意力提取器和注意力特征定义器;
根据所述空间信息编码器、所述语义编码器、所述双注意力提取器和所述注意力特征定义器构建深度空间注意力网络,并根据所述训练集对所述深度空间注意力网络进行训练;
分别利用所述测试集和所述验证集对所述深度空间注意力网络进行测试和验证,得到所述预处理数据集中的建筑物图像数据。
优选地,所述空间信息编码器包括三个阶段,每个阶段包含有两层浅层结构;每层所述浅层结构由卷积运算、批量归一化和参数校正线性单元组成;每个阶段的第一层和第二层具有相同数量的过滤器和输出特征图大小;所述语义编码器包括通道分割和重划分模块和3个下采样模块;所述双注意力提取器是基于核注意力机制和点积的通道注意机制构建得到的;所述注意力特征定义器包括Projection层和上采样模块;所述注意力特征定义器的每一层均由卷积层、BN层和PReLU组成。
优选地,对所述城市道路数据和所述城市交通数据进行预处理的步骤包括:
分别对所述城市道路数据、所述城市交通数据和所述点状POI数据进行预处理,得到各个二值化文本图片及其多叉树结构化数据;
对所述二值化文本图片及其多叉树结构化数据中的文字进行识别得到目标信息;
对所述目标信息中的数据进行数据精化及其归一化,得到所述预处理数据集中的城市环境数据。
优选地,分别对所述城市道路数据、所述城市交通数据和所述点状POI数据进行预处理,得到各个二值化文本图片及其多叉树结构化数据,包括:
将所述目标文本数据进行灰度处理,得到目标文本数据灰度图;
利用灰度值去噪模型对所述目标文本数据灰度图进行去噪,得到去噪后的目标文本数据;所述灰度值去噪模型的公式为:
;
其中,表示去噪后的目标文本数据,/>表示在目标文本数据灰度图上位置处的灰度值,/>表示在目标文本数据灰度图上/>位置处的灰度值,表示在目标文本数据灰度图上/>位置处的灰度值,/>表示在目标文本数据灰度图上/>位置处的灰度值,/>表示在目标文本数据灰度图上位置处的灰度值,/>表示可调因子;
将所述去噪后的目标文本数据进行分割,得到文字区域灰度图和背景区域灰度图;
对所述文字区域灰度图进行二值化处理,得到二值化文本图片及其多叉树结构化数据。
优选地,将所述去噪后的目标文本数据进行分割,得到文字区域灰度图和背景区域灰度图,包括:
采用预设的灰度值将去噪后的目标文本数据分为两组;
计算两组图像中的平均灰度值得到第一组平均灰度值和第二组平均灰度值;
不断调节预设的灰度值使得第一组平均灰度值和第二组平均灰度值差异值最大;
将所述平均灰度值差异值最大的相应灰度值作为分割值,并利用所述分割值对所述去噪后的目标文本数据进行分割得到文字区域灰度图和背景区域灰度图。
优选地,所述第一组平均灰度值和第二组平均灰度值的差异计算公式为:
其中,表示差异值,P 1表示第一组图像上的像素点个数,N表示去噪后的目标文本数据上总的像素点个数,P 2表示第二组图像上的像素点个数,/>表示第一组平均灰度值,/>表示第二组平均灰度值,/>表示目标文本数据总的灰度均值。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种时空数据库批量构建方法,包括:对研究区进行异构特征多源批量数据提取,得到时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据和其他相关数据;对所述时空强关联多级行政区位综合治理数据、所述特征属性数据、所述租赁价格数据和所述其他相关数据进行数据预处理,得到预处理数据集;根据预设标准规范和所述预处理数据集中的数据进行标准制定,得到数据标准;根据数据标准对所述预处理数据集进行数据标准化处理,得到标准数据集;根据所述标准数据集构建时空数据库。本发明通过异构特征多源批量数据的提取,提高获取数据的完整程度,并根据预设标准规范对异构特征多源批量数据进行数据格式的统一,从而提高对数据进行批量、统一地处理、分析和存储的效率,以满足数据分类分析、特征评估与精准应用的需要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种时空数据库批量构建方法,通过异构特征多源批量数据的提取,提高获取数据的完整程度,并根据预设标准规范对异构特征多源批量数据进行数据格式的同意,从而提高对数据进行批量、统一地处理、分析和存储的效率,以满足数据分类分析、特征评估与精准应用的需要。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例提供的方法流程图,如图1所示,本发明提供了一种时空数据库批量构建方法,包括:
步骤100:对研究区进行异构特征多源批量数据提取,得到时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据和其他相关数据;
步骤200:对所述时空强关联多级行政区位综合治理数据、所述特征属性数据、所述租赁价格数据和所述其他相关数据进行数据预处理,得到预处理数据集;
步骤300:根据预设标准规范和所述预处理数据集中的数据进行标准制定,得到数据标准;
步骤400:根据数据标准对所述预处理数据集进行数据标准化处理,得到标准数据集;
步骤500:根据所述标准数据集构建时空数据库。
优选地,所述时空强关联多级行政区位综合治理数据包括空天地一体化遥感影像数据、三维几何重构物业数据、建筑物普查数据、土地空间数据、标准分区数据、多级行政区划数据、城市道路数据、城市交通数据、点状POI数据、线状空间数据、面状空间配套数据、边界图层数据和其他数据;所述特征属性数据包括:土地属性数据、楼盘属性数据、楼栋属性数据和房屋属性数据。
具体的,本实施例中根据数据分类分析、特征评估与精准应用的要求,收集四个方面的数据,这些数据从其所涉及的内容以及在评估过程中的作用看,可将其分为时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据和其他相关数据。具体如下:
(一)时空强关联多级行政区位综合治理数据
时空强关联多级行政区位综合治理数据是反映与空间实体相关的位置、形状、大小及其分布等诸多方面信息的数据,以坐标和拓扑关系的形式存储。它是一种用点、线、面以及实体等基本空间数据结构来描述来自现实世界的目标,具有定位、定性、时间和空间关系的特性。在租赁价格评估过程中,区位环境信息是判断房地产区位影响因素的主要参考依据,因此,根据评估需要,在数据收集阶段,我们重点收集了空间影像数据、建筑物普查数据、土地空间数据、分区数据和城市道路交通数据。
(1)空间影像数据
①空天地一体化遥感影像数据
空天地一体化遥感影像主要是指航空影像和卫星影像,它以缩小的影像真实再现地表环境,以不同的空间尺度、感知方式快速、及时地监测地球环境的动态变化。由于其具有获取方便、周期短、信息量庞大等特点,因此成为空间数据的重要组成部分。深圳每年分四个季度获取覆盖全市区域的空天地一体化遥感影像,空间分辨率最高可达0.25米。空天地一体化遥感影像数据在批量评估中的应用比较广泛,评估人员可以通过空天地一体化遥感影像查看房地产周边环境与设施等情况,在很大程度上节约了外业调查的资金和时间投入。
②三维几何重构物业数据
三维几何重构物业数据是实现房地产虚拟现实的物质基础,它能够将现实世界在计算机上以三维立体形式将空间信息表达出来,能够全视角、全方位的展示包括房地产位置、形状、景观环境及交通等信息。对评估人员来说,三维几何重构物业数据大大提升了其判断区位因素的便捷程度。
(2)建筑物普查数据
建筑物普查数据来源于建筑物普查以及每年的动态更新数据,以建筑物分布图的形式予以展现。建筑基底图形以1:1000地形图为基准,其几何形状为面状,面与面之间具有拓扑关系。每个建筑基底图形面都对应一个建筑编码。组成建筑物基底图形的多边形角点的定位精度应小于或等于正负1米。
建筑物分布图覆盖全市区域内的建筑物,且每年动态更新,最为全面地反映了全市范围内房地产的空间位置信息和房地产之间的拓扑关系,在批量评估中具有重要作用。
(3)土地空间数据
土地空间数据是以宗地为基本单元,含有每一块宗地的边界坐标,土地空间数据与土地属性数据通过地块编号进行关联,因此土地的属性信息也可以通过地图表达。通过与房地产属性信息的关联,以及与其他空间数据进行叠加分析,土地空间数据可以用于与房地产相关数据进行空间分析。
(4)分区数据
①标准分区数据
标准分区图是规划部门在城市总体规划的基础上,对局部地区的土地利用、人口分布、公共设施、城市基础设施的配置等方面所作的进一步的规划安排,是划定各规划分区的位置边界图。标准分区从规划的角度充分考虑了局部区域内土地利用、人口分布、公共设施、以及城市基础设施的配置,因此在同一标准分区内的房地产具有较强的同质性,同一标准分区内同类型的房地产在一定程度所受到的区域因素影响具有相似性,这对批量评估中评估集合的建立具有重要的参考作用。
②多级行政区划数据
多级行政区划数据主要包括区划名称和区划编号,来源于多级行政区划图,该图以空间图形——面的形式表达城市的多级行政区划边界。
(5)城市道路交通数据
①城市道路数据
城市道路数据主要包含道路边界信息、道路名称、道路等级以及与临近道路的拓扑关系,具体通过道路图以空间图形——面的形式表达城市规划道路信息。
②城市交通数据
城市交通数据的主要获取来源主要地铁站点分布图和公交站点分布图,它们以空间图形——点的形式表达地铁和公交站点的空间信息。在房地产批量评估中,房地产的交通便捷度信息对房地产的价值有一定的影响,房地产与地铁、公交站点的通达距离在一定程度上能够反映房地产的交通便捷度,因此可以通过房地产与地铁、公交站点的通达度指标获取房地产的交通便捷度信息,并细化在评估模型中。
(6)空间矢量数据
①点状POI数据
对住房租赁价格可能产生影响的点状空间配套设施主要由POI数据体现,POI即“Point of Interest”(兴趣点),是基于位置服务的最核心数据,每个POI包含名称、类别、经度和纬度等信息。目前我中心收集的POI数据囊括了各类住房一定距离内的基础教育、卫生医疗、公共设施、交通设施、购物中心、文体中心、金融机构等空间配套类别的信息,总数约121万条。
②线状空间数据
主要包括城市道路交通数据,包括全市轨道交通路线、一级道路、二级道路、三级道路、四级道路、红线道路等线状要素的矢量化数据。
③面状空间配套数据
根据住房租赁价格评估的数据需求,我中心还绘制了深圳市各类面状空间配套设施的面状图层,包括自然/城市公园、湖泊/水库、山、高校、中小学学区等。其中,自然/城市公园、湖泊/水库、山、高校分别绘制了对应配套的位置以及边界,中小学学区图层则反映了各个中小学校的学区空间分布。
④边界图层数据
边界图层数据主要包括行政区区划数据、法定图则确定的标准分区边界数据、地政地籍数据、4401个小区边界(包括3786个存量商品住房楼盘边界、318个统建楼楼盘边界、215个商务公寓楼盘边界、82个军产房楼盘边界)、2042个城中村私宅边界、4500个包含配套宿舍的产业园区边界。
⑤其他数据
主要包括租赁市场相关的专题类数据,如规模以上工业企业数据、空间分辨率为500米的全市卫星空天地一体化遥感影像数据、空间分辨率为30米的全市数字高程模型数据等。
(二)特征属性数据
特征属性数据也被称为房地产基础属性数据,是反映房地产所有权、区位、大小、用途等物理特性的数据,是影响房地产价值的重要因素之一。可以说,房地产特征数据的详细程度,将直接影响评估结果的准确性。因此,在数据收集阶段,本实施例重点收集了与房地产相关的土地属性数据、楼盘属性数据、楼栋属性数据和房屋属性数据。
(1)土地属性数据
土地是承载房地产的物质基础,是房地产价值构成的重要组成部分。土地基础属性数据包括地块编号、宗地号、土地位置、土地登记、产权状态、地块状态、土地使用权类型、土地用途、用地面积、总基地、土地使用年限、土地出让起始时间、土地出让结束时间等信息。通过对土地基础信息的了解,能够使评估人员加深对房地产价值构成的认识,准确把握房地产评估价值。
土地基础属性数据主要来自以下几方面:一是产权登记数据;二是建筑物普查数据;三是地籍测绘数据;四是补充调查数据。
(2)楼盘属性数据
楼盘属性数据描述了房地产楼盘相关的属性信息,是决定楼盘和楼栋品质、判断房屋价值影响因素的重要参考依据。因为房地产项目经常是以楼盘的形式统一建造的,因此,同一楼盘内的楼栋属性和房屋属性具有众多相似之处,这其中主要包括:楼盘名称、位置、绿化率、容积率、景观环境、建造年代、停车位数量、物业管理费、楼盘内及楼盘外配套设置等。另外,楼盘独有的属性信息包括楼栋总数、房屋总套数、总建筑面积、占地面积、开发商名称、开发商地址及开发商法人代表等。这些属性信息详细记录了楼盘的基本情况,是辅助评估人员了解待估房地产品质、计算待估房地产价值的数据基础。
楼盘属性信息来源广泛,主要包括产权登记数据、建筑物普查数据、补充调查数据等。
(3)楼栋属性数据
楼栋属性数据描述了房地产楼栋相关的属性信息,是房屋价值的决定性因素之一,因此,楼栋属性信息不仅要全面,而且要准确。从现有收集到的楼栋数据情况来看,楼栋属性信息主要包括楼栋编号、楼栋名称、所在分区、所在宗地号、建筑性质、建筑类型、建筑结构、建筑用途、楼栋总层数、电梯户数比、竣工日期、使用年限、基地面积、建筑面积及权利人信息等。这些属性信息从各个角度描述了楼栋的基本情况,是辅助房地产评估人员全方位了解楼栋品质、进而判断房屋品质的重要参考依据。同时,也是整体估价理论中构建楼栋内比价关系和楼栋间比价关系的数据基础。
楼栋基础属性数据林林总总包含了数十项内容,因此,其来源也十分广泛,主要包括产权登记数据、预售备案数据、建筑物普查数据、实地调查数据及其它中介机构提供的二手房属性数据。
(4)房屋属性数据
房屋属性数据描述了房地产房屋相关的属性信息。房屋是深圳市存量住房数据分类分析、特征评估与精准应用中最小也是数量最多的评估单元,其所包含的属性信息由两部分构成,分别为房屋数据和产权数据。其中,房屋数据描述了房屋自身的属性信息,是判断房屋品质、决定价值的重要因素之一,其内容主要包括房屋编号、房屋号、房屋性质、房屋类型、房屋用途、房屋结构、朝向、所在层数、所在楼栋、装修情况、建筑面积和使用面积等。产权数据记录了房屋的权属信息,主要内容包括产权证号、产权登记时间、产权转移类型、产权状态、产权人户籍、产权人编码、产权人份额等信息。
房屋基础属性数据所包含的内容种类繁多,为保证这些数据的准确性和完整性,本实施例从多个渠道收集房地产房屋属性数据,主要有产权登记数据、预售备案数据、建筑物普查数据、实地调查数据及其它中介机构提供的二手房属性数据等。
(三)租赁价格数据
租赁价格数据是构建深圳市租赁价格整体批量评估系统的基础,作为重要的参考依据,其数据的质量、结构和属性都将直接影响评估结果的准确性和一致性。因此,在数据收集阶段,我们主要收集的租赁价格数据包括实际租赁办备案租赁价格数据、中介租赁价格数据、挂牌租赁价格数据和评估租赁价格数据。每种数据都有其自身属性、结构,因此需要采用不同的技术对其进行必要的筛选和管理,使其在不同的评估方法或不同的评估阶段发挥出应有作用。
(1)租赁办备案租赁价格数据
①备案租赁价格生成机制
根据《深圳市经济特区房屋租赁管理条例》第十三条:出租房屋办理房屋租赁合同登记的,出租人应当按月租赁价格的百分之二,向区主管机关缴纳房屋租赁管理费。出租房屋办理备案手续的,出租人应当按月租赁价格的百分之三向区主管机关缴纳房屋租赁管理费。
每个租赁价格备案人的目的各不相同,一部分是为了获取学位,一部分为了公司注册需要,还有一部分是公司要求必须进行租赁登记。无论目的是什么,一旦进行租赁登记就会按照规定缴纳一定的管理费用。这就导致一部分承租人私下同出租人进行协商,降低登记的租赁价格,以减少每月缴纳的房屋租赁管理费。
因此,这就造成了,尽管的确存在备案租赁价格不准确的现象,但备案租赁价格整体结构是基本合理的,即在市场租赁价格高的地方备案租赁价格也相对较高,在市场租赁价格低的地方备案租赁价格也相对较低。
②数据结构
本次评估所使用的租赁价格数据(从2010年1月到2021年12月)主要来源于“深圳市房屋租赁管理办公室”及“深圳市流动人口和出租屋综合管理办公室”,共收集到已登记房地产租赁价格数据共计128.4万条,其中,有效数据即租赁价格大于每平方米1元为125.2万条。
备案租赁价格的主要字段有合同号、出租方类型、出租方、面积、租赁价格、承租方类型、承租方、出租房屋用途、审批时间、合同地址、房屋编码。其中房屋编码同中心的建筑物普查编码进行比对查询的唯一字段。
合同号、出租方类型、出租方、承租方类型、承租方、出租房屋用途、审批时间,均为深圳市房屋租赁管理办公室的登记类信息。合同地址、房屋编码、面积、租赁价格则为最重要的租赁价格信息。
③属性特点
租赁办备案租赁价格数据具有以下属性特点:
第一,被动性。该数据只能由承租人进行租赁登记,相关部门不能主动进行租赁登记,鉴于此种原因,该数据的生成方式具有明显的被动性。
第二,失真性。该数据是由承租人登记获取的,但出于上文所述的诸多原因,为了规避高额的租赁管理费,承租人在登记时往往会刻意降低租赁价格数额,从而造成一定的失真性。
第三,结构合理性。尽管租赁办备案租赁价格存在一定失真性,但从实践结果看,在市场租赁价格高的地方备案租赁价格相对较高,在市场租赁价格低的地方备案租赁价格相对较低, 其整体结构具有一定的合理性。
第四,全面性。租赁办备案租赁价格数据包括了全市范围内绝大部分发生租赁行为的交易金额,因此涵盖相当广的范围。
④使用依据
虽然租赁办备案租赁价格数据存在一定的失真性,但考虑到其结构的合理性以及其官方数据的法律效力,本实施例仍然予以采用。
(2)中介租赁价格数据
①中介租赁价格生成机制
中介租赁价格的数据资料主要来源于深圳市几大房屋中介机构,房屋中介机构将真实市场中成交的租赁价格情况进行实时记录。
②数据结构
从中介获取到的中介租赁价格,需要录入到基础数据库中,并建立中介租赁价格数据表,共计8.5万条。其主要字段包括项目名称、行政区、片区、总租赁价格、房屋建筑面积、房屋建筑年代、装修程度、物业管理费用、居室类型等。中介租赁价格数据表的主键为项目名称。行政区、片区表示项目分布的位置。房屋建筑面积、房屋建筑年代、居室类型等其他中介数据可以用于与评估中心建造普查数据库进行比对查询。
③属性特点
中介租赁价格数据具有以下属性特点:
第一公允性。由于中介租赁价格数据直接来源于真实市场交易,因此能够在最大程度上反映出真实市场的租赁价格水平,与其他来源的租赁价格数据相比,其具有明显的公允性。
第二实时性。由于中介租赁价格数据是将最新发生的市场交易案例的租赁价格进行有效记录,因此其数据的滞后时间较短,实时性较为显著。
第三主动性。由于中介租赁价格数据来源较为广泛,具有针对特定小区租赁价格情况进行连续记录获取的条件,因此其主动性较强。
④使用依据
中介租赁价格是真实交易的实际数据,时效性和真实性是其他来源数据中最优的,因此,选用中介租赁价格对于提高评估结果的准确性是极为重要的。
(3)挂牌租赁价格数据
①挂牌租赁价格生成机制
挂牌租赁价格的资料来源主要于互联网,一般是在搜房网、安居客等国内知名的房地产网站搜索相关楼盘挂牌租赁价格,对结果差异不大的租赁价格调查数据进行记录、归档。
②数据结构
对于吊牌租赁价格资料的记录内容主要包括:所出租住房的项目名称、项目别名、所在片区、所在行政区、户型、装修程度、建筑年代、总租赁价格、建筑面积以及物业管理费等。
③属性特点
第一,易采集性。由于数据的采集可以轻易的通过互联网来完成,操作相对简单快捷,节约了大量的人力成本、财力成本和时间成本。
第二,粗略性。由于挂牌租赁价格不会确定地对应到具体某一套房产,因此其租赁价格具有一定的粗略性,在利用过程中存在一定局限,无法直接进入评估模型进行房地产批量评估。
第三,非有效性。通过计算我们发现,挂牌租赁价格的均值水平处于合理范围,但由于个体租赁价格差异有相对较大,造成其方差值较大。
④使用依据
虽然挂牌租赁价格具有非有效性,但我们如果整体使用该数据的话,就会凭借其均值合理性,不会造成系统性偏误。
(4)个案评估租赁价格数据
①个案评估租赁价格生成机制
个案评估租赁价格数据是指房地产权利人为某种目的,委托专业房地产评估机构评估其房地产的租赁价值所得到的租赁价格。个案评估方法根据房地产类型的不同或估价目的的不同而不同,以市场比较法和收益法居多。
②数据结构
个案评估数据(在本实施例中也称作摘要数据)来自不同的专业评估机构,评估租赁价格具有较高的可信度,因此具有较高的参考价值。个案评估数据内容主要包括估价目的、项目名称、房产证号、估价方、估价时点、作业起始日期、报告编号、价值定义、估价方法、租赁价值、评估收费、估价对象建筑面积、估价报告有效期以及录入时间等。
③属性特点
可信性。由于个案评估数据是由专业机构评估提供的,且针对性较强,因此,其具有较高的可信度。
针对性。由于个案评估数据是房地产权利人委托专业房地产评估机构评估其房地产的租赁价值所得到的租赁价格。因此其结果只针对该指定房产才具有价值,不具有普适性。
公允性。该租赁价格是由专业机构依据市场公允租赁价格测算出来的租赁价格数据,因此其结果具有一定的公允性。
④使用依据
个案评估数据由于其针对性较强,相对信息较为全面,加之是由专业评估机构提供的,因此,数据具有极高的可信度。作为评估依据,其参考价值十分突出。
(5)市场租赁价格调查数据
市场租赁价格调查数据是基于批量评估深圳市租赁价格的目的,本实施例对深圳市典型片区中的典型小区采取抽样调查的租赁价格数据。本次住房调查的时间段是2020月1月到2021年12月,对深圳市全市4802个小区、2042个城中村私宅、4500个产业园区的租赁价格进行了调查。
①数据调查结果
在2020年1月到2021年12月间,共安排超过200批次的租赁价格调查任务。一组调查人员一般为2-4人,出发之前设计具体调查线路及所要调查的楼盘。分别对深圳市罗湖区、福田区、南山区和宝安区行政区的部分小区住房租赁价格进行详细调查。
当天所调查的租赁价格信息,安排专人负责核查。一般是在链家网、搜房网、安居客等国内知名的房地产网站搜索相关楼盘挂牌租赁价格,对结果差异不大的租赁价格调查数据进行记录、归档。
调查内容主要包括对所出租住房的项目名称、项目别名、所在片区、所在行政区、户型、装修程度、建筑年代、总租赁价格、建筑面积以及物业管理费等内容进行记录。表1中所示是部分调查结果:
表1 部分租赁价格调查结果表
项目名称 | 行政区 | 片区 | 总租赁价格 | 建筑面积 | 建筑年代 | 装修 | 物管费 | 居室 |
TT国际公寓 | 福田 | 景田 | 3000 | 45 | 2006 | 简单 | 2.8 | 1居 |
翠馨居 | 福田 | 八卦岭 | 2400 | 60 | 2002 | 简单 | 2.5 | 2居 |
白金假日公寓 | 宝安 | 宝安中心区 | 2800 | 60 | 2003 | 豪华 | 2.5 | 2居 |
百分百公寓 | 南山 | 南头 | 3800 | 60 | 2003 | 简单 | 2.8 | 2居 |
②数据结构
本实施例的住房租赁价格调查一共获得约33万条租赁价格信息,其中14万条商品住房小区的租赁价格信息,我们大致将租赁价格归为一居室租赁价格、二居室租赁价格和三居室租赁价格两类,其中一居室租赁价格3.3万条,二居室租赁价格5.2万条,三居室租赁价格5.8万条;统建楼租赁价格5544条;商务公寓租赁价格6401条;军产房租赁价格1612条;城中村私宅租赁价格16.5万条;产业园区配套宿舍租赁价格8106条。
在基础数据库中,建立租赁价格调查数据表,主要字段包括项目名称、行政区、片区、总租赁价格、调查建筑面积、调查建筑年代、装修程度、物业管理费用、居室类型等。租赁价格调查数据表的主键为项目名称。行政区、片区表示项目分布的位置,调查建筑面积、调查建筑年代、居室类型为调查得到的数据可以同评估中心建造普查数据库进行比对查询。
③属性特点
i.公允性
由于调查租赁价格直接来源于市场真实调查,能够在很大程度上反映某些具体楼盘的租赁价格水平。相对于其他来源租赁价格如挂牌租赁价格或者备案租赁价格具有较高的公允性。
ii.实时性
当调查人调查市场租赁价格时,调查租赁价格反映了调查时间的市场租赁价格,滞后时间短,实时性较为显著。
iii.主动性
调查人员按照自己需求调查目标小区,由调查人员主动地进行相关小区的租赁价格调查,相对于备案租赁价格来说,主动性较强。
(六)其他数据
(1)基准房价数据
基准房价就是依据房地产整体估价模型的基本思想,先对住房房地产进行类别划分,将在物业内涵、供求关系、市场表现以及影响因素等方面各异的房地产区分开来,然后有针对性地采用一定方法与手段,划分类似房地产集合,构建比价关系体系,选用适当的评估方法评估各类住房所得到的房地产价值。数据主要包括以下字段,房屋编号、标准分区编号、行政区、项目名称、楼栋名称、房号、建筑面积、基准房价、评估时间、楼栋编号、楼层号、房屋法定用途、房屋实际用途等等。
(2)物业管理费
物业管理费是反映房地产等级的重要参考指标,本实施例主要通过网络或实地调查方式获得此类数据。在本次评估中,物业管理费主要被用来作为非住房房地产等级划分参数。
(3)维修费
维修费也是反映房地产品质的重要参考指标,本实施亦通过网络或实地调查方式获得。在本次评估中,物业管理费主要被用来辅助判断非住房房地产等级。
(4)空置率数据
在本次评估中,空置率是计算评估对象有效毛收入和有效毛收入乘数的重要参数数据。该数据的来源有两种方式,一是来源于房地产统计年鉴数据,二是来源于实地调研。
优选地,对所述空天地一体化遥感影像数据进行预处理的步骤具体包括:
对所述空天地一体化遥感影像数据进行图像预处理和数据增强,并将处理后的数据划分为训练集、测试集和验证集;
分别构建空间信息编码器、语义编码器、双注意力提取器和注意力特征定义器;
根据所述空间信息编码器、所述语义编码器、所述双注意力提取器和所述注意力特征定义器构建深度空间注意力网络,并根据所述训练集对所述深度空间注意力网络进行训练;
分别利用所述测试集和所述验证集对所述深度空间注意力网络进行测试和验证,得到所述预处理数据集中的建筑物图像数据。
优选地,所述空间信息编码器包括三个阶段,每个阶段包含有两层浅层结构;每层所述浅层结构由卷积运算、批量归一化和参数校正线性单元组成;每个阶段的第一层和第二层具有相同数量的过滤器和输出特征图大小;所述语义编码器包括通道分割和重划分模块和3个下采样模块;所述双注意力提取器是基于核注意力机制和点积的通道注意机制构建得到的;所述注意力特征定义器包括Projection层和上采样模块;所述注意力特征定义器的每一层均由卷积层、BN层和PReLU组成。
本实施例中首先构建了空间信息编码器,能够有效地结合高层语义和底层细节,提高了语义分割的性能。本实施例设计了具有三个阶段共6层的浅层SIEN,其中每层由卷积运算(Conv)、批量归一化(BN)和参数校正线性单元(PReLU)组成。每个阶段的第一层和第二层具有相同数量的过滤器(步长为2)和输出特征图大小。因此,SIEN提取了原始输入的1/8,提高了信道容量,丰富了空间细节。
本实施例中其次构建语义编码器,通过应用5个下采样来设置输入图像分辨率的比率,最终输出的大小仅为输入图像大小的1/32,这可能导致空间细节的显著损失。SEN基于通道分割和重划分模块FDSS_nbt模块并应用3个下采样(输出分辨率仅为原始图像分辨率的1/8,具有32、64和128个通道)。在第3阶段和第4阶段,引入特殊卷积以增加感受野。
本实施例再次构建了双注意力提取器,在影像的空间维度方面,设计了一种基于核注意力机制(KAM)。在通道维度上,使用基于点积的通道注意机制(CAM),输入通道C的数量通常远小于特征图中包含的像素数量,多个通道的Softmax函数的复杂度不高。双注意块(DAM)组合了使用模拟位置依赖性的KAM和模拟通道依赖性的CAM,可以增强每一层特征图的提取特征对目标的辨识能力。
本实施例最后构建了注意力特征定义器,具体包含Projection层和上采样,每一层都由卷积层、BN层和PReLU组成。设置输入通道数等于步骤3.3中的双注意力提取器DAM的输出通道数,设置输出通道数为以下公式:
;
其中,表示DAM的输出通道数,/>表示第三层的融合卷积,/>表示为建筑物的数量。
优选地,对所述城市道路数据和所述城市交通数据进行预处理的步骤包括:
分别对所述城市道路数据、所述城市交通数据和所述点状POI数据进行预处理,得到各个二值化文本图片及其多叉树结构化数据;
对所述二值化文本图片及其多叉树结构化数据中的文字进行识别得到目标信息;
对所述目标信息中的数据进行数据精化及其归一化,得到所述预处理数据集中的城市环境数据。
优选地,分别对所述城市道路数据、所述城市交通数据和所述点状POI数据进行预处理,得到各个二值化文本图片及其多叉树结构化数据,包括:
将所述目标文本数据进行灰度处理,得到目标文本数据灰度图;
利用灰度值去噪模型对所述目标文本数据灰度图进行去噪,得到去噪后的目标文本数据;所述灰度值去噪模型的公式为:
;
其中,表示去噪后的目标文本数据,/>表示在目标文本数据灰度图上位置处的灰度值,/>表示在目标文本数据灰度图上/>位置处的灰度值,表示在目标文本数据灰度图上/>位置处的灰度值,/>表示在目标文本数据灰度图上/>位置处的灰度值,/>表示在目标文本数据灰度图上位置处的灰度值,/>表示可调因子;
将所述去噪后的目标文本数据进行分割,得到文字区域灰度图和背景区域灰度图;
对所述文字区域灰度图进行二值化处理,得到二值化文本图片及其多叉树结构化数据。
本实施例通过利用灰度值去噪模型对图像进行平滑去噪处理,可以在尽量保留图像原有信息的情况下,过滤掉图像内部的噪声,使图像更加清晰,便于文字的识别。
优选地,将所述去噪后的目标文本数据进行分割,得到文字区域灰度图和背景区域灰度图,包括:
采用预设的灰度值将去噪后的目标文本数据分为两组;
计算两组图像中的平均灰度值得到第一组平均灰度值和第二组平均灰度值;
不断调节预设的灰度值使得第一组平均灰度值和第二组平均灰度值差异值最大;
将所述平均灰度值差异值最大的相应灰度值作为分割值,并利用所述分割值对所述去噪后的目标文本数据进行分割得到文字区域灰度图和背景区域灰度图。
优选地,所述第一组平均灰度值和第二组平均灰度值的差异计算公式为:
其中,表示差异值,P 1表示第一组图像上的像素点个数,N表示去噪后的目标文本数据上总的像素点个数,P 2表示第二组图像上的像素点个数,/>表示第一组平均灰度值,/>表示第二组平均灰度值,/>表示目标文本数据总的灰度均值。/>
具体的,本实施例基于直方图的思想对图像进行分割,可以根据图像灰度值分布的概率从整体上得到最优的灰度值分割值,利用该灰度值分割值对图像进行分割可以将背景区域灰度图连同噪声一起剥离出来,使得文字区域的轮廓和纹理更加清晰。
可选地,本实施例中所涉及的数据来源广泛、种类繁多、格式不一,因此,难以直接使用。为了在评估过程中有效地应用这些数据,需要采用一定的方法和技术手段对数据进行相应的管理,以满足批量数据分类分析、特征评估与精准应用的需要。本节将依次按照数据运用过程中各关键环节的不同要求,分别构建出相应的数据管理标准。
租赁价格评估会使用到大量的时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据及其它相关数据。由于这些数据的来源及格式均有所不同,且数据质量也可能参差不齐,甚至有时即使是同一种数据也会出现由于各自所遵循的标准或规范的不同而给实际应用带来麻烦,因此为规范租赁价格评估过程中所使用的各种数据,保障租赁价格评估结果的准确性和完整性,有必要结合各种数据自身以及数据之间的转换规则来制定相应的数据规范。
从总体上来看,制定数据规范可以起到如下作用:一是有利于数据的采集、整理、分析和存储,进而提高工作效率;二是有利于控制数据质量,进而保障数据使用结果;三是有利于不同格式数据之间的转换,进而提高数据使用灵活性;四是有利于基础数据与空间数据之间的关联,进而最大限度地发挥数据价值;五是有利于数据的长期维护和更新,进而提高数据维护效率和降低维护成本;最后是有利于提高租赁价格评估结果的准确性和完整性。
(1)时空强关联多级行政区位综合治理数据标准
前已述及,房地产特征数据是用来描述房地产的自然特征数据和权属特征数据的总和,因此可从基础物理数据和基础权属数据两方面入手来分别制定相应的数据规范。
①自然环境数据标准
基础物理数据主要包括房屋信息、楼栋信息、楼盘信息以及土地信息等,其记录着房地产自身的相关物理属性信息,在租赁价格评估中占据十分重要的地位。本实施例结合房地产的实际特点及租赁价格评估的工作需要,对基础物理数据的名称、类型、取值范围等制定了相应规范。这些基础物理数据规范包括房屋信息规范、楼栋信息规范、楼盘信息规范和土地信息规范。由于篇幅所限,在此不对具体规范详细列举。
②建筑物数据标准
基础权属数据是房地产特征数据的另一个组成部分,其主要用于记录房地产的相关权属关系,如房屋权利人编号、权利人性质、土地权属来源等。根据这些权属关系,租赁价格评估人员就能够准确掌握房地产的“来龙去脉”,进而有助于提高租赁价格评估结果的准确性。正是由于基础权属数据具有如此重要性,则更需要对其制定相应的数据规范。由于篇幅所限,在此不对具体规范详细列举。
(2)特征属性数据标准
与属性数据相对应的是空间数据,它是租赁价格评估中必不可少的组成部分。本实施例所使用的房地产空间数据类别繁多,如从数据格式来看可分为矢量数据和栅格数据,从承载介质来看可分为电子数据和纸质数据,而从数据来源来看则又可分为原始积累、相关单位共享及购买等。房地产空间数据的这种复杂性使其在应用过程中产生诸多不便,因此必须通过制定相关空间数据规范以来统一使用这些数据。本实施例在制定房地产空间数据规范的过程中,参考了大量的国家相关标准,并充分结合了深圳市房地产的实际特点,以求最大程度地保障所采集到的空间数据真实可靠。这里根据租赁价格评估的实际需要以及数据内容及类型的不同,将房地产空间数据分为土地及地形图数据和建筑物数据两个类别,并相应制定相关数据规范。
①物理属性数据标准
土地是承载房地产的物质基础,其对租赁价格评估具有重要意义。深圳市土地空间数据是以宗地为基本单元,通过每一块宗地的边界坐标来反映出土地位置、形状及空间关系等信息。
地形图数据则记录了全市地表上的居民地、道路、水系、境界、土质、植被等基本地理要素,且在覆盖范围上涵盖了全市域。由于地形图数据带有地形、地势等信息,因此租赁价格评估人员可以通过其直观的了解房地产所在区域的地形地势,并借助空间分析工具来自动获取房地产所在区域的地形特征,以用于分析其对房地产租赁价格的影响。
为能够统一、无障碍的使用土地空间数据及地形图数据,提高租赁价格评估成效,本实施例对土地空间数据及地形图数据制定了相应的规范。一方面,本实施例依据土地的自然属性、覆盖特点、利用方式、土地用途、经营特点及管理特征等因素对土地利用类型、编码及含义进行规范说明。另一方面,本实施例所使用的地形图数据统一采用高斯-克吕格投影方法,坐标系统一采用独立坐标系。
②权利属性数据标准
一般来说,房地产的价值是由其内因和外因共同决定的,其中内因是指房地产本身的基础物理信息,而外因则是指房地产的空间信息。房地产空间信息来源于建筑物空间数据,而建筑物空间数据则来源于建筑物普查以及每年的动态更新数据。针对这类数据,本实施例分别从基底图选用、建筑物分类及编码、建筑物空间信息三个角度出发制定了相关规范标准,以便于统一使用。
建筑物基底图选用的是现有的深圳市1:1000地形图,其几何特征为面状,且面与面之间具有拓扑关系,而组成建筑物基底图形的多边形角点的定位精度则均在正负1米之内。
建筑物分类及编码参照的是现有编码标准,其中:建筑物分类是依据建筑物的功能采用大、中、小三层分类体系,且大类分为居住、商业、公共配套、工业、仓储、交通、市政建设及特殊建筑;建筑物编码则按五级19位进行编码,依次是6位市辖区码、3位街道办事处顺序码、3位社区顺序码、2位空间基础网格顺序码和5位建筑物顺序码。
在租赁价格评估过程中,使用最多的空间信息是建筑物空间信息。本实施例在制定建筑物属性信息标准的基础上,对建筑物空间信息制定了相关规范,具体见表2所示。
表2 建筑物属性信息标准表
属性名称 | 说明/取值规范 |
建筑物名称 | 指建筑物当前使用的名称。对于小区内部建筑,先写小区名称后写该建筑物名称。对于大型市政设施,先写大型设施名称后写具体的建筑名称。 |
地址 | 指公安部门编制的建筑物门牌地址或其他现状、登记门牌地址。 |
结构类型 | 建筑物结构类型可分为:钢结构、混合结构、框架结构、框架剪力墙体系、简体建构和其他结构。 |
使用期限 | 根据建筑物的报建、产权等审批情况,以及建筑结构情况,将建筑物分为永久建筑和临时建筑。 |
建筑层数 | 指层高大于2.2米的楼板结构分层层数。 |
建筑高度 | 指自建筑物散水外缘处的室外地坪至建筑物最高部分的垂直高度。 |
停车位数 | 指建筑物附属的停车位个数,包括地上停车位和地下停车位。 |
基底面积 | 指建筑物接触地面的自然层建筑外墙或结构外围水平投影面积。 |
总建筑面积 | 指建筑物地面以上及地面以下各层建筑面积之总和。 |
建造年代 | 指建筑物的建造时间,有竣工时间的以竣工时间为准,无竣工时间的可按历年的空天地一体化遥感影像对照判断。 |
主要用途 | 一般以建筑物的设计审批用途为准。 |
(3)房地产数据标准
房地产租赁价格数据是贯穿于整个租赁价格评估过程的核心数据之一,其质量高低将直接影响到评估结果的准确与否。租赁价格评估使用到实际成交租赁价格、租赁价格、挂牌租赁价格、个案评估租赁价格等多种房地产租赁价格数据,由于这些数据的来源各不相同,其所遵循的标准、规范及数据格式等也存在较大差异,因此不能直接使用。为有效利用房地产价格数据,充分发挥其应有的使用价值,需将这些数据按照统一的标准规范起来,具体见表3所示。
表3 房地产租赁价格数据规范表
价格属性 | 规范 |
租赁价格币种 | 统一采用“人民币”作为价格表示和计算的币种。 |
租赁价格单位 | 交易数据:交易总价单位为“元”,单价为“元/平方米”。 |
租赁数据:租赁价格总价单位为“元/月”,单价为“元/月*平方米”。 | |
挂牌数据:挂牌总价单位为“万元”,单价为“元/平方米”。 | |
个案评估数据:评估价值单位为“万元”。 | |
租赁价格精度 | 以“万元”表示时:精确到小数点后两位。 |
以“元”表示时:精确到个位。 | |
面积性质 | 在计算单价时,面积指的是“建筑面积”。 |
租赁价格数据时间 | 时间要精确到“天”,采用“YYYY-MM-DD”的格式进行表示和存储。 |
本实施例中还提供了一种数据字典的设计,在房地产价格数据工程构建当中,需搜集丰富的数据以供使用。这里所涉及的数据不仅类型多样,数据来源也相当不同,这就带来数据格式、数据取值、数据质量等方面,尤其是关键属性数据方面的取值及其类型没有一个统一的标准。为便于能充分利用这些数据,有必要对关键属性数据的预处理,而在关键属性数据的预处理过程中,应当有一套指导标准化处理的方案设计,其中最重要的是应当建立一套这些关键属性的字典,为数据的共享、交换以及未来可拓展提供可能。
在字典设计中,主要考虑三项内容:一是确定字典的名称项;二是设计字典名称项的代码;三是要考虑字典名称项来源的权威性、合理性以及未来可扩展性。字典名称项的确定参考现有房地产行业有关标准,同时综合考虑存量住房评估中涉及的属性取值项而定。字典名称项的代码采用多级分类的数字编码。
存量住房数据分类分析、特征评估与精准应用涉及的基本对象包括土地、楼栋、房屋。就土地对象来说,主要有土地用途、土地等级、土地类别方面的字典设计。就楼栋对象而言,主要有建筑结构、建筑类型、实际用途、法定用途等的字典设计。就房屋对象而言,主要有朝向、采光、景观、装修程度、房屋类型等的字典设计。鉴于篇幅原因,此处只列举建筑类型字典表,如表4所示。
表4 建筑类型字典表
编码 | 类型 | 说明 |
1 | 低层 | 1-3层 |
2 | 多层 | 4-7层 |
3 | 小高层 | 8-12层 |
4 | 高层 | 13-30层 |
5 | 超高层 | >30层 |
进一步地,本实施例中的数据标准化可采用的方法为:Min-max标准化或z-score标准化。
本发明的有益效果如下:
本发明通过异构特征多源批量数据的提取,提高获取数据的完整程度,并根据预设标准规范对异构特征多源批量数据进行数据格式的统一,从而提高对数据进行批量、统一地处理、分析和存储的效率,以满足数据分类分析、特征评估与精准应用的需要。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种时空数据库批量构建方法,其特征在于,包括:
对研究区进行异构特征多源批量数据提取,得到时空强关联多级行政区位综合治理数据、特征属性数据、租赁价格数据和其他相关数据;
对所述时空强关联多级行政区位综合治理数据、所述特征属性数据、所述租赁价格数据和所述其他相关数据进行数据预处理,得到预处理数据集;
根据预设标准规范和所述预处理数据集中的数据进行标准制定,得到数据标准;
根据数据标准对所述预处理数据集进行数据标准化处理,得到标准数据集;
根据所述标准数据集构建时空数据库。
2.根据权利要求1所述的时空数据库批量构建方法,其特征在于,所述时空强关联多级行政区位综合治理数据包括空天地一体化遥感影像数据、三维几何重构物业数据、建筑物普查数据、土地空间数据、标准分区数据、多级行政区划数据、城市道路数据、城市交通数据、点状POI数据、线状空间数据、面状空间配套数据、边界图层数据和其他数据;所述特征属性数据包括:土地属性数据、楼盘属性数据、楼栋属性数据和房屋属性数据。
3.根据权利要求2所述的时空数据库批量构建方法,其特征在于,对所述空天地一体化遥感影像数据进行预处理的步骤具体包括:
对所述空天地一体化遥感影像数据进行图像预处理和数据增强,并将处理后的数据划分为训练集、测试集和验证集;
分别构建空间信息编码器、语义编码器、双注意力提取器和注意力特征定义器;
根据所述空间信息编码器、所述语义编码器、所述双注意力提取器和所述注意力特征定义器构建深度空间注意力网络,并根据所述训练集对所述深度空间注意力网络进行训练;
分别利用所述测试集和所述验证集对所述深度空间注意力网络进行测试和验证,得到所述预处理数据集中的建筑物图像数据。
4.根据权利要求3所述的时空数据库批量构建方法,其特征在于,所述空间信息编码器包括三个阶段,每个阶段包含有两层浅层结构;每层所述浅层结构由卷积运算、批量归一化和参数校正线性单元组成;每个阶段的第一层和第二层具有相同数量的过滤器和输出特征图大小;所述语义编码器包括通道分割和重划分模块和3个下采样模块;所述双注意力提取器是基于核注意力机制和点积的通道注意机制构建得到的;所述注意力特征定义器包括Projection层和上采样模块;所述注意力特征定义器的每一层均由卷积层、BN层和PReLU组成。
5.根据权利要求2所述的时空数据库批量构建方法,其特征在于,对所述城市道路数据和所述城市交通数据进行预处理的步骤包括:
分别对所述城市道路数据、所述城市交通数据和所述点状POI数据进行预处理,得到各个二值化文本图片及其多叉树结构化数据;
对所述二值化文本图片及其多叉树结构化数据中的文字进行识别得到目标信息;
对所述目标信息中的数据进行数据精化及其归一化,得到所述预处理数据集中的城市环境数据。
6.根据权利要求5所述的时空数据库批量构建方法,其特征在于,分别对所述城市道路数据、所述城市交通数据和所述点状POI数据进行预处理,得到各个二值化文本图片及其多叉树结构化数据,包括:
将所述目标文本数据进行灰度处理,得到目标文本数据灰度图;
利用灰度值去噪模型对所述目标文本数据灰度图进行去噪,得到去噪后的目标文本数据;所述灰度值去噪模型的公式为:
;
其中,表示去噪后的目标文本数据,/>表示在目标文本数据灰度图上/>位置处的灰度值,/>表示在目标文本数据灰度图上/>位置处的灰度值,表示在目标文本数据灰度图上/>位置处的灰度值,/>表示在目标文本数据灰度图上/>位置处的灰度值,/>表示在目标文本数据灰度图上位置处的灰度值,/>表示可调因子;
将所述去噪后的目标文本数据进行分割,得到文字区域灰度图和背景区域灰度图;
对所述文字区域灰度图进行二值化处理,得到二值化文本图片及其多叉树结构化数据。
7.根据权利要求6所述的时空数据库批量构建方法,其特征在于,将所述去噪后的目标文本数据进行分割,得到文字区域灰度图和背景区域灰度图,包括:
采用预设的灰度值将去噪后的目标文本数据分为两组;
计算两组图像中的平均灰度值得到第一组平均灰度值和第二组平均灰度值;
不断调节预设的灰度值使得第一组平均灰度值和第二组平均灰度值差异值最大;
将所述平均灰度值差异值最大的相应灰度值作为分割值,并利用所述分割值对所述去噪后的目标文本数据进行分割得到文字区域灰度图和背景区域灰度图。
8.根据权利要求7所述的时空数据库批量构建方法,其特征在于,所述第一组平均灰度值和第二组平均灰度值的差异计算公式为:
其中,/>表示差异值,P 1表示第一组图像上的像素点个数,N表示去噪后的目标文本数据上总的像素点个数,P 2表示第二组图像上的像素点个数,表示第一组平均灰度值,/>表示第二组平均灰度值,/>表示目标文本数据总的灰度均值,w 1和w 2为中间参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083168.9A CN116955668A (zh) | 2023-08-28 | 2023-08-28 | 一种时空数据库批量构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083168.9A CN116955668A (zh) | 2023-08-28 | 2023-08-28 | 一种时空数据库批量构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955668A true CN116955668A (zh) | 2023-10-27 |
Family
ID=88456685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311083168.9A Pending CN116955668A (zh) | 2023-08-28 | 2023-08-28 | 一种时空数据库批量构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955668A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444293A (zh) * | 2020-04-17 | 2020-07-24 | 重庆市勘测院 | 一种多源异构安全监测数据的报表智能生成方法 |
CN111708770A (zh) * | 2020-06-17 | 2020-09-25 | 广东维正科技有限公司 | 一种多源异构存量不动产地籍数据整理系统 |
CN114864031A (zh) * | 2022-05-27 | 2022-08-05 | 湖南警察学院 | 一种基于区块链的数据治理协同方法 |
CN114925043A (zh) * | 2022-06-28 | 2022-08-19 | 北斗伏羲中科数码合肥有限公司 | 基于时空网格块数据的应用方法、装置及电子设备 |
CN116012709A (zh) * | 2023-01-06 | 2023-04-25 | 山东建筑大学 | 一种高分辨率遥感影像建筑物提取方法及系统 |
-
2023
- 2023-08-28 CN CN202311083168.9A patent/CN116955668A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444293A (zh) * | 2020-04-17 | 2020-07-24 | 重庆市勘测院 | 一种多源异构安全监测数据的报表智能生成方法 |
CN111708770A (zh) * | 2020-06-17 | 2020-09-25 | 广东维正科技有限公司 | 一种多源异构存量不动产地籍数据整理系统 |
CN114864031A (zh) * | 2022-05-27 | 2022-08-05 | 湖南警察学院 | 一种基于区块链的数据治理协同方法 |
CN114925043A (zh) * | 2022-06-28 | 2022-08-19 | 北斗伏羲中科数码合肥有限公司 | 基于时空网格块数据的应用方法、装置及电子设备 |
CN116012709A (zh) * | 2023-01-06 | 2023-04-25 | 山东建筑大学 | 一种高分辨率遥感影像建筑物提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Okabe | GIS-based Studies in the Humanities and Social Sciences | |
Ahlfeldt et al. | Impact of sports arenas on land values: Evidence from Berlin | |
Bateman et al. | Developing a methodology for benefit transfers using geographical information systems: modelling demand for woodland recreation | |
Maantay et al. | Mapping population distribution in the urban environment: The cadastral-based expert dasymetric system (CEDS) | |
WO2016150407A1 (zh) | 一种基于地址解析数据的建设用地类型快速识别方法 | |
Wu et al. | Using geometrical, textural, and contextual information of land parcels for classification of detailed urban land use | |
Guo et al. | Modifiable areal units: Problem or perception in modeling of residential location choice? | |
Qiu et al. | Spatial autoregressive model for population estimation at the census block level using LIDAR-derived building volume information | |
Yasumoto et al. | The use of a virtual city model for assessing equity in access to views | |
Belasco et al. | Using a finite mixture model of heterogeneous households to delineate housing submarkets | |
JP2003022314A (ja) | 不動産価格関数推定方法、不動産価格関数推定装置、及び不動産価格関数推定プログラム | |
Liu et al. | Estimation of residential population using high resolution satellite imagery | |
Son et al. | Factors that affect land values and the development of land value maps for strengthening policy making in Vietnam: the case study of non-agricultural land in Quang Ninh province, Vietnam | |
Zandbergen et al. | Availability and spatial distribution of affordable housing in Miami-Dade County and implications of residency restriction zones for registered sex offenders | |
CN116955668A (zh) | 一种时空数据库批量构建方法 | |
Zhang | Developing a comprehensive framework for property valuation using 3D and remote sensing techniques in China | |
Manson et al. | Parcel data for research and policy | |
Iannacchione et al. | Comparing the coverage of a household sampling frame based on mailing addresses to a frame based on field enumeration | |
Oluwadare et al. | Database creation for tenement rate collection: The role of GIS | |
Khan | Property Tax mapping and assessment using GIS: case study of rawalpindi city | |
Li et al. | Inferring storefront vacancy using mobile sensing images and computer vision approaches | |
Razzak | Location profiling in cadastre for property value intelligence | |
JP2023005135A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Kubanek et al. | Capacities of remote sensing for population estimation in urban areas | |
Nordin | The development of a GIS for an informal settlement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |