CN110990455B

CN110990455B - 大数据识别房屋性质的方法与系统

Info

Publication number: CN110990455B
Application number: CN201911200778.6A
Authority: CN
Inventors: 周菲菲; 谢素丹
Original assignee: Hangzhou Dt Dream Technology Co Ltd
Current assignee: Hangzhou Dt Dream Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-10-17
Anticipated expiration: 2039-11-29
Also published as: CN110990455A

Abstract

本发明实施例提供大数据识别房屋性质的方法与系统，以基于大数据分析预测房屋的出租情况。上述方法包括：获取户籍人口的轨迹数据；根据所述轨迹数据，获取至少一个停留轨迹集合，所述停留轨迹集合表征停留超过时间阈值的轨迹；获取每一停留轨迹集合的语义信息和空间数据；获取所述户籍人口对应的房产的空间数据和房产语义信息；根据房产语义信息获取语义信息与之相匹配的停留轨迹集合，判断所述房产的空间数据与该停留轨迹集合的空间数据之间的距离是否大于非关联阈值，若大于，则为所述房产添加标识，从而预测出房屋的出租情况。在预测出出租屋后，可有针对性得对预测出的出租屋进行核实和管控，完成出租房屋的登记和变更。

Description

大数据识别房屋性质的方法与系统

技术领域

本发明涉及数据分析与挖掘领域，特别涉及大数据识别房屋性质的方法与系统。

背景技术

随着经济的发展和城镇化速度的加快，城市的流动人口日益增加，也使得房屋租赁市场迅速扩展，但目前还没有使用大数据预测房屋出租情况的技术方案，多是通过门禁进行管理，这使得出租房屋的登记和变更很难做到及时可控。

发明内容

有鉴于此，本发明实施例提供大数据识别房屋性质的方法与系统，以基于大数据分析预测房屋的出租情况。

为实现上述目的，本发明实施例提供如下技术方案：

一种大数据识别房屋性质的方法，包括：

获取户籍人口的轨迹数据；

根据所述轨迹数据，获取至少一个停留轨迹集合，所述停留轨迹集合表征停留超过时间阈值的轨迹；

获取每一停留轨迹集合的语义信息和空间数据；

获取所述户籍人口对应的房产的空间数据和房产语义信息；

根据房产语义信息获取语义信息与之相匹配的停留轨迹集合，判断所述房产的空间数据与该停留轨迹集合的空间数据之间的距离是否大于非关联阈值，若大于，则为所述房产添加标识。

可选的，所述轨迹数据包括：按时空顺序相连的多个轨迹点的轨迹信息；所述轨迹信息包括空间数据和记录时间；所述根据所述轨迹数据，获取至少一个停留轨迹集合包括：将满足预设条件且时间间隔位于预设时间间隔范围内的两轨迹点确定为停留点；所述预设条件包括：时间上相邻；或者，位于同一空间阈值范围内；对确定的停留点进行聚类，得到M个簇；每一个簇为一个停留轨迹集合；所述获取每一停留轨迹集合的语义信息和空间数据包括：在时间和空间维度上提取每一簇的簇特征，并基于簇特征进行轨迹语义分析，得到语义种类；所述停留轨迹集合的语义信息包括语义种类；获取各簇的中心点位置和半径；其中，所述停留轨迹集合的空间数据包括簇的中心点位置，或者，包括簇的中心点位置及半径。

可选的，所述簇特征包括如下一种或任意多种：簇中各停留点至中心点的距离统计量；簇中各停留点所对应的时间间隔；簇中各停留点所对应的记录时间位于休息时段的频次；簇中各停留点所对应的记录时间位于工作时段的频次；簇的点位得分；所述点位得分是簇中所有停留点的点位得分均值。

可选的，所述轨迹信息由点位设备记录；任一停留点的点位得分包括：所述任一停留点所对应的点位设备置信度与所述任一停留点的点位置信度的乘积；所述点位置信度是根据所述任一停留点的疏密特征计算得到的。

可选的，在提取簇特征之前，还包括：对任一停留点提取疏密特征；所述疏密特征表征了所述任一停留点与周边停留点之间的疏密关系；将所述疏密特征输入分类模型，由所述分类模型输出所述任一停留点的分类结果；若所述分类结果为第一种类，为所述任一停留点分配第一置信度值；若所述分类结果为第二种类，为所述任一停留点分配第二置信度值；所述点位置信度为所述第一置信度值或第二置信度值，所述第一置信度值小于所述第二置信度值。

可选的，所述疏密特征包括如下一种或任意多种：TopN停留点的个数；所述TopN停留点包括：N个最近距离所对应的停留点；所述N个最近距离是从所述任一停留点与其他停留点间的距离中确定出的；N为正整数；所述任一停留点与所述TopN停留点间的距离均值；所述N个最近距离中的最大值和最小值；所述N个最近距离中的最大值与最小值之间的差值；所述任一停留点与所述TopN停留点间的距离标准差；所述任一停留点所在的geohash网格中所包含的停留点的个数；所述任一停留点所对应点位设备的过车记录数的量化值。

可选的，还包括：获取所述户籍人口的补充关联数据；所述补充关联数据包括血缘关系数据和婚姻关系数据；根据补充关联数据，获取所述户籍人口的补充关联成员；根据所述补充关联成员的轨迹数据，获取所述补充关联成员的停留轨迹集合；所述补充关联成员的停留轨迹集合为补充停留轨迹集合；根据所述房产语义信息获取具有语义信息与之相匹配的补充停留轨迹集合；若所述房产的空间数据与该补充停留轨迹集合的空间数据之间的距离小于所述非关联阈值，取消对所述房产的标识。

一种大数据识别房屋性质的系统，包括：

预处理单元，用于：

获取户籍人口的轨迹数据，以及所述户籍人口对应的房产的空间数据和房产语义信息；

分析单元，用于：

获取每一停留轨迹集合的语义信息和空间数据；

识别单元，用于：

可选的，所述轨迹数据包括：按时空顺序相连的多个轨迹点的轨迹信息；所述轨迹信息包括空间数据和记录时间；在所述根据所述轨迹数据，获取至少一个停留轨迹集合的方面，所述分析单元具体用于：将满足预设条件且时间间隔位于预设时间间隔范围内的两轨迹点确定为停留点；所述预设条件包括：时间上相邻；或者，位于同一空间阈值范围内；对确定的停留点进行聚类，得到M个簇；每一个簇为一个停留轨迹集合；在所述获取每一停留轨迹集合的语义信息和空间数据的方面，所述分析单元具体用于：在时间和空间维度上提取每一簇的簇特征，并基于簇特征进行轨迹语义分析，得到语义种类；所述停留轨迹集合的语义信息包括语义种类；获取各簇的中心点位置和半径；其中，所述停留轨迹集合的空间数据包括簇的中心点位置，或者，包括簇的中心点位置及半径。

一种大数据识别房屋性质的系统，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行上述的大数据识别房屋性质的方法。

可见，在本发明实施例中，会对户籍人口的轨迹数据进行分析，得到该户籍人口的停留轨迹集合和相应的语义信息，然后，根据房产语义信息获取语义信息与之相匹配的停留轨迹集合，判断二者距离是否大于非关联阈值，若大于为该房产添加标识，从而预测出房屋的出租情况。在预测出出租屋后，可有针对性得对预测出的出租屋进行核实和管控，完成出租房屋的登记和变更。

附图说明

图1a为本发明实施例提供的大数据识别房屋性质的系统的示例性结构；

图1b为本发明实施例提供的大数据识别房屋性质的方法的示例性流程；

图1c为本发明实施例提供的大数据识别房屋性质的方法的另一示例性流程；

图2为本发明实施例提供的大数据识别房屋性质的方法的又一示例性流程；

图3为本发明实施例提供的轨迹数据的示意图；

图4为本发明实施例提供的应用场景示意图；

图5为本发明实施例提供的大数据识别房屋性质的方法的又一示例性流程；

图6为本发明实施例提供的点位置信度的示例性计算流程；

图7为本发明实施例提供的聚类的示例性流程；

图8为本发明实施例提供的簇分类情况示意图。

具体实施方式

本发明实施例提供了大数据识别房屋性质的方法与系统，以基于大数据分析预测房屋的出租情况。

请参见图1a，上述大数据识别房屋性质的系统示例性包括：预处理单元1、分析单元2和识别单元3。

请参见图1b，由大数据识别房屋性质的系统所执行的大数据识别房屋性质的方法示例性得包括如下步骤：

S11:获取户籍人口的轨迹数据；

户籍人口可指已在公安户籍管理机关登记了常住户口的人，一般以身份证等唯一ID标识。

在一个示例中，可以户籍人口的唯一ID为标识符，提取出该ID在预设时段(例如半年)的历史轨迹流水数据，再对历史轨迹流水数据进行预处理(包含清洗和关联)，得到轨迹数据。

上述历史轨迹流水数据可存放在云数据平台，由云数据平台对历史轨迹流水数据进行预处理，得到轨迹数据。分析单元2可从云数据平台处获取轨迹数据。

数据清洗是后续算法和应用的基础，在本实施例中，数据清洗处理包括但不限于：字段格式规范化、记录去重、缺失值处理、异常记录剔除等，以保证数据没有重复和不完整的现象，保证数据的一致性。

在一个示例中，请参见图3，预处理后得到的轨迹数据可包括：按时空顺序相连的多个(至少两个)轨迹点p_1～p_n的轨迹信息。

轨迹信息至少可包括：空间数据和记录时间。

S12：根据上述轨迹数据，获取至少一个停留轨迹集合。

其中，任一停留轨迹集合表征停留超过时间阈值的轨迹。

需要说明的是，时间阈值可灵活设计，例如可设计为6小时、8小时等。

S13：获取每一停留轨迹集合的语义信息和空间数据。

停留轨迹集合包含至少一个轨迹点，这些轨迹点覆盖了一定的区域(例如圆形区域)。

停留轨迹集合的空间数据可包括：停留轨迹集合中轨迹点所覆盖区域的中心点位置(经纬度)和半径，或者可只包括中心点位置。

户籍人口会在停留轨迹集合所覆盖区域内进行较长时间的逗留，而人一般情况下会在工作地点或住处做较长时间的停留。

基于此，停留轨迹集合的语义信息具体可包括其所属的语义种类(住址、工作地点等)。

S14：获取该户籍人口对应房产的空间数据和房产语义信息。

在具体实现时，可获取该户籍人口名下的房产数据，房产数据可包含房产编号、地址、所有人(身份证标识)等，需要注意的是，这里的地址是类似于XX街XX小区X幢楼XX单元XX室的形式。

然后，将房屋的地址统一转换为经纬度(即空间数据)，作为后续统一计算标准。

房产语义信息具体也可为表征用途的语义种类，例如，自住或出租。

若该户籍人口名下的房产曾登记过用途，则可获取到房产语义信息，当然，也可能未登记过用途，则房产语义信息为“空”。

S15：根据房产语义信息获取语义信息与之相匹配的停留轨迹集合，判断该房产的空间数据与该停留轨迹集合的空间数据之间的距离是否大于非关联阈值，若大于，则为房产添加标识。

本发明中的标识具体指：表征用于出租的标识，其标识了房屋性质为“出租屋”；或表征该房产在有关部门的登记属性(即房产语义信息)与实际使用属性(即语义信息)不匹配。

计算距离时，可计算某停留轨迹集合的中心点位置(经纬度)与房产的空间数据之间的距离。

需要说明的是，本发明的一个目的是确定某一房屋是否用于自住还是出租，因此，语义种类为工作地点的停留轨迹集合可不参与本步骤中的分析。

在一个示例中，可设计房产语义信息“自住”与语义信息“住址”相匹配，其原因是：某人原登记为“自住”的房屋可能已作为出租屋使用，但由于各种原因未更新登记记录。将登记为“自住”的房产与语义种类为“住址”的停留轨迹集合相匹配，可确定该房产是否仍用于自住，若距离大于非关联阈值，则可能该房产已不用于自住了，可为其添加表征用于出租的标识。

此外，对于房产语义信息为“空”的情况，可设计房产语义信息为“空”时与语义信息“住址”相匹配。

在本发明其他实施例中，也可不获取房产语义信息，直接将户籍人口名下的每一房产均分别与语义种类为“住址”的停留轨迹集合计算距离，再判断计算出的距离是否大于非关联阈值，若大于，则为相应房产添加标识。

在一个示例中，非关联阈值可为固定值，例如2.4公里，本领域技术人员可根据实际情况进行灵活设定，在此不作赘述。

在另一个示例中，非关联阈值也可根据目标房屋位置所处小区的覆盖范围进行动态设定，例如，该小区覆盖半径为3公里，则非关联阈值可为3±Δ，Δ可根据实际情况进行灵活设定，在此不作赘述。

自然人一般都有人际关系，以王先生为例，其名下的一处房产，自己虽然未居住在该房产中，但其直系亲属(例如父母)可能居住其内。考虑到此类情况，在本发明其他实施例中，请参见图1c，在上述S15后，还可执行如下操作：

S16：获取该户籍人口的补充关联数据。

其中，补充关联数据可包括血缘关系数据、婚姻关系数据等人际关系数据。

S17：根据补充关联数据，获取户籍人口的补充关联成员。

户籍人员与补充关联成员之间可以是直系亲属或旁系亲属，可构成一个人员亲密圈。

可以理解的，上述补充关联成员，也可根据业务实际需要补充朋友、利害关系人等。

S18：根据补充关联成员的轨迹数据，获取补充关联成员的停留轨迹集合。

轨迹数据与停留轨迹集合可参见前述的介绍，在此不作赘述。

为方便称呼，可将补充关联成员的停留轨迹集合为补充停留轨迹集合。

S19：根据房产语义信息获取具有语义信息与之相匹配的补充停留轨迹集合。

与前述类似，可设计房产语义信息“自住”与语义信息“住址”相匹配。此外，对于房产语义信息为“空”的情况，可设计房产语义信息为“空”时与语义信息“住址”相匹配。

S20：若房产的空间数据与补充停留轨迹集合的空间数据之间的距离小于非关联阈值，则取消对房产的标识。

在本发明其他实施例中，也可不获取房产语义信息，直接将户籍人口名下的每一房产均分别与语义种类为“住址”的补充停留轨迹集合计算距离，若存在距离小于非关联阈值的情况，则取消对房产的标识。

举例来讲，假定王先生名下有一套房产，经步骤S11-S15后，为该房产添加了表征用于出租的标识。

王先生的直系亲属包括妻子和女儿，假定将其妻子的停留轨迹集合与该房产的空间数据计算距离后，计算出的距离小于非关联阈值，这表明其妻子在该处房产中居住，则可取消添加了的标识。

取消后，即使其他直系亲属的停留轨迹集合与该房产的空间数据的距离大于非关联阈值，也不再添加。

本实施例考虑了现实中人员居住复杂关系问题，得出的预测结果会相对更贴近现实。

下面进行更详细的介绍。需要说明的是，下面介绍的实施例基于房产语义信息空缺或已提前确定的情况，因此实例不再单独获取房产语义信息。

请参见图2，由大数据识别房屋性质的系统所执行的大数据识别房屋性质的方法示例性得包括如下步骤：

S21：根据自然人之间的血缘关系数据和婚姻关系数据，构建人员亲密圈。

可对某一地区(例如一个城市)内的所有居民根据其血缘关系和婚姻关系，构成人员亲密圈。

每一人员亲密圈可包括户籍人员及其补充关联成员(可统称为成员)，每一成员可用身份证号或驾驶证号等唯一标识进行表征。

在一个示例中，人员亲密圈可以某一成员的户号+行政区编号作为自身的ID，这里的户号可为户口簿的编号。

在人员亲密圈中，某一成员与其他至少一个成员之间为直系亲属关系。

直系亲属可包括直系血亲和直系姻亲，如配偶、父母、子女、祖父母(外祖父母)、孙子女(外孙子女)等。

在构建人员亲密圈时，可基于户口簿构建人员亲密圈，对于夫妻双方不同户口的情况(也即夫妻双方分别位于两个户口簿上)，可默认将妻子加入男方所在的人员亲密圈。

例如，王先生的直系亲属包括其配偶、父母、两个子女和一位祖父，其配偶与王先生不在一个户口簿中，假定王先生所对应的户口簿的户号+行政区编号为：XX0000001，则可建立ID号为XX0000001的人员亲密圈，该人员亲密圈中包括：王先生、王先生的配偶、王先生的父母、王先生的两个子女和其祖父。

S22：建立人员亲密圈对应的房产集合。

其中，房产集合包括：人员亲密圈中所有成员名下的所有房屋的空间数据(经纬度)，此外，还可包括每一处房产的编号。

在具体实现时，可获取人员亲密圈中每一成员名下的房产数据。然后，将房产数据和人员亲密圈的ID进行映射，得到人员亲密圈的房产集合，并将房屋的地址统一转换为经纬度，作为后续统一计算标准。这样，可得到人员亲密圈中所有房屋对应经纬度位置。

房产集合是人员亲密圈中各成员的自住房屋和出租屋的总集合。

步骤S21-S22可由前述的预处理单元1执行。

S23：获取人员亲密圈中各成员的轨迹数据。

前述提及了，可对历史轨迹流水数据进行预处理(包含清洗和关联)，得到轨迹数据。

在一个示例中，历史轨迹流水数据可包括车辆(机动车和非机动车)的历史轨迹流水数据，以及，移动终端的历史轨迹流水数据中的至少一种。

其中，移动终端的历史轨迹流水数据，可包括移动终端所记录的轨迹记录(例如记录时间、经纬度等)。

车辆(机动车和非机动车)的历史轨迹流水数据，其可包括由卡口监控设备(例如摄像头)、RFID(Radio Frequency Identification)设备等点位设备记录的轨迹记录。其中，RFID设备一般用于停车场出入口、门禁管制等场景下。

轨迹记录进一步可包括一个或多个表格，每一表格包括多个字段，表格之间可通过某一或某些字段相关联。

举例来讲，轨迹记录包括：表1、表2、表3、表4，其中，表1包括时间、点位设备的名称、编号、经纬度、所记录的车牌号等字段；表2为车辆登记基本信息表，包含车牌号、车主姓名、身份证号等字段；表3包括车牌号、车辆型号、颜色等字段，表4包括姓名、身份证号、年龄等字段。则表1-表4可通过车牌号、身份证号等字段相互关联。

在实际操作中，可先对表格进行关联，再进行数据清洗处理。也可先进行数据清洗处理，再关联。

S24：对成员的轨迹数据进行分析，得到至少一个停留轨迹集合以及每一停留轨迹集合的语义种类。

其中，语义种类可包括：住址或工作地点。

可由前述的分析单元2执行步骤S24。分析单元2也可称为轨迹语义信息评分系统。

S25：计算目标房屋的空间数据与各成员的目标停留轨迹集合之间的距离。

其中，目标房屋为房产集合中任一房屋，而目标停留轨迹集合包括：语义种类为住址的停留轨迹集合。

举例来讲，假定房产集合中有2个房产，分别以A和B表示，成员1的语义种类为住址的停留轨迹集合以C表示，则会计算A与C，以及B与C之间的距离。

S26：若计算得到的距离满足出租条件，为目标房屋位置添加标识。

可由前述的识别单元3执行步骤S25-S26。

在一个示例中，出租条件可包括：计算得到的距离均大于预设的非关联阈值。

也即，若人员亲密圈中的所有户籍人口的目标停留轨迹集合与某房屋位置的距离均大于该非关联阈值，则表明没有户籍人口在该房屋中居住，该房屋疑似为出租屋。

对某一地区内的每一人员亲密圈均进行S22-S26的操作，可得到该地区的出租屋列表，实现了对房屋出租情况的预测。

可见，在本发明实施例中，以构造的人员亲密圈作为基础，并建立与之对应的房产集合。对人员亲密圈中成员的轨迹数据进行分析，得到每个成员的停留轨迹集合和相应的语义种类(住址或工作地点)。最后计算房产集合中的房屋与各成员的语义种类为住址的停留轨迹集合的距离，根据距离确定出出租屋，从而预测出房屋的出租情况。在预测出出租屋后，可有针对性得对预测出的出租屋进行核实和管控。

上述大数据识别房屋性质的系统中的各模块可以软件或组件的形式部署于同一服务器(例如出租屋识别服务器)上，或者，上述大数据识别房屋性质的系统所包含的各模块可分别为独立的服务器。

图4示出了上述大数据识别房屋性质的系统的一种示例性应用场景：预处理单元(构建服务器)根据自然人之间的血缘关系和婚姻关系，构建人员亲密圈，并基于人员亲密圈建立房产集合；分析单元(分析服务器)可从云数据平台处获取轨迹数据进行分析，得到人员亲密圈中每一成员的停留轨迹集合和语义种类，云数据平台则负责将从点位设备处获得的轨迹记录进行预处理，得到轨迹数据；识别单元(识别服务器)则基于停留轨迹集合和语义种类预测房屋出租情况，输出出租屋名单，在预测出出租屋后，以备后续进行核实和管控。

下面重点介绍如何对轨迹数据进行分析，得到至少一个停留轨迹集合以及每一停留轨迹集合的语义种类。

如未经特别说明，以下所有实施例都是针对某成员进行描述的。

请参见图5，由大数据识别房屋性质的系统所执行的大数据识别房屋性质的方法示例性得包括如下步骤：

S51-S53与前述的S21-S23相同，在此不作赘述。

S54：将满足预设条件且时间间隔位于预设时间间隔范围内的两轨迹点确定为停留点(Stop point)。

预设时间间隔范围示例性得可为：6-24小时，本领域技术人员可根据需要灵活设计预设时间间隔范围，在此不作赘述。

上述预设条件可包括时间上相邻；或者，位于同一空间阈值范围内。

在一个示例中，对于车辆轨迹点，可将时间上相邻且时间间隔位于预设时间间隔范围内的两轨迹点确定为停留点。

每一停留点实际上就是一个轨迹点，可为每一停留点记录时间间隔。

仍请参见图3，假定p₁、p₂这两个相邻的轨迹点间的时间差为8小时，位于6-24小时之内，则将p₁、p₂这两个相邻的轨迹点确定为停留点，此外，记录p₁的时间间隔为8小时，p₂记录的时间间隔为8小时。

在本示例中主要基于时间获取停留点。停留点表明车辆(车主)在此停留，而非简单路过。

在本发明其他实施例中，还可统计每一(车辆)停留点所对应的点位设备的单个人过车记录频数，根据阈值进行异常数据筛选。

假定阈值设定为A，某人员亲密圈中的成员a在p₁所对应的点位设备的过车记录频数为B，若B小于A，则p₁很大概率为偶然停留的异常点，可对其进行删除。

而对于移动设备的轨迹点，可将位于同一空间阈值范围内且时间间隔位于预设时间间隔范围内的两轨迹点确定为停留点。

空间阈值范围可以半径来表示，半径长度可灵活设计，示例性的可为1公里，0.5公里等。

以0.5公里为例，对于轨迹点p₁，可以轨迹点p₁为圆心，画半径0.5公里的圆。假定除轨迹点p₁外，还有20个轨迹点落入该圆内。可分别计算这20个轨迹点与轨迹点p₁间的时间间隔，假定轨迹点p₂与p₁的时间间隔位于预设时间间隔范围内，则可将轨迹点p₂与p₁均作为停留点，若有多个轨迹点与p₁的时间间隔位于预设时间间隔范围内，可取与p₁的时间间隔最大的点作为停留点。

S55：计算各停留点的点位置信度。

请参见图6，对任一停留点，可通过如下步骤计算点位置信度：

步骤a：提取停留点的疏密特征。

沿用前例，以p₁为例，上述疏密特征表征了p₁与周边停留点之间的疏密关系。

其中：疏密特征包括如下一种或任意多种：

①，TopN停留点的个数。

TopN停留点包括：N个最近距离所对应的停留点，而N个最近距离是从任一停留点与其他停留点间的距离中确定出的。

本领域技术人员可灵活设计N的取值，例如，取10、5等。

以N＝10为例，假定除p₁外还有30个停留点，可计算这30个停留点与p₁之间的距离，并按照从小到大排序，取前10位。

在出现相同排名时，按照连续编号进行排序。以p₂停留点、p₃停留点与p₁的距离相同为例，可为p₂停留点、p₃停留点分配连续的编号，这里编号分配可以采用随机分配、优先级分配等形式，这里不做限制。

或者，在一个示例中，可按照连续编号进行排序，对于距离相同的情况(例如，p₂停留点、p₃停留点与p₁的距离相同)，也即出现相同排名时，可进行排序编号重复。也即，为p₂停留点、p₃停留点分配相同的排序编号。

假定前10位距离分别为1、2、3、4、5、6、7、8、9、10(单位为m)，其中，与p₁距离为1m-9m的停留点分别有1个，距离为10m的停留点有2个，则TopN停留点的个数为9+2＝11，即实际的点位数量可能超过N的取值。

②，TopN停留点与任一停留点间的距离均值；

仍沿用前例，TopN停留点的个数为11，则可计算这11个停留点与p₁间的距离的均值。

③，N个最近距离中的最大值和最小值；

仍沿用前例，前10位距离分别为1、2、3、4、5、6、7、8、9、10，其中，最大值为10，最小值为1。

④，N个最近距离中的最大值和最小值之间的差值(可称为极差)；

仍沿用前例，最大值为10，最小值为1，则其差值为9。

⑤，TopN停留点与任一停留点间的距离标准差；

仍沿用前例，TopN停留点的个数为11，则可计算这11个停留点与p₁间的距离标准差。

⑥，任一停留点所在的geohash网格中所包含的停留点的个数。

进一步的，可计算任一停留点所在的geohash5网格中所包含的停留点的个数，以及，任一停留点所在的geohash6网格中所包含的停留点的个数。

geohash基本原理是将地球理解为一个二维平面，将平面递归分解成更小的子块，每个子块在一定经纬度范围内拥有相同的编码，其中的“5”、“6”为精度。

以geohash5网格为例，假定p₁位于某geohash5网格中，在该网格中包含10个停留点，则10即为所求的停留点个数。

⑦，任一停留点所对应的点位设备的(所有车辆)过车记录数所对应的量化值。

量化值的取值范围在0-1之间。不同地点的点位设备的过车记录数可能差别巨大，所以将过车记录数都量化在0-1之间，以方便计算。

步骤b：将上述疏密特征输入分类模型，由分类模型输出停留点的分类结果。

分类结果可包括第一种类或第二种类，以0和1分别表示。

在一个示例中，分类模型可为无监督OneClassSVM算法，本实施例使用OneClassSVM算法的目的是判断该停留点是否是边界点，则第一种类可为边界点，第二种类可为非边界点。

在训练OneClassSVM算法时，可以编号0和1分别表示“边界点”和“非边界点”。

这里的边界点可理解为地区的边界点，边界点处的点位设备捕捉车辆的轨迹能力较差：

在市区点位设备相对稠密，人真正长时间逗留的位置与点位设备间的距离相对较小，因此，对车辆的轨迹捕捉能力较强；而在市区边界，点位设备相对稀疏，人真正长时间逗留的位置与点位设备间的距离相对较大，这样，对车辆的轨迹捕捉能力较差。

步骤c：若分类结果为第一种类，为停留点分配第一置信度值。

步骤d：若分类结果为第二种类，为停留点分配第二置信度值；

第一置信度值小于第二置信度值。

在一个示例中，可将第一置信度值设置为0.6，第二置信度值设置为0.9。也即，将边界点的置信度设为0.6，非边界点置信度设为0.9。

为停留点分配的第一置信度值或第二置信度值即为点位置信度。

需要注意的是，步骤S55针对的是车辆的停留点，对于移动设备的停留点，可不执行步骤S55。

S56：对确定的停留点进行聚类，得到M个簇。

其中，M为正数。每一簇为一个停留轨迹集合。

具体的，可采用K-Means算法进行聚类。

K-means算法是聚类分析中的经典算法，具有理论思想可靠、算法数学思想简单且易于实现、收敛速度快等优点。但算法本身存在缺陷，例如需要预先确定超参数K值(即簇的个数)，且随机选取的K个初始中心点可能会使聚类结果产生局部最优解，算法效果受噪声点影响大。

在一个示例中，请参见图7可采用其他算法与K-Means算法结合来解决K-Means存在的问题。

S71：采用canopy算法对停留点进行粗聚类，将得到的聚类的个数，作为超参数K。

canopy算法本身的超参数t₁和t₂可通过下述方式计算：

从某成员对应的停留点中随机选取n个停留点(随机选取n对停留点的目的是为了减少计算量，也可以令该成员的全部停留点参与计算)。

可采用球面距离haversine公式计算n个停留点两两间的距离，然后取计算出的距离的均值作为t₂，令t₁＝2t₂。

S72：将所有的停留点作为一个目标簇。

S73：使用kmeans++算法确定目标簇的两个聚类中心。

kmeans++的方法是改进的kmeans算法，kmeans++算法可参见现有技术的介绍，在此不作赘述。

S74：基于确定的两个聚类中心，采用Bi-K-Means将目标簇一分为二，得到两个簇。

Bi-K-Means即二分k-means，也是改进的kmeans算法，其优点包括：可以加速K-means算法的执行速度。

如何将目标簇一分为二可参见现有技术的介绍，在此不作赘述。

S75：判断簇的总数目是否等于K，若是，进入S77，若否，进入S76；

S76：计算上述两个簇的误差平方和，将误差平方和大的簇作为目标簇，返回S73。

因为聚类的误差平方和能够衡量聚类性能，该值越小表示簇中的样本越接近于簇的质心，聚类效果就越好。

误差平方和越大，则表示该簇的聚类效果越不好，越有可能是将多个簇划分成了一个簇，所以会误差平方和大的簇作为目标簇，再次对其进行划分。

本实施例结合K-Means++和Bi-K-Means进行聚类，可克服K-Means算法收敛于局部最小值和初始点选择的问题。

S77：删除K个簇中不符合要求的簇，获得M个簇。

具体中，可将停留点个数小于个数阈值(例如5)的簇进行删除。本领域技术人员可灵活设计个数阈值的取值，在此不作赘述。

因不符合要求的簇的数量是可变的，所以M不是个固定值。在特殊情况下，某成员的K个簇中每一簇的停留点可能都小于个数阈值，此时，M＝0，该成员的轨迹数据就不再参与后续的分析了。

最后得到的M个簇对应M个停留轨迹集合。

接下来是语义分析。

S78：在时间和空间维度上提取M个簇的簇特征。

在一个示例中，簇特征包括如下一种或任意多种：

①，簇中各停留点至中心点的距离统计量；

距离统计量可进一步：最小距离、最大距离、平均距离、以及上述提及的覆盖80％的停留点的半径。

②，簇中各停留点的时间间隔；

这里的时间间隔指停留点与相邻轨迹点的时间间隔。

举例来讲，假定一个簇中共有10个停留点，前述在确定停留点时，已记录了时间间隔，这里把这10个停留点的时间间隔作为了簇特征之一。

③，簇中各停留点所对应的记录时间位于休息时段的频次；

休息时段可根据不同的地区有相应的设计，例如新疆的休息时段与杭州的休息时段是不同的。

假设某地区休息时段为18:00-6:00。可统计簇中记录时间位于休息时段的停留点的个数，作为频次。举例来讲，200个停留点中，有150个停留点的记录时间位于休息时段，则簇中各停留点所对应的记录时间位于休息时段的频次等于150。

④，簇中各停留点所对应的记录时间位于工作时段的频次；

在一个示例中，工作时段可仅包括时刻，例如7:00-18:00，也可包括日期(例如跳过法定假日的日期)。本领域技术人员可进行灵活设计，在此不作赘述。

簇中各停留点所对应的记录时间位于工作时段的频次，与位于休息时段的频次的统计手段相类似，在此不作赘述。

⑤，簇的点位得分；

簇的点位得分是簇中所有(车辆)停留点的点位得分均值。

在一个示例中，停留点的点位得分可为：停留点所对应的点位设备置信度与停留点的点位置信度的乘积。

其中点位设备置信度是指卡口监控设备、RFID设备的置信度，主要可根据经验值获取。

而停留点的点位置信度可为前述介绍的第一置信度值或第二置信度值。

S79：使用簇特征对每一簇进行轨迹语义分析，得到每一簇针对各语义种类的概率。

可采用训练后的机器学习方法对每一簇的簇特征进行轨迹语义分析，得到相应的语义种类。

在分析前，还可对每一簇特征使用3倍标准差法剔除异常值。

本实施例中的语义种类的概率可包括：工作地点的概率，以及，为住处的概率。

若工作地点的概率更高，则该簇所对应的语义种类为工作地点；反之，若住处的概率更高，则该簇所对应的语义种类为住处。

S710：输出每一簇针对各语义种类的概率、中心点位置和半径。

在一个示例中，簇半径满足如下特征：以簇中心点为原点，使用该半径所划的圆，可覆盖簇中80％的停留点。

当然，本领域技术人员也可将“80％”替换为其他取值，在此不作赘述。

图8为某成员的簇分类情况。在图8中，共有4个簇，标号为1-4，簇标号后的括号内记录的是簇中停留点的个数：簇1包括3个停留点，簇3包括26个停留点，簇4包括177个停留点，簇2包括2个停留点。

其中，簇4住处的概率大于工作地点的概率，所以确定其为住处。

综上，本发明所提供的技术方案以云计算为基础，通过大数据分析和挖掘，对出租屋进行判别和预测，大量减少了硬件设备支出和人力资源投入成本，既能减轻基层工作人员压力，又能降低管理成本，对可疑房屋进行精准和高效排查，提升工作效率。

图1a示出了上述大数据识别房屋性质的系统的一种示例性结构，包括：

预处理单元1，用于：

获取户籍人口的轨迹数据，以及户籍人口对应的房产的空间数据和房产语义信息。

分析单元2，用于：

根据所述轨迹数据，获取至少一个停留轨迹集合(停留轨迹集合表征停留超过时间阈值的轨迹)；

获取每一停留轨迹集合的语义信息和空间数据；

识别单元3，用于：

根据房产语义信息获取语义信息与之相匹配的停留轨迹集合，判断房产的空间数据与该停留轨迹集合的空间数据之间的距离是否大于非关联阈值，若大于，则为该房产添加标识。

在本发明其他实施例中，上述预处理单元1还用于：

获取上述户籍人口的补充关联数据(血缘关系数据和婚姻关系数据)；

根据补充关联数据，获取该户籍人口的补充关联成员；

上述分析单元2还用于：

根据补充关联成员的轨迹数据，获取补充关联成员的停留轨迹集合(补充停留轨迹集合)；

上述识别单元3还用于：

根据房产语义信息获取具有语义信息与之相匹配的补充停留轨迹集合；

若该房产的空间数据与该补充停留轨迹集合的空间数据之间的距离小于非关联阈值，取消对该房产的标识。

相关介绍请参见前述记载，在此不作赘述。

在本发明其他实施例中，上述轨迹数据可包括：按时空顺序相连的多个轨迹点的轨迹信息；上述轨迹信息可包括空间数据和记录时间。

在根据上述轨迹数据，获取至少一个停留轨迹集合的方面，上述分析单元2具体用于：

将满足预设条件且时间间隔位于预设时间间隔范围内的两轨迹点确定为停留点；上述预设条件包括：时间上相邻；或者，位于同一空间阈值范围内；

对确定的停留点进行聚类，得到M个簇；每一个簇为一个停留轨迹集合；

而在获取每一停留轨迹集合的语义信息和空间数据的方面，上述分析单元2具体用于：

在时间和空间维度上提取每一簇的簇特征，并基于簇特征进行轨迹语义分析，得到语义种类；上述停留轨迹集合的语义信息包括语义种类；

获取各簇的中心点位置和半径；其中，上述停留轨迹集合的空间数据包括簇的中心点位置，或者，包括簇的中心点位置及半径。

相关介绍请参见前述记载，在此不作赘述。

在本发明其他实施例中，上述簇特征包括如下一种或任意多种：

簇中各停留点至中心点的距离统计量；

簇中各停留点所对应的时间间隔；

簇中各停留点所对应的记录时间位于休息时段的频次；

簇中各停留点所对应的记录时间位于工作时段的频次；

簇的点位得分；上述点位得分是簇中所有停留点的点位得分均值。

相关介绍请参见前述记载，在此不作赘述。

在本发明其他实施例中，上述轨迹信息由点位设备记录。

任一停留点的点位得分包括：上述任一停留点所对应的点位设备置信度与上述任一停留点的点位置信度的乘积；上述点位置信度是根据上述任一停留点的疏密特征计算得到的。

相关介绍请参见前述记载，在此不作赘述。

在本发明其他实施例中，在提取簇特征之前，上述分析单元2还具体用于：

对任一停留点提取疏密特征；上述疏密特征表征了上述任一停留点与周边停留点之间的疏密关系；

将上述疏密特征输入分类模型，由上述分类模型输出上述任一停留点的分类结果；

若上述分类结果为第一种类，为上述任一停留点分配第一置信度值；

若上述分类结果为第二种类，为上述任一停留点分配第二置信度值；

上述点位置信度为上述第一置信度值或第二置信度值，上述第一置信度值小于上述第二置信度值。

相关介绍请参见前述记载，在此不作赘述。

在本发明其他实施例中，上述疏密特征包括如下一种或任意多种：

TopN停留点的个数；上述TopN停留点包括：N个最近距离所对应的停留点；上述N个最近距离是从上述任一停留点与其他停留点间的距离中确定出的；N为正整数；

上述任一停留点与上述TopN停留点间的距离均值；

上述N个最近距离中的最大值和最小值；

上述N个最近距离中的最大值与最小值之间的差值；

上述任一停留点与上述TopN停留点间的距离标准差；

上述任一停留点所在的geohash网格中所包含的停留点的个数；

上述任一停留点所对应点位设备的过车记录数的量化值。

相关介绍请参见前述记载，在此不作赘述。

本发明还要求保护一种大数据识别房屋性质的系统，至少包括处理器和存储器；上述处理器通过执行存储器中存放的程序以及调用其他设备，执行上述任一项所述的大数据识别房屋性质的方法。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及模型步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或模型的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、WD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种大数据识别房屋性质的方法，其特征在于，包括：

获取户籍人口的轨迹数据；

获取每一停留轨迹集合的语义信息和空间数据；

获取所述户籍人口对应的房产的空间数据和房产语义信息；

根据房产语义信息获取语义信息与之相匹配的停留轨迹集合，判断所述房产的空间数据与该停留轨迹集合的空间数据之间的距离是否大于非关联阈值，若大于，则为所述房产添加标识；

所述轨迹数据包括：按时空顺序相连的多个轨迹点的轨迹信息；所述轨迹信息包括空间数据和记录时间；

所述根据所述轨迹数据，获取至少一个停留轨迹集合包括：

将满足预设条件且时间间隔位于预设时间间隔范围内的两轨迹点确定为停留点；所述预设条件包括：时间上相邻；或者，位于同一空间阈值范围内；

所述获取每一停留轨迹集合的语义信息和空间数据包括：

在时间和空间维度上提取每一簇的簇特征，并基于簇特征进行轨迹语义分析，得到语义种类；所述停留轨迹集合的语义信息包括语义种类；

获取各簇的中心点位置和半径；其中，所述停留轨迹集合的空间数据包括簇的中心点位置，或者，包括簇的中心点位置及半径；

所述簇特征包括如下一种或任意多种：

簇中各停留点至中心点的距离统计量；

簇中各停留点所对应的时间间隔；

簇中各停留点所对应的记录时间位于休息时段的频次；

簇中各停留点所对应的记录时间位于工作时段的频次；

簇的点位得分；所述点位得分是簇中所有停留点的点位得分均值；

所述轨迹信息由点位设备记录；

任一停留点的点位得分包括：所述任一停留点所对应的点位设备置信度与所述任一停留点的点位置信度的乘积；所述点位置信度是根据任一停留点的置信度计算能得到的，所述任一停留点的置信度是根据所述任一停留点的疏密特征计算得到的。

2.如权利要求1所述的方法，其特征在于，在提取簇特征之前，还包括：

对任一停留点提取疏密特征；所述疏密特征表征了所述任一停留点与周边停留点之间的疏密关系；

将所述疏密特征输入分类模型，由所述分类模型输出所述任一停留点的分类结果；

若所述分类结果为第一种类，为所述任一停留点分配第一置信度值；

若所述分类结果为第二种类，为所述任一停留点分配第二置信度值；

所述点位置信度为所述第一置信度值或第二置信度值，所述第一置信度值小于所述第二置信度值。

3.如权利要求2所述的方法，其特征在于，所述疏密特征包括如下一种或任意多种：

TopN停留点的个数；所述TopN停留点包括：N个最近距离所对应的停留点；所述N个最近距离是从所述任一停留点与其他停留点间的距离中确定出的；N为正整数；

所述任一停留点与所述TopN停留点间的距离均值；

所述N个最近距离中的最大值和最小值；

所述N个最近距离中的最大值与最小值之间的差值；

所述任一停留点与所述TopN停留点间的距离标准差；

所述任一停留点所在的geohash网格中所包含的停留点的个数；

所述任一停留点所对应点位设备的过车记录数的量化值。

4.如权利要求1-3任一项所述的方法，其特征在于，还包括：

获取所述户籍人口的补充关联数据；所述补充关联数据包括血缘关系数据和婚姻关系数据；

根据补充关联数据，获取所述户籍人口的补充关联成员；

根据所述补充关联成员的轨迹数据，获取所述补充关联成员的停留轨迹集合；所述补充关联成员的停留轨迹集合为补充停留轨迹集合；

根据所述房产语义信息获取具有语义信息与之相匹配的补充停留轨迹集合；

若所述房产的空间数据与该补充停留轨迹集合的空间数据之间的距离小于所述非关联阈值，取消对所述房产的标识。

5.一种大数据识别房屋性质的系统，其特征在于，包括：

预处理单元，用于：

分析单元，用于：

获取每一停留轨迹集合的语义信息和空间数据；

识别单元，用于：

在所述根据所述轨迹数据，获取至少一个停留轨迹集合的方面，所述分析单元具体用于：

在所述获取每一停留轨迹集合的语义信息和空间数据的方面，所述分析单元具体用于：

所述簇特征包括如下一种或任意多种：

簇中各停留点至中心点的距离统计量；

簇中各停留点所对应的时间间隔；

簇中各停留点所对应的记录时间位于休息时段的频次；

簇中各停留点所对应的记录时间位于工作时段的频次；

所述轨迹信息由点位设备记录；

6.一种大数据识别房屋性质的系统，其特征在于，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如权利要求1-4任一项所述的大数据识别房屋性质的方法。