CN112132460A

CN112132460A - 一种潜在危险区域识别方法、装置、系统及存储介质

Info

Publication number: CN112132460A
Application number: CN202011005249.3A
Authority: CN
Inventors: 谭楚婧; 李瑞远; 鲍捷; 郑宇�
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-25

Abstract

本发明涉及一种潜在危险区域识别方法、装置、系统及存储介质。识别方法包括：获取待识别区域中的每个信息点的基本信息，并根据基本信息对信息点按种类进行聚合处理；根据基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布；根据信息点比重分布和信息点相对位置分布，得到待识别区域和预设参考区域的相似度值；将相似度值大于预设阈值的待识别区域作为潜在危险区域。本方案通过待识别区域的信息点的种类比重分布和相对位置分布来描述待识别区域的特征，并根据该特征来确定待识别区域是否为潜在危险区域，实现了快速、准确的对潜在危险区域的识别。

Description

一种潜在危险区域识别方法、装置、系统及存储介质

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种潜在危险区域识别方法、装置、系统及存储介质。

背景技术

群租房是我国城市化进程中的"顽疾"现象，由于群租房是通过改变房屋原始布局结构，将房间分割成多个隔间并按间或床位出租的模式，产生了这种容易引发的公共安全事件、各类纠纷和矛盾的多人聚集在狭小空间内生活的现象。尽管各地纷纷出台措施，北京、上海、杭州等多地多次对群租房现象进行整治行动，但群租房现象依旧大量存在。

随着移动设备的普及，产生了越来越多的位置数据，例如：信息点(Point ofInterest,POI)、交通指数等。通过这些信息，人们可以了解特定区域的基本情况，例如：是否宜居、是否存在安全隐患、是否适合开店等。然而，随着信息的爆炸以及城市结构越来越复杂，人们通常只熟悉其居住地周围很小部分的区域，难以掌握整个城市每个区域的信息。

发明内容

为了解决现有技术存在的问题，本发明的至少一个实施例提供了一种潜在危险区域识别方法、装置、系统及存储介质。

第一方面，本发明实施例提供了一种潜在危险区域识别方法，所述识别方法包括：

获取待识别区域中的每个信息点的基本信息，并根据基本信息对所述信息点按种类进行聚合处理；

根据所述基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布；

根据所述信息点比重分布和信息点相对位置分布，得到所述待识别区域和预设参考区域的相似度值；

将相似度值大于预设阈值的待识别区域作为潜在危险区域。

结合第一方面，在第一方面的第一种实施例中，所述根据所述基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布，包括：

根据所述基本信息得到所述待识别区域中的每个种类的信息点在所述待识别区域内的重要性评价值；

根据每个种类的所述信息点在所述待识别区域内的重要性评价值得到信息点种类比重向量，作为所述信息点种类比重分布；

根据所述基本信息得到每个所述信息点与待识别区域内的各个预设位置的相对间距；

根据所述相对间距得到每个种类的所述信息点在所述待识别区域内的相对位置分布向量，作为所述信息点相对位置分布。

结合第一方面的第一种实施例，在第一方面的第二种实施例中，所述根据所述基本信息得到所述待识别区域中的每个种类的信息点在所述待识别区域内的重要性评价值，包括：

根据所述基本信息得到任一种类的所述信息点的数量在所有所述信息点的数量的占比值；

根据所述基本信息，在预存储的待识别区域候选集中，获取包括所述任一种类的信息点的待识别区域的数量；其中，待识别区域候选集中包括至少两个待识别区域；

根据所述任一种类的所述信息点的数量在所有所述信息点的占比值、待识别区域候选集中包括所述任一种类的信息点的待识别区域的数量和所述待识别区域候选集中的待识别区域的数量，得到所述任一种类的信息点在所述待识别区域内的重要性评价值；

依次得到每个种类的信息点在所述待识别区域内的重要性评价值。

结合第一方面的第二种实施例，在第一方面的第三种实施例中，所述根据所述任一种类的所述信息点的数量在所有所述信息点的占比值、包括所述任一种类的信息点的待识别区域的数量和所述待识别区域候选集中的待识别区域的数量，得到所述任一种类的信息点在所述待识别区域内的重要性评价值，包括：

通过如下公式计算得到所述重要性评价值：

CF-IRF_ij＝CF_ij×IRF_i；

其中，CF-IRF_ij为任一种类i的信息点在所述待识别区域j内的重要性评价值；n_ij为所述任一种类i的信息点在待识别区域j中的数量；M_j为待识别区域j中的信息点的种类，n_kj为种类k的信息点在待识别区域j中的数量，a为第一预设缩放常数；log_x为以大于1的预设常数x为底的对数，N_total为所述待识别区域候选集中的待识别区域的数量，D_i为待识别区域候选集中包括所述任一种类i的信息点的待识别区域的数量，b为第二预设缩放常数。

结合第一方面的第一种实施例，在第一方面的第四种实施例中，所述根据所述相对间距得到每个种类的所述信息点在所述待识别区域内的相对位置分布向量，包括：

根据每个所述信息点与待识别区域内的各个预设位置的相对间距，得到任一种类的信息点与待识别区域的每个预设位置的相对间距的平均值；

根据所述任一种类的所有信息点与所述待识别区域的每个预设位置的相对间距的平均值，构成相对位置分布向量；

依次得到每个种类的所述信息点在所述待识别区域内的相对位置分布向量。

结合第一方面的第四种实施例，在第一方面的第五种实施例中，所述根据每个所述信息点与待识别区域内的各个预设位置的相对间距，得到任一种类的所有信息点与待识别区域的每个预设位置的相对间距的平均值，包括：

通过如下计算公式计算得到任一种类的所有信息点与待识别区域的每个预设位置的相对间距的平均值：

其中，d为所述任一种类i的信息点与待识别区域j中预设位置h的相对间距的平均值，n_ij为所述任一种类i的信息点在待识别区域j中的数量，P为待识别区域j中种类为所述任一种类i的所有信息点的集合，p为待识别区域j中种类为所述任一种类i的信息点，dist(p,h)为信息点p与预设位置h的相对间距。

结合第一方面的第一种实施例，在第一方面的第六种实施例中，所述根据所述信息点比重分布和信息点相对位置分布，得到所述待识别区域和预设参考区域的相似度值，包括：

将所述待识别区域的所述信息点种类比重分布与预设参考区域的信息点种类比重分布进行比对，得到第一相似度值；

将所述待识别区域的所述信息点相对位置分布与预设参考区域的信息点相对位置分布进行比对，得到第二相似度值；

根据所述第一相似度值和第二相似度值，得到所述待识别区域与所述预设参考区域的第三相似度值，作为所述待识别区域和预设参考区域的相似度值。

结合第一方面的第六种实施例，在第一方面的第七种实施例中，所述识别方法还包括：

获取所述待识别区域中的周边人员信息；

根据所述周边人员信息得到周边人员特征分布；

将所述待识别区域的所述周边人员特征分布与预设参考区域的周边人员特征分布进行比对，得到第四相似度值；

根据所述第一相似度值、第二相似度值和第四相似度值，得到所述待识别区域与所述预设参考区域的第五相似度值，作为所述待识别区域和预设参考区域的相似度值。

结合第一方面的第七种实施例，在第一方面的第八种实施例中，所述根据所述周边人员信息得到周边人员特征分布，包括：

根据所述周边人员信息获取所述待识别区域中的周边人员的不同性别人数占比值、各预设年龄段人数占比值和各预设收入段人数占比值；

根据待识别区域中的周边人员的不同性别人数占比值、各年龄段人数占比值和各预设收入段人数占比值组成周边人员特征向量，作为所述待识别区域的周边人员特征分布。

结合第一方面的第七种实施例，在第一方面的第九种实施例中，所述识别方法还包括：

获取所述待识别区域的房价平均值；

将所述待识别区域的所述房价平均值与所述预设参考区域的房价平均值进行比对，得到第六相似度值；

根据所述第一相似度值、第二相似度值、第四相似度值和第六相似度值，得到所述待识别区域与所述预设参考区域的第七相似度值，作为所述待识别区域和预设参考区域的相似度值。

结合第一方面的第九种实施例，在第一方面的第十种实施例中，所述将所述待识别区域的所述房价平均值与预设参考区域的房价平均值进行比对，得到第六相似度值，包括：

计算在预存储的待识别区域候选集中的每个待识别区域的房价平均值与所述预设参考区域的房价平均值的距离度量；待识别区域候选集中包括至少两个待识别区域；

通过如下公式计算得到所述第六相似度值：

其中，Sim(R_q,R_j)为待识别区域j与预设参考区域的第六相似度值，E_qj为待识别区域j的房价平均值与预设参考区域的房价平均值的距离度量，E_min为所有待识别区域的房价平均值与所述预设参考区域的房价平均值的距离度量的最小值，E_max为所有待识别区域的房价平均值与所述预设参考区域的房价平均值的距离度量的最大值。

结合第一方面或第一方面的第一、第二、第三、第四、第五、第六、第七、第八、第九或第十种实施例，在第一方面的第十一种实施例中，所述根据所述信息点比重分布和信息点相对位置分布，得到所述待识别区域和预设参考区域的相似度值之前，所述识别方法还包括：

根据所述待识别区域的所述信息点种类比重分布得到每个种类的信息点在所述待识别区域中的种类比重；

按从大至小的顺序对种类比重进行排序，获取排名前预设名次的种类比重对应的信息点的种类，作为比对种类；

判断所述预设参考区域中的信息点的种类是否包含所有所述比对种类；

若是，则执行根据所述信息点比重分布和信息点相对位置分布，得到所述待识别区域和预设参考区域的相似度值的步骤；

若否，则将所述待识别区域从预存储的待识别区域候选集中剔除。

第二方面，本发明实施例提供了一种潜在危险区域识别装置，所述装置包括：

获取单元，用于获取待识别区域中的每个信息点的基本信息；

第一处理单元，用于根据基本信息对所述信息点按种类进行聚合处理；

第二处理单元，用于根据所述基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布；

第三处理单元，用于根据所述信息点比重分布和信息点相对位置分布，得到所述待识别区域和预设参考区域的相似度值；

第四处理单元15，用于将相似度值大于预设阈值的待识别区域作为潜在危险区域。

第三方面，本发明实施例提供了一种潜在危险区域识别系统，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面中任一实施例所述的潜在危险区域识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一实施例所述的潜在危险区域识别方法。

本发明的上述技术方案与现有技术相比具有如下优点：本发明实施例通过信息点的基本信息得到待识别区域中每个种类的信息点的信息点种类比重分布和信息点相对位置分布，根据信息点种类比重分布和信息点相对位置分布确定待识别区域与预设参考区域的相似度值，并将相似度值大于预设阈值的待识别区域作为潜在危险区域，本方案通过待识别区域的信息点的种类比重分布和相对位置分布来描述待识别区域的特征，并根据该特征来确定待识别区域是否为潜在危险区域，实现了快速、准确的对潜在危险区域的识别。

附图说明

图1是本发明实施例提供的一种潜在危险区域识别方法流程示意图；

图2是本发明另一实施例提供的一种潜在危险区域识别方法流程示意图；

图3是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其一；

图4是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其二；

图5是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其三；

图6是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其四；

图7是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其五；

图8是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其六；

图9是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其七；

图10是本发明又一实施例提供的一种潜在危险区域识别方法流程示意图其八；

图11是本发明又一实施例提供的一种潜在危险区域识别装置结构示意图；

图12是本发明又一实施例提供的一种潜在危险区域识别系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种潜在危险区域识别方法。参照图1，识别方法包括如下步骤：

S11、获取待识别区域中的每个信息点的基本信息，并根据基本信息对信息点按种类进行聚合处理。

在本实施例中，POI是“Point of Information”的缩写，中文可以翻译为“信息点”。在地理信息系统中，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。每个POI包含四方面信息，名称、类别、坐标、分类，全面的POI讯息是丰富导航地图的必备资讯，及时的POI信息点能提醒用户路况的分支及周边建筑的详尽信息，也能方便导航中查到你所需要的各个地方，选择最为便捷和通畅的道路来进行路径规划，因此，导航地图POI多少状况直接影响到导航的好用程度。信息点是有分类的，有一级类和二级类，每个分类都有相应的行业的代码和名称对应。方便信息采集的记录和区分。

在本实施例中，在得到待识别区域中的每个信息点的基本信息后，可以通过基本信息确定信息点所属类别，比如，交通站点、工厂、商店、小区楼房、自建楼房等类别信息，按种类将各个信息点进行聚合分类，使得同一种类的信息点聚合。

S12、根据基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布。

在本实施例中，根据信息点的聚类处理结果和每个信息点的基本信息，获取每个种类的信息点在待识别区域内的比重分布和相对位置分布，比如，比重分布可以是每个种类的信息点的数量在待识别区域内的比重，也可以是根据每个种类的信息点在待识别区域内的重要程度得到的比重，还可以根据每个种类的信息点在待识别区域内占地面积得到的比重，而相对位置分布可以是不同种类的信息点之间的相对位置情况，也可以是信息点相对于预设位置的相对位置情况，还可以根据每个种类的信息点的位置离散情况得到相对位置分布。

在本实施例中，由于含有群租房的小区周边的信息点种类和结构往往都很相似，例如交通枢纽、大型工厂周边群租房的可能性更大，群租房周边又往往围绕较多的生活服务类小型商户，这些都属于信息点的关注范围。在本方案中，通过对信息点的基本信息进行分析，获取信息点在待识别区域中的比重分布和相对位置分布，将待识别区域中信息点的描述作为该待识别区域的特征。

S13、根据信息点比重分布和信息点相对位置分布，得到待识别区域和预设参考区域的相似度值。

在本实施例中，预设参考区域与待识别区域相同，也通过获取预设参考区域中的信息点的基本信息得到预设参考区域的信息点比重分布和信息点相对位置分布，其中，预设参考区域在本方案中可以是已经确定的潜在危险区域，可以由用户在地图上选定得到，也可以直接获取群租房区域附近的区域作为参考区域。

在本实施例中，通过信息点比重分布和信息点相对位置分布的比对，得到两个区域的相似度值，信息点比重分布和信息点相对位置分布一致的部分越高，则相似度值就越高，数据分布是否相似可以通过比如计算方差、平均值、均方差的方式来进行判定，比如，平均值的差值、方差值的差值越小，则数据的分布越相似。

S14、将相似度值大于预设阈值的待识别区域作为潜在危险区域。

在本实施例中，当相似度值大于预设阈值时，则判定待识别区域与预设参考区域相似，将该待识别区域作为潜在危险区域。

如图2所示，本发明实施例提供了一种潜在危险区域识别方法。参照图2，识别方法包括如下步骤：

S21、获取待识别区域中的每个信息点的基本信息，并根据基本信息对信息点按种类进行聚合处理。

有关步骤S21，详细可参见步骤S11中的描述，本实施例在此不再赘述。

S22、根据基本信息得到待识别区域中的每个种类的信息点在待识别区域内的重要性评价值。

在本实施例中，根据待识别区域中的信息点的基本信息得到待识别区域中的每个种类的信息点在待识别区域的重要性评价值，比如，可以根据每个种类的信息点在待识别区域中的数量得到该种类的信息点在待识别区域中的重要性评价值，数量越多则说明这个种类的信息点可能是越重要的，也可以根据信息点的种类是否仅为该待识别区域所有，若只有该待识别区域中有这个种类的信息点，也可以从侧面说明对于这个待识别区域来说，这个种类的信息点是非常重要的，或者，包含某一种类的信息点的待识别区域的数量越少，也可以说明包含这个种类的信息点对相应的待识别区域来说是重要的，具体的，可以通过设定信息点的数量在所有信息点的数量中的占比值与重要性评价值的对应关系表，来根据基本信息得到本步骤中的重要性评价值。

S23、根据每个种类的信息点在待识别区域内的重要性评价值得到信息点种类比重向量，作为信息点种类比重分布。

在本实施例中，将每个种类的信息点在待识别区域内的重要性评价值作为向量的元素组成信息点种类比重向量，并将该向量作为信息点种类比重分布。

S24、根据基本信息得到每个信息点与待识别区域内的各个预设位置的相对间距。

在本实施例中，根据信息点的基本信息得到信息点与待识别区域中各个预设位置的相对间距，预设位置可以由用户预先设定，也可以由系统自动生成，但是的预设位置在每个待识别区域应该是在相同的位置，以便于保证得到的结果所参考的位置是一致的，比如，在第一个待识别区域中所选取的预设位置是待识别区域的左上角、右上角、左下角、右下角和中心点，那在参考区域中所选取的预设位置也应该是上述五个点，在其他待识别区域内也是相应位置的点。

S25、根据相对间距得到每个种类的信息点在待识别区域内的相对位置分布向量，作为信息点相对位置分布。

在本实施例中，根据上述步骤得到的相对间距而后得到每个种类的信息点在待识别区域内的相对位置分布，可以计算每个种类的信息点的相对间距的平均值作为向量的元素，构成上述向量，也可以计算每个种类的信息的相对间距的方差值作为向量的元素，构成相对位置分布向量，还可以直接将相对间距直接作为向量的元素，构成相对位置分布向量。

结合上述步骤中得到的每个种类的信息点在待识别区域中的比重和本步骤中得到的每个种类的信息点在待识别区域内的相对位置分布向量，即可确定待识别区域内的那种信息点所占的比重较大，和每个种类的信息点在待识别区域内的位置情况，通过提取待识别区域内的数据构成上述两种向量，用以表示待识别区域内的各种信息点的特征情况。

S26、根据信息点比重分布和信息点相对位置分布，得到待识别区域和预设参考区域的相似度值。

有关步骤S26，详细可参见步骤S13中的描述，本实施例在此不再赘述。

S27、将相似度值大于预设阈值的待识别区域作为潜在危险区域。

有关步骤S26，详细可参见步骤S14中的描述，本实施例在此不再赘述。

在本实施例中，如图3所示，S23根据基本信息得到待识别区域中的每个种类的信息点在待识别区域内的重要性评价值，可以包括如下步骤：

S31、根据基本信息得到任一种类的信息点的数量在所有信息点的数量的占比值。

在本实施例中，通过信息点的基本信息得到任一种类的信息点的数量在所有信息点的数量中的占比值，简单来说，当某一种类的信息点的数量较多时，可以从侧面反映出这个种类的信息点对该待识别区域来说较为重要，而较为重要的信息点更能代表待识别区域，用以表示待识别区域的特性。

在本实施例中，由于不同待识别区域中的信息点的密集程度是不一致的，就好比群租房区域中，房价较高的区域的群租房较为密集，而房价较低的区域的群租房不会非常密集，而不同密集程度的群租房区域中的商店数量也会随着人员的变化而变化，所以，本方案中通过获取任一种类的信息点的数量在所有信息点的数量中的占比值，可以表达出该待识别区域中该任一种类的信息点在该待识别区域中的“数量”，或者说可以表达出该待识别区域中该任一种类的信息点在该待识别区域中的密集程度。

S32、根据基本信息，在预存储的待识别区域候选集中，获取包括任一种类的信息点的待识别区域的数量；其中，待识别区域候选集中包括至少两个待识别区域。

在本实施例中，由于不同的区域中的各个信息点的种类的数量具有一定的偶然性，若是某一种类的信息点在每个待识别区域中都大量存在，比如垃圾桶、树木、防护栏，虽然这种信息点的数量在待识别区域中较多，但是这类信息点不能说明待识别区域的特性，所以，在本方案中，还从待识别区域候选集中获取包括上一步骤中任一种类的信息点的待识别区域的数量，若是包括该任一种类的信息点的待识别区域的数量较大，则也可以从侧面说明该任一种类的信息点对待识别区域来说不是非常重要，即该任一种类的信息点无法明确指向某一特性的待识别区域。

在本实施例中，预存储的待识别区域候选集可以是由用户自由选定的各个需要判别的区域，也可以是由系统自由选定区域，本方案对此不做特别限定。

S33、根据任一种类的信息点的数量在所有信息点的占比值、待识别区域候选集中包括任一种类的信息点的待识别区域的数量和待识别区域候选集中的待识别区域的数量，得到任一种类的信息点在待识别区域内的重要性评价值。

在本实施例中，通过总结上述步骤中得到的占比值、包括任一种类的信息点的待识别区域的数量和待识别区域的总数量，得到该任一种类的信息点对待识别区域来说的重要性评价值，比如，可以预先对应占比值设置相应的第一评价值表，对应包括任一种类的信息点的待识别区域的数量除以待识别区域的总数量得到的值设置相应的第二评价值表，根据实际得到的占比值得到相对应的第一评价值和第二评价值，将第一评价值加上或者乘以第二评价值得到上述重要性评价值，还可以根据信息点对于待识别区域的重要性分析，确定占比值的大小与重要性呈正比，包括该任一种类的信息点的待识别区域的数量与重要性呈反比，得到上述重要性评价值。

S34、依次得到每个种类的信息点在待识别区域内的重要性评价值。

在本实施例中，根据上述步骤的方案，得到每个种类的信息点在待识别区域内的重要性评价值，本步骤中的依次得到可以以任意顺序进行，具体的，可以单次进行得到每个种类的信息点在待识别区域内的重要性评价值，也可以以并发式的方式得到每个种类的信息点在待识别区域内的重要性评价值，通过得到的各个种类的信息点对于待识别区域的重要性以完成对于待识别区域的特性描述，以保证对于待识别区域的识别的准确性。

具体的，步骤S33中可以通过如下公式计算得到重要性评价值：

CF-IRF_ij＝CF_ij×IRF_i；

其中，CF-IRF_ij为任一种类i的信息点在待识别区域j内的重要性评价值；n_ij为任一种类i的信息点在待识别区域j中的数量；M_j为待识别区域j中的信息点的种类，n_kj为种类k的信息点在待识别区域j中的数量，a为第一预设缩放常数；log_x为以大于1的预设常数x为底的对数，N_total为待识别区域候选集中的待识别区域的数量，D_i为待识别区域候选集中包括任一种类i的信息点的待识别区域的数量，b为第二预设缩放常数。

在本实施例中，根据基本信息得到任一种类的信息点的数量在所有信息点的数量的占比值，但是由于占比值是一个百分比数值，而在本方案中是采用对数的形式计算包括任一种类k的信息点的待识别区域的数量和待识别区域候选集中待识别区域的总数与重要性的关系，所以，为了使得两个数值不会因为数量级不一致导致两个数值对最终的重要性评价值的影响相差较大，通过设置第一预设缩放常数和第二预设缩放常数，使得上述公式中计算得到的CF_ij和IRF_i合理。

在本实施例中，M_j为待识别区域j中的信息点的种类，n_kj为种类k的信息点在待识别区域j中的数量，可以采用对待识别区域j中的信息点的种类进行数字编号的形式以实现

的计算，当然也可以通过

的形式完成对于待识别区域j中所有种类的信息点的数量统计。

在本实施例中，如图4所示，S25中根据相对间距得到每个种类的信息点在待识别区域内的相对位置分布向量，可以包括如下步骤：

S41、根据每个信息点与待识别区域内的各个预设位置的相对间距，得到任一种类的信息点与待识别区域的每个预设位置的相对间距的平均值。

在本实施例中，由于根据信息点的基本信息即可得到信息点与预设位置的相对间距，对任一种类的信息点来说，该种类的所有信息点与某一预设位置的相对间距的平均值也可以计算得到。

S42、根据任一种类的所有信息点与待识别区域的每个预设位置的相对间距的平均值，构成相对位置分布向量。

在本实施例中，若预设位置设置有五个，则最终得到的相对间距的平均值就有五个，将五个数据作为向量的元素，组成相对位置分布向量，用以表示该种类的信息点在待识别区域中的位置分布情况。

S43、依次得到每个种类的信息点在待识别区域内的相对位置分布向量。

根据上述步骤，分别得到每个种类的信息点在待识别区域内的相对位置分布向量用以描述待识别区域内不同种类的信息点的分布情况。

在本实施例中，依次得到每个种类的信息点在待识别区域内的相对位置分布向量的方式可参考上述步骤的描述，本方案对此不再赘述。

具体的，在本实施中，S41可以通过如下计算公式计算得到平均值：

其中，d为任一种类i的信息点与待识别区域j中预设位置h的相对间距的平均值，n_ij为任一种类i的信息点在待识别区域j中的数量，P为待识别区域j中种类为任一种类i的所有信息点的集合，p为待识别区域j中种类为任一种类i的信息点，dist(p,h)为信息点p与预设位置h的相对间距。

如图5所示，本发明实施例提供了一种潜在危险区域识别方法，参考图5所示，识别方法包括如下步骤：

S51、获取待识别区域中的每个信息点的基本信息，并根据基本信息对信息点按种类进行聚合处理。

有关步骤S51，详细可参见步骤S11中的描述，本实施例在此不再赘述。

S52、根据基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布。

有关步骤S52，详细可参见步骤S11中的描述，本实施例在此不再赘述。

S53、将待识别区域的信息点种类比重分布与预设参考区域的信息点种类比重分布进行比对，得到第一相似度值。

在本实施例中，可以通过计算待识别区域与预设参考区域中相同种类的信息点的信息点比重的欧式距离，而欧式距离越小则说明两者越相似，根据预先设置的相似度对应表对应欧式距离分别得到相似度值，而后累加得到第一相似度值，而待识别区域中具有而预设参考区域中不具有的种类的信息点，则不考虑其相似度，或者，可以设定一预设常数作为影响因子，累加进第一相似度值中，还可以根据种类比重分布变换为种类比重向量，计算向量之间的余弦值以实现快速计算相似度值，余弦值越大，两者越相似。

结合上述实施例中，信息点重力的比重分布是一个向量，可以直接计算两个向量的欧式距离或者余弦值，得到第一相似度值。

S54、将待识别区域的信息点相对位置分布与预设参考区域的信息点相对位置分布进行比对，得到第二相似度值。

在本实施例中，同上，可以以与计算第一相似度相同的方式计算得到第二相似度值。

信息点相对位置分布是包括每个种类的信息点在待识别区域内的相对位置分布向量，所以，可以按信息点的种类，分别计算每个种类的信息点的相对位置分布向量的欧式距离或者余弦值，而后将得到的结果累加得到第二相似度值。

S55、根据第一相似度值和第二相似度值，得到待识别区域与预设参考区域的第三相似度值，作为待识别区域和预设参考区域的相似度值。

在本实施例中，可以将第一相似度值和第二相似度值累加，得到第三相似度值，还可以根据将第一相似度值和第二相似度值分别归一化后累加，得到第三相似度值，还可以根据第一相似度值和第二相似度值的数据的重要性分别设置权重值，而后加权累加得到第三相似度值。

具体的，可以对已计算得到的第一相似度值和第二相似度值进行线性加权，得到待识别区域与预设参考区域的相似度值，具体如下：

S₃＝W₁×S₁+W₂×S₂；

其中，S₃为第三相似度值，S₁为第一相似度值，S₂为第二相似度值，W₁为第一相似度的权重，W₂为第二相似度的权重；其中，W₁+W₂＝1。

如图6所示，本发明实施例提供了一种潜在危险区域识别方法。与图5所示实施例相比，区别在于，识别方法还包括如下步骤：

S61、获取待识别区域中的周边人员信息。

在本实施例中，在待识别区域的信息点的比重和相对位置的基础上，再获取待识别区域中的周边人员特征分布，该数据可以通过人员登记信息获得，或者街道社区获取，或者通过摄像头进行人脸识别获取得到，本方案对此不做特别限定。

S62、根据周边人员信息得到周边人员特征分布。

在本实施例中，周边人员特征发布可以是周边人员的性别比例特征，比如，由于群租房的环境较差，一般女性在选择租房时可能会选择小区或者公寓进行租房，所以性别比例也可以反映待识别区域是否为群租房所在区域，还可以是周边人员的年龄阶段，还可以是周边人员的收入情况等特征。

S63、将待识别区域的周边人员特征分布与预设参考区域的周边人员特征分布进行比对，得到第四相似度值。

在本实施例中，结合上述描述，可以将性别比例的差值除以预设参考区域的性别比例，得到相对偏差值，作为第四相似度值，也可以将每个年龄阶段的人数的差值除以预设参考区域中相对应年龄阶段的人数，得到相对偏差值，作为第四相似度值，还可以将周边人员的收入平均值的差值除以预设参考区域中的收入平均值，得到相对偏差值，作为第四相似度值。

S64、根据第一相似度值、第二相似度值和第四相似度值，得到待识别区域与预设参考区域的第五相似度值，作为待识别区域和预设参考区域的相似度值。

在本实施例中，将本实施例中的第四相似度中结合上述实施例中计算得到的第一相似度值、第二相似度值，得第五相似度值，作为待识别区域和预设参考区域的相似度值，以提高对于待识别区域的识别的准确度。

在本实施例中，可以对已计算得到的第一相似度值、第二相似度值和第四相似度值进行线性加权，得到待识别区域与预设参考区域的相似度值，具体如下：

S₅＝W₁×S₁+W₂×S₂+W₄×S₄；

其中，S₅为第五相似度值，S₁为第一相似度值，S₂为第二相似度值，S₄为第四相似度值，W₁为第一相似度的权重，W₂为第二相似度的权重，W₄为第四相似度的权重；其中，W₁+W₂+W₄＝1。

在本实施例中，具体的，S62中根据周边人员信息得到周边人员特征分布，包括如下步骤：

S71、根据周边人员信息获取待识别区域中的周边人员的不同性别人数占比值、各预设年龄段人数占比值和各预设收入段人数占比值。

S72、根据待识别区域中的周边人员的不同性别人数占比值、各年龄段人数占比值和各预设收入段人数占比值组成周边人员特征向量，作为待识别区域的周边人员特征分布。

在本实施例中，通过获取待识别区域中的周边人员信息中的性别情况、年龄情况和收入情况完成对于人员的刻画，用以表示待识别区域中人员的情况。

如图8所示，本发明实施例提供了一种潜在危险区域识别方法。参照图8，与图6所示识别方法相比，区别在于，识别方法还包括如下步骤：

S81、获取待识别区域的房价平均值。

在本实施例中，由于群租房区域的房价和区域内的用户特性往往具有一定的相似性，通过房价和区域内的用户的基本信息也可以用以比对不同区域之间的相似性。

具体的，待识别区域的房价平均值可以通过获取待识别区域内的各个小区、商铺和商用住宅的房价的平均值作为所述待识别区域的房价平均值，比如，通过如下公式计算所述房价平均值：

其中，V为所述待识别区域的房价平均值，A为所述待识别区域内所有类型的房子的房价的集合，|A|为集合A中元素的个数，v_a为集合A中元素a的房价数值。

S82、将待识别区域的房价平均值与预设参考区域的房价平均值进行比对，得到第六相似度值。

在本实施例中，通过比较待识别区域的房价平均值和预设参考区域的房价平均值，以确定待识别区域的房价水平，其中，为了保证相似度的准确性，待识别区域和预设参考区域应当是房价水平相当的城市中的地区，或者，可以根据待识别区域的房价平均值与待识别区域所处城市的房价平均值的比值和预设参考区域的房价平均值和预设参考区域所处城市的房价平均值的比值，得到第六相似度值。

其中，第六相似度值可以直接计算两个房价平均值的相对偏差值来得到，比如，将待识别区域的房价平均值和预设参考区域的房价平均值的差值除以预设参考区域的房价平均值，得到相对偏差值，并根据相对偏差值得到相似度值，相对偏差值越小，相似度越高。或者，与上述情况相同，可以将待识别区域的房价平均值与待识别区域所处城市的房价平均值的比值、预设参考区域的房价平均值和预设参考区域所处城市的房价平均值的比值的差值，除以预设参考区域的房价平均值和预设参考区域所处城市的房价平均值的比值，得到相对偏差值，并根据相对偏差值得到相似度值，相对偏差值越小，相似度越高，以此来实现不同城市或地区的待识别区域和预设参考区域的房价比对。

S83、根据第一相似度值、第二相似度值、第四相似度值和第六相似度值，得到待识别区域与预设参考区域的第七相似度值，作为待识别区域和预设参考区域的相似度值。

在本实施例中，将本实施例中的第六相似度中结合上述实施例中计算得到的第一相似度值、第二相似度值、第四相似度，得第七相似度值，作为待识别区域和预设参考区域的相似度值，以提高对于待识别区域的识别的准确度。

在本实施例中，可以对已计算得到的第一相似度值、第二相似度值、第四相似度值和第六相似度值进行线性加权，得到待识别区域与预设参考区域的相似度值，具体如下：

S₇＝W₁×S₁+W₂×S₂+W₄×S₄+W₆×S₆；

其中，S₇为第七相似度值，S₁为第一相似度值，S₂为第二相似度值，S₄为第四相似度值，S₆为第六相似度值，W₁为第一相似度的权重，W₂为第二相似度的权重，W₄为第四相似度的权重，W₆为第六相似度的权重；其中，W₁+W₂+W₄+W₆＝1。

在本实施例中，还可以将本实施例中的第六相似度中结合上述实施例中计算得到的第一相似度值、第二相似度值，得到相似度值，作为待识别区域和预设参考区域的相似度值，也可以实现对于待识别区域的识别。

在本实施例中，S82中将待识别区域的房价平均值与预设参考区域的房价平均值进行比对，得到第六相似度值，可以包括如下步骤：

S91、计算在预存储的待识别区域候选集中的每个待识别区域的房价平均值与预设参考区域的房价平均值的距离度量；待识别区域候选集中包括至少两个待识别区域。

S92、通过如下公式计算得到第六相似度值：

其中，Sim(R_q,R_j)为待识别区域j与预设参考区域的第六相似度值，E_qj为待识别区域j的房价平均值与预设参考区域的房价平均值的距离度量，E_min为所有待识别区域的房价平均值与预设参考区域的房价平均值的距离度量的最小值，E_max为所有待识别区域的房价平均值与预设参考区域的房价平均值的距离度量的最大值。

在本实施例中，获取参考区域与不同待识别区域的房价平均值的距离度量，对房价相似度进行min-max归一化，以方便与基于其他数据计算得到的相似度进行计算。

如图10所示，本发明实施例提供了一种潜在危险区域识别方法，参考图10，识别方法包括如下步骤：

S101、获取待识别区域中的每个信息点的基本信息，并根据基本信息对信息点按种类进行聚合处理。

有关步骤S101，详细可参见步骤S11中的描述，本实施例在此不再赘述。

S102、根据基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布。

有关步骤S102，详细可参见步骤S12中的描述，本实施例在此不再赘述。

S103、根据待识别区域的信息点种类比重分布得到每个种类的信息点在待识别区域中的种类比重。

在本实施例中，结合上述实施例中的标识，若比重分布是每个种类的信息点的数量在待识别区域内的比重，则本步骤中得到的种类比重则是每个种类的信息点的数量在所有信息点的数量中所占的比例，若比重分布是根据每个种类的信息点在待识别区域内的重要程度得到的比重，则本步骤中得到的种类比重是每个种类的信息点的重要程度与所有种类的信息点的重要程度的累加值的比值，若比重分布是根据每个种类的信息点在待识别区域内占地面积得到的比重，则本步骤中的种类比重是每个种类的信息点的占地面积累加值在待识别区域的面积中国所占的比例。

S104、按从大至小的顺序对种类比重进行排序，获取排名前预设名次的种类比重对应的信息点的种类，作为比对种类。

在本实施例中，针对待识别区域中的每个种类的信息点的种类比重进行排序，最终得到种类比重靠前的信息点的种类。

S105、判断预设参考区域中的信息点的种类是否包含所有比对种类。

在本实施例中，确定预设参考区域中的信息点的种类是否包含上述步骤得到的比对种类，若不包含，则可以说明预设参考区域中完全没有对待识别区域来说较为重要的信息点的种类，即待识别区域中存在预设参考区域中没有的信息点，且该种类的信息点对待识别区域来说较为重要，此时，为降低工作量，提高工作效率，可以确定该待识别区域与该预设参考区域不相似，当然因为群租房的区域也不都完全一致，本方案中作为对比的预设参考区域也可以存在多个不同类型，所以还是可以将该待识别区域与其他预设参考区域进行比对，以确定该待识别区域是否为潜在危险区域。

本实施例中，以群租房对潜在危险区域进行说明，潜在危险区域并不仅仅包括群租房区域，还可以是事故高发地、高空坠物高发地等存在危险的区域。

S106a、若是，则执行S107、根据信息点比重分布和信息点相对位置分布，得到待识别区域和预设参考区域的相似度值和S108、将相似度值大于预设阈值的待识别区域作为潜在危险区域的步骤。

有关步骤S107、S108，详细可参见步骤S13、S14中的描述，本实施例在此不再赘述。

S106b、若否，则将待识别区域从预存储的待识别区域候选集中剔除。

在本实施例中，若预设参考区域中不存在待识别区域中的比对种类对应的信息点，则可以直接判定该待识别区域与该预设参考区域不相似，不再基于该预设参考区域对待识别区域进行识别。

如图11所示，本发明实施例提供了一种潜在危险区域识别装置。参照图11，装置包括：获取单元11、第一处理单元12、第二处理单元13、第三处理单元14和第四处理单元15。

在本实施例中，获取单元11，用于获取待识别区域中的每个信息点的基本信息。

在本实施例中，第一处理单元12，用于根据基本信息对信息点按种类进行聚合处理。

在本实施例中，第二处理单元13，用于根据基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布。

在本实施例中，第三处理单元14，用于根据信息点比重分布和信息点相对位置分布，得到待识别区域和预设参考区域的相似度值。

在本实施例中，第四处理单元15，用于将相似度值大于预设阈值的待识别区域作为潜在危险区域。

在本实施例中，所述第二处理单元13，具体用于根据所述基本信息得到所述待识别区域中的每个种类的信息点在所述待识别区域内的重要性评价值；根据每个种类的所述信息点在所述待识别区域内的重要性评价值得到信息点种类比重向量，作为所述信息点种类比重分布；根据所述基本信息得到每个所述信息点与待识别区域内的各个预设位置的相对间距；根据所述相对间距得到每个种类的所述信息点在所述待识别区域内的相对位置分布向量，作为所述信息点相对位置分布。

在本实施例中，所述第二处理单元13，具体用于根据所述基本信息得到任一种类的所述信息点的数量在所有所述信息点的数量的占比值；根据所述基本信息，在预存储的待识别区域候选集中，获取包括所述任一种类的信息点的待识别区域的数量；其中，待识别区域候选集中包括至少两个待识别区域；根据所述任一种类的所述信息点的数量在所有所述信息点的占比值、待识别区域候选集中包括所述任一种类的信息点的待识别区域的数量和所述待识别区域候选集中的待识别区域的数量，得到所述任一种类的信息点在所述待识别区域内的重要性评价值；依次得到每个种类的信息点在所述待识别区域内的重要性评价值。

在本实施例中，所述第二处理单元13，具体用于通过如下公式计算得到所述重要性评价值：

CF-IRF_ij＝CF_ij×IRF_i；

在本实施例中，所述第二处理单元13，具体用于根据每个所述信息点与待识别区域内的各个预设位置的相对间距，得到任一种类的信息点与待识别区域的每个预设位置的相对间距的平均值；根据所述任一种类的所有信息点与所述待识别区域的每个预设位置的相对间距的平均值，构成相对位置分布向量；依次得到每个种类的所述信息点在所述待识别区域内的相对位置分布向量。

如图12所示，本发明实施例提供了一种潜在危险区域识别系统，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示的潜在危险区域识别方法：

获取待识别区域中的每个信息点的基本信息，并根据基本信息对信息点按种类进行聚合处理；

根据基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布；

根据信息点比重分布和信息点相对位置分布，得到待识别区域和预设参考区域的相似度值；

将相似度值大于预设阈值的待识别区域作为潜在危险区域。

本发明实施例提供的电子设备，处理器1110通过执行存储器1130上所存放的程序通过信息点的基本信息得到待识别区域中每个种类的信息点的信息点种类比重分布和信息点相对位置分布，根据信息点种类比重分布和信息点相对位置分布确定待识别区域与预设参考区域的相似度值，并将相似度值大于预设阈值的待识别区域作为潜在危险区域，本方案通过待识别区域的信息点的种类比重分布和相对位置分布来描述待识别区域的特征，并根据该特征来确定待识别区域是否为潜在危险区域，实现了快速、准确的对潜在危险区域的识别。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一实施例所述潜在危险区域识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种潜在危险区域识别方法，其特征在于，所述识别方法包括：

将相似度值大于预设阈值的待识别区域作为潜在危险区域。

2.根据权利要求1所述的识别方法，其特征在于，所述根据所述基本信息得到待识别区域中的每个种类的信息点的信息点种类比重分布和信息点相对位置分布，包括：

3.根据权利要求2所述的识别方法，其特征在于，所述根据所述基本信息得到所述待识别区域中的每个种类的信息点在所述待识别区域内的重要性评价值，包括：

4.根据权利要求3所述的识别方法，其特征在于，所述根据所述任一种类的所述信息点的数量在所有所述信息点的占比值、包括所述任一种类的信息点的待识别区域的数量和所述待识别区域候选集中的待识别区域的数量，得到所述任一种类的信息点在所述待识别区域内的重要性评价值，包括：

通过如下公式计算得到所述重要性评价值：

CF-IRF_ij＝CF_ij×IRF_i；

5.根据权利要求2所述的识别方法，其特征在于，所述根据所述相对间距得到每个种类的所述信息点在所述待识别区域内的相对位置分布向量，包括：

6.根据权利要求5所述的识别方法，其特征在于，所述根据每个所述信息点与待识别区域内的各个预设位置的相对间距，得到任一种类的所有信息点与待识别区域的每个预设位置的相对间距的平均值，包括：

7.根据权利要求2所述的识别方法，其特征在于，所述根据所述信息点比重分布和信息点相对位置分布，得到所述待识别区域和预设参考区域的相似度值，包括：

8.根据权利要求7所述的识别方法，其特征在于，所述识别方法还包括：

获取所述待识别区域中的周边人员信息；

根据所述周边人员信息得到周边人员特征分布；

9.根据权利要求8所述的识别方法，其特征在于，所述根据所述周边人员信息得到周边人员特征分布，包括：

10.根据权利要求8所述的识别方法，其特征在于，所述识别方法还包括：

获取所述待识别区域的房价平均值；

11.根据权利要求10所述的识别方法，其特征在于，所述将所述待识别区域的所述房价平均值与预设参考区域的房价平均值进行比对，得到第六相似度值，包括：

通过如下公式计算得到所述第六相似度值：

12.根据权利要求1～11中任一所述的识别方法，其特征在于，所述根据所述信息点比重分布和信息点相对位置分布，得到所述待识别区域和预设参考区域的相似度值之前，所述识别方法还包括：

13.一种潜在危险区域识别装置，其特征在于，所述装置包括：

14.一种潜在危险区域识别系统，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1～12中任一所述的潜在危险区域识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～12中任一所述的潜在危险区域识别方法。