CN110689362B

CN110689362B - 一种地区聚类的方法及系统

Info

Publication number: CN110689362B
Application number: CN201810722740.4A
Authority: CN
Inventors: 丁建栋
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2022-04-12
Anticipated expiration: 2038-07-04
Also published as: CN110689362A

Abstract

一种地区聚类方法及系统。该方法可以包括：获取一个或多个周期内的多个地区的打车订单；对所述一个或多个周期中的每个周期，基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息，基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组。本申请通过对多个地区进行聚类分组，可以找到具有相关性的地区，从而可以对其进行有针对性的运营活动。

Description

一种地区聚类的方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种地区聚类的方法及系统。

背景技术

随着社会的进步发展，越来越多的人使用网约车。为了更好的服务用户，网约车平台需要对不同的地区开发不同的运营策略。

同时由于人们旅行习惯和差旅需求的增多，不同地区之间人员流动变大，因而不同地区之间可能存在较大的相关性。

综上，一种地区聚类的方法是十分重要的，使得网约车平台可以对同一聚类的地区进行有针对性的运营活动。

发明内容

本发明一个实施例的目的在于提供一种地区聚类方法及系统，基于多个地区在多个周期内的打车订单去确定地区群组。

第一方面，本发明披露了一种地区聚类方法。该方法可以包括：获取一个或多个周期内的多个地区的打车订单；对所述一个或多个周期中的每个周期，基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息，基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组。其中，所述地区群组可以包括所述多个地区中的至少一个地区，所述多个地区中的任意一个地区的乘客打车的流向流量信息可以包括输出流量以及输入流量。所述输出流量可以反映该地区到所述多个地区中其他地区的打车订单数量，所述输入流量可以反映所述多个地区中其他地区到该地区的打车订单数量。或者，所述输出流量可以反映在该地区的常住乘客打车到所述多个地区中其他地区的打车订单数量，所述输入流量可以反映所述多个地区中其他地区的常住乘客打车到该区域的打车订单数量。某地区的常住乘客包括家庭地址在该地区的乘客、工作地点在该地区的乘客或者在平台上的首次注册地为该地区的乘客。

在一些实施例中，基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息可以包括：基于所述多个地区的打车订单生成流量流转矩阵C。c_ij为所述流量流转矩阵C的元素，可以表示从地区i到地区j的打车订单数量。其中，i取1、2、3、…N，j取1、2、3、…、N，N为所述多个地区的总数。当i＝j时，c_ij可以表示打车起点站和打车终点站都在j地区内的打车订单数量。或者，c_ij可以表示地区i的常住乘客打车到地区j的打车订单数量。其中，i取1、2、3、…N，j取1、2、3、…、N，N为所述多个地区的总数。当i＝j时，c_ij可以表示地区j的常住乘客的打车终点站在地区j内的打车订单数量。

在一些实施例中，基于所述多个地区的乘客打车的流向流量信息相似度确定至少一个地区群组可以包括：对所述流量流转矩阵C进行双向聚类，得到每个地区的输出流量聚类结果以及输入流量聚类结果。其中，所述双向聚类可以包括对所述流量流转矩阵C的行向量和列向量分别进行聚类。

在一些实施例中，基于所述多个地区的乘客打车的流向流量信息相似度确定至少一个地区群组可以包括：对所述流量流转矩阵C进行双向聚类前还包括对所述流量流转矩阵C进行全局归一化。

在一些实施例中，对所述流量流转矩阵C进行双向聚类可以包括：基于流量流转矩阵C得到至少一个行压缩矩阵以及至少一个列压缩矩阵；对所述至少一个行压缩矩阵的行向量或列向量进行聚类，以及对所述至少一个列压缩矩阵的行向量或列向量进行聚类，得到所述多个地区中每个地区的输出流量聚类结果以及输入流量聚类结果。所述行压缩矩阵以及列压缩矩阵的维度均可以小于流量流转矩阵C的维度。

在一些实施例中，对所述流量流转矩阵C进行双向聚类还可以包括：对流量流转矩阵C进行奇异值分解，得到所述行压缩矩阵以及所述列压缩矩阵。

在一些实施例中，基于所述多个地区的乘客打车的流向流量信息相似度确定至少一个地区群组可以进一步包括：基于所述多个地区中每个地区在所述一个或多个周期内的输出流量聚类结果以及输入流量聚类结果，生成该地区的双向聚类时间序列；计算所述多个地区中任意两个地区的双向聚类时间序列之间的相似度；基于所述相似度，对所述多个地区聚类，得到所述至少一个地区群组。

第二方面，本发明披露了一种地区聚类系统。该系统可以包括获取模块和群组模块。所述获取模块可以用于获取一个或多个周期内的多个地区的打车订单。所述群组模块可以用于，对所述一个或多个周期中的每个周期，基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息；并基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组。其中，所述地区群组可以包括所述多个地区中的至少一个地区，所述多个地区中的任意一个地区的乘客打车的流向流量信息可以包括输出流量以及输入流量。所述输出流量可以反映该地区到所述多个地区中其他地区的打车订单数量，所述输入流量可以反映所述多个地区中其他地区到该地区的打车订单数量。或者，所述输出流量可以反映在该地区的常住乘客打车到所述多个地区中其他地区的打车订单数量，所述输入流量可以反映所述多个地区中其他地区的常住乘客打车到该区域的打车订单数量。某地区的常住乘客包括家庭地址在该地区的乘客、工作地点在该地区的乘客或者在平台上的首次注册地为该地区的乘客。

第三方面，本发明披露了一种计算机可读存储介质。所述存储介质可以存储计算机指令，所述计算机指令运行时可以执行所述地区聚类方法。

第四方面，本发明披露了一种地区聚类的装置。所述装置可以包括处理器。所述处理器可以用于执行所述地区聚类方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构和操作。

图1是根据本申请的一些实施例示出的示例性地区聚类的应用场景示意图；

图2是根据本申请的一些实施例示出的示例性计算设备的示例性硬件组件和/或软件组件的示意图；

图3是根据本申请的一些实施例示出的示例性移动设备的示例性硬件组件和/或软件组件的示意图；

图4是根据本申请的一些实施例示出的示例性地区聚类系统的功能模块框图；

图5是根据本申请的一些实施例示出的示例性地区聚类流程示意图；

图6是根据本申请的一些实施例示出的示例性基于流量流转矩阵确定地区聚类结果的流程示意图；

图7是根据本申请的一些实施例示出的示例性基于双聚类时间序列确定地区群组的流程示意图；

图8是一种根据本申请的一些实施例示出的示例性流量流转矩阵；

图9是一种根据本申请的一些实施例示出的示例性输出流量聚类结果和输入流量聚类结果。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块或单元做出了各种引用，然而，任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本申请的实施例可以应用于不同的运输系统，不同的运输系统包括但不限于陆地、海洋、航空、航天等中的一种或几种的组合。例如，出租车、专车、顺风车、巴士、代驾、火车、动车、高铁、船舶、飞机、热气球、无人驾驶的交通工具、收/送快递等应用了管理和/或分配的运输系统。本申请的不同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制系统、企业内部分析系统、人工智能机器人等中的一种或几种的组合。应当理解的是，本申请的系统及方法的应用场景仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。例如，其他物品使用管控系统。

图1是根据本申请的一些实施例示出的示例性地区聚类的应用场景示意图。所述应用场景可以适用于网约车打车平台。示例性应用场景100可以包括服务器110、网络120、消费方130、服务方140和存储器150。

服务器110可以用于对收集的信息进行分析加工以生成分析结果的系统。在一些实施例中，服务器110可以对消费方130发出的打车订单进行分析，并根据分析结果将所述打车订单发送给特定的服务方140。在一些实施例中，服务器110可以获取一个或多个周期内的多个地区的打车订单，并基于所述打车订单确定至少一个地区群组。服务器110可以是一个服务器，也可以是一个服务器群组。所述服务器群组可以是集中式的，例如数据中心。所述服务器群组也可以是分布式的，例如一个分布式系统。服务器110可以是本地的，也可以是远程的。

服务器110可以包括引擎112。所述引擎112可以用于执行服务器110的指令(程序代码)。例如，引擎112能够执行地区聚类程序的指令，进而将多个地区划分为一个或多个群组。所述地区聚类程序可以以计算机指令的形式存储在计算机可读存储介质(例如，存储器150)中。

网络120可以提供信息交换的渠道。在一些实施例中，服务器110、消费方130、服务方140和/或存储器150之间可以通过网络120交换信息。例如，服务器110可以通过网络120接收消费方130发送的打车订单。又例如，服务器110可以通过网络120向服务方140发送消费方130发送的打车订单。再例如，服务器110可以通过网络120从存储器150获取信息(例如，多个地区的打车订单)。

网络120可以是单一网络，也可以是多种网络组合的。网络120可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等中的一种或几种的组合。网络120可以包括多种网络接入点，如有线或无线接入点、基站(如120-1，120-2)或网络交换点，通过以上接入点使数据源连接网络120并通过网络发送信息。

消费方130是指发布服务需求(例如，打车订单)的个人(例如，用户)、工具或者其他实体。作为示例，消费方130可以包括台式电脑130-1、笔记本电脑130-2、机动车的内置设备130-3、移动设备130-4。

服务方140是执行服务需求(例如，打车订单)的个人(例如，司机)、工具(例如，汽车)或者其他实体。作为示例，服务方140可以包括但不限于台式电脑140-1、笔记本电脑140-2、机动车的内置设备140-3、移动设备140-4。

存储器150可以泛指具有存储功能的设备。存储器150主要用于存储从消费方130和/或服务方140收集的数据和服务器110工作中产生的各种数据。例如，存储器150可以存储一个或多个周期内的多个地区的打车订单信息。存储器150可以是本地的，也可以是远程的。系统数据库与系统其他模块间的连接或通信可以是有线的，也可以是无线的。在一些实施例中，服务器110可以直接访问存取储存在存储器150的数据信息，也可以直接通过网络120访问存取消费方130和/或服务方140的信息。

应该注意的是，关于应用场景100的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，存储器150和服务器110可以是本地连接，而不是通过网络120进行连接。

图2是根据本申请的一些实施例示出的示例性计算设备的示例性硬件组件和/或软件组件的示意图。如图2所示，计算设备200可以包括处理器210、存储器220、输入/输出接口230和通信通信端口240。

处理器210可以执行计算指令(程序代码)并执行本发明描述的服务器110的功能。所述计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(所述功能指本发明中描述的特定功能)。例如，处理器210可以处理应用场景100中一个或多个周期内的多个地区的打车订单，生成所述多个地区的乘客打车的流向流量信息，进而确定所述多个地区的乘客打车的流向流量信息相似度。又例如，处理器210可以基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组，进而对所述地区群组进行有针对性的运营活动。在一些实施例中，处理器210可以包括微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等，或其任意组合。仅为了说明，图2中的计算设备200只描述了一个处理器，但需要注意的是本发明中的计算设备200还可以包括多个处理器。

存储器220可以存储从应用场景100中任何主体获得的数据/信息，例如，多个地区的打车订单，乘客信息。在一些实施例中，存储器220可以包括大容量存储器、可移动存储器、易失性读取和写入存储器和只读存储器(ROM)等，或其任意组合。示例性大容量存储器可以包括磁盘、光盘和固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘和磁带等。易失性读取和写入存储器可以包括随机存取存储器(RAM)。RAM可以包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用盘ROM等。

输入/输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中，输入/输出接口230可以使用户(例如，消费方130)与服务器110进行联系。在一些实施例中，输入/输出接口230可以包括输入装置和输出装置。示例性输入装置可以包括键盘、鼠标、触摸屏和麦克风等，或其任意组合。示例性输出设备可以包括显示设备、扬声器、打印机、投影仪等，或其任意组合。示例性显示装置可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等，或其任意组合。

通信端口240可以连接到网络以便数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等，或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如，3G、4G或5G等)等，或其任意组合。在一些实施例中，通信端口240可以是标准化端口，如RS232、RS485等。在一些实施例中，通信端口240可以是专门设计的端口。

图3是用于实现本发明技术方案的专用系统的示例性移动设备300的框图。如图3所示，所述移动设备300可以包括通信平台310、显示器320、图形处理器(GPU)330、中央处理器(CPU)340、输入/输出接口350、内存360、存储器370等。在一些实施例中，操作系统361(如，iOS，Android，Windows Phone等)和应用程序362可以从存储器370加载到内存360中，以便由CPU 340执行。应用程序362可以包括浏览器或用于网约车服务的应用程序。

为了实现在本发明中描述的各种模块、单元及其功能，计算设备或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这些计算机或移动设备的硬件元件、操作系统和编程语言本质上是常规的，并且本领域技术人员熟悉这些技术后可将这些技术适应于本发明所描述的地区聚类系统。具有用户界面元件的计算机可以用于实现个人计算机(PC)或其他类型的工作站或终端设备，如果适当地编程，计算机也可以充当服务器。

图4是根据本申请的一些实施例示出的示例性地区聚类系统的功能模块框图。地区聚类系统400可以包括获取模块410和群组模块420。

获取模块410可以获取一个或多个周期内的多个地区的打车订单。

所述一个或多个周期中的任意一个周期可以是任意一段时间，例如一周、一个月、一个季度，又例如寒假、暑假、国庆法定节假日、春节法定节假日。

所述多个地区中的任意一个地区可以是任意一个区域范围，例如城市、县城(区)、城镇，又例如人工划定的区域。

所述打车订单可以是任意打车订单，例如网约车打车订单，包括快车订单、专车订单、顺风车订单、出租车订单、公交车订单、豪华车订单、单车订单等，又例如传统打车订单。打车订单可以包括乘客信息、打车起点站、打车终点站、打车开始时间、打车订单数量等。乘客信息可以包括乘客的家庭地址、工作地点、在网约车平台上的注册地(例如，在网约车平台上的首次注册地)等。

群组模块420可以基于多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息，并基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组。

所述乘客打车的流向流量信息可以包括输出流量和输入流量。

例如，对于一个地区，所述输出流量可以反映该地区到其他地区的打车订单数量，例如输出流量就是该地区到其他地区的打车订单数量，又例如输出流量与该地区到其他地区的打车订单数量成正比；所述输入流量可以反映其他地区到该地区的打车订单数量，例如输入流量就是其他地区到该地区的打车订单数量，又例如输出流量与其他地区到该地区的打车订单数量成正比。其中，一个地区到另一个地区的打车订单是指打车起点站为所述一个地区，打车终点站为所述另一个地区的打车订单。应当可以理解的是，打车起点站和终点站为同一地区的打车订单的数量(即，本地流量)既可以表示该地区的输出流量，也可以表示该地区的输入流量。

又例如，对于一个地区，所述输出流量可以反映该地区的常住乘客打车到其他地区的打车订单的数量，所述输入流量可以反映其他地区的常住乘客打车到该地区的打车订单数量。其中，一个地区的常住乘客是指家庭地址在该地区的乘客、工作地点在该地区的乘客或者在网约车平台首次注册地为该地区的乘客。应当可以理解的是，一个地区的常住乘客打车到该地区的打车订单数量(即，本地流量)可以表示该地区的输出流量，也可以表示该地区的输入流量。本实施例更关心的是一个地区常住乘客的去向，例如，A地区的常住乘客从B地区到C地区，这个流量算入A地区到B地区的输出流量中。

所述流向流量信息相似度可以包括两个地区的输出流量相似度和输入流量相似度。在一些实施例中，输出流量相似度可以由两个地区的输出流量的大小和方向决定，输入流量相似度可以由两个地区的输入流量的大小和方向决定。

所述至少一个地区群组可以包括至少一个地区。在一些实施例中，当两个地区之间的流向流量信息相似度较大时，所述两个地区可以被划分为同一个地区群组。

在一些实施例中，群组模块420可以对一个或多个周期内的多个地区的打车订单生成所述多个打车地区的乘客打车的流向流量信息。

在一些实施例中，群组模块420可以包括流量流转矩阵单元421和时间序列单元422。

流量流转矩阵单元421可以基于多个地区的打车订单生成流量流转矩阵(例如，C)。流量流转矩阵C可以表示多个地区的乘客打车的流向流量信息。

流量流转矩阵C的行标签包括多个地区，例如，地区1、地区2、地区3、……、地区i。流量流转矩阵C的列标签可以包括多个地区，例如，地区1、地区2、地区3、……、地区j。行标签和列标签中的地区可以是相同的，也可以是不同的。行标签和列标签中的地区的前后顺序可以是相同的，也可以是不同的。

c_ij为流量流转矩阵C的元素，对应的行标签为地区i，对应的列标签为地区j。c_ij可以表示地区i输出到地区j的流量，即从地区i到地区j的打车订单的数量或者地区i的常住乘客打车到地区j的打车订单数量。相应地，当i＝j时，c_ij可以表示打车起点站和打车终点站都在j地区内的打车订单数量或地区j的常住乘客的打车终点站在地区j内的打车订单数量。其中，i可以取1、2、3、…N，j可以取1、2、3、…、N，N为所述多个地区的总数。

作为示例，图8是一种根据本申请的一些实施例示出的示例性流量流转矩阵。流量流转矩阵800的行标签包括地区1、地区2、地区3、……、地区i，列标签包括地区1、地区2、地区3、……、地区j。行标签和列标签中的地区的先后顺序是相同的。

流量流转矩阵800中的每个元素(例如，c_ij)表示地区地区i输出到地区j的流量。例如，c₂₃(即，463)表示地区2输出到地区3的流量。对角线元素表示地区i或j的本地流量。例如，c₂₂(即，672)表示地区地区2的本地流量。流量流转矩阵800的每一行表示地区i的输出流量。例如，第2行表示表示地区2输出到地区1、地区2、地区3、……、地区i的流量，即地区2的输出流量。流量流转矩阵800的每一列表示地区j的输入流量。例如，第2列表示表示地区1、地区2、地区3、……、地区i输入到地区2的流量，即地区2的输入流量。

进一步地，流量流转矩阵单元421还可以对流量流转矩阵C进行双向聚类，得到每个地区的输出流量聚类结果以及输入流量聚类结果。

在一些实施例中，所述双向聚类可以包括对流量流转矩阵C的行向量和列向量分别进行聚类。对流量流转矩阵C的行向量进行聚类可以得到每个地区的输出流量聚类结果，对流量流转矩阵C的列向量进行聚类可以得到每个地区的输入流量聚类结果。

在一些实施例中，流量流转矩阵单元421可以基于流量流转矩阵C得到至少一个行压缩矩阵和至少一个列压缩矩阵。相应地，所述双向聚类可以包括对所述行压缩矩阵的行向量或列向量进行聚类，对所述列压缩矩阵的行向量或列向量进行聚类。对所述行压缩矩阵的行向量或列向量进行聚类可以得到流量流转矩阵C中的每个地区的输出流量聚类结果。对所述列压缩矩阵的行向量或列向量进行聚类可以得到流量流转矩阵C中的每个地区的输入流量聚类结果。

上述对行向量或列向量进行聚类的算法可以包括但不限于K-means算法、X-means算法等。

上述行压缩矩阵和列压缩矩阵的维度均可以小于流量流转矩阵C的维度。具体地，相比于流量流转矩阵C，上述行压缩矩阵和列压缩矩阵中的为零的元素和接近于零的元素的个数总和较小。

在一些实施例中，流量流转矩阵单元421可以对流量流转矩阵C进行奇异值分解，得到上述行压缩矩阵以及上述列压缩矩阵。更多关于双向聚类的描述可以参见附图6的描述。

所述输出流量聚类结果可以包括一个或多个行类，所述输入流量聚类结果可以包括一个或多个列类。

作为示例，图9是一种根据本申请的一些实施例示出的示例性输出流量聚类结果和输入流量聚类结果。所述输出流量聚类结果包括行类1、行类2、……，所述输入流量聚类结果包括列类1、列类2、列类3、……。例如，地区12和地区44的输出流量聚类结果为行类1，输入流量聚类结果为列类1。又例如，地区7和地区51的输出流量聚类结果为行类1，输入流量聚类结果为列类3。

为了更方便的叙述，可以将具体的一个周期内具体的一个地区的输出流量聚类结果和输入流量聚类结果标记为一个数组(m_a/b,n_a/b)。其中，a表示地区a，a可以为任何正整数，例如，1、2、3、…、N；b表示周期b，b可以为任何正整数；m表示地区a的输出流量聚类结果在第m行类；n表示地区a的输入流量聚类结果在第n列类。例如，参考图9，可以将地区12在第一周期内的输出流量聚类结果为第一行类，输入流量聚类结果为第一列类表示为(1_12/1,1_12/1)。

进一步地，流量流转矩阵单元421还可以对流量流转矩阵C进行预处理。所述预处理可以包括：行归一化、列归一化、全局归一化等。

所述行归一化是指对流量流转矩阵C的每一行进行归一化处理。所述列归一化是指对流量流转矩阵C的每一列进行归一化处理。所述全局归一化是指对流量流转矩阵C整体进行归一化处理，使得流量流转矩阵C中的所有元素的大小(或称为元素值)介于更短的数值范围区间内，例如介于0和1之间。

在一些实施例中，流量流转矩阵单元421可以在双向聚类之前对流量流转矩阵C进行行归一化、列归一化、全局归一化。

在一些实施例中，流量流转矩阵单元421可以基于对数归一化策略对流量流转矩阵C进行全局归一化。作为示例，流量流转矩阵单元421可以基于公式(1)对流量流转矩阵C进行全局归一化。

其中，c_ij表示流量流转矩阵C的元素，i表示元素c_ij对应的行标签是地区i，j表示元素c_ij对应的列标签是地区j，c_i.表示第i行中所有元素的平均值，c._j表示第j列中所有元素的平均值，c..表示流量流转矩阵C中所有元素的平均值，c′_ij表示经过全局归一化的流量流转矩阵C的元素。

时间序列单元422可以基于一个地区在一个或多个周期内的输出流量聚类结果以及输入流量聚类结果，生成该地区的双向聚类时间序列。

如上文所述，一个地区在一个周期内的输出流量聚类结果和输入流量聚类结果可以标记为一个数组。那么，一个地区在多个周期内的输出流量聚类结果和输入流量聚类结果为多个数组。

在一些实施例中，时间序列单元422可以将上述多个数组按照时间顺序组合，得到该地区的双向聚类时间序列。作为示例，假设地区1在第一周期到第三周期内的输出流量聚类结果和输入流量聚类结果可以分别表示为(1,1)、(1,2)和(1,2)。则时间序列单元422可以按照第一周期到第三周期的时间顺序将(1,1)、(1,2)和(1,2)组合，得到地区1的双向聚类时间序列。

进一步地，时间序列单元422可以计算任意两个地区的双向聚类时间序列之间的相似度。在一些实施例中，所述相似度与两个地区双向聚类时间序列之间的距离相关，例如距离越大越不相似，距离越小越相似。

所述任意两个地区的双向聚类时间序列的长度，即所述任意两个地区的输出流量聚类结果(或输入流量聚类结果)的个数可以是相同的，也可以是不同的。换句话说，任意两个地区的双向聚类时间序列对应的周期数目可以是相同的，也可以是不同的。作为示例，每个地区的双向聚类时间序列对应的周期数目均为52，即个地区的双向聚类时间序列由52个数组组成。

在一些实施例中，时间序列单元422可以计算任意两个地区的双向聚类时间序列中同一周期对应的两个数组之间的距离。然后，时间序列单元422可以基于所述同一周期对应的两个数组之间的距离计算两个地区的双向聚类时间序列之间的距离。在一些实施例中，在计算上述距离的过程中，时间序列单元422可以赋予不同周期对应的两个数组之间的距离以不同的权重。例如，时间序列单元422可以赋予春节法定节假日所属的周期对应的两个数组之间的距离以较大的权重。

作为示例，假设每个地区的双向聚类时间序列含有三个数组，分别对应于第一周期、第二周期和第三周期。时间序列单元422可以计算任意两个双向聚类时间序列中第一周期对应的两个数组之间的距离，标记为第一距离。时间序列单元422可以计算任意两个双向聚类时间序列中第二周期对应的两个数组之间的距离，标记为第二距离。时间序列单元422可以计算任意两个双向聚类时间序列中第三周期对应的两个数组之间的距离，标记为第三距离。进一步地，时间序列单元422可以基于所述第一距离、第二距离和第三距离计算所述任意两个双向聚类时间序列之间的距离。在计算所述任意两个双向聚类时间序列之间的距离时，时间序列单元422可以赋予所述第一距离、第二距离和第三距离以不同的权重。

在一些实施例中，时间序列单元422可以基于动态时间规整算法(Dynamic TimeWrapping Algorithm,DTWA)计算任意两个地区的双向聚类时间序列之间的距离。所述距离是指规整距离(wrap distance)，可以表示所述任意两个地区的双向聚类时间序列之间的相似度。所述规整距离综合考虑了多个周期内的任意两个地区的输出流量聚类结果和输入流量聚类结果之间的相似度。可以理解的是，规整距离仅作为示例，时间序列单元422可以计算任意两个地区的双向聚类时间序列之间的其他距离，例如欧氏距离。

进一步地，时间序列单元422可以基于上述距离，对多个地区聚类，得到至少一个地区群组。

在一些实施例中，时间序列单元422可以比较上述距离和预设阈值。当上述距离大于预设阈值时，时间序列单元422可以判定上述任意两个地区属于同一个地区群组。所述阈值可以是人工设定的，也可以是系统自动生成的。更多关于双向聚类时间序列的描述可以参见附图7的相关描述。

应该注意的是，关于地区聚类系统400的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，流量流转矩阵单元421和时间序列单元422没有被拆分开，可以为一个整体。又例如，地区聚类系统400可以进一步包括运营模块。所述运营模块可以对同一地区群组中的多个地区实施有针对性的运营活动，从而提高了运营效率。

图5是根据本申请的一些实施例示出的示例性地区聚类流程示意图。所述地区聚类流程可以由地区聚类系统400执行。流程500可以包括：

步骤510，获取模块410可以获取一个或多个周期内的多个地区的打车订单。

打车订单可以包括乘客信息、打车起点站、打车终点站、打车开始时间、打车订单数量等。乘客信息可以包括乘客的家庭地址、工作地点、在网约车平台上的注册地(例如，在网约车平台上的首次注册地)等。

作为示例，获取模块410可以获取52个周期内的多个地区的打车订单。每个周期为一周。

步骤520，群组模块420可以，对所述一个或多个周期中的每个周期，基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息，并基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组。

具体地，步骤520可以包括以下一个或多个步骤。

流量流转矩阵单元421可以基于多个地区的打车订单生成流量流转矩阵C。然后，流量流转矩阵单元421可以对流量流转矩阵C进行全局归一化。再然后，流量流转矩阵单元421可以对经过全局归一化的流量流转矩阵C进行双向聚类，得到每个地区的输出流量聚类结果以及输入流量聚类结果。

进一步地，时间序列单元422可以基于一个地区在一个或多个周期内的输出流量聚类结果以及输入流量聚类结果，生成该地区的双向聚类时间序列。然后，时间序列单元422可以计算任意两个地区的双向聚类时间序列之间的距离。再然后，时间序列单元422可以基于上述距离，对多个地区聚类，得到至少一个地区群组。

更多关于步骤520的描述可以参见图6和图7的相关说明。

应该注意的是，关于流程500的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，流程500可以进一步包括其他操作，例如，对同一地区群组中的多个地区实施有针对性的运营活动。

图6是根据本申请的一些实施例示出的示例性基于流量流转矩阵确定地区聚类结果的流程示意图。所述基于流量流转矩阵确定地区聚类结果的流程可以由地区聚类系统400中的群组模块420执行。流程600可以为流程500的更详细的说明。流程600可以包括：。

步骤610，流量流转矩阵单元421可以基于多个地区的打车订单生成流量流转矩阵C。

流量流转矩阵C可以表示多个地区的乘客打车的流向流量信息。流量流转矩阵C中的每个元素(c_ij)可以表示地区i输出到地区j的流量，即从地区i到地区j的打车订单的数量或者地区i的常住乘客打车到地区j的打车订单数量。更多关于流量流转矩阵C的描述可以参考图4和图8的相关描述。

在一些实施例中，流量流转矩阵单元421可以基于上述多个地区的打车订单统计每个地区输出到其他地区的流量。然后，根据流量流转矩阵C的行标签和列标签，流量流转矩阵单元421可以将统计的流量填充到对应的位置，进而生成流量流转矩阵C。

步骤620，流量流转矩阵单元421可以对所述流量流转矩阵C进行全局归一化。

由于不同地区的人口规模、出行特性不同，不同地区的输出流量和输出流量可能会存在较大的差异。换句话说，流量流转矩阵C中的不同元素值可能会存在较大的差异。为了消除所述差异，流量流转矩阵单元421可以对流量流转矩阵C进行全局归一化处理，例如使流量流转矩阵C的元素值均分布在[0,1]。在一些实施例中，流量流转矩阵单元421可以根据公式(1)对流量流转矩阵C进行全局归一化，得到经过全局归一化的流量流转矩阵。将经过全局归一化的流量流转矩阵标记为C′。

步骤630，流量流转矩阵单元421可以对经过全局归一化的流量流转矩阵C′进行双向聚类，得到每个地区的输出流量聚类结果以及输入流量聚类结果。

在一些实施例中，所述双向聚类可以包括对流量流转矩阵C′的行向量和列向量分别进行聚类。对流量流转矩阵C′的行向量进行聚类可以得到每个地区的输出流量聚类结果，对流量流转矩阵C′的列向量进行聚类可以得到每个地区的输入流量聚类结果。

在一些实施例中，流量流转矩阵单元421可以基于流量流转矩阵C′得到至少一个行压缩矩阵和至少一个列压缩矩阵。所述双向聚类可以包括对所述行压缩矩阵的行向量或列向量进行聚类，以及对所述列压缩矩阵的行向量或列向量进行聚类。对所述行压缩矩阵的行向量或列向量进行聚类可以得到流量流转矩阵C′中的每个地区的输出流量聚类结果。对所述列压缩矩阵的行向量或列向量进行聚类可以得到流量流转矩阵C′中的每个地区的输入流量聚类结果。

上述行压缩矩阵和列压缩矩阵的维度均可以小于流量流转矩阵C′的维度。具体地，相比于流量流转矩阵C′，上述行压缩矩阵和列压缩矩阵中的为零的元素和接近于零的元素的个数总和较小。

上述行压缩矩阵以及上述列压缩矩阵可以由流量流转矩阵单元421对流量流转矩阵C′进行奇异值分解得到。具体包括以下步骤：

流量流转矩阵单元421可以对流量流转矩阵C′进行奇异值分解，获得矩阵U、矩阵Σ和矩阵V，如公式(2)所示：

C′＝UΣV^T (2)

其中，C′表示表示经过全局归一化后的流量流转矩阵；矩阵U包括多个左奇异向量；Σ表示对角矩阵，其对角线上的元素为奇异值；矩阵V包括多个右奇异向量。在一些实施例中，矩阵U和矩阵V分别是行正定和列正定的。

进一步地，流量流转矩阵单元421可以选取矩阵U中的多个左奇异向量，将所述多个左奇异向量组成的矩阵的转置矩阵与流量流转矩阵C′相乘，得到上述列压缩矩阵。流量流转矩阵单元421可以选取矩阵V中的多个右奇异向量，将所述流量流转矩阵C′与多个右奇异向量组成的矩阵相乘，得到上述行压缩矩阵。

为了便于叙述，假设流量流转矩阵单元421基于矩阵U中的p个左奇异向量，得到行压缩矩阵；基于矩阵V中的q个右奇异向量，得到列压缩矩阵。参考上文的描述，流量流转矩阵C′为N*N的方阵。相应地，所述行压缩矩阵为N*q的矩阵，所述列压缩矩阵为p*N的矩阵。p和q为小于N的正整数。

在一些实施例中，p和q的值可以相同或不同。

在一些实施例中，p和q的值可以根据经验进行设置和调整。例如，当经验判断多个地区的输出流量聚类结果和输入流量聚类结果与实际情况不符时，可以调整p和q的值。

在一些实施例中，所述p个左奇异向量可以为p个奇异值(例如将奇异值降序排列，取前p个奇异值)在矩阵U中对应的左奇异向量，所述q个右奇异向量可以为q个奇异值(例如将奇异值降序排列，取前q个奇异值)在矩阵V中对应的右奇异向量。

上述每个地区的输出流量聚类结果可以包括一个或多个行类，所述输入流量聚类结果可以包括一个或多个列类。具体关于输出流量聚类结果和输入流量聚类结果的描述可以参考图4和图9的相关说明。

应该注意的是，关于流程600的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，步骤620是非必须的，可以省略。

图7是根据本申请的一些实施例示出的示例性基于双聚类时间序列确定地区群组的流程示意图。所述基于双聚类时间序列确定地区群组的流程可以由地区聚类系统400中的群组模块420执行。流程700可以为流程600的进一步展开。流程700可以包括：

步骤710，时间序列单元422可以基于多个地区中每个地区在一个或多个周期内的输出流量聚类结果以及输入流量聚类结果，生成该地区的双向聚类时间序列。

作为示例，一个周期为一周，时间序列单元422可以基于多个地区中每个地区在52个周期(即一年)内的输出流量聚类结果和输入流量聚类结果，生成该地区的双向聚类时间序列。如上文所述，一个地区在一个周期内的输出流量聚类结果和输入流量聚类结果可以标记为一个数组。那么，每个地区在52个周期内的输出流量聚类结果和输入流量聚类结果可以为52个数组。时间序列单元422可以将所述52个数组按照时间顺序组合，生成该地区的双向聚类时间序列。

步骤720，时间序列单元422可以计算所述多个地区中任意两个地区的双向聚类时间序列之间的相似度。

参考上文关于时间序列单元的描述，任意两个地区的双向聚类时间序列之间的距离可以表征相似度。时间序列单元422可以计算任意两个地区的双向聚类时间序列中同一周期对应的两个数组之间的距离。然后，时间序列单元422可以基于所述同一周期对应的两个数组之间的距离计算两个地区的双向聚类时间序列之间的距离。在计算上述距离的过程中，时间序列单元422可以赋予不同周期对应的两个数组之间的距离以不同的权重。

在一些实施例中，时间序列单元422可以根据公式(3)计算两个地区的双向聚类时间序列之间的距离。

D_a1/a2＝α₁D_a1/a2/1+α₂D_a1/a2/2+…+α_bD_a1/a2/b…(3)，

其中，a1表示地区a1；a2表示地区a2；b表示周期b；D_a1/a2表示地区a1和地区a2的双向聚类时间序列之间的距离；D_a1/a2/b表示地区a1和地区a2的双向聚类时间序列中周期b对应的两个数组之间的距离，即(m_a1/b,n_a1/b)与(m_a2/b,n_a2/b)之间的距离；α_b为周期b对应的两个数组之间的距离的权重。α_b可以为任何值，其可以由人工设定或系统自动设定。

在一些实施例中，时间序列单元422可以基于动态时间规整算法(Dynamic TimeWrapping Algorithm,DTWA)计算任意两个地区的双向聚类时间序列之间的距离。

步骤730，时间序列单元422可以基于上述任意两个地区的双向聚类时间序列之间的相似度，对多个地区聚类，得到至少一个地区群组。

在一些实施例中，时间序列单元422可以比较任意两个地区的双向聚类时间序列之间的相似度和预设阈值。如上文所述，任意两个地区的双向聚类时间序列之间的距离可以表示所述任意两个地区的双向聚类时间序列之间的相似度。当任意两个地区的双向聚类时间序列之间的距离小于预设阈值(即相似度大于预设阈值)时，时间序列单元422可以判定所述任意两个地区属于同一个地区群组。所述阈值可以是人工设定的，也可以是系统自动生成的。

关于流程700的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，流程700可以进一步包括其他操作，例如，对同一地区群组中的多个地区实施有针对性的运营活动。

与现有技术相比，本申请实施例可能带来的有益效果包括但不限于：：

一、基于多个地区的打车订单，将所述多个地区划分为至少一个地区群组，从而在所述多个地区中找到具有相关性的地区。

二、基于地区群组，对同一群组中的地区实施有针对性的运营活动，提高了运营效率。

需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文所描述的各个模块和单元并不是必须的，对于本领域的专业人员来说，在了解本申请内容和原理后，都可能在不背离本技术原理、结构的情况下，对该系统进行形式和细节上的各种修正和改变，各个模块可以任意组合，或者构成子系统与其它模块连接，而这些修正和改变仍在本申请的权利要求保护范围之内。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述为本申请的基本构思，仅以实施例形式呈现，显而易见地，本领域的技术人员依据本申请作出相应变化、改进或修正。这些变化、改进和修正已被本申请所暗示或间接提出，均包含在本申请实施例的精神或范围之内。

对于描述本申请的术语，例如“一个实施例”、“一些实施例”或“某些实施例”，表示与它们相关的至少一个特征、结构或特点是包含在本申请的实施例之中的。

另外，对于本领域的技术人员来说，本申请中的实施例可能涉及到一些新的流程、方法、机器、产品或者与它们相关的改进。因此，本申请的实施例可以在纯硬件或纯软件中实施，其中软件包括但不限于操作系统、常驻软件或微代码等；也可以在同时包含硬件和软件的“系统”、“模块”、“子模块”、“单元”等中实施。另外，本申请的实施例可以以计算机程序的形式存在，它们可以承载在计算机可读取的媒介中。

Claims

1.一种地区聚类方法，其特征在于，包括：

获取一个或多个周期内的多个地区的打车订单；

对所述一个或多个周期中的每个周期，

基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息；

基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组；

其中，所述地区群组包括所述多个地区中的至少一个地区；

所述多个地区中的任意一个地区的乘客打车的流向流量信息包括输出流量以及输入流量；

所述输出流量反映该地区到所述多个地区中其他地区的打车订单数量，所述输入流量反映所述多个地区中其他地区到该地区的打车订单数量；

或者，所述输出流量反映在该地区的常住乘客打车到所述多个地区中其他地区的打车订单数量，所述输入流量反映所述多个地区中其他地区的常住乘客打车到该地区的打车订单数量；某地区的常住乘客包括家庭地址在该地区的乘客、工作地点在该地区的乘客或者在平台上的首次注册地为该地区的乘客，

所述基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息包括：

基于所述多个地区的打车订单生成流量流转矩阵C；

c _ij为所述流量流转矩阵C的元素，表示从地区i到地区j的打车订单数量，其中i取1、2、3、…N，j取1、2、3、…、N，N为所述多个地区的总数，当i=j时，c _ij表示打车起点站和打车终点站都在j地区内的打车订单数量；或者，

c _ij表示地区i的常住乘客打车到地区j的打车订单数量，其中i取1、2、3、…N，j取1、2、3、…、N，N为所述多个地区的总数，当i=j时，c _ij表示地区j的常住乘客的打车终点站在地区j内的打车订单数量；

所述基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组包括：

对所述流量流转矩阵C进行双向聚类，得到每个地区的输出流量聚类结果以及输入流量聚类结果；其中，所述双向聚类包括对所述流量流转矩阵C的行向量和列向量分别进行聚类；

基于所述多个地区中每个地区在所述一个或多个周期内的输出流量聚类结果以及输入流量聚类结果，按照时间顺序组合生成该地区的双向聚类时间序列；

计算所述多个地区中任意两个地区的双向聚类时间序列之间的相似度；

基于所述相似度，对所述多个地区聚类，得到所述至少一个地区群组。

2.根据权利要求1所述的方法，其特征在于，基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组包括：

对所述流量流转矩阵C进行双向聚类前还包括对所述流量流转矩阵C进行全局归一化。

3.根据权利要求1所述的方法，其特征在于，对所述流量流转矩阵C进行双向聚类包括：

基于流量流转矩阵C得到至少一个行压缩矩阵以及至少一个列压缩矩阵，所述行压缩矩阵以及列压缩矩阵的维度均小于流量流转矩阵C的维度；

对所述至少一个行压缩矩阵的行向量或列向量进行聚类，以及对所述至少一个列压缩矩阵的行向量或列向量进行聚类，得到所述多个地区中每个地区的输出流量聚类结果以及输入流量聚类结果。

4.根据权利要求3所述的方法，其特征在于，对所述流量流转矩阵C进行双向聚类还包括：

对流量流转矩阵C进行奇异值分解，得到所述行压缩矩阵以及所述列压缩矩阵。

5.一种地区聚类系统，其特征在于，所述系统包括获取模块和群组模块；

所述获取模块用于获取一个或多个周期内的多个地区的打车订单；

所述群组模块用于，对所述一个或多个周期中的每个周期，基于所述多个地区的打车订单生成所述多个地区的乘客打车的流向流量信息；并基于所述多个地区的乘客打车的流向流量信息相似度，确定至少一个地区群组；

其中，所述地区群组包括所述多个地区中的至少一个地区；所述多个地区中的任意一个地区的乘客打车的流向流量信息包括输出流量以及输入流量；

或者，所述输出流量反映在该地区的常住乘客打车到所述多个地区中其他地区的打车订单数量，所述输入流量反映所述多个地区中其他地区的常住乘客打车到该地区的打车订单数量；某地区的常住乘客包括家庭地址在该地区的乘客、工作地点在该地区的乘客或者在平台上的首次注册地为该地区的乘客；

所述群组模块包括流量流转矩阵单元；

所述流量流转矩阵单元用于，基于所述多个地区的打车订单生成流量流转矩阵C；

c _ij为所述流量流转矩阵C的元素，表示从地区i到地区j的打车订单数量，其中i取1、2、3、…N，j取1、2、3、…、N，N为所述多个地区的总数，当i=j时，c _ij表示打车起点站和打车终点站都在地区j内的打车订单数量；或者，

所述流量流转矩阵单元进一步用于：

所述群组模块包括时间序列单元；所述时间序列单元用于：

基于所述多个地区中每个地区在所述一个或多个周期内的输出流量聚类结果以及输入流量聚类结果，生成该地区的双向聚类时间序列；

6.根据权利要求5所述的系统，其特征在于，所述流量流转矩阵单元进一步用于对所述流量流转矩阵C进行全局归一化。

7.根据权利要求5所述的系统，其特征在于，所述流量流转矩阵单元进一步用于：

8.根据权利要求7所述的系统，其特征在于，所述流量流转矩阵单元进一步用于：对流量流转矩阵C进行奇异值分解，得到所述行压缩矩阵以及所述列压缩矩阵。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令运行时执行如权利要求1-4任一所述地区聚类方法。

10.一种地区聚类的装置，其特征在于，包括处理器，所述处理器用于执行如权利要求1-4任一所述地区聚类方法。