CN116472562A - 用于自动行程熟悉度识别的移动设备和系统及其对应方法 - Google Patents

用于自动行程熟悉度识别的移动设备和系统及其对应方法 Download PDF

Info

Publication number
CN116472562A
CN116472562A CN202180076115.7A CN202180076115A CN116472562A CN 116472562 A CN116472562 A CN 116472562A CN 202180076115 A CN202180076115 A CN 202180076115A CN 116472562 A CN116472562 A CN 116472562A
Authority
CN
China
Prior art keywords
familiarity
trip
detection
measured
trips
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180076115.7A
Other languages
English (en)
Inventor
R·蒂瑟尔
T·泰坎佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Swiss Re AG
Original Assignee
Swiss Reinsurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Swiss Reinsurance Co Ltd filed Critical Swiss Reinsurance Co Ltd
Publication of CN116472562A publication Critical patent/CN116472562A/zh
Pending legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/28Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network with correlation of data from several navigational instruments
    • G01C21/30Map- or contour-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • H04W4/027Services making use of location information using location based information parameters using movement velocity, acceleration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/48Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/227Position in the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/45External transmission of data to or from the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Mechanical Engineering (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Transportation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)
  • Operations Research (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)

Abstract

提出了一种用于基于由与用户(6)和/或车辆相关联的移动远程信息处理设备(10)的多个传感器(102)测量的传感数据(3)的电子行程熟悉度检测(114)的方法和系统,多个传感器(102)至少包括GPS传感器(1024)和/或加速度计(1025),移动设备(10)包括一个或多个无线连接(105),其中,通过无线连接(105)中的至少一个,移动设备(10)借助于移动设备(10)到蜂窝数据传输网络(2)的天线连接而充当蜂窝数据传输网络(2)内的无线节点(221、…、225),并且多个传感器(102)连接到移动设备(10)的监测移动节点应用(101),其中,监测移动节点应用(101)捕捉移动设备(10)的多个传感器(102)的基于使用的传感数据(3)和/或基于用户的传感数据(3)。

Description

用于自动行程熟悉度识别的移动设备和系统及其对应方法
技术领域
本发明一般涉及基于传感器的电子行程熟悉度识别系统和设备,尤其涉及用于移动电话传感数据的系统和方法,如基于智能手机传感数据的运输模式检测和/或基于车载传感器测量数据的行程熟悉度识别或检测。更一般地,本发明涉及基于专门的环境或操作参数动态地对捕捉的传感数据作出反应的移动实时系统,尤其涉及在机动车辆操作的情境下对汽车或用户相关参数进行汽车使用监测、捕捉和反应。更特别地,本发明涉及用于行程熟悉度识别或检测的基于远程信息处理的设备和系统。最后,本发明还涉及基于远程信息处理的实时识别和检测系统。术语远程信息处理(特别地,交通远程信息处理)是指用于交通领域(诸如基于陆地或海上或基于空中的交通)中的通信、仪表和控制的传感系统以及信息技术。因此,本发明涉及远程信息处理和/或移动电话传感数据的使用,以及基于捕捉和测量的基于使用和/或基于用户的远程信息处理数据的实时测量、监测、动态和自动适配系统。
背景技术
在日常生活中,人们的行程模式和行程行为模式(无论步行、骑行、驾驶或使用公共交通)在熟悉的环境中通常是相似的或其自身是相似的。这使得自动行程识别成为可能。人们的行程链(特别是门到门行程链)的自动检测和基于传感的识别具有多种技术应用。对于基础设施规划者、公共运输提供者和/或交通控制系统等的较大区域的转向控制和优化,测量和了解起始点、目的地和从一个位置移动到另一个位置的通勤者或其他人的数量是理解道路和运输网络、道路基础设施和交通控制系统的技术要求的基础。
为了向私人或公共交通中的用户提供关于机会和问题的相关信息,技术上至关重要的是能够生成下一个目的地、行进时间和该人将要使用的公共交通工具的预测。对于许多人,相同的行程以规则的周期重复,即,每天、在(某些)工作日、每周或每月。这样的旅行者可以在他们规则使用的个人时间被主动地给予有针对性的关于他们经常使用的道路交通或公共运输线路中的突发事件的信息。因此,当例如出于许多技术原因连接到旅行者或作为旅行者的如智能手机之类的移动设备时,基于行程熟悉度模式和当前交通工具的行程的实时识别以及对可能的目的地的预测是强制性的。
此外,某个旅行者的行程熟悉度在许多情况下(诸如汽车行驶)对发生事故概率的测量值有直接影响,例如,与汽车行程相关,不仅考虑到特定环境中的选定路径,而且考虑到驾驶员对行程本身的熟悉度。一个已知的事实是,道路安全与人为因素密切相关,人为因素在约90%的撞车中起关键作用。在所有与驾驶员相关的撞车变量中,本发明特别关注行程熟悉度,以及与之伴随的驾驶员的路线熟悉度,以及其与道路安全的多种关系。与表示选择某个或熟悉的行程的频率的行程熟悉度相比,路线熟悉度在本文中被定义为特定驾驶员对重复行驶的所选行程上的路线的熟悉度,以及因此驾驶员对组成这些路线的道路元素的熟悉度。在路线熟悉度的情境中的词语熟悉度涉及过去经历过的给定刺激的频率,而在行程熟悉度的情境中的词语熟悉度涉及(频繁)选择的行程的相似性。因此,通过应用这些初步概念,熟悉路线的驾驶员是在熟悉的频繁选择的行程上行驶的驾驶员,并且在该特定行程上的行驶由不同的路线和道路元素组成,是反复经历的刺激。
应当注意,驾驶员还可以驾驶不同的车辆并且在他们可能熟悉或不熟悉的许多个人、环境、交通状况下行驶。所有这些因素都可能是有影响的:例如,可以仅在特定时间或在给定条件下向驾驶员建议熟悉的行程。对于适当的风险测量,例如,在某个行程中发生事故的概率的测量,自动化系统还应该能够捕捉对驾驶员对给定行程的熟悉度/不熟悉度的影响、系统人-车辆-环境的未见过的其他熟悉度的方面。
行程熟悉度状况可以容易地与经常发生的驾驶任务相关联,在几乎每天前往相同的工作场所(诸如通勤者)、学校、商店等时发生的驾驶任务。因此,路线熟悉度对于世界范围内的驾驶员(或一般的移动模式)都是非常常见的情况。交通流中的大量行程熟悉度驾驶员的一些示例报告如下。美国私人车辆行驶的车辆英里的大约三分之一是用于通勤。超过60%的被调查的意大利样本每周至少3天重复给定的行程,并且超过60%是平均每日行程。考虑路线熟悉度的原因之一是因为其对驾驶行为的影响。然而,通过影响驾驶行为,路线熟悉度可以影响基于道路和交通行为的安全方面。尽管如此,在现有技术系统中,缺少通过测量行程熟悉度的路线熟悉度的影响,例如,对道路安全方面的影响。因此,还需要能够捕捉对行程熟悉度、路线熟悉度和道路安全之间的关系的影响的自动化系统。此外,虽然可以提供行程熟悉度和路线熟悉度的基本定义,以及熟悉驾驶员(诸如通勤者)的一些范例,但是现有技术缺乏能够精确地测量、分类和归类不同水平的路线熟悉度的系统。这意味着难以找到明确的阈值来确定在同一行程中给定的行驶频率之后不熟悉的驾驶员何时开始变得熟悉。主要技术问题之一是难以比较测量结果。
行程熟悉度以及因此的驾驶员的路线熟悉度对道路安全有影响,因为它影响驾驶任务本身。驾驶任务是复杂的,并且通常被定义为复杂地组织在通过不同级别的表现描述的不同分层级别中。此外,驾驶任务可能需要注意力,或者在给定条件下部分地/完全地自动。通过组合驾驶任务的级别和专注于熟悉度的表现,产生以下关系:(A)熟悉度可以与基于技能的任务自动化相关,需要较少的注意力(诸如在通勤行驶中,在协商熟悉的道路元素或操作短期驾驶模式时)。在熟悉道路系统的一个或多个因素(即,熟悉道路、车辆、环境)的情况下,可以切换到自动化。然而,熟悉这些因素的驾驶员也可以转到基于规则的行为(例如,在不熟悉的汽车中,通过将众所周知的规则应用于其他车辆);(B)不熟悉可能与基于知识的驾驶任务意识有关,需要注意力解决未知情况(诸如作为第一次驾驶员,或者作为熟练的驾驶员,当在不熟悉的环境中导航或操作不熟悉的操纵时)。
为了在技术上捕捉习惯化过程,现有技术系统通常基于双过程方法。随着时间的推移暴露于相同重复刺激的人逐渐降低他们对该刺激的响应,直到达到渐近值。然而,这种习惯化效应可以持续一段短期或长期的时间(甚至是几周:长期习惯化),在这种情况下,现有技术系统通常无法参数化该时间方差。另外,在新刺激的情况下,可以恢复一些反应:在所谓的去习惯化效应(dishabituation effect)中。无论刺激是否被维持,响应进一步衰减。当在给定的边界条件下在同一行程上驾驶是重复的刺激时,则应该预期驾驶员逐渐习惯于它。因此,驾驶员的响应应该渐近地接近一个低水平,在该水平下脑力负荷和注意能力可以大大降低,如通过可塑性注意力资源理论(Malleable Attentional ResourcesTheory,MART)所解释的。然而,在低注意力条件下,头脑可能被非驾驶相关的想法无意识地占据,称为“头脑漫游”。此外,驾驶场景要求越低,以漫游头脑进行驾驶可能花费的时间越多。因此,基于测量的行程熟悉度获得的路线熟悉度可能通过头脑漫游而促使驾驶员的分心。
测量的行程和路线熟悉度以及分心之间的这种可能的关系可能对道路安全有影响。事实上,分心是撞车和驾驶错误的关键原因。这些发现与“认知能力定律”一致:认知能力降低越多(在这种情况下通过分心导致),事故率增加越多。可以假设熟悉度的双重效应:可以通过恶化对危险事件的响应来引起分心,但也导致过度自信和风险低估。熟悉驾驶员的过度自信可以通过感知事故风险的乐观偏差来解释,这随着驾驶经验而增加,并且潜在地可转移到行程熟悉的情况。相关地,与实际比率相比,相对于不熟悉的驾驶员,熟悉的驾驶员在事故中的感知参与程度可能被低估。此外,通常在自我感知的最安全驾驶状况中测量路线熟悉度。这通常导致现有技术系统中采取过度自信的措施。
此外,在对道路变化的行为适应的情况下,还可以注意到习惯化,即在引入道路运输系统的变化之后的非预期行为的集合。如果道路安全措施引起负面行为变化(例如,在照明的情况下超速和注意力不集中,或者随着时间的推移对强制速度限制的依从性降低),则驾驶员的适应是令人不安的。只有在驾驶员反复暴露于相应措施的情况下,才有可能进行适应,然后就容易注意到该措施,可能排除旨在减少撞车结果(例如约束系统)的情况。路线熟悉的驾驶员可能特别容易适应,因为他们可以重复地测试新状况(即,安全相应措施)并且遵循通常的习惯化过程并修改他们的行为来适应新状况。
用于量化事件的风险R的简化等式是:R=P×I,其中P=测量的事件的概率,I=后果或影响的强度。可以利用损失的抽象术语来测量(诸如作为发生事件的交通事故引起的重置成本)。
虽然清楚的是,道路安全措施可以降低事故概率(例如,在照明的情况下),但感知到这种改善的驾驶员可能会觉得更安全并修改他们的行为,以便减少行驶时间(通过更快地驾驶)或减少脑力工作量(通过较少专注于驾驶,如在照明的情况下)。然而,这些行为倾向与更高的风险相关联,能够部分地或完全地破坏风险降低。这种现象代表了行为适应(先前与熟悉的驾驶员相关联)的缺点:所谓的“风险补偿”。尽管这种效果是已知的,但是现有技术的测量系统通常不能应对捕捉这种复杂相互关系的技术挑战。
关于可用的感测装置,最新的工程汽车驾驶(包括完全手动控制的驾驶、部分自主汽车驾驶、无人驾驶汽车、自动驾驶汽车、机器人汽车)与能够感测其环境和操作状态或使用的车辆相关联。同时,传感器在蜂窝移动电话中的使用(特别是在所谓的“智能手机”中的使用)近年来已经大大增加,使得可以监测或依赖于时间跟踪智能手机的操作模式以及周围环境、使用或甚至是用户的行为。现代移动智能手机包括各种传感器,如触摸屏、加速度计、陀螺仪、GPS、相机、麦克风等,允许在移动设备的使用期间捕捉大量混合的情境参数。另一方面,车辆的数字系统可以包括被配置为与驾驶员的移动电话通信的收发器和/或接口。通常,驾驶员可以利用车辆计算机系统以利用车辆特征来处理免提通信。例如,可以在车辆扬声器上输出对话,并且可以利用车辆麦克风来进行接听。当驾驶员已经发起了语音会话时,其他乘员和/或乘客可以在车辆中。
由于现代汽车工程车辆能够使用例如雷达、LIDAR(借助于激光测量距离的测量设备)、GPS(全球定位系统)、里程计(用于借助于使用移动传感器数据测量位置随时间变化的测量设备)和计算机视觉来检测各种操作或周围环境参数,因此移动设备与车辆的计算机系统之间的通信可以与除语音传输之外的其他数据相关。在现代汽车中,先进的控制系统通常解释感测信息以识别适当的导航路径以及障碍物和相关的标志。传感器可以包括有源和无源感测设备,其中,传感器是物理转换器设备,其测量物理量并将测量的物理量转换成可以由观察者或由另一器械、电路或系统读取的信号。用于汽车机动车辆或移动蜂窝电话的常用传感器是例如包含红外发射器的红外传感器和例如与非接触式开关一起使用的红外检测器;仅对环境IR作出反应和检测的无源红外(PIR)传感器,诸如移动传感器;速度检测器,例如雷达枪,诸如使用多普勒效应(来自移动物体的返回回波将被频移)的微波雷达、或发送光脉冲以确定连续脉冲之间的反射时间差以确定速度的IR/激光雷达;超声传感器,其发射声音并检测回波以确定范围;加速度计,其测量电容的变化率并借助于检验质量将其转换成加速度;陀螺仪,其测量沿着第一轴线来回振荡的质量,以及沿第三方向在所述质量的任一侧上的板,其中当检测到围绕第二方向的旋转时,电容改变;IMU传感器(惯性测量单元),其通过使用加速度计和陀螺仪的组合来提供具有全6个自由度的传感器;力感测电阻器,例如用于接触感测,基于电阻、电容或表面声波感测的触摸屏;位置传感器,诸如GPS(全球定位系统),三角测量或细胞识别系统;视觉传感器,诸如相机和计算机视觉;基于SIM或基于RFID的(射频识别)传感器;或环境传感器,例如水分传感器、湿度传感器、温度传感器、磁力计等。由于这种数字系统和传感数据的改进的辅助,通过结合自动化系统以在车辆移动时监测车辆的操作并根据需要提供协调的警报和辅助,使车辆驾驶稳步地变得更安全。
总之,在行程熟悉度的可靠和自动化检测以及路线熟悉度的测量和相关联的风险测量方面仍然存在困难。行程熟悉度识别在许多技术应用中都是重要的,包括交通深度监测和基于机器的智能分析、城市规划、健康监测、计算机支持的老年护理、流行病学等。在了解了旅行者的行程和行程频率的情况下,可以将有针对性的和定制的电子广告路由并发送到他们的设备。该信息对于开发感测当前情境并相应地调整其行为的情境感知手机也是有用的。此外,如果检测、测量和/或监测个体用户的精确行程熟悉度(例如,连同运输模式),则可以提供出行需求的更真实的画面。这种知识可以帮助确定出行模式的环境影响,诸如用户的碳足迹,并优化出行模式或跟踪用户的每日步数和他们燃烧的卡路里量等。另一个应用是实时交通状态的检测,因为诸如谷歌(Google)的公司从移动电话收集数据以便估计和测量道路上的交通速度,或者技术交通引导系统或导航系统用于优化交通照明,特别是实时转向。同样,在行程熟悉度的自动检测的情境下(例如,连同运输模式),区分不同的应用分类是重要的。当系统旨在触发辅助或制定措施以通知、警告或保护用户时,或者在可能冲击或影响正在发生的事件(如事故或灾难事件)的情境下测量用户特定的暴露参数时,行程熟悉度的准确分类(同样地,例如连同运输模式识别和分类)可能是关键的。
为了基于智能手机确定行程熟悉度和/或运输模式,可以使用来自不同内置于智能手机传感器的数据。大多数现代智能手机设备具有测量运动、方向和各种环境条件的传感器。它们能够提供具有高测量精度和准确度的数据。这些传感器可用于监测三维设备移动或定位,或者用于监测设备附近的周围环境的变化。运动传感器包括加速度计、重力传感器、陀螺仪和旋转矢量传感器。位置传感器包括方向传感器和磁力计。环境传感器包括气压计、光度计和温度计。除了移动设备传感器信息之外,一些外部数据源也可能是有价值的。
通常在行程和/或运输测量中采用的智能手机传感器和外部数据源可以总结如下:(A)加速度计能够测量固体物体的物理运动。实际上,它们测量在所有三个物理轴线上施加到设备的加速力,包括重力。加速度计主要用于智能手机中的方向感测。然而,行程和/或运输测量表明,在人体移动期间生成的加速度在整个身体上变化并且取决于正在执行的活动。使该传感器具有吸引力的关键特征是低能耗;(B)陀螺仪,其测量设备的围绕三个物理轴线中的每个的旋转速率。它可以提供方向信息并为由加速度计提供的信息提供附加维度。陀螺仪的特征通常在于低功耗,但是由于显著的校准误差、电子噪声和温度,陀螺仪易于产生误差累积;(C)磁力计,其测量所有三个物理轴线的环境地磁场。它为移动电话提供了相对于地球磁场的简单定向;(D)全球定位系统(GPS)传感器,其提供用户的位置和速度,该位置和速度是基于移动电话和多个卫星中的每个在二维上的距离来测量的。二维定位需要连接到至少三个卫星,并且精度随着更多可见的卫星而增加。GPS在室内不工作,因此主要用于室外定位。另一个技术限制是,其特征在于,由于建筑物反射和遮挡卫星信号的事实,在密集的城市环境中定位精度降低。GPS被认为是用于移动计算的最耗电的定位技术,并且它显著降低了电话的电池寿命。该系统的精度在50米至80米之间,并且可以提高到高达10米的精度;(E)蜂窝网络信号,电话使用该信号进行呼叫和数据传输。世界上最普遍的蜂窝电话标准是全球移动通信系统(GSM)。GSM基站通常配备有定义覆盖扇区或小区的多个定向天线。因此,小区是蜂窝通信网络中移动设备可以在其中与特定基站通信的地理区域。每个小区具有唯一的小区标识符。小区标识符的分层模式与信号强度一起可以提供关于电话位置的信息。为了收集该类型的数据,必须在移动设备上安装测量并记录周围无线电环境的应用程序。可以在室外和室内情境中跟踪移动电话。精度根据小区大小从50米至200米变化,但在低密度区域中可能甚至更劣化。蜂窝网络信号与“乒乓”现象相关联,“乒乓”现象出现在当用户在两个或更多个站的覆盖范围内时。即使当用户静止时,来自站的信号强度也会减弱并引起相关联小区的重复变化。可以分析来自移动电话运营商的数据,其由每次设备连接到蜂窝网络时(例如,当拨打或接收到呼叫时,当发送或接收到短消息时,当用户连接到互联网时等)生成的匿名位置测量组成。然而,这些测量仅在设备使用期间或当相关联的小区随时间变化时(例如,在行程期间)可用;(F)蓝牙,其允许无线连接和短距离通信。蓝牙传感器能够感测其附近的设备,并获得其蓝牙标识符、名称和类型。蓝牙扫描仪的范围和穿透率分别在10米至100米之间、在7%与11%之间变化;(G)WIFI,其向无线局域网(WLAN)内的设备提供无线连接。WLAN提供高达100米的通信范围,并且允许跟踪室外和室内的设备。智能手机不需要登录到WLAN,但是必须打开它们的WIFI天线。定位精度较低。在存在多于一个接入点可用的情况下,可以使用例如信号三角测量和数字打印来改善定位。当用于提供位置信息时,WIFI是继GPS之后最耗电的传感器。被称为“乒乓”的效应对于WIFI数据也是典型的;(H)其他传感器,包括测量大气压力并且可以用于检测电话高于海平面多高的气压计、测量环境温度和空气湿度的温度计和湿度传感器、相机、麦克风等;以及(I)外部数据源,其可以在行程和/或运输测量中提供附加的有用信息。它们包括网络基础设施数据和路线地图,以及静态或实时形式的公共交通的时间表。
在现有技术系统中,由不同智能手机传感器测量和收集的原始数据通常被转换成计算效率更高且维度更低的特征集。所提取的特征旨在提供信息并且例如与学习任务相关。基于不同的数据处理方法、算法结构和统计过程,在现有技术中使用各种特征提取技术。原始传感器数据通常被分割成若干窗口,并且从样本窗口中提取特征。窗口大小以及采样频率是重要的参数,因为它们都影响感测算法的计算和功耗。由于某些特征不是有效的(例如,加速度计频率),较小的窗口尺寸导致分类精度更高,并且较大的窗口尺寸可能在数据中引入噪声。
时域和频域特征用于行程熟悉度和/或运输模式检测任务。时域特征用于表征时变信号内的信息。许多现有技术系统使用原始速度或加速度数据以及随时间推移的GPS定位信息作为输入特征。另外使用测量和航向变化之间覆盖的距离差。对于加速度计信号,信号的诸如平均值、标准偏差、中值、最小值或最大值的特征是时域中最常用的。GSM信号强度和蜂窝塔频率用于推断用户运动的不同状态。与时域特征相比,频域特征被认为在技术上计算要求更高。这是由于与从时域到频域的数据变换相关的附加处理步骤。这些特征的示例是加速度计信号的功率谱密度的峰值频率。最后,基于外部数据提取的特征通常包括公交车定位接近度、公交车站接近度和轨道路线接近度。
用于行程熟悉度和/或运输模式检测的现有技术算法结构通常可以被分类为区别性的或生成性的。生成算法基于建模和/或模拟类别条件概率密度函数和后向时间概率。因此,它们允许从导出的联合分布生成样本,并且通常灵活地表达复杂学习任务中的依赖性。对于该组,现有技术系统的结构包括朴素贝叶斯算法、贝叶斯网络、混合模型和隐马尔可夫模型。判别算法不试图对潜在的概率分布进行建模。相反,它们专注于后验概率的直接估计。流行的判别算法包括支持向量机、神经网络、最近邻、决策树、随机森林、聚类等。
发明内容
本发明的一个目的是提供一种更可靠和准确的用于基于测量的移动设备(诸如蜂窝移动电话或智能手机)的传感数据进行自动行程熟悉度检测的的自动系统。移动设备应能够自动检测和识别行程和/或路线的熟悉度。此外,系统不应限于基于频率或基于距离或基于模式的检测。独立于可能可用的专用车载硬件,可以提供替代解决方案,本发明将提供用于行程熟悉度检测(特别是实时行程熟悉度检测,更特别地,连续实时或接近实时跟踪和熟悉度检测)的适当系统和方法,其仅基于智能手机用户的智能手机的可用传感器。行程熟悉度检测的输出信令应当实现可用作输入信令的准确性,以用于电子触发或转到各种技术的、行程熟悉度相关的过程和系统,诸如导航系统、交通控制系统或风险测量系统,特别是基于使用的风险转移过程和/或适当的基于使用的实时风险转移系统,自动的基于使用的实时风险转移系统通过电子行程熟悉度检测的信令来启用,以执行位置和/或熟悉度相关的风险转移过程。
根据本发明,这些目的特别地通过独立权利要求的特征来实现。另外,可以从从属权利要求和相关描述中得到其他有利实施例。
根据本发明,用于基于由与用户和/或车辆相关联的行程熟悉度检测系统的移动设备的一个或多个传感器测量的传感数据的行程熟悉度检测的上述目的被特别地实现为,一个或多个传感器至少包括GPS传感器和/或加速度计,移动设备包括一个或多个无线连接,其中,通过无线连接中的至少一个,借助于移动设备到蜂窝数据传输网络的天线连接,移动设备10充当蜂窝数据传输网络内的无线节点,并且一个或多个传感器连接到移动设备的监测移动节点应用,其中,监测移动节点应用捕捉移动设备的一个或多个传感器的基于使用的传感数据和/或基于用户的传感数据,移动设备基于从移动设备的传感器获得的测量参数来测量传感参数值的多个时间序列,每个时间序列至少包括GPS传感器的位置和/或速度测量的传感参数值的时间序列,其中,GPS传感器通过测量从两个或更多个卫星接收的信号中的不同光速延迟来测量移动设备的经度位置、纬度位置和高度位置作为时间序列,对于每个测量的时间序列,检测传感参数值的测量的时间序列的至少一部分的起始点和终止点,从而触发将测量序列的至少一部分分配给具有检测到的起始点和检测的终止点的特定行程,对于检测到的行程的任何配对,基于测量序列的至少一部分的传感参数32的基于GPS的位置参数值来测量检测到的所述行程配对的起始点之间以及所述行程配对的终止点之间的第一地理距离,基于测量序列的至少一部分的传感参数的基于GPS的位置参数值来测量所述行程配对的检测到的第一行程的起始点与检测到的第二行程的终止点之间以及所述行程配对的检测到的第二行程的起始点与检测到的第一行程的终止点之间的第二地理距离,通过针对配对的两个行程中的每个行程测量行程配对的检测到的每个行程的起始点与终止点之间的行程长度来测量第三地理距离,其中第三地理距离由两个测量的行程长度的相对差给出,将三个测量的地理距离相互归一化,通过将三个测量的地理距离映射到从0到1的归一化范围内来应用修改的sigmoid转移,将测量的地理距离映射到0到1之间的范围内,其中,通过将三个归一化的地理距离值组合到三个归一化的地理距离值的加权平均值来测量总熟悉度参数值,其中,测量的总熟悉度参数值在从0到1的归一化范围内,并且其中,0的总熟悉度参数值指示相同的行程并且1的总熟悉度参数值指示完全不同的行程。作为实施例变型,移动设备还可以通过如蓝牙或WIFI等的接口访问外部传感设备(例如车载传感器或智能家居传感器)的传感数据。应注意,行程长度不仅是起始点与终止点之间的地理“空中”距离,而且还考虑路线匹配或可以例如生成为行程时间序列中的所有GPS点的点到点距离的总和。另外,环形行程将具有0距离。
作为实施例变型,可以例如存储具有带有定义半径的起始区域和结束区域的集群。起始区域和/或结束区域的中心可以例如由与集群相关联的行程的所有起始点和终止点的平均值定义,并且半径被定义为相应的标准偏差。对于集群,另外可以例如由系统114生成和存储平均行进距离及其标准偏差。可以例如通过生成以相应半径为单位的起始点和/或终止点之间的距离以及依据行驶的公里数的以标准偏差为单位的距离来匹配行程。
作为另一实施例变型,可以例如通过机器学习结构使用层次聚类对行程进行聚类,所述机器学习结构将最紧密地联系在一起的行程迭代地分组在一起,直到不存在比定义的阈值更紧密地联系在一起的剩余行程。电子行程熟悉度检测可以例如包括依赖于针对电子行程熟悉度检测的增加和减少的性能测量而动态地优化的一个或多个预定义超参数。为了生成第一地理距离、第二地理距离和/或第三地理距离,例如可以存在至少两个超参数,所述至少两个超参数是用于起始点和终止点分量以及用于行进距离分量的权重。对于聚类,可以例如存在作为距离阈值的至少两个超参数,其中,在其范围内检测两个行程以形成集群,以及形成创建新集群所需的行程的最小数量阈值。可以例如针对包括不同的运输模式和/或不同的地理位置和/或驾驶员到乘客行程的每个可能的技术应用单独地执行超参数的优化。可以例如针对每种可能的运输模式单独执行超参数的优化,其中,通过以最大化依据运输模式找到的集群的纯度的方式改变超参数来优化超参数。
在实施例变型中,移动设备可以例如被实现为移动电信设备,并且一个或多个传感器是所述移动电信设备的集成传感器。移动电信设备可以例如是蜂窝移动电话和/或智能手机。
在实施例变型中,通过所述方法能区分的可能运输模式例如可以至少包括基于陆地的交通工具和/或海上交通工具和/或基于空中的运输工具和/或徒步旅行和/或滑雪。基于陆地的交通工具可以例如至少包括用于汽车和/或摩托车和/或自行车的可区分模式。
附图说明
将参考附图通过示例更详细地解释本发明,在附图中:
图1示出了示意性地图示用于本发明的自动化行程熟悉度检测系统114的示例性系统的框图。电子行程熟悉度检测114基于由与用户6和/或车辆相关联的行程熟悉度检测系统114的移动设备10的一个或多个传感器102测量的传感数据3,一个或多个传感器102至少包括GPS传感器1024和/或加速度计1025,移动设备10包括一个或多个无线连接105,其中,通过无线连接105中的至少一个,移动设备10借助于移动设备10到蜂窝数据传输网络2的天线连接而充当蜂窝数据传输网络2内的无线节点221、…、225,并且一个或多个传感器102连接到移动设备10的监测移动节点应用101,其中,监测移动节点应用101捕捉移动设备10的一个或多个传感器102的基于使用的和/或基于用户的传感数据3;移动设备10基于从移动设备10的传感器102获得的测量参数3来测量传感参数值的多个时间序列331、…、33t,每个时间序列331、…、33t至少包括GPS传感器1024/102的位置和/或速度测量的传感参数值32的时间序列33i2,其中,GPS传感器1024/102通过测量从两个或更多个卫星接收的信号中的不同光速延迟来测量移动设备10的经度位置10241、纬度位置10242和高度位置10243作为时间序列33i2;对于每个测量的时间序列331、…、33t,检测传感参数值的测量的时间序列331、…、33t的至少一部分的起始点11411和终止点11412,从而触发将测量序列331、…、33t的至少一部分分配给具有检测到的起始点11411和检测到的终止点11412的特定行程1141;对于检测到的行程1141的任何配对1142,基于所测量的序列311、312、313;321、322、323的至少一部分的传感参数32的基于GPS的位置参数值来测量检测到的所述行程配对的起始点之间和所述行程配对的终止点之间的第一地理距离,并且基于所测量的序列311、312、313;321、322、323的至少一部分的传感参数32的基于GPS的位置参数值来测量检测到的所述行程配对的第一行程的起始点与检测到的所述行程配对的第二行程的终止点之间以及检测到的所述行程配对的第二行程的起始点与检测到的所述行程配对的第一行程的终止点之间的第二地理距离;通过针对配对的两个行程中的每个行程测量行程配对的检测到的每个行程的起始点与终止点之间的行程长度来测量第三地理距离,其中第三地理距离由两个测量的行程长度的相对差给出;以及将三个测量的地理距离相互归一化,通过将三个测量的地理距离映射到从0到1的归一化范围内来应用修改的sigmoid转移,将测量的地理距离映射到0到1之间的范围内,其中通过将三个归一化的地理距离值组合到三个归一化的地理距离值的加权平均值来测量总熟悉度参数值,其中,测量的总熟悉度参数值在从0到1的归一化范围内,并且其中,0的总熟悉度参数值指示相同的行程并且1的总熟悉度参数值指示完全不同的行程。作为实施例变型,移动设备10还可以通过如蓝牙或WIFI等的接口来访问外部传感设备(例如车载传感器或智能家居传感器)的传感数据。测量的时间序列331、…、33t由在连续的相等地或速度相关地或运输模式相关地间隔的时间测量点处的离散时间测量的序列组成,描述了测量的路线或行程的时间过程。
图2示出了示意性地图示用于自动运输模式识别113的示例性系统的实施例变型的框图。在监督学习阶段期间,将监督学习结构1136应用于运输模式识别113的梯度增强机器学习分类器1131。所测量的行程1135的运输模式移动模式11351被存储到行程数据库33。移动设备10基于从异构用户6组的移动设备10的传感器102获得的测量参数来测量传感移动参数311、312、313;321、322、323。行程1135的运输模式移动模式11351由运输模式识别设备或系统113从测量的传感移动参数值311、312、313;321、322、323中识别,其中,每个行程至少包括由GPS传感器1024/102测量的GPS位置的传感移动参数值311、312、313;321、322、323,以及由3轴加速度计1025/1902在所有三个物理轴上施加到移动设备10的加速力,和移动设备10的操作系统的操作系统动作参数值,和运输模式标记值1134。由梯度增强机器学习分类器1131检测到的具有运输模式标记1134的行程1135被馈送到用户回路1136中,以由与相应行程1135相关联的用户进行动态校正,并且通过更新行程数据库33中的测量的行程1135的学习运输模式移动模式来保存到行程数据库33。自动运输模式识别的可靠性随着更多数据点的累积而增加。如果系统113未能正确识别运输模式,则用户可以选择手动校正系统113中的预测的运输模式。自动地检测变化,并且重新训练监督学习结构,以便避免重复相同的错误并提高整体性能:TMR系统113的预测能力在连续循环中提高。
图3示出了另一框图,其示意性地图示了TMR系统113如何针对每个候选序列生成平均纬度和平均经度,从而获得每个序列/停靠点的候选停止位置的示例性示例。通过使用公共交通算法输入和输出,可以由TMR系统113生成附加特征:(i)行程的候选停靠点(轨迹停靠点)的数量(CandidateStopsCount),(ii)行程的候选停靠点(轨迹停靠点)的数量除以按时间递增排序的16个采样GPS点之间的半正弦(haversine)距离的累积和,以米为单位(CandidateStopsCountNormalized),(iii)最佳匹配API建议的建议停靠点的数量(PublicRoutingNumStops),(iv)按遍历的顺序的建议停靠点的累积的半正弦距离除以16个采样GPS点的累积的半正弦距离(PublicRoutingDistRatio),(v)候选停靠点的累积的半正弦距离除以16个采样GPS点的累积的半正弦距离(PublicRoutingCandidateDistRatio),和/或(vi)从建议停靠点到候选停靠点的最小距离的从0到100的百分位数,步长为10(这是标准公共停靠点算法)。可以针对所有建议生成这些特征,但是所选择的特征是关于建议停靠点与候选停靠点之间具有最小距离的建议的特征。
图4示出了示意性地图示由整体自动化TMR系统113实现的示例性性能的框图,其通过图4的混淆矩阵和下表所描述,并且通过利用留k个用户的分割技术(leave k-usersout splitting technique)的5倍交叉测量(5-fold Cross-Measurement)获得,以便减少过度拟合。
运输模式 支持 回退 精度
12 100.00% 100.00%
汽车 12710 98.68% 94.98%
自行车 407 71.74% 91.54%
摩托车 851 53.94% 88.78%
其他 13 30.77% 2.60%
飞机 115 77.39% 88.12%
公共 1000 77.90% 92.63%
滑雪 349 93.70% 92.90%
火车 316 82.59% 95.96%
图5示出了图示数据预处理的示例性架构的图。在被输入到TMR系统113的机器学习结构之前,时间序列经过以下预处理步骤:(i)将3轴加速度计从智能手机参考系统旋转到车辆参考系统,(ii)在加速度计与GPS之间对准,共享公共的10Hz采样网格,以及(iii)将每个行程分割成多个5分钟长的迷你行程。对于该示例性情况,TMR系统113的最终输入是具有3000个时间步长(5分钟*10Hz)的固定长度的4维时间序列。
图6示出了图示自动化TMR系统113的示例性性能的图。已经通过利用留k个用户的分割技术的5倍交叉测量或交叉验证测量且评估了性能,得到图6和下表中所示的结果:
运输模式 精度 回退 F1-分数
汽车 93,63% 94,58% 94,10%
摩托车 89,02% 87,23% 88,11%
图7示出了示意性地图示系统1的运输模式识别系统部分的架构的示例性概览的另一框图。
图8示出了示意性地图示行程提取过程的示范性概览的框图。
图9示出了示意性地图示以最小准确度作为自由参数的示例性汽车/非汽车性能(F1分数)的图。
图10a和图10b示出了示意性地图示以采样点的数量作为自由参数的示例性TMR性能(F1分数)的图。
图11示出了示意性地图示示例性候选停靠点提取的图。
图12示出了示意性地图示示例性行程富集化过程的框图。
图13示出了示意性地图示示例性特征提取模块的框图。
图14示出了示意性地图示用于系统1的运输模式识别TMR的示例性递归特征消除的图。
图15示出了示意性地图示树的数量和树深度参数的示例性网格探索的图。
图16示出了示意性地图示用于汽车/非汽车分类器F1分数的示例性早期TMR检测的图。
图17和图18分别示出了当前TMR服务和所提出的解决方案的性能,其中图17示出了真实标记的分布、所部署的解决方案(基线)的性能,图18示出了真实标记的分布、所提出的解决方案。
图19示出了示意性地图示改变TMR标记权重(分配给自动标记的概率质量)的示例性F1分数的图。
图20示出了示意性地图示用于熟悉度和熟悉度分数的生成的指数值的示例性设计的图,使得它在给定集群维度的情况下以以下顺序(x轴:集群号,y轴:集群维度)对用户进行排序。
图21示出了示意性地图示基尼指数与在所提出的实施例变型中使用的指数(表示为“新指数”)之间的相关性的图。
图22示出了示意性地图示示例性用户从相同点A到相同点B但通过不同链接的图。该行为导致链接熟悉度实施例变型中的低聚集和起停实施例变型中的高聚集。
图23示出的图示意性地图示如下的示例性情况,其中用户在相同的街道上行进,但是地理编码测量(例如,HERE)给出链接的方式在链接方法中导致错误的行为。典型地发生的情况是,大街道对于街道的两个方向具有两个不同的链接ID,或者两个街道太近并且HERE将用户定位在错误的一个中。
图24示出了示意性地图示第二种情况的示例性发生的图,其中用户一次从点A到点B1(会话S1)行进,一次从A到B2(会话S2)行进,如图23所示。如果S1和S2具有足够的公共链接(用户以相同的路径行进但在不同的地方停止),则在链接方法中,两个行程被聚类在一起,但在起停方法(Start Stop method)中,不聚类在一起(在停止点不够接近的情况下)。
图25示出了示意性地图示链接包(BOL)的示例性实施例变型的图,其不生成集群,因此不能执行关于行程如何聚集的直接比较。然而,可以考虑get_familiarity过程,相对于其他实施例变型的其他get_familiarity来对该方法进行良好检查。BOL实施例变型变得有用的情况是当用户仅使用在先前会话中的每个中已经行进的链接进行新的行程,但是没有覆盖这些会话中的最短会话的80%时。在这种情况下,起始点和停止点远离,因此get_familiarity起停将返回0,并且共同的链接的数量不足以覆盖80%的链接,因此链接方法的get_familiarity也将返回较低的分数。相反,该新方法将给出为1的最大分数(参见图23)。
图26示出了示意性地图示使用适当的行程概要的示例性行程测量的图。当实时接收到TMR 113请求时,系统1(相应于TMR 113)检查用户是否已经注释或校正了类似的行程。因此,系统1必须能够有效地检索历史注释行程数据并定义轨迹相似性测量。由于TMR 113实时请求包含具有19个点的行程的表示,因此在本实施例变型中,存储由用户标识符划分的每个注释行程的该表示是有意义的。这可以例如在数据库或文件系统中完成(例如,每个行程一行)。用户注释优选地可以例如与行程概要一起存储。可以使用例如Databricks(例如每晚)批量构建/更新该行程概要。实施例变型可以暗示在用户注释的24/48小时内的信息可用性。也可以考虑现有设施和其他方法。
图27示出了具有TMR基线(由直线给出)的图,其示意性地图示了参数的示例性加权并评估TMR 113下的性能。多类概率可以例如被加权为小于注释概率。这与以下事实一致:如果用户在过去校正了行程并且系统1观察到类似的行程,则用户应该是可信的。权重的建议值为0.4。
图28示出了图示DPD 112的示例性实施例变型的图,其可以用于行程熟悉度检测115,并且其可以例如包括由系统1和行程熟悉度检测和测量115分别执行的以下技术步骤:(1)收集用户历史,(2)聚类类似行程,(3)定义质心行程,(4)新行程到达:寻求与现有集群的匹配,以及(5)检查集群DPD标记。在图中,(i)N是集群中具有DPD分数的会话的总数,(ii)Di∈[0,1]Pi∈[0,1]且Xi∈[0,1]是由DPD针对每个会话(包括进入/退出和BT连接)返回的最终置信度分数,以及(iii)集群分数也可以从用户注释(真值)或最终从两个源的组合生成。
图29示出图示用于创建测量的熟悉度分数的示例性目标的图,该测量出于对用户在熟悉道路上行进多少的评分的目的。这可能例如需要三种不同的方法,如图29所示,即(1)通过链接ID聚类,(ii)链接包:链接ID频率,以及(iii)起始&停止。
图30示出了图示作为强有力的方法的起始&停止方法的示例性实现的图。
图31示出了行程熟悉度检测和测量的可能的一般架构的示例性概览。
图32示出了图示使用相似性预过滤技术的实施例变型的示例性实现的图,特别是对于TMR 113,其中优选地仅对可能候选的子集执行数据处理。行程被认为是其起始和终止的有效候选,起始和终止两者都位于当前行程(在TMR实时请求中评估的行程)的起始/终止的某个半径内。基于经验观察,对于该示例,半径可以例如被设置为500米。由于用户注释可以是有限数量的(在正常操作条件下)并且使用所提出的相似性预过滤器,因此轨迹相似性实际上是针对行程的小子集生成的,如图中所示。
图33示出了图示集群的示例性视觉表示的图。空心圆标记起始区域和终止区域。蓝线表示属于该集群的各种行程的路线。绿色(红色)点突出显示相应行程的起始(终止)位置。
图34示出了图示可选地与行程模式检测和/或行程目的检测和/或行程附加检测和测量组合的行程测量数据收集和报告的实施例变型的示例性概览的图。
图35示出了图示用于基于捕捉的智能手机传感器的测量数据的时间序列的行程/行程区段检测的示例性处理的图。
具体实施方式
图1示意性地图示用于自动化行程熟悉度检测114的系统和方法的实施例的可能实现的架构。电子行程熟悉度检测114基于由行程熟悉度检测系统114的移动设备10的一个或多个传感器102测量的传感数据3。移动设备可以例如与用户6相关联和/或嵌入在车辆(诸如汽车或海运船舶等)中。移动设备10可以例如被实现为移动电信设备10,并且一个或多个传感器102是所述移动电信设备10的集成传感器102。作为实施例变型,移动设备10还可以通过如蓝牙或WIFI等的接口来访问外部传感设备(例如车载传感器或智能家居传感器)的传感数据。移动电信设备10可以例如是蜂窝移动电话和/或智能手机。一个或多个传感器102至少包括GPS传感器1024和/或加速度计1025。移动设备10包括一个或多个无线连接105,其中,通过无线连接105中的至少一个,移动设备10借助于移动设备10到蜂窝数据传输网络2的天线连接而充当蜂窝数据传输网络2内的无线节点221、…、225。一个或多个传感器102连接到移动设备10的监测移动节点应用101,其中,监测移动节点应用101捕捉移动设备10的一个或多个传感器102的基于使用的和/或基于用户的传感数据3。
移动设备10基于从移动设备10的传感器102获得的测量参数3来测量传感参数值的多个时间序列331、…、33t。测量的时间序列331、…、33t由在连续的相等地或速度相关地或运输模式相关地间隔的时间测量点处的离散时间测量的序列组成,描述了测量的路线或行程的时间过程。每个时间序列331、…、33t至少包括GPS传感器1024/102的位置和/或速度测量的传感参数值32的时间序列33i2,其中,GPS传感器1024/102通过测量从两个或更多个卫星接收的信号中的不同光速延迟来测量移动设备10的经度位置10241、纬度位置10242和高度位置10243作为时间序列33i2。
对于每个测量的时间序列331、…、33t,检测测量的传感参数值的时间序列331、…、33t的至少一部分的起始点11411和终止点11412,从而触发将测量的序列331、…、33t的至少一部分分配给具有检测到的起始点11411和检测到的终止点11412的特定行程1141。基于测量的传感参数值的时间序列331、…、33t测量并触发起始点11411和/或终止点11412的检测,其中,选择行程起始点的最早的地理坐标(纬度和经度)和行程终止点的最晚的地理坐标。
对测量的传感参数值的时间序列331、…、33t的至少一部分中的起始点11411和终止点11412的检测可以例如包括:如果“开始记录”触发器被激发并且在“停止记录”触发器被激发时,由监测模块和/或应用报告精确的地理坐标。“开始记录”和“停止记录”触发器可以例如基于在监测不同传感参数的移动设备中运行的边缘模块被激发,该边缘模块包括内置在移动电话中的运动动作检测器和地理围栏服务。用于自动行程记录的过程基于以下步骤:
·“开始记录”两种应用实现方式(Android、iOS)都进行后台处理,其监视与蓝牙设备的连接、动作芯片输出、计步器传感器、显著的位置变化(对于iOS是SLC事件,对于Android是融合位置提供商FLP)以及当应用程序被带到前台处理时是AppStart事件。如果在后台处理期间检测到以下事件中的任何事件,则引发“开始记录”事件,并且下一步骤“行程验证”开始:
o蓝牙连接已被激活
o动作芯片至少以中等置信度返回“Automotive”(对于iOS)或返回“IN_Vehic”(对于Android)
o计步器传感器在步行会话之后25秒内未检测到步伐
o SLC事件由操作系统引发,例如无线小区改变
o应用程序启动
·“行程验证”是当应用程序监测GPS速度最多120秒时,在引发“开始记录”行程事件之后的时段。如果在120s内存在高于或等于20km/h的至少5个GPS速度值,则行程验证成功完成并且“行程记录”阶段开始。在Android上,如果检测到步行相关的动作,则停止行程验证。在iOS上,不存在类似的规则。
·“行程记录”是应用程序记录GPS@1Hz、加速度计@10Hz和分心事件的时间段。当检测到“停止记录”触发器时,停止记录。
·“停止记录”事件触发器是“停止行程验证”的阶段,其在下一点中解释。基于以下规则激发“停止记录”触发器:
o蓝牙连接丢失120秒
o动作芯片检测“步行”或“静止”动作且GPS速度低于10km/h
o GPS接收器无法接收有效位置、精度大于等于50米或速度低于10km/h持续10分钟
·如果在90秒内没有GPS速度值高于20km/h,则“行程终止验证”成功,否则取消当前的“行程终止验证”,并且应用程序保持记录直到下一个“停止记录”事件。
应当注意,对于移动设备,在现有技术中,已知几种全球定位系统(GPS)辅助的数据收集和记录方法(或简单地GPS方法),其提供与行程的起始和终止相关联的测量参数值的时间序列块。这些系统或应用程序可以在移动设备上运行。然而,这些方法中的许多方法通常需要大量的财力和人力资源来实现并对参与者施加额外的任务。基于智能手机的定位和通信技术的最新改进允许解决当前GPS方法的限制。然而,考虑到使用智能手机记录行驶数据的电池消耗过程,在智能手机辅助的方法中,连续记录个体的行驶动作并不总是可能的。为了解决该问题,可以设想采用主动数据收集方法来最小化行程记录的持续时间。该方法要求参与者在数据收集以及开始/停止行程记录期间主动参与。然而,使用该方法收集的数据的准确性可能由于参与者高度的参与而受到负面影响。如果参与者忘记按时开始/停止行程记录,则将错过行程。另一种技术可能性是通过增加记录间隔或依赖于不准确的定位算法来降低定位的准确度。然而,这些替代方案对收集的数据的质量产生不利影响。作为上述提出的用于测量具有起始点和终止点的行程测量数据块的实施例变型的替代方案,提出了基于智能手机的行驶数据测量,其能够解决电池消耗问题,以及在提高数据收集的准确性的同时最小化参与者的参与。所提出的数据处理可以例如被设计成基于实时处理和后处理的组合来自动地检测个体的单模式行程区段。如图34所示,该方法能够在智能手机辅助的行驶数据收集中自动检测单模式行程区段。所提出的方法由数据收集过程组成,该数据收集过程由增强的行程/行程区段检测模型支持。在开发所提出的行程/行程区段检测模型时采用了实时处理和后处理的组合。该模型的可靠性能对于在管理智能手机的电池消耗的同时,以高准确度水平准确检测并记录参与者的行驶动作具有至关重要的意义。该模型是基于由智能手机的传感器自动收集的数据而开发的。
在该实施例变型中,数据收集可以例如由在智能手机上运行的智能手机应用进行。它应该能够依靠其增强的电池优化在整个工作日内自动记录调查参与者的行驶行为。图1呈现了数据测量、收集和/或报告的实施例变型的概览。当智能手机应用程序在智能手机上安装和启动时,它在后台运行而不干扰参与者的正常电话使用。它基于触发“起始行程”和“停止行程”检测的参与者的显著移动来自动开始和停止行程记录过程。在记录期间,应用程序自动记录参与者的行进属性(例如,时间戳、GPS坐标、速度、航向和位置准确度),例如,每10米的移动。当参与者保持静止预定义的时间阈值(例如,六分钟)时,应用程序自动停止记录。在初始学习阶段,在旅行日结束时,作为控制回路,参与者可以例如查看他/她记录的行程并通过指定目的、行驶模式和随行人员而在他们的电话上标记它们。然后,他/她的标记的行程可以例如通过智能手机应用程序等中的菜单上传到web服务器。
该实施例变型可以结合收集的数据的实时处理和后处理的组合。实时处理发生在智能手机应用程序内,而后处理在收集的数据已经上传到研究服务器时开始。例如,参见图35。实时数据处理可以在智能手机应用程序中用于数据清理、检测静止情况和拆分行程以及行程细化。在该实施例变型中,应用程序在在智能手机上存储日志的同时执行初始数据清理。在记录点的水平位置准确度上定义阈值,以移除水平位置准确度超过200米的点。在存储行程数据之前,智能手机应用程序自动丢弃这些日志。该标准对于排除不准确的日志以及有效地存储和传输准确的数据是重要的。阈值被定义为用于检测静止情况的停留时间。例如,如果在超过该间隔内检测到静止情况,则可以自动停止行程记录。为停留时间选择合适的值可能是至关重要的,因为小的值将导致若干不正确的行程/动作检测。例如,交通拥堵或等待红灯会显著增加两个连续行程日志之间的时间差。必须适当地选择停留时间以忽略单模式行程的所有间歇点并检测实际的开始/结束或模式转换点。在试错过程中,已经测试了停留时间的若干值。实时处理的停留时间值为360秒,返回的结果最准确。由于GSM信号用于检测任何显著的移动,并且GSM信号中的任何变化都可能导致行程细化步骤中的不正确的行程记录(错误行程),因此定义150秒的阈值以移除错误和非常短的行程。
在组合实施例变型中,后处理可以例如包括以下步骤:(i)数据清理,(ii)行程/行程区段识别,(iii)模式类别识别,(iv)行程合并,以及(v)最终行程细化。与先前提出的行程检测方法不同,建议在所提出的行程检测框架中丢弃数据平滑。许多现有技术系统对GPS原始数据使用数据平滑,然而,应注意,这可能导致移除可用于行程属性提取的后续步骤(具体地,行程检测)中的一些信息性行程日志。
对于数据清理,可以使用以下示例性阈值来移除在初始(实时)数据清理期间未被移除的不准确的日志:(1)如果(速度<0)则删除行程日志(不可用速度(速度应该为正),(2)如果(速度>42m/s)则删除行程日志(基于历史数据的不正确记录的速度),(iii)如果(加速度>10m/s2)则删除行程日志(基于历史数据的不现实的加速度)。第一阈值移除了其中智能手机不能检测到瞬时速度的那些日志(对于这些日志,瞬时速度被记录为(-1))。第二阈值和第三阈值基于历史数据的最大速度和可能的加速度来定义。这些阈值可以例如定义为42m/s和10m/s2
系统可以例如基于四个不同方面来处理清理后的数据:停留时间、参与者id、显著的速度变化和低速阈值。这些规则是基于收集的数据的规范提出的,并且可以例如如下进行校准:(1)停留时间:该规则用于初始识别行程/行程区段。为该规则选择240秒的阈值。与实时处理的停留时间阈值(即,360秒)相比,该阈值减小,以更准确地检测静止情况。为了合并可能被不正确地分割的那些行程区段,在所提出的行程分割模型之后,进行行程合并步骤;(2)参与者id:参与者id用于区分不同参与者的行驶动作;(3)机动化/非机动化行程识别:应用以下规则来具体识别紧接在机动化行程之前或之后进行的非机动化行程段:(a)显著的速度变化:定义10m/s的速度变化阈值以检测显著的速度变化。如果一点的10个先前日志和10个稍后日志的平均速度之差大于10m/s,则该点被标记为显著的速度变化点。这些点可以是模式转换的索引;(b)速度变化集群检测:由于在连续日志中可能发生显著的速度变化,因此该规则被定义为检测和聚集其中发生显著速度变化的那些连续日志;(c)低速阈值:为了将机动化模式改变为非机动化模式(或反之亦然)的那些模式转换点列入名单,定义2m/s的低速阈值。该规则应用于基于先前两个规则选择的那些点以及在一侧上为非机动化模式的那些点。
在该组合的实施例变型中,例如,基于规则的结构可以用于基于检测到的行程/行程区段的模式类别(机动化行程与非机动化行程)对检测到的行程/行程区段进行分类。该步骤的目的是识别和合并那些未正确分割的行程区段。该结构基于对报告的行程的平均速度和加速度以及标记的参与者的行进模式的异常值分析。例如可以对报告的行程的平均速度执行异常值分析(准确度为95%)以区分机动化行程与非机动化行程。此外,可以对速度相关规则的异常值的平均加速度执行异常值分析。例如用于模式类别识别的规则可以定义如下:(1)模式:非机动化模式(骑自行车和步行)-模式-检测规则:(a)平均速度≤5.60(以m/s为单位),以及(b)平均加速度≤0.23(以m/s2为单位);(2)模式:机动化模式(客运汽车、公共汽车和火车)-模式-检测规则:(a)5.60<平均速度(以m/s为单位),以及(b)0.23<平均加速度(以m/s2为单位)。由于在“行程分割”步骤中单个行程可能被分割成若干行程区段,因此需要行程合并步骤来识别和合并未正确分割的行程区段。基于模式类别和时间差对先前标记的连续行程区段进行审查。如果参与者的两个连续行程区段的时间差例如小于120秒且其模式是可组合的,那么该两个连续行程区段被合并。如所讨论的(例如,参见图35),可以存在从“行程合并”步骤到“行程检测”步骤的反馈回路。反馈回路通过对检测到的行程总数的逻辑测试进行控制。这意味着回路将继续,直到在两个连续回路中检测到相同的总行程数。为了避免行程/行程区段的过度分割以及需要进一步的数据细化过程,可以例如应用预定义规则来识别和移除它们。例如,如果行程区段的行进距离小于50m,或者行程持续时间小于30秒,则可以丢弃该行程区段。
对于检测到的行程1141的任何配对1142,基于所测量的序列311、312、313;321、322、323的至少一部分的传感参数32的基于GPS的位置参数值来测量检测到的所述行程配对的起始点之间以及所述行程配对的终止点之间的第一地理距离。基于所测量的序列311、312、313;321、322、323的至少一部分的传感参数32的基于GPS的位置参数值来测量所述行程配对的检测到的第一行程的起始点与检测到的第二行程的终止点之间以及所述行程配对的检测到的第二行程的起始点与检测到的第一行程的终止点之间第二地理距离。通过针对配对的两个行程中的每个行程测量行程配对的检测到的每个行程的起始点与终止点之间的行程长度来测量第三地理距离。第三地理距离由两个测量的行程长度的相对差给出,将三个测量的地理距离相互归一化,通过将三个测量的地理距离映射到从0到1的归一化范围内来应用修改的sigmoid转移,将测量的地理距离映射到0到1之间的范围内。通过将三个归一化的地理距离值组合到三个归一化的地理距离值的加权平均值来测量总熟悉度参数值,其中,测量的总熟悉度参数值在从0到1的归一化范围内,并且其中,0的总熟悉度参数值指示相同的行程并且1的总熟悉度参数值指示完全不同的行程。
在另外的实施例变型中,本行程熟悉度检测系统114的信令输出可以例如用作高级驾驶员辅助系统(ADAS)、交通控制系统、导航系统、基于使用的风险测量和监视系统等的转向或输入信号。例如,系统1可以例如包括一个或多个自动化第一层风险转移系统12(自动化初级保险系统)和一个或多个自动化第二层风险转移系统13(自动化再保险系统)。自动化第一层风险转移系统12可以包括至少一个电子第一层资源汇集系统121,并且自动化第二层风险转移系统13可以例如包括至少一个电子第二层资源汇集系统131。资源汇集系统121/131是用于自动地、电子操纵地汇集来自指定的暴露于风险的乘员/驾驶员/乘客6的资源的系统,从而将与暴露于风险的用户6相关联的定义的风险转移到自动化第一层和/或第二层系统12/13,其中,转移的风险的操作由风险转移参数122/132定义,例如,借助于由风险转移策略给出的预定义参数而预定义,并且其中,在触发了用户6处发生了定义的风险的情况下,通过触发从资源汇集系统121/131到相关的暴露于风险的用户6的特定资源转移,例如通过基于生成的支付转移参数123/133的适当信令,自动资源汇集系统121/131区别性地覆盖相关的暴露于风险的用户6的发生的和检测到的损失。下面将详细描述这种系统1的操作。风险转移参数122/132可以例如包括定义物理测量参数的参数,以借助于系统1和/或时间或量相关的阈值来检测暴露于风险的用户6处的风险事件的发生。暴露于风险的用户6可以是任何类型的人,并且风险可以例如与车辆或汽车驾驶或交通风险相关联,例如与驾驶员或乘客相关联。风险与发生与暴露于风险的用户6相关的影响事件的概率相关。自动化系统1可以例如至少包括处理器和相关联的存储器模块。系统1的操作由电子控制设备11控制、监测和操纵,特别是生成适当的信令并操纵自动化系统1的各种部件的启用和互相配合。自动化系统1还可以包括一个或多个显示单元和操作元件,诸如键盘和/或图形指示设备(诸如计算机鼠标)。系统1是一种技术设备,尤其包括在计算机和数据处理技术、远程信息处理技术和自动风险转移或保险技术领域中使用的电子装置。本发明寻求在技术上捕捉、管理和自动化监测设备的复杂相关的操作。
运输模式识别(TMR)113
运输模式识别(TMR)系统的架构表示基于机器学习(ML)的解决方案:测量和分析由异构用户组执行的标记的行程的集合,以提取用于训练监督式多分类机器学习结构的一组特征。然后通过一组硬编码规则对纯机器学习结构的输出进行后处理,以避免算法做出明显不正确或置信不足的预测。基于行程熟悉度的额外的附加模块可以识别用户的路线,并且可以被启用以增加模型性能。随着更多的数据点被累积,自动运输模式识别的可靠性增加,其中累积可以由自动化过程执行,如下所述。作为实施例变型,如果ML结构未能正确识别运输模式,则用户可以选择手动校正系统中的预测的运输模式。可以自动检测变化,并且重新训练监督模型,以避免重复相同的错误并改善整体性能:模型的预测能力在连续循环中改善(参见图2)。
用于构建TMR系统的测量数据由通过适当的数据结构捕捉和保持的行程组成,其中每个行程包括由移动设备测量和记录的以下测量参数:(i)GPS位置,(ii)3轴加速度计,(iii)操作系统动作,以及(iv)运输模式标记注释。行程可以包括例如运输模式(如汽车、摩托车、有轨电车、公共汽车、自行车、滑雪、火车、飞机、船或其他)的测量数据。
系统可以例如应用数据过滤和预处理。例如,在行程中,可以基于以下条件过滤掉数据:(i)至少一分钟长,(ii)至少30个GPS位置,以及(iii)精确的运输模式注释。作为进一步的预处理步骤,可以例如移除包括通过时间戳复制的GPS位置、具有负速度的GPS位置和精度>50m的GPS位置的行程。
该系统还可以包括数据富集化过程。例如,可以丰富行程数据。作为实施例变型,富集化过程还可以基于第三方提供商的外部API。所执行的富集化可以例如包括:(i)路线匹配,以便理解行程是否在道路上执行,(ii)使用地理信息系统(GIS)查询行程附近的几何形状,GIS捕捉空间和地理数据,(iii)公共交通匹配。对于数据富集化,作为变型,不需要对要执行的完整GPS轨道执行富集化,而是可以(例如,由于一些API限制)仅使用GPS位置等间隔的子集。
用于可用行程数据的测量的和生成的特征可以例如包括:
(1)GPS特征,包括在所测量的GPS速度的阵列上的(i)平均值,(ii)标准偏差,以及(iii)从0到100的百分位数,步长为10(因此,百分位数为0、10、20…)。在行程的测量的GPS高度的阵列上为标准偏差,并且在测量的GPS加速度的阵列上为(i)标准偏差,以及(ii)通过测量连续GPS点的三元组之间的角度获得的阵列的方差。GPS加速度在本文中定义为以下两个阵列之间的比率:(i)GPS样本与前一个样本之间的速度差,(ii)GPS样本与前一个样本之间的时间差(以ms为单位)。
(2)加速度计特征:如果两个或更多个加速度计样本具有相同的时间戳,则可以例如相对于阵列顺序来选择最后一个加速度计样本。然后计算加速度范数阵列,并且从所有相同的阵列中移除该阵列的平均值。从范数阵列中,可以提取以下参数:(i)从0到100的百分位数,步长为10;(ii)四分位数间距,其是第75百分位数与第25百分位数之间的差。
(3)基于操作系统动作的特征:可以例如基于以下标准选择使用操作系统活动的两个特征:(i)“前向积分”处理是由于动作标记的event-wise行为而被选择的,并且因为它通常是信息最多的特征,(ii)“视为最可能”处理可以例如为了简单起见而被选择。动作事件可以被定义为具有唯一时间戳的测量对象和具有概率的标记映射(如果不存在标记,则认为具有零概率)。针对每个可能的标记计算两个特征。标记可以被归一化为Android名称:‘汽车’、‘自行车’、‘徒步’、‘跑步’、‘静止’、‘未知’、
‘行走’、‘倾斜’,用于两个操作系统之间的特征向量命名合规性。可以通过假设标记概率有效直到下一个事件来实现“前向积分处理”。每个标记概率可以乘以直到下一个事件或者直到最后接收到的动作事件的行程结束所经过的毫秒数。这必须对可能的标记列表的每个标记进行。可以针对每个标记对这些乘法的结果求和,并且可以将每个总和除以行程终止时间与第一动作事件时间之间的差值,两者均以毫秒为单位。如果从未返回标记,则应将对应特征设置为零。因此,如果对于行程根本没有动作,则所有特征都应设置为零。例如,可以实现“视为最可能”的处理,对于每个可能的标记,对其中标记是最可能的标记的事件的数量进行计数,然后将计数除以事件的总数(或唯一时间戳的数量)。在50/50抽取的情况下,最可能的可以以任何方式进行选择。
(3)公共交通特征:给定一组GPS位置,候选停靠点可以例如被识别为满足以下条件的点的序列:(i)速度<=3m/s,(ii)序列长于5秒。可以在速度阵列上应用窗口长度为9的移动平均之后执行计算。这意味着每个样本被样本本身以及之前和之后的4个样本的平均值代替。对于这些候选序列中的每个,可以生成平均纬度和平均经度,从而获得每个序列/停靠点的候选停止位置(参见图3)。使用公共交通算法输入和输出,可以生成一些附加特征,包括:(1)行程的候选停靠点的数量(轨迹停靠点),(2)行程的候选停靠点的数量(轨迹停靠点)除以按时间递增排序的16个采样GPS点之间的半正弦(haversine)距离的累积和,以米为单位,(3)最佳匹配API建议的建议停靠点的数量,(4)按遍历的顺序的建议停靠点的累积的半正弦距离除以采样的GPS点的累积的半正弦距离,(5)候选停靠点的累积的半正弦距离除以16个采样GPS点的累积的半正弦距离(参见点2),以及(6)从建议停靠点到候选停靠点的最小距离的从0到100的百分位数,例如步长为10(这是标准公共停靠点算法)。可以为所有建议生成这些特征,但是所选择的特征是关于建议停靠点与候选停靠点之间具有最小距离的建议的特征。
(4)路线匹配(RM特征:可以例如生成路线匹配特征,以便基于采样的GPS点来估计是否未在道路上执行行程。可以例如在跟踪点置信度上生成两个统计描述符:(i)置信度的平均值,以及(ii)置信度的方差。
(5)地理围栏(GFE)特征:使用由一般地理围栏返回的几何形状,由接近度搜索使用的特征可以例如被一般化。基本上,给定对于采样GPS点的富集化,可以在10、20、30…100米内生成具有几何形状的点的百分比。这可能包括几何形状内的距离<0的点。这些分布可以例如针对以下项生成:(i)仅看到XX半径内的道路的点的百分比(XX从10到100,步长为10),(ii)仅看到XX半径内的轨道的点的百分比,(iii)看到XX半径内的道路或轨道的点的百分比,(iv)机场内的点的百分比(负几何距离),以及(v)机场内的点的百分比(负几何距离)。
上述特征集可以例如用于向机器学习梯度增强结构(例如,LightGBM)馈送以下超参数配置:n-estimators=225,learning-rate=0.03,max-depth=30,num-leaves=50,subsample=0.8,subsample=0.7,以及min-sum-hessian-in-leaf=5。
对于硬编码的过滤规则,例如,可以在机器学习分类器之后添加一些定制逻辑,以便限制不想要的错误。第一组规则对行程特征起作用,以校正明显错误的预测。第二组规则仅以低精度作用于行程模式,调整具有低置信水平的预测,目标是降低假阳性率。
基于行程特征的规则可以例如包括:(i)如果GFEWater0>0.5,则将该行程标记为“船”,(ii)如果GFEWater0<0.2且TMR-预测=“船”,则将该行程标记为“其他”,(iii)如果SpeedQuantile90>150m/s,则将该行程标记为“飞机”,以及(iv)如果TMR-预测=“飞机”且SpeedQuantile100<20m/s且GFEAirport=0,则将该行程标记为“其他”。例如可以实现基于模型置信度的规则,其中如果预测的运输模式>分数阈值,则预测将被改变为回退运输模式。
图4示出了由TMR系统实现的示例性性能,如图4的混淆矩阵和表所示,并且通过利用留k个用户的分割技术的5倍交叉验证获得,以便减少过度拟合。
作为实施例变型,除了用于TMR的监督学习结构之外,还可以应用行程相似性策略来进一步提高TMR性能和准确性。该想法是借助于先前的类似行程(如果有的话)上的用户注释,并使用该信息来校正TMR标记,如果需要的话。因此,为了找到类似的行程,可以例如对以下特征运行聚类算法:(i)行程起始点*之间的距离,(ii)行程终止点*之间的距离,(iii)行程距离(*在倒回一次行程之后重复两次行程的起始点/终止点之间的距离,以忽略行驶方向)。
为了改善汽车与摩托车运输模式之间的识别,在更进一步的实施例变型中,可以应用专用的二元分类器。借助于所使用的深度学习架构,专用二元分类器旨在直接从智能手机传感器时间序列中提取区别特征:(i)3轴加速度计,以及(ii)GPS速度。
作为进一步的数据预处理,时间序列可以例如在被神经网络接收之前通过以下预处理步骤:(i)3轴加速度计从智能手机参考系统旋转到车辆参考系统,(ii)加速度计与GPS之间的对准,共享公共的10Hz采样网格,(iii)每个行程被分割成多个5分钟长的迷你行程。然后,模型的最终输入可以例如是4维时间序列,具有3000个时间步长的固定长度(5分钟*10Hz)。
图3中示出了示例性模型架构。此外,性能可以例如通过利用留k个用户的分割技术的5倍交叉验证来评估,得到如图4所示的结果。
必须注意的是,在各种实施例变型中,运输模式识别系统的架构是非常灵活的,并且可以在各种环境(例如Databricks环境)上执行。Databricks环境的示例具有例如以下优点:(1)具有用于快速原型设计和测试的共享代码库;(2)使得能够在解决方案部署中直接重用输出代码;以及(3)获得原生Spark并行性的优点,以便执行多个实验并测试不同的方法。其他环境可能具有不同的优点。Databricks是从加州大学伯克利分校的AMPLab项目发展而来的技术环境,该项目参与了Apache Spark的制作,Apache Spark是一个构建在Scala之上的开源分布式计算框架。Databricks尤其提供了用于与Spark一起工作的基于web的平台,该平台提供自动化集群管理和IPython风格(交互式Python)笔记本,即,提供用于多种编程语言(特别是Python编程语言)的交互式计算的命令shell,提供自省、富媒体、shell语法、制表符补全和历史。
对于本发明,分析流水线架构被成形为反映实时解决方案的流程。所用的流水线可以分为以下逻辑组件:(1)从TMR活动和物联网平台中提取数据(位置、传感器、注释调试数据),利用GIS服务(HERE)对其进行富集化;(2)从有效行程数据中提取描述符/特征;以及(3)在监督学习设置中学习TMR分类模型。这三个步骤是下面描述的对象。最后一步的最终输出是生产服务可以使用的分类模型结构。该结构是标准的估计器(scikit-learn)对象,其可以部署在例如任何支持Python的架构中。图7示出了示意性地图示系统1的运输模式识别系统部分的架构的示例性概览的框图,包括(i)数据提取、数据提取和过滤,(iii)位置采样,(iv)候选停靠点,(v)数据富集化,(vi)特征描述,特别是GPS特征、加速度计特征、基于操作系统动作的特征、公共交通特征、RME特征和GFE特征,(vii)机器学习,(viii)硬编码过滤规则,以及(ix)早期检测。
对于数据提取,必须从不同的表合并行程数据。作为行程标识符,可以例如使用起始/停止边界,例如由适当的调试模块或应用作为调试数据上传的这样的边界。该数据例如被上传到容器并被复制到存储在数据储存库中的相应表。原则上,可以使用任何行程边界信息。例如,可以使用JSON(JavaScript Object Notation)行程边界以确保与调试应用逻辑的一致性,但这不是约束。此外,可以从JSON中提取在第一时间段内可能未包含在表中的附加数据,最值得注意的是OS动作和TMR库标记。由于实施例变型可以仅使用两者中的OS动作标记,并且这些标记可以在正常应用数据流中上传,因此调试JSON数据不是本发明解决方案的要求(参见图8)。
对于数据提取和过滤,行程边界可以与以下示例性数据源合并:(1)用于GPS位置的analyticsmodel_np0.positions,(2)由其他用户提供的用于地面实况的analyticsmodel_np0.userannotation(Coloride),(3)JSON中包含的OS动作,(4)(可选)analyticsmodel_np0.accelerometers,以及(5)(可选)analyticsmodel_np0.deviceevents。在这些行程中,由系统1基于以下条件过滤出数据:(1)至少一分钟长,(2)至少30个GPS位置,以及(3)恰好一个用户注释。作为预处理步骤,系统1可以通过时间戳移除重复的GPS位置、具有负速度的GPS位置和准确度>50m的GPS位置。图9示出了后一种选择的动机,其示出了当改变最小准确度阈值时,TMR分类器的性能变化。由于性能变化不强,因此可以保持与先前使用的阈值相符合。
对于位置采样,为了执行TMR实时调用,系统1需要对数据点的子集执行数据处理,因为在远程同步调用中不能发送任意数量的数据。基于对多个采样GPS位置上的性能的分析,要采样的点可以例如被设置为在GPS位置阵列上等间隔的16个点。也可以使用其他采样策略,然而,在本示例中没有显示出显著的性能增益。此外,尽管可以采样更多的点,但是迄今为止没有证据表明采样多于16个点可能是有益的。例如,可以选择16个点,因为它是用于批量调用的HERE地理围栏API界限(参见图10a和图10b)。
候选停靠点提取可以例如由与当前TMR实现方式相同的系统1执行。给定一组GPS位置,候选停靠点被识别为满足以下条件的点的序列:(i)速度<=3m/s,以及(ii)序列长于5秒。在速度阵列上应用窗口长度为9的移动平均值之后执行数据分析。这意味着每个样本被系统1替换为样本本身以及之前和之后的4个样本的平均值。对于这些候选序列中的每个,系统1生成平均纬度和平均经度,从而获得每个序列/停靠点的候选停止位置(参见图11)。
对于数据富集化,然后由系统1利用例如外部API(应用编程接口)(最值得注意的是HERE服务和适当的接近度搜索)来富集化行程数据。富集化的描述可以如图12所示。除了基线数据之外,所执行的富集化可以例如包括:(1)路线匹配,以便理解行程是否在道路上执行。在实验设置中,所使用的服务是HERE路由匹配扩展(RME)。可以使用替代服务或归一化数据源,(2)查询行程附近的地理信息系统(GIS)几何形状,使用HERE GFE API/层执行。该步骤基本上是在可能的TMR解决方案(相同的源,更一般的特征)中使用的GFE方法的一般化,以及(3)公共交通建议,在该情况下是HERE路由API。在系统1的分析数据处理流水线中,数据可以例如在该阶段之后被写在文件系统上。这可以针对整体数据发生,这可以是缓慢的,或者每月递增地发生。这是因为富集化步骤是“缓慢”的步骤。
对于特征描述,系统1基于所有可用或历史行程数据生成多个特征(例如,参见图13中所示的特征提取)。所计算的特征列表是所使用的特征的超集。下面,在TMR解决方案中描述实际使用的特征,因此未描述的生成特征通常大部分在范围之外。这种提取的实现方式主要包含在TMR分析流水线的第二步骤中。在生产解决方案中,如果约束是实时TMR调用,则一些特征必须在使用的电话10上本地生成并与TMR API调用一起发送。可替代地,如果可以异步地执行TMR,则一旦行程数据落在系统1的IoT平台上,也可以生成这些特征。
关于GPS特征,在GPS速度阵列上,例如可以生成以下特征:(1)平均值,(2)标准偏差,以及(3)从0到100的百分位数,步长为10(因此百分位数为0、10、20…)。在示例性Databricks实现方式中,可以例如使用百分位数NumPy函数,其中插值参数设置为“最近”,而已知的NumPy函数提供大量预定义的数学运算,包括标准三角函数、用于算术运算的函数、处理复数等。
在GPS高度阵列上,可以例如生成以下特征:标准偏差。此外,GPS加速度可以实现为以下两个阵列之间的比率:(1)GPS采样与前一个采样之间的速度差,以及(2)GPS采样与前一个采样之间的时间差(以ms为单位)。最后,在GPS加速度的结果阵列上,可以生成以下特征:标准偏差。在流水线实现方式之后,还可以生成行程方向方差的度量。例如,可以从方位阵列中移除零值。
关于加速度计特性:如果两个或多个加速度计样本具有相同的时间戳,相对于阵列顺序选择最后一个。然后可以生成加速度范数阵列,并且可以从所有相同的阵列中移除该阵列的平均值。从范数阵列中,可以提取一些统计量,包括:(i)从0到100的百分位数,步长为10,(ii)四分位数范围,其是第75百分位数与第25百分位数之间的差值。
关于基于操作系统动作的特征:可以选择使用操作系统动作的两个特征,基于以下基本原理:(1)可以选择前向积分(ForwardIntegral)是因为动作标记的event-wise行为,并且因为它通常是信息最丰富的特征,以及(ii)为了简单起见,可以选择视为最可能(CountAsMostProb)。如本文所使用的,动作事件是具有唯一时间戳和具有概率的标记映射的对象(如果不存在标记,则认为具有零概率)。对于每个可能的标记生成两个特征。标记可以例如被归一化为Android名称:‘汽车’、‘自行车’、‘徒步’、‘跑步’、‘静止’、‘未知’、‘行走’、‘倾斜’,用于两个操作系统之间的特征向量命名合规性。为了执行前向积分计算,可以假设标记概率在下一个事件之前是有效的。每个标记概率可以乘以直到下一个事件或者直到最后接收到的动作事件的行程结束所经过的毫秒数。这必须针对可能的标记列表的每个标记进行。系统1对每个标记的这些乘法的结果求和,并将每个和除以行程终止时间与第一动作事件时间之间的差值,两者均以毫秒为单位。如果从未返回标记,则应将对应特征设置为零。因此,如果对于行程根本不存在动作,则所有特征都应设置为零。此外,系统1执行计数作为最可能的计算,其中对于每个可能的标记,对其中标记是最可能的标记的事件的数量进行计数,并除以事件的总数(或唯一时间戳的数量)。在50/50抽取的情况下,最可能的可以以任何方式进行选择。
关于公共交通特征,使用公共交通算法输入和输出来生成一些附加特征:(1)CandidateStopsCount:行程的候选停靠点(轨迹停靠点)的数量,(2)CandidateStopsCountNormalized:行程的候选停靠点(轨迹停靠点)的数量除以按时间递增排序的16个采样GPS点之间的半正弦距离的累积和,以米为单位,(3)PublicRoutingNumStops:最佳匹配API建议的建议停靠点的数量,(4)PublicRoutingDistRatio:按遍历的顺序的建议停靠点的累积的半正弦距离除以16个采样GPS点的累积的半正弦距离(参见点2),(5)PublicRoutingCandidateDistRatio:候选停靠点的累积的半正弦距离除以16个采样GPS点的累积的半正弦距离(参见点2),以及(6)从建议停靠点到候选停靠点的最小距离的从0到100的百分位数,步长为10(这是标准公共停靠点算法)。针对所有建议计算这些特征,但是所选择的特征是关于建议停靠点与候选停靠点之间具有最小距离的建议的特征。
关于RME特征:生成RME特征以便基于16个GPS点来估计行程是否不是在道路上执行的。在跟踪点置信度上生成两个统计描述符:(1)使用例如实现的RMESampledTracePointsConfMean例程的置信度的平均值,以及(2)使用例如实现的RMESampledTracePointsConfVariance例程的置信度的方差。
关于GFE特征:使用由GFE API(例如,HERE GFE API)返回的几何形状,系统1可以概括由接近度搜索使用的特征。基本上,给定16个点的富集化,系统1在10、20、30…100米内生成具有几何形状的点的百分比。这可能包括几何形状内距离<0的点。计算这些分布:(1)GFERoadOnlyXX,生成仅看到XX半径内的道路的点的百分比(XX从10到100,步长为10),(2)GFERailOnlyXX,生成仅看到XX半径内的轨道的点的百分比(参见点1),(3)GFERailRoadXX,生成看到XX半径内的道路或轨道的点的百分比(参见点1),以及(4)GFEAirport0,生成机场内的点的百分比(负几何距离)。将几何形状映射到源点的穷举方式是针对16个采样GPS点中的每个都进行单独的调用。然而,这就资源而言可能是昂贵的。例如,可以执行所有16个点一起的批处理调用,然后通过最小化每个几何形状的点与nearestLat/nearestLon属性之间的半正弦距离将几何形状映射回源点(对于差异和细节,参见TMR流水线的第一步骤中的批处理版本变型-其中应该在步骤1中替换GFE_API_Call,并且应该在步骤2中替换GFEFeats)。应当注意,第二种方法不太昂贵,但也不太精确,因此整体性能可能略低。
在特征生成阶段之后,行程表示被序列化到文件系统。为了从较大的生成特征池中选择上述特征,可以使用交叉验证递归特征消除(cross-validated Recursive FeatureElimination,参见图14),以便获得最佳特征集的估计,在留k个用户的设置(leave-k-users-out setup)中对多个实验的结果求平均。可以针对每个分类设置评估特征重要性(参见下文)。
对于机器学习,为了最大化分类器性能并满足技术要求,可以例如构建两阶段分类器。第一分类阶段是专门的“汽车”/“非汽车”检测。该步骤使主要感兴趣的运输模式上的性能最大化。在第一步骤中被分类为“汽车”的行程被永久地标记为“汽车”。然后将未被分类为汽车的行程馈送到多类分类器,该多类分类器试图在可用类别上分配正确的运输模式。如果当第一步骤没有分类为“汽车”时多类预测了“汽车”,则我们将行程标记为“未知”。这是由精确测量评估激发的。分类器可以例如在以下运输模式上利用TMR NP0飞行员数据来训练:汽车、火车、公共运输、自行车、摩托车、滑雪、飞机。示例性选择的分类算法是随机森林。其他算法也是可以想象的。该选择的动机可以例如源于控制模型中的过度拟合的需要,控制过度拟合具有预测的概率估计。此外,该算法具有如下优点:提供了一种用于估计特征重要性的良好方法。为了调整算法参数,在特征选择阶段之后执行网格探索(参见图15)。示例性配置是:(1)用于二元分类器的具有最大深度为8的250个树,以及(2)用于多类分类器的具有最大深度为10的250个树。在成功训练之后,模型和结果可以例如被序列化以供消费,例如通过实况服务。
此外,可以应用硬编码的过滤规则。基于技术要求,可以在两步自动分类器之后添加一些定制逻辑,以便限制不想要的错误。所应用的规则可以例如如下实现:(1)如果PublicRoutingNumStops<3或CandidateStopsCount<3或PublicRoutingDistRatio<0.6并且预测的TMR标记是公共的(公共汽车或有轨电车),则将预测改变为“未知”。该规则旨在限制公共交通误报(汽车行程被预测为公共汽车行程),(2)如果RMESampledTracePointsConfMean<0.25并且预测的TMR标记不是飞机或火车或自行车,则将行程标记为“未知”。该规则旨在从汽车候选中移除非道路行程,以及(3)如果SpeedQuantile90>320,则将行程标记为“飞机”。
除了上述全轨道分类方法之外,可以例如在分类器高度确定行程不应被分类为“汽车”时执行早期分类。该实施例变型使用与完全跟踪模式完全相同的特征和方法,但是仅在行程开始时计算特征。利用适当数量的数据,可以实现火车和自行车行程的早期过滤,假设同时对不同类别执行早期决策,类似于生产设置。用于早期分类的建议时间为300秒,可以例如基于根据F1分数对时间窗口的响应的经验研究(参见图16)。示例性生产设置在180秒时显示出良好的性能:
精度 回退 到汽车
火车 97% 78% 3%
自行车 93% 71% 18%
示例性使用的分类器在300秒的早期检测的情况下甚至更好地执行:
通常,较高的精度可能服务过度,但是混合导致回退(对于火车非常方便,对于自行车性能较差)。从汽车预测中滤除非汽车行程的能力似乎总会好些。
总体解决方案在技术上提高了性能(见下文)。为了获得现实的性能预测,在留k个用户的交叉验证设置(leave-k-users-out cross-validated setup)中评估性能。利用Coloride NP0(TMR租户)收集的3695个带注释的行程已被馈送作为分类器的训练,具有以下标记计数:
汽车 2190
有轨电车 462
火车 285
摩托车 219
自行车 204
公共汽车 160
飞机 32
滑雪 13
乘客行程可以例如被重新分配为用于TMR目的的“汽车”行程。图17和图18分别示出了当前TMR服务和所提出的解决方案的性能。阅读两个表(图17/18),通常系统1寻找的两个效果是:(1)对角线上的较高的值,这些值更好,因为它们表示每个类别的被分类器正确标记的行程的百分比,以及(2)“汽车”列上的较低的值更好(在对角线之外),因为它们表示每个类别的被误认为汽车行程的行程的百分比。比较这两个表,可以注意到以下内容:(1)汽车行程的96%被标记为汽车,这是回退值。这比替代解决方案性能稍差,替代解决方案默认为汽车并且具有更高的汽车覆盖范围。后一个值确实很高,但是以牺牲精度为代价提供,其在基线上为82%,而在当前解决方案中,对于汽车,其提高到89%。(2)引入新的未知类别以捕捉无法基于足够的证据决定标记的行程,(3)机器学习和定制逻辑的组合,两者都植根于来自不同组的TMR的过去经验,因此,对于点1,有助于降低汽车误报的数量,即被标记为汽车的非汽车行程。这在所有考虑的类别中都是明显的:-22%的自行车行程被分类为汽车(从23%到1%),-10%的公共交通行程(从33%到13%),-2%的火车,-6%的飞机,-8%的滑雪。如已经观察到的,所得到的精度效果是汽车预测更干净,(4)同时,单个非汽车类别的准确度通常更高:+16%的火车行程是正确分类的(98%正确),+10%的公共交通,+1%的自行车。飞机行程是一个例外(-16%回退),但要记住这些行程被标记为“未知”而不是汽车,(5)摩托车行程被证明实际上无法使用可用信号与汽车区分。几乎所有的摩托车行程都被有规律地标记为汽车行程。(6)大多数滑雪行程(92%)现在被分类为“未知”。这不是理想的,但远不是危险的,因为它们从未被分类为汽车行程。
此外,可以在本发明的系统1处进行相似性补充。因此,除了用于TMR的监督学习方法之外,还可以应用行程相似性策略,以便进一步提高TMR性能。附加方法是借助于先前的类似行程上的用户注释(如果有的话),并且使用该信息来校正TMR标记,如果需要的话。该特征可以容易地集成在生产API中,其中要求由用户分割的注释行程的16点表示对API是可用的。服务可以例如接收新的行程的16点表示以及TMR概率输出,并且将该行程与类似的注释行程(如果它们存在)匹配。使用轨迹之间的欧几里得伪距离来计算相似性。如果找到一个或多个匹配,则简单的加权算法基于注释证据修改TMR概率。然后选择新的最可能的类别作为TMR标记。图19示出了改变TMR标记权重(分配给自动标记的概率质量)的示例性F1分数。
要考虑的示例的类似注释行程的数量是两个,或者如果仅存在一个,则是一个。利用该参数,性能增益可以由下表示出,对于重要类别的F1性能增益,#注释=2:
F1
汽车 0.91 0.94
火车 0.98 0.98
公共 0.84 0.88
自行车 0.88 0.85
摩托车 0.00 0.51
行程熟悉度分数或指数测量
根据本发明,存在不同的实施例变型以在技术上向用户和会话分配评估中有多少遵循习惯的分数(即,熟悉度分数测量)。前两个实施例变型使用聚类方法,然后根据集群的维度评估熟悉度(以及根据它们被分配到的集群的维度评估会话的熟悉度)。
下面,描述了所使用的聚类方法和评分方法的变型:
在使用每个会话的一组链接(本文中表示为链接版本)的第一实施例变型中,使用会话的链接之间的杰卡德(Jaccard)相似性来创建集群。杰卡德(Jaccard)相似性(系数)测量集合之间的相似性。它被定义为两个集合的交集的测量尺寸除以并集的尺寸。特别地,以这种方式计算两个会话之间的相似性:
其中LSx是会话x的链接的集合。对于每个会话,聚集从一个集群开始,通过聚集相似性至少0.8的集群来进行。在集群具有多于一个会话的情况下,集群之间的相似性通过考虑所有可能的会话组合之间的最大相似性来进行。
在第二实施例变型中,使用每个会话的起始点和停止点(本文表示为起始版本和停止版本),每个会话的起始点和停止点用于聚类。两个会话之间的距离以以下方式生成:
D(S1,S2)=hav(PA1,PA2)+hav(PB1,PB2)
其中PXn是会话n的起始点(A)或终止点(B),并且hav()是两个点之间的半正弦距离。半正弦距离测量给定经度和纬度的球体上两点之间的大圆距离。例如,可以从每个会话的集群开始进行聚集,将会话的耦合起始点和终止点视为集群的质心。下一步通过迭代地对距离为300米以内的集群进行聚集来进行。每当两个集群连接时,用质心的A点和B点的纬度和经度的简单的平均值重新计算集群的质心。然后像前面一样进行另一次聚集,但是考虑以相反的方式匹配的点的质心距离(起始点与终止点匹配)。
对于用户熟悉度的评分生成并且在聚类之后,可以在集群的维度上使用基尼(Gini)系数以向每个用户分配熟悉度分数。基尼系数测量频率分布的值之间的不相等(这里是行程的熟悉度)。基尼系数为零表示完全相等,其中所有值都相同(例如,其中行程的所有测量点都匹配)。基尼系数为1(或100%)表示值之间的最大不相等(例如,对于大量行程,其中只有一个行程具有不同的测量点,而所有其他行程都完全匹配,基尼系数将接近1)。请注意,对于较大的行程集,不太可能有接近1的值。
以下关系给出了可能的指数,其可以分别用于生成熟悉度和熟悉度分数:
其中|Ci|是第i个集群中的用户会话的百分比,集群按维度顺序递减。λ是介于0与1之间的参数,其指示在建议的评分中如何考虑集群。该值定义了最终分数中每个集群的权重,具体取决于集群在排序中的位置。例如,如果该值被设置为0.5,则第一集群将计数为1,第二集群将计数为0.5,第三集群将计数为0.25,依此类推。如果该值被设置为1,则以相同的方式考虑每个集群,如果该值被设置为0,则仅考虑第一集群。在实施例变型中,该值被设定为0.5。该指数的主要思想是设计一个值,该值在给定集群维度的情况下以以下顺序(x轴:集群号,y轴:集群维度)对用户进行排序,如图20所示。
为了比较基尼指数和该实施例变型中使用的指数,所使用的指数是为了调整以下事实而生成,排序的第一和最后两种情况在基尼指数中想要的分数为0,这是仅对于最后一种情况可接受的值。在图21中,示出了基尼指数与所使用的指数之间的相关性。可以看出,存在一组在基尼中分数为0的值,但它们在该新指数中呈现为一个显著的值。此外,可以看出,这两个指数之间的相关性似乎在一对值中显示出某种规律性。该图示出了放置在同一条线上一些点组。这意味着进一步的探索可以导致使用这两个指数的组合的某种聚类算法。
在任何情况下,这两个指数之间的一般相关性都不能过高,因为它们背后有两个不同的概念。基尼定义了集群维度的某种方差,新指数定义了会话如何分布到集群中的度量,重点是主要集群。两者都可以被认为是用户熟悉度的度量。最后,为了对会话熟悉度进行评分,会话的熟悉度分数被测量为其中放置会话的集群的相对维度,其生成为集群中的会话与用户的总会话之间相除。
熟悉度的第三实施例变型(在本文中表示为“链接包(Bag of Links)”实施例变型(BOL))从每个链接的熟悉度分数开始,以计算会话和用户的熟悉度。每个用户的每个链接的熟悉度的分数生成为其中出现链接的用户的会话的百分比。会话熟悉度生成为会话中的链接分数的平均值,用户熟悉度生成为用户行进的链接的分数的平均值。
为了比较所提出的三个实施例变型,可以观察到以下内容:在前两个实施例变型中,熟悉度取决于会话被聚类的方式。在对结果进行检查后,两种方法给出不同结果的情况如下。用户从相同的点A去往相同的点B,但通过不同的链接(见图22)。该行为导致链接熟悉度变型中的低聚集和起停变型中的高聚集。在数据集中,已经发现了一些情况,其中用户在相同的街道上行进,但是地理编码测量(例如,HERE)给出链接的方式导致链接实施例变型中错误的行为。典型地,可能发生的是,较大的街道对于街道的两个方向具有两个不同的链接ID,或者两个街道很接近并且地理编码测量(例如,HERE)将用户定位在错误的一个中。(参见图23)。
当用户从点A到点B1(会话S1)行进一次,并且从A到B2(会话S2)行进一次时,发生第二种情况,如图23所示。如果S1和S2具有足够的公共链接(用户行进相同的路径但在不同的地方结束),则在链接方法中两个行程被聚类在一起,而起停方法中不聚类在一起(在停止点不够接近的情况下)(参见图24)。
链接包(BOL)实施例变型不生成集群,因此不能执行关于行程如何聚集的直接比较。然而,可以考虑get_familiarity过程,相对于其他实施例变型的其他get_familiarity,对该方法进行良好的检查。BOL实施例变型变得有用的情况是当用户仅使用在先前会话中的每个会话中已经行进过的链接来进行新的行程,但是没有覆盖这些会话中的最短会话的80%时。在这种情况下,起始点和停止点远离,因此get_familiarity起停将返回0,并且共同的链接的数量不足以覆盖80%的链接,因此链接方法的get_familiarity也将返回较低的分数。相反,该新方法将给出为1的最大分数(参见图25)。
为了实现不同的实施例变型,可以例如使用不同的库来生成熟悉度和使用的相关示例。每个库可能需要特定的输入并检索由三个不同数据帧组成的相同输出。示例性数据帧可以包括以下组成:(i)familiarity_user:UserID:User_ID,SessionSize[]:包含该用户的集群的维度的阵列,Familiarity:用基尼指数计算的指数,Familiarity_v_2:用新指数计算的指数(如上所述);(ii)familiarity_session:UserID:User_ID,SessionID:Session_ID,familiarity_sess:会话熟悉度,它是放置会话的集群的相对维度(集群中的会话/用户的总会话),以及(iii)clusters:UserID:User_ID,Cluster:生成的集群的标识符,Sessions[]:集群中的会话,Centroid:根据情况以不同方式计算的质心。每个库可以提供称为get_familiarity的函数(如上面已经提到的),其将包含先前计算的集群的数据帧和包含一组新会话的数据帧(每个会话必须具有与用于生成集群数据帧的数据帧相同的形状)作为输入。该函数返回输入集中的每个会话的熟悉度分数。该函数不更新集群,而是简单地将每个新会话分配给现有集群,并返回该集群的稍微修改的会话熟悉度(返回包含在该集群中的会话的会话熟悉度,就像其中包含新会话一样进行计算)。如果会话来自新用户,则函数返回-1。
在例如databricks的熟悉度链接库中,可以实现熟悉度函数,其具有用于每个会话的一行和以下字段作为输入:(i)UserID:用户的标识符,(ii)StartTimeUTC:会话的起始时间,用作会话ID,(iii)LinkIDs[]:用户在会话中行进的链接集合。例如,可以采用LinkID的绝对值,以便仅考虑链接而不考虑行驶方向。此外,在例如databricks的熟悉度链接部署中,可以提供先前的库熟悉度链接库的使用的示例。可以在小部件上选择环境,并且函数保存关于三个变量familiarity_user、familiarity_session和clusters的三个结果数据帧。该databricks可以部署在所描述的环境中。
在熟悉度起停库中,可以例如提供需要输入具有以下组成的数据帧的函数:(i)UserID:用户ID;(ii)StartTimeUTC:会话的起始时间,用作会话ID;(iii)Coordinates{‘lat_a’:StartLatitude,‘long_a’:StartLongitude,‘lat_b’:EndLatitude,‘long_b’:EndLongitude}:包含会话的起始点和终止点的信息的结构。作为熟悉度起停库的示例库,可以例如提供熟悉度起停部署,例如作为另一个databricks。这是先前库的使用的示例。可以在小部件上选择环境,并且函数保存关于三个变量familiarity_user、familiarity_session和clusters的三个结果数据帧。该databricks可以例如部署在所描述的环境中。
此外,通过例如熟悉度链接包,输出数据帧可以与先前的情况不同。三个表可以具有以下形状:(1)Familiarity_user:(i)UserID:标识用户,以及(ii)UserFamiliarity:用户的熟悉度,如上所述计算;(2)Familiarity_session:(i)UserID:标识用户,(ii)SessionID:标识会话,以及(iii)SessionFamiliarity:会话的熟悉度,如上所述计算;(3)分数:(i)UserID:标识用户,(ii)LinkID:标识链接,以及(iii)scores:链接的分数,如上所述计算。scores表代替cluster表。当期望生成一组新会话的熟悉度时,可以使用该库的get_familiarity,但是传递分数数据帧,而不是集群数据帧。该库的函数可以例如被实现为需要具有以下形状df的输入:(i)UserID:标识用户,(ii)StartTimeUTC:会话的起始时间,用作会话ID,以及(iii)links[]:包含用户在对应会话中行进的链接的链接ID的绝对值的阵列。可以提供熟悉度链接包部署,作为先前库的使用的示例。可以在小部件上选择环境,并且函数保存关于三个变量familiarity_user、familiarity_session和score的三个结果数据帧。该数据库可以部署在所描述的环境中。
行程熟悉度检测114
本发明的行程熟悉度检测和测量114可以被实现为基于上述驾驶员乘客检测(DPD)112、运输模式识别(TMR)113和行程熟悉度分数测量的集成检测引擎。即,行程熟悉度检测可以使用测量与注释行程的相似性的TMR 113、通过上述链接ID v1测量熟悉度的DPD112、以及使用(i)通过所描述的链接ID v2的熟悉度和/或(ii)起始&停止和/或(iii)链接包的熟悉度分数测量114来实现。本文公开了总共5种不同的示例性熟悉度聚类数据处理和算法。然而,基于所公开的技术,可想到其他过程。
首先,可以使用所公开的TMR 113来提供本发明的技术策略和数据处理考虑。当实时接收到TMR 113请求时,系统1(相应于TMR 113)检查用户是否已经注释或校正了类似的行程。因此,系统1必须能够有效地检索历史注释的行程数据并定义轨迹相似性度量。由于TMR 113实时请求包含具有19个点的行程的表示,因此在本实施例变型中,存储由用户标识符划分的每个注释的行程的该表示是有意义的。这可以例如在数据库或文件系统中完成(例如,每个行程一行)。用户注释优选地可以例如与行程概要一起存储。可以使用例如Databricks(例如每晚)批量构建/更新该行程概要。实施例变型可以暗示来自用户注释的信息在24/48小时内的可用性。也可以考虑现有设施和其他方法(参见图26)。为了加权参数并评估TMR 113下的性能,多类概率可以例如被加权为小于注释概率。这与以下事实一致:如果用户在过去校正了行程并且系统1观察到类似的行程,则用户应该是可信的。权重的建议值为0.4。图27示出了具有TMR基线示例性图表。
DPD 112的示例性实施例变型,其可以用于行程熟悉度检测115,并且其可以例如分别包括由系统1和行程熟悉度检测和测量115执行的以下技术步骤:(1)收集用户历史,(2)聚类类似行程,(3)定义质心行程,(4)新行程到达:寻求与现有集群的匹配,以及(5)检查集群DPD标记。这由图28示出,其中N是集群中具有DPD分数的会话的总数,其中Di∈[0,1]Pi∈[0,1]和Xi∈[0,1]是由DPD针对每个会话(包括进入/退出和BT连接)返回的最终置信度分数,并且其中集群分数也可以从用户注释(真实)生成或最终从两个源的组合生成。
熟悉度分数的目的是创建用于关于用户在熟悉道路上行进多少的评分目的的度量。这可能例如需要三种不同的方法,如图29所示,即,(1)通过linkID聚类,(ii)链接包:linkIDs频率,以及(iii)起始&停止。如图30所示的起始&停止方法在该情境中是一种强大的方法。
在熟悉度检测114的情境中使用的DPD可以包括以下内容:(1)对于每个用户:(i)收集行程历史(~几周),(ii)聚类类似的行程(经由Jaccard距离进行分层的层次聚类
其中共享80%的地理编码测量(例如HERE)链接的行程被定义为相似的,以及(iii)将DPD平均标记分配给集群(使用用户注释+算法结果两者);以及(2)对于到达的新行程:(i)寻找与现有集群的匹配(新行程和质心之间的Jaccard距离),以及(ii)检查集群DPD标记。
图30示出了行程熟悉度检测和测量114的可能的一般架构的示例性概览。必须注意的是,对于系统1的性能和消耗,测量轨迹之间的相似性可能在计算上具有挑战性。因此,作为实施例变型,可以在系统1中使用相似性预过滤器,特别是对于TMR 113,其中仅对可能候选的子集执行数据处理。起始和终止都位于当前行程(在TMR实时请求中评估的行程)的起始/终止的某个半径内的行程被认为是有效的候选。基于经验观察,对于该示例,半径可以例如被设置为500米。由于用户注释可以是有限数量的(在正常操作条件下)并且使用所提出的相似性预过滤器,因此轨迹相似性实际上是针对行程的小子集生成的,如图31所示。
行程熟悉度检测的技术对象之一是自动识别类似行程的组(“集群”)。这些集群反映了用户习惯,其可以被用来帮助预测例如运输模式或用户是作为驾驶员还是作为乘客行进。一个好的示例是人们的上班的方式。通勤者经常沿着相同的路线行驶,并且每次都很可能使用相同的交通工具。为了聚类行程,需要找到量化两个行程有多相似的方式。在下文中,更详细地讨论了行程熟悉度检测114和熟悉度评分的两个不同的实施例变型A/B:
(A)HERE链接ID的Jaccard指数:
1.利用捕捉位置内容(诸如道路网络、建筑物、公园和运输模式)的附加数据来处理和富集化行程传感数据。该数据还可以从外部源访问,例如从地图和位置数据以及相关服务提供商访问,诸如HERE Technologies(下文中称为HERE)。因此,路线匹配可以由来自提供商如HERE的信息完成。HERE将路线表示为链接ID的序列,其中单个链接ID表示具有统一特性的道路的区段。每当旅行者有可能转弯或情境信息发生变化时,开始新的链接ID。两个链接ID序列的相似性可以通过Jaccard分数来测量,Jaccard分数被定义为交集与并集的比率。交集表示存在于两条路线中的唯一链接ID的数量,并集表示存在于两条路线中的至少一条路线中的唯一链接ID的数量。分数从0(根本不相似)到1(两个序列相同)。
2.通常对距离测量执行聚类,距离测量可以通过从1中减去分数来获得。
3.为了将新行程与现有集群匹配,必须存储“质心”。质心被定义为存在于属于相应集群的大多数行程中的链接ID的集合。经由质心的链接ID与新行程的链接ID之间的Jaccard指数来量化新行程与集群的匹配程度。
(B)起始点、终止点和行进距离:
1.使用Haversine公式在两个行程的起始点之间以及在相同行程的终止点之间生成地理距离。我们希望集群还包含在相反方向上执行的行程,并且因此另外将“起始点1”与“终止点2”进行比较,并且将“终止点1”与“起始点2”进行比较,然后使用导致较小距离(较大相似性)的比较。
2.以千米为单位,依据行程长度进一步比较和/或匹配两次行程。更确切地说,使用它们的长度的相对差以便正确地处理在类似位置起始和终止但具有不同路线的行程。
3.为了保证所有分量对两次行程的总体相似性的贡献相同,我们应用经修改的sigmoid函数,其将所有三个分量映射到0与1之间的范围内。
4.然后,将总体熟悉度组成为三个分量的加权平均值,再次得到0(相同行程)与1(完全不同行程)之间的数字。
5.在该方法中,集群被存储为被定义为圆的起始区域和终止区域。起始(终止)区域的中心由所有起始(终止)点的平均值定义,并且半径是相应的标准偏差。另外,存储平均行进距离及其标准偏差。这种集群的视觉表示在图33中示出。
6.通过计算以相应半径为单位的起始(终止)点之间的距离以及依据行驶的公里数的以标准偏差为单位的距离来匹配新行程。同样,通过与前述相同的技术避免了对行进方向(A→B与B→A)的敏感性。
优选实施方式遵循第二种方法。其原因是用户经常使用并行道路以避免密集的交通。对于链接ID方法,这导致完全不同的行程,而对于第二方法,所产生的差异在大多数情况下是可忽略的。
通过将最紧密地联系在一起的行程迭代地分组在一起来聚类行程,直到不存在比配置的阈值更紧密地联系在一起的剩余行程。为此,例如,可以基于层次聚类应用机器学习结构,诸如来自使用Python编程语言的scikit learn的层次聚类结构。通过本文提出的基于机器学习的聚类,路线被分组为一组对象,以使得同一组(集群)中的路线彼此之间比其他组(集群)中的路线更相似(在某种意义上)。
根据本发明,集群是在集群成员之间具有可定义的小距离、数据空间的密集区域、间隔和特定分布的组。利用本发明的结构,聚类因此在本文中在技术上被近似为多目标优化问题。适当的聚类结构和参数设置(包括诸如要使用的距离(在变型中,也实现为距离函数)、密度阈值或预期集群的数量的参数)取决于用户的个体数据集和预期使用和/或运输模式。本文的聚类被实现为基于知识发现和/或涉及机器学习结构的试验和故障的多目标优化的迭代过程的自动任务。因此,本发明的“起始点、终止点和行进距离”方法包括需要优化以实现最佳性能的某些超参数。在距离生成期间,存在两个参数,它们是用于起始点和终止点分量的权重以及用于行进距离分量的权重。在聚类期间,还有两个超参数,即,距离阈值(在该距离阈值下,我们认为两个行程足够相似以形成集群),以及创建新集群所需的最小行程数。因此,总共有四个超参数需要被选择。优化可以优选地针对不同的用例单独进行。例如,可以使用至少两种这样的风格:一种用于驾驶员与乘客分类,其中期望集群主要由驾驶员或乘客行程组成,以便产生有价值的信息来区分这两个类别。针对运输模式识别113创建第二种风格,其中以最大化依据运输模式找到的集群的纯度的方式选择参数。
基于机器学习的聚类提供了一组集群,其包含数据集中的所有或大部分对象。另外,本发明的基于机器学习的聚类可以基于诸如频率、聚类中的路线的最频繁的白天时间、运输模式等的标准来指定聚类彼此之间的关系,例如,嵌入在彼此中的聚类的层级。如果行程熟悉度检测还包括风险测量,即,针对诸如事故、交通拥堵等的影响事件的发生的概率测量的测量,则所述标准可以与不同的权重相关联,以将风险测量校准到所述相关条件。在这种情况下,应注意,用于识别驾驶员熟悉度的标准对于大多数现有技术系统是至关重要的。在现有技术系统中,通常分别使用基于不同标度的两个主要标准来识别驾驶员的熟悉度,这两个标准是:(i)使用基于频率的标度(即:先前从一天不止一次到从不在路线驾驶);以及(ii)使用基于距离的标度(即:从靠近家的驾驶员到陌生人)。显然,在两个检测标准上,驾驶员可能由于重复暴露而变得熟悉路线。第一标度(基于频率)直接识别熟悉度,而第二标度(基于距离)间接识别熟悉度。因此,现有技术系统中的识别性能受到限制。通过引入上述权重,本发明的系统不具有这样的限制,而是允许在技术上分别依赖于不同标度和标准的检测。
应当注意,由于集群被存储为被定义为圆的起始区域和终止区域,其中起始(终止)区域的中心可以由所有起始(终止)点的平均值定义,并且半径是相应的标准偏差,并且其中距离可以被定义为平均行进距离,其标准偏差作为方差,因此当前应用的聚类可以被描述为基于分布的聚类结构。因此,对于检测的技术方面,集群被实现为最可能属于相同分布的对象,其中测量的可能性触发路线与由机器学习结构标识的某个集群的关联,其中路线熟悉度检测114的识别性能是指识别先前经历的传感输入的能力。
作为另一实施例变型,例如为了进一步改善系统1的性能,驾驶员DNA测量可以例如由系统1应用和执行。系统1和例如相应的远程信息处理应用程序的目的之一是通过记录个人移动电话或黑盒中存在的GPS、加速度计、陀螺仪和其他集成传感器来测量驾驶员行为并对其进行评分。驾驶员和运输模式的不同组合具有不同的驾驶风格,此外,每个驾驶员根据外部因素(例如天气、道路类型)和个人因素(例如行程动机、时间约束和行程熟悉度)而具有不同的驾驶风格。给定先前的假设,可以基于系统1对单人驾驶风格的深度识别和/或分析结合他的行程历史来改进运输模式识别113和驾驶员乘客检测112。远程信息处理应用程序的另一个目的是对驾驶员进行基于机器的指导,以降低他的风险,同时改善他的驾驶风格。利用相关风险估计对每个用户的驾驶风格进行分析,将允许提供个性化反馈和程序,以在最小量的行程历史之后减少每个驾驶员的风险暴露。作为实施例变型,可以使用如下的用于设计可以有助于在技术上定义驾驶风格的特征的不同假设:(i)加速度计和GPS速度之间的相关性,(ii)每公里的操纵和电话分心事件的频率,(iii)考虑弯曲度的转弯的同时进行的速度分布的深度分析,(iv)考虑道路弯曲度、速度限制和道路类别的速度分布的分析,以及(v)根据道路类别、弯曲度和形状从加速度计和陀螺仪分布进行分析和特征提取。使用聚类算法以及从单个用户的历史行程集合提取的上述特征允许定义和测量驾驶员的驾驶风格。对于驾驶员DNA,如上所述,系统1对测量和描述用户驾驶风格的特征进行聚类,并将每个聚类与聚类中存在运输模式、驾驶员或乘客行程的频率相关联。最后,对于每个聚类,将存在可能的运输模式的等级和驾驶员或乘客的最可能的输出。该组合在本文中称为驾驶员DNA的测量。
驾驶员乘客检测(DPD)112
为了基于由乘员6/61/62的蜂窝移动设备10的多个传感器102测量的传感数据来识别和/或分类车辆41、42、43…的乘员,多个传感器102至少包括加速度计1025和陀螺仪1026。移动设备10还包括一个或多个无线连接105,其中,通过无线连接中的至少一个,蜂窝移动设备10借助于蜂窝移动设备到蜂窝数据传输网络2的天线连接而充当蜂窝数据传输网络2内的无线节点221、…、225,并且多个传感器102连接到移动设备10的监测移动节点应用101。移动电信设备10的一个或多个无线连接105或有线连接可以例如包括作为无线连接的蓝牙,其用于通过基于Wi-Fi 802.11标准构建具有车载蓝牙能力和/或3G和/或4G和/或GPS和/或蓝牙LE(低能耗)和/或BT的个人局域网(PAN)使用2.4至2.485GHz的ISM(工业、科学和医疗)无线电频带中的短波长UHF(超高频)无线电波来交换数据,和/或非接触式或接触式智能卡和/或SD卡(安全数字存储卡)或另一可互换的非易失性存储卡。为了提供无线连接105,移动电信设备10可以例如借助于移动电信设备10的天线连接来充当相应数据传输网络内的无线节点,特别是如上所述的移动电信网络,诸如3G、4G、5G LTE(长期演进)网络或移动WiMAX或其他基于GSM/EDGE和UMTS/HSPA的网络技术等,并且更特别地具有适当的识别装置,诸如SIM(订户身份模块)等。
监测移动节点应用101捕捉蜂窝移动设备10和/或蜂窝移动设备10的用户6/61/62的基于使用和/或基于用户的远程信息处理数据。移动电信设备10和监测蜂窝移动节点应用101可以例如连接到车载诊断系统431、…、435和/或车载交互设备441、…、445,其中,移动电信设备10捕捉机动车辆41、42、43、…和/或用户的基于使用31和/或基于用户32的汽车数据3。移动电信设备10可以例如借助于无线电数据系统(RDS)模块10241,和/或包括卫星接收模块的定位系统10242,和/或包括数字无线电服务模块的移动蜂窝电话模块10243,和/或与无线电数据系统10241或定位系统10242或蜂窝电话模块10243通信的语言单元10244,来提供一个或多个无线连接1024。卫星接收模块10242可以例如包括全球定位系统(GPS)电路和/或数字无线电服务模块至少包括全球移动通信系统(GSM)单元。用于与机动车辆的数据传输总线中的至少一个连接的移动电信设备10的多个接口可以例如包括用于与机动车辆的控制器局域网(CAN)总线连接的至少一个接口,例如与车载诊断(OBD)端口连接,或者例如用于安装电池的装置的另一连接,或者还有OEM(原始设备制造商)安装的系统获得对车载传感器或娱乐系统(诸如Apple Carplay等)的信息访问,从而提供必要的车辆传感器信息。
如上所述,借助于移动电信设备10的无线连接105在作为客户端的移动远程信息处理应用101和智能中央汽车电路11之间的移动电信网络2上设置数据链路21,其中移动电信设备10充当所述移动电信网络2内的无线节点221、…、225,并且其中操作参数40121和环境参数40111在机动车辆41、42、43……操作期间通过移动电信设备10借助于移动远程信息处理应用101进行测量,并收集在数据流路径103中作为汽车远程信息处理数据3,并被传输到中央电路11。智能中央电路11包括传感数据驱动的核心聚合器110,该核心聚合器具有多个动态应用的基于传感数据的触发器1012,该触发器借助于移动电信设备10的移动远程信息处理应用101来触发、捕捉和监测数据流路径103中的所述传感参数。移动电信设备10可以例如包括至少一个GPS模块(全球定位系统)和/或地质罗盘模块,该模块基于3轴特斯拉计和3轴加速度计,和/或陀螺仪传感器或陀螺仪,和/或MEMS加速度计传感器,和/或MEMS磁力计或磁阻坡莫合金传感器或另一个3轴磁力计,该MEMS加速度计传感器包括悬臂梁,该悬臂梁以地震质量作为测量适当加速度或重力加速度的证明质量。
移动设备10基于从加速度计获得的测量参数借助于加速度计来测量重力加速度移动传感数据。从加速度移动传感数据检测用户的车辆41、42、…进入或离开移动模式,该加速度移动传感数据至少包括与用户6的车辆进入或离开相关联的基轴和旋转度的模式。检测到的车辆进入或离开用户10的移动模式通过对输入特征执行决策树分类以排除用户是从车辆的左侧还是右侧进入或离开来触发用户的车辆进入或离开移动的识别作为输入特征。应当注意,系统1也可以通过使用其他分类算法或结构(例如,增强树或神经网络等)来实现。
DPD系统112允许选择(尽可能少的)特性输入特征以减少要使用的模型参数的数量。本发明的DPD(驾驶员乘客检测)方法和系统至少包括以下三个主要步骤:1.通过分析加速度来检测用户进入/离开汽车的确切时刻。2.使用陀螺仪数据来选择各种特征,诸如与入口/出口相关联的旋转的方向和角度。3.对输入特征执行决策树分类,以排除用户是否从汽车的左侧/右侧进入(离开)。该系统提供当人进入/离开汽车的确切时刻的检测。要提到的是,在没有该信息的情况下,由于用户可以在各种各样的移动中执行许多旋转,陀螺仪传感器的任何其他分析对于DPD问题将是无用的。检测步骤通过收集关于向上/向下(地球参考系统)方向上的加速度的方差和关于智能手机参考系统(未旋转)中的加速度信号中的一些特定不连续性的存在(或不存在)的信息来完成。
本发明的优点之一是其容易适应和适用于在模块化系统中进行使用,例如,以在技术上提供行程的熟悉度检测。因此,本发明的驾驶员乘客检测(DPD)系统可以例如被实现为创造性的、更复杂的和复合的模块化监测和检测系统1的一部分,具有交互式驾驶员乘客检测(DPD)112、运输模式识别(TMR)113和行程熟悉度检测和/或分数114,允许广泛用于监测与他/她的移动电话的使用相关的用户动作。
附图标记列表
1 移动识别和分类系统
10 移动电信设备
101 移动远程信息处理应用(蜂窝移动节点应用)
102 移动节点的集成传感器
1020 MEMS磁力计
1021 接近传感器
1022 指纹传感器
1023 环境光传感器
1024 GPS传感器
10241 经度位置
10242 纬度位置
10243 高度位置
1025 加速度计
1026 陀螺仪
1027 相机
1028 触摸屏
1029 MEMS罗盘模块
1030 背照式传感器
1031 NFC传感器
103 数据流路径
105 无线连接
1051 GSM
1052 WLAN
1053 蓝牙
1054 近场通信NFC(用于NFC传感器)
11 中央电路
110 远程信息处理驱动的聚合器
1101 数据接口
111 机器学习模块
112 驾驶员乘客检测(DPD)系统
113 运输模式识别(TMR)
1131 梯度增强机器学习分类器
1132 输入特征值
1133 运输模式
11331 公共运输
11332 摩托车
11333 自行车
11334 火车
11335 有轨电车
11336 飞机
11337 汽车
11338 滑雪
11339 船
1134 传输模式标记(输出值)
1135 行程
11351 运输模式移动模式
1136 监督学习结构
114 行程熟悉度测量和检测
1141 行程1、…、t
11411 行程1、…、t的起始点
11412 行程1、…、t的终止点
11413 作为测量的地理距离的行程1、…、t的长度
1142行程1、…、t的配对1、…、p,其中
1143 配对1、…、p的测量的熟悉度参数
11431 第一地理距离
11432 第二地理距离
11433 第三地理距离
1144 行程集群1、…、c
11421 相似性的距离阈值
11422 创建集群所需的最小行程阈值数
12 第一层自动化风险转移系统
121 电子第一层资源汇集系统
122 第一层风险转移参数
123 第一层支付转移参数
13 第二层自动化风险转移系统
131 电子第二层资源汇集系统
132 第二层风险转移参数
133 第二层支付转移参数
2 数据传输网络
20 蜂窝网络网格
201、…、203 网络小区/基本服务区域
211、…、213 基站(收发器)
2111、…、2131 小区全球识别码(CGI)
221、…、226 蜂窝网络节点
21 单向或双向数据链路
3 移动设备10的传感参数
31 3轴加速度计的传感参数值
32 GPS传感器的传感参数值
33 行程数据库
331、…、33t 存储的行程1、…、t的测量的传感参数值的时间序列
33i1 存储的行程i的测量的3轴加速度计的传感参数值的时间序列
33i2存储的行程i的测量的GPS传感器的传感参数值的时间序列
41、42、43、…机动车辆
401、…、405车载传感器和测量设备
411、…、415OEM(原始设备制造商)设备
421、…、425数据传输总线接口
431、…、435车载诊断系统
441、…、445车载交互设备
451、…、455汽车远程信息处理设备
6移动设备的用户

Claims (17)

1.一种用于基于由与用户(6)和/或车辆相关联的移动设备(10)的一个或多个传感器(102)测量的传感数据(3)的电子行程熟悉度检测(114)的方法,所述一个或多个传感器(102)至少包括GPS传感器(1024)和/或加速度计(1025),所述移动设备(10)包括一个或多个无线连接(105),其中,通过所述无线连接(105)中的至少一个,所述移动设备(10)借助于所述移动设备(10)到蜂窝数据传输网络(2)的天线连接而充当所述蜂窝数据传输网络(2)内的无线节点(221、…、225),并且所述一个或多个传感器(102)连接到所述移动设备(10)的监测移动节点应用(101),其中,所述监测移动节点应用(101)捕捉所述移动设备(10)的一个或多个传感器(102)的基于使用的传感数据(3)和/或基于用户的传感数据(3),
其特征在于,所述移动设备(10)基于从所述移动设备(10)的传感器(102)获得的测量参数(3)来测量传感参数值的多个时间序列(331、…、33t),每个时间序列(331、…、33t)至少包括GPS传感器(1024/102)的位置和/或速度测量的传感参数值(32)的时间序列(33i2),其中,所述GPS传感器(1024/102)通过测量从两个或更多个卫星接收的信号中的不同光速延迟来测量所述移动设备(10)的经度位置(10241)、纬度位置(10242)和高度位置(10243)作为时间序列(33i2),
其特征在于,对于每个测量的时间序列(331、…、33t),检测测量的传感参数值的时间序列(331、…、33t)的至少一部分的起始点(11411)和终止点(11412),从而触发将测量的序列(331、…、33t)的至少一部分分配给具有检测到的起始点(11411)和检测到的终止点(11412)的特定行程(1141),
其特征在于,对于检测到的行程(1141)的任何配对(1142),基于所述测量的序列(311、312、313;321、322、323)的至少一部分的传感参数(32)的基于GPS的位置参数值,来测量检测到的所述行程配对的起始点之间的第一地理距离和所述行程配对的终止点之间的第一地理距离,以及基于所述测量的序列(311、312、313;321、322、323)的至少一部分的传感参数(32)的基于GPS的位置参数值,来测量所述行程配对的检测到的第一行程的起始点与检测到的第二行程的终止点之间的第二地理距离和所述行程配对的检测到的第二行程的起始点与检测到的第一行程的终止点之间的第二地理距离,
其特征在于,通过针对所述配对的两个行程中的每个行程测量所述行程配对的每个行程的检测的起始点与终止点之间的行程长度来测量第三地理距离,其中,所述第三地理距离由两个测量的行程长度的相对差给出,
其特征在于,将三个测量的地理距离相互归一化,通过将三个测量的地理距离映射到从0到1的归一化范围内来应用修改的sigmoid转移来将所述测量的地理距离映射到0与1之间的范围内,其中,通过将三个归一化地理距离值组合到三个归一化地理距离值的加权平均值来测量总熟悉度参数值,其中,测量的总熟悉度参数值在从0到1的归一化范围内,并且其中,总熟悉度参数值为0指示相同的行程,总熟悉度参数值为1指示完全不同的行程。
2.根据权利要求1所述的用于电子行程熟悉度检测(114)的方法,其特征在于,存储具有带有定义的半径的起始区域和终止区域的集群。
3.根据权利要求2所述的用于电子行程熟悉度检测(114)的方法,其特征在于,起始区域和/或终止区域的中心由与集群相关联的行程的所有起始点和终止点的平均值定义,并且所述半径被定义为相应的标准偏差。
4.根据权利要求2至3中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,对于集群,另外存储平均行进距离及其标准偏差。
5.根据权利要求2至4中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,通过生成以相应半径为单位的起始点和/或终止点之间的距离以及依据行驶的公里数的以所述标准偏差为单位的距离来匹配行程。
6.根据权利要求1至5中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,由机器学习结构使用层次聚类来对行程进行聚类,所述机器学习结构将最紧密地联系在一起的行程迭代地分组在一起,直到不存在比定义的阈值更紧密地联系在一起的剩余行程。
7.根据权利要求1到6中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,所述电子行程熟悉度检测(114)包括依赖于针对所述电子行程熟悉度检测(114)的增加和减少的性能测量而动态地优化的一个或多个预定义的超参数。
8.根据权利要求7所述的用于电子行程熟悉度检测(114)的方法,其特征在于,为了生成所述第一地理距离、所述第二地理距离和/或所述第三地理距离,存在至少两个超参数,所述至少两个超参数是用于起始点和终止点分量以及用于行进距离分量的权重。
9.根据权利要求7或8中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,对于所述聚类,存在作为距离阈值的至少两个超参数,其中,在所述超参数的范围内对两个行程进行检测以形成集群,以及形成创建新集群所需的行程的最小数量阈值。
10.根据权利要求7至9中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,针对包括不同的运输模式和/或不同的地理位置和/或驾驶员到乘客行程的每个可能的技术应用单独地执行超参数的优化。
11.根据权利要求10所述的用于电子行程熟悉度检测(114)的方法,其特征在于,针对每种可能的运输模式单独执行所述超参数的优化,其中,通过以最大化依据所述运输模式找到的集群的纯度的方式改变所述超参数来优化所述超参数。
12.根据权利要求1至11中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,所述移动设备(10)被实现为移动电信设备(10),并且所述一个或多个传感器(102)是所述移动电信设备(10)的集成传感器(102)。
13.根据权利要求12所述的用于电子行程熟悉度检测(114)的方法,其特征在于,所述移动电信设备(10)是蜂窝移动电话和/或智能手机。
14.根据权利要求1至13中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,通过所述方法能够区分的可能的运输模式至少包括基于陆地的交通工具和/或海上交通工具和/或基于空中的运输工具和/或徒步旅行和/或滑雪。
15.根据权利要求14所述的用于电子行程熟悉度检测(114)的方法,其特征在于,所述基于陆地的交通工具至少包括用于汽车和/或摩托车和/或自行车的可区分模式。
16.根据权利要求1至15中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,对测量的传感参数值的时间序列(331、…、33t)的至少一部分的起始点(11411)和终止点(11412)的检测包括选择针对行程起始点的最早地理坐标(纬度和经度)以及针对行程终止点的最晚地理坐标(纬度和经度)。
17.根据权利要求1至15中任一项所述的用于电子行程熟悉度检测(114)的方法,其特征在于,对测量的传感参数值的时间序列(331、…、33t)的至少一部分的起始点(11411)和终止点(11412)的检测包括:如果开始记录触发器被激发并且当停止记录触发器被激发时,由监测模块和/或应用报告精确的地理坐标。
CN202180076115.7A 2020-09-11 2021-09-10 用于自动行程熟悉度识别的移动设备和系统及其对应方法 Pending CN116472562A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EPPCT/EP2020/075548 2020-09-11
PCT/EP2020/075548 WO2022053147A1 (en) 2020-09-11 2020-09-11 Mobile device and system for identifying and/or classifying occupants of a vehicle and corresponding method thereof
PCT/EP2021/074939 WO2022053617A1 (en) 2020-09-11 2021-09-10 Mobile device and system for automated trip familiarity recognition and corresponding method thereof

Publications (1)

Publication Number Publication Date
CN116472562A true CN116472562A (zh) 2023-07-21

Family

ID=72517242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180076115.7A Pending CN116472562A (zh) 2020-09-11 2021-09-10 用于自动行程熟悉度识别的移动设备和系统及其对应方法

Country Status (4)

Country Link
US (3) US20220080976A1 (zh)
EP (3) EP4211594A1 (zh)
CN (1) CN116472562A (zh)
WO (3) WO2022053147A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102183A2 (en) * 2021-12-02 2023-06-08 Zendrive, Inc. System and/or method for personalized driver classifications
US20230227046A1 (en) * 2022-01-14 2023-07-20 Toyota Motor North America, Inc. Mobility index determination
CN114691523B (zh) * 2022-04-25 2022-08-23 景网技术有限公司 一种gps系统调测方法及装置
CN116668095B (zh) * 2023-05-16 2024-03-29 江苏信创网安数据科技有限公司 一种网络安全智能评估方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10072932B2 (en) * 2015-05-07 2018-09-11 Truemotion, Inc. Motion detection system for transportation mode analysis
US10630723B1 (en) * 2015-12-03 2020-04-21 United Services Automobile Association (Usaa) Determining policy characteristics based on route similarity
US11151813B2 (en) * 2017-06-28 2021-10-19 Zendrive, Inc. Method and system for vehicle-related driver characteristic determination

Also Published As

Publication number Publication date
EP4211601B1 (en) 2024-05-22
EP4211600A1 (en) 2023-07-19
WO2022053617A1 (en) 2022-03-17
US20230128964A1 (en) 2023-04-27
US20230076568A1 (en) 2023-03-09
WO2022053147A1 (en) 2022-03-17
EP4211601A1 (en) 2023-07-19
EP4211594A1 (en) 2023-07-19
WO2022053557A1 (en) 2022-03-17
US20220080976A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
US11710251B2 (en) Deep direct localization from ground imagery and location readings
CN111512345B (zh) 仅基于手机遥测动态、准实时测量与识别驾驶员动作的电子系统及其相应方法
CN109155104B (zh) 推荐估计到达时间的系统和方法
Kumar et al. An IoT-based vehicle accident detection and classification system using sensor fusion
EP4211601B1 (en) Method for electronic trip familiarity detection
EP2758879B1 (en) A computing platform for development and deployment of sensor-driven vehicle telemetry applications and services
US20210285777A1 (en) Method, apparatus, and system for identifying transportation transition regions from probe data
US11348452B2 (en) Method, apparatus, and system for automatic closure verification using multiple possible vehicle paths
US20210140787A1 (en) Method, apparatus, and system for detecting and classifying points of interest based on joint motion
Das et al. Automated urban travel interpretation: A bottom-up approach for trajectory segmentation
Abdelrahman et al. Crowdsensing-based personalized dynamic route planning for smart vehicles
Garg et al. VividhaVahana: smartphone based vehicle classification and its applications in developing region
Hernandez Sanchez et al. Estimating vehicle movement direction from smartphone accelerometers using deep neural networks
US20210142187A1 (en) Method, apparatus, and system for providing social networking functions based on joint motion
Islam et al. Real-time vehicle trajectory estimation based on lane change detection using smartphone sensors
US11107175B2 (en) Method, apparatus, and system for providing ride-sharing functions based on joint motion
EP3382570A1 (en) Method for characterizing driving events of a vehicle based on an accelerometer sensor
US11845447B2 (en) Method, apparatus, and system for detecting an on-boarding or off-boarding event based on mobile device sensor data
Islam Applying Machine Learning Techniques to Improve Safety and Mobility of Urban Transportation Systems Using Infrastructure-and Vehicle-Based Sensors
US20230177414A1 (en) System and method for trip classification
US20230392936A1 (en) Method and apparatus for determining lingering communication indicators
Chandrasegaran Combining GPS and sensors to determine mode of transportation
Parviainen Studies on sensor aided positioning and context awareness
Rao et al. On Collecting High Quality Labeled Data for Automatic Transportation Mode Detection
Li Real-Time Traffic Safety Evaluation in the Context of Connected Vehicles and Mobile Sensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40095021

Country of ref document: HK