JP2021514090A - 密度クラスタリングに基づくホットルートの分析方法 - Google Patents

密度クラスタリングに基づくホットルートの分析方法 Download PDF

Info

Publication number
JP2021514090A
JP2021514090A JP2020545145A JP2020545145A JP2021514090A JP 2021514090 A JP2021514090 A JP 2021514090A JP 2020545145 A JP2020545145 A JP 2020545145A JP 2020545145 A JP2020545145 A JP 2020545145A JP 2021514090 A JP2021514090 A JP 2021514090A
Authority
JP
Japan
Prior art keywords
route
core
corep
density
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020545145A
Other languages
English (en)
Other versions
JP6912672B2 (ja
Inventor
欣 徐
欣 徐
聯旺 ▲ディアオ▼
聯旺 ▲ディアオ▼
侃 易
侃 易
青山 李
青山 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Publication of JP2021514090A publication Critical patent/JP2021514090A/ja
Application granted granted Critical
Publication of JP6912672B2 publication Critical patent/JP6912672B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、目標ルートを若干のルートポイントからなるルートポイント集合として特徴付けて類似度距離行列を構築し、二つのルートポイント集合間毎の類似度を比較してから、類似度距離行列、距離しきい値ε及び密度しきい値MinPtsに基づいて密度クラスタリングによりルートポイント集合からなるクラスタを反復的に計算し、最後に、各クラスタのルートセットの最頻値を目標ホットルートとして出力する、密度クラスタリングに基づくホットルートの分析方法を開示した。本発明は、(1)目標ルートポイント集合の類似度の比較方法が提供されることと、(2)密度しきい値MinPtsの選択には一定の柔軟性やロバスト性があることと、(3)計算コストが低く、工学的な方法で実現されることという利点がある。【選択図】図1

Description

本発明は、目標ルートの分析・マイニングの分野に関し、特に密度クラスタリングに基づくホットルートの分析方法に関する。
よく知られているように、現在では目標ルートに関する計測によるデータ量はますます大きくなっており、人力のみにより分析し処理すれば、即時かつ正確に目標ルートのパターンをまとめることが難しいため、リアルタイム性に対する要求の高い決断に対する補助を即時に支援することができない。従来の目標ルートの分析・予測技術では、目標位置についてデータを計測するが、キーとなるルートポイントに基づいて分析を行っていないものが多いため、高レベルのルート特徴に着目して多粒度の目標ルートモードを抽出できず、計算コストが高くなっていた。
本発明は、従来技術の問題点に対して、密度クラスタリングに基づくホットルートの分析方法を提供することを目的とする。
この密度クラスタリングに基づくホットルートの分析方法は、
目標ルートを若干のルートポイントからなるルートポイント集合として特徴付けて類似度距離行列を構築するステップ1と、
二つのルートポイント集合間毎の類似度を比較してから、類似度距離行列、距離しきい値ε及び密度しきい値MinPtsに基づいてルートポイント集合から中核ルートセットをマイニングし、さらに、中核ルートセットに対する「直接密度到達可能」の関係に応じて、密度クラスタリングにより中核ルートセットがクラスタ化したクラスタを反復的に生成するステップ2と、
各クラスタのルートポイント集合の最頻値を目標ホットルートとして出力するステップ3と、
を含む。
従来による密度クラスタリング中の類似度距離行列に比べて、ステップ1中の行列の行や列は一定次元数のベクトルに代えて、不定長のルートポイント集合に対応するものとなる。ステップ1はステップ1−1〜ステップ1−3を含む。
ステップ1−1では、n個の目標ルートに対応するn個のルートポイント集合を収集したとし、ルートポイント集合毎は一つの目標ルートに対応し、ルートポイント集合中の要素毎は対応する目標ルート中の一つのルートポイントとなり、そして、i個目のルートポイント集合Pとj個目のルートポイント集合Pとの間のJaccard距離JaccardDist(Pi,Pj) は以下のように定義され、
Figure 2021514090
ステップ1−2では、ルートポイント集合をソートし、つまり、集合の大きさに関しては大きい順に、かつ索引値に関しては小さい順にn個のルートポイント集合をソートしてP、P、…、Pと記し、ただし、|P|≧|P|≧…≧|P|が満たされており、
ステップ1−3では、類似度距離行列を初期化し、つまり、0<ε<1の範囲から値を取るように距離しきい値εを設定し、一般には、ルートポイント集合の最近傍距離の平均値として値を取ることができ、即ち、
Figure 2021514090
初期化した類似度距離行列DistArrayはN/Aとなり、その行列の大きさがn×nであり、即ち、行列の行数と列数がいずれもnであり、類似度距離行列はポリラインに関して対称なものであるため、上三角部分のみを残すようにする。
ステップ2では、ルートポイント集合の大きさと距離しきい値εに基づく類似度比較策(ステップ2−3)を創造的に提案し、二つのルートポイント集合間毎の類似度比較による計算コストは大きく省かれ、また、集合値類似度距離の計算のもとにルートポイント集合に特化した「ε近傍」、「中核ルートセット」、「直接密度到達可能」、「間接密度到達可能」、「密度連結」という概念(ステップ2−8、2−9)をさらに創造的に提案しており、それにより、従来による一定次元数のベクトルに対する密度クラスタリングの規則を集合値データにまで拡張させるようになる。ステップ2はステップ2−1〜ステップ2−11を含む。
ステップ2−1では、現在集合の索引を設定し、つまり、現在ルートポイント集合の索引をs=1と設定し、
ステップ2−2では、比較待ち集合の索引を設定し、つまり、比較待ちルートポイント集合の索引をt=s+1と設定し、
ステップ2−3では、比較待ち集合の索引を判断し、つまり、比較待ちルートポイント集合の索引を判断し、t≦nかつ|P|/|P|≧1−εが満たされていないと、ステップ2−4へ進み、満たされていると、ステップ2−6を実行し、
ステップ2−4では、現在集合の索引を更新し、つまり、現在集合の索引値をs=s+1と更新し、
ステップ2−5では、現在集合の索引を判断し、s≧nが満たされていると、ステップ2−8へ進み、でないと、ステップ2−2へ戻り、
ステップ2−6では、類似度距離を計算し、つまり、現在集合の索引と比較待ち集合の索引に対応する二つのルートポイント集合間のJaccard距離JaccardDist(Ps,Pt)を計算し、JaccardDist(Ps,Pt)≦εが満たされていると、類似度行列中の対応するセルの値を更新し、
DistArray[s,t] = JaccardDist(Ps,Pt) (3)

DistArray[s,t]は、類似度距離行列DistArrayのs行目かつt列目の値を表し、
ステップ2−7では、比較待ち集合の索引をt=t+1と更新し、ステップ2−3へ戻り、
ステップ2−8では、ルートポイント近傍の大きさを計算し、つまり、任意のルートポイント集合Pをセットし、ルートポイント集合Pとの類似度距離が距離しきい値ε以内にあるその他のルートポイント集合のすべてを当該ルートポイント集合Pのε近傍と定義してNε(P)と記し、
ε(P)={Q|JaccardDist(P,Q)≦ε&&Q≠P}
(4)
ただし、Qは任意のルートポイント集合Qを表し、式(4)に従って各ルートポイント集合Pのε近傍の大きさを計算して|Nε(P)|と記し、
ステップ2−9では、中核ルートセットを構築し、つまり、密度しきい値MinPtsを設定し、ε近傍の大きさがMinPtsより小さくないルートポイント集合を中核ルートセットとして定義し、その値が1よりも大きいか等しいかつnよりも小さい自然数とされ、一般には、
Figure 2021514090
として値を取ってもよく、即ち、中核ルートセットCorePはいずれも下式を満たし、
|Nε(CoreP)|≧MinPts (5)
ステップ2−10では、密度に基づく反復クラスタ化を行い、つまり、各中核ルートセットをそれぞれ初期クラスタとしながら距離しきい値εと密度しきい値MinPtsをセットし、二つの中核ルートセットCorePとCoreQは下式を満たすと、
CoreQ∈Nε(CoreP) (6)
中核ルートセットCoreQは中核ルートセットCorePから「直接密度到達可能」なものと称され、以下のように表されるものとなり、
Figure 2021514090
長さが零ではない一つの中核ルートセットチェーンの存在により、中核ルートセットCoreQと中核ルートセットCorePは下記の条件(a)と(b)を満たすものとなると、
Figure 2021514090
中核ルートセットCoreQは中核ルートセットCorePから「間接密度到達可能」なものと称され、以下のように表されるものとなり、
Figure 2021514090
また、一つの中核ルートセットCoreOの存在により、中核ルートセットCorePとCoreQはそれぞれ中核ルートセットCoreOから直接又は間接密度到達可能なもの、即ち、下記の条件(c)と(d)を満たすものとなると、
Figure 2021514090
中核ルートセットCorePとCoreQは「密度連結」しているものと称され、
そして、距離しきい値εと密度しきい値MinPtsに基づいて、密度クラスタリングにより反復的にクラスタ化を行い、直接密度到達可能な、間接密度到達可能な及び密度連結している中核ルートセットをクラスタ化させて生成したクラスタの数はuと記され、
ステップ2−11では、ルートセットの最頻値を計算し、つまり、u個のクラスタC,C,……,C中の、k’個の中核ルートセットであるC={CoreP,CoreP,……,CorePk’}を含む各クラスタCのそれぞれについてルートセットの最頻値Modeを計算し、CorePk’はk’個目の中核ルートセットを表し、ただし、1≦k≦uであり、Cはk個目のクラスタを表す。
ステップ2−10は、
距離しきい値εと密度しきい値MinPtsをセットし、いずれかの中核ルートセットCorePから開始するように、中核ルートセットCorePから直接密度到達可能な中核ルートセットのすべてを、全部の中核ルートセットが処理されたまでクラスタ化させることを含み、具体的には、ステップ2−10−1〜ステップ2−10−3を含む。
ステップ2−10−1では、未処理の中核ルートセットがあるか否かを判断し、あれば、ステップ2−10−2へ進み、なければ、ステップ2−10−3へ進み、
ステップ2−10−2では、未処理のいずれかの中核ルートセットCorePについて、中核ルートセットCorePから直接密度到達可能な中核ルートセットのすべてをクラスタ化させ、ステップ2−10−1へ戻り、
ステップ2−10−3では、クラスタ化した中核ルートセットのすべてを同一のクラスタとして出力し、クラスタの数はuと記される。
ステップ2−10−3では、同一のクラスタCにおいて、二つの中核ルートセット間毎の関係は必ず直接密度到達可能なもの、間接密度到達可能なもの又は密度連結しているものの一つに属し、以下、具体的に証明する。
現在クラスタC中の二つの中核ルートセット間毎を直接密度到達可能なもの、間接密度到達可能なもの又は密度連結しているものとし、中核ルートセットCoreOから直接密度到達可能な中核ルートセットCoreQを一つ新たにクラスタ化させ、即ち、
Figure 2021514090
としようとする場合、クラスタCに既存している任意の中核ルートセットCorePと新たに追加される中核ルートセットCoreQは下記四つの関係となり得る。
1.中核ルートセットCorePは中核ルートセットCoreOそのものである場合、
Figure 2021514090
であり、中核ルートセットCoreQは中核ルートセットCorePから直接密度到達可能となる。
2.中核ルートセットCorePは中核ルートセットCoreOから直接密度到達可能な又は間接密度到達可能なものである場合、
Figure 2021514090
中核ルートセットCorePとCoreQは中核ルートセットCoreOを介して密度連結している。
3.中核ルートセットCoreOは中核ルートセットCorePから直接密度到達可能な又は間接密度到達可能なものである場合、即ち、
Figure 2021514090
中核ルートセットCoreQは中核ルートセットCorePから間接密度到達可能となる。
4.中核ルートセットCoreOと中核ルートセットCorePは密度連結している場合、即ち、ある中核ルートセットCoreRの存在により
Figure 2021514090
そのため、中核ルートセットCorePと中核ルートセットCoreQも中核ルートセットCoreRを介して密度連結している。
以上から分かるように、新たにクラスタ化した中核ルートセットCoreQとクラスタに既存している中核ルートセットとの間はやはり直接密度到達可能、間接密度到達可能又は密度連結という関係を満たしている。
ステップ2−11では、下式に従ってクラスタCのルートセットの最頻値Modeを計算し、
Figure 2021514090
ただし、Pはルートポイント集合を表し、CorePはクラスタC中のq個目の中核ルートセットを表し、ルートセットの最頻値ModeはクラスタC中のすべての中核ルートセットとのJaccard距離の和が最小となる場合に対応するルートポイント集合を表す。
ステップ2−11はステップ2−11−1〜ステップ2−11−3を含む。
ステップ2−11−1では、交叉集合係数と合併集合係数を計算し、つまり、k’個の中核ルートセットであるC={CoreP,CoreP,……,CorePk’}を含むクラスタCをセットし、最初にクラスタCに含まれるルートポイント辞書Ωを計算し、
Ω=∪1≦q≦k’CoreP
即ち、ルートポイント辞書はクラスタC中のすべての中核ルートセットの合併集合であり、続いて、下式に示されるように、ルートポイント辞書中の各ルートポイントpについて、クラスタCの各中核ルートセットCorePにおいてのルートポイントpの交叉集合係数αrqと合併集合係数βrqを計算し、
Figure 2021514090
ステップ2−11−2では、交叉集合係数と合併集合係数に基づいてルートポイントと中核ルートセットとのJaccard距離を計算し、交叉集合係数と合併集合係数によれば、ルートポイント集合P={p}と各中核ルートセットCorePとのJaccard距離は以下のように簡略化されることが可能になり、
Figure 2021514090
ステップ2−11−3では、交叉集合係数と合併集合係数に基づいてルートポイント集合の最頻値を計算し、
Figure 2021514090
ステップ3は、Modeをk個目のクラスタCのホットルートとして出力することを含む。
距離しきい値εはルートポイント集合間の類似度を比較するためのものであり、二つのルートポイント集合間毎のJaccard距離は区間[0,1]の範囲において値を取るため、距離しきい値εは同様に区間[0,1]の範囲において値を取るようになる。
二つのルートポイント集合間のJaccard距離は上限条件である
Figure 2021514090
従来による密度クラスタリング方法は一定次元数のベクトルデータのみに適合し、不定長のルートポイント集合データには適合していなかった。本発明はルートポイント集合に特化した「中核ルートセット」及びその「直接密度到達可能」、「間接密度到達可能」、「密度連結」という概念を創造的に提案し、それにより、一定次元数のベクトルのみに適合した従来による密度クラスタリング方法は不定長のルートポイント集合データへまで拡張応用されるようになる。本発明は交叉集合係数と合併集合係数に基づくホットルートのマイニング方法をさらに提案し、ホットルートの分析能力は効果的に向上している。
本発明によれば、(1)目標ルートポイント集合の類似度の比較方法が提供されることと、(2)密度しきい値MinPtsの選択には一定の柔軟性やロバスト性があることと、(3)計算コストが低く、工学的な方法で実現されることとなる。本発明に採用されるルートポイント集合に基づく分析・マイニング方法によれば、ルートポイント順序が簡略化され、同じルートポイントを有する計測データをクラスタ化させることに役立ち、計算コストが大きく低減され、計算効率の向上を図ることができる。
以下、図面と具体的な実施形態に合わせて本発明をさらに具体的に説明し、本発明による上記の又は他の利点はより明らかになろう。
本発明に係るフローチャートである。
以下、図面及び実施例に合わせて本発明をさらに説明する。
本発明によれば、目標ルートを若干のルートポイントからなるルートポイント集合として特徴付けて類似度距離行列を構築し、二つのルートポイント集合間毎の類似度を比較してから、類似度距離行列、距離しきい値ε及び密度しきい値MinPtsに基づいて密度クラスタリングによりルートポイント集合のクラスタを反復的に計算し、最後に、各クラスタのルートセットの最頻値を目標ホットルートとして出力する。
図1に示されるように、具体的には、本発明の方法はステップ(1)〜ステップ(13)を含む。
n個の目標ルートに対応するn個のルートポイント集合を収集したことを仮定し、ルートポイント集合毎は一つの目標ルートに対応し、ルートポイント集合中の要素毎は対応する目標ルート中の一つのルートポイントとなり、そして、二つのルートポイント集合PとPとの間毎のJaccard距離は以下のように定義され、
Figure 2021514090
ステップ(1)では、ルートポイント集合をソートし、つまり、集合の大きさに関しては大きい順に、かつ索引値に関しては小さい順にn個のルートポイント集合をソートしてP、P、…、Pと記し、ただし、|P|≧|P|≧…≧|P|が満たされており、
ステップ(2)では、類似度距離行列を初期化し、つまり、0<ε<1の範囲から値を取るように距離しきい値εを設定し、初期化した類似度距離行列DistArrayはN/Aとなり、その行列の大きさがn×nであり、即ち、行列の行数と列数がいずれもnであり、類似度距離行列はポリラインに関して対称なものであるため、上三角部分のみを残すようにし、
ステップ(3)では、現在集合の索引を設定し、つまり、現在ルートポイント集合の索引をs=1と設定し、
ステップ(4)では、比較待ち集合の索引を設定し、つまり、比較待ちルートポイント集合の索引をt=s+1と設定し、
ステップ(5)では、比較待ち集合の索引を判断し、つまり、比較待ちルートポイント集合の索引を判断し、t≦nかつ|P|/|P|≧1−εが満たされていない場合、ステップ(6)へ進み、満たされている場合、ステップ(8)へ進み、
ステップ(6)では、現在集合の索引を更新し、つまり、現在集合の索引値をs=s+1と更新し、
ステップ(7)では、現在集合の索引を判断し、s≧nが満たされている場合、ステップ(10)へ進み、満たされていない場合、ステップ(4)へ戻り、
ステップ(8)では、類似度距離を計算し、つまり、現在集合の索引と比較待ち集合の索引に対応する二つのルートポイント集合間のJaccard距離を計算し、JaccardDist(P,P)≦εが満たされていると、類似度行列中の対応するセルの値を更新し、
DistArray[s,t] = JaccardDist(Ps,Pt) (2)

ステップ(9)では、比較待ち集合の索引をt=t+1と更新し、ステップ(5)へ戻り、
ステップ(10)では、ルートポイント近傍の大きさを計算し、つまり、任意のルートポイント集合Pをセットし、ルートポイント集合Pとの類似度距離が距離しきい値ε以内にあるその他のルートポイント集合のすべてを当該ルートポイント集合Pのε近傍と定義してNε(P)と記し、
ε(P)={Q|JaccardDist(P,Q)≦ε&&Q≠P}
(3)
各ルートポイント集合Pの近傍の大きさを計算して|Nε(P)|と記し、
ステップ(11)では、中核ルートセットを構築し、つまり、密度しきい値MinPtsを設定し、ε近傍の大きさがMinPtsより小さくないルートポイント集合を中核ルートセットとして定義し、即ち、中核ルートセットCorePはいずれも下式を満たし、
|Nε(CoreP)|≧MinPts (4)
ステップ(12)では、密度に基づく反復クラスタ化を行い、つまり、各中核ルートセットをそれぞれ初期クラスタとしながら距離しきい値εと密度しきい値MinPtsをセットし、二つの中核ルートセットCorePとCoreQは下式を満たすと、
CoreQ∈Nε(CoreP) (5)
中核ルートセットCoreQは中核ルートセットCorePから「直接密度到達可能」なものと称されて、
Figure 2021514090
として表され、長さが零ではない一つの中核ルートセットチェーンの存在により、中核ルートセットCoreQと中核ルートセットCorePは下記の条件(a)と(b)を満たすものとなると、
Figure 2021514090
中核ルートセットCoreQは中核ルートセットCorePから「間接密度到達可能」なものと称されて、
Figure 2021514090
として表され、また、一つの中核ルートセットCoreOの存在により、中核ルートセットCorePとCoreQはそれぞれ中核ルートセットCoreOから直接又は間接密度到達可能なものとなると、即ち、下記の条件が満たされていると、
Figure 2021514090
中核ルートセットCorePとCoreQは「密度連結」しているものと称され、そして、距離しきい値εと密度しきい値MinPtsに基づいて、密度クラスタリングにより反復的にクラスタ化を行い、直接密度到達可能な、間接密度到達可能な及び密度連結している中核ルートセットをクラスタ化させて生成したクラスタの数はuと記され、
ステップ(13)では、ルートセットの最頻値を計算し、つまり、u個のクラスタC,C,……,C中の、k’個の中核ルートセットであるC={CoreP,CoreP,……,CorePk’}を含む各クラスタCのそれぞれについてルートセットの最頻値Modeを計算し、
Figure 2021514090
ただし、1≦k≦uであり、Cはk個目のクラスタを表し,CorePはj個目の中核ルートセットを表し、ModeをクラスタCのホットルートとして出力する。
本発明の方法によれば、目標位置に対する計測が不正確である場合の目標ルートの分析能力を高めることができ、目標位置に対する計測の冗長性の低減に役立ち、空間粒度の柔軟性を増加させ、目標ルートの分析をより良好に完成可能となる。以下、一実例に従って本発明による密度クラスタリングに基づくホットルートの分析方法を説明する。
本実施例では、ある都市の道路交通管理においてタクシの軌跡情報から高頻度の目標ルートをn=5個収集しており、それらは5個のルートポイント集合に対応し、ルートポイント集合中の要素毎は当該ルート中の一つのルートポイントに対応し、距離しきい値εに0.3が取られ、密度しきい値MinPtsに1が取られ、そして、密度クラスタリングに基づくホットルートの分析ステップは以下の様になる。
ステップ1では、ルートポイント集合をソートし、つまり、ルートポイント集合の大きさに関しては大きい順に、かつ索引値に関しては小さい順にP、P、P、P、Pとしてソートする。詳細は表1に示す。
Figure 2021514090
ステップ2では、類似度距離行列を初期化し、つまり、距離しきい値εに0.3が取られ、初期化した類似度距離行列DistArrayはN/Aとなり、行列の大きさが5×5であり、類似度距離行列はポリラインに関して対称なものであるため、上三角部分のみを残す。詳細は表2に示す。
Figure 2021514090
ステップ3では、現在集合の索引を設定し、つまり、現在ルートポイント集合の索引をs=1と設定し、
ステップ4では、比較待ち集合の索引を設定し、つまり、比較待ちルートポイント集合の索引をt=s+1=2と設定し、
ステップ5では、比較待ち集合の索引を判断し、「t≦nかつ|P|/|P|=0.75>1−ε=0.7」が満たされていると、ステップ8へ進み、
ステップ8では、類似度距離を計算し、ルートポイント集合PとPとの間のJaccard距離は0.25として計算され、距離しきい値ε=0.3よりも小さいものであるから、類似度行列DistArrayを更新する。詳細は表3に示す。
Figure 2021514090
ステップ9では、比較待ち集合の索引を更新し、つまり、比較待ちレーダ放射源の索引をt=t+1=3と更新し、ステップ5へ戻り、
ステップ5では、比較待ち集合の索引を判断し、「t≦nかつ|P|/|P|=0.75>1−ε」が満たされていると、ステップ8へ進み、
ステップ8では、類似度距離を計算し、つまり、ルートポイント集合PとPとの間のJaccard距離を計算して、類似度行列DistArrayを更新する。詳細は表4に示す。
Figure 2021514090
ステップ9では、比較待ち集合の索引を更新し、つまり、比較待ちレーダ放射源の索引をt=t+1=4と更新し、ステップ5へ戻り、
ステップ5では、比較待ち集合の索引を判断し、比較待ち目標索引値は「|P|/|P|=0.5≧1−ε」を満たしていないと判断され、ステップ6へ進み、
ステップ6では、現在集合の索引を更新し、つまり、現在集合の索引値をs=s+1=2と更新し、
ステップ7では、現在集合の索引を判断し、現在集合の索引はs<nとして判断され、ステップ4へ戻り、
ステップ4では、比較待ち集合の索引を設定し、つまり、比較待ち集合の索引をt=s+1=3と設定し、
ステップ5では、比較待ち集合の索引を判断し、比較待ち目標索引値はt=3として判断され、「t<nかつ|P|/|P|=1≧1−ε」が満たされており、ステップ8へ進み、
ステップ8では、類似度距離を計算し、つまり、ルートポイント集合PとPとの間のJaccard距離を計算して、類似度行列DistArrayを更新する。詳細は表5に示す。
Figure 2021514090
ステップ9では、比較待ち集合の索引を更新し、つまり、比較待ちレーダ放射源の索引をt=t+1=4と更新し、ステップ5へ戻り、
ステップ5では、比較待ち集合の索引を判断し、比較待ち目標索引値はt=4として判断され、「|P|/|P|=0.667≧1−ε」が満たされておらず、ステップ6へ進み、
ステップ6では、現在集合の索引を更新し、つまり、現在集合の索引値をs=s+1=3と更新し、
ステップ7では、現在集合の索引を判断し、現在集合の索引はs<nとして判断され、ステップ4へ戻り、
ステップ4では、比較待ち集合の索引を設定し、つまり、比較待ちルートポイント集合の索引をt=s+1=4と設定し、
ステップ5では、比較待ち集合の索引を判断し、比較待ち目標索引値はt=4として判断され、「|P|/|P|≧1−ε」が満たされておらず、ステップ6へ進み、
ステップ6では、現在集合の索引を更新し、つまり、現在集合の索引値をs=s+1=4と更新し、
ステップ7では、現在集合の索引を判断し、現在集合の索引はs<nとして判断され、ステップ4へ戻り、
ステップ4では、比較待ち集合の索引を設定し、つまり、比較待ちルートポイント集合の索引をt=s+1=5と設定し、
ステップ5では、比較待ち集合の索引を判断し、比較待ちルートポイント集合の索引は「t=5≦nかつ|P|/|P|=1≧1−ε」を満たしていると判断され、ステップ8へ進み、
ステップ8では、類似度距離を計算し、ルートポイント集合PとPとの間のJaccard距離は零として計算され、JaccardDist(P,P)≦0.3が満たされており、類似度行列DistArrayを更新する。詳細は表6に示す。
Figure 2021514090
ステップ9では、比較待ち集合の索引を更新し、つまり、比較待ちレーダ放射源の索引をt=t+1=6と更新し、ステップ5へ戻り、
ステップ5では、比較待ち集合の索引を判断し、比較待ち目標索引値はt=6として判断され、「t≦n」が満たされておらず、ステップ6へ進み、
ステップ6では、現在集合の索引を更新し、つまり、現在集合の索引値をs=s+1=5と更新し、
ステップ7では、現在集合の索引を判断し、現在集合の索引はs=nとして判断され、ステップ10へ進み、
ステップ10では、ルートポイント近傍の大きさを計算し、つまり、各ルートポイント集合Pのε近傍の大きさ|Nε(P)|を計算する。詳細は表7に示す。
Figure 2021514090
ステップ11では、中核ルートセットを構築し、つまり、ε近傍の大きさがMinPtsより小さくないルートポイント集合を中核ルートセットとし、その値が1よりも大きいか等しいかつnよりも小さい自然数とされ、一般には、
Figure 2021514090
として値を取ってもよく、P,P,P,P,Pはいずれも中核ルートセットであり、
ステップ12では、密度に基づく反復クラスタ化を行い、初期クラスタはそれぞれ{P},{P},{P},{P}及び{P}の5個であり、反復クラスタ化を経て最終的に生成されたクラスタはu=2個でC={P,P,P}及びC={P,P}となり、クラスタCにおいては、P,P,Pの両者毎は直接密度到達可能なものであり、クラスタCにおいては、PとPも直接密度到達可能なものであり、
ステップ13では、ルートセットの最頻値を計算し、クラスタ毎についてそのすべての中核ルート集合からなる中核セットを構築してC={P,P,P}とC={P,P}が得られ、そしてそれらの最頻値をそれぞれ計算してMode={a,b,c},Mode={e,f}が得られ、Modeを例として、その交叉集合係数と合併集合係数は表8に示される。
Figure 2021514090
都市の道路交通管理においては、マイニングされたホットルート{a,b,c}と{e,f}について対応する道路や信号機を強化することで、円滑な交通を保証し、交通流量を制御することが可能になる。本発明の研究成果によれば、目標位置に対する計測が不正確である場合の目標ルートの分析能力の向上や、目標位置に対する計測の冗長性の低減に役立ち、空間粒度の柔軟性を増加させ、目標ルートの分析をより良好に完成可能となる。
本発明は中国国家自然科学基金委員会からの経済的援助(No.61771177)を受けて研究したものである。
本発明は密度クラスタリングに基づくホットルートの分析方法を提供するが、その具体的な実現方法や手段が多く、上記は本発明の好ましい実施形態に過ぎず、当業者にとっては、本発明の原理から逸脱することなく若干の改良や変更を行うこともでき、それらも本発明の保護範囲にあるものと見なすべきであることは了解されたい。本実施例において明らかにされていない各構成部分はいずれも従来技術により実現可能なものである。

Claims (8)

  1. 目標ルートを若干のルートポイントからなるルートポイント集合として特徴付けて類似度距離行列を構築するステップ1と、
    二つのルートポイント集合間毎の類似度を比較してから、類似度距離行列、距離しきい値ε及び密度しきい値MinPtsに基づいてルートポイント集合から中核ルートセットをマイニングし、さらに、中核ルートセットに対する直接密度到達可能の関係に応じて、密度クラスタリングにより中核ルートセットがクラスタ化したクラスタを反復的に生成するステップ2と、
    各クラスタのルートポイント集合の最頻値を目標ホットルートとして出力するステップ3と、
    を含むことを特徴とする密度クラスタリングに基づくホットルートの分析方法。
  2. ステップ1はステップ1−1〜ステップ1−3を含み、
    ステップ1−1では、n個の目標ルートに対応するn個のルートポイント集合を収集したとし、ルートポイント集合毎は一つの目標ルートに対応し、ルートポイント集合中の要素毎は対応する目標ルート中の一つのルートポイントとなり、そして、i個目のルートポイント集合Pとj個目のルートポイント集合Pとの間のJaccard距離JaccardDist(Pi,Pj)は以下のように定義され、
    Figure 2021514090
    ステップ1−2では、ルートポイント集合をソートし、つまり、集合の大きさに関しては大きい順に、かつ索引値に関しては小さい順にn個のルートポイント集合をソートしてP、P、…、Pと記し、ただし、|P|≧|P|≧…≧|P|が満たされており、
    ステップ1−3では、類似度距離行列を初期化し、つまり、距離しきい値εを設定し、初期化した類似度距離行列DistArrayはN/Aとなり、その行列の大きさがn×nであり、即ち、行列の行数と列数がいずれもnであることを特徴とする、請求項1に記載の方法。
  3. ステップ1−3では、距離しきい値εはすべてのルートポイント集合の最近傍距離の平均値として値が取られ、即ち、
    Figure 2021514090
    とすることを特徴とする、請求項2に記載の方法。
  4. ステップ2はステップ2−1〜ステップ2−11を含み、
    ステップ2−1では、現在集合の索引を設定し、つまり、現在ルートポイント集合の索引をs=1と設定し、
    ステップ2−2では、比較待ち集合の索引を設定し、つまり、比較待ちルートポイント集合の索引をt=s+1と設定し、
    ステップ2−3では、比較待ち集合の索引を判断し、つまり、比較待ちルートポイント集合の索引を判断し、t≦nかつ|P|/|P|≧1−εが満たされていないと、ステップ2−4へ進み、満たされていると、ステップ2−6を実行し、
    ステップ2−4では、現在集合の索引を更新し、つまり、現在集合の索引値をs=s+1と更新し、
    ステップ2−5では、現在集合の索引を判断し、s≧nが満たされていると、ステップ2−8へ進み、でないと、ステップ2−2へ戻り、
    ステップ2−6では、類似度距離を計算し、つまり、現在集合の索引と比較待ち集合の索引に対応する二つのルートポイント集合間のJaccard距離JaccardDist(Ps,Pt)を計算し、JaccardDist(Ps,Pt)≦εが満たされていると、類似度行列中の対応するセルの値を更新し、
    DistArray[s,t] = JaccardDist(Ps,Pt) (3)

    DistArray[s,t]は類似度距離行列DistArrayのs行目かつt列目の値を表し、
    ステップ2−7では、比較待ち集合の索引をt=t+1と更新し、ステップ2−3へ戻り、
    ステップ2−8では、ルートポイント近傍の大きさを計算し、つまり、任意のルートポイント集合Pをセットし、ルートポイント集合Pとの類似度距離が距離しきい値ε以内にあるその他のルートポイント集合のすべてを当該ルートポイント集合Pのε近傍と定義してNε(P)と記し、
    ε(P)={Q|JaccardDist(P,Q)≦ε&&Q≠P} (4)
    ただし、Qは任意のルートポイント集合Qを表し、式(4)に従って各ルートポイント集合Pのε近傍の大きさを計算して|Nε(P)|と記し、
    ステップ2−9では、中核ルートセットを構築し、つまり、密度しきい値MinPtsを設定し、ε近傍の大きさがMinPtsより小さくないルートポイント集合を中核ルートセットとして定義し、即ち、中核ルートセットCorePはいずれも下式を満たし、
    |Nε(CoreP)|≧MinPts (5)
    ステップ2−10では、密度に基づく反復クラスタ化を行い、つまり、各中核ルートセットをそれぞれ初期クラスタとしながら距離しきい値εと密度しきい値MinPtsをセットし、二つの中核ルートセットCorePとCoreQは下式を満たすと、
    CoreQ∈Nε(CoreP) (6)
    中核ルートセットCoreQは中核ルートセットCorePから直接密度到達可能なものと称され、以下のように表されるものとなり、
    Figure 2021514090
    長さが零ではない一つの中核ルートセットチェーンの存在により、中核ルートセットCoreQと中核ルートセットCorePは下記の条件(a)と(b)を満たすものとなると、
    Figure 2021514090
    中核ルートセットCoreQは中核ルートセットCorePから「間接密度到達可能」なものと称され、以下のように表されるものとなり、
    Figure 2021514090
    一つの中核ルートセットCoreOの存在により、中核ルートセットCorePとCoreQはそれぞれ中核ルートセットCoreOから直接又は間接密度到達可能なもの、即ち、下記の条件(c)と(d)を満たすものとなると、
    Figure 2021514090
    中核ルートセットCorePとCoreQは密度連結しているものと称され、
    そして、距離しきい値εと密度しきい値MinPtsに基づいて、密度クラスタリングにより反復的にクラスタ化を行い、直接密度到達可能な、間接密度到達可能な及び密度連結している中核ルートセットをクラスタ化させて生成したクラスタの数はuと記され、
    ステップ2−11では、ルートセットの最頻値を計算し、つまり、u個のクラスタC,C,……,C中の、k’個の中核ルートセットであるC={CoreP,CoreP,……,CorePk’}を含む各クラスタCのそれぞれについてルートセットの最頻値Modeを計算し、CorePk’はk’個目の中核ルートセットを表し、ただし、1≦k≦uであり、Cはk個目のクラスタを表すことを特徴とする、請求項3に記載の方法。
  5. ステップ2−10は、
    距離しきい値εと密度しきい値MinPtsをセットし、いずれかの中核ルートセットCorePから開始するように、中核ルートセットCorePから直接密度到達可能な中核ルートセットのすべてを、全部の中核ルートセットが処理されたまでクラスタ化させることを含み、具体的には、ステップ2−10−1〜ステップ2−10−3を含み、
    ステップ2−10−1では、未処理の中核ルートセットがあるか否かを判断し、あれば、ステップ2−10−2へ進み、なければ、ステップ2−10−3へ進み、
    ステップ2−10−2では、未処理のいずれかの中核ルートセットCorePについて、中核ルートセットCorePから直接密度到達可能な中核ルートセットのすべてをクラスタ化させ、ステップ2−10−1へ戻り、
    ステップ2−10−3では、クラスタ化した中核ルートセットのすべてを同一のクラスタとして出力し、クラスタの数はuと記されることを特徴とする、請求項4に記載の方法。
  6. ステップ2−11では、下式に従ってクラスタCのルートセットの最頻値Modeを計算し、
    Figure 2021514090
    ただし、Pはルートポイント集合を表し、CorePはクラスタC中のq個目の中核ルートセットを表し、ルートセットの最頻値ModeはクラスタC中のすべての中核ルートセットとのJaccard距離の和が最小となる場合に対応するルートポイント集合を表すことを特徴とする、請求項5に記載の方法。
  7. ステップ2−11はステップ2−11−1〜ステップ2−11−3を含み、
    ステップ2−11−1では、交叉集合係数と合併集合係数を計算し、つまり、k’個の中核ルートセットであるC={CoreP,CoreP,……,CorePk’}を含むクラスタCをセットし、最初にクラスタCに含まれるルートポイント辞書Ωを計算し、
    Ω=∪1≦q≦k’CoreP
    即ち、ルートポイント辞書はクラスタC中のすべての中核ルートセットの合併集合であり、続いて、下式に示されるように、ルートポイント辞書中の各ルートポイントpについて、クラスタCの各中核ルートセットCorePにおいてのルートポイントpの交叉集合係数αrqと合併集合係数βrqを計算し、
    Figure 2021514090
    ステップ2−11−2では、交叉集合係数と合併集合係数に基づいてルートポイントと中核ルートセットとのJaccard距離を計算し、ルートポイント集合P={p}と各中核ルートセットCorePとのJaccard距離は以下のように簡略化され、
    Figure 2021514090
    ステップ2−11−3では、交叉集合係数と合併集合係数に基づいてルートポイント集合の最頻値を計算し、即ち、
    Figure 2021514090
    とすることを特徴とする、請求項6に記載の方法。
  8. ステップ3は、Modeをk個目のクラスタCのホットルートとして出力することを含むことを特徴とする、請求項7に記載の方法。
JP2020545145A 2019-03-26 2019-05-13 密度クラスタリングに基づくホットルートの分析方法 Active JP6912672B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910231648.2A CN110135450B (zh) 2019-03-26 2019-03-26 一种基于密度聚类的热点路径分析方法
CN201910231648.2 2019-03-26
PCT/CN2019/086517 WO2020191876A1 (zh) 2019-03-26 2019-05-13 一种基于密度聚类的热点路径分析方法

Publications (2)

Publication Number Publication Date
JP2021514090A true JP2021514090A (ja) 2021-06-03
JP6912672B2 JP6912672B2 (ja) 2021-08-04

Family

ID=67568587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020545145A Active JP6912672B2 (ja) 2019-03-26 2019-05-13 密度クラスタリングに基づくホットルートの分析方法

Country Status (3)

Country Link
JP (1) JP6912672B2 (ja)
CN (1) CN110135450B (ja)
WO (1) WO2020191876A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990537B (zh) * 2019-12-11 2023-06-27 中山大学 一种基于边缘信息和语义信息的句子相似度计算方法
CN113627702B (zh) * 2020-05-08 2023-07-25 中国移动通信集团浙江有限公司 业务路径分析方法、装置及计算设备
CN111915631A (zh) * 2020-06-18 2020-11-10 湖南农业大学 一种基于路径点分析的农机作业面积计算方法
CN111968365B (zh) * 2020-07-24 2022-02-15 武汉理工大学 一种非信号交叉口车辆行为分析方法、系统及存储介质
CN112116806B (zh) * 2020-08-12 2021-08-24 深圳技术大学 车流量特征提取方法及系统
CN112382398B (zh) * 2020-11-12 2022-08-30 平安科技(深圳)有限公司 多尺度临床路径挖掘方法、装置、计算机设备及存储介质
CN112749743B (zh) * 2021-01-04 2023-07-21 清华大学 一种轨迹时空聚类方法、系统以及存储装置
CN113011472B (zh) * 2021-02-26 2023-09-01 广东电网有限责任公司电力调度控制中心 一种多段电力报价曲线相似性判断方法及装置
CN117633563B (zh) * 2024-01-24 2024-05-10 中国电子科技集团公司第十四研究所 一种基于optics算法的多目标自顶向下式层次化分群方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
CN105091889B (zh) * 2014-04-23 2018-10-02 华为技术有限公司 一种热点路径的确定方法及设备
CN105095281B (zh) * 2014-05-13 2018-12-25 南京理工大学 一种基于日志挖掘的网站分类目录优化分析方法
US9984310B2 (en) * 2015-01-23 2018-05-29 Highspot, Inc. Systems and methods for identifying semantically and visually related content
CN106153031B (zh) * 2015-04-13 2019-08-30 骑记(厦门)科技有限公司 运动轨迹表示方法和装置
CN105930862A (zh) * 2016-04-13 2016-09-07 江南大学 一种基于密度自适应距离的密度峰聚类算法
US10176198B1 (en) * 2016-05-09 2019-01-08 A9.Com, Inc. Techniques for identifying visually similar content
CN106909805B (zh) * 2017-03-01 2019-04-02 广西大学 基于多条代谢路径比对重建物种系统发生树的方法
US10909369B2 (en) * 2017-07-14 2021-02-02 Mitsubishi Electric Research Laboratories, Inc Imaging system and method for object detection and localization
CN108427965B (zh) * 2018-03-05 2022-08-23 重庆邮电大学 一种基于路网聚类的热点区域挖掘方法
CN108345864B (zh) * 2018-03-06 2020-09-08 中国电子科技集团公司第二十八研究所 基于加权聚类的随机集合型雷达辐射源信号参数高频模式挖掘方法
US10176405B1 (en) * 2018-06-18 2019-01-08 Inception Institute Of Artificial Intelligence Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations

Also Published As

Publication number Publication date
CN110135450B (zh) 2020-06-23
CN110135450A (zh) 2019-08-16
JP6912672B2 (ja) 2021-08-04
WO2020191876A1 (zh) 2020-10-01

Similar Documents

Publication Publication Date Title
JP6912672B2 (ja) 密度クラスタリングに基づくホットルートの分析方法
CN110570651B (zh) 一种基于深度学习的路网交通态势预测方法及系统
CN110070713A (zh) 一种基于双向嵌套lstm神经网络的交通流预测方法
CN110648014B (zh) 一种基于时空分位数回归的区域风电预测方法及系统
Yu et al. A special event-based K-nearest neighbor model for short-term traffic state prediction
CN106779203B (zh) 一种基于不同风速段的高原山区风电功率预测方法
Chen et al. Shield attitude prediction based on Bayesian-LGBM machine learning
CN106568445B (zh) 基于双向循环神经网络的室内轨迹预测方法
WO2021204283A1 (zh) 一种基于里奇流的关键路段检出方法
Qu et al. Forecasting fine-grained urban flows via spatio-temporal contrastive self-supervision
CN116913088A (zh) 一种用于高速公路的智能流量预测方法
CN113779113B (zh) 基于雨洪时空过程相似性挖掘的洪水动态预估方法及系统
CN113743659B (zh) 一种基于成分法和马尔可夫元胞自动机的城市布局预测方法及应用
CN109215733B (zh) 一种基于残基接触信息辅助评价的蛋白质结构预测方法
CN112884234A (zh) 大功率毫米波回旋行波管功率模块最优工作参数搜索方法
CN115034478B (zh) 一种基于领域自适应与知识迁移的交通流量预测方法
CN115240871A (zh) 一种基于深度嵌入聚类元学习的流行病预测方法
Li et al. Machine learning based algorithms for wind pressure prediction of high-rise buildings
CN114863272A (zh) 一种确定城市植被对城市综合活力影响强度的方法和系统
Dong et al. Retrosynthesis prediction based on graph relation network
CN109256215A (zh) 一种基于自回避随机游走的疾病关联miRNA预测方法及系统
CN115115094B (zh) 结合序列局部信息与多序列关联关系的交通流量预测方法
CN109858695B (zh) 基于模糊逻辑预测统计人口总数的方法
Lai et al. Single-step time series forecasting based on multilayer attention and recurrent highway networks
CN116646026A (zh) 加速材料结构搜索的方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200824

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210708

R150 Certificate of patent or registration of utility model

Ref document number: 6912672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250