JP2010210245A - データ類似度計算方法、システム、およびプログラム - Google Patents

データ類似度計算方法、システム、およびプログラム Download PDF

Info

Publication number
JP2010210245A
JP2010210245A JP2009053364A JP2009053364A JP2010210245A JP 2010210245 A JP2010210245 A JP 2010210245A JP 2009053364 A JP2009053364 A JP 2009053364A JP 2009053364 A JP2009053364 A JP 2009053364A JP 2010210245 A JP2010210245 A JP 2010210245A
Authority
JP
Japan
Prior art keywords
data
value
similarity calculation
discretization
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009053364A
Other languages
English (en)
Other versions
JP5572966B2 (ja
Inventor
Ryohei Fujimaki
遼平 藤巻
Kenichi Yamazaki
健一 山岬
Hidenori Tsukahara
英徳 塚原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009053364A priority Critical patent/JP5572966B2/ja
Publication of JP2010210245A publication Critical patent/JP2010210245A/ja
Application granted granted Critical
Publication of JP5572966B2 publication Critical patent/JP5572966B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

【課題】複数の属性からなる2つのデータ間の類似度を、各属性の属性値の種類の違いを意識することなく、計算することを可能にする。
【解決手段】離散化ルール記憶装置30は、実数値離散化ルールおよびシンボル値離散化ルールを記憶している。離散化装置20は、ECU10、11から得られた車両状態データの各属性を、該属性が実数値であれば実数値離散化ルールに従い離散値に変換し、シンボル値であればシンボル値離散化ルールに従い離散値に変換する。類似度計算方法記憶装置は類似度計算方法を記憶している。類似度計算装置は、前記両車両状態データ類似度を、類似度計算方法に従い各属性の離散値に基づいて計算する。
【選択図】図1

Description

本発明は、複数の属性からなる2つのデータの類似度を計算するデータ類似度計算方法、システム、およびプログラムに関する。
ブロードバンドおよびワイヤレス通信の技術向上および普及に伴い、無線通信などを介して自動車と販売店やセンタとが連携した様々なサービスが普及している。そのようなサービスを実現するために、自動車から車両データを販売店やデータセンタで収集する機能を備えたシステムが構築されている。一方、近年自動車業界では安心・安全・高品質のニーズが高まり、自動車の品質を確保するだけでなく、自動車の故障やリコールの早期発見・早期対応が求められている。また、自動車自体の高度化が進み、複雑な電子制御システムも多く搭載され、輻輳化するECU(Electronic Control Unit:電子制御ユニット)の中で故障が発生した際の故障の検出および原因の診断が非常に困難になっている。
一方、エンジン回転数センサ、車速センサ、冷却水温度センサなどの、自動車に設置されたセンサには、車種やグレード、年式等により物理的な性質やスケールが異なるような実数値を取るセンサと、オン/オフや状態の名前などのシンボル値を持つセンサが混在している。そのため、例えば、ある自動車の故障時のこれら各センサから得られたデータ(属性)からなる故障データと、他の自動車の同様なデータからなる故障データの類似度を属性間の性質の違いを意識することなく計算することが難しかった。
このため、例えばエンジン回転数と車速などいずれも実数で関連の深い属性のみを利用して類似度を計算する方法が容易に考えられるが、シンボル値を持つ属性を扱えないという問題があった。また、特許文献1では、車両状態データを各サブデータに関する変化の度合いに変換することで、性質の異なるセンサデータ間の相関(類似度)を計算する方法が提案されている。しかしこの方法は、変化の度合いを計算するためには着目する点の前後の時系列データが必要であり、時系列データが扱えない場合には利用できなかった。
特開2005‐257416号公報
本発明の目的は、2つのデータ間の類似度を、データに含まれる属性間の属性値の種類の違いを意識することなく、計算することが可能なデータ類似度計算方法、システム、およびプログラムを提供することにある。
まず、第1および第2のデータの各属性を、該属性が実数値であれば予め決められた実数値離散化ルールに従い離散値に変換し、シンボル値であれば予め決められたシンボル値離散化ルールに従い離散値に変換する。次に、第1と第2のデータの類似度を、予め決められた類似度計算方法に従い各属性の離散値に基づいて計算する。
各属性に連続値とシンボル値が混在している場合に、属性値の種類の違いを意識することなくデータ間の類似度を計算することが可能である。
図1は本発明の第1の実施の形態の類似度計算システムのブロック図である。 図2は図1中の離散化装置のブロック図である。 図3は図1中の類似度計算装置のブロック図である。 図4は離散化処理の流れを示すフローチャートである。 図5は実数離散化処理の流れを示すフローチャートである。 図6はシンボル離散化処理の流れを示すフローチャートである。 図7は2つの離散化データの類似度の計算の流れを示すフローチャートである。 図8は本発明の第2の実施の形態の類似度計算システムのブロック図である。 図9は離散化ルールの作成、再作成の流れを示すフローチャートである。 図10はヒストグラムの各領域への離散値の割り当ての例を示す図である。 図11は離散化の各領域へのラベルの割り当ての例を示す図である。 図12は本発明の第3の実施の形態の類似度計算システムのブロック図である。 図13は本発明の第4の実施の形態の類似度計算システムのブロック図である。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
図1に示すように、本発明の第1の実施の形態の類似度計算システム12Aは、離散化装置20と離散化ルール記憶装置30と類似度計算装置40と類似度計算方法記憶装置50と類似度計算結果表示装置60からなり、ECU10、11と接続されている。
ECU10および11はそれぞれ別々の自動車の車両内システムに設置されている。類似度計算システム12Aは、販売店システムやデータセンタなどに設置されている。類似度計算システム12A内の各装置を接続するネットワークとして事業者内のLAN(Local Area Network)などが考えられるが、これに限定されない。さらに、車両内システムと類似度計算システム12Aを接続する形態としては、車載用無線通信などが考えられるが、これに限定されない。ECU10、11は、各自動車の車両状態データを監視して故障や異常を検出する機能を有しており、故障や異常を検出した時刻付近の各車両状態データが故障ポイントデータとして内部に格納される。本発明の実施の形態においては、ECUが検出した故障ポイントデータを例に挙げて説明するが、類似度計算を行う対象としては正常時のポイントデータ、あるいはECU設計者やユーザーが任意に設定したセンサ値取得ポイントのデータであってもよい。離散化装置20は、故障ポイントデータ群を受信する機能を持つほか、故障ポイントデータをアプリケーションによって離散化(量子化)する機能、故障ポイントデータが離散化されたデータ(以下、離散化データと呼ぶ)を内部のディスク領域(不揮発性メモリ)へ格納する機能、類似度計算装置40に離散化したデータを送信する機能を有している。離散化ルール記憶装置30には、離散化するために必要な離散化ルールが格納されており、また外部より最新の離散化ルールに更新できる機能を持ち、離散化ルールを離散化装置20に送信する。類似度計算装置40は、離散化装置20から離散化データを受信し、類似度をアプリケーションによって計算し、他の車両状態データ群との類似度を算出し、算出結果を類似度計算結果表示装置60に表示する。類似度計算方法記憶装置50には、類似度を計算する際に必要な類似度計算方法が格納されている。なお、本発明の実施の形態においては,異なる自動車間のデータを例に説明するが、本システム12Aは同一自動車の異なる時点の車両状態データ間の類似度の計算などに利用することも可能である。
図2は離散化装置20のブロック図である。離散化装置20は制御部21と通信部22と記憶部23を含む。制御部21は、タスク管理、メモリ管理等の離散化装置20全体の基本的な動作制御を行うほか、取得したデータの離散化処理を行う。通信部22は、ECU10および11、離散化ルール記憶装置30、類似度計算装置40との間のデータ通信を行う。すなわち、通信部22は、ECU10および11から故障ポイントデータを受信し、離散化ルール記憶装置30と接続して離散化ルールを受信し、離散化データを類似度計算装置40へ送信する。記憶部23には、離散化結果情報24である、離散化データ毎の属性名24aおよび属性値24bが格納される。
図3は類似度計算装置40のブロック図である。類似度計算装置40は制御部41と通信部42と記憶部43を含む。制御部41は、タスク管理、メモリ管理等の類似度計算装置40全体の基本的な動作の制御を行うほか、対象となる2つの離散化データの類似度計算を行う。通信部42は、離散化装置20と類似度計算方法記憶装置50との間のデータ通信を行い、離散化装置20から離散化データを取得し、類似度計算方法記憶装置50から類似度を計算するための類似度計算方法を取得する。記憶部43には、類似度計算結果情報44として類似度計算対象の2つのデータに関するデータ名1、データ名2および類似度計算結果が格納される。類似度計算結果情報44は必要に応じて類似度計算結果表示装置60に表示される。
次に、本実施の形態の動作について説明する。
類似度計算システム12Aを利用してサービスを提供する事業者は、離散化ルール記憶装置30、類似度計算方法記憶装置50にそれぞれ離散化ルール、類似度計算方法を格納する。ECU10および11は、自動車の走行中に各車両状態データを監視している。各車両状態データに異常があった場合、ECU10および11は、異常があった時点の車両データを故障ポイントデータとして切り出し、離散化装置20に送信する。離散化装置20の制御部21は、離散化ルール記憶装置50から取得した離散化ルールを元に、受信した故障ポイントデータを離散化する。ここで、離散化処理の流れについて図4により述べる。まず、入力された故障ポイントデータの各属性に対して属性値種類を判定し(ステップ101)、属性値種類毎に実数離散化処理(ステップ102)とシンボル離散化処理(ステップ103)を行い、それを属性数分繰り返す(ステップ104)。属性値種類が実数値の場合、離散化ルール記憶装置30に記憶されている各属性に対する実数値離散化ルールを読み込み、実数値を離散値へ変換する。実数値離散化ルールは、実数値に対して有限の離散値を割り当てる任意のルールを利用することが可能である。例えば、属性の値が0以上100以下の場合は離散値1を、100より大きく200以下の場合は離散値2を、200より大きい場合には離散値3を割り当てるといったルールが考えられる。このルールとして、属性で共通のルールを利用してもよいし、異なるルールを利用することも可能である。実数離散化処理をより具体的に述べると、図5に示すように属性の値に対する離散値判定処理が行われ(ステップ201)、属性の値が対応する離散値に変換される(ステップ202)。属性値種類がシンボル値の場合、離散化ルール記憶装置30に記憶されている各属性に対するシンボル値離散化ルールを読み込み,シンボル値を離散値へ変換する。シンボル値離散化ルールとして、シンボル値に対して離散値を割り当てる任意のルールを利用することが可能である。例えば、属性の値がオンの場合は離散値1を、オフの場合は離散値2を、それ以外の場合には離散値3を割り当てるといったルールが考えられる。シンボル離散化処理を具体的に説明すると、図6に示すように、シンボル値がシンボル値離散値ルールに含まれるかどうかを判定し(ステップ301)、含まれれば離散化を実施する(ステップ302)。
上記の処理において離散化データは離散化装置20の記憶部23に格納される。類似度計算装置40の要求を受けると、離散化装置20は、離散化データを類似度計算装置40へ送信する。類似度計算装置40は、図7に示すフローに従って2つの離散化データの類似度を計算する。ここで類似度を計算する対象となる2つの離散化データをそれぞれ
Figure 2010210245
と定義する。また、j(j=1〜n)番目の属性をそれぞれ
Figure 2010210245
と表記する。まず、類似度計算方法を類似度計算方法記憶装置50から取得し(ステップ401)、次に取得した計算方法に従って、
Figure 2010210245
の類似度を計算する(ステップ402)。類似度計算方法として、離散値間に定義される任意の類似度計算方法を利用することが可能である。例えば、
Figure 2010210245
の各属性に対する離散値同士を比較し、一致した属性の個数を類似度として利用することが一例として考えられる。その際、車速やエンジン回転数など走行状態に関連の深い属性に重みをつけて類似度を計算することで、走行状態に関して類似しているかを計算するなど、類似度計算方法記憶装置50には、特定の目的にとって有用な類似度計算方法を記憶しておくことが可能である。類似度計算結果表示装置60は、類似度計算装置40から得られた2つの離散化データに対する類似度計算結果を表示する。
ここで、本実施の形態の効果について説明する。
属性値に実数値とシンボル値が混在している場合に、属性の性質の違いを意識することなくデータ間の類似度を計算することが可能である。したがって、自動車の車種やグレード、年式等の違いを考慮することなく自動車データ間の類似度を信頼性高く計算することが可能となる。
自動車の各ECUから得られた車両状態データを利用し、データの類似性から過去の事例を検索するシステムにおいても信頼性の高い検索が可能となる。
属性の特定の検索条件にとらわれず、得られた「現象や事象としての類似事例」を検索し、「故障発生原因や修理対応の事例」の検索、「車両データ」の参照・分析へと応用できるものである。これにより、販売店は修理期間の短縮、修理コストの低減を実現でき、また顧客へ自動車を引き渡すまでの期間を短縮できることで顧客満足度の向上に繋げることが可能となる。
[第2の実施の形態]
図8に示すように、本発明の第2の実施の形態の類似度計算システム12Bは、離散化装置20と離散化ルール記憶装置30と類似度計算装置40と類似度計算方法記憶装置50と類似度計算結果表示装置60と離散化ルール学習装置70からなる。本実施の形態は、第1の実施の形態とは、離散化処理を行うための離散化ルールを常に最新の状態にするものとして離散化ルール学習装置70が追加されている点が異なる。
基本的な流れについても第1の実施の形態と同様であるが、離散化ルール記憶装置30に記憶されている離散化ルールが、離散化ルール学習装置70で学習されたルールである点で異なる点として以下に述べる。
離散化ルール学習装置70には、学習用として故障ポイントデータ群が格納される。この際に、各故障ポイントデータに対して故障の種類、発生現象、ドライバー情報など、付加的な情報を同時に格納してもよい。以下、付加情報をラベル情報あるいはラベルと呼ぶ。サービス開始時または新たに故障ポイントデータ群を入手して離散化ルールを最新状態にしたい場合、既存の故障ポイントデータ群とともに追加分のデータが投入され、離散化ルールが再作成される。離散化ルールの作成、再作成のフローを図9に示す。まず、故障ポイントデータの各属性に対して属性値種類が実数値であるかシンボル値であるかを判定する(ステップ501)。実数値の場合は離散化の閾値を算出し(ステップ502)、算出された実数値離散化ルールを新規に作成または更新する(ステップ503)。
実数値離散化ルールの具体的な算出方法を以下で説明する。故障ポイントデータ群から実数値離散化ルールを算出する場合、事前に決められたルールによって故障ポイントデータ群の値域を等分割に区切り、各領域へ離散値を割り当てる方法が考えられる。エンジンの回転数を例にとると、故障ポイントデータ群のエンジン回転数が0から3000回転の間に分布し、10分割にした場合、0以上300未満へ離散値1を、300以上600未満へ離散値2を、以降300刻みで離散値10まで各領域へ離散値を割り当て、3000以上に離散値11を割り当てることが可能である。
次に、実数値を取る属性についての離散化ルールを計算する方法として、故障ポイントデータ群の分布を離散確率分布によって表現し、故障ポイントデータ群からその分布を学習することで離散化ルールを算出する方法が考えられる。以下では、1)データの分布のみを利用する方法、2)ラベルの分布のみを利用する方法、3)データとラベルの両方の分布を利用する方法を説明する。i番目の故障ポイントデータのj番目の属性の値をxijとし、i番目の故障ポイントデータのラベルをyiとする。また、j番目の属性を表す確率変数をXjとし、ラベルを表す確率変数をYとする。なお、ラベルを利用する場合、故障ポイントデータとともにそのラベル情報を入力する類似度計算システム12Bに入力する必要がある。
1)データの分布のみを利用する方法
データの分布のみを利用する場合には、図10に示されるようにXjの分布P(Xj)をヒストグラムによって表現し、ヒストグラムの各領域に離散値を割り当てることで離散化ルールを算出する。データからヒストグラムを算出する際に、ヒストグラムの各領域の区切り位置を、データに合わせて算出する方法は、任意の技術を利用することが可能である。
以下では、文献「Density Estimation by Stochastic Complexity」 Information Theory, IEEE Transactions Vol.38, No.2,MARCH 1992 で提案されている最小記述長原理を用いた方法を説明する。
上記文献では、ヒストグラムの領域数と領域の区切り位置を、データの記述長とモデル(領域数と区切り位置)の記述長の和を最小化することで算出する。ここで、データの記述長は以下の式で表され、
Figure 2010210245
また、領域数と区切り位置の記述長は以下の式で表される。
Figure 2010210245
ただし、0≦xij≦Rjであり、mjはヒストグラムの領域数、aj = (aj0,aj1,…,ajmj) は領域の区切り位置、nはデータ数、njkはk番目の領域に入るデータ数、djは領域区切りの単位、γj = Rj/dj、κjはκj×djが領域の最小幅をそれぞれ表す。(式1)および(式2)をmj、dj、κj、ajに関して最適化することで、最適な領域数および区切りの位置を算出し、離散化ルールを算出することが可能である。最適化の方法に関しては任意の最適化方法を適用することが可能である。例えば、上記文献では動的計画法によって最適化を行なう方法が提案されている。このように、データから離散化ルールを算出することによって、入力されたデータに適応した離散化ルールを算出することが可能である。
2)ラベルの分布のみを利用する方法
ラベルの分布を利用する場合には、図11に示されるように離散化の各領域に対するラベルの予測分布を最適化することで、離散化ルールを学習する。各領域に対するラベルの予測分布を最適化する方法は、任意の技術を利用することが可能である。以下では、最小記述長原理を用いた方法を説明する。
この方法では、データが与えられた場合のラベルの記述長とモデル(領域数と区切り位置)の記述長の和を最小化することで離散化ルールを算出する。ここで、データの記述長は以下の式で表され、
Figure 2010210245
領域数と区切り位置の記述長は、1)データの分布のみを利用する方法の式2と同様である。ただし、yiはxiに対するラベル、Cはラベルの種類(ラベルが故障を表す場合には、何種類の故障があるか)、nkhjはj番目の属性に関し、k番目の領域にあるh番目のラベルに対応するデータ数を表す。
このようにラベルの分布を利用して離散化ルールを算出することによって、各領域には異なるラベルのデータが入りにくく、同一のラベルが入りやすくなる。例えば、ラベルが故障の種類を表す場合には、同一の故障が同一の離散値を持ちやすくなるため、同一の故障のデータ同士が類似し、異なる故障のデータが類似しなくなる。
3)データの分布とラベルの分布を利用する方法
データの分布とラベルの分布を同時に考慮して離散化ルールを算出する場合には、Lx+Ly+Ljを最小化する領域数および区切り位置を算出することによって離散化ルールを算出する。
1)〜3)では,離散化ルールの算出方法として最小記述長原理を利用した方法を説明したが,赤池情報量基準や一般化情報量基準など、類似の任意の基準を用いて離散化ルールを算出することが可能である。
ステップ501でシンボル値と判定された場合には、データ群に含まれるシンボル値に対応する離散値がシンボル離散化ルールに含まれているかどうかを判定する(ステップ504)。含まれていないシンボルがある場合には,そのシンボルに対応する離散値を決定し、シンボル値離散化ルールを更新する(ステップ505)。以上のステップ501から505の処理を属性毎に行い(ステップ506)、全てのデータについて行う。新規作成または再作成された離散化ルールは、離散化ルール記憶装置30に格納される。
[第3の実施の形態]
図12に示すように、本発明の第3の実施の形態の類似度計算システム12Cは、離散化装置20と離散化ルール記憶装置30と類似度計算装置40と類似度計算方法記憶装置部50と類似度計算結果表示装置60と離散化ルール学習装置70と故障ポイントデータ記憶装置80からなる。本実施の形態は、第2の実施の形態とは、故障ポイントデータ記憶装置80が追加されている点が異なる。
本実施の形態は、今まで累積された既知の現象や事象を元に、類似度計算装置40、故障ポイントデータ記憶装置80を用いることで、類似性が高い現象や事象が得られ、類似度結果表示装置60に表示することが可能になるという点で第2の実施の形態と異なるものである。
基本的な流れについては第2の実施の形態と同様であるが、異なる点としては以下に述べる。
前提として故障ポイントデータ群は、各データに対するラベル情報(故障、現象などのステータス情報)とセットで故障ポイントデータ記憶装置80に格納される。ここで、各故障ポイントデータ群は、離散化装置20を用いてそれぞれ離散化され、ラベル情報とセットで故障ポイントデータ記憶装置80に格納されている。測定対象とする故障ポイントデータはECU10などから受信され、離散化装置20で離散化される。類似度計算装置40において故障ポイントデータ記憶装置80に格納されている離散化データ群から一番類似度が高い(類似している)離散化データあるいは類似度が高い順に複数の離散化データが検索され、同時に対応するラベルが返却され、類似度計算結果表示装置60に表示される。
[第4の実施の形態]
図13に示す本発明の第4の実施の形態の類似度計算システム12Dは、離散化処理を車両外システムで行うのではなく、車両内システムで行うという点で、第2の実施の形態と異なるものである。
すなわち、図13において、離散化装置20と離散化ルール記憶装置30は車両内システムに配置され、離散化ルール配信装置90が類似度計算装置12D内に新たに設けられている。
基本的な処理の流れについても第2の実施の形態と同様である。異なる点は、離散化ルールが新規に作成、あるいは再作成された場合、あるタイミングで離散化ルール配信装置90から離散化ルールがネットワーク経由で車両内システムに配信され、離散化ルール記憶装置30に格納される点である。
[第5の実施の形態]
第1から第4の実施の形態において、類似度計算装置40をASP(Application Service Provider)として構成する。その他の構成は、第1〜4の実施の形態と同じである。
ASPとして一部を切り出して提供することで、既存のシステムをカスタマイズせずして運用管理することで、予算・人手・リソースなどの低コスト化が可能となる。
[第6の実施の形態]
データ類似度計算システムの機能は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。
なお、以上の実施の形態では、自動車を例に挙げて本発明を説明したが、本発明は、同様な性質を持つデータであれば、他の分野に適用することが可能である。
10、11 ECU(電子制御ユニット)
12A、12B、12C、12D 類似度計算システム
20 離散化装置
21 制御部
22 通信部
23 記憶部
24 離散化結果情報
24a 属性名
24b 属性値
30 離散化ルール記憶装置
40 類似度計算装置
41 制御部
42 通信部
43 記憶部
44 類似度計算結果情報
50 類似度計算方法記憶装置
60 類似度計算結果表示装置
70 離散化ルール学習装置
80 故障ポイントデータ記憶装置
90 離散化ルール配信装置
101〜104、201、202、301、302 ステップ
401、402、501〜506 ステップ

Claims (27)

  1. 実数値またはシンボル値を有する複数の属性を持つデータである第1のデータと第2のデータの類似度を計算するデータ類似度計算方法であって、
    前記第1および第2のデータの各属性を、該属性が実数値であれば予め決められた実数値離散化ルールに従い離散値に変換し、該属性がシンボル値であれば予め決められたシンボル値離散化ルールに従い離散値に変換することと、
    前記第1と第2のデータの類似度を、予め決められた類似度計算ルールに従い、各属性の離散値に基づいて計算することと、
    を有するデータ類似度計算方法。
  2. 前記第1と第2のデータの類似度の計算が、離散化されたデータ同士の間に定義される任意の関数の値をデータの類似度とすることを含む、請求項1に記載のデータ類似度計算方法。
  3. 前記第1と第2のデータの類似度の計算が、特定の属性に重み付けすることを含む、請求項2に記載のデータ類似度計算方法。
  4. 既存のデータを用いて前記実数値離散化ルールおよび前記シンボル値離散化ルールを新たに作成し、または更新することをさらに有する、請求項1から3のいずれか1項に記載のデータ類似度計算方法。
  5. 前記実数値離散化ルールおよび前記シンボル値離散化ルールを新たに作成または更新することは、
    各属性が実数値かシンボル値かを判定することと、
    実数値の場合、離散値の数と、各離散値に変換されるデータの範囲である閾値を算出し、前記実数値離散化ルールを作成または更新することと、
    シンボル値の場合、該シンボル値に対応する離散値がシンボル値離散化ルールに含まれるかどうか判定し、含まれていなければ前記シンボル値離散化ルールを更新することと、
    を含む、請求項4に記載のデータ類似度計算方法。
  6. 前記離散化ルールの作成、更新に関して、さらに各データに対するラベルを用いる、請求項4に記載のデータ類似度計算方法。
  7. 実数値を取るデータの各属性に関し、データあるいはラベルの分布に対する離散分布を学習することで、前記離散化ルールを予め計算する、請求項4から6のいずれか1項に記載のデータ類似度計算方法。
  8. 前記離散化ルールの学習の基準として、情報量基準を利用することで、離散分布の領域数と区切り位置を最適化して前記離散化ルールを計算する、請求項7に記載のデータ類似度計算方法。
  9. 前記離散化ルールの学習に関し、前記情報量基準として最小記述長を用いて前記離散化ルールを計算する、請求項8に記載のデータ類似度計算方法。
  10. 前記離散分布としてデータに対する離散密度分布を利用する、請求項7から9のいずれか1項に記載のデータ類似度計算方法。
  11. 前記離散分布としてラベルに対する予測分布を利用する、請求項7から9のいずれか1項に記載のデータ類似度計算方法。
  12. 前記離散分布としてデータとラベルに対する同時分布を利用する、請求項7から9のいずれか1項に記載のデータ類似度計算方法。
  13. 実数値またはシンボル値を有する複数の属性を持つデータである第1のデータと第2のデータの類似度を計算するデータセット類似度計算システムであって、
    実数値離散化ルールおよびシンボル値離散化ルールを記憶している離散化ルール記憶手段と、
    前記第1および第2のデータの各属性を、該属性が実数値であれば前記実数値離散化ルールに従い離散値に変換し、該属性がシンボル値であれば前記シンボル値離散化ルールに従い離散値に変換する離散化手段と、
    類似度計算方法を記憶している類似度計算方法記憶手段と、
    前記第1と第2のデータの類似度を、前記類似度計算方法に従い各属性の離散値に基づいて計算する類似度計算手段と、
    を有するデータ類似度計算システム。
  14. 前記類似度計算手段は、離散化されたデータ同士の間に定義される任意の関数の値をデータの類似度とする、請求項13に記載のデータ類似度計算システム。
  15. 前記類似度計算手段は、特定の属性に重み付けする、請求項14に記載のデータ類似度計算システム。
  16. 既存のデータを用いて前記実数値離散化ルールおよび前記シンボル値離散化ルールを新たに作成し、または更新する離散化ルール学習手段をさらに有する、請求項13から15のいずれか1項に記載のデータ類似度計算システム。
  17. 前記離散化ルール学習手段は、各属性が実数値かシンボル値かを判定し、実数値の場合、離散値の数と、各離散値に変換されるデータの範囲である閾値を算出して、前記実数値離散化ルールを作成または更新し、シンボル値の場合、該シンボル値に対応する離散値がシンボル値離散化ルールに含まれるかどうか判定し、含まれていなければ前記シンボル値離散化ルールを更新する、請求項16に記載のデータ類似度計算システム。
  18. 前記離散化ルール学習手段は、前記離散化ルールの作成、更新に関して、さらに各データに対するラベルを用いる、請求項16記載のデータ類似度計算システム。
  19. 前記離散化ルール学習手段は、実数値を取るデータの各属性に関し、データあるいはラベルの分布に対する離散分布を学習することで、前記離散化ルールを予め計算する、請求項16から18のいずれか1項に記載のデータ類似度計算システム。
  20. 前記離散化ルール学習手段は、前記離散化ルールの学習の基準として、情報量基準を利用することで、離散分布の領域数と区切り位置を最適化して前記離散化ルールを計算する、請求項19に記載のデータ類似度計算システム。
  21. 前記離散化ルール学習手段は、前記情報量基準として最小記述長を用いて前記離散化ルールを計算する、請求項20に記載のデータ類似度計算システム。
  22. 前記離散化ルール学習手段は、前記離散分布としてデータに対する離散密度分布を利用する、請求項19から21のいずれか1項に記載のデータ類似度システム。
  23. 前記離散化ルール学習手段は、前記離散分布としてラベルに対する予測分布を利用する、請求項19から21のいずれか1項に記載のデータ類似度計算システム。
  24. 前記離散化ルール学習手段は、前記離散分布としてデータとラベルに対する同時分布を利用する、請求項19から21のいずれか1項に記載のデータ類似度計算システム。
  25. 前記離散化装置を用いて離散化された故障ポイントデータ群が、各データに対するラベル情報とセットで格納されている故障ポイントデータ記憶装置をさらに有する、請求項13から24のいずれか1項に記載のデータ類似度計算システム。
  26. 前記類似度計算装置がASP(Application Service Provider)である、請求項13から25のいずれか1項に記載のデータ類似度計算システム。
  27. 複数の属性からなる第1のデータと第2のデータの類似度を計算することをコンピュータに実行させるためのデータ類似度計算プログラムであって、
    前記第1および第2のデータの各属性を、該属性が実数値であれば離散化ルール記憶手段に記憶されている実数値離散化ルールに従い離散値に変換し、シンボル値であれば離散化ルール記憶手段に記憶されているシンボル値離散化ルールに従い離散値に変換する手順と、
    前記第1と第2のデータの類似度を、類似度計算方法記憶手段に記憶されている類似度計算方法に従い各属性のデータの離散値に基づいて計算する手順と、
    をコンピュータに実行させるためのデータ類似度計算プログラム。
JP2009053364A 2009-03-06 2009-03-06 データ類似度計算方法、システム、およびプログラム Active JP5572966B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009053364A JP5572966B2 (ja) 2009-03-06 2009-03-06 データ類似度計算方法、システム、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009053364A JP5572966B2 (ja) 2009-03-06 2009-03-06 データ類似度計算方法、システム、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010210245A true JP2010210245A (ja) 2010-09-24
JP5572966B2 JP5572966B2 (ja) 2014-08-20

Family

ID=42970594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009053364A Active JP5572966B2 (ja) 2009-03-06 2009-03-06 データ類似度計算方法、システム、およびプログラム

Country Status (1)

Country Link
JP (1) JP5572966B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103018058A (zh) * 2012-12-17 2013-04-03 北京交通大学 基于相似度的列车悬挂系统故障分离方法
JP2015176285A (ja) * 2014-03-14 2015-10-05 株式会社デンソー 故障情報提示システム
CN115858637A (zh) * 2023-03-02 2023-03-28 四川三思德科技有限公司 一种城市地下水监测与分析方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05180730A (ja) * 1991-10-25 1993-07-23 Mazda Motor Corp 故障診断方法
JPH07168810A (ja) * 1993-12-16 1995-07-04 Nec Corp データ駆動型確率分布推定装置
JPH11338855A (ja) * 1998-05-21 1999-12-10 Fujitsu Ltd データ分解装置、その方法、及び記録媒体
JP2002149697A (ja) * 2000-11-07 2002-05-24 Mitsubishi Electric Corp 類似事例検索装置
WO2002054758A1 (fr) * 2000-12-28 2002-07-11 Evolvable Systems Research Institute, Inc. Procede, dispositif et programme de codage et decodage de prediction adaptative
JP2002204358A (ja) * 2000-12-28 2002-07-19 National Institute Of Advanced Industrial & Technology 適応型予測符号化、復号化方法およびそれらの装置ならびに適応型予測符号化、復号化プログラムを記録した記録媒体
JP2003271640A (ja) * 2002-03-15 2003-09-26 Fujitsu Ltd プロファイル情報の推薦方法、プログラム及び装置
JP2005202762A (ja) * 2004-01-16 2005-07-28 Denso Corp 車両用通信システム
JP2005257416A (ja) * 2004-03-10 2005-09-22 Internatl Business Mach Corp <Ibm> 診断装置、検出装置、制御方法、検出方法、プログラム、及び記録媒体
JP2007164406A (ja) * 2005-12-13 2007-06-28 Oita Univ 学習機構付意思決定システム
JP2007286899A (ja) * 2006-04-17 2007-11-01 First Server Kk アプリケーション実行システムおよびサーバ
JP2010170424A (ja) * 2009-01-23 2010-08-05 Nec Corp 分布推定装置、クラスタリング装置、分布推定装置の推定方法及びプログラム
JP2010212744A (ja) * 2009-03-06 2010-09-24 Nec Corp データ圧縮方法、装置、およびプログラム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05180730A (ja) * 1991-10-25 1993-07-23 Mazda Motor Corp 故障診断方法
JPH07168810A (ja) * 1993-12-16 1995-07-04 Nec Corp データ駆動型確率分布推定装置
JPH11338855A (ja) * 1998-05-21 1999-12-10 Fujitsu Ltd データ分解装置、その方法、及び記録媒体
JP2002149697A (ja) * 2000-11-07 2002-05-24 Mitsubishi Electric Corp 類似事例検索装置
WO2002054758A1 (fr) * 2000-12-28 2002-07-11 Evolvable Systems Research Institute, Inc. Procede, dispositif et programme de codage et decodage de prediction adaptative
JP2002204358A (ja) * 2000-12-28 2002-07-19 National Institute Of Advanced Industrial & Technology 適応型予測符号化、復号化方法およびそれらの装置ならびに適応型予測符号化、復号化プログラムを記録した記録媒体
JP2003271640A (ja) * 2002-03-15 2003-09-26 Fujitsu Ltd プロファイル情報の推薦方法、プログラム及び装置
JP2005202762A (ja) * 2004-01-16 2005-07-28 Denso Corp 車両用通信システム
JP2005257416A (ja) * 2004-03-10 2005-09-22 Internatl Business Mach Corp <Ibm> 診断装置、検出装置、制御方法、検出方法、プログラム、及び記録媒体
JP2007164406A (ja) * 2005-12-13 2007-06-28 Oita Univ 学習機構付意思決定システム
JP2007286899A (ja) * 2006-04-17 2007-11-01 First Server Kk アプリケーション実行システムおよびサーバ
JP2010170424A (ja) * 2009-01-23 2010-08-05 Nec Corp 分布推定装置、クラスタリング装置、分布推定装置の推定方法及びプログラム
JP2010212744A (ja) * 2009-03-06 2010-09-24 Nec Corp データ圧縮方法、装置、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103018058A (zh) * 2012-12-17 2013-04-03 北京交通大学 基于相似度的列车悬挂系统故障分离方法
JP2015176285A (ja) * 2014-03-14 2015-10-05 株式会社デンソー 故障情報提示システム
CN115858637A (zh) * 2023-03-02 2023-03-28 四川三思德科技有限公司 一种城市地下水监测与分析方法及系统
CN115858637B (zh) * 2023-03-02 2023-05-19 四川三思德科技有限公司 一种城市地下水监测与分析方法及系统

Also Published As

Publication number Publication date
JP5572966B2 (ja) 2014-08-20

Similar Documents

Publication Publication Date Title
CN107945507B (zh) 行程时间预测方法及装置
US20190075426A1 (en) Information processing apparatus, information processing system, information processing method, and recording medium
US7693982B2 (en) Automated diagnosis and forecasting of service level objective states
US8887008B2 (en) Maintenance planning and failure prediction from data observed within a time window
US20210117451A1 (en) Programmatically identifying a personality of an autonomous vehicle
WO2010107394A1 (en) Determining a traffic route using predicted traffic congestion
CN101681531A (zh) 远程诊断建模
US20150294223A1 (en) Systems and Methods for Providing Information for Predicting Desired Information and Taking Actions Related to User Needs in a Mobile Device
CN113168172B (zh) 模型生成装置、模型生成方法及程序
JP2020052714A5 (ja)
US20210304153A1 (en) Utilizing a transportation matching system in conjunction with a multi-track vehicle service center to service transportation vehicles
US20210302276A1 (en) Data processing device and data processing method
JP5572966B2 (ja) データ類似度計算方法、システム、およびプログラム
Wepulanon et al. A real-time bus arrival time information system using crowdsourced smartphone data: a novel framework and simulation experiments
Sun et al. On the tradeoff between sensitivity and specificity in bus bunching prediction
JP2012256239A (ja) 目的地予測装置及びプログラム
JP7013993B2 (ja) 診断装置及び診断方法
JP2015184818A (ja) サーバ、モデル適用可否判定方法およびコンピュータプログラム
JP5439871B2 (ja) データ圧縮方法、装置、およびプログラム
US11881064B2 (en) Technologies for determining driver efficiency
CN111949840A (zh) 一种基于物联网数据的拓扑图结构的构建方法、装置
US20220374737A1 (en) Multi-dimensional modeling of driver and environment characteristics
Pereira et al. Decision Support Dashboard for Traffic and Environment Analysis of a Smart City.
JP2018025903A (ja) 混雑情報推定装置及び混雑情報推定方法
US20230177952A1 (en) A system and method for generating utilization data of a vehicle

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140318

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140326

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140616

R150 Certificate of patent or registration of utility model

Ref document number: 5572966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150