JP6144314B2 - データ分類システム,方法,プログラムおよびその記録媒体 - Google Patents

データ分類システム,方法,プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP6144314B2
JP6144314B2 JP2015214407A JP2015214407A JP6144314B2 JP 6144314 B2 JP6144314 B2 JP 6144314B2 JP 2015214407 A JP2015214407 A JP 2015214407A JP 2015214407 A JP2015214407 A JP 2015214407A JP 6144314 B2 JP6144314 B2 JP 6144314B2
Authority
JP
Japan
Prior art keywords
data
species
evaluation
score value
belongs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015214407A
Other languages
English (en)
Other versions
JP2017084249A (ja
Inventor
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to JP2015214407A priority Critical patent/JP6144314B2/ja
Priority to US15/296,803 priority patent/US10467258B2/en
Publication of JP2017084249A publication Critical patent/JP2017084249A/ja
Application granted granted Critical
Publication of JP6144314B2 publication Critical patent/JP6144314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、データ分類システム,方法,そのプログラムおよびその記録媒体に関する。
データ構成要素から構成されるデータは、それを構成するデータの内容によって、必ず特徴を有している。構成されるデータ構成要素の個数が多数に及ぶ集合において、その集合を構成するデータの内部を詳細に比較することなく、予定した複数の種のグループに、複数のデータのそれぞれを、分類することが必要となる場合がある。
たとえば、特許文献1は、商品表記スコアデータベースを参照し、商品の内容を特徴づける語との関連性から商品スコアを算出して商品名の同一性を判定する装置を開示している。
特開2012−249933号公報
特許文献1に開示された方法は、単語であるところの商品名の同一性をスコアデータベースから商品スコアの算出から判断しようとするものである。しかし、分類を行うデータは、特許文書1に開示されたように文字データに限られるものではなく、文書データ,画像データ、音声データなど様々な形態素からなるデータが考えられる。したがって、これらのデータに対して、簡単な手法により、関連の度合いの差異を判断して分類するための手法が求められる。
複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類システムであって、前記被検データの前記複数のデータ構成要素を取得するデータ取得部と、予め決定された複数の評価構成要素を、前記複数のデータ構成要素の中から抽出する評価構成要素抽出部と、抽出された前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対して、スコア値を算出するスコア値算出部と、前記既知の複数の種のすべてに対して前記スコア値算出部が算出したスコア値のうち、最も高い値の種に前記被検データが属すると判定する分類判定部とを備えるデータ分類システムにより、解決する。
コンピュータを備えるデータ分類システムにより、複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類方法であって、その方法は、前記被検データの前記複数のデータ構成要素を取得し、予め決定された複数の評価構成要素を、前記複数のデータ構成要素の中から抽出し、前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対して、スコア値を算出し、前記既知の複数の種のすべてに対して算出したスコア値のうち、最も高い値の種に前記被検データが属すると判定するデータ分類方法により、解決する。
コンピュータを備え、複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類システムにおいて実行可能なデータ分類プログラムであって、そのプログラムは、前記被検データの前記複数のデータ構成要素を取得する工程と、予め決定された複数の評価構成要素を、前記複数のデータ構成要素の中から抽出する工程と、前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対して、スコア値を算出する工程と、前記既知の複数の種のすべてに対して算出したスコア値のうち、最も高い値の種に前記被検データが属すると判定する工程と、を実行するデータ分類プログラムにより、解決する。
コンピュータを備え、複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類システムにおいて実行可能なデータ分類プログラムを格納する記録媒体であって、そのプログラムは、前記被検データの前記複数のデータ構成要素を取得する工程と、予め決定された複数の評価構成要素を、前記複数のデータ構成要素の中から抽出する工程と、前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対して、スコア値を算出する工程と、前記既知の複数の種のすべてに対して算出したスコア値のうち、最も高い値の種に前記被検データが属すると判定する工程と、を実行する記録媒体により、解決する。
本発明により、被検データの分類が可能となる。
本発明のデータ分類システム1のハードウェア構成の図である。 本発明のデータ分類システムにおける分類の原理を説明した図である。 本発明のデータ分類システムの機能ブロック図である。 本発明のデータ分類システムのプログラムのアルゴリズムを示した図である。
〔データ分類システムのハードウェア構成〕
図1を参照して、本願発明の実施の形態に係るデータ分類システム(以下、単に「システム」とよぶ)について、説明する。図1は、システム1のハードウェア構成の一例である。システム1は、サーバ装置10およびクライアント端末11を有する。サーバ装置10は、計算を行う演算装置10aとデータ格納用の記憶装置10bを有する。
サーバ装置10はデータ分析の主要処理を実行可能である。クライアント端末11はサーバ装置10におけるデータ分析の関連処理を実行可能である。記憶装置10bは、例えば、データ(デジタルデータおよびアナログデータを含む)を格納可能な任意の記録媒体(例えば、メモリ、ハードディスクなど)である。演算装置10aは、記録媒体に格納された制御プログラムを実行可能なコントローラ(例えば、中央処理装置(CPU))である。演算装置10aは、記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータまたはコンピュータシステム(複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム)である。なお、演算装置10aは、管理計算機(不図示)として、サーバ装置10の外部装置という形態で構成させてもよく、記憶装置10bは、データ格納サーバ装置13として、サーバ装置10の外部記憶装置の形態で構成させても良い。
管理計算機(不図示)は、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。なお、クライアント端末11、サーバ装置10、管理計算機(不図示)がそれぞれ備えるメモリには、クライアント端末11、サーバ装置10、管理計算機(不図示)の各装置を制御可能なアプリケーションプログラムが記憶されている。各コントローラがアプリケーションプログラムをそれぞれ実行することにより、アプリケーションプログラム(ソフトウェア資源)とハードウェア資源とが協働し、各装置が動作する。
記憶装置10bは、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベースを備えることができる。サーバ装置10と記憶装置10bとは、直接接続方式(DAS)、または記憶装置領域ネットワーク(SAN)によって接続される。
クライアント端末11は、サーバ装置10における処理プロセスの途中のデータをユーザに提示する。これにより、ユーザは、クライアント端末11を介して、双方向のやり取りにより、入力を行う、すなわち分類情報を与えることができる。クライアント端末11は、例えば、メモリと、コントローラと、バスと、入出力インターフェース(例えば、キーボード、ディスプレイなど)と、通信インターフェース(所定のネットワークを用いた通信手段によって、クライアント端末11とサーバ装置10とを通信可能に接続する)とを備えてよい。クライアント端末11は、スキャナなどの入力装置12を有するように構成させてもよい。
なお、図1に示されるハードウェア構成はあくまで例示に過ぎず、システム1は他のハードウェア構成によっても実現され得る。例えば、すべての処理の一部または全部がサーバ装置10において実行される構成であってもよいし、その一部または全部がクライアント端末11において実行される構成であってもよい。本実施例では、入力装置12はクライアント端末11に接続されて、サーバ装置10に送信が可能な構成としているが、入力装置12はサーバ装置10に直接接続して、ここからサーバへ入力を行ってもよい。システム1を実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、例えば、図1に例示した構成には限定されない。
〔データ分類システムにおける分類の原理〕
本発明は、被検データTが、既知の複数の種のグループのいずれに属するかを判定するものである。被検データTは、複数のデータ構成要素により構成されているものとする。以下、図2を参照して、本発明におけるデータ分類システムにおいて分類の原理について説明する。図2は、データ分類システムにおける分類の原理を説明した図である。分類する種別は2以上の種であればよく、本実施の形態では、被検データT1,T2,T3,T4を、X種,Y種,Z種の3種のグループに分類する例で説明する。まず、分類の準備にあたる学習プロセスについて説明する。まず、分類したい種に属することが明らかな既知データを準備する。既知データは、各種において、複数のデータが属するように準備する。すなわち、予めX種,Y種,Z種のそれぞれに属することが明らかな既知データを準備する。この段階では、分類したいいずれか一種のみに属し、分類対象となる他の種には属しないデータであることが好ましい。すなわち、X種には属するが、Y種およびZ種には属しないことが明らかであるデータを準備する。
分類対象で複数の種のいずれかに属することが既知である既知データにおいて、その既知のデータを構成する複数のデータ構成要素から、その既知データが属する種が明らかとなるような複数の評価構成要素を選択する。すなわち、評価構成要素もデータ構成要素であって、データ構成要素のうち、特に顕著にそのデータが属する種を表す要素である。その評価構成要素の出現の数、組み合わせおよび出現率と、その出現の組み合わせに寄与する度合いとして設定した分類情報とに基づいて、その評価構成要素を選定することにより算出される評価値である指標が高くなるようにする。この指標として好適な形態が、スコア値(Score)である。すなわち、既知データを構成するデータ構成要素から評価構成要素として選択されるデータ構成要素は、その種に属するすべての既知データにおいて、既知データが属する属でスコア値(Score)が高くなるように選定される。
すなわち、スコア値(Score)とは、これら既知データのそれぞれに対して、それらを構成するデータ構成要素に基づき、既知データと被検データTとの関連性の強さを定量的に評価する指標である。既知データのデータ構成要素に対する被検データTの関連性の強さを定量的に表すことができる限り、スコア値(Score)の算出方法は問わない。スコア値の算出方法は、既知データの内容を適切に評価できる限り、一般的な手法によればよい。たとえば、一例としては、既知データにおいて抽出した評価構成要素ごとに定めた評価構成要素の評価値に対して、被検データTにおいてその評価構成要素が出現する頻度として以下の式のように、表すことができる。
Figure 0006144314
スコア値の算定は、すべての種(X種,Y種,Z種)に対して、行う。また、選択する評価構成要素は、他の種のスコア値が高くならないように設定する。すべての種において選択した評価構成要素を、それぞれの種の評価構成要素として選択し、すべての種についてのデータベースとして格納しておく。すなわち、分類対象として既知の複数の種のそれぞれには、複数の既知データが予め属していて、予め決定される複数の評価構成要素は、それら既知の複数の種のすべてに対して、既知データが属する種のスコア値が、既知データが属していない種のスコア値よりも高くなるように予め設定しておく。以上が、学習プロセスである。
続いて、分類プロセスについて説明する。いずれの種に属するかが不明である被検データT1,T2,T3,T4について、すべての種の評価構成要素によって、それぞれの種に対するスコア値を算定する。たとえば、被検データT1,T2,T3,T4のそれぞれに対して、X種,Y種,Z種のそれぞれに対して、それぞれの種の評価構成要素に基づくスコア値を算出する。それぞれの種の評価構成要素は、予め、その評価構成要素に属することが明らかなデータに対して選定されているので、X種,Y種,Z種のいずれかにおいて、相対的に高い値をとる。たとえば、被検データT1,T4では、Y種のスコア値がX種およびZ種よりも高くなり、被検データT2ではX種が、被検データT3ではZ種が、高くなったとする。これにより、被検データT1はY種に、被検データT2はX種に、被検データT3はZ種に属すると考えられ、それぞれに分類できる。
分類したい種の内容によって、種の違いに対するスコア値分布に大きな違いが出る場合と、スコア値分布の違い小さい場合とがある。たとえば、X種,Y種,Z種が互いに排反な関係にある場合には、それぞれの種ごとにスコア値分布には大きな違いがでるので、分類は容易である。しかし、分類したい種の内容が、共通を許す関係にある場合には、それぞれの種ごとのスコア値分布は違いが小さい。そのため、学習プロセスでは、各種に属するデータのそれぞれについて、予めスコア値分布を分析し、種間におけるスコア値の差(最も高い値とその次に高い値の差)に、明らかに違いが出る範囲を所定の範囲の基準で把握しておく。たとえば、所定の範囲の基準は、標準偏差の所定倍とすることができる。スコア値がその所定の範囲の基準内であれば、その種に属すると判断できる。一方、スコア値に大きな差異が出ない場合には、スコア値が比較的高い複数の種に属する可能性があると判断して、分類することができる。たとえば、被検データT4はY種とZ種に対するスコア値が高かったと仮定すると、被検データT4はY種とZ種に分類できると判断される。
〔データ分類システムの機能ブロック構成〕
前記の分類の原理に基づき、以下、図3を参照して、データ分類システムの機能ブロックについて説明する。図3は、システム1の機能ブロック構成の一例を示した図である。システム1は、例えば、データ取得部21、評価構成要素取得部22,評価構成要素抽出部23、評価構成要素格納部24、スコア値算出部25および分類判定部26を備える。
まず、学習プロセスにおける機能ブロックのフローを説明する。データ取得部21は、予め分類の対象となる既知の種のいずれかに属することが明らかな複数のデータのすべてについて、そのデータを構成する全てのデータ構成要素を、データごとに、取得する。データ取得部21は、それらデータのデータ構成要素を、入力装置12またはクライアント端末11から入力されたデータ、またはすでに記憶装置10bに格納されているデータを構成する全てのデータ構成要素を取得する。続いて、評価構成要素取得部22は、データを構成するデータ構成要素の中で、分類対象となる既知の複数の種のそれぞれの特徴を顕著に表すデータである評価構成要素を取得する。データ取得部21と評価構成要素取得部22とが取得したデータ構成要素は、評価構成要素抽出部23に出力される。
評価構成要素抽出部23は、データ取得部21で取得したデータを構成する全てのデータ構成要素から、評価構成要素取得部22で予め取得した評価構成要素が存在するか確認して抽出し、スコア値算出部25に出力する。スコア値の定義については、前記のとおりである。スコア値算出部25は、その抽出された評価構成要素に基づいて、既知の複数の種の全てに対して、スコア値を算出する。スコア値算出部25で算出されたスコア値が、予測通り分類されるべき種のスコア値が高くなった場合には、その評価構成要素を評価構成要素格納部24に出力する。評価構成要素格納部24は、すべての種において選択した複数の構成要素をデータベースとして、記憶装置10bまたはデータ格納サーバ装置13に格納する。すなわち、既知の複数の種のそれぞれには既知データが予め属していて、予め決定される複数の評価構成要素は、既知の複数の種のすべてに対して、既知データが属する種のスコア値が、既知データが属していない種のスコア値よりも高くなるように、予め設定し、それを格納しておくものである。
続いて、分類プロセスにおける機能ブロックのフローを説明する。データ取得部21は、分類をしたい任意の被検データTについて、それを構成するデータ構成要素を取得して、評価構成要素抽出部23に出力する。評価構成要素抽出部23は、取得した被検データTを構成するデータ構成要素の中から、評価構成要素格納部24により、学習プロセスにおいて、記憶装置10bに格納されていたそれぞれの種の評価構成要素と合致するものを対応付けながら抽出し、スコア値算出部25に出力する。スコア値算出部25は、そのデータについて、分類対象となる種ごとにスコア値を算出し、分類判定部26に出力する。分類判定部26は、出力された種ごとのスコア値を比較する。たとえば、本実施の形態では、X種,Y種,Z種について、スコア値を算出する。分類判定部26は、これらのスコア値を比較し、最も高い値をとる種にそのデータが属すると判断する。分類判定部26は、最も高い値をとる種を判断した上で、種間におけるスコア値の差(最も高い値とその次に高い値の差)が所定の範囲の基準を超えている場合に、最も高い値をとる種にそのデータが属すると判断してもよい。このとき、所定の範囲の基準は、標準偏差の所定倍とすることができる。さらに、分類判定部26は、スコア値が高い値をとる種が複数ある場合には、そのデータは、それらの複数の高い値をとる種に分類される可能性がある判断することができる。
また、スコア値算出部25は、既知の複数の種のすべてに対して算出したスコア値をZ−スコア値により正規化することができる。分類判定部26は、算出したZ−スコア値のうち最も高い値の種に被検データTが属すると判定させることもできる。ここで、Z-スコア値(ZS)とは、これら既知データのそれぞれに対して、それらを構成するデータ構成要素に基づき、既知データと被検データTとの関連性の強さを定量的に評価する指標である。既知データのデータ構成要素に対する被検データTの関連性の強さを定量的に表すことができる限り、Z−スコア値(ZS)の算出方法は問わない。Z−スコア値(ZS)の算出方法は、既知データの内容を適切に評価できる限り、一般的な手法によればよい。たとえば、一例としては、既知データにおいて抽出した評価構成要素ごとに定めた評価構成要素の評価値に対して、被検データTにおいてその評価構成要素が出現する頻度として以下の式のように、表すことができる。
Figure 0006144314
なお、上記において、「部」と表記した構成は、システム1が備えたコントローラが、プログラムを実行することによって実現する機能構成であるため、「部」を、「処理」または「機能」と言い換えてもよい。また、「部」をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない
〔構成要素関連性評価システムで実行するプログラムのアルゴリズム構成〕
続いて、上記機能についてシステム1で実行するプログラムのアルゴリズムを説明する。システム1は、プログラムにより実行可能であると共に、そのプログラムは記録媒体において格納しておくことが可能である。まず、学習プロセスのアルゴリズムについて説明する。予め属する種が明らかなデータRを取り込む(S101)。データRを分類するための構成要素を取得する(S102)。取得した評価構成要素に基づき、データRにつき、評価構成要素を抽出する(S103)。分類対象となる種に属することが明らかであるすべてのデータのそれぞれに対して、抽出された評価構成要素に基づいて、スコア値を試算する(S104)。属する種に対するスコア値が、その他の種に対するスコア値とあまり差がない場合には、再度データRを分類するための構成要素の取得(S102)のプロセスにもどり、繰り返す。属する種に対するスコア値が、その他の種に対するスコア値と適切に差が生じ場合には、取得した評価構成要素が適切であるので、評価構成要素として格納する(S105)。
続いて、分類プロセスのアルゴリズムについて説明する。分類したい被検データTを取り込む(S106)。格納されている評価構成要素を被検データTから抽出する(S107)。抽出された被検データTにつき、抽出された評価構成要素に基づいて、スコア値を算出する(S108)。スコア値の最も高い種を判定し、その被検データはその種に属すると分類判断する(S109)。ここでは、前述のとおり、最も高い値をとる種を判断した上で、種間におけるスコア値の差(最も高い値とその次に高い値との差)が所定の範囲の基準を超えている場合に、最も高い値をとる種にそのデータが属すると判断してもよい。このとき、所定の範囲の基準は、標準偏差または標準誤差の所定倍とすることができる。さらに、スコア値が高い値をとる種が複数ある場合には、そのデータは、それらの複数の高い値をとる種に分類される可能性がある判断をすることができる。
〔ソフトウェア・ハードウェアによる実現例〕
データ分析システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。
〔他のアプリケーション例〕
上記システムは、例えば、ディスカバリ支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム(データと所定の事案との関連性を評価可能な任意のシステム)として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
1:システム、10:サーバ装置、11:クライアント端末、12:入力装置、13:データ格納サーバ装置、21:データ取得部、22:評価構成要素取得部、23:評価構成要素抽出部、24:評価構成要素格納部、25:スコア値算出部、26:分類判定部

Claims (6)

  1. 複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類システムであって、
    前記既知の複数の種のいずれかに属することが明らかな既知データを構成する評価構成要素を複数格納した評価構成要素格納部と、
    前記評価構成要素は、前記既知データが属する種に対して算出されるスコア値が、当該既知データが属さない種に対して算出されるスコア値よりも高くなるように、それぞれ予め決定されたものであり、
    前記被検データを構成する前記複数のデータ構成要素を取得するデータ取得部と、
    前記予め決定された複数の評価構成要素を前記被検データを構成する前記複数のデータ構成要素の中から抽出する評価構成要素抽出部と、
    抽出された前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対するスコア値を算出するスコア値算出部と、
    前記スコア値算出部が算出した前記既知の複数の種のすべてに対するスコア値のうち、最も高い値の種に前記被検データが属すると判定する分類判定部と、を備えるデータ分類システム。
  2. 請求項1に記載のデータ分類システムであって、
    前記スコア値算出部は、前記既知の複数の種のすべてに対する前記スコア値をZ−スコア値により正規化し、
    前記分類判定部は、前記Z−スコア値のうち最も高い値の種に前記被検データが属すると判定するデータ分類システム。
  3. 請求項1または2に記載のデータ分類システムであって、
    前記分類判定部は、前記最も高い値と、その次に高い値との差の値が、所定の範囲内に入っている場合に、前記最も高い値の種に前記被検データが属すると判定するデータ分類システム。
  4. コンピュータを備えるデータ分類システムにより、複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類方法であって、
    前記コンピュータは、前記既知の複数の種のいずれかに属することが明らかな既知データを構成する評価構成要素を複数格納した評価構成要素格納部を備え、
    前記評価構成要素は、前記既知データが属する種に対して算出されるスコア値が、当該既知データが属さない種に対して算出されるスコア値よりも高くなるように、それぞれ予め決定されたものであり、
    その方法は、
    前記被検データを構成する前記複数のデータ構成要素を前記コンピュータのデータ取得部により取得し、
    前記予め決定された複数の評価構成要素を、前記コンピュータの評価構成要素抽出部により前記被検データを構成する前記複数のデータ構成要素の中から抽出し、
    前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対するスコア値を前記コンピュータのスコア値算出部により算出し、
    前記既知の複数の種のすべてに対して算出したスコア値のうち、最も高い値の種に前記被検データが属すると前記コンピュータの分類判定部により判定するデータ分類方法。
  5. コンピュータを備え、複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類システムにおいて実行可能なデータ分類プログラムであって、
    前記コンピュータは、前記既知の複数の種のいずれかに属することが明らかな既知データを構成する評価構成要素を複数格納した評価構成要素格納部を備え、
    前記評価構成要素は、前記既知データが属する種に対して算出されるスコア値が、当該既知データが属さない種に対して算出されるスコア値よりも高くなるように、それぞれ予め決定されたものであり、
    そのプログラムは、
    前記被検データを構成する前記複数のデータ構成要素を前記コンピュータのデータ取得部により取得する工程と、
    前記予め決定された複数の評価構成要素を、前記コンピュータの評価構成要素抽出部により前記被検データを構成する前記複数のデータ構成要素の中から抽出する工程と、
    前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対するスコア値を前記コンピュータのスコア値算出部により算出する工程と、
    前記既知の複数の種のすべてに対して算出したスコア値のうち、最も高い値の種に前記被検データが属すると前記コンピュータの分類判定部により判定する工程と、
    を実行するデータ分類プログラム。
  6. コンピュータを備え、複数のデータ構成要素から構成される被検データが既知の複数の種のいずれかに属するかを判定するデータ分類システムにおいて実行可能なデータ分類プログラムを格納する記録媒体であって、
    前記コンピュータは、前記既知の複数の種のいずれかに属することが明らかな既知データを構成する評価構成要素を複数格納した評価構成要素格納部を備え、
    前記評価構成要素は、前記既知データが属する種に対して算出されるスコア値が、当該既知データが属さない種に対して算出されるスコア値よりも高くなるように、それぞれ予め決定されたものであり、
    そのプログラムは、
    前記被検データを構成する前記複数のデータ構成要素を前記コンピュータのデータ取得部により取得する工程と、
    前記予め決定された複数の評価構成要素を、前記コンピュータの評価構成要素抽出部により前記被検データを構成する前記複数のデータ構成要素の中から抽出する工程と、
    前記複数の評価構成要素に基づいて、前記既知の複数の種のすべてに対するスコア値を前記コンピュータのスコア値算出部により算出する工程と、
    前記既知の複数の種のすべてに対して算出したスコア値のうち、最も高い値の種に前記被検データが属すると前記コンピュータの分類判定部により判定する工程と、
    を実行する記録媒体。
JP2015214407A 2015-10-30 2015-10-30 データ分類システム,方法,プログラムおよびその記録媒体 Active JP6144314B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015214407A JP6144314B2 (ja) 2015-10-30 2015-10-30 データ分類システム,方法,プログラムおよびその記録媒体
US15/296,803 US10467258B2 (en) 2015-10-30 2016-10-18 Data categorizing system, method, program software and recording medium therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015214407A JP6144314B2 (ja) 2015-10-30 2015-10-30 データ分類システム,方法,プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2017084249A JP2017084249A (ja) 2017-05-18
JP6144314B2 true JP6144314B2 (ja) 2017-06-07

Family

ID=58634916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015214407A Active JP6144314B2 (ja) 2015-10-30 2015-10-30 データ分類システム,方法,プログラムおよびその記録媒体

Country Status (2)

Country Link
US (1) US10467258B2 (ja)
JP (1) JP6144314B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783537A (zh) * 2018-12-26 2019-05-21 阚研佳 一种财务评估系统
CN110443515A (zh) * 2019-08-09 2019-11-12 杭州安恒信息技术股份有限公司 基于威胁指数的物联网安全检测方法与系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10973397B2 (en) * 1999-03-01 2021-04-13 West View Research, Llc Computerized information collection and processing apparatus
US6529892B1 (en) * 1999-08-04 2003-03-04 Illinois, University Of Apparatus, method and product for multi-attribute drug comparison
JP2003099445A (ja) * 2001-09-21 2003-04-04 Telecommunication Advancement Organization Of Japan 分類キーワード生成方法および分類キーワード生成プログラムと該プログラムを記録した記録媒体
JP4219122B2 (ja) * 2002-06-25 2009-02-04 富士通株式会社 特徴語抽出システム
US20050216459A1 (en) * 2002-08-08 2005-09-29 Aditya Vailaya Methods and systems, for ontological integration of disparate biological data
AU2003270678A1 (en) * 2002-09-20 2004-04-08 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
US7386527B2 (en) * 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
JP2004240488A (ja) * 2003-02-03 2004-08-26 Canon Inc 文書管理装置
US7748036B2 (en) * 2003-04-01 2010-06-29 Sytex, Inc. Methods for categorizing input data
US20100267052A1 (en) * 2006-09-01 2010-10-21 American Type Culture Collection Compositions and methods for diagnosis and treatment of type 2 diabetes
JP4994199B2 (ja) * 2007-11-26 2012-08-08 ヤフー株式会社 機械学習装置及び機械学習方法
JP2010026923A (ja) * 2008-07-23 2010-02-04 Omron Corp 文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体
CN107582551A (zh) * 2009-05-14 2018-01-16 总医院公司 治疗退化性及缺血性疾病的方法和组合物
NZ589039A (en) 2009-09-24 2013-04-26 Nec Corp Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value
WO2011059721A1 (en) * 2009-10-29 2011-05-19 Tethys Bioscience, Inc. Protein and lipid biomarkers providing consistent improvement to the prediction of type 2 diabetes
EP2569431B1 (en) * 2010-05-13 2015-09-23 Sarepta Therapeutics, Inc. Methods for identifying compounds which modulate interleukins 17 and 23 signaling activity
US9552637B2 (en) * 2011-05-09 2017-01-24 Catherine G. McVey Image analysis for determining characteristics of groups of individuals
JP5801611B2 (ja) 2011-06-06 2015-10-28 ダイコク電機株式会社 遊技情報管理装置
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
JP2014102555A (ja) * 2012-11-16 2014-06-05 Ntt Docomo Inc 判別ルール生成装置及び判別ルール生成方法
WO2014085434A1 (en) * 2012-11-27 2014-06-05 Pontificia Universidad Catolica De Chile Compositions and methods for diagnosing thyroid tumors
US9904579B2 (en) * 2013-03-15 2018-02-27 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
US20140280174A1 (en) * 2013-03-16 2014-09-18 Elan Bitan Interactive user-controlled search direction for retrieved information in an information search system

Also Published As

Publication number Publication date
US10467258B2 (en) 2019-11-05
JP2017084249A (ja) 2017-05-18
US20170124179A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
Bolón-Canedo et al. Feature selection for high-dimensional data
US20180253657A1 (en) Real-time credit risk management system
KR20200001466A (ko) 객체들의 엔트로피적 군집화
JP6414363B2 (ja) 予測システム、方法およびプログラム
WO2017148269A1 (zh) 一种信用分的获取、特征向量值的输出方法及其装置
US11837061B2 (en) Techniques to provide and process video data of automatic teller machine video streams to perform suspicious activity detection
CN106997367B (zh) 程序文件的分类方法、分类装置和分类系统
US11163877B2 (en) Method, server, and computer storage medium for identifying virus-containing files
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
CN111401700A (zh) 一种数据分析方法、装置、计算机系统及可读存储介质
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN111222137A (zh) 一种程序分类模型训练方法、程序分类方法及装置
Banerjee et al. Using complex networks towards information retrieval and diagnostics in multidimensional imaging
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
Ognev et al. Clustering of malicious executable files based on the sequence analysis of system calls
JP6144314B2 (ja) データ分類システム,方法,プログラムおよびその記録媒体
WO2021081914A1 (zh) 推送对象确定方法、装置、终端设备及存储介质
CN108985755B (zh) 一种账号状态识别方法、装置及服务器
JP7170689B2 (ja) 出力装置、出力方法及び出力プログラム
Patching et al. A supervised learning process to validate online disease reports for use in predictive models
CN113065748A (zh) 业务风险评估方法、装置、设备及存储介质
CN116737373A (zh) 负载均衡方法、装置、计算机设备、存储介质
Shi et al. A model for recognizing key factors and applications thereof to engineering
JP2021018466A (ja) ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム
Wilkins et al. COUGAR: clustering of unknown malware using genetic algorithm routines

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170510

R150 Certificate of patent or registration of utility model

Ref document number: 6144314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250