JP4550882B2 - 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム - Google Patents

情報分類装置、情報分類方法、情報分類プログラム、情報分類システム Download PDF

Info

Publication number
JP4550882B2
JP4550882B2 JP2007503580A JP2007503580A JP4550882B2 JP 4550882 B2 JP4550882 B2 JP 4550882B2 JP 2007503580 A JP2007503580 A JP 2007503580A JP 2007503580 A JP2007503580 A JP 2007503580A JP 4550882 B2 JP4550882 B2 JP 4550882B2
Authority
JP
Japan
Prior art keywords
information
distance
population
classification
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007503580A
Other languages
English (en)
Other versions
JPWO2006087854A1 (ja
Inventor
正典 伊原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPWO2006087854A1 publication Critical patent/JPWO2006087854A1/ja
Application granted granted Critical
Publication of JP4550882B2 publication Critical patent/JP4550882B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Description

本発明は、情報分類装置、情報認識装置、情報検索装置、情報分類方法、情報分類プログラム、情報分類システム、情報分類システムを用いた情報提供サービス、情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体、および、情報分類システムを用いて分類対象標本情報が帰属する母集団を検索するための任意数の母集団を記憶するデータベースに関し、特に、統計的に情報を分類するのに適した情報分類装置、情報認識装置、情報検索装置、情報分類方法、情報分類プログラム、情報分類システム、情報分類システムを用いた情報提供サービス、情報分類システムによって分類された分類後母集団を記録するコンピュータ読取可能な記録媒体、および、情報分類システムを用いて分類対象標本情報が帰属する母集団を検索するための任意数の母集団を記憶するデータベースに関する。
情報の認識や分類においての分類方法は、一般的には行列情報群を直交分解し複数の行列情報群によって最適解を求めたり、尤度推定法であるバウムウェルチアルゴリズムや最小誤差分類などの最適解を算術的に求めたりするアルゴリズムが用いられている。
また、ニューラルネットワークにおける中間層の最適値を求める際に、マハラノビス距離が任意の一定距離になるようにニューラルネットワークを補正する方法がある(たとえば、特開2003−76976号公報(以下「特許文献1」という)参照)。
また、ベクトル量子化方法として、Kミーンズ手法と呼ばれる母集団に任意の重心を与え、その重心が最適な位置に移動するまで再帰的に分類する方法がある。
また、特許文献1においては、マハラノビス距離を一定にすることで境界条件を最適化する方法が開示されている。
また、混合分布分割手法として、EMアルゴリズムと呼ばれる母集団の混合分布内における標本の出現頻度分布や尤度分布に基づいて局所解を継続的に変化させ、帰納的に局所最適解を求める期待値最大化法がある。
また、他の混合分布分割手法として、サポートベクターマシン(SVM)と呼ばれる手法があるが、この手法は、任意の関数によって母集団の非線形写像を別次元空間に変換し境界条件と境界の幅を決める手法である。
また、古城玄、和久屋寛、「ニューラルネットワークで実現したベイズ的推論に基づくデータ分布の推定法」、電気学会計測研究会資料、2003年10月、IM−03−55、p.13−18(以下「非特許文献1」という)によれば、母集団の平均と分散、標準偏差を推定するための評価をベイズ法により母集団全体の重心からみてそれぞれの標本の位置が標準偏差の特定範囲か否かを評価している。また、中村匡伸、岩野公司、古井貞煕、「マハラノビス距離を用いた日本語話し言葉音声の音響的特徴の分析」、日本音響学会2005年春季研究発表会講演論文集、2005年3月、vol.1、2−1−14、p.231−232(以下「非特許文献2」という)によれば、マハラノビス距離を用いた音素評価における精度の高さが記載されている。
このような、混合分布分解やベクトル量子化を実施するといった方法が一般的であった。
特開2003−76976号公報 古城玄、和久屋寛、「ニューラルネットワークで実現したベイズ的推論に基づくデータ分布の推定法」、電気学会計測研究会資料、2003年10月、IM−03−55、p.13−18 中村匡伸、岩野公司、古井貞煕、「マハラノビス距離を用いた日本語話し言葉音声の音響的特徴の分析」、日本音響学会2005年春季研究発表会講演論文集、2005年3月、vol.1、2−1−14、p.231−232
図7は、正規分布の例を示す図である。図8は、非正規分布の例を示す図である。一般的に、前述の背景となる技術では、人が指定した母集団では人が情報を解釈する状況によって境界があいまいにならざるを得ないので混合分布と呼ばれる図8に示すような非正規分布が形成されていた。このため、図7に示すような正規分布を前提とした最適解による母集団境界が算術的に得られないという課題があった。
加えて、混合分布が必ずしも混合正規分布ではないために、正規分布の最適解として解釈可能な尤度の高い局所解が数多く出現していた。このため、無制限もしくは必要以上に算術解としての最適解が生成されてしまい、実用的な最適解としての要を成さないばかりか、分類のための母集団が無制限に増えるため、必ずしも母集団の安定的な分類を実現できないという課題が一般的にあった。
また、Kミーンズ手法では、初期に指定した任意の重心が適切でない場合、初期の母集団数が最適化後の母集団数になるため、自律的に母集団の増減が実施されず、必ずしも母集団への安定的な分類が実現できないという課題がある。
また、特許文献1においては、マハラノビス距離を一定にすることでニューラルネットワークが最適に機能することを説明しているに留まっている。このため、仮にクラスタリングに利用することを想定しても、母集団を構成する標本の距離平均値の内側と外側という分類になり、無制限もしくは必要以上に母集団を増やすという課題を解決しない。
また、EMアルゴリズムは、局所解を無制限もしくは必要以上に構成することが知られており、必ずしも母集団の安定的な分類ができないという課題がある。
また、SVMは、任意の関数によって母集団の非線形写像を別次元空間に変換し境界条件と境界の幅を決める方法である。SVMでは、必ずしも母集団の安定的な分類ができないという課題がある。
また、非特許文献1のベイズ的推論に基づくデータ分布の推定法は、母集団重心を平均とする分散及び標準偏差に基づいた帰属評価であるとともに、多層ニューラルネットワークでの出力層を評価したものであり、本発明のように帰属する母集団における評価距離の平均とその標準偏差を用いての標本の距離を評価することにより、情報分類に関する課題の提示や課題解決の実証をしてはいない。
また、非特許文献2は、マハラノビス距離を用いた音声分析に高い相関性が見られるという分析結果と考察であり、具体的な課題や課題の解決方法と実証を提示しているわけではない。
また、このような情報分類システムにおいて、特徴構成要素の順序や項目が異なるベクトル及び/若しくはマトリクス及び/若しくはテンソル同士や評価関数は互いに評価できないという課題があった。
この発明は上述の課題を解決するためになされたもので、この発明の目的の1つは、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類装置、情報認識装置、情報検索装置、情報分類方法、情報分類プログラム、および、情報分類システムを提供することである。
この発明の他の目的は、構成要素態様が異なる標本情報同士を互いに評価することが可能な情報分類装置、情報認識装置、情報検索装置、情報分類方法、情報分類プログラム、および、情報分類システムを提供することである。
上述した課題を解決するために、この発明のある局面によれば、情報分類装置は、処理部および処理部が処理を実行するときのワークエリアとして用いられる記憶部を備え、処理部は、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属先決定部と、標本情報分類部とを含む
距離算出部は、距離評価関数を用いて、記憶部に記憶された任意数の標本情報と標本情報を含む記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を算出する。統計情報算出部は、各母集団に帰属する標本情報それぞれに関連付けられた距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに距離情報群それぞれの平均を中心とした距離情報それぞれの偏差に基づいて距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出する。
帰属度合評価部は、距離算出部によって各母集団の母平均と分類対象標本情報との距離を算出し、算出された距離に対して統計情報算出部によって算出された統計情報を用いて距離をそれぞれの平均と標準偏差で正規化することによる統計的検定に基づいた分類対象標本情報の帰属度合を評価する。帰属先決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。標本情報分類部は、帰属先決定部によって決定された母集団に分類対象標本情報を帰属させ分類する。
この発明に従えば、情報分類装置によって、距離評価関数が用いられて任意数の標本情報と標本情報を含む任意数の母集団それぞれの母平均との距離情報が算出され、算出された各母集団に帰属する標本情報それぞれに関連付けられた距離情報により構成された距離情報群それぞれに基づいた平が算出されるとともに距離情報群それぞれの平均を中心とした距離情報それぞれの偏差に基づいて距離情報群ごとの標準偏差が算出されることによって、平均と標準偏差とを含む統計情報が算出され、各母集団の母平均と分類対象標本情報との距離が算出され、算出された距離に対して算出された統計情報を用いて距離をそれぞれの平均と標準偏差で正規化することによる統計的検定に基づいた分類対象標本情報の帰属度合が評価され、評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかが決定され、決定された母集団に分類対象標本情報が帰属され分類される。
このため、情報分類装置によって、分類対象標本情報が各母集団への帰属度合に応じたいずれかの母集団に帰属され分類される。その結果、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類装置を提供することができる。
好ましくは、距離算出部は、標本情報分類部によって分類対象標本情報に基づく標本情報群が更新された更新母集団を構成し、構成された更新母集団ごとに分類された標本情報群に応じて距離算出部によって用いられる距離評価関数を再構築する距離評価関数再構築部をさらに備え、
距離算出部は、距離評価関数再構築部により再構築された距離評価関数を用いて更新母集団のそれぞれに帰属する分類対象標本情報と更新母集団の母平均との距離情報群をさらに算出する。
この発明に従えば、情報分類装置によって、分類対象標本情報に基づく標本情報群が更新された更新母集団が構成され、構成された更新母集団ごとに分類された標本情報群に応じて距離評価関数が再構築され、再構築された距離評価関数が用いられて更新母集団のそれぞれに帰属する分類対象標本情報と更新母集団の母平均との距離情報群がさらに算出され、算出された距離情報群に基づいて、さらに、分類対象標本情報が帰属度合に応じたいずれかの母集団に帰属され分類される。
このため、情報分類装置によって、さらに、母集団へ標本情報を再帰的に分類することができる。
好ましくは、帰属先決定部は、いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たに母集団を生成する母集団生成部を含み、生成した母集団に分類対象標本情報を帰属させることを決定する。
この発明に従えば、情報分類装置によって、いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たに母集団が生成され、生成された母集団に分類対象標本情報が帰属され分類される。
このため、母集団に帰属する標本情報は、帰属度合が所定の度合で範囲内の標本情報となる。その結果、情報分類装置によって、母集団に対して所定の度合の範囲内に標本情報を分類することができる。
さらに好ましくは、帰属度合は、その母集団に対する距離情報群の平均値からの偏差値であり、所定の度合は、偏差値が平均値から所定倍の標準偏差値の範囲である。
この発明に従えば、情報分類装置によって、いずれの母集団への距離情報群の平均値からの偏差値も、所定倍の標準偏差値の範囲外であるときに、新たに母集団が生成され、生成された母集団に分類対象標本情報が帰属される。
このため、情報分類装置によって、母集団に対して距離情報群の平均値からの偏差値が所定倍の標準偏差値の範囲内に標本情報を分類することができる。その結果、母集団に帰属する標本情報のうちの一定割合が平均値から所定倍の標準偏差値の範囲内に分布する正規分布に近くなるように、標本情報を母集団に分類することができる。
また、好ましくは、情報分類装置は、少なくとも所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する標本情報を他の母集団に帰属させる母集団削除部をさらに備える。
この発明に従えば、情報分類装置によって、少なくとも所定数の標本情報が帰属されない母集団が削除され、削除された母集団に帰属する標本情報が他の母集団に帰属される。このため、妥当でない母集団は淘汰される。
好ましくは、帰属先決定部は、帰属度合評価部によって評価された帰属度合が最も良い母集団に分類対象標本情報を帰属させることを決定する。
この発明に従えば、情報分類装置によって、評価された帰属度合が最も良い母集団に分類対象標本情報を帰属させることが決定され、決定された母集団に分類対象標本情報が帰属される。
このため、情報分類装置によって、分類対象標本情報にとって帰属度合が最も良い母集団に帰属される。その結果、母集団へ標本情報を最適に分類することができる。
好ましくは、距離算出部は、共分散構造分析に基づいて、距離情報を算出する。
好ましくは、距離算出部は、固有値および固有ベクトルに基づいて、距離情報を算出する。
好ましくは、距離算出部は、距離情報としてマハラノビス距離を算出する。
好ましくは、距離算出部は、距離情報としてベイズ識別関数による距離を算出する。
好ましくは、帰属度合評価部は、算出した分類対象標本情報の偏差を正規化する正規化部を含む。
この発明に従えば、情報分類装置によって、分類対象標本情報の偏差が正規化される。その結果、情報分類装置によって、分類対象標本情報の偏差を容易に取扱うことができるようになる。
この発明の他の局面によれば、情報認識装置は、情報分類装置と、距離評価関数再構築部により再構築された距離評価関数を用いて自然情報から抽出された特徴量に対応した識別情報の認識処理を行なう認識処理部とを備える。
この発明のさらに他の局面によれば、情報分類方法は、処理部および処理部が処理を実行するときのワークエリアとして用いられる記憶部を備えるコンピュータによって実行され、処理部が、距離評価関数を用いて記憶部に記憶された任意数の標本情報と標本情報を含む記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を算出するステップと、各母集団に帰属する標本情報それぞれに関連付けられた距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに距離情報群それぞれの平均を中心とした距離情報それぞれの偏差に基づいて距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出するステップと、各母集団の母平均と分類対象標本情報との距離を算出し、算出された距離に対して算出された統計情報を用いて距離をそれぞれの平均と標準偏差で正規化することによる統計的検定に基づいた分類対象標本情報の帰属度合を評価するステップと、評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定するステップと、決定された母集団に分類対象標本情報を帰属させ分類するステップとを含む。
この発明に従えば、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類方法を提供することができる。
この発明のさらに他の局面によれば、情報分類プログラムは、処理部および処理部が処理を実行するときのワークエリアとして用いられる記憶部を備えるコンピュータで実行され、処理部が、距離評価関数を用いて、記憶部に記憶された任意数の標本情報と標本情報を含む記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を算出するステップと、各母集団に帰属する標本情報それぞれに関連付けられた距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに距離情報群それぞれの平均を中心とした距離情報それぞれの偏差に基づいて距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出するステップと、各母集団の母平均と分類対象標本情報との距離を算出し、算出された距離に対して算出された統計情報を用いて距離をそれぞれの平均と標準偏差で正規化することによる統計的検定に基づいた分類対象標本情報の帰属度合を評価するステップと、評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定するステップと、決定された母集団に分類対象標本情報を帰属させ分類するステップとをコンピュータに実行させる。
この発明に従えば、母集団への標本情報の自律的かつ安定的な分類が可能な情報分類プログラムを提供することができる。
この発明のさらに他の局面によれば、情報分類システムは、処理部および処理部が処理を実行するときのワークエリアとして用いられる記憶部を備える情報分類装置と、情報分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置の処理部は、母集団受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属先決定部と、標本情報分類部と、分類後母集団受渡部とを備える。情報端末は、母集団受渡部と、分類後母集団受取部とを備える。
母集団受渡部は、情報分類装置に標本情報が含まれる任意数の母集団を受渡す。母集団受取部は、情報端末から標本情報が含まれる任意数の母集団を受取り記憶部に記憶させる。距離算出部は、母集団受取部によって受取られ記憶部に記憶された母集団に含まれる任意数の標本情報と、標本情報を含む記憶部に記憶された任意数の母集団のそれぞれの母平均との距離情報を距離評価関数を用いて算出する。
統計情報算出部は、各母集団に帰属する標本情報それぞれに関連付けられた距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに距離情報群それぞれの平均を中心とした距離情報それぞれの偏差に基づいて距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出する。帰属度合評価部は、距離算出部によって各母集団の母平均と分類対象標本情報との距離を算出し、算出された距離に対して統計情報算出部によって算出された統計情報を用いて距離をそれぞれの平均と標準偏差で正規化することによる統計的検定に基づいた分類対象標本情報の帰属度合を評価する。
帰属先決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。標本情報分類部は、帰属先決定部によって決定された母集団に分類対象標本情報を帰属させ分類する。
分類後母集団受渡部は、標本情報分類部によって分類対象標本情報が帰属され分類された分類後母集団を情報端末に受渡す。分類後母集団受取部は、情報分類装置から分類後母集団を受取る。
この発明に従えば、標本情報を自律的かつ安定的に分類した母集団を与えることが可能な情報分類システムを提供することができる。
この発明のさらに他の局面によれば、情報分類システムは、処理部および処理部が処理を実行するときのワークエリアとして用いられる記憶部を備える情報分類装置と、情報分類装置と通信回線を介して接続される情報端末とを含む。情報分類装置の処理部は、標本情報受取部と、距離算出部と、統計情報算出部と、帰属度合評価部と、帰属先決定部と、母集団識別情報受渡部とを備える。情報端末は、標本情報受渡部と、母集団識別情報受取部とを備える。
標本情報受渡部は、情報分類装置に分類対象標本情報を受渡す。標本情報受取部は、情報端末から分類対象標本情報を受取り記憶部に記憶させる。距離算出部は、標本情報受取部によって受取られ記憶部に記憶された分類対象標本情報を含む任意数の標本情報と標本情報を含む記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を距離評価関数を用いて算出する。
統計情報算出部は、各母集団に帰属する標本情報それぞれに関連付けられた距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに距離情報群それぞれの平均を中心とした距離情報それぞれの偏差に基づいて距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出する。帰属度合評価部は、距離算出部によって各母集団の母平均と分類対象標本情報との距離を算出し、算出された距離に対して統計情報算出部によって算出された統計情報を用いて距離をそれぞれの平均と標準偏差で正規化することによる統計的検定に基づいた分類対象標本情報の帰属度合を評価する。
帰属先決定部は、帰属度合評価部によって評価された帰属度合に応じて、分類対象標本情報をいずれの母集団に帰属させるかを決定する。母集団識別情報受渡部は、帰属先決定部によって決定された母集団を識別する母集団識別情報を情報端末に受渡す。母集団識別情報受取部は、情報分類装置から母集団識別情報を受取る。
この発明に従えば、分類対象標本情報が帰属する母集団を識別する情報を自律的かつ安定的に与えることが可能な情報分類システムを提供することができる。
好ましくは、分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情報、マトリクス情報またはテンソル情報であり、距離評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、距離算出部は、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、距離評価関数に入力することによって距離情報を算出する。
この発明に従えば、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が、距離評価関数へ入力されるベクトル情報、マトリクス情報またはテンソル情報の所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように再構成されて距離評価関数に入力される。このため、構成要素態様が異なる標本情報同士を互いに評価することが可能な情報分類装置、および、情報分類システムを提供することができる。
また、それらの要素に任意の分野における特徴量や名称、識別子を用いて評価関数や標本を構成し、標本の母集団への帰属状態を評価するようにしてもよいし、それらの評価関数を構成または再構成するようにしてもよい。
好ましくは、分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情報、マトリクス情報またはテンソル情報であり、距離評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、距離情報を算出するステップは、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、距離評価関数に入力することによって距離情報を算出する。
この発明に従えば、任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が、距離評価関数へ入力されるベクトル情報、マトリクス情報またはテンソル情報の所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように再構成されて距離評価関数に入力される。このため、構成要素態様が異なる標本情報同士を互いに評価することが可能な情報分類方法、および、情報分類プログラムを提供することができる。
好ましくは、特徴ベクトル、マトリクス、及び/またはテンソル要素に識別子を与え、識別子の一致する要素を評価用特徴量として整理し、評価関数に与えたり、ベクトル、マトリクス及び/またはテンソル同士の距離評価を行なったりする。
好ましくは、距離算出部は、ベクトル、マトリクス及び/またはテンソルの要素項目の順序を入替えたり、不足要素に要素平均値や0を代入したり、過剰要素を削除したりするといった方法で、見かけ上の要素数と要素識別子とを同一にする機能を含む。
要素の一部が異なるベクトル、マトリクス及び/またはテンソル同士、あるいは、ベクトル、マトリクス及び/またはテンソルと評価関数とが、母集団重心からの距離と平均と標準偏差とに基づく帰属確率により評価できるようになるため、ベクトル、マトリクス及び/またはテンソル評価関数の応用範囲が広がる。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付して、その説明は繰返さない。
図1は、本実施形態に従う情報分類装置100の構成の概略を示す図である。
図1を参照して、情報分類装置100は、PC(Personal Computer)などのコンピュータで構成され、処理部110と、記憶部120と、入力部130と、出力部140とを含む。処理部110、記憶部120、入力部130、および、出力部140は、バスで接続され、バスを介して、必要なデータをやり取りする。
なお、情報分類装置100は、PCなどの汎用的な装置で構成されることに限定されず、専用的な装置として構成されてもよい。
処理部110は、CPU(Central Processing Unit)や、MPU(Micro Processing Unit)や、DSP(Digital Signal Processor)などの演算回路と、その周辺回路で構成される。
記憶部120は、ROM(Read Only Memory)やRAM(Random Access Memory)、ハードディスクドライブを例とする記憶回路で構成される。記憶部120は、情報分類装置100で実行されるプログラムを記憶したり、プログラムが実行されるときのワークエリアとして用いられたりする。
入力部130は、キーボードやマウスなどの入力装置や、カメラのような撮像装置や、マイクのような集音装置などから構成される。入力部130は、入力装置や撮像装置や集音装置から入力されたデータを処理部110に受渡す。
出力部140は、ディスプレイのような表示装置やスピーカのような音響装置などから構成される。出力部140は、処理部110から受取ったデータを出力する。
処理部110は、記憶部120に記憶されたプログラムに基づいて、記憶部120をワークエリアとして用いながら、所定の処理を実行する。また、処理部110は、処理に応じて、入力部130から所定のデータを受取る。さらに、処理部110は、処理に応じて、出力部140に所定のデータを受渡す。
図2は、本実施形態に従う情報分類装置100で実行される情報分類処理の流れを示すフローチャートである。
図2を参照して、まず、ステップS11で、処理部110が、記憶部120に記憶された分類対象となる母集団毎に帰属する標本情報から距離関数を構築する。
具体的には、ある母集団A(a1,a2,・・・,an),B(b1,b2,・・・,bm)、および、これらを構成する標本情報群a1,a2,・・・,anとb1,b2,・・・,bmについて説明する。この際、anおよびbmは多次元のベクトルやマトリクスやテンソルであってよい。
処理部110は、これらの標本情報群から固有値、固有ベクトル、平均値、標準偏差値といった、それぞれの母集団A、Bの多変量解析のための変数を得る。
そして、処理部110は、ここで得られた共分散構造分析のための変数に基づき母集団A,Bと各標本情報とのマハラノビス距離を求めるために標本情報であるanやbmを引数
Figure 0004550882
とする距離関数
Figure 0004550882
および
Figure 0004550882
を構成する。
なお、この距離関数において引数
Figure 0004550882
がベクトルである場合、距離評価関数の内部変数である評価次元数をはじめとした評価用変数を用いて演算結果の精度を設定できるが、任意の精度で指定すればよい。
なお、マハラノビス距離は以下の式に表される。
Figure 0004550882
iは複数の母集団の識別値を示す。
kは標本の識別値を表す。
ikは距離関数
Figure 0004550882
による標本kと母集団iの重心との距離を示す。
μは標本情報から得た平均ベクトルを示す。
Figure 0004550882
は標本情報ベクトルを示す。
数5および数9におけるViは母集団iの共分散行列を示す。
また、固有値と固有ベクトルによる表現では、
Figure 0004550882
となる。
φiは母集団の共分散行列の固有ベクトルを示す。
λiは母集団の共分散行列の固有値を示す。
また、マハラノビス距離に固有値に基づく定数log|Vi|と事前確率logP(ωi)を追加して、ベイズ識別関数による多次元距離計算関数を構成できるが、この場合は
Figure 0004550882
という形で表現できる。
また、別の式表現として、
Figure 0004550882
と表わすこともできる。この際、最後に追加されているlogP(ωi)部は事前確率による補正のため、性能改善を目的として削除することにより、どの母集団に対しても均一の確率で評価されるようにしたり、前後の距離評価状況に基づいて評価結果を調節をするために遷移確率や出力確率に基づいた補正値を与えてもよい。
そして
Figure 0004550882
という形で母集団重心からの距離に相当する値を導き出すことができる。
次に、ステップS12で、処理部110が、ステップS11で構築した距離関数で標本情報を評価し、評価距離を算出する。また、ステップS13で、処理部110は、ステップS12で算出した評価距離群それぞれの標本平均、標本分散、および、標本標準偏差を導出する。
具体的には、構成された距離関数
Figure 0004550882
に対し標本情報群a1,a2,・・・,anを入力し、距離関数
Figure 0004550882
に対し標本情報群b1,b2,・・・,bmを入力する。この結果として、距離関数に基づく距離情報Da1,Da2,・・・,Dan,Db1,Db2,・・・,Dbmが求められる。このようにして求められた母集団AにおけるDa群と母集団BにおけるDb群から、それぞれの距離平均値μDa,μDbと距離標準偏差σDa,σDbからなる統計情報が求められる。この際、a,bの群を識別する値は前述の式のiに代入される。
Figure 0004550882
Figure 0004550882
次に、ステップS14で、処理部110は、ステップS12で算出された母集団ごとの評価距離を正規化する。
具体的には、距離関数
Figure 0004550882
に標本情報群a1,a2,・・・,an,b1,b2,・・・,bmを入力し得られた評価距離群であるDa群をμDa,σDaで正規化し、同様に、距離関数
Figure 0004550882
にも標本情報群a1,a2,・・・,an,b1,b2,・・・,bmを入力し得られた評価距離群であるDb群をμDb,σDbで正規化する。この結果、それぞれの母集団に属する標本により構成された評価関数による各標本群の重心からの距離平均を用いて算出された各標本の距離偏差値Va1,Va2,・・・,Van,Vb1,Vb2,・・・,Vbmが得られる。
Figure 0004550882
Figure 0004550882
次いで、ステップS21で、処理部110は、ステップS14で算出した最初の母集団に対する標本の距離偏差値を評価する。そして、ステップS22で、処理部110は、距離偏差値が規定範囲内か否かを判断する。
距離偏差値が規定範囲内である場合(ステップS22においてYESの場合)、ステップS23で、処理部110は、標本をその母集団に帰属させ、処理をステップS24に進める。一方、距離偏差値が規定範囲内でない場合(ステップS22においてNOの場合)、ステップS24に処理を進める。
ステップS24において、処理部110は、次の母集団があるか否かを判断する。次の母集団がある場合(ステップS24においてYESの場合)、ステップS25で、処理部110は、次の母集団に対する標本の距離偏差値を評価し、ステップS22に処理を戻す。一方、次の母集団がない場合(ステップS24においてNOの場合)、ステップS26に処理を進める。
ステップS26において、処理部110は、標本が既存のいずれかの母集団に帰属されたか否かを判断する。いずれの母集団にも帰属されていない場合(ステップS26においてNOの場合)、ステップS27で、処理部110は、新たな母集団を生成し、その母集団に標本を帰属させ、処理をステップS28に進める。一方、いずれかの母集団に帰属された場合(ステップS26においてYESの場合)、ステップS28に処理を進める。
具体的には、標本akにおいて、距離関数Fa(ak)の距離偏差値Vakが3σ未満である場合、標本を母集団Aに帰属させる。
標本akにおいて、距離関数Fa(ak)の距離偏差値Vakが3σ以上である場合、かつ、Fb(ak)の距離偏差値Vakが3σ未満である場合、標本を母集団Bに帰属させる。
標本akにおいて、距離関数Fa(ak)の距離偏差値Vakが3σ以上である場合、かつ、Fb(ak)の距離偏差値Vakが3σ以上である場合、新たな母集団Cを生成し、標本を母集団Cに帰属させる。
Figure 0004550882
そして、ステップS28で、処理部110が、次の標本があるか否かを判断する。次の標本がある場合(ステップS28においてYESの場合)、処理部110は、処理をステップS21に戻す。一方、次の標本がない場合(ステップS28においてNOの場合)、処理部110は、処理をステップS31に進める。
具体的には、標本情報a1からanまでについてステップS21からステップS27が実行される。同様に、標本情報b1からbmまでについてステップS21からステップS27が実行される。
具体的には、標本bkにおいて、Fb(bk)の距離偏差値Vbkが3σ未満である場合、標本を母集団Bに帰属させる。
標本bkにおいて、Fa(bk)の距離偏差値Vbkが3σ未満である場合、かつ、Fb(bk)の距離偏差値Vbkが3σ以上である場合、標本を母集団Aに帰属させる。
標本bkにおいて、距離関数Fa(bk)の距離偏差値Vbkが3σ以上である場合、かつ、Fb(bk)の距離偏差値Vbkが3σ以上である場合、新たな母集団Cを生成し、標本を母集団Cに帰属させる。
Figure 0004550882
なお、母集団A,Bに帰属する標本が、距離標準偏差値が最も小さい母集団に帰属されるようにしてもよい。
なお、ここで用いられる指標であるσの3倍という基準は統計学的な確率密度関数に基づいて導出される帰属確率もしくは出現確率もしくは所属確率において、99.7%の標本情報を含むことが予想できる値であり、装置の仕様や思想、目的に基づいて、任意の倍率を指定してもよい。
また、ここでの分類の方法として、任意のσ値を評価基準としたり、任意の順位まで3σ以内であるかを評価したり、一番重心に近い母集団に帰属していると評価したり、一番距離平均に近い母集団に帰属していると評価したり、評価距離が負の値である場合において、その距離値が指数部と見なすと確率が1以上であることを考慮して、母集団に帰属していると評価したりすることを組み合わせて、帰属させる母集団を選択する方法を用いてもよい。
また、母集団自身の重心位置となる値を
Figure 0004550882
Figure 0004550882
としてもよい。
数22もしくは数23のように平均として用いて、標本群の重心からの距離に対する標準偏差を求め、前述の手法における境界基準としてもよい。この場合、距離平均ではなく、母集団重心からの距離を評価基準とするため、固有値に基づく定数から求められた平均μDaとその平均に基づいた標準偏差σDaに従って、統計的確率密度関数により求められる出現確率もしくは帰属確率もしくは所属確率とすることで帰属境界となる距離を決めてもよい。
また、正規分布を前提とした場合、母集団の重心と標本の距離平均値は統計量的に0.68σ付近になることが予測できる。このため、距離平均値に対し−0.68σ以下の値をもつ標本も母集団とは異なる性質を持つと考えられるので、帰属する母集団を変更してもよく、ガンマ分布など他の分布における確率密度関数に基づいて判断してもよい。
また、このような距離平均値と標準偏差値に基づいた分類方法であれば、複数の母集団との任意の条件の組合せで、再分類条件を指定してもよい。この際、複数の母集団の重心に充分近い場合はより近い方法にしたり、標準偏差値のより小さい方に帰属させたり、共に小さい場合、新たに母集団を構成したり、両方の母集団に帰属させたり、正負の偏差値ごとに分類方法を変えたり、といった方法が任意にできる構成であってもよい。
次に、ステップS31で、処理部110は、標本情報が所定数未満、たとえば、200未満の母集団があるか否かを判断する。標本情報が所定数未満の母集団がある場合(ステップS31においてYESの場合)、処理部110は、ステップS32において、その母集団に帰属する標本情報を他の母集団に帰属させる。つまり、その母集団を削除する。その後、処理部110は、ステップS33に処理を進める。一方、標本情報が所定数未満の母集団がない場合(ステップS31においてNOの場合)、処理部110は、ステップS33に処理を進める。
なお、削除する母集団に帰属する標本情報は、距離標準偏差値が最も小さい母集団に帰属されるようにするのが好ましい。また、母集団のみ削除し、削除する母集団に帰属する標本情報をどの母集団にも帰属させず、ステップS33において距離関数から距離と仮の帰属母集団とを得るためのみの標本情報として用いるようにしてもよい。
次に、ステップS33で、処理部110は、この再分類された母集団に対する距離関数を構築し、距離関数を用いた判別関数による認識によって分類が的確になされているかを評価する。そして、ステップS34で、処理部110は、繰返された一致度評価が終了条件を満たすか否かを判断し分類を繰返して継続するか否かを判断する。
なお、母集団数の増減が指定値以下になったか否か、指定割合以下になったか否か、各標本の評価距離の標準偏差値と平均距離が一定の比率になったか否か、最新の母集団による平均、分散、標準偏差、固有値、固有ベクトルに基づいた再評価結果において、元の母集団に帰属する標本が一定値以上になったか否か、評価距離群から得た標準偏差値自体の分散が一定の値以下になったか否か、若しくは、評価距離平均値と一定の比率になったか否かに基づいて、終了条件を満たすか否かを判断するようにしてもよい。
終了条件を満たさない場合(ステップS34においてNOの場合)、処理部110は、処理をステップS12に戻し、ステップS12からステップS32までの処理を再帰的に実行する。一方、終了条件を満たす場合(ステップS34においてYESの場合)、処理部110は、この情報分類処理を終了させる。
図3は、本実施形態に従う教師有り学習による情報分類処理における母集団の例を示す図である。
図3(A)は、情報分類処理前の母集団の分類を示す図である。図3(A)を参照して、この図は、標本情報an,bnを散布図にプロットした図である。標本情報anを「○」で示し、標本情報bnを「◇」で示す。ここでは、人が標本情報の内容を判断して、a,bに分類している。標本情報anの集合が母集団A、標本情報bnの集合が母集団Bである。
そして、分類前の母集団Aおよび母集団Bの重心をそれぞれ「★」で示す。分類前の母集団Aの3σ境界を1点鎖線で示す。分類前の母集団Bの3σ境界を2点鎖線で示す。このように、人が標本情報の内容を判断して分類した標本情報をプロットした場合には、a,bの分類境界が歪なものとなる。
図3(B)は、情報分類処理後の母集団の分類を示す図である。処理後の母集団の新規分類境界を破線で示す。新たに生成された母集団Cの重心も、母集団Aおよび母集団Bの重心と同様、「★」で示す。
このように、情報分類処理により、複数の距離関数に基づいて得た距離の統計的に母集団重心との距離が乖離した情報は独自の母集団を形成したり、より重心の近い母集団に帰属を変更したりすることが可能となり、境界付近にあり、人の評価に誤差の生じやすい情報であっても、分布を正規分布に近づけることを可能とし、自律的に安定した母集団を形成することが可能となる。
次に実験結果の説明を行う。
この実験は、あくまでも分類困難であった自然情報の一例として、人の音声情報を標本情報に用いることで、本実施形態により事前分類と認識結果に基づく事後分類の一致率が向上し分類数が減少する点から効率的な分類が実現できていることを確認するための実験である。
この音声情報においては、1標本あたりの次元数が192次元であり、人手により指定された開始時の代表初期母集団数が8種類であり、データの標本数が25万程度であり、発話音素数は28種類である。
また、新しく作られた母集団の標本数がベイズ識別関数による距離を評価するために必要な評価次元数とほぼ同数の200標本に満たない場合は、統計上の理由により母集団を構成していない。
この実験において、前述した情報分類処理により、まず、28種類の音素を特定の人間の主観的音声条件に基づいて8種類の母集団に分類する。それぞれの母集団に帰属していた各標本が評価前に付けられたラベルに基づいて帰属した母集団と評価後で得た距離の一番近いラベルの母集団とが一致した場合、一致した標本から構成される母集団の重心との距離が帰属する母集団の距離平均値からみて3σより小さい場合、評価前の母集団に帰属させる。
次に、評価前に帰属した母集団と評価後で得た距離の一番近い母集団とが一致したが、評価前の母集団の距離平均値からみて3σ以上離れていたり、他の母集団の重心との距離がそれぞれの母集団の距離平均値からみて3σより大きいかったりする場合は、新しい母集団を構成させる。
そして、評価前に帰属した母集団と評価後で得た距離の一番近い母集団とが一致しない標本の場合、標本の距離が他の母集団の距離平均値より3σの範囲である場合は一致した母集団に帰属させ、平均より3σ以上大きい場合は新しい母集団を構成させる。
図4は、本実施形態に従う教師有り学習による情報分類実験の実験結果を示すグラフである。図5は、情報分類実験の対照実験の実験結果を示すグラフである。縦軸は、母集団数および一致率を示す。横軸は、情報分類処理の繰返し数を示す。
この実験結果である図4によれば、母集団数が増加し、一時的に40付近に到達するが、しばらくすると16から20付近で母集団数が増減しながら安定することが見て取れると同時に、一致率も80%程度から始まり、一部割り込むことはあるが、安定して80%以上を維持していることが分かる。
図5を参照して、対照実験は、評価前に帰属した母集団と評価後で得た距離の一番近い母集団とが一致しない場合に新しい母集団を構成し、一致すれば帰属を変更しないという方法での実験である。
このため、母集団数が次第に増加し、母集団数が十分な標本が集まらなくなった105付近で止まっており、最初80%あった認識率も72%から62%の範囲に落ち込んでおり、安定した分類ができていないことがわかる。
すなわち、図4の情報分類実験によれば、25万の標本を3σ以内の20個以下の母集団に分類可能であり認識率を80%以上にすることが可能である。一方、図5の対照実験では、母集団を構成するために必要な200標本に満たない状態になる105付近まで母集団が増加しつづけ、加えて認識率が70%台へと低下している。このことから、元来の28音素に関係なく、図4の実験結果の方が、図5の実験結果である100を超えた母集団より少ない15程度の母集団への効率的分割を実現できていると判断できる。
図9は、より多い標本による教師無し学習における本実施形態に従う情報分類実験の実験結果を示すグラフである。
図9を参照して、図9の情報分類実験結果によれば、図3と同一の話者による新規の標本を約225万加えた約250万の標本による教師無し学習においても、本発明を用いた25万標本の実験と同様に200回のトレーニング経過後であっても先の実験に近い14から18程度とラベル数16付近の安定した母集団への分割を実現している。
以上説明したように、本実施の形態における情報分類装置100は、図2のステップS11およびステップS12で説明したように、標本情報が含まれる複数の母集団のそれぞれに帰属する標本情報の母集団ごとの重心と、分類対象の標本情報との評価距離を算出する。
また、図2のステップS13で説明したように、情報分類装置100は、ステップS12で算出した評価距離についての母集団ごとの平均、分散、標準偏差などの統計情報を算出する。
また、図2のステップS21およびステップS25で説明したように、情報分類装置100は、ステップS12で算出した評価距離、および、ステップS13で算出した統計情報に基づいて、母集団に対する標本情報の評価距離を評価することによって、分類対象の標本情報の母集団への帰属度合を評価する。
また、図2のステップS22からステップS27で説明したように、情報分類装置100は、ステップS21またはステップS25で評価した帰属度合に応じて、分類対象の標本情報をいずれの母集団に帰属させるかを決定する。
また、図2のステップS23およびステップS27で説明したように、情報分類装置100は、決定した母集団に分類対照の標本情報を帰属させる。
このように、情報分類装置100によって、分類対象の標本情報が母集団への帰属度合に応じたいずれかの母集団に帰属される。その結果、母集団への標本情報の自律的かつ安定的な分類をすることができる。
また、図2のステップS33で説明したように、情報分類装置100は、分類対象の標本情報が帰属された更新された母集団ごとの重心と、更新された母集団のそれぞれに帰属する分類対象の標本情報との評価距離を算出し、ステップS12からステップS33を再帰的に実行することによって、算出した評価距離に基づいて、さらに、分類対象の標本情報を帰属度合に応じたいずれかの母集団に帰属させる。
これにより、情報分類装置100によって、さらに、標本情報を母集団へ再帰的に分類することができる。
また、図2のステップS26およびステップS27で説明したように、情報分類装置100は、いずれの母集団への帰属度合も所定の度合の範囲外であるとき、つまり、いずれの母集団への評価距離の平均値からの偏差値も3σの範囲外であるときに、新たな母集団を生成し、生成した母集団に分類対象の標本情報を帰属させる。
これにより、母集団に帰属する標本情報は、帰属度合が所定の度合の範囲内である場合に標本情報となる。つまり、情報分類装置100によって、母集団に対して評価距離の平均値からの偏差値が3σの範囲内の標本情報を分類することができる。
その結果、情報分類装置100によって、母集団に対して所定の度合の範囲内に標本情報を分類することができる。また、母集団に帰属する標本情報のうちの一定割合が平均値から3σの範囲内に分布する正規分布に近くなるように、標本情報を母集団に分類することができる。
また、図2のステップS31およびステップS32で説明したように、情報分類装置100は、所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する標本情報を他の母集団に帰属させる。これにより、妥当でない母集団は淘汰される。
また、図2のステップS21からステップS27で説明したように、情報分類装置100は、ステップS21またはステップS25で評価した帰属度合が最も良い母集団に分類対象の標本情報を帰属させるようにしてもよい。
これにより、情報分類装置100によって、評価された帰属度合が最も良い母集団に分類対象の標本情報が帰属される。その結果、標本情報を母集団へ最適に分類することができる。
また、図2のステップS14で説明したように、情報分類装置100は、ステップS12で算出した評価距離を正規化する。
これにより、情報分類装置100によって、評価距離を容易に取扱うことができるようになる。
本実施の形態についての概略を次に示す。
情報分類装置100は、記憶部120の母集団により分類された標本情報に対し処理部110を用いて、平均と分散を求め、共分散行列を構成し、記憶部120に保存する。
次に、共分散行列から固有値と固有ベクトルを求め、標本の帰属する母集団の母集団と共に分類し評価関数として記憶部120に保存する。
保存された全ての評価関数に基づき、全ての標本の距離算出を処理部110により実施し、その内容にしたがって分類し、必要であれば新しい母集団を与え記憶部120に保存する。
保存された母集団を用いて分類された母集団に従い、再度、処理部110を用いて平均や分散等を求める演算を新しい分類に従って処理し、母集団数が安定するまで繰り返す。
次に、本実施形態の変形例を説明する。
この実験に用いられる3σ範囲は母集団の99.7%程度を内包する範囲であり、統計的予測では検定境界である98%となる2σ付近の値がよい分類を実施できることも予想できる。
また、マハラノビス距離の特性として、ある母集団における重心と標本情報とのマハラノビス距離平均は、その標本情報の次元数になることがよく知られている。この特性から考えると、母集団の中心から評価次元数と等しい距離にある標本は、0.68σに含まれていることが解る。
このため、重心からの距離が絶対値であることを考慮すると、±3σに相当する距離は、得られた距離が標本次元数の4.5倍付近となり、この値よりマハラノビス距離が小さい場合であれば99.7%の確率で元の母集団に帰属することが予想でき、この値より大きな値であれば、ほぼ帰属しないことが予想できる。
そこで、本実施形態を利用し前述の手順を用いた再分類によって異なる母集団へ再分類するといった応用も可能である。
そして、この分類の結果、既にある全ての母集団の重心から見て、4.5倍以上離れている標本は、全て同じ母集団に帰属させ、新しい母集団を一つ追加する方法が考えられる。
また、既にある母集団がA,B,Cである場合、全ての母集団から4.5倍以上離れている標本に関して、その標本が、Aに一番近い場合はA1、Bに一番近い場合はB1という具合に類似性の高そうなラベルを割当てることで、類似性のある標本同士を集めて、補助ラベルを加えて新しくラベルを割り振ることで標本を分類する方法が考えられる。
この際、A1がAに帰属すると評価されても正しく評価されたとすることでマルチテンプレートを応用し、分類効率や分析処理の改善をはかることも可能である。
また、初期の分類を1σや2σと狭く指定し、数回の処理をした後4σや5σに幅を広げて分類することで、厳しい条件から緩い条件に変化させ、学習速度を効率的にする方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。
また、分類境界とするσ値を求める際、母集団重心からの平均距離に基づいた平均位置から見て負方向の最小σ値を求めたり、一番重心に近い標本までの最小σ値を求めたりした後でそれらの絶対値や二乗値を平均位置から見て正方向のσ値の評価用上限値に用いてもよく、距離平均より小さくベクトル重心に一番近い値の2乗とは距離平均から一番小さい評価距離までの標準偏差が−2の場合、距離平均より+4の標準偏差を上限の範囲とするととらえてもよい。また、これらの倍率や乗数は任意に指定してもよい。
また、逆の方法として、初期の数回を5σと広くし、そのあとで2σと狭くするなどの方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。また、母集団の変化が減った時点で母集団の増減を停止する方法を用いて、母集団の学習効率を改善する方法が容易に考えられる。
また、この距離算出において、平均を中心とした指定範囲ばかりでなく、平均からみてより小さい、もしくはより大きい片側だけの標本情報を新しい母集団として用いたり、非対称の範囲指定によって新しい母集団を構成したりしてもよい。
また、複数の母集団により評価される場合、より近く且つ任意の境界内に入っている母集団に標本情報anを帰属させることにより、分割されている母集団が融合され、母集団の数を減らすように処理してもよい。
また、自然対数の指数部にマハラノビス距離を用いて確率値を得る方法によって、単純なn次元空間の距離評価ばかりではなく時系列的な統計に基づく確率として利用できることもよく知られているため、0から1の確率値を本方法における距離として用いたり、指数値を距離とみなして利用したりすることによって評価をしてもよい。
また、本来であれば標本情報が母集団へ帰属する確率は確率密度関数に基づいた出現確率もしくは帰属確率であるため帰属すれば1となるはずだが、認識などに用いられる学習のための標本情報は自然情報であり、人の解釈による分散や環境の変化があるため、このような状況における対策として本発明を利用することもできる。
この方法で、各種ニューラルネットワークやマルコフ過程、ベイズ推定といった確率モデルを用いたボルツマンマシン、HMM(Hidden Markov Model)、ベイジアンネットワーク、ベイズ識別関数、ネオコグニトロン、コグニトロン、オートマトン、セルラーオートマトン、ファジー関数、カオス関数、フラクタル関数、揺らぎ関数、学習ベクトル量子化法(LVQ)、自己組織化マップ(SOM)、ベクトル量子化ニューラルネットワーク、競合学習型ベクトル量子化ニューラルネットワーク、ホップフィールドネットワーク、パーセプトロン、バックプロパゲーション学習、ハミングネットワーク、カーペンター・グロスバーグ識別器、多値ホップフィールドネットワーク、並列ホップフィールドネットワーク、連続値ホップフィールドネットワーク、相互結合型ニューラルネットワーク、セルラーニューラルネットワーク、ファジィニューラルネットワーク、単層パーセプトロン、多層パーセプトロンコーホネン学習、最急降下法、前向き学習、後ろ向き学習、適応共鳴理論モデル、状態転送ネットワーク、回帰ネットワーク、エルマンネットワーク、ジョーダンネットワーク、フューチャーマップ、コンビネット、競合学習、アソシアトロン、誤差逆伝播学習、自己組織化特徴マップ、連想記憶、ダイナミカルネットワーク、カウンターバックプロパゲーション、ファジー推論、遺伝的アルゴリズム、カオスモデル、フラクタルモデル、アブイニシオ法といった任意のAI手法や評価関数、分類評価方法、各種確率的評価方法、それらの多層モデル、単層モデル、並列モデル、相互結合モデル、時間連続モデル、多値モデル、および、それらの組合せによる評価モデルによる評価結果を用いて得られる距離やそれぞれの入出力パラメータや係数に対して利用してもよい。また、それらの、多層モデルであれば入力層、中間層、出力層の一部もしくは全部に対する任意の入出力変数との組合せに用いる値の距離評価を実施したり、非階層モデルであれば各ノードへの入力値や発火ノードの出力値であったり、それらの非階層モデルを組合せて階層化させたり3次元化させたり、より高次元化させたりすることで、出力される評価結果に基づく値を距離として使用してもよい。
また、本発明を階層ベイズ、経験ベイズ、変分ベイズ、ナイーブ・ベイズ法、拡張ベイズ法、集積化ベイズ法、大規模ベイズ法、簡略化ベイズ法、マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo,MCMC)、アーニリング、ブースティング、M−H(Metropolis-Hastings,メトロポリス−ヘイスティングス)アルゴリズム、ヒットエンドラン(hit-and-run)アルゴリズム、ギブスサンプラー、SIR法(Sampling/Importance Re-sampling)、サポートベクターマシン(SVM)、EM(Expectation Maximization)アルゴリズム、最大距離アルゴリズム、主成分分析(PCA)、独立成分分析、KL展開、Kミーンズ、最大エントロピー法、バックオフ重み付け処理などを組み合わせにより、混合分布情報や任意の分布情報を母集団とする情報群の分類や時系列遷移状況の評価を行なうために最適な評価関数を構成する手段として用いてもよい。
また、リードソロモン法やハミング法、巡回冗長検査(CRC)、各種ハッシュ関数と組み合わせたキーや8−10変換における8ビット値範囲適用外の10ビット値を用いるような方法を利用することでハッシュバッファ処理で大量に構成された距離評価関数へのアクセスの高速化を行なうことも可能である。
また、本発明は従来から「次元の呪い」と言われるところの球面集中現象を利用して、概ね平均値となる球面付近に対しての標本の距離平均を求め、その標準偏差に基づいた範囲内に統計的確率密度関数に基づいて帰属する確率が高いか否かによって母集団への帰属を決定し集合論的な帰属を確定することで、母集団への帰属評価関数を再構成する自己増殖型ニューラルネットワーク手法と捕らえても良い。
また、本発明は経験ベイズ法若しくは階層ベイズ法応用と捕らえることも可能であり、各標本の母集団への確率密度関数に基づいた帰属確率もしくは出現確率もしくは所属確率の平均と分散、標準偏差を求め、平均からみて標準偏差の3倍、すなわち3σ以上離れている場合の実施例としても考えられるが、本発明の場合は確率が1より大きくより母集団重心に近いという確率論的にはありえない状態であっても、ベイズ識別関数によるマハラノビス距離と固有値と事前確率に基づいた距離評価であるため、極端に重心に近い状態で情報が重なり合っても分類が可能であり、定量化しやすいという点で単純な確率評価とは異なっている。この場合、母集団からの乖離度は標本数(サンプル数)やその他の条件を踏まえ、確率密度関数に従って母集団の平均と標準偏差に基づいた範囲内にあるかどうかを評価すると捕らえても良い。
なお、マハラノビス距離に必要な共分散行列構造分析により導出される他の距離表現、Kミーンズ手法やシュミット直交分解などによるベクトル量子化空間における重心距離算出を用いてもよい。
また、距離算出方法においては、マハラノビス距離ばかりではなくユークリッド距離やシティブロック距離、チェスボード距離、オクタゴナル距離、へクス距離、ミンコフスキー距離、類似度やそれらの距離に重み付け処理をした距離といった任意の距離算出方法や、固有値、固有ベクトルのどちらかだけを用いたり、どちらかの値を算術的に変化させることで統計的特徴を任意に変更した距離算出を行ったり、固有値自体や固有ベクトルのノルム、最大成分などを距離算出に用いてもよい。
また、ヤコビ法、ランチョス法、標準固有値問題、固有値計算の解法、ハウスホルダー法、アーノルディ法、QR複合方式、シングルQR法、ダブルQR法、ガウス・ザイデル法、ガウス・ジョルダン法といった任意の方法で固有値や固有ベクトルを導出してもよい。
また、この複数の母集団から得られる複数の距離情報自体を標本ベクトル情報と捕らえ、再度、固有値、固有ベクトル、固有ベクトルのノルムを得ることで、2次、3次のマハラノビス距離を導出することや複数の母集団の固有値や固有ベクトルを標本ベクトルとして捉えた場合のノルムや固有値、固有ベクトル、平均、分散、標準偏差といった情報を用いた距離算出も可能であり、これらの内容を再帰的、階層的に実施することでベイジアンネットワークのような構造を持たせたりする方法も容易に考えられる。
また、分類前に母集団がなく母集団付けされていない時系列情報や形状情報においては、べき乗法などを用いた最大固有値と最大固有ベクトルの導出手段を用いて、過去の時系列情報や別形状情報から得られる固有値や固有ベクトルに基づいた平均やノルム、標準偏差値などの指標により最近の時系列情報や別形状情報における入力情報自体とのマハラノビス距離を評価することができる。
また、最近の時系列情報や別形状情報から得られる固有値や固有ベクトルに基づいた平均やノルム、標準偏差値などの指標によりマハラノビス距離を評価することができる。
このように評価された距離の平均や標準偏差値に基づいて情報を分類しながら、新規に母集団を構成し母集団付けを実施する方法を用いてもよい。
また、距離算出にともなう条件分岐において、境界付近の値を乱数などにより確率的に分類してもよい。
また、これらの情報は時系列や形状情報ばかりでなく、色情報や音情報、文字情報、文字記号列、発音記号列、表意記号列、表音記号列、音素記号列、音韻記号列、意味母集団記号、名称、形状、空間位置、空間配置、音素片記号などの記号片といった事柄やそれらの評価変数、特徴量、記号値、変化量といった動的な変数情報であっても、静的な変数情報であってもよい。
また、本方法を用いて、人工知能の様に入力情報を評価判定し、結果を出力したり、音声認識に用いて音声対話を実現したり、画像認識やジェスチャ認識に用いて装置を操作したり、意味検索を実施したり、情報処理装置におけるユーザーインターフェースのエージェントの内部評価に利用してもよい。このような、人間の認識を代行する装置としての応用に用いてもよい。
また、各母集団の固有値や固有ベクトル自体の平均や分散から再帰的に固有値と固有ベクトルを求め母集団同士のマハラノビス距離を導出することができる。また、各種ベクトル分割方法により直交境界付近の母集団同士の距離を計算することができる。
このようにすることで、互いに任意の指定範囲以内にある分類された複数の母集団を分割や結合、変更してもよい。例えば、複数の母集団における、それぞれの平均同士の距離が互いの標準偏差値の例えば2σ以内にある場合、母集団を統合し一つにまとめてもよい。
また、それぞれの母集団の重心からの距離を評価するばかりではなく、特定の母集団の重心からの距離を評価し、その距離が3σ以上であれば、以前に帰属していた母集団に基づいて別の母集団を構成するといった方法を用いてもよい。
また、再分類の回数に応じて変化する帰属する母集団の履歴に基づいて、過去の履歴で帰属した頻度の高い母集団へ帰属させる方法であってもよい。この際、過去の母集団がほぼ同じ程度の場合は、乱数によって帰属する母集団を決定してもよい。
また、強化学習回数に応じて、分散範囲の指定を変更したり、一致するべき標本の重心を基準にしたり、一致評価の結果として実際に一致した標本だけの重心を基準にして、再分類の評価を実施してもよい。
また、母集団数を変更せず、帰属する母集団だけを変更してもよい。
また、母集団における標本の尤度分布や出現確率分布、距離分布に基づく局所解を仮中心とみなし、その仮中心から各々の標本の距離を求め、得られた距離の平均と分散、標準偏差値により統計的に有意な範囲かどうかを弁別し母集団を分割や結合、変更してもよい。
また、平均ベクトルと標本ベクトルの差を取るときに、各要素の差から得られた解に正が多いか負が多いかを調べ、距離軸を正負に拡張し距離情報が重心と平均に対しての相関性が正相関か逆相関かを捕らえ、どのように偏っているかを確認し、母集団の分類を変えてもよい。
また、前述されるような正規分布ばかりではなくカイ二乗分布や一様分布,正規分布,対数正規分布,ベータ分布,コーシー分布,F分布,U分布,t分布,p変量正規分布,ガンマ分布,ロジスティック分布,ポアッソン分布,ウィシャート分布,Hotelling(ホテリング)のT2分布,べき正規分布,経験分布,累積分布関数,離散分布,結合分布,二変量正規分,多変量正規分布,多変数指数分布,超幾何分布,多次元正規分布,対数級数分布,指数分布,半正規分布,同時分布,度数分布,条件分布,周辺分布,確率分布,安定分布,幾何分布,二項分布,負の二項分布,ワイブル分布などやそれらの多変数、多項数、多次元といった変形例を含む他の分布やそれらを用いた検定を、本実施形態における距離算出や帰属評価に用いてもよい。
また、線形代数手法による、グラム・シュミット分解,コレスキー分解,特異値分解,固有値解析,行列式,ノルム,条件数の推定,線形方程式の解といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。
また、多変量解析による、相関係数行列,重回帰分析,主成分分析,因子分析,正準相関分析,多次元尺度法,判別分析,分類樹木,対数線形モデル,クラスター分析,デンドログラム,最短距離木といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。
また、回帰分析による、最小二乗法回帰,非線形回帰,ステップワイズ回帰,ロバスト回帰,スプライン近似,超平滑化,核型平滑化,一般化線形モデル,一般化加法モデル,尤離度によるモデルの比較,交替条件付き期待値による回帰(ACE(Alternating Conditional Expectation)),加法型分散安定化変換による回帰(AVAS(Additivity and VAriance Stabilization for regression)),射影追跡回帰,残差二乗中央値回帰,回帰樹木(CART(Classification And Regression Trees))といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。
また、分散分析による、一元・二元配置分散分析,チューキー法,ラテン方格法,要因計画,一元・二元ロバスト分散分析といった任意の方法やそれらを多次多元化させた方法を、本実施形態における距離算出や帰属評価に用いてもよい。
また、時系列解析や信号処理による、自己相関,自己回帰(従来手法および頑健法),ARIMA(Auto Regressive Integrated Moving Average)モデル,AIC(Akaike's information criterion)による次数選択,ベクトルAR(AutoRegressive model)モデル,任意の変量スペクトル分析,高速フーリエ変換,ウェーブレット変換,アダマール変換,べき変換、ボックス・コックスべき変換、多パラメータべき変換、べき正規変換、プロクラステス変換、z変換、対数変換、欠損値変換、逆正規変換、正規変換、角変換、ラプラス変換、ロジット変換、検定や任意の評価関数を用いたハイパス・ローパス・バンドパス・バンドノッチなどの各種フィルタリング,古典的およびロバストな多数のスムージング手法、ルベーク積分、経路積分、振動積分、楕円積分、高階微分、対数微分、偏微分、楕円微分、各種関数微分、確率微分、リー微分、マルコフ微分、伊藤微分、ブラックショールーズ式、任意の初等関数、任意の多項式関数、任意の有理関数、指数関数、対数関数、三角関数、双曲線関数、任意の床関数や天井関数、ガンマ関数、ゼータ関数、楕円関数、ベッセル関数、ランベルトのW関数、任意の誤差関数、ベータ関数、グリーン関数、σ関数、オイラーのφ関数、分割関数、メビウス関数、L関数、アッカーマン関数、ディラックのデルタ関数、任意のヘヴィサイドの階段関数、ディリクレの関数、任意の一方向性関数といった任意の方法や関数を、本実施形態における距離算出や帰属評価やそれらの補正に用いてもよい。
また、生存時間解析による、Coxの比例ハザード回帰,ポアッソン回帰,Anderson-Gillによる修正Coxモデル,Kaplan−Meier法,Fleming−Harrington法による生存時間解析といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよい。
また、検定手法である、グッドマン・クラスカルの係数を用いた検定、クラスカル・ワリス(Kruskal-Wallis)検定、片側検定、χ2検定、両側限定、正規分布の母平均の検定(母分散既知)、正規分布の母平均の検定(母分散未知)、t−検定、正規分布の母分散の検定、独立性の検定、分散に関する検定、平均値に関する検定、連の検定(runs test)、分散共分散行列に関する検定、多群判別の有効性の検定、Wilksのlambda統計量検定、多群判別での変数の寄与の検定、偏Λ統計量検定、Adichie−Koul検定、アンサリ・ブラッドレー(Ansari-Bradley)検定、コーエンのカッパ(Cohen's Kappa)重み付きカッパ(Weighted Kappa)ダ−ビン検定、ダービン・ワトソンの検定、固有値の検定(Bartlett)、Kolmogorov−Smirnov検定、コルモゴロフ・スミルノフの1標本検定、Lepage型検定、リリフォー検定、ログランク検定、Ansari−Bradley検定、Fisher(フィッシャー)の精密検定、Friedman(フリードマン)検定、F−検定、ホッジス・レーマン推定(Hodges-Lehmann Estimation)、Hotelling(ホテリング)のT2検定、Jonckheere検定、k×c分割表の(独立性の)カイ2乗検定、Klotzの正規スコア検定、Kolmogorov−Smirnov検定、Kruskal−Wallis検定、k個の母比率の均一性の検定、Mood検定、Moses検定、Page検定、ラン検定(Runs Test)、Linear by Linear連関検定(Linear by Linear Association Test)、層別データのCMH検定(CMH Test for Stratified Data)、ログランク検定(Logrank Test)、タロン・ウェアの傾向検定(Tarone-Ware Test for Trend)、フィッシャー・フリーマン・ホルトン検定(Fisher-Freeman-Halton Test)、ピアソンの積率相関係数(Pearson's Product-Moment Correlation Coefficient)、ピアソンのカイ二乗検定(Pearson's Chi-Square Test)、尤度比検定(Likelihood Ratio Test)、サベジのスコア検定(Savage Scores Test)、シャピロ・ウィルク検定(Shapiro-Wilk Test)、Siegal−Tukey検定、Tukey(チューキー)の加法性の検定、Wald検定、Watson検定、Wilcoxon型検定、Wilcoxon−Mann−Whitney検定、バートレット(Bartlett)の検定、Yatesの補正、Mann−Whitney(マン・フィットニー)検定といった各種標本検定,分割表の関連性の検定,独立性の検定,適合度検定といった任意の方法を、本実施形態における距離算出や帰属評価に用いてもよく、本発明は統計的確率的に距離評価関数を構成し、その関数への帰属度合いを検定する「出現確率検定つきベイズ関数」と捕らえても良い。
また、前述した方法を任意に組み合わせて、本実施形態における距離算出や帰属評価に用いてもよい。
また、標準偏差値を用いた正規化前の距離の短いほうを分類時に優先させる任意の係数演算処理を実施してもよい。
また、演算の途中で求められる複数の母集団に対する正規化距離に従って、帰属する母集団を評価し、認識や識別を行ってもよい。
また、複数の評価結果をネットワーク状に接続し、接続の重みに正規分布を用いることで、任意のネットワーク構造による評価関数を構成してもよい。
また、EMアルゴリズムやKミーンズに応用し、帰属する標本が例えば3σに帰属しているかを評価することで妥当であるかの評価を実施し、最適なクラスタリングを実施するといった任意の方法の組合せにより、任意のクラスタリング処理の性能改善に利用してもよい。
また、カプラン・マイヤー法、バリマックス法(varimax method)、クオーティマックス法、ユニオン・インターセクション法、クァーティミン法、バイクオーティマックス法、プロマックス法(promax method)、オブリマックス法、オブリミン法、オーソマックス法(orthomax method)、ウォード法、エクォマックス法、カプラン・マイヤー法、カイザー・ディックマン法、ガウス・ドゥリットル法、コバリミン法、斜交回転法、斉時一般バリマックス法、セントロイド法(重心法)、スチューデント化残差を用いる方法、ビートンの方法、最短距離法、最長距離法、群平均法、メジアン法、ウォード法、可変法、などによる因子軸の回転や分析、因子分析方法や多変量解析方法、クラスター分析法をもちいて、固有ベクトルや固有値空間を最適化したり、距離評価に利用したり、評価関数に用いて距離評価したりしても良い。
また、Ansari−Bradleyのスコア、Klotzの正規スコア、Savageのスコア、Siegel−Tukeyのスコア、符号付正規スコア、van der Waerdenの正規スコア、Moodのスコアなどのスコアリング方法を用いて特徴量をスコアリングしたり、関数出力結果をスコアリングしたりして、評価関数を構成したり評価関数の出力を評価したり評価結果を再度スコアリングしたりしても良い。
このように、既知の関数や統計方法、スコアリング方法、分類方法、検定方法、最適化方法、統計的手法と組合わせることで、それぞれの方法の特性を利用した各種応用や性能改善、機能改善などが容易に考えられる。
次に、各種サービスを実施する情報処理システムについて説明する。
たとえば、ロボットなどの動作機械における情報の関連付けに基づく動作学習においてある動作を構成するための変数と姿勢の名称との分類に本発明を用いてもよいし、その際姿勢の名称のみを通信回線を経由してロボットなどの装置に対して送信し、ロボットの遠隔ダンスサービス等の動作を分析的に処理し再利用する遠隔ロボット制御サービスを実施する情報処理システムや任意の駆動系機能を含む装置の運転および/もしくは制御方法の特徴学習による運転制御システムやサービスが考えられ、これらを用いた工作ロボットや整理ロボット、搬送ロボット、介護ロボット、愛玩ロボット、手伝いロボット、対話ロボット、家事ロボット、農業ロボットなどを作成しても良い。
たとえば、本発明をロボットの思考や行動、判断に応用する場合、ロボットの行動によって得られるエネルギーを「過剰、適度、平衡、減衰、喪失」といった具合に消費されるエネルギーや摂取されるエネルギーや利用者の好評価に基づいて分類し、それらの分類にともなう周囲の画像や音声、温度、湿度、空気成分や匂い、液体・素材成分や味、重さや加速度、衝撃、圧力などのセンサ入力値や分析値といった特徴量と特徴量の遷移状態に基づく二次特徴量、二次特徴量の遷移状態に基づく三次特徴量といった特徴量の多次元的な組合わせによる高次特徴量を収集し本発明を用いて分類してもよい。この場合、前述の五つの分類はその分類の間をアナログに遷移してもよいし、より細かく分類して評価関数を構成してもよいし、1つもしくは任意数の変数による正負の値で表現してもよい。
また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、これらの変数が1つの変数であれば0付近、複数の変数であれば平衡状態を示す値である場合に、過去の分類においてエネルギーが取得された手順情報やエネルギーや利用者の好評価を獲得するコストを低減させる手順に分類された手順情報が入力された特徴量、つまり、エネルギーの獲得に成功した手順情報との距離が近い場合において、ロボットの持つ興味変数が増減し、エネルギーの獲得が過剰やそれに伴う装置の破損であったり、喪失やそれに伴う運動能力の低下する場合であれば、恐怖変数が増減したり、エネルギーの獲得に伴い減衰するエネルギーが多い場合に倦怠変数が増減するといった方法が考えられる。この際、手順情報は自装置の行なった行為の時系列的変化を記録することで構成しても良い。
また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、減衰するエネルギーより得られるエネルギーや利用者の好評価が少ない場合であっても、それらを複数組み合わせることにより、より大きなエネルギーが得られる場合や、将来、他の装置や生物から提供されるエネルギーや利用者の好評価が大きいと過去の分類に基づいて予測される場合や同種類の装置の破損を回避できると予測される手順情報があれば、その手順に基づいて装置の行動を制御してもよい。たとえば、静電容量センサパッドなどのようなポインティングデバイスに用いる装置を利用して利用者が叩いたことや擦ったことを評価し、叩かれたときは悪評価、撫でられたときは好評価であるとか、ロボットの発話に利用者が反応したときは好評価、無反応な時は悪評価といった方法が考えられそれらの情報を本発明の方法を用いて分類してもよい。
また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、本発明に基づいた分類を利用し任意の定義された期間を超える長期間においてエネルギーの緩慢な消費が確認され特に利用者から指示されない場合いにおいて、自動的にパソコンなどでいわれるスタンバイやスリープモードに移行しエネルギーの低減を回避したり、事前に依頼されていて未処理の行為を実施したりしてもよい。
また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、過去に分類された母集団にサンプルが帰属しない場合や新しい母集団重心が出現した場合や分類された母集団に帰属し且つ他者が利益を得た情報がある場合、若しくは自分が容易に利益やエネルギーの獲得を得られた場合に興味変数が増減したり、過去に分類された母集団の重心に極端に近い場合に倦怠変数が増減したり、過去の判断に基づき分類された母集団において判断結果により極端なエネルギーの減衰や損失、利用者からの信用の喪失や悪評価、装置の破損が起きた場合に恐怖変数や嫌悪変数が増減するといった方法やそれらの分類情報を利用した処理手段に用いても良い。
また、ロボットの思考や行動、判断における色々な評価関数の構成方法において、これらの興味や恐怖、倦怠といった名称は好奇心や恐れ、飽きといった心理状態を表す変数として異なる名称を持っていてもよく、利用者によって良しと評価された行為や悪しと評価された行為を分類することで任意の処理や行為を行なって良いか否かを分類し学習したり、抑制したりしても良く、自己と他者の区別を能動的な行為にともなう自己のエネルギー状態や位置状態や姿勢状態の変化に従って影響する範囲を確率的に評価することで決定してもよく、能動的であるかどうかの評価を自己のエネルギー状態の変化に基づいて自発的な信号に同期しているかどうかを確率的に評価することで行なっても良いし、嫌悪変数や恐怖変数が増減したり、エネルギーや好評価の獲得が予測道理にできなかった場合にストレスや抑圧といった状態を示す変数を増減させても良い。
また、人間の主観評価分析や、精神分析に用いて利用者が連想する名詞と動作や行為、利用者の年齢、生年月日といった客観的情報と、利用者の性格や感情気質情報と期待する結果や状態の呼称情報の関連付けに基づく、精神分析サービスや占いサービス、業務の名称と人物の名称と業務の難易度と業務の達成度とを関連付けた人事評価サービス、内容分析サービス、趣味の要素を示す名詞とそれに係わるアンケートなどによる統計的変数情報に基づいて各項目であるラベルとその変数である特徴量に基づいた情報を分類し傾向を抽出することで商品やサービスの人気や利用者の趣味に合わせた個人向け趣向対応サービスを実施する情報処理システムが考えられる。
また、自然情報の生物や地形、地質名称と位置や大きさ、色、重さ、形状、組成、材質、成分、状態といった指標に基づく分類や認識に用いてもよいし、情報の関連付けに基づく分析に基づいた環境調査サービスを実施する情報処理システムが考えられる。例えば、ネットワークモデルとして捉えた場合のノードとして指標を捕らえて、ある指標からある指標や人との距離をその間に含まれる指標や情報の位置的および/もしくは時間的な共起関係や共起確率、指標の前後関係や数を意味状態として用いて、自然状況の分析や構築、提案を実施する情報処理システムが考えられる。これらはHMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。
また、建造物周辺での人の行動を統計的分類しての防犯装置への利用や道路上の撮影装置や警報装置を用いて頻度の高い違反者の追跡に利用するなどの情報の関連付けに基づく安全管理サービスを実施する情報処理システムが考えられる。例えば、ネットワークモデルとして捉えた場合のノードとして建造物や商品と人とを捕らえて、ある建造物や商品からある人との距離をその間に含まれる物や人の数や情報の位置的および/もしくは時間的な共起関係や共起確率、単語の前後関係を意味状態として用いて、所有や利用状況の分析や構築、提案を実施する情報処理システムが考えられる。これらはHMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。また、画像特徴と出現頻度や停滞時間と犯罪の発生率を特徴量として人が犯罪と認定した状態をラベルとすることで指標として用いて分類して評価してもよく、監視設備などに応用できる。こういった技術を応用することで動物の挙動を評価し農作物や廃棄物の監視をする「電子案山子」なども考えられる。
また、化学分析やDNA(Deoxyribonucleic Acid)解析などの確率的推測に基づいた分析に用いてもよいし、情報の関連付けに基づく薬品調合サービスやDNA鑑定などの医療や化学サービスを実施する情報処理システムが考えられる。この際、実験値などとなる科学的特徴量とその名称を分類の指標としてラベルに用いたり、DNAの取得された身体や病症の部位などの特徴及び/若しくは年齢、性別、性格、趣味、スポーツや音楽、映画、政治活動の嗜好のような各種趣味分野名称といった分類機軸を分類のためのラベルとして、その人の生活や体質傾向と薬や治療の効果を分析、設計、提案するために用いたりしてもよい。
また、不良品の検出や耐震性分析、設計に伴う強度分析といった工学的特徴を統計的に分析しラベル付けするための工学的分析を実施する情報処理システムが考えられる。
また、通信機器におけるフィルタリングにおいて、適応型フィルターを構成する場合に用いてもよいし、ファイヤーウォールサービスを実施したり、スパムメールフィルターを実施したり、ネットワーク接続経路を特定し構成したり、無線通信における電波強度や接続の再試行回数といった通信品質にともなうアドホックネットワーク再構築方法に用いるなどして、通信の安全な経路や信頼できる通信を分析、構築、提案する本発明による情報の関連付けに基づく通信基地局を構成したりする通信サービスや情報伝達サービスを実施する情報処理システムが考えられ、送信者の名前であったり、IPアドレスであったり、ドメインであったり、特定のドメインやIP空間であったり、それら特定のネットワーク経路を経由している場合を示す特徴量を評価した結果に基づいて、通信を抑制することで、違法なアクセスやスパムをフィルタリングすることも考えられる。
また、医療に伴う病名や身体部位、症状、化学物質などの名詞をラベルとして利用し、医療機器などにおける患部の形状分析や症状分析、化学分析による係数や変数、分析値やそれらを加工した値を標本ベクトルの特徴量に用いて患部の状態推定などに用いてもよいし、対話パターン変数化し標本ベクトルに用いて情報を収録し、カウンセリングを実施する情報の関連付けに基づく通信医療サービスを実施する情報処理システムが考えられる。
また、内科医療的な応用としてネットワークモデルとして用いた場合のノードやリンクとして人のDNAや身体特徴、血圧や体温脈拍、体液成分値といった医療特徴と疾病の関係を捕らえて、ある特徴からある特徴と病気の距離をその間に含まれる医療的特徴や病気の数をネットワークホップ数に基づいたとした特徴として評価の重み付けに用いることで、より広い医療概念といった医療分野における情報の共起関係や共起確率を医療特徴の意味状態ネットワークとして捉えて、病理形態の分析や改善提案を実施する情報処理システムが考えられる。これらはHMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。
また、外科医療的な応用としてネットワークモデルとして用いた場合のノードやリンクとして人の身体部位や身体特徴と人の移動可能な地形や道路形状といった身体障害特徴と物理空間モデルの関係を捕らえて、ある特徴からある特徴と物理空間モデルの距離をその間に含まれる医療的特徴やある物理空間モデルを特徴として評価の重み付けに用いることで、それらの情報の範囲内での共起関係や共起確率を外科的な身体機能として捉えて、身体機能障害の分析や改善提案を実施する情報処理システムが考えられる。これらはHMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。
また、これら前述の応用方法に関する一般的な解釈として専門知識に関する名称をラベルとし、それらのラベルの相関性を距離表現することで抽象概念や具体概念の層構造分析し、それらの係数や変数を標本ベクトルに用いて本実施形態による分類を実施する。
この方法は、各種の専門用語や人物、場所といった知識の名称によるラベルをノードとして捕らえてネットワーク構造を構成し、情報間に含まれるノード数となるホップ数を距離として捕らえ、その距離を特徴量としたり、通信プロトコルにおける経路探索技術を用いて意味空間の情報間距離を求めたり、距離を評価したりする。この際、各ノードに他のノードへの接続における減衰量としてのウエイト指定を行なうことも可能であり、ホップ数の離散的な値に対して連続量的な解釈を与えて距離評価するといった方法も考えられる。
このようなネットワーク構造を考慮した階層的記憶による情報の関連付けを実現することで本発明による分類に基づく連想型エキスパートシステムによる情報提供サービスや教育サービス、情報配信サービス、人員や素材、薬品、器具、流通経路といった要素の組み合わせによって効果を予測するシミュレーションサービス、天気予報や株価や相場の予想、地震予想、経済予想、物価予想、競技予想、競馬予想といった情報予測サービス、新聞記事や雑誌や書籍記事などの情報要約サービスを実施する情報処理システムが考えられる。
また、複数の言語の異なる地域にまたがった情報を、特定の言語を話す人向けに、形状に伴って発話される単語や、形状に付随して発話される単語を標本ベクトルに用いて本実施形態により分類し、意味空間分類を実施するとことで、情報の関連付けに基づく、言語の異なる地域で同様のサービスを実現できる旅行ガイドや翻訳サービスを実施する携帯電話やPDA、通信基地局などを用いた情報処理システムが考えられる。
また、対話型ユーザーインターフェースにおいて、あいまいな意味のある単語の発言確率に基づいた特徴量を標本ベクトルに用いて発音者の癖を本実施形態により学習することで、あいまいな対話を実現する情報の関連付けに基づく対話サービスを実施する情報処理システムが考えられる。
また、ゲームなどでコンピュータが制御するキャラクタに会話モデルを分類登録した情報を用いることで、人間的雰囲気を距離評価演算中に考える仕草をすることなどで演出した会話をさせたり、動物や植物、人の行動を分析した特徴量を用いて動物的であったり植物的、人間的な挙動や行動を演出したりといったサービスを実施することも可能である。また、このようなサービスを実施する情報処理システムが考えられる。
また、信用情報や評価値標本ベクトルに用いて組織内や組織間の評価距離を求めることで分類し評価者間の信頼距離を求め、配当や成績評価、能力評価の階層を決め、金銭の支払い体系や与信枠の設定、割引体系、利益還元方法、投票方法、調査方法、商品の金額や配当など価値の評価や決定を実施する情報処理システムが考えられる。
また、地図と地域に基づいた情報収集を行ない、たとえば、位置と名称を示す音声特徴や画像特徴、温度特徴、天候特徴、人口密度といった情報を標本ベクトルに用いて適当な名称をラベルとして割当てて分類することで、位置に基づいた情報支援を実施する情報処理システムが考えられる。ネットワークモデルとして用いた場合のノードやリンクとして街や村などの人口密集地を捕らえて、ある場所からある場所の距離をその間に含まれる場所の数をネットワークホップ数とした特徴として重み付けに用いることで、都市数や人口、生産高、交通量、経済規模、それらの管理番号、時間的及び/若しくは物理的位置関係による情報のより広い市や郡、国といった地域名称範囲内での共起関係や共起確率、場所の位置関係を意味状態として用いて、移動形態の分析や構築、提案を実施するカーナビなどを利用した情報処理システムが考えられる。
また、従来からある状況把握のための情報を特徴量として用い、IDタグなどを利用して商品の流通状況を分析したり、車両の通行状況を分析したり、人の流通状況を分析したりすることで、流通状態管理のための指標情報を構築し、物流情報提供や混雑緩和のための迂回情報提供、渋滞情報提供といった情報提供サービスを実施することも可能である。
また、人と人との共存時間や共著情報、戸籍情報、共同制作者情報などの人が交流している状態を客観的に示す情報やその情報の件数および/もしくは出現頻度を標本ベクトルや、ネットワークモデルとして用いた場合のノードやリンクとして捕らえて、ある人からある人の距離をその間に含まれる人の数をネットワークホップ数とした特徴として重み付けに用いることで、人数や参加団体数、それらの管理番号、時間的物理的位置関係や人同士の情報の交換回数や閲覧回数を交流状態として用いて、人間関係の交流分析や提案を実施する情報処理システムが考えられる。
また、ある言語に基づいた情報と、異なる言語に基づいた情報とに関する単語や任意の情報を関連付けることで、異なる言語間で利用できるサービスを実施するための分類や評価基準を構成する情報処理システムが考えられ、文字認識や手入力、音声認識による文章に対して閲覧者から指定された誤記や脱字、誤解釈などにより精度の高い文書の自動訂正を行なうサービスも考えられる。
また、位置に基づいた映像情報もしくは音声情報と、その映像もしくは音声に関する単語や任意の情報とを関連付けることで、位置に基づいてサービスを実施するための分類や評価基準を構成する情報処理システムが考えられる。ネットワークモデルとして用いた場合のノードやリンクとして単語を捕らえて、ある単語からある単語の距離をその間に含まれる単語の数をネットワークホップ数とした特徴として重み付けに用いることで、情報の共起関係や共起確率、文字数や単語数、管理番号、時間的位置関係による単語の前後関係を意味状態として用いて、意味関係の分析や構築、提案を実施する情報処理システムが考えられる。
また、固有値や固有ベクトルを用いて、画像情報や運動情報、座標情報群による二次元若しくは三次元物体の形状情報などを評価し、その評価距離に基づく類似性によって意匠侵害や著作権侵害に関する知的財産の侵害状況を評価することも可能である。この場合、帰属する母集団とサンプルである評価対象情報の情報間距離やサンプルの発表時期からの時系列的変化に伴う類似する形状の発表条項を踏まえて情報間距離を評価することにより陳腐化状況や類似性を定量化してもよい。
また、任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、音楽と音楽に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、衣装や装身具、装飾品と衣装や装身具、装飾品に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、触感と触感に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、味と味に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、匂いと匂いに基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、天候と天候に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、映像と映像に基づいて想起される単語の関係を分析し関連情報を統計的に分類して任意の情報や商品、サービスを選択する情報処理システムが考えられる。
また、このような感覚器や言葉から得られる情報同士を味と衣装に関する言葉や匂いと装身具に関する言葉という具合に異なる系列の情報を相互に関連付けて任意の情報や商品、サービスを提供する情報処理システムが考えられる。そして、これらをネットワークモデルとして用いた場合のノードやリンクとして単語を捕らえて、ある単語からある単語の距離をその間に含まれる単語の数をネットワークホップ数とした特徴として重み付けに用いることで、情報の共起関係や共起確率、文字数や単語数、管理番号、時間的位置関係による単語の前後関係を意味状態として用いて、意味関係の分析や構築、提案を実施する情報処理システムが考えられる。これらはHMMなどのようなネットワークモデルによくあるようにノードとリンクの関係の捉え方を任意に変更してもよい。
また、それぞれの事柄と関連付けて想起される感性に関する言葉にもとづいて任意の情報や商品、サービスを提供する情報処理システムが考えられる。
また、想起される単語を言葉でない記号や分類コード、例えば、文字コードのような形容詞や副詞などを分類する感覚を分類する感覚コードや感性を分類する感性コード、感情を分類する感情コード、主観を分離する主観コード、視覚的形状を分類する形状コード番号などを構成して、そのコードと他の任意の情報を関連付けたり、複数の任意の情報同士、例えば、特徴量や認識された記号をそのようなコードを用いて関連付けたりすることで共起行列や文字数や単語数、管理番号、時間的位置的関係による共起距離の定義方法を構築する。そして、それらを用いて構築した概念辞書や概念索引を記憶媒体に記録する情報処理システムが考えられる。
このように、情報選択、情報配信、情報提供、情報抽出、情報加工、情報分析、情報予測、情報伝達、情報分類、情報分離、情報翻訳、情報変換、情報要約、情報検索、情報探索、情報比較、情報評価、情報調査といった方法を応用し、任意の情報と任意の情報の関連付けをすることで、任意の情報や任意の商品、任意のサービスを提供もしくは支援する情報処理システムが構成できる。
より具体的には、任意の特徴量を用いて前述の情報処理システム例に必要な情報の標本情報群を生成する。この標本は、音声や音楽であったり、絵画や写真、動画であったり、味覚や嗅覚を刺激する化学成分であったり、体感する温度や触覚であったり、計量可能な長さや重さや速度や位置といった情報であったり、文章であれば単語の出現頻度や共起確率であったり、文章特徴である出現文字頻度であったり、目的とする任意の情報を組合せて表現したり、それらを組合せたり加工したりすることで構成された特徴量であったり、それらの特徴量の構成比率であったりしてもよい。
この際、これらの情報や特徴量などは最初の段階で人手によって、任意のID(Identification Data)やラベル、コードを分類された母集団に対し指定してもよいし、本実施形態を用いて全ての標本情報群の平均と分散から事前に分類していてもよい。
このようにして任意の変数や係数で分類された標本情報は、母集団の数が安定するまで本実施形態の分類を再帰的に繰返し母集団が安定するまで実施した結果得られるラベルやID、コード、分類番号、整理番号、管理番号を、人の主観や任意の情報処理方法により再度特定のラベルやID、コード、分類番号、整理番号、管理番号にする。ラベルやID、コード、分類番号、整理番号、管理番号をデータベースの検索キーとして用いたり、ファイルシステムでのファイルの属性に用いたりしてもよい。
この結果、標本情報は、得られたラベルやID、コード、分類番号、整理番号、管理番号と人間が使う名称との関係を共起行列やユニグラム、バイグラム、Nグラム、複合型Nグラムや2次元や3次元に限らない任意次元や任意段数のCDPマッチング、DPマッチング、ビタビ探索、N−best法、トレリス法などの応用に基づくパス探索やマッチング結果といった任意の特徴量とともに2分木やハッシュバッファといった索引処理方法により関連付けられたのちに本発明により分類され記録された概念辞書や概念索引を効率的に構築する。そして、本発明により分類生成された情報を索引や評価パラメータに用いた記録媒体により構成されたデータベースを用いて、人が入力した情報が適切なラベルやID、コード、分類番号、整理番号、管理番号と関連付けられ、そのラベルやID、コード、分類番号、整理番号、管理番号に関連する情報が検索され、目的の情報、サービス、商品、手段、手順、経路、日程などが利用者に提示、提案されたり、利用者に各種目的に応じた情報提供サービスとして実施されたり、記録媒体に目的に応じて分類され記録されたりする。
このように、本実施形態により分類された基準によって利用者の入力した情報と他の任意の情報を関連付けたりその関連性を評価したりすることで前述の色々な情報提供サービスのための情報処理システムの実現を図る。そして、これらの応用により意味や趣向、背景、状況に配慮したサービスが実現可能であることが考えられる。
また、本実施例の中に記載される共起行列や共起確率、確率遷移行列といった情報の共存状態や変化を数値化して表現する情報に対して、一定の閾値未満の項目は評価対象から削除したり、全ての確率の分散から求められる標準偏差に基づいて平均から一定距離以上の位置にある情報を評価対象から削除したり、ガウス消去のような方法で評価次元数を縮退させてもよいし、同様の条件で評価項目を追加してもよい。
くわえて、これらの共起行列や共起確率、確率遷移行列といった情報の共存状態を数値化する情報において、性能が改善されたり効果があったり意味が感じられたりする人間の主観において肯定的に評価される情報群と、逆に劣化したり効果が低下したり否定的に評価される情報群と、変化が主観的に感じられない情報群と、共起させることで著しく結果の悪化するため禁忌される情報群とに分類することで、実施における利用効率の改善も図ることができる。この分類は四つであるが、実際の使用にあわせてより多数の分類を実施してもよい。
また、情報分類装置100は、記録媒体にデータを記録する外部記憶装置を備えてもよい。記憶媒体は、この手順を情報処理装置上で実施するためのプログラムやスクリプト、ソースコードといった実施手段が情報として記録されたフラッシュメモリやCD−ROM(Compact Disk Read Only Memory)、ハードディスク、フロッピー(登録商標)ディスクなどの記録媒体である。
また、情報分類装置100は、イーサネット(登録商標)や携帯電話向けモデム、無線LAN(Local Area Network)を例とする有線/無線を問わず通信手段やバス接続手段となる送受信装置や、撮像装置や集音装置、傾斜センサ、音響センサ、光センサ、方向センサ、GPS、温度センサ、湿度センサ、地磁気センサ、キーボード、マウス、タブレット、スキャナといった任意の入力装置やセンサ、そして2次元や3次元のディスプレイといった表示装置、スピーカなどの発音装置、任意の薬品や化学物質による素材を合成するための装置や製造機器、印字や印刷するための機器、ロボットの手足や車輪などによる任意の出力装置を具備してもよく、それらの装置と任意の信号を入出力するための光学的端子および/もしくは電気的、電磁的端子類を具備していてもよい。また、これらは、内蔵であるか外付けであるかを問わない。
また、情報分類装置100を含むパソコンやカーナビ、基幹サーバや通信基地局といった情報端末や情報処理装置、携帯電話や腕時計、装身具形状端末、リモコン、PDA、ICカード、インテリジェントRFID、身体埋め込み端末といった携帯端末であってもよく、本発明はアルゴリズム実施応用であるため、演算回路を有すれば任意の装置上で実施可能である。
また、ロボット、電車、船舶、航空機、自動車、自転車、特殊車両、工作機械、人工衛星、販売設備、通信設備、搬送設備、加工設備、空調設備、水道設備、電力設備、ガス設備、衛生設備、農業設備、海洋設備、建設設備、監視設備、課金設備、住宅設備、娯楽設備、安全設備、交通設備、動力設備、教育設備、生産設備、マイクロマシンなどの駆動系を伴う機械装置を制御する制御装置が情報分類装置100を含むようにしてもよい。
そして、情報分類装置100を携帯可能な大きさまで縮小し、情報端末として利用することが可能であってもよい。
また、情報分類装置100は、複数の異なる利用者の通信を相互に接続交換し、場合によっては通信に伴って課金を実施することで社会の利便性を図る機能を備えた情報処理装置であってもよい。
また、本実施形態においては、情報分類装置100について説明した。しかし、これに限定されず、図2で説明した処理をコンピュータに実行させる情報分類方法、または、図2で説明した処理をコンピュータに実行させる情報分類プログラムとして発明を捉えることができる。
図6は、本実施形態の変形例に従う情報分類システムの概略を示す図である。
図6を参照して、情報分類システムは、情報処理装置100A,100B、および、情報端末200A〜200Cを含む。情報処理装置100A,100B、および、情報端末200A〜200Cは、それぞれ、インターネットや電話回線網などのネットワーク500を介して接続される。
情報処理装置100A,100Bは、それぞれ、前述した情報分類装置100と同様の機能を備える。そして、情報処理装置100A,100Bのいずれかは、情報端末200A〜200Cのいずれかからの要求に応じて、分類対象の標本情報を複数の母集団に分類し、要求した情報端末に分類された結果を送信する。
たとえば、情報処理装置100A,100Bのいずれかが、情報処理端末200A〜200Cのいずれかから、複数の母集団を受信し、それらの母集団に帰属する標本情報を分類し直し、要求した情報端末に分類された母集団を送信する。これにより、標本情報を自律的かつ安定的に分類した母集団を与えることができる。
また、前述したような情報処理装置100A,100Bおよび情報端末200A〜200Cを含み、ASP(Application Service Provider)型のサービスを提供する情報提供システムとして適用したり、データベース装置としたり、データベース装置に組込まれた本発明による分類情報をサービス提供のために記憶した記録媒体としたり、通信回線を用いた本発明に基づいた分類を用いた情報配信装置としたりすることができる。
また、情報処理装置100A,100Bのいずれかが、情報処理端末200A〜200Cのいずれかから、分類対象の標本情報を受信し、情報処理装置の記憶部に記憶された母集団のうちいずれの母集団に帰属するかを判定し、要求した情報端末に判定された母集団を識別する情報を送信するようにしてもよい。これにより、分類対象の標本情報が帰属する母集団を識別する情報を自律的かつ安定的に与えることができる。また、要求した情報端末に課金を実施するようにしてもよい。
また、本実施形態に基づいて構成された情報を記録媒体に記録し、そのまま配布したり、書籍に添付して配布したり、通信環境を用いて配布したりしてもよい。この際、CD−ROMやDVD−ROM(Digital Versatile Disk Read Only Memory)といった記録媒体や、2次元バーコードのような印刷媒体、フラッシュメモリのような電子媒体、電話回線やADSL(Asymmetric Digital Subscriber Line)、光ファイバといった伝送媒体を経由して遠隔に記憶された記録媒体などであってもよい。
また、本実施形態の情報処理装置100,100A,100Bのいずれかが、前述した構成に加えて、さらに、分類された母集団を記憶するデータベースを備え、ユーザや端末装置200A〜200Cのいずれかから受取った分類対象の標本情報が、いずれの母集団に帰属するかを検索して検索結果をユーザや端末装置200A〜200Cのいずれかに受渡すデータベース検索システムとして本発明を捉えることができる。また、このようなデータベースを構築するデータベース構築装置として本発明を捉えることができる。
また、前述のデータベースの内容に関し、本発明を用いて距離評価方法である距離評価関数による距離算出により得られた帰属母集団や他の母集団の重心からの距離に基づいて、それぞれの母集団に対するそれぞれの標本の帰属度を評価することにより、再分類を実施し、利用者に提示するための基準となるテーブルやレコード、インデックスからなる分類情報や分類基準、表現情報およびそれらに対して発行されるクエリやキーワードといったサービスを実現するために利用者へ提供するための任意の情報を更新および/もしくは変更や最適化を行なうことで利便性の高いサービスを実施してもよい。
また、検索においては従来から一般的に用いられる、任意のID・ラベル同士が一致する場合や任意のID・ラベル同士と関連付けられた任意の特徴量同士に対して任意の距離評価方法による評価距離が本発明による分類方法を指標として近いと評価される対象を同様の分野・分類に属すると判断することで、検索結果として選択し利用者に提示することが可能である。
また、遺伝的アルゴリズムの有効無効フラグやフラグ項目に本発明による評価分類方法や分類結果を用いることで、任意の特徴や情報同士が確率的に間係する状態に適応可能な分類評価機能を実現し、状況に応じて有効機能の組合せを切替えて臨機応変な対応を可能とする分類方法を実現してもよい。
このように、前述のデータベース構築装置を用いて本発明により分類されたIDや変数やテーブルやレコード、インデックスの項目や内容として記憶することを特徴とするデータベースを用いて、顧客の嗜好や自然情報の傾向、経済の傾向、動物行動の傾向、人の心理傾向といった従来では傾向分析の困難だった情報を分類し検索することで任意のサービスを実施する装置が実現できる。
また、本実施形態における情報分類装置100を次のように見ることができる。
情報分類装置100は、ある母集団Aに帰属するk個の標本akと母集団Aとの距離算出部を構成し、その距離算出部に基づいて距離Dkを求め、求められた各標本akの母集団Aとの距離を標本akと母集団Aの距離平均値μaと標準偏差値σaといった統計情報算出部を用いて得た値にしたがって、統計的な正規分布の出現確率により母集団への帰属度合を評価する。
この帰属度合評価部は、例えば99.7%以上の確率で標本akと距離平均値μaとの差が平均を中心とした正規分布出現確率からみて範囲外と予測される値である3σa(標準偏差値の3倍)より大きい場合、別の母集団Bや母集団Cといったより近い母集団や新規母集団に帰属させ、そうでない場合は母集団Aに従来通り帰属させることにより、母集団Aに帰属する標本群が正規分布を構成できるように再帰的な分類を実施する。
図7で説明したような正規分布であれば対称的な分布になり、母集団からの距離は重心の距離を求めると、距離平均値が概ね0.68σ付近になり3σの範囲に母集団の99%以上の標本が含まれる。しかし、人が作った母集団では境界があいまいになり、図8で説明したような非対称な分布になることが頻繁に生じる。
このため、図8で説明したような非正規分布の場合、平均位置は標本の状況により不定となり、必ずしも距離平均値から3σ以内に母集団の重心から99%以上の標本が含まれる保証は無い。
このことから、本実施形態では前述した内容や図3にある様に母集団の重心からの距離が距離平均値から見て3σの外にある標本に関し、その標本を3σに含む母集団があればその母集団に帰属させ、どの母集団の3σにも帰属しない場合は、新たに母集団Cを形成するようにする。この際、母集団Cの要素数が必要な評価次元数より小さいといった統計上の問題を生じる場合は、必ずしも新規母集団を評価に用いなくてもよい。
このように、人の指定に基づいて演繹的に求められる情報境界の妥当性を重心からの距離の正規分布における出現確率に基づいた統計的手法により帰納的に確認する。そして、演繹的にも帰納的にも妥当でないと判断された場合、仮説的に母集団を構成し、その母集団が妥当な重心を有していれば、そのあと継続される演繹と帰納により残り、妥当でなければ淘汰され、最終的に適切な重心の母集団のみが残る。
その結果、各々の要素と各々の母集団との距離情報を正規化したベクトル間距離正規化距離に基づいて、母集団の分割や結合、変更が実施されるため統計学的な正規分布を期待した場合の根拠があり、できるだけ正規分布に近似した情報分類を実施する情報分類装置を構成できる。
また、母集団の重心が極端に近い場合、たとえば、互いに1σの範囲にある距離に母集団が存在する場合、その母集団を統合することで、不用意な母集団の増加を防いでもよいし、統計の都合上、充分な標本が集まらない場合や全体のサンプルや特定母集団から5σ程度の近隣にある複数の母集団を統合したサンプル群からもとめられる平均と標準偏差から見て、評価対象のサンプルや母集団が4σ以上はなれている場合などの統計的に考慮すべき条件において、その母集団を削除してもよい。
このため、人間の感覚に基づいた抽象概念やあいまいな表現、感性情報といった従来では定量化による分類が困難であった情報の分類を実現でき、人にやさしいサービスやそのようなサービスを実現する装置や情報処理システムや通信基地局や携帯端末を実現することができるため、インターネットなどのポータルサイトや検索サイト、販売サイト、SNS(Social Networking Site)、知識を共有するエキスパートシステムサイト、オークションサイト、情報を分類するためのスクリーニングシステム、ネットワーク上の信用情報や認証情報を取り扱う認証サイト、アグリゲートサービス、情報処理装置のグラフィカル・インターフェースやタンジブル・インターフェース、エージェント・インターフェース、ロボット、仮想現実、拡張現実などにおいてRSS(RDF Site Summary)等を実施するときの情報評価の指標に本発明を用いたり、XML(eXtensible Markup Language)やSOA(Service Oriented Architecture)、SML(Simple(or Stupid or Software)Markup Language)、MCF(Meta Contents Framework)、DTD(Document Type Definition)、GML(Geography Markup Language)、SMIL(Synchronized Multimedia Integration Language)、SGML(Standard Generalized Mark-up Language)、RDF(Resource Description Framework)等のメタ表現形式の分類指標に本発明を用いたり、SOAP(Simple Object Access Protocol)やUDDI(Universal Description,Discovery,and Integration)、WDL(Web Services Description Language)、SVG(Scalable Vector Graphics)、HTML(HyperText Markup Language)等の各種プロトコルやスクリプト、情報処理言語を任意に組み合わせてサービスを実施できる。
[変形例]
次に、本実施の形態の変形例について説明する。例えば、図2のステップS12の距離評価において、評価用サンプルである
Figure 0004550882
の構成要素が{x1、x2、x3、x4、x5、x6、x7、x8}であり、評価関数の入力ベクトルである
Figure 0004550882
の構成要素が{y1、y2、y3、y4、y5、y6}である場合、それぞれのベクトル要素に事前に名称若しくは構成要素のIDなどの識別子を与えておく。
この構成要素に対する識別子としての名称若しくは構成要素のIDは音声認識の観点から例えれば、それ自身が音素のように1つの意味を持つラベルであってもいいし、音素と音素片のようにより抽象的なラベルの上位概念と下位概念とを組み合わせて、音素の遷移状態を表す識別子として任意の効率的な表現を行なっていてもよい。この上位概念および下位概念は、映像要素や商品、学問、文化、映画、音楽、といった任意の分野の情報空間において用いられている概念を利用することでそれぞれの分野に適した応用を可能とする構成であってもよい。
そして、距離評価を行なう際に、サンプルと評価関数に与えられた識別子としてのラベルの名称若しくは構成要素のIDが以下のように等しい場合と、等しくない場合、入れ替わっている場合があるとする。
Figure 0004550882
Figure 0004550882
この場合、サンプルベクトルの順序を評価関数の入力ベクトルのラベルにあわせて変数の順序をそろえデータのラベル関係が同じになるようにするとともに、サンプルベクトルが余る変数に関しては削除し、サンプルベクトルに不足するラベルに関して、適当な変数を割当てて追加する。この際、割当てる値は0であったり、評価関数の構築時に用いたサンプル群による要素の平均値であったりしてもよい。このとき、データのラベル共起や共起時の効果が逆相関になるもの、正相関になるもの、相関がないもの、相関を持たせてはいけないものを評価結果に基づいて分離し、そのラベル同士がどういう関係にあるかを考慮して組み合わせてもよいし、本発明を用いてラベル同士の相関性を評価して構成してもよい。
そして、
Figure 0004550882
の要素再構成後のベクトルを
Figure 0004550882
とし{z1、z2、z3、z4、z5、z6}とする。
このような変換を行なう場合、過剰であるx3、x8は項目から削除し、z5には評価関数側でiとラベル付けされた評価関数構築時のサンプルにおける対称要素であるiラベルの平均値若しくは0を代入することで、評価関数と被評価ベクトルとの構成要素が異なっていても評価を可能とする。
また、この際、評価関数側のベクトルの評価順序を最大固有ベクトルの大きい順にラベルと要素値をソートしそれにあわせてサンプルベクトルもソートし同様の基準を導入して距離や類似性を評価してもよい。また、入力ベクトルに0が多い場合や極端に小さい値、平均に近い値が多い場合には、評価関数構築サンプルの平均と分散に基づく共分散行列に対し、極端に小さな値や平均に近い値をもつラベルもしくはID個所の要素値を0と見なしてガウス消去を用いて次元を縮小し、評価関数自体も縮小再構成したり、入力ベクトルの項目が0や平均値である場合にその項目に相当する距離計算のための処理を省いたりすることで演算効率を改善による単位時間あたりの演算速度の向上を図ってもよい。
また、ベクトル同士の場合も同様であるが、以下のように被評価ベクトル側にも修正を加える方法を用い、入力ベクトルを
Figure 0004550882
から
Figure 0004550882
に、被評価ベクトルを
Figure 0004550882
から
Figure 0004550882
へと構成要素を再構成してもよい。この際、下記の例ではベクトル要素に0を代入しているが、この要素の値はその要素を含む側のベクトルが帰属する母集団におけるそれぞれの要素値のサンプル平均であってもよい。また、このような識別子としてのラベルやIDの一致による構成要素の変更はベクトル解析ばかりではなく、マトリクス解析やテンソル解析といった多次元評価情報に用いてもよい。また、要素を変更したベクトル構成に基づいて、固有や値固有ベクトルを求めたり、共分散行列や確率遷移行列、定常遷移行列、状態遷移行列といった各種遷移行列、共起行列、共起行列の遷移確率行列といった任意の行列を作ったり、任意の評価関数を再構築してもよい。
Figure 0004550882
Figure 0004550882
このように、評価項目をそろえ、互いに要素をもたないため空白となった項目に任意のダミーデータを利用したり、評価側と被評価側と適宜追加したり削除したりすることで、共通の要素ラベルを用いた整合性をとることを可能とし、距離評価不可能だった異なる評価要素の情報同士における距離や相関性を評価することができるようになる。この場合、本発明における評価距離を要素として用い、評価関数の要素ラベルやサンプルの要素ラベルと関連付けることで関数により評価された距離でサンプルを再評価したり、関数を再評価したりすることで階層化するといった方法も容易に考えられる。また、本実施例のように評価関数の入力ベクトルを再構成するのではなく、評価関数に用いる共分散行列の順序や項目を再構成することで、同様の効果を得ることも可能である。また、距離評価に関しては、サンプルAの帰属する評価関数XとサンプルBの帰属する評価関数Yとがある場合、Aの評価関数Yによる距離評価とBの評価関数Xによる距離評価を行なった場合、A標本とY関数では近くB標本とX関数では遠い場合において、情報処理手段や標本の帰属先を代えて再学習を行なうといった方法も考えられる。
なお、これらのベクトルの再構成は、従来のソートアルゴリズムやキューやバッファリングにおけるインデックスの追加・削除・変更・入替といったラベル処理に用いる各種アルゴリズムとDPやHMM、正規表現などを用いたラベルマッチング処理の組み合わせによりプログラムを構築することで実施可能である。具体的には、関数に入力する変数の各々の識別子としてラベルを指定する。入力するサンプルの変数それぞれにラベルをつける。ラベルが一致するかどうか評価し、一致しない場合、ラベルが関数にあってサンプルにない場合はサンプル側にダミーデータを挿入する。このダミーデータはその項目の平均値や0といった値や標準偏差の任意倍の値を用いてもよい。そして、ラベルがサンプルにあって、関数にない場合はサンプル側の変数そのものを削除してもよい。そして、このように構成された評価関数により距離評価し、その平均と分散、標準偏差に基づいて帰属度合を出力する。といった、手順で実行される。
また、これらの評価関数の評価次元数を動的に制御して、標本に対して少ない評価次元数で評価関数を用いて処理し高速な分類処理をいったん行なった後に、分類された標本を再度より多い評価次元数で評価関数を用いて詳細分類することにより、事前に結果を大まかに予測しておき、予測結果と詳細分類後とがどの程度一致するかを再度評価することで、臨機応変な分類への対応を行なってもよい。また、これらの再評価結果を特徴量として本発明の特徴ベクトルに用いてもよい。
また、これらの演算に基づいて得られた任意数の固有値および/もしくは任意数の固有ベクトルを特徴量として用いたり、それらの固有値や固有ベクトルを任意回数の階層化された評価関数に用いたりしてもよい。また、各評価関数の評価次元数を特徴量としてもよい。この場合、例えば距離を正規化した後、平均を最大次元数の半分の値とみなして、出現確率に応じて、全体の次元数が100である場合、出現確率が98%であれば98次元、出現確率が50%であれば50次元、出現確率が5%であれば5次元としてみたり、また逆に、98%であれば2次元、75%であれば25次元などの確率密度関数に基づいた帰属確率と相関性を持たせることで、距離や出現確率を評価関数の変数に用いたりしてもよい。
また、距離評価に用いる評価関数において真を評価する関数と偽を評価する関数を構成し、真が近く偽が遠い場合は真、偽が近く真が遠い場合は偽、ともに近い場合は判断できないが関連性が高い、ともに遠い場合は判断できないが関連性が低いといった評価を行なっても良い。
このような、ベクトルやマトリクス、テンソルなどの多次多元情報空間における情報を評価するとき、本発明に用いているような評価関数による距離評価は超球同士の近似を評価するための多次元多項式を用いた評価方法であると考えられる。次に、フェルマーの定理であるnが2より大きい自然数ならば、xn+yn=znとなる整数x,y,zの組は存在しないことや、ルッフーニ、アーベル、ガロアによる五次以上の方程式において代数的解法がないことが知られており、それらの解は行列式などにより得る必要がある。また、行列式は波動関数へ可換であることもよく知られている。
このことから、多次元多項式としてマハラノビス距離評価を捕らえると、
Figure 0004550882
と捕らえることが可能であり、固有ベクトルに基づく共分散行列Vが固有値の平方根で除算されるとともに多項式構造に基づいて距離Dが求めていることや、標本の各要素平均との差に固有ベクトルに基づく共分散行列Vを乗じていることを踏まえると、多次元距離計算に用いられる式やベイズ識別式においてにn>4の場合や補正項となる固有値に基づく定数、事前確率などにより演算価結果が有限桁で表現できないことが予測され、再帰的もしくは階層的な評価を行なう場合を考慮すると各要素変数のいずれかが有限桁でなくなると予測される。また、サンプリング定理にあるように、獲得した標本精度の半分までしか情報が再現できないことや情報を定量化するためには空間の範囲と解像度が確定する必要があるため目的に基づいた限度を設けない限り、完全な情報の獲得はできないと予測できる。以上のことから、多次元空間において有限桁での連続的な情報表現や伝達が困難になると可能性が高い。仮に、こういった多次元多項式の解や要素変数の値が有限桁で表現できない場合、安定した量子化基準を多次元空間で得ることができないため常に演算結果に誤差が生じ演算回数や時間経過に伴う累積によりカオス化する可能性がある。
このような点から予想するに、自然界のような時系列的に変化する多次元情報空間において、最低限、時間軸(変化量)の範囲と空間軸の範囲といった4つの軸を特定しなければ客観的な定量化はできないこと、定量化にもとづく再計算を時系列的に行なわなければならないことを踏まえると、前述のような多次元多項式を用いて算術的予測を定量的に行なうには、本発明のような方法を用いて確率的に予測解を得るか、低次元に空間縮減した式による側面的な評価方法により予測解を得ることしかできないと考えられる。
今回開示された実施の形態は、任意の出願された特許や文献、技術と関連付けて利用可能であり、それらの特性に従って改善可能であることが容易に考えられる。
また、今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本実施形態に従う情報分類装置の構成の概略を示す図である。 本実施形態に従う情報分類装置で実行される情報分類処理の流れを示すフローチャートである。 本実施形態に従う教師有り学習による情報分類処理における母集団の例を示す図である。 本実施形態に従う教師有り学習による情報分類実験の実験結果を示すグラフである。 情報分類実験の対照実験の実験結果を示すグラフである。 本実施形態の変形例に従う情報分類システムの概略を示す図である。 正規分布の例を示す図である。 非正規分布の例を示す図である。 より多い標本による教師無し学習における本実施形態に従う情報分類実験の実験結果を示すグラフである。
符号の説明
100 情報分類装置、100A,100B 情報処理装置、110 処理部、120 記憶部、130 入力部、140 出力部、200A〜200C 情報端末、500 ネットワーク。

Claims (20)

  1. 処理部および前記処理部が処理を実行するときのワークエリアとして用いられる記憶部を備える情報分類装置であって、
    前記処理部は、
    距離評価関数を用いて、前記記憶部に記憶された任意数の標本情報と前記標本情報を含む前記記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を算出する距離算出手段と、
    前記各母集団に帰属する前記標本情報それぞれに関連付けられた前記距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに前記距離情報群それぞれの平均を中心とした前記距離情報それぞれの偏差に基づいて前記距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出する統計情報算出手段と、
    前記距離算出手段によって前記各母集団の母平均と分類対象標本情報との距離を算出し、算出された前記距離に対して前記統計情報算出手段によって算出された前記統計情報を用いて前記距離をそれぞれの前記平均と前記標準偏差で正規化することによる統計的検定に基づいた前記分類対象標本情報の帰属度合を評価する帰属度合評価手段と、
    前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定する帰属先決定手段と、
    前記帰属先決定手段によって決定された母集団に前記分類対象標本情報を帰属させ分類する標本情報分類手段とを含む、情報分類装置。
  2. 前記距離算出手段は、前記標本情報分類手段によって前記分類対象標本情報に基づく標本情報群が更新された更新母集団を構成し、構成された更新母集団ごとに分類された標本情報群に応じて前記距離算出手段によって用いられる距離評価関数を再構築する距離評価関数再構築手段をさらに備え、
    前記距離算出手段は、前記距離評価関数再構築手段により再構築された距離評価関数を用いて前記更新母集団のそれぞれに帰属する分類対象標本情報と更新母集団の母平均との距離情報群をさらに算出する、請求項1に記載の情報分類装置。
  3. 前記帰属先決定手段は、いずれの母集団への帰属度合も所定の度合の範囲外であるときに、新たに母集団を生成する母集団生成手段を含み、生成した母集団に前記分類対象標本情報を帰属させることを決定する、請求項1に記載の情報分類装置。
  4. 前記帰属度合は、その母集団に対する距離情報群の平均値からの偏差値であり、
    前記所定の度合は、前記偏差値が前記平均値から所定倍の標準偏差値の範囲である、請求項に記載の情報分類装置。
  5. 少なくとも所定数の標本情報が帰属されない母集団を削除し、削除した母集団に帰属する標本情報を他の母集団に帰属させる母集団削除手段をさらに備える、請求項に記載の情報分類装置。
  6. 前記帰属先決定手段は、前記帰属度合評価手段によって評価された帰属度合が最も良い母集団に前記分類対象標本情報に帰属させることを決定する、請求項1に記載の情報分類装置。
  7. 前記距離算出手段は、共分散構造分析に基づいて、前記距離情報を算出する、請求項1に記載の情報分類装置。
  8. 前記距離算出手段は、固有値および固有ベクトルに基づいて、前記距離情報を算出する、請求項1に記載の情報分類装置。
  9. 前記距離算出手段は、前記距離情報としてマハラノビス距離を算出する、請求項1に記載の情報分類装置。
  10. 前記距離算出手段は、前記距離情報としてベイズ識別関数による距離を算出する、請求項1に記載の情報分類装置。
  11. 前記帰属度合評価手段は、算出した前記分類対象標本情報の偏差を正規化する正規化手段を含む、請求項1に記載の情報分類装置。
  12. 請求項に記載の情報分類装置と、
    前記距離評価関数再構築手段により再構築された前記距離評価関数を用いて自然情報から抽出された特徴量に対応した識別情報の認識処理を行なう認識処理手段とを備える、情報認識装置。
  13. 処理部および前記処理部が処理を実行するときのワークエリアとして用いられる記憶部を備えるコンピュータによって実行される情報分類方法であって、
    前記処理部が、
    距離評価関数を用いて、前記記憶部に記憶された任意数の標本情報と前記標本情報を含む前記記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を算出するステップと、
    前記各母集団に帰属する前記標本情報それぞれに関連付けられた前記距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに前記距離情報群それぞれの平均を中心とした前記距離情報それぞれの偏差に基づいて前記距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出するステップと、
    前記各母集団の母平均と分類対象標本情報との距離を算出し、算出された前記距離に対して算出された前記統計情報を用いて前記距離をそれぞれの前記平均と前記標準偏差で正規化することによる統計的検定に基づいた前記分類対象標本情報の帰属度合を評価するステップと、
    評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定するステップと、
    決定された母集団に前記分類対象標本情報を帰属させ分類するステップとを含む、情報分類方法。
  14. 処理部および前記処理部が処理を実行するときのワークエリアとして用いられる記憶部を備えるコンピュータで実行される情報分類プログラムであって、
    前記処理部が、
    距離評価関数を用いて、前記記憶部に記憶された任意数の標本情報と前記標本情報を含む前記記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を算出するステップと、
    前記各母集団に帰属する前記標本情報それぞれに関連付けられた前記距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに前記距離情報群それぞれの平均を中心とした前記距離情報それぞれの偏差に基づいて前記距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出するステップと、
    前記各母集団の母平均と分類対象標本情報との距離を算出し、算出された前記距離に対して算出された前記統計情報を用いて前記距離をそれぞれの前記平均と前記標準偏差で正規化することによる統計的検定に基づいた前記分類対象標本情報の帰属度合を評価するステップと、
    評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定するステップと、
    決定された母集団に前記分類対象標本情報を帰属させ分類するステップとをコンピュータに実行させる、情報分類プログラム。
  15. 処理部および前記処理部が処理を実行するときのワークエリアとして用いられる記憶部を備える情報分類装置と、前記情報分類装置と通信回線を介して接続される情報端末とを含み、
    前記情報分類装置の前記処理部は、
    前記情報端末から標本情報が含まれる任意数の母集団を受取り前記記憶部に記憶させる母集団受取手段と、
    前記母集団受取手段によって受取られ前記記憶部に記憶された母集団に含まれる任意数の前記標本情報と、前記標本情報を含む前記記憶部に記憶された任意数の前記母集団それぞれの母平均との距離情報を距離評価関数を用いて算出する距離算出手段と、
    前記各母集団に帰属する前記標本情報それぞれに関連付けられた前記距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに前記距離情報群それぞれの平均を中心とした前記距離情報それぞれの偏差に基づいて前記距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出する統計情報算出手段と、
    前記距離算出手段によって前記各母集団の母平均と分類対象標本情報との距離を算出し、算出された前記距離に対して前記統計情報算出手段によって算出された前記統計情報を用いて前記距離をそれぞれの前記平均と前記標準偏差で正規化することによる統計的検定に基づいた前記分類対象標本情報の帰属度合を評価する帰属度合評価手段と、
    前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定する帰属先決定手段と、
    前記帰属先決定手段によって決定された母集団に前記分類対象標本情報を帰属させ分類する標本情報分類手段と、
    前記標本情報分類手段によって前記分類対象標本情報が帰属され分類された分類後母集団を前記情報端末に受渡す分類後母集団受渡手段とを含み
    前記情報端末は、
    前記情報分類装置に前記任意数の母集団を受渡す母集団受渡手段と、
    前記情報分類装置から前記分類後母集団を受取る分類後母集団受取手段とを備える、情報分類システム。
  16. 処理部および前記処理部が処理を実行するときのワークエリアとして用いられる記憶部を備える情報分類装置と、前記情報分類装置と通信回線を介して接続される情報端末とを含み、
    前記情報分類装置の処理部は、
    前記情報端末から分類対象標本情報を受取り前記記憶部に記憶させる標本情報受取手段と、
    前記標本情報受取手段によって受取られ前記記憶部に記憶された分類対象標本情報を含む任意数の標本情報と前記標本情報を含む前記記憶部に記憶された任意数の母集団それぞれの母平均との距離情報を距離評価関数を用いて算出する距離算出手段と、
    前記各母集団に帰属する前記標本情報それぞれに関連付けられた前記距離情報により構成された距離情報群それぞれに基づいた平を算出するとともに前記距離情報群それぞれの平均を中心とした前記距離情報それぞれの偏差に基づいて前記距離情報群ごとの標準偏差を算出することによって、平均と標準偏差とを含む統計情報を算出する統計情報算出手段と、
    前記距離算出手段によって前記各母集団の母平均と分類対象標本情報との距離を算出し、算出された前記距離に対して前記統計情報算出手段によって算出された前記統計情報を用いて前記距離をそれぞれの前記平均と前記標準偏差で正規化することによる統計的検定に基づいた前記分類対象標本情報の帰属度合を評価する帰属度合評価手段と、
    前記帰属度合評価手段によって評価された帰属度合に応じて、前記分類対象標本情報をいずれの母集団に帰属させるかを決定する帰属先決定手段と、
    前記帰属先決定手段によって決定された母集団を識別する母集団識別情報を前記情報端末に受渡す母集団識別情報受渡手段とを含み
    前記情報端末は、
    前記情報分類装置に前記分類対象標本情報を受渡す標本情報受渡手段と、
    前記情報分類装置から前記母集団識別情報を受取る母集団識別情報受取手段とを備える、情報分類システム。
  17. 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情報、マトリクス情報またはテンソル情報であり、
    前記距離評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、
    前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記距離評価関数に入力することによって前記距離情報を算出することを特徴とする、請求項1に記載の情報分類装置。
  18. 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情
    報、マトリクス情報またはテンソル情報であり、
    前記距離評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、
    前記距離情報を算出するステップは、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記距離評価関数に入力することによって前記距離情報を算出することを特徴とする、請求項1に記載の情報分類方法。
  19. 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情報、マトリクス情報またはテンソル情報であり、
    前記距離評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、
    前記距離情報を算出するステップは、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記距離評価関数に入力することによって前記距離情報を算出することを特徴とする、請求項1に記載の情報分類プログラム。
  20. 前記分類対象標本情報は、それぞれの要素に予め識別子が与えられた任意のベクトル情報、マトリクス情報またはテンソル情報であり、
    前記距離評価関数は、それぞれの要素に予め識別子が与えられた所定の構成要素態様のベクトル情報、マトリクス情報またはテンソル情報を入力とする関数であり、
    前記距離算出手段は、前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素の識別子が前記所定の構成要素態様の要素の識別子のそれぞれに対して同一の識別子となるように前記任意のベクトル情報、マトリクス情報またはテンソル情報のそれぞれの要素を再構成して、前記距離評価関数に入力することによって前記距離情報を算出することを特徴とする、請求項1または請求項1に記載の情報分類システム。
JP2007503580A 2004-11-25 2005-11-17 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム Expired - Fee Related JP4550882B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2004340723 2004-11-25
JP2004340723 2004-11-25
JP2005147048 2005-05-19
JP2005147048 2005-05-19
PCT/JP2005/021095 WO2006087854A1 (ja) 2004-11-25 2005-11-17 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Publications (2)

Publication Number Publication Date
JPWO2006087854A1 JPWO2006087854A1 (ja) 2008-08-07
JP4550882B2 true JP4550882B2 (ja) 2010-09-22

Family

ID=36916267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007503580A Expired - Fee Related JP4550882B2 (ja) 2004-11-25 2005-11-17 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Country Status (3)

Country Link
US (1) US7693683B2 (ja)
JP (1) JP4550882B2 (ja)
WO (1) WO2006087854A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101830522B1 (ko) * 2016-08-22 2018-02-21 가톨릭대학교 산학협력단 빅 데이터를 이용한 예측 대상 지역의 범죄 발생 예측 방법

Families Citing this family (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8060112B2 (en) 2003-11-20 2011-11-15 Intellient Spatial Technologies, Inc. Mobile device and geographic information system background and summary of the related art
US7245923B2 (en) * 2003-11-20 2007-07-17 Intelligent Spatial Technologies Mobile device and geographic information system background and summary of the related art
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
EP1909904B1 (en) * 2005-07-25 2013-09-04 Karl Otto Methods and apparatus for the planning of radiation treatments
US7880154B2 (en) 2005-07-25 2011-02-01 Karl Otto Methods and apparatus for the planning and delivery of radiation treatments
US7418341B2 (en) * 2005-09-12 2008-08-26 Intelligent Spatial Technologies System and method for the selection of a unique geographic feature
US20070179970A1 (en) * 2006-01-31 2007-08-02 Carli Connally Methods and apparatus for storing and formatting data
US7603351B2 (en) * 2006-04-19 2009-10-13 Apple Inc. Semantic reconstruction
EP3336765A1 (en) * 2006-05-10 2018-06-20 Nikon Corporation Object recognition device, object recognition program, and image search service providing method
US8694302B1 (en) * 2006-05-31 2014-04-08 Worldwide Pro Ltd. Solving a hierarchical circuit network using a Barycenter compact model
US8538676B2 (en) * 2006-06-30 2013-09-17 IPointer, Inc. Mobile geographic information system and method
US7707533B2 (en) * 2006-07-21 2010-04-27 Solido Design Automation Inc. Data-mining-based knowledge extraction and visualization of analog/mixed-signal/custom digital circuit design flow
US10957217B2 (en) 2006-08-25 2021-03-23 Ronald A. Weitzman Population-sample regression in the estimation of population proportions
US11151895B2 (en) * 2006-08-25 2021-10-19 Ronald Weitzman Population-sample regression in the estimation of population proportions
JP4824518B2 (ja) * 2006-10-05 2011-11-30 株式会社日立製作所 ガスタービンの性能診断システムと診断方法及び表示画面
US8744883B2 (en) * 2006-12-19 2014-06-03 Yahoo! Inc. System and method for labeling a content item based on a posterior probability distribution
US20080154811A1 (en) * 2006-12-21 2008-06-26 Caterpillar Inc. Method and system for verifying virtual sensors
US7880621B2 (en) * 2006-12-22 2011-02-01 Toyota Motor Engineering & Manufacturing North America, Inc. Distraction estimator
JP2008203935A (ja) * 2007-02-16 2008-09-04 Nagoya Institute Of Technology 迷惑メール判別方法
USRE46953E1 (en) 2007-04-20 2018-07-17 University Of Maryland, Baltimore Single-arc dose painting for precision radiation therapy
JP5024668B2 (ja) * 2007-07-10 2012-09-12 富士ゼロックス株式会社 画像形成装置および情報処理装置
JP4967928B2 (ja) * 2007-08-27 2012-07-04 ヤマハ株式会社 音声処理装置およびプログラム
US8224468B2 (en) * 2007-11-02 2012-07-17 Caterpillar Inc. Calibration certificate for virtual sensor network (VSN)
US8036764B2 (en) * 2007-11-02 2011-10-11 Caterpillar Inc. Virtual sensor network (VSN) system and method
JP2009151540A (ja) * 2007-12-20 2009-07-09 Fuji Xerox Co Ltd 関連要素検索装置、及び関連要素検索プログラム
JP5423676B2 (ja) * 2008-07-30 2014-02-19 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US9342589B2 (en) 2008-07-30 2016-05-17 Nec Corporation Data classifier system, data classifier method and data classifier program stored on storage medium
TW201009627A (en) * 2008-08-20 2010-03-01 Inotera Memories Inc Method for diagnosing tool capability
US7917333B2 (en) 2008-08-20 2011-03-29 Caterpillar Inc. Virtual sensor network (VSN) based control system and method
US20100129780A1 (en) * 2008-09-12 2010-05-27 Nike, Inc. Athletic performance rating system
US20130079907A1 (en) * 2008-09-12 2013-03-28 Kristopher L Homsi Golf athleticism rating system
US7809195B1 (en) * 2008-09-18 2010-10-05 Ernest Greene Encoding system providing discrimination, classification, and recognition of shapes and patterns
CN102741780B (zh) * 2008-10-30 2016-01-27 福特全球技术公司 车辆以及提醒车辆的驾驶员的方法
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US20100145990A1 (en) * 2008-12-09 2010-06-10 Washington University In St. Louis Selection and performance of hosted and distributed imaging analysis services
US8745090B2 (en) 2008-12-22 2014-06-03 IPointer, Inc. System and method for exploring 3D scenes by pointing at a reference object
EP2368174A4 (en) * 2008-12-22 2014-05-07 Intelligent Spatial Technologies Inc SYSTEM AND METHOD FOR TRIGGERING ACTIONS AND COMMUNICATING POINT RETURN AT AN INTERESTING OBJECT
US8412493B2 (en) * 2008-12-22 2013-04-02 International Business Machines Corporation Multi-dimensional model generation for determining service performance
US8483519B2 (en) 2008-12-22 2013-07-09 Ipointer Inc. Mobile image search and indexing system and method
US8184858B2 (en) 2008-12-22 2012-05-22 Intelligent Spatial Technologies Inc. System and method for linking real-world objects and object representations by pointing
US8352855B2 (en) * 2009-01-02 2013-01-08 Apple Inc. Selection of text in an unstructured document
WO2010081133A1 (en) * 2009-01-12 2010-07-15 Namesforlife, Llc Systems and methods for automatically identifying and linking names in digital resources
CN102333574A (zh) * 2009-01-29 2012-01-25 耐克国际有限公司 一种运动能力评级系统
US20100205034A1 (en) * 2009-02-09 2010-08-12 William Kelly Zimmerman Methods and apparatus to model consumer awareness for changing products in a consumer purchase model
US8972899B2 (en) * 2009-02-10 2015-03-03 Ayasdi, Inc. Systems and methods for visualization of data analysis
US20100211894A1 (en) * 2009-02-18 2010-08-19 Google Inc. Identifying Object Using Generative Model
US8285414B2 (en) 2009-03-31 2012-10-09 International Business Machines Corporation Method and system for evaluating a machine tool operating characteristics
CN102428467A (zh) * 2009-04-08 2012-04-25 谷歌公司 用于分类的基于相似度的特征集补充
US20120130514A1 (en) * 2009-04-16 2012-05-24 Nike International Ltd. Athletic performance rating system
CN102413881A (zh) * 2009-05-01 2012-04-11 耐克国际有限公司 一种运动能力评级系统
US20100306028A1 (en) * 2009-06-02 2010-12-02 Wagner John G Methods and apparatus to model with ghost groups
CN101950377A (zh) * 2009-07-10 2011-01-19 索尼公司 新型马尔可夫序列生成器和生成马尔可夫序列的新方法
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
DE102009057583A1 (de) * 2009-09-04 2011-03-10 Siemens Aktiengesellschaft Vorrichtung und Verfahren zur Erzeugung einer zielgerichteten realitätsnahen Bewegung von Teilchen entlang kürzester Wege bezüglich beliebiger Abstandsgewichtungen für Personen- und Objektstromsimulationen
US20110071874A1 (en) * 2009-09-21 2011-03-24 Noemie Schneersohn Methods and apparatus to perform choice modeling with substitutability data
CN102883912B (zh) 2009-10-30 2015-04-22 福特全球技术公司 具有辨识系统的车辆
US8738228B2 (en) * 2009-10-30 2014-05-27 Ford Global Technologies, Llc Vehicle and method of tuning performance of same
US8258934B2 (en) * 2009-10-30 2012-09-04 Ford Global Technologies, Llc Vehicle and method of advising a driver therein
US8886365B2 (en) * 2009-10-30 2014-11-11 Ford Global Technologies, Llc Vehicle and method for advising driver of same
JP2011138194A (ja) * 2009-12-25 2011-07-14 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP5250576B2 (ja) * 2010-02-25 2013-07-31 日本電信電話株式会社 ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
US8543598B2 (en) * 2010-03-01 2013-09-24 Microsoft Corporation Semantic object characterization and search
US8903837B2 (en) * 2010-04-13 2014-12-02 Yahoo!, Inc. Incorporating geographical locations in a search process
US8548255B2 (en) * 2010-04-15 2013-10-01 Nokia Corporation Method and apparatus for visual search stability
US8490056B2 (en) * 2010-04-28 2013-07-16 International Business Machines Corporation Automatic identification of subroutines from test scripts
WO2011160235A1 (en) 2010-06-22 2011-12-29 Karl Otto System and method for estimating and manipulating estimated radiation dose
TWI537845B (zh) * 2010-10-20 2016-06-11 華亞科技股份有限公司 半導體製程管制規格之制定方法
US8676623B2 (en) * 2010-11-18 2014-03-18 Navteq B.V. Building directory aided navigation
WO2012097336A1 (en) * 2011-01-13 2012-07-19 Rutgers, The State University Of New Jersey Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion
RU2626898C2 (ru) * 2011-02-04 2017-08-02 Конинклейке Филипс Н.В. Идентификация медицинских концепций для выбора протокола визуализации
JP5952835B2 (ja) * 2011-02-04 2016-07-13 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 撮像プロトコルの更新及び/又はリコメンダ
US8484024B2 (en) 2011-02-24 2013-07-09 Nuance Communications, Inc. Phonetic features for speech recognition
US20120223227A1 (en) * 2011-03-04 2012-09-06 Chien-Huei Chen Apparatus and methods for real-time three-dimensional sem imaging and viewing of semiconductor wafers
US20120259676A1 (en) 2011-04-07 2012-10-11 Wagner John G Methods and apparatus to model consumer choice sourcing
WO2012162405A1 (en) 2011-05-24 2012-11-29 Namesforlife, Llc Semiotic indexing of digital resources
US8793004B2 (en) 2011-06-15 2014-07-29 Caterpillar Inc. Virtual sensor system and method for generating output parameters
WO2013055704A1 (en) * 2011-10-10 2013-04-18 Ayasdi, Inc. Systems and methods for mapping new patient information to historic outcomes for treatment assistance
US8805008B1 (en) * 2011-11-02 2014-08-12 The Boeing Company Tracking closely spaced objects in images
CN102521602B (zh) * 2011-11-17 2013-09-25 西安电子科技大学 基于条件随机场和最小距离法的超光谱图像分类方法
US9311383B1 (en) 2012-01-13 2016-04-12 The Nielsen Company (Us), Llc Optimal solution identification system and method
JP5971794B2 (ja) * 2012-04-20 2016-08-17 有限会社アイ・アール・ディー 特許調査支援装置、特許調査支援方法、およびプログラム
JP5912813B2 (ja) * 2012-04-26 2016-04-27 有限会社アイ・アール・ディー 特許調査結果評価装置、特許調査結果評価方法、およびプログラム
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9183600B2 (en) 2013-01-10 2015-11-10 International Business Machines Corporation Technology prediction
US20150331921A1 (en) * 2013-01-23 2015-11-19 Hitachi, Ltd. Simulation system and simulation method
US9355166B2 (en) 2013-01-31 2016-05-31 Hewlett Packard Enterprise Development Lp Clustering signifiers in a semantics graph
US9704136B2 (en) 2013-01-31 2017-07-11 Hewlett Packard Enterprise Development Lp Identifying subsets of signifiers to analyze
US8914416B2 (en) 2013-01-31 2014-12-16 Hewlett-Packard Development Company, L.P. Semantics graphs for enterprise communication networks
CA2901200A1 (en) * 2013-02-14 2014-08-21 Exxonmobil Upstream Research Company Detecting subsurface structures
US9799041B2 (en) 2013-03-15 2017-10-24 The Nielsen Company (Us), Llc Method and apparatus for interactive evolutionary optimization of concepts
WO2014152010A1 (en) 2013-03-15 2014-09-25 Affinnova, Inc. Method and apparatus for interactive evolutionary algorithms with respondent directed breeding
CN103309448A (zh) * 2013-05-31 2013-09-18 华东师范大学 一种加入符号序列匹配的基于三维加速度的手势识别方法
CN104346354B (zh) 2013-07-29 2017-12-01 阿里巴巴集团控股有限公司 一种提供推荐词的方法及装置
US9841463B2 (en) * 2014-02-27 2017-12-12 Invently Automotive Inc. Method and system for predicting energy consumption of a vehicle using a statistical model
US10599706B2 (en) * 2014-03-20 2020-03-24 Gracenote Digital Ventures, Llc Retrieving and playing out media content for a personalized playlist
WO2015172017A1 (en) * 2014-05-08 2015-11-12 Medical Care Corporation Systems and methods for assessing human cognition, including a quantitative approach to assessing executive function
US20150331930A1 (en) * 2014-05-16 2015-11-19 Here Global B.V. Method and apparatus for classification of media based on metadata
US20150363450A1 (en) * 2014-06-12 2015-12-17 National Chiao Tung University Bayesian sequential partition system in multi-dimensional data space and counting engine thereof
US20160004794A1 (en) * 2014-07-02 2016-01-07 General Electric Company System and method using generative model to supplement incomplete industrial plant information
US10062033B2 (en) * 2014-09-26 2018-08-28 Disney Enterprises, Inc. Analysis of team behaviors using role and formation information
JP6459345B2 (ja) * 2014-09-26 2019-01-30 大日本印刷株式会社 変動データ管理システム及びその特異性検出方法
US11093845B2 (en) * 2015-05-22 2021-08-17 Fair Isaac Corporation Tree pathway analysis for signature inference
US9665735B2 (en) * 2015-02-05 2017-05-30 Bank Of America Corporation Privacy fractal mirroring of transaction data
US10270609B2 (en) * 2015-02-24 2019-04-23 BrainofT Inc. Automatically learning and controlling connected devices
JP2018508090A (ja) * 2015-03-13 2018-03-22 プロジェクト レイ リミテッド ユーザインタフェースをユーザ注意力及び運転条件に適合化するシステム及び方法
US10147108B2 (en) 2015-04-02 2018-12-04 The Nielsen Company (Us), Llc Methods and apparatus to identify affinity between segment attributes and product characteristics
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
CN106295351B (zh) * 2015-06-24 2019-03-19 阿里巴巴集团控股有限公司 一种风险识别方法及装置
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
US9882807B2 (en) * 2015-11-11 2018-01-30 International Business Machines Corporation Network traffic classification
US11068744B2 (en) * 2016-01-13 2021-07-20 Mitsubishi Electric Corporation Operation state classification apparatus
US10605470B1 (en) 2016-03-08 2020-03-31 BrainofT Inc. Controlling connected devices using an optimization function
EP3450910B1 (en) * 2016-04-27 2023-11-22 FUJIFILM Corporation Index generation method, measurement method, and index generation device
US9946958B1 (en) * 2016-10-14 2018-04-17 Cloudera, Inc. Image processing system and method
US10216899B2 (en) * 2016-10-20 2019-02-26 Hewlett Packard Enterprise Development Lp Sentence construction for DNA classification
US10931758B2 (en) 2016-11-17 2021-02-23 BrainofT Inc. Utilizing context information of environment component regions for event/activity prediction
US10157613B2 (en) 2016-11-17 2018-12-18 BrainofT Inc. Controlling connected devices using a relationship graph
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10739733B1 (en) 2017-02-01 2020-08-11 BrainofT Inc. Interactive environmental controller
CN106874599B (zh) * 2017-02-17 2019-07-09 武汉大学 快速生成卵石碎石夹杂的混凝土三维随机骨料模型的方法
US10067746B1 (en) * 2017-03-02 2018-09-04 Futurewei Technologies, Inc. Approximate random number generator by empirical cumulative distribution function
ES2655544B1 (es) * 2017-03-29 2018-10-26 Ignacio GOMEZ MAQUEDA Método y sistema para la monitorización de seres vivos
US10365893B2 (en) 2017-03-30 2019-07-30 Futurewei Technologies, Inc. Sample-based multidimensional data cloning
CN107515842B (zh) * 2017-07-19 2018-06-19 中南大学 一种城市人口密度动态预测方法及系统
US10922334B2 (en) * 2017-08-11 2021-02-16 Conduent Business Services, Llc Mixture model based time-series clustering of crime data across spatial entities
US20190087474A1 (en) * 2017-09-19 2019-03-21 Dharma Platform, Inc. Automatic ingestion of data
CN108304853B (zh) * 2017-10-10 2022-11-08 腾讯科技(深圳)有限公司 游戏相关度的获取方法、装置、存储介质和电子装置
EP3471107A1 (en) * 2017-10-12 2019-04-17 Fresenius Medical Care Deutschland GmbH Medical device and computer-implemented method of predicting risk, occurrence or progression of adverse health conditions in test subjects in subpopulations arbitrarily selected from a total population
US11062216B2 (en) * 2017-11-21 2021-07-13 International Business Machines Corporation Prediction of olfactory and taste perception through semantic encoding
JP6457058B1 (ja) * 2017-12-06 2019-01-23 株式会社ゴールドアイピー 知的財産システム、知的財産支援方法および知的財産支援プログラム
RU2699573C2 (ru) 2017-12-15 2019-09-06 Общество С Ограниченной Ответственностью "Яндекс" Способы и системы для создания значений общего критерия оценки
CN108243191B (zh) * 2018-01-10 2019-08-23 武汉斗鱼网络科技有限公司 风险行为识别方法、存储介质、设备及系统
CN108304875A (zh) * 2018-01-31 2018-07-20 中国科学院武汉岩土力学研究所 一种基于统计判别分类的爆破块度预测方法
GB201802440D0 (en) * 2018-02-14 2018-03-28 Jukedeck Ltd A method of generating music data
US20190355477A1 (en) * 2018-05-18 2019-11-21 Beckman Coulter, Inc. Test panel analysis
CN110599336B (zh) * 2018-06-13 2020-12-15 北京九章云极科技有限公司 一种金融产品购买预测方法及系统
CN112154464B (zh) * 2018-06-19 2024-01-02 株式会社岛津制作所 参数搜索方法、参数搜索装置以及参数搜索用程序
US11035943B2 (en) * 2018-07-19 2021-06-15 Aptiv Technologies Limited Radar based tracking of slow moving objects
GB2576501B (en) * 2018-08-16 2021-03-10 Centrica Plc Sensing fluid flow
CN109034269A (zh) * 2018-08-22 2018-12-18 华北水利水电大学 一种基于计算机视觉技术的棉铃虫雌雄成虫判别方法
CN108845302B (zh) * 2018-08-23 2022-06-03 电子科技大学 一种k近邻变换真假目标特征提取方法
CN109325294B (zh) * 2018-09-25 2023-08-11 云南电网有限责任公司电力科学研究院 一种火电机组空气预热器性能状态的证据表征构建方法
JP7005463B2 (ja) * 2018-09-27 2022-01-21 株式会社東芝 学習装置、学習方法及びプログラム
CN109446467B (zh) * 2018-09-28 2023-10-24 安徽皖仪科技股份有限公司 数字滤波方法及装置
US10878292B2 (en) * 2018-12-07 2020-12-29 Goodrich Corporation Automatic generation of a new class in a classification system
JP6531302B1 (ja) * 2018-12-19 2019-06-19 株式会社AI Samurai 知的財産システム、知的財産支援方法および知的財産支援プログラム
CN109697466B (zh) * 2018-12-20 2022-10-25 烟台大学 一种自适应区间型空间模糊c均值的地物分类方法
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
CN110085026A (zh) * 2019-03-28 2019-08-02 中国公路工程咨询集团有限公司 一种基于聚类分析和马尔科夫模型的交通状态预测方法
CN110110133B (zh) * 2019-04-18 2020-08-11 贝壳找房(北京)科技有限公司 一种智能语音数据生成方法及装置
US11245729B2 (en) * 2019-07-09 2022-02-08 Salesforce.Com, Inc. Group optimization for network communications
CN110675959B (zh) * 2019-08-19 2023-07-07 平安科技(深圳)有限公司 数据智能分析方法、装置、计算机设备及存储介质
CN110851321B (zh) * 2019-10-10 2022-06-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
US20210173855A1 (en) * 2019-12-10 2021-06-10 Here Global B.V. Method, apparatus, and computer program product for dynamic population estimation
CN111078589B (zh) * 2019-12-27 2023-04-11 深圳鲲云信息科技有限公司 一种应用于深度学习计算的数据读取系统、方法及芯片
CN111191723B (zh) * 2019-12-30 2023-06-20 创新奇智(北京)科技有限公司 基于级联分类器的少样本商品分类系统及分类方法
CN111291326B (zh) * 2020-02-06 2022-05-17 武汉大学 一种结合类内相似度和类间差异度的聚类有效性指标建立方法
CN111427984B (zh) * 2020-03-24 2022-04-01 成都理工大学 一种区域地震概率空间分布生成方法
US11551666B1 (en) * 2020-05-28 2023-01-10 Amazon Technologies, Inc. Natural language processing
CN111693658A (zh) * 2020-06-11 2020-09-22 上海交通大学 基于多种智能感官数据融合的食品品质鉴定方法
US11222232B1 (en) 2020-06-19 2022-01-11 Nvidia Corporation Using temporal filters for automated real-time classification
CN111552260B (zh) * 2020-07-10 2020-10-27 炬星科技(深圳)有限公司 工人位置估算方法、设备及存储介质
CN111912799B (zh) * 2020-07-17 2021-07-27 中国科学院西安光学精密机械研究所 一种基于高光谱水体库的自适应波段选择方法
CN111950987B (zh) * 2020-08-18 2022-03-15 远程教育科技(山东)有限公司 一种基于互联网的远程教育培训方法及系统
JPWO2022044625A1 (ja) * 2020-08-26 2022-03-03
CN112116159B (zh) * 2020-09-21 2021-08-27 贝壳找房(北京)科技有限公司 信息交互方法、装置、计算机可读存储介质及电子设备
CN116324935A (zh) 2020-10-16 2023-06-23 日本电信电话株式会社 参数估计装置、参数估计系统、参数估计方法及程序
US20220138260A1 (en) * 2020-10-30 2022-05-05 Here Global B.V. Method, apparatus, and system for estimating continuous population density change in urban areas
US20220262455A1 (en) * 2021-02-18 2022-08-18 Recursion Pharmaceuticals, Inc. Determining the goodness of a biological vector space
CN113327220B (zh) * 2021-06-24 2023-06-02 浙江成功软件开发有限公司 一种基于复杂网络的海洋多时间序列关联性发现方法
JP2023537194A (ja) * 2021-06-25 2023-08-31 エルアンドティー テクノロジー サービシズ リミテッド データサンプルをクラスタ化する方法およびシステム
CN115700838A (zh) * 2021-07-29 2023-02-07 脸萌有限公司 用于图像识别模型的训练方法及其装置、图像识别方法
CN114443849B (zh) * 2022-02-09 2023-10-27 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH063252A (ja) * 1992-06-19 1994-01-11 Toa Medical Electronics Co Ltd 粒子分析方法及び装置
JP2001273302A (ja) * 2000-03-23 2001-10-05 Toshiba Corp 画像検索システムおよび画像検索方法
JP2003162718A (ja) * 2001-11-22 2003-06-06 Toshiba Corp 画像処理方法及びプログラム
JP2004086540A (ja) * 2002-08-27 2004-03-18 Fuji Photo Film Co Ltd オブジェクト抽出方法および装置ならびにプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161062A (ja) 1995-12-13 1997-06-20 Nissan Motor Co Ltd パターン認識方法
US6442555B1 (en) * 1999-10-26 2002-08-27 Hewlett-Packard Company Automatic categorization of documents using document signatures
JP2001167124A (ja) * 1999-12-13 2001-06-22 Sharp Corp 文書分類装置及び文書分類プログラムを記録した記録媒体
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
JP3701197B2 (ja) 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
US6728658B1 (en) * 2001-05-24 2004-04-27 Simmonds Precision Products, Inc. Method and apparatus for determining the health of a component using condition indicators
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
JP2003076976A (ja) 2001-08-31 2003-03-14 Mitsui Eng & Shipbuild Co Ltd パターンマッチング方法
US7117108B2 (en) * 2003-05-28 2006-10-03 Paul Ernest Rapp System and method for categorical analysis of time dependent dynamic processes
KR100814143B1 (ko) * 2003-10-03 2008-03-14 아사히 가세이 가부시키가이샤 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH063252A (ja) * 1992-06-19 1994-01-11 Toa Medical Electronics Co Ltd 粒子分析方法及び装置
JP2001273302A (ja) * 2000-03-23 2001-10-05 Toshiba Corp 画像検索システムおよび画像検索方法
JP2003162718A (ja) * 2001-11-22 2003-06-06 Toshiba Corp 画像処理方法及びプログラム
JP2004086540A (ja) * 2002-08-27 2004-03-18 Fuji Photo Film Co Ltd オブジェクト抽出方法および装置ならびにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101830522B1 (ko) * 2016-08-22 2018-02-21 가톨릭대학교 산학협력단 빅 데이터를 이용한 예측 대상 지역의 범죄 발생 예측 방법

Also Published As

Publication number Publication date
JPWO2006087854A1 (ja) 2008-08-07
US7693683B2 (en) 2010-04-06
WO2006087854A1 (ja) 2006-08-24
US20080114564A1 (en) 2008-05-15

Similar Documents

Publication Publication Date Title
JP4550882B2 (ja) 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
Babu et al. Sentiment analysis in social media data for depression detection using artificial intelligence: a review
Li et al. Mining opinion summarizations using convolutional neural networks in Chinese microblogging systems
Zhang et al. Deep Learning over Multi-field Categorical Data: –A Case Study on User Response Prediction
US20200104729A1 (en) Method and system for extracting information from graphs
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
US20200104409A1 (en) Method and system for extracting information from graphs
CN105574067A (zh) 项目推荐装置以及项目推荐方法
CN112085565B (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
US20220172260A1 (en) Method, apparatus, storage medium, and device for generating user profile
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
US20210319280A1 (en) Interpretable node embedding
KR102370729B1 (ko) 문장 작성 시스템
Rijcken et al. Topic modeling for interpretable text classification from EHRs
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
Ghosh et al. An attention-based hybrid architecture with explainability for depressive social media text detection in Bangla
CN115879508A (zh) 一种数据处理方法及相关装置
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
KR102190304B1 (ko) Gpu 연산 기반의 딥러닝을 이용한 선호 콘텐츠 추천 장치 및 그 방법
CN114298783A (zh) 基于矩阵分解融合用户社交信息的商品推荐方法及系统
Ahmed et al. Hyper-graph-based attention curriculum learning using a lexical algorithm for mental health
Zhang et al. Exploring unsupervised multivariate time series representation learning for chronic disease diagnosis
CN111552816A (zh) 面向大数据文本挖掘的动态认知语义匹配方法
CN111276162A (zh) 基于助听器的语音输出优化方法、服务器及存储介质
Hillebrand et al. Interpretable Topic Extraction and Word Embedding Learning Using Row-Stochastic DEDICOM

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100629

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100708

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees