JP4107658B2 - 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 - Google Patents

分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP4107658B2
JP4107658B2 JP2003278138A JP2003278138A JP4107658B2 JP 4107658 B2 JP4107658 B2 JP 4107658B2 JP 2003278138 A JP2003278138 A JP 2003278138A JP 2003278138 A JP2003278138 A JP 2003278138A JP 4107658 B2 JP4107658 B2 JP 4107658B2
Authority
JP
Japan
Prior art keywords
pattern
evaluation value
classification
accuracy
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003278138A
Other languages
English (en)
Other versions
JP2005044163A (ja
Inventor
明博 猪口
久嗣 鹿島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2003278138A priority Critical patent/JP4107658B2/ja
Priority to US10/890,419 priority patent/US7337186B2/en
Publication of JP2005044163A publication Critical patent/JP2005044163A/ja
Application granted granted Critical
Publication of JP4107658B2 publication Critical patent/JP4107658B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体に関する。特に本発明は、分類の因子となる構造を検出する分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体に関する。
近年、様々な分野でit(Information Technology)が導入されるのに伴い、自然界の物質、社会の現象、及び人間の行動等のデータが電子化されつつある。このような背景の中で、大量に蓄積されたデータの中から頻繁に出現するパターンを検出して、検出された当該パターンをビジネス及び科学に有効利用するデータマイニング技術が注目されている。従来、リレーショナルテーブルに格納された関連性(リレーション)又はPOSトランザクション等の定型的なログの中から、頻繁に出現するパターンを検出する方法が提案されている(非特許文献18参照。)。
また、定型的なログのみならず、グラフ又は木構造のデータの中から、頻出するパターンを検出する方法が提案されている(グラフ構造のデータに対するデータマイニング技術については、非特許文献4、5、7、8、9、及び12参照、木構造のデータに対するデータマイニング技術については、非特許文献2、16、及び24参照。)。
木構造又はグラフ構造のデータから頻出パターンを検出するデータマイニング技術は、化学物質の分子構造、自然言語における構文解析結果、又は自然言語における語の係り受け構造等、様々な分野に応用可能である。
その他、関連する非特許文献1、3、6、10、11、13、14、15、17、18、19、20、21、22、及び23参照。
Alberts,B.,Bray,D.,Johnson,A.,Lewis,J.,Raff,M.,Roberts,K.,& Walter,P.,中村 桂子、藤山 秋左夫、松原 謙一 監訳。Essential 細胞生物学。南光堂。 浅井 達哉、安部 賢治、川副 真治、有村 博紀、有川 節夫。半構造データマイニングのための部分構造パターンの効率的探索。電子情報通信学会技術研究報告、Vol.101,No.342,1-8,データエンジニアリング研究会。 Cook,D.J.,& Holder,L.B.(1994).Substructure Discovery Using Minimum Description Length and Background Knowledge.Journal of Artificial Intelligence Research,Vol.1,(pp.231-255).
Dehaspe,L.,Toivonen,H.,& King,R.D.(1998).Finding frequent substructures in chemical compounds. Proc.of the 4th KDD,(pp.30-36). De Raedt,L.,& Kramer,S.(2001) .The Levelwise Version Space Algorithm and its Application to Molecular Fragment Finding. Proc.of the 17th IJCAI,(pp.853-859). AIDS Antiviral Screen, http://dtp.nci.nih.gov/docs/aids/aids_data.html Inokuchi,I.,Washio,T.,& Motoda,H.(2000).An Apriori-based Algorithm for Mining Frequent Substructures from Graph Data. Proc.of the 4th PKDD,(pp.12-23).
Inokuchi,A.,Washio,T.,Nishimura,Y.,& Motoda,H.A Fast Algorithm for Mining Frequent Connected Subgraphs.IBM Research Report,RT0448(February,2002). 猪口 明博、鷲尾 隆、西村 芳男、元田 浩。グラフ構造データからの連結多頻度グラフ抽出手法。第16回人工知能学会全国大会、1 A3−03、(2002)。 猪口 明博、鷲尾 隆、西村 芳男、元田 浩。HIVデータに対するデータマイニング。第58回人工知能学会知識ベースシステム研究会、(2002)。 Kramer,S.,De Raedt,L.,& Helma,C.(2001).Molecular Feature Mining in HIV Data. Proc.of the 17th International Conference on Knowledge Discovery and Data Mining,(pp.136-143).
Kuramochi,M.,& Karypis,G.(2001)Frequent Subgraph Discovery. Proc.of the 1st ICDM. Kuramochi,M.,& Karypis,G.Discovering Frequent Geometric Subgraphs.Technical Report 02-024,2002. Matsuda,T.,Horiuchi,T.,Motoda,H.,& Washio,T.(2000).Extension of Graph-Based Induction for General Graph Structured Data. Proc.of the 4th PAKDD,(pp.420-431). 松本 高利、田辺 和俊。ニューラルネットワークによる有機塩素化合物の発ガン性物質予測。JCPE Journal,Vol.11,No.1,29-34(1999)
Matsuzawa,H.,&Fukuda,T.Mining Structured Association Patterns from Databases. Proc.of the 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining. T.Miyahara,T.Uchida,T.Shoudai,T.Kuboyama,K.Takahashi and H.Ueda: Discovery of Frequent Tree Structured Patterns in Semistructured Data.Proc.of the 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining,pp.1-10,2001. 森本 康彦。空間データベースからの頻出集合数え上げアルゴリズム。第2回データマイニングワークショップ、pp.1−10。
Morishita,S.and Sese,J.(2000),Traversing Lattice Itemset with Statistical Metric Pruning.Proc.of POS 2000. Motoda,H.,& Yoshida,K.(1997).Machine Learning Techniques to Make Computers Easier to Use. Proc.of the 15th IJCAI,Vol.2,(pp.1622-1631). Wang,X.,Wang,J.,Shasha,D.,Shapiro,B.,Dikshitulu,S.,Rigoutsos,I.,& Zhang,K.Automated Discovery of Active Motifs in Three Dimensional Molecules. Proc.of the 3rd International Conference on KDD.pp.89-95.(1997)
Wang,X.,Wang,J.,Shasha,D.,Shapiro,B.,Rigoutsos,I.,& Zhang,K.Finding Patterns in Three-Dimensional Graphs: Algorithms and Applications to Scientific Data Mining.IEEE Transactions on Knowledge and Data Engineering,Vol.14 No.4 pp.731-749.(2002) Yoshida,K.,& Motoda,H.(1995).CLIP:Concept Learning from Inference Patterns.AI,Vol.75,No.1 pp.63-92 Zaki,M.Efficiently Mining Frequent Trees in a Forest. Proc.of the 8th International Conference on KDD.
従来の手法は、所定の条件を満たすデータのグループにおいて、頻出する単一のパターンを検出していた。これにより、例えば、頻出するパターンを含むデータは、所定の条件を満たし易いという知見を得ることができた。しかしながら、対象とするデータの種類等によっては、より適切な知見が必要な場合がある。
例えば、化学の分野においては、新規な化学物質が続々と合成され、薬品等として人々の生活及び健康に役立っている。一方、これらの化学物質のもつ副作用が問題になっている。そのため、化学物質の有害性、例えば、生物に対する毒性、大気・水・土壌などの自然環境条件における分解性や蓄積性、及び生物体内における蓄積性や濃縮性等を評価する必要がある。しかしながら、化学物質の有害性を実験により評価するには、長い年月と巨額の費用が必要となる。
従って、実験によらず化学物質の有効性及び有害性を評価できれば、時間及び費用を大幅に削減することができる(非特許文献15参照。)。従来のデータマイニング技術は、化学物質の有効性の要因となるパターン及び化学物質の有害性の要因となるパターンのそれぞれを別個に検出することができる。しかしながら、有効性を持ちながら有害性の少ない化学物質等を検出する等、所定の条件の組合せを適切に検出することは困難であった。
そこで本発明は、上記の課題を解決することのできる分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
即ち、本発明の第1の形態によると、それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出する分類因子検出装置であって、第1グループに分類されたオブジェクトおよび第2グループに分類されたオブジェクトを記憶するオブジェクトデータベースと、前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から少なくとも一の構成要素の組を第1パターンとして選択して記憶装置に格納する第1選択手段と、前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択して前記記憶装置に格納する第2選択手段と、前記オブジェクトデータベースにアクセスして前記第1および第2グループを読み出し、第1および第2パターンを前記第1選択手段および前記第2選択手段から受け取り、さらに、前記第1パターンを含みかつ前記第2パターンを含まないという分類条件を満たすオブジェクトが、前記第1グループに含まれる数である第1充足数、および、そのオブジェクトが前記第2グループに含まれる数である第2充足数をCPUの動作により算出し、これらの充足数の分布が、分類結果との間の相関が所定の値以下となるように予め定められた他の分類条件を満たすオブジェクトがそれぞれの前記グループに含まれる数の分布と比較して乖離する程度を示すカイ2乗検定値をCPUの動作により算出し、分類の確度を示す評価値として生成する評価値生成手段と、前記評価値の示す確度が予め定められた基準確度以下の場合に、前記第1パターン及び前記第2パターンの少なくとも1つに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記カイ2乗検定値の最大値をCPUの動作により生成する上限値見積手段と、前記上限値の示す確度が前記基準確度より大きい場合に、前記記憶装置から前記第1および第2パターンを読み出し、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加して前記記憶装置に格納する処理又は前記第2パターンに構成要素を追加して前記記憶装置に格納する処理を行うことを前記第1選択手段および前記第2選択手段に指示する構成要素追加手段と、を備え、評価値生成手段は、更に、構成要素追加手段により追加された第1パターン及び第2パターンを記憶装置から読み出して、読み出した第1および第2パターンについて評価値を生成し、さらに、記憶装置内に基準確度を格納する基準確度格納手段と、評価値生成手段により生成された評価値の示す確度が基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の第1パターン及び第2パターンに対応付けて基準確度としてCPUの動作により基準確度格納手段に格納する基準確度更新手段と、算出した評価値の示す確度が基準確度を超える場合に、第1パターン及び第2パターンのそれぞれにおける構成要素ををCPUの動作により基準確度格納手段から読み出して分類の因子として出力する分類因子出力手段とを備える分類因子検出装置、コンピュータを当該装置として機能させる分類因子検出方法、コンピュータを当該装置として機能させるプログラム、及び当該プログラムを記録した記録媒体を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によればデータの分類条件として適切な条件の組を検出することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、分類因子検出装置10の機能ブロック図である。分類因子検出装置10は、それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出することを目的とする装置である。より詳細には、分類因子検出装置10は、オブジェクトの構成要素に基づく複数の分類条件を生成し、当該複数の分類条件の中からオブジェクトを分類できる確度の評価値(例えば、カイ2乗検定値)が所定値以上の分類条件を探索する。この際、分類因子検出装置10は、分類条件を変更し評価値を生成する過程でその後生成する評価値の上限値を見積り、当該上限値が所定値以下の場合には探索を中止することにより、探索時間を節約することができる。
分類因子検出装置10は、オブジェクトデータベース100と、第1選択手段110と、第2選択手段120と、評価値生成手段130と、上限値見積手段140と、構成要素追加手段150と、基準確度格納手段160と、基準確度更新手段170と、分類因子出力手段180とを備える。
オブジェクトデータベース100は、2つのグループに分類された複数のオブジェクトを格納する。第1選択手段110は、構成要素追加手段150からの指示に基づいて、複数のオブジェクトの何れかが有する複数の構成要素のうち、少なくとも一の構成要素の組である第1パターンをオブジェクトデータベース100から選択し、評価値生成手段130に送る。また、第1選択手段110は、オブジェクトデータベース100における選択可能な全ての構成要素を既に選択した場合に、その旨を構成要素追加手段150に送る。
第2選択手段120は、構成要素追加手段150からの指示に基づいて、当該第1パターンに少なくとも一の構成要素を加えた第2のパターンをオブジェクトデータベース100から選択し、評価値生成手段130に送る。また、第2選択手段120は、オブジェクトデータベース100における選択可能な全ての構成要素を既に選択した場合に、その旨を構成要素追加手段150に通知する。
評価値生成手段130は、第1グループに分類された複数のオブジェクトのうち第1パターンを含みかつ第2パターンを含まない分類条件を満たすオブジェクトの数である第1充足数と、第2グループに分類された複数のオブジェクトのうち当該分類条件を満たすオブジェクトの数である第2充足数とをオブジェクトデータベース100の内容に基づいて生成する。そして、評価値生成手段130は、当該第1充足数および当該第2充足数に基づいて、分類条件により複数のオブジェクトを分類できる確度の評価値、例えば、カイ2乗検定値を生成し、当該評価値を生成した場合の第1パターン及び第2パターンに対応付けて基準確度更新手段170に送る。また、評価値生成手段130は、分類条件を上限値見積手段140に送る。
上限値見積手段140は、第1パターン及び第2パターンに構成要素を追加することにより第1充足数及び第2充足数がとりうる値の範囲内における評価値の上限値を、オブジェクトデータベース100の内容に基づいて生成し、構成要素追加手段150に送る。
構成要素追加手段150は、上限値見積手段140から受け取った上限値の示す確度が基準確度格納手段160から受け取った基準確度より大きい場合に、第2パターンに構成要素を追加する第1の追加処理と、第1パターン及び第2パターンのそれぞれに同一の構成要素を追加する第2の追加処理とのそれぞれを順次行うべく、第1選択手段110及び第2選択手段120に指示を送る。
より具体的には、構成要素追加手段150は、上限値見積手段140から受け取った上限値の示す確度が基準確度より大きい場合に、順次行うべき追加処理の内容を、スタック(Stack)等のデータ構造によりメモリに格納する。そして、構成要素追加手段150は、上限値見積手段140から上限値を受け取る毎に、上限値の示す確度が基準確度より大きいか否かに関わらず、メモリに格納された追加処理を一ずつ行う。
また、構成要素追加手段150は、選択可能な全ての構成要素を既に選択した旨の通知を第1選択手段110及び第2選択手段120のそれぞれから受けた場合に、評価値の生成処理を終了して分類因子を出力する旨の終了指示を分類因子出力手段180に通知する。
基準確度格納手段160は、予め定められた基準確度を格納する。基準確度更新手段170は、評価値を当該評価値が生成された場合の第1パターン及び第2パターンに対応付けて評価値生成手段130から取得する。そして、基準確度更新手段170は、評価値の示す確度が基準確度格納手段160に格納された基準確度を超える場合に、当該評価値が生成された場合の第1パターン及び第2パターンに対応付けて当該評価値が示す確度を基準確度として基準確度格納手段160に格納する。
これにより、基準確度格納手段160は、既に生成された評価値の最大値を格納することができる。これに代えて、基準確度格納手段160は、変更前の基準確度を更に格納してもよい。この場合、基準確度格納手段160は、評価値の最大値のみならず基準確度を超える確度を有する複数の評価値のそれぞれを、当該評価値を生成した場合の第1パターン及び第2パターンに対応付けて格納することができる。
分類因子出力手段180は、終了指示を構成要素追加手段150から受け取ると、評価値の最大値等を当該評価値が生成された場合の第1パターン及び第2パターンに対応付けて取得する。そして、分類因子出力手段180は、第1パターン及び第2パターンのそれぞれにおける構成要素を分類の因子として出力する。
このように、分類因子検出装置10は、所定のパターンを含むか否かの条件のみならず、所定の条件の組合せ、例えば、第1パターンを含みかつ第2パターンを含まない分類条件を、分類の因子として検出することができる。これにより、薬品として所定の効用を有しかつ副作用を有さない化学構造等、様々な応用分野において適切な分類因子を検出することができる。
図2は、オブジェクトデータベース100の内容の一例を示す。オブジェクトデータベース100は、2つのグループに分類された複数のオブジェクトを格納する。本図の例において、オブジェクトは、複数の構成要素として複数の元素が化学的に結合した化学物質である。また、複数の化学物質は、各化学物質が薬品として所定の効用を有するか否かを実験により判定した結果に基づいて、所定の効用が認められたグループY及び所定の効用が認められないグループNに分類されている。
なお、本発明に係る所定の特性を有するか否かの分析とは、例えば本例で示すように、薬品として所定の効用を有するか否かの実験である。これに代えて、所定の特性を有するか否かの分析とは、文章の内容が所定のジャンルに属するか否かの分析であってもよいし、ウェブページが閲覧された結果閲覧者が所定の行為を行ったか否かの分析であってもよい。即ち、所定の特性を有するか否かの分析とは、分析対象のオブジェクトの種類に関わらず、予め実験、計測、又は観測に基づきある特性の有無を判定した結果であればよい。
オブジェクトデータベース100は、グループYとして、所定の分子構造であるa、aと2重結合している炭素、及びそれぞれが炭素と結合した2つの水素を含む化学物質200と、化学物質200と略同一の構造であり分子構造aに代えて分子構造bを有する化学物質210と、化学物質200と略同一の構造であり分子構造aに代えて分子構造cを有する化学物質220とを格納している。
また、オブジェクトデータベース100は、グループNとして、所定の分子構造であるd、dと結合している炭素、それぞれが炭素と結合した3つの水素を含む化学物質230と、化学物質230と略同一の構造であり分子構造dに代えて分子構造eを有する化学物質240と、所定の分子構造であるf、fと2重結合している炭素、それぞれが炭素と結合した2つの水素とを含む化学物質250とを格納している。
ここで、炭素との2重結合、炭素、及びそれぞれが炭素と結合した2つの水素の組が、薬品として所定の効用を発揮する薬理活性に大きく寄与する場合を例とする。所定の効用を有するパターンを検出する他の手法によれば、炭素及びそれぞれが当該炭素と結合した2つの水素の組が、薬品として所定の効用を有するパターンの候補として検出される場合がある。
しかしながら、検出された当該パターンの候補は、グループNに分類された化学物質230、化学物質240、及び化学物質250のそれぞれにも含まれているので、複数のオブジェクトをグループY及びグループNに分類する因子として検出されにくい。
このように、他の方法によれば、本来の分類の因子を適切に検出できない場合がある。これに対し、分類因子検出装置10は、炭素及びそれぞれが当該炭素と結合した2つの水素の組を第1パターンとして選択し、炭素及びそれぞれが当該炭素と結合した3つの水素の組を第2パターンとして選択することにより、当該第1パターン及び当該第2パターンに基づく分類条件を、グループY及びグループNに分類する因子として検出することができる。
より具体的には、評価値生成手段130は、グループYのうち当該第1パターンを含みかつ当該第2パターンを含まない分類条件を満たすオブジェクトの数である第1充足数として3を算出する。そして、評価値生成手段130は、グループNのうち当該分類条件を満たすオブジェクトの数である第2充足数として1を算出する。評価値生成手段130は、これらの充足数に基づいてカイ2乗検定等により評価値を生成する。これにより、分類因子検出装置10は、当該評価値の示す分類の確度が基準確度より大きい場合には、当該分類条件を適切な分類の因子として出力することができる。
また、オブジェクトデータベース100は、化学物質の分子構造をグラフ構造のデータとして格納している。そして、構成要素追加手段150は、当該グラフ構造のデータのうち、頂点若しくは辺又はこれらの組合せである部分グラフ等を順次追加して評価値を生成させる。これにより、分類因子検出装置10は、テーブルに格納されたデータ、ラティス構造のデータ、及び定型的なログ等の比較的分析が容易な形式のみならず、グラフ構造等の解析困難な形式のデータであっても、分類の因子を適切に特定することができる。
図3は、分類因子検出装置10の動作フローを示す。第1選択手段110は、第1パターンとして空集合を選択する(S300)。第2選択手段120は、第2パターンとして空集合を選択する(S310)。そして、評価値生成手段130は、評価値を生成する処理を行う(S320)。評価値を生成する処理において、構成要素追加手段150は、第1パターン及び/又は第2パターンに構成要素を順次追加し、評価値生成手段130は、追加処理が行われる毎に評価値を生成する。詳細については、図4から図6において説明する。
分類因子出力手段180は、S320において生成された評価値の示す確度が予め定められた基準確度を超える場合に、当該評価値を生成した第1パターン及び第2パターンを分類の因子として出力する処理を行う(S330)。これに代えて、分類因子出力手段180は、評価値生成手段130により生成された評価値の示す確度の最大値について、当該最大値に対応する評価値を生成した第1パターン及び第2パターンを、分類の因子として出力してもよい。この場合、評価値生成手段130により生成された評価値のうち最も確度が高い場合について、分類条件を出力することができる。
更に他の例として、分類因子出力手段180は、評価値生成手段130により生成され確度が基準確度を超える複数の評価値のうち、確度の高い順に予め定められた数の評価値のそれぞれに対応する分類条件を、分類の因子として出力してもよい。この場合、分類因子出力手段180は、基準確度を超える評価値が多数生成された場合であっても、当該多数の評価値の中から予め定められた数の評価値を選択して出力することができる。
図4は、図3のS320における動作フローの詳細を示す。図5は、図4に続く動作フローを示す。図6は、図5に続く動作フローを示す。評価値生成手段130は、第1パターン及び第2パターンにより定まる分類条件に基づいて、第1グループのうち分類条件を満たすオブジェクトの数である第1充足数及び第2グループのうち分類条件を満たすオブジェクトの数である第2充足数を算出する。そして、評価値生成手段130は、第1充足数及び第2充足数に基づいて、分類条件により複数のオブジェクトを分類できる確度の評価値を生成する(S400)。
評価値の具体例として、評価値生成手段130は、分類結果との相関が所定の値以下である分類条件を満たすオブジェクトの確率分布に対する、第1パターン及び第2パターンに基づく分類条件を満たすオブジェクトの確率分布の乖離度を示すカイ2乗検定値を生成する。これに代えて、評価値生成手段130は、評価関数により定まる評価値として、第1充足数及び第2充足数の一様性を示すエントロピー値に基づく値を生成してもよいし、第1充足数及び第2充足数の差分の大きさを示すジニ係数値を生成してもよい。例えば、エントロピー値は第1充足数及び第2充足数の一様性を示す値であるので、評価値生成手段130は、エントロピー値の増加に応じて減少し、エントロピー値の減少に応じて増加する値を、評価値として生成してもよい。
基準確度更新手段170は、評価値生成手段130により生成された評価値の示す確度が基準確度格納手段160に格納された基準確度を超える場合に、当該評価値が生成された場合の第1パターン及び第2パターンに対応付けて当該評価値が示す確度を基準確度として基準確度格納手段160に格納することにより、基準確度を更新する(S410)。
続いて、上限値見積手段140は、第1パターン及び第2パターンに構成要素を追加することにより第1充足数及び第2充足数がとりうる値の範囲内における評価値の上限値を生成する(S420)。
上限値の示す確度が基準確度以下の場合(S430:NO)又は第1パターン又は第2パターンとして選択可能な全ての構成要素を既に選択した場合(S440:YES)に、分類因子検出装置10は、S320に示す処理を終了する。
上限値の示す確度が基準確度より大きく(S430:YES)かつ第1パターン又は第2パターンとして選択可能な構成要素を未だ選択していない場合(S440:NO)に、分類因子検出装置10は、複数のオブジェクトの何れかが有する複数の構成要素のうち第2パターンに含まれていない構成要素である未評価要素のそれぞれについて、以下の処理を繰り返す(S500)。
まず、構成要素追加手段150は、当該未評価要素を第2パターンに追加する第1の追加処理を行うべく、第2選択手段120に指示を送る(S510)。これを受けて、第2選択手段120は、第2パターンに当該未評価要素を追加した第2追加済パターンを生成する(S520)。
評価値生成手段130は、第1パターン及び第2追加済パターンを新たな第1パターン及び第2パターンとして、評価値を生成する処理を再帰的に行う(S320)。当該再帰的な処理の具体的実現方法の一例として、S320の処理は、所定のプログラミング言語におけるプログラムの関数により実現される。この場合、分類因子検出装置10は、第1パターン及び第2追加済パターンを示す情報を、引数として値渡しにより当該関数に入力することにより、S320中の処理において新たな第1パターン及び第2パターンとして用いさせる。
これにより、評価値生成手段130は、当該新たな第1パターン及び第2パターンについて評価値を生成すると共に、当該新たな第1パターン及び第2パターンに更に未評価要素を追加した場合について評価値を生成することができる。
分類因子検出装置10は、上記処理を未評価要素のそれぞれについて繰り返す(S530)。これにより、構成要素追加手段150は、未評価要素のそれぞれを第2パターンに追加した第2追加済パターンのそれぞれを生成する第1の追加処理を行い、評価値生成手段130は、第2追加済パターンのそれぞれについて評価値を生成することができる。
続いて、構成要素追加手段150は、第1パターン及び第2パターンが同一か否かを判断する(S600)。第1パターン及び第2パターンが同一でない場合に(S600:NO)、分類因子検出装置10は、S320として示す処理を終了する。
第1パターン及び第2パターンが同一の場合に(S600:YES)、分類因子検出装置10は、未評価要素のそれぞれについて更に以下の処理を繰り返す(S610)。まず、構成要素追加手段150は、当該未評価要素を第1パターン及び第2パターンのそれぞれに追加する第2の追加処理を行うべく、第1選択手段110及び第2選択手段120に指示を送る(S620)。
好ましくは、構成要素追加手段150は、同一の分類条件について重複して評価値を生成させることを防止すべく、未評価要素を追加する順序を予め定めておく。例えば、オブジェクトが、構成要素A、構成要素B、若しくは構成要素C又はこれらの組である場合には、構成要素追加手段150は、構成要素A、構成要素B、及び構成要素Cをこの順序で追加し、順序を遡る追加処理を行わない。これにより、構成要素A及び構成要素Bをこの順で追加した場合と、構成要素B及び構成要素Aをこの順で追加した場合との双方において重複して評価値を生成することを防ぐことができる。
構成要素追加手段150からの指示を受けて、第1選択手段110は、第1パターンに当該未評価要素を追加した第1追加済パターンを生成する(S630)。更に、第2選択手段120は、第2パターンに当該未評価要素を追加した第2追加済パターンを生成する(S640)。
そして、評価値生成手段130は、第1追加済パターン及び第2追加済パターンを新たな第1パターン及び第2パターンとして、評価値を生成する処理を再帰的に行う(S320)。
分類因子検出装置10は、上記処理を未評価要素のそれぞれについて繰り返し(S650)、S320として示した処理を終了する。これにより、構成要素追加手段150は、第1パターン及び第2パターンが同一の場合に、未評価要素のそれぞれを第1パターン及び第2パターンに追加した第1追加済パターン及び第2追加済パターンのそれぞれを生成する第2の追加処理を行うことができる。
以上本図で示したように、第1選択手段110及び第2選択手段120は、第1パターン及び第2パターンとして空集合を選択する。そして、構成要素追加手段150は、第1パターン及び第2パターンに未評価要素を順次追加し、評価値生成手段130は、追加後の第1パターン及び第2パターンの組のそれぞれについて評価値を生成する。この際、上限値見積手段140は、パターンに構成要素を追加した場合の評価値の上限値を生成する。そして、上限値見積手段140は、当該上限値の示す確度が所望の基準確度以下の場合には、構成要素の追加処理を停止する。これにより、分類因子検出装置10は、評価するべき分類条件の数を減らし、探索時間を削減することができる。
図7は、図2に示したデータの分類表を示す。本図は、オブジェクトデータベース100に格納されているオブジェクトの数の詳細を示すものであり、本図の説明の前提として、第1グループに分類された複数のオブジェクトのうち第1パターンを含むオブジェクトの数をaとし、前記第2パターンを含むオブジェクトの数をcとし、第2グループに分類された複数のオブジェクトのうち第1パターンを含むオブジェクトの数をbとし、第2パターンを含むオブジェクトの数をdとする。
第1グループであるクラスYのうち、第1パターンであるPを含み第2パターンであるPを含まない分類条件を満たすオブジェクトの数である第1充足数は、(a−c)である。また、第2グループであるクラスNのうち、当該分類条件を満たすオブジェクトの数である第2充足数は、(b−d)である。
また、クラスYに含まれるオブジェクトの総数は、yであり、クラスNに含まれるオブジェクトの総数は、nである。従って、オブジェクトデータベース100に格納されるオブジェクトの総数は(y+n)である。
本図において、第1充足数を記号(1)として表す。また、第2充足数を記号(2)として表す。また、クラスYのうち分類条件を満たさないオブジェクトの数を記号(3)として表す。また、クラスNのうち分類条件を満たさないオブジェクトの数を記号(4)として表す。
また、オブジェクトデータベース100に格納されている分類条件を満たすオブジェクトの総数を記号(5)として表す。また、オブジェクトデータベース100に格納されている分類条件を満たさないオブジェクトの総数を記号(6)として表す。また、分類条件を満たす旨を記号(7)として表す。また、分類条件を満たさない旨を記号(8)として表す。また、クラスYに含まれるオブジェクトの総数を記号(9)として表す。また、クラスNに含まれるオブジェクトの総数を記号(10)として表す。
Figure 0004107658
Figure 0004107658
Figure 0004107658
Figure 0004107658
Figure 0004107658
Figure 0004107658
Figure 0004107658
Figure 0004107658
Figure 0004107658
Figure 0004107658
図8(a)は、評価値生成手段130により生成される評価値を示す。本図において横軸は第1充足数を、縦軸は第2充足数を示す。また、高さ方向の軸は、第1充足数及び第1充足数に応じて定まるカイ2乗検定値を示す。評価値生成手段130は、第1充足数が(a−c)でありかつ第2充足数が(b−d)である場合に、カイ2乗検定値である評価値800を生成する。
評価値生成手段130は、第1パターン及び/又は第2パターンに構成要素が追加された場合に、第1充足数及び第2充足数のそれぞれに対して下に凸の評価関数により定まる値を、カイ2乗検定値である評価値として生成する(本図の実線で示す曲面)。より詳細には、評価値生成手段130は、第1充足数及び第2充足数に応じて値を定める以下の関数(11)により、評価値を生成する。
Figure 0004107658
ここで、関数(11)の導出過程を説明する。分類結果との相関が無い場合のオブジェクトの確率分布は、式(12)により定まるEijである。
Figure 0004107658
カイ2乗検定値の定義式に基づき、分類結果との相関が無い場合に対する第1パターン及び第2パターンに基づく分類条件を満たすオブジェクトの確率分布の乖離度は、式(13)により定まる。
Figure 0004107658
式(12)を式(13)に代入することにより、関数(11)が導出される。なお、本例において、評価値生成手段130は、分類結果との相関が無い場合のオブジェクトの確率分布に対する第1パターン及び第2パターンに基づく分類条件を満たすオブジェクトの確率分布の乖離度を示すカイ2乗検定値を、評価値として生成する。これに代えて、評価値生成手段130は、分類結果との相関が所定値以下の場合のオブジェクトの確率分布に対する、第1パターン及び第2パターンに基づく分類条件を満たすオブジェクトの確率分布の乖離度を示すカイ2乗検定値を、評価値として生成してもよい。即ち、評価値生成手段130により生成される評価値は、式(11)により定まる値に限定されるものではなく、分類条件によりオブジェクトを分類できる確度を示す値であればよい。
例えば、評価値生成手段130により生成される評価値を定める関数は、第1充足数及び第2充足数に基づいて下に凸の関数に限定されない。例えば、評価値生成手段130は、第1充足数及び第2充足数のそれぞれに対して値を定める関数であって、第1充足数及び第2充足数がとりうる値の範囲内における端点の何れかが当該関数の最大値となる評価関数について、当該評価関数により定まる値を評価値として生成してもよい。
図8(b)は、第1パターンに構成要素を追加した場合における上限値を説明する図である。Pを拡張した場合、即ち、構成要素追加手段150が第1パターンに構成要素を追加した場合、第1パターンに含まれる構成要素の組は大きくなるので、第1パターンを含むオブジェクトの数は減少する。従って、Pを拡張した場合、第1充足数は、第2パターンの内容に関わらず0以上a以下の値となる。同様に、第2充足数は、0以上b以下の値となる。例えば、評価値生成手段130は、第1パターンに構成要素を追加した場合の評価値として評価値830を生成する。
従って、第1パターンに構成要素を追加した場合の評価値の上限値は、第1充足数が0以上a以下及び第2充足数が0以上b以下の範囲内における複数の端点のそれぞれにおける評価関数の値の最大値となる。例えば、評価値がカイ2条検定値である場合には、第1充足数及び第2充足数のそれぞれが0となった場合に対応する端点の最大値が上限値となる(式(14))。
Figure 0004107658
なお、第1充足数及び第2充足数がとりうる値の範囲内における端点とは、第1充足数及び第2充足数の何れかが増加又は減少した場合に当該範囲外となる点をいう。例えば、第1充足数及び第2充足数がとりうる値の範囲が四角形で表される場合には、当該四角形の頂点又は辺上の点が、端点となる。
図8(c)は、第2パターンに構成要素を追加した場合における上限値を説明する図である。P⊂Pは、第1パターンが第2パターンの部分集合、部分木、又は部分グラフである旨を示す。P⊂Pの条件の下Pを拡張した場合、即ち、第2パターンに構成要素を追加した場合、第2パターンに含まれる構成要素の組は大きくなるので、第1パターンを含みかつ第2パターンを含まない分類条件を満たすオブジェクトの数は増加する。従って、P⊂Pの条件の下Pを拡張した場合、第1充足数は、a−c以上a以下の値となる。同様に、第2充足数は、b−d以上b以下の値となる。例えば、評価値生成手段130は、第2パターンに構成要素を追加した場合の評価値として評価値840を生成する。
従って、第2パターンに構成要素を追加した場合の評価値の上限値は、第1充足数がa−c以上a以下及び第2充足数がb−d以上b以下の範囲内における複数の端点のそれぞれにおける評価関数の値の最大値となる。例えば、評価値がカイ2条検定値である場合には、第2グループのうち第2パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a−c,b)及び第2グループのうち第1パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a,b−d)の最大値が上限値となる(式(15))。
Figure 0004107658
構成要素追加手段150は、分類条件として選択しうる第1パターン及び第2パターンの全ての組合せについて評価値を生成させるべく、第1及び第2の追加処理を繰り返す。より詳細には、構成要素追加手段150は、第1パターン及び第2パターンが同一の場合には、第1及び第2の追加処理を行い、第1パターン及び第2パターンが同一でない場合には、第2の追加処理を行う。
ここで、構成要素追加手段150が第2の追加処理を行う場合、評価値の上限値は、式(14)に示すUにより定まる値である。一方、構成要素追加手段150が第1の追加処理を行う場合、評価値の上限値は、式(15)に示すUにより定まる値である。しかし、構成要素追加手段150が第2の追加処理を行う場合、第1パターン及び第2パターンが同一であるので、第1グループのうち第1パターンを含むオブジェクトの数であるa及び第1グループのうち第2パターンを含むオブジェクトの数であるcは等しい。同様に、第2グループのうち第1パターンを含むオブジェクトの数であるb及び第2グループのうち第2パターンを含むオブジェクトの数であるdは等しい。この場合、U=Uとなる。
従って、構成要素追加手段150が第1の追加処理及び第2の追加処理の何れを行うかに関わらず、上限値見積手段140は、第1パターン及び第2パターンのそれぞれ又は第2パターンに対して構成要素が追加される場合のカイ2乗検定値の上限値として、f(a−c,b)及びf(a,b−d)の最大値を生成する。本図の例によると、上限値見積手段140は、上限候補値810及び上限候補値820の最大値を上限値として生成する。
以上本図で説明したように、評価値生成手段130は、第1パターン及び第2パターンのそれぞれ又は第2パターンに構成要素が追加された場合に、評価値として、図8(a)において実線で示す下に凸の関数が定める値を生成する。また、構成要素追加手段150による追加処理により、第1充足数及び第2充足数のとりうる範囲は定まっている。これにより、上限値見積手段140は、第1パターン及び/又は第2パターンに構成要素を追加することによる評価値の上限値を生成することができる。
図9は、基準確度を満たす分類条件を探索する順序を示す探索木の一例である。具体的には、本図は、複数のオブジェクトのそれぞれが、構成要素A、構成要素B、若しくは構成要素C又はこれらの組である場合における評価値の生成順序を示している。
まず、第1選択手段110は、第1パターンとして空集合を選択し、第2選択手段120は、第2パターンとして空集合を選択する(S900)。そして、構成要素追加手段150は、第1パターン及び第2パターンとして選択しうる全ての組合せについて評価値を生成させるべく、第1パターン及び第2パターンに順次未評価要素を追加する。
より詳細には、評価値生成手段130は、第1パターン及び第2パターンのそれぞれが構成要素Aを含む場合に(S905)、S905において第2パターンに構成要素Bが追加された場合(S910)、S910において第2パターンに構成要素Cが追加された場合(S915)、S905において第2パターンに構成要素Cが追加された場合(S920)、S905において第1パターン及び第2パターンに構成要素Bが追加された場合(S925)、S925において第2パターンに構成要素Cが追加された場合(S930)、及びS925において第1パターン及び第2パターンに構成要素Cが追加された場合(S935)のそれぞれについて評価値を生成する。同様に、評価値生成手段130は、第1の追加処理及び第2の追加処理により、S940からS995のそれぞれにおいて評価値を生成する。
上記各ステップにおいて評価値生成手段130が評価値を生成する毎に、上限値見積手段140は、第1パターン及び/又は第2パターンに構成要素を追加した場合における評価値の上限値を生成する。そして、当該上限値の示す確度が基準確度以下の場合に、構成要素追加手段150は、構成要素の追加を停止する。例えば、本図のS905において、上限値見積手段140が生成した上限値の示す確度が基準確度以下の場合、構成要素追加手段150は、構成要素の追加を停止する。即ち、評価値生成手段130は、S910からS945までの処理を行うことなくS950に処理を移す。
本図で示すように、評価値生成手段130が、第1パターン及び第2パターンとして選択しうる全ての組合せについて評価値を生成してしまうと、その組合せの多さにより非常に大きな計算時間が必要となる。これに対し、本実施形態において、上限値見積手段140は、第1パターン及び/又は第2パターンに構成要素が追加される毎に、更に構成要素が追加された場合の評価値の上限値を生成し、上限値の示す確度が基準確度以下である場合に追加処理を停止させる探索木の枝刈処理を行う。これにより、評価値の示す確度が基準確度より大きくなる可能性がある場合についてのみ評価値を生成することができるので、各評価値の生成に要する処理を削減することにより計算時間を低減することができる。
なお、本図の例によれば、分類因子検出装置10は、未評価要素を順次追加して評価値を生成する処理を繰り返す優先探索を行う。これに代えて、分類因子検出装置10は、未評価要素のそれぞれを追加する処理を繰り返す幅優先探索を行ってもよい。即ち、本図に示した評価値の生成順序は一例であり、構成要素追加手段150は、第1パターン及び第2パターンが含み得る構成要素の全ての組合せについて評価値生成手段130に評価値を生成させるべく、第1パターン及び/又は第2パターンに未評価要素を追加すればよい。
図10(a)は、所定の分析により薬理活性が認められる化学物質の一例を示す。図10(b)は、図10(a)に関連する化学物質の一例を示す。図10(c)は、本実施形態とは異なる他の方法が薬理活性を有するパターンとして検出した構造の一例を示す。図10(b)に示すチミンに類似した構造を持つ図10(a)に示すアジドチミジンは、細胞生物学的解析により、抗HIV(Humman Immunodeficiency Virus)薬として知られている。
HIVは、免疫システムの中心的役割を果たすCD4細胞の内部に侵入し、増殖して破壊する。CD4細胞がHIVに感染すると、HIVのRNAは逆転写酵素により2本鎖DNAに変換され、宿主染色体に組み込まれる。この2本鎖DNAの働きを抑制できれば、HIVの作用を抑制することができる。
しかしながら、宿主染色体に組み込まれたDNAの能力は、宿主細胞の能力に隠されるので、この方法によるHIVの作用の抑制は困難である。そこで、健全な宿主細胞に対しては何ら作用しない逆転写酵素の働きを抑えることにより、HIVの作用を抑制する方法が知られている。例えば、図10(a)に示すアジドチミジンは、逆転写酵素の働きを抑える逆転写阻害剤として知られている。より詳細には、アジドチミジンは、逆転写酵素のある部位に結合して伸張中のDNA鎖に付加される。そして、アジドチミジンは、3’の位置の末端にOH基を有していないので、更なるDNA鎖の合成を阻害することができる(非特許文献1参照。)。
他のデータマイニング手法に係る装置は、図10(c)に示すパターンを、薬理活性を有するパターンとして検出する。例えば、非特許文献10に開示された方法に係る装置は、図10(c)に示すパターンのカイ2乗検定値が基準値より高い4979.5であるので、図10(c)に示すパターンを薬理活性を有するパターンとして検出する。
図10(c)に示すパターンは、図10(a)に示すアジドチミジンに含まれるパターンであるので、当該装置は、薬理活性を有するパターンを適切に検出できたことになる。しかしながら、図10(c)に示すパターンを含む化学物質は多数存在するので、当該装置は、薬理効果の小さい他の化学物質をも薬理活性を有するパターンとして検出してしまう場合がある。これに対し、本実施形態に係る分類因子検出装置10は、図11及び図12において説明するように、所定の条件の組を検出することができる。
図11(a)は、分類因子検出装置10により分類の因子として出力される第1パターンの一例を示す。図11(b)は、分類因子検出装置10により分類の因子として出力される第2パターンの一例を示す。当該分類の因子が出力される処理の具体例を以下に示す。本例においてオブジェクトとは化学物質であり、構成要素とは複数の元素又はこれらの元素の化学的結合である。そして、複数の化学物質は各化学物質が薬品として所定の効用を有するか否かを実験により判定した結果に基づいて2つのグループに分類されている。
より詳細には、本図の例に用いるHIVデータ(非特許文献6参照)における42687個の化学物質は、実験により、HIVに対して活性が認められたCAグループ及びHIVに対して活性の認められないCIグループに分類されている。
第1選択手段110は、複数の化学物質の何れかが有する元素又は元素間の結合のうち、少なくとも一の元素及び元素間の結合の組を第1パターンとして選択し、第2選択手段120は、第1パターンに少なくとも一の元素又は元素間の結合を加えた元素又は元素間の結合の組を第2パターンとして選択する。例えば、第1選択手段110及び第2選択手段120のそれぞれは、元素をグラフの頂点とし、元素間の結合をグラフの辺としたデータから、頂点、辺、又は頂点及び辺の組を第1パターン及び第2パターンのそれぞれとして選択する。
より詳細には、頂点の種類は、炭素、窒素、又は酸素等66種類である。同種の元素でも芳香族結合を持つ元素と芳香族結合を持たない元素とは区別し互いに異なる頂点とする。また、辺の種類は単結合、2重結合、3重結合、又は芳香族結合の4種類である。
そして、評価値生成手段130は、CAグループに分類された複数の化学物質のうち分類条件を満たす化学物質の数である第1充足数及びCIグループに分類された化学物質のうち分類条件を満たす化学物質の数である第2充足数に応じて、評価値を生成する。例えば、評価値生成手段130は、図11(a)に示す第1グループ及び図11(b)に示す第2グループに基づくカイ2乗検定値として、5394を生成する。
分類因子出力手段180は、評価値の示す確度が基準確度を超える場合に、第1パターン及び第2パターンのそれぞれにおける化学物質の組を、所定の効用を有する化学物質を分類する因子として出力する。例えば、分類因子出力手段180は、カイ2乗検定値である5394の示す確度が基準確度を超えるので、図11(a)に示す第1グループ及び図11(b)に示す第2グループを分類の因子として出力する。
このように、分類因子検出装置10は、図11(a)に示す構成要素を含みかつ図11(b)に示す構成要素を含まない化学物質を、薬理活性を有する化学物質として検出することができる。これにより、分類因子検出装置10は、薬理効果を有するパターンを適切に検出するのみならず、薬理効果を減少させてしまうパターンをも適切に検出することができる。特に、第2パターンの支持度が0.02%と非常に小さいのにも関わらず、分類因子検出装置10は、薬理効果を減少させてしまうパターンを適切に検出することができる。
図12(a)は、分類因子検出装置10により分類の因子として出力される第1パターンの他の例を示す。図12(b)は、分類因子検出装置10により分類の因子として出力される第2パターンの他の例を示す。分類因子出力手段180は、基準確度を超える確度を有する評価値を複数出力してもよい。例えば、分類因子出力手段180は、確度が基準確度を超える複数の評価値のうち、確度の高い方から予め定められた数の評価値に対応する分類条件を、分類の因子として出力してもよい。
分類因子出力手段180は、図11(a)及び図11(b)に示した分類条件と同様確度が基準確度を超えた評価値に対応するパターンとして、図12(a)に示す第1パターン及び図12(b)に示す第2パターンを出力する。このように、分類因子検出装置10は、薬理効果を有するパターン及び薬理効果を減少させるパターンの組を、分類の因子として複数出力してもよい。
図13は、ニュース記事を分類する因子を出力する例を示す。本例においてオブジェクトとはニュース記事の内容を示す文章であり、構成要素とは文章中の語句である。語句とは、例えば、少なくとも一の文字であってもよいし、単語であってもよい。そして、本図に示すニュース記事は、ニュース作成者又はニュース編集者が各ニュース記事のジャンルを分析することにより、国内経済ニュースのグループY及び国際経済ニュースのグループNに分類されている。
第1選択手段110は、複数の文章の何れかが有する語句のうち、少なくとも一の語句の組を第1パターンとして選択し、第2選択手段120は、第1パターンに少なくとも一の語句を加えた語句の組を第2パターンとして選択する。
そして、評価値生成手段130は、第1グループに分類された複数の語句のうち分類条件を満たす文章の数及び第2グループに分類された文章のうち分類条件を満たす文章の数に応じて、評価値を生成する。
分類因子出力手段180は、評価値の示す確度が基準確度を超える場合に、第1パターン及び第2パターンのそれぞれにおける語句の組を、複数の文章を所定のジャンルに分類する因子として出力する。例えば、分類因子出力手段180は、第1パターンとして語句「価格」を検出し、第2パターンとして語句「価格」及び語句「国際」を検出し、これらのパターンの組を、国内経済ニュースを分類する因子として出力する。
このように、本実施形態における分類因子検出装置10が分類の因子を検出する対象は、化学物質に限定されるものではなく、分類因子検出装置10は、ニュース記事を示す文章を分類する因子を検出してもよい。これにより、分類因子検出装置10を用いることにより、新たに製作されたニュース記事であっても適切なジャンルに迅速に分類することができる。
なお、本図の例において分類因子検出装置10は、第1パターン又は第2パターンとして語句の組を検出する。これに加えて、分類因子検出装置10は、語句の係り受け関係、語句が形成する節、及び文章の構造等の組合せである構文解析結果を、第1パターン又は第2パターンとして検出してもよい。例えば、分類因子検出装置10は、構文解析結果をグラフ又は木構造で示したデータに基づき、分類の因子を検出してもよい。
図14は、ウェブページの閲覧履歴を分類する因子を出力する例を示す。本例においてオブジェクトとはワールド・ワイド・ウェブサイトの閲覧履歴であり、構成要素とは閲覧されたウェブページ及び閲覧順序を示す順序情報である。そして、複数の閲覧履歴は、閲覧の結果行われた処理により2つのグループに分類されている。例えば、複数の閲覧履歴は、閲覧の過程又は閲覧の結果、ウェブページにおいて商品の売買を行ったか否かにより、商品の売買を行ったグループY及び商品の売買を行わなかったグループNに分類されている。
第1選択手段110は、閲覧履歴の何れかが有するウェブページ及び順序情報のうち、少なくとも一を第1パターンとして選択し、第2選択手段120は、第1パターンに少なくとも一のウェブページ又は順序情報を加えた第2パターンを選択する。
そして、評価値生成手段130は、第1グループに分類された閲覧履歴のうち分類条件を満たす閲覧履歴の数及び第2グループに分類された閲覧履歴のうち分類条件を満たす閲覧履歴の数に応じて、評価値を生成する。
分類因子出力手段180は、評価値の示す確度が基準確度を超える場合に、第1パターン及び第2パターンのそれぞれにおけるウェブページ及び閲覧順序の組を、閲覧の過程又は閲覧の結果商品の売買を行うか否かに応じた分類の因子として出力する。例えば、分類因子出力手段180は、第1パターンとしてウェブページ「購入確認」を検出し、第2パターンとしてウェブページ「購入確認」及び「商品性能」を検出し、これらのパターンの組を、商品の売買を行った閲覧履歴を分類する因子として出力する。
このように、本例によると、分類因子検出装置10は、ウェブページの閲覧履歴を対象として、当該閲覧履歴の分類の因子を適切に検出して出力することができる。これにより、分類因子検出装置10は、ワールド・ワイド・ウェブシステムを用いた商品取引におけるマーケティング等を支援することができる。
図15は、分類因子検出装置10のハードウェア構成の一例を示す。分類因子検出装置10は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、グラフィックコントローラ1075、及び表示装置1080を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ファイバチャネル等のネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、分類因子検出装置10が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、分類因子検出装置10の起動時にCPU1000が実行するブートプログラムや、分類因子検出装置10のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
分類因子検出装置10に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され分類因子検出装置10にインストールされて実行される。
分類因子検出装置10にインストールされて実行されるプログラムは、第1選択モジュールと、第2選択モジュールと、評価値生成モジュールと、上限値見積モジュールと、構成要素追加モジュールと、基準確度格納モジュールと、基準確度更新モジュールと、分類因子出力モジュールとを含む。各モジュールが分類因子検出装置10に働きかけて行わせる動作は、図1から図14において説明した分類因子検出装置10における、対応する部材の動作と同一であるから、説明を省略する。
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを分類因子検出装置10に提供してもよい。
以上、本実施形態で説明したように、分類因子検出装置10は、それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出することができる。
より詳細には、分類因子検出装置10は、所定のパターンを含むか否かの条件のみならず、第1パターンを含みかつ第2パターンを含まない分類条件を、分類の因子として検出することができる。これにより、薬品として所定の効用を有しかつ副作用を有さない化学構造等、様々な応用分野において適切な分類因子を検出することができる。
また、分類因子検出装置10は、第1パターン及び/又は第2パターンに構成要素を順次追加して分類の確度を生成する。この際、分類因子検出装置10は、第1パターン及び/又は第2パターンに更に構成要素を追加した場合の評価値の上限値を生成する。そして、分類因子検出装置10は、当該上限値が所望の確度に満たない場合には、更なる追加処理を停止する。これにより、評価値が上限値を超える可能性のある分類条件についてのみ評価値を生成することができるので、計算処理時間を低減することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
以上の実施形態によると、以下の各項目に示す分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体が実現される。
(項目1) それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出する分類因子検出装置であって、前記複数のオブジェクトの何れかが有する複数の構成要素のうち、少なくとも一の構成要素の組である第1パターンを選択する第1選択手段と、前記複数のオブジェクトの何れかが有する複数の構成要素のうち、前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択する第2選択手段と、第1グループに分類された複数のオブジェクトのうち前記第1パターンを含みかつ前記第2パターンを含まない分類条件を満たすオブジェクトの数及び第2グループに分類されたオブジェクトのうち前記分類条件を満たすオブジェクトの数に基づいて、前記分類条件により複数のオブジェクトを分類できる確度の評価値を生成する評価値生成手段と、前記評価値の示す確度が予め定められた基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素を分類の因子として出力する分類因子出力手段とを備える分類因子検出装置。
(項目2) 前記評価値生成手段は、前記第1グループのうち前記分類条件を満たすオブジェクトの数である第1充足数及び前記第2グループのうち前記分類条件を満たすオブジェクトの数である第2充足数のそれぞれに対して下に凸の評価関数により定まる値を前記評価値として生成し、前記分類因子検出装置は、前記第1パターン及び/又は前記第2パターンに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記評価関数の値の最大値を生成する上限値見積手段と、前記上限値の示す確度が前記基準確度より大きい場合に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加する処理又は前記第2パターンに構成要素を追加する処理を行う構成要素追加手段とを更に備え、前記評価値生成手段は、更に、前記構成要素追加手段により追加された前記第1パターン及び/又は前記第2パターンについて前記評価値を生成する項目1記載の分類因子検出装置。
(項目3) 前記評価値生成手段は、前記評価関数により定まる前記評価値として、前記分類結果との相関が所定の値以下である分類条件を満たすオブジェクトの確率分布に対する、前記第1パターン及び前記第2パターンに基づく前記分類条件を満たすオブジェクトの確率分布の乖離度を示すカイ2乗検定値を生成する項目2記載の分類因子検出装置。
(項目4) 前記第1グループに分類された複数のオブジェクトのうち前記第1パターンを含むオブジェクトの数をaとし、前記第2パターンを含むオブジェクトの数をbとし、前記第2グループに分類された複数のオブジェクトのうち前記第1パターンを含むオブジェクトの数をcとし、前記第2パターンを含むオブジェクトの数をdとする場合において、前記評価値生成手段は、前記第1充足数である(a−c)及び前記第2充足数である(b−d)に基づいて前記カイ2乗検定値を生成する前記評価関数であるf(a−c,b−d)により定まる値を、前記評価値として生成し、前記上限値見積手段は、前記第1パターン及び前記第2パターンのそれぞれ又は前記第2パターンに対して構成要素が追加される場合の前記カイ2乗検定値の上限値として、前記第2グループのうち第2パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a−c,b)及び前記第2グループのうち第1パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a,b−d)の最大値を生成する項目3記載の分類因子検出装置。
(項目5) 前記評価値生成手段は、前記評価関数により定まる前記評価値として、前記第1充足数及び前記第2充足数の一様性を示すエントロピー値に基づく値を生成する項目2記載の分類因子検出装置。
(項目6) 前記評価値生成手段は、前記評価関数により定まる前記評価値として、前記第1充足数及び前記第2充足数の差分の大きさを示すジニ係数値を生成する項目2記載の分類因子検出装置。
(項目7) 前記上限値見積手段は、前記評価値生成手段により前記評価値が生成される毎に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加した場合及び前記第1パターンの内容を保持したまま前記第2パターンに構成要素を追加した場合の前記評価値の上限値を生成し、前記上限値が示す確度が前記基準確度より大きい場合において、前記構成要素追加手段は、前記複数のオブジェクトの何れかが有する複数の構成要素のうち前記第2パターンに含まれていない構成要素である未評価要素のそれぞれを前記第2パターンに追加した第2追加済パターンのそれぞれを生成する第1の追加処理を行い、更に、前記第1パターン及び前記第2パターンが同一の場合に、前記未評価要素のそれぞれを前記第1パターン及び前記第2パターンに追加した第1追加済パターン及び第2追加済パターンのそれぞれを生成する第2の追加処理を行い、前記評価値生成手段は、第1又は第2の前記追加処理が行われた前記第1追加済パターン及び前記第2追加済パターンについて前記評価値を生成する項目2記載の分類因子検出装置。
(項目8) 前記基準確度を格納する基準確度格納手段と、前記評価値生成手段により生成された前記評価値の示す確度が前記基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の前記第1パターン及び前記第2パターンに対応付けて前記基準確度として前記基準確度格納手段に格納する基準確度更新手段とを更に備え、前記分類因子出力手段は、前記基準確度格納手段に格納された前記第1パターン及び前記第2パターンを、分類の因子として出力する項目2記載の分類因子検出装置。
(項目9) 前記分類因子出力手段は、前記評価値生成手段により生成され確度が前記基準確度を超える複数の評価値のうち、確度の高い順に予め定められた数の評価値のそれぞれに対応する分類条件を、前記分類の因子として出力する項目2記載の分類因子検出装置。
(項目10) 前記評価値生成手段は、前記第1グループのうち前記分類条件を満たすオブジェクトの数である第1充足数及び前記第2グループのうち前記分類条件を満たすオブジェクトの数である第2充足数のそれぞれに対して値を定める関数であって、前記第1充足数及び前記第2充足数がとりうる値の範囲内における端点の何れかが当該関数の最大値となる評価関数について、当該評価関数により定まる値を前記評価値として生成し、前記分類因子検出装置は、前記第1パターン及び/又は前記第2パターンに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記評価関数の値の最大値を生成する上限値見積手段と、前記上限値の示す確度が前記基準確度より大きい場合に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加する処理又は前記第2パターンに構成要素を追加する処理を行う構成要素追加手段とを更に備え、前記評価値生成手段は、更に、前記構成要素追加手段により追加された前記第1パターン及び/又は前記第2パターンについて前記評価値を生成する項目1記載の分類因子検出装置。
(項目11) 前記オブジェクトは、複数の構成要素として複数の元素が化学的に結合した化学物質であり、複数の前記化学物質は、各化学物質が薬品として所定の効用を有するか否かを実験により判定した結果に基づいて2つのグループに分類されており、前記第1選択手段は、前記複数の化学物質の何れかが有する元素又は元素間の結合のうち、少なくとも一の元素及び元素間の結合の組を前記第1パターンとして選択し、前記第2選択手段は、前記第1パターンに少なくとも一の元素又は元素間の結合を加えた元素又は元素間の結合の組を前記第2パターンとして選択し、前記評価値生成手段は、前記第1グループに分類された複数の化学物質のうち前記分類条件を満たす化学物質の数及び前記第2グループに分類された化学物質のうち前記分類条件を満たす化学物質の数に応じて、前記評価値を生成し、前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける化学物質の組を、前記所定の効用を有する化学物質を分類する因子として出力する項目1記載の分類因子検出装置。
(項目12) 前記オブジェクトは、複数の語句により構成される文章であり、複数の前記文章は、各文章を当該文章の内容を示すジャンルにより2つのグループに分類されており、前記第1選択手段は、前記複数の文章の何れかが有する語句のうち、少なくとも一の語句の組を前記第1パターンとして選択し、前記第2選択手段は、前記第1パターンに少なくとも一の語句を加えた語句の組を前記第2パターンとして選択し、前記評価値生成手段は、前記第1グループに分類された複数の語句のうち前記分類条件を満たす文章の数及び前記第2グループに分類された文章のうち前記分類条件を満たす文章の数に応じて、前記評価値を生成し、前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける語句の組を、複数の文章を所定のジャンルに分類する因子として出力する項目1記載の分類因子検出装置。
(項目13) 前記オブジェクトは、ワールド・ワイド・ウェブサイトの閲覧履歴であり、前記構成要素は、閲覧されたウェブページ及び閲覧順序を示す順序情報であり、複数の前記閲覧履歴は、閲覧の結果行われた処理により2つのグループに分類されており、前記第1選択手段は、前記閲覧履歴の何れかが有する前記ウェブページ及び前記順序情報のうち、少なくとも一を前記第1パターンとして選択し、前記第2選択手段は、前記第1パターンに少なくとも一の前記ウェブページ又は前記順序情報を加えた前記第2パターンを選択し、前記評価値生成手段は、前記第1グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数及び前記第2グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数に応じて、前記評価値を生成し、前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける前記ウェブページ及び前記閲覧順序の組を、閲覧の結果行う処理に応じた分類の因子として出力する項目1記載の分類因子検出装置。
(項目14) 前記複数の閲覧履歴は、閲覧の過程又は閲覧の結果、ウェブページにおいて商品の売買を行ったか否かにより2つのグループに分類されており、前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおけるウェブページ及び閲覧順序を、閲覧の過程又は閲覧の結果商品の売買を行うか否かに応じた分類の因子として出力する項目13記載の分類因子検出装置。
(項目15) それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組をコンピュータにより検出する分類因子検出方法であって、前記コンピュータにより、前記複数のオブジェクトの何れかが有する複数の構成要素のうち、少なくとも一の構成要素の組である第1パターンを選択する第1選択段階と、前記複数のオブジェクトの何れかが有する複数の構成要素のうち、前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択する第2選択段階と、第1グループに分類された複数のオブジェクトのうち前記第1パターンを含みかつ前記第2パターンを含まない分類条件を満たすオブジェクトの数及び第2グループに分類されたオブジェクトのうち前記分類条件を満たすオブジェクトの数に基づいて、前記分類条件により複数のオブジェクトを分類できる確度の評価値を生成する評価値生成段階と、前記評価値の示す確度が予め定められた基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素を分類の因子として出力する分類因子出力段階とを備える分類因子検出方法。
(項目16) 前記評価値生成段階において、前記コンピュータは、前記第1グループのうち前記分類条件を満たすオブジェクトの数である第1充足数及び前記第2グループのうち前記分類条件を満たすオブジェクトの数である第2充足数のそれぞれに対して下に凸の評価関数により定まる値を前記評価値として生成し、当該分類因子検出方法は、前記コンピュータにより、前記第1パターン及び/又は前記第2パターンに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記評価関数の値の最大値を生成する上限値見積段階と、前記上限値の示す確度が前記基準確度より大きい場合に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加する処理又は前記第2パターンに構成要素を追加する処理を行う構成要素追加段階とを更に備え、前記評価値生成段階として、前記コンピュータは、更に、前記構成要素追加段階において追加された前記第1パターン及び/又は前記第2パターンについて前記評価値を生成する項目15記載の分類因子検出方法。
(項目17) それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出する分類因子検出装置としてコンピュータを機能させるプログラムであって、前記コンピュータを、前記複数のオブジェクトの何れかが有する複数の構成要素のうち、少なくとも一の構成要素の組である第1パターンを選択する第1選択手段と、前記複数のオブジェクトの何れかが有する複数の構成要素のうち、前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択する第2選択手段と、第1グループに分類された複数のオブジェクトのうち前記第1パターンを含みかつ前記第2パターンを含まない分類条件を満たすオブジェクトの数及び第2グループに分類されたオブジェクトのうち前記分類条件を満たすオブジェクトの数に基づいて、前記分類条件により複数のオブジェクトを分類できる確度の評価値を生成する評価値生成手段と、前記評価値の示す確度が予め定められた基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素を分類の因子として出力する分類因子出力手段として機能させるプログラム。
(項目18) 前記評価値生成手段は、前記第1グループのうち前記分類条件を満たすオブジェクトの数である第1充足数及び前記第2グループのうち前記分類条件を満たすオブジェクトの数である第2充足数のそれぞれに対して下に凸の評価関数により定まる値を前記評価値として生成し、前記コンピュータを、前記第1パターン及び/又は前記第2パターンに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記評価関数の値の最大値を生成する上限値見積手段と、前記上限値の示す確度が前記基準確度より大きい場合に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加する処理又は前記第2パターンに構成要素を追加する処理を行う構成要素追加手段として更に機能させ、前記評価値生成手段は、前記構成要素追加手段において追加された前記第1パターン及び/又は前記第2パターンについて前記評価値を生成する項目17記載のプログラム。
(項目19) 項目17又は項目18記載のプログラムを記録した記録媒体。
図1は、分類因子検出装置10の機能ブロック図である。 図2は、オブジェクトデータベース100の内容の一例を示す。 図3は、分類因子検出装置10の動作フローを示す。 図4は、図3のS320における動作フローの詳細を示す。 図5は、図4に続く動作フローを示す。 図6は、図5に続く動作フローを示す。 図7は、図2に示したデータの分類表を示す。 図8(a)は、評価値生成手段130により生成される評価値を示す。 図8(b)は、第1パターンに構成要素を追加した場合における上限値を説明する図である。 図8(c)は、第2パターンに構成要素を追加した場合における上限値を説明する図である。 図9は、基準確度を満たす分類条件を探索する順序を示す探索木の一例である。 図10(a)は、所定の分析により薬理活性が認められる化学物質の一例を示す。 図10(b)は、図10(a)に関連する化学物質の一例を示す。 図10(c)は、本実施形態とは異なる他の方法が薬理活性を有するパターンとして検出した構造の一例を示す。 図11(a)は、分類因子検出装置10により分類の因子として出力される第1パターンの一例を示す。 図11(b)は、分類因子検出装置10により分類の因子として出力される第2パターンの一例を示す。 図12(a)は、分類因子検出装置10により分類の因子として出力される第1パターンの他の例を示す。 図12(b)は、分類因子検出装置10により分類の因子として出力される第2パターンの他の例を示す。 図13は、ニュース記事を分類する因子を出力する例を示す。 図14は、ウェブページの閲覧履歴を分類する因子を出力する例を示す。 図15は、分類因子検出装置10のハードウェア構成の一例を示す。
符号の説明
10 分類因子検出装置
100 オブジェクトデータベース
110 第1選択手段
120 第2選択手段
130 評価値生成手段
140 上限値見積手段
150 構成要素追加手段
160 基準確度格納手段
170 基準確度更新手段
180 分類因子出力手段
200 化学物質
210 化学物質
220 化学物質
230 化学物質
240 化学物質
250 化学物質
800 評価値
810 上限候補値
820 上限候補値
830 評価値
840 評価値

Claims (10)

  1. それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出する分類因子検出装置であって、
    第1グループに分類されたオブジェクトおよび第2グループに分類されたオブジェクトを記憶するオブジェクトデータベースと、
    前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から少なくとも一の構成要素の組を第1パターンとして選択して記憶装置に格納する第1選択手段と、
    前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択して前記記憶装置に格納する第2選択手段と、
    前記オブジェクトデータベースにアクセスして前記第1および第2グループを読み出し、前記第1および第2パターンを前記第1選択手段および前記第2選択手段から受け取り、さらに、
    前記第1パターンを含みかつ前記第2パターンを含まないという分類条件を満たすオブジェクトが、前記第1グループに含まれる数である第1充足数、および、そのオブジェクトが前記第2グループに含まれる数である第2充足数をCPUの動作により算出し、
    これらの充足数の分布が、分類結果との間の相関が所定の値以下となるように予め定められた他の分類条件を満たすオブジェクトがそれぞれの前記グループに含まれる数の分布と比較して乖離する程度を示すカイ2乗検定値をCPUの動作により算出し、分類の確度を示す評価値として生成する評価値生成手段と、
    前記評価値の示す確度が予め定められた基準確度以下の場合に、前記第1パターン及び前記第2パターンの少なくとも1つに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記カイ2乗検定値の最大値をCPUの動作により生成する上限値見積手段と、
    前記上限値の示す確度が前記基準確度より大きい場合に、前記記憶装置から前記第1および第2パターンを読み出し、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加して前記記憶装置に格納する処理又は前記第2パターンに構成要素を追加して前記記憶装置に格納する処理を行うことを前記第1選択手段および前記第2選択手段に指示する構成要素追加手段と、
    を備え、前記評価値生成手段は、更に、前記構成要素追加手段により追加された前記第1パターン及び前記第2パターンを前記記憶装置から読み出して、読み出した前記第1および第2パターンについて前記評価値を生成し、
    さらに、前記記憶装置内に前記基準確度を格納する基準確度格納手段と、
    前記評価値生成手段により生成された前記評価値の示す確度が前記基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の前記第1パターン及び前記第2パターンに対応付けて前記基準確度としてCPUの動作により前記基準確度格納手段に格納する基準確度更新手段と、
    算出した前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素をCPUの動作により前記基準確度格納手段から読み出して分類の因子として出力する分類因子出力手段と
    を備える分類因子検出装置。
  2. 前記第1グループに分類された複数のオブジェクトのうち前記第1パターンを含むオブジェクトの数をaとし、前記第2パターンを含むオブジェクトの数をcとし、
    前記第2グループに分類された複数のオブジェクトのうち前記第1パターンを含むオブジェクトの数をbとし、前記第2パターンを含むオブジェクトの数をdとする場合において、
    前記評価値生成手段は、前記第1充足数である(a−c)及び前記第2充足数である(b−d)に基づいて前記カイ2乗検定値を生成する評価関数であるf(a−c,b−d)により定まる値を、前記評価値として生成し、
    前記上限値見積手段は、前記第1パターン及び前記第2パターンのそれぞれ又は前記第2パターンに対して構成要素が追加される場合の前記カイ2乗検定値の上限値として、前記第2グループのうち第2パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a−c,b)及び前記第2グループのうち第1パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a,b−d)の最大値を生成する
    請求項1記載の分類因子検出装置。
  3. 前記上限値見積手段は、前記評価値生成手段により前記評価値が生成される毎に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加した場合及び前記第1パターンの内容を保持したまま前記第2パターンに構成要素を追加した場合の前記評価値の上限値を生成し、
    前記上限値が示す確度が前記基準確度より大きい場合において、前記構成要素追加手段は、前記複数のオブジェクトの何れかが有する複数の構成要素のうち前記第2パターンに含まれていない構成要素である未評価要素のそれぞれを前記第2パターンに追加した第2追加済パターンのそれぞれを生成する第1の追加処理を行い、更に、前記第1パターン及び前記第2パターンが同一の場合に、前記未評価要素のそれぞれを前記第1パターン及び前記第2パターンに追加した第1追加済パターン及び第2追加済パターンのそれぞれを生成する第2の追加処理を行い、
    前記評価値生成手段は、第1又は第2の前記追加処理が行われた前記第1追加済パターン及び前記第2追加済パターンについて前記評価値を生成する
    請求項1記載の分類因子検出装置。
  4. 前記分類因子出力手段は、前記評価値生成手段により生成され確度が前記基準確度を超える複数の評価値のうち、確度の高い順に予め定められた数の評価値のそれぞれに対応する分類条件を、前記分類の因子として出力する
    請求項1記載の分類因子検出装置。
  5. 前記オブジェクトは、複数の構成要素として複数の元素が化学的に結合した化学物質であり、
    複数の前記化学物質は、各化学物質が薬品として所定の効用を有するか否かを実験により判定した結果に基づいて2つのグループに分類されており、
    前記第1選択手段は、前記複数の化学物質の何れかが有する元素又は元素間の結合のうち、少なくとも一の元素及び元素間の結合の組を前記第1パターンとして選択し、
    前記第2選択手段は、前記第1パターンに少なくとも一の元素又は元素間の結合を加えた元素又は元素間の結合の組を前記第2パターンとして選択し、
    前記評価値生成手段は、前記第1グループに分類された複数の化学物質のうち前記分類条件を満たす化学物質の数及び前記第2グループに分類された化学物質のうち前記分類条件を満たす化学物質の数に応じて、前記評価値を生成し、
    前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける化学物質の組を、前記所定の効用を有する化学物質を分類する因子として出力する
    請求項1記載の分類因子検出装置。
  6. 前記オブジェクトは、複数の語句により構成される文章であり、
    複数の前記文章は、各文章を当該文章の内容を示すジャンルにより2つのグループに分類されており、
    前記第1選択手段は、前記複数の文章の何れかが有する語句のうち、少なくとも一の語句の組を前記第1パターンとして選択し、
    前記第2選択手段は、前記第1パターンに少なくとも一の語句を加えた語句の組を前記第2パターンとして選択し、
    前記評価値生成手段は、前記第1グループに分類された複数の語句のうち前記分類条件を満たす文章の数及び前記第2グループに分類された文章のうち前記分類条件を満たす文章の数に応じて、前記評価値を生成し、
    前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける語句の組を、複数の文章を所定のジャンルに分類する因子として出力する
    請求項1記載の分類因子検出装置。
  7. 前記オブジェクトは、ワールド・ワイド・ウェブサイトの閲覧履歴であり、
    前記構成要素は、閲覧されたウェブページ及び閲覧順序を示す順序情報であり、
    複数の前記閲覧履歴は、閲覧の結果行われた処理により2つのグループに分類されており、
    前記第1選択手段は、前記閲覧履歴の何れかが有する前記ウェブページ及び前記順序情報のうち、少なくとも一を前記第1パターンとして選択し、
    前記第2選択手段は、前記第1パターンに少なくとも一の前記ウェブページ又は前記順序情報を加えた前記第2パターンを選択し、
    前記評価値生成手段は、前記第1グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数及び前記第2グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数に応じて、前記評価値を生成し、
    前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける前記ウェブページ及び前記閲覧順序の組を、閲覧の結果行う処理に応じた分類の因子として出力する
    請求項1記載の分類因子検出装置。
  8. 前記複数の閲覧履歴は、閲覧の過程又は閲覧の結果、ウェブページにおいて商品の売買を行ったか否かにより2つのグループに分類されており、
    前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおけるウェブページ及び閲覧順序を、閲覧の過程又は閲覧の結果商品の売買を行うか否かに応じた分類の因子として出力する
    請求項記載の分類因子検出装置。
  9. それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組をコンピュータにより検出する分類因子検出方法であって、
    前記コンピュータは、第1グループに分類されたオブジェクトおよび第2グループに分類されたオブジェクトをオブジェクトデータベースに記憶しており、
    前記コンピュータの第1選択手段が、CPUにより前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する複数の構成要素を読み出し、読み出した構成要素の中から少なくとも一の構成要素の組を第1パターンとして選択して記憶装置に格納する第1選択段階と、
    前記コンピュータの第2選択手段が、CPUにより前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する複数の構成要素を読み出し、読み出した構成要素の中から前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択して前記記憶装置に格納する第2選択段階と、
    前記コンピュータの評価値生成手段が、CPUにより前記オブジェクトデータベースにアクセスして前記第1および第2グループを読み出し、前記第1および第2パターンを前記第1選択段階および前記第2選択段階から受け取り、さらに、
    前記第1パターンを含みかつ前記第2パターンを含まないという分類条件を満たすオブジェクトが、前記第1グループに含まれる数である第1充足数、および、そのオブジェクトが前記第2グループに含まれる数である第2充足数をCPUの動作により算出し、
    これらの充足数の分布が、分類結果との間の相関が所定の値以下となるように予め定められた他の分類条件を満たすオブジェクトがそれぞれの前記グループに含まれる数の分布と比較して乖離する程度を示すカイ2乗検定値をCPUの動作により算出し、分類の確度を示す評価値として生成する評価値生成段階と、
    前記コンピュータの上限値見積手段が、前記評価値の示す確度が予め定められた基準確度以下の場合に、前記第1パターン及び前記第2パターンの少なくとも1つに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記カイ2乗検定値の最大値をCPUの動作により生成する上限値見積段階と、
    前記コンピュータの構成要素追加手段が、前記上限値の示す確度が前記基準確度より大きい場合に、前記記憶装置から前記第1および第2パターンを読み出し、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加して前記記憶装置に格納する処理又は前記第2パターンに構成要素を追加して前記記憶装置に格納する処理を行うことを前記第1選択手段および前記第2選択手段に指示する構成要素追加段階と、
    前記コンピュータの評価値生成手段が、前記構成要素追加段階において追加された前記第1パターン及び前記第2パターンを前記記憶装置から読み出して、読み出した前記第1および第2パターンについて前記評価値を生成する段階と、
    前記コンピュータの基準確度格納手段が、前記記憶装置内に前記基準確度を格納する基準確度格納段階と、
    前記コンピュータの基準確度更新手段が、前記評価値生成手段により生成された前記評価値の示す確度が前記基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の前記第1パターン及び前記第2パターンに対応付けて前記基準確度としてCPUの動作により前記基準確度格納手段に格納する基準確度更新段階と、
    前記コンピュータの分類因子出力手段が、算出した前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素をCPUの動作により前記基準確度格納手段から読み出して分類の因子として出力する分類因子出力段階と
    を備える分類因子検出方法。
  10. それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出する分類因子検出装置としてコンピュータを機能させるプログラムであって、
    前記コンピュータを、
    第1グループに分類されたオブジェクトおよび第2グループに分類されたオブジェクトを記憶するオブジェクトデータベースと、
    前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から少なくとも一の構成要素の組を第1パターンとして選択して記憶装置に格納する第1選択手段と、
    前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択して前記記憶装置に格納する第2選択手段と、
    前記オブジェクトデータベースにアクセスして前記第1および第2グループを読み出し、前記第1および第2パターンを前記第1選択手段および前記第2選択手段から受け取り、さらに、
    前記第1パターンを含みかつ前記第2パターンを含まないという分類条件を満たすオブジェクトが、前記第1グループに含まれる数である第1充足数、および、そのオブジェクトが前記第2グループに含まれる数である第2充足数をCPUの動作により算出し、
    これらの充足数の分布が、分類結果との間の相関が所定の値以下となるように予め定められた他の分類条件を満たすオブジェクトがそれぞれの前記グループに含まれる数の分布と比較して乖離する程度を示すカイ2乗検定値をCPUの動作により算出し、分類の確度を示す評価値として生成する評価値生成手段と、
    前記評価値の示す確度が予め定められた基準確度以下の場合に、前記第1パターン及び前記第2パターンの少なくとも1つに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記カイ2乗検定値の最大値をCPUの動作により生成する上限値見積手段と、
    前記上限値の示す確度が前記基準確度より大きい場合に、前記記憶装置から前記第1および第2パターンを読み出し、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加して前記記憶装置に格納する処理又は前記第2パターンに構成要素を追加して前記記憶装置に格納する処理を行うことを前記第1選択手段および前記第2選択手段に指示する構成要素追加手段と
    して機能させ、前記評価値生成手段は、更に、前記構成要素追加手段により追加された前記第1パターン及び前記第2パターンを前記記憶装置から読み出して、読み出した前記第1および第2パターンについて前記評価値を生成し、
    さらに、前記コンピュータを、
    前記記憶装置内に前記基準確度を格納する基準確度格納手段と、
    前記評価値生成手段により生成された前記評価値の示す確度が前記基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の前記第1パターン及び前記第2パターンに対応付けて前記基準確度としてCPUの動作により前記基準確度格納手段に格納する基準確度更新手段と、
    算出した前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素をCPUの動作により前記基準確度格納手段から読み出して分類の因子として出力する分類因子出力手段と
    して機能させるプログラム。
JP2003278138A 2003-07-23 2003-07-23 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 Expired - Fee Related JP4107658B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003278138A JP4107658B2 (ja) 2003-07-23 2003-07-23 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体
US10/890,419 US7337186B2 (en) 2003-07-23 2004-07-13 Classification factor detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003278138A JP4107658B2 (ja) 2003-07-23 2003-07-23 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体

Publications (2)

Publication Number Publication Date
JP2005044163A JP2005044163A (ja) 2005-02-17
JP4107658B2 true JP4107658B2 (ja) 2008-06-25

Family

ID=34074694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003278138A Expired - Fee Related JP4107658B2 (ja) 2003-07-23 2003-07-23 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体

Country Status (2)

Country Link
US (1) US7337186B2 (ja)
JP (1) JP4107658B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301786A (ja) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
EP1940781A1 (en) 2005-10-19 2008-07-09 F.Hoffmann-La Roche Ag Phenyl-acetamide nnrt inhibitors
WO2008145562A1 (en) 2007-05-30 2008-12-04 F. Hoffmann-La Roche Ag Non-nucleoside reverse transcriptase inhibitors
US20100163316A1 (en) * 2008-12-30 2010-07-01 Microsoft Corporation Handwriting Recognition System Using Multiple Path Recognition Framework
US8332419B1 (en) 2010-05-13 2012-12-11 A9.com Content collection search with robust content matching
CN103124984A (zh) * 2010-09-24 2013-05-29 株式会社日立解决方案 操作风险分析服务器和操作风险分析系统
US8484206B2 (en) 2011-07-13 2013-07-09 Sap Ag Generating report of identifiers and time values
US20130030760A1 (en) * 2011-07-27 2013-01-31 Tom Thuy Ho Architecture for analysis and prediction of integrated tool-related and material-related data and methods therefor
US20130173332A1 (en) * 2011-12-29 2013-07-04 Tom Thuy Ho Architecture for root cause analysis, prediction, and modeling and methods therefor
US9171069B2 (en) * 2012-07-31 2015-10-27 Freedom Solutions Group, Llc Method and apparatus for analyzing a document
WO2015097773A1 (ja) * 2013-12-25 2015-07-02 株式会社日立製作所 要因抽出システム、要因抽出方法
US10380486B2 (en) 2015-01-20 2019-08-13 International Business Machines Corporation Classifying entities by behavior
JP5885875B1 (ja) * 2015-08-28 2016-03-16 株式会社Ubic データ分析システム、データ分析方法、プログラム、および、記録媒体
US10802891B2 (en) * 2018-10-30 2020-10-13 Stoplight, Inc. Application interface governance platform to harmonize, validate, and replicate data-driven definitions to execute application interface functionality

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5539838A (en) * 1990-09-14 1996-07-23 Fuji Photo Film Co., Ltd. Abnormal pattern detecting apparatus pattern finding aparatus and liner pattern width calculating apparatus
KR960028223A (ko) * 1994-12-15 1996-07-22 나카사토 요시히코 영상쌍간의 위상차 검출 방법
US6606659B1 (en) * 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
US20040110172A1 (en) * 2002-06-06 2004-06-10 Vizx Labs, Llc Biological results evaluation method

Also Published As

Publication number Publication date
JP2005044163A (ja) 2005-02-17
US7337186B2 (en) 2008-02-26
US20050021554A1 (en) 2005-01-27

Similar Documents

Publication Publication Date Title
JP4039488B2 (ja) 多頻度パターン抽出装置、多頻度パターン抽出方法、及びそのプログラムと記録媒体
Karaa et al. Medline text mining: an enhancement genetic algorithm based approach for document clustering
JP4107658B2 (ja) 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体
Mencía et al. Efficient voting prediction for pairwise multilabel classification
JP5421737B2 (ja) コンピュータ実施方法
JP5501373B2 (ja) 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US6775677B1 (en) System, method, and program product for identifying and describing topics in a collection of electronic documents
EP1678635B1 (en) Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US20140114977A1 (en) System and method for document analysis, processing and information extraction
US20040181519A1 (en) Method for generating multidimensional summary reports from multidimensional summary reports from multidimensional data
JP6150291B2 (ja) 矛盾表現収集装置及びそのためのコンピュータプログラム
KR20080045659A (ko) 정보 처리 장치, 방법, 및 프로그램
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
JP5160312B2 (ja) 文書分類装置
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
Xu et al. Efficient summarization framework for multi-attribute uncertain data
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN113704589B (zh) 一种用于收集工业链数据的互联网系统
KR101753768B1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
Somantri et al. Opinion mining on culinary food customer satisfaction using naïve bayes based-on hybrid feature selection
JP2008146293A (ja) 閲覧対象情報の評価システム、方法、およびプログラム
JP2009211280A (ja) オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5141152B2 (ja) テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
Dahak et al. A probabilistic model to exploit user expectations in XML information retrieval

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070927

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080125

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080325

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080331

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees