JP4107658B2 - 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 - Google Patents
分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 Download PDFInfo
- Publication number
- JP4107658B2 JP4107658B2 JP2003278138A JP2003278138A JP4107658B2 JP 4107658 B2 JP4107658 B2 JP 4107658B2 JP 2003278138 A JP2003278138 A JP 2003278138A JP 2003278138 A JP2003278138 A JP 2003278138A JP 4107658 B2 JP4107658 B2 JP 4107658B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- evaluation value
- classification
- accuracy
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 111
- 238000011156 evaluation Methods 0.000 claims abstract description 300
- 239000000470 constituent Substances 0.000 claims abstract description 37
- 239000000126 substance Substances 0.000 claims description 75
- 238000000034 method Methods 0.000 claims description 70
- 238000003860 storage Methods 0.000 claims description 61
- 230000008569 process Effects 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 38
- 238000000546 chi-square test Methods 0.000 claims description 32
- 238000009826 distribution Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 230000000144 pharmacologic effect Effects 0.000 description 16
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 15
- 229910052799 carbon Inorganic materials 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 9
- 239000003814 drug Substances 0.000 description 9
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000007418 data mining Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 5
- HBOMLICNUCNMMY-XLPZGREQSA-N zidovudine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](N=[N+]=[N-])C1 HBOMLICNUCNMMY-XLPZGREQSA-N 0.000 description 5
- 229960002555 zidovudine Drugs 0.000 description 5
- 102000053602 DNA Human genes 0.000 description 4
- 102100034343 Integrase Human genes 0.000 description 4
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 210000004970 cd4 cell Anatomy 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 231100000957 no side effect Toxicity 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 206010061598 Immunodeficiency Diseases 0.000 description 1
- 208000029462 Immunodeficiency disease Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 239000003570 air Substances 0.000 description 1
- 230000036436 anti-hiv Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000007813 immunodeficiency Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 231100000053 low toxicity Toxicity 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
その他、関連する非特許文献1、3、6、10、11、13、14、15、17、18、19、20、21、22、及び23参照。
(項目3) 前記評価値生成手段は、前記評価関数により定まる前記評価値として、前記分類結果との相関が所定の値以下である分類条件を満たすオブジェクトの確率分布に対する、前記第1パターン及び前記第2パターンに基づく前記分類条件を満たすオブジェクトの確率分布の乖離度を示すカイ2乗検定値を生成する項目2記載の分類因子検出装置。
(項目6) 前記評価値生成手段は、前記評価関数により定まる前記評価値として、前記第1充足数及び前記第2充足数の差分の大きさを示すジニ係数値を生成する項目2記載の分類因子検出装置。
(項目7) 前記上限値見積手段は、前記評価値生成手段により前記評価値が生成される毎に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加した場合及び前記第1パターンの内容を保持したまま前記第2パターンに構成要素を追加した場合の前記評価値の上限値を生成し、前記上限値が示す確度が前記基準確度より大きい場合において、前記構成要素追加手段は、前記複数のオブジェクトの何れかが有する複数の構成要素のうち前記第2パターンに含まれていない構成要素である未評価要素のそれぞれを前記第2パターンに追加した第2追加済パターンのそれぞれを生成する第1の追加処理を行い、更に、前記第1パターン及び前記第2パターンが同一の場合に、前記未評価要素のそれぞれを前記第1パターン及び前記第2パターンに追加した第1追加済パターン及び第2追加済パターンのそれぞれを生成する第2の追加処理を行い、前記評価値生成手段は、第1又は第2の前記追加処理が行われた前記第1追加済パターン及び前記第2追加済パターンについて前記評価値を生成する項目2記載の分類因子検出装置。
(項目9) 前記分類因子出力手段は、前記評価値生成手段により生成され確度が前記基準確度を超える複数の評価値のうち、確度の高い順に予め定められた数の評価値のそれぞれに対応する分類条件を、前記分類の因子として出力する項目2記載の分類因子検出装置。
(項目11) 前記オブジェクトは、複数の構成要素として複数の元素が化学的に結合した化学物質であり、複数の前記化学物質は、各化学物質が薬品として所定の効用を有するか否かを実験により判定した結果に基づいて2つのグループに分類されており、前記第1選択手段は、前記複数の化学物質の何れかが有する元素又は元素間の結合のうち、少なくとも一の元素及び元素間の結合の組を前記第1パターンとして選択し、前記第2選択手段は、前記第1パターンに少なくとも一の元素又は元素間の結合を加えた元素又は元素間の結合の組を前記第2パターンとして選択し、前記評価値生成手段は、前記第1グループに分類された複数の化学物質のうち前記分類条件を満たす化学物質の数及び前記第2グループに分類された化学物質のうち前記分類条件を満たす化学物質の数に応じて、前記評価値を生成し、前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける化学物質の組を、前記所定の効用を有する化学物質を分類する因子として出力する項目1記載の分類因子検出装置。
(項目13) 前記オブジェクトは、ワールド・ワイド・ウェブサイトの閲覧履歴であり、前記構成要素は、閲覧されたウェブページ及び閲覧順序を示す順序情報であり、複数の前記閲覧履歴は、閲覧の結果行われた処理により2つのグループに分類されており、前記第1選択手段は、前記閲覧履歴の何れかが有する前記ウェブページ及び前記順序情報のうち、少なくとも一を前記第1パターンとして選択し、前記第2選択手段は、前記第1パターンに少なくとも一の前記ウェブページ又は前記順序情報を加えた前記第2パターンを選択し、前記評価値生成手段は、前記第1グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数及び前記第2グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数に応じて、前記評価値を生成し、前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける前記ウェブページ及び前記閲覧順序の組を、閲覧の結果行う処理に応じた分類の因子として出力する項目1記載の分類因子検出装置。
(項目14) 前記複数の閲覧履歴は、閲覧の過程又は閲覧の結果、ウェブページにおいて商品の売買を行ったか否かにより2つのグループに分類されており、前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおけるウェブページ及び閲覧順序を、閲覧の過程又は閲覧の結果商品の売買を行うか否かに応じた分類の因子として出力する項目13記載の分類因子検出装置。
(項目16) 前記評価値生成段階において、前記コンピュータは、前記第1グループのうち前記分類条件を満たすオブジェクトの数である第1充足数及び前記第2グループのうち前記分類条件を満たすオブジェクトの数である第2充足数のそれぞれに対して下に凸の評価関数により定まる値を前記評価値として生成し、当該分類因子検出方法は、前記コンピュータにより、前記第1パターン及び/又は前記第2パターンに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記評価関数の値の最大値を生成する上限値見積段階と、前記上限値の示す確度が前記基準確度より大きい場合に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加する処理又は前記第2パターンに構成要素を追加する処理を行う構成要素追加段階とを更に備え、前記評価値生成段階として、前記コンピュータは、更に、前記構成要素追加段階において追加された前記第1パターン及び/又は前記第2パターンについて前記評価値を生成する項目15記載の分類因子検出方法。
(項目18) 前記評価値生成手段は、前記第1グループのうち前記分類条件を満たすオブジェクトの数である第1充足数及び前記第2グループのうち前記分類条件を満たすオブジェクトの数である第2充足数のそれぞれに対して下に凸の評価関数により定まる値を前記評価値として生成し、前記コンピュータを、前記第1パターン及び/又は前記第2パターンに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記評価関数の値の最大値を生成する上限値見積手段と、前記上限値の示す確度が前記基準確度より大きい場合に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加する処理又は前記第2パターンに構成要素を追加する処理を行う構成要素追加手段として更に機能させ、前記評価値生成手段は、前記構成要素追加手段において追加された前記第1パターン及び/又は前記第2パターンについて前記評価値を生成する項目17記載のプログラム。
(項目19) 項目17又は項目18記載のプログラムを記録した記録媒体。
100 オブジェクトデータベース
110 第1選択手段
120 第2選択手段
130 評価値生成手段
140 上限値見積手段
150 構成要素追加手段
160 基準確度格納手段
170 基準確度更新手段
180 分類因子出力手段
200 化学物質
210 化学物質
220 化学物質
230 化学物質
240 化学物質
250 化学物質
800 評価値
810 上限候補値
820 上限候補値
830 評価値
840 評価値
Claims (10)
- それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出する分類因子検出装置であって、
第1グループに分類されたオブジェクトおよび第2グループに分類されたオブジェクトを記憶するオブジェクトデータベースと、
前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から少なくとも一の構成要素の組を第1パターンとして選択して記憶装置に格納する第1選択手段と、
前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択して前記記憶装置に格納する第2選択手段と、
前記オブジェクトデータベースにアクセスして前記第1および第2グループを読み出し、前記第1および第2パターンを前記第1選択手段および前記第2選択手段から受け取り、さらに、
前記第1パターンを含みかつ前記第2パターンを含まないという分類条件を満たすオブジェクトが、前記第1グループに含まれる数である第1充足数、および、そのオブジェクトが前記第2グループに含まれる数である第2充足数をCPUの動作により算出し、
これらの充足数の分布が、分類結果との間の相関が所定の値以下となるように予め定められた他の分類条件を満たすオブジェクトがそれぞれの前記グループに含まれる数の分布と比較して乖離する程度を示すカイ2乗検定値をCPUの動作により算出し、分類の確度を示す評価値として生成する評価値生成手段と、
前記評価値の示す確度が予め定められた基準確度以下の場合に、前記第1パターン及び前記第2パターンの少なくとも1つに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記カイ2乗検定値の最大値をCPUの動作により生成する上限値見積手段と、
前記上限値の示す確度が前記基準確度より大きい場合に、前記記憶装置から前記第1および第2パターンを読み出し、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加して前記記憶装置に格納する処理又は前記第2パターンに構成要素を追加して前記記憶装置に格納する処理を行うことを前記第1選択手段および前記第2選択手段に指示する構成要素追加手段と、
を備え、前記評価値生成手段は、更に、前記構成要素追加手段により追加された前記第1パターン及び前記第2パターンを前記記憶装置から読み出して、読み出した前記第1および第2パターンについて前記評価値を生成し、
さらに、前記記憶装置内に前記基準確度を格納する基準確度格納手段と、
前記評価値生成手段により生成された前記評価値の示す確度が前記基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の前記第1パターン及び前記第2パターンに対応付けて前記基準確度としてCPUの動作により前記基準確度格納手段に格納する基準確度更新手段と、
算出した前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素をCPUの動作により前記基準確度格納手段から読み出して分類の因子として出力する分類因子出力手段と
を備える分類因子検出装置。 - 前記第1グループに分類された複数のオブジェクトのうち前記第1パターンを含むオブジェクトの数をaとし、前記第2パターンを含むオブジェクトの数をcとし、
前記第2グループに分類された複数のオブジェクトのうち前記第1パターンを含むオブジェクトの数をbとし、前記第2パターンを含むオブジェクトの数をdとする場合において、
前記評価値生成手段は、前記第1充足数である(a−c)及び前記第2充足数である(b−d)に基づいて前記カイ2乗検定値を生成する評価関数であるf(a−c,b−d)により定まる値を、前記評価値として生成し、
前記上限値見積手段は、前記第1パターン及び前記第2パターンのそれぞれ又は前記第2パターンに対して構成要素が追加される場合の前記カイ2乗検定値の上限値として、前記第2グループのうち第2パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a−c,b)及び前記第2グループのうち第1パターンを含むオブジェクトの数が0である場合のカイ2乗検定値であるf(a,b−d)の最大値を生成する
請求項1記載の分類因子検出装置。 - 前記上限値見積手段は、前記評価値生成手段により前記評価値が生成される毎に、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加した場合及び前記第1パターンの内容を保持したまま前記第2パターンに構成要素を追加した場合の前記評価値の上限値を生成し、
前記上限値が示す確度が前記基準確度より大きい場合において、前記構成要素追加手段は、前記複数のオブジェクトの何れかが有する複数の構成要素のうち前記第2パターンに含まれていない構成要素である未評価要素のそれぞれを前記第2パターンに追加した第2追加済パターンのそれぞれを生成する第1の追加処理を行い、更に、前記第1パターン及び前記第2パターンが同一の場合に、前記未評価要素のそれぞれを前記第1パターン及び前記第2パターンに追加した第1追加済パターン及び第2追加済パターンのそれぞれを生成する第2の追加処理を行い、
前記評価値生成手段は、第1又は第2の前記追加処理が行われた前記第1追加済パターン及び前記第2追加済パターンについて前記評価値を生成する
請求項1記載の分類因子検出装置。 - 前記分類因子出力手段は、前記評価値生成手段により生成され確度が前記基準確度を超える複数の評価値のうち、確度の高い順に予め定められた数の評価値のそれぞれに対応する分類条件を、前記分類の因子として出力する
請求項1記載の分類因子検出装置。 - 前記オブジェクトは、複数の構成要素として複数の元素が化学的に結合した化学物質であり、
複数の前記化学物質は、各化学物質が薬品として所定の効用を有するか否かを実験により判定した結果に基づいて2つのグループに分類されており、
前記第1選択手段は、前記複数の化学物質の何れかが有する元素又は元素間の結合のうち、少なくとも一の元素及び元素間の結合の組を前記第1パターンとして選択し、
前記第2選択手段は、前記第1パターンに少なくとも一の元素又は元素間の結合を加えた元素又は元素間の結合の組を前記第2パターンとして選択し、
前記評価値生成手段は、前記第1グループに分類された複数の化学物質のうち前記分類条件を満たす化学物質の数及び前記第2グループに分類された化学物質のうち前記分類条件を満たす化学物質の数に応じて、前記評価値を生成し、
前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける化学物質の組を、前記所定の効用を有する化学物質を分類する因子として出力する
請求項1記載の分類因子検出装置。 - 前記オブジェクトは、複数の語句により構成される文章であり、
複数の前記文章は、各文章を当該文章の内容を示すジャンルにより2つのグループに分類されており、
前記第1選択手段は、前記複数の文章の何れかが有する語句のうち、少なくとも一の語句の組を前記第1パターンとして選択し、
前記第2選択手段は、前記第1パターンに少なくとも一の語句を加えた語句の組を前記第2パターンとして選択し、
前記評価値生成手段は、前記第1グループに分類された複数の語句のうち前記分類条件を満たす文章の数及び前記第2グループに分類された文章のうち前記分類条件を満たす文章の数に応じて、前記評価値を生成し、
前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける語句の組を、複数の文章を所定のジャンルに分類する因子として出力する
請求項1記載の分類因子検出装置。 - 前記オブジェクトは、ワールド・ワイド・ウェブサイトの閲覧履歴であり、
前記構成要素は、閲覧されたウェブページ及び閲覧順序を示す順序情報であり、
複数の前記閲覧履歴は、閲覧の結果行われた処理により2つのグループに分類されており、
前記第1選択手段は、前記閲覧履歴の何れかが有する前記ウェブページ及び前記順序情報のうち、少なくとも一を前記第1パターンとして選択し、
前記第2選択手段は、前記第1パターンに少なくとも一の前記ウェブページ又は前記順序情報を加えた前記第2パターンを選択し、
前記評価値生成手段は、前記第1グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数及び前記第2グループに分類された閲覧履歴のうち前記分類条件を満たす閲覧履歴の数に応じて、前記評価値を生成し、
前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける前記ウェブページ及び前記閲覧順序の組を、閲覧の結果行う処理に応じた分類の因子として出力する
請求項1記載の分類因子検出装置。 - 前記複数の閲覧履歴は、閲覧の過程又は閲覧の結果、ウェブページにおいて商品の売買を行ったか否かにより2つのグループに分類されており、
前記分類因子出力手段は、前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおけるウェブページ及び閲覧順序を、閲覧の過程又は閲覧の結果商品の売買を行うか否かに応じた分類の因子として出力する
請求項7記載の分類因子検出装置。 - それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組をコンピュータにより検出する分類因子検出方法であって、
前記コンピュータは、第1グループに分類されたオブジェクトおよび第2グループに分類されたオブジェクトをオブジェクトデータベースに記憶しており、
前記コンピュータの第1選択手段が、CPUにより前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する複数の構成要素を読み出し、読み出した構成要素の中から少なくとも一の構成要素の組を第1パターンとして選択して記憶装置に格納する第1選択段階と、
前記コンピュータの第2選択手段が、CPUにより前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する複数の構成要素を読み出し、読み出した構成要素の中から前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択して前記記憶装置に格納する第2選択段階と、
前記コンピュータの評価値生成手段が、CPUにより前記オブジェクトデータベースにアクセスして前記第1および第2グループを読み出し、前記第1および第2パターンを前記第1選択段階および前記第2選択段階から受け取り、さらに、
前記第1パターンを含みかつ前記第2パターンを含まないという分類条件を満たすオブジェクトが、前記第1グループに含まれる数である第1充足数、および、そのオブジェクトが前記第2グループに含まれる数である第2充足数をCPUの動作により算出し、
これらの充足数の分布が、分類結果との間の相関が所定の値以下となるように予め定められた他の分類条件を満たすオブジェクトがそれぞれの前記グループに含まれる数の分布と比較して乖離する程度を示すカイ2乗検定値をCPUの動作により算出し、分類の確度を示す評価値として生成する評価値生成段階と、
前記コンピュータの上限値見積手段が、前記評価値の示す確度が予め定められた基準確度以下の場合に、前記第1パターン及び前記第2パターンの少なくとも1つに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記カイ2乗検定値の最大値をCPUの動作により生成する上限値見積段階と、
前記コンピュータの構成要素追加手段が、前記上限値の示す確度が前記基準確度より大きい場合に、前記記憶装置から前記第1および第2パターンを読み出し、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加して前記記憶装置に格納する処理又は前記第2パターンに構成要素を追加して前記記憶装置に格納する処理を行うことを前記第1選択手段および前記第2選択手段に指示する構成要素追加段階と、
前記コンピュータの評価値生成手段が、前記構成要素追加段階において追加された前記第1パターン及び前記第2パターンを前記記憶装置から読み出して、読み出した前記第1および第2パターンについて前記評価値を生成する段階と、
前記コンピュータの基準確度格納手段が、前記記憶装置内に前記基準確度を格納する基準確度格納段階と、
前記コンピュータの基準確度更新手段が、前記評価値生成手段により生成された前記評価値の示す確度が前記基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の前記第1パターン及び前記第2パターンに対応付けて前記基準確度としてCPUの動作により前記基準確度格納手段に格納する基準確度更新段階と、
前記コンピュータの分類因子出力手段が、算出した前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素をCPUの動作により前記基準確度格納手段から読み出して分類の因子として出力する分類因子出力段階と
を備える分類因子検出方法。 - それぞれが複数の構成要素により構成される複数のオブジェクトを、各オブジェクトが所定の特性を有するか否かを分析して2つのグループに分類した分類結果について、当該分類の因子となる構成要素の組を検出する分類因子検出装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
第1グループに分類されたオブジェクトおよび第2グループに分類されたオブジェクトを記憶するオブジェクトデータベースと、
前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から少なくとも一の構成要素の組を第1パターンとして選択して記憶装置に格納する第1選択手段と、
前記オブジェクトデータベースにアクセスして、前記複数のオブジェクトの何れかが有する構成要素を読み出し、読み出した構成要素の中から前記第1パターンに少なくとも一の他の構成要素を加えた第2パターンを選択して前記記憶装置に格納する第2選択手段と、
前記オブジェクトデータベースにアクセスして前記第1および第2グループを読み出し、前記第1および第2パターンを前記第1選択手段および前記第2選択手段から受け取り、さらに、
前記第1パターンを含みかつ前記第2パターンを含まないという分類条件を満たすオブジェクトが、前記第1グループに含まれる数である第1充足数、および、そのオブジェクトが前記第2グループに含まれる数である第2充足数をCPUの動作により算出し、
これらの充足数の分布が、分類結果との間の相関が所定の値以下となるように予め定められた他の分類条件を満たすオブジェクトがそれぞれの前記グループに含まれる数の分布と比較して乖離する程度を示すカイ2乗検定値をCPUの動作により算出し、分類の確度を示す評価値として生成する評価値生成手段と、
前記評価値の示す確度が予め定められた基準確度以下の場合に、前記第1パターン及び前記第2パターンの少なくとも1つに構成要素を追加することにより前記第1充足数及び前記第2充足数がとりうる値の範囲内における評価値の上限値として、当該範囲内における複数の端点のそれぞれにおける前記カイ2乗検定値の最大値をCPUの動作により生成する上限値見積手段と、
前記上限値の示す確度が前記基準確度より大きい場合に、前記記憶装置から前記第1および第2パターンを読み出し、前記第1パターン及び前記第2パターンのそれぞれに同一の構成要素を追加して前記記憶装置に格納する処理又は前記第2パターンに構成要素を追加して前記記憶装置に格納する処理を行うことを前記第1選択手段および前記第2選択手段に指示する構成要素追加手段と
して機能させ、前記評価値生成手段は、更に、前記構成要素追加手段により追加された前記第1パターン及び前記第2パターンを前記記憶装置から読み出して、読み出した前記第1および第2パターンについて前記評価値を生成し、
さらに、前記コンピュータを、
前記記憶装置内に前記基準確度を格納する基準確度格納手段と、
前記評価値生成手段により生成された前記評価値の示す確度が前記基準確度を超える場合に、当該評価値が示す確度を当該評価値が生成された場合の前記第1パターン及び前記第2パターンに対応付けて前記基準確度としてCPUの動作により前記基準確度格納手段に格納する基準確度更新手段と、
算出した前記評価値の示す確度が前記基準確度を超える場合に、前記第1パターン及び前記第2パターンのそれぞれにおける構成要素をCPUの動作により前記基準確度格納手段から読み出して分類の因子として出力する分類因子出力手段と
して機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003278138A JP4107658B2 (ja) | 2003-07-23 | 2003-07-23 | 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 |
US10/890,419 US7337186B2 (en) | 2003-07-23 | 2004-07-13 | Classification factor detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003278138A JP4107658B2 (ja) | 2003-07-23 | 2003-07-23 | 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005044163A JP2005044163A (ja) | 2005-02-17 |
JP4107658B2 true JP4107658B2 (ja) | 2008-06-25 |
Family
ID=34074694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003278138A Expired - Fee Related JP4107658B2 (ja) | 2003-07-23 | 2003-07-23 | 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7337186B2 (ja) |
JP (1) | JP4107658B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005301786A (ja) * | 2004-04-14 | 2005-10-27 | Internatl Business Mach Corp <Ibm> | 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 |
BRPI0617720A2 (pt) | 2005-10-19 | 2011-08-02 | Hoffmann La Roche | compostos inibidores de nnrt de fenil-acetamida, usos dos referidos compostos e composição farmacêutica que os contém |
MX2009012704A (es) | 2007-05-30 | 2009-12-08 | Hoffmann La Roche | Inhibidores de transcriptasa inversa de no nucleosidos. |
US20100163316A1 (en) * | 2008-12-30 | 2010-07-01 | Microsoft Corporation | Handwriting Recognition System Using Multiple Path Recognition Framework |
US8332419B1 (en) * | 2010-05-13 | 2012-12-11 | A9.com | Content collection search with robust content matching |
JP5523574B2 (ja) * | 2010-09-24 | 2014-06-18 | 株式会社日立ソリューションズ | オペレーショナルリスク分析サーバおよびオペレーショナルリスク分析システム |
US8484206B2 (en) | 2011-07-13 | 2013-07-09 | Sap Ag | Generating report of identifiers and time values |
US20130173332A1 (en) * | 2011-12-29 | 2013-07-04 | Tom Thuy Ho | Architecture for root cause analysis, prediction, and modeling and methods therefor |
US20130030760A1 (en) * | 2011-07-27 | 2013-01-31 | Tom Thuy Ho | Architecture for analysis and prediction of integrated tool-related and material-related data and methods therefor |
US9171069B2 (en) * | 2012-07-31 | 2015-10-27 | Freedom Solutions Group, Llc | Method and apparatus for analyzing a document |
WO2015097773A1 (ja) * | 2013-12-25 | 2015-07-02 | 株式会社日立製作所 | 要因抽出システム、要因抽出方法 |
US10380486B2 (en) | 2015-01-20 | 2019-08-13 | International Business Machines Corporation | Classifying entities by behavior |
JP5885875B1 (ja) * | 2015-08-28 | 2016-03-16 | 株式会社Ubic | データ分析システム、データ分析方法、プログラム、および、記録媒体 |
US10802891B2 (en) * | 2018-10-30 | 2020-10-13 | Stoplight, Inc. | Application interface governance platform to harmonize, validate, and replicate data-driven definitions to execute application interface functionality |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5539838A (en) * | 1990-09-14 | 1996-07-23 | Fuji Photo Film Co., Ltd. | Abnormal pattern detecting apparatus pattern finding aparatus and liner pattern width calculating apparatus |
KR960028223A (ko) * | 1994-12-15 | 1996-07-22 | 나카사토 요시히코 | 영상쌍간의 위상차 검출 방법 |
US6606659B1 (en) * | 2000-01-28 | 2003-08-12 | Websense, Inc. | System and method for controlling access to internet sites |
US20040110172A1 (en) * | 2002-06-06 | 2004-06-10 | Vizx Labs, Llc | Biological results evaluation method |
-
2003
- 2003-07-23 JP JP2003278138A patent/JP4107658B2/ja not_active Expired - Fee Related
-
2004
- 2004-07-13 US US10/890,419 patent/US7337186B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005044163A (ja) | 2005-02-17 |
US7337186B2 (en) | 2008-02-26 |
US20050021554A1 (en) | 2005-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4039488B2 (ja) | 多頻度パターン抽出装置、多頻度パターン抽出方法、及びそのプログラムと記録媒体 | |
Karaa et al. | Medline text mining: an enhancement genetic algorithm based approach for document clustering | |
JP4107658B2 (ja) | 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 | |
JP5421737B2 (ja) | コンピュータ実施方法 | |
EP1304627B1 (en) | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects | |
JP5501373B2 (ja) | 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 | |
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
US6775677B1 (en) | System, method, and program product for identifying and describing topics in a collection of electronic documents | |
Mencía et al. | Efficient voting prediction for pairwise multilabel classification | |
US20140114977A1 (en) | System and method for document analysis, processing and information extraction | |
JP6150291B2 (ja) | 矛盾表現収集装置及びそのためのコンピュータプログラム | |
Wang et al. | Targeted disambiguation of ad-hoc, homogeneous sets of named entities | |
JP2010055618A (ja) | トピックを基にした検索を提供する方法及びシステム | |
JP2009294939A (ja) | 文書分類装置 | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
Chang et al. | Classification and visualization of the social science network by the minimum span clustering method | |
Belford et al. | Ensemble topic modeling using weighted term co-associations | |
JP5141152B2 (ja) | テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置 | |
Somantri et al. | Opinion mining on culinary food customer satisfaction using naïve bayes based-on hybrid feature selection | |
JP2008146293A (ja) | 閲覧対象情報の評価システム、方法、およびプログラム | |
JP2009211280A (ja) | オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR20170045403A (ko) | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 | |
Dahak et al. | A probabilistic model to exploit user expectations in XML information retrieval | |
Xiong et al. | Characterizing pattern preserving clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070320 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070927 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080125 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080325 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080331 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140411 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |