JP2003186886A - データ解析システム、データ解析装置、表示端末、データ解析方法、プログラム - Google Patents

データ解析システム、データ解析装置、表示端末、データ解析方法、プログラム

Info

Publication number
JP2003186886A
JP2003186886A JP2001382814A JP2001382814A JP2003186886A JP 2003186886 A JP2003186886 A JP 2003186886A JP 2001382814 A JP2001382814 A JP 2001382814A JP 2001382814 A JP2001382814 A JP 2001382814A JP 2003186886 A JP2003186886 A JP 2003186886A
Authority
JP
Japan
Prior art keywords
data
analysis
group
factor
data element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001382814A
Other languages
English (en)
Other versions
JP3931214B2 (ja
Inventor
Masakazu Shirota
正和 城田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM Japan Ltd
Original Assignee
IBM Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IBM Japan Ltd filed Critical IBM Japan Ltd
Priority to JP2001382814A priority Critical patent/JP3931214B2/ja
Priority to US10/319,271 priority patent/US7333973B2/en
Publication of JP2003186886A publication Critical patent/JP2003186886A/ja
Application granted granted Critical
Publication of JP3931214B2 publication Critical patent/JP3931214B2/ja
Priority to US11/926,337 priority patent/US7979429B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 データ解析を効率良く行い、精度の高い解析
結果を得ることのできる技術を提供することを目的とす
る。 【解決手段】 一対多の関係を有したデータの集合であ
る基礎データを解析するに際し、二つのデータエレメン
トが共存するデータの数である同時発生数を、全てのデ
ータエレメントの組み合わせにおいて求め、これを基
に、一つのデータエレメントの他のデータエレメントに
対する依存率を求める。そして、個々のデータエレメン
トの発生数および依存率と所定の敷居値との関係によっ
て、データエレメントのグループ分けを行なう。また、
個々のデータエレメントの発生数や依存率に基づき、同
じグループ内のデータエレメントの従属関係を特定し、
ツリー図やバルーン図等の形態でユーザに対して表示す
ることも可能である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一対多の関係を有
したデータの集合を対象としたデータ解析システム等に
関する。
【0002】
【従来の技術】従来より、膨大な量のデータから、特定
のデータに関連した情報を探す方法として、キーワード
検索や、予め個別に付与された分類コード等が用いられ
ているのは周知の通りである。例えば、特許の公報類を
例に取れば、それぞれの出願には、出願番号、発明の名
称、出願人、発明者、IPC分類等の情報が含まれてい
る。これらのデータを格納したデータベースの中から特
定の公報のデータを引き出そうとする場合、例えば発明
の名称や出願人をキーワードとして検索したり、あるい
は出願番号やIPC分類を用いて検索している。上記の
ような従来の手法では、膨大なデータの中から特定のデ
ータを引き出すには、用いるキーワードや分類コードが
適切であれば、ほぼ確実に目的のデータを得ることが可
能である。
【0003】
【発明が解決しようとする課題】しかしながら、上記し
たような従来の手法は、膨大なデータの中から複数のデ
ータの関連性等について情報を得るのは非常に困難であ
る。具体例を挙げれば、特許の公報のデータベースから
技術分野毎に発明者(技術者)を分類しようとする場合等
である。このような場合、対象となる発明者数が膨大で
あったり、一部の発明者が複数の技術分野に関わってい
たりすると、機械的な検索だけで精度の高い情報を得る
のは難しい。また、発生頻度が低い発明者までを含んで
グループ分けを行うと、特定のグループに含まれる発明
者の数が膨大になりすぎてしまうということもある。さ
らに言えば、単にグループ分けを行うだけでなく、発明
者間の関連や、その技術分野に関わっている複数の発明
者内で中心的な発明者を特定したり、発明者間での主従
関係等を類推しようとするのは、ほとんど不可能である
といっても差し支えがない。
【0004】このため、このような情報を得たい場合に
は、人手により、データ間の関連性をまとめるのが一般
的である。これでは、言うまでもなく膨大な手間がかか
って効率的ではなく、時間とコストがかかる。また、解
析の途中で、人による判断等の入る余地が大きいため、
情報を解析する人によって最終的に得られる結果が全く
異なってしまうという問題もある。
【0005】上記では、特許の公報類を例に挙げたが、
これは上記課題の理解を助けるためのあくまでも一例で
ある。近年、ゲノム研究等をはじめとして、膨大な量の
データからデータ間の関連性等を解析することの必要性
はますます高まっている。本発明は、このような技術的
課題に基づいてなされたもので、データ解析を効率良く
行い、精度の高い解析結果を得ることのできる技術を提
供することを目的とする。
【0006】
【課題を解決するための手段】かかる目的のもと、本発
明のデータ解析システムは、一つのデータに対し複数の
データ因子が関わるデータの集合をデータベースに格納
し、解析処理部にて、解析対象となる複数のデータ(デ
ータの集合)中における第一のデータ因子と第一のデー
タ因子に対する第二のデータ因子の同時発生数とに基づ
いて、複数のデータ因子間の関連性を解析し、その解析
結果を結果出力部にて出力することを特徴とする。ここ
で、第一のデータ因子、第二のデータ因子とは、解析対
象となる複数のデータを構成するデータ因子の中から組
み合わせた任意の二つのデータ因子である。さらに言え
ば、解析対象となるデータを構成する全てのデータ因子
の組み合わせについて同時発生数を求める。なお、同時
発生とは、第一のデータ因子と第二のデータ因子が一つ
のデータに共存することを言う。そして、この同時発生
数に基づき、データ因子を複数のグループに分けること
ができる。すなわち、同時発生数と、第一のデータ因子
の発生数の比(以下、この比を“依存率”と適宜称する)
が所定値以上であるときに、第一のデータ因子と第二の
データ因子が同じグループであると定義することによっ
てグループ分けを行っていく。ここで、依存率は、第一
のデータ因子が、第二のデータ因子と共存する割合、つ
まり第二のデータ因子に依存する割合を示すことにな
る。このように、依存率が所定値以上であるときにグル
ープ分けを行うことにより、関連の深いデータ因子どう
しのみを同じグループとすることになるので、特定のグ
ループに分類されるデータ因子の数が必要以上に膨れ上
がるのを防止できる。
【0007】なお、このようなデータ解析システムは、
解析を実行する解析処理部およびデータベースと、ユー
ザが結果出力部側から解析結果の出力を受ける結果出力
部とを一体に備えても良いし、ユーザがインターネット
やLAN等のネットワークを介して解析処理部にアクセ
スし、解析結果を受け取る構成とすることもできる。こ
の場合、解析を実行する側となるデータ解析装置の構成
は、解析処理手段にて、データベースに格納された複数
のデータのそれぞれを構成するキーワードの発生状況に
基づき、関連する二つのキーワードを特定した後、特定
されたキーワードの組み合わせに基づいてこれらキーワ
ードをグループ分けし、出力手段にて、解析処理手段で
の解析結果を外部に出力するものとなる。ここで、解析
処理手段では、二つのキーワードを含んで構成されるデ
ータの数を求め、その数が敷居値に対する所定条件を満
たすときに二つのキーワードが同一のグループに属する
と定義することができる。この敷居値としては、二つの
キーワードの双方が同時発生するデータの数と、一方の
キーワードの発生数の比(以下、この比を“依存率”と
適宜称する)を用いることができる。また、所定条件を
満たさないとき、キーワードを含むデータを構成する他
のキーワードが属するグループに基づいて、キーワード
が属するグループを定義することも可能である。つま
り、所定条件を満たさないために属するグループを定義
できないキーワードに対し、そのキーワードを含むデー
タを構成する他のキーワードが最も多く属するグループ
を、そのキーワードが属するグループとして定義するの
である。
【0008】また、上記したように、解析を実行する解
析処理部およびデータベースと、ユーザが解析結果の出
力を受ける結果出力部とを独立した構成とする場合、ユ
ーザが結果出力部として用いる表示端末は、ネットワー
ク等を介して上記したようなデータ解析装置に対してア
クセスしてデータ解析を要求する要求手段と、データ解
析装置からネットワーク等を介してデータ解析結果を受
け取るデータ通信装置等の受取手段とを備える構成とな
る。すなわち、本発明にかかる表示端末では、要求手段
にて、一つのデータに対し複数のデータ因子が関わるデ
ータの解析を、ネットワーク等を介してデータ解析装置
に対して要求することができる。これを受けたデータ解
析装置側では、要求に応じ、複数のデータ因子中で組み
合わせた二つのデータ因子の発生数に基づいて、複数の
データ因子の関連についての解析を行ない、その解析結
果を表示端末に転送する。表示装置では、ネットワーク
を介し、受取手段で解析結果を受け取り、表示手段に
て、複数のデータ因子の関連を示す図を表示することが
できる。ここで、表示手段では、複数のデータ因子間の
従属関係をツリー図で示すことができる。このようなツ
リー図を作るには、同じグループに属するデータのそれ
ぞれにおいて、他のデータとの組み合わせを検討し、最
も依存率が高くなる組み合わせを抽出する。そして、抽
出された組み合わせにおいて、依存率に基づいてデータ
因子間の従属関係を特定する。このとき、例えばデータ
因子“A”のデータ因子“B”に対する依存率よりも、
データ因子“B”のデータ因子“A”に対する依存率が
高ければ、データ因子“B”はデータ因子“A”に依存
している、つまりデータ因子“B”はデータ因子“A”
に従属している、と特定できる。また、二つのデータ因
子の発生数に基づいて従属関係を特定することもでき
る。この場合、発生数の小さいデータ因子が、発生数の
大きいデータ因子に従属する、と特定することもでき
る。また、表示手段は、データ因子のそれぞれを例えば
円等の図形で示し、その図形のサイズをデータ因子の発
生数に基づいて設定し、また図形の間隔を複数のデータ
因子の関連性に基づいて設定することもできる。ここ
で、複数のデータ因子の関連性は、例えば、二つのデー
タ因子が同時発生するデータの数と、一方のデータ因子
の発生数との比を用いることができる。
【0009】また、本発明は、一つのデータに対し複数
のデータ因子が関わるデータの解析方法として捉えるこ
ともでき、解析対象となる複数のデータ中における一つ
のデータ因子に対する他のデータ因子の依存率を求め、
この依存率に基づいてデータ因子をグループ分けし、そ
のグループ分け結果を出力することを特徴とする。ここ
で、グループ分けするに際しては、一つのデータ因子に
対する他のデータ因子の同時発生数と、一つのデータ因
子の発生数の比を依存率とし、この依存率が所定値以上
であるときに、これら一つのデータ因子と他のデータ因
子が同じグループであると定義することができる。ま
た、同時発生数と一つのデータ因子の発生数の比に基づ
き、一つのデータ因子と他のデータ因子の従属関係を特
定することも可能である。
【0010】本発明は、コンピュータ装置に実行させる
プログラムとして捉えることも可能であり、このプログ
ラムは、データベースに格納された複数のデータのそれ
ぞれを構成するキーワードの発生状況に基づき、関連す
る二つのキーワードを特定し、特定された一組以上のキ
ーワードに基づいて、これらキーワードをグループ分け
する処理をコンピュータ装置に実行させる。つまり、
“A”というキーワードと“B”というキーワードが関
連していると特定されれば、“A”と“B”を同じグル
ープと定義するのである。さらに“B”というキーワー
ドと“C”というキーワードが関連していると特定され
れば、“C”というキーワードも、“A”と“B”と同
じグループであると定義するのである。
【0011】
【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいてこの発明を詳細に説明する。図1は、本実施
の形態におけるデータ解析システムの構成を説明するた
めの図である。この図1に示すように、データ解析シス
テムは、基礎データ(データ)を格納したデータベース1
0と、インターフェイス部(要求手段)20、データベー
ス10に格納されたデータを解析する解析処理部(解析
処理手段)30、モニタやプリンタ等の出力部(結果出力
部、出力手段、表示手段)40、を備える。このような
データ解析システムでは、ユーザがインターフェイス部
20にてデータ解析を要求するための所定の操作を行う
と、これを受けた解析処理部30が、データベース10
に格納されたデータを解析し、その解析結果を出力部4
0に転送し、これを受けた出力部40では、解析結果を
表示あるいはプリントアウト等といった形態でユーザに
対して出力する構成となっている。ここで、解析処理部
30は、予めインストールされたプログラムと、このプ
ログラムに基づいて所定の処理を実行するCPU等によ
って実現されるもので、後述するような解析処理を実行
する。
【0012】次に、上記解析処理部30において実行さ
れる解析手法について、図2に示すフローチャートに沿
って順次説明する。ここで図3は、データベース10に
格納されている基礎データの例である。この図3に示す
ように、基礎データは複数のサンプルデータの集合であ
り、個々のサンプルデータに対して付与されたサンプル
番号(図中、“10001”〜“10031”)に対し、データフィ
ールド1〜4(図中、“データ1”、“データ2”、
“データ3”、“データ4”)に、個々のサンプルデー
タに関連するデータエレメント(データ因子、キーワー
ド:図中、データ“A”〜“L”)が、“1”対“多(1
を含む)”で関連付けられている。ここで、具体例を挙
げれば、基礎データが特許の公報類に関するものであれ
ば、サンプル番号に“出願番号”、データエレメントに
“発明者”が当てはまる。また、基礎データがゲノム研
究に関するものであれば、サンプル番号に“サンプル提
供者”、データエレメントに“サンプル提供者が有する
疾患”や“サンプル提供者の遺伝子上の特徴”等が当て
はまる。
【0013】さて、インターフェイス部20にて、ユー
ザがデータ解析を開始するための所定の操作を行うと、
これを受けた解析処理部30は、まずデータベース10
から基礎データを読み出して解析処理部30が用いるメ
モリ上に展開する。このとき、図3に示したような基礎
データを、図4に示すように“1”対“1”に正規化し
て展開する(ステップS101)。例えば、図3では、サ
ンプル番号“10001”のサンプルデータに対して、デー
タエレメントとして“A”と“C”が関連付けられてい
る。これを、図4に示すように、サンプル番号“1000
1” のサンプルデータとデータエレメントの“A”、サ
ンプル番号“10001” のサンプルデータとデータエレメ
ントの“C”をそれぞれ個別に関連付けたデータ構造と
するのである。
【0014】続いて、解析処理部30では、図4のテー
ブルにおいて、各データエレメントの発生数を求める
(ステップS102)。例えば、サンプル番号“10001”
〜“10031”のサンプルデータにデータエレメント
“A”が含まれる(発生している)のは“14”個であ
る。図5は、求めた各データエレメントの発生数を示す
テーブルであり、例えば、データエレメント“A”の発
生数は“14”となる。
【0015】また、解析処理部30は、図3のテーブル
に登場する全てのデータエレメントのうちの二つを組み
合わせ、それぞれの組み合わせ(組み合わせた二つのデ
ータエレメント:第一のデータ因子と第二のデータ因
子)が同時に発生している数(同時発生数)を求める(ステ
ップS103)。図6は、二つのデータエレメントの組
み合わせの同時発生数を示すテーブルである。例えば、
図4のテーブルにおいて、データエレメント“A”と
“B”が同時に発生しているのは、“7”個であるた
め、同時発生数は“7”となる。
【0016】次いで、上記で求めた各データエレメント
の発生数(図5)、データエレメントの組み合わせの同時
発生数(図6)を基に、データエレメント間の依存率を求
める(ステップS104)。ここで、データエレメント間
の依存率とは、一つのデータエレメントが他の一つのデ
ータエレメントに依存する率、つまり、一つのデータエ
レメントの発生数に対する、他の一つのデータエレメン
トとの同時発生数の割合である。例えば、発明者(デー
タエレメント)“A”の全出願数(発生数)に対し、他の
発明者(データエレメント)“B”が共同発明者となって
いる数(同時発生数)の割合を求め、これにより発明者
“A”が発明者“B”に頼っている(依存している)割合
を求めるのである。図7は、上記のようにして求めたデ
ータエレメント間の依存率を示すテーブルである。例え
ば、図5、図6のテーブルにおいて、データエレメント
“A”のデータエレメント“B”に対する依存率は、デ
ータエレメント“A”の発生数が“14”であり、デー
タエレメント“A”および“B”の同時発生数が“7”
であるので、主データであるデータエレメント“A”
の、従データであるデータエレメント“B”に対する依
存率は、7÷14=0.50となっている。
【0017】ここでは、さらに、主データであるデータ
エレメントの発生数、主データと従データの同時発生
数、求めた依存率のそれぞれについて、予め定めた敷居
値に対する条件を満たすか否かを判定する(ステップS
105)。主データであるデータエレメントの発生数に
対しては、本実施の形態では敷居値として“3”が設定
され、主データであるデータエレメントの発生数が、こ
の敷居値以上であるか否かを判定し、条件を満たすので
あれば“1”のフラグを立て、条件を満たさないときに
は“0”とする。この敷居値の目的は、以降の処理にお
いて、発生数が少ないサンプルデータを排除し、これに
よって細部に囚われ過ぎることなく基礎データ全体の傾
向を掴むことにある。主データと従データの同時発生数
に対しては、本実施の形態では敷居値として“1”が設
定され、同時発生数がこの敷居値以上であるか否かを判
定し、条件を満たすのであれば“1”のフラグを立て、
条件を満たさないときには“0”とする。この敷居値の
目的は、例えば依存率が後述の敷居値による条件を満た
す場合であっても、同時発生数が少ないデータを排除し
たり、例えば主データの発生数が膨大で、これに対して
主データと従データの同時発生数が小さい場合等に、そ
のデータを確実に拾い上げること、等にある。依存率に
対しては、本実施の形態では敷居値として“0.60”
が設定され、主データの従データに対する依存率がこの
敷居値以上であるか否かを判定し、条件を満たすのであ
れば“1”のフラグを立て、条件を満たさないときには
“0”とする。この敷居値の目的は、依存率が高い、つ
まり互いに関連性の高いデータエレメントどうしのデー
タを用いて以降の処理を行い、基礎データ中、顕著なデ
ータ間の関連性を掴むことにある。
【0018】このようにして主データであるデータエレ
メントの発生数、主データと従データの同時発生数、求
めた依存率のそれぞれについて、予め定めた敷居値に対
する条件を満たすか否かを判定した結果である前記三つ
のフラグに基づき、全ての敷居値に対する条件を満た
す、つまり三つのフラグが“1”となっているデータエ
レメントの組み合わせに対し、条件フラグ“1”を立
て、そうでない組み合わせに対しては“0”とする。図
7において、例えば、データエレメント“A”を主デー
タとし、データエレメント“B”を従データとする組み
合わせにおいて、主データであるデータエレメント
“A”の発生数は“14”であるため、敷居値の“3”
以上であり、“1”のフラグが立つ。また、主データで
あるデータエレメント“A”、従データであるデータエ
レメント“B”の同時発生数は“7”であり、敷居値の
“1”以上であるので、“1”のフラグが立つ。主デー
タであるデータエレメント“A”のデータエレメント
“B”に対する依存率は“0.50”であり、敷居値の
“0.60”未満であるため、条件を満たさず、フラグ
は“0”のままとなる。そして、3つの条件のうち、一
つの条件についてフラグが“0”となっているため、条
件フラグは“0”のままとなる。また、例えば、データ
エレメント“B”を主データとし、データエレメント
“A”を従データとする組み合わせにおいて、主データ
であるデータエレメント“B”の発生数は“9”である
ため、敷居値の“3”以上であり、“1”のフラグが立
つ。また、主データであるデータエレメント“B”、従
データであるデータエレメント“A”の同時発生数は
“7”であり、敷居値の“1”以上であるので、“1”
のフラグが立つ。主データであるデータエレメント
“B”のデータエレメント“A”に対する依存率は
“0.78”であり、敷居値の“0.60”以上である
ため、条件を満たし、“1”のフラグが立つ。そして、
3つの条件の全てのフラグが“1”となっているため、
条件フラグとして“1”が立っている。なお、本実施の
形態では、三つのフラグがAND条件を満たすときに条
件フラグ“1”が立つ構成としたが、必ずしもこれにと
らわれるものではない。
【0019】次いで、上記のようにして設定した条件フ
ラグに基づき、解析処理部30にて、基礎データに登場
するデータエレメントのグループ分け処理を行う(ステ
ップS106)。図8は、グループ分け処理の詳細な流
れを示すものである。また、図9は、図8に示す処理に
沿ってグループ分けを行った結果を示すテーブルの例で
ある。なお、このテーブル中、“Y”とあるのは、条件
フラグ“1”が立っている組み合わせを示している。こ
れにはまず、主データであるデータエレメントの発生数
についてのフラグを確認し、フラグが“0”であるもの
については、検討の対象外とする(ステップS201)。
例えば、図7のテーブルでは、データエレメント
“E”、“F”、“J”、“K”、“L”のフラグが
“0”であり、これらを検討の対象外とする。この例で
は、検討の対象外とされたデータエレメント“E”、
“F”、“J”、“K”、“L”以外の、データエレメ
ント“A”、“B”、“C”、“D”、“G”、
“H”、“I”を対象とし、例えばアルファベット順
等、所定の順序で順次検討を行う。
【0020】以降の処理では、検討対象となるデータエ
レメントについて、二つのデータエレメントの組み合わ
せを検討する。このときには、検討対象となるデータエ
レメントのそれぞれについて他のデータエレメントとの
組み合わせを順次サーチし、依存率が敷居値以上である
場合に、その組み合わせ相手であるデータエレメントを
同じグループとして定義していく。
【0021】これにはまず、1番目のデータエレメント
(図9の例ではデータエレメント“A”)を検討対象とし
(ステップS202)、これを新規のグループ(1番目の
グループ“Gr1”)と設定する(ステップS203)。続い
て、この1番目のデータエレメント(データエレメント
“A”)を従データとする組み合わせをサーチする(ステ
ップS204)。そして、条件フラグ“1”が立ってい
る組み合わせにヒットしたとき、検討対象の従データと
なっているデータエレメントと、これと同時に発生して
いる主データのデータエレメントとを、同じグループと
して定義する(ステップS205〜S206)。図9の例
では、データエレメント“B”を主データとする組み合
わせにおいて、条件フラグ“1”が立っている。そこ
で、このデータエレメント“B”をグループ“Gr1”と
定義する。この後、ステップS204に戻り、検討対象
となっているデータエレメントを従データとする組み合
わせにおいて、条件フラグ“1”が立っている組み合わ
せにヒットしなくなるまでサーチを続行する。図9の例
では、他に、データエレメント“A”に対して依存率が
敷居値以上である組み合わせは存在しないので、データ
エレメント“A”を従データとする組み合わせに対する
サーチが完了する。
【0022】検討対象となっているデータエレメントを
従データとする組み合わせのサーチが完了した時点で、
次のデータエレメントを検討対象とし(ステップS20
7〜S208)、新たに検討対象となったデータエレメ
ントを従データとする組み合わせをサーチして、上記ス
テップS204〜S207の処理を繰り返す。図9の例
では、新たに検討対象となったデータエレメント“B”
を従データとする組み合わせに対するサーチを行うと、
条件フラグ“1”が立っている組み合わせは存在しな
い。そこでさらに、従データをデータエレメント“C”
とする組み合わせに対するサーチに移行する。データエ
レメント“C”に対して依存率が敷居値以上である組み
合わせとしては、主データをデータエレメント“B”と
する組み合わせがある。ここで、主データであるデータ
エレメント“B”は、既にグループ“Gr1”に割り当て
られているので、このデータエレメント“C”をグルー
プ“Gr1”と設定する。さらに検討対象を移行してサー
チを続けると、データエレメント“C”に対して依存率
が敷居値以上である組み合わせとしては、他に、主デー
タをデータエレメント“D”とする組み合わせがある。
データエレメント“C”は、既にグループ“Gr1”に割
り当てられたので、そこで、このデータエレメント
“D”をグループ“Gr1”と設定する。この他に、デー
タエレメント“C”に対して依存率が敷居値以上である
組み合わせは存在しないので、データエレメント“C”
に対するサーチを終了する。これ以降、データエレメン
ト“D”、“G”、“H”、“I”について同様のサー
チを行うが、グループ“Gr1”に割り当てられたデータ
エレメント“A”、“B”、“C”、“D”に関連した
組み合わせは存在しないため、グループ“Gr1”に対す
るサーチを完了する。
【0023】このようにして、全てのデータエレメント
を検討対象とした組み合わせを一通り検討した時点で、
グループ分けがなされていないデータエレメントが残っ
ているかどうかを確認する(ステップS209)。そし
て、グループ分けされていないデータエレメントが残っ
ている場合、残っているデータエレメントのうちの1番
目のデータエレメントを検討対象とし(ステップS21
0)、ステップS203に戻って検討を続行する。図9
の例では、データエレメント“A”、“B”、“C”、
“D”については既にグループ“Gr1”が割り当てら
れ、データエレメント“G”、“H”、“I”にはまだ
グループが割り当てられていない。そこでまず、残るデ
ータエレメントのうち、データエレメント“G”を対象
として検討を行う。ここで、ステップS203にて、検
討対象となったデータエレメント“G”に新規に発生さ
せたグループ“Gr2”を割り当てる。この後は、上記ス
テップS204〜S208の処理を繰り返す。すなわ
ち、データエレメント“G”を従データとし、依存率が
敷居値以上である組み合わせをサーチする。すると、主
データをデータエレメント“H”とする組み合わせにお
いて、条件フラグ“1”が立っている。そこで、このデ
ータエレメント“H”をグループ“Gr2”と設定する。
他に、このデータエレメント“G”を従データとして依
存率が敷居値以上である組み合わせとしては、主データ
をデータエレメント“I”とする組み合わせがある。そ
こで、このデータエレメント“I”をグループ“Gr2”
と設定する。
【0024】さらに、データエレメント“H”を従デー
タとして依存率が敷居値以上である組み合わせをサーチ
すると、この組み合わせには条件フラグ“1”が立って
いる組み合わせは存在しないので、続いて従データをデ
ータエレメント“I”とする組み合わせに対するサーチ
に移行する。データエレメント“I”を従データとし、
依存率が敷居値以上である組み合わせとしては、データ
エレメント“G”を主データとする組み合わせがある。
しかし、データエレメント“G”にはグループ“Gr2”
が既に割り当てられているため、これ以上の処理は不要
である。データエレメント“I”を従データとし、依存
率が敷居値以上である組み合わせとしては、他に、デー
タエレメント“H”を主データとする組み合わせがあ
る。しかし、データエレメント“H”にはグループ“Gr
2”が既に割り当てられているため、これ以上の処理は
不要である。データエレメント“G”を従データとし、
依存率が敷居値以上であるさらに他の組み合わせは存在
しないので、データエレメント“G”に対するサーチを
終了する。
【0025】そして、これにより、対象となるデータエ
レメントに対し、全てグループが割り当てられたので、
グループ分け処理を終了する。このような処理の結果、
図9および図10(a)に示すように、データエレメント
“A”、“B”、“C”、“D”に対してグループ“Gr
1”が割り当てられ、これらが同一のグループとされ、
データエレメント“G”、“H”、“I”に対してグル
ープ“Gr2”が割り当てられてこれらが同一のグループ
とされた。
【0026】このようにして、依存率を用いることによ
って、基礎データからデータエレメントのグループ分け
を行うことができる。このとき、例えば図7のテーブル
に示したように、データエレメント“E”は、データエ
レメント“A”、“B”、“C”、“D”との組み合わ
せで同時発生しているが、データエレメント“E”の発
生数自体が少ない(敷居値未満)ために、グループ分けか
ら除外される。これにより、頻度の少ないデータエレメ
ントをこの時点では無視することによって、特定のグル
ープに分類されるデータエレメントの数の無用な増大を
防ぐことができる。また、図7のテーブルの例におい
て、最終的にグループ“Gr2”に割り当てられたデータ
エレメント“G”は、グループ“Gr1”に割り当てられ
たデータエレメント“A”との組み合わせで同時発生し
ているが、その依存率が小さい(敷居値未満)ために、こ
れもグループ分けから除外される。これにより、依存率
が小さいデータエレメントの組み合わせを無視すること
により、特定のグループに分類されるデータエレメント
の数の無用な増大を防ぐとともに、複数のグループが結
合されてしまって大きな一つのグループとなってしまう
ことによって結果が有用でなくなることを防ぐ。
【0027】ところで、上記のようなデータエレメント
のグループ分けを行うと、データ発生数が少なかった
り、また設定によっては依存率が小さかったり等の理由
で、いずれのグループにも属さないデータエレメントが
残ることがある。そこで、それらグループ分けから洩れ
たデータエレメントが属するグループを特定する処理を
以下で行う(ステップS107)。なお、以下の処理は必
ずしも必須ではなく、以下の処理を行わない構成とする
こと、以下の処理をユーザの選択等に応じて実行するオ
プション処理とすること等が可能である。図11は、こ
の処理の詳細な流れを示すものである。なお、この処理
は、処理対象となる個々のデータエレメントに対し、処
理対象のデータエレメントが無くなるまで繰り返し行わ
れるものである。これにはまず、グループ分けから洩れ
たデータエレメントのそれぞれに対し、個別の仮グルー
プを割り当てる(ステップS301)。図10(a)は、上
記のグループ分け処理によって各データエレメントが属
するとされたグループを示すものであり、データエレメ
ント“A”、“B”、“C”、“D”は、グループ“Gr
1”に割り当てられ、データエレメント“G”、
“H”、“I”は、グループ“Gr2”に割り当てられ、
データエレメント“E”、“F”、“J”、“K”、
“L”は、いずれのグループにも割り当てられていな
い。そこで、図10(b)に示すように、これらのデータ
エレメント“E”、“F”、“J”、“K”、“L”に
対し、仮グループとして“Gr10003”、“Gr10004”、
“Gr10005”、“Gr10006”、“Gr10007”を割り当て
る。
【0028】続いて、仮グループが割り当てられた個々
のデータエレメントを含むサンプルデータを対象とした
検討を行うことにより、検討対象となる個々のデータエ
レメントが属するグループを特定する(ステップS30
2)。これには、まず、検討対象となっているデータエ
レメントを含むサンプルデータにおいて、そのデータエ
レメントと同時発生している他のデータエレメントのそ
れぞれの比率を、 比率(α)=1/(サンプルデータに含まれるデータエレ
メントの数−検討対象となっているデータエレメントと
同じグループのデータエレメントの数) という式から求める。またここで、分母が“0”となる
ときは、既存のグループへの割り当てを行わない(ステ
ップS306までジャンプする)。例えば、図12(a)
は、データエレメント“E”を対象として行う検討内容
を示すものであり、サンプル番号“10007”のデータに
おいて、データエレメント“E”と同時発生している他
のデータエレメント“A”、“B”、“C”のそれぞれ
は、 比率(α)=1/(4−1)=0.33 となる(ここでは、便宜上、小数点以下2桁までを表記
する)。また、サンプルデータ“10008”において、デー
タエレメント“E”と同時発生している他のデータエレ
メント“C”、“D”のそれぞれは、 比率(α)=1/(3−1)=0.50 となる。
【0029】次いで、検討対象となっているデータエレ
メントを含む全てのサンプルデータにおいて、そのデー
タエレメントと同時発生している他のデータエレメント
が属しているグループを基に、検討対象となっているデ
ータエレメントの既存の個々のグループに対する依存率
を算出する。ここで、検討対象となっているデータエレ
メントと同じグループのデータエレメントは除く。これ
には、グループ毎に、そのグループに割り当てられてい
るデータエレメントの比率(α)を積算し、その積算値
を、検討対象となったサンプルデータの数で除算する。
例えば、図12(a)の例で言えば、サンプルデータ“10
007”において、検討対象となっているデータエレメン
ト“E”と同時発生している他のデータエレメント
“A”、“B”、“C”、サンプルデータ“10008”に
おいて、データエレメント“C”、“D”は、全てグル
ープ“Gr1”に割り当てられている。このためグループ
“Gr1”に割り当てられているデータエレメントとして
“A”、“B”、“C”、“C”、“D”の比率(α)を
積算すると、その積算値Σ(α)は、 Σ(α)=0.33+0.33+0.33+0.50+
0.50=2.00 である。また、図12(b)に示すように、検討対象とな
ったサンプルデータの数は、サンプルデータ“10007”
と“10008”の二つであるため、検討対象となっている
データエレメント“E”のグループ“Gr1”に対する依
存率(β)は、 依存率(β)=Σ(α)/(サンプルデータの数)=2.00
/2=1.00 となる。
【0030】このようにして、検討を行っているデータ
エレメントについて、依存率が最も高いグループを、そ
のデータエレメントが属するグループとして割り当てる
(ステップS303〜S304)。そして、図10(b)に
おいて仮に割り当てた仮グループを、新たに割り当てら
れたグループに置き換える。このとき、新たに割り当て
るグループがない場合は、最終的にグループ洩れしてい
ることを示す識別番号を割り当てる(ステップS30
5)。これにより、検討対象のデータエレメントのグル
ープへの割り当て処理が完了する。図12(a)の例で
は、検討対象となっているデータエレメント“E”は、
一つのグループ“Gr1”に対する依存率(β)のみが算出
されているため、おのずとこのグループ“Gr1”に割り
当てられることになる。そして、図10(c)に示すよう
に、データエレメント“E”のグループは“Gr1”に置
き換えられる。
【0031】図12(c)および(d)は、同様にしてデー
タエレメント“F”を対象として行った検討内容を示す
もので、データエレメント“F”は、サンプルデータ
“10009”、“10010”において、グループ“Gr1”に対
する依存率(β)が“1.00”となる。したがって、図
10(c)に示したように、このデータエレメント“F”
のグループは“Gr1”に置き換えられる。図12(e)
は、データエレメント“J”を対象として行った検討内
容を示すもので、データエレメント“J”は、単独であ
り、他に有効なグループが存在しないので、最終的にグ
ループ洩れしていることを示す識別番号である“Gr999
9”がグループとして割り当てられる。そして、図10
(c)に示したように、このデータエレメント“J”のグ
ループは、“Gr9999”に置き換えられる。
【0032】図12(f)および(g)は、データエレメン
ト“K”を対象として行った検討内容を示すもので、デ
ータエレメント“K”は、サンプルデータ“10031”に
おいて、データエレメント“L”に仮に割り当てられて
いる仮グループ“Gr10007”に対する依存率(β)が
“1.00”となる。したがって、このデータエレメン
ト“K”のグループは、“Gr10007”に置き換えられ
る。図12(h)は、データエレメント“L”を対象とし
て行った検討内容を示すもので、データエレメント
“L”は、サンプルデータ“10031”において、データ
エレメント“K”に割り当てられている仮グループ“Gr
10007”が、検討対象となっているデータエレメントと
同じグループのデータエレメントに該当するために、有
効な依存率(β)は存在しないが、単独ではないため、
そのまま処理を終了する。
【0033】このようにして、既存のグループ、あるい
は最終的にグループ洩れしていることを示すグループの
いずれも割り当てられず、仮グループのままとなってい
るデータエレメントに対しては、新たなグループを発生
させ、これを割り当てる(ステップS306、S30
7)。例えば、前述のデータエレメント“K”および
“L”は、グループ“Gr1”、“Gr2”、“Gr9999”のい
ずれも割り当てられず、仮グループ“Gr10007”のまま
であるので、図10(c)に示したように、これらは、新
たに発生させたグループ“Gr3”に置き換えられる。
【0034】このようにして、サンプルデータを構成す
るデータエレメントを、敷居値を適宜設定することによ
って得られる適切なサイズに分解することは、特に基礎
データ数が非常に多い場合に有効となる。
【0035】さて次に、上記のようにして解析処理部3
0で実行されたグループ分け処理を基に、出力部40に
てユーザに対して解析結果を出力するためのデータを生
成する(ステップS108)。この解析結果の出力形態と
しては様々なものが考えられるが、本実施の形態では、
例えばデータエレメントの相関関係をツリー図で示す例
を挙げる。図13は、ツリー図を表示するために行う処
理の流れを示すものである。これには、グループ毎に、
そのグループが割り当てられたデータエレメントの従属
関係を検討する。まず、検討対象となるグループが割り
当てられているデータエレメントを主データとし、同じ
グループが割り当てられている他のデータエレメントを
従データとしたときの、主データの発生数、従データの
発生数、主データと従データの同時発生数、主データの
従データに対する依存率を、図7のテーブルから取得す
る。そして、依存率(降順)によってソートする。このと
き、依存率が等しい組み合わせが複数存在する場合、従
データの発生数(昇順)、従データ名(アルファベット昇
順等)の優先順位でソートする。そして、ソートの結
果、依存率が最も高い組み合わせを抽出する。抽出され
た組み合わせにおける従データが、主データであるデー
タエレメントが最も依存するデータエレメントである、
とするのである(ステップS401)。
【0036】図14(a)は、グループ“Gr1”に割り当
てられたデータエレメント“A”について、同じグルー
プ“Gr1”が割り当てられている他のデータエレメント
“B”、“C”、“D”、“E”、“F”を従データと
したときの検討結果を示すもので、ここでは、データエ
レメント“B”を従データとしたときの組み合わせの依
存率“0.50”が最上位となっている。図14(b)
は、同様に、グループ“Gr1”に割り当てられたデータ
エレメント“B”についての検討結果を示すものであ
り、データエレメント“A”を従データとするときの組
み合わせが最上位となっている。図14(c)は、データ
エレメント“C”についての検討結果を示すものであ
り、データエレメント“B”を従データとするときの組
み合わせが最上位となっている。図14(d)は、データ
エレメント“D”についての検討結果を示すものであ
り、データエレメント“C”を従データとするときの組
み合わせが最上位となっている。図14(e)は、データ
エレメント“E”についての検討結果を示すものであ
り、データエレメント“C”を従データとするときの組
み合わせが最上位となっている。図14(f)は、データ
エレメント“F”についての検討結果を示すものであ
り、データエレメント“C”を従データとするときの組
み合わせが最上位となっている。その結果、図14(g)
に示すようなデータエレメントの組み合わせが抽出され
る。
【0037】次いで、抽出された組み合わせにおいて、
データエレメントの相関関係から、データエレメントを
レベル付けする。これにはまず、主データおよび従デー
タにおいて、主データと従データを入れ替えたデータの
組み合わせが存在しているものを“循環関係にあるデー
タエレメント”として特定する。つまり、一方のデータ
エレメントを主データとし、他方のデータエレメントを
従データとする組み合わせと、前記他方のデータエレメ
ントを主データとし、前記一方のデータエレメントを従
データとする組み合わせの双方が抽出されている組み合
わせを全て特定するのである(ステップS402)。
【0038】例えば、図14(g)に示すテーブルにおい
て、データエレメント“A”を主データとし、データエ
レメント“B”を従データとする組み合わせと、データ
エレメント“B”を主データとし、データエレメント
“A”を従データとする組み合わせが存在するため、こ
れらデータエレメント“A”、“B”を“循環関係にあ
るデータエレメント”として特定できる。
【0039】ここで、循環関係にある二つのデータエレ
メントのうちの一方は、同一のグループが割り当てられ
た2以上のデータエレメント中で、最上位に位置するデ
ータエレメントであると推定できる。例えば、データエ
レメントとして、複数の発明者がいる場合、下位となる
発明者は、上位となる発明者に順次依存するのに対し、
最上位の発明者が依存する発明者は必ず下位の発明者と
なるからである。
【0040】次いで、特定された循環関係にある二つの
データエレメントのうち、データ発生数の多い方を最上
位の“レベル1”と設定し、データ発生数の少ない方を
下位の“レベル2”と設定する。これは、上位のデータ
エレメントであれば、おのずと、発明数等、発生数が多
いと考えられるからである(ステップS403、S40
4)。図14の例では、データエレメント“A”のデー
タ発生数が“14”、データエレメント“B”のデータ
発生数が“9”であるので、データエレメント“A”を
“レベル1”、データエレメント“B”を“レベル2”
として設定する。
【0041】この後、“レベル1”、“レベル2”に設
定されたデータエレメントに依存している他のデータエ
レメントをサーチし、依存しているものがあれば、これ
を“レベル1”、“レベル2”に設定されたデータエレ
メントの次(下位)のレベルに関連付けていく(ステップ
S405〜S407)。このとき、一つのデータエレメ
ントに対し、複数のデータエレメントが下位に関連付け
られる場合、依存率(降順)、発生数(降順)、データエレ
メント名のアルファベット順(昇順)の優先順位でソート
を行った後に関連付ける。以降、該当するデータエレメ
ントがなくなるまでこれを繰り返し、順次下位レベルの
データエレメントを上位レベルのデータエレメントに関
連付けていく(ステップS408〜S409)。
【0042】図14の例では、まず、“レベル1”のデ
ータエレメント“A”に依存しているデータエレメント
“B”以外のデータエレメントをサーチすると、他に依
存しているデータエレメントが存在しない。このため、
次に下位の“レベル2”のデータエレメント“B”に依
存しているデータエレメントをサーチする。すると、デ
ータエレメント“C”がこのデータエレメント“B”を
従データとして依存しているため、このデータエレメン
ト“C”を、データエレメント“B”の一つ下位の“レ
ベル3”に設定する。次に、このデータエレメント
“C”に依存するデータエレメントをサーチすると、デ
ータエレメント“D”、“E”、“F”が抽出されるの
で、これらをデータエレメント“C”の一つ下位の“レ
ベル4”に設定する。ここで、これらデータエレメント
“D”、“E”、“F”は、データエレメント“C”に
対する依存率はいずれも“1.00”であるので、ソー
トのための次の優先順位である発生数を見ると、データ
エレメント“D”が“3”であり、データエレメント
“E”、“F”が“2”であるため、データエレメント
“D”が優先順位が最も高くなる。また、データエレメ
ント“E”、“F”は、データ発生数がいずれも“2”
であるため、データエレメント名のアルファベット順に
より、データエレメント“E”、データエレメント
“F”の順で優先順位が設定される。
【0043】上記のようにして、同一のグループが割り
当てられた複数のデータエレメントに対するソートを行
った後、その結果を、図15に示すように、“レベル
1”から順にツリー状の関連図(図)Zdとして示すため
のデータを生成する。このデータに基づいて出力部40
にて出力される関連図Zdでは、“レベル1”、“レベ
ル2”、…といったレベル毎に、一方向に所定の間隔を
隔ててデータエレメントを表示させる。さらに、“レベ
ル1”と“レベル2”のデータエレメント、“レベル
2”と“レベル3”のデータエレメントというように、
互いに上下する二つのレベルのデータエレメントどうし
を、節Xを有したリンク線Yによって結び、相関関係を
表すようにする。図15は、このようにして生成された
データに基づいて、出力部40にてユーザに対して出力
される、グループ“Gr1”に割り当てられたデータエレ
メント“A”、“B”、“C”、“D”、“E”、
“F”の関連図Zdである。このとき、データエレメン
ト“A”、“B”、“C”、“D”、“E”、“F”の
それぞれについて、割り当てられたレベル、データ発生
数、依存率等を併記することもできる。
【0044】同様に、図16(a)〜(c)は、グループ
“Gr2”が割り当てられたデータエレメント“G”、
“H”、“I”の組み合わせを依存率等に基づいてソー
トしたものであり、その結果、図16(d)に示すよう
に、データエレメント“G”を主データとし、データエ
レメント“I”を従データとする組み合わせ、データエ
レメント“H”を主データとし、データエレメント
“G”を従データとする組み合わせ、データエレメント
“I”を主データとし、データエレメント“G”を従デ
ータとする組み合わせが、依存率が最も高い組み合わせ
として抽出される。そして、これら抽出された組み合わ
せからデータエレメント“G”、“H”、“I”のレベ
ル分けを行ない、図17に示すような、データエレメン
ト“G”、“H”、“I”間の相関関係を示す関連図Z
dが生成される。
【0045】同様に、図18(a)〜(b)は、グループ
“Gr3”が割り当てられたデータエレメント“K”、
“L”の組み合わせを依存率等に基づいてソートしたも
のであり、その結果、図18(c)に示すように、データ
エレメント“K”を主データとし、データエレメント
“L”を従データとする組み合わせ、データエレメント
“L”を主データとし、データエレメント“K”を従デ
ータとする組み合わせが、依存率が最も高い組み合わせ
として抽出される。そして、これら抽出された組み合わ
せからデータエレメント“K”、“L”のレベル分けを
行ない、図19に示すような、データエレメント
“K”、“L”間の相関関係を示す関連図Zdが生成さ
れる。
【0046】また、前記のようにして解析処理部30で
実行されたグループ分け処理を基に、出力部40にてユ
ーザに対して他の形態で解析結果を出力することもでき
る。例えば、上記のようにデータエレメントをキーとし
て解析するのではなく、サンプルデータをキーとして解
析を行うこともできる。これには、各サンプルデータに
属するデータエレメントのそれぞれに割り当てられたグ
ループに基づき、それぞれのサンプルデータの個々のグ
ループへの依存率を算出し、これによって各サンプルデ
ータが属するグループを特定する。このとき、各サンプ
ルデータの個々のグループに対する依存率(γ)は、 依存率(γ)=(そのグループに依存するデータエレメン
トの数)/(サンプルデータを構成するデータエレメント
の総数) という式により求められる。そして、サンプルデータが
複数のグループに依存している場合、依存率(降順)、グ
ループに属するデータエレメントの発生数(昇順)、グル
ープ名(アルファベット昇順)の優先順位でソートを行な
い、最上位に位置するグループを、そのサンプルデータ
が属するグループとして特定する。
【0047】図20は、図3のサンプルデータ“1000
1”〜“10031”のそれぞれに属するデータエレメント
“A”〜“L”を示すテーブル、および図10(c)の個
々のデータエレメント“A”〜“L”に割り当てられた
グループ“Gr1”〜“Gr3”、“Gr9999”を基に生成した
情報を示すものである。例えばサンプルデータ“1000
1”において、このサンプルデータ“10001”に属するデ
ータエレメント“A”および“C”は、双方がグループ
“Gr1”に割り当てられている。したがって、このサン
プルデータ“10001”はグループ“Gr1”のみに依存して
おり、当然のことながらこのサンプルデータ“10001”
はグループ“Gr1”に属すると特定される。ちなみに、
その依存率(γ)は、依存率(γ)=2/2=1.00とな
る。また、例えばサンプルデータ“10024”は、グルー
プ“Gr1”に割り当てられたデータエレメント“A”、
グループ“Gr2”に割り当てられたデータエレメント
“G”および“I”によって構成されている。この場
合、サンプルデータ“10024”はグループ“Gr1”に対す
る依存率(γ)が、 依存率(γ)=1/3=0.33 となり、グループ“Gr2”に対する依存率(γ)が、 依存率(γ)=2/3=0.67 となる。したがって、グループ“Gr2”に対する依存率
(γ)が最も高いので、このサンプルデータ“10024”
は、グループ“Gr2”に属するものと特定される。図2
1は、上記のようにして、個々のサンプルデータが属す
ると特定されたグループを示すものである。
【0048】さらに、図22のように、個々のサンプル
データが属するグループ毎に、図15に示したようなデ
ータエレメントの関連図Zdとともに、個々のサンプル
データとデータエレメントの関係を図示することも可能
である。例えば、図22では、グループ“Gr1”のデー
タエレメント“A”、“B”、“C”、“D”、
“E”、“F”のそれぞれが属するサンプルデータに
“●”印が付されている。
【0049】また、前記のようにして解析処理部30で
実行されたグループ分け処理を基に、出力部40にてユ
ーザに対してさらに他の形態で解析結果を出力すること
もできる。例えば、グループ間の関係をキーとして解析
することができる。これにはまず、個々のデータエレメ
ントの発生数と、個々のデータエレメントに割り当てら
れたグループとから、個々のグループの発生数を求め
る。図23(a)は、図4のサンプルデータ“10001”〜
“10031”のそれぞれに属するデータエレメント“A”
〜“L”を示すテーブル、および図10(c)の個々のデ
ータエレメント“A”〜“L”に割り当てられたグルー
プ“Gr1”〜“Gr3”、“Gr9999”を基に生成した情報を
示すものである。例えば、データエレメント“A”は、
そのデータ発生数が“14”であり、グループ“Gr1”
に属していることが示されている。これに基づき、図2
3(b)に示すように、サンプルデータ“10001”〜“100
31”において、グループ“Gr1”、“Gr2”、“Gr3”、
“Gr9999”のそれぞれの発生数が求められ、例えばグル
ープ“Gr1”の発生数は“42”となる。
【0050】続いて、グループ間の関連性を求めるた
め、サンプルデータにおいて、二つのデータエレメント
の組み合わせにおいて、異なるグループに属しているデ
ータエレメントの組み合わせを抽出し、関連性のあるグ
ループの組み合わせを特定する。図24は、図6の二つ
のデータエレメントの組み合わせにおける同時発生数
と、図10(c)の個々のデータエレメント“A”〜
“L”に割り当てられたグループ“Gr1”〜“Gr3”、
“Gr9999”を基に生成した情報を示すものである。例え
ば、データエレメント“A”と“B”の組み合わせにお
いて、データエレメント“A”はグループ“Gr1”に属
し、データエレメント“B”はグループ“Gr1”に属
し、同時発生数が“7”であることを示している。図2
5(a)は、図24を基に、二つのグループの組み合わせ
の同時発生数を示したもので、例えば、グループ“Gr
1”に属しているデータエレメント“A”、“B”、
“C”、“D”、“E”、“F”と、グループ“Gr2”
に属しているデータエレメント“G”、“H”、“I”
の組み合わせでの同時発生数が、“2”となっている。
ただし、このテーブルの中には、データエレメント
“A”と“B”等、同じグループに属しているデータエ
レメントどうしの組み合わせが含まれているので、ここ
から同じグループどうしの組み合わせを排除し、異なる
二つのグループどうしの組み合わせの同時発生数を求め
たものが図25(b)である。図25(b)の例では、グル
ープ“Gr1”と“Gr2”に属している組み合わせの同時発
生数が“2”であり、他の組み合わせは全て“0”とな
っている。つまり、グループ“Gr1”と“Gr2”のみに関
連が存在している。
【0051】続いて、関連性が存在するグループについ
て、データエレメントの場合と同様にグループ間の依存
率を求め、ツリー状の関連図を出力するためのデータを
生成する。図26の例では、関連性が存在するグループ
“Gr1”を主データとし、グループ“Gr2”を従データと
したとき、主データであるグループ“Gr1”の発生数は
“42”であり、グループ“Gr1”と“Gr2”の同時発生
数は“2”であるので、主データの従データに対する依
存率(δ)は、 依存率(δ)=2/42=0.05 となる。同様に、グループ“Gr2”を主データとしたと
きのグループ“Gr1”に対する依存率(δ)は、“0.1
1”となる。これに基づき、図15に示したデータエレ
メントの関連図Zdに対する処理と同様に、図27に示
すように、グループの関連図Zgを示すためのデータを
生成する。出力部40では、生成された図27のような
データに基づき、ユーザに対し、グループの関連図Zg
を出力するのである。
【0052】また、データエレメントの関連を示すに
は、図28に示すようなバルーン図を用いることもでき
る。すなわち、グループ毎に、個々のデータエレメント
の発生数をバルーン(円)BLの面積に比例させ、関連す
る他のデータエレメントをリンクLによって接続すると
ともに、他のデータエレメントに対する依存率をバルー
ンBL間の距離によって表すのである。これには、各デ
ータエレメントの発生数の平方根に、これを寸法(mm)
に変換するための係数(P)を掛け、バルーンの直径(d)
を求める。直径(d)は、 直径(d)=(データエレメントの発生数)0.5×(P) となる。また、互いに関連するデータエレメントを表す
バルーンBL(の中心)間の距離、すなわちリンクLの長
さ(S)は、 長さ(S)=(1/(依存率+小さな数字(M)))0.5 ×(互いに関連するデータエレメントのバルーン半径(d/2)の和) ×定数(Q) により求められる。ここでは、依存率が“0”の場合に
分数の分母が“0”とならないように、小さな数字
(M)を加算している。また、依存率には、レベルが下
位のデータエレメントの上位のデータエレメントに対す
る依存率を用いる。図29(a)は、グループ“Gr1”を
構成するデータエレメント“A”、“B”、“C”、
“D”、“E”、“F”のそれぞれを示すバルーンBL
の直径(d)を示すものである。また、例えば、データエ
レメント“A”は、発生数が14、データエレメント
“B”に対する依存率が0.50であり、その直径(d)
は、ここで、P=7.0とすると、 (d)=140.5×7.0=26.2(mm) となる。図29(b)は、互いに関連するデータエレメン
トの半径の和、(1/(依存率+小さな数字
(M)))0.5、データエレメント間のリンクLの長さ
(S)を示すもので、例えば互いに関連するデータエレメ
ント“A”、“B”の半径の和(ds)は、 半径の和(ds)=26.2/2+21.0/2=23.
60 となっている。また、下位のデータエレメント“B”の
上位のデータエレメント“A”に対する依存率は“0.
78”であるため、 (1/(依存率+小さな数字(M)))0.5=(1/0.7
8)0.5=1.13 となる。したがって、データエレメント間“A”、
“B”間のリンクLの長さ(S)は、定数(Q)=1.0と
すると、 長さ(S)=1.13×23.6×1.0=26.72 となる。
【0053】図28は、このようにして求めた図29
(a)、(b)の情報に基づき、グループ“Gr1”を構成す
るデータエレメント“A”、“B”、“C”、“D”、
“E”、“F”の関連をバルーン図で示したもので、こ
こでは、図面の上方から下方に向けて“レベル1”のデ
ータエレメント“A”から順次下位のレベルのデータエ
レメント“B”、…が配置される構成となっている。そ
して、データエレメント“A”、“B”、“C”、
“D”、“E”、“F”のそれぞれは、図29(a)のテ
ーブルに示した直径(d)を有するバルーンBLによって
示され、例えば“レベル1”のデータエレメント“A”
を示すバルーンBLと“レベル2”のデータエレメント
“B”に対応するバルーンBLとの中心間のリンクLの
長さは、“26.72”mmとされている。
【0054】ここで、データエレメント“C”のバルー
ンBLに対しては、上位のレベル“2”のデータエレメ
ント“B”のバルーンBLと、下位の“レベル4”に属
するデータエレメント“D”、“E”、“F”のバルー
ンBLとがリンクして配置される。このように、一つの
バルーンBLの中心点に対し、複数のリンクLが交差す
る場合、互いに隣接するリンクL間の角度は、リンク先
のデータエレメントの発生数に比例して決める。例え
ば、データエレメント“C”にリンクしたデータエレメ
ント“B”、“D”、“E”、“F”の発生数は、図2
9(c)に示すように、それぞれ“23”、“2”、
“3”、“2”であり、その合計は“30”である。し
たがって、全周360度に対する個々のデータエレメン
トの占有角度(θ)は、 占有角度(θ)=(発生数/発生数の合計)×360 であり、例えばデータエレメント“B”の占有角度(θ)
は、 占有角度(θ)=(23/30)×360=276度 となる。それぞれのデータエレメントに対応したリンク
Lを占有角度(θ)の中心に配置するとすれば、互いに隣
接する他のデータエレメントとのリンク間角度(θm)
は、 (θm)=(データエレメントの占有角度(θ)+隣接する
他のデータエレメントの占有角度(θ))/2 であり、例えば、データエレメント“B”のリンクLと
隣接するデータエレメント“E”とのリンク間角度(θ
m)は、 (θm)=(276+24)/2=150度 となる。図29(c)には、上記の計算から求められる、
データエレメント“C”に対してデータエレメント
“B”、“D”、“E”、“F”を結ぶリンクL間の角
度が示されている。
【0055】また、上記のデータエレメント“B”のよ
うに、上位と下位のレベルに対し2本のリンクLを有す
るデータエレメントについては、上位のレベルのデータ
エレメントに対する依存率と下位のレベルのデータエレ
メントに対する依存率に基づき、上位、下位のデータエ
レメント間に位置するリンクLの長さ(S)を決めること
も可能である。図30に示すように、例えば、データエ
レメント“B”に対し、上位となるデータエレメント
“A”と、下位となるデータエレメント“C”の間に位
置するリンクLの長さ(S)は、前記した 長さ(S)=(1/(依存率+小さな数字(M)))0.5 ×(互いに関連するデータエレメントのバルーン半径(d/2)の和) ×定数(Q) という式から求められ、ここで、下位のデータエレメン
ト“C”の上位のデータエレメント“A”に対する依存
率が“0.42”であるので、 長さ(S)=39.07mm となる。図31は、このようなデータエレメント
“A”、“C”間の関連を反映して示したバルーン図で
ある。
【0056】上述したような構成によれば、一対多の関
係を有したデータの集合である基礎データを解析するに
際し、個々のデータエレメントの発生数および依存率と
所定の敷居値との関係によって、データエレメントのグ
ループ分けを行うことができる。このとき、発生数自体
が少ないデータエレメントや依存度の低いデータエレメ
ントを除外することができるので、特定のグループに分
類されるデータエレメントの数の無用な増大を防ぎ、グ
ループ分けを効率良く行うことができる。さらに、いず
れのグループにも属さないデータエレメントを、そのデ
ータエレメントと同時発生している他のデータエレメン
トが属しているグループを基に、グループ分けすること
もできる。いわば、グループ分けから洩れたマイナーな
データエレメントを拾い上げ、既存のグループに属させ
るのである。加えて、個々のデータエレメントの発生数
や依存率に基づき、同じグループ内のデータエレメント
の従属関係を特定し、ツリー図やバルーン図等の形態で
ユーザに対して表示することも可能である。これによ
り、ユーザは、データ解析結果をビジュアルに得ること
ができる。
【0057】加えて、上記のようにして表示装置上にビ
ジュアルに表示されるデータ解析結果に対し、データエ
レメントやグループを示している表示部分を選択するこ
とにより、選択されたデータエレメントやグループをデ
ータ検索条件とした検索を実行し、そのデータエレメン
トやグループに該当するサンプル番号を抽出すること、
さらには抽出されたサンプル番号に対応したサンプルデ
ータ(例えば特許公報等)を出力すること等も可能とな
る。この他、特許の公報のデータベースのように、デー
タフィールドが定義されていない場合等、例えば明細書
の文語において、文、節や章等の括りをデータとし、そ
れに含まれる単語をデータエレメントとすることによ
り、単語のグループ分け、および単語間の関連性を示す
図等の表示を行なうことも可能となる。さらに、ツリー
図やバルーン図等の関連性を示す図の類似性を比較検討
することによって、基本データの類似性を測定すること
も可能となる。
【0058】なお、上記実施の形態において、データベ
ース10、インターフェイス部20、解析処理部30、
出力部40からなるシステム構成を示したが、これらは
一体のシステムとすることもできるし、例えばデータベ
ース10や解析処理部30に対し、インターフェイス部
20や出力部40をインターネットやLAN等のネット
ワークを介して配置するシステム構成とすること、ある
いは解析処理部30をインターフェイス部20や出力部
40とともにユーザ側に備え、ネットワークを介してデ
ータベース10にアクセスするシステム構成とすること
等が可能である。
【0059】ところで、データエレメントとしては、例
えば“発明者名”等、1種類のものに限らず、例えば
“遺伝子上の特徴”と“疾患”等、複数の種類のものを
混在させることも可能である。このような場合、例えば
ツリー図を示すに際し、図32に示すように、種別毎に
表示エリアV1、V2を分けることもできる。
【0060】また、上記実施の形態で示したようなデー
タ解析処理をコンピュータ装置に実行させるプログラム
は、以下のような記憶媒体、プログラム伝送装置の形態
とすることもできる。すなわち、記憶媒体としては、コ
ンピュータ装置に実行させる上記したようなプログラム
を、CD−ROM、DVD、メモリ、ハードディスク等
の、コンピュータ装置が読み取り可能な記憶媒体に記憶
させれば良い。また、プログラム伝送装置としては、上
記したようなプログラムを記憶させたCD−ROM、D
VD、メモリ、ハードディスク等の記憶手段と、この記
憶手段から当該プログラムを読み出し、当該プログラム
を実行する装置側に、コネクタ、あるいはインターネッ
トやLAN等のネットワークを介して当該プログラムを
伝送する伝送手段とを備える構成とすれば良い。このよ
うなプログラム伝送装置は、特に、コンピュータ解析装
置等に、上記したような処理を行うプログラムをインス
トールする際に好適である。これ以外にも、本発明の主
旨を逸脱しない限り、上記実施の形態で挙げた構成を取
捨選択したり、他の構成に適宜変更することが可能であ
る。
【0061】
【発明の効果】以上説明したように、本発明によれば、
一対多の関係にあるデータの解析を効率良く行い、精度
の高い解析結果を得ることが可能となる。
【図面の簡単な説明】
【図1】 本実施の形態におけるデータ解析システムの
構成を示す図である。
【図2】 データ解析の流れを示す図である。
【図3】 基礎データの一例を示す図である。
【図4】 基礎データを展開した状態を示す図である。
【図5】 各データエレメントの発生数を示す図であ
る。
【図6】 二つのデータエレメントの組み合わせでの同
時発生数を示す図である。
【図7】 依存率および敷居値に対する判定結果を示す
図である。
【図8】 グループ分け処理の流れを示す図である。
【図9】 グループ分けを行う際のテーブルを示す図で
ある。
【図10】 データエレメントのグループ分け結果を示
す図である。
【図11】 グループ分け処理で洩れたデータエレメン
トをグループに割り当てる処理の流れを示す図である。
【図12】 グループ分け処理で洩れたデータエレメン
トが依存するグループを特定するための検討内容の例を
示す図である。
【図13】 グループ毎にデータエレメントの相関関係
を特定するための処理の流れを示す図である。
【図14】 図13の流れに沿ってグループ“Gr1”に
対して行った検討内容の例を示す図である。
【図15】 解析結果の出力形態の一例を示す図であ
り、グループ“Gr1”のデータエレメントの相関関係を
示すツリー図である。
【図16】 図13の流れに沿ってグループ“Gr2”に
対して行った検討内容の例を示す図である。
【図17】 解析結果の出力形態の一例を示す図であ
り、グループ“Gr2”のデータエレメントの相関関係を
示すツリー図である。
【図18】 図13の流れに沿ってグループ“Gr3”に
対して行った検討内容の例を示す図である。
【図19】 解析結果の出力形態の一例を示す図であ
り、グループ“Gr3”のデータエレメントの相関関係を
示すツリー図である。
【図20】 サンプルデータ毎に依存しているグループ
を特定した状態を示す図である。
【図21】 図20の検討結果をまとめた図である。
【図22】 解析結果の出力形態の他の一例を示す図で
あり、データエレメントの相関関係をツリー図で示すと
ともに、サンプルデータを構成するデータエレメントを
示す図である。
【図23】 解析結果をさらに他の形態で出力するにあ
たり、グループ間の関連の検討内容を示す図である。
【図24】 二つのグループの組み合わせでの同時発生
数を示す図である。
【図25】 二つのグループの組み合わせでの同時発生
数の検討結果をまとめた図である。
【図26】 関連のあるグループのみを取り出し、依存
率を算出した状態を示す図である。
【図27】 解析結果として、グループ間の関連を、デ
ータエレメントの場合と同様、ツリー図で示すものであ
る。
【図28】 解析結果の出力形態のさらに他の一例を示
す図であり、データエレメントの相関関係を示すバルー
ン図である。
【図29】 バルーン図を作成するにあたって必要なパ
ラメータを示す図である。
【図30】 さらに、間接的に関連するグループの依存
率についての検討結果を示す図である。
【図31】 図30の検討結果に基づいて作成したバル
ーン図である。
【図32】 データエレメントに複数の種類がある場
合、種類別に解析結果を出力する例を示す図である。
【符号の説明】
10…データベース、20…インターフェイス部(要求
手段)、30…解析処理部(解析処理手段)、40…出力
部(結果出力部、出力手段、表示手段)

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 一つのデータに対し複数のデータ因子が
    関わるデータのデータ解析システムであって、 複数の前記データを格納するデータベースと、 解析対象となる複数の前記データ中における第一のデー
    タ因子の発生数と当該第一のデータ因子に対する当該第
    二のデータ因子の同時発生数とに基づき、複数の前記デ
    ータ因子間の関連性を解析する解析処理部と、 前記解析処理部での解析結果を出力する結果出力部と、
    を備えることを特徴とするデータ解析システム。
  2. 【請求項2】 前記解析処理部は、前記同時発生数に基
    づき、前記データ因子を複数のグループに分けることを
    特徴とする請求項1記載のデータ解析システム。
  3. 【請求項3】 前記解析処理部は、前記同時発生数と前
    記第一のデータ因子の発生数の比が所定値以上であると
    きに、当該第一のデータ因子と前記第二のデータ因子が
    同じグループであると定義することを特徴とする請求項
    2記載のデータ解析システム。
  4. 【請求項4】 前記結果出力部は、複数の前記データ因
    子の関連をツリー図で示すことを特徴とする請求項1記
    載のデータ解析システム。
  5. 【請求項5】 データベースに格納された複数のデータ
    のそれぞれを構成するキーワードの発生状況に基づき、
    関連する二つのキーワードを特定し、特定された前記キ
    ーワードの組み合わせに基づいてこれらキーワードをグ
    ループ分けする解析処理手段と、 前記解析処理手段における解析結果を外部に出力する出
    力手段と、を備えることを特徴とするデータ解析装置。
  6. 【請求項6】 前記解析処理手段は、二つの前記キーワ
    ードを含んで構成される前記データの数を求め、当該デ
    ータの数が敷居値に対する所定条件を満たすときに二つ
    の前記キーワードが同一のグループに属すると定義する
    ことを特徴とする請求項5記載のデータ解析装置。
  7. 【請求項7】 前記解析処理手段は、前記所定条件を満
    たさないとき、前記キーワードを含むデータを構成する
    他のキーワードが属するグループに基づき、当該キーワ
    ードが属するグループを定義することを特徴とする請求
    項6記載のデータ解析装置。
  8. 【請求項8】 前記出力手段は、前記解析処理手段にお
    ける解析結果を図として表示することを特徴とする請求
    項5記載のデータ解析装置。
  9. 【請求項9】 一つのデータに対し複数のデータ因子が
    関わるデータの解析を要求する要求手段と、 前記要求手段での要求に応じ、複数のデータ因子中で組
    み合わせた二つのデータ因子の発生数に基づいてなされ
    た、当該複数のデータ因子の関連についての解析結果を
    受け取る受取手段と、 前記解析結果に基づき、前記複数のデータ因子の関連を
    示す図を表示する表示手段と、を備えることを特徴とす
    る表示端末。
  10. 【請求項10】 前記表示手段は、前記複数のデータ因
    子間の従属関係をツリー図で示すことを特徴とする請求
    項9記載の表示端末。
  11. 【請求項11】 前記表示手段は、前記データ因子のそ
    れぞれを、当該データ因子の発生数に基づいて設定され
    たサイズを有した図形で示し、複数の前記データ因子に
    対応した前記図形の間隔が当該データ因子間の関連性に
    基づいて設定されていることを特徴とする請求項9記載
    の表示端末。
  12. 【請求項12】 一つのデータに対し複数のデータ因子
    が関わるデータをデータ解析装置が解析するデータ解析
    方法であって、 解析対象となる複数の前記データ中における一つのデー
    タ因子に対する他のデータ因子の依存率を求め、当該依
    存率に基づき、当該データ因子をグループ分けするステ
    ップと、 前記データ因子のグループ分け結果を出力するステップ
    と、を有することを特徴とするデータ解析方法。
  13. 【請求項13】 前記グループ分けするステップでは、
    前記一つのデータ因子に対する前記他のデータ因子の同
    時発生数と、当該一つのデータ因子の発生数の比が所定
    値以上であるときに、当該一つのデータ因子と当該他の
    データ因子が同じグループであると定義することを特徴
    とする請求項12記載のデータ解析方法。
  14. 【請求項14】 前記グループ分けするステップでは、
    前記同時発生数と前記一つのデータ因子の発生数の比に
    基づき、当該一つのデータ因子と前記他のデータ因子の
    従属関係を特定することを特徴とする請求項12記載の
    データ解析方法。
  15. 【請求項15】 コンピュータ装置に実行させるプログ
    ラムであって、 データベースに格納された複数のデータのそれぞれを構
    成するキーワードの発生状況に基づき、関連する二つの
    キーワードを特定する処理と、 特定された一組以上の前記キーワードに基づいて、これ
    らキーワードをグループ分けする処理と、 前記グループ分けした結果のデータを出力する処理と、
    を前記コンピュータ装置に実行させることを特徴とする
    プログラム。
  16. 【請求項16】 前記グループ分けした結果のデータを
    出力する処理では、前記グループ分けされたキーワード
    の関連を図示するためのデータを出力することを特徴と
    する請求項15記載のプログラム。
  17. 【請求項17】 前記関連する二つのキーワードを特定
    する処理では、二つの前記キーワードを含んで構成され
    る前記データの数を求め、当該データの数が敷居値に対
    する所定条件を満たすときに二つの前記キーワードが同
    一のグループに属するものと定義することを特徴とする
    請求項15記載のプログラム。
JP2001382814A 2001-12-17 2001-12-17 データ解析装置およびプログラム Expired - Fee Related JP3931214B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001382814A JP3931214B2 (ja) 2001-12-17 2001-12-17 データ解析装置およびプログラム
US10/319,271 US7333973B2 (en) 2001-12-17 2002-12-13 Method, apparatus, and computer program product for locating data in large datasets
US11/926,337 US7979429B2 (en) 2001-12-17 2007-10-29 Method, apparatus, and computer program product for locating data in large datasets

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001382814A JP3931214B2 (ja) 2001-12-17 2001-12-17 データ解析装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2003186886A true JP2003186886A (ja) 2003-07-04
JP3931214B2 JP3931214B2 (ja) 2007-06-13

Family

ID=19187517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001382814A Expired - Fee Related JP3931214B2 (ja) 2001-12-17 2001-12-17 データ解析装置およびプログラム

Country Status (2)

Country Link
US (2) US7333973B2 (ja)
JP (1) JP3931214B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038116A (ja) * 2003-07-18 2005-02-10 Hitachi Ltd 不正侵入分析装置
JP2006079461A (ja) * 2004-09-10 2006-03-23 Fuji Photo Film Co Ltd 電子アルバム表示システム、画像分類装置、電子アルバム表示方法、画像分類方法、及びプログラム
WO2009096441A1 (ja) * 2008-01-31 2009-08-06 Hidenao Takahashi 関係図表作成システムおよび関係図表作成方法
JP2013073246A (ja) * 2011-09-26 2013-04-22 Nippon Telegr & Teleph Corp <Ntt> ユーザインタフェース設計支援装置、ユーザインタフェース設計支援方法、およびユーザインタフェース設計支援プログラム

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225209B2 (en) * 2003-11-06 2007-05-29 International Business Machines Corporation Computer-implemented method for allocating new additional area for the dataset in storage based on the size of the new additional area wherein if the new area number does not exceed clipping threshold, the size of a new additional area being greater than the size of each previously allocated additional area of the dataset
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US8244689B2 (en) * 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US7953720B1 (en) 2005-03-31 2011-05-31 Google Inc. Selecting the best answer to a fact query from among a set of potential answers
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8239394B1 (en) 2005-03-31 2012-08-07 Google Inc. Bloom filters for query simulation
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US8954426B2 (en) * 2006-02-17 2015-02-10 Google Inc. Query language
US20070179965A1 (en) * 2006-01-27 2007-08-02 Hogue Andrew W Designating data objects for analysis
US8055674B2 (en) * 2006-02-17 2011-11-08 Google Inc. Annotation framework
US7925676B2 (en) 2006-01-27 2011-04-12 Google Inc. Data object visualization using maps
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US20070185870A1 (en) * 2006-01-27 2007-08-09 Hogue Andrew W Data object visualization using graphs
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US8266147B2 (en) * 2006-09-18 2012-09-11 Infobright, Inc. Methods and systems for database organization
WO2008034213A1 (en) * 2006-09-18 2008-03-27 Infobright Inc. A method and system for data compression in a relational database
US8954412B1 (en) 2006-09-28 2015-02-10 Google Inc. Corroborating facts in electronic documents
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US8239751B1 (en) 2007-05-16 2012-08-07 Google Inc. Data from web documents in a spreadsheet
US7966291B1 (en) * 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8738643B1 (en) 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US8315950B2 (en) * 2007-12-31 2012-11-20 Sandisk Technologies Inc. Powerfully simple digital media player and methods for use therewith
US20090313432A1 (en) * 2008-06-13 2009-12-17 Spence Richard C Memory device storing a plurality of digital media files and playlists
US8713026B2 (en) * 2008-06-13 2014-04-29 Sandisk Technologies Inc. Method for playing digital media files with a digital media player using a plurality of playlists
US20100162120A1 (en) * 2008-12-18 2010-06-24 Derek Niizawa Digital Media Player User Interface
US20100175049A1 (en) * 2009-01-07 2010-07-08 Microsoft Corporation Scope: a structured computations optimized for parallel execution script language
US9087059B2 (en) 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US20110212724A1 (en) * 2010-02-26 2011-09-01 Research In Motion Limited Storage of radio information on a removable memory
US8521748B2 (en) 2010-06-14 2013-08-27 Infobright Inc. System and method for managing metadata in a relational database
US8417727B2 (en) 2010-06-14 2013-04-09 Infobright Inc. System and method for storing data in a relational database
CN108427702B (zh) * 2017-10-23 2021-02-09 平安科技(深圳)有限公司 目标文档获取方法及应用服务器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
JP4153989B2 (ja) * 1996-07-11 2008-09-24 株式会社日立製作所 文書検索配送方法および装置
US6408294B1 (en) * 1999-03-31 2002-06-18 Verizon Laboratories Inc. Common term optimization
FR2799023B1 (fr) * 1999-09-24 2003-04-18 France Telecom Procede de classification thematique de documents, module de classification thematique et moteur de recherche incorporant un tel module
JP2002304418A (ja) * 2001-04-06 2002-10-18 Fujitsu Ltd 検索装置、検索方法および検索プログラム
US7668697B2 (en) * 2006-02-06 2010-02-23 Andrei Volkov Method for analyzing dynamic detectable events at the single molecule level
FI20055368A0 (fi) * 2005-06-30 2005-06-30 Nokia Corp Vastaanotin ja menetelmä vastaanotetun datan käsittelemiseksi
GB0612673D0 (en) * 2006-06-27 2006-08-09 Gems Tv Ltd Computer system
US8107695B2 (en) * 2007-06-27 2012-01-31 General Electric Company Methods and systems for assessing patient movement in diagnostic imaging

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038116A (ja) * 2003-07-18 2005-02-10 Hitachi Ltd 不正侵入分析装置
JP2006079461A (ja) * 2004-09-10 2006-03-23 Fuji Photo Film Co Ltd 電子アルバム表示システム、画像分類装置、電子アルバム表示方法、画像分類方法、及びプログラム
JP4547214B2 (ja) * 2004-09-10 2010-09-22 富士フイルム株式会社 電子アルバム表示システム、電子アルバム表示方法、及びプログラム
WO2009096441A1 (ja) * 2008-01-31 2009-08-06 Hidenao Takahashi 関係図表作成システムおよび関係図表作成方法
JP2013073246A (ja) * 2011-09-26 2013-04-22 Nippon Telegr & Teleph Corp <Ntt> ユーザインタフェース設計支援装置、ユーザインタフェース設計支援方法、およびユーザインタフェース設計支援プログラム

Also Published As

Publication number Publication date
JP3931214B2 (ja) 2007-06-13
US20030120644A1 (en) 2003-06-26
US20080065686A1 (en) 2008-03-13
US7333973B2 (en) 2008-02-19
US7979429B2 (en) 2011-07-12

Similar Documents

Publication Publication Date Title
JP2003186886A (ja) データ解析システム、データ解析装置、表示端末、データ解析方法、プログラム
Li et al. Fast and accurate short read alignment with Burrows–Wheeler transform
CN104794242B (zh) 一种搜索方法
US20110196872A1 (en) Computational Method for Comparing, Classifying, Indexing, and Cataloging of Electronically Stored Linear Information
US20100293179A1 (en) Identifying synonyms of entities using web search
JP4382526B2 (ja) 文章分類装置および方法
EP1473639A1 (en) Document knowledge management apparatus and method
US20100313258A1 (en) Identifying synonyms of entities using a document collection
US20070244882A1 (en) Document management system and method
JP2009003541A (ja) データベースのインデックス作成システム、方法及びプログラム
CN109165040B (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
JP5994490B2 (ja) データ検索プログラム、データベース装置および情報処理システム
Ma et al. Chaining for accurate alignment of erroneous long reads to acyclic variation graphs
Thomas et al. Enumerating the junction trees of a decomposable graph
JP2009169689A (ja) データ分類方法およびデータ処理装置
KR101045977B1 (ko) 특허정보분석을 위한 인용정보분석방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체
JP4189248B2 (ja) データベース検索経路判定方法
JP3881238B2 (ja) Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体
JP2005190402A (ja) リスク評価支援システム、情報処理装置、リスク評価支援方法、及びプログラム
Schürmann et al. Suffix tree construction and storage with limited main memory
Eales et al. Methodology capture: discriminating between the" best" and the rest of community practice
Thomas et al. Enumerating the decomposable neighbors of a decomposable graph under a simple perturbation scheme
JP5018817B2 (ja) 情報処理装置、関連度計算方法、データ検索方法、及びプログラム
CN111694929B (zh) 基于数据图谱的搜索方法、智能终端和可读存储介质
CN115168661B (zh) 原生图数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060815

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20060830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060911

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070130

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100323

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100323

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110323

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110323

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees