JP2001075966A

JP2001075966A - データ分析システム

Info

Publication number: JP2001075966A
Application number: JP24105799A
Authority: JP
Inventors: Tetsuya Nasukawa; 哲哉那須川; Toru Nagano; 徹長野
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-07-07
Filing date: 1999-08-27
Publication date: 2001-03-23
Anticipated expiration: 2019-08-27
Also published as: JP3266586B2; US7493252B1

Abstract

(57)【要約】【課題】大量データから有効な知識を獲得する方法
およびシステムを提供することである。【解決手段】本発明は文書を含む大量のデータから特異
な特徴を有する概念を抽出することにより、有効な知識
を獲得する方法およびシステムを提供する。本発明は概
念抽出装置と特徴的概念抽出装置と有する。前記概念抽
出は文書データを含むデータからカテゴリ別の概念を抽
出する。前記特徴的概念抽出装置は前記抽出した概念の
中から特徴的な概念を抽出する装置であって、前記カテ
ゴリ別の概念において、同一カテゴリに属する概念のう
ち、対応する別のカテゴリに属する概念の中で占める割
合が既定値を超えている概念を抽出する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、大量のデータから特徴
的な概念を抽出する技術に関し、特に同一カテゴリを付
加したの概念の比較により、大量のデータから注目に値
する有効な知識を獲得する方法およびシステムに関する
発明である。

【０００２】

【従来の技術】ある製品に関して製造元の会社によせら
れる顧客からの苦情、問題、意見などの情報は従来何ら
かの形で文書データとして記憶されている。この文書デ
ータは異なる顧客から寄せられるのでその内容も異な
る。この文書データが少ない場合には人手により解析す
ることは容易であった。現在は製品の電話サポートなど
のように多くの不特定の顧客からのコメントが容易に電
子化されて記憶されるので集められる文書データは莫大
なものとなり人手で解析できる範囲をはるかに超えてい
る。そこで大量の文書の内容を様々な形で視覚化し分析
に役立てようという試みが次第に増えてきている。しか
し、従来の方法では、名詞句を中心としたキーワードを
抽出し、キーワードの分布を表示（例えば、キーワード
間の相関関係を計算し、その結果に基づいて相関の強い
キーワードをクラスタ化して表示）する程度の処理しか
行っていない。その程度の処理の結果を用いた場合に
は、ユーザーが様々な観点からデータを絞り込みなが
ら、主観的に注目に値すると思える部分を発見するまで
手探りで分析するしかなく、分析過程におけるユーザー
の負担が大きい。また、多種多様なキーワードを混合し
て、まとまりの無いままの状態で扱うため、有効な結果
にたどり着くのは難しい。つまり、テキストをデータマ
イニングの手法（クラスタリングや相関ルールの分析な
ど）で解析してみようという試みは、データマイニング
が注目され始めた頃から存在するものの、従来の手法で
は、テキストから抽出した分析単位が、単なる文字列と
してのキーワードに過ぎなかった為、有効な結果を得ら
れずに終わってしまうケースが多い。

【０００３】

【発明が解決しようとする課題】従って、本発明が解決
しようとする課題は、大量データから特徴的な概念を獲
得する方法およびシステムを提供することである。また
別の課題は、大量データから注目に値する概念を自動的
に見つけ出す方法およびシステムを提供することであ
る。また別の課題は、大量のデータから有効な特徴的な
概念を獲得するにあたり、ユーザビリティに優れた分析
方法およびシステムを提供することである。

【０００４】

【課題を解決するための手段】上記課題を解決するため
に、本発明は文書を含む大量のデータから特異な特徴を
有する概念を抽出することにより、有効な知識を獲得す
る方法およびシステムを提供する。本発明は、概念抽出
装置と特徴的概念抽出装置と有する。前記概念抽出は文
書データを含むデータからカテゴリ別の概念を抽出す
る。前記特徴的概念抽出装置は前記抽出した概念の中か
ら特徴的な概念を抽出する装置であって、前記カテゴリ
別の概念において、同一カテゴリに属する概念のうち、
対応する別のカテゴリに属する概念の中で占める割合が
既定値を超えている概念を抽出する。

【０００５】前記概念抽出装置では、語彙辞書や文法知
識を利用した形態素解析やカテゴリ辞書を用いた曖昧性
解消手法を用いて、非定型テキストから、カテゴリ別の
概念を抽出する。前記特徴的概念抽出装置では、カテゴ
リとカテゴリの各組み合わせにおいて、同じカテゴリの
概念のうち、対応する別のカテゴリの概念の占める割合
の比や差が既定値（しきい値）を超えているものを見つ
け出す。さらにカテゴリとカテゴリの各組み合わせを表
形式で表示し、該表中において注目すべき項目を他と異
なる属性で表示したり、リストアップして提示するなど
の処理を行う。

【請求項７】より詳細には、前記概念抽出装置は、デー
タ中の前記文書データを形態素解析する手段と、前記形
態素解析の結果に基づき、前記文書データの文節を生成
する手段と、前記文節内のキーワードを概念として抽出
する手段であって、前記文節に対してカテゴリ辞書を適
用して、文節内のキーワードに対して概念（該キーワー
ドの代表的意味を表現した置き換え表現）とカテゴリを
付加する手段と、前記文節を有する文を構文木生成規則
に従い構文を解析する、構文解析手段と、前記文節内の
概念およびカテゴリを付加されたキーワードに関し、同
一文中でのキーワードの係り受け関係を抽出する、係り
受け抽出手段と、前記カテゴリ別の概念を抽出する手段
であって、前記キーワード間の係り受け関係に基づき、
係り受けの関係にある各概念のカテゴリの組み合わせを
抽出する手段から構成される。前記特徴的概念抽出装置
は、ユーザの命令を受け取る入力手段と、前記ユーザの
命令を解析する、命令解析手段と、前記解析された命令
に従い、前記カテゴリ別の概念を提示し、同一カテゴリ
に属する概念のうち、対応する別のカテゴリに属する概
念の中で占める割合が既定値を超えている概念を他の概
念と異なる属性で表示する手段から構成される。

【０００６】

【発明の実施の形態】図１は、本発明のデータ分析シス
テム概要を示すブロック図である。なお実施例としてコ
ンピュータ製品に関して電話により問い合わせされたデ
ータを例にして、これを解析し、特徴ある概念を抽出す
るデータ分析システムについて説明する。このデータ分
析システムは顧客から寄せられた大量の問い合わせデー
タ１５０を機械的に解析できるように予めデータ変換部
１１０で解析できる状態に変換する。この変換されたデ
ータからカテゴリ辞書１７０を用いて概念付きデータを
抽出し、抽出された概念付きデータから特徴的な概念を
検索・検出する手段を提供する。

【０００７】より詳細には、図１のブロック１１０は問
い合わせデータ１５０を入力としてラベル付きデータ１
６０を出力するデータ変換部である。問合せデータ１５
０に含まれる非定型のデータと、同じく含まれる定型の
データを同一に保持する形式のデータ（ラベル付きデー
タ）を作成する。ここで定型データとは、主に複数の項
目情報などからなり、各項目情報がどの位置から開始さ
れ、何文字まで許されるかなど予め決められており、解
析の容易なデータ形式である。逆に非定型データは主に
文章などのようにその長さがまちまちな情報であり解析
の難しい形式である。またブロック１２０は、入力され
たラベル付きデータのキーワードに対してカテゴリ辞書
１７０を用いてカテゴリを付加し、カテゴリが付加され
たキーワードのうち、同じ文中で係り受け関係のあるも
のを、より具体的な意味を表現する概念（ラベル・概念
付きデータ１８０）として抽出する、概念抽出部であ
る。

【０００８】ここで概念とは「キーワード」に「カテゴ
リ」を付加したもの意味し、さらに該概念の係り受けに
よる組み合わせを複合概念（さらに上位の「概念」）と
して抽出する。また「ラベル」は「カテゴリ」とデータ
の属性を含む。

【０００９】ブロック１３０は、ラベル・概念付きデー
タ１８０を入力として、特徴のある概念を検索・抽出す
る検索・特徴検出部１３０である。このブロックは検索
・特徴抽出を効率良く行えるようにするため、データ全
体もしくは部分集合における頻度分布などの統計情報を
作成・保持する。同じカテゴリに属する概念は同じよう
な振る舞いをする（同じような出現傾向を持ち、同じよ
うな概念と共起する）傾向があると想定し、各概念の振
る舞いを全体、もしくは部分集合の値と比較すること
で、効率良く、注目すべき情報を検索・検出する。さら
にこの検索・特徴検出部１３０は、統計情報を視覚的に
表示する機能を有し、特徴ある概念の分布差異の提示を
行う。

【００１０】上記各ブロック１１０、１２０、１３０に
ついて以下に詳細に説明する。［データ変換部１１０］まずブロック１１０に入力され
る問い合わせデータの例は以下のようなものである。

【００１１】 --------- 問い合わせデータ例 ---------- 1999/01/01 0000001 タイトル：ノートで日本語が使えないマシンタイプ：製品Ａ問題種別：総合案内ＣＡＬＬ種別：案内回答・対応種別：窓口対応解決期間：１日通話時間：２１分ご質問：ノートパソコンで日本語が使えないので、ＯＳ
を再インストールしたのですが、それ以降、MODEM とイ
ーサネットカードが使えなくなってしまいました。 --------- 問い合わせデータ例 --終わり--------

【００１２】このように、問合せデータは日付や問い合
わせ番号、項目名、項目の内容（予め既定された選択肢
からの選択、連続値や離散値、自由に記入できるタイト
ルなど）、文章からなる質問内容など、さまざまな形式
の項目から構成された定型データ、非定型データの混在
からなる。

【００１３】ブロック１１０は上記のような問い合わせ
データ１５０を入力とし、下記のようなラベル付きデー
タに変換する。

【００１４】--------- ラベル付きデータ ---------- ID199901010000001 TIノートで日本語が使えない KWM1ＭＴ：製品Ａ KWQ3ＴＣ：総合案内 KWQ4ＴＤ：案内 KWQ2ＰＴ：窓口対応 KWP3ＳＤ：１日 KWP4ＣＭ：２１分 CTＱ：ノートパソコンで日本語が使えないので、ＯＳを
再インストールしたのですが、それ以降、MODEM とイー
サネットカードが使えなくなってしまいました。 --------- ラベル付きデータ --終わり---

【００１５】このように、非定形データを含む問い合わ
せデータを上記のようなラベル付きデータに変換するこ
とにより、さまざまな型のデータを同じ形式に変換す
る。上の例ではTIはタイトル、CTは元の問合せ内容を示
し、KW+2byteは項目の種類を示す。この２バイトがカテ
ゴリを表わし、Q3は問題種別、Q4はＣＡＬＬ種別、Q2が
回答・対応種別、P3は解決期間、P4は通話時間を示す。
ここでラベルとは項目内容のカテゴリを示す情報で”KW
M1ＭＴ：”のようにカテゴリを含む長さ固定の情報であ
る。図２にデータ変換部のフローチャートを示す。ステ
ップ２１０で問い合わせデータ１５０を読み込み、ステ
ップ２２０でデータの終了であるかを判断し、そうでな
ければステップ２３０で形式を変換する。データが終了
した場合はステップ２４０で変換を終了する。例えば問
い合わせデータの”タイトル：”を発見した場合にはそ
れを”TI”に変換し、その横に項目内容”ノートで日本
語が使えない”を記録するという具合である。このよう
にデータ変換部では、問い合わせデータを概念抽出の前
処理としてデータを解析しやすいようにラベルを付加し
て形を整える。当業者であればこのような変換は変換規
則を変更することによりあらゆるデータに対して変換可
能であることが容易に推察されるであろう。

【００１６】［概念抽出部１２０］次にブロック３３０
は、ブロック３２０で生成された文節に対してカテゴリ
辞書３４０を適用し文節内のキーワードに対してカテゴ
リを付加する辞書適用装置である。キーワードは文節内
の一纏りの文字列である。上記カテゴリ辞書３４０の構
造の例を以下に示す。

【００１７】 --------- カテゴリ辞書の例 ---------- 元表現品詞概念（置き換え表現）カテゴリ ------------------------------------------------------------------- ノートパソコン固有名詞ノートパソコン N1 ＯＳ固有名詞オペレーティングシステム N2 壊れる動詞故障する VC --------- カテゴリ辞書の例 -終わり---

【００１８】カテゴリ辞書３４０は［元表現品詞概念
カテゴリ］の組み合わせから構成されている。ここで
元表現は文書データ中のキーワードに相当し、品詞はそ
のキーワードの種別、概念はそのキーワードの置き換え
表現であり、上記でいえばキーワード”ＯＳ”は該キー
ワードの代表的意味を表現した置き換え表現として”オ
ペレーティングシステム”として統一される。最後にカ
テゴリはそのキーワードの性質を有するより大きなグル
ープを意味する。上記辞書においてカテゴリは、N1＝ハ
ードウェアを意味する、N2＝ソフトウェアを意味する、
VC＝問題を意味する、というように対応付けられてい
る。キーワードにカテゴリを付加することで単なる文字
列ではなく意味を持った概念として扱うことができる。
（例えば、「ワシントン」という文字列を単なるキーワ
ードとして扱えば人名か地名か区別できず有効な分析が
行えないが、[人名][地名]といったカテゴリを付加する
ことで、意味を持つことが出来る）。体言（名詞類の
語）に関しては上記カテゴリ辞書を参照してカテゴリを
付加する。述語に関しては体言と同様にカテゴリ辞書を
用いると共に、付属語の情報から[問題][要望][疑問]と
いったカテゴリ付けを行う。例えば、「壊れる」という
動詞は（壊れる [動詞] 故障する [問題]）というデー
タがカテゴリ辞書にあれば、[問題]というカテゴリに属
する「故障する」という概念として抽出されるが、「…
できない」「…したい」という表現は、製品に関して電
話により問い合わせされたデータである事を考えれば、
それぞれ問題であること、要望であることが自明である
ので、カテゴリ辞書を参照せずに[問題][要望]として解
釈することができる。

【００１９】ブロック３５０はブロック３３０でキーワ
ードに対してカテゴリが付加された文節を有する文を簡
単な構文木生成規則で構文木を生成する構文木解析装置
である。

【００２０】ブロック３６０は文節内のカテゴリを付加
されたキーワードのうち同じ文中で係り受け関係のある
ものを、より具体的な意味を表現する概念として抽出す
る係り受け抽出装置である。このブロック３６０では構
文解析装置３５０の構文解析結果により得られるキーワ
ード間の係り受け関係に基づき、係り受けの関係にある
各キーワードのカテゴリの組合せを概念（ラベル・概念
付きデータ３７０）として抽出する。ラベル・概念付き
データ３７０の例を以下に示す。

【００２１】 --------- ラベル・概念付きデータの例 ---------- ID199901010000001 TIノートで日本語が使えない KWM1ＭＴ：製品Ａ KWQ3ＴＣ：総合案内 KWQ4ＴＤ：案内 KWQ2ＰＴ：窓口対応 KWP3ＳＤ：１日 KWP4ＣＭ：２１分 CTＱ：ノートパソコンで日本語が使えないので、ＯＳを
再インストールしたのですが、それ以降、MODEM とイー
サネットカードが使えなくなってしまいました。 KWN1ノートパソコン KWN0日本語 KWV2使えない KWW6ノートパソコン…使えない KWN2ＯＳ KWV6再インストールする KWWDＯＳ…再インストールする KWN1MODEM KWN1イーサネットカード KWV2使えない KWW6モデム…使えない KWW6イーサネットカード…使えない --------- ラベル・概念付きデータの例 --終わり---

【００２２】上記のようにラベル・概念付きデータ３７
０は、データ変換部で得られたラベル付きデータ１６０
に、概念抽出部１２０で抽出されたデータを追加した形
を取り、ラベル付きデータ１６０と同一形式のデータと
なる。

【００２３】図１２に本発明の概念抽出部の流れを実際
の文に基づき説明する。まずステップ１２１０におい
て、”MODEMとイーサネットカードが使えない。”とい
う入力文が入力された場合、ステップ１２２０におい
て、形態素解析装置３１０により、文が単語に区切ら
れ、各単語に品詞番号が付加される。これにより”MODE
Mとイーサネットカードが使えない。”という入力文
は、以下のように変換される。 [MODEM, 104][と, 81][イーサネット, 104][カード, 10
4][が, 75][使, 10][え,44][ない, 51][。, 100] 上の例では、104…固有名詞、 81…格助詞「と」、 75
…格助詞「が」、 10…動詞語幹、 44…形容詞仮定形活
用語尾、 51…打ち消しの助動詞「ない」、100…句読
点、を表わしている。

【００２４】次にステップ１２３０、およびステップ１
２４０で文節生成が行われる。ステップ１２３０の文節
生成１では、形態素解析された文の単語列を文節にまと
める操作を行う。あらかじめ”{81, 75, 100, …}で文
節を区切る”というルールを用意しておき、このルール
を文頭から適用して、文頭から文節ごとに区切っていく
操作を行う。上記入力文の場合、先頭から3文節ある
が、各文節の先頭の単語がそれぞれ、名詞・名詞・動詞
であることから、それぞれ順に、体言句・体言句・用言
句であると判断される。その結果、入力文は以下のよう
に変換される。

【００２５】{[MODEM, 104][と, 81]} {[イーサネット, 104][カード, 104][が, 75]} {[使, 10][え, 44][ない, 51][。,100]}

【００２６】次にステップ１２４０の文節生成２は、文
節生成１で区切られた文節に対して、すべての文節を自
立語と付属語の組にする。体言句は、名詞が複数含まれ
る場合は先頭から名詞を結合するようにする。例えば、
{[イーサネット, 104][カード,104]→[イーサネットカ
ード, 104]）のようにする。その後自立語の品詞コード
を、一般名詞句を示すN1に書き換える。用言句は、付属
語列（[え, 44][ない, 51][。,100]）を解析し、否定の
情報を示す[ない, 51]を取り出し、動詞の語幹[使, 10]
は[え, 44]と結合して、終止形「使える」にする。品詞
コードを一般動詞を示すV1にし、否定の情報を付加して
-V1とする。その結果、入力文は以下のように変換され
る。

【００２７】{[MODEM, N1][と, 81]} {[イーサネットカード, N1][が, 75]} {[使える, -V1][。, 100]}

【００２８】次にステップ１２５０で、カテゴリ辞書を
用いて、自立語と付属語の組に分解された文節に対して
カテゴリ付を行う。ここで適用される辞書は、以下の3
つである。

【００２９】（MODEM N1 モデム NA）（イーサネットカード N1 イーサネットカード NA）（使える -V1 使えない VC）

【００３０】なおNAはハードウェアを意味し、VCは問題
を意味する。その結果、入力文は以下のように変換さ
れてカテゴリが付された３つの文節が生成される。

【００３１】{[モデム, NA][と, 81]} {[イーサネットカード, NA][が, 75]} {[使えない, VC][。, 100]}

【００３２】次にステップ１２６０で、カテゴリ付され
た文節からなる文に基づき構文木を生成する。この時の
係り受けルールの形式は（係り受け元文節の自立語, 係
り受け元文節の付属語 , 係り受け先文節の自立語 , 係
り受け先文節の付属語）となっている。このルールを文
頭の文節1 {[モデム, NA][と, 81]} から適用する。一
般にn番目の文節に対してn+1番目から最終N番目までの
文節に係り受けのルールを適用する(n = 1 〜 N-1)。係
り受けルール中に(NA, 81, VC, *)というルールがある
ので、{[モデム, NA][と, 81]}と{[使えない, VC][。,
100]}に係り受けの関係があると判断される。なおルー
ル中の*はすべての品詞またはカテゴリにマッチすると
いう意味である。これを(n = 1 〜 N-1)で行い、係り受
け情報を含む文節を有向グラフとして表し、(係り受け
元の文節番号, 係り受け先の文節番号, 自立語, カテゴ
リ, 付属語の品詞番号)という形式に変換する。その結
果、入力文は以下のように変換される。

【００３３】(1, 3, "モデム", NA, 81) (2, 3, "イーサネットカード", NA, 75) (3, NULL, "使えない", VC, 100) なおNULLは係り受け先がないことを示す。

【００３４】最後に、ステップ１２７０において、構文
解析された文を入力として、係り受け抽出ルールに従っ
て係り受けを抽出する。抽出ルールは任意の長さのカテ
ゴリの列からなる。例えば(カテゴリ１, カテゴリ２,
... , カテゴリn）という形式である。文節番号1からN
までの係り受けを見て、係り受け抽出ルールに(NA, VC)
というルールがあるので、「モデム…使えない」と「イ
ーサネットカード…使えない」という2つの係り受けが
抽出される。結局、元の文書である「MODEM とイーサネ
ットカードが使えない」という文章から

【００３５】「モデム …使えない」[ハードウェア…問
題] 「イーサネットカード …使えない」[ハードウェア…問
題]

【００３６】という概念情報が取り出されたことにな
る。このようにして取り出された概念情報は、ラベル・
概念付きデータベース１８０に登録される。

【００３７】図４に、本発明の概念抽出部１２０の処理
のフローチャートを示す。ステップ４２０でラベル付き
データ１６０内の文章Ｔを形態素W0〜Wmに分割する。こ
こで形態素Wは、文字列wと品詞pで表される。すなわちW
= { w, p }である。（以上が形態解析装置の処理であ
る）

【００３８】次にステップ４３０で全単語が文節に変換
されたかどうかを判断し、そうであれば処理はステップ
４４０へ移り、そうでなければステップ４３２で単語Ｗ
ｎが付属語または句読点かどうかを判断し、その結果が
Ｎｏであればステップ４３４で、文節Ｐｉに単語Ｗｎを
追加する。ここで文節Pは、1つ以上の連続した単語Ｗの
集合で P = { W* } = { { w, p }* }である。そして処
理はステップ４３０に戻る。ステップ４３２の判断の結
果がＹｅｓであればステップ４３６で文節Ｐｉに単語Ｗ
ｎを追加した後、その次の文節を用意する。処理はその
後ステップ４４０に移る。ステップ４４０で全文節に対
して処理が行われたかどうかを判断し、処理が終了して
いれば処理はステップ４５０に移り、そうでなければス
テップ４４２において、文節をP = { { w, p }* }の形
式から P' = { {w1, p1} { w2, p2}}に変換する（ここ
で w1 は自立語 w2 は付属語である）。例えば P = {
[国際,名詞] [情勢, 名詞] [は, 助詞] }であれば、名
詞句はひとつにまとめ、 P' ={ [国際情勢, 名詞] [は,
助詞] } とする。そして処理はステップ４４０へ戻
る。（以上が文節生成装置３２０の処理である）

【００３９】ステップ４５０では、自立語に対して辞書
引きが終了したかどうかを判定する。その判定結果がNo
であれば、ステップ４５２で、((w1, p1) == (wa, p
a))のエントリに対し (w1 = wb, p1 = pb) とする。同
時に用言の処理を行う。この時用いられる辞書４５４は
[wa pa wb pb]のエントリの集合からなり、それぞれ[元
表現, 品詞, 概念, カテゴリ]を表す。ここでの概念と
いうエントリは、置き換え表現を意味する。元表現が
「ＰＣ」であれば置き換え表現は「パソコン」となる。
また全エントリはハッシュ構造で格納されているので高
速にアクセスできる。例えばエントリ集合は、[マシン,
名詞, 機械, ハードウェア]、[壊れる, 動詞, 壊れる,
問題]等である。この辞書を用いて、名詞句 P' = {
[マシン, 名詞] [が, 助詞] }であれば、カテゴリ「問
題」を逆の意味を表わすカテゴリ「好評」に変換し P''
= { [機械, ハードウェア] [が, 助詞] } となる。用
言の句 P'= { [壊れる, 動詞] [ない, 助詞] }であれ
ば、動詞→問題となるはずだが、「ない」があるので、
P'' = { [壊れない, 好評] [NULL, NULL] }とする。ま
た辞書に該当するエントリがなければ何もしない。ステ
ップ４５０の判定結果がYesであれば処理はステップ４
６０へ進む。（以上が辞書適用装置３３０の処理であ
る）

【００４０】ステップ４６０で、構文木が完成したかど
うかが判定される。構文木が完成した場合、処理はステ
ップ４７０へ進む。構文木が完成していない場合、処理
はステップ４６２で、一般的に行われる構文解析を行
い、結果として、PnとPkがリンクされる。（以上が構文
解析装置３５０の処理である。）

【００４１】ステップ４７０で、係り受けの抽出が終了
したかどうかを判断する。もし終了していなければ処理
はステップ４７２へ進み、ルールに基づき、Pnに対して
リンクされた２項関係を抽出し、ラベル・概念付きデー
タベース１８０に登録する。この時、係り受けルール４
７４を参照する。係り受けルール４７４のルールは[pxp
y]のエントリの集合からなり、それぞれ[係り受け元カ
テゴリ, 係り受け先カテゴリ]を表す。例えば、Pn = {
[機械, ハードウェア] [が, 助詞] } , Pk = { [壊れ
る, 問題] [NULL, NULL] }（nとkには係り受け関係があ
るものとする）であれば、上のルールを用いて、[ハー
ドウェア, 問題] → [機械, 壊れる] が抽出され、ラベ
ル・概念付きデータベース１８０に登録される。ステッ
プ４７０の判断がYesであれば処理はステップ４８０で
終了する。（以上が係り受け抽出装置３６０の処理であ
る。）

【００４２】［検索・特徴検出部１３０］図５に検索・
特徴抽出部１３０のブロック図を示す。検索・特徴抽出
部１３０は入力（命令）装置５７０、表示部５１０、概
念検索装置５４０、命令解析装置５２０、カテゴリ別概
念頻度計算装置５５０、相対頻度計算装置５３０の各ブ
ロックから構成される。なお概念検索装置５４０及びカ
テゴリ別概念頻度計算装置５５０は、ラベル・概念付き
データベース５６０にアクセスして概念情報の検索を行
う。好適にはラベル・概念付きデータベース５６０にお
いては、ラベル・概念付きデータに対してインデックス
を生成し、高速な検索が可能な状態にしておく。

【００４３】命令解析装置５２０は、入力（命令）装置
５７０から受け取る命令を解析して、各装置にパラメー
タとしての概念を送る。入力（命令）装置５７０は、図
１４におけるキーボード６、マウス７などに相当し、ユ
ーザの指示に従い、データ分析システムに対して所望の
検索、表示を行わせるために使用される。相対頻度計算
装置５３０は、文書の全体、または部分集合に対して相
対頻度を計算する装置である。ここで相対頻度とは、全
体または任意の集合Xに対して含まれる各概念と、任意
の集合Yに含まれる概念の集合を比較することにより計
算される。

【００４４】概念検索装置５４０は、命令解析装置５２
０の出力である概念または概念の組を入力として、文書
の全体、または部分集合に含まれる概念の数と概念を含
む文書のＩＤを得る装置である。該装置により概念を含
む文書集合を絞り込むことが出来る。

【００４５】カテゴリ別概念頻度計算装置５５０は、命
令解析装置５２０の出力に従い、文書全体、または部分
集合に含まれる概念の数をカテゴリ別に、頻度順に得る
装置である。以下に該装置の出力例を示す。（下の例で
INPUTではカテゴリを指定、N1は[ハードウェア]を表す
カテゴリであり、OUTPUTでは[キーワード出現頻度]と
なっている。

【００４６】 --------- カテゴリ別キーワード頻度計算装置の出力例 ---------- [INPUT ]CATEGORY N1 [OUTPUT]ハードディスク 2033 [OUTPUT]モニタ 1432 [OUTPUT]プリンタ 1001 [OUTPUT]モデム 420 [OUTPUT]スキャナ 212 [OUTPUT]イーサネットカード 143 [OUTPUT]マウス 3 --------- カテゴリ別キーワード頻度計算装置の出力例 --終わり--

【００４７】表示部５１０は図６に示す表示領域（１）
と図７に示す表示領域（２）を含むＧＵＩ画面から構成
される。ユーザが表示部５１０中に表示された種々の項
目を入力（命令）装置５７０により適宜選択したり、検
索のためのパラメータなどを入力することにより、種々
の結果（頻度表示、検索結果表示など）を表示部５１０
に表示する。例えば図６は、カテゴリＡを横軸、カテゴ
リＢを縦軸にとった２次元の表である。カテゴリＡの列
に対して特徴的なカテゴリＢを表すセルが他のセルとは
異なる属性（高輝度表示、異色表示、点滅、網掛けな
ど）で表示されている（例えば概念A3の中で特徴的な概
念はB1である。また複数の概念が特徴的なこともあ
る）。上記異なる属性で表示されたセルをクリックする
ことで、概念Axと概念Byを含む集合の検索が行われ、そ
こで得られた集合に対しても再び検索を行うことができ
る。またはこの特徴概念の表示を行うことができる。表
示部５１０の図７に示す表示領域（２）では、カテゴリ
[ソフトウェア]に含まれる概念のリストを表示してあ
る。１つのキーワードに対して２つのグラフがあるが、
上は頻度、下は相対頻度を表している。さらに頻度・相
対頻度のどちらかで並び替えることができる。これらの
表示部５１０における特徴的な概念の抽出及び表示の流
れを以下により詳細に説明する。

【００４８】図８に表示領域（１）における、特徴的な
概念の抽出及び表示のフローチャートを示す。ステップ
８２０でカテゴリＡとカテゴリＢを選択する。ここでカ
テゴリA, Bはそれぞれ表示領域（１）でのx, y軸にな
る。後の計算で、カテゴリAの要素Axに関して特徴的な
ものを表示するので、比較したいカテゴリをBにセット
する。ステップ８４０でカテゴリAを装置５４０に入力
し、カテゴリA中に含まれる概念が頻度順に取り出され
る。またカテゴリBを装置５４０に入力し、カテゴリB中
に含まれる概念が頻度順に取り出される。次にステップ
８５０で、AとBの組合せ（Ａ＆Ｂ）が終了したかどうか
が判断される。終了していなければステップ８５５で、
（Ai & Bj) を装置５４０に入力し、結果をPijに保存す
る。次にステップ８６０で、正規化が終了したかどうか
を判断する。正規化が終了していなければステップ８６
５において、装置５３０でBNiを1として正規化する。す
なわち (P'ij = Pij / BNi)となる。図６における表示
例中の％表示がそれにあたる。ただし、１つの文章に複
数の種類の概念が表れるので、これらの値を全部足して
も1にはならない。次にステップ８７０で、相対頻度の
計算が終了したかどうかを判断する。計算が終了してい
なければステップ８７５で、P'ijをy軸方向に比較して
相対頻度を装置５３０で調べる。好適にはP'ij( 0 < i
< a)の分布の平均を調べ、各P'ijが平均の何倍になって
いるかを相対頻度とする。次に処理はステップ８８０へ
進み、相対頻度の値によって、表示領域（１）の表示色
を変え、2次元に表示する。次にステップ８９０で、目
立っているカテゴリA 中の概念 fa とカテゴリB 中の概
念 fb の交点をクリックする。最後にステップ８９８で
装置５４０により、カテゴリA の概念 faとカテゴリB
の概念 fbでデータ集合が絞り込まれる。

【００４９】図９に表示領域（２）における、本発明の
別の特徴的な概念の抽出及び表示のフローチャートを示
す。まずステップ９１５で表示領域（２）の左側でカテ
ゴリAを選択する。次にステップ９２０で装置５５０に
より、カテゴリA中に含まれる概念が頻度順に取り出さ
れる。そしてステップ９３０で正規化が終了したかどう
か判断される。終了していなければステップ９４０で相
対頻度を計算する。ここでの相対頻度の計算は、ある概
念が全体または任意の部分集合Xの中に含まれる割合Sx
と、任意の部分集合Yに含まれる割合Syの比（ Sy/Sx ）
で求める。この値が大きいほど、部分集合Yに特徴的な
概念と考える。ステップ９３０において正規化が終了し
た場合ステップ９５０で、表示領域（２）の右側に頻度
と相対頻度を同時に表示し、頻度または相対頻度で並び
替えて表示する。次にステップ９６０で表示領域（２）
の右側で概念faを選択する。そして最後にステップ９７
０で入力装置５７０を用いて選択（クリック）すること
で、装置５４０による絞込みが行える。

【００５０】上記２つの検索・抽出方法を組み合わせる
ことにより、特徴的な概念を効果的に見つけることが可
能となる。例えば表示領域（２）において、カテゴリ
［月］について検索し「11月」を選択する（図示せ
ず）。次に図１０に示すように、表示領域（１）におい
て［製品名（コンピュータの機種名）］を縦軸（比較し
たい対象）、［問題］を横軸にとる。すると「遅い」と
いう［問題］に関して、特徴的な［製品名］が２つマー
クされている。そして、より相対頻度の高い「製品A」
に注目し、「製品A」と「遅い」の交わっているところ
を選択（クリック）する。図１１に示すように、絞り込
まれた状態で表示領域（２）において、カテゴリ［ハー
ドウェア］について見てみる。すると、頻度の上位２番
目には「ハードディスク」があり、相対頻度も高く（7.
18倍）、この製品Ａに関しては「ハードディスク」が特
有の問題を持っていることを推測できる。なお上位１番
目は、本製品の製品番号などが該当するのでこれらは容
易に無視できる。

【００５１】図１３に上記操作手順を１つの画面内で行
う本発明で最も特徴的なＧＵＩの例を示す。図１３にお
いて表示領域（２）の左側でカテゴリ[月]を選ぶ（図示
せず）。すると装置５５０により、カテゴリ[月]中に含
まれる概念が頻度順に取り出される。そして装置５３０
により得られた概念の相対頻度が計算され、表示領域
（２）の右側に[月]に含まれる概念が表示される。次
に、表示領域（２）の右側で概念「11月」を選択する
（図示せず）。これにより装置５４０により、カテゴリ
[月]の「11月」でデータ集合が絞り込まれる。

【００５２】次に表示領域（１）でカテゴリ[問題]をX
軸に設定し、カテゴリ[機種名]をY軸に設定する。する
と装置５５０でカテゴリ[問題]中に含まれる概念が頻度
順に取り出される。また装置５５０でカテゴリ[機種名]
中に含まれる概念が頻度順に取り出される。これらは検
索・正規化され２次元に表示される。そして目立ってい
るカテゴリ[問題]の「遅い」とカテゴリ[機種名]の「製
品A」の交点をクリックする。すると装置５４０によ
り、カテゴリ[問題]の「遅い」とカテゴリ[機種名]の
「製品A」でデータ集合が絞り込まれる。

【００５３】次に表示領域（２）の左側でカテゴリ[ハ
ードウェア]を選ぶ。装置５５０により、カテゴリ[ハー
ドウェア]中に含まれる概念が頻度順に取り出される。
そして装置５３０により得られた概念の相対頻度が計算
される。表示領域（２）の右側に[ハードウェア]に含ま
れる概念が表示される。結局、上位2番目には「ハード
ディスク」があり相対頻度も高く、この製品に関しては
「ハードディスク」が特有の問題であることが判明す
る。このように表示領域（１）及び表示領域（２）を１
画面内で組み合わせて操作することにより、特徴的な概
念が容易に獲得でき、特定の製品に潜む根本的な問題な
どを簡単に見つけ出すことができる。

【００５４】図１４に本発明において使用されるデータ
分析システムのハードウェア構成例を示す。システム１
００は、中央処理装置（ＣＰＵ）１とメモリ４とを含ん
でいる。ＣＰＵ１とメモリ４は、バス２を介して、補助
記憶装置としてのハードディスク装置１３（またはＣＤ
−ＲＯＭ２６、ＤＶＤ３２等の記憶媒体駆動装置）とＩ
ＤＥコントローラ２５を介して接続してある。同様にＣ
ＰＵ１とメモリ４は、バス２を介して、補助記憶装置と
してのハードディスク装置３０（またはＭＯ２８、ＣＤ
−ＲＯＭ２９、ＤＶＤ３１等の記憶媒体駆動装置）とＳ
ＣＳＩコントローラ２７を介して接続してある。フロッ
ピーディスク装置２０はフロッピーディスクコントロー
ラ１９を介してバス２へ接続されている。好適にはラベ
ル付きデータ１６０、辞書３４０、ラベル・概念付きデ
ータ３７０はこれら補助記憶装置に記憶される。

【００５５】フロッピーディスク装置２０には、フロッ
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置１３（またはＣＤ−ＲＯＭ２６、Ｄ
ＶＤ３２等の記憶媒体）、ＲＯＭ１４には、オペレーテ
ィングシステムと協働してＣＰＵ等に命令を与え、本発
明を実施するためのコンピュータプログラム、オペレー
ティングシステムのコード若しくはデータを記録するこ
とができ、メモリ４にロードされることによって実行さ
れる。これらコンピュータ・プログラムのコードは圧縮
し、または、複数に分割して、複数の記録媒体に記録す
ることもできる。

【００５６】システム１００は更に、ユーザ・インター
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス（マウス、ジョイスティック等）
７またはキーボード６や、ディスプレイ１２を有するこ
とができる。好適にはポインティング・デバイス７を用
いて、ディスプレイ１２に表示された表示領域（１）、
表示領域（２）の項目の選択、変更や、パラメータの入
力をGUIで行う。また、パラレルポート１６を介してプ
リンタを接続することや、シリアルポート１５を介して
モデムを接続することが可能である。このシステム１０
０は、シリアルポート１５およびモデムまたは通信アダ
プタ１８(イーサネットやトークンリング・カード)等を
介してネットワークに接続し、他のコンピュータ、サー
バ等と通信を行う。本発明にデータ分析システムは、必
要なデータベースを、通信回線を介して接続された外部
のサーバ、WAN、LAN内にあるローカルなサーバなどに記
憶してもよい。どちらにしても本発明の実施の制限とな
るものではない。またシリアルポート１５若しくはパラ
レルポート１６に、遠隔送受信機器を接続して、赤外線
若しくは電波によりデータの送受信を行ってもよい。

【００５７】スピーカ２３は、オーディオ・コントロー
ラ２１によってＤ／Ａ（デジタル／アナログ変換）変換
されたサウンド、音声信号を、アンプ２２を介して受領
し、サウンド、音声として出力する。また、オーディオ
・コントローラ２１は、マイクロフォン２４から受領し
た音声情報をＡ／Ｄ（アナログ／デジタル）変換し、シ
ステム外部の音声情報をシステムにとり込むことを可能
にしている。ViaVoice（IBM商標）などのアプリケーシ
ョンを用いて、本発明のＧＵＩコマンド部の操作を音声
コマンドによる操作で代用してもよい。さらにホームペ
ージ・リーダー(IBM商標）などアプリケーションを用い
て、表示された特徴的概念を有する検索結果などを音声
で読み上げるようにしてもよい。

【００５８】このように、本発明のデータ分析システム
は、通常のパーソナルコンピュータ（ＰＣ）やワークス
テーション、ノートブックＰＣ、パームトップＰＣ、ネ
ットワークコンピュータ、コンピュータを内蔵したテレ
ビ等の各種家電製品、通信機能を有するゲーム機、電
話、ＦＡＸ、携帯電話、ＰＨＳ、電子手帳、等を含む通
信機能有する通信端末、または、これらの組合せによっ
て実施可能であることを容易に理解できるであろう。た
だし、これらの構成要素は例示であり、その全ての構成
要素が本発明の必須の構成要素となるわけではない。

【００５９】

【発明の効果】本発明により、大量データから有効な知
識を獲得する方法およびシステムが提供される。また有
効な知識を獲得するための、ユーザビリティに優れたＧ
ＵＩによる分析方法およびシステムが提供される。

【図面の簡単な説明】

【図１】本発明のデータ分析システム概要を示すブロッ
ク図である

【図２】データ変換部のフローチャートである。

【図３】概念抽出部のブロック図である。

【図４】概念抽出部のフローチャートである。

【図５】検索・特徴抽出部のブロック図である。

【図６】表示部における表示領域（１）の例である。

【図７】表示部における表示領域（２）の例である。

【図８】表示領域（１）における概念の抽出及び表示の
フローチャートである。

【図９】表示領域（２）における概念の抽出及び表示の
フローチャートである。

【図１０】表示領域（１）の典型的な表示例である。

【図１１】表示領域（２）の典型的な表示例である。

【図１２】概念抽出部の処理を具体的な文を用いて説明
した図である

【図１３】表示領域（１）と表示領域（２）を含むＧＵ
Ｉ画面の例である。

【図１４】本発明に用いるハードウェアの実施例であ
る。

───────────────────────────────────────────────────── フロントページの続き (72)発明者那須川哲哉神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者長野徹神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B075 ND03 ND04 NK06 NK32 NR03 NR12 NS01 NS03 PP02 PP03 PQ02 PQ15 PQ74 PR06 QM08 UU06 UU40

Claims

【特許請求の範囲】

【請求項１】データから特徴的な概念を取り出す、デー
タ分析システムであって、（１）文書データを含むデー
タからカテゴリ別の概念を抽出する、概念抽出手段と、
（２）前記カテゴリ別の概念において、同一カテゴリに
属する概念のうち、対応する別のカテゴリに属する概念
の中で占める割合が既定値を超えている概念を抽出す
る、特徴的概念抽出手段、を有する、データ分析システ
ム。
【請求項２】前記概念抽出手段（１）が、データ中の前
記文書データを形態素解析する手段と、前記形態素解析
の結果に基づき、前記文書データの文節を生成する手段
と、前記文節内のキーワードを概念として抽出する手段
であって、前記文節に対してカテゴリ辞書を適用して、
文節内のキーワードに対して概念（該キーワードの代表
的意味を表現した置き換え表現）とカテゴリを付加する
手段と、前記文節を有する文を構文木生成規則に従い構
文を解析する、構文解析手段と、前記文節内の概念およ
びカテゴリを付加されたキーワードに関し、同一文中で
のキーワードの係り受け関係を抽出する、係り受け抽出
手段と、前記カテゴリ別の概念を抽出する手段であっ
て、前記キーワード間の係り受け関係に基づき、係り受
けの関係にある各概念のカテゴリの組み合わせを抽出す
る手段と、を含む、請求項１記載のシステム。
【請求項３】前記特徴的概念抽出手段（２）が、ユーザ
の命令を受け取る入力手段と、前記ユーザの命令を解析
する、命令解析手段と、前記解析された命令に従い、前
記カテゴリ別の概念を提示し、同一カテゴリに属する概
念のうち、対応する別のカテゴリに属する概念の中で占
める割合が既定値を超えている概念を他の概念と異なる
属性で表示する手段とを有する、請求項１記載のシステ
ム。
【請求項４】前記特徴的な概念を検出する手段（２）
が、さらに、抽出された概念の相対頻度を計算する手段
と、抽出された概念の集合から概念を検索する手段と、
カテゴリ別概念の頻度を計算する手段と、得られた前記
相対頻度、検索結果、概念の頻度を表示する手段と、を
含む、請求項３記載のシステム。
【請求項５】データから特徴的な概念を取り出す、概念
抽出方法であって、データ中の文書データに対して形態
素解析を行う段階と、前記形態素解析の結果に基づき、
前記文書データの文節を生成する段階と、前記文節に対
してカテゴリ辞書を適用して、文節内のキーワードに対
して概念（該キーワードの代表的意味を表現した置き換
え表現）とカテゴリを付加する段階と、前記文節を有す
る文を構文木生成規則に従い構文木を生成する段階と、
前記文節内のカテゴリを付加されたキーワードに関し、
同一文中でのキーワードの係り受け関係を抽出する段階
と、前記キーワード間の係り受け関係に基づき、係り受
けの関係にある各概念のカテゴリの組合せを抽出する段
階と、を有する、概念抽出方法。
【請求項６】データから特徴的な概念を取り出すプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
あって、該プログラムが、コンピュータに、データ中の
文書データに対して形態素解析を行う機能と、前記形態
素解析の結果に基づき、前記文書データの文節を生成す
る機能と、前記文節に対してカテゴリ辞書を適用して、
文節内のキーワードに対して概念（該キーワードの代表
的意味を表現した置き換え表現）カテゴリを付加する機
能と、前記文節を有する文を構文木生成規則に従い構文
木を生成する機能と、前記文節内のカテゴリを付加され
たキーワードに関し、同一文中でのキーワードの係り受
け関係を抽出する機能と、前記キーワード間の係り受け
関係に基づき、係り受けの関係にある各概念のカテゴリ
の組合せを抽出する機能と、を実現させる記録媒体。