JP2003122775A

JP2003122775A - データ分析方法及びプログラム並びにデータ分析装置

Info

Publication number: JP2003122775A
Application number: JP2002214324A
Authority: JP
Inventors: Kayoko Isoo; 佳代子磯尾; Kyoko Makino; 恭子牧野; Seiji Iwata; 誠司岩田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-08-08
Filing date: 2002-07-23
Publication date: 2003-04-25
Anticipated expiration: 2022-07-23
Also published as: US20030041062A1; CN1402153A; JP4303921B2

Abstract

(57)【要約】【課題】データマイニングに利用する辞書データの変更
作業を容易化する。【解決手段】コンピュータシステム１０により分析対象
データ１７に所定のデータ要素が含まれているか否かを
判断する分析処理を実行するデータ分析方法において、
データ要素と少なくとも一つのグループ情報とを関連付
けた辞書情報Ｇ１を記憶し、グループ情報の指定を受け
付け、辞書情報Ｇ１に基づいて、指定されたグループ情
報に関連付けられているデータ要素を抽出し、この抽出
したデータ要素を所定のデータ要素として分析処理を実
行するデータ分析方法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データマイニング
などのようなデータ分析に利用されるデータ分析方法及
びプログラム並びにデータ分析装置に関する。

【０００２】

【従来の技術】テキストマイニング技術の具体例とし
て、テキストデータに基づいて文脈を理解し、テキスト
データの要約抽出、テキストデータの分類、テキストデ
ータの検索などを行う技術、テキストデータから知識を
抽出する技術、テキストで記述されている情報（定性情
報）から数量化した情報（定量情報）を取得する技術な
どがある。広義には、テキストデータについてのデータ
マイニングにより得られる結果の分析を行う技術もテキ
ストマイニング技術に含まれる。

【０００３】テキストマイニングシステム（マイニング
エンジン）は、概念定義辞書を利用して分析処理を実行
する。

【０００４】図８は、従来のテキストマイニングシステ
ムの構成を例示するブロック図である。

【０００５】このテキストマイニングシステム１は、主
に入力部２と、情報抽出部３と、出力部４と、概念定義
辞書５を具備している。

【０００６】概念定義辞書５には、各種データが記録さ
れる。概念定義辞書５には、テキストで記述される情報
の構成要素となる各種のテキスト要素とその属性情報
（例えば属性ＩＤ）とが登録される。概念定義辞書５に
登録されているテキスト要素と属性ＩＤは、分析処理の
判断基準として利用される。なお、テキスト要素とし
て、例えば単語、句、節、文などが登録される。

【０００７】例えば、「一歩リード」というテキスト要
素に属性ＩＤ「G001」が対応付けされている。また、
「ＰＯＳは順調」というテキスト要素に属性ＩＤ「G00
9」が対応付けされている。各属性ＩＤは、各テキスト
要素の性質を表し、分析処理に利用される。

【０００８】入力部２は、分析対象のデータである収集
された日報データ６１〜６ｎを入力する。

【０００９】情報抽出部３は、入力された日報データ６
１〜６ｎから概念定義辞書５に登録されているテキスト
要素を含む日報データを抽出する。そして、情報抽出部
３は、抽出した日報データとそれに含まれているテキス
ト要素の属性ＩＤとに基づいて、テキストマイニングを
行う。例えば、属性ＩＤが「良い情報」である旨を示す
テキスト要素を含んでいる日報データを、「良い日報」
と判断し、抽出する。

【００１０】出力部４は、情報抽出部３によるテキスト
マイニング結果を表示する。

【００１１】これにより、日報データ６１〜６ｎのうち
「良い日報」であると判断された日報データ７を表示す
ることが可能である。

【００１２】上記のようなテキストマイニングシステム
１において、テキストマイニングの内容を変化させたい
場合には、概念定義辞書５の登録内容を変更（例えば修
正、訂正、補充、削除、編集など）する必要がある。

【００１３】例えば、概念定義辞書５に登録されている
テキスト要素のうちいくつかのテキスト要素のみを利用
してテキストマイニングを行いたい場合がある。

【００１４】この場合、利用を望むテキスト要素とその
テキスト要素に関する属性ＩＤなどの情報のみからなる
辞書を新たに作成し、情報抽出部３がこの新たに作成さ
れた辞書をアクセスするように、辞書の指定を変更する
必要がある。

【００１５】概念定義辞書５を変更する場合には、例え
ばテキストエディタを利用して概念定義辞書プログラム
を編集する必要がある。又は辞書変更を指示するコマン
ドを入力する必要がある。

【００１６】

【発明が解決しようとする課題】テキストマイニングシ
ステム１の構造を熟知していない者が概念定義辞書５の
内容、又は情報抽出部３がアクセスする辞書の設定を、
変更することは困難である。

【００１７】したがって、概念定義辞書プログラムをテ
キストエディタで変更する作業、コマンド入力により概
念定義辞書５を変更する作業、及び利用する辞書の指定
作業は、テキストマイニングシステム１の構造に熟知し
た技術者が行う必要がある。

【００１８】また、テキストマイニングシステム１の構
造に熟知している者がテキストエディタ等によって編集
作業を行う場合であっても、コーディングミス等に基づ
くバグが発生することがある。

【００１９】本発明は、以上のような実情に鑑みてなさ
れたもので、データ分析に利用するデータ要素を容易に
変更可能とするデータ分析方法及びデータ分析プログラ
ム並びにデータ分析装置を提供することを目的とする。

【００２０】

【課題を解決するための手段】本発明を実現するにあた
って講じた具体的手段について以下に説明する。

【００２１】本発明は、コンピュータシステムにより分
析対象データに所定のデータ要素が含まれているか否か
を判断する分析処理を実行するデータ分析方法に関す
る。

【００２２】本発明のデータ分析方法は、データ要素と
少なくとも一つのグループ情報とを関連付けた辞書情報
を記憶し、グループ情報の指定を受け付け、辞書情報に
基づいて指定されたグループ情報に関連付けられている
データ要素を抽出し、この抽出したデータ要素を所定の
データ要素として分析処理を実行する。

【００２３】なお、グループ情報の指定は、ユーザから
受け付けてもよいし、外部の装置、プログラムなどから
受け付けてもよい。

【００２４】本発明では、指定されたグループ情報に関
連付けされているテキスト要素のみが抽出され、分析処
理に利用される。

【００２５】したがって、辞書の変更作業を行わなくて
もデータ分析に利用するデータ要素を容易に変更するこ
とができる。また、新たに辞書を作成し、この新たに作
成した辞書を分析処理に利用する辞書として指定する作
業も必要ない。

【００２６】なお、上記本発明のデータ分析方法を実現
させるためのプログラム又はプログラムを記録したコン
ピュータ読み取り可能な記録媒体を、発明の対象として
もよい。

【００２７】このプログラム又はこのプログラムを記録
した記録媒体を用いることによって、計算機システム、
サーバやクライアント等の計算機に対して、簡単に上述
した動作を実施可能な機能を付加することができる。

【００２８】また、上記本発明のデータ分析方法を実現
可能な手段を具備したデータ分析装置を発明の対象とし
てもよい。

【００２９】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態について説明する。

【００３０】（第１の実施の形態）本実施の形態におい
ては、テキストマイニングシステムの構造に詳しくない
者であっても、ＧＵＩ（Graphical User Interface）を
使用し、テキストマイニングに利用するテキスト要素を
容易に指定可能とするデータ要素指定プログラムについ
て説明する。

【００３１】なお、以下の各実施の形態においては、分
析対象データがテキストデータの場合について説明して
いる。しかしながら、分析対象データは、例えば、画像
データ、音声データなどのようにテキストデータ以外の
データ、様々な種別のデータの組み合わせ、であっても
よい。

【００３２】また、以下の各実施の形態においては、対
象データがテキストデータの場合について説明するた
め、辞書にはテキスト要素とその属性ＩＤとが記録され
ている。しかしながら、例えば、分析対象のデータが画
像データ、音声データなどの場合、辞書には画像デー
タ、音声データであるデータ要素とその属性ＩＤとが記
録される。このように、辞書に記録されるデータ要素の
種別は、分析対象データの種別と整合性があればよい。

【００３３】図１は、本実施の形態に係るデータ要素指
定プログラムを実行する計算機システムの構成例を示す
ブロック図である。

【００３４】データ要素指定プログラム８は、記録媒体
９に記録されており、計算機システム１０に読み込まれ
ることにより、計算機システム１０上で記憶機能１１、
グループ指定機能１２、抽出機能１３を実現する。

【００３５】記憶機能１１は、テキスト要素に対して、
そのテキスト要素の属性ＩＤとそのテキスト要素の属す
るグループを示すグループ情報とを関連付けた情報を概
念定義辞書１４に記憶する。記憶機能１１は、例えばユ
ーザ１５又は他の装置からの入力にしたがって各情報の
関連付けを行い、登録を行う。

【００３６】ユーザ１５は、記憶機能１１のＧＵＩ機能
を用いて入力を行う。例えば、関連付けた情報を入力す
るためのテーブルを表示し、ユーザはそのテーブルに各
情報を記述する。記憶機能１１は、テーブルに記述され
た内容を読み込み、概念定義辞書１４に登録する。

【００３７】概念定義辞書１４では、例えば関連付けた
情報がテーブル形式で管理される。本実施の形態におい
ては、概念定義辞書１４内に複数の辞書情報Ｇ１、Ｇ２
が含まれているとする。

【００３８】表１は、概念定義辞書１４に含まれている
辞書情報Ｇ１を例示している。

【００３９】

【表１】

【００４０】表１に示す辞書情報Ｇ１は、重要度分類辞
書である。各テキスト要素が重要度「高」「中」「低」
でグループ分けされている。グループ情報は、重要度の
種別を表す。

【００４１】例えば、テキスト要素「一歩リード」に対
して、「良い情報」を示す属性ＩＤ「G001」及びグルー
プ情報「低」が関連付けされている。他のテキスト要素
と属性ＩＤとグループ情報についても同様の関係であ
る。

【００４２】表２は、概念定義辞書１４に含まれている
辞書情報Ｇ２を例示している。

【００４３】

【表２】

【００４４】表２に示す辞書情報Ｇ２は、品名分類辞書
である。各テキスト要素が品名「雑誌」「飲料」でグル
ープ分けされている。グループ情報は、品名の種別を表
す。

【００４５】グループ指定機能１２は、テキストマイニ
ングに利用するテキスト要素のグループ情報をユーザに
指定させるための画面を表示し、ユーザから指定を受け
付ける。

【００４６】図２は、このグループ指定機能１２によっ
て表示される画面を例示する図である。

【００４７】このグループ指定画面１６上には、分析対
象とする日報データの日付の指定領域、概念定義辞書１
４に含まれている複数の辞書情報Ｇ１、Ｇ２のうちどの
辞書情報を利用するかを指定する領域、そしてグループ
情報を指定するためのチェックボックスが配置されてい
る。この例では、日付「１月２２日」、辞書情報「Ｇ
１」、グループ情報「高」「中」が指定されている。

【００４８】グループ指定機能１２は、グループ指定画
面１６で指定された日付「１月２２日」に関する日報デ
ータの入力命令を入力部２ａに出力し、グループ指定画
面１６で辞書情報「Ｇ１」とグループ情報「高」「中」
が指定されたことを示す通知を抽出機能１３に提供す
る。

【００４９】抽出機能１３は、概念定義辞書１４をアク
セスし、ユーザに指定された辞書情報Ｇ１からユーザに
指定されたグループ情報「高」「中」に関連付けされて
いるテキスト要素とその属性ＩＤとを抽出し、情報抽出
部３ａに提供する。

【００５０】日報データベース１７は、日報データを記
録する。

【００５１】表３は、日報データベース１７に記録され
ている日報データの例を示す。

【００５２】

【表３】

【００５３】なお、日報番号「N001」〜「N005」の日報
データは、日付「１月２２日」に対応しているとする。

【００５４】テキストマイニングシステム１ａは、入力
部２ａ、情報抽出部３ａ、出力部４ａとを具備する。

【００５５】入力部２ａは、グループ指定機能１２から
の命令にしたがって、指定された日付「１月２２日」に
関する日報データを日報データベース１７から入力す
る。

【００５６】情報抽出部３ａは、入力部２ａから取得し
た日報データに対して、上記抽出機能１３から提供され
たテキスト要素と属性ＩＤとに基づいて、先の図８で説
明した分析と同様のテキストマイニングを実行し、分析
結果ファイルを作成する。

【００５７】表４は、情報抽出部３ａにより作成された
分析結果ファイルの内容を示す。

【００５８】この分析結果ファイルでは、日報番号、日
報データ、分析結果情報とが関連付けされている。具体
的には、分析結果ファイルの内容は、「日報番号」、
「日報データ」、「分析結果情報」の項目を持つテーブ
ルである。

【００５９】

【表４】

【００６０】分析結果情報は、ユーザに指定された日付
「１月２２日」に関する日報データに含まれており、ユ
ーザに指定されたグループ情報「高」「中」に関連付け
されているテキスト要素の属性ＩＤである。なお、ユー
ザに指定された日付の日報データであるが、ユーザに指
定されたグループ情報「高」「中」に関連付けされてい
るテキスト要素を含まない日報データの分析結果情報は
「NULL」となる。

【００６１】出力部４ａは、情報抽出部３ａから分析結
果ファイルを入力し、分析結果情報が「NULL」でない日
報データ、すなわち分析結果情報に属性ＩＤが挿入され
ている日報データのみを表示する。

【００６２】表５は、ユーザ１５が日付「１月２２日」
と辞書情報「Ｇ１」とグループ情報「高」「中」を指定
した場合の分析結果を示す。

【００６３】

【表５】

【００６４】この表５では、日付「１月２２日」に関す
る日報データからグループ情報「高」「中」に関連付け
されているテキスト要素を含む日報データのみが抽出さ
れている。

【００６５】表６は、ユーザが日付「１月２２日」と辞
書情報「Ｇ１」とグループ情報「中」を指定した場合の
分析結果を示す。

【００６６】

【表６】

【００６７】この表６では、日付「１月２２日」の日報
データからグループ情報「中」に関連付けされているテ
キスト要素を含む日報データが抽出されている。

【００６８】図３は、上記データ要素指定プログラム８
とテキストマイニングシステム１ａとにより実行される
データ分析方法に関するフロー図である。

【００６９】まず、ユーザ１５の操作により、テキスト
要素に対してそのテキスト要素の属性ＩＤとグループ情
報とを関連付けた情報が、計算機システム１０の概念定
義辞書１４に記憶される（Ｓ１）。

【００７０】ユーザ１５がデータ分析の開始を指示する
と、グループ指定機能１２によってグループ指定画面１
６が表示される（Ｓ２）。

【００７１】ユーザ１５は、このグループ指定画面１６
上で自己の望む分析に利用する各種情報を指定する。

【００７２】ユーザ１５に指定された内容は、グループ
指定機能１２によって受け付けられる（Ｓ３）。

【００７３】すると、指定されたグループ情報に関連付
けされているテキスト要素と属性ＩＤとが指定された辞
書情報から抽出機能１３によって抽出され、情報抽出部
３ａに提供される（Ｓ４）。

【００７４】また、指定された日付の日報データが日報
データベース１７から入力部２ａによって入力される
（Ｓ５）。

【００７５】そして、入力部２ａによって入力された所
定の日付の日報データと抽出機能１３から提供されたテ
キスト要素と属性ＩＤとに基づいて、情報抽出部３ａに
よってデータ分析が実行され（Ｓ６）、分析結果が出力
部４ａによって出力される（Ｓ７）。

【００７６】なお、ステップＳ４とステップＳ５とは、
逆の順序で実行されてもよく、並列に実行されてもよ
い。

【００７７】以上説明したように、本実施の形態におい
ては、テキスト要素とその属性ＩＤに予めグループ情報
が関連付けされる。ユーザ１５は、分析処理を実行する
場合にこの分析処理に利用するテキスト要素のグループ
情報を指定する。

【００７８】これにより、ユーザ１５は、テキストエデ
ィタを用いて概念定義辞書１４の内容を変更する必要が
なく、グループ情報を指定することにより分析に利用す
るテキスト要素を容易に切り換えることができる。

【００７９】したがって、ユーザの望む分析を容易に実
現することができる。

【００８０】また、辞書情報を一つにまとめても、複数
の分析処理を実行することができる。

【００８１】また、データ要素指定プログラム８の記憶
機能１１を利用することで、テキストマイニングシステ
ム１ａの構造に詳しくない者であっても、ＧＵＩを利用
し、容易に概念定義辞書１４を構成する各種辞書情報の
内容を分析内容に応じて変更できる。

【００８２】また、記憶機能１１によりユーザ１５は容
易に概念定義辞書１４を変更可能であるためコーディン
グミス等に基づくバグの発生を防止できる。

【００８３】（第２の実施の形態）本実施の形態におい
ては、上記第１の実施の形態の変形例について説明す
る。

【００８４】図４は、本実施の形態に係るデータ要素指
定プログラムを実行する計算機システムの構成例を示す
ブロック図である。なお、この図４において図１と同一
の部分については同一の符号を付してその説明を省略
し、ここでは異なる部分についてのみ詳しく説明する。

【００８５】本実施の形態に係るデータ要素指定プログ
ラム８は、グループ情報の指定又は概念定義辞書１４の
変更内容を、ユーザ１５から入力するのではなく分析結
果集計プログラム２１によって実現される機能から入力
する点が異なる。

【００８６】分析結果集計プログラム２１は、計算機シ
ステム１０上で結果集計機能２２、指定内容決定機能２
３を実現する。

【００８７】結果集計機能２２は、過去のテキストマイ
ニング結果を入力し、このテキストマイニング結果に含
まれているテキスト要素を抽出する。

【００８８】結果集計機能２２によるテキスト要素の抽
出は、テキストマイニング結果から概念定義辞書１４に
記録されているテキスト要素を抽出する方法によって実
現してもよい。その他にも、結果集計機能２２によるテ
キスト要素の抽出は、テキストマイニング結果に含まれ
ている日報データを所定の規則にしたがってテキスト要
素単位に分けて抽出する方法によって実現してもよい。
例えば所定の規則には、単語を切り出すための規則など
が利用される。

【００８９】また、結果集計機能２２は、抽出されたテ
キスト要素がテキストマイニング結果に含まれる頻度を
示す出現頻度、抽出されたテキスト要素の出現時間など
の情報を集計する。

【００９０】例えば、日報データに付されている時間情
報やテキストマイニングの実行時間を示す情報は、抽出
されたテキスト要素の出現時間を示す情報として利用さ
れる。

【００９１】指定内容決定機能２３は、集計された情報
に基づいて、過去のテキストマイニング結果に含まれて
いるテキスト要素にグループ情報を関連付ける。例え
ば、過去のテキストマイニング結果に含まれているある
テキスト要素に対し、その出現頻度に応じてグループ情
報「出現頻度多」「出現頻度中」「出現頻度少」のうち
のいずれかを関連付ける。また、過去のテキストマイニ
ング結果に含まれているあるテキスト要素に対し、出現
時刻に応じてグループ情報「所定期間内」「所定期間
外」のうちのいずれかを関連付ける。

【００９２】そして、指定内容決定機能２３は、その関
連付けた内容を記憶機能１１又はグループ指定機能１２
に通知する。

【００９３】図５は、上記データ要素指定プログラム８
とテキストマイニングシステム１ａと分析結果集計プロ
グラム２１とにより実行されるデータ分析方法に関する
フロー図である。

【００９４】まず、テキスト要素に対してそのテキスト
要素の属性ＩＤとグループ情報とを関連付けた情報が計
算機システム１０の概念定義辞書１４に記憶される（Ｔ
１）。

【００９５】テキストマイニングシステム１ａによるデ
ータ分析が実行されると（Ｔ２）、その分析結果が分析
結果集計プログラム２１に入力され（Ｔ３）、この分析
結果集計プログラム２１による集計処理が実行され（Ｔ
４）、分析結果に含まれているテキスト要素に対してグ
ループ情報を関連付けた情報が求められる（Ｔ５）。

【００９６】テキスト要素に対してグループ情報を関連
付けた情報は、データ要素指定プログラム８の記憶機能
１１によって計算機システム１０の概念定義辞書１４に
記憶される（Ｔ６）。

【００９７】また、分析結果集計プログラム２１による
集計処理で扱われる所定のグループ情報がデータ要素指
定プログラム８のグループ指定機能１２に対して指定さ
れる（Ｔ７）。

【００９８】すると、指定されたグループ情報に関連付
けされているテキスト要素が辞書情報から抽出機能１３
によって抽出され、情報抽出部３ａに提供される（Ｔ
８）。

【００９９】また、日報データが日報データベース１７
から入力部２ａによって入力される（Ｔ９）。

【０１００】そして、入力部２ａによって入力された日
報データと抽出機能１３から提供されたテキスト要素と
に基づいて、情報抽出部３ａによってデータ分析が実行
され（Ｔ１０）、分析結果が出力部４ａによって出力さ
れる（Ｔ１１）。

【０１０１】なお、ステップＴ６とステップＴ７とは、
逆の順序で実行されてもよく、並列に実行されてもよ
い。

【０１０２】また、ステップＴ８とステップＴ９とは、
逆の順序で実行されてもよく、並列に実行されてもよ
い。

【０１０３】また、結果集計機能２２は、集計結果など
を表やグラフの形式でユーザ１５に提示し、ユーザ１５
は、その内容に基づいて指定内容決定機能２３に対し、
グループ情報などの各種決定事項を入力するとしてもよ
い。

【０１０４】本実施の形態においては、分析結果集計プ
ログラム２１によって自動的にテキスト要素がグループ
化され、所定のグループに属するテキスト要素のみを利
用してテキストマイニングを行うことができる。

【０１０５】例えば、先の分析で一定レベル以上使用さ
れたテキスト要素のみを利用してテキストマイニングを
行い、それ以外の使用回数が一定レベルに満たないテキ
スト要素を排除してテキストマイニングを行うことがで
きる。

【０１０６】（第３の実施の形態）本実施の形態におい
ては、上記第１又は第２の実施の形態に係るデータ要素
指定プログラム８の変形例について説明する。

【０１０７】表７は、本実施の形態に係るデータ要素指
定プログラムの記憶機能によって記憶される辞書情報の
内容を示す。

【０１０８】

【表７】

【０１０９】本実施の形態においては、テキスト要素に
一以上のグループ情報を付した辞書情報が概念定義辞書
に記録される。

【０１１０】グループ情報には、例えば、重要度分類に
関する「高」「中」「低」、良否分類に関する「よい」
「悪い」、品名分類に関する「飲料」「雑誌」が利用さ
れる。

【０１１１】このように、一つの辞書情報に各種の分類
を含ませることで（上記第１の実施の形態における複数
の辞書情報を組み合わせることで）、一つの辞書情報で
様々な種別のデータ分析を行うことができる。

【０１１２】また、従来においては、複数の辞書情報を
用意し、分析の内容に応じてテキストマイニングに利用
する辞書情報を切り換えていたが、本実施の形態におい
ては、一つの辞書情報を用いて様々なテキストマイニン
グを行うことができる。したがって、分析処理で利用す
る辞書情報をユーザが指定する必要がなく、ユーザの操
作を簡略化できる。

【０１１３】（第４の実施の形態）本実施の形態におい
ては、上記第３の実施の形態に係るデータ要素指定プロ
グラムの変形例について説明する。本実施の形態の構成
には、上記図１又は図４と同様の構成を適用できる。

【０１１４】本実施の形態においては、グループを階層
的に組み合わせてグループ情報が構成される。

【０１１５】表８は、本実施の形態に係るデータ要素指
定プログラムの記憶機能によって記憶される辞書情報の
内容を示す。

【０１１６】

【表８】

【０１１７】本実施の形態においては、階層構造を持つ
グループ情報をテキスト要素に付した辞書情報が概念定
義辞書に記憶される。

【０１１８】例えば、テキスト要素は、第１に、良否分
類に関するグループ「よい」「悪い」で分けられる。第
２に、グループ「よい」に属するテキスト要素は、重要
度分析に関する３つのグループ「高」「中」「低」に分
けられ、細分化される。

【０１１９】よい意味を示すテキスト要素の中にも重要
度の高いテキスト要素、低いテキスト要素などがある。

【０１２０】本実施の形態においては、上記の表８に示
す辞書情報を適用することにより、ユーザは、例えばよ
い意味を示すテキスト要素の中から重要度の高いテキス
ト要素のみを用いてデータ分析を行うことができる。

【０１２１】上記表８における属性番号は、テキスト要
素の属するグループの階層状態を表す。属性番号は、グ
ループ情報と同様にテキスト要素に関係付けされてい
る。

【０１２２】例えば、グループ「よい」には、番号
「G」が割り当てられる。グループ「高」には番号「H」
が割り当てられる。グループ「中」には番号「M」が割
り当てられる。グループ「低」には番号「L」が割り当
てられる。上位のグループの番号と下位のグループの番
号とは、「-」で結合される。

【０１２３】テキスト要素は、一以上のグループ情報と
関連付けされ、辞書情報に記録されてもよい。

【０１２４】例えば、テキスト要素「互角の売れ行き」
に対して、グループ情報「よい−低」と「悪い」を付し
てもよい。

【０１２５】また、本実施の形態においては、階層構造
を持つグループ情報と、階層構造を持たないグループ情
報とが、同じ辞書情報に登録されてもよい。

【０１２６】表９に、階層構造を持つグループ情報と階
層構造を持たないグループ情報とが混在する辞書情報の
内容を示す。

【０１２７】

【表９】

【０１２８】この表９の例において、テキスト要素は、
第１に、グループ「飲料」「雑誌」「よい」「悪い」で
分けられる。第２に、グループ「飲料」に属するテキス
ト要素は、グループ「全般」「茶」「果物」に分けら
れ、グループ「よい」に属するテキスト要素は、グルー
プ「高」「中」「低」に分けられる。

【０１２９】すなわち、この表９においては、グループ
「飲料」「よい」を表すグループ情報は階層構造を持
ち、グループ「雑誌」「悪い」を表すグループ情報は、
階層構造を持たない。

【０１３０】上位のグループ「飲料」「よい」「雑誌」
「悪い」には、それぞれ属性番号「D」「G」「MA」
「B」が割り当てられる。

【０１３１】また、下位のグループ「全般」「茶」「果
物」「高」「中」「低」には、それぞれ属性番号「A」
「T」「F」「H」「M」「L」が割り当てられる。下位の
グループが存在しない場合には、属性番号「NULL」が割
り当てられる。

【０１３２】なお、上記グループ情報の階層は、「よい
−高」のように２階層に限定されるものではなく、「よ
い−高−継続」「よい−高−短期」などのように３階層
以上としてもよい。

【０１３３】図６は、本実施の形態に係る辞書情報を用
いて分析を行う場合に、ユーザからグループの指定を受
け付ける画面の一例を示す図である。

【０１３４】ユーザは、グループ指定画面２４にしたが
って、分析対象の日報データを指定し、分析に用いる辞
書情報を指定し、上位のグループを少なくとも一つ指定
する。指定された上位のグループが下位のグループを持
つ場合、本実施の形態に係るグループ指定機能は、下位
のグループを指定するための選択肢２４ａ、２４ｂを表
示する。

【０１３５】ユーザは、選択肢２４ａ、２４ｂ上で、下
位のグループを指定する。

【０１３６】本実施の形態に係る抽出機能は、このグル
ープ指定画面２４上で指定されたグループに属するテキ
スト要素を抽出する。抽出されたテキスト要素は、日報
データの分析に用いられる。

【０１３７】以上説明した本実施の形態においては、概
念定義辞書に登録されるテキスト要素に関連付けされる
グループ情報が階層構造を持つ。

【０１３８】これにより、ユーザは、例えば上位のグル
ープのみを指定して分析を行い、さらにその分析結果に
応じて下位のグループを指定して分析を行うことがで
き、分析結果を絞り込むことができる。そして、ユーザ
は、自己の意思に沿った分析を行うことができる。

【０１３９】なお、上記各実施の形態に係るデータ要素
指定プログラムにより実行される各機能は、同様の作用
を実現可能であれば配置を変更させてもよく、また各機
能を自由に組み合わせてもよい。

【０１４０】また、上記各実施の形態において、計算機
システム１０は複数の計算機により構成され、各プログ
ラムは複数の計算機に分散して配置され、互いに連携を
取りつつ処理を実行するとしてもよい。

【０１４１】上記各実施の形態に係るデータ要素指定プ
ログラムは、例えば磁気ディスク（フレキシブルディス
ク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、
ＤＶＤ等）、半導体メモリなどの記録媒体９に書き込ん
でコンピュータに適用可能である。またこのプログラム
は、通信媒体により伝送してコンピュータに適用するこ
とも可能である。上記の各種機能を実現するコンピュー
タは、記録媒体に記録されたプログラムを読み込み、プ
ログラムによって動作が制御されることにより、上述し
た機能を実現する。

【０１４２】また、上記各実施の形態に係るデータ要素
指定プログラムの実現する機能と同様の動作を行う手段
を備えたデータ分析装置を利用しても、同様の効果を得
ることができる。

【０１４３】（第５の実施の形態）本実施の形態におい
ては、上記各実施の形態に係るデータ要素指定プログラ
ムの利用態様について説明する。

【０１４４】図７は、本実施の形態に係るデータ要素指
定プログラムの利用態様を例示するブロック図である。
この図７において、図１と同一の部分については同一の
符号を付している。

【０１４５】この図７において、テキストマイニングシ
ステム１ａにより実施されるサービスは、ＡＳＰ（アプ
リケーション・サービス・プロバイダ）１８によりユー
ザ１５に提供される。

【０１４６】また、データ要素指定プログラムにより実
施されるサービスも、ＡＳＰ１８により提供される。

【０１４７】ユーザ１５は、自己のクライアント１９か
ら例えばインターネットなどのようなネットワーク２０
を経由してＡＳＰ１８の管理するテキストマイニングシ
ステム１ａを利用することで、日報データの分析を容易
に実施できる。

【０１４８】また、ユーザ１５は、分析に利用するテキ
スト要素を変更したい場合又は辞書情報の内容を変更し
たい場合に、ＡＳＰ１８の管理するデータ要素指定プロ
グラム８を利用することで、容易にテキスト要素又は辞
書情報を変更することができる。

【０１４９】そして、ＡＳＰ１８のサービスの提供を受
けることで、ユーザ１５は、自己でテキストマイニング
システム１ａ及びデータ要素指定プログラム８を運用す
る場合よりも保守、運用の面で効率的に分析サービスを
利用できる。

【０１５０】

【発明の効果】以上詳記したように本発明においては、
データ要素とグループ情報とを予め関連付けておき、分
析処理を実行する場合にこの分析処理に利用するデータ
要素のグループ情報を指定する。

【０１５１】これにより、データ要素を登録している辞
書情報をテキストエディタにより変更することなく、分
析に利用するデータ要素を変更できる。

【０１５２】また、辞書情報を一つにまとめても、複数
の内容の分析処理を実行することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態に係るデータ要素指
定プログラムを実行する計算機システムの構成例を示す
ブロック図。

【図２】グループ指定機能によって表示される画面を例
示する図。

【図３】同実施の形態に係るデータ要素指定プログラム
とテキストマイニングシステムとにより実行されるデー
タ分析方法に関するフロー図。

【図４】本発明の第２の実施の形態に係るデータ要素指
定プログラムを実行する計算機システムの構成例を示す
ブロック図。

【図５】同実施の形態に係るデータ要素指定プログラム
とテキストマイニングシステムと分析結果集計プログラ
ムとにより実行されるデータ分析方法に関するフロー
図。

【図６】本発明の第４の実施の形態に係るグループ指定
機能によって表示される画面を例示する図。

【図７】本発明の第５の実施の形態に係るデータ要素指
定プログラムの利用態様を例示するブロック図。

【図８】従来のテキストマイニングシステムの構成を例
示するブロック図。

【符号の説明】

１、１ａ…テキストマイニングシステム２、２ａ…入力部３、３ａ…情報抽出部４、４ａ…出力部５…概念定義辞書６１〜６ｎ…日報データ８…データ要素指定プログラム９…記録媒体１０…計算機システム１１…記憶機能１２…グループ指定機能１３…抽出機能１４…概念定義辞書１６、２４…グループ指定画面１７…日報データベース１８…ＡＳＰ２１…分析結果集計プログラム２２…結果集計機能２３…指定内容決定機能

フロントページの続き (72)発明者岩田誠司東京都府中市東芝町１番地株式会社東芝府中事業所内Ｆターム(参考） 5B075 ND02 NS10

Claims

【特許請求の範囲】

【請求項１】コンピュータシステムにより分析対象デ
ータに所定のデータ要素が含まれているか否かを判断す
る分析処理を実行するデータ分析方法において、データ要素と少なくとも一つのグループ情報とを関連付
けた辞書情報を記憶し、グループ情報の指定を受け付け、前記辞書情報に基づいて、指定されたグループ情報に関
連付けられているデータ要素を抽出し、この抽出したデ
ータ要素を前記所定のデータ要素として前記分析処理を
実行することを特徴とするデータ分析方法。
【請求項２】コンピュータシステムにより分析対象デ
ータに所定のデータ要素が含まれているか否かを判断す
る分析処理を実行するために、コンピュータに、データ要素と少なくとも一つのグループ情報とを関連付
けた辞書情報を記憶手段に記憶する機能、グループ情報の指定を受け付ける機能、前記辞書情報に基づいて、指定されたグループ情報に関
連付けられているデータ要素を抽出し、この抽出したデ
ータ要素を前記所定のデータ要素とする機能を実現させ
るためのプログラム。
【請求項３】分析対象データに所定のデータ要素が含
まれているか否かを判断する分析処理を実行するデータ
分析装置において、データ要素と少なくとも一つのグループ情報とを関連付
けた辞書情報を記憶する手段と、グループ情報の指定を受け付ける手段と、前記辞書情報に基づいて、指定されたグループ情報に関
連付けられているデータ要素を抽出し、この抽出したデ
ータ要素を前記所定のデータ要素として前記分析処理を
実行する手段に提供する手段とを具備したことを特徴と
するデータ分析装置。