JPH10171777A - System for analyzing data - Google Patents

System for analyzing data

Info

Publication number
JPH10171777A
JPH10171777A JP33907396A JP33907396A JPH10171777A JP H10171777 A JPH10171777 A JP H10171777A JP 33907396 A JP33907396 A JP 33907396A JP 33907396 A JP33907396 A JP 33907396A JP H10171777 A JPH10171777 A JP H10171777A
Authority
JP
Japan
Prior art keywords
category
categories
statistic
analysis system
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33907396A
Other languages
Japanese (ja)
Inventor
Hideyuki Maki
牧  秀行
Akira Maeda
章 前田
Erika Ayukawa
江里香 鮎川
Yukiyasu Ito
幸康 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP33907396A priority Critical patent/JPH10171777A/en
Publication of JPH10171777A publication Critical patent/JPH10171777A/en
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PROBLEM TO BE SOLVED: To automatically discover a characteristic category from among plural categories, and to present it to a user. SOLUTION: A category classifying means 0102 defines the group of a record constituted of more than one item stored in a disk 0101 as objective data, defines more than one items as a category item, and classifies the group of the record into plural categories according to the value of the category item. A category evaluating means 0106 calculates the total amounts of each of plural categories 0103 by a preliminarily decided calculation method, and calculates the evaluated value of each of the plural categories based on the total amounts. A category selecting means 0104 selects one or plural categories from among the plural categories based on the evaluated value, and a presenting means 0105 presents the selected category to a user.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】対象データを様々なカテゴリ
に分類し、カテゴリごとの特徴を調べる大量のデータを
対象とするデータ分析技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data analysis technique for classifying a target data into various categories and examining characteristics of each category for a large amount of data.

【0002】[0002]

【従来の技術】分析指向のデータ利用技術として、OL
AP、多次元データベースが知られている。これらにつ
いては、「DATABASE SYSTEM」Vol.2/No.3(ソフトバン
ク株式会社、1996)、特集「データウェアハウスの実
践」に説明がある。大量データの分析、知識発見技術と
して、特開平8−77010「データ分析方法および装
置」にデータの特徴を自動抽出する技術がある。また、
「データベースからの知識発見技術」(システム/情報
/制御、 Vol.39/No.4)にこれらの技術について説明さ
れている。
2. Description of the Related Art As an analysis-oriented data utilization technique, OL
APs and multidimensional databases are known. These are described in "DATABASE SYSTEM" Vol.2 / No.3 (SoftBank Corp., 1996) and special feature "Practice of Data Warehouse". As a technique for analyzing a large amount of data and discovering knowledge, there is a technique for automatically extracting characteristics of data in Japanese Patent Application Laid-Open No. 8-77010 "Data analysis method and apparatus". Also,
These techniques are described in "Knowledge Discovery Techniques from Databases" (System / Information / Control, Vol. 39 / No. 4).

【0003】[0003]

【発明が解決しようとする課題】多次元データベースな
どの技術により、対象データを多角的に分析することが
可能になっている。これらの分析技術によれば、対象デ
ータを容易に様々なカテゴリに分類し、カテゴリごとの
特徴を調べることができる。しかし、どのカテゴリに着
目すべきかは使用者が指定する必要があり、可能なカテ
ゴリの数が多い場合、その中から特徴的なカテゴリを探
し出すことは困難である。
[0004] Techniques such as a multi-dimensional database have made it possible to analyze target data from multiple angles. According to these analysis techniques, target data can be easily classified into various categories, and characteristics of each category can be examined. However, it is necessary for the user to specify which category to focus on, and when there are many possible categories, it is difficult to find a characteristic category from the categories.

【0004】本発明の目的は、多数のカテゴリの中か
ら、特徴的なカテゴリを自動的に発見し、使用者に提示
することにある。
An object of the present invention is to automatically find a characteristic category from a large number of categories and present it to a user.

【0005】[0005]

【課題を解決するための手段】上記課題を解決するた
め、本発明は、1つ以上の項目からなるレコードの集合
を対象データとし、該項目のうちの1つ以上をカテゴリ
項目とし、該カテゴリ項目の値によって該レコードの集
合を複数のカテゴリに分類するカテゴリ分類手段と、あ
らかじめ定められた算法により該複数のカテゴリのそれ
ぞれについて統計量を算出し、該統計量に基づいて該複
数のカテゴリのそれぞれについての評価値を算出するカ
テゴリ評価手段と、該評価値に基づいて該複数のカテゴ
リのうちの1つまたは複数のカテゴリを選択するカテゴ
リ選択手段と、該選択したカテゴリを使用者に提示する
提示手段を備えるようにしている。
In order to solve the above problems, the present invention provides a set of records including one or more items as target data, one or more of the items as category items, A category classifying means for classifying the set of records into a plurality of categories according to the value of the item; calculating a statistic for each of the plurality of categories by a predetermined algorithm; and calculating the statistics of the plurality of categories based on the statistic. Category evaluation means for calculating an evaluation value for each, category selection means for selecting one or a plurality of categories from the plurality of categories based on the evaluation value, and presenting the selected category to a user Presenting means is provided.

【0006】さらに、選択した1つまたは複数のカテゴ
リの統計量を表形式で表示する手段を備えるようにして
いる。
Further, there is provided means for displaying statistics of one or more selected categories in a table format.

【0007】また、基準となる1つまたは複数のカテゴ
リを使用者により設定する手段を備え、前記カテゴリ分
類手段は、該カテゴリ項目の値によって前記レコードの
集合を該基準となるカテゴリに包含される複数のカテゴ
リに分類するようにしている。
The apparatus further comprises means for setting one or more categories as a reference by a user, wherein the category classification means includes the set of records in the category as the reference according to the value of the category item. Classification into multiple categories.

【0008】また、前記カテゴリ選択手段により選択さ
れた1つまたは複数のカテゴリを新たに基準となるカテ
ゴリに設定する手段を備え、基準となるカテゴリの設
定、カテゴリへの分類、評価値の算出、カテゴリの選
択、新たに基準となるカテゴリの設定の各処理を繰り返
し実行処理するようにしている。
The apparatus further comprises means for setting one or more categories selected by the category selecting means as a new reference category, setting a reference category, classifying the category, calculating an evaluation value, Each process of selecting a category and setting a new reference category is repeatedly executed.

【0009】また、カテゴリ項目および統計量について
の説明文の断片の集合を格納した手段を備え、前記カテ
ゴリ選択手段により選択した1つまたは複数のカテゴリ
についてのカテゴリ項目の値に基づき、該選択した1つ
または複数のカテゴリの統計量を前記対象データから算
出する手段と、該統計量と該カテゴリ項目の値に応じて
前記説明文の断片を組み合わせ、前記選択した1つまた
は複数のカテゴリの統計量の特徴を説明する説明文を合
成する手段と、該説明文を表示する手段を備えるように
している。
In addition, there is provided means for storing a set of category items and fragments of explanatory texts regarding statistics, and the selected item is selected based on the value of the category item for one or more categories selected by the category selecting means. Means for calculating a statistic of one or more categories from the target data, and combining the statistic and the fragment of the description according to the value of the category item; Means for synthesizing an explanatory text explaining the feature of the quantity and means for displaying the explanatory text are provided.

【0010】また、選択した1つまたは複数のカテゴリ
についてのカテゴリ項目の値とカテゴリの評価値を保持
する保持手段を備え、前記統計量を表形式で表示する手
段は、該保持手段の保持内容を表示するとき、選択した
1つまたは複数のカテゴリのうち最大、または最小の評
価値を持つカテゴリに対応する表の要素を強調表示する
手段を備えるようにしている。
[0010] Further, holding means for holding category item values and category evaluation values for one or more selected categories is provided, and the means for displaying the statistics in a tabular form comprises: Is displayed, means for highlighting an element of a table corresponding to a category having a maximum or minimum evaluation value among one or a plurality of selected categories is provided.

【0011】また、前記繰り返し実行処理において前記
カテゴリ選択手段により順次選択された、各1つまたは
複数のカテゴリを選択された順序を維持して保持するカ
テゴリ選択結果保持手段と、該繰り返し実行処理の実行
中または該繰り返し実行処理の終了後に選択された順序
に従って該カテゴリ選択結果保持手段の保持内容をリス
ト形式で表示する手段を備えるようにしている。
A category selection result holding means for holding the one or more categories sequentially selected by the category selection means in the repetition execution processing while maintaining a selected order; A means is provided for displaying the contents held by the category selection result holding means in a list format according to the order selected during execution or after the end of the repetitive execution processing.

【0012】また、前記繰り返し実行処理において、あ
る時点において選択された1つまたは複数のカテゴリに
ついての統計量を、該繰り返し実行処理の実行中に使用
者に提示し、同時に、その次の時点で選択された1つま
たは複数のカテゴリを使用者に提示する手段を備えるよ
うにしている。
In the repetitive execution process, a statistic of one or more categories selected at a certain time is presented to a user during the execution of the repetitive execution process, and at the same time, Means are provided for presenting the user with the selected one or more categories.

【0013】また、前記繰り返し実行処理において前記
カテゴリ選択手段により順次選択された、各1つまたは
複数のカテゴリを選択された順序を維持して保持するカ
テゴリ選択結果保持手段と、該繰り返し実行処理の終了
後に該カテゴリ選択結果保持手段の保持内容を選択され
た順序に従って使用者に提示する手段を備えるようにし
ている。
A category selection result holding unit for maintaining the one or more categories sequentially selected by the category selection unit in the repetition execution process while maintaining a selected order; After the end, means for presenting the contents held by the category selection result holding means to the user in the selected order is provided.

【0014】また、データ転送路により接続された第1
の装置と第2の装置を備え、該第1の装置は、対象デー
タに関する項目情報に基づき複数のカテゴリを生成する
手段と、該生成されたカテゴリ情報と複数のカテゴリそ
れぞれの統計量に基づき複数のカテゴリそれぞれの評価
値を算出する評価値算出手段と、該評価値に基づいて該
複数のカテゴリのうちの1つまたは複数のカテゴリを選
択するカテゴリ選択手段と、該選択したカテゴリを使用
者に提示する提示手段を備え、前記第2の装置は、1つ
以上の項目からなるレコードの集合を対象データとして
格納する格納手段と、あらかじめ定められた算法により
該複数のカテゴリのそれぞれについて統計量を算出する
統計量算出手段と、該手段により算出された統計量を保
持する統計量保持手段を備え、前記第2の装置の統計量
算出手段は、前記第1の装置からデータ転送路を介して
転送される前記カテゴリ情報と前記格納手段内の対象デ
ータに基づき前記統計量を算出し、該算出した統計量を
前記第1の装置にデータ転送路を介して転送し、 前記
第1の装置の評価値算出手段は、前記第2の装置からデ
ータ転送路を介して転送される統計量に基づき前記評価
値を算出するようにしている。
Also, the first data communication path connected by the data transfer path
And a second device, the first device comprising: means for generating a plurality of categories based on item information relating to target data; and a plurality of categories based on the generated category information and a statistic of each of the plurality of categories. Evaluation value calculating means for calculating an evaluation value for each of the categories, category selecting means for selecting one or more categories from the plurality of categories based on the evaluation value, and providing the user with the selected category. The second device includes a storage unit configured to store a set of records including one or more items as target data, and a statistic for each of the plurality of categories by a predetermined algorithm. A statistic calculating means for calculating, and a statistic holding means for holding a statistic calculated by the means, wherein the statistic calculating means of the second device comprises: The statistical information is calculated based on the category information transferred from the first device via the data transfer path and the target data in the storage unit, and the calculated statistical value is transmitted to the first device via the data transfer path. The evaluation value calculation means of the first device calculates the evaluation value based on a statistic transferred from the second device via a data transfer path.

【0015】また、データ分析装置における処理手順を
コンピュータプログラムとして記憶媒体に格納するよう
にしている。
Further, the processing procedure in the data analyzer is stored in a storage medium as a computer program.

【0016】[0016]

【発明の実施の形態】図1に、本発明の実施の一形態を
示す。対象データ0101はレコードの集合で、各レコ
ードは1つ以上の項目からなる。図2に、対象データの
例を示す。これは、簡単な顧客データの例である。これ
らの項目の都道府県、年代、性別、職業、利用額うちの
1つ以上の項目はカテゴリ分類手段において、カテゴリ
項目(例えば、都道府県、年代、性別、職業)として用
いられる。図3に、カテゴリ分類手段における処理の流
れを示す。まず、対象データの項目のうち、カテゴリ項
目として用いるものを指定する(0301)。カテゴリ
項目の集合を、 { Ii } (i = 1〜M) とする。カテゴリ項目数は M である。カテゴリ項目
Ii の取り得るカテゴリ値(例えば、東京、神奈川、自
営業等)の集合を { Vij } (j = 1〜Ni) とする。取り得るカテゴリ値の数 Ni は、カテゴリ項
目ごとに異なる。例えば、カテゴリ項目「性別」の取り
得るカテゴリ値の数は、「男性」、「女性」の2個であ
る。次に、全てのカテゴリ項目について、取り得るカテ
ゴリ値の集合に、特殊なカテゴリ値「don't-care」を追
加する(0302)。その結果、カテゴリ項目 Iiの取
り得るカテゴリ値の集合は { Vij } (j = 0〜Ni、ただし Vi0 は「don't-car
e」) となる。次に、カテゴリを生成する(0303)。カテ
ゴリは、「don't-care」を含んだ、カテゴリ項目の値の
組み合わせによって定義される。図4に、カテゴリの例
を示す。例えば、すべてのカテゴリ項目のカテゴリ値が
「don't-care」であるカテゴリは、全体集合を表す。カ
テゴリ項目の1つ、「職業」のカテゴリ値が「自営業」
で、その他のカテゴリ項目が「don't-care」であるカテ
ゴリは、自営業者の集合を表す。次に、対象データの全
レコードを、処理0303において生成されたカテゴリ
へ分類する(0304)。それぞれのレコードが持つカ
テゴリ項目値と、それぞれのカテゴリが持つカテゴリ項
目値を比較し、すべてのカテゴリ項目値が一致した場
合、レコードは、そのカテゴリに分類される。ただし、
「don't-care」は、すべての項目値と一致するものとす
る。したがって、図5に示すように、1つのレコードは
複数のカテゴリに分類されることになる。図5におい
て、カテゴリ項目「都道府県」の値が「東京」、カテゴ
リ項目「年代」の値が「20」、カテゴリ項目「性別」
の値が「男」、カテゴリ項目「職業」の値が「会社員」
であるレコードは、「男性のカテゴリ」、「会社員のカ
テゴリ」等の複数のカテゴリに分類される。ただし、
「男性自営業のカテゴリ」には、カテゴリ項目「職業」
の値が一致しないので、分類されない。これを、全ての
レコードに対して行う(0305)。以上の分類処理を
全ての可能なカテゴリについて行う(0306)。こう
して、カテゴリとそれに含まれるレコードの集合が決定
される。
FIG. 1 shows an embodiment of the present invention. The target data 0101 is a set of records, and each record includes one or more items. FIG. 2 shows an example of the target data. This is an example of simple customer data. One or more of the prefecture, age, gender, occupation, and usage amount of these items are used as category items (for example, prefecture, age, gender, occupation) in the category classification means. FIG. 3 shows the flow of processing in the category classification means. First, among the items of the target data, the item used as the category item is designated (0301). A set of category items is {Ii} (i = 1 to M). The number of category items is M. Category item
A set of category values (for example, Tokyo, Kanagawa, self-employed, etc.) that Ii can take is defined as {Vij} (j = 1 to Ni). The number of possible category values Ni differs for each category item. For example, the number of possible category values for the category item “sex” is two for “male” and “female”. Next, a special category value “don't-care” is added to the set of possible category values for all category items (0302). As a result, the set of possible category values of category item Ii is {Vij} (j = 0 to Ni, where Vi0 is "don't-car
e ”). Next, a category is generated (0303). A category is defined by a combination of category item values, including “don't-care”. FIG. 4 shows an example of the category. For example, a category in which the category value of all category items is “don't-care” represents the entire set. One of the category items, the category value of "occupation" is "self-employed"
The category whose other category item is “don't-care” represents a set of self-employed persons. Next, all records of the target data are classified into the category generated in the process 0303 (0304). The category item value of each record is compared with the category item value of each category. If all the category item values match, the record is classified into that category. However,
"Don't-care" shall match all item values. Therefore, as shown in FIG. 5, one record is classified into a plurality of categories. In FIG. 5, the value of the category item “prefecture” is “Tokyo”, the value of the category item “age” is “20”, and the category item “gender”
Is "male" and the category item "occupation" is "employee"
Are classified into a plurality of categories such as a “male category” and a “company employee category”. However,
For the category of male self-employment, the category item Occupation
Are not classified because their values do not match. This is performed for all records (0305). The above classification process is performed for all possible categories (0306). In this way, a category and a set of records included therein are determined.

【0017】以上は、カテゴリ項目同士が独立である場
合についてであるが、次に、カテゴリ項目の間に依存関
係がある場合について説明する。図6に、カテゴリ項目
の間に依存関係があるデータの例を示す。カテゴリ項目
「地方」の取り得るカテゴリ値を、「東北」「関東」
「中部」等とする。カテゴリ項目「都道府県」の取り得
るカテゴリ値は、都道府県名である。これらのカテゴリ
項目は互いに独立ではなく、図7に示すような階層構造
をなす。したがって、カテゴリ生成の際には、この階層
構造の情報を用いて、「地方が東北で、かつ、都道府県
が沖縄」というような、意味のないカテゴリを排除す
る。そのために、図8に示すように、カテゴリ分類手段
は対象データに加えて、階層構造情報(0802)を入
力する。
The case where the category items are independent has been described above. Next, the case where there is a dependency between the category items will be described. FIG. 6 shows an example of data having a dependency between category items. The possible category values for the category item "Region" are "Tohoku" and "Kanto"
"Chubu" etc. The possible category value of the category item “prefecture” is the name of the prefecture. These category items are not independent of each other and have a hierarchical structure as shown in FIG. Therefore, at the time of category generation, meaningless categories such as "the region is Tohoku and the prefecture is Okinawa" are excluded using the information of this hierarchical structure. For this purpose, as shown in FIG. 8, the category classification means inputs hierarchical structure information (0802) in addition to the target data.

【0018】カテゴリ項目に関する、ある条件の下でカ
テゴリを生成する場合もある。カテゴリ項目に関する条
件の例を説明する。カテゴリは、「don't-care」を含ん
だ、カテゴリ項目の値の組み合わせによって定義される
ことを既に述べた。「don't-care」を多く持つカテゴリ
ほど包括的なカテゴリ、「don't-care」でないカテゴリ
値が多いほど詳細なカテゴリとなり、カテゴリ間には、
図9に示すような包含関係が形成される。例えば、「男
性会社員カテゴリ」は、「会社員カテゴリ」に包含され
る。同時に、「男性会社員カテゴリ」は、「20代男性
会社員カテゴリ」を包含する。今、使用者の興味が、図
10に示す「男性会社員」、「女性会社員」の各カテゴ
リにあり、これらのカテゴリのさらに詳細な分析を行お
うとしているとする。このような場合、これらのカテゴ
リを「基準カテゴリ」として設定する。図10の場合、
「男性会社員」、「女性会社員」の複数のカテゴリを基
準カテゴリとするので、これを「基準カテゴリ群」と呼
ぶことにする。カテゴリ分類手段0102(図1)で
は、基準カテゴリに包含される、より詳細なカテゴリの
みを生成する。すなわち、基準カテゴリにおいて「don'
t-care」でないカテゴリ項目の値は、生成された詳細カ
テゴリにおいても「don't-care」ではなく、基準カテゴ
リにおけるカテゴリ項目値を継承する。図10の例で
は、基準カテゴリにおいては、カテゴリ項目「性別」の
カテゴリ値が「男」および「女」、カテゴリ項目「職
業」のカテゴリ値が「会社員」である。詳細カテゴリ群
においても、これらのカテゴリ値は継承され、例えば、
カテゴリ項目「性別」のカテゴリ値が「don't-care」に
なったり、カテゴリ項目「職業」のカテゴリ値が「自営
業」になったりはしない。又、基準カテゴリにおいて、
「don't-care」であったカテゴリ項目「年代」は、詳細
カテゴリにおいては「20代」などの「don't-care」で
ないカテゴリ値を取っている。
In some cases, a category is generated under certain conditions regarding category items. An example of a condition regarding a category item will be described. As mentioned earlier, categories are defined by a combination of category item values, including "don't-care". Categories with more "don't-care" are more comprehensive categories, and more category values that are not "don't-care" are more detailed categories.
An inclusion relationship as shown in FIG. 9 is formed. For example, the “male employee category” is included in the “employee category”. At the same time, the “male office worker category” includes the “20s male office worker category”. Now, it is assumed that the user's interest is in each of the categories of “male office worker” and “female office worker” shown in FIG. 10, and a more detailed analysis of these categories is to be performed. In such a case, these categories are set as “reference categories”. In the case of FIG.
Since a plurality of categories of “male office worker” and “female office worker” are set as reference categories, they will be referred to as “reference category group”. The category classification unit 0102 (FIG. 1) generates only a more detailed category included in the reference category. In other words, "don '
The value of the category item that is not “t-care” is not “don't-care” even in the generated detailed category, and inherits the category item value in the reference category. In the example of FIG. 10, in the reference category, the category value of the category item “sex” is “male” and “female”, and the category value of the category item “occupation” is “company employee”. In the detailed category group, these category values are inherited, for example,
The category value of the category item “sex” does not become “don't-care”, and the category value of the category item “occupation” does not become “self-employment”. In the reference category,
The category item "age" which was "don't-care" has a category value other than "don't-care" such as "20s" in the detailed category.

【0019】カテゴリ評価手段0106(図1)では、
カテゴリ分類手段0102において生成されたカテゴリ
のそれぞれについて評価値を算出する。評価値はそれぞ
れのカテゴリについて統計量から算出される。カテゴリ
についての統計量の例は、対象データの、カテゴリ項目
として選択した項目以外の特定の項目の値についての統
計量である。統計量の対象になる、この特定の項目を
「対象項目」と呼ぶことにする。例えば、図2に示した
データ例において、項目「利用額」を対象項目として用
いることができる。統計量としては、「利用額」の合
計、平均などを用いる。また、項目「性別」のような数
値をとらない項目を対象項目とすることもできる。この
場合の統計量としては、各カテゴリにおいて、対象項目
の値がある特定の値、例えば「男」である頻度などを用
いる。また、カテゴリについての統計量として、カテゴ
リに含まれるレコードの数を用いてもよい。
In the category evaluation means 0106 (FIG. 1),
An evaluation value is calculated for each of the categories generated by the category classification unit 0102. The evaluation value is calculated from statistics for each category. An example of a statistic for a category is a statistic for a value of a specific item of the target data other than the item selected as the category item. This particular item, which is the subject of the statistics, will be referred to as "target item". For example, in the data example shown in FIG. 2, the item “usage amount” can be used as a target item. As the statistic, the sum and average of the “usage amount” are used. In addition, an item that does not take a numerical value such as the item “sex” can be set as a target item. In this case, as a statistic, a value of the target item in each category is a specific value, for example, a frequency of “male” is used. Further, the number of records included in the category may be used as the statistics of the category.

【0020】上記の統計量の期待値と、実現値の差異を
もとに、以下の式により各カテゴリの評価尺度を定義す
る。ここで、実現値とは、対象項目の値に基づき得られ
た値であり、例えば、図10における男・20代のとき
の1100、女・20代のときの700等が実現値に当
る。期待値については後述する。カテゴリの評価値 μ
は次式で表わされる。 μ={(A − E)・(A − E)}/(E・E) ここで、μ はカテゴリの評価値、Aはカテゴリについ
ての統計量の実現値、Eはカテゴリについての統計量の
期待値である。図11に示したカテゴリ群を例として、
評価尺度について説明する。まず、基準カテゴリ群を設
定し、基準カテゴリに包含される、詳細カテゴリを生成
する。図11では、「男性会社員」「女性会社員」を基
準カテゴリ群とし、詳細カテゴリ群として、「30代男
性会社員」「30代女性会社員」を生成している。「実
現値」と記された表には、詳細カテゴリ群における統計
量の実現値が、「期待値」と記された表には、詳細カテ
ゴリ群における統計量の期待値が示されている。ここで
は、統計量として、対象項目の値の合計値を用いてい
る。基準カテゴリ群における、カテゴリ Ci の統計量
の値を Si(ただし、i は各カテゴリに対応する添
字)、基準カテゴリ群における、統計量の合計値を S0
とする。図11において、「男性会社員」のカテゴリを
C1、「女性会社員」のカテゴリをC2とすると、S1=6
800、S2=4100、S0=10900となる。また、詳細カテゴ
リ Di の統計量の実現値を SDi、期待値を EDi、
詳細カテゴリ群における、統計量の実現値の合計値を
SD0 とする。ただし、カテゴリ Di は、カテゴリ C
i に包含される詳細カテゴリである。このとき、期待値
は以下の式で与えられる。 EDi = Si ・(SD0/S0) 図11において、「30代男性会社員」のカテゴリをD
1、「30代女性会社員」のカテゴリをD2とすると、S
D1=1800、SD2=1600、SD0=3400、ED1=2121
(S1・(SD0/S0)=6800・(3400/10900))、E
D2=1279(S2・(SD0/S0)=4100・(3400/1090
0))となる。また以上で得られた詳細カテゴリの実現
値と期待値を用いて、前述の式により評価値μを算出す
ると、「30代男性会社員」については、 μ={(1800−2121)・(1800−2121)}/(2121・2121)=
0.023 「30代女性会社員」については、 μ={(1600−1279)・(1600−1279)}/(1279・1279)=
0.063 となる。
Based on the difference between the expected value of the statistics and the actual value, an evaluation scale of each category is defined by the following equation. Here, the realization value is a value obtained based on the value of the target item, and for example, 1100 in the case of a man / twenty and 700 in a case of a woman / 20s in FIG. The expected value will be described later. Category evaluation value μ
Is represented by the following equation. μ = {(A−E) · (A−E)} / (EE) where μ is the evaluation value of the category, A is the actual value of the statistic about the category, and E is the statistic of the statistic about the category. Expected value. Using the category group shown in FIG. 11 as an example,
The evaluation scale will be described. First, a reference category group is set, and a detailed category included in the reference category is generated. In FIG. 11, “male office worker” and “female office worker” are set as a reference category group, and “30-year-old male office worker” and “30-year-old female office worker” are generated as detailed category groups. In the table described as “realized value”, the realized value of the statistic in the detailed category group is shown, and in the table described as “expected value”, the expected value of the statistic in the detailed category group is shown. Here, the total value of the values of the target items is used as the statistic. The value of the statistic of the category Ci in the reference category group is Si (where i is a subscript corresponding to each category), and the total value of the statistic in the reference category group is S0.
And In FIG. 11, if the category of “male office worker” is C1 and the category of “female office worker” is C2, S1 = 6
800, S2 = 4100, S0 = 10900. Also, the realization value of the statistics of the detailed category Di is SDi, the expected value is EDi,
The sum of the actual values of the statistics in the detailed category group
SD0. However, the category Di is the category C
The detail category included in i. At this time, the expected value is given by the following equation. EDi = Si · (SD0 / S0) In FIG.
1. If the category of "30-year-old female office worker" is D2, S
D1 = 1800, SD2 = 1600, SD0 = 3400, ED1 = 2121
(S1 / (SD0 / S0) = 6800 / (3400/10900)), E
D2 = 1279 (S2 · (SD0 / S0) = 4100 · (3400/1090
0)). Further, when the evaluation value μ is calculated by the above equation using the actualized value and the expected value of the detailed category obtained as described above, μ = μ (1800−2121) · (1800 −2121)} / (2121 ・ 2121) =
0.023 For “30-year-old female employee,” μ = {(1600-1279) ・ (1600-1279)} / (1279 ・ 1279) =
0.063.

【0021】カテゴリ選択手段0104(図1)におい
ては、カテゴリを単独で選択する場合と、カテゴリ群と
して選択する場合がある。カテゴリを単独で選択する場
合は、生成されたカテゴリの中から、評価値の最大のカ
テゴリを1つ、または、評価値の大きい順に複数のカテ
ゴリを選択する。カテゴリ群として選択する場合は、カ
テゴリ群の評価値を算出し、これをもとに、評価値の最
大のカテゴリ群を1つ、または、評価値の大きい順に複
数のカテゴリ群を選択する。あるカテゴリ群 G に含ま
れるカテゴリの集合を、{ Ci }(i = 1 〜 n)、
カテゴリ Ci の評価値を μi 、カテゴリ群 G の評価
値を μG としたとき、μG を以下の式で定義する。 μG = max(μi) (ただし、i = 1 〜 n) これは、カテゴリ群に含まれる各カテゴリの評価値の最
大のものをカテゴリ群の評価値とするものである。ま
た、μG の定義を以下の式で与えることもできる。 μG = Σ μi (ただし、i = 1 〜 n) これは、カテゴリ群に含まれる各カテゴリの評価値の総
和をカテゴリ群の評価値とするものである。また、μG
の定義を以下の式で与えることもできる。
In the category selecting means 0104 (FIG. 1), there are a case where a category is selected alone and a case where a category is selected as a category group. When selecting a category alone, one category having the largest evaluation value or a plurality of categories is selected from the generated categories in descending order of the evaluation value. When selecting as a category group, the evaluation value of the category group is calculated, and based on this, one category group having the largest evaluation value or a plurality of category groups are selected in descending order of the evaluation value. A set of categories included in a certain category group G is represented by {C i} (i = 1 to n),
Assuming that the evaluation value of the category Ci is μi and the evaluation value of the category group G is μG, μG is defined by the following equation. μG = max (μi) (where i = 1 to n) In this case, the maximum evaluation value of each category included in the category group is set as the evaluation value of the category group. Also, the definition of μG can be given by the following equation. μG = Σμi (where i = 1 to n) In this case, the sum of the evaluation values of the categories included in the category group is used as the evaluation value of the category group. Also, μG
Can be given by the following equation.

【0022】 μG = Σ μi/n (ただし、i = 1 〜 n) これは、カテゴリ群に含まれる各カテゴリの評価値の平
均をカテゴリ群の評価値とするものである。
ΜG = Σμi / n (where i = 1 to n) This means that the average of the evaluation values of the categories included in the category group is used as the evaluation value of the category group.

【0023】提示手段0105(図1)では、カテゴリ
選択手段0104で選択されたカテゴリ、またはカテゴ
リ群を使用者に提示する。図12に、選択された複数の
カテゴリのリストを使用者に提示する例を示す。リスト
に表示するカテゴリの数は、使用者によって指定され
る。この時、カテゴリの数を1に指定すれば、選択され
た1つのカテゴリを提示することになる。カテゴリ選択
手段1201(図1のカテゴリ選択手段0104に対
応)からは、指定された数のカテゴリが評価値の大きい
順に選択され、カテゴリのリスト1202として提示手
段1203(図1の提示手段0105に対応)に送られ
る。カテゴリのリスト1202には、各カテゴリにおけ
るカテゴリ項目の値が格納されている。提示手段120
3では、カテゴリ選択手段1201から送られてきたカ
テゴリのリスト1202の内容を、やはりリストの形式
で使用者に提示する(1204)。
The presenting means 0105 (FIG. 1) presents the category or categories selected by the category selecting means 0104 to the user. FIG. 12 shows an example in which a list of a plurality of selected categories is presented to the user. The number of categories to be displayed in the list is specified by the user. At this time, if the number of categories is designated as 1, one selected category is presented. From the category selecting means 1201 (corresponding to the category selecting means 0104 in FIG. 1), the designated number of categories are selected in descending order of the evaluation value, and are presented as a category list 1202 to the presenting means 1203 (corresponding to the presenting means 0105 in FIG. 1). ). The category list 1202 stores values of category items in each category. Presentation means 120
In step 3, the contents of the category list 1202 sent from the category selection means 1201 are presented to the user in the form of a list (1204).

【0024】図13に、選択された複数のカテゴリ群の
リストを使用者に提示する例を示す。リストに表示する
カテゴリ群の数は、使用者によって指定される。この
時、カテゴリ群の数を1に指定すれば、選択された1つ
のカテゴリ群を提示することになる。カテゴリ選択手段
1301(図1のカテゴリ選択手段0104に対応)か
らは、指定された数のカテゴリ群が評価値の大きい順に
選択され、カテゴリ群のリスト1302として提示手段
1303(図1の提示手段0105に対応)に送られ
る。カテゴリ群のリスト1302には、各カテゴリ群に
おけるカテゴリ項目の値が格納されている。提示手段1
303では、カテゴリ選択手段1301から送られてき
たカテゴリ群のリスト1302の内容を、やはりリスト
の形式で使用者に提示する(1304)。ただし、基準
カテゴリ群における値を継承しているカテゴリ項目につ
いては、表示を省略できる。図13の場合、「男性会社
員」「女性会社員」を基準カテゴリ群と仮定すると、カ
テゴリ群のリストにおける第1のカテゴリ群について
は、「年代=30」のみを表示することになる。カテゴ
リ群の提示には、表形式を用いることもある。図14
は、あるカテゴリ群におけるカテゴリ項目値と、それに
対応する統計量の表である。
FIG. 13 shows an example in which a list of a plurality of selected category groups is presented to the user. The number of categories displayed in the list is specified by the user. At this time, if the number of category groups is designated as 1, one selected category group will be presented. From the category selecting means 1301 (corresponding to the category selecting means 0104 in FIG. 1), a designated number of category groups are selected in descending order of evaluation value, and presented as a category group list 1302 to the presenting means 1303 (presenting means 0105 in FIG. 1). Corresponding to). The category group list 1302 stores the values of category items in each category group. Presentation means 1
At 303, the contents of the category list 1302 sent from the category selection means 1301 are presented to the user in the form of a list (1304). However, the display of the category item that inherits the value in the reference category group can be omitted. In the case of FIG. 13, assuming that “male office worker” and “female office worker” are the reference category group, only “age = 30” is displayed for the first category group in the category group list. The category group may be presented in a tabular format. FIG.
Is a table of category item values in a certain category group and the corresponding statistics.

【0025】また、図15は表の提示を行うための手段
の構成である。カテゴリ選択手段1502(図1のカテ
ゴリ選択手段0104に対応)から提示手段1504
(図1の提示手段0105に対応)へ送られるカテゴリ
群のリスト1503はカテゴリ項目値についての情報だ
けであり、表中の値、すなわち各カテゴリにおける統計
量の値は、カテゴリ項目値を参照しながら、対象データ
1501(図1の対象データ0101に対応)から算出
される。すなわち、カテゴリ項目値を参照しながら、選
択されたカテゴリ群に分類されているレコードを対象デ
ータ1501から検索し(1505)、これらのレコー
ドについて統計量を算出する(1506)。また、各カ
テゴリ群に含まれるカテゴリ中で評価値が最大のカテゴ
リなど、使用者が着目すべきカテゴリをハイライト表示
する(図14中、「30代女性カテゴリ」の「21
0」)。
FIG. 15 shows the structure of a means for presenting a table. Category selecting means 1502 (corresponding to category selecting means 0104 in FIG. 1) to presenting means 1504
The list 1503 of the category group sent to (corresponding to the presentation means 0105 in FIG. 1) is only information on the category item values, and the values in the table, that is, the values of the statistics in each category refer to the category item values. While, it is calculated from the target data 1501 (corresponding to the target data 0101 in FIG. 1). That is, the records classified into the selected category group are searched from the target data 1501 while referring to the category item values (1505), and the statistic is calculated for these records (1506). In addition, the categories that the user should pay attention to, such as the category having the highest evaluation value among the categories included in each category group, are highlighted (see “21 in the“ 30s female category ”in FIG. 14).
0 ").

【0026】このためには、図16に示すように、カテ
ゴリ群におけるカテゴリ項目値の情報に加えて、着目カ
テゴリに関するカテゴリ項目値の情報をカテゴリ選択手
段1602(図1のカテゴリ選択手段0104に対応)
から提示手段1604(図1の提示手段0105に対
応)へ送る。この例では、カテゴリ群のリスト1603
において、着目カテゴリ情報として、「30代女性会社
員」カテゴリの特徴量が「+60」であるという情報が
送られている。この場合の特徴量とは、統計量の実現値
の、期待値からの乖離が+60%であるという意味であ
る。これらの表形式表示は、図13に示したようなカテ
ゴリ群のリストが使用者に提示されている時、使用者が
このカテゴリ群リストの中から任意のカテゴリ群を指定
することによって、起動される。
For this purpose, as shown in FIG. 16, in addition to the information on the category item values in the category group, the information on the category item values relating to the category of interest is added to the category selection means 1602 (corresponding to the category selection means 0104 in FIG. 1). )
To presentation means 1604 (corresponding to presentation means 0105 in FIG. 1). In this example, a list 1603 of category groups
In the above, information indicating that the feature value of the “female in thirties” category is “+60” is sent as the focused category information. The feature amount in this case means that the deviation of the actual value of the statistic from the expected value is + 60%. These tabular displays are activated when the user designates an arbitrary category group from the category group list when a list of category groups as shown in FIG. 13 is presented to the user. You.

【0027】カテゴリ、およびカテゴリ群の特徴を説明
する文を使用者に提示するという方法もある。この例を
図17に示す。このためには、図16の例と同様に、カ
テゴリの特徴量をカテゴリ項目情報とともにカテゴリ選
択手段1701(図1のカテゴリ選択手段0104に対
応)から提示手段1703(図1の提示手段0105に
対応)へ送る。提示手段1703では、この特徴量に応
じて、あらかじめ用意されている説明文のテンプレート
1704を組み合わせて、説明文1705の形にして使
用者に提示する。この例では、「やや高い」「非常に高
い」「やや低い」などのテンプレートが用意されてお
り、カテゴリ群のリスト1702中の着目カテゴリの特
徴量「+60」に応じて、「やや高い」が選択され、カ
テゴリ項目値とともに説明文の形に組み立てられてい
る。以上、個々の処理手段、および、それらの代替手段
について説明した。
There is also a method of presenting a user with a sentence explaining the characteristics of the category and the category group. This example is shown in FIG. For this purpose, similarly to the example of FIG. 16, the feature amount of the category is added together with the category item information from the category selection unit 1701 (corresponding to the category selection unit 0104 in FIG. 1) to the presentation unit 1703 (corresponding to the presentation unit 0105 in FIG. 1). ). The presenting unit 1703 combines the explanatory template 1704 prepared in advance in accordance with the feature amount and presents it to the user in the form of an explanatory note 1705. In this example, templates such as “somewhat high”, “very high”, and “somewhat low” are prepared, and “somewhat high” is set according to the feature amount “+60” of the target category in the category group list 1702. It is selected and assembled in the form of an explanatory note with category item values. The individual processing means and their alternative means have been described above.

【0028】次に、これらの手段を組み合わせた処理の
流れについて説明する。図18に、この例を示す。入力
される情報は、対象データ1801と次元情報1802
である。次元情報1802には、対象データ1801の
項目のうち、どれをカテゴリ項目とし、どれを対象項目
とするかという項目情報と、カテゴリ項目間の階層構造
に関する情報が含まれる。また、基準カテゴリ群を設定
する(1804)。最初の基準カテゴリ群設定は使用者
1803によって行われる。カテゴリ分類手段1805
では、基準カテゴリに包含される詳細カテゴリを生成す
る。この時、それぞれの詳細カテゴリでは、基準カテゴ
リにおいて「don't-care」であるカテゴリ値のうち、1
つのカテゴリ項目だけ「don't-care」以外の値を持つ。
これを図19に示す。「男性自営業」を基準カテゴリと
した場合、詳細カテゴリとしては、「都道府県」か「年
代」のどちらか一方に「don't-care」以外の値を設定す
る。「都道府県」と「年代」の両方を一度に「don't-ca
re」以外の値にすることはしない。対象データのレコー
ドは、これらの詳細カテゴリ1806に分類される。
Next, the flow of processing combining these means will be described. FIG. 18 shows this example. Information to be input includes target data 1801 and dimension information 1802
It is. The dimension information 1802 includes item information indicating which of the items of the target data 1801 is a category item and which is a target item, and information on a hierarchical structure between the category items. Also, a reference category group is set (1804). The first reference category group setting is performed by the user 1803. Category classification means 1805
Then, a detailed category included in the reference category is generated. At this time, in each detail category, one of the category values “don't-care” in the reference category
Only one category item has a value other than "don't-care".
This is shown in FIG. When “male self-employment” is used as the reference category, a value other than “don't-care” is set as one of “prefecture” and “age” as the detailed category. "Don't-ca" for both "prefecture" and "age"
Do not set a value other than "re". Records of the target data are classified into these detailed categories 1806.

【0029】カテゴリ評価手段1815では、それぞれ
の詳細カテゴリ1806について、統計量1807、評
価値1808を算出する。カテゴリ選択手段1809で
は、これら詳細カテゴリをカテゴリ群として評価、選択
し、提示手段1810において、カテゴリ群のリストを
使用者に対して提示する。使用者はこのリストを見て、
着目すべきカテゴリ群を知ることができる。また、使用
者がこのリストから任意のカテゴリ群を指定することに
より(1811)、このカテゴリ群における統計量の表
を表示する(1814)。また、同様にして、このカテ
ゴリ群における統計量特徴を記述した説明文を表示する
(1813)。さらに、使用者がこのリストから任意の
カテゴリ群を次の基準カテゴリ群として指定することに
より、この基準カテゴリ群に包含される更に詳細なカテ
ゴリの分析を続けて行うことができる。
The category evaluation means 1815 calculates a statistic 1807 and an evaluation value 1808 for each detailed category 1806. The category selecting unit 1809 evaluates and selects these detailed categories as a category group, and the presenting unit 1810 presents a list of the category groups to the user. Users see this list,
It is possible to know a category group to be focused on. Further, when the user designates an arbitrary category group from this list (1811), a table of statistics in this category group is displayed (1814). Similarly, an explanatory sentence describing the statistic feature in this category group is displayed (1813). Further, the user designates an arbitrary category group from the list as the next reference category group, so that more detailed analysis of the categories included in the reference category group can be continuously performed.

【0030】図18において、カテゴリ選択の後、次の
基準カテゴリ群を使用者が指定する替わりに、カテゴリ
群リストの最上位のカテゴリ群を自動的に次の基準カテ
ゴリ群とすることによって、詳細なカテゴリの分析を自
動的に続けて行うことができる。図20は、図18にお
けるカテゴリ選択手段以降の処理を、詳細なカテゴリの
分析を自動的に続けてできるように変更したものであ
る。カテゴリ選択2001の結果として得られるカテゴ
リ群の情報は、選択結果保持手段2002に送られる。
また、同時に基準カテゴリ設定手段にも送られる。基準
カテゴリ設定手段において次の基準カテゴリ群が設定さ
れると、自動的に詳細カテゴリの分析が開始される。選
択結果保持手段2002では、自動的に続けて行われる
カテゴリ選択の結果を順次受け取り、保持する。また、
保持しているカテゴリ選択の結果をカテゴリ選択が行わ
れた順に、または、任意の順序で、任意の時点で読み出
すことができる。これにより、使用者は、新たな詳細カ
テゴリ分析が行われている間に、前回までの分析の結果
として得られたカテゴリ群の情報を、選択結果保持手段
2002から読み出し、表形式2004、または過程表
示2003で、見ることができる。
In FIG. 18, after the category is selected, instead of the user designating the next reference category group, the top category group in the category group list is automatically set as the next reference category group. Analysis of various categories can be performed automatically and continuously. FIG. 20 is a modification of the processing after the category selecting means in FIG. 18 so that detailed category analysis can be automatically continued. Information on the category group obtained as a result of the category selection 2001 is sent to the selection result holding unit 2002.
It is also sent to the reference category setting means at the same time. When the next reference category group is set by the reference category setting means, the analysis of the detailed category is automatically started. The selection result holding unit 2002 sequentially receives and holds the results of the category selection performed automatically and continuously. Also,
The held category selection results can be read out in the order in which the category selections were made, or in any order, at any time. Thus, while the new detailed category analysis is being performed, the user can read out the information of the group of categories obtained as a result of the previous analysis from the selection result holding unit 2002, and read the information in the tabular form 2004 or the process On display 2003, it can be seen.

【0031】表形式表示手段2004における表示の例
を図21に示す。表形式表示手段2004では、自動連
続分析の任意の段階におけるカテゴリ群における統計量
を表形式で表示する。また、次の段階の分析結果がすで
に得られている場合は、次の段階で追加されるカテゴリ
項目値を同時に表示する。図21中、「次のカテゴリ」
として表示されている「職業=会社員」というのが、次
の段階で着目すべきカテゴリ項目値である。次の段階の
分析が現在進行中で、結果がまだ得られていない場合
は、分析が進行中であることを使用者に通知し、結果が
得られた時点で、追加されたカテゴリ項目値を表示す
る。カテゴリ群の特徴を記述した説明文を表とともに表
示することもできる。
FIG. 21 shows an example of display in the table format display means 2004. The tabular display unit 2004 displays the statistics in the category group in an arbitrary stage of the automatic continuous analysis in a tabular format. If the analysis result of the next stage has already been obtained, the category item value added in the next stage is displayed at the same time. In FIG. 21, "Next category"
“Occupation = company employee” displayed as “” is a category item value to be focused on in the next stage. If the next stage of analysis is currently in progress and results are not yet available, notify the user that analysis is in progress and, when results are obtained, add the added category item values. indicate. An explanatory note describing the characteristics of the category group can be displayed together with a table.

【0032】図20における過程表示手段2003にお
ける表示の例を図22に示す。過程表示手段2003で
は、最初の基準カテゴリ群から始まって、現時点までに
選択されたカテゴリ群についてのカテゴリ項目と、その
項目値が、順に表示される。図22では、「性別」およ
び「年代」を、最初の基準カテゴリ群についてのカテゴ
リ項目としている。第1の分析段階では、値が「don't-
care」であったカテゴリ項目のうち、「都道府県=東
京」が選択され、第2の分析段階では、これを基準カテ
ゴリ群とし、「職業=会社員」が選択されたことを示し
ている。もし、第1の分析段階で、使用者が明示的に
「職業=自営業」を選択すれば、第2の分析段階では、
これを基準カテゴリ群として、分析を続行することにな
る。分析が進行中の場合は、分析結果が出るたびに、こ
れらの表示が更新される。過程表示上で、使用者が任意
のカテゴリ群を指定することにより、表形式表示手段に
おいて、指定されたカテゴリ群の情報を表示することも
できる。また、表形式表示手段2004においては、自
動連続分析の過程を順に再現することができる。すなわ
ち、過程表示手段2003において表示されたカテゴリ
群についての表を過程の順に表示する。使用者の操作に
より、次の段階のカテゴリ群に進んだり、前の段階に戻
ったりすることができる。
FIG. 22 shows an example of a display on the process display means 2003 in FIG. In the process display means 2003, the category items of the category group selected up to the present, starting from the first reference category group, and their item values are sequentially displayed. In FIG. 22, "sex" and "age" are category items for the first reference category group. In the first analysis stage, the value is "don't-
Of the category items that were "care", "prefecture = Tokyo" was selected, and the second analysis stage indicates that this was used as a reference category group and "occupation = company employee" was selected. If the user explicitly selects "occupation = self-employed" in the first analysis stage, in the second analysis stage,
The analysis is continued with this as a reference category group. If an analysis is in progress, these displays are updated each time an analysis result is obtained. When the user designates an arbitrary category group on the process display, information on the designated category group can be displayed on the tabular display means. In addition, the tabular display means 2004 can sequentially reproduce the steps of the automatic continuous analysis. That is, a table for the category group displayed on the process display means 2003 is displayed in the order of the processes. By the operation of the user, it is possible to proceed to the category group of the next stage or to return to the previous stage.

【0033】次に、分散した計算機環境で分析処理を行
う例を図23に示す。カテゴリ生成、カテゴリ選択、提
示などを実現する計算機2302とは別に、対象データ
を保管する計算機2301を持つ。カテゴリ生成手段2
307において生成したカテゴリについてのカテゴリ項
目の情報を対象データを保持する計算機2301に送信
する。対象データを保持する計算機2301は、受信し
たカテゴリ項目の情報に基づいて対象データ2303を
検索し、カテゴリについての統計量を算出する(230
4)。そして、算出した統計量のみを送り返す。分析を
行う計算機2302では、この統計量を用いて評価値を
算出し(2308)、カテゴリ選択を行う(230
9)。以上の方法によれば、分析を行う計算機2302
に、対象データ自体を送る場合に比べ、通信量を削減す
ることができる。また、算出した統計量を、対象データ
を保持する計算機2301の中で保持しておけば(23
05)、次に同様の分析を行った時に、統計量を算出す
る時間を削減することができる。また、対象データを複
数の分析計算機と共有している場合、必要とする統計量
がすでに他の分析計算機からの要求によって算出されて
おり、統計量を算出する時間を削減できる場合がある。
Next, FIG. 23 shows an example in which analysis processing is performed in a distributed computer environment. A computer 2301 that stores target data is provided separately from a computer 2302 that implements category generation, category selection, presentation, and the like. Category generation means 2
In step 307, the information of the category item about the generated category is transmitted to the computer 2301 that holds the target data. The computer 2301 holding the target data searches the target data 2303 based on the received information on the category item, and calculates the statistics of the category (230).
4). Then, only the calculated statistics are sent back. The computer 2302 that performs the analysis calculates an evaluation value using this statistic (2308), and selects a category (230).
9). According to the above method, the computer 2302 that performs the analysis
In addition, the communication amount can be reduced as compared with the case where the target data itself is transmitted. If the calculated statistics are stored in the computer 2301 that stores the target data, (23
05), the time to calculate the statistic can be reduced the next time the same analysis is performed. Further, when the target data is shared with a plurality of analysis computers, the required statistics are already calculated according to a request from another analysis computer, and the time for calculating the statistics may be reduced in some cases.

【0034】[0034]

【発明の効果】本発明によれば、大量のデータを対象と
したデータ分析において、人手では扱えないほど多数の
項目の組合せを自動的に探索し、着目すべき特徴的なカ
テゴリを発見し、使用者に提示することができる。
According to the present invention, in a data analysis of a large amount of data, a combination of a large number of items that cannot be handled manually is automatically searched to find a characteristic category to be noticed, It can be presented to the user.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一つの実施形態の構成を示す図であ
る。
FIG. 1 is a diagram showing a configuration of one embodiment of the present invention.

【図2】対象データの例を示す図である。FIG. 2 is a diagram illustrating an example of target data.

【図3】カテゴリ分類の処理の流れを示す図である。FIG. 3 is a diagram showing a flow of a category classification process.

【図4】生成されるカテゴリの例を示す図である。FIG. 4 is a diagram illustrating an example of a generated category.

【図5】レコードが複数のカテゴリに分類される様子を
示す図である。
FIG. 5 is a diagram showing how records are classified into a plurality of categories.

【図6】項目間に階層構造を持つデータの例を示す図で
ある。
FIG. 6 is a diagram showing an example of data having a hierarchical structure between items.

【図7】カテゴリ値の階層構造の例を示す図である。FIG. 7 is a diagram illustrating an example of a hierarchical structure of category values.

【図8】階層情報を利用する実施形態の構成図を示す図
である。
FIG. 8 is a diagram showing a configuration diagram of an embodiment using hierarchical information.

【図9】カテゴリ同士の包含関係を示す図である。FIG. 9 is a diagram showing an inclusion relationship between categories.

【図10】基準カテゴリと詳細カテゴリの関係を示す図
である。
FIG. 10 is a diagram showing a relationship between a reference category and a detail category.

【図11】統計量の実現値と期待値と評価値の例を示す
図である。
FIG. 11 is a diagram showing an example of a realized value, an expected value, and an evaluation value of a statistic.

【図12】カテゴリのリストを提示する手段の構成を示
す図である。
FIG. 12 is a diagram showing a configuration of means for presenting a list of categories.

【図13】カテゴリ群のリストを提示する手段の構成を
示す図である。
FIG. 13 is a diagram showing a configuration of means for presenting a list of category groups.

【図14】統計量の表形式表示の例を示す図である。FIG. 14 is a diagram showing an example of a tabular display of statistics.

【図15】統計量の表形式表示を行う手段の構成を示す
図である。
FIG. 15 is a diagram showing a configuration of a unit for performing a tabular display of statistics.

【図16】着目カテゴリを強調表示する手段の構成を示
す図である。
FIG. 16 is a diagram showing a configuration of a means for highlighting a focused category.

【図17】説明文表示を行う手段の構成を示す図であ
る。
FIG. 17 is a diagram showing a configuration of a means for displaying an explanatory note.

【図18】本発明のもう一つの実施形態の構成を示す図
である。
FIG. 18 is a diagram showing a configuration of another embodiment of the present invention.

【図19】基準カテゴリから生成される詳細カテゴリの
例を示す図である。
FIG. 19 is a diagram illustrating an example of a detailed category generated from a reference category.

【図20】自動連続処理を行う手段の構成を示す図であ
る。
FIG. 20 is a diagram showing a configuration of a means for performing automatic continuous processing.

【図21】自動連続処理における統計量の表形式表示の
例を示す図である。
FIG. 21 is a diagram showing an example of a tabular display of statistics in automatic continuous processing.

【図22】自動連続処理における処理過程表示の例を示
す図である。
FIG. 22 is a diagram illustrating an example of a process display in the automatic continuous process.

【図23】分散した計算機を用いた構成を示す図であ
る。
FIG. 23 is a diagram showing a configuration using distributed computers.

【符号の説明】[Explanation of symbols]

0101、0801 対象データ 0102、0803 カテゴリ分類手段 0103、0804 カテゴリ 0104、0805 カテゴリ選択手段 0105、0806 提示手段 0106、0807 カテゴリ評価手段 0802 階層情報 0101, 0801 Target data 0102, 0803 Category classification means 0103, 0804 Category 0104, 0805 Category selection means 0105, 0806 Presentation means 0106, 0807 Category evaluation means 0802 Hierarchical information

フロントページの続き (72)発明者 伊藤 幸康 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内Continuing from the front page (72) Inventor Yukiyasu Ito 5030 Totsukacho, Totsuka-ku, Yokohama-shi, Kanagawa Prefecture Software Development Division, Hitachi, Ltd.

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 1つ以上の項目からなるレコードの集合
を対象データとし、該項目のうちの1つ以上をカテゴリ
項目とし、該カテゴリ項目の値によって該レコードの集
合を複数のカテゴリに分類するカテゴリ分類手段と、 あらかじめ定められた算法により該複数のカテゴリのそ
れぞれについて統計量を算出し、該統計量に基づいて該
複数のカテゴリのそれぞれについての評価値を算出する
カテゴリ評価手段と、 該評価値に基づいて該複数のカテゴリのうちの1つまた
は複数のカテゴリを選択するカテゴリ選択手段と、 該選択したカテゴリを使用者に提示する提示手段を備え
ることを特徴とするデータ分析システム。
1. A set of records including one or more items is set as target data, one or more of the items are set as category items, and the set of records is classified into a plurality of categories according to the values of the category items. Category classification means; category evaluation means for calculating a statistic for each of the plurality of categories by a predetermined algorithm, and calculating an evaluation value for each of the plurality of categories based on the statistic; A data analysis system comprising: a category selection unit that selects one or a plurality of categories from the plurality of categories based on a value; and a presentation unit that presents the selected category to a user.
【請求項2】 請求項1記載のデータ分析システムにお
いて、 選択した1つまたは複数のカテゴリの統計量を表形式で
表示する手段を備えることを特徴とするデータ分析シス
テム。
2. The data analysis system according to claim 1, further comprising: means for displaying statistics of one or more selected categories in a table format.
【請求項3】 請求項1記載のデータ分析システムにお
いて、 基準となる1つまたは複数のカテゴリを使用者により設
定する手段を備え、 前記カテゴリ分類手段は、該カテゴリ項目の値によって
前記レコードの集合を該基準となるカテゴリに包含され
る複数のカテゴリに分類することを特徴とするデータ分
析システム。
3. The data analysis system according to claim 1, further comprising: means for setting one or more reference categories by a user, wherein said category classification means sets said set of records by a value of said category item. A data analysis system that classifies the data into a plurality of categories included in the reference category.
【請求項4】 請求項1または請求項3記載のデータ分
析システムにおいて、 前記カテゴリ選択手段により選択された1つまたは複数
のカテゴリを新たに基準となるカテゴリに設定する手段
を備え、基準となるカテゴリの設定、カテゴリへの分
類、評価値の算出、カテゴリの選択、新たに基準となる
カテゴリの設定の各処理を繰り返し実行処理することを
特徴とするデータ分析システム。
4. The data analysis system according to claim 1, further comprising: means for setting one or more categories selected by the category selecting means as a new reference category. A data analysis system characterized by repeatedly executing processing of setting a category, classifying into a category, calculating an evaluation value, selecting a category, and setting a new reference category.
【請求項5】 請求項1または請求項3記載のデータ分
析システムにおいて、 カテゴリ項目および統計量についての説明文の断片の集
合を格納した手段を備え、 前記カテゴリ選択手段により選択した1つまたは複数の
カテゴリについてのカテゴリ項目の値に基づき、該選択
した1つまたは複数のカテゴリの統計量を前記対象デー
タから算出する手段と、 該統計量と該カテゴリ項目の値に応じて前記説明文の断
片を組み合わせ、前記選択した1つまたは複数のカテゴ
リの統計量の特徴を説明する説明文を合成する手段と、 該説明文を表示する手段を備えることを特徴とするデー
タ分析システム。
5. The data analysis system according to claim 1, further comprising: means for storing a set of explanation items about category items and statistics, wherein one or more selected by the category selection means. Means for calculating a statistic of the selected one or more categories from the target data based on the value of the category item for the category, and a fragment of the description sentence according to the statistic and the value of the category item And a means for synthesizing a description explaining the characteristics of the statistic of the selected one or more categories, and a means for displaying the description.
【請求項6】 請求項2記載のデータ分析システムにお
いて、 選択した1つまたは複数のカテゴリについてのカテゴリ
項目の値とカテゴリの評価値を保持する保持手段を備
え、 前記統計量を表形式で表示する手段は、該保持手段の保
持内容を表示するとき、選択した1つまたは複数のカテ
ゴリのうち最大、または最小の評価値を持つカテゴリに
対応する表の要素を強調表示する手段を備えることを特
徴とするデータ分析システム。
6. The data analysis system according to claim 2, further comprising holding means for holding a value of a category item and an evaluation value of the category for one or more selected categories, and displaying the statistics in a table format. Means for displaying, when displaying the held content of the holding means, means for highlighting a table element corresponding to a category having a maximum or minimum evaluation value among the selected one or more categories. Characteristic data analysis system.
【請求項7】 請求項4に記載のデータ分析システムに
おいて、 前記繰り返し実行処理において前記カテゴリ選択手段に
より順次選択された、各1つまたは複数のカテゴリを選
択された順序を維持して保持するカテゴリ選択結果保持
手段と、該繰り返し実行処理の実行中または該繰り返し
実行処理の終了後に選択された順序に従って該カテゴリ
選択結果保持手段の保持内容をリスト形式で表示する手
段を備えることを特徴とするデータ分析システム。
7. The data analysis system according to claim 4, wherein said one or more categories sequentially selected by said category selection means in said iterative execution processing maintain and maintain the order of selection. Data, comprising: a selection result holding unit; and a unit that displays, in a list format, the contents held by the category selection result holding unit in accordance with the order selected during the execution of the repetitive execution process or after the end of the repetition execution process. Analysis system.
【請求項8】 請求項4に記載のデータ分析システムに
おいて、 前記繰り返し実行処理において、ある時点において選択
された1つまたは複数のカテゴリについての統計量を、
該繰り返し実行処理の実行中に使用者に提示し、同時
に、その次の時点で選択された1つまたは複数のカテゴ
リを使用者に提示する手段を備えることを特徴とするデ
ータ分析システム。
8. The data analysis system according to claim 4, wherein, in the iterative execution processing, a statistic of one or more categories selected at a certain time is calculated by:
A data analysis system comprising: means for presenting to a user during execution of the repetitive execution processing, and simultaneously presenting one or more categories selected at the next time to the user.
【請求項9】 請求項4に記載のデータ分析システムに
おいて、 前記繰り返し実行処理において前記カテゴリ選択手段に
より順次選択された、各1つまたは複数のカテゴリを選
択された順序を維持して保持するカテゴリ選択結果保持
手段と、該繰り返し実行処理の終了後に該カテゴリ選択
結果保持手段の保持内容を選択された順序に従って使用
者に提示する手段を備えることを特徴とするデータ分析
システム。
9. The data analysis system according to claim 4, wherein said one or more categories sequentially selected by said category selection means in said repetitive execution processing are maintained while maintaining the order of selection. A data analysis system comprising: a selection result holding unit; and a unit for presenting contents held in the category selection result holding unit to a user after the repetition execution process is completed in a selected order.
【請求項10】 データ転送路により接続された第1の
装置と第2の装置を備え、 該第1の装置は、対象データに関する項目情報に基づき
複数のカテゴリを生成する手段と、該生成されたカテゴ
リ情報と複数のカテゴリそれぞれの統計量に基づき複数
のカテゴリそれぞれの評価値を算出する評価値算出手段
と、該評価値に基づいて該複数のカテゴリのうちの1つ
または複数のカテゴリを選択するカテゴリ選択手段と、
該選択したカテゴリを使用者に提示する提示手段を備
え、 前記第2の装置は、1つ以上の項目からなるレコードの
集合を対象データとして格納する格納手段と、あらかじ
め定められた算法により該複数のカテゴリのそれぞれに
ついて統計量を算出する統計量算出手段と、該手段によ
り算出された統計量を保持する統計量保持手段を備え、 前記第2の装置の統計量算出手段は、前記第1の装置か
らデータ転送路を介して転送される前記カテゴリ情報と
前記格納手段内の対象データに基づき前記統計量を算出
し、該算出した統計量を前記第1の装置にデータ転送路
を介して転送し、 前記第1の装置の評価値算出手段
は、前記第2の装置からデータ転送路を介して転送され
る統計量に基づき前記評価値を算出することを特徴とす
るデータ分析システム。
10. A system comprising: a first device and a second device connected by a data transfer path, wherein the first device generates a plurality of categories based on item information relating to target data; Evaluation value calculating means for calculating an evaluation value of each of the plurality of categories based on the category information and the statistics of each of the plurality of categories, and selecting one or more of the plurality of categories based on the evaluation value Category selection means to be
Presenting means for presenting the selected category to a user, the second device comprising: a storage means for storing a set of records including one or more items as target data; And a statistic holding means for holding the statistic calculated by the means, wherein the statistic calculation means of the second device comprises: Calculating the statistic based on the category information transferred from the device via the data transfer path and the target data in the storage means, and transferring the calculated statistic to the first device via the data transfer path The evaluation value calculation means of the first device calculates the evaluation value based on a statistic transferred from the second device via a data transfer path. Beam.
【請求項11】 請求項1乃至請求項10のいずれかの
請求項記載のデータ分析装置における処理手順をコンピ
ュータプログラムとして格納した記憶媒体。
11. A storage medium storing a processing procedure in the data analysis device according to claim 1 as a computer program.
JP33907396A 1996-12-04 1996-12-04 System for analyzing data Pending JPH10171777A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33907396A JPH10171777A (en) 1996-12-04 1996-12-04 System for analyzing data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33907396A JPH10171777A (en) 1996-12-04 1996-12-04 System for analyzing data

Publications (1)

Publication Number Publication Date
JPH10171777A true JPH10171777A (en) 1998-06-26

Family

ID=18324007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33907396A Pending JPH10171777A (en) 1996-12-04 1996-12-04 System for analyzing data

Country Status (1)

Country Link
JP (1) JPH10171777A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189737A (en) * 2000-12-21 2002-07-05 Toshiba Corp Data analysis method, information processor, and program
JP2015146126A (en) * 2014-02-03 2015-08-13 富士通株式会社 Customer analyzing program, customer analyzing method and customer analyzer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189737A (en) * 2000-12-21 2002-07-05 Toshiba Corp Data analysis method, information processor, and program
JP2015146126A (en) * 2014-02-03 2015-08-13 富士通株式会社 Customer analyzing program, customer analyzing method and customer analyzer

Similar Documents

Publication Publication Date Title
JP3049636B2 (en) Data analysis method
JP3087694B2 (en) Information retrieval device and machine-readable recording medium recording program
US11328128B2 (en) System and method for analysis and navigation of data
Trippe Patinformatics: Tasks to tools
JP4962967B2 (en) Web page search server and query recommendation method
JP4583003B2 (en) Search processing method and program
US7567954B2 (en) Sentence classification device and method
JPH0877010A (en) Method and device for data analysis
US20050060303A1 (en) Patent family analysis system and method
US6470337B1 (en) Information retrieval system using a hierarchical index for narrowing a retrieval result and its method and storing medium with information retrieval program stored therein
JP2012073812A (en) Data analysis support system and method
CN112231452A (en) Question-answering method, device, equipment and storage medium based on natural language processing
US6286012B1 (en) Information filtering apparatus and information filtering method
JPH05101107A (en) Device and method for narrowed-down data retrieval using adaption rate
US6424963B1 (en) Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence
JP2001101227A (en) Document sorter and document sorting method
JP2007249600A (en) Method for classifying objective data to category
JPH10171777A (en) System for analyzing data
JPH11306187A (en) Method and device for presenting retrieval result of document with category
JP2004220236A (en) Method and apparatus of data analysis, program, and recording medium with the program recorded thereon
JPH1185794A (en) Retrieval word input device and recording medium recording retrieval word input program
JP2003330966A (en) Document analysis method, device, program, and recording medium storing document analysis program
JP3772401B2 (en) Document classification device
JP2001117930A (en) Device and method for sorting documents and recording medium
JP4525224B2 (en) Document management program, document management method, and document management apparatus