WO2004051514A1 - Statistical system and statistical method based on categorization definition for a plurality of records - Google Patents

Statistical system and statistical method based on categorization definition for a plurality of records Download PDF

Info

Publication number
WO2004051514A1
WO2004051514A1 PCT/JP2002/012789 JP0212789W WO2004051514A1 WO 2004051514 A1 WO2004051514 A1 WO 2004051514A1 JP 0212789 W JP0212789 W JP 0212789W WO 2004051514 A1 WO2004051514 A1 WO 2004051514A1
Authority
WO
WIPO (PCT)
Prior art keywords
classification
records
record
definition
specifying
Prior art date
Application number
PCT/JP2002/012789
Other languages
French (fr)
Japanese (ja)
Inventor
Naoki Akaboshi
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2002/012789 priority Critical patent/WO2004051514A1/en
Priority to JP2004556815A priority patent/JPWO2004051514A1/en
Publication of WO2004051514A1 publication Critical patent/WO2004051514A1/en
Priority to US11/037,036 priority patent/US20050125433A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Definitions

  • the present invention relates to an information processing system, and more particularly to a tallying system and a tallying method for utilizing stored information.
  • Information that is premised on use by computers is tabular data (tables) that records information (records) that has a fixed structure corresponding to one event, such as transaction information that records daily transactions, by the number of events. Data).
  • information that expresses the event is stored in the form of several sections, organized into fields (fields).
  • Figure 1 shows an example of such tabular data.
  • the receipt number of reference number 101, the sales date of reference number 102, the reference number of reference number 103, the reference number, the product number of reference number 104, and the reference number of reference number 105 The vertical columns of sales amounts make up each field.
  • the record 106 is, for example, the receipt number 0 0 0 1, the sales date 2 0 2/0 6/3 0 in the first line of FIG. It is composed of a data group of each field of product A and sales amount of 300000.
  • each record is classified by Fiber IJ based on the value stored in a specific field in each record, and a set of classified records Aggregation is performed for each (category) to determine differences and trends between categories.
  • Fig. 2 shows the tabular data that records the records shown in Fig. 1, and classifies whether the sales date field 102 is June or July, and calculates the sales amount of the corresponding record. This is the result of totaling the fields of each month on a monthly basis, and consists of a monthly classification of 201 and a total amount of 202.
  • classification fiber IJ For the classification fiber IJ, the following designations are possible as conventional technology. All of these classifications by IJ can be performed by applying rules to each record alone. There is a characteristic that it can be easily classified.
  • the classification rule of the first example is a category type, which is a rule for performing classification based on a classification of, for example, daily necessities, perishables, and the like.
  • the classification rule in the second example is a time rule, for example, a rule that classifies a record so that a time field of the record satisfies a specified condition.
  • time rule for example, a rule that classifies a record so that a time field of the record satisfies a specified condition.
  • monthly classifications such as January and February, and weekly and daily classifications by Fiber IJ.
  • the classification rule in the third example is a range type, which is, for example, a classification based on a range in which the sales amount is 100,000 yen or less, 100,000 yen or more, and 100,000 yen or less. It is a rule.
  • classification Fiber IJ is a full-value type, which is a classification rule based on, for example, values recorded in records. For example, in a large store, etc., when there are cash register numbers from 1 to 10, a rule is used in which classification is performed by using all the recorded cash register numbers.
  • FIG. 3 is a diagram showing the configuration of a conventional system for utilizing stored information.
  • the first to conventional systems shown in FIG. 3 mainly include an information processing unit 301, an input device 302, an output device 303, a database 304, and a classification definition storage unit 300.
  • the information processing unit 301 has means for performing various kinds of processing, and mainly includes data registration means 311, classification definition means 312, classification instruction section 3 13 and classification and aggregation means 3 1 4 It is composed of
  • the display device 303 displays a screen or the like.
  • the input device 304 performs each 3 ⁇ 4 ⁇ force, such as a mouse or a keyboard.
  • the data registration means 311 composes data input from the input device 302 into a record and registers (accumulates) it in the database 304.
  • the classification definition means 312 stores the classification definition input from the input device 302 in the classification definition storage means 305.
  • the classification instructing means 3 13 instructs the classification definitions stored in the classification definition accumulating means 3 05 in accordance with the instruction input from the input device 302 and sends it to the classification and aggregation means 3 14.
  • the classifying and totaling means 314 classifies the records stored in the database 304 and performs a totalizing process.
  • the database 304 stores data as records.
  • the classification definition is defined and registered.
  • Classification Aggregation means 3 1 4 is, for example, from the sales database, the record recorded in this Each record is taken out sequentially, and the summarization process is performed for each applicable class according to the field to be summed up for each record while referring to the class definition. Then, the classified and totaled results are displayed on the display device 303 by the classification and totaling means 3 14.
  • Data mining is an analytical technique that finds some regularity or rule in a large amount of data. The task of analyzing vast amounts of data, converting it into valuable information, and linking it to business actions. As data mining techniques, techniques such as correlation analysis and clustering are generally used. '
  • Correlation analysis which is one analysis method for data mining, is a method of picking out combinations of purchased products.
  • the contents of the account purchased by the customer are stored in advance as POS (Point-Of-Sales).
  • POS Point-Of-Sales
  • one receipt is called a transaction.
  • 20 customers purchased product A and 12 customers purchased both product A and product B. I do.
  • one product is called an item.
  • a single transaction typically includes multiple items.
  • a rule such as “bread ⁇ putter confidence 70%” means “70% of customers who bought bread also bought butter”.
  • clustering one of the other analysis methods for data mining, is a method of putting similar data into the same group. For example, by applying the clustering method to classify sales data, it is possible to find two classifications: youth-oriented customers and .mas-oriented customers.
  • Figure 4 shows an example of data mining by clustering. In this clustering example, the records in the tabular data 401 that recorded the records were classified into two categories that resembled the power of salary, gender, age, and four attributes of the product. This is an example in which grouping is performed into 402 (class 1) and 40 3 (class 2).
  • the present invention has been made in view of the above points, and an object of the present invention is to provide a totaling system and a totaling method capable of classifying records and performing a totalizing process in accordance with a classification rule that spans a plurality of records. I do.
  • an information aggregation system of the present invention is an aggregation system that aggregates a plurality of records composed of a plurality of data stored in a table format based on a predetermined rule.
  • a means for defining a record corresponding to a category that covers a plurality of records stored in a format, a means for specifying a record that corresponds to a category that covers a plurality of records, and a means for classifying and totaling. fine multiple records composed of multiple data items stored in a record by referring to the classification results of the means for identifying the applicable records and defining the applicable records for multiple records. Aggregate according to the definition that specifies the applicable records d .
  • the definition of the information totaling system of the present invention for identifying the applicable record is defined as a whole or a part of the classification result obtained by applying data mining to a plurality of records composed of a plurality of data stored in a table format. It is characterized by including. As a result, the data mining results are such that it is not possible to determine which classification definition matches a record by looking at only a single record. Classification definitions such as "Customer who bought B" Whether or not a record is applicable can be determined by using the classification applicable record identification means.
  • the means for specifying the applicable record of the classification generates the classification result of the applicable record before the totalization by the collecting means, and the totalizing means refers to the result of the classification of the applicable record Aggregation is performed in accordance with the definition that specifies the category applicable records defined by the means for defining the category applicable records that span multiple records.
  • the means for identifying the applicable records is not only the method of finding the corresponding record at the time of aggregation, but also classifying the corresponding records in advance and using the intermediate classification result at the time of aggregation be able to.
  • the key a field that can uniquely identify the record
  • Classification Definition When performing aggregation processing on “customers who purchased product A and product B”, corresponding records are extracted by referring to intermediate classification results. Existing methods such as lists and hashes can be used to achieve intermediate classification results.
  • the storage destination of the intermediate classification result can be selected from the main storage or the secondary storage.
  • the means for specifying a category applicable record of the information totaling system of the present invention is characterized in that the classification result of the category applicable record is updated in accordance with a definition for specifying the category applicable record at every predetermined period.
  • the target data Due to the characteristics of the data, the target data is not invariable and is always added.
  • the data after the generation is not selected for aggregation. become.
  • the latest data can be summed up at high speed.
  • a definition for specifying a record corresponding to a classification is automatically registered as a classification definition.
  • Clustering a technique for data mining, identifies users who have similar trends. Performs the process of grouping into the specified number of groups. At this time, if the resulting cluster number (number specified from 1) can be automatically registered and used as a classification definition, there is no need for the user to instruct registration to the classification definition. In other words, when data mining is applied to tabular data, the result can be automatically registered as a classification definition, and the original tabular data can be aggregated according to the relevant classification definition. .
  • the information totaling system of the present invention is characterized in that the classification results of data mining are changed over time, and the classification results of each data mining are held.
  • the result of data mining changes with time: ⁇ , the result of each data mining is held according to the change of time, and the result is used as a classification definition. For example, if a customer had a rank of 5 in June 2000, but had a rank of 4 in July 2000, the total for June 2000 The data is categorized into rank 5 and tallied. In July 2000, it is categorized as rank 4.
  • the information totaling system of the present invention is characterized in that the data mining is executed at predetermined time intervals.
  • the present invention is a computer-readable recording medium storing a program for causing a computer to function.
  • FIG. 1 is a diagram illustrating an example of tabular data.
  • FIG. 2 is a diagram showing the results of tabulation of the tabular data in which the records shown in FIG. 1 are recorded.
  • FIG. 3 is a diagram showing the configuration of a conventional system for utilizing stored information.
  • FIG. 4 is a diagram showing an example of data mining by clustering.
  • FIG. 5 is a diagram showing a configuration of a system for utilizing stored information according to the embodiment of the present invention.
  • FIG. 6 is a diagram showing a classification result of the classification applicable record specifying means 502.
  • FIG. 7 is a diagram showing an example of a classification definition by data mining.
  • FIG. 8 is a diagram illustrating an example of the classification result of the classification corresponding record identification method corresponding to the classification definition by data mining.
  • FIG. 9 is a diagram illustrating an example of a classification definition by clustering.
  • FIG. 10 is a diagram showing a flowchart of the operation of the embodiment of the present invention. .
  • FIG. 11 is a diagram showing an example of tabular data which is data to be analyzed according to the present invention.
  • FIG. 12 is a diagram showing a flow chart of the definition information creation and registration processing of the present invention.
  • FIG. 13 is a diagram showing an example of the classification definition based on the correlation analysis.
  • FIG. 14 is a diagram showing a flowchart of the classification and aggregation processing of the present invention.
  • FIG. 15 is a diagram showing an example of specifying the tallying process according to the present invention.
  • Fig. 16 is a diagram showing the classification result of the classification applicable record identification means corresponding to the classification definition by data mining.
  • FIG. 17 is a diagram illustrating an example of the counting result of the counting process corresponding to the classification definition by data mining.
  • FIG. 5 is a diagram showing a configuration of a system for utilizing stored information according to the embodiment of the present invention.
  • the system according to the embodiment of the present invention shown in FIG. 5 mainly includes an information processing device 301, an input device 302, an output device 303, a database 304, and a classification definition accumulating means 300.
  • the device 301 has means for performing various processes, and mainly includes a data registration means 311, a classification definition means 312, a classification instruction means 313, a classification and aggregation means 314, and a classification. It is composed of a definition means 501 for specifying the corresponding record and a classification corresponding record specifying means 502.
  • the display device 303 displays a screen or the like.
  • the input device 304 performs various inputs, such as a mouse and a keyboard.
  • the data registering means 311 composes the input data into a record and registers (accumulates) it in the database 304.
  • the classification definition means 312 stores the classification definition input from the input device 302 in the classification definition storage means 305.
  • the classification instructing means 3 13 instructs the classification definition stored in the classification definition storing means 3 05 according to the instruction inputted from the input device 302 and sends it to the classification corresponding record specifying means 502.
  • the database 304 stores data as records. Classification definitions are defined and registered.
  • the definition means 501 for specifying the record corresponding to the classification receives a definition for specifying the record corresponding to the classification in accordance with the instruction input from the input device 302.
  • the classification applicable record specifying means 5002 is a definition for specifying the classification applicable record input to the classification applicable record 501, and is stored in the classification definition accumulating means 3005. According to the classification definition and the records stored in the database 304, the records corresponding to the classification are classified.
  • FIG. 6 is a diagram showing the classification result of the classification corresponding record identification means 502, which is composed of a classification column 6001 and a corresponding record military column 6002.
  • a record correspondence table for Class 1 and Class 2 can be created as an intermediate classification result, and the corresponding record group can be immediately known from this correspondence table.
  • the classifying and totaling means 314 classifies the records stored in the database 304 and performs a totalizing process.
  • the classification / aggregation means 3 14 includes the classification definition stored in the classification definition storage means 3 05 specified by the classification instruction means 3 13 and the classification corresponding record identification means 5 0 As shown, the correspondence table of records for category 1 and category 2 From the result of the classification, records corresponding to the classification are specified, records corresponding to the respective classifications stored in the database 304 are sequentially retrieved from the database, and the records are divided into the corresponding classifications and tabulated. For example, it is also possible to define and register classifications for each application period according to the purpose such as product lineup. Intermediate classification results by the classification applicable record identification means 502 need to be frosted according to the classification definition. Then, the classified and totaled results are displayed on the display device 303 by the classification and totaling means 3 14. As described above, the classification and aggregation means 3 14 can easily perform the aggregation processing for the record group corresponding to the classification by using the classification corresponding record specifying means 502.
  • FIG. 7 shows an example of a classification definition using the results of data mining.
  • 1 " ⁇ contains a single record to determine if it is classified as" customer who purchased product A and then purchased product B "(7001). The fact that product A is listed is only a necessary condition. For this reason, it is possible to determine which classification definition each record corresponds to by using the classification applicable record specifying means 502.
  • the classification applicable record identification means 502 not only obtains the corresponding records at the time of counting the records, but also obtains the corresponding records in advance in the middle, and calculates the intermediate classification results at the time of counting. Can be used.
  • FIG. 8 shows an example of the classification result of the classification applicable record specifying means corresponding to the classification definition using the result of the data mining, and is composed of a column 8001 of the classification and a column 8002 of the corresponding record group. For example, “Record of customer who purchased product A and product B” (8 03) The key (a field that uniquely identifies the record) can be stored as an intermediate result as shown in Fig. 7.
  • the corresponding record is extracted by referring to the intermediate classification result.
  • Existing methods such as lists and hashes can be used to achieve intermediate classification results.
  • intermediate classification results can be stored in main storage or secondary storage.
  • records are constantly added to the data to be classified due to its characteristics.
  • the classification result of the classification applicable record specifying means 502 once generated is used as the classification result of the classification applicable record specifying means 502.
  • the records that were ii ⁇ ⁇ l generated after generating the above correspondence table that specifies the records to be included will not be included in the aggregation process.
  • the correspondence table for specifying the records included in the classification is updated. Aggregation can be performed quickly even for the latest data.
  • clustering one of the methods of data mining, records with a similar tendency are grouped into a specified number of groups.
  • the resulting cluster number (the number specified from 1) can be automatically registered and used as a classification definition
  • the user can input the definition device 501 to the definition means 501 for specifying the classification applicable level. There is no need to indicate registration via 2.
  • the results are automatically registered in the classification definition storage means 305 as a definition for identifying the record corresponding to the classification, and the original table format data is stored. Data can be aggregated according to the relevant classification definition.
  • Figure 9 shows an example of a classification definition by clustering.
  • the classification definition of FIG. 9 is automatically formed, and is stored in the classification definition storing means 300.
  • holds the result of each data mining according to the change of time, and classifies according to the result.
  • classification definition record specifying means 502 data mining is also performed periodically, and each classification definition and the intermediate classification definition of the corresponding record are updated and used. Can be. Although the time for performing the aggregation itself is not changed, it is possible to obtain a result based on the latest classification.
  • the present invention can be carried as a computer-readable recording medium storing a program for causing a computer to function.
  • FIG. 10 is a diagram showing a flowchart of the operation of the embodiment of the present invention. First, the overall operation will be described with reference to the flowchart of FIG. In FIG. 10, the whole operation starts in step S1.
  • step S2 data input to the data registration means 311 via the input device 302 of FIG. 5 is registered in the database 304.
  • data input to the data registration means 311 via the input device 302 of FIG. 5 is registered in the database 304.
  • customers, products, sales, etc. are stored in records and registered for each transaction.
  • step S3 the classification definition is designated to the classification definition means 311 and the definition means 501 for specifying the classification definition record via the input device 202 of FIG. 5, and the classification definition storage means Store in 305.
  • a classification is defined based on a certain rule, such as a data mining result that cannot be classified by a conventional single record.
  • step S4 classification and totalization are performed based on the data and the classification definition input in steps S2 and S3 described above.
  • the relevant classification definition dictionary is extracted from the classification definition storage means 3 05 in FIG. 5, and the corresponding record is determined by the classification applicable record according to the classification rule of the relevant classification definition. Take out and count.
  • step S5 the data is registered and stored in the database 304, a classification definition based on a complicated rule is created and registered in the classification definition storage means 300, and the record corresponding to the classification shown in FIG. 5 is identified.
  • the means 502 By using the means 502 to total the records that match the classification, it is edible g to total according to the classification definition based on complicated rules.
  • FIG. 11 is a diagram showing an example of tabular data, which is the data to be analyzed according to the present invention, registered in step S2.
  • step S2 in Fig. 10 data is organized in such a record, and the database 30
  • the transaction number, the sales date, the customer number, the quantity, the sales, etc. are registered and stored in a record in association with the sales date, so that the classification that matches the analysis purpose according to the classification definition described later ⁇ Aggregation can be performed using Iij.
  • FIG. 12 is a diagram showing a flowchart of the definition information creation and registration processing of the present invention.
  • the process of creating and registering the definition information is started in step S12201.
  • step SI202 classification is performed on the target data by a complicated rule such as data mining by the classification and aggregation means 314 in FIG.
  • step S 1 204 how the user uses the input device 302 to define the data Define whether to use as a classification. If the above rules are obtained, for example, both rules 1 and 2 are defined as classifications. As a result, a classification definition as shown in FIG. 13 can be created based on the data in FIG.
  • FIG. 13 is a diagram showing an embodiment of the classification definition by the correlation analysis, and has two classifications 1301 and 1302.
  • step S125 the classification definition thus obtained is stored in the classification definition storage means 305 of FIG.
  • step S122 the definition information creation and registration process ends.
  • step S4 in FIG. 10 the classification and tabulation in step S4 in FIG. 10 will be described.
  • FIG. 14 is a diagram showing a flowchart of the classification and aggregation processing of the present invention.
  • FIG. 15 is a diagram showing an example of the designation of the tallying process according to the present invention.
  • step S1401 the classification and aggregation processing of the present invention is started in step S1401.
  • step S1402 a selection screen is displayed based on the classification definition and the data via the classification and aggregation means 314 in FIG. 5, and the classification and data as shown in FIG. 15 are displayed.
  • FIG. 15 shows the classification of reference number 1501 as the classification, the data of reference number 1502 as its data, and the OK button 1503 that issues an instruction to select.
  • the user selects a classification and data through the input device 302 in accordance with the analysis. It is possible to select multiple categories for this.
  • step S1403 the classification record specifying means 502 of FIG. Get a record corresponding to the specified classification. Obtain a record ⁇ ⁇
  • Figure 16 shows an example of finding the corresponding record group for the classification definition in Figure 13.
  • Fig. 16 is a diagram showing the results of classification corresponding record identification means 502 corresponding to the classification definition by data mining, which is composed of a classification column 1601 and a corresponding record sequence 1602. .
  • the classification record specifying means 502 of FIG. 5 creates the table of FIG. 16 as an intermediate classification result, it can be represented by holding the corresponding record group for each classification using the table. If the number of classifications is large and it takes time to search for the corresponding record, the time required to search for the classification can be reduced by registering it in the hash table.
  • FIG. 17 is a diagram showing an example of the result of the aggregation process corresponding to the classification definition by data mining, which is composed of a classification column 1701 and an average sales column 1701. In the example shown in Figure 17, the average sales are aggregated for the customers that fall under the classification definition in Figure 13.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A statistical system and a statistical method capable of categorizing records according to a categorization rule for a plurality of records and performing statistical processing. In order to achieve this object, the information statistical system totals a plurality of records composed of a plurality of data items stored in a table, according to a predetermined rule. The system includes means for performing definition for specifying a categorizing record for a plurality of records stored in a table, means for specifying a categorizing record for the plurality of records, and categorization-statistical means. The categorization-statistical means references the categorization result of the means for specifying the categorizing record and totals a plurality of records composed of data items stored in a table according to the definition for specifying the categorizing record defined by means for performing definition for specifying the categorizing record for a plurality of records.

Description

明 細 書 複数レコードにまたがる分類定義に基づく集計システム及び、集計方法 技術分野  Description Aggregation system and aggregation method based on classification definitions that span multiple records
本発明は、 情報処理システムに関連し、 特に格納された情報を活用するための 集計システム及び集計方法に関するものである。 背景技術  The present invention relates to an information processing system, and more particularly to a tallying system and a tallying method for utilizing stored information. Background art
計算機による活用を前提とした情報は、 日々の取引を記録したトランザクショ ン情報のように、 1つの事象に対応する一定構造を有する情報 (レコード) を、 事象の数だけ記録した表形式データ (テーブルデータ) として蓄積されることが 多い。 このレコードには、 事象を表現する情報が、 幾つかに区切られて記讓域 (フィールド) に整理されて格納される。  Information that is premised on use by computers is tabular data (tables) that records information (records) that has a fixed structure corresponding to one event, such as transaction information that records daily transactions, by the number of events. Data). In this record, information that expresses the event is stored in the form of several sections, organized into fields (fields).
図 1は、 このような表形式データの例を示す。 図 1では、 参照番号 1 0 1のレ シート番号、 参照番号 1 0 2の売り上げ日、 参照番号 1 0 3の顧 号、 参照番 号, 1 0 4の商品及ぴ、 参照番号 1 0 5の売上金額の縦の列が各フィールドを構成 する。 そして、 レコード 1 0 6は、 例えば、 図 1の第 1行目の、 レシート番号 0 0 0 0 1、売り上げ日 2 0 0 2/0 6 / 3 0、顧 ¾ ^号 1 0 0 0 1、商品 A及ぴ、 売上金額 3 0 0 0の、 各スィールドのデータ群より構成される。 > テーブルデータとして蓄積された情報を活用する には、 各レコード中の特 定のフィールドに格納された値に基づレヽた纖 IJで、各レコードを分類し、そして、 分類されたレコードの集合 (カテゴリ) ごとに集計を行って、 カテゴリ間の差異 や傾向を求める。 図 2は、 図 1に示されたレコードを記録した表形式データにつ いて、 売り上げ日のフィールド 1 0 2が 6月なのか 7月なのかについて分類し、 これに該当するレコードの、 売上金額のフィールドを、 月毎に集計した結果であ り、 月別分類 2 0 1と合計金額 2 0 2の歹 IJより構成される。  Figure 1 shows an example of such tabular data. In Figure 1, the receipt number of reference number 101, the sales date of reference number 102, the reference number of reference number 103, the reference number, the product number of reference number 104, and the reference number of reference number 105 The vertical columns of sales amounts make up each field. Then, the record 106 is, for example, the receipt number 0 0 0 1, the sales date 2 0 2/0 6/3 0 in the first line of FIG. It is composed of a data group of each field of product A and sales amount of 300000. > In order to utilize the information stored as table data, each record is classified by Fiber IJ based on the value stored in a specific field in each record, and a set of classified records Aggregation is performed for each (category) to determine differences and trends between categories. Fig. 2 shows the tabular data that records the records shown in Fig. 1, and classifies whether the sales date field 102 is June or July, and calculates the sales amount of the corresponding record. This is the result of totaling the fields of each month on a monthly basis, and consists of a monthly classification of 201 and a total amount of 202.
分類繊 IJについては、 従来技術として以下のような指定が可能である。 これら の分類繊 IJによる分類は、 いずれも、 各レコード単体に規則を適用することで容 易に分類できるところに特徴がある。 For the classification fiber IJ, the following designations are possible as conventional technology. All of these classifications by IJ can be performed by applying rules to each record alone. There is a characteristic that it can be easily classified.
第 1の例の分類規則は、 カテゴリ型であり、 これは、 例えば、 日用品、 生鮮品 などの区分に基づレ、た分類をおこなう規則である。  The classification rule of the first example is a category type, which is a rule for performing classification based on a classification of, for example, daily necessities, perishables, and the like.
第 2の例の分類規則は、 時間型であり、 これは、 例えば、 あるレコードの時間 フィールドが、 指定された条件を満たすように分類する規則である。 1月度、 2 月度といった月毎の分類や、 週毎、 日毎の纖 IJによる分類などがある。  The classification rule in the second example is a time rule, for example, a rule that classifies a record so that a time field of the record satisfies a specified condition. There are monthly classifications such as January and February, and weekly and daily classifications by Fiber IJ.
第 3の例の分類規則は、 範囲型であり、 これは、 例えば、 売上金額が、 1 0 0 万円以下、 1 0 0万円以上 1 0 0 0万円以下といった範囲に基づいた分類する規 則である。  The classification rule in the third example is a range type, which is, for example, a classification based on a range in which the sales amount is 100,000 yen or less, 100,000 yen or more, and 100,000 yen or less. It is a rule.
第 4の例の分類纖 IJは、 全値型であり、 これは、 例えば、 レコードに記録され た値に基づいた分類規則である。 例えば、 大型店舗等で、 レジ番号が 1から 1 0 まである場合に、 記録されたレジ番号の値を全て利用して分類をおこなう規則で める。  The fourth example, classification Fiber IJ, is a full-value type, which is a classification rule based on, for example, values recorded in records. For example, in a large store, etc., when there are cash register numbers from 1 to 10, a rule is used in which classification is performed by using all the recorded cash register numbers.
図 3は、 従来の格納された情報を活用するためのシステムの構成を示す図であ る。図 3に示 1~¾έ来のシステムは、主に、情報処»置 3 0 1、入力装置 3 0 2、 出力装置 3 0 3、 データベース 3 0 4及び分類定義蓄積手段 3 0 5より構成され る。 情報処義置 3 0 1は、 各種の処理を行う手段を有し主に、 データ登録手段 3 1 1、 分類定義手段 3 1 2、 分類指示丰段 3 1 3及び、 分類集計手段 3 1 4よ り構成される。 表示装置 3 0 3は、 画面などを表示するものである。 入力装置 3 0 4は、 各 ¾λ力を行うものであって、 マウスやキーボードなどである。  FIG. 3 is a diagram showing the configuration of a conventional system for utilizing stored information. The first to conventional systems shown in FIG. 3 mainly include an information processing unit 301, an input device 302, an output device 303, a database 304, and a classification definition storage unit 300. You. The information processing unit 301 has means for performing various kinds of processing, and mainly includes data registration means 311, classification definition means 312, classification instruction section 3 13 and classification and aggregation means 3 1 4 It is composed of The display device 303 displays a screen or the like. The input device 304 performs each ¾λ force, such as a mouse or a keyboard.
データ登録手段 3 1 1は、 入力装置 3 0 2から入力されたデータを、 レコード に構成して、 データベース 3 0 4に登録 (蓄積) する。 分類定義手段 3 1 2は、 入力装置 3 0 2から入力される分類定義を、分類定義蓄積手段 3 0 5に蓄積する。 分類指示手段 3 1 3は、 入力装置 3 0 2から入力される指示に従って、 分類定義 蓄積手段 3 0 5内に蓄積された分類定義を指示し、 分類集計手段 3 1 4に送る。 分類集計手段 3 1 4は、 データベース 3 0 4に蓄積されたレコードを、 分類して 集計処理をおこなうものである。 データベース 3 0 4は、 データをレコードにし て蓄積したものである。 分類定義は、 分類を定義して登録したものである。 分類 集計手段 3 1 4は、 例えば、 売上データベースから、 これに記録されているレコ 一ドを順次取り出して、 分類定義を参照しながら、 各レコードの集計対象フィ一 ルドに従って、 該当する分類毎に集計処理を行う。 そして、 分類集計手段 3 1 4 により、 分類され且つ集計された結果が、 表示装置 3 0 3に表示される。 The data registration means 311 composes data input from the input device 302 into a record and registers (accumulates) it in the database 304. The classification definition means 312 stores the classification definition input from the input device 302 in the classification definition storage means 305. The classification instructing means 3 13 instructs the classification definitions stored in the classification definition accumulating means 3 05 in accordance with the instruction input from the input device 302 and sends it to the classification and aggregation means 3 14. The classifying and totaling means 314 classifies the records stored in the database 304 and performs a totalizing process. The database 304 stores data as records. The classification definition is defined and registered. Classification Aggregation means 3 1 4 is, for example, from the sales database, the record recorded in this Each record is taken out sequentially, and the summarization process is performed for each applicable class according to the field to be summed up for each record while referring to the class definition. Then, the classified and totaled results are displayed on the display device 303 by the classification and totaling means 3 14.
従来は、 分類定義として定義できる規則は、 その規則を 1つのレコードについ て適用するだけで、 すぐに分類が可能であるものに限定されてきた。 しかし、 ビ ジネスィンテリジェンスと呼ばれる、 さまざまな分析ツールによる分析結果を、 レコードを分類する分類定義として利用したい がある。 このような分析結果 に基づいて、 レコードの分類を行う場合には、 複数のレコードをわたった分類定 義をする必要があるため、 従来の単純な分類規則では集計することができない。 このような、 ビジネスィンテリジェンスと呼ばれる分析ツールの具体的なものの 代表としては、 データマイニングがある。  In the past, rules that could be defined as a classification definition were limited to those that could be classified immediately by applying the rule to a single record. However, there is a need to use the results of various analytical tools, called business intelligence, as a classification definition for classifying records. When classifying records based on such analysis results, it is necessary to define the classification across multiple records, and thus cannot be aggregated using conventional simple classification rules. Data mining is a typical example of such an analysis tool called business intelligence.
データマイニングとは、 大量のデータ中から、 何らかの規則性や法則性を発見 するという分析手法である。 膨大なデータを分析して、 価値ある情報に変換し、 ビジネスにおけるァクションに結びつける作業のことである。 データマイニング の手法としては、 相関分析や、 クラスタリングなどの手法が一般的に使用されて いる。 '  Data mining is an analytical technique that finds some regularity or rule in a large amount of data. The task of analyzing vast amounts of data, converting it into valuable information, and linking it to business actions. As data mining techniques, techniques such as correlation analysis and clustering are generally used. '
データマイニングの 1つの分析手法である相関分析とは、 例えば、 購入商品の 組み合わせパターンを拾い出す手法である。 分析にあたっては、 予め、 顧客が購 入したレシ一トの内容を P O S (P o i n t— O f -S a l e s )で蓄積しておく。 この場合には、 1枚のレシートをトランザクションと呼ぶ。 そして、 例えば、 収 集した 1 0 0人の顧客のレシートのうち、 2 0人の顧客が商品 Aを購入し、また、 1 2人の顧客が商品 Aと商品 Bの両方を購入していたとする。 この場合には、 1 つの商品を、 アイテムと呼ぶ。 また、 1つのトランザクションには、 通常、 複数 のアイテムが含まれる。  Correlation analysis, which is one analysis method for data mining, is a method of picking out combinations of purchased products. In the analysis, the contents of the account purchased by the customer are stored in advance as POS (Point-Of-Sales). In this case, one receipt is called a transaction. For example, out of the 100 customer receipts collected, 20 customers purchased product A and 12 customers purchased both product A and product B. I do. In this case, one product is called an item. Also, a single transaction typically includes multiple items.
このとき、 以下の定義式、  At this time, the following definition formula,
アイテムのサポート Item support
=アイテムを含むトランザクションの数 Z全トランザクシヨン数 ( 1 ) に基づいて、商品 Aの 「サポート ( s u p p o r t )j = 2 0 %、商品 Aと商品 B の 「サポート」 = 1 2 %とする。 このようにすると、 単純な条件付き確率計算に より、 「Aを購入する顧客の 6 0 % (= 1 2 %/ 2 0 %)が Bも購入する」が得ら れる。 これを 「A→B 確信度 6 0 %, サポート 1 2 %」 と表わし、 相関ルール と定義する。 つまり、 相関ルール 「A→B」 における確信度は、 = Based on the number of transactions including the item Z and the total number of transactions (1), "support" for product A = 20%, and "support" for product A and product B = 12%. In this way, a simple conditional probability calculation Thus, "60% (= 12% / 20%) of customers who purchase A also purchase B" is obtained. This is expressed as “A → B confidence 60%, support 12%” and defined as an association rule. In other words, the confidence in the association rule “A → B” is
「A→B」 の確信度 (c o n f i d e n c e )  Confidence of “A → B” (c on f i d e n c e)
=Α Λ Β (Αと Βの両方購入) のサポート/" Αのサポート . である。 ここで、 記号 「Λ」 は、 Αと Βの両方を購入したことを示す。 = Α Λ Β (both Α and Β purchased) support / “Α support.” Here, the symbol “Λ” indicates that both Α and Β have been purchased.
例えば、 「パン→パター 確信度 7 0 %」 といったルールは、 「パンを購入した 客のうち 7 0 %がバターも一緒に購入している」 ことを意味する。  For example, a rule such as “bread → putter confidence 70%” means “70% of customers who bought bread also bought butter”.
このように、相関分析の結果、 「商品 Aを購入した顧客は、商品 Bをあわせて購 入する」 といったルー Λ 合を得ることができる。 例えば、 図 1のようなデータ を対象に、 相関分析を実行した結果から、 「商品 Αと商品 Βを一緒に購入した顧 客」 と、 「商品 Aと商品 Dを一緒に購入した顧客」 という、 2つの具 f本的なルール を抽出し、 これらのルールに基づレヽた分類によつて集計することは、 現在の分析 ツールでは可能ではなレ、。 これは、 あるレコードがこれらのルールを満たすかど うかについては、 1つのレコードを見て単純な規則を適用することでは分類がで きないためである。 このように、 相関分析は、 単体のレコードから得られた結果 ではなく、 複数のレコードにまたがる関係を抽出している。  In this way, as a result of the correlation analysis, it is possible to obtain a rule such as "a customer who purchases product A purchases product B together". For example, the results of performing a correlation analysis on the data shown in Fig. 1 indicate that "customers who purchased products Α and Β together" and "customers who purchased products A and D together" It is not possible with current analysis tools to extract the two basic rules and aggregate them based on the classification based on these rules. This is because whether a record satisfies these rules cannot be categorized by looking at one record and applying simple rules. In this way, correlation analysis extracts relationships that span multiple records, not the results obtained from a single record.
—方、 データマイニングの他の分析手法の 1つであるクラスタリングとは、 類 似したデータを同じグループにまとめていく手法である。 例えば、 クラスタリン グ手法を適用して売上データを分類し、 若者志向の顧客層と、.雜志向の顧客層 という 2つの分類を発見することができる。 図 4は、 クラスタリングによるデー タマイニングの例を示す。 このクラスタリング例では、 レコードを記録した表形 式データ 4 0 1内のレコードを、 年収、 性別、 年齢、 及び、 商品の 4つの属性に ついて、おた力 Sいに類似している 2つの分類 4 0 2 (分類 1 ) と 4 0 3 (分類 2 ) にグループ分けをおこなう場合の例である。  —On the other hand, clustering, one of the other analysis methods for data mining, is a method of putting similar data into the same group. For example, by applying the clustering method to classify sales data, it is possible to find two classifications: youth-oriented customers and .mas-oriented customers. Figure 4 shows an example of data mining by clustering. In this clustering example, the records in the tabular data 401 that recorded the records were classified into two categories that resembled the power of salary, gender, age, and four attributes of the product. This is an example in which grouping is performed into 402 (class 1) and 40 3 (class 2).
このようなクラスタリングの結果を用いて分類し且つ集計処理をしたい に は、 あるレコードがどの分類に属するかは、 1つのレコードを見ただけでは判断 できない。 クラスタリングは単一のレコードだけでなく、 他のレコードとの類似 性を考慮して分類を作成してレ、るからである。 従って、 データベースに蓄積された表形式データ (テーブルデータ) を対象と して、 データマイニングを適用して得られた結果の一部、 あるいは全部を、 新た な分類定義として使用して、 元の表形式データのレコードを集計することは、 従 来のシステムでは不可能である。 このために、 複数のレコードをわたる分類規則 に従って、 レコードを分類し且つ集計処理を行うための新しい仕組みが必要であ る。 発明の開示 In order to perform classification and aggregation using the results of such clustering, it is not possible to determine which classification a certain record belongs to just by looking at one record. This is because clustering creates not only a single record but also a classification based on the similarity to other records. Therefore, part or all of the results obtained by applying data mining to tabular data (table data) accumulated in the database are used as new classification definitions, and the original table is used. Aggregating records of formal data is not possible with conventional systems. For this purpose, a new mechanism is needed to classify records and perform aggregation processing according to the classification rules that span multiple records. Disclosure of the invention
本発明は上記の点に鑑みてなされたもので、 複数のレコードをわたる分類規則 に従つて、 レコードを分類し且つ集計処理を行うことの可能な集計システム及び 集計方法を ^することを目的とする。  The present invention has been made in view of the above points, and an object of the present invention is to provide a totaling system and a totaling method capable of classifying records and performing a totalizing process in accordance with a classification rule that spans a plurality of records. I do.
この目的を達成するために、 本発明の情報集計システムは、 表形式に格納され た複数のデータより構成される複数のレコードを、 所定の規則に基づいて集計す る集計システムであって、 表形式に格納された複数のレコードにわたる分類該当 レコードを特定する定義を行う手段と、 複数のレコードにわたる分類該当レコー ドを特定する手段と、 分類集計手段とを有し、 分類集計手段は、 表形式に格納さ れた複数のデータより構成される複数のレコードを、 分類該当レコードを特定す る手段の分類結果を参照して、 複数のレコードにわたる分類該当レコードを特定 する定義を行う手段の定義する分類該当レコードを特定する定義に従つて集計す ることを特徴とする d . In order to achieve this object, an information aggregation system of the present invention is an aggregation system that aggregates a plurality of records composed of a plurality of data stored in a table format based on a predetermined rule. A means for defining a record corresponding to a category that covers a plurality of records stored in a format, a means for specifying a record that corresponds to a category that covers a plurality of records, and a means for classifying and totaling. Define multiple records composed of multiple data items stored in a record by referring to the classification results of the means for identifying the applicable records and defining the applicable records for multiple records. Aggregate according to the definition that specifies the applicable records d .
これにより、 従来の^と異なり、 分類該当レコードを特定する手段を利用す ることにより、 各レコードに単純な規則を適用するだけでは分類をすることがで きな ヽ複数のレコードにまたがる»な分類による集計処理が可能となる。 また、 本発明の情報集計システムの、 分類該当レコードを特定する定義は、 表 形式に格納された複数のデータより構成される複数のレコードに対してデータマ イニングを適用した分類結果の全部あるいは一部を含むことを特徴とする。 これにより、 データマイニングの結果については、 単一のレコードだけを見て も、そのレコードがどの分類定義に合 するかを判断することができないような、 例えば、 「商品 Aを購入した後で商品 Bを購入した顧客」のような分類定義に、各 レコードが該当するかどうかを、 分類該当レコード特定手段を利用することによ り判定することができる。 As a result, unlike the conventional ^, it is not possible to classify by simply applying a simple rule to each record by using the means for identifying the applicable records. Aggregation processing by classification becomes possible. In addition, the definition of the information totaling system of the present invention for identifying the applicable record is defined as a whole or a part of the classification result obtained by applying data mining to a plurality of records composed of a plurality of data stored in a table format. It is characterized by including. As a result, the data mining results are such that it is not possible to determine which classification definition matches a record by looking at only a single record. Classification definitions such as "Customer who bought B" Whether or not a record is applicable can be determined by using the classification applicable record identification means.
また、 本発明の情報集計システムの、 分類該当レコードを特定する手段は、 集 計手段による集計前に分類該当レコードの分類結果を生成し、 集計手段は、 分類 該当レコードの分類結果を参照して、 複数のレコードにわたる分類該当レコード を特定する定義を行う手段の定義する分類該当レコードを特定する定義に従って 集計すること-を特徴とする。  Further, in the information totalizing system of the present invention, the means for specifying the applicable record of the classification generates the classification result of the applicable record before the totalization by the collecting means, and the totalizing means refers to the result of the classification of the applicable record Aggregation is performed in accordance with the definition that specifies the category applicable records defined by the means for defining the category applicable records that span multiple records.
これにより、 分類該当レコードを特定する手段は、 集計の際に対応レコードを 求める方法だけでなく、 あらかじめ対応するレコードを中間的に分類しておき、 集計の際に中間的な分類結果を利用することができる。 例えば、 商品 Aと商品 B を購入した顧客のレコードについて、 あらかじめそのキー (ユニークにレコード が特定できるフィールド) を中間的な分類結果として保存しておけばよい。 分類 定義 「商品 Aと商品 Bを購入した顧客」 について集計処理する際には、 中間的な 分類結果を参照して対応するレコードを取り出す。中間的な分類結果の実現には、 リスト、 ハッシュなど、 既存の方法を用いることができる。 また、 中間的な分類 結果の格納先には、 主記憶上または二次記憶装置上を選ぶことができる。  As a result, the means for identifying the applicable records is not only the method of finding the corresponding record at the time of aggregation, but also classifying the corresponding records in advance and using the intermediate classification result at the time of aggregation be able to. For example, for a record of a customer who purchased products A and B, the key (a field that can uniquely identify the record) may be stored in advance as an intermediate classification result. Classification Definition When performing aggregation processing on “customers who purchased product A and product B”, corresponding records are extracted by referring to intermediate classification results. Existing methods such as lists and hashes can be used to achieve intermediate classification results. In addition, the storage destination of the intermediate classification result can be selected from the main storage or the secondary storage.
更に、 本発明の情報集計システムの、 分類該当レコードを特定する手段は、 所 定の期間毎に、 分類該当レコードを特定する定義に従って、 分類該当レコードの 分類結果を更新することを特徴とする。  Further, the means for specifying a category applicable record of the information totaling system of the present invention is characterized in that the classification result of the category applicable record is updated in accordance with a definition for specifying the category applicable record at every predetermined period.
データは、 その特性上、 対象となるデータは不変でなく、 常に追加がおこなわ れる。 このように、 対象データへのレコード追加がある には、 一度生成した 分類該当レコードを特定する手段による分類該当レコードの分類結果を用いると、 それを生成した後のデータが集計対象に選択されないことになる。 このような問 題を解決するために、 一定間隔で上記の分類該当レコード特定手段による分類該 当レコードの分類結果を更新しておくことによって、 最新のデータに対しても高 速に集計できる。  Due to the characteristics of the data, the target data is not invariable and is always added. As described above, in order to add a record to the target data, once the classification result of the classification applicable record by means of identifying the classification applicable record is used, the data after the generation is not selected for aggregation. become. In order to solve such a problem, by updating the classification result of the record corresponding to the classification by the above-described classification corresponding record identification means at regular intervals, the latest data can be summed up at high speed.
更に、 本発明の情報集計システムの、 分類該当レコードを特定する定義は、 分 類定義として自動的に登録されることを特徴とする。  Further, in the information totaling system of the present invention, a definition for specifying a record corresponding to a classification is automatically registered as a classification definition.
データマイニングの 1手法であるクラスタリングでは、 傾向の近いユーザを指 定された個数のグループにまとめる処理をおこなう。 この時、 結果のクラスタ番 号 (1から指定された番号) を自動的に登録して分類定義として利用できれば、 ユーザが分類定義への登録を指示する必要がなくなる。 つまり、 表形式データに 対してデータマイニングを適用した場合に、 その結果を分類定義として自動的に 登録し、 元の表形式データを該当する分類定義に従って集計することを可能とす ることができる。 Clustering, a technique for data mining, identifies users who have similar trends. Performs the process of grouping into the specified number of groups. At this time, if the resulting cluster number (number specified from 1) can be automatically registered and used as a classification definition, there is no need for the user to instruct registration to the classification definition. In other words, when data mining is applied to tabular data, the result can be automatically registered as a classification definition, and the original tabular data can be aggregated according to the relevant classification definition. .
更に、 本発明の情報集計システムは、 データマイニングの分類結果が、 時間に よって変化する には、 各データマイニングの分類結果を保持することを特徴 とする。  Further, the information totaling system of the present invention is characterized in that the classification results of data mining are changed over time, and the classification results of each data mining are held.
これにより、 データマイニングの結果が時間によって変化する:^に、 時間の 変化に従つて各データマイユングの結果を保持し、 その結果に従つて分類定義と して利用する。 例えば、 2 0 0 0年 6月にはランクが 5であったが、 2 0 0 0年 7月にはランクが 4になった顧客の場合には、 2 0 0 0年 6月の集計ではランク 5に分類して集計し、 2 0 0 0年 7月にはランク 4として集計する。  As a result, the result of data mining changes with time: ^, the result of each data mining is held according to the change of time, and the result is used as a classification definition. For example, if a customer had a rank of 5 in June 2000, but had a rank of 4 in July 2000, the total for June 2000 The data is categorized into rank 5 and tallied. In July 2000, it is categorized as rank 4.
更に、 本発明の情報集計システムは、 所定の時間間隔で前記データマイニング' を実行することを特徴とする。  Furthermore, the information totaling system of the present invention is characterized in that the data mining is executed at predetermined time intervals.
これにより、 分類定義レコードを特定する手段に加えて、 データマイニングも 定期的に実行し、 各分類定義自体と、 該当するレコードを最新のものに更新して 利用することができる。 集計時間自体は変わらないが、 これによつて最新の分類 に基づいた結果を得ることができる。 :  As a result, in addition to the means for specifying the classification definition records, data mining is also performed periodically, and each classification definition itself and the corresponding records can be updated and used. The aggregation time itself does not change, but this allows you to obtain results based on the latest classification. :
また、 本発明は、 コンピュータに機能させるためのプログラムを格納したコン ピュータ読取可能な記録媒体として される。 図面の簡単な説明  In addition, the present invention is a computer-readable recording medium storing a program for causing a computer to function. BRIEF DESCRIPTION OF THE FIGURES
本発明の他の目的、 特徴及ひ lj点は、 添付の図面を参照しながら以下の詳細な 説明を読むことにより一層明瞭となるであろう。  Other objects, features and points of the present invention will become more apparent from the following detailed description when read in conjunction with the accompanying drawings.
図 1は、 表形式データの例を示す図である。  FIG. 1 is a diagram illustrating an example of tabular data.
図 2は、 図 1に示されたレコードを記録した表形式データについて、 集計した 結果を示す図である。 図 3は、 従来の格納された情報を活用するためのシステムの構成を示す図であ る。 FIG. 2 is a diagram showing the results of tabulation of the tabular data in which the records shown in FIG. 1 are recorded. FIG. 3 is a diagram showing the configuration of a conventional system for utilizing stored information.
図 4は、 クラスタリングによるデータマイニングの例を示す図である。  FIG. 4 is a diagram showing an example of data mining by clustering.
図 5は、 本発明の実施例の格納された情報を活用するためのシステムの構成を 示す図である。  FIG. 5 is a diagram showing a configuration of a system for utilizing stored information according to the embodiment of the present invention.
図 6は、 分類該当レコード特定手段 5 0 2の分類結果を示す図である。  FIG. 6 is a diagram showing a classification result of the classification applicable record specifying means 502.
図 7は、 データマイニングによる分類定義の例を示す図である。  FIG. 7 is a diagram showing an example of a classification definition by data mining.
図 8は、 データマイニングによる分類定義に対応した分類該当レコード特定手 段の分類結果の例を示す図である。  FIG. 8 is a diagram illustrating an example of the classification result of the classification corresponding record identification method corresponding to the classification definition by data mining.
図 9は、 クラスタリングによる分類定義の例を示す図である。  FIG. 9 is a diagram illustrating an example of a classification definition by clustering.
図 1 0は、 本発明の実施例の動作のフローチャートを示す図である。 .  FIG. 10 is a diagram showing a flowchart of the operation of the embodiment of the present invention. .
図 1 1は、 本発明の分析対象データである表形式データの例を示す図である。 図 1 2は、 本発明の定義情報の作成及び登録処理のフローチヤ一トを示す図で める。  FIG. 11 is a diagram showing an example of tabular data which is data to be analyzed according to the present invention. FIG. 12 is a diagram showing a flow chart of the definition information creation and registration processing of the present invention.
図 1 3は、 相関分析による分類定義の実施例を示す図である。  FIG. 13 is a diagram showing an example of the classification definition based on the correlation analysis.
図 1 4は、 本発明の分類及び集計処理のフローチャートを示す図である。 図 1 5は、 本発明の集計処理の指定の実施例を示す図である。  FIG. 14 is a diagram showing a flowchart of the classification and aggregation processing of the present invention. FIG. 15 is a diagram showing an example of specifying the tallying process according to the present invention.
図 1 6は、 データマイニングによる分類定義に対応する分類該当レコード特定 手段の分類結果を示す図である。  Fig. 16 is a diagram showing the classification result of the classification applicable record identification means corresponding to the classification definition by data mining.
図 1 7は、 データマイニングによる分類定義に対応する集計処理の集計結果の 実施例を示す図である。 発明を実施するための最良の形態  FIG. 17 is a diagram illustrating an example of the counting result of the counting process corresponding to the classification definition by data mining. BEST MODE FOR CARRYING OUT THE INVENTION
以下に、本発明を実施するための実施の形態について、図面を用いて説明する。 図 5を参照して本発明の実施例を説明する。 図 5は、 本発明の実施例の格納さ れた情報を活用するためのシステムの構成を示す図である。 図 5において、 図 3 と同一番号を付した構成要素は、 同一の構成要素を示す。 図 5の、 本発明の実施 例のシステムは、主に、情報処理装置 3 0 1、入力装置 3 0 2、出力装置 3 0 3、 データベース 3 0 4、 及ぴ、 分類定義蓄積手段 3 0 5より構成される。 情報処理 装置 3 0 1は、各種の処理を行う手段を有し、主に、、データ登録手段 3 1 1、分 類定義手段 3 1 2、 分類指示手段 3 1 3、 分類集計手段 3 1 4、 分類該当レコ一 ドを特定する定義手段 5 0 1及び、 分類該当レコード特定手段 5 0 2より構成さ れる。 表示装置 3 0 3は、 画面などを表示するものである。 入力装置 3 0 4は、 各種入力を行うものであって、 マウスやキーボードなどである。 An embodiment for carrying out the present invention will be described below with reference to the drawings. An embodiment of the present invention will be described with reference to FIG. FIG. 5 is a diagram showing a configuration of a system for utilizing stored information according to the embodiment of the present invention. In FIG. 5, the components denoted by the same reference numerals as those in FIG. 3 indicate the same components. The system according to the embodiment of the present invention shown in FIG. 5 mainly includes an information processing device 301, an input device 302, an output device 303, a database 304, and a classification definition accumulating means 300. It is composed of Information processing The device 301 has means for performing various processes, and mainly includes a data registration means 311, a classification definition means 312, a classification instruction means 313, a classification and aggregation means 314, and a classification. It is composed of a definition means 501 for specifying the corresponding record and a classification corresponding record specifying means 502. The display device 303 displays a screen or the like. The input device 304 performs various inputs, such as a mouse and a keyboard.
データ登録手段 3 1 1は、 入力装置 3 0 2力 入力されたデータを、 レコード に構成して、 データベース 3 0 4に登録 (蓄積) する。 分類定義手段 3 1 2は、 入力装置 3 0 2から入力される分類定義を、分類定義蓄積手段 3 0 5に蓄積する。 分類指示手段 3 1 3は、 入力装置 3 0 2から入力される指示に従って、 分類定義 蓄積手段 3 0 5内に蓄積された分類定義を指示し、 分類該当レコード特定手段 5 0 2に送る。  The data registering means 311 composes the input data into a record and registers (accumulates) it in the database 304. The classification definition means 312 stores the classification definition input from the input device 302 in the classification definition storage means 305. The classification instructing means 3 13 instructs the classification definition stored in the classification definition storing means 3 05 according to the instruction inputted from the input device 302 and sends it to the classification corresponding record specifying means 502.
データベース 3 0 4は、 データをレコードにして蓄積したものである。 分類定 義は、 分類を定義して登録したものである。  The database 304 stores data as records. Classification definitions are defined and registered.
分類該当レコードを特定するための定義手段 5 0 1は、 入力装置 3 0 2から入 力される指示に従って、 分類該当レコードを特定するための定義を受ける。 分類該当レコード特定手段 5 0 2は、 分類該当レコードを特定するための定義 手段 5 0 1に入力された、 分類該当レコードを特定するための定義と、 分類定義 蓄積手段 3 0 5に蓄積された分類定義と、 データベース 3 0 4に蓄積されたレコ ードに従って、 分類に該当するレコード群を分類する。 図 6は、 分類該当レコー ド特定手段 5 0 2の分類結果を示す図であり、 分類の列 6 0 1と対応レコード軍 の列 6 0 2より構成される。 例えば、 分類が 1と 2の 2種類であり、 それぞれの 分類に対応するレコードのキーが例えば、 1、 2、 4、 5と、 3、 6、 7である場 合、 図 6のように、 分類 1と分類 2に対するレコードの対応表を中間的な分類結 果として作成し、この対応表から即座に対応するレコード群を知ることができる。 分類集計手段 3 1 4は、 データベース 3 0 4に蓄積されたレコードを、 分類し て集計処理をおこなうものである。  The definition means 501 for specifying the record corresponding to the classification receives a definition for specifying the record corresponding to the classification in accordance with the instruction input from the input device 302. The classification applicable record specifying means 5002 is a definition for specifying the classification applicable record input to the classification applicable record 501, and is stored in the classification definition accumulating means 3005. According to the classification definition and the records stored in the database 304, the records corresponding to the classification are classified. FIG. 6 is a diagram showing the classification result of the classification corresponding record identification means 502, which is composed of a classification column 6001 and a corresponding record military column 6002. For example, if there are two types of classifications, 1 and 2, and the keys of the records corresponding to each classification are 1, 2, 4, 5 and 3, 6, 7, for example, as shown in Figure 6, A record correspondence table for Class 1 and Class 2 can be created as an intermediate classification result, and the corresponding record group can be immediately known from this correspondence table. The classifying and totaling means 314 classifies the records stored in the database 304 and performs a totalizing process.
分類集計手段 3 1 4は、 分類指示手段 3 1 3から指定される分類定義蓄積手段 3 0 5内に蓄積された分類定義と、 分類該当レコード特定手段 5 0 2から出力さ れる、 図 6に示されたような、 分類 1と分類 2に対するレコードの対応表のよう な分類結果から、 分類該当レコードを特定して、 データベース 3 0 4に蓄積され た各分類に該当するレコードをデータベースから順次取り出し、 該当する分類に 分けて集計処理する。 例えば、 製品ラインアップなどの目的に応じてそれぞれ適 用期間に分けて分類を定義して登録することもできる。 分類該当レコード特定手 段 5 0 2による中間的な分類結果は、分類定義に応じて霜しておく必要がある。 そして、 分類集計手段 3 1 4により、 分類され且つ集計された結果が、 表示装置 3 0 3に表示される。 このように、 分類集計手段 3 1 4は、 分類該当レコード特 定手段 5 0 2を利用することで、 分類に該当するレコード群を対象とした集計処 理を容易におこなうことができる。 The classification / aggregation means 3 14 includes the classification definition stored in the classification definition storage means 3 05 specified by the classification instruction means 3 13 and the classification corresponding record identification means 5 0 As shown, the correspondence table of records for category 1 and category 2 From the result of the classification, records corresponding to the classification are specified, records corresponding to the respective classifications stored in the database 304 are sequentially retrieved from the database, and the records are divided into the corresponding classifications and tabulated. For example, it is also possible to define and register classifications for each application period according to the purpose such as product lineup. Intermediate classification results by the classification applicable record identification means 502 need to be frosted according to the classification definition. Then, the classified and totaled results are displayed on the display device 303 by the classification and totaling means 3 14. As described above, the classification and aggregation means 3 14 can easily perform the aggregation processing for the record group corresponding to the classification by using the classification corresponding record specifying means 502.
このように、 従来の方式と異なり、 分類該当レコード特定手段 5 0 2の分類結 果を利用することにより、 各レコードに単純な規則を適用するだけでは分類をす ることができない複数のレコードにまたがる複雑な分類による集計処理が可能と なる。  In this way, unlike the conventional method, by using the classification result of the classification applicable record identification means 502, it is possible to classify a plurality of records that cannot be classified only by applying a simple rule to each record. Aggregation processing based on a complicated classification that spans becomes possible.
また、 分類該当レコードを特定するための定義手段 5 0 1により定義された分 類該当レコードを特定するための定義として、 データマイニングを行った結果の 一部、 または、 全部を利用することができる。 図 7は、 データマイニングの結果 を利用した分類定義の例を示す。 データマイニングの結果については、 各レコー ドだけを見ても、 そのレコードがどの分類定義に合致するかを判断することがで きない。たとえば、図 7に示 1 "^には、 「商品 Aを購入した後で商品 Bを購入し た顧客」 ( 7 0 1 ) に分類されるかを判定するためには、単一のレコードに、商品 Aが記載されていることだけでは、 必要条件にしかならない。 このため、 各レコ 一ドがどの分類定義に該当するかどうかは、 分類該当レコード特定手段 5 0 2を 利用することにより、 決定することができる。  In addition, a part or all of the results of data mining can be used as a definition for specifying the applicable records defined by the definition means 501 for identifying applicable records. . Figure 7 shows an example of a classification definition using the results of data mining. Regarding the results of data mining, it is not possible to determine which classification definition the record matches by looking at each record alone. For example, as shown in Figure 7, 1 "^ contains a single record to determine if it is classified as" customer who purchased product A and then purchased product B "(7001). The fact that product A is listed is only a necessary condition. For this reason, it is possible to determine which classification definition each record corresponds to by using the classification applicable record specifying means 502.
さらに、 分類該当レコード特定手段 5 0 2は、 レコードの集計の際に、 対応レ コードを求める方法だけでなく、 あらかじめ対応するレコードを中間的に求めて おき、 集計の際に中間的な分類結果を利用することができる。 図 8は、 データマ イニングの結果を利用した分類定義に対応した分類該当レコード特定手段の分類 結果の例を示し、 分類の列 8 0 1と対応レコード群の列 8 0 2より構成される。 例えば、 「商品 Aと商品 Bを購入した顧客のレコード」 (8 0 3 ) について、 あら かじめそのキー (ユニークにレコードが特定できるフィールド) を、 図 7に示す ように、 中間結果として保存しておけばよい。 Further, the classification applicable record identification means 502 not only obtains the corresponding records at the time of counting the records, but also obtains the corresponding records in advance in the middle, and calculates the intermediate classification results at the time of counting. Can be used. FIG. 8 shows an example of the classification result of the classification applicable record specifying means corresponding to the classification definition using the result of the data mining, and is composed of a column 8001 of the classification and a column 8002 of the corresponding record group. For example, “Record of customer who purchased product A and product B” (8 03) The key (a field that uniquely identifies the record) can be stored as an intermediate result as shown in Fig. 7.
そして、 分類定義 「商品 Aと商品 Bを購入した顧客」 について集計処理する際 には、 中間的な分類結果を参照して、 対応するレコードを取り出す。 中間的な分 類結果を実現するには、 リスト、 ハッシュなど、既存の方法を用いることができ る。 また、 中間的な分類結果を、 主記憶または二次記憶装置内に格納することが できる。  Then, when performing the aggregation process for the classification definition “customer who purchased product A and product B”, the corresponding record is extracted by referring to the intermediate classification result. Existing methods such as lists and hashes can be used to achieve intermediate classification results. Also, intermediate classification results can be stored in main storage or secondary storage.
また、 データベース 3 0 4には、 その特性上、 分類の対象となるデータに対し てレコードの追加が、 定常的に行われる。 このように、 分類の刘靠となるデータ にレコードが される i には、 一度生成した分類該当レコード特定手段 5 0 2の分類結果を用いると、 分類該当レコード特定手段 5 0 2の分類結果に含まれ るレコードを特定する上記のような対応表を生成した後に ii¾lされたレコードが、 集計処理の対象に含まれないことになる。 このような問題を解決するために、一 定時間間隔で、 上記の分類該当レコード特定手段 5 0 2を再度実行して、 分類に 含まれるレコードを特定する対応表を更新しておくことにより、 最新のデータに 対しても高速に集計を行うことができる。  Also, in the database 304, records are constantly added to the data to be classified due to its characteristics. As described above, when the record is recorded in the data that is the data of the classification, the classification result of the classification applicable record specifying means 502 once generated is used as the classification result of the classification applicable record specifying means 502. The records that were ii す る l generated after generating the above correspondence table that specifies the records to be included will not be included in the aggregation process. In order to solve such a problem, by executing the above-described classification applicable record specifying means 502 again at regular time intervals, the correspondence table for specifying the records included in the classification is updated. Aggregation can be performed quickly even for the latest data.
更に、 データマイニングの 1手法であるクラスタリングでは、 傾向の近いレコ ードを、 指定された個数のグループにまとめる処理をおこなう。 この時に、 結果 のクラスタ番号 (1から指定された番号) を自動的に登録して分類定義として利 用できれば、 ユーザが、 分類該当レユードを特定する定義手段 5 0 1へ、 入力装 置 3 0 2を介して、 登録を指示する必要がなくなる。 つまり、 表形式データに対 してデータマイニングを実行した には、 その結果を分類該当レコードを特定 する定義として、 分類定義蓄積手段 3 0 5内に、 自動的に登録し、 元の表形式デ ータを該当する分類定義に従って集計することを可能とすることができる。  Furthermore, in clustering, one of the methods of data mining, records with a similar tendency are grouped into a specified number of groups. At this time, if the resulting cluster number (the number specified from 1) can be automatically registered and used as a classification definition, the user can input the definition device 501 to the definition means 501 for specifying the classification applicable level. There is no need to indicate registration via 2. In other words, when data mining is performed on tabular data, the results are automatically registered in the classification definition storage means 305 as a definition for identifying the record corresponding to the classification, and the original table format data is stored. Data can be aggregated according to the relevant classification definition.
図 9は、 クラスタリングによる分類定義の例を示す。 例えば、 図 4に示した例 では、 図 9の分類定義が自動的に形成され、 そして、 分類定義蓄積手段 3 0 5内 に蓄積される。  Figure 9 shows an example of a classification definition by clustering. For example, in the example shown in FIG. 4, the classification definition of FIG. 9 is automatically formed, and is stored in the classification definition storing means 300.
更に、 データマイニングの結果が時間によって変化する:^には、 時間の変化 に従つて各データマイユングの結果を保持しておき、 その結果に従つて分類定義 として利用することができる。 例えば、 2 0 0 0年 6月にはランクが 5であった 力 S、 2 0 0 0年 7月にはランクが 4になった顧客の には、 2 0 0 0年 6月の 集計ではランク 5に分類して集計し、 2 0 0 0年 7月にはランク 4として集計す ることができる。 Furthermore, the result of data mining changes with time: ^ holds the result of each data mining according to the change of time, and classifies according to the result. Can be used as For example, for a force S whose rank was 5 in June 2000 and a customer whose rank was 4 in July 2000, They can be categorized into rank 5 and tabulated, and in July 2000 they can be tabulated as rank 4.
更に、 分類定義レコード特定手段 5 0 2に加えて、 データマイニングも定期的 に実行して、 各分類定義自体と、 該当するレコードの中間的な分類定義を最新の ものに更新して利用することができる。集計を実行する時間自体は変わらなレ、が、 これによつて、 最新の分類に基づいた結果を得ることができる。  Furthermore, in addition to the classification definition record specifying means 502, data mining is also performed periodically, and each classification definition and the intermediate classification definition of the corresponding record are updated and used. Can be. Although the time for performing the aggregation itself is not changed, it is possible to obtain a result based on the latest classification.
本発明は、 コンピュータに機能させるためのプログラムを格納したコンビユー タ読取可能な記録媒体として搬されることが可能である。  The present invention can be carried as a computer-readable recording medium storing a program for causing a computer to function.
次に、 本発明の動作を、 フローチャートを用いてい詳しく説明する。  Next, the operation of the present invention will be described in detail using a flowchart.
図 1 0は、 本発明の実施例の動作のフローチャートを示す図である。 先ず最初 に、全体の動作を、図 1 0のフローチャートに従って説明する。図 1 0において、 全体の動作は、 ステップ S 1で開始する。  FIG. 10 is a diagram showing a flowchart of the operation of the embodiment of the present invention. First, the overall operation will be described with reference to the flowchart of FIG. In FIG. 10, the whole operation starts in step S1.
次に、 ステップ S 2では、 図 5の入力装置 3 0 2を介してデータ登録手段 3 1 1に入力されるデータを、 データベース 3 0 4に登録する。 これは、 既に図 1に 示したように、 トランザクション毎に顧客、 商品、 売上高などをレコードに格納 して登録する。  Next, in step S2, data input to the data registration means 311 via the input device 302 of FIG. 5 is registered in the database 304. In this method, as shown in Fig. 1, customers, products, sales, etc. are stored in records and registered for each transaction.
次にステップ S 3では、 図 5の入力装置 2 0 2を介して、 分類定義手段 3 1 1 及び分類定義レコードを特定する定義手段 5 0 1へ、 分類定義を指定し、 分類定 義蓄積手段 3 0 5に蓄積する。 このステップ S 3では、 従来の単一レコードで分 類することができないデータマイニングの結果のような、 な規則に基づいた 分類定義をおこなうことを特徴とする。  Next, in step S3, the classification definition is designated to the classification definition means 311 and the definition means 501 for specifying the classification definition record via the input device 202 of FIG. 5, and the classification definition storage means Store in 305. In step S3, a classification is defined based on a certain rule, such as a data mining result that cannot be classified by a conventional single record.
次に、 ステップ S 4では、 上述のステップ S 2と S 3で入力したデータと分類 定義に基づいて、 分類と集計を行う。 これは、 目的の指定に対応して、 該当する 分類定義辞書を図 5の分類定義蓄積手段 3 0 5力ら取り出し、 当該分類定義の分 類規則に従レヽ、 分類該当レコードによって対応するレコードを取り出して集計す る。  Next, in step S4, classification and totalization are performed based on the data and the classification definition input in steps S2 and S3 described above. This means that, in accordance with the specification of the purpose, the relevant classification definition dictionary is extracted from the classification definition storage means 3 05 in FIG. 5, and the corresponding record is determined by the classification applicable record according to the classification rule of the relevant classification definition. Take out and count.
'そして、 ステップ S 5で終了する。 以上によって、 データベース 3 0 4にデータを登録して蓄積し、 複雑な規則に 基づいた分類定義を作成して分類定義蓄積手段 3 0 5に登録しておき、 図 5に示 す分類該当レコード特定手段 5 0 2を利用して、 分類に合致したレコードについ て集計することにより、 複雑な規則に基づレヽた分類定義によつて集計することが 可食 gとなる。 'And end with step S5. As described above, the data is registered and stored in the database 304, a classification definition based on a complicated rule is created and registered in the classification definition storage means 300, and the record corresponding to the classification shown in FIG. 5 is identified. By using the means 502 to total the records that match the classification, it is edible g to total according to the classification definition based on complicated rules.
次に、 ステップ S 2、 S 3及び S 4について、 以下に詳しく説明する。 , 図 1 1は、 ステップ S 2により登録される、 本発明の分析対象データである表 形式データの例を示す図であり、 参照番号 1 1 0 1の取引番号、 参照番号 1 1 0 Next, steps S2, S3 and S4 will be described in detail below. FIG. 11 is a diagram showing an example of tabular data, which is the data to be analyzed according to the present invention, registered in step S2.
2のレコード番号、 参照番号 1 1 0 3の売り上げ日、 参照番号 1 1 0 4の顧客番 号、 参照番号 1 1 0 5の商品、 参照番号 1 1 0 6の個数及ぴ、 参照番号 1 1 0 7 の売上金額の縦の列が各フィールドを構成する。 この表形式データの最初の行の データは、 レコード 1 1 0 8を構成する。 製品を売り上げたときに取引番号を付 与して下記の、 Record number 2, reference 1 1 0 3 sales date, reference 1 1 0 4 customer number, reference 1 1 0 5 merchandise, reference 1 1 0 6 quantity and reference number 1 1 The vertical column of the sales amount of 07 constitutes each field. The data in the first row of this tabular data constitutes record 111. Give a transaction number when you sell the product and
取引番号: 0 0 0 0 1、 Transaction number: 0 0 0 0 1,
レコード番号: 1、 Record number: 1,
売上曰: 2 0 0 2 / 0 6 / 3 0、 Sales say: 2 0 0 2/0 6/3 0,
顧^ 号: 1 0 0 0 1、 Customer number: 1 0 0 0 1,
商品: A、 Product: A,
個数: 1、 Quantity: 1,
売上高': 3 0 0 0円、 Sales': ¥ 3,000
の項目をレコード 1 1 0 8に格納して登録 (蓄積) したものである。 図 1 0のス テツプ S 2では、 このようなレコードにデータが構成されて、 データベース 3 0Are stored in record 111 and registered (accumulated). In step S2 in Fig. 10, data is organized in such a record, and the database 30
4に登録される。 Registered in 4.
以上のように、 売上日に対応づけて取引番号、 売上日、 顧客番号、 個数、 売上 高などをレコードにして登録して蓄積することにより、後述する分類定義に従い、 分析目的に合致した分類 ^Iijを使用して集計することが可能となる。  As described above, the transaction number, the sales date, the customer number, the quantity, the sales, etc. are registered and stored in a record in association with the sales date, so that the classification that matches the analysis purpose according to the classification definition described later ^ Aggregation can be performed using Iij.
次に、 ステップ S 3の分類定義の指定について、 図 1 2を用いて説明する。 図 1 2は、本発明の定義情報の作成及ぴ登録処理のフローチャートを示す図である。 定義情報の作成及び登録処理は、 ステップ S 1 2 0 1で開合する。 次に、 ステップ S I 2 0 2では、 図 5の分類集計手段 3 1 4により、 対象とな るデータにデータマイニングのような複雑な規則による分類を実行する。 Next, the specification of the classification definition in step S3 will be described with reference to FIGS. FIG. 12 is a diagram showing a flowchart of the definition information creation and registration processing of the present invention. The process of creating and registering the definition information is started in step S12201. Next, in step SI202, classification is performed on the target data by a complicated rule such as data mining by the classification and aggregation means 314 in FIG.
次に、 S 1 2 0 3では、 図 5の分類集計手段 3 1 4により、 データマイニング の結果を表示する。 例えば、 図 1 1のデータを対象に相関分析を適用して以下の 2つのルールが得られたとする。  Next, in S123, the result of data mining is displayed by the classification and aggregation means 314 of FIG. For example, suppose that the following two rules were obtained by applying the correlation analysis to the data in Fig. 11.
ルール 1 ) A— > B (Aと Bを一緒に購入) Rule 1) A—> B (buy A and B together)
ルール 2 ) A- > C (Aと Cを一緒に購入) Rule 2) A-> C (A and C are purchased together)
次に、 ステップ S 1 2 0 4では、 利用者が、 入力装置 3 0 2を介して、 図 5の 分類該当レコードを特定する定義手段 5 0 1に対して、 データマイニングの結果 をどのように分類として用いるかを定義する。 上記のようなルールが得られた場 合には、例えば、ルール 1とルール 2の両方を分類として定義する。 これにより、 図 1 1のデータに基づいて、 図 1 3のような分類定義を作成することが可能とな る。 図 1 3は、 相関分析による分類定義の実施例を示す図であり、 2つの分類 1 3 0 1と 1 3 0 2を有する。  Next, in step S 1 204, how the user uses the input device 302 to define the data Define whether to use as a classification. If the above rules are obtained, for example, both rules 1 and 2 are defined as classifications. As a result, a classification definition as shown in FIG. 13 can be created based on the data in FIG. FIG. 13 is a diagram showing an embodiment of the classification definition by the correlation analysis, and has two classifications 1301 and 1302.
次にステップ S 1 2 0 5で、 このようにして得られた分類定義を、 図 5の分類 定義蓄積手段 3 0 5に蓄積する。  Next, in step S125, the classification definition thus obtained is stored in the classification definition storage means 305 of FIG.
そして、 ステップ S 1 2 0 6で、 定義情報の作成及び登録処理は終了する。 次に、 図 1 0のステップ S 4の分類と集計について説明する。  Then, in step S122, the definition information creation and registration process ends. Next, the classification and tabulation in step S4 in FIG. 10 will be described.
図 1 4は、 本発明の分類及び集計処理のフローチャートを示す図である。 そし て、 図 1 5は、 本発明の集計処理の指定の実施例を示す図である。  FIG. 14 is a diagram showing a flowchart of the classification and aggregation processing of the present invention. FIG. 15 is a diagram showing an example of the designation of the tallying process according to the present invention.
図 1 4においては、 本発明の分類及び集計処理は、 ステップ S 1 4 0 1で、 開 始する。  In FIG. 14, the classification and aggregation processing of the present invention is started in step S1401.
次にステップ S 1 4 0 2では、 図 5の分類集計手段 3 1 4を介して、 分類定義 及びデータを基に選択画面を表示し、 図 1 5に示すような分類およびデータを表 示する。 図 1 5は、 分類として参照番号 1 5 0 1の分類と、 そのデータとして参 照番号 1 5 0 2のデータと、 選択を指示する命令を発する OKポタン 1 5 0 3を 表示する。 利用者は、 入力装置 3 0 2を介して、 分析に合わせて分類とデータを 選択する。 この には、 複数の分類を選択することも可能である。  Next, in step S1402, a selection screen is displayed based on the classification definition and the data via the classification and aggregation means 314 in FIG. 5, and the classification and data as shown in FIG. 15 are displayed. . FIG. 15 shows the classification of reference number 1501 as the classification, the data of reference number 1502 as its data, and the OK button 1503 that issues an instruction to select. The user selects a classification and data through the input device 302 in accordance with the analysis. It is possible to select multiple categories for this.
次に、 ステップ S 1 4 0 3では、 図 5の分類レコード特定手段 5 0 2により、 指定された分類に該当するレコードを得る。 レコードを得る^ \ 指定にしたが つて集計時に処理する と、 あらかじめ該当レコードを生成しておく方法の 2 通りがある。 図 1 3の分類定義に対して、 対応するレコード群を求めた例を図 1 6に示す。 図 1 6は、 データマイニングによる分類定義に対応する分類該当レコ —ド特定手段 5 0 2の 亍結果を示す図であり、分類列 1 6 0 1と対応レコード 列 1 6 0 2より構成される。 図 5の分類レコード特定手段 5 0 2が、 中間的な分 類結果として図 1 6の表を作成する際には、 分類毎に対応レコード群を表を用い て保持することで表現できる。 もし、 分類の数が多く、 その対応レーコードの探 索に時間を要する場合には、 ハッシュ表に登録することで分類の検索にかかる時 間を短縮することができる。 Next, in step S1403, the classification record specifying means 502 of FIG. Get a record corresponding to the specified classification. Obtain a record ^ \ When processing at the time of aggregation according to the specification, there are two ways to generate the record in advance. Figure 16 shows an example of finding the corresponding record group for the classification definition in Figure 13. Fig. 16 is a diagram showing the results of classification corresponding record identification means 502 corresponding to the classification definition by data mining, which is composed of a classification column 1601 and a corresponding record sequence 1602. . When the classification record specifying means 502 of FIG. 5 creates the table of FIG. 16 as an intermediate classification result, it can be represented by holding the corresponding record group for each classification using the table. If the number of classifications is large and it takes time to search for the corresponding record, the time required to search for the classification can be reduced by registering it in the hash table.
次に、ステップ S 1 4 0 4では、選択された分類に対応するレコードを調べる。 調べた結果に従って、 該当する分類について分類及び集計を行う。 図 1 7は、 デ 一タマイニングによる分類定義に対応する集計処理の 結果の実施例を示す図 であり、 分類列 1 7 0 1と平均売上高列 1 7 0 1より構成される。 図 1 7に示す 例では、 図 1 3の分類定義に該当する顧客に関して、 平均の売上高を集計したも のである。  Next, in step S144, a record corresponding to the selected classification is examined. According to the result of the examination, the relevant classification is classified and tabulated. FIG. 17 is a diagram showing an example of the result of the aggregation process corresponding to the classification definition by data mining, which is composed of a classification column 1701 and an average sales column 1701. In the example shown in Figure 17, the average sales are aggregated for the customers that fall under the classification definition in Figure 13.
以上で説明したように、あるレコードが、「商品 Aを購入した後で商品 Bを購入 した顧客」 という分類に対応するかどうかは、 レコード単体へ、 単に規則を適用 したのでは、 正確に識別することができない。 し;^し、 本発明によって、 このよ うな複数レコードにまたがった規則に基づく分類を利用した集計処理が可能とな る。  As explained above, whether a record corresponds to the classification of “customer who purchased product B after purchasing product A” can be accurately identified by simply applying the rule to the record alone. Can not do it. ^; According to the present invention, it is possible to perform a totaling process using such a classification based on rules covering a plurality of records.

Claims

請 求 の 範 囲 The scope of the claims
1. 表形式に格納された複数のデータより構成される複数のレコードを、 所定 の規則に基づいて集計する集計システムであって、  1. An aggregation system that aggregates a plurality of records composed of a plurality of data stored in a table format based on predetermined rules,
表形式に格納された複数のレコードにわたる分類該当レコードを特定する定義 を行う手段と、  Means for defining a record corresponding to a category that spans a plurality of records stored in a table format;
複数のレコードにわたる分類該当レコードを特定する手段と、  Means for identifying records that fall into multiple categories,
分類集計手段とを有し、  Classification and aggregation means,
tfilS分類集計手段は、 膽己表形式に格納された複数のデータより構成される前 記複数のレコードを、 廳己分類該当レコードを特定する手段の分類結果を参照し て、 前記複数のレコードにわたる分類該当レコードを特定する定義を行う手段の 定義する分類該当レコードを特定する定義に従って集計することを特徴とする情 報集計システム。  The tfilS classification / aggregation means refers to the classification result of the means for identifying the record corresponding to the cafeteria classification by referring to the plurality of records composed of a plurality of data stored in the form of a frustration table, and An information totaling system, characterized in that data is totaled in accordance with a definition for specifying a record corresponding to a category, which is defined by a means for defining a record applicable to a class.
2. 嫌己分類該当レコードを特定する定義は、 tfna表形式に格納された複数の データより構成される複数のレコードに対してデータマイニングを適用した分類 結果の全部あるいは一部を含むことを特徴とする請求項 1記載の情報集計システ ム。 2. The definition of identifying records that are subject to terrible classification includes all or part of the classification results obtained by applying data mining to multiple records composed of multiple data stored in tfna table format. The information aggregation system according to claim 1, wherein
3. Ι ΐΒ分類該当レコードを特定する手段は ΙϋΐΒ集計手段による集計前に、 前 記分類該当レコードの分類結果を生成し、 嫌己集計手段は、 嫌己分類該当レコー ドの分類結果を参照して、 fit己複数のレコードにわたる分類該当レコードを特定 する定義を行う手段の定義する分類該当レコードを特定する定義に従って集計す ることを特徴とする請求項 1或は 2記載の情報活用システム。 3. 手段 手段 Means to identify the applicable records are 前 Generate the classification result of the applicable records before aggregation by the aggregation means. 3. The information utilization system according to claim 1 or 2, wherein the data is totaled in accordance with the definition for specifying the classification applicable record defined by means for defining the classification applicable record covering a plurality of records.
4. 嫌己分類該当レコードを特定する定義は、 所定の期間毎に、 更新されるこ とを特徴とする請求項 1、 または、 請求項 2記載の情報活用システム。 4. The information utilization system according to claim 1 or claim 2, wherein a definition for identifying a record with a disgust category is updated at predetermined intervals.
5. 嫌己分類該当レコードを特定する手段は、 所定の期間毎に、 分類該当レコ 一ドを特定する定義に従って、 嫌己分類該当レコードの分類結果を更新すること を特徴とする請求項 3に記載の情報活用システム。 5. The means to identify the record that corresponds to the terrible category is, for each predetermined period, 4. The information utilization system according to claim 3, wherein the classification result of the record that corresponds to the disgusting classification is updated in accordance with the definition that specifies the password.
6 . ftiia分類該当レコードを特定する定義は、 分類定義として自動的に登録さ れることを特徴とする請求項 2記載の情報活用システム。 6. The information utilization system according to claim 2, wherein the definition for specifying the record corresponding to the ftiia classification is automatically registered as the classification definition.
7. ffif己データマイニングの分類結果が、 時間によって変化する場合には、 各 ttrf己データマイユングの分類結果を保持することを特徴とする請求項 2記載の情 報活用システム。 7. The information utilization system according to claim 2, wherein the classification result of each ttrf own data mining is retained when the classification result of ffif own data mining changes with time.
8. 所定の時間間隔で ttilSデータマイニングを実行することを特徴とする請求 項 2記載の情報活用システム。 8. The information utilization system according to claim 2, wherein ttilS data mining is executed at predetermined time intervals.
9. 表形式に格納された複数のデータより構成される複数のレコードを、 所定 の規則に基づレヽて集計する情報の集計方法であって、 9. A method for summarizing information in which a plurality of records composed of a plurality of data stored in a table format are tabulated in accordance with a predetermined rule,
表形式に格納された複数のレコードにわたる分類該当レコードを特定する定義 を行うステップと、  A step of defining a record that categorizes a plurality of records stored in a table format, and
複数のレコードにわたる分類該当レコードを特定するステップと、  Identifying records that fall into a category that spans multiple records;
分類集計ステップとを有し、  Classification and aggregation step,
ΙϋΐΒ分類集計ステップは、 ΙίίΐΒ表形式に格納された複数のデータより構成され る歸己複数のレコードを、 ttrt己分類該当レコードを特定する手段の分類結果を参 照して、 l己複数のレコードにわたる分類該当レコードを特定する定義を行うス テップの定義する分類該当レコードを特定する定義に従って集計することを特徴 とする情報の集計方法。  ΙϋΐΒ The classification and aggregation step is as follows: 歸 Return multiple records composed of multiple data stored in a table format, refer to the classification result of the A method for summarizing information characterized by counting according to the definition for identifying records that fall into categories that define the records that fall into categories.
1 0 · ΙΐίΙΒ分類該当レコードを特定する定義は、 膽己表形式に格納された複数 のデータより構成される複数のレコードに対してデータマイニングを適用した分 類結果の全部あるレ、は一部を含むことを特徴とする請求項 9記載の情報の集計方 法。 1 0 · 定義 The definition to identify the applicable records is that some of the classification results obtained by applying data mining to multiple records composed of multiple data stored in 10. The method for summarizing information according to claim 9, comprising:
1 1. ttit己分類該当レコードを特定するステップは、 ΙίίϊΒ集計手段による集計 前に前記分類該当レコードの分類結果を生成し、 廳己集計手段は、 前記分類該当 レコードの分類結果を参照して、 前記複数のレコードにわたる分類該当レコード を特定する定義を行うステップの定義する分類該当レコードを特定する定義に従 つて集計することを特徴とする請求項 9或は 1 0記載の情報の集計方法。 1 1. The step of identifying a record corresponding to the ttit own classification includes: ΙίίϊΒ generating a classification result of the record corresponding to the classification before the aggregation by the aggregation means; 10. The method according to claim 9, wherein the step of defining a record corresponding to the plurality of records is performed in accordance with the definition for specifying the record corresponding to the category.
1 2. 編己分類該当レコードを特定する定義は、所定の期間毎に、 更新される ことを特徴とする請求項 9或は 1 0記載の情報の集計方法。 12. The method of summarizing information according to claim 9 or 10, wherein the definition for specifying a record corresponding to the self-assembly classification is updated at predetermined intervals.
1 3. tfriH分類該当レコードを特定するステップは、 所定の期間毎に、 分類該 当レコードを特定するステップに従って、 前記分類該当レコードの分類結果を更 新することを特徴とする請求項 1 1に記載の情報の集計方法。 13. The method according to claim 11, wherein, in the step of specifying the tfriH classification applicable record, the classification result of the classification applicable record is updated in accordance with the step of specifying the classification applicable record every predetermined period. How to summarize the information described.
1 4. 分類該当レコードを特定するステップは、 分類定義として自動的に 登録されることを特徴とする請求項 1 0記載の情報の集計方法。 10. The method of summarizing information according to claim 10, wherein the step of specifying a record corresponding to the classification is automatically registered as a classification definition.
1 5. 前記データマイニングの分類結果が、 時間によって変化する場合には、 各嫌己データマイニングの分類結果を保持することを特徴とする請求項 1 0記載 の情報の集計方法。 10. The method according to claim 10, wherein when the classification result of the data mining changes with time, the classification result of each disgust data mining is held.
1 6. 所定の時間間隔で藤己データマイニングを実行することを特徴とする請 求項 1 0記載の情報の集計方法。 1 7. 請求項 9に記載の方法をコンピュータに実行させるためのプログラムを 格納したコンピュータ読取可能な記録媒体。 1 6. A method for summarizing information according to claim 10, wherein the Fujimi data mining is performed at predetermined time intervals. 1 7. A computer-readable recording medium storing a program for causing a computer to execute the method according to claim 9.
PCT/JP2002/012789 2002-12-05 2002-12-05 Statistical system and statistical method based on categorization definition for a plurality of records WO2004051514A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2002/012789 WO2004051514A1 (en) 2002-12-05 2002-12-05 Statistical system and statistical method based on categorization definition for a plurality of records
JP2004556815A JPWO2004051514A1 (en) 2002-12-05 2002-12-05 Aggregation system and aggregation method based on classification definition across multiple records
US11/037,036 US20050125433A1 (en) 2002-12-05 2005-01-19 Data summation system and method based on classification definition covering plural records

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2002/012789 WO2004051514A1 (en) 2002-12-05 2002-12-05 Statistical system and statistical method based on categorization definition for a plurality of records

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/037,036 Continuation US20050125433A1 (en) 2002-12-05 2005-01-19 Data summation system and method based on classification definition covering plural records

Publications (1)

Publication Number Publication Date
WO2004051514A1 true WO2004051514A1 (en) 2004-06-17

Family

ID=32449010

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/012789 WO2004051514A1 (en) 2002-12-05 2002-12-05 Statistical system and statistical method based on categorization definition for a plurality of records

Country Status (2)

Country Link
JP (1) JPWO2004051514A1 (en)
WO (1) WO2004051514A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075945A (en) * 1999-09-06 2001-03-23 Fujitsu Ltd Statistical processor and recording medium

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075945A (en) * 1999-09-06 2001-03-23 Fujitsu Ltd Statistical processor and recording medium

Also Published As

Publication number Publication date
JPWO2004051514A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
JP3049636B2 (en) Data analysis method
KR100892851B1 (en) Keyword recommending method and system thereof
US20080091508A1 (en) Multidimensional personal behavioral tomography
JPWO2006115260A1 (en) Information analysis report automatic creation device, information analysis report automatic creation program, and information analysis report automatic creation method
TWI645346B (en) Commodity code analysis system and program analysis program
US11921737B2 (en) ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system
Kabasakal Customer segmentation based on recency frequency monetary model: A case study in E-retailing
JP2002189597A (en) Customer data analysis method
CN111695023A (en) Information recommendation method and device, storage medium and equipment
CN114510735B (en) Role management-based intelligent shared financial management method and platform
US20190266618A1 (en) Data management apparatus and data management system
Apte et al. Segmentation-based modeling for advanced targeted marketing
Bora Data mining and ware housing
JP2022548435A (en) A Product Recommendation System Based on Practical High-utility Negative Array Rule Mining and Its Operation Method
CN115860787A (en) Incremental consumer portrait drawing method
JP6121841B2 (en) Product purchase information creation support system
CN105359172A (en) Calculating a probability of a business being delinquent
JP2019082865A (en) Sales promoting device, sales promoting method and sales promoting program
JP5455978B2 (en) Pattern extraction apparatus and method
JP3208706B2 (en) Information utilization system
US20050125433A1 (en) Data summation system and method based on classification definition covering plural records
JP7011552B2 (en) Ad management system, ad management method, and ad management program
Lu et al. A transaction pattern analysis system based on neural network
WO2004051514A1 (en) Statistical system and statistical method based on categorization definition for a plurality of records
JP6472206B2 (en) Product proposal system, product proposal method, and product proposal program

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

WWE Wipo information: entry into national phase

Ref document number: 2004556815

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11037036

Country of ref document: US