JP2009265905A - Preprocessor using preliminary rule, preprocessing method, information extraction device using the preprocessor and information extraction method - Google Patents

Preprocessor using preliminary rule, preprocessing method, information extraction device using the preprocessor and information extraction method Download PDF

Info

Publication number
JP2009265905A
JP2009265905A JP2008114193A JP2008114193A JP2009265905A JP 2009265905 A JP2009265905 A JP 2009265905A JP 2008114193 A JP2008114193 A JP 2008114193A JP 2008114193 A JP2008114193 A JP 2008114193A JP 2009265905 A JP2009265905 A JP 2009265905A
Authority
JP
Japan
Prior art keywords
rule
database
threshold
recorded
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008114193A
Other languages
Japanese (ja)
Inventor
Kanako Hattori
可奈子 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008114193A priority Critical patent/JP2009265905A/en
Publication of JP2009265905A publication Critical patent/JP2009265905A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To easily and appropriately determine a threshold for converting numerical data into category data. <P>SOLUTION: A preprocessor includes an event group database DB1; a threshold/constraint database DB2; a preliminary knowledge rule database DB3; an optimization parameter database DB4, a threshold optimization means 5; and a threshold parameter database DB6. The threshold optimization means 5 determines the value of threshold variables for categorizing the numerical data in order to satisfy a preliminary rule which a user has in advance. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、膨大な情報をカテゴリ化し、有用な相関ルールを抽出する情報抽出装置に関し、特に、情報をカテゴリ化するための閾値を算出する前処理装置に関する。   The present invention relates to an information extraction device that categorizes a vast amount of information and extracts useful correlation rules, and more particularly to a preprocessing device that calculates a threshold for categorizing information.

技術背景Technical background

近年、センサ及び記憶装置の発達により、様々なイベントデータを蓄積することが可能となった。ここでイベントデータとは、何らかのイベントが発生した時に収集されるデータであり、例えば、店舗内に訪れる全ての顧客の店内での動作を観測して得られる顧客の位置を示す数値データや、顧客の購買ログから得られた購買データをいう。しかし、このように収集され、蓄積されたイベントデータは大量であるため、従来は、これらの大量のイベントデータに対して、相関の高い組み合わせをルールとして抽出し、提示することで、有用なデータを提供している。ここで相関ルールとは、全てのイベントデータに対して同時に現れるアイテムの組み合わせをいい、相関の高いルールとは、全てのイベントデータに対してある一定以上の確率で同時に現れるアイテムの組み合わせをいう。   In recent years, with the development of sensors and storage devices, it has become possible to store various event data. Here, event data is data that is collected when an event occurs. For example, numerical data indicating customer positions obtained by observing operations in the store of all customers visiting the store, or customer data Purchase data obtained from the purchase log. However, since there is a large amount of event data collected and accumulated in this way, conventionally, useful data can be obtained by extracting and presenting highly correlated combinations as rules for these large amounts of event data. Is provided. Here, the correlation rule refers to a combination of items that appear simultaneously with respect to all event data, and a rule with a high correlation refers to a combination of items that appear simultaneously with a certain probability or more with respect to all event data.

これらの相関の高いルールは、データに現れるアイテム間の共起関係のみを表すものであり、必ずしもアイテム間の因果関係が存在するわけではないが、因果関係をもつルールが存在する場合もある。そこで、抽出された複数の相関ルールの中からユーザが因果関係のありそうなルールを選び、別の方法で因果関係があることを調べることで、ユーザの意思決定を助けることができる。例えば、一人の顧客の店舗内の動作データと購買データをイベントとし、店舗内の動作と購入した商品をアイテムと考え、「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」、「ロールケーキ購入」の4つのアイテムが全イベントの10%のイベントに含まれ、かつ「デザート売り場滞在」、「お菓子売り場滞在」、「パン売り場滞在」を含むイベントの90%が「ロールケーキ購入」も同時に含むという結果から、「デザート売り場とお菓子売り場とパン売り場に置いてある商品の区別がうまくいかないため、ロールケーキ購入者は必要以上の時間をかけてロールケーキを探している」といった仮説をユーザがたて、売り場に配置する商品の見直しを行うことなどが考えられる。   These highly correlated rules represent only the co-occurrence relationship between items appearing in the data, and the causal relationship between items does not necessarily exist, but there may be a rule having a causal relationship. Therefore, by selecting a rule that is likely to cause a causal relationship from among the plurality of extracted correlation rules, and checking that the causal relationship exists by another method, it is possible to help the user's decision making. For example, the operation data and purchase data in a store of one customer are taken as events, the operation in the store and the purchased product are considered as items, `` Desert section stay '', `` Desert section stay '', `` Bake section stay '', Four items of “Buy roll cake” are included in 10% of all events, and 90% of events including “Stay in dessert shop”, “Stay in sweet shop”, “Stay in bread shop” are “Roll cake” As a result of including `` purchase '' at the same time, the hypothesis is that roll cake buyers are looking for roll cakes more than necessary because the products in the dessert department, confectionery department, and bread department are not well distinguished. It is conceivable that the user can review the products placed on the sales floor.

このように、大量のデータから有用な相関ルールを抽出するには、観測して得られた数値データをいくつかのカテゴリに分類するといった前処理(カテゴリ化)を行った後に、アイテムの集合である相関ルールの候補を生成し、全イベントに対して相関ルール候補が含まれるかを検索し、それが含まれるイベントの数を数え、それがユーザの指定する割合以上存在するか否かを調べる必要がある。(例えば、特許文献1を参照)。   In this way, in order to extract useful association rules from a large amount of data, after performing preprocessing (categorization) such as categorizing numerical data obtained by observation into several categories, Generate a candidate for a certain correlation rule, search whether all the events include a candidate correlation rule, count the number of events that include it, and check whether it exists at a rate specified by the user or not. There is a need. (For example, see Patent Document 1).

ここで、例えば、顧客の位置を示す位置座標を数値データとして有する場合、この数値データを次のようにしてカテゴリ化している。   Here, for example, when the position coordinates indicating the position of the customer are included as numerical data, the numerical data is categorized as follows.

すなわち、顧客の位置を表すxとyが(1式)と(2式)を満たす場合は「デザート売り場」、(1式)と(4式)を満たす場合は「パン売り場」、(3式)と(4式)を満たす場合は「お菓子売り場」、(2式)と(3式)を満たす場合は「飲料水売り場」と定める。   That is, if the customer's position x and y satisfy (Expression 1) and (Expression 2), “dessert section”, if (1 expression) and (Expression 4) are satisfied, “Bread counter”, (Expression 3) ) And (4 formulas) are defined as “confectionery section”, and (2 formulas) and (3 formulas) are defined as “drinking water section”.

0≦x<10 (1式)
0≦y<10 (2式)
10≦x<20 (3式)
10≦y<20 (4式)
この場合、位置座標(1,1)は「デザート売り場」に、(1,15)という位置座標は「パン売り場」に変換される。
0 ≦ x <10 (1 set)
0 ≦ y <10 (2 formulas)
10 ≦ x <20 (3 formulas)
10 ≦ y <20 (4 formulas)
In this case, the position coordinates (1, 1) are converted to “dessert section”, and the position coordinates (1, 15) are converted to “bread section”.

従来、このように数値データをカテゴリデータに変換するために、ユーザ自らが事前ルールなどを用いて閾値を設定していた。しかし、ユーザが有する事前ルールを用いたとしても明確にカテゴリに分けるための閾値を定めることができない場合が多い。例えば、身長を「高い」、「普通」、「低い」の3つのカテゴリに分けるための閾値を決定する場合であっても、「175cm以上を高い」それとも「174cm以上を高い」のどちらがよいかをユーザが判断することは難しい。このため、従来はユーザがそれぞれの閾値のうちいくつかを変更し、出てきた結果を確認するといった作業を繰り返して、所望の結果を得る必要があった。   Conventionally, in order to convert numerical data into category data in this way, the user himself / herself sets a threshold value using a prior rule or the like. However, there are many cases where it is not possible to define a threshold value for clearly dividing into categories even if a user has prior rules. For example, even when determining threshold values for dividing the height into three categories of “high”, “normal”, and “low”, which is better “higher than 175 cm” or “higher than 174 cm”? It is difficult for the user to judge. For this reason, conventionally, it has been necessary for the user to obtain a desired result by repeating the operation of changing some of the respective threshold values and confirming the output result.

また、間違った閾値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。
特開平11−250084号公報
In addition, when categorization is performed with an incorrect threshold, the quality of the extracted association rule may be affected. For example, by setting a wide fish market area and a narrow meat market area, “fish market” and “pork purchase” may be extracted as correlation rules. An incorrect rule extracted at such a time may confuse the user.
JP-A-11-250084

上述したように、ユーザは、数値データをカテゴリ化する際に設定する閾値変数の値に対して、明確な判断基準を持つことは難しい。従って、ユーザが複数の閾値変数のうちのいくつかを変更し、それによって生成される相関ルールを確認するといった作業を繰り返す必要があるため、効率よく有用な相関ルールを得ることは難しい。   As described above, it is difficult for the user to have a clear criterion for the value of the threshold variable set when categorizing numerical data. Therefore, it is difficult for the user to obtain a useful correlation rule efficiently because it is necessary to repeat the operation of changing some of the plurality of threshold variables and confirming the correlation rule generated thereby.

さらに、間違った閾値変数の値によるカテゴリ化を行った場合、抽出される相関ルールの質に影響を与えることがある。例えば、魚売り場のエリアを広く、肉売り場のエリアを狭く設定することで、「魚売り場」と「豚肉購入」が相関ルールとして抽出される場合が考えられる。このような時に抽出される誤ったルールはユーザをかえって混乱させる場合がある。   Furthermore, when categorization is performed with the wrong threshold variable value, the quality of the extracted association rule may be affected. For example, by setting a wide fish market area and a narrow meat market area, “fish market” and “pork purchase” may be extracted as correlation rules. An incorrect rule extracted at such a time may confuse the user.

本発明の情報抽出装置の前処理装置は、上記の問題に鑑みてなされたものであり、同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータを記録したイベント集合データベースと、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルが記録された閾値・制約データベースと、所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、を具備することを特徴とするものである。   The pre-processing device of the information extraction device of the present invention has been made in view of the above-described problem. Trajectory data having the same ID and categorized category data each having a first label are provided. The recorded event set database, the threshold variable conditions and constraints necessary for categorizing the trajectory data recorded in the event set database, and the trajectory data categorized based on these conditions and constraints A threshold / constraint database in which a second label to be attached is recorded; a prior knowledge rule database in which a combination of the first and second labels co-occurring with a predetermined probability is recorded as a prior rule together with the probability; All the prior rules previously included in the prior knowledge rule database are converted into the event set under the constraints. A threshold value optimization means for calculating the value of the threshold variable so as to be extracted from the database; a threshold value database in which the value of the threshold variable calculated by the threshold value optimization means is recorded; and the threshold value database recorded in the threshold value database. And a display device that displays the value of the threshold variable.

また、本発明の情報抽出装置の前処理方法は、同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータをイベント集合データベースに記録し、このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルを閾値・制約データベースに記録し、所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、この事前知識ルールデータベースから前記事前ルールを抽出し、この抽出された前記事前ルールが有する前記第1のラベルを含むIDが有する前記軌跡データを前記イベント集合データベースから全て抽出し、前記閾値・制約データベースから、前記条件、制約を抽出し、この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法である。   Further, the preprocessing method of the information extraction apparatus of the present invention records trajectory data having the same ID and categorized category data each labeled with a first label in an event set database. Threshold variable conditions and constraints necessary for categorizing the trajectory data recorded in the database, and a second label attached to the trajectory data categorized based on these conditions and constraints are set as threshold values. A combination of the first and second labels that are recorded in a constraint database and co-occur with a predetermined probability is recorded in the prior knowledge rule database as a prior rule together with the probability, and the prior rule is recorded from the prior knowledge rule database. The trajectory data which the ID including the first label of the extracted prior rule is extracted and has Are extracted from the event set database, the conditions and constraints are extracted from the threshold / constraint database, and the threshold variable is set so that the prior rule appears with the highest probability under the extracted constraints. It is a preprocessing method of the information extraction apparatus characterized by calculating the value of.

すなわち、本発明は、予めユーザが有する事前ルールを用いて、特定のアイテム集合と、その集合を含むイベントに含まれる確率が高いアイテムと、これらが少なくとも含まれる確率(共起確率)とを事前ルールとしてデータベースに記録し、この事前ルールが必ず現れるように、数値データをカテゴリ化する際に必要な閾値変数の値を自動的に決定するものである。   That is, the present invention uses a prior rule that a user has in advance to determine in advance a specific item set, an item that has a high probability of being included in an event that includes the set, and a probability (co-occurrence probability) that these are at least included. It is recorded in the database as a rule, and the value of the threshold variable necessary for categorizing numerical data is automatically determined so that this prior rule always appears.

このような本発明によれば、ユーザが閾値変数の値を直接決められない場合でも、数値データをカテゴリ化する際に必要な閾値変数の値を容易かつ適切に決定することができる。   According to the present invention as described above, even when the user cannot directly determine the value of the threshold variable, the value of the threshold variable necessary for categorizing numerical data can be determined easily and appropriately.

以下に、本発明の実施形態を図1〜図15を参照して説明する。 Embodiments of the present invention will be described below with reference to FIGS.

(第1の実施形態)
図1は、本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。
(First embodiment)
FIG. 1 is a block diagram schematically showing a configuration of a preprocessing apparatus using a pre-rule in an embodiment of the present invention.

図1に示すように、本実施形態に係る事前ルールを用いた前処理装置は、イベント集合データベースDB1と、閾値・制約データベースDB2と、事前知識ルールデータベースDB3と、最適化パラメータデータベースDB4と、閾値最適化手段5と、閾値パラメータデータベースDB6と、閾値表示装置7とで構成される。   As shown in FIG. 1, the preprocessing device using the pre-rule according to this embodiment includes an event set database DB1, a threshold / constraint database DB2, a prior knowledge rule database DB3, an optimization parameter database DB4, and a threshold value. The optimization unit 5, the threshold parameter database DB 6, and the threshold display device 7 are configured.

次に、このような事前ルールを用いた前処理装置を構成する各要素について、図2〜図7を参照して説明する。   Next, each element which comprises the pre-processing apparatus using such a prior rule is demonstrated with reference to FIGS.

まず、イベント集合データベースDB1に記録されるデータについて、図2を参照して説明する。   First, data recorded in the event set database DB1 will be described with reference to FIG.

イベント集合データベースDB1には、被観測体のID及び被観測体に関するデータが記憶されている。このうち、被観測体に関するデータは、数値データとカテゴリデータに分類される。数値データとは、例えば、被観測者の体、頭、足、手の位置、速度、加速度、体の向きなどをセンサで観測することで得られる被観測者の動作の計測値、または、年齢、所得などのアンケートなどを用いることによって得られる被観測者の属性値の一部、またはPOS端末などから得られる購入金額、購買点数などである。また、カテゴリデータとは、例えば、性別や職業などのアンケートデータで得られる被観測体の属性値の一部や要望、または、POS端末などから得られる購入した商品などである。ここでは被観測体に関するデータの一例として、数値データが被観測者の体の移動軌跡データであり、カテゴリデータが被観測者の購買データである場合について説明する。   The event set database DB1 stores the ID of the observed object and data related to the observed object. Among these, the data regarding the observed object is classified into numerical data and category data. The numerical data is, for example, a measured value of the motion of the observed person obtained by observing the body, head, foot, hand position, velocity, acceleration, body orientation, etc. of the observed person with a sensor, or age. , A part of the attribute value of the observed person obtained by using a questionnaire such as income, a purchase amount obtained from a POS terminal or the like, the number of points purchased, and the like. The category data is, for example, a part or request of the attribute value of the observed object obtained from questionnaire data such as sex or occupation, or a purchased product obtained from a POS terminal or the like. Here, as an example of data relating to the observed object, a case will be described in which the numerical data is the movement trajectory data of the observed person's body and the category data is the purchase data of the observed person.

図2は、イベント集合データベースDB1に記録されるデータであり、図2Aは数値データを示し、図2Bはカテゴリデータを示している。   FIG. 2 shows data recorded in the event set database DB1, FIG. 2A shows numerical data, and FIG. 2B shows category data.

図2Aに示すように、被観測体の移動軌跡データを記録したテーブルは、複数のレコードからなり、1つのレコードには被観測体のID、データ名、データの種類、観測時間、及び被観測体の体の位置を示すx座標、y座標、z座標が記録されている。図2Aにおいては、被観測体001が、2007年8月1日15時32分00秒にx軸30cm、y軸20cm、z軸170cmの位置にいて、15時32分01秒にはx軸15cm、y軸20cm、z軸170cmの位置にいて、15時32分02秒にはx軸15cm、y軸10cm、z軸170cmの位置にいたことを示している。また、これらのデータの種類が数値であり、データ名が体の位置であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。   As shown in FIG. 2A, the table in which the movement trajectory data of the observation object is recorded includes a plurality of records, and one record includes an observation object ID, a data name, a data type, an observation time, and an observation object. The x-coordinate, y-coordinate, and z-coordinate indicating the position of the body are recorded. In FIG. 2A, the observed object 001 is at the position of the x-axis 30 cm, the y-axis 20 cm, and the z-axis 170 cm at 15:32:00 on August 1, 2007, and at 15:32:01 This indicates that the robot was at a position of 15 cm, a y-axis of 20 cm, and a z-axis of 170 cm, and at 15:32:02 it was at a position of x-axis of 15 cm, y-axis of 10 cm, and z-axis of 170 cm. Further, the type of these data is a numerical value, and the data name indicates the body position. For example, there may be a plurality of tables for each person to be observed, or these may be collectively recorded in one table. Further, the number of records recorded in the table may be singular or plural as shown in the present embodiment.

また、図2Bに示すように、被観測体の購買データを記録したテーブルは、複数のレコードからなり、1つのレコードは被観測体のID、データ名、データの種類、観測時間、購買した商品が記録されている。図2Bにおいては、被観測体001は2007年8月1日15時30分00秒にItem10及びItem21を購入し、被観測体002は2007年8月1日15時10分00秒にItem35を購入し、被観測体003は2007年8月1日15時00分00秒にItem42を購入したことを示している。また、これらのデータの種類はカテゴリデータであり、データ名が購買であることを示している。なお、このテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。   In addition, as shown in FIG. 2B, the table in which the purchase data of the observed object is recorded includes a plurality of records, and one record includes the observed object ID, data name, data type, observation time, purchased product. Is recorded. In FIG. 2B, the observed object 001 purchased Item 10 and Item 21 at 15:30 on August 1, 2007, and the observed object 002 received Item 35 at 15:10:00 on August 1, 2007. The purchased object 003 indicates that Item 42 was purchased on August 1, 2007 at 15:00:00. The type of these data is category data, and the data name indicates purchase. For example, there may be a plurality of tables for each person to be observed, or these may be collectively recorded in one table. Further, the number of records recorded in the table may be singular or plural as shown in the present embodiment.

次に、閾値・制約データベースDB2に記録されるデータについて、図3を参照して説明する。ここでは、イベント集合データベースDB1に記録された数値データである被観測体の位置座標を、商品エリアに分割するというカテゴリ化を行う場合について説明する。   Next, data recorded in the threshold / constraint database DB2 will be described with reference to FIG. Here, a case will be described in which categorization is performed in which the position coordinates of the observed object, which is numerical data recorded in the event set database DB1, are divided into product areas.

図3は、閾値・制約データベースDB2に記録されるデータであり、図3Aは数値データ名と算出すべき閾値変数を示し、図3Bは、カテゴリ化した後に付けるラベルと数値データをカテゴリ化するための条件を示し、図3Cは閾値変数の制約を示している。   FIG. 3 shows data recorded in the threshold / constraint database DB2, FIG. 3A shows numerical data names and threshold variables to be calculated, and FIG. 3B shows categorized labels and numerical data to be categorized. FIG. 3C shows threshold variable constraints.

図3Aに示すように、数値データ名と算出すべき閾値変数を記録したテーブルは、複数のレコードからなり、1つのレコードにはデータ名、閾値変数名が記憶されている。これらの閾値変数名は、ユーザによって指定されるものである。図3Aにおいては、データ名が体の位置であり、この体の位置を示す数値データを商品エリアであるカテゴリに分類するための閾値変数がX1、X2、Y1、Y2、T1であることを示している。なお、このテーブルは、例えば分類する商品エリア毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。   As shown in FIG. 3A, the table in which the numerical data name and the threshold variable to be calculated are composed of a plurality of records, and the data name and the threshold variable name are stored in one record. These threshold variable names are specified by the user. In FIG. 3A, the data name is the position of the body, and the threshold variables for classifying the numerical data indicating the position of the body into the category that is the product area are X1, X2, Y1, Y2, and T1. ing. Note that, for example, a plurality of tables may be provided for each product area to be classified, or as shown in the present embodiment, these tables may be collectively recorded in one table. Further, the number of records recorded in the table may be singular or plural as shown in the present embodiment.

また、図3Bに示すように、数値データをカテゴリ化した後に付与するラベルと数値データをカテゴリ化するための条件を記録したテーブルは、複数のレコードからなり、1つのレコードにはデータ名、数値データをカテゴリ化した後に付与するラベル名、ラベルが付与されるための条件が記録されている。ここで、ラベル名及び数値データをカテゴリ化するための条件は、ユーザによって指定される。図3Bにおいては、被観測体を、例えば「A商品エリア滞在」というカテゴリに分類するための条件を示している。A商品エリア滞在というラベルが与えられ、「A商品エリア滞在」というカテゴリに分類されるためには、数値データの位置座標x、yがそれぞれ(5式)、(6式)を満たさなければならない。   Also, as shown in FIG. 3B, a table in which labels given after categorizing numerical data and conditions for categorizing the numerical data are composed of a plurality of records, and one record includes a data name, a numerical value The label name given after categorizing the data and the conditions for giving the label are recorded. Here, the conditions for categorizing the label name and numerical data are specified by the user. FIG. 3B shows a condition for classifying the observed object into a category of “A product area stay”, for example. In order to be given the label “A product area stay” and be classified into the category “A product area stay”, the position coordinates x and y of the numerical data must satisfy (Equation 5) and (Equation 6), respectively. .

X1<=x<X2 (5式)
Y1<=y<Y2 (6式)
さらに、(5式)(6式)の条件で分類される「A商品エリア滞在」なるカテゴリに含まれる時間を示すtは、(7式)を満たさなければならない。
X1 <= x <X2 (5 formulas)
Y1 <= y <Y2 (6 formulas)
Furthermore, t indicating the time included in the category “A product area stay” classified under the conditions of (Expression 5) and (Expression 6) must satisfy (Expression 7).

T1<t (7式)
すなわち、被観測体に、A商品エリア滞在なるカテゴリに分類され、「A商品エリア滞在」なるラベルが付与されるためには、(5式)、(6式)、(7式)を満たさなければならないことを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
T1 <t (7 formulas)
That is, in order for the object to be observed to be classified into the category “A product area stay” and be given the label “A product area stay”, (Equation 5), (Equation 6), (Equation 7) must be satisfied. Indicates that it must be done. Note that, for example, a plurality of tables may be provided for each category to be classified, or these may be collectively recorded in one table as shown in the present embodiment. Further, the number of records recorded in the table may be singular or plural as shown in the present embodiment.

また、図3Cに示すように、数値データをカテゴリ化するための閾値変数の制約が記録されたテーブルは、複数のレコードからなり、1つのレコードには、データ名、閾値変数名、閾値変数の制約式が記録されている。この制約式は、ユーザによって指定されるものである。図3Cにおいては、数値データをカテゴリ化するための閾値変数X1、X2、Y1、Y2はそれぞれ(8式)、(9式)、(10式)、(11式)を満たす範囲でなければならないことを示している。   Further, as shown in FIG. 3C, the table in which the constraints of threshold variables for categorizing numerical data are composed of a plurality of records, and one record includes a data name, a threshold variable name, and a threshold variable. The constraint equation is recorded. This constraint equation is specified by the user. In FIG. 3C, threshold variables X1, X2, Y1, and Y2 for categorizing numerical data must be in ranges that satisfy (Expression 8), (Expression 9), (Expression 10), and (Expression 11), respectively. It is shown that.

0<=X1<=2000 (8式)
0<=X2<=2000 (9式)
0<=Y1<=2000 (10式)
0<=Y2<=2000 (11式)
ここで、これらの制約式は、例えば店舗の大きさを最大値として定めたものであり、各閾値は、この店舗の大きさ以上には設定できないことを意味する。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。
0 <= X1 <= 2000 (8 formulas)
0 <= X2 <= 2000 (9 formulas)
0 <= Y1 <= 2000 (10 formulas)
0 <= Y2 <= 2000 (11 formulas)
Here, these constraint formulas define, for example, the size of a store as a maximum value, and each threshold value cannot be set to be larger than the size of the store. Note that, for example, a plurality of tables may be provided for each category to be classified, or these may be collectively recorded in one table as shown in the present embodiment. Further, the number of records recorded in the table may be singular or plural as shown in the present embodiment.

次に、事前知識ルールデータベースDB3に記録されるデータについて、図4を参照して説明する。   Next, data recorded in the prior knowledge rule database DB3 will be described with reference to FIG.

図4に示すように、事前知識ルールデータベースDB3に記録されるテーブルは、複数のレコードからなり、レコードには、多くのイベントに含まれるカテゴリデータのアイテムと数値データをカテゴリ化した後に付与されるラベルを持つアイテムを含むアイテム集合とそれらが含まれる確率(共起確率)とが事前ルールとして記録されている。この事前ルールは、ユーザによって指定されるものである。図4においては、例えば、1番目のレコードは、購買データのアイテム「Item10購入」は、90%以上の確率で、体の位置を示す数値データの「A商品エリア滞在」というラベルをもつアイテムを含むイベントに含まれるということを示している。他も同様であり、2番目のレコードは、購買データのアイテム「Item20購入」は、80%以上の確率で「B商品エリア滞在」、3番目のレコードは、購買データのアイテム「Item30購入」は、80%以上の確率で「C商品エリア滞在」、4番目のレコードは、購買データのアイテム「Item40購入」は、80%以上の確率で「D商品エリア滞在」というそれぞれのラベルをもつアイテムを含むイベントに含まれるということを示している。なお、このテーブルに記録されたレコードは、単数であってもよい。   As shown in FIG. 4, the table recorded in the prior knowledge rule database DB3 is composed of a plurality of records, which are given after categorizing items of category data and numerical data included in many events. An item set including items having labels and the probability of including them (co-occurrence probability) are recorded as prior rules. This pre-rule is specified by the user. In FIG. 4, for example, in the first record, the item “Purchase Item 10” of the purchase data has an item with the label “A product area stay” of the numerical data indicating the position of the body with a probability of 90% or more. Indicates that it is included in the included event. The other is the same, the second record is the item “Purchase Item 20” of the purchase data, “stays in the B product area” with a probability of 80% or more, the third record is the item “Purchase Item 30” of the purchase data , “C product area stay” with a probability of 80% or more, and the fourth record is an item of purchase data “Item 40 purchase” with an item with each label of “D product area stay” with a probability of 80% or more. Indicates that it is included in the included event. Note that a single record may be recorded in this table.

すなわち、図4に示すこれらのデータは、例えば「Item10を購入した人の90%以上の人はA商品エリアに滞在する」といったユーザの事前知識を用いて作成する、いわゆる当たり前のルールである。   That is, these data shown in FIG. 4 are so-called rules that are created using the prior knowledge of the user, for example, “90% or more of those who purchased Item 10 stay in the A product area”.

なお、事前知識ルールデータベースDB3は、商品のカテゴリを分類の抽象度に合わせて階層的に記録した商品マスタを使用することで、ユーザが階層を指定し、その階層に対して共通にまた個別に異なる共起確率を入力することによって、自動的に事前ルールを作成し、事前知識ルールデータベースDB3に記録してもよい。例えば、図5に商品マスタの一例を示すように、1番目のレコードは、小分類Item10−01は、中分類ではItem10に含まれており、さらにItem10は、大分類ではItemAに含まれることを表している。同様に、2番目のレコードは、小分類Item10−02は、中分類ではItem10に含まれており、さらにItem10は、大分類ではItemAに含まれることを表している。これらの分類において、大分類のラベルは、例えばお菓子、肉、魚といった大まかな商品の区分によってつけられたラベルであり、中分類のラベルは、例えばチョコレート、せんべいといった細かな商品の区分によってつけられたラベルであり、小分類のラベルは、例えば商品名や味までを含むような詳細な商品の区分によってつけられたラベルである。このような商品マスタを用いることによって、例えば、ユーザが大分類を指定した場合は、ItemA購入と、ItemAエリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録される。同様に、ユーザが中分類が指定した場合は、Item10購入と、Item10エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録され、ユーザが小さい分類が指定した場合は、Item10−01購入と、Item10−01エリア滞在と、ユーザが入力した共起確率とが事前ルールとして事前知識ルールデータベースDB3に記録される。   The prior knowledge rule database DB3 uses a product master in which product categories are hierarchically recorded in accordance with the abstraction level of the classification, so that the user can specify a hierarchy and share it individually and individually. By inputting different co-occurrence probabilities, a prior rule may be automatically created and recorded in the prior knowledge rule database DB3. For example, as shown in FIG. 5 as an example of the product master, the first record includes that the small category Item 10-01 is included in Item 10 in the middle category, and Item 10 is included in Item A in the large category. Represents. Similarly, the second record indicates that the minor category Item 10-02 is included in Item 10 in the middle category, and Item 10 is included in Item A in the larger category. In these classifications, the major classification labels are labels based on broad product categories such as candy, meat and fish, while the middle classification labels are classified according to minor product classifications such as chocolate and rice crackers. The subcategory label is a label given by a detailed product classification including, for example, product names and tastes. By using such a product master, for example, when the user designates a major classification, Item A purchase, stay in the Item A area, and the co-occurrence probability input by the user are recorded in the prior knowledge rule database DB 3 as prior rules. Is done. Similarly, when the middle class is designated by the user, Item 10 purchase, Item 10 area stay, and the co-occurrence probability input by the user are recorded as prior rules in the prior knowledge rule database DB3, and the user designates a smaller class. In this case, the Item 10-01 purchase, the Item 10-01 area stay, and the co-occurrence probability input by the user are recorded as prior rules in the prior knowledge rule database DB3.

次に、最適化パラメータデータベースDB4に記録されるデータについて、図6を参照して説明する。   Next, data recorded in the optimization parameter database DB4 will be described with reference to FIG.

図6に示すように、最適化パラメータデータベースDB4に記録されるテーブルは、複数のレコードからなり、1つのレコードには、後述する閾値最適化手段5で使用するパラメータの1つが記録されている。閾値最適化手段5で使用するパラメータは、ユーザによって指定されるものであり、例えば初期値を探索する最大回数を表すパラメータである初期値最大探索回数(Lth)、最適値を探索する最大回数を表すパラメータである最大探索回数(Nth)、2種類の閾値変数の増減を表す閾値増減値D1、D2、初期値の生成に必要なパラメータ(R)である。図6においては、Lth=100、Nth=10000、D1=10、D2=1、R=10であることを示している。なお、閾値増減値D1、D2は、例えば(12式)に示すように、探索回数に対して減少するような関数式であってもよい。   As shown in FIG. 6, the table recorded in the optimization parameter database DB4 is composed of a plurality of records, and one record uses one of the parameters used in the threshold optimization means 5 described later. The parameters used by the threshold optimization means 5 are specified by the user. For example, the initial value maximum search number (Lth), which is a parameter indicating the maximum number of times to search for the initial value, and the maximum number of times to search for the optimum value are set. The maximum search count (Nth), which is a parameter to be expressed, is a threshold increase / decrease value D1, D2 indicating increase / decrease in two types of threshold variables, and a parameter (R) necessary for generating initial values. FIG. 6 shows that Lth = 100, Nth = 10000, D1 = 10, D2 = 1, and R = 10. The threshold increase / decrease values D1 and D2 may be functional expressions that decrease with respect to the number of searches, for example, as shown in (Expression 12).

D1=α/Nth×N (12式)
N:探索回数
α:定数値
なお、このテーブルに含まれるレコードは、上述のように複数あってもよいし、例えばパラメータが1つの場合には、単数であってもよい。
D1 = α / Nth × N (12 formulas)
N: Number of searches α: Constant value Note that there may be a plurality of records included in this table as described above. For example, when there is one parameter, there may be a single record.

次に、閾値最適化手段5は、詳細な説明は後述するが、イベント集合データベースDB1に記録された数値データとカテゴリデータを用いて、閾値・制約データベースDB2に記録された閾値変数に対する制約下で事前知識ルールデータベースDB3に記録された事前ルールが適切に表れるように、閾値・制約データベースDB2に記録された閾値変数の値を自動的に求める手段であり、求められた閾値は、後述の閾値パラメータデータベースDB6に記録される。なお、この閾値変数は、事前知識ルールデータベースDB3に含まれる各事前ルールに対して閾値変数の値を求めてもよいし、公知技術であるJohn H. Holland「Adaptation in Natural and Artificial Systems」University of Michigan Press, 1975に記載されているようなGA(Genetic Algorithm:遺伝的アルゴリズム)などの多目的最適化手法を用いて事前知識ルールデータベースDB3に含まれる事前ルールのすべてのルールを満たすような最適な閾値変数の値を一度に求めてもよい。   Next, the threshold optimization unit 5 uses the numerical data and category data recorded in the event set database DB1 under the restriction on the threshold variable recorded in the threshold / constraint database DB2, although detailed description will be described later. This is a means for automatically obtaining the value of the threshold variable recorded in the threshold value / constraint database DB2 so that the prior rule recorded in the prior knowledge rule database DB3 appears appropriately, and the obtained threshold value is a threshold parameter described later. Recorded in the database DB6. As for this threshold variable, the value of the threshold variable may be obtained for each prior rule included in the prior knowledge rule database DB3, or John H. Holland “Adaptation in Natural and Artificial Systems” University of the well-known technology. Optimal threshold that satisfies all the rules of the prior rules contained in the prior knowledge rule database DB3 using a multi-objective optimization method such as GA (Genetic Algorithm) as described in Michigan Press, 1975 You may obtain the value of the variable at once.

次に、閾値パラメータデータベースDB6に記録されるデータについて、図7を参照して説明する。   Next, data recorded in the threshold parameter database DB6 will be described with reference to FIG.

図7に示すように、閾値パラメータデータベースDB6に記録されるテーブルは、複数のレコードからなり、レコードには、データ名、閾値変数名、閾値最適化手段5によって算出された最適な閾値変数の値が記録されている。図7においては、1番目のレコードは、体の位置を示す数値データをカテゴリ化するための閾値変数X1の値が100であることを示している。同様に閾値変数X2の値は200、閾値変数Y1の値は100、閾値変数Y2の値は200、閾値変数T1の値は15であることを示している。なお、このテーブルは、例えば分類するカテゴリ毎に複数あってもよいし、本実施形態に示すように、これらを1つのテーブルにまとめて記録させてもよい。また、例えば閾値変数が単数である場合等は、テーブルに記録されるレコードが単数であってもよい。   As shown in FIG. 7, the table recorded in the threshold parameter database DB 6 includes a plurality of records. The record includes a data name, a threshold variable name, and an optimum threshold variable value calculated by the threshold optimization unit 5. Is recorded. In FIG. 7, the first record indicates that the value of the threshold variable X1 for categorizing numerical data indicating the position of the body is 100. Similarly, the value of the threshold variable X2 is 200, the value of the threshold variable Y1 is 100, the value of the threshold variable Y2 is 200, and the value of the threshold variable T1 is 15. Note that there may be a plurality of this table for each category to be classified, for example, or these may be recorded together in one table as shown in the present embodiment. For example, when the threshold variable is singular, the record recorded in the table may be singular.

最後に、閾値表示装置7は、閾値パラメータデータベースDB6に記録された最適な閾値変数をユーザに表示すための装置であり、例えば通常のディスプレイ装置がこれに該当する。   Finally, the threshold display device 7 is a device for displaying the optimum threshold variable recorded in the threshold parameter database DB6 to the user, and corresponds to, for example, a normal display device.

続いて、閾値最適化手段5として、1つの事前ルールに対する閾値変数の最適解を求める方法について、図8、図9を用いて説明する。   Next, a method for obtaining an optimum solution of threshold variables for one pre-rule as the threshold optimization means 5 will be described with reference to FIGS.

閾値最適化手段5は、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順1と、処理手順1で設定された閾値変数の値を最適化するための処理手順2に大別される。図8に処理手順1、図9に処理手順2を示すフローチャートを示す。   The threshold optimization means 5 is a processing procedure 1 for initializing the value of a threshold variable for categorizing numerical data, and a processing procedure for optimizing the value of the threshold variable set in the processing procedure 1 It is roughly divided into two. FIG. 8 shows a flowchart showing the processing procedure 1 and FIG. 9 shows a processing procedure 2.

まず、数値データをカテゴリ化するための閾値変数の値の初期設定を行うための処理手順1を、図8を参照して説明する。   First, the processing procedure 1 for initializing the value of the threshold variable for categorizing numerical data will be described with reference to FIG.

図8に示すように、処理手順1では、はじめに、事前知識ルールデータベースDB3を参照し、そこに記録されている事前ルールの中から、j番目の事前ルールを取り出す(S101)。jは抽出した事前ルールの格納されている順番を示しており、例えば、j=1では格納されている1番目の事前ルール取り出すこととなる。事前知識ルールデータベースDB3が図4である場合、抽出される事前ルールは、「Item10購買」、「A商品エリア滞在」で共起確率は90%である。   As shown in FIG. 8, in the processing procedure 1, first, the prior knowledge rule database DB3 is referred to, and the jth prior rule is extracted from the prior rules recorded there (S101). j indicates the order in which the extracted prior rules are stored. For example, when j = 1, the stored first prior rule is extracted. When the prior knowledge rule database DB3 is FIG. 4, the extracted prior rules are “Item 10 purchase” and “A product area stay”, and the co-occurrence probability is 90%.

次に、イベント集合データベースDB1を参照し、該当するカテゴリラベルを含む全ての被観測体のIDを全て抽出する。上述の例では、「Item10購入」というカテゴリデータを有する被観測体のIDを全て抽出する。そして、事前ルールに含まれるカテゴリ化する数値データのデータ名と抽出した被観測体のIDをもとに、イベント集合データベースDB1から対象となる被観測体のデータを抜き出し、事前ルール該当イベントセットの作成を行う(S102)。ここで、イベントセットに含まれる被観測体数をN1とする。   Next, with reference to the event set database DB1, all IDs of all observed objects including the corresponding category labels are extracted. In the above-described example, all the IDs of the observed objects having the category data “Purchase Item 10” are extracted. Then, based on the data name of the numerical data to be categorized included in the pre-rule and the extracted ID of the object to be observed, the target object data is extracted from the event set database DB1, and the pre-rule corresponding event set Creation is performed (S102). Here, the number of objects to be observed included in the event set is N1.

次に、閾値・制約データベースDB2を参照し、S101で抽出した事前ルールに含まれるカテゴリ化する数値データのラベルに関する閾値変数とその条件式と制約式を抽出する(S103)。例えば、事前ルールに含まれるカテゴリ化する数値データのラベルが「A商品エリア滞在」であり、閾値変数、条件式、制約式が図3A、図3B、図3Cの場合、求めるべき閾値変数として、X1、X2、Y1、Y2、T1の5種類が抽出される。また条件式として、上述の(5式)、(6式)、(7式)が抽出される。また、制約式として、上述の(8式)、(9式)、(10式)、(11式)が抽出される。   Next, with reference to the threshold / constraint database DB2, a threshold variable, its conditional expression and constraint expression regarding the label of the numerical data to be categorized included in the pre-rule extracted in S101 are extracted (S103). For example, when the label of the numerical data to be categorized included in the prior rule is “A product area stay” and the threshold variable, the conditional expression, and the constraint expression are FIG. 3A, FIG. 3B, and FIG. Five types of X1, X2, Y1, Y2, and T1 are extracted. Further, the above-described (Expression 5), (Expression 6), and (Expression 7) are extracted as conditional expressions. Further, the above-described (Equation 8), (Equation 9), (Equation 10), and (Equation 11) are extracted as constraint equations.

次に、S102で作成した事前ルール該当イベント集合データセットに含まれる全てのデータ点を対象とし、半径Rの円に含まれるデータ点の個数(N2)を算出する。この円は、i番目に個数が多い点(Xs、Ys)を中心とした円であり、このときの(Xs、Ys)を用いて、X1,X2、Y1、Y2の初期値を(13式)、(14式)、(15式)、(16式)、(17式)のように設定する(S104)。   Next, the number (N2) of data points included in a circle with a radius R is calculated for all data points included in the pre-rule applicable event set data set created in S102. This circle is a circle centered at the i-th largest point (Xs, Ys). Using (Xs, Ys) at this time, the initial values of X1, X2, Y1, and Y2 are expressed by Equation (13). ), (14 formula), (15 formula), (16 formula), and (17 formula) (S104).

X1S=Xs−R (13式)
X2S=Xs+R (14式)
Y1S=Ys−R (15式)
Y2S=Ys+R (16式)
T1S=N2/N1 (17式)
ここでiは、初期値の生成回数を示し、初期値の生成を繰り返すたびに増加する変数である。また、Rは、ユーザが自由に設定してよい。
X1S = Xs-R (13 formulas)
X2S = Xs + R (14 formulas)
Y1S = Ys-R (15 formulas)
Y2S = Ys + R (16 formulas)
T1S = N2 / N1 (17 formulas)
Here, i represents the number of times the initial value is generated, and is a variable that increases each time the generation of the initial value is repeated. R may be set freely by the user.

次に、S104で生成した初期値がS103で抽出した制約式を満たすか否かを判定する(S105)。そして、判定の結果、初期値が制約式を満たす場合は後述する処理手順2へ進む。   Next, it is determined whether or not the initial value generated in S104 satisfies the constraint expression extracted in S103 (S105). As a result of the determination, if the initial value satisfies the constraint equation, the process proceeds to process procedure 2 described later.

S105で初期値が制約式を満たさなかった場合、i=i+1として、最適化パラメータデータベースDB5を参照し、初期探索回数iが最大初期探索回数Lthより小さいかどうかを判定する(S106)。そして、判定の結果、初期探索回数が最大初期探索回数より小さい場合は、S104へ進む。   If the initial value does not satisfy the constraint expression in S105, i = i + 1 is set, and the optimization parameter database DB5 is referenced to determine whether the initial search count i is smaller than the maximum initial search count Lth (S106). If it is determined that the initial search count is smaller than the maximum initial search count, the process proceeds to S104.

一方、S106の判定の結果、初期探索回数iが最大初期探索回数Lth以上である場合、閾値が見つからないことをユーザに知らせる(S107)。   On the other hand, if the result of determination in S106 is that the initial search count i is greater than or equal to the maximum initial search count Lth, the user is informed that the threshold value is not found (S107).

以上のような処理手順1により、数値データをカテゴリ化するための閾値変数の値の初期設定を行う。上述の例で、例えばi=1の場合、「Item10購入」というカテゴリデータを含む被観測体のIDを有する全てのデータ点のうち、半径Rの円に含まれるデータ点が最も多かったときの中心位置を基準として、(13式)〜(17式)に従って、閾値の初期設定がなされる。   By the processing procedure 1 as described above, initial setting of a threshold variable value for categorizing numerical data is performed. In the above example, when i = 1, for example, among all the data points having the ID of the observed object including the category data “Purchase Item 10”, the data point included in the circle with the radius R is the largest. The threshold is initially set according to (Expression 13) to (17) with the center position as a reference.

続いて、処理手順1で設定された閾値の最適化を行うための処理手順2を、図9を参照して説明する。   Next, process procedure 2 for optimizing the threshold set in process procedure 1 will be described with reference to FIG.

図9に示すように、処理手順2では、はじめに、処理手順1で求められた閾値X1S、X2S、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’)を求める(S201)。このときカテゴリ化は、上述の例で、例えば「Item10購入」というカテゴリデータを含む被観測体のIDを有する数値データが、(5式)〜(7式)を満たすか否かで判断され、満たすIDには、例えば「商品Aエリア滞在」というラベルが付与される。また、共起確率は、例えば「Item10購入」というカテゴリデータを含む全てのIDのうち、このIDが有する数値データが「商品Aエリア滞在」というカテゴリに分類される割合を示したものである。   As shown in FIG. 9, in the process procedure 2, first, the numerical data is categorized using the threshold values X1S, X2S, Y1S, Y2S, and T1S obtained in the process procedure 1 to obtain the co-occurrence probability (R ′) ( S201). At this time, categorization is determined by whether or not the numerical data having the ID of the observed object including the category data of “Item 10 purchase” satisfies (Expression 5) to (Expression 7) in the above example, For example, a label “stay in the product A area” is given to the ID to be satisfied. Further, the co-occurrence probability indicates, for example, a ratio in which numerical data included in this ID among all IDs including category data “Item 10 purchase” is classified into the category “product A area stay”.

次に、事前知識ルールデータベースDB3に記録された共起確率(R)とS201で求められた共起確率(R’) を比較する(S202)。そして、R’<Rを満たさない場合、X1=X1S、X2=X2S、Y1=Y1S、Y2=Y2S、T1=T1Sとして、これらの値を閾値最適化手段5の出力とする。   Next, the co-occurrence probability (R) recorded in the prior knowledge rule database DB3 is compared with the co-occurrence probability (R ') obtained in S201 (S202). If R ′ <R is not satisfied, X1 = X1S, X2 = X2S, Y1 = Y1S, Y2 = Y2S, and T1 = T1S, and these values are used as the output of the threshold optimization unit 5.

一方、S202でR’<Rを満たす場合、X1S’=X1S−D1とする(S203)。次に、閾値・制約データベースDB2を参照し、S203で求められたX1S’が制約
を満たすか否かを判定する(S204)。そして、X1S’が制約を満たさない場合はR’1=0として、後述のS206に進む。
On the other hand, if R ′ <R is satisfied in S202, X1S ′ = X1S−D1 is set (S203). Next, with reference to the threshold / constraint database DB2, it is determined whether or not X1S ′ obtained in S203 satisfies the constraint (S204). If X1S ′ does not satisfy the constraint, R′1 = 0 is set, and the process proceeds to S206 described later.

一方、X1S’が制約を満たす場合は、X1S’、X2S、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’1)を求める(S205)。   On the other hand, if X1S ′ satisfies the constraints, the numerical data is categorized using X1S ′, X2S, Y1S, Y2S, and T1S, and the co-occurrence probability (R′1) is obtained (S205).

次に、X2S’=X2S+D1とする(S206)。   Next, X2S '= X2S + D1 is set (S206).

次に、閾値・制約データベースDB2を参照し、S206で求められたX2S’が制約
を満たすか否かを判定する(S207)。そして、X2S’が制約を満たさない場合はR’2=0として、後述のS209に進む。
Next, referring to the threshold / constraint database DB2, it is determined whether or not X2S ′ obtained in S206 satisfies the constraint (S207). If X2S ′ does not satisfy the constraint, R′2 = 0 is set, and the process proceeds to S209 described later.

一方、X2S’が制約を満たす場合は、X1S、X2S’、Y1S、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’2)を求める(S208)。   On the other hand, if X2S ′ satisfies the constraints, the numerical data is categorized using X1S, X2S ′, Y1S, Y2S, and T1S, and the co-occurrence probability (R′2) is obtained (S208).

次に、Y1S’=Y1S−D1とする(S209)。   Next, Y1S '= Y1S-D1 is set (S209).

次に、閾値・制約データベースDB2を参照し、S209で求められたY1S’が制約
を満たすか否かを判定する(S210)。そして、Y1S’が制約を満たさない場合はR’3=0として、後述のS212に進む。
Next, with reference to the threshold / constraint database DB2, it is determined whether or not Y1S ′ obtained in S209 satisfies the constraint (S210). If Y1S ′ does not satisfy the constraint, R′3 = 0 is set, and the process proceeds to S212 described later.

一方、Y1S’が制約を満たす場合は、X1S、X2S、Y1S’、Y2S、T1Sを用いて数値データをカテゴリ化し、共起確率(R’3)を求める(S211)。   On the other hand, if Y1S ′ satisfies the constraints, the numerical data is categorized using X1S, X2S, Y1S ′, Y2S, and T1S, and the co-occurrence probability (R′3) is obtained (S211).

次に、Y2S’=Y2S+D1とする(S212)。   Next, Y2S '= Y2S + D1 is set (S212).

次に、閾値・制約データベースDB2を参照し、S212で求められたY2S’が制約
を満たすか否かを判定する(S213)。そして、Y2S’が制約を満たさない場合はR’4=0として、後述のS215に進む。
Next, referring to the threshold / constraint database DB2, it is determined whether or not Y2S ′ obtained in S212 satisfies the constraint (S213). If Y2S ′ does not satisfy the constraint, R′4 = 0 is set, and the process proceeds to S215 described later.

一方、Y2S’が制約を満たす場合は、X1S、X2S、Y1S、Y2S’、T1Sを用いて数値データをカテゴリ化し、共起確率(R’4)を求める(S214)。   On the other hand, if Y2S ′ satisfies the constraint, the numerical data is categorized using X1S, X2S, Y1S, Y2S ′, and T1S to obtain the co-occurrence probability (R′4) (S214).

次に、T1S’=T1S−D2とする(S215)。   Next, T1S '= T1S-D2 is set (S215).

次に、閾値・制約データベースDB2を参照し、S215で求められたT1S’が制約
を満たすか否かを判定する(S216)。そして、T1S’が制約を満たさない場合はR’5=0として、後述のS218に進む。
Next, with reference to the threshold / constraint database DB2, it is determined whether or not T1S ′ obtained in S215 satisfies the constraint (S216). If T1S ′ does not satisfy the constraint, R′5 = 0 is set, and the process proceeds to S218 described later.

一方、T1S’が制約を満たす場合は、X1S、X2S、Y1S、Y2S、T1S’を用いて数値データをカテゴリ化し、共起確率(R’5)を求める(S217)。   On the other hand, if T1S 'satisfies the constraint, the numerical data is categorized using X1S, X2S, Y1S, Y2S, T1S' to determine the co-occurrence probability (R'5) (S217).

次に、R’1、R’2、R’3、R’4、R’5の最大値をR’とし、共起確率が最大となった場合の閾値変数の値を更新する(S218)。例えば、R’1が最大値であった場合、X1Sの値のみX1S=X1S’とする。同様に、R’2が最大値であった場合、X2sの値のみX2S=X2S’、R’3が最大値であった場合、Y1Sの値のみY1S=Y1S’、 R’4が最大値であった場合、Y2Sの値のみT2S=T2S’、 R’5が最大値であった場合、T1Sの値のみT1S=T1S’とする。   Next, the maximum value of R′1, R′2, R′3, R′4, and R′5 is set as R ′, and the value of the threshold variable when the co-occurrence probability is maximized is updated (S218). . For example, when R′1 is the maximum value, only the value of X1S is set to X1S = X1S ′. Similarly, when R′2 is the maximum value, only the value of X2s is X2S = X2S ′, and when R′3 is the maximum value, only the value of Y1S is Y1S = Y1S ′, and R′4 is the maximum value. If there is, only the value of Y2S is T2S = T2S ′, and if R′5 is the maximum value, only the value of T1S is T1S = T1S ′.

次に、事前知識ルールデータベースDB3に記録された共起確率(R)とS218で求められた共起確率(R’) を比較する(S219)。そして、R’<Rを満たさない場合、X1=X1S、X2=X2S、Y1=Y1S、Y2=Y2S、T1=T1Sとして、これらの値を閾値最適化手段5の出力とする。   Next, the co-occurrence probability (R) recorded in the prior knowledge rule database DB3 is compared with the co-occurrence probability (R ') obtained in S218 (S219). If R ′ <R is not satisfied, X1 = X1S, X2 = X2S, Y1 = Y1S, Y2 = Y2S, and T1 = T1S, and these values are used as the output of the threshold optimization unit 5.

一方、S219でR’<Rを満たす場合、最適化パラメータデータベースDB4を参照し、最大探索回数(Nth)と現在の検索回数Nを比較する(S220)。そして、N<Nthかつ、R’1=R’2=R’3=R’4=R’5=0を満たす場合は、検索回数NをN=N+1と更新し、S203に進む。一方、N<Nthかつ、R’1=R’2=R’3=R’4=R’5=0を満たさない場合は、処理手順1で示した閾値の初期値の生成回数iをi=i+1と更新し、処理手順1のS106に進む。   On the other hand, when R ′ <R is satisfied in S219, the optimization parameter database DB4 is referred to, and the maximum number of searches (Nth) is compared with the current number of searches N (S220). If N <Nth and R′1 = R′2 = R′3 = R′4 = R′5 = 0 are satisfied, the number of searches N is updated to N = N + 1, and the process proceeds to S203. On the other hand, when N <Nth and R′1 = R′2 = R′3 = R′4 = R′5 = 0 are not satisfied, the number of generations i of the initial value of the threshold shown in the processing procedure 1 is set to i. = I + 1, and the process proceeds to S106 of process procedure 1.

以上のような処理を行うことで、数値データをカテゴリ化するための閾値変数の値の最適解を自動的に求めることが可能となる。   By performing the processing as described above, it is possible to automatically obtain the optimum solution of the value of the threshold variable for categorizing numerical data.

以上に説明したように、本実施形態による事前ルールを用いた前処理装置によれば、閾値最適化手段5によって、事前ルールが適切に現れるように、閾値・制約データベースDB2に記録された閾値変数の値を自動的に求めることができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。   As described above, according to the preprocessing device using the pre-rule according to the present embodiment, the threshold variable recorded in the threshold / constraint database DB2 so that the pre-rule appears appropriately by the threshold optimizing means 5. Can be automatically determined. That is, even if the user cannot determine the threshold value, the value of the threshold variable can be determined easily and appropriately.

なお、このように求められた閾値変数の値は、閾値表示装置7を用いて、様々な形でユーザに表示することができる。例えば、同一のデータ名の同一のラベルの条件に含まれる閾値変数の中で、ユーザが指定した変数の値を用いて、図を描画してもよい。この例を図10に示す。図10に示すように、事前ルールから導き出した閾値変数の値を用いることで、すべての商品エリア20を図示することができる。このように図示することで、ある商品の購入者が滞在する場所、複数の商品エリアが重なりすぎて混雑する場所などを視覚的にとらえることができるため、商品の棚21の配置やPOPの置き方などを見直すなどの施策を打つ際の知見を得ることができる。   In addition, the value of the threshold variable obtained in this way can be displayed to the user in various forms using the threshold display device 7. For example, the figure may be drawn using the value of the variable designated by the user among the threshold variables included in the condition of the same label having the same data name. An example of this is shown in FIG. As shown in FIG. 10, all the product areas 20 can be illustrated by using the value of the threshold variable derived from the prior rule. In this way, it is possible to visually grasp the place where a purchaser of a certain product stays, the place where a plurality of product areas are excessively congested, and the like. Can gain knowledge when taking measures such as reviewing

(第2の実施形態)
次に、第1の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置について、図11〜図15を参照して説明する。
(Second Embodiment)
Next, an information extraction apparatus using a preprocessing apparatus using a pre-rule according to the first embodiment will be described with reference to FIGS.

図11は、第1の実施形態による事前ルールを用いた前処理装置を用いた情報抽出装置の構成を概略的に示すブロック図である。   FIG. 11 is a block diagram schematically showing the configuration of an information extraction device using a preprocessing device using a pre-rule according to the first embodiment.

図11に示すように、本実施形態に係る情報抽出装置は、閾値最適化処理部と情報抽出部とで構成される。このうち、閾値最適化処理部は、第1の実施形態に示す事前ルールを用いた前処理装置と同様の構成である。ただし、本実施形態ではイベント集合データベースDB1を第1イベント集合データベースDB1と称す。また、閾値表示装置7は必要なく、もし最適化された閾値を表示したい場合は、閾値パラメータデータベースDB6を参照して、後述の相関ルール表示装置13を用いてユーザに提示すればよい。   As shown in FIG. 11, the information extraction apparatus according to this embodiment includes a threshold optimization processing unit and an information extraction unit. Among these, the threshold optimization processing unit has the same configuration as the preprocessing apparatus using the pre-rule shown in the first embodiment. However, in the present embodiment, the event set database DB1 is referred to as a first event set database DB1. Further, the threshold value display device 7 is not necessary, and if it is desired to display an optimized threshold value, it may be presented to the user using the correlation rule display device 13 described later with reference to the threshold parameter database DB6.

一方、情報抽出部は、第2イベント集合データベースDB7と、連続データカテゴリ化手段8と、変換後イベント集合データベースDB9と、相関ルール抽出パラメータデータベースDB10と、相関ルール抽出手段11と、相関ルールデータベースDB12と、相関ルール表示装置13とで構成される。   On the other hand, the information extraction unit includes a second event set database DB7, a continuous data categorization means 8, a post-conversion event set database DB9, a correlation rule extraction parameter database DB10, a correlation rule extraction means 11, and a correlation rule database DB12. And the correlation rule display device 13.

続いて、このような情報抽出装置を構成する各要素について、図12〜図15を参照して説明する。なお、この情報抽出装置のうち、閾値最適化処理部は第1の実施形態と同様であるため説明を省略し、ここでは、情報抽出部を構成する各要素について説明する。   Then, each element which comprises such an information extraction apparatus is demonstrated with reference to FIGS. In this information extraction apparatus, the threshold optimization processing unit is the same as that in the first embodiment, and thus description thereof is omitted. Here, each element constituting the information extraction unit will be described.

まず、第2イベント集合データベースDB7に記録されるデータについて説明する。   First, data recorded in the second event set database DB7 will be described.

第2イベント集合データベースDB7は、第1イベント集合データベースDB7と基本的に同一のものである。すなわち、第2イベント集合データベースDB7は、それぞれ複数のレコードからなるテーブルを有し、1つのレコードには、被観測体のIDと被観測体の数値データまたはカテゴリデータが記録されている。この第2イベント集合データベースDB7に記録されている被観測体に関するデータは、第1イベント集合データベースDB1に記録されているデータと同種類のセンサ、または機器で取得したデータでもよいし、その一部でもよい。また、異なる種類のセンサ、または機器で取得したデータであってもよい。ただし、第2イベント集合データベースDB7に記録されている被観測体に関するデータが、第1イベント集合データベースDB1に記録されているデータと異なるセンサ、機器で取得したデータを含む場合には、これらのデータが数値データではなくカテゴリデータである必要がある。また、第1イベント集合データベースDB1に記録されているデータと第2イベント集合データベースDB7に記録されているデータは、全く同一であってもよい。   The second event set database DB7 is basically the same as the first event set database DB7. That is, the second event set database DB7 has a table composed of a plurality of records, respectively, and the ID of the observed object and the numerical data or category data of the observed object are recorded in one record. The data relating to the observed object recorded in the second event set database DB7 may be data acquired by the same type of sensor or device as the data recorded in the first event set database DB1, or a part thereof. But you can. Further, it may be data acquired by different types of sensors or devices. However, if the data related to the object recorded in the second event set database DB7 includes data acquired by a sensor or device different from the data recorded in the first event set database DB1, these data Must be categorical data, not numeric data. The data recorded in the first event set database DB1 and the data recorded in the second event set database DB7 may be exactly the same.

次に、数値データカテゴリ化手段8について説明する。   Next, the numerical data categorizing means 8 will be described.

数値データカテゴリ化手段8は、第2イベント集合データベースDB7に記録された被観測体の数値データを、閾値・制約データベースDB2に記録されている条件式及び、閾値パラメータデータベースDB6に記録されている最適化された閾値変数の値を使用して、カテゴリデータに変換する手段である。この数値データカテゴリ化手段8でカテゴリ化された数値データを有する被観測体のIDには、カテゴリに対応するラベルが付与され、変換後イベント集合データベースDB9に記録される。   The numerical data categorizing means 8 uses the numerical data of the observed object recorded in the second event set database DB7, the conditional expression recorded in the threshold / constraint database DB2, and the optimum recorded in the threshold parameter database DB6. It is a means for converting into category data using the value of the normalized threshold variable. A label corresponding to the category is given to the ID of the observed object having the numerical data categorized by the numerical data categorizing means 8 and recorded in the post-conversion event set database DB9.

次に、変換後イベント集合データベースDB9に記録されるデータついて、図12を参照して説明する。   Next, data recorded in the post-conversion event set database DB9 will be described with reference to FIG.

変換後イベント集合データベースDB9は、数値データを数値データカテゴリ化手段8によってカテゴリ化することで付与するラベルが記録されたテーブルと、カテゴリデータのラベルが記録されたテーブルからなり、それぞれ被観測体IDとともに記録されている。このうち、カテゴリ化された数値データに付与するラベルが記録されたテーブルは、図12に示すように、複数のレコードからなり、1つのレコードには、被観測体ID、データ名、データの種類、観測時間、ラベル名が記録されている。図12においては、例えば、被観測体001が2007/08/01の15時30分00秒に「A商品エリア滞在」したことを示している。同様に、被観測体001は2007/08/01の15時40分00秒に「B商品エリア通過」し、2007/08/01の15時45分00秒に「C商品エリア滞在」したことを示している。一方、カテゴリデータのラベルが記録されたテーブルは、例えば図2Bと同様である。なお、これらのテーブルは、例えば被観測者毎に複数あってもよいし、これらをまとめて1つのテーブルに記録されていてもよい。また、テーブルに記録されたレコードは、単数であってもよいし、本実施形態に示すように、複数あってもよい。   The post-conversion event set database DB9 is composed of a table in which labels to be given by categorizing numerical data by the numerical data categorizing means 8 and a table in which labels of category data are recorded. It is recorded with. Among these, the table in which the labels assigned to the categorized numerical data are recorded is composed of a plurality of records as shown in FIG. 12, and one record includes an object ID, a data name, and a data type. The observation time and label name are recorded. FIG. 12 shows that, for example, the observed object 001 “stays in the product area A” at 15:30:30 on 2007/08/01. Similarly, the observed object 001 “passed through the B product area” at 15:40:00 on 2007/08/01 and “stayed in the C product area” at 15:45:00 on 2007/08/08 Is shown. On the other hand, the table in which the label of category data is recorded is the same as that shown in FIG. 2B, for example. Note that there may be a plurality of these tables, for example, for each person to be observed, or these may be collectively recorded in one table. Further, the number of records recorded in the table may be singular or plural as shown in the present embodiment.

次に、相関ルール抽出パラメータデータベースDB10に記録されるデータついて、図13を参照して説明する。   Next, data recorded in the correlation rule extraction parameter database DB10 will be described with reference to FIG.

図13に示すように、相関ルール抽出パラメータデータベースDB10に記録されるテーブルは、複数のレコードからなり、1つのレコードには、後述する相関ルール抽出手段11で相関ルールを抽出するために必要なパラメータの1つが記録されている。図13においては、相関ルール抽出手段11で使用するパラメータの一例として、相関ルールとして抽出されるのに満たさなければならない条件を表す最小支持度(Sup)が0.2であり、最小確信度(Conf)が0.6であることを示している。この最小支持度及び最小確信度は、ユーザによって指定されるものである。ここで支持度は(18式)、確信度は(19式)をそれぞれ用いて算出されるものである。   As shown in FIG. 13, the table recorded in the correlation rule extraction parameter database DB10 is composed of a plurality of records, and parameters necessary for extracting correlation rules by the correlation rule extraction means 11 described later are included in one record. One of these is recorded. In FIG. 13, as an example of parameters used in the correlation rule extraction unit 11, the minimum support level (Sup) representing a condition that must be satisfied to be extracted as a correlation rule is 0.2, and the minimum certainty factor (Sup) Conf) is 0.6. The minimum support level and the minimum confidence level are specified by the user. Here, the support level is calculated using (Equation 18) and the certainty factor is calculated using (Equation 19).

支持度 S(X∧Y)=M(X∧Y)/M (18式)
M(X∧Y):アイテム集合「XとY」を含むイベント(被観測体)数
M:全イベント(被観測体)数
確信度 C(X∧Y)=M(X∧Y)/M(X) (19式)
M(X):アイテム集合「X」を含むイベント(被観測体)数
上述の相関ルール抽出パラメータデータベースDB10には、最小支持度及び最小確信度が記録されており、例えばアイテム集合Xが「A商品エリア滞在」と「B商品エリア滞在」であり、アイテム集合Yが「Item01購入」である場合、「A商品エリア滞在」と「B商品エリア滞在」と「Item01購入」の3つのアイテムを含む被観測体が全ての被観測体の20%以上であり、かつ「「A商品滞在」かつ「B商品滞在」」を含む被観測体の60%以上が「Item01購入」を含んでいる場合、「「A商品滞在」かつ「B商品滞在」ならば「Item01購入」である」は、相関ルールとして抽出される。なお、このテーブルに含まれるレコードは、例えばパラメータが1つである場合には、単数であってもよい。
Degree of support S (X∧Y) = M (X∧Y) / M (18 formulas)
M (X∧Y): Number of events (observed objects) including item set “X and Y” M: Number of all events (observed objects) Confidence C (X∧Y) = M (X∧Y) / M (X) (Equation 19)
M (X): Number of events (observed objects) including item set “X” In the above-described correlation rule extraction parameter database DB10, the minimum support level and the minimum certainty factor are recorded. If the item set Y is “Item 01 purchase” and the item set Y is “Item 01 stay”, “Item A stay”, “Item B stay”, and “Item 01 purchase” are included. When the observed objects are 20% or more of all the observed objects, and 60% or more of the observed objects including ““ A product stay ”and“ B product stay ”include“ Item01 purchase ”. “If“ A product stay ”and“ B product stay ”,“ Item 01 purchase ”” is extracted as a correlation rule. In addition, the record contained in this table may be single, for example, when there is one parameter.

次に、相関ルール抽出手段11は、変換後イベント集合データベースDB9に記録されている被観測体のイベントに対して、相関ルール抽出パラメータデータベースDB10に記録されているパラメータを用いて相関ルールを抽出し、相関ルールデータベースDB12に記録する手段である。以下、この相関ルール抽出手段11を、図14を参照して説明する。   Next, the correlation rule extracting means 11 extracts a correlation rule for the observed event recorded in the post-conversion event set database DB 9 using the parameters recorded in the correlation rule extraction parameter database DB 10. , Means for recording in the correlation rule database DB12. Hereinafter, the correlation rule extracting unit 11 will be described with reference to FIG.

図14は、相関ルール抽出手段11の処理手順を示すフローチャートを示す。   FIG. 14 is a flowchart showing the processing procedure of the correlation rule extraction means 11.

図14に示すように、相関ルール抽出手段11は、まず、変換後イベント集合データベースDB9を参照し、シーケンス長kの相関ルールの候補集合を生成する(S301)。ここでシーケンス長とは、相関ルールに含まれるアイテム数をいう。このkの初期値は1であり、相関ルールの候補の生成方法は、k=1とk>1とでは異なる。   As shown in FIG. 14, the correlation rule extraction unit 11 first refers to the post-conversion event set database DB9 and generates a candidate set of correlation rules having a sequence length k (S301). Here, the sequence length refers to the number of items included in the association rule. The initial value of k is 1, and the method for generating association rule candidates is different between k = 1 and k> 1.

k=1の場合は、全イベントに含まれるアイテムを候補とする。一方、k>1の場合、シーケンス長がk−1の相関ルールとして抽出された相関ルールの中で、k−2個のアイテムが共通する相関ルールを組み合わせて候補を生成する。例えば、シーケンス長3の相関ルールとして、「「商品Aエリア滞在」、「商品Bエリア滞在」、「Item01購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item11購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」」の3つの相関ルールが存在する場合、シーケンス長4の相関ルールの候補は、「「商品Aエリア滞在」、「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」」と「「商品Bエリア滞在」、「商品Cエリア滞在」、「Item01購入」、「Item11購入」」となる。   When k = 1, items included in all events are candidates. On the other hand, in the case of k> 1, among the association rules extracted as association rules having a sequence length of k−1, candidates are generated by combining association rules that share k−2 items. For example, as an association rule with a sequence length of 3, “Product A Area Stay”, “Product B Area Stay”, “Item 01 Area Purchase”, “Product B Area Stay”, “Product C Area Stay”, “Item 11 Purchase” ”,“ Product B Area Stay ”,“ Product C Area Stay ”,“ Item01 Purchase ””, the candidate for the correlation rule of sequence length 4 is ““ Product A Area Stay ”, “Product B area stay”, “Product C area stay”, “Item 01 purchase” and “Product B area stay”, “Product C area stay”, “Item 01 purchase”, “Item 11 purchase”.

次に、S301で生成した相関ルール候補集合に含まれる相関ルール候補の数を数え、その数が0より大きいか否かを判定する(S302)。0の場合は相関ルール抽出手段11を終了する。   Next, the number of correlation rule candidates included in the correlation rule candidate set generated in S301 is counted, and it is determined whether or not the number is greater than 0 (S302). In the case of 0, the correlation rule extracting means 11 is terminated.

一方、S301で生成した相関ルール候補集合に含まれる相関ルール候補の数が0より大きい場合、変換度イベント集合データベースDB9を参照し、S301で生成された各相関ルール候補が変換度イベント集合データベースDB9に含まれるか否かを調べる。そして、生成された相関ルールを含むイベント(被観測体)数を数え、支持度と確信度を算出する(S303)。   On the other hand, when the number of correlation rule candidates included in the correlation rule candidate set generated in S301 is greater than 0, the conversion event group database DB9 is referred to, and each correlation rule candidate generated in S301 is converted into the conversion event group database DB9. To check whether it is included. Then, the number of events (observed objects) including the generated association rules is counted, and the support level and the certainty level are calculated (S303).

次に、相関ルール抽出パラメータデータベースDB10を参照し、S303で算出した相関ルール候補の支持度が最小支持度以上であり、相関ルール候補の確信度が最小確信度以上であれば、この相関ルール候補を相関ルールとして、後述の相関ルールデータベースDB12に記録する(S304)。   Next, referring to the correlation rule extraction parameter database DB10, if the support level of the correlation rule candidate calculated in S303 is greater than or equal to the minimum support level and the confidence level of the correlation rule candidate is greater than or equal to the minimum confidence level, this correlation rule candidate Is recorded in the correlation rule database DB12 described later as a correlation rule (S304).

次に、S304で記録されたシーケンス長kの相関ルールの数を数え、その数が0より大きいか否かを判定する(S305)。0の場合は相関ルール抽出手段11を終了する。   Next, the number of association rules of sequence length k recorded in S304 is counted, and it is determined whether or not the number is greater than 0 (S305). In the case of 0, the correlation rule extracting means 11 is terminated.

一方、S304で記録されたシーケンス長kの相関ルールが0より大きい場合、k=k+1として、S301に戻る。   On the other hand, if the correlation rule of sequence length k recorded in S304 is greater than 0, k = k + 1 is set and the process returns to S301.

以上のような手順により、相関ルールを生成することができる。なお、上述の例においては、アイテム間の順序を考慮していないが、考慮してもよい。   An association rule can be generated by the above procedure. In the above example, the order between items is not considered, but may be considered.

最後に、相関ルールデータベースDB12に記録されるデータついて、図15を参照して説明する。   Finally, data recorded in the correlation rule database DB12 will be described with reference to FIG.

図15に示すように、相関ルールデータベースDB12は、抽出された相関ルールが記録されたテーブルを有している。このテーブルは複数のレコードからなり、1つのレコードには、相関ルール抽出手段11で抽出した相関ルールが記録されている。図15においては、例えば1番目のレコードは、「「A商品エリア滞在」(条件部)ならば「Item01購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.5、確信度が0.7であることを示している。同様に、2番目のレコードは、「「A商品エリア滞在」かつ「B商品エリア滞在」(条件部)ならば「Item10購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.3、確信度が0.8であることを示しており、3番目のレコードは、「「A商品エリア滞在」かつ「C商品エリア滞在」(条件部)ならば「Item20購入」(結論部)である」という相関ルールが記録されており、この相関ルールの支持度が0.4、確信度が0.7であることを示している。なお、このテーブルに含まれるレコードは、例えば抽出された相関ルールが1つだった場合には、単数であってもよい。   As shown in FIG. 15, the correlation rule database DB12 has a table in which the extracted correlation rules are recorded. This table is composed of a plurality of records, and a correlation rule extracted by the correlation rule extraction means 11 is recorded in one record. In FIG. 15, for example, the first record records a correlation rule “If“ A product area stay ”(condition part) is“ Item 01 purchase ”(conclusion part)”, and supports this correlation rule. The degree is 0.5 and the certainty is 0.7. Similarly, in the second record, the correlation rule “If“ A product area stay ”and“ B product area stay ”(condition part) is“ Item 10 purchase ”(conclusion part)” is recorded. If the association rule support level is 0.3 and the confidence level is 0.8, the third record is “A product area stay” and “C product area stay” (condition part) The correlation rule “It is an Item 20 purchase” (conclusion part) is recorded, which indicates that the support degree of this correlation rule is 0.4 and the certainty factor is 0.7. Note that the number of records included in this table may be singular if, for example, there is one extracted correlation rule.

最後に、上述のようにして生成され、相関ルールデータベースDB12に記録された相関ルールは、相関ルール表示装置13に表示される。この際、相関ルールのシーケンス長、支持度の大きさ、確信度の大きさに応じて順番を変えて表示してもよいし、特定のアイテム集合を含む相関ルールのみを抽出して表示する等、目的に応じて自由に表示してよい。なお、この相関ルール表示装置13は、例えば通常のディスプレイ装置であり、第1の実施形態における閾値表示装置7と同様のものである。これらの相関ルール表示装置13及び閾値表示装置7は、ユーザに視覚的に相関ルールまたは最適化された閾値を提供できるものであれば、どんなものであってもよい。   Finally, the correlation rules generated as described above and recorded in the correlation rule database DB 12 are displayed on the correlation rule display device 13. At this time, the order of the association rule sequence length, the degree of support, the degree of certainty may be displayed in a different order, or only the association rules including a specific item set may be extracted and displayed. , You may display freely according to the purpose. The correlation rule display device 13 is, for example, a normal display device, and is the same as the threshold value display device 7 in the first embodiment. These correlation rule display device 13 and threshold value display device 7 may be anything as long as they can provide the user with a correlation rule or an optimized threshold value visually.

以上のように、本実施形態による情報抽出装置によれば、事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することが可能となる。   As described above, according to the information extraction apparatus according to the present embodiment, the value of the threshold variable can be automatically determined so that the prior rule appears appropriately. That is, even if the user cannot determine the threshold value, the value of the threshold variable can be determined easily and appropriately. Since the numerical data is categorized using the value of the threshold variable thus obtained, it is possible to easily and efficiently extract useful correlation rules that the user could not know.

なお、このユーザが知りえなかった相関ルールを抽出することで、例えば、ある商品の広告をどこに表示するか等、主にマーケティングに関する分野に適用することが可能である。   It should be noted that by extracting correlation rules that the user could not know, it is possible to apply mainly to the field related to marketing, such as where to display an advertisement for a certain product.

以上に、本発明の実施の形態を示したが、実施の形態はこれに限るものではなく、様々に適用可能である。   Although the embodiment of the present invention has been described above, the embodiment is not limited to this and can be applied in various ways.

例えば、webページ上のポインタの移動軌跡を数値データとし、webページ上において、クリックされる箇所をカテゴリデータとすることで、これらの事前ルールが適切に現れるように閾値変数の値を自動的に決定することができる。すなわち、ユーザが閾値を決定できない場合であっても、容易かつ適切に閾値変数の値を決定することができる。そして、このようにして求められた閾値変数の値を用いて数値データをカテゴリ化するため、容易に効率よく、ユーザが知り得なかった有用な相関ルールを抽出することも可能である。   For example, by using the pointer movement trajectory on the web page as numerical data and the clicked location on the web page as category data, the value of the threshold variable is automatically set so that these prior rules appear appropriately. Can be determined. That is, even if the user cannot determine the threshold value, the value of the threshold variable can be determined easily and appropriately. Since the numerical data is categorized using the value of the threshold variable thus obtained, it is possible to easily and efficiently extract useful correlation rules that the user could not know.

本発明の実施形態における事前ルールを用いた前処理装置の構成を概略的に示すブロック図である。It is a block diagram which shows roughly the structure of the pre-processing apparatus using the prior rule in embodiment of this invention. イベント集合データベースに含まれる体の位置を示すデータを記録したテーブルを示す図である。It is a figure which shows the table which recorded the data which show the position of the body contained in an event set database. イベント集合データベースに含まれる購買データを記録したテーブルを示す図である。It is a figure which shows the table which recorded the purchase data contained in an event set database. 閾値・制約データベースに含まれる閾値変数を記録したテーブルを示す図である。It is a figure which shows the table which recorded the threshold variable contained in a threshold value and restrictions database. 閾値・制約データベースに含まれる数値データ名とカテゴリ化後のラベルとそのラベルに該当する数値データの条件を記録したテーブルを示す図である。It is a figure which shows the table which recorded the numerical data name contained in a threshold value and restrictions database, the label after categorization, and the conditions of numerical data applicable to the label. 閾値・制約データベースに含まれる閾値変数の制約が記録されたテーブルを示す図である。It is a figure which shows the table by which the restriction | limiting of the threshold variable contained in a threshold value and restrictions database was recorded. 事前知識ルールデータベースに含まれるテーブルを示す図である。It is a figure which shows the table contained in the prior knowledge rule database. 商品マスタを示す図であるIt is a figure which shows a goods master 最適化パラメータデータベースに含まれるテーブルを示す図である。It is a figure which shows the table contained in the optimization parameter database. 閾値パラメータデータベースに含まれるテーブルを示す図である。It is a figure which shows the table contained in a threshold value parameter database. 閾値最適化手段において閾値の初期設定を行う手順を示すフローチャートである。It is a flowchart which shows the procedure which performs the initial setting of a threshold value in a threshold value optimization means. 閾値最適化手段において閾値の最適化を行う手順を示すフローチャートである。It is a flowchart which shows the procedure which optimizes a threshold value in a threshold value optimization means. 閾値表示装置の表示例を示す図である。It is a figure which shows the example of a display of a threshold value display apparatus. 本発明の実施形態における相関ルール抽出装置を示すブロック図である。It is a block diagram which shows the correlation rule extraction apparatus in embodiment of this invention. 変換後イベント集合データベースに含まれる体の位置を示す数値データをカテゴリ化した結果を記録したテーブルを示す図である。It is a figure which shows the table which recorded the result which categorized numerical data which shows the position of the body contained in the event set database after conversion. 相関ルール抽出パラメータデータベースに含まれるテーブルを示す図である。It is a figure which shows the table contained in a correlation rule extraction parameter database. 相関ルール抽出手段において相関ルールの抽出を行う手順を示すフローチャートである。It is a flowchart which shows the procedure which extracts an association rule in an association rule extraction means. 相関ルールデータベースに含まれるテーブルを示す図である。It is a figure which shows the table contained in a correlation rule database.

符号の説明Explanation of symbols

DB1・・・(第1)イベント集合データベース、DB2・・・閾値・制約データベース、DB3・・・事前知識ルールデータベース、DB4・・・最適化パラメータデータベース、DB6・・・閾値パラメータデータベース、DB7・・・第2イベント集合データベース、DB9・・・変換後イベント集合データベース、DB10・・・相関ルール抽出パラメータデータベース、DB12・・・相関ルールデータベース、5・・・閾値最適化手段、7・・・閾値表示装置、8・・・数値データカテゴリ化手段、11・・・相関ルール抽出手段、13・・・相関ルール表示装置、20・・・商品エリア、21・・・商品の棚。   DB1 ... (first) event set database, DB2 ... threshold / constraint database, DB3 ... prior knowledge rule database, DB4 ... optimization parameter database, DB6 ... threshold parameter database, DB7 ... -Second event set database, DB9 ... converted event set database, DB10 ... correlation rule extraction parameter database, DB12 ... correlation rule database, 5 ... threshold optimization means, 7 ... threshold display Device: 8 ... Numerical data categorizing means, 11 ... Correlation rule extracting means, 13 ... Correlation rule display device, 20 ... Product area, 21 ... Product shelf.

Claims (9)

同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータを記録したイベント集合データベースと、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルが記録された閾値・制約データベースと、
所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして記録した事前知識ルールデータベースと、
この事前知識ルールデータベースに予め含まれた全ての前記事前ルールを、前記制約の下で、前記イベント集合データベースから抽出するように前記閾値変数の値を算出する閾値最適化手段と、
この閾値最適化手段によって算出された前記閾値変数の値が記録された閾値データベースと、
この閾値データベースに記録された前記閾値変数の値を表示する表示装置と、
を具備することを特徴とする情報抽出装置の前処理装置。
An event set database that records trajectory data having the same ID and category data that is categorized and each labeled with a first label;
Conditions and constraints of threshold variables necessary for categorizing the trajectory data recorded in the event set database, and a second label attached to the trajectory data categorized based on these conditions and constraints A threshold / constraint database with
A prior knowledge rule database in which a combination of the first and second labels co-occurring with a predetermined probability is recorded as a prior rule together with the probability;
Threshold optimization means for calculating the value of the threshold variable so as to extract all the prior rules previously included in the prior knowledge rule database from the event set database under the constraints;
A threshold database in which values of the threshold variables calculated by the threshold optimization means are recorded;
A display device for displaying the value of the threshold variable recorded in the threshold database;
A preprocessing apparatus for an information extraction apparatus, comprising:
前記事前知識ルールデータベースに記録される前記事前ルールは、前記カテゴリデータのカテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成された相関ルールであることを特徴とする請求項1に記載の情報抽出装置の前処理装置。   The prior rule recorded in the prior knowledge rule database is an association rule automatically generated using a product master in which categories of the category data are hierarchically recorded according to the abstraction level of classification. The preprocessing device for an information extraction device according to claim 1. 請求項1または2に記載の情報抽出装置の前処理装置と、
前記イベント集合データベースに含まれる前記軌跡データを、前記算出された閾値変数の値を用いてカテゴリデータに変換する数値データカテゴリ化手段と、
この数値データカテゴリ化手段でカテゴリ化された前記軌跡データに付された前記第2のラベル及び、前記第1のラベルの組み合わせからなる相関ルール候補を記録した変換後イベント集合データベースと、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルール抽出パラメータを用いて、相関ルールとして抽出する相関ルール抽出手段と、
この相関ルール抽出手段によって抽出された前記相関ルールを記録する相関ルールデータベースと、
を具備し、前記表示装置は、前記相関ルールを表示する表示装置であることを特徴とする情報抽出装置。
A preprocessing device for an information extraction device according to claim 1 or 2,
Numeric data categorizing means for converting the trajectory data included in the event set database into category data using the calculated threshold variable value;
A post-conversion event set database that records candidate association rules composed of combinations of the second labels and the first labels attached to the trajectory data categorized by the numerical data categorizing means;
Correlation rule extraction means for extracting as a correlation rule from the correlation rule candidates recorded in the post-conversion event set database using a correlation rule extraction parameter;
A correlation rule database that records the correlation rules extracted by the correlation rule extraction means;
And the display device is a display device for displaying the correlation rule.
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記相関ルール抽出手段は、前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出する手段であることを特徴とする請求項3に記載の情報抽出装置。
The association rule extraction parameters are support level and certainty level,
4. The information according to claim 3, wherein the correlation rule extraction unit is a unit that extracts the correlation rule candidate having a certain degree of support and certainty among the correlation rule candidates as a correlation rule. Extraction device.
同一のIDを有する軌跡データ及び、カテゴリ化され、それぞれに第1のラベルが付されたカテゴリデータをイベント集合データベースに記録し、
このイベント集合データベースに記録された前記軌跡データをカテゴリ化する際に必要な閾値変数の条件、制約及び、これらの条件及び制約に基づいてカテゴリ化される前記軌跡データに付される第2のラベルを閾値・制約データベースに記録し、
所定の確率で共起する前記第1及び前記第2のラベルの組み合わせを前記確率とともに事前ルールとして事前知識ルールデータベースに記録し、
この事前知識ルールデータベースから前記事前ルールを抽出し、
この抽出された前記事前ルールが有する前記第1のラベルを含むIDが有する前記軌跡データを前記イベント集合データベースから全て抽出し、
前記閾値・制約データベースから、前記条件、制約を抽出し、
この抽出された前記制約の下で、前記事前ルールが最も高い確率で現れるように前記閾値変数の値を算出することを特徴とする情報抽出装置の前処理方法。
Record the trajectory data having the same ID and the categorized category data each labeled with the first label in the event set database,
Conditions and constraints of threshold variables necessary for categorizing the trajectory data recorded in the event set database, and a second label attached to the trajectory data categorized based on these conditions and constraints In the threshold / constraint database,
A combination of the first and second labels co-occurring with a predetermined probability is recorded in the prior knowledge rule database as a prior rule together with the probability;
Extracting the prior rules from this prior knowledge rule database,
Extracting all the trajectory data of the ID including the first label of the extracted prior rule from the event set database,
Extract the conditions and constraints from the threshold / constraint database,
A pre-processing method for an information extracting apparatus, wherein the value of the threshold variable is calculated so that the pre-rule appears with the highest probability under the extracted restriction.
前記閾値変数の値を算出する手段は、
前記制約の下で、前記抽出された前記軌跡データから、前記閾値変数の値の初期値を算出し、
この算出された前記初期値を用いて前記軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付される前記第2のラベルと、前記第1のラベルとの共起確率を算出し、
この算出された共起確率と、少なくとも1つの前記初期値を変えることで新たに求められた共起確率とのうち、最も高い共起確率になる場合の前記閾値変数の値を算出することを特徴とする請求項5に記載の情報抽出装置の前処理方法。
The means for calculating the value of the threshold variable is
Under the constraint, the initial value of the threshold variable value is calculated from the extracted trajectory data,
The trajectory data is categorized using the calculated initial value,
Calculating a co-occurrence probability between the second label attached to the categorized trajectory data and the first label;
Among the calculated co-occurrence probabilities and the co-occurrence probabilities newly obtained by changing at least one of the initial values, calculating the value of the threshold variable when the highest co-occurrence probability is obtained. The preprocessing method of the information extraction apparatus according to claim 5, wherein the information extraction apparatus is preprocessed.
前記事前知識ルールデータベースに記録される事前ルールは、カテゴリが分類の抽象度に合わせて階層的に記録された商品マスタを用いて自動的に生成されたルールであることを特徴とする請求項5または6に記載の情報抽出装置の前処理方法。   The prior rule recorded in the prior knowledge rule database is a rule automatically generated using a product master in which categories are hierarchically recorded in accordance with an abstraction level of classification. The preprocessing method of the information extraction apparatus of 5 or 6. 請求項5乃至7のいずれかに記載の情報抽出装置の前処理方法によって最適化された前記閾値変数の値を用いて、前記イベント集合データベースに記録された軌跡データをカテゴリ化し、
このカテゴリ化された前記軌跡データに付された前記第2のラベルと、前記第1のラベルとの組み合わせを相関ルール候補として変換後イベント集合データベースに記録し、
この変換後イベント集合データベースに記録された前記相関ルール候補から、相関ルールパラメータを用いて抽出された前記相関ルール候補を相関ルールとすることを特徴とする情報抽出方法。
Using the value of the threshold variable optimized by the preprocessing method of the information extraction device according to any one of claims 5 to 7, categorizing the trajectory data recorded in the event set database,
Record the combination of the second label attached to the categorized trajectory data and the first label as a correlation rule candidate in the post-conversion event set database,
An information extraction method characterized in that, from the correlation rule candidates recorded in the post-conversion event set database, the correlation rule candidates extracted using correlation rule parameters are used as correlation rules.
前記相関ルール抽出パラメータは、支持度及び確信度であり、
前記各相関ルール候補のうち、一定以上の支持度及び確信度を有する前記相関ルール候補を相関ルールとして抽出することを特徴とする請求項8に記載の情報抽出方法。
The association rule extraction parameters are support level and certainty level,
The information extraction method according to claim 8, wherein among the correlation rule candidates, the correlation rule candidate having a certain degree of support and certainty is extracted as a correlation rule.
JP2008114193A 2008-04-24 2008-04-24 Preprocessor using preliminary rule, preprocessing method, information extraction device using the preprocessor and information extraction method Pending JP2009265905A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008114193A JP2009265905A (en) 2008-04-24 2008-04-24 Preprocessor using preliminary rule, preprocessing method, information extraction device using the preprocessor and information extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008114193A JP2009265905A (en) 2008-04-24 2008-04-24 Preprocessor using preliminary rule, preprocessing method, information extraction device using the preprocessor and information extraction method

Publications (1)

Publication Number Publication Date
JP2009265905A true JP2009265905A (en) 2009-11-12

Family

ID=41391692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008114193A Pending JP2009265905A (en) 2008-04-24 2008-04-24 Preprocessor using preliminary rule, preprocessing method, information extraction device using the preprocessor and information extraction method

Country Status (1)

Country Link
JP (1) JP2009265905A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012159885A (en) * 2011-01-28 2012-08-23 Fujitsu Ltd Information collation device, information collation system, information collation method and information collation program
WO2013190627A1 (en) * 2012-06-18 2013-12-27 株式会社日立製作所 Correlation analyzing device and correlation analyzing method
US9721213B2 (en) 2011-01-28 2017-08-01 Fujitsu Limited Information matching apparatus, method of matching information, and computer readable storage medium having stored information matching program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012159885A (en) * 2011-01-28 2012-08-23 Fujitsu Ltd Information collation device, information collation system, information collation method and information collation program
US9251192B2 (en) 2011-01-28 2016-02-02 Fujitsu Limited Information matching apparatus, information matching system and method of matching information for outputting matching result
US9721213B2 (en) 2011-01-28 2017-08-01 Fujitsu Limited Information matching apparatus, method of matching information, and computer readable storage medium having stored information matching program
WO2013190627A1 (en) * 2012-06-18 2013-12-27 株式会社日立製作所 Correlation analyzing device and correlation analyzing method

Similar Documents

Publication Publication Date Title
KR101981075B1 (en) Data analysis system, data analysis method, data analysis program, and recording medium
JP5944515B2 (en) Product display shelf system, product display method and product display program
US10860634B2 (en) Artificial intelligence system and method for generating a hierarchical data structure
JP6514342B2 (en) Online forecasting system and method
JP5854187B2 (en) Business flow search device, business flow search method, and program
Asha et al. Data mining techniques in the diagnosis of tuberculosis
JP2015524127A (en) Consumer decision tree generation system
Lisnawati et al. Data Mining with Associated Methods to Predict Consumer Purchasing Patterns.
Gangurde et al. Building prediction model using market basket analysis
JP6567484B2 (en) Estimated model construction system, estimated model construction method and program
JP5251217B2 (en) Sales number prediction system, operation method of sales number prediction system, and sales number prediction program
JP2006163465A (en) Medical treatment information analysis apparatus, method, and program
JP5391637B2 (en) Data similarity calculation system, data similarity calculation method, and data similarity calculation program
JP2020537220A (en) Computer system for optimizing retail garment inventory based on user profile
JP7210958B2 (en) Product recommendation device and program
JP2009265905A (en) Preprocessor using preliminary rule, preprocessing method, information extraction device using the preprocessor and information extraction method
JP2007066202A (en) Data analysis program
CN112597398A (en) Medicine recommendation model application method and system
JP6919706B2 (en) Information processing method, information processing device and information processing computer program
JP2005284470A (en) Device and method for predicting share of every merchandise, and program for the same
Meida et al. Pattern of E-marketplace Customer Shopping Behavior using Tabu Search and FP-Growth Algorithm
US20210191933A1 (en) Data analysis device and data analysis method
WO2011163390A1 (en) Systems and methods for impact analysis in a computer network
Kabanova et al. ABC-XYZ inventory analysis accounting for change points
JPH0512351A (en) Diagnosis assistance system