JP6257298B2 - Data classification apparatus, data classification method, and data classification program - Google Patents
Data classification apparatus, data classification method, and data classification program Download PDFInfo
- Publication number
- JP6257298B2 JP6257298B2 JP2013255823A JP2013255823A JP6257298B2 JP 6257298 B2 JP6257298 B2 JP 6257298B2 JP 2013255823 A JP2013255823 A JP 2013255823A JP 2013255823 A JP2013255823 A JP 2013255823A JP 6257298 B2 JP6257298 B2 JP 6257298B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- attribute
- series
- list
- customer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 54
- 238000000605 extraction Methods 0.000 claims description 67
- 239000000284 extract Substances 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004587 chromatography analysis Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 230000003068 static effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ分類装置およびデータ分類方法ならびにデータ分類プログラムに関する。 The present invention relates to a data classification device, a data classification method, and a data classification program.
ATM(Automatic Teller Machine)による取引の内容を記録するATMジャーナルには、個人情報が含まれる。そして、この個人情報を分析対象とする際には、プライバシーを保護することが求められる。 The ATM journal that records the contents of transactions by ATM (Automatic Teller Machine) includes personal information. When this personal information is to be analyzed, it is required to protect privacy.
特開2013−125374号公報(特許文献1)には、「複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、レコードの数の分布が、偏りが大きいことを表す条件を満たしているか判断する工程と、レコードの数の分布が、偏りが大きいことを表す条件を満たしている場合には、複数のレコードのうち少なくとも1のレコードにおける第1の属性の属性値を、曖昧化データに置換し、データ格納部に格納する工程とを含む」と記載されている。 Japanese Patent Laid-Open No. 2013-125374 (Patent Document 1) states that “the first of the plurality of records for each type of attribute value of the first attribute that is included in the plurality of records and designated as the object to be obscured. Determining whether the distribution of the number of records satisfies a condition indicating that the bias is large, from the data stored in the data storage unit in which the number of records in which the attribute value of the attribute appears is stored; When the distribution of the number of records satisfies the condition indicating that the deviation is large, the attribute value of the first attribute in at least one of the plurality of records is replaced with the ambiguous data, and the data is stored. Including the process of storing in the part. "
また、特開2010−72727号公報(特許文献2)には、「履歴処理装置は、まず、時系列で記録されたユーザの行動履歴データに含まれる各履歴データを履歴集合に分類するため第一の条件に基づいて、各履歴データをいくつかの履歴集合に分類する第一処理を実行する。第一処理終了後、履歴処理装置は、履歴データの記録時点および履歴データ間の類似度に関する第二の条件に基づいて、第一処理により集合に分類されずに残された孤立データを集合のいずれかに組み込む第二処理を実行する」と記載されている。 Japanese Patent Laid-Open No. 2010-72727 (Patent Document 2) states that “the history processing apparatus first classifies each history data included in the user's behavior history data recorded in time series into a history set. Based on one condition, a first process for classifying each history data into several history sets is executed, and after the first process is finished, the history processing apparatus relates to the recording time of the history data and the similarity between the history data. Based on the second condition, a second process is executed in which the isolated data remaining without being classified into the set by the first process is incorporated into any of the sets. "
特許文献1に記載された技術では、曖昧化データへ置換することで分析対象に含まれる個人情報のプライバシーを保護できるようになる。しかし、置換後の曖昧化データの情報量が置換前のデータよりも少なくなるという問題があった。
With the technique described in
また、特許文献2に記載された技術では、類似度に基づいて履歴集合を分類することで分析対象に含まれる個人情報を保護できるようになる。ここで、類似度は、処理に利用するための数値などであり、それ自体が何らかの特徴や意味を有する値ではなく、類似度だけでは、分類後のグループが、どのような基準で分類されたのかを識別するのが容易ではないという問題があった。
In the technique described in
本発明の目的は、分類後のグループが、どのような基準で分類されたのかを識別することを容易にできるようにする技術を提供することである。 An object of the present invention is to provide a technique that makes it easy to identify on which basis the classified group is classified.
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次の通りである。 Of the inventions disclosed in the present application, the outline of typical ones will be briefly described as follows.
本発明の一実施の形態は、顧客の属性を示す静的なデータと前記顧客の行動に対して蓄積されたデータとを結合した属性系列データを記憶する属性系列DBを有する。また、前記属性系列データから特徴を抽出し、抽出した前記特徴をデータとしてデータ項目と対応付けて前記属性系列DBに追加する特徴抽出部を有する。また、前記属性系列データに含まれる前記データが数値である場合、前記数値を区間へと変換する区分部を有する。また、前記属性系列DBに記憶された前記データ項目と前記データとを対応付けて一覧で表示する出力装置を有する。また、前記出力装置が一覧で表示する前記データ項目から、前記データ項目を選択する入力を受け付ける入力装置を有する。また、前記入力装置が入力を受け付けた前記データ項目に基づき抽出されるデータをグループとするグループ化部を有する。 One embodiment of the present invention has an attribute series DB that stores attribute series data obtained by combining static data indicating customer attributes and data accumulated for the customer behavior. A feature extraction unit configured to extract a feature from the attribute series data and add the extracted feature to the attribute series DB in association with a data item as data; In addition, when the data included in the attribute series data is a numerical value, there is a division unit that converts the numerical value into a section. Further, the data processing apparatus includes an output device that displays the data items stored in the attribute series DB and the data in a list in association with each other. Moreover, it has an input device which receives the input which selects the said data item from the said data item which the said output device displays with a list. The input device further includes a grouping unit that groups data extracted based on the data items received by the input device.
また、他の実施の形態では、特徴抽出部が、顧客の属性を示す静的なデータと前記顧客の行動に対して蓄積されたデータとを結合した属性系列データから特徴を抽出し、抽出した前記特徴をデータとしてデータ項目と対応付けて属性系列DBに追加するデータ項目追加ステップを有する。また、区分部が、前記属性系列データに含まれる前記データが数値である場合、前記数値を区間へと変換する数値変換ステップを有する。また、出力装置が、前記属性系列DBに記憶された前記データ項目と前記データとを対応付けて一覧で表示する表示ステップを有する。また、入力装置が、前記出力装置が一覧で表示する前記データ項目から、前記データ項目を選択する入力を受け付けるデータ項目選択ステップを有する。また、グループ化部が、前記入力装置が入力を受け付けた前記データ項目に基づき抽出されるデータをグループとするグループ化ステップを有する。 In another embodiment, the feature extraction unit extracts and extracts features from attribute series data obtained by combining static data indicating customer attributes and data accumulated for the customer behavior. A data item adding step of adding the feature as data to the attribute series DB in association with the data item; In addition, when the data included in the attribute series data is a numerical value, the sorting unit includes a numerical value conversion step of converting the numerical value into a section. In addition, the output device includes a display step of displaying the data items stored in the attribute series DB and the data in a list in association with each other. The input device may further include a data item selection step for receiving an input for selecting the data item from the data items displayed by the output device in a list. Further, the grouping unit includes a grouping step for grouping data extracted based on the data items received by the input device.
また、他の実施の形態では、特徴抽出部が、顧客の属性を示す静的なデータと前記顧客の行動に対して蓄積されたデータとを結合した属性系列データから特徴を抽出し、抽出した前記特徴をデータとしてデータ項目と対応付けて属性系列DBに追加するデータ項目追加ステップをデータ分類装置のコンピュータに実行させる。また、区分部が、前記属性系列データに含まれる前記データが数値である場合、前記数値を区間へと変換する数値変換ステップを前記コンピュータに実行させる。また、出力装置が、前記属性系列DBに記憶された前記データ項目と前記データとを対応付けて一覧で表示する表示ステップを前記コンピュータに実行させる。また、入力装置が、前記出力装置が一覧で表示する前記データ項目から、前記データ項目を選択する入力を受け付けるデータ項目選択ステップを前記コンピュータに実行させる。また、グループ化部が、前記入力装置が入力を受け付けた前記データ項目に基づき抽出されるデータをグループとするグループ化ステップを前記コンピュータに実行させる。 In another embodiment, the feature extraction unit extracts and extracts features from attribute series data obtained by combining static data indicating customer attributes and data accumulated for the customer behavior. The computer of the data classification device is caused to execute a data item adding step of adding the feature as data to the attribute series DB in association with the data item. In addition, when the data included in the attribute series data is a numerical value, the sorting unit causes the computer to execute a numerical value conversion step of converting the numerical value into an interval. Further, the output device causes the computer to execute a display step of displaying the data items stored in the attribute series DB in association with the data in a list. Further, the input device causes the computer to execute a data item selection step for receiving an input for selecting the data item from the data items displayed by the output device in a list. Further, the grouping unit causes the computer to execute a grouping step of grouping data extracted based on the data items received by the input device.
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows.
本発明の代表的な実施の形態によれば、分類後のグループが、どのような基準で分類されたのかを識別することが容易になる。 According to the representative embodiment of the present invention, it is easy to identify on which basis the classified group is classified.
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.
<全体構成>
図1は、本発明の一実施の形態におけるデータ分類装置1の構成例の概要を示す図である。図1に示されるようにデータ分類装置1は、出力装置110と、入力装置120と、属性DB131と、系列DB132と、属性系列DB133と、グループ化DB134と、データ分類部140とを有する。
<Overall configuration>
FIG. 1 is a diagram showing an outline of a configuration example of a
また、データ分類装置1は、所定のハードウェアおよびソフトウェアにより実装される。例えば、データ分類装置1は、プロセッサやメモリなどを有し、プロセッサにより実行されるメモリ上のプログラムが、データ分類装置1のコンピュータを機能させる。
Further, the
データ分類部140は、特徴抽出部141と、区分部142と、項目選択部143と、グループ化部144とを有する。
The
属性DB131には、顧客の年齢や性別などの顧客の属性を示す静的なデータである属性データが記憶される。 The attribute DB 131 stores attribute data, which is static data indicating customer attributes such as customer age and sex.
系列DB132には、例えば、顧客の購買ログや、ATMを利用した場合における顧客の取引ログなどの顧客の行動に対して蓄積されたデータである系列データが記憶される。 The series DB 132 stores, for example, series data, which is data accumulated with respect to customer behavior, such as customer purchase logs and customer transaction logs when ATMs are used.
属性系列DB133には、顧客の属性を示す静的なデータと、顧客の行動に対して蓄積されたデータとを結合した属性系列データが記憶される。属性系列データは分析対象となるデータ(以下、分析対象データと呼ぶ場合がある)である。 The attribute series DB 133 stores attribute series data obtained by combining static data indicating customer attributes and data accumulated with respect to customer behavior. The attribute series data is data to be analyzed (hereinafter sometimes referred to as analysis target data).
特徴抽出部141は、属性系列DB133から属性系列データを取得する。また、特徴抽出部141は、取得した属性系列データから特徴(データ(このデータは、属性系列データのあるデータ項目のデータが該当する。)を構成する要素の要素数や、データを構成する隣り合う要素の比率や、データに含まれる数が最も多い要素である最頻要素や、各要素の平均値など)を抽出する。さらに、特徴抽出部141は、抽出した特徴をデータとしてデータ項目と対応付けて属性系列DB133に追加する。
The
区分部142は、属性系列データに含まれるデータが数値である場合、このデータの最大値と最小値とを抽出する。また、区分部142は、抽出した最小値から最大値までの区間をL(例えば、2)等分する。これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。また、区分部142は、データである数値を、分割後の区間へと変換する。そして、区分部142は、変換後のデータを属性系列DB133に追加する。
When the data included in the attribute series data is a numerical value, the
出力装置110は、属性系列DB133に記憶されたデータ項目とデータとを一覧で選択画面(後述、図16)に表示する。
The
入力装置120は、選択画面に表示された各データ項目から1以上のデータ項目を選択する入力を受け付ける。これにより、入力装置120は、グループを生成するためのデータ項目を選択する入力を受け付ける。
The
グループ化部144は、入力装置120が入力を受け付けたデータ項目に対応するデータを属性系列DB133から取得する。また、グループ化部144は、取得したデータ同士を組み合わせることで複数のグループを生成し、属性系列データを生成したグループに基づき分類する。これにより、グループ化部144は、選択する入力を受け付けたデータ項目に基づき抽出されるデータをグループとする。また、グループ化部144は、生成したグループごとの分類結果をグループ化DB134に記憶する。
The
<属性データ>
図2は、本発明の一実施の形態における属性DB131が記憶する属性データの構成例の概要を示す図である。属性DB131には、顧客の年齢や性別などの顧客の属性を示す静的なデータである属性データが記憶される。図2に示されるように、属性データは、[ID]、[属性1(年齢)]〜[属性k(性別)]などのデータ項目からなる。[ID]は、顧客を識別するための符号を示す。[属性1]〜[属性k]は、顧客の属性を示す。例えば、[属性1]は、顧客の年齢を示し、[属性k]は、顧客の性別を示す。
<Attribute data>
FIG. 2 is a diagram showing an outline of a configuration example of attribute data stored in the
<系列データ>
図3は、本発明の一実施の形態における系列DB132が記憶する系列データの構成例の概要を示す図である。系列DB132には、例えば、顧客の購買ログや、ATMを利用した場合における顧客の取引ログなどの顧客の行動に対して蓄積されたデータである系列データが記憶される。図3に示されるように、系列データは、[ID]、[日付]、[取引]、[店舗]などのデータ項目からなる。[日付]は、取引がされた日付を示す。[取引]は、取引の内容を示す。[店舗]は、取引がされた店舗の名称を示す。
<Series data>
FIG. 3 is a diagram showing an outline of a configuration example of the sequence data stored in the
なお、図4に示されるように、系列データを[ID]、[年月]、[残高]などから構成するようにしても良い。[残高]は、[年月]から特定される日付(例えば対応する月の月末)における残高を示す。 As shown in FIG. 4, the series data may be composed of [ID], [year / month], [balance], and the like. [Balance] indicates the balance on a date (for example, the end of the corresponding month) specified from [Year / Month].
<属性系列データ>
図5は、本発明の一実施の形態における属性系列DB133が記憶する属性系列データの構成例の概要を示す図である。属性系列DB133には、顧客の属性を示す静的なデータと、顧客の行動に対して蓄積されたデータとを結合した属性系列データが記憶される。図5に示されるように、属性系列データは、[ID]が同一の属性データと系列データとが結合されることで生成される。具体的には、図3の系列データの場合、[日付]の任意範囲(例えば、2013/7)のデータから、[ID]ごとに、[日付]の昇順に[取引]の値を左から並べたリストを生成し、[2013/7 取引]が結合される。属性系列データは、[属性1(年齢)]〜[属性k(性別)]、[系列1(2013/7 取引)]〜[系列m(2013/4 残高,2013/5 残高,2013/6 残高,・・・)]などのデータ項目からなる。
<Attribute series data>
FIG. 5 is a diagram showing an outline of a configuration example of attribute series data stored in the attribute series DB 133 according to the embodiment of the present invention. The attribute series DB 133 stores attribute series data obtained by combining static data indicating customer attributes and data accumulated with respect to customer behavior. As shown in FIG. 5, the attribute series data is generated by combining attribute data having the same [ID] and series data. Specifically, in the case of the series data shown in FIG. 3, from the data in an arbitrary range of [date] (for example, 2013/7), the value of [transaction] from the left in ascending order of [date] for each [ID]. A side-by-side list is generated and [2013/7 Transactions] are combined. The attribute series data includes [attribute 1 (age)] to [attribute k (gender)], [series 1 (2013/7 transaction)] to [series m (2013/4 balance, 2013/5 balance, 2013/6 balance). , ...)].
<全体処理>
図6は、本発明の一実施の形態における全体処理の概要を示す図である。
<Overall processing>
FIG. 6 is a diagram showing an overview of the overall processing in one embodiment of the present invention.
まず、S601にて、特徴抽出処理(後述、図7)が実行される。特徴抽出処理では、特徴抽出部141は、複数の要素から算出されるデータの特徴(データを構成する要素の要素数や、データを構成する隣り合う要素の比率や、データに含まれる数が最も多い要素である最頻要素や、各要素の平均値など)を抽出する。そして、特徴抽出部141は、抽出した特徴をデータ項目とするデータを属性系列DB133に追加する。
First, in S601, a feature extraction process (described later, FIG. 7) is executed. In the feature extraction process, the
次に、S602にて、区分処理(後述、図12)が実行される。区分処理では、区分部142は、属性系列データに含まれるデータが数値である場合、このデータである数値の最大値と最小値とを抽出する。そして、区分部142は、抽出した最小値から最大値までの区間をL(例えば、2)等分する。これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。また、区分部142は、データである各数値を、分割後の区間へと変換する。そして、区分部142は、変換後のデータを属性系列DB133に追加する。
Next, in S602, sorting processing (described later, FIG. 12) is executed. In the classification process, when the data included in the attribute series data is a numerical value, the
次に、S603にて、項目選択処理(後述、図15)が実行される。項目選択処理では、入力装置120は、グループを生成するための[データ項目]を選択する入力を受け付ける。
Next, in S603, an item selection process (described later, FIG. 15) is executed. In the item selection process, the
次に、S604にて、グループ化処理(後述、図17)が実行される。グループ化処理では、項目選択処理にて選択する入力を受け付けた各データ項目のデータ同士を組み合わせることでグループを生成する。また、グループ化部144は、生成した各グループをグループ化DB134(後述、図18)に記憶する。
Next, in S604, a grouping process (described later, FIG. 17) is executed. In the grouping process, a group is generated by combining data of each data item that has received an input to be selected in the item selection process. The
<特徴抽出処理>
図7は、本発明の一実施の形態における特徴抽出処理の概要を示す図である。
<Feature extraction process>
FIG. 7 is a diagram showing an outline of the feature extraction processing in one embodiment of the present invention.
まず、S701にて、特徴抽出部141は、属性系列DB(前述、図5)133に記憶される属性系列データに含まれるデータ項目から一つのデータ項目を選択する。なお、特徴抽出部141は、未選択のデータ項目を選択する。
First, in S701, the
次に、S702にて、特徴抽出部141は、S701にて選択したデータ項目のデータがリストかを判定する。なお、特徴抽出部141は、データ項目のデータが複数の要素から構成されている場合に、このデータがリストであると判定する。S702にて、特徴抽出部141が、データ項目のデータがリストであると判定する場合(S702−Yes)、S703へ進む。一方、S702にて、特徴抽出部141が、データ項目のデータがリストではないと判定する場合(S702−No)、S712へ進む。例えば、S701にて選択したデータ項目が[属性1(年齢)]である場合、データに含まれる要素は一つであるため、特徴抽出部141は、データがリストではないと判定する。一方、S701にて選択したデータ項目が、[系列1(2013/7 取引)]である場合、データに含まれる要素が複数であるため、特徴抽出部141は、データがリストであると判定する。
Next, in S702, the
S703にて、特徴抽出部141は、S701にて選択したデータ項目のデータを属性系列DB133からすべて取得する。例えば、S701にて選択したデータ項目が、[系列1(2013/7 取引)]である場合、特徴抽出部141は、このデータ項目のデータである「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」を属性系列DB133から取得する。
In S703, the
次に、S704にて、特徴抽出部141は、S703にて取得した各データを構成する要素の要素数を算出する。例えば、S703で取得したデータが、「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」である場合、特徴抽出部141は、各データの要素数を「3」と算出する。
Next, in S704, the
次に、S705にて、特徴抽出部141は、S704にて算出した各要素数がすべて一致するかを判定する。S705にて、特徴抽出部141が、各要素数がすべて一致すると判定する場合(S705−Yes)、データの特徴を各要素の傾向から抽出できる。そのため、各要素数がすべて一致する場合は、各要素間を比較することで算出される比率(比率は、S707にて算出される)、または、データに含まれる数が最も多い要素である最頻要素(最頻要素は、S708にて抽出される)を特徴として抽出するために、S706へ進む。一方、S705にて、特徴抽出部141が、各要素数が一致しないと判定する場合(S705−No)、データの特徴を各要素の傾向からは抽出できない。そのため、各要素数が等しくない場合には、各要素の代表値の一例である平均値(平均値は、S710にて算出される)や、データの中で重複する要素を除外した出現種類(出現種類は、S711にて抽出される)を特徴として抽出するために、S709へ進む。
In step S <b> 705, the
S706にて、特徴抽出部141は、S703にて取得したデータを構成する要素が数値であるかを判定する。S706にて、特徴抽出部141が、要素が数値であると判定する場合(S706−Yes)、S707へ進む。一方、S706にて、特徴抽出部141が、要素が数値ではないと判定する場合(S706−No)、S708へ進む。例えば、S701にて選択したデータ項目が[系列m(2013/4 残高,2013/5 残高,2013/6 残高,・・・)]であり、S703にて取得したデータが、「100,80,…,250,500」、「100,120,…,100,150」、「300,450,…,300,300」、「500,900,…,250,500」、「120,48,…,200,200」である場合、特徴抽出部141は、データを構成する要素が数値であると判定する。一方、S701にて選択したデータ項目が[系列1(2013/7 取引)]であり、S703にて取得したデータが、「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」である場合、特徴抽出部141は、データを構成する要素が数値ではないと判定する。
In S706, the
S707にて、特徴抽出部141は、S703にて取得した各データを構成する、隣り合う要素同士を比較することで各比率を算出する。より詳細には、要素数がNである場合、特徴抽出部141は、1番目の要素と2番目の要素との比率を1番目の比率として算出し、2番目の要素と3番目の要素との比率を2番目の比率として算出し、N−1番目の要素とN番目の要素との比率をN−1番目の比率として算出する。そして、図8に示されるように算出した各比率を属性系列DB133に追加する。例えば、特徴抽出部141は、S703にて取得したデータ「100,80,…,250,500」について比率「0.8…,2.0」を算出し、「100,120,…,100,150」について比率「1.2…,1.5」を算出し、「300,450,…,300,300」について比率「1.5…,1.0」を算出し、「500,900,…,250,500」、について比率「1.8…,2.0」を算出し、「120,48,…,200,200」について比率「0.4…,1.0」を算出する。そして、特徴抽出部141は、図8に示されるように算出した各比率を、データ項目[系列m(比率)]と対応付けて属性系列DB133に追加する。
In S707, the
S708にて、特徴抽出部141は、S703にて取得したデータを構成する各要素の中で、データに含まれる数が最も多い要素を最頻要素として抽出する。そして、特徴抽出部141は、図9に示されるように抽出した各最頻要素を、データ項目[系列1(最頻要素)]と対応付けて属性系列DB133に追加する。例えば、S703にて取得したデータ「支払,支払,振込」について、特徴抽出部141は、「支払」を最頻要素として抽出する。また、データ「支払,支払,支払」について、特徴抽出部141は、「支払」を最頻要素として抽出する。また、データ「残照,残照,振込」について特徴抽出部141は、「残照」を最頻要素として抽出する。また、データ「振込,振込,残照」について、特徴抽出部141は、「振込」を最頻要素として抽出する。そして、特徴抽出部141は、図9に示されるように抽出した各最頻要素を属性系列DB133に追加する。なお、最頻要素が複数存在する場合、特徴抽出部141は、各最頻要素を属性系列DB133に記憶するようにしても良いし、最後に記憶された方の要素を最頻要素として属性系列DB133に記憶するようにしても良い。特徴抽出部141が、抽出した各最頻要素を属性系列DB133に追加した後、S712へ進む。
In S708, the
S709にて、特徴抽出部141は、S703にて取得したデータを構成する要素が数値であるかを判定する。S709にて、特徴抽出部141が、要素が数値であると判定する場合(S709−Yes)、S710へ進む。一方、S709にて、特徴抽出部141が、要素が数値ではないと判定する場合(S709−No)、S711へ進む。
In step S709, the
S710にて、特徴抽出部141は、S704にて算出した各要素数を、図10に示されるように、データ項目[系列2(要素数)]と対応付けて属性系列DB133に追加する。また、特徴抽出部141は、各要素の平均値を算出し、算出した平均値を図10に示されるように、データ項目[系列2(平均値)]と対応付けて属性系列DB133に追加する。
In S710, the
S711にて、特徴抽出部141は、S703にて取得したデータを構成する各要素から、データの中で重複する要素を除外することで出現種類を抽出し、抽出した出現種類を、図11に示されるように属性系列DB133に追加する。また、特徴抽出部141は、S704にて算出した各要素数を図11に示されるように属性系列DB133に追加する。
In S711, the
次に、S712にて、特徴抽出部141は、S701にて属性系列データに含まれるすべてのデータ項目を選択したかを判定する。S712にて、特徴抽出部141が、すべてのデータ項目を選択したと判定する場合(S712−Yes)、特徴抽出処理を終了する。一方、特徴抽出部141が、すべてのデータ項目を選択していないと判定する場合(S712−No)、S701へ進む。
Next, in S712, the
<区分処理>
図12は、本発明の一実施の形態における区分処理の概要を示す図である。
<Classification processing>
FIG. 12 is a diagram showing an outline of the sorting process according to the embodiment of the present invention.
まず、S1201にて、区分部142は、属性系列データに含まれるデータ項目から一つのデータ項目を選択する。なお、区分部142は、未選択のデータ項目を選択する。
First, in S1201, the
次に、S1202にて、区分部142は、S1201にて選択したデータ項目のデータをすべて取得する。例えば、S1201にて選択したデータ項目が、[系列1(2013/7 取引)]である場合には、区分部142は、このデータ項目のすべてのデータである「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」を属性系列DB(前述、図5)133から取得する。
Next, in S1202, the
次に、S1203にて、区分部142は、S1202にて取得したデータから、重複するデータを除外する。そして、区分部142は、重複するデータを除外した後のデータの数を算出する。
Next, in S1203, the
次に、S1204にて、区分部142は、閾値Lを取得する。S1203にて算出したデータの数が取得した閾値Lを超えるかを判定する。区分部142が、データの数が閾値Lを超えないと判定する場合(S1204−No)、S1212へ進む。一方、区分部142が、データの数が閾値Lを超えると判定する場合(S1204−Yes)、S1205へ進む。なお、閾値Lは、予め設定ファイルに記載されている。区分部142は、設定ファイルを読み込むことで閾値Lを取得する。
Next, in S1204, the
S1205にて、区分部142は、S1201にて選択したデータ項目のデータがリストかを判定する。S1205にて、区分部142が、データ項目のデータがリストであると判定する場合(S1205−Yes)、S1206へ進む。一方、S1205にて、区分部142が、データ項目のデータがリストではないと判定する場合(S1205−No)、S1209へ進む。
In S1205, the
S1206にて、区分部142は、S1202にて取得したデータを構成する要素が数値であるかを判定する。S1206にて、区分部142が、要素が数値であると判定する場合(S1206−Yes)、S1207へ進む。一方、S1206にて、区分部142が、要素が数値ではないと判定する場合(S1206−No)、S1212へ進む。
In S1206, the
S1207にて、区分部142は、S1202にて取得したデータごとに、データを構成する各要素の最小値と最大値とを抽出する。そして、区分部142は、抽出した最小値から最大値までの区間を、L(例えば、2)等分する。これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。例えば、S1202にてデータ項目[系列j]のデータである「1,1,3」、「2,5,4」、「3,4,6」、「2,3,2」、「1,1,6」が属性系列DB133から取得された場合、区分部142は、最小値「1」と最大値「6」とを抽出する。そして、区分部142は、抽出した最小値「1」から最大値「6」までの区間「1〜6」を2等分することで、「1〜3.5」([1,3.6)に相当し、1以上3.6未満を意味する)の区間と「3.6〜6」([3.6,6]に相当し、3.6以上6以下を意味する)の区間とへ分割する。このように、データを構成する各要素の最小値と最大値をL個へと分割した区間を生成し、生成した区間を各要素に対して適用することで、分割後の区間数をL個に抑えることができる。そのため、要素ごとに区間を分割するよりも、区間の数を減少させることができ、より可読性を向上させることができるようになる。
In S1207, the
次に、S1208にて、区分部142は、S1201にて選択したデータ項目のデータを構成する各要素を、S1207にて分割した後に要素が含まれる区間へと変換し、変換後のデータを図13に示されるように属性系列DB133に追加し、S1212へ進む。例えば、区分部142は、データ項目[系列j]のデータを構成する要素である「1」を「1〜3.5」へ、「2」を「1〜3.5」へ、「3」を「1〜3.5」へ、「4」を「3.6〜6」へ、「5」を「3.6〜6」へ、「6」を「3.6〜6」へと変換し、変換後のデータ「1〜3.5,1〜3.5,1〜3.5」、「1〜3.5,3.6〜6,3.6〜6」、「1〜3.5,3.6〜6,3.6〜6」、「1〜3.5,1〜3.5,1〜3.5」、「1〜3.5,1〜3.5,3.6〜6」を、図13に示されるように属性系列DB133に追加する。
Next, in S1208, the
S1209にて、区分部142は、S1202にて取得したデータが数値であるかを判定する。S1209にて、区分部142が、データが数値であると判定する場合(S1209−Yes)、S1210へ進む。一方、S1209にて、区分部142が、データが数値ではないと判定する場合(S1209−No)、S1212へ進む。
In S1209, the
S1210にて、区分部142は、S1202にて取得したデータごとに、データの最小値と最大値とを抽出する。そして、区分部142は、抽出した最小値から最大値までの区間をL(例えば、2)等分する。これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。例えば、S1202にてデータ項目[属性i]のデータである「1」、「6」、「4」、「3」、「2」が属性系列DB133から取得された場合、区分部142は、最小値「1」と最大値「6」とを抽出する。そして、区分部142は、抽出した最小値「1」から最大値「6」までの区間「1〜6」を2等分することで、「1〜3」の区間と「4〜6」の区間とへ分割する。
In S1210, the
次に、S1211にて、区分部142は、S1201にて選択したデータ項目の各データを、S1210にて分割した後にデータが含まれる区間へと変換し、変換後のデータを図14に示されるように属性系列DB133に追加し、S1212へ進む。例えば、区分部142は、データ項目[属性i]のデータ「1」を「1〜3」へ、「2」を「1〜3」へ、「3」を「4〜6」へ、「4」を「4〜6」へ、「5」を「4〜6」へと変換し、変換後のデータ「1〜3」、「4〜6」、「4〜6」、「4〜6」、「1〜3」を、図14に示されるように属性系列DB133に追加する。
Next, in S1211, the
S1212にて、区分部142は、S1201にて属性系列データに含まれるすべてのデータ項目を選択したかを判定する。S1212にて、区分部142が、すべてのデータ項目を選択したと判定する場合(S1212−Yes)、区分処理を終了する。一方、区分部142が、すべてのデータ項目を選択していないと判定する場合(S1212−No)、S1201へ進む。
In S1212, the
<項目選択処理>
図15は、本発明の一実施の形態における項目選択処理の概要を示す図である。
<Item selection process>
FIG. 15 is a diagram showing an outline of the item selection processing in the embodiment of the present invention.
まず、S1501にて、項目選択部143は、属性系列DB133に記憶された属性系列データをすべて取得する。
First, in S1501, the
次に、S1502にて、項目選択部143は、S1501にて取得した属性系列データを出力装置110に入力する。
Next, in S1502, the
次に、S1503にて、出力装置110は、S1502にて入力された属性系列データに基づき、選択画面(後述、図16)を表示する。以下、図16を用いて選択画面について説明する。
In step S1503, the
図16に示されるように選択画面には、選択欄と、[データ項目]と、[型]と、[データ数]と、[加工]と、[加工元]と、[データ]とが表示される。[データ項目]は、データ項目の名称を示す。[型]は、[データ]の型を示す。[型]としては、「数値」「数値リスト」「文字」などが該当する。「数値」は、[データ]が一つの要素から構成されることを示す。「数値リスト」は[データ]が複数の要素から構成されることを示す。「文字」は、[データ]が文字から構成されることを示す。[データ数]は、データの数を示す。[加工]は、区分処理にて、[データ]が数値から区間へ変換されたかを示す。「元データ」は[データ]が加工される前の数値を示す。また、[加工元]は、変換される前の元データのデータ項目の名称を示す。[データ]は、データの内容を示す。 As shown in FIG. 16, a selection field, [data item], [type], [number of data], [processing], [processing source], and [data] are displayed on the selection screen. Is done. [Data item] indicates the name of the data item. [Type] indicates the type of [Data]. [Type] corresponds to “number”, “number list”, “character”, and the like. “Numerical value” indicates that [data] is composed of one element. “Numeric list” indicates that [data] is composed of a plurality of elements. “Character” indicates that [DATA] is composed of characters. [Number of data] indicates the number of data. [Processing] indicates whether [Data] is converted from a numerical value to a section in the classification process. “Original data” indicates a numerical value before [data] is processed. [Processing source] indicates the name of the data item of the original data before conversion. [Data] indicates the contents of the data.
入力装置120は、選択画面に表示された各[データ項目]から、1以上の[データ項目]を選択する入力を受け付ける。入力装置120が[データ項目]を選択する入力を受け付けると、選択された[データ項目]と対応する選択欄にチェック1601が表示される。
The
なお、項目選択部143は、[データ]が加工された[データ項目]については、加工前の[データ項目]または加工後の[データ項目]のいずれか一方しか選択されないように、出力装置110を制御する。
Note that the
つまり、項目選択部143は、加工前の[データ項目]が既に選択されている状態で、加工後の[データ項目]が選択されたとしても、加工後の[データ項目]と対応する選択欄のみにチェック1601が表示されるように出力装置110を制御する。詳細には、項目選択部143は、選択された[データ項目]に対応する[加工]を参照する。そして、項目選択部143は、[加工]に「区間」が記憶されている場合には、対応する[加工元]を参照する。そして、項目選択部143は、[加工元]に記憶される[データ項目]を参照し、[データ項目]が既に選択されている場合には、この[データ項目]と対応する選択欄に表示されているチェック1601が消去されるように出力装置110を制御する。また、項目選択部143は、新たに選択された加工後の[データ項目]と対応する選択欄にチェック1601が表示されるように出力装置110を制御する。
That is, the
また、項目選択部143は、加工後の[データ項目]が既に選択されている状態で加工前の[データ項目]が選択されたとしても、加工前の[データ項目]と対応する選択欄のみにチェック1601が表示されるように出力装置110を制御する。詳細には、選択された[データ項目]に対応する[加工]を参照する。そして、項目選択部143は、[加工]に「区間」が記憶されていない場合には、対応する[加工元]に記憶されている[データ項目]が[加工元]に記憶され、[加工]に「区間」が記憶され、選択欄にチェック1601が表示されている[データ項目]を抽出する。そして、項目選択部143は、抽出した[データ項目]と対応する選択欄に表示されているチェック1601が消去されるように出力装置110を制御する。また、項目選択部143は、新たに選択された加工前の[データ項目]と対応する選択欄にチェック1601が表示されるように出力装置110を制御する。
Moreover, even if the [data item] before processing is selected while the [data item] after processing is already selected, the
また、出力装置110は、最大グループ数1602を表示する。最大グループ数1602は、選択された[データ項目]の各[データ数]同士を乗算した数が該当する。
Further, the
また、出力装置110は、選択完了ボタン1603を表示する。入力装置120が選択完了ボタン1603を選択する入力を受け付けると、項目選択処理を終了する。
Further, the
<グループ化処理>
図17は、本発明の一実施の形態におけるグループ化処理の概要を示す図である。
<Grouping process>
FIG. 17 is a diagram showing an outline of the grouping process according to the embodiment of the present invention.
まず、S1701にて、グループ化部144は、S1503にて選択する入力を受け付けたデータ項目のデータに基づき、グループを生成する。詳細には、グループ化部144は、各データ項目のデータ同士を組み合わせることで、グループを生成する。例えば、S1503にて選択する入力を受けつけたデータ項目が、「属性i(区間)」と、[属性k]と、[系列j(区間)]である場合、「属性i(区間)」のデータは「1〜3」と「4〜6」であり、[属性k]のデータは「男性」と「女性」であり、[系列j(区間)]のデータは「1〜3.5,1〜3.5,1〜3.5」と「1〜3.5,3.6〜6,3.6〜6」である。この場合、グループ化部144は、「属性i(区間)」のデータ「1〜3」、「4〜6」と[属性k]のデータ「男性」、「女性」と[系列j(区間)]のデータ「1〜3.5,1〜3.5,1〜3.5」、「1〜3.5,3.6〜6,3.6〜6」同士を組み合わせたグループである「1〜3,男性,{1〜3.5,1〜3.5,1〜3.5}」と、「1〜3,女性,{1〜3.5,1〜3.5,1〜3.5}」と、「1〜3,男性,{1〜3.5,3.6〜6,3.6〜6}」と、「1〜3,女性,{1〜3.5,3.6〜6,3.6〜6}」と、「4〜6,男性,{1〜3.5,1〜3.5,1〜3.5}」と、「4〜6,女性,{1〜3.5,1〜3.5,1〜3.5}」と、「4〜6,男性,{1〜3.5,3.6〜6,3.6〜6}」と、「4〜6,女性,{1〜3.5,3.6〜6,3.6〜6}」とを生成する。
First, in S1701, the
次に、S1702にて、グループ化部144は、S1701にて生成したグループに含まれる各データをキーに属性系列DB133を検索することで、属性系列DB133に記憶される属性系列データをグループごとに分類する。また、グループ化部144は、キーと一致するデータの件数(以下、カウントと呼ぶ場合がある)をグループごとに算出する。これにより、グループごとのグループに属するデータの件数が算出される。
Next, in S1702, the
次に、S1703にて、グループ化部144は、S1702にて抽出したすべてのレコードの行番号(以下、行番号リストと呼ぶ場合がある)をグループごとにすべて抽出する。
Next, in S <b> 1703, the
次に、S1704にて、グループ化部144は、S1503にて選択する入力を受け付けたデータ項目の中から一つのデータ項目を選択する。なお、グループ化部144は、未選択のデータ項目を選択する。
Next, in S1704, the
次に、S1705にて、グループ化部144は、S1701にて生成した各グループと、S1702にて算出した各カウントと、S1703にて抽出した各行番号とを対応付けたグループ化データを、図18に示されるようにグループ化DB134に記憶する。
Next, in S1705, the
次に、S1706にて、グループ化部144は、S1704にて選択したデータ項目のデータが加工された後の区間であるかを判定する。S1706にて、グループ化部144が、データが区間であると判定する場合(S1706−Yes)、S1707へ進む。一方、S1706にて、グループ化部144が、データが区間でないと判定する場合(S1706−No)、S1708へ進む。
Next, in S1706, the
S1707にて、グループ化部144は、行番号リストに含まれる各行番号に対応する数値をグループごとに取得する。そして、グループ化部144は、取得した数値に基づき、S1704にて選択したデータ項目のデータの最小値と最大値と平均値とを算出する。これにより、グループ化部144は、区間に対応する数値を算出する。そして、グループ化部144は、算出した最小値と最大値と平均値とをグループ化DB134に追加する。
In S1707,
S1708にて、グループ化部144は、S1704にてすべてのデータ項目を選択したかを判定する。S1708にて、グループ化部144が、すべてのデータ項目を選択したと判定する場合(S1708−Yes)、グループ化処理を終了する。一方、グループ化部144が、すべてのデータ項目を選択していないと判定する場合(S1708−No)、S1704へ進む。
In S1708, the
<本実施の形態の効果>
以上説明した本実施の形態におけるデータ分類装置1によれば、入力装置120が選択する入力を受け付けたデータ項目に基づき抽出されるデータをグループとすることで、分類後のグループが、どのような基準で分類されたのかを識別することが容易になる。
<Effects of the present embodiment>
According to the
また、区間に対応する数値である最小値、最大値、平均値を算出することで、区間が同じデータに対して、データの違いを示せるようになる。 In addition, by calculating the minimum value, maximum value, and average value, which are numerical values corresponding to the sections, the difference in data can be shown for data having the same section.
また、グループごとにグループに属するデータの件数を算出することで、グループに属するデータの件数を重みとして、グループを重み付きのデータとして扱った分析が可能になる。 Further, by calculating the number of data belonging to the group for each group, it is possible to perform analysis in which the number of data belonging to the group is used as a weight and the group is handled as weighted data.
また、各要素間を比較することで算出される比率、または、データに含まれる数が最も多い要素である最頻要素を特徴として抽出することで、データの特徴を各要素の傾向から抽出できるようになる。 In addition, the characteristics of data can be extracted from the tendency of each element by extracting the ratio calculated by comparing each element or the most frequent element that is the element with the largest number included in the data as the feature. It becomes like this.
また、各要素の代表値の一例である平均値や、データの中で重複する要素を除外した出現種類を特徴として抽出することで、データの特徴を各要素の傾向から抽出できない場合であっても、各要素の代表値からデータの特徴を抽出できるようになる。 In addition, it is a case where the feature of the data cannot be extracted from the tendency of each element by extracting the average value which is an example of the representative value of each element or the appearance type excluding duplicate elements in the data as the feature. In addition, the feature of the data can be extracted from the representative value of each element.
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、分析対象データとして、属性系列データ以外のデータを適用するようにしても良い。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say. For example, data other than attribute series data may be applied as the analysis target data.
1…データ分類装置、110…出力装置、120…入力装置、131…属性DB、132…系列DB、133…属性系列DB、134…グループ化DB、140…データ分類部、141…特徴抽出部、142…区分部、143…項目選択部、144…グループ化部、1601…チェック、1602…最大グループ数、1603…選択完了ボタン
DESCRIPTION OF
Claims (9)
前記顧客の識別情報と、当該顧客の行動を示す行動履歴と、当該顧客の行動の日時とを、それぞれのデータのデータ項目に対応付けて記憶する系列DBと、
前記属性DBの顧客の識別情報と、前記系列DBの顧客の識別情報とに基づいて、顧客の識別情報と、前記属性DBの顧客の属性と、前記系列DBの行動履歴を系列DBの顧客の日時に基づいた期間で日時順に連結したリストデータとを含む属性系列データを、当該属性系列データのそれぞれのデータのデータ項目に対応付けて記憶する属性系列DBと、
前記属性系列データから特徴を抽出し、抽出した前記特徴のデータを、当該特徴のデータのデータ項目と対応付けて前記属性系列DBに追加する特徴抽出部と、
前記属性系列データに含まれるデータが数値である場合、前記数値を区間へと変換する区分部と、
前記属性系列DBに記憶されたデータ項目を一覧で表示する出力装置と、
前記出力装置が一覧で表示するデータ項目から、グループを生成するためのデータ項目を選択する入力を受け付ける入力装置と、
前記入力装置が入力を受け付けたデータ項目に対応するデータの種類に基づいて、前記属性系列DBに記憶されている属性系列データをグループ化するグループ化部と、
を有し、
前記特徴抽出部は、前記特徴として、各リストデータを構成する行動履歴である要素における隣接する要素を比較した比率、各リストデータを構成する要素における最頻出値、各リストデータを構成する要素における平均値、及び各リストデータを構成する要素における出現種類の少なくとも一つを算出する、データ分類装置。 An attribute DB that stores customer identification information and customer attributes in association with data items of the respective data;
A series DB for storing the customer identification information, an action history indicating the action of the customer, and a date and time of the action of the customer in association with data items of the respective data;
Based on the identification information of the customer in the attribute DB and the identification information of the customer in the series DB, the customer identification information, the attribute of the customer in the attribute DB, and the action history of the series DB An attribute series DB for storing attribute series data including list data linked in chronological order in a period based on date and time in association with data items of the respective data of the attribute series data ;
The data of the attribute-series data to extract features from the extracted the feature, the feature extraction unit in association with the data item of the data of the feature to add to the attribute lines DB,
When the is an attribute included in the sequence data Lud chromatography data is numeric, a classification unit for converting the numerical into sections,
An output device for displaying a data item stored in the attribute lines DB in the list,
From Lud over data item displays the output device in the list, an input device that receives an input for selecting a data item for generating the group,
And based on the type of data corresponding to the data item that the input device accepts the input, and a grouping unit for grouping attributes series data stored in the attribute lines DB,
I have a,
The feature extraction unit includes, as the feature, a ratio of comparing adjacent elements in an element that is an action history constituting each list data, a most frequent value in an element constituting each list data, and an element constituting each list data A data classification device that calculates at least one of an average value and an appearance type in an element constituting each list data .
前記グループ化部によりグループ化された結果を記憶するグループ化DBをさらに備え、
前記グループ化部は、前記グループ化したグループ毎の分類結果を前記グループ化DBに記憶する、データ分類装置。 The data classification device according to claim 1, wherein
A grouping DB for storing results grouped by the grouping unit;
The said grouping part is a data classification apparatus which memorize | stores the classification result for every group in which it grouped in said grouping DB .
前記区分部は、前記変換したデータを、区間に変換したことを示すデータ項目と対応付けて前記属性系列DBへ追加し、
前記グループ化部は、前記属性系列DBを参照し、前記入力装置が入力を受け付けたデータ項目の値がすべて一致する顧客を同一グループとするようにグループを生成し、前記入力装置が入力を受け付けたデータ項目が、前記区間に変換したことを示すデータ項目である場合、前記属性系列DBを参照し、同一グループに属する当該区間に変換する前の数値を用いて平均値、最小値、最大値をグループ毎で算出し、同一グループに属する属性系列データの件数をグループ毎に算出し、算出した平均値、最小値、最大値、および件数をグループ化DBに前記分類結果として、記憶する、データ分類装置。 The data classification device according to claim 2 ,
The sorting unit adds the converted data to the attribute series DB in association with a data item indicating that the data has been converted into sections.
The grouping unit refers to the attribute series DB, generates a group so that customers whose data items that the input device accepts all of the values match are in the same group, and the input device accepts the input. If the data item is a data item indicating that it has been converted into the section, the average value, minimum value, and maximum value are referred to using the numerical values before conversion into the section belonging to the same group with reference to the attribute series DB. Is calculated for each group, the number of attribute series data belonging to the same group is calculated for each group, and the calculated average value, minimum value, maximum value, and number are stored as the classification result in the grouping DB. Classification device.
前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数がすべて一致し、当該要素が数値である場合には、前記特徴として隣接する要素を比較した比率を算出する、データ分類装置。 In the data classification device according to any one of claims 1 to 3,
The feature extraction unit, the attribute lines the number of elements in an element that is action history constituting each list data included in the data matches all, if the elements are numeric, compares the adjacent elements as the feature A data classification device that calculates the calculated ratio.
前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数がすべて一致し、当該要素が数値ではない場合には、前記特徴として各リストデータの要素における最頻出値を抽出する、データ分類装置。 In the data classification device according to any one of claims 1 to 4 ,
The feature extraction unit, the attribute-series data element number matches all the elements that are action history constituting each list data contained in the case the element is not numeric, the elements of each list data as the feature extracting the most frequent value in a data classification device.
前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数が一致せず、当該要素が数値である場合には、前記特徴として各リストデータの要素における平均値を算出する、データ分類装置。 In the data classification device according to any one of claims 1 to 5 ,
The feature extraction unit, the attribute-series data without matching the number of elements in an element that is action history constituting each list data included, if the element is a numerical value, the elements of each list data as the feature A data classification device for calculating an average value in
前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数が一致せず、当該要素が数値ではない場合には、前記特徴として各リストデータの要素における出現種類を抽出する、データ分類装置。 In the data classification device according to any one of claims 1 to 6 ,
The feature extraction unit, the attribute-series data without matching the number of elements in an element that is action history constituting each list data included, if the element is not numeric, the elements of each list data as the feature A data classification device that extracts appearance types.
前記顧客の識別情報と、当該顧客の行動を示す行動履歴と、当該顧客の行動の日時とを、それぞれのデータのデータ項目に対応付けて記憶する系列DBと、
前記属性DBの顧客の識別情報と、前記系列DBの顧客の識別情報とに基づいて、顧客の識別情報と、前記属性DBの顧客の属性と、前記系列DBの行動履歴を系列DBの顧客の日時に基づいた期間で日時順に連結したトデータとを含む属性系列データを、当該属性系列データのそれぞれのデータのデータ項目に対応付けて記憶する属性系列DBと、を有するデータ分類装置で実行するデータ分類方法であって、
特徴抽出部が、前記属性系列データから特徴を抽出し、抽出した前記特徴のデータを、当該特徴のデータのデータ項目と対応付けて前記属性系列DBに追加するデータ項目追加ステップと、
区分部が、前記属性系列データに含まれるデータが数値である場合、前記数値を区間へと変換する数値変換ステップと、
出力装置が、前記属性系列DBに記憶されたデータ項目を一覧で表示する表示ステップと、
入力装置が、前記出力装置が一覧で表示するデータ項目から、グループを生成するためのデータ項目を選択する入力を受け付けるデータ項目選択ステップと、
グループ化部が、前記入力装置が入力を受け付けたデータ項目に対応するデータの種類に基づいて、前記属性系列DBに記憶されている属性系列データをグループ化するグループ化ステップと、
を有し、
前記データ項目追加ステップは、前記特徴として、各リストデータを構成する行動履歴である要素における隣接する要素を比較した比率、各リストデータを構成する要素における最頻出値、各リストデータを構成する要素における平均値、及び各リストデータを構成する要素における出現種類の少なくとも一つを算出する、
データ分類方法。 An attribute DB that stores customer identification information and customer attributes in association with data items of the respective data;
A series DB for storing the customer identification information, an action history indicating the action of the customer, and a date and time of the action of the customer in association with data items of the respective data;
Based on the identification information of the customer in the attribute DB and the identification information of the customer in the series DB, the customer identification information, the attribute of the customer in the attribute DB, and the action history of the series DB Data to be executed by a data classification apparatus having an attribute series DB that stores attribute series data including data that is linked in order of date and time in a period based on date and time in association with data items of the respective data of the attribute series data A classification method,
Feature extraction unit, the attribute extracting features from sequence data, the data of the extracted the feature, the data items additional step of adding in association with the data item in the data of the feature in the attribute lines DB,
If classification unit, Lud over data included in the attribute-series data it is numeric, and numeric conversion step of converting the numerical into sections,
Output device, and a display step of displaying the data item stored in the attribute lines DB in the list,
Input device, from Lud over data item displays the output device in the list, a data item selection step of accepting an input to select data items to generate a group,
Grouping unit, a grouping step of the input device is have group Dzu the type of data corresponding to the data item the input of which is accepted, to group attributes series data stored in the attribute lines DB,
I have a,
The data item adding step includes, as the characteristics, a ratio of comparing adjacent elements in elements that are action histories constituting each list data, a most frequent value in elements constituting each list data, and elements constituting each list data Calculating at least one of the average value and the appearance type in the elements constituting each list data,
Data classification method.
前記顧客の識別情報と、当該顧客の行動を示す行動履歴と、当該顧客の行動の日時とを、それぞれのデータのデータ項目に対応付けて記憶する系列DBと、
前記属性DBの顧客の識別情報と、前記系列DBの顧客の識別情報とに基づいて、顧客の識別情報と、前記属性DBの顧客の属性と、前記系列DBの行動履歴を系列DBの顧客の日時に基づいた期間で日時順に連結したリストデータとを含む属性系列データを、当該属性系列データのそれぞれのデータのデータ項目に対応付けて記憶する属性系列DBと、を有するデータ分類装置のコンピュータに実行させるデータ分類プログラムであって、
特徴抽出部が、前記属性系列データから特徴を抽出し、抽出した前記特徴のデータを、当該特徴のデータのデータ項目と対応付けて前記属性系列DBに追加するデータ項目追加ステップと、
区分部が、前記属性系列データに含まれるデータが数値である場合、前記数値を区間へと変換する数値変換ステップと、
出力装置が、前記属性系列DBに記憶されたデータ項目を一覧で表示する表示ステップと、
入力装置が、前記出力装置が一覧で表示するデータ項目から、グループを生成するためのデータ項目を選択する入力を受け付けるデータ項目選択ステップと、
グループ化部が、前記入力装置が入力を受け付けたデータ項目に対応するデータの種類に基づいて、前記属性系列DBに記憶されている属性系列データをグループ化するグループ化ステップと、
をデータ分類装置のコンピュータに実行させ、
前記データ項目追加ステップは、前記特徴として、各リストデータを構成する行動履歴である要素における隣接する要素を比較した比率、各リストデータを構成する要素における最頻出値、各リストデータを構成する要素における平均値、及び各リストデータを構成する要素における出現種類の少なくとも一つを算出する、データ分類プログラム。 An attribute DB that stores customer identification information and customer attributes in association with data items of the respective data;
A series DB for storing the customer identification information, an action history indicating the action of the customer, and a date and time of the action of the customer in association with data items of the respective data;
Based on the identification information of the customer in the attribute DB and the identification information of the customer in the series DB, the customer identification information, the attribute of the customer in the attribute DB, and the action history of the series DB A computer of a data classification apparatus having an attribute series DB that stores attribute series data including list data linked in chronological order in a period based on date and time in association with data items of the respective data of the attribute series data. A data classification program to be executed,
Feature extraction unit, the attribute extracting features from sequence data, the data of the extracted the feature, the data items additional step of adding in association with the data item in the data of the feature in the attribute lines DB,
If classification unit, Lud over data included in the attribute-series data is numeric, and numeric conversion step of converting the numerical into sections,
Output device, and a display step of displaying the data item stored in the attribute lines DB in the list,
Input device, from Lud over data item displays the output device in the list, a data item selection step of accepting an input to select data items to generate a group,
Grouping unit, a grouping step of the input device is have group Dzu the type of data corresponding to the data item the input of which is accepted, to group attributes series data stored in the attribute lines DB,
Is executed by the computer of the data classification device ,
The data item adding step includes, as the characteristics, a ratio of comparing adjacent elements in elements that are action histories constituting each list data, a most frequent value in elements constituting each list data, and elements constituting each list data The data classification program which calculates at least one of the appearance value in the element which comprises the average value in each list data, and each list data .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013255823A JP6257298B2 (en) | 2013-12-11 | 2013-12-11 | Data classification apparatus, data classification method, and data classification program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013255823A JP6257298B2 (en) | 2013-12-11 | 2013-12-11 | Data classification apparatus, data classification method, and data classification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015114807A JP2015114807A (en) | 2015-06-22 |
JP6257298B2 true JP6257298B2 (en) | 2018-01-10 |
Family
ID=53528569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013255823A Expired - Fee Related JP6257298B2 (en) | 2013-12-11 | 2013-12-11 | Data classification apparatus, data classification method, and data classification program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6257298B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09101984A (en) * | 1995-10-06 | 1997-04-15 | Hitachi Ltd | Method and system for segmenting customer |
JP3815218B2 (en) * | 2000-12-20 | 2006-08-30 | 株式会社日立製作所 | Data analysis method and apparatus |
JP3744932B2 (en) * | 2002-07-19 | 2006-02-15 | 松下電器産業株式会社 | Device linkage control device |
JP2005135167A (en) * | 2003-10-30 | 2005-05-26 | Toppan Printing Co Ltd | Device, method, and program for data analysis |
JP4698328B2 (en) * | 2005-08-12 | 2011-06-08 | 中国電力株式会社 | Data analysis method, data analysis system, and program |
JP5772563B2 (en) * | 2011-12-14 | 2015-09-02 | 富士通株式会社 | Information processing method, apparatus and program |
-
2013
- 2013-12-11 JP JP2013255823A patent/JP6257298B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015114807A (en) | 2015-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6230064B1 (en) | Apparatus and a method for analyzing time series data for a plurality of items | |
US9965531B2 (en) | Data storage extract, transform and load operations for entity and time-based record generation | |
US11442694B1 (en) | Merging database tables by classifying comparison signatures | |
US6892208B2 (en) | Method and system for database management for data mining | |
JP5670787B2 (en) | Information processing apparatus, form type estimation method, and form type estimation program | |
US20220121675A1 (en) | Etl workflow recommendation device, etl workflow recommendation method and etl workflow recommendation system | |
CN114118194A (en) | System and method for selecting learning model | |
JP2019082865A (en) | Sales promoting device, sales promoting method and sales promoting program | |
US10877989B2 (en) | Data conversion system and method of converting data | |
JP6696568B2 (en) | Item recommendation method, item recommendation program and item recommendation device | |
US20190266618A1 (en) | Data management apparatus and data management system | |
EP2720154A1 (en) | Pattern extraction device and method | |
US20220351051A1 (en) | Analysis system, apparatus, control method, and program | |
WO2018061249A1 (en) | Marketing assistance system | |
KR102206001B1 (en) | Apparatus and method for recommending e-books based on user behavior | |
JP6257298B2 (en) | Data classification apparatus, data classification method, and data classification program | |
JP4827900B2 (en) | Questionnaire result analysis support apparatus and method | |
JP5478229B2 (en) | Data analysis system and method | |
JP7173314B2 (en) | Mapping support device, mapping support method, and program | |
JP6861176B2 (en) | Project estimation support method and project estimation support device | |
WO2016060551A1 (en) | A method for mining electronic documents and system thereof | |
WO2021024882A1 (en) | Assessment server for handling mulitple pieces of product information used in product sales forecasts, and assessment method | |
US20220253529A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP5458058B2 (en) | Product name identity determination device and product name identity determination program | |
JP7418781B2 (en) | Company similarity calculation server and company similarity calculation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170828 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6257298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |