JP6257298B2 - Data classification apparatus and data classification method and a data classification program - Google Patents

Data classification apparatus and data classification method and a data classification program

Info

Publication number
JP6257298B2
JP6257298B2 JP2013255823A JP2013255823A JP6257298B2 JP 6257298 B2 JP6257298 B2 JP 6257298B2 JP 2013255823 A JP2013255823 A JP 2013255823A JP 2013255823 A JP2013255823 A JP 2013255823A JP 6257298 B2 JP6257298 B2 JP 6257298B2
Authority
JP
Grant status
Grant
Patent type
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013255823A
Other languages
Japanese (ja)
Other versions
JP2015114807A (en )
Inventor
麻里 ▲高▼木
麻里 ▲高▼木
森田 豊久
豊久 森田
朋 角田
朋 角田
Original Assignee
株式会社日立システムズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Description

本発明は、データ分類装置およびデータ分類方法ならびにデータ分類プログラムに関する。 The present invention relates to data classification apparatus and a data classification method and a data classification program.

ATM(Automatic Teller Machine)による取引の内容を記録するATMジャーナルには、個人情報が含まれる。 To ATM journal to record the contents of the transaction by the ATM (Automatic Teller Machine) it is, contain personal information. そして、この個人情報を分析対象とする際には、プライバシーを保護することが求められる。 Then, when the personal information and analyte, it is required to protect privacy.

特開2013−125374号公報(特許文献1)には、「複数のレコードに含まれ且つ曖昧化対象と指定されている第1の属性の属性値の種類毎に複数のレコードのうち当該第1の属性の属性値が出現するレコードの数が格納されているデータ格納部に格納されているデータから、レコードの数の分布が、偏りが大きいことを表す条件を満たしているか判断する工程と、レコードの数の分布が、偏りが大きいことを表す条件を満たしている場合には、複数のレコードのうち少なくとも1のレコードにおける第1の属性の属性値を、曖昧化データに置換し、データ格納部に格納する工程とを含む」と記載されている。 JP 2013-125374 discloses (Patent Document 1), "the first of the plurality of records for each type of the attribute values ​​of the first attribute specified with and obscured object included in a plurality of records from the data the attribute value of the attribute number of records appears is stored in the data storage unit that is stored, a step of distribution of the number of records, it is determined whether the condition is satisfied indicating that a large deviation, distribution of the number of records, when the condition is satisfied indicating that a large bias is the attribute value of the first attribute in at least one record among the plurality of records, replacing the ambiguous data, data storage It has been described as including a step "to be stored in the part.

また、特開2010−72727号公報(特許文献2)には、「履歴処理装置は、まず、時系列で記録されたユーザの行動履歴データに含まれる各履歴データを履歴集合に分類するため第一の条件に基づいて、各履歴データをいくつかの履歴集合に分類する第一処理を実行する。第一処理終了後、履歴処理装置は、履歴データの記録時点および履歴データ間の類似度に関する第二の条件に基づいて、第一処理により集合に分類されずに残された孤立データを集合のいずれかに組み込む第二処理を実行する」と記載されている。 Further, Japanese Patent 2010-72727 (Patent Document 2), "history processing apparatus, first, second to classify each history data included when user action history data recorded in sequence in the history collection in accordance with one of the conditions, the first process is executed. after first processing ends classifying each historical data some history set, the history processing unit relates to the similarity between the recording time and historical data for historical data based on the second condition is described as "performing a second process to incorporate the isolated data left without being classified in the set by the first processing to one of the set.

特開2013−125374号公報 JP 2013-125374 JP 特開2010−72727号公報 JP 2010-72727 JP

特許文献1に記載された技術では、曖昧化データへ置換することで分析対象に含まれる個人情報のプライバシーを保護できるようになる。 In the technique described in Patent Document 1, it becomes possible to protect the privacy of personal information contained in the analyte by replacing the ambiguous data. しかし、置換後の曖昧化データの情報量が置換前のデータよりも少なくなるという問題があった。 However, the information amount of ambiguous data after substitution is disadvantageously less than the data before replacement.

また、特許文献2に記載された技術では、類似度に基づいて履歴集合を分類することで分析対象に含まれる個人情報を保護できるようになる。 In the technique described in Patent Document 2, it becomes possible to protect the personal information contained in the analyte by classifying history set based on similarity. ここで、類似度は、処理に利用するための数値などであり、それ自体が何らかの特徴や意味を有する値ではなく、類似度だけでは、分類後のグループが、どのような基準で分類されたのかを識別するのが容易ではないという問題があった。 Here, the similarity is like numerical values ​​for use in the process, rather than the value itself has some characteristics and meaning, the only similarity, group after classification were classified in any reference there is a problem that is not easy to identify whether a.

本発明の目的は、分類後のグループが、どのような基準で分類されたのかを識別することを容易にできるようにする技術を提供することである。 An object of the present invention, group after classification is to provide a technology that can facilitate identifying What criteria whether classified by.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次の通りである。 Among the inventions disclosed in this application will be briefly described typical ones are as follows.

本発明の一実施の形態は、顧客の属性を示す静的なデータと前記顧客の行動に対して蓄積されたデータとを結合した属性系列データを記憶する属性系列DBを有する。 One embodiment of the invention has an attribute sequence DB for storing attribute series data by combining the stored data to said customer behavior and static data indicating the attributes of the customer. また、前記属性系列データから特徴を抽出し、抽出した前記特徴をデータとしてデータ項目と対応付けて前記属性系列DBに追加する特徴抽出部を有する。 Also has a feature extraction unit for the attributes to extract features from series data, it extracted the feature in association with the data item as data to add to the attribute lines DB. また、前記属性系列データに含まれる前記データが数値である場合、前記数値を区間へと変換する区分部を有する。 Also, if the data included in the attribute-series data is numeric and has a partitioning portion for converting the numerical into sections. また、前記属性系列DBに記憶された前記データ項目と前記データとを対応付けて一覧で表示する出力装置を有する。 Further, an output device for displaying a list in association with the said attribute lines the data items stored in the DB data. また、前記出力装置が一覧で表示する前記データ項目から、前記データ項目を選択する入力を受け付ける入力装置を有する。 Further, from the data item which the output device is displayed in a list, with an input device that receives an input for selecting the data items. また、前記入力装置が入力を受け付けた前記データ項目に基づき抽出されるデータをグループとするグループ化部を有する。 Also has a grouping unit to group the data to be extracted based on the data item of which the input device accepts the input.

また、他の実施の形態では、特徴抽出部が、顧客の属性を示す静的なデータと前記顧客の行動に対して蓄積されたデータとを結合した属性系列データから特徴を抽出し、抽出した前記特徴をデータとしてデータ項目と対応付けて属性系列DBに追加するデータ項目追加ステップを有する。 Also, in other embodiments, feature extraction portion extracts a feature from the attribute-series data obtained by combining the stored data to said customer behavior and static data indicating the attributes of the customers, extracted having data items additional step of adding the attribute lines DB in association with the data item the features as data. また、区分部が、前記属性系列データに含まれる前記データが数値である場合、前記数値を区間へと変換する数値変換ステップを有する。 Further, classification section, when the it is the data numbers included in the attribute-series data having a numerical value conversion step of converting the numerical into sections. また、出力装置が、前記属性系列DBに記憶された前記データ項目と前記データとを対応付けて一覧で表示する表示ステップを有する。 Further, the output device comprises a display step of displaying a list in association with the said attribute lines the data items stored in the DB data. また、入力装置が、前記出力装置が一覧で表示する前記データ項目から、前記データ項目を選択する入力を受け付けるデータ項目選択ステップを有する。 Further, the input device, from the data item which the output device is displayed in a list, with the data item selection step of accepting an input selecting the data items. また、グループ化部が、前記入力装置が入力を受け付けた前記データ項目に基づき抽出されるデータをグループとするグループ化ステップを有する。 Further, the grouping unit has a grouping step of a group of data to be extracted based on the data item of which the input device accepts the input.

また、他の実施の形態では、特徴抽出部が、顧客の属性を示す静的なデータと前記顧客の行動に対して蓄積されたデータとを結合した属性系列データから特徴を抽出し、抽出した前記特徴をデータとしてデータ項目と対応付けて属性系列DBに追加するデータ項目追加ステップをデータ分類装置のコンピュータに実行させる。 Also, in other embodiments, feature extraction portion extracts a feature from the attribute-series data obtained by combining the stored data to said customer behavior and static data indicating the attributes of the customers, extracted executing a data item additional step of adding the attribute lines DB in association with the data item the features as data to the computer of the data classification device. また、区分部が、前記属性系列データに含まれる前記データが数値である場合、前記数値を区間へと変換する数値変換ステップを前記コンピュータに実行させる。 Further, classification section, the case where the data included in the attribute-series data is numeric, to perform the numerical conversion step of converting the numerical into section to the computer. また、出力装置が、前記属性系列DBに記憶された前記データ項目と前記データとを対応付けて一覧で表示する表示ステップを前記コンピュータに実行させる。 Further, the output device, to execute a display step of displaying a list in association with the said attribute lines the data items stored in the DB data in the computer. また、入力装置が、前記出力装置が一覧で表示する前記データ項目から、前記データ項目を選択する入力を受け付けるデータ項目選択ステップを前記コンピュータに実行させる。 Further, the input device, from the data item which the output device is displayed in the list, to execute a data item selection step of accepting an input selecting the data item to the computer. また、グループ化部が、前記入力装置が入力を受け付けた前記データ項目に基づき抽出されるデータをグループとするグループ化ステップを前記コンピュータに実行させる。 Further, the grouping unit, to execute the grouping step of the group of data to be extracted based on the data item of which the input device accepts the input to the computer.

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in this application The following is a brief description of effects obtained by typical.

本発明の代表的な実施の形態によれば、分類後のグループが、どのような基準で分類されたのかを識別することが容易になる。 According to a typical embodiment of the present invention, group after classification, to identify what kind of criteria were classified in easier.

本発明の一実施の形態におけるデータ分類装置の構成例の概要を示す図である。 Is a diagram showing an outline of a configuration example of a data classification device according to an embodiment of the present invention. 本発明の一実施の形態における属性DBが記憶する属性データの構成例の概要を示す図である。 Attribute DB according to an embodiment of the present invention is a diagram showing an outline of a configuration example of an attribute data stored. 本発明の一実施の形態における系列DBが記憶する系列データの構成例の概要を示す図である。 Sequence DB according to an embodiment of the present invention is a diagram showing an outline of a configuration example of the time series data to be stored. 本発明の一実施の形態における系列DBが記憶する系列データの他の構成例の概要を示す図である。 Sequence DB according to an embodiment of the present invention is a diagram showing an outline of another configuration example of the time series data to be stored. 本発明の一実施の形態における属性系列DBが記憶する属性系列データの構成例の概要を示す図である。 Attribute lines DB according to an embodiment of the present invention is a diagram showing an outline of a configuration example of an attribute-series data to be stored. 本発明の一実施の形態における全体処理の概要を示す図である。 Is a diagram showing an outline of the overall processing according to an embodiment of the present invention. 本発明の一実施の形態における特徴抽出処理の概要を示す図である。 Is a diagram showing an outline of feature extraction processing according to an embodiment of the present invention. 本発明の一実施の形態における属性系列DBが記憶する属性系列データの他の構成例の概要を示す図である。 Attribute lines DB according to an embodiment of the present invention is a diagram showing an outline of another configuration example of an attribute-series data to be stored. 本発明の一実施の形態における属性系列DBが記憶する属性系列データのさらに他の構成例の概要を示す図である。 Is a diagram further showing the outline of another configuration example of an attribute-series data stored in the attribute lines DB according to an embodiment of the present invention. 本発明の一実施の形態における属性系列DBが記憶する属性系列データのさらに他の構成例の概要を示す図である。 Is a diagram further showing the outline of another configuration example of an attribute-series data stored in the attribute lines DB according to an embodiment of the present invention. 本発明の一実施の形態における属性系列DBが記憶する属性系列データのさらに他の構成例の概要を示す図である。 Is a diagram further showing the outline of another configuration example of an attribute-series data stored in the attribute lines DB according to an embodiment of the present invention. 本発明の一実施の形態における区分処理の概要を示す図である。 Is a diagram showing an outline of classification processing according to an embodiment of the present invention. 本発明の一実施の形態における属性系列DBが記憶する属性系列データのさらに他の構成例の概要を示す図である。 Is a diagram further showing the outline of another configuration example of an attribute-series data stored in the attribute lines DB according to an embodiment of the present invention. 本発明の一実施の形態における属性系列DBが記憶する属性系列データのさらに他の構成例の概要を示す図である。 Is a diagram further showing the outline of another configuration example of an attribute-series data stored in the attribute lines DB according to an embodiment of the present invention. 本発明の一実施の形態における項目選択処理の概要を示す図である。 Is a diagram showing an outline of the item selection process according to an embodiment of the present invention. 本発明の一実施の形態における選択画面の概要を示す図である。 Is a diagram showing an overview of the selection screen according to an embodiment of the present invention. 本発明の一実施の形態におけるグループ化処理の概要を示す図である。 Is a diagram showing an outline of grouping process according to an embodiment of the present invention. 本発明の一実施の形態におけるグループ化DBが記憶するグループ化データの構成例の概要を示す図である。 Grouping DB according to an embodiment of the present invention is a diagram showing an outline of a configuration example of grouping data to be stored.

以下、本発明の実施の形態を図面に基づいて詳細に説明する。 It will be described in detail with reference to embodiments of the present invention with reference to the drawings. なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。 In all the drawings for explaining the embodiments, the same reference numerals in principle in the same part, and the repetitive description thereof will be omitted.

<全体構成> <Overall Configuration>
図1は、本発明の一実施の形態におけるデータ分類装置1の構成例の概要を示す図である。 Figure 1 is a diagram showing an outline of a configuration example of a data classification device 1 according to an embodiment of the present invention. 図1に示されるようにデータ分類装置1は、出力装置110と、入力装置120と、属性DB131と、系列DB132と、属性系列DB133と、グループ化DB134と、データ分類部140とを有する。 Data classification apparatus 1 as shown in FIG. 1 includes an output device 110, an input device 120, an attribute DB 131, a sequence DB 132, and attribute lines DB 133, the group DB 134, a data classification section 140.

また、データ分類装置1は、所定のハードウェアおよびソフトウェアにより実装される。 The data classification apparatus 1 is implemented by a predetermined hardware and software. 例えば、データ分類装置1は、プロセッサやメモリなどを有し、プロセッサにより実行されるメモリ上のプログラムが、データ分類装置1のコンピュータを機能させる。 For example, the data classification device 1 has a such as processors and memory, the memory on the program executed by the processor, causes the computer to function of the data classification apparatus 1.

データ分類部140は、特徴抽出部141と、区分部142と、項目選択部143と、グループ化部144とを有する。 Data classification unit 140 includes a feature extraction unit 141, a division unit 142, an item selection unit 143, and a grouping unit 144.

属性DB131には、顧客の年齢や性別などの顧客の属性を示す静的なデータである属性データが記憶される。 To attribute DB131 is, attribute data are static data that indicates the customer attributes, such as the customer's age and gender are stored.

系列DB132には、例えば、顧客の購買ログや、ATMを利用した場合における顧客の取引ログなどの顧客の行動に対して蓄積されたデータである系列データが記憶される。 The sequence DB 132, for example, purchase logs and customer-series data is stored data to customer behavior, such as customer transaction log when using ATM are stored.

属性系列DB133には、顧客の属性を示す静的なデータと、顧客の行動に対して蓄積されたデータとを結合した属性系列データが記憶される。 The attribute lines DB 133, a static data indicating the attributes of the customer, the attribute-series data obtained by combining the stored data to the behavior of the customer is stored. 属性系列データは分析対象となるデータ(以下、分析対象データと呼ぶ場合がある)である。 Attribute-series data is analyzed data (hereinafter, may be referred to as the analysis target data).

特徴抽出部141は、属性系列DB133から属性系列データを取得する。 Feature extraction unit 141 acquires the attribute-series data from the attribute lines DB 133. また、特徴抽出部141は、取得した属性系列データから特徴(データ(このデータは、属性系列データのあるデータ項目のデータが該当する。)を構成する要素の要素数や、データを構成する隣り合う要素の比率や、データに含まれる数が最も多い要素である最頻要素や、各要素の平均値など)を抽出する。 The feature extraction unit 141 includes a feature (data (this data from the acquired attribute-series data, the data of the data item of the attribute-series data corresponds.) Element number or constituting a neighboring configuring data elements and the ratio of the fit, modal elements and the number is the most common elements included in the data, extracts the average such value) of each element. さらに、特徴抽出部141は、抽出した特徴をデータとしてデータ項目と対応付けて属性系列DB133に追加する。 Further, feature extraction unit 141, the extracted feature is associated with the data item as data to add to the attribute sequence DB 133.

区分部142は、属性系列データに含まれるデータが数値である場合、このデータの最大値と最小値とを抽出する。 Partitioning unit 142, if the data included in the attribute-series data is numeric, extracts the maximum value and the minimum value of the data. また、区分部142は、抽出した最小値から最大値までの区間をL(例えば、2)等分する。 Further, partitioning unit 142, a section of the extracted from a minimum value to a maximum value L (e.g., 2) equally divided. これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。 Thus, a section from the extracted minimum value to the maximum value is divided into L number of intervals. また、区分部142は、データである数値を、分割後の区間へと変換する。 Further, partitioning unit 142, a number that is data, converted into sections after division. そして、区分部142は、変換後のデータを属性系列DB133に追加する。 The partitioning unit 142 adds the converted data to the attribute lines DB 133.

出力装置110は、属性系列DB133に記憶されたデータ項目とデータとを一覧で選択画面(後述、図16)に表示する。 The output device 110 selects the data that stored data item attribute lines DB133 on the list screen (described later, FIG. 16) displayed on.

入力装置120は、選択画面に表示された各データ項目から1以上のデータ項目を選択する入力を受け付ける。 Input device 120 receives an input for selecting one or more data items from the data items displayed on the selection screen. これにより、入力装置120は、グループを生成するためのデータ項目を選択する入力を受け付ける。 Thus, the input device 120 receives an input to select data items to generate a group.

グループ化部144は、入力装置120が入力を受け付けたデータ項目に対応するデータを属性系列DB133から取得する。 Grouping unit 144 obtains the data corresponding to the data item input device 120 receives an input from the attribute lines DB 133. また、グループ化部144は、取得したデータ同士を組み合わせることで複数のグループを生成し、属性系列データを生成したグループに基づき分類する。 Further, the grouping unit 144 generates a plurality of groups by combining the acquired data with each other, classified on the basis of the group that generated the attribute-series data. これにより、グループ化部144は、選択する入力を受け付けたデータ項目に基づき抽出されるデータをグループとする。 Thus, the grouping unit 144, a group of data to be extracted based on the data item receiving input selecting. また、グループ化部144は、生成したグループごとの分類結果をグループ化DB134に記憶する。 Further, the grouping unit 144 stores the classification result for each generated group grouping DB 134.

<属性データ> <Attribute data>
図2は、本発明の一実施の形態における属性DB131が記憶する属性データの構成例の概要を示す図である。 Figure 2 is a diagram showing an outline of a configuration example of the attribute data attribute DB131 is stored in an embodiment of the present invention. 属性DB131には、顧客の年齢や性別などの顧客の属性を示す静的なデータである属性データが記憶される。 To attribute DB131 is, attribute data are static data that indicates the customer attributes, such as the customer's age and gender are stored. 図2に示されるように、属性データは、[ID]、[属性1(年齢)]〜[属性k(性別)]などのデータ項目からなる。 As shown in FIG. 2, the attribute data, and a data item, such as [ID], [Attribute 1 (Age)] - [attribute k (sex). [ID]は、顧客を識別するための符号を示す。 [ID] indicates the code for identifying the customer. [属性1]〜[属性k]は、顧客の属性を示す。 Attribute 1] to [attribute k] shows the attributes of the customer. 例えば、[属性1]は、顧客の年齢を示し、[属性k]は、顧客の性別を示す。 For example, [attribute 1] indicates the age of the customer, [attribute k] indicates the customer's gender.

<系列データ> <-Series data>
図3は、本発明の一実施の形態における系列DB132が記憶する系列データの構成例の概要を示す図である。 Figure 3 is a diagram showing an outline of a configuration example of a series data sequence DB132 stores in the embodiment of the present invention. 系列DB132には、例えば、顧客の購買ログや、ATMを利用した場合における顧客の取引ログなどの顧客の行動に対して蓄積されたデータである系列データが記憶される。 The sequence DB 132, for example, purchase logs and customer-series data is stored data to customer behavior, such as customer transaction log when using ATM are stored. 図3に示されるように、系列データは、[ID]、[日付]、[取引]、[店舗]などのデータ項目からなる。 As shown in FIG. 3, series data, [ID], [Date, Transactions, and a data item, such as [shop. [日付]は、取引がされた日付を示す。 [Date] indicates the transaction is the date. [取引]は、取引の内容を示す。 [Transaction] shows the contents of the transaction. [店舗]は、取引がされた店舗の名称を示す。 [Shop] indicates the name of the transaction is the store.

なお、図4に示されるように、系列データを[ID]、[年月]、[残高]などから構成するようにしても良い。 Incidentally, as shown in FIG. 4, the series data [ID], [date], it may be composed of such Balance. [残高]は、[年月]から特定される日付(例えば対応する月の月末)における残高を示す。 Balance shows the balance of the date (e.g. the end of the corresponding month) specified from the date.

<属性系列データ> <Attribute-series data>
図5は、本発明の一実施の形態における属性系列DB133が記憶する属性系列データの構成例の概要を示す図である。 Figure 5 is a diagram showing an outline of a configuration example of an attribute-series data stored in the attribute lines DB133 in one embodiment of the present invention. 属性系列DB133には、顧客の属性を示す静的なデータと、顧客の行動に対して蓄積されたデータとを結合した属性系列データが記憶される。 The attribute lines DB 133, a static data indicating the attributes of the customer, the attribute-series data obtained by combining the stored data to the behavior of the customer is stored. 図5に示されるように、属性系列データは、[ID]が同一の属性データと系列データとが結合されることで生成される。 As shown in FIG. 5, the attribute-series data is generated by [ID] is to be bonded with the same attribute data and sequence data. 具体的には、図3の系列データの場合、[日付]の任意範囲(例えば、2013/7)のデータから、[ID]ごとに、[日付]の昇順に[取引]の値を左から並べたリストを生成し、[2013/7 取引]が結合される。 Specifically, in the case of series data in FIG. 3, the data of any range of [date] (e.g., 2013/7), each [ID] from the left the value of the transaction] in ascending order of [date] to generate a list of side by side, it is bound [2013/7 transaction]. 属性系列データは、[属性1(年齢)]〜[属性k(性別)]、[系列1(2013/7 取引)]〜[系列m(2013/4 残高,2013/5 残高,2013/6 残高,・・・)]などのデータ項目からなる。 Attribute series data, [attribute 1 (age)] - [attribute k (gender)], [series 1 (2013/7 transaction)] - [series m (2013/4 balance, 2013/5 balance, 2013/6 balance , consisting of data items such as ...)].

<全体処理> <Whole process>
図6は、本発明の一実施の形態における全体処理の概要を示す図である。 Figure 6 is a diagram showing an outline of the overall processing according to an embodiment of the present invention.

まず、S601にて、特徴抽出処理(後述、図7)が実行される。 First, in S601, the feature extraction process (described later, FIG. 7) is executed. 特徴抽出処理では、特徴抽出部141は、複数の要素から算出されるデータの特徴(データを構成する要素の要素数や、データを構成する隣り合う要素の比率や、データに含まれる数が最も多い要素である最頻要素や、各要素の平均値など)を抽出する。 The feature extraction process, the feature extraction unit 141, the number of elements and the elements that constitute the characteristic (data of the data to be calculated from a plurality of elements, and the ratio of adjacent elements constituting the data, the number included in the data most and modal elements are often elements, extracts the average such value) of each element. そして、特徴抽出部141は、抽出した特徴をデータ項目とするデータを属性系列DB133に追加する。 The feature extraction unit 141 adds the data to the extracted feature data item attribute lines DB 133.

次に、S602にて、区分処理(後述、図12)が実行される。 Next, in S602, bifurcation (described later, FIG. 12) is executed. 区分処理では、区分部142は、属性系列データに含まれるデータが数値である場合、このデータである数値の最大値と最小値とを抽出する。 In classification processing, division section 142, if the data included in the attribute-series data is numeric, extracts the maximum value and the minimum value of a number is the data. そして、区分部142は、抽出した最小値から最大値までの区間をL(例えば、2)等分する。 Then, division unit 142, a section of the extracted from a minimum value to a maximum value L (e.g., 2) equally divided. これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。 Thus, a section from the extracted minimum value to the maximum value is divided into L number of intervals. また、区分部142は、データである各数値を、分割後の区間へと変換する。 Further, partitioning unit 142, the respective values ​​in the data is converted into sections after division. そして、区分部142は、変換後のデータを属性系列DB133に追加する。 The partitioning unit 142 adds the converted data to the attribute lines DB 133.

次に、S603にて、項目選択処理(後述、図15)が実行される。 Next, in S603, the item selection process (described later, FIG. 15) is executed. 項目選択処理では、入力装置120は、グループを生成するための[データ項目]を選択する入力を受け付ける。 In item selection process, the input unit 120 receives an input to select data items] to generate a group.

次に、S604にて、グループ化処理(後述、図17)が実行される。 Next, in S604, the grouping processing (described later, FIG. 17) is executed. グループ化処理では、項目選択処理にて選択する入力を受け付けた各データ項目のデータ同士を組み合わせることでグループを生成する。 In the grouping process generates a group by combining the data of the respective data item receiving input selecting at item selection process. また、グループ化部144は、生成した各グループをグループ化DB134(後述、図18)に記憶する。 Further, the grouping unit 144 generates grouping DB 134 (described later, FIG. 18) of each group was stored in.

<特徴抽出処理> <Feature extraction processing>
図7は、本発明の一実施の形態における特徴抽出処理の概要を示す図である。 Figure 7 is a diagram showing an outline of feature extraction processing according to an embodiment of the present invention.

まず、S701にて、特徴抽出部141は、属性系列DB(前述、図5)133に記憶される属性系列データに含まれるデータ項目から一つのデータ項目を選択する。 First, in S701, the feature extraction unit 141, attribute lines DB (described above, FIG. 5) for selecting one data item from the data items included in the attribute-series data stored in the 133. なお、特徴抽出部141は、未選択のデータ項目を選択する。 The feature extraction unit 141 selects the data item has not been selected.

次に、S702にて、特徴抽出部141は、S701にて選択したデータ項目のデータがリストかを判定する。 Next, in S702, the feature extraction unit 141 determines whether the data of the selected data item list at S701. なお、特徴抽出部141は、データ項目のデータが複数の要素から構成されている場合に、このデータがリストであると判定する。 The feature extraction unit 141 determines, when the data of the data item is composed of a plurality of elements, and this data is a list. S702にて、特徴抽出部141が、データ項目のデータがリストであると判定する場合(S702−Yes)、S703へ進む。 At S702, the feature extraction unit 141, if the data of the data item is determined to be a list (S702-Yes), the process proceeds to S703. 一方、S702にて、特徴抽出部141が、データ項目のデータがリストではないと判定する場合(S702−No)、S712へ進む。 On the other hand, at S702, the feature extraction unit 141, if the data of the data item is determined not to be a list (S702-No), the process proceeds to S712. 例えば、S701にて選択したデータ項目が[属性1(年齢)]である場合、データに含まれる要素は一つであるため、特徴抽出部141は、データがリストではないと判定する。 For example, if the selected data item at S701 is [Attribute 1 (age), since the elements contained in the data is one, the feature extraction unit 141 determines that the data is not in the list. 一方、S701にて選択したデータ項目が、[系列1(2013/7 取引)]である場合、データに含まれる要素が複数であるため、特徴抽出部141は、データがリストであると判定する。 On the other hand, it determines that the selected data item at S701, if it is the Series 1 (2013/7 Transactions)], since the elements contained in the data is more, the feature extraction unit 141 is a data list .

S703にて、特徴抽出部141は、S701にて選択したデータ項目のデータを属性系列DB133からすべて取得する。 At S703, the feature extraction unit 141 acquires all the data of the selected data item at S701 from attribute lines DB 133. 例えば、S701にて選択したデータ項目が、[系列1(2013/7 取引)]である場合、特徴抽出部141は、このデータ項目のデータである「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」を属性系列DB133から取得する。 For example, the selected data item at S701, if it is the Series 1 (2013/7 transaction), the feature extraction unit 141 is data of the data item "payment, payment, transfer", "payment, payment , payment "," afterglow, afterglow, transfer "," payment, payment, payment ", to get" transfer, transfer, afterglow "from the attribute series DB133.

次に、S704にて、特徴抽出部141は、S703にて取得した各データを構成する要素の要素数を算出する。 Next, in S704, the feature extraction unit 141 calculates the number of elements of elements constituting the respective data acquired in S703. 例えば、S703で取得したデータが、「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」である場合、特徴抽出部141は、各データの要素数を「3」と算出する。 For example, data acquired in S703 is, is a "payment, payment, transfer", "payment, payment, payment", "afterglow, afterglow, transfer", "payment, payment, payment", "transfer, transfer, Afterglow" If the feature extraction unit 141, the number of elements of each data is calculated as "3".

次に、S705にて、特徴抽出部141は、S704にて算出した各要素数がすべて一致するかを判定する。 Next, in S705, the feature extraction unit 141 determines whether the number of the elements calculated in S704 matches everything. S705にて、特徴抽出部141が、各要素数がすべて一致すると判定する場合(S705−Yes)、データの特徴を各要素の傾向から抽出できる。 At S705, the feature extraction unit 141, when determining the number of the elements are all consistent (S705-Yes), the feature data can be extracted from the tendency of each element. そのため、各要素数がすべて一致する場合は、各要素間を比較することで算出される比率(比率は、S707にて算出される)、または、データに含まれる数が最も多い要素である最頻要素(最頻要素は、S708にて抽出される)を特徴として抽出するために、S706へ進む。 Therefore, when the number of the elements match all, most ratios calculated by comparing between the elements (the ratio is calculated at S707), or the number contained in the data is the most common elements frequent elements (modal element of which is extracted at S708) to extract a feature, and the flow proceeds to S706. 一方、S705にて、特徴抽出部141が、各要素数が一致しないと判定する場合(S705−No)、データの特徴を各要素の傾向からは抽出できない。 On the other hand, at S705, the feature extraction unit 141, when determining the number of the elements do not match (S705-No), can not be extracted is the feature of the data from the tendency of each element. そのため、各要素数が等しくない場合には、各要素の代表値の一例である平均値(平均値は、S710にて算出される)や、データの中で重複する要素を除外した出現種類(出現種類は、S711にて抽出される)を特徴として抽出するために、S709へ進む。 Therefore, when the number of the elements are not equal, the average value is an example of a representative value of each element (average value of which is calculated in S710) and the occurrence types excluding duplicate elements in the data ( appearance types, in order to extract feature a) is extracted with S711, the process proceeds to S709.

S706にて、特徴抽出部141は、S703にて取得したデータを構成する要素が数値であるかを判定する。 At S706, the feature extraction unit 141 determines whether the numerical value elements constituting the data acquired in S703. S706にて、特徴抽出部141が、要素が数値であると判定する場合(S706−Yes)、S707へ進む。 At S706, the feature extraction unit 141, when determining the elements are numeric (S706-Yes), the process proceeds to S707. 一方、S706にて、特徴抽出部141が、要素が数値ではないと判定する場合(S706−No)、S708へ進む。 On the other hand, at S706, the feature extraction unit 141, when determining the elements is not a numerical value (S706-No), the processing proceeds to S 708. 例えば、S701にて選択したデータ項目が[系列m(2013/4 残高,2013/5 残高,2013/6 残高,・・・)]であり、S703にて取得したデータが、「100,80,…,250,500」、「100,120,…,100,150」、「300,450,…,300,300」、「500,900,…,250,500」、「120,48,…,200,200」である場合、特徴抽出部141は、データを構成する要素が数値であると判定する。 For example, the selected data item is the Series m (2013/4 balance, 2013/5 Balance, 2013/6 balance, ...)] at S701 is, data acquired in S703 is "100,80, ..., 250, 500 "," 100, 120, ..., 100, 150 "," 300,450, ..., 300, 300 "," 500,900, ..., 250, 500 "," 120,48, ..., If it is 200, 200 ', the feature extraction unit 141 determines that the elements constituting the data is numeric. 一方、S701にて選択したデータ項目が[系列1(2013/7 取引)]であり、S703にて取得したデータが、「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」である場合、特徴抽出部141は、データを構成する要素が数値ではないと判定する。 On the other hand, is a data item selected in S701 [series 1 (2013/7 transaction)], data acquired in S703 is, "payment, payment, transfer", "payment, payment, payment", "Afterglow, afterglow, transfer ", if" payment, payment, payment "," transfer, the transfer, afterglow ", feature extraction unit 141 determines that the elements constituting the data is not a number.

S707にて、特徴抽出部141は、S703にて取得した各データを構成する、隣り合う要素同士を比較することで各比率を算出する。 At S707, the feature extraction unit 141, constituting each data acquired in S703, and calculates the respective ratios by comparing adjacent elements to each other. より詳細には、要素数がNである場合、特徴抽出部141は、1番目の要素と2番目の要素との比率を1番目の比率として算出し、2番目の要素と3番目の要素との比率を2番目の比率として算出し、N−1番目の要素とN番目の要素との比率をN−1番目の比率として算出する。 More specifically, if the number of elements is N, the feature extraction unit 141 calculates a ratio between the first element and second element as the first ratio, and the second element and third element the ratio is calculated as the second ratio, to calculate the ratio between N-1 th element and N th element as N-1 th ratio. そして、図8に示されるように算出した各比率を属性系列DB133に追加する。 Then, add each ratio was calculated as shown in Figure 8 the attribute lines DB 133. 例えば、特徴抽出部141は、S703にて取得したデータ「100,80,…,250,500」について比率「0.8…,2.0」を算出し、「100,120,…,100,150」について比率「1.2…,1.5」を算出し、「300,450,…,300,300」について比率「1.5…,1.0」を算出し、「500,900,…,250,500」、について比率「1.8…,2.0」を算出し、「120,48,…,200,200」について比率「0.4…,1.0」を算出する。 For example, the feature extraction unit 141, the data acquired in S703 "100,80, ..., 250, 500" and calculates the ratio "0.8 ... 2.0" for, "100, 120, ..., 100, the ratio for the 150, "" 1.2 ..., to calculate the 1.5 "," 300,450, ..., to calculate the ratio "1.5 ..., 1.0" for 300, 300 "," 500,900, ..., 250, 500 ", to calculate the ratio" 1.8 ... 2.0 "About," 120,48, ..., the ratio "0.4 ... about 200, 200", to calculate the 1.0 ". そして、特徴抽出部141は、図8に示されるように算出した各比率を、データ項目[系列m(比率)]と対応付けて属性系列DB133に追加する。 The feature extraction unit 141, the respective ratios calculated as illustrated in FIG. 8, to add in association with the data item [sequence m (ratio)] in attribute lines DB 133.

S708にて、特徴抽出部141は、S703にて取得したデータを構成する各要素の中で、データに含まれる数が最も多い要素を最頻要素として抽出する。 At S 708, the feature extraction unit 141, among the elements constituting the data acquired in S703, and extracts the largest element number in the data as the most frequent element. そして、特徴抽出部141は、図9に示されるように抽出した各最頻要素を、データ項目[系列1(最頻要素)]と対応付けて属性系列DB133に追加する。 The feature extraction unit 141 adds the respective modal elements extracted as shown in FIG. 9, the data item [series 1 (the modal element)] attribute lines DB133 in association with. 例えば、S703にて取得したデータ「支払,支払,振込」について、特徴抽出部141は、「支払」を最頻要素として抽出する。 For example, the acquired data at S703 "payment, payment, transfer" for feature extraction unit 141 extracts the "payment" as the most frequent element. また、データ「支払,支払,支払」について、特徴抽出部141は、「支払」を最頻要素として抽出する。 The data "payment, payment, payment" for feature extraction unit 141 extracts the "payment" as the most frequent element. また、データ「残照,残照,振込」について特徴抽出部141は、「残照」を最頻要素として抽出する。 The data "afterglow, afterglow, transfer" feature extraction unit 141 for extracts "afterglow" as the most frequent element. また、データ「振込,振込,残照」について、特徴抽出部141は、「振込」を最頻要素として抽出する。 The data "transfer, the transfer, afterglow" for feature extraction unit 141 extracts the "transfer" as the most frequent element. そして、特徴抽出部141は、図9に示されるように抽出した各最頻要素を属性系列DB133に追加する。 The feature extraction unit 141 adds the respective modal elements extracted as shown in FIG. 9 in attribute lines DB 133. なお、最頻要素が複数存在する場合、特徴抽出部141は、各最頻要素を属性系列DB133に記憶するようにしても良いし、最後に記憶された方の要素を最頻要素として属性系列DB133に記憶するようにしても良い。 Incidentally, if the most frequent element there are a plurality feature extraction unit 141, it may be stored each modal element attribute lines DB 133, attribute lines the elements of who was last stored as modal elements it may be stored in DB133. 特徴抽出部141が、抽出した各最頻要素を属性系列DB133に追加した後、S712へ進む。 After the feature extraction unit 141, which adds the respective modal elements extracted attribute lines DB 133, the process proceeds to S712.

S709にて、特徴抽出部141は、S703にて取得したデータを構成する要素が数値であるかを判定する。 At S709, the feature extraction unit 141 determines whether the numerical value elements constituting the data acquired in S703. S709にて、特徴抽出部141が、要素が数値であると判定する場合(S709−Yes)、S710へ進む。 At S709, the feature extraction unit 141, when determining the elements are numeric (S709-Yes), the process proceeds to S710. 一方、S709にて、特徴抽出部141が、要素が数値ではないと判定する場合(S709−No)、S711へ進む。 On the other hand, at S709, the feature extraction unit 141, when determining the elements is not a numerical value (S709-No), the process proceeds to S711.

S710にて、特徴抽出部141は、S704にて算出した各要素数を、図10に示されるように、データ項目[系列2(要素数)]と対応付けて属性系列DB133に追加する。 At S710, the feature extraction unit 141, the number of the elements calculated in S704, as shown in FIG. 10, the additional data item [series 2 (number of elements) and association with the attribute lines DB 133. また、特徴抽出部141は、各要素の平均値を算出し、算出した平均値を図10に示されるように、データ項目[系列2(平均値)]と対応付けて属性系列DB133に追加する。 The feature extraction unit 141 calculates an average value of each element, the calculated average value as shown in FIG. 10, to add in association with the data item [series 2 (average value)] in attribute lines DB133 .

S711にて、特徴抽出部141は、S703にて取得したデータを構成する各要素から、データの中で重複する要素を除外することで出現種類を抽出し、抽出した出現種類を、図11に示されるように属性系列DB133に追加する。 At S711, the feature extraction unit 141, the elements constituting the data acquired in S703, and extracts the appearance type by excluding duplicate elements in the data, the extracted appeared type 11 to add to the attribute series DB133 as shown. また、特徴抽出部141は、S704にて算出した各要素数を図11に示されるように属性系列DB133に追加する。 The feature extraction unit 141 adds the number of the elements calculated in S704 to the attribute lines DB133, as shown in FIG. 11.

次に、S712にて、特徴抽出部141は、S701にて属性系列データに含まれるすべてのデータ項目を選択したかを判定する。 Next, in S712, the feature extraction unit 141 determines whether to select all of the data items included in the attribute-series data at S701. S712にて、特徴抽出部141が、すべてのデータ項目を選択したと判定する場合(S712−Yes)、特徴抽出処理を終了する。 At S712, the feature extraction unit 141, when determining that selects all data items (S712-Yes), and terminates the feature extraction process. 一方、特徴抽出部141が、すべてのデータ項目を選択していないと判定する場合(S712−No)、S701へ進む。 On the other hand, the feature extraction unit 141, if it is determined not to select all data items (S712-No), the process proceeds to S701.

<区分処理> <Sorting>
図12は、本発明の一実施の形態における区分処理の概要を示す図である。 Figure 12 is a diagram showing an outline of classification processing according to an embodiment of the present invention.

まず、S1201にて、区分部142は、属性系列データに含まれるデータ項目から一つのデータ項目を選択する。 First, in S1201, division section 142 selects one of the data item from the data items included in the attribute-series data. なお、区分部142は、未選択のデータ項目を選択する。 Incidentally, division section 142 selects the data item has not been selected.

次に、S1202にて、区分部142は、S1201にて選択したデータ項目のデータをすべて取得する。 Next, in S1202, division unit 142 acquires all the data of the selected data items in S1201. 例えば、S1201にて選択したデータ項目が、[系列1(2013/7 取引)]である場合には、区分部142は、このデータ項目のすべてのデータである「支払,支払,振込」、「支払,支払,支払」、「残照,残照,振込」、「支払,支払,支払」、「振込,振込,残照」を属性系列DB(前述、図5)133から取得する。 For example, the selected data item in S1201, in the case of the Series 1 (2013/7 transaction)], the classification unit 142, are all of the data of the data item "payment, payment, transfer", " Payment, payment, payment "," afterglow, afterglow, transfer "," payment, payment, payment "," transfer, the transfer acquires afterglow "attribute lines DB (described above, FIG. 5) from 133.

次に、S1203にて、区分部142は、S1202にて取得したデータから、重複するデータを除外する。 Next, in S1203, division unit 142, the data acquired in S1202, excludes duplicate data. そして、区分部142は、重複するデータを除外した後のデータの数を算出する。 The partitioning unit 142 calculates the number of data after excluding the duplicate data.

次に、S1204にて、区分部142は、閾値Lを取得する。 Next, in S1204, division section 142 obtains the threshold value L. S1203にて算出したデータの数が取得した閾値Lを超えるかを判定する。 The number of data calculated at S1203 it is determined whether more than a threshold value L obtained. 区分部142が、データの数が閾値Lを超えないと判定する場合(S1204−No)、S1212へ進む。 Segment 142, if it is determined the number of data does not exceed the threshold value L (S1204-No), the processing proceeds to S1212. 一方、区分部142が、データの数が閾値Lを超えると判定する場合(S1204−Yes)、S1205へ進む。 Meanwhile, division unit 142, if it is determined that the number of data exceeds the threshold value L (S1204-Yes), the processing proceeds to S1205. なお、閾値Lは、予め設定ファイルに記載されている。 The threshold L is described in preset file. 区分部142は、設定ファイルを読み込むことで閾値Lを取得する。 Partitioning unit 142 obtains the threshold value L by reading the configuration file.

S1205にて、区分部142は、S1201にて選択したデータ項目のデータがリストかを判定する。 At S1205, sorting unit 142 determines whether the data is a list of selected data items in the S1201. S1205にて、区分部142が、データ項目のデータがリストであると判定する場合(S1205−Yes)、S1206へ進む。 At S1205, when determining classification unit 142, the data of the data item is a list (S1205-Yes), the processing proceeds to S1206. 一方、S1205にて、区分部142が、データ項目のデータがリストではないと判定する場合(S1205−No)、S1209へ進む。 On the other hand, at S1205, segment 142, if the data of the data item is determined not to be a list (S1205-No), the processing proceeds to S1209.

S1206にて、区分部142は、S1202にて取得したデータを構成する要素が数値であるかを判定する。 At S1206, division unit 142 determines whether the numerical value elements constituting the data acquired in S1202. S1206にて、区分部142が、要素が数値であると判定する場合(S1206−Yes)、S1207へ進む。 At S1206, division section 142, when judged that the element is numeric (S1206-Yes), the processing proceeds to S1207. 一方、S1206にて、区分部142が、要素が数値ではないと判定する場合(S1206−No)、S1212へ進む。 On the other hand, at S1206, if the division unit 142, determines that element is not a numerical value (S1206-No), the processing proceeds to S1212.

S1207にて、区分部142は、S1202にて取得したデータごとに、データを構成する各要素の最小値と最大値とを抽出する。 At S1207, division section 142, for each data acquired in S1202, extracts the minimum and maximum values ​​of the respective elements constituting the data. そして、区分部142は、抽出した最小値から最大値までの区間を、L(例えば、2)等分する。 Then, division unit 142, a section of the extracted from a minimum value to a maximum value, L (e.g., 2) equally divided. これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。 Thus, a section from the extracted minimum value to the maximum value is divided into L number of intervals. 例えば、S1202にてデータ項目[系列j]のデータである「1,1,3」、「2,5,4」、「3,4,6」、「2,3,2」、「1,1,6」が属性系列DB133から取得された場合、区分部142は、最小値「1」と最大値「6」とを抽出する。 For example, the data of the data item [series j] in S1202 "1,1,3", "2,5,4", "3, 4, 6", "2,3,2", "1, If the 1,6 "is acquired from the attribute lines DB 133, division unit 142 extracts the minimum value" 1 "and maximum value" 6 ". そして、区分部142は、抽出した最小値「1」から最大値「6」までの区間「1〜6」を2等分することで、「1〜3.5」([1,3.6)に相当し、1以上3.6未満を意味する)の区間と「3.6〜6」([3.6,6]に相当し、3.6以上6以下を意味する)の区間とへ分割する。 The partitioning unit 142, the extracted minimum value "1" maximum value "6" the section "1-6" to that bisects "1-3.5" ([1,3.6 It corresponds to), and the section of the section means less than 1 or 3.6) and "3.6 to 6" (corresponds to [3.6,6], means 3.6 to 6) It is divided into. このように、データを構成する各要素の最小値と最大値をL個へと分割した区間を生成し、生成した区間を各要素に対して適用することで、分割後の区間数をL個に抑えることができる。 Thus, the minimum and maximum values ​​of the respective elements constituting the data to generate a section divided into L number, the generated section by applying to each element, the L number of sections after division it can be suppressed to. そのため、要素ごとに区間を分割するよりも、区間の数を減少させることができ、より可読性を向上させることができるようになる。 Therefore, rather than dividing the interval for each element, it is possible to reduce the number of sections, it is possible to further improve the readability.

次に、S1208にて、区分部142は、S1201にて選択したデータ項目のデータを構成する各要素を、S1207にて分割した後に要素が含まれる区間へと変換し、変換後のデータを図13に示されるように属性系列DB133に追加し、S1212へ進む。 Next, in S1208, division unit 142, the respective elements constituting the data of the selected data item at S1201, converted to interval that contains the element after divided in S1207, FIG converted data Add the attribute lines DB133, as shown in 13, the process proceeds to S1212. 例えば、区分部142は、データ項目[系列j]のデータを構成する要素である「1」を「1〜3.5」へ、「2」を「1〜3.5」へ、「3」を「1〜3.5」へ、「4」を「3.6〜6」へ、「5」を「3.6〜6」へ、「6」を「3.6〜6」へと変換し、変換後のデータ「1〜3.5,1〜3.5,1〜3.5」、「1〜3.5,3.6〜6,3.6〜6」、「1〜3.5,3.6〜6,3.6〜6」、「1〜3.5,1〜3.5,1〜3.5」、「1〜3.5,1〜3.5,3.6〜6」を、図13に示されるように属性系列DB133に追加する。 For example, division section 142 is an element constituting the data of a data item the Series j] to "1" to "1 to 3.5", to "2", "1 to 3.5", "3" the to "1 to 3.5", "4" to "3.6-6", the "5" to "3.6-6", "6" to "3.6 to 6" conversion and, the data after conversion "1~3.5,1~3.5,1~3.5", "1~3.5,3.6~6,3.6~6", "1 to 3 .5,3.6~6,3.6~6 "," 1~3.5,1~3.5,1~3.5 "," 1~3.5,1~3.5,3 .6~6 a "is added to the attribute sequence DB133, as shown in FIG. 13.

S1209にて、区分部142は、S1202にて取得したデータが数値であるかを判定する。 At S1209, division unit 142 determines whether the numerical value data acquired in S1202. S1209にて、区分部142が、データが数値であると判定する場合(S1209−Yes)、S1210へ進む。 At S1209, segment 142, if it is determined that the data is numeric (S1209-Yes), the processing proceeds to S1210. 一方、S1209にて、区分部142が、データが数値ではないと判定する場合(S1209−No)、S1212へ進む。 On the other hand, at S1209, division section 142, when judged that the data is not the numerical (S1209-No), the processing proceeds to S1212.

S1210にて、区分部142は、S1202にて取得したデータごとに、データの最小値と最大値とを抽出する。 At S1210, division section 142, for each data acquired in S1202, extracts the minimum and maximum values ​​of the data. そして、区分部142は、抽出した最小値から最大値までの区間をL(例えば、2)等分する。 Then, division unit 142, a section of the extracted from a minimum value to a maximum value L (e.g., 2) equally divided. これにより、抽出された最小値から最大値までの区間はL個の区間へと分割される。 Thus, a section from the extracted minimum value to the maximum value is divided into L number of intervals. 例えば、S1202にてデータ項目[属性i]のデータである「1」、「6」、「4」、「3」、「2」が属性系列DB133から取得された場合、区分部142は、最小値「1」と最大値「6」とを抽出する。 For example, "1" is data of a data item Attributes i] in S1202, "6", "4", "3", when "2" is acquired from the attribute lines DB 133, division unit 142, the minimum extracts the maximum value and the value "1" and "6". そして、区分部142は、抽出した最小値「1」から最大値「6」までの区間「1〜6」を2等分することで、「1〜3」の区間と「4〜6」の区間とへ分割する。 The partitioning unit 142, the extracted minimum value "1" maximum value "6" the section "1-6" to that bisects the section "1-3" in "4-6" divided into a section.

次に、S1211にて、区分部142は、S1201にて選択したデータ項目の各データを、S1210にて分割した後にデータが含まれる区間へと変換し、変換後のデータを図14に示されるように属性系列DB133に追加し、S1212へ進む。 Next, in S1211, division unit 142 is shown each data of the selected data item at S1201, it converted to interval containing data after division at S1210, the converted data in FIG. 14 Add to attribute series DB133 so, the process proceeds to S1212. 例えば、区分部142は、データ項目[属性i]のデータ「1」を「1〜3」へ、「2」を「1〜3」へ、「3」を「4〜6」へ、「4」を「4〜6」へ、「5」を「4〜6」へと変換し、変換後のデータ「1〜3」、「4〜6」、「4〜6」、「4〜6」、「1〜3」を、図14に示されるように属性系列DB133に追加する。 For example, division section 142, the data "1" of the data item Attributes i] to "1-3", a "2" to "1-3", to "3", "4-6", "4 "the to" 4-6 "," 5 "is converted to" 4-6 ", the converted data" 1-3 "," 4-6 "," 4-6 "," 4-6 " the "1-3" is added to the attribute lines DB133, as shown in FIG. 14.

S1212にて、区分部142は、S1201にて属性系列データに含まれるすべてのデータ項目を選択したかを判定する。 At S1212, division unit 142 determines whether to select all of the data items included in the attribute-series data at S1201. S1212にて、区分部142が、すべてのデータ項目を選択したと判定する場合(S1212−Yes)、区分処理を終了する。 At S1212, division section 142, if it is determined that selects all data items (S1212-Yes), and terminates the classification process. 一方、区分部142が、すべてのデータ項目を選択していないと判定する場合(S1212−No)、S1201へ進む。 Meanwhile, division unit 142, if it is determined not to select all data items (S1212-No), the processing proceeds to S1201.

<項目選択処理> <Item selection process>
図15は、本発明の一実施の形態における項目選択処理の概要を示す図である。 Figure 15 is a diagram showing an outline of the item selection process according to an embodiment of the present invention.

まず、S1501にて、項目選択部143は、属性系列DB133に記憶された属性系列データをすべて取得する。 First, in S1501, the item selection unit 143 obtains all the attributes series data stored in attribute lines DB 133.

次に、S1502にて、項目選択部143は、S1501にて取得した属性系列データを出力装置110に入力する。 Next, in S1502, the item selection section 143, and inputs to the output device 110 the attribute series data acquired in S1501.

次に、S1503にて、出力装置110は、S1502にて入力された属性系列データに基づき、選択画面(後述、図16)を表示する。 Next, in S1503, the output device 110, based on the attribute-series data input in S1502, and displays a selection screen (described later, FIG. 16). 以下、図16を用いて選択画面について説明する。 Hereinafter, the selection screen will be described with reference to FIG. 16.

図16に示されるように選択画面には、選択欄と、[データ項目]と、[型]と、[データ数]と、[加工]と、[加工元]と、[データ]とが表示される。 The selection screen as shown in FIG. 16, a selection field, a Data Item], and [the mold], and [the number of data, and [processing], and [processing Source, [Data] and is displayed It is. [データ項目]は、データ項目の名称を示す。 [Data item] indicates the name of the data item. [型]は、[データ]の型を示す。 [Type] indicates the type of the Data. [型]としては、「数値」「数値リスト」「文字」などが該当する。 The [type], such as "numeric", "Numerical list", "character" is applicable. 「数値」は、[データ]が一つの要素から構成されることを示す。 "Number" indicates that it is composed of a single element the Data. 「数値リスト」は[データ]が複数の要素から構成されることを示す。 "Numerical List" indicates that the Data is composed of a plurality of elements. 「文字」は、[データ]が文字から構成されることを示す。 "Character" indicates that it is composed of the Data character. [データ数]は、データの数を示す。 Number Data] indicates the number of data. [加工]は、区分処理にて、[データ]が数値から区間へ変換されたかを示す。 [Processing], at bifurcation, indicating converted into the interval from numerical Data. 「元データ」は[データ]が加工される前の数値を示す。 "Original data" shows values ​​before the Data are processed. また、[加工元]は、変換される前の元データのデータ項目の名称を示す。 Also, [processing Source indicates the name of the data item before the original data to be converted. [データ]は、データの内容を示す。 [Data] shows the contents of the data.

入力装置120は、選択画面に表示された各[データ項目]から、1以上の[データ項目]を選択する入力を受け付ける。 Input device 120, from the Data Item] displayed on the selection screen and accepts an input for selecting one or more Data Item. 入力装置120が[データ項目]を選択する入力を受け付けると、選択された[データ項目]と対応する選択欄にチェック1601が表示される。 When the input device 120 receives an input to select data items, check 1601 is displayed in the selection column corresponding to the selected Data Item].

なお、項目選択部143は、[データ]が加工された[データ項目]については、加工前の[データ項目]または加工後の[データ項目]のいずれか一方しか選択されないように、出力装置110を制御する。 Incidentally, the item selection section 143, the [Data] is processed Data Item], as whereas only a selected one of the Data Item or Data Items after processing before processing, the output device 110 to control.

つまり、項目選択部143は、加工前の[データ項目]が既に選択されている状態で、加工後の[データ項目]が選択されたとしても、加工後の[データ項目]と対応する選択欄のみにチェック1601が表示されるように出力装置110を制御する。 In other words, selection column item selection unit 143, in a state in which [data item] before processing have already been selected, even after processing Data Item] is selected, and the corresponding Data Item] after processing only check 1601 controls the output unit 110 to be displayed in. 詳細には、項目選択部143は、選択された[データ項目]に対応する[加工]を参照する。 In particular, item selection section 143 refers to the selected corresponding to the data item] [processing]. そして、項目選択部143は、[加工]に「区間」が記憶されている場合には、対応する[加工元]を参照する。 The item selection unit 143 refers to when the [processing] the "interval" is stored, the corresponding [machining Source. そして、項目選択部143は、[加工元]に記憶される[データ項目]を参照し、[データ項目]が既に選択されている場合には、この[データ項目]と対応する選択欄に表示されているチェック1601が消去されるように出力装置110を制御する。 The item selection section 143 is stored in the processing Source reference the data item, if the Data Item] has already been selected, the display on the selection column corresponding to the [data item] It has been is checked 1601 to control the output device 110 to be erased. また、項目選択部143は、新たに選択された加工後の[データ項目]と対応する選択欄にチェック1601が表示されるように出力装置110を制御する。 Also, item selection section 143 controls the output device 110 such checks 1601 is displayed in the selection column corresponding to [data item] after newly selected working.

また、項目選択部143は、加工後の[データ項目]が既に選択されている状態で加工前の[データ項目]が選択されたとしても、加工前の[データ項目]と対応する選択欄のみにチェック1601が表示されるように出力装置110を制御する。 Also, item selection section 143, even after processing the Data Items already Data Item] before processing in a state that is selected is selected, only the corresponding selection field and [data item] before processing Check 1601 controls the output unit 110 to be displayed in. 詳細には、選択された[データ項目]に対応する[加工]を参照する。 In particular, corresponding to the selected Data Item] Referring to [processing]. そして、項目選択部143は、[加工]に「区間」が記憶されていない場合には、対応する[加工元]に記憶されている[データ項目]が[加工元]に記憶され、[加工]に「区間」が記憶され、選択欄にチェック1601が表示されている[データ項目]を抽出する。 The item selecting section 143, when the [processing] to "section" is not stored, the corresponding stored in the processing Source Data Item] is stored in the processing Source, [processing ] "interval" is stored in, extracts the data item check 1601 is displayed in the selection field. そして、項目選択部143は、抽出した[データ項目]と対応する選択欄に表示されているチェック1601が消去されるように出力装置110を制御する。 The item selection unit 143 checks 1601 the extracted Data Items that appear in the corresponding selection field controls the output unit 110 to be erased. また、項目選択部143は、新たに選択された加工前の[データ項目]と対応する選択欄にチェック1601が表示されるように出力装置110を制御する。 Also, item selection section 143 controls the output device 110 such checks 1601 is displayed in the selection column corresponding to [data item] before processing newly selected.

また、出力装置110は、最大グループ数1602を表示する。 Further, the output device 110 displays the maximum group number 1602. 最大グループ数1602は、選択された[データ項目]の各[データ数]同士を乗算した数が該当する。 Maximum group number 1602 is corresponding to the number obtained by multiplying each Number Data between the selected Data Item].

また、出力装置110は、選択完了ボタン1603を表示する。 Further, the output device 110 displays a selection completion button 1603. 入力装置120が選択完了ボタン1603を選択する入力を受け付けると、項目選択処理を終了する。 When receiving the input of the input device 120 selects the selection completion button 1603 and finishes the item selection process.

<グループ化処理> <Grouping process>
図17は、本発明の一実施の形態におけるグループ化処理の概要を示す図である。 Figure 17 is a diagram showing an outline of grouping process according to an embodiment of the present invention.

まず、S1701にて、グループ化部144は、S1503にて選択する入力を受け付けたデータ項目のデータに基づき、グループを生成する。 First, in S1701, the grouping unit 144, based on the data of the data item receiving input selecting at S1503, to generate a group. 詳細には、グループ化部144は、各データ項目のデータ同士を組み合わせることで、グループを生成する。 In particular, the grouping unit 144, by combining the data of the respective data item, generates a group. 例えば、S1503にて選択する入力を受けつけたデータ項目が、「属性i(区間)」と、[属性k]と、[系列j(区間)]である場合、「属性i(区間)」のデータは「1〜3」と「4〜6」であり、[属性k]のデータは「男性」と「女性」であり、[系列j(区間)]のデータは「1〜3.5,1〜3.5,1〜3.5」と「1〜3.5,3.6〜6,3.6〜6」である。 For example, the data items received input selecting at S1503, the "attribute i (section)", the Attributes k], if it is the Series j (section)], "attribute i (interval)" Data is a "4-6" and "1-3", data of [attribute k] is a "female" and "male", the data of the series j (interval)] is "1~3.5,1 ~3.5,1~3.5 "and it is" 1~3.5,3.6~6,3.6~6 ". この場合、グループ化部144は、「属性i(区間)」のデータ「1〜3」、「4〜6」と[属性k]のデータ「男性」、「女性」と[系列j(区間)]のデータ「1〜3.5,1〜3.5,1〜3.5」、「1〜3.5,3.6〜6,3.6〜6」同士を組み合わせたグループである「1〜3,男性,{1〜3.5,1〜3.5,1〜3.5}」と、「1〜3,女性,{1〜3.5,1〜3.5,1〜3.5}」と、「1〜3,男性,{1〜3.5,3.6〜6,3.6〜6}」と、「1〜3,女性,{1〜3.5,3.6〜6,3.6〜6}」と、「4〜6,男性,{1〜3.5,1〜3.5,1〜3.5}」と、「4〜6,女性,{1〜3.5,1〜3.5,1〜3.5}」と、「4〜6,男性,{1〜3.5,3.6〜6,3.6〜 In this case, the grouping unit 144, "the attribute i (section)" data "1-3" in "4-6" and the data of the attribute k] "male", and "female" [sequence j (section) data "1~3.5,1~3.5,1~3.5" of], is a group that is a combination of "1~3.5,3.6~6,3.6~6" with each other " 1-3, male, and {1~3.5,1~3.5,1~3.5} "," 1-3, female, {1~3.5,1~3.5,1~ 3.5} ", and" 1-3, male, {1~3.5,3.6~6,3.6~6} "," 1-3, female, {1 to 3.5, and 3.6~6,3.6~6} ", and" 4-6, man, {1~3.5,1~3.5,1~3.5} "," 4-6, woman , and {1~3.5,1~3.5,1~3.5} "," 4-6, man, {1~3.5,3.6~6,3.6~ }」と、「4〜6,女性,{1〜3.5,3.6〜6,3.6〜6}」とを生成する。 A} ", it generates a" 4-6, female, {1~3.5,3.6~6,3.6~6} ".

次に、S1702にて、グループ化部144は、S1701にて生成したグループに含まれる各データをキーに属性系列DB133を検索することで、属性系列DB133に記憶される属性系列データをグループごとに分類する。 Next, in S1702, the grouping unit 144, by searching the attribute lines DB133 key each data included in the group generated in S1701, the attribute-series data stored in attribute lines DB133 per group Classify. また、グループ化部144は、キーと一致するデータの件数(以下、カウントと呼ぶ場合がある)をグループごとに算出する。 Further, the grouping unit 144, the number of data that matches the key (hereinafter also referred to as counts) is calculated for each group. これにより、グループごとのグループに属するデータの件数が算出される。 Thus, the number of data belonging to the group of each group is calculated.

次に、S1703にて、グループ化部144は、S1702にて抽出したすべてのレコードの行番号(以下、行番号リストと呼ぶ場合がある)をグループごとにすべて抽出する。 Next, in S1703, the grouping unit 144, all the records of line numbers extracted in S1702 (hereinafter sometimes referred to as a row number list) extracts all for each group a.

次に、S1704にて、グループ化部144は、S1503にて選択する入力を受け付けたデータ項目の中から一つのデータ項目を選択する。 Next, in S1704, the grouping unit 144 selects one of the data item from the data items accepted input selecting at S1503. なお、グループ化部144は、未選択のデータ項目を選択する。 Incidentally, the grouping unit 144 selects the data item has not been selected.

次に、S1705にて、グループ化部144は、S1701にて生成した各グループと、S1702にて算出した各カウントと、S1703にて抽出した各行番号とを対応付けたグループ化データを、図18に示されるようにグループ化DB134に記憶する。 Next, in S1705, the grouping unit 144, each group generated by S1701, and each count calculated in S1702, the grouping data that associates each row numbers extracted in S1703, 18 storing the group DB134, as shown in.

次に、S1706にて、グループ化部144は、S1704にて選択したデータ項目のデータが加工された後の区間であるかを判定する。 Next, in S1706, the grouping unit 144 determines whether the interval after the data of the data item selected in S1704 is processed. S1706にて、グループ化部144が、データが区間であると判定する場合(S1706−Yes)、S1707へ進む。 At S1706, the grouping unit 144, if it is determined that the data is interval (S1706-Yes), the processing proceeds to S1707. 一方、S1706にて、グループ化部144が、データが区間でないと判定する場合(S1706−No)、S1708へ進む。 On the other hand, at S1706, the grouping unit 144, if it is determined that data is not interval (S1706-No), the processing proceeds to S1708.

S1707にて、グループ化部144は、行番号リストに含まれる各行番号に対応する数値をグループごとに取得する。 At S1707, the grouping unit 144 obtains a numerical value corresponding to each row number included in the line number list for each group. そして、グループ化部144は、取得した数値に基づき、S1704にて選択したデータ項目のデータの最小値と最大値と平均値とを算出する。 Then, the grouping unit 144, based on the obtained numerical value, calculates an average value between the minimum and maximum values ​​of the data of the selected data items in S1704. これにより、グループ化部144は、区間に対応する数値を算出する。 Thus, the grouping unit 144 calculates a value corresponding to the interval. そして、グループ化部144は、算出した最小値と最大値と平均値とをグループ化DB134に追加する。 Then, the grouping unit 144 adds the minimum and maximum values ​​calculated as the average value in the group DB 134.

S1708にて、グループ化部144は、S1704にてすべてのデータ項目を選択したかを判定する。 At S1708, the grouping unit 144 determines whether to select all data items in S1704. S1708にて、グループ化部144が、すべてのデータ項目を選択したと判定する場合(S1708−Yes)、グループ化処理を終了する。 At S1708, the grouping unit 144, if it is determined that selects all data items (S1708-Yes), it terminates the grouping process. 一方、グループ化部144が、すべてのデータ項目を選択していないと判定する場合(S1708−No)、S1704へ進む。 On the other hand, the grouping unit 144, if it is determined not to select all data items (S1708-No), the processing proceeds to S1704.

<本実施の形態の効果> <Effects of the present embodiment>
以上説明した本実施の形態におけるデータ分類装置1によれば、入力装置120が選択する入力を受け付けたデータ項目に基づき抽出されるデータをグループとすることで、分類後のグループが、どのような基準で分類されたのかを識別することが容易になる。 According to the data classification apparatus 1 in the embodiment described above, by a group of data input device 120 is extracted on the basis of the data item receiving input selecting a group after classification, what it is easy to identify whether classified by reference.

また、区間に対応する数値である最小値、最大値、平均値を算出することで、区間が同じデータに対して、データの違いを示せるようになる。 The minimum value is a value corresponding to the interval, the maximum value, by calculating the average value for the interval is the same data, so can show differences in data.

また、グループごとにグループに属するデータの件数を算出することで、グループに属するデータの件数を重みとして、グループを重み付きのデータとして扱った分析が可能になる。 Further, by calculating the number of data belonging to the group for each group, as the weight of the number of data belonging to the group, consisting of groups, the analysis of treated as data weighted.

また、各要素間を比較することで算出される比率、または、データに含まれる数が最も多い要素である最頻要素を特徴として抽出することで、データの特徴を各要素の傾向から抽出できるようになる。 The ratio is calculated by comparing between the elements, or that the number contained in the data is extracted as said modal element is the largest element, can be extracted feature data from the tendency of each element so as to.

また、各要素の代表値の一例である平均値や、データの中で重複する要素を除外した出現種類を特徴として抽出することで、データの特徴を各要素の傾向から抽出できない場合であっても、各要素の代表値からデータの特徴を抽出できるようになる。 The average value and is an example of a representative value of each element, to extract the occurrence types excluding duplicate elements in the data as a feature, the feature of the data even if that can not be extracted from the tendency of the elements also, it becomes possible to extract the characteristic data from the representative value of each element.

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。 Or more, the invention made by the inventors has been concretely described based on the embodiments, the present invention is not limited to the above embodiments, and various modifications are possible without departing from the scope of the invention it is needless to say. 例えば、分析対象データとして、属性系列データ以外のデータを適用するようにしても良い。 For example, as the analysis target data, it may be applied to data other than the attribute-series data.

1…データ分類装置、110…出力装置、120…入力装置、131…属性DB、132…系列DB、133…属性系列DB、134…グループ化DB、140…データ分類部、141…特徴抽出部、142…区分部、143…項目選択部、144…グループ化部、1601…チェック、1602…最大グループ数、1603…選択完了ボタン 1 ... data classification device, 110 ... output device, 120 ... input device, 131 ... attribute DB, 132 ... sequence DB, 133 ... attribute lines DB, 134 ... grouping DB, 140 ... data classification section, 141 ... feature extraction unit, 142 ... classification section, 143 ... item selection unit, 144 ... grouping unit, 1601 ... check, 1602 ... maximum number of groups, 1603 ... selection completion button

Claims (9)

  1. 顧客の識別情報と、当該顧客の属性とを、それぞれのデータのデータ項目に対応付けて記憶する属性DBと、 And customer identification information, an attribute of the customer, an attribute DB that stores in association with the data item of each data,
    前記顧客の識別情報と、当該顧客の行動を示す行動履歴と、当該顧客の行動の日時とを、それぞれのデータのデータ項目に対応付けて記憶する系列DBと、 Identification information of the customer, the action history showing the behavior of the customer, a sequence DB to the time behavior of the customer, and stores in association with the data item of each data,
    前記属性DBの顧客の識別情報と、前記系列DBの顧客の識別情報とに基づいて、顧客の識別情報と、前記属性DBの顧客の属性と、前記系列DBの行動履歴を系列DBの顧客の日時に基づいた期間で日時順に連結したリストデータとを含む属性系列データを、当該属性系列データのそれぞれのデータのデータ項目に対応付けて記憶する属性系列DBと、 And customer identification information of the attribute DB, said on the basis of the customer identification information of the series DB, and the identification information of the customer, and the customer attribute of the attribute DB, of customers of the series DB of action history series DB the attribute-series data including the list data in a period based on the date and ligated into chronological order, the attribute lines DB that stores in association with the data item of each data of the attribute-series data,
    前記属性系列データから特徴を抽出し、抽出した前記特徴のデータを、 当該特徴のデータのデータ項目と対応付けて前記属性系列DBに追加する特徴抽出部と、 The data of the attribute-series data to extract features from the extracted the feature, the feature extraction unit in association with the data item of the data of the feature to add to the attribute lines DB,
    前記属性系列データに含まれるデータが数値である場合、前記数値を区間へと変換する区分部と、 When the is an attribute included in the sequence data Lud chromatography data is numeric, a classification unit for converting the numerical into sections,
    前記属性系列DBに記憶されたデータ項目を一覧で表示する出力装置と、 An output device for displaying a data item stored in the attribute lines DB in the list,
    前記出力装置が一覧で表示するデータ項目から、 グループを生成するためのデータ項目を選択する入力を受け付ける入力装置と、 From Lud over data item displays the output device in the list, an input device that receives an input for selecting a data item for generating the group,
    前記入力装置が入力を受け付けたデータ項目に対応するデータの種類に基づいて、前記属性系列DBに記憶されている属性系列データをグループするグループ化部と、 And based on the type of data corresponding to the data item that the input device accepts the input, and a grouping unit for grouping attributes series data stored in the attribute lines DB,
    を有 I have a,
    前記特徴抽出部は、前記特徴として、各リストデータを構成する行動履歴である要素における隣接する要素を比較した比率、各リストデータを構成する要素における最頻出値、各リストデータを構成する要素における平均値、及び各リストデータを構成する要素における出現種類の少なくとも一つを算出する、データ分類装置。 The feature extraction unit, as the feature, in the most frequent value in the ratio of comparing the adjacent elements, constituting each list data element constituting each list data elements in an element that is action history constituting each list data calculating an average value, and at least one occurrence types in elements constituting each list data, the data classifier.
  2. 請求項1に記載のデータ分類装置において、 The data classification apparatus according to claim 1,
    前記グループ化部によりグループ化された結果を記憶するグループ化DBをさらに備え、 Further comprising a grouping DB for storing the results grouped by the grouping unit,
    前記グループ化部は、前記グループ化したグループ毎の分類結果を前記グループ化DBに記憶する 、データ分類装置。 The grouping unit stores the classification result of each of the grouped groups the grouping DB, data classification device.
  3. 請求項2に記載のデータ分類装置において、 The data classification apparatus according to claim 2,
    前記区分部は、前記変換したデータを、区間に変換したことを示すデータ項目と対応付けて前記属性系列DBへ追加し、 The division unit the converted data, in association with the data item indicating that the conversion to the section added to the attribute lines DB,
    前記グループ化部は、前記属性系列DBを参照し、前記入力装置が入力を受け付けたデータ項目の値がすべて一致する顧客を同一グループとするようにグループを生成し、前記入力装置が入力を受け付けたデータ項目が、前記区間に変換したことを示すデータ項目である場合、前記属性系列DBを参照し、同一グループに属する当該区間に変換する前の数値を用いて平均値、最小値、最大値をグループ毎で算出し、同一グループに属する属性系列データの件数をグループ毎に算出し、算出した平均値、最小値、最大値、および件数をグループ化DBに前記分類結果として、記憶する 、データ分類装置。 The grouping unit refers to the attribute lines DB, the value of the data item of which the input device accepts the input and generates a group to the same group of customers that match all, the input device accepts the input data item, when a data item indicating that the conversion in the section, by referring to the attribute lines DB, average using numerical before converting into the section belonging to the same group, minimum, maximum It calculates in each group, to calculate the number of attribute-series data belonging to the same group in each group, the calculated average value, minimum value, maximum value, and the number as the classified result to the group DB, and stores the data classification device.
  4. 請求項1〜3のいずれか一項に記載のデータ分類装置において、 The data classification apparatus according to any one of claims 1 to 3,
    前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数がすべて一致し、 当該要素が数値である場合には、前記特徴として隣接する要素を比較した比率を算出する、データ分類装置。 The feature extraction unit, the attribute lines the number of elements in an element that is action history constituting each list data included in the data matches all, if the elements are numeric, compares the adjacent elements as the feature calculating the the percentage, data classification device.
  5. 請求項1 〜4のいずれか一項に記載のデータ分類装置において、 The data classification apparatus according to any one of claims 1-4,
    前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数がすべて一致し、 当該要素が数値ではない場合には、前記特徴として各リストデータの要素における最頻出値を抽出する、データ分類装置。 The feature extraction unit, the attribute-series data element number matches all the elements that are action history constituting each list data contained in the case the element is not numeric, the elements of each list data as the feature extracting the most frequent value in a data classification device.
  6. 請求項1〜 のいずれか一項に記載のデータ分類装置において、 The data classification apparatus according to any one of claims 1 to 5
    前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数が一致せず、 当該要素が数値である場合には、前記特徴として各リストデータの要素における平均値を算出する、データ分類装置。 The feature extraction unit, the attribute-series data without matching the number of elements in an element that is action history constituting each list data included, if the element is a numerical value, the elements of each list data as the feature It calculates an average value in the data classification apparatus.
  7. 請求項1〜 のいずれか一項に記載のデータ分類装置において、 The data classification apparatus according to any one of claims 1 to 6
    前記特徴抽出部は、前記属性系列データに含まれる各リストデータを構成する行動履歴である要素の要素数が一致せず、 当該要素が数値ではない場合には、前記特徴として各リストデータの要素における出現種類を抽出する、データ分類装置。 The feature extraction unit, the attribute-series data without matching the number of elements in an element that is action history constituting each list data included, if the element is not numeric, the elements of each list data as the feature extracting the appearance type of the data classification apparatus.
  8. 顧客の識別情報と、当該顧客の属性とを、それぞれのデータのデータ項目に対応付けて記憶する属性DBと、 And customer identification information, an attribute of the customer, an attribute DB that stores in association with the data item of each data,
    前記顧客の識別情報と、当該顧客の行動を示す行動履歴と、当該顧客の行動の日時とを、それぞれのデータのデータ項目に対応付けて記憶する系列DBと、 Identification information of the customer, the action history showing the behavior of the customer, a sequence DB to the time behavior of the customer, and stores in association with the data item of each data,
    前記属性DBの顧客の識別情報と、前記系列DBの顧客の識別情報とに基づいて、顧客の識別情報と、前記属性DBの顧客の属性と、前記系列DBの行動履歴を系列DBの顧客の日時に基づいた期間で日時順に連結したトデータとを含む属性系列データを、当該属性系列データのそれぞれのデータのデータ項目に対応付けて記憶する属性系列DBと、を有するデータ分類装置で実行するデータ分類方法であって、 And customer identification information of the attribute DB, said on the basis of the customer identification information of the series DB, and the identification information of the customer, and the customer attribute of the attribute DB, of customers of the series DB of action history series DB data to perform an attribute-series data including a period based on the date and Todeta linked to chronological order, the data classification device having a attribute lines DB that stores in association with the data item of each data of the attribute-series data a classification method,
    特徴抽出部が、 前記属性系列データから特徴を抽出し、抽出した前記特徴のデータ、当該特徴のデータのデータ項目と対応付けて前記属性系列DBに追加するデータ項目追加ステップと、 Feature extraction unit, the attribute extracting features from sequence data, the data of the extracted the feature, the data items additional step of adding in association with the data item in the data of the feature in the attribute lines DB,
    区分部が、前記属性系列データに含まれるデータが数値である場合、前記数値を区間へと変換する数値変換ステップと、 If classification unit, Lud over data included in the attribute-series data is numeric, and numeric conversion step of converting the numerical into sections,
    出力装置が、前記属性系列DBに記憶されたデータ項目を一覧で表示する表示ステップと、 Output device, and a display step of displaying the data item stored in the attribute lines DB in the list,
    入力装置が、前記出力装置が一覧で表示するデータ項目から、 グループを生成するためのデータ項目を選択する入力を受け付けるデータ項目選択ステップと、 Input device, from Lud over data item displays the output device in the list, a data item selection step of accepting an input to select data items to generate a group,
    グループ化部が、前記入力装置が入力を受け付けたデータ項目に対応するデータの種類に基づいて、前記属性系列DBに記憶されている属性系列データをグループするグループ化ステップと、 Grouping unit, a grouping step of the input device is have group Dzu the type of data corresponding to the data item the input of which is accepted, to group attributes series data stored in the attribute lines DB,
    を有 I have a,
    前記データ項目追加ステップは、前記特徴として、各リストデータを構成する行動履歴である要素における隣接する要素を比較した比率、各リストデータを構成する要素における最頻出値、各リストデータを構成する要素における平均値、及び各リストデータを構成する要素における出現種類の少なくとも一つを算出する、 The data item additional steps, elements constituting as the feature, the ratio of comparing the adjacent elements in an element that is action history constituting each list data, the most frequent values in elements constituting each list data, each list data calculating an average value, and at least one occurrence types in elements constituting each list data in,
    データ分類方法。 Data classification method.
  9. 顧客の識別情報と、当該顧客の属性とを、それぞれのデータのデータ項目に対応付けて記憶する属性DBと、 And customer identification information, an attribute of the customer, an attribute DB that stores in association with the data item of each data,
    前記顧客の識別情報と、当該顧客の行動を示す行動履歴と、当該顧客の行動の日時とを、それぞれのデータのデータ項目に対応付けて記憶する系列DBと、 Identification information of the customer, the action history showing the behavior of the customer, a sequence DB to the time behavior of the customer, and stores in association with the data item of each data,
    前記属性DBの顧客の識別情報と、前記系列DBの顧客の識別情報とに基づいて、顧客の識別情報と、前記属性DBの顧客の属性と、前記系列DBの行動履歴を系列DBの顧客の日時に基づいた期間で日時順に連結したリストデータとを含む属性系列データを、当該属性系列データのそれぞれのデータのデータ項目に対応付けて記憶する属性系列DBと、を有するデータ分類装置のコンピュータに実行させるデータ分類プログラムであって、 And customer identification information of the attribute DB, said on the basis of the customer identification information of the series DB, and the identification information of the customer, and the customer attribute of the attribute DB, of customers of the series DB of action history series DB the attribute-series data including the list data in a period based on the date and ligated into chronological order, the attribute lines DB that stores in association with the data item of each data of the attribute-series data, the computer of the data classification apparatus having a data classification program to be executed,
    特徴抽出部が、 前記属性系列データから特徴を抽出し、抽出した前記特徴のデータ、当該特徴のデータのデータ項目と対応付けて前記属性系列DBに追加するデータ項目追加ステップと、 Feature extraction unit, the attribute extracting features from sequence data, the data of the extracted the feature, the data items additional step of adding in association with the data item in the data of the feature in the attribute lines DB,
    区分部が、前記属性系列データに含まれるデータが数値である場合、前記数値を区間へと変換する数値変換ステップと、 If classification unit, Lud over data included in the attribute-series data is numeric, and numeric conversion step of converting the numerical into sections,
    出力装置が、前記属性系列DBに記憶されたデータ項目を一覧で表示する表示ステップと、 Output device, and a display step of displaying the data item stored in the attribute lines DB in the list,
    入力装置が、前記出力装置が一覧で表示するデータ項目から、 グループを生成するためのデータ項目を選択する入力を受け付けるデータ項目選択ステップと、 Input device, from Lud over data item displays the output device in the list, a data item selection step of accepting an input to select data items to generate a group,
    グループ化部が、前記入力装置が入力を受け付けたデータ項目に対応するデータの種類に基づいて、前記属性系列DBに記憶されている属性系列データをグループするグループ化ステップと、 Grouping unit, a grouping step of the input device is have group Dzu the type of data corresponding to the data item the input of which is accepted, to group attributes series data stored in the attribute lines DB,
    をデータ分類装置のコンピュータに実行させ The cause the computer to execute the data classification device,
    前記データ項目追加ステップは、前記特徴として、各リストデータを構成する行動履歴である要素における隣接する要素を比較した比率、各リストデータを構成する要素における最頻出値、各リストデータを構成する要素における平均値、及び各リストデータを構成する要素における出現種類の少なくとも一つを算出する、データ分類プログラム。 The data item additional steps, elements constituting as the feature, the ratio of comparing the adjacent elements in an element that is action history constituting each list data, the most frequent values in elements constituting each list data, each list data mean values, and calculating at least one occurrence types in elements constituting each list data, data classification program in.
JP2013255823A 2013-12-11 2013-12-11 Data classification apparatus and data classification method and a data classification program Active JP6257298B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013255823A JP6257298B2 (en) 2013-12-11 2013-12-11 Data classification apparatus and data classification method and a data classification program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013255823A JP6257298B2 (en) 2013-12-11 2013-12-11 Data classification apparatus and data classification method and a data classification program

Publications (2)

Publication Number Publication Date
JP2015114807A true JP2015114807A (en) 2015-06-22
JP6257298B2 true JP6257298B2 (en) 2018-01-10

Family

ID=53528569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013255823A Active JP6257298B2 (en) 2013-12-11 2013-12-11 Data classification apparatus and data classification method and a data classification program

Country Status (1)

Country Link
JP (1) JP6257298B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101984A (en) * 1995-10-06 1997-04-15 Hitachi Ltd Method and system for segmenting customer
JP3815218B2 (en) * 2000-12-20 2006-08-30 株式会社日立製作所 Data analysis methods and apparatus
JP2004010232A (en) * 2002-06-05 2004-01-15 Nippon Yusoki Co Ltd Battery forklift
JP2005135167A (en) * 2003-10-30 2005-05-26 Toppan Printing Co Ltd Device, method, and program for data analysis
JP4698328B2 (en) * 2005-08-12 2011-06-08 中国電力株式会社 Data analysis methods, data analysis systems, and program
JP5772563B2 (en) * 2011-12-14 2015-09-02 富士通株式会社 An information processing method, apparatus and program

Also Published As

Publication number Publication date Type
JP2015114807A (en) 2015-06-22 application

Similar Documents

Publication Publication Date Title
Strassmann The business value of computers: an executive's guide
US7565613B2 (en) User interface incorporating data ecosystem awareness
Olson et al. Advanced data mining techniques
US5712987A (en) Interface and associated bank customer database
US20040236696A1 (en) History information adding program, fraud determining program using history information, and fraud determining system using history information
US20060212441A1 (en) Full text query and search systems and methods of use
US20030171942A1 (en) Contact relationship management system and method
US20080162456A1 (en) Structure extraction from unstructured documents
US20110251870A1 (en) Point-of-sale-based market tracking and reporting
US20110087678A1 (en) Collaborative filtering engine
US20050055289A1 (en) Multi-dimensional business information accounting software engine
US20080235579A1 (en) Comparing and merging multiple documents
US20050197954A1 (en) Methods and systems for predicting business behavior from profiling consumer card transactions
US20160004764A1 (en) System and method for news events detection and visualization
US6597379B1 (en) Automated navigation to exceptional condition cells in a merchandise planning system
US6976000B1 (en) Method and system for researching product dynamics in market baskets in conjunction with aggregate market basket properties
US7606750B1 (en) Method and system for displaying a spending comparison report
US20100153107A1 (en) Trend evaluation device, its method, and program
US6505168B1 (en) System and method for gathering and standardizing customer purchase information for target marketing
US20020099581A1 (en) Computer-implemented dimension engine
US20070130170A1 (en) Data ecosystem awareness
US20080312992A1 (en) Automatic business process creation method using past business process resources and existing business process
US20080243797A1 (en) Method and system of selecting landing page for keyword advertisement
US20090259622A1 (en) Classification of Data Based on Previously Classified Data
US20100057679A1 (en) Search using business intelligence dimensions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171205

R150 Certificate of patent or registration of utility model

Ref document number: 6257298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150