JP2009129276A - Category naming apparatus, category naming method and category naming program - Google Patents
Category naming apparatus, category naming method and category naming program Download PDFInfo
- Publication number
- JP2009129276A JP2009129276A JP2007304938A JP2007304938A JP2009129276A JP 2009129276 A JP2009129276 A JP 2009129276A JP 2007304938 A JP2007304938 A JP 2007304938A JP 2007304938 A JP2007304938 A JP 2007304938A JP 2009129276 A JP2009129276 A JP 2009129276A
- Authority
- JP
- Japan
- Prior art keywords
- category
- naming
- unit
- unit data
- identifiers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類するカテゴリ命名装置に関する。 The present invention relates to a multi-value database that holds multi-value attribute values including one or more identifiers that uniquely identify a plurality of records, and a category for classifying the plurality of records stored in the multi-value database into categories. It relates to a naming device.
従来より、データベースに記憶されるデータを有効利用するために、当該データを分類することが行われている。データベースに記憶されるデータの分類に際して、分類体系が与えられている場合には、当該分類体系の定義に従って、人手によりまたは計算機を用いた自動分類技術により分類している。例えば、特許文献1では、ユーザが決定および作成したカテゴリである分類木を基にして、文書分類装置により自動的に分類する技術が開示されている。
Conventionally, in order to effectively use data stored in a database, the data is classified. When the data stored in the database is classified, if a classification system is given, the data is classified manually or by an automatic classification technique using a computer according to the definition of the classification system. For example,
ところが、データの分類体系が与えられていない場合には、データベースが大規模データベースであると、人手による分類体系の構築が煩雑になり、負担が大きい。そのためにも、分類体系を自動的に作成する必要がある。なお、自動的に生成したカテゴリに適切な名前を命名することも、分類後にデータを利用するためには重要である。そこで、最近では、データベースの各レコードデータの特徴に基づいてカテゴリを自動的に生成し、各レコードを対応するカテゴリに分類する技術がある。 However, when no data classification system is given, if the database is a large-scale database, the construction of a manual classification system becomes complicated, and the burden is large. To that end, it is necessary to automatically create a classification system. In addition, it is important to give an appropriate name to an automatically generated category in order to use data after classification. Therefore, recently, there is a technique for automatically generating categories based on the characteristics of each record data in a database and classifying each record into a corresponding category.
ここで、図14を用いて、従来技術に係るデータベースの各レコードデータの特徴に基づいてカテゴリを自動的に生成する手法について説明する。図14は、従来技術に係るデータベースの各レコードデータの特徴に基づいてカテゴリを自動的に生成する手法について説明するための図である。 Here, a method for automatically generating a category based on the characteristics of each record data of a database according to the prior art will be described with reference to FIG. FIG. 14 is a diagram for explaining a method of automatically generating categories based on the characteristics of each record data in a database according to the conventional technique.
図14に示すように、カテゴリ命名装置は、1単位のデータ(インスタンス)の属性値の数が1個であるデータベースにおいて特定の属性を決定し、各レコードデータにおいて対応する属性値を求める。そして、カテゴリ命名装置は、当該属性値が同様であるデータを同じカテゴリとして分類し、属性値をカテゴリ名として命名してカテゴリ群を生成する。 As shown in FIG. 14, the category naming apparatus determines a specific attribute in a database in which the number of attribute values of one unit of data (instance) is one, and obtains a corresponding attribute value in each record data. Then, the category naming device classifies data having the same attribute value as the same category, and generates the category group by naming the attribute value as the category name.
例えば、カテゴリ命名装置は、従業員に関するデータベースを「職務」の観点から分類する場合に、当該「職務」フィールドの中から「開発」や「営業」や「購買」カテゴリなどの属性値が同じ従業員を同じカテゴリとして分類し(「No.9023」と「No.9025」との「職務」が「開発」である従業員を同じカテゴリとして分類)、当該属性値をカテゴリ名としてカテゴリの自動命名およびカテゴリ群の自動生成を行う。 For example, the category naming device is used to classify employees' databases from the viewpoint of “job”, and employees with the same attribute values such as “development”, “sales”, and “purchase” from the “job” field. Employees are classified as the same category (employees with “No. 9023” and “No. 9025” whose “duties” are “development” are classified as the same category), and the category is automatically named using the attribute value as the category name And automatic generation of categories.
しかしながら、上記した従来の技術は、複式簿記の枠組みに沿って作られている会計伝票などの、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースの場合に、分類するカテゴリの統計的精度が落ちてしまうという課題があった。例えば、従来技術に係るカテゴリ命名装置は、1伝票に複数レコードが対応して、当該複数レコードを1単位としたり、一つのフィールドに複数個の値を格納したりするような複式簿記の枠組みに沿って作られている会計伝票などのデータの場合を考慮していなかった。この結果、従来技術に係るカテゴリ命名装置は、複式簿記の枠組みに沿って作られている会計伝票などのデータの場合に、一つの要素に対して分類先のカテゴリが複数個になり、1カテゴリに属する要素に他カテゴリの特徴が混ざってしまうために、統計的精度が落ちてしまう。 However, the above-described conventional technique holds multiple attribute values including one or more identifiers that uniquely identify a plurality of records, such as accounting slips created in accordance with a double-entry bookkeeping framework. In the case of the value database, there is a problem that the statistical accuracy of the category to be classified is lowered. For example, the category naming apparatus according to the prior art has a double-entry bookkeeping framework in which a plurality of records correspond to one slip and the plurality of records are set as one unit or a plurality of values are stored in one field. We did not consider the case of data such as accounting slips made along the way. As a result, the category naming apparatus according to the prior art has a plurality of classification destination categories for one element in the case of data such as accounting slips created in accordance with the double-entry bookkeeping framework. Since the characteristics of other categories are mixed with the elements belonging to, statistical accuracy is lowered.
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くすることが可能であるカテゴリ命名装置を提供することを目的とする。 Therefore, the present invention has been made to solve the above-described problems of the prior art, and efficiently classifies statistical characteristics into the same category, and names clear category names for the classified categories. It is an object of the present invention to provide a category naming apparatus capable of increasing statistical accuracy.
上述した課題を解決し、目的を達成するため、本発明は、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類する方法をコンピュータに実行させるカテゴリ命名プログラムであって、前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出手順と、前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名手順と、前記命名手順により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成手順と、をコンピュータに実行させることを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention provides a multi-value database that holds multi-value attribute values including one or more identifiers that uniquely identify a plurality of records. A category naming program for causing a computer to execute a method for classifying a plurality of records stored in a category, reading a plurality of records stored in the multi-value database, and identifying the same identifier value An extraction procedure for extracting as unit data, and a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure are acquired from the multi-value database, and from the acquired plurality of attribute values A naming procedure for naming a category name and a plurality of categories corresponding to the category for each category named by the naming procedure. It acquires the identifier from the multilevel database, characterized in that to execute a category generation procedure for generating the category data group in association with a plurality of identifiers and category names acquired, to the computer.
また、本発明は、上記の発明において、前記命名手順は、前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値において、同じ属性値が複数回出現した場合に、当該複数の属性値をまとめて一つのカテゴリ名として命名することを特徴とする。 Further, the present invention is the above invention, wherein the naming procedure acquires a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, In the plurality of acquired attribute values, when the same attribute value appears a plurality of times, the plurality of attribute values are collectively named as one category name.
また、本発明は、上記の発明において、前記命名手順は、前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の非数値属性において、当該複数の非数値属性が同一のカテゴリを意味する場合に、当該同一のカテゴリを統一して一つのカテゴリ名として命名することを特徴とする。 Further, the present invention is the above invention, wherein the naming procedure acquires a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, In the plurality of acquired non-numeric attributes, when the plurality of non-numeric attributes mean the same category, the same category is unified and named as one category name.
また、本発明は、上記の発明において、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類するカテゴリ命名装置のカテゴリ命名方法であって、前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出工程と、前記抽出工程により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名工程と、前記命名工程により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成工程と、を含んだことを特徴とする。 Further, according to the present invention, in the above-described invention, in the multi-value database holding a multi-value attribute value including one or a plurality of identifiers for uniquely identifying a plurality of records, a plurality of data stored in the multi-value database are stored. A category naming method of a category naming apparatus for classifying records into categories, wherein a plurality of records stored in the multi-value database are read, and the same identifier value is extracted as the same unit data; and Acquiring a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction step from the multi-value database, and naming a category name from the plurality of acquired attribute values; , For each category named in the naming step, a plurality of identifiers corresponding to the category are retrieved from the multi-value database. Obtained to, characterized in that it includes a category generation step of generating a category data group in association with a plurality of identifiers and category names acquired, the.
また、本発明は、上記の発明において、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類するカテゴリ命名装置であって、前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出手段と、前記抽出手段により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名手段と、前記命名手段により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成手段と、を備えたことを特徴とする。 Further, according to the present invention, in the above-described invention, in the multi-value database holding a multi-value attribute value including one or a plurality of identifiers for uniquely identifying a plurality of records, a plurality of data stored in the multi-value database are stored. A category naming apparatus for classifying records into categories, wherein a plurality of records stored in the multi-value database are read, and extraction means for extracting the same identifier values as the same unit data; and the extraction means Naming means for acquiring a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the multi-value database and naming a category name from the plurality of acquired attribute values; and the naming means For each category named according to the above, a plurality of identifiers corresponding to the category are acquired from the multi-value database and acquired. And category generating means for generating a category data group in association with the number of identifiers and category name, characterized by comprising a.
本発明によれば、多値データベースにおいて、一つのデータが直接属するカテゴリは1個となり、これ以上性質を分けることができない最小単位としてのカテゴリを生成することができる結果、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くすることが可能である。 According to the present invention, in a multi-value database, there is only one category to which one data directly belongs, and a category as a minimum unit that cannot further divide properties can be generated. Can be classified into the same category, and a clear category name can be given to the classified category to increase the statistical accuracy.
また、本発明によれば、同じ属性値が複数出現した場合に、当該複数の属性値をまとめて一つのカテゴリ名として命名することができる結果、カテゴリの冗長性を排除することが可能であるとともに、同一の単位データをより多く同じカテゴリに所属させることが可能である。 Further, according to the present invention, when a plurality of the same attribute values appear, the plurality of attribute values can be collectively named as one category name, so that it is possible to eliminate category redundancy. At the same time, the same unit data can belong to the same category more.
また、本発明によれば、複数の非数値属性が同義語である場合に、当該同義語を統一して一つのカテゴリ名とすることができる結果、より統計的精度を高くすることが可能である。 Further, according to the present invention, when a plurality of non-numeric attributes are synonyms, the synonyms can be unified to form one category name, and as a result, statistical accuracy can be further increased. is there.
また、本発明によれば、数値の値域を用いてカテゴリ名とすることができる結果、明瞭で、かつ、意味の有るカテゴリとして利用することが可能である。 Further, according to the present invention, a category name can be obtained using a numerical range, and as a result, it can be used as a clear and meaningful category.
また、本発明によれば、一つのレコードの複数の属性を用いてカテゴリ名とすることができる結果、より統計的精度を高くすることが可能である。 Further, according to the present invention, it is possible to make a category name using a plurality of attributes of one record, and as a result, it is possible to further increase the statistical accuracy.
また、本発明によれば、カテゴリデータ群を用いてクラスタを生成することができる結果、より明瞭で、かつ、統計的類似精度の高いクラスタを生成することが可能である。 Further, according to the present invention, a cluster can be generated using the category data group, and as a result, a clearer cluster with high statistical similarity accuracy can be generated.
以下に添付図面を参照して、この発明に係るカテゴリ命名装置の実施例を詳細に説明する。なお、以下では、本発明に係るカテゴリ命名装置の概要および特徴、カテゴリ命名装置の構成および処理の流れを順に説明し、最後に本実施例による効果を説明する。 Exemplary embodiments of a category naming apparatus according to the present invention will be described below in detail with reference to the accompanying drawings. In the following, the outline and features of the category naming apparatus according to the present invention, the configuration of the category naming apparatus and the flow of processing will be described in order, and finally the effects of the present embodiment will be described.
[概要および特徴]
まず最初に、図1を用いて、実施例1に係るカテゴリ命名装置の概要および特徴を説明する。図1は、実施例1に係るカテゴリ命名装置の概要および特徴を示す図である。
[Overview and Features]
First, the outline and characteristics of the category naming apparatus according to the first embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating an overview and characteristics of the category naming apparatus according to the first embodiment.
このカテゴリ命名装置は、RDB(relational database:関係データベース)などのように、一つまたは複数個のレコードをデータ単位とする多値データベース、または、ODB(object database:オブジェクトデータベース)などのように、一つのレコードのフィールド値に1個ないし複数個の値を格納した多値データベースを保持しており、多値の属性値を有するデータに対して、これらの多値データベースのレコードをカテゴリ別に分類する。ここでは、図1に示すように、RDBである会計データを用いて説明する。 This category naming device is a multi-value database in which one or a plurality of records is a data unit, such as RDB (relational database), or ODB (object database). Maintains a multi-value database that stores one or more values in the field value of one record, and categorizes these multi-value database records by category for data with multi-value attribute values. . Here, as shown in FIG. 1, description will be made using accounting data which is RDB.
このような構成において、カテゴリ命名装置は、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類することを概要とするものであり、特に、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くすることが可能である点を主たる特徴とする。 In such a configuration, the category naming device includes a plurality of multi-value databases stored in the multi-value database in a multi-value database that holds multi-value attribute values including one or more identifiers that uniquely identify a plurality of records. This is an overview of classifying records into categories. In particular, the statistical characteristics are efficiently classified into the same category, and a clear category name is assigned to the classified category to improve statistical accuracy. The main feature is that it can be raised.
この主たる特徴について具体的に説明すると、カテゴリ命名装置は、多値データベースに記憶される複数のレコードを読み込み、識別子の値が同一のものを同一の単位データとして抽出する(図1の(1)参照)。 This main feature will be described in detail. The category naming apparatus reads a plurality of records stored in the multi-value database and extracts the same identifier value as the same unit data ((1) in FIG. 1). reference).
具体的には、カテゴリ命名装置は、多値データベースである会計データを1レコードずつ読み込み、当該レコードに含まれる識別子の値が同一のものを同一の単位データとして抽出する。つまり、識別子の値が同一のレコードが続く場合は、当該複数のレコードは同一の単位データに関するレコードとなる。また、識別子の値が異なるレコードの場合は、当該異なるレコードが単位データの切れ目であり、この異なるレコードから新たな単位データに関するレコードが始まる。このような規則に基づいて、カテゴリ命名装置は、多値データベースの全てのレコードから単位データの抽出を行う。 Specifically, the category naming apparatus reads accounting data that is a multi-value database one record at a time, and extracts the same identifier value contained in the record as the same unit data. That is, when records having the same identifier value continue, the plurality of records are records related to the same unit data. Further, in the case of records having different identifier values, the different records are breaks of unit data, and a record relating to new unit data starts from this different record. Based on such rules, the category naming apparatus extracts unit data from all the records of the multi-value database.
例えば、会計データにおいてレコードを一意に識別する識別子を「日付」および「伝票番号」とした場合、カテゴリ命名装置は、1レコードずつ読み込んで、識別子「日付:20070105、伝票番号:108327」である1レコード目と2レコード目とを同一の単位データとする。同様に、カテゴリ命名装置は、識別子「日付:20070105、伝票番号:108328」である3レコード目と4レコード目と5レコード目とを同一の単位データとする。このような規則に基づいて、カテゴリ命名装置は、会計データの全てのレコードから単位データの抽出を行う。なお、この識別子は、予めユーザにより一つまたは複数指定されている。 For example, when the identifier for uniquely identifying the record in the accounting data is “date” and “slip number”, the category naming apparatus reads 1 record at a time, and the identifier “date: 2007070105, slip number: 108327” is 1 The record unit and the second record are the same unit data. Similarly, the category naming apparatus sets the third record, the fourth record, and the fifth record having the identifier “date: 20070105, slip number: 108328” as the same unit data. Based on such rules, the category naming apparatus extracts unit data from all records of accounting data. One or more identifiers are designated in advance by the user.
そして、カテゴリ命名装置は、抽出された単位データに保持される複数の識別子に対応する複数の属性値を多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する(図1の(2)参照)。具体的には、カテゴリ命名装置は、抽出された単位データにより保持される複数の識別子から、多値データベースに記憶される複数の属性値を取得する。その後、カテゴリ命名装置は、取得したカテゴリを生成および命名する基となる属性である複数のカテゴリ生成属性の値を用いて、当該複数のカテゴリ生成属性値を適当な接続記号により繋げてカテゴリ名を命名する。つまり、単位データには、複数のレコードが対応しているので、当該複数のレコードの属性値は複数個存在することとなる。そこで、カテゴリ命名装置は、この複数の属性値であるカテゴリ生成属性値を用いてカテゴリ名を命名する。 Then, the category naming apparatus acquires a plurality of attribute values corresponding to a plurality of identifiers held in the extracted unit data from the multi-value database, and names the category name from the acquired plurality of attribute values (FIG. 1). (See (2)). Specifically, the category naming apparatus acquires a plurality of attribute values stored in the multi-value database from a plurality of identifiers held by the extracted unit data. After that, the category naming apparatus uses the values of a plurality of category generation attributes, which are the attributes for generating and naming the acquired category, and connects the plurality of category generation attribute values with an appropriate connection symbol to obtain a category name. Naming. That is, since a plurality of records correspond to the unit data, there are a plurality of attribute values of the plurality of records. Therefore, the category naming apparatus names the category name using the category generation attribute value which is the plurality of attribute values.
上記した例で具体的に説明すると、カテゴリ命名装置は、抽出された単位データにより保持される複数の識別子「日付:20070105、伝票番号:108327」を用いて、多値データベースに記憶される複数の属性値「普通預金」と「未収入金」とを取得する。その後、カテゴリ命名装置は、取得した「普通預金」と「未収入金」とを接続記号により「普通預金_未収入金」として繋げてカテゴリ名を命名する。同様に、カテゴリ命名装置は、抽出された単位データにより保持される複数の識別子「日付:20070105、伝票番号108328」を用いて、多値データベースに記憶される複数の属性値「未払金」と「本支店勘定」と「未収入金」とを取得して、取得した「未払金」と「本支店勘定」と「未収入金」とを接続記号により「未払金_本支店勘定_未収入金」として繋げてカテゴリ名を命名する。このようにして、カテゴリ命名装置は、抽出された単位データにより保持される全ての識別子に対してカテゴリ名を命名する。
More specifically, in the above example, the category naming apparatus uses a plurality of identifiers “date: 2007070105, slip number: 108327” held by the extracted unit data to store a plurality of items stored in the multi-value database. Attribute values “ordinary deposit” and “accrual” are acquired. Thereafter, the category naming apparatus names the category name by connecting the acquired “ordinary deposit” and “accrual” as “ordinary deposit_accrual” by a connection symbol. Similarly, the category naming apparatus uses a plurality of identifiers “date: 2007070105,
続いて、カテゴリ命名装置は、命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成する(図1の(3)参照)。 Subsequently, for each named category, the category naming apparatus acquires a plurality of identifiers corresponding to the category from the multi-value database, and generates a category data group by associating the acquired plurality of identifiers with the category name. (Refer to (3) in FIG. 1).
上記した例で具体的に説明すると、カテゴリ命名装置は、命名されたカテゴリ名「普通預金_未収入金」に対応する複数の識別子「日付:20070105、伝票番号:108327」、「日付:20070106、伝票番号:108330」を多値データベースから取得する。続いて、カテゴリ命名装置は、取得した日付と伝票番号とを繋げた識別子「20070105−108327、20070106−108330」を、新しいカテゴリ名として命名された「普通預金_未収入金」に対応付けて、当該カテゴリのデータ群を生成する。同様に、カテゴリ命名装置は、命名されたカテゴリ名「未払金_本支店勘定_未収入金」に対応する複数の識別子「日付:20070105、伝票番号:108328」を多値データベースから取得し、当該日付と伝票番号とを繋げた識別子「20070105−108328」を、新しいカテゴリ名として命名された「未払金_本支店勘定_未収入金」に対応付けて、当該カテゴリのデータ群を生成する。 More specifically, in the above example, the category naming apparatus has a plurality of identifiers “date: 2007070105, slip number: 108327”, “date: 2007070106, slip” corresponding to the named category name “ordinary deposit_accrual”. Number: 108330 ”is acquired from the multi-value database. Subsequently, the category naming apparatus associates the identifier “2007070105-108327, 2000070106-108330” connecting the acquired date and the slip number with “ordinary deposit_accrual” named as the new category name, and Generate a category data set. Similarly, the category naming apparatus acquires a plurality of identifiers “date: 2007070105, slip number: 108328” corresponding to the named category name “accrual_main branch account_accrual” from the multi-value database, The data group of the category is generated by associating the identifier “2007070105-108328” linked with the slip number with “accrual account_main branch account_accrual account” named as the new category name.
このようなことから、実施例1に係るカテゴリ命名装置は、多値の属性値を保持する多値データベースを用いてカテゴリの分類を行う場合に、複数の属性に含まれる識別子が同一のものをまとめるとともに、複数の属性値を繋げてカテゴリ名として命名することができる結果、上記した主たる特徴のごとく、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くすることが可能である。 For this reason, the category naming apparatus according to the first embodiment uses the same identifiers included in a plurality of attributes when performing category classification using a multi-value database that holds multi-value attribute values. As a result of being able to combine and attribute a plurality of attribute values as a category name, statistical features are efficiently classified into the same category as the main feature described above, and the category is clearly defined. It is possible to increase the statistical accuracy by naming category names.
[実施例1に係るカテゴリ命名装置の構成]
次に、図2を用いて、実施例1に係るカテゴリ命名装置の構成を説明する。図2は、実施例1に係るカテゴリ命名装置の構成を示す構成図である。図2に示すように、カテゴリ命名装置1は、入力部2、出力部3、I/F部4、記憶部5および制御部6から構成される。なお、カテゴリ命名装置1が保持する一つまたは複数個のレコードをデータ単位とする多値データベースとして、RDBである会計データを例に挙げて説明する。
[Configuration of Category Naming Device According to Embodiment 1]
Next, the configuration of the category naming apparatus according to the first embodiment will be described with reference to FIG. FIG. 2 is a configuration diagram illustrating the configuration of the category naming apparatus according to the first embodiment. As shown in FIG. 2, the
入力部2は、キーボードやマウスなどを備えて構成され、各種の情報の入力を受け付ける。例えば、入力部2は、カテゴリ命名装置1のユーザによりカテゴリの命名や生成などの指示が行われる場合にその入力指示を受け付ける。
The
出力部3は、モニタ(若しくはディスプレイ、タッチパネル)やスピーカなどを備えて構成され、各種の情報を出力する。例えば、出力部3は、入力部2によって受け付けられたカテゴリの命名や生成などの入力指示を表示出力する。
The
I/F部4は、ネットワークを介して通信可能に接続されており、当該ネットワークを介して取得される各種情報に関する通信を制御する。
The I /
記憶部5は、制御部6による各種処理に必要なデータや、制御部6による各種処理結果を記憶し、特に本発明に密接に関連するものとしては、多値データベース5aと、単位データテーブル5bと、カテゴリ名テーブル5cと、カテゴリ−単位データテーブル5dとを備える。
The
多値データベース5aは、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を記憶している。具体的には、多値データベース5aは、カテゴリ命名装置1のユーザにより予め指定される複数のレコードを一意に識別する一つ、または、複数の識別子を含む多値の属性値を記憶している。例えば、図3に示すように、多値データベース5aは、『カテゴリ命名装置1のユーザにより予め指定された識別子である「日付」、「伝票番号」、多値の属性値である「明細」、「貸借」、「勘定科目」』として、『「20070105」、「108327」、「1」、「借」、「普通預金」』を記憶している。なお、図3は、実施例1に係る多値データベース5aの一例を示す図である。
The
単位データテーブル5bは、上記した複数の識別子の値が同一のレコードを単位データとして記憶している。具体的には、単位データテーブル5bは、後述する単位データ抽出部6bによって多値データベース5aにおいて複数の識別子の値が同一のレコードとして取得された単位データを記憶しており、各単位データが多値データベース5aのどのレコードに対応するかの情報となる。例えば、図4に示すように、単位データテーブル5bは、多値データベース5aにおいて『識別子である「日付」、「伝票番号」に対応付けて当該「日付」と「伝票番号」とを組み合わせた「識別子」』として、『「20070105」、「108327」、「20070105−108327」』を記憶している。また、「日付:20070105」および「伝票番号:108327」の単位データは、多値データベース5a(図3参照)の1レコード目と2レコード目とに対応する情報となる。なお、図4は、実施例1に係る単位データテーブル5bの一例を示す図である。
The unit data table 5b stores, as unit data, records having the same plurality of identifier values. Specifically, the unit data table 5b stores unit data obtained by the unit
カテゴリ名テーブル5cは、単位データテーブル5bに基づいて命名されたカテゴリ名を記憶している。具体的には、カテゴリ名テーブル5cは、後述する単位データ抽出部6bによって生成された単位データテーブル5b(図4参照)の識別子に基づいて多値データベース5a(図3参照)の複数の属性値から命名されたカテゴリ名を記憶している。例えば、図5に示すように、カテゴリ名テーブル5cは、後述する単位データ抽出部6bによって生成された単位データテーブル5b(図4参照)に記憶される単位データ「日付:20070105」と「伝票番号:108327」とに基づいて、多値データベース5a(図3参照)に記憶される1レコード目の「勘定科目:普通預金」と2レコード目の「勘定科目:未収入金」との属性値から命名されたカテゴリ名「普通預金:未収入金」を記憶している。同様に、例えば、カテゴリ名テーブル5cは、後述する単位データ抽出部6bによって生成された単位データテーブル5b(図4参照)に記憶される単位データ「日付:20070105」と「伝票番号:108328」とに基づいて、多値データベース5a(図3参照)に記憶される3レコード目の「勘定科目:未払金」と4レコード目の「勘定科目:本支店勘定」と5レコード目の「勘定科目:未収入金」との属性値から命名されたカテゴリ名「未払金:本支店勘定_未収入金」を記憶している。なお、図5は、実施例1に係るカテゴリ名テーブル5cの一例を示す図である。
The category name table 5c stores category names that are named based on the unit data table 5b. Specifically, the category name table 5c includes a plurality of attribute values of the
カテゴリ−単位データテーブル5dは、単位データテーブル5bに基づいて命名されたカテゴリ名と、当該カテゴリ名に対応する複数の識別子の組み合わせとを記憶している。具体的には、カテゴリ−単位データテーブル5dは、後述する単位データ抽出部6bによって生成された単位データテーブル5bの識別子に基づいて多値データベース5aの複数の属性値から命名されたカテゴリ名と、当該カテゴリ名に対応する複数の識別子の組み合わせとを記憶している。
The category-unit data table 5d stores a category name named based on the unit data table 5b and a combination of a plurality of identifiers corresponding to the category name. Specifically, the category-unit data table 5d includes a category name named from a plurality of attribute values in the
例えば、図6に示すように、カテゴリ−単位データテーブル5dは、後述する単位データ抽出部6bによって生成された単位データテーブル5b(図4参照)に記憶される単位データ「日付:20070105」と「伝票番号:108327」とに基づいて、多値データベース5a(図3参照)に記憶される1レコード目の「勘定科目:普通預金」と2レコード目の「勘定科目:未収入金」との属性値から命名されたカテゴリ名「普通預金:未収入金」に対応付けて、当該カテゴリ名「普通預金:未収入金」に対応する識別子の組み合わせである「20070105−108327」と「20070106−108330」とを記憶している。
For example, as shown in FIG. 6, the category-unit data table 5d includes unit data “date: 20070105” and “date” stored in the unit data table 5b (see FIG. 4) generated by the unit
同様に、例えば、カテゴリ−単位データテーブル5dは、後述する単位データ抽出部6bによって生成された単位データテーブル5b(図4参照)に記憶される単位データ「日付:20070105」と「伝票番号:108328」とに基づいて、多値データベース5a(図3参照)に記憶される3レコード目の「勘定科目:未払金」と4レコード目の「勘定科目:本支店勘定」と5レコード目の「勘定科目:未収入金」との属性値から命名されたカテゴリ名「未払金:本支店勘定_未収入金」に対応付けて、当該カテゴリ名「未払金:本支店勘定_未収入金」に対応する識別子の組み合わせである「20070105−108328」を記憶している。なお、図6は、実施例1に係るカテゴリ−単位データテーブル5dの一例を示す図である。
Similarly, for example, the category-unit data table 5d includes unit data “date: 20070105” and “slip number: 108328” stored in the unit data table 5b (see FIG. 4) generated by the unit
制御部6は、制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有するとともに、特に本発明に密接に関連するものとしては、カテゴリ生成/命名制御部6a、単位データ抽出部6b、カテゴリ命名部6cおよびカテゴリ生成部6dを備え、これらによって種々の処理を実行する。
The control unit 6 has an internal memory for storing a control program, a program that defines various processing procedures, and necessary data, and a category generation / name control unit 6a that is particularly closely related to the present invention. , A unit
カテゴリ生成/命名制御部6aは、後述する単位データ抽出部6bと、カテゴリ命名部6cと、カテゴリ生成部6dとにそれぞれ処理開始などを指示する。具体的には、カテゴリ生成/命名制御部6aは、カテゴリ命名装置1のユーザによりカテゴリ生成/命名の指示を受け付けた場合に、後述する単位データ抽出部6bに対して多値データベース5aの読み出しおよび単位データの切り出しを行うように指示する。
The category generation / naming control unit 6a instructs a unit
そして、カテゴリ生成/命名制御部6aは、後述する単位データ抽出部6bにより単位データの切り出しを行った旨の通知を受信すると、後述するカテゴリ命名部6cに対して単位データ毎にカテゴリ名を命名するように指示する。続いて、カテゴリ生成/命名制御部6aは、後述するカテゴリ命名部6cにより新規カテゴリ名が出現した旨の通知を受信すると、後述するカテゴリ生成部6dに対して新規カテゴリ名が出現した旨を通知する。その後、カテゴリ生成/命名制御部6aは、後述するカテゴリ命名部6cにより単位データの識別子と、当該識別子に対応するカテゴリ名とを決定した旨の通知を受信すると、後述するカテゴリ生成部6dに対して識別子と、当該識別子に対応するカテゴリ名とを通知する。
When the category generation / naming control unit 6a receives a notification that the unit
単位データ抽出部6bは、多値データベース5aに記憶される複数のレコードを読み込み、識別子の値が同一のものを同一の単位データとして抽出する。具体的には、単位データ抽出部6bは、カテゴリ生成/命名制御部6aから単位データ抽出指示を受け付けると、多値データベース5aに記憶される複数のレコードを読み込む。そして、単位データ抽出部6bは、読み込んだレコードを一意に識別する識別子の値が同一のものを同一の単位データとして抽出して、単位データテーブル5bに格納する。つまり、識別子の値が同一のレコードが続く場合は、当該複数のレコードは同一の単位データに関するレコードとなる。また、識別子の値が異なるレコードの場合は、当該異なるレコードが単位データの切れ目であり、この異なるレコードから新たな単位データに関するレコードが始まる。このような規則に基づいて、単位データ抽出部6bは、多値データベース5aの全てのレコードから単位データを抽出して、各単位データが多値データベース5aのどのレコードに対応するかの情報を単位データテーブル5bに格納する。
The unit
例えば、多値データベース5a(図3参照)においてレコードを一意に識別する識別子を「日付」および「伝票番号」とした場合に、単位データ抽出部6bは、多値データベース5aの1レコード目からデータを読み込んで、識別子が同じ値である1レコード目と2レコード目との識別子「日付:20070105、伝票番号:108327」を同一の単位データとして抽出し、単位データテーブル5b(図4参照)に格納する。同様に、単位データ抽出部6bは、多値データベース5a(図3参照)の3レコード目と4レコード目と5レコード目とからデータを読み込んで、識別子が同じ値である3レコード目と4レコード目と5レコード目との識別子「日付:20070105、伝票番号:108328」を同一の単位データとして抽出し、単位データテーブル5b(図4参照)に格納する。このような規則に基づいて、単位データ抽出部6bは、多値データベース5aの全てのレコードから単位データを抽出して、単位データテーブル5bに格納する。この識別子は、予めユーザにより一つまたは複数指定されている。なお、単位データ抽出部6bは、特許請求の範囲に記載の「抽出手段」に対応する。
For example, when the identifier for uniquely identifying a record in the
カテゴリ命名部6cは、抽出された単位データに保持される複数の識別子に対応する複数の属性値を多値データベース5aから取得して、取得した複数の属性値からカテゴリ名を命名する。具体的には、カテゴリ命名部6cは、カテゴリ生成/命名制御部6aからカテゴリ命名指示を受け付けると、抽出された単位データにより保持される複数の識別子から、多値データベース5aに記憶される複数の属性値を取得する。そして、カテゴリ命名部6cは、取得したカテゴリを生成および命名する基となる属性である複数のカテゴリ生成属性の値を用いて、当該複数のカテゴリ生成属性値を適当な接続記号により繋げてカテゴリ名を命名して、カテゴリ名テーブル5cに格納する。つまり、単位データテーブル5bの一つの単位データには、複数のレコードが対応しているので、当該複数のレコードの属性値は複数個存在し(従来では、属性値は一つのみ存在する)、この複数の属性値であるカテゴリ生成属性値を用いてカテゴリ名を命名する。
The
上記した例で具体的に説明すると、カテゴリ命名部6cは、抽出された単位データ「日付:20070105、伝票番号:108327」に対応する複数の属性値「勘定科目:普通預金」と「勘定科目:未収入金」とを、多値データベース5a(図3参照)から取得する。そして、カテゴリ命名部6cは、取得した複数の属性値「普通預金」と「未収入金」とを接続記号により「普通預金:未収入金」として繋げてカテゴリ名を命名し、カテゴリ名テーブル5c(図5参照)に格納する。同様に、カテゴリ命名部6cは、抽出された単位データ「日付:20070105、伝票番号:108328」に対応する複数の属性値「勘定科目:未払金」と「勘定科目:本支店勘定」と「勘定科目:未収入金」とを、多値データベース5a(図3参照)から取得し、取得した複数の属性値「未払金」と「本支店勘定」と「未収入金」とを接続記号により「未払金:本支店勘定_未収入金」として繋げてカテゴリ名を命名し、カテゴリ名テーブル5c(図5参照)に格納する。
More specifically, in the above example, the
また、カテゴリ命名部6cは、抽出された単位データに対応する複数の属性値を、多値データベース5aから取得して、取得した複数の属性値において、「普通預金」と「未収入金」と「未収入金」とのように複数回同じ属性値が出現する場合に、「普通預金_未収入金」としてカテゴリ名を命名することで、冗長性を排除することが可能であるとともに、同一の単位データをより多く同じカテゴリに所属させることが可能である。また、カテゴリ命名部6cは、会計データの場合に、借方と貸方とを考慮して、左側(借方)である「普通預金」と右側(貸方)である「未収入金」とを「普通預金:未収入金」としたり、借方である「未払金」と貸方である「本支店勘定」と「未収入金」とを「未払金:本支店勘定_未収入金」としたりして繋げてカテゴリ名を命名することが可能である。なお、カテゴリ命名部6cは、特許請求の範囲に記載の「命名手段」に対応する。
Further, the
カテゴリ生成部6dは、命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を多値データベース5aから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成する。具体的には、カテゴリ生成部6dは、カテゴリ生成/命名制御部6aからカテゴリ生成指示を受け付けると、命名されたカテゴリ名ごとに、当該命名されたカテゴリ名に対応する複数の識別子を多値データベース5aから取得する。そして、カテゴリ生成部6dは、取得した複数の識別子とカテゴリ名とを対応付けて、新しいカテゴリ名として命名されたカテゴリのデータ群を生成して、カテゴリ−単位データテーブル5dに格納する。
For each named category, the
上記した例で具体的に説明すると、カテゴリ生成部6dは、カテゴリ命名部6cによって命名されてカテゴリ名テーブル5cに格納されているカテゴリ名である「普通預金:未収入金」ごとに、当該命名されたカテゴリ名に対応する複数の識別子「日付:20070105、伝票番号:108327」と、「日付:20070106、伝票番号:108330」と、当該識別子を繋げた識別子「20070105−108327、20070106−108330」とを単位データテーブル5bから取得する。そして、カテゴリ生成部6dは、取得した識別子に対応する新しいカテゴリ名として命名された「普通預金:未収入金」に、これらの複数の識別子「20070105−108327」と「20070106−108330」とを対応付けて、当該カテゴリのデータ群を生成して、カテゴリ−単位データテーブル5d(図6参照)に格納する。
Specifically, in the above example, the
同様に、カテゴリ生成部6dは、カテゴリ命名部6cによって命名されてカテゴリ名テーブル5cに格納されているカテゴリ名である「未払金:本支店勘定_未収入金」ごとに、当該命名されたカテゴリ名に対応する複数の識別子「日付:20070105、伝票番号:108328」を繋げた識別子「20070105−108328」を単位データテーブル5bから取得して、取得した識別子に対応する新しいカテゴリ名として命名された「未払金:本支店勘定_未収入金」に、これらの複数の識別子「20070105−108328」を対応付けて、当該カテゴリのデータ群を生成して、カテゴリ−単位データテーブル5d(図6参照)に格納する。なお、カテゴリ生成部6dは、特許請求の範囲に記載の「カテゴリ生成手段」に対応する。
Similarly, the
[実施例1に係るカテゴリ生成/命名制御部による処理]
次に、図7を用いて、実施例1に係るカテゴリ生成/命名制御部6aによるカテゴリ生成/命名指示の処理を説明する。図7は、実施例1に係るカテゴリ生成/命名制御部6aによるカテゴリ生成/命名指示の処理を示すフローチャートである。
[Processing by Category Generation / Name Control Unit According to Embodiment 1]
Next, a category generation / naming instruction process performed by the category generation / naming control unit 6a according to the first embodiment will be described with reference to FIG. FIG. 7 is a flowchart illustrating a category generation / naming instruction process performed by the category generation / naming control unit 6a according to the first embodiment.
図7に示すように、カテゴリ生成/命名制御部6aは、カテゴリ命名装置1のユーザによりカテゴリ生成/命名の指示を受け付けた場合に(ステップS71肯定)、単位データ抽出部6bに対して多値データベース5aの読み出しおよび単位データの切り出しを行うように指示する(ステップS72)。
As shown in FIG. 7, when the category generation / naming control unit 6a receives a category generation / naming instruction from the user of the category naming apparatus 1 (Yes in step S71), the category generation / naming control unit 6a multivalues the unit
具体的に例を挙げると、カテゴリ生成/命名制御部6aは、カテゴリ命名装置1のユーザにより入力部2においてカテゴリ生成/命名入力から、カテゴリ生成/命名の指示を受け付けると、単位データ抽出部6bに対して多値データベース5aの読み出しおよび識別子の値が同一のものを同一の単位データとして抽出するように指示する。
Specifically, when the category generation / naming control unit 6a receives an instruction for category generation / naming from the category generation / naming input in the
そして、カテゴリ生成/命名制御部6aは、単位データ抽出部6bにより単位データの切り出しを行った旨の通知を受信すると、カテゴリ命名部6cに対して単位データ毎にカテゴリ名を命名するように指示する(ステップS73)。具体的に例を挙げると、カテゴリ生成/命名制御部6aは、単位データ抽出部6bにより単位データの抽出を行った旨の通知を受信すると、カテゴリ命名部6cに対して単位データにより保持される複数の識別子から、多値データベース5aに記憶される複数の属性値からカテゴリ名を命名するように指示する。
When the category generation / naming control unit 6a receives a notification that the unit
続いて、カテゴリ生成/命名制御部6aは、カテゴリ命名部6cにより新規カテゴリ名が出現した旨の通知を受信し(ステップS74)、カテゴリ生成部6dに対して新規カテゴリ名が出現した旨を通知する(ステップS75)。具体的に例を挙げると、カテゴリ生成/命名制御部6aは、カテゴリ命名部6cによりカテゴリ名が命名された際に新規カテゴリ名が出現すると、当該新規カテゴリ名が出現した旨の通知を受信し、カテゴリ生成部6dに対して新規カテゴリ名が出現した旨を通知する。
Subsequently, the category generation / naming control unit 6a receives a notification that a new category name has appeared by the
その後、カテゴリ生成/命名制御部6aは、カテゴリ命名部6cにより単位データの識別子と所属カテゴリ名とを受信して(ステップS76)、カテゴリ生成部6dに対して受信した識別子と所属カテゴリ名とを通知する(ステップS77)。具体的に例を挙げると、カテゴリ生成/命名制御部6aは、カテゴリ命名部6cにより単位データの識別子と、当該単位データの識別子に対応するカテゴリ名とを受信して、カテゴリ生成部6dに対して受信した識別子と、当該単位データの識別子に対応するカテゴリ名とを通知する。
Thereafter, the category generation / naming control unit 6a receives the unit data identifier and the belonging category name by the
[実施例1に係る単位データ抽出部による処理]
次に、図8を用いて、実施例1に係る単位データ抽出部6bによる単位データ抽出処理を説明する。図8は、実施例1に係る単位データ抽出部6bによる単位データ抽出処理を示すフローチャートである。
[Processing by Unit Data Extraction Unit According to Embodiment 1]
Next, unit data extraction processing by the unit
図8に示すように、単位データ抽出部6bは、カテゴリ生成/命名制御部6aから単位データ抽出指示を受け付けると、多値データベース5aのデータを読み込み、当該読み込むデータが終了していない場合に(ステップS81否定)、多値データベース5aから次のレコードを読み込む(ステップS82)。具体的に例を挙げると、単位データ抽出部6bは、カテゴリ生成/命名制御部6aから単位データ抽出指示を受け付けると、多値データベース5aを1レコード目「日付:20070105、伝票番号:108327」から読み込み、当該読み込むデータが終了したかどうかの判定を行って、読み込むデータがある場合に、多値データベース5aから次のレコード「日付:20070105、伝票番号:108327」を読み込む。
As shown in FIG. 8, when the unit
そして、単位データ抽出部6bは、単位データの識別子が前レコードと同一でない場合に(ステップS83否定)、直前までのデータを単位データとして(ステップS84)、単位データテーブル5bに識別子を格納する(ステップS85)。具体的に例を挙げると、単位データ抽出部6bは、読み込んだ3レコード目の識別子「日付:20070105、伝票番号:108328」が、当該読み込んだレコードの一つ前のレコードの識別子「日付:20070105、伝票番号:108327」と同一であるかどうかの判定を行って、読み込んだレコードの識別子が一つ前のレコードの識別子と同一でない場合に、一つ前までの識別子「日付:20070105、伝票番号:108327」を単位データとして、単位データテーブル5bに多値データベース5aに対応する位置情報として格納する。なお、単位データ抽出部6bは、単位データの識別子が前レコードと同一である場合に(ステップS83肯定)、再び、ステップS81から処理を行う。
Then, when the identifier of the unit data is not the same as that of the previous record (No at Step S83), the unit
また、単位データ抽出部6bは、多値データベース5aから読み込むデータが終了した場合に(ステップS81肯定)、残ったデータを単位データとして(ステップS86)、単位データテーブル5bに識別子を格納する(ステップS87)。具体的に例を挙げると、単位データ抽出部6bは、多値データベース5aから読み込むデータが終了した場合に(識別子「日付:20070131、伝票番号:219207」のデータ)、それまで読み込んだ単位データテーブル5bに格納していない残ったデータを単位データとして、単位データテーブル5bに読み込んだ識別子「日付:20070131、伝票番号:219207」を多値データベース5aに対応する位置情報として格納して処理を終了する。
Further, when the data read from the
[実施例1に係るカテゴリ命名部による処理]
次に、図9を用いて、実施例1に係るカテゴリ命名部6cによるカテゴリ命名処理を説明する。図9は、実施例1に係るカテゴリ命名部6cによるカテゴリ命名処理を示すフローチャートである。
[Processing by Category Naming Unit According to Embodiment 1]
Next, the category naming process by the
図9に示すように、カテゴリ命名部6cは、カテゴリ生成/命名制御部6aからカテゴリ命名指示を受け付けると(ステップS91肯定)、単位データテーブル5bの単位データを読み込み、当該単位データテーブルから次の単位データを読み込む(ステップS92)。具体的に例を挙げると、カテゴリ命名部6cは、カテゴリ生成/命名制御部6aからカテゴリ命名指示を受け付けると、単位データテーブル5bに記憶されているレコードの単位データ「日付:20070105、伝票番号:108327」を読み込み、当該単位データテーブル5bから次のレコードの単位データ「日付:20070105、伝票番号:108328」を読み込む。
As shown in FIG. 9, upon receiving a category naming instruction from the category generation / naming control unit 6a (Yes at step S91), the
そして、カテゴリ命名部6cは、単位データ中のカテゴリ生成属性値を全て調べて(ステップS93)、当該カテゴリ生成属性値を基にカテゴリ名を命名する(ステップS94)。具体的に例を挙げると、カテゴリ命名部6cは、単位データテーブル5bに記憶されている単位データ「日付:20070105、伝票番号:108327」中のカテゴリを生成および命名する基となる属性であるカテゴリ生成属性値「勘定科目:普通預金」と「勘定科目:未収入金」とを全て読み込み、当該カテゴリ生成属性値に基づいて、カテゴリ生成属性値を繋げたもの「普通預金:未収入金」をカテゴリ名として命名する。
Then, the
続いて、カテゴリ命名部6cは、カテゴリ名が新出である場合に(ステップS95肯定)、カテゴリ名テーブル5cに新しいカテゴリ名を格納する(ステップS96)。具体的に例を挙げると、カテゴリ命名部6cは、カテゴリ生成属性値を繋げたカテゴリ名「普通預金:未収入金」とカテゴリ名テーブル5cに格納されているカテゴリ名とを比較して、当該カテゴリ生成属性値を繋げたカテゴリ名が新出である場合に、カテゴリ名テーブル5cにカテゴリ生成属性値を繋げたカテゴリ名を新しいカテゴリ名として格納する。なお、カテゴリ命名部6cは、カテゴリ名が新出でない場合に(ステップS95否定)、後述するステップS98の処理を行う。
Subsequently, when the category name is new (Yes at Step S95), the
その後、カテゴリ命名部6cは、新規カテゴリ名をカテゴリ生成/命名制御部6aに通知するとともに(ステップS97)、識別子と所属カテゴリ名とをカテゴリ生成/命名制御部6aに通知する(ステップS98)。具体的に例を挙げて説明すると、カテゴリ命名部6cは、カテゴリ名テーブル5cに格納したカテゴリ生成属性値を繋げた新規カテゴリ名「普通預金:未収入金」をカテゴリ生成/命名制御部6aに通知するとともに、新規カテゴリ名「普通預金:未収入金」と、当該新規カテゴリ名に対応する複数の識別子「日付:20070105、伝票番号:108327、識別子:20070105−108327」とをカテゴリ生成/命名制御部6aに通知する。
Thereafter, the
なお、カテゴリ命名部6cは、読み込む単位データが終了したかどうかの判定を行い(ステップS99)、読み込む単位データが終了すると(ステップS99肯定)、カテゴリ命名処理を終了し、読み込む単位データが終了していない場合に(ステップS99否定)、再び、ステップS92の処理を行う。
The
[実施例1に係るカテゴリ生成部による処理]
次に、図10を用いて、実施例1に係るカテゴリ生成部6dによるカテゴリ生成処理を説明する。図10は、実施例1に係るカテゴリ生成部6dによるカテゴリ生成処理を示すフローチャートである。
[Processing by Category Generation Unit According to Embodiment 1]
Next, the category generation processing by the
図10に示すように、カテゴリ生成部6dは、カテゴリ生成/命名制御部6aからカテゴリ生成指示を受け付けると(ステップS101肯定)、カテゴリ生成/命名制御部6aからカテゴリ名と識別子とを受信する(ステップS102)。具体的に例を挙げると、カテゴリ生成部6dは、カテゴリ生成/命名制御部6aからカテゴリ生成指示を受け付けると、カテゴリ命名部6cにより命名されたカテゴリ名「普通預金:未収入金」と、当該カテゴリ名に対応する識別子「20070105−108327」とをカテゴリ生成/命名制御部6aから受信する。
As shown in FIG. 10, upon receiving a category generation instruction from the category generation / naming control unit 6a (Yes in step S101), the
そして、カテゴリ生成部6dは、カテゴリ生成/命名制御部6aから受信したカテゴリ名が新規カテゴリ名である場合に(ステップS103肯定)、カテゴリ−単位データテーブル5dに新しいカテゴリ名のエントリを作成する(ステップS104)。具体的に例を挙げると、カテゴリ生成部6dは、カテゴリ生成/命名制御部6aから受信したカテゴリ名「普通預金:未収入金」が新規カテゴリ名であるかどうかを、カテゴリ−単位データテーブル5dに記憶されているカテゴリ名と比較して判定し、当該受信したカテゴリ名が新規カテゴリ名である場合に、カテゴリ−単位データテーブル5dに新しいカテゴリ名のエントリを作成する。
When the category name received from the category generation / naming control unit 6a is a new category name (Yes at Step S103), the
続いて、カテゴリ生成部6dは、カテゴリ−単位データテーブル5dの対応するカテゴリ名の場所に識別子を登録する(ステップS105)。具体的に例を挙げると、カテゴリ生成部6dは、カテゴリ生成/命名制御部6aから受信したカテゴリ名「普通預金:未収入金」に対応する複数の識別子「20070105−108327」と「20070106−108330」とを登録する。なお、カテゴリ生成部6dは、ステップS103において、新規カテゴリ名でない場合には、新規にカテゴリ名を登録することなく、当該カテゴリ名に対応する識別子のみを登録する。
Subsequently, the
その後、カテゴリ生成部6dは、データを全て処理したかどうかの判定を行って(ステップS106)、データを全て処理した場合に(ステップS106肯定)、カテゴリ生成処理を終了し、データを全て処理していない場合に(ステップS106否定)、ステップS102から処理を行う。
Thereafter, the
[実施例1による効果]
このようにして、実施例1によれば、カテゴリ命名装置は、多値データベースに記憶される複数のレコードを読み込み、識別子の値が同一のものを同一の単位データとして抽出し、抽出された単位データに保持される複数の識別子に対応する複数の属性値を多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名して、命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成することとしたので、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くすることが可能である。
[Effects of Example 1]
Thus, according to the first embodiment, the category naming apparatus reads a plurality of records stored in the multi-value database, extracts the same identifier value as the same unit data, and extracts the extracted unit. Acquire multiple attribute values corresponding to multiple identifiers held in the data from the multi-value database, name the category name from the acquired multiple attribute values, and correspond to the category for each named category Since it was decided to generate a category data group by associating a plurality of identifiers from the multi-value database and associating the acquired identifiers with category names, the statistical characteristics are efficiently classified into the same category, It is possible to increase the statistical accuracy by naming a clear category name for the classified category.
例えば、カテゴリ命名装置1は、複数のレコードを一意に識別する一つまたは複数の識別子「日付、伝票番号」を含む多値の属性値「明細、貸借、勘定科目」を保持する多値データベース5aにおいて、当該多値データベース5aに記憶される複数のレコードをカテゴリ別に分類する場合に、多値データベース5aのレコードを読み込んで、識別子「日付、伝票番号」が同一のレコードを同一の単位データとして抽出する。そして、カテゴリ命名装置1は、抽出された単位データを用いて、多値データベース5aに記憶される複数の属性値を取得し、取得した複数の属性値を接続記号により繋げてカテゴリ名を命名する。続いて、カテゴリ命名装置1は、命名されたカテゴリ名に対応付けて、複数の識別子を所定の記憶部に格納してカテゴリのデータ群を生成する。この結果、カテゴリ命名装置1は、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くすることが可能である。
For example, the
また、実施例1によれば、カテゴリ命名装置1は、抽出された単位データに保持される複数の識別子に対応する複数の属性値を多値データベース5aから取得して、取得した複数の属性値において、同じ属性値が複数回出現した場合に、当該複数の属性値をまとめて一つのカテゴリ名として命名することとしたので、冗長性を排除することが可能であるとともに、同一の単位データをより多く同じカテゴリに所属させることが可能である。
Further, according to the first embodiment, the
例えば、カテゴリ命名装置1は、抽出された単位データを用いて、多値データベース5aに記憶される複数の属性値を取得して、取得した複数の属性値において、「普通預金」と「未収入金」と「未収入金」とのように複数回同じ属性値が出現する場合に、「普通預金_未収入金」としてカテゴリ名を命名することで、冗長性を排除することが可能であるとともに、同一の単位データをより多く同じカテゴリに所属させることが可能である。
For example, the
ところで、上記実施例1では、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くする場合について説明したが、本発明はこれに限定されるものではなく、カテゴリ分類およびカテゴリ名命名と、さらに、分類したカテゴリを利用したクラスタを生成することもできる。 In the first embodiment, the case where the statistical characteristics are efficiently classified into the same category and a clear category name is given to the classified category to increase the statistical accuracy has been described. The invention is not limited to this, and category classification and category name naming, and further, a cluster using the classified categories can be generated.
そこで、以下の実施例2では、図11を用いて、カテゴリ命名装置1によるクラスタ生成処理について説明する。図11は、実施例2に係るカテゴリ命名装置1によるクラスタ生成処理を説明するための図である。なお、実施例2では、カテゴリ命名装置1の構成や機能などは実施例1と同様であるため、その説明を省略してクラスタ生成処理について説明する。
Therefore, in the second embodiment below, cluster generation processing by the
図11に示すように、カテゴリ命名装置1は、単位データを特定して内容を読み込む(図11の(1)参照)。具体的に例を挙げると、カテゴリ命名装置1は、カテゴリ−単位データテーブル5dを参照して、各カテゴリに所属する個々の単位データを特定する。そして、カテゴリ命名装置1は、単位データテーブル5bを参照して、処理対象の単位データの多値データベース5aにおけるデータの保管場所(開始レコード番号から終了レコード番号までのデータ)を求め、その内容を読み込む。
As shown in FIG. 11, the
そして、カテゴリ命名装置1は、単位データに含まれる特徴語を抽出および格納する(図11の(2)参照)。具体的に例を挙げると、カテゴリ命名装置1は、読み込んだ内容データから特徴語抽出の技術を用いて単位データに含まれる特徴語を取り出す。その後、カテゴリ命名装置1は、単位データより取り出した特徴語とその出現頻度とを全て求めて、所定の記憶部に格納する。このようにして、カテゴリ命名装置1は、カテゴリ中の全ての単位データの特徴語および出現頻度を所定の記憶部に格納することを、全てのカテゴリに関して上記手順を繰り返すことにより、多値データベース5aで表現された全ての単位データから特徴語および出現頻度が抽出される。ここで、実施例2に係るカテゴリ命名装置1によるクラスタ生成処理の従来技術と異なる点は、クラスタ生成の基となるデータとして実施例1で生成された単位データを基にしている点である。なお、特徴語抽出の技術は、公知の技術であるので、ここでの説明は省略する。
Then, the
続いて、カテゴリ命名装置1は、全ての特徴語および特徴量から特徴ベクトルを生成および格納する(図11の(3)参照)。具体的に例を挙げると、カテゴリ命名装置1は、所定の記憶部に格納された特徴語および出現頻度のデータを参照して、特定のカテゴリに所属する全ての単位データの特徴語および特徴量(出現頻度)に基づいて、それらの重心(平均)となる特徴ベクトルを生成し、所定の記憶部に格納する。そして、カテゴリ命名装置1は、上記した処理を全てのカテゴリに関して繰り返し行うことにより、全てのカテゴリの特徴ベクトルのデータが、所定の記憶部に格納される。
Subsequently, the
その後、カテゴリ命名装置1は、任意の2つのクラスタ特徴ベクトル間の距離を測定および格納する(図11の(4)参照)。具体的に例を挙げると、カテゴリ命名装置1は、格納されたクラスタ特徴ベクトルのデータを参照して、任意の2つのクラスタ特徴ベクトル間の距離を測定し、当該距離をクラスタ間の類似度として所定の記憶部に格納する。
Thereafter, the
そして、カテゴリ命名装置1は、クラスタ生成および制御する(図11の(5)参照)。具体的に例を挙げると、カテゴリ命名装置1は、格納されたクラスタ間の類似度データを参照して、存在する上位クラスタ間の類似度で最大の類似度(距離は最小)を有するクラスタの対を求め、新たな上位のクラスタとして生成し、当該上位クラスタとまとめられた2つのクラスタとの関係を所定の記憶部に格納する。その後、カテゴリ命名装置1は、クラスタとしてまとめられる2つのクラスタの重心ベクトルを新たな上位クラスタの特徴ベクトルとして生成して、所定の記憶部に格納する。続いて、カテゴリ命名装置1は、存在する上位のクラスタ数が所定数に達するまで、上記した処理(図11の(3)〜(5))を続けて、上位のクラスタ数が所定数に達した時点で処理を終了する。
Then, the
[実施例2による効果]
このようにして、実施例2によれば、カテゴリ命名装置は、生成されたカテゴリデータ群を用いて、特徴語抽出を行って、統計的類似性を求め、当該カテゴリデータ群のクラスタを生成することとしたので、より明瞭で、かつ、統計的類似精度の高いクラスタを生成することが可能である。
[Effects of Example 2]
In this manner, according to the second embodiment, the category naming apparatus performs feature word extraction using the generated category data group, obtains statistical similarity, and generates a cluster of the category data group. Therefore, it is possible to generate a cluster that is clearer and has high statistical similarity accuracy.
例えば、カテゴリ命名装置1は、実施例1により生成されたカテゴリデータ群を用いて、単位データを特定して内容を読み込み、単位データに含まれる特徴語を抽出する。そして、カテゴリ命名装置1は、全ての特徴語および特徴量から特徴ベクトルを生成し、任意の2つのクラスタ特徴ベクトル間の距離を測定して、クラスタを生成および制御することとしたので、より明瞭で、かつ、統計的類似精度の高いクラスタを生成することが可能である。
For example, the
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、(1)多値データベースの種類、(2)カテゴリ命名に用いる接続記号、(3)カテゴリ命名、(4)カテゴリ命名装置の構成、(5)プログラムにおいて異なる実施例を説明する。 Although the embodiments of the present invention have been described so far, the present invention may be implemented in various different forms other than the embodiments described above. Therefore, different embodiments in (1) type of multi-value database, (2) connection symbol used for category naming, (3) category naming, (4) configuration of category naming apparatus, and (5) program will be described.
(1)多値データベースの種類
上記の実施例1または2では、多値データベース5aにおいて、RDB(relational database:関係データベース)のような一つまたは複数個のレコードをデータ単位とする多値データベースを用いることとして説明したが、本発明はこれに限定されるものではなく、例えば、図12に示すODB(object database:オブジェクトデータベース)のような一つのレコードのフィールド値に一つまたは複数個の値を格納した多値データベースを用いるようにしてもよい。図12によれば、ODBに格納された会計データは、同じ意味を表現するRDBに変換することができる。なお、図12は、実施例3に係るRDBとODBとの構造の同等性を説明するための図である。
(1) Types of multi-value database In the first or second embodiment, in the
(2)カテゴリ命名に用いる接続記号
また、実施例1では、カテゴリ命名に用いる接続記号を「_」や「:」などを用いて
カテゴリ名を命名することとして説明したが、本発明はこれに限定されるものではなく、用いる多値データベースに応じて変更することができる。例えば、「;」や「/」などを用いてカテゴリ名を命名することができる。
(2) Connection symbol used for category naming In
(3)カテゴリ命名
また、実施例1では、カテゴリ命名部6cは、単位データ抽出部6bにより抽出された単位データに保持される複数の識別子に対応する複数の属性値を多値データベース5aから取得して、取得した複数の属性値からカテゴリ名を命名することとして説明したが、本発明はこれに限定されるものではなく、例えば、カテゴリ命名部6cは、属性値が非数値属性において、同一のカテゴリを意味する「コンピュータ」と「計算機」と「Computer」とのような同義語である場合に、当該カテゴリを統一してカテゴリ名を「コンピュータ」と命名してもよい。
(3) Category Naming In the first embodiment, the
また、実施例1では、カテゴリ命名部6cは、単位データ抽出部6bにより抽出された単位データに保持される複数の識別子に対応する複数の属性値を多値データベース5aから取得して、取得した複数の属性値からカテゴリ名を命名することとして説明したが、本発明はこれに限定されるものではなく、例えば、カテゴリ命名部6cは、数値「20」や「75」などの属性値を用いてカテゴリ名を命名する場合に、当該数値の値の集合である値域(範囲や桁数など)を用いて「10の0乗〜10の2乗」と命名してもよい。
In the first embodiment, the
また、実施例1では、カテゴリ命名部6cは、単位データ抽出部6bにより抽出された単位データに保持される複数の識別子に対応する複数の属性値を多値データベース5aから取得して、取得した複数の属性値からカテゴリ名を命名することとして説明したが、本発明はこれに限定されるものではなく、例えば、カテゴリ命名部6cは、一つのレコードにおいて、「勘定科目」と「部署名」との複数の属性を用いて、カテゴリ名を「勘定科目+部署名」として組み合わせて命名してもよい。
In the first embodiment, the
(4)カテゴリ命名装置の構成
また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメタを含む情報(例えば、図2に示す「多値データベース」や「単位データテーブル」など)については、特記する場合を除いて任意に変更することができる。
(4) Configuration of Category Naming Device Also, the processing procedure, control procedure, specific name, information including various data and parameters shown in the above-mentioned documents and drawings (for example, “multi-value database” shown in FIG. The “unit data table” and the like can be arbitrarily changed unless otherwise specified.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、例えば、カテゴリ名テーブル5cとカテゴリ−単位データテーブル5dとを、新規カテゴリ名を含むカテゴリ名と当該カテゴリ名に対応する複数の識別子とを記憶するカテゴリ名−単位データテーブルとして統合するなど、その全部または一部を、各種の負担や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。 Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure. For example, the category name table 5c and the category-unit data table 5d correspond to the category name including the new category name and the category name. All or a part of it, such as integrating as a category name-unit data table that stores multiple identifiers, is distributed or integrated functionally or physically in arbitrary units according to various burdens or usage conditions. Can be configured. Furthermore, all or a part of each processing function performed in each device may be realized by a CPU and a program that is analyzed and executed by the CPU, or may be realized as hardware by wired logic.
(5)プログラム
ところで、上記の実施例では、ハードウェアロジックによって各種の処理を実現する場合を説明したが、本発明はこれに限定されるものではなく、あらかじめ用意されたプログラムをコンピュータで実行することによって実現するようにしてもよい。そこで、以下では、図13を用いて、上記の実施例に示したカテゴリ命名装置と同様の機能を有するカテゴリ命名プログラムを実行するコンピュータの一例を説明する。図13は、カテゴリ命名プログラムを実行するコンピュータを示す図である。
(5) Program In the above embodiment, the case where various processes are realized by hardware logic has been described. However, the present invention is not limited to this, and a program prepared in advance is executed by a computer. It may be realized by this. In the following, an example of a computer that executes a category naming program having the same function as the category naming apparatus shown in the above embodiment will be described with reference to FIG. FIG. 13 is a diagram illustrating a computer that executes a category naming program.
図13に示すように、カテゴリ命名装置としてのコンピュータ110は、キーボード120、HDD130、CPU140、ROM150、RAM160およびディスプレイ170をバス180などで接続して構成される。
As shown in FIG. 13, a computer 110 as a category naming apparatus is configured by connecting a
ROM150には、上記の実施例1に示したカテゴリ命名装置1と同様の機能を発揮するカテゴリ命名プログラム、つまり、図13に示すようにカテゴリ生成/命名制御プログラム150aと、単位データ抽出プログラム150bと、カテゴリ命名プログラム150cと、カテゴリ生成プログラム150dとが、あらかじめ記憶されている。なお、これらのプログラム150a〜プログラム150dについては、図2に示したカテゴリ命名装置1の各構成要素と同様、適宜統合または、分散してもよい。
The
そして、CPU140がこれらのプログラム150a〜プログラム150dをROM150から読み出して実行することで、図13に示すように、プログラム150a〜プログラム150dは、カテゴリ生成/命名制御プロセス140aと、単位データ抽出プロセス140bと、カテゴリ命名プロセス140cと、カテゴリ生成プロセス140dとして機能するようになる。なお、プロセス140a〜プロセス140dは、図2に示した、カテゴリ生成/命名制御部6aと、単位データ抽出部6bと、カテゴリ命名部6cと、カテゴリ生成部6dとにそれぞれ対応する。
Then, the
そして、CPU140はRAM160に記録された、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持している多値データ160aと、複数の識別子の値が同一のレコードを単位データとして保持している単位データ160bと、単位データテーブル5bを基に命名されたカテゴリ名を保持しているカテゴリ名データ160cと、単位データテーブル5bを基に命名されたカテゴリ名と、当該カテゴリ名に対応する識別子の組み合わせを保持しているカテゴリ−単位データ160dとに基づいてカテゴリ命名プログラムを実行する。
Then, the
なお、上記した各プログラム150a〜プログラム150dについては、必ずしも最初からROM150に記憶させておく必要はなく、例えば、コンピュータ110に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、またはコンピュータ110の内外に備えられるHDDなどの「固定用の物理媒体」、さらには公衆回線、インターネット、LAN、WANなどを介してコンピュータ110に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ110がこれから各プログラムを読み出して実行するようにしてもよい。
The above-described
(付記1)複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類する方法をコンピュータに実行させるカテゴリ命名プログラムであって、
前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出手順と、
前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名手順と、
前記命名手順により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成手順と、
をコンピュータに実行させることを特徴とするカテゴリ命名プログラム。
(Supplementary note 1) Method of classifying a plurality of records stored in the multi-valued database into categories in a multi-valued database holding multi-valued attribute values including one or more identifiers for uniquely identifying a plurality of records Is a category naming program that causes a computer to execute
An extraction procedure for reading a plurality of records stored in the multi-value database and extracting the same identifier value as the same unit data;
A naming procedure for acquiring a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, and naming a category name from the acquired plurality of attribute values;
For each category named by the naming procedure, a plurality of identifiers corresponding to the category are acquired from the multi-value database, and a category data group is generated by associating the acquired plurality of identifiers with category names. Procedure and
A category naming program for causing a computer to execute.
(付記2)前記命名手順は、前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値において、同じ属性値が複数回出現した場合に、当該複数の属性値をまとめて一つのカテゴリ名として命名することを特徴とする付記1に記載のカテゴリ命名プログラム。
(Supplementary Note 2) The naming procedure includes obtaining a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, and obtaining the plurality of attribute values The category naming program according to
(付記3)前記命名手順は、前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の非数値属性において、当該複数の非数値属性が同一のカテゴリを意味する場合に、当該同一のカテゴリを統一して一つのカテゴリ名として命名することを特徴とする付記1または2に記載のカテゴリ命名プログラム。
(Supplementary Note 3) The naming procedure includes acquiring a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, and acquiring the plurality of non-numeric attributes acquired The category naming program according to
(付記4)前記命名手順は、前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値において、数値が出現した場合に、当該数値属性値の値域をカテゴリ名として命名することを特徴とする付記1に記載のカテゴリ命名プログラム。
(Supplementary Note 4) The naming procedure includes acquiring a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, and obtaining the plurality of attribute values The category naming program according to
(付記5)前記命名手順は、前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値を組み合わせてカテゴリ名を命名することを特徴とする付記1〜3のいずれか一つに記載のカテゴリ命名プログラム。
(Supplementary Note 5) The naming procedure acquires a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, The category naming program according to any one of
(付記6)前記カテゴリ生成手順により生成されたカテゴリデータ群を用いて、特徴語抽出を行って、統計的類似性を求め、当該カテゴリデータ群のクラスタを生成するクラスタ生成手順をさらに備えたことを特徴とする付記1〜5のいずれか一つに記載のカテゴリ命名プログラム。
(Additional remark 6) It further provided the cluster production | generation procedure which performs a feature word extraction using the category data group produced | generated by the said category production | generation procedure, calculates | requires statistical similarity, and produces | generates the cluster of the said category data group. The category naming program according to any one of
(付記7)複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類するカテゴリ命名装置のカテゴリ命名方法であって、
前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出工程と、
前記抽出工程により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名工程と、
前記命名工程により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成工程と、
を含んだことを特徴とするカテゴリ命名方法。
(Additional remark 7) The category which classifies the some record memorize | stored in the said multi-value database according to the category in the multi-value database holding the multi-value attribute value containing the one or several identifier which identifies a some record uniquely A category naming method for a naming device,
An extraction step of reading a plurality of records stored in the multi-value database and extracting the same identifier value as the same unit data;
Obtaining a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction step from the multi-value database, and naming a category name from the plurality of obtained attribute values;
For each category named in the naming step, a plurality of identifiers corresponding to the category are acquired from the multi-value database, and a category data group is generated by associating the acquired plurality of identifiers with category names. Process,
Category naming method characterized by including.
(付記8)複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類するカテゴリ命名装置であって、
前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出手段と、
前記抽出手段により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名手段と、
前記命名手段により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成手段と、
を備えたことを特徴とするカテゴリ命名装置。
(Additional remark 8) The category which classifies the some record memorize | stored in the said multi-value database according to the category in the multi-value database holding the multi-value attribute value containing one or several identifiers which identify a some record uniquely A naming device,
An extraction means for reading a plurality of records stored in the multi-value database, and extracting the same identifier value as the same unit data;
Naming means for obtaining a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extracting means from the multi-value database, and naming a category name from the plurality of obtained attribute values;
For each category named by the naming means, a plurality of identifiers corresponding to the category are acquired from the multi-value database, and a category data group is generated by associating the acquired plurality of identifiers with category names. Means,
A category naming device characterized by comprising:
以上のように、本発明に係るカテゴリ命名装置は、複数のレコードを一意に識別する一つまたは複数の識別子を含む多値の属性値を保持する多値データベースにおいて、当該多値データベースに記憶される複数のレコードをカテゴリ別に分類する場合に有用であり、特に、効率的に統計的特徴が同じカテゴリに分類するとともに、当該分類したカテゴリに対して明瞭なカテゴリ名を命名して統計的精度を高くすることに適する。 As described above, the category naming apparatus according to the present invention is stored in the multi-value database in a multi-value database holding multi-value attribute values including one or more identifiers that uniquely identify a plurality of records. This is useful when you want to classify multiple records into categories, and in particular, efficiently classify the records into the same category with the same statistical characteristics, and assign a clear category name to the classified categories to improve statistical accuracy. Suitable for raising.
1 カテゴリ命名装置
2 入力部
3 出力部
4 I/F部
5 記憶部
5a 多値データベース
5b 単位データテーブル
5c カテゴリ名テーブル
5d カテゴリ−単位データテーブル
6 制御部
6a カテゴリ生成/命名制御部
6b 単位データ抽出部
6c カテゴリ命名部
6d カテゴリ生成部
DESCRIPTION OF
Claims (5)
前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出手順と、
前記抽出手順により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名手順と、
前記命名手順により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成手順と、
をコンピュータに実行させることを特徴とするカテゴリ命名プログラム。 In a multi-value database that holds multi-value attribute values including one or more identifiers that uniquely identify a plurality of records, a computer executes a method of classifying a plurality of records stored in the multi-value database into categories. A category naming program that allows
An extraction procedure for reading a plurality of records stored in the multi-value database and extracting the same identifier value as the same unit data;
A naming procedure for acquiring a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction procedure from the multi-value database, and naming a category name from the acquired plurality of attribute values;
For each category named by the naming procedure, a plurality of identifiers corresponding to the category are acquired from the multi-value database, and a category data group is generated by associating the acquired plurality of identifiers with category names. Procedure and
A category naming program for causing a computer to execute.
前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出工程と、
前記抽出工程により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名工程と、
前記命名工程により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成工程と、
を含んだことを特徴とするカテゴリ命名方法。 The category of a category naming apparatus that classifies a plurality of records stored in the multi-value database by category in a multi-value database that holds multi-value attribute values including one or more identifiers that uniquely identify a plurality of records A naming method,
An extraction step of reading a plurality of records stored in the multi-value database and extracting the same identifier value as the same unit data;
Obtaining a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extraction step from the multi-value database, and naming a category name from the plurality of obtained attribute values;
For each category named in the naming step, a plurality of identifiers corresponding to the category are acquired from the multi-value database, and a category data group is generated by associating the acquired plurality of identifiers with category names. Process,
Category naming method characterized by including.
前記多値データベースに記憶される複数のレコードを読み込み、前記識別子の値が同一のものを同一の単位データとして抽出する抽出手段と、
前記抽出手段により抽出された単位データに保持される前記複数の識別子に対応する複数の属性値を前記多値データベースから取得して、取得した複数の属性値からカテゴリ名を命名する命名手段と、
前記命名手段により命名されたカテゴリごとに、当該カテゴリに対応する複数の識別子を前記多値データベースから取得して、取得した複数の識別子とカテゴリ名とを対応付けてカテゴリデータ群を生成するカテゴリ生成手段と、
を備えたことを特徴とするカテゴリ命名装置。 A category naming apparatus that classifies a plurality of records stored in the multi-valued database by category in a multi-valued database that holds multivalued attribute values including one or more identifiers that uniquely identify a plurality of records. And
An extraction means for reading a plurality of records stored in the multi-value database, and extracting the same identifier value as the same unit data;
Naming means for obtaining a plurality of attribute values corresponding to the plurality of identifiers held in the unit data extracted by the extracting means from the multi-value database, and naming a category name from the plurality of obtained attribute values;
For each category named by the naming means, a plurality of identifiers corresponding to the category are acquired from the multi-value database, and a category data group is generated by associating the acquired plurality of identifiers with category names. Means,
A category naming device characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007304938A JP2009129276A (en) | 2007-11-26 | 2007-11-26 | Category naming apparatus, category naming method and category naming program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007304938A JP2009129276A (en) | 2007-11-26 | 2007-11-26 | Category naming apparatus, category naming method and category naming program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009129276A true JP2009129276A (en) | 2009-06-11 |
Family
ID=40820111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007304938A Withdrawn JP2009129276A (en) | 2007-11-26 | 2007-11-26 | Category naming apparatus, category naming method and category naming program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009129276A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016146025A (en) * | 2015-02-06 | 2016-08-12 | 東芝テック株式会社 | Office computer and program |
CN111527486A (en) * | 2017-12-28 | 2020-08-11 | 东京毅力科创株式会社 | Data processing device, data processing method, and program |
-
2007
- 2007-11-26 JP JP2007304938A patent/JP2009129276A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016146025A (en) * | 2015-02-06 | 2016-08-12 | 東芝テック株式会社 | Office computer and program |
CN111527486A (en) * | 2017-12-28 | 2020-08-11 | 东京毅力科创株式会社 | Data processing device, data processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5241370B2 (en) | Table classification apparatus, table classification method, and table classification program | |
CN106202518B (en) | Short text classification method based on CHI and sub-category association rule algorithm | |
JP6158623B2 (en) | Database analysis apparatus and method | |
CN109726298B (en) | Knowledge graph construction method, system, terminal and medium suitable for scientific and technical literature | |
WO2019102533A1 (en) | Document classification device | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN113051362B (en) | Data query method, device and server | |
TW201915942A (en) | Hierarchical image classification method and system | |
CN110765101A (en) | Label generation method and device, computer readable storage medium and server | |
US9639587B2 (en) | Social network analyzer | |
CN101789073B (en) | Character recognition device and character recognition method thereof | |
CN111190880A (en) | Database detection method and device and computer readable storage medium | |
US20220004885A1 (en) | Computer system and contribution calculation method | |
CN102402684B (en) | Method and device for determining type of certificate and method and device for translating certificate | |
JP2009129276A (en) | Category naming apparatus, category naming method and category naming program | |
JP6079780B2 (en) | Program, mapping apparatus and mapping method | |
JP2009223809A (en) | Sort condition preparation program, sort condition preparation device, and sort condition preparation method | |
JP2020126631A (en) | Device and method for labeling event on document, and recording medium | |
JP5407727B2 (en) | Test data generation program, method and apparatus | |
WO2018206819A1 (en) | Data storage method and apparatus | |
CN114969467A (en) | Data analysis and classification method and device, computer equipment and storage medium | |
CN107408104A (en) | The statement cascade rearrangement of pattern | |
JP6677624B2 (en) | Analysis apparatus, analysis method, and analysis program | |
CN111753841B (en) | Bill identification method and device based on route distribution | |
JP7312646B2 (en) | Information processing device, document identification method, and information processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110201 |