JP2009169689A - Data classification method and data processing apparatus - Google Patents
Data classification method and data processing apparatus Download PDFInfo
- Publication number
- JP2009169689A JP2009169689A JP2008007223A JP2008007223A JP2009169689A JP 2009169689 A JP2009169689 A JP 2009169689A JP 2008007223 A JP2008007223 A JP 2008007223A JP 2008007223 A JP2008007223 A JP 2008007223A JP 2009169689 A JP2009169689 A JP 2009169689A
- Authority
- JP
- Japan
- Prior art keywords
- document
- data
- document data
- similarity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、記憶装置に記憶された各文書データの類似度によって、文書データを分類するデータ処理装置およびそのデータ分類方法に関するものである。 The present invention relates to a data processing apparatus that classifies document data according to the similarity of each document data stored in a storage device, and a data classification method thereof.
従来、サーバ装置およびクライアント装置から構成される文書検索システムでは、例えば、サーバ装置がクライアント装置から検索キーワードを取得した場合に、データベースに記憶された複数の文書データの中から検索キーワードに対応する文書データを検索し、検索結果をクライアント装置に提供している。 Conventionally, in a document search system composed of a server device and a client device, for example, when the server device acquires a search keyword from the client device, a document corresponding to the search keyword from a plurality of document data stored in the database. Data is searched and the search result is provided to the client device.
また、近年では、データベースに記憶される文書データの数が飛躍的に増加しており、検索キーワードに基づいて検索される文書データの数が膨大な数となってしまうため、利用者が検索結果となる文書データを参照しやすいように、ベクタースペースモデル(例えば、非特許文献1参照)等の技術を利用して、各文書データの類似度を計算し、類似する文書データ毎に文書データを分類している。 In recent years, the number of document data stored in the database has increased dramatically, and the number of document data searched based on search keywords has become enormous. In order to make it easy to refer to the document data, the degree of similarity of each document data is calculated using a technique such as a vector space model (for example, see Non-Patent Document 1), and the document data is calculated for each similar document data. Classification.
例えば、非特許文献1に記載されているベクタースペースモデルでは、文書データ毎に複数のキーワードの存在有無をベクトルとして変換し、変換した全てのベクトルの組合せにおいて類似度を計算している。
For example, in the vector space model described in Non-Patent
しかしながら、上述した従来の技術のように、ベクタースペースモデルを利用して、文書データの類似度を算出すると、全ての文書データの組み合わせの間で計算が行われるため、文書データ数の二乗の計算量が発生し、類似度計算にかかる処理時間が長くなってしまうという問題があった。 However, if the similarity of document data is calculated using a vector space model as in the conventional technique described above, the calculation is performed between all combinations of document data, and thus the square of the number of document data is calculated. There is a problem in that the amount of processing occurs and the processing time for calculating the similarity becomes long.
すなわち、文書データの類似度を効率よく算出することで、類似度計算にかかる処理時間を短縮することが極めて重要な課題となっている。 That is, it is an extremely important issue to reduce the processing time required for similarity calculation by efficiently calculating the similarity of document data.
この発明は、上述した従来技術による問題点を解消するためになされたものであり、文書データの類似度を効率よく算出して、類似度計算にかかる処理時間を短縮することが出来るデータ分類方法およびデータ処理装置を提供することを目的とする。 The present invention has been made to solve the above-described problems caused by the prior art, and is a data classification method capable of efficiently calculating the similarity of document data and reducing the processing time required for the similarity calculation. And it aims at providing a data processor.
上述した課題を解決し、目的を達成するため、このデータ分類方法は、記憶装置に記憶された各文書データの類似度によって、文書データを分類するデータ処理装置のデータ分類方法であって、前記データ処理装置は、前記記憶装置に記憶された文書データを読み出し、各文書データ中のキーワードと当該キーワードを含む文書データとを対応付けたリストを作成するリスト作成ステップと、前記リストに対してシーケンシャルパターン抽出を実行し、出現した文書データの組み合わせの発生回数を判定する判定ステップと、前記判定ステップの判定結果に基づいて、各文書データ間の類似度を算出する算出ステップと、を含んだことを要件とする。 In order to solve the above-described problems and achieve the object, this data classification method is a data classification method for a data processing device that classifies document data according to the similarity of each document data stored in a storage device, A data processing device reads out document data stored in the storage device, creates a list in which a keyword in each document data and a document data including the keyword are associated with each other, and a sequential with respect to the list A determination step of performing pattern extraction and determining the number of occurrences of the combination of the document data that has appeared, and a calculation step of calculating the similarity between the document data based on the determination result of the determination step Is a requirement.
また、このデータ分類方法は、上記のデータ分類方法において、前記判定ステップは、シーケンシャルパターン抽出で、長さ2のパターンの発生回数のみを判定することを要件とする。
Further, this data classification method is that, in the above-described data classification method, the determination step is required to determine only the number of occurrences of the pattern of
また、このデータ分類方法は、上記のデータ分類方法において、前記類似度の値が最大となる各文書データの組合せを求めることにより、文書データを分類する分類ステップを更に含み、当該分類ステップは、利用者に指定される分類数と文書データの分類数とが等しくなるように、前記文書データを分類すること要件とする。 Further, the data classification method further includes a classification step of classifying the document data by obtaining a combination of each document data that maximizes the similarity value in the data classification method, and the classification step includes: It is a requirement to classify the document data so that the number of classifications specified by the user is equal to the number of classifications of document data.
また、このデータ処理装置は、記憶装置に記憶された各文書データの類似度によって、文書データを分類するデータ処理装置であって、前記記憶装置に記憶された文書データを読み出し、各文書データ中のキーワードと当該キーワードを含む文書データとを対応付けたリストを作成するリスト作成手段と、前記リストに対してシーケンシャルパターン抽出を実行し、出現した文書データの組み合わせの発生回数を判定する判定手段と、前記判定手段の判定結果に基づいて、各文書データ間の類似度を算出する算出手段と、を備えたことを要件とする。 Further, the data processing device is a data processing device that classifies document data according to the similarity of each document data stored in the storage device, and reads out the document data stored in the storage device. A list creating means for creating a list in which a keyword is associated with document data including the keyword, and a determination means for executing sequential pattern extraction on the list and determining the number of occurrences of a combination of appearing document data And a calculation means for calculating the similarity between the document data based on the determination result of the determination means.
また、このデータ処理装置は、上記データ処理装置において、前記判定手段は、シーケンシャルパターン抽出で、長さ2のパターンの発生回数のみを判定することを要件とする。
Further, this data processing apparatus is characterized in that, in the above data processing apparatus, the determination means determines only the number of occurrences of a
このデータ分類方法によれば、各文書データ中のキーワードと当該キーワードに対応する文書データとを対応付けたリストを作成し、リストに対してシーケンシャルパターン抽出を実行する。そして、シーケンシャルパターン抽出を実行した結果出現する文書データの組み合わせの発生回数を判定し、判定結果に基づいて、各文書データ間の類似度を計算するので、文書データの類似度を効率よく算出でき、類似度計算にかかる処理時間を短縮することが出来る。 According to this data classification method, a list in which keywords in each document data are associated with document data corresponding to the keywords is created, and sequential pattern extraction is performed on the list. Then, the number of occurrences of the combination of document data that appears as a result of sequential pattern extraction is determined, and the similarity between each document data is calculated based on the determination result, so that the similarity of document data can be calculated efficiently. The processing time for calculating the similarity can be shortened.
また、このデータ分類方法によれば、シーケンシャルパターン抽出において、長さ2のパターンの発生回数のみを判定することにより、各文書データ間の類似度を計算するので、装置にかかる処理負荷を大幅に軽減させることが出来る。
Further, according to this data classification method, the similarity between each document data is calculated by determining only the number of occurrences of a
また、このデータ分類方法によれば、利用者に指定される分類数と文書データの分類数とが等しくなるように、文書データを分類するので、ユーザの好みに合った情報提供を行うことが可能となる。 Further, according to this data classification method, document data is classified so that the number of classifications designated by the user is equal to the number of classifications of document data, so that it is possible to provide information according to user preferences. It becomes possible.
以下に添付図面を参照して、この発明に係るデータ分類方法およびデータ処理装置の好適な実施の形態を詳細に説明する。 Exemplary embodiments of a data classification method and a data processing device according to the present invention will be explained below in detail with reference to the accompanying drawings.
まず、本実施例にかかるデータ処理装置の概要および特徴について説明する。本実施例にかかるデータ処理装置は、各文書データ中のキーワードと当該キーワードを含む文書データとを対応付けた転置インデックスリストを作成し、転置インデックスリストに対してシーケンシャルパターン抽出を実行する。 First, the outline and features of the data processing apparatus according to this embodiment will be described. The data processing apparatus according to the present embodiment creates an inverted index list in which a keyword in each document data is associated with document data including the keyword, and executes sequential pattern extraction for the inverted index list.
そして、データ処理装置は、シーケンシャルパターン抽出を実行した結果出現する文書データの組み合わせの発生回数を判定(特に、本実施例では、シーケンシャルパターン抽出において、長さ2のパターンの発生回数のみを判定)し、判定結果に基づいて、各文書データ間の類似度を計算する。
Then, the data processing apparatus determines the number of occurrences of the combination of document data appearing as a result of executing the sequential pattern extraction (in particular, in this embodiment, only the number of occurrences of the
このように、本実施例にかかるデータ処理装置は、転置インデックスリストに対して、シーケンシャルパターン抽出を実行することで、各文書データ間の類似度を算出するので、文書データの類似度を効率よく算出でき、類似度計算にかかる処理時間を短縮することが出来る。 As described above, the data processing apparatus according to the present embodiment calculates the similarity between the respective document data by performing sequential pattern extraction on the transposed index list. It is possible to calculate, and the processing time for calculating the similarity can be shortened.
次に、本実施例にかかる検索システムの構成について説明する。図1は、検索システムの構成を示す図である。同図に示すように、この検索システムは、端末装置50およびデータ処理装置100から構成され、端末装置50およびデータ処理装置100は、ネットワーク10を介して接続されている。
Next, the configuration of the search system according to the present embodiment will be described. FIG. 1 is a diagram illustrating a configuration of a search system. As shown in the figure, this search system includes a
このうち、端末装置50は、入力装置等を介して、利用者から検索キーワードを受け付けた場合に、検索キーワードをデータ処理装置100に送信する装置である。そして、端末装置50は、検索結果をデータ処理装置100から取得した場合に、取得した検索結果をディスプレイに表示させる。
Among these, the
データ処理装置100は、端末装置50から検索キーワードを取得した場合に、検索キーワードに対応する文書データを記憶装置から検索し、上記のシーケンシャルパターン抽出を実行することで、文書データを分類し、分類した文書データを検索結果として端末装置50に出力する装置である。
When the search keyword is acquired from the
ここで、図1に示したデータ処理装置100の構成について詳細に説明する。図2は、本実施例にかかるデータ処理装置100の構成を示す機能ブロック図である。図2に示すように、このデータ処理装置100は、入力部110と、出力部120と、通信制御IF部130と、入出力制御IF部140と、記憶部150と、制御部160とを備えて構成される。
Here, the configuration of the
このうち、入力部110は、各種の情報を入力する入力手段であり、キーボードやマウス、マイクなどによって構成される。また、出力部120は、各種の情報を出力する出力手段であり、モニタ(若しくはディスプレイ、タッチパネル)やスピーカなどによって構成される。
Among these, the
通信制御IF部130は、主に端末装置50(図1参照)との間における通信を制御する手段である。また、入出力制御IF部140は、入力部110、出力部120、通信制御IF部130、記憶部150、制御部160によるデータの入出力を制御する手段である。
The communication
記憶部150は、制御部160による各種情報処理に必要なデータおよびプログラムを記憶する記憶手段であり、特に本発明に密接に関連するものとしては、図2に示すように、文書管理データ150aと、単語インデックス150bと、単語ID管理テーブル150cと、転置インデックス150dと、類似度テーブル150eと、クラスタテーブル150fとを備える。
The
文書管理データ150aは、各種の文書データを記憶するデータである。図3は、文書管理データ150aのデータ構造の一例を示す図である。同図に示すように、この文書管理データ150aは、各文書データを識別する文書IDと、文書データとを対応付けて記憶している。
The
単語インデックス150bは、文書IDと、文書IDによって識別される文書データに含まれる各単語ID(単語ID列)とを対応付けて記憶するデータである。図4は、単語インデックス150bのデータ構造の一例を示す図である。
The
同図に示すように、この単語インデックス150bは、文書IDと単語ID列とを対応付けて記憶している。例えば、図4の1段目には、文書ID「A」によって識別される文書データに、単語ID「1,2,3」によって識別される単語が含まれている旨の情報が登録されている。
As shown in the figure, the
単語ID管理テーブル150cは、単語IDと、この単語IDに対応する単語とを対応付けて記憶するテーブルである。図5は、単語ID管理テーブル150cのデータ構造の一例を示す図である。 The word ID management table 150c is a table that stores a word ID and a word corresponding to the word ID in association with each other. FIG. 5 is a diagram illustrating an example of a data structure of the word ID management table 150c.
転置インデックス150dは、単語IDと、この単語IDの単語を含む文書データの文書IDとを対応付けて記憶するデータである。図6は、転置インデックス150dのデータ構造の一例を示す図である。例えば、図6の1段目には、単語ID「1」によって識別される単語を有している文書データは、文書ID「A」によって識別される文書データである旨が登録されている。 The transposed index 150d is data that stores the word ID and the document ID of the document data including the word of the word ID in association with each other. FIG. 6 is a diagram illustrating an example of the data structure of the transposed index 150d. For example, in the first row of FIG. 6, it is registered that document data having a word identified by the word ID “1” is document data identified by the document ID “A”.
類似度テーブル150eは、各文書データ間の類似度を記憶するテーブルである。図7は、類似度テーブル150eのデータ構造の一例を示す図である。図7に示す「A」〜「E」は、文書IDであり、各数値は、類似度である。図7を参照すると、例えば、文書ID「A」の文書データと、文書ID「B」の文書データとの類似度が「2」である旨の情報が登録されている。 The similarity table 150e is a table that stores the similarity between each piece of document data. FIG. 7 is a diagram illustrating an example of a data structure of the similarity table 150e. “A” to “E” shown in FIG. 7 are document IDs, and each numerical value is a similarity. Referring to FIG. 7, for example, information indicating that the similarity between the document data with the document ID “A” and the document data with the document ID “B” is “2” is registered.
クラスタテーブル150fは、各文書データの類似度に基づいて文書データを分類する場合に利用するデータである。図8は、クラスタテーブル150fのデータ構造の一例を示す図である。図8に示す「A」〜「E」は、文書IDであり、各数値は、類似度である。なお、クラスタテーブル150fを基にして、文書データを分類する処理は後述する。 The cluster table 150f is data used when classifying document data based on the similarity of each document data. FIG. 8 is a diagram illustrating an example of the data structure of the cluster table 150f. “A” to “E” shown in FIG. 8 are document IDs, and each numerical value is a similarity. The process of classifying document data based on the cluster table 150f will be described later.
制御部160は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する制御手段であり、特に本発明に密接に関連するものとしては、文書データ検索部160aと、転置インデックス作成部160bと、類似度テーブル作成部160cと、クラスタリング処理部160dとを備える。
The
このうち、文書データ検索部160aは、端末装置50から検索キーワードを受け付けた場合に、受け付けた検索キーワードを含む文書データを文書管理データ150aから検索する手段である。文書データ検索部160aは、検索した文書データの文書IDを転置インデックス作成部160bに出力する。
Among these, the document
転置インデックス作成部160bは、文書データ検索部160aから文書IDを取得し、取得した文書IDに対応する転置インデックス150dを作成する手段である。具体的に、この転置インデックス作成部160bは、単語インデックス150b、単語ID管理テーブル150cを作成する単語インデックス作成処理と、転置インデックス150dを作成する転置インデックス作成処理を実行する。以下において、転置インデックス作成部160bが実行する単語インデックス作成処理、転置インデックス作成処理を順に説明する。
The transposed
まず、転置インデックス作成部160bが実行する単語インデックス作成処理について説明する。転置インデックス作成部160bは、文書データ検索部160aから文書IDを取得した場合に、文書IDに対応する文書データを文書管理データ150aから取得し、取得した各文書データ(以下、文書データ群)に対して形態素解析を実行する。
First, word index creation processing executed by the transposed
そして、転置インデックス作成部160bは、文書データ群に対して形態素解析を実行した結果得られる単語に単語IDを割り振り、単語IDとこの単語IDに対応する単語とを対応付けて単語ID管理テーブル150cに登録する。
Then, the transposed
転置インデックス作成部160bは、単語ID管理テーブル150cと、文書データ群とを比較することにより、単語ID管理テーブル150cの単語が含まれる文書データを判定し、単語インデックス150b(図4参照)を作成する。
The transposed
続いて、転置インデックス作成部160bが実行する転置インデックス作成処理について説明する。転置インデックス作成部160bは、単語インデックス150bを取得し、単語ID毎に、単語IDを有する文書データの文書IDを判定することにより、転置インデックス150d(図6参照)を作成する。
Next, a transposed index creation process executed by the transposed
類似度テーブル作成部160cは、転置インデックス150dに対してシーケンシャルパターン抽出を実行し、シーケンシャルパターン抽出を実行した結果出現する文書データ(文書ID)の組合せの発生回数を判定(特に、本実施例では、シーケンシャルパターン抽出において、長さ2のパターンの発生回数のみを判定)し、判定結果に基づいて、類似度テーブル150eを作成する手段である。
The similarity table creation unit 160c performs sequential pattern extraction on the transposed index 150d, and determines the number of occurrences of the combination of document data (document ID) that appears as a result of the sequential pattern extraction (particularly in this embodiment). In the sequential pattern extraction, only the number of occurrences of the
以下において、類似度テーブル作成部160cの処理を具体的に説明する。まず、類似度テーブル作成部160cは、転置インデックス150dからアイテム数1の多頻度系列となる文書ID(換言すれば、転置インデックス150dに含まれる各文書ID)を抽出する。例えば、図6に示した転置インデックス150dからアイテム数1の多頻度系列となる文書ID(以下、系列文書IDと表記する)を抽出すると、系列文書IDとして、文書ID「A」、「B」、「C」が抽出される。 In the following, the processing of the similarity table creation unit 160c will be specifically described. First, the similarity table creation unit 160c extracts a document ID (in other words, each document ID included in the transposed index 150d) that is a frequent series of 1 item from the transposed index 150d. For example, when a document ID (hereinafter referred to as a series document ID) that is a frequent series with 1 item is extracted from the transposed index 150d shown in FIG. 6, the document IDs “A” and “B” are used as the series document IDs. , “C” is extracted.
続いて、類似度テーブル作成部160cは、転置インデックス150dに対して、系列文書IDによって射影し、射影データを作成する。 Subsequently, the similarity table creation unit 160c creates projection data by projecting the transposed index 150d with the series document ID.
ここで、射影の定義について説明する。ある系列s=<a1、a2、・・・、am>、アイテムaに対し、a1≠a、a2≠a、・・・、aj−1≠a、aj=aとなるような整数j(1≦j≦m)が存在する場合、系列<a1、a2、・・・、aj>をsのaに対するprefix(prefix(s,a))と定義し、系列<aj+1、・・・、am>をsのaに対するpostfix(postfix(s,a))と定義する。もし、jが存在しない場合には、prefix、postfixは未定義となる。
Here, the definition of projection will be described. There sequence s = <a 1 ,a 2 ,···,a m >, to
そして、ある系列データベースS(上記系列のデータを複数含んだデータベース)に対し、アイテムaによって射影し、射影データS|aを作成するとは、S中のそれぞれの系列sに対し、postfix(s,a)を作成し、それらを改めて系列データベースとする操作と定義される。 Then, to project a certain series database S (a database including a plurality of data of the above series) with an item a to create projection data S | a, postfix (s, a) is created and defined as a series database.
具体的に、類似度テーブル作成部160cは、転置インデックス150d(系列データベースSに対応)に含まれる各文書ID列(系列sに対応)に対して、アイテム(系列文書ID「A」、「B」、「C」)によって射影する。そして、例えば、類似度テーブル作成部160cは、系列文書ID「A」、「B」、「C」の順で射影を実行する。 Specifically, the similarity degree table creation unit 160c applies items (series document IDs “A” and “B” to each document ID column (corresponding to the series s) included in the transposed index 150d (corresponding to the series database S). ”,“ C ”). For example, the similarity table creation unit 160c performs projection in the order of the sequence document IDs “A”, “B”, and “C”.
(系列文書ID「A」による射影)
類似度テーブル作成部160cは、転置インデックス150d(図6参照)に対して、系列文書ID「A」による射影を実行すると、系列文書ID「A」を含む各文書ID列の内、系列文書ID「A」を除いた文書ID列(系列文書ID「A」のpostfix(s,a)に対応)および当該文書ID列に対応する単語IDを抽出し、射影データを作成する。
(Projection by series document ID “A”)
When the similarity table creation unit 160c performs projection with the sequence document ID “A” on the transposed index 150d (see FIG. 6), the sequence document ID among the document ID columns including the sequence document ID “A”. A document ID string excluding “A” (corresponding to postfix (s, a) of the sequence document ID “A”) and a word ID corresponding to the document ID string are extracted to create projection data.
図9は、系列文書ID「A」の射影によって作成される射影データの一例を示す図である。図9の射影データを参照すると、系列文書ID「A」と文書ID「B」との組み合わせの発生回数が「2」であり、系列文書ID「A」と文書ID「C」との組み合わせの発生回数が「3」であるため、類似度テーブル作成部160cは、文書ID「A」の文書データと文章ID「B」の文書データとの類似度を「2」、文書ID「A」の文書データと文章ID「C」の文書データとの類似度を「3」と判定する。 FIG. 9 is a diagram illustrating an example of projection data created by projection of the sequence document ID “A”. Referring to the projection data in FIG. 9, the number of occurrences of the combination of the sequence document ID “A” and the document ID “B” is “2”, and the combination of the sequence document ID “A” and the document ID “C” Since the occurrence count is “3”, the similarity table creation unit 160c sets the similarity between the document data with the document ID “A” and the document data with the text ID “B” to “2” and the document ID “A”. The similarity between the document data and the document data with the sentence ID “C” is determined as “3”.
その後、類似度テーブル作成部160cは、射影データ(図9参照)に対応させて、転置インデックス150d(図6参照)を更新する。具体的には、転置インデックス150dの単語ID「2」の文書ID列を「B,C」、単語ID「7」の文書ID列を「B,C」、単語ID「10」の文書ID列を「C」に更新する。図10は、更新された転置インデックス150dのデータ構造の一例を示す図(1)である。 Thereafter, the similarity table creation unit 160c updates the transposed index 150d (see FIG. 6) in association with the projection data (see FIG. 9). Specifically, the document ID string with the word ID “2” of the transposed index 150d is “B, C”, the document ID string with the word ID “7” is “B, C”, and the document ID string with the word ID “10”. Is updated to “C”. FIG. 10 is a diagram (1) illustrating an example of the data structure of the updated inverted index 150d.
(系列文書ID「B」による射影)
類似度テーブル作成部160cは、転置インデックス150d(図10参照)に対して、系列文書ID「B」による射影を実行すると、系列文書「B」を含む各文書ID列の内、系列文書ID「B」を除いた文書ID列(系列文書ID「B」のpostfix(s,a)に対応)および当該文書ID列に対応する単語IDを抽出し、射影データを作成する。
(Projection by series document ID “B”)
When the similarity table creation unit 160c performs projection using the sequence document ID “B” on the transposed index 150d (see FIG. 10), the sequence document ID “B” in each document ID column including the sequence document “B” is displayed. A document ID string excluding “B” (corresponding to postfix (s, a) of the sequence document ID “B”) and a word ID corresponding to the document ID string are extracted to create projection data.
図11は、系列文書ID「B」の射影によって作成される射影データの一例を示す図である。図11の射影データを参照すると、系列文書ID「B」と文書ID「C」との組み合わせの発生回数が「4」であるため、類似度テーブル作成部160cは、文書ID「B」の文書データと文章ID「C」の文書データとの類似度を「4」と判定する。 FIG. 11 is a diagram illustrating an example of projection data created by projection of the sequence document ID “B”. Referring to the projection data in FIG. 11, since the number of occurrences of the combination of the series document ID “B” and the document ID “C” is “4”, the similarity table creation unit 160c determines the document with the document ID “B”. The degree of similarity between the data and the document data of the sentence ID “C” is determined as “4”.
その後、類似度テーブル作成部160cは、射影データ(図11)に対応させて、転置インデックス150d(図10参照)を更新する。具体的には、転置インデックス150dの単語ID「2」、「5」、「7」、「9」の文書ID列を「C」に更新する。図12は、更新された転置インデックス150dのデータ構造の一例を示す図(2)である。 Thereafter, the similarity table creation unit 160c updates the transposed index 150d (see FIG. 10) in association with the projection data (FIG. 11). Specifically, the document ID string of the word IDs “2”, “5”, “7”, “9” of the transposed index 150d is updated to “C”. FIG. 12 is a diagram (2) illustrating an example of the data structure of the updated inverted index 150d.
(系列文書ID「C」による射影)
類似度テーブル作成部160cは、転置インデックス150d(図12参照)に対して、系列文書ID「C」による射影を実行すると、系列文書「C」を含む各文書ID列の内、系列文書ID「C」を除いた文書ID列(系列文書ID「C」のpostfix(s,a)に対応)および当該文書ID列に対応する単語IDが存在しないため、類似度テーブル作成部160cは、射影処理を終了する。
(Projection by series document ID “C”)
When the similarity table creation unit 160c performs projection on the transposed index 150d (see FIG. 12) using the sequence document ID “C”, the sequence document ID “C” includes the sequence document ID “C”. Since there is no document ID string excluding “C” (corresponding to postfix (s, a) of the series document ID “C”) and the word ID corresponding to the document ID string, the similarity table creation unit 160c performs the projection process. Exit.
次に、類似度テーブル作成部160cは、系列文書ID「A」、「B」、「C」による射影を実行した結果得られる各文書データ間の類似度に基づいて、類似度テーブル150eを作成する。なお、ここでは一例として、系列文書ID「A」、「B」、「C」から類似度を算出する場合について説明したが、例えば、上記の系列文書IDの他に、系列文書ID「D」、「E」等が含まれる場合であっても、上述したシーケンシャルパターン抽出を実行することにより、類似度を算出する。 Next, the similarity table creation unit 160c creates the similarity table 150e based on the similarity between the document data obtained as a result of executing the projection using the sequence document IDs “A”, “B”, and “C”. To do. Here, as an example, the case where the similarity is calculated from the sequence document IDs “A”, “B”, and “C” has been described. For example, in addition to the sequence document ID, the sequence document ID “D” is used. , “E” and the like are included, the similarity is calculated by executing the above-described sequential pattern extraction.
クラスタリング処理部160dは、類似度テーブル150eに基づいて、文書データ群を分類する手段である。なお、クラスタリング処理部160dは、分類するグループの数(以下、クラスタ数)が、利用者によって指定されたクラスタ数(以下、指定クラスタ数)と等しくなるように、文書データ群を分類する。利用者は、入力部110を利用して指定クラスタ数を指定しても良いし、端末装置50の利用者が、指定クラスタ数を入力し、端末装置50がデータ処理装置100に、指定クラスタ数の情報を送信しても良い。
The
以下において、クラスタリング処理部160dの処理を具体的に説明する。図13は、クラスタリング処理部160dの処理を説明するための図である。なお、ここでは一例として、指定クラスタ数が「3」である場合について説明する。
Hereinafter, the processing of the
まず、クラスタリング処理部160dは、クラスタテーブル150fを初期化した後、類似度テーブル150e(図7参照)のデータをクラスタテーブル150fにコピーすることにより、図8(あるいは、図13の上段左端)に示すクラスタテーブル150fを生成する。
First, the
そして、クラスタリング処理部160dは、クラスタテーブル150fから最大の類似度を持つ文書IDのペアを検出し、検出したペアの文書IDに対応する行と列のデータをクラスタテーブル150fから削除する。
Then, the
図13に示す例では、最大の類似度を持つ文書IDのペアは、類似度「8」を持つ文書ID「A」、「D」のペアとなるので、クラスタリング処理部160dは、文書ID「A」、「D」に対応する行と列のデータをクラスタテーブル150fから削除する(図13のステップS10参照)。 In the example shown in FIG. 13, the document ID pair having the maximum similarity is a pair of document IDs “A” and “D” having the similarity “8”. The row and column data corresponding to “A” and “D” are deleted from the cluster table 150f (see step S10 in FIG. 13).
クラスタリング処理部160dは、最大の類似度を持つペア(削除したペア)からなるクラスタを作成し、クラスタテーブル150fに追加する。図13に示す例では、文書ID「A」、「D」からなるクラスタ「A,D」を作成し、作成したクラスタ「A,D」をクラスタテーブル150fに追加する(図13のステップS20参照)。
The
クラスタリング処理部160dは、クラスタテーブル150fに追加したクラスタに含まれる文書IDと、他の文書IDとの間の類似度のうち、最大となる類似度を、クラスタに対応する行に登録する。そして、クラスタリング処理部160dは、クラスタの行に登録した類似度に対応させて、クラスタの列に類似度を登録する。
The
図13を例に説明する。クラスタ「A,D」と文書ID「B」との間における類似度は、文書ID「A」と文書ID「B」との間における類似度「2」および文書ID「D」と文書ID「B」との間における類似度「0」のうち、最大となる類似度が登録されるため、類似度「2」が該箇所に登録される。 An example will be described with reference to FIG. The similarity between the cluster “A, D” and the document ID “B” is the similarity “2” between the document ID “A” and the document ID “B”, the document ID “D”, and the document ID “B”. Among the similarities “0” with “B”, the maximum similarity is registered, so the similarity “2” is registered in the location.
クラスタ「A,D」と文書ID「C」との間における類似度は、文書ID「A」と文書ID「C」との間における類似度「5」および文書ID「D」と文書ID「C」との間における類似度「3」のうち、最大となる類似度が登録されるため、類似度「5」が該箇所に登録される。 The similarity between the cluster “A, D” and the document ID “C” is the similarity “5” between the document ID “A” and the document ID “C”, and the document ID “D” and the document ID “C”. Among the similarities “3” with “C”, since the maximum similarity is registered, the similarity “5” is registered in the location.
クラスタ「A,D」と文書ID「E」との間における類似度は、文書ID「A」と文書ID「E」との間における類似度「1」および文書ID「D」と文書ID「E」との間における類似度「2」のうち、最大となる類似度が登録されるため、類似度「2」が該箇所に登録される。そして、クラスタリング処理部160dは、クラスタの行に登録した類似度に対応させて、クラスタの列に類似度を登録する(図13のステップS30参照)。
The similarity between the cluster “A, D” and the document ID “E” is the similarity “1” between the document ID “A” and the document ID “E”, and the document ID “D” and the document ID “E”. Among the similarities “2” with “E”, the maximum similarity is registered, and therefore the similarity “2” is registered in the location. Then, the
クラスタリング処理部160dは、クラスタテーブル150fのクラスタ数と、指定クラスタ数とが等しくなるまで、上記処理を繰り返す。図13のステップS30の終了時点において、クラスタ数は「4」であり、指定クラスタ数は、「3」であるため、クラスタリング処理部160dは、もう一度、上記処理を繰り返す。
The
すなわち、図13の上段右端に示すクラスタテーブル150fにおいて、最大の類似度を持つ文書IDのペアは、類似度「6」を持つ文書ID「C」、「E」のペアとなるので、クラスタリング処理部160dは、文書ID「C」、「E」に対応する行と列のデータをクラスタテーブル150fから削除する(図13のステップS40参照)。
That is, in the cluster table 150f shown in the upper right corner of FIG. 13, the document ID pair having the maximum similarity is the document ID “C” and “E” pair having the similarity “6”. The
そして、クラスタリング処理部160dは、文書ID「C」、「E」からなるクラスタ「C,E」を作成し、作成したクラスタ「C,E」をクラスタテーブル150fに追加する(図13のステップS50参照)。
Then, the
クラスタリング処理部160dは、文書ID「C」と文書ID「B」との間における類似度が「3」、文書ID「E」と文書ID「B」との間における類似度が「4」となるので、最大となる類似度「4」をクラスタ「C,E」と文書ID「B」との間における類似度として登録する。
The
また、クラスタリング処理部160dは、文書ID「C」と文書ID「A,D」との間における類似度が「5」、文書ID「E」と文書ID「A,D」との間における類似度が「2」となるので、最大となる類似度「5」をクラスタ「C,E」と文書ID「A,D」との間における類似度として登録する(図13のステップS60参照)。
Also, the
図13のステップS60の処理が終了した時点で、クラスタテーブル150fのクラスタ数が「3」となり、指定クラスタ数「3」と等しくなるので、クラスタリング処理部160dは、クラスタテーブル150fに基づいて、文書データ群を分類する。図13に示す例では、文書データ群は、文書ID「B」の文書データと、文書ID「A」、「D」の文書データと、文書ID「C」、「E」の文書データに分類されることになる。
When the processing of step S60 in FIG. 13 is completed, the number of clusters in the cluster table 150f is “3”, which is equal to the designated number of clusters “3”. Therefore, the
クラスタリング処理部160dは、端末装置50から送信された検索キーワードの回答として、分類した文書データを端末装置50に出力する。
The
次に、本実施例にかかるデータ処理装置100の処理手順について説明する。図14は、本実施例にかかるデータ処理装置100の処理手順を示すフローチャートである。同図に示すように、データ処理装置100は、端末装置50から検索キーワードを取得し(ステップS101)、検索キーワードに対応する文書データを検索する(ステップS102)。
Next, a processing procedure of the
そして、データ処理装置100は、転置インデックス作成処理を実行し(ステップS103)、類似度テーブル作成処理を実行し(ステップS104)、クラスタリング処理を実行し(ステップS105)、クラスタリング結果(分類した文書データ)を端末装置50に出力する(ステップS106)。
The
次に、図14のステップS103に示した転置インデックス作成処理について説明する。図15は、転置インデックス作成処理を示すフローチャートである。同図に示すように、データ処理装置100は、転置インデックス作成部160bが各文書データに対して形態素解析を実行する(ステップS201)。
Next, the transposed index creation process shown in step S103 of FIG. 14 will be described. FIG. 15 is a flowchart showing the inverted index creation processing. As shown in the figure, in the
そして、転置インデックス作成部160bは、単語インデックス150bを作成し(ステップS202)、単語IDをキーにして、転置インデックス150dを作成する(ステップS203)。
The transposed
次に、図14のステップS104に示した類似度テーブル作成処理について説明する。図16は、類似度テーブル作成処理を示すフローチャートである。同図に示すように、データ処理装置100は、類似度テーブル作成部160cが類似度テーブル150eを初期化し(ステップS301)、転置インデックス150dからアイテム数1の多頻度系列となる系列文書IDを抽出する(ステップS302)。
Next, the similarity table creation process shown in step S104 of FIG. 14 will be described. FIG. 16 is a flowchart showing the similarity table creation processing. As shown in the figure, in the
そして、類似度テーブル作成部160cが、系列文書IDと転置インデックス150dとを基にして、射影データを作成し(ステップS303)、ペアの出現頻度(組合せの発生回数)を計算し(ステップS304)、転置インデックス150dを更新する(ステップS305)。 Then, the similarity table creation unit 160c creates projection data based on the sequence document ID and the transposed index 150d (step S303), and calculates the appearance frequency of the pair (number of occurrences of the combination) (step S304). The transposed index 150d is updated (step S305).
類似度テーブル作成部160cは、全ての系列文書IDを選択したか否かを判定し(ステップS306)、全てを選択していない場合には(ステップS307,No)、未選択の系列文書IDを選択し(ステップS308)、ステップS303に移行する。 The similarity table creation unit 160c determines whether or not all series document IDs have been selected (step S306). If all series document IDs have not been selected (step S307, No), unselected series document IDs are selected. Select (step S308), the process proceeds to step S303.
一方、全ての系列文書IDを選択した場合には(ステップS307,Yes)、類似度テーブル150eに各文書ペアの類似度を登録する(ステップS309)。 On the other hand, when all the series document IDs are selected (step S307, Yes), the similarity of each document pair is registered in the similarity table 150e (step S309).
次に、図14のステップS105に示したクラスタリング処理について説明する。図17は、クラスタリング処理を示すフローチャートである。同図に示すように、クラスタリング処理部160dは、類似度テーブル150eをクラスタテーブル150fにコピーし(ステップS401)、クラスタテーブル150fのクラスタ数が指定クラスタ数と等しいか否かを判定する(ステップS402)。
Next, the clustering process shown in step S105 of FIG. 14 will be described. FIG. 17 is a flowchart showing the clustering process. As shown in the figure, the
そして、クラスタ数と指定クラスタ数とが等しい場合には(ステップS403,Yes)、クラスタリング処理を終了する。一方、クラスタ数と指定クラスタ数とが異なる場合(ステップS403,No)、クラスタテーブル150f中で最大の値を判定する(ステップS404)。 If the number of clusters is equal to the number of designated clusters (step S403, Yes), the clustering process is terminated. On the other hand, when the number of clusters is different from the number of designated clusters (No in step S403), the maximum value is determined in the cluster table 150f (step S404).
クラスタリング処理部160dは、最大の値を持つペアの行と列を削除し(ステップS405)、最大の値を持つペアからなるクラスタを生成し、クラスタテーブル150fに追加する(ステップS406)。
The
続いて、クラスタリング処理部160dは、追加したクラスタの行の各要素から、未選択の要素を選択し(ステップS407)、類似度テーブル150eを参照し、追加したクラスタ間の類似度で最大の値を要素に登録する(ステップS408)。
Subsequently, the
そして、クラスタリング処理部160dは、全ての要素を選択したか否かを判定し(ステップS409)、全ての要素を選択していない場合には(ステップS410,No)、ステップS407に移行し、全ての要素を選択した場合には(ステップS410,Yes)、クラスタテーブル150fに追加した行の各要素の値を、対応する列の各要素に登録し(ステップS411)、ステップS402に移行する。
Then, the
上述してきたように、本実施例にかかるデータ処理装置100は、各文書データ中の単語IDと当該単語IDに対応する単語を含む文書データとを対応付けた転置インデックス150dを作成し、転置インデックス150dに対してシーケンシャルパターン抽出を実行する。そして、シーケンシャルパターン抽出を実行した結果出現する文書データの組み合わせの発生回数を判定(特に、本実施例では、シーケンシャルパターン抽出において、長さ2のパターンの発生回数のみを判定)し、判定結果に基づいて、各文書データ間の類似度を計算するので、文書データの類似度を効率よく算出でき、従来の技術と比較して、類似度計算にかかる処理時間を短縮することが出来る。
As described above, the
例えば、従来技術のように、ベクタースペースモデルによる類似度の計算は、文書同士を比較することにより、文書間の類似度を算出しているので、文書数をnとした場合の比較回数を表す式F(n)は、
F(n)=(n×(n-1))/2
のような「二次関数の式」で表すことができる。そして、例えば、文書数が4の場合には、類似度の計算を6回行う必要がある(例えば、文書をa,b,c,dとすれば、a−b、a−c、a−d、b−c、b−d、c−dの計6回計算を行う必要がある)。
For example, as in the prior art, the similarity calculation based on the vector space model calculates the similarity between documents by comparing the documents, and thus represents the number of comparisons when the number of documents is n. Formula F (n) is
F (n) = (n × (n-1)) / 2
It can be expressed by a “quadratic function expression” such as For example, when the number of documents is 4, the similarity needs to be calculated six times (for example, if the documents are a, b, c, d, ab, ac, a- d, bc, bd, and cd need to be calculated a total of 6 times).
そして、ベクタースペースモデルの計算量を見積もるため、比較回数を表す式をO記法によって表すと、
O(n)=n^2
と表すことが出来る。
And in order to estimate the amount of calculation of the vector space model, an expression representing the number of comparisons is expressed in O notation.
O (n) = n ^ 2
Can be expressed as
一方、本実施例にかかるデータ処理装置100では、各文書と、転置インデックス150dとを比較することによって、各文書間の類似度を算出しているので、文書数が増えることによって増加する計算量は、「1次関数」に従って増加する(例えば、文書数が1つ増えると、転置インデックス150dと比較する回数が一回増える)と考えられ、比較回数を表す式をO記法によって表すと
O(n)=n
と表すことができる。
On the other hand, in the
O (n) = n
It can be expressed as.
従って、文書数nが2倍になったときに、従来の技術では、処理時間が約n^2倍になるのに対し、本実施例にかかるデータ処理装置100では、処理時間を約n倍に抑えることが出来るので、従来の技術と比較して、類似度計算にかかる処理時間を短縮することが出来る。
Therefore, when the number of documents n is doubled, the processing time is about n ^ 2 in the conventional technique, whereas in the
ところで、本実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部あるいは一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 By the way, among the processes described in the present embodiment, all or a part of the processes described as being automatically performed can be manually performed, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.
また、図2に示したデータ処理装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部がCPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
Also, each component of the
図18は、実施例にかかるデータ処理装置100を構成するコンピュータ40のハードウェア構成を示す図である。図18に示すように、このコンピュータ(物品検索装置)40は、入力装置41、モニタ42、RAM(Random Access Memory)43、ROM(Read Only Memory)44、記憶媒体からデータを読み取る媒体読取装置45、他の装置(例えば、端末装置50)との間でデータの送受信を行う通信装置46、CPU(Central Processing Unit)47、HDD(Hard Disk Drive)48をバス49で接続して構成される。
FIG. 18 is a diagram illustrating a hardware configuration of the
そして、HDD48には、上記したデータ処理装置100の機能と同様の機能を発揮するクラスタリング処理プログラム48bが記憶されている。CPU47が、クラスタリング処理プログラム48bを読み出して実行することにより、クラスタリング処理プロセス47aが起動される。ここで、クラスタリング処理プロセス47aは、図2に示した文書データ検索部160a、転置インデックス作成部160b、類似度テーブル作成部160c、クラスタリング処理部160dに対応する。
The
また、HDD48は、文書管理データ150a、単語インデックス150b、単語ID管理テーブル150c、転置インデックス150d、類似度テーブル150e、クラスタテーブル150fに対応する各種データ48aを記憶する。CPU47は、HDD48に格納された各種データ48aを読み出して、RAM43に格納し、RAM43に格納された各種データ43aを用いて、各文書データを分類する。
The
ところで、図18に示したクラスタリング処理プログラム48bは、必ずしも最初からHDD48に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータに接続される「他のコンピュータ(またはサーバ)」などにクラスタリング処理プログラム48bを記憶しておき、コンピュータがこれらからクラスタリング処理プログラム48bを読み出して実行するようにしてもよい。
Incidentally, the
上記の実施例を含む実施形態に関し、以下の付記を開示する。 The following additional notes are disclosed with respect to the embodiments including the above-described examples.
(付記1)記憶装置に記憶された各文書データの類似度によって、文書データを分類するデータ処理装置のデータ分類方法であって、
前記データ処理装置は、
前記記憶装置に記憶された文書データを読み出し、各文書データ中のキーワードと当該キーワードを含む文書データとを対応付けたリストを作成するリスト作成ステップと、
前記リストに対してシーケンシャルパターン抽出を実行し、出現した文書データの組み合わせの発生回数を判定する判定ステップと、
前記判定ステップの判定結果に基づいて、各文書データ間の類似度を算出する算出ステップと、
を含んだことを特徴とするデータ分類方法。
(Supplementary note 1) A data classification method for a data processing device for classifying document data according to the similarity of each document data stored in a storage device,
The data processing device includes:
A list creation step of reading out the document data stored in the storage device and creating a list in which keywords in each document data are associated with document data including the keywords;
A determination step of performing sequential pattern extraction on the list and determining the number of occurrences of a combination of document data that has appeared;
A calculation step of calculating a similarity between the document data based on the determination result of the determination step;
A data classification method characterized by including:
(付記2)前記判定ステップは、シーケンシャルパターン抽出で、長さ2のパターンの発生回数のみを判定することを特徴とする付記1に記載のデータ分類方法。
(Supplementary note 2) The data classification method according to
(付記3)前記類似度の値が最大となる各文書データの組合せを求めることにより、文書データを分類する分類ステップを更に含み、当該分類ステップは、利用者に指定される分類数と文書データの分類数とが等しくなるように、前記文書データを分類することを特徴とする付記1または2に記載のデータ分類方法。
(Supplementary Note 3) The method further includes a classification step of classifying the document data by obtaining a combination of the respective document data that maximizes the similarity value, and the classification step includes the classification number designated by the user and the document data. The data classification method according to
(付記4)記憶装置に記憶された各文書データの類似度によって、文書データを分類するデータ処理装置であって、
前記記憶装置に記憶された文書データを読み出し、各文書データ中のキーワードと当該キーワードを含む文書データとを対応付けたリストを作成するリスト作成手段と、
前記リストに対してシーケンシャルパターン抽出を実行し、出現した文書データの組み合わせの発生回数を判定する判定手段と、
前記判定手段の判定結果に基づいて、各文書データ間の類似度を算出する算出手段と、
を備えたことを特徴とするデータ処理装置。
(Supplementary note 4) A data processing device for classifying document data according to the similarity of each document data stored in a storage device,
List creation means for reading out the document data stored in the storage device and creating a list in which keywords in each document data are associated with document data including the keywords;
A determination unit that performs sequential pattern extraction on the list and determines the number of occurrences of a combination of document data that has appeared;
Calculation means for calculating the similarity between the document data based on the determination result of the determination means;
A data processing apparatus comprising:
(付記5)前記判定手段は、シーケンシャルパターン抽出で、長さ2のパターンの発生回数のみを判定することを特徴とする付記4に記載のデータ処理装置。
(Supplementary note 5) The data processing apparatus according to
(付記6)前記類似度の値が最大となる各文書データの組合せを求めることにより、文書データを分類する分類手段を更に備え、当該分類手段は、利用者に指定される分類数と文書データの分類数とが等しくなるように、前記文書データを分類することを特徴とする付記4または5に記載のデータ処理装置。
(Additional remark 6) It further has a classification means for classifying document data by obtaining a combination of each document data that maximizes the similarity value, and the classification means includes the classification number designated by the user and the document data. 6. The data processing apparatus according to
以上のように、本発明にかかるデータ分類方法およびデータ処理装置は、文書データを検索する検索システムなどに有用であり、特に、処理時間をかけることなく、各文書データを分類する必要がある場合に適している。 As described above, the data classification method and data processing apparatus according to the present invention are useful for a search system for searching for document data, and in particular, when it is necessary to classify each document data without taking processing time. Suitable for
10 ネットワーク
40 コンピュータ
41 入力装置
42 モニタ
43 RAM
43a,48a 各種データ
44 ROM
45 媒体読取装置
46 通信装置
47 CPU
47a クラスタリング処理プロセス
48 HDD
48b クラスタリング処理プログラム
49 バス
50 端末装置
100 データ処理装置
110 入力部
120 出力部
130 通信制御IF部
140 入出力制御IF部
150 記憶部
150a 文書管理データ
150b 単語インデックス
150c 単語ID管理テーブル
150d 転置インデックス
150e 類似度テーブル
150f クラスタテーブル
160 制御部
160a 文書データ検索部
160b 転置インデックス作成部
160c 類似度テーブル作成部
160d クラスタリング処理部
10
43a, 48a
45
48b
Claims (5)
前記データ処理装置は、
前記記憶装置に記憶された文書データを読み出し、各文書データ中のキーワードと当該キーワードを含む文書データとを対応付けたリストを作成するリスト作成ステップと、
前記リストに対してシーケンシャルパターン抽出を実行し、出現した文書データの組み合わせの発生回数を判定する判定ステップと、
前記判定ステップの判定結果に基づいて、各文書データ間の類似度を算出する算出ステップと、
を含んだことを特徴とするデータ分類方法。 A data classification method for a data processing device for classifying document data according to the similarity of each document data stored in a storage device,
The data processing device includes:
A list creation step of reading out the document data stored in the storage device and creating a list in which keywords in each document data are associated with document data including the keywords;
A determination step of performing sequential pattern extraction on the list and determining the number of occurrences of a combination of document data that has appeared;
A calculation step of calculating a similarity between the document data based on the determination result of the determination step;
A data classification method characterized by including:
前記記憶装置に記憶された文書データを読み出し、各文書データ中のキーワードと当該キーワードを含む文書データとを対応付けたリストを作成するリスト作成手段と、
前記リストに対してシーケンシャルパターン抽出を実行し、出現した文書データの組み合わせの発生回数を判定する判定手段と、
前記判定手段の判定結果に基づいて、各文書データ間の類似度を算出する算出手段と、
を備えたことを特徴とするデータ処理装置。 A data processing device for classifying document data according to the similarity of each document data stored in a storage device,
List creation means for reading out the document data stored in the storage device and creating a list in which keywords in each document data are associated with document data including the keywords;
A determination unit that performs sequential pattern extraction on the list and determines the number of occurrences of a combination of document data that has appeared;
Calculation means for calculating the similarity between the document data based on the determination result of the determination means;
A data processing apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008007223A JP5194818B2 (en) | 2008-01-16 | 2008-01-16 | Data classification method and data processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008007223A JP5194818B2 (en) | 2008-01-16 | 2008-01-16 | Data classification method and data processing apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009169689A true JP2009169689A (en) | 2009-07-30 |
JP5194818B2 JP5194818B2 (en) | 2013-05-08 |
Family
ID=40970777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008007223A Active JP5194818B2 (en) | 2008-01-16 | 2008-01-16 | Data classification method and data processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5194818B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013509660A (en) * | 2009-11-02 | 2013-03-14 | マイクロソフト コーポレーション | Content-based image search |
JP2013524359A (en) * | 2010-04-07 | 2013-06-17 | インターナショナル ランゲージ エデュケーション ディベロップメント インスティチュート インク | Media content providing method and apparatus |
JP2014502753A (en) * | 2010-12-22 | 2014-02-03 | ペキン・ユニヴァーシティ・ファウンダー・グループ・カンパニー・リミテッド | Web page information detection method and system |
JP6159908B1 (en) * | 2016-03-31 | 2017-07-05 | スマートインサイト株式会社 | Method, program, and system for automatic discovery of relationships between fields in a heterogeneous data source mixed environment |
WO2017170459A1 (en) * | 2016-03-31 | 2017-10-05 | スマートインサイト株式会社 | Method, program, and system for automatic discovery of relationship between fields in environment where different types of data sources coexist |
CN107818153A (en) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | Data classification method and device |
CN107948147A (en) * | 2017-08-31 | 2018-04-20 | 上海财经大学 | Network connection data sorting technique |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016106A (en) * | 2001-06-29 | 2003-01-17 | Fuji Xerox Co Ltd | Device for calculating degree of association value |
JP2003030224A (en) * | 2001-07-17 | 2003-01-31 | Fujitsu Ltd | Device for preparing document cluster, system for retrieving document and system for preparing faq |
-
2008
- 2008-01-16 JP JP2008007223A patent/JP5194818B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016106A (en) * | 2001-06-29 | 2003-01-17 | Fuji Xerox Co Ltd | Device for calculating degree of association value |
JP2003030224A (en) * | 2001-07-17 | 2003-01-31 | Fujitsu Ltd | Device for preparing document cluster, system for retrieving document and system for preparing faq |
Non-Patent Citations (2)
Title |
---|
CSNG200900092025; 高橋哲朗、外2名: 'スプログの調査と実システムにおける判別手法' 言語処理学会第15回年次大会発表論文集 , 20090302, p.112-115, 言語処理学会 * |
JPN6012051603; 高橋哲朗、外2名: 'スプログの調査と実システムにおける判別手法' 言語処理学会第15回年次大会発表論文集 , 20090302, p.112-115, 言語処理学会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013509660A (en) * | 2009-11-02 | 2013-03-14 | マイクロソフト コーポレーション | Content-based image search |
US9710491B2 (en) | 2009-11-02 | 2017-07-18 | Microsoft Technology Licensing, Llc | Content-based image search |
JP2013524359A (en) * | 2010-04-07 | 2013-06-17 | インターナショナル ランゲージ エデュケーション ディベロップメント インスティチュート インク | Media content providing method and apparatus |
JP2014502753A (en) * | 2010-12-22 | 2014-02-03 | ペキン・ユニヴァーシティ・ファウンダー・グループ・カンパニー・リミテッド | Web page information detection method and system |
JP6159908B1 (en) * | 2016-03-31 | 2017-07-05 | スマートインサイト株式会社 | Method, program, and system for automatic discovery of relationships between fields in a heterogeneous data source mixed environment |
WO2017170459A1 (en) * | 2016-03-31 | 2017-10-05 | スマートインサイト株式会社 | Method, program, and system for automatic discovery of relationship between fields in environment where different types of data sources coexist |
CN107948147A (en) * | 2017-08-31 | 2018-04-20 | 上海财经大学 | Network connection data sorting technique |
CN107948147B (en) * | 2017-08-31 | 2020-01-17 | 上海财经大学 | Network connection data classification method |
CN107818153A (en) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | Data classification method and device |
Also Published As
Publication number | Publication date |
---|---|
JP5194818B2 (en) | 2013-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5316158B2 (en) | Information processing apparatus, full-text search method, full-text search program, and recording medium | |
JP5194818B2 (en) | Data classification method and data processing apparatus | |
JPWO2011078186A1 (en) | Document clustering system, document clustering method and program | |
WO2012096388A1 (en) | Unexpectedness determination system, unexpectedness determination method, and program | |
JP2008198132A (en) | Peculiar expression extraction program, peculiar expression extraction method and peculiar expression extraction device | |
WO2016121048A1 (en) | Text generation device and text generation method | |
JP2011165131A (en) | Information processor, method, and program | |
KR20140121832A (en) | Filtering redundant consumer transaction rules | |
JP5532189B2 (en) | Rule discovery system, method, apparatus and program | |
CN115358397A (en) | Parallel graph rule mining method and device based on data sampling | |
JP2019204246A (en) | Learning data creation method and learning data creation device | |
JPWO2013111287A1 (en) | SPARQL query optimization method | |
JP2008225846A (en) | Word meaning tag application device and method, program, and recording medium | |
JP2013222418A (en) | Passage division method, device and program | |
JP6622921B2 (en) | Character string dictionary construction method, character string dictionary search method, and character string dictionary processing system | |
JP2011191834A (en) | Method, device and program for classifying document | |
JP2010272006A (en) | Relation extraction apparatus, relation extraction method and program | |
KR102520305B1 (en) | Deep learning document analysis system and method based on keyword frequency and section centrality analysis | |
JP2006285419A (en) | Information processor, processing method and program | |
JP5494066B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
JP2018060379A (en) | Searching means selecting program, searching means selecting method and searching means selecting device | |
KR20220041336A (en) | Graph generation system of recommending significant keywords and extracting core documents and method thereof | |
EP2638481A1 (en) | Seed set expansion | |
JP5971794B2 (en) | Patent search support device, patent search support method, and program | |
JP2008234482A (en) | Document classifying device, document classifying method, program and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100917 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160215 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5194818 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |