JP2008204190A - Classification evaluation device - Google Patents
Classification evaluation device Download PDFInfo
- Publication number
- JP2008204190A JP2008204190A JP2007039875A JP2007039875A JP2008204190A JP 2008204190 A JP2008204190 A JP 2008204190A JP 2007039875 A JP2007039875 A JP 2007039875A JP 2007039875 A JP2007039875 A JP 2007039875A JP 2008204190 A JP2008204190 A JP 2008204190A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- data
- unit
- similarity
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、分類評価装置に係り、特に複数のデータからなるデータ群が分類された分類結果を評価する分類評価装置に関する。 The present invention relates to a classification evaluation apparatus, and more particularly to a classification evaluation apparatus that evaluates a classification result obtained by classifying a data group including a plurality of data.
従来より、データを自動的に分類するための多様な方法が考案されている。また、自動的に分類されたデータの中から目的のものを効率的に検索することができるかを示す、分類の有用度を評価して提示するための方法も考案されている。 Conventionally, various methods for automatically classifying data have been devised. In addition, a method for evaluating and presenting the usefulness of classification has been devised, which indicates whether a target object can be efficiently searched from automatically classified data.
例えば、特許文献1には、分類される文書の語句ベクトルを計算し、自動的に似たデータ同士を同じ分類とする自動分類の方法が開示されている。また、分類に対応する語句ベクトルの値が大きなものから1以上の語句をその分類を代表するキーワードとして表示する方法について記載されている。この方法によると、キーワードによって文書データベースの全体構成が把握できるようになる。さらに、キーワードを人が見て判断することで、目的にあった分類を選択してデータの絞り込みを行うことが容易にできるようになる。
For example,
しかしながら、特許文献1の方法の場合、以下のような2つの問題がある。1つには、分類の数が非常に多い場合、各分類のキーワードを目視で確認することが難しいということである。
However, the method of
もう1つは、分類される文書が論文や特許公報等ではなく、Webページやメール等である場合、文書中に内容を表す語が少なかったり、あるいは全く含まれない場合が多く存在する。このような場合、分類を代表するキーワードが必ずしも内容を表す語にならないことがある。また、互いに共通するキーワードを含まない文書が多い場合は、どのような文書でも共通して含まれることが多い非常に一般的な語をキーワードとして同じ分類とされることがある。 The other is that when a document to be classified is not a paper or a patent bulletin, but a Web page, an e-mail, etc., there are many cases where there are few or no words in the document. In such a case, the keyword representing the classification may not necessarily be a word representing the content. In addition, when there are many documents that do not include a common keyword, a very common word that is often included in any document may be classified as a keyword.
このように、自動分類されたデータベースを用いる場合、分類として適当なものと不適当なものの質の差が大きくなるが、いずれも混在して表示されるために、効率よく目的の分類を見つけ出すことが困難になる。 In this way, when using an automatically classified database, the difference in quality between appropriate and unsuitable classifications increases, but since both are displayed together, the target classification can be found efficiently. Becomes difficult.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、自動分類により得られる分類から目的とする分類を選択する際の指標を利用者に提供することが可能な、新規かつ改良された分類評価装置を提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to provide a user with an index for selecting a target classification from classifications obtained by automatic classification. It is an object of the present invention to provide a new and improved classification and evaluation apparatus capable of satisfying the requirements.
上記課題を解決するために、本発明のある観点によれば、データの特徴に基づいて複数のデータを分類した結果を評価する分類評価装置であって、各データについて、データの特徴とそのデータが属する分類に属するデータを代表する特徴との類似度を算出する類似度算出部と、分類に属する各データについて算出された類似度に基づいてその分類を評価する分類評価部と、を備える分類評価装置が提供される。 In order to solve the above-described problem, according to one aspect of the present invention, there is provided a classification evaluation apparatus for evaluating a result of classifying a plurality of data based on data characteristics. A classification comprising: a similarity calculation unit for calculating a similarity with a feature representing data belonging to the class to which the data belongs; and a classification evaluation unit for evaluating the classification based on the similarity calculated for each data belonging to the class An evaluation device is provided.
かかる構成により、複数の分類の中からデータの検索等に用いる分類をさらに絞り込むような場合において、分類の有効度を自動的に評価して表示することが可能となり、利用者はより早く簡単に目的の分類を見つけることができるようになる。 With this configuration, it is possible to automatically evaluate and display the effectiveness of the classification in a case where the classification used for data search or the like is further narrowed down from a plurality of classifications, and the user can quickly and easily The target classification can be found.
また、分類評価部はさらに、分類に属するデータの数に基づいて分類を評価するようにしてもよい。例えば、類似度算出部によって算出された類似度の値とデータ数との乗数により、分類を評価するようにしてもよい。これにより、データ数が多くデータ全体の特徴を俯瞰しやすい分類ほど、高い評価を得ることができる。 Further, the classification evaluation unit may further evaluate the classification based on the number of data belonging to the classification. For example, the classification may be evaluated based on a multiplier between the similarity value calculated by the similarity calculation unit and the number of data. As a result, a higher evaluation can be obtained for a classification that has a larger number of data and is easier to overlook the characteristics of the entire data.
また、分類評価部は、分類に属するデータの類似度の平均値に基づいて分類を評価するようにしてもよい。これにより、分類に属するデータ全体のまとまりを考慮した評価を行うことができるようになる。 Further, the classification evaluation unit may evaluate the classification based on the average value of the similarity of the data belonging to the classification. As a result, it is possible to perform evaluation in consideration of a group of all data belonging to the classification.
また、分類は、異なる特徴を有する複数のセルからなり、類似度算出部は、データの特徴とデータが属するセルの特徴との類似度を算出するようにしてもよい。これにより、例えば、複数のセルからなる自己組織化マップを用いて分類を行った場合に、分類方法の特性を評価に利用することができる。 The classification may include a plurality of cells having different features, and the similarity calculation unit may calculate the similarity between the data features and the features of the cells to which the data belongs. Thereby, for example, when classification is performed using a self-organizing map including a plurality of cells, the characteristics of the classification method can be used for evaluation.
また、分類評価部はさらに、分類に属するセルの数に基づいて分類を評価するようにしてもよい。あるいは、分類評価部は、分類に属するセルのうち1以上のデータが属するセルの数に基づいて分類を評価するようにしてもよい。これにより、分類に属するデータが分類全体に分散しているか否かによって分類を評価できるようになる。例えば、分類に属するセルのうち1以上のデータが属するセルの数の比率が多いと、データが分類全体に分散していると判断できる。 The classification evaluation unit may further evaluate the classification based on the number of cells belonging to the classification. Alternatively, the classification evaluation unit may evaluate the classification based on the number of cells to which one or more data belong among the cells belonging to the classification. As a result, the classification can be evaluated based on whether or not the data belonging to the classification is dispersed throughout the classification. For example, if the ratio of the number of cells to which one or more data belongs among the cells belonging to the classification is large, it can be determined that the data is dispersed throughout the classification.
また、分類評価部は、分類に属する全てのデータの類似度を合計した数をセルの数で割った値に基づいて分類を評価するようにしてもよい。これにより、データの類似度が高い分類ほど高い評価を得ることができ、データの数が多い分類ほど高い評価を得ることができるようになる。あるいは、データが分類全体に分散しておらず、一部に纏まっている分類ほど高い評価を得ることができるようになる。 The classification evaluation unit may evaluate the classification based on a value obtained by dividing the total number of similarities of all data belonging to the classification by the number of cells. As a result, a higher evaluation can be obtained for a classification having a higher degree of data similarity, and a higher evaluation can be obtained for a classification having a larger number of data. Alternatively, the data is not distributed over the entire classification, and a higher classification can be obtained for a classification that is partly collected.
以上説明したように本発明によれば、自動分類により得られる分類から目的とする分類を選択する際の指標を利用者に提供することが可能となる。 As described above, according to the present invention, it is possible to provide a user with an index for selecting a target classification from classifications obtained by automatic classification.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
(第1の実施形態)
まず、図1を参照して、本発明の第1の実施形態にかかる分類評価装置について説明する。図1は、本実施形態にかかる分類評価装置100の概略構成を示すブロック図である。
(First embodiment)
First, a classification evaluation apparatus according to a first embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram illustrating a schematic configuration of a
次に、本実施形態にかかる分類評価装置100の詳細について説明する。本実施形態にかかる分類評価装置100は、図1に示すように、特徴ベクトル抽出部101と、自動分類部102と、参照ベクトル取得部103と、類似度算出部104と、データ数算出部105と、分類評価部106と、表示部107とにより構成される。分類評価装置100は、複数のデータが格納されたデータベース110を入力とし、入力されたデータデータベース110のデータを分類した分類結果の評価を行って利用者に提示する。以下、分類評価装置100の各部について説明する。
Next, details of the
(特徴ベクトル抽出部101)
特徴ベクトル抽出部101は、分類対象であるデータベース110内のデータの特徴をベクトル化するための機能部である。特徴ベクトル抽出部101は、データベース110内のデータから1または2以上の特徴要素を抽出し、各データについて抽出された特徴要素からなるベクトルを求める。以下、各データについて求められたベクトルを特徴ベクトルと呼ぶ。
(Feature vector extraction unit 101)
The feature
(自動分類部102)
自動分類部102は、データベース110内の各データを分類するための機能部である。自動分類部102は、特徴ベクトル抽出部101によって求められた特徴ベクトルを用いて、データベース110内の各データ間の類似度を算出し、類似したデータ同士を同一の分類として分類する。自動分類部102において用いられる分類方法には、例えば、k−means法等の分類手法を用いることができる。
(Automatic classification unit 102)
The
(参照ベクトル取得部103)
参照ベクトル取得部103は、自動分類部102により得られる各分類について、その分類を代表する特徴ベクトルを取得するための機能部である。ここで、取得される各分類を代表する特徴ベクトルを参照ベクトルと呼ぶ。参照ベクトルは、例えば、その分類に含まれる全データの特徴ベクトルの平均を算出する等の方法によって得ることができる。
(Reference vector acquisition unit 103)
The reference
(類似度算出部104)
類似度算出部104は、各分類について、含まれるデータの特徴ベクトルとその分類の参照ベクトルとの類似度を算出するための機能部である。類似度は、例えば、各データの特徴ベクトルと分類の参照ベクトルとのユークリッド距離や内積等を算出することにより求められる。算出された類似度の値は、類似度算出部104から分類評価部106に与えられる。
(Similarity calculation unit 104)
The
(データ数算出部105)
データ数算出部105は、各分類に含まれるデータの数を求めるための機能部である。算出された各分類のデータ数は、データ数算出部105から分類評価部106に与えられる。
(Data count calculation unit 105)
The data
(分類評価部106)
分類評価部106は、各分類に含まれるデータの有効度を示す評価値を算出し、分類を評価するための機能部である。評価値の算出には、類似度算出部104によって算出された類似度や、データ数算出部105によって算出された各分類のデータ数が用いられる。
(Classification evaluation unit 106)
The
分類評価部106は、例えば、各分類に含まれるデータの類似度の平均値や最大値を求めることによって評価値を算出するようにしてもよい。これにより、分類に含まれるデータの類似度が高い(データのばらつきが少ない)ほど、高い評価値を得ることができる。あるいは、分類に含まれるデータの類似度の平均値とデータ数とを乗算する(類似度を合計する)ことによって評価値を算出するようにしてもよい。これにより、データ数が多いほど高い評価値を得ることができる。
For example, the
あるいは、データ数が多い場合は、データ数ではなくデータ数の対数を用いて評価値を算出するようにしてもよい。これにより、データ数が多い場合にはデータの類似度を重視し、データ数が少ない場合にはデータ数を重視するように評価値を算出することができるようになる。 Alternatively, when the number of data is large, the evaluation value may be calculated using the logarithm of the number of data instead of the number of data. As a result, it is possible to calculate the evaluation value such that importance is attached to the similarity of data when the number of data is large, and importance is attached to the number of data when the number of data is small.
なお、ここで示した評価値の計算方法は一例であって、データの類似度やデータ数を用いた多様な計算方法により評価値を算出することが可能である。 Note that the evaluation value calculation method shown here is merely an example, and the evaluation value can be calculated by various calculation methods using the similarity of data and the number of data.
(表示部107)
表示部107は、自動分類部102で得られる各分類分類評価部106で得られる評価値に応じて表示するための機能部である。例えば、評価値が高い順序で分類をリスト化して表示してもよく、あるいは、評価値のレベルに応じて分類を色分けして表示してもよい。また、評価値の高い分類を濃い色で表示する等して、利用者が評価値の高い分類を容易に見つけることができるように表示してもよい。
(Display unit 107)
The
以上、分類評価装置100の構成について説明した。なお、分類評価装置100の各部は、上述した各機能を実行可能なプログラムモジュールをコンピュータ等の情報処理装置にインストールしたソフトウェアで構成されてもよいし、あるいは、上述した各機能を実行可能なプロセッサ等のハードウエアで構成されてもよい。
The configuration of the
次に、図2〜図4に基づいて、本実施形態にかかる分類評価装置100により実行される分類評価処理の一例を説明する。ここで、図2は、分類評価装置100により実行される分類評価処理のフローチャートである。また、図3は、分類評価装置100の自動分類部102によって分類されたデータの一例を模式的に示す図である。また、図4は、図3に示す分類例から算出される各分類のデータとの類似度、類似度の平均値、データ数及び評価値を示した図である。
Next, an example of the classification evaluation process executed by the
図2を参照して説明すると、まず、ステップS120において、特徴ベクトル抽出部101は、データベース110内のデータから1または2以上の特徴要素を抽出する。次いで、ステップS122で、抽出された特徴要素に基づき、各データの特徴ベクトルを求める。さらに、ステップS124で、自動分類部102は、特徴ベクトルを用いてデータベース110内のデータを分類する。
Referring to FIG. 2, first, in step S <b> 120, the feature
以上のような処理を経て、データベース110内のデータが例えば図3に示すように分類されたと仮定する。図3は、説明のために2次元で示しているが、一般的には多次元であってもよい。図3において、白丸は、データベース110のデータD1〜D12の特徴ベクトルを空間中にプロットしたものを示している。また、実線の直線は、ステップS124における自動分類部102の動作により得られた分類の境界を表す。ここでは、ステップS124の分類処理によって、A11、A12、A13及びA14の4つの分類を含む分類が得られたものとする。なお、ここでは、説明のために上記4つの分類のみを例にとって説明するが、本発明はこれに限られず、より多数の分類が得られた場合であっても適用可能である。
It is assumed that the data in the
以下、図3の分類結果の例を参照しながら、図2に示す分類評価処理について説明する。ステップS126で、参照ベクトル取得部103は、ステップS124において得られた各分類の参照ベクトルを取得する。図3では、ここで得られる各分類の参照ベクトルを×で表す。例えば、分類A11の場合、含まれるデータはD1の1つのみであるため、そのデータの特徴ベクトルが参照ベクトルC11となる。分類A12の場合、D2〜D5の4つのデータを含むため、それらの重心となるベクトルを算出し、図3に示す参照ベー句取るC12を得る。分類A13及びA14についても同様にデータの重心を算出することで参照ベクトルC13及びC14を得る。
Hereinafter, the classification evaluation process illustrated in FIG. 2 will be described with reference to the classification result example of FIG. In step S126, the reference
次いで、ステップS128で、各分類に属するデータと分類との類似度を算出する。具体的には、各データの特徴ベクトルと分類の参照ベクトルとの距離dを算出し、1/(1+d)の計算により求められる値を類似度とする。例えば、図3に示す分類A12を例にとると、まず、分類A12の参照ベクトルC12とD2〜D5との距離をそれぞれ算出する。ここで、C12とD2〜D5との距離がそれぞれ、1.0、0.2、1.0、1.1であったとする。次に、求められた距離の値に対して1/(1+d)の計算を行って、類似度0.5、0.83、0.5、0.48を得る。分類A11、A12及びA14についても同様の計算を行って、各データと分類との類似度を算出する。 Next, in step S128, the similarity between the data belonging to each category and the category is calculated. Specifically, the distance d between the feature vector of each data and the classification reference vector is calculated, and the value obtained by the calculation of 1 / (1 + d) is set as the similarity. For example, taking the classification A12 shown in FIG. 3 as an example, first, the distance between the reference vector C12 of the classification A12 and D2 to D5 is calculated. Here, it is assumed that the distances between C12 and D2 to D5 are 1.0, 0.2, 1.0, and 1.1, respectively. Next, 1 / (1 + d) is calculated with respect to the obtained distance value to obtain the similarity of 0.5, 0.83, 0.5, and 0.48. Similar calculations are performed for the classifications A11, A12, and A14, and the similarity between each data and the classification is calculated.
図4に、ステップS128で計算されたD1〜D12までの各データと分類A11〜A14との類似度の値と、各分類の類似度の平均値を示す。類似度の平均値から、各分類中のデータのばらつき度が分かる。即ち、平均値が高い分類ほどデータのばらつきが少なく、互いに似通ったデータからなる分類であることが分かる。図4を参照すると、分類A11〜14の中では、分類A12は最もデータが纏まっており、分類A13は最もデータにばらつきがあるということが分かる。 FIG. 4 shows the similarity value between each of the data D1 to D12 calculated in step S128 and the categories A11 to A14, and the average value of the similarities of each category. From the average value of the similarities, the degree of variation of data in each classification can be found. That is, it can be seen that the higher the average value, the less data variation, and the classification composed of similar data. Referring to FIG. 4, it can be seen that, among the categories A11 to A14, the category A12 has the most data, and the category A13 has the most variation in data.
次いで、ステップS130で、各分類のデータ数を算出する。図3の例において、算出された分類A11〜A14のデータ数を図4に示す。図4に示すように、分類A11〜A14のデータ数は、それぞれ1、4、5及び2となる。 Next, in step S130, the number of data of each classification is calculated. In the example of FIG. 3, the calculated number of data of the classifications A11 to A14 is shown in FIG. As shown in FIG. 4, the numbers of data of the classifications A11 to A14 are 1, 4, 5, and 2, respectively.
次いで、ステップS132で、各分類の評価値を算出する。ここでは、評価値として、ステップS128で求めた各分類に属するデータとの類似度の合計値を用いる。図3の例において、算出された分類A11〜A14の評価値を図4に示す。図4に示すように、分類A11〜A14の評価値は、それぞれ1.0、2.31、1.46、1.06となる。 Next, in step S132, an evaluation value for each classification is calculated. Here, the total value of the similarities with the data belonging to each classification obtained in step S128 is used as the evaluation value. In the example of FIG. 3, the calculated evaluation values of the classifications A11 to A14 are shown in FIG. As shown in FIG. 4, the evaluation values of the classifications A11 to A14 are 1.0, 2.31, 1.46, and 1.06, respectively.
ステップS134で、ステップS132で得られた評価値の順に分類を表示する。したがって、分類の表示順は、A12→A13→A14→A11となる。分類の表示は、参照ベクトルのうち大きな要素を表示する、あるいは、参照ベクトルとの距離が最も近いデータを表示する等して視認性を高めるようにしてもよい。 In step S134, the classification is displayed in the order of the evaluation values obtained in step S132. Therefore, the display order of the classification is A12 → A13 → A14 → A11. The classification may be displayed by increasing the visibility by displaying a large element of the reference vector or by displaying data that is closest to the reference vector.
以上説明したように、A12のように各データの特徴ベクトルが互いに近い、即ち、よく似通ったデータ同士で構成される分類は評価値が高くなり、A13のようにデータ数が多いが含まれるデータのばらつきが大きい分類のほうが評価値は低くなる。したがって、似通ったデータから構成される分類の方が情報として纏まっていることが期待でき、データの有効性が高いと判断できる。 As described above, the classification composed of similar data, such as A12, has a high evaluation value, and data including a large number of data such as A13. Evaluation values are lower for classifications with large variations. Therefore, it can be expected that classifications composed of similar data are gathered as information, and it can be determined that the effectiveness of the data is high.
また、A14のように、データ間の距離が互いに近くてもデータ数が2と小さい分類の場合、A13のようにデータ間のばらつきが大きくデータ数も大きい分類よりも評価値が低くなる。これにより、より多くのデータが含まれて、データベース全体の特徴を俯瞰しやすい分類を先に確認しやすくなる。 In addition, in the case of a classification where the number of data is as small as 2 even when the distance between the data is close to each other as in A14, the evaluation value is lower than in the classification where the variation between data is large and the number of data is large as in A13. Thereby, it becomes easy to confirm the classification | category which contains more data and it is easy to overlook the characteristics of the whole database first.
このように、データの有効性が高く、質が良いと推定される分類を見分けることが可能となり、全分類をマップ状で示すよりも効率的にデータの全体像を確認できる情報を提供することができる。 In this way, it is possible to discriminate classifications that are estimated to have high data validity and quality, and provide information that enables the overall picture of the data to be confirmed more efficiently than a map of all classifications. Can do.
(第2の実施形態)
次に、図5を参照して、本発明の第2の実施形態にかかる分類評価装置について説明する。図5は、本実施形態にかかる分類評価装置200の概略構成を示すブロック図である。
(Second Embodiment)
Next, a classification evaluation apparatus according to the second embodiment of the present invention will be described with reference to FIG. FIG. 5 is a block diagram illustrating a schematic configuration of the
次に、本実施形態にかかる分類評価装置200の詳細について説明する。本実施形態にかかる分類評価装置200は、図5に示すように、特徴ベクトル抽出部201と、自己組織化マップ作成部202と、セル分類部203と、類似度算出部204と、データ数算出部205と、セル数算出部206と、分類評価部207と、表示部208とにより構成される。本実施形態にかかる分類評価装置200は、データベース210内のデータを自己組織化マップにより分類を行った場合の分類を評価するもので、自己組織化マップの特徴に合わせて評価を行う。以下、分類評価装置200の各部について説明する。
Next, details of the
(特徴ベクトル抽出部201)
特徴ベクトル抽出部201は、上述した第1の実施形態にかかる特徴ベクトル抽出部101と実質的に同一の機能を有するものである。特徴ベクトル抽出部201は、データベース210内のデータから1または2以上の特徴要素を抽出し、各データの特徴ベクトルを求める。
(Feature vector extraction unit 201)
The feature
(自己組織化マップ作成部202)
自己組織化マップ作成部202は、データベース210の各データの特徴ベクトルを入力とし、自己組織化マップを作成するための機能部である。ここで用いられる自己組織化マップの作成方法は、一般的に用いられる手法を用いることができる。作成された自己組織化マップは、複数のセルで構成され、各セルはそれぞれ異なる特徴ベクトルを有する。各セルが有する特徴ベクトルを参照ベクトルと呼ぶ。
(Self-organizing map creation unit 202)
The self-organizing
(セル分類部203)
セル分類部203は、自己組織化マップの各セルを分類するための機能部である。セル分類部203は、各セルの参照ベクトルに基づいてセルを分類する。本実施形態においては、各セルの参照ベクトルを代表する特徴要素を代表要素とし、同一の代表要素を持つセルを同一分類として分類する。各セルの代表要素は、例えば、各セルの参照ベクトルを構成する特徴要素のうち、最も値が大きい要素をそのセルの代表要素としてもよい。
(Cell classification unit 203)
The
(類似度算出部204)
類似度算出部204は、データベース210の各データと自己組織化マップの各セルとの類似度を算出し、データをいずれかのセルに分類するための機能部である。データとセルとの類似度は、例えば、各データの特徴ベクトルと、各セルの参照ベクトルとのユークリッド距離や内積等を算出することにより求められる。類似度算出部204は、さらに、そのデータとの類似度が最も高いセル、即ち、そのデータと最も類似しているセルを検索し、そのセルにデータを分類する。さらに、分類されたセルとの類似度(類似度の最大値)をそのデータと分類との類似度とし、分類評価部207に与える。
(Similarity calculation unit 204)
The
(データ数算出部205)
データ数算出部205は、各分類に含まれるデータの数を算出するための機能部である。データ数算出部205は、セル分類部において同一分類に分類されたセルに属するデータ数を合計することによりデータ数を算出する。算出された各分類のデータ数は、データ数算出部205から分類評価部207に与えられる。
(Data number calculation unit 205)
The data
(セル数算出部206)
セル数算出部206は、各分類に含まれるセルの数を算出するための機能部である。セル数算出部206は、分類に含まれる全セルの数の他に、類似度算出部204によって1以上のデータが分類されたセルのみの数を算出するようにしてもよい。算出された各分類のセル数(またはデータが属するセル数)は、セル数算出部206から分類評価部207に与えられる。
(Cell number calculation unit 206)
The cell
(分類評価部207)
分類評価部207は、各分類に含まれるデータの有効度を示す評価値を算出して分類を評価する。算出には類似度算出部204で得られた各データの分類との類似度や、データ数算出部205によって算出されたデータ数、セル数算出部206によって算出されたセル数等が用いられる。
(Classification evaluation unit 207)
The
分類評価部207は、上述した第1の実施形態にかかる分類評価部106と同様に、各分類に含まれるデータの類似度の平均値や最大値、類似度の合計、類似度とデータ数との乗数を求めることによって評価値を算出するようにしてもよい。また、データ数の代わりにデータ数の対数を用いてもよい。
Similar to the
また、第1の実施形態にかかる分類評価部106と同様の方法により類似度及びデータ数から求めた評価値を、分類に属するセル数で割ることにより評価値を算出してもよい。あるいは、分類に含まれる全てのセル数の代わりに、1以上のデータが属するセル数を用いてもよい。これにより、分類に含まれるセル、あるいは、1以上のデータが属するセルの数が少ないほど高い評価値が得られる。すなわち、分類内でのデータのばらつきが少ないと判断することができる。
The evaluation value may be calculated by dividing the evaluation value obtained from the similarity and the number of data by the same method as the
(表示部208)
表示部208は、上述した第1の実施形態にかかる表示部107と実質的に同一の機能を有するものである。
(Display unit 208)
The
以上、分類評価装置200の構成について説明した。なお、分類評価装置200の各部は、上述した各機能を実行可能なプログラムモジュールをコンピュータ等の情報処理装置にインストールしたソフトウェアで構成されてもよいし、あるいは、上述した各機能を実行可能なプロセッサ等のハードウエアで構成されてもよい。
The configuration of the
次に、図6及び図7に基づいて、本実施形態にかかる分類評価装置200により実行される分類評価処理の一例を説明する。ここで、図6は、分類評価装置200により実行される分類評価処理のフローチャートである。また、図7は、分類評価装置200の自己組織化マップ作成部202によって作成された自己組織化マップの例を示す説明図である。また、図8は、図7に示す自己組織化マップの例から算出される各分類のデータ数、セル数及び評価値を示す説明図である。
Next, based on FIG.6 and FIG.7, an example of the classification evaluation process performed by the
図6を参照して説明すると、まず、ステップS220において、特徴ベクトル抽出部201は、データベース210内のデータから1または2以上の特徴要素を抽出する。次いで、ステップS222で、抽出された特徴要素に基づき、各データの特徴ベクトルを求める。
Referring to FIG. 6, first, in step S <b> 220, the feature
次いで、ステップS224で、自己組織化マップ作成部202は、求められた特徴ベクトルに基づいて図7に示すようなマップを作成する。図7に示すマップは6×6の36個セルA1〜F6からなり、各セルはそれぞれ、異なる特徴ベクトルを有する。セルが有する特徴ベクトルを参照ベクトルと呼ぶ。
Next, in step S224, the self-organizing
次いで、ステップS226で、セル分類部203は、各セルの参照ベクトルに含まれる特徴要素の中で最も値が大きい要素を代表要素として取得する。例えば、図7の例では、各セルは、X1〜X7までの特徴要素を含む7次元以上の特徴ベクトル(参照ベクトルという)を有するものとし、X1〜X7を含む特徴要素の中で最も値が大きい要素を取得する。図7では、ステップS226で取得された各セルの代表要素を各セルの上段に示している。
Next, in step S226, the
次いで、ステップS228で、セル分類部203は、代表要素が同一であるセルを同一の分類としてセルを分類する。図7では、ステップS228の処理によって分類されたセルの分類の境界を太線で示している。したがって、図7の太線によって区切られたセルのまとまりが1つの分類に相当し、分類に含まれるセルに分類されるデータが、その分類に属するデータとなる。
Next, in step S228, the
一般的には、自己組織化マップによる可視化はここまでであり、分類の数が多くその質にばらつきが大きい場合は適当な分類を選択することが困難である。本実施形態においては、以下のステップの処理を経て、適当な分類を容易に選択するための指標を利用者に提示することができる。 In general, the visualization by the self-organizing map is up to this point, and it is difficult to select an appropriate classification when the number of classifications is large and the quality varies greatly. In the present embodiment, an index for easily selecting an appropriate classification can be presented to the user through the processing of the following steps.
次いで、ステップS230で、類似度算出部204において各データとセルA1〜F6の各々との類似度を算出し、最も類似度の高いセルにデータを分類する。類似度算出部204は、各データについてデータの特徴ベクトルと全てのセルの参照ベクトルとの距離等を算出し、類似度を算出する。さらに、類似度が最も高いセルにそのデータを分類する。このようにして分類された結果、各セルに属するデータの数を図7の各セルの下段に示している。
Next, in step S230, the
次いで、ステップS232で、データ数算出部205において、各分類に属するデータ数を算出する。これは、ステップS230による分類の結果、各分類に属するセルに分類されたデータの数を合計することにより算出される。例えば、図7の例において、代表要素がX2である分類の場合、分類に属するセルは、D1、D2、E1、E2、E3、F1、F2及びF3であるので、それらのセルに属するデータ数(図7の各セルの下段の値)を合計して、0+0+2+0+0+6+3+0=11を得る。他の分類についても同様の計算により、データ数を算出する。図8に、算出された各分類のデータ数を示す。
Next, in step S232, the data
次いで、ステップS234で、セル数算出部206において、各分類に属するセルの数を算出する。例えば、図7の例において、代表要素がX2である分類の場合には、分類に属するセルは、D1、D2、E1、E2、E3、F1、F2及びF3の8個である。また、このときセルに属するデータ数が0であるものについては除外してセル数を算出するようにしてもよい。その場合、X2の分類の場合には、セル数は、E1、F1及びF2の3個となる。他の分類についても同様の計算により、セル数を算出する。図8に、算出された各分類のデータ数を示す。
Next, in step S234, the cell
次いで、ステップS236で、分類評価部207において、各分類の評価値を算出する。例えば、代表要素がX2である分類の類似度の平均値が0.8であったとすると、この分類についての評価値は、(類似度の平均値)×(データ数)÷(1以上のデータが属するセル数)=0.8×11÷3=2.93と算出される。
Next, in step S236, the
比較のために、図7の例で、全ての分類の類似度の平均値が0.8であった場合に、上記計算式によって算出される評価値を図8に示している。例えば、X2及びX4の分類は、データ数が最も多い11個でありデータ全体を代表する分類であるように見えるが、評価値はX2の方が高い値になっている。これは、X4の分類では、データは多くのセルに分散しており、必ずしも同じ特徴で集まったデータではなく、分類の内部でさらに細かいカテゴリに分割することが可能なデータであることを表している。一方、X2の分類は、データが分類内の一部のセルに集中しており、データ同士の関連性が高く、有効度の高い分類であることが分かる。 For comparison, in the example of FIG. 7, when the average value of the similarities of all the classifications is 0.8, the evaluation value calculated by the above formula is shown in FIG. For example, the classification of X2 and X4 is 11 that has the largest number of data and seems to be a classification that represents the entire data, but the evaluation value of X2 is higher. This means that in X4 classification, the data is distributed in many cells and is not necessarily data gathered with the same characteristics, but data that can be divided into finer categories within the classification. Yes. On the other hand, in the classification of X2, it can be seen that the data is concentrated in a part of the cells in the classification, and the relevance between the data is high and the effectiveness is high.
最後にステップS238で評価値に基づいて分類を表示する。例えば、評価値が高い順、即ち、X7→X2→X3→X5→X6→X4→X1の順に表示する。これにより、X7が最も強調された表示となり、利用者は、有効度の高い分類を容易に確認することができるようになる。 Finally, in step S238, the classification is displayed based on the evaluation value. For example, the evaluation values are displayed in descending order, that is, in the order of X7 → X2 → X3 → X5 → X6 → X4 → X1. As a result, X7 is displayed with the highest emphasis, and the user can easily confirm the classification with high effectiveness.
以上説明したように、データを複数の分類に分類し、その中からデータの検索等に用いる分類をさらに絞り込むような場合において、分類を自動的に評価して表示することによって利用者がより早く簡単に目的の分類を見つけることができるようになる。 As described above, when data is classified into a plurality of classifications, and the classification used for data retrieval or the like is further narrowed down from among the classifications, the user can be quickly evaluated by automatically evaluating and displaying the classifications. You can easily find the target classification.
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, it cannot be overemphasized that this invention is not limited to the example which concerns. It will be apparent to those skilled in the art that various changes and modifications can be made within the scope of the claims, and these are naturally within the technical scope of the present invention. Understood.
100、200 分類評価装置
101 特徴ベクトル抽出部
102 自動分類部
103 参照ベクトル取得部
104 類似度算出部
105 データ数算出部
106 分類評価部
107 表示部
110、210 データベース
201 特徴ベクトル抽出部
202 自己組織化マップ作成部
203 セル分類部
204 類似度算出部
205 データ数算出部
206 セル数算出部
207 分類評価部
208 表示部
100, 200
Claims (7)
各データについて、データの特徴と前記データが属する分類に属するデータを代表する特徴との類似度を算出する類似度算出部と、
前記分類に属する各データについて算出された前記類似度に基づいて前記分類を評価する分類評価部と、
を備えることを特徴とする、分類評価装置。 A classification evaluation apparatus for evaluating a result of classifying a plurality of data based on data characteristics,
For each data, a similarity calculation unit that calculates the similarity between the characteristics of the data and the characteristics representing the data belonging to the classification to which the data belongs;
A classification evaluation unit that evaluates the classification based on the similarity calculated for each data belonging to the classification;
A classification evaluation apparatus comprising:
前記類似度算出部は、前記データの特徴と前記データが属するセルの特徴との類似度を算出することを特徴とする、請求項1〜3のいずれかに記載の分類評価装置。 The classification is composed of a plurality of cells having different characteristics,
The classification evaluation apparatus according to claim 1, wherein the similarity calculation unit calculates a similarity between a feature of the data and a feature of a cell to which the data belongs.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007039875A JP2008204190A (en) | 2007-02-20 | 2007-02-20 | Classification evaluation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007039875A JP2008204190A (en) | 2007-02-20 | 2007-02-20 | Classification evaluation device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008204190A true JP2008204190A (en) | 2008-09-04 |
Family
ID=39781630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007039875A Pending JP2008204190A (en) | 2007-02-20 | 2007-02-20 | Classification evaluation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008204190A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165131A (en) * | 2010-02-15 | 2011-08-25 | Sony Corp | Information processor, method, and program |
JP2012053500A (en) * | 2010-08-31 | 2012-03-15 | Yahoo Japan Corp | Data display device, data display control method and program |
JP2018092612A (en) * | 2016-12-01 | 2018-06-14 | 富士通株式会社 | Valuation device of complexity of classification task and method |
CN108376164A (en) * | 2018-02-24 | 2018-08-07 | 武汉斗鱼网络科技有限公司 | A kind of methods of exhibiting and device of potentiality main broadcaster |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263514A (en) * | 1995-03-27 | 1996-10-11 | Mitsubishi Electric Corp | Method for automatic classification of document, method for visualization of information space, and information retrieval system |
-
2007
- 2007-02-20 JP JP2007039875A patent/JP2008204190A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263514A (en) * | 1995-03-27 | 1996-10-11 | Mitsubishi Electric Corp | Method for automatic classification of document, method for visualization of information space, and information retrieval system |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011165131A (en) * | 2010-02-15 | 2011-08-25 | Sony Corp | Information processor, method, and program |
JP2012053500A (en) * | 2010-08-31 | 2012-03-15 | Yahoo Japan Corp | Data display device, data display control method and program |
JP2018092612A (en) * | 2016-12-01 | 2018-06-14 | 富士通株式会社 | Valuation device of complexity of classification task and method |
CN108376164A (en) * | 2018-02-24 | 2018-08-07 | 武汉斗鱼网络科技有限公司 | A kind of methods of exhibiting and device of potentiality main broadcaster |
CN108376164B (en) * | 2018-02-24 | 2021-01-01 | 武汉斗鱼网络科技有限公司 | Display method and device of potential anchor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Micenková et al. | Explaining outliers by subspace separability | |
JP5350472B2 (en) | Product ranking method and product ranking system for ranking a plurality of products related to a topic | |
JP5033580B2 (en) | Image processing apparatus and image processing method | |
US8683314B2 (en) | Tree pruning of icon trees via subtree selection using tree functionals | |
Zheng et al. | Size-scalable content-based histopathological image retrieval from database that consists of WSIs | |
US20120269436A1 (en) | Learning structured prediction models for interactive image labeling | |
CN108090032B (en) | Visual interpretation method and device of logistic regression model | |
US8243988B1 (en) | Clustering images using an image region graph | |
US20090019010A1 (en) | Document Search Device, Imaging Forming Apparatus, and Document Search System | |
MXPA05004679A (en) | Method and system for identifying image relatedness using link and page layout analysis. | |
US8582872B1 (en) | Place holder image detection via image clustering | |
US9400808B2 (en) | Color description analysis device, color description analysis method, and color description analysis program | |
JP2010504593A (en) | Extracting dominant colors from an image using a classification technique | |
US20160188633A1 (en) | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image | |
WO2018134964A1 (en) | Image search system, image search method, and program | |
JP2007334402A (en) | Server, system and method for retrieving clustered vector data | |
US20230409645A1 (en) | Search needs evaluation apparatus, search needs evaluation system, and search needs evaluation method | |
KR101472451B1 (en) | System and Method for Managing Digital Contents | |
JP2008204190A (en) | Classification evaluation device | |
CN109478191B (en) | Text mining method, recording medium, and text mining device | |
Al-Jubouri | Content-based image retrieval: Survey | |
CN108647985B (en) | Article recommendation method and device | |
JP2006235716A (en) | Document filtering system | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
JP2016076115A (en) | Information processing device, information processing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110607 |