JP2015176175A - Information processing apparatus, information processing method and program - Google Patents
Information processing apparatus, information processing method and program Download PDFInfo
- Publication number
- JP2015176175A JP2015176175A JP2014049694A JP2014049694A JP2015176175A JP 2015176175 A JP2015176175 A JP 2015176175A JP 2014049694 A JP2014049694 A JP 2014049694A JP 2014049694 A JP2014049694 A JP 2014049694A JP 2015176175 A JP2015176175 A JP 2015176175A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- label
- labels
- feature
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、認識器の学習データの生成に適用可能な情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program, and more particularly, to an information processing device, an information processing method, and a program that can be applied to generation of learning data of a recognizer.
近年、入力データから抽出される特徴量に基づいて入力データの評価値や評価カテゴリといった意味付け(ラベル)を推定し、未知の入力データを認識する認識器に関する研究が広く行われている。例えば、音声データから抽出される特徴量に基づいて、感情の種類や感情の程度などを推定する感情認識器などが研究されている。 In recent years, research on recognizers that recognize unknown input data by estimating meanings (labels) such as evaluation values and evaluation categories of input data based on feature values extracted from input data has been widely performed. For example, an emotion recognizer that estimates the type of emotion, the level of emotion, and the like based on feature amounts extracted from speech data has been studied.
このような認識器に関する技術の一例が、下記の非特許文献に開示されている。非特許文献1または2には、特徴量ごとに付与された複数のラベルの平均値を各特徴量の教師ラベルとして算出し、複数の特徴量の各々とその特徴量に関して算出された教師ラベルとを組み合わせて特徴量ごとに1つの学習データを生成し、特徴量毎に生成された学習データに基づいて未知の入力データのラベルを認識する学習モデル(認識器)を生成する手法が開示されている。
An example of a technique related to such a recognizer is disclosed in the following non-patent document. Non-Patent
学習モデルを生成する際、一般的に、特徴量ごとに付与されるラベルとしては人による評価値が用いられる。そのため、特に推定が困難な特徴量に関しては、付与されるラベルがばらつくことがある。しかしながら、上述の各非特許文献に開示されている手法では、教師ラベルを生成する際に、各特徴量に付与される複数のラベルのばらつきが考慮されていない。すなわち、上述の各非特許文献では、ラベルのばらつきが大きく推定が困難な特徴量もラベルのばらつきが少なく推定が容易な特徴量も一律に取り扱われているため、学習モデルの性能が十分に得られない可能性がある。 When generating a learning model, generally, a human evaluation value is used as a label assigned to each feature amount. For this reason, the labels to be given may vary, particularly for feature quantities that are difficult to estimate. However, in the methods disclosed in each of the above-mentioned non-patent documents, variations in a plurality of labels given to each feature amount are not taken into consideration when generating a teacher label. In other words, in each of the above-mentioned non-patent documents, feature quantities that are difficult to estimate due to large label variations are uniformly handled as feature quantities that are easy to estimate with little label variation. It may not be possible.
本発明の目的は、認識器などで用いられる学習モデルの性能を向上させ得る技術を提供することにある。 An object of the present invention is to provide a technique capable of improving the performance of a learning model used in a recognizer or the like.
本発明によれば、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段と、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段と、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段と、
を有する情報処理装置が提供される。
According to the present invention,
Input data receiving means for receiving a plurality of feature quantities and a plurality of labels respectively assigned to the feature quantities;
Label distribution calculating means for calculating a probability distribution of a label for each feature quantity from a plurality of labels assigned to each feature quantity;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing apparatus is provided.
本発明によれば、
コンピュータが、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付け、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出し、
前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得し、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する、
ことを含む情報処理方法が提供される。
According to the present invention,
Computer
Receiving a plurality of feature amounts and a plurality of labels assigned to each feature amount,
From the plurality of labels assigned to each feature amount, calculate the probability distribution of the label for each feature amount,
Based on the probability distribution of the label for each feature amount, obtain a plurality of teacher labels for each feature amount,
Generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing method including the above is provided.
本発明によれば、
コンピュータを、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段、
として機能させるためのプログラムが提供される。
According to the present invention,
Computer
Input data receiving means for receiving a plurality of feature amounts and a plurality of labels respectively assigned to the feature amounts;
Label distribution calculating means for calculating a probability distribution of a label for each feature amount from a plurality of labels assigned to each feature amount;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
A program for functioning as a server is provided.
本発明によれば、認識器などで用いられる学習モデルの性能を向上させ得る技術が提供される。 ADVANTAGE OF THE INVENTION According to this invention, the technique which can improve the performance of the learning model used with a recognizer etc. is provided.
以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.
[第1実施形態]
〔処理構成〕
図1は、第1実施形態における情報処理装置10の処理構成を概念的に示すブロック図である。図1において、情報処理装置10は、入力データ受付部110と、ラベル分布算出部120と、教師ラベル取得部130と、拡張学習データ生成部140と、を有する。
[First Embodiment]
[Processing configuration]
FIG. 1 is a block diagram conceptually showing the processing configuration of the
入力データ受付部110は、複数の特徴量と、特徴量ごとにそれぞれ付与される複数のラベルを入力データとして受け付ける。ここで、「特徴量」とは入力データを特徴化するベクトルなどを意味する。また、「ラベル」とは入力データとして受け付けた特徴量に応じた評価値や評価カテゴリなどを意味する。入力データ受付部110は、複数の特徴量および特徴量ごとに付与される複数のラベルを、例えば、図示しないキーボードなどの入力装置を介して受け付ける。なお、入力データ受付部110が複数の特徴量および特徴量ごとに付与される複数のラベルを受け付ける方法はこれに制限されない。
The input
ラベル分布算出部120は、入力データ受付部110で受け付けた、特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出する。ラベル分布算出部120は、例えば、ガウス分布や多項分布を仮定して最尤推定法によりラベルの確率分布を算出する。また、ラベル分布算出部120は、ガウス分布や多項分布以外の分布を仮定して、ラベルの確率分布を算出してもよい。あるいは、ラベル分布算出部120は、確率分布の関数を仮定せずにヒストグラムなどを用いて、ラベルの確率分布を算出してもよい。
The label
拡張学習データ生成部140は、ラベル分布算出部120で算出された特徴量別のラベルの確率分布に基づいて、特徴量ごとに複数の学習データ(拡張学習データ)を生成する。例えば、本実施形態の拡張学習データ生成部140は、各特徴量と、後述の教師ラベル取得部130で取得される特徴量別の複数の教師ラベルとに基づいて複数の学習データを生成する。ここで、「学習データ」とは、後述の学習モデルを生成するために用いられるデータであり、複数の特徴量と該特徴量に関するラベルとの対応関係を示し得るデータである。
The extended learning
教師ラベル取得部130は、特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する。具体的には、教師ラベルとして取得され得るラベルは複数存在しており、教師ラベル取得部130がその各々のラベルを各特徴量に関する教師ラベルとして取得する確率は、各特徴量に関するラベルの確率分布に従う。すなわち、特徴量別のラベルの確率分布において、確率密度の濃い部分に該当するラベルが教師ラベルとして選択されやすくなる。なお、教師ラベル取得部130は、例えば、取得する教師ラベルの個数に関する入力を図示しないキーボードなどの入力装置を介して受け付ける。そして、教師ラベル取得部130は、各特徴量に関するラベルの確率分布に従って、入力された個数分の教師ラベルを各特徴量に対してそれぞれ取得する。
The teacher
また、「教師ラベル」は入力データ受付部110で受け付けた各特徴量に対して付与される代表的なラベルであって、サポートベクター回帰やサポートベクターマシンなどにより学習モデルを生成する際に用いられる情報である。ここで、教師ラベル取得部130によって取得される教師ラベルは、ラベル分布算出部120で算出された確率分布に依存する。これを、図2を用いて説明する。図2は、ラベル分布算出部120により算出されるラベルの確率分布の一例を示す図である。
The “teacher label” is a representative label given to each feature received by the input
図2(a)に示されるようなラベルの確率分布が算出される特徴量は、ラベルのばらつきが大きくラベルの推定が困難な特徴量であると言える。一方で、図2(b)に示されるようなラベルの確率分布が算出される特徴量は、ラベルのばらつきが小さくラベルの推定が容易な特徴量であると言える。このような確率分布を用いることにより、教師ラベル取得部130は特徴量ごとのラベルの推定の困難さを加味して教師ラベルを選択することができる。
It can be said that the feature quantity for which the probability distribution of the label as shown in FIG. 2A is calculated is a feature quantity that has a large label variation and is difficult to estimate the label. On the other hand, it can be said that the feature quantity for which the probability distribution of the label as shown in FIG. 2B is calculated is a feature quantity that is easy to estimate the label with little variation in the label. By using such a probability distribution, the teacher
教師ラベル取得部130は、例えば、下記非特許文献3に詳細が記載されている棄却サンプリング法などを用いて教師ラベルを生成する。この場合、図2(b)のラベルの確率分布を示す特徴量よりも、図2(a)のラベルの確率分布を示す特徴量の方が、教師ラベル取得部130によって選択される複数の教師ラベルにばらつきが大きくなる。すなわち、図2(a)に示されるようなラベルの確率分布を示す特徴量に関しては、教師ラベル取得部130は入力データ受付部110で受け付けた複数のラベルの平均値からのずれをある程度許容して複数の教師ラベルを取得することができる。また、図2(b)に示されるようなラベルの確率分布を示す特徴量に関しては、教師ラベル取得部130は入力データ受付部110で受け付けた複数のラベルの平均値からのずれを図2(a)よりも小さくして複数の教師ラベルを取得することができる。
そして、拡張学習データ生成部140は、入力データ受付部110で受け付けた各特徴量と、各特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量ごとに複数の学習データを生成する。また、拡張学習データ生成部140は、生成した複数の学習データを拡張学習データ記憶部142に記憶する。なお、図1において拡張学習データ記憶部142が情報処理装置10に備えられている例が示されているが、拡張学習データ記憶部142は情報処理装置10と通信可能に接続された他の装置に備えられていてもよい。
Then, the extended learning
〔ハードウェア構成〕
図3は、情報処理装置10のハードウェア構成を概念的に示す図である。情報処理装置10は、例えば、バス15で相互に接続される、CPU11、メモリ12、入出力インタフェース(I/F)13、通信装置14等を有する。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク等である。通信装置14は、他のコンピュータや機器と通信を行う。通信装置14には、可搬型記録媒体等も接続され得る。
[Hardware configuration]
FIG. 3 is a diagram conceptually illustrating the hardware configuration of the
入出力I/F13は、表示装置や入力装置などのユーザインタフェース装置(図示せず)と接続可能である。表示装置は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)ディスプレイのような、CPU11や図示しないGPU(Graphics Processing Unit)等により処理された描画データに対応する画面を表示する装置である。入力装置は、キーボードやマウス等のようなユーザからの入力を受け付ける装置である。
The input / output I /
先に説明した情報処理装置10の各処理部は、例えば、CPU11によってメモリ12に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)やメモリカード等のような可搬型記録媒体、あるいはネットワーク上の他のコンピュータから通信装置14等を介してインストールされ、メモリ12に格納されてもよい。なお、情報処理装置10のハードウェア構成は図3に示される例に制限されない。
Each processing unit of the
〔動作例〕
図4を用いて、本実施形態における情報処理装置10の動作例を説明する。図4は、第1実施形態における情報処理装置10の処理の流れを示すフローチャート図である。
[Operation example]
An operation example of the
入力データ受付部110は、複数の特徴量と特徴量ごとにそれぞれ付与される複数のラベルとを入力データとして受け付ける(S102)。ラベル分布算出部120は、S102で取得した特徴量ごとの複数のラベルから、特徴量別のラベルの確率分布を算出する(S104)。ラベル分布算出部120は、例えば、ガウス分布や多項分布などを仮定して最尤推定によりラベルの確率分布を算出する。そして、教師ラベル取得部130は、S104で算出された特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する(S106)。そして、拡張学習データ生成部140は、S102で受け付けた各特徴量と、各特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量ごとに複数の学習データ(拡張学習データ)を生成する(S108)。そして、拡張学習データ生成部140は、S108で生成した拡張学習データを拡張学習データ記憶部142に記憶する。
The input
〔第1実施形態の作用と効果〕
以上、本実施形態では、特徴量ごと付与される複数のラベルから、特徴量別のラベルの確率分布(ラベルのばらつき)が算出される。そして、算出された特徴量別の確率分布に基づいて、特徴量別に複数の教師ラベルが取得される。そして、各々の特徴量と、各々の特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量ごとに複数の学習データ(拡張学習データ)が生成される。
[Operation and Effect of First Embodiment]
As described above, in the present embodiment, the probability distribution (label variation) of the label for each feature amount is calculated from the plurality of labels given for each feature amount. Then, based on the calculated probability distribution for each feature amount, a plurality of teacher labels are acquired for each feature amount. Each feature amount is combined with each of a plurality of teacher labels acquired for each feature amount, and a plurality of learning data (extended learning data) is generated for each feature amount.
以上、本実施形態によれば、特徴量ごとに付与されるラベルのばらつき、すなわち、各特徴量の推定の困難さを考慮した複数の学習データ(拡張学習データ)を生成することができる。詳細には、付与されるラベルのばらつきが大きい特徴量、すなわち、推定が困難な特徴量に関しては、特徴量ごとに与えられた複数のラベルの平均値からのずれをある程度許容して、拡張学習データが生成される。また、付与されるラベルのばらつきが小さい特徴量、すなわち、推定が容易な特徴量に関しては、特徴量ごとに与えられた複数のラベルの平均値からのずれの小さい拡張学習データが生成される。ここで、非特許文献の技術のように、人の判断を基に入力される複数のラベルの平均値を1つの教師ラベルとして用いる場合、この教師ラベルと人の判断に基づく複数のラベルとの乖離度合が大きい学習データが作成され得る。一方、本発明では、特徴量ごとに付与された複数のラベルの確率分布に基づいて、様々なパターンの学習データ(拡張学習データ)が生成されるため、教師ラベルと人の判断に基づく複数のラベルとの乖離度合を小さくすることができる。つまり、本実施形態で生成されるような拡張学習データを用いることにより、学習モデルの推定精度を向上させることができる。 As described above, according to the present embodiment, it is possible to generate a plurality of learning data (extended learning data) in consideration of variations in labels given for each feature amount, that is, difficulty in estimating each feature amount. Specifically, for feature quantities with large variations in the labels given, that is, feature quantities that are difficult to estimate, extended learning is allowed by allowing some deviation from the average value of multiple labels given for each feature quantity. Data is generated. In addition, with respect to a feature amount with small variations in labels to be given, that is, a feature amount that can be easily estimated, extended learning data with a small deviation from the average value of a plurality of labels given for each feature amount is generated. Here, when the average value of a plurality of labels input based on human judgment is used as one teacher label, as in the technique of non-patent literature, the relationship between this teacher label and a plurality of labels based on human judgment is used. Learning data having a large degree of deviation can be created. On the other hand, in the present invention, various patterns of learning data (extended learning data) are generated based on the probability distribution of a plurality of labels assigned for each feature amount. The degree of deviation from the label can be reduced. That is, by using the extended learning data generated in the present embodiment, it is possible to improve the estimation accuracy of the learning model.
[第2実施形態]
本実施形態では、第1実施形態で生成された拡張学習データを用いて拡張学習モデルをと生成し、該生成された拡張学習モデルを用いて未知のデータに付与すべきラベルを判別する情報処理装置について説明する。
[Second Embodiment]
In the present embodiment, an extended learning model is generated using the extended learning data generated in the first embodiment, and information processing for determining a label to be added to unknown data using the generated extended learning model The apparatus will be described.
〔処理構成〕
図5は、第2実施形態における情報処理装置10の処理構成を概念的に示すブロック図である。本実施形態の情報処理装置10は、拡張学習モデル生成部150と、認識データ取得部160と、ラベル推定部170と、ラベル判別部180とをさらに有する。
[Processing configuration]
FIG. 5 is a block diagram conceptually showing the processing configuration of the
拡張学習モデル生成部150は、拡張学習データ生成部140によって生成された複数の学習データ(拡張学習データ)に基づいて、複数の学習モデル(拡張学習モデル)を生成する。詳細には、拡張学習モデル生成部150は、例えば、サポートベクター回帰やサポートベクターマシンを用いて、拡張学習データ記憶部142に記憶された複数の学習データを基に複数の学習モデルを生成する。また、拡張学習モデル生成部150は、生成した複数の学習モデルを拡張学習モデル記憶部152に記憶する。なお、図1において拡張学習モデル記憶部152が情報処理装置10に備えられている例が示されているが、拡張学習モデル記憶部152は情報処理装置10と通信可能に接続された他の装置に備えられていてもよい。
The extended learning
また、拡張学習モデル生成部150は、特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとに1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデル(拡張学習モデル)を生成してもよい。具体的には、拡張学習モデル生成部150は、学習モデルを生成するために特徴量ごとに1つの学習データを選択する際、他の学習モデルの生成時に用いた学習データは除外する。このようにすることで、ラベル分布算出部120で算出される特徴量別のラベルの確率分布が精度よく反映された拡張学習モデルを生成することができる。また、教師ラベル取得部130によって取得される教師ラベルの数が多いほど、拡張学習モデル生成部150は精度の高い拡張学習モデルを生成することができる。
Further, the extended learning
認識データ取得部160は、ユーザの入力操作などにより、未知の認識対象データを取得する。
The recognition
ラベル推定部170は、拡張学習モデル記憶部152に記憶された複数の学習モデルを用いて、認識データ取得部160で取得された認識対象データのラベルを推定する。ここで、ラベル推定部170は、拡張学習モデル記憶部152に記憶されている複数の学習モデルのうち少なくとも2つを用いて、認識対象データのラベルを少なくとも2つ推定する。ラベル推定部170が用いる学習モデルの個数は、例えば、ユーザからの入力などにより指定することができる。
The
ラベル判別部180は、複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、認識データ取得部160で取得された認識対象データに付与すべきラベルを判別する。ラベル判別部180は、例えば、ラベル推定部170で推定された複数のラベルの平均値や中間値などを、認識対象データに付与すべきラベルと判別する。また、ラベル判別部180は、例えば、ラベル推定部170で推定された複数のラベルの多数決をとって、最も多く推定されたラベルを認識対象データに付与すべきラベルと判別してもよい。
The
〔動作例〕
図6を用いて、本実施形態における情報処理装置10の動作例を説明する。図6は、第2実施形態における情報処理装置10の処理の流れを示すフローチャートである。
[Operation example]
An example of the operation of the
認識データ取得部160は、例えば、ユーザの入力操作などにより、認識対象データを取得する(S202)。そして、ラベル推定部170は、拡張学習モデル記憶部152に記憶されている複数の学習モデル(拡張学習モデル)を用いて、認識対象データのラベルを推定する(S204)。ここで、ラベル推定部170は、拡張学習モデル記憶部152に記憶されている複数の学習モデルのうち少なくとも2つの学習モデルを用いて、認識対象データのラベルを少なくとも2つ推定する。そして、ラベル判別部180は、S204で複数の学習モデルを用いて推定された複数のラベルから、認識対象データに付与すべきラベルを判別する(S206)。詳細には、ラベル判別部180は、S204で推定されたラベルの平均値、中間値または推定されたラベルの多数決などにより、認識対象データに付与すべきラベルを判別する。
The recognition
〔第2実施形態の作用と効果〕
以上、本実施形態では、第1実施形態で生成された、特徴量ごとに付与された複数のラベルの確率分布に基づく様々なパターンの学習データを用いて複数の学習モデル(拡張学習モデル)が生成される。そして、この複数の学習モデルにより推定されたラベルを統合し、認識対象データに付与すべきラベルが判別される。すなわち、ラベルの確率分布に基づく様々なパターンを反映した学習モデルによって未知の認識対象データに付与すべきラベルが判別されるため、本実施形態によれば、未知の認識対象データに付与すべきラベルの判別精度の向上が見込める。
[Operation and Effect of Second Embodiment]
As described above, in the present embodiment, a plurality of learning models (extended learning models) are generated using the learning data of various patterns based on the probability distribution of the plurality of labels given for each feature amount generated in the first embodiment. Generated. Then, the labels estimated by the plurality of learning models are integrated, and the label to be added to the recognition target data is determined. That is, since a label to be given to unknown recognition target data is determined by a learning model reflecting various patterns based on the probability distribution of labels, according to the present embodiment, a label to be given to unknown recognition target data Can be improved.
以下に実施例を挙げ、上述の各実施形態を更に詳細に説明する。本発明は以下の実施例から何ら限定を受けない。 Examples will be given below to describe the above-described embodiments in more detail. The present invention is not limited in any way by the following examples.
入力データ受付部110は、例えば、音声データの韻律や音量などの特徴量や、画像データにエッジ処理などを施して得られる特徴量を受け付ける。また、入力データ受付部110は、受け付けた特徴量に対応して、人の判断によって付与された複数のラベルを受け付ける。
The input
ラベル分布算出部120は、入力データ受付部110が受け付けた特徴量別の複数のラベルから、特徴量別のラベルの確率分布を算出する。ラベル分布算出部120は、例えば、ガウス分布や多項分布を仮定して最尤推定により分布を推定する。
The label
教師ラベル取得部130は、ラベル分布算出部120により算出された確率分布に基づいて、複数(例えばM個)の教師ラベルを取得する。さらに、拡張学習データ生成部140は、特徴量ごとのM個の教師ラベルの中から特徴量ごとに1つの教師ラベルを選択して組み合わせ、拡張学習データを生成する。
The teacher
本発明の情報処理装置10によって生成される学習モデルと、非特許文献の技術によって生成される学習モデルとの違いを、図7および8を用いて説明する。図7は、本発明の情報処理装置10によって生成される学習モデルの一例を示す図である。また、図8は、非特許文献の技術によって生成される学習モデルの一例を示す図である。なお、ここでは5つの特徴量(特徴量1〜5)別に3つのラベル(ラベラ1〜3)がそれぞれ与えられた場合が例示されている。
The difference between the learning model generated by the
非特許文献の技術では、5つの特徴量と、該5つの特徴量それぞれに付与される3つのラベルの平均値を用いて、図8において破線で示されるような回帰モデルが学習される。非特許文献の技術では、特徴量ごとに与えられたラベルのばらつきが考慮されていない。そのため、非特許文献の技術によって学習された回帰モデルを用いて認識対象データに付与すべきラベルを推定した場合、図8に示されるように、推定されるラベルは特徴量3の部分で大きく外れる可能性がある。
In the technique of non-patent literature, a regression model as indicated by a broken line in FIG. 8 is learned using five feature amounts and an average value of three labels assigned to the five feature amounts. In the technique of non-patent literature, variations in labels given for each feature amount are not taken into consideration. Therefore, when the label to be added to the recognition target data is estimated using the regression model learned by the technique of non-patent literature, the estimated label is greatly deviated at the
一方、本発明の情報処理装置10では、上述の実施形態で説明したように、特徴量ごとに与えられたラベルのばらつきを考慮して生成された複数(ここでは、M=4)の学習データを基に、図7に示されるような複数の回帰モデル(推定値1〜4)が学習される。そして、複数の回帰モデルの統計(例えば、平均値や中間値など)を用いることにより、結果として、図7の太い破線で示されるような回帰モデル(統合推定値)を得ることができる。これにより、複数の本発明の情報処理装置10によれば、ラベルのばらつきが大きく推定が困難な特徴量(例えば、特徴量2)に関しては与えられたラベルの平均値からある程度のずれを許容し、ラベルのばらつきが小さく推定が容易な特徴量(例えば、特徴量3)に関しては与えられたラベルの平均値からのずれを小さくする学習モデルが生成される。すなわち、未知の認識対象データの推定精度を向上させた学習モデルを生成することができる。
On the other hand, in the
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。 In the plurality of flowcharts used in the above description, a plurality of steps (processes) are described in order, but the execution order of the steps executed in each embodiment is not limited to the description order. In each embodiment, the order of the illustrated steps can be changed within a range that does not hinder the contents. Moreover, each above-mentioned embodiment can be combined in the range in which the content does not conflict.
以下、参考形態の例を付記する。
1.複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段と、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段と、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段と、
を有する情報処理装置。
2.前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する教師ラベル取得手段をさらに備え、
前記拡張学習データ生成手段は、前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する、
1.に記載の情報処理装置。
3.特徴量別に生成された前記複数の学習データに基づいて、複数の学習モデルを生成する拡張学習モデル生成手段をさらに有する、
1.または2.に記載の情報処理装置。
4.前記拡張学習モデル生成手段は、
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する、
3.に記載の情報処理装置。
5.未知の認識対象データを取得する認識データ取得手段と、
前記複数の学習モデルを用いて前記認識対象データのラベルを推定するラベル推定手段と、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別するラベル判別手段をさらに有する、
3.または4.に記載の情報処理装置。
6.コンピュータが、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付け、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出し、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する、
ことを含む情報処理方法。
7.前記コンピュータが、
前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得し、
前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する、
ことを含む6.に記載の情報処理方法。
8.前記コンピュータが、
特徴量別に生成された前記複数の学習データに基づいて、複数の学習モデルを生成する、
ことを含む6.または7.に記載の情報処理方法。
9.前記コンピュータが、
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する、
ことを含む8.に記載の情報処理方法。
10.前記コンピュータが、
未知の認識対象データを取得し、
前記複数の学習モデルを用いて前記認識対象データのラベルを推定し、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別する、
ことを含む8.または9.に記載の情報処理方法。
11.コンピュータを、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段、
として機能させるためのプログラム。
12.前記コンピュータを、
前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する教師ラベル取得手段としてさらに機能させ、
前記コンピュータに、
前記拡張学習データ生成手段において、前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する手順を実行させるための、
11.に記載のプログラム。
13.前記コンピュータを、
特徴量別に生成された前記複数の学習データに基づいて、複数の学習モデルを生成する拡張学習モデル生成手段、
としてさらに機能させるための11.または12.に記載のプログラム。
14.前記コンピュータに、
前記拡張学習モデル生成手段において、
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する手順を実行させるための、
13.に記載のプログラム。
15.前記コンピュータを、
未知の認識対象データを取得する認識データ取得手段、
前記複数の学習モデルを用いて前記認識対象データのラベルを推定するラベル推定手段、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別するラベル判別手段、
として更に機能させるための13.または14.に記載のプログラム。
Hereinafter, examples of the reference form will be added.
1. Input data receiving means for receiving a plurality of feature quantities and a plurality of labels respectively assigned to the feature quantities;
Label distribution calculating means for calculating a probability distribution of a label for each feature quantity from a plurality of labels assigned to each feature quantity;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing apparatus.
2. Based on the probability distribution of the label for each feature amount, further comprising a teacher label acquisition means for acquiring a plurality of teacher labels for each feature amount,
The extended learning data generation means combines the feature amount and each of a plurality of teacher labels acquired for the feature amount, and generates a plurality of learning data for each feature amount.
1. The information processing apparatus described in 1.
3. An extended learning model generating means for generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
1. Or 2. The information processing apparatus described in 1.
4). The extended learning model generation means includes
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To generate M learning models,
3. The information processing apparatus described in 1.
5. Recognition data acquisition means for acquiring unknown recognition target data;
Label estimation means for estimating a label of the recognition target data using the plurality of learning models;
Further comprising label discriminating means for discriminating a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models.
3. Or 4. The information processing apparatus described in 1.
6). Computer
Receiving a plurality of feature amounts and a plurality of labels assigned to each feature amount,
From the plurality of labels assigned to each feature amount, calculate the probability distribution of the label for each feature amount,
Generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Information processing method including the above.
7). The computer is
Based on the probability distribution of the label for each feature amount, obtain a plurality of teacher labels for each feature amount,
Combining the feature quantity and each of a plurality of teacher labels acquired for the feature quantity, and generating a plurality of learning data for each feature quantity;
Including. Information processing method described in 1.
8). The computer is
Generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
Including. Or 7. Information processing method described in 1.
9. The computer is
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To generate M learning models,
Including Information processing method described in 1.
10. The computer is
Get unknown recognition target data,
Estimating a label of the recognition target data using the plurality of learning models,
Determining a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models;
Including Or 9. Information processing method described in 1.
11. Computer
Input data receiving means for receiving a plurality of feature amounts and a plurality of labels respectively assigned to the feature amounts;
Label distribution calculating means for calculating a probability distribution of a label for each feature amount from a plurality of labels assigned to each feature amount;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Program to function as.
12 The computer,
Based on the probability distribution of the label for each feature amount, further function as a teacher label acquisition means for acquiring a plurality of teacher labels for each feature amount,
In the computer,
In the extended learning data generating means, the feature amount and each of a plurality of teacher labels acquired for the feature amount are combined, and a procedure for generating a plurality of learning data for each feature amount is executed.
11. The program described in.
13. The computer,
Extended learning model generation means for generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
To further function as Or 12. The program described in.
14 In the computer,
In the extended learning model generation means,
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To execute the procedure of generating M learning models using
13. The program described in.
15. The computer,
Recognition data acquisition means for acquiring unknown recognition target data;
Label estimation means for estimating a label of the recognition target data using the plurality of learning models,
Label discriminating means for discriminating a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models;
13 for further functioning as Or 14. The program described in.
10 情報処理装置
11 CPU
12 メモリ
13 入出力I/F
14 通信装置
15 バス
110 入力データ受付部
120 ラベル分布算出部
130 教師ラベル取得部
140 拡張学習データ生成部
142 拡張学習データ記憶部
150 拡張学習モデル生成部
152 拡張学習モデル記憶部
160 認識データ取得部
170 ラベル推定部
180 ラベル判別部
10
12
14
Claims (7)
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段と、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段と、
を有する情報処理装置。 Input data receiving means for receiving a plurality of feature quantities and a plurality of labels respectively assigned to the feature quantities;
Label distribution calculating means for calculating a probability distribution of a label for each feature quantity from a plurality of labels assigned to each feature quantity;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing apparatus.
前記拡張学習データ生成手段は、前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する、
請求項1に記載の情報処理装置。 Based on the probability distribution of the label for each feature amount, further comprising a teacher label acquisition means for acquiring a plurality of teacher labels for each feature amount,
The extended learning data generation means combines the feature amount and each of a plurality of teacher labels acquired for the feature amount, and generates a plurality of learning data for each feature amount.
The information processing apparatus according to claim 1.
請求項1または2に記載の情報処理装置。 An extended learning model generating means for generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
The information processing apparatus according to claim 1 or 2.
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する、
請求項3に記載の情報処理装置。 The extended learning model generation means includes
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To generate M learning models,
The information processing apparatus according to claim 3.
前記複数の学習モデルを用いて前記認識対象データのラベルを推定するラベル推定手段と、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別するラベル判別手段をさらに有する、
請求項3または4に記載の情報処理装置。 Recognition data acquisition means for acquiring unknown recognition target data;
Label estimation means for estimating a label of the recognition target data using the plurality of learning models;
Further comprising label discriminating means for discriminating a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models.
The information processing apparatus according to claim 3 or 4.
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付け、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出し、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する、
ことを含む情報処理方法。 Computer
Receiving a plurality of feature amounts and a plurality of labels assigned to each feature amount,
From the plurality of labels assigned to each feature amount, calculate the probability distribution of the label for each feature amount,
Generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Information processing method including the above.
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段、
として機能させるためのプログラム。 Computer
Input data receiving means for receiving a plurality of feature amounts and a plurality of labels respectively assigned to the feature amounts;
Label distribution calculating means for calculating a probability distribution of a label for each feature amount from a plurality of labels assigned to each feature amount;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014049694A JP2015176175A (en) | 2014-03-13 | 2014-03-13 | Information processing apparatus, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014049694A JP2015176175A (en) | 2014-03-13 | 2014-03-13 | Information processing apparatus, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015176175A true JP2015176175A (en) | 2015-10-05 |
Family
ID=54255373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014049694A Pending JP2015176175A (en) | 2014-03-13 | 2014-03-13 | Information processing apparatus, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015176175A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019083491A (en) * | 2017-10-31 | 2019-05-30 | 日本電信電話株式会社 | Code amount estimation device and code amount estimation program |
JP2019191908A (en) * | 2018-04-25 | 2019-10-31 | 田中 成典 | Object recognition device |
JP2020034998A (en) * | 2018-08-27 | 2020-03-05 | 日本電信電話株式会社 | Expansion device, expansion method and expansion program |
WO2020183705A1 (en) * | 2019-03-14 | 2020-09-17 | 日本電気株式会社 | Generation method, learning data generator, and program |
US10891516B2 (en) | 2018-03-13 | 2021-01-12 | Fujitsu Limited | Non-transitory computer-readable recording medium, learning method, and learning apparatus |
JPWO2019215780A1 (en) * | 2018-05-07 | 2021-05-20 | 日本電気株式会社 | Identification system, model re-learning method and program |
JP2021526687A (en) * | 2018-06-01 | 2021-10-07 | エヌティーティー セキュリティー コーポレイション | Ensemble-based data curation pipeline for efficient label propagation |
WO2022202456A1 (en) * | 2021-03-22 | 2022-09-29 | 株式会社日立製作所 | Appearance inspection method and appearance inspection system |
JP2022546571A (en) * | 2019-09-06 | 2022-11-04 | アメリカン エキスプレス トラヴェル リレイテッド サーヴィシーズ カンパニー, インコーポレイテッド | Generate training data for machine learning models |
WO2023166747A1 (en) * | 2022-03-04 | 2023-09-07 | 日本電信電話株式会社 | Training data generation device, training data generation method, and program |
JP7469337B2 (en) | 2019-06-18 | 2024-04-16 | テトラ ラバル ホールディングス アンド ファイナンス エス エイ | Detection of deviations in packaging containers for liquid foods |
-
2014
- 2014-03-13 JP JP2014049694A patent/JP2015176175A/en active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019083491A (en) * | 2017-10-31 | 2019-05-30 | 日本電信電話株式会社 | Code amount estimation device and code amount estimation program |
US10891516B2 (en) | 2018-03-13 | 2021-01-12 | Fujitsu Limited | Non-transitory computer-readable recording medium, learning method, and learning apparatus |
JP2019191908A (en) * | 2018-04-25 | 2019-10-31 | 田中 成典 | Object recognition device |
JP7204087B2 (en) | 2018-04-25 | 2023-01-16 | 成典 田中 | Object recognition device |
US11423647B2 (en) | 2018-05-07 | 2022-08-23 | Nec Corporation | Identification system, model re-learning method and program |
JPWO2019215780A1 (en) * | 2018-05-07 | 2021-05-20 | 日本電気株式会社 | Identification system, model re-learning method and program |
JP7001150B2 (en) | 2018-05-07 | 2022-01-19 | 日本電気株式会社 | Identification system, model re-learning method and program |
JP7382350B2 (en) | 2018-06-01 | 2023-11-16 | エヌティーティー セキュリティー コーポレイション | Ensemble-based data curation pipeline for efficient label propagation |
JP2021526687A (en) * | 2018-06-01 | 2021-10-07 | エヌティーティー セキュリティー コーポレイション | Ensemble-based data curation pipeline for efficient label propagation |
JP2020034998A (en) * | 2018-08-27 | 2020-03-05 | 日本電信電話株式会社 | Expansion device, expansion method and expansion program |
JP7014100B2 (en) | 2018-08-27 | 2022-02-01 | 日本電信電話株式会社 | Expansion equipment, expansion method and expansion program |
JP7107431B2 (en) | 2019-03-14 | 2022-07-27 | 日本電気株式会社 | GENERATION METHOD, LEARNING DATA GENERATOR AND PROGRAM |
JPWO2020183705A1 (en) * | 2019-03-14 | 2021-11-04 | 日本電気株式会社 | Generation method, learning data generator and program |
WO2020183705A1 (en) * | 2019-03-14 | 2020-09-17 | 日本電気株式会社 | Generation method, learning data generator, and program |
US11935277B2 (en) | 2019-03-14 | 2024-03-19 | Nec Corporation | Generation method, training data generation device and program |
JP7469337B2 (en) | 2019-06-18 | 2024-04-16 | テトラ ラバル ホールディングス アンド ファイナンス エス エイ | Detection of deviations in packaging containers for liquid foods |
JP2022546571A (en) * | 2019-09-06 | 2022-11-04 | アメリカン エキスプレス トラヴェル リレイテッド サーヴィシーズ カンパニー, インコーポレイテッド | Generate training data for machine learning models |
JP7391190B2 (en) | 2019-09-06 | 2023-12-04 | アメリカン エキスプレス トラヴェル リレイテッド サーヴィシーズ カンパニー, インコーポレイテッド | Generating training data for machine learning models |
WO2022202456A1 (en) * | 2021-03-22 | 2022-09-29 | 株式会社日立製作所 | Appearance inspection method and appearance inspection system |
WO2023166747A1 (en) * | 2022-03-04 | 2023-09-07 | 日本電信電話株式会社 | Training data generation device, training data generation method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015176175A (en) | Information processing apparatus, information processing method and program | |
CN109063920B (en) | Transaction risk identification method and device and computer equipment | |
EP3479377B1 (en) | Speech recognition | |
US9972341B2 (en) | Apparatus and method for emotion recognition | |
US9928831B2 (en) | Speech data recognition method, apparatus, and server for distinguishing regional accent | |
KR102128926B1 (en) | Method and device for processing audio information | |
CN107194430B (en) | Sample screening method and device and electronic equipment | |
CN109447156B (en) | Method and apparatus for generating a model | |
US11620474B2 (en) | Model reselection for accommodating unsatisfactory training data | |
US20160365088A1 (en) | Voice command response accuracy | |
US20170193987A1 (en) | Speech recognition method and device | |
US10592606B2 (en) | System and method for detecting portability of sentiment analysis system based on changes in a sentiment confidence score distribution | |
JP7058574B2 (en) | Information processing equipment, information processing methods, and programs | |
JPWO2019162990A1 (en) | Learning device, voice section detection device, and voice section detection method | |
US20150255090A1 (en) | Method and apparatus for detecting speech segment | |
CN113360711A (en) | Model training and executing method, device, equipment and medium for video understanding task | |
US20220172086A1 (en) | System and method for providing unsupervised model health monitoring | |
JP2017151933A (en) | Data classifier, data classification method, and program | |
KR101565143B1 (en) | Feature Weighting Apparatus for User Utterance Information Classification in Dialogue System and Method of the Same | |
JP5793228B1 (en) | Defect number prediction apparatus and defect number prediction program | |
CN111373391B (en) | Language processing device, language processing system, and language processing method | |
CN113035238B (en) | Audio evaluation method, device, electronic equipment and medium | |
US20210248847A1 (en) | Storage medium storing anomaly detection program, anomaly detection method, and anomaly detection apparatus | |
US11989626B2 (en) | Generating performance predictions with uncertainty intervals | |
JP2011221873A (en) | Data classification method, apparatus and program |