JP2015176175A - Information processing apparatus, information processing method and program - Google Patents

Information processing apparatus, information processing method and program Download PDF

Info

Publication number
JP2015176175A
JP2015176175A JP2014049694A JP2014049694A JP2015176175A JP 2015176175 A JP2015176175 A JP 2015176175A JP 2014049694 A JP2014049694 A JP 2014049694A JP 2014049694 A JP2014049694 A JP 2014049694A JP 2015176175 A JP2015176175 A JP 2015176175A
Authority
JP
Japan
Prior art keywords
feature amount
label
labels
feature
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014049694A
Other languages
Japanese (ja)
Inventor
祥史 大西
Yoshifumi Onishi
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014049694A priority Critical patent/JP2015176175A/en
Publication of JP2015176175A publication Critical patent/JP2015176175A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a technique capable of improving a performance of a learning model used in a recognition device.SOLUTION: An information processing apparatus 10 comprises: an input data reception part 110 which receives a plurality of feature quantities and a plurality of labels given to the respective feature quantities; a label distribution calculation part 120 which calculates the probability distribution of labels for each feature quantity from the plurality of labels given to the respective feature quantities; and an enlargement learning data generation part 140 which generates a plurality of pieces of learning data for each feature quantity on the basis of the feature quantities and the probability distribution of labels for each feature quantity.

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、認識器の学習データの生成に適用可能な情報処理装置、情報処理方法、およびプログラムに関する。   The present invention relates to an information processing device, an information processing method, and a program, and more particularly, to an information processing device, an information processing method, and a program that can be applied to generation of learning data of a recognizer.

近年、入力データから抽出される特徴量に基づいて入力データの評価値や評価カテゴリといった意味付け(ラベル)を推定し、未知の入力データを認識する認識器に関する研究が広く行われている。例えば、音声データから抽出される特徴量に基づいて、感情の種類や感情の程度などを推定する感情認識器などが研究されている。   In recent years, research on recognizers that recognize unknown input data by estimating meanings (labels) such as evaluation values and evaluation categories of input data based on feature values extracted from input data has been widely performed. For example, an emotion recognizer that estimates the type of emotion, the level of emotion, and the like based on feature amounts extracted from speech data has been studied.

このような認識器に関する技術の一例が、下記の非特許文献に開示されている。非特許文献1または2には、特徴量ごとに付与された複数のラベルの平均値を各特徴量の教師ラベルとして算出し、複数の特徴量の各々とその特徴量に関して算出された教師ラベルとを組み合わせて特徴量ごとに1つの学習データを生成し、特徴量毎に生成された学習データに基づいて未知の入力データのラベルを認識する学習モデル(認識器)を生成する手法が開示されている。   An example of a technique related to such a recognizer is disclosed in the following non-patent document. Non-Patent Document 1 or 2 calculates an average value of a plurality of labels assigned to each feature amount as a teacher label for each feature amount, and each of the plurality of feature amounts and a teacher label calculated for the feature amount A method for generating learning data (recognition device) that recognizes a label of unknown input data based on learning data generated for each feature amount by generating one learning data for each feature amount by combining Yes.

M. Grimm, K. Kroschel and S. Narayanan, "SUPPORT VECTOR REGRESSION FOR AUTOMATIC RECOGNITION OF SPONTANEOUS EMOTIONS IN SPEECH," Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on. IEEE, 2007. p. IV-1085-IV-1088.M. Grimm, K. Kroschel and S. Narayanan, "SUPPORT VECTOR REGRESSION FOR AUTOMATIC RECOGNITION OF SPONTANEOUS EMOTIONS IN SPEECH," Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on. IEEE, 2007. p. IV -1085-IV-1088. F. Eyben, M. Wollmer and B. Schuller, "openEAR ? Introducing the Munich Open-Source Emotion and Affect Recognition Toolkit," Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on. IEEE, 2009. p. 1-6.F. Eyben, M. Wollmer and B. Schuller, "openEAR? Introducing the Munich Open-Source Emotion and Affect Recognition Toolkit," Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on. IEEE, 2009. p. 1-6.

学習モデルを生成する際、一般的に、特徴量ごとに付与されるラベルとしては人による評価値が用いられる。そのため、特に推定が困難な特徴量に関しては、付与されるラベルがばらつくことがある。しかしながら、上述の各非特許文献に開示されている手法では、教師ラベルを生成する際に、各特徴量に付与される複数のラベルのばらつきが考慮されていない。すなわち、上述の各非特許文献では、ラベルのばらつきが大きく推定が困難な特徴量もラベルのばらつきが少なく推定が容易な特徴量も一律に取り扱われているため、学習モデルの性能が十分に得られない可能性がある。   When generating a learning model, generally, a human evaluation value is used as a label assigned to each feature amount. For this reason, the labels to be given may vary, particularly for feature quantities that are difficult to estimate. However, in the methods disclosed in each of the above-mentioned non-patent documents, variations in a plurality of labels given to each feature amount are not taken into consideration when generating a teacher label. In other words, in each of the above-mentioned non-patent documents, feature quantities that are difficult to estimate due to large label variations are uniformly handled as feature quantities that are easy to estimate with little label variation. It may not be possible.

本発明の目的は、認識器などで用いられる学習モデルの性能を向上させ得る技術を提供することにある。   An object of the present invention is to provide a technique capable of improving the performance of a learning model used in a recognizer or the like.

本発明によれば、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段と、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段と、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段と、
を有する情報処理装置が提供される。
According to the present invention,
Input data receiving means for receiving a plurality of feature quantities and a plurality of labels respectively assigned to the feature quantities;
Label distribution calculating means for calculating a probability distribution of a label for each feature quantity from a plurality of labels assigned to each feature quantity;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing apparatus is provided.

本発明によれば、
コンピュータが、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付け、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出し、
前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得し、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する、
ことを含む情報処理方法が提供される。
According to the present invention,
Computer
Receiving a plurality of feature amounts and a plurality of labels assigned to each feature amount,
From the plurality of labels assigned to each feature amount, calculate the probability distribution of the label for each feature amount,
Based on the probability distribution of the label for each feature amount, obtain a plurality of teacher labels for each feature amount,
Generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing method including the above is provided.

本発明によれば、
コンピュータを、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段、
として機能させるためのプログラムが提供される。
According to the present invention,
Computer
Input data receiving means for receiving a plurality of feature amounts and a plurality of labels respectively assigned to the feature amounts;
Label distribution calculating means for calculating a probability distribution of a label for each feature amount from a plurality of labels assigned to each feature amount;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
A program for functioning as a server is provided.

本発明によれば、認識器などで用いられる学習モデルの性能を向上させ得る技術が提供される。   ADVANTAGE OF THE INVENTION According to this invention, the technique which can improve the performance of the learning model used with a recognizer etc. is provided.

第1実施形態における情報処理装置の処理構成を概念的に示すブロック図である。It is a block diagram which shows notionally the processing composition of the information processor in a 1st embodiment. ラベル分布算出部により算出されるラベルの確率分布の一例を示す図である。It is a figure which shows an example of the probability distribution of the label calculated by the label distribution calculation part. 情報処理装置のハードウェア構成を概念的に示す図である。It is a figure which shows notionally the hardware constitutions of information processing apparatus. 第1実施形態における情報処理装置の処理の流れを示すフローチャート図である。It is a flowchart figure which shows the flow of a process of the information processing apparatus in 1st Embodiment. 第2実施形態における情報処理装置の処理構成を概念的に示すブロック図である。It is a block diagram which shows notionally the processing structure of the information processing apparatus in 2nd Embodiment. 第2実施形態における情報処理装置の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the information processing apparatus in 2nd Embodiment. 本発明の情報処理装置によって生成される学習モデルの一例を示す図である。It is a figure which shows an example of the learning model produced | generated by the information processing apparatus of this invention. 非特許文献の技術によって生成される学習モデルの一例を示す図である。It is a figure which shows an example of the learning model produced | generated by the technique of a nonpatent literature.

以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.

[第1実施形態]
〔処理構成〕
図1は、第1実施形態における情報処理装置10の処理構成を概念的に示すブロック図である。図1において、情報処理装置10は、入力データ受付部110と、ラベル分布算出部120と、教師ラベル取得部130と、拡張学習データ生成部140と、を有する。
[First Embodiment]
[Processing configuration]
FIG. 1 is a block diagram conceptually showing the processing configuration of the information processing apparatus 10 in the first embodiment. In FIG. 1, the information processing apparatus 10 includes an input data receiving unit 110, a label distribution calculation unit 120, a teacher label acquisition unit 130, and an extended learning data generation unit 140.

入力データ受付部110は、複数の特徴量と、特徴量ごとにそれぞれ付与される複数のラベルを入力データとして受け付ける。ここで、「特徴量」とは入力データを特徴化するベクトルなどを意味する。また、「ラベル」とは入力データとして受け付けた特徴量に応じた評価値や評価カテゴリなどを意味する。入力データ受付部110は、複数の特徴量および特徴量ごとに付与される複数のラベルを、例えば、図示しないキーボードなどの入力装置を介して受け付ける。なお、入力データ受付部110が複数の特徴量および特徴量ごとに付与される複数のラベルを受け付ける方法はこれに制限されない。   The input data receiving unit 110 receives, as input data, a plurality of feature amounts and a plurality of labels provided for each feature amount. Here, the “feature amount” means a vector or the like that characterizes input data. The “label” means an evaluation value or an evaluation category according to the feature amount received as input data. The input data receiving unit 110 receives a plurality of feature amounts and a plurality of labels assigned to the feature amounts, for example, via an input device such as a keyboard (not shown). Note that the method in which the input data receiving unit 110 receives a plurality of feature amounts and a plurality of labels given for each feature amount is not limited thereto.

ラベル分布算出部120は、入力データ受付部110で受け付けた、特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出する。ラベル分布算出部120は、例えば、ガウス分布や多項分布を仮定して最尤推定法によりラベルの確率分布を算出する。また、ラベル分布算出部120は、ガウス分布や多項分布以外の分布を仮定して、ラベルの確率分布を算出してもよい。あるいは、ラベル分布算出部120は、確率分布の関数を仮定せずにヒストグラムなどを用いて、ラベルの確率分布を算出してもよい。   The label distribution calculation unit 120 calculates the probability distribution of the label for each feature amount from the plurality of labels each received for each feature amount received by the input data reception unit 110. For example, the label distribution calculation unit 120 calculates a probability distribution of labels by a maximum likelihood estimation method assuming a Gaussian distribution or a multinomial distribution. Further, the label distribution calculation unit 120 may calculate a probability distribution of labels assuming a distribution other than a Gaussian distribution or a multinomial distribution. Alternatively, the label distribution calculation unit 120 may calculate the probability distribution of a label using a histogram or the like without assuming a probability distribution function.

拡張学習データ生成部140は、ラベル分布算出部120で算出された特徴量別のラベルの確率分布に基づいて、特徴量ごとに複数の学習データ(拡張学習データ)を生成する。例えば、本実施形態の拡張学習データ生成部140は、各特徴量と、後述の教師ラベル取得部130で取得される特徴量別の複数の教師ラベルとに基づいて複数の学習データを生成する。ここで、「学習データ」とは、後述の学習モデルを生成するために用いられるデータであり、複数の特徴量と該特徴量に関するラベルとの対応関係を示し得るデータである。   The extended learning data generation unit 140 generates a plurality of learning data (extended learning data) for each feature amount based on the probability distribution of the label for each feature amount calculated by the label distribution calculation unit 120. For example, the extended learning data generation unit 140 according to the present embodiment generates a plurality of learning data based on each feature amount and a plurality of teacher labels for each feature amount acquired by a teacher label acquisition unit 130 described later. Here, “learning data” is data used to generate a learning model, which will be described later, and is data that can indicate the correspondence between a plurality of feature amounts and labels relating to the feature amounts.

教師ラベル取得部130は、特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する。具体的には、教師ラベルとして取得され得るラベルは複数存在しており、教師ラベル取得部130がその各々のラベルを各特徴量に関する教師ラベルとして取得する確率は、各特徴量に関するラベルの確率分布に従う。すなわち、特徴量別のラベルの確率分布において、確率密度の濃い部分に該当するラベルが教師ラベルとして選択されやすくなる。なお、教師ラベル取得部130は、例えば、取得する教師ラベルの個数に関する入力を図示しないキーボードなどの入力装置を介して受け付ける。そして、教師ラベル取得部130は、各特徴量に関するラベルの確率分布に従って、入力された個数分の教師ラベルを各特徴量に対してそれぞれ取得する。   The teacher label acquisition unit 130 acquires a plurality of teacher labels for each feature amount based on the probability distribution of the label for each feature amount. Specifically, there are a plurality of labels that can be acquired as teacher labels, and the probability that the teacher label acquisition unit 130 acquires each label as a teacher label for each feature amount is the probability distribution of the label for each feature amount. Follow. That is, in the probability distribution of the feature-specific labels, a label corresponding to a portion having a high probability density is easily selected as a teacher label. Note that the teacher label acquisition unit 130 receives, for example, an input related to the number of teacher labels to be acquired via an input device such as a keyboard (not shown). Then, the teacher label acquisition unit 130 acquires the input number of teacher labels for each feature amount according to the probability distribution of the labels related to each feature amount.

また、「教師ラベル」は入力データ受付部110で受け付けた各特徴量に対して付与される代表的なラベルであって、サポートベクター回帰やサポートベクターマシンなどにより学習モデルを生成する際に用いられる情報である。ここで、教師ラベル取得部130によって取得される教師ラベルは、ラベル分布算出部120で算出された確率分布に依存する。これを、図2を用いて説明する。図2は、ラベル分布算出部120により算出されるラベルの確率分布の一例を示す図である。   The “teacher label” is a representative label given to each feature received by the input data receiving unit 110, and is used when a learning model is generated by support vector regression, a support vector machine, or the like. Information. Here, the teacher label acquired by the teacher label acquisition unit 130 depends on the probability distribution calculated by the label distribution calculation unit 120. This will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of a probability distribution of labels calculated by the label distribution calculation unit 120.

図2(a)に示されるようなラベルの確率分布が算出される特徴量は、ラベルのばらつきが大きくラベルの推定が困難な特徴量であると言える。一方で、図2(b)に示されるようなラベルの確率分布が算出される特徴量は、ラベルのばらつきが小さくラベルの推定が容易な特徴量であると言える。このような確率分布を用いることにより、教師ラベル取得部130は特徴量ごとのラベルの推定の困難さを加味して教師ラベルを選択することができる。   It can be said that the feature quantity for which the probability distribution of the label as shown in FIG. 2A is calculated is a feature quantity that has a large label variation and is difficult to estimate the label. On the other hand, it can be said that the feature quantity for which the probability distribution of the label as shown in FIG. 2B is calculated is a feature quantity that is easy to estimate the label with little variation in the label. By using such a probability distribution, the teacher label acquisition unit 130 can select a teacher label in consideration of the difficulty in estimating a label for each feature amount.

教師ラベル取得部130は、例えば、下記非特許文献3に詳細が記載されている棄却サンプリング法などを用いて教師ラベルを生成する。この場合、図2(b)のラベルの確率分布を示す特徴量よりも、図2(a)のラベルの確率分布を示す特徴量の方が、教師ラベル取得部130によって選択される複数の教師ラベルにばらつきが大きくなる。すなわち、図2(a)に示されるようなラベルの確率分布を示す特徴量に関しては、教師ラベル取得部130は入力データ受付部110で受け付けた複数のラベルの平均値からのずれをある程度許容して複数の教師ラベルを取得することができる。また、図2(b)に示されるようなラベルの確率分布を示す特徴量に関しては、教師ラベル取得部130は入力データ受付部110で受け付けた複数のラベルの平均値からのずれを図2(a)よりも小さくして複数の教師ラベルを取得することができる。
C.M. Bishop, "Pattern Recognition and Machine Learning", Springer, 2006 (11.1.2節)
The teacher label acquisition unit 130 generates a teacher label using, for example, a rejection sampling method described in detail in Non-Patent Document 3 below. In this case, the feature quantity indicating the probability distribution of the label in FIG. 2A is more than the feature quantity indicating the probability distribution of the label in FIG. Variations in labels increase. That is, with respect to the feature quantity indicating the probability distribution of the label as shown in FIG. 2A, the teacher label acquisition unit 130 allows a certain amount of deviation from the average value of the plurality of labels received by the input data reception unit 110. Multiple teacher labels can be obtained. In addition, regarding the feature quantity indicating the probability distribution of the label as shown in FIG. 2B, the teacher label acquisition unit 130 shows the deviation from the average value of the plurality of labels received by the input data reception unit 110 in FIG. It is possible to obtain a plurality of teacher labels smaller than a).
CM Bishop, "Pattern Recognition and Machine Learning", Springer, 2006 (Section 11.1.2)

そして、拡張学習データ生成部140は、入力データ受付部110で受け付けた各特徴量と、各特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量ごとに複数の学習データを生成する。また、拡張学習データ生成部140は、生成した複数の学習データを拡張学習データ記憶部142に記憶する。なお、図1において拡張学習データ記憶部142が情報処理装置10に備えられている例が示されているが、拡張学習データ記憶部142は情報処理装置10と通信可能に接続された他の装置に備えられていてもよい。   Then, the extended learning data generation unit 140 combines each feature amount received by the input data reception unit 110 and each of a plurality of teacher labels acquired for each feature amount, and generates a plurality of learning data for each feature amount. To do. The extended learning data generation unit 140 stores the generated plurality of learning data in the extended learning data storage unit 142. In addition, although the example in which the extended learning data storage unit 142 is provided in the information processing apparatus 10 is shown in FIG. 1, the extended learning data storage unit 142 is connected to the information processing apparatus 10 so as to be communicable. May be provided.

〔ハードウェア構成〕
図3は、情報処理装置10のハードウェア構成を概念的に示す図である。情報処理装置10は、例えば、バス15で相互に接続される、CPU11、メモリ12、入出力インタフェース(I/F)13、通信装置14等を有する。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク等である。通信装置14は、他のコンピュータや機器と通信を行う。通信装置14には、可搬型記録媒体等も接続され得る。
[Hardware configuration]
FIG. 3 is a diagram conceptually illustrating the hardware configuration of the information processing apparatus 10. The information processing apparatus 10 includes, for example, a CPU 11, a memory 12, an input / output interface (I / F) 13, a communication apparatus 14, and the like that are connected to each other via a bus 15. The memory 12 is a RAM (Random Access Memory), a ROM (Read Only Memory), a hard disk, or the like. The communication device 14 communicates with other computers and devices. A portable recording medium or the like can be connected to the communication device 14.

入出力I/F13は、表示装置や入力装置などのユーザインタフェース装置(図示せず)と接続可能である。表示装置は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)ディスプレイのような、CPU11や図示しないGPU(Graphics Processing Unit)等により処理された描画データに対応する画面を表示する装置である。入力装置は、キーボードやマウス等のようなユーザからの入力を受け付ける装置である。   The input / output I / F 13 can be connected to a user interface device (not shown) such as a display device or an input device. The display device is a device such as an LCD (Liquid Crystal Display) or a CRT (Cathode Ray Tube) display that displays a screen corresponding to drawing data processed by the CPU 11 or a GPU (Graphics Processing Unit) (not shown). The input device is a device that receives input from a user such as a keyboard and a mouse.

先に説明した情報処理装置10の各処理部は、例えば、CPU11によってメモリ12に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)やメモリカード等のような可搬型記録媒体、あるいはネットワーク上の他のコンピュータから通信装置14等を介してインストールされ、メモリ12に格納されてもよい。なお、情報処理装置10のハードウェア構成は図3に示される例に制限されない。   Each processing unit of the information processing apparatus 10 described above is realized, for example, by executing a program stored in the memory 12 by the CPU 11. Further, the program may be installed from a portable recording medium such as a CD (Compact Disc) or a memory card, or from another computer on the network via the communication device 14 and stored in the memory 12. Good. The hardware configuration of the information processing apparatus 10 is not limited to the example illustrated in FIG.

〔動作例〕
図4を用いて、本実施形態における情報処理装置10の動作例を説明する。図4は、第1実施形態における情報処理装置10の処理の流れを示すフローチャート図である。
[Operation example]
An operation example of the information processing apparatus 10 according to the present embodiment will be described with reference to FIG. FIG. 4 is a flowchart showing a process flow of the information processing apparatus 10 in the first embodiment.

入力データ受付部110は、複数の特徴量と特徴量ごとにそれぞれ付与される複数のラベルとを入力データとして受け付ける(S102)。ラベル分布算出部120は、S102で取得した特徴量ごとの複数のラベルから、特徴量別のラベルの確率分布を算出する(S104)。ラベル分布算出部120は、例えば、ガウス分布や多項分布などを仮定して最尤推定によりラベルの確率分布を算出する。そして、教師ラベル取得部130は、S104で算出された特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する(S106)。そして、拡張学習データ生成部140は、S102で受け付けた各特徴量と、各特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量ごとに複数の学習データ(拡張学習データ)を生成する(S108)。そして、拡張学習データ生成部140は、S108で生成した拡張学習データを拡張学習データ記憶部142に記憶する。   The input data receiving unit 110 receives, as input data, a plurality of feature amounts and a plurality of labels assigned to the respective feature amounts (S102). The label distribution calculation unit 120 calculates the probability distribution of the label for each feature amount from the plurality of labels for each feature amount acquired in S102 (S104). For example, the label distribution calculation unit 120 calculates the probability distribution of the label by maximum likelihood estimation assuming a Gaussian distribution, a multinomial distribution, or the like. Then, the teacher label acquisition unit 130 acquires a plurality of teacher labels for each feature amount based on the probability distribution of the label for each feature amount calculated in S104 (S106). Then, the extended learning data generation unit 140 combines each feature quantity received in S102 and each of a plurality of teacher labels acquired for each feature quantity, and obtains a plurality of learning data (extended learning data) for each feature quantity. Generate (S108). Then, the extended learning data generation unit 140 stores the extended learning data generated in S108 in the extended learning data storage unit 142.

〔第1実施形態の作用と効果〕
以上、本実施形態では、特徴量ごと付与される複数のラベルから、特徴量別のラベルの確率分布(ラベルのばらつき)が算出される。そして、算出された特徴量別の確率分布に基づいて、特徴量別に複数の教師ラベルが取得される。そして、各々の特徴量と、各々の特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量ごとに複数の学習データ(拡張学習データ)が生成される。
[Operation and Effect of First Embodiment]
As described above, in the present embodiment, the probability distribution (label variation) of the label for each feature amount is calculated from the plurality of labels given for each feature amount. Then, based on the calculated probability distribution for each feature amount, a plurality of teacher labels are acquired for each feature amount. Each feature amount is combined with each of a plurality of teacher labels acquired for each feature amount, and a plurality of learning data (extended learning data) is generated for each feature amount.

以上、本実施形態によれば、特徴量ごとに付与されるラベルのばらつき、すなわち、各特徴量の推定の困難さを考慮した複数の学習データ(拡張学習データ)を生成することができる。詳細には、付与されるラベルのばらつきが大きい特徴量、すなわち、推定が困難な特徴量に関しては、特徴量ごとに与えられた複数のラベルの平均値からのずれをある程度許容して、拡張学習データが生成される。また、付与されるラベルのばらつきが小さい特徴量、すなわち、推定が容易な特徴量に関しては、特徴量ごとに与えられた複数のラベルの平均値からのずれの小さい拡張学習データが生成される。ここで、非特許文献の技術のように、人の判断を基に入力される複数のラベルの平均値を1つの教師ラベルとして用いる場合、この教師ラベルと人の判断に基づく複数のラベルとの乖離度合が大きい学習データが作成され得る。一方、本発明では、特徴量ごとに付与された複数のラベルの確率分布に基づいて、様々なパターンの学習データ(拡張学習データ)が生成されるため、教師ラベルと人の判断に基づく複数のラベルとの乖離度合を小さくすることができる。つまり、本実施形態で生成されるような拡張学習データを用いることにより、学習モデルの推定精度を向上させることができる。   As described above, according to the present embodiment, it is possible to generate a plurality of learning data (extended learning data) in consideration of variations in labels given for each feature amount, that is, difficulty in estimating each feature amount. Specifically, for feature quantities with large variations in the labels given, that is, feature quantities that are difficult to estimate, extended learning is allowed by allowing some deviation from the average value of multiple labels given for each feature quantity. Data is generated. In addition, with respect to a feature amount with small variations in labels to be given, that is, a feature amount that can be easily estimated, extended learning data with a small deviation from the average value of a plurality of labels given for each feature amount is generated. Here, when the average value of a plurality of labels input based on human judgment is used as one teacher label, as in the technique of non-patent literature, the relationship between this teacher label and a plurality of labels based on human judgment is used. Learning data having a large degree of deviation can be created. On the other hand, in the present invention, various patterns of learning data (extended learning data) are generated based on the probability distribution of a plurality of labels assigned for each feature amount. The degree of deviation from the label can be reduced. That is, by using the extended learning data generated in the present embodiment, it is possible to improve the estimation accuracy of the learning model.

[第2実施形態]
本実施形態では、第1実施形態で生成された拡張学習データを用いて拡張学習モデルをと生成し、該生成された拡張学習モデルを用いて未知のデータに付与すべきラベルを判別する情報処理装置について説明する。
[Second Embodiment]
In the present embodiment, an extended learning model is generated using the extended learning data generated in the first embodiment, and information processing for determining a label to be added to unknown data using the generated extended learning model The apparatus will be described.

〔処理構成〕
図5は、第2実施形態における情報処理装置10の処理構成を概念的に示すブロック図である。本実施形態の情報処理装置10は、拡張学習モデル生成部150と、認識データ取得部160と、ラベル推定部170と、ラベル判別部180とをさらに有する。
[Processing configuration]
FIG. 5 is a block diagram conceptually showing the processing configuration of the information processing apparatus 10 in the second embodiment. The information processing apparatus 10 according to the present embodiment further includes an extended learning model generation unit 150, a recognition data acquisition unit 160, a label estimation unit 170, and a label determination unit 180.

拡張学習モデル生成部150は、拡張学習データ生成部140によって生成された複数の学習データ(拡張学習データ)に基づいて、複数の学習モデル(拡張学習モデル)を生成する。詳細には、拡張学習モデル生成部150は、例えば、サポートベクター回帰やサポートベクターマシンを用いて、拡張学習データ記憶部142に記憶された複数の学習データを基に複数の学習モデルを生成する。また、拡張学習モデル生成部150は、生成した複数の学習モデルを拡張学習モデル記憶部152に記憶する。なお、図1において拡張学習モデル記憶部152が情報処理装置10に備えられている例が示されているが、拡張学習モデル記憶部152は情報処理装置10と通信可能に接続された他の装置に備えられていてもよい。   The extended learning model generation unit 150 generates a plurality of learning models (extended learning models) based on the plurality of learning data (extended learning data) generated by the extended learning data generation unit 140. Specifically, the extended learning model generation unit 150 generates a plurality of learning models based on a plurality of learning data stored in the extended learning data storage unit 142 using, for example, support vector regression or a support vector machine. The extended learning model generation unit 150 stores the generated plurality of learning models in the extended learning model storage unit 152. 1 shows an example in which the extended learning model storage unit 152 is provided in the information processing device 10, but the extended learning model storage unit 152 is connected to the information processing device 10 so as to be communicable with other devices. May be provided.

また、拡張学習モデル生成部150は、特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとに1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデル(拡張学習モデル)を生成してもよい。具体的には、拡張学習モデル生成部150は、学習モデルを生成するために特徴量ごとに1つの学習データを選択する際、他の学習モデルの生成時に用いた学習データは除外する。このようにすることで、ラベル分布算出部120で算出される特徴量別のラベルの確率分布が精度よく反映された拡張学習モデルを生成することができる。また、教師ラベル取得部130によって取得される教師ラベルの数が多いほど、拡張学習モデル生成部150は精度の高い拡張学習モデルを生成することができる。   Further, the extended learning model generation unit 150 uniquely selects one learning data for each feature amount from M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and selects the selected learning data. M learning models (extended learning models) may be generated using the learning data for each feature amount. Specifically, the extended learning model generation unit 150 excludes learning data used when generating other learning models when selecting one learning data for each feature amount in order to generate a learning model. By doing in this way, the extended learning model in which the probability distribution of the label for each feature amount calculated by the label distribution calculation unit 120 is accurately reflected can be generated. Further, as the number of teacher labels acquired by the teacher label acquisition unit 130 increases, the extended learning model generation unit 150 can generate an extended learning model with higher accuracy.

認識データ取得部160は、ユーザの入力操作などにより、未知の認識対象データを取得する。   The recognition data acquisition unit 160 acquires unknown recognition target data by a user input operation or the like.

ラベル推定部170は、拡張学習モデル記憶部152に記憶された複数の学習モデルを用いて、認識データ取得部160で取得された認識対象データのラベルを推定する。ここで、ラベル推定部170は、拡張学習モデル記憶部152に記憶されている複数の学習モデルのうち少なくとも2つを用いて、認識対象データのラベルを少なくとも2つ推定する。ラベル推定部170が用いる学習モデルの個数は、例えば、ユーザからの入力などにより指定することができる。   The label estimation unit 170 estimates the label of the recognition target data acquired by the recognition data acquisition unit 160 using a plurality of learning models stored in the extended learning model storage unit 152. Here, the label estimation unit 170 estimates at least two labels of recognition target data using at least two of the plurality of learning models stored in the extended learning model storage unit 152. The number of learning models used by the label estimation unit 170 can be specified by, for example, input from the user.

ラベル判別部180は、複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、認識データ取得部160で取得された認識対象データに付与すべきラベルを判別する。ラベル判別部180は、例えば、ラベル推定部170で推定された複数のラベルの平均値や中間値などを、認識対象データに付与すべきラベルと判別する。また、ラベル判別部180は、例えば、ラベル推定部170で推定された複数のラベルの多数決をとって、最も多く推定されたラベルを認識対象データに付与すべきラベルと判別してもよい。   The label discriminating unit 180 discriminates the label to be given to the recognition target data acquired by the recognition data acquiring unit 160 based on the statistics of the plurality of labels estimated using the plurality of learning models. The label determination unit 180 determines, for example, the average value or intermediate value of a plurality of labels estimated by the label estimation unit 170 as a label to be added to the recognition target data. Further, the label discriminating unit 180 may discriminate the most presumed label as the label to be added to the recognition target data by, for example, taking a majority vote of a plurality of labels estimated by the label estimating unit 170.

〔動作例〕
図6を用いて、本実施形態における情報処理装置10の動作例を説明する。図6は、第2実施形態における情報処理装置10の処理の流れを示すフローチャートである。
[Operation example]
An example of the operation of the information processing apparatus 10 according to this embodiment will be described with reference to FIG. FIG. 6 is a flowchart showing the flow of processing of the information processing apparatus 10 in the second embodiment.

認識データ取得部160は、例えば、ユーザの入力操作などにより、認識対象データを取得する(S202)。そして、ラベル推定部170は、拡張学習モデル記憶部152に記憶されている複数の学習モデル(拡張学習モデル)を用いて、認識対象データのラベルを推定する(S204)。ここで、ラベル推定部170は、拡張学習モデル記憶部152に記憶されている複数の学習モデルのうち少なくとも2つの学習モデルを用いて、認識対象データのラベルを少なくとも2つ推定する。そして、ラベル判別部180は、S204で複数の学習モデルを用いて推定された複数のラベルから、認識対象データに付与すべきラベルを判別する(S206)。詳細には、ラベル判別部180は、S204で推定されたラベルの平均値、中間値または推定されたラベルの多数決などにより、認識対象データに付与すべきラベルを判別する。   The recognition data acquisition unit 160 acquires the recognition target data by, for example, a user input operation (S202). Then, the label estimation unit 170 estimates the label of the recognition target data using a plurality of learning models (extended learning models) stored in the extended learning model storage unit 152 (S204). Here, the label estimation unit 170 estimates at least two labels of the recognition target data using at least two learning models among a plurality of learning models stored in the extended learning model storage unit 152. Then, the label determination unit 180 determines the label to be added to the recognition target data from the plurality of labels estimated using the plurality of learning models in S204 (S206). Specifically, the label determination unit 180 determines a label to be added to the recognition target data based on the average value of the label estimated in S204, the intermediate value, or the majority of the estimated labels.

〔第2実施形態の作用と効果〕
以上、本実施形態では、第1実施形態で生成された、特徴量ごとに付与された複数のラベルの確率分布に基づく様々なパターンの学習データを用いて複数の学習モデル(拡張学習モデル)が生成される。そして、この複数の学習モデルにより推定されたラベルを統合し、認識対象データに付与すべきラベルが判別される。すなわち、ラベルの確率分布に基づく様々なパターンを反映した学習モデルによって未知の認識対象データに付与すべきラベルが判別されるため、本実施形態によれば、未知の認識対象データに付与すべきラベルの判別精度の向上が見込める。
[Operation and Effect of Second Embodiment]
As described above, in the present embodiment, a plurality of learning models (extended learning models) are generated using the learning data of various patterns based on the probability distribution of the plurality of labels given for each feature amount generated in the first embodiment. Generated. Then, the labels estimated by the plurality of learning models are integrated, and the label to be added to the recognition target data is determined. That is, since a label to be given to unknown recognition target data is determined by a learning model reflecting various patterns based on the probability distribution of labels, according to the present embodiment, a label to be given to unknown recognition target data Can be improved.

以下に実施例を挙げ、上述の各実施形態を更に詳細に説明する。本発明は以下の実施例から何ら限定を受けない。   Examples will be given below to describe the above-described embodiments in more detail. The present invention is not limited in any way by the following examples.

入力データ受付部110は、例えば、音声データの韻律や音量などの特徴量や、画像データにエッジ処理などを施して得られる特徴量を受け付ける。また、入力データ受付部110は、受け付けた特徴量に対応して、人の判断によって付与された複数のラベルを受け付ける。   The input data receiving unit 110 receives, for example, feature quantities such as prosody and volume of audio data, and feature quantities obtained by performing edge processing on image data. Further, the input data receiving unit 110 receives a plurality of labels given by human judgment corresponding to the received feature amount.

ラベル分布算出部120は、入力データ受付部110が受け付けた特徴量別の複数のラベルから、特徴量別のラベルの確率分布を算出する。ラベル分布算出部120は、例えば、ガウス分布や多項分布を仮定して最尤推定により分布を推定する。   The label distribution calculating unit 120 calculates the probability distribution of the labels for each feature amount from the plurality of labels for each feature amount received by the input data receiving unit 110. For example, the label distribution calculation unit 120 estimates a distribution by maximum likelihood estimation assuming a Gaussian distribution or a multinomial distribution.

教師ラベル取得部130は、ラベル分布算出部120により算出された確率分布に基づいて、複数(例えばM個)の教師ラベルを取得する。さらに、拡張学習データ生成部140は、特徴量ごとのM個の教師ラベルの中から特徴量ごとに1つの教師ラベルを選択して組み合わせ、拡張学習データを生成する。   The teacher label acquisition unit 130 acquires a plurality of (for example, M) teacher labels based on the probability distribution calculated by the label distribution calculation unit 120. Furthermore, the extended learning data generation unit 140 selects and combines one teacher label for each feature amount from among M teacher labels for each feature amount, and generates extended learning data.

本発明の情報処理装置10によって生成される学習モデルと、非特許文献の技術によって生成される学習モデルとの違いを、図7および8を用いて説明する。図7は、本発明の情報処理装置10によって生成される学習モデルの一例を示す図である。また、図8は、非特許文献の技術によって生成される学習モデルの一例を示す図である。なお、ここでは5つの特徴量(特徴量1〜5)別に3つのラベル(ラベラ1〜3)がそれぞれ与えられた場合が例示されている。   The difference between the learning model generated by the information processing apparatus 10 of the present invention and the learning model generated by the technique of non-patent literature will be described with reference to FIGS. FIG. 7 is a diagram illustrating an example of a learning model generated by the information processing apparatus 10 according to the present invention. Moreover, FIG. 8 is a figure which shows an example of the learning model produced | generated by the technique of a nonpatent literature. Here, a case where three labels (labelers 1 to 3) are provided for each of five feature amounts (feature amounts 1 to 5) is illustrated.

非特許文献の技術では、5つの特徴量と、該5つの特徴量それぞれに付与される3つのラベルの平均値を用いて、図8において破線で示されるような回帰モデルが学習される。非特許文献の技術では、特徴量ごとに与えられたラベルのばらつきが考慮されていない。そのため、非特許文献の技術によって学習された回帰モデルを用いて認識対象データに付与すべきラベルを推定した場合、図8に示されるように、推定されるラベルは特徴量3の部分で大きく外れる可能性がある。   In the technique of non-patent literature, a regression model as indicated by a broken line in FIG. 8 is learned using five feature amounts and an average value of three labels assigned to the five feature amounts. In the technique of non-patent literature, variations in labels given for each feature amount are not taken into consideration. Therefore, when the label to be added to the recognition target data is estimated using the regression model learned by the technique of non-patent literature, the estimated label is greatly deviated at the feature amount 3 as shown in FIG. there is a possibility.

一方、本発明の情報処理装置10では、上述の実施形態で説明したように、特徴量ごとに与えられたラベルのばらつきを考慮して生成された複数(ここでは、M=4)の学習データを基に、図7に示されるような複数の回帰モデル(推定値1〜4)が学習される。そして、複数の回帰モデルの統計(例えば、平均値や中間値など)を用いることにより、結果として、図7の太い破線で示されるような回帰モデル(統合推定値)を得ることができる。これにより、複数の本発明の情報処理装置10によれば、ラベルのばらつきが大きく推定が困難な特徴量(例えば、特徴量2)に関しては与えられたラベルの平均値からある程度のずれを許容し、ラベルのばらつきが小さく推定が容易な特徴量(例えば、特徴量3)に関しては与えられたラベルの平均値からのずれを小さくする学習モデルが生成される。すなわち、未知の認識対象データの推定精度を向上させた学習モデルを生成することができる。   On the other hand, in the information processing apparatus 10 of the present invention, as described in the above-described embodiment, a plurality of (in this case, M = 4) learning data generated in consideration of variations in labels given for each feature amount. Based on this, a plurality of regression models (estimated values 1 to 4) as shown in FIG. 7 are learned. Then, by using statistics of a plurality of regression models (for example, average values, intermediate values, etc.), a regression model (integrated estimated value) as shown by a thick broken line in FIG. 7 can be obtained as a result. As a result, according to the plurality of information processing apparatuses 10 of the present invention, a certain amount of deviation from the average value of the given label is allowed for a feature amount (for example, feature amount 2) that has a large variation in labels and is difficult to estimate. With respect to a feature quantity (for example, feature quantity 3) that has a small label variation and is easy to estimate, a learning model is generated that reduces the deviation from the average value of the given label. That is, it is possible to generate a learning model with improved estimation accuracy of unknown recognition target data.

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。   As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.

また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。   In the plurality of flowcharts used in the above description, a plurality of steps (processes) are described in order, but the execution order of the steps executed in each embodiment is not limited to the description order. In each embodiment, the order of the illustrated steps can be changed within a range that does not hinder the contents. Moreover, each above-mentioned embodiment can be combined in the range in which the content does not conflict.

以下、参考形態の例を付記する。
1.複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段と、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段と、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段と、
を有する情報処理装置。
2.前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する教師ラベル取得手段をさらに備え、
前記拡張学習データ生成手段は、前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する、
1.に記載の情報処理装置。
3.特徴量別に生成された前記複数の学習データに基づいて、複数の学習モデルを生成する拡張学習モデル生成手段をさらに有する、
1.または2.に記載の情報処理装置。
4.前記拡張学習モデル生成手段は、
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する、
3.に記載の情報処理装置。
5.未知の認識対象データを取得する認識データ取得手段と、
前記複数の学習モデルを用いて前記認識対象データのラベルを推定するラベル推定手段と、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別するラベル判別手段をさらに有する、
3.または4.に記載の情報処理装置。
6.コンピュータが、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付け、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出し、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する、
ことを含む情報処理方法。
7.前記コンピュータが、
前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得し、
前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する、
ことを含む6.に記載の情報処理方法。
8.前記コンピュータが、
特徴量別に生成された前記複数の学習データに基づいて、複数の学習モデルを生成する、
ことを含む6.または7.に記載の情報処理方法。
9.前記コンピュータが、
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する、
ことを含む8.に記載の情報処理方法。
10.前記コンピュータが、
未知の認識対象データを取得し、
前記複数の学習モデルを用いて前記認識対象データのラベルを推定し、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別する、
ことを含む8.または9.に記載の情報処理方法。
11.コンピュータを、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段、
として機能させるためのプログラム。
12.前記コンピュータを、
前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する教師ラベル取得手段としてさらに機能させ、
前記コンピュータに、
前記拡張学習データ生成手段において、前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する手順を実行させるための、
11.に記載のプログラム。
13.前記コンピュータを、
特徴量別に生成された前記複数の学習データに基づいて、複数の学習モデルを生成する拡張学習モデル生成手段、
としてさらに機能させるための11.または12.に記載のプログラム。
14.前記コンピュータに、
前記拡張学習モデル生成手段において、
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する手順を実行させるための、
13.に記載のプログラム。
15.前記コンピュータを、
未知の認識対象データを取得する認識データ取得手段、
前記複数の学習モデルを用いて前記認識対象データのラベルを推定するラベル推定手段、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別するラベル判別手段、
として更に機能させるための13.または14.に記載のプログラム。
Hereinafter, examples of the reference form will be added.
1. Input data receiving means for receiving a plurality of feature quantities and a plurality of labels respectively assigned to the feature quantities;
Label distribution calculating means for calculating a probability distribution of a label for each feature quantity from a plurality of labels assigned to each feature quantity;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing apparatus.
2. Based on the probability distribution of the label for each feature amount, further comprising a teacher label acquisition means for acquiring a plurality of teacher labels for each feature amount,
The extended learning data generation means combines the feature amount and each of a plurality of teacher labels acquired for the feature amount, and generates a plurality of learning data for each feature amount.
1. The information processing apparatus described in 1.
3. An extended learning model generating means for generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
1. Or 2. The information processing apparatus described in 1.
4). The extended learning model generation means includes
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To generate M learning models,
3. The information processing apparatus described in 1.
5. Recognition data acquisition means for acquiring unknown recognition target data;
Label estimation means for estimating a label of the recognition target data using the plurality of learning models;
Further comprising label discriminating means for discriminating a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models.
3. Or 4. The information processing apparatus described in 1.
6). Computer
Receiving a plurality of feature amounts and a plurality of labels assigned to each feature amount,
From the plurality of labels assigned to each feature amount, calculate the probability distribution of the label for each feature amount,
Generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Information processing method including the above.
7). The computer is
Based on the probability distribution of the label for each feature amount, obtain a plurality of teacher labels for each feature amount,
Combining the feature quantity and each of a plurality of teacher labels acquired for the feature quantity, and generating a plurality of learning data for each feature quantity;
Including. Information processing method described in 1.
8). The computer is
Generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
Including. Or 7. Information processing method described in 1.
9. The computer is
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To generate M learning models,
Including Information processing method described in 1.
10. The computer is
Get unknown recognition target data,
Estimating a label of the recognition target data using the plurality of learning models,
Determining a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models;
Including Or 9. Information processing method described in 1.
11. Computer
Input data receiving means for receiving a plurality of feature amounts and a plurality of labels respectively assigned to the feature amounts;
Label distribution calculating means for calculating a probability distribution of a label for each feature amount from a plurality of labels assigned to each feature amount;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Program to function as.
12 The computer,
Based on the probability distribution of the label for each feature amount, further function as a teacher label acquisition means for acquiring a plurality of teacher labels for each feature amount,
In the computer,
In the extended learning data generating means, the feature amount and each of a plurality of teacher labels acquired for the feature amount are combined, and a procedure for generating a plurality of learning data for each feature amount is executed.
11. The program described in.
13. The computer,
Extended learning model generation means for generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
To further function as Or 12. The program described in.
14 In the computer,
In the extended learning model generation means,
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To execute the procedure of generating M learning models using
13. The program described in.
15. The computer,
Recognition data acquisition means for acquiring unknown recognition target data;
Label estimation means for estimating a label of the recognition target data using the plurality of learning models,
Label discriminating means for discriminating a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models;
13 for further functioning as Or 14. The program described in.

10 情報処理装置
11 CPU
12 メモリ
13 入出力I/F
14 通信装置
15 バス
110 入力データ受付部
120 ラベル分布算出部
130 教師ラベル取得部
140 拡張学習データ生成部
142 拡張学習データ記憶部
150 拡張学習モデル生成部
152 拡張学習モデル記憶部
160 認識データ取得部
170 ラベル推定部
180 ラベル判別部
10 Information processing apparatus 11 CPU
12 Memory 13 Input / output I / F
14 Communication device 15 Bus 110 Input data reception unit 120 Label distribution calculation unit 130 Teacher label acquisition unit 140 Extended learning data generation unit 142 Extended learning data storage unit 150 Extended learning model generation unit 152 Extended learning model storage unit 160 Recognition data acquisition unit 170 Label estimation unit 180 Label discrimination unit

Claims (7)

複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段と、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段と、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段と、
を有する情報処理装置。
Input data receiving means for receiving a plurality of feature quantities and a plurality of labels respectively assigned to the feature quantities;
Label distribution calculating means for calculating a probability distribution of a label for each feature quantity from a plurality of labels assigned to each feature quantity;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
An information processing apparatus.
前記特徴量別のラベルの確率分布に基づいて、特徴量別に複数の教師ラベルを取得する教師ラベル取得手段をさらに備え、
前記拡張学習データ生成手段は、前記特徴量と、該特徴量に関して取得された複数の教師ラベルの各々とを組み合わせ、特徴量別に複数の学習データを生成する、
請求項1に記載の情報処理装置。
Based on the probability distribution of the label for each feature amount, further comprising a teacher label acquisition means for acquiring a plurality of teacher labels for each feature amount,
The extended learning data generation means combines the feature amount and each of a plurality of teacher labels acquired for the feature amount, and generates a plurality of learning data for each feature amount.
The information processing apparatus according to claim 1.
特徴量別に生成された前記複数の学習データに基づいて、複数の学習モデルを生成する拡張学習モデル生成手段をさらに有する、
請求項1または2に記載の情報処理装置。
An extended learning model generating means for generating a plurality of learning models based on the plurality of learning data generated for each feature amount;
The information processing apparatus according to claim 1 or 2.
前記拡張学習モデル生成手段は、
特徴量ごとにそれぞれ生成されたM個(Mは2以上の整数)の学習データの中から特徴量ごとにそれぞれ1つの学習データをユニークに選択し、該選択された特徴量ごとの学習データを用いてM個の学習モデルを生成する、
請求項3に記載の情報処理装置。
The extended learning model generation means includes
One learning data is uniquely selected for each feature amount from among M pieces of learning data (M is an integer of 2 or more) generated for each feature amount, and learning data for each selected feature amount is selected. To generate M learning models,
The information processing apparatus according to claim 3.
未知の認識対象データを取得する認識データ取得手段と、
前記複数の学習モデルを用いて前記認識対象データのラベルを推定するラベル推定手段と、
前記複数の学習モデルを用いて推定された複数のラベルの統計に基づいて、前記認識対象データに付与すべきラベルを判別するラベル判別手段をさらに有する、
請求項3または4に記載の情報処理装置。
Recognition data acquisition means for acquiring unknown recognition target data;
Label estimation means for estimating a label of the recognition target data using the plurality of learning models;
Further comprising label discriminating means for discriminating a label to be given to the recognition target data based on statistics of a plurality of labels estimated using the plurality of learning models.
The information processing apparatus according to claim 3 or 4.
コンピュータが、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付け、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出し、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する、
ことを含む情報処理方法。
Computer
Receiving a plurality of feature amounts and a plurality of labels assigned to each feature amount,
From the plurality of labels assigned to each feature amount, calculate the probability distribution of the label for each feature amount,
Generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Information processing method including the above.
コンピュータを、
複数の特徴量と、該特徴量ごとにそれぞれ付与される複数のラベルとを受け付ける入力データ受付手段、
前記特徴量ごとにそれぞれ付与される複数のラベルから、特徴量別のラベルの確率分布を算出するラベル分布算出手段、
前記特徴量と前記特徴量別のラベルの確率分布とに基づいて、特徴量別に複数の学習データを生成する拡張学習データ生成手段、
として機能させるためのプログラム。
Computer
Input data receiving means for receiving a plurality of feature amounts and a plurality of labels respectively assigned to the feature amounts;
Label distribution calculating means for calculating a probability distribution of a label for each feature amount from a plurality of labels assigned to each feature amount;
Extended learning data generating means for generating a plurality of learning data for each feature amount based on the feature amount and the probability distribution of the label for each feature amount;
Program to function as.
JP2014049694A 2014-03-13 2014-03-13 Information processing apparatus, information processing method and program Pending JP2015176175A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014049694A JP2015176175A (en) 2014-03-13 2014-03-13 Information processing apparatus, information processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014049694A JP2015176175A (en) 2014-03-13 2014-03-13 Information processing apparatus, information processing method and program

Publications (1)

Publication Number Publication Date
JP2015176175A true JP2015176175A (en) 2015-10-05

Family

ID=54255373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014049694A Pending JP2015176175A (en) 2014-03-13 2014-03-13 Information processing apparatus, information processing method and program

Country Status (1)

Country Link
JP (1) JP2015176175A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019083491A (en) * 2017-10-31 2019-05-30 日本電信電話株式会社 Code amount estimation device and code amount estimation program
JP2019191908A (en) * 2018-04-25 2019-10-31 田中 成典 Object recognition device
JP2020034998A (en) * 2018-08-27 2020-03-05 日本電信電話株式会社 Expansion device, expansion method and expansion program
WO2020183705A1 (en) * 2019-03-14 2020-09-17 日本電気株式会社 Generation method, learning data generator, and program
US10891516B2 (en) 2018-03-13 2021-01-12 Fujitsu Limited Non-transitory computer-readable recording medium, learning method, and learning apparatus
JPWO2019215780A1 (en) * 2018-05-07 2021-05-20 日本電気株式会社 Identification system, model re-learning method and program
JP2021526687A (en) * 2018-06-01 2021-10-07 エヌティーティー セキュリティー コーポレイション Ensemble-based data curation pipeline for efficient label propagation
WO2022202456A1 (en) * 2021-03-22 2022-09-29 株式会社日立製作所 Appearance inspection method and appearance inspection system
JP2022546571A (en) * 2019-09-06 2022-11-04 アメリカン エキスプレス トラヴェル リレイテッド サーヴィシーズ カンパニー, インコーポレイテッド Generate training data for machine learning models
WO2023166747A1 (en) * 2022-03-04 2023-09-07 日本電信電話株式会社 Training data generation device, training data generation method, and program
JP7469337B2 (en) 2019-06-18 2024-04-16 テトラ ラバル ホールディングス アンド ファイナンス エス エイ Detection of deviations in packaging containers for liquid foods

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019083491A (en) * 2017-10-31 2019-05-30 日本電信電話株式会社 Code amount estimation device and code amount estimation program
US10891516B2 (en) 2018-03-13 2021-01-12 Fujitsu Limited Non-transitory computer-readable recording medium, learning method, and learning apparatus
JP2019191908A (en) * 2018-04-25 2019-10-31 田中 成典 Object recognition device
JP7204087B2 (en) 2018-04-25 2023-01-16 成典 田中 Object recognition device
US11423647B2 (en) 2018-05-07 2022-08-23 Nec Corporation Identification system, model re-learning method and program
JPWO2019215780A1 (en) * 2018-05-07 2021-05-20 日本電気株式会社 Identification system, model re-learning method and program
JP7001150B2 (en) 2018-05-07 2022-01-19 日本電気株式会社 Identification system, model re-learning method and program
JP7382350B2 (en) 2018-06-01 2023-11-16 エヌティーティー セキュリティー コーポレイション Ensemble-based data curation pipeline for efficient label propagation
JP2021526687A (en) * 2018-06-01 2021-10-07 エヌティーティー セキュリティー コーポレイション Ensemble-based data curation pipeline for efficient label propagation
JP2020034998A (en) * 2018-08-27 2020-03-05 日本電信電話株式会社 Expansion device, expansion method and expansion program
JP7014100B2 (en) 2018-08-27 2022-02-01 日本電信電話株式会社 Expansion equipment, expansion method and expansion program
JP7107431B2 (en) 2019-03-14 2022-07-27 日本電気株式会社 GENERATION METHOD, LEARNING DATA GENERATOR AND PROGRAM
JPWO2020183705A1 (en) * 2019-03-14 2021-11-04 日本電気株式会社 Generation method, learning data generator and program
WO2020183705A1 (en) * 2019-03-14 2020-09-17 日本電気株式会社 Generation method, learning data generator, and program
US11935277B2 (en) 2019-03-14 2024-03-19 Nec Corporation Generation method, training data generation device and program
JP7469337B2 (en) 2019-06-18 2024-04-16 テトラ ラバル ホールディングス アンド ファイナンス エス エイ Detection of deviations in packaging containers for liquid foods
JP2022546571A (en) * 2019-09-06 2022-11-04 アメリカン エキスプレス トラヴェル リレイテッド サーヴィシーズ カンパニー, インコーポレイテッド Generate training data for machine learning models
JP7391190B2 (en) 2019-09-06 2023-12-04 アメリカン エキスプレス トラヴェル リレイテッド サーヴィシーズ カンパニー, インコーポレイテッド Generating training data for machine learning models
WO2022202456A1 (en) * 2021-03-22 2022-09-29 株式会社日立製作所 Appearance inspection method and appearance inspection system
WO2023166747A1 (en) * 2022-03-04 2023-09-07 日本電信電話株式会社 Training data generation device, training data generation method, and program

Similar Documents

Publication Publication Date Title
JP2015176175A (en) Information processing apparatus, information processing method and program
CN109063920B (en) Transaction risk identification method and device and computer equipment
EP3479377B1 (en) Speech recognition
US9972341B2 (en) Apparatus and method for emotion recognition
US9928831B2 (en) Speech data recognition method, apparatus, and server for distinguishing regional accent
KR102128926B1 (en) Method and device for processing audio information
CN107194430B (en) Sample screening method and device and electronic equipment
CN109447156B (en) Method and apparatus for generating a model
US11620474B2 (en) Model reselection for accommodating unsatisfactory training data
US20160365088A1 (en) Voice command response accuracy
US20170193987A1 (en) Speech recognition method and device
US10592606B2 (en) System and method for detecting portability of sentiment analysis system based on changes in a sentiment confidence score distribution
JP7058574B2 (en) Information processing equipment, information processing methods, and programs
JPWO2019162990A1 (en) Learning device, voice section detection device, and voice section detection method
US20150255090A1 (en) Method and apparatus for detecting speech segment
CN113360711A (en) Model training and executing method, device, equipment and medium for video understanding task
US20220172086A1 (en) System and method for providing unsupervised model health monitoring
JP2017151933A (en) Data classifier, data classification method, and program
KR101565143B1 (en) Feature Weighting Apparatus for User Utterance Information Classification in Dialogue System and Method of the Same
JP5793228B1 (en) Defect number prediction apparatus and defect number prediction program
CN111373391B (en) Language processing device, language processing system, and language processing method
CN113035238B (en) Audio evaluation method, device, electronic equipment and medium
US20210248847A1 (en) Storage medium storing anomaly detection program, anomaly detection method, and anomaly detection apparatus
US11989626B2 (en) Generating performance predictions with uncertainty intervals
JP2011221873A (en) Data classification method, apparatus and program