JP7333496B2

JP7333496B2 - ラベリングプログラム、ラベリング装置及びラベリング方法

Info

Publication number: JP7333496B2
Application number: JP2019125734A
Authority: JP
Inventors: 強福趙; 洋一富岡; 溢シン胡
Original assignee: Alpine Electronics Inc; University of Aizu
Current assignee: Alpine Electronics Inc; University of Aizu
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2023-08-25
Anticipated expiration: 2039-07-05
Also published as: JP2021012494A

Description

本発明は、ラベリングプログラム、ラベリング装置及びラベリング方法に関する。

近年、盛んに研究が行われている機械学習は、人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の有効性を高めるために必要なコアテクノロジーである。そして、このような機械学習の中には、データの正解情報（以下、ラベルとも呼ぶ）が対応付けられた学習データ（以下、ラベル付き学習データとも呼ぶ）を用いる教師あり学習がある。

上記のような教師あり学習を行う場合、作業者は、一般的に、多数のラベル付き学習データを予め用意する必要がある。そのため、作業者は、例えば、教師あり学習を行う前に、多数の学習データのそれぞれに対して適切なラベルを対応付ける作業（以下、ラベリングとも呼ぶ）を行い、多数のラベル付き学習データを予め生成する。そして、作業者は、生成したラベル付き学習データを用いることによって教師あり学習を行う（非特許文献１を参照）。

Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer, 2009.

しかしながら、上記のようなラベリングを作業者が人手によって行う場合、作業者の作業負担が膨大になるだけでなく、ラベル付き学習データの品質保証が困難になる。また、例えば、クラウドソーシング等を利用してラベリングを行う場合、これによるコストが高くなる。

そこで、本発明の目的は、ラベリングを効率的に行うことを可能とするラベリングプログラム、ラベリング装置及びラベリング方法を提供することにある。

上記目的を達成するための本発明におけるラベリングプログラムは、第１記憶部に記憶した複数の学習データのうち、第１データ数の学習データを取り出して出力し、出力した前記第１データ数の学習データを前記第１記憶部から削除し、出力した前記第１データ数の学習データのそれぞれに対応するラベルとしてユーザが決定した前記第１データ数のラベルの入力に応じて、前記第１データ数の学習データのそれぞれに前記ラベルを対応付けた前記第１データ数のラベル付き学習データを生成し、生成した前記第１データ数のラベル付き学習データを第２記憶部に蓄積し、前記第２記憶部に蓄積した前記第１データ数のラベル付き学習データを学習することによって第１モデルを生成し、前記第１記憶部に記憶した複数の学習データから、第２データ数の学習データを取り出し、取り出した前記第２データ数の学習データと、取り出した前記第２データ数の学習データの入力に伴って前記第１モデルから出力される前記第２データ数のラベルとを出力し、出力した前記第２データ数のラベルに対し、前記第２データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第２データ数のラベルの入力を受け付け、入力を受け付けた前記第２データ数のラベルを前記第２データ数の学習データのそれぞれに対応付けた前記第２データ数のラベル付き学習データを生成し、生成した前記第２データ数のラベル付き学習データを前記第２記憶部に蓄積する、処理をコンピュータに実行させることを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムは、さらに、前記第１モデルの認識能力を示す値に基づいて、前記第２データ数を特定する、ことを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムにおいて、一つの態様では、前記第１データ数の学習データと、前記第１データ数の学習データの入力に伴って前記第１モデルから出力された前記第１データ数のラベルとを出力し、出力した前記第１データ数の学習データのそれぞれについて、前記第１データ数のラベルのうちの各学習データに対応するラベルが正解のラベルであるとユーザによって判断されたか否かを示す正誤情報の入力を受け付け、入力を受け付けた前記正誤情報に基づいて、出力した前記第１データ数のラベルのうち、正解のラベルであるとユーザによって判断されなかったラベルの第１割合を算出し、算出した前記第１割合を前記第１モデルの認識能力を示す値として特定する、ことを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムにおいて、前記第２データ数を特定する処理では、前記第１データ数を前記第１割合で除算することによって、前記第２データ数を算出する、ことを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムにおいて、前記第２データ数を特定する処理では、各学習データに対応付けられるラベルが正解のラベルでない場合におけるユーザの第１作業時間と、前記第１割合との積である第１の値を算出し、各学習データに対応付けられるラベルが正解のラベルである場合におけるユーザの第２作業時間と、前記第１割合を１から減算して算出した値との積である第２の値を算出し、前記第１の値と前記第２の値との和と、前記第２データ数との積が所定の閾値以下になるように、前記第２データ数を算出する、ことを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムにおいて、前記第１作業時間は、各学習データに対応付けられるラベルのそれぞれが正解であるか否かをユーザが判定するために要する時間と、学習データに対応付けられたラベルのそれぞれをユーザが正解のラベルに変更するために要する時間との和であり、前記第２作業時間は、各学習データに対応付けられるラベルのそれぞれが正解であるか否かをユーザが判定するために要する時間である、ことを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムは、さらに、前記第２記憶部に記憶したラベル付き学習データを学習することによって第２モデルを生成し、前記第１記憶部に記憶した複数の学習データから、第３データ数の学習データを取り出し、取り出した前記第３データ数の学習データと、取り出した前記第３データ数の学習データの入力に伴って前記第２モデルから出力される前記第３データ数のラベルとを出力し、出力した前記第３データ数のラベルに対し、前記第３データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第３データ数のラベルの入力を受け付け、入力を受け付けた前記第３データ数のラベルを前記第３データ数の学習データのそれぞれに対応付けた前記第３データ数のラベル付き学習データを生成し、生成した前記第３データ数のラベル付き学習データを前記第２記憶部に蓄積する、処理をコンピュータに実行させることを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムは、さらに、前記第３データ数のラベル付き学習データを前記第２記憶部に蓄積する、処理をコンピュータに実行させることを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムにおいて、前記第２モデルを生成する処理と、前記第３データ数の学習データを取り出す処理と、前記第３データ数のラベルを出力する処理と、前記第３データ数のラベル付き学習データを生成する処理と、前記第３データ数のラベル付き学習データを蓄積する処理とを所定回数繰り返す、ことを特徴とする。

上記目的を達成するための本発明におけるラベリングプログラムにおいて、前記第１記憶部に記憶した複数の学習データの全てが取り出されるまで、前記第２モデルを生成する処理と、前記第３データ数の学習データを取り出す処理と、前記第３データ数のラベルを出力する処理と、前記第３データ数のラベル付き学習データを生成する処理と、前記第３データ数のラベル付き学習データを蓄積する処理とを繰り返す、ことを特徴とする。

また、上記目的を達成するための本発明におけるラベリング装置は、複数の学習データを記憶する第１記憶部と、前記複数の学習データのうち、第１データ数の学習データを取り出して出力し、出力した前記第１データ数の学習データを前記第１記憶部から削除する第１出力部と、出力した前記第１データ数の学習データのそれぞれに対応するラベルとしてユーザが決定した前記第１データ数のラベルの入力に応じて、前記第１データ数の学習データのそれぞれに前記ラベルを対応付けた前記第１データ数のラベル付き学習データを生成する第１データ生成部と、生成した前記第１データ数のラベル付き学習データを蓄積する第２記憶部と、前記第２記憶部に蓄積した前記第１データ数のラベル付き学習データを学習することによって第１モデルを生成するモデル生成部と、前記第１記憶部に記憶した複数の学習データから、第２データ数の学習データを取り出すデータ取出部と、取り出した前記第２データ数の学習データと、取り出した前記第２データ数の学習データの入力に伴って前記第１モデルから出力される前記第２データ数のラベルとを出力する第２出力部と、出力した前記第２データ数のラベルに対し、前記第２データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第２データ数のラベルの入力を受け付け、入力を受け付けた前記第２データ数のラベルを前記第２データ数の学習データのそれぞれに対応付けた前記第２データ数のラベル付き学習データを生成する第２データ生成部と、を有し、前記第２記憶部は、さらに、生成した前記第２データ数のラベル付き学習データを蓄積する、ことを特徴とする。

また、上記目的を達成するための本発明におけるラベリング方法は、第１記憶部に記憶した複数の学習データのうち、第１データ数の学習データを取り出して出力し、出力した前記第１データ数の学習データを前記第１記憶部から削除し、出力した前記第１データ数の学習データのそれぞれに対応するラベルとしてユーザが決定した前記第１データ数のラベルの入力に応じて、前記第１データ数の学習データのそれぞれに前記ラベルを対応付けた前記第１データ数のラベル付き学習データを生成し、生成した前記第１データ数のラベル付き学習データを第２記憶部に蓄積し、前記第２記憶部に蓄積した前記第１データ数のラベル付き学習データを学習することによって第１モデルを生成し、前記第１記憶部に記憶した複数の学習データから、第２データ数の学習データを取り出し、取り出した前記第２データ数の学習データと、取り出した前記第２データ数の学習データの入力に伴って前記第１モデルから出力される前記第２データ数のラベルとを出力し、出力した前記第２データ数のラベルに対し、前記第２データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第２データ数のラベルの入力を受け付け、入力を受け付けた前記第２データ数のラベルを前記第２データ数の学習データのそれぞれに対応付けた前記第２データ数のラベル付き学習データを生成し、生成した前記第２データ数のラベル付き学習データを前記第２記憶部に蓄積する、処理をコンピュータに実行させることを特徴とする。

本発明におけるラベリングプログラム、ラベリング装置及びラベリング方法によれば、ラベリングに伴う作業者の作業負担を軽減させることが可能になり、ラベリングによって生成されたラベル付き学習データの品質を保証することが可能になる。また、本発明におけるラベリングプログラム、ラベリング装置及びラベリング方法によれば、クラウドソーシング等を用いたラベル付け作業に伴うコストを抑えることが可能になる。

図１は、本発明の実施の形態におけるラベリング装置１の構成例を示す図である。図２は、第１の実施の形態におけるラベリング処理を説明するフローチャート図である。図３は、第１の実施の形態におけるラベリング処理を説明するフローチャート図である。図４は、第１の実施の形態におけるラベリング処理を説明する図である。図５は、第１の実施の形態におけるラベリング処理を説明する図である。図６は、第１の実施の形態におけるラベリング処理を説明する図である。図７は、第２の実施の形態におけるラベリング処理を説明するフローチャート図である。図８は、第２の実施の形態におけるラベリング処理を説明するフローチャート図である。図９は、第２の実施の形態におけるラベリング処理を説明する図である。図１０は、第２の実施の形態におけるラベリング処理を説明する図である。図１１は、第２の実施の形態におけるラベリング処理を説明する図である。

以下、図面を参照して本発明の実施の形態について説明する。しかしながら、かかる実施の形態例が、本発明の技術的範囲を限定するものではない。

図１は、本発明の実施の形態におけるラベリング装置１の構成例を示す図である。ラベリング装置１は、コンピュータ装置であって、汎用的なＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であってよい。また、ラベリング装置１は、据置型、ノードブック型、タブレット型等の形態を問わない。

ラベリング装置１は、汎用的なコンピュータ装置のハードウエア構成を有し、例えば、図１に示すように、プロセッサであるＣＰＵ１０１と、メモリ１０２と、ネットワークインタフェース１０３と、記憶媒体１０４とを有する。各部は、バス１０５を介して互いに接続される。

記憶媒体１０４は、例えば、学習データに対してラベリングを行う処理（以下、ラベリング処理とも呼ぶ）を行うためのプログラム（図示しない）を記憶するプログラム格納領域（図示しない）を有する。また、記憶媒体１０４は、例えば、ラベリング処理を行う際に用いられる情報を記憶する第１記憶部及び第２記憶部（以下、これらを総称して記憶領域１１０とも呼ぶ）を有する。なお、記憶媒体１０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｋｉｄＳｔａｔｅＤｒｉｖｅ）であってよい。

ＣＰＵ１０１は、記憶媒体１０４からメモリ１０２にロードされたプログラムを実行してラベリング処理を行う。

また、ネットワークインタフェース１０３は、例えば、作業者が操作を行う操作端末５と通信を行う。

［第１の実施の形態］
次に、第１の実施の形態について説明する。図２及び図３は、第１の実施の形態におけるラベリング処理を説明するフローチャート図である。また、図４から図６は、第１の実施の形態におけるラベリング処理を説明する図である。

ラベリング装置１は、ラベリング処理の開始タイミングになった場合、図２に示すように、各記憶領域の初期化処理を行う（Ｓ０１）。ラベリング処理の開始タイミングは、例えば、作業者が操作端末５を介してラベリング処理を開始する旨の入力を行ったタイミングである。

具体的に、ラベリング装置１は、Ｓ０１の処理において、ラベリングが行われていないオリジナルの学習データが含まれる学習データ群（以下、学習データ群Ｄとも呼ぶ）を記憶領域１１０に格納する。また、ラベリング装置１は、記憶領域１１０において、ラベリングが行われたラベル付き学習データが含まれる学習データ群（以下、学習データ群Ｔとも呼ぶ）を格納するための記憶領域を予め確保する。さらに、ラベリング装置１は、作業者がラベリングを行う学習データのデータ数ｎの入力を行ったことに応じて、データ数ｎを記憶領域１１０に記憶する。

続いて、ラベリング装置１は、学習データ群Ｄからｎ個の学習データを取り出して出力する（Ｓ０２）。具体的に、ラベリング装置１は、例えば、ランダムに取り出したｎ個のデータを操作端末５の出力装置（図示しない）に出力する。

これにより、作業者は、ラベリング装置１が出力したｎ個のデータに対して人手によるラベリングを行うことが可能になる。

次に、ラベリング装置１は、作業者がラベリングを行ったｎ個のラベル付き学習データの入力を受け付ける（Ｓ０３）。すなわち、ラベリング装置１は、Ｓ０２の処理で出力したｎ個のデータに対して作業者がラベリングを行ったｎ個のラベル付き学習データの入力を受け付ける。

その後、ラベリング装置１は、Ｓ０３の処理で入力を受け付けたｎ個のラベル付き学習データを学習データ群Ｔの少なくとも一部として記憶領域１１０に記憶する（Ｓ０４）。

そして、ラベリング装置１は、記憶領域１１０に記憶されたラベル付き学習データ群Ｔに含まれるラベル付き学習データを入力とすることによってモデルＭを生成する（Ｓ０５）。

すなわち、ラベリング装置１は、直前に行われたＳ０４の処理において記憶領域１１０に記憶したラベル付き学習データ群Ｔだけでなく、過去に行われたＳ０４の処理において記憶領域１１０に記憶したラベル付き学習データ群Ｔについても用いることにより、モデルＭの生成の学習を行う。

続いて、ラベリング装置１は、学習データ群Ｄから１個の学習データを取り出してモデルＭに入力する（Ｓ０６）。具体的に、ラベリング装置１は、Ｓ０２の処理または過去に行われたＳ０６の処理においてまだ取り出されていない学習データの中から、１個の学習データを取り出してモデルＭに入力する。

そして、ラベリング装置１は、図３に示すように、モデルＭから出力されたラベルと、Ｓ０６の処理で取り出した学習データとを出力する（Ｓ１１）。具体的に、ラベリング装置１は、例えば、モデルＭから出力されたラベルと、Ｓ０６の処理で取り出した学習データとを操作端末５の出力装置（図示しない）に出力する。

その後、ラベリング装置１は、作業者によって変更が行われたラベルの入力を受け付ける（Ｓ１２）。

すなわち、作業者は、Ｓ１１の処理において出力されたラベルがＳ１１の処理において出力された学習データに対応する正解のラベルであるか否かを判定する。そして、正解のラベルでないと判断した場合、作業者は、Ｓ１１の処理で出力したラベルをＳ１１の処理において出力した学習データに対応する正解のラベルに変更（修正）し、変更したラベルをラベリング装置１に入力する。

続いて、ラベリング装置１は、モデルＭから出力されたラベル（Ｓ１２の処理においてラベルの変更が行われた場合には変更後のラベル）を、Ｓ０６の処理において取り出した学習データ（Ｓ１１の処理において出力した学習データ）と対応付けることによって、ラベル付き学習データを生成する。そして、ラベリング装置１は、生成したラベル付き学習データを学習データ群Ｔの少なくとも一部として記憶領域１１０に記憶する（Ｓ１３）。

すなわち、ラベリング装置１は、正解のラベルが対応付けられたラベル付き学習データのみを生成して蓄積する。これにより、ラベリング装置１は、モデルＭの生成以外の用途についても用いることが可能なラベル付き学習データの蓄積を行うことが可能になる。

その後、ラベリング装置１は、Ｓ０６以降の処理の実行回数がｎ回に到達したか否かを判定する（Ｓ１４）。すなわち、ラベリング装置１は、Ｓ０５の処理が行われた後、ｎ個のラベル付き学習データの生成が行われたか否かを判定する。なお、ラベリング装置１は、Ｓ０６以降の処理の実行回数がｍ回（ｎ回と異なる回数）に到達したか否かについての判定を行うものであってもよい。

その結果、Ｓ０６以降の処理の実行回数がｎ回に到達したと判定した場合（Ｓ１４のＹＥＳ）、ラベリング装置１は、Ｓ０２及びＳ０６の処理において、学習データ群Ｄに含まれる全ての学習データを取り出したか否かを判定する（Ｓ１５）。

一方、Ｓ０６以降の処理の実行回数がｎ回に到達していないと判定した場合（Ｓ１４のＮＯ）、ラベリング装置１は、Ｓ０６以降の処理を再度行う。

そして、学習データＤに含まれる全ての学習データを取り出したと判定した場合（Ｓ１５のＹＥＳ）、ラベリング装置１は、ラベリング処理を終了する。

一方、学習データＤに含まれる全ての学習データを取り出していないと判定した場合（Ｓ１５のＮＯ）、ラベリング装置１は、Ｓ０５以降の処理を再度行う。具体的に、ラベリング装置１は、記憶領域１１０に記憶された学習データ群Ｔに含まれる全てのラベル付き学習データを用いることによって新たなモデルＭを生成する。そして、ラベリング装置１は、新たに生成したモデルＭを用いることによって、さらなるラベル付き学習データの生成を行う。

すなわち、図５に示すように、モデルＭの性能を飽和させるために必要なラベル付き学習データＴの数（以下、Ｎ０個とする）は、学習データ群Ｄに含まれる学習データの総数（以下、Ｎ個とする）よりも小さい場合がある。

そのため、作業者は、例えば、Ｎ個の学習データのうちのＮ０個の学習データについてのみラベリングを行い、Ｎ０個のラベル付き学習データを生成する。そして、作業者は、生成したＮ０個のラベル付き学習データを用いることによってモデルＭ（以下、モデルＭ０とも呼ぶ）を生成する。その後、作業者は、例えば、生成したモデルＭ０を用いることによって、残りの学習データ（Ｎ－Ｎ０個の学習データ）についてのラベリングを自動的に行う。これにより、作業者は、人手によるラベリング回数を抑制することが可能になる。

しかしながら、Ｎの値が非常に大きい場合、これに伴ってＮ０の値も大きくなるため、多数の学習データについてのラベリングを人手で行う必要性が生じる。また、作業者は、Ｎ０の値を容易に特定することができない場合がある。

そこで、第１の実施の形態におけるラベリング処理では、人手によるラベリングをＮ０個よりも小さい数であるＮ１個の学習データ（図２等で説明した例ではｎ個の学習データ）についてのみ行う。そして、生成されたＮ１個のラベル付き学習データを用いることによって、モデルＭ（以下、モデルＭ１とも呼ぶ）を生成する。すなわち、ラベリング装置１は、Ｎ１個のラベル付き学習データのみを用いることによって、ある程度の性能を有するモデルＭ１の生成を行う。

その後、ラベリング装置１は、モデルＭ１を用いることによって新たなラベル付き学習データを生成した後、それまでに生成した全てのラベル付き学習データを用いることにより、新たなモデルＭ（モデルＭ１よりも性能が高いモデル）を生成する。そして、ラベリング装置１は、新たなラベル付き学習データの生成と新たなモデルＭの生成とを繰り返し行うことにより、性能が飽和するモデルＭの生成を行う。

これにより、第１の実施の形態におけるラベリング装置１は、Ｎ０の値が大きい場合やＮ０の値の特定が困難である場合であっても、人手でのラベリングによる作業者の作業負担を軽減することが可能になる。そのため、ラベリング装置１は、モデルＭを効率的に生成することが可能になる。

具体的に、例えば、Ｎ１の値が１０００であって、１個の学習データに対してラベリングを行う時間が２秒であった場合、作業者は、人手によるラベリングに要する時間を２０００秒（約３３分）に抑えることが可能になる。なお、Ｎ１の値は、例えば、作業者の体力等を考慮した無理のない範囲内において決定されるものであってよい。

また、第１の実施の形態におけるラベリング処理では、人手でラベリングを行う学習データの数を抑制することが可能になるため、クラウドソーシング等を利用してラベリングを行う必要がなくなる。したがって、第１の実施の形態におけるラベリング処理では、ラベリングの実施に伴うコストを抑制することが可能になる。

なお、第１の実施の形態におけるラベリング処理において、作業者は、Ｓ０６の処理において取り出した学習データのそれぞれについて、モデルＭから出力されたラベルが正解のラベルであるか否かの確認（判定）を人手によって行う必要がある。

この点、モデルＭは、少なくともｎ個の学習データを用いることによって生成されるものである。そのため、作業者が実際にラベルの変更を行う必要がある学習データは、Ｓ０６の処理において取り出した学習データのうちの一部に留まる。また、第１の実施の形態におけるラベリング処理では、ｎ個の学習データからｎ個のラベル付き学習データを生成する毎に、より性能が高い新たなモデルＭが生成される。そのため、作業者がラベルの変更を行う必要がある学習データは、新たなモデルＭを生成が行われる毎に少なくなることが期待できる。

したがって、モデルＭから出力されたラベルの確認に伴う作業負担の増加による影響は、第１の実施の形態におけるラベリング処理を行うことによる作業者の作業負担の減少による効果よりも十分に小さいものと判断できる。

なお、Ｓ０２の処理において、学習データ群Ｄから取り出す学習データは、各学習データの近隣関係に基づく複数の学習データごとに取り出されるものであってもよい。ここでの近隣関係に基づく複数の学習は、各学習データが時系列データである場合、例えば、同じ時間帯に観察（収録）された学習データであり、各学習データが多次元空間のデータである場合、例えば、超球の中の学習データである。また、Ｓ０２の処理において、学習データ群Ｄから取り出すデータの順序は、ランダムに限られず、例えば、各学習データの観察が行われた順番に従うものであってもよい。

［第１の実施の形態の具体例］
次に、第１の実施の形態の具体例について説明する。図６は、第１の実施の形態におけるラベリング処理の具体例を説明する図である。以下、学習データ群Ｄに含まれる学習データの数が１００万個であり、ｎの値が１０００であるものとして説明を行う。

ラベリング装置１は、図６に示すように、初めに、学習データ群Ｄから１０００個の学習データを取り出す（Ｓ０２）。そして、作業者は、Ｓ０２の処理で取り出した１０００個の学習データのそれぞれについてラベリングを行うことにより、１０００個のラベル付き学習データを生成してラベリング装置１に入力する（Ｓ０３）。

続いて、ラベリング装置１は、作業者によって生成された１０００個のラベル付き学習データを学習データ群Ｔに追加する（Ｓ０４）。そして、ラベリング装置１は、学習データ群Ｔに格納された１０００個のラベル付き学習データを入力としてモデルＭ１を生成する（Ｓ０５）。以下、モデルＭ１のエラー率ｅ（学習データに対応する正解のラベルが出力されない確率）が３０％であるものとして説明を行う。なお、エラー率ｅの算出方法については、第２の実施の形態において説明を行う。

その後、ラベリング装置１は、学習データ群Ｄから取り出した１個の学習データをモデルＭ１に入力し、これに伴ってモデルＭ１から出力されたラベルを取り出す。そして、ラベリング装置１は、例えば、学習データ群Ｄから取り出した学習データと、モデルＭ１から出力されたラベルとを操作端末５の出力装置に出力する（Ｓ１１）。

続いて、作業者は、例えば、出力装置の画面を閲覧し、モデルＭ１から出力されたラベルが学習データ群Ｄから取り出した学習データに対応する正解のラベルであるか否かを判定する。その結果、正解のラベルであると判定した場合、作業者は、モデルＭ１から出力されたラベルをそのままラベリング装置１に入力する。一方、正解のラベルでないと判定した場合、作業者は、モデルＭ１から出力されたラベルを正解のラベルに変更してからラベリング装置１に入力する（Ｓ１２）。

そして、ラベリング装置１は、作業者によって入力されたラベルを学習データ群Ｄから取り出した１個の学習データに対応付けることによって生成したラベル付き学習データを、学習データ群Ｔの少なくとも一部として記憶領域１１０に記憶する（Ｓ１３）。

その後、ラベリング装置１は、学習データ群Ｄから取り出した１０００個の学習データに対応するラベルの全てが作業者によって入力されるまでの間、上記の処理（Ｓ０６からＳ１３の処理）を繰り返す。そして、ラベリング装置１は、作業者によって入力された１０００個のラベルから生成した１０００個のラベル付き学習データを学習データ群Ｔに追加する。すなわち、記憶領域１１０には、この場合、図６に示すように、２０００個の学習データが学習データ群Ｔに蓄積されている状態になる。

なお、モデルＭ１のエラー率ｅが３０％であるため、作業者は、この場合、図６に示すように、３００個のラベルを正解のラベルに変更する。

そして、ラベリング装置１は、学習データ群Ｔに格納された２０００個のラベル付き学習データを入力としてモデルＭ２を生成する。以下、モデルＭ２のエラー率ｅが２０％であるものとして説明を行う。

次に、ラベリング装置１は、学習データ群Ｄから取り出した１個の学習データをモデルＭ２に入力し、これに伴ってモデルＭ２から出力されたラベルを取り出す（Ｓ０６）。そして、ラベリング装置１は、例えば、学習データ群Ｄから取り出した学習データと、モデルＭ２から出力されたラベルとを操作端末５の出力装置に出力する（Ｓ１１）。

続いて、作業者は、例えば、出力装置の画面を閲覧し、モデルＭ２から出力されたラベルが学習データ群Ｄから取り出した学習データに対応する正解のラベルであるか否かを判定する。その結果、正解のラベルであると判定した場合、モデルＭ２から出力されたラベルをそのままラベリング装置１に入力する。一方、正解のラベルでないと判定した場合、モデルＭ２から出力されたラベルを正解のラベルに変更してからラベリング装置１に入力する（Ｓ１２）。

その後、ラベリング装置１は、学習データ群Ｄから取り出した１０００個の学習データに対応するラベルの全てが作業者によって入力されるまでの間、上記の処理（Ｓ０６からＳ１３の処理）を繰り返す。そして、ラベリング装置１は、作業者によって入力された１０００個のラベルから生成した１０００個のラベル付き学習データを学習データ群Ｔに追加する。すなわち、記憶領域１１０には、この場合、図６に示すように、３０００個の学習データが学習データ群Ｔに蓄積されている状態になる。

なお、モデルＭ２のエラー率ｅが２０％であるため、作業者は、この場合、図６に示すように、２００個のラベルを正解のラベルに変更する。

そして、ラベリング装置１は、学習データ群Ｔに格納された３０００個のラベル付き学習データを入力としてモデルＭ３を生成する。

すなわち、第１の実施の形態におけるラベリング装置１は、作業者が１０００個の学習データについてのラベリングと、必要な場合におけるラベルの修正とを行うことにより、多数の学習データを自動的に生成することが可能になる。

これにより、ラベリング装置１は、人手でのラベリングによる作業者の作業負担を軽減することが可能になる。また、ラベリング装置１は、モデルＭを効率的に生成することが可能になる。

なお、ラベリング装置１は、Ｓ１１の処理において、ｎ個の学習データ及びｎ個のラベルを同じタイミングで出力するものであってもよい。また、作業者は、これに伴って、ｎ個のラベルの入力を同じタイミングで行うものであってもよい。

また、例えば、学習データ群Ｄに含まれる学習データを動画データ等から生成する場合、作業者は、動画データ等のフレーム毎に学習データの生成を行うものであってよいし、一定時間（例えば、１秒や１０秒）に対応する長さの動画データ等から１つの学習データを生成するものであってよい。

［第２の実施の形態］
次に、第２の実施の形態について説明する。図７及び図８は、第２の実施の形態におけるラベリング処理を説明するフローチャート図である。また、図９から図１１は、第２の実施の形態におけるラベリング処理を説明する図である。なお、以下、第１の実施の形態と異なる点についてのみ説明を行う。

ラベリング装置１は、ラベリング処理の開始タイミングになった場合、図７に示すように、各記憶領域の初期化処理を行う（Ｓ２１）。

そして、ラベリング装置１は、学習データ群Ｄからｎ１個の学習データを取り出して出力する（Ｓ２２）。

次に、ラベリング装置１は、作業者がラベリングを行ったｎ１個のラベル付き学習データの入力を受け付ける（Ｓ２３）。

その後、ラベリング装置１は、Ｓ２３の処理で入力を受け付けたｎ１個のラベル付き学習データを学習データ群Ｔの少なくとも一部として記憶領域１１０に記憶する（Ｓ２４）。

そして、ラベリング装置１は、記憶領域１１０に記憶されたラベル付き学習データ群Ｔに含まれるラベル付き学習データを入力とすることによってモデルＭを生成する（Ｓ２５）。

続いて、ラベリング装置１は、モデルＭのエラー率ｅを算出する（Ｓ２６）。

具体的に、ラベリング装置１は、この場合、例えば、Ｓ２３の処理で入力を受け付けたｎ１個のラベル付き学習データを、モデルＭを生成するために用いる学習データ（以下、トレーニングデータとも呼ぶ）と、モデルＭの性能を検証するために用いる学習データ（以下、バリデーションデータとも呼ぶ）とに分ける。そして、ラベリング装置１は、トレーニングデータによって生成したモデルＭに対してバリデーションデータのそれぞれを入力した場合に、モデルＭから正解でないラベルが出力される確率（以下、エラー率ｅ０とも呼ぶ）を算出する。その後、ラベリング装置１は、トレーニングデータとバリデーションデータとの分け方を変えながらモデルＭを複数回生成し、生成した各モデルＭに対応するエラー率ｅ０の平均をエラー率ｅとして算出する。

そして、ラベリング装置１は、エラー率ｅに基づいて、学習データ群Ｄから次に取り出す学習データの数Ｎを算出する（Ｓ２７）。

具体的に、例えば、以下の式（１）に従ってＮを算出する。式（１）におけるｎ２は、作業者が人手によってラベルの変更を行う学習データの数であり、例えば、ｎ１と同じ値であってもよい。

Ｎ＝ｎ２／ｅ・・・（１）

そして、ラベリング装置１は、図８に示すように、学習データ群ＤからＮ個の学習データを取り出してモデルＭに入力する（Ｓ３１）。

続いて、ラベリング装置１は、モデルＭから出力されたＮ個のラベルと、Ｓ３１の処理で取り出したＮ個の学習データとを出力する（Ｓ３２）。

その後、ラベリング装置１は、作業者によって変更が行われたラベルの入力を受け付ける（Ｓ３３）。すなわち、ラベリング装置１は、モデルＭから出力されたＮ個のラベルのうち、作業者によって変更が行われたラベルの入力を受け付ける。

そして、ラベリング装置１は、Ｓ３１の処理で取り出した学習データ毎に、モデルＭから出力されたラベル（Ｓ３３の処理において作業者によって変更されたラベルを含む）と、Ｓ３３の処理で取り出した学習データとをそれぞれ対応付けることによって、Ｎ個のラベル付き学習データを生成する。そして、ラベリング装置１は、生成したＮ個のラベル付き学習データを学習データ群Ｔの少なくとも一部として記憶領域１１０に記憶する（Ｓ３４）。

その後、ラベリング装置１は、Ｓ２２及びＳ３１の処理において、学習データ群Ｄに含まれる全ての学習データを取り出したか否かを判定する（Ｓ３５）。

その結果、学習データＤに含まれる全ての学習データを取り出したと判定した場合（Ｓ３５のＹＥＳ）、ラベリング装置１は、ラベリング処理を終了する。

一方、学習データＤに含まれる全ての学習データを取り出していないと判定した場合（Ｓ３５のＮＯ）、ラベリング装置１は、Ｓ２５以降の処理を再度行う。

すなわち、Ｓ２５の処理で生成される各モデルＭのエラー率ｅは、後に生成されたモデルＭほど小さくなる傾向がある。そのため、例えば、ｎ２の値を一定とした場合、Ｓ３１の処理において学習データ群Ｄから取り出す学習データの数Ｎは、Ｓ２５の処理において新たなモデルＭが生成されるごとに大きくなる（上記の式（１）参照）。

したがって、第２の実施の形態におけるラベリング処理では、第１の実施の形態におけるラベリング処理と異なり、例えば、新たなモデルＭの生成に伴う作業者の作業負担（作業者がラベルの変更を行う学習データの数）を作業者が可能な範囲内において一定としつつ、ラベル付き学習データの生成ペースを上げることが可能になる。

［第２の実施の形態の具体例］
次に、第２の実施の形態の具体例について説明する。図１０は、第２の実施の形態におけるラベリング処理の具体例を説明する図である。以下、学習データ群Ｄに含まれる学習データの数が１００万個であり、ｎ１の値及びｎ２の値が１０００であるものとして説明を行う。

ラベリング装置１は、図１０に示すように、初めに、学習データ群Ｄから１０００個の学習データ（ｎ１の値に対応する数の学習データ）を取り出す（Ｓ２２）。そして、作業者は、Ｓ２２の処理で取り出した１０００個の学習データのそれぞれについてラベリングを行うことにより、１０００個のラベル付き学習データを生成してラベリング装置１に入力する（Ｓ２３）。

続いて、ラベリング装置１は、作業者によって生成された１０００個のラベル付き学習データを学習データ群Ｔに追加する（Ｓ２４）。そして、ラベリング装置１は、学習データ群Ｔに格納された１０００個のラベル付き学習データを入力としてモデルＭ１を生成する（Ｓ２５）。

さらに、ラベリング装置１は、例えば、モデルＭ１のエラー率ｅとして３０％が算出された場合、上記の式（１）に従い、Ｎの値として３３３３を算出する（Ｓ２６、Ｓ２７）。

その後、ラベリング装置１は、学習データ群Ｄから取り出した３３３３個の学習データをモデルＭ１に入力し、これに伴ってモデルＭ１から出力された３３３３個のラベルを取り出す（Ｓ３１）。そして、ラベリング装置１は、例えば、学習データ群Ｄから取り出した３３３３個の学習データと、モデルＭ１から出力された３３３３個のラベルとを操作端末５の出力装置に出力する（Ｓ３２）。

続いて、作業者は、例えば、出力装置の画面を閲覧し、学習データ群Ｄから取り出した３３３３個の学習データ毎に、モデルＭ１から出力されたラベルのそれぞれが学習データ群Ｄから取り出した学習データに対応する正解のラベルであるか否かを判定する。そして、作業者は、学習データ群Ｄから取り出した３３３３個の学習データのうち、正解のラベルでないと判定した学習データのそれぞれについて、モデルＭ１から出力されたラベルを正解のラベルに変更する。その後、作業者は、変更したラベルを含む３３３３個のラベルをラベリング装置１に入力する（Ｓ３３）。

そして、ラベリング装置１は、作業者によって入力されたラベルを学習データ群Ｄから取り出した３３３３個の学習データに対応付けることによって生成したラベル付き学習データを、学習データ群Ｔの少なくとも一部として記憶領域１１０に記憶する（Ｓ３４）。すなわち、記憶領域１１０には、この場合、図１０に示すように、４３３３個の学習データＴが蓄積されている状態になる。

なお、モデルＭ１のエラー率が３０％であるため、作業者は、この場合、図１０に示すように、約１０００個の学習データ（予め定めたｎ２の値に近い数の学習データ）に対応するラベルを正解のラベルに変更する。

そして、ラベリング装置１は、学習データ群Ｔに格納された４３３３個のラベル付き学習データを入力としてモデルＭ２を生成する。

さらに、ラベリング装置１は、例えば、モデルＭ２のエラー率ｅとして２０％が算出された場合、上記の式（１）に従い、Ｎの値として５０００を算出する（Ｓ２６、Ｓ２７）。

その後、ラベリング装置１は、学習データ群Ｄから取り出した５０００個の学習データをモデルＭ２に入力し、これに伴ってモデルＭ２から出力された５０００個のラベルを取り出す（Ｓ３１）。そして、ラベリング装置１は、例えば、学習データ群Ｄから取り出した５０００個の学習データと、モデルＭ２から出力された５０００個のラベルとを操作端末５の出力装置に出力する（Ｓ３２）。

続いて、作業者は、例えば、出力装置の画面を閲覧し、学習データ群Ｄから取り出した５０００個の学習データ毎に、モデルＭ２から出力されたラベルのそれぞれが学習データ群Ｄから取り出した学習データに対応する正解のラベルであるか否かを判定する。そして、作業者は、学習データ群Ｄから取り出した５０００個の学習データのうち、正解のラベルでないと判定した学習データのそれぞれについて、モデルＭ２から出力されたラベルを正解のラベルに変更する。その後、作業者は、変更したラベルを含む５０００個のラベルをラベリング装置１に入力する（Ｓ３３）。

そして、ラベリング装置１は、作業者によって入力されたラベルを学習データ群Ｄから取り出した５０００個の学習データに対応付けることによって生成したラベル付き学習データを、学習データ群Ｔの少なくとも一部として記憶領域１１０に記憶する（Ｓ３４）。すなわち、記憶領域１１０には、この場合、図１０に示すように、９３３３個の学習データＴが蓄積されている状態になる。

なお、モデルＭ２のエラー率が２０％であるため、作業者は、この場合、図１０に示すように、約１０００個の学習データ（予め定めたｎ２の値に近い数の学習データ）に対応するラベルを正解のラベルに変更する。

これにより、ラベリング装置１は、新たなモデルＭの生成に伴う作業者の作業負担（作業者がラベルの変更を行う学習データの数）を一定としながら、ラベル付き学習データの生成ペースを向上させることが可能になる。

［実験結果］
次に、第２の実施の形態におけるラベリング処理による実験結果について説明する。図１１は、第２の実施の形態におけるラベリング処理による実験結果を示す表である。

図１１に示す表において、「Ｒｏｕｎｄ」には、各ラウンドの識別情報が記憶され、「Ｔｏｔａｌ」には、各ラウンドにおいて学習データ群Ｔに追加されたラベル付き学習データの数が記憶され、「Ｎｕｍｂｅｒｏｆｌａｂｅｌｌｅｄｏｒｒｅｖｉｓｅｄｄａｔａ」には、各ラウンドにおいて作業者によってラベリングまたは正解のラベルへの変更が行われた学習データの数が記憶され、「ＡｖｅｒａｇｅＡｃｃｕｒａｃｙ」には、各ラウンドにおいて生成されたモデルＭの認識率が記憶されている。なお、図１１に示す例において、ラウンドは、モデルＭの生成回数に対応する数である。また、モデルＭの認識率は、エラー率ｅを１から減算することによって算出される確率（モデルＭから学習データに対応する正解のラベルが出力される確率）である。

具体的に、図１１に示す表において、「Ｒｏｕｎｄ」が「１」である行には、「Ｔｏｔａｌ」として「２０００個」が記憶され、「Ｎｕｍｂｅｒｏｆｌａｂｅｌｌｅｄｏｒｒｅｖｉｓｅｄｄａｔａ」として「２０００（個）」が記憶され、「ＡｖｅｒａｇｅＡｃｃｕｒａｃｙ」として「７４．８３３％」が記憶されている。

そのため、「Ｒｏｕｎｄ」が「１」である行は、２０００個の学習データに対するラベリングが作業者によって行われ、かつ、２０００個のラベル付き学習データが学習データ群Ｔに追加されたことを示している。また、「Ｒｏｕｎｄ」が「１」である行は、認識率が「７４．８３３％」であるモデルＭが生成されたことを示している。

また、図１１に示す表において、「Ｒｏｕｎｄ」が「２」である行には、「Ｔｏｔａｌ」として「３９００（個）」が記憶され、「Ｎｕｍｂｅｒｏｆｌａｂｅｌｌｅｄｏｒｒｅｖｉｓｅｄｄａｔａ」として「９８２（個）」が記憶され、「ＡｖｅｒａｇｅＡｃｃｕｒａｃｙ」として「８３．０２３％」が記憶されている。

そのため、「Ｒｏｕｎｄ」が「２」である行は、９８２個の学習データに対応するラベルの変更が作業者によって行われ、かつ、３９００個のラベル付き学習データが学習データ群Ｔに追加されたことを示している。また、「Ｒｏｕｎｄ」が「２」である行は、認識率が「８３．０２３％」であるモデルＭが生成されたことを示している。

また、図１１に示す表において、「Ｒｏｕｎｄ」が「３」である行には、「Ｔｏｔａｌ」として「６０００（個）」が記憶され、「Ｎｕｍｂｅｒｏｆｌａｂｅｌｌｅｄｏｒｒｅｖｉｓｅｄｄａｔａ」として「１０１９（個）」が記憶され、「ＡｖｅｒａｇｅＡｃｃｕｒａｃｙ」として「８４．５９３％」が記憶されている。

そのため、「Ｒｏｕｎｄ」が「３」である行は、１０１９個の学習データに対応するラベルの変更が作業者によって行われ、かつ、６０００個のラベル付き学習データが学習データ群Ｔに追加されたことを示している。また、「Ｒｏｕｎｄ」が「３」である行は、認識率が「８４．５９３％」であるモデルＭが生成されたことを示している。図１１に含まれる他の情報については説明を省略する。

すなわち、図１１に示す表は、各ラウンドにおいて作業者がラベルの変更を行った学習データの数がほぼ１０００件であるのに対し、新たなラベル付き学習データが学習データ群Ｔに追加された数の増加ペースがラウンドの進行に従って上昇していることを示している。

［Ｓ２７の処理における他の実施例］
次に、Ｓ２７の処理における他の実施例について説明を行う。

ラベリング装置１は、例えば、以下の式（２）に従ってＮを算出するものであってもよい。以下の式（２）において、Ｔ_１は、各学習データに対応付けられるラベルが正解のラベルでない場合における作業者の作業時間（以下、第１作業時間）を示し、Ｔ_２は、各学習データに対応付けられるラベルが正解のラベルである場合における作業者の作業時間（以下、第２作業時間）を示し、Ｔは、作業者によって予め定められた閾値である。すなわち、第１作業時間は、各学習データに対応付けられるラベルのそれぞれが正解であるか否かを作業者が判定するために要する時間と、学習データに対応付けられたラベルのそれぞれを作業者が正解のラベルに変更するために要する時間との合計である。また、第２作業時間は、各学習データに対応付けられるラベルのそれぞれが正解であるか否かを作業者が判定するために要する時間である。

（Ｔ_１ｅ＋Ｔ_２（１－ｅ））Ｎ＝Ｔ・・・（２）

すなわち、各学習データに対応付けられるラベルが正解のラベルであった場合と、各学習データに対応付けられるラベルが正解のラベルでなかった場合とでは、作業者による作業量が異なる。具体的に、各学習データに対応付けられるラベルが正解のラベルでなかった場合、作業者は、正解のラベルであるか否かの確認作業に加え、ラベルの変更作業を行う必要が生じる。

そのため、ラベリング装置１は、上記の式（２）に従うことによって、作業者による作業量を加味した上でＮの算出を行う。これにより、ラベリング装置１は、モデルＭの生成に伴う作業者の作業負担を平準化させることが可能になる。なお、Ｎの算出方法は、上記の各方法に限られるものではない。

１：ラベリング装置
５：操作端末
１０１：ＣＰＵ
１０２：メモリ
１０３：ネットワークインタフェース
１０４：記憶媒体
１０５：バス
１１０：記憶領域
Ｄ：学習データ群
Ｔ：学習データ群
Ｍ：モデル

Claims

第１記憶部に記憶した複数の学習データのうち、第１データ数の学習データを取り出して出力し、出力した前記第１データ数の学習データを前記第１記憶部から削除し、
出力した前記第１データ数の学習データのそれぞれに対応するラベルとしてユーザが決定した前記第１データ数のラベルの入力に応じて、前記第１データ数の学習データのそれぞれに前記ラベルを対応付けた前記第１データ数のラベル付き学習データを生成し、
生成した前記第１データ数のラベル付き学習データを第２記憶部に蓄積し、
前記第２記憶部に蓄積した前記第１データ数のラベル付き学習データを学習することによって第１モデルを生成し、
生成した前記第１モデルの認識能力を示す値に基づいて、第２データ数を特定し、
前記第１記憶部に記憶した複数の学習データから、前記第２データ数の学習データを取り出し、
取り出した前記第２データ数の学習データと、取り出した前記第２データ数の学習データの入力に伴って前記第１モデルから出力される前記第２データ数のラベルとを出力し、
出力した前記第２データ数のラベルに対し、前記第２データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第２データ数のラベルの入力を受け付け、入力を受け付けた前記第２データ数のラベルを前記第２データ数の学習データのそれぞれに対応付けた前記第２データ数のラベル付き学習データを生成し、
生成した前記第２データ数のラベル付き学習データを前記第２記憶部に蓄積する、
処理をコンピュータに実行させることを特徴とするラベリングプログラム。
請求項１において、
前記第２データ数を特定する処理では、前記第１データ数の学習データのうち、前記第１モデルに対する入力に伴って前記第１モデルから出力されるラベルが正解でない学習データの第１割合を、前記第１モデルの認識能力を示す値として特定する、
ことを特徴とするラベリングプログラム。
請求項２において、
前記第２データ数を特定する処理では、前記第１データ数を前記第１割合で除算することによって、前記第２データ数を算出する、
ことを特徴とするラベリングプログラム。
請求項２において、
前記第２データ数を特定する処理では、
各学習データに対応付けられるラベルが正解のラベルでない場合におけるユーザの第１作業時間と、前記第１割合との積である第１の値を算出し、
各学習データに対応付けられるラベルが正解のラベルである場合におけるユーザの第２作業時間と、前記第１割合を１から減算して算出した値との積である第２の値を算出し、
前記第１の値と前記第２の値との和と、前記第２データ数との積が所定の閾値以下にな
るように、前記第２データ数を算出する、
ことを特徴とするラベリングプログラム。
請求項４において、
前記第１作業時間は、各学習データに対応付けられるラベルのそれぞれが正解であるか否かをユーザが判定するために要する時間と、学習データに対応付けられたラベルのそれぞれをユーザが正解のラベルに変更するために要する時間との和であり、
前記第２作業時間は、各学習データに対応付けられるラベルのそれぞれが正解であるか否かをユーザが判定するために要する時間である、
ことを特徴とするラベリングプログラム。
請求項５において、さらに、
前記第２記憶部に記憶したラベル付き学習データを学習することによって第２モデルを生成し、
前記第１記憶部に記憶した複数の学習データから、第３データ数の学習データを取り出し、
取り出した前記第３データ数の学習データと、取り出した前記第３データ数の学習データの入力に伴って前記第２モデルから出力される前記第３データ数のラベルとを出力し、
出力した前記第３データ数のラベルに対し、前記第３データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第３データ数のラベルの入力を受け付け、入力を受け付けた前記第３データ数のラベルを前記第３データ数の学習データのそれぞれに対応付けた前記第３データ数のラベル付き学習データを生成し、
生成した前記第３データ数のラベル付き学習データを前記第２記憶部に蓄積する、
処理をコンピュータに実行させることを特徴とするラベリングプログラム。
請求項６において、
前記第２モデルを生成する処理と、前記第３データ数の学習データを取り出す処理と、前記第３データ数のラベルを出力する処理と、前記第３データ数のラベル付き学習データを生成する処理と、前記第３データ数のラベル付き学習データを蓄積する処理とを所定回数繰り返す、
ことを特徴とするラベリングプログラム。
請求項６において、
前記第１記憶部に記憶した複数の学習データの全てが取り出されるまで、前記第２モデルを生成する処理と、前記第３データ数の学習データを取り出す処理と、前記第３データ数のラベルを出力する処理と、前記第３データ数のラベル付き学習データを生成する処理と、前記第３データ数のラベル付き学習データを蓄積する処理とを繰り返す、
ことを特徴とするラベリングプログラム。
複数の学習データを記憶する第１記憶部と、
前記複数の学習データのうち、第１データ数の学習データを取り出して出力し、出力した前記第１データ数の学習データを前記第１記憶部から削除する第１出力部と、
出力した前記第１データ数の学習データのそれぞれに対応するラベルとしてユーザが決定した前記第１データ数のラベルの入力に応じて、前記第１データ数の学習データのそれぞれに前記ラベルを対応付けた前記第１データ数のラベル付き学習データを生成する第１
データ生成部と、
生成した前記第１データ数のラベル付き学習データを蓄積する第２記憶部と、
前記第２記憶部に蓄積した前記第１データ数のラベル付き学習データを学習することによって第１モデルを生成するモデル生成部と、
生成した前記第１モデルの認識能力を示す値に基づいて、第２データ数を特定するデータ数特定部と、
前記第１記憶部に記憶した複数の学習データから、前記第２データ数の学習データを取り出すデータ取出部と、
取り出した前記第２データ数の学習データと、取り出した前記第２データ数の学習データの入力に伴って前記第１モデルから出力される前記第２データ数のラベルとを出力する第２出力部と、
出力した前記第２データ数のラベルに対し、前記第２データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第２データ数のラベルの入力を受け付け、入力を受け付けた前記第２データ数のラベルを前記第２データ数の学習データのそれぞれに対応付けた前記第２データ数のラベル付き学習データを生成する第２データ生成部と、を有し、
前記第２記憶部は、さらに、生成した前記第２データ数のラベル付き学習データを蓄積する、
ことを特徴とするラベリング装置。
第１記憶部に記憶した複数の学習データのうち、第１データ数の学習データを取り出して出力し、出力した前記第１データ数の学習データを前記第１記憶部から削除し、
出力した前記第１データ数の学習データのそれぞれに対応するラベルとしてユーザが決定した前記第１データ数のラベルの入力に応じて、前記第１データ数の学習データのそれぞれに前記ラベルを対応付けた前記第１データ数のラベル付き学習データを生成し、
生成した前記第１データ数のラベル付き学習データを第２記憶部に蓄積し、
前記第２記憶部に蓄積した前記第１データ数のラベル付き学習データを学習することによって第１モデルを生成し、
生成した前記第１モデルの認識能力を示す値に基づいて、第２データ数を特定し、
前記第１記憶部に記憶した複数の学習データから、前記第２データ数の学習データを取り出し、
取り出した前記第２データ数の学習データと、取り出した前記第２データ数の学習データの入力に伴って前記第１モデルから出力される前記第２データ数のラベルとを出力し、
出力した前記第２データ数のラベルに対し、前記第２データ数の学習データに対応するラベルとして間違っているか否かの判断と、間違っていると判断した場合におけるラベルの変更とがユーザによってそれぞれ行われた前記第２データ数のラベルの入力を受け付け、入力を受け付けた前記第２データ数のラベルを前記第２データ数の学習データのそれぞれに対応付けた前記第２データ数のラベル付き学習データを生成し、
生成した前記第２データ数のラベル付き学習データを前記第２記憶部に蓄積する、
処理をコンピュータに実行させることを特徴とするラベリング方法。