JP2018147449A

JP2018147449A - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP2018147449A
Application number: JP2017045089A
Authority: JP
Inventors: 遼平田中; Ryohei Tanaka
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2018-09-20
Anticipated expiration: 2037-03-09
Also published as: CN108573289A; CN108573289B; US20180260737A1; JP6707483B2

Abstract

【課題】認識精度の高い辞書を生成するためのデータを提供する。【解決手段】情報処理装置１０は、分類部２０Ｄと、算出部２０Ｈと、選択部２０Ｉと、付与部２０Ｊと、を備える。分類部２０Ｄは、ラベル未付与の未教示データ３８をグループに分類する。算出部２０Ｈは、グループに属する未教示データ３８を用いてグループごとに生成された、未知データに対するラベルを認識するためのグループ辞書４０に対する、ラベルの認識精度に応じて、グループの評価値を算出する。選択部２０Ｉは、評価値に基づいて、グループを選択する。付与部２０Ｊは、選択したグループに属する未教示データに、正解ラベルに応じたラベルを付与する。【選択図】図１

Description

本発明の実施形態は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

教示済データと未教示データを用いて半教師有り学習を行うことで、パターン認識用の辞書を作成する手法が知られている。例えば、教示済データから学習した辞書を用いて未教示データのラベルを予測して学習用データに追加し、反復的に学習を行うことで、辞書を更新する手法が知られている。その際、すべての未教示データを学習用データに追加するのではなく、推定したラベルの確信度が閾値以上のデータのみを、学習用データに追加する手法が知られている。

半教師有り学習では、学習用データへの未教示データの追加の判定に用いる閾値が、辞書の認識精度に大きく影響する。しかし、従来技術では、閾値の最適化がなされていなかった。このため、従来技術では、認識精度の高い辞書を生成するための学習用データが提供されていなかった。

特開２００９−１２９２７９号公報

本発明の課題は、認識精度の高い辞書を生成するためのデータを提供することができる、情報処理装置、情報処理方法、および情報処理プログラムを提供することである。

実施形態の情報処理装置は、分類部と、算出部と、選択部と、付与部と、を備える。分類部は、ラベル未付与の未教示データをグループに分類する。算出部は、前記グループに属する前記未教示データを用いて前記グループごとに生成された、未知データに対するラベルを認識するためのグループ辞書に対する、ラベルの認識精度に応じて、前記グループの評価値を算出する。選択部は、前記評価値に基づいて、前記グループを選択する。付与部は、選択した前記グループに属する前記未教示データに、正解ラベルに応じたラベルを付与する。

図１は、情報処理装置の構成の一例を示す模式図である。図２は、学習用データおよび未使用データのデータ構成の一例を示す模式図である。図３は、情報処理の流れの一例を示す模式図である。図４は、情報処理の手順の一例を示すフローチャートである。図５は、情報処理装置の構成の一例を示す模式図である。図６は、情報処理の手順の一例を示すフローチャートである。図７は、情報処理装置の構成の一例を示す模式図である。図８は、情報処理の手順の一例を示すフローチャートである。図９は、情報処理装置の構成の一例を示す模式図である。図１０は、情報処理の流れの一例を示す模式図である。図１１は、情報処理の手順の一例を示すフローチャートである。図１２は、情報処理装置の構成の一例を示す模式図である。図１３は、情報処理の手順の一例を示すフローチャートである。図１４は、ハードウェア構成図である。

以下に添付図面を参照して、情報処理装置、情報処理方法、および情報処理プログラムの、実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、本実施の形態の情報処理装置１０の構成の一例を示す模式図である。

本実施の形態の情報処理装置１０は、学習用データを用いて辞書を作成する（詳細後述）。また、本実施の形態の情報処理装置１０は、半教師有り学習により、未教示データにラベルを付与し、学習用データに追加する（詳細後述）。

情報処理装置１０は、処理部２０と、記憶部２２と、出力部２４と、を含む。処理部２０、記憶部２２、および出力部２４は、バス９を介して接続されている。

記憶部２２は、各種データを記憶する。記憶部２２は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、光ディスク、メモリカード、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などである。なお、記憶部２２を、ネットワークを介して外部装置に設けた構成であってもよい。

本実施の形態では、記憶部２２は、辞書２２Ａと、学習用データ３０と、未使用データ３６と、を記憶する。また、記憶部２２は、処理部２０による処理中に発生する各種データも記憶する。

辞書２２Ａは、未知データに対する正解ラベルを認識（または特定）するための辞書である。辞書２２Ａは、後述する処理部２０によって生成および更新される。

学習用データ３０は、ラベルの付与されたデータを登録する。例えば、学習用データ３０は、データベースである。なお、学習用データ３０のデータ構成は、データベースに限定されない。

図２（Ａ）は、学習用データ３０のデータ構成の一例を示す模式図である。学習用データ３０は、教示済データ３２と、追加教示済データ３４と、を含む。

教示済データ３２は、正解ラベルの付与されたデータである。具体的には、教示済データ３２は、パターンと、該パターンに対応する正解ラベルと、からなる。教示済データ３２は、外部装置などから予め提供されたデータである。

追加教示済データ３４は、後述する処理部２０によってラベルの付与されたデータである。具体的には、追加教示済データ３４は、パターンと、該パターンに対応するラベルと、からなる。

なお、初期の状態では、学習用データ３０には、教示済データ３２のみが記憶されている。そして、後述する処理部２０による処理によって、学習用データ３０に追加教示済データ３４が追加される（詳細後述）。

図２（Ｂ）は、未使用データ３６のデータ構成の一例を示す模式図である。未使用データ３６は、未教示データ３８を登録する。未使用データ３６は、例えば、データベースである。なお、未使用データ３６のデータ構成は、データベースに限定されない。

未使用データ３６には、未教示データ３８が登録される。未教示データ３８は、情報処理装置１０で処理する対象のデータであって、ラベル未付与のデータである。具体的には、未教示データ３８は、パターンを含み、パターンに対応するラベルは未付与である。

本実施の形態では、後述する処理部２０の処理によって、処理対象の追加教示済データ３４が学習用データ３０へ登録される。

図１へ戻り、説明を続ける。出力部２４は、各種データを出力する。出力部２４は、例えば、ＵＩ部２４Ａと、通信部２４Ｂと、記憶部２４Ｃと、を含む。

ＵＩ部２４Ａは、各種画像を表示する表示機能と、ユーザによる操作指示を受付ける入力機能と、を備える。表示機能は、例えば、ＬＣＤなどのディスプレイである。入力機能は、例えば、マウス、キーボードなどである。なお、ＵＩ部２４Ａは、表示機能と入力機能とを一体的に備えた、タッチパネルであってもよい。なお、ＵＩ部２４Ａを、該表示機能を備えた表示部と、該入力機能を備えた入力部と、を、別体として構成してもよい。

通信部２４Ｂは、ネットワークなどを介して外部装置と通信する。記憶部２４Ｃは、各種データを記憶する。なお、記憶部２４Ｃを、記憶部２２と一体的に構成してもよい。本実施の形態では、記憶部２４Ｃには、処理部２０によって確定された辞書２２Ａが記憶される。

処理部２０は、辞書生成部２０Ａと、終了判断部２０Ｂと、出力制御部２０Ｃと、分類部２０Ｄと、グループ辞書生成部２０Ｇと、算出部２０Ｈと、選択部２０Ｉと、付与部２０Ｊと、登録部２０Ｋと、を備える。分類部２０Ｄは、分類スコア算出部２０Ｅと、データ分類部２０Ｆと、を含む。

上記各部は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

辞書生成部２０Ａは、学習用データ３０を用いて、辞書２２Ａを生成する。辞書２２Ａは、未知データに対する正解ラベルを認識するための辞書である。すなわち、辞書生成部２０Ａは、未知データの属するカテゴリを示す、正解ラベルを推定するための、辞書２２Ａを生成する。辞書２２Ａの生成には、公知の方法を用いればよい。

なお、学習用データ３０は、後述する処理によって更新される。そして、辞書生成部２０Ａは、更新された学習用データ３０を用いて、辞書２２Ａを生成する。

図３は、処理部２０が実行する、情報処理の流れを示す模式図である。図３（Ａ）および図３（Ｂ）に示すように、辞書生成部２０Ａは、学習用データ３０を用いて、辞書２２Ａを生成する（ステップＳ１）。学習用データ３０には、初期状態では、教示済データ３２のみが登録されている。そして、学習用データ３０には、後述する処理によって、追加教示済データ３４が追加される。辞書生成部２０Ａは、最新の学習用データ３０を用いて、辞書２２Ａを生成する。

図１に戻り説明を続ける。終了判断部２０Ｂは、学習を終了するか否かを判断する。終了判断部２０Ｂは、学習用データ３０の更新および辞書２２Ａの生成の一連の処理（すなわち学習）を、終了するか否かを判断する。

例えば、終了判断部２０Ｂは、終了条件を満たすか否かを判別することによって、学習を終了するか否かを判断する。終了条件は、予め設定すればよい。終了条件には、学習の継続が不可能となる条件や、学習を継続しても辞書２２Ａの認識精度の向上率が閾値以下となる条件を、予め設定すればよい。終了条件は、例えば、未使用データ３６に未教示データ３８が存在しない場合や、学習用データ３０に一定回数以上変化がない場合である。一定回数とは、後述する登録部２０Ｋによる登録処理の回数が、一定の回数であることを示す。

出力制御部２０Ｃは、各種データを出力するように、出力部２４を制御する。本実施の形態では、出力制御部２０Ｃは、終了判断部２０Ｂによって学習を終了すると判断されたときの、最新の辞書２２Ａを、最終的に確定した辞書２２Ａとして出力する。具体的には、出力制御部２０Ｃは、確定した辞書２２Ａを、通信部２４Ｂを介して外部装置へ送信、記憶部２４Ｃへ記憶、ＵＩ部２４Ａへ表示、の少なくとも１つの処理を実行する。

分類部２０Ｄは、未使用データ３６に登録されている未教示データ３８を、グループに分類する。本実施の形態では、未使用データ３６には、複数の未教示データ３８が登録されているものとする。分類部２０Ｄは、複数の未教示データ３８を、複数のグループに分類する。

本実施の形態では、分類部２０Ｄは、正解ラベルに応じて、未教示データ３８をグループに分類する。具体的には、分類部２０Ｄは、正解ラベルに応じて、複数の未教示データ３８を、複数のグループに分類する。

本実施の形態では、分類部２０Ｄは、分類スコア算出部２０Ｅと、データ分類部２０Ｆと、を含む。

分類スコア算出部２０Ｅは、未教示データ３８について、分類スコアを算出する。分類スコアは、学習用データ３０に登録されている正解ラベルに対する類似度に関する値である。

例えば、図３（Ｃ）および図３（Ｄ）に示すように、分類スコア算出部２０Ｅは、複数の未教示データ３８の各々について、分類スコアを算出する（ステップＳ２、ステップＳ２’）。

ここで、学習用データ３０には、複数の正解ラベルが登録されている場合がある。このため、分類スコア算出部２０Ｅは、未使用データ３６に登録されている未教示データ３８の各々について、学習用データ３０に登録されている複数の正解ラベルの各々との類似度を算出する。そして、分類スコア算出部２０Ｅは、各未教示データ３８の各々について、複数の正解ラベルとの類似度の内、最も高い類似度を、該未教示データ３８の分類スコアとして用いる。なお、分類スコア算出部２０Ｅは、未教示データ３８の各々について、複数の正解ラベルとの類似度の内、最も高い類似度と次に高い類似度との差を、分類スコアとして用いてもよい。

このようにして、分類スコア算出部２０Ｅは、１つの未教示データ３８について、１つの分類スコアを算出する。

図１に戻り説明を続ける。データ分類部２０Ｆは、分類スコアに応じて、未教示データ３８をグループに分類する。例えば、データ分類部２０Ｆは、複数の未教示データ３８を、分類スコアが近似する範囲の群が同じグループとなるように、複数のグループに分類する。

例えば、図３（Ｄ）および図３（Ｅ）に示すように、データ分類部２０Ｆは、複数の未教示データ３８を、分類スコアに応じて、複数のグループＧ（図３に示す例では、グループＧＡ、ＧＢ、ＧＣ）に分類する（ステップＳ３Ａ、Ｓ３Ｂ、Ｓ３Ｃ）。

具体的には、分類スコアが“０．０”〜“１”の範囲の値であったとする。この場合、例えば、データ分類部２０Ｆは、分類スコアが“０．０”以上“０．３”未満の範囲、“０．３”以上“０．６”未満の範囲、および、“０．６”以上“１．０”以下の範囲、の３つのグループに分類する。

なお、分類するグループの数は、複数であればよく、限定されない。また、分類に用いる分類スコアの範囲は、任意に設定すればよく、上記範囲に限定されない。

図１に戻り、説明を続ける。グループ辞書生成部２０Ｇは、分類部２０Ｄで分類されたグループＧの各々に属する未教示データ３８を用いて、グループＧごとにグループ辞書を生成する。グループ辞書は、未知データに対するラベルを認識するための辞書である。

グループ辞書生成部２０Ｇは、グループＧに属する未教示データ３８と、学習用データ３０と、を用いて、グループ辞書を生成すればよい。なお、未教示データ３８に付与するラベルには、辞書２２Ａを用いて認識されたラベルを用いればよい。

なお、グループ辞書生成部２０Ｇは、辞書生成部２０Ａと同様の方法を用いて、グループ辞書を生成してもよい。

なお、グループ辞書生成部２０Ｇは、辞書生成部２０Ａと異なる方法を用いて、グループ辞書を生成してもよい。例えば、グループ辞書生成部２０Ｇは、辞書生成部２０Ａより計算量の少ない簡易な手法を用いて、グループ辞書を生成してもよい。この場合、処理部２０による全体の計算量の削減を図ることができる。

例えば、図３（Ｅ）および図３（Ｆ）に示すように、グループ辞書生成部２０Ｇは、グループＧ（グループＧＡ、ＧＢ、ＧＣ）の各々に対応する、グループ辞書４０（グループ辞書４０Ａ、４０Ｂ、４０Ｃ）を生成する（ステップＳ４Ａ、Ｓ４Ｂ、Ｓ４Ｃ）。

図１に戻り、説明を続ける。算出部２０Ｈは、グループ辞書４０を用いて、グループ辞書４０に対応するグループＧの評価値を算出する（図３（Ｇ）のステップＳ５Ａ、Ｓ５Ｂ、Ｓ５Ｃ参照）。例えば、算出部２０Ｈは、グループ辞書４０に対する、ラベルの認識精度に応じて、評価値を算出する。

詳細には、算出部２０Ｈは、所定のパターン群のラベルを、グループ辞書４０を用いて認識する。所定のパターン群は、学習用データ３０に登録されている少なくとも一部の教示済データ３２の、パターンの群である。そして、算出部２０Ｈは、グループ辞書４０を用いて認識したラベルの、正解ラベルに一致する割合、誤認識率、リジェクト率、または、データ数を入力変数とする関数の出力値、の少なくとも１つを、評価値として算出する。

なお、リジェクト率とは、認識したパターンの内、リジェクトされたパターン割合を示す。リジェクトとは認識の確信度が低いなどの理由で認識結果の算出を保留する処理である。具体的には分類スコアが一定値以下など所定の基準を満たしたパターンをリジェクト対象とする。また、データ数を入力変数とする関数とは、対象のグループの規模を示す関数である。また、このデータ数とは、対象のグループに属する未教示データ３８の数を示す。

選択部２０Ｉは、評価値に基づいて、グループＧを選択する。例えば、選択部２０Ｉは、分類部２０Ｄによって分類された複数のグループＧの内、評価値が閾値以上のグループＧを選択する。

なお、選択部２０Ｉは、評価値が閾値以上のグループＧを選択すればよく、選択するグループＧの数は限定されない。評価値の閾値は、予め設定すればよい。例えば、評価値の閾値には、目標とする評価値となる値を予め設定すればよい。また、評価値の閾値は、ユーザによる操作指示などによって、適宜変更可能としてもよい。

また、例えば、選択部２０Ｉは、分類部２０Ｄによって分類された複数のグループＧの内、評価値が高い順に予め定めた数のグループＧを、選択してもよい。この数は、予め設定すればよい。また、この数は、ユーザによる操作指示などによって、適宜変更可能としてもよい。

例えば、選択部２０Ｉは、グループＧ（グループＧＡ、ＧＢ、ＧＣ）の内、評価値に応じて、グループＧＡを選択する（図３（Ｇ）、ステップＳ６参照）。

付与部２０Ｊは、選択部２０Ｉによって選択されたグループＧに属する未教示データ３８に、正解ラベルに応じたラベルを付与する（図３（Ｇ）、ステップＳ７参照）。

具体的には、付与部２０Ｊは、グループＧに属する未教示データ３８の各々について、分類スコア算出部２０Ｅによって算出された分類スコアの導出に用いられた、最も類似度の高い正解ラベルを特定する。そして、付与部２０Ｊは、特定した正解ラベルを、該未教示データ３８に含まれるパターンに対応するラベルとして付与する。

登録部２０Ｋは、ラベルを付与された未教示データ３８を、追加教示済データ３４として学習用データ３０へ登録する。このため、図３（Ｈ）、図３（Ａ）、ステップＳ８に示すように、学習用データ３０に、追加教示済データ３４が追加される（図２（Ａ）も参照）。

なお、このとき、登録部２０Ｋは、ラベルを付与された未教示データ３８を、未使用データ３６から削除した上で、追加教示済データ３４として学習用データ３０へ登録する。このため、未使用データ３６には（図２（Ｂ）参照）、ラベル未付与の未教示データ３８のみが登録された状態となる。

そして、追加教示済データ３４が学習用データ３０に追加されることで、学習用データ３０が更新されるごとに、辞書生成部２０Ａは、更新後の学習用データ３０を用いて辞書２２Ａを生成する（図３（Ａ）、図３（Ｂ）、ステップＳ１参照）。

次に、本実施の形態の情報処理装置１０が実行する、情報処理の手順を説明する。図４は、本実施の形態の情報処理装置１０が実行する、情報処理の手順の一例を示す、フローチャートである。

なお、図４の情報処理が実行される前の状態では、学習用データ３０および未使用データ３６には、データが何も入っていない状態であったものとして、説明する。まず、処理部２０は、処理対象データを、学習用データ３０および未使用データ３６へ登録する（ステップＳ１００）。例えば、処理部２０が、処理対象データとして、複数の教示済データ３２と、複数の未教示データ３８と、を外部装置などから受け付けたと仮定する。処理部２０は、複数の教示済データ３２を学習用データ３０へ登録し、複数の未教示データ３８を未使用データ３６へ登録する。

次に、辞書生成部２０Ａが、学習用データ３０を用いて、辞書２２Ａを生成する（ステップＳ１０２）。

次に、終了判断部２０Ｂが、学習を終了するか否かを判断する（ステップＳ１０４）。学習を終了しないと判断した場合（ステップＳ１０４：Ｎｏ）、ステップＳ１０６へ進む。

ステップＳ１０６では、分類部２０Ｄの分類スコア算出部２０Ｅが、未使用データ３６に登録されている未教示データ３８の各々について、分類スコアを算出する（ステップＳ１０６）。

次に、データ分類部２０Ｆが、未使用データ３６に登録されている複数の未教示データ３８を、分類スコアに応じて、グループＧに分類する（ステップＳ１０８）。そして、グループ辞書生成部２０Ｇが、ステップＳ１０８で分類されたグループＧの各々に対応する、グループ辞書４０を生成する（ステップＳ１１０）。次に、算出部２０Ｈが、グループ辞書４０を用いて、グループ辞書４０に対応するグループＧの評価値を算出する（ステップＳ１１２）。

次に、選択部２０Ｉが、ステップＳ１１２で算出された評価値に基づいて、グループを選択する（ステップＳ１１４）。上述したように、例えば、選択部２０Ｉは、分類部２０Ｄによって分類された複数のグループＧの内、評価値が閾値以上のグループＧを選択する。

次に、付与部２０Ｊが、ステップＳ１１４で選択されたグループＧに属する未教示データ３８に、正解ラベルに応じたラベルを付与する（ステップＳ１１６）。

次に、登録部２０Ｋが、ステップＳ１１６でラベルを付与された未教示データ３８を、追加教示済データ３４として、学習用データ３０に登録する（ステップＳ１１８）。このとき、登録部２０Ｋは、ラベルを付与された未教示データ３８を、未使用データ３６から削除する。そして、上記ステップＳ１０２へ戻る。

一方、上記ステップＳ１０４で肯定判断すると（ステップＳ１０４：Ｙｅｓ）、ステップＳ１２０へ進む。

ステップＳ１２０では、出力制御部２０Ｃが、直前のステップＳ１０２の処理によって生成された最新の辞書２２Ａを、最終的に確定した辞書２２Ａとして出力する（ステップＳ１２０）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理装置１０は、分類部２０Ｄと、算出部２０Ｈと、選択部２０Ｉと、付与部２０Ｊと、を備える。分類部２０Ｄは、ラベル未付与の未教示データ３８をグループＧに分類する。算出部２０Ｈは、グループＧに属する未教示データ３８を用いてグループＧごとに生成された、未知データに対するラベルを認識するためのグループ辞書４０に対する、ラベルの認識精度に応じて、グループＧの評価値を算出する。選択部２０Ｉは、評価値に基づいて、グループＧを選択する。付与部２０Ｊは、選択したグループＧに属する未教示データ３８に、正解ラベルに応じたラベルを付与する。

このように、本実施の形態の情報処理装置１０は、未教示データ３８の内、対応するグループ辞書４０のラベルの認識精度の評価値に応じて選択された、グループＧに属する未教示データ３８に、ラベルを付与する。このため、複数の未教示データ３８の内、認識精度向上に寄与しうる未教示データ３８に対して、選択的にラベルを付与することができる。

従って、本実施の形態の情報処理装置１０は、認識精度の高い辞書２２Ａを生成するためのデータ（学習用データ３０）を提供することができる。

（第２の実施の形態）
本実施の形態では、グループの再分類や、学習用データ３０における追加教示済データ３４の修正を行う形態を説明する。

図５は、本実施の形態の情報処理装置１０Ｂの構成の一例を示す模式図である。なお、上記実施の形態と同じ機能を示す構成については、同じ符号を付与して、説明を省略する場合がある。

情報処理装置１０Ｂは、処理部２５と、記憶部２６と、出力部２４と、を含む。処理部２５、記憶部２６、および出力部２４は、バス９を介して接続されている。出力部２４は、第１の実施の形態と同様である。

記憶部２６は、各種データを記憶する。記憶部２６は、辞書２２Ａと、学習用データ３０と、未使用データ３６と、評価用データ２２Ｄと、を記憶する。本実施の形態では、記憶部２６は、複数の辞書２２Ａを記憶する。第１の実施の形態と同様に、情報処理装置１０Ｂの処理部２５は、学習用データ３０の更新と、辞書２２Ａの生成と、を繰り返し実行する。本実施の形態では、記憶部２６は、新たな辞書２２Ａが生成される毎に、バージョン情報を付与し、生成された辞書２２Ａの各々を記憶する。このため、記憶部２６には、処理部２５によって辞書２２Ａの生成された回数に応じた数の、辞書２２Ａが記憶される。

評価用データ２２Ｄは、正解ラベルの付与されたデータを登録する。評価用データ２２Ｄは、例えば、データベースである。なお、評価用データ２２Ｄのデータ構成は、データベースに限定されない。

評価用データ２２Ｄは、学習に用いられないデータであり、評価値の算出にのみ用いられる。なお、評価用データ２２Ｄの正解ラベルと、教示済データ３２の正解ラベルと、は、同じ種類のラベルである。一方、評価用データ２２Ｄのパターンと、教示済データ３２のパターンと、は、同じであってもよいし、異なっていてもよい。

処理部２５は、辞書生成部２０Ａと、終了判断部２０Ｂと、出力制御部２５Ｃと、分類部２５Ｄと、グループ辞書生成部２０Ｇと、算出部２５Ｈと、選択部２０Ｉと、付与部２０Ｊと、登録部２０Ｋと、修正部２５Ｎと、を備える。分類部２５Ｄは、分類スコア算出部２０Ｅと、データ分類部２０Ｆと、再分類判断部２５Ｌと、再分類部２５Ｍと、を含む。

上記各部は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵなどのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

辞書生成部２０Ａ、終了判断部２０Ｂ、分類スコア算出部２０Ｅ、データ分類部２０Ｆ、グループ辞書生成部２０Ｇ、選択部２０Ｉ、付与部２０Ｊ、登録部２０Ｋは、第１の実施の形態と同様である。

本実施の形態では、分類部２５Ｄは、分類スコア算出部２０Ｅと、データ分類部２０Ｆと、再分類判断部２５Ｌと、再分類部２５Ｍと、を含む。

再分類判断部２５Ｌは、選択部２０Ｉによって選択されたグループＧを、再分類するか否かを判断する。具体的には、再分類判断部２５Ｌは、選択部２０Ｉによって選択されたグループＧが、再分類条件を満たすグループＧであるか否かを判断する。再分類条件は、例えば、グループＧに属する未教示データ３８の数が、予め定めた数以上であること、などである。

再分類判断部２５Ｌが、再分類すると判断すると、再分類部２５Ｍは、選択部２０Ｉによって選択されたグループＧを、再分類する。再分類部２５Ｍは、データ分類部２０Ｆと同様にして、グループＧを再分類すればよい。例えば、再分類部２５Ｍは、グループＧを再分類し、複数のグループＧに再分類する。すなわち、再分類部２５Ｍは、前回分類したグループＧの内、選択部２０Ｉで直前に選択されたグループＧを、更に細かいグループＧに再分類する。

このとき、再分類部２５Ｍは、前回の分類時より細かいグループＧに分類されるように、選択部２０Ｉで選択されたグループＧを再分類すればよい。例えば、再分類部２５Ｍは、前回のグループＧの分類時に用いた、同じグループＧとする分類スコアの範囲を、前回より狭い範囲に設定し、再分類すればよい。

算出部２５Ｈは、第１の実施の形態の算出部２０Ｈと同様にグループ辞書４０を用いて、グループ辞書４０に対応するグループＧの評価値を算出する。但し、算出部２５Ｈは、評価用データ２２Ｄに登録されている少なくとも一部の教示済データ３２の、パターンの群を用いる。

詳細には、算出部２５Ｈは、所定のパターン群のラベルを、グループ辞書４０を用いて認識する。所定のパターン群は、評価用データ２２Ｄに登録されている少なくとも一部の教示済データ３２の、パターンの群である。そして、算出部２５Ｈは、算出部２０Ｈと同様に、グループ辞書４０を用いて認識したラベルの、正解ラベルに一致する割合、誤認識率、リジェクト率、または、データ数を入力変数とする関数の出力値、の少なくとも１つを、評価値として算出する。

修正部２５Ｎは、学習用データ３０における、追加教示済データ３４の内、第１条件を満たす追加教示済データ３４を修正する。第１条件は、分類スコアが所定スコア以下であることを示す。

この場合、登録部２０Ｋは、追加教示済データ３４の学習用データ３０への登録時に、追加教示済データ３４に、グループＧへの分類時に分類スコア算出部２０Ｅによって算出された分類スコアを、対応付けて登録すればよい。

そして、修正部２５Ｎは、学習用データ３０に登録されている追加教示済データ３４の内、対応する分類スコアが所定スコア以下の追加教示済データ３４を、第１条件を満たす追加教示済データ３４として特定すればよい。

そして、修正部２５Ｎは、第１条件を満たす追加教示済データ３４について、付与されているラベルの変更、付与されているラベルを除去し未使用データ３６へ移動、および、学習用データ３０から削除、の少なくとも１つを行うことによって、該追加教示済データ３４を修正する。

ラベルを変更する場合、修正部２５Ｎは、第１条件を満たす追加教示済データ３４のパターンに対応する正解ラベルを、最新の辞書２２Ａを用いて認識する。そして、修正部２５Ｎは、該追加教示済データ３４に付与されているラベルを、認識した正解ラベルに変更すればよい。

次に、本実施の形態の情報処理装置１０Ｂが実行する、情報処理の手順を説明する。図６は、本実施の形態の情報処理装置１０Ｂが実行する、情報処理の手順の一例を示す、フローチャートである。

まず、処理部２５は、処理対象データを記憶部２６へ登録する（ステップＳ２００）。本実施の形態では、処理部２５は、複数の教示済データ３２と、複数の未教示データ３８と、評価用データ２２Ｄと、を含む、処理対象データを、外部装置などから受け付ける。処理部２５は、複数の教示済データ３２を学習用データ３０へ登録し、複数の未教示データ３８を未使用データ３６へ登録する。また、処理部２５は、評価用データ２２Ｄを記憶部２６へ登録する。

次に、辞書生成部２０Ａが、学習用データ３０を用いて、辞書２２Ａを生成する（ステップＳ２０２）。本実施の形態では、辞書生成部２０Ａは、新たに辞書２２Ａを生成する毎に、生成した辞書２２Ａと、該辞書２２Ａのバージョン情報と、を対応付けて辞書２２Ａへ記憶する。

次に、処理部２５が、第１の実施の形態と同様にして（図４のステップＳ１０４〜ステップＳ１１０参照）、ステップＳ２０４〜ステップＳ２１０の処理を実行する。

具体的には、終了判断部２０Ｂが、学習を終了するか否かを判断する（ステップＳ２０４）。学習を終了しないと判断した場合（ステップＳ２０４：Ｎｏ）、ステップＳ２０６へ進む。ステップＳ２０６では、分類部２５Ｄの分類スコア算出部２０Ｅが、未使用データ３６に登録されている未教示データ３８の各々について、分類スコアを算出する（ステップＳ２０６）。次に、データ分類部２０Ｆが、未使用データ３６に登録されている複数の未教示データ３８を、分類スコアに応じて、グループＧに分類する（ステップＳ２０８）。次に、グループ辞書生成部２０Ｇが、ステップＳ２０８で分類されたグループＧの各々に対応する、グループ辞書４０を生成する（ステップＳ２１０）。

次に、算出部２５Ｈが、グループ辞書４０と、評価用データ２２Ｄと、を用いて、グループ辞書４０に対応するグループＧの評価値を算出する（ステップＳ２１２）。

次に、選択部２０Ｉが、ステップＳ２１２で算出された評価値に基づいて、グループＧを選択する（ステップＳ２１４）。

次に、再分類判断部２５Ｌが、ステップＳ２１４で選択されたグループＧを、再分類するか否かを判断する（ステップＳ２１６）。再分類すると判断した場合（ステップＳ２１６：Ｙｅｓ）、ステップＳ２１８へ進む。ステップＳ２１８では、再分類部２５Ｍは、ステップＳ２１４で選択されたグループＧを、再分類する（ステップＳ２１８）。ステップＳ２１８の処理によって、前回のステップＳ２１４で選択されたグループＧに属する未教示データ３８が、更に細かいグループＧに再分類される。そして、上記ステップＳ２１０へ戻る。

一方、ステップＳ２１６で再分類しないと判断した場合（ステップＳ２１６：Ｎｏ）、ステップＳ２２０へ進む。ステップＳ２２０〜ステップＳ２２２の処理は、第１の実施の形態（図４のステップＳ１１６〜ステップＳ１１８参照）と同様である。

すなわち、ステップＳ２２０では、付与部２０Ｊが、ステップＳ２１４で選択されたグループＧに属する未教示データ３８に、正解ラベルに応じたラベルを付与する（ステップＳ２２０）。次に、登録部２０Ｋが、ステップＳ２２０でラベルを付与された未教示データ３８を、追加教示済データ３４として、学習用データ３０に登録する（ステップＳ２２２）。

次に、修正部２５Ｎが、学習用データ３０における追加教示済データ３４の内、第１条件を満たす追加教示済データ３４を修正する（ステップＳ２２４）。そして、上記ステップＳ２０２へ戻る。

一方、ステップＳ２０４で肯定判断すると（ステップＳ２０４：Ｙｅｓ）、ステップＳ２２６へ進む。ステップＳ２２６では、出力制御部２５Ｃが、記憶部２６に登録されている、各バージョン情報の各々に対応する複数の辞書２２Ａの内、最終的に確定した辞書２２Ａとして出力する辞書２２Ａを選択する（ステップＳ２２６）。

例えば、出力制御部２５Ｃは、記憶部２６に登録されている、各バージョン情報の各々に対応する複数の辞書２２Ａの内、評価用データ２２Ｄの認識率が最大の辞書２２Ａを、最終的に確定した辞書２２Ａとして選択する。

詳細には、出力制御部２５Ｃは、記憶部２６に登録されている複数の辞書２２Ａの各々を用いて、評価用データ２２Ｄに登録されているパターンに対する正解ラベルの認識を行う。そして、出力制御部２５Ｃは、辞書２２Ａを用いて認識した正解ラベルと、評価用データ２２Ｄに登録されているパターンに付与されている正解ラベルと、が一致する割合を、認識率として算出する。さらに、出力制御部２５Ｃは、この認識率が最大の辞書２２Ａを、最終的に確定した辞書２２Ａとして、選択すればよい。

そして、出力制御部２５Ｃは、ステップＳ２２６で選択した辞書２２Ａを、最終的に確定した辞書２２Ａとして出力する（ステップＳ２２８）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理装置１０Ｂでは、再分類判断部２５Ｌが、選択部２０Ｉによって選択されたグループＧを、再分類するか否かを判断する。そして再分類部２５Ｍは、再分類すると判断した場合、該グループＧを再分類する。

このため、本実施の形態の情報処理装置１０Ｂでは、複数の未教示データ３８の内、認識精度向上に寄与しうる未教示データ３８を、より精度良く選択し、ラベルを付与することができる。従って、本実施の形態の情報処理装置１０Ｂでは、第１の実施の形態の効果に加えて、更に、認識精度の高い辞書２２Ａを生成するためのデータ（学習用データ３０）を提供することができる。

また、本実施の形態の情報処理装置１０Ｂでは、分類されたグループＧの数が少数であった場合についても、反復的に分類を行うことができ、計算負荷を抑制しつつ、且つ、効率よく未教示データ３８を十分に分類することができる。

また、本実施の形態の情報処理装置１０Ｂでは、修正部２５Ｎが、学習用データ３０に登録されている追加教示済データ３４の内、第１条件を満たす追加教示済データ３４を修正する。このため、情報処理装置１０Ｂは、第１の実施の形態の効果に加えて、より安定的に、高い認識精度の辞書２２Ａを生成するためのデータ（学習用データ３０）を提供することができる。

（第３の実施の形態）
本実施の形態では、Ｎ個の学習用データ３０を用いる形態を説明する。

図７は、本実施の形態の情報処理装置１０Ｃの構成の一例を示す模式図である。なお、上記実施の形態と同じ機能を示す構成については、同じ符号を付与して、説明を省略する場合がある。

情報処理装置１０Ｃは、処理部２７と、記憶部２８と、出力部２４と、を含む。処理部２７、記憶部２８、および出力部２４は、バス９を介して接続されている。出力部２４は、第１の実施の形態と同様である。

記憶部２８は、各種データを記憶する。記憶部２８は、辞書２２Ａと、学習用データ３０と、未使用データ３６と、を記憶する。本実施の形態では、記憶部２８は、Ｎ個の学習用データ３０を記憶する。Ｎは、２以上の整数である。

Ｎ個の学習用データ３０は、各々、教示済データ３２を登録するためのデータベースである。第１の実施の形態と同様に、学習用データ３０のデータ形式は、データベースに限定されない。Ｎ個の学習用データ３０における、教示済データ３２の正解ラベルの種類は、互いに同じ種類である。また、Ｎ個の学習用データ３０における、教示済データ３２のパターンは、少なくとも一部が互いに異なる。

次に、処理部２７について説明する。処理部２７は、辞書生成部２７Ａと、終了判断部２７Ｂと、出力制御部２０Ｃと、分類部２７Ｄと、グループ辞書生成部２７Ｇと、算出部２７Ｈと、選択部２０Ｉと、付与部２７Ｊと、登録部２７Ｎと、を備える。分類部２７Ｄは、分類スコア算出部２７Ｅと、データ分類部２０Ｆと、を含む。

データ分類部２０Ｆ、選択部２０Ｉ、および出力制御部２０Ｃは、第１の実施の形態と同様である。

辞書生成部２７Ａは、Ｎ個の学習用データ３０の各々を用いて、Ｎ個の辞書２２Ａを生成する。

終了判断部２７Ｂは、学習を終了するか否かを判断する。終了判断部２７Ｂは、Ｎ個の学習用データ３０の更新およびＮ個の辞書２２Ａの生成の一連の処理（すなわち学習）を、終了するか否かを判断する。

本実施の形態では、終了判断部２７Ｂは、第１の実施の形態の終了判断部２０Ｂと同様に、終了条件を満たすか否かを判別することによって、学習を終了するか否かを判断する。なお、終了判断部２７Ｂは、Ｎ個の学習用データ３０の少なくとも１つが、終了条件を満たした場合に、学習を終了すると判断してもよい。

分類部２７Ｄは、未使用データ３６に登録されている未教示データ３８を、グループＧに分類する。本実施の形態では、分類部２７Ｄは、Ｎ個の学習用データ３０の各々に登録されている正解ラベルに応じて、複数の未教示データ３８を、複数のグループＧに分類する。

本実施の形態では、分類部２７Ｄは、分類スコア算出部２７Ｅと、データ分類部２０Ｆと、を含む。

分類スコア算出部２７Ｅは、未教示データ３８について、分類スコアを算出する。分類スコアは、第１の実施の形態と同様である。すなわち、分類スコアは、学習用データ３０に登録されている、正解ラベルに対する類似度に関する値である。

ここで、本実施の形態では、Ｎ個の学習用データ３０を用いる。このため、分類スコア算出部２７Ｅは、１つの未教示データ３８に対して、Ｎ個の学習用データ３０の各々に登録されている正解ラベルに対する、類似度を算出する。例えば、各学習用データ３０に、Ｍ個の正解ラベルが登録されていたと仮定する。この場合、分類スコア算出部２７Ｅは、１つの未教示データ３８に対して、Ｎ個×Ｍ個の類似度を算出する。

そして、分類スコア算出部２７Ｅは、未教示データ３８の各々について、Ｎ個×Ｍ個の類似度の内、最も大きい類似度を最も多く含む正解ラベルを特定する。そして、分類スコア算出部２７Ｅは、未教示データ３８の各々について、特定した正解ラベルに対応するＮ個の類似度の最大値または平均値を、該未教示データ３８の分類スコアとして算出する。

この処理により、分類スコア算出部２７Ｅは、１つの未教示データ３８に対して、１つの分類スコアを算出する。

データ分類部２０Ｆは、第１の実施の形態と同様にして、分類スコアに応じて、未教示データ３８をグループＧに分類する。

グループ辞書生成部２７Ｇは、分類部２７Ｄで分類されたグループＧの各々に属する未教示データ３８を用いて、グループＧごとにグループ辞書４０を生成する。

本実施の形態では、グループ辞書生成部２７Ｇは、１つのグループＧに対して、Ｎ個の学習用データ３０の各々を用いて、Ｎ個のグループ辞書４０を生成する。グループ辞書４０の生成方法は、第１の実施の形態と同様である。

算出部２７Ｈは、グループ辞書４０を用いて、グループ辞書４０に対応するグループＧの評価値を算出する。本実施の形態では、上述したように、１つのグループＧに対して、Ｎ個のグループ辞書４０が生成されている。このため、まず、算出部２７Ｈは、各グループＧごとに、対応するＮ個のグループ辞書４０の各々の評価値を、第１の実施の形態と同様にして算出する。そして、算出部２７Ｈは、１つのグループＧに対して算出された、Ｎ個の評価値の最大値または平均値を、該グループＧの評価値として算出する。このようにして、算出部２７Ｈは、１つのグループＧに対して、１つの評価値を算出する。

選択部２０Ｉは、第１の実施の形態と同様である。

付与部２７Ｊは、選択されたグループＧに属する未教示データ３８の各々について、分類スコア算出部２７Ｅによって算出された分類スコアの導出に用いられた、最も類似度の高い正解ラベルを特定する。詳細には、付与部２７Ｊは、分類スコア算出部２７Ｅによって、未教示データ３８の各々について算出された、Ｎ個×Ｍ個の類似度の内、最も大きい類似度を最も多く含む正解ラベルを特定する。そして、付与部２７Ｊは、特定した正解ラベルを、該未教示データ３８に含まれるパターンに対応するラベルとして付与する。

これによって、付与部２７Ｊは、選択部２０Ｉによって選択されたグループＧに属する未教示データ３８に、正解ラベルに応じたラベルを付与する。

登録部２７Ｎは、選択部２０Ｉによって選択されたグループＧを、Ｎ個の小グループに分割する。なお、分割の条件は任意であり、限定されない。例えば、登録部２７Ｎは、選択部２０Ｉによって選択されたグループＧに属する追加教示済データ３４を、各小グループに同じ数、分類されるように、Ｎ個の小グループに分割する。なお、登録部２７Ｎは、Ｎ個の小グループの少なくとも一部に、互いに異なる数の追加教示済データ３４が属するように、分割してもよい。

そして、登録部２７Ｎは、該Ｎ個の小グループの各々に属する追加教示済データ３４を、該Ｎ個の学習用データ３０に各々登録する。言い換えると、登録部２７Ｎは、選択部２０Ｉによって選択されたグループＧに属する、付与部２７Ｊによってラベルの付与された追加教示済データ３４を、Ｎ個に分けて、Ｎ個の学習用データ３０へ各々登録する。

そして、辞書生成部２７Ａは、上述したように、Ｎ個の学習用データ３０の各々を用いて、Ｎ個の辞書２２Ａを生成する。

次に、本実施の形態の情報処理装置１０Ｃが実行する、情報処理の手順を説明する。図８は、本実施の形態の情報処理装置１０Ｃが実行する、情報処理の手順の一例を示す、フローチャートである。

まず、処理部２７は、処理対象データを記憶部２８へ登録する（ステップＳ３００）。本実施の形態では、処理部２７は、複数の教示済データ３２を含むＮ個の学習用データ３０と、複数の未教示データ３８と、を含む、処理対象データを、外部装置などから受け付ける。処理部２７は、Ｎ個の学習用データ３０を記憶部２８へ記憶し、複数の未教示データ３８を未使用データ３６へ登録する。

次に、辞書生成部２７Ａが、Ｎ個の学習用データ３０を用いて、Ｎ個の辞書２２Ａを生成する（ステップＳ３０２）。

次に、終了判断部２７Ｂが、学習を終了するか否かを判断する（ステップＳ３０４）。学習を終了しないと判断した場合（ステップＳ３０４：Ｎｏ）、ステップＳ３０６へ進む。ステップＳ３０６では、分類部２７Ｄの分類スコア算出部２７Ｅが、未使用データ３６に登録されている未教示データ３８の各々について、Ｎ個の学習用データ３０を用いて、分類スコアを算出する（ステップＳ３０６）。

次に、データ分類部２０Ｆが、未使用データ３６に登録されている複数の未教示データ３８を、分類スコアに応じて、グループＧに分類する（ステップＳ３０８）。次に、グループ辞書生成部２７Ｇが、ステップＳ３０８で分類されたグループＧの各々に対応する、Ｎ個のグループ辞書４０を生成する（ステップＳ３１０）。

次に、算出部２７Ｈが、Ｎ個の辞書２２Ａを用いて、Ｎ個のグループ辞書４０の各々に対応するグループＧの評価値を算出する（ステップＳ３１２）。

次に、選択部２０Ｉが、ステップＳ３１２で算出された評価値に基づいて、グループＧを選択する（ステップＳ３１４）。次に、付与部２７Ｊが、ステップＳ３１４で選択されたグループＧに属する未教示データ３８に、正解ラベルに応じたラベルを付与し、追加教示済データ３４とする（ステップＳ３１６）。

次に、登録部２７Ｎが、ステップＳ３１４で選択されたグループＧを、Ｎ個の小グループに分割する（ステップＳ３１８）。次に、登録部２７Ｎは、該Ｎ個の小グループの各々に属する追加教示済データ３４を、該Ｎ個の学習用データ３０に各々登録する。言い換えると、登録部２７Ｎは、選択部２０Ｉによって選択されたグループＧに属する、付与部２７Ｊによってラベルの付与された追加教示済データ３４を、Ｎ個に分けて、Ｎ個の学習用データ３０へ各々登録する（ステップＳ３２０）。そして、上記ステップＳ３０２へ進む。

一方、上記ステップＳ３０４で肯定判断すると（ステップＳ３０４：Ｙｅｓ）、ステップＳ３２２へ進む。ステップＳ３２２では、出力制御部２５Ｃが、最新のバージョン情報に対応する、Ｎ個の辞書２２Ａを、最終的に確定した辞書２２Ａとして出力する（ステップＳ３２２）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態では、情報処理装置１０Ｃは、Ｎ個の学習用データ３０を用いて生成された、Ｎ個の辞書２２Ａを、最終的に確定した辞書２２Ａとして出力する。

このため、本実施の形態の情報処理装置１０Ｃは、上記実施の形態の効果に加えて、安定的に高精度な辞書２２Ａを出力することができる。

（第４の実施の形態）
本実施の形態では、同じ対象から導出された、データ形式の異なる複数種類の未教示データ３８を用いて、学習用データ３０を生成する方法を説明する。

図９は、本実施の形態の情報処理装置１０Ｄの構成の一例を示す模式図である。なお、上記実施の形態と同じ機能を示す構成については、同じ符号を付与して、説明を省略する場合がある。

情報処理装置１０Ｄは、処理部２１と、記憶部２９と、出力部２４と、を含む。処理部２１、記憶部２９、および出力部２４は、バス９を介して接続されている。出力部２４は、第１の実施の形態と同様である。

記憶部２９は、各種データを記憶する。本実施の形態では、記憶部２９は、未使用データ３６として、未教示データ３８の組３８Ｃを記憶する。

ここで、本実施の形態では、情報処理装置１０Ｄは、データ形式の異なる複数種類の未教示データ３８として、２種類の未教示データ３８を用いる場合を、一例として説明する。しかし、３種類以上の未教示データ３８を用いてもよく、２種類に限定されない。また、複数種類の未教示データ３８は、対象を表現する手段が違っていればよく、データ形式は同じでもよい。

具体的には、情報処理装置１０Ｄは、同じ対象から得られた、第１データ形式の未教示データ３８と、第２データ形式の未教示データ３８と、の組３８Ｃの群を、記憶する。

なお、以下では、第１データ形式の未教示データ３８を、第１未教示データ３８Ｃ１と称して説明する。また、第２データ形式の未教示データ３８を、第２未教示データ３８Ｃ２と称して説明する。

第１未教示データ３８Ｃ１とは、含まれるパターンのデータ形式が第１データ形式の、未教示データ３８である。第２未教示データ３８Ｃ２とは、含まれるパターンのデータ形式が第２データ形式の、未教示データ３８である。なお、上記実施の形態で説明したように、未教示データ３８に含まれるパターンには、対応するラベルが未付与である。

例えば、第１未教示データ３８Ｃ１は、音データのパターンを含み、第２未教示データ３８Ｃ２は、画像データのパターンを含む。そして、同じ組３８Ｃに属するこれらの未教示データ３８は、同じ対象（例えば、特定の種類の動物）から得られるデータである。具体的には、特定の動物（例えば、犬）の声を示す音データが、第１未教示データ３８Ｃ１に含まれるパターンであり、犬の画像を示す画像データが、第２未教示データ３８Ｃ２に含まれるパターンである。

また、本実施の形態では、記憶部２９は、辞書２２Ａとして、情報処理装置１０Ｄで扱うデータ形式の種類に対応する辞書２２Ａを記憶する。本実施の形態では、記憶部２９は、第１辞書３１Ａと、第２辞書３１Ｂと、を記憶する。

第１辞書３１Ａは、第１データ形式の未知データに対する正解ラベルを認識するための辞書２２Ａである。第２辞書３１Ｂは、第２データ形式の未知データに対する正解ラベルを認識するための、辞書２２Ａである。これらの辞書２２Ａ（第１辞書３１Ａ、第２辞書３１Ｂ）は、後述する処理部２１の処理によって生成される。

また、本実施の形態では、記憶部２９は、情報処理装置１０Ｄで扱うデータ形式の種類に対応する学習用データ３０を記憶する。本実施の形態では、記憶部２９は、第１学習用データ３０Ａと、第２学習用データ３０Ｂと、を記憶する。

第１学習用データ３０Ａは、第１データ形式の教示済データ３２と、第１データ形式の追加教示済データ３４と、を登録するためのデータベースである。すなわち、第１学習用データ３０Ａに登録される、教示済データ３２および追加教示済データ３４の各々に含まれるパターンは、第１データ形式のデータである。なお、第１学習用データ３０Ａのデータ構成は、データベースに限定されない。

なお、以下では、第１データ形式の教示済データ３２を、第１教示済データ３２Ａと称して説明する。また、第１データ形式の追加教示済データ３４を、第１追加教示済データ３４Ａと称して説明する。

初期の状態では、第１学習用データ３０Ａには、第１教示済データ３２Ａのみが記憶されている。そして、後述する処理部２１による処理によって、第１学習用データ３０Ａに、第１追加教示済データ３４Ａが追加される（詳細後述）。

第２学習用データ３０Ｂは、第２データ形式の教示済データ３２と、第２データ形式の追加教示済データ３４と、を登録するためのデータベースである。すなわち、第２学習用データ３０Ｂに登録される、教示済データ３２および追加教示済データ３４の各々に含まれるパターンは、第２データ形式のデータである。なお、第２学習用データ３０Ｂのデータ構成は、データベースに限定されない。

なお、以下では、第２データ形式の教示済データ３２を、第２教示済データ３２Ｂと称して説明する。また、第２データ形式の追加教示済データ３４を、第２追加教示済データ３４Ｂと称して説明する。

初期の状態では、第２学習用データ３０Ｂには、第２教示済データ３２Ｂのみが記憶されている。そして、後述する処理部２１による処理によって、第２学習用データ３０Ｂに、第２追加教示済データ３４Ｂが追加される（詳細後述）。

処理部２１は、辞書生成部２１Ａと、終了判断部２０Ｂと、出力制御部２０Ｃと、分類部２１Ｄと、グループ辞書生成部２１Ｇと、算出部２１Ｈと、選択部２０Ｉと、付与部２１Ｊと、登録部２１Ｋと、を備える。分類部２１Ｄは、分類スコア算出部２１Ｅと、データ分類部２１Ｆと、を含む。

辞書生成部２１Ａは、第１学習用データ３０Ａを用いて、第１辞書３１Ａを生成する。また、辞書生成部２１Ａは、第２学習用データ３０Ｂを用いて、第２辞書３１Ｂを生成する。辞書生成部２１Ａは、第１の実施の形態の辞書生成部２０Ａと同様にして、第１辞書３１Ａおよび第２辞書３１Ｂの各々を生成すればよい。

図１０は、処理部２１が実行する、情報処理の流れを示す、模式図である。図１０（Ａ）および図１０（Ｂ）に示すように、辞書生成部２１Ａは、第１学習用データ３０Ａを用いて、第１辞書３１Ａを生成する（ステップＳ１０）。同様に、辞書生成部２１Ａは、第２学習用データ３０Ｂを用いて、第２辞書３１Ｂを生成する（ステップＳ１１）。

第１学習用データ３０Ａおよび第２学習用データ３０Ｂの各々には、初期状態では、教示済データ３２（第１教示済データ３２Ａ、第２教示済データ３２Ｂ）のみが登録されている。そして、第１学習用データ３０Ａおよび第２学習用データ３０Ｂの各々には、後述する処理によって、追加教示済データ３４（第１追加教示済データ３４Ａ、第２追加教示済データ３４Ｂ）が追加される。辞書生成部２１Ａは、最新の学習用データ３０（第１学習用データ３０Ａ、第２学習用データ３０Ｂ）を用いて、辞書２２Ａ（第１辞書３１Ａ、第２辞書３１Ｂ）を生成する。

図９に戻り説明を続ける。終了判断部２０Ｂおよび出力制御部２０Ｃは、第１の実施の形態と同様である。

次に、分類部２１Ｄ、グループ辞書生成部２１Ｇ、算出部２１Ｈ、選択部２０Ｉ、付与部２１Ｊ、および登録部２１Ｋについて説明する。なお、本実施の形態では、処理部２１のこれらの各部は、未使用データ３６について、２種類のデータ形式に応じた処理を行う。具体的には、未使用データ３６に登録されている未教示データ３８の組３８Ｃの群の一部について、一方の種類のデータ形式に応じて下記一連の処理を行った後に、残りの一部について、他方の種類のデータ形式に応じて下記一連の処理を行う。

分類部２１Ｄは、未使用データ３６に登録されている未教示データ３８の組３８Ｃの群を、複数のグループＧに分類する。

本実施の形態では、分類部２１Ｄは、第１の実施の形態と同様に、正解ラベルに応じて、未教示データ３８の組３８Ｃの群をグループＧに分類する。但し、本実施の形態では、分類部２１Ｄは、第１データ形式を処理対象としている場合には、第１辞書３１Ａを用いて分類する。一方、分類部２１Ｄは、第２データ形式を処理対象としている場合には、第２辞書３１Ｂを用いて分類する。

本実施の形態では、分類部２１Ｄは、分類スコア算出部２１Ｅと、データ分類部２１Ｆと、を含む。

分類スコア算出部２１Ｅは、未教示データ３８について、分類スコアを算出する。

本実施の形態では、分類スコア算出部２１Ｅは、第１データ形式を処理対象としている場合には、第１辞書３１Ａから認識される正解ラベルに対する類似度に関する値を、分類スコアとして算出する。また、分類スコア算出部２１Ｅは、第２データ形式を処理対象としている場合には、第２辞書３１Ｂから認識される正解ラベルに対する類似度に関する値を、分類スコアとして算出する。

なお、分類スコアの算出方法は、各データ形式に対応する辞書２２Ａ（第１辞書３１Ａ、第２辞書３１Ｂ）を用いる点以外は、第１の実施の形態と同様である。

例えば、図１０（Ｃ）および図１０（Ｄ）に示すように、分類スコア算出部２１Ｅは、第１未教示データ３８Ｃ１について、第１辞書３１Ａを用いて、分類スコアを算出する（ステップＳ１２、ステップＳ１３、ステップＳ１４）。また、第２データ形式を処理対象としている場合には、分類スコア算出部２１Ｅは、第２未教示データ３８Ｃ２について、第２辞書３１Ｂを用いて、分類スコアを算出する（ステップＳ３２、ステップＳ３３、ステップＳ３４）。

図１に戻り説明を続ける。データ分類部２１Ｆは、第１の実施の形態のデータ分類部２０Ｆと同様に、分類スコアに応じて、未教示データ３８をグループＧに分類する。例えば、データ分類部２１Ｆは、複数の未教示データ３８を、分類スコアが近似する範囲の群が同じグループＧとなるように、複数のグループＧに分類する。

例えば、図１０（Ｄ）および図１０（Ｅ）に示すように、第１データ形式を処理対象としている場合には、データ分類部２１Ｆは、複数の第１未教示データ３８Ｃ１を、分類スコアに応じて、複数のグループＧ（図１０に示す例では、グループＧＡ、ＧＢ、・・）に分類する（ステップＳ１５）。

同様に、第２データ形式を処理対象としている場合には、データ分類部２１Ｆは、複数の第２未教示データ３８Ｃ２を、分類スコアに応じて、複数のグループＧ（図１０に示す例では、グループＧＡ、ＧＢ、・・）に分類する（ステップＳ３５）。なお、図１０には、第１データ形式を処理対象としている場合も第２データ形式を処理対象としている場合も、同様なグループＧへの分類がなされている例を示したが、同じ分類がなされるとは限られない。これは、第１データ形式を処理対象とした場合と、第２データ形式を処理対象とした場合と、では、分類スコアが異なるものとなるためである。

図９に戻り説明を続ける。グループ辞書生成部２１Ｇは、分類部２１Ｄで分類されたグループＧの各々に属する未教示データ３８の組３８Ｃを用いて、グループＧごとにグループ辞書４０を生成する。

図１０（Ｅ）および図１０（Ｆ）に示すように、本実施の形態では、グループ辞書生成部２１Ｇは、第１データ形式を処理対象としている場合、該第１未教示データ３８Ｃ１と同じ組３８Ｃの第２未教示データ３８Ｃ２と、第２学習用データ３０Ｂと、を用いて、第２グループ辞書４１Ｂを生成する（ステップＳ１６、ステップＳ１７）。

なお、第１未教示データ３８Ｃ１と同じ組３８Ｃの第２未教示データ３８Ｃ２とは、第１未教示データ３８Ｃ１と同じ対象から得られた、第２未教示データ３８Ｃ２である。

このとき、グループ辞書生成部２１Ｇは、第２グループ辞書４１Ｂのラベルとして、第１学習用データ３０Ａの第１教示済データ３２Ａに付与された正解ラベル（第１正解ラベルＬＡと称する場合がある）を用いる（ステップＳ１８）。

このため、第２グループ辞書４１Ｂは、第２データ形式の未知データから、第１辞書３１Ａ（および第１教示済データ３２Ａ）に規定された正解ラベルを認識するための、グループ辞書４０となる。

一方、第２データ形式を処理対象としている場合、図１０（Ｅ）および図１０（Ｆ）に示すように、該第２未教示データ３８Ｃ２と同じ組３８Ｃの第１未教示データ３８Ｃ１と、第１学習用データ３０Ａと、を用いて、第１グループ辞書４１Ａを生成する（ステップＳ３６、ステップＳ３７）。

このとき、グループ辞書生成部２１Ｇは、第１グループ辞書４１Ａのラベルとして、第２学習用データ３０Ｂの第２教示済データ３２Ｂに付与された正解ラベル（第２正解ラベルＬＢと称する場合がある）を用いる（ステップＳ３８）。

このため、第１グループ辞書４１Ａは、第１データ形式の未知データから、第２辞書３１Ｂ（および第２教示済データ３２Ｂ）に規定された正解ラベルを認識するための、グループ辞書４０となる。

図９に戻り、説明を続ける。算出部２１Ｈは、第１の実施の形態の算出部２０Ｈと同様に、グループ辞書４０を用いて、グループ辞書４０に対応するグループＧの評価値を算出する。具体的には、算出部２１Ｈは、第２グループ辞書４１Ｂを用いて、第２グループ辞書４１Ｂに対応するグループＧの評価値を算出する（図１０（Ｇ）およびステップＳ１９参照）。

なお、算出部２１Ｈは、第２グループ辞書４１Ｂに対応するグループＧの評価値の算出時には、第１学習用データ３０Ａに登録されている少なくとも一部の第１教示済データ３２Ａのパターンの群を、所定のパターン群として用いて、評価値を算出する。

同様に、算出部２１Ｈは、第１グループ辞書４１Ａを用いて、第１グループ辞書４１Ａに対応するグループＧの評価値を算出する（図１０（Ｇ）およびステップＳ３９参照）。なお、算出部２１Ｈは、第１グループ辞書４１Ａに対応するグループＧの評価値の算出時には、第２学習用データ３０Ｂに登録されている少なくとも一部の第２教示済データ３２Ｂのパターンの群を、所定のパターン群として用いて、評価値を算出する。

選択部２０Ｉは、第１の実施の形態と同様に、評価値に基づいて、グループＧを選択する。例えば、選択部２０Ｉは、第１データ形式を処理対象としている場合には、生成された第２グループ辞書４１Ｂの評価値に応じて、グループＧを選択する。また、選択部２０Ｉは、第２データ形式を処理対象としている場合には、生成された第１グループ辞書４１Ａの評価値に応じて、グループＧを選択する。

付与部２１Ｊは、選択部２０Ｉによって選択されたグループＧに属する未教示データ３８の組３８Ｃに、正解ラベルに応じたラベルを付与する。

詳細には、付与部２１Ｊは、第１データ形式を処理対象としている場合には、選択部２０Ｉで選択したグループＧに属する、第１未教示データ３８Ｃ１と、該第１未教示データ３８Ｃ１と同じ対象から得られた第２未教示データ３８Ｃ２と、に正解ラベルに応じたラベルを付与する（図１０（Ｇ）、ステップＳ２０参照）。この時に付与するラベルに応じた正解ラベルは、分類スコア算出部２１Ｅによって算出された分類スコアの導出に用いられた、最も類似度の高い正解ラベルである。すなわち、この時に付与するラベルに応じた正解ラベルは、第１辞書３１Ａから認識される正解ラベルである。

一方、付与部２１Ｊは、第２データ形式を処理対象としている場合には、選択部２０Ｉで選択したグループＧに属する、第２未教示データ３８Ｃ２と、該第２未教示データ３８Ｃ２と同じ対象から得られた第１未教示データ３８Ｃ１と、に正解ラベルに応じたラベルを付与する（図１０（Ｇ）、ステップＳ４０参照）。この時に付与するラベルに応じた正解ラベルは、分類スコア算出部２１Ｅによって算出された分類スコアの導出に用いられた、最も類似度の高い正解ラベルである。すなわち、この時に付与するラベルに応じた正解ラベルは、第２辞書３１Ｂから認識される正解ラベルである。

登録部２１Ｋは、ラベルを付与された未教示データ３８を、追加教示済データ３４として学習用データ３０へ登録する。

本実施の形態では、第１データ形式を処理対象としている場合には、登録部２１Ｋは、付与部２１Ｊによってラベルを付与された第１未教示データ３８Ｃ１を、第１追加教示済データ３４Ａとして、第１学習用データ３０Ａに登録する（図１０（Ｈ）、ステップＳ２１参照）。また、該第１未教示データ３８Ｃ１と同じ対象から得られた、付与部２１Ｊによってラベルを付与された第２未教示データ３８Ｃ２を、第２追加教示済データ３４Ｂとして、第２学習用データ３０Ｂに登録する（図１０（Ｈ）、ステップＳ２１参照）。このとき、登録部２１Ｋは、学習用データ３０（第１学習用データ３０Ａ、第２学習用データ３０Ｂ）に登録した未教示データ３８（第１未教示データ３８Ｃ１、第２未教示データ３８Ｃ２）を、未使用データ３６から削除する。

また、第２データ形式を処理対象としている場合には、登録部２１Ｋは、付与部２１Ｊによってラベルを付与された第２未教示データ３８Ｃ２を、第２追加教示済データ３４Ｂとして、第２学習用データ３０Ｂに登録する（図１０（Ｈ）、ステップＳ４１参照）。また、該第２未教示データ３８Ｃ２と同じ対象から得られた、付与部２１Ｊによってラベルを付与された第１未教示データ３８Ｃ１を、第１追加教示済データ３４Ａとして、第１学習用データ３０Ａに登録する（図１０（Ｈ）、ステップＳ４１参照）。このとき、登録部２１Ｋは、学習用データ３０（第１学習用データ３０Ａ、第２学習用データ３０Ｂ）に登録した未教示データ３８（第１未教示データ３８Ｃ１、第２未教示データ３８Ｃ２）を、未使用データ３６から削除する。

本実施の形態の処理部２１では、分類部２１Ｄ、グループ辞書生成部２１Ｇ、算出部２１Ｈ、選択部２０Ｉ、付与部２１Ｊ、および登録部２１Ｋが、処理対象のデータ形式の種類ごとに、上記の一連の処理（グループＧへの分類、グループ辞書４０の生成、評価値の算出、グループＧの選択、ラベルの付与、学習用データ３０への登録）を実行する。このため、本実施の形態の情報処理装置１０Ｄでは、異なる種類のデータ形式を用いて、未教示データ３８に相補的にラベルを付与し、学習用データ３０を生成することができる。

次に、本実施の形態の情報処理装置１０Ｄが実行する、情報処理の手順を説明する。図１１は、本実施の形態の情報処理装置１０Ｄが実行する、情報処理の手順の一例を示す、フローチャートである。

まず、処理部２１は、処理対象データを、学習用データ３０および未使用データ３６へ登録する（ステップＳ４００）。本実施の形態では、処理部２１は、処理対象データとして、第１未教示データ３８Ｃ１と第２未教示データ３８Ｃ２の未教示データ３８の組３８Ｃの群と、第１教示済データ３２Ａと第２教示済データ３２Ｂの組の群と、を外部装置などから受付けると仮定する。処理部２１は、第１教示済データ３２Ａを第１学習用データ３０Ａへ登録し、第２教示済データ３２Ｂを第２学習用データ３０Ｂへ登録する。また、処理部２１は、第１未教示データ３８Ｃ１と第２未教示データ３８Ｃ２の未教示データ３８の組３８Ｃの群を、未使用データ３６へ登録する。

次に、辞書生成部２１Ａは、第１学習用データ３０Ａを用いて、第１辞書３１Ａを生成する（ステップＳ４０２）。次に、辞書生成部２１Ａは、第２学習用データ３０Ｂを用いて、第２辞書３１Ｂを生成する（ステップＳ４０４）。

そして、終了判断部２０Ｂが、学習を終了するか否かを判断する（ステップＳ４０６）。学習を終了しないと判断した場合（ステップＳ４０６：Ｎｏ）、ステップＳ４０８へ進む。

まず、処理部２１は、第１データ形式を処理対象としたと仮定する。この場合、処理部２１は、ステップＳ４０８〜ステップＳ４２０の処理を実行する。

詳細には、まず、分類スコア算出部２１Ｅが、未使用データ３６に登録されている複数の未教示データ３８の内の一部の第１未教示データ３８Ｃ１を、処理対象とする。そして、処理対象とした複数の第１未教示データ３８Ｃ１について、第１辞書３１Ａから認識される正解ラベルに対する類似度に関する値を、分類スコアとして算出する（ステップＳ４０８）。

次に、データ分類部２１Ｆが、ステップＳ４０８で算出された分類スコアに応じて、処理対象とした複数の第１未教示データ３８Ｃ１を、複数のグループＧに分類する（ステップＳ４１０）。

次に、グループ辞書生成部２１Ｇが、処理対象の第１未教示データ３８Ｃ１と同じ組３８Ｃの第２未教示データ３８Ｃ２と、第２学習用データ３０Ｂと、を用いて、第２グループ辞書４１Ｂを生成する（ステップＳ４１２）。

次に、算出部２１Ｈが、ステップＳ４１２で生成された第２グループ辞書４１Ｂを用いて、第２グループ辞書４１Ｂに対応するグループＧの評価値を算出する（ステップＳ４１４）。上述したように、算出部２１Ｈは、第１学習用データ３０Ａに登録されている少なくとも一部の第１教示済データ３２Ａのパターンの群を、所定のパターン群として用いて、評価値を算出する。

次に、選択部２０Ｉが、ステップＳ４１４で算出された評価値に応じて、グループＧを選択する（ステップＳ４１６）。

次に、付与部２１Ｊが、ステップＳ４１６で選択されたグループＧに属する、第１未教示データ３８Ｃ１と、該第１未教示データ３８Ｃ１と同じ対象から得られた第２未教示データ３８Ｃ２と、に第１正解ラベルＬＡに応じたラベルを付与する（ステップＳ４１８）。

次に、登録部２１Ｋは、ステップＳ４１８でラベルを付与された第１未教示データ３８Ｃ１を、第１追加教示済データ３４Ａとして、第１学習用データ３０Ａに登録する（ステップＳ４２０）。また、登録部２１Ｋは、該第１未教示データ３８Ｃ１と同じ対象から得られた、付与部２１Ｊによってラベルを付与された第２未教示データ３８Ｃ２を、第２追加教示済データ３４Ｂとして、第２学習用データ３０Ｂに登録する（ステップＳ４２０）。このとき、登録部２１Ｋは、学習用データ３０（第１学習用データ３０Ａ、第２学習用データ３０Ｂ）に登録した未教示データ３８（第１未教示データ３８Ｃ１、第２未教示データ３８Ｃ２）を、未使用データ３６から削除する。

次に、処理部２１は、第２データ形式を処理対象とする。そして、処理部２１は、ステップＳ４２２〜ステップＳ４３４の処理を実行する。

詳細には、まず、分類スコア算出部２１Ｅが、未使用データ３６に登録されている複数の第２未教示データ３８Ｃ２を、処理対象とする。そして、処理対象とした複数の第２未教示データ３８Ｃ２について、第２辞書３１Ｂから認識される正解ラベルに対する類似度に関する値を、分類スコアとして算出する（ステップＳ４２２）。

次に、データ分類部２１Ｆが、ステップＳ４２２で算出された分類スコアに応じて、処理対象とした複数の第２未教示データ３８Ｃ２を、複数のグループＧに分類する（ステップＳ４２４）。

次に、グループ辞書生成部２１Ｇが、処理対象の第２未教示データ３８Ｃ２と同じ組３８Ｃの第１未教示データ３８Ｃ１と、第１学習用データ３０Ａと、を用いて、第１グループ辞書４１Ａを生成する（ステップＳ４２６）。

次に、算出部２１Ｈが、ステップＳ４２６で生成された第１グループ辞書４１Ａを用いて、第１グループ辞書４１Ａに対応するグループＧの評価値を算出する（ステップＳ４２８）。上述したように、算出部２１Ｈは、第２学習用データ３０Ｂに登録されている少なくとも一部の第２教示済データ３２Ｂのパターンの群を、所定のパターン群として用いて、評価値を算出する。

次に、選択部２０Ｉが、ステップＳ４２８で算出された評価値に応じて、グループＧを選択する（ステップＳ４３０）。

次に、付与部２１Ｊが、ステップＳ４３０で選択されたグループＧに属する、第２未教示データ３８Ｃ２と、該第２未教示データ３８Ｃ２と同じ対象から得られた第１未教示データ３８Ｃ１と、に第２正解ラベルＬＢに応じたラベルを付与する（ステップＳ４３２）。

次に、登録部２１Ｋは、ステップＳ４３２でラベルを付与された第２未教示データ３８Ｃ２を、第２追加教示済データ３４Ｂとして、第２学習用データ３０Ｂに登録する（ステップＳ４３４）。また、登録部２１Ｋは、該第２未教示データ３８Ｃ２と同じ対象から得られた、付与部２１Ｊによってラベルを付与された第１未教示データ３８Ｃ１を、第１追加教示済データ３４Ａとして、第１学習用データ３０Ａに登録する（ステップＳ４３４）。このとき、登録部２１Ｋは、学習用データ３０（第１学習用データ３０Ａ、第２学習用データ３０Ｂ）に登録した未教示データ３８（第１未教示データ３８Ｃ１、第２未教示データ３８Ｃ２）を、未使用データ３６から削除する。そして、上記ステップＳ４０２へ戻る。

一方、上記ステップＳ４０６で肯定判断すると（ステップＳ４０６：Ｙｅｓ）、ステップＳ４３６へ進む。ステップＳ４３６では、出力制御部２０Ｃが、直前のステップＳ４０２〜ステップＳ４３４の処理によって生成された最新の辞書２２Ａ（第１辞書３１Ａ、第２辞書３１Ｂ）を、最終的に確定した辞書２２Ａとして出力する（ステップＳ４３６）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理装置１０Ｄは、異なる種類のデータ形式を用いて、未教示データ３８に相補的にラベルを付与し、学習用データ３０（第１学習用データ３０Ａ、第２学習用データ３０Ｂ）を生成する。

従って、本実施の形態の情報処理装置１０Ｄは、上記第１の実施の形態の効果に加えて、更に認識精度の高い辞書２２Ａを生成するためのデータ（第１学習用データ３０Ａ、第２学習用データ３０Ｂ）を提供することができる。

（第５の実施の形態）
本実施の形態では、未教示データ３８に付与するラベルを、外部から受け付ける。

図１２は、本実施の形態の情報処理装置１０Ｅの構成の一例を示す模式図である。なお、上記実施の形態と同じ機能を示す構成については、同じ符号を付与して、説明を省略する場合がある。

情報処理装置１０Ｅは、処理部２３と、記憶部２２と、出力部２４と、を含む。処理部２３、記憶部２２、および出力部２４は、バス９を介して接続されている。記憶部２２および出力部２４は、第１の実施の形態と同様である。

処理部２３は、辞書生成部２０Ａと、終了判断部２０Ｂと、出力制御部２３Ｃと、分類部２０Ｄと、グループ辞書生成部２０Ｇと、算出部２０Ｈと、選択部２０Ｉと、付与部２３Ｊと、登録部２０Ｋと、受付部２３Ｇと、を備える。

辞書生成部２０Ａ、終了判断部２０Ｂ、分類部２０Ｄ、グループ辞書生成部２０Ｇ、算出部２０Ｈ、選択部２０Ｉ、および、登録部２０Ｋは、第１の実施の形態と同様である。

付与部２３Ｊは、選択部２０Ｉによって選択されたグループＧに属する未教示データ３８を、出力制御部２３Ｃへ出力する。

出力制御部２３Ｃは、各種データを出力するように、出力部２４を制御する。第１の実施の形態と同様に、出力制御部２３Ｃは、終了判断部２０Ｂによって学習を終了すると判断されたときに辞書２２Ａを出力する。

本実施の形態では、出力制御部２３Ｃは、更に、付与部２３Ｊから受付けた未教示データ３８を、ＵＩ部２４Ａに出力（表示）する制御を行う。このため、ＵＩ部２４Ａには、選択部２０Ｉによって選択されたグループＧに属する、未教示データ３８の一覧が表示される。

ユーザは、ＵＩ部２４Ａを操作することで、ＵＩ部２４Ａに表示された未教示データ３８に含まれるパターンの各々に対応する、ラベルを入力する。すると、受付部２３Ｇは、ＵＩ部２４Ａから、未教示データ３８の各々に付与する、ラベルの入力を受付ける。

すなわち、受付部２３Ｇは、選択部２０Ｉで選択されたグループ辞書４０に対応するグループＧに属する、未教示データ３８に付与する、ラベルの入力を受付ける。

付与部２３Ｊは、選択部２０Ｉによって選択されたグループＧに属する未教示データ３８に、受付部２３Ｇで受付けたラベルを付与する。

次に、本実施の形態の情報処理装置１０Ｅが実行する、情報処理の手順を説明する。図１３は、本実施の形態の情報処理装置１０Ｅが実行する、情報処理の手順の一例を示す、フローチャートである。

情報処理装置１０Ｅは、第１の実施の形態と同様にして、ステップＳ５００〜ステップＳ５１４の処理を実行する（図４のステップＳ１００〜ステップＳ１１４参照）。

具体的には、情報処理装置１０Ｅの処理部２３は、処理対象データを、学習用データ３０および未使用データ３６へ登録する（ステップＳ５００）。次に、辞書生成部２０Ａが、学習用データ３０を用いて、辞書２２Ａを生成する（ステップＳ５０２）。次に、終了判断部２０Ｂが、学習を終了するか否かを判断する（ステップＳ５０４）。学習を終了しないと判断した場合（ステップＳ５０４：Ｎｏ）、ステップＳ５０６へ進む。

ステップＳ５０６では、分類部２０Ｄの分類スコア算出部２０Ｅが、未使用データ３６に登録されている未教示データ３８の各々について、分類スコアを算出する（ステップＳ５０６）。次に、データ分類部２０Ｆが、未使用データ３６に登録されている複数の未教示データ３８を、分類スコアに応じて、グループＧに分類する（ステップＳ５０８）。そして、グループ辞書生成部２０Ｇが、グループ辞書４０を生成する（ステップＳ５１０）。次に、算出部２０Ｈが、グループ辞書４０を用いて、グループ辞書４０に対応するグループＧの評価値を算出する（ステップＳ５１２）。次に、選択部２０Ｉが、ステップＳ５１２で算出された評価値に基づいて、グループＧを選択する（ステップＳ５１４）。

次に、付与部２３Ｊが、ステップＳ５１４で選択されたグループＧに属する未教示データ３８を、出力制御部２３Ｃへ出力する。出力制御部２３Ｃは、受付けた未教示データ３８を、ＵＩ部２４Ａへ表示する（ステップＳ５１６）。

ユーザは、ＵＩ部２４Ａに表示された未教示データ３８を参照し、未教示データ３８のパターンにラベルを入力する。すると、受付部２３Ｇは、未教示データ３８の各々に対応するラベルの入力を受付ける（ステップＳ５１８）。

付与部２３Ｊは、ステップＳ５１４で選択されたグループＧに属する未教示データ３８に、ステップＳ５１８で受付けたラベルを付与する（ステップＳ５２０）。

次に、登録部２０Ｋが、ステップＳ５２０でラベルを付与された未教示データ３８を、追加教示済データ３４として、学習用データ３０に登録する（ステップＳ５２２）。そして、上記ステップＳ５０２へ戻る。

一方、上記ステップＳ５０４で肯定判断すると（ステップＳ５０４：Ｙｅｓ）、ステップＳ５２４へ進む。ステップＳ５２４では、出力制御部２３Ｃが辞書２２Ａを出力する（ステップＳ５２４）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理装置１０Ｅでは、付与部２３Ｊは、選択部２０Ｉで選択されたグループＧに属する未教示データ３８に、ユーザによって入力されることで受付けたラベルを付与する。

ここで、従来では、未教示データ３８の全てに対して、ユーザがラベルの付与を行っていた。一方、本実施の形態の情報処理装置１０Ｅは、選択部２０Ｉで選択されたグループＧに属する未教示データ３８に対して、ユーザによって入力されたラベルを付与する。

従って、本実施の形態の情報処理装置１０Ｅでは、上記第１の実施の形態の効果に加えて、ユーザの作業負荷の軽減を図ることができる。

次に、上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅのハードウェア構成を説明する。図１４は、上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅのハードウェア構成例を示す説明図である。

上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅは、ＣＰＵ７１などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７２やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ７４と、各部を接続するバス７５と、を備える。

上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅで実行されるプログラムは、ＲＯＭ７２等に予め組み込まれて提供される。

上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅで実行されるプログラムは、コンピュータを、上記実施の形態の情報処理装置１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅの各部として機能させうる。このコンピュータは、ＣＰＵ７１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

上記には、本発明の実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅ情報処理装置
２０Ａ、２１Ａ、２７Ａ辞書生成部
２０Ｄ、２１Ｄ、２５Ｄ、２７Ｄ分類部
２０Ｅ、２１Ｅ、２７Ｅ分類スコア算出部
２０Ｆ、２１Ｆデータ分類部
２０Ｇ、２１Ｇ、２７Ｇグループ辞書生成部
２０Ｈ、２１Ｈ、２５Ｈ、２７Ｈ算出部
２０Ｉ選択部
２０Ｊ、２１Ｊ、２３Ｊ、２７Ｊ付与部
２０Ｋ、２１Ｋ、２７Ｎ登録部
２３Ｇ受付部
２５Ｌ再分類判断部
２５Ｍ再分類部
２５Ｎ修正部
３０学習用データ
３２教示済データ
３４追加教示済データ
３６未使用データ
３８未教示データ
４０グループ辞書

Claims

ラベル未付与の未教示データをグループに分類する分類部と、
前記グループに属する前記未教示データを用いて前記グループごとに生成された、未知データに対するラベルを認識するためのグループ辞書に対する、ラベルの認識精度に応じて、前記グループの評価値を算出する算出部と、
前記評価値に基づいて、前記グループを選択する選択部と、
選択した前記グループに属する前記未教示データに、正解ラベルに応じたラベルを付与する付与部と、
を備える情報処理装置。
前記分類部は、前記正解ラベルに応じて、前記未教示データを前記グループに分類する、
請求項１に記載の情報処理装置。
前記分類部は、
前記正解ラベルに対する前記未教示データの類似度に関する分類スコアを算出する分類スコア算出部と、
前記分類スコアに応じて、前記未教示データを前記グループに分類するデータ分類部と、
を含む、
請求項１または請求項２に記載の情報処理装置。
前記分類部は、
前記選択部によって選択された前記グループを、再分類するか否かを判断する再分類判断部と、
再分類すると判断した場合、該グループを再分類する再分類部と、
を含む、請求項１〜請求項３の何れか１項に記載の情報処理装置。
前記正解ラベルを付与された教示済データを登録した学習用データに、ラベルを付与された前記未教示データを追加教示済データとして登録する登録部、
を更に備える、請求項１〜請求項４の何れか１項に記載の情報処理装置。
前記学習用データを用いて、未知データに対する正解ラベルを認識するための辞書を生成する辞書生成部、
を更に備える、請求項５に記載の情報処理装置。
前記学習用データにおける、前記追加教示済データの内、第１条件を満たす前記追加教示済データを修正する修正部を更に備える、
請求項５または請求項６に記載の情報処理装置。
前記修正部は、
前記学習用データにおける、前記第１条件を満たす前記追加教示済データについて、付与されているラベルを該学習用データを用いて認識したラベルに変更、付与されているラベルを除去し前記未教示データとして未使用データへ移動、および、前記学習用データから削除、の少なくとも１つを行うことによって、該追加教示済データを修正する、
請求項７に記載の情報処理装置。
前記登録部は、
選択された前記グループを、Ｎ個（Ｎは２以上の整数）の小グループに分割し、該Ｎ個の前記小グループの各々に属する前記追加教示済データを、該Ｎ個の前記学習用データに各々登録し、
前記辞書生成部は、
前記Ｎ個の前記学習用データの各々を用いて、前記Ｎ個の前記辞書を生成する、
請求項６に記載の情報処理装置。
前記分類部は、
第１データ形式の前記未教示データを、前記第１データ形式の未知データに対する正解ラベルを認識するための第１辞書を用いて、前記グループに分類し、
前記算出部は、
前記グループに属する前記第１データ形式の前記未教示データと同じ対象から得られた第２データ形式の前記未教示データと、前記正解ラベルを付与された前記第２データ形式の前記教示済データを登録した第２学習用データと、に応じて生成された第２グループ辞書、を用いて、前記グループの評価値を算出し、
前記選択部は、
前記評価値に基づいて、前記グループを選択し、
前記付与部は、
選択した前記グループに属する前記第１データ形式の前記未教示データと、該第１データ形式の前記未教示データと同じ対象から得られた前記第２データ形式の前記未教示データと、に前記正解ラベルに応じたラベルを付与し、
前記登録部は、
前記第１データ形式の前記教示済データを登録した第１学習用データに、ラベルを付与された前記第１データ形式の前記未教示データを登録し、前記第２学習用データに、ラベルを付与された前記第２データ形式の前記教示済データを登録する、
請求項６に記載の情報処理装置。
前記評価値に基づいて選択された前記グループ辞書に対応する前記グループに属する前記未教示データに付与する、ラベルの入力を受付ける受付部を備え、
前記付与部は、
該グループに属する前記未教示データに、受付けた前記ラベルを付与する、
請求項１〜請求項１０の何れか１項に記載の情報処理装置。
ラベル未付与の未教示データをグループに分類するステップと、
前記グループに属する前記未教示データを用いて前記グループごとに生成された、未知データに対するラベルを認識するためのグループ辞書に対する、ラベルの認識精度に応じて、前記グループの評価値を算出するステップと、
前記評価値に基づいて、前記グループを選択するステップと、
選択した前記グループに属する前記未教示データに、正解ラベルに応じたラベルを付与するステップと、
を含む情報処理方法。
ラベル未付与の未教示データをグループに分類するステップと、
前記グループに属する前記未教示データを用いて前記グループごとに生成された、未知データに対するラベルを認識するためのグループ辞書に対する、ラベルの認識精度に応じて、前記グループの評価値を算出するステップと、
前記評価値に基づいて、前記グループを選択するステップと、
選択した前記グループに属する前記未教示データに、正解ラベルに応じたラベルを付与するステップと、
をコンピュータに実行させるための情報処理プログラム。