JP6642878B1

JP6642878B1 - コンピュータ、構成方法、及びプログラム

Info

Publication number: JP6642878B1
Application number: JP2018237649A
Authority: JP
Inventors: 陵大田村; 貴文清政; 和巳蓮子; 彰晃花谷; 井口　慎也; 慎也井口
Original assignee: Fronteo Inc
Current assignee: Fronteo Inc
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-02-12
Anticipated expiration: 2038-12-19
Also published as: US20200202253A1; JP2020101856A

Abstract

【課題】高い汎化能力を有する学習済みモデルを構築する。【解決手段】コンピュータのメモリには、データセットが格納されている。コンピュータのコントローラは、データセットから第１学習用データをサンプリングするサンプリング処理と、データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、複数のクラスタのうち、第１学習用データを含まないクラスタから第２学習用データを選択する選択処理と、学習用データセットとして、第１学習用データと第２学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理とを実行する。【選択図】図１

Description

本発明は、機械学習に供する学習用データを構成するコンピュータ、構成方法、及びプログラムに関する。

学習済みモデルを用いてデータを処理する場合、機械学習に供する学習用データセットを構成する必要がある。例えば、顔画像（人間の顔を像として含む画像）を識別する識別器を教師あり学習のスキームで学習させる場合、多数の顔画像を収集すると共に、各顔画像に正しい識別結果をペアリングすることによって、学習用データセットを構築する必要がある。

未知の入力（例えば顔画像）に対して正しい出力（例えば識別結果）を返すことが可能な、高い汎化能力（例えば識別精度）を備えた学習済みモデルを構築するためには、学習用データセットに含まれる学習用データの多様性が重要になる。すなわち、学習済みモデルが汎化能力を発揮すべき課題領域から、まんべんなく収集された学習用データを含む学習用データセットを構成する必要がある。

この多様性を担保するために、大量のデータをランダムサンプリングすることによって、学習用データセットを構成するアプローチが従来採用されていた。想定される課題領域の広さ（例えば、識別すべき顔画像の種類など）に対して十分な個数の学習用データを収集することが可能であれば、無作為（ランダム）にサンプリングすることが、課題領域を構成するデータ群と学習用データセットとの統計的差異を縮小する最善の方法だからである。

特許第５５６７０４９号公報（２０１４年８月６日発行）

しかし、十分な個数の学習用データを収集できない場合、学習用データの多様性を担保することが困難になる。例えば、正しい識別結果を表す教師データを作成するために、専門家（例えば、弁護士や医師など）の判断を要するなど、学習用データを収集するコストが高い場合、想定される課題領域の広さに対して学習用データの数が不足しがちになる。このような場合、課題領域を構成するデータ群からの単純なランダムサンプリングでは、このデータセット群に含まれる一定量以下のデータを取りこぼす可能性があり、課題領域を構成するデータ群と学習用データセットとの統計的差異を必要な精度まで小さくできる保証がない。このため、課題領域における学習済みモデルの汎化能力が十分に高くならない可能性がある。したがって、仮に学習用データを十分に収集できない場合であっても、高い汎化能力を有する学習済みモデルを構築することが可能なデータセットの構成方法が求められている。

本発明の一態様は、上記課題に鑑みてなされたものであり、その目的は、高い汎化能力を有する学習済みモデルを構築することが可能な学習用データセットの構築方法を実現することにある。

上記の課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備え、機械学習に供する学習用データセットを構成するコンピュータであって、前記メモリには、データセットが格納されており、前記コントローラは、前記データセットから第１学習用データをサンプリングするサンプリング処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記複数のクラスタのうち、前記第１学習用データを含まないクラスタから第２学習用データを選択する選択処理と、前記学習用データセットとして、前記第１学習用データと前記第２学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を実行する。

上記の課題を解決するために、本発明の一態様に係る構成方法は、データセットが格納されたメモリとコントローラとを備えたコンピュータを用いて、機械学習に供する学習用データセットを構成する構成方法であって、前記コントローラが、前記データセットから第１学習用データをサンプリングするサンプリング処理と、前記コントローラが、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記コントローラが、前記複数のクラスタのうち、前記第１学習用データを含まないクラスタから第２学習用データを選択する選択処理と、前記コントローラが、前記学習用データセットとして、前記第１学習用データと前記第２学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を含んでいる。

上記課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備え、モデルを学習させるための学習用データセットを構成するコンピュータであって、前記メモリは、データセットを記憶しており、前記データセットは、所定の抽出条件を満たすか否かを示すラベルが付与されていない複数のラベル無しデータを少なくとも一部に含み、前記所定の抽出条件は、前記データが該抽出条件を満たすか否かの判断基準となる複数の観点から構成されるものであり、前記コントローラは、前記データセットから前記ラベル無しデータをサンプリングすることによって、レビュー用データセットを構成する処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成する処理と、前記複数のクラスタの少なくとも一部に含まれる前記ラベル無しデータを、前記観点の漏れを軽減するように、前記レビュー用データセットに補充する処理と、を実行する。

本発明の一態様によれば、高い汎化能力を有する学習済みモデルを構築することが可能な学習用データセットの構築方法を実現することができる。

本発明の実施形態１に係るコンピュータの構成を示すブロック図である。図１のコンピュータを用いて実施される学習処理における処理の流れを示すフロー図である。図１のコンピュータを用いて実施される学習処理の前半におけるデータの流れを示すフロー図である。図１のコンピュータを用いて実施される学習処理の後半におけるデータの流れを示すフロー図である。

〔コンピュータの構成〕
本発明の一実施形態に係るコンピュータ１の構成について、図１を参照して説明する。図１は、コンピュータ１の構成例を示すブロック図である。なお、図１に示されるコンピュータ１の構成は、あくまでも一例に過ぎない。後述するように、コンピュータ１が実行する各処理を、複数のコンピュータで実行することもできる。

コンピュータ１は、図１に示したように、バス１０と、主メモリ１１と、コントローラ１２と、補助メモリ１３と、入出力インターフェース１４と、を備えている。コントローラ１２、補助メモリ１３、及び入出力インターフェース１４は、バス１０を介して互いに接続されている。主メモリ１１としては、例えば、１又は複数の半導体ＲＡＭ（random access memory）が用いられる。コントローラ１２としては、例えば、１又は複数のＣＰＵ（Central Processing Unit）が用いられる。補助メモリ１３としては、例えば、ＨＤＤ（Hard Disk Drive）が用いられる。入出力インターフェース１４としては、例えば、ＵＳＢ（Universal Serial Bus）インターフェースが用いられる。

入出力インターフェース１４には、例えば、入力装置２及び出力装置３が接続される。入力装置２としては、例えば、キーボード及びマウスが用いられる。出力装置３としては、例えば、ディスプレイ及びプリンタが用いられる。なお、コンピュータ１は、ラップトップ型コンピュータのように、入力装置２として機能するキーボート及びトラックパッド、並びに、出力装置３として機能するディスプレイを内蔵していてもよい。また、コンピュータ１は、スマートフォン又はタブレット型コンピュータのように、入力装置２及び出力装置３として機能するタッチパネルを内蔵していてもよい。

補助メモリ１３には、学習処理Ｓと、学習処理Ｓにより得られた学習済みモデルＭを用いたマシンレビュー処理と、をコントローラ１２に実施させるためのプログラムＰが格納されている。コントローラ１２は、補助メモリ１３に格納されたプログラムＰを主メモリ１１上に展開し、主メモリ１１上に展開されたプログラムＰに含まれる各命令を実行することによって、学習処理Ｓ及びマシンレビュー処理に含まれる各ステップを実行する。また、補助メモリ１３には、学習処理Ｓ及びマシンレビュー処理を実施する際にコントローラ１２が参照するデータセットＤＳが格納されている。データセットＤＳは、少なくとも１つのデータＤ１，Ｄ２，…，Ｄｎ（ｎは１以上の任意の自然数）の集合である。コントローラ１２は、補助メモリ１３に格納された各データＤｉ（ｉ＝１，２，…，ｎ）を主メモリ１１上に展開し、これを学習処理Ｓ及びマシンレビュー処理を実施する際に参照する。

なお、コンピュータ１が内部記憶媒体である補助メモリ１３に格納されているプログラムＰを用いて学習処理Ｓ及びマシンレビュー処理を実施する形態について説明したが、これに限定されない。すなわち、コンピュータ１が外部記録媒体に格納されているプログラムＰを用いて学習処理Ｓ及びマシンレビュー処理を実施する形態を採用してもよい。この場合、外部記録媒体としては、コンピュータ１が読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブル論理回路などを用いることができる。あるいは、コンピュータ１が通信ネットワークを介して取得したプログラムＰを用いて学習処理Ｓ及びマシンレビュー処理を実施する形態を採用してもよい。この場合、通信ネットワークとしては、例えば、インターネット、又はＬＡＮなどを用いることができる。

なお、本実施形態においては、学習処理Ｓ及びマシンレビュー処理を単一のコンピュータ１を用いて実施する形態について説明したが、本発明はこれに限定されない。すなわち、学習処理Ｓ及びマシンレビュー処理を構成する各ステップを互いに通信可能に構成された複数のコンピュータを用いて実施する（例えば、並列的に実施する）形態を採用しても構わない。一例として、学習処理Ｓを構成する一部又は全部のステップを、ホストコンピュータ（サーバ）を用いて実施すると共に、マシンレビュー処理を構成する一部又は全部のステップを、クライアントコンピュータ（端末）を用いて実施する形態が挙げられる。

〔学習済みモデル〕
本実施形態に係る学習処理Ｓにて構築される学習済みモデルＭは、データセットＤＳに含まれる各データＤｉを入力とし、該データＤｉが予め定められた抽出条件を満たす程度を表すスコアＳｉを出力とするモデル（アルゴリズム）である。この学習済みモデルＭは、コンピュータ１がマシンレビュー処理を実施するために用いられる。

ここで、マシンレビュー処理とは、例えば、コンピュータ１が、学習済みモデルＭを用いてデータセットＤＳに含まれる各データＤｉのスコアＳｉを算出する処理のことを指す。なお、スコアＳｉは、上記抽出条件を満たす確率であってもよい。また、マシンレビュー処理には、データセットＤＳに含まれるデータＤ１，Ｄ２，…，ＤｎをスコアＳ１，Ｓ２，…，Ｓｎの降順にソートする処理が含まれていてもよい。

コンピュータ１は、上述したマシンレビュー処理の結果（スコアＳ１，Ｓ２，…，Ｓｎであってもよいし、データＤ１，Ｄ２，…，ＤｎをスコアＳ１，Ｓ２，…，Ｓｎの降順にソートしたリストであってもよい）をレビューア等のユーザに提示する提示処理を実行する。提示されたマシンレビューの結果は、例えば、レビューアがヒューマンレビューを実施するために利用される。ここで、ヒューマンレビューとは、レビューアが、データセットＤＳに含まれるデータＤ１，Ｄ２，…，Ｄｎから、上記抽出条件に該当するデータを抽出する作業のことを指す。

レビューアは、マシンレビュー処理の結果を参照することで、当該作業を効率的に実施することが可能になる。マシンレビュー処理の結果の利用方法は特に限定されないが、例えば、（１）スコアＳｉが予め定められた閾値以上のデータＤｉを当該作業の対象とする（スコアＳｉが当該閾値未満のデータＤｉを当該作業の対象としない）方法、（２）データＤｉに対する当該作業をスコアＳｉの降順に当該作業を実施する方法、又は、（３）データＤｉに対して当該作業を実施するレビューアをスコアＳｉに応じて決定する方法などが挙げられる。

なお、ヒューマンレビューは、一般の（又は専門性の低い）レビューアによる一次レビューと、特定の（又は専門性の高い）レビューアによる二次レビューと、により構成されていてもよい。この場合、二次レビューは、例えば、データセットＤＳに含まれるデータのうち、一次レビューにて抽出されたデータから、上記抽出条件に該当するデータを抽出する作業であり得る。或いは、二次レビューは、データセットＤＳからサンプリング（例えば、ランダムサンプリングであってよい）されたデータが上記抽出条件に該当するか否かを判断する作業であって、当該判断の結果に基づき一次レビューの正否を確認する抜き取り検査であり得る。

一例として、ヒューマンレビューは、米国の民事訴訟におけるディスカバリ手続きにおいて、訴訟関係者（カストディアン）が保有する文章データから米国裁判所に提出する文章データを抽出するためのレビュー作業であり得る。この場合、当該訴訟と関連性を有する文章データが上述した抽出条件を満たすデータとして扱われる。また、この場合、学習済みモデルＭの算出するスコアＳｉは、データＤｉと当該訴訟との関連性の強さを表すことになる。

なお、データセットＤＳを構成するデータＤｉは、コンピュータ１によって処理可能な形式を有する任意の電子データであり得る。例えば、データＤｉは、自然言語で記述された文書を含む文章データであり得る。文章データは、構造化データであっても、非構造化データあってもよい。電子メール（添付ファイル及びヘッダ文章を含む）、技術文書（学術論文、特許公報、製品仕様書、設計図など、技術的事項に関する文書）、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、各種報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ（ブログを含む）、ソーシャルネットワークサービスに投稿された記事及びコメントなどは、文章データの一例である。

また、データＤｉは、画像データであり得る。写真、レントゲン画像、ＣＴ（Computed Tomography）画像、ＭＲＩ（Magnetic Resonance Imaging）画像などは、画像データの一例である。例えば、データＤｉがレントゲン画像である場合、一例として、病巣を被写体として含むレントゲン画像が上述した抽出条件を満たすデータとして扱われる。また、データＤｉは、音声データであり得る。会話や音楽などを録音した録音データは、音声データの一例である。例えば、データＤｉが会話を録音した録音データである場合、一例として、特定の話題を含む会話を録音した録音データが上述した抽出条件を満たすデータとして扱われる。また、データＤｉは、映像データであり得る。風景や映画などを録画した録画データは、映像データの一例である。例えば、データＤｉが映画を録画した録画データである場合、一例として、特定の俳優が出演する映画を録画した録画データが上述した抽出条件を満たすデータとして扱われる。

〔学習処理〕
本発明の一実施形態に係る構成処理を含む学習処理Ｓについて、図２〜図４を参照して説明する。図２は、学習処理Ｓにおける処理の流れを示すフロー図である。図３は、学習処理Ｓの前半におけるデータの流れを示すフロー図である。図４は、学習処理Ｓの後半におけるデータの流れを示すフロー図である。

学習処理Ｓは、データセットＤＳに含まれる各データＤｉを入力とし、該データＤＳｉが予め定められた抽出条件を満たす程度を表すスコアＳｉを出力とする学習済みモデルＭを得るための処理である。機械学習処理Ｓは、図２に示すように、学習用データサンプリング処理Ｓ１、学習用データラベル付与処理Ｓ２、クラスタリング処理Ｓ３、１次クラスタ分類処理Ｓ４、２次クラスタ分類処理Ｓ５、追加学習用データ選択処理Ｓ６、機械学習処理Ｓ７、スコア算出処理Ｓ８、エラー率算出処理Ｓ９、低スコア追加学習用データ選択処理Ｓ１０、及び低スコア追加学習用データラベル付与処理Ｓ１１を含んでいる。なお、これらの処理Ｓ１〜Ｓ１１は、何れもコンピュータ１のコントローラ１２によって実行されてもよいし、複数のコンピュータにそれぞれ搭載された複数のコントローラによって実行されてもよい（例えば、並列的に実行されてもよい）。

（学習用データサンプリング処理Ｓ１）
学習用データサンプリング処理Ｓ１は、データセットＤＳから予め定められた個数ｍ（ｍ＜ｎ）のデータをサンプリングする処理である。以下、データセットＤＳに含まれるデータＤ１，Ｄ２，…，Ｄｎのうち、学習用データサンプリング処理Ｓ１にてサンプリングされたデータを、学習用データＴＤｊ（ｊ＝１，２，…，ｍ）と記載する。学習用データＴＤｊは、特許請求の範囲における「第１学習用データ」の一例である。また、学習用データＴＤ１，ＴＤ２，…，ＴＤｍの集合を、学習用データセットＴＤＳと記載する。

なお、学習用データセットＴＤＳは、後述する学習用データラベル付与処理Ｓ２において、レビューアが予め定められた抽出条件を満たすか否かを判断するデータの集合、すなわち、「レビュー用データセット」と呼ぶことも可能である。

（学習用データラベル付与処理Ｓ２）
学習用データラベル付与処理Ｓ２は、学習用データセットＴＤＳに含まれる各学習用データＴＤｊに、そのデータが予め定められた抽出条件を満たすか否かを示すラベルＬｊを付与する処理である。各学習用データＴＤｊが抽出条件を満たすか否かの判断は、レビューア（一般の又は専門性の低いレビューアであってもよいし、特定の又は専門性の高いレビューアであってもよいが、後者であることが望ましい）が行う。

すなわち、例えば、コンピュータ１は、レビューアに抽出条件を満たすか否かの判断を求め、レビューアの判断結果に応じたラベルを付与する。或いは、ホストコンピュータは、レビューアに抽出条件を満たすか否かの判断を求め、クライアントコンピュータは、レビューアの判断結果に応じたラベルを付与する。

ラベルＬｊは、例えば、２値ラベルであり、学習用データＴＤｊが抽出条件を満たすとき値１を取り、学習用データＴＤｊが抽出条件を満たさないとき値０を取る。また、ラベルＬｊは、多値ラベルであってもよい。この場合、例えば、抽出条件が複数設定されており、ラベルＬｊは、第１の抽出条件を満たす場合は値１を取り、第２の抽出条件を満たす場合は値２を取ると言うように、該当する抽出条件に対応する値を取る。

（クラスタリング処理Ｓ３）
クラスタリング処理Ｓ３は、データセットＤＳに含まれるデータＤ１，Ｄ２，…，Ｄｎをクラスタリングする処理である。クラスタリング処理Ｓ３は、例えば、以下のように実行される。まず、データセットＤＳに含まれる各データＤｉをベクトルＶｉ（予め定められたベクトル空間Ｅの元）によって表現する。次に、データセットＤＳに含まれるデータＤ１，Ｄ２，…，Ｄｎを、ベクトル空間ＥにおけるベクトルＶ１，Ｖ２，…，Ｖｎの配置に基づいてクラスタリングする。すなわち、対応するベクトルＶｉ，Ｖｉ’間の距離ｄ（Ｖｉ，Ｖｉ’）が小さいデータＤｉ，Ｄｉ’は同じクラスタに属するように、逆に、対応するベクトルＶｉ，Ｖｉ’間の距離ｄ（Ｖｉ，Ｖｉ’）が大きいデータＤｉ，Ｄｉ’は異なるクラスタに属するようにクラスタリングする。

なお、距離ｄは、ユークリッド距離であってもよいし、コサイン距離であってもよい。以下、クラスタリング処理Ｓ３にて得られたクラスタを、クラスタＣｋ（ｋ＝１，２，…，ｌ）と記載する。ここで、ｌは、クラスタリング処理Ｓ３にて得られたクラスタの個数である。なお、ここで説明したアルゴリズムは、あくまでクラスタリング処理に利用可能なアルゴリズムの一例に過ぎない。データを分類する公知のアルゴリズムであれば、どのようなアルゴリズムであっても、クラスタリング処理に利用することが可能である。例えば、クラスタリング処理は、階層的なクラスタリング処理であってもよいし、非階層的なクラスタリング処理であってもよい。また、クラスタリング処理は、離散的なクラスタリング処理であってもよいし、連続的なクラスタリング処理であってもよい。また、距離に基づくクラスタリング処理以外のクラスタリング処理、例えば、超平面の格子分割に基づくクラスタリング処理であってもよい。

（データのベクトル化に関する補足）
なお、データＤｉが文書データである場合、例えば、データＤｉが表す文章における所定の語彙の出現回数、ＴＦ値、又はＴＦ・ＩＤＦ値を所定の順序で並べることで得られるベクトルを、データＤｉを表現するベクトルとして利用することができる。或いは、データＤｉが表す文章の所定の特徴量を所定の順序で並べたベクトルを、データＤｉを表現するベクトルＶｉとして利用することができる。文章の特徴量としては、例えば、異語数、品詞数、ＴＴＲ（Type Token Ratio）、ＣＴＴＲ（Corrected Type Token Ratio）、ユールＫ特性値、係り受け回数、数値比率などの文章の複雑さを表す特徴量や、文字数、語数、文数、段落数などの文章のサイズを表す特徴量などが挙げられる。

なお、データｄにおける語彙ｔのＴＦ値ｔｆ（ｔ，ｄ）は、例えば、下記式（１）により算出することができる。ここで、ｎｔ，ｄは、データｄにおける語彙ｔの出現回数を表し、Σｓ∈ｄｎｓ，ｄは、データｄに含まれる各語彙ｓのデータｄにおける出願回数ｎｓ，ｄの総和を表す。また、データｄにおける語彙ｔのＴＦ・ＩＤＦ値ＴＦ・ＩＤＦ（ｔ，ｄ）は、例えば、下記式（２）（３）により算出することができる。ここで、Ｎは、データの総数であり、ｄｆ（ｔ）は、語彙ｔを含むデータの総数である。

また、データＤｉが画像データである場合、例えば、データＤｉが表す画像の画素値を所定の順序で並べたベクトルを、データＤｉを表現するベクトルＶｉとして利用することができる。或いは、データＤｉが表す画像の所定の特徴量を所定の順序で並べたベクトルを、データＤｉを表現するベクトルＶｉとして利用することができる。また、データＤｉが音声データである場合、データＤｉが表す音波の波高値を所定の順序で並べたベクトルを、データＤｉを表現するベクトルＶｉとして利用することができる。或いは、データＤｉが表す音波の所定の特徴量を所定の順序で並べたベクトルを、データＤｉを表現するベクトルＶｉとして利用することができる。

（１次クラスタ分類処理Ｓ４）
１次クラスタ分類処理Ｓ４は、クラスタＣ１，Ｃ２，…，Ｃｌを、各クラスタＣｋに属するデータの個数に応じて、希少クラスタと非希少クラスタとに分類する処理である。ここで、あるクラスタＣｋが希少クラスタは、例えば、そのクラスタＣｋに属するデータの個数が予め定められた閾値（例えば３）未満となるクラスタであり得る。また、あるクラスタＣｋが非希少クラスタは、例えば、そのクラスタＣｋに属するデータの個数が上記閾値以上となるクラスタであり得る。

以下、この例に基づいて、クラスタＣ１，Ｃ２，…，Ｃｌのうち、１次クラスタ分類処理Ｓ４にて非希少クラスタに分類されたクラスタを、非希少クラスタＣ’ｋ（ｋ＝１，２，…，ｌ’）と記載する。ここで、ｌ’（ｌ’≦ｌ）は、１次クラスタ分類処理Ｓ４にて非希少クラスタに分類されたクラスタの個数である。なお、希少クラスタは、以後の処理に利用されることなく、ヒューマンレビューの対象とされる。希少クラスタに含まれるデータは、ノイズである可能性が高く、これを学習用データとして利用すると、学習済みモデルＭの汎化能力をかえって低下させる場合があり得るからである。

（２次クラスタ分類処理Ｓ５）
２次クラスタ分類処理Ｓ５は、非希少クラスタＣ’１，Ｃ’２，…，Ｃ’ｌ’を、各非希少クラスタＣ’ｋが学習用データＴＤｊを含むか否かに応じて、余剰クラスタと非余剰クラスタとに分類する処理である。ここで、ある非希少クラスタＣ’ｋが余剰クラスタであるとは、その非希少クラスタＣ’ｋが学習用データセットＴＤＳに含まれる学習用データＴＤｊを含まないことを意味する。また、ある非希少クラスタＣ’ｋが非余剰クラスタであるとは、その非希少クラスタＣ’ｋが学習用データセットＴＤＳに含まれる学習用データＴＤｊを含むことを意味する。

以下、非希少クラスタＣ’１，Ｃ’２，…，Ｃ’ｌ’のうち、２次クラスタ分類処理Ｓ５にて余剰クラスタに分類されたクラスタを、余剰クラスタＣ”ｋ（ｋ＝１，２，…，ｌ”）と記載する。ここで、ｌ”（ｌ”≦ｌ’）は、２次クラスタ分類処理Ｓ５にて余剰クラスタに分類されたクラスタの個数である。

（追加学習用データ選択処理Ｓ６）
追加学習用データ選択処理Ｓ６は、各余剰クラスタＣ”ｋから少なくとも１つのデータを選択する処理である。追加学習用データ選択処理Ｓ６にて選択するデータは、ユーザ（例えば、レビューア）が手動選択したデータであってもよいし、コンピュータ１が自動選択（例えば、ランダムサンプリング）したデータであってもよい。

以下、追加学習用データ選択処理Ｓ６にて選択されたデータを、追加学習用データＡＴＤｋ（ｋ＝１，２，…，ｌ”）と記載する。追加学習用データＡＴＤｋは、特許請求の範囲における「第２学習用データ」の一例である。また、追加学習用データＡＴＤ１，ＡＴＤ２，…，ＡＴＤｌ”の集合を、追加学習用データセットＡＴＤＳと記載する。

（繰り返し）
コンピュータ１は、例えば、以下に説明する機械学習処理Ｓ７、スコア算出処理Ｓ８、エラー率算出処理Ｓ９、低スコア追加学習用データ選択処理Ｓ１０、及び低スコア追加学習用データラベル付与処理Ｓ１１を、エラー率算出処理Ｓ９にて算出されるエラー率ＥＲが予め定められた閾値未満になるまで繰り返し実行してもよい。

以下の説明においては、これらの処理Ｓ７〜Ｓ１１の実行回数を表す変数ｔを導入し、ｔ回目の処理には符号の末尾に（ｔ）を付す。例えば、機械学習処理Ｓ７（１）は、１回目に実行される機械学習処理Ｓ７を表し、機械学習処理Ｓ７（２）は、２回目に実行される機械学習処理を表す。また、ｔ回目の機械学習処理Ｓ（ｔ）により得られる学習済みモデルＭを、モデルＭ（ｔ）と記載する。

（機械学習処理Ｓ７）
１回目の機械学習処理Ｓ７（１）は、（ａ）学習用データサンプリング処理Ｓ１にてサンプリングされた学習用データＴＤ１，ＴＤ２，…，ＴＤｍと、（ｂ）学習用データラベル付与処理Ｓ２にて付与されたラベルＬ１，Ｌ２，…，Ｌｍと、により教師データ（特許請求の範囲における「学習用データセット」の一例）を構成し、この教師データを用いて学習済みモデルＭ（１）を構築する処理である。

一方、ｔ回目（ｔは２以上の自然数）の機械学習処理Ｓ（ｔ）においては、（ａ）学習用データサンプリング処理Ｓ１にてサンプリングされた学習用データＴＤ１，ＴＤ２，…，ＴＤｍと、（ｂ）学習用データラベル付与処理Ｓ２にて付与されたラベルＬ１，Ｌ２，…，Ｌｍと、（ｃ）ｔ−１回目のまでの低スコア追加学習用データ選択処理Ｓ１０（１），Ｓ１０（２），…，Ｓ１０（ｔ−１）にて選択された低スコア追加学習用データＬＳＤ（１），ＬＳＤ（２），…，ＬＤＳ（ｔ−１）と、（ｄ）ｔ−１回目のまでの低スコア追加学習用データラベル付与処理Ｓ１１（１），Ｓ１１（２），…，Ｓ１１（ｔ−１）にて付与されたラベルＬ（１），Ｌ（２），…，Ｌ（ｔ−１）と、により教師データ（特許請求の範囲における「学習用データセット」の一例）を構築し、この教師データを用いて学習済みモデルＭ（ｔ）を構築する処理である。

（スコア算出処理Ｓ８）
ｔ回目（ｔは１以上の自然数）のスコア算出処理Ｓ８（ｔ）は、ｔ回目の機械学習処理Ｓ７（ｔ）にて得られた学習済みモデルＭ（ｔ）を用いて、学習用データセットＴＤＳに含まれる各学習用データＴＤｊのスコアＳｊを算出すると共に、追加学習用データセットＡＴＤＳに含まれる各追加学習用データＡＴＤｋのスコアＴｋを算出する処理である。

なお、１回目のスコア算出処理Ｓ８（１）を実行した後に、算出されたスコアＳ１（１），Ｓ２（１），…，Ｓｍ（１）及びスコアＴ１（１），Ｔ２（１），…，Ｔｌ”（１）に応じて学習用データＴＤ１，ＴＤ２，…，ＴＤｍ及び追加学習用データＡＴＤ１，ＡＴＤ２，…，ＡＴＤｌ”をソートした結果をユーザに提示する提示処理を実行してもよい。この提示処理は、例えば、学習用データＴＤ１，ＴＤ２，…，ＴＤｍ及び追加学習用データＡＴＤ１，ＡＴＤ２，…，ＡＴＤｌ”のタイトルのリストを、スコアＳ１（１），Ｓ２（１），…，Ｓｍ（１）及びスコアＴ１（１），Ｔ２（１），…，Ｔｌ”（１）の降順に並べたものを、コンピュータ１のコントローラ１２が出力装置３（例えば、ディスプレイ）に出力することによって実現される。

（エラー率算出処理Ｓ９）
ｔ回目（ｔは１以上の自然数）のエラー率算出処理Ｓ９は、ｔ回目のスコア算出処理Ｓ８（ｔ）にて得られた学習用データＴＤ１，ＴＤ２，…，ＴＤｍのスコアＳ１（ｔ），Ｓ２（ｔ），…，Ｓｍ（ｔ）、及び、追加学習用データＡＴＤ１，ＡＴＤ２，…，ＡＴＤｌ”のスコアＴ１（ｔ），Ｔ２（ｔ），…，Ｔｌ”（ｔ）を参照して、学習済みモデルＭ（ｔ）のエラー率ＥＲを算出する処理である。ここでは、例えば、ラベルＬｊが１である（抽出条件を満たす）学習用データＴＤｊのスコアＳｊが予め定められた閾値Ｔｈ以下になることをエラーと見做す。

この場合、エラー率ＥＲは、例えば、ラベルＬｊが１であり、かつ、スコアＳｊが閾値Ｔｈ以下である学習用データＴＤｊの個数をＡ、ラベルＬｊが０であり、かつ、スコアＳｊが閾値Ｔｈ以下である学習用データＴＤｊの個数をＢ、スコアＴｋが閾値Ｔｈ以下である追加学習データＡＴＤｋの個数をＣとして、ＥＲ＝Ａ／（Ａ＋Ｂ＋Ｃ）により算出される。ｔ回目のエラー率算出処理Ｓ９（ｔ）にて算出されたエラー率ＥＲが予め定められた閾値未満である場合、学習済みモデルＭ＝Ｍ（ｔ）を用いて、上述したマシンレビュー処理が実行される。

（低スコア追加学習用データ選択処理Ｓ１０）
ｔ回目（ｔは１以上の自然数）の低スコア追加学習用データ選択処理Ｓ１０（ｔ）は、追加学習用データセットＡＴＤＳから、スコアＴｋの低い少なくとも１の追加学習用データＡＴＤｋを選択する処理である。ただし、ｔ−１回目までの低スコア追加学習用データ選択処理Ｓ１０（１），Ｓ１０（２），…，Ｓ１０（ｔ−１）にて選択された追加学習用データＡＴＤｋは、ｔ回目の低スコア追加学習用データ選択処理Ｓ１０（ｔ）では選択されないものとする。

以下、追加学習用データセットＡＴＤＳに含まれる追加学習用データＡＴＤ１，ＡＴＤ２，…．ＡＴＤｌ”のうち、ｔ回目の低スコア追加学習用データ選択処理Ｓ１０（ｔ）にて選択された追加学習用データを、低スコア追加学習用データＬＳＤ（ｔ）と記載する。なお、低スコア追加学習用データ選択処理Ｓ１０においては、スコアの低い方から順に予め定められた個数の追加学習用データを選択してもよいし、スコアが予め定められた閾値以下である追加学習用データから予め定められた個数の追加学習用データをランダムに選択してもよい。

（低スコア追加学習用データラベル付与処理Ｓ１１）
ｔ回目（ｔは１以上の自然数）の低スコア追加学習用データラベル付与処理Ｓ１１は、ｔ回目の低スコア追加学習用データ選択処理Ｓ１０（ｔ）にて選択された低スコア追加学習用データＬＳＤ（ｔ）に、予め定められた抽出条件を満たすか否かを示すラベルＬ（ｔ）を付与する処理である。

低スコア追加学習用データＬＳＤが抽出条件を満たすか否かの判断は、レビューア（人間）が行う（コンピュータは、レビューアに抽出条件を満たすか否かの判断を求め、レビューアの判断結果に応じたラベルを付与する）。ラベルＬ（ｔ）は、２値ラベルであり、例えば、低スコア追加学習用データＬＳＤ（ｔ）が抽出条件を満たすとき値１を取り、低スコア追加学習用データＬＳＤ（ｔ）が抽出条件を満たさないとき値０を取る。

なお、学習用データセット作成ルーチン（学習用データサンプリング処理Ｓ１、及び学習用データラベル付与処理Ｓ２）と、追加学習用データセット作成ルーチン（クラスタリング処理Ｓ３、１次クラスタ分類処理Ｓ４、２次クラスタ分類処理Ｓ５、及び追加学習用データ選択処理Ｓ６）とは、互いに独立処理である。したがって、学習用データセット作成ルーチンを実行した後に追加学習用データ作成ルーチンを実行してもよいし、追加学習用データセット作成ルーチンを実行した後に学習用データセット作成ルーチンを実行してもよいし、学習用データ作成ルーチンと追加学習用データ作成ルーチンとを並列的に実施してもよい。

また、上述した抽出条件は、データセットＤＳに含まれる各データＤｉが当該抽出条件を満たすか否かの判断基準になる複数の観点により構成されていてもよい。例えば、当該抽出条件がＫ１，Ｋ２，…，Ｋｎ（ｎは観点の数を表す自然数）の観点を含む場合、コンピュータ１がデータセットをクラスタリングすると、各観点に対応するようにクラスタが生成される。したがって、各クラスタに含まれるラベル無しデータは、当該クラスタに対応する観点を含む。ただし、これは理想的な場合であり、ある観点を含むラベル無しデータが別の観点に対応するクラスタに誤ってクラスタリングされる場合が起こり得る。また、１つのラベル無しデータが複数の観点を含む場合も考えられ、この場合は当該ラベル無しデータが当該観点に対応する１つのクラスタにクラスタリングされる場合も起こり得る。

コンピュータ１は、データセットからラベル無しデータをレビュー用データセットとしてサンプリングし、当該データセットに含まれるラベル無しデータをクラスタリングする（当該サンプリングの処理と当該クラスタリングの処理とは、順序が逆でもよい）。そして、コンピュータ１は、例えば、あるクラスタに含まれるデータの数がある程度大きいにもかかわらず、当該クラスタに含まれるデータが上記レビュー用データセットに含まれていない場合、当該クラスタに含まれるデータを当該レビュー用データセットに追加する。

言い換えれば、コンピュータ１は、例えば、クラスタＣ１，Ｃ２，…，Ｃｌの少なくとも一部に含まれるラベル無しデータ（学習用データセットＴＤＳに含まれないデータ）を上記観点の漏れを軽減するように、学習用データセットＴＤＳに当該ラベル無しデータを補充することができる。この場合、当該補充されたラベル無しデータが当該抽出条件を満たすか否かに基づいて、レビューアがこれらのラベル無しデータの各々にラベルを付与することにより（レビューアの判断に応じて決まるラベルをコンピュータ１が付与すると言い換えてもよい）、学習済みモデルＭを構築するための学習用データセットを構成してもよい。

〔まとめ〕
本発明の態様１に係るコンピュータは、メモリとコントローラとを備え、機械学習に供する学習用データセットを構成するコンピュータであって、前記メモリには、データセットが格納されており、前記コントローラは、前記データセットから第１学習用データをサンプリングするサンプリング処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記複数のクラスタのうち、前記第１学習用データを含まないクラスタから第２学習用データを選択する選択処理と、前記学習用データセットとして、前記第１学習用データと前記第２学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を実行する。

上記の構成によれば、ランダムサンプリングにより選択された第１学習用データに加えて、第１学習用データを含まないクラスタから選択された第２学習用データの少なくとも一部を含む学習用データセットを構成することができる。このため、例えば、ランダムにサンプリングされた学習用データからなる学習用データセットに比べて、多様性の高い学習用データセットを構成することができる。したがって、上記の構成により得られた学習用データセットを用いた機械学習を行うことによって、十分に高い汎化能力を有する学習済みモデルを構築することが可能になる。特に、十分な個数の学習用データを収集できない場合であっても、上記の構成により得られた学習用データセットを用いた機械学習を行うことによって、十分に高い汎化能力を有する学習済みモデルを構築することが可能である。

なお、上記の構成により得られた学習用データセットは、例えば、クライアントからの依頼された特定の情報処理（推論）を行う学習済みモデルを構築するために利用することができる。この場合、学習済みモデルが汎化能力を発揮すべき課題領域から学習用データがまんべんなく収集されていないと、学習済みモデルによる情報処理の結果に対するクライアントの納得が得難い傾向がある。上記の構成によれば、サンプリング処理により抽出された第１学習用データだけでなく、サンプリング処理より抽出されたデータを含まないクラスタから選択された第２学習用データを含む学習用データセットが構築される。このため、学習済みモデルによる情報処理の結果に対するクライアントの納得が得易くなるという副次的な効果も期待できる。

本発明の態様２に係るコンピュータは、上記態様１において、前記選択処理は、前記複数のクラスタのうち、前記第１学習用データを含まないクラスタであって、包含するデータの個数が予め定められた閾個数（当該個数と比較される閾値）を上回るクラスタから前記第２学習用データを選択する処理である、ことが好ましい。

上記の構成によれば、包含するデータの個数が比較的多いクラスタから選択された第２学習用データが学習用データセットに組み込まれる。したがって、包含するデータの個数が比較的多いクラスタに含まれるデータが学習用データセットにひとつも組み込まれないことによって生じ得る、学習用データセットの多様性の低下を避けることができる。したがって、上記の構成によれば、より多様性の高い学習用データセットを構成することができる。なお、個数が閾個数を上回るとは、例えば、当該個数が閾個数以上であること、又は、当該個数が閾個数よりも大きいことを指す。

本発明の態様３に係るコンピュータは、上記態様１又は２において、前記コントローラは、前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第１学習用データ及び前記第２学習用データのスコアを算出するスコア算出処理をさらに実行し、前記構成処理は、前記第１学習用データと前記スコアが予め定められた第１閾スコア（当該スコアと比較される閾値）を下回る前記第２学習用データとを含む学習用データセットを構成する処理である、ことが好ましい。

上記の構成によれば、既存の学習済みモデルにより算出されるスコアが比較的低い第２学習用データが学習用データセットに組み込まれる。すなわち、既存の学習済みモデルではその重要性を捉えられないデータが学習用データに組み込まれることになる。したがって、上記の構成によれば、より多様性の高い学習用データセットを構成することができる。なお、スコアが第１閾スコアを下回るとは、当該スコアが第１閾スコア以下であること、又は、当該スコアが第１閾スコアよりも小さいことを指す。

本発明の態様４に係るコンピュータは、上記態様１〜３の何れか一態様において、前記コントローラは、ユーザの指示に基づき、予め定められた抽出条件を満たす前記第１学習用データに特定のラベルを付与するラベル付与処理と、前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第１学習用データ及び前記第２学習用データのスコアを算出するスコア算出処理と、前記ラベルが付与された前記第１学習用データであって、前記スコアが予め定められた第２閾スコア（当該スコアと比較される閾値。上記第１閾スコアと一致してしてもよいし、相違していてもよい）を下回る第１学習用データの個数に応じて、前記学習済みモデルのエラー率を算出するエラー率算出処理と、をさらに実行し、上記エラー率が予め定められた閾値を下回るまで、上記構成処理を前記学習用データセットに新たな第２学習用データを追加しながら繰り返す、ことが好ましい。

上記の構成によれば、予め定められた抽出条件を満たすとレビューアが判断したデータに低いスコアが与えられる可能性が十分に小さい学習済みモデルを構築することが可能な学習用データセットを構成することができる。なお、スコアが第２閾スコアを下回るとは、当該スコアが第２閾スコア以下であること、又は、当該スコアが第２閾スコアよりも小さいことを指す。また、エラー率が閾値を下回るとは、当該エラー率が当該閾値以下であること、又は、当該エラー率が当該閾値より小さいことを指す。

本発明の態様５に係るコンピュータは、上記態様１〜４の何れか一態様において、前記選択処理は、前記複数のクラスタのうち、第１学習用データを含まないクラスタから、ユーザの指定した第２学習用データを選択する処理である、ことが好ましい。

上記の構成によれば、第１学習用データを含まないクラスタから、ユーザが特に学習用データセットの多様性を高める効果が高いと判断したデータを、学習用データセットに組み込むことが可能になる。したがって、上記の構成によれば、より多様性の高い学習用データセットを構成することができる。

本発明の態様６に係るコンピュータは、上記態様１〜５の何れか一態様において、前記コントローラは、前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記第１学習用データからなる初期学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第１学習用データ及び前記第２学習用データのスコアを算出するスコア算出処理と、前記スコア、又は、前記第１学習用データ及び前記第２学習用データを前記スコアに応じてソートした結果を、ユーザに提示する提示処理と、をさらに実行する、ことが好ましい。

上記の構成によれば、ユーザは、前記スコア、又は、前記第１学習用データ及び前記第２学習用データを前記スコアに応じてソートした結果を参照することによって、例えば、前記抽出条件を満たすデータを抽出するヒューマンレビューを効率的に実施することが可能になる。

本発明の態様７に係るコンピュータは、上記態様１〜６の何れか一態様において、前記データセットは、予め定められた抽出条件を満たすデータを抽出するヒューマンレビューの対象となるデータを含み、前記コントローラは、前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記データセットに含まれる各データのスコアを算出するマシンレビュー処理をさらに実行する、ことが好ましい。

上記の構成によれば、十分に高い汎化能力を有する学習済みモデルを用いて、データセットのマシンレビューを実施することが可能になる。

本発明の態様８に係る構成方法は、データセットが格納されたメモリとコントローラとを備えたコンピュータを用いて、機械学習に供する学習用データセットを構成する構成方法であって、前記コントローラが、前記データセットから第１学習用データをサンプリングするサンプリング処理と、前記コントローラが、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記コントローラが、前記複数のクラスタのうち、前記第１学習用データを含まないクラスタから第２学習用データを選択する選択処理と、前記コントローラが、前記学習用データセットとして、前記第１学習用データと前記第２学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を含んでいる。

上記の構成によれば、ランダムサンプリングにより選択された第１学習用データに加えて、第１学習用データを含まらないクラスタから選択された第２学習用データの少なくとも一部を含む学習用データセットを構成することができる。このため、サンプリングに選択された学習用データからなる学習用データセット比べて、多様性の高い学習用データセットを構成することができる。したがって、上記の構成により得られた学習用データセットを用いた機械学習を行うことによって、十分な個数の学習用データを収集できない場合であっても、十分に高い汎化能力を有する学習済みモデルを構築することが可能になる。

なお、コンピュータを動作させることにより上記サンプリング処理、上記クラスタリング処理、上記選択処理、及び上記構成処理を実行させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の態様１０に係るコンピュータは、メモリとコントローラとを備え、モデルを学習させるための学習用データセットを構成するコンピュータであって、前記メモリは、データセットを記憶しており、前記データセットは、所定の抽出条件を満たすか否かを示すラベルが付与されていない複数のラベル無しデータを少なくとも一部に含み、前記所定の抽出条件は、前記データが該抽出条件を満たすか否かの判断基準となる複数の観点から構成されるものであり、前記コントローラは、前記データセットから前記ラベル無しデータをサンプリングすることによって、レビュー用データセットを構成する処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成する処理と、前記複数のクラスタの少なくとも一部に含まれる前記ラベル無しデータを、前記観点の漏れを軽減するように、前記レビュー用データセットに補充する処理と、を実行する。
本発明の態様１１に係る方法は、上記態様１０に記載のコンピュータを用いて、モデルを学習させるための学習用データセットを構成する方法であって、前記補充されたレビュー用データセットに含まれるラベル無しデータが、前記所定の抽出条件を満たすか否かに基づいて、レビューアが前記ラベルを該ラベル無しデータにそれぞれ付与することにより、前記モデルを学習させるための前記学習用データセットを構成する。
上記の構成によれば、上記観点の漏れを軽減することができるため、例えば、ランダムにサンプリングされたレビュー用データからなるレビュー用データセットよりも、観点の多様性が担保されたレビュー用データセットを構成することができる。これをレビューアがレビューし、ラベルを付与して学習用データセットを構成することにより、高い汎化能力を有する学習済みモデルを構築することが可能になる。特に、学習用データの量が不十分となる場合であっても、高い汎化能力を発揮するモデルを得ることができる。

１：コンピュータ、１１：メモリ、１２：コントローラ、Ｓ：機械学習処理（特許請求の範囲における「構成方法」の一例を含む）、Ｓ１：学習用データサンプリング処理（特許請求の範囲における「サンプリング処理」の一例）、Ｓ２：学習用データラベル付与処理（特許請求の範囲における「ラベル付与処理」の一例）、Ｓ３：クラスタリング処理（特許請求の範囲における「サンプリング処理」の一例）、Ｓ４：１次クラスタ分類処理、Ｓ５：２次クラスタ分類処理、Ｓ６：追加学習用データ選択処理（特許請求の範囲における「選択処理」の一例）、Ｓ７：機械学習処理、Ｓ８：スコア算出処理（特許請求の範囲における「スコア算出処理」の一例）、Ｓ９：エラー率算出処理（特許請求の範囲における「エラー率算出処理」の一例）、Ｓ１０：低スコア追加学習用データ選択処理、Ｓ１１：低スコア追加学習用データラベル付与処理。

Claims

メモリとコントローラとを備え、機械学習に供する学習用データセットを構成するコンピュータであって、
前記メモリには、データセットが格納されており、
前記コントローラは、
前記データセットから第１学習用データをサンプリングするサンプリング処理と、
前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、
前記複数のクラスタのうち、前記第１学習用データを含まないクラスタから第２学習用データを選択する選択処理と、
前記学習用データセットとして、前記第１学習用データと前記第２学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を実行する、
ことを特徴とするコンピュータ。
前記選択処理は、前記複数のクラスタのうち、前記第１学習用データを含まないクラスタであって、包含するデータの個数が予め定められた閾個数を上回るクラスタから前記第２学習用データを選択する処理である、
ことを特徴とする請求項１に記載のコンピュータ。
前記コントローラは、
前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第１学習用データ及び前記第２学習用データのスコアを算出するスコア算出処理をさらに実行し、
前記構成処理は、前記第１学習用データと前記スコアが予め定められた第１閾スコアを下回る前記第２学習用データとを含む学習用データセットを構成する処理である、
ことを特徴とする請求項１又は２に記載のコンピュータ。
前記コントローラは、
ユーザの指示に基づき、予め定められた抽出条件を満たす前記第１学習用データに特定のラベルを付与するラベル付与処理と、
前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第１学習用データ及び前記第２学習用データのスコアを算出するスコア算出処理と、
前記ラベルが付与された前記第１学習用データであって、前記スコアが予め定められた第２閾スコアを下回る第１学習用データの個数に応じて、前記学習済みモデルのエラー率を算出するエラー率算出処理と、をさらに実行し、
前記エラー率が予め定められた閾値を下回るまで、前記構成処理を前記学習用データセットに新たな第２学習用データを追加しながら繰り返す、
ことを特徴とする請求項１〜３の何れか１項に記載のコンピュータ。
前記選択処理は、前記複数のクラスタのうち、第１学習用データを含まないクラスタから、ユーザの指定した第２学習用データを選択する処理である、
ことを特徴とする請求項１〜４の何れか１項に記載のコンピュータ。
前記コントローラは、
前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記第１学習用データからなる初期学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第１学習用データ及び前記第２学習用データのスコアを算出するスコア算出処理と、
前記スコア、又は、前記第１学習用データ及び前記第２学習用データを前記スコアに応じてソートした結果を、ユーザに提示する提示処理と、をさらに実行する、
ことを特徴とする請求項１〜５の何れか１項に記載のコンピュータ。
前記データセットは、レビューが予め定められた抽出条件を満たすデータを抽出するヒューマンレビューの対象となるデータを含み、
前記コントローラは、
前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記データセットに含まれる各データのスコアを算出するマシンレビュー処理をさらに実行する、
ことを特徴とする請求項１〜６の何れか１項に記載のコンピュータ。
データセットが格納されたメモリとコントローラとを備えたコンピュータを用いて、機械学習に供する学習用データセットを構成する構成方法であって、
前記コントローラが、前記データセットから第１学習用データをサンプリングするサンプリング処理と、
前記コントローラが、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、
前記コントローラが、前記複数のクラスタのうち、前記第１学習用データを含まないクラスタから第２学習用データを選択する選択処理と、
前記コントローラが、前記学習用データセットとして、前記第１学習用データと前記第２学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を含んでいる、
ことを特徴とする構成方法。
請求項１〜７の何れか１項に記載のコンピュータに、機械学習に供する学習用データセットを構成させるプログラムであって、前記各処理を前記コンピュータに実行させるプログラム。
メモリとコントローラとを備え、モデルを学習させるための学習用データセットを構成するコンピュータであって、
前記メモリは、データセットを記憶しており、
前記データセットは、所定の抽出条件を満たすか否かを示すラベルが付与されていない複数のラベル無しデータを少なくとも一部に含み、
前記所定の抽出条件は、前記データが該抽出条件を満たすか否かの判断基準となる複数の観点から構成されるものであり、
前記コントローラは、
前記データセットから前記ラベル無しデータをサンプリングすることによって、レビュー用データセットを構成する処理と、
前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成する処理と、
前記複数のクラスタの少なくとも一部に含まれる前記ラベル無しデータを、前記観点の漏れを軽減するように、前記レビュー用データセットに補充する処理と、を実行する
ことを特徴とするコンピュータ。
請求項１０に記載のコンピュータを用いて、モデルを学習させるための学習用データセットを構成する方法であって、
前記補充されたレビュー用データセットに含まれるラベル無しデータが、前記所定の抽出条件を満たすか否かに基づいて、レビューアが前記ラベルを該ラベル無しデータにそれぞれ付与することにより、前記モデルを学習させるための前記学習用データセットを構成する方法。