JP6900724B2

JP6900724B2 - 学習プログラム、学習方法および学習装置

Info

Publication number: JP6900724B2
Application number: JP2017061412A
Authority: JP
Inventors: 直紀高橋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2021-07-07
Anticipated expiration: 2037-03-27
Also published as: JP2018163586A; US20180276568A1

Description

本発明は、学習プログラム、学習方法および学習装置に関する。

近年、検索等に用いられるデータベースの構築の際に、機械学習を用いることが提案されている。機械学習では、入力と対応する出力とを学習する教師有り学習が行われる前に、事前学習として入力を学習する教師無し学習が行われる場合がある。教師無し学習は、学習に用いるデータ量が多いほど学習結果がよくなる。このため、教師無し学習の入力には、例えば、インターネット上のニュースや技術的な情報、各種マニュアル等の様々なデータを用いることが多い。

特開２００４−３５５２１７号公報

しかしながら、事前学習の教師無し学習に用いるデータの分野が、教師有り学習に用いる学習データの分野と異なると、機械学習のモデルに悪影響を及ぼす場合がある。このため、例えば、データベースの管理者は、教師有り学習に用いる学習データの分野と揃えるために、教師無し学習に用いるデータを選別するが、大量のデータを選別することは多くの手間がかかる。従って、機械学習のモデルに対する学習効率が低下する場合がある。

一つの側面では、学習効率を高めることができる学習プログラム、学習方法および学習装置を提供することにある。

一つの態様では、学習プログラムは、教師有り学習の事前学習として実施される教師無し学習をコンピュータに実行させる。すなわち、学習プログラムは、前記教師有り学習で用いられる教師データと、複数の文章情報をそれぞれが含む複数の文書データとを受け付ける処理をコンピュータに実行させる。学習プログラムは、受け付けた前記教師データと、受け付けた前記複数の文書データそれぞれと、の相関度に基づき、前記複数の文書データのうち、いずれかの文書データを特定する処理をコンピュータに実行させる。学習プログラムは、特定した前記いずれかの文書データの特徴情報を機械学習する処理をコンピュータに実行させる。

学習効率を高めることができる。

図１は、実施例の学習装置の構成の一例を示すブロック図である。図２は、機械学習の一例を示す図である。図３は、文書データ記憶部の一例を示す図である。図４は、教師データ記憶部の一例を示す図である。図５は、第１特徴量記憶部の一例を示す図である。図６は、第２特徴量記憶部の一例を示す図である。図７は、フィルタ記憶部の一例を示す図である。図８は、事前学習用文書データ記憶部の一例を示す図である。図９は、フィルタリングの結果の一例を示す図である。図１０は、単語の出現頻度に基づくフィルタリングの一例を示す図である。図１１は、実施例の学習処理の一例を示すフローチャートである。図１２は、フィルタ生成処理の一例を示すフローチャートである。図１３は、特定処理の一例を示すフローチャートである。図１４は、学習プログラムを実行するコンピュータの一例を示す図である。

以下、図面に基づいて、本願の開示する学習プログラム、学習方法および学習装置の実施例を詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下の実施例は、矛盾しない範囲で適宜組みあわせてもよい。

図１は、実施例の学習装置の構成の一例を示すブロック図である。図１に示す学習装置１００は、事前学習として教師無し学習を行ってから教師有り学習を行うことで機械学習のモデルを生成する情報処理装置の一例である。学習装置１００は、例えば、据置型や可搬型のパーソナルコンピュータ、サーバ等を用いることができる。また、学習装置１００には、例えば、ＳａａＳ（Software as a Service）やＰａａＳ（Platform as a Service）等のクラウドコンピューティング技術を適用してもよい。

ここで、図２を用いて本実施例の機械学習について説明する。図２は、機械学習の一例を示す図である。図２に示す事前学習の候補データ２０は、教師無し学習に用いる文書データの候補データである。候補データは、例えば、候補Ａ〜Ｄの４つの候補データがあるものとする。本番学習用データ２１は、生成したい機械学習のモデルに対応する入力と対応する出力とを有する教師データの一例である。まず、学習装置１００は、事前学習の候補データ２０と、本番学習用データ２１とに基づいて、フィルタ２２を生成する（ステップＳ１）。次に、学習装置１００は、事前学習の候補データ２０の候補Ａ〜Ｄの候補データに対して、フィルタ２２を適用する（ステップＳ２）。学習装置１００は、フィルタ２２に合う候補Ｂ，Ｄを事前学習用データ２３とする。学習装置１００は、事前学習用データ２３を用いてモデル２４を生成する（ステップＳ３）。モデル２４は、この時点で事前学習済みのモデルとなる。その後、学習装置１００は、モデル２４に対して本番学習用データ２１を学習させると（ステップＳ４）、モデル２４は、学習済みのモデルとなり、検索等のサービスに用いることができる。

すなわち、学習装置１００は、教師有り学習の事前学習として実施される教師無し学習を実行する。つまり、学習装置１００は、教師有り学習で用いられる教師データと、複数の文章情報をそれぞれが含む複数の文書データとを受け付ける。学習装置１００は、受け付けた教師データと、受け付けた複数の文書データそれぞれと、の相関度に基づき、複数の文書データのうち、いずれかの文書データを特定する。学習装置１００は、特定したいずれかの文書データの特徴情報を機械学習する。これにより、学習装置１００は、学習効率を高めることができる。

次に、学習装置１００の構成について説明する。図１に示すように、学習装置１００は、通信部１１０と、表示部１１１と、操作部１１２と、記憶部１２０と、制御部１３０とを有する。なお、学習装置１００は、図１に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。

通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、図示しないネットワークを介して他の情報処理装置と有線または無線で接続され、他の情報処理装置との間で情報の通信を司る通信インタフェースである。通信部１１０は、他の情報処理装置から複数の文書データおよび教師データ等を受信する。通信部１１０は、受信した複数の文書データおよび教師データ等を制御部１３０に出力する。

表示部１１１は、各種情報を表示するための表示デバイスである。表示部１１１は、例えば、表示デバイスとして液晶ディスプレイ等によって実現される。表示部１１１は、制御部１３０から入力された表示画面等の各種画面を表示する。

操作部１１２は、学習装置１００の管理者から各種操作を受け付ける入力デバイスである。操作部１１２は、例えば、入力デバイスとして、キーボードやマウス等によって実現される。操作部１１２は、管理者によって入力された操作を操作情報として制御部１３０に出力する。なお、操作部１１２は、入力デバイスとして、タッチパネル等によって実現されるようにしてもよく、表示部１１１の表示デバイスと、操作部１１２の入力デバイスとは、一体化されるようにしてもよい。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部１２０は、文書データ記憶部１２１と、教師データ記憶部１２２と、第１特徴量記憶部１２３と、第２特徴量記憶部１２４とを有する。また、記憶部１２０は、フィルタ記憶部１２５と、事前学習用文書データ記憶部１２６と、事前学習モデル記憶部１２７と、学習モデル記憶部１２８とを有する。さらに、記憶部１２０は、制御部１３０での処理に用いる情報を記憶する。

文書データ記憶部１２１は、事前学習に用いる文書データの候補となる文書データを記憶する。図３は、文書データ記憶部の一例を示す図である。図３に示すように、文書データ記憶部１２１は、「文書ＩＤ（Identifier）」、「文書データ」といった項目を有する。文書データ記憶部１２１は、例えば、文書ＩＤごとに１レコードとして記憶する。

「文書ＩＤ」は、事前学習の候補の文書データを識別する識別子である。「文書データ」は、事前学習の候補の文書データを示す情報である。つまり、「文書データ」は、教師無し学習用コーパス（候補コーパス）の一例である。なお、図３の例では、「文書データ」は説明のため、文書名としている。図３の１行目の例では、文書ＩＤ「Ｃ０１」の文書データは「○○マニュアル」という文書であることを示す。すなわち、「文書データ」には、文書を構成する各文章、つまり複数の文章情報が含まれる。

図１の説明に戻って、教師データ記憶部１２２は、本番学習、つまり教師有り学習に用いる文書データである教師データを記憶する。図４は、教師データ記憶部の一例を示す図である。図４に示すように、教師データ記憶部１２２は、「教師文書ＩＤ」、「教師データ」といった項目を有する。教師データ記憶部１２２は、例えば、教師文書ＩＤごとに１レコードとして記憶する。

「教師文書ＩＤ」は、教師有り学習の教師データを識別する識別子である。「教師データ」は、教師有り学習の教師データを示す情報である。つまり、「教師データ」は、教師有り学習用コーパスの一例である。なお、図４の例では、「教師データ」は説明のため、文書名としている。

図１の説明に戻って、第１特徴量記憶部１２３は、受け付けた全ての文書データ、つまり全ての事前学習用の文書データにおける単語の出現回数と特徴量とを対応付けて記憶する。図５は、第１特徴量記憶部の一例を示す図である。図５に示すように、第１特徴量記憶部１２３は、「単語」、「出現回数」、「特徴量」といった項目を有する。第１特徴量記憶部１２３は、例えば、単語ごとに１レコードとして記憶する。

「単語」は、全ての事前学習用の文書データから、例えば、形態素解析等によって抽出した名詞や動詞等を示す情報である。「出現回数」は、全ての事前学習用の文書データにおける単語ごとの出現回数の合計値を示す情報である。「特徴量」は、全ての事前学習用の文書データにおける単語の出現回数に基づく出現頻度を正規化した第１特徴量を示す情報である。図５の５行目の例では、単語「サーバ」は全ての事前学習用の文書データにおいて「６０」回出現し、特徴量が「０．２」であることを示す。

図１の説明に戻って、第２特徴量記憶部１２４は、教師データにおける単語の出現回数と特徴量とを対応付けて記憶する。図６は、第２特徴量記憶部の一例を示す図である。図６に示すように、第２特徴量記憶部１２４は、「単語」、「出現回数」、「特徴量」といった項目を有する。第２特徴量記憶部１２４は、例えば、単語ごとに１レコードとして記憶する。

「単語」は、教師データから、例えば、形態素解析等によって抽出した名詞や動詞等を示す情報である。「出現回数」は、教師データにおける単語ごとの出現回数の合計値を示す情報である。「特徴量」は、教師データにおける単語の出現回数に基づく出現頻度を正規化した第２特徴量を示す情報である。図６の５行目の例では、単語「サーバ」は教師データにおいて「６」回出現し、特徴量が「２」であることを示す。

図１の説明に戻って、フィルタ記憶部１２５は、フィルタとして用いる単語と特徴量とを対応付けて記憶する。図７は、フィルタ記憶部の一例を示す図である。図７に示すように、フィルタ記憶部１２５は、「単語」、「特徴量」といった項目を有する。フィルタ記憶部１２５は、例えば、単語ごとに１レコードとして記憶する。

「単語」は、第２特徴量記憶部１２４に記憶される単語のうち、フィルタとして用いる単語を示す情報である。「特徴量」は、フィルタとして用いる単語に対応する第２特徴量を示す情報である。すなわち、フィルタ記憶部１２５は、教師データに基づく第２特徴量のうち、教師データの特徴を表す単語に対応する第２特徴量を、当該単語とともに記憶する。図７の例では、単語「ＯＳ」の特徴量「１」と、単語「サーバ」の特徴量「２」とが教師データの特徴を表すフィルタとして記憶されている。

図１の説明に戻って、事前学習用文書データ記憶部１２６は、全ての事前学習用の文書データ、つまり候補の文書データのうち、フィルタリングの結果、事前学習に用いる文書データを記憶する。図８は、事前学習用文書データ記憶部の一例を示す図である。図８に示すように、事前学習用文書データ記憶部１２６は、「文書ＩＤ」、「文書データ」といった項目を有する。事前学習用文書データ記憶部１２６は、例えば、文書ＩＤごとに１レコードとして記憶する。

「文書ＩＤ」は、事前学習用の文書データを識別する識別子である。「文書データ」は、事前学習用の文書データを示す情報である。つまり、「文書データ」は、教師無し学習用コーパスの一例である。なお、図８の例では、図３と同様に「文書データ」は説明のため、文書名としている。図８の例では、図３の各文書データのうち、文書ＩＤ「Ｃ０２」および「Ｃ０４」の文書データが事前学習用の文書データとして記憶されている。なお、図３と同様に、「文書データ」には、文書を構成する各文章、つまり複数の文章情報が含まれる。

図１の説明に戻って、事前学習モデル記憶部１２７は、事前学習用の文書データを用いて機械学習が実行されて生成された事前学習済みのモデルを記憶する。つまり、事前学習モデル記憶部１２７は、事前学習用の文書データを機械学習した事前学習モデルを記憶する。

学習モデル記憶部１２８は、事前学習モデルおよび教師データを用いて機械学習が実行されて生成された学習済みのモデルを記憶する。つまり、学習モデル記憶部１２８は、事前学習済みのモデルに対して、本番学習用の教師データを機械学習した学習モデルを記憶する。

制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。制御部１３０は、受付部１３１と、生成部１３２と、特定部１３３と、学習部１３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図１に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

受付部１３１は、通信部１１０を介して、例えば、図示しない他の情報処理装置から複数の文書データおよび教師データを受信して受け付ける。すなわち、受付部１３１は、教師有り学習で用いられる教師データと、複数の文章情報をそれぞれが含む複数の文書データとを受け付ける。受付部１３１は、受け付けた複数の文書データを、それぞれ文書ＩＤを付与して文書データ記憶部１２１に記憶する。また、受付部１３１は、受け付けた教師データを、教師文書ＩＤを付与して教師データ記憶部１２２に記憶する。なお、教師データは、複数であってもよい。受付部１３１は、複数の文書データを文書データ記憶部１２１に記憶し、教師データを教師データ記憶部１２２に記憶すると、フィルタ生成指示を生成部１３２に出力する。

生成部１３２は、受付部１３１からフィルタ生成指示が入力されると、フィルタ生成処理を実行してフィルタを生成する。生成部１３２は、文書データ記憶部１２１を参照し、例えば形態素解析を用いて、全ての事前学習用の文書データにおける単語を抽出し、抽出した単語ごとに出現回数を算出する。生成部１３２は、単語ごとの出現回数を算出すると、単語ごとに出現回数に基づく出現頻度を正規化した第１特徴量を算出する。生成部１３２は、算出した第１特徴量を単語および出現回数と対応付けて、第１特徴量記憶部１２３に記憶する。なお、第１特徴量は、例えば、第１特徴量＝（ｘ−μ）／σといった式で求めることができる。ここで、ｘは出現回数（頻度）、μは出現回数の平均値、σは分散を表す。

生成部１３２は、教師データ記憶部１２２を参照し、例えば形態素解析を用いて、教師データにおける単語を抽出し、抽出した単語ごとに出現回数を算出する。生成部１３２は、単語ごとの出現回数を算出すると、単語ごとに出現回数に基づく出現頻度を正規化した第２特徴量を算出する。生成部１３２は、算出した第２特徴量を単語および出現回数と対応付けて、第２特徴量記憶部１２４に記憶する。なお、第２特徴量についても、第１特徴量と同様の式を用いて求めることができる。

生成部１３２は、第１特徴量および第２特徴量に基づいて、フィルタとして用いる単語を抽出する。生成部１３２は、例えば、第１特徴量が「０．５」以下の単語のうち、第２特徴量が「１」以上の単語を、フィルタとして用いる単語として抽出する。生成部１３２は、抽出した単語、および、対応する第２特徴量、つまりフィルタをフィルタ記憶部１２５に記憶する。生成部１３２は、フィルタをフィルタ記憶部１２５に記憶すると、特定指示を特定部１３３に出力する。

特定部１３３は、生成部１３２から特定指示が入力されると、特定処理を実行して事前学習用の文書データを選別し、事前学習に用いる文書データを特定する。特定部１３３は、文書データ記憶部１２１を参照し、事前学習の候補の文書データを１つ選択する。特定部１３３は、選択した文書データにおける単語を抽出し、抽出した単語ごとに出現回数を算出する。特定部１３３は、単語ごとの出現回数を算出すると、選択した文書データの単語ごとの出現回数に基づく出現頻度を正規化した第３特徴量を算出する。

特定部１３３は、第３特徴量を算出すると、フィルタ記憶部１２５を参照し、算出した第３特徴量およびフィルタに基づいて、フィルタと類似度を比較する単語の第３特徴量を抽出する。特定部１３３は、抽出した単語の第３特徴量と、フィルタの第２特徴量との類似度を算出する。特定部１３３は、第３特徴量と第２特徴量との類似度として、例えば、ｃｏｓ類似度やユークリッド距離を用いることができる。

特定部１３３は、算出した類似度が閾値以上であるか否かを判定する。なお、閾値は、任意に決定することができる。特定部１３３は、類似度が閾値以上であると判定した場合には、選択した文書データを事前学習用に採用し、選択した文書データを事前学習用文書データ記憶部１２６に記憶する。特定部１３３は、類似度が閾値未満であると判定した場合には、選択した文書データを事前学習用に採用しないと決定する。

特定部１３３は、選択した文書データについて、類似度の判定に関する処理が完了すると、文書データ記憶部１２１を参照し、類似度の判定が未判定である候補の文書データがあるか否かを判定する。特定部１３３は、類似度の判定が未判定である候補の文書データがあると判定した場合には、次の事前学習の候補の文書データを１つ選択して類似度の判定、つまり事前学習用に採用するか否かの判定を繰り返す。特定部１３３は、類似度の判定が未判定である候補の文書データがないと判定した場合には、事前学習指示を学習部１３４に出力し、特定処理を終了する。

言い換えると、特定部１３３は、受け付けた教師データと、受け付けた複数の文書データそれぞれと、の相関度に基づき、複数の文書データのうち、いずれかの文書データを特定する。例えば、特定部１３３は、教師データに含まれる単語の出現頻度と、複数の文書データそれぞれに含まれる単語の出現頻度との類似度に基づき、いずれかの文書データを特定する。例えば、特定部１３３は、教師データに含まれる単語の出現頻度の特徴量と、複数の文書データそれぞれに含まれる単語の出現頻度の特徴量とに基づいて、類似度の判定に用いる単語の特徴量を抽出する。特定部１３３は、抽出した単語の特徴量に基づき、複数の文書データのうち、いずれかの文書データを特定する。例えば、特定部１３３は、抽出した単語の特徴量と、複数の文書データそれぞれに含まれる単語の出現頻度の特徴量のうち、抽出した単語の特徴量に対応する単語の特徴量との類似度に基づき、複数の文書データのうち、いずれかの文書データを特定する。

ここで、図９および図１０を用いてフィルタリングについて説明する。図９は、フィルタリングの結果の一例を示す図である。図９に示す表４１は、ある選択した文書データの第３特徴量を単語および出現回数と対応付けた表である。表４１ａは、フィルタとして、例えばフィルタ記憶部１２５のフィルタを用いた場合に、フィルタと類似度を比較する抽出された単語の第３特徴量を示す。表４１ａには、単語「ＯＳ」の第３特徴量「２」と、単語「サーバ」の第３特徴量「１」とが含まれる。ここで、類似度としてｃｏｓ類似度を用いると、表４１ａとフィルタとのｃｏｓ類似度は、下記の式（１）となる。また、フィルタリングに用いる類似度の閾値は、例えば「０．２」であるとする。

ｃｏｓ類似度（（１，２），（２，１））
＝（２＋２）／（√５×√５）＝０．８・・・（１）

表４１ａの場合は、式（１）よりｃｏｓ類似度が「０．８」であり、閾値の「０．２」以上であるので、表４１の文書データは、事前学習用に採用される。

一方、表４２は、表４１と異なる選択した文書データの第３特徴量を単語および出現回数と対応付けた表である。表４２ａは、フィルタとして、例えばフィルタ記憶部１２５のフィルタを用いた場合に、フィルタと類似度を比較する抽出された単語の第３特徴量を示す。表４２ａには、単語「ＯＳ」の第３特徴量「０．４」と、単語「サーバ」の第３特徴量「−９」とが含まれる。表４１ａと同様に、ｃｏｓ類似度を求めると、表４２ａとフィルタとのｃｏｓ類似度は、下記の式（２）となる。

ｃｏｓ類似度（（１，２），（０．４，−９））
＝（０．４−１８）／（√５×√８１．１６）＝−０．９・・・（２）

表４２ａの場合は、式（２）よりｃｏｓ類似度が「−０．９」であり、閾値の「０．２」未満であるので、表４２の文書データは、事前学習用に採用されない。

図１０は、単語の出現頻度に基づくフィルタリングの一例を示す図である。なお、図１０では、上述の説明をより一般化するとともに、類似度の判定について閾値の代わりに許容される頻度（特徴量）の範囲を用いた場合について説明する。図１０に示すように、生成部１３２は、一般的なコーパス３１における名詞および動詞等について正規化した出現頻度の特徴量３１ａを算出する。一般的なコーパス３１は、上述の全ての事前学習用の文書データに相当し、特徴量３１ａは、第１特徴量に相当する。次に、生成部１３２は、教師有り学習用コーパス３２における名詞および動詞等について正規化した出現頻度の特徴量３２ａを算出する。教師有り学習用コーパス３２は、上述の教師データに相当し、特徴量３２ａは、第２特徴量に相当する。

生成部１３２は、特徴量３１ａと特徴量３２ａとに基づいて、特徴となる単語と頻度（特徴量）とを抽出し、フィルタ３３を生成する。すなわち、図１０の例では、単語「プログラム」の特徴量「２．２」と、単語「プロキシー」の特徴量「２．９」とがフィルタとなる。特定部１３３は、特徴量の類似度、つまり許容される頻度３４として、誤差εを含む範囲を設定する。誤差εを含む範囲は、上述の類似度を判定する閾値に相当する。すなわち、特定部１３３は、閾値に代えて、誤差εを含む範囲を類似度の判定に用いてもよい。図１０の例では、許容される頻度３４は、判定対象の頻度（特徴量）をｘ’とすると、単語「プログラム」が「２．２−ε＜ｘ’＜２．２＋ε」、単語「プロキシー」が「２．９−ε＜ｘ’＜２．９＋ε」と表すことができる。

特定部１３３は、候補コーパス３５，３６について、それぞれ特徴量３５ａ，３６ａを算出する。つまり、候補コーパス３５，３６は、上述の候補の文書データに相当し、特徴量３５ａ，３６ａは、上述の第３特徴量に相当する。特定部１３３は、特徴量３５ａ，３６ａのうち、フィルタ３３を用いて抽出された単語の頻度（特徴量）について、許容される頻度３４と比較する。このとき、例えばεを「１」とすると、許容される頻度３４は、単語「プログラム」が「１．２＜ｘ’＜３．２」、単語「プロキシー」が「１．９＜ｘ’＜３．９」となる。特徴量３５ａの単語「プログラム」は、頻度（特徴量）「１．９」、単語「プロキシー」は、頻度（特徴量）「２．２」であるので、許容される頻度３４の範囲内である。これに対し、特徴量３６ａの単語「プログラム」は、頻度（特徴量）「０．４」、単語「プロキシー」は、頻度（特徴量）「０．６」であるので、許容される頻度３４の範囲外である。このため、特定部１３３は、候補コーパス３５を事前学習に用い、候補コーパス３６は事前学習に用いない。なお、許容される頻度３４の範囲は、複数の単語のうち所定の割合が範囲内であれば、当該候補コーパスを事前学習に用いるようにしてもよい。所定の割合は、例えば５０％とすることができる。

図１の説明に戻って、学習部１３４は、特定部１３３から事前学習指示が入力されると、事前学習を実行する。学習部１３４は、事前学習用文書データ記憶部１２６を参照し、事前学習用の文書データを用いて機械学習を実行して事前学習モデルを生成する。学習部１３４は、生成した事前学習モデルを事前学習モデル記憶部１２７に記憶する。すなわち、学習部１３４は、特定したいずれかの文書データの特徴情報を機械学習する。なお、特徴情報は、事前学習用の文書データに含まれる文章である文章情報における、単語の意味（品詞）や単語間の関係（係り受け）等を示す情報である。

学習部１３４は、事前学習モデルを生成すると、教師データ記憶部１２２を参照し、生成した事前学習モデルおよび教師データを用いて機械学習を実行して学習モデルを生成する。学習部１３４は、生成した学習モデルを学習モデル記憶部１２８に記憶する。

次に、実施例の学習装置１００の動作について説明する。図１１は、実施例の学習処理の一例を示すフローチャートである。

受付部１３１は、例えば、図示しない他の情報処理装置から複数の文書データおよび教師データを受信して受け付ける（ステップＳ１１）。受付部１３１は、受け付けた複数の文書データを、それぞれ文書ＩＤを付与して文書データ記憶部１２１に記憶する。また、受付部１３１は、受け付けた教師データを、教師文書ＩＤを付与して教師データ記憶部１２２に記憶する。受付部１３１は、フィルタ生成指示を生成部１３２に出力する。

生成部１３２は、受付部１３１からフィルタ生成指示が入力されると、フィルタ生成処理を実行する（ステップＳ１２）。ここで、図１２を用いてフィルタ生成処理を説明する。図１２は、フィルタ生成処理の一例を示すフローチャートである。

生成部１３２は、文書データ記憶部１２１を参照し、全ての事前学習用の文書データにおける単語ごとの出現回数を算出する（ステップＳ１２１）。生成部１３２は、単語ごとの出現回数を算出すると、単語ごとに出現回数に基づく出現頻度を正規化した第１特徴量を算出する（ステップＳ１２２）。生成部１３２は、算出した第１特徴量を単語および出現回数と対応付けて、第１特徴量記憶部１２３に記憶する。

生成部１３２は、教師データ記憶部１２２を参照し、教師データにおける単語ごとの出現回数を算出する（ステップＳ１２３）。生成部１３２は、教師データの単語ごとの出現回数に基づく出現頻度を正規化した第２特徴量を算出する（ステップＳ１２４）。生成部１３２は、算出した第２特徴量を単語および出現回数と対応付けて、第２特徴量記憶部１２４に記憶する。

生成部１３２は、第１特徴量および第２特徴量に基づいて、フィルタとして用いる単語を抽出する（ステップＳ１２５）。生成部１３２は、抽出した単語、および、対応する第２特徴量をフィルタ記憶部１２５に記憶する（ステップＳ１２６）。生成部１３２は、特定指示を特定部１３３に出力してフィルタ生成処理を終了し、元の処理に戻る。

図１１の説明に戻って、特定部１３３は、生成部１３２から特定指示が入力されると、特定処理を実行する（ステップＳ１３）。ここで、図１３を用いて特定処理を説明する。図１３は、特定処理の一例を示すフローチャートである。

特定部１３３は、文書データ記憶部１２１を参照し、事前学習の候補の文書データを１つ選択する（ステップＳ１３１）。特定部１３３は、選択した文書データにおける単語ごとの出現回数を算出する（ステップＳ１３２）。特定部１３３は、選択した文書データの単語ごとの出現回数に基づく出現頻度を正規化した第３特徴量を算出する（ステップＳ１３３）。

特定部１３３は、フィルタ記憶部１２５を参照し、算出した第３特徴量およびフィルタに基づいて、フィルタと類似度を比較する単語の第３特徴量を抽出する（ステップＳ１３４）。特定部１３３は、抽出した単語の第３特徴量と、フィルタの第２特徴量との類似度を算出する（ステップＳ１３５）。

特定部１３３は、算出した類似度が閾値以上であるか否かを判定する（ステップＳ１３６）。特定部１３３は、類似度が閾値以上であると判定した場合には（ステップＳ１３６：肯定）、選択した文書データを事前学習用に採用し、選択した文書データを事前学習用文書データ記憶部１２６に記憶して（ステップＳ１３７）、ステップＳ１３９に進む。特定部１３３は、類似度が閾値未満であると判定した場合には（ステップＳ１３６：否定）、選択した文書データを事前学習用に採用しないと決定し（ステップＳ１３８）、ステップＳ１３９に進む。

特定部１３３は、類似度の判定が未判定である候補の文書データがあるか否かを判定する（ステップＳ１３９）。特定部１３３は、類似度の判定が未判定である候補の文書データがあると判定した場合には（ステップＳ１３９：肯定）、ステップＳ１３１に戻る。特定部１３３は、類似度の判定が未判定である候補の文書データがないと判定した場合には（ステップＳ１３９：否定）、事前学習指示を学習部１３４に出力して特定処理を終了し、元の処理に戻る。

図１１の説明に戻って、学習部１３４は、特定部１３３から事前学習指示が入力されると、事前学習用文書データ記憶部１２６を参照して、事前学習用の文書データを用いて機械学習を実行し、事前学習モデルを生成する（ステップＳ１４）。学習部１３４は、生成した事前学習モデルを事前学習モデル記憶部１２７に記憶する。学習部１３４は、教師データ記憶部１２２を参照して、生成した事前学習モデルおよび教師データを用いて機械学習を実行し、学習モデルを生成する（ステップＳ１５）。学習部１３４は、生成した学習モデルを学習モデル記憶部１２８に記憶して、学習処理を終了する。これにより、学習装置１００は、学習効率を高めることができる。また、学習装置１００は、本番学習用のデータ、つまり教師データのみで学習を行うよりも良好な学習結果を得ることができる。

このように、学習装置１００は、教師有り学習の事前学習として実施される教師無し学習を実行する。すなわち、学習装置１００は、教師有り学習で用いられる教師データと、複数の文章情報をそれぞれが含む複数の文書データとを受け付ける。また、学習装置１００は、受け付けた教師データと、受け付けた複数の文書データそれぞれと、の相関度に基づき、複数の文書データのうち、いずれかの文書データを特定する。また、学習装置１００は、特定したいずれかの文書データの特徴情報を機械学習する。その結果、学習装置１００は、学習効率を高めることができる。

また、学習装置１００は、教師データに含まれる単語の出現頻度と、複数の文書データそれぞれに含まれる単語の出現頻度と、の類似度に基づき、いずれかの文書データを特定する。その結果、学習装置１００は、教師データと分野の近い文書データを用いて事前学習するので、学習効率を高めることができる。

また、学習装置１００は、教師データに含まれる単語の出現頻度の特徴量と、複数の文書データそれぞれに含まれる単語の出現頻度の特徴量とに基づいて、類似度の判定に用いる単語の特徴量を抽出する。また、学習装置１００は、抽出した単語の特徴量に基づき、複数の文書データのうち、いずれかの文書データを特定する。その結果、学習装置１００は、より学習効率を高めることができる。

また、学習装置１００は、抽出した単語の特徴量と、複数の文書データそれぞれに含まれる単語の出現頻度の特徴量のうち、抽出した単語の特徴量に対応する単語の特徴量との類似度に基づき、複数の文書データのうち、いずれかの文書データを特定する。その結果、学習装置１００は、より学習効率を高めることができる。

なお、上記実施例では、教師データと複数の文書データそれぞれとの相関度として、単語の出現頻度に基づく類似度を用いたが、これに限定されない。例えば、教師データと複数の文書データそれぞれとについて、文書自体をベクトル化して類似度を判定するようにしてもよい。文書自体をベクトル化する方法としては、例えばＤｏｃ２Ｖｅｃを用いる方法が挙げられる。

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、生成部１３２と特定部１３３とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。

さらに、各装置で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。

ところで、上記の実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図１４は、学習プログラムを実行するコンピュータの一例を示す図である。

図１４に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０４と、各種装置と接続するためのインタフェース装置２０５と、他の情報処理装置等と有線または無線により接続するための通信装置２０６とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０７と、ハードディスク装置２０８とを有する。また、各装置２０１〜２０８は、バス２０９に接続される。

ハードディスク装置２０８には、図１に示した受付部１３１、生成部１３２、特定部１３３および学習部１３４の各処理部と同様の機能を有する学習プログラムが記憶される。また、ハードディスク装置２０８には、文書データ記憶部１２１、教師データ記憶部１２２、第１特徴量記憶部１２３、および、第２特徴量記憶部１２４が記憶される。また、ハードディスク装置２０８には、フィルタ記憶部１２５、事前学習用文書データ記憶部１２６、事前学習モデル記憶部１２７、学習モデル記憶部１２８、および、学習プログラムを実現するための各種データが記憶される。入力装置２０２は、例えば、コンピュータ２００の管理者から操作情報等の各種情報の入力を受け付ける。モニタ２０３は、例えば、コンピュータ２００の管理者に対して表示画面等の各種画面を表示する。インタフェース装置２０５は、例えば印刷装置等が接続される。通信装置２０６は、例えば、図１に示した通信部１１０と同様の機能を有し図示しないネットワークと接続され、他の情報処理装置等と各種情報をやりとりする。

ＣＰＵ２０１は、ハードディスク装置２０８に記憶された各プログラムを読み出して、ＲＡＭ２０７に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ２００を図１に示した受付部１３１、生成部１３２、特定部１３３および学習部１３４として機能させることができる。

なお、上記の学習プログラムは、必ずしもハードディスク装置２０８に記憶されている必要はない。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ２００が読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこの学習プログラムを記憶させておき、コンピュータ２００がこれらから学習プログラムを読み出して実行するようにしてもよい。

１００学習装置
１１０通信部
１１１表示部
１１２操作部
１２０記憶部
１２１文書データ記憶部
１２２教師データ記憶部
１２３第１特徴量記憶部
１２４第２特徴量記憶部
１２５フィルタ記憶部
１２６事前学習用文書データ記憶部
１２７事前学習モデル記憶部
１２８学習モデル記憶部
１３０制御部
１３１受付部
１３２生成部
１３３特定部
１３４学習部

Claims

教師有り学習の事前学習として実施される教師無し学習をコンピュータに実行させる学習プログラムにおいて、
前記教師有り学習で用いられるコーパスである教師データと、複数の文章情報をそれぞれが含む複数の文書データとを受け付け、
受け付けた前記教師データと、受け付けた前記複数の文書データそれぞれと、の相関度に基づき、前記複数の文書データのうち、いずれかの文書データを特定し、
特定した前記いずれかの文書データの特徴情報を機械学習する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
前記特定する処理は、前記教師データに含まれる単語の出現頻度と、前記複数の文書データそれぞれに含まれる単語の出現頻度と、の類似度に基づき、前記いずれかの文書データを特定する、
ことを特徴とする請求項１に記載の学習プログラム。
前記特定する処理は、前記複数の文書データそれぞれに含まれる単語の出現頻度の特徴量が第１の所定値以下の単語のうち、前記教師データに含まれる単語の出現頻度の特徴量が第２の所定値以上の単語の出現頻度の特徴量を、前記類似度の判定に用いる単語の特徴量として抽出し、抽出した前記単語の特徴量と、前記複数の文書データそれぞれに含まれる単語の出現頻度の特徴量のうち、抽出した前記単語の特徴量に対応する単語の特徴量との類似度に基づき、前記複数の文書データのうち、いずれかの文書データを特定する、
ことを特徴とする請求項２に記載の学習プログラム。
教師有り学習の事前学習として実施される教師無し学習をコンピュータが実行する学習方法において、
前記教師有り学習で用いられるコーパスである教師データと、複数の文章情報をそれぞれが含む複数の文書データとを受け付け、
受け付けた前記教師データと、受け付けた前記複数の文書データそれぞれと、の相関度に基づき、前記複数の文書データのうち、いずれかの文書データを特定し、
特定した前記いずれかの文書データの特徴情報を機械学習する、
処理をコンピュータが実行することを特徴とする学習方法。
教師有り学習の事前学習として実施される教師無し学習を実行する学習装置において、
前記教師有り学習で用いられるコーパスである教師データと、複数の文章情報をそれぞれが含む複数の文書データとを受け付ける受付部と、
受け付けた前記教師データと、受け付けた前記複数の文書データそれぞれと、の相関度に基づき、前記複数の文書データのうち、いずれかの文書データを特定する特定部と、
特定した前記いずれかの文書データの特徴情報を機械学習する学習部と、
を有することを特徴とする学習装置。