JP6936014B2

JP6936014B2 - 教師データ収集装置、教師データ収集方法、及びプログラム

Info

Publication number: JP6936014B2
Application number: JP2017014021A
Authority: JP
Inventors: 迪利吉井; 中島　章; 章中島
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2017-01-30
Filing date: 2017-01-30
Publication date: 2021-09-15
Anticipated expiration: 2037-01-30
Also published as: JP2018124617A

Description

本発明は、自然言語解析技術に関し、特に教師あり学習において重要な教師データを自動的に獲得する教師データ収集装置、教師データ収集方法、及び、プログラムに関するものである。

情報抽出の分野では、一般的に機械学習による手法が用いられることが多い。深層学習をはじめとする人工知能の機械学習の学習方法には、入力データと出力データとの関係を人間がシステムに教えて学習させる「教師あり学習」と、入力データだけ用いて、システム自身が傾向を導き出したり、多数のデータを少ないデータ毎に分類したりする「教師なし学習」に大別できる。

「教師あり学習」は、入出力の関係を示した大量の教師データがあれば、どのような情報の相互関係も学習させることができる。しかしながら、教師データの作成には人手が必要であり、大きなコストが掛かるという問題がある。

一方、「教師なし学習」は、システムの学習コストが安く済む利点があるが、正解が分からなくても実現できる作業にしか適用できない。

「教師あり学習」の教師データ作成コストを低減するための手法としては、半教師あり学習であるブートストラップ法がある。ブートストラップ法は、最初に入力として与えた少数の教師データを基にして、その規則に適合するデータを抽出し、教師データに追加することによって大量の教師データを作成する（例えば、特許文献１参照）。

他方、多義語の曖昧性解消に適した高精度の連想語に基づき連想概念辞書を作成し、件数数や品質方針などのパラメータに応じて学習データを収集可能とする技術も検討されている（例えば、特許文献２参照）。

特開２００５−２２２５３２号公報特開２０１１−１６４７１７号公報

しかしながら、特許文献１に示すようなブートストラップ法では、不適切なデータであっても、最初の教師データを基にした規則に適合すると新たな教師データとして追加するため、作成した大量の教師データには不適切なデータが多く含まれてしまうことになる。
また、特許文献２の学習データ収集では、無秩序に文章データを集積したコーパスから学習データを収集するため、連想概念辞書を用いて選別精度を向上したとしても、そもそもの収集データの分野に関する偏りについては考慮することが出来ない。そのため、母集団に依存したデータ集合を得ることになる。

本発明は、上記に鑑み、機械学習に関する質の高い教師データを低コストで収集することができる教師データ収集装置、教師データ収集方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明は、機械学習の教師データとして用いるための、特定の分野に関するデータを収集する教師データ収集装置であって、予め登録しておいた特定の分野に関する参照データの特徴ベクトルである第１の特徴ベクトルを算出する特徴算出部と、前記第１の特徴ベクトルから、前記特定の分野に関するデータの収集に用いる検索条件を生成する生成部と、生成された前記検索条件をもとに、前記特定の分野に関するデータを収集する収集部と、収集した前記データの特徴ベクトルである第２の特徴ベクトルを前記特徴算出部が算出すると、該第２の特徴ベクトルと、前記第１の特徴ベクトルとの類似度を算出する類似度算出部と、前記類似度が所定の範囲内にある収集した前記データを、前記教師データとして抽出する抽出部と、を備える教師データ収集装置を提供する。

特定の分野に関する情報収集に特化した、機械学習に関する質の高い教師データを、低コストで自動的に収集することが可能となる。

実施形態に係る教師データ収集システムのシステム構成の一例を示す図である。実施形態に係る教師データ収集システムのハードウエア構成の一例を示す図である。実施形態に係る記憶装置で記憶する各種テーブルの一例を示す図である。実施形態に係る特徴ベクトルの算出の処理の流れの一例を示すフローチャートである。実施形態に係る特徴ベクトルの算出処理の具体例を示す図である。実施形態に係る特定の分野に関するデータ収集処理の流れの一例を示すフローチャートである。実施形態に係る特定の分野に関連するデータの収集処理の具体例を示す図である。実施形態に係る特徴ベクトルの類似度を算出する処理の流れの一例を示すフローチャートである。実施形態に係る類似度を算出する処理の具体例を示す図である。実施形態に係る教師データとして格納するデータを抽出する処理の流れの一例を示すフローチャートである。

以下では、本発明の実施形態について、図面を用いて詳細に説明する。

（システム構成）
図１は、本発明の実施形態に係る教師データ収集システムのシステム構成の一例を示す図である。

教師データ収集システム１００は、大量の情報（データ）の中から、特定の分野に関係するデータのみを抽出する。
図１によれば、教師データ収集システム１００は、特定の分野に関する参照データやその参照データの特徴ベクトル等をデータベース化して記憶する記憶装置３００と、記憶装置３００上のデータベースを管理するとともに、当該データベースの検索等を可能とする管理コンピュータ２００（教師データ収集装置）とを含んで構成される。

また、管理コンピュータ２００には、記憶装置３００が接続されている。

さらに、この管理コンピュータ２００は、例えば、インターネット等のネットワークＮを介して端末４００や外部の文書データベース４１０と接続されている。端末４００は、管理コンピュータ２００へアクセスすることができる。例えば、ユーザは、管理コンピュータ２００によって収集された教師データを、端末４００から確認することができる。また、管理コンピュータ２００は、外部の文書データベース４１０にアクセスすることができる。例えば、管理コンピュータ２００は、外部の文書データベース４１０に保管されているデータを取り込むことができる。

管理コンピュータ２００は、データ受付部２１０と、特徴ベクトル算出部２２０と、検索条件生成部２３０と、データ収集部２４０と、類似度算出部２５０と、を備えている。

データ受付部２１０は、例えば、マウス、キーボード、タッチパネル等の各種入力手段を用いて、ユーザが選択した特定の分野に関するデータ（参照データ）を受け付ける。データ受付部２１０は、受け付けた参照データを記憶装置３００の参照データ記憶部３１０に格納する。

特徴ベクトル算出部２２０（特徴算出部）は、記憶装置３００の参照データ記憶部３１０に格納されている参照データから、当該参照データに関する特徴ベクトルである第１の特徴ベクトルを算出し、記憶装置３００の参照データ記憶部３１０に格納する。

検索条件生成部２３０（生成部）は、記憶装置３００の参照データ記憶部３１０に格納されている第１の特徴ベクトルから、データ収集を行うための検索条件を生成し、データ収集部２４０に出力する。

データ収集部２４０（収集部）は、検索条件生成部２３０によって生成された検索条件をもとにして、文書データベース４１０から検索条件に適合するデータ（収集データ）を収集し、記憶装置３００の収集データ記憶部３２０に格納する。

特徴ベクトル算出部２２０は、記憶装置３００の収集データ記憶部３２０に保管されている収集データから、当該収集データに関する特徴ベクトルである第２の特徴ベクトルを算出し、記憶装置３００の収集データ記憶部３２０に格納する。

類似度算出部２５０は、記憶装置３００の収集データ記憶部３２０に格納されている第２の特徴ベクトルを、記憶装置３００の参照データ記憶部に保管されている第１の特徴ベクトルと比較し、第１の特徴ベクトルに対する第２の特徴ベクトルの類似度を算出する。類似度算出部２５０は、算出した類似度を記憶装置３００の収集データ記憶部３２０に格納する。

教師データ抽出部２６０（抽出部）は、記憶装置３００の収集データ記憶部３２０に保管されている類似度が所定の範囲内にある収集データを教師データとして抽出し、記憶装置３００の教師データ記憶部３３０に格納する。また、教師データ抽出部２６０は、記憶装置３００の参照データ記憶部３１０に格納されている参照データを、記憶装置３００の教師データ記憶部３３０に格納する。

（ハードウエア構成）
実施形態に係る管理コンピュータ２００は、例えば一般的なコンピュータ５００を用いて実現することができる。図２は、コンピュータ５００の構成の一例を示す図である。

コンピュータ５００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０３、ストレージ装置５０４、外部Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）５０５、入力装置５０６、出力装置５０７、通信Ｉ／Ｆ５０８等を有する。これらの装置はバスＢを介して相互に信号の送受信を行う。

ＣＰＵ５０１は、ＲＯＭ５０３やストレージ装置５０４等に格納されたプログラムやデータをＲＡＭ５０２上に読み出し、処理を実行することで、コンピュータ５００の各機能を実現する演算装置である。ＲＡＭ５０２は、ＣＰＵ５０１のワークエリア等として用いられる揮発性のメモリである。ＲＯＭ５０３は、電源を切ってもプログラムやデータを保持する不揮発性のメモリである。
ストレージ装置５０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等により実現され、ＯＳ（ＯｐｅｒａｔｉｏｎＳｙｓｔｅｍ）、アプリケーションプログラム、及び各種データ等を記憶する。
外部Ｉ／Ｆ５０５は、外部装置とのインタフェースである。外部装置には、例えば、記録媒体５０９等がある。コンピュータ５００は、外部Ｉ／Ｆ５０５を介して、記録媒体５０９の読取り、書き込みを行うことができる。記録媒体５０９には、例えば、光学ディスク、磁気ディスク、メモリカード、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等が含まれる。

入力装置５０６は、例えば、マウス、タッチパネル及びキーボード等で構成され、操作者（ユーザ）の指示を受けてコンピュータ５００に各種操作等を入力する。

出力装置５０７は、例えば、液晶ディスプレイにより実現され、ＣＰＵ５０１による処理結果を表示する。

通信Ｉ／Ｆ５０８は、有線通信又は無線通信により、コンピュータ５００をインターネット等のネットワーク（図１のネットワークＮ等）に接続するインタフェースである。バスＢは、上記各構成装置に接続され、制御装置間で各種制御信号等を送受信する。

（各種テーブルの説明）
次に、図３を用いて、記憶装置３００が記憶する各テーブルについて説明する。

図３は、本発明の実施形態に係る記憶装置が記憶する各種テーブルの一例を示す図である。
図３（ａ）に示す記憶装置３００の参照データ記憶部３１０が記憶する参照データ管理テーブル６００は、特定の分野に関する参照データを、当該参照データに割り当てられているデータ識別子、および当該データの特徴ベクトル（第１の特徴ベクトル）と対応付けて記憶するテーブルである。

例えば、図３（ａ）の１行目のデータは、特定の分野に関する参照データ「ＤＡ００００１」のデータ識別子は「＃Ａ００００１」であり、参照データ「ＤＡ００００１」に関する特徴ベクトル「ＸＡ００００１」は、特徴ベクトル算出部２２０が算出した第１の特徴ベクトルであることを示す。

特徴ベクトル算出部２２０は、ユーザが端末４００に入力し、記憶装置３００の参照データ記憶部３１０に格納された特定の分野に関する参照データ「ＤＡ００００１」から、参照データに関する特徴ベクトルである第１の特徴ベクトル「ＸＡ００００１」を算出し、記憶装置３００の参照データ記憶部３１０に格納する。特徴ベクトルの算出方法としては、例えば、ＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）・ＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法が挙げられる。

このように、参照データ記憶部３１０の参照データ管理テーブル６００には、ユーザが入力した特定の分野に関する参照データについての特徴ベクトルが格納される。

図３（ｂ）に示す記憶装置３００の収集データ記憶部３２０が記憶する収集データ管理テーブル６１０は、特定の分野に関して収集したデータ（収集データ）を、当該データに割り当てられているデータ識別子、当該データの特徴ベクトル（第２の特徴ベクトル）、および、参照データに対する当該データの類似度と対応付けて記憶するテーブルである。

例えば、図３（ｂ）の１行目のデータは、検索条件生成部２３０が生成した特定の分野に関してデータ収集を行うための検索条件に基づいて、データ収集部２４０が収集した特定の分野に関する収集データ「ＤＳ００００１」のデータ識別子は「＃Ｓ００００１」であり、前記収集データ「ＤＳ００００１」に関する特徴ベクトル「ＸＳ００００１」は、特徴ベクトル算出部２２０が算出した第２の特徴ベクトルであり、特定の分野に関する参照データの特徴ベクトル（第１の特徴ベクトル）に対する収集データ「ＤＳ００００１」の特徴ベクトル（第２の特徴ベクトル）「ＸＳ００００１」の類似度が０．６３４であることを示す。

検索条件生成部２３０は、記憶装置３００の参照データ記憶部３１０に格納されている第１の特徴ベクトルから、データ収集を行うための検索条件（検索語の組み合わせ）を生成し、データ収集部２４０に出力する。

データ収集部２４０は、例えばｗｅｂ上で一般に利用可能な検索エンジン等を用いて、検索条件生成部２３０によって生成された検索条件（検索語の組み合わせ等）をもとにして、文書データベース４１０から検索条件に適合するデータを収集する。そして、データ収集部２４０は、収集したデータ（検索条件に適合したデータ）を、特定の分野に関する収集データ「ＤＳ００００１」として、記憶装置３００の収集データ記憶部３２０に格納する。

特徴ベクトル算出部２２０は、記憶装置３００の収集データ記憶部３２０に保管されている収集データ「ＤＳ００００１」から、収集データに関する特徴ベクトルである第２の特徴ベクトル「ＸＳ００００１」を算出し、記憶装置３００の収集データ記憶部３２０に格納する。

類似度算出部２５０は、記憶装置３００の収集データ記憶部３２０に格納されている第２の特徴ベクトル「ＸＳ００００１」を、記憶装置３００の参照データ記憶部に保管されている第１の特徴ベクトル「ＸＡ００００１」、「ＸＡ００００２」、「ＸＡ００００３」等と比較し、第１の特徴ベクトルに対する第２の特徴ベクトルの類似度（ここでは０．６３４）を算出する。
具体的には、類似度算出部２５０は、記憶装置３００の収集データ記憶部３２０に格納されている第２の特徴ベクトル「ＸＳ００００１」を、記憶装置３００の参照データ記憶部に保管されている第１の特徴ベクトル「ＸＡ００００１」と比較して、第１の特徴ベクトル「ＸＡ００００１」に対する第２の特徴ベクトル「ＸＳ００００１」の類似度を算出する。「ＸＡ００００２」、「ＸＡ００００３」等についても同様である。
次いで、類似度算出部２５０は、算出された第１の特徴ベクトル「ＸＡ００００１」、「ＸＡ００００２」、「ＸＡ００００３」等に対する第２の特徴ベクトル「ＸＳ００００１」の類似度を組み合わせて、第１の特徴ベクトルに対する第２の特徴ベクトルの類似度を算出する。組み合わせの方法としては、例えば、類似度の平均値や類似度の最大値が挙げられる。類似度算出部２５０は、類似度算出部２５０は、算出した類似度（ここでは０．６３４）を記憶装置３００の収集データ記憶部３２０に格納する。

このように、収集データ記憶部３２０の収集データ管理テーブル６１０には、特定の分野に関する収集データ、収集データについての特徴ベクトル（第２の特徴ベクトル）、および、特定の分野に関する参照データの特徴ベクトル（第１の特徴ベクトル）に対する収集データについての特徴ベクトル（第２の特徴ベクトル）の類似度が格納される。

図３（ｃ）に示す記憶装置３００の教師データ記憶部３３０が記憶する教師データ管理テーブル６２０は、教師データを、当該データに割り当てられているデータ識別子と対応付けて記憶するテーブルである。

例えば、図３（ｃ）の１行目のデータは、教師データ抽出部２６０が教師データとして抽出した収集データ「ＤＳ００００３」のデータ識別子は「＃Ｓ００００３」であることを示す。

教師データ抽出部２６０は、記憶装置３００の収集データ記憶部３２０に保管されている類似度が所定の範囲内にある収集データ「ＤＳ００００３」を教師データとして抽出し、収集データ「ＤＳ００００３」のデータ識別子は「＃Ｓ００００３」とともに記憶装置３００の教師データ記憶部３３０に格納する。

また、図３（ｃ）に示すように、教師データ抽出部２６０は、記憶装置３００の参照データ記憶部３１０に格納されている参照データ（ユーザによって手動で選ばれたデータ）を、記憶装置３００の教師データ記憶部３３０に格納する。

このように、収集データ記憶部３２０の教師データ管理テーブル６２０には、教師データが格納される。

（処理の流れ）
次に、図１の構成および図３の各種テーブルを例に、図４、図５を用いて特徴ベクトルの算出処理について説明する。

図４は、本発明の実施形態に係る特徴ベクトルの算出処理の流れの一例を示すフローチャートである。
また、図５は、本発明の実施形態に係る特徴ベクトルの算出処理の具体例を示す図である。

前提として、ユーザが、ユーザ自身で判断して選択した特定の分野に関連する参照データ「ＤＡ００００１」、「ＤＡ００００２」、「ＤＡ００００３」（図３（ａ）参照）を端末４００に入力したとする。すると、端末４００は、それら３つの参照データを管理コンピュータ２００に送信する。管理コンピュータ２００では、データ受付部２１０が、これら参照データを受信し、記憶装置３００に格納する。より具体的には、データ受付部２１０は、参照データ「ＤＡ００００１」をそのデータ識別子「＃Ａ００００１」と対応付けて、参照データ管理テーブル６００に格納する。データ受付部２１０は、参照データ「ＤＡ００００２」、「ＤＡ００００３」についても同様に各々のデータ識別子と対応付けて参照データ管理テーブル６００に格納する。なお、参照データのデータ識別子については、データ受付部２１０が算出してもよいし、記憶装置３００で稼働するデータベースシステム等が算出してもよい。このように記憶装置３００に参照データが格納されると、例えば、ユーザによる指示によって、管理コンピュータ２００は、参照データの特徴ベクトル算出処理を開始する。

ここで、本実施形態の例として、「特定の分野」は“鉄道システム”に関する分野であるものとする。また、参照データ「ＤＡ００００１」、「ＤＡ００００２」、「ＤＡ００００３」・・は、ユーザ自身の判断によってｗｅｂ等から収集（選択）された、鉄道システムに関する文書Ａ１、Ａ２、Ａ３、・・（図５参照）である。鉄道システムに関する文書とは、例えば、“鉄道建設の契約に関するニュース”、“鉄道に関する技術論文”などである。

まず、特徴ベクトル算出部２２０は、参照データを記憶装置３００から取り込む（ステップＳ１０１）。より具体的には、特徴ベクトル算出部２２０は、記憶装置３００の参照データ記憶部３１０（図３（ａ）の参照データ管理テーブル６００）に格納されている３つの参照データ「ＤＡ００００１」、「ＤＡ００００２」、「ＤＡ００００３」を読み出して取り込む。

次に、特徴ベクトル算出部２２０は、取り込んだ参照データ「ＤＡ００００１」、「ＤＡ００００２」、「ＤＡ００００３」から、当該参照データ「ＤＡ００００１」、「ＤＡ００００２」、「ＤＡ００００３」に関する特徴ベクトル（第１の特徴ベクトル）を算出する（ステップＳ１０２）。例えば、特徴ベクトル算出部２２０は、参照データ「ＤＡ００００１」について、特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」を算出する。

ここで、図３（ａ）に示す参照データ「ＤＡ００００１」が図５に示す文書Ａ１であったとすると、参照データ「ＤＡ００００１」の特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」は、文書Ａ１に含まれる単語ｉ（ｗｏｒｄｉ）と、その重み値との組み合わせで表現される。ここで、「重み値」とは、各単語ｉが、特徴ベクトルに対する特徴付けに貢献する度合いであって、本実施形態においては、例えば、各単語ｉの「出現回数」で表現される。単語ｉとは、特徴ベクトル算出部２２０が文書Ａ１から自動的に抽出した名詞群であり、例えば、“ｔｒａｆｆｉｃ”、“ｔｒａｉｎ”、“ｒａｉｌｗａｙ”、“ｇｏｖｅｒｎｍｅｎｔ”などである。図５に示す例では、参照データ「ＤＡ００００１」（文書Ａ１）についての特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」は、「ｔｒａｆｆｉｃ＝１０、ｔｒａｉｎ＝４、ｒａｉｌｗａｙ＝７、ｇｏｖｅｒｎｍｅｎｔ＝２、・・」などと表現される。

特徴ベクトル算出部２２０は、算出した第１の特徴ベクトルを記憶装置３００に出力する（ステップＳ１０３）。より具体的には、特徴ベクトル算出部２２０は、算出した特徴ベクトル（第１の特徴ベクトル）を記憶装置３００の参照データ記憶部３１０（参照データ管理テーブル６００）に格納する。例えば、特徴ベクトル算出部２２０は、特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」を参照データ「ＤＡ００００１」と対応付けて参照データ管理テーブル６００に格納する。
特徴ベクトル算出部２２０は、参照データ「ＤＡ００００２」、「ＤＡ００００３」についても同様に、文書Ａ２、文書Ａ３の各々に含まれる単語ｉとその重み値（例えば「出現回数」）とによって表現される特徴ベクトル「ＸＡ００００２」、「ＸＡ００００３」を算出する。

次に、図１の構成および図３の各種テーブルを例に、図６、図７を用いて特定の分野に関連するデータの収集処理について説明する。

図６は、本発明の実施形態に係る特定の分野に関連するデータの収集処理の流れの一例を示すフローチャートである。
また、図７は、本発明の実施形態に係る特定の分野に関連するデータの収集処理の具体例を示す図である。

前提として、記憶装置３００の参照データ記憶部３１０には、図４で説明した処理によって複数の参照データ「ＤＡ００００１」〜「ＤＡ００００３」等とそれぞれの特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」〜「ＸＡ００００３」等が格納されている。ユーザは、データ収集指示情報を端末４００に入力する。

すると、検索条件生成部２３０は、記憶装置３００の参照データ記憶部に格納されている特定の分野に関連する参照データの特徴ベクトル（第１の特徴ベクトル）を取り込む（ステップＳ２０１）。例えば、参照データ「ＤＡ００００１」〜「ＤＡ００００３」の特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」〜「ＸＡ００００３」を取り込む。

次に、検索条件生成部２３０は、取り込んだ参照データの特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」〜「ＸＡ００００３」から、データ収集を行うための検索条件を生成する（ステップＳ２０２）。より具体的には、検索条件生成部２３０は、取り込んだ参照データの特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」〜「ＸＡ００００３」から、検索語、各検索語の重み付け係数、検索語の組み合わせなどの検索条件を生成する。検索条件生成部２３０は、生成した検索条件をデータ収集部２４０に出力する（ステップＳ２０３）。

ここで、「検索条件」が“検索語の組み合わせ”である例について、図７を参照しながら説明する。
まず、検索条件生成部２３０は、例えば、参照データ「ＤＡ００００１」（文書Ａ１）に対し、その特徴ベクトル「ＸＡ００００１」を用いて、単語ｉごとの重み値を算出する。ここでの「重み値」は、本実施形態においては、例えば、単語ｉの出現頻度（ｔｆ：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と逆文書出現頻度（ｉｄｆ：ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）との積（ｔｆ×ｉｄｆ）である。図７に示す例によれば、文書Ａ１の単語“ｔｒａｆｆｉｃ”に係る出現頻度は０．３３３と算出され、逆文書出現頻度は０．８１２と算出される。検索条件生成部２３０は、他の参照データ「ＤＡ００００２」、「ＤＡ００００３」（文書Ａ２、文書Ａ３）についても同様に、単語ｉごとの重み値（例えばｔｆ×ｉｄｆ）を算出する。

次に、検索条件生成部２３０は、全ての参照データ（文書Ａ１、Ａ２、Ａ３）に共通して重み値（例えばｔｆ×ｉｄｆ）が大きい単語ｉを抽出する。具体的には、検索条件生成部２３０は、文書Ａ１、Ａ２、Ａ３別に算出した重み値の平均値が予め規定された所定の判定閾値以上か否かを判定し、当該判定閾値以上であった単語ｉを抽出する。そして、検索条件生成部２３０は、抽出した複数の単語ｉを検索語とする検索条件を作成する。このようにすることで、複数の単語ｉの中から、参照データ（文書Ａ１、Ａ２、Ａ３）を特に特徴づけている単語ｉ（つまり、参照データの中で特に頻出する単語ｉ）が抽出され、抽出された単語ｉの組み合わせが検索条件となる。
例えば、検索条件生成部２３０は、重み値の平均値の算出結果より、“ｔｒａｆｆｉｃ”、“ｔｒａｉｎ”、“ｒａｉｌｗａｙ”の３つの単語ｉを抽出したとする。この場合、検索条件生成部２３０は、“ｔｒａｆｆｉｃ”、“ｔｒａｉｎ”、“ｒａｉｌｗａｙ”の３つの検索語の組み合わせを検索条件とする。

次に、データ収集部２４０は、例えばｗｅｂ上で一般に利用可能な検索エンジン等を用いて、ステップＳ２０３で生成した検索条件（検索語の組み合わせ等）を検索キーにして、外部の文書データベース４１０からデータを収集する（ステップＳ２０４）。上述の例によれば、データ収集部２４０は、検索エンジンを通じて、“ｔｒａｆｆｉｃ”、“ｔｒａｉｎ”、“ｒａｉｌｗａｙ”の３つの検索語を全て含む文書を収集する。
ここで、データ収集部２４０は、上記検索条件を用いた検索処理の結果、例えば「ＤＳ００００１」、「ＤＳ００００２」、「ＤＳ００００３」（図３（ｂ）参照）の３つのデータを収集したものとする。

データ収集部２４０は、ステップＳ２０４で収集した当該データ（収集データ）「ＤＳ００００１」、「ＤＳ００００２」、「ＤＳ００００３」を記憶装置３００に出力する（ステップＳ２０５）。より具体的には、データ収集部２４０は、収集データ「ＤＳ００００１」、「ＤＳ００００２」、「ＤＳ００００３」を記憶装置３００の収集データ記憶部３２０（収集データ管理テーブル６１０）に格納する。例えば、データ収集部２４０は、収集データ「ＤＳ００００１」をデータ識別子「＃Ｓ００００１」と対応付けて収集データ管理テーブル６１０に格納する。収集データ「ＤＳ００００２」、「ＤＳ００００３」についても同様である。

次に、図１の構成および図３の各種テーブルを例に、図８、図９を用いて類似度の算出処理について説明する。

図８は、本発明の実施形態に係る類似度を算出する処理の流れの一例を示すフローチャートである。
また、図９は、本発明の実施形態に係る類似度を算出する処理の具体例を示す図である。

前提として、記憶装置３００の収集データ記憶部３２０には、図６で説明した処理によって、“ｔｒａｆｆｉｃ”、“ｔｒａｉｎ”、“ｒａｉｌｗａｙ”なる３つの検索語を検索キーにして検索された複数の収集データ「ＤＳ００００１」〜「ＤＳ００００３」が格納されている。ユーザは、類似度算出指示情報を端末４００に入力する。

すると、特徴ベクトル算出部２２０は、記憶装置３００の収集データ記憶部３２０に格納されている収集データ「ＤＳ００００１」〜「ＤＳ００００３」の各々の特徴ベクトル（第２の特徴ベクトル）を算出する（ステップＳ３００）。特徴ベクトル算出部２２０は、第２の特徴ベクトルを記憶装置３００の収集データ記憶部３２０に格納する。

ここで、検索条件生成部２３０が生成した検索条件（“ｔｒａｆｆｉｃ”、“ｔｒａｉｎ”、“ｒａｉｌｗａｙ”の３つの検索語の組み合わせ）を検索キーとして検索された結果、図９に示す新たな３つの文書Ｘ、文書Ｙ、文書Ｚ（例えば、“米国における鉄道建設計画のニュース”など）が収集されたとする。文書Ｘ、文書Ｙ、文書Ｚは、それぞれ、図３（ｂ）に示す収集データ「ＤＳ００００１」、「ＤＳ００００２」、「ＤＳ００００３」である。
この場合、収集データ「ＤＳ００００１」の特徴ベクトル（第２の特徴ベクトル）「ＸＳ００００１」は、文書Ｘに含まれる単語ｉ（ｗｏｒｄｉ）と、その出現回数との組み合わせで表現される。単語ｉとは、特徴ベクトル算出部２２０が文書Ｘから自動的に抽出した名詞群である。図９に示す例では、収集データ「ＤＳ００００１」（文書Ｘ）についての特徴ベクトル（第２の特徴ベクトル）「ＸＳ００００１」は、（ｔｒａｆｆｉｃ＝１４、ｔｒａｉｎ＝２２、ｒａｉｌｗａｙ＝６７、ｇｏｖｅｒｎｍｅｎｔ＝９８、・・）と表現される。

次に、類似度算出部２５０は、第１の特徴ベクトル（参照データの特徴ベクトル）を記憶装置３００から取り込む（ステップＳ３０１）。より具体的には、類似度算出部２５０は、記憶装置３００の参照データ記憶部３１０（図３（ａ）に示す参照データ管理テーブル６００）に格納されている第１の特徴ベクトルを取り込む。

次に、類似度算出部２５０は、第２の特徴ベクトル（収集データの特徴ベクトル）を記憶装置３００から取り込む（ステップＳ３０２）。より具体的には、類似度算出部２５０は、記憶装置３００の収集データ記憶部３２０（図３（ｂ）に示す収集データ管理テーブル６１０）に格納されている第２の特徴ベクトルを取り込む。

次に、類似度算出部２５０は、取り込んだ第１の特徴ベクトルと第２の特徴ベクトルを比較し、参照データに対する収集データの類似度を算出する（ステップＳ３０３）。類似度算出部２５０は、算出した類似度を、収集データのデータ識別子に対応付けて記憶装置３００の収集データ記憶部３２０に格納する（ステップＳ３０４）。

具体的に説明すると、類似度算出部２５０は、例えば、収集データ「ＤＳ００００１」の特徴ベクトル（第２の特徴ベクトル）「ＸＳ００００１」と、３つの参照データ「ＤＡ００００１」、「ＤＡ００００２」、「ＤＡ００００３」の特徴ベクトル（第１の特徴ベクトル）「ＸＡ００００１」、「ＸＡ００００２」、「ＸＡ００００３」の各々とのコサイン類似度を算出する。そして、類似度算出部２５０は、収集データ「ＤＳ００００１」の特徴ベクトル（第２の特徴ベクトル）「ＸＳ００００１」に対し、３つの参照データの特徴ベクトル「ＸＡ００００１」、「ＸＡ００００２」、「ＸＡ００００３」の各々とのコサイン類似度の平均値（又は最大値等）を特定し、当該特定した類似度を記憶装置３００の収集データ記憶部３２０に格納する。
類似度算出部２５０は、収取データ「ＤＳ００００２」、「ＤＳ００００３」についても同様に類似度を算出し、記憶装置３００の収集データ記憶部３２０に格納する（図３（ｂ）参照）。
なお、下記において、類似度算出部２５０は、第１の特徴ベクトルと第２の特徴ベクトルとの「コサイン類似度」を算出するものとして説明を続けるが、他の実施形態においてはこの態様に限定されない。他の実施形態に係る類似度算出部２５０は、例えば、第１の特徴ベクトルと第２の特徴ベクトルとの「ユークリッド距離」に基づく類似度を算出してもよい。

次に、図１の構成および図３の各種テーブルを例に、図１０を用いて教師データの抽出処理について説明する。

図１０は、本発明の実施形態に係る教師データとして格納するデータを抽出する流れの一例を示すフローチャートである。

教師データ抽出部２６０は、収集データの類似度（コサイン類似度）を記憶装置３００から取り込む（ステップＳ４０１）。より具体的には、教師データ抽出部２６０は、記憶装置３００の収集データ記憶部３２０（図３（ｂ）に示す収集データ管理テーブル６１０）に格納されているコサイン類似度を取り込む。

次に、教師データ抽出部２６０は、取り込んだコサイン類似度が所定の範囲内にあるかどうかを判定する（ステップＳ４０２）。例えば、教師データ抽出部２６０は、コサイン類似度がある一定の数値以上であるかどうかで判定する。教師データ抽出部２６０は、記憶装置３００の収集データ記憶部３２０（図３（ｂ）の収集データ管理テーブル６１０）に格納されている全ての収集データの類似度を判定する。また、教師データ抽出部２６０は、判定結果に基づいて、教師データの候補を抽出し、抽出した収集データを記憶装置３００の教師データ記憶部３３０（図３（ｃ）に示す教師データ管理テーブル６２０）に出力する（ステップＳ４０３）。
例えば、図３（ｂ）に示す通り、収集データ「ＤＳ００００１」（文書Ｘ）についてのコサイン類似度ｃｏｓθｘが０．６３４であり、収集データ「ＤＳ００００２」（文書Ｙ）についてのコサイン類似度ｃｏｓθｙが０．９４５であり、収集データ「ＤＳ００００３」（文書Ｚ）についてのコサイン類似度ｃｏｓθｚが０．８０３であったとする。この場合、教師データ抽出部２６０は、各収集データ「ＤＳ００００１」、「ＤＳ００００２」、「ＤＳ００００３」の各々についてのコサイン類似度が、所定の判定閾値（例えば、０．９）以上か否かを判定する。そして、教師データ抽出部２６０は、判定閾値以上である収集データ「ＤＳ００００２」（文書Ｙ）を新たな教師データの候補として抽出し、抽出した収集データ「ＤＳ００００２」を記憶装置３００の教師データ記憶部３３０に出力する。
このように、教師データ管理テーブル６２０（図３（ｃ））には、自動的に収集された複数の収集データ「ＤＳ００００１」、「ＤＳ００００２」、「ＤＳ００００３」のうち、参照データの特徴ベクトル（第１の特徴ベクトル）と類似する特徴ベクトル（第２の特徴ベクトル）を有するデータ（文書）だけが登録される。また、教師データ抽出部２６０は、ユーザの判断によって選択された参照データ「ＤＡ００００１」、「ＤＡ００００２」、「ＤＡ００００３」そのものも教師データ管理テーブル６２０に登録してもよい。

（作用・効果）
以上の通り、本実施形態に係る教師データ収集システム１００の管理コンピュータ２００は、機械学習の教師データとして用いるための、特定の分野（例えば、“鉄道システム”等）に関するデータ（文書）を収集する教師データ収集装置である。
管理コンピュータ２００は、予め登録しておいた特定の分野に関するデータ（参照データ）の特徴ベクトルである第１の特徴ベクトルを算出する特徴ベクトル算出部２２０と、第１の特徴ベクトルから、特定の分野に関するデータの収集に用いる検索条件（検索語の組み合わせなど）を生成する検索条件生成部２３０と、生成された検索条件をもとに、特定の分野に関するデータ（収集データ）を収集するデータ収集部２４０と、収集データの特徴ベクトルである第２の特徴ベクトルを特徴ベクトル算出部２２０が算出すると、該第２の特徴ベクトルと第１の特徴ベクトルとの類似度を算出する類似度算出部２５０と、当該類似度が所定の範囲内にある収集データを教師データとして抽出する教師データ抽出部２６０と、を備えている。
このような構成によれば、まず、ユーザ自身が「教師データ」にふさわしいものと判断して予め登録しておいたデータ（文書）であって、ある特定の分野に関する参照データ（文書Ａ１、Ａ２、・・）の特徴ベクトル（第１の特徴ベクトル）が算出される。そして、当該参照データの特徴ベクトル（第１の特徴ベクトル）に基づいて、新たな教師データを自動的に収集するための検索条件（検索語の組み合わせ）が生成される。第１の特徴ベクトルから生成された検索条件に基づいて自動的に収集されたデータ（文書）は、第１の特徴ベクトルに類似する特徴ベクトルを有している可能性が高い。即ち、このように収集されたデータ（収集データ）は、参照データの特徴に近い特徴を有している可能性が高い。よって、ある程度高い確率で、“特定の分野”について学習させるための教師データにふさわしいデータ（文書）を自動的に収集することができる。
しかしながら、自動収集（検索）の処理によっては、参照データの特徴ベクトル（第１の特徴ベクトル）に類似しない特徴ベクトルを有するデータ（即ち、特定の分野に属さない文書）が、たまたま上記の検索条件に合致して収集されてしまう可能性も考えられる。このようなデータが教師データの中に紛れてしまうと、“特定の分野”についての機械学習の信頼性を低減させてしまう。そこで、管理コンピュータ２００は、更に、検索条件に基づいて自動的に収集されたデータ（収集データ）に対して特徴ベクトル（第２の特徴ベクトル）を算出するとともに、第１の特徴ベクトルと第２の特徴ベクトルとの類似度を算出する。そして、管理コンピュータ２００は、この類似度が所定値以上である収集データのみを教師データとして取り込む。
このようにすることで、収集データのうち“特定の分野”に属さないデータ（たまたま検索条件に合致して収集されたデータ）を排除し、真に教師データとしてふさわしいデータを教師データとして取り込むことができる。
以上より、本実施形態に係る教師データ収集システム１００によれば、特定の分野に関する情報収集に特化した、機械学習に関する質の高い教師データを、低コストで自動的に収集することが可能となる。

また、本実施形態に係る管理コンピュータ２００によれば、検索条件生成部２３０は、第１の特徴ベクトルに基づいて、参照データに用いられる度合いが所定値以上である単語の組み合わせを検索条件として生成する。
このようにすることで、参照データの中で特に頻出する単語（単語ｉ）の組み合わせを検索キーとして新たなデータが収集されるので、収集されたデータが参照データに類似する特徴を有していることの蓋然性を高めることができる。

また、他の実施形態に係る管理コンピュータ２００によれば、データ収集部２４０は、予め登録しておいた特定の分野に関するデータ（参照データ）に含まれる単語ｉごとの重み値（例えば、出現頻度、ｔｆ×ｉｄｆ）が所定値以上の単語の組み合わせを検索条件とする。
重み値の計算手法を工夫することによって文書の構造自体を考慮するなど、参照データ（文書Ａ１、Ａ２、Ａ３）と同じ特徴を有するデータが収集される確度を一層高めることができる。
なお、上述の実施形態において、「重み値」とは、「出現回数」、「ｔｆ×ｉｄｆ」であるものとして説明したが、他の実施形態においてはこの態様に限定されない。例えば、他の実施形態においては、「重み値」とは、「出現頻度（ｔｆ）」、「逆文書出現頻度（ｉｄｆ）」であってもよい。

以上、説明したように、本実施形態の教師データ収集装置、教師データ収集方法、及びプログラムによれば、特定の分野に関する情報収集に特化した、機械学習に関する質の高い教師データを、低コストで自動的に収集することが可能となる。
なお、上述した管理コンピュータ２００における各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを管理コンピュータ２００のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。
また、管理コンピュータ２００は、１台のコンピュータで構成されていても良いし、通信可能に接続された複数のコンピュータで構成されていてもよい。

その他、本発明の趣旨を逸脱しない範囲で、上記した実施の形態における構成要素を周知の構成要素に置き換えることは適宜可能である。また、この発明の技術範囲は上記の実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。

１００教師データ収集システム
２００管理コンピュータ（教師データ収集装置）
２１０データ受付部
２２０特徴ベクトル算出部（特徴算出部）
２３０検索条件生成部（生成部）
２４０データ収集部（収集部）
２５０類似度算出部
２６０教師データ抽出部（抽出部）
３００記憶装置
３１０参照データ記憶部
３２０収集データ記憶部
３３０教師データ記憶部
４００端末
４１０文書データベース
５００一般的なコンピュータ
６００参照データ管理テーブル
６１０収集データ管理テーブル
６２０教師データ管理テーブル

Claims

機械学習の教師データとして用いるための、特定の分野に関するデータを収集する教師データ収集装置であって、
予め登録しておいた特定の分野に関するデータの特徴ベクトルであって当該データに含まれる単語とその出現回数とによって構成される第１の特徴ベクトルを算出する特徴算出部と、
前記第１の特徴ベクトルを構成する単語の一部から、前記特定の分野に関するデータの収集に用いる検索条件としての検索語の組み合わせを生成する生成部と、
生成された前記検索条件としての前記検索語を全て含む、前記特定の分野に関するデータを収集する収集部と、
収集した前記データの特徴ベクトルであって当該収集したデータに含まれる単語とその出現回数とによって構成される第２の特徴ベクトルを前記特徴算出部が算出すると、該第２の特徴ベクトルと前記第１の特徴ベクトルとの類似度を算出する類似度算出部と、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出部と、
を備える教師データ収集装置。
前記生成部は、前記第１の特徴ベクトルに基づいて、前記予め登録しておいた特定の分野に関するデータに用いられる度合いが所定値以上である単語の組み合わせを前記検索語の組み合わせである前記検索条件として生成する
請求項１に記載の教師データ収集装置。
前記生成部は、前記予め登録しておいた特定の分野に関するデータに含まれる単語ごとの重み値が所定値以上の単語の組み合わせを検索条件とする
請求項１又は請求項２に記載の教師データ収集装置。
機械学習の教師データとして用いるための、特定の分野に関するデータを収集する情報処理方法であって、
予め登録しておいた特定の分野に関するデータの特徴ベクトルであって当該データに含まれる単語とその出現回数とによって構成される第１の特徴ベクトルを算出する特徴算出工程と、
前記第１の特徴ベクトルを構成する単語の一部から、前記特定の分野に関するデータの収集に用いる検索条件としての検索語の組み合わせを生成する生成工程と、
生成された前記検索条件としての前記検索語を全て含む、前記特定の分野に関するデータを収集する収集工程と、
収集した前記データの特徴ベクトルであって当該収集したデータに含まれる単語とその出現回数とによって構成される第２の特徴ベクトルを算出し、該第２の特徴ベクトルと前記第１の特徴ベクトルとの類似度を算出する類似度算出工程と、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出工程と、
を有する教師データ収集方法。
機械学習の教師データとして用いるための、特定の分野に関するデータを収集するためのプログラムであって、
コンピュータを、
予め登録しておいた特定の分野に関するデータの特徴ベクトルであって当該データに含まれる単語とその出現回数とによって構成される第１の特徴ベクトルを算出する特徴算出部、
前記第１の特徴ベクトルを構成する単語の一部から、前記特定の分野に関するデータの収集に用いる検索条件としての検索語の組み合わせを生成する生成部、
生成された前記検索条件としての前記検索語を全て含む、前記特定の分野に関するデータを収集する収集部、
収集した前記データの特徴ベクトルであって当該収集したデータに含まれる単語とその出現回数とによって構成される第２の特徴ベクトルを前記特徴算出部が算出すると、該第２の特徴ベクトルと前記第１の特徴ベクトルとの類似度を算出する類似度算出部、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出部、
として機能させるためのプログラム。