JP2018124617A - Teacher data collection apparatus, teacher data collection method and program - Google Patents
Teacher data collection apparatus, teacher data collection method and program Download PDFInfo
- Publication number
- JP2018124617A JP2018124617A JP2017014021A JP2017014021A JP2018124617A JP 2018124617 A JP2018124617 A JP 2018124617A JP 2017014021 A JP2017014021 A JP 2017014021A JP 2017014021 A JP2017014021 A JP 2017014021A JP 2018124617 A JP2018124617 A JP 2018124617A
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature vector
- unit
- similarity
- specific field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013480 data collection Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims description 28
- 239000013598 vector Substances 0.000 claims abstract description 189
- 238000004364 calculation method Methods 0.000 claims abstract description 68
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 claims 1
- 238000013500 data storage Methods 0.000 description 54
- 238000013523 data management Methods 0.000 description 23
- 238000007726 management method Methods 0.000 description 22
- 238000013075 data extraction Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、自然言語解析技術に関し、特に教師あり学習において重要な教師データを自動的に獲得する教師データ収集装置、教師データ収集方法、及び、プログラムに関するものである。 The present invention relates to a natural language analysis technique, and more particularly to a teacher data collection device, a teacher data collection method, and a program that automatically acquire important teacher data in supervised learning.
情報抽出の分野では、一般的に機械学習による手法が用いられることが多い。深層学習をはじめとする人工知能の機械学習の学習方法には、入力データと出力データとの関係を人間がシステムに教えて学習させる「教師あり学習」と、入力データだけ用いて、システム自身が傾向を導き出したり、多数のデータを少ないデータ毎に分類したりする「教師なし学習」に大別できる。 In the field of information extraction, a machine learning method is generally used in many cases. Artificial intelligence machine learning learning methods, such as deep learning, include “supervised learning” in which the system teaches the relationship between the input data and the output data, and the system itself uses only the input data. It can be broadly divided into “unsupervised learning” in which a tendency is derived or a large amount of data is classified into small amounts of data.
「教師あり学習」は、入出力の関係を示した大量の教師データがあれば、どのような情報の相互関係も学習させることができる。しかしながら、教師データの作成には人手が必要であり、大きなコストが掛かるという問題がある。 With “supervised learning”, if there is a large amount of teacher data indicating an input / output relationship, the interrelationship of any information can be learned. However, there is a problem in that the creation of teacher data requires manpower and is costly.
一方、「教師なし学習」は、システムの学習コストが安く済む利点があるが、正解が分からなくても実現できる作業にしか適用できない。 On the other hand, “unsupervised learning” has an advantage that the learning cost of the system can be reduced, but it can be applied only to work that can be realized without knowing the correct answer.
「教師あり学習」の教師データ作成コストを低減するための手法としては、半教師あり学習であるブートストラップ法がある。ブートストラップ法は、最初に入力として与えた少数の教師データを基にして、その規則に適合するデータを抽出し、教師データに追加することによって大量の教師データを作成する(例えば、特許文献1参照)。 As a technique for reducing the teacher data creation cost of “supervised learning”, there is a bootstrap method that is semi-supervised learning. In the bootstrap method, a large amount of teacher data is created by extracting data that conforms to the rule based on a small number of teacher data given as input first and adding it to the teacher data (for example, Patent Document 1). reference).
他方、多義語の曖昧性解消に適した高精度の連想語に基づき連想概念辞書を作成し、件数数や品質方針などのパラメータに応じて学習データを収集可能とする技術も検討されている(例えば、特許文献2参照)。 On the other hand, a technique is also being studied that enables the creation of an associative concept dictionary based on high-accuracy associative words suitable for disambiguation of ambiguous words, and that collects learning data according to parameters such as the number of cases and quality policy ( For example, see Patent Document 2).
しかしながら、特許文献1に示すようなブートストラップ法では、不適切なデータであっても、最初の教師データを基にした規則に適合すると新たな教師データとして追加するため、作成した大量の教師データには不適切なデータが多く含まれてしまうことになる。
また、特許文献2の学習データ収集では、無秩序に文章データを集積したコーパスから学習データを収集するため、連想概念辞書を用いて選別精度を向上したとしても、そもそもの収集データの分野に関する偏りについては考慮することが出来ない。そのため、母集団に依存したデータ集合を得ることになる。
However, in the bootstrap method as shown in
In addition, in the learning data collection of
本発明は、上記に鑑み、機械学習に関する質の高い教師データを低コストで収集することができる教師データ収集装置、教師データ収集方法、及びプログラムを提供することを目的とする。 In view of the above, an object of the present invention is to provide a teacher data collection device, a teacher data collection method, and a program that can collect high-quality teacher data related to machine learning at a low cost.
上記目的を達成するために、本発明は、機械学習の教師データとして用いるための、特定の分野に関するデータを収集する教師データ収集装置であって、予め登録しておいた特定の分野に関する参照データの特徴ベクトルである第1の特徴ベクトルを算出する特徴算出部と、前記第1の特徴ベクトルから、前記特定の分野に関するデータの収集に用いる検索条件を生成する生成部と、生成された前記検索条件をもとに、前記特定の分野に関するデータを収集する収集部と、収集した前記データの特徴ベクトルである第2の特徴ベクトルを前記特徴算出部が算出すると、該第2の特徴ベクトルと、前記第1の特徴ベクトルとの類似度を算出する類似度算出部と、前記類似度が所定の範囲内にある収集した前記データを、前記教師データとして抽出する抽出部と、を備える教師データ収集装置を提供する。 In order to achieve the above object, the present invention is a teacher data collection device that collects data related to a specific field for use as machine learning teacher data, and has been registered in advance as reference data related to a specific field. A feature calculation unit that calculates a first feature vector that is a feature vector of the target, a generation unit that generates a search condition used to collect data related to the specific field from the first feature vector, and the generated search Based on the condition, when the feature calculation unit calculates a second feature vector that is a feature vector of the collected data and a collection unit that collects data related to the specific field, the second feature vector, A similarity calculation unit that calculates a similarity with the first feature vector, and the collected data with the similarity within a predetermined range are extracted as the teacher data. An extraction unit which provides training data collection device comprising a.
特定の分野に関する情報収集に特化した、機械学習に関する質の高い教師データを、低コストで自動的に収集することが可能となる。 It is possible to automatically collect high-quality teacher data related to machine learning that is specialized for collecting information related to a specific field at a low cost.
以下では、本発明の実施形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(システム構成)
図1は、本発明の実施形態に係る教師データ収集システムのシステム構成の一例を示す図である。
(System configuration)
FIG. 1 is a diagram illustrating an example of a system configuration of a teacher data collection system according to an embodiment of the present invention.
教師データ収集システム100は、大量の情報(データ)の中から、特定の分野に関係するデータのみを抽出する。
図1によれば、教師データ収集システム100は、特定の分野に関する参照データやその参照データの特徴ベクトル等をデータベース化して記憶する記憶装置300と、記憶装置300上のデータベースを管理するとともに、当該データベースの検索等を可能とする管理コンピュータ200(教師データ収集装置)とを含んで構成される。
The teacher
According to FIG. 1, the teacher
また、管理コンピュータ200には、記憶装置300が接続されている。
A
さらに、この管理コンピュータ200は、例えば、インターネット等のネットワークNを介して端末400や外部の文書データベース410と接続されている。端末400は、管理コンピュータ200へアクセスすることができる。例えば、ユーザは、管理コンピュータ200によって収集された教師データを、端末400から確認することができる。また、管理コンピュータ200は、外部の文書データベース410にアクセスすることができる。例えば、管理コンピュータ200は、外部の文書データベース410に保管されているデータを取り込むことができる。
Furthermore, the
管理コンピュータ200は、データ受付部210と、特徴ベクトル算出部220と、検索条件生成部230と、データ収集部240と、類似度算出部250と、を備えている。
The
データ受付部210は、例えば、マウス、キーボード、タッチパネル等の各種入力手段を用いて、ユーザが選択した特定の分野に関するデータ(参照データ)を受け付ける。データ受付部210は、受け付けた参照データを記憶装置300の参照データ記憶部310に格納する。
The
特徴ベクトル算出部220(特徴算出部)は、記憶装置300の参照データ記憶部310に格納されている参照データから、当該参照データに関する特徴ベクトルである第1の特徴ベクトルを算出し、記憶装置300の参照データ記憶部310に格納する。
The feature vector calculation unit 220 (feature calculation unit) calculates a first feature vector, which is a feature vector related to the reference data, from the reference data stored in the reference
検索条件生成部230(生成部)は、記憶装置300の参照データ記憶部310に格納されている第1の特徴ベクトルから、データ収集を行うための検索条件を生成し、データ収集部240に出力する。
The search condition generation unit 230 (generation unit) generates a search condition for collecting data from the first feature vector stored in the reference
データ収集部240(収集部)は、検索条件生成部230によって生成された検索条件をもとにして、文書データベース410から検索条件に適合するデータ(収集データ)を収集し、記憶装置300の収集データ記憶部320に格納する。
The data collection unit 240 (collection unit) collects data (collection data) that matches the search condition from the
特徴ベクトル算出部220は、記憶装置300の収集データ記憶部320に保管されている収集データから、当該収集データに関する特徴ベクトルである第2の特徴ベクトルを算出し、記憶装置300の収集データ記憶部320に格納する。
The feature
類似度算出部250は、記憶装置300の収集データ記憶部320に格納されている第2の特徴ベクトルを、記憶装置300の参照データ記憶部に保管されている第1の特徴ベクトルと比較し、第1の特徴ベクトルに対する第2の特徴ベクトルの類似度を算出する。類似度算出部250は、算出した類似度を記憶装置300の収集データ記憶部320に格納する。
The
教師データ抽出部260(抽出部)は、記憶装置300の収集データ記憶部320に保管されている類似度が所定の範囲内にある収集データを教師データとして抽出し、記憶装置300の教師データ記憶部330に格納する。また、教師データ抽出部260は、記憶装置300の参照データ記憶部310に格納されている参照データを、記憶装置300の教師データ記憶部330に格納する。
The teacher data extraction unit 260 (extraction unit) extracts the collected data stored in the collected
(ハードウエア構成)
実施形態に係る管理コンピュータ200は、例えば一般的なコンピュータ500を用いて実現することができる。図2は、コンピュータ500の構成の一例を示す図である。
(Hardware configuration)
The
コンピュータ500は、CPU(Central Processing Unit)501、RAM(Random Access Memory)502、ROM(Read Only Memory)503、ストレージ装置504、外部I/F(Interface)505、入力装置506、出力装置507、通信I/F508等を有する。これらの装置はバスBを介して相互に信号の送受信を行う。
The
CPU501は、ROM503やストレージ装置504等に格納されたプログラムやデータをRAM502上に読み出し、処理を実行することで、コンピュータ500の各機能を実現する演算装置である。RAM502は、CPU501のワークエリア等として用いられる揮発性のメモリである。ROM503は、電源を切ってもプログラムやデータを保持する不揮発性のメモリである。
ストレージ装置504は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等により実現され、OS(Operation System)、アプリケーションプログラム、及び各種データ等を記憶する。
外部I/F505は、外部装置とのインタフェースである。外部装置には、例えば、記録媒体509等がある。コンピュータ500は、外部I/F505を介して、記録媒体509の読取り、書き込みを行うことができる。記録媒体509には、例えば、光学ディスク、磁気ディスク、メモリカード、USB(Universal Serial Bus)メモリ等が含まれる。
The
The
The external I /
入力装置506は、例えば、マウス、タッチパネル及びキーボード等で構成され、操作者(ユーザ)の指示を受けてコンピュータ500に各種操作等を入力する。
The
出力装置507は、例えば、液晶ディスプレイにより実現され、CPU501による処理結果を表示する。
The
通信I/F508は、有線通信又は無線通信により、コンピュータ500をインターネット等のネットワーク(図1のネットワークN等)に接続するインタフェースである。バスBは、上記各構成装置に接続され、制御装置間で各種制御信号等を送受信する。
The communication I /
(各種テーブルの説明)
次に、図3を用いて、記憶装置300が記憶する各テーブルについて説明する。
(Description of various tables)
Next, each table stored in the
図3は、本発明の実施形態に係る記憶装置が記憶する各種テーブルの一例を示す図である。
図3(a)に示す記憶装置300の参照データ記憶部310が記憶する参照データ管理テーブル600は、特定の分野に関する参照データを、当該参照データに割り当てられているデータ識別子、および当該データの特徴ベクトル(第1の特徴ベクトル)と対応付けて記憶するテーブルである。
FIG. 3 is a diagram illustrating an example of various tables stored in the storage device according to the embodiment of the present invention.
The reference data management table 600 stored in the reference
例えば、図3(a)の1行目のデータは、特定の分野に関する参照データ「DA00001」のデータ識別子は「#A00001」であり、参照データ「DA00001」に関する特徴ベクトル「XA00001」は、特徴ベクトル算出部220が算出した第1の特徴ベクトルであることを示す。
For example, in the data on the first line in FIG. 3A, the data identifier of the reference data “DA00001” relating to the specific field is “# A00001”, and the feature vector “XA00001” relating to the reference data “DA00001” is the feature vector. The first feature vector calculated by the
特徴ベクトル算出部220は、ユーザが端末400に入力し、記憶装置300の参照データ記憶部310に格納された特定の分野に関する参照データ「DA00001」から、参照データに関する特徴ベクトルである第1の特徴ベクトル「XA00001」を算出し、記憶装置300の参照データ記憶部310に格納する。特徴ベクトルの算出方法としては、例えば、TF(Term Frequency)・IDF(Inverse Document Frequency)法が挙げられる。
The feature
このように、参照データ記憶部310の参照データ管理テーブル600には、ユーザが入力した特定の分野に関する参照データについての特徴ベクトルが格納される。
As described above, the reference data management table 600 of the reference
図3(b)に示す記憶装置300の収集データ記憶部320が記憶する収集データ管理テーブル610は、特定の分野に関して収集したデータ(収集データ)を、当該データに割り当てられているデータ識別子、当該データの特徴ベクトル(第2の特徴ベクトル)、および、参照データに対する当該データの類似度と対応付けて記憶するテーブルである。
The collected data management table 610 stored in the collected
例えば、図3(b)の1行目のデータは、検索条件生成部230が生成した特定の分野に関してデータ収集を行うための検索条件に基づいて、データ収集部240が収集した特定の分野に関する収集データ「DS00001」のデータ識別子は「#S00001」であり、前記収集データ「DS00001」に関する特徴ベクトル「XS00001」は、特徴ベクトル算出部220が算出した第2の特徴ベクトルであり、特定の分野に関する参照データの特徴ベクトル(第1の特徴ベクトル)に対する収集データ「DS00001」の特徴ベクトル(第2の特徴ベクトル)「XS00001」の類似度が0.634であることを示す。
For example, the data in the first row in FIG. 3B relates to a specific field collected by the
検索条件生成部230は、記憶装置300の参照データ記憶部310に格納されている第1の特徴ベクトルから、データ収集を行うための検索条件(検索語の組み合わせ)を生成し、データ収集部240に出力する。
The search
データ収集部240は、例えばweb上で一般に利用可能な検索エンジン等を用いて、検索条件生成部230によって生成された検索条件(検索語の組み合わせ等)をもとにして、文書データベース410から検索条件に適合するデータを収集する。そして、データ収集部240は、収集したデータ(検索条件に適合したデータ)を、特定の分野に関する収集データ「DS00001」として、記憶装置300の収集データ記憶部320に格納する。
The
特徴ベクトル算出部220は、記憶装置300の収集データ記憶部320に保管されている収集データ「DS00001」から、収集データに関する特徴ベクトルである第2の特徴ベクトル「XS00001」を算出し、記憶装置300の収集データ記憶部320に格納する。
The feature
類似度算出部250は、記憶装置300の収集データ記憶部320に格納されている第2の特徴ベクトル「XS00001」を、記憶装置300の参照データ記憶部に保管されている第1の特徴ベクトル「XA00001」、「XA00002」、「XA00003」等と比較し、第1の特徴ベクトルに対する第2の特徴ベクトルの類似度(ここでは0.634)を算出する。
具体的には、類似度算出部250は、記憶装置300の収集データ記憶部320に格納されている第2の特徴ベクトル「XS00001」を、記憶装置300の参照データ記憶部に保管されている第1の特徴ベクトル「XA00001」と比較して、第1の特徴ベクトル「XA00001」に対する第2の特徴ベクトル「XS00001」の類似度を算出する。「XA00002」、「XA00003」等についても同様である。
次いで、類似度算出部250は、算出された第1の特徴ベクトル「XA00001」、「XA00002」、「XA00003」等に対する第2の特徴ベクトル「XS00001」の類似度を組み合わせて、第1の特徴ベクトルに対する第2の特徴ベクトルの類似度を算出する。組み合わせの方法としては、例えば、類似度の平均値や類似度の最大値が挙げられる。類似度算出部250は、類似度算出部250は、算出した類似度(ここでは0.634)を記憶装置300の収集データ記憶部320に格納する。
The
Specifically, the
Next, the
このように、収集データ記憶部320の収集データ管理テーブル610には、特定の分野に関する収集データ、収集データについての特徴ベクトル(第2の特徴ベクトル)、および、特定の分野に関する参照データの特徴ベクトル(第1の特徴ベクトル)に対する収集データについての特徴ベクトル(第2の特徴ベクトル)の類似度が格納される。
As described above, the collected data management table 610 of the collected
図3(c)に示す記憶装置300の教師データ記憶部330が記憶する教師データ管理テーブル620は、教師データを、当該データに割り当てられているデータ識別子と対応付けて記憶するテーブルである。
The teacher data management table 620 stored in the teacher
例えば、図3(c)の1行目のデータは、教師データ抽出部260が教師データとして抽出した収集データ「DS00003」のデータ識別子は「#S00003」であることを示す。
For example, the data in the first row in FIG. 3C indicates that the data identifier of the collected data “DS00003” extracted as the teacher data by the teacher
教師データ抽出部260は、記憶装置300の収集データ記憶部320に保管されている類似度が所定の範囲内にある収集データ「DS00003」を教師データとして抽出し、収集データ「DS00003」のデータ識別子は「#S00003」とともに記憶装置300の教師データ記憶部330に格納する。
The teacher
また、図3(c)に示すように、教師データ抽出部260は、記憶装置300の参照データ記憶部310に格納されている参照データ(ユーザによって手動で選ばれたデータ)を、記憶装置300の教師データ記憶部330に格納する。
Further, as shown in FIG. 3C, the teacher
このように、収集データ記憶部320の教師データ管理テーブル620には、教師データが格納される。
Thus, teacher data is stored in the teacher data management table 620 of the collected
(処理の流れ)
次に、図1の構成および図3の各種テーブルを例に、図4、図5を用いて特徴ベクトルの算出処理について説明する。
(Process flow)
Next, the feature vector calculation process will be described with reference to FIGS. 4 and 5, taking the configuration of FIG. 1 and the various tables of FIG. 3 as examples.
図4は、本発明の実施形態に係る特徴ベクトルの算出処理の流れの一例を示すフローチャートである。
また、図5は、本発明の実施形態に係る特徴ベクトルの算出処理の具体例を示す図である。
FIG. 4 is a flowchart illustrating an example of a flow of feature vector calculation processing according to the embodiment of the present invention.
FIG. 5 is a diagram showing a specific example of the feature vector calculation process according to the embodiment of the present invention.
前提として、ユーザが、ユーザ自身で判断して選択した特定の分野に関連する参照データ「DA00001」、「DA00002」、「DA00003」(図3(a)参照)を端末400に入力したとする。すると、端末400は、それら3つの参照データを管理コンピュータ200に送信する。管理コンピュータ200では、データ受付部210が、これら参照データを受信し、記憶装置300に格納する。より具体的には、データ受付部210は、参照データ「DA00001」をそのデータ識別子「#A00001」と対応付けて、参照データ管理テーブル600に格納する。データ受付部210は、参照データ「DA00002」、「DA00003」についても同様に各々のデータ識別子と対応付けて参照データ管理テーブル600に格納する。なお、参照データのデータ識別子については、データ受付部210が算出してもよいし、記憶装置300で稼働するデータベースシステム等が算出してもよい。このように記憶装置300に参照データが格納されると、例えば、ユーザによる指示によって、管理コンピュータ200は、参照データの特徴ベクトル算出処理を開始する。
As a premise, it is assumed that the user inputs reference data “DA00001”, “DA00002”, “DA00003” (see FIG. 3A) related to a specific field determined and selected by the user himself / herself to the terminal 400. Then, the terminal 400 transmits the three reference data to the
ここで、本実施形態の例として、「特定の分野」は“鉄道システム”に関する分野であるものとする。また、参照データ「DA00001」、「DA00002」、「DA00003」・・は、ユーザ自身の判断によってweb等から収集(選択)された、鉄道システムに関する文書A1、A2、A3、・・(図5参照)である。鉄道システムに関する文書とは、例えば、“鉄道建設の契約に関するニュース”、“鉄道に関する技術論文”などである。 Here, as an example of the present embodiment, the “specific field” is a field related to the “railway system”. Further, reference data “DA00001”, “DA00002”, “DA00003”, etc. are collected (selected) from a web or the like by a user's own judgment, and are related to documents A1, A2, A3,. ). The documents related to the railway system are, for example, “news about railway construction contracts”, “technical papers on railways” and the like.
まず、特徴ベクトル算出部220は、参照データを記憶装置300から取り込む(ステップS101)。より具体的には、特徴ベクトル算出部220は、記憶装置300の参照データ記憶部310(図3(a)の参照データ管理テーブル600)に格納されている3つの参照データ「DA00001」、「DA00002」、「DA00003」を読み出して取り込む。
First, the feature
次に、特徴ベクトル算出部220は、取り込んだ参照データ「DA00001」、「DA00002」、「DA00003」から、当該参照データ「DA00001」、「DA00002」、「DA00003」に関する特徴ベクトル(第1の特徴ベクトル)を算出する(ステップS102)。例えば、特徴ベクトル算出部220は、参照データ「DA00001」について、特徴ベクトル(第1の特徴ベクトル)「XA00001」を算出する。
Next, the feature
ここで、図3(a)に示す参照データ「DA00001」が図5に示す文書A1であったとすると、参照データ「DA00001」の特徴ベクトル(第1の特徴ベクトル)「XA00001」は、文書A1に含まれる単語i(word i)と、その重み値との組み合わせで表現される。ここで、「重み値」とは、各単語iが、特徴ベクトルに対する特徴付けに貢献する度合いであって、本実施形態においては、例えば、各単語iの「出現回数」で表現される。単語iとは、特徴ベクトル算出部220が文書A1から自動的に抽出した名詞群であり、例えば、“traffic”、“train”、“railway”、“government”などである。図5に示す例では、参照データ「DA00001」(文書A1)についての特徴ベクトル(第1の特徴ベクトル)「XA00001」は、「traffic=10、train=4、railway=7、government=2、・・」などと表現される。
If the reference data “DA00001” shown in FIG. 3A is the document A1 shown in FIG. 5, the feature vector (first feature vector) “XA00001” of the reference data “DA00001” is stored in the document A1. It is expressed by a combination of the included word i (word i) and its weight value. Here, the “weight value” is the degree to which each word i contributes to the characterization of the feature vector. In this embodiment, for example, the “weight value” is expressed by “number of appearances” of each word i. The word i is a group of nouns automatically extracted from the document A1 by the feature
特徴ベクトル算出部220は、算出した第1の特徴ベクトルを記憶装置300に出力する(ステップS103)。より具体的には、特徴ベクトル算出部220は、算出した特徴ベクトル(第1の特徴ベクトル)を記憶装置300の参照データ記憶部310(参照データ管理テーブル600)に格納する。例えば、特徴ベクトル算出部220は、特徴ベクトル(第1の特徴ベクトル)「XA00001」を参照データ「DA00001」と対応付けて参照データ管理テーブル600に格納する。
特徴ベクトル算出部220は、参照データ「DA00002」、「DA00003」についても同様に、文書A2、文書A3の各々に含まれる単語iとその重み値(例えば「出現回数」)とによって表現される特徴ベクトル「XA00002」、「XA00003」を算出する。
The feature
The feature
次に、図1の構成および図3の各種テーブルを例に、図6、図7を用いて特定の分野に関連するデータの収集処理について説明する。 Next, data collection processing related to a specific field will be described with reference to FIGS. 6 and 7 taking the configuration of FIG. 1 and various tables of FIG. 3 as examples.
図6は、本発明の実施形態に係る特定の分野に関連するデータの収集処理の流れの一例を示すフローチャートである。
また、図7は、本発明の実施形態に係る特定の分野に関連するデータの収集処理の具体例を示す図である。
FIG. 6 is a flowchart showing an example of a flow of data collection processing related to a specific field according to the embodiment of the present invention.
FIG. 7 is a diagram showing a specific example of data collection processing related to a specific field according to the embodiment of the present invention.
前提として、記憶装置300の参照データ記憶部310には、図4で説明した処理によって複数の参照データ「DA00001」〜「DA00003」等とそれぞれの特徴ベクトル(第1の特徴ベクトル)「XA00001」〜「XA00003」等が格納されている。ユーザは、データ収集指示情報を端末400に入力する。
As a premise, a plurality of reference data “DA00001” to “DA00003” and their respective feature vectors (first feature vectors) “XA00001” are stored in the reference
すると、検索条件生成部230は、記憶装置300の参照データ記憶部に格納されている特定の分野に関連する参照データの特徴ベクトル(第1の特徴ベクトル)を取り込む(ステップS201)。例えば、参照データ「DA00001」〜「DA00003」の特徴ベクトル(第1の特徴ベクトル)「XA00001」〜「XA00003」を取り込む。
Then, the search
次に、検索条件生成部230は、取り込んだ参照データの特徴ベクトル(第1の特徴ベクトル)「XA00001」〜「XA00003」から、データ収集を行うための検索条件を生成する(ステップS202)。より具体的には、検索条件生成部230は、取り込んだ参照データの特徴ベクトル(第1の特徴ベクトル)「XA00001」〜「XA00003」から、検索語、各検索語の重み付け係数、検索語の組み合わせなどの検索条件を生成する。検索条件生成部230は、生成した検索条件をデータ収集部240に出力する(ステップS203)。
Next, the search
ここで、「検索条件」が“検索語の組み合わせ”である例について、図7を参照しながら説明する。
まず、検索条件生成部230は、例えば、参照データ「DA00001」(文書A1)に対し、その特徴ベクトル「XA00001」を用いて、単語iごとの重み値を算出する。ここでの「重み値」は、本実施形態においては、例えば、単語iの出現頻度(tf:Term Frequency)と逆文書出現頻度(idf:Inverse Document Frequency)との積(tf×idf)である。図7に示す例によれば、文書A1の単語“traffic”に係る出現頻度は0.333と算出され、逆文書出現頻度は0.812と算出される。検索条件生成部230は、他の参照データ「DA00002」、「DA00003」(文書A2、文書A3)についても同様に、単語iごとの重み値(例えばtf×idf)を算出する。
Here, an example in which the “search condition” is “a combination of search terms” will be described with reference to FIG.
First, for example, the search
次に、検索条件生成部230は、全ての参照データ(文書A1、A2、A3)に共通して重み値(例えばtf×idf)が大きい単語iを抽出する。具体的には、検索条件生成部230は、文書A1、A2、A3別に算出した重み値の平均値が予め規定された所定の判定閾値以上か否かを判定し、当該判定閾値以上であった単語iを抽出する。そして、検索条件生成部230は、抽出した複数の単語iを検索語とする検索条件を作成する。このようにすることで、複数の単語iの中から、参照データ(文書A1、A2、A3)を特に特徴づけている単語i(つまり、参照データの中で特に頻出する単語i)が抽出され、抽出された単語iの組み合わせが検索条件となる。
例えば、検索条件生成部230は、重み値の平均値の算出結果より、“traffic”、“train”、“railway”の3つの単語iを抽出したとする。この場合、検索条件生成部230は、“traffic”、“train”、“railway”の3つの検索語の組み合わせを検索条件とする。
Next, the search
For example, it is assumed that the search
次に、データ収集部240は、例えばweb上で一般に利用可能な検索エンジン等を用いて、ステップS203で生成した検索条件(検索語の組み合わせ等)を検索キーにして、外部の文書データベース410からデータを収集する(ステップS204)。上述の例によれば、データ収集部240は、検索エンジンを通じて、“traffic”、“train”、“railway”の3つの検索語を全て含む文書を収集する。
ここで、データ収集部240は、上記検索条件を用いた検索処理の結果、例えば「DS00001」、「DS00002」、「DS00003」(図3(b)参照)の3つのデータを収集したものとする。
Next, the
Here, it is assumed that the
データ収集部240は、ステップS204で収集した当該データ(収集データ)「DS00001」、「DS00002」、「DS00003」を記憶装置300に出力する(ステップS205)。より具体的には、データ収集部240は、収集データ「DS00001」、「DS00002」、「DS00003」を記憶装置300の収集データ記憶部320(収集データ管理テーブル610)に格納する。例えば、データ収集部240は、収集データ「DS00001」をデータ識別子「#S00001」と対応付けて収集データ管理テーブル610に格納する。収集データ「DS00002」、「DS00003」についても同様である。
The
次に、図1の構成および図3の各種テーブルを例に、図8、図9を用いて類似度の算出処理について説明する。 Next, the calculation process of the similarity will be described with reference to FIGS. 8 and 9, taking the configuration of FIG. 1 and various tables of FIG. 3 as examples.
図8は、本発明の実施形態に係る類似度を算出する処理の流れの一例を示すフローチャートである。
また、図9は、本発明の実施形態に係る類似度を算出する処理の具体例を示す図である。
FIG. 8 is a flowchart showing an example of the flow of processing for calculating the similarity according to the embodiment of the present invention.
FIG. 9 is a diagram illustrating a specific example of processing for calculating similarity according to the embodiment of the present invention.
前提として、記憶装置300の収集データ記憶部320には、図6で説明した処理によって、“traffic”、“train”、“railway”なる3つの検索語を検索キーにして検索された複数の収集データ「DS00001」〜「DS00003」が格納されている。ユーザは、類似度算出指示情報を端末400に入力する。
As a premise, the collection
すると、特徴ベクトル算出部220は、記憶装置300の収集データ記憶部320に格納されている収集データ「DS00001」〜「DS00003」の各々の特徴ベクトル(第2の特徴ベクトル)を算出する(ステップS300)。特徴ベクトル算出部220は、第2の特徴ベクトルを記憶装置300の収集データ記憶部320に格納する。
Then, the feature
ここで、検索条件生成部230が生成した検索条件(“traffic”、“train”、“railway”の3つの検索語の組み合わせ)を検索キーとして検索された結果、図9に示す新たな3つの文書X、文書Y、文書Z(例えば、“米国における鉄道建設計画のニュース”など)が収集されたとする。文書X、文書Y、文書Zは、それぞれ、図3(b)に示す収集データ「DS00001」、「DS00002」、「DS00003」である。
この場合、収集データ「DS00001」の特徴ベクトル(第2の特徴ベクトル)「XS00001」は、文書Xに含まれる単語i(word i)と、その出現回数との組み合わせで表現される。単語iとは、特徴ベクトル算出部220が文書Xから自動的に抽出した名詞群である。図9に示す例では、収集データ「DS00001」(文書X)についての特徴ベクトル(第2の特徴ベクトル)「XS00001」は、(traffic=14、train=22、railway=67、government=98、・・)と表現される。
Here, as a result of the search using the search condition (combination of three search terms “traffic”, “train”, and “railway”) generated by the search
In this case, the feature vector (second feature vector) “XS00001” of the collected data “DS00001” is expressed by a combination of the word i (word i) included in the document X and the number of appearances thereof. The word i is a noun group automatically extracted from the document X by the feature
次に、類似度算出部250は、第1の特徴ベクトル(参照データの特徴ベクトル)を記憶装置300から取り込む(ステップS301)。より具体的には、類似度算出部250は、記憶装置300の参照データ記憶部310(図3(a)に示す参照データ管理テーブル600)に格納されている第1の特徴ベクトルを取り込む。
Next, the
次に、類似度算出部250は、第2の特徴ベクトル(収集データの特徴ベクトル)を記憶装置300から取り込む(ステップS302)。より具体的には、類似度算出部250は、記憶装置300の収集データ記憶部320(図3(b)に示す収集データ管理テーブル610)に格納されている第2の特徴ベクトルを取り込む。
Next, the
次に、類似度算出部250は、取り込んだ第1の特徴ベクトルと第2の特徴ベクトルを比較し、参照データに対する収集データの類似度を算出する(ステップS303)。類似度算出部250は、算出した類似度を、収集データのデータ識別子に対応付けて記憶装置300の収集データ記憶部320に格納する(ステップS304)。
Next, the
具体的に説明すると、類似度算出部250は、例えば、収集データ「DS00001」の特徴ベクトル(第2の特徴ベクトル)「XS00001」と、3つの参照データ「DA00001」、「DA00002」、「DA00003」の特徴ベクトル(第1の特徴ベクトル)「XA00001」、「XA00002」、「XA00003」の各々とのコサイン類似度を算出する。そして、類似度算出部250は、収集データ「DS00001」の特徴ベクトル(第2の特徴ベクトル)「XS00001」に対し、3つの参照データの特徴ベクトル「XA00001」、「XA00002」、「XA00003」の各々とのコサイン類似度の平均値(又は最大値等)を特定し、当該特定した類似度を記憶装置300の収集データ記憶部320に格納する。
類似度算出部250は、収取データ「DS00002」、「DS00003」についても同様に類似度を算出し、記憶装置300の収集データ記憶部320に格納する(図3(b)参照)。
なお、下記において、類似度算出部250は、第1の特徴ベクトルと第2の特徴ベクトルとの「コサイン類似度」を算出するものとして説明を続けるが、他の実施形態においてはこの態様に限定されない。他の実施形態に係る類似度算出部250は、例えば、第1の特徴ベクトルと第2の特徴ベクトルとの「ユークリッド距離」に基づく類似度を算出してもよい。
Specifically, the
The
In the following description, the
次に、図1の構成および図3の各種テーブルを例に、図10を用いて教師データの抽出処理について説明する。 Next, teacher data extraction processing will be described with reference to FIG. 10, taking the configuration of FIG. 1 and various tables of FIG. 3 as examples.
図10は、本発明の実施形態に係る教師データとして格納するデータを抽出する流れの一例を示すフローチャートである。 FIG. 10 is a flowchart illustrating an example of a flow of extracting data to be stored as teacher data according to the embodiment of the present invention.
教師データ抽出部260は、収集データの類似度(コサイン類似度)を記憶装置300から取り込む(ステップS401)。より具体的には、教師データ抽出部260は、記憶装置300の収集データ記憶部320(図3(b)に示す収集データ管理テーブル610)に格納されているコサイン類似度を取り込む。
The teacher
次に、教師データ抽出部260は、取り込んだコサイン類似度が所定の範囲内にあるかどうかを判定する(ステップS402)。例えば、教師データ抽出部260は、コサイン類似度がある一定の数値以上であるかどうかで判定する。教師データ抽出部260は、記憶装置300の収集データ記憶部320(図3(b)の収集データ管理テーブル610)に格納されている全ての収集データの類似度を判定する。また、教師データ抽出部260は、判定結果に基づいて、教師データの候補を抽出し、抽出した収集データを記憶装置300の教師データ記憶部330(図3(c)に示す教師データ管理テーブル620)に出力する(ステップS403)。
例えば、図3(b)に示す通り、収集データ「DS00001」(文書X)についてのコサイン類似度cosθxが0.634であり、収集データ「DS00002」(文書Y)についてのコサイン類似度cosθyが0.945であり、収集データ「DS00003」(文書Z)についてのコサイン類似度cosθzが0.803であったとする。この場合、教師データ抽出部260は、各収集データ「DS00001」、「DS00002」、「DS00003」の各々についてのコサイン類似度が、所定の判定閾値(例えば、0.9)以上か否かを判定する。そして、教師データ抽出部260は、判定閾値以上である収集データ「DS00002」(文書Y)を新たな教師データの候補として抽出し、抽出した収集データ「DS00002」を記憶装置300の教師データ記憶部330に出力する。
このように、教師データ管理テーブル620(図3(c))には、自動的に収集された複数の収集データ「DS00001」、「DS00002」、「DS00003」のうち、参照データの特徴ベクトル(第1の特徴ベクトル)と類似する特徴ベクトル(第2の特徴ベクトル)を有するデータ(文書)だけが登録される。また、教師データ抽出部260は、ユーザの判断によって選択された参照データ「DA00001」、「DA00002」、「DA00003」そのものも教師データ管理テーブル620に登録してもよい。
Next, the teacher
For example, as shown in FIG. 3B, the cosine similarity cos θx for the collected data “DS00001” (document X) is 0.634, and the cosine similarity cos θy for the collected data “DS00002” (document Y) is 0. 945, and the cosine similarity cos θz for the collected data “DS00003” (document Z) is 0.803. In this case, the teacher
As described above, the teacher data management table 620 (FIG. 3C) includes a reference data feature vector (the first data) among a plurality of automatically collected data “DS00001”, “DS00002”, and “DS00003”. Only data (documents) having a feature vector (second feature vector) similar to (one feature vector) is registered. The teacher
(作用・効果)
以上の通り、本実施形態に係る教師データ収集システム100の管理コンピュータ200は、機械学習の教師データとして用いるための、特定の分野(例えば、“鉄道システム”等)に関するデータ(文書)を収集する教師データ収集装置である。
管理コンピュータ200は、予め登録しておいた特定の分野に関するデータ(参照データ)の特徴ベクトルである第1の特徴ベクトルを算出する特徴ベクトル算出部220と、第1の特徴ベクトルから、特定の分野に関するデータの収集に用いる検索条件(検索語の組み合わせなど)を生成する検索条件生成部230と、生成された検索条件をもとに、特定の分野に関するデータ(収集データ)を収集するデータ収集部240と、収集データの特徴ベクトルである第2の特徴ベクトルを特徴ベクトル算出部220が算出すると、該第2の特徴ベクトルと第1の特徴ベクトルとの類似度を算出する類似度算出部250と、当該類似度が所定の範囲内にある収集データを教師データとして抽出する教師データ抽出部260と、を備えている。
このような構成によれば、まず、ユーザ自身が「教師データ」にふさわしいものと判断して予め登録しておいたデータ(文書)であって、ある特定の分野に関する参照データ(文書A1、A2、・・)の特徴ベクトル(第1の特徴ベクトル)が算出される。そして、当該参照データの特徴ベクトル(第1の特徴ベクトル)に基づいて、新たな教師データを自動的に収集するための検索条件(検索語の組み合わせ)が生成される。第1の特徴ベクトルから生成された検索条件に基づいて自動的に収集されたデータ(文書)は、第1の特徴ベクトルに類似する特徴ベクトルを有している可能性が高い。即ち、このように収集されたデータ(収集データ)は、参照データの特徴に近い特徴を有している可能性が高い。よって、ある程度高い確率で、“特定の分野”について学習させるための教師データにふさわしいデータ(文書)を自動的に収集することができる。
しかしながら、自動収集(検索)の処理によっては、参照データの特徴ベクトル(第1の特徴ベクトル)に類似しない特徴ベクトルを有するデータ(即ち、特定の分野に属さない文書)が、たまたま上記の検索条件に合致して収集されてしまう可能性も考えられる。このようなデータが教師データの中に紛れてしまうと、“特定の分野”についての機械学習の信頼性を低減させてしまう。そこで、管理コンピュータ200は、更に、検索条件に基づいて自動的に収集されたデータ(収集データ)に対して特徴ベクトル(第2の特徴ベクトル)を算出するとともに、第1の特徴ベクトルと第2の特徴ベクトルとの類似度を算出する。そして、管理コンピュータ200は、この類似度が所定値以上である収集データのみを教師データとして取り込む。
このようにすることで、収集データのうち“特定の分野”に属さないデータ(たまたま検索条件に合致して収集されたデータ)を排除し、真に教師データとしてふさわしいデータを教師データとして取り込むことができる。
以上より、本実施形態に係る教師データ収集システム100によれば、特定の分野に関する情報収集に特化した、機械学習に関する質の高い教師データを、低コストで自動的に収集することが可能となる。
(Action / Effect)
As described above, the
The
According to such a configuration, first, data (documents) that the user himself / herself determines to be suitable for “teacher data” is registered in advance, and reference data (documents A1, A2) relating to a specific field. ,...) Feature vector (first feature vector) is calculated. Then, based on the feature vector (first feature vector) of the reference data, a search condition (a combination of search terms) for automatically collecting new teacher data is generated. There is a high possibility that the data (document) automatically collected based on the search condition generated from the first feature vector has a feature vector similar to the first feature vector. That is, the data collected in this way (collected data) is highly likely to have characteristics close to those of the reference data. Therefore, it is possible to automatically collect data (documents) suitable for teacher data for learning about a “specific field” with a certain high probability.
However, depending on the process of automatic collection (search), data having a feature vector that is not similar to the feature vector (first feature vector) of the reference data (that is, a document that does not belong to a specific field) happens to be the search condition. There is a possibility that it will be collected in accordance with If such data is mixed into teacher data, the reliability of machine learning for a “specific field” is reduced. Therefore, the
In this way, data that does not belong to a “specific field” in the collected data (data that happens to meet the search conditions) is excluded, and data that is truly suitable as teacher data is imported as teacher data. Can do.
As described above, according to the teacher
また、本実施形態に係る管理コンピュータ200によれば、検索条件生成部230は、第1の特徴ベクトルに基づいて、参照データに用いられる度合いが所定値以上である単語の組み合わせを検索条件として生成する。
このようにすることで、参照データの中で特に頻出する単語(単語i)の組み合わせを検索キーとして新たなデータが収集されるので、収集されたデータが参照データに類似する特徴を有していることの蓋然性を高めることができる。
In addition, according to the
In this way, new data is collected using a combination of words (word i) that appears particularly frequently in the reference data as a search key. Therefore, the collected data has characteristics similar to the reference data. The probability of being present can be increased.
また、他の実施形態に係る管理コンピュータ200によれば、データ収集部240は、予め登録しておいた特定の分野に関するデータ(参照データ)に含まれる単語iごとの重み値(例えば、出現頻度、tf×idf)が所定値以上の単語の組み合わせを検索条件とする。
重み値の計算手法を工夫することによって文書の構造自体を考慮するなど、参照データ(文書A1、A2、A3)と同じ特徴を有するデータが収集される確度を一層高めることができる。
なお、上述の実施形態において、「重み値」とは、「出現回数」、「tf×idf」であるものとして説明したが、他の実施形態においてはこの態様に限定されない。例えば、他の実施形態においては、「重み値」とは、「出現頻度(tf)」、「逆文書出現頻度(idf)」であってもよい。
Further, according to the
The accuracy of collecting data having the same characteristics as the reference data (documents A1, A2, and A3) can be further improved, for example, by considering the document structure itself by devising the weight value calculation method.
In the above-described embodiment, the “weight value” has been described as “appearance count” and “tf × idf”, but is not limited to this aspect in other embodiments. For example, in another embodiment, the “weight value” may be “appearance frequency (tf)” or “reverse document appearance frequency (idf)”.
以上、説明したように、本実施形態の教師データ収集装置、教師データ収集方法、及びプログラムによれば、特定の分野に関する情報収集に特化した、機械学習に関する質の高い教師データを、低コストで自動的に収集することが可能となる。
なお、上述した管理コンピュータ200における各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを管理コンピュータ200のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
As described above, according to the teacher data collection device, the teacher data collection method, and the program of the present embodiment, high-quality teacher data related to machine learning specialized for information collection related to a specific field can be obtained at low cost. Can be collected automatically.
Each process in the
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、管理コンピュータ200は、1台のコンピュータで構成されていても良いし、通信可能に接続された複数のコンピュータで構成されていてもよい。
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
Moreover, the
その他、本発明の趣旨を逸脱しない範囲で、上記した実施の形態における構成要素を周知の構成要素に置き換えることは適宜可能である。また、この発明の技術範囲は上記の実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。 In addition, it is possible to appropriately replace the components in the above-described embodiments with known components without departing from the spirit of the present invention. The technical scope of the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit of the present invention.
100 教師データ収集システム
200 管理コンピュータ(教師データ収集装置)
210 データ受付部
220 特徴ベクトル算出部(特徴算出部)
230 検索条件生成部(生成部)
240 データ収集部(収集部)
250 類似度算出部
260 教師データ抽出部(抽出部)
300 記憶装置
310 参照データ記憶部
320 収集データ記憶部
330 教師データ記憶部
400 端末
410 文書データベース
500 一般的なコンピュータ
600 参照データ管理テーブル
610 収集データ管理テーブル
620 教師データ管理テーブル
100 teacher
210
230 Search condition generator (generator)
240 Data collection unit (collection unit)
250
300
Claims (5)
予め登録しておいた特定の分野に関するデータの特徴ベクトルである第1の特徴ベクトルを算出する特徴算出部と、
前記第1の特徴ベクトルから、前記特定の分野に関するデータの収集に用いる検索条件を生成する生成部と、
生成された前記検索条件をもとに、前記特定の分野に関するデータを収集する収集部と、
収集した前記データの特徴ベクトルである第2の特徴ベクトルを前記特徴算出部が算出すると、該第2の特徴ベクトルと前記第1の特徴ベクトルとの類似度を算出する類似度算出部と、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出部と、
を備える教師データ収集装置。 A teacher data collection device that collects data related to a specific field for use as machine learning teacher data,
A feature calculation unit that calculates a first feature vector that is a feature vector of data related to a specific field registered in advance;
A generating unit that generates a search condition used for collecting data related to the specific field from the first feature vector;
A collection unit for collecting data on the specific field based on the generated search condition;
When the feature calculation unit calculates a second feature vector that is a feature vector of the collected data, a similarity calculation unit that calculates a similarity between the second feature vector and the first feature vector;
An extraction unit for extracting the collected data having the similarity in a predetermined range as the teacher data;
A teacher data collection device comprising:
請求項1に記載の教師データ収集装置。 The generation unit generates, as the search condition, a combination of words whose degree used for the data related to the specific field registered in advance is a predetermined value or more based on the first feature vector. The teacher data collection device described in 1.
請求項1又は請求項2に記載の教師データ収集装置。 The teacher data according to claim 1, wherein the generation unit uses a combination of words having a weight value for each word included in the pre-registered data related to a specific field as a search condition. Collection device.
予め登録しておいた特定の分野に関するデータの特徴ベクトルである第1の特徴ベクトルを算出する特徴算出工程と、
前記第1の特徴ベクトルから、前記特定の分野に関するデータの収集に用いる検索条件を生成する生成工程と、
生成された前記検索条件をもとに、前記特定の分野に関するデータを収集する収集工程と、
収集した前記データの特徴ベクトルである第2の特徴ベクトルを算出し、該第2の特徴ベクトルと前記第1の特徴ベクトルとの類似度を算出する類似度算出工程と、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出工程と、
を有する教師データ収集方法。 An information processing method for collecting data related to a specific field for use as machine learning teacher data,
A feature calculation step of calculating a first feature vector that is a feature vector of data related to a specific field registered in advance;
Generating a search condition used for collecting data related to the specific field from the first feature vector;
A collection step of collecting data on the specific field based on the generated search condition;
Calculating a second feature vector which is a feature vector of the collected data, and calculating a similarity between the second feature vector and the first feature vector;
An extraction step of extracting the collected data having the similarity in a predetermined range as the teacher data;
A teacher data collection method.
コンピュータを、
予め登録しておいた特定の分野に関するデータの特徴ベクトルである第1の特徴ベクトルを算出する特徴算出部、
前記第1の特徴ベクトルから、前記特定の分野に関するデータの収集に用いる検索条件を生成する生成部、
生成された前記検索条件をもとに、前記特定の分野に関するデータを収集する収集部、
収集した前記データの特徴ベクトルである第2の特徴ベクトルを前記特徴算出部が算出すると、該第2の特徴ベクトルと前記第1の特徴ベクトルとの類似度を算出する類似度算出部、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出部、
として機能させるためのプログラム。 A program for collecting data about a specific field for use as machine learning teacher data,
Computer
A feature calculation unit for calculating a first feature vector that is a feature vector of data related to a specific field registered in advance;
A generating unit that generates a search condition used to collect data related to the specific field from the first feature vector;
A collecting unit for collecting data on the specific field based on the generated search condition;
When the feature calculation unit calculates a second feature vector that is a feature vector of the collected data, a similarity calculation unit that calculates a similarity between the second feature vector and the first feature vector;
An extraction unit for extracting the collected data having the similarity within a predetermined range as the teacher data;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017014021A JP6936014B2 (en) | 2017-01-30 | 2017-01-30 | Teacher data collection device, teacher data collection method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017014021A JP6936014B2 (en) | 2017-01-30 | 2017-01-30 | Teacher data collection device, teacher data collection method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018124617A true JP2018124617A (en) | 2018-08-09 |
JP6936014B2 JP6936014B2 (en) | 2021-09-15 |
Family
ID=63111428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017014021A Active JP6936014B2 (en) | 2017-01-30 | 2017-01-30 | Teacher data collection device, teacher data collection method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6936014B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020079984A (en) * | 2018-11-12 | 2020-05-28 | 富士通株式会社 | Learning data generation program, learning data generation apparatus and learning data generation method |
WO2021125616A1 (en) * | 2019-12-19 | 2021-06-24 | 이향룡 | Method for detecting object data for training for and application of ai, and system for same |
JP2021196777A (en) * | 2020-06-11 | 2021-12-27 | トヨタ自動車株式会社 | Machine learning apparatus, machine learning system, machine learning method, and program |
US11709899B2 (en) | 2021-07-29 | 2023-07-25 | Kyocera Document Solutions Inc. | Training data collection system, similarity score calculation system, document retrieval system, and non-transitory computer readable recording medium storing training data collection program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09297766A (en) * | 1996-05-01 | 1997-11-18 | N T T Data Tsushin Kk | Similar document retrieval device |
JP2005056125A (en) * | 2003-08-04 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | Natural sentence retrieval device, natural sentence retrieval method, natural sentence retrieval program and natural sentence retrieval program storage medium |
JP2006318398A (en) * | 2005-05-16 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein |
-
2017
- 2017-01-30 JP JP2017014021A patent/JP6936014B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09297766A (en) * | 1996-05-01 | 1997-11-18 | N T T Data Tsushin Kk | Similar document retrieval device |
JP2005056125A (en) * | 2003-08-04 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | Natural sentence retrieval device, natural sentence retrieval method, natural sentence retrieval program and natural sentence retrieval program storage medium |
JP2006318398A (en) * | 2005-05-16 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020079984A (en) * | 2018-11-12 | 2020-05-28 | 富士通株式会社 | Learning data generation program, learning data generation apparatus and learning data generation method |
JP7148794B2 (en) | 2018-11-12 | 2022-10-06 | 富士通株式会社 | LEARNING DATA GENERATION PROGRAM, LEARNING DATA GENERATION DEVICE, AND LEARNING DATA GENERATION METHOD |
WO2021125616A1 (en) * | 2019-12-19 | 2021-06-24 | 이향룡 | Method for detecting object data for training for and application of ai, and system for same |
JP2021196777A (en) * | 2020-06-11 | 2021-12-27 | トヨタ自動車株式会社 | Machine learning apparatus, machine learning system, machine learning method, and program |
US11709899B2 (en) | 2021-07-29 | 2023-07-25 | Kyocera Document Solutions Inc. | Training data collection system, similarity score calculation system, document retrieval system, and non-transitory computer readable recording medium storing training data collection program |
Also Published As
Publication number | Publication date |
---|---|
JP6936014B2 (en) | 2021-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
CN111797214A (en) | FAQ database-based problem screening method and device, computer equipment and medium | |
JP6335898B2 (en) | Information classification based on product recognition | |
US20120203584A1 (en) | System and method for identifying potential customers | |
CN108287875B (en) | Character co-occurrence relation determining method, expert recommending method, device and equipment | |
CN111475729A (en) | Search content recommendation method and device | |
JP6936014B2 (en) | Teacher data collection device, teacher data collection method, and program | |
CN111694823A (en) | Organization standardization method and device, electronic equipment and storage medium | |
SzymańSki | Comparative analysis of text representation methods using classification | |
CN109726289A (en) | Event detecting method and device | |
CN110909120A (en) | Resume searching/delivering method, device and system and electronic equipment | |
Zhang et al. | A topic clustering approach to finding similar questions from large question and answer archives | |
US10949452B2 (en) | Constructing content based on multi-sentence compression of source content | |
US9104946B2 (en) | Systems and methods for comparing images | |
Sukumar et al. | Semantic based sentence ordering approach for multi-document summarization | |
JP2019164409A (en) | Document search device, document search method, and document search program | |
JP6563350B2 (en) | Data classification apparatus, data classification method, and program | |
JP5780633B2 (en) | Expert search device and expert search method | |
JP6426074B2 (en) | Related document search device, model creation device, method and program thereof | |
Bashir | Combining pre-retrieval query quality predictors using genetic programming | |
CN110362813B (en) | Search relevance measuring method, storage medium, device and system based on BM25 | |
US9946765B2 (en) | Building a domain knowledge and term identity using crowd sourcing | |
JP2013222418A (en) | Passage division method, device and program | |
KR102519955B1 (en) | Apparatus and method for extracting of topic keyword |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170131 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210817 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6936014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |