JP6936014B2 - 教師データ収集装置、教師データ収集方法、及びプログラム - Google Patents
教師データ収集装置、教師データ収集方法、及びプログラム Download PDFInfo
- Publication number
- JP6936014B2 JP6936014B2 JP2017014021A JP2017014021A JP6936014B2 JP 6936014 B2 JP6936014 B2 JP 6936014B2 JP 2017014021 A JP2017014021 A JP 2017014021A JP 2017014021 A JP2017014021 A JP 2017014021A JP 6936014 B2 JP6936014 B2 JP 6936014B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature vector
- specific field
- similarity
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、特許文献2の学習データ収集では、無秩序に文章データを集積したコーパスから学習データを収集するため、連想概念辞書を用いて選別精度を向上したとしても、そもそもの収集データの分野に関する偏りについては考慮することが出来ない。そのため、母集団に依存したデータ集合を得ることになる。
図1は、本発明の実施形態に係る教師データ収集システムのシステム構成の一例を示す図である。
図1によれば、教師データ収集システム100は、特定の分野に関する参照データやその参照データの特徴ベクトル等をデータベース化して記憶する記憶装置300と、記憶装置300上のデータベースを管理するとともに、当該データベースの検索等を可能とする管理コンピュータ200(教師データ収集装置)とを含んで構成される。
実施形態に係る管理コンピュータ200は、例えば一般的なコンピュータ500を用いて実現することができる。図2は、コンピュータ500の構成の一例を示す図である。
ストレージ装置504は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等により実現され、OS(Operation System)、アプリケーションプログラム、及び各種データ等を記憶する。
外部I/F505は、外部装置とのインタフェースである。外部装置には、例えば、記録媒体509等がある。コンピュータ500は、外部I/F505を介して、記録媒体509の読取り、書き込みを行うことができる。記録媒体509には、例えば、光学ディスク、磁気ディスク、メモリカード、USB(Universal Serial Bus)メモリ等が含まれる。
次に、図3を用いて、記憶装置300が記憶する各テーブルについて説明する。
図3(a)に示す記憶装置300の参照データ記憶部310が記憶する参照データ管理テーブル600は、特定の分野に関する参照データを、当該参照データに割り当てられているデータ識別子、および当該データの特徴ベクトル(第1の特徴ベクトル)と対応付けて記憶するテーブルである。
具体的には、類似度算出部250は、記憶装置300の収集データ記憶部320に格納されている第2の特徴ベクトル「XS00001」を、記憶装置300の参照データ記憶部に保管されている第1の特徴ベクトル「XA00001」と比較して、第1の特徴ベクトル「XA00001」に対する第2の特徴ベクトル「XS00001」の類似度を算出する。「XA00002」、「XA00003」等についても同様である。
次いで、類似度算出部250は、算出された第1の特徴ベクトル「XA00001」、「XA00002」、「XA00003」等に対する第2の特徴ベクトル「XS00001」の類似度を組み合わせて、第1の特徴ベクトルに対する第2の特徴ベクトルの類似度を算出する。組み合わせの方法としては、例えば、類似度の平均値や類似度の最大値が挙げられる。類似度算出部250は、類似度算出部250は、算出した類似度(ここでは0.634)を記憶装置300の収集データ記憶部320に格納する。
次に、図1の構成および図3の各種テーブルを例に、図4、図5を用いて特徴ベクトルの算出処理について説明する。
また、図5は、本発明の実施形態に係る特徴ベクトルの算出処理の具体例を示す図である。
特徴ベクトル算出部220は、参照データ「DA00002」、「DA00003」についても同様に、文書A2、文書A3の各々に含まれる単語iとその重み値(例えば「出現回数」)とによって表現される特徴ベクトル「XA00002」、「XA00003」を算出する。
また、図7は、本発明の実施形態に係る特定の分野に関連するデータの収集処理の具体例を示す図である。
まず、検索条件生成部230は、例えば、参照データ「DA00001」(文書A1)に対し、その特徴ベクトル「XA00001」を用いて、単語iごとの重み値を算出する。ここでの「重み値」は、本実施形態においては、例えば、単語iの出現頻度(tf:Term Frequency)と逆文書出現頻度(idf:Inverse Document Frequency)との積(tf×idf)である。図7に示す例によれば、文書A1の単語“traffic”に係る出現頻度は0.333と算出され、逆文書出現頻度は0.812と算出される。検索条件生成部230は、他の参照データ「DA00002」、「DA00003」(文書A2、文書A3)についても同様に、単語iごとの重み値(例えばtf×idf)を算出する。
例えば、検索条件生成部230は、重み値の平均値の算出結果より、“traffic”、“train”、“railway”の3つの単語iを抽出したとする。この場合、検索条件生成部230は、“traffic”、“train”、“railway”の3つの検索語の組み合わせを検索条件とする。
ここで、データ収集部240は、上記検索条件を用いた検索処理の結果、例えば「DS00001」、「DS00002」、「DS00003」(図3(b)参照)の3つのデータを収集したものとする。
また、図9は、本発明の実施形態に係る類似度を算出する処理の具体例を示す図である。
この場合、収集データ「DS00001」の特徴ベクトル(第2の特徴ベクトル)「XS00001」は、文書Xに含まれる単語i(word i)と、その出現回数との組み合わせで表現される。単語iとは、特徴ベクトル算出部220が文書Xから自動的に抽出した名詞群である。図9に示す例では、収集データ「DS00001」(文書X)についての特徴ベクトル(第2の特徴ベクトル)「XS00001」は、(traffic=14、train=22、railway=67、government=98、・・)と表現される。
類似度算出部250は、収取データ「DS00002」、「DS00003」についても同様に類似度を算出し、記憶装置300の収集データ記憶部320に格納する(図3(b)参照)。
なお、下記において、類似度算出部250は、第1の特徴ベクトルと第2の特徴ベクトルとの「コサイン類似度」を算出するものとして説明を続けるが、他の実施形態においてはこの態様に限定されない。他の実施形態に係る類似度算出部250は、例えば、第1の特徴ベクトルと第2の特徴ベクトルとの「ユークリッド距離」に基づく類似度を算出してもよい。
例えば、図3(b)に示す通り、収集データ「DS00001」(文書X)についてのコサイン類似度cosθxが0.634であり、収集データ「DS00002」(文書Y)についてのコサイン類似度cosθyが0.945であり、収集データ「DS00003」(文書Z)についてのコサイン類似度cosθzが0.803であったとする。この場合、教師データ抽出部260は、各収集データ「DS00001」、「DS00002」、「DS00003」の各々についてのコサイン類似度が、所定の判定閾値(例えば、0.9)以上か否かを判定する。そして、教師データ抽出部260は、判定閾値以上である収集データ「DS00002」(文書Y)を新たな教師データの候補として抽出し、抽出した収集データ「DS00002」を記憶装置300の教師データ記憶部330に出力する。
このように、教師データ管理テーブル620(図3(c))には、自動的に収集された複数の収集データ「DS00001」、「DS00002」、「DS00003」のうち、参照データの特徴ベクトル(第1の特徴ベクトル)と類似する特徴ベクトル(第2の特徴ベクトル)を有するデータ(文書)だけが登録される。また、教師データ抽出部260は、ユーザの判断によって選択された参照データ「DA00001」、「DA00002」、「DA00003」そのものも教師データ管理テーブル620に登録してもよい。
以上の通り、本実施形態に係る教師データ収集システム100の管理コンピュータ200は、機械学習の教師データとして用いるための、特定の分野(例えば、“鉄道システム”等)に関するデータ(文書)を収集する教師データ収集装置である。
管理コンピュータ200は、予め登録しておいた特定の分野に関するデータ(参照データ)の特徴ベクトルである第1の特徴ベクトルを算出する特徴ベクトル算出部220と、第1の特徴ベクトルから、特定の分野に関するデータの収集に用いる検索条件(検索語の組み合わせなど)を生成する検索条件生成部230と、生成された検索条件をもとに、特定の分野に関するデータ(収集データ)を収集するデータ収集部240と、収集データの特徴ベクトルである第2の特徴ベクトルを特徴ベクトル算出部220が算出すると、該第2の特徴ベクトルと第1の特徴ベクトルとの類似度を算出する類似度算出部250と、当該類似度が所定の範囲内にある収集データを教師データとして抽出する教師データ抽出部260と、を備えている。
このような構成によれば、まず、ユーザ自身が「教師データ」にふさわしいものと判断して予め登録しておいたデータ(文書)であって、ある特定の分野に関する参照データ(文書A1、A2、・・)の特徴ベクトル(第1の特徴ベクトル)が算出される。そして、当該参照データの特徴ベクトル(第1の特徴ベクトル)に基づいて、新たな教師データを自動的に収集するための検索条件(検索語の組み合わせ)が生成される。第1の特徴ベクトルから生成された検索条件に基づいて自動的に収集されたデータ(文書)は、第1の特徴ベクトルに類似する特徴ベクトルを有している可能性が高い。即ち、このように収集されたデータ(収集データ)は、参照データの特徴に近い特徴を有している可能性が高い。よって、ある程度高い確率で、“特定の分野”について学習させるための教師データにふさわしいデータ(文書)を自動的に収集することができる。
しかしながら、自動収集(検索)の処理によっては、参照データの特徴ベクトル(第1の特徴ベクトル)に類似しない特徴ベクトルを有するデータ(即ち、特定の分野に属さない文書)が、たまたま上記の検索条件に合致して収集されてしまう可能性も考えられる。このようなデータが教師データの中に紛れてしまうと、“特定の分野”についての機械学習の信頼性を低減させてしまう。そこで、管理コンピュータ200は、更に、検索条件に基づいて自動的に収集されたデータ(収集データ)に対して特徴ベクトル(第2の特徴ベクトル)を算出するとともに、第1の特徴ベクトルと第2の特徴ベクトルとの類似度を算出する。そして、管理コンピュータ200は、この類似度が所定値以上である収集データのみを教師データとして取り込む。
このようにすることで、収集データのうち“特定の分野”に属さないデータ(たまたま検索条件に合致して収集されたデータ)を排除し、真に教師データとしてふさわしいデータを教師データとして取り込むことができる。
以上より、本実施形態に係る教師データ収集システム100によれば、特定の分野に関する情報収集に特化した、機械学習に関する質の高い教師データを、低コストで自動的に収集することが可能となる。
このようにすることで、参照データの中で特に頻出する単語(単語i)の組み合わせを検索キーとして新たなデータが収集されるので、収集されたデータが参照データに類似する特徴を有していることの蓋然性を高めることができる。
重み値の計算手法を工夫することによって文書の構造自体を考慮するなど、参照データ(文書A1、A2、A3)と同じ特徴を有するデータが収集される確度を一層高めることができる。
なお、上述の実施形態において、「重み値」とは、「出現回数」、「tf×idf」であるものとして説明したが、他の実施形態においてはこの態様に限定されない。例えば、他の実施形態においては、「重み値」とは、「出現頻度(tf)」、「逆文書出現頻度(idf)」であってもよい。
なお、上述した管理コンピュータ200における各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを管理コンピュータ200のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
また、管理コンピュータ200は、1台のコンピュータで構成されていても良いし、通信可能に接続された複数のコンピュータで構成されていてもよい。
200 管理コンピュータ(教師データ収集装置)
210 データ受付部
220 特徴ベクトル算出部(特徴算出部)
230 検索条件生成部(生成部)
240 データ収集部(収集部)
250 類似度算出部
260 教師データ抽出部(抽出部)
300 記憶装置
310 参照データ記憶部
320 収集データ記憶部
330 教師データ記憶部
400 端末
410 文書データベース
500 一般的なコンピュータ
600 参照データ管理テーブル
610 収集データ管理テーブル
620 教師データ管理テーブル
Claims (5)
- 機械学習の教師データとして用いるための、特定の分野に関するデータを収集する教師データ収集装置であって、
予め登録しておいた特定の分野に関するデータの特徴ベクトルであって当該データに含まれる単語とその出現回数とによって構成される第1の特徴ベクトルを算出する特徴算出部と、
前記第1の特徴ベクトルを構成する単語の一部から、前記特定の分野に関するデータの収集に用いる検索条件としての検索語の組み合わせを生成する生成部と、
生成された前記検索条件としての前記検索語を全て含む、前記特定の分野に関するデータを収集する収集部と、
収集した前記データの特徴ベクトルであって当該収集したデータに含まれる単語とその出現回数とによって構成される第2の特徴ベクトルを前記特徴算出部が算出すると、該第2の特徴ベクトルと前記第1の特徴ベクトルとの類似度を算出する類似度算出部と、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出部と、
を備える教師データ収集装置。 - 前記生成部は、前記第1の特徴ベクトルに基づいて、前記予め登録しておいた特定の分野に関するデータに用いられる度合いが所定値以上である単語の組み合わせを前記検索語の組み合わせである前記検索条件として生成する
請求項1に記載の教師データ収集装置。 - 前記生成部は、前記予め登録しておいた特定の分野に関するデータに含まれる単語ごとの重み値が所定値以上の単語の組み合わせを検索条件とする
請求項1又は請求項2に記載の教師データ収集装置。 - 機械学習の教師データとして用いるための、特定の分野に関するデータを収集する情報処理方法であって、
予め登録しておいた特定の分野に関するデータの特徴ベクトルであって当該データに含まれる単語とその出現回数とによって構成される第1の特徴ベクトルを算出する特徴算出工程と、
前記第1の特徴ベクトルを構成する単語の一部から、前記特定の分野に関するデータの収集に用いる検索条件としての検索語の組み合わせを生成する生成工程と、
生成された前記検索条件としての前記検索語を全て含む、前記特定の分野に関するデータを収集する収集工程と、
収集した前記データの特徴ベクトルであって当該収集したデータに含まれる単語とその出現回数とによって構成される第2の特徴ベクトルを算出し、該第2の特徴ベクトルと前記第1の特徴ベクトルとの類似度を算出する類似度算出工程と、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出工程と、
を有する教師データ収集方法。 - 機械学習の教師データとして用いるための、特定の分野に関するデータを収集するためのプログラムであって、
コンピュータを、
予め登録しておいた特定の分野に関するデータの特徴ベクトルであって当該データに含まれる単語とその出現回数とによって構成される第1の特徴ベクトルを算出する特徴算出部、
前記第1の特徴ベクトルを構成する単語の一部から、前記特定の分野に関するデータの収集に用いる検索条件としての検索語の組み合わせを生成する生成部、
生成された前記検索条件としての前記検索語を全て含む、前記特定の分野に関するデータを収集する収集部、
収集した前記データの特徴ベクトルであって当該収集したデータに含まれる単語とその出現回数とによって構成される第2の特徴ベクトルを前記特徴算出部が算出すると、該第2の特徴ベクトルと前記第1の特徴ベクトルとの類似度を算出する類似度算出部、
前記類似度が所定の範囲内にある収集した前記データを前記教師データとして抽出する抽出部、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017014021A JP6936014B2 (ja) | 2017-01-30 | 2017-01-30 | 教師データ収集装置、教師データ収集方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017014021A JP6936014B2 (ja) | 2017-01-30 | 2017-01-30 | 教師データ収集装置、教師データ収集方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018124617A JP2018124617A (ja) | 2018-08-09 |
JP6936014B2 true JP6936014B2 (ja) | 2021-09-15 |
Family
ID=63111428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017014021A Active JP6936014B2 (ja) | 2017-01-30 | 2017-01-30 | 教師データ収集装置、教師データ収集方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6936014B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7148794B2 (ja) * | 2018-11-12 | 2022-10-06 | 富士通株式会社 | 学習データ生成プログラム、学習データ生成装置及び学習データ生成方法 |
WO2021125616A1 (ko) * | 2019-12-19 | 2021-06-24 | 이향룡 | Ai의 학습 및 적용을 위한 개체 데이터를 검출하는 방법 및 이의 시스템 |
JP2021196777A (ja) * | 2020-06-11 | 2021-12-27 | トヨタ自動車株式会社 | 機械学習装置、機械学習システム、機械学習方法、及びプログラム |
JP2023019236A (ja) | 2021-07-29 | 2023-02-09 | 京セラドキュメントソリューションズ株式会社 | 教師データ収集システム、類似度スコア算出システム、文献検索システム、および教師データ収集プログラム |
-
2017
- 2017-01-30 JP JP2017014021A patent/JP6936014B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018124617A (ja) | 2018-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9318027B2 (en) | Caching natural language questions and results in a question and answer system | |
US20140358523A1 (en) | Topic-specific sentiment extraction | |
JP6936014B2 (ja) | 教師データ収集装置、教師データ収集方法、及びプログラム | |
US11727019B2 (en) | Scalable dynamic acronym decoder | |
US9852208B2 (en) | Discovering communities and expertise of users using semantic analysis of resource access logs | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
Jotheeswaran et al. | OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE. | |
KR102285142B1 (ko) | 챗봇을 위한 학습 데이터 추천 장치 및 방법 | |
SzymańSki | Comparative analysis of text representation methods using classification | |
CN111694823A (zh) | 机构标准化方法、装置、电子设备及存储介质 | |
US10949452B2 (en) | Constructing content based on multi-sentence compression of source content | |
US20150169676A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP6079270B2 (ja) | 情報提供装置 | |
US9104946B2 (en) | Systems and methods for comparing images | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
CN110309355B (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
US9946765B2 (en) | Building a domain knowledge and term identity using crowd sourcing | |
JP5780633B2 (ja) | 専門家検索装置、および専門家検索方法 | |
CN116484829A (zh) | 用于信息处理的方法和设备 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN112926297A (zh) | 处理信息的方法、装置、设备和存储介质 | |
D’Silva et al. | Automatic text summarization of Konkani Folk tales using supervised machine learning algorithms and language independent features | |
JP7106036B2 (ja) | 学習データ作成装置、方法、及びプログラム | |
US20230281275A1 (en) | Identification method and information processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170131 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210817 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6936014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |