JP6307822B2 - プログラム、コンピュータおよび訓練データ作成支援方法 - Google Patents

プログラム、コンピュータおよび訓練データ作成支援方法 Download PDF

Info

Publication number
JP6307822B2
JP6307822B2 JP2013194168A JP2013194168A JP6307822B2 JP 6307822 B2 JP6307822 B2 JP 6307822B2 JP 2013194168 A JP2013194168 A JP 2013194168A JP 2013194168 A JP2013194168 A JP 2013194168A JP 6307822 B2 JP6307822 B2 JP 6307822B2
Authority
JP
Japan
Prior art keywords
worker
data
training data
label
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013194168A
Other languages
English (en)
Other versions
JP2015060432A (ja
Inventor
聡子 岩倉
聡子 岩倉
友哉 岩倉
友哉 岩倉
太田 唯子
唯子 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013194168A priority Critical patent/JP6307822B2/ja
Publication of JP2015060432A publication Critical patent/JP2015060432A/ja
Application granted granted Critical
Publication of JP6307822B2 publication Critical patent/JP6307822B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、プログラム、コンピュータおよび訓練データ作成支援方法に関する。
例えば文書管理やインターネット等の分野において、文書の自動整理やスパム除去、検索等を行うために、各文書に対し、あらかじめ与えられたいくつかのカテゴリ(分類)を示すラベルを付与する、文書分類が行われている。
文書分類においては、文書内容に基づき付与する分類ラベル(以下、ラベルと呼称する)を決定する文書分類器が用いられる場合があり、文書分類器(以下、分類器と呼称する)の生成には、機械学習を用いる方法が知られている。機械学習を用いる場合、予めラベルが付与された文書を訓練データ(学習データまたは教師データとも呼ばれる)として、それらの文書が持つラベルを付与するための規則(分類規則)を自動で獲得する。分類器は、獲得した分類規則を用いて、新しい文書に対し、自動でラベルを付与することができる。
この訓練データの作成においては、作業者の人手によって文書にラベルが付与される。
特開2009−217528号公報
機械学習により精度の良い分類器を生成するためには、訓練データの質と量が大きく影響する。よって、訓練データ作成の際には、適正なラベルが文書に付与された訓練データが作られるように、過去に同様の作業を行ったことがある経験者をなるべく作業者として選定することが行われる。しかしながら、ラベル付与対象の文書数が多いとその数に見合った経験者を作業者として確保できず、未経験者や経験の少ない者をしばしば作業者に選定せざるを得ない。未経験者であっても、ラベル付与作業において、期待される技能水準を満たしていることが好ましい。
そこで、作業者の作業技能を判定する方法が必要になる。そのために、例えば予め付与すべきラベル(正解ラベル)が分かっている技能判定用の文書を準備し、作業者にその文書を作業対象として渡し、作業者がその文書に付与したラベルと正解ラベルとの一致を見て作業者のラベル付与作業技能を判定する方法がある。
しかしながら、上述の方法によれば、正解ラベルの作成を含む技能判定用の文書を準備する工数や、技能判定用の文書にラベルを付与するための作業者の工数が発生するため、対象作業者の人数が多いほど非効率的になり得る。
本発明の1つの側面では、簡易な方法で、訓練データの作成に関する作業者の作業技能を判定することが可能なプログラム、コンピュータおよび訓練データ作成支援方法を提供することを目的とする。
発明の一観点によれば、コンピュータに、第1データを対象にして第1作業者の作業により作成された第1訓練データに付与された第1のラベルと、第2データを対象にして第2作業者の作業により作成された第2訓練データを用いた機械学習により生成された第1規則データに従って前記第1データを対象にして生成された第1処理結果データに付与された第2のラベルとの一致度と、第3データを対象にして第3作業者の作業により作成された第3訓練データに付与された第3のラベルと、前記第3データを対象にして前記第1規則データに従って生成された第2処理結果データに付与された第4のラベルとの一致度との偏りに基づき、前記第2作業者の作業技能を判定する、ことを実行させるためのプログラムであって、前記第1訓練データ、前記第2訓練データ、前記第3訓練データのそれぞれは、機械学習による分類規則データの生成に用いられる複数の訓練データに含まれる、プログラムが提供される。
一実施態様によれば、技能判定用のラベル付与済み文書を予め準備する工数や、技能判定用の文書にラベルを付与するための作業者の工数が発生しない、簡易な方法で、訓練データの作成に関する作業者の作業技能を判定することが可能なプログラム、コンピュータおよび訓練データ作成支援方法を提供することができる。
図1は、訓練データ作成支援システムの一例を示す。 図2は、訓練データ作成支援装置のハードウェア構成の一例を示す。 図3は、訓練データ作成支援装置による訓練データ作成支援方法の一例を示すフローチャートである。 図4は、訓練データDBの一例を示す。 図5は、一致度の判定処理の一例を示すフローチャートである。 図6は、分類規則の一例を示す。 図7は、判定作業用DBの一例を示す。 図8は、ラベル付与結果の一致度判定処理の一例を示すフローチャートである。 図9は、カウンタの一例を示す。 図10は、判定結果DBの一例を示す。 図11は、模範作業者および確認対象者の抽出処理の一例を示すフローチャートである。 図12は、確認対象者DBの一例を示す。 図13は、模範作業者DBの一例を示す。 図14は、確認対象者の技能判定処理の一例を示すフローチャートである。 図15は、確認対象者判定用DBの一例を示す。 図16は、ラベル付与結果の一致判定処理の一例を示すフローチャートである。 図17は、ラベル付与結果の一致度判定処理の一例を示すフローチャートである。 図18は、他の実施形態における訓練データ作成支援システムの一例を示す。 図19は、他の実施形態における訓練データ作成支援装置による訓練データ作成支援方法の一例を示すフローチャートである。 図20は、模範作業者へのラベル付与指示処理の一例を示すフローチャートである。 図21は、他の実施形態における訓練データ作成支援システムの一例を示す。 図22は、他の実施形態における訓練データ作成支援装置による訓練データ作成支援方法の一例を示すフローチャートである。 図23は、付与対象文書の送信処理の一例を示すフローチャートである。
以下、本発明の実施形態について、図1乃至図23を参照して具体的に説明する。
図1は、訓練データ作成支援システムの一例を示す。図1に示すように、訓練データ作成支援システムは、訓練データ作成支援装置10と複数の端末装置30とを有する。訓練データ作成支援装置10と複数の端末装置30とは、ネットワーク50を介して相互に通信可能に接続される。
訓練データ作成支援装置10は、訓練データの作成を支援するコンピュータの一例である。訓練データ作成支援装置10は、訓練データの作成を担う作業者の作業技能が所定の水準を満たしているか否かを判定する。前述のように、訓練データは、自動で文書分類を行う分類器を生成する際の機械学習に利用される。なお、訓練データ作成支援装置10は、例えばパーソナルコンピュータ(PC)、またはサーバ等のコンピュータ・ハードウェアとそのハードウェアにて動作するソフトウェアによって実現される。訓練データ作成支援装置10によって実行される処理は後述される。
端末装置30は、訓練データを作成する各作業者が利用する端末装置である。端末装置30は、例えばPC、携帯電話、スマートフォンまたはタブレット端末等である。各作業者は、個別に与えられたラベル付与対象文書にラベルを付与し、ラベル付与済み文書を作成する。このラベル付与済み文書が訓練データである。そして、各作業者は、作成した訓練データを端末装置30から訓練データ作成支援装置10に送信する。
ラベルとは、文書の内容がどのようなカテゴリ(分類)に属するのかを示す分類名称である。食のカテゴリであることを示す「FOOD」などがラベルの一例である。ラベルが付与される文書は、例えば、ニュース記事、Twitter(登録商標)やブログなどのソーシャルメディアに書き込まれた文章である。
図1では、ネットワーク50にそれぞれ接続された複数の端末装置30が示されているが、1台の装置(端末装置30もしくはその他の管理端末)が訓練データ作成支援装置10と相互に通信する形態をとり、その1台の装置が各作業者(各端末装置30)からの訓練データを取りまとめて訓練データ作成支援装置10に送信するようにしてもよい。
図1に示すように、訓練データ作成支援装置10は、第1記憶部11、第2記憶部12、受信部13、分類器生成部14、判定部15、分類処理部16、送信部17および出力部18を備える。
第1記憶部11は、訓練データ作成支援プログラムを記憶する。訓練データ作成支援プログラムは、作業者によって作成された訓練データを用い、訓練データ間の関係を基にして作業者の作業技能を判定する処理を実行するプログラムである。例えば、この作業者の作業技能を判定する処理は、作業技能が所定水準に達していない作業者を特定することである。
第2記憶部12は、本発明の処理に用いる各種情報を記憶するためのデータベース(DB)を格納する。
受信部13は、各端末装置30から作業者によって作成された訓練データを受信する。受信部13は、端末装置30からの、Hypertext Transfer Protcol(HTTP)やFile Transfer Protcol(FTP)などのプロトコルを利用してのアップロードや、訓練データ作成支援装置10を示すアドレスが宛先に設定された電子メールの送信によって、訓練データを受信することができる。そして、受信部13は、受信した訓練データを訓練データDBに登録する。訓練データDBは、例えば第2記憶部12に格納される。訓練データDBの詳細は後述される。
分類器生成部14は、各作業者のラベル付与作業技能の判定に用いるために、受信部13によって受信された訓練データを用いて作業者毎の分類器を生成する。ここでは、作業者毎の分類器の生成とは、作業者毎の分類規則を生成することと同意である。分類器の生成方法は後述される。
判定部15は、第1作業者によって作成された第1訓練データ群と、第2作業者によって作成された第2訓練データ群を対象に機械学習を用いて生成された分類器とを用いて判定処理を行う。判定部15は、第1訓練データ群を作成する際のラベル付与対象文書に対して、第1作業者が付与したラベルと、前述によって生成された分類器によって自動付与されたラベルとが一致するか否かを判定する。
また、例えば、判定部15は、作業者の中から、作業技能が所定の水準に達していない疑いがあり、その作業技能を判定すべき作業者(以下、確認対象者と呼称する)と、模範とすべき作業者(以下、模範作業者と呼称する)とを抽出する。ここでの作業者は、例えば訓練データDBに登録されている訓練データの作成者である。そして、判定部15は、抽出した確認対象者に対して作業技能判定処理を実施し、確認対象者の作業技能が所定の水準に達しているか否かを判定する。なお、確認対象者に対して作業技能の判定を行うのは、確認対象者(作業者)の作業技能が所定の水準に達していないのか、それとも、付与すべきラベルの判断が難しい付与対象文書を担当したために、その確認対象者(作業者)が一時的に適切なラベル付与を行えなかったのかを判断するためである。
分類処理部16は、分類器を使用して(分類規則に基づいて)、対象文書にラベルを付与する。
送信部17は、各端末装置30に対してラベル付与対象文書等の情報を送信する。送信部17は、端末装置30に対し、端末装置30によるHTTPやFTPなどのプロトコルを利用してのダウンロードや、各端末装置30を示すアドレス(端末装置30を利用する作業者のメールアドレス等)が宛先に設定された電子メールの送信によって、ラベル付与対象文書等を送信することができる。
出力部18は、判定部15による判定結果を基に処理結果を出力する。例えば、出力部18は、確認対象者の作業技能が所定の水準に達しているか否かを示す処理結果を出力する。出力部18は、例えば液晶ディスプレイ、プラズマディスプレイまたは有機ELディスプレイ等の表示装置である。
なお、前述した各部は、他の部と統合またはそれをさらに細分して、それら各部の機能が実現されるものであってもよい。
次に、訓練データ作成支援装置10のハードウェア構成について説明する。
図2は、訓練データ作成支援装置10のハードウェア構成の一例を示す。図2に示すように、訓練データ作成支援装置10は、CPU(Central Processing Unit)61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、ストレージ装置64、ネットワークインタフェース65、及び可搬型記憶媒体用ドライブ66等のハードウェア要素を備える。訓練データ作成支援装置10は、これらハードウェア要素を備えるコンピュータの一例である。これらハードウェア要素は、バス67に接続され、バス67を介して相互にデータ通信可能である。
CPU61は、プロセッサの一例である。CPU61は、ROM62あるいはストレージ装置64からリードしたプログラムをRAM63にロードして実行する。このCPU61は、それに替え、Micro−Processing Unit(MPU)やDigital Signal Processor(DSP)、その他の処理回路であってもよい。
ROM62は、BIOS(Basic Input/Output System)やUEFI(Unified Extensible Firmware Interface)などの基本プログラムやそのプログラムの実行の際に使用される各種データを格納する。
RAM63は、プログラムや各種データを一時的に格納する揮発性メモリである。RAM63は、CPU61によるプログラムの実行の際にワークエリアとして利用される。
ストレージ装置64は、例えばHard Disk Drive(HDD)やSolid State Drive(SSD)である。ストレージ装置64は、不揮発性記憶装置であることが好ましい。
ネットワークインタフェース65は、ネットワークを介して他の装置と通信可能とするために、訓練データ作成支援装置10をネットワークに接続する通信回路である。ネットワーク・インタフェース・カード(NIC)は、ネットワークインタフェース65の一例である。
可搬型記憶媒体用ドライブ66は、可搬型記憶媒体68にアクセスするためのデバイスである。可搬型記憶媒体用ドライブ66は、上位装置(例えばCPU61)からのコマンドに基づき、可搬型記憶媒体68へのデータライトや可搬型記憶媒体68からのデータリードを行う。可搬型記憶媒体68は、例えば、コンパクトディスク(CD)やDVD(Digital Versatile Disc)などの光ディスク、Universal Serial Bus(USB)メモリ、フレキシブル・ディスク(FD)、光磁気ディスク(MO)、磁気テープ、である。
ストレージ装置64や可搬型記憶媒体68は、コンピュータ読み取り可能な記憶媒体の一例である。
本発明の訓練データ作成支援プログラムは、例えばストレージ装置64に格納される。CPU61(訓練データ作成支援装置10の一例であるコンピュータ)は、ストレージ装置64から訓練データ作成支援プログラムをリードしてRAM63にロードし、訓練データ作成支援プログラムを実行する。これによって、訓練データ作成支援プログラムの各処理が実行され、訓練データ作成支援装置10の各機能が実現される。なお、訓練データ作成支援プログラムは、ROM62や可搬型記憶媒体68に格納されるものであってもよい。その場合、CPU61は、訓練データ作成支援プログラムが格納されている記憶媒体に適宜アクセスして訓練データ作成支援プログラムを取得し、実行すればよい。
図2における各ハードウェア要素と図1における各機能の対応関係の一例は次の通りである。
CPU61は、図1における分類器生成部14、判定部15および分類処理部16の一例である。
また、ROM62、ストレージ装置64、可搬型記憶媒体用ドライブ66あるいは可搬型記憶媒体68は、図1における第1記憶部11の一例である。
また、ROM62、RAM63、ストレージ装置64、可搬型記憶媒体用ドライブ66あるいは可搬型記憶媒体68は、図1における第2記憶部12の一例である。
また、ネットワークインタフェース65、CPU61は、図1における受信部13、送信部17の一例である。
また、液晶ディスプレイ、プラズマディスプレイまたは有機ELディスプレイ等の図2において不図示の表示装置は、出力部18の一例である。
次に、本実施形態における、訓練データ作成支援装置10による訓練データ作成支援方法について説明する。
図3は、訓練データ作成支援装置による訓練データ作成支援方法の一例を示すフローチャートである。
まず、受信部13は、各端末装置30から各作業者によって作成された訓練データを受信する(S101)。受信部13は、各作業者が端末装置30から訓練データを訓練データ作成支援装置10宛に送信することにより、作業者毎に作成された訓練データを受信できる。受信部13は、受信した訓練データを第2記憶部12の訓練データDBに格納する。
なお、事前に各作業者には、付与対象文書と、付与するラベルの候補が配布されている。付与対象文書は作業者毎に異なるものが配布され、付与するラベルの候補は作業者共通である。このとき、各作業者に配布される付与対象文書は、複数個であることが好ましい。その個数は、生成する訓練データの総数や作業者の総数、各作業者の希望などに応じて適宜決定されればよいが、いずれの作業者も一定数以上あることが好ましい。これらの事前配布は、訓練データ作成支援装置10によって行われてもよいし、たとえば作業監督者が各作業者にメールで送信するなど他の手段で行われてもよい。
各作業者は、配布された付与対象文書に対し、定められたラベル候補のいずれかを付与して、訓練データを作成する。受信部13は、各作業者によって作成されたこれらの訓練データを受信する。
図4は、訓練データDBの一例を示す。図4に示すように、訓練データDBは、作業者、ラベル、文書ID、および付与対象文書の各フィールドを有する。各訓練データは、レコードとして訓練データDBに登録される。
訓練データDBにおけるフィールド「作業者」は、付与対象文書にラベルを付与した作業者を示す。すなわち、フィールド「作業者」は、訓練データを作成した作業者を示す。このフィールドには、作業者を示す識別情報が登録される。
フィールド「ラベル」は、作業対象となる文書に付与されたラベルを示す。付与対象文書を作業者に配布する際にラベルの候補も通知されており、このフィールドの内容は、作業者が付与対象文書の内容を基に候補の中から該当すると判断したラベル(付与結果ラベル)である。
フィールド「文書ID」は、ラベル付与対象文書の識別情報を示す。この文書IDによって、個々の文書が識別される。本実施形態では、互いに異なる付与対象文書が各作業者に配布される。つまり、訓練データDB内にて各訓練データの文書IDはユニークなものとなる。
フィールド「付与対象文書」は、フィールド「文書ID」の識別情報に対応する文書であり、作業者に作業対象として配布したラベル付与対象文書の内容を示す。
このような構造の訓練データDBについて、本実施形態の処理に伴い以下の処理が行われる。
例えば、作業者に付与対象文書を配布する際に、配布先の作業者、配布する付与対象文書に基づき訓練データDBのフィールド「作業者」、「文書ID」、「付与対象文書」に情報を登録する。また、作業者から受信した訓練データに含まれる文書IDを基に、その文書IDと一致する訓練データDBのレコードのフィールド「ラベル」に、付与結果であるラベル内容を登録するようにすればよい。
また、例えば、付与対象文書を作業者に配布する際には訓練データDBには何も登録せず、作業者からの訓練データを受信した際に訓練データに含まれる各情報を対応する各フィールドに登録するようにしてもよい。この場合に、付与対象文書に文書IDを付与せずに配布し、訓練データDBへのレコードの追加に応じてフィールド「文書ID」の値を自動インクリメントして文書IDを登録するようにしてもよい。訓練データDBへの情報登録手順は、適宜の方法が採用されればよい。
図4に示す訓練データDBは、ラベルの候補を「FOOD」と「Not−FOOD」の2つとし、付与対象文書が食べ物に関連するかどうかを各作業者に判断させ、判断結果を基に候補のいずれかをラベル付与させたときの訓練データを例示している。なお、ラベル「FOOD」は付与対象文書が食べ物に関連する場合に付与すべきラベルとし、ラベル「Not−FOOD」は付与対象文書が食べ物に関連しない場合に付与すべきラベルとしている。このように、訓練データDBを参照することにより、どの作業者がどのような付与対象文書に対してどのようなラベルを付与したのかを把握することができる。
受信部13による訓練データの受信と訓練データDBへの訓練データの登録が完了した後、判定部15は、ある作業者(以降、判定対象者と呼称する)が作成した訓練データを用いて機械学習により試験的に分類器(分類規則を含む)を生成し、他の作業者(以降、比較対象者と呼称する)に配布された付与対象文書を対象にしたその分類器によるラベル自動付与結果と、比較対象者によるその付与対象文書に対するラベル付与結果との一致度を判定する(図3のS102)。本例では、ある作業者を判定対象者にしたとき、他のすべての作業者を比較対象者とし、作業者の全組み合わせについて、ラベル自動付与結果と作業者によるラベル付与結果との一致度の判定が行われる。また、本例では、ある作業者を判定対象者にしたときに、その作業者を比較対象者ともしている。
判定対象者の訓練データを基に生成した分類器によるラベル付与結果と比較対象者によるラベル付与結果が著しく相違する場合、判定対象者の作業技能が低いために訓練データの質が悪く、分類器が適切なラベル付与を行えないか、もしくは、比較対象者の作業技能が低いために分類器が付与した適切なラベル付与結果と比較対象者によるラベル付与結果が相違することが考えられる。一方、それらラベル付与結果が一致またはある閾値以上に類似する場合、判定対象者と比較対象者ともに一定の技能水準を満たしていることが考えられる。作業者の全組み合わせについてラベル付与結果の一致度を判定することにより、結果の偏りから、確認対象者と模範作業者を発見することができる。確認対象者および模範作業者の説明は後述される。以下に、一致度の判定処理について説明する。
図5は、一致度の判定処理の一例を示すフローチャートである。
まず、判定部15は、第2記憶部12に格納されている訓練データDBを検索し、判定対象者を選択する(S201)。例えば、判定部15は、訓練データDBのレコード順に従って、先頭レコードから最終レコードまでの各レコードにおけるフィールド「作業者」を基に、未だ選択されていない作業者を判定対象者として選択すればよい。
続いて、判定部15は、訓練データDBに登録されている、判定対象者によって作成された訓練データを対象とし、分類器生成部14を使用して分類規則を含む分類器を生成する(S202)。分類器生成部14は、例えば決定木やSupport Vector Machinesなど、種々の公知の学習手法を用いて分類器を生成すればよい。生成された分類器は、例えば、第2記憶部12に格納される。
図6は、分類規則の一例を示す。図6に示すように、分類規則は、分類器による処理に使用されるものであり、例えば、条件とラベルの対応情報を含む規則データである。条件は、例えば文字列(キーワード)とその出現位置に関する情報を含む。ラベルは、条件に合致する内容を含む文書に対して付与するラベルを示す。分類器は、このような分類規則を使い、例えば対象文書の内容と条件を比較し、対象文書の内容が条件に合致する場合に、その条件に対応するラベルを対象文書に付与する。なお、図6は、図4に例示する作業者Aによって作成された訓練データを基に生成された分類規則の例を示す。
判定部15は、続いて、第2記憶部12に格納されている訓練データDBの中から比較対象者を選択する(S203)。例えば、判定部15は、訓練データDBのレコード順に従って、先頭レコードから最終レコードまでの各レコードにおけるフィールド「作業者」を基に、比較対象者として未だ選択されていない作業者を選択すればよい。なお、本例では、前述のように判定対象者と同一の作業者を比較対象者としても選定している。
そして、判定部15は、分類処理部16に対して、生成された分類器と比較対象者の通知と共にラベル付与を指示する。分類処理部16は、通知された分類器を用いて、通知された比較対象者に作業対象として配布された付与対象文書の各々にラベルを自動付与する(S204)。分類処理部16は、訓練データDBの中から、比較対象者として選択された作業者の識別情報がフィールド「作業者」に登録されたレコードを特定し、特定されたレコードにおけるフィールド「付与対象文書」に登録されている文書を対象に、分類器を用いてラベルを自動付与する。例えば、分類処理部16は、訓練データDBのレコード順に従って、先頭レコードから最終レコードまでの各レコードの中から該当レコードを順次特定し、ラベルを自動付与する。この処理に関連して判定作業用DBが利用され、判定対象者と分類器によるラベル付与結果、比較対象者と比較対象者によるラベル付与結果などが判定作業用DBに登録される。また、分類器によるラベル付与結果と比較対象者によるラベル付与結果との比較判定結果も判定作業用DBに登録される。この判定作業用DBは、例えば第2記憶部12に格納される。以下に、判定作業用DBについて説明する。
図7は、判定作業用DBの一例を示す。図7に示すように、判定作業用DBは、判定結果、比較対象者、比較対象者によるラベル付与結果、判定対象者、分類器によるラベル付与結果、文書IDおよび付与対象文書の各フィールドを有する。
判定作業用DBにおけるフィールド「判定結果」は、フィールド「比較対象者によるラベル付与結果」とフィールド「分類器によるラベル付与結果」の比較結果を示す。例えば、フィールド「判定結果」の値が「1」の場合、フィールド「比較対象者によるラベル付与結果」とフィールド「分類器によるラベル付与結果」の内容が一致することを示す。また、例えば、その値が「0」の場合、フィールド「比較対象者によるラベル付与結果」とフィールド「分類器によるラベル付与結果」の内容が不一致であることを示す。
フィールド「比較対象者」は、図5のS203の処理において選択された比較対象者である作業者の識別情報を示す。このフィールドには、分類処理部16によって特定された訓練データDBのレコードにおけるフィールド「作業者」の内容が登録される。
フィールド「比較対象者によるラベル付与結果」は、後述するフィールド「文書ID」で示される付与対象文書を対象にした比較対象者によるラベル付与結果を示す。このフィールドには、分類処理部16によって特定された訓練データDBのレコードにおけるフィールド「ラベル」の内容が登録される。
フィールド「判定対象者」は、図5のS201の処理において選択され、図5のS202における分類器の生成に訓練データが利用された判定対象者である作業者の識別情報を示す。このフィールドには、図5のS204の処理である分類器を用いた分類処理部16によるラベルの自動付与に伴い、判定対象者である作業者の識別情報が登録される。
フィールド「分類器によるラベル付与結果」は、図5のS204の処理において分類処理部16によって生成された処理結果を示す。つまり、分類器を用いた分類処理部16の処理によって、フィールド「文書ID」で示される付与対象文書に自動付与されたラベルを示す。
フィールド「文書ID」は、フィールド「比較対象者によるラベル付与結果」で示されるラベルが付与された付与対象文書の文書IDを示す。このフィールドには、分類処理部16によって特定された訓練データDBのレコードにおけるフィールド「文書ID」の内容が登録される。
フィールド「付与対象文書」は、フィールド「文書ID」で示される文書IDに対応する付与対象文書の内容を示す。このフィールドには、分類処理部16によって特定された訓練データDBのレコードにおけるフィールド「文書ID」に対応するフィールド「付与対象文書」の内容が登録される。
以上の各フィールドに、分類処理部16によって、訓練データDB内にて特定したレコードの内容および判定結果が登録される。
なお、図7に例示される判定作業用DB内の3つのレコードは次のことを示す。
この3つのレコードのうち先頭レコードおよび2番目のレコードは、判定対象者として作業者Aが選択され、比較対象者として作業者Bが選択されたときの、作業者Aが作成した訓練データを基に生成された分類器によるラベルの自動付与結果と、作業者Bが作成した訓練データに含まれる付与対象文書に作業者Bにより付与されたラベル付与結果との比較結果を示す。
作業者Bは、文書IDが101および102の付与対象文書に対してそれぞれ「FOOD」のラベルを付与したことを示す。それに対し、それら文書に対し、作業者Aが作成した訓練データを基に生成された分類器は、図6に例示する分類規則を用いて、それぞれ「FOOD」のラベルを自動付与したことを示す。
3番目のレコードは、判定対象者として作業者Aが選択され、比較対象者として作業者Cが選択されたときの、作業者Aが作成した訓練データを基に生成された分類器によるラベルの自動付与結果と、作業者Cが作成した訓練データに含まれる付与対象文書に作業者Cにより付与されたラベル付与結果との比較結果を示す。
作業者Cは文書IDが201の付与対象文書に対して作業者Cは「FOOD」のラベルを付与したことを示す。それに対し、その文書に対し、作業者Aが作成した訓練データを基に生成された分類器は、図6に例示する分類規則を用いて、「Not−FOOD」のラベルを自動付与したことを示す。
以上の比較の結果、文書IDが101および102の付与対象文書には同じラベルが付与されたことからフィールド「判定結果」に値「1」が登録され、文書IDが103の付与対象文書には異なるラベルが付与されたことからフィールド「判定結果」に値「0」が登録されたことを示す。
判定部15は、図5のS204の処理での分類処理部16による処理の後、訓練データDBの中で比較対象者として未選択の作業者が存在するか否かを判定する(図5のS205)。
比較対象者として未選択の作業者が存在する場合(S205;肯定)、判定部15は、S203に戻り、その作業者を比較対象者として選択し、S204の処理を実行する。判定部15は、比較対象者として未選択の作業者が存在しなくなるまで、S203〜S205の処理を繰り返して実行する。一方、比較対象者として未選択の作業者が存在しない場合(S205;否定)、判定部15は、訓練データDBの中で判定対象者として未選択の作業者が存在するか否かを判定する(S206)。
訓練データDBの中で判定対象者として未選択の作業者が存在する場合(S206;肯定)、判定部15は、S201に戻り、その作業者を判定対象者として選択し、S202〜S205の処理を実行する。判定部15は、未選択の作業者が存在しなくなるまで、S201〜S206の処理を繰り返して実行する。
一方、判定対象者として未選択の作業者が存在しない場合(S206;否定)、判定部15は、分類処理部16によって作成された判定作業用DBを用い、判定対象者と比較対象者の組み合わせ毎に、分類器によるラベルの自動付与結果と、比較対象者によるその付与対象文書へのラベル付与結果との一致度を判定する(図5のS207)。判定部15は、その判定結果である一致度を判定結果DBに格納する。この判定結果DBは、例えば第2記憶部12に格納される。以下に、ラベル付与結果の一致度判定処理について説明する。
図8は、ラベル付与結果の一致度判定処理の一例を示すフローチャートである。
判定部15は、前処理として、カウンタを生成する(S301)。例えば、判定部15は、判定作業用DBの先頭レコードから最終レコードまでの各レコードについて、フィールド「判定対象者」に登録されている作業者の識別情報を基に各判定対象者を特定し、各レコードにおけるフィールド「比較対象者」を基に、判定対象者ごとに各比較対象者を特定して、判定対象者と比較対象者の全組み合わせに対応するカウンタを生成する。
図9は、カウンタの一例を示す。同図は、判定対象者および比較対象者となる作業者が、作業者A、作業者B、作業者Cであるときのカウンタの例を示している。
図9(a)は、判定作業用DBの中で、フィールド「判定対象者」に登録された識別情報で示される各作業者とフィールド「比較対象者」に登録された識別情報で示される各作業者との組み合わせ毎に、該当するレコードの総数値を保持するカウンタである。同図(a)において、判定対象者と比較対象者の組み合わせ毎のカウンタはTCNT(m,n)で示されており、例えば、TCNT(A,B)は、判定作業用DBの全レコードのうち、判定対象者が作業者Aかつ比較対象者が作業者Bであるレコード総数を示す。
図9(b)は、判定作業用DBの中で、フィールド「判定対象者」に登録された識別情報で示される各作業者とフィールド「比較対象者」に登録された識別情報で示される各作業者との組み合わせ毎に、その組み合わせに該当するレコードのうちフィールド「判定結果」に値「1」が登録されたレコードの総数値を保持するカウンタである。つまり、同図(b)のカウンタは、同図(a)の判定対象者と比較対象者の組み合わせに対応するカウンタで示される各レコード総数の中のフィールド「判定結果」に値「1」が登録されたレコードの総数を示す。同図(b)において、例えば、MCNT(A,B)は、判定対象者が作業者Aかつ比較対象者が作業者Bである判定作業用DBの全レコードの中でフィールド「判定結果」に値「1」が登録されたレコードの総数を示す。
なお、判定部15は、S301の処理においてカウンタを生成する際に、生成した各カウンタの値を「0」に初期化する。
判定部15は、カウンタを生成した後、一致度判定処理のメイン処理を行う。このメイン処理において、判定部15は、判定作業用DB内のレコードを選択する(S302)。例えば、判定部15は、判定作業用DBのレコード順に従って、先頭レコードから最終レコードまでの各レコードの中からメイン処理において未だ選択されていないレコードを選択すればよい。本メイン処理においては、前処理において生成された各カウンタが利用される。
続いて、判定部15は、選択されたレコードのフィールド「判定対象者」およびフィールド「比較対象者」にそれぞれ登録されている作業者の識別情報を基に、図9(a)に示されるカウンタの中で判定対象者と比較対象者の組み合わせに対応するカウンタ値(レコード総数値)をインクリメントする(S303)。つまり、現在のレコード総数値に「1」が加算された値が新たなレコード総数値となる。
続いて、判定部15は、選択したレコードにおける判定結果が「1」であるか否か判定する(S304)。判定結果が「1」の場合(S304;肯定)、判定部15は、選択したレコードにおけるフィールド「判定対象者」および「比較対象者」にそれぞれ登録されている作業者の識別情報を基に、図9(b)に示されるカウンタの中で判定対象者と比較対象者の組み合わせに対応するカウンタ値(一致総数値)をインクリメントする(S305)。
判定部15は、前述の処理の後、または、判定結果が「1」でない場合(S304;否定)、メイン処理において判定作業用DBの中で未選択のレコードが存在するか否かを判定する(S306)。
未選択のレコードが存在する場合(S306;肯定)、判定部15は、S302に戻り、そのレコードを選択し、S303〜S305の処理を実行する。判定部15は、メイン処理において未選択のレコードが存在しなくなるまで、S302〜S306の処理を繰り返して実行する。一方、未選択のレコードが存在しない場合(S306;否定)、判定部15は、前述処理で得られたレコード総数値と一致総数値を基に一致度を算出する。判定部15は、例えば、図9(b)で示される判定対象者と比較対象者の組み合わせ毎の各カウンタ値(一致総数値)を図9(a)で示される判定対象者と比較対象者の組み合わせ毎の各カウンタ値(レコード総数値)で除算して、レコード総数値に対する一致総数値の割合(パーセンテージ)を求め、それを一致度とすればよい。判定部15は、その一致度に関連する判定対象者および比較対象者を基に、判定結果DBのレコードおよびフィールドを特定し、算出した一致度を登録する(S307)。
図10は、判定結果DBの一例を示す。図10に示すように、判定結果DBは、各作業者対応のレコードを含む。また、各レコードは、各作業者対応のフィールドを有する。図10の例においては、レコードを判定対象者対応とし、フィールドを比較対象者対応として示している。
例えば、図10において、先頭レコードは、作業者A、BおよびCの作成した訓練データに含まれるそれぞれの付与対象文書を対象にして、作業者Aが作成した訓練データを基に生成した分類器を用いてラベルの自動付与を行ったラベル付与結果と、各作業者A、BおよびCがそれぞれ付与したラベル付与結果との一致度を示す。この例では、作業者Aの作成した訓練データに含まれる付与対象文書については、この分類器によるラベルの自動付与結果と作業者Aによるラベルの付与結果の一致度が100%であることを示す。また、作業者Bの作成した訓練データに含まれる付与対象文書については、この分類器によるラベルの自動付与結果と作業者Bによるラベルの付与結果の一致度が85%であることを示す。また、作業者Cの作成した訓練データに含まれる付与対象文書については、この分類器によるラベルの自動付与結果と作業者Cによるラベルの付与結果の一致度が50%であることを示す。
これらの処理を行った後、判定部15は、図5に示すフローチャートの処理を終了する。以上により、一致度の判定処理が行われ、その判定結果を示す判定結果DBが構築される。
次に、判定部15は、確認対象者および模範作業者を抽出する(図3のS103)。以下に、確認対象者および模範作業者の抽出方法について説明する。
図11は、模範作業者および確認対象者の抽出処理の一例を示すフローチャートである。
判定部15は、図10に示す判定結果DBを参照し、判定対象者を選択する(S401)。例えば、判定部15は、判定結果DBのレコード順に従って、本処理において未だ選択されていない判定対象者を選択すればよい。
続いて、判定部15は、S401の処理によって選択された判定対象者に対応する一致度のデータを判定結果DBから取得する(S402)。例えば、判定部15は、判定結果DBから、選択された判定対象者に対する全比較対象者の一致度のデータを抽出する。
続いて、判定部15は、抽出した一致度のデータをもとに、選択された判定対象者が確認対象者か否かを判定する(S403)。例えば、判定部15は、S402によって抽出された全ての一致度データ数(比較対象者数)と、抽出された全ての一致度データの中の一致度の基準値以下の一致度データ数とをそれぞれ計数する。そして、判定部15は、抽出された全ての一致度データ数に対する、一致度の基準値以下の一致度データ数の割合を算出する。判定部15は、算出された割合が所定閾値を超えるか否かを判定し、所定閾値を超える場合は、選択された判定対象者を確認対象者と判定する。この一致度の基準値および所定閾値は、期待するラベル付与の確度に応じて適宜の値が予め設定されればよい。ここで、所定閾値は、基準値以下割合の判別に用いられる閾値である。
選択された判定対象者が確認対象者であると判定された場合(S403;肯定)、判定部15は、その選択された判定対象者を確認対象者として確認対象者DBに登録する(S404)。確認対象者DBの詳細は後述される。
一方、選択された判定対象者が確認対象者であると判定されなかった場合(S403;否定)、判定部15は、判定対象者が模範作業者DBに登録されている作業者よりも高い作業技能を有するか否かを判定する(S405)。模範作業者DBには、模範作業者である作業者と、その作業者のスコアが登録されている。模範作業者DBの詳細は後述される。
判定部15は、例えば、模範作業者の判定のために判定結果DBの一致度のデータを用いる。判定部15は、S402によって抽出された一致度の全データの数値を合算し、その合算値を選択された判定対象者のスコアとする。判定部15は、選択された判定対象者のスコアと模範作業者DBに登録されている模範作業者のスコアを比較する。選択された判定対象者のスコアが模範作業者のスコアよりも大きい場合、判定部15は、選択された判定対象者が模範作業者DBに登録されている作業者よりも高い作業技能を有すると判定する。
選択された判定対象者が模範作業者DBに登録されている作業者よりも高い作業技能を有すると判定された場合(S405;肯定)、判定部15は、模範作業者DBを更新する(S406)。判定部15は、現在の選択された判定対象者を示す識別情報とそのスコアとを用いて、模範作業者DBの作業者情報とスコア情報を更新する。
一方、選択された判定対象者が模範作業者DBに登録されている作業者よりも高い作業技能を有すると判定されなかった場合(S405;否定)、もしくは、S404にて選択された判定対象者を確認対象者DBに登録した場合、判定部15は、判定結果DBの中で判定対象者として未選択の作業者が存在するか否かを判定する(S407)。
判定結果DBの中で未選択の判定対象者が存在する場合(S407;肯定)、判定部15は、S401に戻り、その判定対象者を選択し、S402〜S406の処理を実行する。判定部15は、未選択の判定対象者が存在しなくなるまで、S401〜S407の処理を繰り返して実行する。
一方、未選択の判定対象者が存在しない場合(S407;否定)、判定部15は図11に示すフローチャートの処理を終了する。これらの処理の結果、確認対象者DBには確認対象者となる作業者が登録され、模範作業者DBには訓練データDBに登録されている作業者の中で最も高い作業技能を有すると判定された作業者が模範作業者として登録される。このようにして、確認対象者および模範作業者が抽出される。
図12は、確認対象者DBの一例を示す。図12に示すように、確認対象者DBは、確認対象者、一致度、判定結果の各フィールドを有する。確認対象者が複数人となる場合には、各確認対象者に対応するレコードが確認対象者DBに登録される。
確認対象者DBにおけるフィールド「確認対象者」は、図11のS403によって確認対象者と判定され図11のS404によって確認対象者DBに登録された判定対象者である作業者の識別情報を示す。
フィールド「一致度」は、模範作業者と判定された作業者に対して配布し訓練データを取得した付与対象文書を対象に、模範作業者によるラベル付与結果と確認対象者と判定された判定作業者である作業者によるラベル付与結果との一致度を示す。
フィールド「判定結果」は、フィールド「一致度」の値が所定閾値以上であるか否かを示す。例えば、フィールド「一致度」の値が所定閾値以上であれば値「1」が登録される。また、例えば、フィールド「一致度」の値が所定閾値に達しない場合は値「0」が登録される。この値は、対応レコードのフィールド「確認対象者」に登録されている作業者が確認対象者と最終認定されるか否かも示す。例えば、値が「0」の場合は、対応レコードのフィールド「確認対象者」に登録されている作業者は確認対象者と最終認定される。
なお、フィールド「一致度」および「判定結果」は、後述する図14の処理において利用される。これらフィールドについては、その処理説明において詳述される。
例えば、図10に示す判定結果DBの例では、前述のように、判定作業者として作業者A、BおよびCの一致度に関するレコードが登録されている。一致度の基準値を50%とし、この図10に示す判定結果DBを例にすると、作業者Aについては3個のデータ(100%、85%、50%)のうち1個のデータが一致度の基準値以下であり、作業者Bについては3個のデータ(85%、100%、30%)のうち1個のデータが一致度の基準値以下であり、作業者Cについては3個のデータ(10%、10%、90%)のうち2個のデータが一致度の基準値以下である。
例えば、図11のS403における判定の基準値以下割合の所定閾値を50%とすると、作業者Aについては33%(全3個のうち1個のデータ)、作業者Bについては33%(全3個のうち1個のデータ)、作業者Cについては67%(全3個のうち2個のデータ)となり、図11のS403の処理によって作業者Cが確認対象者と判定され、確認対象者DBに登録される。
なお、図10に示す判定結果DBのなかのデータのうち比較対象者が判定対象者と同一の作業者の場合のデータを除外して確認対象者の判定を行ってもよい。また、図5のS203の比較対象者の選択処理の際に、判定対象者と同一の作業者を比較対象者として選択しないようにしてもよい。いずれの場合も、同様のデータが確認対象者の判定に使われることになり、図10に示す判定結果DBを例にすると、次のデータが確認対象者の判定処理に使われることになる。
作業者Aについては2個のデータ(85%(作業者B対応)、50%(作業者C対応))が使われる。一致度の基準値を前述と同様に50%とすると、この場合、2個のデータのうち1個のデータが一致度の基準値以下である。また、作業者Bについては2個のデータ(85%(作業者A対応)、30%(作業者C対応))が使われる。この場合、2個のデータのうち1個のデータが一致度の基準値以下である。また、作業者Cについては2個のデータ(10%(作業者A対応)、10%(作業者B対応))が使われる。この場合、2個のデータのうち2個のデータが一致度の基準値以下である。
例えば、図11のS403における判定の基準値以下割合の所定閾値を前述と同様に50%とすると、作業者Aについては50%(全2個のうち1個のデータ)、作業者Bについては50%(全2個のうち1個のデータ)、作業者Cについては100%(全2個のうち2個のデータ)となり、図11のS403の処理によって、基準値以下割合の所定閾値である50%を超える作業者Cが確認対象者と判定され、確認対象者DBに登録される。
図13は、模範作業者DBの一例を示す。図13に示すように、模範作業者DBは、模範作業者、スコアの各フィールドを有する。
模範作業者DBにおけるフィールド「模範作業者」は、図11のS405の処理によって、図10に示す判定結果DBに登録されている作業者(判定作業者)の中で最も高い作業技能を持っていると判定される作業者の識別情報を示す。
フィールド「スコア」は、図11のS405の処理によって計算された、フィールド「模範作業者」に登録された作業者のスコアを示す。
例えば、図10に示す判定結果DBおよび図12に示す確認対象者DBを例にすると、判定結果DBに判定作業者として登録されている作業者A、BおよびCのうち、作業者Cは図11のS403の処理によって確認対象者と判定され、模範作業者候補から除外される。残った作業者AおよびBについて、図11のS405の処理では作業者Aのスコアは235(100+85+50)と計算され、作業者Bのスコアは215(85+100+30)と計算される。これによって、図11のS406の処理によって、作業者AとBのうちスコアが大きい作業者Aの識別情報とスコアが模範作業者DBに登録される。
図3の処理の説明に戻る。判定部15は、図3のS103の処理において確認対象者が抽出されたか否かを判定する(図3のS104)。判定部15は、例えば、確認対象者DBを検索し、確認対象者DBに確認対象者となる作業者の情報が登録されているか否かを判定する。確認対象者DBに作業者の情報が登録されている場合(S104;肯定)、判定部15は、その作業者の作業技能が所定水準に達しているか否かを判定する(S105)。
前述の通り、確認対象者は、その作業技能が所定水準に達していない疑いがある作業者である。作業者の作業技能が所定の水準に達していないのか、それとも担当した付与対象文書側の難易度が高く、その作業者が一時的に適切なラベル付与を行えなかったのかを判断するために、別の付与対象文書を用いてその作業者の作業技能レベルを判定する。ここで、S103の処理において作業技能が最も優れていると判定された模範作業者は、付与対象文書に対し適切なラベルを付与している可能性が高いと考えられるので、S101で模範作業者から受信した訓練データ中の付与対象文書をここでの確認対象者の作業技能判定に用いる。以下に、確認対象者の作業技能が所定の水準に達しているか否かを判定する方法について説明する。
図14は、確認対象者の技能判定処理の一例を示すフローチャートである。
まず、判定部15は、模範作業者の作成した訓練データ中の付与対象文書を確認対象者に送信する(S501)。例えば、訓練データ作成支援装置10の判定部15は、模範作業者DBにアクセスし模範作業者を特定する。そして、判定部15は、訓練データDBに登録されたレコードの中からその模範作業者が作成した訓練データの付与対象文書を特定する。その後、判定部15は、特定した付与対象文書を確認対象者(端末装置30)宛に、送信部17を利用して送信する。なお、この付与対象文書と共にラベルの候補も確認対象者に送信される。ラベルの候補は、確認対象者全員に同じものが配布され、確認対象者が以前作成した訓練データ(図3のS101の処理で受信される訓練データ)とも同一のラベル候補である。
判定部15は、このように確認対象者に付与対象文書を送付することに伴い、模範作業者、送付した付与対象文書、確認対象者の各情報を確認対象者判定用DBに登録する。また、判定部15は、模範作業者に対して作業対象として配布した付与対象文書を特定した際に、その付与対象文書に対して模範作業者が付与したラベル付与結果を訓練データDBから取得し、確認対象者判定用DBに登録する。
確認対象者は、上述のように配布された付与対象文書とラベルの候補を受け取り、受け取った各付与対象文書にラベルを付与し訓練データを作成する。そして、確認対象者は、作成した訓練データを端末装置30から訓練データ作成支援装置10宛に送信する。
訓練データ作成支援装置10の受信部13は、端末装置30から送信された確認対象者の作成した訓練データを受信する(S502)。受信部13は、受信した訓練データを第2記憶部12の確認対象者判定用DBに格納する。受信部13は、確認対象者判定用DBへ訓練データを格納する際に、訓練データの文書ID、確認対象者の情報を基に、確認対象者判定用DBを検索して対応レコードを特定し、そのレコードに訓練データ内のラベル付与結果を登録する。なお、本訓練データは、確認対象者判定用のものであり、訓練データDBには追加しない。
続いて、判定部15は、受信部13による訓練データの受信と確認対象者判定用DBへの訓練データの登録が完了した後、確認対象者判定用DB内の各レコードにおける確認対象者によるラベル付与結果と模範作業者によるラベル付与結果の一致判定を行う(S503)。以下に、確認対象者判定用DBとラベル付与結果の一致判定処理について説明する。
図15は確認対象者判定用DBの一例を示す。図15に示すように、確認対象者判定用DBは、判定結果、模範作業者、模範作業者によるラベル付与結果、確認対象者、確認対象者によるラベル付与結果、文書ID、付与対象文書の各フィールドを有する。
確認対象者判定用DBにおけるフィールド「判定結果」は、フィールド「模範作業者によるラベル付与結果」とフィールド「確認対象者によるラベル付与結果」の比較結果を示す。例えば、フィールド「判定結果」の値が「1」の場合、フィールド「模範作業者によるラベル付与結果」とフィールド「確認対象者によるラベル付与結果」の内容が一致することを示す。また、例えば、その値が「0」の場合、フィールド「模範作業者によるラベル付与結果」とフィールド「確認対象者によるラベル付与結果」の内容が不一致であることを示す。
フィールド「模範作業者」は、図3のS103の処理において決定された模範作業者である作業者の識別情報を示す。従って、この模範作業者は、図13の模範作業者DBに登録されている作業者でもある。
フィールド「模範作業者によるラベル付与結果」は、後述するフィールド「文書ID」で示される付与対象文書を対象にした模範作業者によるラベル付与結果を示す。
フィールド「確認対象者」は、図3のS103の処理において確認対象者DBに登録された作業者の識別情報を示す。
フィールド「確認対象者によるラベル付与結果」は、図14のS501の処理において後述するフィールド「文書ID」で示される付与対象文書を確認対象者に送信し、図14のS502の処理によって受信された、確認対象者によって付与対象文書に対して付与されたラベルを示す。
フィールド「文書ID」は、図14のS501の処理において作業対象として確認対象者に送信したラベル付与対象文書の識別情報を示し、図14のS502の処理によって確認対象者から受信した、確認対象者によってラベル付与された対象文書を示す。
フィールド「付与対象文書」は、フィールド「文書ID」の識別情報に対応する文書であり、確認対象者に作業対象として配布したラベル付与対象文書の内容を示す。
この確認対象者判定用DBにおいて、フィールド「模範作業者によるラベル付与結果」、「文書ID」および「付与対象文書」には、図4に示す訓練データDBにおいて、フィールド「作業者」の情報が模範作業者の識別情報であるレコードの、フィールド「ラベル」、「文書ID」および「付与対象文書」に登録されている内容が登録(転記)される。
図16は、ラベル付与結果の一致判定処理の一例を示すフローチャートである。
判定部15は、確認対象者判定用DB内のレコードを選択する(S601)。例えば、判定部15は、確認対象者判定用DBのレコード順に従って、未だ選択されていないレコードを選択すればよい。
続いて、判定部15は、選択したレコードについて、フィールド「確認対象者によるラベル付与結果」とフィールド「模範作業者によるラベル付与結果」にそれぞれ登録されている内容を基に、確認対象者によるラベル付与結果と模範作業者によるラベル付与結果が一致するか否かを判定する(S602)。確認対象者によるラベル付与結果と模範作業者によるラベル付与結果が一致する場合(S602;肯定)、判定部15は判定結果として選択レコードのフィールド「判定結果」に値「1」を格納する(S603)。一方、確認対象者によるラベル付与結果と模範作業者によるラベル付与結果が一致しない場合(S602;否定)、判定部15は判定結果として選択レコードのフィールド「判定結果」に値「0」を格納する(S604)。
判定部15は、前述のようにして確認対象者と模範作業者によるラベル付与結果の一致判定を行い、判定結果を確認対象者判定用DBに格納した後、確認対象者判定用DBの中で未だ選択されていないレコードが存在するか否かを判定する(S605)。
未選択のレコードが存在する場合(S605;肯定)、判定部15は、S601に戻り、そのレコードを選択し、S602〜S604の処理を実行する。判定部15は、未選択のレコードが存在しなくなるまで、S601〜S605の処理を繰り返して実行する。一方、未選択のレコードが存在しない場合(S605;否定)、判定部15は、図16に示すフローチャートの処理を終了する。
次に、判定部15は、確認対象者DBの中から、ある確認対象者を選択する(図14のS504)。以降、このように確認対象者DBの中から選択される確認対象者を、確認判定対象者と呼称する。例えば、判定部15は、確認対象者DBのレコード順に従って、未選択の確認対象者を確認判定対象者として選択すればよい。
そして、判定部15は、確認判定対象者によるラベル付与結果と模範作業者によるラベル付与結果との一致度を算出する(S505)。以下に、ラベル付与結果の一致度判定処理について説明する。
図17は、ラベル付与結果の一致度判定処理の一例を示すフローチャートである。
判定部15は、確認対象者判定用DB内のレコードを選択する(S701)。例えば、判定部15は、確認対象者判定用DBのレコード順に従って、未だ選択されていないレコードを選択すればよい。なお、後述するレコード総数値および一致総数値はここで値「0」に初期化されればよい。
続いて、判定部15は、選択したレコードに登録されている訓練データを作成した確認対象者が確認判定対象者か否かを判定する(S702)。確認対象者が確認判定対象者である場合(S702;肯定)、判定部15は、レコード総数値をインクリメントする(S703)。つまり、現在のレコード総数値に1が加算された値が新たなレコード総数値となる。
続いて、判定部15は、選択したレコードにおけるフィールド「判定結果」の値が「1」であるか否か判定する(S704)。フィールド「判定結果」の値が「1」の場合(S704;肯定)、判定部15は、一致総数値をインクリメントする(S705)。
判定部15は、前述の処理の後、または、確認対象者が確認判定対象者ではないと判定された場合(S702;否定)、または、フィールド「判定結果」の値が「1」ではない場合(S704;否定)、確認対象者判定用DBの中で未選択のレコードが存在するか否かを判定する(S706)。
未選択のレコードが存在する場合(S706;肯定)、判定部15は、S701に戻り、そのレコードを選択し、S702〜S705の処理を実行する。判定部15は、未選択のレコードが存在しなくなるまで、S701〜S706の処理を繰り返して実行する。一方、未選択のレコードが存在しない場合(S706;否定)、判定部15は、レコード総数値と一致総数値を基に一致度を算出する。判定部15は、例えば、一致総数値をレコード総数値で除算して、レコード総数値に対する一致総数値の割合(パーセンテージ)を求め、それを一致度とすればよい。判定部15は、算出した一致度を図12の確認対象者DBにおける確認判定対象者とされた確認対象者に対応するレコードのフィールド「一致度」に登録する(S707)。判定部15は、確認対象者DBにおけるフィールド「確認対象者」の内容が現在の確認判定対象者である作業者の識別情報と一致するレコードを求め、そのレコードのフィールド「一致度」に算出した一致度を登録する。
以上のようにして判定対象者によるラベル付与結果と模範作業者によるラベル付与結果の一致度が求められ、判定部15は、その一致度が一致度の基準値を超えるか否かを判定する(図14のS506)。一致度の基準値は、期待する作業技能水準に応じて適宜の値が設定されればよい。
一致度が一致度の基準値を超えると判定された場合(S506;肯定)、判定部15は、確認対象者DBにおける確認判定対象者とされた確認対象者に対応するレコードのフィールド「判定結果」に値「1」を格納する(S507)。一方、一致度が一致度の基準値以下の場合(S506;否定)、判定部15は、確認対象者DBにおける確認判定対象者とされた確認対象者に対応するレコードのフィールド「判定結果」に値「0」を格納する(S508)。このように確認対象者DBにおいて、フィールド「判定結果」に値「1」が格納された確認対象者は、その作業技能が所定の水準を満たしていると判定されたことを示し、フィールド「判定結果」に「0」が格納された確認対象者は、その作業技能が所定の水準を満たしていないと判定されたことを示す。
判定部15は、前述のようにして判定対象者として選択された各確認対象者の作業技能の判定を行い、判定結果を確認対象者DBに格納した後、確認対象者DBの中で確認判定対象者として未選択の確認対象者(レコード)が存在するか否かを判定する(S509)。
未選択の確認作業者が存在する場合(S509;肯定)、判定部15は、S504に戻り、その確認作業者を確認判定対象者として選択し、S505〜S508の処理を実行する。判定部15は、未選択の確認作業者が存在しなくなるまで、S504〜S509の処理を繰り返して実行する。一方、判定部15は、未選択の確認対象者が存在しない場合(S509;否定)、判定部15は、確認対象者の作業技能判定処理が完了したものと判定し、図3のS106の処理に移行する。判定部15は、図3のS105による処理に基づき判定結果を出力する(S106)。また、確認対象者DBに作業者の情報が登録されていない場合も(S104;否定)、判定部15は、その結果をS106の処理において出力する。
例えば、判定部15は、判定結果として、確認対象者DBにおいてフィールド「判定結果」の値が「0」である作業者のリストを出力すればよい。このようにして出力されたリストは、作業技能が所定水準に達していないと判定される作業者を示す。また、判定部15は、判定結果として、確認対象者DBの内容そのものを出力してもよい。訓練データ作成支援装置10のユーザは、この出力された確認対象者DBの内容を基に、フィールド「判定結果」の値が「0」の作業者を作業技能が所定水準に達していない作業者として判断できる。さらに、判定部15は、判定結果として、作業者のリストとあわせて、該当する作業者が作成した訓練データの内容を出力してもよい。訓練データDBから、フィールド「作業者」の内容が該当する作業者の識別情報であるレコードを出力すればよい。訓練データ作成支援装置10のユーザは、出力された訓練データの内容を基に、実際に該当作業者がどのような付与対象文書にどのようなラベルを付与したのかを確認することができ、作業技能が所定水準に達していない作業者かどうかを判断できる。
本実施形態の処理によれば、訓練データを作成した作業技能が不明の各作業者の中から、その訓練データおよびその訓練データの作成のために配布済みの付与対象文書を使って、作業技能が所定水準に達していないと判定される作業者を特定することができる。そのようにして特定された作業者を除外することで、作業技能が高い作業者が特定され、そのような作業技能の高い作業者だけに訓練データの作成(付与対象文書へのラベル付与)を依頼することができる。そのようにして依頼した作業者からは品質の高い訓練データを入手でき、そのような訓練データを用いれば、文書分類を行うにあたって、分類精度の高い分類器(分類規則)を生成できる。
また、判定部15は、判定結果として、作業者のリストを出力するのではなく、訓練データDBの中から、作業技能が所定水準に達していない作業者によって作成された訓練データを削除し(フィールド「作業者」の内容がそのような作業者の識別情報であるレコードを削除し)、削除後の訓練データDBを出力するようにしてもよい。そのように出力された訓練データDBを用いることで、品質の高い訓練データから分類精度の高い分類器(分類規則)を生成できる。
なお、判定部15は、訓練データを削除するのではなく、作業技能が所定水準に達していないと判定される作業者によって作成された訓練データを使用不可とした訓練データDBを出力してもよい。例えば、訓練データDBに各訓練データの使用を制御可能とするフィールドを設け、そのフィールドの内容に基づいて使用する訓練データが決定され、決定された訓練データを基に分類器(分類規則)が生成されるようにしてもよい。このような形態でも、前述と同様に分類精度の高い分類器(分類規則)を生成できる。
以上のような本実施形態の処理によって特定された作業技能が所定水準に達していない作業者に、その作業者の作業技能を向上させるための教育を実施してもよい。それによって分類精度の高い分類器(分類規則)を生成のための作業者人数を確保できるようになる。
また、本実施形態においては、付与対象文書にラベル付与の作業を実施させる作業者の中から、その作業技能が所定水準に達していない作業者を特定するにあたり、技能判定用の文書を別途用意し各作業者が本来の訓練データ作成作業とは別に技能判定用の文書にラベル付与作業を行うことなく、その特定が可能となる。そのため、技能判定用の文書を準備する工数、および各作業者が技能判定用の文書にラベル付与作業を行う工数が発生することのない簡易な方法で、作業者の作業技能を判定することができる。
以上、本実施形態を示したがその変形例を以下に説明する。この変形例は、図3のS103の処理、つまり、図11の処理である確認対象者と模範作業者の抽出処理に関し、そのなかの確認対象者の抽出処理に関する。
図11の処理において、判定部15は、S402およびS403の処理により、判定結果DBの判定対象者対応のレコードにおける、全比較対象者のデータ数(比較対象者数)に対する、一致度の基準値以下のデータ数の割合を算出し、その割合と基準値以下割合の所定閾値とを比較して確認対象者を判定した。このとき、その割合が所定閾値を超える場合に、判定対象者は確認対象者と判定される。つまり、本実施形態の処理では、ある作業者の作業技能を判定する方法として、その作業者により作成された訓練データを基にして生成した分類器が他の作業により作成された訓練データを正しく分類できるか判定しているものである。
この処理に関し、変形例においては、ある作業者の作業技能を判定する方法として、その作業者により作成された訓練データの付与対象文書を対象とし、各作業者により作成された訓練データを基に生成された分類器が正しく分類できるかを判定してもよい。例えば、図11のS402の処理における、判定対象者に対応する一致度のデータを取得する際に、判定部15は、図10に示す判定結果DBから各レコードにおける判定対象者である作業者対応のフィールドのデータを抽出すればよい。
図10に示す判定結果DBの例では、前述のように、判定作業者として作業者A、BおよびCの一致度が登録されている。この図10に示す判定結果DBでは、作業者Aにより作成された訓練データの付与対象文書を対象に、各作業者A、BおよびCにより作成された訓練データを基に生成された各分類器を用いたときの一致度のデータは、100%(作業者A対応)、85%(作業者B対応)、10%(作業者C対応)の3つである。また、作業者Bにより作成された訓練データの付与対象文書を対象に、各作業者A、BおよびCにより作成された訓練データを基に生成された各分類器を用いたときの一致度のデータは、85%(作業者A対応)、100%(作業者B対応)、10%(作業者C対応)の3つである。また、作業者Cにより作成された訓練データの付与対象文書を対象に、各作業者A、BおよびCにより作成された訓練データを基に生成された各分類器を用いたときの一致度のデータは、50%(作業者A対応)、30%(作業者B対応)、90%(作業者C対応)の3つである。
前述の実施形態でのS403の判定処理における一致度の基準値を50%とし、基準値以下割合の所定閾値を50%とすると、基準値以下割合は、作業者Aについては33%(全3個のうち1個が一致度の基準値以下)、作業者Bについては33%(全3個のうち1個が一致度の基準値以下)、作業者Cについては67%(全3個のうち2個が一致度の基準値以下)の各割合となる。この結果、作業者Cに関する割合が基準値以下割合の所定閾値を超えるため、この変形例における確認対象者の抽出処理においては、判定部15は、作業者Cを確認対象者と判定し、確認対象者DBに作業者Cを示す識別情報を登録する。
なお、この変形例における模範作業者を抽出するための作業者のスコア(図11のS405の処理)も、この変形例における判定対象者に対応する一致度のデータの取得方法と同様にして、次のように計算すればよい。そして、スコアが最も高い作業者を模範作業者とすればよい。
上述のように作業者Cは確認対象者と判定されるため、作業者Aと作業者Bのスコアを計算すればよい。図10に示す判定結果DBでは、作業者Aについてスコアは195(100+85+10)と計算され、作業者Bについてスコアは195(85+100+10)と計算される。このように、スコアが同じ場合は、例えば、同じスコアとなる作業者のうち、先にスコア計算がされた作業者、もしくは最後にスコア計算がされた作業者を模範作業者とすればよい。
また、他の変形例として、前述の実施形態と前述の変形例を統合して、ある作業者の作業技能を判定するようにしてもよい。例えば、判定部15が、判定結果DBに登録されている、判定対象者として選択された作業者に関するすべての一致度のデータを用い、確認対象者か否かを判定してもよい。つまり、ある作業者対応のレコードの各フィールドのデータおよび各レコードにおけるある作業者対応のフィールドのデータをその判定に用いてもよい。
図10に示す判定結果DBの例では、前述のように、判定作業者として作業者A、BおよびCの一致度が登録されている。この図10に示す判定結果DBでは、作業者Aに関連する一致度のデータは、100%、85%、50%、85%、10%の5つが存在する。また、作業者Bに関連する一致度のデータは、85%、100%、30%、85%、10%の5つが判定結果DBに存在する。また、作業者Cに関連する一致度のデータは、10%、10%、90%、50%、30%の5つが判定結果DBに存在する。
前述の実施形態での判定における一致度の基準値を50%とし、基準値以下割合の所定閾値を50%とすると、基準値以下割合は、作業者Aについては40%(全5個のうち2個が一致度の基準値以下)、作業者Bについては40%(全5個のうち2個が一致度の基準値以下)、作業者Cについては60%(全5個のうち3個が一致度の基準値以下)の各割合となる。この結果、作業者Cに関する割合が所定閾値を超えるため、この変形例における確認対象者の抽出処理においては、判定部15は、作業者Cを確認対象者と判定し、確認対象者DBに作業者Cを示す識別情報を登録する。
この変形例においても、模範作業者を抽出するための作業者のスコア(図11のS405の処理)を、この変形例における判定対象者に対応する一致度のデータの取得方法と同様にして、次のように計算すればよい。そして、スコアが最も高い作業者を模範作業者とすればよい。
上述のように作業者Cは確認対象者と判定されるため、作業者Aと作業者Bのスコアを計算すればよい。図10に示す判定結果DBでは、作業者Aについてスコアは330(100+85+50+85+10)と計算され、作業者Bについてスコアは310(85+100+30+85+10)と計算される。従って、この変形例においては、スコアが高い作業者Aが模範作業者と判定される。
次に、他の実施形態を説明する。
図3のS105での確認対象者の作業技能を判定する処理において、確認対象者DBに登録されている作業者の作業技能が所定の水準に達していると判定された場合、図3のS101で受信されたその作業者により作成された訓練データの付与対象文書のなかに、ラベルの付与が難しい文書が含まれていた可能性がある。そこで、本実施形態では、模範作業者に対してそのような付与対象文書へのラベル付与作業を指示する構成を設けている。
図18は、他の実施形態における訓練データ作成支援システムの一例を示す。図18に示すように、訓練データ作成支援システムは、訓練データ作成支援装置100と複数の端末装置30とを有する。訓練データ作成支援装置100と複数の端末装置30とは、ネットワーク50を介して相互に通信可能に接続される。
訓練データ作成支援装置100は、訓練データの作成を支援する装置である。また、端末装置30は、訓練データを作成する各作業者が利用する端末装置である。端末装置30は、図1と同様である。
訓練データ作成支援装置100は、第1記憶部11、第2記憶部12、受信部13、分類器生成部14、分類処理部16、送信部17、出力部18、判定部19および付与指示部20を備える。訓練データ作成支援装置100において図1に示すデータ作成支援装置10と同様の構成については同一の符号を付し、その機能や処理の各説明を割愛する。また、判定部19は、後述する処理について判定部15と異なり、その他については判定部15と同様の処理を行う。判定部19における判定部15と同様の処理についてはその説明を割愛する。
また、訓練データ作成支援装置100は、図2と同様のハードウェア構成であり、訓練データ作成支援装置10と同様の前述の各部は、前述した訓練データ作成支援装置10の各部と同様の各ハードウェア要素に対応する。図18における判定部19および付与指示部20に対応するハードウェア要素は、図2のCPU61がその一例となる。訓練データ作成支援装置100を実現するための訓練データ作成支援プログラムは、前述の実施形態と同様にして実行され、訓練データ作成支援装置100の各機能が実現されるものであればよい。以下に、他の実施形態における、訓練データ作成支援装置100による訓練データ作成支援方法について説明する。
図19は、他の実施形態における訓練データ作成支援装置による訓練データ作成支援方法の一例を示すフローチャートである。図19中、図3と同様の処理については同一の符号を付し、その処理の説明を割愛する。なお、S105の処理の一例である図14の処理終了後は、S106ではなく図19のS800の処理に移行する。
判定部19は、S105の処理の後、模範作業者へのラベル付与を指示する(S800)。判定部19は、付与指示部20にその指示を行う。
図20は、模範作業者へのラベル付与指示処理の一例を示すフローチャートである。
付与指示部20は、作業技能の判定が行われた確認対象者のなかで作業技能が所定水準を満たしている確認対象者が存在するか否かを判定する(S802)。例えば、付与指示部20は、図12に示す確認対象者DBにおいてフィールド「判定結果」に値「1」が登録されたレコードが存在するか否かを判定すればよい。
作業技能が所定水準を満たしている確認対象者が存在しない場合(S802;否定)、図3のS106の処理に移行する。
一方、作業技能が所定水準を満たしている確認対象者が存在する場合(S802;肯定)、付与指示部20は、その確認対象者である作業者により作成された訓練データの付与対象文書のなかから、模範作業者への送信対象とする付与対象文書を特定する(S804)。
例えば、付与指示部20は、図7に示す判定作業用DBの中から、フィールド「比較対象者」に確認対象者である作業者の識別情報、フィールド「判定対象者」に模範作業者である作業者の識別情報がそれぞれ登録され、かつフィールド「判定結果」の値が「0」のレコードを特定すればよい。これによって、確認対象者によるラベル付与結果と模範作業者により作成された訓練データを基に生成した分類器によるラベル付与結果が異なるレコードが特定される。付与指示部20は、その特定されたレコードのフィールド「付与対象文書」に登録されている内容を送信対象の付与対象文書とすればよい。なお、判定作業用DBの中に前述の条件に合致する複数個のレコードが存在する場合、付与指示部20は、それらレコードのフィールド「付与対象文書」に登録されている内容を送信対象の付与対象文書とすればよい。また、作業技能が所定水準を満たす確認対象者が複数人存在する場合、付与指示部20は、各確認対象者を対象にして判定作業用DB内の各レコードを特定すればよい。
そして、付与指示部20は、特定した付与対象文書を模範作業者に送信してラベル付与を指示する(S806)。例えば、付与指示部20は、前述のようにして特定されたレコードにおけるフィールド「付与対象文書」に登録されている内容を送信部17により模範作業者(それに対応する端末装置30宛)に送信すればよい。なお、付与対象文書を送信する際に文書IDを含めておき、模範作業者により作成される訓練データにその文書IDが含まれるようにすればよい。また、模範作業者への付与対象文書の送信の際には、付与対象候補となるラベル(図3のS101で受信した訓練データと同一のラベル)も通知される。
その後、受信部13が、模範作業者によって作成された訓練データを端末装置30から受信し(S808)、その訓練データを図4に示す訓練データDBに格納する(S810)。例えば、受信部13は、訓練データDBの中から、フィールド「文書ID」に登録されている内容が受信された訓練データに含まれる文書IDと一致するレコードを特定すればよい。そして、受信部13は、特定したレコードにおけるフィールド「作業者」に模範作業者である作業者の識別情報を、同レコードにおけるフィールド「ラベル」に模範作業者によって付与されたラベル(訓練データに含まれるラベル)をそれぞれ登録すればよい。つまり、これによって訓練データDBの該当レコードは、模範作業者に関連する情報によって更新される。なお、訓練データDBの該当レコードについて、フィールド「ラベル」に既登録の内容と模範作業者によって付与されたラベルとを比較し、それらが一致する場合、受信部13は該当レコードを更新しなくてもよい。
以上の他の実施形態によれば、確認対象者によって作成された訓練データが確認対象者よりも作業技能が高いと判定される模範作業者によって作成された訓練データに置き換えられることによって、正しくラベルが付与された訓練データが増加する。その結果、前述の実施形態によって生成される分類器(分類規則)よりもさらに分類精度の高い分類器(分類規則)を生成できる。
なお、前述の他の実施形態では、作業技能が所定の水準に達していると判定された確認対象者によって作成された訓練データの付与対象文書のなかから、ラベルの付与が難しいと判定される文書のみを模範作業者に送信した。このような文書のみを模範作業者に送信するのではなく、そのような確認対象者によって作成された訓練データの付与対象文書すべてを模範作業者に送信するようにしてもよい。このようにすることで、正しくラベルが付与された訓練データがさらに増加し、さらに分類精度の高い分類器(分類規則)を生成できる。
次に、さらに他の実施形態を説明する。
内容の偏った付与対象文書が特定の作業者に作業対象として割り当てられて各作業者に付与対象文書が配布された場合、各作業者から受信した訓練データが正しいラベル付与結果であったとしても、その訓練データから生成された分類器が適切なラベル付与を行えない可能性がある。例えば、訓練データの作成に使用された付与対象文書と、その訓練データを基にして生成された分類器によってラベル付与がされる付与対象文書との内容が著しく相違する場合に、その分類器で使用される分類規則が有効に働かない可能性がある。このような場合、図3のS102の処理においてラベル付与結果の一致度判定を行っても、各作業者の作業技能を正確かつ公平に判定できなくなる可能性がある。
そこで、他の実施形態においては、ある作業者に特定の内容の付与対象文書が集中しないようにしながら、各作業者へ作業対象として配布する付与対象文書を決定する。
図21は、他の実施形態における訓練データ作成支援システムの一例を示す。図21に示すように、訓練データ作成支援システムは、訓練データ作成支援装置200と複数の端末装置30とを有する。訓練データ作成支援装置200と複数の端末装置30とは、ネットワーク50を介して相互に通信可能に接続される。
訓練データ作成支援装置200は、訓練データの作成を支援する装置である。また、端末装置30は、訓練データを作成する各作業者が利用する端末装置である。端末装置30は、図1と同様である。
訓練データ作成支援装置200は、第1記憶部11、第2記憶部12、受信部13、分類器生成部14、判定部15、分類処理部16、送信部17、出力部18、クラスタ生成部21および割当部22を備える。訓練データ作成支援装置200において図1に示すデータ作成支援装置10と同様の構成については同一の符号を付し、その機能や処理の各説明を割愛する。
クラスタ生成部21は、作業対象となる複数の付与対象文書を対象にしてクラスタ処理を実行する。このクラスタ処理によって、複数の付与対象文書それぞれは、その内容によって複数のカテゴリに分類される。
割当部22は、クラスタ生成部21の処理結果に基づいて各作業者に配布する付与対象文書を決定する。
なお、訓練データ作成支援装置200は、図2と同様のハードウェア構成であり、訓練データ作成支援装置10と同様の前述の各部は、前述した訓練データ作成支援装置10の各部と同様の各ハードウェア要素に対応する。図21におけるクラスタ生成部21および割当部22に対応するハードウェア要素は、図2のCPU61がその一例となる。訓練データ作成支援装置200を実現するための訓練データ作成支援プログラムは、前述の実施形態と同様にして実行され、訓練データ作成支援装置200の各機能が実現されるものであればよい。以下に、他の実施形態における、訓練データ作成支援装置200による訓練データ作成支援方法について説明する。
図22は、他の実施形態における訓練データ作成支援装置による訓練データ作成支援方法の一例を示すフローチャートである。図22中、図3と同様の処理については同一の符号を付し、その処理の説明を割愛する。
送信部17は、決定された付与対象文書を各作業者に送信する(S900)。図23は、付与対象文書の送信処理の一例を示すフローチャートである。
クラスタ生成部21は、送信対象の付与対象文書を取得する(S902)。例えば、クラスタ生成部21は、第2記憶部12内に予め格納されている付与対象文書を順次取得する。付与対象文書は、例えば前述のように、図4に示す訓練データDBの形態で第2記憶部12内に格納されていてもよい。その場合、訓練データDBの各フィールドのうち、フィールド「文書ID」およびフィールド「付与対象文書」に、各付与対象文書に関する情報が登録されればよい。
続いて、クラスタ生成部21は、取得した各付与対象文書の内容を基に、内容が類似する付与対象文書をまとめあげた複数のクラスタを生成する(S904)。クラスタの生成においては、k−meansなど種々の公知の手法が用いられればよい。また、例えば、付与対象文書が図4に示す訓練データDBの形態で第2記憶部12内に格納されている場合、クラスタを識別するための情報を登録するフィールドを訓練データDBに追加してもよい。以下、このフィールドをフィールド「クラスタID」と呼称する。そして、クラスタ生成部21は、訓練データDBにおける各付与対象文書対応のレコードのフィールド「クラスタID」に、生成したクラスタ識別情報を登録すればよい。内容が類似する付与対象文書には同じクラスタ識別情報が付与され、内容が相違する付与対象文書には異なるクラスタ識別情報が付与される。このようにすることで、付与対象文書とクラスタの関係情報が作成される。また、訓練データDBにフィールドを追加するのではなく、訓練データDBとは別に各付与対象文書(各文書ID)とクラスタの関係を示すテーブルなどの対応情報を作成し、それを利用するようにしてもよい。
割当部22は、クラスタ生成部21によって生成されたクラスタを基に、各作業者への割り当て付与対象文書を決定する(S906)。例えば、割当部22は、前述のようにしてフィールド「クラスタID」が追加された訓練データDBにおいて、フィールド「クラスタID」に同一のクラスタ識別情報が登録された複数の付与対象文書が複数の作業者に分散して割り当てられるよう、各作業者への割り当て付与対象文書を決定すればよい。例えば、各作業者に、同一クラスタ識別情報が登録された付与対象文書が同じ個数ずつ(均等に)割り当てられるようにすればよい。このようにすることで、同一クラスタ内、つまり内容が類似する付与対象文書が別の作業者に割り当てられ、ある作業者に特定の内容の付与対象文書が集中することが防止される。なお、このようにして各作業者への割り当て付与対象文書を決定した場合、割当部22は、訓練データDBのフィールド「作業者」に作業者を示す識別情報を登録すればよい。これにより、訓練データDBのレコード(各付与対象文書)ごとに付与対象文書の作業者が決定される。
割当部22は、各作業者へ付与対象文書の割り当て決定後、送信部17に付与対象文書の送信を指示する。
送信部17は、割当部22からの指示を受け、各作業者に前述のようにして決定された付与対象文書を送信する(S908)。例えば、送信部17は、訓練データDBの各レコードのフィールド「付与対象文書」に登録されている内容を同じレコードのフィールド「作業者」に登録されている識別情報で示される作業者に送信する。送信部17による作業者への付与対象文書の送信方法は前述の実施形態と同様であればよい。また、各作業者からの訓練データの受信およびその後の処理は前述の実施形態と同様であればよい。
以上の他の実施形態によれば、ある作業者に特定の内容の付与対象文書が集中しないように各作業者に付与対象文書を均等に割り当てることができるため、訓練データの偏りによる分類器の性能低下を防ぐことができ、作業者の作業技能を適正に判定することができる。なお、本実施形態における訓練データ作成支援装置200における判定部15は、図18の訓練データ作成支援装置100における判定部19であってもよい。
以上、本発明の好ましい実施例について詳述したが、本発明は特定の実施例に限定されるものではなく、種々の変形や変更を行ってもよい。
例えば、図4に例示した訓練データDBは、作業者、ラベル、文書ID、および付与対象文書の各フィールドを有するが、これら情報が異なるDBが分かれる形態であってもよい。例えば、訓練データDBが作業者、ラベルおよび文書IDの各フィールドを有し、他のDBが文書IDと付与対象文書の各フィールドを有する構成であってもよい。これらDB間では、フィールド「文書ID」をキーにしてレコードが関連付けされる。または、訓練データDBがシリアル番号、作業者およびラベルの各フィールドを有し、他のDBがシリアル番号、文書IDおよび付与対象文書の各フィールドを有する構成であってもよい。この場合には、これらDB間では、フィールド「シリアル番号」をキーにしてレコードが関連付けされる。
また、本発明の実施形態は、ラベル付与対象を文書としたが、それに限られるものではない。例えば、画像や動画、音声データ、ユーザアカウント等、その他のデータをラベル付与対象にしてもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
コンピュータに、
第1データを対象にして第1作業者の作業により作成された第1訓練データと、第2データを対象にして第2作業者の作業により作成された第2訓練データを用いた機械学習により生成された第1規則データに従って前記第1データを対象にして生成された第1処理結果データとに基づき、前記第1作業者または前記第2作業者の作業技能を判定する、
ことを実行させるためのプログラム。
(付記2)
前記コンピュータに、
前記第1訓練データと、前記第1処理結果データと、第3データを対象にして第3作業者の作業により作成された第3訓練データと、前記第3データを対象にして前記第1規則データに従って生成された第2処理結果データとに基づき、前記第2作業者の作業技能を判定する、
ことを実行させるための付記1記載のプログラム。
(付記3)
前記コンピュータに、
前記第1訓練データと、前記第1処理結果データと、第3データを対象にして第3作業者の作業により作成された第3訓練データを用いた機械学習により生成された第2規則データに従って前記第1データを対象にして生成された第2処理結果データとに基づき、前記第1作業者の作業技能を判定する、
ことを実行させるための付記1記載のプログラム。
(付記4)
前記コンピュータに、
前記第2訓練データと、前記第1訓練データを用いた機械学習により生成された第2規則データに従って前記第2データを対象にして生成された第2処理結果データとに基づき、前記第1作業者または前記第2作業者の作業技能を判定する、
ことを実行させるための付記1記載のプログラム。
(付記5)
前記コンピュータに、
前記第1訓練データと前記第1処理結果データとの一致度に基づき、前記第1作業者または前記第2作業者の作業技能を判定する、
ことを実行させるための付記1記載のプログラム。
(付記6)
前記コンピュータに、
前記第1訓練データと前記第1処理結果データとの第1の一致度および前記第3訓練データと前記第2処理結果データとの第2の一致度に基づき、前記第2作業者の作業技能を判定する、
ことを実行させるための付記2記載のプログラム。
(付記7)
前記コンピュータに、
前記第1の一致度および前記第2の一致度と基準値との関係に基づき、前記第2作業者の作業技能を判定する、
ことを実行させるための付記6記載のプログラム。
(付記8)
前記コンピュータに、
前記第1訓練データと前記第1処理結果データとの第1の一致度および前記第1訓練データと前記第2処理結果データとの第2の一致度に基づき、前記第1作業者の作業技能を判定する、
ことを実行させるための付記3記載のプログラム。
(付記9)
前記コンピュータに、
前記第1の一致度および前記第2の一致度と基準値との関係に基づき、前記第1作業者の作業技能を判定する、
ことを実行させるための付記8記載のプログラム。
(付記10)
前記コンピュータに、
前記第1訓練データと前記第1処理結果データとの第1の一致度および前記第2訓練データと前記第2処理結果データとの第2の一致度に基づき、前記第1作業者または前記第2作業者の作業技能を判定する、
ことを実行させるための付記4記載のプログラム。
(付記11)
前記コンピュータに、
前記第1の一致度および前記第2の一致度と基準値との関係に基づき、前記第1作業者または前記第2作業者の作業技能を判定する、
ことを実行させるための付記10記載のプログラム。
(付記12)
前記コンピュータに、
前記第1作業者の作業技能が前記第2作業者の作業技能より高いと判定される場合は前記第2データを対象にした作業を前記第1作業者に依頼し、一方、前記第2作業者の作業技能が前記第1作業者の作業技能より高いと判定される場合は前記第1データを対象にした作業を前記第2作業者に依頼する、
ことを実行させるための付記1乃至11のいずれか1つに記載のプログラム。
(付記13)
前記コンピュータに、
内容の類似性に基づいて複数のデータを対象にしてクラスタ処理を実行し、
異なるクラスタに分類されたデータをそれぞれが含むよう前記複数のデータのなかから前記第1データおよび前記第2データを決定し、
前記決定に基づいて、前記第1データを対象にした作業を前記第1作業者に依頼し、前記第2データを対象にした作業を前記第2作業者に依頼する、
ことを実行させるための付記1乃至12のいずれか1つに記載のプログラム。
(付記14)
前記作業は、対象データの内容に応じて前記対象データにラベルを付与することであり、
前記第1訓練データ、前記第2訓練データおよび前記第1処理結果データはラベル付与結果データである、
付記1乃至13のいずれか1つに記載のプログラム。
(付記15)
前記第1データと前記第2データは異なるデータである、付記1乃至14のいずれか1つに記載のプログラム。
(付記16)
前記第1作業者と前記第2作業者は異なる作業者である、付記1乃至15のいずれか1つに記載のプログラム。
(付記17)
前記第1作業者と前記第2作業者は同一の作業者である、付記1乃至15のいずれか1つに記載のプログラム。
(付記18)
第1データを対象にして第1作業者の作業により作成された第1訓練データと、第2データを対象にして第2作業者の作業により作成された第2訓練データとを受信する受信部と、
前記第2訓練データを用いた機械学習により規則データを生成する生成部と、
前記第1訓練データと、前記規則データに従って前記第1データを対象にして作成された処理結果データとに基づき、前記第1作業者または前記第2作業者の作業技能を判定する判定部と、
を有することを特徴とするコンピュータ。
(付記19)
コンピュータで実行される訓練データ作成支援方法において、
第1データを対象にして第1作業者の作業により作成された第1訓練データと、第2データを対象にして第2作業者の作業により作成された第2訓練データを用いた機械学習により生成された第1規則データに従って前記第1データを対象にして生成された第1処理結果データとに基づき、前記第1作業者または前記第2作業者の作業技能を判定する、
ことを特徴とする訓練データ作成支援方法。
10:訓練データ作成支援装置
11:第1記憶部
12:第2記憶部
13:受信部
14:分類器生成部
15:判定部
16:分類処理部
17:送信部
18:出力部
100:訓練データ作成支援装置
19:判定部
20:付与指示部
200:訓練データ作成支援装置
21:クラスタ生成部
22:割当部
30:端末装置
50:ネットワーク
61:CPU
62:ROM
63:RAM
64:ストレージ装置
65:ネットワークインタフェース
66:可搬型記憶媒体用ドライブ
67:バス
68:可搬型記憶媒体

Claims (9)

  1. コンピュータに、
    第1データを対象にして第1作業者の作業により作成された第1訓練データに付与された第1のラベルと、第2データを対象にして第2作業者の作業により作成された第2訓練データを用いた機械学習により生成された第1規則データに従って前記第1データを対象にして生成された第1処理結果データに付与された第2のラベルとの一致度と、
    第3データを対象にして第3作業者の作業により作成された第3訓練データに付与された第3のラベルと、前記第3データを対象にして前記第1規則データに従って生成された第2処理結果データに付与された第4のラベルとの一致度と
    の偏りに基づき、前記第2作業者の作業技能を判定する、
    ことを実行させるためのプログラムであって、
    前記第1訓練データ、前記第2訓練データ、前記第3訓練データのそれぞれは、機械学習による分類規則データの生成に用いられる複数の訓練データに含まれる、
    プログラム
  2. 前記コンピュータに、
    前記第1のラベルと、前記第2のラベルとの一致度と、
    前記第1のラベルと、前記第3データを対象にして前記第3作業者の作業により作成された前記第3訓練データを用いた機械学習により生成された第2規則データに従って、前記第1データを対象にして生成された前記第2処理結果データに付与された第5のラベルとの一致度と
    の偏りに基づき、前記第1作業者の作業技能を判定する、
    ことを実行させるための請求項1記載のプログラム。
  3. 前記コンピュータに、
    前記複数の訓練データから前記第1訓練データ、前記第2訓練データ、および前記第3訓練データの組み合わせを複数抽出し、
    複数の前記抽出した組み合わせを用いて、前記第1作業者または前記第2作業者の作業技能を判定する、
    ことを実行させるための請求項2記載のプログラム。
  4. 前記コンピュータに、
    前記第1作業者の作業技能が前記第2作業者の作業技能より高いと判定される場合は前記第2データを対象にした作業を前記第1作業者に依頼し、一方、前記第2作業者の作業技能が前記第1作業者の作業技能より高いと判定される場合は前記第1データを対象にした作業を前記第2作業者に依頼する、
    ことを実行させるための請求項1乃至3のいずれか1項に記載のプログラム。
  5. 前記コンピュータに、
    内容の類似性に基づいて、複数のデータを対象にして、前記複数のデータの各々にクラスタを識別する識別情報を付与するクラスタ処理を実行し、
    前記識別情報に基づいて、同一のクラスタに分類されたデータが複数の作業者に分散して割り当てられるよう、前記複数のデータの中から前記第1データおよび前記第2データを決定し、
    前記決定に基づいて、前記第1データを対象にした作業を前記複数の作業者の中の前記第1作業者に依頼し、前記第2データを対象にした作業を前記複数の作業者の中の前記第2作業者に依頼する、
    ことを実行させるための請求項1乃至4のいずれか1項に記載のプログラム。
  6. 前記複数の訓練データを作成した複数の作業者の中から選定される前記第1作業者、前記第2作業者および前記第3作業者の全ての組み合わせについて、前記第1のラベルと前記第2のラベルとの一致度と、前記第3のラベルと前記第4のラベルとの一致度とを判定することを特徴とする、請求項1乃至5のいずれか1項に記載のプログラム。
  7. 前記複数の訓練データは、分類器を生成する際に用いられるデータであることを特徴とする、請求項1乃至6のいずれか1項に記載のプログラム。
  8. 第1データを対象にして第1作業者の作業により作成された第1訓練データと、第2データを対象にして第2作業者の作業により作成された第2訓練データと、第3データを対象にして第3作業者の作業により作成された第3訓練データとを受信する受信部と、
    前記第2訓練データを用いた機械学習により第1規則データを生成する生成部と、
    前記第1訓練データに付与された第1のラベルと、前記第1規則データに従って前記第1データを対象にして生成された第1処理結果データに付与された第2のラベルとの一致度と、前記第3訓練データに付与された第3のラベルと、前記第3データを対象にして前記第1規則データに従って生成された第2処理結果データに付与された第4のラベルとの一致度との偏りに基づき、前記第2作業者の作業技能を判定する判定部と、
    を有し、
    前記第1訓練データ、前記第2訓練データ、前記第3訓練データのそれぞれは、機械学習による分類規則データの生成に用いられる複数の訓練データに含まれる、
    ことを特徴とするコンピュータ。
  9. コンピュータによって実行される訓練データ作成支援方法において、
    第1データを対象にして第1作業者の作業により作成された第1訓練データに付与された第1のラベルと、第2データを対象にして第2作業者の作業により作成された第2訓練データを用いた機械学習により生成された第1規則データに従って前記第1データを対象にして生成された第1処理結果データに付与された第2のラベルとの一致度と、
    第3データを対象にして第3作業者の作業により作成された第3訓練データに付与された第3のラベルと、前記第3データを対象にして前記第1規則データに従って生成された第2処理結果データに付与された第4のラベルとの一致度と
    の偏りに基づき、前記第2作業者の作業技能を判定し、
    前記第1訓練データ、前記第2訓練データ、前記第3訓練データのそれぞれは、機械学習による分類規則データの生成に用いられる複数の訓練データに含まれる、
    ことを特徴とする訓練データ作成支援方法。
JP2013194168A 2013-09-19 2013-09-19 プログラム、コンピュータおよび訓練データ作成支援方法 Active JP6307822B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013194168A JP6307822B2 (ja) 2013-09-19 2013-09-19 プログラム、コンピュータおよび訓練データ作成支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013194168A JP6307822B2 (ja) 2013-09-19 2013-09-19 プログラム、コンピュータおよび訓練データ作成支援方法

Publications (2)

Publication Number Publication Date
JP2015060432A JP2015060432A (ja) 2015-03-30
JP6307822B2 true JP6307822B2 (ja) 2018-04-11

Family

ID=52817895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013194168A Active JP6307822B2 (ja) 2013-09-19 2013-09-19 プログラム、コンピュータおよび訓練データ作成支援方法

Country Status (1)

Country Link
JP (1) JP6307822B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6496274B2 (ja) * 2016-05-27 2019-04-03 ファナック株式会社 寿命故障条件を学習する機械学習装置,故障予知装置,機械システムおよび機械学習方法
EP3432198B1 (en) * 2017-07-19 2024-04-17 Tata Consultancy Services Limited Crowdsourcing and deep learning based segmenting and karyotyping of chromosomes
JP7236694B2 (ja) * 2018-08-02 2023-03-10 パナソニックIpマネジメント株式会社 情報処理方法、及び情報処理システム
KR102611952B1 (ko) 2018-10-30 2023-12-11 삼성전자주식회사 로봇의 행동을 제어하는 정책을 갱신하는 방법 및 그 방법을 수행하는 전자 장치
JP7231785B2 (ja) * 2020-11-27 2023-03-01 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7189922B2 (ja) * 2020-11-27 2022-12-14 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11353365A (ja) * 1998-06-10 1999-12-24 Mitsubishi Electric Corp 工程管理方法および工程管理装置
JP2006127446A (ja) * 2004-09-29 2006-05-18 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2009110064A (ja) * 2007-10-26 2009-05-21 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
JP2009282686A (ja) * 2008-05-21 2009-12-03 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
JP2015004996A (ja) * 2012-02-14 2015-01-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数の文書をクラスタリングする装置

Also Published As

Publication number Publication date
JP2015060432A (ja) 2015-03-30

Similar Documents

Publication Publication Date Title
JP6307822B2 (ja) プログラム、コンピュータおよび訓練データ作成支援方法
US20220391773A1 (en) Method and system for artificial intelligence learning using messaging service and method and system for relaying answer using artificial intelligence
CN106133727B (zh) 通过知识库促进的用户兴趣
US20180239832A1 (en) Method for determining news veracity
US20180203835A1 (en) Generating a form response interface in an online application
US10373273B2 (en) Evaluating an impact of a user's content utilized in a social network
WO2019061989A1 (zh) 贷款风险控制方法、电子装置及可读存储介质
US10339150B1 (en) Scalable dynamic acronym decoder
EP3021264A1 (en) Information recommendation method and apparatus in social media
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
US20160092768A1 (en) Providing application recommendations
CN105721629B (zh) 用户标识匹配方法和装置
CN105264555A (zh) 评估控制
US10719529B2 (en) Presenting a trusted tag cloud
JP2013164704A (ja) 情報処理装置、情報処理方法およびプログラム
KR101346927B1 (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
WO2016099447A1 (en) Personalized application recommendations
CN115809371A (zh) 基于数据分析的学习需求确定方法及系统
WO2021133471A1 (en) Skill determination framework for individuals and groups
CN107004167A (zh) 公开招聘标准化和重复数据删除
US20150193683A1 (en) Assisting an expert to answer preexisting questions in a time efficient manner
JP6963372B2 (ja) 名刺情報管理システムおよび検索結果表示プログラム
US20180039943A1 (en) Systems and methods for matching based on data collection
KR20200012086A (ko) 사용자 간의 관계와 사용자 성향을 고려한 채팅 서비스 내 대화 내용에서의 사용자 맞춤형 키워드 추출 시스템
JP2019053520A (ja) 提供装置、提供方法及び提供プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180226

R150 Certificate of patent or registration of utility model

Ref document number: 6307822

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150