JP5946073B2

JP5946073B2 - 推定方法、推定システム、コンピュータ・システムおよびプログラム

Info

Publication number: JP5946073B2
Application number: JP2014226645A
Authority: JP
Inventors: 新齋藤; 俊大渡邉; 利生井床; 正朋小林
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2016-07-05
Anticipated expiration: 2034-11-07
Also published as: JP2016091395A; US9721221B2; US20160132815A1

Description

本発明は、複数のワーカが行った作業結果を統合する処理に関し、より詳細には、複数のワーカが行った作業結果を統合する処理におけるワーカの能力を推定するための推定方法、推定システム、コンピュータ・システムおよびプログラムに関する。

近年、不特定多数のワーカに作業を委託する、クラウドソーシングが注目されている。クラウドソーシングでは、多数のワーカに同一のタスクを行ってもらい、その作業結果を統合して、タスクの統合された作業結果を得る。適切に統合を行うことにより、より高い品質の作業結果を得ることができる。

多数のワーカからの答えを統合して正しい答えを得ようとする場合、簡便には、多数決によって答えを決定する方法が考えられる。しかしながら、単なる多数決では、各ワーカの正解率の差が無視されることになる。そこで、ワーカのスキル（例えば正解率）やタスク難易度を見積もることにより、重み付け統合を行い、得られる答えの精度を改善する技術が提案されている（非特許文献１，非特許文献２，特許文献１）。

しかしながら、上記非特許文献１、非特許文献２および特許文献１に開示される従来技術では、個々のワーカがタスクに対して最初から答えを作成することが前提となっている。したがって、前段のワーカの作業結果に基づいて後段のワーカが作業するような順次的なワークフローには、充分に対応することができなかった。例えば、非特許文献３では、音声または映像に対する書き起こしの業務に関して、ＡＳＲ（Automatic Speech Recognition）の結果に基づいて修正するモードが開示されている。非特許文献４では、書籍の電子化の作業に関して、ＯＣＲ（Optical Character Recognition）の結果を人が修正するようなワークフローが開示されている。

上述したワークフローでは、前段ワーカの答えが目に入ることによって、後段のワーカが影響を受ける可能性がある。例えば、自動認識結果を信じやすく誤認識を修正しない傾向のあるワーカや、反対に、疑い深く正しい認識をも過剰に修正してしまう傾向のあるワーカが存在することが考えられる。

上述した背景から、同一のタスクに関し、前段ワーカの作業結果に基づいて後段ワーカが作業し、これらのワーカの作業結果を統合するワークフローにおいて、ワーカの振る舞いおよびスキルをより正確に推定し、より精度の高い統合を行える技術の開発が求められていた。

特開２０１４−０７４９６６号公報

A. P. Dawid, et al.，"Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm."，Applied Statistics，20-28，1979． J. Whitehill, et al.，"Whose Vote Should Count More?: Optimal Integration of Labels from Labelers of Unknown Expertise."，NIPS，Vol. 22，pp. 2035-2043，2009，December． H. Kacorri, et al.，"Introducing Game Elements in Crowdsourced Video Captioning by Non-Experts."，Proceedings of the 11th Web for All Conference，p. 29，ACM, 2014 April． M. Kobayashi, et al.，"Age-Based Task Specialization for Crowd sourced Proofreading."， Universal Access in Human-Computer Interaction. User and Context Diversity， pp. 104-112，Springer Berlin Heidelberg，2013．

本発明は、上記従来技術における不充分な点に鑑みてなされたものであり、本発明は、前段ワーカの作業結果の品質に応じて変動し得る後段ワーカの能力を推定することができる、推定方法、推定システム、コンピュータ・システムおよびプログラムを提供することを目的とする。本発明の他の目的は、前段ワーカの作業結果の品質に応じて変動し得る後段ワーカの能力を推定しながら、複数のワーカの作業結果を統合する処理を行うためのプログラムを提供することである。

本発明は、上記課題を解決するために、下記特徴を有する推定方法を提供する。推定方法では、コンピュータ・システムは、１以上のタスク各々に関し、前段のワーカの作業結果と、該前段のワーカの作業結果に基づいて作業する後段のワーカの作業結果とを取得する。そして、コンピュータ・システムは、上記１以上のタスク各々に関して得られた複数の作業結果に基づき、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルの複数のパラメータを推定する。これにより、同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定する。

また、本発明によれば、同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定するための推定システムが提供される。推定システムは、１以上のタスク各々に関し、前段のワーカの作業結果と、該前段のワーカの作業結果に基づいて作業する後段のワーカの作業結果とを取得する取得部を含み構成される。推定システムは、上記１以上のタスク各々に関して得られた複数の作業結果に基づき、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルの複数のパラメータを推定する推定部をさらに含み構成される。

さらに、本発明によれば、プロセッサと、プロセッサと通信するメモリとを含む、同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定するためのコンピュータ・システムが提供される。コンピュータ・システムのプロセッサは、１以上のタスク各々に関し、前段のワーカの作業結果と、後段のワーカの作業結果とを取得し、これらの複数の作業結果に基づき、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルの複数のパラメータを推定するよう構成される。さらにまた、本発明によれば、同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定するためのコンピュータ可読なプログラムが提供される。

また、さらに本発明によれば、同一のタスクに関する複数のワーカの作業結果を統合するためのコンピュータ可読なプログラムが提供される。本プログラムは、コンピュータ・システムを、タスクに関し、前段のワーカの作業結果を１以上の後段のワーカに対し提示するとともに、１以上の後段のワーカ各々からの作業結果を受け付ける受付部、および、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルに基づいて、複数のワーカの作業結果を統合した結果として、タスクに対し得られるべき作業結果を推定する結果統合部として機能させる。

上記構成により、前段ワーカの作業結果の品質に応じて変動し得る後段ワーカの能力を推定することができるようになる。さらに、前段ワーカの作業結果の品質に応じて変動し得る後段ワーカの能力を推定しながら、複数のワーカの作業結果を統合する処理を行うことができるようになる。

なお、本発明の他の効果および利点は、添付の図面と併せて説明される以下の詳細な説明から把握されるであろう。

本発明の実施形態による作業結果統合システムのネットワーク構成図。本発明の実施形態による作業結果統合システムのブロック図。本発明の特定の実施形態においてワーカ端末に表示される日本語の文字認識結果の校正を行うための文字校正インタフェース画面を例示する図。本発明の特定の実施形態においてワーカ端末に表示される英字の文字認識結果の校正を行うための文字校正インタフェース画面を例示する図。本発明の実施形態による作業結果統合システムで用いられる、順次的ワークフローをモデル化した確率的生成モデルを説明する図。本発明の実施形態における作業結果統合システムにおいて実行されるパラメータ推定方法を示すフローチャートである。本発明の実施形態による管理サーバを実現するコンピュータ装置の概略的なハードウェア構成図。実験例１〜実験例７でワーカ間で回答が割れたタスク集合について算出した精度を示す横棒グラフ。（Ａ）実験例９のワーカの正解率ｓ_ｉ、（Ｂ）実験例８のワーカの前段が正解した場合の正解率α_ｉおよび（Ｃ）実験例８のワーカの前段が不正解の場合の正解率β_ｉの推定値および実測値を並べて示す縦棒グラフ。

以下、本発明の実施形態について説明するが、本発明の実施形態は、以下に説明する実施形態に限定されるものではない。なお、以下に説明する実施形態では、推定システムとして、ワーカの能力を推定するとともに、複数のワーカの作業結果の統合を行う作業結果統合システム１００を一例として説明する。

図１は、本発明の実施形態による作業結果統合システム１００のネットワーク構成を例示する図である。図１に示す作業結果統合システム１００は、ネットワーク１０２を介して１以上のワーカ端末１０４ａ〜１０４ｚと通信する管理サーバ１１０を含み構成される。ここで、ネットワーク１０２は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、３Ｇ回線網、ＬＴＥ（Long Term Evolution）回線網、インターネットなどの有線または無線の如何なるネットワークを含むことができる。

ワーカ端末１０４は、それぞれ、管理サーバ１１０から振り分けられたタスクを処理するワーカが操作する端末である。ワーカ端末１０４は、特に限定されるものではないが、パーソナル・コンピュータ、タブレット・コンピュータ、スマートフォンなどの情報端末とすることができる。

管理サーバ１１０は、ワーカ各々に対しタスクを振り分け、ワーカ各々からのタスクに対する作業結果を収集する。説明する実施形態では、管理サーバ１１０は、同一タスクを複数のワーカに冗長に振り分け、複数のワーカ各々からの作業結果を統合し、タスクに対する最終的な作業結果を生成することができる。

ここで、タスクは、特に限定されるものではないが、画像処理タスク、音声処理タスク、テキスト処理タスクなどの種々の情報処理タスクとすることができる。画像処理タスクとしては、例えば、画像から文字やテキストを抽出する文字認識タスクや、画像の種類を分類する画像分類タスクなどを挙げることができる。音声処理タスクとしては、音声データや動画データなどの音声付きデータから文字やテキストを書き起こす音声認識タスクや、音声の種類を分類する音声分類タスクなどを挙げることができる。テキスト処理タスクとしては、文章の校正タスクや、言語間の翻訳タスクやメッセージや記事などの情報にメタデータを付与するメタデータ付与タスクなどを挙げることができる。

管理サーバ１１０は、ワーカに振り分けるためのタスクを記述するタスクデータ１１２を格納する。上述した文字認識タスクを例に説明すると、タスクデータには、書籍等からスキャンした文字やテキストが含まれる画像部分の画像データが含まれる。また音声認識タスクを例に説明すると、タスクデータには、通話音声や講義映像などを収録した発話を含む音声部分の音声データが含まれる。他の種類のタスクについては、これ以上詳細には立ち入らない。

管理サーバ１１０は、ワーカ端末１０４各々から送信されたタスクに対する作業結果を受信すると、タスクログ１１４として格納する。タスクログ１１４は、１以上のタスク各々について、１以上のワーカ各々から得られた作業結果を含む。文字認識タスクを例に説明すると、作業結果には、画像データから認識された文字やテキストなどが含まれる。また、音声認識タスクを例に説明すると、音声付きデータから書き起こされた文字やテキストなどが作業結果に含まれる。

管理サーバ１１０は、タスクログ１１４に含まれるタスク各々の複数のワーカの作業結果を統合し、該当タスクを担当したワーカの総意として、統合された作業結果を生成し、成果物データ１１６として格納する。成果物データ１１６には、文字認識タスクや音声認識タスクを例に説明すると、総意として推定された文字やテキストが含まれる。

図１に示す作業結果統合システム１００では、管理サーバ１１０には、さらに、ネットワーク１０２を介して、１以上のエンドユーザ端末１０６ａ，１０６ｂが接続されている。エンドユーザ端末１０６は、それぞれ、成果物データ１１６を利用するエンドユーザが操作する端末である。エンドユーザは、エンドユーザ端末１０６を操作し、成果物データ１１６にアクセスすることにより、成果物を利用することができる。一例では、エンドユーザは、書籍を電子化して得られたテキスト付き画像データとして構成された成果物データ１１６を利用することができる。

上述したような、複数のワーカからの同一タスクに対する冗長な複数の作業結果を統合し、最終的な成果物を得るシステムでは、ワーカの能力を適切に推定することが重要となる。ワーカによって、作業結果の品質にばらつきがあるためである。

複数の作業結果を統合する方法としては、多数決や、ワーカの能力に応じた重み付け評価などを行うことができる。例えば、ワーカ毎の正解率として、ワーカの能力を推定することができる。しかしながら、前段ワーカの作業結果に基づいて後段ワーカが作業するような順次的なワークフローでは、上述したワーカ毎の正解率では、ワーカの能力や振る舞いを充分に評価しきれない可能性がある。前段ワーカの作業結果が目に入ることによって、後段のワーカの作業結果が影響を受ける可能性があるためである。このため、上述した影響を適切にモデル化することが、統合された作業結果の品質を向上する上で重要となる。

例えば、前段ワーカの作業結果を信じやすく誤りを修正しない傾向のあるワーカや、反対に、疑い深く正しい結果に対しても過剰に修正してしまう傾向のあるワーカが存在する可能性がある。前段作業結果の影響を受けてしまう後段ワーカの能力を、前段ワーカの作業結果の品質に応じて見積もり、上述した傾向のあるワーカの振る舞いを適切にモデル化することで、より精度の高い統合が行える可能性がある。

そこで、本発明の実施形態による作業結果統合システム１００では、管理サーバ１１０は、前段ワーカの作業結果の品質で条件付けた後段ワーカの能力をパラメータとして導入した確率モデルを用いて、前段作業結果の品質に応じて変動し得る後段ワーカの能力を推定する。これにより、前段作業結果の品質に依存した後段ワーカの振る舞いおよびスキルをより正確に推定し、統合の精度向上を図る。

以下、図２を参照しながら、本発明の実施形態による作業結果統合システム１００における作業結果統合処理について説明する。

図２は、本発明の実施形態による作業結果統合システム１００の構成を示すブロック図である。図２に示すように、作業結果統合システム１００の機能ブロック２００は、自動認識部２１０と、作業結果受付部２２０と、作業結果統合部２３０とを含み構成される。図２に示す機能部２１０，２２０，２３０は、典型的には、管理サーバ１１０上で実現される。

自動認識部２１０は、コンピュータの演算能力によりタスクデータを自動認識処理し、作業結果受付部２２０に対し自動認識結果を出力する。自動認識部２１０は、文字認識タスクであれば、ＯＣＲ（Optical Character Recognition）エンジンであり、音声認識タスクであればＡＳＲ（Automatic Speech Recognition）エンジンである。自動認識部２１０は、説明する実施形態では、前段ワーカとして動作することができる。

作業結果受付部２２０は、ワーカが操作するワーカ端末１０４がアクセスし、ワーカがタスクを処理する作業を行うためのユーザ・インタフェースを提供する。ワーカ端末１０４のワーカは、前段ワーカまたは後段ワーカのいずれかまたは両方となることができる。

作業結果受付部２２０は、ワーカ端末１０４に対し振り分けるタスクデータ１１２を送信し、そのワーカに対し、タスクに対する作業を依頼する。その際に、作業結果受付部２２０は、ワーカ端末１０４に対し、該当タスクについて既に得られている前段ワーカの作業結果（自動認識部２１０による自動認識結果を含む。）を提示することができる。作業結果受付部２２０は、ワーカ端末１０４からのタスクに対する作業結果を受け付け、ワーカを識別する識別情報に紐付けてタスクログ１１４として格納する。作業結果受付部２２０は、また、自動認識部２１０から入力される自動認識結果を受け付けると、前段ワーカからの作業結果として、タスクログ１１４に記録する。

作業結果統合部２３０は、蓄積された１以上のタスクのタスクログ１１４を読み出し、所定の確率モデルに基づいて、ワーカの能力を推定するとともに、タスクに対し得られるべき作業結果を推定し、成果物データ１１６を生成する。作業結果統合部２３０は、より詳細には、取得部２３２と、パラメータ推定部２３４と、出力部２３６とを含み構成される。

取得部２３２は、蓄積されたタスクログ１１４を読み出して、１以上のタスク各々に関する前段ワーカおよび後段ワーカの作業結果を取得する。パラメータ推定部２３４は、１以上のタスク各々に関して得られた複数の作業結果に基づき、所定の確率モデルのパラメータセットを推定する。出力部２３６は、１以上のタスク各々に関し、推定されたパラメータセットに基づき、タスクに対し得られるべき作業結果を推定し、出力する。出力部２３６は、１以上のタスク各々に対する得られるべき作業結果に加えて、ワーカの能力などを含むパラメータセットを出力することもできる。確率モデルやパラメータ推定については、詳細を後述する。

なお、上述までの説明では、図２に示す機能部２１０，２２０，２３０が単一のコンピュータである管理サーバ１１０上で実現されるものとして説明した。しかしながら、この態様に限定されるものではなく、１以上のコンピュータを含み構成されるコンピュータ・システムにおいて、如何なる態様で並列分散実装されてもよい。例えば、他の実施形態では、機能部２１０，２２０，２３０をそれぞれ異なるコンピュータに分散実装してもよく、またより膨大なデータを処理するために、機能部２１０，２２０，２３０それぞれを複数のコンピュータで並列実装することを妨げるものではない。

以下、図３〜図６を参照しながら、本発明の実施形態による作業結果統合システム１００において実行される、確率モデルを用いたパラメータ推定処理について、より詳細に説明する。上述したようにタスクは、如何なる情報処理タスクであってもよいが、以下に説明する実施形態では、文字認識タスクを一例として取扱うものとする。

図３および図４は、特定の実施形態においてワーカ端末１０４に表示される作業画面を例示する。図３は、日本語の文字認識結果の校正を行っている文字校正インタフェース画面を例示し、図４は、英字の文字認識結果の校正を行っている文字校正インタフェース画面を例示する。

図３に示す画面３００は、前段ワーカの作業結果であるＯＣＲ自動認識結果が表示される表示ボックス３０２と、文字画像配列ボックス３０４とを含む。文字画像配列ボックス３０４には、その共通の自動認識結果を与えた１以上のオリジナル文字画像が配列して表示される。図３に示す表示ボックス３０２には、ひらがなの「ぱ」という自動認識結果が示されており、文字画像配列ボックス３０４には、自動認識によってひらがなの「ぱ」として認識された１または複数の文字画像が示されている。

また、図４に示す画面３１０も、前段ワーカの作業結果であるＯＣＲ自動認識結果が表示される表示ボックス３１２と、文字画像配列ボックス３１４とを含む。文字画像配列ボックス３１４には、その共通の自動認識結果を与えた１以上のオリジナル文字画像が配列して表示される。図４に示す表示ボックス３１２には、アルファベットの「ｃ」という自動認識結果が示されており、文字画像配列ボックス３１４には、自動認識によってアルファベット「ｃ」として認識された１または複数の文字画像が示されている。

つまり、図３および図４に示した画面３００，３１０には、文字画像配列ボックス３０４，３１４に示された文字画像の数分だけの複数のタスクが含まれている。ワーカに課された作業は、表示ボックス３０２，３１２に示される前段ワーカのＯＣＲ自動認識結果を参照しながら、文字画像配列ボックス３０４，３１４に示された１または複数の文字画像のうちから、誤っていると認められるものを指定し、自らが正しい考える認識結果に修正することである。

例えば、図３においてボックス３０６で囲まれた文字画像は、ひらがなを理解できる人間が見れば「は」と認識されるべき画像であるが、機械による自動認識結果では「ぱ」と誤認識されている。この場合、ワーカは、画面３００において、ボックス３０６で示す文字画像を選択し、正しい文字「は」を入力するという操作を行うことになる。

同様に、図４においてボックス３１６で囲まれた文字画像は、アルファベットを理解できる人間が見れば「ｅ」と認識されるべき画像であるが、機械による自動認識結果では「ｃ」と誤認識されている。この場合、ワーカは、画面３１０において、ボックス３１６で示す文字画像を選択して、正しい文字「ｅ」を入力するという操作を行うことになる。

以下の説明では、図３および図４に示すような文字校正インタフェース画面を介して、前段ワーカの作業結果としてＯＣＲ自動認識結果が後段ワーカに提示され、人である後段ワーカが、ＯＣＲ認識結果に対し、必要に応じて修正を施す、という順次的ワークフローを一例として説明する。したがって、上述したワーカの作業結果とは、文字認識タスクに対するワーカの認識した文字の解答であり、統合結果として得られるべき作業結果とは、文字認識タスクの画像が表す文字の真の正解である。

図５は、本発明の実施形態による作業結果統合システム１００で用いられる、上述した順次的ワークフローをモデル化した確率的生成モデルを説明する図である。図５（Ａ）は、説明する実施形態で用いる生成モデルのグラフィカル表現を示す。ここで、生成モデル（Generative Model）とは、観測結果がどのような潜在的な原因から生成されたかを説明するための確率モデルをいう。この生成モデルを図として表したものがグラフィカル表現またはグラフィカルモデルと参照される。図５（Ｂ）は、説明する実施形態で用いる生成モデルを構成する後段ワーカの能力の定式化を説明する図である。

図５（Ａ）は、各タスクについての生成モデルを示しており、生成モデルは、観測変数（図５（Ａ）中で実線の丸で表す。）として、前段ワーカであるＯＣＲエンジンの解答ｏ_ｔと、後段ワーカの解答ｙ_ｉｔとを含み、潜在変数（図５（Ａ）中で点線の丸で表す。）として、得られるべき真の正解ｚ_ｔを含む。

ここで、ｔは、タスクを識別するインデックスであり、ｎ個あるとする。ｉは、後段ワーカを識別するインデックスであり、ｍ人いるとする。各タスクに対して必ずしもワーカ全員が解答するというわけではなく、タスクｔを行った後段ワーカの集合をＷ_ｔで表す。また、タスクは、それぞれ他のタスクとは独立であり、真の正解ｚ_ｔ，前段ワーカの解答ｏ_ｔが与えられたとき、後段ワーカ各々の解答ｙ_ｉｔは互いに独立であるとする。

前段ワーカの解答ｏ_ｔおよび後段ワーカの解答ｙ_ｉｔは、あらゆる文字を含んだ解答集合Ｘに元として含まれる（ｏ_ｔ∈Ｘ，ｙ_ｉｔ∈Ｘ）。これら、あるタスクｔに関して、前段ワーカの解答ｏ_ｔおよび後段ワーカの解答ｙ_ｉｔ（ｉ∈Ｗ_ｔ）に含まれる固有の解答数をＫ_ｔ個とする。タスクｔの正解がＫ_ｔ個の固有の解答ｋ（ｋ＝１，…，Ｋ_ｔ）の中に存在するとして、見えざる真の正解ｚ_ｔ（ｚ_ｔ∈Ｘ）を推定することが目標となる。

生成モデルに対しては、複数のパラメータが与えられており、図５（Ａ）に示す生成モデルでは、真の正解ｚ_ｔの事前確率π_ｔｋと、前段ワーカの正解率γと、後段ワーカｉの２種類の正解率α_ｉ，β_ｉとがパラメータとして与えられる。真の正解ｚ_ｔの事前確率π_ｔｋは、下記式（１）で表され、各々のタスクｔの得られるべき真の正解ｚ_ｔが、Ｋ_ｔ個の固有の解答のうちの解答ｋである事前確率である。前段ワーカの正解率γは、下記式（２）で表され、前段ワーカの能力を表す。

図５（Ａ）に示す生成モデルにおけるグレイの矢印（条件付き確率を表す。）が、前段ワーカの作業結果の品質の影響を考慮した、本発明の実施形態における生成モデルの特徴的な部分である。後段ワーカｉの２種類の正解率α_ｉ，β_ｉは、図５（Ｂ）に示す通りに表され、前段ワーカが正解しているか否かで条件付けた後段ワーカの能力を表す。正解率α_ｉは、前段ワーカの解答が正解である条件（ｏ_ｔ＝ｚ_ｔ）で後段ワーカｉが正解（ｙ_ｉｔ＝ｚ_ｔ）を与える確率を表す。これに対して、正解率β_ｉは、前段ワーカの解答が不正解である条件（ｏ_ｔ≠ｚ_ｔ）で後段ワーカｉが正解（ｙ_ｉｔ＝ｚ_ｔ）を与える確率を表す。

図５に示すように、本発明の実施形態では、前段ワーカの解答が正解であるか不正解であるかで後段ワーカの正解を与える確率（能力）が変動するようなモデルを構築している。これにより、前段ワーカの解答を信じやすい傾向のあるワーカや、前段ワーカの解答に対し疑い深いワーカの傾向を捉えることが可能となる。

そして、本発明の実施形態によるパラメータ推定方法では、１以上のタスク（ｔ＝１，…，ｎ）各々について与えられた解答ｏ_ｔ，ｙ_ｉｔに基づいて、図５に示す生成モデルのパラメータセット（α_ｉ，β_ｉ，γ，π_ｔｋ）を推定するとともに、１以上のタスク各々の真の正解ｚ_ｔを推定する。

以下、図６を参照しながら、本発明の実施形態におけるパラメータ推定方法について、より詳細に説明する。図６は、本発明の実施形態における作業結果統合システム１００において実行される、パラメータ推定方法を示すフローチャートである。なお、図６は、図５に示すような潜在変数およびパラメータセットを導入した生成モデルに基づき、ＥＭアルゴリズムを適用してパラメータセットを最大事後確率（Maximum A Posteriori；ＭＡＰ）推定し、得られたパラメータセットを用いてタスクの真の正解ｚ_ｔを推定する具体的なフローを示すものである。

ここで、図６に示す処理のフローを説明する前に、図５に示した生成モデルに基づくＭＡＰ推定について説明する。ＭＡＰ推定は、下記式（３）のように定式化することができ、観測変数Ｄが与えられたときのパラメータの事後確率ｐ（θ｜Ｄ）を最大にするパラメータセットθの値を推定する手法である。ここで、パラメータセットθは、上述したすべてのパラメータ（α_ｉ，β_ｉ，γ，π_ｔｋ）を集めたベクトルである。説明する実施形態においては、下記式（３）から、ベイズの定理に基づき、下記式（４）を導くことができる。下記式（４）において、Σｐ（Ｄ，Ｚ｜θ）は尤度を表し、ｐ（θ）はパラメータセットθの事前分布を表す。

上記式（４）中、パラメータセットθ、観測変数Ｄおよび潜在変数Ｚは、下記式（５）〜（７）で表される。

上記式（４）中の事前分布ｐ（θ）は、それぞれのパラメータにつき、下記式（８）〜（１０）に示すベータ分布および下記式（１１）に示すディリクレ分布で表すことができる。下記式（８）〜（１１）中のａ_１，ａ_２，ｂ_１，ｂ_２，ｇ_１，ｇ_２，ρは、ハイパーパラメータであり、事前に適切な値が与えられるものとする。潜在変数の事前分布π_ｔｋは、説明する実施形態では、同じ値のパラメータがＫ_ｔ個の対称ディリクレ分布で表しており、Ｋ_ｔ＝２である場合は、ベータ分布に一致することになる。

つまり、説明する実施形態においては、ｎ個の各タスク各々に対する前段ワーカの解答ｏ_ｔおよび後段ワーカの解答ｙ_ｉｔに基づいて、参加するｍ人の後段ワーカの正解率α_ｉ，β_ｉ、前段ワーカの正解率γ、およびｎ個のタスク各々のＫ_ｔ個の各解答ｋの事前確率π_ｔｋを推定するとともに、ｎ個のタスク各々に対する真の正解ｚ_ｔを推定するという問題として定式化される。

上記式（４）に示されるような問題の最適解の計算は、対数の中に和があるため計算量が大きく、通常困難である。そこで、説明する実施形態では、ＥＭアルゴリズムを適用して、反復計算によりパラメータ推定を行う。以下、図６に示すフローチャートを参照しながら、ＥＭアルゴリズムを適用してパラメータセットθをＭＡＰ推定し、得られたパラメータセットθを用いてタスクの真の正解ｚ_ｔを推定するまでの具体的な処理について説明する。

図６に示すパラメータ推定方法は、例えば、所定数のタスクログを対象とした処理開始の指示が行われたことに応答して、ステップＳ１００から開始される。ステップＳ１０１では、取得部２３２は、タスクログ格納領域からタスクログＤを取得し、作業領域に展開する。上述したハイパーパラメータもここで読み出される。

ステップＳ１０２では、パラメータ推定部２３４は、まず、取得されたｎ個の各タスクｔについて、潜在変数ｚ_ｔの事後分布μ_ｔｋの初期値を計算する。潜在変数ｚ_ｔの事後分布μ_ｔｋの初期値は、固有の解答数Ｋ_ｔで均等としてもよいが、反復計算をより早期に収束させる観点からは、好ましくは、下記式（１２）で表すように、多数決で決定することができる。なお、下記式（１２）中のδは、クロネッカーのデルタである。

ステップＳ１０３では、パラメータ推定部２３４は、潜在変数の事後分布μ_ｔｋの初期値から、パラメータセットθ（α_ｉ，β_ｉ，γ，π_ｔｋ）の初期値を計算する。事後分布μ_ｔｋからのパラメータセットθの計算方法は、後述するＥＭアルゴリズムのＭステップで用いる下記式（１７）〜（２０）を用いて計算することができる。

ステップＳ１０４で、ループが開始され、ステップＳ１０７で所定の収束条件を満たすと判断されるまで、ステップＳ１０５で示すＥ（Expectation）ステップおよびステップＳ１０６で示すＭ（Maximization）ステップを交互に反復する。

ステップＳ１０５では、パラメータ推定部２３４は、ＥＭアルゴリズムにおけるＥステップを実行する。通常、ＥＭアルゴリズムにおけるＥステップでは、パラメータセットの現在値θ〜（上付きのチルダ）を用いて、下記式（１３）で表されるパラメータの事後確率の期待値Ｒ（θ｜｜θ〜）を計算する。下記式（１３）は、対数尤度ｌｎｐ（Ｄ，θ）の下界を求めることに対応する。そして、続くＭステップでは、Ｅステップで求めた期待値（下界）を最大化するパラメータを新たに求め、ＥステップおよびＭステップを繰り返すことにより、事後確率を最大化するパラメータを求める。下記式（１３）を、より具体的に表すと、下記式（１４）のように表すことができる。

上記式（１４）中のμ_ｔｋは、観測データ（Ｄ_ｔ＝｛｛ｙ_ｉｔ｝_ｉ∈Ｗｔ，ｏ_ｔ｝）およびパラメータセットθ〜が与えられたときの潜在変数ｚ_ｔの事後分布であり、下記式（１５）で計算することができる。

上記式（１６）に示すｒ_ｔｋ（θ）は、全ワーカの能力を勘案した上で現在のパラメータの値から正解の確率を推定している箇所である。式（１５）は、タスクｔに関し、与えられた前段および後段のワーカ各々の作業結果（ｙ_ｉｔ，ｏ_ｔ）の下、前段および後段のワーカの能力（γ，α_ｉ，β_ｉ；ｉ∈Ｗｔ）で、与えられた１以上の固有の解答ｋ各々を重み付け評価することに相当する。なお、上記式（１６）中のδは、クロネッカーのデルタである。

なお、本発明の実施形態では、続くＭステップでは、後述するように事後分布μ_ｔｋからパラメータセットθを陽に求めることができる。このため、ステップＳ１０５では、パラメータ推定部２３４は、パラメータセットの現在値θ〜を用いて、１以上のタスク（ｔ＝１，…，ｎ）各々に対する真の正解ｚ_ｔの事後分布μ_ｔｋを計算すればよいということになる。

ステップＳ１０６では、パラメータ推定部２３４は、ＥＭアルゴリズムにおけるＭステップを実行する。通常、ＥＭアルゴリズムにおけるＭステップでは、Ｅステップで求められた、パラメータセットθの関数である事後確率の期待値Ｒ（θ｜｜θ〜）を最大するパラメータの更新値θを算出する。上述した式（１４）で表される事後確率の期待値Ｒを、各パラメータα_ｉ，β_ｉ，γ，π_ｔｋについて偏微分して０とおくと、各パラメータの更新式は、下記式（１７）〜（２０）に示すような閉じた形に整理できる。なお、下記式（１７）および（１８）中のＴ_ｉは、ワーカｉが行ったタスクの集合を表す。下記式（１７）中のδは、同様に、クロネッカーのデルタである。

つまり、ステップＳ１０６では、パラメータ推定部２３４は、計算された新しい潜在変数の事後分布μ_ｔｋから、事後確率の期待値Ｒを最大化するパラメータセットの更新値θを、上記更新式（１７）〜（２０）を用いて陽に計算すればよいということになる。

ステップＳ１０７では、所定の収束条件が満たされたか否かを判断し、所定の収束条件が満たされるまで、ステップＳ１０４へループを繰り返す。ステップＳ１０７で、所定の収束条件が満たされた場合は、ループを抜けて、ステップＳ１０８へ処理が進められる。

収束判定は、例えば下記式（２１）で表されるような、対数尤度Ｌに対する条件とすることができる。下記式（２１）中、Ｌ（・）は、対数尤度を表し、θ_ｏｌｄは、パラメータの前回の値を意味し、θ_ｎｅｗは、パラメータの最新の値を意味する。対数尤度の最初のθ_ｏｌｄは、例えば−∞に設定すればよい。下記式（２１）により、対数尤度が一定ε以上改善しないようになると、収束したものとみなされる。

ステップＳ１０８では、パラメータ推定部２３４は、パラメータセットの収束後の推定値θを用いて、上記式（１５）に従って、１以上のタスク（１，…，ｎ）各々に対して、最終的な潜在変数の事後分布μ_ｔｋ（ｋ＝１，…，Ｋ_ｔ）を計算する。ステップＳ１０９では、出力部２３６は、下記式（２２）に従って、１以上のタスク各々について、事後確率μ_ｔｋが最大となる解答ｋを、真の正解ｚ_ｔ＾（上付きのハット）として選択する。つまり、所与の観測下の潜在変数の最頻値が選ばれる。同じ最大値をとるものが複数ある場合は、例えばランダムに選べばよい。

ステップＳ１１０では、出力部２３６は、得られた１以上のタスク各々の真の正解ｚ_ｔおよびパラメータセットθ（後段ワーカの能力を表す正解率α_ｉ，β_ｉを含む。）を出力し、ステップＳ１１１で、本終了が終了する。

以上説明した構成により、順次的なワークフローにおいて、前段ワーカの作業結果の品質に応じて変動し得る後段ワーカの能力を適切に推定することが可能となる。これにより、前段ワーカの作業結果が目に入ることによって影響を受けてしまう後段ワーカの振る舞いを適切にモデル化することができ、ひいては、作業結果の統合の精度を向上させることができる。

このように推定されたワーカの能力の知見は、例えば、あるタスクを次にどのワーカに行わせるか、あるワーカに次にどのタスクを行わせるかなどを決定する際にも活用することができる。さらに、上述した実施形態では、ＥＭアルゴリズムのＭステップで、パラメータの更新式が陽に求まるという利点がある。さらに、モデルに導入されるパラメータ数も比較的少ないため、データの疎性に対してもロバストであり、計算時間も短くて済むという利点もある。

なお、上述した前段ワーカが誤答したタスクを、単にタスク難易度が高いものとして解釈して、例えば非特許文献２のモデルに組み込む方法も考えられる。しかしながら、その場合、難易度の高いタスクでは、ワーカの能力の推定値が正解率の差に反映されにくくなる傾向があり、重み付け多数決がより一層普通の多数決に近い形となってしまう。これに対して、前段ワーカの作業結果の品質に応じて条件付けたワーカの能力のパラメータを生成モデルに導入することにより、前段ワーカの作業結果の品質がワーカの能力のばらつきを打ち消す方向に働く影響をなくし、これにより、ワーカの能力に応じた重み付け多数決を可能とする。

なお、上述した実施形態によるパラメータ推定方法では、事前に準備されたｎ個のタスクログを用いて、ｎ個の全タスクに対する真の正解ｚ_ｔおよびパラメータセットθを推定するというものであった。しかしながら、このような一括学習の実施形態に限定されるものではない。他の実施形態では、逐次、タスクに対する前段ワーカおよび後段ワーカからの作業結果が発生する状況の下、データが与えられる毎に、パラメータセットθを更新しながらタスクに対する真の正解ｚ_ｔを推定する、いわゆる逐次学習またはオンライン学習を行う態様とすることもできる。

また、上述した実施形態における、図５に示した生成モデルでは、ＯＣＲエンジンである自動認識部２１０が前段ワーカとしてはたらき、ワーカ端末１０４各々を操作するワーカ（通常は人である。）が後段ワーカとしてはたらくものとして説明した。上述した実施形態では、また、説明の便宜上、すべてのタスクにおいて、前段ワーカが同一であるとして、タスク非依存の前段ワーカの正解率γをパラメータとして導入した。

しかしながら、上述した具体的なワークフローに限定されるものではない。例えば、他の実施形態では、前段ワーカは、ワーカ端末１０４を操作するワーカであってもよい。また、他の実施形態では、タスク毎に異なる前段ワーカとし、タスク毎の前段ワーカの正解率γ_ｔをパラメータとして導入してもよい。

さらに、図５に示した生成モデルは、後段ワーカの能力として、ワーカ毎の正解率α_ｉ，β_ｉを用いるものであった。ワーカの能力を詳細にモデル化するという観点からは、ワーカ毎の能力を異なるパラメータで表した方が好ましいが、他の実施形態では、ワーカ全体として一様な能力を表す正解率α，βを用いるようにモデル化を行ってもよい。さらに、他の実施形態では、ワーカの能力をより詳細にモデル化するという観点から、ワーカ毎かつタスク毎の能力を表す正解率α_ｉｔ，β_ｉｔを用いるようモデル化を行ってもよい。

また、上述した実施形態では、前段ワーカの解答が正解であるか不正解であるかで条件付けて後段ワーカの能力を表す２種類の正解率α，βを導入した。しかしながら、後段ワーカの能力の条件付けは、このような態様に限定されるものではない。他の実施形態では、後段ワーカの能力は、さらに、前段ワーカの種類および個体またはこれらのいずれかに応じて条件付けることができる。例えば、前段ワーカが機械であるか、人であるかで条件付けた後段ワーカの能力を表すパラメータを導入することもできる。例えば、前段ワーカが、いずれの自動認識エンジンであるか、あるいはいずれの人であるかで、条件付けた後段ワーカの能力を表すパラメータを導入することもできる。さらに、前段ワーカの解答が正解であるか不正解であるかの２段階で条件付けるほか、他の実施形態では、３以上の段階で条件付けることを妨げるものではない。

また、図５に示した生成モデルでは、１の前段ワーカの作業結果に基づいて１以上の後段ワーカが作業するワークフローを一例として説明した。しかしながら、他の実施形態では、複数の前段ワーカの作業結果に基づいて１以上の後段ワーカが作業するワークフローであってもよいし、第１のワーカの作業結果に基づいて、第２のワーカが作業を行い、第２のワーカの作業結果に基づいて、第３のワーカが作業を行うような段階的なワークフローであることを妨げない。

また、図６を参照した説明では、図５に示すような潜在変数およびパラメータセットを導入した生成モデルに基づき、ＥＭアルゴリズムを適用してＭＡＰ推定するものであった。ＭＡＰ推定は、より安定して解が求まるという利点があるが、しかしながら、ＭＡＰ推定の実施形態に限定されるものではない。他の実施形態では、生成モデルに基づき、ＥＭアルゴリズムを適用して最尤（Maximum likelihood，ＭＬ）推定を行うこともできる。

さらに、上述した実施形態では、タスク難易度は、考慮されていなかった。しかしながら、他の実施形態では、各タスクｔに対するタスク難易度ｄ_ｔのパラメータを導入し、タスク難易度ｄ_ｔを合わせて推定するよう構成することもできる。あるいは、非特許文献２に開示されるタスク難易度を推定するアルゴリズムに対し、前段ワーカの作業結果の品質で条件付けられた後段ワーカの能力をパラメータとして導入することもできる。その場合は、ワーカの正解率ｐ（ｙ_ｉｔ＝ｚ_ｔ）を、前段ワーカが正解した場合と、不正解であった場合とで条件付けてワーカのスキルをα_ｉ，β_ｉとし、下記式（２３）および（２４）で表すことができる。

以下、上記実施形態による管理サーバ１１０を実現するコンピュータ装置について説明する。図７は、本発明の実施形態による管理サーバ１１０を実現するコンピュータ装置の概略的なハードウェア構成を示す。図７に示すコンピュータ装置１０は、プロセッサである中央処理装置（ＣＰＵ）１２と、ＣＰＵ１２が使用するデータの高速アクセスを可能とするＬ１およびＬ２などのレベルを有するキャッシュ・メモリ１４と、ＣＰＵ１２の処理を可能とするＤＲＡＭなどの固体メモリ素子から形成されるシステム・メモリ１６とを備えている。

ＣＰＵ１２、キャッシュ・メモリ１４およびシステム・メモリ１６は、システム・バス１８を介して、他のデバイスまたはドライバ、例えば、グラフィックス・ドライバ２０およびネットワーク・インタフェース・カード（ＮＩＣ）２２へと接続されている。グラフィックス・ドライバ２０は、バスを介して外部のディスプレイ２４に接続されて、ＣＰＵ１２による処理結果をディスプレイ画面上に表示させることができる。また、ＮＩＣ２２は、物理層レベルおよびデータリンク層レベルでコンピュータ装置１０を、ＴＣＰ／ＩＰなどの適切な通信プロトコルを使用するネットワーク１０２へと接続している。

システム・バス１８には、さらにＩ／Ｏバス・ブリッジ２６が接続されている。Ｉ／Ｏバス・ブリッジ２６の下流側には、ＰＣＩなどのＩ／Ｏバス２８を介して、ＩＤＥ、ＡＴＡ、ＡＴＡＰＩ、シリアルＡＴＡ、ＳＣＳＩ、ＵＳＢなどにより、ハードディスク装置３０が接続されている。ハードディスク装置３０は、例えばタスクデータ１１２、タスクログ１１４および成果物データ１１６を格納することができる。また、Ｉ／Ｏバス２８には、ＵＳＢなどのバスを介して、キーボードおよびマウスなどのポインティング・デバイスなどの入力装置３２が接続されていて、この入力装置３２によりユーザ・インタフェースが提供される。

コンピュータ装置のＣＰＵ１２としては、いかなるシングルコア・プロセッサまたはマルチコア・プロセッサを用いることができる。コンピュータ装置は、ＷＩＮＤＯＷＳ（登録商標）２００Ｘ、ＵＮＩＸ（登録商標）、ＬＩＮＵＸ（登録商標）などのオペレーティング・システム（以下、ＯＳとして参照する。）により制御される。コンピュータ装置は、上記ＯＳの管理の下、システム・メモリ１６上などにプログラムを展開し、プログラムを実行し、各ハードウェア資源を動作制御することによって、上述した機能部の構成および処理をコンピュータ上に実現する。

（実験）
以下、前段のＯＣＲ認識結果に対し後段のワーカが誤認識の修正を施した実際のタスクログを用いて実験を行った。まず、２台のＯＣＲエンジンにより書籍の画像データを文字認識し、２台のＯＣＲエンジン間で解答が異なる文字画像を抽出した。そして、図３および図４に示すような文字校正インタフェース画面を介して、ＯＣＲ認識結果と、抽出された共通のＯＣＲ認識結果が与えられた複数の文字画像を表示し、ワーカに対し、正しい認識結果を入力させた。文字校正インタフェースには、２台のうちの片方のＯＣＲの解答を表示させた。

ワーカは、４２名であり、３９１７６個のユニークタスクをタスク当たり１〜３名のワーカに振り分け、のべ１１６６６２個のタスクに対する作業結果を得た。上述した文字校正のログデータには、どのワーカがどの文字をどう直したかがログ形式で記録されており、１１６６６２行相当あり、その基本統計量を下記表１に示す。なお、本実験では、文字画像が表している真の正解は既知であり、したがって、パラメータ推定された各種推定値は、実測値と比較可能である。

（実験例１）
パーソナル・コンピュータを用いて、図６に示したパタメータ推定方法を実装した管理サーバ１１０を構築した。上述したタスクログに対して、ワーカ毎の正解率α_ｉ，β_ｉをパラメータとして導入した図５に示す生成モデルを用いて、パタメータ推定処理を実行し、推定された解答が既知の真の正解に対して一致する精度を評価した。精度（Accuracy）は、推定された解答が真の正解と一致した回数を計数し、その回数をタスク総数ｎで割ることにより算出した。実験例１について全タスクについて計算したところ、精度は、０．９６９１であった。さらに、ワーカ間で回答が割れたタスクを抽出し、全３９１７６タスク中の抽出された２３４４タスクについて精度を算出したところ、０．７５０９であった。図８に、実験例１における、ワーカ間で回答が割れたタスク集合について求めた精度を示す。実験例１は、実施例を構成する。

（実験例２）
実験例１と同一のコンピュータを用いて、ワーカの正解率が一様である点、つまり、ワーカ非依存の正解率α，βをパラメータとしている点を除き実験例１と同一のパタメータ推定方法を実装した管理サーバ１１０を構築した。上述したタスクログに対してパタメータ推定方法を実行し、精度を算出した。全タスクでの精度は、０．９６６４であった。ワーカ間で回答が割れた実験例１と同一のタスク集合について精度を求めたところ、０．７１０８であった。図８に、実験例２における、ワーカ間で回答が割れたタスク集合について求めた精度を示す。実験例２は、実施例を構成する。

（実験例３）
実験例１と同一のコンピュータを用いて、ＯＣＲ認識結果の正誤での条件付けは行わず、ワーカ毎の一種類の正解率ｓ_ｉ=ｐ（ｙ_ｉｔ＝ｚ_ｔ）をパラメータとして導入した点を除き、実験例１と同一のパタメータ推定方法を実装した管理サーバ１１０を構築した。これは、非特許文献１のモデルを単純化したものに相当し、単純化潜在クラスモデル（ＬＣ）と参照する。また、このようなモデルでは、ＯＣＲエンジンの認識結果をワーカの解答として考慮することもできるが、実験例３では、ＯＣＲエンジンは、ワーカには含めず、人のワーカの結果のみを統合した。上述したタスクログに対してパタメータ推定方法を実行し、ワーカ間で回答が割れた実験例１と同一のタスク集合について精度を求めた。実験例３における、ワーカ間で回答が割れたタスク集合について求めた精度を図８に示す。実験例３は、比較例を構成する。

（実験例４）
実験例４は、ＯＣＲ認識結果をワーカの解答として含めて、ＯＣＲエンジンを含むワーカの結果を統合したことを除き、実験例３と同一である。実験例４における、ワーカ間で回答が割れたタスク集合について求めた精度を図８に示す。実験例４は、比較例を構成する。

（実験例５）
実験例１と同一のコンピュータを用いて、多数決でタスクを統合するプログラムを実装し、上述したタスクログに対して、多数決で決定された解答が既知の真の正解に対して一致する精度を評価した。なお、実験例５では、ＯＣＲエンジンは、ワーカには含めず、人のワーカの結果のみを統合した。全タスクでの精度は、０．９６６２であった。ワーカ間で回答が割れた実験例１と同一のタスク集合について精度を求めたところ、０．６７９１であった。図８に、実験例５における、ワーカ間で回答が割れたタスク集合について求めた精度を示す。実験例５は、比較例を構成する。

（実験例６）
実験例６は、ＯＣＲ認識結果をワーカの解答として含めて、ＯＣＲエンジンを含むワーカの結果を統合したことを除き、実験例５と同一である。実験例６における、ワーカ間で回答が割れたタスク集合について求めた精度を図８に示す。実験例６は、比較例を構成する。

（実験例７）
ＯＣＲの解答をそのまま正解として推定し、既知の真の正解に対して一致する精度を評価した。全タスクでの精度は、０．７４９９であり、ワーカ間で回答が割れた実験例１と同一のタスク集合での精度は、０．０８５８であった。図８に、実験例７における、ワーカ間で回答が割れたタスク集合について求めた精度を示す。実験例７は、比較例を構成する。

（実験例１〜実験例７の比較）
実験例１〜実験例７の実験結果を比較すると、実験例１では、実験例３〜実験例７のうちの最良であった実験例５と比較しても、全タスク集合での精度が０．３％程度改善した。図８を参照すると、特にワーカ間で回答が割れたタスク集合に絞ると、実験例１では、比較例の最良の実験例５と比較しても、７％以上精度が改善されていることが理解される。実験例２でも、比較例の最良の実験例５と比較して、３％以上精度が改善されていることが理解される。つまり、ワーカの能力を、前段の作業結果の品質で条件付けることにより、より高精度に真の正解を推定でき、またワーカ間で解答が割れるような難易度の高いタスクで精度が大きく向上することが示された。

（実験例８）
上述したログデータにおいて、全ワーカ中、ＯＣＲエンジンが既知の真の正解と一致する解答を行ったタスクを２００以上行い、かつ、ＯＣＲエンジンが不正解したタスクを２００以上行うという条件を満たしたワーカを抽出したところ、全４２人中１９人のワーカが抽出された。

上記１９人のワーカについて、実験例１のパラメータ推定方法により推定されたＯＣＲが正解しているときの正解率α_ｉの推定値と実測値とを比較した結果を図９（Ｂ）に示す。同様に、ＯＣＲが不正解しているときの正解率β_ｉの推定値と実測値とを比較した結果を、図９（Ｃ）に示す。さらに、実験例８で計算したＯＣＲが正解の場合の正解率α_ｉの推定値の実測値に対する推定の良さを評価するため、ＲＭＳＥ（Root-Mean-Square Error）を計算したところ、０．００４５であった。同様に、順位相関係数を計算したところ、０．９２１１であった。実験例８で計算したＯＣＲが不正解の場合の正解率β_ｉの推定値の実測値に対する推定の良さを評価するため、ＲＭＳＥおよび順位相関係数を計算したところ、それぞれ、０．０５２２および０．８６４９であった。実験例８は、実施例を構成する。

（実験例９）
上記実験例８と同じワーカ集合に対し、上記実験例３の単純化潜在クラスモデルで推定した各ワーカの正解率ｓ_ｉの推定値と実測値とを比較した結果を図９（Ａ）に示す。さらに、実験例９で計算した正解率ｓ_ｉの推定値の実測値に対する推定の良さを評価するため、ＲＭＳＥおよび順位相関係数を計算したところ、０．０５８４および０．３２２８であった。実験例９は、比較例を構成する。

（実験例８および実験例９の比較）
図９（Ａ）に示すように実験例９では、ワーカ毎の正解率ｓ_ｉを高い精度で得られないケースがあった。例えば、図９（Ａ）を参照すると、ワーカ９２およびワーカ２２５では、実際値よりも過大な正解率ｓ_ｉを推定していることが分かる。これに対して、実験例８では、図９（Ｂ）および図９（Ｃ）を参照すると明らかなように、対象となるすべてのワーカに対して、正解率α_ｉ，β_ｉが高い精度で見積もられていることが分かる。

これは、ワーカ９２は、ＯＣＲが正解しているときの正解率が低く、反対にワーカ２２５は、ＯＣＲが不正解のときの正解率が低いことに起因すると考えられる。

さらに、ＲＭＳＥおよび順位相関係数についてみると、ＲＭＳＥは、推定と実際との絶対的な誤差を表すため、０に近いほど良い推定と言え、順位相関係数は、推定値および実際値によるランク付けの類似度を表し、１に近いほど良い推定と言える。実験例８および実験例９で、ＲＭＳＥおよび順位相関係数を比較すると、前段が正解した場合の正解率α_ｉに関しては、ＲＭＳＥも順位相関係数も大きく改善していることが分かる。前段が不正解した場合の正解率β_ｉを比較すると、ＲＭＳＥは、実験例９と同等であるが、順位相関係数が改善していることがわかる。実験例９では、実際の正解率が低いワーカを過大評価する傾向にあり、回答数の多く正解率の高いワーカに正解率が引きずられることが原因であると考えられる。これに対して、実験例８では、解答数の減少に伴い引きずられる効果が軽減されていると考えることができる。

以上説明したように、本発明の実施形態によれば、前段ワーカの作業結果の品質に応じて変動し得る後段ワーカの能力を推定することができる、推定方法、推定システム、コンピュータ・システムおよびプログラムを提供するができる。さらに、本発明の実施形態によれば、前段ワーカの作業結果の品質に応じて変動し得る後段ワーカの能力を推定しながら、複数のワーカの作業結果を統合する処理を行うためのプログラムを提供することができる。

上述した推定方法等は、クラウドソーシングなどの複数のワーカの作業結果を統合する処理における品質管理のみならず、複数のワーカの推定された能力をフィードバックするなどにより、ワーカの教育にも適用可能である。

なお、本発明につき、発明の理解を容易にするために各機能部および各機能部の処理を記述したが、本発明は、上述した特定の機能部が特定の処理を実行するほか、処理効率や実装上のプログラミングなどの効率を考慮して、いかなる機能部に、上述した処理を実行するための機能を割当てることができる。

本発明の上記機能は、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｊａｖａ（登録商標）Ｂｅａｎｓ、Ｊａｖａ（登録商標）Ａｐｐｌｅｔ、ＪａｖａＳｃｒｉｐｔ（登録商標）、Ｐｅｒｌ、Ｐｙｔｈｏｎ，Ｒｕｂｙなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。

これまで本発明を、特定の実施形態をもって説明してきたが、本発明は、実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１００…作業結果統合システム、１０２…ネットワーク、１０４…ワーカ端末、１０６…エンドユーザ端末、１１０…管理サーバ、１１２…タスクデータ、１１４…タスクログ、１１６…成果物データ、２００…機能ブロック、２１０…自動認識部、２２０…作業結果受付部、２３０…作業結果統合部、２３２…取得部、２３４…パラメータ推定部、２３６…出力部、３００，３１０…画面、３０２，３１２…表示ボックス、３０４，３１４…文字画像配列ボックス、３０６，３１６…ボックス、１２…ＣＰＵ、１４…キャッシュ・メモリ、１６…システム・メモリ、１８…システム・バス、２０…グラフィックス・ドライバ、２２…ＮＩＣ、２４…ディスプレイ、２６…Ｉ／Ｏバス・ブリッジ、２８…Ｉ／Ｏバス、３０…ハードディスク装置、３２…入力装置

Claims

同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定する方法であって、コンピュータ・システムが、
１以上のタスク各々に関し、前段のワーカの作業結果と、該前段のワーカの作業結果に基づいて作業する後段のワーカの作業結果とを取得するステップと、
前記１以上のタスク各々に関して得られた複数の作業結果に基づき、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルの複数のパラメータを推定するステップと
を含む、推定方法。
前記確率モデルは、前記１以上のタスク各々に関し、第１の観測変数として、１以上の前段のワーカ各々の作業結果と、第２の観測変数として、１以上の後段のワーカ各々の作業結果と、潜在変数として、得られるべき作業結果とを含む生成モデルである、請求項１に記載の推定方法。
前記推定方法は、前記コンピュータ・システムが、
前記確率モデルの前記複数のパラメータ各々の推定値に基づき、前記１以上のタスク各々に関し、与えられた１以上の固有の作業結果各々が前記得られるべき作業結果である事後確率を計算するステップと、
前記１以上のタスク各々に関し、前記与えられた１以上の固有の作業結果のうちから事後確率が最大化される作業結果を、前記得られるべき作業結果として出力するステップと
をさらに含む、請求項２に記載の推定方法。
前記条件付けられた後段のワーカの能力は、条件毎に、ワーカ全体としての能力、ワーカ毎の能力、または、タスク毎ワーカ毎の能力を含む、請求項２または３に記載の推定方法。
前記条件付けられた後段のワーカの能力は、条件毎に、ワーカ毎の能力を含む、請求項２または３に記載の推定方法。
前記ワーカの作業結果は、タスクに対するワーカの解答であり、
前記得られるべき作業結果は、タスクの真の正解であり、
前記条件付けられた後段のワーカの能力は、前段のワーカの解答が正解である条件で後段のワーカが正解を与える確率と、前段のワーカの解答が不正解である条件で後段のワーカが正解を与える確率とを含む、請求項２〜５のいずれか１項に記載の推定方法。
前記条件付けられた後段のワーカの能力は、さらに、前段のワーカの種類および個体またはこれらのいずれかに応じて条件付けられる、請求項２〜６のいずれか１項に記載の推定方法。
前記確率モデルの複数のパラメータは、さらに、前段のワーカの能力と、前記１以上のタスク各々に関し、与えられた１以上の固有の作業結果各々が前記得られるべき作業結果である事前確率とを含む、請求項２〜７のいずれか１項に記載の推定方法。
前記確率モデルの複数のパラメータは、さらに、タスク難易度を含む、請求項２〜８のいずれか１項に記載の推定方法。
前記複数のパラメータを推定するステップは、前記１以上のタスク各々に関する前段および後段のワーカの作業結果が与えられたときの複数のパラメータの事後確率を最大にする前記複数のパラメータ各々の値を推定するステップである、請求項２〜９のいずれか１項に記載の推定方法。
前記複数のパラメータを推定するステップは、前記コンピュータ・システムが、
前記複数のパラメータ各々の現在値に基づいて、前記１以上のタスク各々に関し、前記得られるべき作業結果を計算するステップと、
計算された前記１以上のタスク各々に関する前記得られるべき作業結果に基づいて、前記複数のパラメータ各々の新たな値を計算するステップと、
収束条件が満たされたか否かを判定するステップと
を含む、請求項２〜１０のいずれか１項に記載の推定方法。
前記得られるべき作業結果を計算するステップは、前記コンピュータ・システムが、
タスク各々に関し、与えられた前段および後段のワーカ各々の作業結果の下、前段および後段のワーカ全体の能力で、与えられた１以上の固有の作業結果各々を重み付け評価するステップ、
を含む、請求項１１に記載の推定方法。
前記複数のパラメータ各々の新たな値を計算するステップは、前記コンピュータ・システムが、
少なくとも前記条件付けられた後段のワーカの能力を表す複数のパラメータに関して、前記得られるべき作業結果を計算するステップで事後分布の形で計算された前記得られるべき作業結果から、新たな値を陽に求めるステップ
を含む、請求項１１または１２に記載の推定方法。
前段のワーカは、機械または人であり、後段のワーカは、人である、請求項１〜１３のいずれか１項に記載の推定方法。
同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定するための推定システムであって、
１以上のタスク各々に関し、前段のワーカの作業結果と、該前段のワーカの作業結果に基づいて作業する後段のワーカの作業結果とを取得する取得部と、
前記１以上のタスク各々に関して得られた複数の作業結果に基づき、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルの複数のパラメータを推定する推定部と
を含む、推定システム。
前記確率モデルは、前記１以上のタスク各々に関し、第１の観測変数として、前段のワーカ各々の作業結果と、第２の観測変数として、１以上の後段のワーカ各々の作業結果と、潜在変数として、得られるべき作業結果とを含む生成モデルであり、前記推定システムは、
前記１以上のタスク各々に関し、与えられた１以上の固有の作業結果のうちから、前記複数のパラメータ各々の推定値に基づき計算される事後確率が最大化される作業結果を、前記得られるべき作業結果として出力する出力部
をさらに含む、請求項１５に記載の推定システム。
プロセッサと、
前記プロセッサと通信するメモリと
を含む、同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定するためのコンピュータ・システムであって、前記プロセッサは、
１以上のタスク各々に関し、前段のワーカの作業結果と、該前段のワーカの作業結果に基づいて作業する後段のワーカの作業結果とを取得し、
前記１以上のタスク各々に関して得られた複数の作業結果に基づき、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルの複数のパラメータを推定する
よう構成される、コンピュータ・システム。
同一のタスクに関する複数のワーカの作業結果を統合する処理におけるワーカの能力を推定するためのコンピュータ可読なプログラムであって、コンピュータ・システムを、
１以上のタスク各々に関し、前段のワーカの作業結果と、該前段のワーカの作業結果に基づいて作業する後段のワーカの作業結果とを取得する取得部、および、
前記１以上のタスク各々に関して得られた複数の作業結果に基づき、前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルの複数のパラメータを推定する推定部
として機能させるためのプログラム。
同一のタスクに関する複数のワーカの作業結果を統合するためのコンピュータ可読なプログラムであって、コンピュータ・システムを、
タスクに関し、前段のワーカの作業結果を１以上の後段のワーカに対し提示するとともに、前記１以上の後段のワーカ各々からの作業結果を受け付ける受付部、および、
前段のワーカの作業結果の品質で条件付けられた後段のワーカの能力がパラメータとして導入された確率モデルに基づいて、複数のワーカの作業結果を統合した結果として、前記タスクに対し得られるべき作業結果を推定する結果統合部
として機能させるためのプログラム。
前記結果統合部は、
１以上のタスク各々に関し、前記前段のワーカの作業結果と、前記後段のワーカの作業結果とを取得する取得部と、
前記１以上のタスク各々に関して得られた複数の作業結果に基づき、前記確率モデルの複数のパラメータを推定する推定部と
を含む、請求項１９に記載のプログラム。