JP6605683B1

JP6605683B1 - 見積方法、課金方法、コンピュータ、及びプログラム

Info

Publication number: JP6605683B1
Application number: JP2018203078A
Authority: JP
Inventors: 陵大田村; 和巳蓮子; 井口　慎也; 慎也井口
Original assignee: Fronteo Inc
Current assignee: Fronteo Inc
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-11-13
Anticipated expiration: 2038-10-29
Also published as: US20200134680A1; JP2020071523A

Abstract

【課題】従来の見積方法よりも正確であり、かつ、従来の見積方法よりも依頼人の納得感が得られ易い見積額を得る。【解決手段】コンピュータ（１）は、メモリ（１１）とコントローラ（１２）とを備え、メモリ（１１）は、データセット（ＤＳ）を記憶し、コントローラ（１２）は、各電子データ（Ｄｉ）のレビュー作業に要する時間を、電子データ（Ｄｉ）に含まれるコンテンツ（Ｔｉ）の特徴量に基づいて予測する予測処理と、データセット（ＤＳ）のレビュー作業に要する工数を、各電子データに（Ｄｉ）ついて前記予測処理にて予測された時間に基づいて評価する評価処理と、データセット（ＤＳ）のレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する。【選択図】図１

Description

本発明は、データセットのレビュー作業に要する費用を見積もる見積方法に関する。また、そのような見積方法に従ってデータセットのレビュー作業に要する費用を見積もる見積処理を含む課金方法、そのような見積方法を実施するコンピュータ、そのような見積方法を実施するためのプログラム、及び、そのような課金方法を実施するためのプログラムに関する。

少なくとも１つの電子データを含むデータセットをレビューする作業（以下、「レビュー作業」と記載する）を請け負う請負人は、レビュー作業を完了する前に、レビュー作業に要する費用を、レビュー作業を依頼する依頼人に提示する必要がある。このため、請負人は、レビュー作業を完了する前に、レビュー作業に要する費用（以下、「レビュー費用」と記載する）を、レビュー作業に要する工数（以下、「レビュー工数」と記載する）に応じて見積もる必要がある。しかしながら、データセットに含まれる各電子データのレビューに要する時間（以下、「レビュー時間」と記載する）は、その電子データに含まれるコンテンツの性質に応じて変動する。このため、レビュー工数がデータセットに含まれる電子データの数に比例するという単純な仮定に基づいてレビュー費用を見積もると、見積額が極めて不正確となる。

このため、請負人は、従来、見積対象となるデータセット（以下、「対象データセット」と記載する）のレビュー工数（未知）を、対象データセットに類似するデータセットであって、既にレビュー作業が完了したデータセット（以下、「参照データセット」と記載する）のレビュー工数（既知）に基づいて評価し、評価したレビュー工数に基づいて対象データセットのレビュー費用を見積もっていた。例えば、請負人は、参照データセットのレビュー工数を対象データセットのレビュー工数と見做し、このレビュー工数に所定の単価（単位工数あたりの費用）を乗じることによって、対象データセットのレビュー費用を見積もっていた。

国際公開第２０１７／０６８７５０号

しかしながら、従来の見積方法には、レビュー工数の評価が不正確であることによって、レビュー費用の見積もりが不適切（実際のレビュー工数に対して過小又は過大）になるという問題があった。

この問題について、より具体的な例を挙げて説明すれば、以下のとおりである。

まず、対象データセットのレビュー工数を評価する際に参照する参照データセットは、請負人（例えば、営業担当者）によって選択される。参照データセットの選択に際して、請負人は、例えば、（１）レビュー作業の種類（例えば、ディスカバリのためのレビュー作業の場合は、訴訟の種類）、（２）対象データセットに含まれるデータの種類毎（例えば、拡張子毎）のデータ数、（３）対象データセットに含まれるデータの言語などの各種情報を参考にすることができる。

しかしながら、対象データセット及び参照データセットには、通常、コンテンツの性質（例えば、サイズ、複雑さ、感情傾向など）が異なる電子データが混在している。電子データのレビュー時間はコンテンツの性質に左右されるので、このことは、対象データセット及び参照データセットに、レビュー時間の異なる電子データが混在していることを意味する。特に、対象データセットに関して、どのくらいレビュー時間を要する電子データがどのような割合で含まれているかを、請負人はレビュー作業を完了する前に知ることができない。このため、請負人が類似していると判断した対象データセットと参照データセットとの間でも、上記の割合が相違するという事態が発生する。例えば、参照データセットには、レビュー時間が５分以上となるデータが１５％、レビュー時間が１分以上５分未満となるデータが６０％、レビュー時間が１分未満となるデータが２５％含まれているのに対して、対象データセットには、レビュー時間が５分以上となるが５０％、レビュー時間が１分以上５分未満となるデータが４０％、レビュー時間が１分未満となるデータが１０％含まれているという事態が発生する。

このため、請負人が、上述した各種情報を参考にして対象データセットに類似する参照データセットを選択したとしても、参照データセットのレビュー工数に基づく対象データセットのレビュー工数の評価が不正確になる。その結果、評価した工数に基づいて見積もられるレビュー費用が不適切になる。

なお、従来の見積方法には、請負人によってレビュー費用が過大に見積もられる可能性を排除することができず、場合によっては、レビュー費用の見積もりに対する依頼人の納得感が低いという副次的な問題が生じることもある。

すなわち、従来の見積方法では、請負人が評価した対象データセットのレビュー工数に応じて算出される。このため、請負人が対象データセットのレビュー工数を意図的に過大に評価することによって、レビュー費用を過大に見積もる可能性を排除することができない。このことが、依頼人に不信感を与え、見積額に対する依頼人の納得感が得られ難い原因となっている。なお、請負人がレビュー費用を過大に見積もる目的としては、不当な利益を得ることの他に、レビューアの能力が低かった場合（レビュー速度が遅かった場合）に生じ得る利益圧迫と作業遅延を避けることが挙げられる。

また、別の見方をすると、この問題は、以下のように説明することもできる。すなわち、レビュー工数を過大に評価することは、見積額が高額になるため、請負人の利益に繋がる。一方、レビュー工数を過小に評価することは、見積額が低額になるため、依頼人の利益に繋がる。このように請負人の利益と依頼人の利益とが相反している以上、レビュー工数の評価に請負人の随意性が入り込む余地のある従来の見積方法では、依頼人の納得する見積額を得ることは難しい。

本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的は、レビュー費用の見積もりを従来よりも適切に行うことにある。

上記の課題を解決するために、本発明の一態様に係る見積方法は、メモリとコントローラとを備えたコンピュータを用いて、少なくとも１つの電子データを含むデータセットのレビュー作業に要する費用を見積もる見積方法であって、前記メモリが、前記データセットを記憶する記憶処理と、前記コントローラが、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記コントローラが、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記コントローラが、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を含んでいる。

また、上記の課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備え、少なくとも１つの電子データを含むデータセットのレビュー作業に要する費用を見積もるコンピュータであって、前記メモリは、前記データセットを記憶し、前記コントローラは、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する。

本発明の一態様によれば、レビュー費用の見積もりを従来よりも適切に行うことができる。

本発明の実施形態１に係るコンピュータの構成を示すブロック図である。図１に示すコンピュータを用いて実施されるレビュー費用の見積方法の流れを示すフローチャートである。図２に示す見積方法の一部として実施可能な予測モデルの構築方法の流れを示すフローチャートである。図２に示す構築方法に含まれる設定処理の第１の具体例を示すフローチャートである。図２に示す構築方法に含まれる設定処理の第２の具体例を示すフローチャートである。図２に示す構築方法に含まれる設定処理の第３の具体例を示すフローチャートである。

〔コンピュータの構成〕
本発明の一実施形態に係るコンピュータ１の構成について、図１を参照して説明する。図１は、コンピュータ１の構成を示すブロック図である。

コンピュータ１は、図１に示したように、バス１０と、主メモリ１１と、コントローラ１２と、補助メモリ１３と、入出力インターフェース１４と、を備えている。コントローラ１２、補助メモリ１３、及び入出力インターフェース１４は、バス１０を介して互いに接続されている。主メモリ１１としては、例えば、１又は複数の半導体ＲＡＭ（random access memory）が用いられる。コントローラ１２としては、例えば、１又は複数のＣＰＵ（Central Processing Unit）が用いられる。補助メモリ１３としては、例えば、ＨＤＤ（Hard Disk Drive）が用いられる。入出力インターフェース１４としては、例えば、ＵＳＢ（Universal Serial Bus）インターフェースが用いられる。

入出力インターフェース１４には、例えば、入力装置２及び出力装置３が接続される。入力装置２としては、例えば、キーボード及びマウスが用いられる。出力装置３としては、例えば、ディスプレイ及びプリンタが用いられる。なお、コンピュータ１は、ラップトップ型コンピュータのように、入力装置２として機能するキーボート及び出力装置３として機能するディスプレイを内蔵していてもよい。また、コンピュータ１は、スマートフォン又はタブレット型コンピュータのように、入力装置２及び出力装置３として機能するタッチパネルを内蔵していてもよい。

補助メモリ１３には、後述する見積方法Ｓ１をコンピュータ１に実施させるためのプログラムＰが格納されている。コントローラ１２は、補助メモリ１３に格納されたプログラムＰを主メモリ１１上に展開し、主メモリ１１上に展開されたプログラムＰに含まれる各命令を実行することによって、後述する見積方法Ｓ１に含まれる各ステップを実行する。また、補助メモリ１３には、後述する見積方法Ｓ１においてコンピュータ１が参照するデータセットＤＳが格納されている。データセットＤＳは、少なくとも１つの電子データＤ１，Ｄ２，…，Ｄｎ（ｎは１以上の任意の自然数）の集合である。コントローラ１２は、補助メモリ１３に格納された各電子データＤｉ（ｉ＝１，２，…，ｎ）を主メモリ１１上に展開し、これを後述する見積方法Ｓ１に含まれる各ステップにおいて参照する。

なお、コンピュータ１が内部記憶媒体である補助メモリ１３に格納されているプログラムＰを用いて後述する見積方法Ｓ１を実施する形態について説明したが、これに限定されない。すなわち、コンピュータ１が外部記録媒体に格納されているプログラムＰを用いて後述する見積方法Ｓ１を実施する形態を採用してもよい。この場合、外部記録媒体としては、コンピュータ１が読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブル論理回路などを用いることができる。あるいは、コンピュータ１が通信ネットワークを介して取得したプログラムＰを用いて後述する見積方法Ｓ１を実施する形態を採用してもよい。この場合、通信ネットワークとしては、例えば、インターネット、又はＬＡＮなどを用いることができる。

〔レビュー時間の見積方法〕
本発明の一実施形態に係るレビュー時間の見積方法Ｓ１について、図２を参照して説明する。図２は、レビュー時間の見積方法Ｓ１の流れを示すフローチャートである。

見積方法Ｓ１は、コンピュータ１を用いてデータセットＤＳのレビュー費用を見積もる方法である。見積方法Ｓ１は、図２に示すように、記憶処理Ｓ１１と、抽出処理Ｓ１２と、予測処理Ｓ１３と、評価処理Ｓ１４と、見積処理Ｓ１５と、を含んでいる。

記憶処理Ｓ１１は、コンピュータ１のメモリ（主メモリ１１又は補助メモリ１３）がデータセットＤＳを記憶する処理である。記憶処理Ｓ１１は、コンピュータ１のコントローラ１２の制御によって実行される。

データセットＤＳは、電子データＤ１，Ｄ２，…，Ｄｎの集合である。各電子データＤｉは、テキストＴｉをコンテンツとして含む。このような電子データとしては、例えば、ＴＸＴデータ（プレインテキストデータ）、ＲＴＦデータ（リッチテキストデータ）、ＨＴＭＬデータ、ＸＭＬデータ、ＰＤＦデータ、ＤＯＣデータ、又はＥＭＬデータが挙げられる。

抽出処理Ｓ１２は、データセットＤＳに含まれる各電子データＤｉについて、電子データＤｉに含まれるテキストＴｉの予め選択された属性（例えば、文字数）の属性値（例えば、１００文字）を、メモリに記憶された電子データＤｉから抽出する処理である。抽出処理Ｓ１２は、記憶処理Ｓ１１を実行した後に、コンピュータ１のコントローラ１２によって実行される。

以下、抽出処理Ｓ１２にて抽出される属性値を、特徴量と呼び、抽出処理Ｓ１２にて抽出される属性値の集合を、特徴量群ＧＣと呼ぶ。この特徴量群ＧＣには、（１）テキストＴの複雑さを表す第１の特徴量Ｃ１と、（２）テキストＴのサイズを表す第２の特徴量Ｃ２と、（３）テキストＴの感情傾向を表す第３の特徴量Ｃ３と、が含まれ得る。

第１の特徴量Ｃ１として利用可能なテキストＴの属性値としては、例えば、異語数、品詞数、ＴＴＲ（Type Token Ratio）、ＣＴＴＲ（Corrected Type Token Ratio）、ユールＫ特性値、係り受け回数、数値比率などが挙げられる。テキストＴの複雑さを表すこれらの属性値の一部又は全部の組み合わせを、第１の特徴量Ｃ１として利用することもできる。なお、これらの属性値の定義については、後述する。

第２の特徴量Ｃ２として利用可能なテキストＴの属性値としては、例えば、文字数、語数、文数、段落数などが挙げられる。テキストＴのサイズを表すこれらの属性値の一部又は全部の組み合わせを、第２の特徴量Ｃ２として利用することもできる。なお、これらの属性値の定義については、後述する。

第３の特徴量Ｃ３として利用可能なテキストＴの属性値としては、例えば、ポジティブ数、ネガティブ数などが挙げられる。ここで、ポジティブ数は、テキストＴのポジティブさを表し、例えば、ポジティブ語として予め定め定められた語のテキストＴにおける出現回数によって定義される。また、ネガティブ数は、テキストＴのネガティブさを表し、例えば、ネガティブ語として予め定められた語のテキストＴにおける出現回数によって定義される。

なお、特徴量群ＧＣには、各品詞のテキストＴにおける出現回数を含めてもよい。例えば、テキストＴに含まれる各語を、英文字、未知語、名詞、動詞、形容詞、副詞、感動詞、接頭辞、助動詞、接続詞、フィラー、連体詞、助詞、記号、数字、その他に分類し、各品詞のテキストＴにおける出現回数を特徴量群ＧＣに含めてもよい。

予測処理Ｓ１３は、データセットＤＳに含まれる各電子データＤｉについて、抽出処理Ｓ１２にて抽出された特徴量群ＧＣに基づいて、電子データＤｉのレビュー時間ｔｉを予測する処理である。予測処理Ｓ１３は、抽出処理Ｓ１２を実行した後に、コンピュータ１のコントローラ１２によって実行される。ここで、レビュー時間とは、出力された（表示された、印刷された、又は読み上げられた）テキストＴを人間がレビューするのに要する時間のことを指す。

予測処理Ｓ１３を実行するために、コントローラ１２は、例えば、予め構築された予測モデルに従って、抽出処理Ｓ１２にて抽出された特徴量群ＧＣから電子データＤｉのレビュー時間ｔｉを算出する。予測処理Ｓ１３に利用する予測モデルは、電子データＤｉに含まれるテキストＴｉの特徴量群ＧＣを入力とし、レビュー時間ｔｉを出力とする、機械学習により構築された予測モデルであり、例えば、ＥＬＭ（Extreme Learning Machine）、ＳＶＲ（Support Vector Machine）、回帰木、ＸＧＢｏｏｓｔ、ランダムフォレスト、ＤＮＮ（Deep Neural Network）などである。なお、予測処理Ｓ１３にて利用される予測モデルの構築方法Ｓ２については、参照する図面を代えて後述する。

評価処理Ｓ１４は、データセットＤＳのレビュー工数ｍｈを、各電子データＤｉについて予測処理Ｓ１３にて予測されたレビュー時間ｔｉに基づいて評価する処理である。評価処理Ｓ１４は、データセットＤＳに含まれる全ての電子データＤ１，Ｄ２，…，Ｄｎに対する予測処理Ｓ１３を完了した後に、コンピュータ１のコントローラ１２によって実行される。

評価処理Ｓ１４を実行するために、コントローラ１２は、例えば、予測処理Ｓ１３にて予測されたレビュー時間ｔ１，ｔ２，…，ｔｎの総和ｔ＝ｔ１＋ｔ２＋…＋ｔｎを算出すると共に、算出された総和ｔに比例するレビュー工数ｍｈ＝α×ｔを算出する。ここで、αは、比例定数である。例えば、各レビュー時間ｔｉの単位が「時間」であり、各レビューアの１日あたりの作業時間が８時間である場合、αを１／８とすれば、「人日」単位のレビュー工数ｍｈを算出することができる。

見積処理Ｓ１５は、評価処理Ｓ１４にて評価されたレビュー工数ｍｈに基づいて、データセットＤＳのレビュー費用ｃを見積もる処理である。見積処理Ｓ１５は、評価処理Ｓ１４を実行した後に、コンピュータ１のコントローラ１２によって実行される。ここで、レビュー費用とは、データセットＤＳに含まれる電子データＤ１，Ｄ２，…，Ｄｎを人間がレビューする作業に対する対価である。見積処理Ｓ１５にて算出されたレビュー費用ｃは、例えば、レビュー作業を請け負った請負人がレビュー作業を依頼した依頼人に対して発行する見積書又は請求書に記載される。

見積処理Ｓ１５を実行するために、コントローラ１２は、例えば、評価処理Ｓ１４にて評価されたレビュー工数ｍｈに比例するレビュー費用ｃ＝β×ｍｈを算出する。ここで、βは、比例定数であり、単位工数あたりのレビュー費用を表す。

以上のように、本実施形態に係る見積方法Ｓ１によれば、データセットＤＳに含まれる各電子データＤｉのレビュー時間ｔｉが、その電子データＤｉに含まれるテキストＴｉの特徴量に基づいて予測され、データセットＤＳのレビュー工数ｍｈが、データセットＤＳに含まれる電子データＤ１，Ｄ２，…，Ｄｎのレビュー時間ｔ１，ｔ２，…，ｔｎに基づいて評価される。すなわち、従来の見積方法においては、参照データセットのレビュー工数に基づいて行われていたデータセットＤＳのレビュー工数ｍｈの評価が、本実施形態に係る見積方法Ｓ１においては、電子データＤ１，Ｄ２，…，Ｄｎに含まれるテキストＴ１，Ｔ２，…，Ｔｎの特徴量に基づいて行われる。このため、本実施形態に係る見積方法Ｓ１によれば、（ａ）レビュー工数ｍｈの評価を従来よりも正確に行うことが可能になると共に、（ｂ）請負人によって、意図的にレビュー工数ｍｈが過大に評価される可能性を従来よりも低下させることが可能になる。したがって、本実施形態に係る見積方法Ｓ１によれば、（ａ）レビュー費用ｃの見積もりを従来よりも適切に行うことが可能になると共に、（ｂ）レビュー費用ｃの見積もりに対する依頼人の納得感を従来よりも高くすることが可能になる。

なお、コントローラ１２は、電子データＤｉの種類に応じて、特徴量群ＧＣに含める特徴量を切り替える切替処理を、抽出処理Ｓ１２に先行して実行してもよい。電子データＤｉの種類は、例えば、電子データＤｉのファイル名に含まれる拡張子に基づいて判別することが可能である。この場合、電子データＤｉの種類に応じた、更に適切な工数評価を行うことができる。なお、この場合、電子データＤｉの種類毎に以下に説明する構築方法Ｓ２を実施し、電子データＤｉの種類毎に予測処理Ｓ１３に利用する予測モデルを構築する。

〔各特徴量の定義〕
テキストＴの属性値のうち、第１の特徴量Ｃ１として利用可能な属性値には、例えば、異語数、品詞数、ＴＴＲ、ＣＴＴＲ、ユールＫ特性値、係り受け回数、数値比率などがある。これらの属性値は、例えば、以下のように定義することができる。

テキストＴの異語数（語彙数）は、例えば、テキストＴに出現する異語の個数として定義することができる。例えば、テキストＴが”すもももももももものうち”である場合、テキストＴは”すもも／も／もも／も／もも／の／うち”と形態素分析でき、テキストＴに出現する異語は”すもも”、”も”、”もも”、”の”、”うち”の５つなので、テキストＴの異語数は５となる。ここでは、２回出現する語”もも”を個別にカウントしていない（２回出現する形態素”も”についても同様）点に留意されたい。

テキストＴの品詞数は、例えば、テキストＴに出現する品詞の個数として定義することができる。例えば、テキストＴが”すもももももももものうち”である場合、テキストＴは”すもも（名詞）／も（助詞）／もも（名詞）／も（助詞）／もも（名詞）／の（助詞）／うち（名詞）”と形態素分析でき、テキストＴに出現する品詞は名詞、助詞の２つなので、テキストＴの品詞数は２となる。

テキストＴのＴＴＲは、例えば、テキストＴの語数をＮ、テキストＴの異語数をＶとして、下記の式（１）により定義することができる。例えば、テキストＴが”すもももももももものうち”である場合、テキストＴは”すもも／も／もも／も／もも／の／うち”と形態素分析でき、語数は７であり、異語数は５であるので、テキストＴのＴＴＲは５／７≒０．７１４となる。

テキストＴのＣＴＴＲは、例えば、テキストＴの語数をＮ、テキストＴの異語数をＶとして、下記の式（２）により定義することができる。例えば、テキストＴが”すもももももももものうち”である場合、テキストＴは”すもも／も／もも／も／もも／の／うち”と形態素分析でき、語数は７であり、異語数は５であるので、テキストＴのＣＴＴＲは５／（２×７）^１／２≒１．３４となる。

テキストＴのユールＫ特性値は、例えば、テキストＴの語数をＮ、テキストＴにｍ回出現する語の個数をＶ（ｍ）として、下記の式（３）により定義することができる。例えば、テキストＴが”すもももももももものうち”である場合、テキストＴは”すもも／も／もも／も／もも／の／うち”と形態素分析でき、語数は７であり、テキストＴに１回出現する語は”すもも”、”の”、”うち”の３つであり、テキストＴに２回出現する語は”もも”、”も”の２つであるので、テキストＴのユールＫ値特性は、１０^４×（３×１^２＋２×２^２−７）／７^２≒８１６となる。

テキストＴの係り受け回数は、例えば、テキストＴに含まれる各文の意味係り受けグラフが有するエッジ（アーク）の個数の合計として定義することができる。例えば、テキストＴが”私は東京にラーメンを食べに行く。東京のラーメンは美味しい。”である場合、第１文の意味係受けグラフが有するエッジは”私は⇒行く”、”東京に⇒行く”、”ラーメンを⇒食べに”、”食べに⇒行く”の４つ、第２文の意味係り受けグラフが有するエッジは”東京の⇒ラーメン”、”ラーメンは⇒美味しい”の２つなので、テキストＴの係り受け回数は６となる。

テキストＴの数値比率は、例えば、テキストＴの文字数に対するテキストＴの数字数（テキストＴに含まれる数字の個数）の比の値、又は、テキストＴの語数に対するテキストＴの数値数（テキストＴに含まれる数値の個数。連続する数字は１つの数値とカウント）の比の値として定義することができる。例えば、テキストＴが”ラーメンは６５０円です”の場合、テキストＴの数値比率は３／１１≒０．２７２（前者の定義）、又は、１／５＝０．２（後者の定義）となる。

テキストＴの属性のうち、第２の特徴量Ｃ２として利用可能な属性には、例えば、文字数、語数、文数、段落数などがある。これらの属性の定義は、例えば、以下のように定義することができる。

テキストＴの文字数は、例えば、テキストＴに含まれている文字の個数として定義することができる。例えば、テキストＴが”すもももももももものうち”である場合、テキストＴの文字数は１２となる。ここでは、６回出現する文字”も”を個別にカウントしている点に留意されたい。

テキストＴの語数は、例えば、テキストＴに含まれている語（形態素）の個数として定義することができる。例えば、テキストＴが”すもももももももものうち”である場合、テキストＴは”すもも／も／もも／も／もも／の／うち”と形態素分析できるので、テキストＴの語数は７となる。ここでは、２回出現する語”もも”を個別にカウントしている（２回出現する語”も”についても同様）点に留意されたい。

テキストＴの文数は、例えば、テキストＴに含まれている文（センテンス）の個数として定義することができる。テキストＴの文数は、例えば、テキストＴに含まれる文のセパレータ（例えば、句点）の個数をカウントすることによって特定できる。

テキストＴの段落数は、例えば、テキストＴに含まれている段落の個数として定義することができる。テキストＴの段落数は、例えば、テキストＴに含まれる段落のセパレータ（例えば、改行コード）の個数をカウントすることによって特定できる。

なお、テキストのＴの各属性値（特徴量）の上述した定義は、見積方法Ｓ１の一実装例を与える一具体例に過ぎず、適宜変更することが可能である。すなわち、テキストＴの各属性値は、その概念と矛盾しない範囲で、上述した定義とは異なる定義により規定することができる。例えば、テキストＴのＴＴＲは、「語彙の豊富さ」という概念を定量的に表現したものであり、上述した定義（ＴＴＲ＝Ｖ／Ｎ）により規定してもよいし、上述した定義とは異なる定義（例えば、ＴＴＲ＝Ｌｏｇ（Ｖ）／Ｌｏｇ（Ｎ）など）により規定してもよい。

〔予測モデルの構築方法〕
予測モデルの構築方法Ｓ２について、図３を参照して説明する。図３は、予測モデルの構築方法Ｓ２の流れを示すフローチャートである。

構築方法Ｓ２は、コンピュータ１を用いて前述した予測処理Ｓ１３にて利用する予測モデルを構築する方法であり、前述した見積方法Ｓ１の一部として前述した抽出処理Ｓ１２に先行して実施される。構築方法Ｓ２は、図３に示すように、設定処理Ｓ２１と、選択処理Ｓ２２と、学習処理Ｓ２３と、評価処理Ｓ２４と、を含んでいる。

設定処理Ｓ２１は、サンプルデータ群の一部又は全部を参照して、予め定められた属性群ＧＡに含まれる各属性の重要度を設定する処理である。設定処理Ｓ２１においては、レビュー時間に対する影響が大きい属性の重要度が高く設定され、レビュー時間に対する影響が小さい属性の重要度が低く設定される。設定処理Ｓ２１は、コンピュータ１のコントローラ１２によって実行される。

ここで、サンプルデータ群とは、予めレビュー時間が実測されたテキストを含むサンプルデータの集合のことを指す。サンプルデータ群は、例えば、コンピュータ１に内蔵された補助メモリ１３、又は、コンピュータ１に接続された外部ストレージ（図１において不図示）に格納されている。また、属性群ＧＡとは、予め定められたテキストの属性の集合である。属性群ＧＡの要素とし得るテキストの属性としては、異語数、品詞数、ＴＴＲ、ＣＴＴＲ、ユールＫ特性値、係り受け回数、数値比率（以上、属性値が第１の特徴量Ｃ１となり得る属性）、文字数、語数、文数、段落数（以上、属性値が第２の特徴量Ｃ２となり得る属性）、ポジティブ数、ネガティブ数（以上、属性値が第３の特徴量Ｃ３となり得る属性）などが挙げられる。なお、設定処理Ｓ２１の具体例については、参照する図面を代えて後述する。

選択処理Ｓ２２は、属性値を特徴量群ＧＣに含める属性を属性群ＧＡから選択する処理である。選択処理Ｓ２２においては、設定処理Ｓ２１にてより高い重要度が設定された属性がより優先的に選択される。例えば、設定処理Ｓ２１にて設定された重要度の降順に予め定められた個数の属性が選択される。選択処理Ｓ２２は、設定処理Ｓ２１を実行した後、コンピュータ１のコントローラ１２によって実行される。

学習処理Ｓ２３は、サンプルデータ群に含まれる一部又は全部のサンプルデータを参照して、選択処理Ｓ２２にて選択された属性を入力（説明変数）とし、レビュー時間を出力（目的変数）とする予測モデルに、その予測精度が向上するように機械学習をさせる処理である。学習処理Ｓ２３は、選択処理Ｓ２２を実行した後、コンピュータ１のコントローラ１２によって実行される。なお、学習処理Ｓ２３は、参照可能なサンプルデータの全てを参照して実施されてもよいし、参照可能なサンプルデータの一部を参照して実施されてもよい。また、学習処理Ｓ２３は、設定処理Ｓ２１にて参照されたものと同じサンプルデータを参照して実施されてもよいし、設定処理Ｓ２１にて参照されたものと異なるサンプルデータを参照して実施されてもよい。

なお、学習処理Ｓ２３を効率化するために、学習処理Ｓ２３を実行する前にチューニング処理を実行してもよい。ここで、チューニング処理とは、予測モデルが持つハイパーパラメータをチューニングする処理のことを指す。パラメータチューニング（パラメータ探索）の方法としては、例えば、グリッドサーチ、ランダムサーチ、ベイズ最適化、メタヒューリスティックサーチなどが挙げられる。何れの方法を利用するかは、ベンチマークテストを行い、モデルの学習速度を考慮したうえで決定すればよい。

また、予め定められた精度の予測モデルを得るために、学習処理Ｓ２３を実行した後に評価処理を実行してもよい。ここで、評価処理とは、サンプルデータ群に含まれるサンプルデータのうち、学習処理Ｓ２３で利用しなかったサンプルデータを用いて、予測モデルの予測精度（例えば、予測モデルが予測したレビュー時間と実測したレビュー時間との差）を評価する処理のことを指す。また、学習処理Ｓ２３と評価処理とを効率的に実施するために、公知のＫ−ＦｏｌｄＣｒｏｓｓＶａｌｉｄａｔｉｏｎ法を用いてもよい。

構築方法Ｓ２によれば、選択処理Ｓ２２にて選択された、レビュー時間に対する影響が大きい属性を入力とする予測モデルを構築することができる。このため、全ての属性を入力とする予測モデルと比べて計算コストが低く、かつ、無作為に選択された属性を入力とする予測モデルと比べて予測精度が高い予測モデルを構築することができる。

〔設定処理の第１の具体例〕
設定処理Ｓ２１の第１の具体例（以下、「設定処理Ｓ２１Ａ」と記載）について、図４を参照して説明する。図４の（ａ）は、設定処理Ｓ２１Ａの流れを示すフローチャートである。

設定処理Ｓ２１Ａは、図４の（ａ）に示すように、算出ステップＳ２１Ａ１と、設定ステップＳ２１Ａ２と、を含んでいる。

算出ステップＳ２１Ａ１は、サンプルデータ群の一部又は全部を参照して、属性群ＧＡに含まれる各属性と実測されたレビュー時間との相関係数を算出するステップである。算出ステップＳ２１Ａ１は、コンピュータ１のコントローラ１２によって実行される。

設定ステップＳ２１Ａ２は、属性群ＧＡに含まれる各属性の重要度を、算出ステップＳ２１Ａ１にて算出された、その属性に対応する相関係数に応じた値に設定するステップである。なお、設定ステップＳ２１Ａ２は、算出ステップＳ２１Ａ１を実行した後、コンピュータ１のコントローラ１２によって実行される。

なお、設定ステップＳ２１Ａ２において設定される各属性の重要度は、例えば、その属性に対応する相関係数そのものであってもよいし、その属性に対応する相関係数から算出された別の数値であってもよい。ただし、設定ステップＳ２１Ａ２において設定される各属性の重要度は、その属性に対応する相関係数が大きくなるほど高くなり、その属性に対応する相関係数が小さくなるほど低くなるものであることが好ましい。

また、設定ステップＳ２１Ａ２において設定される各属性の重要度は、その属性とレビュー時間との相関係数のみならず、その属性と他の属性との相関係数を考慮して設定してもよい。この場合、図４の（ｂ）に示すような相関行列を作成する。そして、２つの属性の間の相関係数が予め定められた閾値よりも大きい場合、選択処理Ｓ２２にて一方の属性が選択されないように、その属性の重要度を低く設定する。これにより、予測モデルの多重共線性を低下させることができる。

〔設定処理の第２の具体例〕
設定処理Ｓ２１の第２の具体例（以下、「設定処理Ｓ２１Ｂ」と記載）について、図５を参照して説明する。図５の（ａ）は、設定処理Ｓ２１Ｂの流れを示すフローチャートである。

設定処理Ｓ２１Ｂは、図５の（ａ）に示すように、作成ステップＳ２１Ｂ１と、設定ステップＳ２１Ｂ２と、を含んでいる。

作成ステップＳ２１Ｂ１は、サンプルデータ群を参照して、属性群ＧＡに含まれる各属性を説明変数とし、レビュー時間を目的変数とする重回帰式を作成するステップである。作成ステップＳ２１Ｂ１にて作成される重回帰式の例を、図５の（ｂ）に示す。図５の（ｂ）に示す重回帰式は、属性群ＧＡに含まれる属性ｘ_１，ｘ_２，…，ｘ_ｋを説明変数、レビュー時間ｙを目的変数とする重回帰式である。図５の（ｂ）に示す重回帰式において、ｂ_１，ｂ_２，…，ｂ_ｋは偏回帰変数であり、ｅは誤差である。作成ステップＳ２１Ｂ１は、コンピュータ１のコントローラ１２によって実行される。

設定ステップＳ２１Ｂ２は、属性群ＧＡに含まれる各属性の重要度を、作成ステップＳ２１Ｂ１にて作成された重回帰式において、その属性に対応する偏回帰係数の大きさに応じた値に設定するステップである。設定ステップＳ２１Ｂ２は、作成ステップＳ２１Ｂ１を実行した後、コンピュータ１のコントローラ１２によって実行される。

なお、設定ステップＳ２１Ｂ２において設定される各属性の重要度は、例えば、その属性に対応する偏回帰係数の大きさそのものであってもよいし、その属性に対応する偏回帰係数の大きさから算出された別の数値であってもよい。ただし、設定ステップＳ２１Ｂ２において設定される各属性の重要度は、その属性に対応する偏回帰係数の大きさが大きくなるほど高くなり、その属性に対応する偏回帰係数の大きさが小さくなるほど低くなるものであることが好ましい。

本具体例によれば、作成ステップＳ２１Ｂ１にて作成された重回帰式から、選択処理Ｓ２２にて選択された属性に対応する項を除いた重回帰式を、予測処理Ｓ１３に用いる予測モデルとして利用することができる。したがって、構築方法Ｓ２の実施に際して、学習処理Ｓ２３を省略することができる。このため、構築方法Ｓ２の実施に要する計算コストを低く抑えることができる。

〔設定処理の第３の具体例〕
設定処理Ｓ２１の第３の具体例（以下、「設定処理Ｓ２１Ｃ」と記載）について、図６を参照して説明する。図６の（ａ）は、設定処理Ｓ２１Ｃの流れを示すフローチャートである。

設定処理Ｓ２１Ｃは、図６の（ａ）に示すように、作成ステップＳ２１Ｃ１と、設定ステップＳ２１Ｃ２と、を含んでいる。

作成ステップＳ２１Ｃ１は、前述したサンプルデータを参照して、属性群ＧＡに含まれる各属性を説明変数とし、レビュー時間を目的変数とする回帰木を作成するステップである。作成ステップＳ２１Ｃ１にて作成される回帰木の例を図６の（ｂ）に示す。作成ステップＳ２１Ｃ１は、コンピュータ１のコントローラ１２によって実行される。なお、回帰木を作成する方法としては、例えば、ＸＧＢｏｏｓｔを用いることができる。

設定ステップＳ２１Ｃ２は、属性群ＧＡに含まれる各属性の重要度を、作成ステップＳ２１Ｃ１にて作成された回帰木において、その属性に対応する分岐条件を変化させたことにより生じる回帰木の出力の変化の大きさに応じた値に設定するステップである。設定ステップＳ２１Ｃ２は、作成ステップＳ２１Ｃ１を実行した後、コンピュータ１のコントローラ１２によって実行される。

なお、設定ステップＳ２１Ｃ２において設定される各属性の重要度は、例えば、その属性に対応する出力の変化の大きさそのものであってもよいし、その属性に対応する出力の変化の大きさから算出された別の数値であってもよい。ただし、設定ステップＳ２１Ｃ２において設定される各属性の重要度は、その属性に対応する出力の変化の大きさが大きくなるほど高くなり、その属性に対応する出力の変化の大きさが小さくなるほど低くなるものであることが好ましい。

本具体例によれば、作成ステップＳ２１Ｃ１にて作成された回帰木から、選択処理Ｓ２２にて選択された属性に対応する分岐条件を除いた回帰木を、予測処理Ｓ１３に用いる予測モデルとして利用することができる。したがって、構築方法Ｓ２の実施に際して、学習処理Ｓ２３を省略することができる。このため、構築方法Ｓ２の実施に要する計算コストを低く抑えることができる。

〔データの種類〕
本実施形態においては、電子データを主に「テキストデータ」として説明したが、「電子データ」は、上記コンピュータ１によって処理可能となる形式で表現された任意の電子データを全て含んでよい。上記電子データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ（例えば、電子メール（添付ファイル・ヘッダ情報を含む）、技術文書（例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む）、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど）、音声データ（例えば、会話・音楽などを録音したデータ）、画像データ（例えば、複数の画素またはベクター情報から構成されるデータ）、映像データ（例えば、複数のフレーム画像から構成されるデータ）などを広く含む。

〔まとめ〕
本発明の第１の態様に係る見積方法は、少なくとも１つの電子データを含むデータセットを格納したメモリとコントローラとを備えたコンピュータを用いて、前記データセットのレビュー作業に要する費用を見積もる見積方法であって、前記メモリが、前記データセットを記憶する記憶処理と、前記コントローラが、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記コントローラが、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記コントローラが、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を含んでいる、見積方法である。

本発明の第２の態様に係る見積方法は、第１の態様に係る見積方法において、前記予測処理は、各電子データのコンテンツの特徴量を入力とし、該電子データのレビュー作業に要する時間を出力とする予測モデルであって、機械学習によって構築された予測モデルを用いて、各電子データのレビュー作業に要する時間を予測する処理である、見積方法である。

本発明の第３の態様に係る見積方法は、第１又は第２の態様に係る見積方法において、前記評価処理は、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間の総和に比例するように評価する処理である、見積方法である。

本発明の第４の態様に係る見積方法は、本発明の第１〜第３の態様に係る見積方法の何れかにおいて、前記見積処理は、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に比例するように見積もる処理である、見積方法である。

本発明の第５の態様に係る見積方法は、本発明の第１〜第４の態様に係る見積方法の何れかにおいて、上記データセットは、コンテンツの特徴量に応じてレビュー作業に要する時間が変動する電子データを含んでいる、見積方法である。

本発明の第６の態様に係る見積方法は、本発明の第１〜第５の態様に係る見積方法の何れかにおいて、前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの複雑さを表す特徴量を含む特徴量群に基づいて予測する処理である、見積方法である。

本発明の第７の態様に係る見積方法は、本発明の第１〜第６の態様に係る見積方法の何れかにおいて、前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツのサイズを表す特徴量を含む特徴量群に基づいて予測する処理である、見積方法である。

本発明の第８の態様に係る見積方法は、本発明の第１〜第７の態様に係る見積方法の何れかにおいて、前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの感情傾向を表す特徴量を含む特徴量群に基づいて予測する処理である、見積方法である。

本発明の第９の態様に係る見積方法は、本発明の第１〜第８の態様に係る見積方法の何れかにおいて、前記予測処理に先行して実行する処理として、前記コントローラが、レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、予め定められた属性群に含まれる各属性の重要度を設定する設定処理と、前記コントローラが、前記特徴量として利用するコンテンツの属性を前記属性群から選択する選択処理であって、前記設定処理にてより高い重要度が設定された属性をより優先的に選択する選択処理と、を更に含んでいる、見積方法である。

本発明の第１０の態様に係る見積方法は、本発明の第９の態様に係る見積方法において、前記設定処理は、（１）レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性と実測されたレビュー時間との相関係数を算出する算出ステップと、（２）前記属性群に含まれる各属性の重要度を、前記算出ステップにて算出された、該属性に対応する相関係数に応じて設定する設定ステップと、を含んでいる、見積方法である。

本発明の第１１の態様に係る見積方法は、本発明の第９の態様に係る見積方法において、前記設定処理は、（１）レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする重回帰式を作成する作成ステップと、（２）前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された重回帰式において該属性に対応する偏回帰変数に応じて設定するステップと、を含んでいる、見積方法である。

本発明の第１２の態様に係る見積方法は、本発明の第９の態様に係る見積方法において、前記設定処理は、（１）レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする回帰木を作成する作成ステップと、（２）前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された回帰木において該属性に対応する条件を変化させたことにより生じる該回帰木の出力の変化の大きさに応じて設定する設定ステップと、を含んでいる、見積方法である。

本発明の第１３の態様に係る見積方法は、本発明の第１〜第１２の態様に係る見積方法において、前記予測処理に先行して実行する処理として、前記コントローラが、各電子データに対する前記予測処理において参照する特徴量を、当該電子データの種類に応じて切り替える切替処理を更に含んでいる、見積方法である。

本発明の第１の態様〜第１３の態様に係る見積方法は、レビュー作業を請け負った請負人が当該レビュー作業を依頼した依頼人にレビュー費用を課金する課金方法に適用することも可能である。本発明は、このような課金方法を一態様として含む。すなわち、本発明の第１４の態様は、本発明の第１の態様〜第１３の態様に係る見積方法に従って、少なくとも１つの電子データを含むデータセットのレビュー作業に要する費用を見積もる見積処理と、前記見積処理にて見積もられたレビュー費用に準じた金額（例えば、レビュー費用と同額の又は略同額の金額）を、前記レビュー作業を依頼した依頼人に課金する課金処理と、を含んでいる課金方法である。

本発明の第１５の態様に係るコンピュータは、少なくとも１つの電子データを含むデータセットを格納したメモリとコントローラとを備え、前記データセットのレビュー作業に要する費用を見積もるコンピュータであって、前記コントローラは、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する、コンピュータである。

本発明の第１６の態様に係るプログラムは、本発明の第１〜第１３の態様に係る見積方法を前記コンピュータに実施させるためのプログラムであって、前記記憶処理、前記予測処理、前記評価処理、及び前記見積処理を前記コンピュータに実行させるためのプログラムである。

本発明の第１７の態様に係るプログラムは、本発明の第１４の態様に係る課金方法を前記コンピュータに実施させるためのプログラムであって、前記記憶処理、前記予測処理、前記評価処理、及び前記見積処理を前記コンピュータに実行させるためのプログラムである。

なお、本発明の各態様は、例えば、ディスカバリにおいて米国裁判所に提出するデータを選択するためのレビュー作業に好適に適用することができる。この場合、レビュー作業は、例えば、レビューアが、（１）訴訟関係者（カストディアン）が保有する各電子データをレビューアが確認し、（２）各電子データと訴訟との関連性を評価し、（３）法廷に提出する証拠として採用するか否かを判断する作業である。ただし、本発明の各態様を適用可能なレビュー作業は、ディスカバリのための証拠の選別・収集作業に限定されない。すなわち、本発明の各態様は、電子データが予め定められた抽出条件を満たすか否かをレビューアが判断する作業一般に適用可能であり、特に、レビュー作業を行う前にレビュー工数を特定することが困難な任意のレビュー作業に対して効果を発揮する。一例として、レントゲン画像（コンテンツ）を含む画像データ（電子データ）を医師等（レビューア）が確認し、疾病の有無を判断するレビュー作業にも適用することが可能である。この場合、公知の画像診断法に利用されている任意の特徴量を、上述した特徴量として利用することが可能である。

〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１：コンピュータ、１１：メモリ、１２：コントローラ、Ｓ１：見積方法、Ｓ１１：記憶処理、Ｓ１２：抽出処理、Ｓ１３：予測処理、Ｓ１４：評価処理、Ｓ１５：見積処理、Ｓ２：構築方法、Ｓ２１：設定処理、Ｓ２２：選択処理、Ｓ２３：学習処理、Ｓ２４：評価処理

Claims

少なくとも１つの電子データを含むデータセットを格納したメモリとコントローラとを備えたコンピュータを用いて、該データセットのレビュー作業に要する費用を見積もる見積方法であって、
前記コントローラが、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、
前記コントローラが、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、
前記コントローラが、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を含んでいる、
ことを特徴とする見積方法。
前記予測処理は、各電子データのコンテンツの特徴量を入力とし、該電子データのレビュー作業に要する時間を出力とする予測モデルであって、機械学習によって構築された予測モデルを用いて、各電子データのレビュー作業に要する時間を予測する処理である、
ことを特徴とする請求項１に記載の見積方法。
前記評価処理は、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間の総和に比例するように評価する処理である、
ことを特徴とする請求項１又は２に記載の見積方法。
前記見積処理は、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に比例するように見積もる処理である、
ことを特徴とする請求項１〜３の何れか１項に記載の見積方法。
上記データセットは、コンテンツの特徴量に応じてレビュー作業に要する時間が変動する電子データを含んでいる、
ことを特徴とする請求項１〜４の何れか１項に記載の見積方法。
前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの複雑さを表す特徴量を含む特徴量群に基づいて予測する処理である、
ことを特徴とする請求項１〜５の何れか１項に記載の見積方法。
前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツのサイズを表す特徴量を含む特徴量群に基づいて予測する処理である、
ことを特徴とする請求項１〜６の何れか１項に記載の見積方法。
前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの感情傾向を表す特徴量を含む特徴量群に基づいて予測する処理である、
ことを特徴とする請求項１〜７の何れか１項に記載の見積方法。
前記予測処理に先行して実行する処理として、
前記コントローラが、レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、予め定められた属性群に含まれる各属性の重要度を設定する設定処理と、
前記コントローラが、前記特徴量として利用するコンテンツの属性を前記属性群から選択する選択処理であって、前記設定処理にてより高い重要度が設定された属性をより優先的に選択する選択処理と、を更に含んでいる、
ことを特徴とする請求項１〜８の何れか１項に記載の見積方法。
前記設定処理は、（１）レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性と実測されたレビュー時間との相関係数を算出する算出ステップと、（２）前記属性群に含まれる各属性の重要度を、前記算出ステップにて算出された、該属性に対応する相関係数に応じて設定する設定ステップと、を含んでいる、
ことを特徴とする請求項９に記載の見積方法。
前記設定処理は、（１）レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする重回帰式を作成する作成ステップと、（２）前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された重回帰式において該属性に対応する偏回帰変数に応じて設定するステップと、を含んでいる、
ことを特徴とする請求項９に記載の見積方法。
前記設定処理は、（１）レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする回帰木を作成する作成ステップと、（２）前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された回帰木において該属性に対応する条件を変化させたことにより生じる該回帰木の出力の変化の大きさに応じて設定する設定ステップと、を含んでいる、
ことを特徴とする請求項９に記載の見積方法。
前記予測処理に先行して実行する処理として、前記コントローラが、各電子データに対する前記予測処理において参照する特徴量を、当該電子データの種類に応じて切り替える切替処理を更に含んでいる、
ことを特徴とする請求項１〜１２の何れか１項に記載の見積方法。
請求項１〜１３の何れか１項に記載の見積方法に従って、前記データセットのレビュー作業に要する費用を見積もる見積処理と、
前記見積処理にて見積もられたレビュー費用に準じた金額を、前記レビュー作業を依頼した依頼人に課金する課金処理と、を含んでいる、
ことを特徴とする課金方法。
少なくとも１つの電子データを含むデータセットを格納したメモリとコントローラとを備え、該データセットのレビュー作業に要する費用を見積もるコンピュータであって、
前記コントローラは、
各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、
前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、
前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する、
ことを特徴とするコンピュータ。
請求項１〜１３の何れか１項に記載の見積方法を前記コンピュータに実施させるためのプログラムであって、前記各処理を前記コンピュータに実行させるためのプログラム。
請求項１４に記載の課金方法を前記コンピュータに実施させるためのプログラムであって、前記各処理を前記コンピュータに実行させるためのプログラム。