JP6605683B1 - 見積方法、課金方法、コンピュータ、及びプログラム - Google Patents

見積方法、課金方法、コンピュータ、及びプログラム Download PDF

Info

Publication number
JP6605683B1
JP6605683B1 JP2018203078A JP2018203078A JP6605683B1 JP 6605683 B1 JP6605683 B1 JP 6605683B1 JP 2018203078 A JP2018203078 A JP 2018203078A JP 2018203078 A JP2018203078 A JP 2018203078A JP 6605683 B1 JP6605683 B1 JP 6605683B1
Authority
JP
Japan
Prior art keywords
electronic data
review
attribute
estimation method
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018203078A
Other languages
English (en)
Other versions
JP2020071523A (ja
Inventor
陵大 田村
陵大 田村
和巳 蓮子
和巳 蓮子
井口 慎也
慎也 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fronteo Inc
Original Assignee
Fronteo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fronteo Inc filed Critical Fronteo Inc
Priority to JP2018203078A priority Critical patent/JP6605683B1/ja
Priority to US16/590,505 priority patent/US20200134680A1/en
Application granted granted Critical
Publication of JP6605683B1 publication Critical patent/JP6605683B1/ja
Publication of JP2020071523A publication Critical patent/JP2020071523A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来の見積方法よりも正確であり、かつ、従来の見積方法よりも依頼人の納得感が得られ易い見積額を得る。【解決手段】コンピュータ(1)は、メモリ(11)とコントローラ(12)とを備え、メモリ(11)は、データセット(DS)を記憶し、コントローラ(12)は、各電子データ(Di)のレビュー作業に要する時間を、電子データ(Di)に含まれるコンテンツ(Ti)の特徴量に基づいて予測する予測処理と、データセット(DS)のレビュー作業に要する工数を、各電子データに(Di)ついて前記予測処理にて予測された時間に基づいて評価する評価処理と、データセット(DS)のレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する。【選択図】図1

Description

本発明は、データセットのレビュー作業に要する費用を見積もる見積方法に関する。また、そのような見積方法に従ってデータセットのレビュー作業に要する費用を見積もる見積処理を含む課金方法、そのような見積方法を実施するコンピュータ、そのような見積方法を実施するためのプログラム、及び、そのような課金方法を実施するためのプログラムに関する。
少なくとも1つの電子データを含むデータセットをレビューする作業(以下、「レビュー作業」と記載する)を請け負う請負人は、レビュー作業を完了する前に、レビュー作業に要する費用を、レビュー作業を依頼する依頼人に提示する必要がある。このため、請負人は、レビュー作業を完了する前に、レビュー作業に要する費用(以下、「レビュー費用」と記載する)を、レビュー作業に要する工数(以下、「レビュー工数」と記載する)に応じて見積もる必要がある。しかしながら、データセットに含まれる各電子データのレビューに要する時間(以下、「レビュー時間」と記載する)は、その電子データに含まれるコンテンツの性質に応じて変動する。このため、レビュー工数がデータセットに含まれる電子データの数に比例するという単純な仮定に基づいてレビュー費用を見積もると、見積額が極めて不正確となる。
このため、請負人は、従来、見積対象となるデータセット(以下、「対象データセット」と記載する)のレビュー工数(未知)を、対象データセットに類似するデータセットであって、既にレビュー作業が完了したデータセット(以下、「参照データセット」と記載する)のレビュー工数(既知)に基づいて評価し、評価したレビュー工数に基づいて対象データセットのレビュー費用を見積もっていた。例えば、請負人は、参照データセットのレビュー工数を対象データセットのレビュー工数と見做し、このレビュー工数に所定の単価(単位工数あたりの費用)を乗じることによって、対象データセットのレビュー費用を見積もっていた。
国際公開第2017/068750号
しかしながら、従来の見積方法には、レビュー工数の評価が不正確であることによって、レビュー費用の見積もりが不適切(実際のレビュー工数に対して過小又は過大)になるという問題があった。
この問題について、より具体的な例を挙げて説明すれば、以下のとおりである。
まず、対象データセットのレビュー工数を評価する際に参照する参照データセットは、請負人(例えば、営業担当者)によって選択される。参照データセットの選択に際して、請負人は、例えば、(1)レビュー作業の種類(例えば、ディスカバリのためのレビュー作業の場合は、訴訟の種類)、(2)対象データセットに含まれるデータの種類毎(例えば、拡張子毎)のデータ数、(3)対象データセットに含まれるデータの言語などの各種情報を参考にすることができる。
しかしながら、対象データセット及び参照データセットには、通常、コンテンツの性質(例えば、サイズ、複雑さ、感情傾向など)が異なる電子データが混在している。電子データのレビュー時間はコンテンツの性質に左右されるので、このことは、対象データセット及び参照データセットに、レビュー時間の異なる電子データが混在していることを意味する。特に、対象データセットに関して、どのくらいレビュー時間を要する電子データがどのような割合で含まれているかを、請負人はレビュー作業を完了する前に知ることができない。このため、請負人が類似していると判断した対象データセットと参照データセットとの間でも、上記の割合が相違するという事態が発生する。例えば、参照データセットには、レビュー時間が5分以上となるデータが15%、レビュー時間が1分以上5分未満となるデータが60%、レビュー時間が1分未満となるデータが25%含まれているのに対して、対象データセットには、レビュー時間が5分以上となるが50%、レビュー時間が1分以上5分未満となるデータが40%、レビュー時間が1分未満となるデータが10%含まれているという事態が発生する。
このため、請負人が、上述した各種情報を参考にして対象データセットに類似する参照データセットを選択したとしても、参照データセットのレビュー工数に基づく対象データセットのレビュー工数の評価が不正確になる。その結果、評価した工数に基づいて見積もられるレビュー費用が不適切になる。
なお、従来の見積方法には、請負人によってレビュー費用が過大に見積もられる可能性を排除することができず、場合によっては、レビュー費用の見積もりに対する依頼人の納得感が低いという副次的な問題が生じることもある。
すなわち、従来の見積方法では、請負人が評価した対象データセットのレビュー工数に応じて算出される。このため、請負人が対象データセットのレビュー工数を意図的に過大に評価することによって、レビュー費用を過大に見積もる可能性を排除することができない。このことが、依頼人に不信感を与え、見積額に対する依頼人の納得感が得られ難い原因となっている。なお、請負人がレビュー費用を過大に見積もる目的としては、不当な利益を得ることの他に、レビューアの能力が低かった場合(レビュー速度が遅かった場合)に生じ得る利益圧迫と作業遅延を避けることが挙げられる。
また、別の見方をすると、この問題は、以下のように説明することもできる。すなわち、レビュー工数を過大に評価することは、見積額が高額になるため、請負人の利益に繋がる。一方、レビュー工数を過小に評価することは、見積額が低額になるため、依頼人の利益に繋がる。このように請負人の利益と依頼人の利益とが相反している以上、レビュー工数の評価に請負人の随意性が入り込む余地のある従来の見積方法では、依頼人の納得する見積額を得ることは難しい。
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的は、レビュー費用の見積もりを従来よりも適切に行うことにある。
上記の課題を解決するために、本発明の一態様に係る見積方法は、メモリとコントローラとを備えたコンピュータを用いて、少なくとも1つの電子データを含むデータセットのレビュー作業に要する費用を見積もる見積方法であって、前記メモリが、前記データセットを記憶する記憶処理と、前記コントローラが、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記コントローラが、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記コントローラが、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を含んでいる。
また、上記の課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備え、少なくとも1つの電子データを含むデータセットのレビュー作業に要する費用を見積もるコンピュータであって、前記メモリは、前記データセットを記憶し、前記コントローラは、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する。
本発明の一態様によれば、レビュー費用の見積もりを従来よりも適切に行うことができる。
本発明の実施形態1に係るコンピュータの構成を示すブロック図である。 図1に示すコンピュータを用いて実施されるレビュー費用の見積方法の流れを示すフローチャートである。 図2に示す見積方法の一部として実施可能な予測モデルの構築方法の流れを示すフローチャートである。 図2に示す構築方法に含まれる設定処理の第1の具体例を示すフローチャートである。 図2に示す構築方法に含まれる設定処理の第2の具体例を示すフローチャートである。 図2に示す構築方法に含まれる設定処理の第3の具体例を示すフローチャートである。
〔コンピュータの構成〕
本発明の一実施形態に係るコンピュータ1の構成について、図1を参照して説明する。図1は、コンピュータ1の構成を示すブロック図である。
コンピュータ1は、図1に示したように、バス10と、主メモリ11と、コントローラ12と、補助メモリ13と、入出力インターフェース14と、を備えている。コントローラ12、補助メモリ13、及び入出力インターフェース14は、バス10を介して互いに接続されている。主メモリ11としては、例えば、1又は複数の半導体RAM(random access memory)が用いられる。コントローラ12としては、例えば、1又は複数のCPU(Central Processing Unit)が用いられる。補助メモリ13としては、例えば、HDD(Hard Disk Drive)が用いられる。入出力インターフェース14としては、例えば、USB(Universal Serial Bus)インターフェースが用いられる。
入出力インターフェース14には、例えば、入力装置2及び出力装置3が接続される。入力装置2としては、例えば、キーボード及びマウスが用いられる。出力装置3としては、例えば、ディスプレイ及びプリンタが用いられる。なお、コンピュータ1は、ラップトップ型コンピュータのように、入力装置2として機能するキーボート及び出力装置3として機能するディスプレイを内蔵していてもよい。また、コンピュータ1は、スマートフォン又はタブレット型コンピュータのように、入力装置2及び出力装置3として機能するタッチパネルを内蔵していてもよい。
補助メモリ13には、後述する見積方法S1をコンピュータ1に実施させるためのプログラムPが格納されている。コントローラ12は、補助メモリ13に格納されたプログラムPを主メモリ11上に展開し、主メモリ11上に展開されたプログラムPに含まれる各命令を実行することによって、後述する見積方法S1に含まれる各ステップを実行する。また、補助メモリ13には、後述する見積方法S1においてコンピュータ1が参照するデータセットDSが格納されている。データセットDSは、少なくとも1つの電子データD1,D2,…,Dn(nは1以上の任意の自然数)の集合である。コントローラ12は、補助メモリ13に格納された各電子データDi(i=1,2,…,n)を主メモリ11上に展開し、これを後述する見積方法S1に含まれる各ステップにおいて参照する。
なお、コンピュータ1が内部記憶媒体である補助メモリ13に格納されているプログラムPを用いて後述する見積方法S1を実施する形態について説明したが、これに限定されない。すなわち、コンピュータ1が外部記録媒体に格納されているプログラムPを用いて後述する見積方法S1を実施する形態を採用してもよい。この場合、外部記録媒体としては、コンピュータ1が読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブル論理回路などを用いることができる。あるいは、コンピュータ1が通信ネットワークを介して取得したプログラムPを用いて後述する見積方法S1を実施する形態を採用してもよい。この場合、通信ネットワークとしては、例えば、インターネット、又はLANなどを用いることができる。
〔レビュー時間の見積方法〕
本発明の一実施形態に係るレビュー時間の見積方法S1について、図2を参照して説明する。図2は、レビュー時間の見積方法S1の流れを示すフローチャートである。
見積方法S1は、コンピュータ1を用いてデータセットDSのレビュー費用を見積もる方法である。見積方法S1は、図2に示すように、記憶処理S11と、抽出処理S12と、予測処理S13と、評価処理S14と、見積処理S15と、を含んでいる。
記憶処理S11は、コンピュータ1のメモリ(主メモリ11又は補助メモリ13)がデータセットDSを記憶する処理である。記憶処理S11は、コンピュータ1のコントローラ12の制御によって実行される。
データセットDSは、電子データD1,D2,…,Dnの集合である。各電子データDiは、テキストTiをコンテンツとして含む。このような電子データとしては、例えば、TXTデータ(プレインテキストデータ)、RTFデータ(リッチテキストデータ)、HTMLデータ、XMLデータ、PDFデータ、DOCデータ、又はEMLデータが挙げられる。
抽出処理S12は、データセットDSに含まれる各電子データDiについて、電子データDiに含まれるテキストTiの予め選択された属性(例えば、文字数)の属性値(例えば、100文字)を、メモリに記憶された電子データDiから抽出する処理である。抽出処理S12は、記憶処理S11を実行した後に、コンピュータ1のコントローラ12によって実行される。
以下、抽出処理S12にて抽出される属性値を、特徴量と呼び、抽出処理S12にて抽出される属性値の集合を、特徴量群GCと呼ぶ。この特徴量群GCには、(1)テキストTの複雑さを表す第1の特徴量C1と、(2)テキストTのサイズを表す第2の特徴量C2と、(3)テキストTの感情傾向を表す第3の特徴量C3と、が含まれ得る。
第1の特徴量C1として利用可能なテキストTの属性値としては、例えば、異語数、品詞数、TTR(Type Token Ratio)、CTTR(Corrected Type Token Ratio)、ユールK特性値、係り受け回数、数値比率などが挙げられる。テキストTの複雑さを表すこれらの属性値の一部又は全部の組み合わせを、第1の特徴量C1として利用することもできる。なお、これらの属性値の定義については、後述する。
第2の特徴量C2として利用可能なテキストTの属性値としては、例えば、文字数、語数、文数、段落数などが挙げられる。テキストTのサイズを表すこれらの属性値の一部又は全部の組み合わせを、第2の特徴量C2として利用することもできる。なお、これらの属性値の定義については、後述する。
第3の特徴量C3として利用可能なテキストTの属性値としては、例えば、ポジティブ数、ネガティブ数などが挙げられる。ここで、ポジティブ数は、テキストTのポジティブさを表し、例えば、ポジティブ語として予め定め定められた語のテキストTにおける出現回数によって定義される。また、ネガティブ数は、テキストTのネガティブさを表し、例えば、ネガティブ語として予め定められた語のテキストTにおける出現回数によって定義される。
なお、特徴量群GCには、各品詞のテキストTにおける出現回数を含めてもよい。例えば、テキストTに含まれる各語を、英文字、未知語、名詞、動詞、形容詞、副詞、感動詞、接頭辞、助動詞、接続詞、フィラー、連体詞、助詞、記号、数字、その他に分類し、各品詞のテキストTにおける出現回数を特徴量群GCに含めてもよい。
予測処理S13は、データセットDSに含まれる各電子データDiについて、抽出処理S12にて抽出された特徴量群GCに基づいて、電子データDiのレビュー時間tiを予測する処理である。予測処理S13は、抽出処理S12を実行した後に、コンピュータ1のコントローラ12によって実行される。ここで、レビュー時間とは、出力された(表示された、印刷された、又は読み上げられた)テキストTを人間がレビューするのに要する時間のことを指す。
予測処理S13を実行するために、コントローラ12は、例えば、予め構築された予測モデルに従って、抽出処理S12にて抽出された特徴量群GCから電子データDiのレビュー時間tiを算出する。予測処理S13に利用する予測モデルは、電子データDiに含まれるテキストTiの特徴量群GCを入力とし、レビュー時間tiを出力とする、機械学習により構築された予測モデルであり、例えば、ELM(Extreme Learning Machine)、SVR(Support Vector Machine)、回帰木、XGBoost、ランダムフォレスト、DNN(Deep Neural Network)などである。なお、予測処理S13にて利用される予測モデルの構築方法S2については、参照する図面を代えて後述する。
評価処理S14は、データセットDSのレビュー工数mhを、各電子データDiについて予測処理S13にて予測されたレビュー時間tiに基づいて評価する処理である。評価処理S14は、データセットDSに含まれる全ての電子データD1,D2,…,Dnに対する予測処理S13を完了した後に、コンピュータ1のコントローラ12によって実行される。
評価処理S14を実行するために、コントローラ12は、例えば、予測処理S13にて予測されたレビュー時間t1,t2,…,tnの総和t=t1+t2+…+tnを算出すると共に、算出された総和tに比例するレビュー工数mh=α×tを算出する。ここで、αは、比例定数である。例えば、各レビュー時間tiの単位が「時間」であり、各レビューアの1日あたりの作業時間が8時間である場合、αを1/8とすれば、「人日」単位のレビュー工数mhを算出することができる。
見積処理S15は、評価処理S14にて評価されたレビュー工数mhに基づいて、データセットDSのレビュー費用cを見積もる処理である。見積処理S15は、評価処理S14を実行した後に、コンピュータ1のコントローラ12によって実行される。ここで、レビュー費用とは、データセットDSに含まれる電子データD1,D2,…,Dnを人間がレビューする作業に対する対価である。見積処理S15にて算出されたレビュー費用cは、例えば、レビュー作業を請け負った請負人がレビュー作業を依頼した依頼人に対して発行する見積書又は請求書に記載される。
見積処理S15を実行するために、コントローラ12は、例えば、評価処理S14にて評価されたレビュー工数mhに比例するレビュー費用c=β×mhを算出する。ここで、βは、比例定数であり、単位工数あたりのレビュー費用を表す。
以上のように、本実施形態に係る見積方法S1によれば、データセットDSに含まれる各電子データDiのレビュー時間tiが、その電子データDiに含まれるテキストTiの特徴量に基づいて予測され、データセットDSのレビュー工数mhが、データセットDSに含まれる電子データD1,D2,…,Dnのレビュー時間t1,t2,…,tnに基づいて評価される。すなわち、従来の見積方法においては、参照データセットのレビュー工数に基づいて行われていたデータセットDSのレビュー工数mhの評価が、本実施形態に係る見積方法S1においては、電子データD1,D2,…,Dnに含まれるテキストT1,T2,…,Tnの特徴量に基づいて行われる。このため、本実施形態に係る見積方法S1によれば、(a)レビュー工数mhの評価を従来よりも正確に行うことが可能になると共に、(b)請負人によって、意図的にレビュー工数mhが過大に評価される可能性を従来よりも低下させることが可能になる。したがって、本実施形態に係る見積方法S1によれば、(a)レビュー費用cの見積もりを従来よりも適切に行うことが可能になると共に、(b)レビュー費用cの見積もりに対する依頼人の納得感を従来よりも高くすることが可能になる。
なお、コントローラ12は、電子データDiの種類に応じて、特徴量群GCに含める特徴量を切り替える切替処理を、抽出処理S12に先行して実行してもよい。電子データDiの種類は、例えば、電子データDiのファイル名に含まれる拡張子に基づいて判別することが可能である。この場合、電子データDiの種類に応じた、更に適切な工数評価を行うことができる。なお、この場合、電子データDiの種類毎に以下に説明する構築方法S2を実施し、電子データDiの種類毎に予測処理S13に利用する予測モデルを構築する。
〔各特徴量の定義〕
テキストTの属性値のうち、第1の特徴量C1として利用可能な属性値には、例えば、異語数、品詞数、TTR、CTTR、ユールK特性値、係り受け回数、数値比率などがある。これらの属性値は、例えば、以下のように定義することができる。
テキストTの異語数(語彙数)は、例えば、テキストTに出現する異語の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、テキストTに出現する異語は”すもも”、”も”、”もも”、”の”、”うち”の5つなので、テキストTの異語数は5となる。ここでは、2回出現する語”もも”を個別にカウントしていない(2回出現する形態素”も”についても同様)点に留意されたい。
テキストTの品詞数は、例えば、テキストTに出現する品詞の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも(名詞)/も(助詞)/もも(名詞)/も(助詞)/もも(名詞)/の(助詞)/うち(名詞)”と形態素分析でき、テキストTに出現する品詞は名詞、助詞の2つなので、テキストTの品詞数は2となる。
テキストTのTTRは、例えば、テキストTの語数をN、テキストTの異語数をVとして、下記の式(1)により定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、語数は7であり、異語数は5であるので、テキストTのTTRは5/7≒0.714となる。
Figure 0006605683
テキストTのCTTRは、例えば、テキストTの語数をN、テキストTの異語数をVとして、下記の式(2)により定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、語数は7であり、異語数は5であるので、テキストTのCTTRは5/(2×7)1/2≒1.34となる。
Figure 0006605683
テキストTのユールK特性値は、例えば、テキストTの語数をN、テキストTにm回出現する語の個数をV(m)として、下記の式(3)により定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、語数は7であり、テキストTに1回出現する語は”すもも”、”の”、”うち”の3つであり、テキストTに2回出現する語は”もも”、”も”の2つであるので、テキストTのユールK値特性は、10×(3×1+2×2−7)/7≒816となる。
Figure 0006605683
テキストTの係り受け回数は、例えば、テキストTに含まれる各文の意味係り受けグラフが有するエッジ(アーク)の個数の合計として定義することができる。例えば、テキストTが”私は東京にラーメンを食べに行く。東京のラーメンは美味しい。”である場合、第1文の意味係受けグラフが有するエッジは”私は⇒行く”、”東京に⇒行く”、”ラーメンを⇒食べに”、”食べに⇒行く”の4つ、第2文の意味係り受けグラフが有するエッジは”東京の⇒ラーメン”、”ラーメンは⇒美味しい”の2つなので、テキストTの係り受け回数は6となる。
テキストTの数値比率は、例えば、テキストTの文字数に対するテキストTの数字数(テキストTに含まれる数字の個数)の比の値、又は、テキストTの語数に対するテキストTの数値数(テキストTに含まれる数値の個数。連続する数字は1つの数値とカウント)の比の値として定義することができる。例えば、テキストTが”ラーメンは650円です”の場合、テキストTの数値比率は3/11≒0.272(前者の定義)、又は、1/5=0.2(後者の定義)となる。
テキストTの属性のうち、第2の特徴量C2として利用可能な属性には、例えば、文字数、語数、文数、段落数などがある。これらの属性の定義は、例えば、以下のように定義することができる。
テキストTの文字数は、例えば、テキストTに含まれている文字の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTの文字数は12となる。ここでは、6回出現する文字”も”を個別にカウントしている点に留意されたい。
テキストTの語数は、例えば、テキストTに含まれている語(形態素)の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析できるので、テキストTの語数は7となる。ここでは、2回出現する語”もも”を個別にカウントしている(2回出現する語”も”についても同様)点に留意されたい。
テキストTの文数は、例えば、テキストTに含まれている文(センテンス)の個数として定義することができる。テキストTの文数は、例えば、テキストTに含まれる文のセパレータ(例えば、句点)の個数をカウントすることによって特定できる。
テキストTの段落数は、例えば、テキストTに含まれている段落の個数として定義することができる。テキストTの段落数は、例えば、テキストTに含まれる段落のセパレータ(例えば、改行コード)の個数をカウントすることによって特定できる。
なお、テキストのTの各属性値(特徴量)の上述した定義は、見積方法S1の一実装例を与える一具体例に過ぎず、適宜変更することが可能である。すなわち、テキストTの各属性値は、その概念と矛盾しない範囲で、上述した定義とは異なる定義により規定することができる。例えば、テキストTのTTRは、「語彙の豊富さ」という概念を定量的に表現したものであり、上述した定義(TTR=V/N)により規定してもよいし、上述した定義とは異なる定義(例えば、TTR=Log(V)/Log(N)など)により規定してもよい。
〔予測モデルの構築方法〕
予測モデルの構築方法S2について、図3を参照して説明する。図3は、予測モデルの構築方法S2の流れを示すフローチャートである。
構築方法S2は、コンピュータ1を用いて前述した予測処理S13にて利用する予測モデルを構築する方法であり、前述した見積方法S1の一部として前述した抽出処理S12に先行して実施される。構築方法S2は、図3に示すように、設定処理S21と、選択処理S22と、学習処理S23と、評価処理S24と、を含んでいる。
設定処理S21は、サンプルデータ群の一部又は全部を参照して、予め定められた属性群GAに含まれる各属性の重要度を設定する処理である。設定処理S21においては、レビュー時間に対する影響が大きい属性の重要度が高く設定され、レビュー時間に対する影響が小さい属性の重要度が低く設定される。設定処理S21は、コンピュータ1のコントローラ12によって実行される。
ここで、サンプルデータ群とは、予めレビュー時間が実測されたテキストを含むサンプルデータの集合のことを指す。サンプルデータ群は、例えば、コンピュータ1に内蔵された補助メモリ13、又は、コンピュータ1に接続された外部ストレージ(図1において不図示)に格納されている。また、属性群GAとは、予め定められたテキストの属性の集合である。属性群GAの要素とし得るテキストの属性としては、異語数、品詞数、TTR、CTTR、ユールK特性値、係り受け回数、数値比率(以上、属性値が第1の特徴量C1となり得る属性)、文字数、語数、文数、段落数(以上、属性値が第2の特徴量C2となり得る属性)、ポジティブ数、ネガティブ数(以上、属性値が第3の特徴量C3となり得る属性)などが挙げられる。なお、設定処理S21の具体例については、参照する図面を代えて後述する。
選択処理S22は、属性値を特徴量群GCに含める属性を属性群GAから選択する処理である。選択処理S22においては、設定処理S21にてより高い重要度が設定された属性がより優先的に選択される。例えば、設定処理S21にて設定された重要度の降順に予め定められた個数の属性が選択される。選択処理S22は、設定処理S21を実行した後、コンピュータ1のコントローラ12によって実行される。
学習処理S23は、サンプルデータ群に含まれる一部又は全部のサンプルデータを参照して、選択処理S22にて選択された属性を入力(説明変数)とし、レビュー時間を出力(目的変数)とする予測モデルに、その予測精度が向上するように機械学習をさせる処理である。学習処理S23は、選択処理S22を実行した後、コンピュータ1のコントローラ12によって実行される。なお、学習処理S23は、参照可能なサンプルデータの全てを参照して実施されてもよいし、参照可能なサンプルデータの一部を参照して実施されてもよい。また、学習処理S23は、設定処理S21にて参照されたものと同じサンプルデータを参照して実施されてもよいし、設定処理S21にて参照されたものと異なるサンプルデータを参照して実施されてもよい。
なお、学習処理S23を効率化するために、学習処理S23を実行する前にチューニング処理を実行してもよい。ここで、チューニング処理とは、予測モデルが持つハイパーパラメータをチューニングする処理のことを指す。パラメータチューニング(パラメータ探索)の方法としては、例えば、グリッドサーチ、ランダムサーチ、ベイズ最適化、メタヒューリスティックサーチなどが挙げられる。何れの方法を利用するかは、ベンチマークテストを行い、モデルの学習速度を考慮したうえで決定すればよい。
また、予め定められた精度の予測モデルを得るために、学習処理S23を実行した後に評価処理を実行してもよい。ここで、評価処理とは、サンプルデータ群に含まれるサンプルデータのうち、学習処理S23で利用しなかったサンプルデータを用いて、予測モデルの予測精度(例えば、予測モデルが予測したレビュー時間と実測したレビュー時間との差)を評価する処理のことを指す。また、学習処理S23と評価処理とを効率的に実施するために、公知のK−Fold Cross Validation法を用いてもよい。
構築方法S2によれば、選択処理S22にて選択された、レビュー時間に対する影響が大きい属性を入力とする予測モデルを構築することができる。このため、全ての属性を入力とする予測モデルと比べて計算コストが低く、かつ、無作為に選択された属性を入力とする予測モデルと比べて予測精度が高い予測モデルを構築することができる。
〔設定処理の第1の具体例〕
設定処理S21の第1の具体例(以下、「設定処理S21A」と記載)について、図4を参照して説明する。図4の(a)は、設定処理S21Aの流れを示すフローチャートである。
設定処理S21Aは、図4の(a)に示すように、算出ステップS21A1と、設定ステップS21A2と、を含んでいる。
算出ステップS21A1は、サンプルデータ群の一部又は全部を参照して、属性群GAに含まれる各属性と実測されたレビュー時間との相関係数を算出するステップである。算出ステップS21A1は、コンピュータ1のコントローラ12によって実行される。
設定ステップS21A2は、属性群GAに含まれる各属性の重要度を、算出ステップS21A1にて算出された、その属性に対応する相関係数に応じた値に設定するステップである。なお、設定ステップS21A2は、算出ステップS21A1を実行した後、コンピュータ1のコントローラ12によって実行される。
なお、設定ステップS21A2において設定される各属性の重要度は、例えば、その属性に対応する相関係数そのものであってもよいし、その属性に対応する相関係数から算出された別の数値であってもよい。ただし、設定ステップS21A2において設定される各属性の重要度は、その属性に対応する相関係数が大きくなるほど高くなり、その属性に対応する相関係数が小さくなるほど低くなるものであることが好ましい。
また、設定ステップS21A2において設定される各属性の重要度は、その属性とレビュー時間との相関係数のみならず、その属性と他の属性との相関係数を考慮して設定してもよい。この場合、図4の(b)に示すような相関行列を作成する。そして、2つの属性の間の相関係数が予め定められた閾値よりも大きい場合、選択処理S22にて一方の属性が選択されないように、その属性の重要度を低く設定する。これにより、予測モデルの多重共線性を低下させることができる。
〔設定処理の第2の具体例〕
設定処理S21の第2の具体例(以下、「設定処理S21B」と記載)について、図5を参照して説明する。図5の(a)は、設定処理S21Bの流れを示すフローチャートである。
設定処理S21Bは、図5の(a)に示すように、作成ステップS21B1と、設定ステップS21B2と、を含んでいる。
作成ステップS21B1は、サンプルデータ群を参照して、属性群GAに含まれる各属性を説明変数とし、レビュー時間を目的変数とする重回帰式を作成するステップである。作成ステップS21B1にて作成される重回帰式の例を、図5の(b)に示す。図5の(b)に示す重回帰式は、属性群GAに含まれる属性x,x,…,xを説明変数、レビュー時間yを目的変数とする重回帰式である。図5の(b)に示す重回帰式において、b,b,…,bは偏回帰変数であり、eは誤差である。作成ステップS21B1は、コンピュータ1のコントローラ12によって実行される。
設定ステップS21B2は、属性群GAに含まれる各属性の重要度を、作成ステップS21B1にて作成された重回帰式において、その属性に対応する偏回帰係数の大きさに応じた値に設定するステップである。設定ステップS21B2は、作成ステップS21B1を実行した後、コンピュータ1のコントローラ12によって実行される。
なお、設定ステップS21B2において設定される各属性の重要度は、例えば、その属性に対応する偏回帰係数の大きさそのものであってもよいし、その属性に対応する偏回帰係数の大きさから算出された別の数値であってもよい。ただし、設定ステップS21B2において設定される各属性の重要度は、その属性に対応する偏回帰係数の大きさが大きくなるほど高くなり、その属性に対応する偏回帰係数の大きさが小さくなるほど低くなるものであることが好ましい。
本具体例によれば、作成ステップS21B1にて作成された重回帰式から、選択処理S22にて選択された属性に対応する項を除いた重回帰式を、予測処理S13に用いる予測モデルとして利用することができる。したがって、構築方法S2の実施に際して、学習処理S23を省略することができる。このため、構築方法S2の実施に要する計算コストを低く抑えることができる。
〔設定処理の第3の具体例〕
設定処理S21の第3の具体例(以下、「設定処理S21C」と記載)について、図6を参照して説明する。図6の(a)は、設定処理S21Cの流れを示すフローチャートである。
設定処理S21Cは、図6の(a)に示すように、作成ステップS21C1と、設定ステップS21C2と、を含んでいる。
作成ステップS21C1は、前述したサンプルデータを参照して、属性群GAに含まれる各属性を説明変数とし、レビュー時間を目的変数とする回帰木を作成するステップである。作成ステップS21C1にて作成される回帰木の例を図6の(b)に示す。作成ステップS21C1は、コンピュータ1のコントローラ12によって実行される。なお、回帰木を作成する方法としては、例えば、XGBoostを用いることができる。
設定ステップS21C2は、属性群GAに含まれる各属性の重要度を、作成ステップS21C1にて作成された回帰木において、その属性に対応する分岐条件を変化させたことにより生じる回帰木の出力の変化の大きさに応じた値に設定するステップである。設定ステップS21C2は、作成ステップS21C1を実行した後、コンピュータ1のコントローラ12によって実行される。
なお、設定ステップS21C2において設定される各属性の重要度は、例えば、その属性に対応する出力の変化の大きさそのものであってもよいし、その属性に対応する出力の変化の大きさから算出された別の数値であってもよい。ただし、設定ステップS21C2において設定される各属性の重要度は、その属性に対応する出力の変化の大きさが大きくなるほど高くなり、その属性に対応する出力の変化の大きさが小さくなるほど低くなるものであることが好ましい。
本具体例によれば、作成ステップS21C1にて作成された回帰木から、選択処理S22にて選択された属性に対応する分岐条件を除いた回帰木を、予測処理S13に用いる予測モデルとして利用することができる。したがって、構築方法S2の実施に際して、学習処理S23を省略することができる。このため、構築方法S2の実施に要する計算コストを低く抑えることができる。
〔データの種類〕
本実施形態においては、電子データを主に「テキストデータ」として説明したが、「電子データ」は、上記コンピュータ1によって処理可能となる形式で表現された任意の電子データを全て含んでよい。上記電子データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイル・ヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど)、音声データ(例えば、会話・音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む。
〔まとめ〕
本発明の第1の態様に係る見積方法は、少なくとも1つの電子データを含むデータセットを格納したメモリとコントローラとを備えたコンピュータを用いて、前記データセットのレビュー作業に要する費用を見積もる見積方法であって、前記メモリが、前記データセットを記憶する記憶処理と、前記コントローラが、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記コントローラが、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記コントローラが、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を含んでいる、見積方法である。
本発明の第2の態様に係る見積方法は、第1の態様に係る見積方法において、前記予測処理は、各電子データのコンテンツの特徴量を入力とし、該電子データのレビュー作業に要する時間を出力とする予測モデルであって、機械学習によって構築された予測モデルを用いて、各電子データのレビュー作業に要する時間を予測する処理である、見積方法である。
本発明の第3の態様に係る見積方法は、第1又は第2の態様に係る見積方法において、前記評価処理は、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間の総和に比例するように評価する処理である、見積方法である。
本発明の第4の態様に係る見積方法は、本発明の第1〜第3の態様に係る見積方法の何れかにおいて、前記見積処理は、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に比例するように見積もる処理である、見積方法である。
本発明の第5の態様に係る見積方法は、本発明の第1〜第4の態様に係る見積方法の何れかにおいて、上記データセットは、コンテンツの特徴量に応じてレビュー作業に要する時間が変動する電子データを含んでいる、見積方法である。
本発明の第6の態様に係る見積方法は、本発明の第1〜第5の態様に係る見積方法の何れかにおいて、前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの複雑さを表す特徴量を含む特徴量群に基づいて予測する処理である、見積方法である。
本発明の第7の態様に係る見積方法は、本発明の第1〜第6の態様に係る見積方法の何れかにおいて、前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツのサイズを表す特徴量を含む特徴量群に基づいて予測する処理である、見積方法である。
本発明の第8の態様に係る見積方法は、本発明の第1〜第7の態様に係る見積方法の何れかにおいて、前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの感情傾向を表す特徴量を含む特徴量群に基づいて予測する処理である、見積方法である。
本発明の第9の態様に係る見積方法は、本発明の第1〜第8の態様に係る見積方法の何れかにおいて、前記予測処理に先行して実行する処理として、前記コントローラが、レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、予め定められた属性群に含まれる各属性の重要度を設定する設定処理と、前記コントローラが、前記特徴量として利用するコンテンツの属性を前記属性群から選択する選択処理であって、前記設定処理にてより高い重要度が設定された属性をより優先的に選択する選択処理と、を更に含んでいる、見積方法である。
本発明の第10の態様に係る見積方法は、本発明の第9の態様に係る見積方法において、前記設定処理は、(1)レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性と実測されたレビュー時間との相関係数を算出する算出ステップと、(2)前記属性群に含まれる各属性の重要度を、前記算出ステップにて算出された、該属性に対応する相関係数に応じて設定する設定ステップと、を含んでいる、見積方法である。
本発明の第11の態様に係る見積方法は、本発明の第9の態様に係る見積方法において、前記設定処理は、(1)レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする重回帰式を作成する作成ステップと、(2)前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された重回帰式において該属性に対応する偏回帰変数に応じて設定するステップと、を含んでいる、見積方法である。
本発明の第12の態様に係る見積方法は、本発明の第9の態様に係る見積方法において、前記設定処理は、(1)レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする回帰木を作成する作成ステップと、(2)前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された回帰木において該属性に対応する条件を変化させたことにより生じる該回帰木の出力の変化の大きさに応じて設定する設定ステップと、を含んでいる、見積方法である。
本発明の第13の態様に係る見積方法は、本発明の第1〜第12の態様に係る見積方法において、前記予測処理に先行して実行する処理として、前記コントローラが、各電子データに対する前記予測処理において参照する特徴量を、当該電子データの種類に応じて切り替える切替処理を更に含んでいる、見積方法である。
本発明の第1の態様〜第13の態様に係る見積方法は、レビュー作業を請け負った請負人が当該レビュー作業を依頼した依頼人にレビュー費用を課金する課金方法に適用することも可能である。本発明は、このような課金方法を一態様として含む。すなわち、本発明の第14の態様は、本発明の第1の態様〜第13の態様に係る見積方法に従って、少なくとも1つの電子データを含むデータセットのレビュー作業に要する費用を見積もる見積処理と、前記見積処理にて見積もられたレビュー費用に準じた金額(例えば、レビュー費用と同額の又は略同額の金額)を、前記レビュー作業を依頼した依頼人に課金する課金処理と、を含んでいる課金方法である。
本発明の第15の態様に係るコンピュータは、少なくとも1つの電子データを含むデータセットを格納したメモリとコントローラとを備え、前記データセットのレビュー作業に要する費用を見積もるコンピュータであって、前記コントローラは、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する、コンピュータである。
本発明の第16の態様に係るプログラムは、本発明の第1〜第13の態様に係る見積方法を前記コンピュータに実施させるためのプログラムであって、前記記憶処理、前記予測処理、前記評価処理、及び前記見積処理を前記コンピュータに実行させるためのプログラムである。
本発明の第17の態様に係るプログラムは、本発明の第14の態様に係る課金方法を前記コンピュータに実施させるためのプログラムであって、前記記憶処理、前記予測処理、前記評価処理、及び前記見積処理を前記コンピュータに実行させるためのプログラムである。
なお、本発明の各態様は、例えば、ディスカバリにおいて米国裁判所に提出するデータを選択するためのレビュー作業に好適に適用することができる。この場合、レビュー作業は、例えば、レビューアが、(1)訴訟関係者(カストディアン)が保有する各電子データをレビューアが確認し、(2)各電子データと訴訟との関連性を評価し、(3)法廷に提出する証拠として採用するか否かを判断する作業である。ただし、本発明の各態様を適用可能なレビュー作業は、ディスカバリのための証拠の選別・収集作業に限定されない。すなわち、本発明の各態様は、電子データが予め定められた抽出条件を満たすか否かをレビューアが判断する作業一般に適用可能であり、特に、レビュー作業を行う前にレビュー工数を特定することが困難な任意のレビュー作業に対して効果を発揮する。一例として、レントゲン画像(コンテンツ)を含む画像データ(電子データ)を医師等(レビューア)が確認し、疾病の有無を判断するレビュー作業にも適用することが可能である。この場合、公知の画像診断法に利用されている任意の特徴量を、上述した特徴量として利用することが可能である。
〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1:コンピュータ、11:メモリ、12:コントローラ、S1:見積方法、S11:記憶処理、S12:抽出処理、S13:予測処理、S14:評価処理、S15:見積処理、S2:構築方法、S21:設定処理、S22:選択処理、S23:学習処理、S24:評価処理

Claims (17)

  1. 少なくとも1つの電子データを含むデータセットを格納したメモリとコントローラとを備えたコンピュータを用いて、該データセットのレビュー作業に要する費用を見積もる見積方法であって、
    前記コントローラが、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、
    前記コントローラが、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、
    前記コントローラが、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を含んでいる、
    ことを特徴とする見積方法。
  2. 前記予測処理は、各電子データのコンテンツの特徴量を入力とし、該電子データのレビュー作業に要する時間を出力とする予測モデルであって、機械学習によって構築された予測モデルを用いて、各電子データのレビュー作業に要する時間を予測する処理である、
    ことを特徴とする請求項1に記載の見積方法。
  3. 前記評価処理は、前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間の総和に比例するように評価する処理である、
    ことを特徴とする請求項1又は2に記載の見積方法。
  4. 前記見積処理は、前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に比例するように見積もる処理である、
    ことを特徴とする請求項1〜3の何れか1項に記載の見積方法。
  5. 上記データセットは、コンテンツの特徴量に応じてレビュー作業に要する時間が変動する電子データを含んでいる、
    ことを特徴とする請求項1〜4の何れか1項に記載の見積方法。
  6. 前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの複雑さを表す特徴量を含む特徴量群に基づいて予測する処理である、
    ことを特徴とする請求項1〜5の何れか1項に記載の見積方法。
  7. 前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツのサイズを表す特徴量を含む特徴量群に基づいて予測する処理である、
    ことを特徴とする請求項1〜6の何れか1項に記載の見積方法。
  8. 前記予測処理は、各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの感情傾向を表す特徴量を含む特徴量群に基づいて予測する処理である、
    ことを特徴とする請求項1〜7の何れか1項に記載の見積方法。
  9. 前記予測処理に先行して実行する処理として、
    前記コントローラが、レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、予め定められた属性群に含まれる各属性の重要度を設定する設定処理と、
    前記コントローラが、前記特徴量として利用するコンテンツの属性を前記属性群から選択する選択処理であって、前記設定処理にてより高い重要度が設定された属性をより優先的に選択する選択処理と、を更に含んでいる、
    ことを特徴とする請求項1〜8の何れか1項に記載の見積方法。
  10. 前記設定処理は、(1)レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性と実測されたレビュー時間との相関係数を算出する算出ステップと、(2)前記属性群に含まれる各属性の重要度を、前記算出ステップにて算出された、該属性に対応する相関係数に応じて設定する設定ステップと、を含んでいる、
    ことを特徴とする請求項9に記載の見積方法。
  11. 前記設定処理は、(1)レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする重回帰式を作成する作成ステップと、(2)前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された重回帰式において該属性に対応する偏回帰変数に応じて設定するステップと、を含んでいる、
    ことを特徴とする請求項9に記載の見積方法。
  12. 前記設定処理は、(1)レビュー作業に要する時間が予め実測された複数の電子データをサンプルとして、前記属性群に含まれる各属性を説明変数とし、実測されたレビュー時間を目的変数とする回帰木を作成する作成ステップと、(2)前記属性群に含まれる各属性の重要度を、前記作成ステップにて作成された回帰木において該属性に対応する条件を変化させたことにより生じる該回帰木の出力の変化の大きさに応じて設定する設定ステップと、を含んでいる、
    ことを特徴とする請求項9に記載の見積方法。
  13. 前記予測処理に先行して実行する処理として、前記コントローラが、各電子データに対する前記予測処理において参照する特徴量を、当該電子データの種類に応じて切り替える切替処理を更に含んでいる、
    ことを特徴とする請求項1〜12の何れか1項に記載の見積方法。
  14. 請求項1〜13の何れか1項に記載の見積方法に従って、前記データセットのレビュー作業に要する費用を見積もる見積処理と、
    前記見積処理にて見積もられたレビュー費用に準じた金額を、前記レビュー作業を依頼した依頼人に課金する課金処理と、を含んでいる、
    ことを特徴とする課金方法。
  15. 少なくとも1つの電子データを含むデータセットを格納したメモリとコントローラとを備え、該データセットのレビュー作業に要する費用を見積もるコンピュータであって、
    前記コントローラは、
    各電子データのレビュー作業に要する時間を、該電子データに含まれるコンテンツの特徴量に基づいて予測する予測処理と、
    前記データセットのレビュー作業に要する工数を、各電子データについて前記予測処理にて予測された時間に基づいて評価する評価処理と、
    前記データセットのレビュー作業に要する費用を、前記評価処理にて評価された工数に基づいて見積もる見積処理と、を実行する、
    ことを特徴とするコンピュータ。
  16. 請求項1〜13の何れか1項に記載の見積方法を前記コンピュータに実施させるためのプログラムであって、前記各処理を前記コンピュータに実行させるためのプログラム。
  17. 請求項14に記載の課金方法を前記コンピュータに実施させるためのプログラムであって、前記各処理を前記コンピュータに実行させるためのプログラム。
JP2018203078A 2018-10-29 2018-10-29 見積方法、課金方法、コンピュータ、及びプログラム Active JP6605683B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018203078A JP6605683B1 (ja) 2018-10-29 2018-10-29 見積方法、課金方法、コンピュータ、及びプログラム
US16/590,505 US20200134680A1 (en) 2018-10-29 2019-10-02 Estimation method, charging method, computer, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018203078A JP6605683B1 (ja) 2018-10-29 2018-10-29 見積方法、課金方法、コンピュータ、及びプログラム

Publications (2)

Publication Number Publication Date
JP6605683B1 true JP6605683B1 (ja) 2019-11-13
JP2020071523A JP2020071523A (ja) 2020-05-07

Family

ID=68532213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018203078A Active JP6605683B1 (ja) 2018-10-29 2018-10-29 見積方法、課金方法、コンピュータ、及びプログラム

Country Status (2)

Country Link
US (1) US20200134680A1 (ja)
JP (1) JP6605683B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362175B (zh) * 2022-03-10 2022-06-07 山东大学 基于深度确定性策略梯度算法的风电功率预测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600479B2 (en) * 2014-01-31 2017-03-21 Ricoh Company, Ltd. Electronic document retrieval and reporting with review cost and/or time estimation
US10824956B1 (en) * 2016-06-27 2020-11-03 EMC IP Holding Company LLC System and method for price estimation of reports before execution in analytics
US20190095802A1 (en) * 2017-09-25 2019-03-28 International Business Machines Corporation Heuristic and non-semantic prediction of the cost to find and review data relevant to a task
CN108681799A (zh) * 2018-07-11 2018-10-19 上海宝冶集团有限公司 一种工程项目成本预测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
US20200134680A1 (en) 2020-04-30
JP2020071523A (ja) 2020-05-07

Similar Documents

Publication Publication Date Title
WO2017067153A1 (zh) 基于文本分析的信用风险评估方法及装置、存储介质
Hussain et al. Approximation of COSMIC functional size to support early effort estimation in Agile
Bornmann et al. Does quality and content matter for citedness? A comparison with para-textual factors and over time
US10185714B2 (en) Smart terminology marker system for a language translation system
JPWO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
JP6683790B1 (ja) コンピュータ、コンピュータの制御方法、及びプログラム
Cote et al. Four methodologies to improve healthcare demand forecasting
US10997405B1 (en) Method, apparatus, and computer program product for performing machine learning on unstructured documents
JP6605683B1 (ja) 見積方法、課金方法、コンピュータ、及びプログラム
Ashcroft Inadequate performance measures affecting practices, organizations and outcomes of Ontario's family health teams
Fritsche et al. Deciphering professional forecasters' stories: Analyzing a corpus of textual predictions for the German economy
CN115828914A (zh) 一种考虑用户属性偏好的满意度评估方法
JPWO2016189605A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
Schütt What Can Bayesian Inference Do for Accounting Research?
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
US9014981B1 (en) Determining book characteristics based on text sections
JPWO2016189606A1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
JP6384242B2 (ja) 情報分析装置、情報分析方法、及び、プログラム
Decorte et al. Career path prediction using resume representation learning and skill-based matching
JP2018067215A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Kaufmann et al. Data Analytics for Organisational Development: Unleashing the Potential of Your Data
De Marco et al. Towards automatic service level agreements information extraction
JP2003345785A (ja) 能力評価システムおよび能力評価プログラム
US11562185B2 (en) Extraction method, extraction device, and computer-readable recording medium
US20220366346A1 (en) Method and apparatus for document evaluation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191016

R150 Certificate of patent or registration of utility model

Ref document number: 6605683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250