JP2019164761A - ラベル付きトレーニングデータの品質向上 - Google Patents

ラベル付きトレーニングデータの品質向上 Download PDF

Info

Publication number
JP2019164761A
JP2019164761A JP2019013304A JP2019013304A JP2019164761A JP 2019164761 A JP2019164761 A JP 2019164761A JP 2019013304 A JP2019013304 A JP 2019013304A JP 2019013304 A JP2019013304 A JP 2019013304A JP 2019164761 A JP2019164761 A JP 2019164761A
Authority
JP
Japan
Prior art keywords
classification
item
taxonomy
hierarchical
class labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019013304A
Other languages
English (en)
Other versions
JP7458148B2 (ja
Inventor
ミン‐クアン・ダニエル・ウー
Daniel Wu Ming-Kuang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of JP2019164761A publication Critical patent/JP2019164761A/ja
Application granted granted Critical
Publication of JP7458148B2 publication Critical patent/JP7458148B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063112Skill-based matching of a person or a group to a task
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Security & Cryptography (AREA)

Abstract

【課題】1つ以上のクラウドソーシングプラットフォームから得られるラベル付きトレーニングデータの品質を向上させる。【解決手段】アイテムにラベル付けをするためのプロセスであって、クラウドソーシングシステムに参加しているワーカにラベル付けタスクを発行する。ラベル付けタスクは、アイテムの説明と、分類におけるクラスラベルとに少なくとも部分的に基づいて、階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、推論された分類を評価することを含む。クラウドソーシングシステムから評価決定を受け付ける。評価決定に基づいて分類を検証し、検証結果を得る。検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することを含む。検証結果に基づき、分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先に送る。【選択図】図3

Description

階層的分類は、入力されたデータを、出力されるクラスの分類学的階層(taxonomic hierarchy)へとマッピングすることを伴う。多くの階層的分類手法が提案されている。例として、一対一(one-against-one)方式及び一対全(one-against-all)方式等の「フラット」な手法がある。これらの手法は、階層構造を無視する代わりに、階層的分類を、全ての非根ノードについて二項分類器の学習を伴う多クラス分類問題として扱うものである。別の手法は「ローカル」な分類手法であり、この手法は、階層内の各ノード、各親ノード、又は各レベルにおいて多クラス分類器をローカルにトレーニングすることを伴う。第4の一般的な手法は「グローバル」な分類手法であり、この手法は、クラス階層全体を同時に考慮することにより、各アイテムが階層内の1つ以上のクラスに割り当てられるように、グローバル分類器をトレーニングすることを伴う。
多くの自動化された分類手法は、特定の分類タスクを実行するためにトレーニングされた機械学習ベースの分類器に頼るものである。他方、このような分類器の精度は、信頼性のある分類モデルをトレーニングするための十分なラベル付きデータを有することに依存する。高品質で安定したトレーニングデータ(推論される真実)を収集する能力は、多くの教師ありアルゴリズムを強化するのに不可欠である。これらのアルゴリズムは、多くの場合、検索エンジンのランキング、画像認識、ニュースのカテゴリ分類等の現代のビジネスソリューションのための基礎である。
手作業により注釈が付けられたトレーニングデータが、多くの機械学習研究の基礎となっている。近年、退屈で労働集約的なラベル付けのタスクをクラウドソーシングプラットフォームのワーカへ外注する権限を研究者に与えて、トレーニングデータを生成するクラウドソーシングが一般的な方法となっている。クラウドソーシングプラットフォームは、コスト管理及び拡張性を向上させるための大規模で安価な労働力を提供する。しかし、クラウドソーシングプラットフォームのワーカによってもたらされる仕事の品質が安定しないことが、クラウドソーシング採用者にとっての大きな懸念である。
最近の研究により、最良の真実推論アルゴリズムはドメインごとに極めて特有のものであり、大部分のシナリオにおいて、1つのアルゴリズムだけが他のアルゴリズムよりも性能が優れているわけではないことがわかっている。ときとして、期待値最大化アルゴリズム等の直観的手法が現実的な解決策である可能性がある。文献においては、研究の進歩は、タスクの困難度、ワーカのバイアス、ワーカの分散を扱うことに焦点を当てている。具体的には、タスクの困難度は、注釈付き回答が要求される質問の曖昧度を表すのに対し、ワーカのバイアス及びワーカの分散は、全てのタスクの困難度が等しいと仮定して、ワーカが誤った回答をする可能性を判断するために、ワーカの資質をモデル化する。
研究によりクラウドソーシングによるラベル付けタスクの課題が明らかになってきているものの、費用対効果及び拡張性の面から、クラウドソーシングがトレーニングデータを生成するための魅力的な手法となることは否定できない。
本明細書にて、1つ以上の機械学習ベースの分類器及び1つ以上のクラウドソーシングプラットフォームを用いて、分類学的階層に従ってアイテムを分類することができる1つ以上のコンピュータプログラムを実行する1つ以上のコンピュータによって実現されるシステムを説明する。
本明細書において説明する主題の実施形態は、アイテムにラベル付けをする方法、システム、装置及び1つ以上のコンピュータプログラムにより符号化された有形で非一時的なキャリア媒体を含む。
特定の実施形態によれば、アイテムの説明を含むアイテム記録が受け付けられる。そのアイテムについて、1つ以上の機械学習ベースの分類器に基づき、階層的分類タクソノミ(hierarchical classification taxonomy)における分類が推論される。階層的分類タクソノミは、各クラスラベルに関連付けられるノードの連続したレベルを含み、分類は、階層的分類タクソノミにおけるクラスラベルのうちの1つ以上のクラスラベルの順序付きシーケンスを含む。ラベル付けのタスクが、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカに発行される。ラベル付けタスクは、アイテムの説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、分類を評価することを含む。クラウドソーシングシステムから評価決定が受け付けられる。分類が検証されて検証結果が得られ、この検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することを含む。検証結果に基づき、分類における1つ以上のクラスラベルに対応するデータが、通信ネットワークを通して各宛先に送られる。
本明細書において説明される主題の特定の実施形態は、プロセッサによって実行される実行可能命令を記憶するメモリ部を備える、コンピュータにより読出し可能なデータ記憶装置を含む。特定の実施形態によれば、メモリ部は、アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを含む階層的分類タクソノミにおける分類を推論するための実行可能命令を含み、分類は、階層的分類タクソノミにおけるクラスラベルのうちの1つ以上のクラスラベルの順序付きシーケンスを含む。メモリ部は更に、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するための実行可能命令を含み、ラベル付けタスクは、アイテムの説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、分類を評価することを含む。メモリ部は更に、ラベル付けタスクに関する評価決定をクラウドソーシングシステムから受け付けるための実行可能命令を含む。メモリ部は更に、分類を検証して検証結果を得るための実行可能命令を含み、検証のための実行可能命令は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用するための実行可能命令を含む。メモリ部は、検証結果に基づき、通信ネットワークを通して、分類における1つ以上のクラスラベルに対応するデータを各宛先に送るための実行可能命令を更に含む。
特定の実施形態に基づくシステムは、通信インタフェースとプロセッサとを備える。通信インタフェースは、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するものであり、ラベル付けタスクは、アイテムの説明と、分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、階層的分類タクソノミの連続したレベルにおける1つ以上のクラスラベルの順序付きシーケンスを含む、推論された分類を評価することを含む。クラウドソーシングシステムから各評価決定が受け付けられる。プロセッサは、分類を検証して検証結果を取得し、この検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することと、検証結果に基づき、通信ネットワークを通して、分類における1つ以上のクラスラベルに対応するデータを各宛先に送ることとを含む。
本明細書において説明される主題の他の特徴、態様、目的及び利点は、説明、図面及び特許請求の範囲から明らかになるであろう。
木に対応する、ノードの例示的な分類学的階層の説明図である。 統合されたデータラベル付けシステムの一例を示すブロック図である。 アイテムにラベル付けを行うための例示的なプロセスのフロー図である。 図1に示すノードの例示的な分類学的階層におけるノードの例示的な有向パスの説明図である。 図4Aに示す例示的な分類パス内のノードに対応する出力クラスのシーケンスへとマッピングされる、アイテム説明に対応する入力のシーケンス図である。 ノードの例示的な分類学的階層の説明図である。 例示的なコンピュータ装置のブロック図である。
以下の説明では、同様の要素を示す際に同様の符号を用いる。さらに、図面は、例示的な実施形態の主な特徴を模式的に示すためのものである。図面は、実際の実施形態のあらゆる特徴を示すことを目的としたものではなく、描かれている要素の相対的な寸法を表すためのものでもなく、一定の縮尺で描かれているわけでもない。
本明細書では、1つ以上のクラウドソーシングプラットフォームから得られるラベル付きトレーニングデータの品質を向上させるための効率的なエンドツーエンドのマルチレベルハイブリッド解決策の例を説明する。これらの例は、ラベル付きトレーニングデータに基づいて、アイテムを階層的分類タクソノミに分類するためにトレーニングされる機械学習ベースの階層的分類システムとの関係で説明する。
図1に例示的な分類学的階層10を示す。この分類学的階層10は、1つの根ノード12と複数の非根ノードとを有する木構造として構成される。各非根ノードは、別の単一のノードからの有向エッジにより接続される。末端の非根ノードは葉ノード(又は葉)と呼ばれ、その他の非根ノードは内部ノードと呼ばれる。木構造は、根ノード12からの非根ノードの深さに応じてレベル14、16、18及び20に編成され、同じ深さにあるノードは分類学的階層において同じレベルにある。各非根ノードは、分類学的階層内の各クラスを表す。他の例では、分類学的階層は、有向非巡回グラフとして構成することができる。一般に、分類学的階層10を用いて、数多くの異なるタイプのデータアイテムを異なる分類学的クラスに分類することができる。
いくつかの例において、各データアイテムは、分類学的階層10内の1つ以上のレベルを通るそれぞれのパスに沿って分類される。これらの例のうちのいくつかにおいて、1以上の上位レベルの広いクラスから、0個又は1つ以上の徐々に狭くなるクラスを経て、葉ノードレベルのクラスへと至るまでの階層内の各レベルにつき1つのノードを含むパスに沿って、アイテムが分類される。他の例では、分類学的階層10を通る複数のパスに沿って、アイテムが分類される。いくつかの例において、分類学的階層10内の異なるレベルを横切るノードからなる部分的なパス又はセグメントに沿って、アイテムが分類される。これらの例のうちのいくつかにおいて、パス情報により分類の性能が向上する。
他の例において、それぞれの分類器(例えば、単語埋込み及びテキスト分類を学習するためのニューラルネットワークベースの分類器等の機械学習分類器)により、分類学的階層10内の各レベルにおいて、他のレベルから独立して、データアイテムが分類される。これらの例のうちのいくつかにおいて、各機械学習モデルは、分類学的階層10内のそれぞれのレベルに関連するそれぞれのトレーニングデータ(例えば、アイテム説明データ)の組に関してトレーニングされる。
本システムは、クラウドソーシングワーカ及びドメインエキスパート双方の強みを動的に、かつ高いコスト効率で活用する品質管理方式により、高品質のラベル付きトレーニングデータが得られるように設計される。このようにして、機械学習モデルは、クラウドソースによるラベルとエキスパートによるラベルとの組み合わせに関してトレーニングされる。
第1の運用段階では、バイアス及び分散が大きい可能性がある回答を受ける可能性が低くなるように設計された方法により、クラウドソーシングのワーカから、コスト効果の高い真実推論が収集される。いくつかの例において、解決手段の実施形態は、分類学的階層内の単一のノード(例えば、あるアイテムタイプに対応する葉ノード)に対してアイテム説明を評価するようクラウドソーシングワーカに要求するのではなく、分類学的階層内の連続したレベルを通る完全又は部分的な分類パスを評価するようワーカに要求する。この手法は、アイテム説明(及び潜在的には、そのアイテムに関連付けられる他のデータ)を評価するための分類コンテキストを増やし、それにより、クラウドソーシングコストを上げずに、高品質で安定したトレーニングデータを受ける可能性を高めるものである。
第2の運用段階では、特定のタスクに関するワーカからの回答の集合において合意が得られない場合に、当該タスクは1人以上の熟練したドメインエキスパートに渡される。このドメインエキスパートは、当人が受けるトレーニング及び報奨金により、ワーカのバイアス及びワーカの分散が小さいラベル付けタスクを行うことが期待される。熟練したエキスパートは、分類学的階層内のアイテム分類と、任意の所与の製品アイテムに最も適したアイテムカテゴリラベルを割り当てるための指針とを熟知している。いくつかの例において、ドメインエキスパートは、曖昧な事例を回避するために、高難度のタスクを「解決不可能」と明示するように指示されている。
いくつかの例において、手作業で注釈を付けられた高品質のトレーニングデータを提供するために、自動化された統合データラベル付けエンジン(integrated data labeling engine, IDLE)によって、十分に熟練したドメインエキスパートとクラウドソーシングワーカとの間の協調が促進される。IDLEフレームワークは、ラベル付きデータを(クラウドソーシングによって)フィルタリングするプロセスと、フィルタ処理されたデータに(インハウスのドメインエキスパートによって)ラベル付替えを行うプロセスとを自動化することによって、高品質のトレーニングデータを生成するためのワークフローを効率化する。また、IDLEフレームワークは、IDLEシステムによって生成される分類結果の品質を評価するためだけでなく、トレーニングデータ生成タスクを管理するための統合環境も提供する。
図2に、IDLEシステムアーキテクチャ30の一例を示す。データラベル付けフレームワーク内に以下の4つの主要な構成要素がある。
(1)ドメインエキスパート34及び1つ以上のクラウドソーシングプラットフォーム36に対し、アダプタ38を通してタスクを割り当て、ワーカ資質評価40及び回答集約42をも行うマルチレベルワーカプラットフォーム32
(2)ジョブ依頼者が種々のサンプリング方式の中から選択できるようにする、統合ユーザインタフェースを備えるサンプリング方式インタフェース44
(3)ジョブ依頼者が種々のタイプのジョブ(例えば、フィルタジョブ48、ラベル付替えジョブ50及び監査ジョブ52)をローンチできるようにするジョブ処理インタフェース46
(4)クラウドソーシングからの集約結果及び機械学習モデル56の向上を表示するデータレポータダッシュボード54
マルチレベルワーカプラットフォーム32は、ジョブ依頼者が1つ以上のアダプタを通してMTurk及びCrowdflower等の種々のクラウドソーシングプラットフォームにジョブを提示できるようにする統合インタフェースを有する。さらに、ジョブ依頼者は、難しいラベル付けジョブをドメインエキスパートに割り当てることができ、ドメインエキスパートは、自らのIDLEシステムアカウントにサインインして、データにラベル付けをする。また、マルチレベルワーカプラットフォーム32は、ワーカ除外及び回答集約等の、種々のクラウドソーシングプラットフォーム36にわたって共通の機能に関する、統一された機能インタフェースを含む。
1つ以上のアダプタ38は、(1)ジョブのローンチ、(2)ジョブの停止、及び(3)結果取得のために、サポートされるクラウドソーシングプラットフォームのアプリケーションプログラミングインタフェース(例えば、MTurk API)にジョブ依頼者が接続できるようにする各インタフェースを提供する。アダプタは、ユーザ体験又はIDLEシステム30の他の部分に大幅な変更を加えることなく、複数のクラウドソーシングプラットフォームを容易に統合できるようにする。
複数のクラウドソーシングワーカから返される回答は必ずしも一致しているとは限らず、ワーカ資質は様々である(例えば、MTurkにおけるマスターワーカと非マスターワーカ)。これらの課題に対処するために、回答集約部42は、特定のタスクに対してワーカから受けた応答を集約し、返された回答からグラウンドトゥルースを推論する能力を向上させる。いくつかの例において、以下のアルゴリズム、すなわち、多数決、重み付き多数決及びベイズ投票のうちの1つ以上を用いて、タスク応答を集約し、合意を評価する。さらに、IDLEシステム30の開発者が、カスタマイズされた回答集約アルゴリズムを容易に実施できるようにするために、回答集約インタフェースが設けられる。いくつかの例において、ジョブ依頼者は、最終回答を決定するために、[#answer,#yes]形式の合意規則を定めることができる。いくつかの例において、規則テンプレートは、総#answer回答数における#yes/#answerの合意レベルに関して合意基準を定める。合意規則のシーケンスを通して、より複雑な回答集約方式を表すことができる。例えば、合意基準規則[3,3]と後続の規則[4,3]とによって、まず3つの回答の中での完全合意([3,3])を探すよう本システムに指示し、回答が最初の合意基準を満たさない質問については、第2の[4,3]合意基準に基づいて本システムは別の回答(#answer=3+1)を求める。いくつかの例において、クラウドソーシングジョブについて受け付けられたワーカの評価決定に、3つ以上の連続した合意基準が適用される。
ワーカ資質評価部40は、ワーカ資質を評価する。ワーカの資質は、クラウドソーシングプラットフォームにおいて非常に多様である。この資質が事前にはわからないという事実により、ワーカの資質を評価することが更に重要になる。例となるIDLEシステム30は、ワーカの資質を推定するために、グラウンドトゥルース回答を有する集められた質問群(「ゴールデンタスク(golden task)」と呼ばれる)から質問をランダムに選択する。種々の異なる方式を用いて、ワーカ資質を評価することができる。いくつかの例において、IDLEシステム30は、ジョブを実行する前にまずゴールデンタスクに合格するようワーカに要求する認定試験を実行する。いくつかの例において、IDLEシステム30は、ゴールデンタスクを正規ジョブの質問と混在させる隠れ試験(hidden test)を実行し、ジョブが完了した後にゴールデンタスクに基づいて、ワーカの資質を評価する。いくつかの例において、ジョブ依頼者は、ワーカの資質を推定するために、一方又は両方の方式を使用することができる。
サンプリング方式インタフェース44は、ジョブ依頼者が、種々の統計的サンプリング方式の中から選択できるようにする。IDLEシステム30は、要求されたサンプリング方式を開発者が実現できるようにする汎用インタフェースを含む。その目的は、ジョブ依頼者が多様なデータセットからサンプリングデータを取得することである。いくつかの例において、IDLEシステム30は、データクラスタリング及びその後の層化されたサンプリングと、トピックモデリング及びその後の層化されたサンプリングとを含む、いくつかの階層的なサンプリング方式を含む。
ジョブ処理インタフェース46は、ジョブ依頼者が、種々のタイプのジョブ(例えば、フィルタジョブ48、ラベル付替えジョブ50及び監査ジョブ52)をローンチできるようにする。
フィルタジョブ48においては、あらかじめラベルが付けられたデータから小さいデータセットがサンプリングされ、1つ以上のクラウドソーシングプラットフォームに送られてそれらのラベルが確認される。いくつかの例において、フィルタジョブ質問は、イエス/ノー質問(例えば、「与えられたラベルがこのデータと一致するか?」)又は多肢選択質問(例えば、「以下のラベルのうちのどれがこのデータと最も一致するか?」)のいずれかとして提示される。また、フィルタジョブは、資質が低いワーカを特定し、そのジョブに参加させないようにするために、1つ以上のゴールデンタスク質問を含むこともできる。ワーカが自分の回答を提出した後に、それらの結果は回答集約部42により収集され、回答集約部において、それらの結果が所定の手法に従って集約され、集約された結果が、上記のように1つ以上の合意基準に従って評価される。高い信頼水準に関連付けられる結果は、機械学習モデル56のための新たなトレーニングデータとして使用される。(フィルタリングにより除外された)残りのデータは、不正ラベル付きデータ(mislabeled data)として扱われ、上記のように、ドメインエキスパートによって処理されるラベル付替えジョブのための入力データとなる。クラウドソーシングワーカにとって自明なデータは直ちに通過することができ、ラベル付けをするのが難しいデータはフィルタリングにより除外されることが期待され、それゆえ、「フィルタ」ジョブと呼ばれる。ドメインエキスパートのコストはクラウドソーシングワーカよりはるかに高く、そのため、最初にクラウドソーシングによる労働力に大量の自明の質問に関するフィルタジョブを実行させ、その後、少数の難しいラベル付替えジョブをドメインエキスパートに委ねる方が、コスト効率が良い。
データがフィルタジョブ部48を通過した後に、IDLEシステム30は、フィルタリングにより除外された不正ラベル付きデータを自動的に収集し、その不正ラベル付きデータを、ドメインエキスパートがラベル付替えのために入手できるようにする。上述のように、ドメインエキスパートは、不正ラベル付きデータに正しいラベルを割り当てることに熟練している。したがって、ドメインエキスパートによってラベルが付け替えられるデータは、機械学習モデル56のためのトレーニングデータとする前に、品質管理又は真実推論の措置が必要ない。それでも、ドメインエキスパートでさえもラベル付けができないデータが存在する場合があり、これらのデータは拒否されたデータと見なされ、更なる解析のために記録される。
いくつかの例において、フィルタジョブ及びラベル付替えジョブが完了した後に、サンプリングされた全てのデータが、機械学習モデルのための新たなトレーニングデータとして、又は解析のための拒否データとして特定される。新たなトレーニングデータを用いて分類エンジンにおいて機械学習モデル56を再トレーニングした後に、そのモデルは、新たなトレーニングデータを処理し、製品カテゴリラベルを更新する。いくつかの例において、再トレーニングされた機械学習モデルの精度を評価するために、監査ジョブ52が実行される。フィルタジョブと同様に、正確にラベル付けがされたデータを識別するために、小さいデータセットがサンプリングされ、1つ以上のクラウドソーシングプラットフォーム36に送られる。高い信頼水準を有するデータを識別し、不正ラベル付きデータを単に破棄しながらモデル精度を計算するために、クラウドソーシングによる回答に回答集約部42が適用される。
クラウドソーシングの有効性を最大限にし、コストを最小限にするために、IDLEシステム30はデータレポータ54を備える。このデータレポータは、管理者及び解析者がクラウドソーシングの有効性及び機械学習アルゴリズムの性能を評価するためのデータ視覚化ダッシュボードを有する。例えば、データレポータ54は、解析者が、ラベル付替えジョブによって取り扱う必要のあるフィルタジョブ質問の比率を決定できるようにする。いくつかの例において、データレポータ54は、クラウドソーシング報告及び機械学習モデル報告を含む。
クラウドソーシング報告は、クラウドソーシングの有効性及び効率の評価を提供する。クラウドソーシング報告は、回答分布及び処理時間等の洞察が与えられるように設計される。クラウドソーシング報告には、クラウドソーシングジョブの統計値及び結果が含まれる。フィルタジョブ及び監査ジョブの場合、統計値は、イエス、ノーの比、及びジョブ完了時間を含む。ラベル付替えジョブの場合、報告は、ラベル付替え率とジョブ完了時間との比を示す。ジョブごとにクラウドソーシングの全体的性能を推定するために、ダッシュボードは、全処理時間に加えて、不正ラベル付きデータと高い信頼水準を有するデータとの比も示す。
機械学習報告は、機械学習モデルに関する改善率を追跡する。したがって、機械学習報告は、モデルのための精度の履歴だけではなく、クラウドソーシングを通して処理されるデータの比率をも示す。
図3は、分類学的クラスラベルを用いてアイテムにラベル付けをするためにIDLEシステム30によって実行される例示的なプロセス60のフロー図である。アイテムは、分類学的クラスラベルを用いてラベル付けをすることができる任意のタイプのものとすることができる。いくつかの例において、アイテムは製品に対応する。
このプロセスによれば、図2に示したIDLEシステム30内のトレーニングデータのデータベース部62が、アイテムの説明を含むアイテム記録を受け付ける(図3、ブロック64)。このアイテム記録は、ジョブ処理部46又は他の何らかの供給源から受け取ることができる。いくつかの例において、アイテム記録は複数の、属性と値とのペアを含む。アイテム記録属性(データフィールドタイプとも呼ばれる)の例は、業者名、業者ウェブアドレス、アイテム説明、アイテム名、アイテム量、アイテム価格、アイテム画像、及び業者ウェブサイト上のアイテム画像へのハイパーリンクのうちの1つ以上を含む。
1つ以上の機械学習ベースの分類器に基づいて、IDLEシステム30の機械学習部56は、当該アイテムに関して、それぞれのクラスラベルに関連付けられるノードの連続したレベルを含む階層的分類タクソノミにおける分類パスを推論し、ここで、この分類は、階層的分類タクソノミ内のクラスラベルのうちの1つ以上のクラスラベルの順序付きシーケンスを含む(図3、ブロック64)。いくつかの例において、機械学習部56が、アイテム説明と、潜在的にアイテム記録に含まれる1つ以上の他の属性値とから、分類を推論する。
図4Aに、分類学的階層10の木構造内の非根ノードの、例示的な構造化された分類パス70を示す。ノードの構造化された分類パス70は、ノード1とノード1.2とノード1.2.2とノード1.2.2.2との順序付きシーケンスからなる。この例において、各非根ノードは、分類学的階層10内の異なるそれぞれのレベルに対応する。
図4Bに示すように、いくつかの例において、機械学習部56は、階層的分類タクソノミの根からレベルごとに葉レベルに至るまで、1つ以上のアイテム記録値72(例えば、製品説明)に関する階層的分類(例えば、単純ベイズの機械学習モデルを使用する)を行って、構造化された階層的分類パス70内のノードのシーケンスを推論することに対応する出力{Y1,Y2,...,Y4}のシーケンス74を生成する。この例において、入力のシーケンス72は、製品の説明(すなわち、「女性用デニムシャツライトデニムL」)に対応し、分類学的階層10は、階層的な製品分類体系を定める。図示の例では、階層的分類体系30は、入力された(複数の)アイテム記録値を、出力されるノードのクラスラベルの有向階層シーケンス(「衣類及びアクセサリ」、「衣類」、「トップス及びTシャツ」、及び「女性用」)へと変換する。他の例では、機械学習部56は、葉ノードカテゴリを予測し、分類学的階層10に基づいて、構造化された分類パス70を推論する。
階層的分類構造を通る単一の個別の分類パスをアイテム記録ごとに推論することに加えて、例となる機械学習部56は、アイテムに関連付けられる1つ以上の記録値72(例えば、製品説明)に基づいて、アイテムを階層的分類構造における複数のパスに分類するようにトレーニングすることもできる(すなわち、マルチラベル分類)。例えば、図5に、分類学的階層構造75内の異なるクラスに対応する2つのノード77、79及び2つの異なるパスにアイテムがマッピングされる例を示す。上述の手法に類似の手法を用いて、機械学習部56をトレーニングし、入力に関連付けられる全てのクラスラベルを取り込む出力分類を生成することができる。
図2に戻ると、図示の例において、当該アイテムに関して階層的分類タクソノミ内の分類を推論した後に(図3、ブロック64)、機械学習部56はデータ記録をロードする。このデータ記録は、推論された分類と、アイテム記録値72のうちの1つ以上とを、あらかじめラベル付けがされたデータとしてデータベース80内に含む。いくつかの例において、ジョブ依頼者が、サンプリング方式インタフェース44を用いて、フィルタジョブを生成する。このプロセスにおいて、ジョブ依頼者は、フィルタジョブに関するサンプリング方式及びサンプル数を選択する。また、ジョブ依頼者は、クラウドソーシングタスクのパラメータ、例えば、業務当たりの報酬、及びHIT(ヒューマンインテリジェンスタスク)当たりの業務数も設定する。いくつかの例において、ジョブ依頼者は、クラウドソーシングワーカへの分類の提示を調整することができる。例えば、ジョブ依頼者は、分類タクソノミの上位部分、下位部分又は中間部分内の1つ以上のノード等の、推論された分類内のレベルの一部のみを提示することを選ぶ場合がある。他の例では、ジョブ依頼者は、分類の修正版を提示することに決める場合があり、そのバージョンでは、ワーカに提示される分類内で、複数のノードが組み合わされて単一のノードとされる(例えば、連続したノードを組み合わせて単一のノードとすることによる)。ワーカの資質を推定するために、本システムは、ジョブ内にゴールデンタスク(例えば、品質管理質問)を自動的に含むように構成することもできる。いくつかの例において、ジョブ生成前に、クラウドソーシングジョブの設定が再検討され、確認される。
図3に戻ると、クラウドソーシングジョブが確認された後に、IDLEシステム30のジョブ処理部46は、通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行し、ここで、ラベル付けタスクは、アイテムの説明と、提示される分類パス内のクラスラベルとに少なくとも部分的に基づいて、提示される分類を評価することを含む(図3、ブロック82)。いくつかの例において、ラベル付けタスクは、アイテムの説明と、分類内のクラスラベルの順序付きシーケンスとに少なくとも部分的に基づいて、分類を確認することを伴う。これらの例のうちのいくつかにおいて、分類の確認は、アイテムの説明を含むオンライン検索クエリの結果に更に基づく。いくつかの例において、アイテム記録は、当該アイテムに関連付けられる業者を含み、分類パスの確認は業者に更に基づく。いくつかの例において、アイテム記録は、当該アイテムに関連付けられる価格を含み、提示される分類パスの確認は価格に更に基づく。
いくつかの例において、IDLEシステム30は、ワーカのそれぞれのコンピューティングデバイス上にラベル付けタスクを提示し、ラベル付けタスクに対するワーカの応答(例えば、妥当であるとの応答又は妥当ではないとの応答)を受け付けるためのインタフェース仕様を発行する。
1つ以上のクラウドソーシングプラットフォーム36にジョブを発行した後に、IDLEシステム30のジョブ処理部46は、1つ以上のクラウドソーシングシステムから評価決定を受け付ける(図3、ブロック84)。受け付けられる評価決定のタイプは、クラウドソーシングシステムに提示されるラベル付けタスクによって決まる。いくつかの例において、フィルタジョブは、イエス/ノー質問(例えば、「与えられたラベルがこのデータと一致するか?」)として提示される質問に回答するラベル付けタスクを含む。いくつかの例において、フィルタジョブが、多肢選択質問(例えば、「以下のラベルのうちのどれがこのデータと最も一致するか?」)として提示される質問に回答するラベル付けタスクを含む。いくつかの例において、フィルタジョブは、アイテムに対する代替分類を与えるラベル付けタスクを含む。
クラウドソーシングジョブに関する評価決定を受け付けた後に、ジョブ処理部46は、分類を検証して検証結果を取得し、ここで、検証は、受け付けられた評価決定の集合に対して少なくとも1つの合意基準を適用することを含む(図3、ブロック86)。いくつかの例において、IDLEシステム30のジョブ処理部46は、クラウドソーシングワーカから評価決定を受け付けると、回答集約を自動的に実行する。上記の合意手法のいずれかを含む、多種多様の異なる回答集約アルゴリズムを用いて、検証結果が得られる。
いくつかの例において、検証結果は、以下の分類、すなわち、妥当な分類と、妥当ではない分類と、不確定な分類とのうちの1つとすることができる。いくつかの例において、検証は、最初の合意基準が満たされない場合に、クラウドソーシングシステムに参加している少なくとも1人の別のワーカにラベル付けタスクを発行することと、当該少なくとも1人の別のワーカから各評価決定を受け付けることとを含む。これらの例において、少なくとも1人の別のワーカから受けた評価決定を含む、受け付けられた評価決定の集合に対して第2の合意基準が適用される。上述のように、いくつかの例においては、クラウドソーシングジョブに関して受け付けられたワーカの評価決定に対して3つ以上の連続した合意基準が適用される。
分類の検証後、IDLEシステム30のジョブ処理部46は、検証結果に基づいて、通信ネットワークを通して、分類内の1つ以上のクラスラベルに対応するデータを各宛先に送る(図3、ブロック88)。いくつかの例では、分類パスが妥当な場合に、分類パス内のクラスラベルのうちの1つ以上が、機械学習ベースの分類器のうちの1つ以上のためのトレーニングデータとして指定され、トレーニングデータのデータベースへ送られる。いくつかの例においては、分類パスが妥当ではない場合に、ラベル付けタスクは、通信ネットワークを通して、ラベル付けに関する少なくとも1人のドメインエキスパートへ送られる。少なくとも1人のドメインエキスパートから、分類パス内のクラスラベルのうちの1つ以上のクラスラベルのラベル付替え済みバージョンを受け付けられた後に、分類パス内の1つ以上のクラスラベルのラベル付替え済みバージョンは、機械学習ベースの分類器のうちの1つ以上のためのトレーニングデータとして指定され、トレーニングデータのデータベースに送られる。
図6に、本明細書において説明される階層的アイテム分類システムのうちの1つ以上を実現するように構成されるコンピュータ装置の例示的な実施形態を示す。コンピュータ装置320は、処理ユニット322と、システムメモリ324と、処理ユニット322をコンピュータ装置320内の様々な構成要素に接続するシステムバス326とを備える。処理ユニット322は、1つ以上のデータプロセッサを含むことができ、それらのデータプロセッサのそれぞれは、様々な市販のコンピュータプロセッサのうちの任意の1つの形態とすることができる。システムメモリ324は、通常、ソフトウェアアプリケーションに利用可能なアドレスを定めるソフトウェアアプリケーションアドレス指定空間に関連付けられた1つ以上の、コンピュータにより読出し可能な媒体を含む。システムメモリ324は、コンピュータ装置320の起動ルーチンを含む基本入出力システム(BIOS)を記憶する読み出し専用メモリ(ROM)と、ランダムアクセスメモリ(RAM)とを備えることができる。システムバス326は、メモリバス、周辺バス又はローカルバスとすることができ、PCI、VESA、Microchannel(マイクロチャネル)、ISA、及びEISAを含む様々なバスプロトコルのうちの任意のものと互換性を有することができる。コンピュータ装置320は、永続的記憶メモリ328(例えば、ハードドライブ、フロッピードライブ、CD ROMドライブ、磁気テープドライブ、フラッシュメモリデバイス、及びデジタルビデオディスク)をも備える。この永続的記憶メモリは、システムバス326に接続され、データ、データ構造体及びコンピュータ実行可能命令の不揮発性記憶装置又は永続的記憶装置を提供する1つ以上の、コンピュータにより読出し可能な媒体ディスクを含む。
ユーザは、1つ以上の入力デバイス330(例えば、1つ以上のキーボード、コンピュータマウス、マイクロフォン、カメラ、ジョイスティック、物理運動センサ、及びタッチパッド)を用いて、コンピュータ装置320とインタラクトする(例えば、コマンド又はデータを入力する)ことができる。情報は、表示コントローラ334によって制御される表示モニタ332上でユーザに提示されるグラフィカルユーザインタフェース(GUI)を通じて示すことができる。コンピュータ装置320は、他の入出力ハードウェア(例えば、スピーカ及びプリンタ等の周辺出力デバイス)も備えていてもよい。コンピュータ装置320は、ネットワークアダプタ336(「ネットワークインタフェースカード」又はNICとも呼ばれる)を通じて他のネットワークノードに接続する。
アプリケーションプログラミングインタフェース338(API)と、オペレーティングシステム(OS)340(例えば、マイクロソフト社(米国ワシントン州レドモンド)から市販されるWindows(登録商標)オペレーティングシステム)と、本明細書において説明される階層的分類システムにおけるステップ、タスク、動作又はプロセスのうちの1つ以上を実行するようにコンピュータ装置320をプログラミングする1つ以上のソフトウェアアプリケーションを含むソフトウェアアプリケーション341と、ドライバ342(例えば、GUIドライバ)と、ネットワークトランスポートプロトコル344と、データ346(例えば、入力データ、出力データ、プログラムデータ、レジストリ、及び構成設定)とを含む複数のプログラムモジュールを、システムメモリ324に記憶することができる。
開示されるシステム、方法、プロセス、機能動作及び論理フローを含む、本明細書において説明される主題の例は、入力に関する処理を行い、出力を生成することによって機能を実行するように動作可能なデータ処理装置(例えば、コンピュータハードウェア及びデジタル電子回路)において実現することができる。また、本明細書において説明される主題の例は、データ処理装置によって実行するための、1つ以上の有形の非一時的なキャリア媒体(例えば、機械可読記憶デバイス、基板又はシーケンシャルアクセスメモリデバイス)上に符号化される一組以上のコンピュータ命令として、ソフトウェア又はファームウェアにおいて有形に具現化することができる。
本明細書において説明される具体的な実施態様の詳細は、特定の発明の特定の実施形態に特有な場合があり、特許請求される任意の発明の範囲に関する限定と解釈されるべきではない。例えば、別々の実施形態との関連で説明される特徴は、単一の実施形態に組み込むこともでき、単一の実施形態との関連で説明される特徴は、複数の別々の実施形態において実現することもできる。さらに、特定の順序において実行されるステップ、タスク、動作又はプロセスの開示は必ずしも、その特定の順序においてそれらのステップ、タスク、動作又はプロセスが実行されることを要するものではない。代わりに、場合によっては、開示されるステップ、タスク、動作及びプロセスのうちの1つ以上が、別の順序で、又はマルチタスクスケジュールに従って、又は並列に実行される場合がある。
他の実施形態は特許請求の範囲に含まれる。

Claims (20)

  1. アイテムにラベル付けを行う、コンピュータによる方法であって、
    アイテムの説明を含むアイテム記録を受け付けるステップと、
    前記アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を推論するステップであって、分類パスは前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、ステップと、
    通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含む、ステップと、
    前記クラウドソーシングシステムから評価決定を受け付けるステップと、
    前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前記評価決定の集合に対する少なくとも1つの合意基準の適用を含む、ステップと、
    前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先へ送るステップと
    を含む方法。
  2. 前記推論は前記アイテム記録に基づく、請求項1に記載の方法。
  3. 前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項1に記載の方法。
  4. 前記ラベル付けタスクは、前記アイテムの説明と、前記分類パスにおけるクラスラベルの順序付きシーケンスとに少なくとも部分的に基づいて、前記分類パスを確認することを含む、請求項3に記載の方法。
  5. 前記分類パスの確認は更に、前記アイテムの説明を含むオンライン検索クエリの結果に基づく、請求項4に記載の方法。
  6. 前記アイテム記録は前記アイテムに関連付けられる業者を含み、前記分類パスの確認は更に前記業者に基づく、請求項4に記載の方法。
  7. 前記アイテム記録は前記アイテムに関連付けられる価格を含み、前記分類パスの確認は更に前記価格に基づく、請求項4に記載の方法。
  8. 前記検証は、
    第1の合意基準が満たされないときに、前記クラウドソーシングシステムに参加している少なくとも1人の別のワーカに前記ラベル付けタスクを発行することと、
    少なくとも1人の前記別のワーカから各評価決定を受け付けることと
    を含み、
    前記適用は、受け付けられた前記評価決定の集合に対して第2の合意基準を適用することを含む、請求項1に記載の方法。
  9. 前記分類パスが妥当である場合に、前記分類における前記クラスラベルのうちの1つ以上のクラスラベルが、1つ以上の前記機械学習ベースの分類器のためのトレーニングデータとして指定される、請求項1に記載の方法。
  10. 前記分類が妥当ではない場合に、前記送るステップが、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに対して前記ラベル付けタスクを発行することを含む、請求項1に記載の方法。
  11. 少なくとも1人の前記ドメインエキスパートから、前記分類における1つ以上のクラスラベルのうち、ラベル付替えがなされたクラスラベルを受け付けるステップと、
    前記分類において前記ラベル付替えがなされたクラスラベルを、1つ以上の前記機械学習ベースの分類器のためのトレーニングデータとして指定するステップと
    を更に含む請求項10に記載の方法。
  12. 重複するタスクを前記発行の前にフィルタリングにより除外するステップを更に含む請求項1に記載の方法。
  13. 推論される前記分類は、前記階層的分類タクソノミ内の1つのレベルから、前記階層的分類タクソノミ内の連続したレベルを経て、前記階層的分類タクソノミ内の別のレベルへと延びるものである、請求項1に記載の方法。
  14. 前記階層的分類タクソノミ内の別のレベルは、前記階層的分類タクソノミ内の葉ノードレベルに対応するものである、請求項13に記載の方法。
  15. 推論される前記分類は、前記階層的分類タクソノミ内の連続したレベルを経て延び、葉ノードレベルの前に終了する、請求項1に記載の方法。
  16. 前記アイテム記録が製品の説明を含む、請求項1に記載の方法。
  17. プロセッサにより実行される実行可能命令を記憶するメモリ部を備える、コンピュータにより読出し可能なデータ記憶装置であって、
    前記メモリ部は、
    アイテムについて、1つ以上の機械学習ベースの分類器に基づき、各クラスラベルに関連付けられるノードの連続したレベルを有する階層的分類タクソノミにおける分類を推論するための実行可能命令であって、分類パスは前記階層的分類タクソノミにおけるクラスラベルのうちの1つ以上を含む、実行可能命令と、
    通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するための実行可能命令であって、前記ラベル付けタスクは、前記アイテムの説明と、前記分類における1つ以上のクラスラベルとに少なくとも部分的に基づいて、前記分類を評価することを含む、実行可能命令と、
    前記クラウドソーシングシステムからラベル付けタスクに関する評価決定を受け付けるための実行可能命令と、
    前記分類を検証して検証結果を得るための実行可能命令であって、受け付けられた前記評価決定の集合に対して少なくとも1つの合意基準を適用するための実行可能命令を含む実行可能命令と、
    前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先に送るための実行可能命令と
    を有する、コンピュータにより読出し可能なデータ記憶装置。
  18. 前記分類は、前記階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスに対応する分類パスを含む、請求項17に記載のコンピュータにより読出し可能なデータ記憶装置。
  19. 通信ネットワークを通して、クラウドソーシングシステムに参加している複数のワーカにラベル付けタスクを発行するステップであって、前記ラベル付けタスクは、階層的分類タクソノミの連続したレベルにおける各クラスラベルの順序付きシーケンスを含む、推論された分類を、アイテムの説明と、分類パス内のクラスラベルとに少なくとも部分的に基づいて評価することを含む、ステップと、
    前記クラウドソーシングシステムから各評価決定を受け付けるステップと
    を行う通信インタフェースと、
    前記分類を検証して検証結果を得るステップであって、前記検証は、受け付けられた前記評価決定の集合に対して少なくとも1つの合意基準を適用することを含む、ステップと、
    前記検証結果に基づき、通信ネットワークを通して、前記分類におけるクラスラベルのうちの1つ以上に対応するデータを各宛先へ送るステップと
    を行うプロセッサと
    を備えるシステム。
  20. 前記分類パスが妥当ではない場合に、前記プロセッサは、通信ネットワークを通して、ラベル付替えを行う少なくとも1人のドメインエキスパートに前記ラベル付けタスクを送る、請求項19に記載のシステム。
JP2019013304A 2018-01-29 2019-01-29 ラベル付きトレーニングデータの品質向上 Active JP7458148B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862623448P 2018-01-29 2018-01-29
US62/623,448 2018-01-29
US16/243,342 2019-01-09
US16/243,342 US11803883B2 (en) 2018-01-29 2019-01-09 Quality assurance for labeled training data

Publications (2)

Publication Number Publication Date
JP2019164761A true JP2019164761A (ja) 2019-09-26
JP7458148B2 JP7458148B2 (ja) 2024-03-29

Family

ID=67392246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019013304A Active JP7458148B2 (ja) 2018-01-29 2019-01-29 ラベル付きトレーニングデータの品質向上

Country Status (2)

Country Link
US (1) US11803883B2 (ja)
JP (1) JP7458148B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111288999A (zh) * 2020-02-19 2020-06-16 深圳大学 一种基于移动终端的行人路网属性检测方法、装置和设备
KR102155748B1 (ko) * 2020-01-03 2020-09-17 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 시간 대비 검수 시간을 이용한 검수 단가 자동 업데이트 방법
JP2021086613A (ja) * 2019-11-27 2021-06-03 クラウドワークス インコーポレイテッドCrowdWorks, Inc. 本番作業に基づいた検証用クラウドソーシング作業を提供する方法及び装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11803883B2 (en) * 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data
US11868436B1 (en) 2018-06-14 2024-01-09 Amazon Technologies, Inc. Artificial intelligence system for efficient interactive training of machine learning models
US11875230B1 (en) 2018-06-14 2024-01-16 Amazon Technologies, Inc. Artificial intelligence system with intuitive interactive interfaces for guided labeling of training data for machine learning models
US11625641B2 (en) * 2018-12-28 2023-04-11 Esurance Insurance Services, Inc. Machine learning based function testing
US11270077B2 (en) * 2019-05-13 2022-03-08 International Business Machines Corporation Routing text classifications within a cross-domain conversational service
US20200387919A1 (en) * 2019-06-10 2020-12-10 International Business Machines Corporation Product evaluation based on dynamic metrics
CN112862105B (zh) * 2019-11-28 2023-08-08 杭州海康威视数字技术股份有限公司 一种数据发布系统、方法及装置
CN111275079B (zh) * 2020-01-13 2023-07-04 浙江大学 基于图神经网络的众包标签推测方法及系统
US11669753B1 (en) * 2020-01-14 2023-06-06 Amazon Technologies, Inc. Artificial intelligence system providing interactive model interpretation and enhancement tools
CN111444937B (zh) * 2020-01-15 2023-05-12 湖州师范学院 一种基于集成tsk模糊分类器的众包质量提升的方法
US11537886B2 (en) 2020-01-31 2022-12-27 Servicenow Canada Inc. Method and server for optimizing hyperparameter tuples for training production-grade artificial intelligence (AI)
US11727285B2 (en) 2020-01-31 2023-08-15 Servicenow Canada Inc. Method and server for managing a dataset in the context of artificial intelligence
CN112101419A (zh) * 2020-08-17 2020-12-18 清华大学 基于众包的高效分类系统及其创建、使用方法
CN112488222B (zh) * 2020-12-05 2022-07-01 武汉中海庭数据技术有限公司 一种众包数据标注方法、系统、服务器及存储介质
CN113255339B (zh) * 2021-05-06 2023-09-19 网易(杭州)网络有限公司 标注任务的处理方法、装置、电子设备及存储介质
US20220383225A1 (en) * 2021-05-28 2022-12-01 Adp, Inc. Organizational Benchmarks
US11783001B2 (en) * 2021-07-08 2023-10-10 Bank Of America Corporation System and method for splitting a video stream using breakpoints based on recognizing workflow patterns
US11531675B1 (en) * 2021-07-19 2022-12-20 Oracle International Corporation Techniques for linking data to provide improved searching capabilities
CN114493810B (zh) * 2022-04-14 2022-07-05 成都信息工程大学 物联网数据处理方法、装置及介质
US20230350895A1 (en) * 2022-04-29 2023-11-02 Volvo Car Corporation Computer-Implemented Method for Performing a System Assessment
CN114880473A (zh) * 2022-04-29 2022-08-09 支付宝(杭州)信息技术有限公司 一种标签分类方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014509002A (ja) * 2011-02-02 2014-04-10 イーベイ インク. 特定地域在庫検索用のメタデータ使用
US20140314311A1 (en) * 2013-04-23 2014-10-23 Wal-Mart Stores, Inc. System and method for classification with effective use of manual data input
JP2017505964A (ja) * 2013-11-27 2017-02-23 株式会社Nttドコモ 機械学習に基づく自動タスク分類

Family Cites Families (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US5664109A (en) 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers
US5897622A (en) 1996-10-16 1999-04-27 Microsoft Corporation Electronic shopping and merchandising system
US7904333B1 (en) 1996-10-25 2011-03-08 Ipf, Inc. Web-based electronic commerce (EC) enabled shopping network configured to allow members of a consumer product management team and authorized parties to communicate directly with consumers shopping at EC-enabled websites along the world wide web (WWW), using multi-mode virtual kiosks (MMVKS) driven by server-side components and managed by product team members
US5864848A (en) 1997-01-31 1999-01-26 Microsoft Corporation Goal-driven information interpretation and extraction system
US6604086B1 (en) 1998-07-20 2003-08-05 Usa Technologies, Inc. Electronic commerce terminal connected to a vending machine operable as a telephone
US7197534B2 (en) 1998-09-01 2007-03-27 Big Fix, Inc. Method and apparatus for inspecting the properties of a computer
US6453347B1 (en) 1999-10-29 2002-09-17 Mcafee.Com, Inc. Active marketing based on client computer configurations
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US20040220926A1 (en) 2000-01-03 2004-11-04 Interactual Technologies, Inc., A California Cpr[P Personalization services for entities from multiple sources
WO2001063486A2 (en) 2000-02-24 2001-08-30 Findbase, L.L.C. Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers
EP1139264A3 (en) 2000-03-29 2002-08-21 Ford Motor Company Order status inquiry and tracking
US20050177785A1 (en) 2000-05-25 2005-08-11 Shrader Theodore J.L. Client-side pricing agent for collecting and managing product price information over the internet
JP2002014681A (ja) 2000-06-28 2002-01-18 Pioneer Electronic Corp 情報提供システム
US20020046248A1 (en) 2000-10-13 2002-04-18 Honeywell International Inc. Email to database import utility
EP1199652A1 (en) 2000-10-16 2002-04-24 Mail Morph Limited Email processing
US6772130B1 (en) 2000-11-22 2004-08-03 Pitney Bowes Inc. Method for parcel tracking on the internet with e-mail notification
US8230323B2 (en) 2000-12-06 2012-07-24 Sra International, Inc. Content distribution system and method
EP1223757B1 (en) 2001-01-09 2006-03-22 Metabyte Networks, Inc. System, method, and software application for targeted advertising via behavioral model clustering, and preference programming based on behavioral model clusters
US20020156817A1 (en) 2001-02-22 2002-10-24 Volantia, Inc. System and method for extracting information
US7546527B2 (en) 2001-03-06 2009-06-09 International Business Machines Corporation Method and apparatus for repurposing formatted content
IL142421A0 (en) 2001-04-03 2002-03-10 Linguistic Agents Ltd Linguistic agent system
US8095597B2 (en) 2001-05-01 2012-01-10 Aol Inc. Method and system of automating data capture from electronic correspondence
US7222090B2 (en) 2001-08-29 2007-05-22 Sedna Patent Services, Llc Method and system for parsing purchase information from web pages
US7197449B2 (en) 2001-10-30 2007-03-27 Intel Corporation Method for extracting name entities and jargon terms using a suffix tree data structure
US8689096B2 (en) 2001-11-19 2014-04-01 Hewlett-Packard Development Company, L.P. Computer-based method, software module and computer program product for processing information in transaction-tax related applications
US7321887B2 (en) 2002-09-30 2008-01-22 Sap Aktiengesellschaft Enriching information streams with contextual content
JP2005529385A (ja) 2002-05-17 2005-09-29 シンクロロジック インコーポレイテッド 旅程データを構文解析するためのシステムおよび方法
US7319981B2 (en) 2002-08-27 2008-01-15 Michael Schwartzman Multi-picture online commerce feature
US20040064373A1 (en) 2002-09-30 2004-04-01 Shannon Robert W. J. Point of sale receipt service
US8070743B2 (en) 2002-11-01 2011-12-06 Valentx, Inc. Devices and methods for attaching an endolumenal gastrointestinal implant
US7024689B2 (en) 2002-12-13 2006-04-04 Intuit, Inc. Granting access rights to unattended software
US7219131B2 (en) 2003-01-16 2007-05-15 Ironport Systems, Inc. Electronic message delivery using an alternate source approach
US20040177120A1 (en) 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7281029B2 (en) 2003-05-13 2007-10-09 Aol Llc, A Delaware Limited Liability Company Method and system of capturing data for automating internet interactions
US20050050099A1 (en) 2003-08-22 2005-03-03 Ge Information Systems System and method for extracting customer-specific data from an information network
US7819317B2 (en) 2003-10-07 2010-10-26 United States Postal Service Bulk proof of delivery
US7917548B2 (en) 2003-11-14 2011-03-29 Bottelle Memorial Institute Universal parsing agent system and method
US7836038B2 (en) 2003-12-10 2010-11-16 Google Inc. Methods and systems for information extraction
US7805344B2 (en) 2004-03-12 2010-09-28 Sybase, Inc. System providing methodology for consolidation of financial information
US20050210016A1 (en) 2004-03-18 2005-09-22 Zenodata Corporation Confidence-based conversion of language to data systems and methods
US20080147525A1 (en) 2004-06-18 2008-06-19 Gene Allen CPU Banking Approach for Transactions Involving Educational Entities
US7617176B2 (en) 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
GB0416857D0 (en) 2004-07-29 2004-09-01 Ingenico Uk Ltd Electronic financial transactions
WO2006013571A1 (en) 2004-08-05 2006-02-09 Viewscore Ltd. System and method for ranking and recommending products or services by parsing natural-language text and converting it into numerical scores
US20060122899A1 (en) 2004-10-08 2006-06-08 Advanced Commerce Strategies, Inc. Comprehensive online shopping management system
US7689037B2 (en) 2004-10-22 2010-03-30 Xerox Corporation System and method for identifying and labeling fields of text associated with scanned business documents
US20060095372A1 (en) 2004-11-01 2006-05-04 Sap Aktiengesellschaft System and method for management and verification of invoices
US20060143158A1 (en) 2004-12-14 2006-06-29 Ruhl Jan M Method, system and graphical user interface for providing reviews for a product
US7461056B2 (en) 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
AU2005201758B2 (en) 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
US20060265396A1 (en) 2005-05-19 2006-11-23 Trimergent Personalizable information networks
US7590647B2 (en) 2005-05-27 2009-09-15 Rage Frameworks, Inc Method for extracting, interpreting and standardizing tabular data from unstructured documents
US7739337B1 (en) 2005-06-20 2010-06-15 Symantec Corporation Method and apparatus for grouping spam email messages
US7546290B2 (en) 2005-08-11 2009-06-09 Marc Colando Systems and methods for extracting and adapting data
US8527504B1 (en) 2005-09-01 2013-09-03 At&T Intellectual Property Ii, L.P. Data network content filtering using categorized filtering parameters
US20070073580A1 (en) * 2005-09-23 2007-03-29 Redcarpet, Inc. Method and system for delivering online sales promotions
US20070073592A1 (en) 2005-09-28 2007-03-29 Redcarpet, Inc. Method and system for network-based comparision shopping
US7487912B2 (en) 2005-09-28 2009-02-10 First Data Corporation Electronic receipting
CN100442283C (zh) 2005-10-20 2008-12-10 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
US20070168464A1 (en) 2005-12-13 2007-07-19 Siemens Medical Solutions Health Services Corporation System for Configuring a Data Exchange and Format Conversion System
US7765212B2 (en) 2005-12-29 2010-07-27 Microsoft Corporation Automatic organization of documents through email clustering
US7899871B1 (en) 2006-01-23 2011-03-01 Clearwell Systems, Inc. Methods and systems for e-mail topic classification
US7644072B2 (en) 2006-01-31 2010-01-05 Perfect Market, Inc. Generating a ranked list of search results via result modeling
US7627641B2 (en) 2006-03-09 2009-12-01 Watchguard Technologies, Inc. Method and system for recognizing desired email
US8233751B2 (en) 2006-04-10 2012-07-31 Patel Nilesh V Method and system for simplified recordkeeping including transcription and voting based verification
US20070250390A1 (en) 2006-04-24 2007-10-25 Advanced Commerce Strategies, Inc. Internet advertising method and system
US8489689B1 (en) 2006-05-31 2013-07-16 Proofpoint, Inc. Apparatus and method for obfuscation detection within a spam filtering model
US7676465B2 (en) 2006-07-05 2010-03-09 Yahoo! Inc. Techniques for clustering structurally similar web pages based on page features
US7653576B2 (en) 2006-08-01 2010-01-26 International Business Machines Corporation Method for pricing items
US7788262B1 (en) 2006-08-04 2010-08-31 Sanika Shirwadkar Method and system for creating context based summary
US20090300482A1 (en) 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
US20080073429A1 (en) 2006-09-26 2008-03-27 Oesterling Christopher L Method and system for post purchase monitoring
US20080098300A1 (en) 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
US7689610B2 (en) 2006-12-01 2010-03-30 Computer Associates Think, Inc. Automated grouping of messages provided to an application using string similarity analysis
US8468244B2 (en) 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US7949670B2 (en) 2007-03-16 2011-05-24 Microsoft Corporation Language neutral text verification
US20080262940A1 (en) 2007-03-29 2008-10-23 Tsc Group Purchase Order and Invoice Aggregator System for Sales Environment
EP2151092A4 (en) 2007-05-17 2010-07-21 Fat Free Mobile Inc METHOD AND SYSTEM FOR DESKTOP TAGGING OF A WEBSITE
US20080306831A1 (en) 2007-06-05 2008-12-11 Jack Phillip Abraham Systems and methods for facilitating purchase transactions in a network
KR20090003397A (ko) 2007-06-08 2009-01-12 엔에이치엔(주) 정보 영역 지시에 의한 전자메일의 부가 정보 서비스 제공방법 및 그 시스템
US8725637B2 (en) 2007-09-28 2014-05-13 The Western Union Company Methods and systems for generating invoices
US8589366B1 (en) 2007-11-01 2013-11-19 Google Inc. Data extraction using templates
US20090171906A1 (en) 2008-01-02 2009-07-02 Research In Motion Limited System and method for providing information relating to an email being provided to an electronic device
US8676815B2 (en) 2008-05-07 2014-03-18 City University Of Hong Kong Suffix tree similarity measure for document clustering
US20090299887A1 (en) 2008-06-03 2009-12-03 Maya Shiran System and method for detecting savings opportunities based on the price protection and return policies of retailers
US20090313101A1 (en) 2008-06-13 2009-12-17 Microsoft Corporation Processing receipt received in set of communications
US8788350B2 (en) 2008-06-13 2014-07-22 Microsoft Corporation Handling payment receipts with a receipt store
US20090327268A1 (en) 2008-06-27 2009-12-31 Microsoft Corporation Providing targeted information for entertainment-oriented searches
US20100037177A1 (en) 2008-08-08 2010-02-11 Golsorkhi Andre O Tool for capturing data across web domains
US7809824B2 (en) 2008-09-29 2010-10-05 Yahoo! Inc. Classification and cluster analysis spam detection and reduction
US20100083095A1 (en) 2008-09-29 2010-04-01 Nikovski Daniel N Method for Extracting Data from Web Pages
US8065373B2 (en) 2008-09-30 2011-11-22 Pivot Solutions, Inc. System and method for processing instant messages
US8606649B2 (en) 2008-10-31 2013-12-10 Ellis Barlow Keener, JR. Display of anomymous purchase information over the internet
RU2686295C2 (ru) 2008-12-17 2019-04-24 Конинклейке Филипс Электроникс, Н.В. Распределенные реестры пациентов для объединенных федеративных pacs
US20100161527A1 (en) 2008-12-23 2010-06-24 Yahoo! Inc. Efficiently building compact models for large taxonomy text classification
US7783515B1 (en) 2009-03-27 2010-08-24 Bank Of America Corporation Itemized receipt tracking system
US20100257066A1 (en) 2009-04-06 2010-10-07 Bank Of America Corporation Electronic receipts collection and management system
EP2449521A4 (en) 2009-06-30 2013-07-03 Hewlett Packard Development Co SELECTIVE EXTRACTION OF CONTENT
US20110078724A1 (en) 2009-09-30 2011-03-31 Verizon Patent And Licensing, Inc. Transactional advertising for television
US8838485B2 (en) 2009-10-26 2014-09-16 Bay Photo, Inc. Automated processing of digital media collections for distributed e-commerce
US8666812B1 (en) 2009-11-10 2014-03-04 Google Inc. Distributing content based on transaction information
US8667015B2 (en) 2009-11-25 2014-03-04 Hewlett-Packard Development Company, L.P. Data extraction method, computer program product and system
US20110208787A1 (en) 2010-01-11 2011-08-25 Sidy Adam L Method and device for continuously aggregating and redistributing personalized electronic information for display on multiple internet-enabled devices
CA2788701A1 (en) 2010-02-03 2011-08-11 Arcode Corporation Electronic message systems and methods
US20110282734A1 (en) 2010-04-07 2011-11-17 Mark Zurada Systems and methods used for publishing and aggregating real world and online purchases via standardized product information
US9015139B2 (en) * 2010-05-14 2015-04-21 Rovi Guides, Inc. Systems and methods for performing a search based on a media content snapshot image
US9305263B2 (en) 2010-06-30 2016-04-05 Microsoft Technology Licensing, Llc Combining human and machine intelligence to solve tasks with crowd sourcing
US20120029963A1 (en) 2010-07-31 2012-02-02 Txteagle Inc. Automated Management of Tasks and Workers in a Distributed Workforce
EP2606438A4 (en) 2010-08-20 2014-06-11 Hewlett Packard Development Co SYSTEMS AND METHODS SUITABLE FOR FILTERING THE CONTENT OF A WEB PAGE
US20120047014A1 (en) 2010-08-23 2012-02-23 Yahoo! Inc. Method and system for using email receipts for targeted advertising
US8527436B2 (en) 2010-08-30 2013-09-03 Stratify, Inc. Automated parsing of e-mail messages
WO2012054788A1 (en) 2010-10-21 2012-04-26 Rillip Inc. Method and system for performing a comparison
US10115154B2 (en) 2011-01-20 2018-10-30 Martin Claude Lefebvre Method and apparatus for inbound message management
US20120203632A1 (en) 2011-02-07 2012-08-09 Marc Blum Tracking and summarizing purchase information
US20120203733A1 (en) 2011-02-09 2012-08-09 Zhang Amy H Method and system for personal cloud engine
US8666984B2 (en) 2011-03-18 2014-03-04 Microsoft Corporation Unsupervised message clustering
US9171088B2 (en) 2011-04-06 2015-10-27 Google Inc. Mining for product classification structures for internet-based product searching
US20120284150A1 (en) 2011-05-02 2012-11-08 Bradford Stanley Inventory management system and method
US20120284081A1 (en) 2011-05-02 2012-11-08 Fang Cheng Methods and Apparatus for Gathering Intelligence from Itemized Receipts
US20130009774A1 (en) 2011-05-08 2013-01-10 Anton Sabeta Reminder method & system for merchandise returns
US9646291B2 (en) 2011-05-11 2017-05-09 Visa International Service Association Electronic receipt manager apparatuses, methods and systems
US8458054B1 (en) 2011-05-13 2013-06-04 Amazon Technologies, Inc. Method, medium, and system for suggesting images for items without images in listings data
US8386285B2 (en) 2011-05-25 2013-02-26 International Business Machines Corporation Demand modeling and prediction in a retail category
US8661095B2 (en) 2011-05-25 2014-02-25 Juniper Networks, Inc. Identifying scripting form of text commands for a network device
CN102831121B (zh) 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
US20120330971A1 (en) 2011-06-26 2012-12-27 Itemize Llc Itemized receipt extraction using machine learning
US9311599B1 (en) 2011-07-08 2016-04-12 Integral Ad Science, Inc. Methods, systems, and media for identifying errors in predictive models using annotators
US9875486B2 (en) 2014-10-21 2018-01-23 Slice Technologies, Inc. Extracting product purchase information from electronic messages
US9846902B2 (en) 2011-07-19 2017-12-19 Slice Technologies, Inc. Augmented aggregation of emailed product order and shipping information
US9563904B2 (en) 2014-10-21 2017-02-07 Slice Technologies, Inc. Extracting product purchase information from electronic messages
US8844010B2 (en) 2011-07-19 2014-09-23 Project Slice Aggregation of emailed product order and shipping information
US20130024282A1 (en) 2011-07-23 2013-01-24 Microsoft Corporation Automatic purchase history tracking
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8738477B2 (en) 2011-11-10 2014-05-27 Connexive, Inc. Method and apparatus for automated bill timeline
US8903924B2 (en) 2011-12-09 2014-12-02 International Business Machines Corporation Aggregating data in electronic communications
US9606970B2 (en) 2012-01-05 2017-03-28 Data Record Science Web browser device for structured data extraction and sharing via a social network
US8744948B1 (en) 2012-01-11 2014-06-03 Intuit Inc. Mobile data import for a financial return
US20130197954A1 (en) * 2012-01-30 2013-08-01 Crowd Control Software, Inc. Managing crowdsourcing environments
US11568334B2 (en) 2012-03-01 2023-01-31 Figure Eight Technologies, Inc. Adaptive workflow definition of crowd sourced tasks and quality control mechanisms for multiple business applications
JP6100559B2 (ja) 2012-03-05 2017-03-22 株式会社半導体エネルギー研究所 半導体記憶装置
US9092749B2 (en) 2012-04-13 2015-07-28 International Business Machines Corporation Information governance crowd sourcing
US9436738B2 (en) 2012-04-19 2016-09-06 Nant Holdings Ip, Llc Mechanical Turk integrated IDE, systems and method
US8812417B2 (en) 2012-08-20 2014-08-19 InsideSales.com, Inc. Hierarchical based sequencing machine learning model
US9461876B2 (en) 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US20140105508A1 (en) 2012-10-12 2014-04-17 Aditya Arora Systems and Methods for Intelligent Purchase Crawling and Retail Exploration
US9268860B2 (en) 2012-12-02 2016-02-23 At&T Intellectual Property I, L.P. Methods, systems, and products for personalized monitoring of data
US20140172767A1 (en) 2012-12-14 2014-06-19 Microsoft Corporation Budget optimal crowdsourcing
US9600788B2 (en) * 2012-12-27 2017-03-21 Xerox Corporation Crowdsourcing directory system
US9374369B2 (en) 2012-12-28 2016-06-21 Lookout, Inc. Multi-factor authentication and comprehensive login system for client-server networks
WO2014111948A1 (en) * 2013-01-18 2014-07-24 Hewlett-Packard Development Company, L. P Task assignment in crowdsourcing
US9183193B2 (en) 2013-02-12 2015-11-10 Xerox Corporation Bag-of-repeats representation of documents
US20140236577A1 (en) 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
US9251474B2 (en) * 2013-03-13 2016-02-02 International Business Machines Corporation Reward based ranker array for question answer system
US9483741B2 (en) * 2013-03-28 2016-11-01 Wal-Mart Stores, Inc. Rule-based item classification
KR20140138512A (ko) 2013-05-24 2014-12-04 대한민국(농촌진흥청장) 구매정보 분석 장치 및 방법
US9594944B2 (en) * 2013-09-25 2017-03-14 Xerox Corporation Methods and systems for monitoring a worker performing a crowdsourced task
US20150095017A1 (en) 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
US9767419B2 (en) 2014-01-24 2017-09-19 Microsoft Technology Licensing, Llc Crowdsourcing system with community learning
US20150254593A1 (en) * 2014-03-10 2015-09-10 Microsoft Corporation Streamlined creation and utilization of reference human intelligence tasks
US20150295869A1 (en) 2014-04-14 2015-10-15 Microsoft Corporation Filtering Electronic Messages
US9275418B2 (en) 2014-05-16 2016-03-01 Bank Of America Corporation Providing e-receipts to customers
US20160071048A1 (en) * 2014-09-08 2016-03-10 Xerox Corporation Methods and systems for crowdsourcing of tasks
US20160104188A1 (en) 2014-10-08 2016-04-14 Paribus Co. Consumer price protection service
WO2016064679A1 (en) 2014-10-21 2016-04-28 Slice Technologies, Inc. Extracting product purchase information from electronic messages
EP3210132A1 (en) 2014-10-24 2017-08-30 Google, Inc. Neural machine translation systems with rare word processing
US10409908B2 (en) 2014-12-19 2019-09-10 Google Llc Generating parse trees of text segments using neural networks
US20160232474A1 (en) * 2015-02-05 2016-08-11 Xerox Corporation Methods and systems for recommending crowdsourcing tasks
US11080587B2 (en) 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
US10339440B2 (en) 2015-02-19 2019-07-02 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
US9313166B1 (en) 2015-04-29 2016-04-12 InsideSales.com, Inc. Enhancement of machine learning techniques for an electronic message system
US10515307B2 (en) 2015-06-05 2019-12-24 Google Llc Compressed recurrent neural network models
US10606946B2 (en) 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
US20170017635A1 (en) 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method
US10089576B2 (en) 2015-07-28 2018-10-02 Microsoft Technology Licensing, Llc Representation learning using multi-task deep neural networks
WO2017083752A1 (en) 2015-11-12 2017-05-18 Google Inc. Convolutional gated recurrent neural networks
EP3371807B1 (en) 2015-11-12 2023-01-04 Google LLC Generating target phoneme sequences from input speech sequences using partial conditioning
WO2017090051A1 (en) 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
US20170154258A1 (en) 2015-11-30 2017-06-01 National Institute Of Information And Communications Technology Joint estimation method and method of training sequence-to-sequence model therefor
US10984365B2 (en) 2015-11-30 2021-04-20 Microsoft Technology Licensing, Llc Industry classification
US10339470B1 (en) * 2015-12-11 2019-07-02 Amazon Technologies, Inc. Techniques for generating machine learning training data
US9792530B1 (en) * 2015-12-28 2017-10-17 Amazon Technologies, Inc. Generating and using a knowledge base for image classification
US10268671B2 (en) 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
US11263514B2 (en) 2016-01-13 2022-03-01 Google Llc Processing and generating sets using recurrent neural networks
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
US10691999B2 (en) 2016-03-16 2020-06-23 Maluuba Inc. Parallel-hierarchical model for machine comprehension on small data
US10019438B2 (en) 2016-03-18 2018-07-10 International Business Machines Corporation External word embedding neural network language models
KR102431817B1 (ko) * 2017-10-12 2022-08-12 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 서버
US20190197483A1 (en) * 2017-12-22 2019-06-27 Microsoft Technology Licensing, Llc Large-scale aggregation and verification of location data
US11803883B2 (en) * 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014509002A (ja) * 2011-02-02 2014-04-10 イーベイ インク. 特定地域在庫検索用のメタデータ使用
US20140314311A1 (en) * 2013-04-23 2014-10-23 Wal-Mart Stores, Inc. System and method for classification with effective use of manual data input
JP2017505964A (ja) * 2013-11-27 2017-02-23 株式会社Nttドコモ 機械学習に基づく自動タスク分類

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086613A (ja) * 2019-11-27 2021-06-03 クラウドワークス インコーポレイテッドCrowdWorks, Inc. 本番作業に基づいた検証用クラウドソーシング作業を提供する方法及び装置
KR102155748B1 (ko) * 2020-01-03 2020-09-17 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 시간 대비 검수 시간을 이용한 검수 단가 자동 업데이트 방법
WO2021137523A1 (ko) * 2020-01-03 2021-07-08 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 시간 대비 검수 시간을 이용한 검수 단가 자동 업데이트 방법
CN111288999A (zh) * 2020-02-19 2020-06-16 深圳大学 一种基于移动终端的行人路网属性检测方法、装置和设备
CN111288999B (zh) * 2020-02-19 2021-08-31 深圳大学 一种基于移动终端的行人路网属性检测方法、装置和设备

Also Published As

Publication number Publication date
JP7458148B2 (ja) 2024-03-29
US20190236478A1 (en) 2019-08-01
US11803883B2 (en) 2023-10-31

Similar Documents

Publication Publication Date Title
JP7458148B2 (ja) ラベル付きトレーニングデータの品質向上
US11017038B2 (en) Identification and evaluation white space target entity for transaction operations
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台系统
Fernández-García et al. A recommender system for component-based applications using machine learning techniques
Vialardi et al. A data mining approach to guide students through the enrollment process based on academic performance
Fahse et al. Managing bias in machine learning projects
US11119979B2 (en) Content based recommendations of file system save locations
US8949237B2 (en) Detecting overlapping clusters
Tarmizi et al. A review on student attrition in higher education using big data analytics and data mining techniques
Ali et al. Trust-based requirements traceability
Paramesh et al. Classifying the unstructured IT service desk tickets using ensemble of classifiers
US11900320B2 (en) Utilizing machine learning models for identifying a subject of a query, a context for the subject, and a workflow
JP2024500464A (ja) 動的ファセットランク付け
Kim Implementation of artificial intelligence system and traditional system: a comparative study
Seeliger et al. Learning of process representations using recurrent neural networks
US20200410387A1 (en) Minimizing Risk Using Machine Learning Techniques
US20210065019A1 (en) Using a dialog system for learning and inferring judgment reasoning knowledge
CN111159241A (zh) 一种点击转化预估方法及装置
Darias et al. Using case-based reasoning for capturing expert knowledge on explanation methods
Tu et al. Attention-aware answers of the crowd
US20200106988A1 (en) Behavioral influence system in socially collaborative tools
US11210108B2 (en) Guiding the installation process of sensor-based devices
Oneto et al. Advances in artificial neural networks, machine learning and computational intelligence
Rebmann et al. Multi-perspective identification of event groups for event abstraction
Calian et al. Integrating memetic search into the BioHEL evolutionary learning system for large-scale datasets

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190426

AA79 Non-delivery of priority document

Free format text: JAPANESE INTERMEDIATE CODE: A24379

Effective date: 20190604

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190606

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211022

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230303

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7458148

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150