JP7270691B2 - データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP7270691B2
JP7270691B2 JP2021136090A JP2021136090A JP7270691B2 JP 7270691 B2 JP7270691 B2 JP 7270691B2 JP 2021136090 A JP2021136090 A JP 2021136090A JP 2021136090 A JP2021136090 A JP 2021136090A JP 7270691 B2 JP7270691 B2 JP 7270691B2
Authority
JP
Japan
Prior art keywords
labeling
data
accuracy rate
process monitoring
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021136090A
Other languages
English (en)
Other versions
JP2022002099A (ja
Inventor
雪 楊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022002099A publication Critical patent/JP2022002099A/ja
Application granted granted Critical
Publication of JP7270691B2 publication Critical patent/JP7270691B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)

Description

本願は、データ処理技術分野に関し、具体的にはコンピュータビジョン、自然言語処理、クラウドサービス等の人工知能技術分野に関し、特にデータをラべリングするための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
人工知能アルゴリズムの段階的な実装により、アルゴリズムの精度を向上させるためにますます多くのデータを必要とされ、データの品質はアルゴリズムの精度に直接影響を及ぼす。
各データ側がより高品質なデータを配送する(delivery)のに、クライアントからの、様々な正確率の要求を満たすように、対応する正確率に関する管理と制御の方案の策定が必要となる。データ品質を向上させ、配送データの精度を向上させることは、ラべリングを行う企業が競争の中で勝ち取る鍵となっている。
従来の正確率管理方案の多くは、クライアントからの正確率要求パラメータのみに基づいて結果による管理と制御を行い、依然として一般的なラべリング方式を用いている。
本願の実施形態は、データをラべリングするための方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。
第1態様において、本願の実施形態は、ラベリング対象データに対するラベリング正確率要求を取得することと、ラベリング対象データとマッチングするプロセス監視パラメータを確定し、プロセス監視パラメータは階層が順次高くなる複数の次元正確率のうちの少なくとも一つを含むことと、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行い、総合的な正確率を得ることと、総合的な正確率が前記ラベリング正確率要求を満たしたことに応答して、ラベリング済みデータを出力することと、を含む、データをラベリングするための方法を提供する。
第2態様において、本願の実施形態は、ラベリング対象データのラベリング正確率要求を取得するように構成される要求取得ユニットと、ラベリング対象データとマッチングするプロセス監視パラメータを確定するように構成され、プロセス監視パラメータは階層が順次高くなる複数の次元正確率のうちの少なくとも一つを含む、プロセス監視パラメータ確定ユニットと、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行い、総合的な正確率を得るように構成されるラベリングコンテンツ重み付けユニットと、総合的な正確率がラベリング正確率要求を満たすことに応答し、ラベリング済みデータを出力するように構成されるラベリングデータ出力ユニットと、を含む、データをラベリングするための装置を提供する。
第3態様において、本願の実施形態は、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも一つのプロセッサによって実行可能な指令が格納され、該指令が少なくとも一つのプロセッサによって実行されると、少なくとも一つのプロセッサに第1態様のいずれかの実施形態に記載のデータをラベリングするための方法が実現される電子機器を提供する。
第4態様において、本願の実施形態は、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、該コンピュータ指令は第1態様のいずれかの実施形態に記載のデータをラベリングするための方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
第5態様において、本願の実施形態は、プロセッサによって実行されると、第1態様のいずれかの実施形態に記載のデータをラベリングするための方法が実現されるコンピュータ指令を含む、コンピュータプログラムを提供する。
本願の実施形態が提供するデータをラベリングするための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムは、まず、ラベリング対象データのラベリング正確率要求を取得し、続いて、ラベリング対象データとマッチングするプロセス監視パラメータを確定し、ここで、プロセス監視パラメータは階層が順次高くなる複数の次元正確率のうちの少なくとも一つを含み、次に、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係に基づき、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行い、総合的な正確率を得、最後に、総合的な正確率がラベリング正確率要求を満たしたことに応答して、ラベリング済みデータを出力する。
本願が提供する技術方案はまず適切なプロセス監視パラメータを確定してラベリングプロセスを監視し、且つラベリングプロセスの監視中にラベリング対象データの異なるコンテンツの間の因果関係と依存関係とに基づいて、因果関係と依存関係に合致する重み係数を設定することにより、重み付け後に得られた総合的な正確率が実際のラベリング状況をより正確に記述することができるようにし、それにより総合的な正確率の管理と制御に基づいて無効ラベリング動作の発生を回避させ、ラベリング効率を向上させることができる。
なお、発明の概要に記載されたコンテンツは、本願の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本願の範囲を限定するものでもない。本願の他の特徴は、以下の説明によって容易に理解されるである。
本願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになるである。
本願が適用可能な例示的なシステムアーキテクチャである。 本願の実施形態により提供されるデータをラベリングするための方法のフローチャートである。 本願の実施形態により提供されるもう1種のデータをラベリングするための方法のフローチャートである。 本願の実施形態により提供されるデータをラベリングするための装置の構造概略図である。 本願の実施形態により提供されるデータをラベリングするための方法を実行するために適する電子機器の構造概略図である。
以下は図面を参照して本願の例示的な実施形態を説明し、ここでは理解を助けるため、本願の実施形態の様々な詳細を記載するが、これらのものは単なる例示的なものに過ぎない。従って、本願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更や修正を行うことができることは自明である。なお、以下の説明では、明確化及び簡略化のため、公知の機能及び構成については説明を省略する。なお、矛盾しない限り、本願における実施形態及び実施形態における特徴を互いに組み合わせることができる。
本開示の技術方案では、関連するユーザ個人情報の取得、記憶及び応用などは、いずれも関連法律法規の規定に準拠し、必要な秘密保持措置を取っており、且つ公序良俗には反していない。
図1は、本願に係るデータをラベリングするための方法、装置、電子機器およびコンピュータ可読記憶媒体の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、及びサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒介として使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103及びサーバ105には、両者の間の情報通信を実現するための様々なアプリケーションがインストールされてもよく、例えばラべリングタスク割り当て系アプリケーション、ラべリングプロセス監視系アプリケーション、インスタントメッセージ系アプリケーションなどが挙げられる。
端末装置101、102、103およびサーバ105は、ハードウェアでもよくソフトウェアでもよい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子機器であってもよく、ソフトウェアである場合、上記列挙された電子機器にインストールされてもよく、複数のソフトウェア若しくはソフトウェアモジュールとして実装されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよく、これらに限定されない。サーバ105は、ハードウェアである場合、複数のサーバで構成される分散型サーバクラスター又は単一のサーバとして実現することができる。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
サーバ105は内蔵された各種アプリケーションによって様々なサービスを提供することができ、ラベリング対象データのラベリング正確率管理制御サービスを提供することができるラベリング管理制御系アプリケーションを例として説明する。サーバ105は、該ラベリング管理制御系アプリケーションを実行する時に以下の効果を実現することができる。まず、ラベリング対象データのラベリング正確率要求を取得し、続いて、ラベリング対象データとマッチングするプロセス監視パラメータを確定し、ここで、プロセス監視パラメータは階層が順次高くなる複数の次元正確率のうちの少なくとも一つを含み、次に、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行い、総合的な正確率を得、最後に、総合的な正確率がラベリング正確率要求を満たしたことに応答して、ラベリング済みデータを出力する。
ラベリングプロセスの監視及び管理と制御は比較的多くの演算リソース及び比較的強い演算能力を占める必要があるため、本願に係る各実施形態により提供されるデータをラベリングするための方法は、一般的に比較的強い演算能力、多くの演算リソースを有するサーバ105によって実行されている。対応して、データをラベリングするための装置も一般的にはサーバ105に設けられている。
なお、図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解されたい。実装の必要性に応じて、端末装置、ネットワーク及びサーバの数を適宜加減してもよい。
本願の実施形態により提供されるデータをラベリングするための方法のフローチャートである図2を参照されたい。フロー200は以下のステップ(ステップ201~204)を含む。
ステップ201、ラベリング対象データに対するラベリング正確率要求を取得する。
本ステップは、データをラベリングするための方法の実行主体(例えば、図1に示すサーバ105)によって、ラベリング対象データに対するラベリング正確率要求を取得することを目的とする。ここで、該ラベリング正確率要求は通常、最終結果に対する要求の一つであり、例えば全体のラベリング正確率は90%以上であるべき、もちろん、いくつかの中間のラベリングパラメータの正確率要求、又はいくつかの中間のプロセスデータを含む可能性もある。
具体的には、ラベリング対象データとラベリング対象データに対するラベリング正確率要求は、上記実行主体によってローカルの記憶装置から直接取得してもよいし、ローカルでない記憶装置(例えば、図1に示されていないラベリング要求端末)から取得してもよい。ローカルの記憶装置は上記実行主体内に設けられた1つのデータ記憶モジュールであってもよく、例えばサーバハードディスクであり、この場合、ラベリング対象データ及びラベリング対象データに対するラベリング正確率は、ローカルで高速に読み取ることができる。ローカルでない記憶装置はさらにデータを記憶するために設けられた他の任意の電子機器であってもよく、例えばユーザ端末等であり、この場合、上記実行主体は該電子機器に取得指令を送信することによって必要なラベリング対象データ及びラベリング対象データに対するラベリング正確率を取得することができる。また、ラベリング対象データとラベリング正確率は別々の場所に格納されてもよい。
ステップ202、ラベリング対象データとマッチングするプロセス監視パラメータを確定する。
ステップ201を基に、本ステップは、上記実行主体によってラベリング対象データとマッチングするプロセス監視パラメータを確定することを目的とする。ここで、プロセス監視パラメータとは、ラベリング対象データをラベリングするプロセスにおいて、正確率監視を行うためのパラメータであり、ラベリング対象データを異なる階層で記述することにより、各階層の中間監視パラメータを形成することを目的とする。マッチングのプロセスは、ラベリング対象データの実際の状況(例えば、タイプ、要求、特性、実際の最大階層差など)に基づいて、実際のプロセス監視パラメータとしていくつを選択するか、どれを選択するかを確定し、中間のラベリングプロセスを十分に記述することによって、中間のラベリングプロセスに対する管理と制御を実現する。
具体的には、プロセス監視パラメータは、階層が順次高くなる要素次元正確率、データ次元正確率、トピック(topic)次元正確率、ページ次元正確率及びバッチ次元正確率のうちの少なくとも一つを含むことができる。ここで、要素次元は最小単位のラベリング情報であり、後の次元はいずれも複数の直前の次元のアグリゲーション(aggregation)であり、後の次元は1つ前の次元のアグリゲーションであると理解してもよい。
例えば、要素次元はラベリング対象データのうちの最下層とし、キャリブレーションボックスを例にとると、要素次元はキャリブレーションボックスの一辺であってもよく、キャリブレーションボックス自体であってもよいが、データ次元は当該画像に含まれる全てのキャリブレーションボックスであってもよい。トピック次元は当該トピックが含む全ての画像であってもよい。ページ次元は当該ページが含む全てのトピックであってもよい。バッチ次元は当該バッチが提供する全てのページであってもよい。さらに複数の層によりアグリゲートされた次元正確率が形成される。
ステップ203、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて、プロセス監視パラメータに重み付けを行い、総合的な正確率を取得する。
ステップ202を基に、本ステップは上記実行主体によって異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行い、それにより客観的かつ効果的に正確率を記述できる総合的な正確率を得ることを目的とする。
「因果」関係における「因」の1つのラベリング対象データにラベリングエラーが存在すると、その後の当該「因」に基づいて後続してラベリングされた「果」であるすべてのラベリング対象データは参照意義を完全に喪失することになることを理解すべきである。
ステップ204、総合的な正確率がラベリング正確率要求を満たしたことに応答して、ラベリング済みデータを出力する。
ステップ203を基に、本ステップにおいて、総合的な正確率がラベリング正確率要求を満たす場合について、上記実行主体はラベリング済みデータが既に配送要求を満たし、ラベリング済みデータを出力できると認めることを目的とする。
本願に係る技術方案はまず適切なプロセス監視パラメータを確定してラベリングプロセスを監視し、且つラベリングプロセスの監視中にラベリング対象データの異なるコンテンツの間の因果関係と依存関係とに基づいて、因果関係と依存関係に合致する重み係数を設定することにより、重み付け後に得られた総合的な正確率が実際のラベリング状況をより正確に記述することができるようにし、それにより総合的な正確率の管理と制御に基づいて無効ラベリング動作の発生を回避させ、ラベリング効率を向上させる。
本願の実施形態により提供されるもう1つの、データをラベリングするための方法のフローチャートである図3を参照されたい。フロー300は以下のステップ(ステップ301~310)を含む。
ステップ301、ラベリング対象データに対するラベリング正確率要求を取得する。
以上のステップ301は図2に示すステップ201と一致しており、同じ部分の内容は前の実施形態の対応する部分を参照されたい。ここでは説明を省略する。
ステップ302、ラベリング対象データと同じタイプのラベリング済みデータが存在するか否かを判断し、存在する場合はステップ303を実行し、存在しない場合はステップ304を実行する。
ステップ303、ラベリング対象データと同じタイプのラベリング済みデータに対するラベリング正確率に基づいてターゲットラベリングオブジェクトを確定する。
本ステップにおいて、上記実行主体によって、ラベリング正確率要求に基づいて、ラベリング対象データをラベリングするための適切なターゲットラベリングオブジェクトを確定することを目的とする。ラベリング対象データがまだラベリングされておらず、各ラベリングオブジェクトのラベリング対象データに対するラベリング正確率を直接得ることができないため、本ステップはデータタイプから着手し、同じタイプのラベリング済みデータを見付け、どのラベリングオブジェクトが過去に同じタイプのデータに対してラベリング正確率を満たす実際のラベリング正確率を有するかを判定する。ここで、ラベリングオブジェクトは、ラベリング作業員であってもよく、異なるラベリング機能を有するラベリングモデルであってもよく、ラベリング機能を有するさまざまな既存のフォームであってもよい。
ステップ304、ラベリング対象データとのタイプ類似度が予め設定された類似度を超えた他のラベリング済みデータを選択し、他のラベリング済みデータのラベリング正確率に対して、タイプ類似度に反比例する損失係数(Loss Factor)を用いて重み付けを行う。
ステップ303とは異なり、本ステップはラベリング対象データのタイプと同じラベリング済みデータが存在しないことを前提とし、この場合、本ステップはラベリング対象データとのタイプ類似度が予め設定された類似度を超えた他のラベリング済みデータを選択する代替案を提供し、他のラベリング済みデータのラベリング正確率に損失係数を用いて重み付けを行う。
ここで、本ステップで使用される損失係数の大きさはタイプ類似度に反比例し、すなわち他のラベリング済みデータとラベリング対象データとのタイプ類似度が高いほど、該損失係数は小さく、逆に該タイプ類似度が低いほど、該損失係数は大きい。損失係数が小さいほど、それを用いて重み付けを行った結果が元のラベリング正確率に近く、逆に損失係数が大きいほど、元のラベリング正確率に大きく異なることを意味する。
タイプ類似度が80%の場合を例にとると、その損失係数は10%であってもよいが、実際に重み付け方式を算出する場合、他のラベリング済みデータのラベリング正確率が90%である場合、損失係数を重み付けした後の基準ラベリング正確率は90%×(1-10%)=81%になる。
ステップ305、重み付け後の基準ラベリング正確率に基づいてターゲットラベリングオブジェクトを確定する。
ステップ304を基に、本ステップは、重み付け後の基準ラベリング正確率に基づいて、上記の実行主体によってターゲットラベリングオブジェクトを確定することを目的とする。ラベリング正確率要求が80%と仮定すると、ステップ304の例によれば、他のラベリング済みデータに対するラベリング正確率が89%よりも大きいラベリングオブジェクトのみをターゲットラベリングオブジェクトとして選択することができる。
ステップ306、ラベリング対象データに含まれる異なるラベリング対象オブジェクトの間の最大階層差を確定する。
ステップ307、最大階層差の数と一致する複数の次元正確率をプロセス監視パラメータとして選択する。
図2に示す実施形態におけるステップ202が提供する上位概念に基づいて、本実施形態はステップ306~ステップ307によってラベリング対象データに含まれる異なるラベリング対象オブジェクトの間の最大階層差に基づいてプロセス監視パラメータを具体的に確定する解決手段を提供し、すなわち最大階層差の数と一致する複数の次元正確率をプロセス監視パラメータとして選択する。
ここで、異なるラベリング対象オブジェクト間の最大階層差とは、ラベリングオブジェクトの間の階層関係の一つのパラメータであり、例えば、最小ラベリング対象オブジェクトは冷蔵庫内の1種の食物であり、該食物は具体的には該冷蔵庫の下半部の冷凍領域内の第二段に位置し、従って、最小ラベリング対象オブジェクトと最大ラベリング対象オブジェクトとの間の階層差は4層である。この時、最下層の食物の次元は要素次元正確率に対応し、これらの4層はそれぞれ要素次元正確率、データ次元正確率、トピック次元正確率、ページ次元正確率と設定することができる。
ステップ308、ターゲットラベリングオブジェクトごとに割り当てられた一部のラベリング対象データに対し、一部のラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行い、総合的な正確率を得る。
一の実施形態として、因果関係または依存関係にある少なくとも2つのラベリング結果のうちの先のラベリング結果のエラーに応答して、後のラベリング結果の係数を0に設定することを含むが、これに限定されない。すなわち、「因果」関係における「因」の1つのラベリング対象データにラベリングエラーが存在すると、その後の当該「因」に基づいて後続してラベリングされた「果」であるすべてのラベリング対象データは参照意義が完全に喪失することになる。
ステップ309、総合的な正確率がラベリング正確率要求を満たさないことに応答して、個人の総合的な正確率が最も低いターゲットラベリングオブジェクトを異常ラベリングオブジェクトと確定する。
ステップ310、異常ラベリングオブジェクトを制御して、その割り当てられた一部のラベリング対象データを再ラベリングする。
図2に示す実施形態が対象とする総合的な正確率がラベリング正確率要求を満たす場合とは異なり、本実施形態はステップ309~ステップ3010によって総合的な正確率がラベリング正確率要求を満たさない場合を補足的に説明することを目的とし、すなわち、総合的な正確率が最も低いターゲットラベリングオブジェクトをまず異常ラベリングオブジェクトとして確定し、続いて異常ラベリングオブジェクトを制御して、その割り当てられた一部のラベリング対象データを再ラベリングすることを考える。このようにして、総合的な正確率が配送要求を満たすことが可能な限り確保されるようにする。再ラベリングしても良い効果が得られない場合、その異常ラベリングオブジェクトを変更することを考えてもよい。例えば、候補ラベリングオブジェクトに変更して、再ラベリングする必要のある部分データを再ラベリングすることを考えてもよい。
本実施形態では、ステップ302~ステップ305により、適切なラベリングオブジェクトを如何に選択して後続のラベリングを行う方法を提供する。さらにステップ306~ステップ307により、ラベリング対象データにおける実際の最大階層差に基づいて、適切なプロセス監視パラメータを確定する具体的な実施形態を提供する。同時にさらにステップ308~ステップ3010により、図2に示した実施形態と異なる別の態様を提供し、すなわち総合的な正確率が配送要求を満たさない場合の実施形態を提供する。
なお、本実施形態が提供する前の実施形態とは異なる3つの具体的/分岐補足形態の間には依存関係及び因果関係が存在しているわけではなく、図2に示す実施形態をそれぞれ組み合わせて単独の複数の実施形態を形成することができ、本実施形態は3つの具体的な/分岐の補足形態を同時に含む好適な実施形態として存在することを理解すべきである。
理解を深めるために、本願ではさらに具体的な応用シーンを踏まえて、具体的な実施形態を提供する。
1)クラウドサーバがクライアントから送信されたラベリング対象データと、その全体のラベリング正確率が90%以上であるラベリング正確率要求とを受信する。
2)クラウドサーバは自然言語処理技術によって該テキスト類ラベリング対象データが属する技術分野を解析し、A技術分野に属する技術テキストの結論を得る。
3)クラウドサーバはA技術分野で以前に技術テキストのラベリングを行ったか否かを問い合わせ、以前にラベリングを行ったことがあることを発見し、そのために以前にA分野に対してラベリングしたことのある複数のラベリングオブジェクトの履歴ラベリング正確率を呼び出したことがある。
4)クラウドサーバは、履歴ラベリング正確率が90%より大きい6つのラベリングオブジェクトをいずれも候補ラベリングオブジェクトとして選択し、且つそのうちの3つのラベリングオブジェクトをラベリング率の高から低の順でターゲットラベリングオブジェクト(それぞれA1、A2、A3とする)として選択する。
5)クラウドサーバは、ラベリング対象データを3つに分けた後にA1、A2、A3それぞれの所在する端末装置に送信し、且つ同時に階層が3であるプロセス監視パラメータ要求、およびコンテンツの因果関係に基づく重み付けロジックを送信する。
6)端末装置は、受信したラベリング対象データ、要求、重み付けロジックに基づいて、ラベリング結果を解析および処理し、異常がある場合はクラウドサーバに報告する。
7)クラウドサーバは、A3のラベリングオブジェクトに対して一部のラベリング対象データのラベリング正確率が0であることを発見し、且つその総合的な正確率が90%未満であることを招き、それによって、因果関係が存在する異なるラベリング対象データの「因」部分に深刻なラベリングエラーが発生したことを判別し、一回の再ラベリング機会を与える。
8)クラウドサーバは、再度A3の再ラベリング結果を解析し、今回のラベリングの総合的な正確率が93%で、A1とA2の間にあり、全体的に配送要求に合致すると認め、ラベリング済みデータをクライアントに出力する。
更に図4を参照すると、上記の図に示された方法の実施態様として、本願は、データをラベリングするための装置の一実施形態を提供し、該装置の実施形態は、図2に示された方法の実施形態に対応しており、該装置は具体的に様々な電子機器に適用することができる。
図4に示すように、本実施形態のデータをラベリングするための装置400は、要求取得ユニット401と、プロセス監視パラメータ確定ユニット402と、ラベリングコンテンツ重み付けユニット403と、ラベリングデータ出力ユニット404とを含んでもよい。ここで、要求取得ユニット401は、ラベリング対象データに対するラベリング正確率要求を取得するように構成されている。プロセス監視パラメータ確定ユニット402は、ラベリング対象データとマッチングするプロセス監視パラメータを確定するように構成されている。ここで、プロセス監視パラメータは、階層が順次高くなる複数の次元正確率のうちの少なくとも一つを含む。ラベリングコンテンツ重み付けユニット403は、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行い、総合的な正確率を得るように構成されている。ラベリングデータ出力ユニット404は、総合的な正確率がラベリング正確率要求を満たすことに応答して、ラベリング済みデータを出力するように構成されている。
本実施形態において、データをラベリングするための装置400において、要求取得ユニット401と、プロセス監視パラメータ確定ユニット402と、ラベリングコンテンツ重み付けユニット403と、ラベリングデータ出力ユニット404の具体的な処理及びそれによる技術的効果はそれぞれ図2の対応する実施形態におけるステップ201~204の関連する説明を参照することができ、ここで説明を省略する。
本実施形態のいくつかのオプション的な実施形態において、ラベリングコンテンツ重み付けユニット403は、さらに
因果関係または依存関係にある少なくとも2つのラベリング結果のうちの先のラベリング結果のエラーに応答して、後のラベリング結果の係数を0に設定するように構成される。
本実施形態のいくつかのオプション的な実施形態において、データをラベリングするための装置400は、さらに
異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係に基づいて、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行う前に、ラベリング対象データと同じタイプのラベリング済みデータを選択し、且つラベリング済みデータに対するラベリング正確率に基づいてターゲットラベリングオブジェクトを確定するように構成されるターゲットラベリングオブジェクト確定ユニットをさらに含んでもよく、
ラベリングコンテンツ重み付けユニット403は、さらに、
ターゲットラベリングオブジェクトごとに割り当てられた一部のラベリング対象データに対し、一部のラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づき、対応する大きさの係数を用いてプロセス監視パラメータに重み付けを行うように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、プロセス監視パラメータは、階層が順次高くなる要素次元正確率、データ次元正確率、トピック次元正確率、ページ次元正確率およびバッチ次元正確率のうちの少なくとも一つを含む。ここで、要素次元は最小単位のラベリング情報を指し、後の次元はいずれも複数の直前の次元のアグリゲーションである。
本実施形態のいくつかのオプション的な実施形態において、プロセス監視パラメータ確定ユニット402は、さらに
ラベリング対象データに含まれる異なるラベリング対象オブジェクトの間の最大階層差を確定し、
最大階層差の数と一致する複数の次元正確率をプロセス監視パラメータとして選択するように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、データをラベリングするための装置400は、さらに
総合的な正確率がラベリング正確率の要求を満たさないことに応答して、個人の総合的な正確率が最も低いターゲットラベリングオブジェクトを異常ラベリングオブジェクトとして確定するように構成される異常ラベリングオブジェクト確定ユニットと、
異常ラベリングオブジェクトを制御して、その割り当てられた一部のラベリング対象データを再ラベリングするように構成される異常処理装置ユニットとを含んでもよい。
本実施形態は上記方法の実施形態に対応する装置の実施形態として存在し、本実施形態の提供するデータをラベリングするための装置は、まず適切なプロセス監視パラメータを確定してラベリングプロセスを監視し、且つラベリングプロセスの監視中にラベリング対象データの異なるコンテンツの間の因果関係と依存関係とに基づいて、因果関係と依存関係とに合致する重み係数を設定することにより、重み付け後に得られた総合的な正確率が実際のラベリング状況をより正確に記述することができるようにし、それにより総合的な正確率の管理と制御に基づいて無効ラベリング動作の発生を回避させ、ラベリング効率を向上させることができる。
本願の実施形態によれば、本願はさらに電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムを提供する。
図5は、本願の実施形態を実施するために使用できる例示的な電子機器500の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで記述および/または要求した本願の実施形態を限定することを意図するものではない。
図5に示すように、電子機器500は、読み出し専用メモリ(ROM)502に記憶されているコンピュータプログラム又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムによって様々な適当な動作及び処理を実行することができる演算ユニット501を備える。RAM503には、電子機器500の動作に必要な様々なプログラム及びデータが更に格納されることが可能である。演算ユニット501、ROM502及びRAM503は、バス504を介して互いに接続されている。入/出力(I/O)インターフェース505もバス504に接続されている。
電子機器500において、キーボード、マウスなどの入力ユニット506と、様々なタイプのディスプレイ、スピーカなどの出力ユニット507と、磁気ディスク、光ディスクなどの記憶ユニット508と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット509とを含む複数のコンポーネントは、I/Oインターフェース505に接続されている。通信ユニット509は、電子機器500がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報又はデータのやりとりを可能にする。
演算ユニット501は、処理及び演算機能を有する様々な汎用及び/又は専用処理コンポーネントであってもよい。演算ユニット501のいくつかの例としては、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算ユニット501は、上述した、データをラベリングするための方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、データをラベリングするための方法は、記憶ユニット508などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部又は全部は、ROM502及び/又は通信ユニット509を介して電子機器500にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM503にロードされ、演算ユニット501によって実行されるとき、上述のデータをラベリングするための方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、演算ユニット501は、他の任意の適切な形態によって(例えば、ファームウェアによって)データをラベリングするための方法を実行するように構成されていてもよい。
ここで説明するシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つ又は複数のコンピュータプログラムに実装され、該1つ又は複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び/又は解釈することができ、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置及び少なくとも一つの出力装置からデータ及び指令を受信することができ、且つデータ及び指令を該記憶システム、該少なくとも一つの入力装置及び該少なくとも一つの出力装置に伝送することを含み得る。
本願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本願のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、コマンド実行システム、装置またはデバイスが使用するため、またはコマンド実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボード及び該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェース又はウェブブラウザを介してここで説明したシステム及び技術の実施形態とインタラクションしてもよく、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスにおける管理の難しさが大きく、ビジネス拡張性が弱いという欠陥を解決する。
本実施形態により提供される技術方案は、まず適切なプロセス監視パラメータを確定してラベリングプロセスを監視し、且つラベリングプロセスの監視中にラベリング対象データの異なるコンテンツの間の因果関係と依存関係とに基づいて、因果関係と依存関係とに合致する重み係数を設定することにより、重み付け後に得られた総合的な正確率が実際のラベリング状況をより正確に記述することができるようにし、それにより総合的な正確率の管理と制御に基づいて無効ラベリング動作の発生を回避させ、ラベリング効率を向上させる。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成される限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここで制限はしない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要求および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本願の趣旨および原理を逸脱することなく行われたあらゆる修正、均等置換および改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (15)

  1. データをラベリングするための装置により実行される方法であって、
    ラベリング対象データに対するラベリング正確率要求を取得することと、
    前記ラベリング対象データとマッチングするプロセス監視パラメータを確定することであって、前記プロセス監視パラメータは階層が順次高くなる複数の次元正確率のうちの少なくとも一つを含むことと、
    異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行い、総合的な正確率を得ることと、
    前記総合的な正確率が前記ラベリング正確率要求を満たしたことに応答して、ラベリング済みデータを出力することと、を含む方法。
  2. 前記の、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行うことは、
    因果関係または依存関係にある少なくとも2つのラベリング結果のうちの先のラベリング結果のエラーに応答して、後のラベリング結果の係数を0に設定することを含む請求項1に記載の方法。
  3. 異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行う前に、さらに
    前記ラベリング対象データと同じタイプのラベリング済みデータを選択し、前記ラベリング済みデータに対するラベリング正確率に基づいてターゲットラベリングオブジェクトを確定することを含み、
    前記の、異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行うことは、
    前記ターゲットラベリングオブジェクトごとに割り当てられた一部のラベリング対象データに対し、前記一部のラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行うことを含む請求項1に記載の方法。
  4. 前記プロセス監視パラメータは、階層が順次高くなる要素次元正確率、データ次元正確率、トピック次元正確率、ページ次元正確率及びバッチ次元正確率のうちの少なくとも一つを含み、
    要素次元は最小単位のラベリング情報を指し、後の次元はいずれも複数の直前の次元のアグリゲーションである、請求項1に記載の方法。
  5. 前記の、前記ラベリング対象データとマッチングするプロセス監視パラメータを確定することは、
    前記ラベリング対象データに含まれる異なるラベリング対象オブジェクト間の最大階層差を確定することと、
    前記最大階層差の数と一致する複数の次元正確率を前記プロセス監視パラメータとして選択することとを含む請求項4に記載の方法。
  6. 前記総合的な正確率が前記ラベリング正確率要求を満たさないことに応答して、個人の総合的な正確率が最も低いターゲットラベリングオブジェクトを異常ラベリングオブジェクトとして確定することと、
    前記異常ラベリングオブジェクトを制御して、前記割り当てられた一部のラベリング対象データを再ラベリングすることとを含む請求項に記載の方法。
  7. ラベリング対象データのラベリング正確率要求を取得するように構成される要求取得ユニットと、
    前記ラベリング対象データとマッチングするプロセス監視パラメータを確定するように構成され、前記プロセス監視パラメータは階層が順次高くなる複数の次元正確率のうちの少なくとも一つを含む、プロセス監視パラメータ確定ユニットと、
    異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行い、総合的な正確率を得るように構成されるラベリングコンテンツ重み付けユニットと、
    前記総合的な正確率が前記ラベリング正確率要求を満たしたことに応答し、ラベリング済みデータを出力するように構成されるラベリングデータ出力ユニットと、を含む、データをラベリングするための装置。
  8. 前記ラベリングコンテンツ重み付けユニットは、さらに
    因果関係または依存関係にある少なくとも2つのラベリング結果のうちの先のラベリング結果のエラーに応答して、後のラベリング結果の係数を0に設定するように構成される請求項7に記載の装置。
  9. 異なるラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行う前に、前記ラベリング対象データと同じタイプのラベリング済みデータを選択し、且つ前記ラベリング済みデータに対するラベリング正確率に基づいてターゲットラベリングオブジェクトを確定するように構成されるターゲットラベリングオブジェクト確定ユニットをさらに含み、
    前記ラベリングコンテンツ重み付けユニットは、さらに
    前記ターゲットラベリングオブジェクトごとに割り当てられた一部のラベリング対象データに対し、前記一部のラベリング対象データのコンテンツ上存在する依存関係と因果関係とに基づいて、対応する大きさの係数を用いて前記プロセス監視パラメータに重み付けを行うように構成される請求項7に記載の装置。
  10. 前記プロセス監視パラメータは、階層が順次高くなる要素次元正確率、データ次元正確率、トピック次元正確率、ページ次元正確率及びバッチ次元正確率のうちの少なくとも一つを含み、
    要素次元は最小単位のラベリング情報を指し、後の次元はいずれも複数の直前の次元のアグリゲーションである請求項7に記載の装置。
  11. 前記プロセス監視パラメータ確定ユニットは、さらに
    前記ラベリング対象データに含まれる異なるラベリング対象オブジェクト間の最大階層差を確定することと、
    前記最大階層差の数と一致する複数の次元正確率を前記プロセス監視パラメータとして選択することとを行うように構成される請求項10に記載の装置。
  12. 前記総合的な正確率が前記ラベリング正確率要求を満たさないことに応答し、個人の総合的な正確率が最も低いターゲットラベリングオブジェクトを異常ラベリングオブジェクトとして確定するように構成される異常ラベリングオブジェクト確定ユニットと、
    前記異常ラベリングオブジェクトを制御して、前記割り当てられた一部のラベリング対象データを再ラベリングするように構成される異常処理装置ユニットとをさらに含む請求項に記載の装置。
  13. 少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な指令が格納され、前記少なくとも一つのプロセッサが、請求項1~6のいずれか一項に記載のデータをラベリングするための方法を実行するように、前記指令が前記少なくとも一つのプロセッサによって実行される、電子機器。
  14. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~6のいずれか一項に記載のデータをラベリングするための方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  15. プロセッサによって実行されると、請求項1~6のいずれか一項に記載のデータをラベリングするための方法が実現されるコンピュータ指令を含む、コンピュータプログラム。
JP2021136090A 2021-03-25 2021-08-24 データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム Active JP7270691B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110319604.2 2021-03-25
CN202110319604.2A CN112988727B (zh) 2021-03-25 2021-03-25 数据标注方法、装置、设备、存储介质及计算机程序产品

Publications (2)

Publication Number Publication Date
JP2022002099A JP2022002099A (ja) 2022-01-06
JP7270691B2 true JP7270691B2 (ja) 2023-05-10

Family

ID=76334518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021136090A Active JP7270691B2 (ja) 2021-03-25 2021-08-24 データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US11604766B2 (ja)
EP (1) EP3933719A3 (ja)
JP (1) JP7270691B2 (ja)
KR (1) KR102555607B1 (ja)
CN (1) CN112988727B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408633B (zh) * 2021-06-29 2023-04-18 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN113449142A (zh) * 2021-06-30 2021-09-28 北京百度网讯科技有限公司 信息处理方法及装置、电子设备、存储介质及产品
CN115934675B (zh) * 2022-12-01 2023-10-03 深圳市云积分科技有限公司 动态标签的输出方法及装置、存储介质、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
CN108898162A (zh) 2018-06-08 2018-11-27 东软集团股份有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
JP2020042386A (ja) 2018-09-07 2020-03-19 株式会社日立製作所 対象データに対して関連付けるラベルを決定する計算機システム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105516071B (zh) * 2014-10-13 2019-01-18 阿里巴巴集团控股有限公司 验证业务操作安全性的方法、装置、终端及服务器
US11379695B2 (en) * 2016-10-24 2022-07-05 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN110210624A (zh) * 2018-07-05 2019-09-06 第四范式(北京)技术有限公司 执行机器学习过程的方法、装置、设备以及存储介质
US11023785B2 (en) * 2018-07-23 2021-06-01 International Business Machines Corporation Sparse MRI data collection and classification using machine learning
CN109190674B (zh) * 2018-08-03 2021-07-20 百度在线网络技术(北京)有限公司 训练数据的生成方法及装置
CN111208933B (zh) * 2018-11-21 2023-06-30 昆仑芯(北京)科技有限公司 数据访问的方法、装置、设备和存储介质
US11003859B2 (en) * 2018-11-30 2021-05-11 International Business Machines Corporation Machine-learning automated structural quality analysis
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN109978356A (zh) * 2019-03-15 2019-07-05 平安普惠企业管理有限公司 标注任务分配方法、装置、介质和计算机设备
CN111797653B (zh) * 2019-04-09 2024-04-26 华为技术有限公司 基于高维图像的图像标注方法和装置
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
US11562172B2 (en) * 2019-08-08 2023-01-24 Alegion, Inc. Confidence-driven workflow orchestrator for data labeling
CN111080092B (zh) * 2019-11-29 2023-04-18 北京云聚智慧科技有限公司 数据标注管理方法及装置、电子设备和可读存储介质
CN111274821B (zh) * 2020-02-25 2024-04-26 北京明略软件系统有限公司 一种命名实体识别数据标注质量评估方法及装置
CN111507405A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 图片标注方法、装置、电子设备及计算机可读存储介质
CN111680895B (zh) * 2020-05-26 2024-07-05 中国平安财产保险股份有限公司 数据自动标注方法、装置、计算机设备及存储介质
CN111898489B (zh) * 2020-07-15 2023-08-08 北京百度网讯科技有限公司 用于标注手掌位姿的方法、装置、电子设备及存储介质
CN111966674B (zh) * 2020-08-25 2024-03-15 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备
US20220147864A1 (en) * 2020-11-11 2022-05-12 International Business Machines Corporation Game-theoretic invariant rationalization of machine-learning results
CN112270533A (zh) * 2020-11-12 2021-01-26 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
CN108898162A (zh) 2018-06-08 2018-11-27 东软集团股份有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
JP2020042386A (ja) 2018-09-07 2020-03-19 株式会社日立製作所 対象データに対して関連付けるラベルを決定する計算機システム

Also Published As

Publication number Publication date
CN112988727A (zh) 2021-06-18
EP3933719A3 (en) 2022-04-06
JP2022002099A (ja) 2022-01-06
KR102555607B1 (ko) 2023-07-13
KR20210105315A (ko) 2021-08-26
US20210406220A1 (en) 2021-12-30
EP3933719A2 (en) 2022-01-05
US11604766B2 (en) 2023-03-14
CN112988727B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
JP7270691B2 (ja) データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US12021885B2 (en) Aggregating results from multiple anomaly detection engines
CN110417879A (zh) 一种消息处理方法、装置、设备及存储介质
WO2020135806A1 (zh) 一种应用于数据中心的运维方法和运维设备
JP7488338B2 (ja) マイクロサービス変更管理およびアナリティクス
US12034820B2 (en) Fusing and degradation method and apparatus for micro-service, device, and medium
CN110348725A (zh) 基于区域社会环境信息的风险策略调整方法、装置和电子设备
US20200057685A1 (en) Automatically deploying hardware accelerators based on requests from users
CN114266937A (zh) 模型训练、图像处理方法,装置,设备以及存储介质
CN114020469A (zh) 基于边缘节点的多任务学习方法、装置、介质与设备
CN114416357A (zh) 容器组的创建方法、装置、电子设备和介质
CN117273069A (zh) 一种基于神经网络模型的推理方法、装置、设备及介质
US20230273869A1 (en) Method, electronic device, and computer program product for exporting log
CN113656689B (zh) 模型生成方法和网络信息的推送方法
CN114090247A (zh) 用于处理数据的方法、装置、设备以及存储介质
CN113052509B (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN115187821A (zh) 验证模型转换前后正确性的方法、相关装置及程序产品
CN112968876A (zh) 一种内容分享方法、装置、电子设备及存储介质
CN117519996B (zh) 一种数据处理方法、装置、设备以及存储介质
CN112835007B (zh) 点云数据转换方法、装置、电子设备和存储介质
CN115689152A (zh) 企业产量的预测方法、装置、电子设备和介质
CN116167519A (zh) 一种监测量预测方法、装置、设备及介质
CN116383836A (zh) 应用于元宇宙的区块生成方法和区块生成验证方法
CN113779098A (zh) 数据处理方法、装置、电子设备以及存储介质
CN114840276A (zh) 对象调用方法、装置、设备、存储介质以及程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230425

R150 Certificate of patent or registration of utility model

Ref document number: 7270691

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150