JP2022077969A - データ処理方法、装置、電子デバイスおよび記憶媒体 - Google Patents

データ処理方法、装置、電子デバイスおよび記憶媒体 Download PDF

Info

Publication number
JP2022077969A
JP2022077969A JP2021168929A JP2021168929A JP2022077969A JP 2022077969 A JP2022077969 A JP 2022077969A JP 2021168929 A JP2021168929 A JP 2021168929A JP 2021168929 A JP2021168929 A JP 2021168929A JP 2022077969 A JP2022077969 A JP 2022077969A
Authority
JP
Japan
Prior art keywords
data
annotation
annotated
audit
waiting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021168929A
Other languages
English (en)
Inventor
雪 ▲楊▼
Xue Yang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022077969A publication Critical patent/JP2022077969A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Factory Administration (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】本願は、データ処理方法、装置、電子デバイスおよび記憶媒体を開示しており、人工知能技術分野に関し、具体的には、深層学習などの分野に関するものである。【解決手段】本願発明を実現するための具体的な技術案は、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択することと、前記監査待ちデータに対して品質検査を行うことである。本願の技術によれば、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減し、データに対する品質検査に新しい構想を提供している。【選択図】図1

Description

本願は人工知能技術分野に関し、特に、深層学習及び自動運転技術に関し、具体的には、データ処理方法、装置、電子デバイスおよび記憶媒体に関するものである。
人工知能アルゴリズムの段階的な上陸に伴い、アルゴリズムの研究が現在のホットスポットとなった。アルゴリズムをトレーニングするための燃料として、データの品質はアルゴリズムの正確率に対して重要な役割を果たしている。しかしながら、産出データの品質を確保するためには、主に手動で全般データに対して品質検査を行っており、効率が低く、人件費が高いため、早急な改良が要求されている。
本開示は、データ処理方法、装置、電子デバイスおよび記憶媒体を提供している。
本開示の一態様によれば、
データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択することと、
前記監査待ちデータに対して品質検査を行うことと、を含む、データ処理方法が提供されている。
本開示の他の一態様によれば、
データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択することに用いられるデータ選択モジュールと、
前記監査待ちデータに対して品質検査を行うことに用いられる品質検査モジュールと、を備える、データ処理装置が提供されている。
本開示の他の一態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信的に接続されるメモリと、を備え、
前記メモリには、本願のいずれかの実施例に記載のデータ処理方法を前記少なくとも1つのプロセッサにより実行できるように、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されている、電子デバイスが提供されている。
本開示の他の一態様によれば、本願のいずれかの実施例に記載のデータ処理方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、非瞬時性コンピュータ可読記憶媒体が提供されている。
本願の技術によれば、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減し、データに対する品質検査に新しい構想を提供している。
なお、この部分の説明内容は、本開示の実施例の鍵又は重要な構成を明示することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解すべきである。本開示の別の構成については、以下の明細書を通して容易に理解されるであろう。
図面は、本技術案がよりよく理解されるように提供され、本願を限定するものではない。ここで、
本願の実施例によって提供されるデータ処理方法のフロー図である。 本願の実施例によって提供される別のデータ処理方法のフロー図である。 本願の実施例によって提供される更なるデータ処理方法のフロー図である。 本願の実施例によって提供される更なるデータ処理方法のフロー図である。 本願の実施例によって提供されるまた別のデータ処理方法のフロー図である。 本願の実施例によって提供されるまた別のデータ処理方法のフロー図である。 本願の実施例によって提供されるデータ処理装置の構造概略図である。 本願の実施例に係るデータ処理方法を実現するための電子デバイスのブロック図である。
以下は、図面を参照しながら、本願の例示的な実施例について説明する。この内容には、理解を助けるための本願の実施例の様々な詳細が含まれているが、単なる例示的なものと見なされるべきである。したがって、当業者なら、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を実行することができることを認識すべきである。同様に、はっきりとよくわかるように、以下の説明では公知の機能と構造についての説明を省略した。
図1は、本願の実施例によって提供されるデータ処理方法のフロー図である。本願の実施例は、データ品質を保証しながら、データ品質検査の効率を向上させるために、データに対してどのように処理を行うかという状況に適用され、特に、データ注釈が必要なシナリオ、例えば、障害物識別シナリオ、目標(車両など)トラッキングシナリオ、人体のキーポイント(人顔など)識別シナリオ、命名のエンティティ識別シナリオなどにおいて、注釈済みデータに対してどのように品質検査を行うかという状況に適用される。当該実施例は、データ処理装置によって実行可能であり、当該装置は、ソフトウェア及び/又はハードウェアによって実現可能であり、サーバデバイスなどのデータ処理機能が搭載されている電子デバイスに集積可能である。図1に示すように、当該方法は、以下のことを含む。
S101において、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択する。
本実施例において、注釈済みデータセットは、注釈待ちデータセットに対して注釈を行うことで得られる注釈済みデータのセットであり、例えば、車両トラッキングシナリオにおいて、注釈待ちデータセットに連続する複数のフレームの写真が含まれており、注釈ニーズに応じて各フレームの写真に対して注釈することで、注釈済みデータセットが得られる。代替的に、注釈シナリオに応じてデータタイプが異なってもよい。代替的に、データタイプは、写真、音声、テキスト、ビデオおよびウェブページ等を含んでもよいが、これらに限定されるものではない。
代替的に、今回のデータ注釈に参加するスタッフは、データ注釈を完了した後、注釈済みデータを所定のデータライブラリに提出してもよく、さらに、今回のデータ注釈タスクがすべて完了ということが検知されると、先ず、データ注釈情報および注釈者情報などの複数次元の情報を取得してもよく、そして、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択してもよい。
ここで、データ注釈情報には、今回のデータ注釈に使用される要素の関連情報が含まれてもよく、例えば、要素タイプ及び要素数量などが含まれてもよく、要素タイプは、点、線、枠、および領域等を含んでもよいが、これらに限定されるものではない。データ注釈情報には、今回のデータ注釈を行う過程における関連情報がさらに含まれてもよく、例えば、時間帯及び注釈時間数等が含まれてもよく、ここで、時間帯は、例えば、午前8:00~10:00、午後10:00~12:00等であってもよい。代替的に、注釈済みデータセットにおける各々の注釈済みデータは、番号などの唯一な識別子を有しており、異なる注釈済みデータのデータ注釈情報は同じでも異なってもよい。さらに、各々の注釈済みデータのデータ注釈情報は、当該注釈済みデータに関連する注釈待ちデータに対して注釈を行う過程において、注釈者によりリアルタイム且つ動的に記録されたものであり、且つ、当該注釈済みデータが注釈者により所定のデータライブラリに提出された後に自動的に生成されるものである。
注釈者情報は、今回のデータ注釈に参加するスタッフの関連情報であり、氏名、身分ID(個人番号、社員番号など)、注釈従業期間、注釈得意分野、および注釈正確率履歴などを含んでもよいが、これに限定されるものではない。代替的に、事前に構築された注釈者情報ライブラリから今回のデータ注釈に参加するスタッフの関連情報、即ち、注釈者情報を取得してもよい。
代替的に、本実施例は、データ注釈情報および注釈者情報のうちの少なくとも1次元のデータを組み合わせ、所定のサンプリング監査比率に従って、注釈済みデータセットから監査待ちデータを選択してもよい。ここで、監査待ちデータは、注釈済みデータセットから選択された注釈済みデータであり、さらに、監査待ちデータは、注釈済みデータセットのうちの他の注釈済みデータに比べて、リスクデータと呼ばれてもよく、即ち、注釈にエラー発生の確率が比較的に高い注釈済みデータである。
例えば、データ注釈情報に基づき、所定のサンプリング監査比率に従って、注釈済みデータセットから監査待ちデータを選択してもよく、例えば、データ注釈情報のうちの注釈時間数に基づき、所定のサンプリング監査比率に従って、注釈済みデータセットから監査待ちデータを選択してもよい。具体的に、所定のサンプリング監査比率に従って、注釈済みデータセットから注釈時間数が所定時間数の上限値より大きい、及び/又は注釈時間数が所定時間数より小さい注釈済みデータを選択して監査待ちデータとしてもよい。
又は、注釈者情報に基づき、所定のサンプリング監査比率に従って、注釈済みデータセットから監査待ちデータを選択してもよく、又は、データ注釈情報および注釈者情報に基づき、所定のサンプリング監査比率に従って、注釈済みデータセットから監査待ちデータを選択してもよい。実現可能な具体的形態については、後続の実施例において詳しく説明する。
S102において、監査待ちデータに対して品質検査を行う。
具体的に、監査待ちデータが得られると、監査待ちデータに対して品質検査を行ってもよい。代替的に、ユーザの注釈ニーズに応じて、監査待ち形態を確定し、そして、監査待ち形態によって、監査待ちデータに対して品質検査を行ってもよい。例えば、もしユーザの注釈ニーズが主観的把握の傾向であれば、監査待ち形態は多人数フィッティングによる回答様式であってもよく、具体的に、監査待ちデータに関連する注釈待ちデータに対して、プリセット値の品質検査スタッフを同時に注釈させることで、プリセット値のフィッティング注釈データを得てもよい。所定のポリシー、例えば、少数が多数に従う、注釈正確率履歴の高いスタッフの優先順位が注釈正確率履歴の低いスタッフの優先順位より高いというポリシーを使用して、プリセット値のフィッティング注釈データに基づき、最終的な結果を得てもよく、フィッティング結果と監査待ちデータを比較し、もし一致すれば、確定監査待ちデータの品質検査結果を通過として確定し、もしそうでなければ、品質検査結果を不通過として確定する。
もし、ユーザの注釈ニーズが客観的把握の傾向であれば、監査待ち形態は、アルゴリズムによる品質検査、例えば、光学式文字認識(Optical Character Recognition、OCR)アルゴリズムによる品質検査であってもよい。具体的に、既存のOCRアルゴリズムを呼び出し、自動的に監査待ちデータに対して品質検査を行ってもよく、さらに、品質検査において品質を保証するために、アルゴリズムによる品質検査で得られた品質検査結果のうち、信頼度が比較的低いものに対して、品質検査スタッフによる2次品質検査を再実行してもよい。
なお、アルゴリズムの精度を保証するために、アルゴリズムのトレーニングに要求されるデータとしている注釈済みデータセットのデータ量が一般的に大きく、従来の手動で全般注釈済みデータに対して品質検査を行う形態によれば、人件費が高くて効率が低下している。また、現在、既存の全般注釈データから一部の注釈済みデータをランダムに抽出して品質検査を行う形態は、ランダム性を有し、データ品質を保証できない。本願は、データ注釈情報および注釈者情報などの多次元のデータを組み合わせることで総合的な分析を行い、注釈済みデータセットから監査待ちデータを選択し、品質検査を行い、即ち、注釈済みデータセットのうちのリスクデータに対して品質検査を行うことで、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減した。
本願の実施例に係る技術案によれば、データ注釈情報および注釈者情報などの多次元のデータを組み合わせることで総合的な分析を行い、注釈済みデータセットから監査待ちデータを選択し、品質検査を行う。従来のデータ品質検査形態に比べて、本願は、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減し、データ品質検査を行うために新しい構想を提供している。
データ品質を保証するために、本発明の実施例は、代替的な形態として、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択する前に、注釈待ちデータセットに対してクレンジング処理を行い、クレンジング済みの注釈待ちデータセットに対して注釈を行うことで、注釈済みデータセットを得ることをさらに含んでもよい。
本実施例において、注釈待ちデータセットは、ユーザによって提供される注釈待ちデータのセットであってもよく、ユーザによって提供される注釈タスクに基づき収集された注釈待ちデータのセットであってもよい。
代替的に、注釈素材のタイプに応じて、異なるクレンジング形態を採用してもよい。例えば、音声タイプの注釈素材に対して、深刻なノイズがあるか否か及び/又は時間数がニーズを満たしているか否かなどを判断することで、注釈待ちデータセットに対してクレンジングを行ってもよく、写真タイプの注釈素材に対して、写真がはっきりしているか否か及び/又は歪曲などが存在しているか否かを判断することで、注釈待ちデータセットに対してクレンジングを行ってもよく、テキストタイプの注釈素材に対して、重複現象等が存在しているか否かを判断することで、注釈待ちデータに対してクレンジングを行ってもよい。
注釈待ちデータセットに対してクレンジングを行った後、クレンジング済みの注釈待ちデータセットに対して注釈し、注釈済みデータセットが得られるように、クレンジング済みの注釈待ちデータセットを注釈者(即ち、今回のデータ注釈に参加するスタッフ)に送信してもよい。
なお、注釈済みデータに対して品質検査を行う必要があるシナリオにおいて、本実施例は、注釈待ちデータセットに対してクレンジング操作を行うことを追加することで、危険(又は低品質)データに対して早期に警戒し、補欠収集することができ、データ品質を保証するために、基礎を築いてくれるとともに、データ納品の効率を向上させた。
図2は本願の実施例によって提供される別のデータ処理方法のフロー図である。本願の実施例は、上述した実施例を基礎として、今回のデータ注釈に参加するスタッフの人数が多数である場合に、注釈者情報に基づき、注釈済みデータセットから監査待ちデータを選択する形態を提供している。図2に示すように、当該方法は以下のことを含む。
S201において、注釈者情報における注釈従業期間及び/又は注釈正確率履歴に基づき、注釈者候補から監査待ちスタッフを選択する。
本実施例において、注釈者候補は、今回のデータ注釈に参加するスタッフである。代替的に、注釈者候補の数量は少なくとも2名である。ここで、各々の注釈者候補情報のうちの注釈従業期間は、当該注釈者候補がデータ注釈作業に従業している期間であってもよく、さらに、よりも正確に注釈済みデータから監査待ちデータを選択するために、注釈従業期間は、具体的に、データタイプが今回注釈するデータと同じであるデータに対する、当該注釈者候補の注釈従業期間に限定してもよい。代替的に、各々の注釈者候補に対して、当該注釈者候補の注釈データ品質検査状況履歴を統計することで、当該注釈者候補の注釈正確率履歴を得てもよい。注釈従業期間と同様に、注釈正確率履歴は、具体的に、データタイプが今回注釈するデータと同じであるデータに対する、当該注釈者候補の注釈正確率履歴に限定してもよい。
監査待ちスタッフは、注釈者候補から選択された重点的に注目すべきである注釈者であり、即ち、注釈者候補のうちの他のスタッフに比べて、監査待ちスタッフによって注釈されるデータにエラーリスクが存在する確率が比較的に大きい。代替的に、監査待ちスタッフの人数は、1人又は複数人であってもよく、次いでサンプリング監査を受ける監査待ちデータの数量の合理性を保証するために、監査待ちスタッフの人数は、さらに、サンプリング監査比率、各注釈者候補により今回注釈するデータの数量、および各注釈者候補関連情報などの設定によって確定される。
代替的に、注釈従業期間に基づき、注釈者候補に対して、例えば、昇順で順位付けを行い、そして、順位付けの結果に従って、注釈者候補から監査待ちスタッフを選択してもよく、例えば、順位が先立っている1人又は複数人の注釈者候補を監査待ちスタッフとしてよく、次いでサンプリング監査を受ける監査待ちデータの数量の合理性を保証するために、さらに、順位付けの結果に基づき、サンプリング監査比率および各注釈者候補により今回注釈するデータの数量などを設定することで、注釈者候補から監査待ちスタッフを選択してもよい。
又は、注釈正確率履歴が所定の正確率値より小さい注釈者候補を監査待ちスタッフとしてもよく、注釈正確率履歴に基づき、注釈者候補に対して昇順で順位付けを行い、そして、順位が先立っている1人又は複数人の注釈者候補を監査待ちスタッフとしてもよく、次いでサンプリング監査を受ける監査待ちデータの数量の合理性を保証するために、さらに、順位付けの結果に基づき、サンプリング監査比率および各注釈者候補により今回注釈するデータの数量などを設定することで、注釈者候補から監査待ちスタッフを選択してもよい。
又は、注釈従業期間が所定の期間値より小さく、且つ、注釈正確率履歴が所定の正確率値より小さい注釈者候補を監査待ちスタッフにしてもよく、注釈従業期間および注釈正確率履歴の2次元のデータに基づき、注釈者候補に対して順位付けを行い、そして順位付けの結果に従って、サンプリング監査比率および各注釈者候補により今回注釈するデータの数量などを設定することで、注釈者候補から監査待ちスタッフを選択してもよい。
又は、先ず、注釈得意分野に基づき、注釈者候補から第1監査待ちスタッフを選択してもよく、例えば、注釈得意分野が今回注釈するデータの所属分野と異なる注釈者候補を第1監査待ちスタッフとしてよく、そして、注釈従業期間及び/又は注釈正確率履歴に基づき、残りの注釈者候補から第2監査待ちスタッフを選択してもよい。
S202において、注釈済みデータセットから監査待ちスタッフによって注釈されたデータを監査待ちデータとして選択する。
代替的に、注釈済みデータセットのうちの監査待ちスタッフによって注釈された一部または全部のデータを監査待ちデータとしてもよく、さらに、所定のサンプリング監査比率に従って、注釈済みデータセットから監査待ちスタッフによって注釈されたデータを選択して監査待ちデータとしてもよい。
なお、本実施例は、注釈従業期間および注釈正確率履歴などのデータを導入することで、注釈者候補から重点的に注目すべきであるスタッフ、即ち、監査待ちスタッフをポジショニングし、さらに、監査待ちスタッフを橋渡し役として、注釈済みデータセットからリスクデータ、即ち、監査待ちデータをポジショニングし、注釈済みデータセットから監査待ちデータを選択するために構想を提供している。
S203において、監査待ちデータに対して品質検査を行う。
本願の実施例に係る技術案によれば、注釈従業期間および注釈正確率履歴を導入することで、注釈者候補から重点的に注目すべきであるスタッフ、即ち、監査待ちスタッフをポジショニングし、さらに、監査待ちスタッフを橋渡し役として、注釈済みデータセットから監査待ちデータを選択することができ、注釈済みデータセットから監査待ちデータを選択するために構想を提供するとともに、監査待ちデータに対して品質検査を行うことにより、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減した。
図3は、本願の実施例によって提供される更なるデータ処理方法のフロー図である。本願の実施例は、上述した実施例を基礎として、データ注釈情報に基づき、注釈済みデータセットから監査待ちデータを選択する形態を提供している。図3に示すように、当該方法は以下のことを含む。
S301において、データ注釈情報における時間帯及び/又は要素数量に基づき、注釈済みデータセットから監査待ちデータを選択する。
本実施例において、各々の注釈済みデータに対して、時間帯は、当該注釈済みデータと関連する注釈待ちデータに対して注釈を行う時に位置する時間帯であり、例えば、午前8:00~10:00であってもよく、要素数量は、当該注釈済みデータのうちの要素の数量、換言すれば、当該注釈済みデータを得ることに使用される要素の数量であり、例えば、障害物識別シナリオにおいて、いずれか1フレームの写真における障害物を枠で注釈してもよく、この場合、注釈されたフレーム写真(即ち、注釈済みデータ)における要素の数量は枠の数量である。
代替的に、時間帯に基づき、注釈済みデータセットから監査待ちデータを選択してもよい。例えば、時間帯に基づき、注釈済みデータに対して順位付けを行い、そして、所定のサンプリング監査比率に従って、順位付けの結果に基づき、注釈済みデータセットから監査待ちデータを選択してもよい。例えば、注釈済みデータセットから時間帯が所定の時間帯(例えば、午後10:00~12:00、夜明け0:00~5:00)である注釈済みデータを選択して監査待ちデータとしてもよい。
又は、要素数量に基づき、注釈済みデータセットから監査待ちデータを選択してもよい。例えば、注釈済みデータセットにおける要素の平均値を確定し、所定のサンプリング監査比率に従って、注釈済みデータセットから要素数量が要素平均値より大きい注釈済みデータを選択して監査待ちデータとしてもよい。
又は、時間帯および要素数量に基づき、注釈済みデータセットから監査待ちデータを選択してもよい。例えば、時間帯および要素数量の2次元のデータに基づき、注釈済みデータに対して順位付けを行ってもよく、そして、順位付けの結果および所定のサンプリング監査比率に従って、注釈済みデータセットから監査待ちデータを選択してもよい。具体的に、注釈済みデータセットから時間帯が所定の時間帯であり、且つ、要素数量が要素平均値より大きい注釈済みデータを監査待ちデータとしてもよい。
又は、注釈時間数、注釈時間帯および要素数量などに基づき、注釈済みデータセットから監査待ちデータを選択してもよい。
又は、注釈者情報およびデータ注釈情報を組み合わせて、注釈済みデータセットから監査待ちデータを選択してもよい。例えば、注釈者情報のうちの注釈正確率履歴、並びにデータ注釈情報のうちの注釈時間数、注釈時間帯および要素数量などに基づき、注釈済みデータセットから監査待ちデータを選択してもよい。
S302において、監査待ちデータに対して品質検査を行う。
本願の実施例に係る技術案によれば、時間帯および要素数量に基づき、注釈済みデータセットから監査待ちデータを選択することにより、注釈済みデータセットから監査待ちデータを選択するための構想を提供するとともに、監査待ちデータに対して品質検査を行うことにより、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減した。
図4は本願の実施例によって提供される更なるデータ処理方法のフロー図である。本願の実施例は、上述した実施例を基礎として、注釈済みデータセットから監査待ちデータを選択する形態をさらに提供する。図4に示すように、当該方法は以下のことを含む。
S401において、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから第1監査待ちデータを選択する。
具体的に、第1所定サンプリング監査比率に従って、データ注釈情報、注釈者情報および注釈過程情報のうちの少なくとも1項に基づき、注釈済みデータセットから一部の注釈済みデータを選択して第1監査待ちデータとしてもよい。
S402において、データに対するユーザの注目度に基づき、注釈済みデータセットから第2監査待ちデータを選択する。
本実施例において、ユーザは、今回の注釈タスクを提供する一方、換言すれば、今回データ注釈のニーズのある一方であり、データに対するユーザの注目度は、データに対するユーザの選好と呼ばれてもよく、データに対するユーザの注目程度を示すことができるものであり、さらに、データに対するユーザの注目度は、ユーザの注釈ニーズに応じて確定してもよい。例えば、ユーザの注釈ニーズによって番号が200~300である写真に注釈エラーが発生しやすいと指摘されると、番号が200~300である写真に対するユーザの注目度が他の写真より高いということをさらに確定することができる。
代替的に、第2所定サンプリング監査比率に従って、データに対するユーザの注目度に基づき、注釈済みデータセットから第2監査待ちデータを選択してもよい。ここで、第1所定サンプリング監査比率と第2所定サンプリング監査比率とは同じでも異なってもよく、例えば、第1所定サンプリング監査比率が第2所定サンプリング監査比率より大きくてもよい。第2監査待ちデータと第1監査待ちデータとは異なっており、第2監査待ちデータは、注釈済みデータセットのうち、第1監査待ちデータを除いた一部の注釈済みデータであってもよく、第2監査待ちデータは、第1監査待ちデータの必要補充である。
具体的に、第2所定サンプリング監査比率に従って、注釈済みデータセットのうちのデータ注目度の高い注釈済みデータを第2監査待ちデータとしてもよい。
なお、データ注釈情報および注釈者情報などの多次元のデータを組み合わせて総合的な分析を行うことで、注釈済みデータセットから第1監査待ちデータを選択し、その上で、導入されたデータに対するユーザの注目度に基づき、注釈済みデータセットから第1監査待ちデータと異なっている第2監査待ちデータを選択することは、方案の柔軟性を向上させ、注釈済みデータセットから監査待ちデータを選択するために構想を提供している。
S403において、第1監査待ちデータおよび第2監査待ちデータに対して品質検査を行う。
本願の実施例に係る技術案によれば、データ注釈情報および注釈者情報などの多次元のデータを組み合わせて総合的な分析を行うことで、注釈済みデータセットから第1監査待ちデータを選択し、その上で、導入されたデータに対するユーザの注目度に基づき、注釈済みデータセットから第1監査待ちデータと異なっている第2監査待ちデータを選択し、第1監査待ちデータおよび第2監査待ちデータに対して品質検査を行うことにより、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減した。
図5は本願の実施例によって提供されるまた別のデータ処理方法のフロー図である。本願の実施例は、上述した実施例を基礎として、注釈済みデータセットが得られる過程を追加した。図5に示すように、当該方法は、以下のことを含む。
S501において、注釈素材タイプおよび注釈シナリオに基づき、注釈待ちデータセットの注釈ルールを確定する。
データ品質を保証するために、注釈段階において自動品質検査ポリシーを導入してもよい。本発明の実施例は、代替的な形態として、注釈段階において、注釈素材タイプおよび注釈シナリオに基づき、注釈待ちデータセットの注釈ルールを確定する。本実施例において、注釈素材のタイプは、音声、写真およびテキストなどを含んでもよいが、これに限定されるものではない。注釈シナリオは、障害物識別シナリオ、目標(車両など)トラッキングシナリオ、人体のキーポイント(人顔など)識別シナリオ、命名のエンティティ識別シナリオを含んでもよい。代替的に、注釈シナリオには、注釈ニーズが含まれてもよく、注釈ニーズは、ユーザによって設置され、例えば、どんなコンテンツを注釈するか、どのようなタイプの要素を使用して注釈を行うか、注釈要素のサイズおよび注釈要素の属性などの注釈待ちデータセットに対して注釈を行う時に従わなければならない要件であってもよい。
代替的に、異なる注釈素材タイプに対して、異なる注釈ルールを有してもよく、さらに、同じ注釈素材タイプに対して、異なる注釈シナリオにおいて、異なる注釈ルールを有してもよい。また、同じ注釈シナリオにおいて、異なる注釈ニーズに応じて、異なる注釈ルールを有してもよい。
具体的に、注釈シナリオに基づき(具体的に、注釈シナリオにおける注釈ニーズに基づき)、今回の注釈タスクが個人化注釈タスクであるか否かを確定し、そうでなければ、注釈素材タイプおよび注釈シナリオに基づき、汎用ルールのライブラリから当該注釈素材タイプの当該注釈シナリオにおいて汎用される注釈ルールを取得して注釈待ちデータセットの注釈ルールとしてもよく、そうであれば、注釈シナリオおよび注釈素材タイプに基づき、今回の注釈タスクのために注釈ルールをカスタマイズし、カスタマイズされた注釈ルールと今回の注釈タスクを関連付けて、カスタマイズルールライブラリに追加してもよい。ここで、汎用ルールのライブラリに、各注釈素材タイプの各注釈シナリオにおける汎用注釈ルールが含まれてもよい。対応的に、カスタマイズルールのライブラリには、異なるユーザのカスタマイズタイプの注釈ルールが含まれてもよい。
S502において、注釈待ちデータセットに対して注釈を行う過程において、注釈ルールに従って、注釈済みデータに対して品質検査を行い、注釈済みデータセットを得る。
さらに、注釈待ちデータセットの注釈ルールを確定した後、注釈者により注釈待ちデータセットに対して注釈を行う過程において、注釈ルールに従って、注釈者により注釈済みのデータに対してリアルタイムで自動的に品質検査を行ってもよい。例えば、連続する複数フレームの画像シナリオにおいて、もし注釈ルールが汎用注釈ルールであれば、前フレームの注釈済みデータにおける物体タイプに基づき、現フレームの注釈済みデータに対して品質検査を行ってもよい。
具体的に、車両トラッキングシナリオにおいて、汎用注釈ルールには、連続する複数フレームの画像に対して、同じ番号の物体タイプ(車タイプなど)を一致するものに注釈しなければならないということが含まれてもよい。さらに、注釈者により現フレーム画像のうち、前フレーム画像と同じタイプである車が異なる番号に注釈されたということが検知されると、ここに注釈エラーがあるということを注釈者に提示し、その原因などを注釈することを提案してもよい。
別の例として、連続する複数フレーム画像シナリオにおいて、もし注釈ルールがカスタマイズされた注釈ルールであれば、現フレームの注釈済みデータにおける物体の、履歴フレームの注釈済みデータにおいての変化状況に基づき、現フレームの注釈済みデータに対して品質検査を行ってもよい。
具体的に、車両トラッキングシナリオにおいて、カスタマイズされた注釈ルールには、連続する複数フレームの画像に対して、いずれか1台の車両の複数フレーム(5フレームなど)が消えたら、新しい物体と見なすべき、元の番号と一致するものに注釈してはいけないということが含まれてもよい。従って、第1~5フレームの画像において、いずれか1台の車両に対して、注釈者により番号15の注釈が追加され、第6~10フレームの画像において、当該車両が消えた場合、もし現フレーム画像(即ち、第11フレームの画像)において、注釈者により番号15の注釈が追加されたということが検知されると、ここに注釈エラーがあるということを注釈者に提示し、その原因などを注釈することを提案してもよい。
データ品質を一層保証するために、注釈段階において自動的に品質検査を行うことは、注釈タスクが注釈者より完成し提出された場合、注釈ルールに基づき、注釈者により完成された注釈データに対して自動的に2次品質検査を行ってもよいということをさらに含んでもよい。さらに、2次品質検査を通過したデータが注釈済みデータとなり、そして、注釈済みデータに対してS503およびS504の操作を実行する。
なお、本実施例は、注釈段階において品質検査過程を自動的に導入することで、データ品質を極めて向上させた。
S503において、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択する。
S504において、監査待ちデータに対して品質検査を行う。
本願の実施例に係る技術案によれば、注釈段階において品質検査過程を自動的に導入することで、データ品質を極めて向上させ、そして、データ注釈情報および注釈者情報などの多次元のデータを組み合わせて総合的な分析を行い、注釈済みデータセットから監査待ちデータを選択し品質検査を行う。従来のデータ品質検査形態に比べて、本願は、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減し、データ品質検査を行うために新しい構想を提供している。
図6は本願の実施例によって提供されるまた別のデータ処理方法のフロー図である。本願の実施例は、上述した実施例を基礎として、好ましい例を提供している。図6に示すように、当該方法は以下のことを含む。
S601において、注釈待ちデータセットに対してクレンジング処理を行う。
S602において、注釈素材タイプおよび注釈シナリオに基づき、クレンジング済みの注釈待ちデータセットの注釈ルールを確定する。
S603において、注釈待ちデータセットに対して注釈を行う過程において、注釈ルールに従って、注釈済みデータに対して品質検査を行い、注釈済みデータセットを得る。
S604において、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択する。
S605において、監査待ちデータに対して品質検査を行う。
なお、本実施例において、データの自動クレンジングから、データの注釈段階、監査待ちデータの選択および最終の品質検査に至る全般過程は、実質的に、データ注釈の全プロセスにわたる完全なセットの自動品質検査過程である。さらに、全般過程において3次品質検査に関し、先ず、データの自動クレンジングも、実質的には、品質検査手段であり、次に、データ注釈段階は、注釈ルールに基づき品質検査を自動的に行い、データ品質を極めて向上させ、最終的に、品質検査段階において、手動による品質検査形態と自動による品質検査形態を組み合わせてサンプリングした監査待ちデータに対して品質検査を行うことができる。3つの段階の品質検査を通じて、最終的に産出されるデータ品質を保証することができ、高品質のデータを取得するために、全プロセスにわたる自動品質検査形態を提供している。
本願の実施例に係る技術案は、注釈済みデータに対して品質検査を行う必要があるシナリオにおいて、注釈待ちデータセットに対してクレンジング操作を追加することで、危険(又は低品質)データに対して早期に警戒し、補欠収集することができ、データ品質を保証するために基礎を築いてくれたとともに、データ納品の効率を向上させ、注釈段階において品質検査過程を自動的に導入することで、データ品質を極めて向上させ、そして、データ注釈情報および注釈者情報などの多次元のデータを組み合わせて総合的な分析を行い、注釈済みデータセットから監査待ちデータを選択し品質検査を行う。従来のデータ品質検査形態に比べて、本願は、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減し、データ品質検査を行うために新しい構想を提供している。
図7は本願の実施例によって提供されるデータ処理装置の構造概略図である。本願の実施例は、データに対してどのように処理を行うかの状況に適用され、特に、データ注釈が必要なシナリオ、例えば、障害物識別シナリオ、目標(車両など)トラッキングシナリオ、人体のキーポイント(人顔など)識別シナリオ、命名のエンティティ識別シナリオなどにおいて、注釈済みデータに対してどのように品質検査を行って、データ品質を保証しながら、データ品質検査の効率を向上させるかの状況に適用される。当該装置は、本願のいずれの実施例に記載のデータ処理方法を実現可能であり、当該装置はデータ処理機能が搭載されている電子デバイスに集積可能である。
当該データ処理装置700は、具体的に、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択することに用いられるデータ選択モジュール701と、監査待ちデータに対して品質検査を行うことに用いられる品質検査モジュール702と、を備える。
本願の実施例に係る技術案は、データ注釈情報および注釈者情報などの多次元のデータを組み合わせることで総合的な分析を行い、注釈済みデータセットから監査待ちデータを選択し品質検査を行う。従来のデータ品質検査形態に比べて、本願は、データ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減し、データ品質検査を行うための新しい構想を提供している。
例示的に、データ選択モジュール701は、注釈者情報における注釈従業期間及び/又は注釈正確率履歴に基づき、注釈者候補から監査待ちスタッフを選択することに用いられるスタッフ選択ユニットと、注釈済みデータセットから監査待ちスタッフによって注釈されたデータを監査待ちデータとして選択することに用いられる第1データ選択ユニットと、を備える。
例示的に、データ選択モジュール701は、データ注釈情報における時間帯及び/又は要素数量に基づき、注釈済みデータセットから監査待ちデータを選択することに用いられる第2データ選択ユニットをさらに備える。
例示的に、データ選択モジュール701は、データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから第1監査待ちデータを選択することに用いられる第3データ選択ユニットと、ユーザのデータ注目度に基づき、注釈済みデータセットから第2監査待ちデータを選択することに用いられる第4データ選択ユニットと、をさらに備え、第2監査待ちデータと、第1監査待ちデータとが異なっている。
例示的に、上記装置は、注釈待ちデータセットに対してクレンジング処理を行うことに用いられるクレンジングモジュールと、クレンジング済みの注釈待ちデータセットに対して注釈を行い、注釈済みデータセットを得ることに用いられる注釈モジュールと、をさらに備える。
例示的に、上記装置は、注釈素材タイプおよび注釈シナリオに基づき、注釈待ちデータセットの注釈ルールを確定することに用いられる注釈ルール確定モジュールと、注釈待ちデータセットに対して注釈を行う過程において、注釈ルールに従って、注釈済みデータに対して品質検査を行うことにさらに用いられる品質検査モジュール702と、をさらに備える。
例示的に、品質検査モジュール702は、具体的に、前フレームの注釈済みデータにおける物体のタイプに基づき、現フレームの注釈済みデータに対して品質検査を行うことと、及び/又は、現フレームの注釈済みデータにおける物体の、履歴フレームの注釈済みデータにおいての変化状況に基づき、現フレームの注釈済みデータに対して品質検査を行うことと、に用いられる。
本願の実施例によれば、本願は電子デバイスおよび可読記憶媒体をさらに提供している。
図8に示すように、本願の実施例に係るデータ処理方法による電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータおよびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の類似的なコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に記載の構成要素、それらの接続及び関係、ならびにそれらの機能は、単に例示的なものであり、本明細書に記載及び/又は要求される本開示の実現を制限することを意図するものではない。
図8に示すように、当該電子デバイスは、1つ又は複数のプロセッサ801と、メモリ802と、および高速インターフェースと低速インターフェースを含めて各構成要素の接続に用いられるインターフェースと、を備える。各構成要素は、異なるバスにより相互接続され、且つ、共通のマザーボードに設置または必要に応じてその他の形態で設置してもよい。プロセッサは、メモリに記憶される命令またはメモリにおけるインターフェースに結合される表示装置などの外部入力/出力装置にグラフィカルユーザインタフェース(Graphical User Interface、GUI)のグラフィック情報を表示する命令を含めて電子デバイスで実行される命令に対して処理を行う。別の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスと、複数のメモリとを共に使用してもよい。同様に、例えば、サーバアレイ、ブレードサーバセット、又は多重プロセッサシステムとして、複数の電子デバイスを接続して各デバイスで必要となる一部の操作を提供してもよい。図8は、1つのプロセッサ801を例とする。
メモリ802は、本願に提供される非瞬時性コンピュータ可読記憶媒体である。前記メモリには、本願に提供されるデータ処理方法が少なくとも1つのプロセッサにより実行されるように、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されている。本願の非瞬時性コンピュータ可読記憶媒体には、本願に提供されるデータ処理方法がコンピュータより実行されるためのコンピュータ命令が記憶されている。
メモリ802は、非瞬時性コンピュータ可読記憶媒体として、非瞬時性ソフトウェアプログラム、非瞬時性コンピュータにより実行可能なプログラムおよびモジュールに適用可能であり、例えば、図7に示すデータ選択モジュール701および品質検査モジュール702などの本願の実施例においてデータ処理方法に対応するプログラム命令/モジュールに適用可能である。プロセッサ801は、メモリ802に記憶されている非瞬時性ソフトウェアプログラム、命令およびモジュールを実行することで、サーバの様々な機能応用およびデータ処理を実行し、即ち、上記方法の実施例に係るデータ処理方法を実現する。
メモリ802は、プログラム記憶エリアおよびデータ記憶エリアを含んでもよいが、ここで、プログラム記憶エリアにはオペレーティングシステム、少なくとも1つの機能に要求されるアプリケーションプログラムが記憶されてもよく、データ記憶エリアには、本発明の実施例に係るデータ処理方法による電子デバイスの使用によって生成されるデータなどが記憶されてもよい。また、メモリ802には、高速ランダムアクセスメモリが含まれてもよく、非瞬時性メモリ、例えば、少なくとも1つのディスク記憶装置、フラッシュ記憶装置またはその他の非瞬時性固体記憶装置が含まれてもよい。いくつかの実施例において、メモリ802は、代替的に、プロセッサ801に対して遠距離で設置されるメモリを含んでもよいが、これらの遠距離メモリは、ネットワークを介して本発明の実施例に係る自動運転のための速度計画方法を実現する電子デバイスに接続してもよい。上記のネットワークの例として、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワークとこれらの組み合わせを含んでもよいが、これらに限定されるものではない。
データ処理方法による電子デバイスは、入力装置803および出力装置804をさらに備えてもよい。プロセッサ801、メモリ802、入力装置803および出力装置804は、バス又はその他の形態によって接続してもよく、図8では、バスによる接続を例とする。
入力装置803は、入力されるデータ又は文字符号情報を受信可能、およびデータ処理方法による電子デバイスのユーザ設置および機能控制に関連するキー信号の入力を生成可能であり、例えば、タッチスクリーン、キーパッド、マウス、ポインティングスティック、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置804には、表示装置、補助照明デバイス、例えば、発光ダイオード(Light Emitting Diode、LED)、及び触覚フィードバック装置、例えば、振動モータなどが含まれてもよい。当該表示装置には、液晶(Liquid Crystal Display、LCD)ディスプレイ、発光ダイオード(Light Emitting Diode、LED)ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されるものではない。いくつかの実施形態において、表示装置はタッチスクリーンであってもよい。
本明細書に記載の上記システムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせによって実現可能である。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることをふくんでもよく、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈可能であり、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該記憶システム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送可能である。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)には、プログラマブルプロセッサの機械命令が含まれており、高レベルプロセス及び/又はオブジエクト向けのプログラミング言語及び/又はアセンブラ言語/機械言語を通じてこれらのコンピューティングプログラムを実施可能である。本明細書で使用される用語「機械可読媒体」および「コンピュータ可読媒体」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置、例えば、ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(programmable logic device、PLD)を指し、機械可読信号となる機械命令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの相互作用を提供するために、本明細書に記載のシステム及び技術はコンピュータで実施されてもよく、当該コンピュータは、例えば、陰極線管(Cathode Ray Tube、CRT)又は液晶ディスプレイ(Liquid Crystal Display、LCD)モニタなどのユーザに情報を表示するための表示装置と、キーボードと、例えば、マウス又はトラックボールなどのポインティングデバイス(Pointing device)と、を有しており、ユーザは、当該キーボード及び当該ポインティングデバイスを介してコンピュータに入力を提供してもよい。ユーザとの相互作用を提供するために、その他のタイプの装置を使用してもよく、例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックの任意の形態の感覚フィードバックであってもよく、音声入力又は触覚入力を含む任意の形態で接收来自ユーザからの入力を受信してもよい。
本明細書に記載のシステムおよび技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又は、ミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又は、フロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィックスユーザインターフェース、又は、ネットワークブラウザを有するユーザコンピュータ、ユーザは当該グラフィックスユーザインターフェース又は当該ネットワークブラウザを介して本明細書に記載のシステムおよび技術の実施形態と相互作用してもよい)、又は、これらのバックエンド構成要素、ミドルウェア構成要素、又は、フロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムで実施されてもよい。システムの構成要素は、任意の形態又は媒体によるデジタルデータ通信(例えば、通信ネットワーク)によって相互接続されてもよい。通信ネットワークの例には、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、ブロックチェーンネットワーク(Blockchain Network)およびインターネットが含まれる。
コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントとサーバは、普通、互いに遠く離れており、通常、通信ネットワークを介して相互作用を実行する。それぞれのコンピュータで運転され、互いにクライアント‐サーバ関係を有するコンピュータプログラムによってクライアントとサーバの関係を生成する。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバでもよく、これはクラウドコンピューティングサービスシステムにおける1つのホスト製品として、従来の物理ホストとVPSサービスに存在する、管理の難易度が高く、業務の拡張性が弱いという欠点を解決した。
本願の実施例に係る技術案は、データ注釈情報および注釈者情報などの多次元のデータを組み合わせて総合的な分析を行い、注釈済みデータセットから監査待ちデータを選択し品質検査を行う。従来のデータ品質検査形態に比べて、本願はデータ品質を保証しながら、データ品質検査の効率を向上させ、人件費を削減し、データ品質検査を行うために新しい構想を提供している。
本願は、人工知能技術分野に適用可能であり、人工知能は、学習、推論、思考、計画などの特定の人間の思考プロセスおよび知的行動をコンピュータにシミュレートさせることを研究する分野として、ハードウェアレベルの技術とソフトウェアレベルの技術の両方に関するものである。人工知能関連ハードウェア技術には、一般的に、センサ、特定用途向け人工知能チップ、クラウドコンピューティング、分散型メモリ、ビッグ データ処理などの技術が含まれる。人工知能関連ソフトウェア技術には、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術、および機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向が含まれる。
なお、上記の様々な形態のプロセスを使用して、ステップを並べ替え、追加又は削除できる。例えば、本発明の開示に記載の各ステップは、並行的に実行してもよく、順次的に実行してもよく、異なる順序で実行してもよく、本発明に開示の技術案で要望される結果が達成できる限り、本明細書において、これらに限定されるものではないことを理解すべきである。
本発明は、上述した実施するための具体的な形態によって保護範囲が限定されるものではない。当業者なら、設計要件およびその他の要因に従って様々な修正、組み合わせ、下位組み合わせ及び代替を実行できることを認識すべきである。本発明の精神と原則の範囲内で行われるいわゆる修正、同等置換および改良等はすべて本発明の保護範囲に含まれるものである。

Claims (10)

  1. データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択することと、
    前記監査待ちデータに対して品質検査を行うことと、を含む、データ処理方法。
  2. 注釈者情報に基づき、注釈済みデータセットから監査待ちデータを選択することは、
    注釈者情報における注釈従業期間及び/又は注釈正確率履歴に基づき、注釈者候補から監査待ちスタッフを選択することと、
    前記注釈済みデータセットから前記監査待ちスタッフによって注釈されたデータを監査待ちデータとして選択することと、を含む、請求項1に記載のデータ処理方法。
  3. データ注釈情報に基づき、注釈済みデータセットから監査待ちデータを選択することは、
    データ注釈情報における時間帯及び/又は要素数量に基づき、注釈済みデータセットから監査待ちデータを選択することを含む、請求項1に記載のデータ処理方法。
  4. データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択することは、
    データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから第1監査待ちデータを選択することと、
    ユーザのデータ注目度に基づき、注釈済みデータセットから第2監査待ちデータを選択することと、を含み、
    前記第2監査待ちデータと、前記第1監査待ちデータとが異なっている、請求項1に記載のデータ処理方法。
  5. データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択する前に、
    注釈待ちデータセットに対してクレンジング処理を行うことと、
    クレンジングされた注釈待ちデータセットに対して注釈を行い、注釈済みデータセットを得ることと、をさらに含む、請求項1に記載のデータ処理方法。
  6. 注釈素材タイプおよび注釈シナリオに基づき、注釈待ちデータセットの注釈ルールを確定することは、
    注釈待ちデータセットに対して注釈を行う過程において、前記注釈ルールに従って、注釈済みデータに対して品質検査を行い、注釈済みデータセットを得ることをさらに含む、請求項1に記載のデータ処理方法。
  7. 前記注釈ルールに従って、注釈済みデータに対して品質検査を行うことは、
    前フレームの注釈済みデータにおける物体のタイプに基づき、現フレームの注釈済みデータに対して品質検査を行うことと、及び/又は、
    現フレームの注釈済みデータにおける物体の、履歴フレームの注釈済みデータにおいての変化状況に基づき、現フレームの注釈済みデータに対して品質検査を行うことと、をさらに含む、請求項6に記載のデータ処理方法。
  8. データ注釈情報および注釈者情報のうちの少なくとも1項に基づき、注釈済みデータセットから監査待ちデータを選択することに用いられるデータ選択モジュールと、
    前記監査待ちデータに対して品質検査を行うことに用いられる品質検査モジュールと、を備える、データ処理装置。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信的に接続されるメモリと、を備え、
    前記メモリには、請求項1~7のいずれか1項に記載のデータ処理方法を前記少なくとも1つのプロセッサにより実行できるように、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されている、電子デバイス。
  10. 請求項1~7のいずれか1項に記載のデータ処理方法をコンピュータに実行させるためのプログラム。
JP2021168929A 2020-11-12 2021-10-14 データ処理方法、装置、電子デバイスおよび記憶媒体 Pending JP2022077969A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011262605.X 2020-11-12
CN202011262605.XA CN112270533A (zh) 2020-11-12 2020-11-12 一种数据处理方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
JP2022077969A true JP2022077969A (ja) 2022-05-24

Family

ID=74340810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021168929A Pending JP2022077969A (ja) 2020-11-12 2021-10-14 データ処理方法、装置、電子デバイスおよび記憶媒体

Country Status (5)

Country Link
US (1) US20220027854A1 (ja)
EP (1) EP3937026A3 (ja)
JP (1) JP2022077969A (ja)
KR (1) KR20210132622A (ja)
CN (1) CN112270533A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988727B (zh) * 2021-03-25 2022-09-16 北京百度网讯科技有限公司 数据标注方法、装置、设备、存储介质及计算机程序产品
US20220391616A1 (en) * 2021-06-07 2022-12-08 Waymo Llc Sensor data label validation
CN113326888B (zh) * 2021-06-17 2023-10-31 北京百度网讯科技有限公司 标注能力信息确定方法、相关装置及计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019126721A1 (en) * 2017-12-21 2019-06-27 Abiomed, Inc. Systems and methods for predicting patient health status
JP6567720B1 (ja) * 2018-03-27 2019-08-28 西日本電信電話株式会社 データ前処理装置、データ前処理方法及びデータ前処理プログラム
JP2020098556A (ja) * 2018-12-17 2020-06-25 クラウドワークス インコーポレイテッドCrowdWorks, Inc. 検証用注釈処理作業を用いた実施用注釈処理作業の検証方法及び装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9690771B2 (en) * 2014-05-30 2017-06-27 Nuance Communications, Inc. Automated quality assurance checks for improving the construction of natural language understanding systems
US11520992B2 (en) * 2018-03-23 2022-12-06 Servicenow, Inc. Hybrid learning system for natural language understanding
US11232255B2 (en) * 2018-06-13 2022-01-25 Adobe Inc. Generating digital annotations for evaluating and training automatic electronic document annotation models
CN110222244B (zh) * 2019-05-29 2022-03-01 第四范式(北京)技术有限公司 一种标注数据的审核推送方法及装置
US11126855B2 (en) * 2019-08-08 2021-09-21 Robert Bosch Gmbh Artificial-intelligence powered ground truth generation for object detection and tracking on image sequences
US11188517B2 (en) * 2019-08-09 2021-11-30 International Business Machines Corporation Annotation assessment and ground truth construction
CN110674638B (zh) * 2019-09-23 2023-12-01 百度在线网络技术(北京)有限公司 语料标注系统及电子设备
CN111292839B (zh) * 2020-05-13 2020-10-13 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
US20220004863A1 (en) * 2020-07-01 2022-01-06 International Business Machines Corporation Confidence classifiers for diagnostic training data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019126721A1 (en) * 2017-12-21 2019-06-27 Abiomed, Inc. Systems and methods for predicting patient health status
JP2021506465A (ja) * 2017-12-21 2021-02-22 アビオメド インコーポレイテッド 患者の健康状態を予測するためのシステムおよび方法
JP6567720B1 (ja) * 2018-03-27 2019-08-28 西日本電信電話株式会社 データ前処理装置、データ前処理方法及びデータ前処理プログラム
JP2020098556A (ja) * 2018-12-17 2020-06-25 クラウドワークス インコーポレイテッドCrowdWorks, Inc. 検証用注釈処理作業を用いた実施用注釈処理作業の検証方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HOW TO MEASURE QUALITY WHEN TRAINING MACHINE LEARNING MODELS, JPN6022055577, 29 January 2019 (2019-01-29), ISSN: 0004960979 *
光田 航: "アノテーションとアノテーション作業者の信頼性推定", 言語処理学会第21回年次大会 発表論文集 [ONLINE] PROCEEDINGS OF THE TWENTY-FIRST ANNUAL M, JPN6022055581, 9 March 2015 (2015-03-09), JP, pages 553 - 556, ISSN: 0004960978 *

Also Published As

Publication number Publication date
EP3937026A3 (en) 2022-04-20
EP3937026A2 (en) 2022-01-12
US20220027854A1 (en) 2022-01-27
KR20210132622A (ko) 2021-11-04
CN112270533A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
JP6714024B2 (ja) 言語入力データからnグラムおよび概念関係の自動生成
US20240029025A1 (en) Computer-based method and system of analyzing, editing and improving content
US9860308B2 (en) Collaborative creation of annotation training data
JP2022077969A (ja) データ処理方法、装置、電子デバイスおよび記憶媒体
JP2021193549A (ja) テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20210200947A1 (en) Event argument extraction method and apparatus and electronic device
EP3902280A1 (en) Short video generation method and platform, electronic device, and storage medium
JP7235817B2 (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
US20140006319A1 (en) Extension to the expert conversation builder
CN113285868B (zh) 任务生成方法、设备以及计算机可读介质
US11042689B2 (en) Generating a document preview
US10460031B2 (en) Generating structured meeting reports through semantic correlation of unstructured voice and text data
US20200327189A1 (en) Targeted rewrites
JP2022031625A (ja) 情報をプッシュするための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US20150169532A1 (en) Interaction with Spreadsheet Application Function Tokens
US11182748B1 (en) Augmented data insight generation and provision
JP2022039973A (ja) 品質を管理するための方法及び装置、電子機器、記憶媒体、並びに、コンピュータプログラム
CN114003843A (zh) 一种页面生成方法、装置、设备及存储介质
CN113157170B (zh) 数据的标注方法和装置
CN113113017B (zh) 音频的处理方法和装置
US20230199277A1 (en) Video generation method, electronic device, and non-transitory computer-readable storage medium
CN113723118A (zh) 结合rpa和ai的文档翻译方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230801