JP2021099582A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2021099582A
JP2021099582A JP2019230276A JP2019230276A JP2021099582A JP 2021099582 A JP2021099582 A JP 2021099582A JP 2019230276 A JP2019230276 A JP 2019230276A JP 2019230276 A JP2019230276 A JP 2019230276A JP 2021099582 A JP2021099582 A JP 2021099582A
Authority
JP
Japan
Prior art keywords
candidate
information processing
label
information
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019230276A
Other languages
English (en)
Other versions
JP7374756B2 (ja
JP2021099582A5 (ja
Inventor
浩 荒井
Hiroshi Arai
浩 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019230276A priority Critical patent/JP7374756B2/ja
Priority to US17/124,106 priority patent/US20210192393A1/en
Priority to KR1020200176067A priority patent/KR20210080224A/ko
Priority to CN202011508555.9A priority patent/CN113158631A/zh
Publication of JP2021099582A publication Critical patent/JP2021099582A/ja
Publication of JP2021099582A5 publication Critical patent/JP2021099582A5/ja
Application granted granted Critical
Publication of JP7374756B2 publication Critical patent/JP7374756B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7796Active pattern-learning, e.g. online learning of image or video features based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】アノテーションとして付加されるラベルのユーザによる選択をより好適な態様で支援する。【解決手段】情報処理装置は、アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第1の候補及び第2の候補それぞれについて、確からしさを示すスコアの推定結果を取得し、上記第1の候補及び上記第2の候補それぞれの上記スコアに応じて、当該第1の候補に対応付けられた表示位置に関する第1の表示情報と、当該第2の候補に対応付けられた表示位置に関する第2の表示情報と、の出力部113を介した表示に係る処理を制御する。【選択図】図5

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
機械学習に用いられる学習データを作成するためのプログラムとして、対象となるデータに対して学習すべき正解情報(正解ラベル)を付与するアノテーションツールが利用されている。アノテーションツールには、例えば、学習データの作成に係るユーザへの作業負荷を低減するための機能群(すなわち、ユーザ補助のための機能群)が用意されている場合がある。このような機能の一例として、事前の機械学習に基づき類似するタスク向けに構築された学習済みモデルを利用して、アノテーションの対象となるデータを解析することで、当該アノテーションとして付加される情報の候補を抽出する機能が挙げられる。
アノテーションツールに関連する技術の一例として、特許文献1には、アノテーションとして付加される情報(ラベル)の候補を表示させる際の各候補の表示順序の制御に係る技術の一例が開示されている。また、特許文献2には、アノテーションとして付加する情報の決定に係る技術の一例が開示されている。
特許第6074820号公報 特開2019−101535公報
一方で、対象となるデータに対してアノテーションとしてラベルが付加されることで機械学習に利用される学習データが作成される場合に、付加される当該ラベルをユーザが誤って選択するような状況が想定され得る。このように誤ってラベルが選択されることで生成された学習データが機械学習に利用されると、当該機械学習に基づき構築された学習済みモデルによる、入力されたデータの予測(または、推定、識別、認識等)に係る精度が低下する場合がある。このような場合には、対象となるデータに対して、当該データを示すラベルとして、確からしさのより低いラベルが誤って付加されることで、上記学習済みモデルによる、入力されたデータの予測に係る精度がより低下する可能性が高い。
本発明は上記の問題を鑑み、アノテーションとして付加されるラベルのユーザによる選択をより好適な態様で支援することを目的とする。
本発明に係る情報処理装置は、アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第1の候補及び第2の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得手段と、前記第1の候補及び前記第2の候補それぞれの前記スコアに応じて、当該第1の候補に対応付けられた表示位置に関する第1の表示情報と、当該第2の候補に対応付けられた表示位置に関する第2の表示情報と、の出力部を介した表示に係る処理を制御する制御手段と、を備える。
本発明によれば、アノテーションとして付加されるラベルのユーザによる選択をより好適な態様で支援することが可能となる。
情報処理装置の機能構成の一例を示したブロック図である。 情報処理装置のハードウェア構成の一例を示した図である。 情報処理装置の処理の一例を示したフローチャートである。 情報処理装置の処理の一例を示したフローチャートである。 情報処理装置が出力部を介して提示する画面の一例を示した図である。 情報処理装置が出力部を介して提示する画面の他の一例を示した図である。 情報処理装置が出力部を介して提示する画面の他の一例を示した図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<アノテーションの概要>
所謂機械学習に基づき機械学習モデルの訓練(換言すると、機械学習モデルの構築)を行う手法の一例として、教師あり学習が挙げられる。教師あり学習では、学習モデルへの入力となるデータと、当該データから予測すべき正解ラベルと、を関連付けた学習データが含まれるデータセットが、機械学習モデルの構築に使用される。機械学習モデルを構築する課題に対して、このようなデータセットが存在しない或いは足りない場合には、例えば、入力となるデータを収集した後に、当該データに対してアノテーションとして正解ラベルを付加するアノテーション作業によりデータセットの構築が行われる。このようなアノテーション作業においてユーザがより容易に作業を行えるようにすることを目的として、データに対して正解ラベルを付加する作業を支援する機能を有したアノテーションツールが用いられる場合がある。
アノテーションツールは、アノテーションの対象となる画像や文書等のようなデータ(以下、「対象データ」とも称する)をユーザに対して提示したうえで、ユーザから当該対象データに対してアノテーションとして付加する正解ラベルの指定を受け付ける。そして、アノテーションツールは、上記対象データに対して、ユーザから指定された上記正解ラベルをアノテーションとして付加することで、データセットに含める学習データを生成する。
各種のアノテーションツールの中には、上述した対象データに対して正解ラベルを付加するラベル付け作業を効率化するために、事前の機械学習に基づき構築された機械学習モデル(以降では、「学習済みモデル」とも称する)を利用するツールがある。具体的な一例として、学習済みモデルを利用するツールは、当該学習済みモデルに対象データを解析させることで、当該対象データにアノテーションとして付加されるラベルの候補を抽出させ、抽出された当該ラベルの候補をユーザに提示する。これにより、ユーザは、アノテーションツールから提示されたラベルの候補の中から、対象データに対して正解ラベルとして付加する候補を選択することが可能となる。
なお、本開示では、対象データにアノテーションとして付加されるラベルは、少なくとも文字情報を含むものとする。
上記に例示したアノテーションツールによる、抽出された一連の候補の提示方法としては、例えば、一連の候補を既定の順序で並べて提示する方法や、一連の候補を学習済みモデルによる予測結果のスコア順に並べて提示する方法等が提案されている。
一方で、抽出された一連の候補が既定の順序で並べて提示される場合には、アノテーションの対象となる対象データとの関係性の低いラベルの候補(換言すると、確からしさの低いラベルの候補)が、当該対象データのより近傍に提示される可能性がある。このような場合には、ユーザが、対象データとの関係性の低いラベルの候補を、当該対象データに対してアノテーションとして付加する正解ラベルとして選択することを誘発してしまう状況が想定され得る。このように、対象モデルに対して関係性の低いラベルが付加された学習データがデータセットに存在すると、当該データセットを利用して構築された機械学習モデルによる予測に係る精度が、本来であれば達成することが可能であった精度よりも低下する可能性がある。
また、抽出された一連の候補が学習済みモデルによる予測結果のスコア順に並べて提示される場合には、ユーザが、学習済みモデルがどの程度の確信度を持って各候補を抽出しているかを認識することが困難な場合がある。このような場合には、第1の候補(例えば、スコアが第1位の候補)のラベルがより適切なラベルであるとユーザが単純に判断するような状況も想定され得る。
アノテーション作業において、ある特定のドメインに特化した専門的な学習データが作成される場合もあり、このような状況下では、学習済みモデルがより高い確信度を持って予測を行うことが困難な場合がある。このような状況下において、ユーザが単純に第1の候補のラベルがより適切なラベルであると判断して選択が行われると、実際には対象データと関連性の低いラベルの候補が選択される場合もある。この場合においても、対象モデルに対して関係性の低いラベルが付加された学習データがデータセットに存在することとなり、機械学習モデルによる予測に係る精度が、本来であれば達成することが可能であった精度よりも低下する可能性がある。
そこで、本開示では、ユーザが対象データに対してアノテーションとして付加するラベルを選択する作業を、より好適な態様で支援することが可能なアノテーションツールに関する技術を提案する。
<機能構成>
図1を参照して、本実施形態に係る情報処理装置101の機能構成の一例について説明する。情報処理装置101は、ユーザに対して出力部113を介して各種情報を提示し、入力部114がユーザから受け付けた操作に基づき当該ユーザからの各種指示を認識する。
入力部114は、ユーザから操作を受け付け、受け付けた操作に応じた制御情報を情報処理装置101に送信する。入力部114は、例えば、キーボード、マウス、トラックボール、及びペンタブレット等のような、アノテーション作業に関する各種操作を受け付けることが可能な各種入力デバイスにより実現される。
出力部113は、情報処理装置101からの制御に基づいて、ユーザへの各種情報の提示を行う。具体的な一例として、出力部113は、アノテーションの対象となる対象データや、アノテーションとして当該対象データに付加されるラベルの候補等に関する情報をユーザに提示してもよい。また、出力部113は、情報処理装置101からの制御に基づいて、ユーザからの指示を受け付けるためのインタフェース(UI:User Interface)を提供してもよい。出力部113は、例えば、所謂ディスプレイ等のような出力デバイスにより実現される。
続いて、情報処理装置101の構成要素について説明する。情報処理装置101は、学習済みモデルDB103と、学習済みモデル読み込み部102と、ラベル推定部104と、ラベル配置制御部105と、出力制御部106と、対象データDB108と、対象データ読み込み部107とを含む。また、情報処理装置101は、入力受付部109と、アノテーション付与部110と、アノテーション済みデータDB112と、アノテーション済みデータ保存部111とを含む。
学習済みモデルDB103は、情報処理装置101が利用可能な学習済みモデルのデータを記憶する記憶領域である。
なお、本実施形態では、学習済みモデルDB103がデータベースにより実現されるものとするが、情報処理装置101が利用可能な学習済みモデルのデータを記憶することが可能であれば、必ずしも学習済みモデルDB103の構成は限定されない。具体的な一例として、学習済みモデルDB103は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の記憶装置より実現されてもよい。この場合には、例えば、学習済みモデルのデータは、オペレーティングシステムのファイルシステム上から参照できる形式で、HDDやSSDのような記憶装置に記憶されてもよい。
また上述したデバイスに関する条件について、後述する対象データDB108及びアノテーション済みデータDB112についても同様である。
学習済みモデル読み込み部102は、学習済みモデルDB103に記憶された学習済みモデルのデータを読み込む処理を行う。具体的な一例として、学習済みモデル読み込み部102により読み込みが行われた学習済みモデルのデータは、情報処理装置101の所定の記憶領域(例えば、図2に示すRAM213や補助記憶装置214等)に展開される。これにより、情報処理装置101の各構成要素(例えば、後述するラベル推定部104)は、上記記憶領域にデータが展開された学習済みモデルを利用して推定、識別、及び予測等に係る各種処理を実行することが可能となる。
対象データDB108は、アノテーションの対象となるデータ(対象データ)を記憶する記憶領域である。
なお、図1では、学習済みモデルDB103、対象データDB108、及びアノテーション済みデータDB112を個別の構成要素として示しているが、これらの構成要素のうち少なくとも2以上の構成要素が1つのデバイスにより実現されてもよい。
また、図1では、学習済みモデルDB103、対象データDB108、及びアノテーション済みデータDB112が情報処理装置101に内蔵されているが、これらの構成要素のうち少なくとも一部の構成要素が情報処理装置101の外部に設けられていてもよい。この場合には、情報処理装置101は、ネットワークを介して外部の装置にアクセスすることで、当該装置に備えられた上記構成要素(例えば、対象データDB108)に記憶されたデータを取得して所定の記憶領域に展開してもよい。
対象データ読み込み部107は、対象データDB108からアノテーションの対象となる対象データを読み込む処理を行う。対象データ読み込み部107は、読み込んだ対象データをラベル推定部104及び出力制御部106に出力する。なお、本実施形態では、説明をよりわかりやすくするために、対象データ読み込み部107が一度に1つの対象データを読み込んで、ラベル推定部104及び出力制御部106に出力するものとするが、必ずしも対象データ読み込み部107の処理を限定するものではない。例えば、対象データ読み込み部107は、一度に複数の対象データの読み込み、当該複数の対象データをラベル推定部104及び出力制御部106に出力してもよい。
なお、対象データ読み込み部107が対象データDB108から読み込むデータ、すなわちアノテーションの対象となる対象データが、「第2のデータ」の一例に相当する。
ラベル推定部104は、対象データ読み込み部107から読み込まれた対象データと、学習済みモデル読み込み部102により読み込まれた学習済みモデルと、に基づき、当該対象データにアノテーションとして付加されるラベルの候補の推定を行う。
具体的には、ラベル推定部104は、学習済みモデルに対して対象データを入力することで、当該対象データからアノテーションの対象となる領域を抽出し、当該領域ごとにアノテーションとして付加されるラベルの候補と、各候補のスコアとを取得する。この際に、ラベル推定部104は、スコアが最上位の候補のみに限らず、複数の候補(少なくともスコアが上位2位までの候補)と、当該複数の候補それぞれのスコアと、を取得するとよい。
なお、ラベルの候補のスコアとは、上記学習済みモデルによる、アノテーションの対象となる領域に含まれる情報が、当該ラベルが示す情報であることの予測、推定、識別、または認識に係る確信度に応じた情報である。換言すると、上記スコアとは、アノテーションの対象となる領域に含まれる情報が、当該ラベルが示す情報であることの確からしさを示す指標であるともいえる。本実施形態では、ラベルの候補のスコアとして、上記学習済みモデルによる、アノテーションの対象となる領域に示された対象(物体)が、当該ラベルが示す対象(物体)であるとの予測(認識)に係る確率(確信度)が使用されるものとする。もちろん、上記スコアとして使用される指標は、必ずしも上記確率には限定されず、他の指標が用いられてもよい。
以上のようにして、ラベル推定部104は、対象データ中のアノテーションの対象となる領域ごとに、当該アノテーションとして付加されるラベルの候補を抽出し、抽出した候補それぞれについてスコアを推定する。そして、ラベル推定部104は、アノテーションの対象となる領域ごとに抽出した一連のラベルの候補と、当該一連のラベルの候補それぞれのスコアの推定結果と、をラベル配置制御部105に出力する。
ラベル配置制御部105は、アノテーションの対象となる領域ごとに抽出された一連のラベルの候補と、当該一連のラベルの候補それぞれのスコアの推定結果と、をラベル推定部104から取得する。ラベル配置制御部105は、アノテーションの対象となる領域ごとに、抽出された一連のラベルの候補それぞれのスコアの推定結果に応じて、当該一連のラベルの候補それぞれに対応付けられた表示情報の、出力部113を介した表示に係る処理を制御する。
具体的な一例として、ラベル配置制御部105は、一連のラベルの候補のうち、第1の候補と第2の候補とのスコアの比較結果に応じて、少なくとも当該第1の候補及び当該第2の候補それぞれに対応付けられた表示情報の表示に係る配置を制御してもよい。なお、第1の候補に対応付けられた表示情報が「第1の表示情報」の一例に相当し、第2の候補に対応付けられた表示情報が「第2の表示情報」の一例に相当する。
また、この際に、ラベル配置制御部105は、上記一連のラベルの候補のうち、少なくとも一部の候補のスコアに応じて、対象データに対するアノテーションの難易度を鑑みて、当該候補の表示に係る配置を制御してもよい。
また、ラベル配置制御部105による一連のラベルの候補それぞれに対応付けられた表示情報の、出力部113を介した表示に係る処理の制御の一例については、実施例として詳細を別途後述する。
なお、本開示において「表示情報」とは、例えば、アイコン、テキスト情報、及び画像等のように、ディスプレイ等の出力装置に表示されることでユーザに提示される情報に相当する。換言すると、一連のラベルの候補それぞれを、出力部113を介してユーザに提示することが可能であれば、各候補が対応付けられる表示情報の種別は特に限定されない。
また、以降の説明では、「候補に対応付けられた表示情報を表示する」旨の内容を、便宜上「候補を表示する」旨の記載により示す場合がある。すなわち、以降の説明では、「候補を表示する」と記載した場合には、特に説明が無い限りは、「候補に対応付けられた表示情報を表示する」ことを意味するものとする。これは他の類似する表現についても同様である。具体的には、画面上への情報の表示に係る説明において、「候補を配置する」と記載した場合には、特に説明が無い限りは、「候補に対応付けられた表示情報を配置する」ことを意味するものとする。
また、ラベル配置制御部105は、単語分散表現演算部115と、単語類似度演算部116とを含む。
単語分散表現演算部115は、ラベルの候補について単語分散表現を算出する。単語分散表現とは、単語を高次元の実数ベクトルで表現する技術であり、例えば、近い意味の単語を近いベクトルに対応付ける。単語分散表現の算出には、例えば、「Word2Vec」と称されるテキスト処理を行うニューラルネットワークが利用される。
単語類似度演算部116は、一連のラベルの候補それぞれについて算出された単語分散表現に基づき、当該一連のラベルの候補それぞれの間の言語的類似度(以降では、「単語類似度」とも称する)を算出する。
以上のようにして算出された一連のラベルの候補それぞれの間の単語類似度は、例えば、ラベル配置制御部105による、当該一連のラベルの候補それぞれの表示に係る処理の制御に利用されてもよい。
出力制御部106は、対象データ読み込み部107が読み込んだ対象データと、ラベル配置制御部105による一連のラベルの候補それぞれの表示に係る制御結果と、に基づき、各候補に対応する当該表示情報が提示された画面を生成する。そして、出力制御部106は、生成した画面を、出力部113に表示させる。
また、出力制御部106は、後述するアノテーション付与部110からの指示に基づき、ユーザによるアノテーションの付与の結果を生成した画面に反映する。
なお、出力制御部106により生成される上記画面の一例については、実施例として詳細を別途後述する。
入力受付部109は、入力部114がユーザから受け付けた操作に応じた制御情報を当該入力部114から取得し、取得した当該制御情報をアノテーション付与部110に伝達する。
アノテーション付与部110は、入力受付部109を介してユーザからの入力に応じた制御情報を取得し、当該制御情報に基づき、対象データに対してアノテーションとしてラベルを付加する処理を実行する。なお、アノテーション付与部110により対象データに対してアノテーションとしてラベルを付加する処理は、当該対象データの種別に応じたタスクごとに異なってもよい。
具体的な一例として、画像中に撮像された物体を検出するタスクの場合には、アノテーション付与部110は、アノテーションの対象となる画像(対象データ)に撮像された物体の当該画像中の位置の特定と、当該物体を示すラベルの付加と、に係る処理を実行する。
また、他の一例として、自然言語処理に基づき文書を分類するタスクの場合には、アノテーション付与部110は、アノテーションの対象となる文書(対象データ)に対して、当該文書のカテゴリを示すラベルを付加する処理を実行する。
このように、アノテーションの対象となる対象データの種別や、アノテーションとしてのラベル付けの目的等に応じて、アノテーション付与部110による対象データに対するラベル付けに係る処理の内容が適宜変更されてもよい。
アノテーション済みデータ保存部111は、アノテーション付与部110により対象データにアノテーションとして付加したラベルに関する情報と、当該対象データと、を関連付けて、アノテーション済みデータDB112に記憶させる。アノテーション済みデータDB112に記憶されるアノテーション済みの対象データは、例えば、教師あり学習における教師データとして利用可能なデータ形式で記憶されてもよい。なお、アノテーション済みデータDB112に記憶されるアノテーション済みの対象データ(換言すると、教師データ)が、「第1のデータ」の一例に相当する。
<ハードウェア構成>
図2を参照して、本実施形態に係る情報処理装置101のハードウェア構成の一例について説明する。図2に示すように、本実施形態に係る情報処理装置101は、CPU(Central Processing Unit)211と、ROM(Read Only Memory)212と、RAM(Random Access Memory)213とを含む。また、情報処理装置101は、補助記憶装置214と、出力装置215と、入力装置216と、通信I/F217とを含む。CPU211と、ROM212と、RAM213と、補助記憶装置214と、出力装置215と、入力装置216と、通信I/F217とは、バス218を介して相互に接続されている。
CPU211は、情報処理装置101の各種動作を制御する中央演算装置である。例えば、CPU211は、情報処理装置101全体の動作を制御してもよい。ROM212は、CPU211で実行可能な制御プログラムやブートプログラムなどを記憶する。RAM213は、CPU211の主記憶メモリであり、ワークエリア又は各種プログラムを展開するための一時記憶領域として用いられる。
補助記憶装置214は、各種データや各種プログラムを記憶する。補助記憶装置214は、HDD(Hard Disk Drive)や、SSD(Solid State Drive)に代表される不揮発性メモリ等のような、各種データを一時的または持続的に記憶可能な記憶デバイスにより実現される。
出力装置215は、各種情報を出力する装置であり、ユーザに対する各種情報の提示に利用される。本実施形態では、出力装置215は、ディスプレイ等の表示デバイスにより実現される。出力装置215は、各種表示情報を表示させることで、ユーザに対して情報を提示する。ただし、他の例として、出力装置215は、音声や電子音等の音を出力する音響出力デバイスにより実現されてもよい。この場合には、出力装置215は、音声や電信等の音を出力することで、ユーザに対して情報を提示する。また、出力装置215として適用されるデバイスは、ユーザに対して情報を提示するために利用する媒体に応じて適宜変更されてもよい。なお、図1に示す出力部113は、例えば、出力装置215により実現され得る。
入力装置216は、ユーザからの各種指示の受け付けに利用される。本実施形態では、入力装置216は、マウス、キーボード、タッチパネル等の入力デバイスを含む。ただし、他の例として、入力装置216は、マイクロフォン等の集音デバイスを含み、ユーザが発話した音声を集音してもよい。この場合には、集音された音声に対して音響解析や自然言語処理等の各種解析処理が施されることで、この音声が示す内容がユーザからの指示として認識される。また、入力装置216として適用されるデバイスは、ユーザからの指示を認識する方法に応じて適宜変更されてもよい。また、入力装置216として複数種類のデバイスが適用されてもよい。なお、図1に示す入力部114は、例えば、入力装置216により実現され得る。
通信I/F217は、外部の装置とのネットワークを介した通信に利用される。なお、通信I/F217として適用されるデバイスは、通信経路の種別や適用される通信方式に応じて適宜変更されてもよい。
CPU211は、ROM212又は補助記憶装置214に記憶されたプログラムをRAM213に展開し、このプログラムを実行することで、図1に示された情報処理装置101の機能構成や、図3及び図4に示すフローチャートで示された処理が実現される。
<処理>
図3及び図4を参照して、本実施形態に係る情報処理装置101の処理の一例について説明する。
まず、図3を参照して、情報処理装置101の全体的な処理の流れについて説明する。
S301において、情報処理装置101は、各機能の初期設定、アノテーションの対象となる対象データの読み込み、及び当該対象データに対してアノテーションとして付加されるラベルの候補の表示制御に利用する学習済みモデルの読み込みのそれぞれを実行する。なお、情報処理装置101は、S301に示した処理については、例えば、少なくともアノテーション作業の開始時に一度実行すればよく、以降については設定済みの各種パラメータや読み込み済みの各種データを利用すればよい。
S302において、情報処理装置101は、読み込んだ学習モデルを利用して、読み込んだ対象データにアノテーションとして付加されるラベルの候補の推定を行う。この際に、情報処理装置101は、アノテーションの対象となる領域(例えば、画像中に被写体として撮像された物体)ごとに、少なくとも第1の候補及び第2の候補を含む一連の候補のスコアを取得する。
なお、図3及び図4に示す例では、便宜上、スコアが最上位の候補が第1の候補に相当し、スコアが2位の候補が第2の候補に相当するものとする。
ただし、上記はあくまで一例であり、本実施形態に係る情報処理装置101の処理を限定するものではない。例えば、情報処理装置101は、第1の候補及び第2の候補のそれぞれと、その他の候補と、に分けて情報を管理してもよいし、第1の候補と、その他の候補と、に分けて情報を管理してもよい。すなわち、情報処理装置101が、第1の候補のスコアと、他の候補のスコアと、の関係から、学習済みモデルがどの程度の確信度を持って第1の候補の予測を行っているかを認識することが可能であれば、各候補に関する情報の管理方法は特に限定されない。
また、S302の処理が、対象データに対するアノテーションとして付加されるラベルの第1の候補及び第2の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得処理の一例に相当する。
S303において、情報処理装置101は、アノテーションの対象となる領域ごとに、抽出された一連のラベルの候補それぞれのスコアの推定結果に応じて、当該一連のラベルの候補それぞれの表示に係る処理を制御する。なお、図3及び図4に示す例では、便宜上、情報処理装置101は、一連のラベルの候補それぞれの表示に係る配置を制御するものとする。また、S303の処理については、図4を参照して詳細を別途後述する。
また、S303の処理が、第1の候補及び第2の候補それぞれのスコアに応じて、当該第1の候補に対応付けられた第1の表示情報と、当該第2の候補に対応付けられた第2の表示情報と、の出力部を介した表示に係る処理を制御する制御処理の一例に相当する。
S304において、情報処理装置101は、一連のラベルの候補それぞれの表示に係る配置の制御結果に基づき、各候補に対応する当該表示情報が提示された画面を生成し、当該画面を出力部113に表示させる。
次いで、図4を参照して、図3のS303の処理の詳細について説明する。図4に示す一連の処理は、学習済みモデルにとって精度の高い予測が困難な対象データの場合には、ユーザにとってもアノテーションとして付加すべきラベルの候補の識別が困難であろうという考えに基づき規定されている。
つまり、ユーザが判断に迷うような状況が起こり得る対象データについては、ユーザがアノテーションとして付加されるラベルの候補をしっかり確認して、より好適な候補を選択することがより望ましい。このような場合には、例えば、学習済みモデルが推定した第1の候補と第2の候補とを、ユーザがより的確に判別したうえで、アノテーションとして付加する候補を選択できる状況を作り上げることが、データセットの品質維持の観点で重要な要素となる。
このような状況を鑑み、本実施形態に係る情報処理装置101は、ユーザが意図する候補とは異なる他の候補を選択するような事態の発生を防止することを目的とし、各候補の表示に係る配置を制御する。具体的な一例として、情報処理装置101は、第1の候補と第2の候補と間のスコアの差に応じてそれぞれの候補が互いに離間して配置されるように制御する。これにより、ユーザが、本来は第1の候補に対応付けられた第1の表示情報を選択することを意図している状況下で、第2の候補に対応付けられた第2の表示情報を選択するような事態の発生を防止することが可能となる。
上記を踏まえ、図3に示すS303の処理の詳細について以下に説明する。
S401において、情報処理装置101は、第1の候補のスコアと第2の候補のスコアとの差を算出し、当該差が閾値1を超えるか否かを判定する。なお、S401に示す処理の判定で使用される閾値1が「第1の閾値」の一例に相当する。
情報処理装置101は、S401において、第1の候補のスコアと第2の候補のスコアとの差が閾値を超えると判定した場合には、処理をS402に進める。S402において、情報処理装置101は、第1の候補と他の候補との間で言語的な類似度を算出する。他の候補には、第2の候補を含む。
候補間の言語的な類似度の算出方法としては、例えば、各候補を言語的な特徴に基づきベクトル(以下、「単語ベクトル」とも称する)で表し、一連の候補それぞれの間で対応する単語ベクトル間の距離を算出する方法が挙げられる。なお、ラベルの候補を単語ベクトルに変換する方法としては、例えば、「Word2Vec」等のような単語分散表現技術を適用すればよい。また、単語ベクトル間の距離算出については、例えば、ベクトル間のコサイン類似度等を利用する手法を適用すればよい。
もちろん上記はあくまで一例であり、複数の候補間の言語的な類似度を算出することが可能であれば、その方法は特に限定されない。具体的な一例として、単語間の類似関係に関する情報を収集することで、言語的な類似度が高い単語間が関連付けられた辞書(例えば、シソーラス等)を構築し、当該辞書を利用することで候補間の類似度が特定されてもよい。
そして、情報処理装置101は、第1の候補に対して、当該第1の候補とより類似度の高い候補がより近くに配置されるように、各候補の表示に係る配置を制御する。
例えば、情報処理装置101は、一連の候補それぞれの間での単語ベクトルの距離の算出結果に基づき、当該一連の候補それぞれの表示に係る画面上における配置を制御してもよい。第1の候補と第2の候補の言語的な類似度が高ければ、第1の候補の隣に第2の候補を配置することもできる。学習済みモデルが出力した確信度が最も高い第1の候補を選択しても誤りではないが、第2の候補のほうがより正しい場合、第2の候補が存在することに気付きやすくなり、より正しいラベルを選択することができる。また、第1の候補と第2の候補とは言語的な類似度が高いので、ユーザの物体識別の知識や能力が足りずにラベルの選択精度が低い場合でも、学習データとしての精度に与える影響が少ない。
具体的な一例として、情報処理装置101は、あらかじめ規定された配置位置のうち、最も左の配置位置に第1の候補を配置し、残りの配置位置には、左から第1の候補に単語ベクトルが近い順に、各候補の表示情報を配置してもよい。また、この場合には、情報処理装置101は、第1の候補が配置される位置を、最も左の配置位置に限らず、他の配置位置(例えば、最も右の配置位置)に配置してもよいし、配置位置をその時々でランダムに変更してもよい。
また、他の一例として、情報処理装置101は、各候補に対応付けられた表示情報がドロップダウンリストとして表示されるように制御してもよい。この場合には、情報処理装置101は、リストとして表示される順序を候補間の距離と対応付けることで、各候補に対応付けられた表示情報の一覧を提示してもよい。
S403において、情報処理装置101は、第1の候補のスコアと第2の候補のスコアとの差が、閾値2を超えるか否かを判定する。閾値2は、S401の判定で使用された閾値1よりも大きい値を想定している。すなわち、第1の候補のスコアと第2の候補のスコアとの差が閾値2を超えるケースは、学習済みモデルによる推定結果が示す第1の候補であることの確信度が他の候補に比べて非常に高いケースに該当する。なお、S403に示す処理の判定で使用される閾値2が「第2の閾値」の一例に相当する。
また、閾値1及び閾値2については、例えば、ユーザ(例えば、管理者等)により事前に設定されてもよい。また、他の一例として、情報処理装置101が、閾値1及び閾値2の少なくともいずれかを、学習済みモデルが出力したスコアの履歴に応じて更新してもよい。この場合には、情報処理装置101は、一連のアノテーション作業における所定の契機で上記更新を行ってもよいし、一連のアノテーション作業の開始前または終了後のタイミングで上記更新を行ってもよい。
情報処理装置101は、S403において、第1の候補のスコアと第2の候補のスコアとの差が閾値2を超えると判定した場合には、処理をS404に進める。なお、この場合には、学習済みモデルが出力した第1の候補のスコアが他の候補に比べて非常に高く、ユーザが当該第1の候補を選択する可能性が非常に高い。そのため、S404において、情報処理装置101は、第1の候補がデフォルトで選択済みの状態で表示されるように、各候補の表示を制御する。
このような制御が適用されることで、ユーザによる候補の選択に係る手間を軽減することが可能となり、さらに、誤って他の候補が選択される事態が発生する可能性を低減することが可能となる。これにより、ユーザの作業の効率化と、データセットの品質低下の防止と、を実現することが可能となる。
情報処理装置101は、S404の処理が完了すると、図4に示す一連の処理を終了する。
一方で、情報処理装置101は、S403において、第1の候補のスコアと第2の候補のスコアとの差が閾値2を超えないと判定した場合には、図4に示す一連の処理を終了する。
また、情報処理装置101は、S401において、第1の候補のスコアと第2の候補のスコアとの差が閾値を超えないと判定した場合には、処理をS405に進める。なお、この場合には、学習済みモデルが出力した第1の候補のスコアと第2の候補のスコアとがより小さいため、ユーザが誤って意図しない候補を選択するような状況が想定され得る。そのため、S405において、情報処理装置101は、ユーザに対して注意を促すために、画面上に所定の報知情報(例えば、警告を示す情報)を表示させてもよい。
この際に、情報処理装置101は、警告を示すアイコンやメッセージを報知情報として表示させてもよいし、報知情報を点滅させる等のように、当該報知情報の表示態様を制御してもよい。また、ユーザに対して注意を促すことが可能であれば、情報の報知方法は特に限定されない。具体的な一例として、情報処理装置101は、音や振動を媒介として、ユーザに対して情報を報知してもよい。
S406において、情報処理装置101は、第1の候補及び第2の候補それぞれが、画面上で互いに離間して配置されるように、各候補の表示に係る配置を制御する。S406の処理が実行される状況のように、学習済みモデルによる予測の確信度が低い状況下では、ユーザが誤って意図する候補とは異なる候補を選択する事態の発生を防止することが望ましい。このような場合に、上記のように、第1の候補及び第2の候補それぞれが互いに離間して配置されることで、ユーザが意図しない候補を誤って選択する事態の発生を防止することが可能となる。
また、S405において、ユーザに対して注意を促す報知情報が報知されることで、第1の候補及び第2の候補それぞれが互いに離間して配置されたとしても、ユーザが一方を見落とすような事態の発生を防止することが可能となる。
なお、上述の通り、S406の処理が実行される状況は、学習済みモデルによる予測の確信度が低い状況に相当する。アノテーション作業の成果物であるデータに基づき、機械学習モデルが構築される場合には、このようなアノテーションの対象について、第1の候補と第2の候補とを正しく区別することが可能な機械学習モデルが構築できることがより望ましい。そのため、上記のように第1の候補と第2の候補とを正しく区別することが可能な機械学習モデルを構築するためには、第1の候補と第2の候補とのうちユーザが意図しない候補が選択される事態の発生を防止することが望ましい。そこで、S406の処理として説明したように、第1の候補及び第2の候補それぞれが互いに離間して配置されることで、ユーザによる操作ミス等による誤ったラベル付けに起因するデータセットの品質の低下を抑えることが可能となる。
S407において、情報処理装置101は、第1の候補及び第2の候補それぞれの近傍への配置の対象とする他の候補を決定する。S407の処理は、ユーザが第1の候補及び第2の候補のいずれかを選択する際に、誤って他の候補を選択した場合においても、データセットの品質の低下の影響をより低減可能とすることを目的としている。
具体的には、情報処理装置101は、第1の候補及び第2の候補それぞれの近傍に、対象となる候補と言語的な類似度のより高い候補が配置されるように制御する。この場合には、S402の処理と同様に、情報処理装置101は、学習済みモデルが出力した各候補のスコアに基づき、第1の候補及び第2の候補それぞれについて、対象となる候補と単語ベクトルの距離がより近い候補を特定すればよい。そして、情報処理装置101は、第1の候補及び第2の候補それぞれに対して、単語ベクトルの距離が近い候補ほどより近くに配置されるように制御すればよい。
以上、図4を参照して、図3のS303の処理の詳細について説明した。なお、上述した例はあくまで一例であり、第1の候補及び第2の候補それぞれのスコア間の差に応じて、各候補に対応する表示情報の表示(例えば、表示情報の配置)が制御されれば、必ずしも情報処理装置101の処理は限定されない。具体的な一例として、アノテーション作業のタスクや作業者の習熟度に応じて、データセットの品質の向上のための考え方や作業者のミスの傾向が異なる可能性がある。このような場合には、上記に例示した各候補の表示に係る制御の条件の少なくとも一部が適宜変更されてもよい。
<実施例>
以上により説明した、情報処理装置101のハードウェア構成、機能構成は、後述の各実施例で共通である。本実施形態に係る情報処理装置101の実施例として、情報処理装置101が、対象データに対してアノテーションとして付加するラベルの候補のユーザへの提示と、ユーザからのラベルの候補の指定の受け付けと、を実現するためのUIの一例について説明する。
(実施例1)
実施例1に係るUIの一例について図5を参照して説明する。画面501は、情報処理装置101が出力部113を介してユーザに提示する画面の一例を示している。画面501は、ユーザに対してアノテーションの対象となる対象データを提示し、当該対象データに対するアノテーション作業に関する各種指示をユーザから受け付ける。
なお、本実施例では、物体認識タスクにおける正解データの作成のために画像アノテーションを行う場合を想定してユーザに提示される画面の一例について説明する。具体的には、本実施例に係るアノテーションタスクにおいては、ユーザが、画像中に被写体として撮像されている物体を、矩形等を利用した領域指定により選択し、当該物体を示す正解ラベルを付すような作業を行われることを想定している。
領域502は、アノテーションの対象となる対象データが表示される領域である。図5に示す例では、領域502には、対象データとして画像が表示されている。領域502は、表示した対象データ(例えば、画像)におけるアノテーションの対象となる領域の指定をユーザから受け付ける。
領域503、504、及び505は、領域502に表示された対象データ中において、アノテーションの対象となる領域を示している。具体的には、図5に示す例では、領域503、504、及び505は、領域502に表示された画像における、被写体として撮像された物体に対応する領域を示している。
なお、以降の説明では、便宜上、領域503及び504に対応する物体は「普通車」であり、領域505に対応する物体は「トラック」であるものとする。また、情報処理装置101は、画像中に被写体として撮像されている物体が何であるかを、ユーザによりアノテーションとして付加された正解ラベルにより認識するものとする。また、情報処理装置101は、物体認識を目的として構築された学習済みモデルを利用することで、画像中に被写体として撮像された物体を認識してもよい。この場合には、情報処理装置101は、当該学習済みモデルの出力として、当該物体の物体名と、当該物体名の確からしさを示すスコア(確率)と、を取得することが可能であるものとする。
領域506、507、及び508は、領域503、504、及び505で示された物体に対してアノテーションとして付加するラベルの指定をユーザから受け付ける領域である。情報処理装置101は、学習済みモデルを利用した領域503、504、及び505に対応する物体の推定結果に基づき、領域506、507、及び508に対して、アノテーションとして付加されるラベルの候補を提示する。また、この際に情報処理装置101は、領域506、507、及び508に提示する一連のラベルの候補の配置や、当該候補の提示に係るUIの状態を、学習済みモデルを利用した対象となる物体の推定結果に基づき動的に制御してもよい。
そこで、以降では、情報処理装置101による、領域506、507、及び508それぞれに対する、一連のラベルの候補の配置や当該候補の提示に係るUIの状態の制御の一例について具体的な例を挙げて説明する。
まず、領域506に対する一連のラベルの候補の配置や当該候補の提示に係るUIの状態の制御の一例について説明する。
領域506は、領域503で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。情報処理装置101は、領域503で示された物体を示すラベルの候補として、70%の確率で「普通車」であることを示す第1の候補と、10%の確率で「ビル」であることを示す第2の候補と、を推定したものとする。
また、本実施例では、学習済みモデルが出力するラベルの第1の候補及び第2の候補それぞれのスコアとして、当該候補が示す物体である確からしさを示す確率が用いられるものとする。また、図4を参照して説明した閾値1として50%が設定されており、閾値2として80%が設定されているものとする。
情報処理装置101は、第1の候補のスコアと第2の候補のスコアとの差分を計算する。領域506に提示される候補の例の場合には、上記差分は、70%と10%との差分となるため、60%となる。この差分は、学習済みモデルがどの程度の確信度を持って第1の候補を推定しているかを示す指標と考えることが可能である。なぜなら、第1の候補と第1の候補とのスコアの差分が大きいということは、第1の候補のスコアがより高く、第2の候補のスコアがより低いことを表しているためである。
情報処理装置101は、上記確率差60%が閾値1(50%)を超えるため、図4におけるS401の条件判定において真と判定する。
次いで、情報処理装置101は、S402の処理において、第1の候補である「普通車」と単語ベクトルの距離が近い他の候補を特定する。そして、情報処理装置101は、領域506において、第1の候補と単語ベクトルの距離がより近い候補が、第1の候補のより近くに配置されるように制御する。
なお、「普通車」という単語について、単語ベクトルの語彙が存在しない場合も想定され得る。このような場合には、例えば、情報処理装置101は、分かち書きライブラリを利用することで、「普通車」を「普通」と「車」とに分割し、分割後の複数の単語の単語ベクトルの平均を、「普通車」の単語ベクトルとして適用してもよい。
また、他の一例として、情報処理装置101は、分かち書きされた複数の単語のうち、いずれかの単語の単語ベクトルを、分かち書きの対象とした単語の単語ベクトルとして適用してもよい。すなわち、この場合には、情報処理装置101は、「普通車」を「普通」と「車」とに分割したうえで、「普通」と「車」とのいずれかの単語ベクトルを、「普通車」の単語ベクトルとして適用してもよい。
以上のような手法を適用することで、対象となるラベルの候補が、単語ベクトルの語彙として設定されていない状況下においても、当該候補を、図4に示すような各候補の表示に係る処理の制御対象とすることが可能となる。
なお、図4のS402の処理の説明として前述したように、ラベルの候補間における単語ベクトルの距離としては、例えば、コサイン類似度を用いればよい。
情報処理装置101は、領域503で示された物体に付加されるラベルの候補の推定結果として、確率(スコア)が第4位までの候補である「普通車」、「ビル」、「トラック」、及び「家」を抽出したものとする。
なお、上述した一連の候補が、左から確率が高い順に配置されると、確率が第1位である「普通車」に隣接するように、確率が第2位である「ビル」が配置されることとなる。このような配置が行われると、ユーザが「普通車」を選択しようとしている状況下で、操作を誤ることで、「普通車」とは意味的に大きく異なる「ビル」が選択される可能性がある。このように、意味的に異なる候補が選択されることで、本来付加されるべきラベルとは意味的に大きく異なるラベルが付加された学習データが生成されることとなり、機械学習モデルの構築に使用されるデータセットの品質が著しく低下する可能性がある。
このような状況を鑑みて、ユーザによる選択ミスに伴うデータセットの品質低下の影響を低減するために、図4のS402の処理では、各候補の表示に係る配置の制御が行われている。具体的には、情報処理装置101は、第1の候補と単語ベクトルの距離がより近い候補が、当該第1の候補のより近傍に位置するように、各候補の表示に係る配置を制御する。
領域506に提示される候補の例の場合には、第1の候補である「普通車」との間の単語ベクトルの距離は、「トラック」、「家」、「ビル」の順により近いものとする。この場合には、情報処理装置101は、第1の候補である「普通車」に隣接する位置に、「トラック」を配置することとなる。これにより、例えば、ユーザが「普通車」を選択しようとしている状況下で、操作を誤って隣接する他の候補を選択したとしても、「普通車」と意味的により近い「トラック」が選択されることとなり、データセットの品質低下の影響を低減することが可能となる。
一般的に、画像認識に用いられる畳み込みニューラルネットワークは、畳み込み層がより深くなるほど画像の大局的な特徴をつかむ傾向にあり、その中には、「自動車」の特徴をつかむ畳み込みフィルタも存在することもある。そのため、ラベル付けに際して、「普通車」の選択を意図する状況下で誤って「トラック」が選択された場合には、誤って「ビル」が選択される場合に比べて、畳み込みニューラルネットワークの学習において、「自動車」の特徴を学習できる可能性がある。すなわち、「普通車」の選択を意図する状況下
で、誤って「ビル」が選択される場合に比べて、誤って「トラック」が選択される場合の方が、データセットの品質低下の影響を低減することが可能となる。
次いで、情報処理装置101は、図4のS403の処理において、第1の候補のスコアと第2の候補のスコアとの差分(60%)を、閾値2(80%)と比較する。この場合には、情報処理装置101は、上記差分(60%)が閾値2(80%)以下となるため、S403の条件判定において偽と判定する。
以上のようにして、領域506に対する一連のラベルの候補の配置が制御される。
続いて、領域507に対する一連のラベルの候補の配置や当該候補の提示に係るUIの状態の制御の一例について説明する。
領域507は、領域504で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。情報処理装置101は、領域504で示された物体を示すラベルの候補として、95%の確率で「普通車」であることを示す第1の候補と、2%の確率で「ビル」であることを示す第2の候補と、を推定したものとする。
また、領域506について説明した例と同様に、閾値1として50%が設定されており、閾値2として80%が設定されているものとする。
情報処理装置101は、第1の候補のスコアと第2の候補のスコアとの差分を計算する。領域507に提示される候補の例の場合には、上記差分は、95%と2%との差分となるため、93%となる。
情報処理装置101は、上記確率差93%が閾値1(50%)を超えるため、図4におけるS401の条件判定において真と判定する。
次いで、情報処理装置101は、S402の処理において、第1の候補である「普通車」と単語ベクトルの距離が近い他の候補を特定する。そして、情報処理装置101は、領域506において、第1の候補と単語ベクトルの距離がより近い候補が、第1の候補のより近傍に配置されるように制御する。
なお、情報処理装置101は、領域504で示された物体に付加されるラベルの候補の推定結果として、確率(スコア)が第4位までの候補である「普通車」、「ビル」、「トラック」、及び「家」を抽出したものとする。また、第1の候補である「普通車」との間の単語ベクトルの距離は、「トラック」、「家」、「ビル」の順により近いものとする。
次いで、情報処理装置101は、図4のS403の処理において、第1の候補のスコアと第2の候補のスコアとの差分(93%)を、閾値2(80%)と比較する。この場合には、情報処理装置101は、上記差分(93%)が閾値2(80%)を超えるため、S403の条件判定において真と判定する。
S403の条件判定が真となるケースでは、学習済みモデルが高い確信度を持って第1の候補を推定しているものと考えられる。このようなケースでは、ユーザがラベル付けを行う場合においても、同様に高い確信度を持って第1の候補を選択する可能性が高い。そのため、情報処理装置101は、図4に示すS404の処理として、第1の候補がデフォルトで選択済みの状態で表示されるように、各候補の表示を制御する。
上記のような制御が適用されることで、第1の候補とは異なる他の候補が改めて選択される場合を除けば、ユーザによる候補の選択に係る手間を軽減することが可能となり、さらに、誤って他の候補が選択される事態が発生する可能性を低減することも可能となる。すなわち、ユーザの作業の効率化と、データセットの品質低下の防止と、より好適な態様で実現することが可能となる。
続いて、領域508に対する一連のラベルの候補の配置や当該候補の提示に係るUIの状態の制御の一例について説明する。
領域508は、領域505で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。情報処理装置101は、領域505で示された物体を示すラベルの候補として、40%の確率で「普通車」であることを示す第1の候補と、30%の確率で「トラック」であることを示す第2の候補と、を推定したものとする。
また、領域506及び507について説明した例と同様に、閾値1として50%が設定されており、閾値2として80%が設定されているものとする。
情報処理装置101は、第1の候補のスコアと第2の候補のスコアとの差分を計算する。領域507に提示される候補の例の場合には、上記差分は、40%と30%との差分となるため、10%となる。
情報処理装置101は、上記確率差10%が閾値1(50%)以下となるため、図4におけるS401の条件判定において偽と判定する。
S401の条件判定が偽となるケースでは、学習済みモデルが推定した第1の候補と第2の候補との間でスコアが大きく離れておらず、学習済みモデルが高い確信度を持って予測を行うこと(例えば、物体を識別すること)が困難な状況であることが推測される。そのため、このようなケースでは、ユーザが誤って意図しない候補を選択するような事態の発生を避けるための制御が行われることが望ましい。
例えば、情報処理装置101は、図4のS405に示す処理のように、ユーザに対して注意を促すために、画面上に所定の報知情報(例えば、警告を示す情報)を表示させてもよい。具体的な一例として、図5に示す例では、領域508に対して、注意を促す記号と、「要注意」というメッセージと、が報知情報として表示されている。
次いで、情報処理装置101は、図4のS406の処理において、第1の候補及び第2の候補それぞれにが、画面上で互いに離間して配置されるように、各候補の表示に係る配置を制御する。図5に示す例では、第1の候補である「普通車」と、第2の候補である「トラック」と、がより離間して配置されるように制御されている。
なお、図5に示す例では、アノテーションの対象となる物体ごとに、最大4つのラベルの候補が提示される。そのため、情報処理装置101は、領域508の左端に第1の候補である「普通車」を配置し、右端に第2の候補である「トラック」を配置している。もちろん、図5に示す例はあくまで一例であり、第1の候補と第2の候補とが離間して配置されれば、配置方法は特に限定されない。具体的な一例として、領域508の右端に第1の候補が配置され、左端に第2の候補が配置されてもよい。また、他の一例として、第1の候補と第2の候との間に、他の候補が介在するように、各候補の配置が制御されてもよい。また、他の一例として、第1の候補と第2の候補との間の空間が、隣接する他の候補間の空間よりも広くなるように制御されてもよい。
次いで、情報処理装置101は、図4のS407の処理において、第1の候補及び第2の候補それぞれの近傍に、単語ベクトルの距離がより近い候補(換言すると、言語的類似度より高い候補)が配置されるように制御する。なお、複数の候補間における単語ベクトルの距離の算出方法については、S402の処理と同様である。
上記のような制御が適用されることで、ユーザが第1の候補及び第2の候補のいずれかを選択する際に、誤って他の候補を選択した場合においても、S402の処理が実行された場合と同様に、データセットの品質低下の影響を低減することが可能となる。
続いて、ボタン509及び510について説明する。
ボタン509は、領域502に表示されている対象データに対するアノテーション作業の取りやめに係る指示をユーザから受け付けるボタンである。情報処理装置101は、ボタン509が押下されたことを検出した場合に、従前にアノテーション作業の対象とした他の対象データを改めてアノテーション作業の対象としてもよい。
ボタン510は、領域502に表示されている対象データに対して実行されたアノテーション作業の確定に係る指示をユーザから受け付けるボタンである。情報処理装置101は、ボタン510が押下されたことを検出した場合には、対象データにアノテーションとして付加したラベルに関する情報と、当該対象データと、を関連付けて、アノテーション済みデータDB112に記憶させる。そして、情報処理装置101は、またアノテーション作業の対象としていない他の対象データが存在する場合には、当該他の対象データをアノテーション作業の新たな対象としてもよい。
以上、実施例1に係る画面の一例について図5を参照して説明した。本実施例では、主に以下に挙げる2つの技術思想に基づき、対象データに対してアノテーションとして付加されるラベルの候補それぞれの配置を動的に制御する手法の一例について提案した。具体的には、1つ目の技術思想とは、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、ユーザが誤って意図しない候補を選択するような事態の発生を避けるための対応が行われることが望ましいという考え方である。また、2つ目の技術思想とは、学習済みモデルが高い確信度を持って予測を行うことが可能なデータが処理対象の場合は、ユーザも同様に高い確信度を持って候補の選択を行うことが可能であり、単純な選択ミスの影響を防止することが望ましいという考え方である。
以上のように、本実施例に係る情報処理装置101に依れば、ユーザが対象データに対してアノテーションとしてラベルを付加する状況下において、ユーザによるラベルの候補の選択をより好適な態様で支援することが可能となる。具体的には、上述した構成や制御が適用されることで、ユーザが意図するラベルの候補とは異なる候補を誤って選択するような事態が発生する可能性を低減することが可能となる。また、ユーザが意図しない候補を誤って選択した場合においても、誤ったラベル付けに起因するデータセットの品質低下の影響を低減することが可能となる。また、学習済みモデルが高い確信度を持ってラベルの候補の推定を行った場合には、当該候補がデフォルトで選択済みの状態で表示されるように制御される。これにより、ユーザの作業の効率化と、データセットの品質低下の防止を実現することが可能となる。
(実施例2)
実施例2に係るUIの一例について説明する。実施例1では、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、第1の候補及び第2の候補それぞれが離間して配置されるように制御が行われる場合の一例について説明した。これは、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、ユーザも同様に高い確信度を持って候補の選択を行うことが困難であり、ユーザも一連のラベルの候補を確認したうえで選択を行うであろうとの仮定に基づいている。
一方で、ユーザが可能な限り短時間で大量のデータに対してアノテーションとしてラベルを付加する作業を行うような状況下では、ユーザが必ずしも一連の候補それぞれを確認して選択を行うとは限らない。
具体的には、実施例1では、情報処理装置101は、図4のS401の条件判定において偽と判定された場合には、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象であると認識する。そのため、情報処理装置101は、第1の候補及び第2の候補それぞれが離間して配置されるように制御している。
一方で、上記のように一連のラベルの候補が提示された場合に、ユーザが、互いに離間して配置された第1の候補及び第2の候補それぞれを確認せずに、最初に目にしたもっともらしい候補を選択するような状況も想定され得る。このようなケースが頻発すると、対象モデルに対して関係性の低いラベルが付加された学習データがデータセットに多数追加され、ひいては当該データセットの品質が低下する可能性がある。
このような状況を鑑み、本実施例に係る情報処理装置101は、図4のS406の処理において、第1の候補及び第2の候補それぞれが近傍に位置するように、各候補の表示に係る配置を制御する。このような制御が適用されることで、第1の候補及び第2の候補それぞれが双方ともにユーザの視界に入りやすくなる。そのため、少なくともユーザが、いずれか一方の候補のみを確認し、当該一方の候補を、他方の候補を確認せずに選択するといった事態の発生を防止することが可能となる。
なお、図4のS406の処理として、本実施例に係る処理と、実施例1に係る処理と、のいずれを適用するかについては、アノテーション作業の内容や、ユーザの技能や性質等を鑑みて適宜選択されてもよい。
また、他の一例として、本実施例に係る処理と、実施例1に係る処理と、のいずれを適用するかを、情報処理装置101が、アノテーション作業の統計的な選択情報に基づき、動的に切り替えてもよい。具体的な一例として、情報処理装置101は、実施例1に係る処理の適用時に、左端に表示情報が配置された第1の候補が、右端に表示情報が配置された第2の候補よりも統計的優位性を持って多く選択されることを検出したものとする。この場合には、情報処理装置101は、ユーザが左端に表示された候補を選択する頻度がより高い可能性があると推測し、S406の処理を本実施例に係る処理内容に切り替えてもよい。
以上のように、本実施例に係る情報処理装置101は、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、第1の候補及び第2の候補それぞれが近傍に位置するように制御する。これにより、ユーザが一連の候補それぞれを確認して選択を行うことが困難な状況下において、ユーザが本来意図する候補とは異なる候補が選択されたとしても、データセットの品質低下の影響を低減することが可能となる。そのため、本実施例に係る情報処理装置101に依れば、ユーザによるアノテーション作業の作業スピードの維持と、誤った候補の選択に伴うデータセットの品質低下の影響の低減と、をより好適な態様で両立することが可能となる。
(実施例3)
実施例3に係るUIの一例について図6を参照して説明する。実施例1及び2では、情報処理装置101が、一連のラベルの候補それぞれを、画面上の所定の箇所に1次元的に並べて配置する場合の一例について説明した。本実施例では、情報処理装置101が、一連のラベルの候補それぞれの表示に係る配置を、候補間における類似度(例えば、単語類似度)に応じてより柔軟に制御する場合の一例について説明する。具体的には、図6に示す例として、情報処理装置101が、複数の候補間の類似度に応じて、当該複数の候補それぞれの間の間隔を制御する場合の一例について説明する。
画面601は、情報処理装置101が出力部113を介してユーザに提示する画面の一例を示している。画面601における領域602〜608は、図5に示す画面501における領域502〜508にそれぞれ対応している。また、画面601におけるボタン609及び610は、画面501におけるボタン509及び510にそれぞれ対応している。なお、画面601は、領域606、607、及び608に表示される情報の内容が画面501と異なる点を除けば、その他については画面501と実質的に同様である。そのため、本実施例では、領域606、607、及び608への情報の表示に係る制御に着目して説明し、その他については、画面501と実質的に同様のため詳細な説明は省略する。
領域606は、領域603で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。領域606に表示情報が表示された一連の候補は、図5に示す領域505の場合と同様であるが、「トラック」と「家」とが離間して配置されている。具体的には、本実施例に係る情報処理装置101は、図4のS402の処理で算出した、第1の候補(普通車)と、他の候補(トラック、家、及びビル)それぞれと、の間の単語ベクトルの距離に応じて、各候補に対応する表示情報間の距離を制御する。
なお、図6に示す例では、「普通車」と「トラック」とは単語ベクトルの距離が近く、「普通車」と「家」及び「ビル」のそれぞれとは「トラック」に比べて単語ベクトルの距離が遠いものとする。また、「家」と「ビル」とは単語ベクトルの距離が近いものとする。
そのため、領域606においては、「普通車」の近傍に「トラック」が配置されているが、「家」及び「ビル」のそれぞれについては、「普通車」との間の単語ベクトルの距離に応じて離間して配置されている。また、「家」と「ビル」とは単語ベクトルの距離が近いため、「家」と「ビル」とが近傍に位置するように配置されている。
また、領域607は、領域604で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域607に表示される一連のラベルの候補は、図5に示す領域507に表示される一連のラベルの候補と同様に、第1の候補である「普通車」のスコアが極めて高く、領域604で示された物体が、第1の候補である「普通車」である可能性が高い。そのため、第1の候補である「普通車」が、デフォルトで選択済みの状態で表示されている。また、領域607に表示される一連のラベルの候補は、領域606に表示される一連のラベルの候補と同様に、複数の候補間の単語ベクトルの距離に応じて、当該複数の候補それぞれに対応付けられた表示情報間の距離が制御されている。
また、領域608は、領域605で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域608に表示される一連のラベルの候補については、図5に示す領域508に表示される一連のラベルの候補と同様に、第1の候補である「普通車」のスコアが最も高いが、第2の候補である「トラック」とのスコアの差が小さい。そのため、領域608に対して、注意を促す記号と、「要注意」というメッセージと、が報知情報として表示されている。また、領域608への表示対象となる一連のラベルの候補として、「普通車」、「小型車」、「バス」、及び「トラック」が選択されている。これらの候補は、いずれも自動車であるため、いずれの候補間においても単語ベクトル距離が比較的近い。そのため、情報処理装置101は、一連のラベルの候補のそれぞれが、候補間における単語ベクトルの距離に応じてより近傍に位置するように、各候補の表示に係る配置を制御している。
以上のように、本実施例に係る情報処理装置101は、一連のラベルの候補それぞれの間の距離を、候補間における単語ベクトルの距離に応じて制御する。これにより、意味的に遠い複数の候補それぞれが相互に離間して配置されるため、ユーザが意図する候補とは異なる候補を選択するような事態が発生する可能性をより低減することが可能となる。
(実施例4)
実施例4に係るUIの一例について説明する。実施例1〜3では、対象データに対してアノテーションとして付加されるラベルの一連の候補が、所定の方向(例えば、横方向)に向けて1次元的に配置される場合の一例について説明した。一方で、本開示の一実施形態に係る情報処理装置101が、一連のラベルの候補を表示に係る配置を制御する方法は、必ずしも所定の方向に向けて1次元的に配置する方法には限定されず、多様な配置方法を適用することが可能である。そこで、本実施例では、図7を参照して、情報処理装置101が、一連のラベルの候補を表示する際に、一連の候補を2次元的に配置する場合の一例について説明する。
画面701は、情報処理装置101が出力部113を介してユーザに提示する画面の一例を示している。画面701における領域702〜708は、図5に示す画面501における領域502〜508にそれぞれ対応している。また、画面701におけるボタン709及び710は、画面501におけるボタン509及び510にそれぞれ対応している。なお、画面701は、領域706、707、及び708に表示される情報の内容が画面501と異なる点を除けば、その他については画面501と実質的に同様である。そのため、本実施例では、領域706、707、及び708への情報の表示に係る制御に着目して説明し、その他については、画面501と実質的に同様のため詳細な説明は省略する。
領域706は、領域703で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。領域706においては、一連のラベルの候補が3行3列のマトリクス状に並べて表示されている。
なお、領域703で示された物体については、図5に示す領域503で示された物体と同様に、学習済みモデルによるラベルの候補の推定結果として、「普通車」である確率(スコア)が最も高いと推定されたものとする。このような前提のもとで、本実施例に係る情報処理装置101は、領域706において、「普通車」の近傍に、当該「普通車」と意味的に近い候補を配置している。なお、複数の候補間における意味的な距離を2次元で表現する場合には、例えば、マンハッタン距離の考え方を利用してもよい。
領域707は、領域704で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域707に表示される一連のラベルの候補は、図5に示す領域507に表示される一連のラベルの候補と同様に、第1の候補である「普通車」のスコアが極めて高く、領域604で示された物体が、第1の候補である「普通車」である可能性が高い。そのため、第1の候補である「普通車」が、デフォルトで選択済みの状態で表示されている。
領域708は、領域705で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域708に表示される一連のラベルの候補については、図5に示す領域508に表示される一連のラベルの候補と同様に、第1の候補である「普通車」のスコアが最も高いが、第2の候補である「トラック」とのスコアの差が小さい。すなわち、学習済みモデルは、領域705で示された物体が、「普通車」である確率と、「トラック」である確率と、が共に高いと推定している。そのため、領域708に対して、注意を促す記号と、「要注意」というメッセージと、が報知情報として表示されている。また、領域708に対して、一連のラベルの候補のうち、「普通車」と「トラック」とがマンハッタン距離で最も遠くなるように、「普通車」が左上の端部に配置され、「トラック」が右下の端部に配置されている。また、「普通車」及び「トラック」以外の他の候補については、「普通車」及び「トラック」それぞれに対して、単語類似度がより高いほどより近傍に位置するように配置が制御されている。
以上のように、本実施例に係る情報処理装置101は、一連のラベルの候補それぞれを所定の方向に1次元的に配置するのみに限らず、例えば、2次元的に配置することも可能である。このような制御が適用されることで、画面内により多くの候補を効率的に表示することが可能となる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、上述したように、本実施形態に係る情報処理装置101は、学習済みモデルによる推定結果を利用して、対象データに対してアノテーションとして付加されるラベルの候補の表示を制御する。このような制御が適用されることで、ユーザが本来意図する候補とは異なる他の候補を誤って選択するような事態が発生する可能性を低減することが可能となる。
また、ユーザが操作ミス等により候補を誤って選択したとしても、例えば、意味的に近い候補が選択されるように各候補の配置が制御されることで、誤ったラベル付けに起因するデータセットの品質低下の影響を低減することが可能となる。
一般的には、機械学習の学習データにおいて、ラベル付けが誤っていた場合には、機械学習モデルの汎化性能が劣化する傾向にある。これに対して、本実施形態に係る情報処理装置101に依れば、ユーザが誤ってラベル付けを行ってしまう事態が発生する可能性を低減することが可能であるため、機械学習モデルの汎化性能の低下させる可能性を低減する効果を期待することが可能である。
また、図1を参照して説明した情報処理装置101の機能構成はあくまで一例であり、当該情報処理装置101の各機能を実現することが可能であれば、そのための構成は特に限定はされない。
例えば、複数の装置が協働することで、情報処理装置101の各機能が実現されてもよい。この場合には、情報処理装置101の各機能のうちの一部の機能と他の機能とが、互いに異なる装置により実現されてもよい。具体的な一例として、対象データに対してアノテーションとして付加されるラベルの候補の推定に係る機能と、一連のラベルの候補の表示の制御に係る機能と、が互いに異なる装置により実現されてもよい。また、情報処理装置101の各機能のうち少なくとも一部の機能に関する処理の負荷が、複数の装置に分散されてもよい。
また、上記複数の装置が互いに情報やデータを送受信することが可能であれば、当該複数の装置を相互に接続するネットワークの種別は特に限定されず、各装置が設置される位置についても特に限定されない。
また、本実施形態に係る処理をコンピュータで実現するために、当該コンピュータにインストールされるプログラムコード自体も、本発明の実施形態の一つに相当する。また、コンピュータが読みだしたプログラムに含まれる指示に基づき、コンピュータで稼働しているOS(Operating System)等が、実際の処理の一部又は全部を行い、その処理によっても上述した実施形態の機能が実現されてもよい。
また、上述した実施形態や各実施例が適宜組み合わされた形態も、本発明の実施形態に含まれる。
また、上述した例では、第1の候補及び第2の候補として、スコアが第1位及び第2位の候補を適用する場合に着目して説明したが、必ずしも本実施形態に係る情報処理装置101の処理を限定するものではない。すなわち、第1の候補及び第2の候補は、ユーザへの提示対象となる候補であり、互いにスコアの異なる候補であれば、必ずしも第1位及び第2位の候補には限定されない。
また、上述した例では、対象データに対してアノテーションとして付加されるラベルの一連の候補と、当該一連の候補それぞれの確からしさを示すスコアと、の取得に機械学習モデルを利用する場合に着目して説明した。一方で、ラベルの一連の候補と、当該ラベルの一連の候補それぞれの確からしさを示すスコアと、を取得することが可能であれば、その方法は特に限定されない。具体的な一例として、対象データが画像の場合には、当該画像に対して画像解析を施すことで特徴量を抽出し、当該特徴量の抽出結果に基づき、画像中に撮像された被写体に付加されるラベルの候補と、当該候補のスコアと、が取得されてもよい。また、対象データが文書の場合には、当該文書に対して構文解析や意味解析等の自然言語処理を施すことで、当該文書に含まれる情報(例えば、単語や文節等)に付加されるラベルの候補と、当該候補のスコアと、が取得されてもよい。
101 情報処理装置
104 ラベル推定部
105 ラベル配置制御部
106 出力制御部

Claims (11)

  1. アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第1の候補及び第2の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得手段と、
    前記第1の候補及び前記第2の候補それぞれの前記スコアに応じて、当該第1の候補に対応付けられた表示位置に関する第1の表示情報と、当該第2の候補に対応付けられた表示位置に関する第2の表示情報と、の出力部を介した表示に係る処理を制御する制御手段と、
    を備える、情報処理装置。
  2. アノテーションとして前記ラベルが付加された第1のデータを教師データとして事前に構築された学習済みモデルに基づき、アノテーションの対象となる第2のデータに対する当該アノテーションとして付加される前記ラベルの前記第1の候補及び前記第2の候補それぞれについて前記スコアの推定する推定手段を備え、
    前記取得手段は、前記第1の候補及び前記第2の候補それぞれについて前記推定手段により推定された前記スコアを取得する、
    請求項1に記載の情報処理装置。
  3. 前記制御手段は、前記第1の候補と前記第2の候補との間の前記スコアの差分に応じて、前記第1の表示情報と前記第2の表示情報との間の距離を制御する、請求項1または2に記載の情報処理装置。
  4. 前記制御手段は、前記差分が第1の閾値以下の場合に、前記第1の表示情報と前記第2の表示情報とが離間して表示されるように制御する、請求項3に記載の情報処理装置。
  5. 前記制御手段は、前記差分が前記第1の閾値よりも大きい第2の閾値を超える場合に、前記第1の表示情報及び前記第2の表示情報のうち、前記スコアがより高い候補に対応付けられた表示情報が選択された状態で表示されるように制御する、請求項4に記載の情報処理装置。
  6. 前記制御手段は、前記差分が前記第1の閾値以下の場合に、所定の報知情報が報知されるように制御する、請求項4または5に記載の情報処理装置。
  7. 前記制御手段は、前記差分が前記第1の閾値を超える場合に、前記第1の候補と他の候補との単語としての類似度に応じて、前記第1の表示情報と前記他の候補の表示情報との間の距離を制御する、請求項4〜6のいずれか1項に記載の情報処理装置。
  8. 前記制御手段は、前記差分が前記第1の閾値を超える場合に、前記第1の表示情報及び前記第2の表示情報のうち少なくともいずれかの表示情報の近傍に、当該表示情報に対応付けられた候補に類似する第3の候補に対応付けられた第3の表示情報が表示されるように制御する、請求項4〜7のいずれか1項に記載の情報処理装置。
  9. 前記ラベルは、少なくとも文字情報を含み、
    前記取得手段は、前記第1の候補及び前記第2の候補のそれぞれと、前記第3の候補と、の間の言語的類似度の算出結果を取得し、
    前記制御手段は、前記第1の表示情報及び前記第2の表示情報のうち前記第3の候補と前記言語的類似度がより高い候補に対応する表示情報の近傍に、前記第3の表示情報が表示されるように制御する、
    請求項8に記載の情報処理装置。
  10. 情報処理装置が実行する情報処理方法であって、
    アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第1の候補及び第2の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得ステップと、
    前記第1の候補及び前記第2の候補それぞれの前記スコアに応じて、当該第1の候補に対応付けられた表示位置に関する第1の表示情報と、当該第2の候補に対応付けられた表示位置に関する第2の表示情報と、の出力部を介した表示に係る処理を制御する制御ステップと、
    を含む、情報処理方法。
  11. コンピュータを、請求項1〜9のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2019230276A 2019-12-20 2019-12-20 情報処理装置、情報処理方法、及びプログラム Active JP7374756B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019230276A JP7374756B2 (ja) 2019-12-20 2019-12-20 情報処理装置、情報処理方法、及びプログラム
US17/124,106 US20210192393A1 (en) 2019-12-20 2020-12-16 Information processing apparatus, information processing method, and storage medium
KR1020200176067A KR20210080224A (ko) 2019-12-20 2020-12-16 정보 처리 장치 및 정보 처리 방법
CN202011508555.9A CN113158631A (zh) 2019-12-20 2020-12-18 信息处理装置和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019230276A JP7374756B2 (ja) 2019-12-20 2019-12-20 情報処理装置、情報処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2021099582A true JP2021099582A (ja) 2021-07-01
JP2021099582A5 JP2021099582A5 (ja) 2022-12-21
JP7374756B2 JP7374756B2 (ja) 2023-11-07

Family

ID=76438918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019230276A Active JP7374756B2 (ja) 2019-12-20 2019-12-20 情報処理装置、情報処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US20210192393A1 (ja)
JP (1) JP7374756B2 (ja)
KR (1) KR20210080224A (ja)
CN (1) CN113158631A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062828A1 (ja) * 2021-10-15 2023-04-20 株式会社Pfu 学習装置
WO2023175948A1 (ja) * 2022-03-18 2023-09-21 日本電気株式会社 学習装置、提示装置、学習方法及び記憶媒体
KR102591048B1 (ko) * 2022-08-26 2023-10-19 (주)메디아이플러스 어노테이션 생성 지원 장치 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014147063A (ja) * 2013-01-21 2014-08-14 Keypoint Technologies (Uk) Ltd テキスト入力方法および装置
JP2017134694A (ja) * 2016-01-28 2017-08-03 富士通株式会社 属性付与制御プログラム、情報処理装置および属性付与制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014147063A (ja) * 2013-01-21 2014-08-14 Keypoint Technologies (Uk) Ltd テキスト入力方法および装置
JP2017134694A (ja) * 2016-01-28 2017-08-03 富士通株式会社 属性付与制御プログラム、情報処理装置および属性付与制御方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062828A1 (ja) * 2021-10-15 2023-04-20 株式会社Pfu 学習装置
WO2023175948A1 (ja) * 2022-03-18 2023-09-21 日本電気株式会社 学習装置、提示装置、学習方法及び記憶媒体
KR102591048B1 (ko) * 2022-08-26 2023-10-19 (주)메디아이플러스 어노테이션 생성 지원 장치 및 방법
WO2024043744A1 (ko) * 2022-08-26 2024-02-29 (주)메디아이플러스 어노테이션 생성 지원 장치 및 방법

Also Published As

Publication number Publication date
CN113158631A (zh) 2021-07-23
US20210192393A1 (en) 2021-06-24
JP7374756B2 (ja) 2023-11-07
KR20210080224A (ko) 2021-06-30

Similar Documents

Publication Publication Date Title
JP7374756B2 (ja) 情報処理装置、情報処理方法、及びプログラム
AU2019360080B2 (en) Image captioning with weakly-supervised attention penalty
US10055402B2 (en) Generating a semantic network based on semantic connections between subject-verb-object units
US9639601B2 (en) Question answering system adapted to style of user requests
US9824085B2 (en) Personal language model for input method editor
US10656957B2 (en) Input method editor providing language assistance
US20170154068A1 (en) Method, device and terminal for data processing
US20220301547A1 (en) Method for processing audio signal, method for training model, device and medium
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
US9195706B1 (en) Processing of document metadata for use as query suggestions
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
US11532311B2 (en) System, method, program, and recording medium for improving accuracy of call data analysis
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
JP6695835B2 (ja) 機械学習を利用したfaq登録支援方法、及びコンピュータシステム
Baldwin et al. Autonomous self-assessment of autocorrections: exploring text message dialogues
US20210374147A1 (en) Information processing apparatus, information processing method, and storage medium
KR101582155B1 (ko) 문자 수정이 용이한 문자 입력 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템
US9984688B2 (en) Dynamically adjusting a voice recognition system
EP4099225A1 (en) Method for training a classifier and system for classifying blocks
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
WO2020229348A1 (en) Correcting an examination report
US20180307669A1 (en) Information processing apparatus
KR20200010669A (ko) 빅데이터 기반의 웹접근성 개선 장치 및 방법
JP5950369B2 (ja) 入力支援システム、入力支援方法および入力支援プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231025

R151 Written notification of patent or utility model registration

Ref document number: 7374756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151