JP2018195062A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2018195062A
JP2018195062A JP2017098163A JP2017098163A JP2018195062A JP 2018195062 A JP2018195062 A JP 2018195062A JP 2017098163 A JP2017098163 A JP 2017098163A JP 2017098163 A JP2017098163 A JP 2017098163A JP 2018195062 A JP2018195062 A JP 2018195062A
Authority
JP
Japan
Prior art keywords
data
unit
setting
category
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017098163A
Other languages
English (en)
Other versions
JP6914724B2 (ja
Inventor
広一 竹内
Koichi Takeuchi
広一 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017098163A priority Critical patent/JP6914724B2/ja
Priority to US15/977,971 priority patent/US20180336435A1/en
Priority to DE102018003903.0A priority patent/DE102018003903A1/de
Publication of JP2018195062A publication Critical patent/JP2018195062A/ja
Application granted granted Critical
Publication of JP6914724B2 publication Critical patent/JP6914724B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数のデータに含まれるデータそれぞれのカテゴリの初期値が不明な場合であっても、その複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定することを目的とする。【解決手段】複数のデータに含まれるデータについて、カテゴリの指定を受付け、カテゴリの指定が受付けられたデータに基づいて、複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定し、決定された乖離度に基づいて、複数のデータから、第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する。【選択図】図5

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、Deep Learning等に代表される、機械学習が注目されている。機械学習とは、人間が自然に行うような学習の機能を計算機に行わせる技術・手法のことである。例えば、監視カメラの画像に不審者が含まれているか否かを計算機で自動検出することを考える。これを実現するためには、検出対象となる不審者の定義を計算機に理解させる必要がある。検出対象の定義は、ルールやパターン等に基づく。検出対象の定義を、人が予め計算機に指定する方法が存在する。しかしながら、複雑であったり、未知であったりする検出対象の定義を、人が指定することは困難である。一方で、機械学習を用いる場合、教師データをもとに、計算機が自動的に検出対象の定義を学習する。そのため、複雑であったり未知であったりする検出対象の定義を獲得することも可能である。しかしながら、機械学習の結果は、学習に用いる教師データの品質に左右されるため、より良い教師データを作成することが重要である。
教師データに含まれるデータの分類が正しく行われないと、例えば、検出対象でないカテゴリのデータを検出対象のデータとして、学習が行われると、検出対象の定義について、不適切な学習がなされてしまう場合がある。そのため、教師データに含まれるデータを正しく分類することが重要である。しかしながら、機械学習のための教師データは大規模であることが多く、大規模な教師データの確認は、非常に手間がかかる。
教師データの分類を効率化する技術には、以下のものがある。
特許文献1には、類似するデータをグループ化し、代表例を確認しながらグループ単位で、まとめて教師データを確認・修正する技術が開示されている。より具体的には、画像等のデータから特徴量を抽出し、特徴量が近似するデータをグループ化し、グループの代表データを表示する。グループの代表データにラベルデータを設定すると、同グループに所属する他のデータにもラベルデータが伝播される。これにより、ラベルデータの設定をグループ単位でまとめて行うことができるため、すべてのデータを確認し、ラベルデータを設定する場合と比べて作業量が軽減される。
特許文献2には、以下の技術が開示されている。即ち、予め初期のラベルデータが設定された教師データを用いて学習された分類器の結果と、初期ラベルとの差異に基づいてノイズデータである可能性の高いデータ(以下では、ノイズ疑いデータ)を抽出し、ラベルデータを修正する技術が開示されている。この技術では、分類器の誤りを利用することで、ノイズ疑いデータに絞ってラベルデータを設定することができるため、作業の効率化が期待できる。
特開2014−137284号公報 特開2015−129988号公報
それぞれの属するカテゴリが未定である複数のデータについて、少数のデータが予め設定されたカテゴリ(例えば、「ノイズ」等のカテゴリ)に属し、残りの大部分のデータがある他のカテゴリ(例えば、「正常」等のカテゴリ)に属すると仮定できる場合がある。このような場合、複数のデータについて、予め設定されたカテゴリのデータの候補となるデータを特定し、特定したデータについてのみ分類作業を行えば、残りのデータについては、全て、その他のカテゴリのデータであると仮定できる。そのため、分類作業の効率化が期待できる。そこで、複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定したいという要望があった。
しかし、特許文献1、2では、複数のデータに含まれるデータそれぞれのカテゴリの初期値が不明な場合、その複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定できなかった。
本発明の情報処理装置は、複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付手段と、前記受付手段によりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定する第1の決定手段と、前記第1の決定手段により決定された前記乖離度に基づいて、前記複数のデータから、前記第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する特定手段と、を有する。
本発明によれば、複数のデータに含まれるデータそれぞれのカテゴリの初期値が不明な場合であっても、その複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定することができる。
情報処理システムのシステム構成の一例を示す図である。 情報処理サーバ等のハードウェア構成の一例を示す図である。 情報処理サーバの機能構成等の一例を示す図である。 設定画面の一例を示す図である。 情報処理サーバの処理の一例を示すフローチャートである。 ポップアップ画面の一例を示す図である。 設定画面の一例を示す図である。 情報処理サーバの処理の一例を示すフローチャートである。 情報処理サーバの機能構成等の一例を示す図である。 設定画面の一例を示す図である。 情報処理サーバの処理の一例を示すフローチャートである。
以下に、本発明の好ましい実施の形態を、図面に基づいて詳細に説明する。
<実施形態1>
図1は、本実施形態の情報処理システムのシステム構成の一例を示す図である。情報処理システムは、情報処理サーバ10、端末装置100、記憶サーバ200を含む。情報処理サーバ10、端末装置100、記憶サーバ200は、固定電話回線網、携帯電話回線網、インターネット、LAN等のネットワーク300を介して、相互に通信可能に接続されている。
情報処理サーバ10は、記憶サーバ200から取得したデータに対して、「正常」、「ノイズ」等のカテゴリのうち、取得したデータが属するカテゴリを示すラベルデータを設定し、教師データを作成することを支援する装置である。ラベルデータとは、対応するデータがどのカテゴリに属するかを示す情報である。情報処理システムは、記憶サーバ200を含まないこととしてもよい。その場合、情報処理サーバ10は、記憶サーバ200が記憶する情報を記憶することとなる。
端末装置100は、データの分類作業を行う作業者が利用する情報処理装置である。端末装置100は、例えば、PC(Personal Computer)、タブレットPC、スマートフォン、フューチャーフォン等である。
記憶サーバ200は、教師データの生成の基礎となるデータ(以下では、基礎データとする)を記憶する情報処理装置である。記憶サーバ200は、PC、スマートフォン、カメラ装置、ストレージデバイス等である。記憶サーバ200は、記憶するデータを、情報処理サーバ10に送信する。
本実施形態では、情報処理システムは、人物の行動を表す動画像データを基礎データとして、行動の正常さに基づいて教師データを生成する。
本実施形態の情報処理システムは、基礎データから、「ノイズ」カテゴリに属するデータの候補となるデータを、作業者に提示する。作業者は、提示されたデータに対してラベルデータの設定作業を行う。そして、情報処理システムは、「ノイズ」カテゴリに属する疑いデータがなくなった時点で、残ったデータに「正常」カテゴリに属することを示すラベルデータを設定する。これにより、「ノイズ」カテゴリのデータが「正常」カテゴリのデータよりも少数である等の場合、情報処理システムは、教師データ作成に係る作業を効率化できる。
図2(a)は、情報処理サーバ10のハードウェア構成の一例を示す図である。情報処理サーバ10は、CPU201、主記憶装置202、補助記憶装置203、ネットワークI/F204を含む。各要素は、システムバス205を介して、相互に通信可能に接続されている。
CPU201は、情報処理サーバ10の処理を制御する中央演算装置である。主記憶装置202は、CPU201のワークエリア、情報の一時的な記憶場所等として機能するRandom Access Memory(RAM)等の記憶装置である。補助記憶装置203は、各種プログラム、各種設定情報、教師データ、教師データの候補となるデータ、データのカテゴリを示すラベル情報等を記憶する記憶装置である。補助記憶装置203は、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の記憶媒体から構成される。ネットワークI/F204は、端末装置100、記憶サーバ200等の外部の装置との間でのネットワーク300を介した通信に利用されるインターフェースである。
CPU201が、補助記憶装置203に記憶されたプログラムに基づき処理を実行することで、図3、9で後述する情報処理サーバ10の機能及び図5、8、11で後述するフローチャートの処理等が実現される。
本実施形態では、記憶サーバ200のハードウェア構成は、図2(a)に示される情報処理サーバ10のハードウェア構成と同様であるとする。記憶サーバ200の補助記憶装置には、教師データの候補となる候補データが記憶される。記憶サーバ200のCPUが、記憶サーバ200の補助記憶装置に記憶されたプログラムに基づき処理を実行することで、記憶サーバ200の機能及び記憶サーバ200の処理等が実現される。
図2(b)は、端末装置100のハードウェア構成の一例を示す図である。端末装置100は、CPU211、主記憶装置212、補助記憶装置213、ネットワークI/F214、表示部215、入力部216を含む。各要素は、システムバス217を介して、相互に通信可能に接続されている。
CPU211は、端末装置100の処理を制御する中央演算装置である。主記憶装置212は、CPU211のワークエリア、情報の一時的な記憶場所等として機能するRAM等の記憶装置である。補助記憶装置213は、各種プログラム、各種設定情報、教師データ、基礎データ、ラベルデータ等を記憶する、ROM、HDD、SSD等の記憶媒体から構成される記憶装置である。ネットワークI/F214は、情報処理サーバ10、記憶サーバ200等の外部の装置との間でのネットワーク300を介した通信に利用されるインターフェースである。
表示部215は、情報処理サーバ10から送信された情報等を表示する、液晶パネルや有機ELパネル等の表示装置で構成される表示部である。表示部215には、情報処理サーバ10に記憶された動画像データや、画像データ、ラベルデータ、ラベルデータの設定に利用されるボタン、候補データの分類作業の進捗状況等が表示される。
入力部216は、表示部215と重畳して設置されたタッチセンサ、ハードボタン等の入力装置で構成される入力部である。本実施形態では、入力部216は、表示部215と重畳して設置されたタッチセンサを含む。CPU211は、入力部216を介して、作業者の指やタッチペンによる操作を検出し、検出した操作を示す操作情報を情報処理サーバ10に送信する。入力部216は、コントローラ、キーボード、マウス等の入力装置を含んでもよい。その場合、CPU211は、入力部216を介して、画像表示パネルに表示された画像に対する作業者の操作を示す操作情報を取得してもよい。この操作情報には、例えば、動画像データの再生指示操作、「正常」、「ノイズ」等のラベルデータの選択操作等がある。
CPU211が、補助記憶装置213に記憶されたプログラムに基づき処理を実行することで、端末装置100の機能及び端末装置100の処理等が実現される。
図3は、情報処理サーバ10の機能構成等の一例を示す図である。情報処理サーバ10は、取得部11、範囲抽出部12、特徴量抽出部13、特定部14、編集部15、設定部16、構成部17を含む。また、情報処理サーバ10の補助記憶装置203には、基礎データベースM1、ラベルデータベースM2、教師データベースM3が実装される。
基礎データベースM1は、取得部11によって取得された基礎データ、範囲抽出部12によって抽出された範囲を示す情報、特徴量抽出部13によって抽出された特徴量の情報等を記憶するデータベースである。
ラベルデータベースM2は、ラベルデータを記憶するデータベースである。ラベルデータは、対応するデータが属するカテゴリを示すデータである。ラベルデータは、例えば、「正常」と「ノイズ」とのカテゴリの何れかを示す情報である。しかし、ラベルデータは、より詳細に分類されたカテゴリを示す情報であってもよい。例えば、ラベルデータは、「歩行」、「直立」、「異常行動」、「人体」、「非人体」等のカテゴリの何れに属するかを示す情報であってもよい。ラベルデータは、例えば、対応するデータが属する1つのカテゴリを示す情報(例えば、「正常」カテゴリに属することを示す情報)としてもよい。また、ラベルデータは、例えば、対応するデータが属する複数のカテゴリを示す情報(例えば、「人体」及び「歩行」のカテゴリに属することを示す情報)としてもよい。
教師データベースM3は、教師データを記憶するデータベースである。教師データは、機械学習に用いられるデータであり、基礎データから抽出されたデータ(例えば、基礎データの一部が抽出されたデータ、基礎データから抽出された特徴量のデータ、基礎データそのもの等)と、ラベルデータと、を含む。教師データは、必要とされる教師データの形式に対応した構成をとることとしてもよい。教師データに含まれる基礎データから抽出されたデータは、例えば、基礎データの一部を抽出したデータ(例えば、画像の一部を抽出した画像)でもよいし、基礎データ、又は、基礎データの一部から抽出された特徴量等でもよい。
取得部11は、記憶サーバ200から基礎データ(本実施形態では、動画像データ)を取得し、取得した基礎データを基礎データベースM1に記憶する。また、取得部11は、取得した基礎データを、範囲抽出部12、特徴量抽出部13に送信する。取得部11は、1つずつ逐次的に、基礎データを取得し、1つずつ逐次的に、基礎データベースM1に記憶し、範囲抽出部12、特徴量抽出部13に送信することとしてもよい。また、取得部11は、全ての基礎データを取得し、全ての基礎データを、基礎データベースM1に記憶し、範囲抽出部12、特徴量抽出部13に送信することとしてもよい。また、取得部11は、基礎データを、記憶サーバ200から直接取得するのではなく、記憶サーバ200から端末装置100を介して取得してもよい。
範囲抽出部12は、取得部11によって取得された基礎データから、人体の範囲を抽出する。人体を含む範囲として抽出された範囲を、人体範囲とする。人体範囲は、例えば、動画像中で各人物が存在する空間的・時間的な範囲の情報として表される。即ち、動画像から抽出された人体範囲は、人物ごとの、どの時間に、画像中のどの座標に存在したかを示す情報となる。また、静止画像から抽出された人体範囲は、各人物ごとの、画像中のどの座標に存在したかを示す情報となる。基礎データである動画像中で人体範囲が示す領域のそれぞれを、人体範囲領域とする。本実施形態では、人体範囲領域が、ラベルデータの設定対象となる。即ち、教師データは、人体範囲領域の情報と、対応するラベルデータと、を含むこととなる。
範囲抽出部12は、人体範囲を、各人物について抽出し、人体が存在する画像ごとに、座標、画像上の大きさ、動画像データ上で出現・消失する時刻、フレーム番号等の情報が設定された情報とする。例えば、ある動画像中に二人の人物が出現した場合、範囲抽出部12は、人体範囲を二つ抽出し、それぞれの人物が動画像中に現れてからいなくなるまでの間の期間と座標との情報を、人体範囲の情報に設定する。
ただし、範囲抽出部12は、例えば、動画像である基礎データから、動画像の全フレームに対して、人体を検出してもよいし、数フレーム間隔で抽出したり、時間的に補間したりしてもよい。また、範囲抽出部12は、動画像中で連続して出現する同一人物について、連続する複数のフレームから、時間的に分割された複数の人体を抽出してもよい。例えば、ある人物が「歩行」→「転倒」→「歩行」と行動を遷移する場合、範囲抽出部12は、ビデオセグメンテーションや行動認識の手法等を用いて、各行動が発生している時間の範囲でそれぞれ独立に人体範囲を抽出してもよい。また、範囲抽出部12は、一定フレーム間隔で人体範囲を分割してもよい。範囲抽出部12は、人体範囲同士が空間的・時間的に重複するように人体範囲を抽出することができる。
範囲抽出部12は、例えば、人体形状に基づく人体検出手法を用いて、人体範囲を抽出してもよいし、背景差分に基づく動体検出を用いて、人体範囲を抽出してもよい。また、範囲抽出部12は、予め学習された人体範囲を抽出するためのConvolutional Neural Networks (CNN)を用いて、人体範囲を抽出してもよい。また、範囲抽出部12は、画像全体を、人体範囲として抽出してもよい。範囲抽出部12は、抽出した人体範囲を、基礎データベースM1に、取得部11により取得された基礎データと対応づけて記憶する。また、範囲抽出部12は、抽出した人体範囲を、特徴量抽出部13に送信する。
特徴量抽出部13は、取得部11から受信した基礎データ、及び、範囲抽出部12から受信したその基礎データから抽出された人体範囲に基づいて、基礎データである動画像中の人体範囲領域それぞれに対応した特徴量を抽出する。特徴量抽出部13は、単一の種類の特徴量を抽出してもよいし、複数の種類の特徴量を抽出してもよいし、複数の種類の特徴量の組み合わせを1つの特徴量として抽出してもよい。特徴量抽出部13は、例えば、HOG特徴量、SIFT特徴量、顔向き、移動速度等の特徴量を抽出する。また、特徴量抽出部13は、CNNの中間層、又は最終層を抽出し、特徴量としてもよい。また、特徴量抽出部13は、画像全体の明るさや天候情報等、人体範囲よりも広域な情報や動画像データ外のメタ情報を、特徴量として抽出してもよい。また、特徴量抽出部13は、特徴量を、人体範囲の空間的・時間的な複数の部分について独立に抽出してもよい。
特徴量抽出部13は、抽出した特徴量を、基礎データベースM1に、取得部11により取得された基礎データと対応づけて記憶する。基礎データベースM1に記憶された特徴量は、画像同士の比較や教師データの一部等として利用される。
特定部14は、基礎データベースM1から、基礎データ、人体範囲、特徴量を取得する。また、特定部14は、教師データベースM3に記憶された暫定教師データを取得する。暫定教師データとは、最終的な教師データではなく、暫定的に教師データとして決定されたデータであり、教師データ作成処理の途中で生成され教師データベースM3に記憶される。暫定教師データは、教師データ同様に、基礎データから抽出されたデータ(本実施形態では、基礎データである動画像中の領域)と、対応するラベルデータと、を含む。暫定教師データに含まれる基礎データである動画像中の領域を、暫定教師領域とする。そして、特定部14は、取得した基礎データ、人体範囲、特徴量、暫定教師データに基づいて、「正常」カテゴリと異なるカテゴリ(例えば、「ノイズ」カテゴリ)に属する領域の候補となる領域を示す人体範囲を特定する。そして、特定部14は、特定した人体範囲が示す領域を、次回の作業者によるラベルデータの設定作業の対象とする。ラベルデータの設定作業とは、ラベルデータを設定するための作業者による端末装置100の入力部216を介した作業である。ラベルデータの設定作業は、複数のデータを分類する分類作業の一例である。また、人体範囲領域にラベルデータを設定する処理は、人体範囲領域を分類する分類処理の一例である。本実施形態では、範囲抽出部12により抽出された人体範囲が示す人体範囲領域が、分類対象の複数のデータとなる。
特定部14は、特定した人体範囲を、編集部15に送信する。範囲抽出部12により抽出された人体範囲は、画像全体を示す範囲として抽出される場合もあり、画像の一部として抽出される場合もある。人体範囲は、動画像を一定の時間間隔、又は、動画像の変化があったかどうかに基づいて時間的に分割したものであってもよい。
特定部14は、教師データベースM3に教師データが存在する場合と、存在しない場合と、で挙動が異なる。本実施形態では、設定部16は、範囲抽出部12により抽出された人体範囲ごとに、各人体範囲に対応する基礎データ中の人物の領域に対して、ラベルデータを設定することとする。即ち、教師データは、人体範囲が示す領域の情報と、対応するラベルデータと、を含むこととなる。また、基礎データベースM1に記憶されている人体範囲が示す人体範囲領域のうち、作業者による端末装置100を介したラベルデータの指定が行われていないものを未処理データとする。
暫定教師データが存在しない場合、特定部14は、未処理データの中から、ランダムにユーザによる次回の設定作業の対象を特定する。暫定教師データが存在する場合、特定部14は、未処理データについて、「正常」カテゴリとどの程度乖離しているかを示す乖離度を決定し、決定した乖離度に基づいて、ユーザによる次回の設定作業の対象となる領域を示す人体範囲を特定する。本実施形態では、特定部14は、未処理データと暫定教師データ領域との乖離の度合いに基づいて、「正常」カテゴリとどの程度乖離しているかを示す乖離度として決定する。乖離度は、未処理データが「正常」カテゴリとどの程度乖離しているかを示す指標であるが、逆に見れば、未処理データが「正常」カテゴリとどの程度類似しているかを示す指標でもある。例えば、特定部14が、値が高い程、乖離していることを示す指標を、乖離度として決定したとする。その場合、乖離度は、その値が高い程、未処理データが「正常」カテゴリと乖離していることを示し、その値が低い程、未処理データが「正常」カテゴリ類似していることを示す指標となる。逆に、例えば、特定部14が、値が低い程、乖離していることを示す指標を、乖離度として決定したとする。その場合、乖離度は、その値が高い程、未処理データが「正常」カテゴリと類似していることを示し、その値が低い程、未処理データが「正常」カテゴリと乖離していることを示す指標となる。
特定部14は、基礎データである動画像中に複数の人体範囲が含まれる場合、各人体範囲について乖離度を決定する。また、特定部14は、各人体範囲の乖離度に基づいて、動画像中のフレームごとに、フレーム全体の乖離度を生成してもよい。例えば、特定部14は、同じフレーム内の各人体範囲から生成した乖離度の平均値や最大値、閾値以上の乖離度である人体範囲の数等を、フレーム全体の乖離度としてもよい。特定部14は、決定した乖離度を、設定部16に送信する。
特定部14による、暫定教師データ領域と未処理データとの乖離の度合いを示す乖離度を決定する方法について説明する。特定部14は、未処理データに対応する人体範囲ごとに、乖離度を求める。
乖離度を決定する方法の1つとして、暫定教師データ領域の特徴量と、乖離度を生成する対象である未処理データの特徴量とを比較し、特徴量間の距離の最大値を乖離度とする方法がある。特定部14は、例えば、以下の式1を用いて、暫定教師データ領域と未処理データとの乖離の度合いを、乖離度として決定する。また、距離の取得方法は、ユークリッド距離やハミング距離、マハラノビス距離等を用いた方法がある。
Figure 2018195062
式1で、d(x_i |y_1、・・・、y_N )は、未処理データiと暫定教師データ領域との乖離の度合いを示す。本実施形態では、特定部14は、この乖離の度合いを、乖離度として決定する。また、x_iは、未処理データiの特徴量を示す。また、y_jは、暫定教師データに含まれる基礎データから抽出されたデータ(本実施形態では、領域)jの特徴量を示す。Nは、暫定教師データに含まれる基礎データから抽出されたデータの数を示す。f_distance (x_i、y_j )は、特徴量x_iとy_jとの距離を示す。特定部14は、人体範囲領域から複数の特徴量が抽出されている場合、特定の特徴量を選択してもよいし、すべての特徴量を用いて乖離度を決定してもよい。
乖離度を決定する他の方法としては、暫定教師データから学習された分類器を用いる方法がある。この方法は、未処理データに対して分類器をかけ、「正常」と「ノイズ」とへの分類スコアに基づいて乖離度を決定する方法である。特定部14は、例えば、以下の式2を用いて、この方法を実現する。
Figure 2018195062
式2で、d(x_i |M)は、未処理データiと暫定教師データ領域との乖離度を示す。また、Mは、暫定教師データから学習された分類器を定義する辞書データを示す。また、s_noise (x_i |M)とs_normal (x_i |M)とは、それぞれ辞書データMが与えられたもとでの、ノイズクラスと正常クラスとの分類スコアを示す。また、αとβとは、重みを調整する係数を示し、α、β∈(0、1)である。この方法では、未処理データがノイズである確率が高くなり、正常である確率が低くなる程、未処理データと暫定教師データとの乖離度が高くなる。分類器は、例えば、Support Vector Machine (SVM)やCNN等である。「正常」と「ノイズ」との2クラス分類ではなく、任意の多クラスへの分類を行う場合、例えば、特定部14は、正常に対応するクラスとノイズに対応するクラスとへの分類スコアをそれぞれ平均したり代表値を抽出したりすることで同様に乖離度を求めてもよい。教師データに「ノイズ」カテゴリのデータを含めない場合、正常クラスへのOne−Class識別器を用いることとしてもよい。この場合、例えば、One−Class SVMやCNN等の任意の手法を用いてよい。
特定部14は、次回のラベルデータの設定作業の対象として特定されなかった人体範囲領域について、特定した人体範囲領域との類似度を生成してもよい。領域同士の類似度を決定する方法は、1つの方法に限定されない。例えば、特定部14は、領域同士の乖離度を求めた後で、乖離度の逆数を類似度としてもよい。特定部14は、特定しなかった人体範囲領域について、決定した特定した人体範囲領域との類似度を、設定部16に送信することしてもよい。
編集部15は、特定部14により特定された人体範囲領域、及び、特定部14により決定された乖離度に基づいて、基礎データを編集し、編集後の基礎データ、及び、対応する乖離度を設定部16に出力する。より具体的には、編集部15は、基礎データを、ラベルデータの設定対象となる領域の視認性を向上させるように、編集する。
ラベルデータ設定作業のために端末装置100に表示される動画像は、画像全体でなくともよい。ラベルデータは、人体範囲領域に設定されるため、人体範囲領域が存在しない画像(例えば、動画像における人が写っていないフレーム等)は、表示の必要ない場合がある。編集部15は、ラベルデータ設定作業を行う作業者が画像を確認する負荷を軽減するため、人体範囲領域が映っている画像のみを抽出する。ただし、動画像データの編集が求められていない、又は、人体範囲領域が存在しない部分の動画像を残す理由がある場合は、編集部15は、上記の編集処理を行わなくてもよい。また、編集部15は、人体範囲領域が存在する場合でも、教師データからの乖離度が閾値以下の場合には対応する人体範囲領域を含む部分を抽出対象から除いてもよい。これは、人体範囲は、対応する乖離度が低い程、ノイズデータである可能性が低く、確認する必要性が他の人体範囲領域よりも低いためである。
設定部16は、編集部15から入力された編集後の基礎データ、及び、人体範囲領域ごとの乖離度に基づいて、ラベルデータの設定作業に利用される設定画面を、端末装置100に提供する。また、設定部16は、特定部14からラベルデータの設定作業の対象となる領域と類似する人体範囲領域の情報を取得してもよい。設定部16は、ラベルデータ設定作業のためのGUI(設定画面)を端末装置100の表示部215に表示させることで、作業者に提示する。そして、設定部16は、作業者の操作を端末装置100の入力部216を介して認識する。設定部16は、作業者による入力部216を介した操作に基づいて、各人体範囲領域に対応するラベルデータを決定し、決定したラベルデータを、各人体範囲領域と対応付けて、ラベルデータベースM2に記憶する。
本実施形態におけるラベルデータの設定画面の一例を図4に示す。図4の例では、設定画面は、画像表示領域G1、操作オブジェクトG2−1〜G2−5、進捗表示領域G3、作業完了ボタンG4、低乖離度人体枠G5−1、〜G5−5、高乖離度人体枠G6−1、G6−2を含む。設定部16は、CPU211を介して、端末装置100の入力部216を介した操作を検知し、検知した操作に応じて、これらの表示を制御する。また、設定部16が、端末装置100から、CPU211により検知された入力部216を介した操作の情報を、取得して、取得した情報に基づいて、設定画面中のオブジェクトの表示を制御することとしてもよい。設定部16の処理は、表示部215への表示を制御する表示制御の処理の一例である。以下では、「タップ」又は「リック」操作のことを、単に「クリック」とする。
画像表示領域G1は、編集部15により編集された基礎データの画像を表示する領域である。設定部16は、画像の解像度と画像表示領域G1との大きさが同一でない場合、基礎データの画像を、作業のしやすさが考慮された予め設定されたサイズに拡大縮小して、表示する。操作オブジェクトG2−1〜G2−5は、シークバーG2−1、停止ボタンG2−2、巻き戻しボタンG2−3、再生ボタンG2−4、早送りボタンG2−5を含む。操作オブジェクトG2−1〜G2−5は、画像表示領域G1の画像に対しての再生や再生位置・再生速度の変更等の各種操作を行うためのGUIコンポーネントを提供する。
進捗表示領域G3は、ラベルデータ設定作業の進捗を示す進捗情報を表示する。進捗情報は、例えば、ラベルデータの設定処理が未処理のデータの残数や、設定された閾値以下の乖離度である人体範囲領域の割合等によって表現される。進捗表示領域G3に表示された進捗情報により、作業者は、作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよそを見積もることができる。
作業完了ボタンG4は、ラベルデータ設定作業の完了させるためにクリックされるボタンである。設定部16は、作業完了ボタンG4の選択を検知すると、ラベルデータ設定作業が完了したことを検知する。その後、設定部16は、設定画面を介して設定されたラベルデータを、人体範囲と対応付けて、ラベルデータベースM2に記憶する。
低乖離度人体枠G5−1〜G5−5、高乖離度人体枠G6−1、G6−2は、人体範囲領域を示す枠で、画像表示領域G1上に基礎データの画像と重畳して表示される。設定部16は、各人体枠を、動画像である基礎データの現在のフレームと同期して変化させ、各フレームにおける範囲抽出部12により抽出された人体範囲に対応する位置に表示させる。
設定部16は、人体枠を、ノイズデータである可能性が他の人体枠よりも高いことを強調させるため、暫定教師データとの乖離度に応じて、表示態様(例えば、色、形状等)を変化させてもよい。例えば、図4の例では、低乖離度人体枠G5−1〜G5−5は、高乖離度人体枠よりも乖離度の低い人体範囲を示しており、1本の実線で表された枠である。一方で、高乖離度人体枠G6−1、G6−2は、乖離度が低乖離度人体枠よりも高い人体範囲を示しており、二重線で表された枠である。設定部16は、人体枠の表示態様を、乖離度に応じて連続的に変化させてもよい。また、設定部16は、対応するラベルデータに応じて、人体枠の表示態様を変化させてもよい。例えば、設定部16は、人体枠の色を、ラベルデータが設定されていない、又は初期値である場合は黒色として、「正常」ラベルデータが設定された場合は青色として、「ノイズ」ラベルデータが設定された場合は赤色としてもよい。
作業者が設定画面の人体枠をクリックすることで、設定部16は、そのクリックを検知する。設定部16は、検知したクリックの情報に応じて、対応する人体範囲領域に対してラベルデータを設定する。例えば、「正常」カテゴリと「ノイズ」カテゴリとの2種類のラベルデータがある場合、設定部16は、全ての人体範囲をラベルデータなし初期化する。そして、設定部16は、ある人体枠について、クリックを検知した場合、その人体枠が示す人体範囲領域に「正常」カテゴリを示すラベルデータを設定する。また、設定部16は、「正常」カテゴリを示すラベルデータが設定された人体範囲領域に対応する人体枠について、クリックを検知した場合、その人体枠が示す人体範囲領域に「ノイズ」カテゴリを示すラベルデータを設定する。また、設定部16は、「ノイズ」カテゴリを示すラベルデータが設定された人体範囲領域に対応する人体枠について、クリックを検知した場合、その人体枠が示す人体範囲領域に「正常」カテゴリを示すラベルデータを設定する。本実施形態では、設定部16は、人体範囲領域にラベルデータが設定する際に、その人体範囲領域に対応する人体範囲が示す人体範囲領域全てに、一括して、同様のラベルデータを設定する。また、設定部16は、すべての人体範囲領域のラベルデータを、すべて「正常」カテゴリを示すラベルデータで初期化してもよい。
これにより、ノイズデータの人体範囲領域を、正常な人体範囲領域と、視覚により区別することが可能になる。ラベルデータが2種類よりも多い場合の操作方法としては、人体枠をクリックした回数に基づいてラベルデータを切り替える方法や、クリック時にラベルデータの一覧をポップアップし選択する方法がある。また、予めラベルデータを選択しておき、クリック時は選択されたラベルデータを設定する方法等もある。
設定部16が人体枠に対するフリック操作を検知する。すると、設定部16は、検知したフリック操作に基づいて、人体枠に対するラベルデータの設定を行ってもよい。例えば、設定部16は、人体枠の上方向へのフリックを検知した場合は「正常」カテゴリを示すラベルデータを設定し、下方向へのフリックを検知した場合は「ノイズ」カテゴリを示すラベルデータを設定してもよい。このように、設定部16は、フリックの方向に応じてラベルデータを設定してもよい。
設定部16は、作業者による人体枠へのロングタップ又はマウスの長押しを検知すると、対応する人体範囲領域に類似する領域をポップアップ再生することができる。設定部16は、特定部14により特定されなかった人体範囲領域と、特定部14により特定された人体範囲領域と、の類似度を特定部14から取得する。そして、設定部16は、作業対象である人体範囲領域の人体枠へのロングタップ等を検知すると、以下の処理を行う。即ち、設定部16は、特定部14から取得した類似度に基づいて、特定部14により特定されなかった人体範囲領域のうち、ロングタップ等が検知された人体範囲領域に類似する人体範囲領域を特定する。例えば、設定部16は、取得した類似度に設定された閾値を用いた閾値判定を行うことで、ロングタップ等が検知された人体範囲領域に類似する人体範囲領域を特定する。そして、設定部16は、特定した人体範囲領域を含むポップアップ画面を端末装置100に送信する。設定部16は、受信したポップアップ画面を表示部215に表示する。設定部16は、類似する画像を確認可能にすることで、どのラベルデータを設定するか迷うような場合でも、作業者の判断材料を増やすことができる。また、設定部16は、ラベルデータを設定する際は、必要に応じて類似する人体範囲領域についてもまとめて共通するラベルデータを設定してよい。
構成部17は、基礎データベースM1に記憶される基礎データ及び人体範囲と、ラベルデータベースM2に記憶されるラベルデータと、に基づいて、教師データを構成する。構成部17は、例えば、「正常」カテゴリのデータのみが必要な場合、「正常」のラベルデータが設定された人体範囲領域の画像のデータによって教師データを構成する。
また、画像データではなく特徴量が必要な場合、構成部17は、特徴量と対応するラベルデータとを含むように教師データを構成する。人体範囲の画像と座標とが必要な場合、構成部17は、基礎データが示す画像中から抽出された人体範囲が示す画像と、基礎データが示す画像内におけるその人体範囲の座標と、その人体範囲に対応するラベルデータと、を含ませるように教師データを構成する。構成部17は、構成した教師データを、教師データベースM3に記憶する。
すべての未処理データの乖離度が閾値以下となった場合、ラベルデータが設定されていない未処理データは、「正常」カテゴリに属すると仮定できる。そこで、乖離度の最大値が閾値以下となった場合、設定部16は、ラベルデータ設定作業は完了したものとみなし、すべての未処理データに対して「正常」ラベルデータを設定する。なお、設定部16は、「正常」と「ノイズ」と以外のラベルデータが存在する場合は、各ラベルデータに対応する暫定教師データを用いて、最も分類スコアが高くなる、又は、特徴量同士の距離が小さくなるラベルデータを設定する。情報処理サーバ10は、未処理データがなくなった段階で、教師データベースM3に記憶された教師データを最終的な教師データとして、教師データ作成作業を終了する。
図5は、本実施形態の情報処理サーバ10の処理の一例を示すフローチャートである。
S101において、取得部11は、記憶サーバ200から、動画像である基礎データを取得する。
S102において、範囲抽出部12は、S101で取得された基礎データの各フレームから、人体範囲を抽出する。
S103において、設定部16は、S102で抽出された人体範囲が示す人体範囲領域の全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部17は、S102で抽出された人体範囲が示す人体範囲領域と、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースM3に記憶する。初期化された暫定教師データ内の暫定教師データ領域のそれぞれは、作業者によるラベルデータの指定を受けていないので、S103の段階では、すべて未処理データである。
S104において、特徴量抽出部13は、S102で抽出された人体範囲それぞれが示す人体範囲領域から設定された特徴量を抽出する。
S105において、取得部11は、S101で取得された基礎データを基礎データベースM1に記憶する。範囲抽出部12は、S102で抽出した人体範囲を、S101で取得された基礎データと対応付けて、基礎データベースM1に記憶する。特徴量抽出部13は、S104で抽出した特徴量を、S101で取得された基礎データとS102で抽出された人体範囲とに対応付けて、基礎データベースM1に記憶する。
S106において、特定部14は、ランダムに、初回のラベルデータの設定作業の対象となる人体範囲領域を特定する。本実施形態では、特定部14は、人体範囲を特定し、特定した人体範囲が示す人体範囲領域すべてを、ラベルデータの設定作業の対象として特定する。
S107において、編集部15は、S101で取得された基礎データを編集する。編集方法は、図3で説明した方法と同様である。
S108において、設定部16は、S107で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置100に提供する。図4の設定画面は、S108で表示される設定画面の一例である。設定部16は、提供された設定画面を、表示部215に表示する。
S109において、設定部16は、S108で表示された設定画面を介した作業者による操作に基づいて、人体範囲領域に対するラベルデータの指定を受付ける。本実施形態では、設定部16は、作業者による設定画面中の人体枠へのクリックによる人体枠の指定に応じて、その人体枠に対応する人体範囲領域に対して、「ノイズ」カテゴリであることを示すラベルデータを設定する。設定部16は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「ノイズ」カテゴリであることを示すラベルデータを設定する。本実施形態では、設定部16は、クリックが検知された人体範囲領域に対応する人体範囲が示す人体範囲領域すべてについて、一括して、指定に応じたラベルデータを設定する。設定部16は、作業終了ボタンG4のクリックを検知した場合、今回のラベルデータの設定作業を終了する。
S110において、設定部16は、S109で設定したラベルデータを、対応する人体範囲領域と対応付けて、ラベルデータベースM2に記憶する。
S111において、構成部17は、S110で人体範囲領域と対応付けて記憶されたラベルデータに基づいて、教師データを構成する。本実施形態では、構成部17は、「ノイズ」カテゴリを示すラベルデータと、人体範囲領域と、を含む教師データを構成する。
S112において、構成部17は、S111で構成した教師データに基づいて、教師データベースM3に記憶される暫定教師データを更新する。本実施形態では、情報処理サーバ10が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部17は、初回のS112の処理の際に、S103で初期化された暫定教師データに含まれる人体範囲領域から、S111で構成された教師データに対応する人体範囲領域を削除することで、暫定教師データを更新する。その後のS112の処理の際には、構成部17は、教師データベースM3に記憶された暫定教師データに含まれる人体範囲領域から、直前のS111で構成した教師データに対応する人体範囲領域を削除することで、暫定教師データを更新する。
S113において、特定部14は、教師データベースM3に記憶された暫定教師データが示す暫定教師データ領域と、各未処理データが示す領域と、の乖離度を決定する。
S114において、特定部14は、S113で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる人体範囲領域を特定する。
特定部14は、S113で各未処理データについて、決定した乖離度に基づいて、S101で取得された基礎データである動画像におけるフレームごとの乖離度を決定してもよい。そして、特定部14は、フレームごとに決定された乖離度に基づいて、次回のラベルデータの設定作業の対象となる人体範囲領域を含むフレーム特定してもよい。
S115において、特定部14は、S114で特定した未処理データ(又は、フレーム等)に対応する乖離度が、予め設定された閾値以下か否かを判定する。ここで、乖離度は、高い程乖離していることを示す指標であるとする。特定部14は、S114で特定した未処理データに対応する乖離度が、予め設定された閾値以下であると判定した場合、ラベルデータの設定作業が完了したものとして、S116の処理に進む。特定部14は、S114で特定した未処理データに対応する乖離度が、予め設定された閾値よりも大きいと判定した場合、S107の処理に進む。
S116において、構成部17は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部17は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。
S117において、構成部17は、S116で構成した教師データを、教師データベースM3に記憶する。この段階で、教師データベースM3に記憶された教師データを、最終的な教師データとする。
以上、本実施形態の情報処理サーバ10は、分類対象の人体範囲領域それぞれと、作業者により「ノイズ」カテゴリであることが確認された人体範囲領域を除いた暫定教師データ領域と、の乖離の度合いを示す乖離度を決定した。そして、情報処理サーバ10は、決定した乖離度に基づいて、「ノイズ」カテゴリの候補となる人体範囲領域を、次回のラベルデータの設定作業の対象として特定した。このように、情報処理サーバ10は、分類対象の人体範囲領域のうち、ユーザにより「ノイズ」カテゴリが指定された人体範囲領域を除いたものを、暫定教師データ領域とした。そして、情報処理サーバ10は、分類対象の人体範囲領域それぞれと暫定教師データ領域との乖離度に基づいて、「ノイズ」カテゴリの候補となる人体範囲領域を特定した。これにより、情報処理サーバ10は、複数のデータに含まれるデータそれぞれのカテゴリの初期値が未定な場合であっても、その複数のデータから、設定されたカテゴリと異なるカテゴリに属するデータの候補となるデータを特定することができる。
また、情報処理サーバ10は、「ノイズ」カテゴリのデータの候補となるデータがなくなった段階で、すべてのラベルデータの設定処理が未処理のデータに「正常」のラベルデータを設定した。これにより、ラベルデータを直接設定する回数が削減されるため、情報処理サーバ10は、ラベルデータの設定作業を効率化できる。
また、情報処理サーバ10は、「ノイズ」カテゴリのデータの候補となるデータに対してのラベルデータの設定作業の進捗度を生成し、ラベルデータを設定するGUI上で進捗度を可視化することとした。これにより、情報処理サーバ10は、作業の進み具合を確認するとともに、残り作業量の見積もりが可能になるため、情報処理サーバ10は、作業者の状況把握をサポートし、作業者のモチベーションを向上させることができる。
また、情報処理サーバ10は、人体枠へのロングタップ等の特定の操作に応じて、人体枠に対応する人体範囲と類似する画像をポップアップ再生することとした。これにより、人体枠のラベルデータを決定する際の判断材料が増えることになり、情報処理サーバ10は、作業者によるラベルデータ設定に関する判断をサポートできる。
また、情報処理サーバ10は、編集部15を介して、人体範囲の有無及び各人体範囲の乖離度に基づいて表示する画像を編集することとした。これにより、人体が存在しない画像や、確認する必要性のない画像を作業者が確認しなくてよくなるため、作業者は必要な画像だけを効率的に確認することができる。
また、情報処理サーバ10は、特定部14を介して、ラベルデータの設定作業の対象となるデータを特定する際に、ラベルデータが設定されるデータを、画像そのものでなく人体範囲とした。そして、情報処理サーバ10は、暫定教師データを更新するタイミングを調整することとした。これにより、作業者は、時間的に長い動画像を基礎データとした場合でも、ノイズ疑いデータを効率的に削減することができる。
また、情報処理サーバ10は、乖離度の大きさに応じて、人体範囲を示す人体枠の表示態様を変更することとした。これにより、どの人体枠が乖離度の高い人体範囲に対応しているかを容易に判断することが可能になり、作業者は、容易に注目すべき人物を注目することができるようになる。
また、情報処理サーバ10は、ラベルデータが設定されているか否かに応じて、人体範囲を示す人体枠の表示態様を変化させた。これにより、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。
また、情報処理サーバ10は、以下のような処理を行うこととしてもよい。
設定部16は、S103で、暫定教師データを初期化しないこととしてもよい。そして、S109で、設定部16は、S108で表示された設定画面を介した作業者による操作に基づいて、「ノイズ」カテゴリであることを示すラベルデータの指定を受付けることとなる。しかし、設定部16は、それとは別に、設定画面を介した作業者による操作に基づいて、「正常」カテゴリであることを示すラベルデータの指定を受付けることとする。その場合、設定部16は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「正常」カテゴリであることを示すラベルデータを設定する。そして、S111で、構成部17は、S109で設定された「正常」カテゴリであることを示すラベルデータと、S109で「正常」カテゴリであることを示すラベルデータが設定された人体範囲領域と、を含む教師データを構成する。そして、S112で、構成部17は、S111で構成した教師データを、暫定教師データとして、教師データベースM3に記憶してもよい。以降のS112では、構成部17は、直前のS111で構成した教師データに基づいて、暫定教師データを更新する。より具体的には、構成部17は、暫定教師データ領域に、S111で構成した教師データに含まれる人体範囲領域を追加することで、暫定教師データを更新する。
そして、S113で、特定部14は、未処理データと、暫定教師データ領域と、の乖離度を決定する。S114で、特定部14は、乖離度に基づいて、未処理データから、次回のラベルデータ設定作業の対象を決定することとしてもよい。特定部14は、例えば、式1を用いて、乖離度を決定する。この場合、暫定教師データは、「正常」カテゴリのデータである。そのため、決定された乖離度は、値が高い程、「正常」カテゴリから乖離していることを示す指標となる。そして、特定部14は、例えば、設定された閾値よりも乖離度が高い未処理データを、次回のラベルデータの設定作業の対象とする。
また、情報処理サーバ10は、以下のような処理を行うこととしてもよい。
設定部16は、S103で、暫定教師データを初期化しないこととしてもよい。そして、S109で、設定部16は、S108で表示された設定画面を介した作業者による操作に基づいて、「ノイズ」カテゴリであることを示すラベルデータの指定を受付けることとする。その場合、設定部16は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「ノイズ」カテゴリであることを示すラベルデータを設定する。そして、S111で、構成部17は、S109で設定されたラベルデータと、S109でラベルデータが設定された人体範囲領域と、を含む教師データを構成する。そして、S112で、構成部17は、S111で構成した教師データを、暫定教師データとして、教師データベースM3に記憶してもよい。以降のS112では、構成部17は、直前のS111で構成した教師データに基づいて、暫定教師データを更新する。より具体的には、構成部17は、暫定教師データ領域に、S111で構成した教師データに含まれる人体範囲領域を追加することで、暫定教師データを更新する。
そして、S113で、特定部14は、未処理データと、暫定教師データ領域と、の乖離度を決定する。S114で、特定部14は、乖離度に基づいて、未処理データから、次回のラベルデータ設定作業の対象を決定することとしてもよい。特定部14は、例えば、式1を用いて、乖離度を決定する。この場合、暫定教師データは、「ノイズ」カテゴリのデータである。そのため、決定された乖離度は、値が低い程(暫定教師データと類似する程)、「正常」カテゴリから乖離していることを示す指標となる。そして、特定部14は、例えば、設定された閾値よりも乖離度が低い未処理データを、次回のラベルデータの設定作業の対象として特定する。
<実施形態2>
動画像において、同じ人物が属するカテゴリが時間に応じて変化する場合がある。例えば、移動しながら万引きを繰り返す人物の場合、移動中は「正常」カテゴリに属するが、万引き中は「ノイズ」カテゴリに属することになる。
本実施形態では、動画像中で属するカテゴリが変化する人体範囲について、時間的に分割し、分割された人体範囲について効率的にラベルデータを設定する方法を説明する。以下では、分割された人体範囲のそれぞれを、サブ人体範囲とする。
本実施形態の情報処理システムのシステム構成は、実施形態1と同様である。また、情報処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態1と同様である。
本実施形態では、ラベルデータベースM2に記憶されるデータ、設定部16の処理、構成部17の処理が、実施形態1と異なる。
本実施形態のラベルデータベースM2は、設定部16から入力された、サブ人体範囲ごとに、人体範囲領域に対応したラベルデータを記憶する。サブ人体範囲は、画像における人体の座標、時間的な範囲を示す始点・終点の情報を含む。
設定部16は、実施形態1と同様に、編集部15から取得した基礎データ、及び乖離度に基づいて、ラベルデータの設定作業に利用される設定画面を生成し、端末装置100に提供する。設定部16は、実施形態1と異なり、人体範囲ごとでなく、サブ人体範囲ごとに、サブ人体範囲が示す人体範囲領域にラベルデータを一括して設定し、サブ人体範囲ごとに設定したラベルデータを、ラベルデータベースM2に記憶する。
設定部16によるサブ人体範囲にラベルデータを設定する方法について説明する。設定部16は、図4に示すような設定画面を端末装置100に提供する。また、設定部16は、人体枠へのクリックに応じて、表示されるポップアップ画面を、端末装置100に提供する。この各人体範囲に対応したポップアップ画面を、人体範囲ポップアップ画面とする。
図6は、人体範囲ポップアップ画面の一例を示す図である。図6の例では、設定画面は、人体枠G5b−1〜G5b−3、人体範囲ポップアップ画面G7b、表示範囲設定ボタンG8b−1、G8b−2、人体範囲フレーム画像G9b−1〜G9b−9を含む。
人体枠G5b−1〜G5b−3は、基礎データである動画像中のある時刻におけるフレームに含まれる各人体範囲が示す人体の領域を示す。設定部16は、人体枠G5b−3への作業者によるクリックを検知し、対応する人体範囲ポップアップ画面G7bを表示する。設定部16は、作業者による人体範囲ポップアップ画面G7b以外の部分へのクリック等の予め設定された操作を検知すると、人体範囲ポップアップ画面G7bを消去することとしてもよい。
人体範囲ポップアップ画面G7bは、人体範囲フレーム画像G9b−1〜G9b−9を含む。人体範囲フレーム画像G9b−1〜G9b−9は、各時刻の人体範囲領域を示す画像である。設定部16は、人体範囲フレーム画像G9b−1〜G9b−9を、タイル状に並べて表示する。また、設定部16は、人体範囲ポップアップ画面G7bの大きさが、すべての人体範囲フレーム画像を表示するために不足する場合は、時間的な一部の範囲に対応した人体範囲フレーム画像を表示してもよい。また、設定部16は、人体範囲フレーム画像を、動画像における全てのフレームについて、並べて表示する必要はなく、設定された数のフレーム間隔に、人体範囲フレーム画像を表示してもよい。また、設定部16は、特定の基準にしたがって選択された代表的な人体範囲フレーム画像を表示することとしてもよい。
表示範囲設定ボタンG8b−1、G8b−2は、人体範囲ポップアップ画面G7bに含まれるボタンである。表示範囲設定ボタンG8b−1、G8b−2は、人体枠G5b−3に対応する人体範囲に対応する人体の領域のうち、どの期間に含まれる人体の領域を表示するかを指定するためのボタンである。例えば、設定部16は、表示範囲設定ボタンG8b−1へのクリックを検知すると、より過去の期間における人体範囲領域を表示する。設定部16は、表示範囲設定ボタンG8b−2へのクリックを検知すると、より未来の期間における人体範囲領域を表示する。
設定部16は、人体範囲フレーム画像のクリックを検知すると、クリックが検知された人体範囲フレーム画像に対応するフレームを基準として以降のフレームに対応する人体範囲領域についてのラベルデータを設定する。設定部16は、例えば、ラベルデータが設定されていない場合、「正常」カテゴリのラベルデータを設定する。設定部16は、例えば、「正常」カテゴリのラベルデータが設定されている場合、「ノイズ」カテゴリのラベルデータを設定する。設定部16は、例えば、「ノイズ」カテゴリのラベルデータが設定されている場合、「正常」カテゴリのラベルデータを設定する。また、設定部16は、時間的に連続して、共通するラベルデータが設定された同一人物の人体の領域を、1つのサブ人体範囲とする。
人体範囲フレーム画像は、対応するラベルデータや、乖離度に応じて表示態様が変更されることとしてもよい。図6の例では、人体範囲フレーム画像G9b−5〜G9b−7が「ノイズ」カテゴリのラベルデータが設定されている。この場合、設定部16は、人体範囲フレーム画像G9b−5〜G9b−7の枠線を二重線として表示し、他の人体範囲フレーム画像の枠線を1本の実線とする。設定部16は、枠線の形状以外にも、色や大きさを変更する等してもよい。
構成部17は、基礎データベースM1に記憶されている基礎データ、サブ人体範囲と、ラベルデータベースM2に記憶されているラベルデータと、に基づいて、教師データを構成する。構成部17は、実施形態1と異なり、人体範囲ごとに設定されたラベルデータでなく、サブ人体範囲ごとに設定されたラベルデータを用いる。構成部17は、サブ人体範囲ごとに、基礎データからサブ人体範囲が示す人体範囲領域を取得し、取得した人体範囲領域と、対応するラベルデータと、を含ませるように教師データを構成する。また、構成部17は、サブ人体範囲ごとに構成された教師データを、人体範囲ごとに統合してもよい。構成部17は、構成した教師データを、教師データベースM3に記憶する。
以上、本実施形態の処理により、情報処理サーバ10は、動画像である基礎データ中で同一人物の属するカテゴリが変化するような場合でも、ユーザによるラベルデータの設定作業を、より適切に支援できる。
<実施形態3>
本実施形態では、人体ではなく、板金等の物品が撮影された画像を基礎データとする場合の情報処理システムの処理を説明する。
本実施形態の情報処理システムのシステム構成は、実施形態1と同様である。また、情報処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態1と同様である。
本実施形態では、記憶サーバ200は、板金等の物品の静止画像を、基礎データとして記憶する。
本実施形態の基礎データベースM1は、取得部11によって取得された基礎データ、範囲抽出部12によって抽出された設定範囲、特徴量抽出部13によって画像データの各設定範囲から抽出された特徴量データ、を対応づけて記憶する。本実施形態では、基礎データベースM1に対応付けて記憶された各データを、総称して画像情報とする。
設定範囲とは、ラベルデータの設定対象となる、画像データ中の各領域(例えば、パッチ等)の画像中における位置を示す情報である。設定範囲は、例えば、画像データ中のラベルデータの設定対象の領域の座標の情報を含む。例えば、ある部品の画像データを縦にH個、横にW個のブロックに分割し、各ブロックを1つのパッチとして各パッチにラベルデータを設定する場合、設定範囲は、例えば、パッチの位置を示す座標(i,j)となる。ここで、i及びjは画像データ中のパッチの縦位置、横位置を示す座標データである。以下では、設定範囲が示す画像中の領域を、設定範囲領域とする。本実施形態では、範囲抽出部12により抽出された設定範囲が示す設定範囲領域それぞれが、分類対象のデータとなる。
また、設定範囲は、複数の画像データにおける同一の座標を示す情報であってもよい。その場合は、設定範囲は、例えば、画像データを特定するための情報を含む。複数の画像である基礎データ全体の一部がラベルデータの設定対象である場合、設定範囲は、例えば、ラベルデータの設定対象の画像データのインデックスを示すベクトルkを含む。そのため、設定範囲は、例えば、画像中のパッチの座標と画像インデックスを示す(i,j,k)となる。
本実施形態では、特徴量抽出部13は、設定範囲領域に基づいて、設定された1つ又は複数の特徴量を抽出する。
本実施形態では、教師データは、設定範囲領域、その設定範囲領域の属するカテゴリを示すラベルデータ、を含む。本実施形態では、ラベルデータは、対応する画像データが、物品に欠陥がないことを示す「正常」カテゴリと、物品に欠陥が有ることを示す「ノイズ」カテゴリと、の何れに属するかを示す情報であるとする。
本実施形態のラベルデータベースM2は、設定部16によって設定されたラベルデータを記憶する。ラベルデータは、各設定範囲について設定される。ラベルデータは、例えば、設定範囲領域が、「正常」カテゴリに属するか、「ノイズ」カテゴリに属するか、を示す。しかし、ラベルデータは、「正常」カテゴリや「ノイズ」カテゴリよりも詳細なカテゴリの何れに属するかを示す情報であってもよい。ラベルデータは、例えば、「平面」カテゴリ、「印字箇所」カテゴリ等の正常な表面を示すカテゴリの何れに属するかを示す情報であってもよい。また、ラベルデータは、「傷」カテゴリや「へこみ」カテゴリ等の欠陥・ノイズを示すカテゴリの何れに属するかを示す情報であってもよい。
本実施形態の範囲抽出部12は、取得部11によって取得された画像データから、設定範囲を抽出する。範囲抽出部12は、例えば、ブロック分割や、コーナー又はエッジ検出等の検出器を用いて、設定範囲となるパッチを抽出してもよい。範囲抽出部12は、設定範囲とするパッチの大きさや、画像データの数を問題に応じて、変化してもよい。範囲抽出部12は、抽出した設定範囲を、基礎データベースM1に記憶する。また、範囲抽出部12は、抽出した設定範囲を、特徴量抽出部13に送信する。
本実施形態の特徴量抽出部13は、取得部11から取得した画像データと、範囲抽出部12から取得した設定範囲と、に基づいて、各設定範囲領域に対応した特徴量データを抽出する。特徴量抽出部13は、1つの特徴量、又は複数の特徴量を組み合わせた特徴量を抽出してもよい。特徴量抽出部13は、例えば、平均輝度やカラーヒストグラム、Sparse CodingやAuto Encoderによる再現誤差等の特徴量を抽出してもよい。設定範囲が複数の画像における同じ座標の領域を示す場合は、特徴量抽出部13は、画像データ間の、その領域における差分情報を特徴量として抽出してもよい。
また、特徴量抽出部13は、必要に応じて、画像データ全体の輝度等、設定範囲が示す領域よりも広域な情報や画像データ外のメタ情報を特徴量として抽出してもよい。特徴量抽出部13は、抽出した特徴量を、基礎データベースM1に記憶する。
本実施形態の特定部14は、次回のラベルデータの設定作業の対象となる設定範囲領域を特定する。特定部14は、特定した設定範囲領域を、編集部15に送信する。特定部14は、教師データベースM3に暫定教師データが存在する場合と、存在しない場合と、で挙動が異なる。また、設定範囲領域のうち、ラベルデータが未設定であるものを未処理データとする。暫定教師データが存在しない場合、特定部14は、未処理データの中から、ランダムに設定対象を特定する。暫定教師データが存在する場合、特定部14は、暫定教師データ領域と未処理データとの乖離度に基づいて、設定対象を特定する。
特定部14は、暫定教師データとの乖離度を、各設定範囲について生成する。また、特定部14は、ある画像データに対応する設定範囲領域が複数存在する場合、各設定範囲領域について乖離度を生成し、各設定範囲領域の乖離度に基づいて画像データ全体としての乖離度を生成してもよい。例えば、特定部14は、各設定範囲から生成した乖離度の平均値や最大値、閾値以上の乖離度である設定範囲の数等を、画像データ全体としての乖離度として生成してもよい。
特定部14における乖離度の生成方法は、実施形態1と同様である。特定部14は、実施形態1と同様に、特定しなかった設定範囲領域と、特定した設定範囲領域との類似度を生成してもよい。特定部14は、特定しなかった設定範囲、及び、生成された類似度を、設定部16に送信する。
編集部15は、特定部14により特定された設定範囲領域と、及び特定部14により取得された乖離度と、特定部14からを取得する。そして、編集部15は、基礎データである静止画像を編集する。編集部15は、編集した画像と、対応する乖離度と、を設定部16に送信する。編集部15は、画像の編集を、作業者によるラベルデータの設定作業の効率化を目的として行う。ラベルデータは、設定範囲領域に設定されるため、設定範囲領域に対応して表示する画像を編集することで、作業者の作業効率上昇が期待できる。編集部15は、表示部215に表示される画像を、設定範囲領域に限定するように編集してもよい。また、編集部15は、画像データ全体を表示部215に表示される画像として、1つ又は複数の設定範囲の領域が重畳して表示されるように編集してもよい。編集部15は、設定範囲領域が複数ある場合、画像に、それらの領域を重畳させるように編集してもよい。
ただし、画像データの編集が求められていない、又は、設定範囲領域ではない部分の画像を残す理由がある場合は、編集部15は、編集を行わなくてもよい。また、編集部15は、画像中に設定範囲が存在する場合でも、暫定教師データとの乖離度が閾値以下の場合には、対応する設定範囲領域を含む画像を表示させないように編集してもよい。
設定部16は、編集部15により編集された基礎データ、各設定範囲、及び、対応する乖離度に基づいて、ラベルデータの設定に利用される設定画面を生成し、端末装置100に提供する。設定部16は、特定部14により特定されなかった設定範囲領域のうち、特定部14により特定された設定範囲領域と類似する設定範囲領域、及び対応する類似度を、特定部14から取得してもよい。設定部16は、設定画面を介した作業者による操作に基づいて、設定したラベルデータを、ラベルデータベースM3に記憶する。
本実施形態におけるラベルデータの設定に利用される設定画面の一例を図7に示す。図7の例では、設定画面は、画像表示領域G11、高乖離度パッチG12、進捗表示領域G13、作業完了ボタンG14を含む。設定部16は、CPU211を介して、入力部216へのクリック等の操作を検知し、検知した操作に応じて、これらのオブジェクトの表示を制御する。
画像表示領域G11は、編集部15により編集されたから入力された画像を含む。画像の解像度と画像表示領域G11の大きさとが同一でない場合、設定部16は、画像表示領域G11を、作業のしやすさを考慮した大きさに拡大縮小表示する。編集部15は、表示対象が画像全体であり、設定範囲領域がパッチである場合には、パッチの境界を示す枠線を基礎データの画像と重畳表示するように基礎データを編集する。また、編集部15は、表示対象がパッチ単体である場合は、基礎データを、パッチ画像のみが表示されるように編集してもよい。また、編集部15は、基礎データが複数の画像であった場合は、各画像を並べて表示、又は作業者の操作によって画像を切り替えて表示されるように、基礎データを編集してもよい。
高乖離度パッチG12は、画像表示領域G11に表示されたパッチのうち、低乖離度パッチよりも乖離度が高い設定範囲領域に対応するパッチである。高乖離度パッチは、「ノイズ」カテゴリである可能性があるため、枠の形状や色等の表示態様を変更することで強調表示される。なお、パッチの表示は、乖離度に対応して連続的に変化させてもよい。また、乖離度に関わらず、パッチの表示は、設定されたラベルデータに対応して変化させてもよい。進捗表示領域G13は、ラベルデータ設定作業の進捗情報を表示する領域である。進捗情報は、例えば、未処理データの残数や、閾値以下の乖離度である画像情報の割合等によって表現される。これにより、作業者は作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよその見積もりが可能となる。作業完了ボタンG14は、ラベルデータ設定作業を完了させる際にクリックされるボタンである。設定画面を介して設定されたラベルデータは、ラベルデータベースM2に記憶される。
設定部16は、作業者による設定範囲領域に対応したパッチ又は画像全体へのクリックが検知された場合、対応する設定範囲領域に対してラベルデータを設定することができる。例えば、設定部16は、「正常」と「ノイズ」との2種類のカテゴリの何れに属するかを示すラベルデータがある場合、各パッチのラベルデータをすべて「正常」カテゴリを示すように初期化する。そして、設定部16は、パッチへのクリックに応じて、「ノイズ」カテゴリを示すように切り替える。設定部16は、再度のクリックに応じて「正常」カテゴリに戻す。これにより、ノイズデータの候補である設定範囲領域を「正常」カテゴリの設定範囲領域と区別することが可能になる。設定部16は、複数のパッチに対してまとめて設定したい場合は、クリックされたパッチの近傍のパッチも同様にラベルデータを切り替えたり、画像上をドラッグすることで指又はカーソルが通過したパッチのラベルデータを切り替えたりする等の処理を行ってもよい。
設定部16は、フリック操作に応じて、ラベルデータを設定してもよい。
作業者による設定範囲領域へのロングタップ又はマウスの長押しにより、ロングタップ等された設定範囲領域の類似画像がポップアップ表示されることとしてもよい。類似画像は画像情報間の特徴量の距離に基づいて生成される。類似する画像を確認することで、どのラベルデータを設定するか迷うような場合でも、作業者の判断材料を増やすことができる。また、設定部16は、ラベルデータを設定する際は、クリック等された設定範囲領域と類似する設定範囲領域についても、もまとめて共通するラベルデータを設定してよい。
図8は、本実施形態の情報処理サーバ10の処理の一例を示すフローチャートである。図8を用いて、本実施形態における教師データの作成処理を説明する。
S201において、取得部11は、記憶サーバ200から、静止画像である基礎データを取得する。
S202において、範囲抽出部12は、S201で取得された基礎データである静止画像のそれぞれから、設定範囲を抽出する。
S203において、設定部16は、S202で抽出された設定範囲が示す設定範囲領域の全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部17は、S202で抽出された設定範囲が示す設定範囲領域と、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースM3に記憶する。
S204において、特徴量抽出部13は、S202で抽出された設定範囲が示す設定範囲領域それぞれが示す画像から設定された特徴量を抽出する。
S205において、取得部11は、S201で取得された基礎データを基礎データベースM1に記憶する。範囲抽出部12は、S202で抽出した設定範囲を、S201で取得された基礎データと対応付けて、基礎データベースM1に記憶する。特徴量抽出部13は、S204で抽出した特徴量を、S201で取得された基礎データとS202で抽出された設定範囲とに対応付けて、基礎データベースM1に記憶する。
S206において、特定部14は、ランダムに、初回のラベルデータの設定作業の対象となる設定範囲領域を特定する。
S207において、編集部15は、S201で取得された基礎データを編集する。
S208において、設定部16は、S207で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置100に提供する。図7の設定画面は、S208で表示される設定画面の一例である。設定部16は、提供された設定画面を、表示部215に表示する。
S209において、設定部16は、S208で表示された設定画面を介した作業者による操作に基づいて、設定範囲領域に対するラベルデータの指定を受付ける。本実施形態では、作業者による設定画面中のパッチへのクリックに応じて、設定部16は、そのパッチに対応する設定範囲領域に対して、「ノイズ」カテゴリであることを示すラベルデータの指定を受付ける。設定部16は、指定を受けたら、クリックが検知されたパッチに対応する設定範囲領域に、「ノイズ」カテゴリであることを示すラベルデータを設定する。設定部16は、作業終了ボタンG14へのクリックに応じて、今回のラベルデータの設定作業を終了する。
S210において、設定部16は、S209で設定したラベルデータを、対応する設定範囲領域と対応付けて、ラベルデータベースM2に記憶する。
S211において、構成部17は、S210で設定範囲領域と対応付けて記憶されたラベルデータに基づいて、教師データを構成する。本実施形態では、構成部17は、「ノイズ」カテゴリを示すラベルデータと、設定範囲領域と、を含む教師データを構成する。
S212において、構成部17は、S211で構成した教師データに基づいて、教師データベースM3に記憶された暫定教師データを更新する。本実施形態では、情報処理サーバ10が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部17は、初回のS212の処理の際に、S203で初期化された暫定教師データに含まれる設定範囲領域から、S211で構成された教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。その後のS212の処理の際には、構成部17は、教師データベースM3に記憶された暫定教師データに含まれる設定範囲領域から、直前のS211で構成した教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。
S213において、特定部14は、教師データベースM3に記憶された暫定教師データが示す暫定教師データ領域と、各未処理データが示す領域と、の乖離度を決定する。
S214において、特定部14は、S213で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる設定範囲領域を特定する。
S215において、特定部14は、S214で特定した未処理データに対応する乖離度が、予め設定された閾値以下か否かを判定する。ここで、乖離度は、高い程乖離していることを示す指標であるとする。特定部14は、S214で特定した未処理データに対応する乖離度が、予め設定された閾値以下であると判定した場合、ラベルデータの設定作業が完了したものとして、S216の処理に進む。特定部14は、S214で特定した未処理データに対応する乖離度が、予め設定された閾値よりも大きいと判定した場合、S207の処理に進む。
S216において、構成部17は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部17は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。本実施形態では、S203で全ての人体範囲領域について、ラベルデータの初期値を設定しているので、S216で、構成部17は、改めて教師データを構成しなくてもよい。
S217において、構成部17は、S216で構成した教師データを、教師データベースM3に記憶する。この段階で、教師データベースM3に記憶された教師データを、最終的な教師データとする。
以上、本実施形態の情報処理サーバ10は、分類対象の人体範囲領域のうち、ユーザにより「ノイズ」カテゴリが指定された設定範囲領域を除いたものを、暫定教師データ領域とした。そして、情報処理サーバ10は、分類対象の設定範囲領域それぞれと暫定教師データ領域との乖離度に基づいて、「ノイズ」カテゴリの候補となる設定範囲領域を特定した。これにより、情報処理サーバ10は、複数のデータに含まれるデータそれぞれのカテゴリの初期値が未定な場合であっても、その複数のデータから、設定されたカテゴリと異なるカテゴリに属するデータの候補となるデータを特定することができる。
また、編集部15は、設定範囲領域の有無及び各設定範囲の乖離度に基づいて表示する画像を編集することとした。これにより、設定範囲が存在しない画像や、乖離度が低く確認する必要性の少ない画像を作業者が確認しなくなるため、作業者は必要な画像だけを効率的に確認することができる。
また、乖離度の高い設定範囲領域のパッチを強調表示することで、どのパッチが乖離度の高い設定範囲に対応しているかを容易に判断することが可能になり、作業者は注目すべきパッチを注目することが簡単になる。
また、ラベルデータの設定状況に対応して、パッチの色や形状等の見た目を変化させることで、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。
<実施形態4>
本実施形態では、基礎データが音声データである場合の情報処理システムの処理を説明する。
本実施形態の情報処理システムのシステム構成は、実施形態1と同様である。また、情報処理サーバ10、記憶サーバ200のハードウェア構成についても、実施形態1と同様である。端末装置100は、図2(b)のハードウェア構成に加えて、スピーカ、イヤホン、ヘッドホン等で構成される音声出力部を含む。設定部16は、CPU211を介して、音声出力部により設定部16から送信された音声を再生する。また、設定部16は、入力部216を介した操作に応じて、音声出力部を介した再生時の音量を変更してもよい。
本実施形態では、教師データは、1つ又は複数の音声データと、音声データが属するカテゴリを示すラベルデータと、を含む。
また、発話中のデータが属するカテゴリを、「正常」カテゴリとする。また、環境音や無音の音声データ等の「正常」カテゴリに属さない音声データが属するカテゴリを、「ノイズ」カテゴリとする。
図9は、本実施形態の情報処理サーバ10の機能構成等の一例を示す図である。図9に示す情報処理サーバ10の機能構成は、図3と比べて、編集部15の代わりに、音声可視化部35を含む点で異なる。
基礎データベースM1は、取得部11により記憶サーバ200から取得された音声データである基礎データ、範囲抽出部12により基礎データから抽出された設定範囲、特徴量抽出部13により各設定範囲から抽出された特徴量データ、を対応付けて記憶する。基礎データベースM1に対応付けて記憶された各データを、ここでは総称して音声情報と呼ぶ。
設定範囲とは、ラベルデータを設定する対象となる、基礎データである音声データ全体、又は、音声データ中の連続する部分を示す情報である。基礎データ中で、設定範囲が示す部分の音声データを、設定範囲データとする。本実施形態では、設定範囲データが、分類対象のデータとなる。例えば、設定範囲は、音声データ中の時間的な始点と終点との情報によって表現される。
特徴量データは、特徴量抽出部13により設定範囲が示す音声データから抽出される。特徴量抽出部13は、1つ又は複数の設定された種類の特徴量を抽出する。
本実施形態では、ラベルデータベースM2に記憶されるラベルデータは、設定範囲ごとに設定されるラベルデータである。ラベルデータは、「正常」カテゴリと「ノイズ」カテゴリの何れに属するかを示す情報であってもよいし、より詳細な複数のカテゴリの何れに属するかを示す情報であってもよい。例えば、ラベルデータは、「男性の声」カテゴリ、「女性の声」カテゴリ、「雑音」カテゴリ、「無音」カテゴリ等のうち、何れに属するかを示す情報であってもよい。
教師データベースM3は、構成部17によって構成された、音声情報とラベルデータとを含む教師データを記憶する。教師データの具体的な構成は必要とされる教師データの形式に対応して変化する。教師データベースM3に記憶された教師データは、教師データ作成作業の進捗に伴い追加的に更新される。特定部14は、教師データベースM3から教師データを取得し利用する。
取得部11は、記憶サーバ200から音声データである基礎データを取得し、基礎データベースM1や、範囲抽出部12、特徴量抽出部13に出力する。取得部11は、音声データを、逐次的に取得し、出力してもよいし、すべての音声データを取得した後でまとめて出力してもよい。なお、取得部11は、音声データを、記憶サーバ200から直接取得するのではなく、端末装置100を経由して取得してもよい。
範囲抽出部12は、取得部11によって取得された基礎データである音声データから、ラベルデータを設定する対象となる設定範囲を抽出する。設定範囲を抽出する方法は特定の方法に限定しない。例えば、範囲抽出部12は、一定の時間間隔で分割する方法や、音量が小さくなるタイミングで分割する方法等を用いて、設定範囲を抽出してもよい。また、範囲抽出部12は、単語の検出器を用いて検出された範囲等を、設定範囲として抽出してもよい。範囲抽出部12は、抽出した設定範囲を、基礎データベースM1に記憶し、特徴量抽出部13に送信する。
特徴量抽出部13は、取得部11により取得された音声データと、範囲抽出部12により抽出された設定範囲と、に基づいて、各設定範囲に対応した特徴量データを抽出する。特徴量抽出部13は、1つ又は複数の設定された特徴量を抽出する。例えば、特徴量抽出部13は、MFCC(Mel−Frequency Cepstrum Coefficients)や、Deep Learningに基づく学習型特徴量等を抽出する。特徴量抽出部13は、更に、必要に応じて、音声データ全体の音量レベル等、設定範囲よりも広域な情報や音声データ外のメタ情報を特徴量として抽出してもよい。特徴量抽出部13は、抽出した特徴量データを、基礎データベースM1に記憶する。
特定部14は、基礎データベースM1から取得した音声情報と、教師データベースM3から取得した暫定教師データと、に基づいて、次回のラベルデータの設定作業の対象となる設定範囲データを特定する。特定部14は、特定した設定範囲データを、音声可視化部35に送信する。
特定部14は、教師データベースM3に暫定教師データが存在する場合と、存在しない場合と、で挙動が異なる。暫定教師データが存在しない場合、特定部14は、未処理データの中から、ランダムに次回の設定作業の対象を特定する。暫定教師データが存在する場合、特定部14は、暫定教師データが示す音声データと未処理データとの乖離度に基づいて、次回の設定作業の対象を特定する。以下では、暫定教師データが示す音声データを、暫定教師音声データとする。本実施形態では、未処理データは、ラベルデータの指定が行われていない設定範囲データである。
特定部14は、設定範囲ごとに、乖離度を決定する。ただし、ある音声データ内に設定範囲データが複数存在する場合、特定部14は、各設定範囲データについて乖離度を生成し、各設定範囲データの乖離度に基づいて、音声データ全体についての乖離度を決定してもよい。例えば、特定部14は、各設定範囲データから生成された乖離度の平均値や最大値、閾値以上の乖離度である設定範囲データの数等を用いて、音声データ全体についての乖離度を決定してもよい。
特定部14における乖離度の生成方法は、実施形態1と同様である。特定部14は、設定作業の対象として特定されなかった音声情報について、実施形態1と同様に類似度を生成してもよい。
音声可視化部35は、基礎データである音声データを可視化した画像を生成する。また、音声可視化部35は、特定部14によって特定された設定範囲データと、特定部14によって決定された乖離度と、に基づいて、可視化した音声データ上で、設定範囲データが示す領域を可視化する。以下では、可視化された音声データの画像上で、設定範囲データが示す領域を、設定範囲領域とする。音声可視化部35は、音声情報、乖離度、可視化した画像を、それぞれ設定部16に出力する。音声情報が可視化されることで、作業者は実際に音声を再生する前に、音声の特徴を推測することができるようになり、音声全体を再生する場合と比べて、作業を効率化されることが期待できる。例えば、作業者は、音声の音量を可視化する場合、音量が急激に高くなる部分では異常音が発生していたり、音量が極端に低い部分では無音部であったりという検討をつけることができる。音声可視化部35は、例えば、音量を表す折れ線グラフを生成することで、音声データを可視化してもよい。また、音声可視化部35は、音声データが示す周波数に基づく波形の画像を生成することで、音声データを可視化してもよい。また、音声可視化部35は、音の高低による色の変更や、類似する音色を示すアイコンの表示等を用いて、音声データを可視化してもよい。また、音声可視化部35は、音声データを可視化した複数の種類の画像を生成してもよい。
ただし、音声可視化部35は、設定範囲データが抽出されていない、又は、暫定教師データとの乖離度が閾値以下の場合、対応する音声データを可視化しないこととしてもよい。これは、ラベルデータを設定する対象のみを可視化した方が作業者による確認の効率がよく、また乖離度の低い設定範囲はノイズデータである可能性が低く、確認する必要性が低い場合があるためである。
設定部16は、音声可視化部35から入力された音声情報、乖離度、可視化された画像に基づいてラベルデータの設定作業に用いられる設定画面を生成し、生成した設定画面を端末装置100に提供する。設定部16は、特定部14から入力された、選定されなかった音声情報及び対応する類似度と、を用いて、作業者がラベルデータを設定する手段を提供する。設定部16は、CPU211を介して、設定画面を表示部215に表示するとともに、入力部216に対する作業者の操作を認識する。
本実施形態におけるラベルデータの設定作業に利用される設定画面の一例を図10に示す。図10の例では、設定画面は、画像表示領域G31、低乖離度再生ボタンG32−1〜G32−6、高乖離度再生ボタンG33、シークバーG34、進捗表示領域G35、作業完了ボタンG36を含む。設定部16は、入力部216へ与えられるクリック、カーソル位置等の情報等を検知し、検知した操作等に基づいて、各オブジェクトの表示を制御する。
画像表示領域G31は、音声可視化部35から入力された画像を表示する領域である。設定部16は、画像表示領域G31に表示される画像の解像度を、画像表示領域G31の大きさに基づいて拡大縮小してもよい。また、画像表示領域G31に表示される画像の大きさが画像表示領域G31よりも大きい場合、設定部16は、画像の一部を表示し、スクロールバーによって表示位置を変更できるようにしてもよい。設定部16は、可視化された画像のうち、各設定範囲データの境界に対応する部分には境界線を表示させる。設定部16は、画像中の各設定範囲領域を、乖離度に応じた表示態様で表示させることとしてもよい。例えば、設定部16は、乖離度が低い場合には背景を薄く、乖離度が高い場合には背景を濃くする等してもよい。
低乖離度再生ボタンG32−1〜G32−6と高乖離度再生ボタンG33とは、それぞれ乖離度の低い設定範囲と乖離度の高い設定範囲とに対応した再生ボタンである。設定部16は、再生ボタンへのクリックを検知すると、音声出力部を介して、対応した設定範囲領域の音声データを音声出力する。設定部16は、音声の再生中に、再度再生ボタンのクリックを検知すると、再生を中断してもよい。設定部16は、再度再生ボタンのクリックを検知すると、中断位置から音声を再生してもよい。設定部16は、各再生ボタンの表示態様を、乖離度の値に応じて変化させてもよい。例えば、設定部16は、乖離度が高くなればなる程、ボタンの色を黒に近づけたり、枠線を強調表示したりしてもよい。これにより、乖離度の高い設定範囲が見た目から分かるようになる。また、設定部16は、設定されたラベルデータに応じて、ボタンの表示態様を、変化させてもよい。
シークバーG34は、音声の再生位置を示すシークバーである。シークバーは、音声データ全体に対応してもよいし、設定範囲ごとに独立してもよい。
進捗表示領域G35は、ラベルデータ設定作業の進捗情報を表示する領域である。進捗情報は、例えば、未処理データの残数や、閾値以下の乖離度である設定範囲データの割合等により表現される。これにより、作業者は作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよその見積もりが可能となる。設定部16は、作業完了ボタンG36のクリックを検知すると、ラベルデータの設定作業を完了させる。設定部16は、設定画面上で設定されたラベルデータをラベルデータベースM2に出力する。
作業者は、設定範囲に対応した画像表示領域G31上の領域をクリックすることで、設定範囲に対してラベルデータを設定する作業を行う。例えば、「正常」と「ノイズ」との2種類カテゴリの何れに属するかを示すラベルデータがある場合、設定部16は、各設定範囲のラベルデータをすべて「正常」カテゴリを示すよう初期化する。そして、設定部16は、設定範囲領域へのクリックに応じて「ノイズ」カテゴリを示すラベルデータに切り替える。設定部16は、再度の設定範囲領域へのクリックに応じて、「正常」カテゴリを示すラベルデータに切り替える。これにより、ノイズデータらしい設定範囲を正常な設定範囲と区別することが可能になる。ラベルデータが2種類よりも多い場合の操作方法としては、設定範囲をクリックした回数に基づいてラベルデータを切り替える方法や、クリック時にラベルデータの一覧をポップアップし選択する方法がある。また、予めラベルデータを選択しておき、クリック時は選択されたラベルデータを設定する方法等もある。複数の設定範囲に対してまとめて設定したい場合は、画像上をドラッグすることで指又はカーソルが通過した設定範囲のラベルデータを切り替える方法等がある。
設定部16は、設定範囲領域へのフリック操作に応じて、ラベルデータを設定してもよい。例えば、設定部16は、上方向へのフリックに応じて、「正常」カテゴリを示すラベルデータを設定し、下方向へのフリックに応じて、「ノイズ」カテゴリを示すラベルデータを設定してもよい。
設定部16は、作業者による設定範囲領域上でのロングタップ又はマウスの長押しを検知すると、対応する設定範囲データの類似音声情報をポップアップ表示してもよい。類似する音声が確認できることで、どのラベルデータを設定するか迷うような場合でも、情報処理サーバ10は、作業者の判断材料を増やすことができる。また、設定部16は、設定範囲データに、ラベルデータを設定する際は、類似する設定範囲データについても、まとめて共通するラベルデータを設定してよい。
構成部17は、各設定範囲データと、ラベルデータベースM9に記憶されている各設定範囲データと対応するラベルデータと、を含ませるように教師データを構成する。構成の方法は必要とされる教師データの形式に対応する。例えば、構成部17は、正常な音声データのみが必要な場合は、「正常」のラベルデータが設定された音声データによって教師データを構成する。また、音声データではなく特徴量のみが必要な場合は、構成部17は、特徴量とラベルデータによって教師データを構成する。構成部17は、構成した教師データを、教師データベースM3に記憶する。
すべての未処理データの乖離度が閾値以下となった場合、残った未処理データは、すべて「正常」カテゴリに属すると仮定できる。そこで、乖離度の最大値が閾値以下となった場合、構成部17は、ラベルデータ設定作業はすべて完了したものとみなし、すべての未処理データに対して「正常」ラベルデータを設定し、教師データを構成する。「正常」と「ノイズ」と以外のラベルデータが存在する場合、設定部16は、各ラベルデータに対応する暫定教師データを用いて、最も分類スコアが高くなる、又は特徴量同士の距離が小さくなるラベルデータを設定する。未処理データがなくなった段階で、教師データベースM3に記憶された教師データが、最終的な教師データとなる。
図11は、本実施形態の情報処理サーバ10の処理の一例を示すフローチャートである。ここでは、図11を用いて、本実施形態における教師データ作成処理について説明する。
S301において、取得部11は、記憶サーバ200から、音声データである基礎データを取得する。
S302において、範囲抽出部12は、S301で取得された基礎データである音声データそれぞれから、設定範囲を抽出する。
S303において、設定部16は、S302で抽出された設定範囲が示す設定範囲データの全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部17は、S302で抽出された設定範囲が示す設定範囲データと、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースM3に記憶する。
S304において、特徴量抽出部13は、S302で抽出された設定範囲が示す設定範囲データそれぞれが示す音声データから設定された特徴量を抽出する。
S305において、取得部11は、S301で取得された基礎データを基礎データベースM1に記憶する。範囲抽出部12は、S302で抽出した設定範囲を、S301で取得された基礎データと対応付けて、基礎データベースM1に記憶する。特徴量抽出部13は、S304で抽出した特徴量を、S301で取得された基礎データとS302で抽出された設定範囲とに対応付けて、基礎データベースM1に記憶する。
S306において、特定部14は、ランダムに、初回のラベルデータの設定作業の対象となる設定範囲データを特定する。
S307において、音声可視化部35は、S301で取得された基礎データである音声データを可視化する。可視化の方法は、図9で説明した方法と同様である。
S308において、設定部16は、S307で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置100に提供する。図10の設定画面は、S308で表示される設定画面の一例である。設定部16は、CPU211に対して、提供された設定画面を、表示部215に表示するよう指示することで設定画面を表示部215に表示させる。
作業者は、設定画面上に表示された画像を確認し、必要に応じて音声を再生しながら、ノイズデータの有無を確認する。ノイズデータを発見した場合、ノイズデータの設定範囲領域をクリックする。
S309において、設定部16は、S308で表示された設定画面を介した作業者による操作に基づいて、設定範囲データに対するラベルデータの指定を受付ける。本実施形態では、設定部16は、作業者による設定画面中の設定範囲領域がクリックに応じて、そのパッチに対応する設定範囲領域に対して、「ノイズ」カテゴリであることを示すラベルデータの指定を受付ける。設定部16は、指定を受けたら、クリックが検知されたパッチに対応する設定範囲データに、「ノイズ」カテゴリであることを示すラベルデータを設定する。設定部16は、作業終了ボタンG14へのクリックに応じて、今回のラベルデータの設定作業を終了する。
S310において、設定部16は、S309で設定したラベルデータを、対応する設定範囲データと対応付けて、ラベルデータベースM2に記憶する。
S311において、構成部17は、S310で設定範囲領域と対応付けて記憶されたラベルデータに基づいて、教師データを構成する。本実施形態では、構成部17は、「ノイズ」カテゴリを示すラベルデータと、設定範囲領域と、を含む教師データを構成する。
S312において、構成部17は、S311で構成した教師データに基づいて、教師データベースM3に記憶される暫定教師データを更新する。本実施形態では、情報処理サーバ10が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部17は、初回のS312の処理の際に、S303で初期化された暫定教師データに含まれる設定範囲領域から、S311で構成された教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。その後のS312の処理の際には、構成部17は、教師データベースM3に記憶された暫定教師データに含まれる設定範囲領域から、直前のS311で構成した教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。
S313において、特定部14は、教師データベースM3に記憶された暫定教師データが示す暫定教師音声データと、各未処理データが示す音声データと、の乖離度を決定する。
S314において、特定部14は、S313で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる設定範囲データを特定する。
S315において、特定部14は、S314で特定した未処理データに対応する乖離度が、予め設定された閾値以下か否かを判定する。ここで、乖離度は、高い程乖離していることを示す指標であるとする。特定部14は、S314で特定した未処理データに対応する乖離度が、予め設定された閾値以下であると判定した場合、ラベルデータの設定作業が完了したものとして、S316の処理に進む。特定部14は、S314で特定した未処理データに対応する乖離度が、予め設定された閾値よりも大きいと判定した場合、S307の処理に進む。
S316において、構成部17は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部17は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。本実施形態では、S303で全ての人体範囲領域について、ラベルデータの初期値を設定しているので、S216で、構成部17は、改めて教師データを構成しなくてもよい。
S317において、構成部17は、S316で構成した教師データを、教師データベースM3に記憶する。この段階で、教師データベースM3に記憶された教師データを、最終的な教師データとする。
以上、本実施形態野処理により、情報処理サーバ10は、基礎データが音声データである場合でも、「ノイズ」カテゴリのデータの候補となるデータを特定できる。
また、乖離度の高い設定範囲の画像又は再生ボタン等を強調表示することで、どの音声が乖離度の高い設定範囲に対応しているかを容易に判断することが可能になり、作業者は注目すべき人物を注目することが簡単になる。
また、ラベルデータの設定状況に対応して、画像や再生ボタンの色や形状等の見た目を変化させることで、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
例えば、上述した情報処理システムの機能構成の一部又は全てをハードウェアとして情報処理サーバ10に実装してもよい。
実施形態1〜4では、情報処理サーバ10は単体の情報処理装置であるとしたが、複数のPC、サーバ装置、タブレット装置等であるとしてもよい。その場合、情報処理サーバ10に含まれる各情報処理装置のCPUが、各情報処理装置の補助記憶装置に記憶されるプログラムに基づき、連携して処理を実行することで、図3、9の機能及び図5、8、11のフローチャートの処理等が実現される。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。上述した各実施形態を任意に組み合わせてもよい。
10 情報処理サーバ
100 端末装置
200 記憶サーバ

Claims (15)

  1. 複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付手段と、
    前記受付手段によりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定する第1の決定手段と、
    前記第1の決定手段により決定された前記乖離度に基づいて、前記複数のデータから、前記第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する特定手段と、
    を有する情報処理装置。
  2. 前記受付手段は、前記複数のデータに含まれるデータについて、前記第1のカテゴリの指定を受付け、
    前記第1の決定手段は、前記受付手段により前記第1のカテゴリの指定が受付けられたデータと、前記複数のデータに含まれるデータと、の乖離の度合いを、前記乖離度として決定する請求項1記載の情報処理装置。
  3. 前記受付手段は、前記複数のデータに含まれるデータについて、前記第2のカテゴリの指定を受付け、
    前記第1の決定手段は、前記複数のデータから前記受付手段により前記第2のカテゴリの指定が受付けられたデータを除いたデータと、前記複数のデータに含まれるデータと、の乖離の度合いを、前記乖離度として決定する請求項1記載の情報処理装置。
  4. 前記複数のデータを表示部に表示する表示制御手段を更に有し、
    前記受付手段は、前記表示制御手段により前記表示部に表示された前記複数のデータに含まれるデータについて、カテゴリの指定を受付ける請求項1乃至3何れか1項記載の情報処理装置。
  5. 前記特定手段により特定されたデータの数と、前記特定手段により特定されたデータのうちカテゴリが指定されたデータの数と、に基づいて、前記複数のデータの分類作業の進捗度を取得する取得手段を更に有し、
    前記表示制御手段は、前記取得手段により取得された前記進捗度を前記表示部に表示する請求項4記載の情報処理装置。
  6. 前記表示制御手段は、前記特定手段により特定されたデータを前記表示部に表示する請求項4又は5記載の情報処理装置。
  7. 前記表示制御手段は、前記特定手段により特定されたデータを、前記特定手段により特定されたデータに対応する前記乖離度に応じた表示態様で、前記表示部に表示する請求項6記載の情報処理装置。
  8. 前記表示制御手段は、前記複数のデータのうち、前記特定手段により特定されたデータと類似するデータを前記表示部に表示する請求項6又は7記載の情報処理装置。
  9. 前記表示制御手段は、前記複数のデータを、前記複数のデータに含まれるデータそれぞれに対応するカテゴリに応じた表示態様で、前記表示部に表示する請求項4乃至7何れか1項記載の情報処理装置。
  10. 前記特定手段により前記第2のカテゴリのデータの候補となるデータが特定されなかった場合、前記複数のデータのうち、カテゴリが指定されていないデータを、前記第1のカテゴリのデータとして決定する第2の決定手段を更に有する請求項1乃至9何れか1項記載の情報処理装置。
  11. 前記複数のデータのそれぞれは、動画像における各フレーム内のオブジェクトの領域である請求項1乃至10何れか1項記載の情報処理装置。
  12. 前記受付手段は、前記複数のデータに含まれる同一のオブジェクトの領域であるデータのうち、指定された期間の間、連続するデータについて、一括してカテゴリの指定を受付ける請求項11記載の情報処理装置。
  13. 前記複数のデータのそれぞれは、音声データである請求項1乃至10何れか1項記載の情報処理装置。
  14. 情報処理装置が実行する情報処理方法であって、
    複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付ステップと、
    前記受付ステップでカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定する決定ステップと、
    前記決定ステップで決定された前記乖離度に基づいて、前記複数のデータから、前記第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する特定ステップと、
    を含む情報処理方法。
  15. コンピュータを、請求項1乃至13何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
JP2017098163A 2017-05-17 2017-05-17 情報処理装置、情報処理方法及びプログラム Active JP6914724B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017098163A JP6914724B2 (ja) 2017-05-17 2017-05-17 情報処理装置、情報処理方法及びプログラム
US15/977,971 US20180336435A1 (en) 2017-05-17 2018-05-11 Apparatus and method for classifying supervisory data for machine learning
DE102018003903.0A DE102018003903A1 (de) 2017-05-17 2018-05-15 Vorrichtung und Verfahren zur Klassifizierung von Daten zum überwachten Maschinenlernen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017098163A JP6914724B2 (ja) 2017-05-17 2017-05-17 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018195062A true JP2018195062A (ja) 2018-12-06
JP6914724B2 JP6914724B2 (ja) 2021-08-04

Family

ID=64272347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017098163A Active JP6914724B2 (ja) 2017-05-17 2017-05-17 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20180336435A1 (ja)
JP (1) JP6914724B2 (ja)
DE (1) DE102018003903A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114493457A (zh) * 2022-02-11 2022-05-13 常州刘国钧高等职业技术学校 一种自动化立体仓储的智能控制方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7229698B2 (ja) * 2018-08-20 2023-02-28 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP7292980B2 (ja) 2019-06-04 2023-06-19 キヤノン株式会社 情報管理装置、撮像装置、制御方法、並びにプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145791A (ja) * 2010-01-13 2011-07-28 Hitachi Ltd 識別器学習画像生成プログラム、方法、及びシステム
JP2016076073A (ja) * 2014-10-06 2016-05-12 日本電気株式会社 データ処理装置、データ処理方法、及び、コンピュータ・プログラム
US9514414B1 (en) * 2015-12-11 2016-12-06 Palantir Technologies Inc. Systems and methods for identifying and categorizing electronic documents through machine learning

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137284A (ja) 2013-01-17 2014-07-28 Dainippon Screen Mfg Co Ltd 教師データ作成支援装置、教師データ作成装置、画像分類装置、教師データ作成支援方法、教師データ作成方法および画像分類方法
US20180032901A1 (en) * 2016-07-27 2018-02-01 International Business Machines Corporation Greedy Active Learning for Reducing User Interaction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145791A (ja) * 2010-01-13 2011-07-28 Hitachi Ltd 識別器学習画像生成プログラム、方法、及びシステム
JP2016076073A (ja) * 2014-10-06 2016-05-12 日本電気株式会社 データ処理装置、データ処理方法、及び、コンピュータ・プログラム
US9514414B1 (en) * 2015-12-11 2016-12-06 Palantir Technologies Inc. Systems and methods for identifying and categorizing electronic documents through machine learning

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114493457A (zh) * 2022-02-11 2022-05-13 常州刘国钧高等职业技术学校 一种自动化立体仓储的智能控制方法及系统
CN114493457B (zh) * 2022-02-11 2023-03-28 常州刘国钧高等职业技术学校 一种自动化立体仓储的智能控制方法及系统

Also Published As

Publication number Publication date
US20180336435A1 (en) 2018-11-22
DE102018003903A1 (de) 2018-11-22
JP6914724B2 (ja) 2021-08-04

Similar Documents

Publication Publication Date Title
US10621991B2 (en) Joint neural network for speaker recognition
US9886669B2 (en) Interactive visualization of machine-learning performance
JP2022116104A (ja) リアルタイム手書き認識の管理
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
JP2019016354A (ja) 表情アイコンを入力するための方法及び装置
JP2003030667A (ja) イメージ内で目を自動的に位置決めする方法
EP3136211A1 (en) Information-processing device, information-processing method, and computer program
US11256463B2 (en) Content prioritization for a display array
JP6914724B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11709593B2 (en) Electronic apparatus for providing a virtual keyboard and controlling method thereof
US20120300022A1 (en) Sound detection apparatus and control method thereof
JP6334767B1 (ja) 情報処理装置、プログラム、及び情報処理方法
WO2022237117A1 (zh) 交互式电子白板的触摸控制方法、系统和可读介质
EP2781991B1 (en) Signal processing device and signal processing method
CN108845757A (zh) 一种智能交互平板的触控输入方法及装置、计算机可读存储介质、智能交互平板
US11978252B2 (en) Communication system, display apparatus, and display control method
EP2781990A1 (en) Signal processing device and signal processing method
US20150062036A1 (en) Information processing device, method, and computer program product
JP7468360B2 (ja) 情報処理装置および情報処理方法
JP6796015B2 (ja) シーケンス生成装置およびその制御方法
CN114450730A (zh) 信息处理系统及方法
US11675496B2 (en) Apparatus, display system, and display control method
US20220382964A1 (en) Display apparatus, display system, and display method
US20220157295A1 (en) Information processing apparatus and information processing method
US20230244368A1 (en) Generating and Applying Editing Presets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210714

R151 Written notification of patent or utility model registration

Ref document number: 6914724

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151