JP6914724B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP6914724B2 JP6914724B2 JP2017098163A JP2017098163A JP6914724B2 JP 6914724 B2 JP6914724 B2 JP 6914724B2 JP 2017098163 A JP2017098163 A JP 2017098163A JP 2017098163 A JP2017098163 A JP 2017098163A JP 6914724 B2 JP6914724 B2 JP 6914724B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- category
- unit
- setting
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
教師データに含まれるデータの分類が正しく行われないと、例えば、検出対象でないカテゴリのデータを検出対象のデータとして、学習が行われると、検出対象の定義について、不適切な学習がなされてしまう場合がある。そのため、教師データに含まれるデータを正しく分類することが重要である。しかしながら、機械学習のための教師データは大規模であることが多く、大規模な教師データの確認は、非常に手間がかかる。
特許文献1には、類似するデータをグループ化し、代表例を確認しながらグループ単位で、まとめて教師データを確認・修正する技術が開示されている。より具体的には、画像等のデータから特徴量を抽出し、特徴量が近似するデータをグループ化し、グループの代表データを表示する。グループの代表データにラベルデータを設定すると、同グループに所属する他のデータにもラベルデータが伝播される。これにより、ラベルデータの設定をグループ単位でまとめて行うことができるため、すべてのデータを確認し、ラベルデータを設定する場合と比べて作業量が軽減される。
特許文献2には、以下の技術が開示されている。即ち、予め初期のラベルデータが設定された教師データを用いて学習された分類器の結果と、初期ラベルとの差異に基づいてノイズデータである可能性の高いデータ(以下では、ノイズ疑いデータ)を抽出し、ラベルデータを修正する技術が開示されている。この技術では、分類器の誤りを利用することで、ノイズ疑いデータに絞ってラベルデータを設定することができるため、作業の効率化が期待できる。
しかし、特許文献1、2では、複数のデータに含まれるデータそれぞれのカテゴリの初期値が不明な場合、その複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定できなかった。
図1は、本実施形態の情報処理システムのシステム構成の一例を示す図である。情報処理システムは、情報処理サーバ10、端末装置100、記憶サーバ200を含む。情報処理サーバ10、端末装置100、記憶サーバ200は、固定電話回線網、携帯電話回線網、インターネット、LAN等のネットワーク300を介して、相互に通信可能に接続されている。
情報処理サーバ10は、記憶サーバ200から取得したデータに対して、「正常」、「ノイズ」等のカテゴリのうち、取得したデータが属するカテゴリを示すラベルデータを設定し、教師データを作成することを支援する装置である。ラベルデータとは、対応するデータがどのカテゴリに属するかを示す情報である。情報処理システムは、記憶サーバ200を含まないこととしてもよい。その場合、情報処理サーバ10は、記憶サーバ200が記憶する情報を記憶することとなる。
端末装置100は、データの分類作業を行う作業者が利用する情報処理装置である。端末装置100は、例えば、PC(Personal Computer)、タブレットPC、スマートフォン、フューチャーフォン等である。
記憶サーバ200は、教師データの生成の基礎となるデータ(以下では、基礎データとする)を記憶する情報処理装置である。記憶サーバ200は、PC、スマートフォン、カメラ装置、ストレージデバイス等である。記憶サーバ200は、記憶するデータを、情報処理サーバ10に送信する。
本実施形態の情報処理システムは、基礎データから、「ノイズ」カテゴリに属するデータの候補となるデータを、作業者に提示する。作業者は、提示されたデータに対してラベルデータの設定作業を行う。そして、情報処理システムは、「ノイズ」カテゴリに属する疑いデータがなくなった時点で、残ったデータに「正常」カテゴリに属することを示すラベルデータを設定する。これにより、「ノイズ」カテゴリのデータが「正常」カテゴリのデータよりも少数である等の場合、情報処理システムは、教師データ作成に係る作業を効率化できる。
CPU201は、情報処理サーバ10の処理を制御する中央演算装置である。主記憶装置202は、CPU201のワークエリア、情報の一時的な記憶場所等として機能するRandom Access Memory(RAM)等の記憶装置である。補助記憶装置203は、各種プログラム、各種設定情報、教師データ、教師データの候補となるデータ、データのカテゴリを示すラベル情報等を記憶する記憶装置である。補助記憶装置203は、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の記憶媒体から構成される。ネットワークI/F204は、端末装置100、記憶サーバ200等の外部の装置との間でのネットワーク300を介した通信に利用されるインターフェースである。
本実施形態では、記憶サーバ200のハードウェア構成は、図2(a)に示される情報処理サーバ10のハードウェア構成と同様であるとする。記憶サーバ200の補助記憶装置には、教師データの候補となる候補データが記憶される。記憶サーバ200のCPUが、記憶サーバ200の補助記憶装置に記憶されたプログラムに基づき処理を実行することで、記憶サーバ200の機能及び記憶サーバ200の処理等が実現される。
CPU211は、端末装置100の処理を制御する中央演算装置である。主記憶装置212は、CPU211のワークエリア、情報の一時的な記憶場所等として機能するRAM等の記憶装置である。補助記憶装置213は、各種プログラム、各種設定情報、教師データ、基礎データ、ラベルデータ等を記憶する、ROM、HDD、SSD等の記憶媒体から構成される記憶装置である。ネットワークI/F214は、情報処理サーバ10、記憶サーバ200等の外部の装置との間でのネットワーク300を介した通信に利用されるインターフェースである。
表示部215は、情報処理サーバ10から送信された情報等を表示する、液晶パネルや有機ELパネル等の表示装置で構成される表示部である。表示部215には、情報処理サーバ10に記憶された動画像データや、画像データ、ラベルデータ、ラベルデータの設定に利用されるボタン、候補データの分類作業の進捗状況等が表示される。
CPU211が、補助記憶装置213に記憶されたプログラムに基づき処理を実行することで、端末装置100の機能及び端末装置100の処理等が実現される。
基礎データベースM1は、取得部11によって取得された基礎データ、範囲抽出部12によって抽出された範囲を示す情報、特徴量抽出部13によって抽出された特徴量の情報等を記憶するデータベースである。
ラベルデータベースM2は、ラベルデータを記憶するデータベースである。ラベルデータは、対応するデータが属するカテゴリを示すデータである。ラベルデータは、例えば、「正常」と「ノイズ」とのカテゴリの何れかを示す情報である。しかし、ラベルデータは、より詳細に分類されたカテゴリを示す情報であってもよい。例えば、ラベルデータは、「歩行」、「直立」、「異常行動」、「人体」、「非人体」等のカテゴリの何れに属するかを示す情報であってもよい。ラベルデータは、例えば、対応するデータが属する1つのカテゴリを示す情報(例えば、「正常」カテゴリに属することを示す情報)としてもよい。また、ラベルデータは、例えば、対応するデータが属する複数のカテゴリを示す情報(例えば、「人体」及び「歩行」のカテゴリに属することを示す情報)としてもよい。
取得部11は、記憶サーバ200から基礎データ(本実施形態では、動画像データ)を取得し、取得した基礎データを基礎データベースM1に記憶する。また、取得部11は、取得した基礎データを、範囲抽出部12、特徴量抽出部13に送信する。取得部11は、1つずつ逐次的に、基礎データを取得し、1つずつ逐次的に、基礎データベースM1に記憶し、範囲抽出部12、特徴量抽出部13に送信することとしてもよい。また、取得部11は、全ての基礎データを取得し、全ての基礎データを、基礎データベースM1に記憶し、範囲抽出部12、特徴量抽出部13に送信することとしてもよい。また、取得部11は、基礎データを、記憶サーバ200から直接取得するのではなく、記憶サーバ200から端末装置100を介して取得してもよい。
範囲抽出部12は、人体範囲を、各人物について抽出し、人体が存在する画像ごとに、座標、画像上の大きさ、動画像データ上で出現・消失する時刻、フレーム番号等の情報が設定された情報とする。例えば、ある動画像中に二人の人物が出現した場合、範囲抽出部12は、人体範囲を二つ抽出し、それぞれの人物が動画像中に現れてからいなくなるまでの間の期間と座標との情報を、人体範囲の情報に設定する。
範囲抽出部12は、例えば、人体形状に基づく人体検出手法を用いて、人体範囲を抽出してもよいし、背景差分に基づく動体検出を用いて、人体範囲を抽出してもよい。また、範囲抽出部12は、予め学習された人体範囲を抽出するためのConvolutional Neural Networks (CNN)を用いて、人体範囲を抽出してもよい。また、範囲抽出部12は、画像全体を、人体範囲として抽出してもよい。範囲抽出部12は、抽出した人体範囲を、基礎データベースM1に、取得部11により取得された基礎データと対応づけて記憶する。また、範囲抽出部12は、抽出した人体範囲を、特徴量抽出部13に送信する。
特徴量抽出部13は、抽出した特徴量を、基礎データベースM1に、取得部11により取得された基礎データと対応づけて記憶する。基礎データベースM1に記憶された特徴量は、画像同士の比較や教師データの一部等として利用される。
特定部14は、特定した人体範囲を、編集部15に送信する。範囲抽出部12により抽出された人体範囲は、画像全体を示す範囲として抽出される場合もあり、画像の一部として抽出される場合もある。人体範囲は、動画像を一定の時間間隔、又は、動画像の変化があったかどうかに基づいて時間的に分割したものであってもよい。
暫定教師データが存在しない場合、特定部14は、未処理データの中から、ランダムにユーザによる次回の設定作業の対象を特定する。暫定教師データが存在する場合、特定部14は、未処理データについて、「正常」カテゴリとどの程度乖離しているかを示す乖離度を決定し、決定した乖離度に基づいて、ユーザによる次回の設定作業の対象となる領域を示す人体範囲を特定する。本実施形態では、特定部14は、未処理データと暫定教師データ領域との乖離の度合いに基づいて、「正常」カテゴリとどの程度乖離しているかを示す乖離度として決定する。乖離度は、未処理データが「正常」カテゴリとどの程度乖離しているかを示す指標であるが、逆に見れば、未処理データが「正常」カテゴリとどの程度類似しているかを示す指標でもある。例えば、特定部14が、値が高い程、乖離していることを示す指標を、乖離度として決定したとする。その場合、乖離度は、その値が高い程、未処理データが「正常」カテゴリと乖離していることを示し、その値が低い程、未処理データが「正常」カテゴリ類似していることを示す指標となる。逆に、例えば、特定部14が、値が低い程、乖離していることを示す指標を、乖離度として決定したとする。その場合、乖離度は、その値が高い程、未処理データが「正常」カテゴリと類似していることを示し、その値が低い程、未処理データが「正常」カテゴリと乖離していることを示す指標となる。
特定部14による、暫定教師データ領域と未処理データとの乖離の度合いを示す乖離度を決定する方法について説明する。特定部14は、未処理データに対応する人体範囲ごとに、乖離度を求める。
乖離度を決定する方法の1つとして、暫定教師データ領域の特徴量と、乖離度を生成する対象である未処理データの特徴量とを比較し、特徴量間の距離の最大値を乖離度とする方法がある。特定部14は、例えば、以下の式1を用いて、暫定教師データ領域と未処理データとの乖離の度合いを、乖離度として決定する。また、距離の取得方法は、ユークリッド距離やハミング距離、マハラノビス距離等を用いた方法がある。
乖離度を決定する他の方法としては、暫定教師データから学習された分類器を用いる方法がある。この方法は、未処理データに対して分類器をかけ、「正常」と「ノイズ」とへの分類スコアに基づいて乖離度を決定する方法である。特定部14は、例えば、以下の式2を用いて、この方法を実現する。
特定部14は、次回のラベルデータの設定作業の対象として特定されなかった人体範囲領域について、特定した人体範囲領域との類似度を生成してもよい。領域同士の類似度を決定する方法は、1つの方法に限定されない。例えば、特定部14は、領域同士の乖離度を求めた後で、乖離度の逆数を類似度としてもよい。特定部14は、特定しなかった人体範囲領域について、決定した特定した人体範囲領域との類似度を、設定部16に送信することしてもよい。
ラベルデータ設定作業のために端末装置100に表示される動画像は、画像全体でなくともよい。ラベルデータは、人体範囲領域に設定されるため、人体範囲領域が存在しない画像(例えば、動画像における人が写っていないフレーム等)は、表示の必要ない場合がある。編集部15は、ラベルデータ設定作業を行う作業者が画像を確認する負荷を軽減するため、人体範囲領域が映っている画像のみを抽出する。ただし、動画像データの編集が求められていない、又は、人体範囲領域が存在しない部分の動画像を残す理由がある場合は、編集部15は、上記の編集処理を行わなくてもよい。また、編集部15は、人体範囲領域が存在する場合でも、教師データからの乖離度が閾値以下の場合には対応する人体範囲領域を含む部分を抽出対象から除いてもよい。これは、人体範囲は、対応する乖離度が低い程、ノイズデータである可能性が低く、確認する必要性が他の人体範囲領域よりも低いためである。
本実施形態におけるラベルデータの設定画面の一例を図4に示す。図4の例では、設定画面は、画像表示領域G1、操作オブジェクトG2−1〜G2−5、進捗表示領域G3、作業完了ボタンG4、低乖離度人体枠G5−1、〜G5−5、高乖離度人体枠G6−1、G6−2を含む。設定部16は、CPU211を介して、端末装置100の入力部216を介した操作を検知し、検知した操作に応じて、これらの表示を制御する。また、設定部16が、端末装置100から、CPU211により検知された入力部216を介した操作の情報を、取得して、取得した情報に基づいて、設定画面中のオブジェクトの表示を制御することとしてもよい。設定部16の処理は、表示部215への表示を制御する表示制御の処理の一例である。以下では、「タップ」又は「リック」操作のことを、単に「クリック」とする。
進捗表示領域G3は、ラベルデータ設定作業の進捗を示す進捗情報を表示する。進捗情報は、例えば、ラベルデータの設定処理が未処理のデータの残数や、設定された閾値以下の乖離度である人体範囲領域の割合等によって表現される。進捗表示領域G3に表示された進捗情報により、作業者は、作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよそを見積もることができる。
作業完了ボタンG4は、ラベルデータ設定作業の完了させるためにクリックされるボタンである。設定部16は、作業完了ボタンG4の選択を検知すると、ラベルデータ設定作業が完了したことを検知する。その後、設定部16は、設定画面を介して設定されたラベルデータを、人体範囲と対応付けて、ラベルデータベースM2に記憶する。
設定部16は、人体枠を、ノイズデータである可能性が他の人体枠よりも高いことを強調させるため、暫定教師データとの乖離度に応じて、表示態様(例えば、色、形状等)を変化させてもよい。例えば、図4の例では、低乖離度人体枠G5−1〜G5−5は、高乖離度人体枠よりも乖離度の低い人体範囲を示しており、1本の実線で表された枠である。一方で、高乖離度人体枠G6−1、G6−2は、乖離度が低乖離度人体枠よりも高い人体範囲を示しており、二重線で表された枠である。設定部16は、人体枠の表示態様を、乖離度に応じて連続的に変化させてもよい。また、設定部16は、対応するラベルデータに応じて、人体枠の表示態様を変化させてもよい。例えば、設定部16は、人体枠の色を、ラベルデータが設定されていない、又は初期値である場合は黒色として、「正常」ラベルデータが設定された場合は青色として、「ノイズ」ラベルデータが設定された場合は赤色としてもよい。
これにより、ノイズデータの人体範囲領域を、正常な人体範囲領域と、視覚により区別することが可能になる。ラベルデータが2種類よりも多い場合の操作方法としては、人体枠をクリックした回数に基づいてラベルデータを切り替える方法や、クリック時にラベルデータの一覧をポップアップし選択する方法がある。また、予めラベルデータを選択しておき、クリック時は選択されたラベルデータを設定する方法等もある。
また、画像データではなく特徴量が必要な場合、構成部17は、特徴量と対応するラベルデータとを含むように教師データを構成する。人体範囲の画像と座標とが必要な場合、構成部17は、基礎データが示す画像中から抽出された人体範囲が示す画像と、基礎データが示す画像内におけるその人体範囲の座標と、その人体範囲に対応するラベルデータと、を含ませるように教師データを構成する。構成部17は、構成した教師データを、教師データベースM3に記憶する。
すべての未処理データの乖離度が閾値以下となった場合、ラベルデータが設定されていない未処理データは、「正常」カテゴリに属すると仮定できる。そこで、乖離度の最大値が閾値以下となった場合、設定部16は、ラベルデータ設定作業は完了したものとみなし、すべての未処理データに対して「正常」ラベルデータを設定する。なお、設定部16は、「正常」と「ノイズ」と以外のラベルデータが存在する場合は、各ラベルデータに対応する暫定教師データを用いて、最も分類スコアが高くなる、又は、特徴量同士の距離が小さくなるラベルデータを設定する。情報処理サーバ10は、未処理データがなくなった段階で、教師データベースM3に記憶された教師データを最終的な教師データとして、教師データ作成作業を終了する。
S101において、取得部11は、記憶サーバ200から、動画像である基礎データを取得する。
S102において、範囲抽出部12は、S101で取得された基礎データの各フレームから、人体範囲を抽出する。
S103において、設定部16は、S102で抽出された人体範囲が示す人体範囲領域の全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部17は、S102で抽出された人体範囲が示す人体範囲領域と、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースM3に記憶する。初期化された暫定教師データ内の暫定教師データ領域のそれぞれは、作業者によるラベルデータの指定を受けていないので、S103の段階では、すべて未処理データである。
S104において、特徴量抽出部13は、S102で抽出された人体範囲それぞれが示す人体範囲領域から設定された特徴量を抽出する。
S106において、特定部14は、ランダムに、初回のラベルデータの設定作業の対象となる人体範囲領域を特定する。本実施形態では、特定部14は、人体範囲を特定し、特定した人体範囲が示す人体範囲領域すべてを、ラベルデータの設定作業の対象として特定する。
S107において、編集部15は、S101で取得された基礎データを編集する。編集方法は、図3で説明した方法と同様である。
S108において、設定部16は、S107で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置100に提供する。図4の設定画面は、S108で表示される設定画面の一例である。設定部16は、提供された設定画面を、表示部215に表示する。
S110において、設定部16は、S109で設定したラベルデータを、対応する人体範囲領域と対応付けて、ラベルデータベースM2に記憶する。
S112において、構成部17は、S111で構成した教師データに基づいて、教師データベースM3に記憶される暫定教師データを更新する。本実施形態では、情報処理サーバ10が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部17は、初回のS112の処理の際に、S103で初期化された暫定教師データに含まれる人体範囲領域から、S111で構成された教師データに対応する人体範囲領域を削除することで、暫定教師データを更新する。その後のS112の処理の際には、構成部17は、教師データベースM3に記憶された暫定教師データに含まれる人体範囲領域から、直前のS111で構成した教師データに対応する人体範囲領域を削除することで、暫定教師データを更新する。
S114において、特定部14は、S113で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる人体範囲領域を特定する。
特定部14は、S113で各未処理データについて、決定した乖離度に基づいて、S101で取得された基礎データである動画像におけるフレームごとの乖離度を決定してもよい。そして、特定部14は、フレームごとに決定された乖離度に基づいて、次回のラベルデータの設定作業の対象となる人体範囲領域を含むフレーム特定してもよい。
S116において、構成部17は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部17は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。
S117において、構成部17は、S116で構成した教師データを、教師データベースM3に記憶する。この段階で、教師データベースM3に記憶された教師データを、最終的な教師データとする。
また、情報処理サーバ10は、「ノイズ」カテゴリのデータの候補となるデータがなくなった段階で、すべてのラベルデータの設定処理が未処理のデータに「正常」のラベルデータを設定した。これにより、ラベルデータを直接設定する回数が削減されるため、情報処理サーバ10は、ラベルデータの設定作業を効率化できる。
また、情報処理サーバ10は、人体枠へのロングタップ等の特定の操作に応じて、人体枠に対応する人体範囲と類似する画像をポップアップ再生することとした。これにより、人体枠のラベルデータを決定する際の判断材料が増えることになり、情報処理サーバ10は、作業者によるラベルデータ設定に関する判断をサポートできる。
また、情報処理サーバ10は、特定部14を介して、ラベルデータの設定作業の対象となるデータを特定する際に、ラベルデータが設定されるデータを、画像そのものでなく人体範囲とした。そして、情報処理サーバ10は、暫定教師データを更新するタイミングを調整することとした。これにより、作業者は、時間的に長い動画像を基礎データとした場合でも、ノイズ疑いデータを効率的に削減することができる。
また、情報処理サーバ10は、乖離度の大きさに応じて、人体範囲を示す人体枠の表示態様を変更することとした。これにより、どの人体枠が乖離度の高い人体範囲に対応しているかを容易に判断することが可能になり、作業者は、容易に注目すべき人物を注目することができるようになる。
また、情報処理サーバ10は、ラベルデータが設定されているか否かに応じて、人体範囲を示す人体枠の表示態様を変化させた。これにより、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。
設定部16は、S103で、暫定教師データを初期化しないこととしてもよい。そして、S109で、設定部16は、S108で表示された設定画面を介した作業者による操作に基づいて、「ノイズ」カテゴリであることを示すラベルデータの指定を受付けることとなる。しかし、設定部16は、それとは別に、設定画面を介した作業者による操作に基づいて、「正常」カテゴリであることを示すラベルデータの指定を受付けることとする。その場合、設定部16は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「正常」カテゴリであることを示すラベルデータを設定する。そして、S111で、構成部17は、S109で設定された「正常」カテゴリであることを示すラベルデータと、S109で「正常」カテゴリであることを示すラベルデータが設定された人体範囲領域と、を含む教師データを構成する。そして、S112で、構成部17は、S111で構成した教師データを、暫定教師データとして、教師データベースM3に記憶してもよい。以降のS112では、構成部17は、直前のS111で構成した教師データに基づいて、暫定教師データを更新する。より具体的には、構成部17は、暫定教師データ領域に、S111で構成した教師データに含まれる人体範囲領域を追加することで、暫定教師データを更新する。
そして、S113で、特定部14は、未処理データと、暫定教師データ領域と、の乖離度を決定する。S114で、特定部14は、乖離度に基づいて、未処理データから、次回のラベルデータ設定作業の対象を決定することとしてもよい。特定部14は、例えば、式1を用いて、乖離度を決定する。この場合、暫定教師データは、「正常」カテゴリのデータである。そのため、決定された乖離度は、値が高い程、「正常」カテゴリから乖離していることを示す指標となる。そして、特定部14は、例えば、設定された閾値よりも乖離度が高い未処理データを、次回のラベルデータの設定作業の対象とする。
設定部16は、S103で、暫定教師データを初期化しないこととしてもよい。そして、S109で、設定部16は、S108で表示された設定画面を介した作業者による操作に基づいて、「ノイズ」カテゴリであることを示すラベルデータの指定を受付けることとする。その場合、設定部16は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「ノイズ」カテゴリであることを示すラベルデータを設定する。そして、S111で、構成部17は、S109で設定されたラベルデータと、S109でラベルデータが設定された人体範囲領域と、を含む教師データを構成する。そして、S112で、構成部17は、S111で構成した教師データを、暫定教師データとして、教師データベースM3に記憶してもよい。以降のS112では、構成部17は、直前のS111で構成した教師データに基づいて、暫定教師データを更新する。より具体的には、構成部17は、暫定教師データ領域に、S111で構成した教師データに含まれる人体範囲領域を追加することで、暫定教師データを更新する。
そして、S113で、特定部14は、未処理データと、暫定教師データ領域と、の乖離度を決定する。S114で、特定部14は、乖離度に基づいて、未処理データから、次回のラベルデータ設定作業の対象を決定することとしてもよい。特定部14は、例えば、式1を用いて、乖離度を決定する。この場合、暫定教師データは、「ノイズ」カテゴリのデータである。そのため、決定された乖離度は、値が低い程(暫定教師データと類似する程)、「正常」カテゴリから乖離していることを示す指標となる。そして、特定部14は、例えば、設定された閾値よりも乖離度が低い未処理データを、次回のラベルデータの設定作業の対象として特定する。
動画像において、同じ人物が属するカテゴリが時間に応じて変化する場合がある。例えば、移動しながら万引きを繰り返す人物の場合、移動中は「正常」カテゴリに属するが、万引き中は「ノイズ」カテゴリに属することになる。
本実施形態では、動画像中で属するカテゴリが変化する人体範囲について、時間的に分割し、分割された人体範囲について効率的にラベルデータを設定する方法を説明する。以下では、分割された人体範囲のそれぞれを、サブ人体範囲とする。
本実施形態の情報処理システムのシステム構成は、実施形態1と同様である。また、情報処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態1と同様である。
本実施形態のラベルデータベースM2は、設定部16から入力された、サブ人体範囲ごとに、人体範囲領域に対応したラベルデータを記憶する。サブ人体範囲は、画像における人体の座標、時間的な範囲を示す始点・終点の情報を含む。
設定部16は、実施形態1と同様に、編集部15から取得した基礎データ、及び乖離度に基づいて、ラベルデータの設定作業に利用される設定画面を生成し、端末装置100に提供する。設定部16は、実施形態1と異なり、人体範囲ごとでなく、サブ人体範囲ごとに、サブ人体範囲が示す人体範囲領域にラベルデータを一括して設定し、サブ人体範囲ごとに設定したラベルデータを、ラベルデータベースM2に記憶する。
設定部16によるサブ人体範囲にラベルデータを設定する方法について説明する。設定部16は、図4に示すような設定画面を端末装置100に提供する。また、設定部16は、人体枠へのクリックに応じて、表示されるポップアップ画面を、端末装置100に提供する。この各人体範囲に対応したポップアップ画面を、人体範囲ポップアップ画面とする。
人体枠G5b−1〜G5b−3は、基礎データである動画像中のある時刻におけるフレームに含まれる各人体範囲が示す人体の領域を示す。設定部16は、人体枠G5b−3への作業者によるクリックを検知し、対応する人体範囲ポップアップ画面G7bを表示する。設定部16は、作業者による人体範囲ポップアップ画面G7b以外の部分へのクリック等の予め設定された操作を検知すると、人体範囲ポップアップ画面G7bを消去することとしてもよい。
人体範囲ポップアップ画面G7bは、人体範囲フレーム画像G9b−1〜G9b−9を含む。人体範囲フレーム画像G9b−1〜G9b−9は、各時刻の人体範囲領域を示す画像である。設定部16は、人体範囲フレーム画像G9b−1〜G9b−9を、タイル状に並べて表示する。また、設定部16は、人体範囲ポップアップ画面G7bの大きさが、すべての人体範囲フレーム画像を表示するために不足する場合は、時間的な一部の範囲に対応した人体範囲フレーム画像を表示してもよい。また、設定部16は、人体範囲フレーム画像を、動画像における全てのフレームについて、並べて表示する必要はなく、設定された数のフレーム間隔に、人体範囲フレーム画像を表示してもよい。また、設定部16は、特定の基準にしたがって選択された代表的な人体範囲フレーム画像を表示することとしてもよい。
設定部16は、人体範囲フレーム画像のクリックを検知すると、クリックが検知された人体範囲フレーム画像に対応するフレームを基準として以降のフレームに対応する人体範囲領域についてのラベルデータを設定する。設定部16は、例えば、ラベルデータが設定されていない場合、「正常」カテゴリのラベルデータを設定する。設定部16は、例えば、「正常」カテゴリのラベルデータが設定されている場合、「ノイズ」カテゴリのラベルデータを設定する。設定部16は、例えば、「ノイズ」カテゴリのラベルデータが設定されている場合、「正常」カテゴリのラベルデータを設定する。また、設定部16は、時間的に連続して、共通するラベルデータが設定された同一人物の人体の領域を、1つのサブ人体範囲とする。
構成部17は、基礎データベースM1に記憶されている基礎データ、サブ人体範囲と、ラベルデータベースM2に記憶されているラベルデータと、に基づいて、教師データを構成する。構成部17は、実施形態1と異なり、人体範囲ごとに設定されたラベルデータでなく、サブ人体範囲ごとに設定されたラベルデータを用いる。構成部17は、サブ人体範囲ごとに、基礎データからサブ人体範囲が示す人体範囲領域を取得し、取得した人体範囲領域と、対応するラベルデータと、を含ませるように教師データを構成する。また、構成部17は、サブ人体範囲ごとに構成された教師データを、人体範囲ごとに統合してもよい。構成部17は、構成した教師データを、教師データベースM3に記憶する。
本実施形態では、人体ではなく、板金等の物品が撮影された画像を基礎データとする場合の情報処理システムの処理を説明する。
本実施形態の情報処理システムのシステム構成は、実施形態1と同様である。また、情報処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態1と同様である。
本実施形態では、記憶サーバ200は、板金等の物品の静止画像を、基礎データとして記憶する。
設定範囲とは、ラベルデータの設定対象となる、画像データ中の各領域(例えば、パッチ等)の画像中における位置を示す情報である。設定範囲は、例えば、画像データ中のラベルデータの設定対象の領域の座標の情報を含む。例えば、ある部品の画像データを縦にH個、横にW個のブロックに分割し、各ブロックを1つのパッチとして各パッチにラベルデータを設定する場合、設定範囲は、例えば、パッチの位置を示す座標(i,j)となる。ここで、i及びjは画像データ中のパッチの縦位置、横位置を示す座標データである。以下では、設定範囲が示す画像中の領域を、設定範囲領域とする。本実施形態では、範囲抽出部12により抽出された設定範囲が示す設定範囲領域それぞれが、分類対象のデータとなる。
また、設定範囲は、複数の画像データにおける同一の座標を示す情報であってもよい。その場合は、設定範囲は、例えば、画像データを特定するための情報を含む。複数の画像である基礎データ全体の一部がラベルデータの設定対象である場合、設定範囲は、例えば、ラベルデータの設定対象の画像データのインデックスを示すベクトルkを含む。そのため、設定範囲は、例えば、画像中のパッチの座標と画像インデックスを示す(i,j,k)となる。
本実施形態では、教師データは、設定範囲領域、その設定範囲領域の属するカテゴリを示すラベルデータ、を含む。本実施形態では、ラベルデータは、対応する画像データが、物品に欠陥がないことを示す「正常」カテゴリと、物品に欠陥が有ることを示す「ノイズ」カテゴリと、の何れに属するかを示す情報であるとする。
本実施形態の範囲抽出部12は、取得部11によって取得された画像データから、設定範囲を抽出する。範囲抽出部12は、例えば、ブロック分割や、コーナー又はエッジ検出等の検出器を用いて、設定範囲となるパッチを抽出してもよい。範囲抽出部12は、設定範囲とするパッチの大きさや、画像データの数を問題に応じて、変化してもよい。範囲抽出部12は、抽出した設定範囲を、基礎データベースM1に記憶する。また、範囲抽出部12は、抽出した設定範囲を、特徴量抽出部13に送信する。
また、特徴量抽出部13は、必要に応じて、画像データ全体の輝度等、設定範囲が示す領域よりも広域な情報や画像データ外のメタ情報を特徴量として抽出してもよい。特徴量抽出部13は、抽出した特徴量を、基礎データベースM1に記憶する。
特定部14は、暫定教師データとの乖離度を、各設定範囲について生成する。また、特定部14は、ある画像データに対応する設定範囲領域が複数存在する場合、各設定範囲領域について乖離度を生成し、各設定範囲領域の乖離度に基づいて画像データ全体としての乖離度を生成してもよい。例えば、特定部14は、各設定範囲から生成した乖離度の平均値や最大値、閾値以上の乖離度である設定範囲の数等を、画像データ全体としての乖離度として生成してもよい。
特定部14における乖離度の生成方法は、実施形態1と同様である。特定部14は、実施形態1と同様に、特定しなかった設定範囲領域と、特定した設定範囲領域との類似度を生成してもよい。特定部14は、特定しなかった設定範囲、及び、生成された類似度を、設定部16に送信する。
ただし、画像データの編集が求められていない、又は、設定範囲領域ではない部分の画像を残す理由がある場合は、編集部15は、編集を行わなくてもよい。また、編集部15は、画像中に設定範囲が存在する場合でも、暫定教師データとの乖離度が閾値以下の場合には、対応する設定範囲領域を含む画像を表示させないように編集してもよい。
本実施形態におけるラベルデータの設定に利用される設定画面の一例を図7に示す。図7の例では、設定画面は、画像表示領域G11、高乖離度パッチG12、進捗表示領域G13、作業完了ボタンG14を含む。設定部16は、CPU211を介して、入力部216へのクリック等の操作を検知し、検知した操作に応じて、これらのオブジェクトの表示を制御する。
高乖離度パッチG12は、画像表示領域G11に表示されたパッチのうち、低乖離度パッチよりも乖離度が高い設定範囲領域に対応するパッチである。高乖離度パッチは、「ノイズ」カテゴリである可能性があるため、枠の形状や色等の表示態様を変更することで強調表示される。なお、パッチの表示は、乖離度に対応して連続的に変化させてもよい。また、乖離度に関わらず、パッチの表示は、設定されたラベルデータに対応して変化させてもよい。進捗表示領域G13は、ラベルデータ設定作業の進捗情報を表示する領域である。進捗情報は、例えば、未処理データの残数や、閾値以下の乖離度である画像情報の割合等によって表現される。これにより、作業者は作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよその見積もりが可能となる。作業完了ボタンG14は、ラベルデータ設定作業を完了させる際にクリックされるボタンである。設定画面を介して設定されたラベルデータは、ラベルデータベースM2に記憶される。
設定部16は、フリック操作に応じて、ラベルデータを設定してもよい。
作業者による設定範囲領域へのロングタップ又はマウスの長押しにより、ロングタップ等された設定範囲領域の類似画像がポップアップ表示されることとしてもよい。類似画像は画像情報間の特徴量の距離に基づいて生成される。類似する画像を確認することで、どのラベルデータを設定するか迷うような場合でも、作業者の判断材料を増やすことができる。また、設定部16は、ラベルデータを設定する際は、クリック等された設定範囲領域と類似する設定範囲領域についても、もまとめて共通するラベルデータを設定してよい。
S201において、取得部11は、記憶サーバ200から、静止画像である基礎データを取得する。
S202において、範囲抽出部12は、S201で取得された基礎データである静止画像のそれぞれから、設定範囲を抽出する。
S203において、設定部16は、S202で抽出された設定範囲が示す設定範囲領域の全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部17は、S202で抽出された設定範囲が示す設定範囲領域と、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースM3に記憶する。
S204において、特徴量抽出部13は、S202で抽出された設定範囲が示す設定範囲領域それぞれが示す画像から設定された特徴量を抽出する。
S206において、特定部14は、ランダムに、初回のラベルデータの設定作業の対象となる設定範囲領域を特定する。
S207において、編集部15は、S201で取得された基礎データを編集する。
S208において、設定部16は、S207で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置100に提供する。図7の設定画面は、S208で表示される設定画面の一例である。設定部16は、提供された設定画面を、表示部215に表示する。
S210において、設定部16は、S209で設定したラベルデータを、対応する設定範囲領域と対応付けて、ラベルデータベースM2に記憶する。
S212において、構成部17は、S211で構成した教師データに基づいて、教師データベースM3に記憶された暫定教師データを更新する。本実施形態では、情報処理サーバ10が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部17は、初回のS212の処理の際に、S203で初期化された暫定教師データに含まれる設定範囲領域から、S211で構成された教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。その後のS212の処理の際には、構成部17は、教師データベースM3に記憶された暫定教師データに含まれる設定範囲領域から、直前のS211で構成した教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。
S213において、特定部14は、教師データベースM3に記憶された暫定教師データが示す暫定教師データ領域と、各未処理データが示す領域と、の乖離度を決定する。
S214において、特定部14は、S213で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる設定範囲領域を特定する。
S216において、構成部17は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部17は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。本実施形態では、S203で全ての人体範囲領域について、ラベルデータの初期値を設定しているので、S216で、構成部17は、改めて教師データを構成しなくてもよい。
S217において、構成部17は、S216で構成した教師データを、教師データベースM3に記憶する。この段階で、教師データベースM3に記憶された教師データを、最終的な教師データとする。
また、編集部15は、設定範囲領域の有無及び各設定範囲の乖離度に基づいて表示する画像を編集することとした。これにより、設定範囲が存在しない画像や、乖離度が低く確認する必要性の少ない画像を作業者が確認しなくなるため、作業者は必要な画像だけを効率的に確認することができる。
また、乖離度の高い設定範囲領域のパッチを強調表示することで、どのパッチが乖離度の高い設定範囲に対応しているかを容易に判断することが可能になり、作業者は注目すべきパッチを注目することが簡単になる。
また、ラベルデータの設定状況に対応して、パッチの色や形状等の見た目を変化させることで、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。
本実施形態では、基礎データが音声データである場合の情報処理システムの処理を説明する。
本実施形態の情報処理システムのシステム構成は、実施形態1と同様である。また、情報処理サーバ10、記憶サーバ200のハードウェア構成についても、実施形態1と同様である。端末装置100は、図2(b)のハードウェア構成に加えて、スピーカ、イヤホン、ヘッドホン等で構成される音声出力部を含む。設定部16は、CPU211を介して、音声出力部により設定部16から送信された音声を再生する。また、設定部16は、入力部216を介した操作に応じて、音声出力部を介した再生時の音量を変更してもよい。
本実施形態では、教師データは、1つ又は複数の音声データと、音声データが属するカテゴリを示すラベルデータと、を含む。
また、発話中のデータが属するカテゴリを、「正常」カテゴリとする。また、環境音や無音の音声データ等の「正常」カテゴリに属さない音声データが属するカテゴリを、「ノイズ」カテゴリとする。
基礎データベースM1は、取得部11により記憶サーバ200から取得された音声データである基礎データ、範囲抽出部12により基礎データから抽出された設定範囲、特徴量抽出部13により各設定範囲から抽出された特徴量データ、を対応付けて記憶する。基礎データベースM1に対応付けて記憶された各データを、ここでは総称して音声情報と呼ぶ。
設定範囲とは、ラベルデータを設定する対象となる、基礎データである音声データ全体、又は、音声データ中の連続する部分を示す情報である。基礎データ中で、設定範囲が示す部分の音声データを、設定範囲データとする。本実施形態では、設定範囲データが、分類対象のデータとなる。例えば、設定範囲は、音声データ中の時間的な始点と終点との情報によって表現される。
特徴量データは、特徴量抽出部13により設定範囲が示す音声データから抽出される。特徴量抽出部13は、1つ又は複数の設定された種類の特徴量を抽出する。
教師データベースM3は、構成部17によって構成された、音声情報とラベルデータとを含む教師データを記憶する。教師データの具体的な構成は必要とされる教師データの形式に対応して変化する。教師データベースM3に記憶された教師データは、教師データ作成作業の進捗に伴い追加的に更新される。特定部14は、教師データベースM3から教師データを取得し利用する。
取得部11は、記憶サーバ200から音声データである基礎データを取得し、基礎データベースM1や、範囲抽出部12、特徴量抽出部13に出力する。取得部11は、音声データを、逐次的に取得し、出力してもよいし、すべての音声データを取得した後でまとめて出力してもよい。なお、取得部11は、音声データを、記憶サーバ200から直接取得するのではなく、端末装置100を経由して取得してもよい。
特徴量抽出部13は、取得部11により取得された音声データと、範囲抽出部12により抽出された設定範囲と、に基づいて、各設定範囲に対応した特徴量データを抽出する。特徴量抽出部13は、1つ又は複数の設定された特徴量を抽出する。例えば、特徴量抽出部13は、MFCC(Mel−Frequency Cepstrum Coefficients)や、Deep Learningに基づく学習型特徴量等を抽出する。特徴量抽出部13は、更に、必要に応じて、音声データ全体の音量レベル等、設定範囲よりも広域な情報や音声データ外のメタ情報を特徴量として抽出してもよい。特徴量抽出部13は、抽出した特徴量データを、基礎データベースM1に記憶する。
特定部14は、教師データベースM3に暫定教師データが存在する場合と、存在しない場合と、で挙動が異なる。暫定教師データが存在しない場合、特定部14は、未処理データの中から、ランダムに次回の設定作業の対象を特定する。暫定教師データが存在する場合、特定部14は、暫定教師データが示す音声データと未処理データとの乖離度に基づいて、次回の設定作業の対象を特定する。以下では、暫定教師データが示す音声データを、暫定教師音声データとする。本実施形態では、未処理データは、ラベルデータの指定が行われていない設定範囲データである。
特定部14における乖離度の生成方法は、実施形態1と同様である。特定部14は、設定作業の対象として特定されなかった音声情報について、実施形態1と同様に類似度を生成してもよい。
ただし、音声可視化部35は、設定範囲データが抽出されていない、又は、暫定教師データとの乖離度が閾値以下の場合、対応する音声データを可視化しないこととしてもよい。これは、ラベルデータを設定する対象のみを可視化した方が作業者による確認の効率がよく、また乖離度の低い設定範囲はノイズデータである可能性が低く、確認する必要性が低い場合があるためである。
本実施形態におけるラベルデータの設定作業に利用される設定画面の一例を図10に示す。図10の例では、設定画面は、画像表示領域G31、低乖離度再生ボタンG32−1〜G32−6、高乖離度再生ボタンG33、シークバーG34、進捗表示領域G35、作業完了ボタンG36を含む。設定部16は、入力部216へ与えられるクリック、カーソル位置等の情報等を検知し、検知した操作等に基づいて、各オブジェクトの表示を制御する。
画像表示領域G31は、音声可視化部35から入力された画像を表示する領域である。設定部16は、画像表示領域G31に表示される画像の解像度を、画像表示領域G31の大きさに基づいて拡大縮小してもよい。また、画像表示領域G31に表示される画像の大きさが画像表示領域G31よりも大きい場合、設定部16は、画像の一部を表示し、スクロールバーによって表示位置を変更できるようにしてもよい。設定部16は、可視化された画像のうち、各設定範囲データの境界に対応する部分には境界線を表示させる。設定部16は、画像中の各設定範囲領域を、乖離度に応じた表示態様で表示させることとしてもよい。例えば、設定部16は、乖離度が低い場合には背景を薄く、乖離度が高い場合には背景を濃くする等してもよい。
シークバーG34は、音声の再生位置を示すシークバーである。シークバーは、音声データ全体に対応してもよいし、設定範囲ごとに独立してもよい。
進捗表示領域G35は、ラベルデータ設定作業の進捗情報を表示する領域である。進捗情報は、例えば、未処理データの残数や、閾値以下の乖離度である設定範囲データの割合等により表現される。これにより、作業者は作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよその見積もりが可能となる。設定部16は、作業完了ボタンG36のクリックを検知すると、ラベルデータの設定作業を完了させる。設定部16は、設定画面上で設定されたラベルデータをラベルデータベースM2に出力する。
設定部16は、設定範囲領域へのフリック操作に応じて、ラベルデータを設定してもよい。例えば、設定部16は、上方向へのフリックに応じて、「正常」カテゴリを示すラベルデータを設定し、下方向へのフリックに応じて、「ノイズ」カテゴリを示すラベルデータを設定してもよい。
構成部17は、各設定範囲データと、ラベルデータベースM9に記憶されている各設定範囲データと対応するラベルデータと、を含ませるように教師データを構成する。構成の方法は必要とされる教師データの形式に対応する。例えば、構成部17は、正常な音声データのみが必要な場合は、「正常」のラベルデータが設定された音声データによって教師データを構成する。また、音声データではなく特徴量のみが必要な場合は、構成部17は、特徴量とラベルデータによって教師データを構成する。構成部17は、構成した教師データを、教師データベースM3に記憶する。
すべての未処理データの乖離度が閾値以下となった場合、残った未処理データは、すべて「正常」カテゴリに属すると仮定できる。そこで、乖離度の最大値が閾値以下となった場合、構成部17は、ラベルデータ設定作業はすべて完了したものとみなし、すべての未処理データに対して「正常」ラベルデータを設定し、教師データを構成する。「正常」と「ノイズ」と以外のラベルデータが存在する場合、設定部16は、各ラベルデータに対応する暫定教師データを用いて、最も分類スコアが高くなる、又は特徴量同士の距離が小さくなるラベルデータを設定する。未処理データがなくなった段階で、教師データベースM3に記憶された教師データが、最終的な教師データとなる。
S301において、取得部11は、記憶サーバ200から、音声データである基礎データを取得する。
S302において、範囲抽出部12は、S301で取得された基礎データである音声データそれぞれから、設定範囲を抽出する。
S303において、設定部16は、S302で抽出された設定範囲が示す設定範囲データの全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部17は、S302で抽出された設定範囲が示す設定範囲データと、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースM3に記憶する。
S304において、特徴量抽出部13は、S302で抽出された設定範囲が示す設定範囲データそれぞれが示す音声データから設定された特徴量を抽出する。
S306において、特定部14は、ランダムに、初回のラベルデータの設定作業の対象となる設定範囲データを特定する。
S307において、音声可視化部35は、S301で取得された基礎データである音声データを可視化する。可視化の方法は、図9で説明した方法と同様である。
S308において、設定部16は、S307で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置100に提供する。図10の設定画面は、S308で表示される設定画面の一例である。設定部16は、CPU211に対して、提供された設定画面を、表示部215に表示するよう指示することで設定画面を表示部215に表示させる。
S309において、設定部16は、S308で表示された設定画面を介した作業者による操作に基づいて、設定範囲データに対するラベルデータの指定を受付ける。本実施形態では、設定部16は、作業者による設定画面中の設定範囲領域がクリックに応じて、そのパッチに対応する設定範囲領域に対して、「ノイズ」カテゴリであることを示すラベルデータの指定を受付ける。設定部16は、指定を受けたら、クリックが検知されたパッチに対応する設定範囲データに、「ノイズ」カテゴリであることを示すラベルデータを設定する。設定部16は、作業終了ボタンG14へのクリックに応じて、今回のラベルデータの設定作業を終了する。
S310において、設定部16は、S309で設定したラベルデータを、対応する設定範囲データと対応付けて、ラベルデータベースM2に記憶する。
S312において、構成部17は、S311で構成した教師データに基づいて、教師データベースM3に記憶される暫定教師データを更新する。本実施形態では、情報処理サーバ10が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部17は、初回のS312の処理の際に、S303で初期化された暫定教師データに含まれる設定範囲領域から、S311で構成された教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。その後のS312の処理の際には、構成部17は、教師データベースM3に記憶された暫定教師データに含まれる設定範囲領域から、直前のS311で構成した教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。
S313において、特定部14は、教師データベースM3に記憶された暫定教師データが示す暫定教師音声データと、各未処理データが示す音声データと、の乖離度を決定する。
S314において、特定部14は、S313で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる設定範囲データを特定する。
S316において、構成部17は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部17は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。本実施形態では、S303で全ての人体範囲領域について、ラベルデータの初期値を設定しているので、S216で、構成部17は、改めて教師データを構成しなくてもよい。
S317において、構成部17は、S316で構成した教師データを、教師データベースM3に記憶する。この段階で、教師データベースM3に記憶された教師データを、最終的な教師データとする。
また、乖離度の高い設定範囲の画像又は再生ボタン等を強調表示することで、どの音声が乖離度の高い設定範囲に対応しているかを容易に判断することが可能になり、作業者は注目すべき人物を注目することが簡単になる。
また、ラベルデータの設定状況に対応して、画像や再生ボタンの色や形状等の見た目を変化させることで、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
実施形態1〜4では、情報処理サーバ10は単体の情報処理装置であるとしたが、複数のPC、サーバ装置、タブレット装置等であるとしてもよい。その場合、情報処理サーバ10に含まれる各情報処理装置のCPUが、各情報処理装置の補助記憶装置に記憶されるプログラムに基づき、連携して処理を実行することで、図3、9の機能及び図5、8、11のフローチャートの処理等が実現される。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。上述した各実施形態を任意に組み合わせてもよい。
100 端末装置
200 記憶サーバ
Claims (16)
- 複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付手段と、
前記受付手段によりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定する第1の決定手段と、
前記第1の決定手段により決定された前記乖離度に基づいて、前記複数のデータから、前記第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する特定手段と、
前記複数のデータのうち、前記特定手段により特定されたデータと類似するデータを判定する判定手段と、
前記特定手段により特定されたデータと前記判定手段により判定されたデータとを表示部に表示させる表示制御手段と、
前記特定手段により特定された前記第2のカテゴリのデータの候補のうち前記第2のカテゴリのデータを、前記表示制御手段による表示制御の後に受け付けたユーザからの指示に基づいて識別する識別手段と、
を有する情報処理装置。 - 前記受付手段は、前記複数のデータに含まれるデータについて、前記第1のカテゴリの指定を受付け、
前記第1の決定手段は、前記受付手段により前記第1のカテゴリの指定が受付けられたデータと、前記複数のデータに含まれるデータと、の乖離の度合いを、前記乖離度として決定する請求項1記載の情報処理装置。 - 前記受付手段は、前記複数のデータに含まれるデータについて、前記第2のカテゴリの指定を受付け、
前記第1の決定手段は、前記複数のデータから前記受付手段により前記第2のカテゴリの指定が受付けられたデータを除いたデータと、前記複数のデータに含まれるデータと、の乖離の度合いを、前記乖離度として決定する請求項1記載の情報処理装置。 - 前記表示制御手段は、前記複数のデータを表示部に表示させ、
前記受付手段は、前記表示制御手段により前記表示部に表示された前記複数のデータに含まれるデータについて、カテゴリの指定を受付ける請求項1乃至3何れか1項記載の情報処理装置。 - 前記特定手段により特定されたデータの数と、前記特定手段により特定されたデータのうちカテゴリが指定されたデータの数と、に基づいて、前記複数のデータの分類作業の進捗度を取得する取得手段を更に有し、
前記表示制御手段は、前記取得手段により取得された前記進捗度を前記表示部に表示する請求項4記載の情報処理装置。 - 前記表示制御手段は、前記特定手段により特定されたデータに対するユーザの操作に応じて、当該データと類似すると前記判定手段により判定されたデータを前記表示部に表示させる請求項4又は5記載の情報処理装置。
- 前記表示制御手段は、前記特定手段により特定されたデータを、前記特定手段により特定されたデータに対応する前記乖離度に応じた表示態様で、前記表示部に表示させる請求項6記載の情報処理装置。
- 複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付手段と、
前記受付手段によりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定する第1の決定手段と、
前記第1の決定手段により決定された前記乖離度に基づいて、前記複数のデータから、前記第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する特定手段と、
前記複数のデータを表示部に表示させる表示制御手段とを有し、
前記受付手段は、前記表示制御手段により前記表示部に表示された前記複数のデータに含まれるデータについて、カテゴリの指定を受付け、
前記表示制御手段は、前記特定手段により特定されたデータと、前記複数のデータのうち、前記特定手段により特定されたデータと類似するデータとを前記表示部に表示させる情報処理装置。 - 前記表示制御手段は、前記複数のデータを、前記複数のデータに含まれるデータそれぞれに対応するカテゴリに応じた表示態様で、前記表示部に表示させる請求項4乃至7何れか1項記載の情報処理装置。
- 前記特定手段により前記第2のカテゴリのデータの候補となるデータが特定されなかった場合、前記複数のデータのうち、カテゴリが指定されていないデータを、前記第1のカテゴリのデータとして決定する第2の決定手段を更に有する請求項1乃至9何れか1項記載の情報処理装置。
- 前記複数のデータのそれぞれは、動画像における各フレーム内のオブジェクトの領域である請求項1乃至10何れか1項記載の情報処理装置。
- 前記受付手段は、前記複数のデータに含まれる同一のオブジェクトの領域であるデータのうち、指定された期間の間、連続するデータについて、一括してカテゴリの指定を受付ける請求項11記載の情報処理装置。
- 前記複数のデータのそれぞれは、音声データである請求項1乃至10何れか1項記載の情報処理装置。
- 情報処理装置が実行する情報処理方法であって、
複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付ステップと、
前記受付ステップでカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定する決定ステップと、
前記決定ステップで決定された前記乖離度に基づいて、前記複数のデータから、前記第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する特定ステップと、
前記複数のデータのうち、前記特定ステップにより特定されたデータと類似するデータを判定する判定ステップと、
前記特定ステップにより特定されたデータと前記判定ステップにより判定されたデータとを表示部に表示させる表示制御ステップと、
前記特定ステップにより特定された前記第2のカテゴリのデータの候補のうち前記第2のカテゴリのデータを、前記表示制御ステップによる表示制御の後に受け付けたユーザからの指示に基づいて識別する識別ステップと、
を含む情報処理方法。 - 複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付ステップと、
前記受付ステップによりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第1のカテゴリとの乖離の程度を示す乖離度を決定する第1の決定ステップと、
前記第1の決定ステップにより決定された前記乖離度に基づいて、前記複数のデータから、前記第1のカテゴリと異なる第2のカテゴリのデータの候補となるデータを特定する特定ステップと、
前記複数のデータを表示部に表示させる表示制御ステップとを含み、
前記受付ステップは、前記表示制御ステップにより前記表示部に表示された前記複数のデータに含まれるデータについて、カテゴリの指定を受付け、
前記表示制御ステップは、前記特定ステップにより特定されたデータと、前記複数のデータのうち、前記特定ステップにより特定されたデータと類似するデータとを前記表示部に表示させる情報処理方法。 - コンピュータを、請求項1乃至13何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017098163A JP6914724B2 (ja) | 2017-05-17 | 2017-05-17 | 情報処理装置、情報処理方法及びプログラム |
US15/977,971 US20180336435A1 (en) | 2017-05-17 | 2018-05-11 | Apparatus and method for classifying supervisory data for machine learning |
DE102018003903.0A DE102018003903A1 (de) | 2017-05-17 | 2018-05-15 | Vorrichtung und Verfahren zur Klassifizierung von Daten zum überwachten Maschinenlernen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017098163A JP6914724B2 (ja) | 2017-05-17 | 2017-05-17 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018195062A JP2018195062A (ja) | 2018-12-06 |
JP6914724B2 true JP6914724B2 (ja) | 2021-08-04 |
Family
ID=64272347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017098163A Active JP6914724B2 (ja) | 2017-05-17 | 2017-05-17 | 情報処理装置、情報処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180336435A1 (ja) |
JP (1) | JP6914724B2 (ja) |
DE (1) | DE102018003903A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7229698B2 (ja) * | 2018-08-20 | 2023-02-28 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
WO2020070876A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電気株式会社 | 教師データ拡張装置、教師データ拡張方法およびプログラム |
JP7292980B2 (ja) | 2019-06-04 | 2023-06-19 | キヤノン株式会社 | 情報管理装置、撮像装置、制御方法、並びにプログラム |
CN114493457B (zh) * | 2022-02-11 | 2023-03-28 | 常州刘国钧高等职业技术学校 | 一种自动化立体仓储的智能控制方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5075924B2 (ja) * | 2010-01-13 | 2012-11-21 | 株式会社日立製作所 | 識別器学習画像生成プログラム、方法、及びシステム |
JP2014137284A (ja) | 2013-01-17 | 2014-07-28 | Dainippon Screen Mfg Co Ltd | 教師データ作成支援装置、教師データ作成装置、画像分類装置、教師データ作成支援方法、教師データ作成方法および画像分類方法 |
JP6446971B2 (ja) * | 2014-10-06 | 2019-01-09 | 日本電気株式会社 | データ処理装置、データ処理方法、及び、コンピュータ・プログラム |
US9514414B1 (en) * | 2015-12-11 | 2016-12-06 | Palantir Technologies Inc. | Systems and methods for identifying and categorizing electronic documents through machine learning |
US20180032901A1 (en) * | 2016-07-27 | 2018-02-01 | International Business Machines Corporation | Greedy Active Learning for Reducing User Interaction |
-
2017
- 2017-05-17 JP JP2017098163A patent/JP6914724B2/ja active Active
-
2018
- 2018-05-11 US US15/977,971 patent/US20180336435A1/en not_active Abandoned
- 2018-05-15 DE DE102018003903.0A patent/DE102018003903A1/de not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
US20180336435A1 (en) | 2018-11-22 |
JP2018195062A (ja) | 2018-12-06 |
DE102018003903A1 (de) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621991B2 (en) | Joint neural network for speaker recognition | |
JP6914724B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
EP2365420B1 (en) | System and method for hand gesture recognition for remote control of an internet protocol TV | |
US20150242761A1 (en) | Interactive visualization of machine-learning performance | |
US20170206437A1 (en) | Recognition training apparatus, recognition training method, and storage medium | |
CN109766759A (zh) | 情绪识别方法及相关产品 | |
JP2003030667A (ja) | イメージ内で目を自動的に位置決めする方法 | |
US11709593B2 (en) | Electronic apparatus for providing a virtual keyboard and controlling method thereof | |
JP6334767B1 (ja) | 情報処理装置、プログラム、及び情報処理方法 | |
US20210281739A1 (en) | Information processing device and method, and program | |
JP2020042765A (ja) | 情報処理方法及び情報処理システム | |
WO2019214019A1 (zh) | 基于卷积神经网络的网络教学方法以及装置 | |
CN111274447A (zh) | 基于视频的目标表情生成方法、装置、介质、电子设备 | |
EP2781991B1 (en) | Signal processing device and signal processing method | |
US11978252B2 (en) | Communication system, display apparatus, and display control method | |
US11308150B2 (en) | Mobile device event control with topographical analysis of digital images inventors | |
JP7468360B2 (ja) | 情報処理装置および情報処理方法 | |
JP6796015B2 (ja) | シーケンス生成装置およびその制御方法 | |
JP7513019B2 (ja) | 画像処理装置および方法、並びに、プログラム | |
US12087090B2 (en) | Information processing system and information processing method | |
US11675496B2 (en) | Apparatus, display system, and display control method | |
JP7465012B2 (ja) | ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム | |
WO2020202719A1 (ja) | 情報処理装置および情報処理方法 | |
JP7465013B2 (ja) | ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム | |
WO2023189601A1 (ja) | 情報処理装置、記録媒体及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210714 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6914724 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |