JP6914724B2

JP6914724B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP6914724B2
Application number: JP2017098163A
Authority: JP
Inventors: 広一竹内
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2021-08-04
Anticipated expiration: 2037-05-17
Also published as: US20180336435A1; JP2018195062A; DE102018003903A1

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、ＤｅｅｐＬｅａｒｎｉｎｇ等に代表される、機械学習が注目されている。機械学習とは、人間が自然に行うような学習の機能を計算機に行わせる技術・手法のことである。例えば、監視カメラの画像に不審者が含まれているか否かを計算機で自動検出することを考える。これを実現するためには、検出対象となる不審者の定義を計算機に理解させる必要がある。検出対象の定義は、ルールやパターン等に基づく。検出対象の定義を、人が予め計算機に指定する方法が存在する。しかしながら、複雑であったり、未知であったりする検出対象の定義を、人が指定することは困難である。一方で、機械学習を用いる場合、教師データをもとに、計算機が自動的に検出対象の定義を学習する。そのため、複雑であったり未知であったりする検出対象の定義を獲得することも可能である。しかしながら、機械学習の結果は、学習に用いる教師データの品質に左右されるため、より良い教師データを作成することが重要である。
教師データに含まれるデータの分類が正しく行われないと、例えば、検出対象でないカテゴリのデータを検出対象のデータとして、学習が行われると、検出対象の定義について、不適切な学習がなされてしまう場合がある。そのため、教師データに含まれるデータを正しく分類することが重要である。しかしながら、機械学習のための教師データは大規模であることが多く、大規模な教師データの確認は、非常に手間がかかる。

教師データの分類を効率化する技術には、以下のものがある。
特許文献１には、類似するデータをグループ化し、代表例を確認しながらグループ単位で、まとめて教師データを確認・修正する技術が開示されている。より具体的には、画像等のデータから特徴量を抽出し、特徴量が近似するデータをグループ化し、グループの代表データを表示する。グループの代表データにラベルデータを設定すると、同グループに所属する他のデータにもラベルデータが伝播される。これにより、ラベルデータの設定をグループ単位でまとめて行うことができるため、すべてのデータを確認し、ラベルデータを設定する場合と比べて作業量が軽減される。
特許文献２には、以下の技術が開示されている。即ち、予め初期のラベルデータが設定された教師データを用いて学習された分類器の結果と、初期ラベルとの差異に基づいてノイズデータである可能性の高いデータ（以下では、ノイズ疑いデータ）を抽出し、ラベルデータを修正する技術が開示されている。この技術では、分類器の誤りを利用することで、ノイズ疑いデータに絞ってラベルデータを設定することができるため、作業の効率化が期待できる。

特開２０１４−１３７２８４号公報特開２０１５−１２９９８８号公報

それぞれの属するカテゴリが未定である複数のデータについて、少数のデータが予め設定されたカテゴリ（例えば、「ノイズ」等のカテゴリ）に属し、残りの大部分のデータがある他のカテゴリ（例えば、「正常」等のカテゴリ）に属すると仮定できる場合がある。このような場合、複数のデータについて、予め設定されたカテゴリのデータの候補となるデータを特定し、特定したデータについてのみ分類作業を行えば、残りのデータについては、全て、その他のカテゴリのデータであると仮定できる。そのため、分類作業の効率化が期待できる。そこで、複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定したいという要望があった。
しかし、特許文献１、２では、複数のデータに含まれるデータそれぞれのカテゴリの初期値が不明な場合、その複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定できなかった。

本発明の情報処理装置は、複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付手段と、前記受付手段によりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第１のカテゴリとの乖離の程度を示す乖離度を決定する第１の決定手段と、前記第１の決定手段により決定された前記乖離度に基づいて、前記複数のデータから、前記第１のカテゴリと異なる第２のカテゴリのデータの候補となるデータを特定する特定手段と、前記複数のデータのうち、前記特定手段により特定されたデータと類似するデータを判定する判定手段と、前記特定手段により特定されたデータと前記判定手段により判定されたデータとを表示部に表示させる表示制御手段と、前記特定手段により特定された前記第２のカテゴリのデータの候補のうち前記第２のカテゴリのデータを、前記表示制御手段による表示制御の後に受け付けたユーザからの指示に基づいて識別する識別手段と、を有する。

本発明によれば、複数のデータに含まれるデータそれぞれのカテゴリの初期値が不明な場合であっても、その複数のデータから、予め設定されたカテゴリのデータの候補となるデータを特定することができる。

情報処理システムのシステム構成の一例を示す図である。情報処理サーバ等のハードウェア構成の一例を示す図である。情報処理サーバの機能構成等の一例を示す図である。設定画面の一例を示す図である。情報処理サーバの処理の一例を示すフローチャートである。ポップアップ画面の一例を示す図である。設定画面の一例を示す図である。情報処理サーバの処理の一例を示すフローチャートである。情報処理サーバの機能構成等の一例を示す図である。設定画面の一例を示す図である。情報処理サーバの処理の一例を示すフローチャートである。

以下に、本発明の好ましい実施の形態を、図面に基づいて詳細に説明する。

＜実施形態１＞
図１は、本実施形態の情報処理システムのシステム構成の一例を示す図である。情報処理システムは、情報処理サーバ１０、端末装置１００、記憶サーバ２００を含む。情報処理サーバ１０、端末装置１００、記憶サーバ２００は、固定電話回線網、携帯電話回線網、インターネット、ＬＡＮ等のネットワーク３００を介して、相互に通信可能に接続されている。
情報処理サーバ１０は、記憶サーバ２００から取得したデータに対して、「正常」、「ノイズ」等のカテゴリのうち、取得したデータが属するカテゴリを示すラベルデータを設定し、教師データを作成することを支援する装置である。ラベルデータとは、対応するデータがどのカテゴリに属するかを示す情報である。情報処理システムは、記憶サーバ２００を含まないこととしてもよい。その場合、情報処理サーバ１０は、記憶サーバ２００が記憶する情報を記憶することとなる。
端末装置１００は、データの分類作業を行う作業者が利用する情報処理装置である。端末装置１００は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレットＰＣ、スマートフォン、フューチャーフォン等である。
記憶サーバ２００は、教師データの生成の基礎となるデータ（以下では、基礎データとする）を記憶する情報処理装置である。記憶サーバ２００は、ＰＣ、スマートフォン、カメラ装置、ストレージデバイス等である。記憶サーバ２００は、記憶するデータを、情報処理サーバ１０に送信する。

本実施形態では、情報処理システムは、人物の行動を表す動画像データを基礎データとして、行動の正常さに基づいて教師データを生成する。
本実施形態の情報処理システムは、基礎データから、「ノイズ」カテゴリに属するデータの候補となるデータを、作業者に提示する。作業者は、提示されたデータに対してラベルデータの設定作業を行う。そして、情報処理システムは、「ノイズ」カテゴリに属する疑いデータがなくなった時点で、残ったデータに「正常」カテゴリに属することを示すラベルデータを設定する。これにより、「ノイズ」カテゴリのデータが「正常」カテゴリのデータよりも少数である等の場合、情報処理システムは、教師データ作成に係る作業を効率化できる。

図２（ａ）は、情報処理サーバ１０のハードウェア構成の一例を示す図である。情報処理サーバ１０は、ＣＰＵ２０１、主記憶装置２０２、補助記憶装置２０３、ネットワークＩ／Ｆ２０４を含む。各要素は、システムバス２０５を介して、相互に通信可能に接続されている。
ＣＰＵ２０１は、情報処理サーバ１０の処理を制御する中央演算装置である。主記憶装置２０２は、ＣＰＵ２０１のワークエリア、情報の一時的な記憶場所等として機能するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）等の記憶装置である。補助記憶装置２０３は、各種プログラム、各種設定情報、教師データ、教師データの候補となるデータ、データのカテゴリを示すラベル情報等を記憶する記憶装置である。補助記憶装置２０３は、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）等の記憶媒体から構成される。ネットワークＩ／Ｆ２０４は、端末装置１００、記憶サーバ２００等の外部の装置との間でのネットワーク３００を介した通信に利用されるインターフェースである。

ＣＰＵ２０１が、補助記憶装置２０３に記憶されたプログラムに基づき処理を実行することで、図３、９で後述する情報処理サーバ１０の機能及び図５、８、１１で後述するフローチャートの処理等が実現される。
本実施形態では、記憶サーバ２００のハードウェア構成は、図２（ａ）に示される情報処理サーバ１０のハードウェア構成と同様であるとする。記憶サーバ２００の補助記憶装置には、教師データの候補となる候補データが記憶される。記憶サーバ２００のＣＰＵが、記憶サーバ２００の補助記憶装置に記憶されたプログラムに基づき処理を実行することで、記憶サーバ２００の機能及び記憶サーバ２００の処理等が実現される。

図２（ｂ）は、端末装置１００のハードウェア構成の一例を示す図である。端末装置１００は、ＣＰＵ２１１、主記憶装置２１２、補助記憶装置２１３、ネットワークＩ／Ｆ２１４、表示部２１５、入力部２１６を含む。各要素は、システムバス２１７を介して、相互に通信可能に接続されている。
ＣＰＵ２１１は、端末装置１００の処理を制御する中央演算装置である。主記憶装置２１２は、ＣＰＵ２１１のワークエリア、情報の一時的な記憶場所等として機能するＲＡＭ等の記憶装置である。補助記憶装置２１３は、各種プログラム、各種設定情報、教師データ、基礎データ、ラベルデータ等を記憶する、ＲＯＭ、ＨＤＤ、ＳＳＤ等の記憶媒体から構成される記憶装置である。ネットワークＩ／Ｆ２１４は、情報処理サーバ１０、記憶サーバ２００等の外部の装置との間でのネットワーク３００を介した通信に利用されるインターフェースである。
表示部２１５は、情報処理サーバ１０から送信された情報等を表示する、液晶パネルや有機ＥＬパネル等の表示装置で構成される表示部である。表示部２１５には、情報処理サーバ１０に記憶された動画像データや、画像データ、ラベルデータ、ラベルデータの設定に利用されるボタン、候補データの分類作業の進捗状況等が表示される。

入力部２１６は、表示部２１５と重畳して設置されたタッチセンサ、ハードボタン等の入力装置で構成される入力部である。本実施形態では、入力部２１６は、表示部２１５と重畳して設置されたタッチセンサを含む。ＣＰＵ２１１は、入力部２１６を介して、作業者の指やタッチペンによる操作を検出し、検出した操作を示す操作情報を情報処理サーバ１０に送信する。入力部２１６は、コントローラ、キーボード、マウス等の入力装置を含んでもよい。その場合、ＣＰＵ２１１は、入力部２１６を介して、画像表示パネルに表示された画像に対する作業者の操作を示す操作情報を取得してもよい。この操作情報には、例えば、動画像データの再生指示操作、「正常」、「ノイズ」等のラベルデータの選択操作等がある。
ＣＰＵ２１１が、補助記憶装置２１３に記憶されたプログラムに基づき処理を実行することで、端末装置１００の機能及び端末装置１００の処理等が実現される。

図３は、情報処理サーバ１０の機能構成等の一例を示す図である。情報処理サーバ１０は、取得部１１、範囲抽出部１２、特徴量抽出部１３、特定部１４、編集部１５、設定部１６、構成部１７を含む。また、情報処理サーバ１０の補助記憶装置２０３には、基礎データベースＭ１、ラベルデータベースＭ２、教師データベースＭ３が実装される。
基礎データベースＭ１は、取得部１１によって取得された基礎データ、範囲抽出部１２によって抽出された範囲を示す情報、特徴量抽出部１３によって抽出された特徴量の情報等を記憶するデータベースである。
ラベルデータベースＭ２は、ラベルデータを記憶するデータベースである。ラベルデータは、対応するデータが属するカテゴリを示すデータである。ラベルデータは、例えば、「正常」と「ノイズ」とのカテゴリの何れかを示す情報である。しかし、ラベルデータは、より詳細に分類されたカテゴリを示す情報であってもよい。例えば、ラベルデータは、「歩行」、「直立」、「異常行動」、「人体」、「非人体」等のカテゴリの何れに属するかを示す情報であってもよい。ラベルデータは、例えば、対応するデータが属する１つのカテゴリを示す情報（例えば、「正常」カテゴリに属することを示す情報）としてもよい。また、ラベルデータは、例えば、対応するデータが属する複数のカテゴリを示す情報（例えば、「人体」及び「歩行」のカテゴリに属することを示す情報）としてもよい。

教師データベースＭ３は、教師データを記憶するデータベースである。教師データは、機械学習に用いられるデータであり、基礎データから抽出されたデータ（例えば、基礎データの一部が抽出されたデータ、基礎データから抽出された特徴量のデータ、基礎データそのもの等）と、ラベルデータと、を含む。教師データは、必要とされる教師データの形式に対応した構成をとることとしてもよい。教師データに含まれる基礎データから抽出されたデータは、例えば、基礎データの一部を抽出したデータ（例えば、画像の一部を抽出した画像）でもよいし、基礎データ、又は、基礎データの一部から抽出された特徴量等でもよい。
取得部１１は、記憶サーバ２００から基礎データ（本実施形態では、動画像データ）を取得し、取得した基礎データを基礎データベースＭ１に記憶する。また、取得部１１は、取得した基礎データを、範囲抽出部１２、特徴量抽出部１３に送信する。取得部１１は、１つずつ逐次的に、基礎データを取得し、１つずつ逐次的に、基礎データベースＭ１に記憶し、範囲抽出部１２、特徴量抽出部１３に送信することとしてもよい。また、取得部１１は、全ての基礎データを取得し、全ての基礎データを、基礎データベースＭ１に記憶し、範囲抽出部１２、特徴量抽出部１３に送信することとしてもよい。また、取得部１１は、基礎データを、記憶サーバ２００から直接取得するのではなく、記憶サーバ２００から端末装置１００を介して取得してもよい。

範囲抽出部１２は、取得部１１によって取得された基礎データから、人体の範囲を抽出する。人体を含む範囲として抽出された範囲を、人体範囲とする。人体範囲は、例えば、動画像中で各人物が存在する空間的・時間的な範囲の情報として表される。即ち、動画像から抽出された人体範囲は、人物ごとの、どの時間に、画像中のどの座標に存在したかを示す情報となる。また、静止画像から抽出された人体範囲は、各人物ごとの、画像中のどの座標に存在したかを示す情報となる。基礎データである動画像中で人体範囲が示す領域のそれぞれを、人体範囲領域とする。本実施形態では、人体範囲領域が、ラベルデータの設定対象となる。即ち、教師データは、人体範囲領域の情報と、対応するラベルデータと、を含むこととなる。
範囲抽出部１２は、人体範囲を、各人物について抽出し、人体が存在する画像ごとに、座標、画像上の大きさ、動画像データ上で出現・消失する時刻、フレーム番号等の情報が設定された情報とする。例えば、ある動画像中に二人の人物が出現した場合、範囲抽出部１２は、人体範囲を二つ抽出し、それぞれの人物が動画像中に現れてからいなくなるまでの間の期間と座標との情報を、人体範囲の情報に設定する。

ただし、範囲抽出部１２は、例えば、動画像である基礎データから、動画像の全フレームに対して、人体を検出してもよいし、数フレーム間隔で抽出したり、時間的に補間したりしてもよい。また、範囲抽出部１２は、動画像中で連続して出現する同一人物について、連続する複数のフレームから、時間的に分割された複数の人体を抽出してもよい。例えば、ある人物が「歩行」→「転倒」→「歩行」と行動を遷移する場合、範囲抽出部１２は、ビデオセグメンテーションや行動認識の手法等を用いて、各行動が発生している時間の範囲でそれぞれ独立に人体範囲を抽出してもよい。また、範囲抽出部１２は、一定フレーム間隔で人体範囲を分割してもよい。範囲抽出部１２は、人体範囲同士が空間的・時間的に重複するように人体範囲を抽出することができる。
範囲抽出部１２は、例えば、人体形状に基づく人体検出手法を用いて、人体範囲を抽出してもよいし、背景差分に基づく動体検出を用いて、人体範囲を抽出してもよい。また、範囲抽出部１２は、予め学習された人体範囲を抽出するためのＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＣＮＮ）を用いて、人体範囲を抽出してもよい。また、範囲抽出部１２は、画像全体を、人体範囲として抽出してもよい。範囲抽出部１２は、抽出した人体範囲を、基礎データベースＭ１に、取得部１１により取得された基礎データと対応づけて記憶する。また、範囲抽出部１２は、抽出した人体範囲を、特徴量抽出部１３に送信する。

特徴量抽出部１３は、取得部１１から受信した基礎データ、及び、範囲抽出部１２から受信したその基礎データから抽出された人体範囲に基づいて、基礎データである動画像中の人体範囲領域それぞれに対応した特徴量を抽出する。特徴量抽出部１３は、単一の種類の特徴量を抽出してもよいし、複数の種類の特徴量を抽出してもよいし、複数の種類の特徴量の組み合わせを１つの特徴量として抽出してもよい。特徴量抽出部１３は、例えば、ＨＯＧ特徴量、ＳＩＦＴ特徴量、顔向き、移動速度等の特徴量を抽出する。また、特徴量抽出部１３は、ＣＮＮの中間層、又は最終層を抽出し、特徴量としてもよい。また、特徴量抽出部１３は、画像全体の明るさや天候情報等、人体範囲よりも広域な情報や動画像データ外のメタ情報を、特徴量として抽出してもよい。また、特徴量抽出部１３は、特徴量を、人体範囲の空間的・時間的な複数の部分について独立に抽出してもよい。
特徴量抽出部１３は、抽出した特徴量を、基礎データベースＭ１に、取得部１１により取得された基礎データと対応づけて記憶する。基礎データベースＭ１に記憶された特徴量は、画像同士の比較や教師データの一部等として利用される。

特定部１４は、基礎データベースＭ１から、基礎データ、人体範囲、特徴量を取得する。また、特定部１４は、教師データベースＭ３に記憶された暫定教師データを取得する。暫定教師データとは、最終的な教師データではなく、暫定的に教師データとして決定されたデータであり、教師データ作成処理の途中で生成され教師データベースＭ３に記憶される。暫定教師データは、教師データ同様に、基礎データから抽出されたデータ（本実施形態では、基礎データである動画像中の領域）と、対応するラベルデータと、を含む。暫定教師データに含まれる基礎データである動画像中の領域を、暫定教師領域とする。そして、特定部１４は、取得した基礎データ、人体範囲、特徴量、暫定教師データに基づいて、「正常」カテゴリと異なるカテゴリ（例えば、「ノイズ」カテゴリ）に属する領域の候補となる領域を示す人体範囲を特定する。そして、特定部１４は、特定した人体範囲が示す領域を、次回の作業者によるラベルデータの設定作業の対象とする。ラベルデータの設定作業とは、ラベルデータを設定するための作業者による端末装置１００の入力部２１６を介した作業である。ラベルデータの設定作業は、複数のデータを分類する分類作業の一例である。また、人体範囲領域にラベルデータを設定する処理は、人体範囲領域を分類する分類処理の一例である。本実施形態では、範囲抽出部１２により抽出された人体範囲が示す人体範囲領域が、分類対象の複数のデータとなる。
特定部１４は、特定した人体範囲を、編集部１５に送信する。範囲抽出部１２により抽出された人体範囲は、画像全体を示す範囲として抽出される場合もあり、画像の一部として抽出される場合もある。人体範囲は、動画像を一定の時間間隔、又は、動画像の変化があったかどうかに基づいて時間的に分割したものであってもよい。

特定部１４は、教師データベースＭ３に教師データが存在する場合と、存在しない場合と、で挙動が異なる。本実施形態では、設定部１６は、範囲抽出部１２により抽出された人体範囲ごとに、各人体範囲に対応する基礎データ中の人物の領域に対して、ラベルデータを設定することとする。即ち、教師データは、人体範囲が示す領域の情報と、対応するラベルデータと、を含むこととなる。また、基礎データベースＭ１に記憶されている人体範囲が示す人体範囲領域のうち、作業者による端末装置１００を介したラベルデータの指定が行われていないものを未処理データとする。
暫定教師データが存在しない場合、特定部１４は、未処理データの中から、ランダムにユーザによる次回の設定作業の対象を特定する。暫定教師データが存在する場合、特定部１４は、未処理データについて、「正常」カテゴリとどの程度乖離しているかを示す乖離度を決定し、決定した乖離度に基づいて、ユーザによる次回の設定作業の対象となる領域を示す人体範囲を特定する。本実施形態では、特定部１４は、未処理データと暫定教師データ領域との乖離の度合いに基づいて、「正常」カテゴリとどの程度乖離しているかを示す乖離度として決定する。乖離度は、未処理データが「正常」カテゴリとどの程度乖離しているかを示す指標であるが、逆に見れば、未処理データが「正常」カテゴリとどの程度類似しているかを示す指標でもある。例えば、特定部１４が、値が高い程、乖離していることを示す指標を、乖離度として決定したとする。その場合、乖離度は、その値が高い程、未処理データが「正常」カテゴリと乖離していることを示し、その値が低い程、未処理データが「正常」カテゴリ類似していることを示す指標となる。逆に、例えば、特定部１４が、値が低い程、乖離していることを示す指標を、乖離度として決定したとする。その場合、乖離度は、その値が高い程、未処理データが「正常」カテゴリと類似していることを示し、その値が低い程、未処理データが「正常」カテゴリと乖離していることを示す指標となる。

特定部１４は、基礎データである動画像中に複数の人体範囲が含まれる場合、各人体範囲について乖離度を決定する。また、特定部１４は、各人体範囲の乖離度に基づいて、動画像中のフレームごとに、フレーム全体の乖離度を生成してもよい。例えば、特定部１４は、同じフレーム内の各人体範囲から生成した乖離度の平均値や最大値、閾値以上の乖離度である人体範囲の数等を、フレーム全体の乖離度としてもよい。特定部１４は、決定した乖離度を、設定部１６に送信する。
特定部１４による、暫定教師データ領域と未処理データとの乖離の度合いを示す乖離度を決定する方法について説明する。特定部１４は、未処理データに対応する人体範囲ごとに、乖離度を求める。
乖離度を決定する方法の１つとして、暫定教師データ領域の特徴量と、乖離度を生成する対象である未処理データの特徴量とを比較し、特徴量間の距離の最大値を乖離度とする方法がある。特定部１４は、例えば、以下の式１を用いて、暫定教師データ領域と未処理データとの乖離の度合いを、乖離度として決定する。また、距離の取得方法は、ユークリッド距離やハミング距離、マハラノビス距離等を用いた方法がある。

式１で、ｄ（ｘ＿ｉ｜ｙ＿１、・・・、ｙ＿Ｎ）は、未処理データｉと暫定教師データ領域との乖離の度合いを示す。本実施形態では、特定部１４は、この乖離の度合いを、乖離度として決定する。また、ｘ＿ｉは、未処理データｉの特徴量を示す。また、ｙ＿ｊは、暫定教師データに含まれる基礎データから抽出されたデータ（本実施形態では、領域）ｊの特徴量を示す。Ｎは、暫定教師データに含まれる基礎データから抽出されたデータの数を示す。ｆ＿ｄｉｓｔａｎｃｅ（ｘ＿ｉ、ｙ＿ｊ）は、特徴量ｘ＿ｉとｙ＿ｊとの距離を示す。特定部１４は、人体範囲領域から複数の特徴量が抽出されている場合、特定の特徴量を選択してもよいし、すべての特徴量を用いて乖離度を決定してもよい。
乖離度を決定する他の方法としては、暫定教師データから学習された分類器を用いる方法がある。この方法は、未処理データに対して分類器をかけ、「正常」と「ノイズ」とへの分類スコアに基づいて乖離度を決定する方法である。特定部１４は、例えば、以下の式２を用いて、この方法を実現する。

式２で、ｄ（ｘ＿ｉ｜Ｍ）は、未処理データｉと暫定教師データ領域との乖離度を示す。また、Ｍは、暫定教師データから学習された分類器を定義する辞書データを示す。また、ｓ＿ｎｏｉｓｅ（ｘ＿ｉ｜Ｍ）とｓ＿ｎｏｒｍａｌ（ｘ＿ｉ｜Ｍ）とは、それぞれ辞書データＭが与えられたもとでの、ノイズクラスと正常クラスとの分類スコアを示す。また、αとβとは、重みを調整する係数を示し、α、β∈（０、１）である。この方法では、未処理データがノイズである確率が高くなり、正常である確率が低くなる程、未処理データと暫定教師データとの乖離度が高くなる。分類器は、例えば、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）やＣＮＮ等である。「正常」と「ノイズ」との２クラス分類ではなく、任意の多クラスへの分類を行う場合、例えば、特定部１４は、正常に対応するクラスとノイズに対応するクラスとへの分類スコアをそれぞれ平均したり代表値を抽出したりすることで同様に乖離度を求めてもよい。教師データに「ノイズ」カテゴリのデータを含めない場合、正常クラスへのＯｎｅ−Ｃｌａｓｓ識別器を用いることとしてもよい。この場合、例えば、Ｏｎｅ−ＣｌａｓｓＳＶＭやＣＮＮ等の任意の手法を用いてよい。
特定部１４は、次回のラベルデータの設定作業の対象として特定されなかった人体範囲領域について、特定した人体範囲領域との類似度を生成してもよい。領域同士の類似度を決定する方法は、１つの方法に限定されない。例えば、特定部１４は、領域同士の乖離度を求めた後で、乖離度の逆数を類似度としてもよい。特定部１４は、特定しなかった人体範囲領域について、決定した特定した人体範囲領域との類似度を、設定部１６に送信することしてもよい。

編集部１５は、特定部１４により特定された人体範囲領域、及び、特定部１４により決定された乖離度に基づいて、基礎データを編集し、編集後の基礎データ、及び、対応する乖離度を設定部１６に出力する。より具体的には、編集部１５は、基礎データを、ラベルデータの設定対象となる領域の視認性を向上させるように、編集する。
ラベルデータ設定作業のために端末装置１００に表示される動画像は、画像全体でなくともよい。ラベルデータは、人体範囲領域に設定されるため、人体範囲領域が存在しない画像（例えば、動画像における人が写っていないフレーム等）は、表示の必要ない場合がある。編集部１５は、ラベルデータ設定作業を行う作業者が画像を確認する負荷を軽減するため、人体範囲領域が映っている画像のみを抽出する。ただし、動画像データの編集が求められていない、又は、人体範囲領域が存在しない部分の動画像を残す理由がある場合は、編集部１５は、上記の編集処理を行わなくてもよい。また、編集部１５は、人体範囲領域が存在する場合でも、教師データからの乖離度が閾値以下の場合には対応する人体範囲領域を含む部分を抽出対象から除いてもよい。これは、人体範囲は、対応する乖離度が低い程、ノイズデータである可能性が低く、確認する必要性が他の人体範囲領域よりも低いためである。

設定部１６は、編集部１５から入力された編集後の基礎データ、及び、人体範囲領域ごとの乖離度に基づいて、ラベルデータの設定作業に利用される設定画面を、端末装置１００に提供する。また、設定部１６は、特定部１４からラベルデータの設定作業の対象となる領域と類似する人体範囲領域の情報を取得してもよい。設定部１６は、ラベルデータ設定作業のためのＧＵＩ（設定画面）を端末装置１００の表示部２１５に表示させることで、作業者に提示する。そして、設定部１６は、作業者の操作を端末装置１００の入力部２１６を介して認識する。設定部１６は、作業者による入力部２１６を介した操作に基づいて、各人体範囲領域に対応するラベルデータを決定し、決定したラベルデータを、各人体範囲領域と対応付けて、ラベルデータベースＭ２に記憶する。
本実施形態におけるラベルデータの設定画面の一例を図４に示す。図４の例では、設定画面は、画像表示領域Ｇ１、操作オブジェクトＧ２−１〜Ｇ２−５、進捗表示領域Ｇ３、作業完了ボタンＧ４、低乖離度人体枠Ｇ５−１、〜Ｇ５−５、高乖離度人体枠Ｇ６−１、Ｇ６−２を含む。設定部１６は、ＣＰＵ２１１を介して、端末装置１００の入力部２１６を介した操作を検知し、検知した操作に応じて、これらの表示を制御する。また、設定部１６が、端末装置１００から、ＣＰＵ２１１により検知された入力部２１６を介した操作の情報を、取得して、取得した情報に基づいて、設定画面中のオブジェクトの表示を制御することとしてもよい。設定部１６の処理は、表示部２１５への表示を制御する表示制御の処理の一例である。以下では、「タップ」又は「リック」操作のことを、単に「クリック」とする。

画像表示領域Ｇ１は、編集部１５により編集された基礎データの画像を表示する領域である。設定部１６は、画像の解像度と画像表示領域Ｇ１との大きさが同一でない場合、基礎データの画像を、作業のしやすさが考慮された予め設定されたサイズに拡大縮小して、表示する。操作オブジェクトＧ２−１〜Ｇ２−５は、シークバーＧ２−１、停止ボタンＧ２−２、巻き戻しボタンＧ２−３、再生ボタンＧ２−４、早送りボタンＧ２−５を含む。操作オブジェクトＧ２−１〜Ｇ２−５は、画像表示領域Ｇ１の画像に対しての再生や再生位置・再生速度の変更等の各種操作を行うためのＧＵＩコンポーネントを提供する。
進捗表示領域Ｇ３は、ラベルデータ設定作業の進捗を示す進捗情報を表示する。進捗情報は、例えば、ラベルデータの設定処理が未処理のデータの残数や、設定された閾値以下の乖離度である人体範囲領域の割合等によって表現される。進捗表示領域Ｇ３に表示された進捗情報により、作業者は、作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよそを見積もることができる。
作業完了ボタンＧ４は、ラベルデータ設定作業の完了させるためにクリックされるボタンである。設定部１６は、作業完了ボタンＧ４の選択を検知すると、ラベルデータ設定作業が完了したことを検知する。その後、設定部１６は、設定画面を介して設定されたラベルデータを、人体範囲と対応付けて、ラベルデータベースＭ２に記憶する。

低乖離度人体枠Ｇ５−１〜Ｇ５−５、高乖離度人体枠Ｇ６−１、Ｇ６−２は、人体範囲領域を示す枠で、画像表示領域Ｇ１上に基礎データの画像と重畳して表示される。設定部１６は、各人体枠を、動画像である基礎データの現在のフレームと同期して変化させ、各フレームにおける範囲抽出部１２により抽出された人体範囲に対応する位置に表示させる。
設定部１６は、人体枠を、ノイズデータである可能性が他の人体枠よりも高いことを強調させるため、暫定教師データとの乖離度に応じて、表示態様（例えば、色、形状等）を変化させてもよい。例えば、図４の例では、低乖離度人体枠Ｇ５−１〜Ｇ５−５は、高乖離度人体枠よりも乖離度の低い人体範囲を示しており、１本の実線で表された枠である。一方で、高乖離度人体枠Ｇ６−１、Ｇ６−２は、乖離度が低乖離度人体枠よりも高い人体範囲を示しており、二重線で表された枠である。設定部１６は、人体枠の表示態様を、乖離度に応じて連続的に変化させてもよい。また、設定部１６は、対応するラベルデータに応じて、人体枠の表示態様を変化させてもよい。例えば、設定部１６は、人体枠の色を、ラベルデータが設定されていない、又は初期値である場合は黒色として、「正常」ラベルデータが設定された場合は青色として、「ノイズ」ラベルデータが設定された場合は赤色としてもよい。

作業者が設定画面の人体枠をクリックすることで、設定部１６は、そのクリックを検知する。設定部１６は、検知したクリックの情報に応じて、対応する人体範囲領域に対してラベルデータを設定する。例えば、「正常」カテゴリと「ノイズ」カテゴリとの２種類のラベルデータがある場合、設定部１６は、全ての人体範囲をラベルデータなし初期化する。そして、設定部１６は、ある人体枠について、クリックを検知した場合、その人体枠が示す人体範囲領域に「正常」カテゴリを示すラベルデータを設定する。また、設定部１６は、「正常」カテゴリを示すラベルデータが設定された人体範囲領域に対応する人体枠について、クリックを検知した場合、その人体枠が示す人体範囲領域に「ノイズ」カテゴリを示すラベルデータを設定する。また、設定部１６は、「ノイズ」カテゴリを示すラベルデータが設定された人体範囲領域に対応する人体枠について、クリックを検知した場合、その人体枠が示す人体範囲領域に「正常」カテゴリを示すラベルデータを設定する。本実施形態では、設定部１６は、人体範囲領域にラベルデータが設定する際に、その人体範囲領域に対応する人体範囲が示す人体範囲領域全てに、一括して、同様のラベルデータを設定する。また、設定部１６は、すべての人体範囲領域のラベルデータを、すべて「正常」カテゴリを示すラベルデータで初期化してもよい。
これにより、ノイズデータの人体範囲領域を、正常な人体範囲領域と、視覚により区別することが可能になる。ラベルデータが２種類よりも多い場合の操作方法としては、人体枠をクリックした回数に基づいてラベルデータを切り替える方法や、クリック時にラベルデータの一覧をポップアップし選択する方法がある。また、予めラベルデータを選択しておき、クリック時は選択されたラベルデータを設定する方法等もある。

設定部１６が人体枠に対するフリック操作を検知する。すると、設定部１６は、検知したフリック操作に基づいて、人体枠に対するラベルデータの設定を行ってもよい。例えば、設定部１６は、人体枠の上方向へのフリックを検知した場合は「正常」カテゴリを示すラベルデータを設定し、下方向へのフリックを検知した場合は「ノイズ」カテゴリを示すラベルデータを設定してもよい。このように、設定部１６は、フリックの方向に応じてラベルデータを設定してもよい。

設定部１６は、作業者による人体枠へのロングタップ又はマウスの長押しを検知すると、対応する人体範囲領域に類似する領域をポップアップ再生することができる。設定部１６は、特定部１４により特定されなかった人体範囲領域と、特定部１４により特定された人体範囲領域と、の類似度を特定部１４から取得する。そして、設定部１６は、作業対象である人体範囲領域の人体枠へのロングタップ等を検知すると、以下の処理を行う。即ち、設定部１６は、特定部１４から取得した類似度に基づいて、特定部１４により特定されなかった人体範囲領域のうち、ロングタップ等が検知された人体範囲領域に類似する人体範囲領域を特定する。例えば、設定部１６は、取得した類似度に設定された閾値を用いた閾値判定を行うことで、ロングタップ等が検知された人体範囲領域に類似する人体範囲領域を特定する。そして、設定部１６は、特定した人体範囲領域を含むポップアップ画面を端末装置１００に送信する。設定部１６は、受信したポップアップ画面を表示部２１５に表示する。設定部１６は、類似する画像を確認可能にすることで、どのラベルデータを設定するか迷うような場合でも、作業者の判断材料を増やすことができる。また、設定部１６は、ラベルデータを設定する際は、必要に応じて類似する人体範囲領域についてもまとめて共通するラベルデータを設定してよい。

構成部１７は、基礎データベースＭ１に記憶される基礎データ及び人体範囲と、ラベルデータベースＭ２に記憶されるラベルデータと、に基づいて、教師データを構成する。構成部１７は、例えば、「正常」カテゴリのデータのみが必要な場合、「正常」のラベルデータが設定された人体範囲領域の画像のデータによって教師データを構成する。
また、画像データではなく特徴量が必要な場合、構成部１７は、特徴量と対応するラベルデータとを含むように教師データを構成する。人体範囲の画像と座標とが必要な場合、構成部１７は、基礎データが示す画像中から抽出された人体範囲が示す画像と、基礎データが示す画像内におけるその人体範囲の座標と、その人体範囲に対応するラベルデータと、を含ませるように教師データを構成する。構成部１７は、構成した教師データを、教師データベースＭ３に記憶する。
すべての未処理データの乖離度が閾値以下となった場合、ラベルデータが設定されていない未処理データは、「正常」カテゴリに属すると仮定できる。そこで、乖離度の最大値が閾値以下となった場合、設定部１６は、ラベルデータ設定作業は完了したものとみなし、すべての未処理データに対して「正常」ラベルデータを設定する。なお、設定部１６は、「正常」と「ノイズ」と以外のラベルデータが存在する場合は、各ラベルデータに対応する暫定教師データを用いて、最も分類スコアが高くなる、又は、特徴量同士の距離が小さくなるラベルデータを設定する。情報処理サーバ１０は、未処理データがなくなった段階で、教師データベースＭ３に記憶された教師データを最終的な教師データとして、教師データ作成作業を終了する。

図５は、本実施形態の情報処理サーバ１０の処理の一例を示すフローチャートである。
Ｓ１０１において、取得部１１は、記憶サーバ２００から、動画像である基礎データを取得する。
Ｓ１０２において、範囲抽出部１２は、Ｓ１０１で取得された基礎データの各フレームから、人体範囲を抽出する。
Ｓ１０３において、設定部１６は、Ｓ１０２で抽出された人体範囲が示す人体範囲領域の全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部１７は、Ｓ１０２で抽出された人体範囲が示す人体範囲領域と、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースＭ３に記憶する。初期化された暫定教師データ内の暫定教師データ領域のそれぞれは、作業者によるラベルデータの指定を受けていないので、Ｓ１０３の段階では、すべて未処理データである。
Ｓ１０４において、特徴量抽出部１３は、Ｓ１０２で抽出された人体範囲それぞれが示す人体範囲領域から設定された特徴量を抽出する。

Ｓ１０５において、取得部１１は、Ｓ１０１で取得された基礎データを基礎データベースＭ１に記憶する。範囲抽出部１２は、Ｓ１０２で抽出した人体範囲を、Ｓ１０１で取得された基礎データと対応付けて、基礎データベースＭ１に記憶する。特徴量抽出部１３は、Ｓ１０４で抽出した特徴量を、Ｓ１０１で取得された基礎データとＳ１０２で抽出された人体範囲とに対応付けて、基礎データベースＭ１に記憶する。
Ｓ１０６において、特定部１４は、ランダムに、初回のラベルデータの設定作業の対象となる人体範囲領域を特定する。本実施形態では、特定部１４は、人体範囲を特定し、特定した人体範囲が示す人体範囲領域すべてを、ラベルデータの設定作業の対象として特定する。
Ｓ１０７において、編集部１５は、Ｓ１０１で取得された基礎データを編集する。編集方法は、図３で説明した方法と同様である。
Ｓ１０８において、設定部１６は、Ｓ１０７で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置１００に提供する。図４の設定画面は、Ｓ１０８で表示される設定画面の一例である。設定部１６は、提供された設定画面を、表示部２１５に表示する。

Ｓ１０９において、設定部１６は、Ｓ１０８で表示された設定画面を介した作業者による操作に基づいて、人体範囲領域に対するラベルデータの指定を受付ける。本実施形態では、設定部１６は、作業者による設定画面中の人体枠へのクリックによる人体枠の指定に応じて、その人体枠に対応する人体範囲領域に対して、「ノイズ」カテゴリであることを示すラベルデータを設定する。設定部１６は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「ノイズ」カテゴリであることを示すラベルデータを設定する。本実施形態では、設定部１６は、クリックが検知された人体範囲領域に対応する人体範囲が示す人体範囲領域すべてについて、一括して、指定に応じたラベルデータを設定する。設定部１６は、作業終了ボタンＧ４のクリックを検知した場合、今回のラベルデータの設定作業を終了する。
Ｓ１１０において、設定部１６は、Ｓ１０９で設定したラベルデータを、対応する人体範囲領域と対応付けて、ラベルデータベースＭ２に記憶する。

Ｓ１１１において、構成部１７は、Ｓ１１０で人体範囲領域と対応付けて記憶されたラベルデータに基づいて、教師データを構成する。本実施形態では、構成部１７は、「ノイズ」カテゴリを示すラベルデータと、人体範囲領域と、を含む教師データを構成する。
Ｓ１１２において、構成部１７は、Ｓ１１１で構成した教師データに基づいて、教師データベースＭ３に記憶される暫定教師データを更新する。本実施形態では、情報処理サーバ１０が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部１７は、初回のＳ１１２の処理の際に、Ｓ１０３で初期化された暫定教師データに含まれる人体範囲領域から、Ｓ１１１で構成された教師データに対応する人体範囲領域を削除することで、暫定教師データを更新する。その後のＳ１１２の処理の際には、構成部１７は、教師データベースＭ３に記憶された暫定教師データに含まれる人体範囲領域から、直前のＳ１１１で構成した教師データに対応する人体範囲領域を削除することで、暫定教師データを更新する。

Ｓ１１３において、特定部１４は、教師データベースＭ３に記憶された暫定教師データが示す暫定教師データ領域と、各未処理データが示す領域と、の乖離度を決定する。
Ｓ１１４において、特定部１４は、Ｓ１１３で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる人体範囲領域を特定する。
特定部１４は、Ｓ１１３で各未処理データについて、決定した乖離度に基づいて、Ｓ１０１で取得された基礎データである動画像におけるフレームごとの乖離度を決定してもよい。そして、特定部１４は、フレームごとに決定された乖離度に基づいて、次回のラベルデータの設定作業の対象となる人体範囲領域を含むフレーム特定してもよい。

Ｓ１１５において、特定部１４は、Ｓ１１４で特定した未処理データ（又は、フレーム等）に対応する乖離度が、予め設定された閾値以下か否かを判定する。ここで、乖離度は、高い程乖離していることを示す指標であるとする。特定部１４は、Ｓ１１４で特定した未処理データに対応する乖離度が、予め設定された閾値以下であると判定した場合、ラベルデータの設定作業が完了したものとして、Ｓ１１６の処理に進む。特定部１４は、Ｓ１１４で特定した未処理データに対応する乖離度が、予め設定された閾値よりも大きいと判定した場合、Ｓ１０７の処理に進む。
Ｓ１１６において、構成部１７は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部１７は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。
Ｓ１１７において、構成部１７は、Ｓ１１６で構成した教師データを、教師データベースＭ３に記憶する。この段階で、教師データベースＭ３に記憶された教師データを、最終的な教師データとする。

以上、本実施形態の情報処理サーバ１０は、分類対象の人体範囲領域それぞれと、作業者により「ノイズ」カテゴリであることが確認された人体範囲領域を除いた暫定教師データ領域と、の乖離の度合いを示す乖離度を決定した。そして、情報処理サーバ１０は、決定した乖離度に基づいて、「ノイズ」カテゴリの候補となる人体範囲領域を、次回のラベルデータの設定作業の対象として特定した。このように、情報処理サーバ１０は、分類対象の人体範囲領域のうち、ユーザにより「ノイズ」カテゴリが指定された人体範囲領域を除いたものを、暫定教師データ領域とした。そして、情報処理サーバ１０は、分類対象の人体範囲領域それぞれと暫定教師データ領域との乖離度に基づいて、「ノイズ」カテゴリの候補となる人体範囲領域を特定した。これにより、情報処理サーバ１０は、複数のデータに含まれるデータそれぞれのカテゴリの初期値が未定な場合であっても、その複数のデータから、設定されたカテゴリと異なるカテゴリに属するデータの候補となるデータを特定することができる。
また、情報処理サーバ１０は、「ノイズ」カテゴリのデータの候補となるデータがなくなった段階で、すべてのラベルデータの設定処理が未処理のデータに「正常」のラベルデータを設定した。これにより、ラベルデータを直接設定する回数が削減されるため、情報処理サーバ１０は、ラベルデータの設定作業を効率化できる。

また、情報処理サーバ１０は、「ノイズ」カテゴリのデータの候補となるデータに対してのラベルデータの設定作業の進捗度を生成し、ラベルデータを設定するＧＵＩ上で進捗度を可視化することとした。これにより、情報処理サーバ１０は、作業の進み具合を確認するとともに、残り作業量の見積もりが可能になるため、情報処理サーバ１０は、作業者の状況把握をサポートし、作業者のモチベーションを向上させることができる。
また、情報処理サーバ１０は、人体枠へのロングタップ等の特定の操作に応じて、人体枠に対応する人体範囲と類似する画像をポップアップ再生することとした。これにより、人体枠のラベルデータを決定する際の判断材料が増えることになり、情報処理サーバ１０は、作業者によるラベルデータ設定に関する判断をサポートできる。

また、情報処理サーバ１０は、編集部１５を介して、人体範囲の有無及び各人体範囲の乖離度に基づいて表示する画像を編集することとした。これにより、人体が存在しない画像や、確認する必要性のない画像を作業者が確認しなくてよくなるため、作業者は必要な画像だけを効率的に確認することができる。
また、情報処理サーバ１０は、特定部１４を介して、ラベルデータの設定作業の対象となるデータを特定する際に、ラベルデータが設定されるデータを、画像そのものでなく人体範囲とした。そして、情報処理サーバ１０は、暫定教師データを更新するタイミングを調整することとした。これにより、作業者は、時間的に長い動画像を基礎データとした場合でも、ノイズ疑いデータを効率的に削減することができる。
また、情報処理サーバ１０は、乖離度の大きさに応じて、人体範囲を示す人体枠の表示態様を変更することとした。これにより、どの人体枠が乖離度の高い人体範囲に対応しているかを容易に判断することが可能になり、作業者は、容易に注目すべき人物を注目することができるようになる。
また、情報処理サーバ１０は、ラベルデータが設定されているか否かに応じて、人体範囲を示す人体枠の表示態様を変化させた。これにより、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。

また、情報処理サーバ１０は、以下のような処理を行うこととしてもよい。
設定部１６は、Ｓ１０３で、暫定教師データを初期化しないこととしてもよい。そして、Ｓ１０９で、設定部１６は、Ｓ１０８で表示された設定画面を介した作業者による操作に基づいて、「ノイズ」カテゴリであることを示すラベルデータの指定を受付けることとなる。しかし、設定部１６は、それとは別に、設定画面を介した作業者による操作に基づいて、「正常」カテゴリであることを示すラベルデータの指定を受付けることとする。その場合、設定部１６は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「正常」カテゴリであることを示すラベルデータを設定する。そして、Ｓ１１１で、構成部１７は、Ｓ１０９で設定された「正常」カテゴリであることを示すラベルデータと、Ｓ１０９で「正常」カテゴリであることを示すラベルデータが設定された人体範囲領域と、を含む教師データを構成する。そして、Ｓ１１２で、構成部１７は、Ｓ１１１で構成した教師データを、暫定教師データとして、教師データベースＭ３に記憶してもよい。以降のＳ１１２では、構成部１７は、直前のＳ１１１で構成した教師データに基づいて、暫定教師データを更新する。より具体的には、構成部１７は、暫定教師データ領域に、Ｓ１１１で構成した教師データに含まれる人体範囲領域を追加することで、暫定教師データを更新する。
そして、Ｓ１１３で、特定部１４は、未処理データと、暫定教師データ領域と、の乖離度を決定する。Ｓ１１４で、特定部１４は、乖離度に基づいて、未処理データから、次回のラベルデータ設定作業の対象を決定することとしてもよい。特定部１４は、例えば、式１を用いて、乖離度を決定する。この場合、暫定教師データは、「正常」カテゴリのデータである。そのため、決定された乖離度は、値が高い程、「正常」カテゴリから乖離していることを示す指標となる。そして、特定部１４は、例えば、設定された閾値よりも乖離度が高い未処理データを、次回のラベルデータの設定作業の対象とする。

また、情報処理サーバ１０は、以下のような処理を行うこととしてもよい。
設定部１６は、Ｓ１０３で、暫定教師データを初期化しないこととしてもよい。そして、Ｓ１０９で、設定部１６は、Ｓ１０８で表示された設定画面を介した作業者による操作に基づいて、「ノイズ」カテゴリであることを示すラベルデータの指定を受付けることとする。その場合、設定部１６は、指定を受けたら、クリックが検知された人体枠に対応する人体範囲領域に、「ノイズ」カテゴリであることを示すラベルデータを設定する。そして、Ｓ１１１で、構成部１７は、Ｓ１０９で設定されたラベルデータと、Ｓ１０９でラベルデータが設定された人体範囲領域と、を含む教師データを構成する。そして、Ｓ１１２で、構成部１７は、Ｓ１１１で構成した教師データを、暫定教師データとして、教師データベースＭ３に記憶してもよい。以降のＳ１１２では、構成部１７は、直前のＳ１１１で構成した教師データに基づいて、暫定教師データを更新する。より具体的には、構成部１７は、暫定教師データ領域に、Ｓ１１１で構成した教師データに含まれる人体範囲領域を追加することで、暫定教師データを更新する。
そして、Ｓ１１３で、特定部１４は、未処理データと、暫定教師データ領域と、の乖離度を決定する。Ｓ１１４で、特定部１４は、乖離度に基づいて、未処理データから、次回のラベルデータ設定作業の対象を決定することとしてもよい。特定部１４は、例えば、式１を用いて、乖離度を決定する。この場合、暫定教師データは、「ノイズ」カテゴリのデータである。そのため、決定された乖離度は、値が低い程（暫定教師データと類似する程）、「正常」カテゴリから乖離していることを示す指標となる。そして、特定部１４は、例えば、設定された閾値よりも乖離度が低い未処理データを、次回のラベルデータの設定作業の対象として特定する。

＜実施形態２＞
動画像において、同じ人物が属するカテゴリが時間に応じて変化する場合がある。例えば、移動しながら万引きを繰り返す人物の場合、移動中は「正常」カテゴリに属するが、万引き中は「ノイズ」カテゴリに属することになる。
本実施形態では、動画像中で属するカテゴリが変化する人体範囲について、時間的に分割し、分割された人体範囲について効率的にラベルデータを設定する方法を説明する。以下では、分割された人体範囲のそれぞれを、サブ人体範囲とする。
本実施形態の情報処理システムのシステム構成は、実施形態１と同様である。また、情報処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態１と同様である。

本実施形態では、ラベルデータベースＭ２に記憶されるデータ、設定部１６の処理、構成部１７の処理が、実施形態１と異なる。
本実施形態のラベルデータベースＭ２は、設定部１６から入力された、サブ人体範囲ごとに、人体範囲領域に対応したラベルデータを記憶する。サブ人体範囲は、画像における人体の座標、時間的な範囲を示す始点・終点の情報を含む。
設定部１６は、実施形態１と同様に、編集部１５から取得した基礎データ、及び乖離度に基づいて、ラベルデータの設定作業に利用される設定画面を生成し、端末装置１００に提供する。設定部１６は、実施形態１と異なり、人体範囲ごとでなく、サブ人体範囲ごとに、サブ人体範囲が示す人体範囲領域にラベルデータを一括して設定し、サブ人体範囲ごとに設定したラベルデータを、ラベルデータベースＭ２に記憶する。
設定部１６によるサブ人体範囲にラベルデータを設定する方法について説明する。設定部１６は、図４に示すような設定画面を端末装置１００に提供する。また、設定部１６は、人体枠へのクリックに応じて、表示されるポップアップ画面を、端末装置１００に提供する。この各人体範囲に対応したポップアップ画面を、人体範囲ポップアップ画面とする。

図６は、人体範囲ポップアップ画面の一例を示す図である。図６の例では、設定画面は、人体枠Ｇ５ｂ−１〜Ｇ５ｂ−３、人体範囲ポップアップ画面Ｇ７ｂ、表示範囲設定ボタンＧ８ｂ−１、Ｇ８ｂ−２、人体範囲フレーム画像Ｇ９ｂ−１〜Ｇ９ｂ−９を含む。
人体枠Ｇ５ｂ−１〜Ｇ５ｂ−３は、基礎データである動画像中のある時刻におけるフレームに含まれる各人体範囲が示す人体の領域を示す。設定部１６は、人体枠Ｇ５ｂ−３への作業者によるクリックを検知し、対応する人体範囲ポップアップ画面Ｇ７ｂを表示する。設定部１６は、作業者による人体範囲ポップアップ画面Ｇ７ｂ以外の部分へのクリック等の予め設定された操作を検知すると、人体範囲ポップアップ画面Ｇ７ｂを消去することとしてもよい。
人体範囲ポップアップ画面Ｇ７ｂは、人体範囲フレーム画像Ｇ９ｂ−１〜Ｇ９ｂ−９を含む。人体範囲フレーム画像Ｇ９ｂ−１〜Ｇ９ｂ−９は、各時刻の人体範囲領域を示す画像である。設定部１６は、人体範囲フレーム画像Ｇ９ｂ−１〜Ｇ９ｂ−９を、タイル状に並べて表示する。また、設定部１６は、人体範囲ポップアップ画面Ｇ７ｂの大きさが、すべての人体範囲フレーム画像を表示するために不足する場合は、時間的な一部の範囲に対応した人体範囲フレーム画像を表示してもよい。また、設定部１６は、人体範囲フレーム画像を、動画像における全てのフレームについて、並べて表示する必要はなく、設定された数のフレーム間隔に、人体範囲フレーム画像を表示してもよい。また、設定部１６は、特定の基準にしたがって選択された代表的な人体範囲フレーム画像を表示することとしてもよい。

表示範囲設定ボタンＧ８ｂ−１、Ｇ８ｂ−２は、人体範囲ポップアップ画面Ｇ７ｂに含まれるボタンである。表示範囲設定ボタンＧ８ｂ−１、Ｇ８ｂ−２は、人体枠Ｇ５ｂ−３に対応する人体範囲に対応する人体の領域のうち、どの期間に含まれる人体の領域を表示するかを指定するためのボタンである。例えば、設定部１６は、表示範囲設定ボタンＧ８ｂ−１へのクリックを検知すると、より過去の期間における人体範囲領域を表示する。設定部１６は、表示範囲設定ボタンＧ８ｂ−２へのクリックを検知すると、より未来の期間における人体範囲領域を表示する。
設定部１６は、人体範囲フレーム画像のクリックを検知すると、クリックが検知された人体範囲フレーム画像に対応するフレームを基準として以降のフレームに対応する人体範囲領域についてのラベルデータを設定する。設定部１６は、例えば、ラベルデータが設定されていない場合、「正常」カテゴリのラベルデータを設定する。設定部１６は、例えば、「正常」カテゴリのラベルデータが設定されている場合、「ノイズ」カテゴリのラベルデータを設定する。設定部１６は、例えば、「ノイズ」カテゴリのラベルデータが設定されている場合、「正常」カテゴリのラベルデータを設定する。また、設定部１６は、時間的に連続して、共通するラベルデータが設定された同一人物の人体の領域を、１つのサブ人体範囲とする。

人体範囲フレーム画像は、対応するラベルデータや、乖離度に応じて表示態様が変更されることとしてもよい。図６の例では、人体範囲フレーム画像Ｇ９ｂ−５〜Ｇ９ｂ−７が「ノイズ」カテゴリのラベルデータが設定されている。この場合、設定部１６は、人体範囲フレーム画像Ｇ９ｂ−５〜Ｇ９ｂ−７の枠線を二重線として表示し、他の人体範囲フレーム画像の枠線を１本の実線とする。設定部１６は、枠線の形状以外にも、色や大きさを変更する等してもよい。
構成部１７は、基礎データベースＭ１に記憶されている基礎データ、サブ人体範囲と、ラベルデータベースＭ２に記憶されているラベルデータと、に基づいて、教師データを構成する。構成部１７は、実施形態１と異なり、人体範囲ごとに設定されたラベルデータでなく、サブ人体範囲ごとに設定されたラベルデータを用いる。構成部１７は、サブ人体範囲ごとに、基礎データからサブ人体範囲が示す人体範囲領域を取得し、取得した人体範囲領域と、対応するラベルデータと、を含ませるように教師データを構成する。また、構成部１７は、サブ人体範囲ごとに構成された教師データを、人体範囲ごとに統合してもよい。構成部１７は、構成した教師データを、教師データベースＭ３に記憶する。

以上、本実施形態の処理により、情報処理サーバ１０は、動画像である基礎データ中で同一人物の属するカテゴリが変化するような場合でも、ユーザによるラベルデータの設定作業を、より適切に支援できる。

＜実施形態３＞
本実施形態では、人体ではなく、板金等の物品が撮影された画像を基礎データとする場合の情報処理システムの処理を説明する。
本実施形態の情報処理システムのシステム構成は、実施形態１と同様である。また、情報処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態１と同様である。
本実施形態では、記憶サーバ２００は、板金等の物品の静止画像を、基礎データとして記憶する。

本実施形態の基礎データベースＭ１は、取得部１１によって取得された基礎データ、範囲抽出部１２によって抽出された設定範囲、特徴量抽出部１３によって画像データの各設定範囲から抽出された特徴量データ、を対応づけて記憶する。本実施形態では、基礎データベースＭ１に対応付けて記憶された各データを、総称して画像情報とする。
設定範囲とは、ラベルデータの設定対象となる、画像データ中の各領域（例えば、パッチ等）の画像中における位置を示す情報である。設定範囲は、例えば、画像データ中のラベルデータの設定対象の領域の座標の情報を含む。例えば、ある部品の画像データを縦にＨ個、横にＷ個のブロックに分割し、各ブロックを１つのパッチとして各パッチにラベルデータを設定する場合、設定範囲は、例えば、パッチの位置を示す座標（ｉ，ｊ）となる。ここで、ｉ及びｊは画像データ中のパッチの縦位置、横位置を示す座標データである。以下では、設定範囲が示す画像中の領域を、設定範囲領域とする。本実施形態では、範囲抽出部１２により抽出された設定範囲が示す設定範囲領域それぞれが、分類対象のデータとなる。
また、設定範囲は、複数の画像データにおける同一の座標を示す情報であってもよい。その場合は、設定範囲は、例えば、画像データを特定するための情報を含む。複数の画像である基礎データ全体の一部がラベルデータの設定対象である場合、設定範囲は、例えば、ラベルデータの設定対象の画像データのインデックスを示すベクトルｋを含む。そのため、設定範囲は、例えば、画像中のパッチの座標と画像インデックスを示す（ｉ，ｊ，ｋ）となる。

本実施形態では、特徴量抽出部１３は、設定範囲領域に基づいて、設定された１つ又は複数の特徴量を抽出する。
本実施形態では、教師データは、設定範囲領域、その設定範囲領域の属するカテゴリを示すラベルデータ、を含む。本実施形態では、ラベルデータは、対応する画像データが、物品に欠陥がないことを示す「正常」カテゴリと、物品に欠陥が有ることを示す「ノイズ」カテゴリと、の何れに属するかを示す情報であるとする。

本実施形態のラベルデータベースＭ２は、設定部１６によって設定されたラベルデータを記憶する。ラベルデータは、各設定範囲について設定される。ラベルデータは、例えば、設定範囲領域が、「正常」カテゴリに属するか、「ノイズ」カテゴリに属するか、を示す。しかし、ラベルデータは、「正常」カテゴリや「ノイズ」カテゴリよりも詳細なカテゴリの何れに属するかを示す情報であってもよい。ラベルデータは、例えば、「平面」カテゴリ、「印字箇所」カテゴリ等の正常な表面を示すカテゴリの何れに属するかを示す情報であってもよい。また、ラベルデータは、「傷」カテゴリや「へこみ」カテゴリ等の欠陥・ノイズを示すカテゴリの何れに属するかを示す情報であってもよい。
本実施形態の範囲抽出部１２は、取得部１１によって取得された画像データから、設定範囲を抽出する。範囲抽出部１２は、例えば、ブロック分割や、コーナー又はエッジ検出等の検出器を用いて、設定範囲となるパッチを抽出してもよい。範囲抽出部１２は、設定範囲とするパッチの大きさや、画像データの数を問題に応じて、変化してもよい。範囲抽出部１２は、抽出した設定範囲を、基礎データベースＭ１に記憶する。また、範囲抽出部１２は、抽出した設定範囲を、特徴量抽出部１３に送信する。

本実施形態の特徴量抽出部１３は、取得部１１から取得した画像データと、範囲抽出部１２から取得した設定範囲と、に基づいて、各設定範囲領域に対応した特徴量データを抽出する。特徴量抽出部１３は、１つの特徴量、又は複数の特徴量を組み合わせた特徴量を抽出してもよい。特徴量抽出部１３は、例えば、平均輝度やカラーヒストグラム、ＳｐａｒｓｅＣｏｄｉｎｇやＡｕｔｏＥｎｃｏｄｅｒによる再現誤差等の特徴量を抽出してもよい。設定範囲が複数の画像における同じ座標の領域を示す場合は、特徴量抽出部１３は、画像データ間の、その領域における差分情報を特徴量として抽出してもよい。
また、特徴量抽出部１３は、必要に応じて、画像データ全体の輝度等、設定範囲が示す領域よりも広域な情報や画像データ外のメタ情報を特徴量として抽出してもよい。特徴量抽出部１３は、抽出した特徴量を、基礎データベースＭ１に記憶する。

本実施形態の特定部１４は、次回のラベルデータの設定作業の対象となる設定範囲領域を特定する。特定部１４は、特定した設定範囲領域を、編集部１５に送信する。特定部１４は、教師データベースＭ３に暫定教師データが存在する場合と、存在しない場合と、で挙動が異なる。また、設定範囲領域のうち、ラベルデータが未設定であるものを未処理データとする。暫定教師データが存在しない場合、特定部１４は、未処理データの中から、ランダムに設定対象を特定する。暫定教師データが存在する場合、特定部１４は、暫定教師データ領域と未処理データとの乖離度に基づいて、設定対象を特定する。
特定部１４は、暫定教師データとの乖離度を、各設定範囲について生成する。また、特定部１４は、ある画像データに対応する設定範囲領域が複数存在する場合、各設定範囲領域について乖離度を生成し、各設定範囲領域の乖離度に基づいて画像データ全体としての乖離度を生成してもよい。例えば、特定部１４は、各設定範囲から生成した乖離度の平均値や最大値、閾値以上の乖離度である設定範囲の数等を、画像データ全体としての乖離度として生成してもよい。
特定部１４における乖離度の生成方法は、実施形態１と同様である。特定部１４は、実施形態１と同様に、特定しなかった設定範囲領域と、特定した設定範囲領域との類似度を生成してもよい。特定部１４は、特定しなかった設定範囲、及び、生成された類似度を、設定部１６に送信する。

編集部１５は、特定部１４により特定された設定範囲領域と、及び特定部１４により取得された乖離度と、特定部１４からを取得する。そして、編集部１５は、基礎データである静止画像を編集する。編集部１５は、編集した画像と、対応する乖離度と、を設定部１６に送信する。編集部１５は、画像の編集を、作業者によるラベルデータの設定作業の効率化を目的として行う。ラベルデータは、設定範囲領域に設定されるため、設定範囲領域に対応して表示する画像を編集することで、作業者の作業効率上昇が期待できる。編集部１５は、表示部２１５に表示される画像を、設定範囲領域に限定するように編集してもよい。また、編集部１５は、画像データ全体を表示部２１５に表示される画像として、１つ又は複数の設定範囲の領域が重畳して表示されるように編集してもよい。編集部１５は、設定範囲領域が複数ある場合、画像に、それらの領域を重畳させるように編集してもよい。
ただし、画像データの編集が求められていない、又は、設定範囲領域ではない部分の画像を残す理由がある場合は、編集部１５は、編集を行わなくてもよい。また、編集部１５は、画像中に設定範囲が存在する場合でも、暫定教師データとの乖離度が閾値以下の場合には、対応する設定範囲領域を含む画像を表示させないように編集してもよい。

設定部１６は、編集部１５により編集された基礎データ、各設定範囲、及び、対応する乖離度に基づいて、ラベルデータの設定に利用される設定画面を生成し、端末装置１００に提供する。設定部１６は、特定部１４により特定されなかった設定範囲領域のうち、特定部１４により特定された設定範囲領域と類似する設定範囲領域、及び対応する類似度を、特定部１４から取得してもよい。設定部１６は、設定画面を介した作業者による操作に基づいて、設定したラベルデータを、ラベルデータベースＭ３に記憶する。
本実施形態におけるラベルデータの設定に利用される設定画面の一例を図７に示す。図７の例では、設定画面は、画像表示領域Ｇ１１、高乖離度パッチＧ１２、進捗表示領域Ｇ１３、作業完了ボタンＧ１４を含む。設定部１６は、ＣＰＵ２１１を介して、入力部２１６へのクリック等の操作を検知し、検知した操作に応じて、これらのオブジェクトの表示を制御する。

画像表示領域Ｇ１１は、編集部１５により編集されたから入力された画像を含む。画像の解像度と画像表示領域Ｇ１１の大きさとが同一でない場合、設定部１６は、画像表示領域Ｇ１１を、作業のしやすさを考慮した大きさに拡大縮小表示する。編集部１５は、表示対象が画像全体であり、設定範囲領域がパッチである場合には、パッチの境界を示す枠線を基礎データの画像と重畳表示するように基礎データを編集する。また、編集部１５は、表示対象がパッチ単体である場合は、基礎データを、パッチ画像のみが表示されるように編集してもよい。また、編集部１５は、基礎データが複数の画像であった場合は、各画像を並べて表示、又は作業者の操作によって画像を切り替えて表示されるように、基礎データを編集してもよい。
高乖離度パッチＧ１２は、画像表示領域Ｇ１１に表示されたパッチのうち、低乖離度パッチよりも乖離度が高い設定範囲領域に対応するパッチである。高乖離度パッチは、「ノイズ」カテゴリである可能性があるため、枠の形状や色等の表示態様を変更することで強調表示される。なお、パッチの表示は、乖離度に対応して連続的に変化させてもよい。また、乖離度に関わらず、パッチの表示は、設定されたラベルデータに対応して変化させてもよい。進捗表示領域Ｇ１３は、ラベルデータ設定作業の進捗情報を表示する領域である。進捗情報は、例えば、未処理データの残数や、閾値以下の乖離度である画像情報の割合等によって表現される。これにより、作業者は作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよその見積もりが可能となる。作業完了ボタンＧ１４は、ラベルデータ設定作業を完了させる際にクリックされるボタンである。設定画面を介して設定されたラベルデータは、ラベルデータベースＭ２に記憶される。

設定部１６は、作業者による設定範囲領域に対応したパッチ又は画像全体へのクリックが検知された場合、対応する設定範囲領域に対してラベルデータを設定することができる。例えば、設定部１６は、「正常」と「ノイズ」との２種類のカテゴリの何れに属するかを示すラベルデータがある場合、各パッチのラベルデータをすべて「正常」カテゴリを示すように初期化する。そして、設定部１６は、パッチへのクリックに応じて、「ノイズ」カテゴリを示すように切り替える。設定部１６は、再度のクリックに応じて「正常」カテゴリに戻す。これにより、ノイズデータの候補である設定範囲領域を「正常」カテゴリの設定範囲領域と区別することが可能になる。設定部１６は、複数のパッチに対してまとめて設定したい場合は、クリックされたパッチの近傍のパッチも同様にラベルデータを切り替えたり、画像上をドラッグすることで指又はカーソルが通過したパッチのラベルデータを切り替えたりする等の処理を行ってもよい。
設定部１６は、フリック操作に応じて、ラベルデータを設定してもよい。
作業者による設定範囲領域へのロングタップ又はマウスの長押しにより、ロングタップ等された設定範囲領域の類似画像がポップアップ表示されることとしてもよい。類似画像は画像情報間の特徴量の距離に基づいて生成される。類似する画像を確認することで、どのラベルデータを設定するか迷うような場合でも、作業者の判断材料を増やすことができる。また、設定部１６は、ラベルデータを設定する際は、クリック等された設定範囲領域と類似する設定範囲領域についても、もまとめて共通するラベルデータを設定してよい。

図８は、本実施形態の情報処理サーバ１０の処理の一例を示すフローチャートである。図８を用いて、本実施形態における教師データの作成処理を説明する。
Ｓ２０１において、取得部１１は、記憶サーバ２００から、静止画像である基礎データを取得する。
Ｓ２０２において、範囲抽出部１２は、Ｓ２０１で取得された基礎データである静止画像のそれぞれから、設定範囲を抽出する。
Ｓ２０３において、設定部１６は、Ｓ２０２で抽出された設定範囲が示す設定範囲領域の全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部１７は、Ｓ２０２で抽出された設定範囲が示す設定範囲領域と、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースＭ３に記憶する。
Ｓ２０４において、特徴量抽出部１３は、Ｓ２０２で抽出された設定範囲が示す設定範囲領域それぞれが示す画像から設定された特徴量を抽出する。

Ｓ２０５において、取得部１１は、Ｓ２０１で取得された基礎データを基礎データベースＭ１に記憶する。範囲抽出部１２は、Ｓ２０２で抽出した設定範囲を、Ｓ２０１で取得された基礎データと対応付けて、基礎データベースＭ１に記憶する。特徴量抽出部１３は、Ｓ２０４で抽出した特徴量を、Ｓ２０１で取得された基礎データとＳ２０２で抽出された設定範囲とに対応付けて、基礎データベースＭ１に記憶する。
Ｓ２０６において、特定部１４は、ランダムに、初回のラベルデータの設定作業の対象となる設定範囲領域を特定する。
Ｓ２０７において、編集部１５は、Ｓ２０１で取得された基礎データを編集する。
Ｓ２０８において、設定部１６は、Ｓ２０７で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置１００に提供する。図７の設定画面は、Ｓ２０８で表示される設定画面の一例である。設定部１６は、提供された設定画面を、表示部２１５に表示する。

Ｓ２０９において、設定部１６は、Ｓ２０８で表示された設定画面を介した作業者による操作に基づいて、設定範囲領域に対するラベルデータの指定を受付ける。本実施形態では、作業者による設定画面中のパッチへのクリックに応じて、設定部１６は、そのパッチに対応する設定範囲領域に対して、「ノイズ」カテゴリであることを示すラベルデータの指定を受付ける。設定部１６は、指定を受けたら、クリックが検知されたパッチに対応する設定範囲領域に、「ノイズ」カテゴリであることを示すラベルデータを設定する。設定部１６は、作業終了ボタンＧ１４へのクリックに応じて、今回のラベルデータの設定作業を終了する。
Ｓ２１０において、設定部１６は、Ｓ２０９で設定したラベルデータを、対応する設定範囲領域と対応付けて、ラベルデータベースＭ２に記憶する。

Ｓ２１１において、構成部１７は、Ｓ２１０で設定範囲領域と対応付けて記憶されたラベルデータに基づいて、教師データを構成する。本実施形態では、構成部１７は、「ノイズ」カテゴリを示すラベルデータと、設定範囲領域と、を含む教師データを構成する。
Ｓ２１２において、構成部１７は、Ｓ２１１で構成した教師データに基づいて、教師データベースＭ３に記憶された暫定教師データを更新する。本実施形態では、情報処理サーバ１０が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部１７は、初回のＳ２１２の処理の際に、Ｓ２０３で初期化された暫定教師データに含まれる設定範囲領域から、Ｓ２１１で構成された教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。その後のＳ２１２の処理の際には、構成部１７は、教師データベースＭ３に記憶された暫定教師データに含まれる設定範囲領域から、直前のＳ２１１で構成した教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。
Ｓ２１３において、特定部１４は、教師データベースＭ３に記憶された暫定教師データが示す暫定教師データ領域と、各未処理データが示す領域と、の乖離度を決定する。
Ｓ２１４において、特定部１４は、Ｓ２１３で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる設定範囲領域を特定する。

Ｓ２１５において、特定部１４は、Ｓ２１４で特定した未処理データに対応する乖離度が、予め設定された閾値以下か否かを判定する。ここで、乖離度は、高い程乖離していることを示す指標であるとする。特定部１４は、Ｓ２１４で特定した未処理データに対応する乖離度が、予め設定された閾値以下であると判定した場合、ラベルデータの設定作業が完了したものとして、Ｓ２１６の処理に進む。特定部１４は、Ｓ２１４で特定した未処理データに対応する乖離度が、予め設定された閾値よりも大きいと判定した場合、Ｓ２０７の処理に進む。
Ｓ２１６において、構成部１７は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部１７は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。本実施形態では、Ｓ２０３で全ての人体範囲領域について、ラベルデータの初期値を設定しているので、Ｓ２１６で、構成部１７は、改めて教師データを構成しなくてもよい。
Ｓ２１７において、構成部１７は、Ｓ２１６で構成した教師データを、教師データベースＭ３に記憶する。この段階で、教師データベースＭ３に記憶された教師データを、最終的な教師データとする。

以上、本実施形態の情報処理サーバ１０は、分類対象の人体範囲領域のうち、ユーザにより「ノイズ」カテゴリが指定された設定範囲領域を除いたものを、暫定教師データ領域とした。そして、情報処理サーバ１０は、分類対象の設定範囲領域それぞれと暫定教師データ領域との乖離度に基づいて、「ノイズ」カテゴリの候補となる設定範囲領域を特定した。これにより、情報処理サーバ１０は、複数のデータに含まれるデータそれぞれのカテゴリの初期値が未定な場合であっても、その複数のデータから、設定されたカテゴリと異なるカテゴリに属するデータの候補となるデータを特定することができる。
また、編集部１５は、設定範囲領域の有無及び各設定範囲の乖離度に基づいて表示する画像を編集することとした。これにより、設定範囲が存在しない画像や、乖離度が低く確認する必要性の少ない画像を作業者が確認しなくなるため、作業者は必要な画像だけを効率的に確認することができる。
また、乖離度の高い設定範囲領域のパッチを強調表示することで、どのパッチが乖離度の高い設定範囲に対応しているかを容易に判断することが可能になり、作業者は注目すべきパッチを注目することが簡単になる。
また、ラベルデータの設定状況に対応して、パッチの色や形状等の見た目を変化させることで、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。

＜実施形態４＞
本実施形態では、基礎データが音声データである場合の情報処理システムの処理を説明する。
本実施形態の情報処理システムのシステム構成は、実施形態１と同様である。また、情報処理サーバ１０、記憶サーバ２００のハードウェア構成についても、実施形態１と同様である。端末装置１００は、図２（ｂ）のハードウェア構成に加えて、スピーカ、イヤホン、ヘッドホン等で構成される音声出力部を含む。設定部１６は、ＣＰＵ２１１を介して、音声出力部により設定部１６から送信された音声を再生する。また、設定部１６は、入力部２１６を介した操作に応じて、音声出力部を介した再生時の音量を変更してもよい。
本実施形態では、教師データは、１つ又は複数の音声データと、音声データが属するカテゴリを示すラベルデータと、を含む。
また、発話中のデータが属するカテゴリを、「正常」カテゴリとする。また、環境音や無音の音声データ等の「正常」カテゴリに属さない音声データが属するカテゴリを、「ノイズ」カテゴリとする。

図９は、本実施形態の情報処理サーバ１０の機能構成等の一例を示す図である。図９に示す情報処理サーバ１０の機能構成は、図３と比べて、編集部１５の代わりに、音声可視化部３５を含む点で異なる。
基礎データベースＭ１は、取得部１１により記憶サーバ２００から取得された音声データである基礎データ、範囲抽出部１２により基礎データから抽出された設定範囲、特徴量抽出部１３により各設定範囲から抽出された特徴量データ、を対応付けて記憶する。基礎データベースＭ１に対応付けて記憶された各データを、ここでは総称して音声情報と呼ぶ。
設定範囲とは、ラベルデータを設定する対象となる、基礎データである音声データ全体、又は、音声データ中の連続する部分を示す情報である。基礎データ中で、設定範囲が示す部分の音声データを、設定範囲データとする。本実施形態では、設定範囲データが、分類対象のデータとなる。例えば、設定範囲は、音声データ中の時間的な始点と終点との情報によって表現される。
特徴量データは、特徴量抽出部１３により設定範囲が示す音声データから抽出される。特徴量抽出部１３は、１つ又は複数の設定された種類の特徴量を抽出する。

本実施形態では、ラベルデータベースＭ２に記憶されるラベルデータは、設定範囲ごとに設定されるラベルデータである。ラベルデータは、「正常」カテゴリと「ノイズ」カテゴリの何れに属するかを示す情報であってもよいし、より詳細な複数のカテゴリの何れに属するかを示す情報であってもよい。例えば、ラベルデータは、「男性の声」カテゴリ、「女性の声」カテゴリ、「雑音」カテゴリ、「無音」カテゴリ等のうち、何れに属するかを示す情報であってもよい。
教師データベースＭ３は、構成部１７によって構成された、音声情報とラベルデータとを含む教師データを記憶する。教師データの具体的な構成は必要とされる教師データの形式に対応して変化する。教師データベースＭ３に記憶された教師データは、教師データ作成作業の進捗に伴い追加的に更新される。特定部１４は、教師データベースＭ３から教師データを取得し利用する。
取得部１１は、記憶サーバ２００から音声データである基礎データを取得し、基礎データベースＭ１や、範囲抽出部１２、特徴量抽出部１３に出力する。取得部１１は、音声データを、逐次的に取得し、出力してもよいし、すべての音声データを取得した後でまとめて出力してもよい。なお、取得部１１は、音声データを、記憶サーバ２００から直接取得するのではなく、端末装置１００を経由して取得してもよい。

範囲抽出部１２は、取得部１１によって取得された基礎データである音声データから、ラベルデータを設定する対象となる設定範囲を抽出する。設定範囲を抽出する方法は特定の方法に限定しない。例えば、範囲抽出部１２は、一定の時間間隔で分割する方法や、音量が小さくなるタイミングで分割する方法等を用いて、設定範囲を抽出してもよい。また、範囲抽出部１２は、単語の検出器を用いて検出された範囲等を、設定範囲として抽出してもよい。範囲抽出部１２は、抽出した設定範囲を、基礎データベースＭ１に記憶し、特徴量抽出部１３に送信する。
特徴量抽出部１３は、取得部１１により取得された音声データと、範囲抽出部１２により抽出された設定範囲と、に基づいて、各設定範囲に対応した特徴量データを抽出する。特徴量抽出部１３は、１つ又は複数の設定された特徴量を抽出する。例えば、特徴量抽出部１３は、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）や、ＤｅｅｐＬｅａｒｎｉｎｇに基づく学習型特徴量等を抽出する。特徴量抽出部１３は、更に、必要に応じて、音声データ全体の音量レベル等、設定範囲よりも広域な情報や音声データ外のメタ情報を特徴量として抽出してもよい。特徴量抽出部１３は、抽出した特徴量データを、基礎データベースＭ１に記憶する。

特定部１４は、基礎データベースＭ１から取得した音声情報と、教師データベースＭ３から取得した暫定教師データと、に基づいて、次回のラベルデータの設定作業の対象となる設定範囲データを特定する。特定部１４は、特定した設定範囲データを、音声可視化部３５に送信する。
特定部１４は、教師データベースＭ３に暫定教師データが存在する場合と、存在しない場合と、で挙動が異なる。暫定教師データが存在しない場合、特定部１４は、未処理データの中から、ランダムに次回の設定作業の対象を特定する。暫定教師データが存在する場合、特定部１４は、暫定教師データが示す音声データと未処理データとの乖離度に基づいて、次回の設定作業の対象を特定する。以下では、暫定教師データが示す音声データを、暫定教師音声データとする。本実施形態では、未処理データは、ラベルデータの指定が行われていない設定範囲データである。

特定部１４は、設定範囲ごとに、乖離度を決定する。ただし、ある音声データ内に設定範囲データが複数存在する場合、特定部１４は、各設定範囲データについて乖離度を生成し、各設定範囲データの乖離度に基づいて、音声データ全体についての乖離度を決定してもよい。例えば、特定部１４は、各設定範囲データから生成された乖離度の平均値や最大値、閾値以上の乖離度である設定範囲データの数等を用いて、音声データ全体についての乖離度を決定してもよい。
特定部１４における乖離度の生成方法は、実施形態１と同様である。特定部１４は、設定作業の対象として特定されなかった音声情報について、実施形態１と同様に類似度を生成してもよい。

音声可視化部３５は、基礎データである音声データを可視化した画像を生成する。また、音声可視化部３５は、特定部１４によって特定された設定範囲データと、特定部１４によって決定された乖離度と、に基づいて、可視化した音声データ上で、設定範囲データが示す領域を可視化する。以下では、可視化された音声データの画像上で、設定範囲データが示す領域を、設定範囲領域とする。音声可視化部３５は、音声情報、乖離度、可視化した画像を、それぞれ設定部１６に出力する。音声情報が可視化されることで、作業者は実際に音声を再生する前に、音声の特徴を推測することができるようになり、音声全体を再生する場合と比べて、作業を効率化されることが期待できる。例えば、作業者は、音声の音量を可視化する場合、音量が急激に高くなる部分では異常音が発生していたり、音量が極端に低い部分では無音部であったりという検討をつけることができる。音声可視化部３５は、例えば、音量を表す折れ線グラフを生成することで、音声データを可視化してもよい。また、音声可視化部３５は、音声データが示す周波数に基づく波形の画像を生成することで、音声データを可視化してもよい。また、音声可視化部３５は、音の高低による色の変更や、類似する音色を示すアイコンの表示等を用いて、音声データを可視化してもよい。また、音声可視化部３５は、音声データを可視化した複数の種類の画像を生成してもよい。
ただし、音声可視化部３５は、設定範囲データが抽出されていない、又は、暫定教師データとの乖離度が閾値以下の場合、対応する音声データを可視化しないこととしてもよい。これは、ラベルデータを設定する対象のみを可視化した方が作業者による確認の効率がよく、また乖離度の低い設定範囲はノイズデータである可能性が低く、確認する必要性が低い場合があるためである。

設定部１６は、音声可視化部３５から入力された音声情報、乖離度、可視化された画像に基づいてラベルデータの設定作業に用いられる設定画面を生成し、生成した設定画面を端末装置１００に提供する。設定部１６は、特定部１４から入力された、選定されなかった音声情報及び対応する類似度と、を用いて、作業者がラベルデータを設定する手段を提供する。設定部１６は、ＣＰＵ２１１を介して、設定画面を表示部２１５に表示するとともに、入力部２１６に対する作業者の操作を認識する。
本実施形態におけるラベルデータの設定作業に利用される設定画面の一例を図１０に示す。図１０の例では、設定画面は、画像表示領域Ｇ３１、低乖離度再生ボタンＧ３２−１〜Ｇ３２−６、高乖離度再生ボタンＧ３３、シークバーＧ３４、進捗表示領域Ｇ３５、作業完了ボタンＧ３６を含む。設定部１６は、入力部２１６へ与えられるクリック、カーソル位置等の情報等を検知し、検知した操作等に基づいて、各オブジェクトの表示を制御する。
画像表示領域Ｇ３１は、音声可視化部３５から入力された画像を表示する領域である。設定部１６は、画像表示領域Ｇ３１に表示される画像の解像度を、画像表示領域Ｇ３１の大きさに基づいて拡大縮小してもよい。また、画像表示領域Ｇ３１に表示される画像の大きさが画像表示領域Ｇ３１よりも大きい場合、設定部１６は、画像の一部を表示し、スクロールバーによって表示位置を変更できるようにしてもよい。設定部１６は、可視化された画像のうち、各設定範囲データの境界に対応する部分には境界線を表示させる。設定部１６は、画像中の各設定範囲領域を、乖離度に応じた表示態様で表示させることとしてもよい。例えば、設定部１６は、乖離度が低い場合には背景を薄く、乖離度が高い場合には背景を濃くする等してもよい。

低乖離度再生ボタンＧ３２−１〜Ｇ３２−６と高乖離度再生ボタンＧ３３とは、それぞれ乖離度の低い設定範囲と乖離度の高い設定範囲とに対応した再生ボタンである。設定部１６は、再生ボタンへのクリックを検知すると、音声出力部を介して、対応した設定範囲領域の音声データを音声出力する。設定部１６は、音声の再生中に、再度再生ボタンのクリックを検知すると、再生を中断してもよい。設定部１６は、再度再生ボタンのクリックを検知すると、中断位置から音声を再生してもよい。設定部１６は、各再生ボタンの表示態様を、乖離度の値に応じて変化させてもよい。例えば、設定部１６は、乖離度が高くなればなる程、ボタンの色を黒に近づけたり、枠線を強調表示したりしてもよい。これにより、乖離度の高い設定範囲が見た目から分かるようになる。また、設定部１６は、設定されたラベルデータに応じて、ボタンの表示態様を、変化させてもよい。
シークバーＧ３４は、音声の再生位置を示すシークバーである。シークバーは、音声データ全体に対応してもよいし、設定範囲ごとに独立してもよい。
進捗表示領域Ｇ３５は、ラベルデータ設定作業の進捗情報を表示する領域である。進捗情報は、例えば、未処理データの残数や、閾値以下の乖離度である設定範囲データの割合等により表現される。これにより、作業者は作業の進み具合をリアルタイムで確認することが可能となり、作業にかかる残り工数のおおよその見積もりが可能となる。設定部１６は、作業完了ボタンＧ３６のクリックを検知すると、ラベルデータの設定作業を完了させる。設定部１６は、設定画面上で設定されたラベルデータをラベルデータベースＭ２に出力する。

作業者は、設定範囲に対応した画像表示領域Ｇ３１上の領域をクリックすることで、設定範囲に対してラベルデータを設定する作業を行う。例えば、「正常」と「ノイズ」との２種類カテゴリの何れに属するかを示すラベルデータがある場合、設定部１６は、各設定範囲のラベルデータをすべて「正常」カテゴリを示すよう初期化する。そして、設定部１６は、設定範囲領域へのクリックに応じて「ノイズ」カテゴリを示すラベルデータに切り替える。設定部１６は、再度の設定範囲領域へのクリックに応じて、「正常」カテゴリを示すラベルデータに切り替える。これにより、ノイズデータらしい設定範囲を正常な設定範囲と区別することが可能になる。ラベルデータが２種類よりも多い場合の操作方法としては、設定範囲をクリックした回数に基づいてラベルデータを切り替える方法や、クリック時にラベルデータの一覧をポップアップし選択する方法がある。また、予めラベルデータを選択しておき、クリック時は選択されたラベルデータを設定する方法等もある。複数の設定範囲に対してまとめて設定したい場合は、画像上をドラッグすることで指又はカーソルが通過した設定範囲のラベルデータを切り替える方法等がある。
設定部１６は、設定範囲領域へのフリック操作に応じて、ラベルデータを設定してもよい。例えば、設定部１６は、上方向へのフリックに応じて、「正常」カテゴリを示すラベルデータを設定し、下方向へのフリックに応じて、「ノイズ」カテゴリを示すラベルデータを設定してもよい。

設定部１６は、作業者による設定範囲領域上でのロングタップ又はマウスの長押しを検知すると、対応する設定範囲データの類似音声情報をポップアップ表示してもよい。類似する音声が確認できることで、どのラベルデータを設定するか迷うような場合でも、情報処理サーバ１０は、作業者の判断材料を増やすことができる。また、設定部１６は、設定範囲データに、ラベルデータを設定する際は、類似する設定範囲データについても、まとめて共通するラベルデータを設定してよい。
構成部１７は、各設定範囲データと、ラベルデータベースＭ９に記憶されている各設定範囲データと対応するラベルデータと、を含ませるように教師データを構成する。構成の方法は必要とされる教師データの形式に対応する。例えば、構成部１７は、正常な音声データのみが必要な場合は、「正常」のラベルデータが設定された音声データによって教師データを構成する。また、音声データではなく特徴量のみが必要な場合は、構成部１７は、特徴量とラベルデータによって教師データを構成する。構成部１７は、構成した教師データを、教師データベースＭ３に記憶する。
すべての未処理データの乖離度が閾値以下となった場合、残った未処理データは、すべて「正常」カテゴリに属すると仮定できる。そこで、乖離度の最大値が閾値以下となった場合、構成部１７は、ラベルデータ設定作業はすべて完了したものとみなし、すべての未処理データに対して「正常」ラベルデータを設定し、教師データを構成する。「正常」と「ノイズ」と以外のラベルデータが存在する場合、設定部１６は、各ラベルデータに対応する暫定教師データを用いて、最も分類スコアが高くなる、又は特徴量同士の距離が小さくなるラベルデータを設定する。未処理データがなくなった段階で、教師データベースＭ３に記憶された教師データが、最終的な教師データとなる。

図１１は、本実施形態の情報処理サーバ１０の処理の一例を示すフローチャートである。ここでは、図１１を用いて、本実施形態における教師データ作成処理について説明する。
Ｓ３０１において、取得部１１は、記憶サーバ２００から、音声データである基礎データを取得する。
Ｓ３０２において、範囲抽出部１２は、Ｓ３０１で取得された基礎データである音声データそれぞれから、設定範囲を抽出する。
Ｓ３０３において、設定部１６は、Ｓ３０２で抽出された設定範囲が示す設定範囲データの全てについて、ラベルデータの初期値として、「正常」カテゴリであることを示すラベルデータを設定する。そして、構成部１７は、Ｓ３０２で抽出された設定範囲が示す設定範囲データと、「正常」カテゴリであることを示すラベルデータと、を含む教師データを、暫定教師データの初期値として構成し、教師データベースＭ３に記憶する。
Ｓ３０４において、特徴量抽出部１３は、Ｓ３０２で抽出された設定範囲が示す設定範囲データそれぞれが示す音声データから設定された特徴量を抽出する。

Ｓ３０５において、取得部１１は、Ｓ３０１で取得された基礎データを基礎データベースＭ１に記憶する。範囲抽出部１２は、Ｓ３０２で抽出した設定範囲を、Ｓ３０１で取得された基礎データと対応付けて、基礎データベースＭ１に記憶する。特徴量抽出部１３は、Ｓ３０４で抽出した特徴量を、Ｓ３０１で取得された基礎データとＳ３０２で抽出された設定範囲とに対応付けて、基礎データベースＭ１に記憶する。
Ｓ３０６において、特定部１４は、ランダムに、初回のラベルデータの設定作業の対象となる設定範囲データを特定する。
Ｓ３０７において、音声可視化部３５は、Ｓ３０１で取得された基礎データである音声データを可視化する。可視化の方法は、図９で説明した方法と同様である。
Ｓ３０８において、設定部１６は、Ｓ３０７で編集された基礎データに基づいて、ラベルデータの設定作業に利用される設定画面を生成し、生成した設定画面を端末装置１００に提供する。図１０の設定画面は、Ｓ３０８で表示される設定画面の一例である。設定部１６は、ＣＰＵ２１１に対して、提供された設定画面を、表示部２１５に表示するよう指示することで設定画面を表示部２１５に表示させる。

作業者は、設定画面上に表示された画像を確認し、必要に応じて音声を再生しながら、ノイズデータの有無を確認する。ノイズデータを発見した場合、ノイズデータの設定範囲領域をクリックする。
Ｓ３０９において、設定部１６は、Ｓ３０８で表示された設定画面を介した作業者による操作に基づいて、設定範囲データに対するラベルデータの指定を受付ける。本実施形態では、設定部１６は、作業者による設定画面中の設定範囲領域がクリックに応じて、そのパッチに対応する設定範囲領域に対して、「ノイズ」カテゴリであることを示すラベルデータの指定を受付ける。設定部１６は、指定を受けたら、クリックが検知されたパッチに対応する設定範囲データに、「ノイズ」カテゴリであることを示すラベルデータを設定する。設定部１６は、作業終了ボタンＧ１４へのクリックに応じて、今回のラベルデータの設定作業を終了する。
Ｓ３１０において、設定部１６は、Ｓ３０９で設定したラベルデータを、対応する設定範囲データと対応付けて、ラベルデータベースＭ２に記憶する。

Ｓ３１１において、構成部１７は、Ｓ３１０で設定範囲領域と対応付けて記憶されたラベルデータに基づいて、教師データを構成する。本実施形態では、構成部１７は、「ノイズ」カテゴリを示すラベルデータと、設定範囲領域と、を含む教師データを構成する。
Ｓ３１２において、構成部１７は、Ｓ３１１で構成した教師データに基づいて、教師データベースＭ３に記憶される暫定教師データを更新する。本実施形態では、情報処理サーバ１０が作成する教師データは、「正常」カテゴリのデータのみで構成されるとする。そのため、構成部１７は、初回のＳ３１２の処理の際に、Ｓ３０３で初期化された暫定教師データに含まれる設定範囲領域から、Ｓ３１１で構成された教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。その後のＳ３１２の処理の際には、構成部１７は、教師データベースＭ３に記憶された暫定教師データに含まれる設定範囲領域から、直前のＳ３１１で構成した教師データに対応する設定範囲領域を削除することで、暫定教師データを更新する。
Ｓ３１３において、特定部１４は、教師データベースＭ３に記憶された暫定教師データが示す暫定教師音声データと、各未処理データが示す音声データと、の乖離度を決定する。
Ｓ３１４において、特定部１４は、Ｓ３１３で決定した乖離度に基づいて、次回のラベルデータの設定作業の対象となる設定範囲データを特定する。

Ｓ３１５において、特定部１４は、Ｓ３１４で特定した未処理データに対応する乖離度が、予め設定された閾値以下か否かを判定する。ここで、乖離度は、高い程乖離していることを示す指標であるとする。特定部１４は、Ｓ３１４で特定した未処理データに対応する乖離度が、予め設定された閾値以下であると判定した場合、ラベルデータの設定作業が完了したものとして、Ｓ３１６の処理に進む。特定部１４は、Ｓ３１４で特定した未処理データに対応する乖離度が、予め設定された閾値よりも大きいと判定した場合、Ｓ３０７の処理に進む。
Ｓ３１６において、構成部１７は、すべての未処理データに「正常」カテゴリを示すラベルデータを設定する。そして、構成部１７は、「正常」カテゴリを示すラベルデータを設定した未処理データについて、教師データを構成する。本実施形態では、Ｓ３０３で全ての人体範囲領域について、ラベルデータの初期値を設定しているので、Ｓ２１６で、構成部１７は、改めて教師データを構成しなくてもよい。
Ｓ３１７において、構成部１７は、Ｓ３１６で構成した教師データを、教師データベースＭ３に記憶する。この段階で、教師データベースＭ３に記憶された教師データを、最終的な教師データとする。

以上、本実施形態野処理により、情報処理サーバ１０は、基礎データが音声データである場合でも、「ノイズ」カテゴリのデータの候補となるデータを特定できる。
また、乖離度の高い設定範囲の画像又は再生ボタン等を強調表示することで、どの音声が乖離度の高い設定範囲に対応しているかを容易に判断することが可能になり、作業者は注目すべき人物を注目することが簡単になる。
また、ラベルデータの設定状況に対応して、画像や再生ボタンの色や形状等の見た目を変化させることで、ラベルデータの設定状況が可視化されるため、作業者は直観的にラベルデータの設定状況を把握することができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

例えば、上述した情報処理システムの機能構成の一部又は全てをハードウェアとして情報処理サーバ１０に実装してもよい。
実施形態１〜４では、情報処理サーバ１０は単体の情報処理装置であるとしたが、複数のＰＣ、サーバ装置、タブレット装置等であるとしてもよい。その場合、情報処理サーバ１０に含まれる各情報処理装置のＣＰＵが、各情報処理装置の補助記憶装置に記憶されるプログラムに基づき、連携して処理を実行することで、図３、９の機能及び図５、８、１１のフローチャートの処理等が実現される。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。上述した各実施形態を任意に組み合わせてもよい。

１０情報処理サーバ
１００端末装置
２００記憶サーバ

Claims

複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付手段と、
前記受付手段によりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第１のカテゴリとの乖離の程度を示す乖離度を決定する第１の決定手段と、
前記第１の決定手段により決定された前記乖離度に基づいて、前記複数のデータから、前記第１のカテゴリと異なる第２のカテゴリのデータの候補となるデータを特定する特定手段と、
前記複数のデータのうち、前記特定手段により特定されたデータと類似するデータを判定する判定手段と、
前記特定手段により特定されたデータと前記判定手段により判定されたデータとを表示部に表示させる表示制御手段と、
前記特定手段により特定された前記第２のカテゴリのデータの候補のうち前記第２のカテゴリのデータを、前記表示制御手段による表示制御の後に受け付けたユーザからの指示に基づいて識別する識別手段と、
を有する情報処理装置。
前記受付手段は、前記複数のデータに含まれるデータについて、前記第１のカテゴリの指定を受付け、
前記第１の決定手段は、前記受付手段により前記第１のカテゴリの指定が受付けられたデータと、前記複数のデータに含まれるデータと、の乖離の度合いを、前記乖離度として決定する請求項１記載の情報処理装置。
前記受付手段は、前記複数のデータに含まれるデータについて、前記第２のカテゴリの指定を受付け、
前記第１の決定手段は、前記複数のデータから前記受付手段により前記第２のカテゴリの指定が受付けられたデータを除いたデータと、前記複数のデータに含まれるデータと、の乖離の度合いを、前記乖離度として決定する請求項１記載の情報処理装置。
前記表示制御手段は、前記複数のデータを表示部に表示させ、
前記受付手段は、前記表示制御手段により前記表示部に表示された前記複数のデータに含まれるデータについて、カテゴリの指定を受付ける請求項１乃至３何れか１項記載の情報処理装置。
前記特定手段により特定されたデータの数と、前記特定手段により特定されたデータのうちカテゴリが指定されたデータの数と、に基づいて、前記複数のデータの分類作業の進捗度を取得する取得手段を更に有し、
前記表示制御手段は、前記取得手段により取得された前記進捗度を前記表示部に表示する請求項４記載の情報処理装置。
前記表示制御手段は、前記特定手段により特定されたデータに対するユーザの操作に応じて、当該データと類似すると前記判定手段により判定されたデータを前記表示部に表示させる請求項４又は５記載の情報処理装置。
前記表示制御手段は、前記特定手段により特定されたデータを、前記特定手段により特定されたデータに対応する前記乖離度に応じた表示態様で、前記表示部に表示させる請求項６記載の情報処理装置。
複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付手段と、
前記受付手段によりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第１のカテゴリとの乖離の程度を示す乖離度を決定する第１の決定手段と、
前記第１の決定手段により決定された前記乖離度に基づいて、前記複数のデータから、前記第１のカテゴリと異なる第２のカテゴリのデータの候補となるデータを特定する特定手段と、
前記複数のデータを表示部に表示させる表示制御手段とを有し、
前記受付手段は、前記表示制御手段により前記表示部に表示された前記複数のデータに含まれるデータについて、カテゴリの指定を受付け、
前記表示制御手段は、前記特定手段により特定されたデータと、前記複数のデータのうち、前記特定手段により特定されたデータと類似するデータとを前記表示部に表示させる情報処理装置。
前記表示制御手段は、前記複数のデータを、前記複数のデータに含まれるデータそれぞれに対応するカテゴリに応じた表示態様で、前記表示部に表示させる請求項４乃至７何れか１項記載の情報処理装置。
前記特定手段により前記第２のカテゴリのデータの候補となるデータが特定されなかった場合、前記複数のデータのうち、カテゴリが指定されていないデータを、前記第１のカテゴリのデータとして決定する第２の決定手段を更に有する請求項１乃至９何れか１項記載の情報処理装置。
前記複数のデータのそれぞれは、動画像における各フレーム内のオブジェクトの領域である請求項１乃至１０何れか１項記載の情報処理装置。
前記受付手段は、前記複数のデータに含まれる同一のオブジェクトの領域であるデータのうち、指定された期間の間、連続するデータについて、一括してカテゴリの指定を受付ける請求項１１記載の情報処理装置。
前記複数のデータのそれぞれは、音声データである請求項１乃至１０何れか１項記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付ステップと、
前記受付ステップでカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第１のカテゴリとの乖離の程度を示す乖離度を決定する決定ステップと、
前記決定ステップで決定された前記乖離度に基づいて、前記複数のデータから、前記第１のカテゴリと異なる第２のカテゴリのデータの候補となるデータを特定する特定ステップと、
前記複数のデータのうち、前記特定ステップにより特定されたデータと類似するデータを判定する判定ステップと、
前記特定ステップにより特定されたデータと前記判定ステップにより判定されたデータとを表示部に表示させる表示制御ステップと、
前記特定ステップにより特定された前記第２のカテゴリのデータの候補のうち前記第２のカテゴリのデータを、前記表示制御ステップによる表示制御の後に受け付けたユーザからの指示に基づいて識別する識別ステップと、
を含む情報処理方法。
複数のデータに含まれるデータについて、カテゴリの指定を受付ける受付ステップと、
前記受付ステップによりカテゴリの指定が受付けられたデータに基づいて、前記複数のデータに含まれるデータと第１のカテゴリとの乖離の程度を示す乖離度を決定する第１の決定ステップと、
前記第１の決定ステップにより決定された前記乖離度に基づいて、前記複数のデータから、前記第１のカテゴリと異なる第２のカテゴリのデータの候補となるデータを特定する特定ステップと、
前記複数のデータを表示部に表示させる表示制御ステップとを含み、
前記受付ステップは、前記表示制御ステップにより前記表示部に表示された前記複数のデータに含まれるデータについて、カテゴリの指定を受付け、
前記表示制御ステップは、前記特定ステップにより特定されたデータと、前記複数のデータのうち、前記特定ステップにより特定されたデータと類似するデータとを前記表示部に表示させる情報処理方法。
コンピュータを、請求項１乃至１３何れか１項記載の情報処理装置の各手段として、機能させるためのプログラム。