JP6797854B2

JP6797854B2 - 情報処理装置および情報処理方法

Info

Publication number: JP6797854B2
Application number: JP2018050181A
Authority: JP
Inventors: 琢佐々木; 啓太三上; 森賀　邦広; 邦広森賀
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2020-12-09
Anticipated expiration: 2038-03-16
Also published as: US20210081821A1; WO2019177130A1; JP2019160240A

Description

本発明は、情報処理装置および情報処理方法に関する。

従来、入力されたデータの中の重要な部分（特徴部）と重要でない部分（背景）とに分ける技術がある。例えば、深層学習を用いた技術によれば、画像データの背景を無視し、特徴部だけを検出したうえで分析を行うことができる。この技術は次の２つの効果を持つ。

・精度がよい（背景≒ノイズに左右されないため）
・処理速度が速い（背景の評価をスキップできるため）

上記の技術は、例えば、監視カメラの画像または映像に写る被写体、例えば、人物や動物や移動体等の分析等に適用可能である。

また、上記のように映像または画像に写る被写体の分析を行う技術として、EDRAM（Enriched Deep Recurrent visual Attention Model）がある。このEDRAMは、入力画像または入力映像に対し、被写体部分をとらえるための枠を移動させ、枠を移動させる都度、枠により切り取られた範囲に対して分析を行う技術である。

ここで、枠の移動は、画像に対しては縦横の２方向に移動し、映像に対しては縦横に時間軸を加えた３方向に移動することにより行われる。また、画像または映像の被写体を囲うような位置に移動することにより行われる。ここで、枠により切り取られた範囲に対する分析は、例えば、被写体についての以下の分類および照合により行われる。なお、以下は、被写体が人物である場合の分類および照合の例である。

・分類：人物の属性（例えば、性別、年齢、着ている服等）を推定する
・照合：与えられた人物と同一人物か否かを判定する
なお、上記の分類には、人物の属性の推定の他、人物の動作等、人物に関する様々な情報、状態を推定することが含まれる。

また、EDRAMは、例えば、以下の4つニューラルネットワーク(NN)により構成される。

・初期化NN：最初の枠を決めるNN
・コアNN：過去に枠が何を見てきたかを「記憶」するNN
・移動NN：記憶に基づき、枠を最適な位置に移動させるNN
・分析NN：記憶に基づき、分析結果を出すNN

上記の４つのNNの関係を図１２に示す。

EDRAMは、初期化NNにおいて、例えば、人物を含む画像１０１を取得すると、画像１０１の最初の枠を決め、切り取る。そして、コアNNにおいて切り取った枠（例えば、図１２に示す１回目の枠）の位置を記憶し、分析NNにおいて１回目の枠内の分析を行い、分析結果を出力する（例えば、30代、女性等）。

その後、移動NNにおいて、枠を最適な位置に移動させる。例えば、移動NNは、枠の位置を、図１２に示す２回目の枠の位置に移動させる。そして、コアNNにおいて、当該移動により切り取った枠（例えば、上記の２回目の枠）の位置を記憶し、分析NNにおいて２回目の枠内の分析を行い、分析結果を出力する。

その後、移動NNにおいて枠をさらに最適な位置に移動させる。例えば、移動NNは、枠の位置を、図１２に示す３回目の枠の位置に移動させる。その後、コアNNにおいて、当該移動により切り取った枠（例えば、上記の３回目の枠）を記憶し、分析NNにおいて３回目の枠内の分析を行い、分析結果を出力する。

EDRAMが、このような処理を繰り返すことで、枠は徐々に絞り込まれていき、やがて枠は画像１０１内の人物の全身に収束する。よって、EDRAMにおいて、枠を画像内の人物の全身に収束させるためには、初期化NNにより生成される枠が人物を含んでいることが重要である。換言すると、初期化NNにおいて生成される枠（１回目の枠）が人物を含んでいないと、移動NNにおいて枠を何回絞り込んでも人物は見つかりづらい。

ここで、実験を行ったところ、EDRAMで扱う画像群がマルチスケール性を有する場合、人物を含むような枠の初期化に失敗することが多いという実験結果が得られた。このマルチスケール性とは、画像により写っている人物の大きさ（スケール）が異なる性質である。例えば、図１３に示すように、画像群それぞれの人物の大きさ（スケール）が異なる場合、当該画像群はマルチスケール性を有することになる。

EDRAMで扱う画像群がマルチスケール性を有する場合、人物を含む枠の初期化に失敗し、その結果、画像中の人物の分析精度が低くなってしまうおそれがある。

このことを、図１４を用いて説明する。例えば、EDRAMで扱う画像群が、すべての画像で人物のスケールがほぼ同じであるデータセットＡである場合、何回か訓練すれば、EDRAMにより初期化された１回目の枠は、高確率で人物を含むものとなる。つまり、高確率で人物を含むような初期化ができる。一方、EDRAMで扱う画像群が、画像によって人物のスケールが異なるデータセットＢである場合、何回訓練しても、EDRAMにより初期化された１回目の枠は、高確率で人物を含むようなものにならない。つまり、高確率で人物を含むような初期化ができない。その結果、画像中の人物の分析精度が低くなってしまうおそれがある。

なお、EDRAMで扱う画像群がマルチスケール性を有する場合に、人物を含むような枠の初期化に失敗してしまうのは、以下の理由によると考えられる。

例えば、図１４のデータセットＢの画像２０１，２０２，２０３のように、画像２０１，２０２における人物のスケールに対し、画像２０３における人物のスケールが小さい場合、EDRAMは、画像２０１，２０２につられて、画像２０３についても同じようなスケールの人物を含むような１回目の枠を生成してしまう。その結果、EDRAMは、画像２０３について人物とは異なる場所に１回目の枠を生成してしまうからと考えられる（符号２０４に示す枠参照）。

Artsiom Ablavatski, Shijian Lu, Jianfei Cai, "Enriched Deep Recurrent Visual Attention Model for Multiple Object Recognition", IEEE WACV 2017, 12 Jun 2017

上記のEDRAMのみならず、入力データから特徴部を抽出し、分析する分析装置において、入力データがマルチスケール性を有する場合、初期化された１回目の枠は特徴部を含まない可能性がある。そのため、入力データを精度よく分析することができない場合がある。そこで、本発明は、前記した問題を解決し、入力データがマルチスケール性を有する場合であっても、入力データの特徴部を精度よく分析することを目的とする。

前記した課題を解決するため、本発明は、データの特徴部を抽出し、分析を行う分析装置で用いられるデータの前処理を行う情報処理装置であって、前記データの入力を受け付ける入力部と、前記データに対する前記特徴部の占める割合を予測する予測部と、前記予測された割合に応じて、前記データに対する分割の方法を決定する分割方法決定部と、前記決定した分割の方法に基づき、前記データに対して分割を実行する分割実行部と、を備えることを特徴とする。

本発明によれば、入力データがマルチスケール性を有する場合であっても、入力データの特徴部を精度よく分析することができる。

図１は、システムの構成例を示す図である。図２は、訓練データの一例を示す図である。図３は、画像データの一例を示す図である。図４は、画像データの分割の一例を説明するための図である。図５は、システムの処理手順の一例を示すフローチャートである。図６は、画像データの分割の一例を説明するための図である。図７は、ウィンドウスライディング法における人物部分の検出を説明するための図である。図８は、YOLO（You Only Look Once）における人物部分の枠決めを説明するための図である。図９は、入力データが音声データである場合の特徴部およびスケールを説明するための図である。図１０は、入力データが時系列のセンサデータである場合の特徴部およびスケールを説明するための図である。図１１は、情報処理プログラムを実行するコンピュータの一例を示す図である。図１２は、EDRAMによる処理の一例を説明するための図である。図１３は、マルチスケール性を有する画像群の一例を示す図である。図１４は、EDRAMにおける人物を含む枠の初期化を説明するための図である。

［概要］
以下、図面を参照しながら、本発明の実施形態を説明する。まず、図１を用いて、本実施形態の情報処理装置を含むシステムの概要を説明する。

システムは、情報処理装置１０と、分析装置２０とを備える。情報処理装置１０は、分析装置２０の扱うデータ（入力データ）の前処理を行う。分析装置２０は、情報処理装置１０により前処理が行われた入力データの分析を行う。例えば、分析装置２０は、情報処理装置１０により前処理が行われた入力データの特徴部を抽出し、抽出した特徴部に対する分析を行う。

例えば、入力データが、画像データである場合、入力データの特徴部は、例えば、画像データの人物部分である。この場合、分析装置２０は、情報処理装置１０により前処理が行われた画像データから人物部分を抽出し、抽出した人物部分の分析（例えば、人物部分の人物の性別、年齢等の推測）を行う。この分析装置２０は、例えば、前記したEDRAM等を用いて分析を行う。なお、入力データが、画像データである場合、入力データの特徴部は、人物部分以外であってもよく、例えば、動物や移動体等であってもよい。

なお、入力データは、画像データ以外にも、映像データ、テキストデータ、音声データ、時系列のセンサデータであってもよい。なお、以下の説明では、入力データが画像データである場合について説明する。

分析装置２０は、例えば、上記のEDRAMにより、情報処理装置１０により前処理が行われた入力データに基づく枠の初期化、それまでの枠の記憶としての蓄積、前記記憶に基づく枠の絞り込みおよび分析、枠の位置および分析に関する誤差に基づく各NNのパラメータの更新等を行う。各処理には、NNが用いられ、各NNによる処理結果は、例えば図１に示すように、順伝搬および逆伝搬する。

なお、分析装置２０は、上記のEDRAM以外にも、スライディングウィンドウ法（後記）や、YOLO（You Only Look Once、後記）等により入力データから特徴部を抽出し、分析を行ってもよい。

ここで、情報処理装置１０は、入力データに対する特徴部の割合を占める割合（スケール）の予測結果に基づき入力データの分割を行う。

例えば、情報処理装置１０は、入力データに対する特徴部の割合（スケール）を予測し、予測したスケールが所定値以下の場合（例えば、画像データに対し特徴部となる人物部分が小さい場合）、入力データに対し所定の分割を行う。そして、情報処理装置１０は、分割した入力データを分析装置２０へ出力する。一方、予測したスケールが所定値以下の場合（例えば、画像データに対し特徴部となる人物部分が小さい場合）、情報収集装置１０は、入力データに対する分割は行わずに分析装置２０へ出力する。

これにより、分析装置２０に入力されるデータそれぞれのスケールのばらつきをできるだけ低減できるので、分析装置２０は入力されるデータの特徴部を精度よく分析することができる。

［構成］
引き続き、図１を用いて、情報処理装置１０の構成を説明する。情報処理装置１０は、入力部１１と、スケール予測部（予測部）１２と、分割方法決定部１３と、分割実行部１４と、出力部１５とを備える。

入力部１１は、入力データの入力を受け付ける。スケール予測部１２は、入力部１１により受け付けた入力データに対する特徴部の占める割合（スケール）を予測する。例えば、スケール予測部１２は、入力データ（画像データ）に人物が写っているとすれば、どの程度のスケールで写っていそうか、を予測する。ここでのスケールの予測には、例えば、機械学習を用いる。この機械学習には、例えば、NNを用いる。NNは、入力データとそのスケールのペアと学習することで、未知の入力データに対してもより正確にスケールを予測することができるようになる。

ここで、図２を参照しながら、前記NNの学習に用いる訓練データの一例を説明する。例えば、訓練データとして、図２に示すように、入力データ（画像データ）と、その画像データにおける特徴部（人物部分）のスケールとを対応付けたデータセットを用意しておく。

ここでは、画像データにおける特徴部（人物部分）の占める割合（スケール、Ｒ）を、Ｒ∈［１５，３０］（カテゴリー１：スケール「大」）、Ｒ∈［１０，１５］（カテゴリー２：スケール「中」）、Ｒ∈［５，１０］（カテゴリー３：スケール「小」）の３つのカテゴリーに分けたデータセットを用意した場合の例を示している。そして、スケール予測部１２は、このデータセットにフィットするようにNNのパラメータを更新し、予測対象の入力データ（画像データ）が上記のスケール「大」、スケール「中」、スケール「小」のいずれに属するかを判定することによりスケールを予測する。

例えば、入力データが、図３の符号３０１に示す画像データと、符号３０２に示す画像データとである場合を考える。この場合、スケール予測部１２は、上記の機械学習の結果を用いて、符号３０１のように人物が小さく写っている画像データについては「スケールが小さい」と予測し、符号３０２のように人物が大きく写っている画像データについては「スケールが大きい」と予測する。

なお、スケール予測部１２は、入力データのスケール（Ｒ）を大、中、小等にカテゴライズせず、直接、スケール（Ｒ）の値を予測してもよい。

なお、入力データが背景を含む画像データである場合、スケール予測部１２を実装するNNは、画像データの特徴部の背景となる建物等の大きさ等の大きさから、入力データ（画像データ）が広角で撮られたものか、望遠で撮られたものかを判定し、その結果を正確なスケールの予測に役立てていると考えられる。

図１の分割方法決定部１３は、入力データの分割の方法（分割方法）、つまり、入力データを分割するか否か、また、入力データを分割する場合、当該入力データをいくつに分割するか、どのように分割するか等を決定する。例えば、分割方法決定部１３は、スケール予測部１２により予測された入力データのスケールに応じて、入力データの分割が必要か否かを判定し、必要と判定した場合はさらに当該入力データをいくつに分割するか、どのように分割するか等を決定する。そして、分割方法決定部１３は、当該入力データとその分割方法とを分割実行部１４に出力する。一方、分割方法決定部１３は、入力データに対する分割は不要と判定した場合、当該入力データを出力部１５へ出力する。

例えば、分割方法決定部１３は、図４に示すように、特徴部（人物部分）のスケールが所定値以下である画像データ４０２について、符号４０３に示すように４つに分割すると判定する。なお、分割方法決定部１３は、入力データのスケールが小さいほど、入力データを細かく分割すると判定してもよい。例えば、スケール予測部１２により予測された入力データのスケールが上記の所定値を大きく下回る場合、そのスケールの小ささに応じて、入力データをより細かく分割すると判定してもよい。そして、分割方法決定部１３は、画像データ４０２と画像データ４０２の分割数の判定結果とを分割実行部１４に出力する。

一方、分割方法決定部１３は、図４に示すように、特徴部（人物部分）のスケールが所定値を超える画像データ４０１については、分割は行わないと判定する。そして、分割方法決定部１３は、画像データ４０１を出力部１５に出力する。

なお、スケール予測部１２は、NNにより実現してもよい。この場合、スケール予測部１２は、スケール予測部１２が予測したスケールと実際のスケールとの誤差を受け取る。そして、スケール予測部１２は、上記の誤差に基づき、スケール予測用いるパラメータの調整を行う。このような処理を繰り返すことで、スケール予測部１２は、入力データのスケールをより正確に予測できるようになる。

図１の分割実行部１４は、分割方法決定部１３により決定された分割方法に基づき、入力データの分割を行う。そして、分割実行部１４は、分割を行った入力データを出力部１５へ出力する。例えば、分割実行部１４は、図４の画像データ４０２を符号４０３に示すように４つに分割し、分割したすべての部分画像を出力部１５へ出力する。

出力部１５は、分割実行部１４および分割方法決定部１３から出力された入力データを、分析装置２０へ出力する。例えば、出力部１５は、分割実行部１４により４つに分割された画像データ４０２（図４の符号４０３参照）と、分割方法決定部１３から出力された画像データ４０１とを分析装置２０へ出力する。

［処理手順］
次に、図５を用いてシステムの処理手順を説明する。まず、情報処理装置１０の入力部１１は、入力データを受け付ける（Ｓ１）。次に、スケール予測部１２は、入力データのスケールを予測する（Ｓ２）。そして、分割方法決定部１３は、Ｓ２で予測された入力データのスケールに基づき、当該入力データを分割するか否か、また分割する場合、どの程度細かく分割するかを決定する（Ｓ３：分割方法決定）。

Ｓ３における分割方法決定の結果、Ｓ１で受け付けた入力データを分割しないと判定された場合（Ｓ４で「分割なし」）、分割方法決定部１３は、当該入力データを出力部１５経由で分析装置２０に出力する（Ｓ６：データ出力）。一方、Ｓ３における分割判定の結果、Ｓ１で受け付けた入力データを分割すると判定された場合（Ｓ４で「分割あり」）、分割実行部１４は、分割方法決定部１３による判定結果に基づき、入力データに対し所定の分割を行う（Ｓ５）。そして、分割実行部１４は分割後の入力データを出力部１５へ出力する。その後、出力部１５は、分割後の入力データを分析装置２０へ出力する（Ｓ６：データ出力）。Ｓ６の後、分析装置２０は、情報処理装置１０から出力されたデータに対し分析を行う（Ｓ７）。

このような情報処理装置１０によれば、入力データのスケールが所定値以下の場合、スケールに応じて分割を行った上で、分析装置２０に出力することもできる。これにより、入力データ群がマルチスケール性を持つ場合であっても、分析装置２０に入力されるデータ群のスケールをできるだけ同じにすることができる。その結果、分析装置２０は入力データにおける特徴部の分析精度を向上させることができる。

［その他の実施形態］
なお、入力データが、図６のように奥行感のある画像データである場合、分割方法決定部１３は、遠景の部分は遠景の部分として、近景の部分は近景の部分として分割するような分割の方法を定めてもよい。例えば、分割方法決定部１３は、図６に示す画像の奥の方は細かく（小さく）分割し、手前の方は粗く（大きく）分割するような分割の方法を定めてもよい。このようにすることで、入力データに奥行感のある画像データが含まれる場合でも、分析装置２０に入力されるデータのスケールをできるだけ同じにすることができる。

また、分析装置２０は、入力データから特徴部を抽出し、分析を行う装置であれば、前記したEDRAMを用いる装置に限定されない。例えば、分析装置２０は、前記したスライディングウィンドウ法や、YOLO等により入力データから特徴部を抽出し、分析を行う装置であってもよい。

例えば、分析装置２０が、スライディングウィンドウ法により、入力データ（例えば、画像データ）から特徴部（人物部分）を抽出する装置である場合、分析装置２０は、以下のようにして、画像データから人物部分を抽出し、分析を行う。

すなわち、スライディングウィンドウ法を用いる分析装置２０は、何種類かの大きさの枠（ウィンドウ）を用意しておき、この枠を画像データ上でスライドし、フルスキャンを行うことで、人物部分を検出し、抽出する。これにより、分析装置２０は、例えば、図７に示す画像データ上から１人目、２人目および３人目の人物部分を検出し、抽出する。そして、分析装置２０は、抽出した人物部分の分析を行う。

このスライディングウィンドウ法では、枠のサイズを調整する処理を行わないので、画像上に大きく写った人物は大きい枠でないと検出できない、また、画像上に小さく写った人物は小さい枠でないと検出できない。そして、人物部分の検出がうまくできないと、人物部分の分析精度も低下することになる。

そこで、スライディングウィンドウ法を用いる分析装置２０が、上記の情報処理装置１０からデータそれぞれのスケールをできるだけ同じにしたデータ（画像データ）を受け取ることで、画像データに対し、適切な大きさの枠を用意しやすくなる。その結果、分析装置２０は、画像データから人物部分を検出しやすくなるので、画像データにおける人物部分の分析精度を向上させることができる。また、分析装置２０は、画像データに対し様々な大きさの枠を用意する必要がなくなるので、画像データから人物部分を検出する際に要する処理負荷を低減することができる。

また、例えば、分析装置２０が、YOLOにより、入力データ（例えば、画像データ）から特徴部となる人物部分を抽出し、分析を行う装置である場合、分析装置２０は、以下のようにして、画像データから特徴部となる人物部分を抽出し、分析を行う。

すなわち、YOLOを用いる分析装置２０は、例えば、図８に示すように、画像データをグリッドに切り、グリッドごとに人物部分を探しにいく。そして、分析装置２０は、人物部分を見つけると、その人物部分に枠を合わせる。ここで、YOLOを用いる分析装置２０は、画像データから人物部分を見つけ、その人物部分に枠を合せる処理がうまくいかないと、人物部分の検出がうまくいかず、その結果、人物部分の分析精度も低下することになる。

そこで、YOLOを用いる分析装置２０が、上記の情報処理装置１０からデータそれぞれのスケールをできるだけ同じにしたデータ（画像データ）を受け取ることで、画像データから人物部分を検出しやすくなり、その結果、画像データにおける人物部分の分析精度を向上させることができる。

また、前記したとおり、システムの扱う入力データは、画像データ以外にも、映像データ、テキストデータ、音声データ、時系列のセンサデータであってもよい。

例えば、入力データがテキストデータである場合、特徴部は、例えば、当該テキストデータにおける、特定の語句、言い回し、表現等である。したがって、情報処理装置１０は、入力データがテキストデータである場合、入力データのスケールとして、例えば、テキストデータ全体の文字数に対する、上記の特徴部の文字数の占める割合を用いる。

そして、情報処理装置１０は、テキストデータ全体の文字数に対する、上記の特徴部の文字数の占める割合（スケール）ができるだけ同じになるよう、必要に応じてテキストデータの分割を行い、分析装置２０へ出力する。

このようにすることで、分析装置２０が、テキストデータにおける、特定の語句、言い回し、表現等の分析を行う分析装置である場合に、分析精度を向上させることができる。

また、例えば、入力データが音声データである場合、特徴部は、例えば、背景ノイズのある音声データにおける人間の音声や、背景ノイズがない音声データにおける、特定の単語またはフレーズ、特定の人物の音声、特定の周波数帯域等である。したがって、情報処理装置１０は、入力データが音声データである場合、入力データのスケールとして、例えば、音声データに対する、上記の人間の音声のＳＮ比（Signal-to-Noise ratio)、または、音声データ全体の時間の長さに対する、特定の単語またはフレーズの時間の長さを用いる。また、音声データにおける特定の周波数帯域を用いる場合、情報処理装置１０は、入力データのスケールとして、例えば、上記の音声データに含まれる周波数帯域ごとの出現頻度を示すヒストグラムの台全体に対する、特定の周波数帯の幅を用いる（図９参照）。

そして、情報処理装置１０は、音声データ全体に対する、上記の特徴部（人間の音声のＳＮ比、特定の単語またはフレーズの時間の長さ、特定の周波数帯域の幅）の占める割合（スケール）ができるだけ同じになるよう、必要に応じて音声データの分割を行い、分析装置２０へ出力する。

このようにすることで、分析装置２０が、音声データにおける、人間の音声、特定の単語またはフレーズ、特定の人物の音声、特定の周波数帯域等の分析を行う場合に、分析精度を向上させることができる。

また、入力データが時系列のセンサデータである場合、特徴部は、例えば、何らかの異常を示すセンサの値のパターン等である。一例を挙げると、センサの値自体は通常時取り入る範囲（正常範囲）だが、異常時特有のパターンを繰り返す場合がある（図１０参照）。このような場合、異常を検知し、分析するため、時系列のセンサデータのうち、センサの値自体は正常の範囲だが、異常時特有のパターンを示す部分を特徴部として用いる。

したがって、情報処理装置１０は、入力データが時系列のセンサデータである場合、入力データのスケールとして、例えば、時系列のセンサデータのうち、センサの値自体は正常の範囲だが、異常時特有のパターンを示す部分の波長を用いる（図１０参照）。そして、情報処理装置１０は、時系列のセンサデータ全体に対する、上記の特徴部（センサの値自体は正常範囲だが、異常時特有のパターンを示す部分）の波長の占める割合（スケール）ができるだけ同じになるよう、必要に応じて時系列のセンサデータの分割を行い、分析装置２０へ出力する。

このようにすることで、分析装置２０が、時系列のセンサデータから、異常の検知および分析を行う場合に、分析精度を向上させることができる。

また、入力データは、ビデオ映像（映像データ）であってもよい。この場合、特徴部は、例えば、ビデオ映像において人物が特定の動作をしているフレームである。そして、情報処理装置１０は、ビデオ映像全体のフレーム数に対する、上記の特徴部（ビデオ映像で人物が特定の動作をしているフレーム）の占める割合（スケール）ができるだけ同じになるよう、必要に応じてビデオ映像のフレームの分割を行い、分析装置２０へ出力する。

このようにすることで、分析装置２０が、ビデオ映像において人物が特定の動作をしているフレームを分析する場合に、分析精度を向上させることができる。

［プログラム］
また、上記の実施形態で述べた情報処理装置１０の機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を情報処理装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）等がその範疇に含まれる。また、情報処理装置１０を、クラウドサーバに実装してもよい。

図１１を用いて、上記のプログラム（情報処理プログラム）を実行するコンピュータの一例を説明する。図１１に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図１１に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記の情報処理プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。また、コンピュータ１０００は、ＣＰＵ１０２０に代えて、ＧＰＵ（Graphics Processing Unit）を用いて処理を実行してもよい。

１０情報処理装置
１１入力部
１２スケール予測部
１３分割方法決定部
１４分割実行部
１５出力部
２０分析装置

Claims

データの特徴部を抽出し、分析を行う分析装置で用いられるデータの前処理を行う情報
処理装置であって、
前記データの入力を受け付ける入力部と、
データごとに、前記データにおける特徴部の占める割合を示した訓練データを用いた機
械学習により、前記データに対する前記特徴部の占める割合を予測する予測部と、
前記予測された割合に応じて、前記データに対する分割の方法を決定する分割方法決定
部と、
前記決定した分割の方法に基づき、前記データに対して分割を実行する分割実行部と、
を備えることを特徴とする情報処理装置。
データの特徴部を抽出し、分析を行う分析装置で用いられるデータの前処理を行う情報処理装置であって、
前記データの入力を受け付ける入力部と、
前記データに対する前記特徴部の占める割合を予測する予測部と、
前記データに対する前記特徴部の占める割合が所定値以下である場合、前記データに対
して分割を行うと判定する、分割の方法を決定する分割方法決定部と、
前記決定した分割の方法に基づき、前記データに対して分割を実行する分割実行部と、
を備えることを特徴とする情報処理装置。
データの特徴部を抽出し、分析を行う分析装置で用いられるデータの前処理を行う情報処理装置であって、
前記データとしてテキストデータの入力を受け付ける入力部と、
前記データに対する前記特徴部として、前記テキストデータに含まれる所定のキーワードの占める割合を予測する予測部と、
前記予測された割合に応じて、前記データに対する分割の方法を決定する分割方法決定部と、
前記決定した分割の方法に基づき、前記データに対して分割を実行する分割実行部と、
を備えることを特徴とする情報処理装置。
前記分割方法決定部は、
前記データに対する前記特徴部の占める割合が小さいほど、前記データを細かく分割すると判定する
ことを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記データは、画像データ、映像データ、音声データ、または時系列のセンサデータであり、
前記特徴部は、前記画像データ、前記映像データに写る被写体の部分、前記音声データに含まれる、人間の音声、所定の人物の音声、所定の単語を示す音声、および、所定の周波数帯域の音声のいずれかまたはこれらの組み合わせ、または前記時系列のセンサデータに含まれる所定のセンサ値のパターンである
ことを特徴とする請求項１または２に記載の情報処理装置。
データの特徴部を抽出し、分析を行う分析装置で用いられるデータの前処理を行う情報
処理装置により実行される情報処理方法であって、
前記データの入力を受け付けるステップと、
データごとに、前記データにおける特徴部の占める割合を示した訓練データを用いた機
械学習により、前記データに対する前記特徴部の占める割合を予測するステップと、
前記予測された割合に応じて、前記データに対する分割の方法を決定するステップと、
前記決定した分割の方法に基づき、前記データに対して分割を実行するステップと
を含んだことを特徴とする情報処理方法。
データの特徴部を抽出し、分析を行う分析装置で用いられるデータの前処理を行う情報
処理装置により実行される情報処理方法であって、
前記データの入力を受け付けるステップと、
前記データに対する前記特徴部の占める割合を予測するステップと、
前記データに対する前記特徴部の占める割合が所定値以下である場合、前記データに対
して分割を行うと判定する、分割の方法を決定するステップと、
前記決定した分割の方法に基づき、前記データに対して分割を実行するステップと
を含んだことを特徴とする情報処理方法。
データの特徴部を抽出し、分析を行う分析装置で用いられるデータの前処理を行う情報
処理装置により実行される情報処理方法であって、
前記データとしてテキストデータの入力を受け付けるステップと、
前記データに対する前記特徴部として、前記テキストデータに含まれる所定のキーワードの占める割合を予測するステップと、
前記予測された割合に応じて、前記データに対する分割の方法を決定するステップと、
前記決定した分割の方法に基づき、前記データに対して分割を実行するステップと
を含んだことを特徴とする情報処理方法。