JP7178331B2

JP7178331B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7178331B2
Application number: JP2019123828A
Authority: JP
Inventors: アリジェヴァヒル; スタンリーコック
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2018-11-01
Filing date: 2019-07-02
Publication date: 2022-11-25
Anticipated expiration: 2039-07-02
Also published as: SG10201809737UA; JP2020071866A; US11087746B2; US20200143796A1

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

従来より、機械学習の技術を用いて、音声内において人の声（目標対象）の存在の有無を判定する技術として、音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｎ（以下、「ＶＡＤ」と略記する））の技術が研究されている（例えば非特許文献１参照）。この非特許文献１に記載の技術は、例えば、隠れマルコフモデル（以下、「ＨＭＭ」と略記する）という１つのモデルに基づいて、ＶＡＤを実行している。

Ｖｅｉｓｉ，Ｈ．ｅｔａｌ．， "Ｈｉｄｄｅｎ－Ｍａｒｋｏｖ－ｍｏｄｅｌ－ｂａｓｅｄｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒｗｉｔｈｈｉｇｈｓｐｅｅｃｈｄｅｔｅｃｔｉｏｎｒａｔｅｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ"，ＩＥＴＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（２０１２），６（１）：５４

従来より、ＨＭＭ以外にも目標対象の存在有無を検出するための様々な機械学習モデルが提案されている。ボリュームや波長などのパラメータのバランスによって好適な機械学習モデルもあれば、不適な機械学習モデルも存在する。しかし、どのようなパラメータのバランスに対してどの機械学習モデルを採用すべきか、事前に判断する手法が存在しなかった。

本願発明はこのような状況に鑑みてなされたものであり、事前にどの機械学習モデルを採用すべきかを判断しなくとも、目標対象の存在有無を従来よりも精度良く検出可能とすることを目的とする。

上記目的を達成するため、本発明の一態様の情報処理装置は、
処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置において、
相互に特徴が異なるｍ個（ｍは２以上の整数値）の第１判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて１個以上の前記単位データを、前記所定時間帯の第１時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第１時系列データに対する前記第１判定基準の判定結果を示す１個以上のデータを前記第２時系列データとして生成する、
第１判定手段と、
前記第１判定手段により生成された前記ｍ個の前記第２時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第２判定結果として生成する第２判定手段と、
を備え、
前記第２判定手段は、学習用のデータに対する前記ｍ個の前記第１判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第２判定基準を用いて、前記第２判定結果を生成する。

本発明の一態様の上記情報処理装置に対応する情報処理方法及びプログラムも、本発明の一態様の情報処理方法及びプログラムとして提供される。

本発明によれば、目標対象の存在有無の検出の精度をより向上せることができる。

本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例を示す図である。本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例であって、図１とは異なる例を示す図である。本発明の一実施形態にかかる情報処理システムの構成の例を示す図である。図３の情報処理システムのうち、本発明の情報処理装置の一実施形態に係る音声判定装置のハードウェア構成の一例を示すブロック図である。図４の音声判定装置の機能的構成の一例を示す機能ブロック図である。図４の機能的構成を有する音声判定装置により実行される判定処理の流れの一例を説明するフローチャートである。図３の音声学習装置の機能的構成の一例を示す機能ブロック図である。図７の機能的構成を有する音声学習装置により実行される学習処理の流れの一例を説明するフローチャートである。

以下、本発明の実施形態について、図面を用いて説明する。

図１は、本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例を示す図である。
例えば、本発明の情報処理装置の一実施形態にかかる音声判定装置（例えば、図３の音声判定装置１）は、図１に示すように、存在有無の目標対象として、人の声を採用している。音声判定装置は、音声データＤ１に対して次に述べるような各種処理を施すことで、所定の時間帯ｔ２における人の声の存在確率として、合成確率Ｄ４を出力する。

まず、音声判定装置は、人の声が少なくとも一部の時間帯において含まれ得る音声データＤ１（音声波形Ｄ１）を、時間帯ｔ１乃至ｔ３の夫々の区間（以下、「フレーム」と呼ぶ）に区分する。次に、音声判定装置は、時間帯ｔ１乃至ｔ３の夫々のフレームについての時分割データＤ２－１乃至Ｄ２－３の夫々を生成する。

次に、音声判定装置は、次に述べるような第１判定処理を実行する。

即ち、第１判定処理においては、音声判定装置は、時間帯ｔ１の時分割データＤ２－１を、第１モデルＭ１を用いて判定し、その判定結果として、第１モデルＭ１と時間帯ｔ１に依存する確率Ｄ３－１１を出力する。
同様に、音声判定装置は、時間帯ｔ２の時分割データＤ２－２と、時間帯ｔ３の時分割データＤ２－３の夫々を、第１モデルＭ１を用いて判定し、夫々の判定結果として、第１モデルＭ１と夫々の時間に依存する確率Ｄ３－１２及びＤ３－１３の夫々を出力する。

同様に、第１判定処理において、音声判定装置は、時間帯ｔ１乃至ｔ３の夫々についての時分割データＤ２－１乃至Ｄ２－３の夫々を、第２モデルＭ２を用いて判定し、夫々の判定結果として、第２モデルと時間の夫々に依存する確率Ｄ３－２１乃至Ｄ３－２３の夫々を出力する。

ここで、第１モデルＭ１と第２モデルＭ２として、相互に特徴が異なるＶＡＤ判定器が夫々採用されている。具体的には例えば、第１モデルＭ１はＨＭＭで構成され、第２モデルＭ２はＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）で構成されている。
なお、詳細については図２等を用いて後述するが、第１判定で用いるモデルの個数及び種類は、特に図１に限定されず、任意でよい。

次に、音声判定装置は、次に述べるような第２判定処理を実行する。
即ち、第２判定処理においては、音声判定装置は、モデルと時間の夫々に依存する確率Ｄ３－１１乃至Ｄ３－１３（第１モデルＭ１の夫々の判定結果を示す時系列のデータ）と、モデルと時間の夫々に依存する確率Ｄ３－２１乃至Ｄ３－２３（第２モデルＭ２の夫々の判定結果を示す時系列のデータ）との集合体を、合成モデルＣＭを用いて合成して判定し、その判定結果として、時間帯ｔ２における合成確率Ｄ４２を出力する。
この時間帯ｔ２における合成確率Ｄ４２に基づいて、当該時間帯ｔ２に人の声が存在するか否かが判定される。

例えば、時間帯ｔ３に人の声が存在するか否かの判定が必要な場合、図示はしないが、更に時間帯ｔ４が定義される。そして、音声判定装置は、時間帯ｔ２乃至ｔ４の夫々について、上述の一連の情報処理を実行することにより、時間帯ｔ３について合成確率を得て出力する。

なお以下、図１に示すように、音声データＤ１のうち１以上のフレーム（図１の例では、時間帯ｔ１乃至ｔ３の３つのフレーム）が処理対象とされ、処理対象の各フレームの夫々の時分割データから構成される時系列データを、「時系列データＤ２」と呼ぶ。
当該時系列データＤ２に対する第１判定処理の結果である、時間の夫々とモデルの夫々に依存する確率の各フレームの集合体を、「モデルと時間に依存する確率の時系列データＤ３」と呼ぶ。
ここで、モデルと時間に依存する確率の時系列データＤ３のうち、第１モデルに依るものを、「モデルと時間に依存する確率の時系列データＤ３－１」と呼ぶ。同様に、モデルと時間に依存する確率の時系列データＤ３のうち、第２モデルに依るものを、「モデルと時間に依存する確率の時系列データＤ３－２」と呼ぶ。

即ち、音声データＤ１が時間帯ｔ１乃至ｔ３に区分された場合、時系列データＤ２は、時間帯ｔ１乃至ｔ３の夫々の時分割データＤ２－１乃至Ｄ２－３から構成される。
また、モデルと時間に依存する確率の時系列データＤ３は、時間と第１モデルに依存する確率の時系列データＤ３－１と、時間と第２モデルに依存する確率の時系列データＤ３－２から構成される。
ここで、時間と第１モデルに依存する確率の時系列データＤ３－１は、時間の夫々と第１モデルに依存する確率Ｄ３－１１乃至Ｄ３－１３から構成される。同様に、時間と第２モデルに依存する確率の時系列データＤ３－２は、時間の夫々と第２モデルに依存する確率Ｄ３－２１乃至Ｄ３－２３から構成される。

図２は、本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例であって、図１とは異なる例を示す図である。
即ち、図２の例とは、図１の情報処理の例に対して、更に多数の時系列データと、更に多数のモデルを用いた場合の情報処理の詳細の流れの例である。

図１の例と図２の例との差異点は、次のとおりである。
即ち、図１の例では、音声判定装置は、人の声が少なくとも一部の時間帯において含まれ得る音声データＤ１を、時間帯ｔ１乃至ｔ３に区分して、３つの時分割データＤ２－１乃至Ｄ２－３を生成していた。これに対して、図２の例では、音声判定装置は、音声データＤ１を、時間帯ｔ－４乃至ｔ４に区分して、９つの時分割データＤ２（ｔ－４）乃至Ｄ２（ｔ４）を生成している。
また、図１の例では、音声判定装置は、第１判定処理において、第１モデルと第２モデルの２つのモデルを用いていた。これに対して、図２の例では、音声判定装置は、モデルＭａ乃至Ｍｆの６つのモデルを用いている。

このような差異点に伴い、図２の例は、図１の例と異なり、次のような処理が実行される。

即ち図２の例では、音声判定装置は、音声データＤ１から、時間帯ｔ－４乃至ｔ４の夫々について９つの時分割データＤ２（ｔ－４）乃至Ｄ２（ｔ４）を区分し、これらの集合体である時系列データＤ２を生成する。
なお、時間帯ｔ－４乃至ｔ４の夫々の時間長さ（フレーム長）は、図２の例では０．１秒とされている。

次に、音声判定装置は、第１判定処理を実行する。
即ち、音声判定装置は、時系列データＤ２の夫々をモデルＭａ乃至Ｍｆの夫々に入力させる。

その結果、モデルＭａと時間の夫々に依存する確率Ｄ３ａ（ｔ－４）乃至Ｄ３ａ（ｔ４）の集合体として、モデルＭａと時間の夫々に依存する確率の時系列データＤ３－ａが生成される。
モデルＭａと時間の夫々に依存する確率の時系列データＤ３－ａは、音声データＤ１と同様に時間帯ｔ－４乃至ｔ４の夫々に区分されたグラフとして表現することができる。例えば、図２に「モデルＭａ確率」として示すように、横軸に「時間」、縦軸に「予測された確率」をとる平面に描画されるグラフとして、モデルＭａと時間の夫々に依存する確率の時系列データＤ３－ａは表現することができる。
この図２に示すグラフの例によれば、モデルＭａでの判定結果は、音声データＤ１に対して、時間帯ｔ－４乃至ｔ－２の間において人の声が含まれていた可能性が高く、時間帯ｔ－１乃至ｔ３において音声データＤ１に人の声が含まれていない可能性が高く、かつ時間帯ｔ４において人の声が含まれている可能性が高い、という結果であることを示している。
このように、音声判定装置は、時間帯ｔ－４乃至ｔ４の夫々について時分割データＤ２（ｔ－４）乃至Ｄ２（ｔ４）の夫々を、モデルＭａを用いて判定し、夫々の判定結果として、モデルの夫々と時間の夫々に依存する確率の時系列データＤ３－ａを出力する。

同様に、音声判定装置は、時間帯ｔ－４乃至ｔ４の夫々について時分割データＤ２（ｔ－４）乃至Ｄ２（ｔ４）の夫々を、モデルＭｂ乃至Ｍｆの夫々を用いて別々に判定し、夫々の判定結果として、モデルの夫々と時間の夫々に依存する確率の時系列データＤ３－ｂ乃至Ｄ３―ｆの夫々を出力する。

なお、図示はしないが、上述のモデルＭａの場合と同様に、モデルＭｂ乃至Ｍｆの夫々と時間の夫々に依存する確率の時系列データＤ３－ｂ乃至Ｄ３－ｆの夫々は、モデルＭｂ乃至Ｍｆの夫々の確率の時間構造を示すグラフとして表現することができる。

ここで、図１と同様に、モデルＭａ乃至Ｍｆとは、相互に特徴が異なるＶＡＤ判定器が夫々採用されている。
モデルＭａ乃至Ｍｆの夫々は、例えば、機械学習で用いられるモデルである、ＨＭＭ、ＳＶＭ、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇ、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＣＮＮ－ｂｉＲＮＮ（０．３２ｓｅｃｗｉｎｄｏｗ）、ＣＮＮ－ｂｉＲＮＮ（０．９６ｓｅｃｗｉｎｄｏｗ）、の夫々で構成されている。
ここで、ＣＮＮ－ｂｉＲＮＮは、ＣＮＮに対し、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）において未来の情報を用いて精度を向上するモデルであるｂｉＲＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲＮＮ）を適用したものである。ＣＮＮ－ｂｉＲＮＮは、０．３２ｓｅｃｗｉｎｄｏｗと０．９６ｓｅｃｗｉｎｄｏｗの２つのパラメータをとっている。
即ち、相互に特徴が異なるＶＡＤ判定器とは、夫々のモデルを構成する機械学習のモデルが違うことに限らず、ｗｉｎｄｏｗの違い等、パラメータが違うことに依るものも含む広義な概念である。また、言うまでもないが、上述の機械学習のモデルは一例に過ぎない。即ち、上述のもの以外の機械学習のモデルを採用してもよいし、更に言えば、機械学習のモデルに限らず、所定のアルゴリズムにより判定を行う判定器を採用してもよい。

上述の第１判定処理により、音声判定装置は、６個のモデルＭａ乃至Ｍｆの夫々の判定結果として９個の確率の時系列データを夫々得るので、これらをまとめた５４個（＝６×９個）の確率の集合体を、モデルと時間に依存する確率の時系列データＤ３として出力する。
次に、音声判定装置は、第２判定処理を実行する。
即ち、音声判定装置は、モデルと時間に依存する確率の時系列データＤ３を合成モデルＣＭを用いて判定し、その判定結果として、時間帯ｔ０についての合成確率Ｄ４（ＣｏｍｂｉｎｅｄＰｒｏｂａｂｉｌｉｔｙ（ｔ０）Ｄ４）を出力する。

合成モデルＣＭに対しては、例えば、アンサンブル学習型ニューラルネットワーク（Ｅｎｓｅｍｂｌｅｎｅｕｒａｌｎｅｔｗｏｒｋ／Ｍｕｌｔｉ－ｍｏｄａｌｅｎｓｅｍｂｌｅｍｏｄｅｌ）やＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇを適用することができる。
なお、アンサンブル学習型ニューラルネットワークやＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇは一例に過ぎず、これら以外の機械学習の手法を適用してもよい。更に言えば、合成モデルＣＭは、機械学習のモデルに限らず、所定のアルゴリズムにより判定を行う判定器を採用してもよい。

以下、図面を用いて図１及び図２の情報処理を行うための情報処理システム、即ち本発明の一実施形態にかかる情報処理システムについて説明する。
図３は、本発明の一実施形態にかかる情報処理システムの構成の例を示す図である。

図３に示す情報処理システムは、音声判定装置１と、モデルＤＢ２と、音声学習装置３とを含むように構成される。

音声判定装置１は、音声学習装置３により学習された結果得られる（又は更新される）モデルをモデルＤＢ２から取得して、所定区間（フレーム）毎に人の声の存在有無を判定する。音声判定装置１の機能的構成や処理の詳細については、図５等を参照して後述する。
音声学習装置３は、所定区間（フレーム）毎に人の声の存在確率を判定することについて機械学習を行うことで、モデル（特に上述の図１や図２の合成モデルＣＭ）を生成又は更新して、モデルＤＢ２に格納する。音声学習装置３の機能的構成や処理の詳細については、図７等を参照して後述する。

図４は、図３の情報処理システムのうち、本発明の情報処理装置の一実施形態に係る音声判定装置のハードウェア構成の一例を示すブロック図である。

音声判定装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入出力インターフェース１５と、出力部１６と、入力部１７と、記憶部１８と、通信部１９と、ドライブ２０とを備えている。
ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は、記憶部１８からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。このバス１４にはまた、入出力インターフェース１５も接続されている。入出力インターフェース１５には、出力部１６、入力部１７、記憶部１８、通信部１９、及びドライブ２０が接続されている。
出力部１６は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
入力部１７は、キーボードやマウス等で構成され、ユーザの指示操作に応じて各種情報を入力する。
記憶部１８は、ハードディスク等で構成され、各種情報のデータを記憶する。

通信部１９は、ネットワークを介して他の端末（例えば図１のモデルＤＢ２）との間で行う通信を制御する。
ドライブ２０には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２０によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部１８にインストールされる。また、リムーバブルメディア３１は、記憶部１８に記憶されている各種データも、記憶部１８と同様に記憶することができる。

なお、図示はしないが、図３の情報処理システムの音声学習装置３は図４に示すハードウェア構成と基本的に同様の構成を有している。
また、説明の便宜上、音声学習装置３は、音声判定装置１とは別途設けるものとしたが、特にこれに限定されず、音声学習装置３と、音声判定装置１との各機能を１台の情報処理装置に集約してもよい。

図５は、図４の音声判定装置の機能的構成の一例を示す機能ブロック図である。

まず、音声判定装置１の機能的構成について説明する。
音声判定装置１のＣＰＵ１１においては、解析データ取得部１０１と、時系列分割部１０２と、第１判定部１０３－１乃至１０３－ｍと、第２判定部１０４とが機能する。ここで、ｍは、第１判定処理に用いるモデルの個数、即ち「相互に特徴が異なるＶＡＤ判定器（モデル）」の個数であり、図１の例では２であり、図２の例では６である。

モデルＤＢ２の一領域には、第１判定モデルＤＢ３０１と、第２判定モデルＤＢ３０２が設けられる。
第１判定モデルＤＢ３０１には、第１判定部１０３－１乃至１０３－ｍの夫々で用いられるｍ個の「相互に特徴が異なるＶＡＤ判定器（モデル）」が格納されている。
また、第２判定モデルＤＢ３０２には、第２判定部１０４で用いられる合成モデルＣＭが格納されている。

解析データ取得部１０１は、人の声を含み得る音声波形についての音声データ（例えば図１や図２の音声データＤ１）を、解析データとして通信部１９（図４）等を介して取得する。

時系列分割部１０２は、解析データ取得部１０１から提供される解析データ（音声データＤ１）を、ｎ個の各時間帯（フレーム）の夫々におけるｎ個の時分割データに区分し、これらをまとめた時系列データＤ２を生成する。
ここで、ｎは、時系列データＤ２に含める時分割データの個数、即ち時間帯（フレーム）の個数であり、図１の例では３個であり、図２の例では９個である。

第１判定部１０３－Ｋ（Ｋは、１乃至ｍのうちの任意の整数値）は、ｍ個のモデルのうちｋ番目のモデルを第１判定モデルＤＢ３０１から取得する。第１判定部１０３－Ｋは、時系列分割部１０２から提供される時系列データＤ２を構成するｎ個の時分割データ（フレームのデータ）の夫々に対して、ｋ番目のモデルを用いて、第１判定処理を実行する。

第２判定部１０４は、ｍ個の第１判定部１０３－１乃至１０３－ｍの夫々において第１判定処理が実行された結果得られるｍ個の「確率の時系列データＤ３」を取得する。
即ち、１個の「確率の時系列データＤ３」は、ｎ個の時間帯（フレーム）についての各確率の集合体のため、総計ｎ×ｍ個の確率の集合体が第２判定部１０４に供給される。
そこで、第２判定部１０４は、これら総計ｎ×ｍ個の確率の集合体に対し、第２判定処理を実行する。
即ち、第２判定部１０４は、機械学習により得られた（又は更新された）合成モデルＣＭを第２判定モデルＤＢ３０２から取得する。第２判定部１０４は、合成モデルＣＭのモデルを用いる判定の処理を実行し、その判定結果として、ｎ個の各時間帯のうち所定の（代表する）時間帯（例えば上述の図１の例では時間帯ｔ２であり、図２の例では時間帯ｔ０である）について合成確率Ｄ４を出力する。

音声判定装置１は、このようにして得られた合成確率Ｄ４を、出力部１６（ディスプレイ等）に出力したり記憶部１８に記憶させることができる。

第２判定部１０４は、確率の時系列データＤ３を取得し、合成確率Ｄ４を出力している。これにより、当該第２判定部１０４を有する音声判定装置１は、次のような効果を奏する。

例えば、第２判定部１０４で取得されるデータは、時系列データである。これにより、第１判定処理において、ある時間帯ｔ０に音声が含まれるかを判定するモデル（例えばモデルＭａ）が、前後の時間（例えばｔ１）の時分割データＤ２（ｔ１）に基づかない場合、つまり、ある時間帯ｔ０のみに基づいて判定する場合であっても、第２判定処理においては、前後の時間に対して判定した結果である、モデルと時間に依存する確率Ｄ３ａ（ｔ１）に基づいて、判定を行うことができる。

また例えば、第２判定部１０４が取得するデータが特性の異なるモデルの夫々の判定結果であるため、第１判定処理に用いるモデルの１つ（例えばモデルＭｂ）がノイズの多い場合に判定の精度が高いモデルであって、他の第１判定処理に用いるモデルの１つ（例えばモデルＭｃ）がノイズの少ない場合に判定の精度が高いモデルであったとすれば、第２判定部１０４はノイズの多寡に依らない合成確率Ｄ４を出力することが可能となる。
換言すると、ある１つのモデルしか用いない場合、当該モデルの特性を直接的に最終的な確率に反映してしまうというデメリットが生じる。このようなデメリットを解消すべく、第２判定部１０４を採用している。

更に例えば、第１判定処理に用いるモデルの１つ（例えばｄモデルＭｄ）が会話の開始の検出の精度が高いモデルであって、他の第１判定処理に用いるモデルの１つ（例えばｅモデルＭｅ）が会話の継続時の検出の精度が高いモデルであったとすれば、第２判定部はｄモデルＭｄの結果に基づき会話の開始の検出の精度が高く、ｅモデルＭｅの結果に基づき会話の継続の検出の精度が高い合成確率Ｄ４を出力することが可能となる。

即ち、第２判定部１０４は、ｍ個のモデルの夫々の判定結果（夫々、ｎ個の時間帯（フレーム）の時系列データの判定結果となっている）の集合体である確率の時系列データＤ３を取得し、これらを合成して判定している。これにより、音声判定装置１は、目標対象（人の声）の存在有無の検出の精度をより向上高めるという効果を奏することができる。

ところで、音声判定装置１は、ｎ個の各時間帯（フレーム）をずらしながら、上述の一連の処理を実行することで、複数個の合成確率Ｄ４を出力することができる。即ち、音声判定装置１は、合成確率Ｄ４の時系列データを出力することができる。

判定結果である合成確率Ｄ４は、所謂ＶＡＤ判定の結果として利用できる。即ち、合成確率Ｄ４は、会話（２人以上の「人の声」のやり取り）の適切な検出に利用することができる。
具体的な利用方法の一例は、以下の通りである。
例えば、映画等の字幕作成をする場合において、字幕を作成する作業を行う作業者は、音声データＤ１をそのまま利用するのではなく、ＶＡＤ判定による会話の開始点や終了点を効率的に抽出すべく、合成確率Ｄ４の時系列データを利用することができる。これにより、作業者は、人の声等の抽出作業の負担を減らすことができ、例えば、短時間で作業を完了することができる。
換言すれば、通常であれば作業者は、単に音声（上述の具体例にあわせて音声データＤ１に対応する音声とする）を含む映像を視聴して字幕作成を行っていた。そこで、作業者は、合成確率Ｄ４の時系列データを適切に利用することで、会話の開始点や終了点を効率的に抽出することができるようになり、その結果として、負担を減らすことができる。

他方、音声データＤ１から会話らしさを判定する場合であれば、例えば、従来においては、音声データＤ１に対応する音声波形の振幅が閾値を超えたか否かを判定基準として採用していた。即ち、従来においては、作業者（その操作を受ける情報処理装置）は、一定の閾値よりも振幅が大きい場合に会話らしいと判定していた。ただし、この判定基準は、静かな会議室で発言した場合等には有効であるが、ＢＧＭやノイズ等、会話以外の音源がある場合には、それほど有効ではない場合もある。

そこで、合成確率Ｄ４を会話らしさの観点として利用することが有用となる。具体的には例えば、作業者（その操作を受ける情報処理装置）は、音声データＤ１の波形に対して合成確率Ｄ４の重みづけをした音声の波形を重ね合わせて（或いは並べて）、それらの波形を比較しながら作業を行うことができる。具体的には例えば、作業者は、合成確率Ｄ４の確率が低い時間帯（即ち、会話の確率が低いと判定された時間帯）の音のレベルを下げたり、或いは合成確率Ｄ４の確率が高い時間帯（即ち、会話の確率が高いと判定された時間帯）の音のレベルを上げるように、適切な重み付けの処理をすることもできる。
これにより、時間帯の夫々において会話がなされているか否かがより精度よく作業者に伝われることになるため、作業者は従来より効率的かつ低負担で作業を行うことができるようになる。

つまり、合成確率Ｄ４を用いることで、判定対象の時間帯に人の声が含まれているかについて、より適切に予測できるようになる。
なお、会話が切れているのか、それとも、話者が会話中に一呼吸入れているのかについての判定の精度は充分ではない可能性もあり得る。そこで、このような場合には、合成確率Ｄ４は、例えば以下のように利用することもできる。
具体的に例えば、作業者は、音声データＤ１の波形に対して合成確率Ｄ４の重みづけをした波形を用いることもできる。これにより、作業者は、夫々の時間帯に人の声が含まれているかの情報（合成確率Ｄ４）を活用しつつ、人の声が含まれていないと判定された場合には、その時間の音声を聞いて確認することもできる。そして、作業者は、人の声が含まれていないのは、会話が終了したのか、それとも、話し手が会話中に一呼吸入れているのか等の判断をすることができる。

このように合成確率Ｄ４様々な方法で利用することで、例えば、作業者は、字幕の作成をより効率的に行うことができる。

次に、図６を参照して、図４の音声判定装置１により実行される判定処理について説明する。
判定処理とは、音声が複数のフレームに区分された場合において、人の声の存在確率をフレーム毎に求めることで、人の声の存在有無を判定する処理である。
図６は、図４の機能的構成を有する音声判定装置により実行される判定処理の流れの一例を説明するフローチャートである。

ステップＳ１において、解析データ取得部１０１は、人の声が含まれ得る音声データＤ１を、解析データとして取得する。

ステップＳ２において、時系列分割部１０２は、解析データ（音声データＤ１）から、ｎ個の時間帯（フレーム）の各時分割データの集合体、即ち、時系列データＤ２を生成する。

ステップＳ３において、第１判定部１０３は、時系列データＤ２に対して第１判定処理を行う。
即ち、第１判定部１０３－１乃至１０３－ｍの夫々は、ｍ個のモデルのうちの自身が用いる１個を第１判定モデルＤＢ３０１から取得して、取得したモデルを用いる第１判定処理を時系列データＤ２に対して夫々施すことで、モデルと時間に依存する確率の時系列データＤ３－１乃至Ｄ３－ｍの夫々を生成する。
これにより、総計ｎ×ｍ個の確率の集合体としての、モデルと時間に依存する確率の時系列データＤ３が生成される。

ステップＳ４において、第２判定部１０４は、モデルと時間に依存する確率の時系列データＤ３に対して第２判定処理を行う。即ち、第２判定部１０４は、モデルと時間に依存する確率Ｄ３（第１判定処理の結果）に対して、合成モデルＣＭを用いる第２判定処理を施すことで、合成確率Ｄ４を生成する。

以上、対象の音声の夫々の時間に人の声が含まれているかを判定する、音声アクティビティ検出をするための判定処理の一連の流れについて説明した。

次に、音声判定装置１で用いられるモデルを生成又は更新するための学習を行う音声学習装置３について、その処理に関する説明を行う。
図７は、図３の音声学習装置の機能的構成の一例を示す機能ブロック図である。

音声学習装置３のＣＰＵ１１においては、学習データ取得部１１１と、時系列分割部１１２と、第１学習部１１３と、第２学習部１１４とが機能する。

学習データ取得部１１１は、人の声を含む音声波形についての音声データを、学習用音声データとして通信部１９（図４）等を介して取得する。
なお、学習データ取得部１１１は、学習の支援として、学習用音声データを構成する夫々の時間帯（フレーム）毎に、実際に音声が含まれているか否かの情報を取得し、当該情報を時系列分割部１１２に提供してもよい。

時系列分割部１１２は、学習データ取得部１１１から提供される学習用音声データを、ｎ個の各時間帯（フレーム）の夫々におけるｎ個の時分割データに区分し、これらをまとめた時系列データ（音声判定装置１で生成される時系列データＤ２と同様のデータ）を生成して、第１学習部１１３及び第２学習部１１４に提供する。ここで、ｎは、図５の音声判定装置１とあわせたものであり、時系列データに含める時分割データの個数、即ち時間帯（フレーム）の個数であり、図１の例では３個であり、図２の例では９個である。
ここで、時系列分割部１１２は、学習用音声データの夫々の時間帯に実際に音声が含まれているか否かの情報を提供された場合、時系列データを構成する各時分割データ毎に、音声が含まれているか否かの情報を付与して、第１学習部１１３及び第２学習部１１４に提供してよい。

第１学習部１１３においては、第１判定モデル学習部１２１－１乃至１２１－ｍが機能する。ここで、ｍは、図５の音声判定装置１とあわせたものであり、第１判定処理に用いるモデルの個数、即ち「相互に特徴が異なるＶＡＤ判定器（モデル）」の個数であり、図１の例では２であり、図２の例では６である。
第１判定モデル学習部１２１－Ｋ（Ｋは、１乃至ｍの内の任意の整数値）は、時系列分割部１０２から提供される時系列データを構成するｎ個の時分割データ（フレームのデータ）の夫々を用いて、ｍ個のモデルのうちｋ番目のものを用いる第１判定モデルについての学習処理を実行する。
この学習処理の結果として、音声判定装置１において第１判定処理に用いられるモデルのうち、ｋ番目のモデルが生成又は更新される。生成又は更新されたｋ番目のモデルは、第１判定モデルＤＢ３０１に格納される。

第２学習部１１４においては、第１判定部１３１－１乃至１３１－ｍと、第２判定モデル学習部１３２が機能する。ここで、ｍは、第１学習部１１３及び図５の音声判定装置１とあわせたものであり、第１判定処理に用いるモデルの個数、即ち「相互に特徴が異なるＶＡＤ判定器（モデル）」の個数であり、図１の例では２であり、図２の例では６である。

第１判定部１３１－Ｋ（Ｋは、１乃至ｍのうちの任意の整数値）は、ｍ個のモデルのうちｋ番目のモデルを第１判定モデルＤＢ３０１から取得する。第１判定部１３１－Ｋは、時系列分割部１１２から提供される時系列データを構成するｎ個の時分割データ（フレームのデータ）の夫々に対して、ｋ番目のモデルを用いて、第１判定処理を実行する。

第２判定モデル学習部１３２は、ｍ個の第１判定部１３１－１乃至１３１－ｍの夫々において第１判定処理が実行された結果得られるｍ個の「確率の時系列データ（音声判定装置１で得られる確率の時系列データＤ３に相当）」を取得する。即ち、１個の「確率の時系列データ」は、ｎ個の時間帯（フレーム）についての各確率の集合体のため、総計ｎ×ｍ個の確率の集合体が第２判定モデル学習部１３２に提供される。
第２判定モデル学習部１３２は、第１判定部１３１－１乃至１３１－ｍから提供される総計ｎ×ｍ個の確率の集合体である、ｍ個の「確率の時系列データ」に対して、第２判定モデルの学習処理を実行する。
この学習処理の結果として、音声判定装置１において第２判定処理に用いられる合成モデルＣＭが生成又は更新される。生成又は更新された合成モデルＣＭは、第２判定モデルＤＢ３０２に格納される。

次に、図８を参照して、図７の音声学習装置３により実行される学習処理について説明する。
学習処理とは、音声判定装置１において用いられるモデルに関する学習の処理である。
図８は、図７の機能的構成を有する音声学習装置により実行される学習処理の流れの一例を説明するフローチャートである。

ステップＳ１１において、学習データ取得部１１１は、人の声が含まれる音声データを、学習用音声データとして取得する。

ステップＳ１２において、時系列分割部１１２は、学習用音声データからｎ個の時間帯の夫々のフレームを構成要素として、時系列データを生成する。

ステップＳ１３において、第１学習部１１３は、ステップＳ１２で得られた時系列データを用いて、第１判定モデル学習を行う。
この第１判定モデル学習の結果として、音声判定装置１において第１判定処理に用いられるｍ個のモデルの夫々が生成又は更新される。生成又は更新されたｍ個のモデルの夫々は、第１判定モデルＤＢ３０１に格納される。

ステップＳ１４において、第２学習部１１４は、ステップＳ１２で得られた時系列データを用いて、第２判定モデル学習を行う。
即ち、第１判定部１３１－Ｋは、ｍ個のモデルのうちｋ番目のモデルを第１判定モデルＤＢ３０１から取得する。第１判定部１３１－Ｋは、ステップＳ１２で得られた時系列データを構成するｎ個の時分割データ（フレームのデータ）の夫々に対して、ｋ番目のモデルを用いて、第１判定処理を実行する。
第２判定モデル学習部１３２は、ｍ個の第１判定部１３１－１乃至１３１－ｍの夫々において第１判定処理が実行された結果得られるｍ個の「確率の時系列データ」を取得する。即ち、１個の「確率の時系列データ」は、ｎ個の時間帯（フレーム）についての各確率の集合体のため、総計ｎ×ｍ個の確率の集合体が第２判定モデル学習部１３２に提供される。
第２判定モデル学習部１３２は、第１判定部１３１－１乃至１３１－ｍから提供される総計ｎ×ｍ個の確率の集合体である、ｍ個の「確率の時系列データ」に対して、第２判定モデルの学習処理を実行する。
この学習処理の結果として、音声判定装置１において第２判定処理に用いられる合成モデルＣＭが生成又は更新される。生成又は更新された合成モデルＣＭは、第２判定モデルＤＢ３０２に格納される。

以上本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での、変形、改良等は本発明に含まれるものである。

例えば、上述の実施形態において、目標対象たる人の声を含み得る音声波形についての音声データを判定対象とした、ＶＡＤ判定を例として説明を行ったが、特にこれに限定されない。即ち、例えば、目標対象は人の声ではなく、動物の鳴き声や、雨の音等、他の音でもよい。更に言えば、処理対象のデータは音声データに限らない。即ち、例えば映像であってもよく、映像データの音声データを判定対象のデータとしてもよい。
更に言えば、判定するデータは音を例として説明を行ったが、特にこれに限定されない。即ち、例えば、映像データの画像を判定対象としてもよい。即ち、例えば、映像データを縦と横と時間の観点からフレームに分割し、人や車両を目標対象として、映像中に目標対象が存在する確率を判定するものとしてもよい。更に言えば、映像と音声を組み合わせて判定を行ってもよい。

また例えば、上述の実施形態において、音声処理や学習処理に際し、時系列データＤ２の構成要素として、フレーム（所定の時間帯）のデータを単位としていたが、特にこれに限定さない。即ち、「一定の時間長のデータを単位データ」と採用すれば足りる。

更に言えば、上述の実施形態において、判定処理や学習処理に際し、時系列データＤ２を構成する時分割データの夫々を、モデルの夫々を用いて別々に判定するとしていたが、特にこれに限定されない。即ち、時系列データＤ２を構成する時分割データの夫々はモデルの夫々毎に違ってよい。即ち例えば、１つの時分割データに基づき判定するモデルや、複数の時分割データに基づき判定するモデルや、他のモデルと違うフレーム（所定時間帯）の長さの時分割データに基づき判定するモデルを採用してもよい。即ち、時系列データＤ２は、モデルごとに用意されるものであってよい。

また例えば、上述の実施形態において、時分割データは、判定の対象である時間帯ｔ２に対して、その前後の時間帯ｔ１及びｔ３の３つに分割されたデータとして説明を行ったが、特にこれに限定されない。
即ち、判定の対象である時間帯ｔ２の前後の時間帯のうち少なくとも一方を含む態様として、例えば、時系列データＤ２は、時間帯ｔ２及びｔ３の２つに分割されたフレームのデータから構成されるものであってよい。
更に言えば、時系列データＤ２は、必ずしも連続した時間帯のフレームのデータで構成される必要はなく、連続していない時間帯（例えば、時間帯ｔ１及びｔ３）のフレームのデータのみにより構成されてもよい。

ただし、前後の両方の時間帯のフレームのデータを含むことのできる時間帯、即ち、例えば、音声データの中盤の時間帯のフレームを判定対象とするときには、前後の両方の時間帯のフレームのデータを含む事が望ましい。また例えば、音声データの冒頭又は末尾を判定対象とする場合には、前後の両方の時間帯のフレームのデータを含むことができないので、前後のどちらか一方の時間帯のフレームのデータを含むとよい。しかし、前後の両方の時間帯のフレームのデータを含む事により、合成モデルＣＭは、会話の開始・継続・終了に係る情報等を取得する可能性が高まる。従って、時系列データＤ２は、判定対象の時間帯の前後の両方の時間帯のフレームのデータを含む事が望ましい。

また、例えば、時系列データＤ２は、単に音声データＤ１を時間帯の夫々について分割されたものでなくてよい。即ち、音声データＤ１を時間帯の夫々について分割したのち、所定の処理を行ったものを、時系列データＤ２としてよい。例えば、時分割データは、フーリエ変換を行い、所定の時間帯についての周波数成分の分布に変換されたのち、第１判定部１０３に提供されてもよい。更に言えば、時分割データの夫々は、夫々の時間帯のデータについて特徴量を抽出したものであってもよい。即ち、時分割データは、所定の時間帯の夫々についてのデータであれば足る。

また例えば、上述の実施形態（主に図２）において、学習に用いられる判定器として、ＨＭＭ、ＳＶＭ、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇ、ＣＮＮ、ＣＮＮ－ｂｉＲＮＮ（０．３２ｓｅｃｗｉｎｄｏｗ）、ＣＮＮ－ｂｉＲＮＮ（０．９６ｓｅｃｗｉｎｄｏｗ）を例示して説明を行ったが、特にこれに限定されない。
即ち、上述の実施形態で説明した学習は、他の機械学習の手法を用いて実行されてもよいし、機械学習に分類されない他のアルゴリズムにより判定を行う判定器であれば足る。更に言えば、第１判定器に、いくつかの判定器の結果を合成した結果を出力する判定器、即ち上述の例における第２判定部１０４に相当する判定器であってよい。

また例えば、上述の実施形態の例では、第１判定処理の結果、即ち、モデルと時間に依存する確率Ｄ３は、確率であるとしたが、これに限らない。即ち、例えば、目標対象らしさの指数等の確率ではないパラメータであってもよいし、時間帯の夫々に対してモデルの夫々の判定を行った結果であれば足りる。

また例えば、上述の実施形態の例では、判定対象となる時間帯の前後を含む夫々のフレームから構成される時系列データＤ２の夫々に対して第１判定処理を実行した後、第２判定処理を実行したが、実行の順番はこれに限らない。例えば、音声データＤ１の全てを時間帯の夫々に区分した後、時間帯の夫々について第１判定処理を行ってもよい。その後、その結果をモデルと時間に依存する確率Ｄ３として、モデルの夫々と時間帯の夫々について全体を判定したのち、その結果の一部を用いて、第２判定処理を行うようにしてもよい。

上述の実施形態（主に図２）において、第２判定処理に用いられる判定器として、ＭｕｌｔｉｍｏｄａｌＥｎｓｅｍｂｌｅを例示して説明を行ったが、特にこれに限定されない。
即ち、上述の実施形態で説明した学習は、他の機械学習の手法を用いて実行されてもよいし、機械学習に分類されない他のアルゴリズムにより判定を行う判定器であれば足る。
即ち、例えば、単に総計ｎ×ｍ個の確率の集合体としての、モデルと時間に依存する確率の時系列データＤ３の平均値をとるものでもよい。

また例えば、上述の実施形態（例えば図２）において、確率の時系列データＤ３は、６個のモデルＭａ乃至Ｍｆの夫々の判定結果として９個の確率の時系列データを夫々得るので、これらをまとめた５４個（＝６×９個）の確率の集合体を、モデルと時間に依存する確率の時系列データＤ３として出力するとしたが、特にこれに限定されない。即ち、６個のモデルの夫々は、１つ又は複数の時分割データから構成される時系列データＤ２に基づいた判定により、１つの時間に対応する確率のデータの夫々を出力するものであってよい。即ち例えば、６個のモデルの夫々は１つの時間に対応する確率のデータの夫々を出力するものであって、６個の確率のデータを時系列データＤ３として合成モデルＣＭを用いて時系列データＤ３を合成するものであってよい。即ち、時系列データＤ３は、モデルの夫々について１つ以上の確率のデータを含むものであればよい。

また例えば、上述の実施形態の例（例えば図１）では、判定対象となる時間帯ｔ２の前後のフレームのデータを構成要素とする時系列データＤ２を生成し、時間帯ｔ２の合成確率Ｄ４２を生成したが、特にこれに限定されない。即ち、例えば、第１モデルＭ１及び第２モデルＭ２を用いて、判定対象となる音声データの全体を判定した後、第１モデルＭ１及び第２モデルＭ２の夫々について、時間帯ｔ１乃至ｔ３の夫々の確率に基づいて、モデルと時間に依存する確率Ｄ３を生成し、第２判定処理に用いてもよい。

これにより、例えば、図２における時間帯ｔ０の判定をした場合、処理の途中において、時間帯ｔ０に対しａモデルを用いて第１判定処理を行った結果、即ちモデルと時間に依存する確率Ｄ３ａ（ｔ０）が生成されるが、これは、時間帯ｔ１の判定を行う場合にも用いられるデータであるため、計算量を削減できる。

また例えば、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図５及び図７の機能的構成は例示に過ぎず、特に限定されない。
即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図５及び図７の例に限定されない。また、機能ブロックの存在場所も、図５及び図７に特に限定されず、任意でよい。例えば、音声判定装置１の機能ブロックを音声学習装置３等に移譲させてもよい。また、音声学習装置３の機能ブロックを音声判定装置１等に移譲させてもよい。更に言えば、音声判定装置１と音声学習装置３は、同じハードウェアでもよい。

また例えば、一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。
また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。

また例えば、このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

以上を換言すると、本発明が適用される情報処理装置は、次のような構成を有する各種各様の実施形態を取ることができる。
即ち、本発明が適用される情報処理装置（例えば図３等の音声判定装置１）は、
処理対象のデータ（例えば、図１の音声データＤ１）の所定時間帯における目標対象（例えば人の声）の存在確率を求める情報処理装置において、
相互に特徴が異なるｍ個（ｍは２以上の整数値）の第１判定基準（例えば図１の第１モデルＭ１と第２モデルＭ２との夫々に基づく判定基準や、図２のモデルＭａ乃至Ｍｆの夫々に基づく判定基準）毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて１個以上の前記単位データを、前記所定時間帯の第１時系列データ（例えば図１等の時系列データＤ２）として前記処理対象のデータから取得して、
前記所定時間帯の第１時系列データに対する前記第１判定基準の判定結果を示す１個以上のデータを前記第２時系列データとして生成する（例えば図１の例ではｍ＝２個の確率の時系列データＤ３－１，Ｄ３－２を生成し、図２の例ではｍ＝６個の確率の時系列データＤ３－ａ乃至Ｄ３－ｆを生成する）、
第１判定手段（例えば図５の第１判定部１０３）と、
前記第１判定手段により生成された前記ｍ個の前記第２時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率（例えば図１や図２の合成確率Ｄ４）を、第２判定結果として生成する第２判定手段（例えば図５の第２判定部１０４）と、
を備え、
前記第２判定手段は、学習用のデータに対する前記ｍ個の前記第１判定基準の夫々の判定結果を用いて学習された結果（例えば図７の音声学習装置１により学習された結果）として生成又は更新される第２判定基準を用いて、前記第２判定結果を生成する、
情報処理装置であれば足りる。

これにより、例えば目標対象が人の声である場合には、本発明が適用される情報処理装置は、時系列データを用いた判定をすることができるため、会話（２人以上の人の声のやり取り）の開始、継続、終了等に係る情報や、前後の判定結果を参照することが可能となり、人の声（目標対象）の存在有無の検出の精度をより向上させることができる。また、相互に特徴が異なるｍ個の第１判定基準のうちどの機械学習モデルを採用すべきかを判断しなくとも、人の声（目標対象）の存在有無の検出の精度をより向上させることができる。

前記第１判定手段は、
更に、前記所定時間帯の第１時系列データとして、前記所定時間帯とは異なる時間に基づいて区切られた前記単位データを少なくとも含む１個以上の前記単位データを、前記処理対象のデータから取得することができる。

これにより、例えば、第２時系列データを構成する夫々の判定結果は、所定時間帯と異なる時間に基づいて区切られたデータに基づいた第１判定基準による判定結果となり、所定時間帯におけるボリュームや波長などのパラメータのバランスに基づいた判定結果のみならず、所定時間帯と異なる時間帯に対する判定結果に基づいて第２判定を行うことが可能となり、更に目標対象の存在有無の検出の精度をより向上させることができる。

ここまでは、情報処理装置は、音声データを処理対象として、目標対象の存在確率を求めていた。
しかしながら、上述したように、処理対象のデータは、音声データのみならず画像データ等他種のデータでもよい。例えば画像データについては、目標対象は画像に含まれるオブジェクトであり、オブジェクトの存在有無は、時間方向だけではなく空間方向（１枚の静止画像内の上下左右方向）でも検出し得る。つまり、映像データであれば、目標対象のオブジェクトは、時間方向においてどのフレームに存在するのか否かの検出の他、所定時刻の１枚のフレーム（１枚の静止画）のなかでどの位置（例えば画像の右端等の空間方向の位置）に存在するのかという検出も可能になる。
したがって、情報処理装置は、目標対象の存在確率は、処理対象のデータ内で求める必要は特になく、時間の次元を少なくとも含むＮ次元空間（Ｎは１以上の整数値）内の、対象座標における目標対象の存在確率を求めてもよい。ここで、空間方向であれば、水平方向と垂直方向の２次元が、Ｎ次元の中に含まれる。
つまり、本発明が適用される情報処理装置は、次のような構成を有する各種各様の実施形態を取ることができる。

即ち、本発明が適用される情報処理装置は、
時間の次元を少なくとも含むＮ次元空間（Ｎは１以上の整数値）内の、対象座標における目標対象の存在確率を求める情報処理装置において、
前記Ｎ次元空間内の所定座標におけるデータ（例えば動画データを構成する各フレームのうち、画素又は複数画素からなるブロックのデータ）を単位データとして、前記所定座標における前記単位データと、前記ｎ次元空間における前記所定座標から一定範囲内の座標（例えば、空間方向でいえば、所定時刻の１枚のフレームにおける上下左右方向の画素又はブロックの座標）における前記単位データとを含めた、ｎ個（ｎは２以上の整数値）の単位データの集合（画素又はブロックの集合体）を、前記所定座標の第１情報群として生成する生成手段と、
前記所定座標の第１情報群を構成する前記ｎ個の単位データの夫々に対する所定の判定基準によるｎ個の判定結果の集合体である第２情報群を、相互に特徴が異なるｍ個（ｍは２以上の整数値）の判定基準の夫々を用いて生成する第１判定手段と、
前記第１判定手段により前記ｍ個の判定基準により夫々生成された前記第２情報群に基づいて、前記Ｎ次元空間内の前記所定座標における前記目標対象の存在確率を、第２判定結果として生成する第２判定手段と、
を備える情報処理装置であってもよい。

１・・・音声判定装置、２・・・モデルＤＢ、３・・・音声学習装置、１１・・・ＣＰＵ、１０１・・・解析データ取得部、１０２・・・時系列分割部、１０３・・・第１判定部、１０４・・・第２判定部、３０１・・・第１判定モデルＤＢ、３０２・・・第２判定モデルＤＢ、１１１・・・学習データ取得部、１１２・・・時系列分割部、１１３・・・第１学習部、１１４・・・第２学習部、１２１・・・第１判定モデル学習部、１３１・・・第１判定部、１３２・・・第２判定モデル学習部

Claims

処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置において、
相互に特徴が異なるｍ個（ｍは２以上の整数値）の第１判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて１個以上の前記単位データを、前記所定時間帯の第１時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第１時系列データに対する前記第１判定基準の判定結果を示す１個以上のデータを第２時系列データとして生成する、
第１判定手段と、
前記第１判定手段により生成された前記ｍ個の前記第２時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第２判定結果として生成する第２判定手段と、
を備え、
前記第２判定手段は、学習用のデータに対する前記ｍ個の前記第１判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第２判定基準を用いて、前記第２判定結果を生成する、
情報処理装置。
前記第１判定手段は、
前記所定時間帯の第１時系列データとして、前記所定時間帯とは異なる時間に基づいて区切られた前記単位データを少なくとも含む１個以上の前記単位データを、前記処理対象のデータから取得する、
請求項１に記載の情報処理装置。
処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置が実行する情報処理方法において、
相互に特徴が異なるｍ個（ｍは２以上の整数値）の第１判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて１個以上の前記単位データを、前記所定時間帯の第１時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第１時系列データに対する前記第１判定基準の判定結果を示す１個以上のデータを第２時系列データとして生成する、
第１判定ステップと、
前記第１判定ステップにより生成された前記ｍ個の前記第２時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第２判定結果として生成する第２判定ステップと、
を備え、
前記第２判定ステップは、学習用のデータに対する前記ｍ個の前記第１判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第２判定基準を用いて、前記第２判定結果を生成する、
情報処理方法。
処理対象のデータの所定時間帯における目標対象の存在確率を求めるコンピュータに、
相互に特徴が異なるｍ個（ｍは２以上の整数値）の第１判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて１個以上の前記単位データを、前記所定時間帯の第１時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第１時系列データに対する前記第１判定基準の判定結果を示す１個以上のデータを第２時系列データとして生成する、
第１判定ステップと、
前記第１判定ステップにより生成された前記ｍ個の前記第２時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第２判定結果として生成する第２判定ステップと、
を含み、
前記第２判定ステップは、学習用のデータに対する前記ｍ個の前記第１判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第２判定基準を用いて、前記第２判定結果を生成する、
制御処理を実行させるプログラム。