JP5007714B2

JP5007714B2 - 情報処理装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP5007714B2
Application number: JP2008279177A
Authority: JP
Inventors: 由幸小林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-10-20
Filing date: 2008-10-30
Publication date: 2012-08-22
Anticipated expiration: 2026-10-31
Also published as: CN101165779B; CN101165779A; JP2009058970A

Description

本発明は情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、データの特徴を抽出できるようにした情報処理装置および方法、プログラム、並びに記録媒体に関する。

データに所定の情報処理を適用することにより、その特徴を示す特徴量を抽出することが広く行われている。時間的に連続するデータの所定の区間の特徴を示す特徴量が抽出されることもある。

従来、音声認識処理の結果を利用する情報処理が実行されているときに、実行の対象となる音声認識処理を切り替え、切り替えられた音声認識処理に応じて音声認識環境の設定を切り替え、その後、切り替えられた音声認識環境の設定に従って、切り替えられた音声認識処理を実行するようにしているものもある（例えば、特許文献１参照）。

特開２００５−１９５８３４号公報

しかしながら、データを区間毎に予め分割し、その区間の中だけで特徴を抽出するようにすると、それ以前の区間の現在の区間に与える影響を考慮することが難しかった。

最終的に求めようとする特徴量の解像度を上げようとすると、データを分割する際のオーバーラップを大きくする必要が生じ、解像度の高さに比例して処理量が増大してしまう。

また、データがリアルタイムに入力される場合、データが一定以上溜まる毎に処理を行うようにしていたので、データから特徴を抽出するアルゴリズムが複雑になればなるほど、データが入力されてから最終的に求めようとする特徴量が出力されるまでのタイムラグが大きくなる。

すなわち、データが入力されてから最終的に求めようとする特徴量が出力されるまでのタイムラグ（レイテンシ）は、区間分のデータが入力される時間と、そのデータが処理される時間との和で求められ、データから特徴を抽出するアルゴリズムが複雑になると、そのデータが処理される時間が長くなってしまい、タイムラグ（レイテンシ）が長くなる。

さらに、連続量を示すデータからそのまま特徴抽出するようにした場合、特徴抽出機のパラメータ学習のために専用のモデルの設計や、多くの教師データが必要とされ、汎用の特徴抽出機を利用したり、少ない教師データによって効率的に学習することはできなかった。

本発明は、このような状況に鑑みてなされたものであり、簡単かつ迅速に、特徴を抽出することができるようにするものである。

本発明の一側面の情報処理装置は、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築するアルゴリズム構築手段と、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出する連続特徴量抽出手段と、前記連続特徴量から、予め定めた長さの期間の部分を切り出す切り出し手段と、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する区間特徴量抽出手段と、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定するターゲット特徴量推定手段とを備える。

前記ターゲット特徴量推定手段は、時間的に連続する音声データと、期間のそれぞれについての期間全体の音声データの１つの正しい特徴を示す特徴量とからなる教師データを用いた学習により予め作成される。

前記ターゲット特徴量推定手段には、前記音声データの特徴として、音楽であるか会話であるか示す前記ターゲット特徴量を推定させることができる。

移動平均を求めることにより、前記ターゲット特徴量を平滑化する平滑化手段をさらに設けることができる。

推定された前記ターゲット特徴量で示される特徴を表す第２のラベルを前記音声データに付加して、前記第２のラベルが付加された前記音声データを保存する保存手段をさらに設けることができる。

本発明の一側面の情報処理方法は、情報処理装置が、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、前記連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定するステップを含む。

本発明の一側面のプログラムは、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、前記連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定するステップを含む処理をコンピュータに実行させる。

本発明の一側面の記録媒体のプログラムは、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、前記連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定するステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせがGP（Genetic Programming）を用いて探索され、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムが自動構築され、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量が抽出され、前記連続特徴量から、予め定めた長さの期間の部分が切り出され、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量が抽出され、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量が推定される。

以上のように、本発明の一側面によれば、特徴を抽出することができる。

また、本発明の一側面によれば、簡単かつ迅速に、特徴を抽出することができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、発明の詳細な説明に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、発明の詳細な説明に記載されていることを確認するためのものである。従って、発明の詳細な説明中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の情報処理装置は、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築するアルゴリズム構築手段（例えば、図１８のアルゴリズム構築部１０１）と、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出する連続特徴量抽出手段（例えば、図９の時間−音程解析部８１および連続音楽特徴量抽出部８２）と、前記連続特徴量から、予め定めた長さの期間の部分を切り出す切り出し手段（例えば、図９のフレーム切り出し部８３）と、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する区間特徴量抽出手段（例えば、図９の区間特徴量抽出部８４）と、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定するターゲット特徴量推定手段（例えば、図９の音楽／会話判別部８５）とを備える。

移動平均を求めることにより、前記ターゲット特徴量を平滑化する平滑化手段（例えば、図９のデータ平滑部８６）をさらに設けることができる。

推定された前記ターゲット特徴量で示される特徴を表す第２のラベルを前記音声データに付加して、前記第２のラベルが付加された前記音声データを保存する保存手段（例えば、図９の音声保存部８７）をさらに設けることができる。

本発明の一側面の情報処理方法およびプログラムは、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し（例えば、図２２のステップＳ１０１乃至Ｓ１１４）、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し（例えば、図１０のステップＳ５１およびＳ５２）、前記連続特徴量から、予め定めた長さの期間の部分を切り出し（例えば、図１０のステップＳ５３）、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し（例えば、図１０のステップＳ５４）、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定する（例えば、図１０のステップＳ５５）ステップを含む。

まず、図１で示されるように、時間的に連続するデータである連続データの入力に対して、自動特徴抽出アルゴリズムを適用することによる、連続データのある長さ毎の特徴の取得について説明する。例えば、波形のデータである時間的に連続して入力される連続データから、その連続データのある長さ毎の、Ａ、Ｂ、またはＣのいずれかである特徴が取得される。

図２は、本発明の一実施の形態の情報処理装置１１の構成を示すブロック図である。連続データのある長さ毎の特徴を抽出する情報処理装置１１は、連続特徴量抽出部３１、連続特徴量切り出し部３２、区間特徴量抽出部３３、およびターゲット特徴量推定部３４から構成される。

連続特徴量抽出部３１は、外部から入力された時間的に連続するデータである連続データを取得して、取得した連続データから、時間的に連続する特徴量である連続特徴量を抽出する。連続特徴量抽出部３１は、連続データから、１つ以上の連続特徴量を抽出する。連続特徴量抽出部３１は、抽出した連続特徴量を順に連続特徴量切り出し部３２に供給する。

すなわち、時間的に連続する特徴量である連続特徴量は、抽出された順に時間的に連続するように連続特徴量切り出し部３２に供給される。

連続特徴量切り出し部３２は、連続特徴量抽出部３１から供給された連続特徴量から、予め定めた長さの期間の部分を切り出す。すなわち、連続特徴量切り出し部３２は、所定の長さ毎に切り出された１つ以上の連続特徴量である切り出し連続特徴量を生成する。連続特徴量切り出し部３２は、連続特徴量の切り出した部分からなる切り出し連続特徴量をその切り出された順に区間特徴量抽出部３３に供給する。

区間特徴量抽出部３３は、連続特徴量切り出し部３２において切り出された連続特徴量の部分から、期間毎に、期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する。区間特徴量抽出部３３は、期間毎、すなわち区間毎に１つ以上の区間特徴量を抽出する。区間特徴量抽出部３３は、抽出した区間特徴量を抽出の順にターゲット特徴量推定部３４に供給する。

ターゲット特徴量推定部３４は、所定の長さの期間（区間）毎に、最終的に求めたい特徴量であるターゲット特徴量を推定する。すなわち、ターゲット特徴量推定部３４は、区間特徴量抽出部３３において抽出された区間特徴量から、期間毎に、期間全体のデータの１つの特徴を示す特徴量であるターゲット特徴量を推定する。ターゲット特徴量推定部３４は、推定により得られたターゲット特徴量を出力する。

次に、図３のフローチャートを参照して、情報処理装置１１によるターゲット特徴量の抽出の処理を説明する。ステップＳ１１において、連続特徴量抽出部３１は、外部から入力された時間的に連続するデータである連続データから、連続的に変化する連続特徴量を１つ以上抽出する。

例えば、図４で示されるように、連続特徴量抽出部３１は、連続データから、時間的に連続的に変化する、連続特徴量１、連続特徴量２、および連続特徴量３などの３つの連続特徴量を抽出する。

より具体的には、連続データが音声データである場合、連続特徴量抽出部３１は、音声データである連続データから、各時刻における音量を示す連続特徴量１を抽出し、各時刻における１２平均律の音程の所定の高さの音（例えば、いわゆる、ド、レ、またはミのいずれかの音）の数を示す連続特徴量２を抽出し、各時刻における右チャンネルの信号と左チャンネルの信号とのバランスを示す連続特徴量３を抽出する。

また、例えば、連続データが動画像の画像データである場合、連続特徴量抽出部３１は、動画像の画像データである連続データから、各時刻における動画像の明るさを示す連続特徴量１を抽出し、各時刻における動きの量を示す連続特徴量２を抽出し、各時刻における動画像の色を示す連続特徴量３を抽出する。

連続特徴量抽出部３１は、抽出した連続特徴量を抽出の順に連続特徴量切り出し部３２に順次供給する。

ステップＳ１２において、連続特徴量切り出し部３２は、１つ以上の連続特徴量のそれぞれを、予め決めてある所定の長さ毎に切り出す。

例えば、図５で示されるように、連続特徴量切り出し部３２は、連続特徴量１、連続特徴量２、連続特徴量３などの連続特徴量のそれぞれを、予め決めてある長さである、図５中の縦線で示される時刻とこれに隣接する縦線で示される時刻との間の期間の長さ毎に分割して、分割されたそれぞれの部分毎に、連続特徴量１、連続特徴量２、連続特徴量３などの連続特徴量を切り出す。

なお、複数の連続特徴量を切り出す場合、その切り出す時刻と期間の長さとは、同じとされる。

また、ここに言う長さは、時間でもよく、連続データのデータ量でもよく、また、連続データにおける所定の単位（例えば、フレームなど）を基にしたものとすることができる。

なお、連続特徴量切り出し部３２は、それぞれの連続特徴量を、オーバーラップさせた所定の長さ毎に切り出すようにしてもよい。

より具体的には、例えば、連続特徴量切り出し部３２は、音声データである連続データから抽出された、各時刻における音量を示す連続特徴量１、各時刻における１２平均律の音程の所定の高さの音の数を示す連続特徴量２、および各時刻における右チャンネルの信号と左チャンネルの信号とのバランスを示す連続特徴量３を、音声データによる音声の、5秒、10秒、または15秒のいずれかの長さ毎に切り出す。

また、例えば、連続特徴量切り出し部３２は、動画像の画像データである連続データから抽出された、各時刻における動画像の明るさを示す連続特徴量１、各時刻における動きの量を示す連続特徴量２、および各時刻における動画像の色を示す連続特徴量３を、30フレーム、150フレーム、または300フレームのいずれかの長さ毎に切り出す。

連続特徴量切り出し部３２は、連続特徴量から切り出して得られた切り出し連続特徴量を切り出しの順に区間特徴量抽出部３３に供給する。

ステップＳ１３において、区間特徴量抽出部３３は、所定の長さ毎に切り出された１つ以上の連続特徴量を基に、１つの区間について１つのスカラまたはベクトルで表される区間特徴量を、切り出された区間毎に１つ以上抽出する。

例えば、区間特徴量抽出部３３は、所定の長さの区間毎に、切り出された切り出し連続特徴量のそれぞれに、１つ以上の所定の処理を適用することにより、各連続特徴量から、１つ以上のスカラまたはベクトルのいずれかで表される特徴量である区間特徴量を抽出する。

１つの区間特徴量は、１つの区間についての特徴を、１つのスカラで表すか、または１つのベクトルで表す。

例えば、図６で示されるように、区間特徴量抽出部３３は、音声データである連続データから抽出され、最初の区間から切り出された、各時刻における音量を示す連続特徴量１のその区間における平均値を求めることによって、0.2である最初の区間の区間特徴量を抽出する。同様に、区間特徴量抽出部３３は、音声データである連続データから抽出され、２番目の区間および３番目の区間から切り出された、各時刻における音量を示す連続特徴量１のそれぞれの区間のおける平均値を求めることによって、-0.05である２番目の区間の区間特徴量および0.05である３番目の区間の区間特徴量をそれぞれ抽出する。

また、区間特徴量抽出部３３は、音声データである連続データから抽出され、最初の区間乃至３番目の区間から切り出された、各時刻における音量を示す連続特徴量１のそれぞれの区間における分散を求めることによって、0.2である最初の区間の区間特徴量、0.15である２番目の区間の区間特徴量、および0.1である３番目の区間の区間特徴量をそれぞれ抽出する。

さらに、区間特徴量抽出部３３は、音声データである連続データから抽出され、最初の区間乃至３番目の区間から切り出された、各時刻における音量を示す連続特徴量１のそれぞれの区間における勾配を求めることによって、0.3である最初の区間の区間特徴量、-0.2である２番目の区間の区間特徴量、および0.0である３番目の区間の区間特徴量をそれぞれ抽出する。

区間特徴量抽出部３３は、４番目以降の区間について、同様に、連続特徴量１のそれぞれの区間における、平均、分散、または勾配を示す区間特徴量をそれぞれ抽出する。

さらにまた、区間特徴量抽出部３３は、音声データである連続データから抽出され、それぞれの区間から切り出された、各時刻における１２平均律の音程の所定の高さの音の数を示す連続特徴量２、および各時刻における右チャンネルの信号と左チャンネルの信号とのバランスを示す連続特徴量３のそれぞれの、それぞれの区間における、平均、分散、または勾配などである区間特徴量を抽出する。

例えば、連続データが動画像の画像データである場合、区間特徴量抽出部３３は、各時刻における動画像の明るさを示す連続特徴量１、各時刻における動きの量を示す連続特徴量２、および各時刻における動画像の色を示す連続特徴量３のそれぞれの、それぞれの区間における、平均、分散、または勾配などである区間特徴量を抽出する。

ステップＳ１４において、ターゲット特徴量推定部３４は、区間特徴量から、区間毎にターゲット特徴量を推定して、処理は終了する。

すなわち、ステップＳ１４において、ターゲット特徴量推定部３４は、ステップＳ１３において抽出された区間特徴量から、区間毎に、最終的に抽出しようとする特徴量であるターゲット特徴量を推定する。例えば、図７で示されるように、区間毎に、区間特徴量１乃至区間特徴量７などである区間特徴量が抽出された場合、ターゲット特徴量推定部３４は、所定の１つの区間について、0.2である区間特徴量１、0.2である区間特徴量２、0.3である区間特徴量３、-0.5である区間特徴量４、1.23である区間特徴量５、0.42である区間特徴量６、および0.11である区間特徴量７などが抽出されたとき、この区間特徴量１乃至区間特徴量７などから、この区間のターゲット特徴量を推定する。

例えば、ターゲット特徴量は、連続データが音声データである場合、ボーカルの有無、所定の楽器の演奏の有無、ノイズであるか否かなどを示す。

また、例えば、ターゲット特徴量は、連続データが動画像の画像データである場合、人物の有無、所定の被写体の有無、被写体が所定の動作をしているか否か（例えば、ダンスしているか否か）などを示す。

このように、ステップＳ１４において、ターゲット特徴量推定部３４は、区間特徴量から、期間毎に、期間全体のデータの１つの特徴を示す特徴量であるターゲット特徴量を推定する。

すなわち、ターゲット特徴量推定部３４は、区間毎の区間特徴量に、所定の処理を適用することによって、区間毎のターゲット特徴量を推定する。

例えば、ターゲット特徴量推定部３４は、区間毎の区間特徴量と、区間のそれぞれについての期間全体のデータの１つの正しい特徴を示すターゲット特徴量とからなる教師データを用いた学習により予め作成される。すなわち、ターゲット特徴量推定部３４は、区間毎の区間特徴量が抽出される、時間的に連続する連続データと、区間のそれぞれについての区間全体のデータの１つの正しい特徴を示すターゲット特徴量とからなる教師データを用いた学習により予め作成される。

例えば、ターゲット特徴量推定部３４は、Regression（回帰解析）、Classify（クラス分類）、SVM(Support Vector Machine)、およびＧＰ(Genetic Programming)などにより、教師データから機械学習で作成される。

このように、連続データにおける所定の期間である区間全体の連続データの特徴を抽出することができる。

時間的に連続する連続データから、時間的に連続する連続特徴量を抽出し、連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された連続特徴量の部分から、期間毎に、期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、区間特徴量から、区間毎すなわち期間毎に、期間全体の連続データの１つの特徴を示す特徴量であるターゲット特徴量を推定するようにしたので、簡単かつ迅速に、それぞれの期間の特徴を抽出することができる。

次に、より具体的な、本発明の一実施の形態について説明する。

図８で示されるように、時間的に連続するデータである音声データの入力に対して、自動音楽／会話判別アルゴリズムを適用することによる、単位時間毎に音楽であるか会話であるかを判別し、単位時間毎の音楽であるか会話であるかの判別の結果を出力する場合について説明する。

例えば、音声の波形を示す波形データである音声データに対して、その音声データによる音声のある長さの単位時間毎に、会話（Talk）、会話（Talk）、会話（Talk）、会話（Talk）、音楽（Music）、音楽（Music）、音楽（Music）、音楽（Music）、音楽（Music）、音楽（Music）である判別の結果が出力される。

図９は、本発明の一実施の形態の情報処理装置５１の構成を示すブロック図である。入力された音声データに対して、単位時間毎に音楽であるか会話であるかを判別する情報処理装置５１は、時間−音程解析部８１、連続音楽特徴量抽出部８２、フレーム切り出し部８３、区間特徴量抽出部８４、音楽／会話判別部８５、データ平滑部８６、および音声保存部８７から構成される。

時間−音程解析部８１は、時間的に連続する音声データを、所定の周波数帯域毎に時間的に連続して解析する。例えば、時間−音程解析部８１は、時間的に連続する音声データを、それぞれのオクターブが１２平均律の音程で区切られた音の高さと時間との２軸で解析する。時間−音程解析部８１は、解析の結果得られた、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する時間−音程データを連続音楽特徴量抽出部８２に解析の順に供給する。時間的に連続する時間−音程データは、連続音楽特徴量抽出部８２における解析の順に、時間的に連続するように連続音楽特徴量抽出部８２に供給される。

連続音楽特徴量抽出部８２は、時間−音程解析部８１から供給された、時間的に連続する連続データである時間−音程データから、時間的に連続する特徴量である連続音楽特徴量を抽出する。連続音楽特徴量抽出部８２は、抽出された連続音楽特徴量をフレーム切り出し部８３に抽出の順に供給する。時間的に連続する特徴量である連続音楽特徴量は、抽出された順に時間的に連続するようにフレーム切り出し部８３に供給される。

フレーム切り出し部８３は、連続音楽特徴量抽出部８２から供給された連続音楽特徴量から、予め定めた長さの期間であるフレーム毎に、連続音楽特徴量の部分を切り出す。フレーム切り出し部８３は、フレーム毎に切り出された連続音楽特徴量を、フレーム毎連続音楽特徴量として区間特徴量抽出部８４に切り出した順に供給する。

区間特徴量抽出部８４は、フレーム毎連続音楽特徴量から、フレーム毎に、フレームのそれぞれについて１つのスカラまたはベクトルでそれぞれ表される特徴量である区間特徴量を抽出する。区間特徴量抽出部８４は、抽出した区間特徴量を音楽／会話判別部８５に抽出の順に供給する。

音楽／会話判別部８５は、区間特徴量抽出部８４において抽出された区間特徴量から、フレーム毎に、音声データにおけるフレームの特徴であって、音楽であるか会話であるかの特徴を示すターゲット特徴量を推定する。すなわち、音楽／会話判別部８５は、フレームである期間毎に、それぞれの期間全体の音声データの１つの特徴として、音楽であるか会話であるか示すターゲット特徴量を推定する。

音楽／会話判別部８５は、推定の結果得られた、フレーム毎に音楽であるか会話であるかの特徴を示すフレーム毎音楽／会話判別結果をデータ平滑部８６に供給する。

データ平滑部８６は、音楽／会話判別部８５から供給されたフレーム毎音楽／会話判別結果について移動平均を求めることにより、ターゲット特徴量を平滑化する。データ平滑部８６は、平滑化の結果得られた、連続音楽／会話判別結果を音声保存部８７に供給する。

音声保存部８７は、データ平滑部８６から供給された、連続音楽／会話判別結果に応じた、音楽であるか会話であるか示すラベルを生成して、生成したラベルを音声データに付与する。そして、音声保存部８７は、ラベルが付与された音声データであるラベル付与済み音声データを図示せぬ記録媒体などに保存する。

すなわち、音声保存部８７は、推定されたターゲット特徴量で示される特徴を表すラベルを音声データに付加して、ラベルが付加された音声データを保存する。

なお、音声保存部８７は、ネットワークを介して接続されている図示せぬサーバなどに、ラベルが付加された音声データを記録させることにより、ラベルが付加された音声データを保存するようにしてもよい。

図１０は、音声データへのラベル付与の処理を説明するフローチャートである。ステップＳ５１において、時間−音程解析部８１は、時間的に連続する音声データの波形を、時間と１オクターブを１２音に区切った音程との２軸で解析し、時間−音程データを生成する。

例えば、図１１で示されるように、ステップＳ５１において、時間−音程解析部８１は、音声データを、複数のオクターブの成分に分けて、さらにそれぞれのオクターブにおける１２平均律のそれぞれの高さの１２の音のエネルギを求めることで、時間と１オクターブを１２音に区切った音程との２軸で解析し、時間−音程データを生成する。

さらに詳細には、例えば、音声データがステレオのデータである場合、時間−音程解析部８１は、音声データの右チャンネルのデータおよび左チャンネルのデータのそれぞれについて、複数のオクターブのそれぞれにおける１２平均律のそれぞれの高さの１２の音のエネルギを求めて、それぞれのオクターブのそれぞれの音毎に、左チャンネルのデータから求めたエネルギと右チャンネルのデータから求めたエネルギとを加算することで、時間−音程データを生成する。

このように、時間−音程解析部８１は、時間的に連続するデータである時間−音程データを生成する。時間−音程解析部８１は、生成した時間−音程データを、生成の順に連続音楽特徴量抽出部８２に供給する。

ステップＳ５２において、連続音楽特徴量抽出部８２は、時間−音程データからいくつかの連続音楽特徴量を抽出する。

例えば、ステップＳ５２において、連続音楽特徴量抽出部８２は、それぞれのオクターブにおける１２の音のそれぞれのエネルギを示す時間−音程データから、時間的に連続的に変化する、連続音楽特徴量１、連続音楽特徴量２、および連続音楽特徴量３などの連続音楽特徴量を抽出する。例えば、図１２で示されるように、連続音楽特徴量抽出部８２は、それぞれのオクターブにおける１２の音のそれぞれのエネルギを示す時間−音程データから、各時刻における音域毎のレベル比を示す連続音楽特徴量１を抽出し、各時刻における右チャンネルと左チャンネルとのエネルギまたはレベルの差を示す連続音楽特徴量２を抽出し、アタック、ディケイ、サスティン、およびリリースなどのエンベロープのパラメータを示す連続音楽特徴量３を抽出する。または、例えば、連続音楽特徴量抽出部８２は、それぞれのオクターブにおける１２の音のそれぞれのエネルギを示す時間−音程データから、各時刻におけるリズムの割合を示す連続音楽特徴量１を抽出し、各時刻における音の数を示す連続音楽特徴量２を抽出し、各時刻における倍音構成を示す連続音楽特徴量３を抽出する。

さらに、連続音楽特徴量抽出部８２は、それぞれのオクターブにおける１２の音のそれぞれのエネルギを示す時間−音程データから、音の密度や音程の変化などを示す連続音楽特徴量を抽出するようにしてもよい。

連続音楽特徴量抽出部８２は、抽出した連続音楽特徴量を抽出の順にフレーム切り出し部８３に供給する。

ステップＳ５３において、フレーム切り出し部８３は、それぞれの連続音楽特徴量をフレーム毎に分割して、フレーム毎連続音楽特徴量を切り出す。

例えば、図１３で示されるように、フレーム切り出し部８３は、連続音楽特徴量１、連続音楽特徴量２、連続音楽特徴量３などの連続音楽特徴量のそれぞれを、フレーム毎に分割する。ここで、フレームは、図１３中の縦線で示される時刻とこれに隣接する縦線で示される時刻との間の期間であって、予め決めてある長さの期間である。

フレーム切り出し部８３は、それぞれのフレーム毎に、連続音楽特徴量１、連続音楽特徴量２、連続音楽特徴量３などの連続音楽特徴量を切り出す。

なお、複数の連続音楽特徴量を切り出す場合、フレームの位置およびその長さは、複数の連続音楽特徴量の間で同じとされる。

フレーム切り出し部８３は、それぞれの連続音楽特徴量をフレーム毎に分割して得られたフレーム毎連続音楽特徴量を区間特徴量抽出部８４に順に供給する。

ステップＳ５４において、区間特徴量抽出部８４は、フレーム毎の、フレーム毎連続音楽特徴量の平均および分散を計算することにより、フレームである区間毎の区間特徴量を抽出する。

区間特徴量抽出部８４は、フレーム毎に、フレーム毎連続音楽特徴量のそれぞれに、１つ以上の所定の処理を適用することにより、各フレーム毎連続音楽特徴量から、１つ以上のスカラまたはベクトルで表される特徴量である区間特徴量を抽出する。

例えば、図１４で示されるように、区間特徴量抽出部８４は、各時刻における音域毎のレベル比を示すフレーム毎連続音楽特徴量１の最初の区間における平均値を求めることによって、最初の区間についての0.2である区間特徴量を抽出する。同様に、区間特徴量抽出部８４は、各時刻における音域毎のレベル比を示すフレーム毎連続音楽特徴量１の２番目の区間および３番目の区間のそれぞれにおける平均値を求めることによって、２番目の区間についての-0.05である区間特徴量および３番目の区間についての0.05である区間特徴量をそれぞれ抽出する。

また、区間特徴量抽出部８４は、各時刻における音域毎のレベル比を示すフレーム毎連続音楽特徴量１の最初の区間乃至３番目の区間のそれぞれにおける分散を求めることによって、最初の区間についての0.2である区間特徴量、２番目の区間についての0.15である区間特徴量、および３番目の区間についての0.1である区間特徴量をそれぞれ抽出する。

区間特徴量抽出部８４は、４番目以降の区間について、同様に、フレーム毎連続音楽特徴量１のそれぞれの区間における、平均または分散を示す区間特徴量をそれぞれ抽出する。

また、例えば、図１４で示されるように、区間特徴量抽出部８４は、各時刻における右チャンネルと左チャンネルとのエネルギまたはレベルの差を示すフレーム毎連続音楽特徴量２の最初の区間における平均値を求めることによって、最初の区間についての0.1である区間特徴量を抽出する。同様に、区間特徴量抽出部８４は、フレーム毎連続音楽特徴量２の２番目の区間および３番目の区間のそれぞれにおける平均値を求めることによって、２番目の区間についての0.4である区間特徴量および３番目の区間についての0.5である区間特徴量をそれぞれ抽出する。

また、区間特徴量抽出部８４は、各時刻における右チャンネルと左チャンネルとのエネルギまたはレベルの差を示すフレーム毎連続音楽特徴量２の最初の区間乃至３番目の区間のそれぞれにおける分散を求めることによって、最初の区間についての0.3である区間特徴量、２番目の区間についての-0.2である区間特徴量、および３番目の区間についての0.0である区間特徴量をそれぞれ抽出する。

区間特徴量抽出部８４は、４番目以降の区間について、同様に、フレーム毎連続音楽特徴量２のそれぞれの区間における、平均または分散を示す区間特徴量をそれぞれ抽出する。

さらに、区間特徴量抽出部８４は、それぞれの区間について、フレーム毎連続音楽特徴量３から、区間特徴量をそれぞれ抽出する。

区間特徴量抽出部８４は、このように抽出された区間特徴量を音楽／会話判別部８５に供給する。

ステップＳ５５において、音楽／会話判別部８５は、区間特徴量から、フレーム毎に音楽であるか会話であるかを判別する。

例えば、音楽／会話判別部８５は、入力される１以上の区間特徴量のうちの１以上の区間特徴量に、予め生成されたターゲット特徴量抽出式で示される比較的単純な演算（四則演算、累乗演算など）を適用し、その演算結果として、音楽である確率を示すターゲット特徴量であるフレーム毎音楽／会話判別結果を求める。音楽／会話判別部８５は、ターゲット特徴量抽出式を予め有している。

例えば、音楽／会話判別部８５は、ターゲット特徴量が音楽である確率を示す場合、所定の区間についてのターゲット特徴量が0.5以上であるとき、その区間が音楽であることを示すフレーム毎音楽／会話判別結果を出力する。また、例えば、音楽／会話判別部８５は、ターゲット特徴量が音楽である確率を示す場合、所定の区間についてのターゲット特徴量が0.5未満であるとき、その区間が会話であることを示すフレーム毎音楽／会話判別結果を出力する。

例えば、図１５で示されるように、区間毎に、区間特徴量１乃至区間特徴量７などである区間特徴量が抽出された場合、音楽／会話判別部８５は、所定の１つのフレームである所定の１つの区間についての、0.2である区間特徴量１、0.2である区間特徴量２、0.3である区間特徴量３、-0.5である区間特徴量４、1.23である区間特徴量５、0.42である区間特徴量６、および0.11である区間特徴量７などから、このフレームが音楽であるか会話であるかを判別する。

例えば、音楽／会話判別部８５は、フレーム毎の区間特徴量と、フレーム毎に音楽であるか会話であるかを正しく示すターゲット特徴量とからなる教師データを用いた学習により予め作成される。すなわち、音楽／会話判別部８５は、区間毎の区間特徴量が抽出される時間的に連続する音声データと、フレーム毎に音楽であるか会話であるかを正しく示すターゲット特徴量とからなる教師データを用いた、ターゲット特徴量抽出式を算出する学習により予め作成される。

例えば、音楽／会話判別部８５に予め格納されているターゲット特徴量抽出式は、時間的に連続する音声データと、フレーム毎に音楽であるか会話であるかを正しく示すターゲット特徴量とからなる教師データから、ジェネティック(Genetic)な学習によって予め生成される。

なお、ターゲット特徴量抽出式を生成するための学習アルゴリズムとしては、例えば、Regression（回帰解析）、Classify（クラス分類）、SVM(Support Vector Machine)、およびＧＰ(Genetic Programming)を用いることができる。

音楽／会話判別部８５は、フレーム毎の音楽であるか会話であるかの判別の結果を示すフレーム毎音楽／会話判別結果をデータ平滑部８６に供給する。

ステップＳ５６において、データ平滑部８６は、フレーム毎の音楽であるか会話であるかの判別の結果を平滑化する。

例えば、データ平滑部８６は、フィルタリングにより、フレーム毎の音楽であるか会話であるかの判別の結果を平滑化する。より具体的には、データ平滑部８６は、移動平均フィルタとして構成され、ステップＳ５６において、移動平均を求めることにより、フレーム毎音楽／会話判別結果を平滑化する。

図１６で示されるように、フレーム毎音楽／会話判別結果によって、２１のフレームのそれぞれが、順に、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、音楽（M）、音楽（M）、音楽（M）、会話（T）、音楽（M）、音楽（M）、音楽（M）、会話（T）、音楽（M）、音楽（M）、音楽（M）、音楽（M）であるとされ、１３番目のフレームおよび１７番目のフレームが、それぞれ、会話（T）とされ、その前後に、それぞれ、音楽（M）とされているフレームが配置されている場合を例に説明する。

フレームの長さを十分に短くすると、会話であるフレームが所定の数以上連続するか、または音楽であるフレームが所定の数以上連続する。すなわち、会話であるフレームの前および後に、音楽であるフレームが配置されることはなく、また、音楽であるフレームの前および後に、会話であるフレームが配置されることはなく、図１６の上側で示されるように、２１のフレームは、正しくは、順に、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）、音楽（M）である。言い換えれば、図１６で示されるフレーム毎音楽／会話判別結果において、１３番目のフレームおよび１７番目のフレームについて判別の誤りが挿入されている。

データ平滑部８６は、移動平均を求めることにより、フレーム毎音楽／会話判別結果を平滑化して、フレーム毎音楽／会話判別結果において、順に、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、会話（T）、音楽（M）、音楽（M）、音楽（M）、会話（T）、音楽（M）、音楽（M）、音楽（M）、会話（T）、音楽（M）、音楽（M）、音楽（M）、音楽（M）であるとされている２１のフレームのうちの、１３番目のフレームおよび１７番目のフレームを、それぞれ、音楽（M）として、正しい判別の結果と同じ判別を示す連続音楽／会話判別結果を求める。

このように、判別結果の平滑化は、誤りのフィルタリングのために有効である。

データ平滑部８６は、移動平均を求めることにより、フレーム毎音楽／会話判別結果を平滑化することにより求められた連続音楽／会話判別結果を音声保存部８７に供給する。

ステップＳ５７において、音声保存部８７は、音楽であるか会話であるかをフレーム毎に示すラベルを音声データに付与して、ラベルが付与された音声データを保存して、処理は終了する。

例えば、図１７で示されるように、音声保存部８７は、フレームを単位とする区間であって、音声データにおける区間ごとに、音楽であるか会話であるかを示すラベルを音声データに付加する。すなわち、音声保存部８７は、連続音楽／会話判別結果によって音楽であると判別された区間の音声データに、音楽であることを示すラベルを付加し、連続音楽／会話判別結果によって会話であると判別された区間の音声データに、会話であることを示すラベルを付加する。音声保存部８７は、音楽であるか会話であるかを示すラベルが付加された音声データを、ハードディスクまたは光ディスクなどの記録媒体に記録することにより、保存する。

このように、音楽であるか会話であるかを示すラベルが付加された音声データを再生する場合、ラベルを参照して、音声データのうちの音楽の部分のみを再生したり、音声データのうちの会話の部分のみを再生したりすることができる。逆に言えば、音楽であるか会話であるかを示すラベルが付加された音声データを再生する場合、ラベルを参照して、音声データのうちの音楽の部分のみを次々にスキップするように、音声データを再生したり、または、音声データのうちの会話の部分のみを次々にスキップするように、音声データを再生したりすることができる。

以上のように、時定数で連続データの過去の値の影響をうける連続特徴量を抽出しておくことで、現在の区間においても、連続データの過去の区間の影響を加味したターゲット特徴量を求めることができる。

ターゲット特徴量を求める処理のうち、演算量の大きい処理のほとんどは、連続特徴量の抽出に関わるものであるため、連続特徴量を切り出す範囲のオーバーラップを大きくして時間解像度を上げても、処理量がほとんど増加しない。すなわち、より簡単な構成で、処理量をあまり増加させることなく、ターゲット特徴量の時間解像度を上げることができる。

連続特徴量の抽出は、連続データの入力と同時に行うことができる。このため、従来のように、連続データそのものを区間に分割して特徴を抽出した場合に比較すると、連続データが入力されてから特徴が求められるまでのレイテンシが小さくてすむ。

従来のように、連続データそのものを区間に分割して特徴を抽出した場合も、連続データから連続特徴量を抽出して、これを区間に分割してさらに特徴を求めるようにした場合も、連続データが入力されてから最終的に求めようとする特徴量が出力されるまでのタイムラグ（レイテンシ）は、区間分のデータが入力される時間と、そのデータが処理される時間との和で求められる。

連続データそのものを区間に分割して特徴を抽出した場合、区間分のデータが入力される時間と、そのデータが処理される時間とのうち、そのデータの処理に要する時間が大きい。

これに対して、連続データから連続特徴量を抽出して、これを区間に分割してさらに特徴を求めるようにした場合、区間分のデータが入力される時間と、そのデータが処理される時間とのうち、区間分のデータが入力される時間は、連続データそのものを区間に分割して特徴を抽出する場合とほぼ同じであるが、そのデータの処理に要する時間は、小さくなる。

従って、連続データから連続特徴量を抽出して、これを区間に分割してさらに特徴を求めるようにした場合、タイムラグ（レイテンシ）をより小さくすることができる。

また、ターゲット特徴量推定部３４または音楽／会話判別部８５として、スカラまたはベクトルで表される区間特徴量から正解データを表すターゲット特徴量を求める単純な構成のものを利用することができる。従って、対象問題毎に特別なモデルを用意する必要がなく、一般的な機械学習または統計解析で用意される様々なアルゴリズムを用いて、ターゲット特徴量推定部３４または音楽／会話判別部８５を構築することができる。

なお、図１の連続特徴量抽出部３１、または、図９の時間−音程解析部８１および連続音楽特徴量抽出部８２に格納される、連続データから連続特徴量を抽出する連続特徴量抽出アルゴリズムを、連続データと、連続データの各時点（サンプル点）における１つの正しい特徴を示すラベルが付加された教師データを用いた学習により自動構築するようにすることが可能である。

ここで、図１８乃至図２５を参照して、連続特徴量抽出アルゴリズムを自動構築する場合の処理について説明する。

連続特徴量抽出アルゴリズムを自動構築する場合、図１８に示される、外部から入力された連続データから連続特徴量を自動抽出する連続特徴量抽出アルゴリズムを自動構築するアルゴリズム構築部１０１が、図２の情報処理装置１１または図９の情報処理装置５１に新たに設けられる。

具体的には、図１９に示されるように、アルゴリズム構築部１０１は、連続データと、連続データの各時点における１つの正しい特徴を示すラベルからなる教師データを入力として、ＧＡ(Genetic Algorithm)またはＧＰ(Genetic Programming)による機械学習で、連続特徴量抽出アルゴリズムを構築し、出力する。

より具体的には、図２０に示されるように、アルゴリズム構築部１０１は、各種のフィルタ（関数）の組み合わせを生成し、教師データに含まれる連続データを入力とした場合に、生成したフィルタの組み合わせによる処理の結果として出力される連続特徴量に基づいて、ラベルにより示される連続データの特徴をどの程度の精度で推定できるかを評価することにより、無限に存在するフィルタの組み合わせの中から、連続データの特徴をより高い精度で推定することができる連続特徴量を出力するフィルタの組み合わせを、ＧＡ(Genetic Algorithm)またはＧＰ(Genetic Programming)を用いて探索する。

図２１は、アルゴリズム構築部１０１の機能的構成を示すブロック図である。アルゴリズム構築部１０１は、第１世代遺伝子生成部１２１、遺伝子評価部１２２、および、第２世代以降遺伝子生成部１２３から構成される。

第１世代遺伝子生成部１２１は、各種のフィルタの組み合わせを示す遺伝子の第１世代を生成する。

遺伝子評価部１２２は、第１世代遺伝子生成部１２１または第２世代以降遺伝子生成部１２３により生成された各遺伝子について、各遺伝子に示されるフィルタ処理により、教師データの連続データから抽出される連続特徴量に基づいて、教師データのラベルにより示される連続データの特徴をどの程度の精度で推定できるのかを評価する。遺伝子評価部１２２は、実行部１４１、評価部１４２、および、教師データ記憶部１４３から構成される。

実行部１４１は、教師データ記憶部１４３に記憶されている教師データの連続データを入力として、各遺伝子に示されるフィルタの処理を順に実行することにより、入力された連続データの連続特徴量を抽出する。実行部１４１は、抽出した連続特徴量を評価部１４２に供給する。

評価部１４２は、図２２を参照して後述するように、第１世代遺伝子生成部１２１または第２世代以降遺伝子生成部１２３により生成された各遺伝子について、実行部１４１により教師データの連続データから抽出された連続特徴量に基づいて、教師データのラベルにより示される連続データの特徴をどの程度の精度で推定できるのかを示す評価値を算出する。評価部１４２は、評価した遺伝子、および、その評価値を示す情報を、第２世代以降遺伝子生成部１２３の選択部１５１、交差部１５２、および、突然変異部１５３に供給する。また、評価部１４２は、所定の数の遺伝子の生成をランダム生成部１５４に指示する。さらに、評価部１４２は、評価値が安定し、遺伝子の進化が収束したと判定した場合、収束したと判定した世代の遺伝子、および、各遺伝子の評価値を選択部１５１に供給する。

教師データ記憶部１４３は、外部から入力される教師データを記憶する。

第２世代以降遺伝子生成部１２３は、第２世代以降の遺伝子を生成する。第２世代以降遺伝子生成部１２３は、選択部１５１、交差部１５２、突然変異部１５３、および、ランダム生成部１５４から構成される。

選択部１５１は、図２２を参照して後述するように、評価部１４２により求められた評価値に基づいて、現在の世代の中から次の世代に継承する遺伝子を選択し、選択した遺伝子を次の世代の遺伝子として遺伝子評価部１２２に供給する。また、選択部１５１は、遺伝子の進化が収束したと判定された場合、評価値が高い方から１つ以上の所定の数の遺伝子を選択し、選択した遺伝子により示されるフィルタの組み合わせを連続特徴量抽出アルゴリズムとして出力する。

交差部１５２は、図２２を参照して後述するように、現在の世代の遺伝子のうち評価値が高い遺伝子の中からランダムに選択した２つの遺伝子間でフィルタの一部を交換し、各遺伝子のフィルタを組み替えることにより、２つの遺伝子を交差させる。交差部１５２は、交差させた遺伝子を次の世代の遺伝子として遺伝子評価部１２２に供給する。

突然変異部１５３は、図２２を参照して後述するように、現在の世代の遺伝子のうち評価値が高い遺伝子の中からランダムに選択した遺伝子のフィルタの一部をランダムに変形することにより、遺伝子を突然変異させる。突然変異部１５３は、突然変異させた遺伝子を、次の世代の遺伝子として遺伝子評価部１２２に供給する。

ランダム生成部１５４は、図２２を参照して後述するように、各種のフィルタをランダムに組み合わせることにより、新たな遺伝子を生成する。ランダム生成部１５４は、生成した遺伝子を次の世代の遺伝子として遺伝子評価部１２２に供給する。

なお、アルゴリズム構築部１０１において生成される遺伝子を構成するフィルタは、リアルタイムに入力される時系列のデータ、すなわち、連続データに対して利用できるフィルタとされ、例えば、四則演算、指数演算、微積分、絶対値演算などを行う算術フィルタ、LPF（Low Pass filter）、HPF（High Pass filter）、BPF（Band Pass Filter）、IIR（Infinite Impulse Response）フィルタ、FIR（Finite Impulse Response）フィルタ、音量を均一化するリアルタイムレベルマキシマイザ、音程のトレースを行うピッチトレーサ、連続データの包絡線を生成するレベルメータなどである。

また、各遺伝子は、例えば、「ピッチトレーサ→微分フィルタ→絶対値フィルタ（Abs）→LPF」のように、フィルタが実行順に左から並べられた形式で表される。

図２２は、アルゴリズム構築部１０１により実行されるアルゴリズム構築処理を説明するフローチャートである。

なお、以下、適宜、図２３に示されるように、図９などを参照して上述した、入力された音声データに対して、単位時間毎に音楽であるか会話であるかを判別する情報処理装置５１において、音声データから連続音楽特徴量を抽出する連続音楽特徴量抽出アルゴリズムを、アルゴリズム構築部１０１が構築する場合の処理を例に挙げて説明する。すなわち、以下、適宜、アルゴリズム構築部１０１が、図９の時間−音程解析部８１および連続音楽特徴量抽出部８２に相当する連続音楽特徴量抽出アルゴリズムを構築する場合の処理を例に挙げて説明する。

ステップＳ１０１において、第１世代遺伝子生成部１２１は、第１世代の遺伝子を生成する。具体的には、第１世代遺伝子生成部１２１は、リアルタイムに入力される時系列のデータ、すなわち、連続データに対して利用できる各種のフィルタをランダムに組み合わせることにより、所定の数の遺伝子を生成する。第１世代遺伝子生成部１２１は、生成した遺伝子を遺伝子評価部１２２に供給する。

ステップＳ１０２において、実行部１４１は、まだ評価していない遺伝子を１つ選択する。いまの場合、実行部１４１は、第１世代遺伝子生成部１２１により生成された第１世代の遺伝子の中から、まだ評価していない遺伝子を評価対象として１つ選択する。

ステップＳ１０３において、実行部１４１は、未処理の教師データを１つ選択する。具体的には、実行部１４１は、教師データ記憶部１４３に記憶されている教師データのうち、現在評価対象となっている遺伝子による処理が実行されていない教師データを１つ選択する。

ステップＳ１０４において、実行部１４１は、評価対象の遺伝子を用いて、選択した教師データの連続特徴量を抽出する。具体的には、実行部１４１は、選択した教師データの連続データを入力として、評価対象の遺伝子に示されるフィルタの処理を順に実行することにより、選択した教師データの連続特徴量を抽出する。

例えば、連続音楽特徴量抽出アルゴリズムを構築する例の場合、図２４に示されるように、教師データである音声データに対して、評価対象の遺伝子の示す処理が行われることにより、すなわち、教師データである音声データに対して、評価対象の遺伝子の示すフィルタの処理を順に実行することにより、音声データをフィルタリングした波形が連続音楽特徴量として抽出される。

実行部１４１は、抽出した連続特徴量を評価部１４２に供給する。

ステップＳ１０５において、実行部１４１は、全ての教師データについて処理したかを判定する。実行部１４１は、教師データ記憶部１４３に記憶されている教師データのうち、現在評価対象となっている遺伝子により連続特徴量が抽出されていない教師データがある場合、まだ全ての教師データについて処理していないと判定し、処理はステップＳ１０３に戻る。その後、ステップＳ１０５において、全ての教師データについて処理したと判定されるまで、ステップＳ１０３乃至Ｓ１０５の処理が繰り返し実行される。

ステップＳ１０５において、全ての教師データについて処理したと判定された場合、処理はステップＳ１０６に進む。

ステップＳ１０６において、評価部１４２は、遺伝子を評価する。

例えば、連続音楽特徴量抽出アルゴリズムを構築する例の場合、評価部１４２は、図２５に示されるように、現在評価対象となっている遺伝子により抽出された連続音楽特徴量であるフィルタリングされた波形から、教師データのラベルに示される連続データの特徴を示す特徴量、すなわち、情報処理装置５１におけるターゲット特徴量である音楽であるか会話であるかを示す特徴量を、どの程度の精度で推定可能かを示す評価値を算出する。

ここで、評価値の算出方法の一例について説明する。

教師データのラベルの値、すなわち、連続データの特徴を示す特徴量が連続した数値（numericalな値）で表される場合、例えば、正解データに示される特徴量が、0.0乃至1.0の範囲内の連続した数値で表される楽曲のスピード感である場合、例えば、ピアソンの相関係数の絶対値が遺伝子の評価値として用いられる。具体的には、同じ時間における教師データのラベルの値を変数Ｘとし、連続特徴量の値を変数Ｙとした場合、変数Xと変数Yとの間の相関係数ｒは、次の式（１）により求められる。

連続データから抽出した連続特徴量の値と、教師データのラベルに示される連続データの特徴量の値との相関が弱いほど、相関係数ｒは0または0に近い値となり、相関が強いほど、相関係数ｒは1.0もしくは1.0に近い値、または、-1.0もしくは-1.0に近い値となる。すなわち、評価対象の遺伝子に示されるフィルタの組み合わせに基づいて抽出される連続特徴量を用いて、連続データの特徴量を推定した場合の特徴量の精度は、相関係数ｒの値が1.0または-1.0に近いほど高く、相関係数ｒの値が0.0に近いほど低くなる可能性が高い。

また、教師データのラベルの値、すなわち、連続データの特徴を示す特徴量が所定のクラスに分類される場合、例えば、ターゲット特徴量が、上述した例のように会話か音楽に分類されたり、ボーカルがいるまたはいないなどに分類される場合、例えば、フィッシャーの分散分析（FDR（Fisher Discriminant Ratio）が評価値として用いられる。

例えば、ターゲット特徴量が２つのクラスに分類される場合、換言すれば、ターゲット特徴量が２値で表される場合、評価対象の遺伝子により抽出された連続特徴量の値を、同じ時間における教師データのラベルの値により２つの集合に分類し、一方の集合Ｘ、もう一方の集合Ｙとしたとき、FDRは、以下の式（２）により求められる。

評価対象の遺伝子により抽出した連続特徴量の値と属する集合との相関が弱いほど、すなわち、評価対象の遺伝子により抽出した連続特徴量の値と教師データのラベルに示される特徴量との相関が弱いほど、FDRの値は小さくなり、評価対象の遺伝子により抽出した連続特徴量の値と属する集合との相関が強いほど、すなわち、評価対象の遺伝子により抽出した連続特徴量の値と教師データのラベルに示される特徴量との相関が強いほど、FDRの値は大きくなる。すなわち、評価対象の遺伝子に示されるフィルタの組み合わせに基づいて抽出される連続特徴量を用いて、連続データの特徴量を推定した場合の特徴量の精度は、FDRの値が大きいほど高く、FDRの値が小さいほど低くなる可能性が高い。

なお、上述した遺伝子の評価値の算出方法はその一例であり、上述した算出方法に限定されるものではなく、遺伝子により抽出される連続特徴量、および、教師データのラベルに示される特徴量の性質などに応じた適切な方法を用いることが望ましい。

また、連続特徴量のサンプル数が多くて、計算量が多くなる場合、必要に応じて、連続特徴量のサンプルを間引いて、評価値を算出するようにしてもよい。

ステップＳ１０７において、評価部１４２は、全ての遺伝子を評価したかを判定する。まだ全ての遺伝子を評価していないと判定された場合、処理はステップＳ１０２に戻り、ステップＳ１０７において、全ての遺伝子を評価したと判定されるまで、ステップＳ１０２乃至Ｓ１０７の処理が繰り返し実行される。

ステップＳ１０７において、全ての遺伝子を評価したと判定された場合、いまの場合、第１世代の全ての遺伝子の評価が終了した場合、処理はステップＳ１０８に進む。

ステップＳ１０８において、評価部１４２は、過去の世代の遺伝子と現在の世代の遺伝子の評価値を比較する。いまの場合、第１世代の遺伝子の評価が行われており、過去の世代の遺伝子の評価値が記憶されていないため、評価部１４２は、第１世代の遺伝子の評価値の最大値を、現時点の遺伝子の評価値として記憶する。

ステップＳ１０９において、評価部１４２は、評価値が所定の世代の間更新されていないか否かを判定する。いまの場合、直前のステップＳ１０８において、評価値が更新されているので、処理はステップＳ１１０に進む。

ステップＳ１１０において、選択部１５１は、遺伝子を選択する。具体的には、評価部１４２は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を示す情報を選択部１５１に供給する。選択部１５１は、評価値が高いものから順に所定の数の遺伝子を選択し、選択した遺伝子を次の世代の遺伝子として遺伝子評価部１２２に供給する。

ステップＳ１１１において、交差部１５２は、遺伝子を交差させる。具体的には、評価部１４２は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を示す情報を交差部１５２に供給する。交差部１５２は、評価値が所定の値以上の遺伝子の中から２つの遺伝子をランダムに選択し、選択した遺伝子間でフィルタの交換を行い、各遺伝子のフィルタを組み替えることにより、２つの遺伝子を交差させる。交差部１５２は、所定の数の遺伝子を交差させ、交差させた遺伝子を、次の世代の遺伝子として遺伝子評価部１２２に供給する。

ステップＳ１１２において、突然変異部１５３は、遺伝子を突然変異させる。具体的には、評価部１４２は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を示す情報を突然変異部１５３に供給する。突然変異部１５３は、評価値が所定の値以上の遺伝子の中から所定の数の遺伝子をランダムに選択し、選択した遺伝子のフィルタの一部をランダムに変形することにより、遺伝子を突然変異させる。突然変異部１５３は、突然変異させた遺伝子を、次の世代の遺伝子として遺伝子評価部１２２に供給する。

ステップＳ１１３において、ランダム生成部１５４は、遺伝子をランダムに生成する。具体的には、評価部１４２は、所定の数の遺伝子の生成をランダム生成部１５４に指示する。ランダム生成部１５４は、第１世代遺伝子生成部１２１と同様の処理により、所定の数の遺伝子をランダムに生成する。ランダム生成部１５４は、生成した遺伝子を、次の世代の遺伝子として遺伝子評価部１２２に供給する。

その後、処理はステップＳ１０２に戻り、ステップＳ１０７において、全ての遺伝子を評価したと判定されるまで、ステップＳ１０２乃至Ｓ１０７の処理が繰り返され、第２世代の遺伝子の評価が行われる。

ステップＳ１０７において、全ての遺伝子を評価したと判定された場合、すなわち、第２世代の全ての遺伝子の評価が終了した場合、処理はステップＳ１０８に進む。

ステップＳ１０８において、いまの場合、評価部１４２は、記憶している１世代前における遺伝子の評価値、すなわち、第１世代における遺伝子の評価値と、第２世代の遺伝子の評価値の最大値を比較する。評価部１４２は、第２世代の遺伝子の評価値の最大値の方が第１世代における遺伝子の評価値より大きい場合、現時点の遺伝子の評価値を第２世代の遺伝子の評価値の最大値に更新し、第２世代の遺伝子の評価値の最大値が第１世代における遺伝子の評価値以下である場合、遺伝子の評価値を更新せず、そのまま現時点の遺伝子の評価値とする。

その後、ステップＳ１０９において、評価値が所定の世代の間更新されていないと判定されるまで、ステップＳ１０２乃至Ｓ１１３の処理が繰り返し実行される。すなわち、遺伝子の評価値が所定の世代にわたって更新されなくなるまで、新たな世代の遺伝子が生成され、生成された遺伝子が評価され、１世代前における遺伝子の評価値と、新たな世代の遺伝子の評価値の最大値とが比較され、新たな世代の遺伝子の評価値の最大値の方が大きい場合、遺伝子の評価値を更新する処理が繰り返される。

ステップＳ１０９において、評価値が所定の世代の間更新されていないと判定された場合、すなわち、遺伝子の評価値が安定し、遺伝子の進化が収束したと判定された場合、処理はステップＳ１１４に進む。

なお、ステップＳ１０９において、現在の世代の遺伝子の評価値の最大値が所定の閾値以上であるか否かを判定するようにしてもよい。この場合、ステップＳ１０９において、現在の世代の遺伝子の評価値の最大値が所定の閾値未満であると判定された場合、すなわち、現在の世代の遺伝子に示されるフィルタの組み合わせを用いて推定される特徴量の精度が所望の値に達していないと判定された場合、処理はステップＳ１１０に進み、現在の世代の遺伝子の評価値の最大値が所定の閾値以上であると判定された場合、すなわち、現在の世代の遺伝子に示されるフィルタの組み合わせを用いて推定される特徴量の精度が所望の値に達していると判定された場合、処理はステップＳ１１４に進む。

ステップＳ１１４において、選択部１５１は、連続特徴量抽出アルゴリズムに用いる遺伝子を選択し、アルゴリズム構築処理は終了する。具体的には、評価部１４２は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を選択部１５１に供給する。選択部１５１は、評価値が高い方から１つ以上の所定の数の遺伝子を選択し、選択した遺伝子により示されるフィルタの組み合わせを連続特徴量抽出アルゴリズムとして出力する。

なお、ステップＳ１１４において、評価値が所定の閾値以上となる遺伝子を全て選択し、選択した遺伝子により示されるフィルタの組み合わせを連続特徴量抽出アルゴリズムとして出力するようにしてもよい。

このようにして、図２の情報処理装置１１または図９の情報処理装置５１において用いられる、連続データから連続特徴量を抽出する連続特徴量抽出アルゴリズムが構築される。

このように、連続特徴量抽出アルゴリズムを、ＧＡまたはＧＰを用いて自動構築することにより、人手により構築する場合と比較して、より多くのフィルタの組み合わせの中から、ターゲット特徴量の推定により適した連続特徴量を抽出するフィルタの組み合わせを求めることができ、ターゲット特徴量の推定精度の向上が期待できる。

なお、図２の情報処理装置１１または図９の情報処理装置５１においては、連続特徴量を抽出する連続特徴量抽出アルゴリズムを、全てアルゴリズム構築部１０１を用いて構築するようにしてもよいし、全て人手により構築するようにしてもよいし、または、アルゴリズム構築部１０１により構築した特徴量抽出アルゴリズムと人手により構築した特徴量抽出アルゴリズムとを並列して用いるようにしてもよい。

なお、以上において、音声データまたは動画像の画像データなどの連続データを処理する情報処理装置を例に説明したが、本発明は、音声データまたは動画像の画像データを記録し再生する記録再生装置、音声データまたは動画像の画像データを記録する記録装置、音声データまたは動画像の画像データを再生する再生装置などに適用できる。より具体的には、本発明は、光ディスクのドライブまたはハードディスクを内蔵するレコーダプレーヤや、半導体メモリを内蔵する携帯型のレコーダまたはプレーヤや、デジタルビデオカメラや、携帯電話機などに適用することができる。

また、ターゲット特徴量は、音楽や会話など最終的に求めたい特徴を示すと説明したが、音楽である確率や会話である確率など、最終的に求めたい特徴である確率を示す値であってもよい。

このように、学習によってターゲット特徴量抽出式を生成し、ターゲット特徴量抽出式による演算を適用するようにした場合には、データの特徴を抽出することができる。また、時間的に連続する音声データを、所定の周波数帯域毎に時間的に連続して解析し、解析の結果から時間的に連続する特徴量である連続特徴量を抽出し、連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された連続特徴量の部分から、期間毎に、期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、区間特徴量から、期間毎に、期間全体の音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定するようにした場合には、簡単かつ迅速に、特徴を抽出することができる。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２６は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）２０１は、ROM（Read Only Memory）２０２、または記憶部２０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）２０３には、CPU２０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU２０１、ROM２０２、およびRAM２０３は、バス２０４により相互に接続されている。

CPU２０１にはまた、バス２０４を介して入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７が接続されている。CPU２０１は、入力部２０６から入力される指令に対応して各種の処理を実行する。そして、CPU２０１は、処理の結果を出力部２０７に出力する。

入出力インタフェース２０５に接続されている記憶部２０８は、例えばハードディスクからなり、CPU２０１が実行するプログラムや各種のデータを記憶する。通信部２０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部２０９を介してプログラムを取得し、記憶部２０８に記憶してもよい。

入出力インタフェース２０５に接続されているドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部２０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図２６に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)、光磁気ディスクを含む）、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１、または、プログラムが一時的もしくは永続的に格納されるROM２０２や、記憶部２０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部２０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

連続データのある長さ毎の特徴の取得について説明する図である。本発明の一実施の形態の情報処理装置の構成を示すブロック図である。ターゲット特徴量の抽出の処理を説明するフローチャートである。連続特徴量の抽出を説明する図である。連続特徴量の切り出しを説明する図である。区間特徴量の抽出を説明する図である。ターゲット特徴量の推定を説明する図である。音声データの単位時間毎の音楽であるか会話であるかの判別について説明する図である。本発明の一実施の形態の情報処理装置の他の構成を示すブロック図である。音声データへのラベル付与の処理を説明するフローチャートである。時間−音程データを説明する図である。時間−音程データからの連続音楽特徴量の抽出を説明する図である。連続音楽特徴量の切り出しを説明する図である。区間特徴量の抽出を説明する図である。フレームについての音楽であるか会話であるかの判別を説明する図である。フレーム毎音楽／会話判別結果の平滑化を説明する図である。ラベルが付加された音声データの例を示す図である。アルゴリズム構築部の処理の概要を説明するための図である。アルゴリズム構築部の処理の概要を説明するための図である。アルゴリズム構築部の処理の概要を説明するための図である。アルゴリズム構築部の機能的構成を示すブロック図である。アルゴリズム構築処理を説明するフローチャートである。アルゴリズム構築処理の説明に用いる例を説明するための図である。遺伝子の実行について説明するための図である。遺伝子の評価について説明するための図である。パーソナルコンピュータの構成の例を示すブロック図である。

符号の説明

１１情報処理装置，３１連続特徴量抽出部，３２連続特徴量切り出し部，３３区間特徴量抽出部，３４ターゲット特徴量推定部，５１情報処理装置，８１時間−音程解析部，８２連続音楽特徴量抽出部，８３フレーム切り出し部，８４区間特徴量抽出部，８５音楽／会話判別部，８６データ平滑部，８７音声保存部，１０１アルゴリズム構築部，１２１第１世代遺伝子生成部，１２２遺伝子評価部，１２３第２世代以降遺伝子生成部，１４１実行部，１４２評価部，１４３教師データ記憶部，１５１選択部，１５２交差部，１５３突然変異部，１５４ランダム生成部，２０１ CPU，２０２ ROM，２０３ RAM，２０８記憶部，２１１リムーバブルメディア

Claims

時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築するアルゴリズム構築手段と、
構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出する連続特徴量抽出手段と、
前記連続特徴量から、予め定めた長さの期間の部分を切り出す切り出し手段と、
切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する区間特徴量抽出手段と、
前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定するターゲット特徴量推定手段と
を備える情報処理装置。
前記ターゲット特徴量推定手段は、時間的に連続する音声データと、期間のそれぞれについての期間全体の音声データの１つの正しい特徴を示す特徴量とからなる教師データを用いた学習により予め作成される
請求項１に記載の情報処理装置。
前記ターゲット特徴量推定手段は、前記音声データの特徴として、音楽であるか会話であるか示す前記ターゲット特徴量を推定する
請求項１に記載の情報処理装置。
移動平均を求めることにより、前記ターゲット特徴量を平滑化する平滑化手段をさらに備える
請求項１に記載の情報処理装置。
推定された前記ターゲット特徴量で示される特徴を表す第２のラベルを前記音声データに付加して、前記第２のラベルが付加された前記音声データを保存する保存手段をさらに備える
請求項１に記載の情報処理装置。
情報処理装置が、
時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、
構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、
前記連続特徴量から、予め定めた長さの期間の部分を切り出し、
切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、
前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定する
ステップを含む情報処理方法。
時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、
構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、
前記連続特徴量から、予め定めた長さの期間の部分を切り出し、
切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、
前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定する
ステップを含む処理をコンピュータに実行させるためのプログラム。
時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第１のラベルとからなる教師データに基づいて、前記学習用音声データから前記第１のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP（Genetic Programming）を用いて探索し、前記音声データを、それぞれのオクターブが１２平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける１２平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、
構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、
前記連続特徴量から、予め定めた長さの期間の部分を切り出し、
切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて１つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、
前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの１つの特徴を示す特徴量であるターゲット特徴量を推定する
ステップを含む処理をコンピュータに実行させるためのプログラムが記録されている記録媒体。