JP5007714B2 - 情報処理装置および方法、プログラム、並びに記録媒体 - Google Patents

情報処理装置および方法、プログラム、並びに記録媒体 Download PDF

Info

Publication number
JP5007714B2
JP5007714B2 JP2008279177A JP2008279177A JP5007714B2 JP 5007714 B2 JP5007714 B2 JP 5007714B2 JP 2008279177 A JP2008279177 A JP 2008279177A JP 2008279177 A JP2008279177 A JP 2008279177A JP 5007714 B2 JP5007714 B2 JP 5007714B2
Authority
JP
Japan
Prior art keywords
continuous
data
feature
feature amount
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008279177A
Other languages
English (en)
Other versions
JP2009058970A (ja
Inventor
由幸 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008279177A priority Critical patent/JP5007714B2/ja
Publication of JP2009058970A publication Critical patent/JP2009058970A/ja
Application granted granted Critical
Publication of JP5007714B2 publication Critical patent/JP5007714B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、データの特徴を抽出できるようにした情報処理装置および方法、プログラム、並びに記録媒体に関する。
データに所定の情報処理を適用することにより、その特徴を示す特徴量を抽出することが広く行われている。時間的に連続するデータの所定の区間の特徴を示す特徴量が抽出されることもある。
従来、音声認識処理の結果を利用する情報処理が実行されているときに、実行の対象となる音声認識処理を切り替え、切り替えられた音声認識処理に応じて音声認識環境の設定を切り替え、その後、切り替えられた音声認識環境の設定に従って、切り替えられた音声認識処理を実行するようにしているものもある(例えば、特許文献1参照)。
特開2005−195834号公報
しかしながら、データを区間毎に予め分割し、その区間の中だけで特徴を抽出するようにすると、それ以前の区間の現在の区間に与える影響を考慮することが難しかった。
最終的に求めようとする特徴量の解像度を上げようとすると、データを分割する際のオーバーラップを大きくする必要が生じ、解像度の高さに比例して処理量が増大してしまう。
また、データがリアルタイムに入力される場合、データが一定以上溜まる毎に処理を行うようにしていたので、データから特徴を抽出するアルゴリズムが複雑になればなるほど、データが入力されてから最終的に求めようとする特徴量が出力されるまでのタイムラグが大きくなる。
すなわち、データが入力されてから最終的に求めようとする特徴量が出力されるまでのタイムラグ(レイテンシ)は、区間分のデータが入力される時間と、そのデータが処理される時間との和で求められ、データから特徴を抽出するアルゴリズムが複雑になると、そのデータが処理される時間が長くなってしまい、タイムラグ(レイテンシ)が長くなる。
さらに、連続量を示すデータからそのまま特徴抽出するようにした場合、特徴抽出機のパラメータ学習のために専用のモデルの設計や、多くの教師データが必要とされ、汎用の特徴抽出機を利用したり、少ない教師データによって効率的に学習することはできなかった。
本発明は、このような状況に鑑みてなされたものであり、簡単かつ迅速に、特徴を抽出することができるようにするものである。
本発明の一側面の情報処理装置は、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築するアルゴリズム構築手段と、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出する連続特徴量抽出手段と、前記連続特徴量から、予め定めた長さの期間の部分を切り出す切り出し手段と、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する区間特徴量抽出手段と、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定するターゲット特徴量推定手段とを備える。
前記ターゲット特徴量推定手段は、時間的に連続する音声データと、期間のそれぞれについての期間全体の音声データの1つの正しい特徴を示す特徴量とからなる教師データを用いた学習により予め作成される。
前記ターゲット特徴量推定手段には、前記音声データの特徴として、音楽であるか会話であるか示す前記ターゲット特徴量を推定させることができる。
移動平均を求めることにより、前記ターゲット特徴量を平滑化する平滑化手段をさらに設けることができる。
推定された前記ターゲット特徴量で示される特徴を表す第2のラベルを前記音声データに付加して、前記第2のラベルが付加された前記音声データを保存する保存手段をさらに設けることができる。
本発明の一側面の情報処理方法は、情報処理装置が、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、前記連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定するステップを含む。
本発明の一側面のプログラムは、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、前記連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定するステップを含む処理をコンピュータに実行させる。
本発明の一側面の記録媒体のプログラムは、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、前記連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定するステップを含む処理をコンピュータに実行させる。
本発明の一側面においては、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせGP(Genetic Programming)を用いて探索され、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムが自動構築され、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量が抽出され、前記連続特徴量から、予め定めた長さの期間の部分が切り出され、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量が抽出され、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量が推定される。
以上のように、本発明の一側面によれば、特徴を抽出することができる。
また、本発明の一側面によれば、簡単かつ迅速に、特徴を抽出することができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、発明の詳細な説明に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、発明の詳細な説明に記載されていることを確認するためのものである。従って、発明の詳細な説明中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面の情報処理装置は、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築するアルゴリズム構築手段(例えば、図18のアルゴリズム構築部101)と、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出する連続特徴量抽出手段(例えば、図9の時間−音程解析部81および連続音楽特徴量抽出部82)と、前記連続特徴量から、予め定めた長さの期間の部分を切り出す切り出し手段(例えば、図9のフレーム切り出し部83)と、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する区間特徴量抽出手段(例えば、図9の区間特徴量抽出部84)と、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定するターゲット特徴量推定手段(例えば、図9の音楽/会話判別部85)とを備える。
移動平均を求めることにより、前記ターゲット特徴量を平滑化する平滑化手段(例えば、図9のデータ平滑部86)をさらに設けることができる。
推定された前記ターゲット特徴量で示される特徴を表す第2のラベルを前記音声データに付加して、前記第2のラベルが付加された前記音声データを保存する保存手段(例えば、図9の音声保存部87)をさらに設けることができる。
本発明の一側面の情報処理方法およびプログラムは、時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し(例えば、図22のステップS101乃至S114)、構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し(例えば、図10のステップS51およびS52)、前記連続特徴量から、予め定めた長さの期間の部分を切り出し(例えば、図10のステップS53)、切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し(例えば、図10のステップS54)、前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定する(例えば、図10のステップS55)ステップを含む。
まず、図1で示されるように、時間的に連続するデータである連続データの入力に対して、自動特徴抽出アルゴリズムを適用することによる、連続データのある長さ毎の特徴の取得について説明する。例えば、波形のデータである時間的に連続して入力される連続データから、その連続データのある長さ毎の、A、B、またはCのいずれかである特徴が取得される。
図2は、本発明の一実施の形態の情報処理装置11の構成を示すブロック図である。連続データのある長さ毎の特徴を抽出する情報処理装置11は、連続特徴量抽出部31、連続特徴量切り出し部32、区間特徴量抽出部33、およびターゲット特徴量推定部34から構成される。
連続特徴量抽出部31は、外部から入力された時間的に連続するデータである連続データを取得して、取得した連続データから、時間的に連続する特徴量である連続特徴量を抽出する。連続特徴量抽出部31は、連続データから、1つ以上の連続特徴量を抽出する。連続特徴量抽出部31は、抽出した連続特徴量を順に連続特徴量切り出し部32に供給する。
すなわち、時間的に連続する特徴量である連続特徴量は、抽出された順に時間的に連続するように連続特徴量切り出し部32に供給される。
連続特徴量切り出し部32は、連続特徴量抽出部31から供給された連続特徴量から、予め定めた長さの期間の部分を切り出す。すなわち、連続特徴量切り出し部32は、所定の長さ毎に切り出された1つ以上の連続特徴量である切り出し連続特徴量を生成する。連続特徴量切り出し部32は、連続特徴量の切り出した部分からなる切り出し連続特徴量をその切り出された順に区間特徴量抽出部33に供給する。
区間特徴量抽出部33は、連続特徴量切り出し部32において切り出された連続特徴量の部分から、期間毎に、期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する。区間特徴量抽出部33は、期間毎、すなわち区間毎に1つ以上の区間特徴量を抽出する。区間特徴量抽出部33は、抽出した区間特徴量を抽出の順にターゲット特徴量推定部34に供給する。
ターゲット特徴量推定部34は、所定の長さの期間(区間)毎に、最終的に求めたい特徴量であるターゲット特徴量を推定する。すなわち、ターゲット特徴量推定部34は、区間特徴量抽出部33において抽出された区間特徴量から、期間毎に、期間全体のデータの1つの特徴を示す特徴量であるターゲット特徴量を推定する。ターゲット特徴量推定部34は、推定により得られたターゲット特徴量を出力する。
次に、図3のフローチャートを参照して、情報処理装置11によるターゲット特徴量の抽出の処理を説明する。ステップS11において、連続特徴量抽出部31は、外部から入力された時間的に連続するデータである連続データから、連続的に変化する連続特徴量を1つ以上抽出する。
例えば、図4で示されるように、連続特徴量抽出部31は、連続データから、時間的に連続的に変化する、連続特徴量1、連続特徴量2、および連続特徴量3などの3つの連続特徴量を抽出する。
より具体的には、連続データが音声データである場合、連続特徴量抽出部31は、音声データである連続データから、各時刻における音量を示す連続特徴量1を抽出し、各時刻における12平均律の音程の所定の高さの音(例えば、いわゆる、ド、レ、またはミのいずれかの音)の数を示す連続特徴量2を抽出し、各時刻における右チャンネルの信号と左チャンネルの信号とのバランスを示す連続特徴量3を抽出する。
また、例えば、連続データが動画像の画像データである場合、連続特徴量抽出部31は、動画像の画像データである連続データから、各時刻における動画像の明るさを示す連続特徴量1を抽出し、各時刻における動きの量を示す連続特徴量2を抽出し、各時刻における動画像の色を示す連続特徴量3を抽出する。
連続特徴量抽出部31は、抽出した連続特徴量を抽出の順に連続特徴量切り出し部32に順次供給する。
ステップS12において、連続特徴量切り出し部32は、1つ以上の連続特徴量のそれぞれを、予め決めてある所定の長さ毎に切り出す。
例えば、図5で示されるように、連続特徴量切り出し部32は、連続特徴量1、連続特徴量2、連続特徴量3などの連続特徴量のそれぞれを、予め決めてある長さである、図5中の縦線で示される時刻とこれに隣接する縦線で示される時刻との間の期間の長さ毎に分割して、分割されたそれぞれの部分毎に、連続特徴量1、連続特徴量2、連続特徴量3などの連続特徴量を切り出す。
なお、複数の連続特徴量を切り出す場合、その切り出す時刻と期間の長さとは、同じとされる。
また、ここに言う長さは、時間でもよく、連続データのデータ量でもよく、また、連続データにおける所定の単位(例えば、フレームなど)を基にしたものとすることができる。
なお、連続特徴量切り出し部32は、それぞれの連続特徴量を、オーバーラップさせた所定の長さ毎に切り出すようにしてもよい。
より具体的には、例えば、連続特徴量切り出し部32は、音声データである連続データから抽出された、各時刻における音量を示す連続特徴量1、各時刻における12平均律の音程の所定の高さの音の数を示す連続特徴量2、および各時刻における右チャンネルの信号と左チャンネルの信号とのバランスを示す連続特徴量3を、音声データによる音声の、5秒、10秒、または15秒のいずれかの長さ毎に切り出す。
また、例えば、連続特徴量切り出し部32は、動画像の画像データである連続データから抽出された、各時刻における動画像の明るさを示す連続特徴量1、各時刻における動きの量を示す連続特徴量2、および各時刻における動画像の色を示す連続特徴量3を、30フレーム、150フレーム、または300フレームのいずれかの長さ毎に切り出す。
連続特徴量切り出し部32は、連続特徴量から切り出して得られた切り出し連続特徴量を切り出しの順に区間特徴量抽出部33に供給する。
ステップS13において、区間特徴量抽出部33は、所定の長さ毎に切り出された1つ以上の連続特徴量を基に、1つの区間について1つのスカラまたはベクトルで表される区間特徴量を、切り出された区間毎に1つ以上抽出する。
例えば、区間特徴量抽出部33は、所定の長さの区間毎に、切り出された切り出し連続特徴量のそれぞれに、1つ以上の所定の処理を適用することにより、各連続特徴量から、1つ以上のスカラまたはベクトルのいずれかで表される特徴量である区間特徴量を抽出する。
1つの区間特徴量は、1つの区間についての特徴を、1つのスカラで表すか、または1つのベクトルで表す。
例えば、図6で示されるように、区間特徴量抽出部33は、音声データである連続データから抽出され、最初の区間から切り出された、各時刻における音量を示す連続特徴量1のその区間における平均値を求めることによって、0.2である最初の区間の区間特徴量を抽出する。同様に、区間特徴量抽出部33は、音声データである連続データから抽出され、2番目の区間および3番目の区間から切り出された、各時刻における音量を示す連続特徴量1のそれぞれの区間のおける平均値を求めることによって、-0.05である2番目の区間の区間特徴量および0.05である3番目の区間の区間特徴量をそれぞれ抽出する。
また、区間特徴量抽出部33は、音声データである連続データから抽出され、最初の区間乃至3番目の区間から切り出された、各時刻における音量を示す連続特徴量1のそれぞれの区間における分散を求めることによって、0.2である最初の区間の区間特徴量、0.15である2番目の区間の区間特徴量、および0.1である3番目の区間の区間特徴量をそれぞれ抽出する。
さらに、区間特徴量抽出部33は、音声データである連続データから抽出され、最初の区間乃至3番目の区間から切り出された、各時刻における音量を示す連続特徴量1のそれぞれの区間における勾配を求めることによって、0.3である最初の区間の区間特徴量、-0.2である2番目の区間の区間特徴量、および0.0である3番目の区間の区間特徴量をそれぞれ抽出する。
区間特徴量抽出部33は、4番目以降の区間について、同様に、連続特徴量1のそれぞれの区間における、平均、分散、または勾配を示す区間特徴量をそれぞれ抽出する。
さらにまた、区間特徴量抽出部33は、音声データである連続データから抽出され、それぞれの区間から切り出された、各時刻における12平均律の音程の所定の高さの音の数を示す連続特徴量2、および各時刻における右チャンネルの信号と左チャンネルの信号とのバランスを示す連続特徴量3のそれぞれの、それぞれの区間における、平均、分散、または勾配などである区間特徴量を抽出する。
例えば、連続データが動画像の画像データである場合、区間特徴量抽出部33は、各時刻における動画像の明るさを示す連続特徴量1、各時刻における動きの量を示す連続特徴量2、および各時刻における動画像の色を示す連続特徴量3のそれぞれの、それぞれの区間における、平均、分散、または勾配などである区間特徴量を抽出する。
ステップS14において、ターゲット特徴量推定部34は、区間特徴量から、区間毎にターゲット特徴量を推定して、処理は終了する。
すなわち、ステップS14において、ターゲット特徴量推定部34は、ステップS13において抽出された区間特徴量から、区間毎に、最終的に抽出しようとする特徴量であるターゲット特徴量を推定する。例えば、図7で示されるように、区間毎に、区間特徴量1乃至区間特徴量7などである区間特徴量が抽出された場合、ターゲット特徴量推定部34は、所定の1つの区間について、0.2である区間特徴量1、0.2である区間特徴量2、0.3である区間特徴量3、-0.5である区間特徴量4、1.23である区間特徴量5、0.42である区間特徴量6、および0.11である区間特徴量7などが抽出されたとき、この区間特徴量1乃至区間特徴量7などから、この区間のターゲット特徴量を推定する。
例えば、ターゲット特徴量は、連続データが音声データである場合、ボーカルの有無、所定の楽器の演奏の有無、ノイズであるか否かなどを示す。
また、例えば、ターゲット特徴量は、連続データが動画像の画像データである場合、人物の有無、所定の被写体の有無、被写体が所定の動作をしているか否か(例えば、ダンスしているか否か)などを示す。
このように、ステップS14において、ターゲット特徴量推定部34は、区間特徴量から、期間毎に、期間全体のデータの1つの特徴を示す特徴量であるターゲット特徴量を推定する。
すなわち、ターゲット特徴量推定部34は、区間毎の区間特徴量に、所定の処理を適用することによって、区間毎のターゲット特徴量を推定する。
例えば、ターゲット特徴量推定部34は、区間毎の区間特徴量と、区間のそれぞれについての期間全体のデータの1つの正しい特徴を示すターゲット特徴量とからなる教師データを用いた学習により予め作成される。すなわち、ターゲット特徴量推定部34は、区間毎の区間特徴量が抽出される、時間的に連続する連続データと、区間のそれぞれについての区間全体のデータの1つの正しい特徴を示すターゲット特徴量とからなる教師データを用いた学習により予め作成される。
例えば、ターゲット特徴量推定部34は、Regression(回帰解析)、Classify(クラス分類)、SVM(Support Vector Machine)、およびGP(Genetic Programming)などにより、教師データから機械学習で作成される。
このように、連続データにおける所定の期間である区間全体の連続データの特徴を抽出することができる。
時間的に連続する連続データから、時間的に連続する連続特徴量を抽出し、連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された連続特徴量の部分から、期間毎に、期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、区間特徴量から、区間毎すなわち期間毎に、期間全体の連続データの1つの特徴を示す特徴量であるターゲット特徴量を推定するようにしたので、簡単かつ迅速に、それぞれの期間の特徴を抽出することができる。
次に、より具体的な、本発明の一実施の形態について説明する。
図8で示されるように、時間的に連続するデータである音声データの入力に対して、自動音楽/会話判別アルゴリズムを適用することによる、単位時間毎に音楽であるか会話であるかを判別し、単位時間毎の音楽であるか会話であるかの判別の結果を出力する場合について説明する。
例えば、音声の波形を示す波形データである音声データに対して、その音声データによる音声のある長さの単位時間毎に、会話(Talk)、会話(Talk)、会話(Talk)、会話(Talk)、音楽(Music)、音楽(Music)、音楽(Music)、音楽(Music)、音楽(Music)、音楽(Music)である判別の結果が出力される。
図9は、本発明の一実施の形態の情報処理装置51の構成を示すブロック図である。入力された音声データに対して、単位時間毎に音楽であるか会話であるかを判別する情報処理装置51は、時間−音程解析部81、連続音楽特徴量抽出部82、フレーム切り出し部83、区間特徴量抽出部84、音楽/会話判別部85、データ平滑部86、および音声保存部87から構成される。
時間−音程解析部81は、時間的に連続する音声データを、所定の周波数帯域毎に時間的に連続して解析する。例えば、時間−音程解析部81は、時間的に連続する音声データを、それぞれのオクターブが12平均律の音程で区切られた音の高さと時間との2軸で解析する。時間−音程解析部81は、解析の結果得られた、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する時間−音程データを連続音楽特徴量抽出部82に解析の順に供給する。時間的に連続する時間−音程データは、連続音楽特徴量抽出部82における解析の順に、時間的に連続するように連続音楽特徴量抽出部82に供給される。
連続音楽特徴量抽出部82は、時間−音程解析部81から供給された、時間的に連続する連続データである時間−音程データから、時間的に連続する特徴量である連続音楽特徴量を抽出する。連続音楽特徴量抽出部82は、抽出された連続音楽特徴量をフレーム切り出し部83に抽出の順に供給する。時間的に連続する特徴量である連続音楽特徴量は、抽出された順に時間的に連続するようにフレーム切り出し部83に供給される。
フレーム切り出し部83は、連続音楽特徴量抽出部82から供給された連続音楽特徴量から、予め定めた長さの期間であるフレーム毎に、連続音楽特徴量の部分を切り出す。フレーム切り出し部83は、フレーム毎に切り出された連続音楽特徴量を、フレーム毎連続音楽特徴量として区間特徴量抽出部84に切り出した順に供給する。
区間特徴量抽出部84は、フレーム毎連続音楽特徴量から、フレーム毎に、フレームのそれぞれについて1つのスカラまたはベクトルでそれぞれ表される特徴量である区間特徴量を抽出する。区間特徴量抽出部84は、抽出した区間特徴量を音楽/会話判別部85に抽出の順に供給する。
音楽/会話判別部85は、区間特徴量抽出部84において抽出された区間特徴量から、フレーム毎に、音声データにおけるフレームの特徴であって、音楽であるか会話であるかの特徴を示すターゲット特徴量を推定する。すなわち、音楽/会話判別部85は、フレームである期間毎に、それぞれの期間全体の音声データの1つの特徴として、音楽であるか会話であるか示すターゲット特徴量を推定する。
音楽/会話判別部85は、推定の結果得られた、フレーム毎に音楽であるか会話であるかの特徴を示すフレーム毎音楽/会話判別結果をデータ平滑部86に供給する。
データ平滑部86は、音楽/会話判別部85から供給されたフレーム毎音楽/会話判別結果について移動平均を求めることにより、ターゲット特徴量を平滑化する。データ平滑部86は、平滑化の結果得られた、連続音楽/会話判別結果を音声保存部87に供給する。
音声保存部87は、データ平滑部86から供給された、連続音楽/会話判別結果に応じた、音楽であるか会話であるか示すラベルを生成して、生成したラベルを音声データに付与する。そして、音声保存部87は、ラベルが付与された音声データであるラベル付与済み音声データを図示せぬ記録媒体などに保存する。
すなわち、音声保存部87は、推定されたターゲット特徴量で示される特徴を表すラベルを音声データに付加して、ラベルが付加された音声データを保存する。
なお、音声保存部87は、ネットワークを介して接続されている図示せぬサーバなどに、ラベルが付加された音声データを記録させることにより、ラベルが付加された音声データを保存するようにしてもよい。
図10は、音声データへのラベル付与の処理を説明するフローチャートである。ステップS51において、時間−音程解析部81は、時間的に連続する音声データの波形を、時間と1オクターブを12音に区切った音程との2軸で解析し、時間−音程データを生成する。
例えば、図11で示されるように、ステップS51において、時間−音程解析部81は、音声データを、複数のオクターブの成分に分けて、さらにそれぞれのオクターブにおける12平均律のそれぞれの高さの12の音のエネルギを求めることで、時間と1オクターブを12音に区切った音程との2軸で解析し、時間−音程データを生成する。
さらに詳細には、例えば、音声データがステレオのデータである場合、時間−音程解析部81は、音声データの右チャンネルのデータおよび左チャンネルのデータのそれぞれについて、複数のオクターブのそれぞれにおける12平均律のそれぞれの高さの12の音のエネルギを求めて、それぞれのオクターブのそれぞれの音毎に、左チャンネルのデータから求めたエネルギと右チャンネルのデータから求めたエネルギとを加算することで、時間−音程データを生成する。
このように、時間−音程解析部81は、時間的に連続するデータである時間−音程データを生成する。時間−音程解析部81は、生成した時間−音程データを、生成の順に連続音楽特徴量抽出部82に供給する。
ステップS52において、連続音楽特徴量抽出部82は、時間−音程データからいくつかの連続音楽特徴量を抽出する。
例えば、ステップS52において、連続音楽特徴量抽出部82は、それぞれのオクターブにおける12の音のそれぞれのエネルギを示す時間−音程データから、時間的に連続的に変化する、連続音楽特徴量1、連続音楽特徴量2、および連続音楽特徴量3などの連続音楽特徴量を抽出する。例えば、図12で示されるように、連続音楽特徴量抽出部82は、それぞれのオクターブにおける12の音のそれぞれのエネルギを示す時間−音程データから、各時刻における音域毎のレベル比を示す連続音楽特徴量1を抽出し、各時刻における右チャンネルと左チャンネルとのエネルギまたはレベルの差を示す連続音楽特徴量2を抽出し、アタック、ディケイ、サスティン、およびリリースなどのエンベロープのパラメータを示す連続音楽特徴量3を抽出する。または、例えば、連続音楽特徴量抽出部82は、それぞれのオクターブにおける12の音のそれぞれのエネルギを示す時間−音程データから、各時刻におけるリズムの割合を示す連続音楽特徴量1を抽出し、各時刻における音の数を示す連続音楽特徴量2を抽出し、各時刻における倍音構成を示す連続音楽特徴量3を抽出する。
さらに、連続音楽特徴量抽出部82は、それぞれのオクターブにおける12の音のそれぞれのエネルギを示す時間−音程データから、音の密度や音程の変化などを示す連続音楽特徴量を抽出するようにしてもよい。
連続音楽特徴量抽出部82は、抽出した連続音楽特徴量を抽出の順にフレーム切り出し部83に供給する。
ステップS53において、フレーム切り出し部83は、それぞれの連続音楽特徴量をフレーム毎に分割して、フレーム毎連続音楽特徴量を切り出す。
例えば、図13で示されるように、フレーム切り出し部83は、連続音楽特徴量1、連続音楽特徴量2、連続音楽特徴量3などの連続音楽特徴量のそれぞれを、フレーム毎に分割する。ここで、フレームは、図13中の縦線で示される時刻とこれに隣接する縦線で示される時刻との間の期間であって、予め決めてある長さの期間である。
フレーム切り出し部83は、それぞれのフレーム毎に、連続音楽特徴量1、連続音楽特徴量2、連続音楽特徴量3などの連続音楽特徴量を切り出す。
なお、複数の連続音楽特徴量を切り出す場合、フレームの位置およびその長さは、複数の連続音楽特徴量の間で同じとされる。
フレーム切り出し部83は、それぞれの連続音楽特徴量をフレーム毎に分割して得られたフレーム毎連続音楽特徴量を区間特徴量抽出部84に順に供給する。
ステップS54において、区間特徴量抽出部84は、フレーム毎の、フレーム毎連続音楽特徴量の平均および分散を計算することにより、フレームである区間毎の区間特徴量を抽出する。
区間特徴量抽出部84は、フレーム毎に、フレーム毎連続音楽特徴量のそれぞれに、1つ以上の所定の処理を適用することにより、各フレーム毎連続音楽特徴量から、1つ以上のスカラまたはベクトルで表される特徴量である区間特徴量を抽出する。
例えば、図14で示されるように、区間特徴量抽出部84は、各時刻における音域毎のレベル比を示すフレーム毎連続音楽特徴量1の最初の区間における平均値を求めることによって、最初の区間についての0.2である区間特徴量を抽出する。同様に、区間特徴量抽出部84は、各時刻における音域毎のレベル比を示すフレーム毎連続音楽特徴量1の2番目の区間および3番目の区間のそれぞれにおける平均値を求めることによって、2番目の区間についての-0.05である区間特徴量および3番目の区間についての0.05である区間特徴量をそれぞれ抽出する。
また、区間特徴量抽出部84は、各時刻における音域毎のレベル比を示すフレーム毎連続音楽特徴量1の最初の区間乃至3番目の区間のそれぞれにおける分散を求めることによって、最初の区間についての0.2である区間特徴量、2番目の区間についての0.15である区間特徴量、および3番目の区間についての0.1である区間特徴量をそれぞれ抽出する。
区間特徴量抽出部84は、4番目以降の区間について、同様に、フレーム毎連続音楽特徴量1のそれぞれの区間における、平均または分散を示す区間特徴量をそれぞれ抽出する。
また、例えば、図14で示されるように、区間特徴量抽出部84は、各時刻における右チャンネルと左チャンネルとのエネルギまたはレベルの差を示すフレーム毎連続音楽特徴量2の最初の区間における平均値を求めることによって、最初の区間についての0.1である区間特徴量を抽出する。同様に、区間特徴量抽出部84は、フレーム毎連続音楽特徴量2の2番目の区間および3番目の区間のそれぞれにおける平均値を求めることによって、2番目の区間についての0.4である区間特徴量および3番目の区間についての0.5である区間特徴量をそれぞれ抽出する。
また、区間特徴量抽出部84は、各時刻における右チャンネルと左チャンネルとのエネルギまたはレベルの差を示すフレーム毎連続音楽特徴量2の最初の区間乃至3番目の区間のそれぞれにおける分散を求めることによって、最初の区間についての0.3である区間特徴量、2番目の区間についての-0.2である区間特徴量、および3番目の区間についての0.0である区間特徴量をそれぞれ抽出する。
区間特徴量抽出部84は、4番目以降の区間について、同様に、フレーム毎連続音楽特徴量2のそれぞれの区間における、平均または分散を示す区間特徴量をそれぞれ抽出する。
さらに、区間特徴量抽出部84は、それぞれの区間について、フレーム毎連続音楽特徴量3から、区間特徴量をそれぞれ抽出する。
区間特徴量抽出部84は、このように抽出された区間特徴量を音楽/会話判別部85に供給する。
ステップS55において、音楽/会話判別部85は、区間特徴量から、フレーム毎に音楽であるか会話であるかを判別する。
例えば、音楽/会話判別部85は、入力される1以上の区間特徴量のうちの1以上の区間特徴量に、予め生成されたターゲット特徴量抽出式で示される比較的単純な演算(四則演算、累乗演算など)を適用し、その演算結果として、音楽である確率を示すターゲット特徴量であるフレーム毎音楽/会話判別結果を求める。音楽/会話判別部85は、ターゲット特徴量抽出式を予め有している。
例えば、音楽/会話判別部85は、ターゲット特徴量が音楽である確率を示す場合、所定の区間についてのターゲット特徴量が0.5以上であるとき、その区間が音楽であることを示すフレーム毎音楽/会話判別結果を出力する。また、例えば、音楽/会話判別部85は、ターゲット特徴量が音楽である確率を示す場合、所定の区間についてのターゲット特徴量が0.5未満であるとき、その区間が会話であることを示すフレーム毎音楽/会話判別結果を出力する。
例えば、図15で示されるように、区間毎に、区間特徴量1乃至区間特徴量7などである区間特徴量が抽出された場合、音楽/会話判別部85は、所定の1つのフレームである所定の1つの区間についての、0.2である区間特徴量1、0.2である区間特徴量2、0.3である区間特徴量3、-0.5である区間特徴量4、1.23である区間特徴量5、0.42である区間特徴量6、および0.11である区間特徴量7などから、このフレームが音楽であるか会話であるかを判別する。
例えば、音楽/会話判別部85は、フレーム毎の区間特徴量と、フレーム毎に音楽であるか会話であるかを正しく示すターゲット特徴量とからなる教師データを用いた学習により予め作成される。すなわち、音楽/会話判別部85は、区間毎の区間特徴量が抽出される時間的に連続する音声データと、フレーム毎に音楽であるか会話であるかを正しく示すターゲット特徴量とからなる教師データを用いた、ターゲット特徴量抽出式を算出する学習により予め作成される。
例えば、音楽/会話判別部85に予め格納されているターゲット特徴量抽出式は、時間的に連続する音声データと、フレーム毎に音楽であるか会話であるかを正しく示すターゲット特徴量とからなる教師データから、ジェネティック(Genetic)な学習によって予め生成される。
なお、ターゲット特徴量抽出式を生成するための学習アルゴリズムとしては、例えば、Regression(回帰解析)、Classify(クラス分類)、SVM(Support Vector Machine)、およびGP(Genetic Programming)を用いることができる。
音楽/会話判別部85は、フレーム毎の音楽であるか会話であるかの判別の結果を示すフレーム毎音楽/会話判別結果をデータ平滑部86に供給する。
ステップS56において、データ平滑部86は、フレーム毎の音楽であるか会話であるかの判別の結果を平滑化する。
例えば、データ平滑部86は、フィルタリングにより、フレーム毎の音楽であるか会話であるかの判別の結果を平滑化する。より具体的には、データ平滑部86は、移動平均フィルタとして構成され、ステップS56において、移動平均を求めることにより、フレーム毎音楽/会話判別結果を平滑化する。
図16で示されるように、フレーム毎音楽/会話判別結果によって、21のフレームのそれぞれが、順に、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、音楽(M)、音楽(M)、音楽(M)、会話(T)、音楽(M)、音楽(M)、音楽(M)、会話(T)、音楽(M)、音楽(M)、音楽(M)、音楽(M)であるとされ、13番目のフレームおよび17番目のフレームが、それぞれ、会話(T)とされ、その前後に、それぞれ、音楽(M)とされているフレームが配置されている場合を例に説明する。
フレームの長さを十分に短くすると、会話であるフレームが所定の数以上連続するか、または音楽であるフレームが所定の数以上連続する。すなわち、会話であるフレームの前および後に、音楽であるフレームが配置されることはなく、また、音楽であるフレームの前および後に、会話であるフレームが配置されることはなく、図16の上側で示されるように、21のフレームは、正しくは、順に、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)、音楽(M)である。言い換えれば、図16で示されるフレーム毎音楽/会話判別結果において、13番目のフレームおよび17番目のフレームについて判別の誤りが挿入されている。
データ平滑部86は、移動平均を求めることにより、フレーム毎音楽/会話判別結果を平滑化して、フレーム毎音楽/会話判別結果において、順に、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、会話(T)、音楽(M)、音楽(M)、音楽(M)、会話(T)、音楽(M)、音楽(M)、音楽(M)、会話(T)、音楽(M)、音楽(M)、音楽(M)、音楽(M)であるとされている21のフレームのうちの、13番目のフレームおよび17番目のフレームを、それぞれ、音楽(M)として、正しい判別の結果と同じ判別を示す連続音楽/会話判別結果を求める。
このように、判別結果の平滑化は、誤りのフィルタリングのために有効である。
データ平滑部86は、移動平均を求めることにより、フレーム毎音楽/会話判別結果を平滑化することにより求められた連続音楽/会話判別結果を音声保存部87に供給する。
ステップS57において、音声保存部87は、音楽であるか会話であるかをフレーム毎に示すラベルを音声データに付与して、ラベルが付与された音声データを保存して、処理は終了する。
例えば、図17で示されるように、音声保存部87は、フレームを単位とする区間であって、音声データにおける区間ごとに、音楽であるか会話であるかを示すラベルを音声データに付加する。すなわち、音声保存部87は、連続音楽/会話判別結果によって音楽であると判別された区間の音声データに、音楽であることを示すラベルを付加し、連続音楽/会話判別結果によって会話であると判別された区間の音声データに、会話であることを示すラベルを付加する。音声保存部87は、音楽であるか会話であるかを示すラベルが付加された音声データを、ハードディスクまたは光ディスクなどの記録媒体に記録することにより、保存する。
このように、音楽であるか会話であるかを示すラベルが付加された音声データを再生する場合、ラベルを参照して、音声データのうちの音楽の部分のみを再生したり、音声データのうちの会話の部分のみを再生したりすることができる。逆に言えば、音楽であるか会話であるかを示すラベルが付加された音声データを再生する場合、ラベルを参照して、音声データのうちの音楽の部分のみを次々にスキップするように、音声データを再生したり、または、音声データのうちの会話の部分のみを次々にスキップするように、音声データを再生したりすることができる。
以上のように、時定数で連続データの過去の値の影響をうける連続特徴量を抽出しておくことで、現在の区間においても、連続データの過去の区間の影響を加味したターゲット特徴量を求めることができる。
ターゲット特徴量を求める処理のうち、演算量の大きい処理のほとんどは、連続特徴量の抽出に関わるものであるため、連続特徴量を切り出す範囲のオーバーラップを大きくして時間解像度を上げても、処理量がほとんど増加しない。すなわち、より簡単な構成で、処理量をあまり増加させることなく、ターゲット特徴量の時間解像度を上げることができる。
連続特徴量の抽出は、連続データの入力と同時に行うことができる。このため、従来のように、連続データそのものを区間に分割して特徴を抽出した場合に比較すると、連続データが入力されてから特徴が求められるまでのレイテンシが小さくてすむ。
従来のように、連続データそのものを区間に分割して特徴を抽出した場合も、連続データから連続特徴量を抽出して、これを区間に分割してさらに特徴を求めるようにした場合も、連続データが入力されてから最終的に求めようとする特徴量が出力されるまでのタイムラグ(レイテンシ)は、区間分のデータが入力される時間と、そのデータが処理される時間との和で求められる。
連続データそのものを区間に分割して特徴を抽出した場合、区間分のデータが入力される時間と、そのデータが処理される時間とのうち、そのデータの処理に要する時間が大きい。
これに対して、連続データから連続特徴量を抽出して、これを区間に分割してさらに特徴を求めるようにした場合、区間分のデータが入力される時間と、そのデータが処理される時間とのうち、区間分のデータが入力される時間は、連続データそのものを区間に分割して特徴を抽出する場合とほぼ同じであるが、そのデータの処理に要する時間は、小さくなる。
従って、連続データから連続特徴量を抽出して、これを区間に分割してさらに特徴を求めるようにした場合、タイムラグ(レイテンシ)をより小さくすることができる。
また、ターゲット特徴量推定部34または音楽/会話判別部85として、スカラまたはベクトルで表される区間特徴量から正解データを表すターゲット特徴量を求める単純な構成のものを利用することができる。従って、対象問題毎に特別なモデルを用意する必要がなく、一般的な機械学習または統計解析で用意される様々なアルゴリズムを用いて、ターゲット特徴量推定部34または音楽/会話判別部85を構築することができる。
なお、図1の連続特徴量抽出部31、または、図9の時間−音程解析部81および連続音楽特徴量抽出部82に格納される、連続データから連続特徴量を抽出する連続特徴量抽出アルゴリズムを、連続データと、連続データの各時点(サンプル点)における1つの正しい特徴を示すラベルが付加された教師データを用いた学習により自動構築するようにすることが可能である。
ここで、図18乃至図25を参照して、連続特徴量抽出アルゴリズムを自動構築する場合の処理について説明する。
連続特徴量抽出アルゴリズムを自動構築する場合、図18に示される、外部から入力された連続データから連続特徴量を自動抽出する連続特徴量抽出アルゴリズムを自動構築するアルゴリズム構築部101が、図2の情報処理装置11または図9の情報処理装置51に新たに設けられる。
具体的には、図19に示されるように、アルゴリズム構築部101は、連続データと、連続データの各時点における1つの正しい特徴を示すラベルからなる教師データを入力として、GA(Genetic Algorithm)またはGP(Genetic Programming)による機械学習で、連続特徴量抽出アルゴリズムを構築し、出力する。
より具体的には、図20に示されるように、アルゴリズム構築部101は、各種のフィルタ(関数)の組み合わせを生成し、教師データに含まれる連続データを入力とした場合に、生成したフィルタの組み合わせによる処理の結果として出力される連続特徴量に基づいて、ラベルにより示される連続データの特徴をどの程度の精度で推定できるかを評価することにより、無限に存在するフィルタの組み合わせの中から、連続データの特徴をより高い精度で推定することができる連続特徴量を出力するフィルタの組み合わせを、GA(Genetic Algorithm)またはGP(Genetic Programming)を用いて探索する。
図21は、アルゴリズム構築部101の機能的構成を示すブロック図である。アルゴリズム構築部101は、第1世代遺伝子生成部121、遺伝子評価部122、および、第2世代以降遺伝子生成部123から構成される。
第1世代遺伝子生成部121は、各種のフィルタの組み合わせを示す遺伝子の第1世代を生成する。
遺伝子評価部122は、第1世代遺伝子生成部121または第2世代以降遺伝子生成部123により生成された各遺伝子について、各遺伝子に示されるフィルタ処理により、教師データの連続データから抽出される連続特徴量に基づいて、教師データのラベルにより示される連続データの特徴をどの程度の精度で推定できるのかを評価する。遺伝子評価部122は、実行部141、評価部142、および、教師データ記憶部143から構成される。
実行部141は、教師データ記憶部143に記憶されている教師データの連続データを入力として、各遺伝子に示されるフィルタの処理を順に実行することにより、入力された連続データの連続特徴量を抽出する。実行部141は、抽出した連続特徴量を評価部142に供給する。
評価部142は、図22を参照して後述するように、第1世代遺伝子生成部121または第2世代以降遺伝子生成部123により生成された各遺伝子について、実行部141により教師データの連続データから抽出された連続特徴量に基づいて、教師データのラベルにより示される連続データの特徴をどの程度の精度で推定できるのかを示す評価値を算出する。評価部142は、評価した遺伝子、および、その評価値を示す情報を、第2世代以降遺伝子生成部123の選択部151、交差部152、および、突然変異部153に供給する。また、評価部142は、所定の数の遺伝子の生成をランダム生成部154に指示する。さらに、評価部142は、評価値が安定し、遺伝子の進化が収束したと判定した場合、収束したと判定した世代の遺伝子、および、各遺伝子の評価値を選択部151に供給する。
教師データ記憶部143は、外部から入力される教師データを記憶する。
第2世代以降遺伝子生成部123は、第2世代以降の遺伝子を生成する。第2世代以降遺伝子生成部123は、選択部151、交差部152、突然変異部153、および、ランダム生成部154から構成される。
選択部151は、図22を参照して後述するように、評価部142により求められた評価値に基づいて、現在の世代の中から次の世代に継承する遺伝子を選択し、選択した遺伝子を次の世代の遺伝子として遺伝子評価部122に供給する。また、選択部151は、遺伝子の進化が収束したと判定された場合、評価値が高い方から1つ以上の所定の数の遺伝子を選択し、選択した遺伝子により示されるフィルタの組み合わせを連続特徴量抽出アルゴリズムとして出力する。
交差部152は、図22を参照して後述するように、現在の世代の遺伝子のうち評価値が高い遺伝子の中からランダムに選択した2つの遺伝子間でフィルタの一部を交換し、各遺伝子のフィルタを組み替えることにより、2つの遺伝子を交差させる。交差部152は、交差させた遺伝子を次の世代の遺伝子として遺伝子評価部122に供給する。
突然変異部153は、図22を参照して後述するように、現在の世代の遺伝子のうち評価値が高い遺伝子の中からランダムに選択した遺伝子のフィルタの一部をランダムに変形することにより、遺伝子を突然変異させる。突然変異部153は、突然変異させた遺伝子を、次の世代の遺伝子として遺伝子評価部122に供給する。
ランダム生成部154は、図22を参照して後述するように、各種のフィルタをランダムに組み合わせることにより、新たな遺伝子を生成する。ランダム生成部154は、生成した遺伝子を次の世代の遺伝子として遺伝子評価部122に供給する。
なお、アルゴリズム構築部101において生成される遺伝子を構成するフィルタは、リアルタイムに入力される時系列のデータ、すなわち、連続データに対して利用できるフィルタとされ、例えば、四則演算、指数演算、微積分、絶対値演算などを行う算術フィルタ、LPF(Low Pass filter)、HPF(High Pass filter)、BPF(Band Pass Filter)、IIR(Infinite Impulse Response)フィルタ、FIR(Finite Impulse Response)フィルタ、音量を均一化するリアルタイムレベルマキシマイザ、音程のトレースを行うピッチトレーサ、連続データの包絡線を生成するレベルメータなどである。
また、各遺伝子は、例えば、「ピッチトレーサ→微分フィルタ→絶対値フィルタ(Abs)→LPF」のように、フィルタが実行順に左から並べられた形式で表される。
図22は、アルゴリズム構築部101により実行されるアルゴリズム構築処理を説明するフローチャートである。
なお、以下、適宜、図23に示されるように、図9などを参照して上述した、入力された音声データに対して、単位時間毎に音楽であるか会話であるかを判別する情報処理装置51において、音声データから連続音楽特徴量を抽出する連続音楽特徴量抽出アルゴリズムを、アルゴリズム構築部101が構築する場合の処理を例に挙げて説明する。すなわち、以下、適宜、アルゴリズム構築部101が、図9の時間−音程解析部81および連続音楽特徴量抽出部82に相当する連続音楽特徴量抽出アルゴリズムを構築する場合の処理を例に挙げて説明する。
ステップS101において、第1世代遺伝子生成部121は、第1世代の遺伝子を生成する。具体的には、第1世代遺伝子生成部121は、リアルタイムに入力される時系列のデータ、すなわち、連続データに対して利用できる各種のフィルタをランダムに組み合わせることにより、所定の数の遺伝子を生成する。第1世代遺伝子生成部121は、生成した遺伝子を遺伝子評価部122に供給する。
ステップS102において、実行部141は、まだ評価していない遺伝子を1つ選択する。いまの場合、実行部141は、第1世代遺伝子生成部121により生成された第1世代の遺伝子の中から、まだ評価していない遺伝子を評価対象として1つ選択する。
ステップS103において、実行部141は、未処理の教師データを1つ選択する。具体的には、実行部141は、教師データ記憶部143に記憶されている教師データのうち、現在評価対象となっている遺伝子による処理が実行されていない教師データを1つ選択する。
ステップS104において、実行部141は、評価対象の遺伝子を用いて、選択した教師データの連続特徴量を抽出する。具体的には、実行部141は、選択した教師データの連続データを入力として、評価対象の遺伝子に示されるフィルタの処理を順に実行することにより、選択した教師データの連続特徴量を抽出する。
例えば、連続音楽特徴量抽出アルゴリズムを構築する例の場合、図24に示されるように、教師データである音声データに対して、評価対象の遺伝子の示す処理が行われることにより、すなわち、教師データである音声データに対して、評価対象の遺伝子の示すフィルタの処理を順に実行することにより、音声データをフィルタリングした波形が連続音楽特徴量として抽出される。
実行部141は、抽出した連続特徴量を評価部142に供給する。
ステップS105において、実行部141は、全ての教師データについて処理したかを判定する。実行部141は、教師データ記憶部143に記憶されている教師データのうち、現在評価対象となっている遺伝子により連続特徴量が抽出されていない教師データがある場合、まだ全ての教師データについて処理していないと判定し、処理はステップS103に戻る。その後、ステップS105において、全ての教師データについて処理したと判定されるまで、ステップS103乃至S105の処理が繰り返し実行される。
ステップS105において、全ての教師データについて処理したと判定された場合、処理はステップS106に進む。
ステップS106において、評価部142は、遺伝子を評価する。
例えば、連続音楽特徴量抽出アルゴリズムを構築する例の場合、評価部142は、図25に示されるように、現在評価対象となっている遺伝子により抽出された連続音楽特徴量であるフィルタリングされた波形から、教師データのラベルに示される連続データの特徴を示す特徴量、すなわち、情報処理装置51におけるターゲット特徴量である音楽であるか会話であるかを示す特徴量を、どの程度の精度で推定可能かを示す評価値を算出する。
ここで、評価値の算出方法の一例について説明する。
教師データのラベルの値、すなわち、連続データの特徴を示す特徴量が連続した数値(numericalな値)で表される場合、例えば、正解データに示される特徴量が、0.0乃至1.0の範囲内の連続した数値で表される楽曲のスピード感である場合、例えば、ピアソンの相関係数の絶対値が遺伝子の評価値として用いられる。具体的には、同じ時間における教師データのラベルの値を変数Xとし、連続特徴量の値を変数Yとした場合、変数Xと変数Yとの間の相関係数rは、次の式(1)により求められる。
Figure 0005007714
連続データから抽出した連続特徴量の値と、教師データのラベルに示される連続データの特徴量の値との相関が弱いほど、相関係数rは0または0に近い値となり、相関が強いほど、相関係数rは1.0もしくは1.0に近い値、または、-1.0もしくは-1.0に近い値となる。すなわち、評価対象の遺伝子に示されるフィルタの組み合わせに基づいて抽出される連続特徴量を用いて、連続データの特徴量を推定した場合の特徴量の精度は、相関係数rの値が1.0または-1.0に近いほど高く、相関係数rの値が0.0に近いほど低くなる可能性が高い。
また、教師データのラベルの値、すなわち、連続データの特徴を示す特徴量が所定のクラスに分類される場合、例えば、ターゲット特徴量が、上述した例のように会話か音楽に分類されたり、ボーカルがいるまたはいないなどに分類される場合、例えば、フィッシャーの分散分析(FDR(Fisher Discriminant Ratio)が評価値として用いられる。
例えば、ターゲット特徴量が2つのクラスに分類される場合、換言すれば、ターゲット特徴量が2値で表される場合、評価対象の遺伝子により抽出された連続特徴量の値を、同じ時間における教師データのラベルの値により2つの集合に分類し、一方の集合X、もう一方の集合Yとしたとき、FDRは、以下の式(2)により求められる。
Figure 0005007714
評価対象の遺伝子により抽出した連続特徴量の値と属する集合との相関が弱いほど、すなわち、評価対象の遺伝子により抽出した連続特徴量の値と教師データのラベルに示される特徴量との相関が弱いほど、FDRの値は小さくなり、評価対象の遺伝子により抽出した連続特徴量の値と属する集合との相関が強いほど、すなわち、評価対象の遺伝子により抽出した連続特徴量の値と教師データのラベルに示される特徴量との相関が強いほど、FDRの値は大きくなる。すなわち、評価対象の遺伝子に示されるフィルタの組み合わせに基づいて抽出される連続特徴量を用いて、連続データの特徴量を推定した場合の特徴量の精度は、FDRの値が大きいほど高く、FDRの値が小さいほど低くなる可能性が高い。
なお、上述した遺伝子の評価値の算出方法はその一例であり、上述した算出方法に限定されるものではなく、遺伝子により抽出される連続特徴量、および、教師データのラベルに示される特徴量の性質などに応じた適切な方法を用いることが望ましい。
また、連続特徴量のサンプル数が多くて、計算量が多くなる場合、必要に応じて、連続特徴量のサンプルを間引いて、評価値を算出するようにしてもよい。
ステップS107において、評価部142は、全ての遺伝子を評価したかを判定する。まだ全ての遺伝子を評価していないと判定された場合、処理はステップS102に戻り、ステップS107において、全ての遺伝子を評価したと判定されるまで、ステップS102乃至S107の処理が繰り返し実行される。
ステップS107において、全ての遺伝子を評価したと判定された場合、いまの場合、第1世代の全ての遺伝子の評価が終了した場合、処理はステップS108に進む。
ステップS108において、評価部142は、過去の世代の遺伝子と現在の世代の遺伝子の評価値を比較する。いまの場合、第1世代の遺伝子の評価が行われており、過去の世代の遺伝子の評価値が記憶されていないため、評価部142は、第1世代の遺伝子の評価値の最大値を、現時点の遺伝子の評価値として記憶する。
ステップS109において、評価部142は、評価値が所定の世代の間更新されていないか否かを判定する。いまの場合、直前のステップS108において、評価値が更新されているので、処理はステップS110に進む。
ステップS110において、選択部151は、遺伝子を選択する。具体的には、評価部142は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を示す情報を選択部151に供給する。選択部151は、評価値が高いものから順に所定の数の遺伝子を選択し、選択した遺伝子を次の世代の遺伝子として遺伝子評価部122に供給する。
ステップS111において、交差部152は、遺伝子を交差させる。具体的には、評価部142は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を示す情報を交差部152に供給する。交差部152は、評価値が所定の値以上の遺伝子の中から2つの遺伝子をランダムに選択し、選択した遺伝子間でフィルタの交換を行い、各遺伝子のフィルタを組み替えることにより、2つの遺伝子を交差させる。交差部152は、所定の数の遺伝子を交差させ、交差させた遺伝子を、次の世代の遺伝子として遺伝子評価部122に供給する。
ステップS112において、突然変異部153は、遺伝子を突然変異させる。具体的には、評価部142は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を示す情報を突然変異部153に供給する。突然変異部153は、評価値が所定の値以上の遺伝子の中から所定の数の遺伝子をランダムに選択し、選択した遺伝子のフィルタの一部をランダムに変形することにより、遺伝子を突然変異させる。突然変異部153は、突然変異させた遺伝子を、次の世代の遺伝子として遺伝子評価部122に供給する。
ステップS113において、ランダム生成部154は、遺伝子をランダムに生成する。具体的には、評価部142は、所定の数の遺伝子の生成をランダム生成部154に指示する。ランダム生成部154は、第1世代遺伝子生成部121と同様の処理により、所定の数の遺伝子をランダムに生成する。ランダム生成部154は、生成した遺伝子を、次の世代の遺伝子として遺伝子評価部122に供給する。
その後、処理はステップS102に戻り、ステップS107において、全ての遺伝子を評価したと判定されるまで、ステップS102乃至S107の処理が繰り返され、第2世代の遺伝子の評価が行われる。
ステップS107において、全ての遺伝子を評価したと判定された場合、すなわち、第2世代の全ての遺伝子の評価が終了した場合、処理はステップS108に進む。
ステップS108において、いまの場合、評価部142は、記憶している1世代前における遺伝子の評価値、すなわち、第1世代における遺伝子の評価値と、第2世代の遺伝子の評価値の最大値を比較する。評価部142は、第2世代の遺伝子の評価値の最大値の方が第1世代における遺伝子の評価値より大きい場合、現時点の遺伝子の評価値を第2世代の遺伝子の評価値の最大値に更新し、第2世代の遺伝子の評価値の最大値が第1世代における遺伝子の評価値以下である場合、遺伝子の評価値を更新せず、そのまま現時点の遺伝子の評価値とする。
その後、ステップS109において、評価値が所定の世代の間更新されていないと判定されるまで、ステップS102乃至S113の処理が繰り返し実行される。すなわち、遺伝子の評価値が所定の世代にわたって更新されなくなるまで、新たな世代の遺伝子が生成され、生成された遺伝子が評価され、1世代前における遺伝子の評価値と、新たな世代の遺伝子の評価値の最大値とが比較され、新たな世代の遺伝子の評価値の最大値の方が大きい場合、遺伝子の評価値を更新する処理が繰り返される。
ステップS109において、評価値が所定の世代の間更新されていないと判定された場合、すなわち、遺伝子の評価値が安定し、遺伝子の進化が収束したと判定された場合、処理はステップS114に進む。
なお、ステップS109において、現在の世代の遺伝子の評価値の最大値が所定の閾値以上であるか否かを判定するようにしてもよい。この場合、ステップS109において、現在の世代の遺伝子の評価値の最大値が所定の閾値未満であると判定された場合、すなわち、現在の世代の遺伝子に示されるフィルタの組み合わせを用いて推定される特徴量の精度が所望の値に達していないと判定された場合、処理はステップS110に進み、現在の世代の遺伝子の評価値の最大値が所定の閾値以上であると判定された場合、すなわち、現在の世代の遺伝子に示されるフィルタの組み合わせを用いて推定される特徴量の精度が所望の値に達していると判定された場合、処理はステップS114に進む。
ステップS114において、選択部151は、連続特徴量抽出アルゴリズムに用いる遺伝子を選択し、アルゴリズム構築処理は終了する。具体的には、評価部142は、現在の世代の全ての遺伝子、および、各遺伝子の評価値を選択部151に供給する。選択部151は、評価値が高い方から1つ以上の所定の数の遺伝子を選択し、選択した遺伝子により示されるフィルタの組み合わせを連続特徴量抽出アルゴリズムとして出力する。
なお、ステップS114において、評価値が所定の閾値以上となる遺伝子を全て選択し、選択した遺伝子により示されるフィルタの組み合わせを連続特徴量抽出アルゴリズムとして出力するようにしてもよい。
このようにして、図2の情報処理装置11または図9の情報処理装置51において用いられる、連続データから連続特徴量を抽出する連続特徴量抽出アルゴリズムが構築される。
このように、連続特徴量抽出アルゴリズムを、GAまたはGPを用いて自動構築することにより、人手により構築する場合と比較して、より多くのフィルタの組み合わせの中から、ターゲット特徴量の推定により適した連続特徴量を抽出するフィルタの組み合わせを求めることができ、ターゲット特徴量の推定精度の向上が期待できる。
なお、図2の情報処理装置11または図9の情報処理装置51においては、連続特徴量を抽出する連続特徴量抽出アルゴリズムを、全てアルゴリズム構築部101を用いて構築するようにしてもよいし、全て人手により構築するようにしてもよいし、または、アルゴリズム構築部101により構築した特徴量抽出アルゴリズムと人手により構築した特徴量抽出アルゴリズムとを並列して用いるようにしてもよい。
なお、以上において、音声データまたは動画像の画像データなどの連続データを処理する情報処理装置を例に説明したが、本発明は、音声データまたは動画像の画像データを記録し再生する記録再生装置、音声データまたは動画像の画像データを記録する記録装置、音声データまたは動画像の画像データを再生する再生装置などに適用できる。より具体的には、本発明は、光ディスクのドライブまたはハードディスクを内蔵するレコーダプレーヤや、半導体メモリを内蔵する携帯型のレコーダまたはプレーヤや、デジタルビデオカメラや、携帯電話機などに適用することができる。
また、ターゲット特徴量は、音楽や会話など最終的に求めたい特徴を示すと説明したが、音楽である確率や会話である確率など、最終的に求めたい特徴である確率を示す値であってもよい。
このように、学習によってターゲット特徴量抽出式を生成し、ターゲット特徴量抽出式による演算を適用するようにした場合には、データの特徴を抽出することができる。また、時間的に連続する音声データを、所定の周波数帯域毎に時間的に連続して解析し、解析の結果から時間的に連続する特徴量である連続特徴量を抽出し、連続特徴量から、予め定めた長さの期間の部分を切り出し、切り出された連続特徴量の部分から、期間毎に、期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、区間特徴量から、期間毎に、期間全体の音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定するようにした場合には、簡単かつ迅速に、特徴を抽出することができる。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図26は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU(Central Processing Unit)201は、ROM(Read Only Memory)202、または記憶部208に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)203には、CPU201が実行するプログラムやデータなどが適宜記憶される。これらのCPU201、ROM202、およびRAM203は、バス204により相互に接続されている。
CPU201にはまた、バス204を介して入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207が接続されている。CPU201は、入力部206から入力される指令に対応して各種の処理を実行する。そして、CPU201は、処理の結果を出力部207に出力する。
入出力インタフェース205に接続されている記憶部208は、例えばハードディスクからなり、CPU201が実行するプログラムや各種のデータを記憶する。通信部209は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部209を介してプログラムを取得し、記憶部208に記憶してもよい。
入出力インタフェース205に接続されているドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部208に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図26に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)、光磁気ディスクを含む)、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211、または、プログラムが一時的もしくは永続的に格納されるROM202や、記憶部208を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部209を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
連続データのある長さ毎の特徴の取得について説明する図である。 本発明の一実施の形態の情報処理装置の構成を示すブロック図である。 ターゲット特徴量の抽出の処理を説明するフローチャートである。 連続特徴量の抽出を説明する図である。 連続特徴量の切り出しを説明する図である。 区間特徴量の抽出を説明する図である。 ターゲット特徴量の推定を説明する図である。 音声データの単位時間毎の音楽であるか会話であるかの判別について説明する図である。 本発明の一実施の形態の情報処理装置の他の構成を示すブロック図である。 音声データへのラベル付与の処理を説明するフローチャートである。 時間−音程データを説明する図である。 時間−音程データからの連続音楽特徴量の抽出を説明する図である。 連続音楽特徴量の切り出しを説明する図である。 区間特徴量の抽出を説明する図である。 フレームについての音楽であるか会話であるかの判別を説明する図である。 フレーム毎音楽/会話判別結果の平滑化を説明する図である。 ラベルが付加された音声データの例を示す図である。 アルゴリズム構築部の処理の概要を説明するための図である。 アルゴリズム構築部の処理の概要を説明するための図である。 アルゴリズム構築部の処理の概要を説明するための図である。 アルゴリズム構築部の機能的構成を示すブロック図である。 アルゴリズム構築処理を説明するフローチャートである。 アルゴリズム構築処理の説明に用いる例を説明するための図である。 遺伝子の実行について説明するための図である。 遺伝子の評価について説明するための図である。 パーソナルコンピュータの構成の例を示すブロック図である。
符号の説明
11 情報処理装置, 31 連続特徴量抽出部, 32 連続特徴量切り出し部, 33 区間特徴量抽出部, 34 ターゲット特徴量推定部, 51 情報処理装置, 81 時間−音程解析部, 82 連続音楽特徴量抽出部, 83 フレーム切り出し部, 84 区間特徴量抽出部, 85 音楽/会話判別部, 86 データ平滑部, 87 音声保存部, 101 アルゴリズム構築部, 121 第1世代遺伝子生成部, 122 遺伝子評価部, 123 第2世代以降遺伝子生成部, 141 実行部, 142 評価部, 143 教師データ記憶部, 151 選択部, 152 交差部, 153 突然変異部, 154 ランダム生成部, 201 CPU, 202 ROM, 203 RAM, 208 記憶部, 211 リムーバブルメディア

Claims (8)

  1. 時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築するアルゴリズム構築手段と、
    構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出する連続特徴量抽出手段と、
    前記連続特徴量から、予め定めた長さの期間の部分を切り出す切り出し手段と、
    切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出する区間特徴量抽出手段と、
    前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定するターゲット特徴量推定手段と
    備える情報処理装置。
  2. 前記ターゲット特徴量推定手段は、時間的に連続する音声データと、期間のそれぞれについての期間全体の音声データの1つの正しい特徴を示す特徴量とからなる教師データを用いた学習により予め作成される
    請求項に記載の情報処理装置。
  3. 前記ターゲット特徴量推定手段は、前記音声データの特徴として、音楽であるか会話であるか示す前記ターゲット特徴量を推定する
    請求項に記載の情報処理装置。
  4. 移動平均を求めることにより、前記ターゲット特徴量を平滑化する平滑化手段をさらに備える
    請求項1に記載の情報処理装置。
  5. 推定された前記ターゲット特徴量で示される特徴を表す第2のラベルを前記音声データに付加して、前記第2のラベルが付加された前記音声データを保存する保存手段をさらに備える
    請求項に記載の情報処理装置。
  6. 情報処理装置が、
    時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、
    構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、
    前記連続特徴量から、予め定めた長さの期間の部分を切り出し、
    切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、
    前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定する
    ステップを含む情報処理方法。
  7. 時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、
    構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、
    前記連続特徴量から、予め定めた長さの期間の部分を切り出し、
    切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、
    前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定する
    ステップを含む処理をコンピュータに実行させるためのプログラム。
  8. 時間的に連続する音声データの学習用のデータである学習用音声データと、前記学習用音声データの各時間に対応する第1のラベルとからなる教師データに基づいて、前記学習用音声データから前記第1のラベルをより高い精度で推定することのできるフィルタの組み合わせをGP(Genetic Programming)を用いて探索し、前記音声データを、それぞれのオクターブが12平均律の音程で区切られた高さの音について時間的に連続して解析し、解析の結果得られた解析結果データであって、それぞれのオクターブにおける12平均律の音程のそれぞれの高さの音のそれぞれのエネルギを示し、時間的に連続する解析結果データから時間的に連続する特徴量である連続特徴量を抽出するアルゴリズムを自動構築し、
    構築された前記アルゴリズムに基づいて、時間的に連続する音声データから前記連続特徴量を抽出し、
    前記連続特徴量から、予め定めた長さの期間の部分を切り出し、
    切り出された前記連続特徴量の部分から、前記期間毎に、前記期間のそれぞれについて1つのスカラまたはベクトルのいずれかでそれぞれ表される特徴量である区間特徴量を抽出し、
    前記区間特徴量から、前記期間毎に、前記期間全体の前記音声データの1つの特徴を示す特徴量であるターゲット特徴量を推定する
    ステップを含む処理をコンピュータに実行させるためのプログラムが記録されている記録媒体。
JP2008279177A 2006-10-20 2008-10-30 情報処理装置および方法、プログラム、並びに記録媒体 Expired - Fee Related JP5007714B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008279177A JP5007714B2 (ja) 2006-10-20 2008-10-30 情報処理装置および方法、プログラム、並びに記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006286261 2006-10-20
JP2006286261 2006-10-20
JP2008279177A JP5007714B2 (ja) 2006-10-20 2008-10-30 情報処理装置および方法、プログラム、並びに記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006296143A Division JP4239109B2 (ja) 2006-10-20 2006-10-31 情報処理装置および方法、プログラム、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2009058970A JP2009058970A (ja) 2009-03-19
JP5007714B2 true JP5007714B2 (ja) 2012-08-22

Family

ID=39334444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008279177A Expired - Fee Related JP5007714B2 (ja) 2006-10-20 2008-10-30 情報処理装置および方法、プログラム、並びに記録媒体

Country Status (2)

Country Link
JP (1) JP5007714B2 (ja)
CN (1) CN101165779B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080276935A1 (en) 2006-11-20 2008-11-13 Lixiao Wang Treatment of asthma and chronic obstructive pulmonary disease with anti-proliferate and anti-inflammatory drugs
JP5771582B2 (ja) * 2012-08-27 2015-09-02 日本電信電話株式会社 音響信号分析装置、方法、及びプログラム
CN104464702B (zh) * 2014-10-27 2017-07-21 叶煦舟 基于遗传算法的和弦伴奏生成方法
CN105161094A (zh) * 2015-06-26 2015-12-16 徐信 一种语音音频切分手动调整切分点的系统及方法
CN107305773B (zh) * 2016-04-15 2021-02-09 美特科技(苏州)有限公司 语音情绪辨识方法
CN106448701B (zh) * 2016-08-30 2019-10-25 河北师范大学 一种声乐综合训练系统
JP6672478B2 (ja) * 2016-12-20 2020-03-25 パイオニア株式会社 生体音解析方法、プログラム、記憶媒体及び生体音解析装置
CN113362864B (zh) * 2021-06-16 2022-08-02 北京字节跳动网络技术有限公司 音频信号处理的方法、装置、存储介质及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2871204B2 (ja) * 1991-08-21 1999-03-17 日本電気株式会社 楽音採譜装置
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6182036B1 (en) * 1999-02-23 2001-01-30 Motorola, Inc. Method of extracting features in a voice recognition system
WO2000070310A1 (fr) * 1999-05-12 2000-11-23 Kyushu Kyohan Co., Ltd. Dispositif d'identification de signal faisant intervenir un algorithme genetique et systeme d'identification en ligne
CN1452159A (zh) * 2002-04-18 2003-10-29 赵荣椿 语音控制装置及方法
US20040006470A1 (en) * 2002-07-03 2004-01-08 Pioneer Corporation Word-spotting apparatus, word-spotting method, and word-spotting program
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
EP1403783A3 (en) * 2002-09-24 2005-01-19 Matsushita Electric Industrial Co., Ltd. Audio signal feature extraction
CN1190773C (zh) * 2002-09-30 2005-02-23 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
JP4099576B2 (ja) * 2002-09-30 2008-06-11 ソニー株式会社 情報識別装置及び方法、並びにプログラム及び記録媒体
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal

Also Published As

Publication number Publication date
CN101165779B (zh) 2010-06-02
CN101165779A (zh) 2008-04-23
JP2009058970A (ja) 2009-03-19

Similar Documents

Publication Publication Date Title
JP5007714B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP4640407B2 (ja) 信号処理装置、信号処理方法及びプログラム
US8115089B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
EP2204774B1 (en) Information processing apparatus, information processing method, and program
JP5593608B2 (ja) 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP5282548B2 (ja) 情報処理装置、音素材の切り出し方法、及びプログラム
US11138989B2 (en) Sound quality prediction and interface to facilitate high-quality voice recordings
JP2015079183A (ja) スコアアライメント装置及びスコアアライメントプログラム
JP6723120B2 (ja) 音響処理装置および音響処理方法
JP2012108451A (ja) 音声処理装置および方法、並びにプログラム
JP4239109B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2008216486A (ja) 音楽再生システム
Gupta et al. Towards Controllable Audio Texture Morphing
CN107025902B (zh) 数据处理方法及装置
Villavicencio et al. Efficient pitch estimation on natural opera-singing by a spectral correlation based strategy
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
KR101975193B1 (ko) 자동 작곡 장치 및 컴퓨터 수행 가능한 자동 작곡 방법
JP5035598B2 (ja) 情報処理装置および方法、並びに、プログラム
Cámara et al. Optimization Techniques for a Physical Model of Human Vocalisation
JP6969597B2 (ja) 音響信号処理装置、方法及びプログラム
JP5262875B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
Singh pyAudioProcessing: Audio Processing, Feature Extraction, and Machine Learning Modeling.
JP4839555B2 (ja) 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
JP2005106989A (ja) 楽譜対応データ生成装置及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120501

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120514

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees