JP2004271736A

JP2004271736A - 情報検出装置及び方法、並びにプログラム

Info

Publication number: JP2004271736A
Application number: JP2003060382A
Authority: JP
Inventors: Yasuhiro Tokuri; 康裕戸栗
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-03-06
Filing date: 2003-03-06
Publication date: 2004-09-30
Anticipated expiration: 2023-03-06
Also published as: US20050177362A1; CN1698095A; JP4348970B2; US8195451B2; KR101022342B1; EP1600943A1; KR20050109403A; EP1600943A4; EP1600943B1; WO2004079718A1; CN100530354C; DE602004023180D1

Abstract

【課題】音声データ中の音楽や音声などの連続区間を検出する際に、長期的にみて同一種別と見なされるべき連続区間を正しく検出する。
【解決手段】情報検出装置１において、音声種別識別部１１は、情報源における音声信号を所定の時間単位毎に音楽や音声などの種別（カテゴリ）に識別分類し、記憶装置・記憶媒体１３は、その識別情報を記録する。識別頻度計算部は、所定の時間単位毎に、該時間単位よりも長い所定の時間区間における種別毎の識別頻度を計算し、区間開始終了判定部１６は、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声、音楽、音響を含む音声信号、又はその音声信号を含む情報源から特徴量を抽出することにより、音声や音楽などの同一種別の連続区間を検出する情報検出装置及びその方法、並びにプログラムに関する。
【０００２】
【従来の技術】
放送システムやマルチメディアシステム等において、映像や音声の大量のコンテンツを効率よく管理、分類し、容易に検索可能とすることは重要であるが、これにはコンテンツ中のどの部分がどのような情報をもっているかを知ることが不可欠である。
【０００３】
ここで、多くのマルチメディアコンテンツ、放送コンテンツは、映像信号と共に音声信号を含んでおり、これはコンテンツの分類やシーンの検出において、非常に有用な情報である。特に、情報に含まれる音声信号の音声部分と音楽部分とを識別して検出することで、効率的な情報検索や情報管理が行える。
【０００４】
ところで、音声と音楽とを識別するための技術は、従来から数多く研究されており、零交差数、パワーの変動、スペクトルの変動などを特徴量として用いて識別する手法が提案されている。
【０００５】
例えば、下記の非特許文献１では、零交差数を用いて音声・音楽の識別を行っている。
【０００６】
また、下記の非特許文献２では、４Ｈｚ変調エネルギー、低エネルギーフレーム率、スペクトルロールオフ点、スペクトルセントロイド、スペクトル変動（Ｆｌｕｘ）、零交差率などを含めた１３個の特徴量を用いて音声・音楽を識別し、それぞれの性能を比較評価している。
【０００７】
さらに、下記の非特許文献３では、ケプストラム係数、デルタケプストラム係数、振幅、デルタ振幅、ピッチ、デルタピッチ、零交差数、デルタゼロ交差数を特徴量とし、それぞれの特徴量に混合正規分布モデルを用いることで、音声・音楽を識別している。
【０００８】
この他、音楽のスペクトルピークが特定周波数に安定したまま時間方向に持続するという特徴に基づいた検出手法も研究されている。ここで、スペクトルピークの安定性は、スペクトログラムにおける時間方向の直線成分の有無としても表現される。スペクトログラムとは、縦軸を周波数、横軸を時間とし、スペクトルを時間方向に並べて画像情報として表現したものである。この特徴を用いた発明としては、例えば下記の非特許文献４及び特許文献１が挙げられる。
【０００９】
このような所定の時間毎に音声や音楽などの種別を識別分類する技術を応用することで、音声データ中において同一種別の連続区間の開始・終了位置を検出することが可能である。
【００１０】
【非特許文献１】
Ｊ．サウンダース（Ｊ．Ｓａｕｎｄｅｒｓ），「放送された音声／音楽のリアルタイム識別（Ｒｅａｌ−ｔｉｍｅｄｉｓｃｒｉｍｉｎａｔｉｏｎｏｆｂｒｏａｄｃａｓｔｓｐｅｅｃｈ／ｍｕｓｉｃ）」，（米国），電気電子技術者学会報、音響・音声・信号処理に関する国際会議（Ｐｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．ｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ），１９９６年，ｐ．９９３−９９６
【非特許文献２】
Ｅ．シェイアー（Ｅ．Ｓｃｈｅｉｒｅ）及びＭ．スラニー（Ｍ．Ｓｌａｎｅｙ），「ロバストな多特性音声／音楽識別器の作製及び評価（Ｃｏｎｓｔｒｕｃｔｉｏｎａｎｄｅｖａｌｕａｔｉｏｎｏｆａｒｏｂｕｓｔｍｕｌｔｉｆｅａｔｕｒｅｓｐｅｅｃｈ／ｍｕｓｉｃｄｉｓｃｒｉｍｉｎａｔｏｒ）」，（米国），電気電子技術者学会報、音響・音声・信号処理に関する国際会議（Ｐｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．ｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ），１９９７年，ｐ．１３３１−１３３４
【非特許文献３】
Ｍ．Ｊ．ケア（Ｍ．Ｊ．Ｃａｒｅ）、Ｅ．Ｓ．パリス（Ｅ．Ｓ．Ｐａｒｒｉｓ）及びＨ．ロイド・トーマス（Ｈ．Ｌｌｏｙｄ−Ｔｈｏｍａｓ），「音声，音楽を識別するための特徴比較（Ａｃｏｍｐａｒｉｓｏｎｏｆｆｅａｔｕｒｅｓｆｏｒｓｐｅｅｃｈ，ｍｕｓｉｃｄｉｓｃｒｉｍｉｎａｔｉｏｎ）」，（米国），電気電子技術者学会報、音響・音声・信号処理に関する国際会議（Ｐｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．ｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ），１９９９年３月，ｐ．１４９−１５２
【非特許文献４】
南、阿久津、浜田及び外村，「音情報を用いた映像インデクシングとその応用」，電子情報通信学会論文誌Ｄ−ＩＩ，１９９８年，第Ｊ８１−Ｄ−ＩＩ巻，第３号，ｐ．５２９−５３７
【特許文献１】
特開平１０−１８７１８２号公報
【００１１】
【発明が解決しようとする課題】
しかしながら、上述した音声や音楽などの種別を識別分類する技術を直接用いて同一種別の連続区間を検出するには、次のような問題がある。
【００１２】
例えば音楽（楽曲）は、多くの楽器、歌唱音声、効果音、打楽器によるリズムなどから構成されることが多い。したがって、音声データを短時間毎に識別した場合、連続した楽曲区間中であっても、必ずしも音楽と識別し得るような部分ばかりではなく、短期的にみれば音声と判定されるべき部分、或いは他の種別に分類されるべき部分がしばしば含まれる。会話音声の連続区間を検出する場合も同様であり、連続した会話区間中であっても、短期的にみれば無音部分や、音楽などの雑音が一瞬入ることもしばしば起こり得る。また、明らかな音楽や音声の部分であっても、識別誤りによって誤った種別に識別されてしまうこともある。音声、音楽以外の種別の場合も同様である。
【００１３】
したがって、短時間毎の音声・音楽などの種別識別結果を直接用いて連続区間を検出する方法では、長期的に見れば連続区間と見なされるべき部分が途中で分断されたり、逆に長期的には連続区間と見なせない一時的な雑音部分を連続区間と見なしてしまう問題が発生する。
【００１４】
一方、このような問題を避けるために識別のための分析時間を長くとれば、識別の時間分解能が低下し、頻繁に音楽・音声などが切り替わる場合に検出率が低下するという問題が発生する。
【００１５】
本発明は、このような従来の実情に鑑みて提案されたものであり、音声データ中の音楽や音声などの連続区間を検出する際に、長期的にみて同一種別と見なされるべき連続区間を正しく検出する情報検出装置及びその方法、並びにそのような情報検出処理をコンピュータに実行させるプログラムを提供することを目的とする。
【００１６】
【課題を解決するための手段】
上述した目的を達成するために、本発明に係る情報検出装置及びその方法では、情報源に含まれる音声信号の特徴量を分析して、該音声信号の種別を所定の時間単位毎に分類識別し、分類識別された識別情報を識別情報蓄積手段に記録する。そして、上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、この識別頻度を用いて同一種別の連続区間を検出する。
【００１７】
この情報検出装置及びその方法では、例えば、任意の種別の上記識別頻度が第１の閾値以上となり、且つ該第１の閾値以上である状態が第１の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第２の閾値以下となり、且つ該第２の閾値以下である状態が第２の時間以上連続した場合に該種別の終了を検出する。
【００１８】
ここで、上記識別頻度としては、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したもの、或いは任意の種別の上記時間区間における識別回数を用いることができる。
【００１９】
また、本発明に係るプログラムは、上述した情報検出処理をコンピュータに実行させるものである。
【００２０】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、所定の時間単位毎に音声データを会話音声や音楽等の幾つかの種別に識別分類し、同一種別のデータが連続する連続区間の開始位置、終了位置等の区間情報を記憶装置又は記録媒体に記録する情報検出装置に適用したものである。
【００２１】
なお、音声データを幾つかの種別に分類識別する手法は、従来から多数研究されているが、本発明では識別する種別及びその識別手法は特定しない。以下では、一例として音声データを音声又は音楽に識別し、音声連続区間や音楽連続区間を検出するものとして説明するが、音声区間や音楽区間のみならず、歓声区間や無音区間を検出するようにしても構わない。また、音楽のジャンルを識別分類し、それぞれの連続区間を検出するようにしても構わない。
【００２２】
先ず、本実施の形態における情報検出装置の概略構成を図１に示す。図１に示すように、本実施の形態における情報検出装置１は、所定フォーマットの音声データを所定の時間単位毎にブロックデータＤ１０として読み込む音声入力部１０と、所定の時間単位毎にブロックデータＤ１０の種別を識別して識別情報Ｄ１１を生成する音声種別識別部１１と、識別情報Ｄ１１を所定のフォーマットに変換し、変換後の識別情報Ｄ１２を記憶装置・記録媒体１３に記録する識別情報出力部１２と、記憶装置・記録媒体１３に記録された識別情報Ｄ１３を読み込む識別情報入力部１４と、読み込んだ識別情報Ｄ１４を用いて各種別（音声・音楽など）の識別頻度Ｄ１５を計算する識別頻度計算部１５と、識別頻度Ｄ１５を評価して同一種別の連続区間の開始位置及び終了位置などを検出し、区間情報Ｄ１６とする区間開始終了判定部１６と、区間情報Ｄ１６を所定のフォーマットに変換し、インデックス情報Ｄ１７として記憶装置・記録媒体１８に記録する区間情報出力部１７とから構成されている。
【００２３】
ここで、記憶装置・記録媒体１３，１８としては、メモリや磁気ディスクなどの記憶装置、半導体メモリ（メモリカード等）などの記憶媒体、或いはＣＤ−ＲＯＭなどの記録媒体などを用いることができる。
【００２４】
以上のような構成を有する情報検出装置１において、音声入力部１０は、音声データを所定の時間単位毎のブロックデータＤ１０として読み込み、そのブロックデータＤ１０を音声種別識別部１１に供給する。
【００２５】
音声種別識別部１１は、音声の特徴量を分析することで所定の時間単位毎にブロックデータＤ１０の種別を識別分類し、識別情報Ｄ１１を識別情報出力部１２に供給する。ここでは一例として、ブロックデータＤ１０を音声又は音楽に識別分類するものとする。なお、識別する時間単位は１秒乃至数秒程度が好ましい。
【００２６】
識別情報出力部１２は、音声種別識別部１１から供給された識別情報Ｄ１１を所定のフォーマットに変換し、変換後の識別情報Ｄ１２を記憶装置・記憶媒体１３に記録する。ここで、識別情報Ｄ１２の記録フォーマットの一例を図２に示す。図２のフォーマット例では、音声データ中における位置を示す「時刻」と、その時刻位置における種別を示す「種別コード」と、その識別の確からしさを示す「確からしさ」とが記録されている。「確からしさ」とは、その識別結果の確実さを表す値であり、例えば事後確率最大化法などの識別手法で得られる尤度や、ベクトル量子化の手法によって得られるベクトル量子化歪の逆数などを用いることができる。
【００２７】
識別情報入力部１４は、記憶装置・記録媒体１３に記録された識別情報Ｄ１３を読み込み、読み込んだ識別情報Ｄ１４を識別頻度計算部１５に供給する。なお、読み込むタイミングとしては、識別情報出力部１２が記憶装置・記録媒体１３に識別情報Ｄ１２を記録する際にリアルタイムで読み込んでもよく、識別情報Ｄ１２の記録が終了した後に読み込んでもよい。
【００２８】
識別頻度計算部１５は、識別情報入力部１４から供給された識別情報Ｄ１４を用いて、所定の時間単位毎に所定の時間区間における種別毎の識別頻度を計算し、識別頻度情報Ｄ１５を区間開始終了判定部１６に供給する。識別頻度を計算する時間区間の一例を図３に示す。この図３は、音声データが音楽（Ｍ）であるか音声（Ｓ）であるかを数秒毎に識別し、時刻ｔ０における音声の識別頻度Ｐｓ（ｔ０）及び音楽の識別頻度Ｐｍ（ｔ０）を、図中Ｌｅｎで表される時間区間における音声（Ｓ）と音楽（Ｍ）の識別情報（識別回数及びその確からしさ）から求める例を示したものである。なお、時間区間Ｌｅｎの長さは、例えば数秒乃至数十秒程度が好ましい。
【００２９】
ここで、種別毎の識別頻度を計算する具体例を説明する。識別頻度は、例えばその種別に識別された時刻における確からしさを所定の時間区間で平均することで求めることができる。例えば、時刻ｔにおける音声の識別頻度Ｐｓ（ｔ）は、以下の式（１）のように求められる。ここで、式（１）において、ｐ（ｔ−ｋ）は時刻（ｔ−ｋ）における識別の確からしさを示す。
【００３０】
【数１】

【００３１】
また、式（１）において確からしさが全て１であると仮定すれば、以下の式（２）のように、単純に識別回数のみを用いて識別頻度Ｐｓ（ｔ）を計算することができる。
【００３２】
【数２】

【００３３】
音楽やその他の種別についても、全く同様にして識別頻度を計算することができる。
【００３４】
区間開始終了判定部１６は、識別頻度計算部１５から供給された識別頻度情報Ｄ１５を用いて、同一種別の連続区間の開始位置・終了位置等を検出し、区間情報Ｄ１６として区間情報出力部１７に供給する。
【００３５】
区間情報出力部１７は、区間開始終了判定部１６から供給された区間情報Ｄ１６を所定のフォーマットに変換し、インデックス情報Ｄ１７として記憶装置・記録媒体１８に記録する。ここで、インデックス情報Ｄ１７の記録フォーマットの一例を図４に示す。図４のフォーマット例では、連続区間の番号又は識別子を示す「区間番号」と、その連続区間の種別を示す「種別コード」と、その連続区間の開始時刻、終了時刻を示す「開始位置」、「終了位置」が記録されている。
【００３６】
ここで、連続区間の開始位置・終了位置の検出方法について、図５、図６を用いてさらに詳細に説明する。
【００３７】
図５は、音楽の識別頻度を閾値と比較して、音楽連続区間の開始を検出する様子を説明した図である。図の上部に各時刻における識別種別をＭ（音楽），Ｓ（音声）で記してある。縦軸は時刻ｔにおける音楽の識別頻度Ｐｍ（ｔ）である。なお、識別頻度Ｐｍ（ｔ）は図３で説明したような時間区間Ｌｅｎにおいて計算し、図５ではＬｅｎ＝５とする。また、開始判定のための識別頻度Ｐｍ（ｔ）の閾値Ｐ０を３／５とし、識別回数の閾値Ｈ０を６とする。
【００３８】
所定の時間単位毎に識別頻度Ｐｍ（ｔ）を計算していくと、図中のＡ点において時間区間Ｌｅｎにおける識別頻度Ｐｍ（ｔ）が３／５となり、初めて閾値Ｐ０以上となる。その後も連続して識別頻度Ｐｍ（ｔ）は閾値Ｐ０以上に保持されており、連続Ｈ０回（秒）だけ閾値Ｐ０以上の状態が保持された図中Ｂ点において初めて、音楽の開始を検出する。
【００３９】
音楽の実際の開始位置は、図５からも分かるように、識別頻度Ｐｍ（ｔ）が初めて閾値Ｐ０以上となったＡ点よりも少し手前である。識別頻度Ｐｍ（ｔ）が閾値Ｐ０以上となるまでに連続増加したことを仮定すると、図中Ｘ点が開始位置と推測できる。すなわち、識別頻度Ｐｍ（ｔ）の閾値Ｐ０をＰ０＝Ｊ／Ｌｅｎとすると、初めて閾値Ｐ０以上となったＡ点からＪだけ戻ったＸ点を推定開始位置として検出する。図５の例ではＪ＝３であるため、Ａ点よりも３だけ戻った位置を音楽開始位置として検出する。
【００４０】
図６は、音楽の識別頻度を閾値と比較して音楽連続区間の終了を検出する様子を説明した図である。図５と同様に、Ｍは音楽に識別されたことを示し、Ｓは音声に識別されたことを示す。また、縦軸は時刻ｔにおける音楽の識別頻度Ｐｍ（ｔ）である。なお、識別頻度は図３で説明したような時間区間Ｌｅｎにおいて計算し、図６ではＬｅｎ＝５とする。また、終了判定のための識別頻度Ｐｍ（ｔ）の閾値Ｐ１を２／５とし、識別回数の閾値Ｈ１を６とする。なお、終了検出の閾値Ｐ１は、開始検出の閾値Ｐ０と同じであってもよい。
【００４１】
所定の時間単位毎に識別頻度を計算していくと、図中のＣ点において時間区間Ｌｅｎにおける識別頻度Ｐｍ（ｔ）が２／５となり、初めて閾値Ｐ１以下となる。その後も連続して識別頻度Ｐｍ（ｔ）は閾値Ｐ１以下に保持されており、連続Ｈ１回（秒）だけ閾値Ｐ１以下の状態が保持された図中Ｄ点において初めて、音楽の終了を検出する。
【００４２】
音楽の実際の終了位置は、図６からも分かるように、識別頻度Ｐｍ（ｔ）が始めて閾値Ｐ１以下となったＣ点よりも少し手前である。識別頻度Ｐｍ（ｔ）が閾値Ｐ１以下となるまでに連続減少したことを仮定すると、図中Ｙ点が終了位置と推測できる。すなわち、識別頻度Ｐｍ（ｔ）の閾値Ｐ１をＰ１＝Ｋ／Ｌｅｎとすると、初めて閾値Ｐ１以下となったＣ点からＬｅｎ−Ｋだけ戻ったＹ点を推定終了位置として検出する。図６の例ではＫ＝２であるため、Ｃ点よりも３だけ戻った位置を音楽終了位置として検出する。
【００４３】
以上示した連続区間検出処理を図７のフローチャートに示す。先ずステップＳ１において初期処理を行う。具体的には、現在時刻ｔを０とし、ある種別の連続区間中であることを示す区間中フラグをＦＡＬＳＥ、すなわち連続区間中ではないとする。また、識別頻度Ｐ（ｔ）が閾値以上又は閾値以下の状態が保持された回数を数えるカウンタの値を０とする。
【００４４】
次にステップＳ２において、時刻ｔにおける種別を識別する。なお、既に識別してある場合には、時刻ｔにおける識別情報を読み込む。
【００４５】
続いてステップＳ３において、識別し、又は読み込んだ結果からデータ末尾に到達したか否かを判別し、データ末尾に到達した場合（Ｙｅｓ）には処理を終了する。一方、データ末尾でない場合（Ｎｏ）にはステップＳ４に進む。
【００４６】
ステップＳ４では、連続区間を検出したい種別（例えば音楽）の時刻ｔにおける識別頻度Ｐ（ｔ）を計算する。
【００４７】
ステップＳ５では、区間中フラグがＴＲＵＥ、すなわち連続区間中であるか否かを判別し、ＴＲＵＥである場合（Ｙｅｓ）にはステップＳ１３に進み、そうでない場合（Ｎｏ）、すなわちＦＡＬＳＥである場合にはステップＳ６に進む。
【００４８】
以下のステップＳ６乃至ステップＳ１２では、連続区間の開始検出処理が行われる。先ずステップＳ６において、識別頻度Ｐ（ｔ）が開始検出の閾値Ｐ０以上であるか否かを判別する。ここで、識別頻度Ｐ（ｔ）が閾値Ｐ０未満である場合（Ｎｏ）にはステップＳ２０でカウンタの値を０にリセットし、ステップＳ２１で時刻ｔを１増やしてステップＳ２に戻る。一方、識別頻度Ｐ（ｔ）が閾値Ｐ０未満である場合（Ｙｅｓ）にはステップＳ７に進む。
【００４９】
次にステップＳ７において、カウンタの値が０であるか否かを判別し、０である場合（Ｙｅｓ）にはステップＳ８で開始候補時刻としてＸを記憶し、ステップＳ９に進んでカウンタの値を１増やす。ここで、Ｘは例えば図５で説明したような位置である。一方、カウンタの値が０でない場合（Ｎｏ）にはステップＳ９に進み、カウンタの値を１増やす。
【００５０】
続いてステップＳ１０において、カウンタの値が閾値Ｈ０に達したか否かを判別し、閾値Ｈ０に達していない場合（Ｎｏ）にはステップＳ２１に進み、時刻ｔを１増やしてステップＳ２に戻る。一方、閾値Ｈ０に達した場合（Ｙｅｓ）にはステップＳ１１に進む。
【００５１】
ステップＳ１１では、記憶している開始候補時刻Ｘを開始時刻として確定し、ステップＳ１２でカウンタの値を０にリセットすると共に区間中フラグをＴＲＵＥに変え、ステップＳ２１で時刻ｔを１増やしてステップＳ２に戻る。
【００５２】
以上、連続区間の開始を検出するまで、すなわちステップＳ５で区間中フラグがＴＲＵＥと判別されるまで、上記の処理を繰り返す。
【００５３】
連続区間の開始が検出されると、以下のステップＳ１３乃至ステップＳ１９では、連続区間の終了検出処理が行われる。先ずステップＳ１３において、識別頻度Ｐ（ｔ）が終了検出の閾値Ｐ１以下であるか否かを判別する。ここで、識別頻度Ｐ（ｔ）が閾値Ｐ１よりも大きい場合（Ｎｏ）にはステップＳ２０でカウンタの値を０にリセットし、ステップＳ２１で時刻ｔを１増やしてステップＳ２に戻る。一方、識別頻度Ｐ（ｔ）が閾値Ｐ１以下である場合（Ｙｅｓ）にはステップＳ１４に進む。
【００５４】
次にステップＳ１４において、カウンタの値が０であるか否かを判別し、０である場合（Ｙｅｓ）にはステップＳ１５で終了候補時刻としてＹを記憶し、ステップＳ１６に進んでカウンタの値を１増やす。ここで、Ｙは例えば図６で説明したような位置である。一方、カウンタの値が０でない場合（Ｎｏ）にはステップＳ１６に進み、カウンタの値を１増やす。
【００５５】
続いてステップＳ１７において、カウンタの値が閾値Ｈ１に達したか否かを判別し、閾値Ｈ１に達していない場合（Ｎｏ）にはステップＳ２１に進み、時刻ｔを１増やしてステップＳ２に戻る。一方、閾値Ｈ１に達した場合（Ｙｅｓ）にはステップＳ１８に進む。
【００５６】
ステップＳ１８では、記憶している終了候補時刻Ｙを終了時刻として確定し、ステップＳ１９でカウンタの値を０にリセットすると共に区間中フラグをＦＡＬＳＥに変え、ステップＳ２１で時刻ｔを１増やしてステップＳ２に戻る。
【００５７】
以上、連続区間の終了を検出するまで、すなわちステップＳ５で区間中フラグがＦＡＬＳＥと判別されるまで、上記の処理を繰り返す。
【００５８】
以上のように、本実施の形態における情報検出装置１によれば、情報源における音声信号を所定の時間単位毎に各種別（カテゴリ）に識別し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出することにより、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。
【００５９】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【００６０】
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記憶媒体・記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
【００６１】
【発明の効果】
以上詳細に説明したように本発明に係る情報検出装置及びその方法では、情報源に含まれる音声信号の特徴量を分析して、該音声信号の種別を所定の時間単位毎に分類識別し、分類識別された識別情報を識別情報蓄積手段に記録する。そして、上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、この識別頻度を用いて同一種別の連続区間を検出する。
【００６２】
この情報検出装置及びその方法では、例えば、任意の種別の上記識別頻度が第１の閾値以上となり、且つ該第１の閾値以上である状態が第１の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第２の閾値以下となり、且つ該第２の閾値以下である状態が第２の時間以上連続した場合に該種別の終了を検出する。
【００６３】
ここで、上記識別頻度としては、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したもの、或いは任意の種別の上記時間区間における識別回数を用いることができる。
【００６４】
このような情報検出装置及びその方法によれば、情報源に含まれる音声信号を所定の時間単位毎に音楽や音声などの種別（カテゴリ）に識別分類し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出することにより、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。
【００６５】
また、本発明に係るプログラムは、上述した情報検出処理をコンピュータに実行させるものである。このようなプログラムによれば、上述した情報識別処理をソフトウェアにより実現することができる。
【図面の簡単な説明】
【図１】本実施の形態における情報検出装置の概略構成を示す図である。
【図２】識別情報の記録フォーマットの一例を示す図である。
【図３】識別頻度を計算する時間区間の一例を示す図である。
【図４】インデックス情報の記録フォーマットの一例を示す図である。
【図５】音楽連続区間の開始を検出する様子を説明するための図である。
【図６】音楽連続区間の終了を検出する様子を説明するための図である。
【図７】同情報検出装置における連続区間検出処理を示すフローチャートである。
【符号の説明】
１情報検出装置、１０音声入力部、１１音声種別識別部、１２識別情報出力部、１３記憶装置・記録媒体、１４識別情報入力部、１５識別頻度計算部、１６区間開始終了判定部、１７区間情報出力部、１８記憶装置・記録媒体

Claims

情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別手段と、
上記音声種別識別手段によって分類識別された識別情報を記録する識別情報蓄積手段と、
上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算手段と、
上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出手段と
を備えることを特徴とする情報検出装置。
上記連続区間検出手段によって検出された上記連続区間の区間情報をインデックスとして蓄積する区間情報蓄積手段をさらに備えることを特徴とする請求項１記載の情報検出装置。
上記連続区間検出手段は、任意の種別の上記識別頻度が第１の閾値以上となり、且つ該第１の閾値以上である状態が第１の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第２の閾値以下となり、且つ該第２の閾値以下である状態が第２の時間以上連続した場合に該種別の終了を検出することを特徴とする請求項１記載の情報検出装置。
上記音声種別識別手段は、上記時間単位毎に上記音声信号の種別を分類識別すると共に、その識別の確からしさを求めることを特徴とする請求項１記載の情報検出装置。
上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものであることを特徴とする請求項４記載の情報検出装置。
上記識別頻度は、任意の種別の上記時間区間における識別回数であることを特徴とする請求項１記載の情報検出装置。
上記識別情報蓄積手段は、上記時間単位毎の上記音声信号の種別と上記識別の確からしさとを、上記識別情報として記録することを特徴とする請求項４記載の情報検出装置。
情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、
上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録する記録工程と、
上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算工程と、
上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程と
を有することを特徴とする情報検出方法。
上記連続区間検出工程にて検出された上記連続区間の区間情報をインデックスとして区間情報蓄積手段に蓄積する蓄積工程をさらに有することを特徴とする請求項８記載の情報検出方法。
上記連続区間検出工程では、任意の種別の上記識別頻度が第１の閾値以上となり、且つ該第１の閾値以上である状態が第１の時間以上連続した場合に該種別の開始が検出され、上記識別頻度が第２の閾値以下となり、且つ該第２の閾値以下である状態が第２の時間以上連続した場合に該種別の終了が検出されることを特徴とする請求項８記載の情報検出方法。
上記音声種別識別工程では、上記時間単位毎に上記音声信号の種別が分類識別されると共に、その識別の確からしさが求められることを特徴とする請求項８記載の情報検出方法。
上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものであることを特徴とする請求項１１記載の情報検出方法。
上記識別頻度は、任意の種別の上記時間区間における識別回数であることを特徴とする請求項８記載の情報検出方法。
上記記録工程では、上記時間単位毎の上記音声信号の種別と上記識別の確からしさとが、上記識別情報として上記識別情報蓄積手段に記録されることを特徴とする請求項１１記載の情報検出方法。
所定の処理をコンピュータに実行させるプログラムにおいて、
情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、
上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録する記録工程と、
上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算工程と、
上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程と
を有することを特徴とするプログラム。