JP2004271736A - 情報検出装置及び方法、並びにプログラム - Google Patents

情報検出装置及び方法、並びにプログラム Download PDF

Info

Publication number
JP2004271736A
JP2004271736A JP2003060382A JP2003060382A JP2004271736A JP 2004271736 A JP2004271736 A JP 2004271736A JP 2003060382 A JP2003060382 A JP 2003060382A JP 2003060382 A JP2003060382 A JP 2003060382A JP 2004271736 A JP2004271736 A JP 2004271736A
Authority
JP
Japan
Prior art keywords
identification
type
information
section
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003060382A
Other languages
English (en)
Other versions
JP4348970B2 (ja
JP2004271736A5 (ja
Inventor
Yasuhiro Tokuri
康裕 戸栗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2003060382A priority Critical patent/JP4348970B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to DE602004023180T priority patent/DE602004023180D1/de
Priority to US10/513,549 priority patent/US8195451B2/en
Priority to KR1020047017765A priority patent/KR101022342B1/ko
Priority to EP04709697A priority patent/EP1600943B1/en
Priority to PCT/JP2004/001397 priority patent/WO2004079718A1/ja
Priority to CNB200480000194XA priority patent/CN100530354C/zh
Publication of JP2004271736A publication Critical patent/JP2004271736A/ja
Publication of JP2004271736A5 publication Critical patent/JP2004271736A5/ja
Application granted granted Critical
Publication of JP4348970B2 publication Critical patent/JP4348970B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】音声データ中の音楽や音声などの連続区間を検出する際に、長期的にみて同一種別と見なされるべき連続区間を正しく検出する。
【解決手段】情報検出装置1において、音声種別識別部11は、情報源における音声信号を所定の時間単位毎に音楽や音声などの種別(カテゴリ)に識別分類し、記憶装置・記憶媒体13は、その識別情報を記録する。識別頻度計算部は、所定の時間単位毎に、該時間単位よりも長い所定の時間区間における種別毎の識別頻度を計算し、区間開始終了判定部16は、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声、音楽、音響を含む音声信号、又はその音声信号を含む情報源から特徴量を抽出することにより、音声や音楽などの同一種別の連続区間を検出する情報検出装置及びその方法、並びにプログラムに関する。
【0002】
【従来の技術】
放送システムやマルチメディアシステム等において、映像や音声の大量のコンテンツを効率よく管理、分類し、容易に検索可能とすることは重要であるが、これにはコンテンツ中のどの部分がどのような情報をもっているかを知ることが不可欠である。
【0003】
ここで、多くのマルチメディアコンテンツ、放送コンテンツは、映像信号と共に音声信号を含んでおり、これはコンテンツの分類やシーンの検出において、非常に有用な情報である。特に、情報に含まれる音声信号の音声部分と音楽部分とを識別して検出することで、効率的な情報検索や情報管理が行える。
【0004】
ところで、音声と音楽とを識別するための技術は、従来から数多く研究されており、零交差数、パワーの変動、スペクトルの変動などを特徴量として用いて識別する手法が提案されている。
【0005】
例えば、下記の非特許文献1では、零交差数を用いて音声・音楽の識別を行っている。
【0006】
また、下記の非特許文献2では、4Hz変調エネルギー、低エネルギーフレーム率、スペクトルロールオフ点、スペクトルセントロイド、スペクトル変動(Flux)、零交差率などを含めた13個の特徴量を用いて音声・音楽を識別し、それぞれの性能を比較評価している。
【0007】
さらに、下記の非特許文献3では、ケプストラム係数、デルタケプストラム係数、振幅、デルタ振幅、ピッチ、デルタピッチ、零交差数、デルタゼロ交差数を特徴量とし、それぞれの特徴量に混合正規分布モデルを用いることで、音声・音楽を識別している。
【0008】
この他、音楽のスペクトルピークが特定周波数に安定したまま時間方向に持続するという特徴に基づいた検出手法も研究されている。ここで、スペクトルピークの安定性は、スペクトログラムにおける時間方向の直線成分の有無としても表現される。スペクトログラムとは、縦軸を周波数、横軸を時間とし、スペクトルを時間方向に並べて画像情報として表現したものである。この特徴を用いた発明としては、例えば下記の非特許文献4及び特許文献1が挙げられる。
【0009】
このような所定の時間毎に音声や音楽などの種別を識別分類する技術を応用することで、音声データ中において同一種別の連続区間の開始・終了位置を検出することが可能である。
【0010】
【非特許文献1】
J.サウンダース(J.Saunders),「放送された音声/音楽のリアルタイム識別(Real−time discrimination of broadcast speech/music)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1996年,p.993−996
【非特許文献2】
E.シェイアー(E.Scheire)及びM.スラニー(M.Slaney),「ロバストな多特性音声/音楽識別器の作製及び評価(Construction and evaluation of a robust multifeature speech/music discriminator)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1997年,p.1331−1334
【非特許文献3】
M.J.ケア(M.J.Care)、E.S.パリス(E.S.Parris)及びH.ロイド・トーマス(H.Lloyd−Thomas),「音声,音楽を識別するための特徴比較(A comparison of features for speech,music discrimination)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1999年3月,p.149−152
【非特許文献4】
南、阿久津、浜田及び外村,「音情報を用いた映像インデクシングとその応用」,電子情報通信学会論文誌D−II,1998年,第J81−D−II巻,第3号,p.529−537
【特許文献1】
特開平10−187182号公報
【0011】
【発明が解決しようとする課題】
しかしながら、上述した音声や音楽などの種別を識別分類する技術を直接用いて同一種別の連続区間を検出するには、次のような問題がある。
【0012】
例えば音楽(楽曲)は、多くの楽器、歌唱音声、効果音、打楽器によるリズムなどから構成されることが多い。したがって、音声データを短時間毎に識別した場合、連続した楽曲区間中であっても、必ずしも音楽と識別し得るような部分ばかりではなく、短期的にみれば音声と判定されるべき部分、或いは他の種別に分類されるべき部分がしばしば含まれる。会話音声の連続区間を検出する場合も同様であり、連続した会話区間中であっても、短期的にみれば無音部分や、音楽などの雑音が一瞬入ることもしばしば起こり得る。また、明らかな音楽や音声の部分であっても、識別誤りによって誤った種別に識別されてしまうこともある。音声、音楽以外の種別の場合も同様である。
【0013】
したがって、短時間毎の音声・音楽などの種別識別結果を直接用いて連続区間を検出する方法では、長期的に見れば連続区間と見なされるべき部分が途中で分断されたり、逆に長期的には連続区間と見なせない一時的な雑音部分を連続区間と見なしてしまう問題が発生する。
【0014】
一方、このような問題を避けるために識別のための分析時間を長くとれば、識別の時間分解能が低下し、頻繁に音楽・音声などが切り替わる場合に検出率が低下するという問題が発生する。
【0015】
本発明は、このような従来の実情に鑑みて提案されたものであり、音声データ中の音楽や音声などの連続区間を検出する際に、長期的にみて同一種別と見なされるべき連続区間を正しく検出する情報検出装置及びその方法、並びにそのような情報検出処理をコンピュータに実行させるプログラムを提供することを目的とする。
【0016】
【課題を解決するための手段】
上述した目的を達成するために、本発明に係る情報検出装置及びその方法では、情報源に含まれる音声信号の特徴量を分析して、該音声信号の種別を所定の時間単位毎に分類識別し、分類識別された識別情報を識別情報蓄積手段に記録する。そして、上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、この識別頻度を用いて同一種別の連続区間を検出する。
【0017】
この情報検出装置及びその方法では、例えば、任意の種別の上記識別頻度が第1の閾値以上となり、且つ該第1の閾値以上である状態が第1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第2の閾値以下となり、且つ該第2の閾値以下である状態が第2の時間以上連続した場合に該種別の終了を検出する。
【0018】
ここで、上記識別頻度としては、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したもの、或いは任意の種別の上記時間区間における識別回数を用いることができる。
【0019】
また、本発明に係るプログラムは、上述した情報検出処理をコンピュータに実行させるものである。
【0020】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、所定の時間単位毎に音声データを会話音声や音楽等の幾つかの種別に識別分類し、同一種別のデータが連続する連続区間の開始位置、終了位置等の区間情報を記憶装置又は記録媒体に記録する情報検出装置に適用したものである。
【0021】
なお、音声データを幾つかの種別に分類識別する手法は、従来から多数研究されているが、本発明では識別する種別及びその識別手法は特定しない。以下では、一例として音声データを音声又は音楽に識別し、音声連続区間や音楽連続区間を検出するものとして説明するが、音声区間や音楽区間のみならず、歓声区間や無音区間を検出するようにしても構わない。また、音楽のジャンルを識別分類し、それぞれの連続区間を検出するようにしても構わない。
【0022】
先ず、本実施の形態における情報検出装置の概略構成を図1に示す。図1に示すように、本実施の形態における情報検出装置1は、所定フォーマットの音声データを所定の時間単位毎にブロックデータD10として読み込む音声入力部10と、所定の時間単位毎にブロックデータD10の種別を識別して識別情報D11を生成する音声種別識別部11と、識別情報D11を所定のフォーマットに変換し、変換後の識別情報D12を記憶装置・記録媒体13に記録する識別情報出力部12と、記憶装置・記録媒体13に記録された識別情報D13を読み込む識別情報入力部14と、読み込んだ識別情報D14を用いて各種別(音声・音楽など)の識別頻度D15を計算する識別頻度計算部15と、識別頻度D15を評価して同一種別の連続区間の開始位置及び終了位置などを検出し、区間情報D16とする区間開始終了判定部16と、区間情報D16を所定のフォーマットに変換し、インデックス情報D17として記憶装置・記録媒体18に記録する区間情報出力部17とから構成されている。
【0023】
ここで、記憶装置・記録媒体13,18としては、メモリや磁気ディスクなどの記憶装置、半導体メモリ(メモリカード等)などの記憶媒体、或いはCD−ROMなどの記録媒体などを用いることができる。
【0024】
以上のような構成を有する情報検出装置1において、音声入力部10は、音声データを所定の時間単位毎のブロックデータD10として読み込み、そのブロックデータD10を音声種別識別部11に供給する。
【0025】
音声種別識別部11は、音声の特徴量を分析することで所定の時間単位毎にブロックデータD10の種別を識別分類し、識別情報D11を識別情報出力部12に供給する。ここでは一例として、ブロックデータD10を音声又は音楽に識別分類するものとする。なお、識別する時間単位は1秒乃至数秒程度が好ましい。
【0026】
識別情報出力部12は、音声種別識別部11から供給された識別情報D11を所定のフォーマットに変換し、変換後の識別情報D12を記憶装置・記憶媒体13に記録する。ここで、識別情報D12の記録フォーマットの一例を図2に示す。図2のフォーマット例では、音声データ中における位置を示す「時刻」と、その時刻位置における種別を示す「種別コード」と、その識別の確からしさを示す「確からしさ」とが記録されている。「確からしさ」とは、その識別結果の確実さを表す値であり、例えば事後確率最大化法などの識別手法で得られる尤度や、ベクトル量子化の手法によって得られるベクトル量子化歪の逆数などを用いることができる。
【0027】
識別情報入力部14は、記憶装置・記録媒体13に記録された識別情報D13を読み込み、読み込んだ識別情報D14を識別頻度計算部15に供給する。なお、読み込むタイミングとしては、識別情報出力部12が記憶装置・記録媒体13に識別情報D12を記録する際にリアルタイムで読み込んでもよく、識別情報D12の記録が終了した後に読み込んでもよい。
【0028】
識別頻度計算部15は、識別情報入力部14から供給された識別情報D14を用いて、所定の時間単位毎に所定の時間区間における種別毎の識別頻度を計算し、識別頻度情報D15を区間開始終了判定部16に供給する。識別頻度を計算する時間区間の一例を図3に示す。この図3は、音声データが音楽(M)であるか音声(S)であるかを数秒毎に識別し、時刻t0における音声の識別頻度Ps(t0)及び音楽の識別頻度Pm(t0)を、図中Lenで表される時間区間における音声(S)と音楽(M)の識別情報(識別回数及びその確からしさ)から求める例を示したものである。なお、時間区間Lenの長さは、例えば数秒乃至数十秒程度が好ましい。
【0029】
ここで、種別毎の識別頻度を計算する具体例を説明する。識別頻度は、例えばその種別に識別された時刻における確からしさを所定の時間区間で平均することで求めることができる。例えば、時刻tにおける音声の識別頻度Ps(t)は、以下の式(1)のように求められる。ここで、式(1)において、p(t−k)は時刻(t−k)における識別の確からしさを示す。
【0030】
【数1】
Figure 2004271736
【0031】
また、式(1)において確からしさが全て1であると仮定すれば、以下の式(2)のように、単純に識別回数のみを用いて識別頻度Ps(t)を計算することができる。
【0032】
【数2】
Figure 2004271736
【0033】
音楽やその他の種別についても、全く同様にして識別頻度を計算することができる。
【0034】
区間開始終了判定部16は、識別頻度計算部15から供給された識別頻度情報D15を用いて、同一種別の連続区間の開始位置・終了位置等を検出し、区間情報D16として区間情報出力部17に供給する。
【0035】
区間情報出力部17は、区間開始終了判定部16から供給された区間情報D16を所定のフォーマットに変換し、インデックス情報D17として記憶装置・記録媒体18に記録する。ここで、インデックス情報D17の記録フォーマットの一例を図4に示す。図4のフォーマット例では、連続区間の番号又は識別子を示す「区間番号」と、その連続区間の種別を示す「種別コード」と、その連続区間の開始時刻、終了時刻を示す「開始位置」、「終了位置」が記録されている。
【0036】
ここで、連続区間の開始位置・終了位置の検出方法について、図5、図6を用いてさらに詳細に説明する。
【0037】
図5は、音楽の識別頻度を閾値と比較して、音楽連続区間の開始を検出する様子を説明した図である。図の上部に各時刻における識別種別をM(音楽),S(音声)で記してある。縦軸は時刻tにおける音楽の識別頻度Pm(t)である。なお、識別頻度Pm(t)は図3で説明したような時間区間Lenにおいて計算し、図5ではLen=5とする。また、開始判定のための識別頻度Pm(t)の閾値P0を3/5とし、識別回数の閾値H0を6とする。
【0038】
所定の時間単位毎に識別頻度Pm(t)を計算していくと、図中のA点において時間区間Lenにおける識別頻度Pm(t)が3/5となり、初めて閾値P0以上となる。その後も連続して識別頻度Pm(t)は閾値P0以上に保持されており、連続H0回(秒)だけ閾値P0以上の状態が保持された図中B点において初めて、音楽の開始を検出する。
【0039】
音楽の実際の開始位置は、図5からも分かるように、識別頻度Pm(t)が初めて閾値P0以上となったA点よりも少し手前である。識別頻度Pm(t)が閾値P0以上となるまでに連続増加したことを仮定すると、図中X点が開始位置と推測できる。すなわち、識別頻度Pm(t)の閾値P0をP0=J/Lenとすると、初めて閾値P0以上となったA点からJだけ戻ったX点を推定開始位置として検出する。図5の例ではJ=3であるため、A点よりも3だけ戻った位置を音楽開始位置として検出する。
【0040】
図6は、音楽の識別頻度を閾値と比較して音楽連続区間の終了を検出する様子を説明した図である。図5と同様に、Mは音楽に識別されたことを示し、Sは音声に識別されたことを示す。また、縦軸は時刻tにおける音楽の識別頻度Pm(t)である。なお、識別頻度は図3で説明したような時間区間Lenにおいて計算し、図6ではLen=5とする。また、終了判定のための識別頻度Pm(t)の閾値P1を2/5とし、識別回数の閾値H1を6とする。なお、終了検出の閾値P1は、開始検出の閾値P0と同じであってもよい。
【0041】
所定の時間単位毎に識別頻度を計算していくと、図中のC点において時間区間Lenにおける識別頻度Pm(t)が2/5となり、初めて閾値P1以下となる。その後も連続して識別頻度Pm(t)は閾値P1以下に保持されており、連続H1回(秒)だけ閾値P1以下の状態が保持された図中D点において初めて、音楽の終了を検出する。
【0042】
音楽の実際の終了位置は、図6からも分かるように、識別頻度Pm(t)が始めて閾値P1以下となったC点よりも少し手前である。識別頻度Pm(t)が閾値P1以下となるまでに連続減少したことを仮定すると、図中Y点が終了位置と推測できる。すなわち、識別頻度Pm(t)の閾値P1をP1=K/Lenとすると、初めて閾値P1以下となったC点からLen−Kだけ戻ったY点を推定終了位置として検出する。図6の例ではK=2であるため、C点よりも3だけ戻った位置を音楽終了位置として検出する。
【0043】
以上示した連続区間検出処理を図7のフローチャートに示す。先ずステップS1において初期処理を行う。具体的には、現在時刻tを0とし、ある種別の連続区間中であることを示す区間中フラグをFALSE、すなわち連続区間中ではないとする。また、識別頻度P(t)が閾値以上又は閾値以下の状態が保持された回数を数えるカウンタの値を0とする。
【0044】
次にステップS2において、時刻tにおける種別を識別する。なお、既に識別してある場合には、時刻tにおける識別情報を読み込む。
【0045】
続いてステップS3において、識別し、又は読み込んだ結果からデータ末尾に到達したか否かを判別し、データ末尾に到達した場合(Yes)には処理を終了する。一方、データ末尾でない場合(No)にはステップS4に進む。
【0046】
ステップS4では、連続区間を検出したい種別(例えば音楽)の時刻tにおける識別頻度P(t)を計算する。
【0047】
ステップS5では、区間中フラグがTRUE、すなわち連続区間中であるか否かを判別し、TRUEである場合(Yes)にはステップS13に進み、そうでない場合(No)、すなわちFALSEである場合にはステップS6に進む。
【0048】
以下のステップS6乃至ステップS12では、連続区間の開始検出処理が行われる。先ずステップS6において、識別頻度P(t)が開始検出の閾値P0以上であるか否かを判別する。ここで、識別頻度P(t)が閾値P0未満である場合(No)にはステップS20でカウンタの値を0にリセットし、ステップS21で時刻tを1増やしてステップS2に戻る。一方、識別頻度P(t)が閾値P0未満である場合(Yes)にはステップS7に進む。
【0049】
次にステップS7において、カウンタの値が0であるか否かを判別し、0である場合(Yes)にはステップS8で開始候補時刻としてXを記憶し、ステップS9に進んでカウンタの値を1増やす。ここで、Xは例えば図5で説明したような位置である。一方、カウンタの値が0でない場合(No)にはステップS9に進み、カウンタの値を1増やす。
【0050】
続いてステップS10において、カウンタの値が閾値H0に達したか否かを判別し、閾値H0に達していない場合(No)にはステップS21に進み、時刻tを1増やしてステップS2に戻る。一方、閾値H0に達した場合(Yes)にはステップS11に進む。
【0051】
ステップS11では、記憶している開始候補時刻Xを開始時刻として確定し、ステップS12でカウンタの値を0にリセットすると共に区間中フラグをTRUEに変え、ステップS21で時刻tを1増やしてステップS2に戻る。
【0052】
以上、連続区間の開始を検出するまで、すなわちステップS5で区間中フラグがTRUEと判別されるまで、上記の処理を繰り返す。
【0053】
連続区間の開始が検出されると、以下のステップS13乃至ステップS19では、連続区間の終了検出処理が行われる。先ずステップS13において、識別頻度P(t)が終了検出の閾値P1以下であるか否かを判別する。ここで、識別頻度P(t)が閾値P1よりも大きい場合(No)にはステップS20でカウンタの値を0にリセットし、ステップS21で時刻tを1増やしてステップS2に戻る。一方、識別頻度P(t)が閾値P1以下である場合(Yes)にはステップS14に進む。
【0054】
次にステップS14において、カウンタの値が0であるか否かを判別し、0である場合(Yes)にはステップS15で終了候補時刻としてYを記憶し、ステップS16に進んでカウンタの値を1増やす。ここで、Yは例えば図6で説明したような位置である。一方、カウンタの値が0でない場合(No)にはステップS16に進み、カウンタの値を1増やす。
【0055】
続いてステップS17において、カウンタの値が閾値H1に達したか否かを判別し、閾値H1に達していない場合(No)にはステップS21に進み、時刻tを1増やしてステップS2に戻る。一方、閾値H1に達した場合(Yes)にはステップS18に進む。
【0056】
ステップS18では、記憶している終了候補時刻Yを終了時刻として確定し、ステップS19でカウンタの値を0にリセットすると共に区間中フラグをFALSEに変え、ステップS21で時刻tを1増やしてステップS2に戻る。
【0057】
以上、連続区間の終了を検出するまで、すなわちステップS5で区間中フラグがFALSEと判別されるまで、上記の処理を繰り返す。
【0058】
以上のように、本実施の形態における情報検出装置1によれば、情報源における音声信号を所定の時間単位毎に各種別(カテゴリ)に識別し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出することにより、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。
【0059】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【0060】
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記憶媒体・記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
【0061】
【発明の効果】
以上詳細に説明したように本発明に係る情報検出装置及びその方法では、情報源に含まれる音声信号の特徴量を分析して、該音声信号の種別を所定の時間単位毎に分類識別し、分類識別された識別情報を識別情報蓄積手段に記録する。そして、上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、この識別頻度を用いて同一種別の連続区間を検出する。
【0062】
この情報検出装置及びその方法では、例えば、任意の種別の上記識別頻度が第1の閾値以上となり、且つ該第1の閾値以上である状態が第1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第2の閾値以下となり、且つ該第2の閾値以下である状態が第2の時間以上連続した場合に該種別の終了を検出する。
【0063】
ここで、上記識別頻度としては、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したもの、或いは任意の種別の上記時間区間における識別回数を用いることができる。
【0064】
このような情報検出装置及びその方法によれば、情報源に含まれる音声信号を所定の時間単位毎に音楽や音声などの種別(カテゴリ)に識別分類し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出することにより、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。
【0065】
また、本発明に係るプログラムは、上述した情報検出処理をコンピュータに実行させるものである。このようなプログラムによれば、上述した情報識別処理をソフトウェアにより実現することができる。
【図面の簡単な説明】
【図1】本実施の形態における情報検出装置の概略構成を示す図である。
【図2】識別情報の記録フォーマットの一例を示す図である。
【図3】識別頻度を計算する時間区間の一例を示す図である。
【図4】インデックス情報の記録フォーマットの一例を示す図である。
【図5】音楽連続区間の開始を検出する様子を説明するための図である。
【図6】音楽連続区間の終了を検出する様子を説明するための図である。
【図7】同情報検出装置における連続区間検出処理を示すフローチャートである。
【符号の説明】
1 情報検出装置、10 音声入力部、11 音声種別識別部、12 識別情報出力部、13 記憶装置・記録媒体、14 識別情報入力部、15 識別頻度計算部、16 区間開始終了判定部、17 区間情報出力部、18 記憶装置・記録媒体

Claims (15)

  1. 情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別手段と、
    上記音声種別識別手段によって分類識別された識別情報を記録する識別情報蓄積手段と、
    上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算手段と、
    上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出手段と
    を備えることを特徴とする情報検出装置。
  2. 上記連続区間検出手段によって検出された上記連続区間の区間情報をインデックスとして蓄積する区間情報蓄積手段をさらに備えることを特徴とする請求項1記載の情報検出装置。
  3. 上記連続区間検出手段は、任意の種別の上記識別頻度が第1の閾値以上となり、且つ該第1の閾値以上である状態が第1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第2の閾値以下となり、且つ該第2の閾値以下である状態が第2の時間以上連続した場合に該種別の終了を検出することを特徴とする請求項1記載の情報検出装置。
  4. 上記音声種別識別手段は、上記時間単位毎に上記音声信号の種別を分類識別すると共に、その識別の確からしさを求めることを特徴とする請求項1記載の情報検出装置。
  5. 上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものであることを特徴とする請求項4記載の情報検出装置。
  6. 上記識別頻度は、任意の種別の上記時間区間における識別回数であることを特徴とする請求項1記載の情報検出装置。
  7. 上記識別情報蓄積手段は、上記時間単位毎の上記音声信号の種別と上記識別の確からしさとを、上記識別情報として記録することを特徴とする請求項4記載の情報検出装置。
  8. 情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、
    上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録する記録工程と、
    上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算工程と、
    上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程と
    を有することを特徴とする情報検出方法。
  9. 上記連続区間検出工程にて検出された上記連続区間の区間情報をインデックスとして区間情報蓄積手段に蓄積する蓄積工程をさらに有することを特徴とする請求項8記載の情報検出方法。
  10. 上記連続区間検出工程では、任意の種別の上記識別頻度が第1の閾値以上となり、且つ該第1の閾値以上である状態が第1の時間以上連続した場合に該種別の開始が検出され、上記識別頻度が第2の閾値以下となり、且つ該第2の閾値以下である状態が第2の時間以上連続した場合に該種別の終了が検出されることを特徴とする請求項8記載の情報検出方法。
  11. 上記音声種別識別工程では、上記時間単位毎に上記音声信号の種別が分類識別されると共に、その識別の確からしさが求められることを特徴とする請求項8記載の情報検出方法。
  12. 上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものであることを特徴とする請求項11記載の情報検出方法。
  13. 上記識別頻度は、任意の種別の上記時間区間における識別回数であることを特徴とする請求項8記載の情報検出方法。
  14. 上記記録工程では、上記時間単位毎の上記音声信号の種別と上記識別の確からしさとが、上記識別情報として上記識別情報蓄積手段に記録されることを特徴とする請求項11記載の情報検出方法。
  15. 所定の処理をコンピュータに実行させるプログラムにおいて、
    情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、
    上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録する記録工程と、
    上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算工程と、
    上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程と
    を有することを特徴とするプログラム。
JP2003060382A 2003-03-06 2003-03-06 情報検出装置及び方法、並びにプログラム Expired - Fee Related JP4348970B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2003060382A JP4348970B2 (ja) 2003-03-06 2003-03-06 情報検出装置及び方法、並びにプログラム
US10/513,549 US8195451B2 (en) 2003-03-06 2004-02-10 Apparatus and method for detecting speech and music portions of an audio signal
KR1020047017765A KR101022342B1 (ko) 2003-03-06 2004-02-10 정보 검출 장치 및 정보 검출 방법
EP04709697A EP1600943B1 (en) 2003-03-06 2004-02-10 Information detection device, method, and program
DE602004023180T DE602004023180D1 (de) 2003-03-06 2004-02-10 Informationsdetektionseinrichtung, -verfahren und -programm
PCT/JP2004/001397 WO2004079718A1 (ja) 2003-03-06 2004-02-10 情報検出装置及び方法、並びにプログラム
CNB200480000194XA CN100530354C (zh) 2003-03-06 2004-02-10 信息检测装置、方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003060382A JP4348970B2 (ja) 2003-03-06 2003-03-06 情報検出装置及び方法、並びにプログラム

Publications (3)

Publication Number Publication Date
JP2004271736A true JP2004271736A (ja) 2004-09-30
JP2004271736A5 JP2004271736A5 (ja) 2006-04-06
JP4348970B2 JP4348970B2 (ja) 2009-10-21

Family

ID=32958879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003060382A Expired - Fee Related JP4348970B2 (ja) 2003-03-06 2003-03-06 情報検出装置及び方法、並びにプログラム

Country Status (7)

Country Link
US (1) US8195451B2 (ja)
EP (1) EP1600943B1 (ja)
JP (1) JP4348970B2 (ja)
KR (1) KR101022342B1 (ja)
CN (1) CN100530354C (ja)
DE (1) DE602004023180D1 (ja)
WO (1) WO2004079718A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007023660A1 (ja) * 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. 音識別装置
WO2008108239A1 (ja) * 2007-02-27 2008-09-12 Nec Corporation 音声認識システム、方法およびプログラム
JP2009008836A (ja) * 2007-06-27 2009-01-15 Nippon Telegr & Teleph Corp <Ntt> 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2015035061A (ja) * 2013-08-08 2015-02-19 富士通株式会社 仮想マシン管理方法、仮想マシン管理プログラム及び仮想マシン管理装置

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE488002T1 (de) * 2005-09-07 2010-11-15 Biloop Tecnologic S L Mikrocontroller-implementiertes verfahren zur erkennung eines tonsignals
JP2009192725A (ja) * 2008-02-13 2009-08-27 Sanyo Electric Co Ltd 楽曲記録装置
JP5325292B2 (ja) * 2008-07-11 2013-10-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 信号の異なるセグメントを分類するための方法および識別器
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
WO2011015237A1 (en) * 2009-08-04 2011-02-10 Nokia Corporation Method and apparatus for audio signal classification
US20110040981A1 (en) * 2009-08-14 2011-02-17 Apple Inc. Synchronization of Buffered Audio Data With Live Broadcast
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044244B (zh) 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
US9293131B2 (en) * 2010-08-10 2016-03-22 Nec Corporation Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN103092854B (zh) * 2011-10-31 2017-02-08 深圳光启高等理工研究院 一种音乐数据分类方法
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
US9817379B2 (en) * 2014-07-03 2017-11-14 David Krinkel Musical energy use display
KR102435933B1 (ko) * 2020-10-16 2022-08-24 주식회사 엘지유플러스 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3102385A1 (de) * 1981-01-24 1982-09-02 Blaupunkt-Werke Gmbh, 3200 Hildesheim Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
JP2551050B2 (ja) * 1987-11-13 1996-11-06 ソニー株式会社 有音無音判定回路
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
DE69214882T2 (de) * 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JP2910417B2 (ja) * 1992-06-17 1999-06-23 松下電器産業株式会社 音声音楽判別装置
JPH06332492A (ja) 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
JPH08335091A (ja) * 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3475317B2 (ja) 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007023660A1 (ja) * 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. 音識別装置
US7473838B2 (en) 2005-08-24 2009-01-06 Matsushita Electric Industrial Co., Ltd. Sound identification apparatus
WO2008108239A1 (ja) * 2007-02-27 2008-09-12 Nec Corporation 音声認識システム、方法およびプログラム
US8417518B2 (en) 2007-02-27 2013-04-09 Nec Corporation Voice recognition system, method, and program
JP5229217B2 (ja) * 2007-02-27 2013-07-03 日本電気株式会社 音声認識システム、方法およびプログラム
JP2009008836A (ja) * 2007-06-27 2009-01-15 Nippon Telegr & Teleph Corp <Ntt> 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP4572218B2 (ja) * 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2015035061A (ja) * 2013-08-08 2015-02-19 富士通株式会社 仮想マシン管理方法、仮想マシン管理プログラム及び仮想マシン管理装置

Also Published As

Publication number Publication date
US20050177362A1 (en) 2005-08-11
CN1698095A (zh) 2005-11-16
JP4348970B2 (ja) 2009-10-21
US8195451B2 (en) 2012-06-05
KR101022342B1 (ko) 2011-03-22
EP1600943A1 (en) 2005-11-30
KR20050109403A (ko) 2005-11-21
EP1600943A4 (en) 2006-12-06
EP1600943B1 (en) 2009-09-16
WO2004079718A1 (ja) 2004-09-16
CN100530354C (zh) 2009-08-19
DE602004023180D1 (de) 2009-10-29

Similar Documents

Publication Publication Date Title
JP4348970B2 (ja) 情報検出装置及び方法、並びにプログラム
JP4442081B2 (ja) 音声抄録選択方法
US9336794B2 (en) Content identification system
US7386357B2 (en) System and method for generating an audio thumbnail of an audio track
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
EP2560167B1 (en) Method and apparatus for performing song detection in audio signal
Foote Automatic audio segmentation using a measure of audio novelty
US8838452B2 (en) Effective audio segmentation and classification
US6542869B1 (en) Method for automatic analysis of audio including music and speech
US7184955B2 (en) System and method for indexing videos based on speaker distinction
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
US20060021494A1 (en) Method and apparatus for determing musical notes from sounds
JP4099576B2 (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
JP3475317B2 (ja) 映像分類方法および装置
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
JP3607450B2 (ja) オーディオ情報分類装置
AU2005252714B2 (en) Effective audio segmentation and classification
Pikrakis et al. An overview of speech/music discrimination techniques in the context of audio recordings
AU2003204588B2 (en) Robust Detection and Classification of Objects in Audio Using Limited Training Data
Xu et al. Support vector machine learning for music discrimination
Alfeo PROYECTO FIN DE CARRERA
Dutta et al. Speech/Music Classification Using Delta-Energy and RANSAC

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090630

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090713

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130731

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees