JP3757719B2 - 音響データ分析方法及びその装置 - Google Patents
音響データ分析方法及びその装置 Download PDFInfo
- Publication number
- JP3757719B2 JP3757719B2 JP32948999A JP32948999A JP3757719B2 JP 3757719 B2 JP3757719 B2 JP 3757719B2 JP 32948999 A JP32948999 A JP 32948999A JP 32948999 A JP32948999 A JP 32948999A JP 3757719 B2 JP3757719 B2 JP 3757719B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- genre
- program
- type
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明はディジタル放送番組等のデジタルコンテンツ情報のスキミング、検索、フィルタリングを実現するのに必要な付加情報を自動的に抽出するための技術に相当する。
【0002】
【従来の技術】
近年、デジタル技術の発達によって、音や映像等のデジタルコンテンツ情報を大量に送信し、蓄積することができるようになった。大量のデジタルコンテンツ情報の中から、効率的に目的の情報を取り出すための方法として、スキミング、検索、フィルタリング等が知られているが、この方法を実現するためには、あらかじめデジタルコンテンツ情報の構造を解析し、構造に応じた付加情報を付ける必要がある。このような付加情報を人手に頼って付けていたのでは、コストがかかりすぎるため、自動的にデジタルコンテンツ情報の構造を解析し、構造に適した付加情報を付与する技術の研究開発が行われている。
【0003】
例えば、USP-5,918,223(Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information. June 29,1999)では、音の分析方法と検索方法が特許登録されている。上記従来例は、音量、ピッチ、明るさ、帯域、メル周波数ケプストラム係数(MFCC)といった特徴量を統計処理し、音響情報の種別を判別するものである。これは、例えばインターネット上にある単一音源の音響ファイル(あるいはセグメント)を分類、検索するのに有効な手法である。また、上記技術を用いて、連続音をセグメントする方法を3種類示している。
【0004】
1番目は、ユーザの提示する音の代表値(特徴ベクトルの統計量)との類似度がしきい値以上の領域とそれ以外とにセグメントする方法である。この方法によって、連続音は、2種類の領域に分割される。また、2番目は、ユーザの提示する音と全く同じ領域とそうでない領域にセグメントする方法である。最初の方法は、特徴ベクトルの統計量を代表値として類似度計算するのに対し、2番目の方法は、特徴ベクトルそのものを使って類似度を計算するところが大きな違いである。3番目の方法は、連続音の隣接する領域を比較し、類似度がしきい値以下となるポイント(シーンチェンジ)を検出するものである。
【0005】
【発明が解決しようとする課題】
しかしながら、放送番組などの音響データを解析してみると、単一音源の音は少なく、音声と音楽が混合した音、観客の騒音とアナウンサーの声の混合した音等、複数の音が混在していることがわかる。このように、実際には混合音が多いため、音の種別を判定するだけの手法は放送番組のようなコンテンツに対して実用的でないという問題点がある。
【0006】
また、音響データは多様であるため、隣接する領域の類似度のみでシーンチェンジを検出すると、過剰に検出される。さらには、どのセグメントがその番組中重要であるかを判定することも困難である。
【0007】
【課題を解決するための手段】
この課題を解決するために本発明は、音響データを意味のある区間に分割し、前記区間の重要度を判定する音響データ分析装置において、音響データを複数の区間に分割する音響データ分割手段と、前記区間の種別を判定する区間種別判定手段と、区間種別の統計処理結果を用いて音響データのジャンルを判別する区間種別パターン判別手段と、ジャンルに応じた制御情報を管理する制御情報管理部とを備えたものである。
【0008】
本発明によれば、音響区間の単純な種別(音量の大きさ、音声が含まれる有音、音声が含まれない有音、無音)をいったん判別し、この音響区間の種別パターンによって、番組のジャンルを推定するので、ジャンルに適した混合音のモデルを設定できる。これにより、詳細な種別判定を行うことができるとともにやジャンルに適した重要度の判定を行うことができる。また、隣接する区間の特徴量の類似度でなく、隣接する区間の特徴量の変化パターン(増加/減少)、変化前の特徴量の値、変化後の特徴量の値、変化の大きさを利用することにより、過剰な区間検出を抑制することができる。
【0009】
【発明の実施の形態】
本発明の請求項1に記載の発明は、一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割する音響データ分割手段と、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定する区間種別判定手段と、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別する区間種別パターン判別手段と、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理する制御情報管理手段とを備え、前記区間種別判定手段は前記区間種別パターン手段が判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴としており、番組のジャンルの推定、番組のジャンルに適した重要度判定を行うことができるという作用を有する。
【0012】
本発明の請求項2に記載の発明は、請求項1に記載の音響データ分析装置において、区間種別は、音声区間、混合音声区間、音声なしの有音区間または無音区間のいずれかであることを特徴としており、ジャンルを判別する前の種別判定を高精度に実現でき、ジャンルの判別にも有効なパターンを生成するという作用を有する。
【0013】
本発明の請求項3に記載の発明は、一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割するステップと、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定するステップと、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別するステップと、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理するステップとを備え、前記区間種別判定は前記判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴としており、ジャンル情報を用いて音響の分割区間の重要度を推定できるという作用を有する。
【0015】
以下、本発明の実施の形態について、図を用いて説明する。
【0016】
(実施の形態1)
ジャンル判定を行う場合のシステム
図1は、本発明の実施の形態1となる音響データ分析装置の構成図である。本実施の形態1の音響データ分析装置は、様々なフォーマットの音響データを番組単位に読み込む音響データ入力部101と、読み込んだ音響データを音響特徴量の変化情報を用いて分割する区間分割部102と、ジャンル不明の場合、音声区間、音声ありの混合音区間、音声なしの有音区間、無音区間のいずれかに区間の種別を判定し、ジャンルが判明した場合、ジャンルに適応した種別に判定する区間種別判定部103と、ジャンルが既知の番組の区間種別判定結果を蓄積したジャンル判別用標準パターン蓄積部105と、区間種別パターンによって番組のジャンルを判別する区間種別パターン判別部104と、ジャンルに適した種別算出方法や重要度算出方法を管理する番組ジャンル別制御情報管理部106と、音響データの分析結果を出力する分析結果出力部107とから構成されている。
【0017】
以上の音響データ分析装置の処理フローを図2に示す。まず音響データ入力部101を用いて音響データを入力し、区間分割部102を用いて入力音響データを複数区間に分割する。以上が区間分割手段(step201)に相当する。次に、区間種別判定部103を用いて音声区間、音声ありの混合音区間、音声なしの有音区間、無音区間のいずれかに区間の種別を判定し、判定結果を区間種別パターン判定部104に出力する。以上が区間種別判定手段(step202)に相当する。区間種別パターン判定部104は、区間種別判定部103から出力される区間種別のパターンと、ジャンル判別用標準パターン蓄積部105に蓄積されているジャンルが既知の番組の区間種別パターンとを比較し、類似度の高い上位K個の番組を選択する。選択した番組のジャンルで最も多いジャンルを音響データ入力部101から入力した音響データのジャンルとする。このジャンル推定結果を番組別制御情報管理部106に入力する。以上が区間種別パターン判別手段(step203)に相当する。番組ジャンル別制御情報管理部106は、番組ジャンルに適した区間種別情報と重要区間判定情報を制御情報として区間種別判定部103に出力する。区間種別判定部103は、ジャンル別制御情報を用いて、区間種別や区間重要度を計算し、分析結果出力部107へ出力する。以上がジャンル適応型区間種別判定手段(step204)に相当する。分析結果出力部107は分析結果を適当なフォーマットに変換して出力する。例えば、区間のスタート時間、区間のエンド時間、区間重要度の値、区間種別番号を行単位に出力する。
【0018】
具体的な区間分割手段(step201)を図3のフローチャート図を用いて説明する。音響データを入力として自己相関分析を行い、正規化した1次の自己相関係数を出力する(step301)。正規化した1次の自己相関係数を用いて音響データの分割位置を検出し、分割位置のランク付けをする(step310)。分割位置のランクに応じて音響データを分割する(step320)。さらに分割位置検出手段(step310)は、音響データの全ての位置で前後区間の正規化1次自己相関係数の最大値を計算し(step311)、隣接する分割区間の最大値の差を計算するとともに(step312)、時間方向に対して最大値が増加するパターン(立ち上がりの位置)を見つける(step313)。さらに、立ち上がり位置の変化の大きさに応じてN段階のランク付けを行い(step314)、一定ランク以上の分割位置の前後数秒以内(例えば2秒以内)に一定ランク以下の分割位置があるかどうかの判定を行い(step315)、一定ランク以下の分割位置が見つかれば、その分割位置のランクを1ランク下げる(step316)。
【0019】
具体的な区間種別判定判別手段(step202)を図4のフローチャート図を用いて説明する。区間単位にしきい値以下の1次自己相関係数の割合、1次自己相関係数の平均、音量のピーク等の音響特徴量を計算し(step401)、しきい値以下の1次自己相関係数の割合がα以上β以下であるかの判定を行い(step402)、条件が合えば音声区間とみなす。また、しきい値以下の1次自己相関係数の割合がα以下であるかの判定を行い(step403)、条件が合えば音声ありの混合音区間とみなす。さらに、上記ステップで条件の合わなかった区間の内、音量ピークがγ以上かどうかの判定を行い(step404)、条件が合えば音声なしの有音区間とみなす。以上のステップでいずれの条件にも合わなかった区間を無音区間とみなす。
【0020】
具体的な区間種別パターン判別手段(step203)を図5のフローチャート図を用いて説明する。番組単位に、各区間種別の割合、区間長が10秒以上/1分以上/3分以上の区間の割合、区間長が10秒以下/1分以下/3分以下の区間の割合、さらには区間種別毎の区間長の割合等の番組種別統計量を計算し(step501)、前ステップで求めた番組種別統計量を使って、ジャンル判別用標準パターンとの類似度を計算し、類似度の高い上位N個を選択する(step502)。選択したN個の番組中、最も多いジャンルを当該音響データのジャンルとする。ジャンル数が同じ場合は、最も類似度の高い番組のジャンルとする(step503)。
【0021】
具体的なジャンル適応型区間種別判定手段(step204)を図6のフローチャート図を用いて説明する。あらかじめ用意したジャンルに適した制御情報(区間種別情報や重要区間情報)を読み込み(step601)、ジャンルに適した特徴量を計算し(step602)、区間種別の判定及び区間種別に応じた重要度を計算する(step603)。ジャンルに適した区間種別情報とは、例えば、音楽番組では、区間種別として音楽区間、トーク区間があり、音楽区間の特徴を判定するための特徴量とそのしきい値、トーク区間と判定するための特徴量とそのしきい値に相当する。区間種別を判定するための特徴量として、音量、ピッチ、明るさ、帯域、メル周波数ケプストラムの他に、自己相関係数を用いる。例えば、音楽番組というジャンルの音楽区間を判定するためには、分割区間単位に正規化1次自己相関係数が0.01以下となる部分区間の割合が0.1以下かつ正規化1次自己相関係数が0.1以上という条件を設定する。重要区間判定情報とは、例えば、音楽番組では、音楽区間の重要度が高く、トーク区間の重要度が低いというような情報に相当する。
【0022】
(実施の形態2)
ジャンル情報が入力される場合
図7は、音響データとともに、ジャンル情報が入力される場合の実施の形態となる音響データ分析装置のシステム構成図である。本実施の形態1の音響データ分析装置は、様々なフォーマットの音響データを番組単位に読み込む音響データ入力部701と、読み込んだ音響データを音響特徴量の変化情報を用いて分割する区間分割部702と、ジャンルに適応した種別に判定する区間種別判定部703と、ジャンルに適した種別算出方法や重要度算出方法を管理する番組ジャンル別制御情報管理部704と、音響データの分析結果を出力する分析結果出力部705とから構成されている。
【0023】
以上の音響データ分析装置を構築するためには、まず音響データ入力部701を用いて音響データを入力し、区間分割部702を用いて入力音響データを複数区間に分割する。次に、区間種別判定部703はジャンルをこのジャンル推定結果を番組別制御情報管理部704に出力する。番組別制御情報管理部704は、ジャンルに適した区間種別計算方法や重要区間判定方法を制御情報として区間種別判定部703に出力する。区間種別判定部703は、ジャンル別制御情報を用いて、区間種別や区間重要度を計算し、分析結果出力部705へ出力する。分析結果出力部705は分析結果を適当なフォーマットに変換して出力する。
【0024】
実施の形態1との違いは、ジャンル情報があらかじめわかっているかどうかである。実施の形態2では、ジャンル情報があらかじめわかっている場合を想定しており、実施の形態1において、ジャンルを推定する装置を除いた構成となる。
【0025】
【発明の効果】
以上のように本発明の音響データ分析装置及び方法は、いったん音響区間の単純な種別(音量の大きさ、音声が含まれる有音、音声が含まれない有音、無音)を判定し、この判定結果によって番組のジャンルを推定しているので、分割区間の混合音の種別判定や重要度の判定を行うことができるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態1となる音響データ分析装置の構成図
【図2】音響データ分析装置の処理全体を表すフローチャート
【図3】区間分割手段のフローチャート
【図4】区間種別判定手段(1)のフローチャート
【図5】区間種別パターン判別手段のフローチャート
【図6】ジャンル適応型区間種別判定手段のフローチャート
【図7】本発明の実施の形態2となる音響データ分析装置のシステム構成図
【符号の説明】
101 音響データ入力部
102 区間分割部
103 区間種別判定部
104 区間種別パターン判別部
105 ジャンル判別用標準パターン蓄積部
106 番組ジャンル別制御情報管理部
107 分析結果出力部
Claims (3)
- 一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割する音響データ分割手段と、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定する区間種別判定手段と、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別する区間種別パターン判別手段と、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理する制御情報管理手段とを備え、前記区間種別判定手段は前記区間種別パターン手段が判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴とする音響データ分析装置。
- 区間の種別は、音声区間、混合音声区間、音声なしの有音区間または無音区間のいずれかである請求項1記載の音響データ分析装置。
- 一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割するステップと、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定するステップと、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別するステップと、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理するステップとを備え、前記区間種別判定は前記判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴とする音響データ分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32948999A JP3757719B2 (ja) | 1999-11-19 | 1999-11-19 | 音響データ分析方法及びその装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32948999A JP3757719B2 (ja) | 1999-11-19 | 1999-11-19 | 音響データ分析方法及びその装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001147697A JP2001147697A (ja) | 2001-05-29 |
JP3757719B2 true JP3757719B2 (ja) | 2006-03-22 |
Family
ID=18221952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32948999A Expired - Fee Related JP3757719B2 (ja) | 1999-11-19 | 1999-11-19 | 音響データ分析方法及びその装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3757719B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030055634A1 (en) | 2001-08-08 | 2003-03-20 | Nippon Telegraph And Telephone Corporation | Speech processing method and apparatus and program therefor |
JP3891111B2 (ja) | 2002-12-12 | 2007-03-14 | ソニー株式会社 | 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム |
GB0230097D0 (en) * | 2002-12-24 | 2003-01-29 | Koninkl Philips Electronics Nv | Method and system for augmenting an audio signal |
JP4075670B2 (ja) | 2003-04-09 | 2008-04-16 | トヨタ自動車株式会社 | 変化情報認識装置および変化情報認識方法 |
US7599554B2 (en) * | 2003-04-14 | 2009-10-06 | Koninklijke Philips Electronics N.V. | Method and apparatus for summarizing a music video using content analysis |
US8311821B2 (en) * | 2003-04-24 | 2012-11-13 | Koninklijke Philips Electronics N.V. | Parameterized temporal feature analysis |
JP4491009B2 (ja) * | 2003-09-30 | 2010-06-30 | 株式会社東芝 | 動画像処理装置 |
JP4047264B2 (ja) | 2003-09-30 | 2008-02-13 | 株式会社東芝 | 動画像処理装置、動画像処理方法および動画像処理プログラム |
JP2007101945A (ja) * | 2005-10-05 | 2007-04-19 | Fujifilm Corp | 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム |
JP4668039B2 (ja) * | 2005-11-18 | 2011-04-13 | 三菱電機株式会社 | 楽曲分析装置及び楽曲検索装置 |
JP4841276B2 (ja) * | 2006-03-22 | 2011-12-21 | 三洋電機株式会社 | 音楽信号蓄積装置および音楽信号蓄積プログラム |
JP5060224B2 (ja) | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
JP5052449B2 (ja) * | 2008-07-29 | 2012-10-17 | 日本電信電話株式会社 | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
US8930190B2 (en) | 2012-04-20 | 2015-01-06 | Panasonic Intellectual Property Corporation Of America | Audio processing device, audio processing method, program and integrated circuit |
-
1999
- 1999-11-19 JP JP32948999A patent/JP3757719B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001147697A (ja) | 2001-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4795934B2 (ja) | パラメータで表示された時間特性の分析 | |
KR101117933B1 (ko) | 오디오 썸네일을 생성하는 시스템 및 방법 | |
JP5034516B2 (ja) | ハイライトシーン検出装置 | |
JP3757719B2 (ja) | 音響データ分析方法及びその装置 | |
KR100852196B1 (ko) | 음악 재생 시스템 및 그 방법 | |
US20050131688A1 (en) | Apparatus and method for classifying an audio signal | |
JP5460709B2 (ja) | 音響信号処理装置および方法 | |
JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
US8106284B2 (en) | Playback apparatus and display method | |
US6881889B2 (en) | Generating a music snippet | |
US8885841B2 (en) | Audio processing apparatus and method, and program | |
EP1374097A1 (en) | Image processing | |
JPWO2007049381A1 (ja) | 映像要約装置 | |
WO2015114216A2 (en) | Audio signal analysis | |
JP2002016873A (ja) | 信号処理装置及び方法 | |
US7243062B2 (en) | Audio segmentation with energy-weighted bandwidth bias | |
US20050160449A1 (en) | Apparatus and method for automatic dissection of segmented audio signals | |
EP1850322B1 (en) | Systems and methods for analyzing video content | |
US7680654B2 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
JP2000285242A (ja) | 信号処理方法及び映像音声処理装置 | |
KR100863122B1 (ko) | 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법 | |
JP2010038943A (ja) | 音響信号処理装置及び方法 | |
CN113889096A (zh) | 一种音库训练数据的分析方法和装置 | |
Li | Using random forests with meta frame and meta features to enable overlapped audio content indexing and segmentation | |
Kyperountas et al. | Audio PCA in a novel multimedia scheme for scene change detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050630 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090113 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100113 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |