JP3757719B2

JP3757719B2 - 音響データ分析方法及びその装置

Info

Publication number: JP3757719B2
Application number: JP32948999A
Authority: JP
Inventors: 俊昭秋元
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-11-19
Filing date: 1999-11-19
Publication date: 2006-03-22
Anticipated expiration: 2019-11-19
Also published as: JP2001147697A

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル放送番組等のデジタルコンテンツ情報のスキミング、検索、フィルタリングを実現するのに必要な付加情報を自動的に抽出するための技術に相当する。
【０００２】
【従来の技術】
近年、デジタル技術の発達によって、音や映像等のデジタルコンテンツ情報を大量に送信し、蓄積することができるようになった。大量のデジタルコンテンツ情報の中から、効率的に目的の情報を取り出すための方法として、スキミング、検索、フィルタリング等が知られているが、この方法を実現するためには、あらかじめデジタルコンテンツ情報の構造を解析し、構造に応じた付加情報を付ける必要がある。このような付加情報を人手に頼って付けていたのでは、コストがかかりすぎるため、自動的にデジタルコンテンツ情報の構造を解析し、構造に適した付加情報を付与する技術の研究開発が行われている。
【０００３】
例えば、USP-5,918,223(Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information. June 29,1999)では、音の分析方法と検索方法が特許登録されている。上記従来例は、音量、ピッチ、明るさ、帯域、メル周波数ケプストラム係数（ＭＦＣＣ）といった特徴量を統計処理し、音響情報の種別を判別するものである。これは、例えばインターネット上にある単一音源の音響ファイル（あるいはセグメント）を分類、検索するのに有効な手法である。また、上記技術を用いて、連続音をセグメントする方法を３種類示している。
【０００４】
１番目は、ユーザの提示する音の代表値（特徴ベクトルの統計量）との類似度がしきい値以上の領域とそれ以外とにセグメントする方法である。この方法によって、連続音は、２種類の領域に分割される。また、２番目は、ユーザの提示する音と全く同じ領域とそうでない領域にセグメントする方法である。最初の方法は、特徴ベクトルの統計量を代表値として類似度計算するのに対し、２番目の方法は、特徴ベクトルそのものを使って類似度を計算するところが大きな違いである。３番目の方法は、連続音の隣接する領域を比較し、類似度がしきい値以下となるポイント（シーンチェンジ）を検出するものである。
【０００５】
【発明が解決しようとする課題】
しかしながら、放送番組などの音響データを解析してみると、単一音源の音は少なく、音声と音楽が混合した音、観客の騒音とアナウンサーの声の混合した音等、複数の音が混在していることがわかる。このように、実際には混合音が多いため、音の種別を判定するだけの手法は放送番組のようなコンテンツに対して実用的でないという問題点がある。
【０００６】
また、音響データは多様であるため、隣接する領域の類似度のみでシーンチェンジを検出すると、過剰に検出される。さらには、どのセグメントがその番組中重要であるかを判定することも困難である。
【０００７】
【課題を解決するための手段】
この課題を解決するために本発明は、音響データを意味のある区間に分割し、前記区間の重要度を判定する音響データ分析装置において、音響データを複数の区間に分割する音響データ分割手段と、前記区間の種別を判定する区間種別判定手段と、区間種別の統計処理結果を用いて音響データのジャンルを判別する区間種別パターン判別手段と、ジャンルに応じた制御情報を管理する制御情報管理部とを備えたものである。
【０００８】
本発明によれば、音響区間の単純な種別（音量の大きさ、音声が含まれる有音、音声が含まれない有音、無音）をいったん判別し、この音響区間の種別パターンによって、番組のジャンルを推定するので、ジャンルに適した混合音のモデルを設定できる。これにより、詳細な種別判定を行うことができるとともにやジャンルに適した重要度の判定を行うことができる。また、隣接する区間の特徴量の類似度でなく、隣接する区間の特徴量の変化パターン（増加／減少）、変化前の特徴量の値、変化後の特徴量の値、変化の大きさを利用することにより、過剰な区間検出を抑制することができる。
【０００９】
【発明の実施の形態】
本発明の請求項１に記載の発明は、一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割する音響データ分割手段と、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定する区間種別判定手段と、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別する区間種別パターン判別手段と、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理する制御情報管理手段とを備え、前記区間種別判定手段は前記区間種別パターン手段が判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴としており、番組のジャンルの推定、番組のジャンルに適した重要度判定を行うことができるという作用を有する。
【００１２】
本発明の請求項２に記載の発明は、請求項１に記載の音響データ分析装置において、区間種別は、音声区間、混合音声区間、音声なしの有音区間または無音区間のいずれかであることを特徴としており、ジャンルを判別する前の種別判定を高精度に実現でき、ジャンルの判別にも有効なパターンを生成するという作用を有する。
【００１３】
本発明の請求項３に記載の発明は、一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割するステップと、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定するステップと、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別するステップと、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理するステップとを備え、前記区間種別判定は前記判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴としており、ジャンル情報を用いて音響の分割区間の重要度を推定できるという作用を有する。
【００１５】
以下、本発明の実施の形態について、図を用いて説明する。
【００１６】
（実施の形態１）
ジャンル判定を行う場合のシステム
図１は、本発明の実施の形態１となる音響データ分析装置の構成図である。本実施の形態１の音響データ分析装置は、様々なフォーマットの音響データを番組単位に読み込む音響データ入力部１０１と、読み込んだ音響データを音響特徴量の変化情報を用いて分割する区間分割部１０２と、ジャンル不明の場合、音声区間、音声ありの混合音区間、音声なしの有音区間、無音区間のいずれかに区間の種別を判定し、ジャンルが判明した場合、ジャンルに適応した種別に判定する区間種別判定部１０３と、ジャンルが既知の番組の区間種別判定結果を蓄積したジャンル判別用標準パターン蓄積部１０５と、区間種別パターンによって番組のジャンルを判別する区間種別パターン判別部１０４と、ジャンルに適した種別算出方法や重要度算出方法を管理する番組ジャンル別制御情報管理部１０６と、音響データの分析結果を出力する分析結果出力部１０７とから構成されている。
【００１７】
以上の音響データ分析装置の処理フローを図２に示す。まず音響データ入力部１０１を用いて音響データを入力し、区間分割部１０２を用いて入力音響データを複数区間に分割する。以上が区間分割手段（ｓｔｅｐ２０１）に相当する。次に、区間種別判定部１０３を用いて音声区間、音声ありの混合音区間、音声なしの有音区間、無音区間のいずれかに区間の種別を判定し、判定結果を区間種別パターン判定部１０４に出力する。以上が区間種別判定手段（ｓｔｅｐ２０２）に相当する。区間種別パターン判定部１０４は、区間種別判定部１０３から出力される区間種別のパターンと、ジャンル判別用標準パターン蓄積部１０５に蓄積されているジャンルが既知の番組の区間種別パターンとを比較し、類似度の高い上位Ｋ個の番組を選択する。選択した番組のジャンルで最も多いジャンルを音響データ入力部１０１から入力した音響データのジャンルとする。このジャンル推定結果を番組別制御情報管理部１０６に入力する。以上が区間種別パターン判別手段（ｓｔｅｐ２０３）に相当する。番組ジャンル別制御情報管理部１０６は、番組ジャンルに適した区間種別情報と重要区間判定情報を制御情報として区間種別判定部１０３に出力する。区間種別判定部１０３は、ジャンル別制御情報を用いて、区間種別や区間重要度を計算し、分析結果出力部１０７へ出力する。以上がジャンル適応型区間種別判定手段（ｓｔｅｐ２０４）に相当する。分析結果出力部１０７は分析結果を適当なフォーマットに変換して出力する。例えば、区間のスタート時間、区間のエンド時間、区間重要度の値、区間種別番号を行単位に出力する。
【００１８】
具体的な区間分割手段（ｓｔｅｐ２０１）を図３のフローチャート図を用いて説明する。音響データを入力として自己相関分析を行い、正規化した１次の自己相関係数を出力する（ｓｔｅｐ３０１）。正規化した１次の自己相関係数を用いて音響データの分割位置を検出し、分割位置のランク付けをする（ｓｔｅｐ３１０）。分割位置のランクに応じて音響データを分割する（ｓｔｅｐ３２０）。さらに分割位置検出手段（ｓｔｅｐ３１０）は、音響データの全ての位置で前後区間の正規化１次自己相関係数の最大値を計算し（ｓｔｅｐ３１１）、隣接する分割区間の最大値の差を計算するとともに（ｓｔｅｐ３１２）、時間方向に対して最大値が増加するパターン（立ち上がりの位置）を見つける（ｓｔｅｐ３１３）。さらに、立ち上がり位置の変化の大きさに応じてＮ段階のランク付けを行い（ｓｔｅｐ３１４）、一定ランク以上の分割位置の前後数秒以内（例えば２秒以内）に一定ランク以下の分割位置があるかどうかの判定を行い（ｓｔｅｐ３１５）、一定ランク以下の分割位置が見つかれば、その分割位置のランクを１ランク下げる（ｓｔｅｐ３１６）。
【００１９】
具体的な区間種別判定判別手段（ｓｔｅｐ２０２）を図４のフローチャート図を用いて説明する。区間単位にしきい値以下の１次自己相関係数の割合、１次自己相関係数の平均、音量のピーク等の音響特徴量を計算し（ｓｔｅｐ４０１）、しきい値以下の１次自己相関係数の割合がα以上β以下であるかの判定を行い（ｓｔｅｐ４０２）、条件が合えば音声区間とみなす。また、しきい値以下の１次自己相関係数の割合がα以下であるかの判定を行い（ｓｔｅｐ４０３）、条件が合えば音声ありの混合音区間とみなす。さらに、上記ステップで条件の合わなかった区間の内、音量ピークがγ以上かどうかの判定を行い（ｓｔｅｐ４０４）、条件が合えば音声なしの有音区間とみなす。以上のステップでいずれの条件にも合わなかった区間を無音区間とみなす。
【００２０】
具体的な区間種別パターン判別手段（ｓｔｅｐ２０３）を図５のフローチャート図を用いて説明する。番組単位に、各区間種別の割合、区間長が１０秒以上／１分以上／３分以上の区間の割合、区間長が１０秒以下／１分以下／３分以下の区間の割合、さらには区間種別毎の区間長の割合等の番組種別統計量を計算し（ｓｔｅｐ５０１）、前ステップで求めた番組種別統計量を使って、ジャンル判別用標準パターンとの類似度を計算し、類似度の高い上位N個を選択する（ｓｔｅｐ５０２）。選択したＮ個の番組中、最も多いジャンルを当該音響データのジャンルとする。ジャンル数が同じ場合は、最も類似度の高い番組のジャンルとする（ｓｔｅｐ５０３）。
【００２１】
具体的なジャンル適応型区間種別判定手段（ｓｔｅｐ２０４）を図６のフローチャート図を用いて説明する。あらかじめ用意したジャンルに適した制御情報（区間種別情報や重要区間情報）を読み込み（ｓｔｅｐ６０１）、ジャンルに適した特徴量を計算し（ｓｔｅｐ６０２）、区間種別の判定及び区間種別に応じた重要度を計算する（ｓｔｅｐ６０３）。ジャンルに適した区間種別情報とは、例えば、音楽番組では、区間種別として音楽区間、トーク区間があり、音楽区間の特徴を判定するための特徴量とそのしきい値、トーク区間と判定するための特徴量とそのしきい値に相当する。区間種別を判定するための特徴量として、音量、ピッチ、明るさ、帯域、メル周波数ケプストラムの他に、自己相関係数を用いる。例えば、音楽番組というジャンルの音楽区間を判定するためには、分割区間単位に正規化１次自己相関係数が0.01以下となる部分区間の割合が0.1以下かつ正規化１次自己相関係数が0.1以上という条件を設定する。重要区間判定情報とは、例えば、音楽番組では、音楽区間の重要度が高く、トーク区間の重要度が低いというような情報に相当する。
【００２２】
（実施の形態２）
ジャンル情報が入力される場合
図７は、音響データとともに、ジャンル情報が入力される場合の実施の形態となる音響データ分析装置のシステム構成図である。本実施の形態１の音響データ分析装置は、様々なフォーマットの音響データを番組単位に読み込む音響データ入力部７０１と、読み込んだ音響データを音響特徴量の変化情報を用いて分割する区間分割部７０２と、ジャンルに適応した種別に判定する区間種別判定部７０３と、ジャンルに適した種別算出方法や重要度算出方法を管理する番組ジャンル別制御情報管理部７０４と、音響データの分析結果を出力する分析結果出力部７０５とから構成されている。
【００２３】
以上の音響データ分析装置を構築するためには、まず音響データ入力部７０１を用いて音響データを入力し、区間分割部７０２を用いて入力音響データを複数区間に分割する。次に、区間種別判定部７０３はジャンルをこのジャンル推定結果を番組別制御情報管理部７０４に出力する。番組別制御情報管理部７０４は、ジャンルに適した区間種別計算方法や重要区間判定方法を制御情報として区間種別判定部７０３に出力する。区間種別判定部７０３は、ジャンル別制御情報を用いて、区間種別や区間重要度を計算し、分析結果出力部７０５へ出力する。分析結果出力部７０５は分析結果を適当なフォーマットに変換して出力する。
【００２４】
実施の形態１との違いは、ジャンル情報があらかじめわかっているかどうかである。実施の形態２では、ジャンル情報があらかじめわかっている場合を想定しており、実施の形態１において、ジャンルを推定する装置を除いた構成となる。
【００２５】
【発明の効果】
以上のように本発明の音響データ分析装置及び方法は、いったん音響区間の単純な種別（音量の大きさ、音声が含まれる有音、音声が含まれない有音、無音）を判定し、この判定結果によって番組のジャンルを推定しているので、分割区間の混合音の種別判定や重要度の判定を行うことができるという効果がある。
【図面の簡単な説明】
【図１】本発明の実施の形態１となる音響データ分析装置の構成図
【図２】音響データ分析装置の処理全体を表すフローチャート
【図３】区間分割手段のフローチャート
【図４】区間種別判定手段（１）のフローチャート
【図５】区間種別パターン判別手段のフローチャート
【図６】ジャンル適応型区間種別判定手段のフローチャート
【図７】本発明の実施の形態２となる音響データ分析装置のシステム構成図
【符号の説明】
１０１音響データ入力部
１０２区間分割部
１０３区間種別判定部
１０４区間種別パターン判別部
１０５ジャンル判別用標準パターン蓄積部
１０６番組ジャンル別制御情報管理部
１０７分析結果出力部

Claims

一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割する音響データ分割手段と、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定する区間種別判定手段と、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別する区間種別パターン判別手段と、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理する制御情報管理手段とを備え、前記区間種別判定手段は前記区間種別パターン手段が判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴とする音響データ分析装置。
区間の種別は、音声区間、混合音声区間、音声なしの有音区間または無音区間のいずれかである請求項１記載の音響データ分析装置。
一次自己相関係数による音響特徴量の変化情報を用いて番組の音響データを複数の区間に分割するステップと、しきい値以下の前記一次自己相関係数の割合、一次自己相関係数の平均、音量のピーク、区間長を含む音響特徴量から区間の種別を区間単位に判定するステップと、番組の前記各区間種別ごとの区間長の統計である番組種別統計量を計算し、予め登録したジャンル判別用標準パターンとの類似度を計算し、類似度の高い番組のジャンルを判別するステップと、予め用意したジャンルに適した制御情報を読み込み、前記番組のジャンルに応じて求めた重要度を重要区間判定情報として管理するステップとを備え、前記区間種別判定は前記判別した番組のジャンルと、前記重要区間判定情報から重要区間を判定することを特徴とする音響データ分析方法。