JP2016133600A

JP2016133600A - 顕著度推定方法、顕著度推定装置、プログラム

Info

Publication number: JP2016133600A
Application number: JP2015007718A
Authority: JP
Inventors: 惇米家; Makoto Yoneya; 茂人古川; Shigehito Furukawa; 牧夫柏野; Makio Kayano
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2016-07-25
Anticipated expiration: 2035-01-19
Also published as: JP6257537B2

Abstract

【課題】時系列的なパターンの予測不可能性に基づく対象音の目立ち度合いを推定できる顕著度推定方法を提供する。
【解決手段】入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、参照信号と類似する部分区間である類似部分区間を蓄積区間内から１つ以上検出する類似部分区間検出ステップと、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を１つ以上生成する予測分布生成ステップと、生成された予測分布と推定対象信号に基づいて、予測区間に対応する入力信号の顕著度を推定する顕著度推定ステップを含む。
【選択図】図１

Description

本発明は、入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法、顕著度推定装置、プログラムに関する。

従来、音のスペクトル構造に基づいて、時間周波数領域における目立ち度合いを計算するモデル（auditory saliency map）が提案されている（非特許文献１参照）。

C. Kayser, C. I. Petkov, M. Lippert, N. K. Logothetis, "Mechanisms for Allocating Auditory Attention: An Auditory Saliency Map", Current Biology, 2005, Volume 15, Issue 21, Pages 1943-1947.

Auditory Saliency Mapによれば、音のスペクトログラムに対し、強度とその時間周波数的なコントラストを計算することで、特定の時間周波数における音の目立ちやすさを推定することができる。

このモデルでは音のスペクトル構造に基づいた計算を行うため、ある特定の音がどのような文脈で提示されたかに関わらず、同じ音に対しては同程度の顕著性が評価される。従って、同じ音であっても、予想外のタイミングでの呈示によって顕著性が増加する様子など、時系列的なパターンや文脈に基づく顕著性を十分に表現することはできない。

そこで本発明は、時系列的なパターンの予測不可能性に基づく対象音の目立ち度合いを推定できる顕著度推定方法を提供することを目的とする。

本発明は、入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、類似部分区間検出ステップと、予測分布生成ステップと、顕著度推定ステップを含む。入力信号の時間区間のうち、予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、蓄積区間を、前記参照区間よりも前の時間区間とし、推定対象信号を、予測区間に対応する入力信号の特徴量とし、参照信号を、参照区間に対応する入力信号の特徴量とする。

類似部分区間検出ステップは、参照信号と類似する部分区間である類似部分区間を蓄積区間内から１つ以上検出する。予測分布生成ステップは、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を１つ以上生成する。顕著度推定ステップは、生成された予測分布と推定対象信号に基づいて、予測区間に対応する入力信号の顕著度を推定する。

本発明の顕著度推定方法によれば、時系列的なパターンの予測不可能性に基づく対象音の目立ち度合いを推定できる。

実施例１の顕著度推定装置の構成を示すブロック図。実施例１の顕著度推定装置の動作を示すフローチャート。蓄積区間、参照区間、予測区間、蓄積部分区間、類似部分区間の定義について説明する図。実際の音楽に対して蓄積区間、参照区間、予測区間を設定して類似部分区間を求めた例を示す図。実際の音楽に基づく２種類の波形のそれぞれに対して顕著度を求めた例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、図２を参照して音響信号の時系列的なパターンの予測不可能性に基づく音の目立ち度合いを推定する実施例１の顕著度推定装置について説明する。なお、音の目立ち度合いを顕著度ともいう。図１は、本実施例の顕著度推定装置１の構成を示すブロック図である。図２は、本実施例の顕著度推定装置１の動作を示すフローチャートである。本実施例の顕著度推定装置１は、特定の音響信号である入力信号の特定の時間区間における顕著度を評価する装置であり、具体的にはＣＰＵ（Central Processing Unit）やメモリを有する一般的な計算機上に実現される。図１に示すように、本実施例の顕著度推定装置１は、特徴量計算部１１と、区間類似度計算部１２と、類似部分区間検出部１３と、予測分布生成部１４と、顕著度推定部１５を含む。以下、それぞれの構成要件の動作について詳細に説明する。

＜特徴量計算部１１（ステップＳ１１）＞
特徴量計算部１１は、入力信号全体にわたる時間周波数解析を行うことでフレーム毎の特徴ベクトルを計算して出力する（Ｓ１１）。

例えば特徴量計算部１１は、入力信号全体を、聴覚フィルタに基づくパワースペクトログラムに変換する。聴覚フィルタは、中心周波数が連続的に変化する帯域フィルタ群である。特徴量計算部１１は、各フィルタが帯域幅の異なるバンドパスフィルタ（ここではガンマトーンフィルタ）として、信号音に対する周波数分析を行う。

聴覚フィルタの総数がＣのとき、各フィルタの中心周波数ｆ_ｋ（ｋ＝１，２，…，Ｃ、ｆ_ｋはｋ番目のフィルタの中心周波数を表す）は、対象とする周波数帯の最大周波数（通常、ナイキスト周波数）をｆ_ｍａｘ、最小周波数をｆ_ｍｉｎとすると、

と表される。ただし、Ｑ_ｅは高周波数帯におけるＱ値（＝中心周波数/帯域幅）の漸近値、ｗ_０は低周波数帯における帯域幅の下限値を表し、いずれも定数である。このとき、各フィルタの帯域幅ＥＲＢ_ｋは、

と表される。得られるフィルタ出力は信号音と同じサンプリング周波数を持つが、次元削減とノイズ低減の目的から、フレーム幅ΔＴ（数ｍｓ程度）、区間幅ΔＴ／２毎程度に移動平均をとることで、フレーム単位への変換を行う。以下では、フレーム番号ｔにおけるｉ番目（ｉ＝１，２，…，Ｃ）の聴覚フィルタ出力をｐ_ｉ［ｔ］と表し、その時点における聴覚フィルタ全体の出力（Ｃ次元ベクトル）を、

と表す。以下、ｐ［ｔ］をフレーム番号ｔにおける特徴ベクトルとよぶ。特徴量計算部１１は、ＮＭＦ（非負値行列因子分解）などの手法によって特徴ベクトルを計算してもよい。また、特徴量計算部１１は単純なスペクトログラムによって特徴ベクトルを計算してもよい。

＜区間類似度計算部１２（ステップＳ１２）＞
以下、図３を参照して入力信号の各区間について定義する。図３は、蓄積区間、参照区間、予測区間、蓄積部分区間、類似部分区間の定義について説明する図である。図３に示すように、予測区間を顕著度の推定対象とする時間区間、参照区間を予測区間の直前にあって所定の時間幅を有する時間区間、蓄積区間を参照区間よりも前の時間区間（時間区間全体）、蓄積部分区間を蓄積区間の一部の区間であって参照区間と同じ時間幅を有する時間区間と定義する。また、推定対象信号を予測区間に対応する入力信号の特徴量（特徴量全体）、参照信号を参照区間に対応する入力信号の特徴量（特徴量全体）、蓄積信号を蓄積区間に対応する入力信号の特徴量（特徴量全体）、蓄積部分信号を蓄積部分区間に対応する入力信号の特徴量（特徴量全体）と定義する。

区間類似度計算部１２は、ステップＳ１１で計算された特徴ベクトルに基づいて蓄積信号の蓄積部分信号と参照信号の類似度である区間類似度を計算する（Ｓ１２）。

以下では図３に示すように、蓄積区間のフレーム番号を１からＴ、参照区間のフレーム番号をＴ＋１からＴ＋Ｎ、予測区間のフレーム番号をＴ＋Ｎ＋１からＴ＋Ｎ＋Ｍとする。ただし、蓄積区間は参照区間よりも長い必要があるため、Ｔ＞Ｎとする。

区間類似度計算部１２は、特徴ベクトルの全てのフレーム同士の組み合わせについてパワースペクトル密度の角度を計算し、フレーム間の類似度として定義する。フレーム番号ｔ_１とｔ_２の特徴ベクトル間の類似度Ｓ（ｔ_１，ｔ_２）は、

と計算される。

蓄積区間内において参照区間と類似する部分区間を抽出するため、区間類似度計算部１２は、上記で計算されたフレーム単位の類似度に基づいて、参照区間と同じ長さ（フレーム数Ｎ）の単位での類似度を計算する。参照区間と、蓄積部分区間（フレーム番号ｔからｔ＋Ｎ−１）との区間類似度ＳＩＭ（ｔ）は、

と計算される。ＳＩＭ（ｔ）は、１≦t≦Ｔにわたって計算される。区間類似度の計算は、例えば特許第４３２７２０２号明細書に記載の方法によってもよい。

＜類似部分区間検出部１３（ステップＳ１３）＞
類似部分区間検出部１３は、区間類似度計算部１２で出力された区間類似度に基づいて蓄積区間内から参照信号と類似する部分区間である類似部分区間を１つ以上検出する（Ｓ１３）。類似部分区間検出部１３は、１≦t≦Ｔにおいて、区間類似度ＳＩＭ（ｔ）の値が高いフレーム番号を、上から順にＤ個抽出する。Ｄは定数とし、数個〜数十個程度を抽出することが望ましい。

実際には、類似度の高い部分区間が特定の時間範囲に重畳して集中する可能性があるため、一定の閾値を設定し、閾値の範囲内で隣り合うフレーム番号を排除し、代表として部分区間を一つ抽出することもできる。このように検出されたＤ個の部分区間を、類似部分区間とよぶ。類似部分区間検出は、例えば特許第４３２７２０２号明細書に記載の方法によってもよい。

図４に、実際の音楽に対して蓄積区間、参照区間、予測区間を設定して類似部分区間を求めた例を示す。図４の例では、５〜６秒付近で設定された参照区間の参照信号と類似する部分区間として、蓄積区間内の１〜２秒付近（類似部分区間１）、３〜４秒付近（類似部分区間２）が検出されている。

＜予測分布生成部１４（ステップＳ１４）＞
予測分布生成部１４は、検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づいて予測区間の特徴ベクトルを予測する分布である予測分布を生成する（Ｓ１４）。

具体的には予測分布生成部１４は、予測区間のフレーム毎に、Ｃ次元特徴ベクトルの要素毎の予測分布を生成する。予測分布は、類似部分区間検出部１３で検出されたＤ個の類似部分区間それぞれに基づいて計算されたＤ個の分布として出力される。

予測区間のフレーム番号Ｔ＋Ｎ＋ｔにおいて、開始フレーム番号をＬ_ｄとする類似部分区間から生成される予測分布は、平均μ_ｄ、分散共分散行列Σ_ｄを下記の式で表す多次元正規分布Ｎ（μ_ｄ，Σ_ｄ）とする。

ただしｖ_ｄは各聴覚フィルタに定義される分散値で、

とする。σ^２は、蓄積区間における各要素の分散値を並べたＣ次元ベクトルで、類似度に依らず一定値をとる。第二項は、類似度に依存する係数を表す。類似度が１に近づく場合、分散値は０へ近づき、予測は高い確率で平均値の周辺に集中する。類似度が０の場合、分散値は（ｔ＝０の場合）蓄積区間における分散値σ^２と一致する。これは、予測分布と観測値の差分（絶対値）の期待値が、予測が全くあてはまらない場合、過去の時系列における任意の２点間の差分（絶対値）の期待値、すなわち時系列の標準偏差に等しいことに依拠する。第三項は、時間減衰を表す。時間の経過とともに分散値が指数関数的に増加し、予測分布が一様分布に近づくことを意味する。γは減衰の程度を表す定数で、任意の正の値に設定できる。

上記の式からわかる通り、予測分布の平均値は、類似部分区間の直後Ｍフレームにおける入力信号の振る舞いと一致する。予測分布の分散値は、各類似部分区間がもつ参照区間との類似度ＳＩＭ（ｄ）に依存して変化する。なお、上記の分散の定義に追加する形で、予測分布の分散値が類似部分区間と参照区間の時間差に応じて増加するような項を積算し、予測に関する「忘却」の要素を考慮することもできる。

＜顕著度推定部１５（ステップＳ１５）＞
顕著度推定部１５は、予測分布生成部１４で生成された予測分布と、実際の推定対象信号の比較に基づいて、予測区間に対応する音響信号（入力信号）の目立ち度合い（顕著度）を推定する（Ｓ１５）。

具体的には顕著度推定部１５は、予測分布生成部１４で出力されたＤ個の予測分布中において推定対象信号が出現する確率に基づいて、それぞれの分布に基づく顕著度の要素を計算する。顕著度の要素について、それぞれの類似部分区間と参照区間との類似度の値に応じた加重平均をとることで、顕著度を出力する。

推定対象信号ｐ［Ｔ＋Ｎ＋ｔ］について、ｄ番目の予測分布（開始フレーム番号Ｌ_ｄの類似部分区間に基づく）に対する顕著度の要素は、それぞれ

として計算される。上記の値について、ｄ番目の類似部分区間と参照区間との類似度に応じた加重平均を取ることで、顕著度ｚ［Ｔ＋Ｎ＋ｔ］を定義する。

ただしＡは正規化係数で、

である。

ここまでは予測区間の開始フレーム番号をＴ＋Ｎ＋１に固定していたが、たとえば入力信号のある範囲全体にわたって予測区間の開始フレーム番号を変化させながら顕著度の計算を行い、顕著度の累積値をとることで、顕著度と定義してもよい。

図５に、実際の音楽に対して顕著度を求めた例を示す。図５のＡ、Ｂは、縦軸を信号強度、横軸を時間として、同一の楽音信号をそれぞれ１度目、２度目に聴取した例を示したものである。図５のＣ、Ｄは、縦軸を図５のＡ、Ｂに示す楽音信号それぞれに対する顕著度、横軸を時間として、２種類の楽音信号の顕著度の推移を例示したものである。縦線が示す時間より先（約５．８ｓより先）が予測対象区間、縦線が示す時間よりも前の時間区間（約５．８ｓより前）が参照区間（および蓄積区間）を表す。図５のＡ、Ｂにおける実線の波形は実際の楽音信号で、点線は予測された楽音信号（予測分布の平均値）を表す。一度目の聴取では、予測対象区間での楽音信号を正しく予測できておらず、図５のＡ右上のようなパターン（蓄積区間中に繰り返し現れていたパターン）を予測しており、図５のＣに示すように顕著度が比較的大きな値として計算されている。二度目の聴取では、蓄積信号の中に予測対象区間での楽音信号とほとんど同一の信号が含まれているため、図５のＢ右上のようなパターンを正しく予測しており、図５のＤに示すように、顕著度が比較的小さな値として計算されている。

＜効果＞
本実施例の顕著度推定装置１によれば、上記構成によって特定の音響信号である入力信号の特定の時間区間における顕著度を評価することができる。

非特許文献１によれば、音のスペクトル特性に基づいて、聴覚刺激の顕著性を時系列的に評価することができる。しかし、このモデルでは短い時間窓での音のスペクトル構造に基づいた計算が行われるため、同じ音に対しては文脈に関わらず同じ顕著性が評価される。従って、同じ音であっても、予想外のタイミングでの呈示による顕著性の増加など、時間的なパターン変化に基づく顕著性の変化を十分に表現することはできない。本手法では時系列的なパターンの予測不可能性に基づいた計算が行われるため、音楽などのように繰り返しと逸脱から構成される音響信号に対して、パターン変化に基づく音の目立ち度合いを推定することができる。

時系列信号に対して、過去の情報に基づいて特定の時点からの将来値を予測する場合、ARモデルのような時系列予測法を用いることが考えられる。しかし、ARモデルのように定常過程を対象とした時系列予測法では、全ての過去が均等にモデルの生成に寄与するため、特定の過去のパターンを再現することは難しい。本手法では、所定の時点からの時系列発展が、直近までの信号のパターンと類似する過去と同様の振る舞いをすると仮定し、また、振る舞いをする確かさ（確率分布の分散）が、その過去との類似度に相関するようなモデルとなっている。これにより、音楽のように複雑な非定常過程となる時系列信号についても、統計的なパターンの予測を行うことが可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定方法であって、
前記入力信号の時間区間のうち、
予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、
参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、
蓄積区間を、前記参照区間よりも前の時間区間とし、
推定対象信号を、前記予測区間に対応する入力信号の特徴量とし、
参照信号を、前記参照区間に対応する入力信号の特徴量とし、
前記参照信号と類似する部分区間である類似部分区間を前記蓄積区間内から１つ以上検出する類似部分区間検出ステップと、
前記検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を１つ以上生成する予測分布生成ステップと、
前記生成された予測分布と前記推定対象信号に基づいて、前記予測区間に対応する入力信号の顕著度を推定する顕著度推定ステップと、
を含む顕著度推定方法。
請求項１に記載の顕著度推定方法であって、
前記顕著度推定ステップは、
前記予測分布生成ステップで１つ以上生成された予測分布中における、前記推定対象信号が出現する出現確率に基づいて、前記顕著度を推定する
顕著度推定方法。
請求項２に記載の顕著度推定方法であって、
前記類似部分区間と前記参照区間との類似度に応じて、前記推定対象信号が出現する出現確率に基づく顕著度を変化させる
顕著度推定方法。
入力信号の一部の時間区間の音の目立ち度合いを推定する顕著度推定装置であって、
前記入力信号の時間区間のうち、
予測区間を、音の目立ち度合いである顕著度の推定対象とする時間区間とし、
参照区間を、前記予測区間の直前にあって所定の時間幅を有する時間区間とし、
蓄積区間を、前記参照区間よりも前の時間区間とし、
推定対象信号を、前記予測区間に対応する入力信号の特徴量とし、
参照信号を、前記参照区間に対応する入力信号の特徴量とし、
前記参照信号と類似する部分区間である類似部分区間を前記蓄積区間内から１つ以上検出する類似部分区間検出部と、
前記検出された類似部分区間の直後にある所定の時間区間に対応する入力信号の特徴量に基づく分布である予測分布を１つ以上生成する予測分布生成部と、
前記生成された予測分布と前記推定対象信号に基づいて、前記予測区間に対応する入力信号の顕著度を推定する顕著度推定部と、
を含む顕著度推定装置。
請求項１から３の何れかに記載された顕著度推定方法の各ステップをコンピュータに実行させるためのプログラム。