JP2005257708A

JP2005257708A - 音響信号の事象検出装置及び方法

Info

Publication number: JP2005257708A
Application number: JP2004064901A
Authority: JP
Inventors: Minoru Tsuzaki; 実津崎; Hiroaki Kato; 宏明加藤; Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-03-09
Filing date: 2004-03-09
Publication date: 2005-09-22

Abstract

【課題】人間の知覚に近い態様で、音響信号に基づいて事象を検出できる事象検出装置及び方法を提供する。
【解決手段】事象検出装置は、入力音響信号２０に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうバンドパスフィルタ３０と、バンドパスフィルタ３０の出力信号を帯域分割する定Ｑ型ガンマ・トーン・フィルタ・バンク３２と、帯域ごとに分割されたフィルタ・チャネル信号に対応して設けられ、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、帯域別の新規事象生起の指標信号を出力するための複数の帯域別処理部３４と、複数の帯域別処理部３４の出力を受け、帯域別の新規事象生起の指標信号の極大値の時点を新規事象の生起点として検出する情報統合部３６及び極大値検出部３８とを含む。
【選択図】図１

Description

この発明は音響信号からリズムやテンポ等に関する情報を抽出するために、音響信号に含まれる事象生起に関する情報を検出するための装置に関し、特に、人間の知覚と一致する形で、音響信号から事象の検出を行なうための事象検出装置及び方法に関する。

音声や音楽を耳にした場合、人間はいくつかの音がある速さで順次到来するように知覚し、リズムやテンポの印象をそこから構築する。楽器の音などでは一つの音の開始点に明瞭な特徴を持つものが少なくないが、音声信号では一つのシラブルやモーラなど、いわゆる「拍」の基本単位として考えられている区間の開始が音響的に明瞭な特徴を持たないことが多い。

このため、音声の分節化等で事前に発話内容に関する書き起こしデータなどを用意し、音素ごとの特徴比較を行ない、音素境界を定めるという方式が採られることが多い。これは、言ってみれば、一つ一つの音素の理想的な分類をしてからでないと、音と音との区切りが分からないということに相当する。人間にたとえると、未知の言語ではテンポの判断すらできないということになる。

そうしたリズムやテンポの印象は、音響信号中に存在する何らかの事象を人間が知覚することにより生ずると考えられる。音響信号を機械処理する場合、そのような事象を何らかの処理により捉えることが必要になる。そのためには、何らかの形で人間による事象の知覚のモデル化をすることが必要である。

例えば人間の音声のみであれば、音声認識を行なって音素境界を検出し、それら音素境界の情報に基づいてテンポやリズムなどを捉えるための事象を抽出することもできそうに思われる。しかし、実際にはそれはなかなかむずかしく、音響信号が人間の音声以外であればそもそも音声認識を行なうこともできない。

人間の聴覚系は、音声中に急激な音エネルギー増加が生じたときに、それを新しい音の発生として解釈するように機能する。したがって、単純には時間あたりの音エネルギーの増加の量をもって新規音発生の可能性を示す指標とすることができそうである。但し、人間の聴覚系に備わる、主に周波数伝達特性と非線形応答という二つの特性故に、単純なエネルギー変化量では、知覚されるテンポやリズム感に対する不一致を生じやすい。

上記した２点を考慮に入れたモデルとして、ラウドネス・ジャンプ・モデルがある。ラウドネス・ジャンプ・モデルでは、入力音響信号は一旦フィルタバンク処理を受け、周波数帯域ごとのパワー（ラウドネス）が人間の聴覚系の周波数伝達特性及び非線形応答を模擬して計算される。さらに全バンドに対する出力の和が計算され、これをもって総ラウドネスとみなす。そしてこの総ラウドネスの時間軸上での変化と、音韻ラベルとを照合し、音韻セグメント間に存在するラウドネスの変化量を算出し、それを基礎データとして入力音響信号中の事象の検出を試みる。

しかし、上記したラウドネス・ジャンプ・モデルには次のような問題が存在する。例えば、低域にだけエネルギーが存在する音から、高域だけにエネルギーが存在する音に切替わった場合を考える。この場合、総ラウドネスとしての値に大きな変化がなければ、ラウドネス・ジャンプ・モデルでは入力音響信号中に何の不連続も生じていないことになり、事象の検出ができない。実際にはこのような音の切替わり点は、人間にとっては明瞭に高域の音の出現として捉えられる。したがって、ラウドネス・ジャンプ・モデルだけでは、人間と同様の事象検出を音響信号から行なうことは困難である。

さらに重要な人間の聴覚処理の特徴は、音エネルギーの減衰は新規事象としてのマーキング機能をほとんど持たないということである。これはエネルギーの減衰が事象の終了を意味するからというだけでなく、事象の終了そのものが通常の状態では意味を持たないという特性を持っているためである。

例えば、弦楽器の演奏では弦を替えて次の音を出せば、前の音が終結せずに２番目の音が始まる。これに対して、管楽器の場合には次の音が出るときには前の音は終結してしまう。このような違いがあるにもかかわらず、人間は同じテンポとして二つの楽器の演奏を知覚する。これは、テンポやリズム感の知覚にとって、事象の終了点が重要な意味を持たないからである。

総ラウドネスの計算では、ある帯域のエネルギーの減少が全体のラウドネスに影響を与えてしまうことになり、事象の検出という機能にとって、これは人間の知覚との不一致の原因となる。

それゆえに本発明の目的は、人間の知覚に近い態様で、音響信号に基づいて事象を検出することができる事象検出装置及び方法を提供することである。

本発明の他の目的は、エネルギーの減少という事象は除外する形で、人間の知覚に近い態様で、音響信号に基づいて事象を検出することができる事象検出装置及び方法を提供することである。

本発明の第１の局面に係る事象検出装置は、入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうバンドパスフィルタと、バンドパスフィルタの出力信号に対し、バンド幅が中心周波数の単調増加関数として増加するような帯域分割を行ない、複数のフィルタ・チャネル信号に分割するためのフィルタ・バンク手段と、フィルタ・バンクにより帯域ごとに分割されたフィルタ・チャネル信号に対応して設けられ、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、帯域別の新規事象生起の指標信号を出力するための複数の帯域別指標信号出力手段と、複数の帯域別指標信号出力手段の出力を受け、帯域別の新規事象生起の指標信号に基づいて、入力音響信号に含まれる新規事象の生起点を検出するための新規事象生起点検出手段とを含む。

好ましくは、フィルタ・バンク手段は、バンドパスフィルタの出力信号に対し、人間の内耳の特性に従う帯域分割を行ない、複数のフィルタ・チャネル信号に分割するための定Ｑ型フィルタ・バンクを含む。

さらに好ましくは、複数の帯域別指標信号出力手段の各々は、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なうための信号処理手段と、信号処理手段の出力を受けるローパスフィルタと、ローパスフィルタの出力を受け、その時間微分をとるための時間微分手段と、時間微分手段の出力に対し、所定のしきい値によるフロアリング処理を施すフロアリング処理手段とを含む。

新規事象生起点検出手段は、複数の帯域別指標信号出力手段の出力を所定の処理により統合し、入力音響信号に対する、統合された新規事象生起の指標信号を出力するための統合手段と、統合手段の出力のうち所定の条件を満足する個所を新規事象の生起点として検出するための事象検出手段とを含んでもよい。

好ましくは、統合手段は、複数の帯域別指標信号出力手段の出力の加算平均により、統合された新規事象生起の指標信号を出力するための手段を含む。

好ましくは、事象検出手段は、統合手段の出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するための手段を含む。

本発明の第２の局面に係る事象検出方法は、入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうステップと、バンドパスフィルタ処理を行なうステップにより得られた出力信号に対し、フィルタ・バンクによりバンド幅が中心周波数の単調増加関数として増加するような帯域分割を行なうステップと、フィルタ・バンクにより分割される帯域ごとに、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、複数の帯域別の新規事象生起の指標信号を出力するステップと、帯域別の新規事象生起の指標信号に基づいて、入力音響信号に含まれる新規事象の生起点を検出する新規事象生起点検出ステップとを含む。

好ましくは、帯域分割を行なうステップは、バンドパスフィルタ処理の出力信号に対し、複数のフィルタ・チャネル信号に分割する定Ｑ型フィルタ・バンクを用いて、人間の内耳の特性に従う帯域分割を行なうステップを含む。

より好ましくは、複数の帯域別の新規事象生起の指標信号を出力するステップは、複数の帯域の各々において、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なう信号処理ステップと、信号処理ステップの出力をローパスフィルタに与えるステップと、ローパスフィルタの出力を受け、その時間微分をとる時間微分ステップと、時間微分ステップの出力に対し、所定のしきい値によるフロアリング処理を施すステップとを含む。

新規事象生起点検出ステップは、複数の帯域別の新規事象生起の指標信号を所定の処理により統合し、入力音響信号に対する、統合された新規事象生起の指標信号を出力する統合ステップと、統合ステップの出力のうち所定の条件を満足する個所を新規事象の生起点として検出する事象検出ステップとを含んでもよい。

好ましくは、統合ステップは、複数の帯域別の新規事象生起の指標信号の加算平均により、統合された新規事象生起の指標信号を出力するステップを含む。

より好ましくは、事象検出ステップは、統合ステップの出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するステップを含む。

［構成］
以下に述べる本発明の一実施の形態では、ラウドネス・ジャンプ・モデルと異なり、音響信号の帯域ごとに音響的エネルギーの変化に伴う活性レベルの変化率を計算し、活性レベルの上昇率に対してしきい値処理を施し、上昇率があるしきい値を超えた部分のみの複数帯域間の加算平均を計算し、新規事象の開始点らしさの指標として用いる。こうして得られた値の時間軸上の極大点をとることにより事象生起時点とし、それによって人間の知覚との不一致を解消する。

上記した要素のうち、帯域ごとの活性レベルについては聴覚末梢系の圧縮的非線形変換により実現する。またしきい値処理では、変化率の小さいもの、減少方向のものについては、しきい値によりフロアリングする。フロアリングするしきい値の設定を大きくするほど細かい事象を拾わなくなり、しきい値の設定により事象の検知の解像度ともいうべき特性を調整できる。

図１に、本実施の形態に係る音響信号中の事象検出装置のブロック図を示す。図１を参照して、この事象検出装置２２は、入力音響信号である音声信号２０から、事象検出出力２４を出力するためのものである。事象検出装置２２は、音声信号２０に対して人間の外耳及び中耳の特性を反映したフィルタ処理を行なうためのバンドパスフィルタ３０と、バンドパスフィルタ３０の出力を帯域分割するための、人間の内耳特性を模した定Ｑ型ガンマ・トーン・フィルタ・バンク３２と、定Ｑ型ガンマ・トーン・フィルタ・バンク３２の出力に対し、フィルタ・チャネルごとに人間の聴覚特性を模した処理を行ない、さらに細かい変動を除去した上で帯域ごとの事象生起の可能性を示す事象情報を検出するための複数の帯域別処理部３４とを含む。

事象検出装置２２はさらに、これら複数の帯域別処理部３４の出力の算術平均を算出することにより事象検出情報を統合化し、新規事象発生の可能性を示す指標として出力するための情報統合部３６と、情報統合部３６の出力が極大値をとる時間軸上の点を新規事象発生点として事象検出出力２４を出力するための極大値検出部３８とを含む。

図２に、帯域別処理部３４の構成を示す。いずれの帯域別処理部３４も同様の構成を持つ。図２を参照して、帯域別処理部３４は、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の生体内情報を模擬する信号処理を行なうための半波整流部５０及び対数圧縮処理部５２と、対数圧縮処理部５２の出力から細かい変動を除去するためのローパスフィルタ５４と、ローパスフィルタ５４の出力に対し時間微分を行なうことにより、この帯域の活性量の変化率の指標となる信号を出力するための時間微分処理部５６と、時間微分処理部５６が出力する変化率に対し、事象の開始点のみをマークするために、所定のしきい値よりも値の小さい部分および負の部分をクリップして所定の値にフロアリングし、新規事象の発生点らしさを表す指標を出力するためのフロアリング処理部５８とを含む。

フロアリングするしきい値を小さくとると、比較的小さな変動までも事象の開始点として検出され、大きくとると小さな変動は無視される。したがって、しきい値を調整することにより、どの程度の大きさの変動を事象の開始点とするか、そのレベルを調整できる。

［動作］
上記した構成を持つ事象検出装置２２は以下のように動作する。図１を参照して、音声信号２０に対してはバンドパスフィルタ３０によるバンドパスフィルタ処理が施され、外耳及び内耳の特性を反映した信号となる。この信号は定Ｑ型ガンマ・トーン・フィルタ・バンク３２に与えられ、帯域分割される。

図２を参照して、帯域別処理部３４の各々に与えられたフィルタ・チャネル信号に対して半波整流部５０による半波整流及び対数圧縮処理部５２による対数圧縮がされ、その結果、人間の蝸牛神経核以降の生体内情報を模した信号が得られる。この信号をローパスフィルタ５４に通すことで、信号の微小な変動が除去される。ローパスフィルタ５４の出力に関する全帯域の聴覚的スペクトログラムを図３（Ａ）に示す。なお、図３（Ｂ）には比較のために、同様の処理を一般的なＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）分析を基に行なった場合に得られる聴覚的スペクトログラムを示す。

再び図２を参照して、ローパスフィルタ５４の出力を時間微分処理部５６に与えることにより、このフィルタ・チャネルの活性量の変化率の指標とする。時間微分処理部５６の出力として得られる、聴覚的スペクトログラムに基づく各帯域の活性量の変化率を図４（Ａ）に示す。図４（Ｂ）には図３（Ｂ）と同様、ＦＦＴ処理に基づく各帯域の活性量の変化率を示す。図４において、黒い部分ほど新規事象が開始したことを知らせる手掛りを多く送っていることになる。白い部分は反対に音の終了点に対応する。

新規事象の開始点のみをマークするため、時間微分処理部５６の出力をフロアリング処理部５８に与える。フロアリング処理部５８により、時間微分処理部５６の出力のうち、フロアリングのためのしきい値よりも小さな部分はしきい値にフロアリングされる。具体的には、信号の値としきい値とのうちの最大値で信号の値を置換する。この処理の結果を図５（Ａ）に示す。ＦＦＴ処理に基づくものを図５（Ｂ）に示す。この結果、帯域ごとに、新規事象の発生点らしさを表す指標が得られる。具体的には、図５（Ａ）において、黒い部分が、その帯域において新規事象が発生している可能性が高いことを示している。

再び図１を参照して、このようにして帯域ごとに得られた帯域別処理部３４の出力を加算平均する。その結果得られた値を時間の関数として示したのが図６（Ａ）である。図３〜図５と同様、ＦＦＴに基づいて得られた関数を図６（Ｂ）に示す。図６（Ａ）に示すグラフは、帯域全体から得られた、新規事象発生の可能性を表す指標と考えられる。したがってその極大値を調べ、その極大値に対応する時間軸上の点を事象生起点とする。

前述したとおり、フロアリングのしきい値の大きさを調整することにより、最終的に得られる極大値の数を調整することができる。すなわち、フロアリング処理のしきい値を上げることによって極大値の数は減少し、下げると増大する。

図６（Ａ）と図６（Ｂ）とを比較すると容易に分かるように、同じフロアリングしきい値を用いているにもかかわらず、本実施の形態によれば適正な数の極大値が得られているのに対し、ＦＦＴ処理によるものでは極大値の数が多く、不要なものまで現れていることが分かる。ＦＦＴ処理による場合、このような不要な極大値を消そうとしてフロアリングのしきい値を大きくすると、必要な極大値まで消えてしまうことが起きやすい。

本実施の形態での処理と、ＦＦＴに基づく処理との基本的な相違は、帯域分割の仕方にある。例えば通常のＦＦＴ処理では、フォルマントの僅かな移動が高域においては異なる周波数チャネルへのエネルギーの移動となり、そのチャネルにおける新しい事象の発生として潜在力を持ってしまう。それに対して本実施の形態では、帯域分割を定Ｑ型ガンマ・トーン・フィルタ・バンク３２により行なっているため、高域に行くにつれバンド幅は中心周波数に比例的に広がる。そのため、ＦＦＴ処理による場合のような事態を招きにくくなる。この相違が、図６（Ａ）と図６（Ｂ）との相違となって現れている。

なお、フィルタ・バンクとしては上記した定Ｑ型フィルタが望ましいが、中心周波数の単調関数としてバンド幅が広がるようなフィルタ・バンクであれば、上記した効果をある程度期待できる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の一実施の形態に係る事象検出装置２２のブロック図である。図１に示す帯域別処理部３４のブロック図である。帯域別処理部３４のローパスフィルタ５４の出力に基づくスペクトログラムと、ＦＦＴ処理に基づくスペクトログラムである。時間微分処理部５６による時間微分の結果得られる各帯域の活性量の変化率と、ＦＦＴに基づいて得られる活性量の変化率とを示す図である。本実施の形態に係るフロアリング処理部５８において帯域別の変化率にフロアリング処理をしたものと、ＦＦＴ処理に基づいて得られる変化率にフロアリング処理をしたものとを示す図である。本実施の形態係る情報統合部３６の出力として得られる、新規事象発生の指標と、ＦＦＴ処理に基づいて得られる同様の指標との時間変化を示すグラフである。

符号の説明

２０音声信号、２２事象検出装置、２４事象検出出力、３０バンドパスフィルタ、３２定Ｑ型ガンマ・トーン・フィルタ・バンク、３４帯域別処理部、３６情報統合部、５０半波整流部、５２対数圧縮処理部、５４ローパスフィルタ、５６時間微分処理部、５８フロアリング処理部

Claims

入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうバンドパスフィルタと、
前記バンドパスフィルタの出力信号に対し、バンド幅が中心周波数の単調増加関数として増加するような帯域分割を行ない、複数のフィルタ・チャネル信号に分割するためのフィルタ・バンク手段と、
前記フィルタ・バンクにより帯域ごとに分割されたフィルタ・チャネル信号に対応して設けられ、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、帯域別の新規事象生起の指標信号を出力するための複数の帯域別指標信号出力手段と、
前記複数の帯域別指標信号出力手段の出力を受け、前記帯域別の新規事象生起の指標信号に基づいて、前記入力音響信号に含まれる新規事象の生起点を検出するための新規事象生起点検出手段とを含む、事象検出装置。
前記フィルタ・バンク手段は、前記バンドパスフィルタの出力信号に対し、人間の内耳の特性に従う帯域分割を行ない、前記複数のフィルタ・チャネル信号に分割するための定Ｑ型フィルタ・バンクを含む、請求項１に記載の事象検出装置。
前記複数の帯域別指標信号出力手段の各々は、
入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なうための信号処理手段と、
前記信号処理手段の出力を受けるローパスフィルタと、
前記ローパスフィルタの出力を受け、その時間微分をとるための時間微分手段と、
前記時間微分手段の出力に対し、所定のしきい値によるフロアリング処理を施すフロアリング処理手段とを含む、請求項１又は請求項２に記載の事象検出装置。
前記新規事象生起点検出手段は、
前記複数の帯域別指標信号出力手段の出力を所定の処理により統合し、前記入力音響信号に対する、統合された新規事象生起の指標信号を出力するための統合手段と、
前記統合手段の出力のうち所定の条件を満足する個所を新規事象の生起点として検出するための事象検出手段とを含む、請求項１〜請求項３のいずれかに記載の事象検出装置。
前記統合手段は、前記複数の帯域別指標信号出力手段の出力の加算平均により、前記統合された新規事象生起の指標信号を出力するための手段を含む、請求項４に記載の事象検出装置。
前記事象検出手段は、前記統合手段の出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するための手段を含む、請求項４又は請求項５に記載の事象検出装置。
入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうステップと、
前記バンドパスフィルタ処理を行なうステップにより得られた出力信号に対し、フィルタ・バンクによりバンド幅が中心周波数の単調増加関数として増加するような帯域分割を行なうステップと、
前記フィルタ・バンクにより分割される帯域ごとに、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、複数の帯域別の新規事象生起の指標信号を出力するステップと、
前記帯域別の新規事象生起の指標信号に基づいて、前記入力音響信号に含まれる新規事象の生起点を検出する新規事象生起点検出ステップとを含む、事象検出方法。
前記帯域分割を行なうステップは、前記バンドパスフィルタ処理の出力信号に対し、前記複数のフィルタ・チャネル信号に分割する定Ｑ型フィルタ・バンクを用いて、人間の内耳の特性に従う帯域分割を行なうステップを含む、請求項７に記載の事象検出方法。
前記複数の帯域別の新規事象生起の指標信号を出力するステップは、
前記複数の帯域の各々において、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なう信号処理ステップと、
前記信号処理ステップの出力をローパスフィルタに与えるステップと、
前記ローパスフィルタの出力を受け、その時間微分をとる時間微分ステップと、
前記時間微分ステップの出力に対し、所定のしきい値によるフロアリング処理を施すステップとを含む、請求項７又は請求項８に記載の事象検出方法。
前記新規事象生起点検出ステップは、
前記複数の帯域別の新規事象生起の指標信号を所定の処理により統合し、前記入力音響信号に対する、統合された新規事象生起の指標信号を出力する統合ステップと、
前記統合ステップの出力のうち所定の条件を満足する個所を新規事象の生起点として検出する事象検出ステップとを含む、請求項７〜請求項９のいずれかに記載の事象検出方法。
前記統合ステップは、前記複数の帯域別の新規事象生起の指標信号の加算平均により、前記統合された新規事象生起の指標信号を出力するステップを含む、請求項１０に記載の事象検出方法。
前記事象検出ステップは、前記統合ステップの出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するステップを含む、請求項１０又は請求項１１に記載の事象検出方法。