JP2005257708A - 音響信号の事象検出装置及び方法 - Google Patents

音響信号の事象検出装置及び方法 Download PDF

Info

Publication number
JP2005257708A
JP2005257708A JP2004064901A JP2004064901A JP2005257708A JP 2005257708 A JP2005257708 A JP 2005257708A JP 2004064901 A JP2004064901 A JP 2004064901A JP 2004064901 A JP2004064901 A JP 2004064901A JP 2005257708 A JP2005257708 A JP 2005257708A
Authority
JP
Japan
Prior art keywords
band
signal
output
occurrence
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004064901A
Other languages
English (en)
Inventor
Minoru Tsuzaki
実 津崎
Hiroaki Kato
宏明 加藤
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004064901A priority Critical patent/JP2005257708A/ja
Publication of JP2005257708A publication Critical patent/JP2005257708A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】人間の知覚に近い態様で、音響信号に基づいて事象を検出できる事象検出装置及び方法を提供する。
【解決手段】事象検出装置は、入力音響信号20に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうバンドパスフィルタ30と、バンドパスフィルタ30の出力信号を帯域分割する定Q型ガンマ・トーン・フィルタ・バンク32と、帯域ごとに分割されたフィルタ・チャネル信号に対応して設けられ、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、帯域別の新規事象生起の指標信号を出力するための複数の帯域別処理部34と、複数の帯域別処理部34の出力を受け、帯域別の新規事象生起の指標信号の極大値の時点を新規事象の生起点として検出する情報統合部36及び極大値検出部38とを含む。
【選択図】 図1

Description

この発明は音響信号からリズムやテンポ等に関する情報を抽出するために、音響信号に含まれる事象生起に関する情報を検出するための装置に関し、特に、人間の知覚と一致する形で、音響信号から事象の検出を行なうための事象検出装置及び方法に関する。
音声や音楽を耳にした場合、人間はいくつかの音がある速さで順次到来するように知覚し、リズムやテンポの印象をそこから構築する。楽器の音などでは一つの音の開始点に明瞭な特徴を持つものが少なくないが、音声信号では一つのシラブルやモーラなど、いわゆる「拍」の基本単位として考えられている区間の開始が音響的に明瞭な特徴を持たないことが多い。
このため、音声の分節化等で事前に発話内容に関する書き起こしデータなどを用意し、音素ごとの特徴比較を行ない、音素境界を定めるという方式が採られることが多い。これは、言ってみれば、一つ一つの音素の理想的な分類をしてからでないと、音と音との区切りが分からないということに相当する。人間にたとえると、未知の言語ではテンポの判断すらできないということになる。
そうしたリズムやテンポの印象は、音響信号中に存在する何らかの事象を人間が知覚することにより生ずると考えられる。音響信号を機械処理する場合、そのような事象を何らかの処理により捉えることが必要になる。そのためには、何らかの形で人間による事象の知覚のモデル化をすることが必要である。
例えば人間の音声のみであれば、音声認識を行なって音素境界を検出し、それら音素境界の情報に基づいてテンポやリズムなどを捉えるための事象を抽出することもできそうに思われる。しかし、実際にはそれはなかなかむずかしく、音響信号が人間の音声以外であればそもそも音声認識を行なうこともできない。
人間の聴覚系は、音声中に急激な音エネルギー増加が生じたときに、それを新しい音の発生として解釈するように機能する。したがって、単純には時間あたりの音エネルギーの増加の量をもって新規音発生の可能性を示す指標とすることができそうである。但し、人間の聴覚系に備わる、主に周波数伝達特性と非線形応答という二つの特性故に、単純なエネルギー変化量では、知覚されるテンポやリズム感に対する不一致を生じやすい。
上記した2点を考慮に入れたモデルとして、ラウドネス・ジャンプ・モデルがある。ラウドネス・ジャンプ・モデルでは、入力音響信号は一旦フィルタバンク処理を受け、周波数帯域ごとのパワー(ラウドネス)が人間の聴覚系の周波数伝達特性及び非線形応答を模擬して計算される。さらに全バンドに対する出力の和が計算され、これをもって総ラウドネスとみなす。そしてこの総ラウドネスの時間軸上での変化と、音韻ラベルとを照合し、音韻セグメント間に存在するラウドネスの変化量を算出し、それを基礎データとして入力音響信号中の事象の検出を試みる。
しかし、上記したラウドネス・ジャンプ・モデルには次のような問題が存在する。例えば、低域にだけエネルギーが存在する音から、高域だけにエネルギーが存在する音に切替わった場合を考える。この場合、総ラウドネスとしての値に大きな変化がなければ、ラウドネス・ジャンプ・モデルでは入力音響信号中に何の不連続も生じていないことになり、事象の検出ができない。実際にはこのような音の切替わり点は、人間にとっては明瞭に高域の音の出現として捉えられる。したがって、ラウドネス・ジャンプ・モデルだけでは、人間と同様の事象検出を音響信号から行なうことは困難である。
さらに重要な人間の聴覚処理の特徴は、音エネルギーの減衰は新規事象としてのマーキング機能をほとんど持たないということである。これはエネルギーの減衰が事象の終了を意味するからというだけでなく、事象の終了そのものが通常の状態では意味を持たないという特性を持っているためである。
例えば、弦楽器の演奏では弦を替えて次の音を出せば、前の音が終結せずに2番目の音が始まる。これに対して、管楽器の場合には次の音が出るときには前の音は終結してしまう。このような違いがあるにもかかわらず、人間は同じテンポとして二つの楽器の演奏を知覚する。これは、テンポやリズム感の知覚にとって、事象の終了点が重要な意味を持たないからである。
総ラウドネスの計算では、ある帯域のエネルギーの減少が全体のラウドネスに影響を与えてしまうことになり、事象の検出という機能にとって、これは人間の知覚との不一致の原因となる。
それゆえに本発明の目的は、人間の知覚に近い態様で、音響信号に基づいて事象を検出することができる事象検出装置及び方法を提供することである。
本発明の他の目的は、エネルギーの減少という事象は除外する形で、人間の知覚に近い態様で、音響信号に基づいて事象を検出することができる事象検出装置及び方法を提供することである。
本発明の第1の局面に係る事象検出装置は、入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうバンドパスフィルタと、バンドパスフィルタの出力信号に対し、バンド幅が中心周波数の単調増加関数として増加するような帯域分割を行ない、複数のフィルタ・チャネル信号に分割するためのフィルタ・バンク手段と、フィルタ・バンクにより帯域ごとに分割されたフィルタ・チャネル信号に対応して設けられ、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、帯域別の新規事象生起の指標信号を出力するための複数の帯域別指標信号出力手段と、複数の帯域別指標信号出力手段の出力を受け、帯域別の新規事象生起の指標信号に基づいて、入力音響信号に含まれる新規事象の生起点を検出するための新規事象生起点検出手段とを含む。
好ましくは、フィルタ・バンク手段は、バンドパスフィルタの出力信号に対し、人間の内耳の特性に従う帯域分割を行ない、複数のフィルタ・チャネル信号に分割するための定Q型フィルタ・バンクを含む。
さらに好ましくは、複数の帯域別指標信号出力手段の各々は、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なうための信号処理手段と、信号処理手段の出力を受けるローパスフィルタと、ローパスフィルタの出力を受け、その時間微分をとるための時間微分手段と、時間微分手段の出力に対し、所定のしきい値によるフロアリング処理を施すフロアリング処理手段とを含む。
新規事象生起点検出手段は、複数の帯域別指標信号出力手段の出力を所定の処理により統合し、入力音響信号に対する、統合された新規事象生起の指標信号を出力するための統合手段と、統合手段の出力のうち所定の条件を満足する個所を新規事象の生起点として検出するための事象検出手段とを含んでもよい。
好ましくは、統合手段は、複数の帯域別指標信号出力手段の出力の加算平均により、統合された新規事象生起の指標信号を出力するための手段を含む。
好ましくは、事象検出手段は、統合手段の出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するための手段を含む。
本発明の第2の局面に係る事象検出方法は、入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうステップと、バンドパスフィルタ処理を行なうステップにより得られた出力信号に対し、フィルタ・バンクによりバンド幅が中心周波数の単調増加関数として増加するような帯域分割を行なうステップと、フィルタ・バンクにより分割される帯域ごとに、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、複数の帯域別の新規事象生起の指標信号を出力するステップと、帯域別の新規事象生起の指標信号に基づいて、入力音響信号に含まれる新規事象の生起点を検出する新規事象生起点検出ステップとを含む。
好ましくは、帯域分割を行なうステップは、バンドパスフィルタ処理の出力信号に対し、複数のフィルタ・チャネル信号に分割する定Q型フィルタ・バンクを用いて、人間の内耳の特性に従う帯域分割を行なうステップを含む。
より好ましくは、複数の帯域別の新規事象生起の指標信号を出力するステップは、複数の帯域の各々において、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なう信号処理ステップと、信号処理ステップの出力をローパスフィルタに与えるステップと、ローパスフィルタの出力を受け、その時間微分をとる時間微分ステップと、時間微分ステップの出力に対し、所定のしきい値によるフロアリング処理を施すステップとを含む。
新規事象生起点検出ステップは、複数の帯域別の新規事象生起の指標信号を所定の処理により統合し、入力音響信号に対する、統合された新規事象生起の指標信号を出力する統合ステップと、統合ステップの出力のうち所定の条件を満足する個所を新規事象の生起点として検出する事象検出ステップとを含んでもよい。
好ましくは、統合ステップは、複数の帯域別の新規事象生起の指標信号の加算平均により、統合された新規事象生起の指標信号を出力するステップを含む。
より好ましくは、事象検出ステップは、統合ステップの出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するステップを含む。
[構成]
以下に述べる本発明の一実施の形態では、ラウドネス・ジャンプ・モデルと異なり、音響信号の帯域ごとに音響的エネルギーの変化に伴う活性レベルの変化率を計算し、活性レベルの上昇率に対してしきい値処理を施し、上昇率があるしきい値を超えた部分のみの複数帯域間の加算平均を計算し、新規事象の開始点らしさの指標として用いる。こうして得られた値の時間軸上の極大点をとることにより事象生起時点とし、それによって人間の知覚との不一致を解消する。
上記した要素のうち、帯域ごとの活性レベルについては聴覚末梢系の圧縮的非線形変換により実現する。またしきい値処理では、変化率の小さいもの、減少方向のものについては、しきい値によりフロアリングする。フロアリングするしきい値の設定を大きくするほど細かい事象を拾わなくなり、しきい値の設定により事象の検知の解像度ともいうべき特性を調整できる。
図1に、本実施の形態に係る音響信号中の事象検出装置のブロック図を示す。図1を参照して、この事象検出装置22は、入力音響信号である音声信号20から、事象検出出力24を出力するためのものである。事象検出装置22は、音声信号20に対して人間の外耳及び中耳の特性を反映したフィルタ処理を行なうためのバンドパスフィルタ30と、バンドパスフィルタ30の出力を帯域分割するための、人間の内耳特性を模した定Q型ガンマ・トーン・フィルタ・バンク32と、定Q型ガンマ・トーン・フィルタ・バンク32の出力に対し、フィルタ・チャネルごとに人間の聴覚特性を模した処理を行ない、さらに細かい変動を除去した上で帯域ごとの事象生起の可能性を示す事象情報を検出するための複数の帯域別処理部34とを含む。
事象検出装置22はさらに、これら複数の帯域別処理部34の出力の算術平均を算出することにより事象検出情報を統合化し、新規事象発生の可能性を示す指標として出力するための情報統合部36と、情報統合部36の出力が極大値をとる時間軸上の点を新規事象発生点として事象検出出力24を出力するための極大値検出部38とを含む。
図2に、帯域別処理部34の構成を示す。いずれの帯域別処理部34も同様の構成を持つ。図2を参照して、帯域別処理部34は、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の生体内情報を模擬する信号処理を行なうための半波整流部50及び対数圧縮処理部52と、対数圧縮処理部52の出力から細かい変動を除去するためのローパスフィルタ54と、ローパスフィルタ54の出力に対し時間微分を行なうことにより、この帯域の活性量の変化率の指標となる信号を出力するための時間微分処理部56と、時間微分処理部56が出力する変化率に対し、事象の開始点のみをマークするために、所定のしきい値よりも値の小さい部分および負の部分をクリップして所定の値にフロアリングし、新規事象の発生点らしさを表す指標を出力するためのフロアリング処理部58とを含む。
フロアリングするしきい値を小さくとると、比較的小さな変動までも事象の開始点として検出され、大きくとると小さな変動は無視される。したがって、しきい値を調整することにより、どの程度の大きさの変動を事象の開始点とするか、そのレベルを調整できる。
[動作]
上記した構成を持つ事象検出装置22は以下のように動作する。図1を参照して、音声信号20に対してはバンドパスフィルタ30によるバンドパスフィルタ処理が施され、外耳及び内耳の特性を反映した信号となる。この信号は定Q型ガンマ・トーン・フィルタ・バンク32に与えられ、帯域分割される。
図2を参照して、帯域別処理部34の各々に与えられたフィルタ・チャネル信号に対して半波整流部50による半波整流及び対数圧縮処理部52による対数圧縮がされ、その結果、人間の蝸牛神経核以降の生体内情報を模した信号が得られる。この信号をローパスフィルタ54に通すことで、信号の微小な変動が除去される。ローパスフィルタ54の出力に関する全帯域の聴覚的スペクトログラムを図3(A)に示す。なお、図3(B)には比較のために、同様の処理を一般的なFFT(Fast Fourier Transform)分析を基に行なった場合に得られる聴覚的スペクトログラムを示す。
再び図2を参照して、ローパスフィルタ54の出力を時間微分処理部56に与えることにより、このフィルタ・チャネルの活性量の変化率の指標とする。時間微分処理部56の出力として得られる、聴覚的スペクトログラムに基づく各帯域の活性量の変化率を図4(A)に示す。図4(B)には図3(B)と同様、FFT処理に基づく各帯域の活性量の変化率を示す。図4において、黒い部分ほど新規事象が開始したことを知らせる手掛りを多く送っていることになる。白い部分は反対に音の終了点に対応する。
新規事象の開始点のみをマークするため、時間微分処理部56の出力をフロアリング処理部58に与える。フロアリング処理部58により、時間微分処理部56の出力のうち、フロアリングのためのしきい値よりも小さな部分はしきい値にフロアリングされる。具体的には、信号の値としきい値とのうちの最大値で信号の値を置換する。この処理の結果を図5(A)に示す。FFT処理に基づくものを図5(B)に示す。この結果、帯域ごとに、新規事象の発生点らしさを表す指標が得られる。具体的には、図5(A)において、黒い部分が、その帯域において新規事象が発生している可能性が高いことを示している。
再び図1を参照して、このようにして帯域ごとに得られた帯域別処理部34の出力を加算平均する。その結果得られた値を時間の関数として示したのが図6(A)である。図3〜図5と同様、FFTに基づいて得られた関数を図6(B)に示す。図6(A)に示すグラフは、帯域全体から得られた、新規事象発生の可能性を表す指標と考えられる。したがってその極大値を調べ、その極大値に対応する時間軸上の点を事象生起点とする。
前述したとおり、フロアリングのしきい値の大きさを調整することにより、最終的に得られる極大値の数を調整することができる。すなわち、フロアリング処理のしきい値を上げることによって極大値の数は減少し、下げると増大する。
図6(A)と図6(B)とを比較すると容易に分かるように、同じフロアリングしきい値を用いているにもかかわらず、本実施の形態によれば適正な数の極大値が得られているのに対し、FFT処理によるものでは極大値の数が多く、不要なものまで現れていることが分かる。FFT処理による場合、このような不要な極大値を消そうとしてフロアリングのしきい値を大きくすると、必要な極大値まで消えてしまうことが起きやすい。
本実施の形態での処理と、FFTに基づく処理との基本的な相違は、帯域分割の仕方にある。例えば通常のFFT処理では、フォルマントの僅かな移動が高域においては異なる周波数チャネルへのエネルギーの移動となり、そのチャネルにおける新しい事象の発生として潜在力を持ってしまう。それに対して本実施の形態では、帯域分割を定Q型ガンマ・トーン・フィルタ・バンク32により行なっているため、高域に行くにつれバンド幅は中心周波数に比例的に広がる。そのため、FFT処理による場合のような事態を招きにくくなる。この相違が、図6(A)と図6(B)との相違となって現れている。
なお、フィルタ・バンクとしては上記した定Q型フィルタが望ましいが、中心周波数の単調関数としてバンド幅が広がるようなフィルタ・バンクであれば、上記した効果をある程度期待できる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態に係る事象検出装置22のブロック図である。 図1に示す帯域別処理部34のブロック図である。 帯域別処理部34のローパスフィルタ54の出力に基づくスペクトログラムと、FFT処理に基づくスペクトログラムである。 時間微分処理部56による時間微分の結果得られる各帯域の活性量の変化率と、FFTに基づいて得られる活性量の変化率とを示す図である。 本実施の形態に係るフロアリング処理部58において帯域別の変化率にフロアリング処理をしたものと、FFT処理に基づいて得られる変化率にフロアリング処理をしたものとを示す図である。 本実施の形態係る情報統合部36の出力として得られる、新規事象発生の指標と、FFT処理に基づいて得られる同様の指標との時間変化を示すグラフである。
符号の説明
20 音声信号、22 事象検出装置、24 事象検出出力、30 バンドパスフィルタ、32 定Q型ガンマ・トーン・フィルタ・バンク、34 帯域別処理部、36 情報統合部、50 半波整流部、52 対数圧縮処理部、54 ローパスフィルタ、56 時間微分処理部、58 フロアリング処理部

Claims (12)

  1. 入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうバンドパスフィルタと、
    前記バンドパスフィルタの出力信号に対し、バンド幅が中心周波数の単調増加関数として増加するような帯域分割を行ない、複数のフィルタ・チャネル信号に分割するためのフィルタ・バンク手段と、
    前記フィルタ・バンクにより帯域ごとに分割されたフィルタ・チャネル信号に対応して設けられ、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、帯域別の新規事象生起の指標信号を出力するための複数の帯域別指標信号出力手段と、
    前記複数の帯域別指標信号出力手段の出力を受け、前記帯域別の新規事象生起の指標信号に基づいて、前記入力音響信号に含まれる新規事象の生起点を検出するための新規事象生起点検出手段とを含む、事象検出装置。
  2. 前記フィルタ・バンク手段は、前記バンドパスフィルタの出力信号に対し、人間の内耳の特性に従う帯域分割を行ない、前記複数のフィルタ・チャネル信号に分割するための定Q型フィルタ・バンクを含む、請求項1に記載の事象検出装置。
  3. 前記複数の帯域別指標信号出力手段の各々は、
    入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なうための信号処理手段と、
    前記信号処理手段の出力を受けるローパスフィルタと、
    前記ローパスフィルタの出力を受け、その時間微分をとるための時間微分手段と、
    前記時間微分手段の出力に対し、所定のしきい値によるフロアリング処理を施すフロアリング処理手段とを含む、請求項1又は請求項2に記載の事象検出装置。
  4. 前記新規事象生起点検出手段は、
    前記複数の帯域別指標信号出力手段の出力を所定の処理により統合し、前記入力音響信号に対する、統合された新規事象生起の指標信号を出力するための統合手段と、
    前記統合手段の出力のうち所定の条件を満足する個所を新規事象の生起点として検出するための事象検出手段とを含む、請求項1〜請求項3のいずれかに記載の事象検出装置。
  5. 前記統合手段は、前記複数の帯域別指標信号出力手段の出力の加算平均により、前記統合された新規事象生起の指標信号を出力するための手段を含む、請求項4に記載の事象検出装置。
  6. 前記事象検出手段は、前記統合手段の出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するための手段を含む、請求項4又は請求項5に記載の事象検出装置。
  7. 入力音響信号に対し、人間の聴感特性を反映したバンドパスフィルタ処理を行なうステップと、
    前記バンドパスフィルタ処理を行なうステップにより得られた出力信号に対し、フィルタ・バンクによりバンド幅が中心周波数の単調増加関数として増加するような帯域分割を行なうステップと、
    前記フィルタ・バンクにより分割される帯域ごとに、帯域ごとのフィルタ・チャネル信号の活性量の変化率に対し所定のしきい値を超える部分を検出し、複数の帯域別の新規事象生起の指標信号を出力するステップと、
    前記帯域別の新規事象生起の指標信号に基づいて、前記入力音響信号に含まれる新規事象の生起点を検出する新規事象生起点検出ステップとを含む、事象検出方法。
  8. 前記帯域分割を行なうステップは、前記バンドパスフィルタ処理の出力信号に対し、前記複数のフィルタ・チャネル信号に分割する定Q型フィルタ・バンクを用いて、人間の内耳の特性に従う帯域分割を行なうステップを含む、請求項7に記載の事象検出方法。
  9. 前記複数の帯域別の新規事象生起の指標信号を出力するステップは、
    前記複数の帯域の各々において、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の聴感特性を反映した所定の信号処理を行なう信号処理ステップと、
    前記信号処理ステップの出力をローパスフィルタに与えるステップと、
    前記ローパスフィルタの出力を受け、その時間微分をとる時間微分ステップと、
    前記時間微分ステップの出力に対し、所定のしきい値によるフロアリング処理を施すステップとを含む、請求項7又は請求項8に記載の事象検出方法。
  10. 前記新規事象生起点検出ステップは、
    前記複数の帯域別の新規事象生起の指標信号を所定の処理により統合し、前記入力音響信号に対する、統合された新規事象生起の指標信号を出力する統合ステップと、
    前記統合ステップの出力のうち所定の条件を満足する個所を新規事象の生起点として検出する事象検出ステップとを含む、請求項7〜請求項9のいずれかに記載の事象検出方法。
  11. 前記統合ステップは、前記複数の帯域別の新規事象生起の指標信号の加算平均により、前記統合された新規事象生起の指標信号を出力するステップを含む、請求項10に記載の事象検出方法。
  12. 前記事象検出ステップは、前記統合ステップの出力の極大値に対応する時間軸上の点を新規事象の生起点として検出するステップを含む、請求項10又は請求項11に記載の事象検出方法。
JP2004064901A 2004-03-09 2004-03-09 音響信号の事象検出装置及び方法 Pending JP2005257708A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004064901A JP2005257708A (ja) 2004-03-09 2004-03-09 音響信号の事象検出装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004064901A JP2005257708A (ja) 2004-03-09 2004-03-09 音響信号の事象検出装置及び方法

Publications (1)

Publication Number Publication Date
JP2005257708A true JP2005257708A (ja) 2005-09-22

Family

ID=35083534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004064901A Pending JP2005257708A (ja) 2004-03-09 2004-03-09 音響信号の事象検出装置及び方法

Country Status (1)

Country Link
JP (1) JP2005257708A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310138A (ja) * 2007-06-15 2008-12-25 Toshiba Corp シーン分類装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310138A (ja) * 2007-06-15 2008-12-25 Toshiba Corp シーン分類装置

Similar Documents

Publication Publication Date Title
EP3566225B1 (en) Methods and apparatus for cough detection in background noise environments
JP4763965B2 (ja) オーディオ信号の聴覚的イベントへの分割
CN1524258B (zh) 把音频信号分割成听觉事件
US9959886B2 (en) Spectral comb voice activity detection
EP3954278A1 (en) Apnea monitoring method and device
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
US20140288938A1 (en) Systems and methods for enhancing place-of-articulation features in frequency-lowered speech
WO2010011963A1 (en) Methods and systems for identifying speech sounds using multi-dimensional analysis
CN105765654A (zh) 具有基频修改的助听装置
Li et al. The contribution of obstruent consonants and acoustic landmarks to speech recognition in noise
US9020818B2 (en) Format based speech reconstruction from noisy signals
KR20190140780A (ko) 음악 장르 분류 장치 및 방법
JP2005257708A (ja) 音響信号の事象検出装置及び方法
Noh et al. How does speaking clearly influence acoustic measures? A speech clarity study using long-term average speech spectra in Korean language
CN115243183A (zh) 一种音频检测方法、设备及存储介质
Dai et al. An improved model of masking effects for robust speech recognition system
JP5109050B2 (ja) 音声処理装置およびプログラム
Turner et al. Vowel normalisation: Time-domain processing of the internal dynamics of speech
JP2007206154A (ja) 実環境騒音下の音声区間の検出
Brown et al. The representation of speech in a nonlinear auditory model: time-domain analysis of simulated auditory-nerve firing patterns
CN113257284B (zh) 语音活动检测模型训练、语音活动检测方法及相关装置
CN115206345A (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质
Olsen et al. Forward masking of dynamic acoustic intensity: Effects of intensity region and end-level
Knorr A hearing aid for subjects with extreme high-frequency losses