JP6392414B2 - オーディオ信号分類方法及び装置 - Google Patents

オーディオ信号分類方法及び装置 Download PDF

Info

Publication number
JP6392414B2
JP6392414B2 JP2017117505A JP2017117505A JP6392414B2 JP 6392414 B2 JP6392414 B2 JP 6392414B2 JP 2017117505 A JP2017117505 A JP 2017117505A JP 2017117505 A JP2017117505 A JP 2017117505A JP 6392414 B2 JP6392414 B2 JP 6392414B2
Authority
JP
Japan
Prior art keywords
frequency spectrum
frame
audio frame
current audio
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017117505A
Other languages
English (en)
Other versions
JP2017187793A (ja
Inventor
▲ジー▼ 王
▲ジー▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017187793A publication Critical patent/JP2017187793A/ja
Application granted granted Critical
Publication of JP6392414B2 publication Critical patent/JP6392414B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Television Receiver Circuits (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

この出願は、参照することによりその全体が本願に組み入れられる2013年8月6日に中国特許庁に出願されて「オーディオ信号分類方法及び装置」と題される中国特許出願公開第201310339218.5号明細書の優先権を主張する。
本発明は、デジタル信号処理技術の分野に関し、特に、オーディオ信号分類方法及び装置に関する。
記憶又は送信中にビデオ信号により占められるリソースを減らすために、オーディオ信号は、送信端で圧縮された後、受信端へ送信され、また、受信端は、解凍によってオーディオ信号を復元する。
オーディオ処理用途において、オーディオ信号分類は、幅広く適用される重要な技術である。例えば、オーディオエンコーディング/デコーディング用途において、比較的よく知られているコーデックは、現在、エンコーディングとデコーディングとのハイブリッドタイプである。このコーデックは、一般に、スピーチ生成モデルに基づくエンコーダ(CELPなど)、及び、変換に基づくエンコーダ(MDCTに基づくエンコーダなど)を含む。中間のビットレート又は低いビットレートにおいて、スピーチ生成モデルに基づくエンコーダは、比較的良好なスピーチエンコーディング品質を得ることができるが、比較的低いミュージックエンコーディング品質を有し、一方、変換に基づくエンコーダは、比較的良好なミュージックエンコーディング品質を得ることができるが、比較的低いスピーチエンコーディング品質を有する。したがって、ハイブリッドコーデックは、スピーチ生成モデルに基づくエンコーダを使用することによりスピーチ信号をエンコードするとともに、変換に基づくエンコーダを使用することによりミュージック信号をエンコードし、それにより、全体として最適なエンコーディング効果を得る。本明細書において、中核技術は、この用途が特に関係する限りにおいて、オーディオ信号分類又はエンコーディングモード選択である。
ハイブリッドコーデックは、該ハイブリッドコーデックが最適なエンコーディングモード選択を得ることができる前に正確な信号タイプ情報を得る必要がある。オーディオ信号分類器は、概してスピーチ/ミュージック分類器と見なされる場合がある。スピーチ認識率及びミュージック認識率は、スピーチ/ミュージック分類器の性能を測定するための重要な指標である。特にミュージック信号に関しては、その信号特性の多様性/複雑さに起因して、ミュージック信号の認識が一般にスピーチ信号の認識よりも困難である。また、認識遅延も非常に重要な指標のうちの1つである。短い時間におけるスピーチ/ミュージックの特性の不明瞭さに起因して、スピーチ/ミュージックが比較的正確に認識され得る前に比較的長い時間を要する必要がある。一般に、同じタイプの信号の中間セクションでは、より長い認識遅延がより正確な認識を示す。しかしながら、2つのタイプの信号の移行セクションでは、より長い認識遅延がより低い認識精度を示し、これは、ハイブリッド信号(バックグラウンドミュージックを有するスピーチなど)が入力される状況で特に深刻である。したがって、高い認識率及び低い認識遅延の両方を有することが高性能スピーチ/ミュージック認識器の必要な属性である。また、分類安定性も、ハイブリッドエンコーダのエンコーディング品質に影響を及ぼす重要な属性である。一般に、ハイブリッドエンコーダがエンコーダの異なるタイプ間で切り換わると、品質低下が生じる場合がある。同じタイプの信号において頻繁なタイプ切り換えが分類器で行われる場合には、エンコーディング品質が比較的大きく影響され、したがって、分類器の出力される分類結果を正確で且つ平滑にすべきことが必要とされる。また、通信システムにおける分類アルゴリズムなどの幾つかの用途では、商業的な要件を満たすために、分類アルゴリズムの計算の複雑さ及び記憶オーバーヘッドを可能な限り低くすべきことも必要とされる。
ITU−T標準規格G.720.1は、スピーチ/ミュージック分類器を含む。この分類器は、主要なパラメータ、すなわち、周波数スペクトル変動分散var_fluxを信号分類のための主な基準として使用するとともに、2つの異なる周波数スペクトルピーキネスパラメータp1及びp2を補助的な基準として使用する。var_fluxにしたがった入力信号の分類は、var_fluxの局所統計値にしたがってFIFO var_flux bufferにおいて完了される。以下、特定のプロセスについて簡単に説明する。すなわち、最初に、周波数スペクトル変動fluxが、各入力オーディオフレームから抽出されて、第1のbufferにバッファリングされ、また、ここで、fluxは、現在の入力フレームを含む4つの最新のフレームにおいて計算され、或いは、他の方法を使用することにより計算されてもよい。その後、現在の入力フレームのvar_fluxを得るために、現在の入力フレームを含むN個の最新のフレームのfluxの分散が計算され、また、var_fluxは第2のbufferにバッファリングされる。その後、第2のbuffer内の現在の入力フレームを含むM個の最新のフレームのうちそのvar_fluxが第1の閾値よりも大きいフレームの量Kが計数される。Mに対するKの比率が第2の閾値よりも大きい場合には、現在の入力フレームがスピーチフレームであると決定され、そうでない場合には、現在の入力フレームがミュージックフレームである。補助パラメータp1及びp2は、分類を変更するために主に使用されるとともに、各入力オーディオフレームに計算される。p1及び/又はp2が第3の閾値及び/又は第4の閾値よりも大きいときには、現在の入力オーディオフレームがミュージックフレームであると直接に決定される。
このスピーチ/ミュージック分類器の不都合は以下の通りである。すなわち、一方では、ミュージックのための絶対認識率が依然として向上される必要があり、他方では、分類器の標的用途がハイブリッド信号の適用シナリオに固有のものではないため、ハイブリッド信号のための認識性能においても依然として向上の余地がある。
多くの既存のスピーチ/ミュージック分類器は、モード認識原理に基づいて設計される。このタイプの分類器は、一般に、複数(1ダースから数ダース)の特性パラメータを入力オーディオフレームから抽出して、これらのパラメータをガウスハイブリッドモデルに基づく分類器へ、又は、ニューラルネットワークへ又は、分類を行うための他の伝統的な分類方法へ供給する。
このタイプの分類器は、比較的確かな論理的基準を有するが、一般に比較的高い計算複雑さ又は記憶複雑さを有し、したがって、実施コストが比較的高い。
本発明の実施形態の目的は、ハイブリッドオーディオ信号の分類認識率を確保しつつ信号分類の複雑さを減らすためのオーディオ信号分類方法及び装置を提供することである。
第1の態様によれば、オーディオ信号分類方法が提供され、該方法は、
現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動を得て該周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかを決定するステップであって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示す、ステップと、
オーディオフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがって周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動を更新するステップと、
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップとを含む。
第1の想定し得る実施態様において、現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動を得て該周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかを決定する前記ステップは、
現在オーディオフレームが活性フレームである場合に、現在オーディオフレームの周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するステップを含む。
第2の想定し得る実施態様において、現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動を得て該周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかを決定する前記ステップは、現在オーディオフレームが活性フレームであるとともに現在オーディオフレームがエネルギー攻撃に属さない場合に、現在オーディオフレームの周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するステップを含む。
第3の想定し得る実施態様において、現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動を得て該周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかを決定する前記ステップは、
現在オーディオフレームが活性フレームであるとともに現在オーディオフレームと該現在オーディオフレームの履歴フレームとを備える複数の連続するフレームのいずれもがエネルギー攻撃に属さない場合に、オーディオフレームの周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するステップを含む。
第1の態様又は第1の態様の第1の想定し得る実施態様又は第1の態様の第2の想定し得る実施態様又は第1の態様の第3の想定し得る実施態様と関連して、第4の想定し得る実施態様において、現在オーディオフレームがパーカッションミュージックであるかどうかにしたがって周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動を更新する前記ステップは、
現在オーディオフレームがパーカッションミュージックに属する場合に、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の値を変更するステップを含む。
第1の態様又は第1の態様の第1の想定し得る実施態様又は第1の態様の第2の想定し得る実施態様又は第1の態様の第3の想定し得る実施態様と関連して、第5の想定し得る実施態様において、履歴オーディオフレームの活性にしたがって周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動を更新する前記ステップは、
現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、前のオーディオフレームが不活性フレームであることが決定されれば、現在オーディオフレームの周波数スペクトル変動を除く周波数スペクトル変動メモリ内に記憶される他の周波数スペクトル変動のデータを無効データに変更するステップ、又は、
現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、現在オーディオフレームの前の3つの連続する履歴フレームが全て活性フレームではないことが決定されれば、現在オーディオフレームの周波数スペクトル変動を第1の値に変更するステップ、又は、
現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、履歴分類結果がミュージック信号であり且つ現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きいことが決定されれば、現在オーディオフレームの周波数スペクトル変動を第2の値に変更するステップを含み、第2の値は第1の値よりも大きい。
第1の態様又は第1の態様の第1の想定し得る実施態様又は第1の態様の第2の想定し得る実施態様又は第1の態様の第3の想定し得る実施態様又は第1の態様の第4の想定し得る実施態様又は第1の態様の第5の想定し得る実施態様と関連して、第6の想定し得る実施態様において、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得るステップと、
周波数スペクトル変動の有効データの得られた平均値がミュージック分類条件を満たすときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類するステップとを含む。
第1の態様又は第1の態様の第1の想定し得る実施態様又は第1の態様の第2の想定し得る実施態様又は第1の態様の第3の想定し得る実施態様又は第1の態様の第4の想定し得る実施態様又は第1の態様の第5の想定し得る実施態様と関連して、第7の想定し得る実施態様において、オーディオ信号分類方法は、
現在オーディオフレームの周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を得るステップであって、周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度は、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、ステップと、
現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定するステップとを更に含み、
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動のデータの一部又は全部の統計値にしたがってオーディオフレームを分類する前記ステップは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得るステップと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類するステップとを含む。
第2の態様によれば、オーディオ信号分類装置が提供され、該装置は入力オーディオ信号を分類するように構成され、装置は、
現在オーディオフレームのボイス活性にしたがって現在オーディオフレームの周波数スペクトル変動を得て記憶するべきかどうかを決定する記憶決定ユニットであって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示す、記憶決定ユニットと、
周波数スペクトル変動が記憶される必要があるという結果を記憶決定ユニットが出力するときに周波数スペクトル変動を記憶するメモリと、
スピーチフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがってメモリに記憶される周波数スペクトル変動を更新する更新ユニットと、
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレーム又はミュージックフレームとして分類する分類ユニットとを含む。
第1の想定し得る実施態様において、記憶決定ユニットは、具体的には、現在オーディオフレームが活性フレームであると決定されるときに、現在オーディオフレームの周波数スペクトル変動が記憶される必要があるという結果を出力するように構成される。
第2の想定し得る実施態様において、記憶決定ユニットは、具体的には、現在オーディオフレームが活性フレームであるととともに現在オーディオフレームがエネルギー攻撃に属さないと決定されるときに、現在オーディオフレームの周波数スペクトル変動が記憶される必要があるという結果を出力するように構成される。
第3の想定し得る実施態様において、記憶決定ユニットは、具体的には、現在オーディオフレームが活性フレームであるととともに現在オーディオフレームと現在オーディオフレームの履歴フレームとを含む複数の連続するフレームのいずれもがエネルギー攻撃に属さないと決定されるときに、現在オーディオフレームの周波数スペクトル変動が記憶される必要があるという結果を出力するように構成される。
第2の態様又は第2の態様の第1の想定し得る実施態様又は第2の態様の第2の想定し得る実施態様又は第2の態様の第3の想定し得る実施態様と関連して、第4の想定し得る実施態様において、更新ユニットは、具体的には、現在オーディオフレームがパーカッションミュージックに属する場合に、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の値を変更するように構成される。
第2の態様又は第2の態様の第1の想定し得る実施態様又は第2の態様の第2の想定し得る実施態様又は第2の態様の第3の想定し得る実施態様と関連して、第5の想定し得る実施態様において、更新ユニットは、具体的には、現在オーディオフレームが活性フレームであるとともに前のオーディオフレームが不活性フレームである場合に、現在オーディオフレームの周波数スペクトル変動を除くメモリ内に記憶される他の周波数スペクトル変動のデータを無効データに変更する、或いは、
現在オーディオフレームが活性フレームであるとともに現在オーディオフレームの前の3つの連続するフレームが全て活性フレームではない場合に、現在オーディオフレームの周波数スペクトル変動を第1の値に変更する、或いは、
現在オーディオフレームが活性フレームであるとともに履歴分類結果がミュージック信号であり且つ現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きい場合に、現在オーディオフレームの周波数スペクトル変動を第2の値に変更するように構成され、この場合、第2の値は第1の値よりも大きい。
第2の態様又は第2の態様の第1の想定し得る実施態様又は第2の態様の第2の想定し得る実施態様又は第2の態様の第3の想定し得る実施態様又は第2の態様の第4の想定し得る実施態様又は第2の態様の第5の想定し得る実施態様と関連して、第6の想定し得る実施態様において、分類ユニットは、
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得る計算ユニットと、
周波数スペクトル変動の有効データの平均値とミュージック分類条件とを比較して、周波数スペクトル変動の有効データの平均値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
第2の態様又は第2の態様の第1の想定し得る実施態様又は第2の態様の第2の想定し得る実施態様又は第2の態様の第3の想定し得る実施態様又は第2の態様の第4の想定し得る実施態様又は第2の態様の第5の想定し得る実施態様と関連して、第7の想定し得る実施態様において、オーディオ信号分類装置は、
現在オーディオフレームの周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、有声化パラメータ、及び、線形予測残留エネルギー勾配を取得するパラメータ取得ユニットを更に含み、周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度は、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、有声化パラメータは、現在オーディオフレームとピッチ期間の前の信号との間の時間領域相関度を示し、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示し、
記憶決定ユニットは、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定するように更に構成され、
記憶ユニットは、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配が記憶される必要があるという結果を記憶決定ユニットが出力するときに周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するように更に構成され、
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成される。
第2の態様の第7の想定し得る実施態様に関連して、第8の想定し得る実施態様において、分類ユニットは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
第3の態様によれば、オーディオ信号分類方法が提供され、該方法は、
入力オーディオ信号に関してフレーム分割処理を行うステップと、
現在オーディオフレームの線形予測残留エネルギー勾配を得るステップであって、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、ステップと、
線形予測残留エネルギー勾配をメモリに記憶するステップと、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類するステップとを含む。
第1の想定し得る実施態様において、線形予測残留エネルギー勾配をメモリに記憶する前に、方法は、
現在オーディオフレームのボイス活性にしたがって、線形予測残留エネルギー勾配をメモリ内に記憶するべきかどうかを決定するとともに、線形予測残留エネルギー勾配が記憶される必要があると決定されるときに線形予測残留エネルギー勾配をメモリに記憶するステップを更に含む。
第3の態様又は第3の態様の第1の想定し得る実施態様と関連して、第2の想定し得る実施態様において、予測残留エネルギー勾配のデータの一部の統計値は、予測残留エネルギー勾配のデータの一部の分散であり、メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する前記ステップは、
予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類するステップを含む。
第3の態様又は第3の態様の第1の想定し得る実施態様と関連して、第3の想定し得る実施態様において、オーディオ信号分類方法は、
現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を対応するメモリに記憶するステップを更に含み、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する前記ステップは、
記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップを含み、有効データの統計値とは、メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである。
第3の態様の第3の想定し得る実施態様と関連して、第4の想定し得る実施態様において、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得るステップと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームがスピーチフレームとして分類するステップとを含む。
第3の態様又は第3の態様の第1の想定し得る実施態様と関連して、第5の想定し得る実施態様において、オーディオ信号分類方法は、
現在オーディオフレームの周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得るとともに、周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを対応するメモリ内に記憶するステップを更に含み、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する前記ステップは、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得るステップと、
線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップとを含み、統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
第3の態様の第5の想定し得る実施態様と関連して、第6の想定し得る実施態様において、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得る前記ステップは、
記憶された線形予測残留エネルギー勾配の分散を得るステップと、
記憶された周波数スペクトル音量の平均値を得るステップと
を含み、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、
さもなければ、現在オーディオフレームをスピーチフレームとして分類するステップを含む。
第3の態様又は第3の態様の第1の想定し得る実施態様又は第3の態様の第2の想定し得る実施態様又は第3の態様の第3の想定し得る実施態様又は第3の態様の第4の想定し得る実施態様又は第3の態様の第5の想定し得る実施態様又は第3の態様の第6の想定し得る実施態様と関連して、第7の想定し得る実施態様において、現在オーディオフレームの線形予測残留エネルギー勾配を得る前記ステップは、
以下の式にしたがって現在オーディオフレームの線形予測残留エネルギー勾配を取得するステップを含み
Figure 0006392414
、ここで、epsP(i)は、現在オーディオフレームのi番目の次数の線形予測の予測残留エネルギーを示し、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である。
第3の態様の第5の想定し得る実施態様又は第3の態様の第6の想定し得る実施態様と関連して、第8の想定し得る実施態様において、現在オーディオフレームの周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得る前記ステップは、
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を計数して、その量を周波数スペクトル音量として使用するステップと、
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用するステップとを含む。
第4の態様によれば、信号分類装置が提供され、該装置は、入力オーディオ信号を分類するように構成され、装置は、
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
現在オーディオフレームの線形予測残留エネルギー勾配を取得するパラメータ取得ユニットであって、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニットと、
線形予測残留エネルギー勾配を記憶する記憶ユニットと、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する分類ユニットとを含む。
第1の想定し得る実施態様において、信号分類装置は、
現在オーディオフレームのボイス活性にしたがって線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定する記憶決定ユニットを更に含み、
記憶ユニットは、具体的には、線形予測残留エネルギー勾配が記憶される必要があることを記憶決定ユニットが決定するときに線形予測残留エネルギー勾配をメモリに記憶するように構成される。
第4の態様又は第4の態様の第1の想定し得る実施態様と関連して、第2の想定し得る実施態様において、予測残留エネルギー勾配のデータの一部の統計値は、予測残留エネルギー勾配のデータの一部の分散であり、
分類ユニットは、具体的には、予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類するように構成される。
第4の態様又は第4の態様の第1の想定し得る実施態様と関連して、第3の想定し得る実施態様において、パラメータ取得ユニットは、現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を対応するメモリに記憶するように更に構成され、
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、有効データの統計値とは、メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである。
第4の態様の第3の想定し得る実施態様と関連して、第4の想定し得る実施態様において、分類ユニットは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
第4の態様又は第4の態様の第1の想定し得る実施態様と関連して、第5の想定し得る実施態様において、パラメータ取得ユニットは、現在オーディオフレームの周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得るとともに、周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とをメモリ内に記憶するように更に構成され、
分類ユニットは、具体的に、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、有効データの統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
第4の態様の第5の想定し得る実施態様と関連して、第6の想定し得る実施態様において、分類ユニットは、
記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
第4の態様又は第4の態様の第1の想定し得る実施態様又は第4の態様の第2の想定し得る実施態様又は第4の態様の第3の想定し得る実施態様又は第4の態様の第4の想定し得る実施態様又は第4の態様の第5の想定し得る実施態様又は第4の態様の第6の想定し得る実施態様と関連して、第7の想定し得る実施態様において、パラメータ取得ユニットは、以下の式にしたがって現在オーディオフレームの線形予測残留エネルギー勾配を取得し、
Figure 0006392414
ここで、epsP(i)は、現在オーディオフレームのi番目の次数の線形予測の予測残留エネルギーを示し、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である。
第4の態様の第5の想定し得る実施態様又は第4の態様の第6の想定し得る実施態様と関連して、第8の想定し得る実施態様において、パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を計数して、その量を周波数スペクトル音量として使用するように構成され、パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用するように構成される。
本発明の実施形態では、周波数スペクトル変動の長期統計値にしたがってオーディオ信号が分類され、したがって、パラメータが比較的少なく、認識率が比較的高いとともに、複雑さが比較的低い。また、周波数スペクトル変動は、ボイス活性及びパーカッションミュージックなどの因子を考慮して調整され、したがって、本発明は、ミュージック信号に関してより高い認識率を有するとともに、ハイブリッドオーディオ信号分類に適している。
本発明の実施形態又は従来技術における技術的な解決策をより明確に説明するために、以下は、実施形態又は従来技術を説明するために必要な添付図面を簡単に導入する。明らかに、以下の説明における添付図面は、本発明の幾つかの実施形態を単に示すにすぎず、また、当業者は、創造的労力を伴わずにこれらの添付図面から他の図面を依然として導き出すことができる。
オーディオ信号をフレームに分割する概略図である。 本発明に係るオーディオ信号分類方法の一実施形態の概略的なフローチャートである。 本発明に係る周波数スペクトル変動を得る一実施形態の概略的なフローチャートである。 本発明に係るオーディオ信号分類方法の他の実施形態の概略的なフローチャートである。 本発明に係るオーディオ信号分類方法の他の実施形態の概略的なフローチャートである。 本発明に係るオーディオ信号分類方法の他の実施形態の概略的なフローチャートである。 本発明に係るオーディオ信号分類方法の具体的な分類フローチャートである。 本発明に係るオーディオ信号分類方法の具体的な分類フローチャートである。 本発明に係るオーディオ信号分類方法の具体的な分類フローチャートである。 本発明に係るオーディオ信号分類方法の具体的な分類フローチャートである。 本発明に係るオーディオ信号分類方法の他の実施形態の概略的なフローチャートである。 本発明に係るオーディオ信号分類方法の具体的な分類フローチャートである。 本発明に係るオーディオ信号分類装置の一実施形態の概略的な構造図である。 本発明に係る分類ユニットの一実施形態の概略的な構造図である。 本発明に係るオーディオ信号分類装置の他の実施形態の概略的な構造図である。 本発明に係るオーディオ信号分類装置の他の実施形態の概略的な構造図である。 本発明に係る分類ユニットの一実施形態の概略的な構造図である。 本発明に係るオーディオ信号分類装置の他の実施形態の概略的な構造図である。 本発明に係るオーディオ信号分類装置の他の実施形態の概略的な構造図である。
以下、本発明の実施形態における添付図面を参照して、本発明の実施形態における技術的解決策を明確に且つ完全に説明する。明らかに、説明される実施形態は、本発明の実施形態の単なる一部にすぎず、全てではない。創造的労力を伴うことなく本発明の実施形態に基づいて当業者により得られる他の全ての実施形態は、本発明の保護範囲内に入るものとする。
デジタル信号処理の分野において、オーディオコーデック及びビデオコーデックは、様々な電子デバイスにおいて、例えば、携帯電話、無線装置、パーソナル・デジタル・アシスタント(PDA)、ハンドヘルドコンピュータ又はポータブルコンピュータ、GPS受信器/ナビゲータ、カメラ、オーディオ/ビデオプレーヤ、ビデオカメラ、ビデオレコーダ、及び、監視デバイスにおいて幅広く適用される。一般に、このタイプの電子デバイスはオーディオエンコーダ又はオーディオデコーダを含み、オーディオエンコーダ又はデコーダは、デジタル回路又はチップ、例えばDSP(digital signal processor)によって直接的に実施されてもよく、或いは、ソフトウェアコードでプロセスを実行するためにプロセッサを駆動させるソフトウェアコードによって実施されてもよい。オーディオエンコーダでは、オーディオ信号が最初に分類されて、異なるタイプのオーディオ信号が異なるエンコーディングモードでエンコードされ、その後、エンコーディング後に得られるビットストリームがデコーダ側に送信される。
一般に、オーディオ信号がフレーム分割態様で処理され、また、信号の各フレームが特定の継続時間のオーディオ信号を表す。図1を参照すると、現在入力されて分類される必要があるオーディオフレームは、現在オーディオフレームと称されてもよく、また、現在オーディオフレームの前の任意のオーディオフレームは、履歴オーディオフレームと称されてもよい。現在オーディオフレームから履歴オーディオフレームへの時間系列にしたがって、履歴オーディオフレームは、順次に、前のオーディオフレーム、2番目前のオーディオフレーム、3番目前のオーディオフレーム、及び、N番目前のオーディオフレームになってもよく、ここで、Nは4以上である。
この実施形態において、入力オーディオ信号は16kHzでサンプリングされる広帯域オーディオ信号であり、また、入力オーディオ信号は、1フレームとして20msを使用することにより複数のフレームに分割される。すなわち、各フレームは、320個の時間領域サンプリングポイントを有する。特性パラメータが抽出される前に、入力オーディオ信号フレームが最初に12.8kHzのサンプリングレートでダウンサンプリングされる。すなわち、それぞれのフレームに256個のサンプリングポイントが存在する。以下の各入力オーディオ信号フレームは、ダウンサンプリング後に得られるオーディオ信号フレームを示す。
図2を参照すると、オーディオ信号分類方法の一実施形態は以下を含む。
S101:入力オーディオ信号に関してフレーム分割処理を行うとともに、現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動を得て、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示す場合に、周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかを決定する。
オーディオ信号分類は一般にフレームごとに行われ、また、分類を行って、オーディオ信号フレームがスピーチフレームに属するのか或いはミュージックフレームに属するのかどうかを決定するとともに、対応するエンコーディングモードでエンコーディングを行うために、各オーディオ信号フレームからパラメータが抽出される。一実施形態では、フレーム分割処理がオーディオ信号に関して行われた後に、現在オーディオフレームの周波数スペクトル変動が得られてもよく、また、その後、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかが決定される。他の実施形態では、フレーム分割処理がオーディオ信号に関して行われた後に、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかが決定されてもよく、また、周波数スペクトル変動が記憶される必要があるときには、周波数スペクトル変動が得られて記憶される。
周波数スペクトル変動fluxは、信号の周波数スペクトルの短期又は長期エネルギー変動を示すとともに、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレーム及び履歴フレームの対応する周波数間の対数エネルギー差の絶対値の平均値であり、この場合、履歴フレームとは、現在オーディオフレームの前の任意のフレームのことである。一実施形態において、周波数スペクトル変動は、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレーム及び該現在オーディオフレームの履歴フレームの対応する周波数間の対数エネルギー差の絶対値の平均値である。他の実施形態において、周波数スペクトル変動は、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレーム及び履歴フレームの対応する周波数スペクトルピーク値間の対数エネルギー差の絶対値の平均値である。
図3を参照すると、周波数スペクトル変動を得る一実施形態は、以下のステップを含む。
S1011:現在オーディオフレームの周波数スペクトルを得る。
一実施形態では、オーディオフレームの周波数スペクトルが直接に得られてもよく、他の実施形態では、現在オーディオフレームの任意の2つのサブフレームの周波数スペクトル、すなわち、エネルギースペクトルが得られてもよく、また、現在オーディオフレームの周波数スペクトルは、2つのサブフレームの周波数スペクトルの平均値を使用することによって得られる。
S1012:現在オーディオフレームの履歴フレームの周波数スペクトルを得る。
履歴フレームは、現在オーディオフレームの前の任意のオーディオフレームを示し、一実施形態では現在オーディオフレームの3番目前のオーディオフレームであってもよい。
S1013:低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレーム及び履歴フレームの対応する周波数間の対数エネルギー差の絶対値の平均値を計算して、該平均値を現在オーディオフレームの周波数スペクトル変動として使用する。
一実施形態では、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレームの全ての周波数ビンの対数エネルギーと低帯域スペクトル及び中帯域スペクトルにおける履歴フレームの対応する周波数ビンの対数エネルギーとの間の差の絶対値の平均値が計算されてもよい。
他の実施形態では、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレームの周波数スペクトルピーク値の対数エネルギーと低帯域スペクトル及び中帯域スペクトルにおける履歴フレームの対応する周波数スペクトルピーク値の対数エネルギーとの間の差の絶対値の平均値が計算されてもよい。
低帯域スペクトル及び中帯域スペクトルは、例えば、0〜fs/4又は0〜fs/3の範囲の周波数スペクトルである。
入力オーディオ信号が16kHzでサンプリングされる広帯域オーディオ信号であって、1フレームが使用される際に入力オーディオ信号が20msを使用する例では、20msごとに現在オーディオフレームに関して256ポイントの前のFFT及び256ポイントの後のFFTが行われて、2つのFFT窓が50%だけ重ね合わされるとともに、現在オーディオフレームの2つのサブフレームの周波数スペクトル(エネルギースペクトル)が得られてそれぞれC0(i)及びC1(i)、i=0,1,…,127としてマークされる。ここで、Cx(i)はx番目のサブフレームの周波数スペクトルを示す。前のフレームの2番目のサブフレームのデータは、現在オーディオフレームの1番目のサブフレームのFFTのために使用される必要があり、ここで、
Cx(i)=rel2(i)+img2(i)
であり、また、rel(i)及びimg(i)は、i番目の周波数ビンのFFT係数の実数部分及び虚数部分をそれぞれ示す。現在オーディオフレームの周波数スペクトルC(i)は、2つのサブフレームの周波数スペクトルを平均化することによって得られる。ここで、
Figure 0006392414
である。
現在オーディオフレームの周波数スペクトル変動fluxは、一実施形態では、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレーム及び現在オーディオフレームより60ms前のフレームの対応する周波数間の対数エネルギー差の絶対値の平均値であり、また、他の実施形態では、間隔が60msでなくてもよく、この場合、
Figure 0006392414
である。ここで、C−3(i)は、現在オーディオフレームの3番目前の履歴フレーム、すなわち、この実施形態でフレーム長が20msであるときには現在オーディオフレームより60ms前の履歴フレームの周波数スペクトルを示す。この明細書中のX−n()と同様の各形式は、現在オーディオフレームのn番目の履歴フレームのパラメータXを示し、また、添字0は、現在オーディオフレームに関して省かれてもよい。log(.)は、底として10を伴う対数を示す。
他の実施形態において、現在オーディオフレームの周波数スペクトル変動fluxは、以下の方法を使用することによって得られてもよい。すなわち、周波数スペクトル変動flux、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレーム及び現在オーディオフレームより60ms前のフレームの対応する周波数スペクトルピーク値間の対数エネルギー差の絶対値の平均値であり、この場合、
Figure 0006392414
である。ここで、P(i)は、現在オーディオフレームの周波数スペクトルのi番目の局所ピーク値のエネルギーを示し、局所ピーク値が位置される周波数ビンは、そのエネルギーが隣接する高い方の周波数ビンのエネルギー及び隣接する低い方の周波数ビンのエネルギーよりも大きい周波数スペクトルにおける周波数ビンであり、また、Kは、低帯域スペクトル及び中帯域スペクトルにおける局所ピーク値の大きさを示す。
現在オーディオフレームのボイス活性にしたがって、周波数スペクトル変動を周波数スペクトル変動メモリ内に光学的要素億するべきかどうかを決定することは、以下の複数の態様で実施されてもよい。
一実施形態では、オーディオフレームが活性フレームであることをオーディオフレームのボイス活性パラメータが示す場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。
他の実施形態では、オーディオフレームのボイス活性とオーディオフレームがエネルギー攻撃であるかどうかとにしたがって、周波数スペクトル変動をメモリ内に記憶するべきかどうかが決定される。オーディオフレームが活性フレームであることをオーディオフレームのボイス活性パラメータが示すとともに、オーディオフレームがエネルギー攻撃に属さないことをオーディオフレームがエネルギー攻撃であるかどうかを示すパラメータが示す場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。他の実施形態では、現在オーディオフレームが活性フレームであるとともに、現在オーディオフレームと現在オーディオフレームの履歴フレームとを含む複数の連続フレームのいずれもがエネルギー攻撃に属さない場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。例えば、現在オーディオフレームが活性フレームであるとともに、現在オーディオフレーム、前のオーディオフレーム、及び、2番目前のオーディオフレームのいずれもがエネルギー攻撃に属さない場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。
ボイス活性フラグvad_flagは、現在の入力信号が活性フォアグラウンド信号(スピーチ、ミュージック等)又はフォアグラウンド信号のサイレントバックグラウンド信号(背景雑音又は消音など)であるかどうかを示すとともに、ボイス活性検出器VADによって得られる。vad_flag=1は、入力信号フレームが活性フレーム、すなわち、フォアグラウンド信号フレームであることを示し、さもなければ、vad_flag=0はバックグラウンド信号フレームを示す。VADは本発明の発明内容に属さないため、ここではVADの特定のアルゴリズムについて詳しく説明しない。
ボイス攻撃フラグattack_flagは、ミュージックにおいて現在オーディオフレームがエネルギー攻撃に属するかどうかを示す。現在オーディオフレームの前の幾つかの履歴フレームが主にミュージックフレームであるときに、現在オーディオフレームのフレームエネルギーが、現在オーディオフレームの1番目前の履歴フレームのフレームエネルギーに対して相対的に大きく増大するとともに、現在オーディオフレームより前の期間内にあるオーディオフレームの平均エネルギーに対して相対的に大きく増大し、また、現在オーディオフレームの時間領域エンベロープも現在オーディオフレームより前の期間内にあるオーディオフレームの平均エンベロープに対して相対的に大きく増大する場合には、ミュージックにおいて現在オーディオフレームがエネルギー攻撃に属すると見なされる
現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動は、現在オーディオフレームが活性フレームであるときにのみ記憶され、これにより、不活性フレームの誤判断比率を減少させることができるとともに、オーディオ分類の認識率を向上させることができる。
以下の条件が満たされると、attack_flagが1に設定され、すなわち、attack_flagは、ミュージックの断片において現在オーディオフレームがエネルギー攻撃であることを示す:
Figure 0006392414
。ここで、etotは、現在オーディオフレームの対数フレームエネルギーを示し、etot−1は、前のオーディオフレームの対数フレームエネルギーを示し、lp_speechは、対数フレームエネルギーetotの長期移動平均を示し、log_max_spl及びmov_log_max_splは、現在オーディオフレーム最大対数サンプリングポイント振幅の時間領域及び最大対数サンプリングポイント振幅の長期移動平均をそれぞれ示し、及び、mode_movは、信号分類における履歴的な最終分類結果の長期移動平均を示す。
先の式の意味は、現在オーディオフレームの前の幾つかの履歴フレームが主にミュージックフレームであるときに、現在オーディオフレームのフレームエネルギーが、現在オーディオフレームの1番目前の履歴フレームのフレームエネルギーに対して相対的に大きく増大するとともに、現在オーディオフレームより前の期間内にあるオーディオフレームの平均エネルギーに対して相対的に大きく増大し、また、現在オーディオフレームの時間領域エンベロープも現在オーディオフレームより前の期間内にあるオーディオフレームの平均エンベロープに対して相対的に大きく増大する場合に、ミュージックにおいて現在オーディオフレームがエネルギー攻撃に属すると見なされるということである。
対数フレームエネルギーetotは、入力オーディオフレームの対数総サブバンドエネルギーによって示される:
Figure 0006392414
。ここで、hb(j)及びlb(j)は、入力オーディオフレームの周波数スペクトルにおけるj番目のサブバンドの高周波数境界及び低周波数境界をそれぞれ示し、また、C(i)は、入力オーディオフレームの周波数スペクトルを示す。
現在オーディオフレームの時間領域最大対数サンプリングポイント振幅の長期移動平均mov_log_max_splは、活性ボイスフレームにおいてのみ更新される:
Figure 0006392414
一実施形態において、現在オーディオフレームの周波数スペクトル変動fluxは、FIFO flux履歴buffer内にバッファリングされる。この実施形態では、flux履歴bufferの長さが60(60フレーム)である。現在オーディオフレームのボイス活性と、オーディオフレームがエネルギー攻撃であるかどうかとが決定され、また、現在オーディオフレームがフォアグラウンド信号フレームであり且つ現在オーディオフレーム及び現在オーディオフレームの前の2つのフレームのいずれもがミュージックのエネルギー攻撃に属さないときには、現在オーディオフレームの周波数スペクトル変動fluxがメモリに記憶される。
現在オーディオフレームのfluxがバッファリングされる前に、以下の条件が満たされるかどうかがチェックされる:
Figure 0006392414
。条件が満たされれば、fluxがバッファリングされ、そうでなければfluxがバッファリングされない。
vad_flagは、現在の入力信号が活性フォアグラウンド信号又はフォアグラウンド信号のサイレントバックグラウンド信号であるかどうかを示し、また、vad_flag=0はバックグラウンド信号フレームを示し、また、attack_flagは、現在オーディオフレームがミュージックにおいてエネルギー攻撃に属するかどうかを示し、attack_flag=1は、ミュージックの断片において現在オーディオフレームがエネルギー攻撃であることを示す。
先の式の意味は、現在オーディオフレームが活性フレームであり、現在オーディオフレーム、前のオーディオフレーム、及び、2番目前のオーディオフレームのいずれもがエネルギー攻撃に属さないということである。
S102:オーディオフレームがパーカッションミュージックであるかどうかにしたがって或いは履歴オーディオフレームの活性にしたがって、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動を更新する。
一実施形態では、現在オーディオフレームがパーカッションミュージックに属することをオーディオフレームがパーカッションミュージックに属するかどうかを示すパラメータが示す場合には、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の値が変更されるとともに、周波数スペクトル変動メモリ内の有効周波数スペクトル変動値がミュージック閾値以下の値に変更され、この場合、オーディオフレームの周波数スペクトル変動がミュージック閾値を下回るときには、オーディオがミュージックフレームとして分類される。一実施形態では、有効周波数スペクトル変動値が5にリセットされる。すなわち、パーカッションサウンドフラグpercus_flagが1に設定されると、flux履歴buffer内の有効bufferデータの全てが5にリセットされる。本明細書中では、有効bufferデータが有効周波数スペクトル変動値に等しい。一般に、ミュージックフレームの周波数スペクトル変動値は相対的に小さく、一方、スピーチフレームの周波数スペクトル変動値は相対的に大きい。オーディオフレームがパーカッションミュージックに属するときには、有効周波数スペクトル変動値がミュージック閾値以下の値に変更され、それにより、オーディオフレームがミュージックフレームとして分類される可能性を高めることができ、その結果、オーディオ信号分類の精度を向上させることができる。
他の実施形態において、メモリ内の周波数スペクトル変動は、現在オーディオフレームの履歴フレームの活性にしたがって更新される。具体的には、一実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、前のオーディオフレームが不活性フレームであることが決定されれば、現在オーディオフレームの周波数スペクトル変動を除く周波数スペクトル変動メモリ内に記憶される他の周波数スペクトル変動のデータが無効データへと変更される。前のオーディオフレームが不活性フレームである一方で現在オーディオフレームが活性フレームであるときには、現在オーディオフレームのボイス活性が履歴フレームのボイス活性とは異なり、履歴フレームの周波数スペクトル変動が無効にされ、それにより、オーディオ分類に対する履歴フレームの影響を減らすことができ、その結果、オーディオ信号分類の精度を向上させることができる。
他の実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、現在オーディオフレームの前の3つの連続するフレームが全て活性フレームでないことが決定されれば、現在オーディオフレームの周波数スペクトル変動が第1の値に変更される。第1の値がスピーチ閾値であってもよく、この場合、オーディオフレームの周波数スペクトル変動がスピーチ閾値よりも大きいときには、オーディオがスピーチフレームとして分類される。他の実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、履歴フレームの分類結果がミュージックフレームであり、現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きいことが決定されれば、現在オーディオフレームの周波数スペクトル変動が第2の値に変更され、この場合、第2の値は第1の値よりも大きい。
現在オーディオフレームのfluxがバッファリングされるとともに、flux履歴buffer内に新たにバッファリングされる現在オーディオフレームfluxを除き、前のオーディオフレームが不活性フレーム(vad_flag=0)である場合には、flux履歴buffer内の残りのデータが全て−1(データが無効にされることに相当する)にリセットされる。
fluxがflux履歴buffer内にバッファリングされるとともに、現在オーディオフレームの前の3つの連続するフレームが全て活性フレーム(vad_flag=1)でない場合には、flux履歴buffer内に今しがたバッファリングされた現在オーディオフレームfluxが16に変更される。すなわち、以下の条件が満たされるかどうかがチェックされる:
Figure 0006392414
。条件が満たされない場合には、flux履歴buffer内に今しがたバッファリングされた現在オーディオフレームfluxが16に変更され、また、
現在オーディオフレームの前の3つの連続するフレームが全て活性フレーム(vad_flag=1)である場合には、以下の条件が満たされるかどうかがチェックされる:
Figure 0006392414
。条件が満たされれば、flux履歴buffer内に今しがたバッファリングされた現在オーディオフレームfluxが20に変更され、さもなければ、作業が行われない。
ここで、mode_movは、信号分類における履歴的な最終分類結果の長期移動平均を示し、mode_mov>0.9は、信号がミュージック信号であることを示し、また、スピーチ特性がflux内で生じる可能性を減らして分類を決定する安定性を高めるために、fluxは、オーディオ信号の履歴分類結果にしたがって制限される。
現在オーディオフレームの前の3つの連続する履歴フレームが全て不活性フレームであるとともに、現在オーディオフレームが活性フレームであるとき、或いは、現在オーディオフレームの前の3つの連続するフレームが全て活性フレームではないとともに、現在オーディオフレームが活性フレームであるときには、分類が初期化段階にある。一実施形態において、分類結果をスピーチ(ミュージック)になりやすくするために、現在オーディオフレームの周波数スペクトル変動がスピーチ(ミュージック)閾値に又はスピーチ(ミュージック)閾値に近い値に変更されてもよい。他の実施形態では、現在の信号の前の信号がスピーチ(ミュージック)信号である場合には、分類を決定する安定性を向上させるために、現在オーディオフレームの周波数スペクトル変動がスピーチ(ミュージック)閾値に又はスピーチ(ミュージック)閾値に近い値に変更されてもよい。他の実施形態にでは、分類結果をミュージックになりやすくするために、周波数スペクトル変動が制限されてもよい。すなわち、周波数スペクトル変動がスピーチ特性であると決定する確率を減らすために、現在オーディオフレームの周波数スペクトル変動は、周波数スペクトル変動が閾値よりも大きくならないように変更されてもよい。
パーカッションサウンドフラグpercus_flagは、パーカッションサウンドがオーディオフレームに存在するかどうかを示す。percus_flagが1に設定されることは、パーカッションサウンドが検出されることを示し、また、percus_flagが0に設定されることは、パーカッションサウンドが検出されないことを示す。
短期及び長期の両方において比較的鋭いエネルギー突出が現在の信号(すなわち、現在オーディオフレームと現在オーディオフレームの幾つかの履歴フレームとを含む幾つかの最新の信号フレーム)で生じるとともに、現在の信号が明らかな有声音特性を有さないときに、現在オーディオフレームの前の幾つかの履歴フレームが主にミュージックフレームである場合には、現在の信号がパーカッションミュージックの断片であると見なされ、そうでない場合には、更に、現在の信号のサブフレームのいずれもが明らかな有声音特性を有さず且つ現在の信号の時間領域エンベロープにおいても時間領域エンベロープの長期平均に対して相対的に明らかな増大が生じれば、現在の信号がパーカッションミュージックの断片であると同様に見なされる。
パーカッションサウンドフラグpercus_flagは、以下のステップを行うことによって得られる。
入力オーディオフレームの対数フレームエネルギーetotが最初に得られ、この場合、対数フレームエネルギーetotは入力オーディオフレームの対数総サブバンドエネルギーによって示される:
Figure 0006392414
。ここで、hb(j)及びlb(j)は、入力フレームの周波数スペクトルにおけるj番目のサブバンドの高周波数境界及び低周波数境界をそれぞれ示し、また、C(i)は、入力オーディオフレームの周波数スペクトルを示す。
以下の条件が満たされると、percus_flagが1に設定され、そうでなければ、percus_flagが0に設定される:
Figure 0006392414
又は
Figure 0006392414
。ここで、etotは、現在オーディオフレームの対数フレームエネルギーを示し、lp_speechは、対数フレームエネルギーetotの長期移動平均を示し、voicing(0)、voicing−1(0)、及びvoicing−1(1)は、現在入力オーディオフレームの第1のサブフレーム及び第1の履歴フレームの第1及び第2のサブフレームの正規化開ループピッチ相関度をそれぞれ示し、また、有声化パラメータvoicingは、線形予測及び解析を用いて得られ、現在オーディオフレームとピッチ期間前の信号との間の時間領域相関度を表すとともに、0〜1の値を有し、mode_movは、信号分類における履歴的な最終分類結果の長期移動平均を示し、log_max_spl−2及びmov_log_max_spl−2は、第2の履歴フレームの時間領域最大対数サンプリングポイント振幅及び時間領域最大対数サンプリングポイント振幅の長期移動平均をそれぞれ示す。lp_speechは、それぞれの活性ボイスフレーム(すなわち、そのvad_flagが1であるフレーム)において更新され、また、lp_speechを更新するための方法は以下の通りである。
lp_speech=0.99・lp_speech−1+0.01・etot。
先の2つの式の意味は、短期及び長期の両方において比較的鋭いエネルギー突出が現在の信号(すなわち、現在オーディオフレームと現在オーディオフレームの幾つかの履歴フレームとを含む幾つかの最新の信号フレーム)で生じるとともに、現在の信号が明らかな有声音特性を有さないときに、現在オーディオフレームの前の幾つかの履歴フレームが主にミュージックフレームである場合には、現在の信号がパーカッションミュージックの断片であると見なされ、そうでない場合には、更に、現在の信号のサブフレームのいずれもが明らかな有声音特性を有さず且つ現在の信号の時間領域エンベロープにおいても時間領域エンベロープの長期平均に対して相対的に明らかな増大が生じれば、現在の信号がパーカッションミュージックの断片であると同様に見なされるということである。
有声化パラメータvoicing、すなわち、正規化開ループピッチ相関度は、現在オーディオフレームとピッチ期間前の信号との間の時間領域相関度を示し、ACELP開ループピッチ検索を用いて得られてもよく、また、0〜1の値を有する。これは、従来技術に属し、したがって、本発明で詳しく説明されない。この実施形態において、voicingは、現在オーディオフレームの2つの各サブフレームごとに計算され、また、voicingは、現在オーディオフレームの有声化パラメータを得るために平均化される。また、現在オーディオフレームの有声化パラメータも有声化履歴buffer内にバッファリングされ、また、この実施形態では、有声化履歴bufferの長さが10である。
mode_movは、各活性ボイスフレームにおいて更新され、また、該フレームの前に30を超える連続する活性ボイスフレームが生じたときに更新され、また、更新方法は以下の通りである。
Figure 0006392414
。ここで、modeは、現在入力オーディオフレームの分類結果であり、2進値を有し、この場合、「0」はスピーチカテゴリーを示し、また、「1」はミュージックカテゴリーを示す。
S103:周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動のデータの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレームとして或いはミュージックフレームとして分類する。周波数スペクトル変動の有効データの統計値がスピーチ分類条件を満たすときには、現在オーディオフレームがスピーチフレームとして分類され、周波数スペクトル変動の有効データの統計値がミュージック分類条件を満たすときには、現在オーディオフレームがミュージックフレームとして分類される。
ここでの統計値は、周波数スペクトル変動メモリ内に記憶される有効周波数スペクトル変動(すなわち、有効データ)に関して統計演算を行うことによって得られる値である。例えば、統計演算は、平均値又は分散を得るための演算であってもよい。以下の実施形態における統計値は、同様の意味を有する。
一実施形態において、ステップS103は、
周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得ることを含み、また、
周波数スペクトル変動の有効データの得られた平均値がミュージック分類条件を満たすときには、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する。
例えば、周波数スペクトル変動の有効データの得られた平均値がミュージック分類閾値を下回るときには、現在オーディオフレームがミュージックフレームとして分類され、そうでなければ、現在オーディオフレームがスピーチフレームとして分類される。
一般に、ミュージックフレームの周波数スペクトル変動値は相対的に小さく、一方、スピーチフレームの周波数スペクトル変動値は相対的に大きい。したがって、現在オーディオフレームは、周波数スペクトル変動にしたがって分類されてもよい。確かに、信号分類は、他の分類方法を使用することにより現在オーディオフレームに関して行われてもよい。例えば、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの断片の量が計数され、有効データの断片の量にしたがって、近端から遠端までの長さが異なる少なくとも2つの区間に周波数スペクトル変動メモリが分割され、各区間に対応する周波数スペクトル変動の有効データの平均値が得られ、この場合、区間の開始点が現在のフレームの周波数スペクトル変動の記憶場所であり、近端は、現在のフレームの周波数スペクトル変動が記憶される端部であり、遠端は、履歴フレームの周波数スペクトル変動が記憶される端部であり、オーディオフレームは、相対的に短い区間内の周波数スペクトル変動の統計値にしたがって分類され、この区間内のパラメータの統計値がオーディオフレームのタイプを区別するのに十分であれば、分類プロセスが終了し、そうでなければ、残りの相対的に長い区間の最も短い区間内で分類プロセスが続けられ、残りの部分を類推によって推定できる。各区間の分類プロセスでは、各区間に対応する分類閾値にしたがって現在オーディオフレームが分類されて、現在オーディオフレームがスピーチフレーム又はミュージックフレームとして分類され、周波数スペクトル変動の有効データの統計値がスピーチ分類条件を満たすときには、現在オーディオフレームがスピーチフレームとして分類され、周波数スペクトル変動の有効データの統計値がミュージック分類条件を満たすときには、現在オーディオフレームがミュージックフレームとして分類される。
信号分類後、異なる信号が異なるエンコーディングモードでエンコードされてもよい。例えば、スピーチ生成モデル(例えばCELPなど)に基づくエンコーダを使用することによりスピーチ信号がエンコードされ、また、変換に基づくエンコーダ(例えばMDCTに基づくエンコーダなど)を使用することによりミュージック信号がエンコードされる。
前述の実施形態では、周波数スペクトル変動の長期統計値にしたがってオーディオ信号が分類されるため、パラメータが比較的少なく、認識率が比較的高いとともに、複雑さが比較的低い。また、周波数スペクトル変動は、ボイス活性及びパーカッションミュージックなどの因子を考慮して調整され、したがって、本発明は、ミュージック信号に関してより高い認識率を有するとともに、ハイブリッドオーディオ信号分類に適している。
図4を参照すると、他の実施形態では、ステップS102の後、方法が以下を更に含む。
S104:現在オーディオフレームの周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を得て、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリに記憶し、この場合、周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度は、信号調和構造の隣接するフレーム間の安定性を示し、また、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれて入力オーディオ信号の線形予測残留エネルギーが変化する度合いを示す。
随意的に、これらのパラメータが記憶される前に、方法は、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリ内に記憶するべきかどうかを決定し、また、現在オーディオフレームが活性フレームである場合には、パラメータを記憶し、そうでない場合には、パラメータの記憶を省くことを更に含む。
周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示す。一実施形態において、周波数スペクトル高周波帯域ピーキネスphは、以下の式を使用することによって計算される。
Figure 0006392414
ここで、p2v_map(i)は、周波数スペクトルのi番目の周波数ビンのピーキネスを示し、また、ピーキネスp2v_map(i)は、以下の式を使用することにより得られる。
Figure 0006392414
ここで、i番目の周波数ビンが周波数スペクトルの局所ピーク値であれば、peak(i)=C(i)であり、さもなければpeak(i)=0であり、また、vl(i)及びvr(i)は、i番目の周波数ビンの高周波側及び低周波側のそれぞれにおけるi番目の周波数ビンに最も隣接する局所周波数スペクトルバレー値v(n)を示し、この場合、
Figure 0006392414
、及び
Figure 0006392414
である。
現在オーディオフレームの周波数スペクトル高周波帯域ピーキネスphもph履歴buffer内にバッファリングされ、また、この実施形態では、ph履歴bufferの長さが60である。
周波数スペクトル相関度cor_map_sumは、信号調和構造の隣接するフレーム間の安定性を示すとともに、以下のステップを行うことによって得られる。
最初に、入力オーディオフレームC(i)のフロア除去周波数スペクトルC’(i)が得られ、この場合、
C’(i)=C(i)−floor(i)
であり、ここで、floor(i)は、入力オーディオフレームの周波数スペクトルのスペクトルフロアを示し、ここで、i=0,1,…,127であり、また、
Figure 0006392414
である。ここで、idx[x]は、周波数スペクトルにおけるxの位置を示し、その場合、idx[x]=0,1,…,127である。
その後、全ての2つの隣接する周波数スペクトルバレー値間で、入力オーディオフレームのフロア除去周波数スペクトルと前のフレームのフロア除去周波数スペクトルとの間の相関cor(n)が得られる。この場合、
Figure 0006392414
であり、ここで、lb(n)及びhb(n)はそれぞれ、n番目の周波数スペクトルバレー値区間(すなわち、2つの隣り合うバレー値間に位置される領域)の終点位置、すなわち、バレー値区間の2つの周波数スペクトルバレー値を限定する位置を示す。
最後に、入力オーディオフレームの周波数スペクトル相関度cor_map_sumが以下の式を使用することにより計算される。
Figure 0006392414
ここで、inv[f]は、関数fの逆関数を示す。
線形予測残留エネルギー勾配epsP_tiltは、線形予測次数が増大するにつれて入力オーディオ信号の線形予測残留エネルギーが変化する度合いを示し、以下の式を使用することにより計算されて得られてもよい。
Figure 0006392414
ここで、epsP(i)は、i番目の次数の線形予測の予測残留エネルギーを示し、また、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である。例えば、一実施形態では、n=15である。
したがって、ステップS103が以下のステップと置き換えられてもよい。
S105:記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類し、この場合、有効データの統計値とは、メモリ内に記憶される有効データに関して計算作業が行われた後に得られるデータ値のことであり、計算作業は、平均値を得るための演算、分散を得るための演算等を含んでもよい。
一実施形態において、このステップは、記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得ることを含み、また、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
一般に、ミュージックフレームの周波数スペクトル変動値は相対的に小さく、一方、スピーチフレームの周波数スペクトル変動値は相対的に大きく、ミュージックフレームの周波数スペクトル高周波帯域ピーキネス値は相対的に大きく、スピーチフレームの周波数スペクトル高周波帯域ピーキネスは相対的に小さく、ミュージックフレームの周波数スペクトル相関度値は相対的に大きく、スピーチフレームの周波数スペクトル相関度値は相対的に小さく、ミュージックフレームの線形予測残留エネルギー勾配の変化は相対的に小さく、及び、スピーチフレームの線形予測残留エネルギー勾配の変化は相対的に大きい。したがって、現在オーディオフレームは、前述のパラメータの統計値にしたがって分類されてもよい。確かに、信号分類は、他の分類方法を使用することにより現在オーディオフレームに関して行われてもよい。例えば、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの断片の量が計数され、有効データの断片の量にしたがって、近端から遠端までの長さが異なる少なくとも2つの区間にメモリが分割され、各区間に対応する周波数スペクトル変動の有効データの平均値、周波数スペクトル高周波帯域ピーキネスの有効データの平均値、周波数スペクトル相関度の有効データの平均値、及び、線形予測残留エネルギー勾配の有効データの分散が得られ、この場合、区間の開始点が現在のフレームの周波数スペクトル変動の記憶場所であり、近端は、現在のフレームの周波数スペクトル変動が記憶される端部であり、遠端は、履歴フレームの周波数スペクトル変動が記憶される端部であり、オーディオフレームは、相対的に短い区間内の前述のパラメータの有効データの統計値にしたがって分類され、この区間内のパラメータの統計値がオーディオフレームのタイプを区別するのに十分であれば、分類プロセスが終了し、そうでなければ、残りの相対的に長い区間の最も短い区間内で分類プロセスが続けられ、残りの部分を類推によって推定できる。各区間の分類プロセスにおいて、現在オーディオフレームは、各区間に対応する分類閾値にしたがって分類され、また、以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときには、現在オーディオフレームがミュージックフレームとして分類され、そうでなければ、現在オーディオフレームがスピーチフレームとして分類される。
信号分類後、異なる信号が異なるエンコーディングモードでエンコードされてもよい。例えば、スピーチ生成モデル(例えばCELPなど)に基づくエンコーダを使用することによりスピーチ信号がエンコードされ、また、変換に基づくエンコーダ(例えばMDCTに基づくエンコーダなど)を使用することによりミュージック信号がエンコードされる。
前述の実施形態では、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配の長期統計値にしたがってオーディオ信号が分類され、したがって、パラメータが比較的少なく、認識率が比較的高いとともに、複雑さが比較的低い。また、周波数スペクトル変動は、ボイス活性及びパーカッションミュージックなどの因子を考慮して調整され、また、周波数スペクトル変動は、現在オーディオフレームが位置される信号環境にしたがって変更され、したがって、本発明は、分類認識率を向上させるとともに、ハイブリッドオーディオ信号分類に適している。
図5を参照すると、オーディオ信号分類方法の他の実施形態は以下を含む。
S501:入力オーディオ信号に関してフレーム分割処理を行う。
オーディオ信号分類は一般にフレームごとに行われ、また、分類を行って、オーディオ信号フレームがスピーチフレームに属するのか或いはミュージックフレームに属するのかどうかを決定するとともに、対応するエンコーディングモードでエンコーディングを行うために、各オーディオ信号フレームからパラメータが抽出される。
S502:現在オーディオフレームの線形予測残留エネルギー勾配を取得し、この場合、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す。
一実施形態において、線形予測残留エネルギー勾配epsP_tiltは、以下の式を使用することにより計算されて得られてもよい。
Figure 0006392414
ここで、epsP(i)は、i番目の次数の線形予測の予測残留エネルギーを示し、また、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である。例えば、一実施形態では、n=15である。
S503:線形予測残留エネルギー勾配をメモリ内に記憶する。
線形予測残留エネルギー勾配がメモリ内に記憶されてもよい。一実施形態では、メモリがFIFO bufferであってもよく、また、bufferの長さは60記憶ユニット(すなわち、60個の線形予測残留エネルギー勾配を記憶できる)である。
随意的に、線形予測残留エネルギー勾配を記憶する前に、方法は、現在オーディオフレームのボイス活性にしたがって、線形予測残留エネルギー勾配をメモリ内に記憶するべきかどうかを決定し、また、現在オーディオフレームが活性フレームである場合には、線形予測残留エネルギー勾配を記憶し、そうでない場合には、線形予測残留エネルギー勾配の記憶を省くことを更に含む。
S504:メモリに記憶された予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する。
一実施形態において、予測残留エネルギー勾配のデータの一部の統計値は、予測残留エネルギー勾配のデータの一部の分散であり、したがって、ステップS504は、
予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類することを含む。
一般に、ミュージックフレームの線形予測残留エネルギー勾配の変化は相対的に小さく、また、スピーチフレームの線形予測残留エネルギー勾配の変化は相対的に大きい。したがって、現在オーディオフレームは、線形予測残留エネルギー勾配の統計値にしたがって分類されてもよい。確かに、信号分類は、他の分類方法を使用することにより他のパラメータに関して現在オーディオフレームで行われてもよい。
他の実施形態では、ステップS504の前に、方法は、現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得るとともに、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を対応するメモリに記憶することを更に含む。したがって、ステップS504は、具体的に、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類することであり、この場合、有効データの統計値とは、メモリ内に記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである。
更に、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類することは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を得るとともに、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
一般に、ミュージックフレームの周波数スペクトル変動値は相対的に小さく、一方、スピーチフレームの周波数スペクトル変動値は相対的に大きく、ミュージックフレームの周波数スペクトル高周波帯域ピーキネス値は相対的に大きく、スピーチフレームの周波数スペクトル高周波帯域ピーキネスは相対的に小さく、ミュージックフレームの周波数スペクトル相関度値は相対的に大きく、スピーチフレームの周波数スペクトル相関度値は相対的に小さく、ミュージックフレームの線形予測残留エネルギー勾配の変化は相対的に小さく、及び、スピーチフレームの線形予測残留エネルギー勾配の変化は相対的に大きい。したがって、現在オーディオフレームは、前述のパラメータの統計値にしたがって分類されてもよい。
他の実施形態では、ステップS504の前に、方法は、現在オーディオフレームの周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得るとともに、周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを対応するメモリ内に記憶することを更に含む。したがって、ステップS504は、具体的に、
記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、
線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類することであり、この場合、統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
更に、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得ることは、記憶された線形予測残留エネルギー勾配の分散を得ること、及び、記憶された周波数スペクトル音量の平均値を得ることを含む。線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類することは、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、
さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
現在オーディオフレームの周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得ることは、
0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を計数して、その量を周波数スペクトル音量として使用すること、
及び、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用することを含む。一実施形態では、所定値が50である。
周波数スペクトル音量Ntonalは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を示す。一実施形態において、量は、以下の方法で、すなわち、0〜8kHzの周波数帯域にあって50よりも大きいピーク値p2v_map(i)を有する現在オーディオフレームの周波数ビンの量、すなわち、Ntonalを計数して得られてもよく、この場合、p2v_map(i)は、周波数スペクトルのi番目の周波数ビンのピーキネスを示し、また、p2v_map(i)の計算方法に関しては、前述の実施形態の説明を参照されたい。
低周波帯域における周波数スペクトル音量の比率ratio_Ntonal_lfは、周波数スペクトル音量に対する低周波帯域音量の比率を示す。一実施形態において、比率は、以下の方法で、すなわち、0〜4kHzの周波数帯域にあって50よりも大きいp2v_map(i)を有する現在オーディオフレームの量Ntonalを計数して得られてもよい。ratio_Ntonal_lfはNtonalに対するNtonal_lfの比率、すなわち、Ntonal_lf/Ntonalである。p2v_map(i)は、周波数スペクトルのi番目の周波数ビンのピーキネスを示し、また、p2v_map(i)の計算方法に関しては、前述の実施形態の説明を参照されたい。他の実施形態では、複数の記憶されたNtonal値の平均と複数の記憶されたNtonal_lf値の平均とが別々に得られ、また、Ntonal値の平均に対するNtonal_lf値の平均の比率は、低周波帯域における周波数スペクトル音量の比率として使用されるべく計算される。
この実施形態において、オーディオ信号は、線形予測残留エネルギー勾配の長期統計値にしたがって分類される。また、分類ロバスト性及び分類認識速度の両方が考慮に入れられ、したがって、分類パラメータが比較的少ないが、結果は比較的正確であり、複雑さが低いとともに、メモリオーバーヘッドが低い。
図6を参照すると、オーディオ信号分類方法の他の実施形態は以下を含む。
S601:入力オーディオ信号に関してフレーム分割処理を行う。
S602:現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を得る。
周波数スペクトル変動fluxは、信号の周波数スペクトルの短期又は長期エネルギー変動を示すとともに、低帯域スペクトル及び中帯域スペクトルにおける現在オーディオフレーム及び履歴フレームの対応する周波数間の対数エネルギー差の絶対値の平均値であり、この場合、履歴フレームとは、現在オーディオフレームの前の任意のフレームのことである。周波数スペクトル高周波帯域ピーキネスphは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示す。周波数スペクトル相関度cor_map_sumは、信号調和構造の隣接するフレーム間の安定性を示す。線形予測残留エネルギー勾配epsP_tiltは、線形予測次数が増大するにつれて入力オーディオ信号の線形予測残留エネルギーが変化する度合いを示す。これらのパラメータを計算するための特定の方法に関しては、前述の実施形態を参照されたい。
また、有声化パラメータが得られ、有声化パラメータvoicingは、現在オーディオ信号とピッチ期間前の信号との間の時間領域相関度を示す。有声化パラメータvoicingは、線形予測及び解析を用いて得られ、現在オーディオフレームとピッチ期間前の信号との間の時間領域相関度を表すとともに、0〜1の値を有する。これは、従来技術に属し、したがって、本発明で詳しく説明されない。この実施形態において、voicingは、現在オーディオフレームの2つの各サブフレームごとに計算され、また、voicingは、現在オーディオフレームの有声化パラメータを得るために平均化される。また、現在オーディオフレームの有声化パラメータも有声化履歴buffer内にバッファリングされ、また、この実施形態では、有声化履歴bufferの長さが10である。
S603:周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を対応するメモリに記憶する。
随意的に、これらのパラメータが記憶される前に、方法は以下を更に含む。
一実施形態では、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかが決定される。現在オーディオフレームが活性フレームであれば、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリに記憶される。
他の実施形態では、オーディオフレームのボイス活性とオーディオフレームがエネルギー攻撃かどうかとにしたがって、周波数スペクトル変動をメモリ内に記憶するべきかどうかが決定される。現在オーディオフレームが活性フレームであるとともに、現在オーディオフレームがエネルギー攻撃に属さなければ、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリに記憶される。他の実施形態では、現在オーディオフレームが活性フレームであるとともに、現在オーディオフレームと現在オーディオフレームの履歴フレームとを含む複数の連続フレームのいずれもがエネルギー攻撃に属さない場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。例えば、現在オーディオフレームが活性フレームであるとともに、現在オーディオフレームの前のフレーム及び現在オーディオフレームの2番目の履歴フレームのいずれもがエネルギー攻撃に属さない場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。
ボイス活性フラグvad_flag及びボイス攻撃フラグattack_flagの定義及び取得方法に関しては、前述の実施形態の説明を参照されたい。
随意的に、これらのパラメータが記憶される前に、方法は、
現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配をメモリ内に記憶するべきかどうかを決定し、また、現在オーディオフレームが活性フレームである場合には、パラメータを記憶し、そうでない場合には、パラメータの記憶を省くことを更に含む。
S604:記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類し、この場合、有効データの統計値とは、メモリ内に記憶される有効データに関して計算作業が行われた後に得られるデータ値のことであり、計算作業は、平均値を得るための演算、分散を得るための演算等を含んでもよい。
随意的に、ステップS604の前に、方法は、
現在オーディオフレームがパーカッションミュージックであるかどうかにしたがって、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動を更新することを更に含んでもよい。一実施形態では、現在オーディオフレームがパーカッションミュージックであれば、周波数スペクトル変動メモリ内の有効周波数スペクトル変動値がミュージック閾値以下の値に変更され、この場合、オーディオフレームの周波数スペクトル変動がミュージッ閾値を下回るときには、オーディオがミュージックフレームとして分類される。一実施形態では、現在オーディオフレームがパーカッションミュージックであれば、周波数スペクトル変動メモリ内の有効周波数スペクトル変動値が5にリセットされる。
随意的に、ステップS604の前に、方法は、
現在オーディオフレームの履歴フレームの活性にしたがってメモリ内の周波数スペクトル変動を更新することを更に含んでもよい。一実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、前のオーディオフレームが不活性フレームであることが決定されれば、現在オーディオフレームの周波数スペクトル変動を除く周波数スペクトル変動メモリ内に記憶される他の周波数スペクトル変動のデータが無効データへと変更される。他の実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、現在オーディオフレームの前の3つの連続するフレームが全て活性フレームでないことが決定されれば、現在オーディオフレームの周波数スペクトル変動が第1の値に変更される。第1の値がスピーチ閾値であってもよく、この場合、オーディオフレームの周波数スペクトル変動がスピーチ閾値よりも大きいときには、オーディオがスピーチフレームとして分類される。他の実施形態では、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶されること、及び、履歴フレームの分類結果がミュージックフレームであり、現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きいことが決定されれば、現在オーディオフレームの周波数スペクトル変動が第2の値に変更され、この場合、第2の値は第1の値よりも大きい。
例えば、flux履歴buffer内に新たにバッファリングされる現在オーディオフレームfluxを除き、現在オーディオフレームの前のフレームが不活性フレーム(vad_flag=0)である場合には、flux履歴buffer内の残りのデータが全て−1(データが無効にされることに相当する)にリセットされる。現在オーディオフレームの前の3つの連続するフレームが全て活性フレーム(vad_flag=1)でなければ、flux履歴bufferに今しがたバッファリングされた現在オーディオフレームfluxが16に変更される。現在オーディオフレームの前の3つの連続するフレームが全て活性フレーム(vad_flag=1)であれば、履歴信号分類結果の長期平滑結果がミュージック信号であり、現在オーディオフレームfluxが20よりも大きく、バッファリングされた現在オーディオフレームの周波数スペクトル変動が20に変更される。履歴信号分類結果の長期平滑結果及び活性フレームの計算に関しては、前述の実施形態を参照されたい。
一実施形態において、ステップS604は、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得ることを含み、また、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
一般に、ミュージックフレームの周波数スペクトル変動値は相対的に小さく、一方、スピーチフレームの周波数スペクトル変動値は相対的に大きく、ミュージックフレームの周波数スペクトル高周波帯域ピーキネス値は相対的に大きく、スピーチフレームの周波数スペクトル高周波帯域ピーキネスは相対的に小さく、ミュージックフレームの周波数スペクトル相関度値は相対的に大きく、スピーチフレームの周波数スペクトル相関度値は相対的に小さく、ミュージックフレームの線形予測残留エネルギー勾配値は相対的に小さく、及び、スピーチフレームの線形予測残留エネルギー勾配値は相対的に大きい。したがって、現在オーディオフレームは、前述のパラメータの統計値にしたがって分類されてもよい。確かに、信号分類は、他の分類方法を使用することにより現在オーディオフレームに関して行われてもよい。例えば、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の有効データの断片の量が計数され、有効データの断片の量にしたがって、近端から遠端までの長さが異なる少なくとも2つの区間にメモリが分割され、各区間に対応する周波数スペクトル変動の有効データの平均値、周波数スペクトル高周波帯域ピーキネスの有効データの平均値、周波数スペクトル相関度の有効データの平均値、及び、線形予測残留エネルギー勾配の有効データの分散が得られ、この場合、区間の開始点が現在のフレームの周波数スペクトル変動の記憶場所であり、近端は、現在のフレームの周波数スペクトル変動が記憶される端部であり、遠端は、履歴フレームの周波数スペクトル変動が記憶される端部であり、オーディオフレームは、相対的に短い区間内の前述のパラメータの有効データの統計値にしたがって分類され、この区間内のパラメータ統計値がオーディオフレームのタイプを区別するのに十分であれば、分類プロセスが終了し、そうでなければ、残りの相対的に長い区間の最も短い区間内で分類プロセスが続けられ、残りの部分を類推によって推定できる。各区間の分類プロセスにおいて、現在オーディオフレームは、各区間に対応する分類閾値にしたがって分類され、また、以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときには、現在オーディオフレームがミュージックフレームとして分類され、そうでなければ、現在オーディオフレームがスピーチフレームとして分類される。
信号分類後、異なる信号が異なるエンコーディングモードでエンコードされてもよい。例えば、スピーチ生成モデル(例えばCELPなど)に基づくエンコーダを使用することによりスピーチ信号がエンコードされ、また、変換に基づくエンコーダ(例えばMDCTに基づくエンコーダなど)を使用することによりミュージック信号がエンコードされる。
この実施形態において、分類は、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配の長期統計値にしたがって行われる。また、分類ロバスト性及び分類認識速度の両方が考慮に入れられ、したがって、分類パラメータが比較的少ないが、結果は比較的正確であり、認識率が比較的高いとともに、複雑さが比較的低い。
一実施形態では、周波数スペクトル変動flux、周波数スペクトル高周波帯域ピーキネスph、周波数スペクトル相関度cor_map_sum、及び、線形予測残留エネルギー勾配epsP_tiltが対応するメモリに記憶された後、異なる決定プロセスを使用することにより記憶された周波数スペクトル変動の有効データの断片の量にしたがって分類が行われてもよい。ボイス活性フラグが1に設定されれば、すなわち、現在オーディオフレームが活性ボイスフレームであれば、記憶された周波数スペクトル変動の有効データの断片の量Nがチェックされる。
メモリに記憶される周波数スペクトル変動の有効データの断片の量Nの値が変化する場合には、決定プロセスも変化する。
(1)図7を参照すると、N=60であれば、flux履歴buffer内の全てのデータの平均値が得られてflux60としてマーキングされ、近端にあるデータの30個の断片の平均値が得られてflux30としてマーキングされ、及び、近端にあるデータの10個の断片の平均値が得られてflux10としてマーキングされる。ph履歴buffer内の全てのデータの平均値が得られてph60としてマーキングされ、近端にあるデータの30個の断片の平均値が得られてph30としてマーキングされ、及び、近端にあるデータの10個の断片の平均値が得られてph10としてマーキングされる。cor_map_sum履歴buffer内の全てのデータの平均値が得られてcor_map_sum60としてマーキングされ、近端にあるデータの30個の断片の平均値が得られてcor_map_sum30としてマーキングされ、及び、近端にあるデータの10個の断片の平均値が得られてcor_map_sum10としてマーキングされる。また、epsP_tilt履歴buffer内の全てのデータの分類が得られてepsP_tilt60としてマーキングされ、近端にあるデータの30個の断片の分散が得られてepsP_tilt30としてマーキングされ、及び、近端にあるデータの10個の断片の分散が得られてepsP_tilt10としてマーキングされる。その値が0.9よりも大きい有声化履歴buffer内のデータの断片の量voicing_cntが得られる。近端は、現在オーディオフレームに対応する前述のパラメータが記憶される端部である。
最初に、flux10、ph10、epsP_tilt10、cor_map_sum10、及び、voicing_cntが以下の条件、すなわち、flux10<10又はepsPtilt10<0.0001又はph10>1050又はcor_map_sum10>95、及び、voicing_cnt<6を満たすかどうかがチェックされる。条件が満たされれば、現在オーディオフレームがミュージックタイプ(すなわち、Mode=1)として分類される。さもなければ、flux10が15よりも大きいかどうか、voicing_cntが2よりも大きいかどうか、又は、flux10が16よりも大きいかどうかがチェックされる。条件が満たされれば、現在オーディオフレームがスピーチタイプ(すなわち、Mode=0)として分類される。さもなければ、flux30、flux10、ph30、epsP_tilt30、cor_map_sum30、及び、voicing_cntが以下の条件、すなわち、flux30<13及びflux10<15、又はepsPtilt30<0.001又はph30>800又はcor_map_sum30>75を満たすかどうかがチェックされる。条件が満たされれば、現在オーディオフレームがミュージックタイプとして分類される。さもなければ、flux60、flux30、ph60、epsP_tilt60、及び、cor_map_sum60が以下の条件、すなわち、flux60<14.5又はcor_map_sum30>75又はph60>770又はepsP_tilt10<0.002、及びflux30<14を満たすかどうかがチェックされる。条件が満たされれば、現在オーディオフレームがミュージックタイプとして分類され、そうでなければ、現在オーディオフレームがスピーチタイプとして分類される。
(2)図8を参照すると、N<60及びN≧30であれば、flux履歴buffer内の近端にあるデータのN個の断片の平均値、ph履歴buffer内の近端にあるデータのN個の断片の平均値、及び、cor_map_sum履歴buffer内の近端にあるデータのN個の断片の平均値が別々に得られてfluxN、phN、及びcor_map_sumNとしてマーキングされる。また、epsP_tilt履歴buffer内の近端にあるデータのN個の断片の分散が得られてepsP_tiltNとしてマーキングされる。fluxN、phN、epsP_tiltN、及びcor_map_sumNが以下の条件、すなわち、fluxN<13+(N−30)/20又はcor_map_sumN>75+(N−30)/6又はphN>800又はepsP_tiltN<0.001を満たすかどうかがチェックされる。条件が満たされれば、現在オーディオフレームがミュージックタイプとして分類され、そうでなければ、現在オーディオフレームがスピーチタイプとして分類される。
(3)図9を参照すると、N<30及びN≧10であれば、flux履歴buffer内の近端にあるデータのN個の断片の平均値、ph履歴buffer内の近端にあるデータのN個の断片の平均値、及び、cor_map_sum履歴buffer内の近端にあるデータのN個の断片の平均値が別々に得られてfluxN、phN、及びcor_map_sumNとしてマーキングされる。また、epsP_tilt履歴buffer内の近端にあるデータのN個の断片の分散が得られてepsP_tiltNとしてマーキングされる。
最初に、履歴分類結果の長期移動平均mode_movが0.8よりも大きいかどうかがチェックされる。yesであれば、fluxN、phN、epsP_tiltN、及びcor_map_sumNが以下の条件、すなわち、fluxN<16+(N−10)/20又はphN>1000−12.5×(N−10)又はepsP_tiltN<0.0005+0.000045×(N−10)又はcor_map_sumN>90−(N−10)を満たすかどうかがチェックされる。さもなければ、その値が0.9よりも大きい有声化履歴buffer内のデータの断片の量voicing_cntが得られ、以下の条件、すなわち、fluxN<12+(N−10)/20又はphN>1050−12.5×(N−10)又はepsP_tiltN<0.0001+0.000045×(N−10)又はcor_map_sumN>95−(N−10)、及びvoicing_cnt<6が満たされるかどうかがチェックされる。条件の前述の2つのグループのいずれかのグループが満たされれば、現在オーディオフレームがミュージックタイプとして分類され、そうでなければ、現在オーディオフレームがスピーチタイプとして分類される。
(4)図10を参照すると、N<10及びN>5であれば、ph履歴buffer内の近端にあるデータのN個の断片の平均値、及び、cor_map_sum履歴buffer内の近端にあるデータのN個の断片の平均値が得られてphN及びcor_map_sumNとしてマーキングされ、また、epsP_tilt履歴buffer内の近端にあるデータのN個の断片の分散が得られてepsP_tiltNとしてマーキングされる。また、有声化履歴buffer内の近端にあるデータの6個の断片のうちその値が0.9よりも大きいデータの断片の量voicing_cnt6が得られる。
以下の条件、すなわち、epsP_tiltN<0.00008又はphN>1100又はcor_map_sumN>100、及びvoicing_cnt<4が満たされるかどうかがチェックされる。条件が満たされれば、現在オーディオフレームがミュージックタイプとして分類され、そうでなければ、現在オーディオフレームがスピーチタイプとして分類される。
(5)N≦5であれば、前のオーディオフレームの分類結果が現在オーディオフレームの分類タイプとして使用される。
前述の実施形態は、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配の長期統計値にしたがって分類が行われる特定の分類プロセスであり、また、当業者であれば分かるように、他のプロセスを使用することにより分類が行われてもよい。この実施形態における分類プロセスは、例えば図2におけるステップ103、図4におけるステップ105、又は、図6におけるステップ604の特定の分類方法として役立つべく、前述の実施形態における対応するステップに適用されてもよい。
図11を参照すると、オーディオ信号分類方法の他の実施形態は以下を含む。
S1101:入力オーディオ信号に関してフレーム分割処理を行う。
S1102:現在オーディオフレームの線形予測残留エネルギー勾配及び周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得る。
線形予測残留エネルギー勾配epsP_tiltは、線形予測次数が増大するにつれて入力オーディオ信号の線形予測残留エネルギーが変化する度合いを示し、周波数スペクトル音量Ntonalは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を示し、低周波帯域における周波数スペクトル音量の比率ratio_Ntonal_lfは、周波数スペクトル音量に対する低周波帯域音量の比率を示す。特定の計算に関しては、前述の実施形態の説明を参照されたい。
S1103:線形予測残留エネルギー勾配epsP_tilt、周波数スペクトル音量、及び、低周波帯域における周波数スペクトル音量の比率を対応するメモリに記憶する。
現在オーディオフレームの線形予測残留エネルギー勾配epsP_tilt及び周波数スペクトル音量がそれぞれの履歴bufferにバッファリングされ、また、この実施形態では、2つのbufferの長さがいずれも60である。
随意的に、これらのパラメータの両方が記憶される前に、方法は、現在オーディオフレームのボイス活性にしたがって、線形予測残留エネルギー勾配、周波数スペクトル音量、及び、低周波帯域における周波数スペクトル音量の比率をメモリに記憶するべきかどうかを決定するとともに、線形予測残留エネルギー勾配が記憶される必要があると決定されるときに線形予測残留エネルギー勾配をメモリに記憶することを更に含む。現在オーディオフレームが活性フレームであれば、パラメータが記憶され、そうでなければ、パラメータが記憶されない。
S1104:記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に取得し、この場合、統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことであり、その場合、計算作業は、平均値を得るための演算、分散を得るための演算等を含んでもよい。
一実施形態において、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得ることは、記憶された線形予測残留エネルギー勾配の分散を得ること、及び、記憶された周波数スペクトル音量の平均値を得ることを含む。
S1105:線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する。
一実施形態において、このステップは、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、
さもなければ、現在オーディオフレームをスピーチフレームとして分類することを含む。
一般に、ミュージックフレームの線形予測残留エネルギー勾配値は相対的に小さく、及び、スピーチフレームの線形予測残留エネルギー勾配値は相対的に大きく、ミュージックフレームの周波数スペクトル音量は相対的に大きく、及び、スピーチフレームの周波数スペクトル音量は相対的に小さく、低周波帯域におけるミュージックフレームの周波数スペクトル音量の比率は相対的に低く、及び、低周波帯域におけるスピーチフレームの周波数スペクトル音量の比率は相対的に高い(スピーチフレームのエネルギーは主に低周波帯域に集中される)。したがって、現在オーディオフレームは、前述のパラメータの統計値にしたがって分類されてもよい。確かに、信号分類は、他の分類方法を使用することにより現在オーディオフレームに関して行われてもよい。
信号分類後、異なる信号が異なるエンコーディングモードでエンコードされてもよい。例えば、スピーチ生成モデル(例えばCELPなど)に基づくエンコーダを使用することによりスピーチ信号がエンコードされ、また、変換に基づくエンコーダ(例えばMDCTに基づくエンコーダなど)を使用することによりミュージック信号がエンコードされる。
前述の実施形態では、線形予測残留エネルギー勾配及び周波数スペクトル音量の長期統計値と低周波帯域における周波数スペクトル音量の比率とにしたがってオーディオ信号が分類され、したがって、パラメータが比較的少なく、認識率が比較的高いとともに、複雑さが比較的低い。
一実施形態では、線形予測残留エネルギー勾配epsP_tilt、周波数スペクトル音量Ntonal、及び、低周波帯域における周波数スペクトル音量の比率ratio_Ntonal_lfが対応するbufferに記憶された後、epsP_tilt履歴buffer内の全てのデータの分散が得られてepsP_tilt60としてマーキングされる。Ntonal履歴buffer内の全てのデータの平均値が得られてNtonal 60としてマーキングされる。Ntonal_lf履歴buffer内の全てのデータの平均値が得られるとともに、Ntonal60に対する平均値の比率が計算されてratio_Ntonal_lf60としてマーキングされる。図12を参照すると、以下の規則にしたがって現在オーディオフレームが分類される。
ボイス活性フラグが1(すなわち、vad_flag=1)であれば、すなわち、現在オーディオフレームが活性ボイスフラグであれば、以下の条件、すなわち、epsP_tilt60<0.002又はNtonal60>18又はratio_Ntonal_lf60<0.42が満たされるかどうかがチェックされ、条件が満たされれば、現在オーディオフレームがミュージックタイプ(すなわち、Mode=1)として分類され、そうでなければ、現在オーディオフレームがスピーチタイプ(すなわち、Mode=0)として分類される。
前述の実施形態は、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがって分類が行われる特定の分類プロセスであり、また、当業者であれば分かるように、他のプロセスを使用することにより分類が行われてもよい。この実施形態における分類プロセスは、例えば図5におけるステップ504又は図11におけるステップ1105の特定の分類方法として役立つべく、前述の実施形態における対応するステップに適用されてもよい。
本発明は、複雑さが低く且つメモリオーバーヘッドが低いオーディオエンコーディングモード選択方法を提供する。また、分類ロバスト性及び分類認識速度の両方が考慮に入れられる。
前述の方法実施形態と関連して、本発明は、オーディオ信号分類装置を更に提供し、また、該装置は、端末デバイス内又はネットワークデバイス内に位置されてもよい。オーディオ信号分類装置は、前述の方法実施形態のステップを行ってもよい。
図13を参照すると、本発明はオーディオ信号分類装置の一実施形態を提供し、この場合、装置は、
入力オーディオ信号を分類するように構成され、また、装置は、現在オーディオフレームのボイス活性にしたがって現在オーディオフレームの周波数スペクトル変動を得て記憶するべきかどうかを決定する記憶決定ユニット1301であって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示す、記憶決定ユニット1301と、
周波数スペクトル変動が記憶される必要があるという結果を記憶決定ユニットが出力するときに周波数スペクトル変動を記憶するメモリ1302と、
スピーチフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがってメモリに記憶される周波数スペクトル変動を更新する更新ユニット1304と、
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の統計値にしたがって現在オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するとともに、周波数スペクトル変動の有効データの統計値がスピーチ分類条件を満たすときに現在オーディオフレームをスピーチフレームとして分類する、或いは、周波数スペクトル変動の有効データの統計値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類する分類ユニット1303とを含む。
一実施形態において、記憶決定ユニット1301は、具体的には、現在オーディオフレームが活性フレームであると決定されるときに、現在オーディオフレームの周波数スペクトル変動が記憶される必要があるという結果を出力するように構成される。
他の実施形態において、記憶決定ユニットは、具体的には、現在オーディオフレームが活性フレームであるととともに現在オーディオフレームがエネルギー攻撃に属さないと決定されるときに、現在オーディオフレームの周波数スペクトル変動が記憶される必要があるという結果を出力するように構成される。
他の実施形態において、記憶決定ユニットは、具体的には、現在オーディオフレームが活性フレームであるととともに現在オーディオフレームと現在オーディオフレームの履歴フレームとを含む複数の連続するフレームのいずれもがエネルギー攻撃に属さないと決定されるときに、現在オーディオフレームの周波数スペクトル変動が記憶される必要があるという結果を出力するように構成される。
一実施形態において、更新ユニットは、具体的には、現在オーディオフレームがパーカッションミュージックに属する場合に、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の値を変更するように構成される。
他の実施形態において、更新ユニットは、具体的には、現在オーディオフレームが活性フレームであるとともに前のオーディオフレームが不活性フレームである場合に、現在オーディオフレームの周波数スペクトル変動を除くメモリ内に記憶される他の周波数スペクトル変動のデータを無効データに変更する、或いは、現在オーディオフレームが活性フレームであるとともに現在オーディオフレームの前の3つの連続するフレームが全て活性フレームではない場合に、現在オーディオフレームの周波数スペクトル変動を第1の値に変更する、或いは、現在オーディオフレームが活性フレームであるとともに履歴分類結果がミュージック信号であり且つ現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きい場合に、現在オーディオフレームの周波数スペクトル変動を第2の値に変更するように構成され、この場合、第2の値は第1の値よりも大きい。
図14を参照すると、一実施形態において、分類ユニット1303は、
メモリ内に記憶される周波数スペクトル変動の有効データの一部又は全部の平均値を得る計算ユニット1401と、
周波数スペクトル変動の有効データの平均値とミュージック分類条件とを比較して、周波数スペクトル変動の有効データの平均値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニット1402とを含む。
例えば、周波数スペクトル変動の有効データの得られた平均値がミュージック分類閾値を下回るときには、現在オーディオフレームがミュージックフレームとして分類され、そうでなければ、現在オーディオフレームがスピーチフレームとして分類される。
前述の実施形態では、周波数スペクトル変動の長期統計値にしたがってオーディオ信号が分類されるため、パラメータが比較的少なく、認識率が比較的高いとともに、複雑さが比較的低い。また、周波数スペクトル変動は、ボイス活性及びパーカッションミュージックなどの因子を考慮して調整され、したがって、本発明は、ミュージック信号に関してより高い認識率を有するとともに、ハイブリッドオーディオ信号分類に適している。
他の実施形態において、オーディオ信号分類装置は、
現在オーディオフレームの周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を取得するパラメータ取得ユニットを更に含み、ここで、周波数スペクトル高周波帯域ピーキネスは、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度は、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、また、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示し、この場合、
記憶決定ユニットは、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するべきかどうかを決定するように更に構成され、
記憶ユニットは、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配が記憶される必要があるという結果を記憶決定ユニットが出力するときに、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するように更に構成され、
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するとともに、周波数スペクトル変動の有効データの統計値がスピーチ分類条件を満たすときに現在オーディオフレームをスピーチフレームとして分類し、或いは、周波数スペクトル変動の有効データの統計値がミュージック分類条件を満たすときに現在オーディオフレームをミュージックフレームとして分類するように構成される。
一実施形態において、分類ユニットは、具体的には、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
前述の実施形態では、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配の長期統計値にしたがってオーディオ信号が分類され、したがって、パラメータが比較的少なく、認識率が比較的高いとともに、複雑さが比較的低い。また、周波数スペクトル変動は、ボイス活性及びパーカッションミュージックなどの因子を考慮して調整され、また、周波数スペクトル変動は、現在オーディオフレームが位置される信号環境にしたがって変更され、したがって、本発明は、分類認識率を向上させるとともに、ハイブリッドオーディオ信号分類に適している。
図15を参照すると、本発明は、オーディオ信号分類装置の他の実施形態を提供し、この場合、装置は、入力オーディオ信号を分類するように構成され、また、装置は、
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニット1501と、
現在オーディオフレームの線形予測残留エネルギー勾配を取得するパラメータ取得ユニット1502であって、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニット1502と、
線形予測残留エネルギー勾配を記憶する記憶ユニット1503と、
メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがってオーディオフレームを分類する分類ユニット1504とを含む。
図16を参照すると、オーディオ信号分類装置は、
現在オーディオフレームのボイス活性にしたがって線形予測残留エネルギー勾配をメモリに記憶するべきかどうかを決定する記憶決定ユニット1505を更に含み、
この場合、記憶ユニット1503は、具体的には、線形予測残留エネルギー勾配が記憶される必要があることを記憶決定ユニットが決定するときに線形予測残留エネルギー勾配をメモリに記憶するように構成される。
一実施形態において、予測残留エネルギー勾配のデータの一部の統計値は、予測残留エネルギー勾配のデータの一部の分散であり、また、
分類ユニットは、具体的には、予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、予測残留エネルギー勾配のデータの一部の分散がミュージック分類閾値を下回るときに現在オーディオフレームをミュージックフレームとして分類し、そうでなければ現在オーディオフレームをスピーチフレームとして分類するように構成される。
他の実施形態において、パラメータ取得ユニットは、現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を対応するメモリに記憶するように更に構成され、また、
分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、この場合、有効データの統計値とは、メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである。
図17を参照すると、具体的に、一実施形態において、分類ユニット1504は、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニット1701と、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニット1702とを含む。
他の実施形態では、パラメータ取得ユニットは、現在オーディオフレームの周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを得るとともに、周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とをメモリ内に記憶するように更に構成され、また、
分類ユニットは、具体的に、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、この場合、有効データの統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである。
具体的には、分類ユニットは、
記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
具体的には、パラメータ取得ユニットは、以下の式にしたがって現在オーディオフレームの線形予測残留エネルギー勾配を取得する。
Figure 0006392414
ここで、epsP(i)は、現在オーディオフレームのi番目の次数の線形予測の予測残留エネルギーを示し、また、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である。
具体的には、パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を計数して、その量を周波数スペクトル音量として使用するように構成され、また、パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用するように構成される。
この実施形態において、オーディオ信号は、線形予測残留エネルギー勾配の長期統計値にしたがって分類される。また、分類ロバスト性及び分類認識速度の両方が考慮に入れられ、したがって、分類パラメータが比較的少ないが、結果は比較的正確であり、複雑さが低いとともに、メモリオーバーヘッドが低い。
本発明は、オーディオ信号分類装置の他の実施形態を提供し、この場合、装置は、入力オーディオ信号を分類するように構成され、また、装置は、
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を取得するパラメータ取得ユニットであって、周波数スペクトル変動がオーディオ信号の周波数スペクトルのエネルギー変動を示し、周波数スペクトル高周波帯域ピーキネスが、現在オーディオフレームの周波数スペクトルの高周波帯域におけるピーキネス又はエネルギー尖鋭度を示し、周波数スペクトル相関度が、現在オーディオフレームの信号調和構造の隣接するフレーム間の安定性を示し、線形予測残留エネルギー勾配は、線形予測次数が増大するにつれてオーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニットと、
周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶する記憶ユニットと、
記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する分類ユニットであって、有効データの統計値とは、メモリ内に記憶される有効データに関して計算作業が行われた後に得られるデータ値のことであり、計算作業が、平均値を得るための演算、分散を得るための演算等を含んでもよい、分類ユニットとを含む。
一実施形態において、オーディオ信号分類装置は、
現在オーディオフレームのボイス活性にしたがって、現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するべきかどうかを決定する記憶決定ユニットを更に含んでもよく、また、
記憶ユニットは、具体的には、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配が記憶される必要があるという結果を記憶決定ユニットが出力するときに、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を記憶するように更に構成される。
具体的には、一実施形態では、記憶決定ユニットは、現在オーディオフレームのボイス活性にしたがって、周波数スペクトル変動を周波数スペクトル変動メモリ内に記憶するべきかどうかを決定する。現在オーディオフレームが活性フレームであれば、記憶決定ユニットは、パラメータが記憶される必要があるという結果を出力し、そうでなければ、記憶決定ユニットは、パラメータが記憶される必要がないという結果を出力する。他の実施形態において、記憶決定ユニットは、オーディオフレームのボイス活性とオーディオフレームがエネルギー攻撃かどうかとにしたがって、周波数スペクトル変動をメモリ内に記憶するべきかどうかを決定する。現在オーディオフレームが活性フレームであるとともに、現在オーディオフレームがエネルギー攻撃に属さなければ、現在オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリに記憶される。他の実施形態では、現在オーディオフレームが活性フレームであるとともに、現在オーディオフレームと現在オーディオフレームの履歴フレームとを含む複数の連続フレームのいずれもがエネルギー攻撃に属さない場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。例えば、現在オーディオフレームが活性フレームであるとともに、現在オーディオフレームの前のフレーム及び現在オーディオフレームの2番目の履歴フレームのいずれもがエネルギー攻撃に属さない場合には、オーディオフレームの周波数スペクトル変動が周波数スペクトル変動メモリ内に記憶され、さもなければ、周波数スペクトル変動が記憶されない。
一実施形態において、分類ユニットは、
記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
以下の条件、すなわち、周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配を計算する特定の方法に関しては、前述の方法実施形態を参照されたい。
また、オーディオ信号分類装置は、
スピーチフレームがパーカッションミュージックであるかどうかにしたがって又は履歴オーディオフレームの活性にしたがってメモリに記憶される周波数スペクトル変動を更新する更新ユニットを更に含んでもよい。一実施形態において、更新ユニットは、具体的には、現在オーディオフレームがパーカッションミュージックに属する場合に、周波数スペクトル変動メモリ内に記憶される周波数スペクトル変動の値を変更するように構成される。他の実施形態において、更新ユニットは、具体的には、現在オーディオフレームが活性フレームであるとともに前のオーディオフレームが不活性フレームである場合に、現在オーディオフレームの周波数スペクトル変動を除くメモリ内に記憶される他の周波数スペクトル変動のデータを無効データに変更する、或いは、現在オーディオフレームが活性フレームであるとともに現在オーディオフレームの前の3つの連続するフレームが全て活性フレームではない場合に、現在オーディオフレームの周波数スペクトル変動を第1の値に変更する、或いは、現在オーディオフレームが活性フレームであるとともに履歴分類結果がミュージック信号であり且つ現在オーディオフレームの周波数スペクトル変動が第2の値よりも大きい場合に、現在オーディオフレームの周波数スペクトル変動を第2の値に変更するように構成され、この場合、第2の値は第1の値よりも大きい。
この実施形態において、分類は、周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、周波数スペクトル相関度、及び、線形予測残留エネルギー勾配の長期統計値にしたがって行われる。また、分類ロバスト性及び分類認識速度の両方が考慮に入れられ、したがって、分類パラメータが比較的少ないが、結果は比較的正確であり、認識率が比較的高いとともに、複雑さが比較的低い。
本発明は、オーディオ信号分類装置の他の実施形態を提供し、この場合、装置は、入力オーディオ信号を分類するように構成され、また、装置は、
入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
現在オーディオフレームの線形予測残留エネルギー勾配及び周波数スペクトル音量と低周波帯域における周波数スペクトル音量の比率とを取得するパラメータ取得ユニットであって、線形予測残留エネルギー勾配epsP_tiltは、線形予測次数が増大するにつれて入力オーディオ信号の線形予測残留エネルギーが変化する度合いを示し、周波数スペクトル音量Ntonalは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を示し、低周波帯域における周波数スペクトル音量の比率ratio_Ntonal_lfは周波数スペクトル音量に対する低周波帯域音量の比率を示し、特定の計算に関しては前述の実施形態の説明を参照されたい、パラメータ取得ユニットと、
線形予測残留エネルギー勾配、周波数スペクトル音量、及び、低周波帯域における周波数スペクトル音量の比率を記憶する記憶ユニットと、
記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する分類ユニットであって、有効データの統計値とは、メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである、分類ユニットとを含む。
具体的には、分類ユニットは、
記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、現在オーディオフレームをミュージックフレームとして分類し、さもなければ、現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを含む。
具体的には、パラメータ取得ユニットは、以下の式にしたがって現在オーディオフレームの線形予測残留エネルギー勾配を取得する。
Figure 0006392414
ここで、epsP(i)は、現在オーディオフレームのi番目の次数の線形予測の予測残留エネルギーを示し、また、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である。
具体的には、パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量を計数して、その量を周波数スペクトル音量として使用するように構成され、また、パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用するように構成される。
前述の実施形態では、線形予測残留エネルギー勾配及び周波数スペクトル音量の長期統計値と低周波帯域における周波数スペクトル音量の比率とにしたがってオーディオ信号が分類され、したがって、パラメータが比較的少なく、認識率が比較的高いとともに、複雑さが比較的低い。
前述のオーディオ信号分類装置は、異なるエンコーダに接続されてもよく、また、異なる信号を異なるエンコーダを使用することによりエンコードしてもよい。例えば、オーディオ信号分類装置は、2つのエンコーダに接続されて、スピーチ生成モデル(例えばCELPなど)に基づくエンコーダを使用することによりスピーチ信号がエンコードするとともに、変換に基づくエンコーダ(例えばMDCTに基づくエンコーダなど)を使用することによりミュージック信号をエンコードする。前述の装置実施形態におけるそれぞれの特定のパラメータの定義及び取得方法に関しては、前述の実施形態の関連する説明を参照されたい。
前述の方法実施形態と関連して、本発明は、オーディオ信号分類装置を更に提供し、また、該装置は、端末デバイス内又はネットワークデバイス内に位置されてもよい。オーディオ信号分類装置は、ハードウェア回路により実施されてもよく、或いは、ハードウェアと協働するソフトウェアによって実施されてもよい。例えば、図18を参照すると、オーディオ信号に関して分類を実施するためにプロセッサがオーディオ信号分類装置を呼び出す。オーディオ信号分類装置は、前述の方法実施形態における様々な方法及びプロセスを行ってもよい。オーディオ信号分類装置の特定のモジュール及び機能に関しては、前述の装置実施形態の関連する説明を参照されたい。
図19における装置1900の一例はエンコーダである。装置1900は、プロセッサ1910及びメモリ1920を含む。
メモリ1920は、ランダムメモリ、フラッシュメモリ、リードオンリーメモリ、プログラマブルリードオンリーメモリ、不揮発性メモリ、レジスタ等を含んでもよい。プロセッサ1910が中央処理ユニット(Central Processing Unit、CPU)であってもよい。
メモリ1920は、実行可能命令を記憶するように構成される。プロセッサ1910は、メモリ1920に記憶される実行可能命令を実行するとともに、以下のように構成されてもよい。
装置1900の他の機能及び動作に関しては、繰り返しを避けるためにここで再び説明されない図3〜図12における方法実施形態のプロセスを参照されたい。
当業者であれば分かるように、実施形態における方法のプロセスの全部又は一部は、関連するハードウェアに指示するコンピュータプログラムにより実施されてもよい。プログラムはコンピュータ可読記憶媒体に記憶されてもよい。プログラムが起動する際に、実施形態における方法のプロセスが行われる。前述の機能部億媒体は、磁気ディスク、光ディスク、リードオンリーメモリ(Read−Only Memory、ROM)、又は、ランダムアクセスメモリ(Random Access Memory、RAM)を含んでもよい。
この出願において与えられる幾つかの実施形態では、開示されたシステム、装置、及び、方法が他の態様で実施されてもよいことが理解されるべきである。例えば、記載された装置実施形態は単なる典型例にすぎない。例えば、ユニット分割は、単に論理的な機能分割にすぎず、実際の実施では他の分割であってもよい。例えば、複数のユニット又は構成要素が組み合わされ或いは他のシステムに組み込まれてもよく、或いは、幾つかの特徴が無視され又は実行されなくてもよい。また、示された或いは論じられた相互の結合又は直接的な結合又は通信接続は、幾つかのインタフェースを使用することにより実施されてもよい。装置間又はユニット間の間接的な結合又は通信接続は、電子的形態、機械的形態、又は、他の形態で実施されてもよい。
別個の部品として説明されるユニットは、物理的に別個であってもよく或いは物理的に別個でなくてもよく、また、ユニットとして示される部品は、物理的なユニットであってもなくてもよく、1つの位置に位置されてもよく、或いは、複数のネットワークユニットに分布されてもよい。ユニットの一部又は全部は、実施形態の解決策の目的を達成するように実際のニーズにしたがって選択されてもよい。
また、本発明の実施形態における機能ユニットが1つの処理ユニットに組み込まれてもよく、或いは、ユニットのそれぞれが物理的に単独で存在してもよく、或いは、2つ以上のユニットが1つのユニットに組み込まれてもよい。
以上は本発明の単なる典型的な実施形態にすぎない。当業者は、本発明の思想及び範囲から逸脱することなく、本発明に対して様々な変更及び変形を成してもよい。
1301 記憶決定ユニット
1302 メモリ
1303 分類ユニット
1304 更新ユニット
1401 計算ユニット
1402 決定ユニット
1501 フレーム分割ユニット
1502 パラメータ取得ユニット
1503 記憶ユニット
1504 分類ユニット
1505 記憶決定ユニット
1701 計算ユニット
1702 決定ユニット
1900 装置
1910 プロセッサ
1920 メモリ

Claims (18)

  1. 入力オーディオ信号に関してフレーム分割処理を行うステップと、
    現在オーディオフレームの線形予測残留エネルギー勾配を得るステップであって、前記線形予測残留エネルギー勾配は、線形予測次数が増大するにつれて前記オーディオ信号の線形予測残留エネルギーが変化する度合いを示す、ステップと、
    前記線形予測残留エネルギー勾配をメモリに記憶するステップと、前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類するステップと
    を備える、オーディオ信号分類方法。
  2. 前記線形予測残留エネルギー勾配を前記メモリに記憶する前に、前記方法は、
    前記現在オーディオフレームのボイス活性にしたがって、前記線形予測残留エネルギー勾配を前記メモリ内に記憶するべきかどうかを決定するとともに、前記線形予測残留エネルギー勾配が記憶される必要があると決定されるときに前記線形予測残留エネルギー勾配を前記メモリに記憶するステップ
    を更に備える請求項1に記載の方法。
  3. 前記予測残留エネルギー勾配のデータの一部の統計値は、前記予測残留エネルギー勾配のデータの一部の分散であり、前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する前記ステップは、
    予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、前記予測残留エネルギー勾配のデータの一部の分散が前記ミュージック分類閾値を下回るときに前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ前記現在オーディオフレームをスピーチフレームとして分類するステップを備える請求項1又は2に記載の方法。
  4. 前記現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、前記周波数スペクトル変動、前記周波数スペクトル高周波帯域ピーキネス、及び、前記周波数スペクトル相関度を対応するメモリに記憶するステップを更に備え、
    前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する前記ステップは、
    記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップを備え、前記有効データの統計値とは、前記メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである請求項1又は2に記載の方法。
  5. 記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、有効データの統計値にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、
    記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得るステップと、
    以下の条件、すなわち、前記周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、前記周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、前記周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、前記線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、前記現在オーディオフレームがスピーチフレームとして分類するステップとを備える請求項4に記載の方法。
  6. 前記現在オーディオフレームの周波数スペクトル音量と低周波帯域における前記周波数スペクトル音量の比率とを得るとともに、前記周波数スペクトル音量と前記低周波帯域における周波数スペクトル音量の比率とを対応するメモリ内に記憶するステップを更に備え、
    前記メモリ内の予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する前記ステップは、
    記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得るステップと、
    前記線形予測残留エネルギー勾配の統計値、前記周波数スペクトル音量の統計値、及び、前記低周波帯域における周波数スペクトル音量の比率にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するステップとを備え、前記統計値とは、前記メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである請求項1又は2に記載の方法。
  7. 記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得る前記ステップは、
    記憶された線形予測残留エネルギー勾配の分散を得るステップと、
    記憶された周波数スペクトル音量の平均値を得るステップと
    を備え、
    線形予測残留エネルギー勾配の統計値、周波数スペクトル音量の統計値、及び、低周波帯域における周波数スペクトル音量の比率にしたがってオーディオフレームをスピーチフレーム又はミュージックフレームとして分類する前記ステップは、
    前記現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、
    前記線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、
    前記周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、
    前記低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、
    さもなければ、前記現在オーディオフレームをスピーチフレームとして分類するステップを備える請求項6に記載の方法。
  8. 現在オーディオフレームの線形予測残留エネルギー勾配を得る前記ステップは、以下の式にしたがって前記現在オーディオフレームの線形予測残留エネルギー勾配を取得するステップを備え、
    Figure 0006392414
    ここで、epsP(i)は、前記現在オーディオフレームのi番目の次数の線形予測の予測残留エネルギーを示し、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である請求項1から7のいずれか一項に記載の方法。
  9. 前記現在オーディオフレームの周波数スペクトル音量と低周波帯域における前記周波数スペクトル音量の比率とを得る前記ステップは、
    0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量を計数して、その量を前記周波数スペクトル音量として使用するステップと、
    0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を前記低周波帯域における周波数スペクトル音量の比率として使用するステップと
    を備える請求項6又は7に記載の方法。
  10. 信号分類装置であって、該装置は、入力オーディオ信号を分類するように構成され、前記装置は、
    入力オーディオ信号に関してフレーム分割処理を行うフレーム分割ユニットと、
    現在オーディオフレームの線形予測残留エネルギー勾配を取得するパラメータ取得ユニットであって、前記線形予測残留エネルギー勾配は、線形予測次数が増大するにつれて前記オーディオ信号の線形予測残留エネルギーが変化する度合いを示す、パラメータ取得ユニットと、
    前記線形予測残留エネルギー勾配を記憶する記憶ユニットと、メモリ内の前記予測残留エネルギー勾配のデータの一部の統計値にしたがって前記オーディオフレームを分類する分類ユニットと
    を備える、信号分類装置。
  11. 前記現在オーディオフレームのボイス活性にしたがって前記線形予測残留エネルギー勾配を前記メモリに記憶するべきかどうかを決定する記憶決定ユニットを更に備え、
    前記記憶ユニットは、具体的には、前記線形予測残留エネルギー勾配が記憶される必要があることを前記記憶決定ユニットが決定するときに前記線形予測残留エネルギー勾配を前記メモリに記憶するように構成される請求項10に記載の装置。
  12. 前記予測残留エネルギー勾配のデータの一部の統計値は、前記予測残留エネルギー勾配のデータの一部の分散であり、
    前記分類ユニットは、具体的には、前記予測残留エネルギー勾配のデータの一部の分散とミュージック分類閾値とを比較するとともに、前記予測残留エネルギー勾配のデータの一部の分散が前記ミュージック分類閾値を下回るときに前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ前記現在オーディオフレームをスピーチフレームとして分類するように構成される請求項10又は11に記載の装置。
  13. 前記パラメータ取得ユニットは、前記現在オーディオフレームの周波数スペクトル変動、周波数スペクトル高周波帯域ピーキネス、及び、周波数スペクトル相関度を得て、前記周波数スペクトル変動、前記周波数スペクトル高周波帯域ピーキネス、及び、前記周波数スペクトル相関度を対応するメモリに記憶するように更に構成され、
    前記分類ユニットは、具体的には、記憶された周波数スペクトル変動の有効データの統計値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの統計値、記憶された周波数スペクトル相関度の有効データの統計値、及び、記憶された線形予測残留エネルギー勾配の有効データの統計値を得て、前記有効データの統計値にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、前記有効データの統計値とは、前記メモリに記憶される有効データに関して計算作業が行われた後に得られるデータ値のことである、請求項10又は11に記載の装置。
  14. 前記分類ユニットは、
    記憶された周波数スペクトル変動の有効データの平均値、記憶された周波数スペクトル高周波帯域ピーキネスの有効データの平均値、記憶された周波数スペクトル相関度の有効データの平均値、及び、記憶された線形予測残留エネルギー勾配の有効データの分散を別々に得る計算ユニットと、
    以下の条件、すなわち、前記周波数スペクトル変動の有効データの平均値が第1の閾値未満であり、或いは、前記周波数スペクトル高周波帯域ピーキネスの有効データの平均値が第2の閾値よりも大きく、或いは、前記周波数スペクトル相関度の有効データの平均値が第3の閾値よりも大きく、或いは、前記線形予測残留エネルギー勾配の有効データの分散が第4の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、そうでなければ、前記現在オーディオフレームをスピーチフレームとして分類する決定ユニットと
    を備える、請求項13に記載の装置。
  15. 前記パラメータ取得ユニットは、前記現在オーディオフレームの周波数スペクトル音量と低周波帯域における前記周波数スペクトル音量の比率とを得るとともに、前記周波数スペクトル音量と前記低周波帯域における周波数スペクトル音量の比率とをメモリ内に記憶するように更に構成され、
    前記分類ユニットは、具体的に、記憶された線形予測残留エネルギー勾配の統計値と記憶された周波数スペクトル音量の統計値とを別々に得て、前記線形予測残留エネルギー勾配の統計値、前記周波数スペクトル音量の統計値、及び、前記低周波帯域における周波数スペクトル音量の比率にしたがって前記オーディオフレームをスピーチフレーム又はミュージックフレームとして分類するように構成され、有効データの統計値とは、前記メモリ内に記憶されるデータに関して計算作業が行われた後に得られるデータ値のことである請求項10又は11に記載の装置。
  16. 前記分類ユニットは、
    記憶された線形予測残留エネルギー勾配の有効データの分散と記憶された周波数スペクトル音量の平均値とを得る計算ユニットと、
    前記現在オーディオフレームが活性フレームであるとともに以下の条件、すなわち、前記線形予測残留エネルギー勾配の分散が第5の閾値未満であり、或いは、前記周波数スペクトル音量の平均値が第6の閾値よりも大きく、或いは、前記低周波帯域における周波数スペクトル音量の比率が第7の閾値未満であるという条件のうちの1つが満たされるときに、前記現在オーディオフレームをミュージックフレームとして分類し、さもなければ、前記現在オーディオフレームをスピーチフレームとして分類する決定ユニットとを備える請求項15に記載の装置。
  17. 前記パラメータ取得ユニットは、以下の式にしたがって前記現在オーディオフレームの線形予測残留エネルギー勾配を取得し、
    Figure 0006392414
    ここで、epsP(i)は、前記現在オーディオフレームのi番目の次数の線形予測の予測残留エネルギーを示し、nは、正の整数であって、線形予測次数を示すとともに、最大線形予測次数以下である請求項10から16のいずれか一項に記載の装置。
  18. 前記パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量を計数して、その量を前記周波数スペクトル音量として使用するように構成され、前記パラメータ取得ユニットは、0〜8kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量に対する0〜4kHzの周波数帯域にあって所定値よりも大きい周波数ビンピーク値を有する前記現在オーディオフレームの周波数ビンの量の比率を計算して、その比率を低周波帯域における周波数スペクトル音量の比率として使用するように構成される請求項15又は16に記載の装置。
JP2017117505A 2013-08-06 2017-06-15 オーディオ信号分類方法及び装置 Active JP6392414B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310339218.5A CN104347067B (zh) 2013-08-06 2013-08-06 一种音频信号分类方法和装置
CN201310339218.5 2013-08-06

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016532192A Division JP6162900B2 (ja) 2013-08-06 2013-09-26 オーディオ信号分類方法及び装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018155739A Division JP6752255B2 (ja) 2013-08-06 2018-08-22 オーディオ信号分類方法及び装置

Publications (2)

Publication Number Publication Date
JP2017187793A JP2017187793A (ja) 2017-10-12
JP6392414B2 true JP6392414B2 (ja) 2018-09-19

Family

ID=52460591

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016532192A Active JP6162900B2 (ja) 2013-08-06 2013-09-26 オーディオ信号分類方法及び装置
JP2017117505A Active JP6392414B2 (ja) 2013-08-06 2017-06-15 オーディオ信号分類方法及び装置
JP2018155739A Active JP6752255B2 (ja) 2013-08-06 2018-08-22 オーディオ信号分類方法及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016532192A Active JP6162900B2 (ja) 2013-08-06 2013-09-26 オーディオ信号分類方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018155739A Active JP6752255B2 (ja) 2013-08-06 2018-08-22 オーディオ信号分類方法及び装置

Country Status (15)

Country Link
US (5) US10090003B2 (ja)
EP (4) EP4057284A3 (ja)
JP (3) JP6162900B2 (ja)
KR (4) KR101946513B1 (ja)
CN (3) CN104347067B (ja)
AU (3) AU2013397685B2 (ja)
BR (1) BR112016002409B1 (ja)
ES (3) ES2769267T3 (ja)
HK (1) HK1219169A1 (ja)
HU (1) HUE035388T2 (ja)
MX (1) MX353300B (ja)
MY (1) MY173561A (ja)
PT (3) PT3324409T (ja)
SG (2) SG10201700588UA (ja)
WO (1) WO2015018121A1 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
KR101621774B1 (ko) * 2014-01-24 2016-05-19 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015111772A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621766B1 (ko) 2014-01-28 2016-06-01 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
RU2665916C2 (ru) * 2014-07-29 2018-09-04 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах
TWI576834B (zh) * 2015-03-02 2017-04-01 聯詠科技股份有限公司 聲頻訊號的雜訊偵測方法與裝置
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
EP3340238B1 (en) * 2015-05-25 2020-07-22 Guangzhou Kugou Computer Technology Co., Ltd. Method and device for audio processing
US9965685B2 (en) 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
CN106571150B (zh) * 2015-10-12 2021-04-16 阿里巴巴集团控股有限公司 一种识别音乐中的人声的方法和系统
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
US9852745B1 (en) 2016-06-24 2017-12-26 Microsoft Technology Licensing, Llc Analyzing changes in vocal power within music content using frequency spectrums
EP3309777A1 (en) * 2016-10-13 2018-04-18 Thomson Licensing Device and method for audio frame processing
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617409D0 (en) * 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
CN107221334B (zh) * 2016-11-01 2020-12-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
GB2565751B (en) 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
EP3701528B1 (en) 2017-11-02 2023-03-15 Huawei Technologies Co., Ltd. Segmentation-based feature extraction for acoustic scene classification
CN107886956B (zh) * 2017-11-13 2020-12-11 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
CN108501003A (zh) * 2018-05-08 2018-09-07 国网安徽省电力有限公司芜湖供电公司 一种应用于变电站智能巡检机器人的声音识别系统和方法
CN108830162B (zh) * 2018-05-21 2022-02-08 西华大学 无线电频谱监测数据中的时序模式序列提取方法及存储方法
US11240609B2 (en) * 2018-06-22 2022-02-01 Semiconductor Components Industries, Llc Music classifier and related methods
US10692490B2 (en) * 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
CN108986843B (zh) * 2018-08-10 2020-12-11 杭州网易云音乐科技有限公司 音频数据处理方法及装置、介质和计算设备
EP3836482A4 (en) 2018-10-19 2022-05-04 Nippon Telegraph And Telephone Corporation AUTHENTICATION AUTHORIZATION SYSTEM, INFORMATION PROCESSING DEVICE, DEVICE, AUTHENTICATION AUTHORIZATION METHOD AND PROGRAM
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
US12118987B2 (en) 2019-04-18 2024-10-15 Dolby Laboratories Licensing Corporation Dialog detector
CN110097895B (zh) * 2019-05-14 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 一种纯音乐检测方法、装置及存储介质
KR20220042165A (ko) * 2019-08-01 2022-04-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 공분산 평활화를 위한 시스템 및 방법
CN110600060B (zh) * 2019-09-27 2021-10-22 云知声智能科技股份有限公司 一种硬件音频主动探测hvad系统
KR102155743B1 (ko) * 2019-10-07 2020-09-14 견두헌 대표음량을 적용한 컨텐츠 음량 조절 시스템 및 그 방법
CN113162837B (zh) * 2020-01-07 2023-09-26 腾讯科技(深圳)有限公司 语音消息的处理方法、装置、设备及存储介质
CA3170065A1 (en) * 2020-04-16 2021-10-21 Vladimir Malenovsky Method and device for speech/music classification and core encoder selection in a sound codec
US11988784B2 (en) 2020-08-31 2024-05-21 Sonos, Inc. Detecting an audio signal with a microphone to determine presence of a playback device
CN112331233B (zh) * 2020-10-27 2024-07-23 郑州捷安高科股份有限公司 听觉信号识别方法、装置、设备及存储介质
CN112509601B (zh) * 2020-11-18 2022-09-06 中电海康集团有限公司 一种音符起始点检测方法及系统
US20220157334A1 (en) * 2020-11-19 2022-05-19 Cirrus Logic International Semiconductor Ltd. Detection of live speech
CN112201271B (zh) * 2020-11-30 2021-02-26 全时云商务服务股份有限公司 一种基于vad的语音状态统计方法、系统和可读存储介质
CN113192488B (zh) * 2021-04-06 2022-05-06 青岛信芯微电子科技股份有限公司 一种语音处理方法及装置
CN113593602B (zh) * 2021-07-19 2023-12-05 深圳市雷鸟网络传媒有限公司 一种音频处理方法、装置、电子设备和存储介质
CN113689861B (zh) * 2021-08-10 2024-02-27 上海淇玥信息技术有限公司 一种单声道通话录音的智能分轨方法、装置和系统
KR102481362B1 (ko) * 2021-11-22 2022-12-27 주식회사 코클 음향 데이터의 인식 정확도를 향상시키기 위한 방법, 장치 및 프로그램
CN114283841B (zh) * 2021-12-20 2023-06-06 天翼爱音乐文化科技有限公司 一种音频分类方法、系统、装置及存储介质
CN117147966B (zh) * 2023-08-30 2024-05-07 中国人民解放军军事科学院系统工程研究院 一种电磁频谱信号能量异常检测方法

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6901362B1 (en) 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
JP4201471B2 (ja) 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
JP4696418B2 (ja) 2001-07-25 2011-06-08 ソニー株式会社 情報検出装置及び方法
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN1703736A (zh) 2002-10-11 2005-11-30 诺基亚有限公司 用于源控制可变比特率宽带语音编码的方法和装置
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
CN1815550A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP4738213B2 (ja) * 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
TWI312982B (en) * 2006-05-22 2009-08-01 Nat Cheng Kung Universit Audio signal segmentation algorithm
US20080033583A1 (en) * 2006-08-03 2008-02-07 Broadcom Corporation Robust Speech/Music Classification for Audio Signals
CN100483509C (zh) 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
US8849432B2 (en) 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
US8401845B2 (en) 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
CN101546557B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
KR101380297B1 (ko) * 2008-07-11 2014-04-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
US8380498B2 (en) 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101615395B (zh) 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
JP5356527B2 (ja) * 2009-09-19 2013-12-04 株式会社東芝 信号分類装置
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和系统
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
JP5651945B2 (ja) * 2009-12-04 2015-01-14 ヤマハ株式会社 音響処理装置
CN102098057B (zh) * 2009-12-11 2015-03-18 华为技术有限公司 一种量化编解码方法和装置
US8473287B2 (en) * 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
CN101944362B (zh) * 2010-09-14 2012-05-30 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法
CN102413324A (zh) * 2010-09-20 2012-04-11 联合信源数字音视频技术(北京)有限公司 预编码码表优化方法与预编码方法
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
RU2010152225A (ru) * 2010-12-20 2012-06-27 ЭлЭсАй Корпорейшн (US) Обнаружение музыки с использованием анализа спектральных пиков
EP3493205B1 (en) * 2010-12-24 2020-12-23 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
CN102971789B (zh) * 2010-12-24 2015-04-15 华为技术有限公司 用于执行话音活动检测的方法和设备
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
CN102982804B (zh) * 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
CN102543079A (zh) * 2011-12-21 2012-07-04 南京大学 一种实时的音频信号分类方法及设备
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN103021405A (zh) * 2012-12-05 2013-04-03 渤海大学 基于music和调制谱滤波的语音信号动态特征提取方法
JP5277355B1 (ja) * 2013-02-08 2013-08-28 リオン株式会社 信号処理装置及び補聴器並びに信号処理方法
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
JP6521855B2 (ja) 2015-12-25 2019-05-29 富士フイルム株式会社 磁気テープおよび磁気テープ装置

Also Published As

Publication number Publication date
HK1219169A1 (zh) 2017-03-24
SG11201600880SA (en) 2016-03-30
US11756576B2 (en) 2023-09-12
KR20170137217A (ko) 2017-12-12
HUE035388T2 (en) 2018-05-02
JP6162900B2 (ja) 2017-07-12
AU2017228659B2 (en) 2018-05-10
ES2909183T3 (es) 2022-05-05
MY173561A (en) 2020-02-04
EP3667665B1 (en) 2021-12-29
EP4057284A2 (en) 2022-09-14
EP3029673B1 (en) 2017-05-10
CN106409313B (zh) 2021-04-20
US10090003B2 (en) 2018-10-02
JP2018197875A (ja) 2018-12-13
EP4057284A3 (en) 2022-10-12
KR20160040706A (ko) 2016-04-14
US20200126585A1 (en) 2020-04-23
AU2013397685A1 (en) 2016-03-24
US11289113B2 (en) 2022-03-29
BR112016002409A2 (pt) 2017-08-01
SG10201700588UA (en) 2017-02-27
EP3029673A1 (en) 2016-06-08
JP2017187793A (ja) 2017-10-12
US20220199111A1 (en) 2022-06-23
CN106409310B (zh) 2019-11-19
EP3324409B1 (en) 2019-11-06
CN106409313A (zh) 2017-02-15
JP2016527564A (ja) 2016-09-08
AU2013397685B2 (en) 2017-06-15
AU2018214113B2 (en) 2019-11-14
AU2018214113A1 (en) 2018-08-30
KR102072780B1 (ko) 2020-02-03
JP6752255B2 (ja) 2020-09-09
AU2017228659A1 (en) 2017-10-05
MX353300B (es) 2018-01-08
KR102296680B1 (ko) 2021-09-02
EP3324409A1 (en) 2018-05-23
KR101946513B1 (ko) 2019-02-12
BR112016002409B1 (pt) 2021-11-16
KR20200013094A (ko) 2020-02-05
US20160155456A1 (en) 2016-06-02
WO2015018121A1 (zh) 2015-02-12
EP3667665A1 (en) 2020-06-17
KR20190015617A (ko) 2019-02-13
ES2629172T3 (es) 2017-08-07
KR101805577B1 (ko) 2017-12-07
US10529361B2 (en) 2020-01-07
CN106409310A (zh) 2017-02-15
US20240029757A1 (en) 2024-01-25
PT3029673T (pt) 2017-06-29
MX2016001656A (es) 2016-10-05
PT3667665T (pt) 2022-02-14
EP3029673A4 (en) 2016-06-08
CN104347067A (zh) 2015-02-11
CN104347067B (zh) 2017-04-12
PT3324409T (pt) 2020-01-30
ES2769267T3 (es) 2020-06-25
US20180366145A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
JP6392414B2 (ja) オーディオ信号分類方法及び装置
US8874440B2 (en) Apparatus and method for detecting speech
JP5905608B2 (ja) 背景雑音の存在下でのボイスアクティビティ検出
BR112013026333A2 (pt) classificação de sinal de áudio baseada em quadro
JP2014507681A (ja) 帯域幅を拡張する方法および装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180822

R150 Certificate of patent or registration of utility model

Ref document number: 6392414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250