JP2016035501A - 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム - Google Patents

音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム Download PDF

Info

Publication number
JP2016035501A
JP2016035501A JP2014157897A JP2014157897A JP2016035501A JP 2016035501 A JP2016035501 A JP 2016035501A JP 2014157897 A JP2014157897 A JP 2014157897A JP 2014157897 A JP2014157897 A JP 2014157897A JP 2016035501 A JP2016035501 A JP 2016035501A
Authority
JP
Japan
Prior art keywords
frequency
band
frequency signal
signal
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2014157897A
Other languages
English (en)
Inventor
晃 釜野
Akira Kamano
晃 釜野
洋平 岸
Yohei Kishi
洋平 岸
猛 大谷
Takeshi Otani
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014157897A priority Critical patent/JP2016035501A/ja
Priority to US14/751,714 priority patent/US20160035365A1/en
Publication of JP2016035501A publication Critical patent/JP2016035501A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】トーン成分と雑音成分が混在する音声信号の符号化レートを抑制しつつ、再生音質を向上可能な音声符号化装置を提供する。【解決手段】音声符号化装置1は、音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、音声信号を周波数信号に変換する時間周波数変換部11と、フレームごとに、周波数信号の位相成分がランダムとなる第1の周波数帯域を検出する位相ランダム帯域検出部12と、フレームごとに、第1の周波数帯域に含まれる周波数信号の振幅成分の概形を表す概形情報を求める概形情報抽出部13と、フレームごとに、第1の周波数帯域以外の周波数帯域に含まれる周波数信号を符号化する符号化部15と、符号化された周波数信号と概形情報とを含むデータストリームを生成する結合部16とを有する。【選択図】図4

Description

本発明は、例えば、音声符号化装置、音声符号化方法及び音声符号化用コンピュータプログラムに関する。また本発明は、例えば、音声復号装置、音声復号方法及び音声復号用コンピュータプログラムに関する。
音声信号の背景ノイズは、白色ノイズ、あるいはピンクノイズなどのカラードノイズに近い特性を持つことがある。このような特性により、環境音を低レートで符号化できる技術として、Code Excited Linear Prediction(CELP)及びNoise Excited Linear Prediction(NELP)といった音声符号化技術が提案されている(例えば、特許文献1を参照)。
例えば、CELPでは、音声符号化装置は、符号化対象の音声信号から、音源の線形予測フィルタ係数を抽出し、その線形予測フィルタ係数を音声復号装置へ伝送する。一方、音声復号装置は、有声区間では、トーン性の高い信号に線形予測フィルタ係数を畳み込み、一方、非有声区間では、白色ノイズに線形予測フィルタ係数を畳み込むことで、音声信号を復号する。
特表2008−533530号公報
しかしながら、環境音に、トーン成分と雑音成分が混在することがある。一方、上述したように、CELP及びNELPでは、有声区間か非有声区間かに応じて、線形予測フィルタ係数が畳み込まれる信号がトーン性の高い信号か白色ノイズかのどちらか一方のみが用いられる。そのため、トーン成分と雑音成分が混在する環境音の符号化にCELPまたはNELPを適用した場合、その環境音の再生音声信号の音質が劣化する。
そこで、本明細書は、トーン成分と雑音成分が混在する音声信号の符号化レートを抑制しつつ、再生音質を向上可能な音声符号化装置、及びそのような音声符号化装置によって符号化された音声信号を復号する音声復号装置を提供することを目的とする。
一つの実施形態によれば、音声符号化装置が提供される。この音声符号化装置は、音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、音声信号を周波数信号に変換する時間周波数変換部と、フレームごとに、周波数信号の位相成分がランダムとなる第1の周波数帯域を検出する位相ランダム帯域検出部と、フレームごとに、第1の周波数帯域に含まれる周波数信号の振幅成分の概形を表す概形情報を求める概形情報抽出部と、フレームごとに、第1の周波数帯域以外の周波数帯域に含まれる周波数信号を符号化する符号化部と、符号化された周波数信号と概形情報とを含むデータストリームを生成する結合部とを有する。
また他の実施形態によれば、音声復号装置が提供される。この音声復号装置は、所定の時間長を持つフレームごとに、音声信号を時間周波数変換して得られる周波数信号のうちの第1の周波数帯域に含まれる複数の周波数の周波数信号の振幅成分の概形を表す概形情報と、第1の周波数帯域以外の第2の周波数帯域に含まれる符号化された周波数信号とを含むデータストリームから、概形情報及び符号化された周波数信号を取り出す分離部と、符号化された周波数信号を復号して第2の周波数帯域に含まれる周波数信号を復号する復号部と、第1の周波数帯域について位相成分がランダムで、かつ、振幅成分が概形情報で表される第1の周波数帯域の周波数信号を生成する雑音成分生成部と、第1の周波数帯域に含まれる周波数信号と第2の周波数帯域に含まれる周波数信号を合成する合成部と、合成された周波数信号を周波数時間変換して音声信号を再生する周波数時間変換部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声符号化装置及び音声復号装置は、トーン成分と雑音成分が混在する音声信号の符号化レートを抑制しつつ、再生音質を向上できる。
トーン成分と雑音成分とを含む環境音の振幅スペクトルの一例を示す図である。 (a)は、図1に示される環境音をCELPに従って符号化して得られた符号化音声信号を、雑音成分に線形予測フィルタ係数を畳み込むことで再生した音声信号の振幅スペクトルを示す図である。(b)は、図1に示される環境音をCELPに従って符号化して得られた符号化音声信号を、トーン成分に線形予測フィルタ係数を畳み込むことで再生した音声信号の振幅スペクトルを示す図である。 音声符号化処理及び音声復号処理の概要を説明する図である。 一つの実施形態による音声符号化装置の概略構成図である。 符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。 音声符号化処理の動作フローチャートである。 音声復号処理の概要を説明する図である。 音声復号装置の概略構成図である。 音声復号処理の動作フローチャートである。 ランレングスごとの出現頻度の値の範囲を示すテーブルの一例を示す図である。 変形例による位相ランダム帯域検出処理の動作フローチャートである。 上記の何れかの実施形態または変形例による音声符号化装置または音声復号装置として動作するコンピュータの構成図である。
以下、図を参照しつつ、音声符号化装置について説明する。監視カメラに設けられたマイクロホンで集音された音声信号から、何らかの異常があるか否かを確認するような用途では、環境音も高品質で再生できることが好ましい。そこでこの音声符号化装置は、トーン成分と雑音成分の両方を含む音声信号の再生音質を向上しつつ、低レートで音声信号を符号化する。先ず、トーン成分と雑音成分を含む環境音について説明する。
図1は、トーン成分と雑音成分とを含む環境音の振幅スペクトルの一例を示す図である。図1において、横軸は周波数を表し、縦軸は振幅スペクトルの強度を表す。そして振幅スペクトル100は、トーン成分と雑音成分とを含む環境音の振幅スペクトルである。この例では、丸印101で示された、相対的に低周波の成分が、周期的なパターンを持つトーン成分であり、一方、丸印102で示された、相対的に高周波の成分が、ランダムなパターンを持つ雑音成分である。このような環境音は、例えば、駅のホームのように、ベルといった特定の音源からの音声と、その他の雑音とが混在するような環境で発生する。
図2(a)は、図1に示される環境音をCELPに従って符号化して得られた符号化音声信号を、雑音成分に線形予測フィルタ係数を畳み込むことで再生して得られた音声信号の振幅スペクトルを示す図である。図2(b)は、図1に示される環境音をCELPに従って符号化して得られた符号化音声信号を、トーン成分に線形予測フィルタ係数を畳み込むことで再生して得られた音声信号の振幅スペクトルを示す図である。図2(a)及び図2(b)において、横軸は周波数を表し、縦軸は振幅スペクトルの強度を表す。図2(a)に示されるように、雑音成分に線形予測フィルタ係数を畳み込むことで再生した音声信号の振幅スペクトル201では、図1に示された振幅スペクトル100と比較して、トーン成分が失われている。一方、図2(b)に示されるように、トーン成分に線形予測フィルタ係数を畳み込むことで再生した音声信号の振幅スペクトル202では、図1に示された振幅スペクトル100と比較して、雑音成分が失われている。そのため、これらの再生音声信号の音質は、元の音声信号から劣化してしまう。
そこで、本実施形態による音声符号化装置は、符号化対象となる音声信号をフレーム単位で時間周波数変換して得られる周波数信号から、その位相成分である位相スペクトルがランダムな周波数帯域を、雑音成分を含む周波数帯域として検出する。例えば、図3に示された位相スペクトル301において、周波数f1よりも高い周波数帯域fBにおいて位相スペクトルがランダムであるとする。この場合、周波数帯域fBに含まれる周波数信号は、雑音成分であると推定される。そこで音声符号化装置は、周波数帯域fBについて周波数信号の振幅成分である振幅スペクトル302の概形形状303を求める。一方、周波数帯域fB以外の周波数帯域には、トーン成分が含まれると推定されるので、音声符号化装置は、周波数帯域fB以外の周波数帯域については符号化処理を行って符号化音声信号を求める。そしてこの音声符号化装置は、概形形状303を表すパラメータを概形情報として符号化音声信号に含める。一方、音声復号装置は、周波数帯域fB以外の周波数帯域の周波数信号311を、符号化音声信号を復号することにより求める。また、音声復号装置は、周波数帯域fBについては、符号化音声信号に含まれる、概形形状を表すパラメータに基づいて、位相スペクトルがランダムで、かつ、振幅スペクトルがそのパラメータにより表される概形形状となる周波数信号312を疑似的に再生する。そして音声復号装置は、得られた各周波数帯域の周波数信号を合成して得られる、全周波数帯域の周波数信号を周波数時間変換することで、トーン成分と雑音成分とを含んだ音声信号を再生する。
図4は、一つの実施形態による音声符号化装置の概略構成図である。音声符号化装置1は、時間周波数変換部11と、位相ランダム帯域検出部12と、概形情報抽出部13と、ランダム成分除去部14と、符号化部15と、結合部16とを有する。音声符号化装置1が有するこれらの各部は、例えば、それぞれ別個の回路として形成される。あるいは、音声符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声符号化装置1に実装されてもよい。さらに、音声符号化装置1が有するこれらの各部は、音声符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
例えば、マイクロホン(図示せず)により集音され、アナログ/デジタル変換器(以下、A/D変換器と呼ぶ)(図示せず)によりデジタル化された音声信号が音声符号化装置1に入力される。
時間周波数変換部11は、そのデジタル化された音声信号(以下、単に音声信号と呼ぶ)を所定長(例えば、数10msec)を持つフレーム単位に分割する。そして時間周波数変換部11は、フレームごとに音声信号を時間周波数変換することで、周波数領域の信号である周波数信号を算出する。なお、一つのフレームに含まれる周波数信号の数は、例えば、一つのフレームに含まれる、A/D変換器によるサンプリング点の数に基づいて決定される。また、時間周波数変換部11は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)あるいは離散修正コサイン変換(Modified Discrete Cosine Transform, MDCT)を用いることができる。
時間周波数変換部11は、フレーム単位で周波数信号を算出する度に、その周波数信号を位相ランダム帯域検出部12及びランダム成分除去部14へ出力する。
位相ランダム帯域検出部12は、フレームごとに、周波数信号の位相成分である位相スペクトルに基づいて、雑音成分が含まれると推定される、位相スペクトルがランダムな周波数帯域を検出する。
本実施形態では、位相ランダム帯域検出部12は、位相スペクトルが含まれる周波数帯域全体を、複数のサブ帯域に分割する。なお、一つのサブ帯域は、例えば、100Hz〜1kHzの帯域幅を持つ。そして位相ランダム帯域検出部12は、サブ帯域ごとに位相スペクトルがランダムか否かを判定する。
位相ランダム帯域検出部12は、着目するサブ帯域において、位相スペクトルの値ごとの出現頻度の差が小さい場合、そのサブ帯域に含まれる位相スペクトルはランダムであると判定する。位相ランダム帯域検出部12は、例えば、位相スペクトルの値が取り得る範囲[-π,π]をM等分(ただし、Mは2以上の整数であり、例えば、2〜10)して位相の値についてM個の部分区間を設定する。例えば、M=3である場合、各部分区間は、それぞれ、[-π,-π/3]、[-π/3,π/3]、[π/3,π]となる。位相ランダム帯域検出部12は、着目するサブ帯域に含まれる周波数ごとに、その周波数の位相スペクトルの値が含まれる部分区間を特定する。そして位相ランダム帯域検出部12は、各部分区間k(k=0,1,...,m-1)について、その部分区間に含まれる位相スペクトル値がある度に、その部分区間の出現頻度p1(k)に1を加算することで、部分区間ごとの出現頻度p1(k) (k=0,1,...,m-1)を求める。
位相ランダム帯域検出部12は、着目するサブ帯域について、各部分区間の出現頻度p1(k)が一様分布である場合、そのサブ帯域に含まれる位相スペクトルはランダムであると判定する。例えば、各部分区間の出現頻度p1(k)の何れもが所定の閾値未満である場合、位相ランダム帯域検出部12は、各部分区間の出現頻度p1(k)が一様分布であると判定する。一方、何れか一つの部分区間でも出現頻度p1(k)が所定の閾値以上である場合、位相ランダム帯域検出部12は、各部分区間の出現頻度p1(k)は一様分布でないと判定する。なお、所定の閾値は、例えば、サブ帯域に含まれる周波数信号が算出された周波数の総数をMで除して得られる値に1.1〜1.3を乗じた値とすることができる。
あるいは、位相ランダム帯域検出部12は、各部分区間の出現頻度p1(k)に対してχ二乗検定あるいはコルモゴロフスミルノフ検定を適用することで、各部分区間の出現頻度p1(k)と一様分布との適合度を求めてもよい。そして位相ランダム帯域検出部12は、その適合度が所定の閾値以上となる場合に各部分区間の出現頻度p1(k)が一様分布であると判定し、一方、その適合度が所定の閾値未満であれば、各部分区間の出現頻度p1(k)は一様分布でないと判定してもよい。
あるいは、位相ランダム帯域検出部12は、着目するサブ帯域に含まれる各周波数の位相スペクトルの値が含まれる部分区間の番号を並べた部分区間列を生成してもよい。そして位相ランダム帯域検出部12は、その部分区間列に含まれる、部分区間の番号の並びのパターンである複数の順列パターンのそれぞれの出現頻度を調べてもよい。そして位相ランダム帯域検出部12は、順列パターンごとの出現頻度が一様分布であれば、着目するサブ帯域に含まれる位相スペクトルはランダムであると判定する。
この場合、位相ランダム帯域検出部12は、位相の値が取り得る範囲[-π,π]をM等分して得られるM個の部分区間に、それぞれ、0〜(M-1)の番号を割り当てる。そして位相ランダム帯域検出部12は、着目するサブ帯域に含まれる各周波数の位相が含まれる部分区間の番号を、例えば、周波数の低い方から順に並べることで部分区間列を生成する。例えば、周波数が低い方から順に、各周波数の位相スペクトルの値が、それぞれ、1番目、0番目、2番目、1番目、2番目、0番目の部分区間に含まれる場合、部分区間列は[1,0,2,1,2,0]となる。
また、複数の順列パターンは、それぞれ、部分区間列よりも少ない複数の要素を持ち、各要素は、部分区間の番号を表す。例えば、3個の要素を持つ順列パターンは、[0,1,2]、[1,1,0]のように定められる。なお、順列パターンは、予め定められ、例えば、位相ランダム帯域検出部12が有するメモリに予め記憶される。
位相ランダム帯域検出部12は、着目するサブ帯域について、部分区間列の先頭から順に、各順列パターンと一致するか否か判定する。そして位相ランダム帯域検出部12は、何れかの順列パターンと一致する部分があると、その順列パターンj(j=0,1,...,J-1、ただしJは順列パターンの総数)についての出現頻度p2(j)に1を加算する。これにより、位相ランダム帯域検出部12は、順列パターンごとの出現頻度p2(j)(j=0,1,...,J-1)を求める。
この例でも、位相ランダム帯域検出部12は、着目するサブ帯域について、各順列パターンの出現頻度p2(j)が一様分布である場合、そのサブ帯域に含まれる位相スペクトルはランダムであると判定する。また、上記の実施形態と同様に、位相ランダム帯域検出部12は、各順列パターンの出現頻度p2(j)が所定の閾値未満の場合、あるいは、χ二乗検定などで得られた適合度が所定の閾値以上である場合に、出現頻度p2(j)は一様分布であると判定する。
あるいはまた、位相ランダム帯域検出部12は、着目するサブ帯域に含まれる各周波数の位相スペクトルの値を所定の順序で並べた位相スペクトル列ψ(j)(j=0,1,...,N-1、ただし、Nはサブ帯域に含まれる周波数の総数)を作成する。なお、所定の順序は、例えば、周波数の低い方から、あるいは高い方からの順序とすることができる。そして位相ランダム帯域検出部12は、次式に従って算出した位相スペクトル列の自己相関列R(i)(i=0,1,2,...,N-1)がインパルスとなる場合、着目するサブ帯域の位相スペクトルはランダムであると判定してもよい。
Figure 2016035501
なお、i=0あるいはNの整数倍である場合のみ自己相関列R(i)が所定の閾値(例えば、0.1〜0.9)を超える場合、位相ランダム帯域検出部12は、自己相関列R(i)はインパルスであると判定できる。
なお、位相ランダム帯域検出部12は、上記の複数の判定方法のうち、2以上の判定方法において位相スペクトルがランダムであると判定する基準が満たされたサブ帯域について、位相スペクトルがランダムであると判定してもよい。
位相ランダム帯域検出部12は、位相スペクトルがランダムとなるサブ帯域を表す情報、例えば、そのサブ帯域の上限と下限の周波数、またはサブ帯域ごとに割り当てられる番号を概形情報抽出部13及びランダム成分除去部14へ通知する。以下では、位相スペクトルがランダムとなるサブ帯域を、便宜上、雑音帯域と呼ぶ。
概形情報抽出部13は、フレームごとに、雑音帯域について、周波数信号の振幅成分である振幅スペクトルの概形形状を表す情報である概形情報を抽出する。
本実施形態では、概形情報抽出部13は、雑音帯域に含まれる各周波数の振幅スペクトルを最小二乗法あるいは回帰分析を用いて2次関数で近似する。例えば、その近似に用いる2次関数A(ω)がaω2+bω+cで表される場合、次式に従って、その2次関数A(ω)を表すパラメータである各次数の係数a,b,cは、次式に従って算出される。
Figure 2016035501
ここで、ωi(i=0,1,...,N-1)は、雑音帯域に含まれる周波数を表し、Aiは、周波数ωiにおける振幅スペクトルを表す。またNは、雑音帯域に含まれる周波数の総数を表す。
概形情報抽出部13は、雑音帯域ごとに、パラメータa,b,cを求め、そのパラメータを概形情報として、雑音帯域を表す情報とともに結合部16へ出力する。
あるいは、概形情報抽出部13は、雑音帯域が複数存在する場合、雑音帯域ごとに、(2)式に従ってパラメータa,b,cを求めてもよい。あるいはまた、概形情報抽出部13は、複数の雑音帯域を、互いに隣接する雑音帯域の組ごとにグループ化し、グループごとに(2)式に従ってパラメータa,b,cを求めてもよい。
また、概形情報抽出部13は、雑音帯域に含まれる各周波数の振幅スペクトルを、2次関数以外の関数、例えば、1次関数あるいは3次関数で近似し、その近似に用いた関数を表すパラメータを概形情報として結合部16へ出力してもよい。
ランダム成分除去部14は、フレームごとに、音声信号の周波数信号から、雑音帯域に含まれる周波数信号を符号化対象から除く。本実施形態では、ランダム成分除去部14は、雑音帯域に含まれる各周波数の振幅スペクトルを0に置換することで補正周波数信号を生成する。そしてランダム成分除去部14は、置換後の全周波数帯域の補正周波数信号を符号化部15へ出力する。
あるいは、ランダム成分除去部14は、雑音帯域を表す情報を、全周波数帯域の周波数信号とともに符号化部15へ出力してもよい。あるいはまた、ランダム成分除去部14は、全周波数帯域の周波数信号から雑音帯域の周波数信号を除いた残りの周波数信号を、雑音帯域を表す情報とともに符号化部15へ出力してもよい。
符号化部15は、フレームごとに、雑音帯域以外の周波数帯域に含まれる周波数信号を、データ量が減るように、所定の符号化方式に従って高能率符号化することにより、雑音帯域以外の周波数帯域についての符号化された音声信号を得る。なお、雑音帯域以外の周波数帯域に含まれる周波数信号は、音声信号中のトーン成分を含むと推定される。また、所定の符号化方式として、符号化部15は、例えば、CELP、NELP、あるいはAdvanced Audio Coding(AAC)を用いることができる。
符号化部15は、符号化された音声信号を結合部16へ出力する。
結合部16は、フレームごとに、符号化された音声信号に、概形情報を所定の順序で結合することで符号化された音声信号を含むデータストリームを作成し、そのデータストリームを出力する。
図5は、符号化された音声信号が格納されたデータ形式の一例を示す図である。図5に示されるデータストリーム500において、フレームごとに、データブロック501と、データブロック502が設けられる。データブロック501には、符号化部15により生成された符号化された音声信号が含まれる。データブロック502には、概形情報抽出部13により抽出された概形情報及び雑音帯域を表す情報が含まれる。なお、結合部16は、概形情報及び雑音帯域を表す情報をエントロピー符号化してからデータブロック502に格納してもよい。
また結合部16は、他のデータ形式に従って、データストリームを作成してもよい。
図6は、音声符号化処理の動作フローチャートである。音声符号化装置1は、フレームごとに、この動作フローチャートに従って音声信号を符号化する。
時間周波数変換部11は、音声信号をフレーム単位で周波数信号に変換する(ステップ101)。時間周波数変換部11は、周波数信号を位相ランダム帯域検出部12及びランダム成分除去部14へ出力する。
位相ランダム帯域検出部12は、サブ帯域ごとに、位相スペクトルがランダムか否か判定し、位相スペクトルがランダムなサブ帯域を雑音帯域として検出する(ステップS102)。そして位相ランダム帯域検出部12は、雑音帯域を表す情報を概形情報抽出部13及びランダム成分除去部14へ出力する。
概形情報抽出部13は、雑音帯域に含まれる各周波数の振幅スペクトルの概形情報を抽出する(ステップS103)。そして概形情報抽出部13は、その概形情報を結合部16へ出力する。一方、ランダム成分除去部14は、雑音帯域を符号化対象の周波数帯域から除く(ステップS104)。そして符号化部15は、雑音帯域以外の周波数帯域の周波数信号を符号化することで、符号化された音声信号を得る(ステップS105)。符号化部15は、符号化された音声信号を結合部16へ出力する。
結合部16は、符号化された音声信号に概形情報及び雑音帯域を示す情報を所定の順序で結合することで符号化された音声信号を含むデータストリームを作成する(ステップS106)。そして音声符号化装置1は、音声符号化処理を終了する。
なお、ステップS103の処理と、ステップS104及びS105の処理は並列に実行されてもよく、あるいは、ステップS103の処理と、ステップS104及びS105の処理の順序は入れ換えられてもよい。
次に、音声復号装置について説明する。この音声復号装置は、雑音帯域については、雑音帯域にわたって位相スペクトルがランダムとなり、かつ、振幅スペクトルが概形情報で表される概形形状となる周波数信号を、雑音帯域の周波数信号を疑似的に表す疑似周波数信号として求める。そしてこの音声復号装置は、雑音帯域の疑似周波数信号を、符号化された音声信号を復号して得られるその他の周波数帯域の周波数信号と合成することで、音声信号を復号する。
例えば、図7において、位相スペクトルがランダムな信号701のうち、雑音帯域fBに含まれる部分について、振幅スペクトルの概形形状が概形情報A(ω)で表される形状に整形されることで疑似周波数信号702が得られる。一方、符号化音声信号が復号されることで雑音帯域fB以外の周波数帯域の周波数信号703が得られる。そして周波数信号702と周波数信号703とが合成されることで、全周波数帯域の周波数信号704が再生される。
図8は、音声復号装置の概略構成図である。音声復号装置2は、分離部21と、復号部22と、雑音成分生成部23と、合成部24と、周波数時間変換部25とを有する。
分離部21は、符号化された音声信号を含むデータストリームから、そのデータ形式にしたがって、フレームごとに、符号化された音声信号と、概形情報及び雑音帯域を表す情報を取り出す。そして分離部21は、フレームごとに、符号化された音声信号及び雑音帯域を表す情報を復号部22へ出力し、一方、概形情報及び雑音帯域を表す情報を雑音成分生成部23へ出力する。
復号部22は、フレームごとに、符号化された音声信号を復号して、概形情報が作成されていない、雑音帯域以外の周波数帯域に含まれる周波数信号を再生する。その際、復号部22は、音声符号化装置1の符号化部15による符号化処理に対応する復号処理を、符号化された音声信号に対して実行する。再生された周波数信号は、トーン成分を含む。そして復号部22は、再生した周波数信号を合成部24へ出力する。
雑音成分生成部23は、フレームごとに、概形情報が作成された周波数帯域である雑音帯域について、位相スペクトルがランダムで振幅スペクトルが概形情報で表される形状となる疑似周波数信号を生成する。この疑似周波数信号は、元の音声信号に含まれる雑音成分を疑似的に表す。そのために、雑音成分生成部23は、例えば、雑音帯域内の周波数ごとに、乱数発生器を用いて発生させた乱数に基づいて位相スペクトルの値を決定することで、位相スペクトルがランダムとなるランダム信号を生成する。そして雑音成分生成部23は、そのランダム信号の振幅スペクトルを、概形情報に含まれるパラメータで表される、振幅スペクトルの概形を表す関数に従って決定することで、疑似周波数信号を生成する。
雑音成分生成部23は、生成した疑似周波数信号を合成部24へ出力する。
合成部24は、フレームごとに、符号化された音声信号から再生された、雑音帯域以外の周波数帯域に含まれる周波数信号と、雑音帯域の疑似周波数信号を合成することで、周波数帯域全体の周波数信号を再生する。そして合成部24は、周波数帯域全体の周波数信号を周波数時間変換部25へ出力する。
周波数時間変換部25は、フレームごとに、全周波数帯域の周波数信号を周波数時間変換することにより、時間領域の音声信号を再生する。そして音声復号装置2は、再生した音声信号を、例えば、デジタル/アナログ変換器(以下、D/A変換器と呼ぶ)(図示せず)を介してスピーカ(図示せず)へ出力する。
図9は、音声復号装置2により実行される音声復号処理の動作フローチャートである。音声復号装置2は、フレームごとに、下記の動作フローチャートに従って音声信号を再生する。
分離部21は、符号化された音声信号を含むデータストリームから、符号化された音声信号と、概形情報及び雑音帯域を表す情報を取り出す(ステップS201)。そして分離部21は、符号化された音声信号及び雑音帯域を表す情報を復号部22へ出力し、一方、概形情報及び雑音帯域を表す情報を雑音成分生成部23へ出力する。
復号部22は、符号化された音声信号を復号して、雑音帯域以外の周波数帯域の周波数信号を再生する(ステップS202)。そして復号部22は、再生した周波数信号を合成部24へ出力する。一方、雑音成分生成部23は、雑音帯域について、位相スペクトルがランダムで振幅スペクトルが概形情報で表される概形形状となる疑似周波数信号を生成する(ステップS203)。そして雑音成分生成部23は、雑音帯域の疑似周波数信号を合成部24へ出力する。
合成部24は、雑音帯域以外の周波数帯域の周波数信号と雑音帯域の疑似周波数信号を合成することで、周波数帯域全体の周波数信号を生成する(ステップS204)。そして合成部24は、周波数帯域全体の周波数信号を周波数時間変換部25へ出力する。
周波数時間変換部25は、周波数帯域全体の周波数信号を周波数時間変換して時間領域の音声信号を再生する(ステップS205)。音声復号装置2は、例えば、その音声信号をD/A変換器を介してスピーカへ出力する。そして音声復号装置2は、音声復号処理を終了する。
なお、音声復号装置2は、ステップS202の処理とステップS203の処理を並列に実行してもよい。あるいは、音声復号装置2は、ステップS202の処理の順序とステップS203の処理の順序を入れ替えてもよい。
以上に説明してきたように、位相スペクトルがランダムな周波数帯域は、雑音成分を含んでいると推定され、一方、位相スペクトルがランダムでない周波数帯域は、トーン成分を含んでいると推定される。そこでこの音声符号化装置は、位相スペクトルがランダムな周波数帯域については、周波数信号を符号化せず、振幅スペクトルの概形情報を求めて符号化音声信号にその概形情報を付加する。そのため、符号化対象となる音声信号にトーン成分と雑音成分の両方が含まれていても、音声復号装置は、符号化された音声信号を復号して得られる再生音声信号において、トーン成分と雑音成分の両方を再現することが可能となる。したがって、この音声符号化装置及び音声復号装置は、トーン成分と雑音成分が混在する音声信号についての再生音質を向上できる。またこの音声符号化装置は、位相スペクトルがランダムな周波数帯域については振幅スペクトルの概形情報だけを符号化音声信号に含めているので、符号量を抑制することができる。したがって、この音声符号化装置は、トーン成分と雑音成分が混在する音声信号の符号化レートを低レート化できる。
なお、変形例によれば、音声符号化装置1の位相ランダム帯域検出部12は、サブ帯域ごとに、位相スペクトル列をバイナリ列に変換し、そのバイナリ列に基づいて、サブ帯域に含まれる位相スペクトルがランダムか否かを判定してもよい。
この場合、位相ランダム帯域検出部12は、例えば、着目するサブ帯域に含まれる各周波数について、位相スペクトルの値が所定値(例えば、0)以上であれば'0'、所定値未満であれば'1'とすることで、バイナリ列を生成する。あるいは、位相ランダム帯域検出部12は、着目するサブ帯域に含まれる各周波数の位相スペクトルの値をビット列で表し、そのビット列を所定の順序(例えば、周波数が低い方から順に)連結することで、バイナリ列を生成してもよい。あるいはまた、位相ランダム帯域検出部12は、着目するサブ帯域に含まれる各周波数の位相スペクトルの値を所定の順序で並べた位相スペクトル列をΔΣ変調することでバイナリ列を生成してもよい。この場合、例えば、位相ランダム帯域検出部12は、位相スペクトル列に含まれる着目する位相値から、一つ前の位相値について得られた量子化値(この場合、'0'または'1')を減じて得られる値を、'0'か'1'に量子化することで、バイナリ列が得られる。
位相ランダム帯域検出部12は、バイナリ列が得られると、そのバイナリ列に基づいて、位相スペクトルがランダムか否かを判定する。
例えば、位相ランダム帯域検出部12は、バイナリ列b(i)(i=0,1,...,N-1、ただし、Nは、バイナリ列に含まれるビットの総数)に含まれる、'0'の値を持つビットの出現頻度p3(0)と'1'の値を持つビットの出現頻度p3(1)を求める。そして位相ランダム帯域検出部12は、それぞれの値を持つビットの出現頻度の差の絶対値|p3(0)-p3(1)|を、Nで割って得られた値が所定の閾値(例えば、0.05)未満である場合、位相スペクトルがランダムであると判定する。
あるいは、位相ランダム帯域検出部12は、予め定められた複数のビットパターンのそれぞれについて、バイナリ列b(i)中でそのビットパターンと一致する部分の数を、そのビットパターンの出現頻度p4(k) として求める。ただし、k=0,1,...,Q-1であり、Qは、ビットパターンの総数である。なお、個々のビットパターンは、2以上のビット長を有し、かつ、バイナリ列b(i)よりも短い。すなわち、ビットパターンの長さをMとすると、M<N、好ましくは、100M<Nあるいは1000M<Nとなる。例えば、M=3である場合、ビットパターンは[010]あるいは[110]といったパターンとなる。また個々のビットパターンは、例えば、位相ランダム帯域検出部12が有するメモリに予め記憶される。
位相ランダム帯域検出部12は、各ビットパターンの出現頻度p4(k)が一様分布となる場合、位相スペクトルはランダムであると判定する。なお、出現頻度p4(k)が一様分布となるか否かの判定は、例えば、上記の実施形態における位相スペクトル列が一様分布となるか否かの判定と同様の処理によって行われる。すなわち、位相ランダム帯域検出部12は、各ビットパターンの出現頻度p4(k)が所定の閾値未満の場合、あるいは、χ二乗検定などで得られた適合度が所定の閾値以上である場合に、出現頻度p4(k)は一様分布であると判定する。
あるいはまた、位相ランダム帯域検出部12は、バイナリ列b(i)に含まれる、同じ値を持つビットが連続する数であるランレングスごとの出現頻度p5(j)(j=1,2,..,L、ただしLはランレングス)を求める。そして位相ランダム帯域検出部12は、ランレングスごとに、出現頻度p5(j)が、そのランレングスについて予め設定された値の範囲に含まれるか否か判定する。
図10は、ランレングスごとの出現頻度の値の範囲を示すテーブルの一例を示す。このテーブル1000において、左側の列はランレングス、すなわち、同じ値を持つビットが連続する数を表す。一方、右側の列は、バイナリ列b(i)の長さが20000ビット(N=20000)である場合における左側の列に示されるランレングスに対応する、出現頻度の値の範囲を表す。例えば、ランレングスが1である場合、p5(1)に対する値の範囲は、2315≦p5(1)≦2685である。なお、Nが20000でない場合、各ランレングスに対する出現頻度の値の範囲は、テーブル1000に示されたその出現頻度の上限値と下限値に、N/20000を乗じた値とすることができる。
位相ランダム帯域検出部12は、各ランレングスについて、出現頻度p5(j)が所定の値の範囲に含まれる場合、位相スペクトルはランダムであると判定する。一方、位相ランダム帯域検出部12は、何れか一つのランレングスでも、出現頻度p5(j)が所定の値の範囲から外れる場合、位相スペクトルはランダムでないと判定する。
さらにまた、位相ランダム帯域検出部12は、バイナリ列b(i)の線形複雑度を算出してもよい。なお、線形複雑度は、バイナリ列を生成する最小の線形フィードバックレジスタの大きさを表す指標である。そして位相ランダム帯域検出部12は、その線形複雑度が所定の閾値よりも大きい場合、位相スペクトルはランダムであると判定し、線形複雑度が所定の閾値以下の場合、位相スペクトルはランダムでないと判定してもよい。この場合、位相ランダム帯域検出部12は、例えば、バイナリ列b(i)に対して、Berlekamp Masseyアルゴリズムを適用することにより算出される。例えば、バイナリ列b(i)の長さが512ビット(N=512)である場合、所定の閾値は8に設定される。あるいは、位相ランダム帯域検出部12は、線形複雑度に対してχ二乗検定を適用して得られる適合度が所定の閾値よりも大きい場合に、位相スペクトルはランダムであると判定してもよい。
この変形例によれば、位相ランダム帯域検出部12は、2種類の値の何れかしか含まれないバイナリ列に基づいてサブ帯域に含まれる位相スペクトルがランダムか否かを判定するので、その判定に要する演算量を削減できる。
また他の変形例によれば、音声符号化装置1の位相ランダム帯域検出部12は、サブ帯域ごとに、位相スペクトルのランダム性だけでなく、振幅スペクトルのトーン性が有るか否かも判定してもよい。この場合、位相ランダム帯域検出部12は、トーン性が無いサブ帯域のみ、概形形状の抽出対象としてもよい。
この場合、位相ランダム帯域検出部12は、例えば、サブ帯域ごとに、そのサブ帯域に含まれる各周波数のパワーの平坦度(Spectral Flatness Measure, SFM)を次式に従って算出する。そして位相ランダム帯域検出部12は、その平坦度SFMが所定の閾値以下である場合、そのサブ帯域の振幅スペクトルはトーン性を有し、一方、その平坦度SFMが所定の閾値より大きい場合、そのサブ帯域の振幅スペクトルはトーン性を有さないと判定する。
Figure 2016035501
ここで、A(i)は、周波数iの振幅スペクトルを表し、e(i)は、振幅スペクトルの包絡線を表す。なお、e(i)は、包絡線の代わりに、概形情報抽出部13により得られる概形情報で表される、近似関数としてもよい。また、所定の閾値は、例えば、0.005とすることができる。
あるいは、位相ランダム帯域検出部12は、サブ帯域内の各周波数の振幅スペクトルの平均値に対する振幅スペクトルの最大値の比が所定値よりも大きい場合に、そのサブ帯域の振幅スペクトルはトーン性を有すると判定してもよい。一方、その比が所定値以下の場合、位相ランダム帯域検出部12は、そのサブ帯域の振幅スペクトルはトーン性を有さないと判定してもよい。この場合、所定値は、例えば、2とすることができる。
なお、この変形例でも、位相ランダム帯域検出部12は、上記の実施形態または変形例に従って、サブ帯域に含まれる位相スペクトルがランダムか否かを判定すればよい。そして位相ランダム帯域検出部12は、位相スペクトルがランダムであり、かつ、振幅スペクトルがトーン性を有さないサブ帯域を特定し、そのサブ帯域を雑音帯域として、概形情報抽出部13及びランダム成分除去部14へ通知すればよい。
図11は、この変形例による位相ランダム帯域検出処理の動作フローチャートである。このランダム成分分析処理は、図6に示された音声符号化処理の動作フローチャートにおける、ステップS102の処理の代わりに実行される。
位相ランダム帯域検出部12は、着目するサブ帯域に設定されていないサブ帯域の中から着目するサブ帯域を設定する(ステップS301)。そして位相ランダム帯域検出部12は、着目するサブ帯域の振幅スペクトルがトーン性を有するか否か判定する(ステップS302)。着目するサブ帯域の振幅スペクトルがトーン性を有する場合(ステップS302−Yes)、位相ランダム帯域検出部12は、着目するサブ帯域を概形情報を抽出しないサブ帯域に設定する(ステップS303)。一方、着目するサブ帯域の振幅スペクトルがトーン性を有さない場合(ステップS302−No)、位相ランダム帯域検出部12は、着目するサブ帯域の位相スペクトルがランダムか否かを判定する(ステップS304)。着目するサブ帯域の位相スペクトルがランダムでない場合(ステップS304−No)、位相ランダム帯域検出部12は、着目するサブ帯域を概形情報を抽出しないサブ帯域に設定する(ステップS303)。一方、着目するサブ帯域の位相スペクトルがランダムである場合(ステップS304−Yes)、位相ランダム帯域検出部12は、着目するサブ帯域を概形情報を抽出するサブ帯域に設定する(ステップS305)。
ステップS303またはS305の後、位相ランダム帯域検出部12は、未着目のサブ帯域が残っているか否か判定する(ステップS306)。未着目のサブ帯域が残っていれば(ステップS306−Yes)、位相ランダム帯域検出部12は、ステップS301以降の処理を繰り返す。一方、未着目のサブ帯域がなければ(ステップS306−No)、位相ランダム帯域検出部12は、概形情報を抽出するサブ帯域を雑音帯域として、その雑音帯域を表す情報を概形情報抽出部13及びランダム成分除去部14へ通知する(ステップS307)。その後、位相ランダム帯域検出部12は、位相ランダム帯域検出処理を終了する。
この変形例によれば、音声符号化装置は、サブ帯域内の振幅スペクトルを、2次関数などの比較的簡単な関数を用いて表せる場合にのみ、そのサブ帯域を概形形状の抽出対象とすることができる。
さらにまた、他の変形例によれば、音声符号化装置1の概形情報抽出部13は、雑音帯域に含まれる各周波数の振幅スペクトルを対数変換してもよい。そして概形情報抽出部13は、その対数変換して得られた各周波数の振幅スペクトルの対数値に対して、上記の実施形態による概形情報の抽出処理と同様の処理を行って、振幅スペクトルの概形情報を抽出してもよい。これにより、概形情報抽出部13は、より低次数の関数を用いて振幅スペクトルの概形を表すことができる。
さらにまた、他の変形例によれば、音声符号化装置1の概形情報抽出部13は、雑音帯域の振幅スペクトルに基づいて、概形情報を表す関数を切り替えてもよい。これにより、概形情報抽出部13は、雑音帯域内の振幅スペクトルの概形形状が比較的シンプルな場合に、概形形状を表す関数を低次数化して、その関数を表すパラメータ数を削減できるので、符号化された音声信号をより低レート化できる。一方、概形情報抽出部13は、雑音帯域内の振幅スペクトルの概形形状が比較的複雑な場合に、概形形状を表す関数を高次数化して、概形形状を正確に再現することを可能にできる。
例えば、概形情報抽出部13は、雑音帯域について、振幅と周波数の相関係数Cを次式に従って算出する。
Figure 2016035501
ここでω(i)は、雑音帯域に含まれる周波数を表し、A(i)は、周波数ω(i)における振幅スペクトルを表す。そしてNは、雑音帯域に含まれる、振幅スペクトルが算出された周波数の総数を表す。またωavgは、雑音帯域に含まれる周波数の平均値を表し、Aavgは、雑音帯域に含まれる各周波数の振幅スペクトルの平均値を表す。なお、概形情報抽出部13は、相関係数の算出式として、他の算出式を用いてもよい。
概形情報抽出部13は、相関係数Cが所定値(例えば、0.8)を超える場合、振幅スペクトルの概形形状を表す関数として1次関数を用い、一方、相関係数Cが所定値以下となる場合、振幅スペクトルの概形形状を表す関数として2次関数を用いる。
この変形例では、概形情報抽出部13は、雑音帯域ごとに、概形形状を表す関数の種別を表すフラグを結合部16へ通知する。そして結合部16は、データストリーム中の雑音帯域を表す情報及び概形情報が格納されるデータブロックに、そのフラグを含める。
上記の実施形態または変形例による音声符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。同様に、上記の実施形態または変形例による音声復号装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。
また、上記の実施形態または変形例による音声符号化装置は、監視カメラ、コンピュータ、ビデオ信号の録画機または映像伝送装置など、音声信号を伝送または記録するために利用される各種の機器に実装される。さらに、上記の実施形態または変形例による音声復号装置は、監視システムのモニタ装置、コンピュータ、ビデオ信号の再生機など、音声信号を再生するために利用される各種の機器に実装される。
図12は、上記の何れかの実施形態または変形例による音声符号化装置または音声復号装置として動作するコンピュータの構成図である。
コンピュータ100は、ユーザインターフェース部101と、通信インターフェース部102と、記憶部103と、記憶媒体アクセス装置104と、プロセッサ105と、オーディオインターフェース部106とを有する。プロセッサ105は、ユーザインターフェース部101、通信インターフェース部102、記憶部103、記憶媒体アクセス装置104及びオーディオインターフェース部106と、例えば、バスを介して接続される。
ユーザインターフェース部101は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部101は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部101は、例えば、ユーザの操作に応じて、符号化または復号する音声信号を選択する操作信号をプロセッサ105へ出力する。
通信インターフェース部102は、コンピュータ100を、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして通信インターフェース部102は、例えば、符号化された音声信号を含むデータストリームを他の機器へ送信する。あるいは、通信インターフェース部102は、例えば、符号化された音声信号を含むデータストリームを他の機器から受信する。
記憶部103は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部103は、プロセッサ105上で実行される、音声符号化処理または音声復号処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。
記憶媒体アクセス装置104は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体109にアクセスする装置である。記憶媒体アクセス装置104は、例えば、記憶媒体109に記憶されたプロセッサ105上で実行される、音声符号化処理または音声復号処理用のコンピュータプログラムを読み込み、プロセッサ105に渡す。
プロセッサ105は、上記の実施形態または変形例による音声符号化装置の各部の処理を実現するコンピュータを実行する。これにより、プロセッサ105は、マイクロホン107からA/D変換器(図示せず)及びオーディオインターフェース部106を介して取得した音声信号を符号化する。そしてプロセッサ105は、符号化された音声信号を含むデータストリームを生成する。あるいは、プロセッサ105は、上記の実施形態または変形例による音声復号装置の各部の処理を実現するコンピュータプログラムを実行することにより、符号化された音声信号を復号する。そしてプロセッサ105は、復号された音声信号をオーディオインターフェース部106及びD/A変換器(図示せず)を介してスピーカ108へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記音声信号を周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記周波数信号の位相成分がランダムとなる第1の周波数帯域を検出する位相ランダム帯域検出部と、
前記フレームごとに、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分の概形を表す概形情報を求める概形情報抽出部と、
前記フレームごとに、前記第1の周波数帯域以外の周波数帯域に含まれる前記周波数信号を符号化する符号化部と、
前記符号化された前記周波数信号と前記概形情報とを含むデータストリームを生成する結合部と、
を有する音声符号化装置。
(付記2)
前記位相ランダム帯域検出部は、前記周波数信号の振幅成分がトーン成分を有さず、かつ、前記周波数信号の位相成分がランダムとなる周波数帯域を前記第1の周波数帯域とする、付記1に記載の音声符号化装置。
(付記3)
前記位相ランダム帯域検出部は、前記第1の周波数帯域に含まれる各周波数のパワーの平坦度が所定の閾値より大きい場合、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分はトーン成分を有さないと判定する、付記2に記載の音声符号化装置。
(付記4)
前記位相ランダム帯域検出部は、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分の平均値に対する前記周波数信号の振幅成分の最大値の比が所定値以下の場合に、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分はトーン成分を有さないと判定する、付記2に記載の音声符号化装置。
(付記5)
前記位相ランダム帯域検出部は、前記周波数信号が含まれる周波数帯域全体を複数のサブ帯域に分割し、前記複数のサブ帯域のそれぞれごとに、当該サブ帯域に含まれる前記周波数信号の前記位相成分がランダムである場合、当該サブ帯域を前記第1の周波数帯域とする、付記1または2に記載の音声符号化装置。
(付記6)
前記位相ランダム帯域検出部は、前記位相成分の値の取り得る範囲を複数の部分区間に分割し、前記複数のサブ帯域のうちの何れかのサブ帯域について、当該サブ帯域に含まれる複数の周波数のそれぞれについて、前記周波数信号の前記位相成分の値が含まれる部分区間を特定して前記複数の部分区間のそれぞれごとに前記位相成分の値が含まれる数である出現頻度を求め、前記複数の部分区間のそれぞれの前記出現頻度が一様分布になる場合に当該サブ帯域に含まれる前記周波数信号の前記位相成分がランダムであると判定する、付記5に記載の音声符号化装置。
(付記7)
前記位相ランダム帯域検出部は、前記位相成分の値の取り得る範囲を複数の部分区間に分割し、かつ、前記複数の部分区間のそれぞれに異なる番号を割り当て、前記複数のサブ帯域のうちの何れかのサブ帯域について、当該サブ帯域に含まれる複数の周波数のそれぞれの前記周波数信号の前記位相成分の値が含まれる前記部分区間の番号を特定して、当該特定された番号を所定の順序で並べた部分区間列を作成し、当該部分区間列において、前記複数の部分区間の何れかに割り当てられた番号を所定数並べた複数のパターンのそれぞれごとに出現頻度を求め、前記複数のパターンのそれぞれの前記出現頻度が一様分布となる場合に当該サブ帯域に含まれる前記周波数信号の前記位相成分がランダムであると判定する、付記5に記載の音声符号化装置。
(付記8)
前記位相ランダム帯域検出部は、前記複数のサブ帯域のうちの何れかのサブ帯域について、当該サブ帯域に含まれる複数の周波数のそれぞれの前記周波数信号の前記位相成分の値を所定の順序で並べた位相スペクトル列を作成し、当該位相スペクトル列の自己相関関数がインパルスとなる場合、当該サブ帯域に含まれる前記周波数信号の前記位相成分がランダムであると判定する、付記5に記載の音声符号化装置。
(付記9)
前記位相ランダム帯域検出部は、前記複数のサブ帯域のうちの何れかのサブ帯域について、当該サブ帯域に含まれる複数の周波数のそれぞれの前記周波数信号の前記位相成分の値を所定の順序で並べた位相スペクトル列をバイナリ列に変換し、当該バイナリ列が所定の条件を満たす場合に当該サブ帯域に含まれる前記周波数信号の前記位相成分がランダムであると判定する、付記5に記載の音声符号化装置。
(付記10)
前記位相ランダム帯域検出部は、前記バイナリ列において第1の値を持つビットの出現頻度と前記第1の値と異なる第2の値を持つビットの出現頻度の差の絶対値が所定値以内である場合、前記バイナリ列が前記所定の条件を満たすと判定する、付記9に記載の音声符号化装置。
(付記11)
前記位相ランダム帯域検出部は、所定長を持つ複数のビットパターンのそれぞれについて、前記バイナリ列における出現頻度を求め、前記複数のビットパターンのそれぞれの出現頻度が一様分布となる場合、前記バイナリ列が前記所定の条件を満たすと判定する、付記9に記載の音声符号化装置。
(付記12)
前記位相ランダム帯域検出部は、前記バイナリ列に含まれる、所定の値を持つビットについてのランレングスごとの出現頻度を求め、前記ランレングスごとに、当該ランレングスの出現頻度が、当該ランレングスについて定められた所定の範囲内に含まれる場合、前記バイナリ列が前記所定の条件を満たすと判定する、付記9に記載の音声符号化装置。
(付記13)
前記位相ランダム帯域検出部は、前記バイナリ列の線形複雑度を求め、当該線形複雑度が所定値よりも大きい場合に前記バイナリ列が前記所定の条件を満たすと判定する、付記9に記載の音声符号化装置。
(付記14)
前記概形情報抽出部は、前記第1の周波数帯域に含まれる複数の周波数のそれぞれの前記周波数信号の前記振幅成分を所定の関数で近似し、該所定の関数を表すパラメータを前記概形情報とする、付記1〜13の何れか一項に記載の音声符号化装置。
(付記15)
前記概形情報抽出部は、前記第1の周波数帯域に含まれる複数の周波数のそれぞれの前記周波数信号の前記振幅成分と周波数との自己相関値を求め、前記自己相関値が所定の相関値を超える場合、第1の次数の関数を前記所定の関数とし、前記自己相関値が前記所定の相関値未満である場合、前記第1の次数よりも高い第2の次数の関数を前記所定の関数とする、付記14に記載の音声符号化装置。
(付記16)
前記第1の周波数帯域に含まれる複数の周波数のそれぞれの前記周波数信号の振幅成分を0にすることで補正周波数信号を生成するランダム成分除去部をさらに有し、
前記符号化部は、前記補正周波数信号を符号化して前記符号化された前記周波数信号を生成する、付記1〜15の何れか一項に記載の音声符号化装置。
(付記17)
所定の時間長を持つフレームごとに、音声信号を時間周波数変換して得られる周波数信号のうちの第1の周波数帯域に含まれる複数の周波数の周波数信号の振幅成分の概形を表す概形情報と、前記第1の周波数帯域以外の第2の周波数帯域に含まれる符号化された前記周波数信号とを含むデータストリームから、前記概形情報及び前記符号化された前記周波数信号を取り出す分離部と、
前記符号化された前記周波数信号を復号して前記第2の周波数帯域に含まれる周波数信号を復号する復号部と、
前記第1の周波数帯域について位相成分がランダムで、かつ、振幅成分が前記概形情報で表される前記第1の周波数帯域の周波数信号を生成する雑音成分生成部と、
前記第1の周波数帯域に含まれる前記周波数信号と前記第2の周波数帯域に含まれる前記周波数信号を合成する合成部と、
前記合成された周波数信号を周波数時間変換して音声信号を再生する周波数時間変換部と、
を有する音声復号装置。
(付記18)
音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記音声信号を周波数信号に変換し、
前記フレームごとに、前記周波数信号の位相成分がランダムとなる第1の周波数帯域を検出し、
前記フレームごとに、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分の概形を表す概形情報を求め、
前記フレームごとに、前記第1の周波数帯域以外の周波数帯域に含まれる前記周波数信号を符号化し、
前記符号化された前記周波数信号と前記概形情報とを含むデータストリームを生成する、
ことを含む音声符号化方法。
(付記19)
音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記音声信号を周波数信号に変換し、
前記フレームごとに、前記周波数信号の位相成分がランダムとなる第1の周波数帯域を検出し、
前記フレームごとに、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分の概形を表す概形情報を求め、
前記フレームごとに、前記第1の周波数帯域以外の周波数帯域に含まれる前記周波数信号を符号化し、
前記符号化された前記周波数信号と前記概形情報とを含むデータストリームを生成する、
ことをコンピュータに実行させるための音声符号化用コンピュータプログラム。
(付記20)
所定の時間長を持つフレームごとに、音声信号を時間周波数変換して得られる周波数信号のうちの第1の周波数帯域に含まれる複数の周波数の周波数信号の振幅成分の概形を表す概形情報と、前記第1の周波数帯域以外の第2の周波数帯域に含まれる符号化された前記周波数信号とを含むデータストリームから、前記概形情報及び前記符号化された前記周波数信号を取り出し、
前記符号化された前記周波数信号を復号して前記第2の周波数帯域に含まれる周波数信号を復号し、
前記第1の周波数帯域について位相成分がランダムで、かつ、振幅成分が前記概形情報で表される前記第1の周波数帯域の周波数信号を生成し、
前記第1の周波数帯域に含まれる前記周波数信号と前記第2の周波数帯域に含まれる前記周波数信号を合成し、
前記合成された周波数信号を周波数時間変換して音声信号を再生する、
ことを含む音声復号方法。
(付記21)
所定の時間長を持つフレームごとに、音声信号を時間周波数変換して得られる周波数信号のうちの第1の周波数帯域に含まれる複数の周波数の周波数信号の振幅成分の概形を表す概形情報と、前記第1の周波数帯域以外の第2の周波数帯域に含まれる符号化された前記周波数信号とを含むデータストリームから、前記概形情報及び前記符号化された前記周波数信号を取り出し、
前記符号化された前記周波数信号を復号して前記第2の周波数帯域に含まれる周波数信号を復号し、
前記第1の周波数帯域について位相成分がランダムで、かつ、振幅成分が前記概形情報で表される前記第1の周波数帯域の周波数信号を生成し、
前記第1の周波数帯域に含まれる前記周波数信号と前記第2の周波数帯域に含まれる前記周波数信号を合成し、
前記合成された周波数信号を周波数時間変換して音声信号を再生する、
ことをコンピュータに実行させるための音声復号用コンピュータプログラム。
1 音声符号化装置
11 時間周波数変換部
12 位相ランダム帯域検出部
13 概形情報抽出部
14 ランダム成分除去部
15 符号化部
16 結合部
2 音声復号装置
21 分離部
22 復号部
23 雑音成分生成部
24 合成部
25 周波数時間変換部
100 コンピュータ
101 ユーザインターフェース部
102 通信インターフェース部
103 記憶部
104 記憶媒体アクセス装置
105 プロセッサ
106 オーディオインターフェース部
107 マイクロホン
108 スピーカ
109 記憶媒体

Claims (9)

  1. 音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記音声信号を周波数信号に変換する時間周波数変換部と、
    前記フレームごとに、前記周波数信号の位相成分がランダムとなる第1の周波数帯域を検出する位相ランダム帯域検出部と、
    前記フレームごとに、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分の概形を表す概形情報を求める概形情報抽出部と、
    前記フレームごとに、前記第1の周波数帯域以外の周波数帯域に含まれる前記周波数信号を符号化する符号化部と、
    前記符号化された前記周波数信号と前記概形情報とを含むデータストリームを生成する結合部と、
    を有する音声符号化装置。
  2. 前記位相ランダム帯域検出部は、前記周波数信号の振幅成分がトーン成分を有さず、かつ、前記周波数信号の位相成分がランダムとなる周波数帯域を前記第1の周波数帯域とする、請求項1に記載の音声符号化装置。
  3. 前記概形情報抽出部は、前記第1の周波数帯域に含まれる複数の周波数のそれぞれの前記周波数信号の前記振幅成分を所定の関数で近似し、該所定の関数を表すパラメータを前記概形情報とする、請求項1または2に記載の音声符号化装置。
  4. 前記第1の周波数帯域に含まれる複数の周波数のそれぞれの前記周波数信号の振幅成分を0にすることで補正周波数信号を生成するランダム成分除去部をさらに有し、
    前記符号化部は、前記補正周波数信号を符号化して前記符号化された前記周波数信号を生成する、請求項1〜3の何れか一項に記載の音声符号化装置。
  5. 所定の時間長を持つフレームごとに、音声信号を時間周波数変換して得られる周波数信号のうちの第1の周波数帯域に含まれる複数の周波数の周波数信号の振幅成分の概形を表す概形情報と、前記第1の周波数帯域以外の第2の周波数帯域に含まれる符号化された前記周波数信号とを含むデータストリームから、前記概形情報及び前記符号化された前記周波数信号を取り出す分離部と、
    前記符号化された前記周波数信号を復号して前記第2の周波数帯域に含まれる周波数信号を復号する復号部と、
    前記第1の周波数帯域について位相成分がランダムで、かつ、振幅成分が前記概形情報で表される前記第1の周波数帯域の周波数信号を生成する雑音成分生成部と、
    前記第1の周波数帯域に含まれる前記周波数信号と前記第2の周波数帯域に含まれる前記周波数信号を合成する合成部と、
    前記合成された周波数信号を周波数時間変換して音声信号を再生する周波数時間変換部と、
    を有する音声復号装置。
  6. 音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記音声信号を周波数信号に変換し、
    前記フレームごとに、前記周波数信号の位相成分がランダムとなる第1の周波数帯域を検出し、
    前記フレームごとに、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分の概形を表す概形情報を求め、
    前記フレームごとに、前記第1の周波数帯域以外の周波数帯域に含まれる前記周波数信号を符号化し、
    前記符号化された前記周波数信号と前記概形情報とを含むデータストリームを生成する、
    ことを含む音声符号化方法。
  7. 音声信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記音声信号を周波数信号に変換し、
    前記フレームごとに、前記周波数信号の位相成分がランダムとなる第1の周波数帯域を検出し、
    前記フレームごとに、前記第1の周波数帯域に含まれる前記周波数信号の振幅成分の概形を表す概形情報を求め、
    前記フレームごとに、前記第1の周波数帯域以外の周波数帯域に含まれる前記周波数信号を符号化し、
    前記符号化された前記周波数信号と前記概形情報とを含むデータストリームを生成する、
    ことをコンピュータに実行させるための音声符号化用コンピュータプログラム。
  8. 所定の時間長を持つフレームごとに、音声信号を時間周波数変換して得られる周波数信号のうちの第1の周波数帯域に含まれる複数の周波数の周波数信号の振幅成分の概形を表す概形情報と、前記第1の周波数帯域以外の第2の周波数帯域に含まれる符号化された前記周波数信号とを含むデータストリームから、前記概形情報及び前記符号化された前記周波数信号を取り出し、
    前記符号化された前記周波数信号を復号して前記第2の周波数帯域に含まれる周波数信号を復号し、
    前記第1の周波数帯域について位相成分がランダムで、かつ、振幅成分が前記概形情報で表される前記第1の周波数帯域の周波数信号を生成し、
    前記第1の周波数帯域に含まれる前記周波数信号と前記第2の周波数帯域に含まれる前記周波数信号を合成し、
    前記合成された周波数信号を周波数時間変換して音声信号を再生する、
    ことを含む音声復号方法。
  9. 所定の時間長を持つフレームごとに、音声信号を時間周波数変換して得られる周波数信号のうちの第1の周波数帯域に含まれる複数の周波数の周波数信号の振幅成分の概形を表す概形情報と、前記第1の周波数帯域以外の第2の周波数帯域に含まれる符号化された前記周波数信号とを含むデータストリームから、前記概形情報及び前記符号化された前記周波数信号を取り出し、
    前記符号化された前記周波数信号を復号して前記第2の周波数帯域に含まれる周波数信号を復号し、
    前記第1の周波数帯域について位相成分がランダムで、かつ、振幅成分が前記概形情報で表される前記第1の周波数帯域の周波数信号を生成し、
    前記第1の周波数帯域に含まれる前記周波数信号と前記第2の周波数帯域に含まれる前記周波数信号を合成し、
    前記合成された周波数信号を周波数時間変換して音声信号を再生する、
    ことをコンピュータに実行させるための音声復号用コンピュータプログラム。
JP2014157897A 2014-08-01 2014-08-01 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム Withdrawn JP2016035501A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014157897A JP2016035501A (ja) 2014-08-01 2014-08-01 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム
US14/751,714 US20160035365A1 (en) 2014-08-01 2015-06-26 Sound encoding device, sound encoding method, sound decoding device and sound decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014157897A JP2016035501A (ja) 2014-08-01 2014-08-01 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2016035501A true JP2016035501A (ja) 2016-03-17

Family

ID=55180678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014157897A Withdrawn JP2016035501A (ja) 2014-08-01 2014-08-01 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム

Country Status (2)

Country Link
US (1) US20160035365A1 (ja)
JP (1) JP2016035501A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
CN108133712B (zh) * 2016-11-30 2021-02-12 华为技术有限公司 一种处理音频数据的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3721003B2 (ja) * 1999-04-01 2005-11-30 沖電気工業株式会社 トーン信号検出方法及びトーン信号検出器
US8014468B2 (en) * 2004-12-15 2011-09-06 Microsoft Corporation Energy detection receiver for UWB
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
JP5651980B2 (ja) * 2010-03-31 2015-01-14 ソニー株式会社 復号装置、復号方法、およびプログラム

Also Published As

Publication number Publication date
US20160035365A1 (en) 2016-02-04

Similar Documents

Publication Publication Date Title
KR101747918B1 (ko) 고주파수 신호 복호화 방법 및 장치
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP5400059B2 (ja) オーディオ信号処理方法及び装置
JP4506039B2 (ja) 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP5975243B2 (ja) 符号化装置および方法、並びにプログラム
CN101518083B (zh) 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法和系统
JP4272897B2 (ja) 符号化装置、復号化装置およびその方法
KR20090083068A (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
CN101162584A (zh) 使用带宽扩展技术对音频信号编码和解码的方法和设备
CN103548080A (zh) 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
US9230551B2 (en) Audio encoder or decoder apparatus
US20100250260A1 (en) Encoder
KR20080082142A (ko) 노이즈 신호 부호화 및 복호화 장치 및 방법
US9830919B2 (en) Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method
JP3670217B2 (ja) 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
JP2016035501A (ja) 音声符号化装置、音声符号化方法、音声符号化用コンピュータプログラム、音声復号装置、音声復号方法及び音声復号用コンピュータプログラム
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
JP3297749B2 (ja) 符号化方法
KR20090013571A (ko) 변환 부호화 방법 및 장치
US20120123788A1 (en) Coding method, decoding method, and device and program using the methods
JP4574320B2 (ja) 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体
US20100280830A1 (en) Decoder
JP6713424B2 (ja) 音声復号装置、音声復号方法、プログラム、および記録媒体
JP2006047561A (ja) オーディオ信号符号化装置およびオーディオ信号復号化装置
KR20080034819A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170406

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20171225