JP2016118796A - 音声信号処理方法及び音声信号処理装置 - Google Patents
音声信号処理方法及び音声信号処理装置 Download PDFInfo
- Publication number
- JP2016118796A JP2016118796A JP2016016996A JP2016016996A JP2016118796A JP 2016118796 A JP2016118796 A JP 2016118796A JP 2016016996 A JP2016016996 A JP 2016016996A JP 2016016996 A JP2016016996 A JP 2016016996A JP 2016118796 A JP2016118796 A JP 2016118796A
- Authority
- JP
- Japan
- Prior art keywords
- discontinuity
- isf
- unit
- speech
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 title claims description 128
- 238000012937 correction Methods 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims description 68
- 238000001514 detection method Methods 0.000 claims description 53
- 238000011084 recovery Methods 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 76
- 238000004364 calculation method Methods 0.000 description 43
- 239000013598 vector Substances 0.000 description 36
- 238000006243 chemical reaction Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 230000005284 excitation Effects 0.000 description 25
- 230000015572 biosynthetic process Effects 0.000 description 23
- 238000003786 synthesis reaction Methods 0.000 description 23
- 230000003044 adaptive effect Effects 0.000 description 22
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 18
- 238000013139 quantization Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 15
- 238000013461 design Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
、符号化された第一から第四サブフレームのピッチラグTj p、第一から第四サブフレームの符号化された適応符号帳ゲインgj p、第一から第四サブフレームの符号化された固定符号帳ゲインgj c、第一から第四サブフレームの符号化された固定符号帳ベクトルcj(n)を含む。ISFパラメータの代わりに数学的に等価な表現であるLSF(line spectral frequency)パラメータを用いてもよい。以下の議論では、ISFパラメータを用いた説明を行うが、LSFパラメータを用いた場合も同じ議論が成り立つ。
及び
の等価表現であるISP(Immittance Spectral Pair)パラメータ
、ISF残差パラメータ
、過去のピッチラグTj p、過去の適応符号帳ゲインgj p、過去の固定符号帳ゲインgj c、適応符号帳u(n)を含む。それぞれ過去何サブフレーム分のパラメータを含むかは設計方針による。本明細書では、1フレームが4サブフレームを含むことを仮定するが、設計方針により他の値としてもよい。
図3には音声符号復号部12の機能構成例を示す。この図3に示すように、音声符号復号部12は、ISF復号部120、安定性処理部121、LP係数算出部122、適応符号帳算出部123、固定符号帳復号部124、ゲイン復号部125、励振ベクトル合成部126、ポストフィルタ127、及び合成フィルタ128を備える。ただし、ポストフィルタ127は必須の構成要素ではない。なお、図3では、説明の便宜上、音声符号復号部12内に内部状態バッファ14を二点鎖線で示しているが、この内部状態バッファ14は、音声符号復号部12の内部に含まれるものではなく、図1に示す内部状態バッファ14である。これ以降の音声符号復号部の構成図でも同様である。
を求め、ISFパラメータ
を次式に従い算出する(図5のステップS1)。ここで、meaniは、事前に学習等で求めた平均ベクトルである。
、AR予測の重み係数をρiとした。
と、上記ISPパラメータ
から、以下の式に従いサブフレーム毎のISPパラメータを算出する(図5のステップS4)。補間にあたっては、別の係数を用いてもよい。
に変換する(図5のステップS5)。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
と量子化固定符号帳ゲイン
を得る。量子化固定符号帳ゲインと上記固定符号帳ベクトルのパワーから、以下の通り予測固定符号帳ゲインを算出する。
図6には、隠蔽信号生成部13の機能構成例を示す。この図6に示すように、隠蔽信号生成部13は、LP係数補間部130、ピッチラグ補間部131、ゲイン補間部132、雑音信号生成部133、ポストフィルタ134、合成フィルタ135、適応符号帳算出部136、及び励振ベクトル合成部137を備える。ただし、ポストフィルタ134は必須の構成要素ではない。
を次式により算出する。なお、ωi (-j)は、バッファに格納されたjフレーム前のISFパラメータである。
ここで、
はパケットを正常に受信した際に算出されたISFパラメータの内部状態である。αも定数であり、0.9のような値とすることができるが、これに限定されない。αは、例えば非特許文献1記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
第1実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。
について、各要素間に通常よりM-1倍の間隔をあける処理を行う。通常よりも非常に大きな間隔を与えることによりスペクトル包絡における過大なピークとディップを抑制する効果を与える。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。
と、上記ISPパラメータ
から、以下の式に従い、サブフレーム毎のISPパラメータを算出する(図10のステップS15)。補間にあたっては、別の係数を用いてもよい。
に変換する(図10のステップS16)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。
を次式に従い更新する。
このとき、不連続が検出された場合でも、ISF-ISP変換部122Aは、以下の手順を実施することにより、ISFパラメータの算出結果を用いて、内部状態バッファに記憶されたISFパラメータ
を更新してもよい。
図11には、第1実施形態の変形例に係る音声符号復号部12Sの機能構成図を示す。図3の従来技術の構成との差異は、不連続検出部129及び第2安定性処理部121Sのみであるため、これらの動作について述べる。第2安定性処理部121Sは、ゲイン調整部121X及びゲイン乗算部121Yを備えており、第2安定性処理部121Sの処理フローは図12に示す。
第2実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図13には音声符号復号部12Bの機能構成例を、図14にはLP係数の算出処理に係る機能構成例を、図15にはLP係数の算出処理のフローを、それぞれ示す。図13の音声符号復号部12Bは、前述した図3の構成に対し、不連続検出部129が追加されている。
と、ISF-ISP変換部122Aによる変換で得られたISPパラメータ
から、サブフレーム毎のISPパラメータを算出する(図15のステップS24)。
に変換する(図15のステップS25)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
不連続を検出した際に、別の方法によりISFパラメータを修正してもよい。第3実施形態は、安定性処理部121のみが第1実施形態と異なるので、安定性処理部121の動作のみについて述べる。
第4実施形態では、符号化側が、不連続の発生を検出して、不連続判定符号(検出結果を示す符号)を音声符号に含めて復号側へ伝送し、復号側が、音声符号に含まれる不連続判定符号に基づいて安定性処理の処理内容を決定する実施形態を説明する。
図16に符号化器2の機能構成例を、図17に符号化器2における処理のフロー図を示す。図16に示すように、符号化器2は、LP分析・符号化部21、残差符号化部22、及び符号多重化部23を備える。
と、量子化ISFパラメータ
を用いて、次式に従い不連続の判定を行い(ステップT44、U46)、その判定結果を不連続判定部213の内部バッファに格納する。ここで、Thresωは事前に定めた閾値、P’は次式を満たす整数である(0<P’≦P)。
第4実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図20には音声符号復号部12Dの機能構成例を、図21にはLP係数の算出処理のフローを、それぞれ示す。図20の音声符号復号部12Dは、前述した図3の構成に対し、不連続検出部129が追加されている。
(符号化側について)
符号化器の機能構成は、第4実施形態に係る図16の機能構成と同じであり、符号化器の処理フローは、第4実施形態に係る図17の処理フローと同じである。ここでは、第4実施形態とは異なる第5実施形態におけるLP分析・符号化部について述べる。
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、LP-ISF変換部で算出したISFパラメータをωi、事前に学習で求めた平均ベクトルをmeaniとした。
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、直前のフレームで復号により得られたISF残差パラメータを
とした。
第5実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図24には音声符号復号部12Eの機能構成例を、図25にはLP係数の算出処理のフローを、それぞれ示す。図24の音声符号復号部12Eは、前述した図3の構成に対し、不連続検出部129が追加されている。
ISF復号部120は、ISF符号を復号して得られる量子化ISF残差パラメータを
、事前に学習で求めた平均ベクトルをmeaniとして、次式に従い量子化ISFパラメータ
を求める。
ISF復号部120は、直前のフレームで復号により得られたISF残差パラメータ
を内部状態バッファ14から読み出し、
得られたISF残差パラメータ
、事前に学習で求めた平均ベクトルmeani、及びISF符号を復号して得られる量子化ISF残差パラメータ
から、次式に従い量子化ISFパラメータ
を求める。
上記第1〜第5実施形態は組み合わせてもよい。例えば、第4実施形態に記載のとおり、復号側において、符号化側からの音声符号に含まれる不連続判定符号を復号して不連続を検出し、不連続が検出された場合に、以下のとおり実施してもよい。
上記第1〜第6実施形態及び変形例において、復号側におけるフレームロスの状況(例えば、単一フレームロスか連続フレームロスかといった状況)を加味してもよい。なお、第7実施形態では、不連続検出については、例えば音声符号に含まれる不連続判定符号を復号した結果を用いて不連続検出すればよく、その方法は上記に限定されない。
以下、コンピュータを、本発明に係る音声信号処理装置として動作させる音声信号処理プログラムについて説明する。
Claims (3)
- 音声信号処理装置により実行される音声信号処理方法であって、
符号化器より伝送された補助情報であって音声パケット復号の結果得られる復号音声の不連続性に関する補助情報を復号する復号ステップと、
前記復号ステップにより復号された補助情報を用いて、前記復号音声の不連続性を推定する推定ステップと、
前記推定ステップにより不連続であると推定された場合に前記復号音声の不連続性を修正し、前記推定ステップにより不連続であると推定されない場合に前記復号音声の不連続性を修正しない修正ステップと、
を含み、
前記不連続性とは、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じるものである、
音声信号処理方法。 - 伝送された音声パケットのパケットロスを検出する検出ステップをさらに含み、
前記修正ステップは、前記検出ステップによりパケットロスが検出された場合、且つ、前記推定ステップにより不連続であると推定された場合に、前記復号音声の不連続性を修正する、
請求項1に記載の音声信号処理方法。 - 符号化器より伝送された補助情報であって音声パケット復号の結果得られる復号音声の不連続性に関する補助情報を復号する補助情報復号器と、
前記補助情報復号器により復号された補助情報を用いて、前記復号音声の不連続性を推定する不連続推定器と、
前記不連続推定器により不連続であると推定された場合に前記復号音声の不連続性を修正し、前記不連続推定器により不連続であると推定されない場合に前記復号音声の不連続性を修正しない不連続修正器と、
を備え、
前記不連続性とは、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じるものである、
音声信号処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016016996A JP6133454B2 (ja) | 2016-02-01 | 2016-02-01 | 音声信号処理方法及び音声信号処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016016996A JP6133454B2 (ja) | 2016-02-01 | 2016-02-01 | 音声信号処理方法及び音声信号処理装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013224120A Division JP5981408B2 (ja) | 2013-10-29 | 2013-10-29 | 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017083026A Division JP6352487B2 (ja) | 2017-04-19 | 2017-04-19 | 音声信号処理方法及び音声信号処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016118796A true JP2016118796A (ja) | 2016-06-30 |
JP6133454B2 JP6133454B2 (ja) | 2017-05-24 |
Family
ID=56244204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016016996A Active JP6133454B2 (ja) | 2016-02-01 | 2016-02-01 | 音声信号処理方法及び音声信号処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6133454B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0588697A (ja) * | 1991-09-26 | 1993-04-09 | Kokusai Denshin Denwa Co Ltd <Kdd> | 欠落音声補間方式 |
JP2002221994A (ja) * | 2001-01-26 | 2002-08-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体 |
JP2006279809A (ja) * | 2005-03-30 | 2006-10-12 | Sanyo Electric Co Ltd | 音声再生装置および音声再生方法 |
JP2010511201A (ja) * | 2006-11-28 | 2010-04-08 | サムスン エレクトロニクス カンパニー リミテッド | フレームエラー隠匿方法及び装置、これを利用した復号化方法及び装置 |
JP2010164859A (ja) * | 2009-01-16 | 2010-07-29 | Sony Corp | オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム |
-
2016
- 2016-02-01 JP JP2016016996A patent/JP6133454B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0588697A (ja) * | 1991-09-26 | 1993-04-09 | Kokusai Denshin Denwa Co Ltd <Kdd> | 欠落音声補間方式 |
JP2002221994A (ja) * | 2001-01-26 | 2002-08-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体 |
JP2006279809A (ja) * | 2005-03-30 | 2006-10-12 | Sanyo Electric Co Ltd | 音声再生装置および音声再生方法 |
JP2010511201A (ja) * | 2006-11-28 | 2010-04-08 | サムスン エレクトロニクス カンパニー リミテッド | フレームエラー隠匿方法及び装置、これを利用した復号化方法及び装置 |
JP2010164859A (ja) * | 2009-01-16 | 2010-07-29 | Sony Corp | オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6133454B2 (ja) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2701075C1 (ru) | Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала | |
JP6914390B2 (ja) | 音声信号処理方法 | |
JP6352487B2 (ja) | 音声信号処理方法及び音声信号処理装置 | |
JP6133454B2 (ja) | 音声信号処理方法及び音声信号処理装置 | |
JP6691169B2 (ja) | 音声信号処理方法及び音声信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170321 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6133454 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |