JP6914390B2 - 音声信号処理方法 - Google Patents
音声信号処理方法 Download PDFInfo
- Publication number
- JP6914390B2 JP6914390B2 JP2020070268A JP2020070268A JP6914390B2 JP 6914390 B2 JP6914390 B2 JP 6914390B2 JP 2020070268 A JP2020070268 A JP 2020070268A JP 2020070268 A JP2020070268 A JP 2020070268A JP 6914390 B2 JP6914390 B2 JP 6914390B2
- Authority
- JP
- Japan
- Prior art keywords
- isf
- unit
- discontinuity
- voice
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 57
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000012545 processing Methods 0.000 claims description 131
- 238000012937 correction Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 description 66
- 238000001514 detection method Methods 0.000 description 49
- 238000004364 calculation method Methods 0.000 description 48
- 238000006243 chemical reaction Methods 0.000 description 41
- 238000013139 quantization Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 27
- 230000005284 excitation Effects 0.000 description 26
- 230000003044 adaptive effect Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 21
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 18
- 230000008859 change Effects 0.000 description 15
- 239000002131 composite material Substances 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
CELP符号化では、線形予測係数を数学的に等価に表現したISF(Immittance Spectral Frequency)パラメータや、過去の励振信号を内部状態としてもつ。パケットロスが起こった場合、これらを擬似的に生成するため、本来であれば復号により得られていたパラメータとの間で乖離が起こる。パラメータの乖離によって起こる合成音声の不整合は、受聴者からは雑音と知覚され、主観的な品質を大きく損ねる。
、符号化された第一から第四サブフレームのピッチラグTj p、第一から第四サブフレームの符号化された適応符号帳ゲインgj p、第一から第四サブフレームの符号化された固定符号帳ゲインgj c、第一から第四サブフレームの符号化された固定符号帳ベクトルcj(n)を含む。ISFパラメータの代わりに数学的に等価な表現であるLSF(line spectral frequency)パラメータを用いてもよい。以下の議論では、ISFパラメータを用いた説明を行うが、LSFパラメータを用いた場合も同じ議論が成り立つ。
及び
の等価表現であるISP(Immittance Spectral Pair)パラメータ
、ISF残差パラメータ
、過去のピッチラグTj p、過去の適応符号帳ゲインgj p、過去の固定符号帳ゲインgj c、適応符号帳u(n)を含む。それぞれ過去何サブフレーム分のパラメータを含むかは設計方針による。本明細書では、1フレームが4サブフレームを含むことを仮定するが、設計方針により他の値としてもよい。
図3には音声符号復号部12の機能構成例を示す。この図3に示すように、音声符号復号部12は、ISF復号部120、安定性処理部121、LP係数算出部122、適応符号帳算出部123、固定符号帳復号部124、ゲイン復号部125、励振ベクトル合成部126、ポストフィルタ127、及び合成フィルタ128を備える。ただし、ポストフィルタ127は必須の構成要素ではない。なお、図3では、説明の便宜上、音声符号復号部12内に内部状態バッファ14を二点鎖線で示しているが、この内部状態バッファ14は、音声符号復号部12の内部に含まれるものではなく、図1に示す内部状態バッファ14である。これ以降の音声符号復号部の構成図でも同様である。
を求め、ISFパラメータ
を次式に従い算出する(図5のステップS1)。ここで、meaniは、事前に学習等で求めた平均ベクトルである。
なお、ここでは、ISFパラメータの算出にMA予測を用いる例について述べたが、以下のようにAR予測を用いてISFパラメータの算出を行うような構成としてもよい。ここで、直前フレームのISFパラメータを
、AR予測の重み係数をρiとした。
安定性処理部121は、フィルタの安定性を確保するためにISFパラメータの各要素間に50Hz以上の間隔をあけるよう、次式に従う処理を行う(図5のステップS2)。ISFパラメータは、音声スペクトル包絡の形状を線スペクトルで表現したものであり、互いの距離が近づく程、スペクトルのピークが大きくなり共振が起こる。そのため、スペクトルのピークでのゲインが大きくなりすぎないよう、安定性確保の処理が必要となる。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。
ISP補間部122Bは、内部状態バッファ14に含まれる過去のISPパラメータ
と、上記ISPパラメータ
から、以下の式に従いサブフレーム毎のISPパラメータを算出する(図5のステップS4)。補間にあたっては、別の係数を用いてもよい。
ISP-LPC変換部122Cは、サブフレーム毎のISPパラメータをLP係数
に変換する(図5のステップS5)。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
次に、ゲイン復号部125は、ベクトル量子化されたゲインパラメータを復号し、適応符号帳ゲイン
と量子化固定符号帳ゲイン
を得る。量子化固定符号帳ゲインと上記固定符号帳ベクトルのパワーから、以下の通り予測固定符号帳ゲインを算出する。
ポストフィルタ127は、励振信号ベクトルに対して、例えば、ピッチ強調、ノイズ強調、低域強調といった後処理を加える。ピッチ強調、ノイズ強調、低域強調は、非特許文献1に記載された手法を用いることができる。
ここで、ωi (-j)はバッファに格納されたjフレーム前のISFパラメータである。ωi Cは事前に学習等で求めた発話区間でのISFパラメータである。βは定数であり、例えば0.75のような値とすることができるが、これには限られない。ωi C、βは、例えば非特許文献1記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
図6には、隠蔽信号生成部13の機能構成例を示す。この図6に示すように、隠蔽信号生成部13は、LP係数補間部130、ピッチラグ補間部131、ゲイン補間部132、雑音信号生成部133、ポストフィルタ134、合成フィルタ135、適応符号帳算出部136、及び励振ベクトル合成部137を備える。ただし、ポストフィルタ134は必須の構成要素ではない。
ここで、
はパケットを正常に受信した際に算出されたISFパラメータの内部状態である。αも定数であり、0.9のような値とすることができるが、これに限定されない。αは、例えば非特許文献1記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
第1実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。
さらに、現フレームに含まれる第1から第4サブフレームの固定符号帳ゲインのうち最大のものをgc (c)、内部状態に含まれる固定符号帳ゲインのうち最小のものをgc (p)として、次式によりゲインの変化と閾値との比較を行ってもよい。
第1実施形態の上記の例では、直前フレーム(ロストフレーム)の第4サブフレームの固定符号帳ゲインgc -1と、現フレームの第1サブフレームの固定符号帳ゲインgc 0を用いて不連続検出を行う例を示したが、内部状態に含まれる固定符号帳ゲイン及び現フレームに含まれる固定符号帳ゲインについて、それぞれ平均値を算出した上で、ゲインの変化と閾値との比較を行うようにしてもよい。
について、各要素間に通常よりM-1倍の間隔をあける処理を行う。通常よりも非常に大きな間隔を与えることによりスペクトル包絡における過大なピークとディップを抑制する効果を与える。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。
次に、安定性処理部121は、現フレームのISFパラメータについて、各要素間に通常よりM0倍の間隔をあける処理を行う。ここでは、1<M0<M-1とするが、M-1あるいはM0のいずれか一方を1とし、他方を1より大きな値に設定してもよい。
ISP補間部122Bは、過去のISPパラメータ
と、上記ISPパラメータ
から、以下の式に従い、サブフレーム毎のISPパラメータを算出する(図10のステップS15)。補間にあたっては、別の係数を用いてもよい。
ISP-LPC変換部122Cは、サブフレーム毎のISPパラメータをLP係数
に変換する(図10のステップS16)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。
このとき、不連続が検出された場合でも、ISF-ISP変換部122Aは、以下の手順を実施することにより、ISFパラメータの算出結果を用いて、内部状態バッファに記憶されたISFパラメータ
を更新してもよい。
以上の第1実施形態のように、復号音声の不連続性は、励振信号算出に用いる量子化された符号帳ゲインによって推定することができ、また、不連続性の推定結果に応じて、ISF/LSFパラメータ(例えば合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔)を修正することができる。これにより、音声開始時点でのパケットロスから復帰した際に起こりうる不連続音を低減し、主観品質を改善することができる。
図11には、第1実施形態の変形例に係る音声符号復号部12Sの機能構成図を示す。図3の従来技術の構成との差異は、不連続検出部129及び第2安定性処理部121Sのみであるため、これらの動作について述べる。第2安定性処理部121Sは、ゲイン調整部121X及びゲイン乗算部121Yを備えており、第2安定性処理部121Sの処理フローは図12に示す。
第2実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図13には音声符号復号部12Bの機能構成例を、図14にはLP係数の算出処理に係る機能構成例を、図15にはLP係数の算出処理のフローを、それぞれ示す。図13の音声符号復号部12Bは、前述した図3の構成に対し、不連続検出部129が追加されている。
と、ISF-ISP変換部122Aによる変換で得られたISPパラメータ
から、サブフレーム毎のISPパラメータを算出する(図15のステップS24)。
に変換する(図15のステップS25)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
ゲインの変化が閾値を越えない場合(図15のステップS27でNOの場合)、不連続検出部129は不連続発生を検出せず、ISP-LPC変換部122CからLP係数を出力して処理を終了する。一方、ゲインの変化が閾値を越える場合(図15のステップS27でYESの場合)、不連続検出部129は、不連続発生を検出し、不連続発生の検出結果に係る制御信号を安定性処理部121に送る。制御信号を受け取った場合、安定性処理部121は、第1実施形態と同様にして、ISFパラメータを修正する(図15のステップS28)。以下、ISF-ISP変換部122A、ISP補間部122B、及びISP-LPC変換部122Cの動作(図15のステップS29、S2A、S2B)は、上記と同様である。
不連続を検出した際に、別の方法によりISFパラメータを修正してもよい。第3実施形態は、安定性処理部121のみが第1実施形態と異なるので、安定性処理部121の動作のみについて述べる。
第4実施形態では、符号化側が、不連続の発生を検出して、不連続判定符号(検出結果を示す符号)を音声符号に含めて復号側へ伝送し、復号側が、音声符号に含まれる不連続判定符号に基づいて安定性処理の処理内容を決定する実施形態を説明する。
図16に符号化器2の機能構成例を、図17に符号化器2における処理のフロー図を示す。図16に示すように、符号化器2は、LP分析・符号化部21、残差符号化部22、及び符号多重化部23を備える。
と、量子化ISFパラメータ
を用いて、次式に従い不連続の判定を行い(ステップT44、U46)、その判定結果を不連続判定部213の内部バッファに格納する。ここで、Thresωは事前に定めた閾値、P’は次式を満たす整数である(0<P’≦P)。
第4実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図20には音声符号復号部12Dの機能構成例を、図21にはLP係数の算出処理のフローを、それぞれ示す。図20の音声符号復号部12Dは、前述した図3の構成に対し、不連続検出部129が追加されている。
(符号化側について)
符号化器の機能構成は、第4実施形態に係る図16の機能構成と同じであり、符号化器の処理フローは、第4実施形態に係る図17の処理フローと同じである。ここでは、第4実施形態とは異なる第5実施形態におけるLP分析・符号化部について述べる。
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、LP-ISF変換部で算出したISFパラメータをωi、事前に学習で求めた平均ベクトルをmeaniとした。
<不連続判定フラグが不連続の検出を表さない場合>
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、直前のフレームで復号により得られたISF残差パラメータを
とした。
第5実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図24には音声符号復号部12Eの機能構成例を、図25にはLP係数の算出処理のフローを、それぞれ示す。図24の音声符号復号部12Eは、前述した図3の構成に対し、不連続検出部129が追加されている。
ISF復号部120は、ISF符号を復号して得られる量子化ISF残差パラメータを
、事前に学習で求めた平均ベクトルをmeaniとして、次式に従い量子化ISFパラメータ
を求める。
<不連続判定フラグが不連続の検出を表さない場合>
ISF復号部120は、直前のフレームで復号により得られたISF残差パラメータ
を内部状態バッファ14から読み出し、
得られたISF残差パラメータ
、事前に学習で求めた平均ベクトルmeani、及びISF符号を復号して得られる量子化ISF残差パラメータ
から、次式に従い量子化ISFパラメータ
を求める。
上記第1〜第5実施形態は組み合わせてもよい。例えば、第4実施形態に記載のとおり、復号側において、符号化側からの音声符号に含まれる不連続判定符号を復号して不連続を検出し、不連続が検出された場合に、以下のとおり実施してもよい。
上記第1〜第6実施形態及び変形例において、復号側におけるフレームロスの状況(例えば、単一フレームロスか連続フレームロスかといった状況)を加味してもよい。なお、第7実施形態では、不連続検出については、例えば音声符号に含まれる不連続判定符号を復号した結果を用いて不連続検出すればよく、その方法は上記に限定されない。
以下、コンピュータを、本発明に係る音声信号処理装置として動作させる音声信号処理プログラムについて説明する。
Claims (2)
- 音声信号処理装置により実行される音声信号処理方法であって、
パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行うステップと、
復号音声の不連続性を修正するステップと、
を備え、
前記修正するステップは、パケットロスが起こったフレームに対応するISF/LSFパラメータの間隔を等間隔にする
音声信号処理方法。 - 前記推定を行うステップは、
符号化器より伝送された補助情報であって音声パケット復号の結果得られる復号音声の不連続性に関する補助情報を復号する復号ステップと、
前記復号ステップにより復号された補助情報を用いて、前記復号音声の不連続性を推定する推定ステップと、
を含む、請求項1に記載の音声信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020070268A JP6914390B2 (ja) | 2018-06-06 | 2020-04-09 | 音声信号処理方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109033A JP6691169B2 (ja) | 2018-06-06 | 2018-06-06 | 音声信号処理方法及び音声信号処理装置 |
JP2020070268A JP6914390B2 (ja) | 2018-06-06 | 2020-04-09 | 音声信号処理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018109033A Division JP6691169B2 (ja) | 2018-06-06 | 2018-06-06 | 音声信号処理方法及び音声信号処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020129115A JP2020129115A (ja) | 2020-08-27 |
JP6914390B2 true JP6914390B2 (ja) | 2021-08-04 |
Family
ID=72174508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020070268A Active JP6914390B2 (ja) | 2018-06-06 | 2020-04-09 | 音声信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6914390B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
KR100612889B1 (ko) * | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
KR20090076964A (ko) * | 2006-11-10 | 2009-07-13 | 파나소닉 주식회사 | 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법 |
JP5981408B2 (ja) * | 2013-10-29 | 2016-08-31 | 株式会社Nttドコモ | 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム |
-
2020
- 2020-04-09 JP JP2020070268A patent/JP6914390B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020129115A (ja) | 2020-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2701075C1 (ru) | Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала | |
JP6914390B2 (ja) | 音声信号処理方法 | |
JP6691169B2 (ja) | 音声信号処理方法及び音声信号処理装置 | |
JP6352487B2 (ja) | 音声信号処理方法及び音声信号処理装置 | |
JP6133454B2 (ja) | 音声信号処理方法及び音声信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A132 Effective date: 20210302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6914390 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |