JP6691169B2 - 音声信号処理方法及び音声信号処理装置 - Google Patents
音声信号処理方法及び音声信号処理装置 Download PDFInfo
- Publication number
- JP6691169B2 JP6691169B2 JP2018109033A JP2018109033A JP6691169B2 JP 6691169 B2 JP6691169 B2 JP 6691169B2 JP 2018109033 A JP2018109033 A JP 2018109033A JP 2018109033 A JP2018109033 A JP 2018109033A JP 6691169 B2 JP6691169 B2 JP 6691169B2
- Authority
- JP
- Japan
- Prior art keywords
- isf
- discontinuity
- unit
- audio signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 135
- 230000005236 sound signal Effects 0.000 title claims description 74
- 238000003672 processing method Methods 0.000 title claims description 22
- 238000000034 method Methods 0.000 claims description 75
- 238000001514 detection method Methods 0.000 claims description 48
- 230000005284 excitation Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 25
- 238000013139 quantization Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 44
- 238000006243 chemical reaction Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 25
- 230000003044 adaptive effect Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 19
- 230000015572 biosynthetic process Effects 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 16
- 238000007796 conventional method Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 102100026933 Myelin-associated neurite-outgrowth inhibitor Human genes 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
、符号化された第一から第四サブフレームのピッチラグTjp、第一から第四サブフレームの符号化された適応符号帳ゲインgjp、第一から第四サブフレームの符号化された固定符号帳ゲインgjc、第一から第四サブフレームの符号化された固定符号帳ベクトルcj(n)を含む。ISFパラメータの代わりに数学的に等価な表現であるLSF(line spectral frequency)パラメータを用いてもよい。以下の議論では、ISFパラメータを用いた説明を行うが、LSFパラメータを用いた場合も同じ議論が成り立つ。
及び
の等価表現であるISP(Immittance Spectral Pair)パラメータ
、ISF残差パラメータ
、過去のピッチラグTjp、過去の適応符号帳ゲインgjp、過去の固定符号帳ゲインgjc、適応符号帳u(n)を含む。それぞれ過去何サブフレーム分のパラメータを含むかは設計方針による。本明細書では、1フレームが4サブフレームを含むことを仮定するが、設計方針により他の値としてもよい。
図3には音声符号復号部12の機能構成例を示す。この図3に示すように、音声符号復号部12は、ISF復号部120、安定性処理部121、LP係数算出部122、適応符号帳算出部123、固定符号帳復号部124、ゲイン復号部125、励振ベクトル合成部126、ポストフィルタ127、及び合成フィルタ128を備える。ただし、ポストフィルタ127は必須の構成要素ではない。なお、図3では、説明の便宜上、音声符号復号部12内に内部状態バッファ14を二点鎖線で示しているが、この内部状態バッファ14は、音声符号復号部12の内部に含まれるものではなく、図1に示す内部状態バッファ14である。これ以降の音声符号復号部の構成図でも同様である。
を求め、ISFパラメータ
を次式に従い算出する(図5のステップS1)。ここで、meaniは、事前に学習等で求めた平均ベクトルである。
、AR予測の重み係数をρiとした。
と、上記ISPパラメータ
から、以下の式に従いサブフレーム毎のISPパラメータを算出する(図5のステップS4)。補間にあたっては、別の係数を用いてもよい。
に変換する(図5のステップS5)。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
と量子化固定符号帳ゲイン
を得る。量子化固定符号帳ゲインと上記固定符号帳ベクトルのパワーから、以下の通り予測固定符号帳ゲインを算出する。
図6には、隠蔽信号生成部13の機能構成例を示す。この図6に示すように、隠蔽信号生成部13は、LP係数補間部130、ピッチラグ補間部131、ゲイン補間部132、雑音信号生成部133、ポストフィルタ134、合成フィルタ135、適応符号帳算出部136、及び励振ベクトル合成部137を備える。ただし、ポストフィルタ134は必須の構成要素ではない。
を次式により算出する。なお、ωi(-j)は、バッファに格納されたjフレーム前のISFパラメータである。
ここで、
はパケットを正常に受信した際に算出されたISFパラメータの内部状態である。αも定数であり、0.9のような値とすることができるが、これに限定されない。αは、例えば非特許文献1記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
第1実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。
について、各要素間に通常よりM-1倍の間隔をあける処理を行う。通常よりも非常に大きな間隔を与えることによりスペクトル包絡における過大なピークとディップを抑制する効果を与える。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。
と、上記ISPパラメータ
から、以下の式に従い、サブフレーム毎のISPパラメータを算出する(図10のステップS15)。補間にあたっては、別の係数を用いてもよい。
に変換する(図10のステップS16)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。具体的変換手順として、非特許文献1に記載の処理手順を用いることができる。
を次式に従い更新する。
このとき、不連続が検出された場合でも、ISF-ISP変換部122Aは、以下の手順を実施することにより、ISFパラメータの算出結果を用いて、内部状態バッファに記憶されたISFパラメータ
を更新してもよい。
図11には、第1実施形態の変形例に係る音声符号復号部12Sの機能構成図を示す。図3の従来技術の構成との差異は、不連続検出部129及び第2安定性処理部121Sのみであるため、これらの動作について述べる。第2安定性処理部121Sは、ゲイン調整部121X及びゲイン乗算部121Yを備えており、第2安定性処理部121Sの処理フローは図12に示す。
第2実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図13には音声符号復号部12Bの機能構成例を、図14にはLP係数の算出処理に係る機能構成例を、図15にはLP係数の算出処理のフローを、それぞれ示す。図13の音声符号復号部12Bは、前述した図3の構成に対し、不連続検出部129が追加されている。
と、ISF-ISP変換部122Aによる変換で得られたISPパラメータ
から、サブフレーム毎のISPパラメータを算出する(図15のステップS24)。
に変換する(図15のステップS25)。ここで、先読み信号に含まれるサブフレームの数を4としたが、サブフレームの数は設計方針により変更してもよい。
不連続を検出した際に、別の方法によりISFパラメータを修正してもよい。第3実施形態は、安定性処理部121のみが第1実施形態と異なるので、安定性処理部121の動作のみについて述べる。
第4実施形態では、符号化側が、不連続の発生を検出して、不連続判定符号(検出結果を示す符号)を音声符号に含めて復号側へ伝送し、復号側が、音声符号に含まれる不連続判定符号に基づいて安定性処理の処理内容を決定する実施形態を説明する。
図16に符号化器2の機能構成例を、図17に符号化器2における処理のフロー図を示す。図16に示すように、符号化器2は、LP分析・符号化部21、残差符号化部22、及び符号多重化部23を備える。
と、量子化ISFパラメータ
を用いて、次式に従い不連続の判定を行い(ステップT44、U46)、その判定結果を不連続判定部213の内部バッファに格納する。ここで、Thresωは事前に定めた閾値、P’は次式を満たす整数である(0<P’≦P)。
第4実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図20には音声符号復号部12Dの機能構成例を、図21にはLP係数の算出処理のフローを、それぞれ示す。図20の音声符号復号部12Dは、前述した図3の構成に対し、不連続検出部129が追加されている。
(符号化側について)
符号化器の機能構成は、第4実施形態に係る図16の機能構成と同じであり、符号化器の処理フローは、第4実施形態に係る図17の処理フローと同じである。ここでは、第4実施形態とは異なる第5実施形態におけるLP分析・符号化部について述べる。
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、LP-ISF変換部で算出したISFパラメータをωi、事前に学習で求めた平均ベクトルをmeaniとした。
ISF符号化部212は、次式で算出されるISF残差パラメータriをベクトル量子化してISF符号を算出する(図23のステップU54)。ここで、直前のフレームで復号により得られたISF残差パラメータを
とした。
第5実施形態における音声信号処理装置は、前述した図1の音声復号器1と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図24には音声符号復号部12Eの機能構成例を、図25にはLP係数の算出処理のフローを、それぞれ示す。図24の音声符号復号部12Eは、前述した図3の構成に対し、不連続検出部129が追加されている。
ISF復号部120は、ISF符号を復号して得られる量子化ISF残差パラメータを
、事前に学習で求めた平均ベクトルをmeaniとして、次式に従い量子化ISFパラメータ
を求める。
ISF復号部120は、直前のフレームで復号により得られたISF残差パラメータ
を内部状態バッファ14から読み出し、得られたISF残差パラメータ
、事前に学習で求めた平均ベクトルmeani、及びISF符号を復号して得られる量子化ISF残差パラメータ
から、次式に従い量子化ISFパラメータ
を求める。
上記第1〜第5実施形態は組み合わせてもよい。例えば、第4実施形態に記載のとおり、復号側において、符号化側からの音声符号に含まれる不連続判定符号を復号して不連続を検出し、不連続が検出された場合に、以下のとおり実施してもよい。
上記第1〜第6実施形態及び変形例において、復号側におけるフレームロスの状況(例えば、単一フレームロスか連続フレームロスかといった状況)を加味してもよい。なお、第7実施形態では、不連続検出については、例えば音声符号に含まれる不連続判定符号を復号した結果を用いて不連続検出すればよく、その方法は上記に限定されない。
以下、コンピュータを、本発明に係る音声信号処理装置として動作させる音声信号処理プログラムについて説明する。
Claims (7)
- 音声信号処理装置により実行される音声信号処理方法において、
音声パケットを復号して、復号音声およびISF/LSFパラメータを取得し、
パケットロスの発生後に最初に正常に受信された音声パケットを復号することにより得られた復号音声の振幅の急激な増加により生ずる音声の不連続性の発生を決定し、
前記復号音声の振幅の急激な増加を抑え、
前記復号音声の振幅の急激な増加を抑えることは、前記ISF/LSFパラメータの要素間の間隔を変化させ、
前記復号音声の振幅の急激な増加を決定することは、音声パケットにおいて含まれる補助情報を復号することを含み、補助情報は、前記復号音声の振幅の急激な増加による不連続性に関することを特徴とする、
音声信号処理方法。 - パケットロス後に最初に正常に受信された音声パケットを復号することにより得られた復号音声の振幅の急激な増加の発生により生ずる音声の不連続性の発生を決定する不連続検出部と、
前記復号音声の振幅の急激な増加を抑える不連続修正部と、
前記不連続修正部は、振幅の急激な増加の発生の決定結果に従って、前記音声パケットを復号することにより得られたISF/LSFパラメータの各要素間の間隔を変え、
前記復号音声の振幅の急激な増加を決定することは、音声パケットにおいて含まれる補助情報を復号することを含み、補助情報は、前記復号音声の振幅の急激な増加による不連続性に関することを特徴とする、
音声信号処理装置。 - 音声信号処理装置によって実行される音声信号処理方法において、
音声信号の符号化処理の過程で、ISF/LSFパラメータを量子化して、量子化ISF/LSFパラメータを取得し、
前記ISF/LSFパラメータに関する隠蔽情報を示す隠蔽ISF/LSFパラメータを生成し、
前記量子化ISF/LSFパラメータと生成された前記隠蔽ISF/LSFパラメータとの間隔を用いて、パケットロスの発生後に最初に正常に受信された音声パケットにおいて発生した音声信号の振幅の急激な増加により生ずる音声の不連続性の発生を決定し、
前記音声信号の振幅の急激な増加による音声の不連続性の発生に関することを示す補助情報を符号化する、
音声信号処理方法。 - ISF/LSFパラメータを量子化して、量子化ISF/LSFパラメータを生成するISF/LSFパラメータ量子化部と、
前記ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するISF/LSF隠蔽部と、
前記量子化ISF/LSFパラメータと前記隠蔽ISF/LSFパラメータとの間の間隔を使って、パケットロスの発生後に最初に正常に受信された音声パケットにおいて発生する音声信号の振幅の急激な増加により生ずる音声の不連続性の発生を決定する不連続検出部と、
前記音声信号の急激な増加による音声の不連続性の発生に関することを示す補助情報を符号化する補助情報符号化部と、
を備える、
音声信号処理装置。 - 前記復号音声の振幅の急激な増加を決定することは、復号音声の励振信号のパワーに基づいて復号音声の振幅の急激な増加を決定することを含む、請求項1に記載の音声信号処理方法。
- 前記復号音声の振幅の急激な増加を決定することは、復号音声の励振信号を計算するために使用された量子化された符号帳ゲインに基づいて復号音声の振幅の急激な増加を決定することを含む、請求項1に記載の音声信号処理方法。
- 前記復号音声の振幅の急激な増加を決定することは、所定レベル以上である復号音声の励振信号のゲイン増加に基づいて、復号音声の振幅の急激な増加を決定する、請求項1に記載の音声信号処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109033A JP6691169B2 (ja) | 2018-06-06 | 2018-06-06 | 音声信号処理方法及び音声信号処理装置 |
JP2020070268A JP6914390B2 (ja) | 2018-06-06 | 2020-04-09 | 音声信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109033A JP6691169B2 (ja) | 2018-06-06 | 2018-06-06 | 音声信号処理方法及び音声信号処理装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017083026A Division JP6352487B2 (ja) | 2017-04-19 | 2017-04-19 | 音声信号処理方法及び音声信号処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020070268A Division JP6914390B2 (ja) | 2018-06-06 | 2020-04-09 | 音声信号処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018165824A JP2018165824A (ja) | 2018-10-25 |
JP6691169B2 true JP6691169B2 (ja) | 2020-04-28 |
Family
ID=63922573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018109033A Active JP6691169B2 (ja) | 2018-06-06 | 2018-06-06 | 音声信号処理方法及び音声信号処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6691169B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5912197B2 (ja) * | 1981-12-25 | 1984-03-21 | 富士通株式会社 | 音声スペクトル情報修正方式 |
JPS58181096A (ja) * | 1982-04-19 | 1983-10-22 | 株式会社日立製作所 | 音声分析合成方式 |
JP2993396B2 (ja) * | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
JP2000242298A (ja) * | 1999-02-24 | 2000-09-08 | Mitsubishi Electric Corp | Lsp補正装置,音声符号化装置及び音声復号化装置 |
KR100612889B1 (ko) * | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
KR20090076964A (ko) * | 2006-11-10 | 2009-07-13 | 파나소닉 주식회사 | 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법 |
-
2018
- 2018-06-06 JP JP2018109033A patent/JP6691169B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018165824A (ja) | 2018-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020294314B2 (en) | Audio signal processing device, audio signal processing method, and audio signal processing program | |
JP6691169B2 (ja) | 音声信号処理方法及び音声信号処理装置 | |
JP6914390B2 (ja) | 音声信号処理方法 | |
JP6352487B2 (ja) | 音声信号処理方法及び音声信号処理装置 | |
JP6133454B2 (ja) | 音声信号処理方法及び音声信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6691169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |