JP6911939B2 - ピッチ強調装置、その方法、およびプログラム - Google Patents
ピッチ強調装置、その方法、およびプログラム Download PDFInfo
- Publication number
- JP6911939B2 JP6911939B2 JP2019557077A JP2019557077A JP6911939B2 JP 6911939 B2 JP6911939 B2 JP 6911939B2 JP 2019557077 A JP2019557077 A JP 2019557077A JP 2019557077 A JP2019557077 A JP 2019557077A JP 6911939 B2 JP6911939 B2 JP 6911939B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- signal
- time
- time interval
- emphasis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 80
- 239000003623 enhancer Substances 0.000 title description 11
- 230000005236 sound signal Effects 0.000 claims description 78
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 238000005311 autocorrelation function Methods 0.000 description 69
- 238000004364 calculation method Methods 0.000 description 28
- 238000012986 modification Methods 0.000 description 17
- 230000004048 modification Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241001098636 Trichogramma alpha Species 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/72—Wind turbines with rotation axis in wind direction
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
Description
この発明は、音信号の符号化技術などの信号処理技術において、音信号に由来するサンプル列に対して、そのピッチ成分を分析し、強調する技術に関連する。
一般的に、時系列信号などのサンプル列を非可逆に圧縮符号化した場合、復号時に得られるサンプル列は元のサンプル列とは違った、歪のあるサンプル列となる。特に音信号の符号化においては、この歪が自然音にはないようなパターンを含むことが多く、復号した音信号を受聴した際に不自然に感じられることがある。そこで、自然音の多くがある一定区間で観測した際に音に応じた周期成分、つまりピッチ成分を含むことに着目し、復号した音信号の各サンプルに対して、ピッチ周期分だけ過去のサンプルを加算することにより、ピッチ成分を強調する処理を行い、より違和感の少ない音に変換する技術が広く用いられている。
例えば非特許文献1に記載されているように、ピッチ成分を強調する処理として、ピッチ周期を得る処理とそのピッチ周期を用いてピッチ成分を強調する処理とを一定の時間区間毎に行うことが一般的である。
ITU-T Recommendation G.723.1 (05/2006) pp.16-18, 2006
しかしながら、これらの処理を行う時間区間が長い場合には、時間区間の時間長の分だけ処理遅延が増えてしまうという課題や、入力された音信号のピッチ周期が変動しているにも関わらずその変動に対応したピッチ成分を強調できないという課題がある。
これらの課題は、上述した処理を行う時間区間を短くすれば解決できる。そして、例えば非特許文献1のように線形予測を伴う復号処理とピッチを強調する処理(ピッチ強調処理)とを併用する構成においては、線形予測残差に対してピッチ強調処理を行ってから線形予測合成をすることで、時間区間を短くしても更なる課題が生じることもない。しかし、線形予測を伴わない復号処理とピッチ強調処理とを併用する構成においては、線形予測残差に対してピッチ強調処理を行ってから線形予測合成をする非特許文献1と同様の構成とするためには、新たに線形予測分析を行うために演算処理量が大幅に増加してしまうという新たな課題が生じてしまう。この新たな課題を生じさせないためには、線形予測を伴わない復号処理とピッチ強調処理とを併用する構成においては、復号処理により得られた音信号そのものに対して参考文献1に記載されているようなピッチ強調処理を施す必要がある。
(参考文献1)D. Malah and R. Cox, "A generalized comb filtering technique for speech enhancement", in ICASSP 1982, vol. 7, pp. 160-163, 1982.
(参考文献1)D. Malah and R. Cox, "A generalized comb filtering technique for speech enhancement", in ICASSP 1982, vol. 7, pp. 160-163, 1982.
しかし、復号処理により得られた音信号そのものに対してピッチ強調処理を行う時間区間を短くしてしまうと、時間区間ごとに異なるピッチ周期でのピッチ強調処理が行われることによって音信号に不連続が頻繁に生じてしまい、受聴時の違和感が増してしまう、という別の課題が生じてしまう。
本発明は、この課題を解決するためのものであり、復号処理により得られた音信号そのものに対して短い時間区間ごとにピッチ強調処理を施す場合であっても、音信号のピッチ周期の変動に対応するピッチ周期に基づく、音信号の不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間について、当該時間区間の各時刻の出力信号として、当該時刻の信号と、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、信号である第1強調用信号と、当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T−αだけ、当該時刻よりも過去の時刻の、信号である第2強調用信号と、を含む信号を得る処理を行う、ピッチ強調部を含む。
上記の課題を解決するために、本発明の他の一態様によれば、ピッチ強調方法は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調方法は、ピッチ強調処理として、各時間区間について、当該時間区間の各時刻の出力信号として、当該時刻の信号と、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、信号である第1強調用信号と、当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T−αだけ、当該時刻よりも過去の時刻の、信号である第2強調用信号と、を含む信号を得る処理を行う、ピッチ強調ステップを含む。
本発明によれば、復号処理により得られた音信号そのものに対して短い時間区間ごとにピッチ強調処理を施す場合であっても、音信号のピッチ周期の変動に対応するピッチ周期に基づく、音信号の不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することができるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態では、現在の時間区間の入力された音信号そのものに対してピッチ強調処理を施す際に、現在の時間区間のピッチ周期に対応するピッチ成分だけを強調するのではなく、過去の時間区間のピッチ周期に対応するピッチ成分も強調する。
本実施形態では、現在の時間区間の入力された音信号そのものに対してピッチ強調処理を施す際に、現在の時間区間のピッチ周期に対応するピッチ成分だけを強調するのではなく、過去の時間区間のピッチ周期に対応するピッチ成分も強調する。
その際、過去の時間区間のピッチ周期に対応するピッチ成分の強調の度合いは、現在の時間区間のピッチ周期に対応するピッチ成分の強調の度合いより小さくすることが望ましい。また、過去の複数の時間区間のピッチ周期に対応するピッチ成分を強調する場合には、現在の時間区間から遠い時間区間ほど強調の度合いが小さくなるようにするとよい。ただし、それぞれの時間区間のピッチ周期に対応する成分の強調は、ピッチ利得に基づいて行う。
また、強調後のエネルギーの整合性を保つため、ピッチ強調の程度は、使用した全てのピッチ成分に基づいて決めるとよい。過去の複数の時間区間のピッチ周期に対応するピッチ成分を強調させる場合には、その複数のピッチ周期が近い値であることも想定して、強調後のエネルギーの整合性を保つようにするとよい。
<第一実施形態>
図1は第一実施形態に係る音声ピッチ強調装置の機能ブロック図を、図2はその処理フローを示す。
図1は第一実施形態に係る音声ピッチ強調装置の機能ブロック図を、図2はその処理フローを示す。
図1を参照して、第一実施形態の音声ピッチ強調装置の処理手続きを説明する。第一実施形態の音声ピッチ強調装置は、入力された信号を分析してピッチ周期とピッチ利得を得て、そのピッチ周期とピッチ利得に基づきピッチを強調するものである。第一実施形態の音声ピッチ強調装置は、自己相関関数算出部110とピッチ分析部120とピッチ強調部130と信号記憶部140とピッチ情報記憶部150とを備えるものであり、更に自己相関関数記憶部160を備えてもよい。
音声ピッチ強調装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ピッチ強調装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ピッチ強調装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声ピッチ強調装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声ピッチ強調装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声ピッチ強調装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、音声ピッチ強調装置の外部に備える構成としてもよい。
第一実施形態の音声ピッチ強調装置が行う主な処理は自己相関関数算出処理(S110)とピッチ分析処理(S120)とピッチ強調処理(S130)である(図2参照)。これらの処理は音声ピッチ強調装置が備える複数のハードウェア資源が連携して行うものであるので、以下では、自己相関関数算出処理(S110)とピッチ分析処理(S120)とピッチ強調処理(S130)のそれぞれについて、関連する処理と共に説明する。
[自己相関関数算出処理(S110)]
まず、音声ピッチ強調装置が行う自己相関関数算出処理とこれに関連する処理について説明する。
まず、音声ピッチ強調装置が行う自己相関関数算出処理とこれに関連する処理について説明する。
自己相関関数算出部110には、時間領域の音信号が入力される。この音信号は、例えば音声信号などの音響信号を符号化装置で圧縮符号化して符号を得て、その符号化装置に対応する復号装置で符号を復号して得た信号である。自己相関関数算出部110には、所定の時間長のフレーム(時間区間)単位で、音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。1フレームのサンプル列の長さを示す正の整数をNとすると、自己相関関数算出部110には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。自己相関関数算出部110は、入力されたN個の時間領域の音信号サンプルを含む最新のL個(Lは正の整数)の音信号サンプルによるサンプル列における時間差0の自己相関関数R0及び複数個(M個、Mは正の整数)の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出する。すなわち、自己相関関数算出部110は、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数を算出する。
なお、以降では、現在のフレームの処理において自己相関関数算出部110が算出した自己相関関数、すなわち、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数、のことを「現在のフレームの自己相関関数」とも呼ぶ。同様に、過去のあるフレームをフレームFとしたとき、フレームFの処理において自己相関関数算出部110が算出した自己相関関数、すなわち、フレームFの時間領域の音信号サンプルを含むフレームFの時点での最新の音信号サンプルによるサンプル列における自己相関関数、のことを「フレームFの自己相関関数」とも呼ぶ。また、「自己相関関数」は単に「自己相関」と呼ぶこともある。LがNより大きい値である場合には、自己相関関数の算出に最新のL個の音信号サンプルを用いるために、音声ピッチ強調装置内には信号記憶部140を備える。信号記憶部140は、少なくともL‐N個の音信号サンプルを記憶できるようにし、1つ前のフレームまでに入力されたL‐N個の音信号サンプルX0,X1,…,XL−N−1を記憶しておく。そして、自己相関関数算出部110は、現在のフレームのN個の時間領域の音信号サンプルが入力された際には、信号記憶部140に記憶されたL‐N個の音信号サンプルX0,X1,…,XL−N−1を読み出し、入力されたN個の時間領域の音信号サンプルをXL−N,XL−N+1,…,XL−1とすることにより、最新のL個の音信号サンプルX0,X1,…,XL−1を得る。
L=Nである場合には、入力されたN個の時間領域の音信号サンプルをそのまま最新のL個の音信号サンプルX0,X1,…,XL−1とすればよい。この場合、音声ピッチ強調装置内には信号記憶部140を備える必要はない。
そして、自己相関関数算出部110は、最新のL個の音信号サンプルX0,X1,…,XL−1を用いて、時間差0の自己相関関数R0、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出する。τ(1),…,τ(M)や0などの時間差をτとすると、自己相関関数算出部110は、自己相関関数Rτを例えば以下の式(1)で算出する。
自己相関関数算出部110は算出した自己相関関数R0,Rτ(1),…,Rτ(M)をピッチ分析部120に出力する。
なお、この時間差τ(1),…,τ(M)は後述するピッチ分析部120が求める現在のフレームのピッチ周期T0の候補である。例えば、サンプリング周波数32kHzの音声信号を主とする音信号の場合には、音声のピッチ周期の候補として好適な75から320までの整数値をτ(1),…,τ(M)とするなどの実装が考えられる。なお、式(1)のRτに代えて、式(1)のRτをR0で除算した正規化自己相関関数Rτ/R0を求めてもよい。ただし、ピッチ周期T0の候補である75から320に対して、Lを8192などの十分に大きな値とした場合などには、自己相関関数Rτに代えて正規化自己相関関数Rτ/R0を求めるよりも、以下で説明する演算量を抑えた方法で自己相関関数Rτを算出するほうがよい。
自己相関関数Rτは、式(1)そのもので算出してもよいが、式(1)で求まる値と同じ値を別の算出方法で算出してもよい。例えば、音声ピッチ強調装置内に自己相関関数記憶部160を備えて1つ前のフレーム(直前のフレーム)の自己相関関数を算出する処理で得られた自己相関関数(直前のフレームの自己相関関数)Rτ(1),…,Rτ(M)を記憶しておき、自己相関関数算出部110は、自己相関関数記憶部160から読み出した直前のフレームの処理で得られた自己相関関数(直前のフレームの自己相関関数)Rτ(1),…,Rτ(M)それぞれに、新たに入力された現在のフレームの音信号サンプルの寄与分の加算と、最も過去のフレームの寄与分の減算と、を行うことにより現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を算出するようにしてもよい。これにより、式(1)そのもので算出するよりも自己相関関数の算出に要する演算量を抑えることが可能である。この場合、τ(1),…,τ(M)のそれぞれをτとすると、自己相関関数算出部110は、現在のフレームの自己相関関数Rτを、直前のフレームの処理で得られた自己相関関数Rτ(直前のフレームの自己相関関数Rτ)に対して、以下の式(2)で得られる差分ΔRτ +を加算し、式(3)で得られる差分ΔRτ −を減算することにより得る。
また、入力された音信号の最新のL個の音信号サンプルそのものではなく、当該L個の音信号サンプルに対してダウンサンプリングやサンプルの間引きなどを行うことによりサンプル数を減らした信号を用いて、上記と同様の処理により自己相関関数を算出することで演算量を節約してもよい。この場合、M個の時間差τ(1),…,τ(M)は、例えばサンプル数を半分にした際には半分のサンプル数で表現する。例えば、上述したサンプリング周波数32kHzの8192個の音信号サンプルをサンプリング周波数16kHzの4096個のサンプルにダウンサンプリングした場合には、ピッチ周期Tの候補であるτ(1),…,τ(M)は、75から320の約半分である37から160とすればよい。
なお、信号記憶部140は、音声ピッチ強調装置が現在のフレームについての後述するピッチ強調部130の処理までを終えた後に、その時点で最新のL‐N個の音信号サンプルを記憶しておくように記憶内容を更新する。具体的には、例えば、L>2Nの場合、信号記憶部140は、記憶されているL‐N個の音信号サンプルのうちの一番古いN個の音信号サンプルX0,X1,…,XN−1を削除し、XN,XN+1,…,XL−N−1をX0,X1,…,XL−2N−1とし、入力された現在のフレームのN個の時間領域の音信号サンプルをXL−2N,XL−2N+1,…,XL−N−1として新たに記憶する。また、L≦2Nの場合、信号記憶部140は、記憶されているL‐N個の音信号サンプルX0,X1,…,XL−N−1を削除し、入力された現在のフレームのN個の時間領域の音信号サンプルのうちの最新のL‐N個の音信号サンプルをX0,X1,…,XL−N−1として新たに記憶する。
また、自己相関関数記憶部160は、自己相関関数算出部110が現在のフレームについての自己相関関数の算出を終えた後に、算出した現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を記憶しておくように記憶内容を更新する。具体的には、自己相関関数記憶部160は、記憶されているRτ(1),…,Rτ(M)を削除し、算出した現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を新たに記憶する。
なお、上述の説明では、最新のL個の音信号サンプルが現在のフレームのN個の音信号サンプルを含む(つまりL≧N)ことを前提としているが、必ずしもL≧Nである必要はなく、L<Nであってもよい。この場合、自己相関関数算出部110は、現在のフレームのN個に含まれる連続したL個の音信号サンプルX0,X1,…,XL−1を用いて、時間差0の自己相関関数R0、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出すればよく、L=Nの場合と同様に音声ピッチ強調装置内には信号記憶部140を備える必要はない。
[ピッチ分析処理(S120)]
次に、音声ピッチ強調装置が行うピッチ分析処理について説明する。
次に、音声ピッチ強調装置が行うピッチ分析処理について説明する。
ピッチ分析部120には、自己相関関数算出部110が出力した現在のフレームの自己相関関数R0,Rτ(1),…,Rτ(M)が入力される。
ピッチ分析部120は、所定の時間差に対する現在のフレームの自己相関関数Rτ(1),…,Rτ(M)の中での最大値を求め、自己相関関数の最大値と時間差0の自己相関関数R0の比を現在のフレームのピッチ利得σ0として得て、また、自己相関関数が最大値となる時間差を現在のフレームのピッチ周期T0として得て、得たピッチ利得σ0とピッチ周期T0とをピッチ強調部130へ出力する。なお、以下の説明において、現在のフレームからみてs個前(s個過去)のフレームのピッチ利得及びピッチ周期をそれぞれT−s及びσ−sと表記する。
[ピッチ強調処理(S130)]
次に、音声ピッチ強調装置が行うピッチ強調処理とこれに関連する処理について説明する。
次に、音声ピッチ強調装置が行うピッチ強調処理とこれに関連する処理について説明する。
ピッチ強調部130は、ピッチ分析部120が出力したピッチ周期とピッチ利得、及び音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号を受け取り、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T0に対応するピッチ成分と、過去のフレームのピッチ周期に対応するピッチ成分と、を強調して得た出力信号のサンプル列を出力する。例えば、ピッチ強調部130は、Nサンプルにより構成される当該時間区間の信号(現在のフレームの時間領域の音信号)Xn(L−N≦n≦L−1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、現在のフレームのピッチ周期T0に対応するサンプル数T0だけ、時刻nよりも過去の時刻である時刻n-T0の信号(以下、第1強調用信号ともいい、現在のフレームのピッチ周期T0に対応するピッチ成分である)Xn−T_0(ただし、下付き添え字におけるA_BはABを意味する)と、直前のフレームのピッチ周期T−1に対応するサンプル数T−1だけ、時刻nよりも過去の時刻である時刻n-T−1の信号(以下、第2強調用信号ともいい、直前のフレームのピッチ周期に対応するピッチ成分である)Xn−T_−1と、を含む信号を得、出力する。
以下、具体例を説明する。
ピッチ情報記憶部150には、1つ前のフレームのピッチ周期T−1とピッチ利得σ−1とを記憶しておく。
ピッチ強調部130は、入力された現在のフレームのピッチ利得σ0と、ピッチ情報記憶部150から読み出した1つ前のフレームのピッチ利得σ−1と、入力された現在のフレームのピッチ周期T0と、ピッチ情報記憶部150から読み出した1つ前のフレームのピッチ周期T−1とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。具体的には、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(4)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
ただし、式(4)のAは、下記の式(5)により求まる振幅補正係数である。
式(4)のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理である。さらに、式(4)のピッチ強調処理は、現在のフレームのピッチ周期T0に対応するピッチ成分を強調しつつ、そのピッチ成分より少し強調の度合いを落として直前フレームでのピッチ周期T−1に対応するピッチ成分も強調する処理である。このピッチ強調処理により、短い時間区間(フレーム)ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果を得ることができる。
具体的には、式(4)では、現在のフレームのピッチ周期T0に対応するピッチ成分σ0Xn-T0より強調の度合いを落として直前フレームでのピッチ周期T−1に対応するピッチ成分σ-1Xn-T-1も強調することを、現在のフレームのピッチ周期T0に対応するピッチ成分に乗算する値である3/4よりも小さな値である1/4を直前フレームのピッチ周期T−1に対応するピッチ成分に乗算することで実現している。
(変形例1)
ただし、3/4や1/4という値は一例であり、式(4)に代えて、予め定めた値であるB0とB―1を用いて下記の式(4A)により出力信号Xnew nを得てもよい。
ただし、3/4や1/4という値は一例であり、式(4)に代えて、予め定めた値であるB0とB―1を用いて下記の式(4A)により出力信号Xnew nを得てもよい。
なお、式(4A)においてはB0>B―1とするのが好ましいが、B0≦B―1としてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。
上記の式(5)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T0と直前のフレームのピッチ周期T−1とが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。すなわち、式(4A)により出力信号Xnew nを得るのであれば、振幅補正係数Aとして下記の式(5A)により求まる値を用いればよい。
(変形例2)
なお、振幅補正係数Aは、式(5)や式(5A)により求まる値ではなく、予め定めた1以上の値を用いてもよいし、振幅補正係数Aを用いずに式(4B)や式(4C)により出力信号Xnew nを得るようにしてもよい。
なお、振幅補正係数Aは、式(5)や式(5A)により求まる値ではなく、予め定めた1以上の値を用いてもよいし、振幅補正係数Aを用いずに式(4B)や式(4C)により出力信号Xnew nを得るようにしてもよい。
(変形例3)
また、より過去のフレーム(2つ以上前のフレーム)におけるピッチ周期に対応するピッチ成分も強調することにより、フレーム間におけるピッチ周期の変動による不連続性を更に低減できる。この場合、ピッチ周期に対応するピッチ成分を強調するために加算する値に掛ける係数は、例えば下記の式(6)のように、過去のピッチ周期であればあるほど小さく設定するのがよい。そして、振幅補正係数は例えば下記の式(6)のように、より過去のフレーム(2つ以上前のフレーム)のピッチ利得も含めて算出するのがよい。
また、より過去のフレーム(2つ以上前のフレーム)におけるピッチ周期に対応するピッチ成分も強調することにより、フレーム間におけるピッチ周期の変動による不連続性を更に低減できる。この場合、ピッチ周期に対応するピッチ成分を強調するために加算する値に掛ける係数は、例えば下記の式(6)のように、過去のピッチ周期であればあるほど小さく設定するのがよい。そして、振幅補正係数は例えば下記の式(6)のように、より過去のフレーム(2つ以上前のフレーム)のピッチ利得も含めて算出するのがよい。
ただし、式(6)においては、T−2及びσ−2はそれぞれ2フレーム前のピッチ周期及びピッチ利得である。すなわち、式(6)は現在のフレームのピッチ周期T0に対応するピッチ成分を強調しつつ、1つ前のフレームでのピッチ周期T−1に対応するピッチ成分と、2つ前のフレームでのピッチ周期T−2に対応するピッチ成分も強調する処理により出力信号Xnew nを得る場合の例である。もちろん、式(4)に対する式(4A)や、式(5)に対する式(5A)などと同様の変更を式(6)に対して行ってもよい。つまり、予め定めた値であるB0とB―1とB―2を用いて下記の式(6A)により出力信号Xnew nを得るようにしてもよい。
これらの場合には、ピッチ情報記憶部150は、2つ前のフレームのピッチ周期T−2とピッチ利得σ−2も記憶しておく。
また、3つ前のフレームでのピッチ周期に対応するピッチ成分なども強調する処理を行ってもよい。もちろん、この場合には、ピッチ情報記憶部150は、3つ前のフレームのピッチ周期T−3とピッチ利得σ−3も記憶しておく。
(変形例4)
ピッチ強調部130の処理における、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行った音信号における各ピッチ周期分前のサンプルを用いてもよい。例えば、対称的なローパスフィルタと等価な処理を上記の式(4)の処理と共に行うのであれば、下記の式(7)により出力信号Xnew nを得るようすればよい。下記の式(7)では、対称的なローパスフィルタと等価な処理を、ピッチ強調処理において各ピッチ周期分前周辺のサンプルに基づく値を加算することにより実現している。
ピッチ強調部130の処理における、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行った音信号における各ピッチ周期分前のサンプルを用いてもよい。例えば、対称的なローパスフィルタと等価な処理を上記の式(4)の処理と共に行うのであれば、下記の式(7)により出力信号Xnew nを得るようすればよい。下記の式(7)では、対称的なローパスフィルタと等価な処理を、ピッチ強調処理において各ピッチ周期分前周辺のサンプルに基づく値を加算することにより実現している。
(変形例5)
なお、上記のピッチ強調処理において、ピッチ利得が所定の閾値Thσより小さい場合には、そのピッチ成分を含まないピッチ強調処理を行うようにしてもよい。例えば、式(4)のピッチ強調処理を行う際に、現在のフレームのピッチ利得σ0が閾値Thσより小さい値であり、1つ前のフレームのピッチ利得σ−1が閾値Thσ以上の値である場合には、下記の式(8)により出力信号Xnew nを得るようにしてもよい。
なお、上記のピッチ強調処理において、ピッチ利得が所定の閾値Thσより小さい場合には、そのピッチ成分を含まないピッチ強調処理を行うようにしてもよい。例えば、式(4)のピッチ強調処理を行う際に、現在のフレームのピッチ利得σ0が閾値Thσより小さい値であり、1つ前のフレームのピッチ利得σ−1が閾値Thσ以上の値である場合には、下記の式(8)により出力信号Xnew nを得るようにしてもよい。
また、例えば、式(6)のピッチ強調を行う際に、現在のフレームのピッチ利得σ0が閾値Thσ以上の値であり、1つ前のフレームのピッチ利得σ−1が閾値Thσより小さい値であり、2つ前のフレームのピッチ利得σ−2が閾値Thσ以上の値である場合には、下記の式(9)により出力信号Xnew nを得ればよい。
なお、ピッチ情報記憶部150は、現在のフレームのピッチ周期とピッチ利得を、次のフレームのピッチ強調部130の処理において過去のフレームのピッチ周期とピッチ利得として用いることができるように、記憶内容を更新する。例えば、ピッチ強調部130が式(4)の処理を行う場合には、ピッチ情報記憶部150は、記憶されている1つ前のフレームのピッチ周期T−1とピッチ利得σ−1を削除し、代わりに、現在のフレームのピッチ周期T0をピッチ周期T−1として新たに記憶し、現在のフレームのピッチ利得σ0をピッチ利得σ−1として新たに記憶する。同様に、ピッチ強調部130が式(6)の処理を行う場合には、ピッチ情報記憶部150は、記憶されている2つ前のフレームのピッチ周期T−2とピッチ利得σ−2を削除し、記憶されている1つ前のフレームのピッチ周期T−1とピッチ利得σ−1のそれぞれをT−2とσ−2とし、現在のフレームのピッチ周期T0とピッチ利得σ0のそれぞれをT−1とσ−1として新たに記憶する。
(変形例6)
上述の第2強調用信号は必ずしも直前のフレームのピッチ周期に対応するピッチ成分でなくともよく、現在のフレームよりもα個過去のフレームのピッチ周期に対応するピッチ成分であればよい。ただし、αは1以上の整数の何れかである。つまり、ピッチ強調部130は、現在のフレームの時間領域の音信号サンプルXn(L−N≦n≦L−1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、現在のフレームのピッチ周期T0に対応するサンプル数T0だけ、時刻nよりも過去の時刻である時刻n-T0の信号(以下、第1強調用信号ともいい、現在のフレームのピッチ周期T0に対応するピッチ成分である)Xn−T_0と、現在のフレームよりもα個過去のフレームのピッチ周期T−αに対応するサンプル数T−αだけ、時刻nよりも過去の時刻である時刻n-T−αの信号(以下、第2強調用信号ともいい、α個過去のフレームのピッチ周期に対応するピッチ成分である)Xn−T_−αと、を含む信号を得てもよい。例えば、現在のフレームの音信号サンプルXn(L−N≦n≦L−1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、第1強調用信号Xn−T_0に、現在のフレームのピッチ利得σ0と、1より小さい値である所定の係数B0と、を乗算した信号と、第2強調用信号Xn−T_−αに、現在のフレームよりもα個過去のフレームのピッチ利得σ−αと、1より小さい値である所定の係数B−αと、を乗算した信号と、を加算した信号を
上述の第2強調用信号は必ずしも直前のフレームのピッチ周期に対応するピッチ成分でなくともよく、現在のフレームよりもα個過去のフレームのピッチ周期に対応するピッチ成分であればよい。ただし、αは1以上の整数の何れかである。つまり、ピッチ強調部130は、現在のフレームの時間領域の音信号サンプルXn(L−N≦n≦L−1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、現在のフレームのピッチ周期T0に対応するサンプル数T0だけ、時刻nよりも過去の時刻である時刻n-T0の信号(以下、第1強調用信号ともいい、現在のフレームのピッチ周期T0に対応するピッチ成分である)Xn−T_0と、現在のフレームよりもα個過去のフレームのピッチ周期T−αに対応するサンプル数T−αだけ、時刻nよりも過去の時刻である時刻n-T−αの信号(以下、第2強調用信号ともいい、α個過去のフレームのピッチ周期に対応するピッチ成分である)Xn−T_−αと、を含む信号を得てもよい。例えば、現在のフレームの音信号サンプルXn(L−N≦n≦L−1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、第1強調用信号Xn−T_0に、現在のフレームのピッチ利得σ0と、1より小さい値である所定の係数B0と、を乗算した信号と、第2強調用信号Xn−T_−αに、現在のフレームよりもα個過去のフレームのピッチ利得σ−αと、1より小さい値である所定の係数B−αと、を乗算した信号と、を加算した信号を
で除算した信号を得る処理を行ってもよい。つまり、
である。変形例1と同様にB0>B―αとするのが好ましいが、B0≦B―αとしてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。さらに、この変形例と上述の変形例2〜5とを組合せてもよい。
つまり、変形例2と組合せて、振幅補正係数Aを予め定めた1以上の値としてもよいし、振幅補正係数Aを用いなくともよい。
変形例3と組合せて、現在のフレームの時間領域の音信号サンプルXn(L−N≦n≦L−1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、第1強調用信号Xn−T_0と、第2強調用信号Xn−T_−αとに加え、現在のフレームよりもβ個過去のフレームのピッチ周期T−βに対応するサンプル数T−βだけ、時刻nよりも過去の時刻である時刻n-T−βの信号(以下、第3強調用信号ともいい、β個過去のフレームのピッチ周期に対応するピッチ成分である)Xn−T_−βも更に含む信号を得てもよい。ただし、β≠αである。例えば、β>αとすると、
である。B0>B―α>B―βとするのが好ましいが、この大小関係を満たさなくともフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。これらの場合には、ピッチ情報記憶部150は、β個前のフレームまでのピッチ周期T0,T−1,…,T−βとピッチ利得σ0,σ−1,…,σ−βを記憶しておく。また、現在のフレームの時間領域の音信号サンプルXn(L−N≦n≦L−1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、第1強調用信号Xn−T_0と、第2強調用信号Xn−T_−αと、第3強調用信号Xn−T_−βとに加え、Q個の第(q+3)強調用信号
を更に含む信号を得てもよい。ただし、q=1,2,…,Qであり、Qは1以上の整数の何れかであり、γQ>γQ-1>…>γ1>βとする。もちろん、この場合には、ピッチ情報記憶部150は、最も古いγQ個前のフレームまでのピッチ周期T0,T−1,…,T−γ_Qとピッチ利得σ0,σ−1,…,σ−γ_Qを記憶しておく。
変形例4と組合せて、ピッチ強調部130の処理における、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行った音信号における各ピッチ周期分前のサンプルを用いてもよい。
変形例5と組合せて、現在のフレームのピッチ利得σ0が所定の閾値より小さい場合には、第1強調用信号を出力信号に含めず、現在のフレームよりもα個過去のフレームのピッチ利得σ−αが所定の閾値より小さい場合には、第2強調用信号を出力信号に含めない構成としてもよい。
さらに、各変形例を組合せてもよい。例えば、変形例3と変形例5と変形例6とを組合せて、現在のフレームよりもβ個過去のフレームのピッチ利得σ−βが所定の閾値より小さい場合には、第3強調用信号を出力信号に含めない構成としてもよい。
<その他の変形例>
音声ピッチ強調装置外で行われる復号処理などにより各フレームのピッチ周期とピッチ利得を得られている場合には、音声ピッチ強調装置を図3の構成として、音声ピッチ強調装置外で得られたピッチ周期とピッチ利得に基づきピッチを強調してもよい。図4はその処理フローを示す。この場合には、音声ピッチ強調装置は、第一実施形態の音声ピッチ強調装置が備える自己相関関数算出部110やピッチ分析部120や自己相関関数記憶部160を備える必要はない。この場合、ピッチ強調部130が、ピッチ分析部120が出力したピッチ周期とピッチ利得ではなく、音声ピッチ強調装置に入力されたピッチ周期とピッチ利得を用いてピッチ強調処理(S130)を行うようにすればよい。このような構成とすれば、音声ピッチ強調装置自体の演算処理量は第一実施形態よりも少なくすることが可能である。ただし、第一実施形態の音声ピッチ強調装置は、音声ピッチ強調装置外のピッチ周期やピッチ利得を得る頻度に依存せずにピッチ周期やピッチ利得を得ることができることから、非常に短い時間長のフレーム単位でのピッチ強調処理を行うことが可能である。上記のサンプリング周波数32kHzの例であれば、Nを例えば32とすれば、1msのフレーム単位でピッチ強調処理を行うことができる。
音声ピッチ強調装置外で行われる復号処理などにより各フレームのピッチ周期とピッチ利得を得られている場合には、音声ピッチ強調装置を図3の構成として、音声ピッチ強調装置外で得られたピッチ周期とピッチ利得に基づきピッチを強調してもよい。図4はその処理フローを示す。この場合には、音声ピッチ強調装置は、第一実施形態の音声ピッチ強調装置が備える自己相関関数算出部110やピッチ分析部120や自己相関関数記憶部160を備える必要はない。この場合、ピッチ強調部130が、ピッチ分析部120が出力したピッチ周期とピッチ利得ではなく、音声ピッチ強調装置に入力されたピッチ周期とピッチ利得を用いてピッチ強調処理(S130)を行うようにすればよい。このような構成とすれば、音声ピッチ強調装置自体の演算処理量は第一実施形態よりも少なくすることが可能である。ただし、第一実施形態の音声ピッチ強調装置は、音声ピッチ強調装置外のピッチ周期やピッチ利得を得る頻度に依存せずにピッチ周期やピッチ利得を得ることができることから、非常に短い時間長のフレーム単位でのピッチ強調処理を行うことが可能である。上記のサンプリング周波数32kHzの例であれば、Nを例えば32とすれば、1msのフレーム単位でピッチ強調処理を行うことができる。
なお、以上の説明では、音信号そのものに対してピッチ強調処理を施すことを前提としていたが、非特許文献1に記載されているような線形予測残差に対してピッチ強調処理を行ってから線形予測合成をするような構成における、線形予測残差に対するピッチ強調処理として本発明を適用してもよい。すなわち、本発明を、音信号そのものではなく、音信号に対して分析や加工をして得た信号などの音信号に由来する信号に対して適用してもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (16)
- 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
前記ピッチ強調処理として、
各時間区間について、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、前記信号である第1強調用信号と、
当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T−αだけ、当該時刻よりも過去の時刻の、前記信号である第2強調用信号と、
を含む信号を得る処理を行う、
ピッチ強調部を含む、
ピッチ強調装置。 - 請求項1に記載のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
前記第1強調用信号に、当該時間区間のピッチ利得σ0と、1より小さい値である所定の係数B0と、を乗算した信号と、
前記第2強調用信号に、当該時間区間よりもα個過去の時間区間のピッチ利得σ−αと、1より小さい値である所定の係数B−αと、を乗算した信号と、
を加算した信号を含む出力信号を得るものである、
ピッチ強調装置。 - 請求項2に記載のピッチ強調装置であって、
前記係数B−αは前記係数B0より小さい値である、
ピッチ強調装置。 - 請求項1のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間のピッチ利得σ0が所定の閾値より小さい場合には、前記第1強調用信号を出力信号に含めない、
ピッチ強調装置。 - 請求項1または請求項5のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間よりもα個過去の時間区間のピッチ利得σ−αが所定の閾値より小さい場合には、前記第2強調用信号を出力信号に含めない、
ピッチ強調装置。 - 請求項1に記載のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間の各時刻の出力信号として、
当該時間区間よりも前記αとは異なるβ個過去の時間区間のピッチ周期に対応するサンプル数T−βだけ、当該時刻よりも過去の時刻の、前記信号である第3強調用信号も更に含む信号を得る、
ピッチ強調装置。 - 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
前記ピッチ強調処理として、
各時間区間について、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、前記信号である第1強調用信号と、
当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T−αだけ、当該時刻よりも過去の時刻の、前記信号である第2強調用信号と、
を含む信号を得る処理を行う、
ピッチ強調ステップを含む、
ピッチ強調方法。 - 請求項8に記載のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
前記第1強調用信号に、当該時間区間のピッチ利得σ0と、1より小さい値である所定の係数B0と、を乗算した信号と、
前記第2強調用信号に、当該時間区間よりもα個過去の時間区間のピッチ利得σ−αと、1より小さい値である所定の係数B−αと、を乗算した信号と、
を加算した信号を含む出力信号を得る、
ピッチ強調方法。 - 請求項9に記載のピッチ強調方法であって、
前記係数B−αは前記係数B0より小さい値である、
ピッチ強調方法。 - 請求項8のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間のピッチ利得σ0が所定の閾値より小さい場合には、前記第1強調用信号を出力信号に含めない、
ピッチ強調方法。 - 請求項8または請求項12のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間よりもα個過去の時間区間のピッチ利得σ−αが所定の閾値より小さい場合には、前記第2強調用信号を出力信号に含めない、
ピッチ強調方法。 - 請求項8に記載のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間の各時刻の出力信号として、
当該時間区間よりも前記αとは異なるβ個過去の時間区間のピッチ周期に対応するサンプル数T−βだけ、当該時刻よりも過去の時刻の、前記信号である第3強調用信号も更に含む信号を得る、
ピッチ強調方法。 - 請求項8から請求項14の何れかのピッチ強調方法をコンピュータに実行させるためのプログラム。
- 請求項8から請求項14の何れかのピッチ強調方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017231747 | 2017-12-01 | ||
JP2017231747 | 2017-12-01 | ||
PCT/JP2018/040150 WO2019107041A1 (ja) | 2017-12-01 | 2018-10-29 | ピッチ強調装置、その方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019107041A1 JPWO2019107041A1 (ja) | 2020-11-26 |
JP6911939B2 true JP6911939B2 (ja) | 2021-07-28 |
Family
ID=66664829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019557077A Active JP6911939B2 (ja) | 2017-12-01 | 2018-10-29 | ピッチ強調装置、その方法、およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11270719B2 (ja) |
EP (1) | EP3719800B1 (ja) |
JP (1) | JP6911939B2 (ja) |
CN (1) | CN111630594B (ja) |
WO (1) | WO2019107041A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111630594B (zh) * | 2017-12-01 | 2023-08-01 | 日本电信电话株式会社 | 基音增强装置、其方法以及记录介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4058676A (en) * | 1975-07-07 | 1977-11-15 | International Communication Sciences | Speech analysis and synthesis system |
JP4343302B2 (ja) * | 1998-01-26 | 2009-10-14 | パナソニック株式会社 | ピッチ強調方法及びその装置 |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
JP3559485B2 (ja) * | 1999-11-22 | 2004-09-02 | 日本電信電話株式会社 | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 |
WO2001052241A1 (en) * | 2000-01-11 | 2001-07-19 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
US20100010810A1 (en) * | 2006-12-13 | 2010-01-14 | Panasonic Corporation | Post filter and filtering method |
WO2008117384A1 (ja) | 2007-03-23 | 2008-10-02 | Fujitsu Limited | 電子装置、電子装置が実装された電子機器、電子装置が装着された物品、および電子装置の製造方法 |
CN101814291B (zh) * | 2009-02-20 | 2013-02-13 | 北京中星微电子有限公司 | 在时域提高语音信号信噪比的方法和装置 |
RU2510974C2 (ru) * | 2010-01-08 | 2014-04-10 | Ниппон Телеграф Энд Телефон Корпорейшн | Способ кодирования, способ декодирования, устройство кодера, устройство декодера, программа и носитель записи |
US8738385B2 (en) * | 2010-10-20 | 2014-05-27 | Broadcom Corporation | Pitch-based pre-filtering and post-filtering for compression of audio signals |
BR112013020482B1 (pt) * | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
US9640190B2 (en) * | 2012-08-29 | 2017-05-02 | Nippon Telegraph And Telephone Corporation | Decoding method, decoding apparatus, program, and recording medium therefor |
JP6261381B2 (ja) * | 2014-02-28 | 2018-01-17 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、プログラム |
CN111630594B (zh) * | 2017-12-01 | 2023-08-01 | 日本电信电话株式会社 | 基音增强装置、其方法以及记录介质 |
-
2018
- 2018-10-29 CN CN201880077503.5A patent/CN111630594B/zh active Active
- 2018-10-29 EP EP18882312.4A patent/EP3719800B1/en active Active
- 2018-10-29 JP JP2019557077A patent/JP6911939B2/ja active Active
- 2018-10-29 US US16/767,408 patent/US11270719B2/en active Active
- 2018-10-29 WO PCT/JP2018/040150 patent/WO2019107041A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
JPWO2019107041A1 (ja) | 2020-11-26 |
US20200388301A1 (en) | 2020-12-10 |
EP3719800A1 (en) | 2020-10-07 |
CN111630594A (zh) | 2020-09-04 |
US11270719B2 (en) | 2022-03-08 |
EP3719800A4 (en) | 2021-08-11 |
CN111630594B (zh) | 2023-08-01 |
WO2019107041A1 (ja) | 2019-06-06 |
EP3719800B1 (en) | 2022-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4689625B2 (ja) | 信号解析及び合成のための適応型混合変換 | |
US20230386498A1 (en) | Pitch emphasis apparatus, method and program for the same | |
KR20210003507A (ko) | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 | |
JP6911939B2 (ja) | ピッチ強調装置、その方法、およびプログラム | |
JP6962269B2 (ja) | ピッチ強調装置、その方法、およびプログラム | |
JP6989003B2 (ja) | ピッチ強調装置、その方法、プログラム、および記録媒体 | |
JP6261381B2 (ja) | 信号処理装置、信号処理方法、プログラム | |
JP5361565B2 (ja) | 符号化方法、復号方法、符号化器、復号器およびプログラム | |
JP2019090930A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
US20020184175A1 (en) | Digital signal processing method, learning method, apparatuses for them, and program storage medium | |
JP4438654B2 (ja) | 符号化装置、復号装置、符号化方法及び復号方法 | |
JP4438655B2 (ja) | 符号化装置、復号装置、符号化方法及び復号方法 | |
JP6220610B2 (ja) | 信号処理装置、信号処理方法、プログラム、記録媒体 | |
JPWO2018225412A1 (ja) | 符号化装置、復号装置、平滑化装置、逆平滑化装置、それらの方法、およびプログラム | |
JP2022014460A (ja) | 処理されたオーディオ信号表現を提供するための装置およびオーディオ信号プロセッサ、オーディオデコーダ、オーディオエンコーダ、方法、ならびにコンピュータプログラム | |
KR20170015432A (ko) | 주파수 영역 변환 기법 및 시간 영역 변환 기법을 전환하며 오디오 신호를 부호화하는 장치 및 방법 | |
Suman et al. | Enhancement of Compressed Speech Signal using Recursive Filter | |
KR20160030499A (ko) | 주파수 영역 변환 기법 및 시간 영역 변환 기법을 전환하며 오디오 신호를 부호화하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6911939 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |