JP6911939B2

JP6911939B2 - ピッチ強調装置、その方法、およびプログラム

Info

Publication number: JP6911939B2
Application number: JP2019557077A
Authority: JP
Inventors: 亮介杉浦; 優鎌本; 守谷　健弘; 健弘守谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-12-01
Filing date: 2018-10-29
Publication date: 2021-07-28
Anticipated expiration: 2038-10-29
Also published as: JPWO2019107041A1; US20200388301A1; EP3719800A1; CN111630594A; US11270719B2; EP3719800A4; CN111630594B; WO2019107041A1; EP3719800B1

Description

この発明は、音信号の符号化技術などの信号処理技術において、音信号に由来するサンプル列に対して、そのピッチ成分を分析し、強調する技術に関連する。

一般的に、時系列信号などのサンプル列を非可逆に圧縮符号化した場合、復号時に得られるサンプル列は元のサンプル列とは違った、歪のあるサンプル列となる。特に音信号の符号化においては、この歪が自然音にはないようなパターンを含むことが多く、復号した音信号を受聴した際に不自然に感じられることがある。そこで、自然音の多くがある一定区間で観測した際に音に応じた周期成分、つまりピッチ成分を含むことに着目し、復号した音信号の各サンプルに対して、ピッチ周期分だけ過去のサンプルを加算することにより、ピッチ成分を強調する処理を行い、より違和感の少ない音に変換する技術が広く用いられている。

例えば非特許文献１に記載されているように、ピッチ成分を強調する処理として、ピッチ周期を得る処理とそのピッチ周期を用いてピッチ成分を強調する処理とを一定の時間区間毎に行うことが一般的である。

ITU-T Recommendation G.723.1 (05/2006) pp.16-18, 2006

しかしながら、これらの処理を行う時間区間が長い場合には、時間区間の時間長の分だけ処理遅延が増えてしまうという課題や、入力された音信号のピッチ周期が変動しているにも関わらずその変動に対応したピッチ成分を強調できないという課題がある。

これらの課題は、上述した処理を行う時間区間を短くすれば解決できる。そして、例えば非特許文献１のように線形予測を伴う復号処理とピッチを強調する処理（ピッチ強調処理）とを併用する構成においては、線形予測残差に対してピッチ強調処理を行ってから線形予測合成をすることで、時間区間を短くしても更なる課題が生じることもない。しかし、線形予測を伴わない復号処理とピッチ強調処理とを併用する構成においては、線形予測残差に対してピッチ強調処理を行ってから線形予測合成をする非特許文献１と同様の構成とするためには、新たに線形予測分析を行うために演算処理量が大幅に増加してしまうという新たな課題が生じてしまう。この新たな課題を生じさせないためには、線形予測を伴わない復号処理とピッチ強調処理とを併用する構成においては、復号処理により得られた音信号そのものに対して参考文献１に記載されているようなピッチ強調処理を施す必要がある。
（参考文献１）D. Malah and R. Cox, "A generalized comb filtering technique for speech enhancement", in ICASSP 1982, vol. 7, pp. 160-163, 1982.

しかし、復号処理により得られた音信号そのものに対してピッチ強調処理を行う時間区間を短くしてしまうと、時間区間ごとに異なるピッチ周期でのピッチ強調処理が行われることによって音信号に不連続が頻繁に生じてしまい、受聴時の違和感が増してしまう、という別の課題が生じてしまう。

本発明は、この課題を解決するためのものであり、復号処理により得られた音信号そのものに対して短い時間区間ごとにピッチ強調処理を施す場合であっても、音信号のピッチ周期の変動に対応するピッチ周期に基づく、音信号の不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間について、当該時間区間の各時刻の出力信号として、当該時刻の信号と、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の、信号である第１強調用信号と、当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T_−αだけ、当該時刻よりも過去の時刻の、信号である第２強調用信号と、を含む信号を得る処理を行う、ピッチ強調部を含む。

上記の課題を解決するために、本発明の他の一態様によれば、ピッチ強調方法は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調方法は、ピッチ強調処理として、各時間区間について、当該時間区間の各時刻の出力信号として、当該時刻の信号と、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の、信号である第１強調用信号と、当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T_−αだけ、当該時刻よりも過去の時刻の、信号である第２強調用信号と、を含む信号を得る処理を行う、ピッチ強調ステップを含む。

本発明によれば、復号処理により得られた音信号そのものに対して短い時間区間ごとにピッチ強調処理を施す場合であっても、音信号のピッチ周期の変動に対応するピッチ周期に基づく、音信号の不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することができるという効果を奏する。

第一実施形態に係るピッチ強調装置の機能ブロック図。第一実施形態に係るピッチ強調装置の処理フローの例を示す図。第一実施形態の変形例に係るピッチ強調装置の機能ブロック図。第一実施形態の変形例に係るピッチ強調装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態では、現在の時間区間の入力された音信号そのものに対してピッチ強調処理を施す際に、現在の時間区間のピッチ周期に対応するピッチ成分だけを強調するのではなく、過去の時間区間のピッチ周期に対応するピッチ成分も強調する。

その際、過去の時間区間のピッチ周期に対応するピッチ成分の強調の度合いは、現在の時間区間のピッチ周期に対応するピッチ成分の強調の度合いより小さくすることが望ましい。また、過去の複数の時間区間のピッチ周期に対応するピッチ成分を強調する場合には、現在の時間区間から遠い時間区間ほど強調の度合いが小さくなるようにするとよい。ただし、それぞれの時間区間のピッチ周期に対応する成分の強調は、ピッチ利得に基づいて行う。

また、強調後のエネルギーの整合性を保つため、ピッチ強調の程度は、使用した全てのピッチ成分に基づいて決めるとよい。過去の複数の時間区間のピッチ周期に対応するピッチ成分を強調させる場合には、その複数のピッチ周期が近い値であることも想定して、強調後のエネルギーの整合性を保つようにするとよい。

＜第一実施形態＞
図１は第一実施形態に係る音声ピッチ強調装置の機能ブロック図を、図２はその処理フローを示す。

図１を参照して、第一実施形態の音声ピッチ強調装置の処理手続きを説明する。第一実施形態の音声ピッチ強調装置は、入力された信号を分析してピッチ周期とピッチ利得を得て、そのピッチ周期とピッチ利得に基づきピッチを強調するものである。第一実施形態の音声ピッチ強調装置は、自己相関関数算出部１１０とピッチ分析部１２０とピッチ強調部１３０と信号記憶部１４０とピッチ情報記憶部１５０とを備えるものであり、更に自己相関関数記憶部１６０を備えてもよい。

音声ピッチ強調装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ピッチ強調装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ピッチ強調装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声ピッチ強調装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声ピッチ強調装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声ピッチ強調装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、音声ピッチ強調装置の外部に備える構成としてもよい。

第一実施形態の音声ピッチ強調装置が行う主な処理は自己相関関数算出処理（Ｓ１１０）とピッチ分析処理（Ｓ１２０）とピッチ強調処理（Ｓ１３０）である（図２参照）。これらの処理は音声ピッチ強調装置が備える複数のハードウェア資源が連携して行うものであるので、以下では、自己相関関数算出処理（Ｓ１１０）とピッチ分析処理（Ｓ１２０）とピッチ強調処理（Ｓ１３０）のそれぞれについて、関連する処理と共に説明する。

［自己相関関数算出処理（Ｓ１１０）］
まず、音声ピッチ強調装置が行う自己相関関数算出処理とこれに関連する処理について説明する。

自己相関関数算出部１１０には、時間領域の音信号が入力される。この音信号は、例えば音声信号などの音響信号を符号化装置で圧縮符号化して符号を得て、その符号化装置に対応する復号装置で符号を復号して得た信号である。自己相関関数算出部１１０には、所定の時間長のフレーム（時間区間）単位で、音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。１フレームのサンプル列の長さを示す正の整数をNとすると、自己相関関数算出部１１０には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。自己相関関数算出部１１０は、入力されたN個の時間領域の音信号サンプルを含む最新のL個（Lは正の整数）の音信号サンプルによるサンプル列における時間差0の自己相関関数R₀及び複数個（M個、Mは正の整数）の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出する。すなわち、自己相関関数算出部１１０は、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数を算出する。

なお、以降では、現在のフレームの処理において自己相関関数算出部１１０が算出した自己相関関数、すなわち、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数、のことを「現在のフレームの自己相関関数」とも呼ぶ。同様に、過去のあるフレームをフレームFとしたとき、フレームFの処理において自己相関関数算出部１１０が算出した自己相関関数、すなわち、フレームFの時間領域の音信号サンプルを含むフレームFの時点での最新の音信号サンプルによるサンプル列における自己相関関数、のことを「フレームFの自己相関関数」とも呼ぶ。また、「自己相関関数」は単に「自己相関」と呼ぶこともある。LがNより大きい値である場合には、自己相関関数の算出に最新のL個の音信号サンプルを用いるために、音声ピッチ強調装置内には信号記憶部１４０を備える。信号記憶部１４０は、少なくともL‐N個の音信号サンプルを記憶できるようにし、１つ前のフレームまでに入力されたL‐N個の音信号サンプルX₀,X₁,…,X_L−N−1を記憶しておく。そして、自己相関関数算出部１１０は、現在のフレームのN個の時間領域の音信号サンプルが入力された際には、信号記憶部１４０に記憶されたL‐N個の音信号サンプルX₀,X₁,…,X_L−N−1を読み出し、入力されたN個の時間領域の音信号サンプルをX_L−N,X_L−N+1,…,X_L−1とすることにより、最新のL個の音信号サンプルX₀,X₁,…,X_L−1を得る。

L＝Nである場合には、入力されたN個の時間領域の音信号サンプルをそのまま最新のL個の音信号サンプルX₀,X₁,…,X_L−1とすればよい。この場合、音声ピッチ強調装置内には信号記憶部１４０を備える必要はない。

そして、自己相関関数算出部１１０は、最新のL個の音信号サンプルX₀,X₁,…,X_L−1を用いて、時間差0の自己相関関数R₀、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出する。τ(1),…,τ(M)や0などの時間差をτとすると、自己相関関数算出部１１０は、自己相関関数R_τを例えば以下の式(1)で算出する。

自己相関関数算出部１１０は算出した自己相関関数R₀,R_τ(1),…,R_τ(M)をピッチ分析部１２０に出力する。

なお、この時間差τ(1),…,τ(M)は後述するピッチ分析部１２０が求める現在のフレームのピッチ周期T₀の候補である。例えば、サンプリング周波数32kHzの音声信号を主とする音信号の場合には、音声のピッチ周期の候補として好適な75から320までの整数値をτ(1),…,τ(M)とするなどの実装が考えられる。なお、式(1)のR_τに代えて、式(1)のR_τをR₀で除算した正規化自己相関関数R_τ/R₀を求めてもよい。ただし、ピッチ周期T₀の候補である75から320に対して、Lを8192などの十分に大きな値とした場合などには、自己相関関数R_τに代えて正規化自己相関関数R_τ/R₀を求めるよりも、以下で説明する演算量を抑えた方法で自己相関関数R_τを算出するほうがよい。

自己相関関数R_τは、式(1)そのもので算出してもよいが、式(1)で求まる値と同じ値を別の算出方法で算出してもよい。例えば、音声ピッチ強調装置内に自己相関関数記憶部１６０を備えて１つ前のフレーム（直前のフレーム）の自己相関関数を算出する処理で得られた自己相関関数（直前のフレームの自己相関関数）R_τ(1),…,R_τ(M)を記憶しておき、自己相関関数算出部１１０は、自己相関関数記憶部１６０から読み出した直前のフレームの処理で得られた自己相関関数（直前のフレームの自己相関関数）R_τ(1),…,R_τ(M)それぞれに、新たに入力された現在のフレームの音信号サンプルの寄与分の加算と、最も過去のフレームの寄与分の減算と、を行うことにより現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を算出するようにしてもよい。これにより、式(1)そのもので算出するよりも自己相関関数の算出に要する演算量を抑えることが可能である。この場合、τ(1),…,τ(M)のそれぞれをτとすると、自己相関関数算出部１１０は、現在のフレームの自己相関関数R_τを、直前のフレームの処理で得られた自己相関関数R_τ（直前のフレームの自己相関関数R_τ）に対して、以下の式(2)で得られる差分ΔR_τ ⁺を加算し、式(3)で得られる差分ΔR_τ ⁻を減算することにより得る。

また、入力された音信号の最新のL個の音信号サンプルそのものではなく、当該L個の音信号サンプルに対してダウンサンプリングやサンプルの間引きなどを行うことによりサンプル数を減らした信号を用いて、上記と同様の処理により自己相関関数を算出することで演算量を節約してもよい。この場合、M個の時間差τ(1),…,τ(M)は、例えばサンプル数を半分にした際には半分のサンプル数で表現する。例えば、上述したサンプリング周波数32kHzの8192個の音信号サンプルをサンプリング周波数16kHzの4096個のサンプルにダウンサンプリングした場合には、ピッチ周期Tの候補であるτ(1),…,τ(M)は、75から320の約半分である37から160とすればよい。

なお、信号記憶部１４０は、音声ピッチ強調装置が現在のフレームについての後述するピッチ強調部１３０の処理までを終えた後に、その時点で最新のL‐N個の音信号サンプルを記憶しておくように記憶内容を更新する。具体的には、例えば、L＞2Nの場合、信号記憶部１４０は、記憶されているL‐N個の音信号サンプルのうちの一番古いN個の音信号サンプルX₀,X₁,…,X_N−1を削除し、X_N,X_N+1,…,X_L−N−1をX₀,X₁,…,X_L−2N−1とし、入力された現在のフレームのN個の時間領域の音信号サンプルをX_L−2N,X_L−2N+1,…,X_L−N−1として新たに記憶する。また、L≦2Nの場合、信号記憶部１４０は、記憶されているL‐N個の音信号サンプルX₀,X₁,…,X_L−N−1を削除し、入力された現在のフレームのN個の時間領域の音信号サンプルのうちの最新のL‐N個の音信号サンプルをX₀,X₁,…,X_L−N−1として新たに記憶する。

また、自己相関関数記憶部１６０は、自己相関関数算出部１１０が現在のフレームについての自己相関関数の算出を終えた後に、算出した現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を記憶しておくように記憶内容を更新する。具体的には、自己相関関数記憶部１６０は、記憶されているR_τ(1),…,R_τ(M)を削除し、算出した現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を新たに記憶する。

なお、上述の説明では、最新のL個の音信号サンプルが現在のフレームのN個の音信号サンプルを含む(つまりL≧N)ことを前提としているが、必ずしもL≧Nである必要はなく、L＜Nであってもよい。この場合、自己相関関数算出部１１０は、現在のフレームのN個に含まれる連続したL個の音信号サンプルX₀,X₁,…,X_L−1を用いて、時間差0の自己相関関数R₀、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出すればよく、L＝Nの場合と同様に音声ピッチ強調装置内には信号記憶部１４０を備える必要はない。

［ピッチ分析処理（Ｓ１２０）］
次に、音声ピッチ強調装置が行うピッチ分析処理について説明する。

ピッチ分析部１２０には、自己相関関数算出部１１０が出力した現在のフレームの自己相関関数R₀,R_τ(1),…,R_τ(M)が入力される。

ピッチ分析部１２０は、所定の時間差に対する現在のフレームの自己相関関数R_τ(1),…,R_τ(M)の中での最大値を求め、自己相関関数の最大値と時間差0の自己相関関数R₀の比を現在のフレームのピッチ利得σ₀として得て、また、自己相関関数が最大値となる時間差を現在のフレームのピッチ周期T₀として得て、得たピッチ利得σ₀とピッチ周期T₀とをピッチ強調部１３０へ出力する。なお、以下の説明において、現在のフレームからみてs個前(s個過去)のフレームのピッチ利得及びピッチ周期をそれぞれT_−s及びσ_−sと表記する。

［ピッチ強調処理（Ｓ１３０）］
次に、音声ピッチ強調装置が行うピッチ強調処理とこれに関連する処理について説明する。

ピッチ強調部１３０は、ピッチ分析部１２０が出力したピッチ周期とピッチ利得、及び音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号を受け取り、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T₀に対応するピッチ成分と、過去のフレームのピッチ周期に対応するピッチ成分と、を強調して得た出力信号のサンプル列を出力する。例えば、ピッチ強調部１３０は、Nサンプルにより構成される当該時間区間の信号(現在のフレームの時間領域の音信号)X_n（L−N≦n≦L−1）に含まれる各時刻nの信号に対応する出力信号X^new _nとして、時刻nの信号X_nと、現在のフレームのピッチ周期T₀に対応するサンプル数T₀だけ、時刻nよりも過去の時刻である時刻n-T₀の信号（以下、第１強調用信号ともいい、現在のフレームのピッチ周期T₀に対応するピッチ成分である)X_{n−T_0}(ただし、下付き添え字におけるA_BはA_Bを意味する)と、直前のフレームのピッチ周期T₋₁に対応するサンプル数T₋₁だけ、時刻nよりも過去の時刻である時刻n-T₋₁の信号（以下、第２強調用信号ともいい、直前のフレームのピッチ周期に対応するピッチ成分である)X_{n−T_−１}と、を含む信号を得、出力する。

以下、具体例を説明する。

ピッチ情報記憶部１５０には、１つ前のフレームのピッチ周期T₋₁とピッチ利得σ₋₁とを記憶しておく。

ピッチ強調部１３０は、入力された現在のフレームのピッチ利得σ₀と、ピッチ情報記憶部１５０から読み出した1つ前のフレームのピッチ利得σ₋₁と、入力された現在のフレームのピッチ周期T₀と、ピッチ情報記憶部１５０から読み出した1つ前のフレームのピッチ周期T₋₁とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。具体的には、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(4)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

ただし、式(4)のAは、下記の式(5)により求まる振幅補正係数である。

式(4)のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理である。さらに、式(4)のピッチ強調処理は、現在のフレームのピッチ周期T₀に対応するピッチ成分を強調しつつ、そのピッチ成分より少し強調の度合いを落として直前フレームでのピッチ周期T₋₁に対応するピッチ成分も強調する処理である。このピッチ強調処理により、短い時間区間（フレーム）ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果を得ることができる。

具体的には、式(4)では、現在のフレームのピッチ周期T₀に対応するピッチ成分σ₀X_n-T0より強調の度合いを落として直前フレームでのピッチ周期T₋₁に対応するピッチ成分σ_-1X_n-T-1も強調することを、現在のフレームのピッチ周期T₀に対応するピッチ成分に乗算する値である3/4よりも小さな値である1/4を直前フレームのピッチ周期T₋₁に対応するピッチ成分に乗算することで実現している。

（変形例１）
ただし、3/4や1/4という値は一例であり、式(4)に代えて、予め定めた値であるB₀とB_―1を用いて下記の式(4A)により出力信号X^new _nを得てもよい。

なお、式(4A)においてはB₀>B_―1とするのが好ましいが、B₀≦B_―1としてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。

上記の式(5)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T₀と直前のフレームのピッチ周期T₋₁とが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。すなわち、式(4A)により出力信号X^new _nを得るのであれば、振幅補正係数Aとして下記の式(5A)により求まる値を用いればよい。

（変形例２）
なお、振幅補正係数Aは、式(5)や式(5A)により求まる値ではなく、予め定めた１以上の値を用いてもよいし、振幅補正係数Aを用いずに式(4B)や式(4C)により出力信号X^new _nを得るようにしてもよい。

（変形例３）
また、より過去のフレーム（２つ以上前のフレーム）におけるピッチ周期に対応するピッチ成分も強調することにより、フレーム間におけるピッチ周期の変動による不連続性を更に低減できる。この場合、ピッチ周期に対応するピッチ成分を強調するために加算する値に掛ける係数は、例えば下記の式(6)のように、過去のピッチ周期であればあるほど小さく設定するのがよい。そして、振幅補正係数は例えば下記の式(6)のように、より過去のフレーム（２つ以上前のフレーム）のピッチ利得も含めて算出するのがよい。

ただし、式(6)においては、T₋₂及びσ₋₂はそれぞれ２フレーム前のピッチ周期及びピッチ利得である。すなわち、式(6)は現在のフレームのピッチ周期T₀に対応するピッチ成分を強調しつつ、１つ前のフレームでのピッチ周期T₋₁に対応するピッチ成分と、２つ前のフレームでのピッチ周期T₋₂に対応するピッチ成分も強調する処理により出力信号X^new _nを得る場合の例である。もちろん、式(4)に対する式(4A)や、式(5)に対する式(5A)などと同様の変更を式(6)に対して行ってもよい。つまり、予め定めた値であるB₀とB_―1とB_―2を用いて下記の式(6A)により出力信号X^new _nを得るようにしてもよい。

これらの場合には、ピッチ情報記憶部１５０は、２つ前のフレームのピッチ周期T₋₂とピッチ利得σ₋₂も記憶しておく。

また、３つ前のフレームでのピッチ周期に対応するピッチ成分なども強調する処理を行ってもよい。もちろん、この場合には、ピッチ情報記憶部１５０は、３つ前のフレームのピッチ周期T₋₃とピッチ利得σ₋₃も記憶しておく。

（変形例４）
ピッチ強調部１３０の処理における、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行った音信号における各ピッチ周期分前のサンプルを用いてもよい。例えば、対称的なローパスフィルタと等価な処理を上記の式(4)の処理と共に行うのであれば、下記の式(7)により出力信号X^new _nを得るようすればよい。下記の式(7)では、対称的なローパスフィルタと等価な処理を、ピッチ強調処理において各ピッチ周期分前周辺のサンプルに基づく値を加算することにより実現している。

（変形例５）
なお、上記のピッチ強調処理において、ピッチ利得が所定の閾値Th_σより小さい場合には、そのピッチ成分を含まないピッチ強調処理を行うようにしてもよい。例えば、式(4)のピッチ強調処理を行う際に、現在のフレームのピッチ利得σ₀が閾値Th_σより小さい値であり、１つ前のフレームのピッチ利得σ₋₁が閾値Th_σ以上の値である場合には、下記の式(8)により出力信号X^new _nを得るようにしてもよい。

また、例えば、式(6)のピッチ強調を行う際に、現在のフレームのピッチ利得σ₀が閾値Th_σ以上の値であり、１つ前のフレームのピッチ利得σ₋₁が閾値Th_σより小さい値であり、２つ前のフレームのピッチ利得σ₋₂が閾値Th_σ以上の値である場合には、下記の式(9)により出力信号X^new _nを得ればよい。

なお、ピッチ情報記憶部１５０は、現在のフレームのピッチ周期とピッチ利得を、次のフレームのピッチ強調部１３０の処理において過去のフレームのピッチ周期とピッチ利得として用いることができるように、記憶内容を更新する。例えば、ピッチ強調部１３０が式(4)の処理を行う場合には、ピッチ情報記憶部１５０は、記憶されている１つ前のフレームのピッチ周期T₋₁とピッチ利得σ₋₁を削除し、代わりに、現在のフレームのピッチ周期T₀をピッチ周期T₋₁として新たに記憶し、現在のフレームのピッチ利得σ₀をピッチ利得σ₋₁として新たに記憶する。同様に、ピッチ強調部１３０が式(6)の処理を行う場合には、ピッチ情報記憶部１５０は、記憶されている２つ前のフレームのピッチ周期T₋₂とピッチ利得σ₋₂を削除し、記憶されている１つ前のフレームのピッチ周期T₋₁とピッチ利得σ₋₁のそれぞれをT₋₂とσ₋₂とし、現在のフレームのピッチ周期T₀とピッチ利得σ₀のそれぞれをT₋₁とσ₋₁として新たに記憶する。

（変形例６）
上述の第２強調用信号は必ずしも直前のフレームのピッチ周期に対応するピッチ成分でなくともよく、現在のフレームよりもα個過去のフレームのピッチ周期に対応するピッチ成分であればよい。ただし、αは1以上の整数の何れかである。つまり、ピッチ強調部１３０は、現在のフレームの時間領域の音信号サンプルX_n（L−N≦n≦L−1）に含まれる各時刻nの信号に対応する出力信号X^new _nとして、時刻nの信号X_nと、現在のフレームのピッチ周期T₀に対応するサンプル数T₀だけ、時刻nよりも過去の時刻である時刻n-T₀の信号（以下、第１強調用信号ともいい、現在のフレームのピッチ周期T₀に対応するピッチ成分である)X_{n−T_0}と、現在のフレームよりもα個過去のフレームのピッチ周期T_−αに対応するサンプル数T_−αだけ、時刻nよりも過去の時刻である時刻n-T_−αの信号（以下、第２強調用信号ともいい、α個過去のフレームのピッチ周期に対応するピッチ成分である)X_{n−T_−α}と、を含む信号を得てもよい。例えば、現在のフレームの音信号サンプルX_n（L−N≦n≦L−1）に含まれる各時刻nの信号に対応する出力信号X^new _nとして、時刻nの信号X_nと、第１強調用信号X_{n−T_0}に、現在のフレームのピッチ利得σ₀と、１より小さい値である所定の係数B₀と、を乗算した信号と、第２強調用信号X_{n−T_−α}に、現在のフレームよりもα個過去のフレームのピッチ利得σ_−αと、１より小さい値である所定の係数B_−αと、を乗算した信号と、を加算した信号を

で除算した信号を得る処理を行ってもよい。つまり、

である。変形例１と同様にB₀>B_―αとするのが好ましいが、B₀≦B_―αとしてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。さらに、この変形例と上述の変形例２〜５とを組合せてもよい。

つまり、変形例２と組合せて、振幅補正係数Aを予め定めた１以上の値としてもよいし、振幅補正係数Aを用いなくともよい。

変形例３と組合せて、現在のフレームの時間領域の音信号サンプルX_n（L−N≦n≦L−1）に含まれる各時刻nの信号に対応する出力信号X^new _nとして、時刻nの信号X_nと、第１強調用信号X_{n−T_0}と、第２強調用信号X_{n−T_−α}とに加え、現在のフレームよりもβ個過去のフレームのピッチ周期T_−βに対応するサンプル数T_−βだけ、時刻nよりも過去の時刻である時刻n-T_−βの信号（以下、第３強調用信号ともいい、β個過去のフレームのピッチ周期に対応するピッチ成分である)X_{n−T_−β}も更に含む信号を得てもよい。ただし、β≠αである。例えば、β>αとすると、

である。B₀>B_―α>B_―βとするのが好ましいが、この大小関係を満たさなくともフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。これらの場合には、ピッチ情報記憶部１５０は、β個前のフレームまでのピッチ周期T₀,T₋₁,…,T_−βとピッチ利得σ₀,σ₋₁,…,σ_−βを記憶しておく。また、現在のフレームの時間領域の音信号サンプルX_n（L−N≦n≦L−1）に含まれる各時刻nの信号に対応する出力信号X^new _nとして、時刻nの信号X_nと、第１強調用信号X_{n−T_0}と、第２強調用信号X_{n−T_−α}と、第３強調用信号X_{n−T_−β}とに加え、Q個の第（ｑ＋３）強調用信号

を更に含む信号を得てもよい。ただし、q=1,2,…,Qであり、Qは1以上の整数の何れかであり、γ_Q>γ_Q-1>…>γ₁>βとする。もちろん、この場合には、ピッチ情報記憶部１５０は、最も古いγ_Q個前のフレームまでのピッチ周期T₀,T₋₁,…,T_{−γ_Q}とピッチ利得σ₀,σ₋₁,…,σ_{−γ_Q}を記憶しておく。

変形例４と組合せて、ピッチ強調部１３０の処理における、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行った音信号における各ピッチ周期分前のサンプルを用いてもよい。

変形例５と組合せて、現在のフレームのピッチ利得σ₀が所定の閾値より小さい場合には、第１強調用信号を出力信号に含めず、現在のフレームよりもα個過去のフレームのピッチ利得σ_−αが所定の閾値より小さい場合には、第２強調用信号を出力信号に含めない構成としてもよい。

さらに、各変形例を組合せてもよい。例えば、変形例３と変形例５と変形例６とを組合せて、現在のフレームよりもβ個過去のフレームのピッチ利得σ_−βが所定の閾値より小さい場合には、第３強調用信号を出力信号に含めない構成としてもよい。

＜その他の変形例＞
音声ピッチ強調装置外で行われる復号処理などにより各フレームのピッチ周期とピッチ利得を得られている場合には、音声ピッチ強調装置を図３の構成として、音声ピッチ強調装置外で得られたピッチ周期とピッチ利得に基づきピッチを強調してもよい。図４はその処理フローを示す。この場合には、音声ピッチ強調装置は、第一実施形態の音声ピッチ強調装置が備える自己相関関数算出部１１０やピッチ分析部１２０や自己相関関数記憶部１６０を備える必要はない。この場合、ピッチ強調部１３０が、ピッチ分析部１２０が出力したピッチ周期とピッチ利得ではなく、音声ピッチ強調装置に入力されたピッチ周期とピッチ利得を用いてピッチ強調処理（Ｓ１３０）を行うようにすればよい。このような構成とすれば、音声ピッチ強調装置自体の演算処理量は第一実施形態よりも少なくすることが可能である。ただし、第一実施形態の音声ピッチ強調装置は、音声ピッチ強調装置外のピッチ周期やピッチ利得を得る頻度に依存せずにピッチ周期やピッチ利得を得ることができることから、非常に短い時間長のフレーム単位でのピッチ強調処理を行うことが可能である。上記のサンプリング周波数32kHzの例であれば、Nを例えば32とすれば、1msのフレーム単位でピッチ強調処理を行うことができる。

なお、以上の説明では、音信号そのものに対してピッチ強調処理を施すことを前提としていたが、非特許文献１に記載されているような線形予測残差に対してピッチ強調処理を行ってから線形予測合成をするような構成における、線形予測残差に対するピッチ強調処理として本発明を適用してもよい。すなわち、本発明を、音信号そのものではなく、音信号に対して分析や加工をして得た信号などの音信号に由来する信号に対して適用してもよい。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
前記ピッチ強調処理として、
各時間区間について、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の、前記信号である第１強調用信号と、
当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T_−αだけ、当該時刻よりも過去の時刻の、前記信号である第２強調用信号と、
を含む信号を得る処理を行う、
ピッチ強調部を含む、
ピッチ強調装置。
請求項１に記載のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
前記第１強調用信号に、当該時間区間のピッチ利得σ₀と、１より小さい値である所定の係数B₀と、を乗算した信号と、
前記第２強調用信号に、当該時間区間よりもα個過去の時間区間のピッチ利得σ_−αと、１より小さい値である所定の係数B_−αと、を乗算した信号と、
を加算した信号を含む出力信号を得るものである、
ピッチ強調装置。
請求項２に記載のピッチ強調装置であって、
前記係数B_−αは前記係数B₀より小さい値である、
ピッチ強調装置。
請求項２または３に記載のピッチ強調装置であって、
前記ピッチ強調部は、
前記加算した信号を

で除算した信号を出力信号として得るものである、
ピッチ強調装置。
請求項１のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間のピッチ利得σ₀が所定の閾値より小さい場合には、前記第１強調用信号を出力信号に含めない、
ピッチ強調装置。
請求項１または請求項５のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間よりもα個過去の時間区間のピッチ利得σ_−αが所定の閾値より小さい場合には、前記第２強調用信号を出力信号に含めない、
ピッチ強調装置。
請求項１に記載のピッチ強調装置であって、
前記ピッチ強調部は、
当該時間区間の各時刻の出力信号として、
当該時間区間よりも前記αとは異なるβ個過去の時間区間のピッチ周期に対応するサンプル数T_−βだけ、当該時刻よりも過去の時刻の、前記信号である第３強調用信号も更に含む信号を得る、
ピッチ強調装置。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
前記ピッチ強調処理として、
各時間区間について、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の、前記信号である第１強調用信号と、
当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T_−αだけ、当該時刻よりも過去の時刻の、前記信号である第２強調用信号と、
を含む信号を得る処理を行う、
ピッチ強調ステップを含む、
ピッチ強調方法。
請求項８に記載のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間の各時刻の出力信号として、
当該時刻の前記信号と、
前記第１強調用信号に、当該時間区間のピッチ利得σ₀と、１より小さい値である所定の係数B₀と、を乗算した信号と、
前記第２強調用信号に、当該時間区間よりもα個過去の時間区間のピッチ利得σ_−αと、１より小さい値である所定の係数B_−αと、を乗算した信号と、
を加算した信号を含む出力信号を得る、
ピッチ強調方法。
請求項９に記載のピッチ強調方法であって、
前記係数B_−αは前記係数B₀より小さい値である、
ピッチ強調方法。
請求項９または１０に記載のピッチ強調方法であって、
前記ピッチ強調ステップは、
前記加算した信号を

で除算した信号を出力信号として得る、
ピッチ強調方法。
請求項８のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間のピッチ利得σ₀が所定の閾値より小さい場合には、前記第１強調用信号を出力信号に含めない、
ピッチ強調方法。
請求項８または請求項１２のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間よりもα個過去の時間区間のピッチ利得σ_−αが所定の閾値より小さい場合には、前記第２強調用信号を出力信号に含めない、
ピッチ強調方法。
請求項８に記載のピッチ強調方法であって、
前記ピッチ強調ステップは、
当該時間区間の各時刻の出力信号として、
当該時間区間よりも前記αとは異なるβ個過去の時間区間のピッチ周期に対応するサンプル数T_−βだけ、当該時刻よりも過去の時刻の、前記信号である第３強調用信号も更に含む信号を得る、
ピッチ強調方法。
請求項８から請求項１４の何れかのピッチ強調方法をコンピュータに実行させるためのプログラム。
請求項８から請求項１４の何れかのピッチ強調方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。