JP6989003B2

JP6989003B2 - ピッチ強調装置、その方法、プログラム、および記録媒体

Info

Publication number: JP6989003B2
Application number: JP2020518174A
Authority: JP
Inventors: 優鎌本; 亮介杉浦; 健弘守谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-05-10
Filing date: 2019-03-22
Publication date: 2022-01-05
Anticipated expiration: 2039-03-22
Also published as: EP3792917A4; EP3792917A1; US20210233549A1; WO2019216037A1; JPWO2019216037A1; CN112088404B; EP3792917B1; CN112088404A

Description

この発明は、音信号の符号化技術などの信号処理技術において、音信号に由来するサンプル列に対して、そのピッチ成分を分析し、強調する技術に関連する。

一般的に、時系列信号などのサンプル列を非可逆に圧縮符号化した場合、復号時に得られるサンプル列は元のサンプル列とは違った、歪のあるサンプル列となる。特に音信号の符号化においては、この歪が自然音にはないようなパターンを含むことが多く、復号した音信号を受聴した際に不自然に感じられることがある。そこで、自然音の多くがある一定区間で観測した際に音に応じた周期成分、つまりピッチを含むことに着目し、復号により得た音信号の各サンプルに対して、ピッチ周期分だけ過去のサンプルを加算することにより、ピッチ成分を強調する処理（ピッチ強調処理）を行う。このピッチ強調処理によって、より違和感の少ない音に変換する技術が広く用いられている（例えば非特許文献１）。

また、例えば特許文献１に記載されているように、復号により得た音信号が「音声」であるか「非音声」であるかの情報に基づき、「音声」である場合にはピッチ成分を強調する処理を行い、「非音声」である場合にはピッチ成分を強調する処理を行わない技術もある。

ITU-T Recommendation G.723.1 (05/2006) pp.16-18, 2006

特開平１０−１４３１９５号公報

しかしながら、非特許文献１に記載された技術には、明確なピッチ構造をもたない子音部についてもピッチ成分を強調する処理を行ってしまうことにより、子音部を受聴した際に不自然に感じられるという課題がある。一方、特許文献１に記載された技術では、子音部に信号としてはピッチ成分が存在している場合であってもピッチ成分を強調する処理を全く行わないことから、子音部を受聴した際に不自然に感じられるという課題がある。また、特許文献１に記載された技術には、母音の時間区間と子音の時間区間とでピッチ強調処理の有無が切り替わることによって音信号に不連続が頻繁に生じてしまい、受聴時の違和感が増してしまう、という課題もある。

本発明は、これらの課題を解決するためのものであり、子音の時間区間であっても違和感が少ないピッチ強調処理であり、子音の時間区間とそれ以外の時間区間とが頻繁に切り替わる場合であっても不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することを目的とする。なお、子音は、摩擦音、破裂音、半母音、鼻音、および破擦音を含む(参考文献１、参考文献２参照)。
(参考文献１)古井貞煕著、「音響・音声工学」、近代科学社、1992年、p.99
(参考文献２)斎藤収三、中田和男、「音声情報処理の基礎」、オーム社、1981年、p.38-39

上記の課題を解決するために、本発明の一態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、信号が子音であると判定された時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得、信号が子音でないと判定された時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。

上記の課題を解決するために、本発明の他の態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀と、当該時間区間が子音らしければ子音らしいほど小さい値と、を乗算した信号と、当該時刻nの信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。

上記の課題を解決するために、本発明の他の態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、信号が子音である、または／および、信号のスペクトル包絡が平坦であると判定された時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得、それ以外の判定がされた時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。

上記の課題を解決するために、本発明の他の態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の信号と、当該時間区間のピッチ利得σ₀と、当該時間区間が子音らしければ子音らしいほど小さくかつ当該時間区間のスペクトル包絡が平坦であればあるほど小さい値と、を乗算した信号と、当該時刻nの信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。

本発明によれば、復号処理により得られた音声信号に対してピッチ強調処理を施す場合に、子音の時間区間であっても違和感が少なく、子音の時間区間とそれ以外の時間区間とが頻繁に切り替わる場合であっても不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することができるという効果を奏する。

第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例に係るピッチ強調装置の機能ブロック図。第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例に係るピッチ強調装置の処理フローの例を示す図。その他の変形例に係るピッチ強調装置の機能ブロック図。その他の変形例に係るピッチ強調装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
図１は第一実施形態に係る音声ピッチ強調装置１００の機能ブロック図を、図２はその処理フローを示す。

図１を参照して、第一実施形態の音声ピッチ強調装置１００の処理手続きを説明する。第一実施形態の音声ピッチ強調装置１００は、入力された信号を分析してピッチ周期とピッチ利得を得て、そのピッチ周期とピッチ利得に基づきピッチを強調するものである。本実施形態では、時間区間ごとの入力された音信号に対してピッチ周期に対応するピッチ成分にピッチ利得を乗算したものを用いてピッチ強調処理を施す際に、子音の時間区間のピッチ成分の強調の度合いを、子音以外の時間区間のピッチ成分の強調の度合いより小さくする。または、時間区間のピッチ成分の強調の度合いを、子音らしければ子音らしいほど小さくする。より具体的には、子音の時間区間については、ピッチ利得の代わりに、ピッチ利得に1より小さい値を乗算したものを用いる。第一実施形態の音声ピッチ強調装置１００は、信号特徴分析部１７０と自己相関関数算出部１１０とピッチ分析部１２０とピッチ強調部１３０と信号記憶部１４０とを備えるものである。更に第一実施形態の音声ピッチ強調装置１００は、ピッチ情報記憶部１５０と自己相関関数記憶部１６０と減衰係数記憶部１８０とを備えてもよい。

音声ピッチ強調装置１００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ピッチ強調装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ピッチ強調装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声ピッチ強調装置１００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声ピッチ強調装置１００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声ピッチ強調装置１００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、音声ピッチ強調装置１００の外部に備える構成としてもよい。

第一実施形態の音声ピッチ強調装置１００が行う主な処理は自己相関関数算出処理（Ｓ１１０）とピッチ分析処理（Ｓ１２０）と信号特徴分析処理（Ｓ１７０）とピッチ強調処理（Ｓ１３０）である（図２参照）。これらの処理は音声ピッチ強調装置１００が備える複数のハードウェア資源が連携して行うものであるので、以下では、自己相関関数算出処理（Ｓ１１０）とピッチ分析処理（Ｓ１２０）と信号特徴分析処理（Ｓ１７０）とピッチ強調処理（Ｓ１３０）のそれぞれについて、関連する処理と共に説明する。

［自己相関関数算出処理（Ｓ１１０）］
まず、音声ピッチ強調装置１００が行う自己相関関数算出処理とこれに関連する処理について説明する。

自己相関関数算出部１１０には、時間領域の音信号(入力信号)が入力される。この音信号は、例えば音声信号などの音響信号を符号化装置で圧縮符号化して符号を得て、その符号化装置に対応する復号装置で符号を復号して得た信号である。自己相関関数算出部１１０には、所定の時間長のフレーム（時間区間）単位で、音声ピッチ強調装置１００に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。１フレームのサンプル列の長さを示す正の整数をNとすると、自己相関関数算出部１１０には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。自己相関関数算出部１１０は、入力されたN個の時間領域の音信号サンプルを含む最新のL個（Lは正の整数）の音信号サンプルによるサンプル列における時間差0の自己相関関数R₀及び複数個（M個、Mは正の整数）の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出する。すなわち、自己相関関数算出部１１０は、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数を算出する。

なお、以降では、現在のフレームの処理において自己相関関数算出部１１０が算出した自己相関関数、すなわち、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数、のことを「現在のフレームの自己相関関数」とも呼ぶ。同様に、過去のあるフレームをフレームFとしたとき、フレームFの処理において自己相関関数算出部１１０が算出した自己相関関数、すなわち、フレームFの時間領域の音信号サンプルを含むフレームFの時点での最新の音信号サンプルによるサンプル列における自己相関関数、のことを「フレームFの自己相関関数」とも呼ぶ。また、「自己相関関数」は単に「自己相関」と呼ぶこともある。LがNより大きい値である場合には、自己相関関数の算出に最新のL個の音信号サンプルを用いるために、音声ピッチ強調装置１００内には信号記憶部１４０を備え、信号記憶部１４０に１つ前のフレームまでに入力された最新の少なくともL‐N個の音信号サンプルを記憶できるようにしておく。そして、自己相関関数算出部１１０は、現在のフレームのN個の時間領域の音信号サンプルが入力された際には、信号記憶部１４０に記憶された最新のL‐N個の音信号サンプルをX₀,X₁,…,X_L−N−1として読み出し、入力されたN個の時間領域の音信号サンプルをX_L−N,X_L−N+1,…,X_L−1とすることにより、最新のL個の音信号サンプルX₀,X₁,…,X_L−1を得る。

そして、自己相関関数算出部１１０は、最新のL個の音信号サンプルX₀,X₁,…,X_L−1を用いて、時間差0の自己相関関数R₀、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出する。τ(1),…,τ(M)や0などの時間差をτとすると、自己相関関数算出部１１０は、自己相関関数R_τを例えば以下の式(1)で算出する。

自己相関関数算出部１１０は算出した自己相関関数R₀,R_τ(1),…,R_τ(M)をピッチ分析部１２０に出力する。

なお、この時間差τ(1),…,τ(M)は後述するピッチ分析部１２０が求める現在のフレームのピッチ周期T₀の候補である。例えば、サンプリング周波数32kHzの音声信号を主とする音信号の場合には、音声のピッチ周期の候補として好適な75から320までの整数値をτ(1),…,τ(M)とするなどの実装が考えられる。なお、式(1)のR_τに代えて、式(1)のR_τをR₀で除算した正規化自己相関関数R_τ/R₀を求めてもよい。ただし、Lを8192などのピッチ周期T₀の候補である75から320に対して十分に大きな値とした場合などには、自己相関関数R_τに代えて正規化自己相関関数R_τ/R₀を求めるよりも、以下で説明する演算量を抑えた方法で自己相関関数R_τを算出するほうがよい。

自己相関関数R_τは、式(1)そのもので算出してもよいが、式(1)で求まるのと同じ値を別の算出方法で算出してもよい。例えば、音声ピッチ強調装置１００内に自己相関関数記憶部１６０を備えて、自己相関関数記憶部１６０に１つ前のフレーム（直前のフレーム）の自己相関関数を算出する処理で得られた自己相関関数（直前のフレーム自己相関関数）R_τ(1),…,R_τ(M)を記憶しておく。自己相関関数算出部１１０は、自己相関関数記憶部１６０から読み出した直前のフレームの処理で得られた自己相関関数（直前のフレーム自己相関関数）R_τ(1),…,R_τ(M)それぞれに、新たに入力された現在のフレームの音信号サンプルの寄与分の加算と、最も過去のフレームの寄与分の減算と、を行うことにより現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を算出するようにしてもよい。これにより、式(1)そのもので算出するよりも自己相関関数の算出に要する演算量を抑えることが可能である。この場合、τ(1),…,τ(M)のそれぞれをτとすると、自己相関関数算出部１１０は、直前のフレームの処理で得られた自己相関関数R_τ（直前のフレームの自己相関関数R_τ）に対して、以下の式(2)で得られる差分ΔR_τ ⁺を加算し、直前のフレームで式(3)で得られた差分ΔR_τ ⁻を減算することにより、現在のフレームの自己相関関数R_τを得る。

また、入力された音信号の最新のL個の音信号サンプルそのものではなく、当該L個の音信号サンプルに対してダウンサンプリングやサンプルの間引きなどを行うことによりサンプル数を減らした信号を用いて、上記と同様の処理により自己相関関数を算出することで演算量を節約してもよい。この場合、M個の時間差τ(1),…,τ(M)は、例えばサンプル数を半分にした際には半分のサンプル数で表現する。例えば、上述したサンプリング周波数32kHzの8192個の音信号サンプルをサンプリング周波数16kHzの4096個のサンプルにダウンサンプリングした場合には、ピッチ周期Tの候補であるτ(1),…,τ(M)は、75から320の約半分である37から160とすればよい。

なお、信号記憶部１４０に記憶された音信号サンプルは後述する信号特徴分析処理にも用いられる。具体的には、後述する信号特徴分析処理では信号記憶部１４０に記憶されたJ-N個（Jは正の整数）の音信号サンプルが用いられる。すなわち、LとJのうちの大きいほうの値をKとすると（K=max(L,J)とすると）、１つ前のフレームまでに入力された最新の少なくともK‐N個の音信号サンプルを信号記憶部１４０に記憶しておく必要がある。そこで、信号記憶部１４０は、音声ピッチ強調装置１００が現在のフレームについての後述するピッチ強調部１３０の処理までを終えた後に、その時点で最新のK‐N個の音信号サンプルを記憶しておくように記憶内容を更新する。具体的には、例えば、K＞2Nの場合、信号記憶部１４０は、記憶されているK‐N個の音信号サンプルのうちの一番古いN個の音信号サンプルXR₀,XR₁,…,XR_N−1を削除し、XR_N,XR_N+1,…,XR_K−N−1をXR₀,XR₁,…,XR_K−2N−1とし、入力された現在のフレームのN個の時間領域の音信号サンプルをXR_K−2N,XR_L−2N+1,…,XR_K−N−1として新たに記憶する。また、K≦2Nの場合、信号記憶部１４０は、記憶されているK‐N個の音信号サンプルXR₀,XR₁,…,XR_K−N−1を削除し、入力された現在のフレームのN個の時間領域の音信号サンプルのうちの最新のK‐N個の音信号サンプルをXR₀,XR₁,…,XR_K−N−1として新たに記憶する。なお、K≦Nである場合には、音声ピッチ強調装置１００内には信号記憶部１４０を備える必要はない。

また、自己相関関数記憶部１６０は、自己相関関数算出部１１０が現在のフレームについての自己相関関数の算出を終えた後に、算出した現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を記憶しておくように記憶内容を更新する。具体的には、自己相関関数記憶部１６０は、記憶されているR_τ(1),…,R_τ(M)を削除し、算出した現在のフレームの自己相関関数R_τ(1),…,R_τ(M)を新たに記憶する。

なお、上述の説明では、最新のL個の音信号サンプルが現在のフレームのN個の音信号サンプルを含む(つまりL≧N)ことを前提としているが、必ずしもL≧Nである必要はなく、L＜Nであってもよい。この場合、自己相関関数算出部１１０は、現在のフレームのN個に含まれる連続したL個の音信号サンプルX₀,X₁,…,X_L−1を用いて、時間差0の自己相関関数R₀、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数R_τ(1),…,R_τ(M)を算出すればよい。

［ピッチ分析処理（Ｓ１２０）］
次に、音声ピッチ強調装置１００が行うピッチ分析処理について説明する。

ピッチ分析部１２０には、自己相関関数算出部１１０が出力した現在のフレームの自己相関関数R₀,R_τ(1),…,R_τ(M)が入力される。

ピッチ分析部１２０は、所定の時間差に対する現在のフレームの自己相関関数R_τ(1),…,R_τ(M)の中での最大値を求める。ピッチ分析部１２０は、自己相関関数の最大値と時間差0の自己相関関数R₀の比を現在のフレームのピッチ利得σ₀として得て、また、自己相関関数が最大値となる時間差を現在のフレームのピッチ周期T₀として得て、それぞれをピッチ強調部１３０へ出力する。

［信号特徴分析処理（Ｓ１７０）］
次に、音声ピッチ強調装置１００が行う信号特徴分析処理について説明する。

信号特徴分析部１７０には、時間領域の音信号に由来する情報が入力される。この音信号は、自己相関関数算出部１１０に入力される音信号と同じ信号である。

例えば、信号特徴分析部１７０には、所定の時間長のフレーム（時間区間）単位で、音声ピッチ強調装置１００に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。すなわち、信号特徴分析部１７０には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。この場合には、信号特徴分析部１７０は、入力されたN個の時間領域の音信号サンプルを含む最新のJ個（Jは正の整数）の音信号サンプルによるサンプル列を用いて、現在のフレームが子音であるか否かを表す情報、または、現在のフレームの子音らしさの指標値、を得て、信号分析情報I₀としてピッチ強調部１３０へ出力する。すなわち、この場合は、「時間領域の音信号に由来する情報」は現在のフレームの時間領域の音信号のサンプル列(図１中、二点鎖線で示す)である。

また、例えば、信号特徴分析部１７０には、所定の時間長のフレーム（時間区間）単位で、現在のフレームのピッチ周期T₀からε個過去のフレームのピッチ周期T_−εまでが入力される。この場合には、信号特徴分析部１７０は、現在のフレームのピッチ周期T₀からε個過去のフレームのピッチ周期T_−εまでを用いて、現在のフレームが子音であるか否かを表す情報、または、現在のフレームの子音らしさの指標値、を得て、信号分析情報I₀としてピッチ強調部１３０へ出力する。すなわち、この場合は、「時間領域の音信号に由来する情報」は現在のフレームのピッチ周期T₀からε個過去のフレームのピッチ周期T_−ε(図１中、一点鎖線で示す)までである。この場合には、音声ピッチ強調装置１００は更にピッチ情報記憶部１５０を備えて、ピッチ情報記憶部１５０には１つ前のフレームからε個過去のフレームまでのピッチ周期T₋₁, ..., T_−εを記憶しておく。そして、信号特徴分析部１７０は、ピッチ分析部１２０から入力された現在のフレームのピッチ周期T₀と、ピッチ情報記憶部１５０から読み出した１個過去のフレームからε個過去のフレームまでのピッチ周期T_{−１, ... ,}T_−εと、を用いる。ただし、ここでは現在のフレームからみてs個前のフレーム（s個過去のフレーム）のピッチ周期をT_−sと表記しており、εは、予め定めた正の整数である。なお、ピッチ情報記憶部１５０は、現在のフレームのピッチ周期を、以降のフレームの信号特徴分析部１７０の処理において過去のフレームのピッチ周期として用いることができるように、記憶内容を更新する。

信号特徴分析部１７０は例えば下記の例１から例５の信号特徴分析処理により信号分析情報I₀を得る。

（信号特徴分析処理の例１：子音らしさの指標値を信号分析情報とする例その１）
この例では、信号特徴分析部１７０は、入力された現在のフレームのピッチ周期T₀からε個過去のフレームのピッチ周期T_−εまでを用いて、現在のフレームの子音らしさの指標値としてピッチ周期の不連続性が大きいほど大きくなる指標値（便宜上、「子音らしさの第１−１の指標値」ともいう）を得て、得た第１−１の指標値を信号分析情報I₀として出力する。

信号特徴分析部１７０は、例えば、ピッチ分析部１２０から入力されたピッチ周期T₀とピッチ情報記憶部１５０から読み出した１個過去のフレームからε個過去のフレームまでのピッチ周期T₋₁, ..., T_−εとを用いて、第１−１の指標値δを式(4)により求める。
δ=(|T₀-T₋₁|+|T₋₁-T₋₂|+...+|T_−(ε−1) - T_−ε|)/ε (4)
母音の場合には、ピッチ周期に連続性があり、連続するピッチ周期間の差分が0に近い値となり、δの値も小さくなる傾向がある。一方、子音の場合には、ピッチ周期に連続性がなく、δの値が大きくなる傾向がある。そこで、この例では、この傾向に基づき、第１−１の指標値δを子音らしさの指標値として利用する。なお、εは、判定するための十分な情報を得ることができる程度に大きく、かつ、T₀〜T_−εに対応する時間区間に子音と母音とが混在しない程度に小さい値とすることが望ましい。

（信号特徴分析処理の例２：子音らしさの指標値を信号分析情報とする例その２）
この例では、信号特徴分析部１７０は、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列を用いて、現在のフレームの子音らしさの指標値として摩擦音らしさの指標値（便宜上、「子音らしさの第１−２の指標値」ともいう）を得て、得た第１−２の指標値を信号分析情報I₀として出力する。

信号特徴分析部１７０は、例えば、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列の零交差点数(参考文献３参照)を摩擦音らしさの指標値である子音らしさの第１−２の指標値として求める。
（参考文献３）L.R.ラビナー他著、鈴木久喜訳、「音声のディジタル信号処理（上）」、株式会社コロナ社、1983年、p.132-137

また、信号特徴分析部１７０は、例えば、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列を修正離散コサイン変換（MDCT）などで周波数スペクトル系列に変換する。次に、信号特徴分析部１７０は、周波数スペクトル系列のうちの低域側にあるサンプルの平均エネルギーに対する周波数スペクトル系列のうちの高域側にあるサンプルの平均エネルギーの比が大きいほど大きくなる指標値を摩擦音らしさの指標値である子音らしさの第１−２の指標値として求める。

前述の通り、子音は、摩擦音を含む(参考文献１、参考文献２参照)。そこでこの例では、摩擦音らしさの指標値を子音らしさの指標値として利用する。

（信号特徴分析処理の例３：複数の指標値を組み合わせた指標値を信号分析情報とする例）
この例では、信号特徴分析部１７０は、まず、入力された現在のフレームのピッチ周期T₀からε個過去のフレームのピッチ周期T_−εまでを用いて、例１と同じ方法により、現在のフレームの子音らしさの第１−１の指標値を得る（Step 3-1）。信号特徴分析部１７０は、また、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列を用いて、例２と同じ方法により、現在のフレームの子音らしさの第１−２の指標値を得る（Step 3-2）。信号特徴分析部１７０は、さらに、Step 3-1で得た第１−１の指標値とStep 3-2で得た第１−２の指標値の重み付け加算などにより、第１−１の指標値が大きな値になるほど大きな値になり、かつ、第１−２の指標値が大きな値になるほど大きな値になる値を、現在のフレームの子音らしさの指標値（便宜上、「子音らしさの第１−３の指標値」ともいう）として得て、得た第１−３の指標値を信号分析情報I₀として出力する（Step 3-3）。

前述の通り、第１−１の指標値も第１−２の指標値も子音らしさを表す指標である。この例では２つの指標値を組み合わせることでより柔軟に子音らしさの指標値を設定することができる。

信号特徴分析処理の例１〜例３では子音らしさの指標値を信号分析情報とする例を説明してきた。ここからは、子音であるか否かを表す情報を信号分析情報とする例を説明する。

（信号特徴分析処理の例４：子音であるか否かを表す情報を信号分析情報とする例その１）
この例では、信号特徴分析部１７０は、まず、例１から例３の何れかと同じ方法により、現在のフレームの子音らしさの第１−１〜１−３の指標値の何れかを得る。信号特徴分析部１７０は、次に、得た指標値（すなわち、第１−１〜１−３の指標値の何れか１つ）が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す情報（「第１−１の指標値」〜「第１−３の指標値」に対応する「現在のフレームが子音であるか否かを表す情報」をそれぞれ、便宜上、「第１−１の情報」〜「第１−３の情報」ともいう）を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第１−１〜第１−３の情報の何れかを信号分析情報I₀として出力する。

（信号特徴分析処理の例５：子音であるか否かを表す情報を信号分析情報とする例その２）
この例では、信号特徴分析部１７０は、まず、例１と同じ方法により、現在のフレームの子音らしさの第１−１の指標値を得る（Step 5-1）。次に、信号特徴分析部１７０は、Step 5-1で得た第１−１の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第１−１の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第１−１の情報を得る（Step 5-2）。信号特徴分析部１７０は、また、例２と同じ方法により、現在のフレームの子音らしさの第１−２の指標値を得る（Step 5-3）。信号特徴分析部１７０は、Step 5-3で得た第１−２の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第１−２の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第１−２の情報を得る（Step 5-4）。信号特徴分析部１７０は、さらに、Step 5-2で得た第１−１の情報が子音であることを表しかつStep 5-4で得た第１−２の情報が子音であることを表す場合には、現在のフレームが子音であることを表す情報(便宜上、「第１−４の情報」ともいう)を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第１−４の情報を信号分析情報I₀として出力する（Step 5-5）。

なお、信号特徴分析部１７０は、上記のStep 5-5に代えて、Step 5-2で得た第１−１の情報が子音であることを表すかまたはStep 5-4で得た第１−２の情報が子音であることを表す場合には、現在のフレームが子音であることを表す第１−４の情報を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音ないことを表す第１−４の情報を信号分析情報I₀として出力してもよい（Step 5-5'）。

このような処理により信号特徴分析部１７０は、子音らしさの指標値または子音であるか否かを表す情報を信号分析情報I₀として出力する。

［ピッチ強調処理（Ｓ１３０）］
次に、音声ピッチ強調装置１００が行うピッチ強調処理について説明する。

ピッチ強調部１３０は、ピッチ分析部１２０が出力したピッチ周期とピッチ利得、信号特徴分析部１７０が出力した信号分析情報、及び音声ピッチ強調装置１００に入力された現在のフレームの時間領域の音信号(入力信号)を受け取る。ピッチ強調部１３０は、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T₀に対応するピッチ成分を、ピッチ利得σ₀に基づく強調の度合いが子音のフレームのほうが子音以外のフレームよりも小さくなるように、強調して得た出力信号のサンプル列を出力する。

以下、具体例を説明する。

ピッチ強調部１３０は、入力された現在のフレームのピッチ利得σ₀と、入力された現在のフレームのピッチ周期T₀と、入力された現在のフレームの信号分析情報I₀とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。具体的には、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(8)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

ただし、信号分析情報I₀が子音であるか否かを表す情報である場合には、減衰係数γ₀は、現在のフレームの信号分析情報I₀が子音であることを表す場合には0より大きく1より小さい予め定めた値であり（0＜γ₀＜1）、現在のフレームの信号分析情報I₀が子音でないことを表す場合には1である（γ₀＝1）。

また、現在のフレームの信号分析情報I₀が子音らしさの指標値である場合には、減衰係数γ₀は、現在のフレームの信号分析情報I₀に基づいて決まる値であり、子音らしさの指標値I₀が大きいほど小さな値である。より具体的には、例えば、減衰係数γ₀は、子音らしさの指標値I₀が大きいほど小さな値であり、かつ、子音らしさの指標値I₀がその指標値が取り得る最小値である場合にはγ₀＝1となり、かつ、子音らしさの指標値I₀がその指標値が取り得る最大値である場合にはγ₀＝0となるような、所定の関数γ₀＝f(I₀)により求まるものとすればよい。

なお、式(8)のAは、下記の式(9)により求まる振幅補正係数である。

また、B₀は予め定めた値であり、例えば3/4である。

式(8)のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、子音であるフレームのピッチ成分については子音でないフレームのピッチ成分よりも小さい強調の度合いでピッチ成分を強調する処理である。

つまり、信号分析情報I₀が子音であるか否かを表す場合、ピッチ強調部１３０では、子音であると判定されたフレーム（時間区間）については、そのフレーム中の各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、時刻nの信号X_nと、を加算した信号を含む信号を出力信号X^new _nとして得る。また、ピッチ強調部１３０では、子音でないと判定されたフレーム（時間区間）については、そのフレーム中の各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀と、所定の定数B₀と、を乗算した信号(B₀σ₀X_{n-T_0})（この信号は式(8)の右辺の括弧内の第２項においてγ₀=1に対応する）と、時刻nの信号X_nと、を加算した信号(X_n+B₀σ₀X_{n-T_0})を含む信号を出力信号X^new _nとして得る。

また、信号分析情報I₀が子音らしさの指標値である場合、ピッチ強調部１３０では、そのフレーム中の各時刻nについて、信号X_nを含むフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀とそのフレームが子音らしければ子音らしいほど小さい値B₀γ₀と、を乗算した信号(B₀σ₀γ₀X_{n-T_0})と、時刻nの信号X_nと、を加算した信号(X_n+B₀γ₀σ₀X_{n-T_0})を含む信号を出力信号X^new _nとして得る。

このピッチ強調処理により、子音のフレームであっても違和感を低減し、また、子音のフレームとそれ以外のフレームとが頻繁に切り替わる場合であっても、フレーム間におけるピッチ成分の強調の度合いの変動による違和感を低減する効果を得ることができる。

［ピッチ強調処理（Ｓ１３０）の第１変形例］
次に、音声ピッチ強調装置１００が行うピッチ強調処理の第１変形例とこれに関連する処理について説明する。

第１変形例の音声ピッチ強調装置１００は、更にピッチ情報記憶部１５０を備える。なお、信号特徴分析処理（Ｓ１７０）において、ピッチ情報記憶部１５０を利用する場合には、共用してもよい。

ピッチ強調部１３０は、ピッチ分析部１２０が出力したピッチ周期とピッチ利得、信号特徴分析部１７０が出力した信号分析情報、及び音声ピッチ強調装置１００に入力された現在のフレームの時間領域の音信号を受け取る。ピッチ強調部１３０は、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T₀に対応するピッチ成分と、過去のフレームのピッチ周期に対応するピッチ成分と、を強調して得た出力信号のサンプル列を出力する。その際、ピッチ強調部１３０は、現在のフレームのピッチ周期T₀に対応するピッチ成分については、現在のフレームのピッチ利得σ₀に基づく強調の度合いが子音のフレームのほうが子音以外のフレームよりも小さくなるように、強調する。なお、以下の説明において、現在のフレームからみてs個前のフレーム（s個過去のフレーム）のピッチ周期及びピッチ利得をそれぞれT_−s及びσ_−sと表記する。

ピッチ情報記憶部１５０には、１つ前のフレームからα個過去のフレームまでのピッチ周期T₋₁, ..., T_−αとピッチ利得σ₋₁, ...,σ_−αとを記憶しておく。ただし、αは、予め定めた正の整数であり、例えば１である。また、前述の通り、信号特徴分析処理（Ｓ１７０）とピッチ強調処理（Ｓ１３０）においてピッチ情報記憶部１５０を共用してもよい。ε＞αであってもよいし、ε＜αであってもよいし、ε＝αとして重複する部分を最大限共用するようにしてもよい。

ピッチ強調部１３０は、入力された現在のフレームのピッチ利得σ₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ利得σ_−αと、入力された現在のフレームのピッチ周期T₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ周期T_−αと、入力された現在のフレームの信号分析情報I₀とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。

以下、具体例を説明する。
（ピッチ強調処理の第１変形例の具体例１）
この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(10)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

なお、式(10)のAは、下記の式(11)により求まる振幅補正係数である。

また、B₀とB_−αは、予め定めた１より小さい値であり、例えば3/4と1/4である。

（ピッチ強調処理の第１変形例の具体例２）
この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(12)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

ただし、減衰係数γ₀は具体例１と同じであり、減衰係数γ_−αはα個過去のフレームの減衰係数である。この具体例ではα個過去のフレーム減衰係数γ_−αを用いることから、この具体例の音声ピッチ強調装置１００は、更に減衰係数記憶部１８０を備える。減衰係数記憶部１８０には、１つ前のフレームからα個過去のフレームまでの減衰係数γ₋₁, ..., γ_−αを記憶しておく。

なお、式(12)のAは、下記の式(13)により求まる振幅補正係数である。

（ピッチ強調処理の第１変形例の具体例３）
この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(14)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

ただし、減衰係数γ₀は具体例１や２と同じである。

また、式(14)のAは、下記の式(15)により求まる振幅補正係数である。

この具体例は、具体例２のα個過去のフレームの減衰係数γ_−αの代わりに現在のフレームの減衰係数γ₀を用いる構成である。この構成とすることにより、音声ピッチ強調装置１００が減衰係数記憶部１８０を備えずに済むようにできる。

第１変形例のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、子音であるフレームのピッチ成分については子音でないフレームのピッチ成分よりも小さい強調の度合いでピッチ成分を強調する処理であり、かつ、現在のフレームのピッチ周期T₀に対応するピッチ成分を強調しつつ、そのピッチ成分より少し小さい強調の度合いで過去のフレームでのピッチ周期T_−αに対応するピッチ成分も強調する処理である。第１変形例のピッチ強調処理により、短い時間区間（フレーム）ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果も得ることができる。

なお、信号分析情報I₀が子音であるか否かを表す情報である場合には、式(10)においてはB₀γ₀＞B_−αとするのが好ましく、式(12)においてはB₀γ₀＞B_−αγ_−αとするのが好ましく、式(14)においてはB₀＞B_―αとするのが好ましい。しかし、式(10)においてB₀γ₀≦B_−αとしたり、式(12)においてB₀γ₀≦B_−αγ_−αとしたり、式(14)においてB₀≦B_―αとしても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。

また、信号分析情報I₀が子音らしさの指標値である場合には、式(10), 式(12), 式(14)においてはB₀＞B_―αとするのが好ましい。しかし、B₀≦B_−αとしてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。

また、式(11)と式(13)と式(15)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T₀とα個過去のフレームのピッチ周期T_−αとが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。

なお、ピッチ情報記憶部１５０は、現在のフレームのピッチ周期とピッチ利得を、以降のフレームのピッチ強調部１３０の処理において過去のフレームのピッチ周期とピッチ利得として用いることができるように、記憶内容を更新する。

また、減衰係数記憶部１８０を備える場合には、現在のフレームの減衰係数を、以降のフレームのピッチ強調部１３０の処理において過去のフレームの減衰係数として用いることができるように、記憶内容を更新する。

［ピッチ強調処理（Ｓ１３０）の第２変形例］
第１変形例では、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T₀に対応するピッチ成分と、過去の１つのフレームのピッチ周期に対応するピッチ成分と、を強調して出力信号のサンプル列を得たが、過去の複数（２つ以上）のフレームのピッチ周期に対応するピッチ成分を強調するようにしてもよい。以下では、過去の複数のフレームのピッチ周期に対応するピッチ成分を強調する一例として、過去の２つのフレームのピッチ周期に対応するピッチ成分を強調する例について、第１変形例と異なる点を説明する。

ピッチ情報記憶部１５０には、現在のフレームよりβ個過去のフレームまでのピッチ周期T₋₁, ..., T_−α, ..., T_−βとピッチ利得σ₋₁, ...,σ_−α, ...,σ_−βとを記憶しておく。ただし、βは、αより大きい予め定めた正の整数である。例えば、αは１であり、βは２である。また、前述の通り、信号特徴分析処理（Ｓ１７０）とピッチ強調処理（Ｓ１３０）においてピッチ情報記憶部１５０を共用してもよい。ε＞βであってもよいし、ε＜βであってもよいし、ε＝βとして重複する部分を最大限共用するようにしてもよい。

ピッチ強調部１３０は、入力された現在のフレームのピッチ利得σ₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ利得σ_−αと、ピッチ情報記憶部１５０から読み出したβ個過去のフレームのピッチ利得σ_−βと、入力された現在のフレームのピッチ周期T₀と、ピッチ情報記憶部１５０から読み出したα個過去のフレームのピッチ周期T_−αと、ピッチ情報記憶部１５０から読み出したβ個過去のフレームのピッチ周期T_−βと、入力された現在のフレームの信号分析情報I₀とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。

以下、具体例を説明する。
（ピッチ強調処理の第２変形例の具体例１）
この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(16)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

なお、式(16)のAは、下記の式(17)により求まる振幅補正係数である。

また、B₀とB_−αとB_−βは、予め定めた１より小さい値であり、例えば3/4と3/16と1/16である。

（ピッチ強調処理の第２変形例の具体例２）
この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(18)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

ただし、減衰係数γ₀は具体例１と同じであり、減衰係数γ_−αはα個過去のフレームの減衰係数であり、減衰係数γ_−βはβ個過去のフレームの減衰係数である。この具体例ではα個過去のフレーム減衰係数γ_−αとβ個過去のフレーム減衰係数γ_−βを用いることから、この具体例の音声ピッチ強調装置１００は、更に減衰係数記憶部１８０を備える。減衰係数記憶部１８０には、１つ前のフレームからβ個過去のフレームまでの減衰係数γ₋₁,...,γ_−βを記憶しておく。

なお、式(18)のAは、下記の式(19)により求まる振幅補正係数である。

（ピッチ強調処理の第２変形例の具体例３）
この具体例では、ピッチ強調部１３０は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルX_n（L−N≦n≦L−1）に対して、以下の式(20)により出力信号X^new _nを得ることにより、N個のサンプルX^new _L―N, …, X^new _L―1による現在のフレームの出力信号のサンプル列を得る。

ただし、減衰係数γ₀は具体例１や２と同じである。

また、式(20)のAは、下記の式(21)により求まる振幅補正係数である。

この具体例は、具体例２のα個過去のフレームの減衰係数γ_−αとβ個過去のフレームの減衰係数γ_−βの代わりに現在のフレームの減衰係数γ₀を用いる構成である。この構成とすることにより、音声ピッチ強調装置１００が減衰係数記憶部１８０を備えずに済むようにできる。

第２変形例のピッチ強調処理も、第１変形例のピッチ強調処理と同様に、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、子音であるフレームのピッチ成分については子音でないフレームのピッチ成分よりも小さい強調の度合いでピッチ成分を強調する処理であり、かつ、現在のフレームのピッチ周期T₀に対応するピッチ成分を強調しつつ、そのピッチ成分より少し小さい強調の度合いで過去のフレームでのピッチ周期に対応するピッチ成分も強調する処理である。第２変形例のピッチ強調処理により、短い時間区間（フレーム）ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果も得ることができる。

なお、信号分析情報I₀が子音であるか否かを表す情報である場合には、式(16)においてはB₀γ₀＞B_−α＞B_−βとするのが好ましく、式(18)においてはB₀γ₀＞B_−αγ_−α＞B_−βγ_−βとするのが好ましく、式(20)においてはB₀＞B_―α＞B_−βとするのが好ましい。しかし、式(16)においてB₀γ₀≦B_−αやB₀γ₀≦B_−βやB_−α≦B_−βとしたり、式(18)においてB₀γ₀≦B_−αγ_−αやB₀γ₀≦B_−βγ_−βやB_−αγ_−α≦B_−βγ_−βとしたり、式(20)においてB₀≦B_―αやB₀≦B_−βやB_−α≦B_−βとしても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。

また、信号分析情報I₀が子音らしさの指標値である場合には、式(16), 式(18), 式(20)においてはB₀＞B_−α＞B_−βとするのが好ましい。しかし、この大小関係を満たさなくともフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。

また、式(17)と式(19)と式(21)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T₀とα個過去のフレームのピッチ周期T_−αとβ個過去のフレームのピッチ周期T_−βとが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。

（ピッチ強調処理のその他の変形例）
なお、振幅補正係数Aは、式(9)や式(11)や式(13)や式(15)や式(17)や式(19)や式(21)により求まる値ではなく、予め定めた１以上の値を用いてもよい。振幅補正係数Aを１とする場合には、ピッチ強調部１３０は、上記の出力信号X^new _nを得る式中の1/A（すなわち、式(8)や式(10)や式(12)や式(14)や式(16)や式(18)や式(20)の1/A）を含まないようにした式により出力信号X^new _nを得るようにしてもよい。

また、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行ってもよい。

また、ピッチ利得が所定の閾値より小さい場合には、そのピッチ成分を含まないピッチ強調処理を行うようにしてもよい。例えば、現在のフレームのピッチ利得σ₀が所定の閾値より小さい場合には、現在のフレームのピッチ周期T₀に対応するピッチ成分を出力信号に含めず、過去のフレームのピッチ利得が所定の閾値より小さい場合には、その過去のフレームのピッチ周期に対応するピッチ成分を出力信号に含めない構成としてもよい。

また、信号特徴分析部１７０において子音らしさの指標値を得、信号分析情報I₀としてピッチ強調部１３０に出力し、ピッチ強調部１３０において、子音らしさの指標値と閾値との大小関係に基づき強調度合い(減衰係数γ₀の大きさ)を2段階で異ならせる構成としてもよい。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

本実施形態では、第一実施形態で説明した子音らしさの指標値に代えて、スペクトル包絡の平坦度合いの指標値を、子音らしさの指標値として得る。子音のスペクトルは、母音に比べ、スペクトル包絡が平坦になる性質がある。本実施形態では、この性質を利用し、スペクトル包絡の平坦度合いの指標値を子音らしさの指標値として用いる。

信号特徴分析処理（Ｓ１７０）の内容が第一実施形態とは異なる。

［信号特徴分析処理（Ｓ１７０）］
信号特徴分析部１７０には、第一実施形態と同様に時間領域の音信号に由来する情報が入力される。

信号特徴分析部１７０は、現在のフレームが子音であるか否かを表す情報、または、現在のフレームの子音らしさの指標値、を得て、信号分析情報I₀としてピッチ強調部１３０へ出力する。なお、本実施形態では、前述の通り、現在のフレームのスペクトル包絡の平坦度合いの指標値を、現在のフレームの子音らしさの指標値として用いる。また、本実施形態では、現在のフレームのスペクトル包絡が平坦であるか否かを表す情報を現在のフレームが子音であるか否かを表す情報として用いる。

信号特徴分析部１７０は例えば下記の例２−１から例２−７の信号特徴分析処理により信号分析情報I₀を得る。

（信号特徴分析処理の例２−１：スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その１）
この例では、信号特徴分析部１７０は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からT次のLSPパラメータθ[1],θ[2],…,θ[T]を得る（Step 2-1-1）。信号特徴分析部１７０は、次に、Step 2-1-1で得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、下記の指標Qを現在のフレームのスペクトル包絡の平坦度合いの指標値（便宜上、「子音らしさの第２−１の指標値」ともいう)として得る（Step 2-1-2）。

（信号特徴分析処理の例２−２：スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その２）
この例では、信号特徴分析部１７０は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からT次のLSPパラメータθ[1],θ[2],…,θ[T]を得る（Step 2-2-1）。信号特徴分析部１７０は、次に、Step 2-2-1で得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の最小値、すなわち、下記の指標Q'、を現在のフレームのスペクトル包絡の平坦度合いの指標値（便宜上、「子音らしさの第２−２の指標値」ともいう)として得る（Step 2-2-2）。

（信号特徴分析処理の例２−３：スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その３）
この例では、信号特徴分析部１７０は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からT次のLSPパラメータθ[1],θ[2],…,θ[T]を得る（Step 2-3-1）。信号特徴分析部１７０は、次に、Step 2-3-1で得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の値と最低次のLSPパラメータの値のうちの最小値、すなわち、下記の指標Q''、を現在のフレームのスペクトル包絡の平坦度合いの指標値（便宜上、「子音らしさの第２−３の指標値」ともいう)として得る（Step 2-3-2）。

（信号特徴分析処理の例２−４：スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その４）
この例では、信号特徴分析部１７０は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からp次のPARCOR係数k[1],k[2],…,k[p]を得る（Step 2-4-1）。信号特徴分析部１７０は、次に、Step 2-4-1で得たp次のPARCOR係数k[1],k[2],…,k[p]を用いて、下記の指標Q'''を現在のフレームのスペクトル包絡の平坦度合いの指標値（便宜上、「子音らしさの第２−４の指標値」ともいう)として得る（Step 2-4-2）。

（信号特徴分析処理の例２−５：複数の指標値を組み合わせた指標値を信号分析情報とする例）
この例では、信号特徴分析部１７０は、例２−１〜例２−４の方法により、子音らしさの第２−１〜第２−４の指標値を得る（Step 2-5-1）。信号特徴分析部１７０は、さらに、Step 2-5-1で得た子音らしさの第２−１〜第２−４の指標値の重み付け加算により、第２−１の指標値が大きな値になるほど大きな値になり、かつ、第２−２の指標値が大きな値になるほど大きな値になり、かつ、第２−３の指標値が大きな値になるほど大きな値になり、かつ、第２−４の指標値が大きな値になるほど大きな値になる値を、現在のフレームのスペクトル包絡の平坦度合いの指標値（便宜上、「子音らしさの第２−５の指標値」ともいう）として得て、得た第２−５の指標値を信号分析情報I₀として出力する（Step 2-5-2）。

前述の通り、子音らしさの第２−１〜第２−４の指標値は、それぞれスペクトル包絡の平坦度合いを表す指標である。この例では４つの指標値を組み合わせることでより柔軟にスペクトル包絡の平坦度合いを表す指標値を設定することができる。

なお、信号特徴分析部１７０は、子音らしさの第２−１〜第２−４の指標値のうちの少なくとも２個を得てもよい（Step 2-5-1'）。この場合、信号特徴分析部１７０は、Step 2-5-1'で得た少なくとも２個の子音らしさの指標値の重み付け加算により、Step 2-5-1'で得た指標値それぞれが大きな値になるほど大きな値になる値を、現在のフレームの子音らしさの第２−５の指標値として得て、得た第２−５の指標値を信号分析情報I₀として出力してもよい（Step 2-5-2'）。

信号特徴分析処理の例２−１〜例２−５では子音らしさの指標値（スペクトル包絡の平坦度合いの指標値）を信号分析情報とする例を説明してきた。ここからは、子音であるか否かを表す情報（スペクトル包絡が平坦であるか否かを表す情報）を信号分析情報とする例を説明する。

（信号特徴分析処理の例２−６：スペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例その１）
この例では、信号特徴分析部１７０は、まず、例２−１〜例２−５の何れかと同じ方法により、現在のフレームの子音らしさの第２−１〜第２−５の指標値の何れかを得る（Step 2-6-1）。信号特徴分析部１７０は、次に、Step 2-6-1で得た指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す情報（「第２−１の指標値」〜「第２−５の指標値」に対応する「現在のフレームが子音であるか否かを表す情報」をそれぞれ、便宜上、「第２−１の情報」〜「第２−５の情報」ともいう）を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第２−１〜第２−５の情報の何れかを信号分析情報I₀として出力する（Step 2-6-2）。

（信号特徴分析処理の例２−７：スペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例その２）
この例では、信号特徴分析部１７０は、まず、例２−１〜例２−４と同じ方法により、現在のフレームの子音らしさの第２−１〜第２−４の指標値を得る（Step 2-7-1）。次に、信号特徴分析部１７０は、Step 2-7-1で得た４つの子音らしさの第２−１〜第２−４の指標値のぞれぞれと、予め定めた閾値との大小関係に基づき、各子音らしさの第２−１〜第２−４の指標値に対して、現在のフレームが子音であることを表す情報、または、現在のフレームが子音でないことを表す情報を得る（Step 2-7-2）。なお、閾値は４つの第２−１〜第２−４の指標値毎に設定するものとし、第２−１〜第２−４の指標値に対応する現在のフレームが子音であるか否かを表す情報をそれぞれ第２−１〜第２−４の情報ともいう。例えば、第２−１の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第２−１の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第２−１の情報を得る。同様に、第２−２〜第２−４の指標値と予め定めた閾値との大小関係に基づき第２−２〜第２−４の情報を得る。

信号特徴分析部１７０は、４つの第２−１〜第２−４の情報の論理演算に基づき、現在のフレームが子音であることを表す情報（便宜上、「第２−６の情報」ともいう）、または、現在のフレームが子音でないことを表す第２−６の情報を得る（Step 2-7-3）。

（論理演算の例１）
例えば、信号特徴分析部１７０は、第２−１〜第２−４の情報全てが子音であることを表す場合には、現在のフレームが子音であることを表す第２−６の情報を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第２−６の情報を信号分析情報I₀として出力する。

（論理演算の例２）
また、例えば、信号特徴分析部１７０は、第２−１〜第２−４の情報の何れかが子音であることを表す場合には、現在のフレームが子音であることを表す第２−６の情報を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第２−６の情報を信号分析情報I₀として出力する。

（論理演算の例３）
また、例えば、信号特徴分析部１７０は、第２−１〜第２−２の情報の何れかが子音であることを表し、かつ、第２−３〜第２−４の情報の何れかが子音であることを表す場合(論理和と論理積の組合せを用いる場合)には、現在のフレームが子音であることを表す第２−６の情報を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第２−６の情報を信号分析情報I₀として出力する。

なお、第２−１〜第２−４の情報の論理演算は上述の論理演算の例１〜３に限定されるものではなく、復号した音信号がより自然に感じられるように適宜設定すればよい。

また、信号特徴分析部１７０は、子音らしさの第２−１〜第２−４の指標値のうちの少なくとも２個を得てもよい（Step 2-7-1'）。この場合、信号特徴分析部１７０は、Step 2-7-1'で得た少なくとも２個の子音らしさの指標値のぞれぞれと、予め定めた閾値との大小関係に基づき、各子音らしさの指標値に対して、現在のフレームが子音であることを表す情報、または、現在のフレームが子音でないことを表す少なくとも２個の情報を得てもよい（Step 2-7-2'）。さらに、信号特徴分析部１７０は、Step 2-7-2'で得た少なくとも２個の情報の論理演算に基づき、現在のフレームが子音であることを表す第２−６の情報、または、現在のフレームが子音でないことを表す第２−６の情報を得てもよい（Step2-7-3'）。

＜ピッチ強調部１３０＞
ピッチ強調部１３０におけるピッチ強調処理（Ｓ１３０）は、第一実施形態と同様である。

つまり、本実施形態のピッチ強調部１３０は、信号分析情報I₀がスペクトル包絡の平坦であるか否か（子音であるか否か）を表す場合、スペクトル包絡（より詳しく言うと信号X_nを含むフレームのスペクトル包絡）が平坦である（子音である）と判定されたフレーム（時間区間）については、フレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、時刻nの信号X_nと、を加算した信号を含む信号を出力信号X^new _nとして得る。また、ピッチ強調部１３０は、スペクトル包絡が平坦でない（子音でない）と判定されたフレーム（時間区間）については、フレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀と、所定の定数B₀と、を乗算した信号(B₀σ₀X_{n-T_0})（この信号は式(8)の右辺の括弧内の第２項においてγ₀=1に対応する）と、時刻nの信号X_nと、を加算した信号(X_n+B₀σ₀X_{n-T_0})を含む信号を出力信号X^new _nとして得る。

また、ピッチ強調部１３０では、信号分析情報I₀がスペクトル包絡の平坦度合いの指標値（子音らしさの指標値）である場合、フレームの各時刻nについて、信号X_nを含むフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀とそのフレームのスペクトル包絡が平坦であればあるほど（フレームが子音らしければ子音らしいほど）小さい値B₀γ₀と、を乗算した信号(B₀σ₀γ₀X_{n-T_0})と、時刻nの信号X_nと、を加算した信号(X_n+B₀γ₀σ₀X_{n-T_0})を含む信号を出力信号X^new _nとして得る。

＜効果＞
上述の構成により、第１実施形態と同様の効果を得ることができる。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。

本実施形態では、第一実施形態で説明した子音らしさの指標値に加えて、第二実施形態で説明したスペクトル包絡の平坦度合いの指標値も用いて、子音らしさの指標値または子音であるか否かを表す情報を得る。

信号特徴分析処理（Ｓ１７０）の内容が第一実施形態とは異なる。以下では、便宜上、第一実施形態で説明した子音らしさの第１−１〜第１−３の指標値の何れかを子音らしさの第１の指標値と呼び、第二実施形態で説明したスペクトル包絡の平坦度合いの指標値である子音らしさの第２−１〜第２−５の指標値の何れかを第２の指標値と呼び、子音らしさの第１の指標値と子音らしさの第２の指標値を用いて信号特徴分析処理（Ｓ１７０）で得る子音らしさの指標値を子音らしさの第３の指標値と呼ぶ。

［信号特徴分析処理（Ｓ１７０）］
信号特徴分析部１７０は、第一実施形態で説明した子音らしさの指標値と、第二実施形態で説明したスペクトル包絡の平坦度合いの指標値と、に基づいて、子音らしさの指標値または子音であるか否かを表す情報を得て、信号分析情報としてピッチ強調部１３０へ出力する。信号特徴分析部１７０は、例えば下記の例３−１から例３−４の信号特徴分析処理により信号分析情報I₀を得る。

（信号特徴分析処理の例３−１：子音らしさの第１の指標値とスペクトル包絡の平坦度合いの指標値(子音らしさの第２の指標値)とを組み合わせた指標値を子音らしさの第３の指標値とし、第３の指標値自体を信号分析情報とする例）
この例では、信号特徴分析部１７０は、まず、第一実施形態で説明した例１から３の何れかと同じ方法により、現在のフレームの子音らしさの第１の指標値を得る（Step 3-1-1）。信号特徴分析部１７０は、また、第二実施形態で説明した例２−１から例２−５の何れかの方法により、現在のフレームのスペクトル包絡の平坦度合いの指標値（子音らしさの第２の指標値）を得る（Step 3-1-2）。信号特徴分析部１７０は、さらに、Step 3-1-1で得た子音らしさの第１の指標値とStep 3-1-2で得たスペクトル包絡の平坦度合いの指標値（子音らしさの第２の指標値）の重み付け加算などにより、子音らしさの第１の指標値が大きな値になるほど大きな値になり、かつ、スペクトル包絡の平坦度合いの指標値（子音らしさの第２の指標値）が大きな値になるほど大きな値になる値を、現在のフレームの子音らしさの第３の指標値として得て、得た子音らしさの第３の指標値を信号分析情報I₀として出力する（Step 3-1-3）。

（信号特徴分析処理の例３−２：子音らしさの第１の指標値とスペクトル包絡の平坦度合いの指標値(子音らしさの第２の指標値)とを組み合わせた第３の指標値を閾値判定して得た情報を信号分析情報とする例）
この例では、信号特徴分析部１７０は、まず、例３−１と同じ方法により、現在のフレームの子音らしさの第３の指標値を得る（Step 3-2-1）。信号特徴分析部１７０は、次に、Step 3-2-1で得た子音らしさの第３の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第３の情報を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第３の情報を信号分析情報I₀として出力する。

（信号特徴分析処理の例３−３：子音であるかまたはスペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例）
この例では、信号特徴分析部１７０は、まず、第一実施形態で説明した例１から例３の何れかと同じ方法により、現在のフレームの子音らしさの第１の指標値を得る（Step 3-3-1）。信号特徴分析部１７０は、Step 3-3-1で得た第１の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第１の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第１の情報を得る（Step 3-3-2）。信号特徴分析部１７０は、また、第二実施形態で説明した例２−１から例２−５の何れかの方法により、現在のフレームのスペクトル包絡の平坦度合いの指標値(子音らしさの第２の指標値)を得る（Step 3-3-3）。信号特徴分析部１７０は、Step 3-3-3で得た第２の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームのスペクトル包絡が平坦である（子音である）ことを表す第２の情報を得て、そうでない場合には、現在のフレームのスペクトル包絡が平坦でない（子音でない）ことを表す第２の情報を得る（Step 3-3-4）。信号特徴分析部１７０は、さらに、Step 3-3-2で得た第１の情報が子音であることを表すかまたはStep 3-3-4で得た第２の情報がスペクトル包絡が平坦である（子音である）ことを表す場合には、現在のフレームが子音であることを表す第３の情報を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音ではないことを表す第３の情報を信号分析情報I₀として出力する。

（信号特徴分析処理の例３−４：子音でありかつスペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例）
この例では、信号特徴分析部１７０は、まず、第一実施形態で説明した例１から例３の何れかと同じ方法により、現在のフレームの子音らしさの第１の指標値を得る（Step 3-4-1）。信号特徴分析部１７０は、Step 3-4-1で得た指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第１の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第１の情報を得る（Step 3-4-2）。信号特徴分析部１７０は、また、第二実施形態で説明した例２−１から例２−５の何れかの方法により、現在のフレームのスペクトル包絡の平坦度合いの指標値（子音らしさの第２の指標値）を得る（Step 3-4-3）。信号特徴分析部１７０は、Step 3-4-3で得た指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームのスペクトル包絡が平坦である（子音である）ことを表す第２の情報を得て、そうでない場合には、現在のフレームのスペクトル包絡が平坦でない（子音でない）ことを表す第２の情報を得る（Step 3-4-4）。信号特徴分析部１７０は、さらに、Step3-4-2で得た第１の情報が子音であることを表しかつStep 3-4-4で得た第２の情報がスペクトル包絡が平坦であることを表す場合には、現在のフレームが子音であることを表す第３の情報を信号分析情報I₀として出力し、そうでない場合には、現在のフレームが子音でないことを表す第３の情報を信号分析情報I₀として出力する。

つまり、本実施形態のピッチ強調部１３０は、信号分析情報I₀が子音であるか否かを表す場合（第３の情報の場合）、子音である、または／および、信号X_nのスペクトル包絡が平坦であると判定されたフレーム（時間区間）については、そのフレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、時刻nの信号X_nと、を加算した信号を含む信号を出力信号X^new _nとして得る。また、ピッチ強調部１３０は、それ以外の判定がされたフレームについては、そのフレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀と、所定の定数B₀と、を乗算した信号(B₀σ₀X_{n-T_0})（この信号は式(8)の右辺の括弧内の第２項においてγ₀=1に対応する）と、時刻nの信号X_nと、を加算した信号(X_n+B₀σ₀X_{n-T_0})を含む信号を出力信号X^new _nとして得る（例３−３、３−４に対応する）。なお、例３−２では、子音らしさの第１の指標値とスペクトル包絡の平坦度合いの指標値(子音らしさの第２の指標値)とを組み合わせた第３の指標値を閾値判定しており、この閾値判定は、子音である、または／および、信号X_nのスペクトル包絡が平坦であるか否かを判定することに相当する。

また、ピッチ強調部１３０では、信号分析情報I₀が子音らしさの指標値である場合(第３の指標値の場合)、フレームの各時刻nについて、信号X_nを含むフレームのピッチ周期に対応するサンプル数T₀だけ、時刻nよりも過去の時刻n-T₀の信号X_{n-T_0}と、そのフレームのピッチ利得σ₀と、そのフレームが子音らしければ子音らしいほど小さくかつそのフレームのスペクトル包絡が平坦であればあるほど小さい値B₀γ₀と、を乗算した信号(B₀σ₀γ₀X_{n-T_0})と、時刻nの信号X_nと、を加算した信号(X_n+B₀γ₀σ₀X_{n-T_0})を含む信号を出力信号X^new _nとして得る（例３−１に対応する）。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、本実施系形態では、第１の指標値に加えて、第２の指標値（スペクトル包絡の平坦度合いの指標値）も考慮することで、より適切な子音らしさの指標値を得ることができる。

＜その他の変形例＞
音声ピッチ強調装置１００外で行われる復号処理などにより各フレームのピッチ周期とピッチ利得と信号分析情報を得られている場合には、音声ピッチ強調装置１００を図３の構成として、音声ピッチ強調装置１００外で得られたピッチ周期とピッチ利得と信号分析情報に基づきピッチを強調してもよい。図４はその処理フローを示す。この場合には、第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例の音声ピッチ強調装置１００が備える自己相関関数算出部１１０やピッチ分析部１２０や信号特徴分析部１７０や自己相関関数記憶部１６０を備える必要はなく、ピッチ強調部１３０が、ピッチ分析部１２０が出力したピッチ周期とピッチ利得と信号特徴分析部１７０が出力した信号分析情報ではなく、音声ピッチ強調装置１００に入力されたピッチ周期とピッチ利得と信号分析情報を用いてピッチ強調処理（Ｓ１３０）を行うようにすればよい。このような構成とすれば、音声ピッチ強調装置１００自体の演算処理量は第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例よりも少なくすることが可能である。ただし、第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例の音声ピッチ強調装置１００は、音声ピッチ強調装置１００外のピッチ周期やピッチ利得と信号分析情報を得る頻度に依存せずにピッチ周期やピッチ利得と信号分析情報を得ることができることから、非常に短い時間長のフレーム単位でのピッチ強調処理を行うことが可能である。上記のサンプリング周波数32kHzの例であれば、Nを例えば32とすれば、1msのフレーム単位でピッチ強調処理を行うことができる。

なお、以上の説明では、音信号そのものに対してピッチ強調処理を施すことを前提としていたが、非特許文献１に記載されているような線形予測残差に対してピッチ強調処理を行ってから線形予測合成をするような構成における、線形予測残差に対するピッチ強調処理として本発明を適用してもよい。すなわち、本発明を、音信号そのものではなく、音信号に対して分析や加工をして得た信号などの音信号に由来する信号に対して適用してもよい。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
前記ピッチ強調処理として、
前記信号が子音であると判定された時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
前記信号が子音でないと判定された時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
ピッチ強調装置。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
前記ピッチ強調処理として、
前記各時間区間の各時刻nについて、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、当該時間区間が子音らしければ子音らしいほど小さい値と、を乗算した信号と、
当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
ピッチ強調装置。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
前記ピッチ強調処理として、
前記信号が子音である、または／および、前記信号のスペクトル包絡が平坦であると判定された時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
前記以外の判定がされた時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
ピッチ強調装置。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
前記ピッチ強調処理として、
前記各時間区間の各時刻nについて、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、当該時間区間が子音らしければ子音らしいほど小さくかつ当該時間区間のスペクトル包絡が平坦であればあるほど小さい値と、を乗算した信号と、
当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
ピッチ強調装置。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
前記ピッチ強調処理として、
前記信号が子音であると判定された時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
前記信号が子音でないと判定された時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
ピッチ強調方法。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
前記ピッチ強調処理として、
前記各時間区間の各時刻nについて、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、当該時間区間が子音らしければ子音らしいほど小さい値と、を乗算した信号と、
当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
ピッチ強調方法。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
前記ピッチ強調処理として、
前記信号が子音である、または／および、前記信号のスペクトル包絡が平坦であると判定された時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、0より大きく1より小さい値と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
前記以外の判定がされた時間区間については、
当該時間区間の各時刻について、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、所定の定数B₀と、を乗算した信号と、
当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
ピッチ強調方法。
入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
前記ピッチ強調処理として、
前記各時間区間の各時刻nについて、
当該時間区間のピッチ周期に対応するサンプル数T₀だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ₀と、当該時間区間が子音らしければ子音らしいほど小さくかつ当該時間区間のスペクトル包絡が平坦であればあるほど小さい値と、を乗算した信号と、
当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
ピッチ強調方法。
請求項５から請求項８の何れかのピッチ強調方法をコンピュータに実行させるためのプログラム。
請求項５から請求項８の何れかのピッチ強調方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。