JP6989003B2 - ピッチ強調装置、その方法、プログラム、および記録媒体 - Google Patents

ピッチ強調装置、その方法、プログラム、および記録媒体 Download PDF

Info

Publication number
JP6989003B2
JP6989003B2 JP2020518174A JP2020518174A JP6989003B2 JP 6989003 B2 JP6989003 B2 JP 6989003B2 JP 2020518174 A JP2020518174 A JP 2020518174A JP 2020518174 A JP2020518174 A JP 2020518174A JP 6989003 B2 JP6989003 B2 JP 6989003B2
Authority
JP
Japan
Prior art keywords
signal
pitch
time
consonant
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020518174A
Other languages
English (en)
Other versions
JPWO2019216037A1 (ja
Inventor
優 鎌本
亮介 杉浦
健弘 守谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019216037A1 publication Critical patent/JPWO2019216037A1/ja
Application granted granted Critical
Publication of JP6989003B2 publication Critical patent/JP6989003B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

この発明は、音信号の符号化技術などの信号処理技術において、音信号に由来するサンプル列に対して、そのピッチ成分を分析し、強調する技術に関連する。
一般的に、時系列信号などのサンプル列を非可逆に圧縮符号化した場合、復号時に得られるサンプル列は元のサンプル列とは違った、歪のあるサンプル列となる。特に音信号の符号化においては、この歪が自然音にはないようなパターンを含むことが多く、復号した音信号を受聴した際に不自然に感じられることがある。そこで、自然音の多くがある一定区間で観測した際に音に応じた周期成分、つまりピッチを含むことに着目し、復号により得た音信号の各サンプルに対して、ピッチ周期分だけ過去のサンプルを加算することにより、ピッチ成分を強調する処理(ピッチ強調処理)を行う。このピッチ強調処理によって、より違和感の少ない音に変換する技術が広く用いられている(例えば非特許文献1)。
また、例えば特許文献1に記載されているように、復号により得た音信号が「音声」であるか「非音声」であるかの情報に基づき、「音声」である場合にはピッチ成分を強調する処理を行い、「非音声」である場合にはピッチ成分を強調する処理を行わない技術もある。
ITU-T Recommendation G.723.1 (05/2006) pp.16-18, 2006
特開平10−143195号公報
しかしながら、非特許文献1に記載された技術には、明確なピッチ構造をもたない子音部についてもピッチ成分を強調する処理を行ってしまうことにより、子音部を受聴した際に不自然に感じられるという課題がある。一方、特許文献1に記載された技術では、子音部に信号としてはピッチ成分が存在している場合であってもピッチ成分を強調する処理を全く行わないことから、子音部を受聴した際に不自然に感じられるという課題がある。また、特許文献1に記載された技術には、母音の時間区間と子音の時間区間とでピッチ強調処理の有無が切り替わることによって音信号に不連続が頻繁に生じてしまい、受聴時の違和感が増してしまう、という課題もある。
本発明は、これらの課題を解決するためのものであり、子音の時間区間であっても違和感が少ないピッチ強調処理であり、子音の時間区間とそれ以外の時間区間とが頻繁に切り替わる場合であっても不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することを目的とする。なお、子音は、摩擦音、破裂音、半母音、鼻音、および破擦音を含む(参考文献1、参考文献2参照)。
(参考文献1)古井貞煕著、「音響・音声工学」、近代科学社、1992年、p.99
(参考文献2)斎藤収三、中田和男、「音声情報処理の基礎」、オーム社、1981年、p.38-39
上記の課題を解決するために、本発明の一態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、信号が子音であると判定された時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得、信号が子音でないと判定された時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。
上記の課題を解決するために、本発明の他の態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻nよりも過去の時刻の信号と、当該時間区間のピッチ利得σ0と、当該時間区間が子音らしければ子音らしいほど小さい値と、を乗算した信号と、当該時刻nの信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。
上記の課題を解決するために、本発明の他の態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、信号が子音である、または/および、信号のスペクトル包絡が平坦であると判定された時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得、それ以外の判定がされた時間区間については、当該時間区間の各時刻について、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、を乗算した信号と、当該時刻の信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。
上記の課題を解決するために、本発明の他の態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間の各時刻nについて、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻nよりも過去の時刻の信号と、当該時間区間のピッチ利得σ0と、当該時間区間が子音らしければ子音らしいほど小さくかつ当該時間区間のスペクトル包絡が平坦であればあるほど小さい値と、を乗算した信号と、当該時刻nの信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む。
本発明によれば、復号処理により得られた音声信号に対してピッチ強調処理を施す場合に、子音の時間区間であっても違和感が少なく、子音の時間区間とそれ以外の時間区間とが頻繁に切り替わる場合であっても不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することができるという効果を奏する。
第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例に係るピッチ強調装置の機能ブロック図。 第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例に係るピッチ強調装置の処理フローの例を示す図。 その他の変形例に係るピッチ強調装置の機能ブロック図。 その他の変形例に係るピッチ強調装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
図1は第一実施形態に係る音声ピッチ強調装置100の機能ブロック図を、図2はその処理フローを示す。
図1を参照して、第一実施形態の音声ピッチ強調装置100の処理手続きを説明する。第一実施形態の音声ピッチ強調装置100は、入力された信号を分析してピッチ周期とピッチ利得を得て、そのピッチ周期とピッチ利得に基づきピッチを強調するものである。本実施形態では、時間区間ごとの入力された音信号に対してピッチ周期に対応するピッチ成分にピッチ利得を乗算したものを用いてピッチ強調処理を施す際に、子音の時間区間のピッチ成分の強調の度合いを、子音以外の時間区間のピッチ成分の強調の度合いより小さくする。または、時間区間のピッチ成分の強調の度合いを、子音らしければ子音らしいほど小さくする。より具体的には、子音の時間区間については、ピッチ利得の代わりに、ピッチ利得に1より小さい値を乗算したものを用いる。第一実施形態の音声ピッチ強調装置100は、信号特徴分析部170と自己相関関数算出部110とピッチ分析部120とピッチ強調部130と信号記憶部140とを備えるものである。更に第一実施形態の音声ピッチ強調装置100は、ピッチ情報記憶部150と自己相関関数記憶部160と減衰係数記憶部180とを備えてもよい。
音声ピッチ強調装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ピッチ強調装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ピッチ強調装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声ピッチ強調装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声ピッチ強調装置100が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声ピッチ強調装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、音声ピッチ強調装置100の外部に備える構成としてもよい。
第一実施形態の音声ピッチ強調装置100が行う主な処理は自己相関関数算出処理(S110)とピッチ分析処理(S120)と信号特徴分析処理(S170)とピッチ強調処理(S130)である(図2参照)。これらの処理は音声ピッチ強調装置100が備える複数のハードウェア資源が連携して行うものであるので、以下では、自己相関関数算出処理(S110)とピッチ分析処理(S120)と信号特徴分析処理(S170)とピッチ強調処理(S130)のそれぞれについて、関連する処理と共に説明する。
[自己相関関数算出処理(S110)]
まず、音声ピッチ強調装置100が行う自己相関関数算出処理とこれに関連する処理について説明する。
自己相関関数算出部110には、時間領域の音信号(入力信号)が入力される。この音信号は、例えば音声信号などの音響信号を符号化装置で圧縮符号化して符号を得て、その符号化装置に対応する復号装置で符号を復号して得た信号である。自己相関関数算出部110には、所定の時間長のフレーム(時間区間)単位で、音声ピッチ強調装置100に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。1フレームのサンプル列の長さを示す正の整数をNとすると、自己相関関数算出部110には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。自己相関関数算出部110は、入力されたN個の時間領域の音信号サンプルを含む最新のL個(Lは正の整数)の音信号サンプルによるサンプル列における時間差0の自己相関関数R0及び複数個(M個、Mは正の整数)の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出する。すなわち、自己相関関数算出部110は、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数を算出する。
なお、以降では、現在のフレームの処理において自己相関関数算出部110が算出した自己相関関数、すなわち、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数、のことを「現在のフレームの自己相関関数」とも呼ぶ。同様に、過去のあるフレームをフレームFとしたとき、フレームFの処理において自己相関関数算出部110が算出した自己相関関数、すなわち、フレームFの時間領域の音信号サンプルを含むフレームFの時点での最新の音信号サンプルによるサンプル列における自己相関関数、のことを「フレームFの自己相関関数」とも呼ぶ。また、「自己相関関数」は単に「自己相関」と呼ぶこともある。LがNより大きい値である場合には、自己相関関数の算出に最新のL個の音信号サンプルを用いるために、音声ピッチ強調装置100内には信号記憶部140を備え、信号記憶部140に1つ前のフレームまでに入力された最新の少なくともL‐N個の音信号サンプルを記憶できるようにしておく。そして、自己相関関数算出部110は、現在のフレームのN個の時間領域の音信号サンプルが入力された際には、信号記憶部140に記憶された最新のL‐N個の音信号サンプルをX0,X1,…,XL−N−1として読み出し、入力されたN個の時間領域の音信号サンプルをXL−N,XL−N+1,…,XL−1とすることにより、最新のL個の音信号サンプルX0,X1,…,XL−1を得る。
そして、自己相関関数算出部110は、最新のL個の音信号サンプルX0,X1,…,XL−1を用いて、時間差0の自己相関関数R0、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出する。τ(1),…,τ(M)や0などの時間差をτとすると、自己相関関数算出部110は、自己相関関数Rτを例えば以下の式(1)で算出する。
Figure 0006989003
自己相関関数算出部110は算出した自己相関関数R0,Rτ(1),…,Rτ(M)をピッチ分析部120に出力する。
なお、この時間差τ(1),…,τ(M)は後述するピッチ分析部120が求める現在のフレームのピッチ周期T0の候補である。例えば、サンプリング周波数32kHzの音声信号を主とする音信号の場合には、音声のピッチ周期の候補として好適な75から320までの整数値をτ(1),…,τ(M)とするなどの実装が考えられる。なお、式(1)のRτに代えて、式(1)のRτをR0で除算した正規化自己相関関数Rτ/R0を求めてもよい。ただし、Lを8192などのピッチ周期T0の候補である75から320に対して十分に大きな値とした場合などには、自己相関関数Rτに代えて正規化自己相関関数Rτ/R0を求めるよりも、以下で説明する演算量を抑えた方法で自己相関関数Rτを算出するほうがよい。
自己相関関数Rτは、式(1)そのもので算出してもよいが、式(1)で求まるのと同じ値を別の算出方法で算出してもよい。例えば、音声ピッチ強調装置100内に自己相関関数記憶部160を備えて、自己相関関数記憶部160に1つ前のフレーム(直前のフレーム)の自己相関関数を算出する処理で得られた自己相関関数(直前のフレーム自己相関関数)Rτ(1),…,Rτ(M)を記憶しておく。自己相関関数算出部110は、自己相関関数記憶部160から読み出した直前のフレームの処理で得られた自己相関関数(直前のフレーム自己相関関数)Rτ(1),…,Rτ(M)それぞれに、新たに入力された現在のフレームの音信号サンプルの寄与分の加算と、最も過去のフレームの寄与分の減算と、を行うことにより現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を算出するようにしてもよい。これにより、式(1)そのもので算出するよりも自己相関関数の算出に要する演算量を抑えることが可能である。この場合、τ(1),…,τ(M)のそれぞれをτとすると、自己相関関数算出部110は、直前のフレームの処理で得られた自己相関関数Rτ(直前のフレームの自己相関関数Rτ)に対して、以下の式(2)で得られる差分ΔRτ +を加算し、直前のフレームで式(3)で得られた差分ΔRτ を減算することにより、現在のフレームの自己相関関数Rτを得る。
Figure 0006989003
また、入力された音信号の最新のL個の音信号サンプルそのものではなく、当該L個の音信号サンプルに対してダウンサンプリングやサンプルの間引きなどを行うことによりサンプル数を減らした信号を用いて、上記と同様の処理により自己相関関数を算出することで演算量を節約してもよい。この場合、M個の時間差τ(1),…,τ(M)は、例えばサンプル数を半分にした際には半分のサンプル数で表現する。例えば、上述したサンプリング周波数32kHzの8192個の音信号サンプルをサンプリング周波数16kHzの4096個のサンプルにダウンサンプリングした場合には、ピッチ周期Tの候補であるτ(1),…,τ(M)は、75から320の約半分である37から160とすればよい。
なお、信号記憶部140に記憶された音信号サンプルは後述する信号特徴分析処理にも用いられる。具体的には、後述する信号特徴分析処理では信号記憶部140に記憶されたJ-N個(Jは正の整数)の音信号サンプルが用いられる。すなわち、LとJのうちの大きいほうの値をKとすると(K=max(L,J)とすると)、1つ前のフレームまでに入力された最新の少なくともK‐N個の音信号サンプルを信号記憶部140に記憶しておく必要がある。そこで、信号記憶部140は、音声ピッチ強調装置100が現在のフレームについての後述するピッチ強調部130の処理までを終えた後に、その時点で最新のK‐N個の音信号サンプルを記憶しておくように記憶内容を更新する。具体的には、例えば、K>2Nの場合、信号記憶部140は、記憶されているK‐N個の音信号サンプルのうちの一番古いN個の音信号サンプルXR0,XR1,…,XRN−1を削除し、XRN,XRN+1,…,XRK−N−1をXR0,XR1,…,XRK−2N−1とし、入力された現在のフレームのN個の時間領域の音信号サンプルをXRK−2N,XRL−2N+1,…,XRK−N−1として新たに記憶する。また、K≦2Nの場合、信号記憶部140は、記憶されているK‐N個の音信号サンプルXR0,XR1,…,XRK−N−1を削除し、入力された現在のフレームのN個の時間領域の音信号サンプルのうちの最新のK‐N個の音信号サンプルをXR0,XR1,…,XRK−N−1として新たに記憶する。なお、K≦Nである場合には、音声ピッチ強調装置100内には信号記憶部140を備える必要はない。
また、自己相関関数記憶部160は、自己相関関数算出部110が現在のフレームについての自己相関関数の算出を終えた後に、算出した現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を記憶しておくように記憶内容を更新する。具体的には、自己相関関数記憶部160は、記憶されているRτ(1),…,Rτ(M)を削除し、算出した現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を新たに記憶する。
なお、上述の説明では、最新のL個の音信号サンプルが現在のフレームのN個の音信号サンプルを含む(つまりL≧N)ことを前提としているが、必ずしもL≧Nである必要はなく、L<Nであってもよい。この場合、自己相関関数算出部110は、現在のフレームのN個に含まれる連続したL個の音信号サンプルX0,X1,…,XL−1を用いて、時間差0の自己相関関数R0、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出すればよい。
[ピッチ分析処理(S120)]
次に、音声ピッチ強調装置100が行うピッチ分析処理について説明する。
ピッチ分析部120には、自己相関関数算出部110が出力した現在のフレームの自己相関関数R0,Rτ(1),…,Rτ(M)が入力される。
ピッチ分析部120は、所定の時間差に対する現在のフレームの自己相関関数Rτ(1),…,Rτ(M)の中での最大値を求める。ピッチ分析部120は、自己相関関数の最大値と時間差0の自己相関関数R0の比を現在のフレームのピッチ利得σ0として得て、また、自己相関関数が最大値となる時間差を現在のフレームのピッチ周期T0として得て、それぞれをピッチ強調部130へ出力する。
[信号特徴分析処理(S170)]
次に、音声ピッチ強調装置100が行う信号特徴分析処理について説明する。
信号特徴分析部170には、時間領域の音信号に由来する情報が入力される。この音信号は、自己相関関数算出部110に入力される音信号と同じ信号である。
例えば、信号特徴分析部170には、所定の時間長のフレーム(時間区間)単位で、音声ピッチ強調装置100に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。すなわち、信号特徴分析部170には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。この場合には、信号特徴分析部170は、入力されたN個の時間領域の音信号サンプルを含む最新のJ個(Jは正の整数)の音信号サンプルによるサンプル列を用いて、現在のフレームが子音であるか否かを表す情報、または、現在のフレームの子音らしさの指標値、を得て、信号分析情報I0としてピッチ強調部130へ出力する。すなわち、この場合は、「時間領域の音信号に由来する情報」は現在のフレームの時間領域の音信号のサンプル列(図1中、二点鎖線で示す)である。
また、例えば、信号特徴分析部170には、所定の時間長のフレーム(時間区間)単位で、現在のフレームのピッチ周期T0からε個過去のフレームのピッチ周期T−εまでが入力される。この場合には、信号特徴分析部170は、現在のフレームのピッチ周期T0からε個過去のフレームのピッチ周期T−εまでを用いて、現在のフレームが子音であるか否かを表す情報、または、現在のフレームの子音らしさの指標値、を得て、信号分析情報I0としてピッチ強調部130へ出力する。すなわち、この場合は、「時間領域の音信号に由来する情報」は現在のフレームのピッチ周期T0からε個過去のフレームのピッチ周期T−ε(図1中、一点鎖線で示す)までである。この場合には、音声ピッチ強調装置100は更にピッチ情報記憶部150を備えて、ピッチ情報記憶部150には1つ前のフレームからε個過去のフレームまでのピッチ周期T−1, ..., T−εを記憶しておく。そして、信号特徴分析部170は、ピッチ分析部120から入力された現在のフレームのピッチ周期T0と、ピッチ情報記憶部150から読み出した1個過去のフレームからε個過去のフレームまでのピッチ周期T−1, ... , T−εと、を用いる。ただし、ここでは現在のフレームからみてs個前のフレーム(s個過去のフレーム)のピッチ周期をT−sと表記しており、εは、予め定めた正の整数である。なお、ピッチ情報記憶部150は、現在のフレームのピッチ周期を、以降のフレームの信号特徴分析部170の処理において過去のフレームのピッチ周期として用いることができるように、記憶内容を更新する。
信号特徴分析部170は例えば下記の例1から例5の信号特徴分析処理により信号分析情報I0を得る。
(信号特徴分析処理の例1:子音らしさの指標値を信号分析情報とする例その1)
この例では、信号特徴分析部170は、入力された現在のフレームのピッチ周期T0からε個過去のフレームのピッチ周期T−εまでを用いて、現在のフレームの子音らしさの指標値としてピッチ周期の不連続性が大きいほど大きくなる指標値(便宜上、「子音らしさの第1−1の指標値」ともいう)を得て、得た第1−1の指標値を信号分析情報I0として出力する。
信号特徴分析部170は、例えば、ピッチ分析部120から入力されたピッチ周期T0とピッチ情報記憶部150から読み出した1個過去のフレームからε個過去のフレームまでのピッチ周期T−1, ..., T−εとを用いて、第1−1の指標値δを式(4)により求める。
δ=(|T0-T−1|+|T−1-T−2|+...+|T−(ε−1) - T−ε|)/ε (4)
母音の場合には、ピッチ周期に連続性があり、連続するピッチ周期間の差分が0に近い値となり、δの値も小さくなる傾向がある。一方、子音の場合には、ピッチ周期に連続性がなく、δの値が大きくなる傾向がある。そこで、この例では、この傾向に基づき、第1−1の指標値δを子音らしさの指標値として利用する。なお、εは、判定するための十分な情報を得ることができる程度に大きく、かつ、T0〜T−εに対応する時間区間に子音と母音とが混在しない程度に小さい値とすることが望ましい。
(信号特徴分析処理の例2:子音らしさの指標値を信号分析情報とする例その2)
この例では、信号特徴分析部170は、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列を用いて、現在のフレームの子音らしさの指標値として摩擦音らしさの指標値(便宜上、「子音らしさの第1−2の指標値」ともいう)を得て、得た第1−2の指標値を信号分析情報I0として出力する。
信号特徴分析部170は、例えば、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列の零交差点数(参考文献3参照)を摩擦音らしさの指標値である子音らしさの第1−2の指標値として求める。
(参考文献3)L.R.ラビナー 他著、鈴木久喜 訳、「音声のディジタル信号処理(上)」、株式会社コロナ社、1983年、p.132-137
また、信号特徴分析部170は、例えば、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列を修正離散コサイン変換(MDCT)などで周波数スペクトル系列に変換する。次に、信号特徴分析部170は、周波数スペクトル系列のうちの低域側にあるサンプルの平均エネルギーに対する周波数スペクトル系列のうちの高域側にあるサンプルの平均エネルギーの比が大きいほど大きくなる指標値を摩擦音らしさの指標値である子音らしさの第1−2の指標値として求める。
前述の通り、子音は、摩擦音を含む(参考文献1、参考文献2参照)。そこでこの例では、摩擦音らしさの指標値を子音らしさの指標値として利用する。
(信号特徴分析処理の例3:複数の指標値を組み合わせた指標値を信号分析情報とする例)
この例では、信号特徴分析部170は、まず、入力された現在のフレームのピッチ周期T0からε個過去のフレームのピッチ周期T−εまでを用いて、例1と同じ方法により、現在のフレームの子音らしさの第1−1の指標値を得る(Step 3-1)。信号特徴分析部170は、また、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列を用いて、例2と同じ方法により、現在のフレームの子音らしさの第1−2の指標値を得る(Step 3-2)。信号特徴分析部170は、さらに、Step 3-1で得た第1−1の指標値とStep 3-2で得た第1−2の指標値の重み付け加算などにより、第1−1の指標値が大きな値になるほど大きな値になり、かつ、第1−2の指標値が大きな値になるほど大きな値になる値を、現在のフレームの子音らしさの指標値(便宜上、「子音らしさの第1−3の指標値」ともいう)として得て、得た第1−3の指標値を信号分析情報I0として出力する(Step 3-3)。
前述の通り、第1−1の指標値も第1−2の指標値も子音らしさを表す指標である。この例では2つの指標値を組み合わせることでより柔軟に子音らしさの指標値を設定することができる。
信号特徴分析処理の例1〜例3では子音らしさの指標値を信号分析情報とする例を説明してきた。ここからは、子音であるか否かを表す情報を信号分析情報とする例を説明する。
(信号特徴分析処理の例4:子音であるか否かを表す情報を信号分析情報とする例その1)
この例では、信号特徴分析部170は、まず、例1から例3の何れかと同じ方法により、現在のフレームの子音らしさの第1−1〜1−3の指標値の何れかを得る。信号特徴分析部170は、次に、得た指標値(すなわち、第1−1〜1−3の指標値の何れか1つ)が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す情報(「第1−1の指標値」〜「第1−3の指標値」に対応する「現在のフレームが子音であるか否かを表す情報」をそれぞれ、便宜上、「第1−1の情報」〜「第1−3の情報」ともいう)を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第1−1〜第1−3の情報の何れかを信号分析情報I0として出力する。
(信号特徴分析処理の例5:子音であるか否かを表す情報を信号分析情報とする例その2)
この例では、信号特徴分析部170は、まず、例1と同じ方法により、現在のフレームの子音らしさの第1−1の指標値を得る(Step 5-1)。次に、信号特徴分析部170は、Step 5-1で得た第1−1の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第1−1の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第1−1の情報を得る(Step 5-2)。信号特徴分析部170は、また、例2と同じ方法により、現在のフレームの子音らしさの第1−2の指標値を得る(Step 5-3)。信号特徴分析部170は、Step 5-3で得た第1−2の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第1−2の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第1−2の情報を得る(Step 5-4)。信号特徴分析部170は、さらに、Step 5-2で得た第1−1の情報が子音であることを表しかつStep 5-4で得た第1−2の情報が子音であることを表す場合には、現在のフレームが子音であることを表す情報(便宜上、「第1−4の情報」ともいう)を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第1−4の情報を信号分析情報I0として出力する(Step 5-5)。
なお、信号特徴分析部170は、上記のStep 5-5に代えて、Step 5-2で得た第1−1の情報が子音であることを表すかまたはStep 5-4で得た第1−2の情報が子音であることを表す場合には、現在のフレームが子音であることを表す第1−4の情報を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音ないことを表す第1−4の情報を信号分析情報I0として出力してもよい(Step 5-5')。
このような処理により信号特徴分析部170は、子音らしさの指標値または子音であるか否かを表す情報を信号分析情報I0として出力する。
[ピッチ強調処理(S130)]
次に、音声ピッチ強調装置100が行うピッチ強調処理について説明する。
ピッチ強調部130は、ピッチ分析部120が出力したピッチ周期とピッチ利得、信号特徴分析部170が出力した信号分析情報、及び音声ピッチ強調装置100に入力された現在のフレームの時間領域の音信号(入力信号)を受け取る。ピッチ強調部130は、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T0に対応するピッチ成分を、ピッチ利得σ0に基づく強調の度合いが子音のフレームのほうが子音以外のフレームよりも小さくなるように、強調して得た出力信号のサンプル列を出力する。
以下、具体例を説明する。
ピッチ強調部130は、入力された現在のフレームのピッチ利得σ0と、入力された現在のフレームのピッチ周期T0と、入力された現在のフレームの信号分析情報I0とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。具体的には、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(8)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure 0006989003
ただし、信号分析情報I0が子音であるか否かを表す情報である場合には、減衰係数γ0は、現在のフレームの信号分析情報I0が子音であることを表す場合には0より大きく1より小さい予め定めた値であり(0<γ0<1)、現在のフレームの信号分析情報I0が子音でないことを表す場合には1である(γ0=1)。
また、現在のフレームの信号分析情報I0が子音らしさの指標値である場合には、減衰係数γ0は、現在のフレームの信号分析情報I0に基づいて決まる値であり、子音らしさの指標値I0が大きいほど小さな値である。より具体的には、例えば、減衰係数γ0は、子音らしさの指標値I0が大きいほど小さな値であり、かつ、子音らしさの指標値I0がその指標値が取り得る最小値である場合にはγ0=1となり、かつ、子音らしさの指標値I0がその指標値が取り得る最大値である場合にはγ0=0となるような、所定の関数γ0=f(I0)により求まるものとすればよい。
なお、式(8)のAは、下記の式(9)により求まる振幅補正係数である。
Figure 0006989003
また、B0は予め定めた値であり、例えば3/4である。
式(8)のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、子音であるフレームのピッチ成分については子音でないフレームのピッチ成分よりも小さい強調の度合いでピッチ成分を強調する処理である。
つまり、信号分析情報I0が子音であるか否かを表す場合、ピッチ強調部130では、子音であると判定されたフレーム(時間区間)については、そのフレーム中の各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、時刻nの信号Xnと、を加算した信号を含む信号を出力信号Xnew nとして得る。また、ピッチ強調部130では、子音でないと判定されたフレーム(時間区間)については、そのフレーム中の各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0と、所定の定数B0と、を乗算した信号(B0σ0Xn-T_0)(この信号は式(8)の右辺の括弧内の第2項においてγ0=1に対応する)と、時刻nの信号Xnと、を加算した信号(Xn+B0σ0Xn-T_0)を含む信号を出力信号Xnew nとして得る。
また、信号分析情報I0が子音らしさの指標値である場合、ピッチ強調部130では、そのフレーム中の各時刻nについて、信号Xnを含むフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0とそのフレームが子音らしければ子音らしいほど小さい値B0γ0と、を乗算した信号(B0σ0γ0Xn-T_0)と、時刻nの信号Xnと、を加算した信号(Xn+B0γ0σ0Xn-T_0)を含む信号を出力信号Xnew nとして得る。
このピッチ強調処理により、子音のフレームであっても違和感を低減し、また、子音のフレームとそれ以外のフレームとが頻繁に切り替わる場合であっても、フレーム間におけるピッチ成分の強調の度合いの変動による違和感を低減する効果を得ることができる。
[ピッチ強調処理(S130)の第1変形例]
次に、音声ピッチ強調装置100が行うピッチ強調処理の第1変形例とこれに関連する処理について説明する。
第1変形例の音声ピッチ強調装置100は、更にピッチ情報記憶部150を備える。なお、信号特徴分析処理(S170)において、ピッチ情報記憶部150を利用する場合には、共用してもよい。
ピッチ強調部130は、ピッチ分析部120が出力したピッチ周期とピッチ利得、信号特徴分析部170が出力した信号分析情報、及び音声ピッチ強調装置100に入力された現在のフレームの時間領域の音信号を受け取る。ピッチ強調部130は、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T0に対応するピッチ成分と、過去のフレームのピッチ周期に対応するピッチ成分と、を強調して得た出力信号のサンプル列を出力する。その際、ピッチ強調部130は、現在のフレームのピッチ周期T0に対応するピッチ成分については、現在のフレームのピッチ利得σ0に基づく強調の度合いが子音のフレームのほうが子音以外のフレームよりも小さくなるように、強調する。なお、以下の説明において、現在のフレームからみてs個前のフレーム(s個過去のフレーム)のピッチ周期及びピッチ利得をそれぞれT−s及びσ−sと表記する。
ピッチ情報記憶部150には、1つ前のフレームからα個過去のフレームまでのピッチ周期T−1, ..., T−αとピッチ利得σ−1, ...,σ−αとを記憶しておく。ただし、αは、予め定めた正の整数であり、例えば1である。また、前述の通り、信号特徴分析処理(S170)とピッチ強調処理(S130)においてピッチ情報記憶部150を共用してもよい。ε>αであってもよいし、ε<αであってもよいし、ε=αとして重複する部分を最大限共用するようにしてもよい。
ピッチ強調部130は、入力された現在のフレームのピッチ利得σ0と、ピッチ情報記憶部150から読み出したα個過去のフレームのピッチ利得σ−αと、入力された現在のフレームのピッチ周期T0と、ピッチ情報記憶部150から読み出したα個過去のフレームのピッチ周期T−αと、入力された現在のフレームの信号分析情報I0とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。
以下、具体例を説明する。
(ピッチ強調処理の第1変形例の具体例1)
この具体例では、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(10)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure 0006989003
ただし、信号分析情報I0が子音であるか否かを表す情報である場合には、減衰係数γ0は、現在のフレームの信号分析情報I0が子音であることを表す場合には0より大きく1より小さい予め定めた値であり(0<γ0<1)、現在のフレームの信号分析情報I0が子音でないことを表す場合には1である(γ0=1)。
また、現在のフレームの信号分析情報I0が子音らしさの指標値である場合には、減衰係数γ0は、現在のフレームの信号分析情報I0に基づいて決まる値であり、子音らしさの指標値I0が大きいほど小さな値である。より具体的には、例えば、減衰係数γ0は、子音らしさの指標値I0が大きいほど小さな値であり、かつ、子音らしさの指標値I0がその指標値が取り得る最小値である場合にはγ0=1となり、かつ、子音らしさの指標値I0がその指標値が取り得る最大値である場合にはγ0=0となるような、所定の関数γ0=f(I0)により求まるものとすればよい。
なお、式(10)のAは、下記の式(11)により求まる振幅補正係数である。
Figure 0006989003
また、B0とB−αは、予め定めた1より小さい値であり、例えば3/4と1/4である。
(ピッチ強調処理の第1変形例の具体例2)
この具体例では、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(12)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure 0006989003
ただし、減衰係数γ0は具体例1と同じであり、減衰係数γ−αはα個過去のフレームの減衰係数である。この具体例ではα個過去のフレーム減衰係数γ−αを用いることから、この具体例の音声ピッチ強調装置100は、更に減衰係数記憶部180を備える。減衰係数記憶部180には、1つ前のフレームからα個過去のフレームまでの減衰係数γ−1, ..., γ−αを記憶しておく。
なお、式(12)のAは、下記の式(13)により求まる振幅補正係数である。
Figure 0006989003
また、B0とB−αは、予め定めた1より小さい値であり、例えば3/4と1/4である。
(ピッチ強調処理の第1変形例の具体例3)
この具体例では、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(14)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure 0006989003
ただし、減衰係数γ0は具体例1や2と同じである。
また、式(14)のAは、下記の式(15)により求まる振幅補正係数である。
Figure 0006989003
また、B0とB−αは、予め定めた1より小さい値であり、例えば3/4と1/4である。
この具体例は、具体例2のα個過去のフレームの減衰係数γ−αの代わりに現在のフレームの減衰係数γ0を用いる構成である。この構成とすることにより、音声ピッチ強調装置100が減衰係数記憶部180を備えずに済むようにできる。
第1変形例のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、子音であるフレームのピッチ成分については子音でないフレームのピッチ成分よりも小さい強調の度合いでピッチ成分を強調する処理であり、かつ、現在のフレームのピッチ周期T0に対応するピッチ成分を強調しつつ、そのピッチ成分より少し小さい強調の度合いで過去のフレームでのピッチ周期T−αに対応するピッチ成分も強調する処理である。第1変形例のピッチ強調処理により、短い時間区間(フレーム)ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果も得ることができる。
なお、信号分析情報I0が子音であるか否かを表す情報である場合には、式(10)においてはB0γ0>B−αとするのが好ましく、式(12)においてはB0γ0>B−αγ−αとするのが好ましく、式(14)においてはB0>B―αとするのが好ましい。しかし、式(10)においてB0γ0≦B−αとしたり、式(12)においてB0γ0≦B−αγ−αとしたり、式(14)においてB0≦B―αとしても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。
また、信号分析情報I0が子音らしさの指標値である場合には、式(10), 式(12), 式(14)においてはB0>B―αとするのが好ましい。しかし、B0≦B−αとしてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。
また、式(11)と式(13)と式(15)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T0とα個過去のフレームのピッチ周期T−αとが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。
なお、ピッチ情報記憶部150は、現在のフレームのピッチ周期とピッチ利得を、以降のフレームのピッチ強調部130の処理において過去のフレームのピッチ周期とピッチ利得として用いることができるように、記憶内容を更新する。
また、減衰係数記憶部180を備える場合には、現在のフレームの減衰係数を、以降のフレームのピッチ強調部130の処理において過去のフレームの減衰係数として用いることができるように、記憶内容を更新する。
[ピッチ強調処理(S130)の第2変形例]
第1変形例では、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T0に対応するピッチ成分と、過去の1つのフレームのピッチ周期に対応するピッチ成分と、を強調して出力信号のサンプル列を得たが、過去の複数(2つ以上)のフレームのピッチ周期に対応するピッチ成分を強調するようにしてもよい。以下では、過去の複数のフレームのピッチ周期に対応するピッチ成分を強調する一例として、過去の2つのフレームのピッチ周期に対応するピッチ成分を強調する例について、第1変形例と異なる点を説明する。
ピッチ情報記憶部150には、現在のフレームよりβ個過去のフレームまでのピッチ周期T−1, ..., T−α, ..., T−βとピッチ利得σ−1, ...,σ−α, ...,σ−βとを記憶しておく。ただし、βは、αより大きい予め定めた正の整数である。例えば、αは1であり、βは2である。また、前述の通り、信号特徴分析処理(S170)とピッチ強調処理(S130)においてピッチ情報記憶部150を共用してもよい。ε>βであってもよいし、ε<βであってもよいし、ε=βとして重複する部分を最大限共用するようにしてもよい。
ピッチ強調部130は、入力された現在のフレームのピッチ利得σ0と、ピッチ情報記憶部150から読み出したα個過去のフレームのピッチ利得σ−αと、ピッチ情報記憶部150から読み出したβ個過去のフレームのピッチ利得σ−βと、入力された現在のフレームのピッチ周期T0と、ピッチ情報記憶部150から読み出したα個過去のフレームのピッチ周期T−αと、ピッチ情報記憶部150から読み出したβ個過去のフレームのピッチ周期T−βと、入力された現在のフレームの信号分析情報I0とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。
以下、具体例を説明する。
(ピッチ強調処理の第2変形例の具体例1)
この具体例では、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(16)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure 0006989003
ただし、信号分析情報I0が子音であるか否かを表す情報である場合には、減衰係数γ0は、現在のフレームの信号分析情報I0が子音であることを表す場合には0より大きく1より小さい予め定めた値であり(0<γ0<1)、現在のフレームの信号分析情報I0が子音でないことを表す場合には1である(γ0=1)。
また、現在のフレームの信号分析情報I0が子音らしさの指標値である場合には、減衰係数γ0は、現在のフレームの信号分析情報I0に基づいて決まる値であり、子音らしさの指標値I0が大きいほど小さな値である。より具体的には、例えば、減衰係数γ0は、子音らしさの指標値I0が大きいほど小さな値であり、かつ、子音らしさの指標値I0がその指標値が取り得る最小値である場合にはγ0=1となり、かつ、子音らしさの指標値I0がその指標値が取り得る最大値である場合にはγ0=0となるような、所定の関数γ0=f(I0)により求まるものとすればよい。
なお、式(16)のAは、下記の式(17)により求まる振幅補正係数である。
Figure 0006989003
また、B0とB−αとB−βは、予め定めた1より小さい値であり、例えば3/4と3/16と1/16である。
(ピッチ強調処理の第2変形例の具体例2)
この具体例では、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(18)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure 0006989003
ただし、減衰係数γ0は具体例1と同じであり、減衰係数γ−αはα個過去のフレームの減衰係数であり、減衰係数γ−βはβ個過去のフレームの減衰係数である。この具体例ではα個過去のフレーム減衰係数γ−αとβ個過去のフレーム減衰係数γ−βを用いることから、この具体例の音声ピッチ強調装置100は、更に減衰係数記憶部180を備える。減衰係数記憶部180には、1つ前のフレームからβ個過去のフレームまでの減衰係数γ−1,...,γ−βを記憶しておく。
なお、式(18)のAは、下記の式(19)により求まる振幅補正係数である。
Figure 0006989003
また、B0とB−αとB−βは、予め定めた1より小さい値であり、例えば3/4と3/16と1/16である。
(ピッチ強調処理の第2変形例の具体例3)
この具体例では、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L−N≦n≦L−1)に対して、以下の式(20)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure 0006989003
ただし、減衰係数γ0は具体例1や2と同じである。
また、式(20)のAは、下記の式(21)により求まる振幅補正係数である。
Figure 0006989003
また、B0とB−αとB−βは、予め定めた1より小さい値であり、例えば3/4と3/16と1/16である。
この具体例は、具体例2のα個過去のフレームの減衰係数γ−αとβ個過去のフレームの減衰係数γ−βの代わりに現在のフレームの減衰係数γ0を用いる構成である。この構成とすることにより、音声ピッチ強調装置100が減衰係数記憶部180を備えずに済むようにできる。
第2変形例のピッチ強調処理も、第1変形例のピッチ強調処理と同様に、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理であり、かつ、子音であるフレームのピッチ成分については子音でないフレームのピッチ成分よりも小さい強調の度合いでピッチ成分を強調する処理であり、かつ、現在のフレームのピッチ周期T0に対応するピッチ成分を強調しつつ、そのピッチ成分より少し小さい強調の度合いで過去のフレームでのピッチ周期に対応するピッチ成分も強調する処理である。第2変形例のピッチ強調処理により、短い時間区間(フレーム)ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果も得ることができる。
なお、信号分析情報I0が子音であるか否かを表す情報である場合には、式(16)においてはB0γ0>B−α>B−βとするのが好ましく、式(18)においてはB0γ0>B−αγ−α>B−βγ−βとするのが好ましく、式(20)においてはB0>B―α>B−βとするのが好ましい。しかし、式(16)においてB0γ0≦B−αやB0γ0≦B−βやB−α≦B−βとしたり、式(18)においてB0γ0≦B−αγ−αやB0γ0≦B−βγ−βやB−αγ−α≦B−βγ−βとしたり、式(20)においてB0≦B―αやB0≦B−βやB−α≦B−βとしても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。
また、信号分析情報I0が子音らしさの指標値である場合には、式(16), 式(18), 式(20)においてはB0>B−α>B−βとするのが好ましい。しかし、この大小関係を満たさなくともフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。
また、式(17)と式(19)と式(21)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T0とα個過去のフレームのピッチ周期T−αとβ個過去のフレームのピッチ周期T−βとが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。
(ピッチ強調処理のその他の変形例)
なお、振幅補正係数Aは、式(9)や式(11)や式(13)や式(15)や式(17)や式(19)や式(21)により求まる値ではなく、予め定めた1以上の値を用いてもよい。振幅補正係数Aを1とする場合には、ピッチ強調部130は、上記の出力信号Xnew nを得る式中の1/A(すなわち、式(8)や式(10)や式(12)や式(14)や式(16)や式(18)や式(20)の1/A)を含まないようにした式により出力信号Xnew nを得るようにしてもよい。
また、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行ってもよい。
また、ピッチ利得が所定の閾値より小さい場合には、そのピッチ成分を含まないピッチ強調処理を行うようにしてもよい。例えば、現在のフレームのピッチ利得σ0が所定の閾値より小さい場合には、現在のフレームのピッチ周期T0に対応するピッチ成分を出力信号に含めず、過去のフレームのピッチ利得が所定の閾値より小さい場合には、その過去のフレームのピッチ周期に対応するピッチ成分を出力信号に含めない構成としてもよい。
また、信号特徴分析部170において子音らしさの指標値を得、信号分析情報I0としてピッチ強調部130に出力し、ピッチ強調部130において、子音らしさの指標値と閾値との大小関係に基づき強調度合い(減衰係数γ0の大きさ)を2段階で異ならせる構成としてもよい。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
本実施形態では、第一実施形態で説明した子音らしさの指標値に代えて、スペクトル包絡の平坦度合いの指標値を、子音らしさの指標値として得る。子音のスペクトルは、母音に比べ、スペクトル包絡が平坦になる性質がある。本実施形態では、この性質を利用し、スペクトル包絡の平坦度合いの指標値を子音らしさの指標値として用いる。
信号特徴分析処理(S170)の内容が第一実施形態とは異なる。
[信号特徴分析処理(S170)]
信号特徴分析部170には、第一実施形態と同様に時間領域の音信号に由来する情報が入力される。
信号特徴分析部170は、現在のフレームが子音であるか否かを表す情報、または、現在のフレームの子音らしさの指標値、を得て、信号分析情報I0としてピッチ強調部130へ出力する。なお、本実施形態では、前述の通り、現在のフレームのスペクトル包絡の平坦度合いの指標値を、現在のフレームの子音らしさの指標値として用いる。また、本実施形態では、現在のフレームのスペクトル包絡が平坦であるか否かを表す情報を現在のフレームが子音であるか否かを表す情報として用いる。
信号特徴分析部170は例えば下記の例2−1から例2−7の信号特徴分析処理により信号分析情報I0を得る。
(信号特徴分析処理の例2−1:スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その1)
この例では、信号特徴分析部170は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からT次のLSPパラメータθ[1],θ[2],…,θ[T]を得る(Step 2-1-1)。信号特徴分析部170は、次に、Step 2-1-1で得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、下記の指標Qを現在のフレームのスペクトル包絡の平坦度合いの指標値(便宜上、「子音らしさの第2−1の指標値」ともいう)として得る(Step 2-1-2)。
Figure 0006989003
(信号特徴分析処理の例2−2:スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その2)
この例では、信号特徴分析部170は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からT次のLSPパラメータθ[1],θ[2],…,θ[T]を得る(Step 2-2-1)。信号特徴分析部170は、次に、Step 2-2-1で得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の最小値、すなわち、下記の指標Q'、を現在のフレームのスペクトル包絡の平坦度合いの指標値(便宜上、「子音らしさの第2−2の指標値」ともいう)として得る(Step 2-2-2)。
Figure 0006989003
(信号特徴分析処理の例2−3:スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その3)
この例では、信号特徴分析部170は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からT次のLSPパラメータθ[1],θ[2],…,θ[T]を得る(Step 2-3-1)。信号特徴分析部170は、次に、Step 2-3-1で得たT次のLSPパラメータθ[1],θ[2],…,θ[T]を用いて、隣接するLSPパラメータの間隔の値と最低次のLSPパラメータの値のうちの最小値、すなわち、下記の指標Q''、を現在のフレームのスペクトル包絡の平坦度合いの指標値(便宜上、「子音らしさの第2−3の指標値」ともいう)として得る(Step 2-3-2)。
Figure 0006989003
(信号特徴分析処理の例2−4:スペクトル包絡の平坦度合いの指標値を信号分析情報とする例その4)
この例では、信号特徴分析部170は、まず、入力されたN個の時間領域の音信号サンプルを含む最新のJ個の音信号サンプルによるサンプル列からp次のPARCOR係数k[1],k[2],…,k[p]を得る(Step 2-4-1)。信号特徴分析部170は、次に、Step 2-4-1で得たp次のPARCOR係数k[1],k[2],…,k[p]を用いて、下記の指標Q'''を現在のフレームのスペクトル包絡の平坦度合いの指標値(便宜上、「子音らしさの第2−4の指標値」ともいう)として得る(Step 2-4-2)。
Figure 0006989003
(信号特徴分析処理の例2−5:複数の指標値を組み合わせた指標値を信号分析情報とする例)
この例では、信号特徴分析部170は、例2−1〜例2−4の方法により、子音らしさの第2−1〜第2−4の指標値を得る(Step 2-5-1)。信号特徴分析部170は、さらに、Step 2-5-1で得た子音らしさの第2−1〜第2−4の指標値の重み付け加算により、第2−1の指標値が大きな値になるほど大きな値になり、かつ、第2−2の指標値が大きな値になるほど大きな値になり、かつ、第2−3の指標値が大きな値になるほど大きな値になり、かつ、第2−4の指標値が大きな値になるほど大きな値になる値を、現在のフレームのスペクトル包絡の平坦度合いの指標値(便宜上、「子音らしさの第2−5の指標値」ともいう)として得て、得た第2−5の指標値を信号分析情報I0として出力する(Step 2-5-2)。
前述の通り、子音らしさの第2−1〜第2−4の指標値は、それぞれスペクトル包絡の平坦度合いを表す指標である。この例では4つの指標値を組み合わせることでより柔軟にスペクトル包絡の平坦度合いを表す指標値を設定することができる。
なお、信号特徴分析部170は、子音らしさの第2−1〜第2−4の指標値のうちの少なくとも2個を得てもよい(Step 2-5-1')。この場合、信号特徴分析部170は、Step 2-5-1'で得た少なくとも2個の子音らしさの指標値の重み付け加算により、Step 2-5-1'で得た指標値それぞれが大きな値になるほど大きな値になる値を、現在のフレームの子音らしさの第2−5の指標値として得て、得た第2−5の指標値を信号分析情報I0として出力してもよい(Step 2-5-2')。
信号特徴分析処理の例2−1〜例2−5では子音らしさの指標値(スペクトル包絡の平坦度合いの指標値)を信号分析情報とする例を説明してきた。ここからは、子音であるか否かを表す情報(スペクトル包絡が平坦であるか否かを表す情報)を信号分析情報とする例を説明する。
(信号特徴分析処理の例2−6:スペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例その1)
この例では、信号特徴分析部170は、まず、例2−1〜例2−5の何れかと同じ方法により、現在のフレームの子音らしさの第2−1〜第2−5の指標値の何れかを得る(Step 2-6-1)。信号特徴分析部170は、次に、Step 2-6-1で得た指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す情報(「第2−1の指標値」〜「第2−5の指標値」に対応する「現在のフレームが子音であるか否かを表す情報」をそれぞれ、便宜上、「第2−1の情報」〜「第2−5の情報」ともいう)を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第2−1〜第2−5の情報の何れかを信号分析情報I0として出力する(Step 2-6-2)。
(信号特徴分析処理の例2−7:スペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例その2)
この例では、信号特徴分析部170は、まず、例2−1〜例2−4と同じ方法により、現在のフレームの子音らしさの第2−1〜第2−4の指標値を得る(Step 2-7-1)。次に、信号特徴分析部170は、Step 2-7-1で得た4つの子音らしさの第2−1〜第2−4の指標値のぞれぞれと、予め定めた閾値との大小関係に基づき、各子音らしさの第2−1〜第2−4の指標値に対して、現在のフレームが子音であることを表す情報、または、現在のフレームが子音でないことを表す情報を得る(Step 2-7-2)。なお、閾値は4つの第2−1〜第2−4の指標値毎に設定するものとし、第2−1〜第2−4の指標値に対応する現在のフレームが子音であるか否かを表す情報をそれぞれ第2−1〜第2−4の情報ともいう。例えば、第2−1の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第2−1の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第2−1の情報を得る。同様に、第2−2〜第2−4の指標値と予め定めた閾値との大小関係に基づき第2−2〜第2−4の情報を得る。
信号特徴分析部170は、4つの第2−1〜第2−4の情報の論理演算に基づき、現在のフレームが子音であることを表す情報(便宜上、「第2−6の情報」ともいう)、または、現在のフレームが子音でないことを表す第2−6の情報を得る(Step 2-7-3)。
(論理演算の例1)
例えば、信号特徴分析部170は、第2−1〜第2−4の情報全てが子音であることを表す場合には、現在のフレームが子音であることを表す第2−6の情報を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第2−6の情報を信号分析情報I0として出力する。
(論理演算の例2)
また、例えば、信号特徴分析部170は、第2−1〜第2−4の情報の何れかが子音であることを表す場合には、現在のフレームが子音であることを表す第2−6の情報を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第2−6の情報を信号分析情報I0として出力する。
(論理演算の例3)
また、例えば、信号特徴分析部170は、第2−1〜第2−2の情報の何れかが子音であることを表し、かつ、第2−3〜第2−4の情報の何れかが子音であることを表す場合(論理和と論理積の組合せを用いる場合)には、現在のフレームが子音であることを表す第2−6の情報を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第2−6の情報を信号分析情報I0として出力する。
なお、第2−1〜第2−4の情報の論理演算は上述の論理演算の例1〜3に限定されるものではなく、復号した音信号がより自然に感じられるように適宜設定すればよい。
また、信号特徴分析部170は、子音らしさの第2−1〜第2−4の指標値のうちの少なくとも2個を得てもよい(Step 2-7-1')。この場合、信号特徴分析部170は、Step 2-7-1'で得た少なくとも2個の子音らしさの指標値のぞれぞれと、予め定めた閾値との大小関係に基づき、各子音らしさの指標値に対して、現在のフレームが子音であることを表す情報、または、現在のフレームが子音でないことを表す少なくとも2個の情報を得てもよい(Step 2-7-2')。さらに、信号特徴分析部170は、Step 2-7-2'で得た少なくとも2個の情報の論理演算に基づき、現在のフレームが子音であることを表す第2−6の情報、または、現在のフレームが子音でないことを表す第2−6の情報を得てもよい(Step2-7-3')。
このような処理により信号特徴分析部170は、子音らしさの指標値または子音であるか否かを表す情報を信号分析情報I0として出力する。
<ピッチ強調部130>
ピッチ強調部130におけるピッチ強調処理(S130)は、第一実施形態と同様である。
つまり、本実施形態のピッチ強調部130は、信号分析情報I0がスペクトル包絡の平坦であるか否か(子音であるか否か)を表す場合、スペクトル包絡(より詳しく言うと信号Xnを含むフレームのスペクトル包絡)が平坦である(子音である)と判定されたフレーム(時間区間)については、フレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、時刻nの信号Xnと、を加算した信号を含む信号を出力信号Xnew nとして得る。また、ピッチ強調部130は、スペクトル包絡が平坦でない(子音でない)と判定されたフレーム(時間区間)については、フレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0と、所定の定数B0と、を乗算した信号(B0σ0Xn-T_0)(この信号は式(8)の右辺の括弧内の第2項においてγ0=1に対応する)と、時刻nの信号Xnと、を加算した信号(Xn+B0σ0Xn-T_0)を含む信号を出力信号Xnew nとして得る。
また、ピッチ強調部130では、信号分析情報I0がスペクトル包絡の平坦度合いの指標値(子音らしさの指標値)である場合、フレームの各時刻nについて、信号Xnを含むフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0とそのフレームのスペクトル包絡が平坦であればあるほど(フレームが子音らしければ子音らしいほど)小さい値B0γ0と、を乗算した信号(B0σ0γ0Xn-T_0)と、時刻nの信号Xnと、を加算した信号(Xn+B0γ0σ0Xn-T_0)を含む信号を出力信号Xnew nとして得る。
<効果>
上述の構成により、第1実施形態と同様の効果を得ることができる。
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
本実施形態では、第一実施形態で説明した子音らしさの指標値に加えて、第二実施形態で説明したスペクトル包絡の平坦度合いの指標値も用いて、子音らしさの指標値または子音であるか否かを表す情報を得る。
信号特徴分析処理(S170)の内容が第一実施形態とは異なる。以下では、便宜上、第一実施形態で説明した子音らしさの第1−1〜第1−3の指標値の何れかを子音らしさの第1の指標値と呼び、第二実施形態で説明したスペクトル包絡の平坦度合いの指標値である子音らしさの第2−1〜第2−5の指標値の何れかを第2の指標値と呼び、子音らしさの第1の指標値と子音らしさの第2の指標値を用いて信号特徴分析処理(S170)で得る子音らしさの指標値を子音らしさの第3の指標値と呼ぶ。
[信号特徴分析処理(S170)]
信号特徴分析部170は、第一実施形態で説明した子音らしさの指標値と、第二実施形態で説明したスペクトル包絡の平坦度合いの指標値と、に基づいて、子音らしさの指標値または子音であるか否かを表す情報を得て、信号分析情報としてピッチ強調部130へ出力する。信号特徴分析部170は、例えば下記の例3−1から例3−4の信号特徴分析処理により信号分析情報I0を得る。
(信号特徴分析処理の例3−1:子音らしさの第1の指標値とスペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)とを組み合わせた指標値を子音らしさの第3の指標値とし、第3の指標値自体を信号分析情報とする例)
この例では、信号特徴分析部170は、まず、第一実施形態で説明した例1から3の何れかと同じ方法により、現在のフレームの子音らしさの第1の指標値を得る(Step 3-1-1)。信号特徴分析部170は、また、第二実施形態で説明した例2−1から例2−5の何れかの方法により、現在のフレームのスペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)を得る(Step 3-1-2)。信号特徴分析部170は、さらに、Step 3-1-1で得た子音らしさの第1の指標値とStep 3-1-2で得たスペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)の重み付け加算などにより、子音らしさの第1の指標値が大きな値になるほど大きな値になり、かつ、スペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)が大きな値になるほど大きな値になる値を、現在のフレームの子音らしさの第3の指標値として得て、得た子音らしさの第3の指標値を信号分析情報I0として出力する(Step 3-1-3)。
(信号特徴分析処理の例3−2:子音らしさの第1の指標値とスペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)とを組み合わせた第3の指標値を閾値判定して得た情報を信号分析情報とする例)
この例では、信号特徴分析部170は、まず、例3−1と同じ方法により、現在のフレームの子音らしさの第3の指標値を得る(Step 3-2-1)。信号特徴分析部170は、次に、Step 3-2-1で得た子音らしさの第3の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第3の情報を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第3の情報を信号分析情報I0として出力する。
(信号特徴分析処理の例3−3:子音であるかまたはスペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例)
この例では、信号特徴分析部170は、まず、第一実施形態で説明した例1から例3の何れかと同じ方法により、現在のフレームの子音らしさの第1の指標値を得る(Step 3-3-1)。信号特徴分析部170は、Step 3-3-1で得た第1の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第1の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第1の情報を得る(Step 3-3-2)。信号特徴分析部170は、また、第二実施形態で説明した例2−1から例2−5の何れかの方法により、現在のフレームのスペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)を得る(Step 3-3-3)。信号特徴分析部170は、Step 3-3-3で得た第2の指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームのスペクトル包絡が平坦である(子音である)ことを表す第2の情報を得て、そうでない場合には、現在のフレームのスペクトル包絡が平坦でない(子音でない)ことを表す第2の情報を得る(Step 3-3-4)。信号特徴分析部170は、さらに、Step 3-3-2で得た第1の情報が子音であることを表すかまたはStep 3-3-4で得た第2の情報がスペクトル包絡が平坦である(子音である)ことを表す場合には、現在のフレームが子音であることを表す第3の情報を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音ではないことを表す第3の情報を信号分析情報I0として出力する。
(信号特徴分析処理の例3−4:子音でありかつスペクトル包絡が平坦であるか否かを表す情報を信号分析情報とする例)
この例では、信号特徴分析部170は、まず、第一実施形態で説明した例1から例3の何れかと同じ方法により、現在のフレームの子音らしさの第1の指標値を得る(Step 3-4-1)。信号特徴分析部170は、Step 3-4-1で得た指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームが子音であることを表す第1の情報を得て、そうでない場合には、現在のフレームが子音でないことを表す第1の情報を得る(Step 3-4-2)。信号特徴分析部170は、また、第二実施形態で説明した例2−1から例2−5の何れかの方法により、現在のフレームのスペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)を得る(Step 3-4-3)。信号特徴分析部170は、Step 3-4-3で得た指標値が予め定めた閾値以上または閾値を超える場合には、現在のフレームのスペクトル包絡が平坦である(子音である)ことを表す第2の情報を得て、そうでない場合には、現在のフレームのスペクトル包絡が平坦でない(子音でない)ことを表す第2の情報を得る(Step 3-4-4)。信号特徴分析部170は、さらに、Step3-4-2で得た第1の情報が子音であることを表しかつStep 3-4-4で得た第2の情報がスペクトル包絡が平坦であることを表す場合には、現在のフレームが子音であることを表す第3の情報を信号分析情報I0として出力し、そうでない場合には、現在のフレームが子音でないことを表す第3の情報を信号分析情報I0として出力する。
<ピッチ強調部130>
ピッチ強調部130におけるピッチ強調処理(S130)は、第一実施形態と同様である。
つまり、本実施形態のピッチ強調部130は、信号分析情報I0が子音であるか否かを表す場合(第3の情報の場合)、子音である、または/および、信号Xnのスペクトル包絡が平坦であると判定されたフレーム(時間区間)については、そのフレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、時刻nの信号Xnと、を加算した信号を含む信号を出力信号Xnew nとして得る。また、ピッチ強調部130は、それ以外の判定がされたフレームについては、そのフレームの各時刻nについて、そのフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0と、所定の定数B0と、を乗算した信号(B0σ0Xn-T_0)(この信号は式(8)の右辺の括弧内の第2項においてγ0=1に対応する)と、時刻nの信号Xnと、を加算した信号(Xn+B0σ0Xn-T_0)を含む信号を出力信号Xnew nとして得る(例3−3、3−4に対応する)。なお、例3−2では、子音らしさの第1の指標値とスペクトル包絡の平坦度合いの指標値(子音らしさの第2の指標値)とを組み合わせた第3の指標値を閾値判定しており、この閾値判定は、子音である、または/および、信号Xnのスペクトル包絡が平坦であるか否かを判定することに相当する。
また、ピッチ強調部130では、信号分析情報I0が子音らしさの指標値である場合(第3の指標値の場合)、フレームの各時刻nについて、信号Xnを含むフレームのピッチ周期に対応するサンプル数T0だけ、時刻nよりも過去の時刻n-T0の信号Xn-T_0と、そのフレームのピッチ利得σ0と、そのフレームが子音らしければ子音らしいほど小さくかつそのフレームのスペクトル包絡が平坦であればあるほど小さい値B0γ0と、を乗算した信号(B0σ0γ0Xn-T_0)と、時刻nの信号Xnと、を加算した信号(Xn+B0γ0σ0Xn-T_0)を含む信号を出力信号Xnew nとして得る(例3−1に対応する)。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、本実施系形態では、第1の指標値に加えて、第2の指標値(スペクトル包絡の平坦度合いの指標値)も考慮することで、より適切な子音らしさの指標値を得ることができる。
<その他の変形例>
音声ピッチ強調装置100外で行われる復号処理などにより各フレームのピッチ周期とピッチ利得と信号分析情報を得られている場合には、音声ピッチ強調装置100を図3の構成として、音声ピッチ強調装置100外で得られたピッチ周期とピッチ利得と信号分析情報に基づきピッチを強調してもよい。図4はその処理フローを示す。この場合には、第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例の音声ピッチ強調装置100が備える自己相関関数算出部110やピッチ分析部120や信号特徴分析部170や自己相関関数記憶部160を備える必要はなく、ピッチ強調部130が、ピッチ分析部120が出力したピッチ周期とピッチ利得と信号特徴分析部170が出力した信号分析情報ではなく、音声ピッチ強調装置100に入力されたピッチ周期とピッチ利得と信号分析情報を用いてピッチ強調処理(S130)を行うようにすればよい。このような構成とすれば、音声ピッチ強調装置100自体の演算処理量は第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例よりも少なくすることが可能である。ただし、第一実施形態、第二実施形態、第三実施形態、およびそれらの変形例の音声ピッチ強調装置100は、音声ピッチ強調装置100外のピッチ周期やピッチ利得と信号分析情報を得る頻度に依存せずにピッチ周期やピッチ利得と信号分析情報を得ることができることから、非常に短い時間長のフレーム単位でのピッチ強調処理を行うことが可能である。上記のサンプリング周波数32kHzの例であれば、Nを例えば32とすれば、1msのフレーム単位でピッチ強調処理を行うことができる。
なお、以上の説明では、音信号そのものに対してピッチ強調処理を施すことを前提としていたが、非特許文献1に記載されているような線形予測残差に対してピッチ強調処理を行ってから線形予測合成をするような構成における、線形予測残差に対するピッチ強調処理として本発明を適用してもよい。すなわち、本発明を、音信号そのものではなく、音信号に対して分析や加工をして得た信号などの音信号に由来する信号に対して適用してもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
    前記ピッチ強調処理として、
    前記信号が子音であると判定された時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
    前記信号が子音でないと判定された時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
    ピッチ強調装置。
  2. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
    前記ピッチ強調処理として、
    前記各時間区間の各時刻nについて、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、当該時間区間が子音らしければ子音らしいほど小さい値と、を乗算した信号と、
    当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
    ピッチ強調装置。
  3. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
    前記ピッチ強調処理として、
    前記信号が子音である、または/および、前記信号のスペクトル包絡が平坦であると判定された時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
    前記以外の判定がされた時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
    ピッチ強調装置。
  4. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
    前記ピッチ強調処理として、
    前記各時間区間の各時刻nについて、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、当該時間区間が子音らしければ子音らしいほど小さくかつ当該時間区間のスペクトル包絡が平坦であればあるほど小さい値と、を乗算した信号と、
    当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調部を含む、
    ピッチ強調装置。
  5. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
    前記ピッチ強調処理として、
    前記信号が子音であると判定された時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
    前記信号が子音でないと判定された時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
    ピッチ強調方法。
  6. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
    前記ピッチ強調処理として、
    前記各時間区間の各時刻nについて、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、当該時間区間が子音らしければ子音らしいほど小さい値と、を乗算した信号と、
    当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
    ピッチ強調方法。
  7. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
    前記ピッチ強調処理として、
    前記信号が子音である、または/および、前記信号のスペクトル包絡が平坦であると判定された時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、0より大きく1より小さい値と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得、
    前記以外の判定がされた時間区間については、
    当該時間区間の各時刻について、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、所定の定数B0と、を乗算した信号と、
    当該時刻の前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
    ピッチ強調方法。
  8. 入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
    前記ピッチ強調処理として、
    前記各時間区間の各時刻nについて、
    当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻nよりも過去の時刻の前記信号と、当該時間区間のピッチ利得σ0と、当該時間区間が子音らしければ子音らしいほど小さくかつ当該時間区間のスペクトル包絡が平坦であればあるほど小さい値と、を乗算した信号と、
    当該時刻nの前記信号と、を加算した信号を含む信号を出力信号として得る処理を行うピッチ強調ステップを含む、
    ピッチ強調方法。
  9. 請求項5から請求項8の何れかのピッチ強調方法をコンピュータに実行させるためのプログラム。
  10. 請求項5から請求項8の何れかのピッチ強調方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2020518174A 2018-05-10 2019-03-22 ピッチ強調装置、その方法、プログラム、および記録媒体 Active JP6989003B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018091199 2018-05-10
JP2018091199 2018-05-10
PCT/JP2019/011984 WO2019216037A1 (ja) 2018-05-10 2019-03-22 ピッチ強調装置、その方法、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2019216037A1 JPWO2019216037A1 (ja) 2021-05-13
JP6989003B2 true JP6989003B2 (ja) 2022-01-05

Family

ID=68466945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020518174A Active JP6989003B2 (ja) 2018-05-10 2019-03-22 ピッチ強調装置、その方法、プログラム、および記録媒体

Country Status (5)

Country Link
US (1) US20210233549A1 (ja)
EP (1) EP3792917B1 (ja)
JP (1) JP6989003B2 (ja)
CN (1) CN112088404B (ja)
WO (1) WO2019216037A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
JP3426871B2 (ja) * 1995-09-18 2003-07-14 株式会社東芝 音声信号のスペクトル形状調整方法および装置
JPH10143195A (ja) 1996-11-14 1998-05-29 Olympus Optical Co Ltd ポストフィルタ
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP4876245B2 (ja) * 2006-02-17 2012-02-15 国立大学法人九州大学 子音加工装置、音声情報伝達装置及び子音加工方法
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
CN101609684B (zh) * 2008-06-19 2012-06-06 展讯通信(上海)有限公司 解码语音信号的后处理滤波器
CN102473416A (zh) * 2010-06-04 2012-05-23 松下电器产业株式会社 音质变换装置及其方法、元音信息制作装置及音质变换系统
JP2014122939A (ja) * 2012-12-20 2014-07-03 Sony Corp 音声処理装置および方法、並びにプログラム
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム

Also Published As

Publication number Publication date
EP3792917A4 (en) 2022-01-26
EP3792917A1 (en) 2021-03-17
US20210233549A1 (en) 2021-07-29
WO2019216037A1 (ja) 2019-11-14
JPWO2019216037A1 (ja) 2021-05-13
CN112088404B (zh) 2024-05-17
EP3792917B1 (en) 2022-12-28
CN112088404A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
JP3321971B2 (ja) 音声信号処理方法
KR101740359B1 (ko) 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
US20220415341A1 (en) Pitch emphasis apparatus, method and program for the same
WO2013180164A1 (ja) 符号化方法、符号化装置、プログラム、および記録媒体
EP3098813B1 (en) Linear predictive analysis apparatus, method, program and recording medium
JP6989003B2 (ja) ピッチ強調装置、その方法、プログラム、および記録媒体
JP6962269B2 (ja) ピッチ強調装置、その方法、およびプログラム
JP6911939B2 (ja) ピッチ強調装置、その方法、およびプログラム
JP3237178B2 (ja) 符号化方法及び復号化方法
JP5361565B2 (ja) 符号化方法、復号方法、符号化器、復号器およびプログラム
JPH0573093A (ja) 信号特徴点の抽出方法
JP2002366195A (ja) 音声符号化パラメータ符号化方法及び装置
JP3384523B2 (ja) 音響信号処理方法
JP2002099300A (ja) 音声符号化方法及び装置
JP2002049396A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JPH0833742B2 (ja) 音声合成方式
JPS63118800A (ja) 波形合成方式
JPH05297894A (ja) 高能率符号化方法
JPH01216400A (ja) 音声合成方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6989003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150