JP2007003682A - 話速変換装置 - Google Patents

話速変換装置 Download PDF

Info

Publication number
JP2007003682A
JP2007003682A JP2005181843A JP2005181843A JP2007003682A JP 2007003682 A JP2007003682 A JP 2007003682A JP 2005181843 A JP2005181843 A JP 2005181843A JP 2005181843 A JP2005181843 A JP 2005181843A JP 2007003682 A JP2007003682 A JP 2007003682A
Authority
JP
Japan
Prior art keywords
speech
speed
voice
waveform
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005181843A
Other languages
English (en)
Other versions
JP4675692B2 (ja
Inventor
Kaori Endou
香緒里 遠藤
Takashi Ota
恭士 大田
Taro Togawa
太郎 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005181843A priority Critical patent/JP4675692B2/ja
Priority to US11/233,192 priority patent/US7664650B2/en
Priority to DE602005017884T priority patent/DE602005017884D1/de
Priority to EP05255945A priority patent/EP1736967B1/en
Priority to CN200510112850A priority patent/CN100578623C/zh
Publication of JP2007003682A publication Critical patent/JP2007003682A/ja
Application granted granted Critical
Publication of JP4675692B2 publication Critical patent/JP4675692B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

【課題】 話速変換装置に関し、特に音声が含まれる信号に対して、声の高さや音色等の速度以外の性質を変えることなく、音質を劣化させずに音声の速度を変更する装置を提供する。
【解決手段】 話速変換装置は、音声波形データと線形予測に基づく音声符号が入力され、該入力された信号をその性質によって分類する音声分類手段41と、該分類に基づいて音声波形を用いた速度変換処理と音声符号を用いた速度変換処理のいずれか一方又は両方を選択し、該選択した方法によって該入力された信号の話速度を変更する速度調節手段42と、を有する。
【選択図】 図5

Description

本発明は話速変換装置に関し、特に音声が含まれる信号に対して、声の高さや音色等の速度以外の性質を変えることなく、音質を劣化させずに音声の速度を変更する装置に関するものである。
話速変換装置は、電話システムや音声の再生システム等で使用され、受信した音声や記録された音声の再生時にその音声の速度を変更することで、利用者にとって都合の良い速度で受信内容や記録内容を聞けるようにするものである。例えば、電話で相手の声が早口で聞き取りにくいときような場合、リアルタイムに又は再生の際に速度を遅くすることで相手のスピーチ内容を聞き取りやすくする。一方、音声の再生時に速度を速くすることで、実際に録音された時間よりも短い時間で録音内容を聞き取れるようにする。
図1は、話速変換装置を、電話機等の音声通信システムに適用した一例を示している。
図1では、デジタル回線等を介して電話機の受信部10で受信された音声符号が復号部11で音声波形信号に復元され、その音声波形信号は話速変換装置を含む話速変換部12で例えば遅い速度に変換されて受話器等の出力部13から外部に音声出力される。なお、本例では復号部11により音声符号を一旦音声波形に復元しているが、受信部10で受信した音声符号をそのまま話速変換部12で速度変換し、その速度変換された音声符号を復号してから出力部13へ入力するようにしてもよい。
ところで、話速変換の手法としては、TDHS (Time-Domain Harmonic Scaling) が広く知られている。TDHSでは、速度を変えようとする音声に対して、その波形を基本周波数で繰り返したり、間引いたりすることによって速度を調節する。また、このような波形の繰り返し/間引きによる速度調節を改良した手法も存在し、一例として音声を分類してその分類毎に速度変換方法を切り替える。
図2には、音声波形を用いた従来の話速変換装置の一構成例を示している。
本例において、入力音声波形は音声分類部20によって「有声」と「無声」とに分類され、ピッチ周期算出部21は入力音声波形が「有声」の場合にそのピッチ周期を算出し、発生速度変換部22は算出されたピッチ周期に基づいて入力される「有声」波形を繰り返したり間引いたりすることによって速度調節を行う。
下記に示す特許文献1では、音声を「母音」、「有声子音」、「無声子音」、「無音」に分類し、「母音」と「有声子音」はピッチ周期で音声波形を繰り返し又は間引くことによって速度変換を行う。そして、「無声子音」は子音の性質に応じて伸縮を行わないか又は定めた長さとなるように前後波形を繰り返し又は削除することによって速度変換を行う。一方、「無音」は定めた長さとなるように前後波形を繰り返し又は削除することによって速度変換を行う。
また、下記に示す特許文献2では、音声を「有声」、「無声」、「無音」に分類し、「有声」はピッチ周期で音声波形を繰り返し又は間引くことによって速度変換を行い、「無声」は加工せず、そして「無音」は予め定めた倍率で波形を伸縮させることによって速度変換を行う。
さらに、下記に示す特許文献3では、音声を「有声」、「無声」、「無音」に分類し、「有声」はピッチ周期で音声波形を繰り返し又は間引くことによって速度変換を行い、「無声」は固定の周期(擬似ピッチ)で間引きし又は繰り返すことによって速度変換を行う。そして、「無音」は定められた伸縮比率に従って波形を繰り返し又は間引くことによって速度変換を行う。
図3には、音声符号を用いた従来の話速変換装置の一構成例を示している。
本例では、入力音声の線形予測分析によって既にその残差信号と線形予測係数が求められている。ピッチ周期算出部30は、その残差信号を用いて入力信号のピッチ周期を算出し、発声速度変換部31は算出されたピッチ周期に基づいて繰り返し/間引きされた残差信号を出力することで速度変換を実行すると伴にその速度変換情報を線形予測係数修正部32に与える。
線形予測係数修正部32では、速度変換情報に基づいて前記繰り返し/間引きされた残差信号に対応する線形予測係数を修正して出力する。合成部33は、発声速度変換部31から入力される残差信号を線形予測係数修正部32から与えられる線形予測係数を用いてフィルタリングすることで速度変換された音声波形を出力する。
下記に示す特許文献4には、線形予測分析を行って線形予測係数と予測残差信号に分離し、ピッチ性がより強く現れた予測残差信号をピッチ周期で繰り返し又は間引くことによってピッチ抽出誤りによる劣化を改善する方法が示されている。線形予測分析を用いる場合、ピッチ分析の精度を向上させることを目的として音声波形よりもピッチ性が強く現れる予測残差を用いてピッチを抽出し、抽出したピッチ周期で予測残差の繰り返し又は間引きが行われる。
また、下記に示す特許文献5には、音声符号を用いてマルチパルス音源を「0」詰めすることによって延長し、又は打ち切ることによって短縮する速度変換の方法が示されている。
特許第2612868号公報 特許第3327936号公報 特許第3439307号公報 特開平11−311997号公報 特許第3285472号公報
しかしながら、上述した従来技術には以下に示す問題点があった。
(1)音声波形を用いて速度変換を行う場合の問題点
特許文献1では、「無声子音」のうち「流音」、「破裂性・破察性」、「破裂」と判別された区間以外は波形の繰り返しや間引きを行うため、その波形の繰り返しや間引きによって本来存在しない周期性が現れて音質が劣化するという問題があった。
また、特許文献2では、「無声」は加工をほどこさないことから、伸縮を行う他の区間との長さのバランスが崩れて音質が劣化するという問題があった。この場合、伸縮できる区間が少なくなるために大きな伸縮ができないという問題もあった。さらに、特許文献3では、「無声」を固定の周期(擬似ピッチ)で間引きし又は繰り返すため、本来存在しない周期性が現れて音質が劣化するという問題があった。
(2)線形予測分析等の音声符号を用いて速度変換を行う場合の問題点
特許文献4では、特にピッチ周期自体が存在しない無声区間等において、不定のピッチ(ピッチ値が極端に大きな又は小さな値の間で変動)により極端に長い区間や短い区間で繰り返しや間引きが行われるという問題があった。それにより、LPC係数が変化する区間においてLPC係数と予測残差のミスマッチが発生し、音質が劣化するという問題もあった。
特許文献5では、音声符号を用いてマルチパルス音源を「0」詰めすることによって延長し、又は打ち切ることによって短縮するが、ここでもピッチ性のない無声区間では速度調節ができないという問題があった。そのため、伸縮を行う他の区間との長さのバランスが崩れて音質が劣化する恐れもあった。また、「0」詰めすることによって伸縮できる区間が減少するため、大きな伸縮ができなくなるという問題もあった。
そこで本発明の目的は、上記種々の問題点に鑑み、音声波形データと線形予測に基づく音声符号の双方を用い、入力音声の性質に応じてその音声波形データと音声符号のいずれか一方又は両方を用いる速度調節方法に適宜切り替えることで、音声劣化を伴わずに速度調節を行う話速変換装置を提供することにある。
本発明によれば、音声波形データと線形予測に基づく音声符号を用いて話速度の調節を行う話速変換装置が提供される。
また本発明によれば、音声波形データと線形予測に基づく音声符号が入力され、該入力された信号をその性質によって分類する音声分類手段と、該分類に基づいて音声波形を用いた速度変換処理と音声符号を用いた速度変換処理のいずれか一方又は両方を選択し、該選択した方法によって該入力された信号の話速度を変更する速度調節手段と、を有する話速変換装置が提供される。さらに、該速度変換処理には、該分類に基づいて速度変換の度合いを調節することが含まれる。
本発明では、音声波形データと音声符号の双方を用いるため、音声の性質によって使用するそれらの情報を適宜使い分けることができる。その結果、従来のようにどちらか一方だけを用いて速度変換する場合と比べて生成した速度変換音声の音質が顕著に向上する。
また、本発明では入力信号をその性質に応じて細分類し、各分類に応じて音声波形データと音声符号のうちでより劣化が少ない方法を適宜選択して適用する。そのため、従来のようにどちらか一方だけを用いる場合と比べて生成した速度変換音声の音質が一層向上する。後述するように、「周期的」区間は音声波形による速度変換が適しており、「非周期的かつ定常的」区間は、残差の繰り返しや削除によって不連続が生じても線形予測フィルタを通すことでその不連続性が緩和され、音声符号による速度変換がより適している。
さらに、本発明では、音声波形データと音声符号の両方を同時に用い、各々の加重された速度調節を組み合わせることで音声劣化を一層低減させた速度調節が可能となる。
図4は、本発明による話速変換装置の基本構成を示したものである。
図4において、速度変換手段40には、音声波形と音声符号が入力され、音声の性質に応じてそれらのいずれか一方又は両方を使った速度調節を行い、速度調節後の音声が出力される。
図5には、図4の速度変換手段40の一構成例を示している。
図5において、音声分類手段41は入力音声をその音声特性により分類し、そして速度調節手段42はその音声分類結果に応じて音声波形と音声符号のいずれか一方又は両方を使った速度調節方法を適宜選択し、その選択した方法で速度調節を行った音声を出力する。音声分類手段41は、CPUやDSPを搭載し、ROM、RAMやI/Oペリフェラルデバイス等を含む通常のCPU回路で構成される。速度調節手段42も同様に構成されるが、以下に示すブロック構成を有する。
図6は、図5の速度調節手段42の一構成例を示したものである。また、図7には、図6の処理フローの一例を示している。
本例では、音声波形データとその線形予測演算によって得られる音声符号のうちいずれか一方だけを使って速度調節を行う。入力選択部43は、音声分類手段41からの音声分類に基づいて、入力されたい1フレーム分の音声波形又は音声符号のいずれか一方を選択して出力する(S101及び102)。
同様に、後段の連動スイッチ44及び47も、音声分類に基づいて、音声波形用の速度調節部45又は音声符号用の速度調節部46のいずれか一方の側へ切り替える(S103)。入力選択部43で選択され、連動スイッチ44及び47で切り替えられた側の速度調節部45又は速度調節部46は、対応する音声波形又は音声符号を用いた速度調節処理を実行し(S104又は105)、速度調節後の音声波形を出力部48へ出力する。
このように、音声分類に基づいて、速度調節に用いる音声波形又は音声符号が適宜選択されるため、音声波形だけ又は音声符号だけを用いて速度変換する場合と比べて、速度変換後の音声劣化が顕著に低減される。
図8は、図5の速度調節手段42の別の構成例を示したものである。また、図9及び10には、図8の処理フローの一例を示している。
本例では、音声波形データとその線形予測演算によって得られる音声符号の両方を同時に使用して速度調節を行う。そのため、図7の入力選択部43は必要なく、入力された音声波形及び音声符号は各々の速度調節部45及び速度調節部46に直接与えられる。音声波形を速度変換処理した速度調節部45からの音声波形と、音声符号を速度変換処理した速度調節部46からの音声波形は、共に次段の出力生成部49へ入力される(S201〜204)。
出力生成部49は、音声分類手段41からの音声分類に基づいて、入力された2つの音声波形の重み付けを算出し(S301及び302)、重み付けされた2つの音声波形を加算して出力する(S303)。本例が適用される一例として、ここでは音声波形を用いる速度調節区間から音声符号を用いる速度調節区間へ切り替える場合を考える。
この場合、先ず音声波形を用いる速度調節部45からの音声波形入力に重み付け“1”を与え、音声符号を用いる速度調節部46からの波形出力に重み付け“0”を与える。そして、所定の区間切替時間内で、速度調節部45からの音声波形の重み付けを“1”→“0”へ徐々に減少させ、反対に速度調節部46からの音声波形の重み付けを“0”→“1”へ徐々に増加させる。重み付けは、直線的又は指数関数的に変化させることができる。その結果、本例では音声波形区間と音声符号区間とを切り替える際に生じる波形の不連続性に起因したノイズが大幅に抑制される。
図11は、本発明の一実施例を示したものである。ここでは、図5の音声分類手段41及び速度調節手段42の動作フローを用いて説明する。
本例において、音声分類手段41は、先ず現フレームに音声が含まれるかどうかによって音声・非音声に大きく分類する(S401〜403)。例えば、入力信号の短時間パワーが所定時間以上継続したときに音声と判断する。次に、音声と判定された区間をさらに細かく分類する。本例では、一例として有声音を「周期的」、周囲ノイズ等の無声音を「非周期的」に分類し(S404)、有声音についてはさらにレベル変動を考慮して「周期的かつ定常的」、「周期的かつ非定常的」に分類する(S405)。
また、無声音については、レベル変動やバースト性等を考慮して「非周期的かつ定常的かつ類似的」、「非周期的かつ定常的かつ非類似的」に分類する(S409及び410)。さらに、破裂音等を考慮して「非周期的かつ非定常的」に分類する(S413)。なお、上記と同様の分類を、非音声と判定された区間に適用することもできる。
次に、速度調節手段42は、上記の分類結果に基づいて各分類に適合する速度調節方法を選択してそれに切り替える。本例では、音声判定区間のうち「周期的かつ定常的」に分類された区間は音声波形を用いて速度を調節するが、その調節度合いが中程度となるようにする(S406)。一方、音声判定区間のうち「周期的かつ非定常的」に分類された区間は音声波形を用いて速度を調節するが、その調節度合いが小さくなるようにする(S407)。
音声判定区間のうち「非周期的」に分類された区間は、音声符号を用いて速度を調節する。但し、音声判定区間のうち「非周期的かつ定常的かつ類似的」と「非周期的かつ非定常的」に分類された区間は速度調節を行わない。また、非音声判定区間は波形を用いて速度を調節するが、その調節度合いが大きくなるようにする。
このように、音声分類手段41が「周期性」、「定常性」及び「類似性」を用いて音声を細分類する場合、本例の速度調節手段42は、その分類に応じて、「周期的」区間(S404の“yes”以降)は音声波形を用いた速度変換を行い、「非周期的」区間(S408の“no”以降)は、速度変換を行わない場合(S111及び113)を除いて、音声符号を用いた速度変換を行う。
周期性がある区間では、音声波形を周期に応じて繰り返し又は削除することで大きな音質劣化を与えずに速度変換ができるが、周期性がある区間で音声符号を用いると、入力音声の残差信号の繰り返しや削除が線形予測フィルタの以降の状態に影響を与え、予測係数と残差信号との間にミスマッチが生じる。従って、周期性のある区間では音声波形による速度変換を用いる。
一方、周期性のない区間で音声符号を用いた速度変換方法を用いるのは以下の理由による。「非周期的かつ定常的」区間(S409の“yes”以降)では、音声波形を用いて速度調節を行うと波形の繰り返しや削除により波形が不連続となり、また元々存在しないはずの周期性が現れて音声劣化が生じるが、この区間で音声符号を用いると、残差の繰り返しや削除によって不連続が生じても最終的に線形予測フィルタを通すことでその不連続性が緩和される。また、「定常的」区間は、フィルタの立ち上がり又は立ち下がり等の区間を除いた周波数特性の変化が少ない区間であることから、残差の繰り返しや削除による線形予測フィルタの状態への影響が少なく音声劣化が起こりにくい。
また、速度調節手段42が行う速度調節の度合いは以下の理由で決定される。
「非音声」区間(S408)において、速度調節手段42は、速度を速める場合と遅くする場合のいずれも非音声区間の両端部が相互に不連続なしに滑らかにつながる音声波形の部分を探索し、それらに挟まれる区間を全て削除する。従って、この場合の速度調節の度合いは「大」きくなる。
また、「周期的かつ定常的」区間(S406)において、速度調節手段42は、周期性や定常性のある音声信号の区間に音声波形を用いた繰り返し又は間引きを行って音声を劣化させずに速度調節を行う。この場合、極端に繰り返しや間引きの回数が大きくなると不自然さが生じるため、速度調節の度合いは「中」程度としている。また、「周期的かつ非定常的」区間(S407)は、音声信号のレベル変動のように周期性はあるがパワー等が変化する区間でもある。そのため、速度調節手段42は、音声波形を用いて周期的に繰り返しや間引きを行う際に、パワー変化等による音声劣化を低減するため速度調節の度合いを「小」さくする。
また、「非周期的かつ定常的かつ非類似的」(S112)は、相関のない信号が定常的に続く区間であり、速度調節手段42はこの区間では音声符号を用いた速度調節を行う。この場合には、固定コードブックをランダムに生成することで新たな周期性を発生させることなく速度が調節(速度を遅くする場合)できる。さらに、残差信号を圧縮(削除)した後に線形予測フィルタを用いて出力信号を生成することで不連続性が抑制される。
一方、「非周期的かつ定常的かつ類似的」(S111)及び「非周期的かつ非定常的」(S113)に分類される区間は、信号の変化が大きく速度調節による音声劣化が生じやすい区間のため、速度調節手段42はこの区間の速度調節を行わない。
本発明によれば、上述した音声分類手段41による入力音声の分類と、速度変換手段42による速度変換方法の使い分けによって、音声劣化を伴わない音声の伸縮区間の割合を増やすことも可能となる。
以降では、上記実施例の具体的な処理内容について説明する。
図12は、図11の基本的な処理の流れを示した図である。
図12において、先ず図4の速度変換手段40(図5の音声分類手段41及び速度調節手段42)に入力信号(音声波形とそれを線形予測変換した音声符号)を1フレーム分入力する(S501)。音声分類手段41は、図11に例示する入力信号の分類を行い(S502)、そして速度調節手段42はその分類に従って同図に例示する速度変換処理を実行する(S503)。速度変換手段40は、上記の処理を一連の入力フレームが終了するまで続行する(S504)。
図13には、音声分類手段41による入力信号の分類処理(図12のS502)の具体的な処理フローの一例を示している。
本例では、音性・非音声判定、周期性の有無・定常性の有無・類似性の有無の判定によって入力信号を分類する。先ず「音性」と「非音声」の区間に大きく分類し、「音声」と判定された区間は、さらに「周期的」、「非周期的かつ定常的」、「非周期的かつ非定常的」に細分類する(図11参照)。
そのため、音声分類手段41は、音声波形と音声符号を1フレーム分入力し(S601)、入力信号を音声が含まれている音声区間と、音声が含まれない非音声区間とに分類する(S602)。次に、音声分類手段41は、「音声」と判定された区間の周期性の有無、定常性の有無、及び類似性の有無を判定する(S603〜605)。そして、前記判定結果に基づいて入力信号を分類する(S606)。なお、本発明において、細分類の対象は周期性、定常性及び類似性に限定される必要はなく、他の分類を用いることができる。分類の対象とならない判定処理は行う必要がない。
図14は、図13の周期性の判定(S603)の具体例を示したものである。
本例では、一般的な自己相関係数の算出手法を音声波形に適用する。ここでは、入力フレームをサンプルして自己相関係数が最大値をとる周波数を算出する(S701〜703)。そして、その直前フレームの自己相関係数が最大値をとる周波数との差分から周期性を判定する(S704)。例えば、所定の閾値と差分値とを比較して、差分値が閾値以下であれば「周期的」と判定する(S705)。それ以外は「非周期的」と判定する。
図15は、図13の定常性の判定(S604)の具体例を示したものである。
本例ではパワーの算出に音声符号を用いる。先ず音声符号を1フレーム分入力し、線形予測係数の変化量(SD)を算出する(S801及び802)。このため、直前の線形予測係数との間で下記式(1)の値を算出する。
Figure 2007003682
ここで、n:線形予測の分析次数、Ci:現フレームの線形予測係数(i次)、そしてPi:前フレームの線形予測係数(i次)、である。
次に下記式(2)によりパワー(POW)を算出する(S803)。
Figure 2007003682
ここで、m:現フレームのサンプル数、そしてAi:現フレームの振幅(i番目のサンプル)、である。
次に下記式(3)によりパワー変化量(DP)を算出する(S804)。
DP=POW−POWt−1 (3)
ここで、POW:現フレームのパワー、そしてPOWt−1:前フレームのパワー、である。
最後に、上記算出結果に基づいて定常性を判定する(S805)。本例では、例えばSDが所定の閾値以下でかつDPが所定の閾値以下の場合に「定常的」と判定する。それ以外は「非定常的」と判定する。そして、次フレームの判定のために現フレームのパワーと線形予測係数を保存する(S806)。
図16は、図13の類似性の判定(S605)の具体例を示したものである。
本例では類似性の判定に図14と同じ自己相関係数を用いる。先ず入力信号の音声波形を1フレーム分入力する(S901)。次に、その自己相関係数を算出して自己相関係数の最大値を算出する(S902及び903)。そして、自己相関係数の最大値と所定の閾値とを比較して、閾値以上の場合には「類似的」と判定し、それ以外は「非類似的」と判定する。
次に、速度調節手段42による速度変換(図12のS503)の具体的な処理内容について説明する。以下の図17及び18の各例では音声符号を用いた処理について説明している(図3参照)。この処理の前に、速度調節手段42は、音声分類手段41からの分類結果に基づいて図11のフローの末端処理(S406、407、408、411、412、413)のいずれかを選択する。なお、音声波形を用いる処理は、既存のTDHSアルゴリズム等の手法を用いる(図2参照)。
図17には、符号による速度調節(圧縮の場合)の処理フロー例を示している。
本例において、速度調節手段42は、先ず音声符号を1フレーム分入力する(S1001)。次に、過去1フレームと現フレームのうち、過去1フレームの残差信号を間引くことで、2フレームの残差信号から1フレーム分の残差信号を生成する(S1002)。併せて、過去1フレームと現フレームのうち、直前フレームの線形予測係数を間引くことで、2フレームの線形予測係数から1フレーム分の線形予測係数を生成する(S1003)。そして、生成した1フレーム分の残差信号と1フレーム分の線形予測係数を線形予測フィルタに入力することで、圧縮されて速度を速めた音声波形を合成する(S1004)。
図18には、符号により速度調節(伸張の場合)の処理フロー例を示している。
本例において、速度調節手段42は、先ず音声符号を1フレーム分入力する(S1101)。ここでは、過去1フレームと現フレームの残差信号を用いて1フレーム分の新たな残差信号を生成する。そのため、過去1フレームと現フレームの残差信号に合わせると1となるような重み係数をかけて足し合わせることで新たな残差信号を生成する。そして、生成した残差信号を過去1フレームと現フレームの残差信号との間に挿入することで3フレーム分の残差信号を生成する(S1102)。他にも、コードブックを持つ符号化方式の場合には、コードブックのインデックスをランダムに生成させる方法で、1フレーム分の残差信号を新たに生成することができる。
次に、過去1フレームと現フレームの線形予測係数の間を補間することで新たな線形予測係数を生成し、それを過去1フレームと現フレームの間に挿入するフレームの線形予測係数とすることで、3フレーム分の線形予測係数を生成する(S1103)。最後に、生成した3フレーム分の残差信号と3フレーム分の線形予測係数を線形予測フィルタに入力することで、伸張して速度が遅くなった音声波形を合成する(S1104)。
以上述べたように、本発明によれば、音声波形データと音声符号の双方を用いるため、音声の性質によって使用する情報を使い分けることができ、いずれか一方だけを使って速度変換する場合と比べて速度変換音声の音質を向上させることができる。また、入力信号を分類し、分類に応じて音声波形データと音声符号のうちより劣化が少ない方法で速度変換ができるため、いずれか一方だけを使って速度変換する場合と比べて速度変換音声の音質を向上させることができる。
話速変換装置を音声通信システムに適用した一例を示す図である。 音声波形を用いた従来の話速変換装置の一構成例を示した図である。 音声符号を用いた従来の話速変換装置の一構成例を示した図である。 本発明による話速変換装置の基本構成を示した図である。 図4の速度変換手段の一構成例を示した図である。 図5の速度調節手段の一構成例を示した図である。 図6の処理フローの一例を示した図である。 図5の速度調節手段の別の構成例を示した図である。 図8の処理フローの一例(1)を示した図である。 図8の処理フローの一例(2)を示した図である。 本発明の一実施例を示した図である。 図11の基本的な処理の流れを示した図である。 音声分類手段による分類処理フローの一例を示した図である。 図13の周期性判定の一例を示した図である。 図13の定常性判定の一例を示した図である。 図13の類似性判定の一例を示した図である。 符号による速度調節(圧縮の場合)の一例を示した図である。 符号による速度調節(伸張の場合)の一例を示した図である。
符号の説明
40 速度変換手段
41 音声分類手段
42 速度調節手段
43 入力選択部
45、46 速度調節部
48 出力部
49 出力生成部

Claims (10)

  1. 音声波形データと線形予測に基づく音声符号を用いて話速度の調節を行うことを特徴とする話速変換装置。
  2. 音声波形データと線形予測に基づく音声符号が入力され、該入力された信号をその性質によって分類する音声分類手段と、
    該分類に基づいて音声波形を用いた速度変換処理と音声符号を用いた速度変換処理のいずれか一方又は両方を選択し、該選択した方法によって該入力された信号の話速度を変更する速度調節手段と、
    を有することを特徴とする話速変換装置。
  3. 該速度変換処理は、該分類に基づいて速度変換の度合いを調節することを含むことを特徴とする請求項2に記載の話速変換装置。
  4. 該音声分類手段は、周期性によって該入力された信号を分類することを特徴とする請求項2に記載の話速変換装置。
  5. 該音声分類手段は、定常性によって該入力された信号を分類することを特徴とする請求項2に記載の話速変換装置。
  6. 該音声分類手段は、類似性によって該入力された信号を分類することを特徴とする請求項2に記載の話速変換装置。
  7. 該音声分類手段は、周期性と定常性によって該入力された信号を分類することを特徴とする請求項2に記載の話速変換装置。
  8. 該音声分類手段は、周期性と類似性によって入力信号を分類することを特徴とする請求項2に記載の話速変換装置。
  9. 該音声分類手段は、定常性と類似性によって入力信号を分類することを特徴とする請求項2に記載の話速変換装置。
  10. 該音声分類手段は、周期性と定常性と類似性によって入力信号を分類することを特徴とする請求項2に記載の話速変換装置。



JP2005181843A 2005-06-22 2005-06-22 話速変換装置 Expired - Fee Related JP4675692B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2005181843A JP4675692B2 (ja) 2005-06-22 2005-06-22 話速変換装置
US11/233,192 US7664650B2 (en) 2005-06-22 2005-09-22 Speech speed converting device and speech speed converting method
DE602005017884T DE602005017884D1 (de) 2005-06-22 2005-09-23 Verfahren und Vorrichtung zur Sprachgeschwindigkeitsumwandlung
EP05255945A EP1736967B1 (en) 2005-06-22 2005-09-23 Speech speed converting device and speech speed converting method
CN200510112850A CN100578623C (zh) 2005-06-22 2005-10-14 语音速度转换装置以及语音速度转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005181843A JP4675692B2 (ja) 2005-06-22 2005-06-22 話速変換装置

Publications (2)

Publication Number Publication Date
JP2007003682A true JP2007003682A (ja) 2007-01-11
JP4675692B2 JP4675692B2 (ja) 2011-04-27

Family

ID=35464197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005181843A Expired - Fee Related JP4675692B2 (ja) 2005-06-22 2005-06-22 話速変換装置

Country Status (5)

Country Link
US (1) US7664650B2 (ja)
EP (1) EP1736967B1 (ja)
JP (1) JP4675692B2 (ja)
CN (1) CN100578623C (ja)
DE (1) DE602005017884D1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074239A (zh) * 2010-12-23 2011-05-25 福建星网视易信息系统有限公司 一种实现声音变速的方法
US8392197B2 (en) 2007-08-22 2013-03-05 Nec Corporation Speaker speed conversion system, method for same, and speed conversion device
US8457955B2 (en) 2009-09-02 2013-06-04 Fujitsu Limited Voice reproduction with playback time delay and speed based on background noise and speech characteristics
JP2019159013A (ja) * 2018-03-09 2019-09-19 ヤマハ株式会社 音声処理方法および音声処理装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8312492B2 (en) * 2007-03-19 2012-11-13 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
WO2009010831A1 (en) * 2007-07-18 2009-01-22 Nokia Corporation Flexible parameter update in audio/speech coded signals
US9824695B2 (en) 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
JP6117359B2 (ja) * 2013-07-18 2017-04-19 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
CN105788601B (zh) * 2014-12-25 2019-08-30 联芯科技有限公司 VoLTE的抖动隐藏方法和装置
CN105957543B (zh) * 2016-04-26 2020-04-28 广东小天才科技有限公司 一种音频播放速率调整方法及系统
JP6695069B2 (ja) * 2016-05-31 2020-05-20 パナソニックIpマネジメント株式会社 電話装置
US10629223B2 (en) 2017-05-31 2020-04-21 International Business Machines Corporation Fast playback in media files with reduced impact to speech quality
US10276185B1 (en) * 2017-08-15 2019-04-30 Amazon Technologies, Inc. Adjusting speed of human speech playback
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
CN110364177A (zh) * 2019-07-11 2019-10-22 努比亚技术有限公司 语音处理方法、移动终端及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0219899A (ja) * 1988-07-08 1990-01-23 Hitachi Ltd 音声蓄積再生装置
JPH08234794A (ja) * 1995-02-28 1996-09-13 Matsushita Electric Ind Co Ltd インパルス駆動点抽出方法およびピッチ波形抽出方法とその装置
JPH08254998A (ja) * 1995-03-17 1996-10-01 Ido Tsushin Syst Kaihatsu Kk 音声符号化/復号化装置
JP2000322097A (ja) * 1999-03-05 2000-11-24 Matsushita Electric Ind Co Ltd 音源ベクトル生成装置及び音声符号化/復号化装置
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2612868B2 (ja) 1987-10-06 1997-05-21 日本放送協会 音声の発声速度変換方法
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JP3327936B2 (ja) 1991-09-25 2002-09-24 日本放送協会 話速制御型補聴装置
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
JP3285472B2 (ja) 1995-08-29 2002-05-27 シャープ株式会社 音声復号化装置および音声復号化方法
JP3092652B2 (ja) * 1996-06-10 2000-09-25 日本電気株式会社 音声再生装置
JP3439307B2 (ja) 1996-09-17 2003-08-25 Necエレクトロニクス株式会社 発声速度変換装置
JPH11311997A (ja) 1998-04-28 1999-11-09 Matsushita Electric Ind Co Ltd 音声再生速度変換装置及びその方法
EP1309965B1 (en) * 2000-08-09 2010-12-15 Thomson Licensing Method and system for enabling audio speed conversion
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
US7275030B2 (en) * 2003-06-23 2007-09-25 International Business Machines Corporation Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0219899A (ja) * 1988-07-08 1990-01-23 Hitachi Ltd 音声蓄積再生装置
JPH08234794A (ja) * 1995-02-28 1996-09-13 Matsushita Electric Ind Co Ltd インパルス駆動点抽出方法およびピッチ波形抽出方法とその装置
JPH08254998A (ja) * 1995-03-17 1996-10-01 Ido Tsushin Syst Kaihatsu Kk 音声符号化/復号化装置
JP2000322097A (ja) * 1999-03-05 2000-11-24 Matsushita Electric Ind Co Ltd 音源ベクトル生成装置及び音声符号化/復号化装置
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392197B2 (en) 2007-08-22 2013-03-05 Nec Corporation Speaker speed conversion system, method for same, and speed conversion device
US8457955B2 (en) 2009-09-02 2013-06-04 Fujitsu Limited Voice reproduction with playback time delay and speed based on background noise and speech characteristics
CN102074239A (zh) * 2010-12-23 2011-05-25 福建星网视易信息系统有限公司 一种实现声音变速的方法
CN102074239B (zh) * 2010-12-23 2012-05-02 福建星网视易信息系统有限公司 一种实现声音变速的方法
JP2019159013A (ja) * 2018-03-09 2019-09-19 ヤマハ株式会社 音声処理方法および音声処理装置
JP7106897B2 (ja) 2018-03-09 2022-07-27 ヤマハ株式会社 音声処理方法、音声処理装置およびプログラム

Also Published As

Publication number Publication date
EP1736967A2 (en) 2006-12-27
JP4675692B2 (ja) 2011-04-27
US7664650B2 (en) 2010-02-16
DE602005017884D1 (de) 2010-01-07
EP1736967B1 (en) 2009-11-25
EP1736967A3 (en) 2008-08-27
CN100578623C (zh) 2010-01-06
US20060293883A1 (en) 2006-12-28
CN1885405A (zh) 2006-12-27

Similar Documents

Publication Publication Date Title
JP4675692B2 (ja) 話速変換装置
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
KR100957265B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
US7831420B2 (en) Voice modifier for speech processing systems
KR100882771B1 (ko) 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치
JPH07319496A (ja) 入力音声信号の速度を変更する方法
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
JPH11194796A (ja) 音声再生装置
EP0856185B1 (en) Repetitive sound compression system
JP3806344B2 (ja) 定常雑音区間検出装置及び定常雑音区間検出方法
JP5011803B2 (ja) オーディオ信号伸張圧縮装置及びプログラム
JP5142727B2 (ja) 音声復号装置および音声復号方法
JP3353852B2 (ja) 音声の符号化方法
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
JP3410931B2 (ja) 音声符号化方法及び装置
JPH02160300A (ja) 音声符号化方式
JPH10224898A (ja) 補聴器
JPWO2003042648A1 (ja) 音声符号化装置、音声復号化装置、音声符号化方法および音声復号化方法
JPH0284700A (ja) 音声符号化復号化装置
KR0138879B1 (ko) 보코더용 피치검색 처리시간 단축법
JP5679451B2 (ja) 音声処理装置およびそのプログラム
Sarathy et al. Text to speech synthesis system for mobile applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4675692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees