JPS58113993A - 音声信号圧縮方式 - Google Patents
音声信号圧縮方式Info
- Publication number
- JPS58113993A JPS58113993A JP56213021A JP21302181A JPS58113993A JP S58113993 A JPS58113993 A JP S58113993A JP 56213021 A JP56213021 A JP 56213021A JP 21302181 A JP21302181 A JP 21302181A JP S58113993 A JPS58113993 A JP S58113993A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- pitch
- value
- repetition
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
発明の技術分野
この発明は、音声信号を情報圧縮して記憶あるいは装置
に係り、特に音声信号波形のくり返しを利用して効率的
な圧縮を行なう音声信号圧縮方式に関する◎ 発明の技術的背景とその間鵬点 近年、コンピュータシステムの小型端末、さらには軍電
品等において、マン・マシンインターフェースとして音
声を発声させるという要求が高まっており、そのために
音声信号を低ビツトレートで記憶したり伝送する技術が
要求されている・ このような要求に対し、音声信号を波形のくり返しを利
用して情報圧縮する技術があるが、それには大別して2
つの方式が知られている。
に係り、特に音声信号波形のくり返しを利用して効率的
な圧縮を行なう音声信号圧縮方式に関する◎ 発明の技術的背景とその間鵬点 近年、コンピュータシステムの小型端末、さらには軍電
品等において、マン・マシンインターフェースとして音
声を発声させるという要求が高まっており、そのために
音声信号を低ビツトレートで記憶したり伝送する技術が
要求されている・ このような要求に対し、音声信号を波形のくり返しを利
用して情報圧縮する技術があるが、それには大別して2
つの方式が知られている。
鴫1は線型予測方式(LPG)に代表されるような、予
め用意した単語や文章に対して分析を行ない、音声合成
に必要なホルマント情報と、音源情報としての有声/無
声音判別情報および有声音におけるくり返しくピッチ〕
情報とを抽出し、これらを合成フィルタの係数および音
源入力として音声を合成する方式であり、第2は音声信
号の波形のくり返しパターンを半ば手動でとらえて音声
を合成する方式(特開昭56−4194等)である。
1′ しかしながら、第lの方式は有声音でピッチ情報を持つ
(り返し波形に対してはピッチ情報の伸出を正価に2行
なうことが大niJ提となる方式音声を再生するときに
雑音を生じたり、音声の明瞭度を損ねるといった難点が
ある。また、現在ではこの方式による分析のために大型
コンピュータまたは相当大規模な専用L81を必要とし
、さらに良質の音声を再生しようとすると分析結果の補
正も必要となる等から、コスト薗で不利である・ 一方、!@2の方式はピッチ情報の抽出を正確に行なう
ことに加え1手動操作によりくり返しの単位波形の切り
出しを行なう必要があるため、実時間での圧縮が困難で
あった。
め用意した単語や文章に対して分析を行ない、音声合成
に必要なホルマント情報と、音源情報としての有声/無
声音判別情報および有声音におけるくり返しくピッチ〕
情報とを抽出し、これらを合成フィルタの係数および音
源入力として音声を合成する方式であり、第2は音声信
号の波形のくり返しパターンを半ば手動でとらえて音声
を合成する方式(特開昭56−4194等)である。
1′ しかしながら、第lの方式は有声音でピッチ情報を持つ
(り返し波形に対してはピッチ情報の伸出を正価に2行
なうことが大niJ提となる方式音声を再生するときに
雑音を生じたり、音声の明瞭度を損ねるといった難点が
ある。また、現在ではこの方式による分析のために大型
コンピュータまたは相当大規模な専用L81を必要とし
、さらに良質の音声を再生しようとすると分析結果の補
正も必要となる等から、コスト薗で不利である・ 一方、!@2の方式はピッチ情報の抽出を正確に行なう
ことに加え1手動操作によりくり返しの単位波形の切り
出しを行なう必要があるため、実時間での圧縮が困難で
あった。
発明の目的
この発明の目的は、音声信号の波形のくり返しくピッチ
情報)を検出できなかったときでも再生音声の劣化が少
なく、シかも比較的簡単なハードウェアあるいは汎用小
型コンピューター二よって圧縮処理を行なうことができ
、さらに実時間処理が可能な音声信号圧縮方式を提供す
ることである・ 発明の概要 この発明C1係る音声イ^号圧縮方式は、音声43号の
有音区間のうち波形のくり返しが検出された区間は所定
のくり返し回数N毎にそのN回のくり返しの中での1つ
の単位波形を抽出して出力し、くり返しが検出されない
区間は音声信号波形をそのまま出力して音声43号を出
力すること(二よって、圧縮を行なうことを基本的な特
徴としている。
情報)を検出できなかったときでも再生音声の劣化が少
なく、シかも比較的簡単なハードウェアあるいは汎用小
型コンピューター二よって圧縮処理を行なうことができ
、さらに実時間処理が可能な音声信号圧縮方式を提供す
ることである・ 発明の概要 この発明C1係る音声イ^号圧縮方式は、音声43号の
有音区間のうち波形のくり返しが検出された区間は所定
のくり返し回数N毎にそのN回のくり返しの中での1つ
の単位波形を抽出して出力し、くり返しが検出されない
区間は音声信号波形をそのまま出力して音声43号を出
力すること(二よって、圧縮を行なうことを基本的な特
徴としている。
この場合、くり返しくピッチ)が検出されたことをいか
に判定するかが重要であるが、この発明ではピップ周期
、つまりピッチ候補点から次のピッチ候補点までの時間
長を3つの脚値C二よって判定することC二よってこれ
を達成する。
に判定するかが重要であるが、この発明ではピップ周期
、つまりピッチ候補点から次のピッチ候補点までの時間
長を3つの脚値C二よって判定することC二よってこれ
を達成する。
即ち、各ピッチ候補点から次のピッチ候個点までの時間
を平均ピッチ周期の0.4〜0.8倍、12〜1.8倍
および2.2〜2.6倍の値をそれぞれ持つ第1.@2
および第3の開値C二より判定し、その時間長が1tF
41の闇値未満のときは次のピッチ候補点を無視して時
間長の計測を続行し、第のくり返しが検出されたと判断
し、@2の闇値を越え第3の闇値以下のときはピッチ候
補点を補間して波形のくり返しが2回検出されたと判断
し、第3の剛値を越えたときは波形のくり返しが検出さ
れなかったと判lIrするのである′・発明の効果 この発明(二よれば、音声43号の波形のくり返しが検
出されなかったときは圧縮を行なわないため、くり返し
が検出できないこと1:よる再生音性の自然性や明瞭度
の低下といった劣化が少ない。また、LP(、’方式番
二比べて泣声信号から抽出すべき情報が少なくて済み、
また圧縮のための処理も簡単なため、ハードウェアも簡
単となり、マイクロコンピュータの使用も可能となる0
さらS二、マイクロコンピュータのような比較的処理速
度の遅いものを用いても、実時間での圧縮が可能である
@ この発明3二係る音声信号圧縮方式の有効性は。
を平均ピッチ周期の0.4〜0.8倍、12〜1.8倍
および2.2〜2.6倍の値をそれぞれ持つ第1.@2
および第3の開値C二より判定し、その時間長が1tF
41の闇値未満のときは次のピッチ候補点を無視して時
間長の計測を続行し、第のくり返しが検出されたと判断
し、@2の闇値を越え第3の闇値以下のときはピッチ候
補点を補間して波形のくり返しが2回検出されたと判断
し、第3の剛値を越えたときは波形のくり返しが検出さ
れなかったと判lIrするのである′・発明の効果 この発明(二よれば、音声43号の波形のくり返しが検
出されなかったときは圧縮を行なわないため、くり返し
が検出できないこと1:よる再生音性の自然性や明瞭度
の低下といった劣化が少ない。また、LP(、’方式番
二比べて泣声信号から抽出すべき情報が少なくて済み、
また圧縮のための処理も簡単なため、ハードウェアも簡
単となり、マイクロコンピュータの使用も可能となる0
さらS二、マイクロコンピュータのような比較的処理速
度の遅いものを用いても、実時間での圧縮が可能である
@ この発明3二係る音声信号圧縮方式の有効性は。
音声信号の性質を考慮すれば明らかである・今、日本語
を例シーとると、単母音のみの音、(子音+母音)の音
、および子音のみの音の3種類の昌によって構成されて
いる0これらのうち母音のみの音は°アイウニ第2の5
つ、子音のみの片は°ン″のみで、残りはすべて(子音
+世情)の音である〇 母音と子音とでは性質が大きく異なり、まず母音はその
波形が音節の始めから終りまでほぼくり返し波形である
ということである◎つまり基本周波数成分の周期でほぼ
同一波形がくり返され1例えば250 Hzで発生され
た母音の音は4msの周期を持っている。最密には基本
周波数も時間的3二少しずつ変化し、また音節の始めと
終りの部分は振幅が小さくなる性質がある・しかし例え
は20 ms程度の短時間でみれはこれらはほぼ一足と
みなせる@従って、この発明のようC二母音等の如くく
り返しか連続して検出されたときは、所定のくり返し回
数N@、例えば4回毎(二その4回のくり返しの中での
音声信号の単位波形の1つを代表波形として扱っても。
を例シーとると、単母音のみの音、(子音+母音)の音
、および子音のみの音の3種類の昌によって構成されて
いる0これらのうち母音のみの音は°アイウニ第2の5
つ、子音のみの片は°ン″のみで、残りはすべて(子音
+世情)の音である〇 母音と子音とでは性質が大きく異なり、まず母音はその
波形が音節の始めから終りまでほぼくり返し波形である
ということである◎つまり基本周波数成分の周期でほぼ
同一波形がくり返され1例えば250 Hzで発生され
た母音の音は4msの周期を持っている。最密には基本
周波数も時間的3二少しずつ変化し、また音節の始めと
終りの部分は振幅が小さくなる性質がある・しかし例え
は20 ms程度の短時間でみれはこれらはほぼ一足と
みなせる@従って、この発明のようC二母音等の如くく
り返しか連続して検出されたときは、所定のくり返し回
数N@、例えば4回毎(二その4回のくり返しの中での
音声信号の単位波形の1つを代表波形として扱っても。
再生音声の自然性はあまり損なわれない。
子音(二ついては、無声音であるか有声音であるか、ま
た閉錯音か摩擦音か鼻音か等6:よって、くり返しの有
無に関してもそれぞれ個有の性質がみられる。しかし、
この発明ではくり返しの検出だけを行なえばよく、例え
ばLPC方式で必らず必要な有声音/無声音の判別は必
要ない・即ち、子音部に関してはくり返しが検出された
ときのみ母音部と同様ζ:圧縮を行ない、検出されない
ときは波形のすべてを出力すること(二なるO 第1図≦二いくつかの代表的な(子音+母音)の音の振
幅包絡線を示す・区かられかるように子音の継続時間は
種々異なる・しかし、音声の発声速度が変った場合のそ
の継続時間の変化は母音のそれほど大きくなく、音の押
類のみに応じた一定のに続時間を持つと考えることがで
き、またくり返しが検出されない子音の時間的割合は微
々たるものであるから、その区1hj圧縮が行なわれな
くとも、全体としての圧絹効ヰ(は十分である◎ セしてさら(;この発明ではピッチ周期6二相当する時
間長を前述した3つの酸価で判定して波形のくり返しが
検出されたかどうかを判断するため、くり返しが存在し
ないの(二もかかわらず誤って検出されたり、実際とは
異なるピッチ周期と判定されたりすることがなくなるの
で、このくり返し検出C二基く圧縮処理を正しく行なう
ことが可能となり、信頼性の同上を図ることができる・ 発明の実施例 第2肉はこの発明の一実施例を説明するための音声記録
再生装置の構成を示すものである・因において、入力端
子lに与えられる音声信号2はエンコーダ3(二導かれ
て符号化される。このイJ号化方式は1’CM、DPC
M、DM等どのようなものでもよい・音声48号2は有
音区間か無音区間かを判別する打首/無音判別回路4に
も入力される・この判別回路4は例えばレベルセンサと
、このセンナ出力を適当なスレツンヨルドレドレベルで
レベル判定して1例えば有音区間の一方、エンコーダ8
の出力はピッチ検出G5と信号処理装置6に供給される
・ピッチ検出器5は音声信号2の波形のくり返しくピッ
チ情報)の有無を検出するもので、くり返しを検出する
毎にピッチ候補点検出パルスVを発生する・このピッチ
検出器5は例えば公知の自己相関器等響二よっても実現
されるが、エンコーダ1がDM方式の場合、より簡単6
;は第3図のように構成することもできる・ 纂3図において、入力端子311二はエンコーダSから
の音声信号データが入力され、シフトレジスタ32で直
並列変換される。シフトレジ Jメタ32の各段の
並列出力はラダー抵抗31を介して加算tf、saで加
算される・ここでシフトレジスタ32の段数馨n、シフ
トレジスタ12Cユ与えられるクロック伯母UKの周期
なτとすると、”Zの時間は音声信号の第1フオルマン
ト周期の172以下の適当な値(例えば0.5〜2 m
5ec)に選ばれる・ラダー抵抗33の抵抗値が等しい
とすれば、加算器34の出力は音声信号波形の時間n−
宅当りの平均傾斜を表わす・そこで、この加算器34の
出力をコンパレータ36で所定の基準レベルVrを越え
た点を検出すれば、ピッチ候補点検出パルスFが得られ
る。
た閉錯音か摩擦音か鼻音か等6:よって、くり返しの有
無に関してもそれぞれ個有の性質がみられる。しかし、
この発明ではくり返しの検出だけを行なえばよく、例え
ばLPC方式で必らず必要な有声音/無声音の判別は必
要ない・即ち、子音部に関してはくり返しが検出された
ときのみ母音部と同様ζ:圧縮を行ない、検出されない
ときは波形のすべてを出力すること(二なるO 第1図≦二いくつかの代表的な(子音+母音)の音の振
幅包絡線を示す・区かられかるように子音の継続時間は
種々異なる・しかし、音声の発声速度が変った場合のそ
の継続時間の変化は母音のそれほど大きくなく、音の押
類のみに応じた一定のに続時間を持つと考えることがで
き、またくり返しが検出されない子音の時間的割合は微
々たるものであるから、その区1hj圧縮が行なわれな
くとも、全体としての圧絹効ヰ(は十分である◎ セしてさら(;この発明ではピッチ周期6二相当する時
間長を前述した3つの酸価で判定して波形のくり返しが
検出されたかどうかを判断するため、くり返しが存在し
ないの(二もかかわらず誤って検出されたり、実際とは
異なるピッチ周期と判定されたりすることがなくなるの
で、このくり返し検出C二基く圧縮処理を正しく行なう
ことが可能となり、信頼性の同上を図ることができる・ 発明の実施例 第2肉はこの発明の一実施例を説明するための音声記録
再生装置の構成を示すものである・因において、入力端
子lに与えられる音声信号2はエンコーダ3(二導かれ
て符号化される。このイJ号化方式は1’CM、DPC
M、DM等どのようなものでもよい・音声48号2は有
音区間か無音区間かを判別する打首/無音判別回路4に
も入力される・この判別回路4は例えばレベルセンサと
、このセンナ出力を適当なスレツンヨルドレドレベルで
レベル判定して1例えば有音区間の一方、エンコーダ8
の出力はピッチ検出G5と信号処理装置6に供給される
・ピッチ検出器5は音声信号2の波形のくり返しくピッ
チ情報)の有無を検出するもので、くり返しを検出する
毎にピッチ候補点検出パルスVを発生する・このピッチ
検出器5は例えば公知の自己相関器等響二よっても実現
されるが、エンコーダ1がDM方式の場合、より簡単6
;は第3図のように構成することもできる・ 纂3図において、入力端子311二はエンコーダSから
の音声信号データが入力され、シフトレジスタ32で直
並列変換される。シフトレジ Jメタ32の各段の
並列出力はラダー抵抗31を介して加算tf、saで加
算される・ここでシフトレジスタ32の段数馨n、シフ
トレジスタ12Cユ与えられるクロック伯母UKの周期
なτとすると、”Zの時間は音声信号の第1フオルマン
ト周期の172以下の適当な値(例えば0.5〜2 m
5ec)に選ばれる・ラダー抵抗33の抵抗値が等しい
とすれば、加算器34の出力は音声信号波形の時間n−
宅当りの平均傾斜を表わす・そこで、この加算器34の
出力をコンパレータ36で所定の基準レベルVrを越え
た点を検出すれば、ピッチ候補点検出パルスFが得られ
る。
このピッチ検出器5からのピッチ候補点検出パル1丁は
、有音無音判別信号Vと共に、48号処f!JI装置6
へ圧縮のための制御信号として与えられる・信号処理装
置6はこの例ではマイクロコンピュータ6二より構成さ
れ、演算、制御を行なうマイクロプロセッサ7と、エン
コーダ3よりの符号化された音声信号データを一定のア
ルゴリズムで編集するためのプログラムを格納したl(
(JM8と、プログラム実行時C;必要となるデータの
一時格納用のRAM9と、各部へのクロック信号GKを
発生するクロック発生器10等を含んでいる。
、有音無音判別信号Vと共に、48号処f!JI装置6
へ圧縮のための制御信号として与えられる・信号処理装
置6はこの例ではマイクロコンピュータ6二より構成さ
れ、演算、制御を行なうマイクロプロセッサ7と、エン
コーダ3よりの符号化された音声信号データを一定のア
ルゴリズムで編集するためのプログラムを格納したl(
(JM8と、プログラム実行時C;必要となるデータの
一時格納用のRAM9と、各部へのクロック信号GKを
発生するクロック発生器10等を含んでいる。
信号処理装置1は有音/無音判別信号Vとピッチ候補点
検出パルスPに応じてエンコーダ3よりの音声信号デー
タ(波形情報)をRAMよりなるバッファメモリitに
一時格納しては圧縮のための編集を行なってメモ91H
に書込むという操作を逐次少しずつ行なう・ 次に、この実施例の動作を説明する・信号処理装置6で
の処理内容は、第4因、第5図中1−示すA、B、C,
Dの4区間(二よって場合分けされる。第4図は有音/
無音判別信号Vと、ピッチM補点m出パルスをマイクロ
プロセラfFで32の 値で補正して得たくり返し検出
点iの例を示し、第5因はA、B、c、Dの各区間≦二
おいてメモリ12+:蓄積されるデータ内容を示してい
るe yが高レベルとなる無音区間であるA区間においては、
マイクロプロセッサ8は丁が低レベルとなる有音区間の
始点までの間クロック信号UK(エンコーダ1のサンプ
ルグロック)をカウントし、そのカクント値を無音区間
の時l5tI技データPNとして、無音区間識別コード
Pと共ζ=メモリ12へ語込む。
検出パルスPに応じてエンコーダ3よりの音声信号デー
タ(波形情報)をRAMよりなるバッファメモリitに
一時格納しては圧縮のための編集を行なってメモ91H
に書込むという操作を逐次少しずつ行なう・ 次に、この実施例の動作を説明する・信号処理装置6で
の処理内容は、第4因、第5図中1−示すA、B、C,
Dの4区間(二よって場合分けされる。第4図は有音/
無音判別信号Vと、ピッチM補点m出パルスをマイクロ
プロセラfFで32の 値で補正して得たくり返し検出
点iの例を示し、第5因はA、B、c、Dの各区間≦二
おいてメモリ12+:蓄積されるデータ内容を示してい
るe yが高レベルとなる無音区間であるA区間においては、
マイクロプロセッサ8は丁が低レベルとなる有音区間の
始点までの間クロック信号UK(エンコーダ1のサンプ
ルグロック)をカウントし、そのカクント値を無音区間
の時l5tI技データPNとして、無音区間識別コード
Pと共ζ=メモリ12へ語込む。
一方、有音区間であるB、C,D区間のうちB区間は、
有音区間始点より最初≦二くり返しが検出された時点支
での主に子音部C二相当する区間−で、この区間ではマ
イクロプロセッサ?は有音区間始点から音声信号データ
をそのデータ長をカウントしながらバッファメモリII
へ先順番地より順次格納していき、B区間の終りの時点
でバッファメモリlJへ格納された音声信号データ(波
形情報)QDと、カウントによって得られた時間長デー
タQNをくり返し非検出コードQと共に主メモ912へ
書込む◎即ち、このB区間では圧縮は行なわれない。
有音区間始点より最初≦二くり返しが検出された時点支
での主に子音部C二相当する区間−で、この区間ではマ
イクロプロセッサ?は有音区間始点から音声信号データ
をそのデータ長をカウントしながらバッファメモリII
へ先順番地より順次格納していき、B区間の終りの時点
でバッファメモリlJへ格納された音声信号データ(波
形情報)QDと、カウントによって得られた時間長デー
タQNをくり返し非検出コードQと共に主メモ912へ
書込む◎即ち、このB区間では圧縮は行なわれない。
次に、C区間はくり返しがほぼ一定周期で検出されてい
る区間で、主≦二母音部に相当する区間である・このC
区間では、マイクロプロセッサ2はくり返し検出点「を
カウントし、かっ「の時点での音声(ii号データの位
置を記録しながら、バッファメモリ11へ音声信号デー
タを格納する◎この場A、前のC区間の編集処理は既に
終っているため、パップアメモリllは先順番地よりマ
ル番=使用できる◎マイクロプロセッサ1はくり返し検
出点百をN個、この例では4個カウントすると、例えば
3個目から4個目までの間の音声信号データをその4回
のくり返しの中での単位波形の情報RDとして、これと
その時間長データRNをくり返し検出コードR(これは
データが圧縮されていることを表わす)と共にメモリ1
2へ書込む・以下、くり返しがほぼ一定周期で検出され
ている間は、C区間として同様の処理がくり返し行なわ
れる。こうして、C区間においては音声信号データが1
/ILJ(−の例では1/4)(二圧縮されてメモリ1
2に蓄積される。
る区間で、主≦二母音部に相当する区間である・このC
区間では、マイクロプロセッサ2はくり返し検出点「を
カウントし、かっ「の時点での音声(ii号データの位
置を記録しながら、バッファメモリ11へ音声信号デー
タを格納する◎この場A、前のC区間の編集処理は既に
終っているため、パップアメモリllは先順番地よりマ
ル番=使用できる◎マイクロプロセッサ1はくり返し検
出点百をN個、この例では4個カウントすると、例えば
3個目から4個目までの間の音声信号データをその4回
のくり返しの中での単位波形の情報RDとして、これと
その時間長データRNをくり返し検出コードR(これは
データが圧縮されていることを表わす)と共にメモリ1
2へ書込む・以下、くり返しがほぼ一定周期で検出され
ている間は、C区間として同様の処理がくり返し行なわ
れる。こうして、C区間においては音声信号データが1
/ILJ(−の例では1/4)(二圧縮されてメモリ1
2に蓄積される。
最後(二り区間は、くり返しがN=4回検小検出る前(
二無音区間じなってしまったときである。
二無音区間じなってしまったときである。
このD区間での処理としては、例えば初期のうちはC区
間と同様にバッファメモリ/J(二會声48号データを
格納しつつ、無音区間ζ二なった時点でバッファメモ9
tiに格納されていた音声イ=号データと、その時間長
データをくり返し非検出コードをB区間と同様にメモリ
12へ書込む@従って、このD区間では圧縮は行なわれ
ない・ なお、D区間での処理の他の形式として、その前のC区
間が時間的に長くて母音情報が十分メモ9z2に蓄積さ
れている場合は、このD区間を次の無音区間の一部とみ
なして処理してもよい・このようにすると、自然性(=
多少の劣化はきたしても明瞭性は十分確保されるので、
圧縮率をより下げる上では有効である〇 こうしてメモリ12に蓄積されたデータは、適宜続出さ
れ、デコーダ13によって第5図に示した各データに従
い音声信号14として再生される。
間と同様にバッファメモリ/J(二會声48号データを
格納しつつ、無音区間ζ二なった時点でバッファメモ9
tiに格納されていた音声イ=号データと、その時間長
データをくり返し非検出コードをB区間と同様にメモリ
12へ書込む@従って、このD区間では圧縮は行なわれ
ない・ なお、D区間での処理の他の形式として、その前のC区
間が時間的に長くて母音情報が十分メモ9z2に蓄積さ
れている場合は、このD区間を次の無音区間の一部とみ
なして処理してもよい・このようにすると、自然性(=
多少の劣化はきたしても明瞭性は十分確保されるので、
圧縮率をより下げる上では有効である〇 こうしてメモリ12に蓄積されたデータは、適宜続出さ
れ、デコーダ13によって第5図に示した各データに従
い音声信号14として再生される。
次に、マイクロプロセッサ2におけるくり返し検出アル
ゴリズムを説明す、、る・第6図(alは音声イー号の
周期性のある部分の波形例を示すもので、Pl、P、・
・・はくり返しのピーク点である◎また。第6図(b)
はこのときのピッチ検出器5がらのピッチ候補点検出パ
ルスPの例、 (C)はこのパル71間の時間長を判定
するための3つの値Tl # Tl# Tl e
(d)はこの判定によって得られたくり返し検出点「を
示している・第7図はくり返し検出アルゴリズムを示す
フローチャートであり、入ロア14二はピップ候補点か
ら次のピッチ候補点までの時間長Tを計測する時間長カ
ウンタの出力が与えられる。この時間長Tは判定ステッ
プ7zでピッチ周期の下限に相当する第1の勲値Tsよ
り小さいかどうかが判定される□この判定ステップr1
は第6図(a)のP;1のような本来のピップとは異な
る点が第6図(b)の6ノのようにピッチ候補点として
検出され、これがくり返し検出点として誤って検出され
る(これをアディション・エラーという)ことを防ぐた
めのものであって、T、の偵は平均ピッチ周期をToと
して0.4〜0.8倍の範囲内1例えは0.7 ’l’
・程良が適当である。この判定ステップ72でT(T、
と判だされると、叩ち例えば@6囚(b)のピッチ候補
点61に遭遇すると、これを無視して出口29に移行し
、時間Tの計測を続行する・一方、T≧T1と判定され
ると処理73で時間長カウンタをリセットした後、さら
(−判定ステップ74でピッチ周期の上限に相当する第
2の闇値T、以下かどうかが判定される。T、は1.2
TO〜1.8TO,例えは1.5TO程度が適当である
・この結果、T≦T、と判定されると処理75でその時
間長Tは本来のピッチ周期で、波形のくり返しが検出さ
れたと判断し、そのときのピッチ候補点。
ゴリズムを説明す、、る・第6図(alは音声イー号の
周期性のある部分の波形例を示すもので、Pl、P、・
・・はくり返しのピーク点である◎また。第6図(b)
はこのときのピッチ検出器5がらのピッチ候補点検出パ
ルスPの例、 (C)はこのパル71間の時間長を判定
するための3つの値Tl # Tl# Tl e
(d)はこの判定によって得られたくり返し検出点「を
示している・第7図はくり返し検出アルゴリズムを示す
フローチャートであり、入ロア14二はピップ候補点か
ら次のピッチ候補点までの時間長Tを計測する時間長カ
ウンタの出力が与えられる。この時間長Tは判定ステッ
プ7zでピッチ周期の下限に相当する第1の勲値Tsよ
り小さいかどうかが判定される□この判定ステップr1
は第6図(a)のP;1のような本来のピップとは異な
る点が第6図(b)の6ノのようにピッチ候補点として
検出され、これがくり返し検出点として誤って検出され
る(これをアディション・エラーという)ことを防ぐた
めのものであって、T、の偵は平均ピッチ周期をToと
して0.4〜0.8倍の範囲内1例えは0.7 ’l’
・程良が適当である。この判定ステップ72でT(T、
と判だされると、叩ち例えば@6囚(b)のピッチ候補
点61に遭遇すると、これを無視して出口29に移行し
、時間Tの計測を続行する・一方、T≧T1と判定され
ると処理73で時間長カウンタをリセットした後、さら
(−判定ステップ74でピッチ周期の上限に相当する第
2の闇値T、以下かどうかが判定される。T、は1.2
TO〜1.8TO,例えは1.5TO程度が適当である
・この結果、T≦T、と判定されると処理75でその時
間長Tは本来のピッチ周期で、波形のくり返しが検出さ
れたと判断し、そのときのピッチ候補点。
例えば第6図(b)の620位慰馨記憶し、第6図(d
)のようにくり返し経出点iとする◎即も、これは粥4
図のC区間が検出されたことに相当し。
)のようにくり返し経出点iとする◎即も、これは粥4
図のC区間が検出されたことに相当し。
削赴の如く圧縮処理が行なわれる。一方、T)T、の場
合はさらに次の判ずステップ76で時111j長Tが第
3の開鎖T、より大きいかどうかが判定される・この判
定ステップ26は例えは第6因(a)のピーク点P、の
よう6ニレベルが小さいため(b)の63の如くピッチ
候補点が検出されない。いわゆるオミットエラーに対処
するためのも占−で、T、の値は2.2T@〜2.6
T (Iの帷囲内1例えば2.5 ’l’・程度に選ば
れる◎この場合。
合はさらに次の判ずステップ76で時111j長Tが第
3の開鎖T、より大きいかどうかが判定される・この判
定ステップ26は例えは第6因(a)のピーク点P、の
よう6ニレベルが小さいため(b)の63の如くピッチ
候補点が検出されない。いわゆるオミットエラーに対処
するためのも占−で、T、の値は2.2T@〜2.6
T (Iの帷囲内1例えば2.5 ’l’・程度に選ば
れる◎この場合。
T≦T、のときは例えばピーク点P、が検出されなかっ
たとして、処理11(;おいて第61N(blの6jC
4目当するピッチ゛候補点を前後のピッチ候補点P、、
P、かう推足して補間した後、処( 理75に移行する。また、T)T、のときは処理28に
移行する。この処理では波形のくり返しが検出されたか
ったと判定して1例えば波形の平均レベル等から必要な
部分かどうかを判定 ′し、必要なり分ならばエン
コーダ3からのデータをそのまま出力し、不必要ならば
例えばノイズとみなして、その間を無言区間として処理
する。
たとして、処理11(;おいて第61N(blの6jC
4目当するピッチ゛候補点を前後のピッチ候補点P、、
P、かう推足して補間した後、処( 理75に移行する。また、T)T、のときは処理28に
移行する。この処理では波形のくり返しが検出されたか
ったと判定して1例えば波形の平均レベル等から必要な
部分かどうかを判定 ′し、必要なり分ならばエン
コーダ3からのデータをそのまま出力し、不必要ならば
例えばノイズとみなして、その間を無言区間として処理
する。
ところで、前記の平均周期T−は例えは女性で2.5〜
5 ms 、男性で4〜l Qmsというよう一二性別
1個人、あるいは発声方法等により大きく綾化するので
、これをいか5二定めるかが重要であるが、これには次
のような方法が有効である・第lは典型的な数種のT、
の値をメモリテーブル≦二予め用意しておき、それをセ
レクトスイッチで選択するか、ディジタルスイッチでT
、の値を人力する方法であるo第2は事前にチェックモ
ードとしてピッチが検出され易い単母酋等の波形を用・
いてT・を登録してから、くり返し検出馨行なう方法で
ある。この弗2の方法を実現するアルコ”リズムの具体
例を第8図のフローチャー)により説明する・ 第8肉において、入口81.出口88は第7図の71.
79と同様である0即ち、入口81(二はピッチ候補点
間の時間長Tのデータが入力され、まず判定ステップ8
2でT < 2.5 msかどうかが判定されるo T
(2,5msの場合は出口8Bへ行き、Ta2.5 m
sの場合はさらに判定ステップ83で” > 10ms
の場合はやはり出口88≦二行く。ここでT≦lQms
の場合、即ち2.5ms≦T≦10m1の場合は、処理
・′:84で時間長カウンタがリセットされると共C二
、処理85で上記軸囲内の時間長Tの総和ΣTがとられ
、さら(=処理86でピッチ候補点の数Qがカウントさ
れる。そして、入口s t I=大入力なくなるか、Q
のが求められることになる。
5 ms 、男性で4〜l Qmsというよう一二性別
1個人、あるいは発声方法等により大きく綾化するので
、これをいか5二定めるかが重要であるが、これには次
のような方法が有効である・第lは典型的な数種のT、
の値をメモリテーブル≦二予め用意しておき、それをセ
レクトスイッチで選択するか、ディジタルスイッチでT
、の値を人力する方法であるo第2は事前にチェックモ
ードとしてピッチが検出され易い単母酋等の波形を用・
いてT・を登録してから、くり返し検出馨行なう方法で
ある。この弗2の方法を実現するアルコ”リズムの具体
例を第8図のフローチャー)により説明する・ 第8肉において、入口81.出口88は第7図の71.
79と同様である0即ち、入口81(二はピッチ候補点
間の時間長Tのデータが入力され、まず判定ステップ8
2でT < 2.5 msかどうかが判定されるo T
(2,5msの場合は出口8Bへ行き、Ta2.5 m
sの場合はさらに判定ステップ83で” > 10ms
の場合はやはり出口88≦二行く。ここでT≦lQms
の場合、即ち2.5ms≦T≦10m1の場合は、処理
・′:84で時間長カウンタがリセットされると共C二
、処理85で上記軸囲内の時間長Tの総和ΣTがとられ
、さら(=処理86でピッチ候補点の数Qがカウントさ
れる。そして、入口s t I=大入力なくなるか、Q
のが求められることになる。
このようI:、この発明では音声信号の有音区間のうち
の時間的に大部分を占める母音部等のくり返しが良好に
検出される部分は1/N−二圧縮し、くり返しが検出さ
れない子音部は音声信号の波形情報をそのまま出力する
ため、再生音声の明瞭度等の劣化の少ない効率的な圧縮
が可能となる・これによって、実施例の如き音声記録再
生装置にこの発明を適用した場合、メモリの各員を効率
よく使用でき、コスト面で極めて有利となる・ そして特C二、この発明ではくり返しかアデイション・
エラーやオミット・エラーを生じることなく正しく検出
:されるため、適鑵な圧絹処理か可能となり、再生音声
品實のより一層の同上を図ることができる◎ なお、第2因の実施例ではピッチ候補点の検出と、有音
区間と無音区間の判別を八−ドウエアによって実現した
が、マイクロプロセラf2を含む<S号処理装置(ニソ
フトウェアによってその機能を持たせてもよい口その場
合、前記実施例の如く実時間処理が可能かどうかが間細
となるが1例えば無音区間は主にその時間長のカウント
のみが必要であって、処理時間としては十分かつ余りあ
る区間であり、しかも音声信号の中で無音区間が占める
時間的割合は大きいことを考慮すれば、問題ない・即ち
1例えば連続する有音区間と無音区間を1プロツグと考
えると。
の時間的に大部分を占める母音部等のくり返しが良好に
検出される部分は1/N−二圧縮し、くり返しが検出さ
れない子音部は音声信号の波形情報をそのまま出力する
ため、再生音声の明瞭度等の劣化の少ない効率的な圧縮
が可能となる・これによって、実施例の如き音声記録再
生装置にこの発明を適用した場合、メモリの各員を効率
よく使用でき、コスト面で極めて有利となる・ そして特C二、この発明ではくり返しかアデイション・
エラーやオミット・エラーを生じることなく正しく検出
:されるため、適鑵な圧絹処理か可能となり、再生音声
品實のより一層の同上を図ることができる◎ なお、第2因の実施例ではピッチ候補点の検出と、有音
区間と無音区間の判別を八−ドウエアによって実現した
が、マイクロプロセラf2を含む<S号処理装置(ニソ
フトウェアによってその機能を持たせてもよい口その場
合、前記実施例の如く実時間処理が可能かどうかが間細
となるが1例えば無音区間は主にその時間長のカウント
のみが必要であって、処理時間としては十分かつ余りあ
る区間であり、しかも音声信号の中で無音区間が占める
時間的割合は大きいことを考慮すれば、問題ない・即ち
1例えば連続する有音区間と無音区間を1プロツグと考
えると。
処理速度の遅いマイクロプロセッサを用いてくり返しの
検出と有音/無音区間の判別をソフトウェアで実行し、
かつ圧縮処理馨行なう場合、有音区間では実時間処理が
不可能でも、その不可能な分を無音区間で補なうことに
よって、1ブロツク内では実時間処理が可能となる・こ
の発明は1日本語のみならず外国語の音声451号に対
しても有効であることはいうまでもないO
検出と有音/無音区間の判別をソフトウェアで実行し、
かつ圧縮処理馨行なう場合、有音区間では実時間処理が
不可能でも、その不可能な分を無音区間で補なうことに
よって、1ブロツク内では実時間処理が可能となる・こ
の発明は1日本語のみならず外国語の音声451号に対
しても有効であることはいうまでもないO
第1図は子音+母音の音声の回路線、波形を示す図、第
2図はこの発明の一実施例の構成図、第3図は同実施例
3;おけるピッチ検出器の構成例を示すl/、1!4図
は同実施例の動作を説明するためのタイムチャート、第
5図は同実施例C−おいて編集されメモリに蓄積される
データの構成を示す図、第6因および第7図は同実施例
≦;おけるくり返し検出アルゴリズムを説明するための
タイムチャートおよびフローチャート、第8因は平均ピ
ッチ周期自動算出のためのアルコ、リズムを説明するた
めのフローチャートであるート・・音声信号入力端子、
S・・・エンコーダ、4・・・有音/無音判別回路、S
・・・ピッチ検出器、6・・・信号処理装置、1・・・
マイクロプロセッサ、11・・・バッファメモリ、12
・・・メモリ、13・・・デコーダ、32・・・シフト
レジスタ、33・・・加算器、34…コンパレータ◎ 出願人代理人 弁理士 鈴 江 武 彦第4(!I 第5図 I 第6!Il
2図はこの発明の一実施例の構成図、第3図は同実施例
3;おけるピッチ検出器の構成例を示すl/、1!4図
は同実施例の動作を説明するためのタイムチャート、第
5図は同実施例C−おいて編集されメモリに蓄積される
データの構成を示す図、第6因および第7図は同実施例
≦;おけるくり返し検出アルゴリズムを説明するための
タイムチャートおよびフローチャート、第8因は平均ピ
ッチ周期自動算出のためのアルコ、リズムを説明するた
めのフローチャートであるート・・音声信号入力端子、
S・・・エンコーダ、4・・・有音/無音判別回路、S
・・・ピッチ検出器、6・・・信号処理装置、1・・・
マイクロプロセッサ、11・・・バッファメモリ、12
・・・メモリ、13・・・デコーダ、32・・・シフト
レジスタ、33・・・加算器、34…コンパレータ◎ 出願人代理人 弁理士 鈴 江 武 彦第4(!I 第5図 I 第6!Il
Claims (1)
- 【特許請求の範囲】 (1) 音声信号の有音区間のうち波形のくり返しが
検出された区間は所定のくり返し回数N毎にそのN回の
くり返しの中での1つの単位波形を抽出して出力し、く
り返しが検出されない区間は音声信号波形をそのまま出
力して音声信号を圧縮する方式C二おい【、音声信号の
ピッチ候補点を検出して、各ピッチ候補点から次のピッ
チ候補点までの時間長を計測し、この時間長を平均ピッ
チ周期の0.4〜0.8倍、1.2〜1.8倍および2
.2〜2.6倍の値をそれぞれ持つ第1゜第2および第
3の闇値C=より判定し、その時間長が第1の闇値未満
のときは削記次のピッチ候補点を無視して時間長の計測
を続行し、第1の19値以上かつ第2の闇値以下のとき
は波形のくり返しが検出されたと判断し、第2の闇値を
越え第3の闇値以下のときはピッチ候補点を補間して波
形のくり返しが2回検出されたと判断し、第3の閾値を
越えたときは波形のくり返しが検出されなかったと判断
することを特徴とする音声信号圧縮方式・ (2平均ピッチ周期の値は任意(二設定可能である特許
請求の範囲第1項記載の音声信号圧縮方式。 (3)平均ピッチ周期の値は各ピッチ候補点から次のピ
ッチ候補点までの時間長のうち所定範囲内の時間長の平
均値である特許請求の範囲第1項記載の音声信号圧縮方
式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56213021A JPS58113993A (ja) | 1981-12-26 | 1981-12-26 | 音声信号圧縮方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56213021A JPS58113993A (ja) | 1981-12-26 | 1981-12-26 | 音声信号圧縮方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS58113993A true JPS58113993A (ja) | 1983-07-07 |
Family
ID=16632187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56213021A Pending JPS58113993A (ja) | 1981-12-26 | 1981-12-26 | 音声信号圧縮方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58113993A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01154200A (ja) * | 1987-12-11 | 1989-06-16 | Matsushita Electric Ind Co Ltd | 音声蓄積装置 |
-
1981
- 1981-12-26 JP JP56213021A patent/JPS58113993A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01154200A (ja) * | 1987-12-11 | 1989-06-16 | Matsushita Electric Ind Co Ltd | 音声蓄積装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Talkin et al. | A robust algorithm for pitch tracking (RAPT) | |
US4709390A (en) | Speech message code modifying arrangement | |
JP2638499B2 (ja) | 音声のピッチを決定する方法と音声伝達システム | |
US5732392A (en) | Method for speech detection in a high-noise environment | |
JPS58134699A (ja) | 連続ワ−トストリング認識方法および装置 | |
GB1589493A (en) | Speech recognition | |
EP1426926B1 (en) | Apparatus and method for changing the playback rate of recorded speech | |
CN105706167A (zh) | 有语音的话音检测方法和装置 | |
JPH0341838B2 (ja) | ||
EP4205104B1 (en) | System and method for speech processing | |
JPS58113993A (ja) | 音声信号圧縮方式 | |
JPH0950288A (ja) | 音声認識装置及び音声認識方法 | |
Ansari et al. | Representation of prosodic structure in speech using nonlinear methods. | |
JPS58113992A (ja) | 音声信号圧縮方式 | |
JPS5817497A (ja) | 音声ピッチ検出装置 | |
JPS62102294A (ja) | 音声符号化方式 | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
KR0176623B1 (ko) | 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치 | |
KR20080065775A (ko) | 구화 교육용 발성 시각화 시스템 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JP2585214B2 (ja) | ピッチ抽出方法 | |
JPH0122639B2 (ja) | ||
Kim et al. | On a Reduction of Pitch Searching Time by Preprocessing in the CELP Vocoder | |
JPS6120880B2 (ja) | ||
Waardenburg et al. | The automatic recognition of stop consonants using hidden Markov models |