JPH0772896A - 音声の圧縮伸長装置 - Google Patents
音声の圧縮伸長装置Info
- Publication number
- JPH0772896A JPH0772896A JP5217570A JP21757093A JPH0772896A JP H0772896 A JPH0772896 A JP H0772896A JP 5217570 A JP5217570 A JP 5217570A JP 21757093 A JP21757093 A JP 21757093A JP H0772896 A JPH0772896 A JP H0772896A
- Authority
- JP
- Japan
- Prior art keywords
- compression
- voice
- utterance speed
- expansion
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 入力信号の呼気の切れ目によって生じるひと
まとまりの音声区間となる呼気段落内の音節数を検出す
ることで話者の発声速度を検出し、発声速度に応じて圧
縮伸長率を調整し、非音声区間となるポーズの時間長を
制御し、音質劣化を防止すると共に操作性の向上を図
る。 【構成】 入力される音声信号に基づいて発声速度を検
出する発声速度検出手段2と、該発声速度検出手段2か
らの発声速度データに基づいて入力される音声信号の圧
縮伸長率を調節する圧縮伸長率調節手段4と、前記発声
速度検出手段2からの発声速度データに基づいて入力さ
れる音声信号の非音声区間の時間長を調節する非音声区
間制御手段3と、前記圧縮伸長率調整手段4からの圧縮
伸長率データに基づいて前記音声信号を圧縮伸長する圧
縮伸長手段5とからなり、前記発声速度検出手段2は前
記音声信号の呼気の切れ目によって生じる呼気段落内の
音声の音節数により発声速度を算出するものである。
まとまりの音声区間となる呼気段落内の音節数を検出す
ることで話者の発声速度を検出し、発声速度に応じて圧
縮伸長率を調整し、非音声区間となるポーズの時間長を
制御し、音質劣化を防止すると共に操作性の向上を図
る。 【構成】 入力される音声信号に基づいて発声速度を検
出する発声速度検出手段2と、該発声速度検出手段2か
らの発声速度データに基づいて入力される音声信号の圧
縮伸長率を調節する圧縮伸長率調節手段4と、前記発声
速度検出手段2からの発声速度データに基づいて入力さ
れる音声信号の非音声区間の時間長を調節する非音声区
間制御手段3と、前記圧縮伸長率調整手段4からの圧縮
伸長率データに基づいて前記音声信号を圧縮伸長する圧
縮伸長手段5とからなり、前記発声速度検出手段2は前
記音声信号の呼気の切れ目によって生じる呼気段落内の
音声の音節数により発声速度を算出するものである。
Description
【0001】
【産業上の利用分野】本発明は音声信号の時間軸変換を
行う時間軸圧縮伸長装置に係るもので、例えばビジネス
テープレコーダ、留守番電話、あるいはビデオテープレ
コーダ等の音声の早聞き及び遅聞き用途、又は聴覚障害
のある人に放送される音声信号をゆっくりとした聞きや
すい音声信号に変換する聴覚補助用途に利用するものに
関するものである。
行う時間軸圧縮伸長装置に係るもので、例えばビジネス
テープレコーダ、留守番電話、あるいはビデオテープレ
コーダ等の音声の早聞き及び遅聞き用途、又は聴覚障害
のある人に放送される音声信号をゆっくりとした聞きや
すい音声信号に変換する聴覚補助用途に利用するものに
関するものである。
【0002】
【従来の技術】従来から例えばアナログ信号処理回路を
用いて音声信号の時間軸圧縮伸長を行う方式が提案され
ている。
用いて音声信号の時間軸圧縮伸長を行う方式が提案され
ている。
【0003】この方式は音声信号波形から単純な波形の
間引きを行ったり、またはこの単純波形を繰り返し挿入
したりしていたので、音声の繋ぎ目が不連続になり、再
生された音声の音質が悪くなるという問題点があった。
間引きを行ったり、またはこの単純波形を繰り返し挿入
したりしていたので、音声の繋ぎ目が不連続になり、再
生された音声の音質が悪くなるという問題点があった。
【0004】そこで上述のアナログ信号処理回路に代わ
って、近年デジタル信号処理により音声信号の時間軸圧
縮伸長を行う方式が提案され始め、デジタル信号処理に
より入力音声信号のピッチ周期を検出し、そのピッチ部
の間引きあるいは挿入によって圧縮伸長を実現してい
る。
って、近年デジタル信号処理により音声信号の時間軸圧
縮伸長を行う方式が提案され始め、デジタル信号処理に
より入力音声信号のピッチ周期を検出し、そのピッチ部
の間引きあるいは挿入によって圧縮伸長を実現してい
る。
【0005】しかしながら斯かる方式において入力され
る音声信号は予め設定された圧縮伸長率で全区間に亙り
一律な圧縮伸長が行われるため、非音声区間となるポー
ズの時間長や入力される音声の発声速度により、再生音
声の音質の劣化が生じる惧れがあった。
る音声信号は予め設定された圧縮伸長率で全区間に亙り
一律な圧縮伸長が行われるため、非音声区間となるポー
ズの時間長や入力される音声の発声速度により、再生音
声の音質の劣化が生じる惧れがあった。
【0006】
【発明が解決しようとする課題】上述のように従来の全
区間に於て一律に圧縮伸長を行う音声の圧縮伸長方式で
は入力される音声の発声速度や非音声区間となるポーズ
の時間長によって問題点が生じる。
区間に於て一律に圧縮伸長を行う音声の圧縮伸長方式で
は入力される音声の発声速度や非音声区間となるポーズ
の時間長によって問題点が生じる。
【0007】即ち話者が発生する音声の発声速度は人に
よって夫々異なっており、例えば250語/分と遅い人
がいれば、560語/分と早い人もいる。特に通常の会
話音声では同一話者であっても発声速度の早い部分と遅
い部分とがある。そして会話音声においては文章間や音
声の旋律のまとまりとなるフレーズ間に非音声区間とな
るポーズがあり、話者の喋り方や感情等により変化す
る。
よって夫々異なっており、例えば250語/分と遅い人
がいれば、560語/分と早い人もいる。特に通常の会
話音声では同一話者であっても発声速度の早い部分と遅
い部分とがある。そして会話音声においては文章間や音
声の旋律のまとまりとなるフレーズ間に非音声区間とな
るポーズがあり、話者の喋り方や感情等により変化す
る。
【0008】このように発声速度が違う人の音声や音声
区間と非音声区間のポーズを一律の圧縮伸長率で時間軸
圧縮伸長を行った場合、早聞き、遅聞き時に以下に示す
ような再生音声の音質劣化が生じる。
区間と非音声区間のポーズを一律の圧縮伸長率で時間軸
圧縮伸長を行った場合、早聞き、遅聞き時に以下に示す
ような再生音声の音質劣化が生じる。
【0009】<早聞き時>発声速度が早い人では圧縮率
を上げて早聞き速度を上げた場合の再生音声では、早過
ぎて内容把握ができなくなり、再度早聞き速度を落とし
て聞かなければならない。
を上げて早聞き速度を上げた場合の再生音声では、早過
ぎて内容把握ができなくなり、再度早聞き速度を落とし
て聞かなければならない。
【0010】特に発声速度が早い部分でのポーズの時間
長が長く存在する場合、音声区間の早聞きは不明瞭にな
ると共に、ポーズの部分は音声区間と同一の圧縮率で再
生されるため、早聞きの主目的である時間短縮を行う面
からも好ましく無い。
長が長く存在する場合、音声区間の早聞きは不明瞭にな
ると共に、ポーズの部分は音声区間と同一の圧縮率で再
生されるため、早聞きの主目的である時間短縮を行う面
からも好ましく無い。
【0011】これに対して発声速度が遅い部分は、早聞
き速度を上げての再生での処理音声でも内容把握がで
き、音質劣化は少ない。
き速度を上げての再生での処理音声でも内容把握がで
き、音質劣化は少ない。
【0012】<遅聞き時>発声速度が遅い人では、伸長
率を大きく、遅聞き速度を下げる場合の再生音声では、
テンポが一定となり、間が抜けた音声となって会話音声
としての自然性が劣化する。
率を大きく、遅聞き速度を下げる場合の再生音声では、
テンポが一定となり、間が抜けた音声となって会話音声
としての自然性が劣化する。
【0013】遅聞きの場合、非音声区間のポーズを音声
区間より大幅に延長した方が音質劣化が防止できる。従
来法の一律の圧縮伸長率による時間軸圧縮伸長装置で
は、上記問題点を解決するための手段として、ユーザが
入力される音声の発声速度に応じて圧縮伸長率を微妙に
調整しなければならないので、操作性が著しく悪くな
る。
区間より大幅に延長した方が音質劣化が防止できる。従
来法の一律の圧縮伸長率による時間軸圧縮伸長装置で
は、上記問題点を解決するための手段として、ユーザが
入力される音声の発声速度に応じて圧縮伸長率を微妙に
調整しなければならないので、操作性が著しく悪くな
る。
【0014】このように一律の圧縮伸長率による時間軸
圧縮伸長方式では上記の問題を解決するためにユーザが
入力される音声の発声速度に応じて圧縮伸長率を微妙に
調整しなければならないため操作性が著しく悪くなって
いた。
圧縮伸長方式では上記の問題を解決するためにユーザが
入力される音声の発声速度に応じて圧縮伸長率を微妙に
調整しなければならないため操作性が著しく悪くなって
いた。
【0015】また発声速度の違う複数の話者が交互に発
言する会議の会議録を作成するための用途において、圧
縮率を発声速度が遅い人に調整した早聞きでは、発声速
度の速い人に調整した場合は早聞きの主目的である時間
短縮ができなくなる。これはポーズの長さが人によって
変化する場合にも当てはまる問題点である。
言する会議の会議録を作成するための用途において、圧
縮率を発声速度が遅い人に調整した早聞きでは、発声速
度の速い人に調整した場合は早聞きの主目的である時間
短縮ができなくなる。これはポーズの長さが人によって
変化する場合にも当てはまる問題点である。
【0016】このように従来方式の一律の圧縮伸長率に
よる時間軸圧縮伸長装置では上記の欠点のために発声速
度に応じて再生音声を聞きながら微妙に再生速度を調整
しなければならない問題点があった。従って操作性は著
しく悪いものであった。もちろん上記の欠点は一人の話
者でも発声速度が変化する場合にも同様に生じる。
よる時間軸圧縮伸長装置では上記の欠点のために発声速
度に応じて再生音声を聞きながら微妙に再生速度を調整
しなければならない問題点があった。従って操作性は著
しく悪いものであった。もちろん上記の欠点は一人の話
者でも発声速度が変化する場合にも同様に生じる。
【0017】そこで本発明は斯かる問題点を解決するた
めに入力信号の呼気の切れ目によって生じるひとまとま
りの音声区間となる呼気段落内の音節数を検出すること
で話者の発声速度を検出し、発声速度に応じて圧縮伸長
率を調整し、非音声区間となるポーズの時間長を制御
し、音質劣化を防止すると共に操作性の向上を図ること
を目的とするものである。
めに入力信号の呼気の切れ目によって生じるひとまとま
りの音声区間となる呼気段落内の音節数を検出すること
で話者の発声速度を検出し、発声速度に応じて圧縮伸長
率を調整し、非音声区間となるポーズの時間長を制御
し、音質劣化を防止すると共に操作性の向上を図ること
を目的とするものである。
【0018】なお、話者の発声速度の速い、遅いを知覚
するに当たっては聴覚機能の正常な健聴者ではほぼ同一
の傾向を示す。しかし、内耳の障害による聴覚機能の劣
化した難聴者は、聴覚能力に応じて知覚できる入力音声
信号の発声速度が違っており、各難聴者に適した早聞
き、遅聞きの再生速度が必要となる。
するに当たっては聴覚機能の正常な健聴者ではほぼ同一
の傾向を示す。しかし、内耳の障害による聴覚機能の劣
化した難聴者は、聴覚能力に応じて知覚できる入力音声
信号の発声速度が違っており、各難聴者に適した早聞
き、遅聞きの再生速度が必要となる。
【0019】
【課題を解決するための手段】本発明は、入力される音
声信号に基づいて発声速度を検出する発声速度検出手段
と、該発声速度検出手段からの発声速度データに基づい
て入力される音声信号の圧縮伸長率を調節する圧縮伸長
率調節手段と、前記発声速度検出手段からの発声速度デ
ータに基づいて入力される音声信号の非音声区間の時間
長を調節する非音声区間制御手段と、前記圧縮伸長率調
整手段からの圧縮伸長率データに基づいて前記音声信号
を圧縮伸長する圧縮伸長手段とからなり、前記発声速度
検出手段は前記音声信号の呼気の切れ目によって生じる
呼気段落内の音声の音節数により発声速度を算出するも
のである。
声信号に基づいて発声速度を検出する発声速度検出手段
と、該発声速度検出手段からの発声速度データに基づい
て入力される音声信号の圧縮伸長率を調節する圧縮伸長
率調節手段と、前記発声速度検出手段からの発声速度デ
ータに基づいて入力される音声信号の非音声区間の時間
長を調節する非音声区間制御手段と、前記圧縮伸長率調
整手段からの圧縮伸長率データに基づいて前記音声信号
を圧縮伸長する圧縮伸長手段とからなり、前記発声速度
検出手段は前記音声信号の呼気の切れ目によって生じる
呼気段落内の音声の音節数により発声速度を算出するも
のである。
【0020】
【作用】上記構成において、入力される音声信号の呼気
の切れ目によって生じるひとまとまりの音声区間となる
呼気段落内の音節値を検出することで入力音声の発声速
度を検出し、検出された発声速度を基に非音声区間とな
るポーズの時間長と設定された圧縮伸長率に対して圧縮
伸長率を調整することで最適な再生速度が得られるよう
に音質の劣化防止や操作性の向上が図れる。
の切れ目によって生じるひとまとまりの音声区間となる
呼気段落内の音節値を検出することで入力音声の発声速
度を検出し、検出された発声速度を基に非音声区間とな
るポーズの時間長と設定された圧縮伸長率に対して圧縮
伸長率を調整することで最適な再生速度が得られるよう
に音質の劣化防止や操作性の向上が図れる。
【0021】これにより入力音声の全区間を一律の圧縮
率で圧縮する場合に比べ、早聞き時には入力音声信号の
発声速度が速い場合は、非音声区間となるポーズの削除
を多く行い、削除分に対応した時間長分だけ音声区間の
伸長を行うことが可能となり、早過ぎて把握できなかっ
た音声区間の明瞭度が改善できる。
率で圧縮する場合に比べ、早聞き時には入力音声信号の
発声速度が速い場合は、非音声区間となるポーズの削除
を多く行い、削除分に対応した時間長分だけ音声区間の
伸長を行うことが可能となり、早過ぎて把握できなかっ
た音声区間の明瞭度が改善できる。
【0022】また遅聞き時には入力音声信号の発声速度
が遅い場合、非音声区間となるポーズの挿入を多く行
い、音声区間の伸長を必要最低限にすることで、間が抜
けた音声となることが防止できる。
が遅い場合、非音声区間となるポーズの挿入を多く行
い、音声区間の伸長を必要最低限にすることで、間が抜
けた音声となることが防止できる。
【0023】以上のように行うことで最適な再生速度が
得られるように音質の劣化防止や操作性の向上を図るこ
とができる。
得られるように音質の劣化防止や操作性の向上を図るこ
とができる。
【0024】難聴者に対しては、予め各難聴者に試聴実
験を行い、知覚できる発声速度を分析学習したデータを
メモリ等に記録し、このメモリのデータと入力音声信号
の発声速度を検出したデータとを比較し、この比較結果
を元に非音声区間となるポーズの時間長と音声信号の圧
縮伸長率を制御し、各難聴者に対して知覚できる最適な
再生速度に変換することができる。
験を行い、知覚できる発声速度を分析学習したデータを
メモリ等に記録し、このメモリのデータと入力音声信号
の発声速度を検出したデータとを比較し、この比較結果
を元に非音声区間となるポーズの時間長と音声信号の圧
縮伸長率を制御し、各難聴者に対して知覚できる最適な
再生速度に変換することができる。
【0025】
【実施例】以下本発明の音声の圧縮伸長装置をICメモ
リに音声を記録し、再生時に早聞き/遅聞き処理を行う
ICレコーダに適用した一実施例について図面に基づき
詳細に説明する。
リに音声を記録し、再生時に早聞き/遅聞き処理を行う
ICレコーダに適用した一実施例について図面に基づき
詳細に説明する。
【0026】[全体構成]図1は斯かるICレコーダの
構成を示すブロック図であり、1はICメモリ、2は発
声速度検出手段、3は非音声区間制御手段、4は圧縮伸
長率調整手段、5はピッチ伸長圧縮手段であり、2〜5
は一つのDSP(Digital Signal Processer)6により構
成されている。 また11はD/A変換器、10はスピ
ーカ、9はA/D変換器、8はマイクロフォン、7は発
声速度の分析データを格納したメモリである。
構成を示すブロック図であり、1はICメモリ、2は発
声速度検出手段、3は非音声区間制御手段、4は圧縮伸
長率調整手段、5はピッチ伸長圧縮手段であり、2〜5
は一つのDSP(Digital Signal Processer)6により構
成されている。 また11はD/A変換器、10はスピ
ーカ、9はA/D変換器、8はマイクロフォン、7は発
声速度の分析データを格納したメモリである。
【0027】前記発声速度検出手段2による発声速度検
出方法は、入力される音声信号の呼気の切れ目によって
生じるひとまとまりの音声区間となる呼気段落内の音節
数を求める方法である。
出方法は、入力される音声信号の呼気の切れ目によって
生じるひとまとまりの音声区間となる呼気段落内の音節
数を求める方法である。
【0028】[発声速度の検出方法]そこで以下図2
(a)、(b)を用いてこの呼気段落内の音節数を求め
る方法について説明する。ここで呼気段落の時間は入力
信号の無音区間が300ms以上継続した場合を呼気の
切れ目によって生じるひとまとまりの音声区間である呼
気段落とした。
(a)、(b)を用いてこの呼気段落内の音節数を求め
る方法について説明する。ここで呼気段落の時間は入力
信号の無音区間が300ms以上継続した場合を呼気の
切れ目によって生じるひとまとまりの音声区間である呼
気段落とした。
【0029】呼気段落内の音節数を求める手法は、簡易
的に入力音声信号のエンベロープ波形(図2(b)参
照)におけるピーク位置を求めてピーク数を検出し、そ
の個数を音節数としたものである。そして実際にはまず
音声のエンベロープ波形にスムージング処理を施し、そ
の後ピーク検出を行い、そのピーク数を計測して求め
た。
的に入力音声信号のエンベロープ波形(図2(b)参
照)におけるピーク位置を求めてピーク数を検出し、そ
の個数を音節数としたものである。そして実際にはまず
音声のエンベロープ波形にスムージング処理を施し、そ
の後ピーク検出を行い、そのピーク数を計測して求め
た。
【0030】発声速度は、前記検出した呼気段落の時間
(図2(a)参照)と音節数を用いて、該音節数を呼気
段落の時間で割り算した単位時間当りの音節数にて定義
した。
(図2(a)参照)と音節数を用いて、該音節数を呼気
段落の時間で割り算した単位時間当りの音節数にて定義
した。
【0031】[圧縮伸長率の調整]前記発声速度検出手
段2は、上述の方法により求められた発声速度となる単
位時間当りの音節数に基づいて、非音声区間となるポー
ズの時間長を制御するように非音声区間制御手段3と圧
縮伸長率を変更するように圧縮伸長率調整手段4に制御
信号を送る。
段2は、上述の方法により求められた発声速度となる単
位時間当りの音節数に基づいて、非音声区間となるポー
ズの時間長を制御するように非音声区間制御手段3と圧
縮伸長率を変更するように圧縮伸長率調整手段4に制御
信号を送る。
【0032】本実施例では早聞き処理としては2倍速再
生、遅聞き処理としては0.5倍速再生の2モードを用
いた。
生、遅聞き処理としては0.5倍速再生の2モードを用
いた。
【0033】また発声速度検出手段2で発声速度となる
単位時間当りの音節数により、圧縮伸長率の決定は以下
に説明する方法を用いた。
単位時間当りの音節数により、圧縮伸長率の決定は以下
に説明する方法を用いた。
【0034】即ち、早聞き2倍速再生では評価サンプル
音声での試聴実験より、単位時間当りの音節数が8音節
数/秒の場合を境界として8音節数/秒より大きく、発
声速度が早い入力音声信号の場合のみ、非音声区間とな
るポーズの時間長を削除し、この削除した分だけ圧縮伸
長率調節手段4により音声区間の伸長を行った。
音声での試聴実験より、単位時間当りの音節数が8音節
数/秒の場合を境界として8音節数/秒より大きく、発
声速度が早い入力音声信号の場合のみ、非音声区間とな
るポーズの時間長を削除し、この削除した分だけ圧縮伸
長率調節手段4により音声区間の伸長を行った。
【0035】評価サンプル音声では非音声区間となるポ
ーズが100ms以上連続した場合、ポーズの削除を行
い、削除後の処理音声では100msとした。11音節
/秒の発声速度となる7秒間の文章の音声で、音声区間
の長さが4秒で非音声区間となるポーズの時間長となる
長さが3秒となる評価サンプルを、2倍速再生し、試聴
実験を行った。
ーズが100ms以上連続した場合、ポーズの削除を行
い、削除後の処理音声では100msとした。11音節
/秒の発声速度となる7秒間の文章の音声で、音声区間
の長さが4秒で非音声区間となるポーズの時間長となる
長さが3秒となる評価サンプルを、2倍速再生し、試聴
実験を行った。
【0036】その結果全区間一律の圧縮率で間引きした
処理音声では音声区間のトータルは2秒となるが、本実
施例では非音声区間となるポーズの時間長を1.8秒削
除した時間長分だけ音声区間を伸長するため、トータル
の音声区間は3.8秒となり、音声の劣化が防止でき
た。
処理音声では音声区間のトータルは2秒となるが、本実
施例では非音声区間となるポーズの時間長を1.8秒削
除した時間長分だけ音声区間を伸長するため、トータル
の音声区間は3.8秒となり、音声の劣化が防止でき
た。
【0037】一方発声速度が8音節/秒未満となる評価
サンプル音声では2倍速再生での音質劣化は得に無かっ
たので全区間一律の圧縮率で処理を行った。
サンプル音声では2倍速再生での音質劣化は得に無かっ
たので全区間一律の圧縮率で処理を行った。
【0038】一方遅聞き0.5倍速再生では評価サンプ
ル音声での試聴実験より、単位時間当りの音節数が8音
節数/秒の音声を境界として8音節数/秒より小さく、
発声速度が遅い入力信号の場合のみ非音声区間となるポ
ーズの時間長の伸長を行い、挿入したポーズの時間長分
だけ圧縮伸長率調整手段4により音声区間の省略を行っ
た。
ル音声での試聴実験より、単位時間当りの音節数が8音
節数/秒の音声を境界として8音節数/秒より小さく、
発声速度が遅い入力信号の場合のみ非音声区間となるポ
ーズの時間長の伸長を行い、挿入したポーズの時間長分
だけ圧縮伸長率調整手段4により音声区間の省略を行っ
た。
【0039】評価サンプル音声では非音声区間となるポ
ーズが100ms以上連続した箇所にポーズの挿入を行
った。ポーズの挿入は検出したポーズをメモリ7に記憶
しておき、このメモリ区間を繰り返して挿入する方法を
用いた。
ーズが100ms以上連続した箇所にポーズの挿入を行
った。ポーズの挿入は検出したポーズをメモリ7に記憶
しておき、このメモリ区間を繰り返して挿入する方法を
用いた。
【0040】6音節数/秒の発声速度となる7秒間の文
章の音声で、音声区間の長さが5秒で、非音声区間とな
るポーズの時間長となる長さが2秒の評価サンプルを
0.5倍速再生して試聴実験を行った。この結果全区間
一律の伸長率で挿入した処理音声では音声区間のトータ
ルは10秒となるが、本実施例では非音声区間となるポ
ーズの時間長を4.5秒挿入した時間長分だけ音声区間
を省略するため、トータルの音声区間は7.5秒とな
り、音質の劣化が防止できた。
章の音声で、音声区間の長さが5秒で、非音声区間とな
るポーズの時間長となる長さが2秒の評価サンプルを
0.5倍速再生して試聴実験を行った。この結果全区間
一律の伸長率で挿入した処理音声では音声区間のトータ
ルは10秒となるが、本実施例では非音声区間となるポ
ーズの時間長を4.5秒挿入した時間長分だけ音声区間
を省略するため、トータルの音声区間は7.5秒とな
り、音質の劣化が防止できた。
【0041】一方発声速度が8音節数/秒以上となる評
価サンプル音声では0.5倍速再生での音質劣化は特に
無かったので全区間一律の伸長率で処理を行った。
価サンプル音声では0.5倍速再生での音質劣化は特に
無かったので全区間一律の伸長率で処理を行った。
【0042】なお、早聞き及び聞き時の非音声区間とな
るポーズの時間長の制御による音声区間への圧縮伸長率
の調整は、非音声区間制御手段3から制御したポーズの
時間長をデータとして圧縮伸長率調整手段4に送り、こ
の圧縮伸長率調整手段4の内部で時間長の制御に応じた
圧縮伸長率を調整する機能により実現した。
るポーズの時間長の制御による音声区間への圧縮伸長率
の調整は、非音声区間制御手段3から制御したポーズの
時間長をデータとして圧縮伸長率調整手段4に送り、こ
の圧縮伸長率調整手段4の内部で時間長の制御に応じた
圧縮伸長率を調整する機能により実現した。
【0043】前記圧縮伸長率調整手段4は、前記発声速
度検出手段2からの制御信号によりピッチ伸長圧縮手段
4に圧縮時の間引き率と、伸長時の挿入率とを制御信号
として送る。
度検出手段2からの制御信号によりピッチ伸長圧縮手段
4に圧縮時の間引き率と、伸長時の挿入率とを制御信号
として送る。
【0044】前記圧縮伸長率調整手段4では、発声速度
検出手段2と非音声区間制御手段3の制御信号により、
ピッチ伸長圧縮手段5に圧縮時の間引き率と伸長時の挿
入率を制御信号として送る。
検出手段2と非音声区間制御手段3の制御信号により、
ピッチ伸長圧縮手段5に圧縮時の間引き率と伸長時の挿
入率を制御信号として送る。
【0045】非音声区間制御手段3での非音声区間の検
出方法は簡易手法となる方法を用い、具体的には入力音
声信号の200サンプルでのパワー値を計算し、設定し
た閾値以下を非音声区間と判定した。
出方法は簡易手法となる方法を用い、具体的には入力音
声信号の200サンプルでのパワー値を計算し、設定し
た閾値以下を非音声区間と判定した。
【0046】なお、聴覚機能の正常な健聴者に発声速度
の境界を8音節数/秒と決定し処理を行った。聴覚機能
が劣化した難聴者には、予めテスト信号により知覚でき
る発声速度の限界地を分析により検出しておき、専用メ
モリとしてメモリ7に記憶させておく。そしてこのメモ
リ7の値と入力音声信号の発声速度とを比較し、この比
較結果を基に上述の健聴者の場合と同様な処理を行う。
の境界を8音節数/秒と決定し処理を行った。聴覚機能
が劣化した難聴者には、予めテスト信号により知覚でき
る発声速度の限界地を分析により検出しておき、専用メ
モリとしてメモリ7に記憶させておく。そしてこのメモ
リ7の値と入力音声信号の発声速度とを比較し、この比
較結果を基に上述の健聴者の場合と同様な処理を行う。
【0047】またピッチ伸長圧縮手段5は、音声のピッ
チ部を抽出し、前記圧縮伸長率調整手段4からの制御信
号応じて、ピッチ部を時間軸上において挿入又は間引く
ことにより時間軸圧縮伸長を行う。
チ部を抽出し、前記圧縮伸長率調整手段4からの制御信
号応じて、ピッチ部を時間軸上において挿入又は間引く
ことにより時間軸圧縮伸長を行う。
【0048】次にICレコーダとしてのその他の構成要
素も含めての動作を図1に基づいて以下に説明する。
素も含めての動作を図1に基づいて以下に説明する。
【0049】[記録時]音声の記録時は、音声信号をマ
イクロフォン7によって収録し、A/D変換器8により
アナログ信号をデジタル信号に変換する。
イクロフォン7によって収録し、A/D変換器8により
アナログ信号をデジタル信号に変換する。
【0050】その後前記A/D変換器8の出力をICメ
モリ1に記録する。
モリ1に記録する。
【0051】[再生時]再生時には前記ICメモリ1に
記録されている音声信号を読み出し、発声速度検出手段
2により音声信号の発声速度を検出する。
記録されている音声信号を読み出し、発声速度検出手段
2により音声信号の発声速度を検出する。
【0052】前記発声速度検出手段2では入力音声信号
の発声速度により上述した方法を用い早聞き時及び遅聞
き時の各動作モードで非音声区間となるポーズの時間長
を制御するように非音声区間制御手段3を調整する。そ
して非音声区間制御手段3からポーズを制御した時間長
と発声速度検出手段2からの出力値を基に最適な圧縮伸
長率を選択するように圧縮伸長率調整手段4に制御信号
を送る。
の発声速度により上述した方法を用い早聞き時及び遅聞
き時の各動作モードで非音声区間となるポーズの時間長
を制御するように非音声区間制御手段3を調整する。そ
して非音声区間制御手段3からポーズを制御した時間長
と発声速度検出手段2からの出力値を基に最適な圧縮伸
長率を選択するように圧縮伸長率調整手段4に制御信号
を送る。
【0053】この圧縮伸長率調整手段4では発声速度検
出手段2からの制御信号に応じて、ピッチ伸長圧縮手段
5の早聞き処理となる圧縮時はピッチ部の間引きを行
い、また遅聞き処理となる伸長時はピッチ部の挿入を行
う。
出手段2からの制御信号に応じて、ピッチ伸長圧縮手段
5の早聞き処理となる圧縮時はピッチ部の間引きを行
い、また遅聞き処理となる伸長時はピッチ部の挿入を行
う。
【0054】その後処理した音声をD/A変換器11に
よりデジタル信号をアナログ信号に変換し、スピーカ1
0より再生する。
よりデジタル信号をアナログ信号に変換し、スピーカ1
0より再生する。
【0055】このようにして音声信号の発声速度を検出
し、その発声速度により非音声区間となるポーズの時間
長と入力音声の圧縮時の間引き率や伸長時の挿入率を自
動調整することで、最適な再生音声が得られる。
し、その発声速度により非音声区間となるポーズの時間
長と入力音声の圧縮時の間引き率や伸長時の挿入率を自
動調整することで、最適な再生音声が得られる。
【0056】尚、上記実施例ではメモリに一度記録後、
再生時に圧縮伸長処理を行うものである。しかしながら
映像と音声とを記録済のVTRテープの早聞き、遅聞き
の用途や聴覚障害のある人に放送される音声信号をゆっ
くりとした聞きやすい音声に変換する聴覚補助システム
としても簡単に利用できることは言うまでもない。
再生時に圧縮伸長処理を行うものである。しかしながら
映像と音声とを記録済のVTRテープの早聞き、遅聞き
の用途や聴覚障害のある人に放送される音声信号をゆっ
くりとした聞きやすい音声に変換する聴覚補助システム
としても簡単に利用できることは言うまでもない。
【0057】
【発明の効果】本発明は以上の説明のように入力される
音声の呼気の切れ目によって生じるひとまとまりの音声
区間となる呼気段落内の音節数を検出することで入力音
声の発声速度を検出し、検出された発声速度を基に非音
声となるポーズの時間長と、設定された圧縮伸長率に対
して圧縮伸長率を自動調節することにより最適な再生速
度が得られ、早聞き/遅聞き時の再生音声の音質の劣化
を防止し、装置自身の操作性の向上を図ることが可能と
なる。
音声の呼気の切れ目によって生じるひとまとまりの音声
区間となる呼気段落内の音節数を検出することで入力音
声の発声速度を検出し、検出された発声速度を基に非音
声となるポーズの時間長と、設定された圧縮伸長率に対
して圧縮伸長率を自動調節することにより最適な再生速
度が得られ、早聞き/遅聞き時の再生音声の音質の劣化
を防止し、装置自身の操作性の向上を図ることが可能と
なる。
【図1】ICレコーダに本発明を適用した実施例を示す
ブロック図である。
ブロック図である。
【図2】(a)は呼気段落の時間、(b)はエンベロー
プ波形を夫々示す図である。
プ波形を夫々示す図である。
1 ICメモリ 2 発声速度検出手段 3 非音声区間制御手段 4 圧縮伸長率調整手段 5 ピッチ伸長圧縮手段 6 DSP 7 メモリ 8 マイクロフォン 9 A/D変換器 10 スピーカ 11 D/A変換器
Claims (1)
- 【請求項1】 入力される音声信号に基づいて発声速度
を検出する発声速度検出手段と、該発声速度検出手段か
らの発声速度データに基づいて入力される音声信号の圧
縮伸長率を調節する圧縮伸長率調節手段と、前記発声速
度検出手段からの発声速度データに基づいて入力される
音声信号の非音声区間の時間長を調節する非音声区間制
御手段と、前記圧縮伸長率調整手段からの圧縮伸長率デ
ータに基づいて前記音声信号を圧縮伸長する圧縮伸長手
段とからなり、前記発声速度検出手段は前記音声信号の
呼気の切れ目によって生じる呼気段落内の音声の音節数
により発声速度を算出することを特徴とする音声の圧縮
伸長装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5217570A JPH0772896A (ja) | 1993-09-01 | 1993-09-01 | 音声の圧縮伸長装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5217570A JPH0772896A (ja) | 1993-09-01 | 1993-09-01 | 音声の圧縮伸長装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0772896A true JPH0772896A (ja) | 1995-03-17 |
Family
ID=16706345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5217570A Pending JPH0772896A (ja) | 1993-09-01 | 1993-09-01 | 音声の圧縮伸長装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0772896A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998049673A1 (fr) * | 1997-04-30 | 1998-11-05 | Nippon Hoso Kyokai | Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif |
JP2009003395A (ja) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | 音声読み上げのための装置、プログラム及び方法 |
JP2009003394A (ja) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | 音声読み上げのための装置、プログラム及び方法 |
WO2009025155A1 (ja) * | 2007-08-21 | 2009-02-26 | Voxmol Llc | 音声再生方法、音声再生装置およびコンピュータ・プログラム |
-
1993
- 1993-09-01 JP JP5217570A patent/JPH0772896A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998049673A1 (fr) * | 1997-04-30 | 1998-11-05 | Nippon Hoso Kyokai | Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif |
US6236970B1 (en) | 1997-04-30 | 2001-05-22 | Nippon Hoso Kyokai | Adaptive speech rate conversion without extension of input data duration, using speech interval detection |
JP2009003395A (ja) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | 音声読み上げのための装置、プログラム及び方法 |
JP2009003394A (ja) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | 音声読み上げのための装置、プログラム及び方法 |
WO2009025155A1 (ja) * | 2007-08-21 | 2009-02-26 | Voxmol Llc | 音声再生方法、音声再生装置およびコンピュータ・プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5828994A (en) | Non-uniform time scale modification of recorded audio | |
KR100283421B1 (ko) | 음성 속도 변환 방법 및 그 장치 | |
KR20000022351A (ko) | 음성 구간 검출 방법과 시스템 및 그 음성 구간 검출 방법과 시스템을 이용한 음성 속도 변환 방법과 시스템 | |
JP2004126595A (ja) | 信号エネルギーに基づく非一様時間領域音声信号処理方法 | |
JP2000152394A (ja) | 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置 | |
JP3553828B2 (ja) | 音声蓄積再生方法および音声蓄積再生装置 | |
JP3308567B2 (ja) | ディジタル音声処理装置及びディジタル音声処理方法 | |
JP3249567B2 (ja) | 話速変換方法および装置 | |
JPH0772896A (ja) | 音声の圧縮伸長装置 | |
JP3219892B2 (ja) | リアルタイム話速変換装置 | |
JP2009075280A (ja) | コンテンツ再生装置 | |
JPH1070790A (ja) | 話速検出方法、話速変換方法および話速変換機能付補聴器 | |
JP3187242B2 (ja) | 話速変換装置 | |
JP4127155B2 (ja) | 聴覚補助装置 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
JP3081469B2 (ja) | 話速変換装置 | |
JP4381108B2 (ja) | 話速変換装置における時報処理装置 | |
JPH0764597A (ja) | 音声の圧縮伸長装置 | |
JP2001222300A (ja) | 音声再生装置および記録媒体 | |
JP2001154684A (ja) | 話速変換装置 | |
JPH09146587A (ja) | 話速変換装置 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JP3201327B2 (ja) | 録音再生装置 | |
JP3187241B2 (ja) | 話速変換装置 | |
JP4005166B2 (ja) | 音声信号の処理回路 |