JP3187242B2

JP3187242B2 - 話速変換装置

Info

Publication number: JP3187242B2
Application number: JP06725194A
Authority: JP
Inventors: 篤今井; 徹都木; 章中村; 信正清山; 栄一宮坂
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1994-04-05
Filing date: 1994-04-05
Publication date: 2001-07-11
Anticipated expiration: 2016-07-11
Also published as: JPH07281691A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、話速変換装置に関し、
特に聴覚障害者や高齢者等の音声補聴装置や、一般的な
語学学習装置、ラジオ、テープレコーダー、電話などに
おいて、話速変換による補助的聴取を行う際の聞き取り
易さの向上、テレビジョン、ビデオテープレコーダー、
ビデオディスクプレーヤーなどの音声出力を話速変換し
た際に生ずる映像と音声のズレを効果的に吸収するリア
ルタイム式の話速変換装置に関する。

【０００２】

【従来の技術】従来の話速を変換する方式としては、有
声区間を一様倍率で伸張する手法と、有声区間を一様倍
率で伸張した場合に生ずる時間伸張を吸収する手法とし
て、発声の開始点からの各有声区間の出現時刻のみの関
数として倍率を単調に減少させるものがある。一様伸張
方式としては、ピッチ単位の波形繰り返しによるもの
（中村章ほか平成４年日本音響学会春季研究発表会「高
品質リアルタイム話速変換システム」２−６−１Ｐ．３
２９−Ｐ．３３０（１９９２−３））や、ＴＤＨＳ，Ｐ
ＩＣＯＬＡなどの手法を用いたものがある。時間伸張吸
収方式は、音声の時間枠が限られている場合に、時間伸
張を抑えつつ、一様伸張による変換と同様の効果を実現
しようとするもの（池沢龍ほか平成４年日本音響学会春
季研究発表会「話速変換に伴う時間伸張を吸収するため
の一手法」２−６−２Ｐ．３３１−Ｐ．３３２（１９９
２−３））である。これらの話速変換手法の基本的な考
え方は、早口で発声された音声を、その区間長とは無関
係に有声区間の一様な倍率による伸張によって話速を
「ゆっくり」にすることである。しかしながら、各々の
有声区間長を考慮していないため、一様な倍率を適用し
て全有声区間を伸張した場合においても、各有声区間長
の差異によって聴感上の変換効果にばらつきを生ずるこ
とがあり、これが所望の話速変換効果に悪影響を及ぼす
ことがあった。ある一定の規則で話速を変化させる際
に、有声区間長の差異に伴う聴感上の変換効果のばらつ
きを無くすために、各音韻長の時間的な大小関係を乱す
こと無く、所望の聴感的効果を実現する話速変換技術は
なかった。

【０００３】

【発明が解決しようとする課題】入力音声の話速を「ゆ
っくり」にすることを目的として、無音区間、無声区
間、有声区間を分離し、無音区間と無声区間の長さはそ
のままに、有声区間の伸張による話速変換を行う際、音
声中の複数の有声区間を一様な倍率で伸張した場合、各
々の有声区間の区間長によって、聴感上の「ゆっくり
感」の程度に差異が生ずることがわかっている（今井篤
ほか平成５年日本音響学会秋季研究発表会「話速変換に
伴う時間伸張のリアルタイム吸収法」１−９−１０Ｐ．
３６１−Ｐ．３６２（１９９３−１０））。

【０００４】音声中には、異なる母音の連鎖や長母音な
どのように３００ｍｓを越えるような比較的長い有声区
間や、逆に無声区間や無音区間に挟まれた母音などに多
い１００ｍｓを下回るような比較的短い有声区間が相次
いで現れることもあり、例えば、この両者が混在する音
声に対して、一定の同じ倍率で伸張した音声を聴取した
場合、長い有声区間は１有声区間単位での伸張時間の絶
対量が大きく、聴感上の「ゆっくり感」が大きいのに比
べ、短い有声区間は伸張時間の絶対量が小さく、場合に
よっては殆ど「ゆっくり感」が感じられないことがあ
る。

【０００５】例えば、区間長が３５０ｍｓと８０ｍｓの
ものを従来法により一律に１．５倍に伸張した場合、５
２５ｍｓと１２０ｍｓに変換されるが、前者の伸張時間
の絶対増加量が１７５ｍｓであるのに対して、後者は僅
か４０ｍｓの伸張で、これが聴感上の効果の差となって
現れてくる。従って、この様に長短さまざまな有声区間
分布が一連の入力音声中に複数箇所存在する場合は、話
速の定まらない不安定な音声に変換されてしまい、場合
によってはこれがかなり気になることがある。

【０００６】また、既に提案されている、話速変換に伴
う時間伸張を吸収する手法（池沢龍ほか平成４年日本音
響学会春季研究発表会「話速変換に伴う時間伸張を吸収
するための一手法」２−６−２Ｐ．３３１−Ｐ．３３２
（１９９２−３））では、一息で発声する区間（フレー
ズ）の開始点での有声区間の伸張倍率を高く設定し、徐
々に話速を速くしていくことで、変換音声の全体として
の「ゆっくり感」と、全体としての時間伸張の吸収を実
現しているが、このフレーズの開始点付近において短い
有声区間が相次いで出現するような音声の場合には、上
述の理由により比較的高い倍率を乗じても「ゆっくり
感」が得られず、結果的に後半の話速の速い部分だけが
目立ってしまうことになり、期待する効果が得られない
場合がある。

【０００７】上述した問題点を更に具体的事例で示す。

【０００８】（１）一息で発声される区間（フレーズ）
の予測長を２０００ｍｓに固定し、伸張倍率ｒを図１に
示す曲線に添ってｒｓ（ｒｓ＞１）からｒｅ（ｒｅ＜
１）へと単調に減少させる。

【０００９】（２）２０００ｍｓを越せたところではピ
ッチ周波数の変化に伴い倍率に適宜修正を加える。

【００１０】この手法をリアルタイム話速変換システム
に導入し、多数のニュース音声を変換した結果、いくつ
かのフレーズについて期待される効果、特に、フレーズ
の開始点付近において「ゆっくり」した感覚を生じさせ
る効果の得られないものがあった。図２に、特に効果的
であったフレーズ１例（同図の（ａ））と、特に効果が
感じられなかったフレーズ２例（同図の（ｂ），
（ｃ））について、フレーズ内の有声区間長の時間軸上
の分布を示す。

【００１１】この３例に代表される傾向として以下の点
が挙げられる。

【００１２】（１）フレーズの開始点付近４５０ｍｓ〜
５００ｍｓ以内に１５０ｍｓを越える比較的長い有声区
間が複数個存在する場合は、伸張倍率ｒがｒ＝１．４で
も効果が大きい。

【００１３】（２）フレーズの開始部分に１５０ｍｓ以
下の比較的短い有声区間が存在する場合、ｒ＝２．０で
も効果が少ない。

【００１４】他のフレーズについても検証した結果、同
様の傾向が見られた。

【００１５】また、一様伸張の場合には、実用的な倍率
を適用したときに、変換効果が感じられなくなるある一
定の区間長以下の有声区間について、聴感上所望の変換
効果が得られるように当該有声区間の区間長に応じて適
用倍率を一時的に増大させることによって聴感上の変換
効果のばらつきが効果的に解消できるが、話速を逐次変
化させるような場合には、その時間経過に伴う倍率の変
化と有声区間長の双方を考慮しなくてはならず、従来の
話速変換方法では充分な変換効果が得られなかった。

【００１６】本発明は、上述の問題点に鑑みてなされた
もので、その目的は任意に定めた一定時間内において話
速を「ゆっくり」の状態から「速い」状態に変化させる
場合に、各音韻間の大小関係を保存し、各有声区間の変
換音声が設定された話速に相応の聴感的効果を保ちつ
つ、安定した話速変換効果を得られるようにし、これに
より聴覚障害者や高齢者に施す話速変換による補聴効果
の向上や、定まった時間枠で出来るだけ自然なゆっくり
とした音声を提供することが可能な話速変換装置を提供
することにある。

【００１７】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力音声の無音区間、無声区間、有声区
間を分離し、このうち有声区間を伸張することによって
発声の速さ（話速）を声の高さを保ったまま遅くする変
換を行う際に、各有声区間の時間長を逐次検出し、各々
の有声区間の時間長に一様な値の、あるいは経過時間と
ともに滑らかに変化する規準倍率を乗ずることにより、
その倍率に対応した聴感的な効果を得る話速変換装置で
あって、一息で発声される区間（フレーズ）の一定時間
内において、話速を「ゆっくり」の状態から「速い」状
態に変化させる場合に、望まれる聴感上の話速変換効果
において、１モーラ（１音）毎のテンポが自然に変化す
るように、各有声区間の時間長と、その有声区間の出現
時刻の双方を考慮した一定の規則に基づいて、前記規準
倍率に比べてより高い倍率を決定する決定手段を有する
ことを特徴とする。

【００１８】また、好ましくは、本発明は、前記経過時
間とともに滑らかに変化する規準倍率として、一息で発
声する区間を単位にして、この区間の開始点ではゆっく
りとした話速を設定し、その終了点に向かって徐々に話
速を速めることを特徴とする倍率関数を適用する場合
に、上記区間の開始時刻から一定時間内、好ましくは時
間４５０ｍｓ以内に出現する前記所定の長さに当る区間
長、好ましくは１５０ｍｓ程度に満たない区間長を有す
る有声区間に対しては、前記一定の規則に基づいて前記
規準倍率に比べてより高い伸張倍率を供する倍率関数に
沿って、その有声区間の時間長とその有声区間の出現時
刻の双方を加味した伸張倍率を乗じ、また前記１５０ｍ
ｓを越える時間長の有声区間に対しては、該１５０ｍｓ
単位で分割し、各々の終了点に対応する時刻での伸張倍
率を乗じ、さらに出現時刻が４５０ｍｓを越える有声区
間に対しては前記規準倍率を乗ずる演算手段を有するこ
とを特徴とすることができる。

【００１９】なお、上記の１５０ｍｓ、４５０ｍｓは好
ましい値の一例を具体的に例示したもので、本発明はこ
れに限定されない。

【００２０】また、本発明は好ましくは、前記一定の規
則は、変換開始直後に出現する有声区間の伸張倍率が最
も高く、時間経過と共に倍率は減少するが、相次いで現
れる有声区間については、その時間長が短いものほど倍
率の減少率は小さくするという規則であることを特徴と
することができる。

【００２１】また、本発明は好ましくは、前記一定の規
則は、任意の隣合うｋ番目、およびｋ＋１番目の有声区
間の時間長をそれぞれｗ_k ，ｗ_k+1 とし、話速変換後の
時間長をそれぞれｗ′_k ，ｗ′_k+1 とすると、ｗ_k ，ｗ
_k+1 が近い値で且つｗ_k ≦ｗ_k+1 である場合のみ、ｗ′
_k ＞ｗ′_k+1 となることを許容することを特徴とするこ
とができる。

【００２２】また、本発明は好ましくは、前記一定時間
は、ポーズ直後やまたはピッチの変化がある一定の値を
越えた時刻から、フレーズの終了時刻までの間で任意に
定める時間であり、所望の効果によってその時間の値を
任意に決定できることを特徴とすることができる。

【００２３】また、本発明は好ましくは、前記一定の規
則は、当該有声区間の時間長が、ある一定の値よりも大
きい場合には、所定の時間長単位で分割し、分割された
それぞれの有声区間の時間長とその分割時刻の双方を考
慮してそれぞれの倍率を決定するという規則であること
を特徴とすることができる。

【００２４】また、本発明は好ましくは、前記所定の時
間長は、実用的な値の規準倍率によって有声区間を伸張
したときに、聴感的な効果が感じとれなくなる最大の有
声区間の時間長であることを特徴とすることができる。

【００２５】

【作用】本発明では、フレーズ内の一定の時間内に出現
する有声区間の伸張倍率を、基本的にその出現時刻と区
間長の双方を考慮した単調減少関数によって決定するこ
とにより、フレーズの開始直後に出現する有声区間の倍
率が最も高く、時間経過と共に倍率は減少するが、相次
いで現れる有声区間については、その区間長が短いもの
ほど倍率の減少率は小さく、またある一定以上の長さを
有する有声区間については予め定められた時間長単位で
分割してそれぞれの区間長と分割時刻の両方を考慮して
倍率を定める。これにより、本発明によれば、各フレー
ズ内の一定時間内において話速をゆっくりから速くに変
化させる場合に、各音節間の音韻長の大小関係を乱すこ
と無く、所望の変換効果を得ることが可能となる。この
本発明の方法は従来の方法に加味することが可能であ
る。例えば、有声区間を一様伸張する際に、各フレーズ
の開始点や、ピッチの高さが一定値を越えたところから
一定時間内において本発明を適用することは、フレーズ
の冒頭や、ピッチの変化の大きいところに相当する音節
に対して安定した「ゆっくり感」を与えることが可能に
なり、高齢者や聴覚障害者に好適な「強調感」のある話
速変換効果を得ることが可能となる。特に、従来提案さ
れている話速変換による時間伸張を吸収する手法（池沢
龍ほか平成４年日本音響学会秋季研究発表会「話速変換
における時間伸張吸収のリアルタイム化の検討」２−９
−２Ｐ．３４９−Ｐ．３５０（１９９３−１０））に適
用した場合は、発声の開始点付近の「ゆっくり感」が聴
感上不安定であったという欠点が解消されることに加え
て、比較的高い倍率から低い倍率に急激に変化させた場
合においても、音韻長の時間的大小関係を乱すこと無く
所望の話速変換効果を供することが可能となる。更にこ
の「強調感」のため、従来方法に比べて話速変換倍率を
低めに設定した場合でも、聴感上安定した話速変換効果
が得られ、時間伸張率を抑えることも可能となる。

【００２６】

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。

【００２７】一息で発声されると予測される区間内で、
この区間の開始点に於いては原音声の話速より「ゆっく
り」とした話速を設定し、終了点に向かって一定の規則
に従って話速を速めていく「リアルタイム話速変換方
法」の手法（池沢龍ほか平成４年日本音響学会秋季研究
発表会「話速変換における時間伸張吸収のリアルタイム
化の検討」２−９−２Ｐ．３４９−Ｐ．３５０（１９９
３−１０））に本発明を適用した場合の実施例について
説明する。この「リアルタイム話速変換方法」は、実時
間で動作する話速変換装置において、時間伸張を吸収す
る手法であるが、これは各フレーズの開始点においての
聴感上違和感のない「ゆっくり感」を与えることがそれ
ぞれのフレーズ全体での「ゆっくり感」の印象を決定す
るものであるため、これに本発明による方法を適用する
ことは特に効果的であるといえる。

【００２８】図３は本発明の一実施例の動作の概要を示
す。フレーズの開始点付近から４５０ｍｓ以内に出現す
る１５０ｍｓ以下の短い有声音に対しては、図３に示す
倍率関数ｇ（ｔ，ｗ）に沿って、有声音の長さとその有
声音の出現時刻の双方を加味した倍率を与える。一例と
して、図中のｗ１のように有声区間長が１５０ｍｓ以下
のものが存在する場合、有声区間の終了時刻における倍
率を、その有声区間に適用する。一方、ｗ２のように１
５０ｍｓを越える長さの有声区間が存在する場合には、
１５０ｍｓ単位でｗ２１とｗ２２に分割し、各々の終了
点に対応する時刻での倍率を適用する。ただし、経過時
間が４５０ｍｓを越えた時点で従来の伸張倍率曲線ｆ
（ｔ）（図１）を適用する。

【００２９】連続した短い有声区間Ａ，Ｂに対し、後続
する有声区間Ｂの継続時間ＴｂがＴｂ＜Ｔａの場合に、
Ｂの伸張倍率がＡの倍率を上回ると、音韻長の知覚的バ
ランスがくずれて聞きにくくなる場合がある。これに対
し、本発明実施例ではこのような減少倍率の逆転現象は
生じない。また、３００ｍｓを越えるような長い有声区
間の場合、１５０ｍｓ単位で伸張倍率を減少させるた
め、いわゆる「まのび」した感覚を抑制する効果があ
る。

【００３０】図４〜図７は本発明の一実施例を更に詳細
に示す図である。

【００３１】図４は本発明の一実施例の全体回路構成を
示すブロック図である。

【００３２】図４に示すリアルタイム話速変換装置は、
音声入力回路１と、ＣＰＵ（中央処理ユニット）回路２
と、ＰＲＯＭ（プログラマブルＲＯＭ）回路３と、入力
バッファ回路４と、処理バッファ回路５と、ファイル回
路６と、音声出力回路７と、バス８とを備えている。そ
して、音声入力回路１によって話速変換対象となる音声
（原音声）を取り込み、リアルタイム処理で、原音声の
声の高さ（ピッチ周波数）の変化を検出すると共に、こ
の検出結果に基づいて、声の高さの高い部分では話速を
緩め、低い部分では話速を速めるという規則で話速を変
化させることにより、原音声の発話時間を保ったまま、
原音声を聴き易い良好な音声に変換する。

【００３３】音声入力回路１は、原音声を入力するため
の一般的な構成の回路、例えばマイクロフォン、音調回
路、Ａ／Ｄ（アナログ／デジタル）変換器、音声記憶再
生回路、音声記憶媒体（例えば、ＩＣメモリ、ハードデ
ィスク、フロッピーディスクまたはＶＴＲ（ビデオテー
プレコーダ））、およびインターフェイス回路等を備え
ており、話速変換対象となる音声を取り込み、これをデ
ジタル形式の音声信号に変換するとともに、この変換し
たデジタル音声信号をＣＰＵ回路２からの指示に基づい
てフレーム単位で入力バッファ回路４に供給する。

【００３４】入力バッファ回路４は、必要な容量のＲＡ
Ｍ（ランダムアクセスメモリ）などによって構成され、
ＣＰＵ回路２の作業域として使用される部分であり、音
声入力回路１から出力される音声信号を取り込んでこれ
を記憶するとともに、ＣＰＵ回路２からの指示に基づい
て記憶している音声信号を処理バッファ回路５に転送す
る。

【００３５】処理バッファ回路５は、必要な容量のＲＡ
Ｍなどによって構成され、ＣＰＵ回路２の作業域として
使用される部分であり、入力バッファ回路４から出力さ
れる音声信号を取り込んでこれを記憶するとともに、Ｃ
ＰＵ回路２からの指示に基づいて記憶している音声信号
をファイル回路６などに転送する。

【００３６】ファイル回路６は、ＲＡＭのほかに、ＩＣ
メモリやフロッピーディスク等の音声記憶媒体によって
構成され、本発明に係わる有声区間の伸張された音声信
号と、無音区間の短縮の処理を施された信号などを格納
するメモリであり、処理バッファ回路５から処理済の音
声信号が出力されたとき、これを取り込んで記憶し、こ
の後ＣＰＵ回路２からの指示に基づいて記憶している音
声信号を音声出力回路７に供給する。

【００３７】音声出力回路７は、ファイル回路６内の音
声信号を外部に出力するための一般的な構成の回路、例
えばインターフェイス回路、Ｄ／Ａ（デジタル／アナロ
グ）変換器、スピーカー、録音装置（あるいは放送機
器）等を備えており、ファイル回路６から音声信号が出
力されたとき、これを取り込んで音声に変換しながら、
外部に出力する。

【００３８】また、ＣＰＵ回路２は、ワンチップマイク
ロコンピュータ等によって構成される部分であり、ＰＲ
ＯＭ回路３に格納されている図５，図６に示すようなプ
ログラムに基づいて装置全体の制御や各種のデータ処理
を行う。

【００３９】また、ＰＲＯＭ回路３は、ＣＰＵ回路２の
動作を規定するプログラムや各種の処理で使用される定
数データなどの格納場所として使用される部分であり、
ＣＰＵ回路２からの読みだし指令に応じて記憶している
プログラムや定数データを読みだしてＣＰＵ回路２に供
給する。

【００４０】次に、本発明の一実施例の動作について図
５，図６を参照して説明する。

【００４１】図５、及び図６は処理の流れを示すフロー
チャートであり、図６は図５のＳＴ９の有声区間処理ル
ーチンの詳細を示す。

【００４２】ここでは、説明のために音声信号中の息継
ぎ区間を「ポーズ」、一息で発声される区間を「フレー
ズ」、また「フレーズ」の時間長の平均的な値を「予測
フレーズ長」呼び、次のように定義する。

【００４３】ポーズ：無音部分と判定された区間のう
ち、その区間長がＴｈ１（本実施例ではＴｈ１＝２００
ｍｓ）以上の無音区間。なお、Ｔｈはスレッショールド
値を意味する。

【００４４】フレーズ：ポーズと次のポーズに挟まれる
区間。

【００４５】この区間の開始点をＰｈ＿ｓｔとする。

【００４６】予測フレーズ長：フレーズの平均的な時間
長で、Ｔ（単位はｍｓ）とする。（本実施例ではＴ＝２
０００ｍｓとした）また、図６中のｆ（ｔ）とｇ（ｔ，
ｗ）は有声区間の伸張倍率を定める関数であり、以下の
特性を有するものである。

【００４７】ｆ（ｔ）：話速変換に伴う時間伸張を吸収
するために用いる倍率関数であって、予測フレーズ長内
の有声区間の出現時刻ｔ（０≦ｔ≦Ｔ）に対して倍率を
定める単調減少関数である。

【００４８】ｔ＝０におけるあらかじめ定めた倍率をｒ
_s 、ｔ＝Ｔにおけるあらかじめ定めた倍率をｒ_e （ｒ_s
≧ｒ_e ）とすると、ｆ（ｔ）はｒ_s ≧ｆ（ｔ）≧ｒ_e ，
０≦ｔ≦Ｔを満たす。

【００４９】ｇ（ｔ，ｗ）：フレーズの開始部分から一
定時間Ｔ₀ 内は、ｇ（ｔ，ｗ）を適用し、有声区間の伸
張倍率を、その出現時刻；ｔと区間長；ｗの双方を考慮
して、ｆ（ｔ）により定まる規準倍率より高い倍率で伸
張することにより、各音韻長の大小関係を考慮しつつ、
フレーズ開始点での「ゆっくり感」を強調するための倍
率関数である。

【００５０】次に、図５の処理手順を説明する。なお、
ＳＴはステップを意味する。

【００５１】（ＳＴ０）まず、ｆ（ｔ）の最高倍率ｒ_s
と最低倍率ｒ_e を設定する。

【００５２】（ＳＴ０−１）次に、フレーム番号ｉを０
にセットする。

【００５３】（ＳＴ０−２）続いて、上記ｉをｉ＋１と
インクリメントする。

【００５４】（ＳＴ１）そして、音声入力回路１が取り
込んだ入力音声を、フレームと呼ばれる一定長の部分に
分割し、その結果を入力バッファ回路４に格納する処理
を行う。

【００５５】本実施例ではフレーム幅６．６６ｍｓのＨ
ａｍｍｉｎｇ（ハミング）窓を３．３ｍｓずつずらしな
がら切り出して格納する。

【００５６】（ＳＴ２）入力音声信号を各フレーム毎
に、自己相関法や、零クロス法などの方法で処理して有
声、無声、無音の判定を行う。人が発声する有声および
無声以外の入力音（例えば、低レベルの雑音や背景音
等）は原則として無音として識別処理する。

【００５７】（ＳＴ３）ｉ番目のフレームについての有
声、無声、無音の判定結果（今回の判定結果）と、ｉ−
１番目のフレームについて有声、無声、無音の判定結果
（前回の判定結果）とが同じであるか否かを判別する。
両者の判定結果が同じであれば（ＳＴ０−２）に戻り、
同じでないならば次の（ＳＴ４）に移る。

【００５８】（ＳＴ４）ｉ−１フレームまでの、同じ種
類（有声、無声或いは無音）の区間と判定されている音
声区間を入力バッファ回路４から処理バッファ回路５に
転送して格納する。

【００５９】（ＳＴ５）処理バッファ回路５に格納され
ている音声区間が、無音か無声か有声か否かを判定す
る。無音区間の場合は（ＳＴ６）へ進み、無声区間の場
合は（ＳＴ１１）へ移り、有声区間の場合は（ＳＴ９）
へ移る。

【００６０】（ＳＴ６）当該無音区間がポーズ区間か否
かを判断する。ポーズ区間の場合は（ＳＴ６−１）へ移
り、ポーズ区間でない場合は（ＳＴ８）へ飛ぶ。但し、
図４のリアルタイム話速変換装置の起動時はポーズ区間
であったと判断し、必ず（ＳＴ６−１）へ進む。

【００６１】（ＳＴ６−１）ポーズ区間以降に出現する
有声区間の番号を表す変数ｋに初期値としての１を代入
する。

【００６２】（ＳＴ７）ポーズの区間長を調べ、その区
間長によって適宜、予め設定されているアルゴリズム
（池沢龍ほか「話速変換に伴う時間伸張を吸収するため
の一方法」１９９２年音声研究会Ｐ．４９−Ｐ．５６）
によって聴感上違和感ない程度に短縮する。

【００６３】本実施例では、８６２ｍｓを越える区間長
を有する無音区間を一律にこの８６２ｍｓの値まで短縮
することとし（池沢龍ほか平成４年日本音響学会春季研
究発表会「話速変換に伴う時間伸張を吸収するための一
手法」２−６−２Ｐ．３３１−Ｐ．３３２（１９９２−
３））、無音区間８６２ｍｓを経過した時点で更に無音
区間が続く場合は、それ以降の無音データを廃棄して次
のフレーズの開始点を待つものとする。

【００６４】（ＳＴ８）処理バッファ回路５内にある処
理済の無音区間の信号をファイル回路６に転送させて格
納させた後、処理バッファ回路５をクリアする。次に
（ＳＴ１２）へ移る。

【００６５】（ＳＴ１２）音声信号の最後まで処理した
か否かを判定する。肯定判定の場合は本（ＳＴ９）処理
（ルーチン）を終了し、否定判定の場合は（ＳＴ０−
２）へ戻る。

【００６６】（ＳＴ９）（ＳＴ５）で有声区間と判定さ
れた区間に対して、後述の図６に示す有声区間処理を行
う。ｆ（ｔ）の適用開始時刻を示す変数としてＶ＿ｓｔ
を導入する。また、フレーズ内の第ｋ有声区間の開始時
刻をｔ_k 、区間長をｗ_k と記す。

【００６７】（ＳＴ９−１）上述の変数ｋをｋ＋１とイ
ンクリントする。

【００６８】（ＳＴ１０）処理バッファ回路５内にある
話速変換済みの音声データをファイル回路６のメモリに
格納するとともに、処理バッファ回路５をクリアする。
その後、上述の（ＳＴ１２）へ移る。

【００６９】（ＳＴ１１）（ＳＴ５）において処理対象
となる区間が無声と判断されれば、この無声区間の音声
信号を処理バッファ回路５からファイル回路６に転送し
て格納した後、処理バッファ回路５をクリアする。その
後、上述の（ＳＴ１２）へ移る。

【００７０】次に、図６のＳＴ９有声区間処理ルーチン
の詳細を説明する。

【００７１】（ＳＴ１４）まず、有声区間のピッチ抽出
を行う。

【００７２】（ＳＴ１５）次に、変数ｋがｋ＝１か否か
を判定する。ｋ＝１の場合、即ちポーズ区間以降に出現
する最初の有声区間の場合は（ＳＴ１５−１）へ移り、
そうでない場合は（ＳＴ１５−２）へ移る。

【００７３】（ＳＴ１５−１）変数Ｖ＿ｓｔに時刻ｔ₁
を代入する。次に（ＳＴ１６）へ移る。

【００７４】（ＳＴ１５−２）変数ｋが３以下か否か、
即ちｋが２または３であるか否かを判定する。ｋが２ま
たは３の場合は（ＳＴ１６）へ移り、ｋが４以上の場合
は（ＳＴ１７）へ飛ぶ。

【００７５】（ＳＴ１６）第ｋ有声区間の最大ピッチ周
波数をＰ_k と定義する。ｋ＝１，２，３の場合にはＰ_k
の値を保存する。

【００７６】（ＳＴ１６−１）変数ｋがｋ＝３か否かを
判定する。ｋ＝３の場合は次の（ＳＴ１６−２）へ移
り、そうでない場合、即ちｋ＝１，２の場合は（ＳＴ１
７）へ飛ぶ。

【００７７】（ＳＴ１６−２）３つの有声区間Ｐ₁ ，Ｐ
₂ ，Ｐ₃ のうちの最大値をＰｉｎｃｈ＿ｍａｘとする。次に（ＳＴ１７）へ移る。

【００７８】（ＳＴ１７）ｔ_k が、区間［Ｖ＿ｓｔ，Ｖ
＿ｓｔ＋Ｔ］に含まれているか否かを判定する。含まれ
ていれば（ＳＴ１７−１）へ移り、そうでなければ（Ｓ
Ｔ２１）へ移る。（本実施例では前述のようにＴ＝２０
００ｍｓとした。）（ＳＴ１７−１）Ｖ＿ｓｔ＞ｔ₁ であるかを判定する。

【００７９】Ｖ＿ｓｔ＞ｔ₁ であれば（ＳＴ１９）へ移
り、そうでなければ（ＳＴ１８）に移る。Ｖ＿ｓｔ＞ｔ
₁ のときは、発声の終了点間近で意味的重要度が低い場
合が多いため、本実施例では特にｇ（ｔ，ｗ）を適用せ
ず、（ＳＴ１７−１）から直接（ＳＴ１９）に移ること
とした。

【００８０】（ＳＴ１８）フレーズの開始部において変
換により生じる聴感上の「ゆっくり感」を効果的にする
ために必要な時間長をＴ₀ とする。Ｔ₀ は実験結果から
（今井篤ほか平成５年日本音響学会秋季研究発表会「話
速変換に伴う時間伸張のリアルタイム吸収法」１−９−
１０Ｐ．３６１−Ｐ．３６２（１９９３−１０））Ｔの
１／４程度が望ましく、本実施例ではＴ₀ ＝４５０ｍｓ
とした。

【００８１】本処理ブロックでは、第ｋ有声区間の終了
時刻ｔ_k ＋ｗ_k が区間［Ｖ＿ｓｔ，Ｖ＿ｓｔ＋Ｔ₀ ］含
まれているか否かを判定する。含まれていれば次の（Ｓ
Ｔ１８−１）へ移り、そうでなければ（ＳＴ１９）へ移
る。

【００８２】（ＳＴ１９）予め設定した倍率関数ｆ
（ｔ）を適用して有声区間を伸張する。このｆ（ｔ）は
単調減少関数であり、本実施例では以下の式（１）のよ
うな余弦関数を用いて、倍率をｒ_s からｒ_e まで変化さ
せた。

【００８３】

【数１】 f(t)＝r_e＋0.5(r_s-r_e){cosπ(t-V_st)/T+1.0} （１）但し、V_st≦ｔ≦V_st＋Ｔ例えば、ｋ番目の有声区間に対する伸張倍率はｆ（ｔ
_k ）となる。その後、図５のメインルーチンに戻る。

【００８４】（ＳＴ１８−１）ｋ番目の有声区間長ｗ_k
と、予め設定されている区間長ｗ₀ が、ｗ_k ≦ｗ₀であ
るか否かを判定する。

【００８５】この条件を満たせば（ＳＴ１８−２）へ、
そうでなければ（ＳＴ１８−４）へ移る。

【００８６】ｗ₀ は１つの有声区間内での分割区間長
で、区間長がｗ₀ 以上の有声区間は、全区間に渡って一
様な倍率で伸張するのではなく、この分割区間単位で倍
率を変更（順次減少させる）することにより、話速変換
による、１フレーズ内での音韻長の時間的大小関係を保
ち、同時に「まのび感」を抑制することができる。

【００８７】本実施例では、ｗ₀ ＝１５０ｍｓとした。

【００８８】（ＳＴ１８−２）変数ｆｌｇに１を代入
し、（ＳＴ２０）へ移る。

【００８９】（ＳＴ２０）へ移る。

【００９０】（ＳＴ１８−４）変数ｆｌｇに０を代入
し、（ＳＴ２０）へ移る。

【００９１】（ＳＴ２０）予め設定した関数ｇ（ｔ，
ｗ）を適用して有声区間を伸張する。

【００９２】ｇ（ｔ，ｗ）の適用開始時刻を示す関数と
してＢ＿ｓｔを導入する。但し本実施例ではＢ＿ｓｔ＝
ｔ₁ とする。

【００９３】ｇ（ｔ，ｗ）は単調減少関数であり、区間
［Ｂ＿ｓｔ，Ｂ＿ｓｔ＋Ｔ₀ ］において常にｇ（ｔ，
ｗ）≧ｆ（ｔ）が成り立つことを条件とする。本実施例
は

【００９４】

【数２】ｔ_k ＋ｗ_k ≦Ｂ＿ｓｔ＋Ｔ₀ ＜ｔ_k+1 ＋ｗ_k+1 （２）であるとき、第ｋ有声区間をｇ（ｔ_k ，ｗ_k ）で、第ｋ
＋１有声区間をｆ（ｔ_k+1 ）で伸張する場合に、第ｋ＋
１有声区間の伸張倍率が第ｋ有声区間の伸張倍率より大
きくならないためのものである。この条件を満たしてい
れば、ｇ（ｔ，ｗ）の適用区間［Ｂ＿ｓｔ，Ｂ＿ｓｔ＋
Ｔ₀ ］において、減少倍率の逆転は起こらない。

【００９５】本実施例で用いた倍率関数ｇ（ｔ，ｗ）を
以下の次式（３）に示す。一次関数を採用し、時刻Ｂ＿
ｓｔ＋Ｔ₀ の時にｆ（ｔ）の倍率に一致するようにし
た。第ｋ有声区間の出現時刻ｔ_k と、その区間長ｗ_k を
用いて、

【００９６】

【数３】

【００９７】（ＳＴ２０−１）次に、ｇ（ｔ，ｗ）に従
って伸張した有声区間を処理バッファ回路５に格納す
る。

【００９８】（ＳＴ２０−２）次に、ｆｌｇ＝１である
か否かを判定する。ｆｌｇ＝１のときは（ＳＴ９）の有
声区間処理ルーチンを終了する。ｆｌｇ＝０のときは、
分割された有声区間が更に続くということであり、（Ｓ
Ｔ２０−３）に移る。

【００９９】（ＳＴ２０−３）ｔ_k の値をｔ_k ＋ｗ₀ に
更新する。

【０１００】（ＳＴ２０−４）次に、ｗ_k の値をｗ_k −
ｗ_o に更新し、（ＳＴ１８−１）へ戻る。

【０１０１】（ＳＴ２１）処理対象となっている有声区
間の最大ピッチ周波数Ｐ_k が、以下の式（４）の条件を
満たす場合は（ＳＴ２２）へ、満たさない場合は（ＳＴ
２３）へ移る。

【０１０２】

【数４】Ｐ_k ＞Ｐｉｔｃｈ＿ｍａｘ×Ｔｈ２（４）本実施例では、Ｔｈ２＝０．７とした。

【０１０３】（ＳＴ２２）変数Ｖ＿ｓｔに時刻ｔ_k を代
入する。

【０１０４】（ＳＴ２２−１）変数ｒ_s に（ｒ_s −Ｔｈ
３）を代入する。

【０１０５】これによって、ｆ（ｔ）は（ｒ_s −Ｔｈ
３）からｒ_e まで倍率を変化させる。本実施例では、Ｔ
ｈ３＝０．１に設定した。その後、上記の（ＳＴ１７）
へ戻る。

【０１０６】（ＳＴ２３）有声区間を伸張倍率をｒ_e で
伸張する。つまり、話速を最も速い状態のままにする。
その後、（ＳＴ９）の有声区間処理ルーチンを終了し、
図５のメインルーチンに戻る。

【０１０７】

【発明の効果】以上説明したように、本発明によれば、
入力音声の無音区間、無声区間、有声区間を分離し、有
声区間を一定の規則に従って伸張することによって、所
望の聴感的効果を安定に得ることが可能な話速変換方法
において、入力音声の話速を規準となる所望の倍率によ
って一定時間内に「ゆっくり」の状態から「速い」状態
に変換する際に、従来方法のように有声区間の出現時刻
によって倍率を一意的に定めるのではなく、有声区間の
区間長とその出現時刻の双方を加味してその伸張倍率の
値を変化させる倍率変数を適用するようにしているの
で、規準となる倍率変数の変化に整合した聴感的効果が
得られ、且つ、音韻長の時間的な大小関係を乱すこと無
く、所望の話速変化の効果を得ることができる。

【０１０８】従って、本発明によれば、話速を「ゆっく
り」から「速く」に変化させる場合において、受聴者の
希望にあった話速変化を安定、且つ自然に実現すること
ができる。

【図面の簡単な説明】

【図１】従来法における倍率関数を示すグラフである。

【図２】従来法を適用した場合の１フレーズ内の有声区
間長の時間軸上の分布を示すタイミング図である。

【図３】本発明の一実施例の倍率関数を示すグラフであ
る。

【図４】本発明の一実施例のリアルタイム話速変換装置
の回路構成例を示すブロック図である。

【図５】図４に示すリアルタイム話速変換装置の動作例
を示すメインフローチャートである。

【図６】図５に示す有声区間処理ルーチンの詳細を示す
フローチャートである。

【図７】図４に示すリアルタイム話速変換装置にｆ
（ｔ），ｇ（ｔ，ｗ）の関数を適用した場合の動作例を
示すタイミング図である。

【符号の説明】

１音声入力回路２ＣＰＵ回路３ＰＲＯＭ回路４入力バッファ回路５処理バッファ回路６ファイル回路７音声出力回路８バスｆ（ｔ）話速変換に伴う時間伸張を吸収するために用
いる倍率関数ｇ（ｔ，ｗ）区間長ｗとその出現時刻ｔとに応じて、
ｆ（ｔ）により定まる規準倍率より高い倍率で伸張する
ための倍率関数ｒ_s あらかじめ定めた最高倍率ｒ_e あらかじめ定めた最低倍率Ｔ予測フレーズ長（フレーズの平均的な時間長）Ｐｈ＿ｓｔフレーズ（ポーズと次のポーズに挟まれる
区間）の開始点Ｖ＿ｓｔｆ（ｔ）の適用開始時刻を示す変数Ｐ_k 第ｋ有声区間の最大ピッチ周波数ｐｉｔｃｈ＿ｍａｘ最初の３つの有声区間Ｐ₁ ，Ｐ
₂ ，Ｐ₃ のうち最大値ｗ_k ｋ番目の有声区間長ｉフレーム番号ｋ有声区間番号ｔ_k 第ｋ有声区間の開始時刻

───────────────────────────────────────────────────── フロントページの続き (72)発明者清山信正東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (72)発明者宮坂栄一東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (56)参考文献特開平５−257490（ＪＰ，Ａ) 特開平６−337696（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 21/04

Claims

(57)【特許請求の範囲】

【請求項１】入力音声の無音区間、無声区間、有声区
間を分離し、このうち有声区間を伸張することによって
発声の速さ（話速）を声の高さを保ったまま遅くする変
換を行う際に、各有声区間の時間長を逐次検出し、各々
の有声区間の時間長に一様な値の、あるいは経過時間と
ともに滑らかに変化する規準倍率を乗ずることにより、
その倍率に対応した聴感的な効果を得る話速変換装置で
あって、一息で発声される区間（フレーズ）の一定時間内におい
て、話速を「ゆっくり」の状態から「速い」状態に変化
させる場合に、望まれる聴感上の話速変換効果におい
て、１モーラ（１音）毎のテンポが自然に変化するよう
に、各有声区間の時間長と、その有声区間の出現時刻の
双方を考慮した一定の規則に基づいて、前記規準倍率に
比べてより高い倍率を決定する決定手段を有することを
特徴とする話速変換装置。
【請求項２】前記経過時間とともに滑らかに変化する
規準倍率として、一息で発声する区間を単位にしてこの
区間の開始点ではゆっくりとした話速を設定し、その終
了点に向かって徐々に話速を速めることを特徴とする倍
率関数を適用する場合に、上記区間の開始時刻から時間
４５０ｍｓ以内に出現する１５０ｍｓ以下の短い有声区
間に対しては、前記一定の規則に基づいて前記規準倍率
に比べてより高い伸張倍率を供する倍率関数に沿って、
その有声区間の時間長とその有声区間の出現時刻の双方
を加味した伸張倍率を乗じ、また前記１５０ｍｓを越え
る時間長の有声区間に対しては、該１５０ｍｓ単位で分
割し、各々の終了点に対応する時刻での伸張倍率を乗
じ、さらに出現時刻が４５０ｍｓを越える有声区間に対
しては前記規準倍率を乗ずる演算手段を有することを特
徴とする請求項１に記載の話速変換装置。
【請求項３】前記一定の規則は、変換開始直後に出現
する有声区間の伸張倍率が最も高く、時間経過と共に倍
率は減少するが、相次いで現れる有声区間については、
その時間長が短いものほど倍率の減少率は小さくすると
いう規則であることを特徴とする請求項１に記載の話速
変換装置。
【請求項４】前記一定の規則は、任意の隣合うｋ番目、およびｋ＋１番目の有声区間の時
間長をそれぞれｗ_k ，ｗ_k+1 とし、話速変換後の時間長
をそれぞれｗ′_k ，ｗ′_k+1 とすると、ｗ_k ，ｗ_k+1 が
近い値で且つｗ_k ≦ｗ_k+1 である場合のみ、ｗ′_k ＞
ｗ′_k+1 となることを許容することを特徴とする請求項
１に記載の話速変換装置。
【請求項５】前記一定時間は、ポーズ直後やまたはピ
ッチの変化がある一定の値を越えた時刻から、フレーズ
の終了時刻までの間で任意に定める時間であり、所望の
効果によってその時間の値を任意に決定できることを特
徴とする請求項１に記載の話速変換装置。
【請求項６】前記一定の規則は、当該有声区間の時間
長が、ある一定の値よりも大きい場合には、所定の時間
長単位で分割し、分割されたそれぞれの有声区間の時間
長とその分割時刻の双方を考慮してそれぞれの倍率を決
定するという規則であることを特徴とする請求項１に記
載の話速変換装置。
【請求項７】前記所定の時間長は、実用的な値の規準
倍率によって有声区間を伸張したときに、聴感的な効果
が感じとれなくなる最大の有声区間の時間長であること
を特徴とする請求項６に記載の話速変換装置。