JP3187242B2 - 話速変換装置 - Google Patents

話速変換装置

Info

Publication number
JP3187242B2
JP3187242B2 JP06725194A JP6725194A JP3187242B2 JP 3187242 B2 JP3187242 B2 JP 3187242B2 JP 06725194 A JP06725194 A JP 06725194A JP 6725194 A JP6725194 A JP 6725194A JP 3187242 B2 JP3187242 B2 JP 3187242B2
Authority
JP
Japan
Prior art keywords
time
section
magnification
speech speed
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP06725194A
Other languages
English (en)
Other versions
JPH07281691A (ja
Inventor
篤 今井
徹 都木
章 中村
信正 清山
栄一 宮坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP06725194A priority Critical patent/JP3187242B2/ja
Publication of JPH07281691A publication Critical patent/JPH07281691A/ja
Application granted granted Critical
Publication of JP3187242B2 publication Critical patent/JP3187242B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、話速変換装置に関し、
特に聴覚障害者や高齢者等の音声補聴装置や、一般的な
語学学習装置、ラジオ、テープレコーダー、電話などに
おいて、話速変換による補助的聴取を行う際の聞き取り
易さの向上、テレビジョン、ビデオテープレコーダー、
ビデオディスクプレーヤーなどの音声出力を話速変換し
た際に生ずる映像と音声のズレを効果的に吸収するリア
ルタイム式の話速変換装置に関する。
【0002】
【従来の技術】従来の話速を変換する方式としては、有
声区間を一様倍率で伸張する手法と、有声区間を一様倍
率で伸張した場合に生ずる時間伸張を吸収する手法とし
て、発声の開始点からの各有声区間の出現時刻のみの関
数として倍率を単調に減少させるものがある。一様伸張
方式としては、ピッチ単位の波形繰り返しによるもの
(中村章ほか平成4年日本音響学会春季研究発表会「高
品質リアルタイム話速変換システム」2−6−1P.3
29−P.330(1992−3))や、TDHS,P
ICOLAなどの手法を用いたものがある。時間伸張吸
収方式は、音声の時間枠が限られている場合に、時間伸
張を抑えつつ、一様伸張による変換と同様の効果を実現
しようとするもの(池沢龍ほか平成4年日本音響学会春
季研究発表会「話速変換に伴う時間伸張を吸収するため
の一手法」2−6−2P.331−P.332(199
2−3))である。これらの話速変換手法の基本的な考
え方は、早口で発声された音声を、その区間長とは無関
係に有声区間の一様な倍率による伸張によって話速を
「ゆっくり」にすることである。しかしながら、各々の
有声区間長を考慮していないため、一様な倍率を適用し
て全有声区間を伸張した場合においても、各有声区間長
の差異によって聴感上の変換効果にばらつきを生ずるこ
とがあり、これが所望の話速変換効果に悪影響を及ぼす
ことがあった。ある一定の規則で話速を変化させる際
に、有声区間長の差異に伴う聴感上の変換効果のばらつ
きを無くすために、各音韻長の時間的な大小関係を乱す
こと無く、所望の聴感的効果を実現する話速変換技術は
なかった。
【0003】
【発明が解決しようとする課題】入力音声の話速を「ゆ
っくり」にすることを目的として、無音区間、無声区
間、有声区間を分離し、無音区間と無声区間の長さはそ
のままに、有声区間の伸張による話速変換を行う際、音
声中の複数の有声区間を一様な倍率で伸張した場合、各
々の有声区間の区間長によって、聴感上の「ゆっくり
感」の程度に差異が生ずることがわかっている(今井篤
ほか平成5年日本音響学会秋季研究発表会「話速変換に
伴う時間伸張のリアルタイム吸収法」1−9−10P.
361−P.362(1993−10))。
【0004】音声中には、異なる母音の連鎖や長母音な
どのように300msを越えるような比較的長い有声区
間や、逆に無声区間や無音区間に挟まれた母音などに多
い100msを下回るような比較的短い有声区間が相次
いで現れることもあり、例えば、この両者が混在する音
声に対して、一定の同じ倍率で伸張した音声を聴取した
場合、長い有声区間は1有声区間単位での伸張時間の絶
対量が大きく、聴感上の「ゆっくり感」が大きいのに比
べ、短い有声区間は伸張時間の絶対量が小さく、場合に
よっては殆ど「ゆっくり感」が感じられないことがあ
る。
【0005】例えば、区間長が350msと80msの
ものを従来法により一律に1.5倍に伸張した場合、5
25msと120msに変換されるが、前者の伸張時間
の絶対増加量が175msであるのに対して、後者は僅
か40msの伸張で、これが聴感上の効果の差となって
現れてくる。従って、この様に長短さまざまな有声区間
分布が一連の入力音声中に複数箇所存在する場合は、話
速の定まらない不安定な音声に変換されてしまい、場合
によってはこれがかなり気になることがある。
【0006】また、既に提案されている、話速変換に伴
う時間伸張を吸収する手法(池沢龍ほか平成4年日本音
響学会春季研究発表会「話速変換に伴う時間伸張を吸収
するための一手法」2−6−2P.331−P.332
(1992−3))では、一息で発声する区間(フレー
ズ)の開始点での有声区間の伸張倍率を高く設定し、徐
々に話速を速くしていくことで、変換音声の全体として
の「ゆっくり感」と、全体としての時間伸張の吸収を実
現しているが、このフレーズの開始点付近において短い
有声区間が相次いで出現するような音声の場合には、上
述の理由により比較的高い倍率を乗じても「ゆっくり
感」が得られず、結果的に後半の話速の速い部分だけが
目立ってしまうことになり、期待する効果が得られない
場合がある。
【0007】上述した問題点を更に具体的事例で示す。
【0008】(1)一息で発声される区間(フレーズ)
の予測長を2000msに固定し、伸張倍率rを図1に
示す曲線に添ってrs(rs>1)からre(re<
1)へと単調に減少させる。
【0009】(2)2000msを越せたところではピ
ッチ周波数の変化に伴い倍率に適宜修正を加える。
【0010】この手法をリアルタイム話速変換システム
に導入し、多数のニュース音声を変換した結果、いくつ
かのフレーズについて期待される効果、特に、フレーズ
の開始点付近において「ゆっくり」した感覚を生じさせ
る効果の得られないものがあった。図2に、特に効果的
であったフレーズ1例(同図の(a))と、特に効果が
感じられなかったフレーズ2例(同図の(b),
(c))について、フレーズ内の有声区間長の時間軸上
の分布を示す。
【0011】この3例に代表される傾向として以下の点
が挙げられる。
【0012】(1)フレーズの開始点付近450ms〜
500ms以内に150msを越える比較的長い有声区
間が複数個存在する場合は、伸張倍率rがr=1.4で
も効果が大きい。
【0013】(2)フレーズの開始部分に150ms以
下の比較的短い有声区間が存在する場合、r=2.0で
も効果が少ない。
【0014】他のフレーズについても検証した結果、同
様の傾向が見られた。
【0015】また、一様伸張の場合には、実用的な倍率
を適用したときに、変換効果が感じられなくなるある一
定の区間長以下の有声区間について、聴感上所望の変換
効果が得られるように当該有声区間の区間長に応じて適
用倍率を一時的に増大させることによって聴感上の変換
効果のばらつきが効果的に解消できるが、話速を逐次変
化させるような場合には、その時間経過に伴う倍率の変
化と有声区間長の双方を考慮しなくてはならず、従来の
話速変換方法では充分な変換効果が得られなかった。
【0016】本発明は、上述の問題点に鑑みてなされた
もので、その目的は任意に定めた一定時間内において話
速を「ゆっくり」の状態から「速い」状態に変化させる
場合に、各音韻間の大小関係を保存し、各有声区間の変
換音声が設定された話速に相応の聴感的効果を保ちつ
つ、安定した話速変換効果を得られるようにし、これに
より聴覚障害者や高齢者に施す話速変換による補聴効果
の向上や、定まった時間枠で出来るだけ自然なゆっくり
とした音声を提供することが可能な話速変換装置を提供
することにある。
【0017】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力音声の無音区間、無声区間、有声区
間を分離し、このうち有声区間を伸張することによって
発声の速さ(話速)を声の高さを保ったまま遅くする変
換を行う際に、各有声区間の時間長を逐次検出し、各々
の有声区間の時間長に一様な値の、あるいは経過時間と
ともに滑らかに変化する規準倍率を乗ずることにより、
その倍率に対応した聴感的な効果を得る話速変換装置
あって、一息で発声される区間(フレーズ)の一定時間
内において、話速を「ゆっくり」の状態から「速い」状
態に変化させる場合に、望まれる聴感上の話速変換効果
において、1モーラ(1音)毎のテンポが自然に変化す
るように、各有声区間の時間長と、その有声区間の出現
時刻の双方を考慮した一定の規則に基づいて、前記規準
倍率に比べてより高い倍率を決定する決定手段を有する
ことを特徴とする。
【0018】また、好ましくは、本発明は、前記経過時
間とともに滑らかに変化する規準倍率として、一息で発
声する区間を単位にして、この区間の開始点ではゆっく
りとした話速を設定し、その終了点に向かって徐々に話
速を速めることを特徴とする倍率関数を適用する場合
に、上記区間の開始時刻から一定時間内、好ましくは時
間450ms以内に出現する前記所定の長さに当る区間
長、好ましくは150ms程度に満たない区間長を有す
る有声区間に対しては、前記一定の規則に基づいて前記
規準倍率に比べてより高い伸張倍率を供する倍率関数に
沿って、その有声区間の時間長とその有声区間の出現時
刻の双方を加味した伸張倍率を乗じ、また前記150m
sを越える時間長の有声区間に対しては、該150ms
単位で分割し、各々の終了点に対応する時刻での伸張倍
率を乗じ、さらに出現時刻が450msを越える有声区
間に対しては前記規準倍率を乗ずる演算手段を有する
とを特徴とすることができる。
【0019】なお、上記の150ms、450msは好
ましい値の一例を具体的に例示したもので、本発明はこ
れに限定されない。
【0020】また、本発明は好ましくは、前記一定の規
則は、変換開始直後に出現する有声区間の伸張倍率が最
も高く、時間経過と共に倍率は減少するが、相次いで現
れる有声区間については、その時間長が短いものほど倍
率の減少率は小さくするという規則であることを特徴と
することができる。
【0021】また、本発明は好ましくは、前記一定の規
則は、任意の隣合うk番目、およびk+1番目の有声区
間の時間長をそれぞれwk ,wk+1 とし、話速変換後の
時間長をそれぞれw′k ,w′k+1 とすると、wk ,w
k+1 が近い値で且つwk ≦wk+1 である場合のみ、w′
k >w′k+1 となることを許容することを特徴とするこ
とができる。
【0022】また、本発明は好ましくは、前記一定時間
は、ポーズ直後やまたはピッチの変化がある一定の値を
越えた時刻から、フレーズの終了時刻までの間で任意に
定める時間であり、所望の効果によってその時間の値を
任意に決定できることを特徴とすることができる。
【0023】また、本発明は好ましくは、前記一定の規
則は、当該有声区間の時間長が、ある一定の値よりも大
きい場合には、所定の時間長単位で分割し、分割された
それぞれの有声区間の時間長とその分割時刻の双方を考
慮してそれぞれの倍率を決定するという規則であること
を特徴とすることができる。
【0024】また、本発明は好ましくは、前記所定の時
間長は、実用的な値の規準倍率によって有声区間を伸張
したときに、聴感的な効果が感じとれなくなる最大の有
声区間の時間長であることを特徴とすることができる。
【0025】
【作用】本発明では、フレーズ内の一定の時間内に出現
する有声区間の伸張倍率を、基本的にその出現時刻と区
間長の双方を考慮した単調減少関数によって決定するこ
とにより、フレーズの開始直後に出現する有声区間の倍
率が最も高く、時間経過と共に倍率は減少するが、相次
いで現れる有声区間については、その区間長が短いもの
ほど倍率の減少率は小さく、またある一定以上の長さを
有する有声区間については予め定められた時間長単位で
分割してそれぞれの区間長と分割時刻の両方を考慮して
倍率を定める。これにより、本発明によれば、各フレー
ズ内の一定時間内において話速をゆっくりから速くに変
化させる場合に、各音節間の音韻長の大小関係を乱すこ
と無く、所望の変換効果を得ることが可能となる。この
本発明の方法は従来の方法に加味することが可能であ
る。例えば、有声区間を一様伸張する際に、各フレーズ
の開始点や、ピッチの高さが一定値を越えたところから
一定時間内において本発明を適用することは、フレーズ
の冒頭や、ピッチの変化の大きいところに相当する音節
に対して安定した「ゆっくり感」を与えることが可能に
なり、高齢者や聴覚障害者に好適な「強調感」のある話
速変換効果を得ることが可能となる。特に、従来提案さ
れている話速変換による時間伸張を吸収する手法(池沢
龍ほか平成4年日本音響学会秋季研究発表会「話速変換
における時間伸張吸収のリアルタイム化の検討」2−9
−2P.349−P.350(1993−10))に適
用した場合は、発声の開始点付近の「ゆっくり感」が聴
感上不安定であったという欠点が解消されることに加え
て、比較的高い倍率から低い倍率に急激に変化させた場
合においても、音韻長の時間的大小関係を乱すこと無く
所望の話速変換効果を供することが可能となる。更にこ
の「強調感」のため、従来方法に比べて話速変換倍率を
低めに設定した場合でも、聴感上安定した話速変換効果
が得られ、時間伸張率を抑えることも可能となる。
【0026】
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。
【0027】一息で発声されると予測される区間内で、
この区間の開始点に於いては原音声の話速より「ゆっく
り」とした話速を設定し、終了点に向かって一定の規則
に従って話速を速めていく「リアルタイム話速変換方
法」の手法(池沢龍ほか平成4年日本音響学会秋季研究
発表会「話速変換における時間伸張吸収のリアルタイム
化の検討」2−9−2P.349−P.350(199
3−10))に本発明を適用した場合の実施例について
説明する。この「リアルタイム話速変換方法」は、実時
間で動作する話速変換装置において、時間伸張を吸収す
る手法であるが、これは各フレーズの開始点においての
聴感上違和感のない「ゆっくり感」を与えることがそれ
ぞれのフレーズ全体での「ゆっくり感」の印象を決定す
るものであるため、これに本発明による方法を適用する
ことは特に効果的であるといえる。
【0028】図3は本発明の一実施例の動作の概要を示
す。フレーズの開始点付近から450ms以内に出現す
る150ms以下の短い有声音に対しては、図3に示す
倍率関数g(t,w)に沿って、有声音の長さとその有
声音の出現時刻の双方を加味した倍率を与える。一例と
して、図中のw1のように有声区間長が150ms以下
のものが存在する場合、有声区間の終了時刻における倍
率を、その有声区間に適用する。一方、w2のように1
50msを越える長さの有声区間が存在する場合には、
150ms単位でw21とw22に分割し、各々の終了
点に対応する時刻での倍率を適用する。ただし、経過時
間が450msを越えた時点で従来の伸張倍率曲線f
(t)(図1)を適用する。
【0029】連続した短い有声区間A,Bに対し、後続
する有声区間Bの継続時間TbがTb<Taの場合に、
Bの伸張倍率がAの倍率を上回ると、音韻長の知覚的バ
ランスがくずれて聞きにくくなる場合がある。これに対
し、本発明実施例ではこのような減少倍率の逆転現象は
生じない。また、300msを越えるような長い有声区
間の場合、150ms単位で伸張倍率を減少させるた
め、いわゆる「まのび」した感覚を抑制する効果があ
る。
【0030】図4〜図7は本発明の一実施例を更に詳細
に示す図である。
【0031】図4は本発明の一実施例の全体回路構成を
示すブロック図である。
【0032】図4に示すリアルタイム話速変換装置は、
音声入力回路1と、CPU(中央処理ユニット)回路2
と、PROM(プログラマブルROM)回路3と、入力
バッファ回路4と、処理バッファ回路5と、ファイル回
路6と、音声出力回路7と、バス8とを備えている。そ
して、音声入力回路1によって話速変換対象となる音声
(原音声)を取り込み、リアルタイム処理で、原音声の
声の高さ(ピッチ周波数)の変化を検出すると共に、こ
の検出結果に基づいて、声の高さの高い部分では話速を
緩め、低い部分では話速を速めるという規則で話速を変
化させることにより、原音声の発話時間を保ったまま、
原音声を聴き易い良好な音声に変換する。
【0033】音声入力回路1は、原音声を入力するため
の一般的な構成の回路、例えばマイクロフォン、音調回
路、A/D(アナログ/デジタル)変換器、音声記憶再
生回路、音声記憶媒体(例えば、ICメモリ、ハードデ
ィスク、フロッピーディスクまたはVTR(ビデオテー
プレコーダ))、およびインターフェイス回路等を備え
ており、話速変換対象となる音声を取り込み、これをデ
ジタル形式の音声信号に変換するとともに、この変換し
たデジタル音声信号をCPU回路2からの指示に基づい
てフレーム単位で入力バッファ回路4に供給する。
【0034】入力バッファ回路4は、必要な容量のRA
M(ランダムアクセスメモリ)などによって構成され、
CPU回路2の作業域として使用される部分であり、音
声入力回路1から出力される音声信号を取り込んでこれ
を記憶するとともに、CPU回路2からの指示に基づい
て記憶している音声信号を処理バッファ回路5に転送す
る。
【0035】処理バッファ回路5は、必要な容量のRA
Mなどによって構成され、CPU回路2の作業域として
使用される部分であり、入力バッファ回路4から出力さ
れる音声信号を取り込んでこれを記憶するとともに、C
PU回路2からの指示に基づいて記憶している音声信号
をファイル回路6などに転送する。
【0036】ファイル回路6は、RAMのほかに、IC
メモリやフロッピーディスク等の音声記憶媒体によって
構成され、本発明に係わる有声区間の伸張された音声信
号と、無音区間の短縮の処理を施された信号などを格納
するメモリであり、処理バッファ回路5から処理済の音
声信号が出力されたとき、これを取り込んで記憶し、こ
の後CPU回路2からの指示に基づいて記憶している音
声信号を音声出力回路7に供給する。
【0037】音声出力回路7は、ファイル回路6内の音
声信号を外部に出力するための一般的な構成の回路、例
えばインターフェイス回路、D/A(デジタル/アナロ
グ)変換器、スピーカー、録音装置(あるいは放送機
器)等を備えており、ファイル回路6から音声信号が出
力されたとき、これを取り込んで音声に変換しながら、
外部に出力する。
【0038】また、CPU回路2は、ワンチップマイク
ロコンピュータ等によって構成される部分であり、PR
OM回路3に格納されている図5,図6に示すようなプ
ログラムに基づいて装置全体の制御や各種のデータ処理
を行う。
【0039】また、PROM回路3は、CPU回路2の
動作を規定するプログラムや各種の処理で使用される定
数データなどの格納場所として使用される部分であり、
CPU回路2からの読みだし指令に応じて記憶している
プログラムや定数データを読みだしてCPU回路2に供
給する。
【0040】次に、本発明の一実施例の動作について図
5,図6を参照して説明する。
【0041】図5、及び図6は処理の流れを示すフロー
チャートであり、図6は図5のST9の有声区間処理ル
ーチンの詳細を示す。
【0042】ここでは、説明のために音声信号中の息継
ぎ区間を「ポーズ」、一息で発声される区間を「フレー
ズ」、また「フレーズ」の時間長の平均的な値を「予測
フレーズ長」呼び、次のように定義する。
【0043】ポーズ:無音部分と判定された区間のう
ち、その区間長がTh1(本実施例ではTh1=200
ms)以上の無音区間。なお、Thはスレッショールド
値を意味する。
【0044】フレーズ:ポーズと次のポーズに挟まれる
区間。
【0045】この区間の開始点をPh_stとする。
【0046】予測フレーズ長:フレーズの平均的な時間
長で、T(単位はms)とする。(本実施例ではT=2
000msとした)また、図6中のf(t)とg(t,
w)は有声区間の伸張倍率を定める関数であり、以下の
特性を有するものである。
【0047】f(t):話速変換に伴う時間伸張を吸収
するために用いる倍率関数であって、予測フレーズ長内
の有声区間の出現時刻t(0≦t≦T)に対して倍率を
定める単調減少関数である。
【0048】t=0におけるあらかじめ定めた倍率をr
s 、t=Tにおけるあらかじめ定めた倍率をre (rs
≧re )とすると、f(t)はrs ≧f(t)≧re
0≦t≦Tを満たす。
【0049】g(t,w):フレーズの開始部分から一
定時間T0 内は、g(t,w)を適用し、有声区間の伸
張倍率を、その出現時刻;tと区間長;wの双方を考慮
して、f(t)により定まる規準倍率より高い倍率で伸
張することにより、各音韻長の大小関係を考慮しつつ、
フレーズ開始点での「ゆっくり感」を強調するための倍
率関数である。
【0050】次に、図5の処理手順を説明する。なお、
STはステップを意味する。
【0051】(ST0)まず、f(t)の最高倍率rs
と最低倍率re を設定する。
【0052】(ST0−1)次に、フレーム番号iを0
にセットする。
【0053】(ST0−2)続いて、上記iをi+1と
インクリメントする。
【0054】(ST1)そして、音声入力回路1が取り
込んだ入力音声を、フレームと呼ばれる一定長の部分に
分割し、その結果を入力バッファ回路4に格納する処理
を行う。
【0055】本実施例ではフレーム幅6.66msのH
amming(ハミング)窓を3.3msずつずらしな
がら切り出して格納する。
【0056】(ST2)入力音声信号を各フレーム毎
に、自己相関法や、零クロス法などの方法で処理して有
声、無声、無音の判定を行う。人が発声する有声および
無声以外の入力音(例えば、低レベルの雑音や背景音
等)は原則として無音として識別処理する。
【0057】(ST3)i番目のフレームについての有
声、無声、無音の判定結果(今回の判定結果)と、i−
1番目のフレームについて有声、無声、無音の判定結果
(前回の判定結果)とが同じであるか否かを判別する。
両者の判定結果が同じであれば(ST0−2)に戻り、
同じでないならば次の(ST4)に移る。
【0058】(ST4)i−1フレームまでの、同じ種
類(有声、無声或いは無音)の区間と判定されている音
声区間を入力バッファ回路4から処理バッファ回路5に
転送して格納する。
【0059】(ST5)処理バッファ回路5に格納され
ている音声区間が、無音か無声か有声か否かを判定す
る。無音区間の場合は(ST6)へ進み、無声区間の場
合は(ST11)へ移り、有声区間の場合は(ST9)
へ移る。
【0060】(ST6)当該無音区間がポーズ区間か否
かを判断する。ポーズ区間の場合は(ST6−1)へ移
り、ポーズ区間でない場合は(ST8)へ飛ぶ。但し、
図4のリアルタイム話速変換装置の起動時はポーズ区間
であったと判断し、必ず(ST6−1)へ進む。
【0061】(ST6−1)ポーズ区間以降に出現する
有声区間の番号を表す変数kに初期値としての1を代入
する。
【0062】(ST7)ポーズの区間長を調べ、その区
間長によって適宜、予め設定されているアルゴリズム
(池沢龍ほか「話速変換に伴う時間伸張を吸収するため
の一方法」1992年音声研究会P.49−P.56)
によって聴感上違和感ない程度に短縮する。
【0063】本実施例では、862msを越える区間長
を有する無音区間を一律にこの862msの値まで短縮
することとし(池沢龍ほか平成4年日本音響学会春季研
究発表会「話速変換に伴う時間伸張を吸収するための一
手法」2−6−2P.331−P.332(1992−
3))、無音区間862msを経過した時点で更に無音
区間が続く場合は、それ以降の無音データを廃棄して次
のフレーズの開始点を待つものとする。
【0064】(ST8)処理バッファ回路5内にある処
理済の無音区間の信号をファイル回路6に転送させて格
納させた後、処理バッファ回路5をクリアする。次に
(ST12)へ移る。
【0065】(ST12)音声信号の最後まで処理した
か否かを判定する。肯定判定の場合は本(ST9)処理
(ルーチン)を終了し、否定判定の場合は(ST0−
2)へ戻る。
【0066】(ST9)(ST5)で有声区間と判定さ
れた区間に対して、後述の図6に示す有声区間処理を行
う。f(t)の適用開始時刻を示す変数としてV_st
を導入する。また、フレーズ内の第k有声区間の開始時
刻をtk 、区間長をwk と記す。
【0067】(ST9−1)上述の変数kをk+1とイ
ンクリントする。
【0068】(ST10)処理バッファ回路5内にある
話速変換済みの音声データをファイル回路6のメモリに
格納するとともに、処理バッファ回路5をクリアする。
その後、上述の(ST12)へ移る。
【0069】(ST11)(ST5)において処理対象
となる区間が無声と判断されれば、この無声区間の音声
信号を処理バッファ回路5からファイル回路6に転送し
て格納した後、処理バッファ回路5をクリアする。その
後、上述の(ST12)へ移る。
【0070】次に、図6のST9有声区間処理ルーチン
の詳細を説明する。
【0071】(ST14)まず、有声区間のピッチ抽出
を行う。
【0072】(ST15)次に、変数kがk=1か否か
を判定する。k=1の場合、即ちポーズ区間以降に出現
する最初の有声区間の場合は(ST15−1)へ移り、
そうでない場合は(ST15−2)へ移る。
【0073】(ST15−1)変数V_stに時刻t1
を代入する。次に(ST16)へ移る。
【0074】(ST15−2)変数kが3以下か否か、
即ちkが2または3であるか否かを判定する。kが2ま
たは3の場合は(ST16)へ移り、kが4以上の場合
は(ST17)へ飛ぶ。
【0075】(ST16)第k有声区間の最大ピッチ周
波数をPk と定義する。k=1,2,3の場合にはPk
の値を保存する。
【0076】(ST16−1)変数kがk=3か否かを
判定する。k=3の場合は次の(ST16−2)へ移
り、そうでない場合、即ちk=1,2の場合は(ST1
7)へ飛ぶ。
【0077】(ST16−2)3つの有声区間P1 ,P
2 ,P3 のうちの最大値を Pinch_max とする。次に(ST17)へ移る。
【0078】(ST17)tk が、区間[V_st,V
_st+T]に含まれているか否かを判定する。含まれ
ていれば(ST17−1)へ移り、そうでなければ(S
T21)へ移る。(本実施例では前述のようにT=20
00msとした。) (ST17−1)V_st>t1 であるかを判定する。
【0079】V_st>t1 であれば(ST19)へ移
り、そうでなければ(ST18)に移る。V_st>t
1 のときは、発声の終了点間近で意味的重要度が低い場
合が多いため、本実施例では特にg(t,w)を適用せ
ず、(ST17−1)から直接(ST19)に移ること
とした。
【0080】(ST18)フレーズの開始部において変
換により生じる聴感上の「ゆっくり感」を効果的にする
ために必要な時間長をT0 とする。T0 は実験結果から
(今井篤ほか平成5年日本音響学会秋季研究発表会「話
速変換に伴う時間伸張のリアルタイム吸収法」1−9−
10P.361−P.362(1993−10))Tの
1/4程度が望ましく、本実施例ではT0 =450ms
とした。
【0081】本処理ブロックでは、第k有声区間の終了
時刻tk +wk が区間[V_st,V_st+T0 ]含
まれているか否かを判定する。含まれていれば次の(S
T18−1)へ移り、そうでなければ(ST19)へ移
る。
【0082】(ST19)予め設定した倍率関数f
(t)を適用して有声区間を伸張する。このf(t)は
単調減少関数であり、本実施例では以下の式(1)のよ
うな余弦関数を用いて、倍率をrs からre まで変化さ
せた。
【0083】
【数1】 f(t)=re+0.5(rs-re){cosπ(t-V_st)/T+1.0} (1) 但し、V_st≦t≦V_st+T 例えば、k番目の有声区間に対する伸張倍率はf(t
k )となる。その後、図5のメインルーチンに戻る。
【0084】(ST18−1)k番目の有声区間長wk
と、予め設定されている区間長w0 が、wk ≦w0であ
るか否かを判定する。
【0085】この条件を満たせば(ST18−2)へ、
そうでなければ(ST18−4)へ移る。
【0086】w0 は1つの有声区間内での分割区間長
で、区間長がw0 以上の有声区間は、全区間に渡って一
様な倍率で伸張するのではなく、この分割区間単位で倍
率を変更(順次減少させる)することにより、話速変換
による、1フレーズ内での音韻長の時間的大小関係を保
ち、同時に「まのび感」を抑制することができる。
【0087】本実施例では、w0 =150msとした。
【0088】(ST18−2)変数flgに1を代入
し、(ST20)へ移る。
【0089】(ST20)へ移る。
【0090】(ST18−4)変数flgに0を代入
し、(ST20)へ移る。
【0091】(ST20)予め設定した関数g(t,
w)を適用して有声区間を伸張する。
【0092】g(t,w)の適用開始時刻を示す関数と
してB_stを導入する。但し本実施例ではB_st=
1 とする。
【0093】g(t,w)は単調減少関数であり、区間
[B_st,B_st+T0 ]において常にg(t,
w)≧f(t)が成り立つことを条件とする。本実施例
【0094】
【数2】 tk +wk ≦B_st+T0 <tk+1 +wk+1 (2) であるとき、第k有声区間をg(tk ,wk )で、第k
+1有声区間をf(tk+1 )で伸張する場合に、第k+
1有声区間の伸張倍率が第k有声区間の伸張倍率より大
きくならないためのものである。この条件を満たしてい
れば、g(t,w)の適用区間[B_st,B_st+
0 ]において、減少倍率の逆転は起こらない。
【0095】本実施例で用いた倍率関数g(t,w)を
以下の次式(3)に示す。一次関数を採用し、時刻B_
st+T0 の時にf(t)の倍率に一致するようにし
た。第k有声区間の出現時刻tk と、その区間長wk
用いて、
【0096】
【数3】
【0097】(ST20−1)次に、g(t,w)に従
って伸張した有声区間を処理バッファ回路5に格納す
る。
【0098】(ST20−2)次に、flg=1である
か否かを判定する。flg=1のときは(ST9)の有
声区間処理ルーチンを終了する。flg=0のときは、
分割された有声区間が更に続くということであり、(S
T20−3)に移る。
【0099】(ST20−3)tk の値をtk +w0
更新する。
【0100】(ST20−4)次に、wk の値をwk
o に更新し、(ST18−1)へ戻る。
【0101】(ST21)処理対象となっている有声区
間の最大ピッチ周波数Pk が、以下の式(4)の条件を
満たす場合は(ST22)へ、満たさない場合は(ST
23)へ移る。
【0102】
【数4】 Pk >Pitch_max×Th2 (4) 本実施例では、Th2=0.7とした。
【0103】(ST22)変数V_stに時刻tk を代
入する。
【0104】(ST22−1)変数rs に(rs −Th
3)を代入する。
【0105】これによって、f(t)は(rs −Th
3)からre まで倍率を変化させる。本実施例では、T
h3=0.1に設定した。その後、上記の(ST17)
へ戻る。
【0106】(ST23)有声区間を伸張倍率をre
伸張する。つまり、話速を最も速い状態のままにする。
その後、(ST9)の有声区間処理ルーチンを終了し、
図5のメインルーチンに戻る。
【0107】
【発明の効果】以上説明したように、本発明によれば、
入力音声の無音区間、無声区間、有声区間を分離し、有
声区間を一定の規則に従って伸張することによって、所
望の聴感的効果を安定に得ることが可能な話速変換方法
において、入力音声の話速を規準となる所望の倍率によ
って一定時間内に「ゆっくり」の状態から「速い」状態
に変換する際に、従来方法のように有声区間の出現時刻
によって倍率を一意的に定めるのではなく、有声区間の
区間長とその出現時刻の双方を加味してその伸張倍率の
値を変化させる倍率変数を適用するようにしているの
で、規準となる倍率変数の変化に整合した聴感的効果が
得られ、且つ、音韻長の時間的な大小関係を乱すこと無
く、所望の話速変化の効果を得ることができる。
【0108】従って、本発明によれば、話速を「ゆっく
り」から「速く」に変化させる場合において、受聴者の
希望にあった話速変化を安定、且つ自然に実現すること
ができる。
【図面の簡単な説明】
【図1】従来法における倍率関数を示すグラフである。
【図2】従来法を適用した場合の1フレーズ内の有声区
間長の時間軸上の分布を示すタイミング図である。
【図3】本発明の一実施例の倍率関数を示すグラフであ
る。
【図4】本発明一実施例リアルタイム話速変換装置
の回路構成例を示すブロック図である。
【図5】図4に示すリアルタイム話速変換装置の動作例
を示すメインフローチャートである。
【図6】図5に示す有声区間処理ルーチンの詳細を示す
フローチャートである。
【図7】図4に示すリアルタイム話速変換装置にf
(t),g(t,w)の関数を適用した場合の動作例を
示すタイミング図である。
【符号の説明】
1 音声入力回路 2 CPU回路 3 PROM回路 4 入力バッファ回路 5 処理バッファ回路 6 ファイル回路 7 音声出力回路 8 バス f(t) 話速変換に伴う時間伸張を吸収するために用
いる倍率関数 g(t,w) 区間長wとその出現時刻tとに応じて、
f(t)により定まる規準倍率より高い倍率で伸張する
ための倍率関数 rs あらかじめ定めた最高倍率 re あらかじめ定めた最低倍率 T 予測フレーズ長(フレーズの平均的な時間長) Ph_st フレーズ(ポーズと次のポーズに挟まれる
区間)の開始点 V_st f(t)の適用開始時刻を示す変数 Pk 第k有声区間の最大ピッチ周波数 pitch_max 最初の3つの有声区間P1 ,P
2 ,P3 のうち最大値 wk k番目の有声区間長 i フレーム番号 k 有声区間番号 tk 第k有声区間の開始時刻
───────────────────────────────────────────────────── フロントページの続き (72)発明者 清山 信正 東京都世田谷区砧一丁目10番11号 日本 放送協会 放送技術研究所内 (72)発明者 宮坂 栄一 東京都世田谷区砧一丁目10番11号 日本 放送協会 放送技術研究所内 (56)参考文献 特開 平5−257490(JP,A) 特開 平6−337696(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声の無音区間、無声区間、有声区
    間を分離し、このうち有声区間を伸張することによって
    発声の速さ(話速)を声の高さを保ったまま遅くする変
    換を行う際に、各有声区間の時間長を逐次検出し、各々
    の有声区間の時間長に一様な値の、あるいは経過時間と
    ともに滑らかに変化する規準倍率を乗ずることにより、
    その倍率に対応した聴感的な効果を得る話速変換装置
    あって、 一息で発声される区間(フレーズ)の一定時間内におい
    て、話速を「ゆっくり」の状態から「速い」状態に変化
    させる場合に、望まれる聴感上の話速変換効果におい
    て、1モーラ(1音)毎のテンポが自然に変化するよう
    に、各有声区間の時間長と、その有声区間の出現時刻の
    双方を考慮した一定の規則に基づいて、前記規準倍率に
    比べてより高い倍率を決定する決定手段を有することを
    特徴とする話速変換装置
  2. 【請求項2】 前記経過時間とともに滑らかに変化する
    規準倍率として、一息で発声する区間を単位にしてこの
    区間の開始点ではゆっくりとした話速を設定し、その終
    了点に向かって徐々に話速を速めることを特徴とする倍
    率関数を適用する場合に、上記区間の開始時刻から時間
    450ms以内に出現する150ms以下の短い有声区
    間に対しては、前記一定の規則に基づいて前記規準倍率
    に比べてより高い伸張倍率を供する倍率関数に沿って、
    その有声区間の時間長とその有声区間の出現時刻の双方
    を加味した伸張倍率を乗じ、また前記150msを越え
    る時間長の有声区間に対しては、該150ms単位で分
    割し、各々の終了点に対応する時刻での伸張倍率を乗
    じ、さらに出現時刻が450msを越える有声区間に対
    しては前記規準倍率を乗ずる演算手段を有することを特
    徴とする請求項1に記載の話速変換装置
  3. 【請求項3】 前記一定の規則は、変換開始直後に出現
    する有声区間の伸張倍率が最も高く、時間経過と共に倍
    率は減少するが、相次いで現れる有声区間については、
    その時間長が短いものほど倍率の減少率は小さくすると
    いう規則であることを特徴とする請求項1に記載の話速
    変換装置
  4. 【請求項4】 前記一定の規則は、 任意の隣合うk番目、およびk+1番目の有声区間の時
    間長をそれぞれwk ,wk+1 とし、話速変換後の時間長
    をそれぞれw′k ,w′k+1 とすると、wk ,wk+1
    近い値で且つwk ≦wk+1 である場合のみ、w′k
    w′k+1 となることを許容することを特徴とする請求項
    1に記載の話速変換装置
  5. 【請求項5】 前記一定時間は、ポーズ直後やまたはピ
    ッチの変化がある一定の値を越えた時刻から、フレーズ
    の終了時刻までの間で任意に定める時間であり、所望の
    効果によってその時間の値を任意に決定できることを特
    徴とする請求項1に記載の話速変換装置
  6. 【請求項6】 前記一定の規則は、当該有声区間の時間
    長が、ある一定の値よりも大きい場合には、所定の時間
    長単位で分割し、分割されたそれぞれの有声区間の時間
    長とその分割時刻の双方を考慮してそれぞれの倍率を決
    定するという規則であることを特徴とする請求項1に記
    載の話速変換装置
  7. 【請求項7】 前記所定の時間長は、実用的な値の規準
    倍率によって有声区間を伸張したときに、聴感的な効果
    が感じとれなくなる最大の有声区間の時間長であること
    を特徴とする請求項6に記載の話速変換装置
JP06725194A 1994-04-05 1994-04-05 話速変換装置 Expired - Lifetime JP3187242B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06725194A JP3187242B2 (ja) 1994-04-05 1994-04-05 話速変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06725194A JP3187242B2 (ja) 1994-04-05 1994-04-05 話速変換装置

Publications (2)

Publication Number Publication Date
JPH07281691A JPH07281691A (ja) 1995-10-27
JP3187242B2 true JP3187242B2 (ja) 2001-07-11

Family

ID=13339532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06725194A Expired - Lifetime JP3187242B2 (ja) 1994-04-05 1994-04-05 話速変換装置

Country Status (1)

Country Link
JP (1) JP3187242B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101349797B1 (ko) * 2007-06-26 2014-01-13 삼성전자주식회사 전자기기에서 음성 파일 재생 방법 및 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161298A (ja) * 1997-11-28 1999-06-18 Toshiba Corp 音声合成方法及び装置
JP2001222300A (ja) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> 音声再生装置および記録媒体
JP2001344905A (ja) 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101349797B1 (ko) * 2007-06-26 2014-01-13 삼성전자주식회사 전자기기에서 음성 파일 재생 방법 및 장치

Also Published As

Publication number Publication date
JPH07281691A (ja) 1995-10-27

Similar Documents

Publication Publication Date Title
Arons Techniques, perception, and applications of time-compressed speech
JP2955247B2 (ja) 話速変換方法およびその装置
US8484035B2 (en) Modification of voice waveforms to change social signaling
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
EP2388780A1 (en) Apparatus and method for extending or compressing time sections of an audio signal
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
KR20080061747A (ko) 오디오 배속 재생 방법 및 장치
Amano-Kusumoto et al. A review of research on speech intelligibility and correlations with acoustic features
WO2001078066A1 (en) Speech rate conversion
JP3249567B2 (ja) 話速変換方法および装置
JP2612868B2 (ja) 音声の発声速度変換方法
JP3187242B2 (ja) 話速変換装置
JP3220043B2 (ja) 話速変換方法およびその装置
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
JP3219892B2 (ja) リアルタイム話速変換装置
Nakamura et al. A new approach to compensate degeneration of speech intelligibility for elderly listeners-development of a portable real time speech rate conversion system
JP3187241B2 (ja) 話速変換装置
JP3961616B2 (ja) 話速変換方法および話速変換機能付補聴器
JP2009075280A (ja) コンテンツ再生装置
JP3327936B2 (ja) 話速制御型補聴装置
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
JP2002169579A (ja) オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
JP3081469B2 (ja) 話速変換装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090511

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100511

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140511

Year of fee payment: 13

EXPY Cancellation because of completion of term