JPH0883095A - 話速変換方法および装置 - Google Patents
話速変換方法および装置Info
- Publication number
- JPH0883095A JPH0883095A JP6220055A JP22005594A JPH0883095A JP H0883095 A JPH0883095 A JP H0883095A JP 6220055 A JP6220055 A JP 6220055A JP 22005594 A JP22005594 A JP 22005594A JP H0883095 A JPH0883095 A JP H0883095A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- section
- speech
- data
- speed conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
れた出力が得られるようにする。 【構成】 出力バッファ(l)において、話速変換され
た音声を逐次出力しながら、蓄積されている話速変換さ
れた音声データ量があらかじめ定められた量にまで減少
したかどうかをチェックし、減少した場合には、音声合
成部(k)にその出力データの供給を要求する構成とし
た。
Description
ラジオ、テープレコーダ、補聴器などの音響機器や医療
機器などにおいて、発話者の音声を加工して、受聴者の
受聴能力に応じて音声スピードをフィットさせる(話速
変換)場合、その話速が受聴者の操作に即応し、連続的
に変換された出力が得られるようにした話速変換方法お
よび装置に関する。
下する音声識別臨界速度(音声を正確に識別できる最大
の話速)などの受聴能力を補うため、もしくは外国語聴
取時において受聴能力を補うために話速を変換して遅く
したいというニーズが生ずる。このニーズに対し、従来
からさらに話速を引き延ばして遅くし、あるいは逆に圧
縮して速めて出力するいわゆる話速変換の技術が存在す
る。
換においては、話速を遅くする場合、その伸長分を出力
バッファ(バッファメモリー)に逐次蓄積するようにし
ている。そのため受聴途中で話速を元に戻そうとして
も、その蓄積分が出力バッファに蓄積しているため、そ
の蓄積分が出力し終わるまで話速が元に戻らず、従っ
て、既に話速変換された音声データが出力バッファから
完全に出力されない限り、話速を変化できないことにな
る。換言すれば、話速を元に戻す操作をしてから、実際
に話速が元に戻るまでにはタイムディレーを生じるとい
うことである。
さを解消し、出力音声の話速の変化を受聴者の操作に瞬
時に追従させることのできる話速変換方法および装置を
提供することにある。
め、本発明話速変換方法は、話速変換された音声を逐次
出力する出力バッファが、該出力バッファに蓄積されて
いる話速変換された音声データ量があらかじめ定められ
た量にまで減少したとき、話速変換を行う音声合成部に
該音声合成部の出力データの供給を要求するとともに、
該音声合成部が、話速変換用諸データの一時蓄積手段で
あるPISB部に直接に、無音区間延長部およびピッチ
区間延長・繰り返し処理部を介してそれぞれ入力音声デ
ータおよび無声区間の開始点および終了点、無音区間の
開始点および終了点、および有声区間の開始点および終
了点、有声区間のピッチ周期の開始点および終了点、ピ
ッチの個数の供給を要求する過程を少なくとも含んでい
る処理手順により構成されることを特徴とするものであ
る。
を、現時点での音声が無声区間、無音区間および有声区
間のいずれに該当するかを識別してそれぞれに区分し、
それぞれの区分の開始点および終了点を出力する第1の
過程と、該第1の過程により有声区間に区分された音声
について、ピッチ周期を抽出して該ピッチ周期の開始点
および終了点を出力するとともに、前記抽出されたピッ
チ周期についてピッチ周期の区間分割を行い、該分割さ
れたピッチの個数を出力する第2の過程と、前記第1お
よび第2の過程において出力された無声区間、無音区間
および有声区間の各開始点および終了点、有声区間のピ
ッチ周期の開始点および終了点、ピッチの個数、および
入力音声データを話速変換用諸データの一時記憶手段で
あるPISB部に取り込み一時蓄積する第3の過程と、
話速変換された音声を逐次出力する出力バッファは、該
出力バッファに蓄積されている話速変換された音声デー
タ量があらかじめ定められた量にまで減少したとき、話
速変換を行う音声合成部に該音声合成部の出力データの
供給を要求するとともに、該音声合成部は、前記PIS
B部に直接に、無音区間延長部およびピッチ区間延長・
繰り返し処理部を介してそれぞれ入力音声データおよび
無声区間の開始点および終了点、無音区間の開始点およ
び終了点、および有声区間の開始点および終了点、有声
区間のピッチ周期の開始点および終了点、ピッチの個数
の供給を要求する第4の過程と、受聴者の操作により話
速変換の変換倍率を設定する2個の変換倍率設定部から
の命令に基づき、該命令のなされた時刻に、前記無音区
間延長部およびピッチ区間延長・繰り返し処理部は前記
PISB部からそれぞれ当該部に供給されるデータの時
間長を延長してそれぞれ出力する第5の過程とを含んで
いる処理手順により構成されることを特徴とするもので
ある。
声合成段に、話速変換された音声を逐次出力しながら、
蓄積されている話速変換された音声データ量があらかじ
め定められた量にまで減少したかどうかをチェックし、
減少した場合には話速変換を行う音声合成部に該音声合
成部の出力データの供給を要求するTRPMからなる出
力バッファ部を少なくとも含んでいることを特徴とする
ものである。
信号の形態の入力音声の平均パワー、零交差数および自
己相関関数をそれぞれ算出し、それら算出結果の値と各
閾値とをそれぞれ比較することによって入力音声の無声
区間、無音区間および有声区間の識別、有声区間のピッ
チ周期の算出、およびピッチ周期の区間分割を行い得ら
れたそれらデータを音声合成段のPISB部に出力する
手段を含み、請求項2記載の前記第1および第2の過程
を実施するためのTRPMおよびDSPからなる音声分
析段と、話速変換された音声を逐次出力しながら、蓄積
されている話速変換された音声データ量があらかじめ定
められた量にまで減少したかどうかをチェックし、減少
した場合には音声合成部に該音声合成部の出力データの
供給を要求するTRPMからなる出力バッファ部、TR
PMからなる無音区間延長部およびピッチ区間延長・繰
り返し処理部、前記出力バッファ部からの要求に応じ前
記PISB部から直接に、および前記無音区間延長部お
よびピッチ区間延長・繰り返し処理部を介して各種デー
タが供給され、話速変換音声を出力するDSPからなる
音声合成部、TRPMからなる前記PISB部、および
それぞれ前記無音区間延長部およびピッチ区間延長・繰
り返し処理部に時間延長の命令を与える2個のロータリ
ーエンコーダを含んでなり、請求項2記載の前記第3乃
至第5の過程を実施するための音声合成段とで構成され
ていることを特徴とするものである。
を詳細に説明する。図1は本発明による話速変換方法の
処理手順(ブロックダイヤグラム)を示している。以下
にこのブロックダイヤグラムについて説明する。本発明
話速変換方法は、図1において1点鎖線で囲んで示すよ
うに、前段、後段の処理手順に分けられ、前段は入力音
声を分析する音声分析段、後段はその音声分析結果を受
けて話速変換を行う音声合成段である。なお、以下の説
明においては、理解を容易にするため処理手順を8つの
過程に分けて説明しているが、これは特許請求の範囲の
請求項2に記載の5つの過程と実質的に変わるものでは
ない。
ロック(b))、無音区間(ブロック(c))、有声区間(ブロ
ック(d))に区分する。 (2)有声区間はブロック(e) においてさらにピッチ周
期を抽出し、ブロック(f) においてピッチ周期の区間分
割を行う。 (3)無声区間、無音区間、有声区間それぞれの開始点
および終了点、有声区間のピッチ周期の開始点および終
了点、およびそのピッチの個数、さらに原音声データを
一時蓄積するブロック(g) のPISB(区間バッファ)
部に一時蓄積(バッファリング)する。
合成の要求(出力バッファに蓄えられている話速変換デ
ータ量が、例えば、この容量の半分にまで低下した時に
ブロック(k) の音声合成部へ行うデータ要求)により、
ブロック(k) の音声合成部は、ブロック(g) のPISB
部へ処理手順(3) により得られた無声区間、無音区間、
有声区間の開始点および終了点、有声区間のピッチ周期
の開始点および終了点、およびそのピッチの個数、さら
に原音声データを要求し(破線で示す)、話速変換音声
を合成するのに必要なこれらのデータを得る。
換倍率設定部からの無音区間、および有声区間の延長比
率の指示(破線で示す)に従い無音区間延長部(ブロッ
ク(h))とピッチ区間延長・繰り返し処理部(ブロック
(i))において、無音区間の延長、有声区間の延長を行
う。 (6)無声区間、および処理手順(5) で延長された無音
区間、有声区間のそれぞれの音声データをブロック(k)
の音声合成部において合成する(話速変換)する。 (7)音声合成部にて合成された話速変換音声データを
出力バッファ部(ブロック(l))に出力する。 (8)出力バッファ部(ブロック(l))では、逐次、話速
変換音声を出力しながら、出力バッファに蓄えられてい
る話速変換音声データ量が、例えば、この容量の半分に
まで低下したかどうかをチェックし、半分まで低下した
場合には、音声合成部(ブロック(k))にデータ要求をす
る(処理手順(4) に戻る。ただし、処理手順 (1)〜(3)
は新しい入力音声が到来する都度処理を更新する。)。
る。図2は、上記説明した図1の処理手順をハードウェ
ア化した一構成例のブロック線図を示している。図2に
おいては、図1に示す音声分析段および音声合成段用と
してTRPM(トランスピュータモジュール:並列演算
用LSI)およびDSP(ディジタル・シグナル・プロ
セッサ)が各4個、入出力制御用(入力制御としての入
力バッファは音声分析段、出力制御としての出力バッフ
ァは音声合成段にそれぞれ含まれる。)に2個のTRP
Mが、それに加え、A/D変換器、2個のロータリーエ
ンコーダ、およびD/A変換器がそれぞれ話速変換装置
の構成要素として使用される。
A/D変換器(A/D)において16ビット量子化、1
6kHzサンプリングでA/D変換されるが、ここでは
連続して音声を入力するため音声分析段との接続をリン
グバッファ化(TRPM−0)している。音声分析段お
よび音声合成段を構成する4組のモジュールのうち3組
(TRPM−1〜3およびDSP−1〜3)までが音声
分析部(図示の分析A〜C)を担当する。各TRPMは
ダブルバッファ化され、データ転送を高速処理してい
る。また、各モジュールの処理時間を実時間処理が可能
な範囲で均等化している。分析A〜Cまでの分析モジュ
ールは平均パワー、零交差数、自己相関関数をそれぞれ
算出し、これら算出結果と閾値との比較から無声区間、
無音区間、有声区間および有声区間のピッチ周期を識別
し、それらの開始点、終了点の検出、ピッチ周期の区間
分割等を行っている。これら得られた結果を原音声デー
タとともに図示のTRPMで構成されるPISB部にバ
ッファリングする。
M−4およびDSP−4で構成)は出力バッファ(TR
PM−5)からの要求(出力バッファに蓄えられている
話速変換音声データ量が、例えば、この容量の半分にま
で低下したときに音声合成部へ行うデータ要求)によ
り、PISB部にバッファリングされている無声区間、
無音区間、有声区間の開始点、終了点および有声区間の
ピッチ周期情報(ピッチ周期の開始点、終了点およびピ
ッチの個数)、さらに原音声データを読みだす。この読
みだした各種音声データについては、受聴者が2個のロ
ータリーエンコーダ(無音区間倍率制御および有声区間
倍率制御で示してある)の手動操作により話速変換に必
要なパラメータ(無音、有声区間の延長比率)の8ビッ
ト量子化データに基づき、それら無音、有声の各区間の
延長比率に合うように音声合成部(DSP−4で構成さ
れるモジュール)において話速変換して合成された話速
変換音声を得る。
声データを出力バッファ(TRPM−5)へ読み出し、
その出力バッファでは、上述のように、逐次、話速変換
音声を出力しながら、出力バッファに蓄えられている話
速変換音声データ量が、例えば、この容量の半分にまで
低下したかどうかをチェックし、半分にまで低下した場
合には、音声合成部へ出力データの供給を要求する。一
方、出力バッファから出力した話速変換音声はD/A変
換器(D/A)によってアナログ信号の形態の信号に戻
され、適当に増幅されスピーカやヘッドホンに印加され
て受聴者に話速変換された音声を提供する。
したが、本発明は、その原理からしてテレビジョン映像
が表示されるスピード(単位時間当りに表示される映像
フレーム数)の変換を行う技術にもそのままあてはまる
ものである。すなわち映像の場合においては、PISB
部に入力映像データ、および入力映像に関する各種パラ
メータを蓄え、かつ、音声の話速変換で説明したよう
に、出力バッファに蓄積されている速度変換された映像
データ量が例えば半分にまで低下した場合、出力バッフ
ァが映像合成部に出力データの供給を要求するようにし
て、受視者自身の操作により映像の表示速度を変化させ
たとき、装置からの出力映像が受聴者の操作に即応し
て、単位時間当りの映像フレーム数が変化し、連続的に
表示されるようになる。
て受聴者の受聴能力に応じて話速を変化させた場合、そ
の話速が受聴者の操作に即応し、連続的に話速変換され
た出力が得られるようになる。
いる。
のブロック線図を示している。
Claims (4)
- 【請求項1】 入力音声の話速を変換して出力する話速
変換方法において、該話速変換方法は、話速変換された
音声を逐次出力する出力バッファが、該出力バッファに
蓄積されている話速変換された音声データ量があらかじ
め定められた量にまで減少したとき、話速変換を行う音
声合成部に該音声合成部の出力データの供給を要求する
とともに、該音声合成部が、話速変換用諸データの一時
蓄積手段であるPISB部に直接に、無音区間延長部お
よびピッチ区間延長・繰り返し処理部を介してそれぞれ
入力音声データおよび無声区間の開始点および終了点、
無音区間の開始点および終了点、および有声区間の開始
点および終了点、有声区間のピッチ周期の開始点および
終了点、ピッチの個数の供給を要求する過程を少なくと
も含んでいる処理手順により構成されることを特徴とす
る話速変換方法。 - 【請求項2】 入力音声の話速を変換して出力する話速
変換方法において、該話速変換方法は、 入力音声を、現時点での音声が無声区間、無音区間およ
び有声区間のいずれに該当するかを識別してそれぞれに
区分し、それぞれの区分の開始点および終了点を出力す
る第1の過程と、 該第1の過程により有声区間に区分された音声につい
て、ピッチ周期を抽出して該ピッチ周期の開始点および
終了点を出力するとともに、前記抽出されたピッチ周期
についてピッチ周期の区間分割を行い、該分割されたピ
ッチの個数を出力する第2の過程と、 前記第1および第2の過程において出力された無声区
間、無音区間および有声区間の各開始点および終了点、
有声区間のピッチ周期の開始点および終了点、ピッチの
個数、および入力音声データを話速変換用諸データの一
時記憶手段であるPISB部に取り込み一時蓄積する第
3の過程と、 話速変換された音声を逐次出力する出力バッファは、該
出力バッファに蓄積されている話速変換された音声デー
タ量があらかじめ定められた量にまで減少したとき、話
速変換を行う音声合成部に該音声合成部の出力データの
供給を要求するとともに、該音声合成部は、前記PIS
B部に直接に、無音区間延長部およびピッチ区間延長・
繰り返し処理部を介してそれぞれ入力音声データおよび
無声区間の開始点および終了点、無音区間の開始点およ
び終了点、および有声区間の開始点および終了点、有声
区間のピッチ周期の開始点および終了点、ピッチの個数
の供給を要求する第4の過程と、 受聴者の操作により話速変換の変換倍率を設定する2個
の変換倍率設定部からの命令に基づき、該命令のなされ
た時刻に、前記無音区間延長部およびピッチ区間延長・
繰り返し処理部は前記PISB部からそれぞれ当該部に
供給されるデータの時間長を延長してそれぞれ出力する
第5の過程とを含んでいる処理手順により構成されるこ
とを特徴とする話速変換方法。 - 【請求項3】 入力音声の話速を変換して出力する話速
変換装置において、該話速変換装置は、該装置の音声合
成段に、話速変換された音声を逐次出力しながら、蓄積
されている話速変換された音声データ量があらかじめ定
められた量にまで減少したかどうかをチェックし、減少
した場合には話速変換を行う音声合成部に該音声合成部
の出力データの供給を要求するTRPMからなる出力バ
ッファ部を少なくとも含んでいることを特徴とする話速
変換装置。 - 【請求項4】 請求項2記載の話速変換方法を実施する
ための話速変換装置であって、該話速変換装置は、 ディジタル信号の形態の入力音声の平均パワー、零交差
数および自己相関関数をそれぞれ算出し、それら算出結
果の値と各閾値とをそれぞれ比較することによって入力
音声の無声区間、無音区間および有声区間の識別、有声
区間のピッチ周期の算出、およびピッチ周期の区間分割
を行い得られたそれらデータを音声合成段のPISB部
に出力する手段を含み、請求項2記載の前記第1および
第2の過程を実施するためのTRPMおよびDSPから
なる音声分析段と、 話速変換された音声を逐次出力しながら、蓄積されてい
る話速変換された音声データ量があらかじめ定められた
量にまで減少したかどうかをチェックし、減少した場合
には音声合成部に該音声合成部の出力データの供給を要
求するTRPMからなる出力バッファ部、TRPMから
なる無音区間延長部およびピッチ区間延長・繰り返し処
理部、前記出力バッファ部からの要求に応じ前記PIS
B部から直接に、および前記無音区間延長部およびピッ
チ区間延長・繰り返し処理部を介して各種データが供給
され、話速変換音声を出力するDSPからなる音声合成
部、TRPMからなる前記PISB部、およびそれぞれ
前記無音区間延長部およびピッチ区間延長・繰り返し処
理部に時間延長の命令を与える2個のロータリーエンコ
ーダを含んでなり、請求項2記載の前記第3乃至第5の
過程を実施するための音声合成段とで構成されているこ
とを特徴とする話速変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22005594A JP3457393B2 (ja) | 1994-09-14 | 1994-09-14 | 話速変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22005594A JP3457393B2 (ja) | 1994-09-14 | 1994-09-14 | 話速変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0883095A true JPH0883095A (ja) | 1996-03-26 |
JP3457393B2 JP3457393B2 (ja) | 2003-10-14 |
Family
ID=16745231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22005594A Expired - Fee Related JP3457393B2 (ja) | 1994-09-14 | 1994-09-14 | 話速変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3457393B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998041976A1 (fr) * | 1997-03-14 | 1998-09-24 | Nippon Hoso Kyokai | Procede et dispositif permettant de modifier la vitesse des sons vocaux |
US8135592B2 (en) | 2006-03-31 | 2012-03-13 | Fujitsu Limited | Speech synthesizer |
CN107031540A (zh) * | 2017-04-24 | 2017-08-11 | 大陆汽车投资(上海)有限公司 | 适于汽车的声音处理系统及音频处理方法 |
-
1994
- 1994-09-14 JP JP22005594A patent/JP3457393B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998041976A1 (fr) * | 1997-03-14 | 1998-09-24 | Nippon Hoso Kyokai | Procede et dispositif permettant de modifier la vitesse des sons vocaux |
US6205420B1 (en) | 1997-03-14 | 2001-03-20 | Nippon Hoso Kyokai | Method and device for instantly changing the speed of a speech |
US8135592B2 (en) | 2006-03-31 | 2012-03-13 | Fujitsu Limited | Speech synthesizer |
CN107031540A (zh) * | 2017-04-24 | 2017-08-11 | 大陆汽车投资(上海)有限公司 | 适于汽车的声音处理系统及音频处理方法 |
CN107031540B (zh) * | 2017-04-24 | 2020-06-26 | 大陆投资(中国)有限公司 | 适于汽车的声音处理系统及音频处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3457393B2 (ja) | 2003-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2955247B2 (ja) | 話速変換方法およびその装置 | |
US5611018A (en) | System for controlling voice speed of an input signal | |
JP3220043B2 (ja) | 話速変換方法およびその装置 | |
JPH0883095A (ja) | 話速変換方法および装置 | |
JPH09198089A (ja) | 再生速度変換装置 | |
JP3327936B2 (ja) | 話速制御型補聴装置 | |
JP3266124B2 (ja) | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 | |
JP3378672B2 (ja) | 話速変換装置 | |
JP3379348B2 (ja) | ピッチ変換器 | |
JP3432443B2 (ja) | 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体 | |
JP3081469B2 (ja) | 話速変換装置 | |
JP3357742B2 (ja) | 話速変換装置 | |
JPH05307395A (ja) | 音声合成装置 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JPH09152889A (ja) | 話速変換装置 | |
JPH06289895A (ja) | リアルタイム話速変換方法 | |
JP3213388B2 (ja) | 時間軸圧縮伸長方法 | |
JP2002236499A (ja) | 音楽信号圧縮装置、音楽信号圧縮伸張装置及び前処理制御装置 | |
JP2002297200A (ja) | 話速変換装置 | |
JPH07210192A (ja) | 出力データ制御方法及び装置 | |
JPH09146587A (ja) | 話速変換装置 | |
JP2861005B2 (ja) | 音声蓄積再生装置 | |
JPH08292789A (ja) | 話速変換装置 | |
JPS63223696A (ja) | 音声パタ−ン作成方式 | |
JPH08292796A (ja) | 再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090801 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100801 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130801 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140801 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |