JPH08202391A - 話速変換装置 - Google Patents
話速変換装置Info
- Publication number
- JPH08202391A JPH08202391A JP7013171A JP1317195A JPH08202391A JP H08202391 A JPH08202391 A JP H08202391A JP 7013171 A JP7013171 A JP 7013171A JP 1317195 A JP1317195 A JP 1317195A JP H08202391 A JPH08202391 A JP H08202391A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- boundary
- memory
- section
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
(57)【要約】
【目的】 この発明は、音声メモリ内の未読出データ蓄
積量が所定量に達することによりリセット信号が出力さ
れた直後において、単語、音節、句等のまとまりのある
単位文字列の先頭から音声が出力されるようにできる話
速変換装置を提供することを目的とする。 【構成】 音声の所定区間を削除し、当該削除区間の前
後の音声を接続する話速変換装置であって、削除区間後
の音声の先頭が単位文字列の先頭になるように削除区間
を設定したことを特徴とする。
積量が所定量に達することによりリセット信号が出力さ
れた直後において、単語、音節、句等のまとまりのある
単位文字列の先頭から音声が出力されるようにできる話
速変換装置を提供することを目的とする。 【構成】 音声の所定区間を削除し、当該削除区間の前
後の音声を接続する話速変換装置であって、削除区間後
の音声の先頭が単位文字列の先頭になるように削除区間
を設定したことを特徴とする。
Description
【0001】
【産業上の利用分野】この発明は、音声信号の話速を変
える話速変換装置に関し、たとえば、映像を伴うレーザ
ディスク、VTR等の音声の早聞きまたは遅聞きを行う
音声再生装置、聴覚障害者に放送される音声をゆっくり
した聞きやすい音声に変換する聴覚補助装置、ネイティ
ブスピードで話された英語音声をゆっくりした聞きやす
い音声に変換する英語学習器等に利用される話速変換装
置に関する。
える話速変換装置に関し、たとえば、映像を伴うレーザ
ディスク、VTR等の音声の早聞きまたは遅聞きを行う
音声再生装置、聴覚障害者に放送される音声をゆっくり
した聞きやすい音声に変換する聴覚補助装置、ネイティ
ブスピードで話された英語音声をゆっくりした聞きやす
い音声に変換する英語学習器等に利用される話速変換装
置に関する。
【0002】
【従来の技術】たとえば、ビデオテープレコーダ(VT
R)において、2倍速再生等の高速再生を行うと出力音
声速度も標準音声速度の2倍となり、出力音声が聴き取
りにくくなる。そこで、2倍速再生された音声を格納す
る音声メモリを設け、音声メモリの書き込み/読み出し
速度を制御することにより、2倍速再生時に、音声を標
準速度で出力させて、出力音声を聴き取り易くする技術
がすでに開発されている。
R)において、2倍速再生等の高速再生を行うと出力音
声速度も標準音声速度の2倍となり、出力音声が聴き取
りにくくなる。そこで、2倍速再生された音声を格納す
る音声メモリを設け、音声メモリの書き込み/読み出し
速度を制御することにより、2倍速再生時に、音声を標
準速度で出力させて、出力音声を聴き取り易くする技術
がすでに開発されている。
【0003】
【発明が解決しようとする課題】音声メモリの書き込み
/読み出し速度を制御して、2倍速再生時に、音声を標
準速度で出力させる方法においては、入力音声の半分が
削除されてしまう。高速再生時に、内容理解に有用な音
声が削除される割合を少なくするために、本出願人は、
次のような話速変換装置を発明した。
/読み出し速度を制御して、2倍速再生時に、音声を標
準速度で出力させる方法においては、入力音声の半分が
削除されてしまう。高速再生時に、内容理解に有用な音
声が削除される割合を少なくするために、本出願人は、
次のような話速変換装置を発明した。
【0004】つまり、高速再生された音声信号のうち、
無音区間を検出して無音区間を削除する。そして、高速
再生された音声信号のうち、無音区間を除く音声区間の
みの信号に対して時間軸圧縮伸長処理を行って音声メモ
リに記憶させる。この場合、高速再生された音声の発生
速度よりも出力音声速度が遅くなるように圧縮率が設定
される。そして、音声メモリに記憶された音声データを
順次出力していく。この方法においても、音声メモリに
書き込まれているが読み出されていないデータ量(未読
出データ蓄積量)が音声メモリの容量を越えると、リセ
ット信号が出力され、音声メモリに蓄積されている音声
データは削除される。つまり、リセット信号が出力され
た時点で蓄積されている音声データは出力されなくな
る。
無音区間を検出して無音区間を削除する。そして、高速
再生された音声信号のうち、無音区間を除く音声区間の
みの信号に対して時間軸圧縮伸長処理を行って音声メモ
リに記憶させる。この場合、高速再生された音声の発生
速度よりも出力音声速度が遅くなるように圧縮率が設定
される。そして、音声メモリに記憶された音声データを
順次出力していく。この方法においても、音声メモリに
書き込まれているが読み出されていないデータ量(未読
出データ蓄積量)が音声メモリの容量を越えると、リセ
ット信号が出力され、音声メモリに蓄積されている音声
データは削除される。つまり、リセット信号が出力され
た時点で蓄積されている音声データは出力されなくな
る。
【0005】図11は、2倍速再生時の音声メモリ内の
未読出データ蓄積量の変化、入力音声および出力音声の
一例を示している。無音区間の入力音声信号は、音声メ
モリに入力されない。このため、無音区間の音声信号が
入力されている期間では、音声メモリへのデータ入力は
なしでデータ出力のみとなるので、音声データの蓄積量
は減少している。
未読出データ蓄積量の変化、入力音声および出力音声の
一例を示している。無音区間の入力音声信号は、音声メ
モリに入力されない。このため、無音区間の音声信号が
入力されている期間では、音声メモリへのデータ入力は
なしでデータ出力のみとなるので、音声データの蓄積量
は減少している。
【0006】また、この例では、未読出データ蓄積量が
音声メモリの容量に達すると、リセット信号が出力さ
れ、音声メモリ内の全音声データが削除されている。そ
して、リセット後においては、引き続いて、音声データ
が音声メモリに記憶されていくとともに、リセット後に
記憶された音声データが順次出力されていく。
音声メモリの容量に達すると、リセット信号が出力さ
れ、音声メモリ内の全音声データが削除されている。そ
して、リセット後においては、引き続いて、音声データ
が音声メモリに記憶されていくとともに、リセット後に
記憶された音声データが順次出力されていく。
【0007】しかしながら、リセット直後において、入
力される音声データの開始点は、単語、文節、句等のま
とまりのある単位文字列の最初になるとは限らないた
め、リセット直後に入力された音声データが出力された
ときには、その出力音声が内容不明の音声となることが
多い。
力される音声データの開始点は、単語、文節、句等のま
とまりのある単位文字列の最初になるとは限らないた
め、リセット直後に入力された音声データが出力された
ときには、その出力音声が内容不明の音声となることが
多い。
【0008】この発明は、音声メモリ内の未読出データ
蓄積量が所定量に達することによりリセット信号が出力
された直後において、単語、音節、句等のまとまりのあ
る単位文字列の先頭から音声が出力されるようにでき、
リセット信号が出力された直後において内容不明の音声
が出力されるのを回避できる話速変換装置を提供するこ
とを目的とする。
蓄積量が所定量に達することによりリセット信号が出力
された直後において、単語、音節、句等のまとまりのあ
る単位文字列の先頭から音声が出力されるようにでき、
リセット信号が出力された直後において内容不明の音声
が出力されるのを回避できる話速変換装置を提供するこ
とを目的とする。
【0009】
【課題を解決するための手段】この発明による第1の話
速変換装置は、音声の所定区間を削除し、当該削除区間
の前後の音声を接続する話速変換装置であって、削除区
間後の音声の先頭が単位文字列の先頭になるように削除
区間を設定したことを特徴とする。
速変換装置は、音声の所定区間を削除し、当該削除区間
の前後の音声を接続する話速変換装置であって、削除区
間後の音声の先頭が単位文字列の先頭になるように削除
区間を設定したことを特徴とする。
【0010】この発明による第2の話速変換装置は、入
力音声信号から得られた音声データを音声メモリに順次
書き込んだ後、音声メモリ内の音声データを順次読み出
して出力する話速変換装置であって、入力音声信号を分
析して音声の境界位置を検出し、検出された音声の境界
位置に対応する音声データの音声メモリへの書き込みア
ドレスを保持する境界位置検出手段、および音声メモリ
内の未読出データ蓄積量が所定量に達したときに、音声
データ読み出しアドレスを、境界位置検出手段に保持さ
れているアドレスに変更する手段を備えていることを特
徴とする。
力音声信号から得られた音声データを音声メモリに順次
書き込んだ後、音声メモリ内の音声データを順次読み出
して出力する話速変換装置であって、入力音声信号を分
析して音声の境界位置を検出し、検出された音声の境界
位置に対応する音声データの音声メモリへの書き込みア
ドレスを保持する境界位置検出手段、および音声メモリ
内の未読出データ蓄積量が所定量に達したときに、音声
データ読み出しアドレスを、境界位置検出手段に保持さ
れているアドレスに変更する手段を備えていることを特
徴とする。
【0011】この発明による第3の話速変換装置は、入
力音声信号から得られた音声データが順次書き込まれる
音声メモリおよび音声メモリ内の音声データを順次読み
出して出力する出力手段を備えた話速変換装置であっ
て、入力音声信号を分析して音声の境界位置を検出する
境界位置検出手段、検出された音声の境界位置に対応す
る音声データの音声メモリへの書き込みアドレスを記憶
する境界位置記憶手段、および音声メモリ内の未読出デ
ータ蓄積量が所定量に達したときに、音声データ読み出
しアドレスを、境界位置記録手段に記憶されているアド
レスに変更する手段を備えていることを特徴とする。
力音声信号から得られた音声データが順次書き込まれる
音声メモリおよび音声メモリ内の音声データを順次読み
出して出力する出力手段を備えた話速変換装置であっ
て、入力音声信号を分析して音声の境界位置を検出する
境界位置検出手段、検出された音声の境界位置に対応す
る音声データの音声メモリへの書き込みアドレスを記憶
する境界位置記憶手段、および音声メモリ内の未読出デ
ータ蓄積量が所定量に達したときに、音声データ読み出
しアドレスを、境界位置記録手段に記憶されているアド
レスに変更する手段を備えていることを特徴とする。
【0012】この発明による第2および第3の話速変換
装置において、入力音声信号のうち、無音区間の音声を
削除し、音声区間の音声信号を時間軸圧縮伸長処理し、
時間軸圧縮伸長処理結果を音声データとして音声メモリ
に順次書き込むようにしてもよい。
装置において、入力音声信号のうち、無音区間の音声を
削除し、音声区間の音声信号を時間軸圧縮伸長処理し、
時間軸圧縮伸長処理結果を音声データとして音声メモリ
に順次書き込むようにしてもよい。
【0013】この発明による第2および第3の話速変換
装置における境界位置検出手段としては、たとえば、入
力音声信号の無音区間と音声区間との境界を音声境界と
して検出するもの、入力音声信号から入力音声の高低変
化に基づいて、アクセント句の境界を、音声境界として
検出するもの等が用いられる。
装置における境界位置検出手段としては、たとえば、入
力音声信号の無音区間と音声区間との境界を音声境界と
して検出するもの、入力音声信号から入力音声の高低変
化に基づいて、アクセント句の境界を、音声境界として
検出するもの等が用いられる。
【0014】
【作用】この発明による第1の話速変換装置では、削除
区間後の音声の先頭が単位文字列の先頭になるように削
除区間が設定される。
区間後の音声の先頭が単位文字列の先頭になるように削
除区間が設定される。
【0015】この発明による第2または第3の話速変換
装置では、入力音声信号が分析されて音声の境界位置が
検出される。検出された音声の境界位置に対応する音声
データの音声メモリへの書き込みアドレスが保持され
る。そして、音声メモリ内の未読出データ蓄積量が所定
量に達したときに、音声データ読み出しアドレスが、境
界位置検出手段に保持されているアドレスに変更され
る。
装置では、入力音声信号が分析されて音声の境界位置が
検出される。検出された音声の境界位置に対応する音声
データの音声メモリへの書き込みアドレスが保持され
る。そして、音声メモリ内の未読出データ蓄積量が所定
量に達したときに、音声データ読み出しアドレスが、境
界位置検出手段に保持されているアドレスに変更され
る。
【0016】
【実施例】以下、図面を参照して、この発明をビデオテ
ープレコーダに適用した場合の実施例について説明す
る。
ープレコーダに適用した場合の実施例について説明す
る。
【0017】図1〜図3は、この発明の第1実施例を示
している。図1は、ビデオテープレコーダ(VTR)の
概略構成を示している。なお、以下においては、2倍速
再生時の動作を中心にして説明する。
している。図1は、ビデオテープレコーダ(VTR)の
概略構成を示している。なお、以下においては、2倍速
再生時の動作を中心にして説明する。
【0018】キャプスタンサーボ回路1は、コントロー
ルヘッド2からのコントロール信号およびキャプスタン
3からの速度信号に基づいて、ビデオテープ5の走行速
度が一定速度になるように、キャプスタンモータ4を制
御する。なお、2倍速再生時には、ビデオテープ5の走
行速度が標準再生時の速度の2倍となるように、キャプ
スタンモータ4が制御される。
ルヘッド2からのコントロール信号およびキャプスタン
3からの速度信号に基づいて、ビデオテープ5の走行速
度が一定速度になるように、キャプスタンモータ4を制
御する。なお、2倍速再生時には、ビデオテープ5の走
行速度が標準再生時の速度の2倍となるように、キャプ
スタンモータ4が制御される。
【0019】ビデオヘッド6は、ビデオテープ5の映像
トラックを再生する。回転ヘッド6は、ヘッドスイッチ
ング回路7により所定の順序で切り換え出力され、映像
再生回路8で映像信号に変換される。
トラックを再生する。回転ヘッド6は、ヘッドスイッチ
ング回路7により所定の順序で切り換え出力され、映像
再生回路8で映像信号に変換される。
【0020】オーデオヘッド9は、ビデオテープ5のオ
ーディオトラックを再生する。再生された音声信号は、
話速変換回路10に送られる。
ーディオトラックを再生する。再生された音声信号は、
話速変換回路10に送られる。
【0021】図2は、話速変換回路10の構成を示して
いる。入力音声信号は、A/D変換器11によって、デ
ィジタル信号に変換される。標準サンプリング周波数を
fSOとすると、n倍速再生時にはA/D変換器11のサ
ンプリング周波数はnfSOとなる。たとえば、2倍速再
生時にはA/D変換器11のサンプリング周波数は2f
SOとなる。
いる。入力音声信号は、A/D変換器11によって、デ
ィジタル信号に変換される。標準サンプリング周波数を
fSOとすると、n倍速再生時にはA/D変換器11のサ
ンプリング周波数はnfSOとなる。たとえば、2倍速再
生時にはA/D変換器11のサンプリング周波数は2f
SOとなる。
【0022】A/D変換器11から出力される音声デー
タは、音声処理用メモリ12に一時的に格納される。音
声処理用メモリ12は、2フレーム分の音声データを記
憶できる容量を有している。つまり、音声処理用メモリ
12は、それぞれ1フレーム分の音声データを格納でき
る2つの記憶領域を有している。1フレームは、予め定
められた数の音声データから構成される。音声処理用メ
モリ12の1フレーム分には、たとえば、約10〜30
msecの音声が記憶される。
タは、音声処理用メモリ12に一時的に格納される。音
声処理用メモリ12は、2フレーム分の音声データを記
憶できる容量を有している。つまり、音声処理用メモリ
12は、それぞれ1フレーム分の音声データを格納でき
る2つの記憶領域を有している。1フレームは、予め定
められた数の音声データから構成される。音声処理用メ
モリ12の1フレーム分には、たとえば、約10〜30
msecの音声が記憶される。
【0023】音声処理用メモリ12の一方の記憶領域に
格納された1フレーム分の音声データに対して音声圧縮
伸長回路13による話速変換処理が施されると同時に、
他方の記憶領域に次の新たな1フレーム分の音声データ
が格納されていく。そして、この他方の記憶領域に1フ
レーム分の音声データが格納されると、今度はその領域
内の音声データに対して話速変換処理が行われると同時
に、既に話速変換処理が行われた音声データが格納され
ていた上記一方の記憶領域に次の新たな1フレーム分の
音声データが格納されていく。音声圧縮伸長回路13の
動作については、後述する。
格納された1フレーム分の音声データに対して音声圧縮
伸長回路13による話速変換処理が施されると同時に、
他方の記憶領域に次の新たな1フレーム分の音声データ
が格納されていく。そして、この他方の記憶領域に1フ
レーム分の音声データが格納されると、今度はその領域
内の音声データに対して話速変換処理が行われると同時
に、既に話速変換処理が行われた音声データが格納され
ていた上記一方の記憶領域に次の新たな1フレーム分の
音声データが格納されていく。音声圧縮伸長回路13の
動作については、後述する。
【0024】音声圧縮伸長回路13によって話速変換処
理が施された音声データは、書き込みクロックにしたが
って、音声メモリ回路14内のリングメモリ31(図3
参照)に書き込まれる。ここで、リングメモリとは、リ
ング構造(ring structure)を有するメモリをいう。リ
ング構造とは、連鎖リストの最後の項目のポインタが先
頭の項目を指すようにつながれたものをいう。リングメ
モリ31は、RAM構成であり、たとえば、約3秒分の
音声が記憶される。
理が施された音声データは、書き込みクロックにしたが
って、音声メモリ回路14内のリングメモリ31(図3
参照)に書き込まれる。ここで、リングメモリとは、リ
ング構造(ring structure)を有するメモリをいう。リ
ング構造とは、連鎖リストの最後の項目のポインタが先
頭の項目を指すようにつながれたものをいう。リングメ
モリ31は、RAM構成であり、たとえば、約3秒分の
音声が記憶される。
【0025】リングメモリ31に書き込まれた音声デー
タは、読み出しクロックにしたがって順次読み出され、
D/A変換器15によってアナログ信号に変換されて出
力される。D/A変換器15のサンプリング周波数は、
再生速度にかかわらず、標準サンプリング周波数fSOに
設定されている。また、リングメモリ31の読み出しク
ロックの周波数も、標準サンプリング周波数fSOに設定
されている。このため、高速再生時においても、出力音
声の音程は元の音程となる。
タは、読み出しクロックにしたがって順次読み出され、
D/A変換器15によってアナログ信号に変換されて出
力される。D/A変換器15のサンプリング周波数は、
再生速度にかかわらず、標準サンプリング周波数fSOに
設定されている。また、リングメモリ31の読み出しク
ロックの周波数も、標準サンプリング周波数fSOに設定
されている。このため、高速再生時においても、出力音
声の音程は元の音程となる。
【0026】無声区間検出部21は、音声処理用メモリ
12に格納された1フレーム分の音声データが無音区間
であるか音声区間であるかを判定し、その判定結果信号
を制御部20に送る。制御部20は、話速変換回路10
の各機器を制御するものである。
12に格納された1フレーム分の音声データが無音区間
であるか音声区間であるかを判定し、その判定結果信号
を制御部20に送る。制御部20は、話速変換回路10
の各機器を制御するものである。
【0027】無音区間であるか音声区間であるかの判定
は、たとえば、音声処理用メモリ12に格納された1フ
レーム分の音声データのパワー平均が所与のしきい値以
上か否かによって行われる。つまり、パワー平均が所与
のしきい値以上であれば、音声区間と判別され、パワー
平均が所与のしきい値より小さければ、無音区間と判定
される。
は、たとえば、音声処理用メモリ12に格納された1フ
レーム分の音声データのパワー平均が所与のしきい値以
上か否かによって行われる。つまり、パワー平均が所与
のしきい値以上であれば、音声区間と判別され、パワー
平均が所与のしきい値より小さければ、無音区間と判定
される。
【0028】より具体的に説明すると、音声処理用メモ
リ12から読み出された1フレーム分の音声データの平
均パワー値Pが計算される。この平均パワー値Pは、サ
ンプリングされた1フレーム内の各音声データの振幅を
i0 ,i1 ,…iN -1(Nは1フレーム分の音声データ
数)とすると、次の数式1によって算出される。
リ12から読み出された1フレーム分の音声データの平
均パワー値Pが計算される。この平均パワー値Pは、サ
ンプリングされた1フレーム内の各音声データの振幅を
i0 ,i1 ,…iN -1(Nは1フレーム分の音声データ
数)とすると、次の数式1によって算出される。
【0029】
【数1】
【0030】算出された平均パワー値Pは、しきい値T
h1と比較される。平均パワー値Pがしきい値Th1以
上(P≧Th1)のときには、現フレームが音声区間で
あることを示す信号が、平均パワー値Pがしきい値Th
1より小さい(P<Th1)ときには、現フレームが無
音区間であることを示す信号が、無音区間検出部21か
ら出力される。
h1と比較される。平均パワー値Pがしきい値Th1以
上(P≧Th1)のときには、現フレームが音声区間で
あることを示す信号が、平均パワー値Pがしきい値Th
1より小さい(P<Th1)ときには、現フレームが無
音区間であることを示す信号が、無音区間検出部21か
ら出力される。
【0031】無音区間検出部21は、また、音声境界信
号をも生成する。つまり、無音区間と音声区間との境界
を検出することによって音声境界を検出する。無音区間
検出部21は、音声境界を検出したときに、音声境界信
号を生成して音声メモリ回路14に出力する。
号をも生成する。つまり、無音区間と音声区間との境界
を検出することによって音声境界を検出する。無音区間
検出部21は、音声境界を検出したときに、音声境界信
号を生成して音声メモリ回路14に出力する。
【0032】蓄積量検出部22は、リングメモリ31の
書き込みアドレスと読出アドレスとに基づいて、リング
メモリ31内に書き込まれているが読み出されていない
音声データ量(未読出データ蓄積量)を算出する。蓄積
量検出部22によって求められた未読出データ蓄積量
は、制御部20に送られる。
書き込みアドレスと読出アドレスとに基づいて、リング
メモリ31内に書き込まれているが読み出されていない
音声データ量(未読出データ蓄積量)を算出する。蓄積
量検出部22によって求められた未読出データ蓄積量
は、制御部20に送られる。
【0033】蓄積量検出部22は、また、算出した未読
出データ蓄積量が所定量に達したときにリセット信号を
音声メモリ回路14に出力する。ここでは、未読出デー
タ蓄積量がリングメモリ31の容量分に達したときにリ
セット信号が出力されるものとする。
出データ蓄積量が所定量に達したときにリセット信号を
音声メモリ回路14に出力する。ここでは、未読出デー
タ蓄積量がリングメモリ31の容量分に達したときにリ
セット信号が出力されるものとする。
【0034】制御部20は、無音区間の音声データを削
除する。つまり、無音区間の音声データが、リングメモ
リ31に書き込まれるのを禁止する。
除する。つまり、無音区間の音声データが、リングメモ
リ31に書き込まれるのを禁止する。
【0035】音声圧縮伸長回路13は、音声区間の音声
データに対して、VTRの再生速度倍率をnとして、1
/n以上の圧縮率で時間軸圧縮伸長処理を行う。ここで
用いられる時間軸圧縮伸長法としては、たとえば、ポイ
ンター移動制御による重複加算法(Pointer Interval C
ontrol Overlap and Add : PICOLA)、TDHS(Time Domain
Harmonic Scaling)法等がある。
データに対して、VTRの再生速度倍率をnとして、1
/n以上の圧縮率で時間軸圧縮伸長処理を行う。ここで
用いられる時間軸圧縮伸長法としては、たとえば、ポイ
ンター移動制御による重複加算法(Pointer Interval C
ontrol Overlap and Add : PICOLA)、TDHS(Time Domain
Harmonic Scaling)法等がある。
【0036】音声圧縮伸長回路13では、2倍速再生時
においては、1/2≦α≦1の範囲内から決定された圧
縮率αで、音声データが圧縮される。圧縮率αが1/2
である場合には、標準サンプリング周波数fSOの2倍の
サンプリング周波数でサンプリングされた音声データの
2ピッチ周期が1ピッチ周期に間引かれる。そして、こ
の圧縮された音声データがリングメモリ33に書き込ま
れ、標準サンプリング周波数fSOで読み出されるため、
出力音声速度は標準音声速度の2倍となり、音程は標準
再生速度時の音程となる。
においては、1/2≦α≦1の範囲内から決定された圧
縮率αで、音声データが圧縮される。圧縮率αが1/2
である場合には、標準サンプリング周波数fSOの2倍の
サンプリング周波数でサンプリングされた音声データの
2ピッチ周期が1ピッチ周期に間引かれる。そして、こ
の圧縮された音声データがリングメモリ33に書き込ま
れ、標準サンプリング周波数fSOで読み出されるため、
出力音声速度は標準音声速度の2倍となり、音程は標準
再生速度時の音程となる。
【0037】圧縮率が1である場合には、標準サンプリ
ング周波数fSOの2倍のサンプリング周波数でサンプリ
ングされた音声データは、時間軸圧縮伸長処理が施され
ることなくそのままリングメモリ33に書き込まれ、標
準サンプリング周波数fSOで読み出されるため、出力音
声速度は標準音声速度となる。この場合も、音程は標準
再生速度時の音程となる。したがって、出力音声速度が
標準音声速度の1倍以上で2倍以下の範囲内で、圧縮率
αが設定される。
ング周波数fSOの2倍のサンプリング周波数でサンプリ
ングされた音声データは、時間軸圧縮伸長処理が施され
ることなくそのままリングメモリ33に書き込まれ、標
準サンプリング周波数fSOで読み出されるため、出力音
声速度は標準音声速度となる。この場合も、音程は標準
再生速度時の音程となる。したがって、出力音声速度が
標準音声速度の1倍以上で2倍以下の範囲内で、圧縮率
αが設定される。
【0038】たとえば、圧縮率αが2/3に設定された
とすると、標準サンプリング周波数fSOの2倍のサンプ
リング周波数でサンプリングされた音声データの3ピッ
チ周期が2ピッチ周期に間引かれる。そして、この圧縮
された音声データが標準サンプリング周波数fSOで読み
出されるため、出力音声速度は、標準音声速度の3/2
倍となる。
とすると、標準サンプリング周波数fSOの2倍のサンプ
リング周波数でサンプリングされた音声データの3ピッ
チ周期が2ピッチ周期に間引かれる。そして、この圧縮
された音声データが標準サンプリング周波数fSOで読み
出されるため、出力音声速度は、標準音声速度の3/2
倍となる。
【0039】なお、圧縮率αを、再生速度倍率nに応じ
た範囲内で、自動的に変更するようにしてもよい。すな
わち、リングメモリ31内の未読出データ蓄積量が多く
なるほど、圧縮率αの値が小さくなるように、つまり出
力音声速度が速くなるように、そして、リングメモリ3
1内の未読出データ蓄積量が少なくなるほど、圧縮率α
の値が大きくなるように、つまり、出力音声速度が遅く
なるように、圧縮率αを自動的に変更するようにしても
よい。
た範囲内で、自動的に変更するようにしてもよい。すな
わち、リングメモリ31内の未読出データ蓄積量が多く
なるほど、圧縮率αの値が小さくなるように、つまり出
力音声速度が速くなるように、そして、リングメモリ3
1内の未読出データ蓄積量が少なくなるほど、圧縮率α
の値が大きくなるように、つまり、出力音声速度が遅く
なるように、圧縮率αを自動的に変更するようにしても
よい。
【0040】PICORAを用いて、入力信号(音声圧
縮伸長回路13への入力音声データ)を圧縮率2/3で
圧縮する方法について、図4を用いて簡単に説明する。
まず、入力信号からピッチ周期が抽出される。抽出され
たピッチ周期をTpとする。波形Aに対しては、1から
0へ直線的に向かう重み(重み関数K1)がつけられ
て、波形A’が作成される。波形Bに対しては0から1
に向かう重み(重み関数K2)がつけられて、波形B’
が作成される。
縮伸長回路13への入力音声データ)を圧縮率2/3で
圧縮する方法について、図4を用いて簡単に説明する。
まず、入力信号からピッチ周期が抽出される。抽出され
たピッチ周期をTpとする。波形Aに対しては、1から
0へ直線的に向かう重み(重み関数K1)がつけられ
て、波形A’が作成される。波形Bに対しては0から1
に向かう重み(重み関数K2)がつけられて、波形B’
が作成される。
【0041】そして、これらの波形A’およびB’が加
え合わされ、長さTpの波形A’*B’が作成される。
これらの重みは、波形A’*B’の前後の接続点での連
続性を保つためにつけられている。次に、ポインター
が、圧縮率に基づいて決定される長さである3Tp分だ
け移動され、同様な操作が行われる。これにより、3つ
の波形A、B、Cから2つの波形A’*B’とCとが得
られる。このようにして、3ピッチ周期分の信号が、2
ピッチ周期分の信号に圧縮される。
え合わされ、長さTpの波形A’*B’が作成される。
これらの重みは、波形A’*B’の前後の接続点での連
続性を保つためにつけられている。次に、ポインター
が、圧縮率に基づいて決定される長さである3Tp分だ
け移動され、同様な操作が行われる。これにより、3つ
の波形A、B、Cから2つの波形A’*B’とCとが得
られる。このようにして、3ピッチ周期分の信号が、2
ピッチ周期分の信号に圧縮される。
【0042】図3は、音声メモリ回路14の構成を示し
ている。入力アドレスポインタ32は、リングメモリ3
1に音声データを入力するアドレスを指定するポインタ
である。入力アドレスポインタ32による指定アドレス
は、リングメモリ31の書き込みクロックにしたがって
更新される。
ている。入力アドレスポインタ32は、リングメモリ3
1に音声データを入力するアドレスを指定するポインタ
である。入力アドレスポインタ32による指定アドレス
は、リングメモリ31の書き込みクロックにしたがって
更新される。
【0043】出力アドレスポインタ33は、リングメモ
リ31から音声データを読み出すアドレスを指定するポ
インタである。出力アドレスポインタ33による指定ア
ドレスは、リングメモリ31の読み出しクロックにした
がって更新される。
リ31から音声データを読み出すアドレスを指定するポ
インタである。出力アドレスポインタ33による指定ア
ドレスは、リングメモリ31の読み出しクロックにした
がって更新される。
【0044】出力アドレスポインタ33で指定されたア
ドレスから、アドレスを順方向に追って入力アドレスポ
インタ32で指定されたアドレスまで、の間に蓄積され
ている音声データ量が、未読出データ蓄積量である。
ドレスから、アドレスを順方向に追って入力アドレスポ
インタ32で指定されたアドレスまで、の間に蓄積され
ている音声データ量が、未読出データ蓄積量である。
【0045】無音区間検出部21からの音声境界信号
は、音声境界設定部34に送られてくる。音声境界設定
部34は、無音区間検出部21によって検出された音声
境界に対応する音声データが入力されるアドレス(以
下、音声境界アドレスという)を入力アドレスポインタ
32から取得して、音声境界ポインタ35に設定する。
音声境界設定部34は、音声境界設定部34に音声境界
信号が送られてくる度に、音声境界アドレスを獲得して
音声境界ポインタ35に設定するので、音声境界ポイン
タ35には最新の音声境界アドレスのみが記憶される。
は、音声境界設定部34に送られてくる。音声境界設定
部34は、無音区間検出部21によって検出された音声
境界に対応する音声データが入力されるアドレス(以
下、音声境界アドレスという)を入力アドレスポインタ
32から取得して、音声境界ポインタ35に設定する。
音声境界設定部34は、音声境界設定部34に音声境界
信号が送られてくる度に、音声境界アドレスを獲得して
音声境界ポインタ35に設定するので、音声境界ポイン
タ35には最新の音声境界アドレスのみが記憶される。
【0046】蓄積量検出部22からのリセット信号は、
出力ポインタ初期化部36に送られる。出力ポインタ初
期化部36は、リセット信号が入力されたときに、音声
境界ポインタ35に設定されている音声境界アドレスが
出力アドレスとして指定されるように、出力アドレスポ
インタ33を制御する。
出力ポインタ初期化部36に送られる。出力ポインタ初
期化部36は、リセット信号が入力されたときに、音声
境界ポインタ35に設定されている音声境界アドレスが
出力アドレスとして指定されるように、出力アドレスポ
インタ33を制御する。
【0047】図5は、2倍速再生時のリングメモリ31
の未読出データ蓄積量の変化と、2倍速入力音声と、出
力音声との一例を示している。無音区間の2倍速入力音
声信号は、音声メモリに入力されない。このため、無音
区間の音声信号が入力されている期間では、音声メモリ
へのデータ入力はなく、データ出力のみとなるので、未
読出データ蓄積量は減少する。
の未読出データ蓄積量の変化と、2倍速入力音声と、出
力音声との一例を示している。無音区間の2倍速入力音
声信号は、音声メモリに入力されない。このため、無音
区間の音声信号が入力されている期間では、音声メモリ
へのデータ入力はなく、データ出力のみとなるので、未
読出データ蓄積量は減少する。
【0048】音声区間の2倍速入力音声信号に対して
は、時間軸圧縮伸長処理が行われた後(ただし、圧縮率
αが1のときには時間軸圧縮伸長処理は行われない)の
音声データが、リングメモリ31に書き込まれる。この
ため、未読出データ蓄積量は増加する。
は、時間軸圧縮伸長処理が行われた後(ただし、圧縮率
αが1のときには時間軸圧縮伸長処理は行われない)の
音声データが、リングメモリ31に書き込まれる。この
ため、未読出データ蓄積量は増加する。
【0049】図6に示すように、今、リングメモリ31
のあるアドレスAxにおいて、入力アドレスポインタ3
2による書き込みアドレス(書き込みアドレスの変化を
矢印W1で示す)が、出力アドレスポインタ33による
読み出しアドレス(読み出しアドレスの変化を矢印R1
で示す)に追いついたとする。そうすると、未読出デー
タ蓄積量がリングメモリ31の容量に達するので、リセ
ット信号が蓄積量検出部22から出力され、音声メモリ
回路14の出力アドレスポインタ初期化部36に送られ
る。この時点では、未読み出しの音声データがリングメ
モリ31の容量分蓄積されている。
のあるアドレスAxにおいて、入力アドレスポインタ3
2による書き込みアドレス(書き込みアドレスの変化を
矢印W1で示す)が、出力アドレスポインタ33による
読み出しアドレス(読み出しアドレスの変化を矢印R1
で示す)に追いついたとする。そうすると、未読出デー
タ蓄積量がリングメモリ31の容量に達するので、リセ
ット信号が蓄積量検出部22から出力され、音声メモリ
回路14の出力アドレスポインタ初期化部36に送られ
る。この時点では、未読み出しの音声データがリングメ
モリ31の容量分蓄積されている。
【0050】出力アドレスポインタ初期化部36は、音
声境界ポインタ35に記憶されている音声境界アドレス
Ayが、読み出しアドレスとなるように出力アドレスポ
インタ33を制御する。したがって、リセット信号出力
直後においては、読み出しアドレスの変化をR2で示す
ように、音声境界アドレスAyから音声データが読み出
されて出力される。
声境界ポインタ35に記憶されている音声境界アドレス
Ayが、読み出しアドレスとなるように出力アドレスポ
インタ33を制御する。したがって、リセット信号出力
直後においては、読み出しアドレスの変化をR2で示す
ように、音声境界アドレスAyから音声データが読み出
されて出力される。
【0051】この結果、リセット信号出力直後において
は、まとまりのある単位文字列の先頭から音声データが
読み出される。また、入力アドレスポインタ32による
書き込みアドレスが、出力アドレスポインタ33による
読み出しアドレスに追いついたアドレスAxから、音声
境界アドレスAyまでに蓄積されている音声データは、
読み出されなくなる。つまり、削除される。
は、まとまりのある単位文字列の先頭から音声データが
読み出される。また、入力アドレスポインタ32による
書き込みアドレスが、出力アドレスポインタ33による
読み出しアドレスに追いついたアドレスAxから、音声
境界アドレスAyまでに蓄積されている音声データは、
読み出されなくなる。つまり、削除される。
【0052】図5の例では、リセット信号が出力される
前に、入力音声のまとまりのある単位文字列”なくては
ならない”の先頭位置が音声境界位置であると検出され
ている。そして、リセット信号が出力されると、”なく
てはならない”の先頭の”な”が格納されているリング
メモリ31のアドレスが出力アドレスポインタ33によ
って指定される。したがって、リセット信号が出力され
た直後においては、まとまりのある単位文字列の最初か
ら音声が出力される。このため、リセット信号が出力さ
れた直後において意味のわからない音声が出力されるの
を回避できる。
前に、入力音声のまとまりのある単位文字列”なくては
ならない”の先頭位置が音声境界位置であると検出され
ている。そして、リセット信号が出力されると、”なく
てはならない”の先頭の”な”が格納されているリング
メモリ31のアドレスが出力アドレスポインタ33によ
って指定される。したがって、リセット信号が出力され
た直後においては、まとまりのある単位文字列の最初か
ら音声が出力される。このため、リセット信号が出力さ
れた直後において意味のわからない音声が出力されるの
を回避できる。
【0053】図7は、他の話速変換回路の例を示してい
る。図7において、図2と同じものには、同じ符号を付
してその説明を省略する。
る。図7において、図2と同じものには、同じ符号を付
してその説明を省略する。
【0054】この話速変換回路では、音声境界を検出す
る方法のみが図2の話速変換回路と異なっている。この
話速変換回路では、無音区間判定部21が音声境界を検
出しない代わりに、音声境界を検出するための音声境界
検出部23が付加されている。音声メモリ回路14の構
成および動作は、図3に示すものと同様である。
る方法のみが図2の話速変換回路と異なっている。この
話速変換回路では、無音区間判定部21が音声境界を検
出しない代わりに、音声境界を検出するための音声境界
検出部23が付加されている。音声メモリ回路14の構
成および動作は、図3に示すものと同様である。
【0055】この音声境界検出部23は、入力音声デー
タのピッチ関数の変化率に基づいて、アクセント句の境
界を検出する。アクセント句の境界を検出する方法につ
いて説明する。
タのピッチ関数の変化率に基づいて、アクセント句の境
界を検出する。アクセント句の境界を検出する方法につ
いて説明する。
【0056】図8(a)は、入力音声のピッチパターン
(ピッチ関数)を示している。図8(a)に示すように
各アクセント句は、声の高さが一旦上昇した後ゆるやか
に下降する。したがって、隣り合うアクセント句の境界
においては、ピッチパターンが低いところから急激に上
昇する。つまり、隣り合うアクセント句の境界において
は、ピッチパターンの「立て直し」が生じる。
(ピッチ関数)を示している。図8(a)に示すように
各アクセント句は、声の高さが一旦上昇した後ゆるやか
に下降する。したがって、隣り合うアクセント句の境界
においては、ピッチパターンが低いところから急激に上
昇する。つまり、隣り合うアクセント句の境界において
は、ピッチパターンの「立て直し」が生じる。
【0057】図8(b)は、図8(a)のピッチ関数の
微分関数であり、ピッチ関数の変化率を表している。隣
り合うアクセント句の境界においては、ピッチ関数の変
化率が大きくなる。ピッチ関数の変化率が所定のしきい
値Th2を越えたときに、ピッチパターンの「立て直
し」が生じたと判定される。そして、たとえば、しきい
値Th2を越えた各区間の中央が、アクセント句の境界
として検出される。音声境界検出部23は、アクセント
句の境界を検出したときには、音声境界信号を音声メモ
リ回路14内の音声境界設定部34(図3参照)に送
る。
微分関数であり、ピッチ関数の変化率を表している。隣
り合うアクセント句の境界においては、ピッチ関数の変
化率が大きくなる。ピッチ関数の変化率が所定のしきい
値Th2を越えたときに、ピッチパターンの「立て直
し」が生じたと判定される。そして、たとえば、しきい
値Th2を越えた各区間の中央が、アクセント句の境界
として検出される。音声境界検出部23は、アクセント
句の境界を検出したときには、音声境界信号を音声メモ
リ回路14内の音声境界設定部34(図3参照)に送
る。
【0058】リセット信号が出力されたときには、出力
アドレスポインタ初期化部36は、音声境界ポインタ3
5に記憶されている音声境界アドレスが、読み出しアド
レスとなるように出力アドレスポインタ33を制御す
る。したがって、リセット信号出力直後においては、ア
クセント句の先頭から音声データが読み出される。
アドレスポインタ初期化部36は、音声境界ポインタ3
5に記憶されている音声境界アドレスが、読み出しアド
レスとなるように出力アドレスポインタ33を制御す
る。したがって、リセット信号出力直後においては、ア
クセント句の先頭から音声データが読み出される。
【0059】図9は、さらに他の話速変換回路の例を示
している。図9において、図2または図7と同じものに
は、同じ符号を付してその説明を省略する。
している。図9において、図2または図7と同じものに
は、同じ符号を付してその説明を省略する。
【0060】この話速変換回路では、無音区間判定部2
1によって音声境界が検出されるとともに、音声境界検
出部23によっても音声境界が検出される。無音区間検
出部21は、無音区間の後の音声区間の開始点を検出す
ることによって音声境界を検出する。無音区間検出部2
1は、音声境界を検出したときに、第1音声境界信号を
生成して音声メモリ回路114に出力する。
1によって音声境界が検出されるとともに、音声境界検
出部23によっても音声境界が検出される。無音区間検
出部21は、無音区間の後の音声区間の開始点を検出す
ることによって音声境界を検出する。無音区間検出部2
1は、音声境界を検出したときに、第1音声境界信号を
生成して音声メモリ回路114に出力する。
【0061】音声境界検出部24は、ピッチパターンの
「立て直し」を検出することによって、アクセント句の
境界を検出する。音声境界検出部24は、アクセント句
の境界を検出したときに、第2の音声境界信号を生成し
て音声メモリ回路114に出力する。
「立て直し」を検出することによって、アクセント句の
境界を検出する。音声境界検出部24は、アクセント句
の境界を検出したときに、第2の音声境界信号を生成し
て音声メモリ回路114に出力する。
【0062】図10は、図9の音声メモリ回路114の
詳細を示している。図10において、図3と同じものに
は同じ符号を付してその説明を省略する。
詳細を示している。図10において、図3と同じものに
は同じ符号を付してその説明を省略する。
【0063】この音声メモリ回路114では、音声境界
設定部134、234および音声境界ポインタ135、
235が2つずつ設けられている。
設定部134、234および音声境界ポインタ135、
235が2つずつ設けられている。
【0064】第1音声境界設定部134には、無音区間
検出部21からの第1音声境界信号が送られてくる。第
1音声境界設定部134は、無音区間検出部21によっ
て検出された音声境界に対応する音声データが入力され
るアドレス(以下、第1音声境界アドレスという)を入
力アドレスポインタ32から取得して、第1音声境界ポ
インタ135に設定する。
検出部21からの第1音声境界信号が送られてくる。第
1音声境界設定部134は、無音区間検出部21によっ
て検出された音声境界に対応する音声データが入力され
るアドレス(以下、第1音声境界アドレスという)を入
力アドレスポインタ32から取得して、第1音声境界ポ
インタ135に設定する。
【0065】第2音声境界設定部234には、音声境界
検出部23からの第2音声境界信号が送られてくる。第
2音声境界設定部234は、音声境界検出部24によっ
て検出された音声境界に対応する音声データが入力され
るアドレス(以下、第2音声境界アドレスという)を入
力アドレスポインタ32から取得して、第2音声境界ポ
インタ235に設定する。
検出部23からの第2音声境界信号が送られてくる。第
2音声境界設定部234は、音声境界検出部24によっ
て検出された音声境界に対応する音声データが入力され
るアドレス(以下、第2音声境界アドレスという)を入
力アドレスポインタ32から取得して、第2音声境界ポ
インタ235に設定する。
【0066】いずれの音声境界設定部134、234
も、当該音声境界設定部134、234に音声境界信号
が送られてくる度に、音声境界アドレスを獲得して音声
境界ポインタ135、136に設定するので、音声境界
ポインタ135、136には最新の音声境界アドレスの
みが記憶される。
も、当該音声境界設定部134、234に音声境界信号
が送られてくる度に、音声境界アドレスを獲得して音声
境界ポインタ135、136に設定するので、音声境界
ポインタ135、136には最新の音声境界アドレスの
みが記憶される。
【0067】蓄積量検出部22からのリセット信号は、
出力ポインタ初期化部36に送られる。出力ポインタ初
期化部36は、リセット信号が入力されたときに、第1
音声境界ポインタ135および第2音声境界ポインタ2
35に設定されている第1および第2音声境界アドレス
のうち、いずれか一方を選択する。そして、選択した音
声境界アドレスが出力アドレスとして指定されるよう
に、出力アドレスポインタ33を制御する。
出力ポインタ初期化部36に送られる。出力ポインタ初
期化部36は、リセット信号が入力されたときに、第1
音声境界ポインタ135および第2音声境界ポインタ2
35に設定されている第1および第2音声境界アドレス
のうち、いずれか一方を選択する。そして、選択した音
声境界アドレスが出力アドレスとして指定されるよう
に、出力アドレスポインタ33を制御する。
【0068】第1および第2音声境界アドレスのうちの
いずれか一方の選択は、たとえば次のように行われる。
すなわち、第2音声境界アドレスを選択した場合に、音
声データの削除量がリングメモリ31の半分以上になる
場合には、第2音声境界アドレスを選択し、そうでない
場合には第1音声境界アドレスを選択する。
いずれか一方の選択は、たとえば次のように行われる。
すなわち、第2音声境界アドレスを選択した場合に、音
声データの削除量がリングメモリ31の半分以上になる
場合には、第2音声境界アドレスを選択し、そうでない
場合には第1音声境界アドレスを選択する。
【0069】この理由について説明する。第1境界アド
レスは無音区間と音声区間との境界を音声境界として、
設定されたものである。したがって、第1境界アドレス
は一般的に単語と単語との境界または音節と音節との境
界に対応する。これに対して、第2境界アドレスはアク
セント句の境界を音声境界として、設定されたものであ
る。リセット後にリングメモリ31から出力されるまと
まりのある単位文字列としては、単語や音節よりもアク
セント句を選択することが、その意味を理解しやすいと
いう点で好ましい。
レスは無音区間と音声区間との境界を音声境界として、
設定されたものである。したがって、第1境界アドレス
は一般的に単語と単語との境界または音節と音節との境
界に対応する。これに対して、第2境界アドレスはアク
セント句の境界を音声境界として、設定されたものであ
る。リセット後にリングメモリ31から出力されるまと
まりのある単位文字列としては、単語や音節よりもアク
セント句を選択することが、その意味を理解しやすいと
いう点で好ましい。
【0070】しかしながら、アクセント句は単語や音節
より一般に長いため、アクセント句に対応する第2境界
アドレスに読み出しアドレスを設定したときには、音声
データ削除量が少なくなり、リセット後において未読出
データ蓄積量がリングメモリ31の容量に達し易くな
る。そこで、音声データの削除量がリングメモリ31の
半分以上になる場合に第2音声境界アドレスを選択し、
それ以外は第1音声境界アドレスを選択しているのであ
る。
より一般に長いため、アクセント句に対応する第2境界
アドレスに読み出しアドレスを設定したときには、音声
データ削除量が少なくなり、リセット後において未読出
データ蓄積量がリングメモリ31の容量に達し易くな
る。そこで、音声データの削除量がリングメモリ31の
半分以上になる場合に第2音声境界アドレスを選択し、
それ以外は第1音声境界アドレスを選択しているのであ
る。
【0071】したがって、この話速変換回路では、リセ
ット信号出力直後においては、第1境界アドレスによっ
て区切られた単語、音節等の音声区間の先頭または第2
境界アドレスによって区切られたアクセント句の先頭か
ら音声データが読み出される。
ット信号出力直後においては、第1境界アドレスによっ
て区切られた単語、音節等の音声区間の先頭または第2
境界アドレスによって区切られたアクセント句の先頭か
ら音声データが読み出される。
【0072】なお、この話速変換回路が、標準再生時に
おいて出力音声速度を遅くさせるために英語学習器に適
用されている場合には、制御部20による時間軸圧縮伸
長に用いられる圧縮率αは、1以上の値に設定される。
圧縮率がたとえば3/2に設定された場合には、2ピッ
チ周期が3ピッチ周期になるように音声データが伸長さ
れる。このため、出力音声速度は、標準音声速度の3/
2倍となる。
おいて出力音声速度を遅くさせるために英語学習器に適
用されている場合には、制御部20による時間軸圧縮伸
長に用いられる圧縮率αは、1以上の値に設定される。
圧縮率がたとえば3/2に設定された場合には、2ピッ
チ周期が3ピッチ周期になるように音声データが伸長さ
れる。このため、出力音声速度は、標準音声速度の3/
2倍となる。
【0073】
【発明の効果】この発明によれば、音声メモリ内の未読
出データ蓄積量が所定量に達することによりリセット信
号が出力された直後において、単語、音節、句等のまた
まりのある単位文字列の先頭から音声が出力されるよう
にできる。このため、リセット信号が出力された直後に
おいて意味のわからない音声が出力されるのを回避する
ことができる。
出データ蓄積量が所定量に達することによりリセット信
号が出力された直後において、単語、音節、句等のまた
まりのある単位文字列の先頭から音声が出力されるよう
にできる。このため、リセット信号が出力された直後に
おいて意味のわからない音声が出力されるのを回避する
ことができる。
【図1】ビデオテープレコーダの概略構成を示す構成図
である。
である。
【図2】図1の話速変換回路の構成を示すブロック図で
ある。
ある。
【図3】図2の音声メモリ回路の構成を示すブロック図
である。
である。
【図4】PICORAを用いた時間軸圧縮伸長法を説明
するための模式図である。
するための模式図である。
【図5】2倍速再生時の、リングメモリ内の未読出デー
タ蓄積量の変化、入力音声および出力音声を示すタイム
チャートである。
タ蓄積量の変化、入力音声および出力音声を示すタイム
チャートである。
【図6】リセット信号が出力された際に、読み出しアド
レスが変更される様子を示す模式図である。
レスが変更される様子を示す模式図である。
【図7】話速変換回路の他の例を示すブロック図であ
る。
る。
【図8】アクセント句の境界の検出方法を説明するため
の図であって、入力音声のピッチ関数およびその微分関
数の変化を示すタイムチャートである。
の図であって、入力音声のピッチ関数およびその微分関
数の変化を示すタイムチャートである。
【図9】話速変換回路のさらに他の例を示すブロック図
である。
である。
【図10】図9の音声メモリ回路の構成を示すブロック
図である。
図である。
【図11】本出願が既に発明した話速変換装置におけ
る、2倍速再生時のリングメモリ内の未読出データ蓄積
量の変化、入力音声および出力音声を示すタイムチャー
トである。
る、2倍速再生時のリングメモリ内の未読出データ蓄積
量の変化、入力音声および出力音声を示すタイムチャー
トである。
10 話速変換回路 11 A/D変換器 12 音声処理用メモリ 13 音声圧縮伸長回路 14、114 音声メモリ回路 15 D/A変換器 20 制御部 21 無音区間検出部 22 蓄積量検出部 23 音声境界検出部 31 リングメモリ 32 入力アドレスポインタ 33 出力アドレスポインタ 34、134、234 音声境界設定部 35、135、235 音声境界ポインタ 36 出力アドレスポインタ初期化部
Claims (6)
- 【請求項1】 音声の所定区間を削除し、当該削除区間
の前後の音声を接続する話速変換装置であって、削除区
間後の音声の先頭が単位文字列の先頭になるように削除
区間を設定したことを特徴とする話速変換装置。 - 【請求項2】 入力音声信号から得られた音声データを
音声メモリに順次書き込んだ後、音声メモリ内の音声デ
ータを順次読み出して出力する話速変換装置であって、 入力音声信号を分析して音声の境界位置を検出し、検出
された音声の境界位置に対応する音声データの音声メモ
リへの書き込みアドレスを保持する境界位置検出手段、
および音声メモリ内の未読出データ蓄積量が所定量に達
したときに、音声データ読み出しアドレスを、境界位置
検出手段に保持されているアドレスに変更する手段、 を備えていることを特徴とする話速変換装置。 - 【請求項3】 入力音声信号から得られた音声データが
順次書き込まれる音声メモリおよび音声メモリ内の音声
データを順次読み出して出力する出力手段を備えた話速
変換装置であって、 入力音声信号を分析して音声の境界位置を検出する境界
位置検出手段、 検出された音声の境界位置に対応する音声データの音声
メモリへの書き込みアドレスを記憶する境界位置記憶手
段、および音声メモリ内の未読出データ蓄積量が所定量
に達したときに、音声データ読み出しアドレスを、境界
位置記録手段に記憶されているアドレスに変更する手
段、 を備えていることを特徴とする話速変換装置。 - 【請求項4】 入力音声信号のうち、無音区間の音声が
削除され、音声区間の音声信号が時間軸圧縮伸長処理さ
れ、時間軸圧縮伸長処理結果が音声データとして音声メ
モリに順次書き込まれる請求項2および3のいずれかに
記載の話速変換装置。 - 【請求項5】 境界位置検出手段は、入力音声信号の無
音区間と音声区間との境界を音声境界として検出するも
のである請求項2、3および4のいずれかに記載の話速
変換装置。 - 【請求項6】 境界位置検出手段は、入力音声信号から
入力音声の高低変化に基づいて、アクセント句の境界
を、音声境界として検出するものである請求項2、3お
よび4のいずれかに記載の話速変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7013171A JPH08202391A (ja) | 1995-01-30 | 1995-01-30 | 話速変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7013171A JPH08202391A (ja) | 1995-01-30 | 1995-01-30 | 話速変換装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08202391A true JPH08202391A (ja) | 1996-08-09 |
Family
ID=11825741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7013171A Pending JPH08202391A (ja) | 1995-01-30 | 1995-01-30 | 話速変換装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08202391A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255894A (ja) * | 2000-03-13 | 2001-09-21 | Sony Corp | 再生速度変換装置及び方法 |
US7711444B2 (en) | 2005-02-15 | 2010-05-04 | Sony Corporation | Audio input/output control apparatus and audio input/output control method |
-
1995
- 1995-01-30 JP JP7013171A patent/JPH08202391A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255894A (ja) * | 2000-03-13 | 2001-09-21 | Sony Corp | 再生速度変換装置及び方法 |
US7711444B2 (en) | 2005-02-15 | 2010-05-04 | Sony Corporation | Audio input/output control apparatus and audio input/output control method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5611018A (en) | System for controlling voice speed of an input signal | |
JPH08212228A (ja) | 要約文作成装置および要約音声作成装置 | |
JP3881620B2 (ja) | 話速可変装置及び話速変換方法 | |
EP0829851A2 (en) | Voice speed converter | |
JPS5982608A (ja) | 音声の再生速度制御方式 | |
JP2001184100A (ja) | 話速変換装置 | |
JPH09152889A (ja) | 話速変換装置 | |
JPH08202391A (ja) | 話速変換装置 | |
JP3378672B2 (ja) | 話速変換装置 | |
JP3357742B2 (ja) | 話速変換装置 | |
JP3081469B2 (ja) | 話速変換装置 | |
JP2001222300A (ja) | 音声再生装置および記録媒体 | |
JPH07191695A (ja) | 話速変換装置 | |
JPH0573089A (ja) | 音声再生方法 | |
JPH09146587A (ja) | 話速変換装置 | |
JP2962777B2 (ja) | 音声信号の時間軸伸長圧縮装置 | |
JPH08292796A (ja) | 再生装置 | |
JP3201327B2 (ja) | 録音再生装置 | |
JPH10214098A (ja) | 音声変換玩具 | |
JPH05303400A (ja) | 音声再生装置と音声再生方法 | |
JP4648183B2 (ja) | 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2001154684A (ja) | 話速変換装置 | |
JP3189597B2 (ja) | 音声時間軸変換装置 | |
JPH08255000A (ja) | 音声信号再生装置 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 |